KR101374379B1 - 동시 발생 빈발 부분 그래프를 이용한 그래프 분류 장치 및 방법 - Google Patents

동시 발생 빈발 부분 그래프를 이용한 그래프 분류 장치 및 방법 Download PDF

Info

Publication number
KR101374379B1
KR101374379B1 KR1020110100236A KR20110100236A KR101374379B1 KR 101374379 B1 KR101374379 B1 KR 101374379B1 KR 1020110100236 A KR1020110100236 A KR 1020110100236A KR 20110100236 A KR20110100236 A KR 20110100236A KR 101374379 B1 KR101374379 B1 KR 101374379B1
Authority
KR
South Korea
Prior art keywords
graph
frequent
feature
frequent partial
occurrence
Prior art date
Application number
KR1020110100236A
Other languages
English (en)
Other versions
KR20130035735A (ko
Inventor
이영구
한용구
박기성
Original Assignee
경희대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 경희대학교 산학협력단 filed Critical 경희대학교 산학협력단
Priority to KR1020110100236A priority Critical patent/KR101374379B1/ko
Publication of KR20130035735A publication Critical patent/KR20130035735A/ko
Application granted granted Critical
Publication of KR101374379B1 publication Critical patent/KR101374379B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

본 발명은 동시 발생 빈발 부분 그래프를 이용한 그래프 분류 방법으로, 그래프 데이터베이스로부터 빈발 부분 그래프를 마이닝하는 단계와, 상기 빈발 부분 그래프 마이닝에 의해 생성된 빈발 부분 그래프 특징 집합에서 동시 발생 빈발 부분 그래프 특징을 고려하여 가장 변별력이 높은 동시 발생 빈발 부분 그래프 특징을 선택하는 단계와, 상기 선택된 동시 발생 빈발 부분 그래프 특징의 포함 여부에 따라 상기 그래프 데이터 베이스를 분할하는 단계를 포함한다.

Description

동시 발생 빈발 부분 그래프를 이용한 그래프 분류 장치 및 방법{Apparatus and Graph Classification using Co-occurrent Frequent Subgraphs}
본 발명은 그래프 분류 기술에 관한 것으로, 특히 빈발 부분 그래프를 이용한 그래프 분류 장치 및 방법에 관한 것이다.
그래프 분류(graph classification)는 화합물, 소셜 네트워크, XML 문서 등과 같이 그래프로 모델링된 데이터를 분류하는 기술이다. 그래프 분류를 위해 그래프의 구조적 정보를 반영하는 빈발 부분그래프(frequent subgraph)들이 널리 사용되고 있다.
빈발 부분그래프 특징 기반 그래프 분류 연구들은 일반적으로 특징 벡터 구성 단계와 분류 모델 학습 단계를 갖는다. 특징 벡터 구성 단계에서는 그래프 DB로부터 빈발 부분그래프를 마이닝한다. 그런데, 그래프 DB에서 일반적으로 수 만개의 빈발 부분그래프가 생성되기 때문에 분류에 변별력 있는 특징 선택(feature selection) 과정이 요구된다. 이 중에 변별력 있는 빈발 부분그래프들을 선택하여 특징 벡터를 구성한다. 분류 모델 학습 단계에서는 특징 벡터로 표현된 그래프 데이터를 이용하여 분류 모델을 학습시킨다.
기존 그래프 분류 연구들에서는 개별 빈발 부분그래프의 변별력만을 고려하는 인포메이션 게인(information gain)과 같은 필터 타입(filter-type) 특징 선택 기법을 많이 사용한다. SFS(sequential forward selection)와 같은 래퍼 타입(wrapper-type) 특징 선택 기법은 필터 타입에 비교하여 높은 변별력의 특징들을 선택할 수 있지만 너무 긴 수행시간 때문에 복잡한 구조의 그래프 모델 분류에서는 사용되기 어렵다. 최근에는 그래프 내에서 유사한 분포로 나타나는 빈발 패턴을 특징으로 사용하는 방법, 그래프 커널(graph kernel) 기반 특징 선택 방법들이 제안 되었다. 그런데, 기존의 연구들은 개별 빈발 부분그래프의 변별력만을 고려하여 특징을 선택하고 있다.
도 1은 동시에 발생하는 특징의 변별력을 설명하기 위한 도면이다.
도 1을 참조하면, 동시에 발생하는 부분그래프들의 변별력이 개별 부분그래프들보다 높음을 알 있다. '+'와 '-'는 각각 '+'클래스에 속하는 그래프와 '-' 클래스에 속하는 그래프들을 나타낸다. 원은
Figure 112011076884672-pat00001
부분그래프만을 가지고 있는 그래프를, 삼각형은
Figure 112011076884672-pat00002
부분그래프만을 가지는 있는 그래프를, 그리고, 사각형은
Figure 112011076884672-pat00003
Figure 112011076884672-pat00004
를 동시에 가지고 있는 그래프를 나타낸다.
Figure 112011076884672-pat00005
을 가지는 그래프들과
Figure 112011076884672-pat00006
를 가지는 그래프들은 두 가지 클래스에 고르게 분포가 되어 있기 때문에 높은 변별력을 가질 수 없다. 그러나,
Figure 112011076884672-pat00007
Figure 112011076884672-pat00008
가 동시에 발생하는 그래프들은 '+'클래스에만 속하기 때문에 좋은 변별력을 가질 수 있다.
그러나, 종래의 특징 선택 방법은 낮은 변별력을 갖는 개별 빈발 부분그래프들의 변별력만을 고려할 뿐, 본원 발명에서와 같이 동시발생을 고려하여 높은 변별력을 가질 수 있다는 점을 반영하지 못한다.
본 발명은 빈발 부분그래프의 동시 발생을 고려하여 특징을 선택하는 동시발생 빈발 부분그래프를 이용한 그래프 분류 장치 및 방법을 제안한다.
또한, 본 발명은 모델 기반 탐색 트리를 적용한 동시 발생 빈발 부분 그래프를 이용한 그래프 분류 장치 및 방법을 제안한다.
본 발명은 동시 발생 빈발 부분 그래프를 이용한 그래프 분류 방법으로, 그래프 데이터베이스로부터 빈발 부분 그래프를 마이닝하는 단계와, 상기 빈발 부분 그래프 마이닝에 의해 생성된 빈발 부분 그래프 특징 집합에서 동시 발생 빈발 부분 그래프 특징을 고려하여 가장 변별력이 높은 동시 발생 빈발 부분 그래프 특징을 선택하는 단계와, 상기 선택된 동시 발생 빈발 부분 그래프 특징의 포함 여부에 따라 상기 그래프 데이터 베이스를 분할하는 단계를 포함한다.
본 발명은 동시 발생 빈발 부분 그래프를 이용한 그래프 분류 장치로, 그래프 분류 대상인 그래프들 및 그래프들의 정보를 저장하는 그래프 데이터베이스와, 상기 그래프 데이터베이스로부터 빈발 부분 그래프를 마이닝하는 그래프 마이닝부와, 상기 그래프 마이닝부에 의해 출력되는 하나 이상의 빈발 부분 그래프 특징 집합을 저장하는 빈발 부분 그래프 저장부와, 상기 빈발 부분 그래프 특징 집합에서 동시 발생 빈발 부분 그래프 특징을 고려하여 가장 변별력이 높은 동시 발생 빈발 부분 그래프 특징을 선택하는 동시 발생 빈발 부분 그래프 특징 선택부와, 상기 선택된 동시 발생 빈발 부분 그래프 특징의 포함 여부에 따라 상기 그래프 데이터 베이스를 분할하는 데이터베이스 분할부를 포함한다.
본 발명은 마이닝된 빈발 부분그래프들로 구성된 특징 집합들 중에 빈발 부분그래프들의 개별적인 변별력뿐만 아니라 동시 발생 변별력을 함께 고려하여 분류에 더 유용한 특징들을 선택한다. 또한 지수 시간 복잡도를 갖는 동시발생 빈발 부분그래프의 탐색 공간에서 변별력이 높은 특징을 효율적으로 선택하기 위하여, 그리디 탐색 방법을 사용하여 탐색시간을 줄인다.
도 1은 동시에 발생하는 특징의 변별력을 설명하기 위한 도면이다.
도 2는 본 발명에 따른 모델 기반 탐색 트리를 설명하기 위한 도면이다.
도 3은 본 발명의 바람직한 실시 예에 따른 동시 발생 빈발 부분 그래프를 이용한 그래프 분류 장치를 도시한 도면이다.
도 4는 본 발명의 바람직한 실시 예에 따른 동시 발생 빈발 부분그래프를 이용한 그래프 분류 방법을 설명하기 위한 순서도이다.
도 5는 특징-그래프 행렬을 나타낸 도면이다.
도 6은 본 발명의 바람직한 실시 예에 따른 동시 발생 빈발 부분 그래프 특징 선택 방법을 설명하기 위한 순서도이다.
도 7은 높은 지지도를 갖는 패턴의 개수를 설명하기 위한 도면이다.
도 8은 본 발명에 따른 그래프 분류의 정확도 비교를 위한 도면이다.
도 9는 모델 기반 탐색 트리 구축 시작을 도시한 도면이다.
이하, 첨부된 도면을 참조하여 기술되는 바람직한 실시 예를 통하여 본 발명을 당업자가 용이하게 이해하고 재현할 수 있도록 상세히 기술하기로 한다.
본 발명을 설명함에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명 실시 예들의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다.
그리고, 명세서 전반에 걸쳐 사용되는 용어들은 본 발명 실시 예에서의 기능을 고려하여 정의된 용어들로서, 사용자 또는 운용자의 의도, 관례 등에 따라 충분히 변형될 수 있는 사항이므로, 이 용어들의 정의는 본 발명의 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
본 발명은 마이닝된 빈발 부분그래프들 중에 빈발 부분그래프들의 개별적인 변별력뿐만 아니라 동시 발생 변별력을 함께 고려하여 분류에 더 유용한 특징들을 선택하고, 선택된 특징을 이용하여 그래프 분류를 수행하는 장치 및 방법을 제안한다.
한편, 최근에는 벡터 구성 단계와 분류 모델 학습 단계를 통합한 형태의 모델 기반 탐색 트리(model based search tree: MbT)가 제안되었다.
도 2는 모델 기반 탐색 트리를 설명하기 위한 도면이다.
도 2를 참조하면, 모델 기반 탐색 트리는 가장 높은 변별력을 가지는 빈발 부분그래프를 선택하고, 이 부분그래프를 기준으로 그래프 DB를 두 개의 부분 DB로 반복적으로 분할하면서 탑-다운 방식으로 구축된다. 분할된 부분 DB 중에 선택된 특징을 포함하는 DB의 모든 그래프들은 선택된 특징을 포함하게 된다. 따라서, 다음 분할 단계에서 선택될 특징은 이전에 선택된 특징과 서로 중복되지 않기 때문에 분류 성능이 향상된다.
따라서, 본 발명은 이러한 모델 기반 탐색 트리를 기반으로 하는 그래프 분류 방식을 적용한다. 즉, 그래프 DB의 분할 기준을 본 발명의 바람직한 실시 예에 따라 선택된 동시 발생 빈발 부분 그래프 특징(COFSF)의 포함 여부로 한다.
도 3은 본 발명의 바람직한 실시 예에 따른 동시 발생 빈발 부분 그래프를 이용한 그래프 분류 장치의 개략적인 블록 구성도이다.
도 3을 참조하면, 본 발명의 바람직한 실시 예에 따른 동시 발생 빈발 부분 그래프를 이용한 그래프 분류 장치는 그래프 DB(10), 그래프 마이닝부(20), 빈발 부분 그래프 정보 저장부(30), 동시 발생 빈발 부분 그래프 특징 선택부(40) 및 DB 분할부(50)를 포함한다.
그래프 분류 장치는 버텍스(vertex) 및 에지(edge)로 구성되는 그래프로 표현 가능한 다양한 형태의 데이터 예를 들어, 화합물 데이터, 네트워크 분석용 네트워크 데이터를 분류하기 위한 데이터 분석 및 분류 장치일 수 있으며, 컴퓨터, 휴대 단말 등 다양한 형태로 구현될 수 있다.
그래프 DB(10)는 그래프 분류 대상인 그래프들 및 그래프들의 정보를 포함한다.
그래프 마이닝부(20)는 그래프 DB(10)에 저장된 그래프들로부터 빈발 부분 그래프 집합을 추출하여, 빈발 부분 그래프 정보 저장부(30)에 저장한다.
그래프 마이닝부(20)는 그래프 DB(10)의 그래프들에 대하여 gSpan(Graph-Based Substructure Pattern Mining), FSG(Frequent Subgraph) 마이닝 등과 같은 빈발 부분 그래프 마이닝 알고리즘을 사용하여 빈발 부분그래프 집합 F={fi, f2, f3,..., fn}을 추출할 수 있다. 그래프 마이닝부(20)는 최소 지지도(minimum support)를 이용하여 빈발 부분 그래프 마이닝을 수행한다. 빈발 부분 그래프 마이닝에서 최소 지지도란 부분 그래프가 그래프 DB(10)내에서 최소한으로 발생해야 하는 빈발도(frequency)를 의미한다.
만약, 최소 지지도를 낮게 설정한다면, 빈발 부분 그래프를 가지고 있는 그래프 인스턴스의 수가 적은 경우에도, 최소 지지도가 만족되어, 대부분 낮은 분류 성능을 가지고 있는 부분 그래프들이 추출될 수 있다. 또한, 연산량이 증가하여 수행시간이 급격히 증가하게 된다. 반면, 최소 지지도를 높게 설정한다면, 상이한 클래스에 속하는 대부분의 그래프 인스턴스들이 빈발 부분 그래프를 가지게 되므로, 유용한 분류 성능을 갖는 빈발 부분 그래프들을 추출하지 못할 수 있다. 종래에 최소 지지도와 분류 성능과의 관계를 실험을 통하여 확인한 결과에 따르면, 데이터 셋의 특성에 따라 차이는 발생하지만 일반적으로 최소 지지도가 10~15%사이의 값을 가질 때 유용한 분류 성능을 갖는 빈발 부분 그래프 집합을 얻을 수 있었음 알려져 있다.
동시 발생 빈발 부분 그래프 특징 선택부(40)는 빈발 부분 그래프 저장부(30)에서 동시 발생을 고려한 특징을 선택하여 유용한 특징을 선택해낸다. 이때, 동시 발생 빈발 부분 그래프 특징의 선택은 그리디 방법을 사용한다. 이에 대한 상세한 설명은 후술하는 동시 발생 빈발 부분 그래프 특징 선택 방법에서 상세히 설명하기로 한다.
DB 분할부(50)는 동시 발생 빈발 부분 그래프 특징 선택부(40)에 의해 선택된 동시 발생 빈발 부분 그래프 특징의 포함 여부에 따라 그래프 DB(10)를 분할한다. 그리고, 분할된 DB가 소정 개수 이하가 아닐 경우에는 분할된 DB에서 검색을 수행하고, 그렇지 않으면 검색을 중단한다.
도 4는 본 발명의 바람직한 실시 예에 따른 동시 발생 빈발 부분그래프를 이용한 그래프 분류 방법을 설명하기 위한 순서도이다.
도 4에 도시된 동시 발생 빈발 부분그래프를 이용한 그래프 분류 방법은 다음의 <표 1>와 같은 알고리즘 1로 구현될 수 있다. <표 1>의 알고리즘 1은 COFSF를 이용한 모델 기반 탐색 트리의 알고리즘 COFSF_based_SearchTree이다. 알고리즘 1은 그래프 DB와 최소 지지도 s, 노드 내의 최소 그래프 개수 m을 입력받아, 그래프 분류 트리 모델 T를 반환한다.
<표 1>
Figure 112011076884672-pat00009
도 4 및 <표 1>의 알고리즘 1을 참조하면, 그래프 마이닝부(20)는 110 단계에서 빈발 부분그래프 마이닝
Figure 112011076884672-pat00010
을 수행하여 전체 빈발 부분그래프 집합 F를 마이닝한다.(<표 1>의 알고리즘의 line 1). 그리고, 각 그래프(
Figure 112011076884672-pat00011
)에 대하여 특징(
Figure 112011076884672-pat00012
)의 포함 여부를 나타내는 특징-그래프 행렬 M을 하기의 <수학식 1>과 같이 생성한다(<표 1>의 알고리즘의 line 2).
<수학식 1>
Figure 112011076884672-pat00013
상기 <수학식 1>에서 M의 (i, j) 엔트리는 i번째 그래프가 j번째 빈발 부분그래프를 포함하고 있음을 의미한다.
도 5는 그래프 DB(10)가
Figure 112011076884672-pat00014
이고, 빈발 부분그래프 집합이
Figure 112011076884672-pat00015
일 때, 특징-그래프 행렬을 구성하는 예제이다. 이 행렬로부터
Figure 112011076884672-pat00016
Figure 112011076884672-pat00017
Figure 112011076884672-pat00018
를 가지고 있고,
Figure 112011076884672-pat00019
Figure 112011076884672-pat00020
Figure 112011076884672-pat00021
를 갖는 정보를 쉽게 찾을 수 있다.
그리고, 동시 발생 빈발 부분 그래프 특징 선택부(40)는 120 단계에서 동시발생 특징 선택 함수 COFS(F, M)을 이용하여 가장 변별력이 높은 동시 발생 빈발 부분그래프를
Figure 112011076884672-pat00022
를 찾는다(<표 1> 알고리즘 1의 line 3).
도 6은 본 발명의 바람직한 실시 예에 따른 동시 발생 빈발 부분 그래프 특징 선택 방법을 설명하기 위한 순서도이다.
도 6에 도시된 동시 발생 빈발 부분 그래프 특징 선택 방법은 하기의 <표 2>의 알고리즘 2와 같이 구현될 수 있다.
<표 2>
Figure 112011076884672-pat00023
도 6 및 <표 2>의 알고리즘을 참조하면, 동시 발생 빈발 부분 그래프 특징 선택부(40)는 121 단계에서 전체 빈발 부분 그래프 특징 집합에서 가장 변별력이 높은 베스트 빈발 부분 그래프 특징을 선택한다.
본 발명에서는 분류 문제에서 특징의 변별력 평가를 위하여 하기의 <수학식 2>의 인포메이션 게인 평가 함수를 사용한다.
<수학식 2>
Figure 112011076884672-pat00024
클래스
Figure 112011076884672-pat00025
분류 문제에서 특징 f의 인포메이션 게인을 가정할 때, x는 부분그래프 f를 가지고 있는 그래프이고, P(x)는 그래프들이 f를 가지고 있을 확률이다. P(c)는 전체 그래프들이 각 클래스
Figure 112011076884672-pat00026
에 속할 확률이고,
Figure 112011076884672-pat00027
는 f를 가지고 있는 그래프가 클래스
Figure 112011076884672-pat00028
에 속할 확률이다.
다시 알고리즘 2를 이용하여 살펴보면, 우선 인포메이션 게인 평가 함수 infoGain()을 사용하여 특징
Figure 112011076884672-pat00029
중에 가장 높은 변별력을 갖는 BestF를 찾아
Figure 112011076884672-pat00030
에 넣는다.
그리고, 동시 발생 빈발 부분 그래프 특징 선택부(40)는 122 단계에서 베스트 빈발 부분 그래프 특징과 다른 빈발 부분 그래프 특징과의 동시 발생 특징의 변별력을 계산한다. 즉,
Figure 112011076884672-pat00031
Figure 112011076884672-pat00032
에 선택되지 않은 각 특징
Figure 112011076884672-pat00033
(
Figure 112011076884672-pat00034
)의 동시 발생 특징의 변별력을 계산한다.
그리고, 123 단계에서 이들 중에 가장 높은 동시 발생 특징의 변별력이 기존
Figure 112011076884672-pat00035
의 변별력보다 높은지를 판단한다.
123 단계의 판단 결과 가장 높은 동시 발생 특징의 변별력이 기존
Figure 112011076884672-pat00036
의 변별력보다 클 경우, 동시 발생 빈발 부분 그래프 특징 선택부(40)는 124 단계에서 동시 발생 빈발 부분 그래프를 베스트 빈발 부분 그래프 특징에 추가한다.
그러나, 123 단계의 판단 결과, 만약 변별력이 더 높지 않으면 동시 발생 빈발 부분 그래프 특징 선택부(40)는 특징 선택 알고리즘을 종료하고,
Figure 112011076884672-pat00037
를 반환한다. 전술한 121 단계 내지 124 단계의 과정은 전체 특징 집합과 선택 부분 집합이 같아질 때(
Figure 112011076884672-pat00038
)까지 반복(line 2-11)된다.
다시 도 4를 참조하면, 130 단계에서 DB 분할부(50)는 그래프 DB(10)를
Figure 112011076884672-pat00039
를 기준으로(알고리즘 1의 line 4)
Figure 112011076884672-pat00040
를 갖는 그래프들로 구성된 데이터베이스(
Figure 112011076884672-pat00041
)(알고리즘 1의 line 5)과 갖지 않은 그래프들로 구성된 데이터베이스(
Figure 112011076884672-pat00042
)(알고리즘 1의 line 6)로 분할한다.
그리고, 140 단계에서 분할된 데이터베이스, 즉,
Figure 112011076884672-pat00043
또는
Figure 112011076884672-pat00044
을 구성하는 분할 그래프들의 개수가 최소 노드 개수 m 이하의 클래스 레이블을 가지는지 판단한다.
상기 140 단계의 판단 결과 분할 그래프들의 개수가 최소 노드 개수 m보다 이하일 경우, DB 분할부(50)는 150 단계에서 분할을 중지한다(알고리즘 1의 line 7-8).
그러나, 상기 140 단계의 판단 결과 분할 그래프들의 개수가 최소 노드 개수 m보다 이하가 아닐 경우, 분할 그래프들(
Figure 112011076884672-pat00045
Figure 112011076884672-pat00046
)로 110 단계 내지 140 단계를 반복적으로 수행되도록 한다(알고리즘 1의 line 10). 그리고, DB 분할부(50)는 최종적으로 그래프 분류 트리 모델 T를 반환한다.
그런데, 가장 변별력이 높은 COFSF를 기준으로 분할된 부분 DB
Figure 112011076884672-pat00047
(COFSF 포함)과 (COFSF 미포함)
Figure 112011076884672-pat00048
중에
Figure 112011076884672-pat00049
은 모든 그래프가 COFSF를 포함하기 때문에 구조적으로 유사할 확률이 크다. 따라서,
Figure 112011076884672-pat00050
내의 그래프들은 많은 수의 부분그래프들을 함께 가지고 있다.
도 7은 MCF-7 데이터를 최소 지지도 25%를 사용하여 모델 기반 탐색 트리를 구축할 때, 트리의 깊이와 각 트리의 깊이에서 분할된 부분 DB들에서 높은 지지도(70% 이상)로 발생하는 부분그래프들의 개수의 관계를 보여주는 그래프이다.
높은 지지도의 부분그래프들의 개수는 트리의 깊이에 따라 점차 증가하다가 트리의 깊이 4와 같은 특정 지점에서 급격히 감소되는 경향이 있다. 이와 같은 급격한 변화는 높은 지지도를 갖는 부분그래프를 많이 포함하고 있는
Figure 112011076884672-pat00051
의 분할이 끝난 깊이에서 발생한다.
본 발명에서는 높은 지지도로 발생하는 특징들은 분류에 도움이 되지 않는다는 성질을 활용하여, 이와 같은 특징들을 제거하고 COFSF의 변별력을 측정한다. 모델 기반 탐색 트리에서는 마이닝된 빈발 부분그래프 개수가 매우 많은 노드가 있기 때문에, 특징 선택 시 많은 연산량을 줄이는 효과가 있다.
실험을 통하여 제안하는 기법이 기존의 개별 특징 선택 기법보다 더 높은 그래프 분류 성능을 보이는 것을 입증하였다.
<실험 환경 및 실험 데이터>
실험을 위하여 암에 대한 효과의 유무 정보가 있는 화합물들로 구성된 MCF-7(유방암), OVCAR(난소암), SW-620(대장암) 데이터 셋을 사용하였다. 각 데이터 셋들에 대하여 암에 효과가 있는 클래스 데이터 100개와 효과가 없는 클래스 데이터 400개를 샘플링하여 훈련용 데이터 셋으로 사용하여 기존의 모델 기반 탐색 트리와 동시 발생 특징 기반 그래프 분류 트리를 각각 구축하였다. 그리고 각 2000개의 테스트 데이터를 이용하여 분류 성능을 평가 및 비교하였다.
특징의 변별력 특정은 인포메이션 게인을 사용하였고 빈발 부분그래프는 gSpan 알고리즘을 사용하였다.
<실험 결과>
도 8은 25%, 30%, 35% 최소지지도 별 그래프 분류의 정확도 실험 결과를 나타낸다. MbT는 기존의 개별 특징 변별력을 이용한 모델 기반 탐색트리이고, COFS는 제안하는 COFSF를 이용한 모델 기반 탐색 트리이다. 제안하는 그래프 분류 방법이 대부분의 경우에서 더 좋은 분류 정확도를 갖는 것을 알 수 있다.
도 9는 제안하는 COFSF를 이용한 모델기반 탐색트리의 구축 시간이 기존의 모델기반 탐색트리보다 더 빠른 것을 보여준다. 제안하는 기법의 가장 높은 변별력의 COFSF 선택은 기존 MbT의 개별 특징들의 변별력만을 고려한 특징 선택보다 더 많은 시간을 요구한다. 그러나 이와 같은 특징 선택에 관련된 시간은 모델기반 탐색트리의 모든 노드마다 수행되는 빈발 부분그래프 마이닝 시간에 비교하면 그 비중이 작다. 제안하는 기법이 더 적은 수행시간이 소요된 것은 모델기반 탐색 트리의 각 노드에 공통된 부분그래프를 공유하는 그래프의 개수가 기존의 방법보다 적기 때문이다. MbT에는 공통된 부분그래프들을 많이 존재하는 노드들(주로 )이 많다. 일반적으로 그래프 DB에 공통된 부분그래프들이 많이 있는 경우 빈발 부분그래프 마이닝 알고리즘의 수행시간이 많이 소요된다.
본 발명은 최근 세계적으로 커다란 이슈가 되고 있는 소셜 네트워크 분석에 활용이 가능하다. SK 컴즈, NHN와 같은 국내의 대표 포털 업체에서도 미투데이 등과 같은 소셜 네트워크 서비스 제공을 시작했다. 이 외에도 많은 제약 업체의 연구소에서 화합물 분석 및 분류에 활용할 수 있다.

Claims (8)

  1. 그래프 데이터베이스로부터 지지도가 소정 최소 지지도 이상인 하나 이상의 빈발 부분 그래프를 마이닝하는 단계와,
    상기 빈발 부분 그래프 마이닝에 의해 생성된 빈발 부분 그래프 특징 집합 에서 지지도가 소정 지지도보다 높은 제 1 빈발 부분 그래프 특징을 제거하는 단계와,
    상기 제 1 빈발 부분 그래프 특징이 제거된 빈발 부분 그래프 특징 집합에서 동시 발생 빈발 부분 그래프 특징을 고려하여 가장 변별력이 높은 동시 발생 빈발 부분 그래프 특징을 선택하는 단계와,
    상기 선택된 동시 발생 빈발 부분 그래프 특징의 포함 여부에 따라 상기 그래프 데이터 베이스를 분할하는 단계를 포함하고,
    상기 제 1 빈발 부분 그래프 특징을 갖는 부분 그래프들의 개수는 트리의 깊이에 따라 점차 증가하다가 분할이 끝난 깊이에서 감소함을 특징으로 하는 동시 발생 빈발 부분 그래프를 이용한 그래프 분류 방법.
  2. 제 1항에 있어서,
    상기 분할된 데이터베이스들에 포함된 그래프가 소정 개수 이하가 아닐 경우, 분할된 데이터베이스들 각각에 대해 상기 빈발 부분 그래프들을 마이닝하는 단계 및 상기 동시 발생 빈발 부분 그래프 특징을 선택하는 단계를 수행함을 특징으로 하는 동시 발생 빈발 부분 그래프를 이용한 그래프 분류 방법.
  3. 제 1항에 있어서, 상기 선택하는 단계는
    전체 빈발 부분그래프 특징 집합에서 최상위 변별력을 가지는 베스트 빈발 부분 그래프를 선택하는 단계와,
    상기 베스트 빈발 부분 그래프와 다른 빈발 부분 그래프의 동시 발생 특징의 변별력을 계산하는 단계와,
    가장 높은 동시 발생 특징의 변별력이 상기 베스트 빈발 부분 그래프의 변별력보다 높으면 동시 발생 빈발 부분 그래프의 특징을 베스트 빈발 부분에 추가하는 단계와,
    가장 높은 동시 발생 특징의 변별력이 상기 베스트 빈발 부분 그래프의 변별력보다 높지 않으면, 특징 선택 알고리즘을 종료하는 단계를 포함함을 특징으로 하는 동시 발생 빈발 부분 그래프를 이용한 그래프 분류 방법.
  4. 삭제
  5. 그래프 분류 대상인 그래프들 및 그래프들의 정보를 저장하는 그래프 데이터베이스와,
    상기 그래프 데이터베이스로부터 지지도가 소정 최소 지지도 이상인 빈발 부분 그래프를 마이닝하고, 상기 마이닝에 의해 생성된 빈발 부분 그래프 특징 집합에서 지지도가 소정 지지도보다 높은 제 1 빈발 부분 그래프 특징을 제거하는 그래프 마이닝부와,
    상기 그래프 마이닝부에 의해 출력되는 하나 이상의 빈발 부분 그래프 특징 집합을 저장하는 빈발 부분 그래프 저장부와,
    상기 제 1 빈발 부분 그래프 특징이 제거된 빈발 부분 그래프 특징 집합에서 동시 발생 빈발 부분 그래프 특징을 고려하여 가장 변별력이 높은 동시 발생 빈발 부분 그래프 특징을 선택하는 동시 발생 빈발 부분 그래프 특징 선택부와,
    상기 선택된 동시 발생 빈발 부분 그래프 특징의 포함 여부에 따라 상기 그래프 데이터 베이스를 분할하는 데이터베이스 분할부를 포함하고,
    상기 제 1 빈발 부분 그래프 특징을 갖는 부분 그래프들의 개수는 트리의 깊이에 따라 점차 증가하다가 분할이 끝난 깊이에서 감소하는 것을 특징으로 하는 동시 발생 빈발 부분 그래프를 이용한 그래프 분류 장치.
  6. 제 5항에 있어서, 상기 데이터베이스 분할부는
    상기 분할된 데이터베이스들에 포함된 그래프가 소정 개수 이하가 아닐 경우, 분할된 데이터베이스들 각각에 대해 상기 빈발 부분 그래프들을 상기 그래프 마이닝부에 출력함을 특징으로 하는 동시 발생 빈발 부분 그래프를 이용한 그래프 분류 장치.
  7. 제 5항에 있어서, 상기 동시 발생 빈발 부분 그래프 특징 선택부는
    전체 빈발 부분그래프 특징 집합에서 최상위 변별력을 가지는 베스트 빈발 부분 그래프를 선택하고, 상기 베스트 빈발 부분 그래프와 다른 빈발 부분 그래프의 동시 발생 특징의 변별력을 계산하고, 상기 가장 높은 동시 발생 특징의 변별력이 상기 베스트 빈발 부분 그래프의 변별력보다 높으면 동시 발생 빈발 부분 그래프의 특징을 베스트 빈발 부분에 추가하고, 가장 높은 동시 발생 특징의 변별력이 상기 베스트 빈발 부분 그래프의 변별력보다 높지 않으면, 종료함을 특징으로 하는 동시 발생 빈발 부분 그래프를 이용한 그래프 분류 장치.
  8. 삭제
KR1020110100236A 2011-09-30 2011-09-30 동시 발생 빈발 부분 그래프를 이용한 그래프 분류 장치 및 방법 KR101374379B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020110100236A KR101374379B1 (ko) 2011-09-30 2011-09-30 동시 발생 빈발 부분 그래프를 이용한 그래프 분류 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020110100236A KR101374379B1 (ko) 2011-09-30 2011-09-30 동시 발생 빈발 부분 그래프를 이용한 그래프 분류 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20130035735A KR20130035735A (ko) 2013-04-09
KR101374379B1 true KR101374379B1 (ko) 2014-03-17

Family

ID=48437491

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020110100236A KR101374379B1 (ko) 2011-09-30 2011-09-30 동시 발생 빈발 부분 그래프를 이용한 그래프 분류 장치 및 방법

Country Status (1)

Country Link
KR (1) KR101374379B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113722551A (zh) * 2021-09-09 2021-11-30 国网电子商务有限公司 一种应用于频繁子图查询的频繁子图索引方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
2011 한국컴퓨터종합학술대회 논문집 Vol.38, No.1(C...)(2011.06.29. 논문제목 : 동시 발생 빈발 부분그래프를 이용한 그래프 분류) *

Also Published As

Publication number Publication date
KR20130035735A (ko) 2013-04-09

Similar Documents

Publication Publication Date Title
JP7125358B2 (ja) 計算機システム及び入力データに対する予測結果の根拠に関する情報の提示方法
CN109858040A (zh) 命名实体识别方法、装置和计算机设备
US20150142732A1 (en) Continuous image analytics
CN112818162B (zh) 图像检索方法、装置、存储介质和电子设备
CN110706015A (zh) 一种面向广告点击率预测的特征选取方法
Zhao et al. Protein pocket detection via convex hull surface evolution and associated Reeb graph
CN106777130B (zh) 一种索引生成方法、数据检索方法和装置
CN112286824A (zh) 基于二分搜索迭代的测试用例生成方法、系统及电子设备
AU2021282537A1 (en) Continuous image analytics
KR101975272B1 (ko) 협업 의존성 기반 컴포넌트 재사용 추천 시스템 및 방법
Ashraf et al. WeFreS: weighted frequent subgraph mining in a single large graph
KR102039244B1 (ko) 반딧불 알고리즘을 이용한 데이터 클러스터링 방법 및 시스템
KR101374379B1 (ko) 동시 발생 빈발 부분 그래프를 이용한 그래프 분류 장치 및 방법
Nguyen et al. A method for efficient clustering of spatial data in network space
CN108830302B (zh) 一种图像分类方法、训练方法、分类预测方法及相关装置
CN110309948A (zh) 整车物流订单预测方法及装置、物流系统以及计算机可读介质
CN114610955A (zh) 一种智能检索方法、装置、电子设备及存储介质
CN114706761A (zh) 一种基于约束分割的混合执行测试优化方法及装置
Jiuqing et al. Cell tracking via structured prediction and learning
de Oliveira et al. Enriching networks with edge insertion to improve community detection
CN109492214A (zh) 属性词识别及其层次构建方法、装置、设备及存储介质
JP6167531B2 (ja) 領域検索方法、領域インデックス構築方法および領域検索装置
US20240020950A1 (en) Pre-Processing for Automatic Topographic Feature Extraction
KR101412231B1 (ko) 동시발생 빈발 부분그래프의 포함관계를 고려한 특징 그룹 생성 방법
Nawaz An Empirical Study of Community Detection Algorithms on Social and Road Networks

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20170201

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20171220

Year of fee payment: 5