KR100875915B1

KR100875915B1 - 정보추출 군집화 시스템 및 그 방법

Info

Publication number: KR100875915B1
Application number: KR1020060113050A
Authority: KR
Inventors: 박성희; 김대희; 박찬용; 박선희
Original assignee: 한국전자통신연구원
Priority date: 2005-12-08
Filing date: 2006-11-15
Publication date: 2008-12-26
Also published as: KR20070061347A

Abstract

정보추출 군집화 시스템 및 그 방법이 개시된다. 군집화 기준 설계부는 다수의 군집화 기준들을 계층별로 재구성하거나 군집화 기준들에 가중치를 부여하여 새로운 군집화 기준을 설계하고, 입력 데이터 처리부는 새로운 군집화 기준에 따라 입력 데이터로부터 해당 특징들을 추출하며, 군집화 연산부는 추출된 특징들을 군집화한다. 이로써, 사용자가 원하는 기준에 따라 다양한 군집화를 수행할 수 있다.

Description

정보추출 군집화 시스템 및 그 방법{System for clustering by information extraction and method therefor}

도 1은 본 발명에 따른 정보추출 군집화 시스템의 일 실시예의 구성을 도시한 도면,

도 2는 본 발명에 따른 정보추출 군집화 방법의 일 실시예의 흐름을 도시한 흐름도,

도 3의 단백질 3차원 구조 데이터 베이스 자료의 일 예를 도시한 도면, 그리고,

도 4는 본 발명에 따른 군집화 기준 설계의 일 예를 도시한 도면이다.

본 발명은 입력 데이터로부터 유용한 정보를 추출하여 군집화하는 시스템 및 그 방법에 관한 것으로, 보다 상세하게는 사용자가 원하는 기준에 의하여 군집화를 수행할 수 있도록 하는 시스템 및 그 방법에 관한 것이다.

많은 데이터로부터 정보를 추출하는 가장 일반적인 방법 중에 군집화(clustering)가 있다. 이 방법은 감독자가 없이 입력된 데이터로부터 군집 즉, " 자연적으로" 유사특성을 지니는 집단을 형성하도록 하는 것이다. 자연적으로 군집을 형성하도록 하는 기준은 일반적으로 특정 군집화 시스템 내에서 미리 정의되어 있다. 따라서, 이러한 군집화는 일반적으로 군집화 시스템에 정의된 기준에 의존하게 되며 사용자가 원하는 기준에 의해서 군집화를 실험하는 것이 제한을 받게 된다.

본 발명이 이루고자 하는 기술적 과제는, 종래의 다양한 군집화 기준들을 사용자가 원하는 기준에 따라 재구성하고, 그 재구성된 기준에 따라 입력 데이터로부터 유용한 정보를 추출하여 군집화를 수행하는 시스템 및 그 방법을 제공하는 데 있다.

상기의 기술적 과제를 달성하기 위한, 본 발명에 따른 정보추출 군집화 시스템의 일 실시예는, 다수의 군집화 기준들을 계층별로 재구성하거나 상기 군집화 기준들에 가중치를 부여하여 새로운 군집화 기준을 설계하는 군집화 기준 설계부; 상기 새로운 군집화 기준에 따라 입력 데이터로부터 해당 특징들을 추출하는 입력 데이터 처리부; 및 상기 추출된 특징들을 군집화하는 군집화 연산부;를 포함한다.

상기의 기술적 과제를 달성하기 위한, 본 발명에 따른 정보추출 군집화 방법의 일 실시예는, 다수의 군집화 기준들을 계층별로 재구성하거나 상기 군집화 기준들에 가중치를 부여하여 새로운 군집화 기준을 설계하는 단계; 상기 새로운 군집화 기준에 따라 입력 데이터로부터 해당 특징들을 추출하는 단계; 및 상기 추출된 특 징들을 군집화하는 단계;를 포함한다.

이로써, 사용자가 원하는 기준에 따라 다양한 군집화를 수행할 수 있다.

도 1은 본 발명에 따른 정보추출 군집화 시스템의 일 실시예의 구성을 도시한 도면이다.

도 1을 참조하면, 정보추출 군집화 시스템은 군집화 기준 저장/삭제부(100), 군집화 기준 데이터베이스(110), 군집화 기준 설계부(120), 입력 데이터 처리부(130), 군집화용 특징 데이터베이스(140) 및 군집화 연산부(150)를 포함한다.

군집화 기준 저장/삭제부(100)는 사용자로부터 군집화 기준을 입력받아 군집화 기준 데이터베이스(110)에 저장하거나, 사용자의 요청에 따라 군집화 기준 데이터베이스(110)에 저장된 군집화 기준을 삭제한다.

군집화 기준 데이터베이스(110)는 군집화 기준 저장/삭제부(100)를 통해 저장되는 군집화 기준을 저장한다.

군집화 기준 설계부(120)는 군집화 기준 데이터베이스(110)에 저장된 군집화 기준들을 요청하여 전송받은 후, 군집화 기준들을 계층별로 재구성하거나 상기 군집화 기준들에 가중치를 부여하여 새로운 군집화 기준를 설계한다. 군집화 기준 설계부(120)가 군집화 기준 데이터베이스(110)로부터 전송받은 군집화 기준들을 재구성하는 방법으로는 계층구조형태(도 4의 410,420) 및 가중치적용형태(도 4의 430,440)의 기준 재구성 방법이 있다.

가중치적용의 기준 재구성 방법에서 군집화 기준들(criteria)을 C1,C2,...,Cn이라고 하고, 각 군집화 기준들에 부여되는 가중치를 w1,w2,...wn이라 고 한다면, w1*C1 + w2*C2 +...+ wn*Cn과 같이 군집화 기준을 설정한다.

입력 데이터 처리부(130)는 군집화 기준 설계부(120)에 의해 설계된 계층 또는 가중치 적용의 기준식에 정의된 특징 추출 방법에 따라 필요한 특징들을 추출하여 군집화용 특징 데이터베이스(140)에 전송한다.

군집화용 특징 데이터베이스(140)는 군집화에 사용될 특징들을 입력 데이터 처리부(130)로부터 전송받아 저장한다. 군집화 연산부(150)가 동일한 특징들에 대해 다른 군집화 방법을 이용하여 군집화를 수행하는 경우, 군집화용 특징 데이터베이스(140)에 저장된 특징들을 그대로 이용함으로써 입력 데이터 처리부(130)의 특징 추출 시간을 줄일 수 있다.

군집화 연산부(150)는 군집화용 특징 데이터베이스(140)로부터 특징들을 전송받아 군집화를 수행한다. 군집화 수행의 결과는 출력 장치를 통해 출력된다.

도 2는 본 발명에 따른 정보추출 군집화 방법의 일 실시예의 흐름을 도시한 흐름도이다. 특히, 도 2는 도 1의 정보추출 군집화 시스템을 단백질 구조 기반 군집화 시스템으로 사용하는 경우의 일 실시예이다.

도 1 및 도 2를 참조하면, 입력 데이터 처리부(130)는 단백질 3차원 구조 데이터 베이스(PDB:protein data bank)의 자료를 입력 데이터로 입력받는다(S200). 도 3의 단백질 3차원 구조 데이터 베이스 자료의 일 예를 도시한 도면이다. 도 3을 참조하면, 단백질 3차원 구조 데이터베이스 자료에는 단백질을 구성하는 원자들의 위치정보(3차원 x,y,z 좌표값)가 포함되어 있다.

군집화 기준 설계부(120)는 군집화 기준 데이터베이스(110)에 저장된 군집화 기준들을 재구성하여 군집화 기준을 설계한다(S210). 군집화 기준 데이터베이스(110)에 저장된 군집화 기준들은 클래스 형태로 존재하므로, 자식 기준 클래스들은 부모 기준 클래스들을 상속한다.

도 2에서 설명하는 단백질 구조기반 군집화의 예에서 사용되는 군집화 기준의 종류로는 "2차 구조의 개수", "2차 구조의 분포", "2차 구조 순서", "단백질 서열", "3D 에지 히스토그램(edge histogram)", "회귀분석(regresion)", "라마찬드란맵기준" 등이 있다.

예를 들어, 신약을 개발하고자 하는 연구자의 경우, 유사한 활성부위별로 군집화를 하고자 하는 경우, 사용자는 "활성부위" 군집화 기준을 군집화 기준 저장/삭제부(100)를 통해 군집화 기준 데이터베이스(110)에 저장한다. 그러면 군집화 기준 설계부(120)는 군집화 기준 데이터베이스(110)에 저장된 기존의 여러가지 군집화 기준들과 "활성부위" 군집화 기준을 재구성하여 군집화 기준을 새롭게 설계한다.

또 다른 예로써, 2차 구조라는 특징적인 단백질 구조에 대하여 군집화를 수행한 후 전체적으로 3차원 구조가 유사한 단백질로 군집화를 하고자 하는 경우, "2차 구조 개수" 또는 "2차 구조 분포" 군집화 기준으로 먼저 군집화를 수행한 후 그 결과를 "3D 에지 히스토그램" 또는 "회귀분석" 군집화 기준으로 군집화를 수행하면 원하는 구조적 군집화 결과를 얻을 수 있다.

군집화 기준 설계를 통한 계층적 설계의 경우에는, 단백질의 전체적인 3차원 구조로 먼저 군집화를 수행한 후 2차 구조 개소에 대한 군집화를 수행할 수 있다.

또한, 가중치 적용 설계방법을 이용하는 경우에는, "2차 구조 개수" 군집화 기준에는 0.3의 가중치를 부여하고, "3D 에지 히스토그램" 군집화 기준에는 0.7의 가중치를 부여하여 군집화연산을 이용할 수 있다(도 4 참조). 여기에, "활성부위" 군집화 기준에 대하여 검색을 하고 싶을 때는 활성부위 군집화 기준을 추가하여 군집화를 수행할 수 있다.

입력 데이터 처리부(130)는 군집화 기준 설계부(120)에 의해 설계된 군집화 기준에 따라 입력 데이터로부터 특징들을 추출하여 군집화용 특징 데이터베이스(140)에 저장한다(S220). 즉, 군집화에 사용될 여러가지 정보를 추출한다.

예를 들어, 단백질 구조 기반 군집화를 위해 추출되는 특징들을 살펴보면, "2차 구조 개수" 군집화 기준의 경우에는 먼저 각 단백질의 구성원자의 좌표를 입력 데이터로 입력받고, 그 구성원자의 좌표간의 거리와 구성결합력을 참조하여 2차 구조가 α-Helix 인지 β-Helix인지를 구분하여 그 개수를 구한다. 즉, 표 1과 같은 테이블을 구한다.

단백질 명	α-Helix	β-Helix
Protein-1	10	5
Protein-2	5	2
...	...	...
Protein-N	4	3

2차 구조 순서를 군집화 기준으로 하는 경우 추출되는 특징은 2차 구조의 N 터미널에서 C 터미널 방향으로 형성된 2차구조의 순서(sequence)이다. 이 특징을 비교할 때는 일반적으로 서열분석에 사용되는 스트링매칭 유사도가 적용된다.

3D 에지 히스토그램을 군집화 기준으로 하는 경우 추출되는 특징은 단백질의 백본을 구성하는 원자들간의 겹합선들의 지역적인 분포 패턴이다.

회귀분석을 군집화 기준으로 하는 경우, 단백질 구조 전체영역을 64개의 부 영역으로 나눠서 각 영역에 포함된 regression 그래프를 특징으로 삼는다.

라마찬드란 맵을 군비화 기준으로 하는 경우 추출되는 특징은 라마찬드란맵의 각 영역에 존재하는 φ와 χ 의 개수이다.

군집화 연산부(150)는 입력 데이터 처리부에 의해 추출된 특징들을 가지고 군집화를 수행한다. 군집화 연산부는 군집화 수행을 위해 먼저 군집화 방법을 선택한다(S230). 군집화 방법들은 종래의 여러가지 방법들을 활용할 수 있으며, 거리 기반의 군집화 방법을 예로 들면, K-menas, ISODATA(Iterative Self Organizing Data Techinique), SOM(Self Organizing Map), Hierarchical clustering 방법 등이 적용될 수 있다. 군집화에 사용되는 여러가지 초가값 및 군집화 인자들은 초기화 설정과정에서 설정될 수 있다.

군집화 연산부(150)는 선택된 군집화 방법에 따라 군집화를 수행하고(S240), 군집화 결과를 수락할 수 있는 경우에는(S250), 그 결과를 출력 장치를 통해 출력한다(S260).

예를 들어, 단백질 구조기반 군집화 시스템에서, 군집화 과정 후 군집화된 결과는 계층적 기준설계의 경우 전체적인 군집화의 트리모양의 계층이고, 가중치 기반의 기준설계의 경우 군집화 계층트리에서 루트로부터 첫번째 자식노도로만 형성되는 계층트리이다. 군집화결과 계층트리에서 각 노드를 선택하면 노드에 포함된 군집의 각 자료(sample)들을 볼 수 있다.

본 발명의 정보추출 군집화 방법은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.

이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

본 발명에 따르면, 일반적으로 군집화 시스템 내에 미리 정의되는 하나 또는 그 이상의 기준들을 재구성하여 사용자로 하여금 군집화 시스템을 효율적으로 사용할 수 있도록 한다.

Claims

삭제
삭제
삭제
단백질 구조에 대한 다수의 군집화 기준들을 계층별로 재구성하거나 상기 군집화 기준들에 가중치를 부여하여 새로운 군집화 기준을 설계하는 군집화 기준 설계부;

상기 새로운 군집화 기준에 따라 단백질 3차원 구조 데이터베이스로부터 해당 특징들을 추출하는 입력 데이터 처리부; 및

상기 추출된 특징들을 군집화하는 군집화 연산부; 및

상기 입력 데이터 처리부에 의해 추출된 특징들을 저장하는 군집화용 특징 데이터베이스;를 포함하고,

상기 군집화 연산부는 상기 군집화용 특징 데이터베이스에 저장된 특징들에 대해 군집화를 수행하는 것을 특징으로 하는 정보추출 군집화 시스템.
단백질 구조에 대한 다수의 군집화 기준들을 계층별로 재구성하거나 상기 군집화 기준들에 가중치를 부여하여 새로운 군집화 기준을 설계하는 군집화 기준 설계부;

상기 새로운 군집화 기준에 따라 단백질 3차원 구조 데이터베이스로부터 해당 특징들을 추출하는 입력 데이터 처리부; 및

상기 추출된 특징들을 군집화하는 군집화 연산부;를 포함하고,

상기 다수의 군집화 기준들은 2차 구조의 개수, 2차 구조의 분포, 2차 구조의 순서, 단백질 서열, 3D 에지 히스토그램, 회귀분석, 라마찬드란맵을 포함하는 단백질 구조에 관한 군집화 기준들을 포함하는 것을 특징으로 하는 정보추출 군집화 시스템.
단백질 구조에 대한 다수의 군집화 기준들을 계층별로 재구성하거나 상기 군집화 기준들에 가중치를 부여하여 새로운 군집화 기준을 설계하는 군집화 기준 설계부;

상기 새로운 군집화 기준에 따라 단백질 3차원 구조 데이터베이스로부터 해당 특징들을 추출하는 입력 데이터 처리부; 및

상기 추출된 특징들을 군집화하는 군집화 연산부;를 포함하고,

상기 군집화 연산부는 K-means, ISODATA(Iterative Self organizing Data Technique), SOM(Self Organizing Map), 계층적 군집화를 포함하는 군집화 방법 중 어느 하나의 군집화 방법을 기초로 상기 특징들을 군집화하는 것을 특징으로 하는 정보추출 군집화 시스템.
삭제
단백질 구조에 대한 다수의 군집화 기준들을 계층별로 재구성하거나 상기 군집화 기준들에 가중치를 부여하여 새로운 군집화 기준을 설계하는 단계;

상기 새로운 군집화 기준에 따라 단백질 3차원 구조 데이터베이스로부터 해당 특징들을 추출하는 단계; 및

상기 추출된 특징들을 군집화하는 단계;를 포함하고,

상기 다수의 군집화 기준들은 2차 구조의 개수, 2차 구조의 분포, 2차 구조의 순서, 단백질 서열, 3D 에지 히스토그램, 회귀분석, 라마찬드란맵을 포함하는 단백질 구조에 관한 군집화 기준들을 포함하는 것을 특징으로 하는 정보추출 군집화 방법.
단백질 구조에 대한 다수의 군집화 기준들을 계층별로 재구성하거나 상기 군집화 기준들에 가중치를 부여하여 새로운 군집화 기준을 설계하는 단계;

상기 새로운 군집화 기준에 따라 단백질 3차원 구조 데이터베이스로부터 해당 특징들을 추출하는 단계; 및

상기 추출된 특징들을 군집화하는 단계;를 포함하고,

상기 군집화 단계는 K-means, ISODATA(Iterative Self Organizing Data Technique), SOM(Self Organizing Map), 계층적 군집화를 포함하는 군집화 방법 중 어느 하나의 군집화 방법을 기초로 상기 특징들을 군집화하는 단계를 포함하는 것을 특징으로 하는 정보추출 군집화 방법.