KR100875915B1 - 정보추출 군집화 시스템 및 그 방법 - Google Patents

정보추출 군집화 시스템 및 그 방법 Download PDF

Info

Publication number
KR100875915B1
KR100875915B1 KR1020060113050A KR20060113050A KR100875915B1 KR 100875915 B1 KR100875915 B1 KR 100875915B1 KR 1020060113050 A KR1020060113050 A KR 1020060113050A KR 20060113050 A KR20060113050 A KR 20060113050A KR 100875915 B1 KR100875915 B1 KR 100875915B1
Authority
KR
South Korea
Prior art keywords
clustering
criteria
protein
features
new
Prior art date
Application number
KR1020060113050A
Other languages
English (en)
Other versions
KR20070061347A (ko
Inventor
박성희
김대희
박찬용
박선희
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to EP06125615A priority Critical patent/EP1796009A3/en
Priority to US11/635,447 priority patent/US7716169B2/en
Priority to JP2006331889A priority patent/JP2007157164A/ja
Publication of KR20070061347A publication Critical patent/KR20070061347A/ko
Application granted granted Critical
Publication of KR100875915B1 publication Critical patent/KR100875915B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

정보추출 군집화 시스템 및 그 방법이 개시된다. 군집화 기준 설계부는 다수의 군집화 기준들을 계층별로 재구성하거나 군집화 기준들에 가중치를 부여하여 새로운 군집화 기준을 설계하고, 입력 데이터 처리부는 새로운 군집화 기준에 따라 입력 데이터로부터 해당 특징들을 추출하며, 군집화 연산부는 추출된 특징들을 군집화한다. 이로써, 사용자가 원하는 기준에 따라 다양한 군집화를 수행할 수 있다.

Description

정보추출 군집화 시스템 및 그 방법{System for clustering by information extraction and method therefor}
도 1은 본 발명에 따른 정보추출 군집화 시스템의 일 실시예의 구성을 도시한 도면,
도 2는 본 발명에 따른 정보추출 군집화 방법의 일 실시예의 흐름을 도시한 흐름도,
도 3의 단백질 3차원 구조 데이터 베이스 자료의 일 예를 도시한 도면, 그리고,
도 4는 본 발명에 따른 군집화 기준 설계의 일 예를 도시한 도면이다.
본 발명은 입력 데이터로부터 유용한 정보를 추출하여 군집화하는 시스템 및 그 방법에 관한 것으로, 보다 상세하게는 사용자가 원하는 기준에 의하여 군집화를 수행할 수 있도록 하는 시스템 및 그 방법에 관한 것이다.
많은 데이터로부터 정보를 추출하는 가장 일반적인 방법 중에 군집화(clustering)가 있다. 이 방법은 감독자가 없이 입력된 데이터로부터 군집 즉, " 자연적으로" 유사특성을 지니는 집단을 형성하도록 하는 것이다. 자연적으로 군집을 형성하도록 하는 기준은 일반적으로 특정 군집화 시스템 내에서 미리 정의되어 있다. 따라서, 이러한 군집화는 일반적으로 군집화 시스템에 정의된 기준에 의존하게 되며 사용자가 원하는 기준에 의해서 군집화를 실험하는 것이 제한을 받게 된다.
본 발명이 이루고자 하는 기술적 과제는, 종래의 다양한 군집화 기준들을 사용자가 원하는 기준에 따라 재구성하고, 그 재구성된 기준에 따라 입력 데이터로부터 유용한 정보를 추출하여 군집화를 수행하는 시스템 및 그 방법을 제공하는 데 있다.
상기의 기술적 과제를 달성하기 위한, 본 발명에 따른 정보추출 군집화 시스템의 일 실시예는, 다수의 군집화 기준들을 계층별로 재구성하거나 상기 군집화 기준들에 가중치를 부여하여 새로운 군집화 기준을 설계하는 군집화 기준 설계부; 상기 새로운 군집화 기준에 따라 입력 데이터로부터 해당 특징들을 추출하는 입력 데이터 처리부; 및 상기 추출된 특징들을 군집화하는 군집화 연산부;를 포함한다.
상기의 기술적 과제를 달성하기 위한, 본 발명에 따른 정보추출 군집화 방법의 일 실시예는, 다수의 군집화 기준들을 계층별로 재구성하거나 상기 군집화 기준들에 가중치를 부여하여 새로운 군집화 기준을 설계하는 단계; 상기 새로운 군집화 기준에 따라 입력 데이터로부터 해당 특징들을 추출하는 단계; 및 상기 추출된 특 징들을 군집화하는 단계;를 포함한다.
이로써, 사용자가 원하는 기준에 따라 다양한 군집화를 수행할 수 있다.
도 1은 본 발명에 따른 정보추출 군집화 시스템의 일 실시예의 구성을 도시한 도면이다.
도 1을 참조하면, 정보추출 군집화 시스템은 군집화 기준 저장/삭제부(100), 군집화 기준 데이터베이스(110), 군집화 기준 설계부(120), 입력 데이터 처리부(130), 군집화용 특징 데이터베이스(140) 및 군집화 연산부(150)를 포함한다.
군집화 기준 저장/삭제부(100)는 사용자로부터 군집화 기준을 입력받아 군집화 기준 데이터베이스(110)에 저장하거나, 사용자의 요청에 따라 군집화 기준 데이터베이스(110)에 저장된 군집화 기준을 삭제한다.
군집화 기준 데이터베이스(110)는 군집화 기준 저장/삭제부(100)를 통해 저장되는 군집화 기준을 저장한다.
군집화 기준 설계부(120)는 군집화 기준 데이터베이스(110)에 저장된 군집화 기준들을 요청하여 전송받은 후, 군집화 기준들을 계층별로 재구성하거나 상기 군집화 기준들에 가중치를 부여하여 새로운 군집화 기준를 설계한다. 군집화 기준 설계부(120)가 군집화 기준 데이터베이스(110)로부터 전송받은 군집화 기준들을 재구성하는 방법으로는 계층구조형태(도 4의 410,420) 및 가중치적용형태(도 4의 430,440)의 기준 재구성 방법이 있다.
가중치적용의 기준 재구성 방법에서 군집화 기준들(criteria)을 C1,C2,...,Cn이라고 하고, 각 군집화 기준들에 부여되는 가중치를 w1,w2,...wn이라 고 한다면, w1*C1 + w2*C2 +...+ wn*Cn과 같이 군집화 기준을 설정한다.
입력 데이터 처리부(130)는 군집화 기준 설계부(120)에 의해 설계된 계층 또는 가중치 적용의 기준식에 정의된 특징 추출 방법에 따라 필요한 특징들을 추출하여 군집화용 특징 데이터베이스(140)에 전송한다.
군집화용 특징 데이터베이스(140)는 군집화에 사용될 특징들을 입력 데이터 처리부(130)로부터 전송받아 저장한다. 군집화 연산부(150)가 동일한 특징들에 대해 다른 군집화 방법을 이용하여 군집화를 수행하는 경우, 군집화용 특징 데이터베이스(140)에 저장된 특징들을 그대로 이용함으로써 입력 데이터 처리부(130)의 특징 추출 시간을 줄일 수 있다.
군집화 연산부(150)는 군집화용 특징 데이터베이스(140)로부터 특징들을 전송받아 군집화를 수행한다. 군집화 수행의 결과는 출력 장치를 통해 출력된다.
도 2는 본 발명에 따른 정보추출 군집화 방법의 일 실시예의 흐름을 도시한 흐름도이다. 특히, 도 2는 도 1의 정보추출 군집화 시스템을 단백질 구조 기반 군집화 시스템으로 사용하는 경우의 일 실시예이다.
도 1 및 도 2를 참조하면, 입력 데이터 처리부(130)는 단백질 3차원 구조 데이터 베이스(PDB:protein data bank)의 자료를 입력 데이터로 입력받는다(S200). 도 3의 단백질 3차원 구조 데이터 베이스 자료의 일 예를 도시한 도면이다. 도 3을 참조하면, 단백질 3차원 구조 데이터베이스 자료에는 단백질을 구성하는 원자들의 위치정보(3차원 x,y,z 좌표값)가 포함되어 있다.
군집화 기준 설계부(120)는 군집화 기준 데이터베이스(110)에 저장된 군집화 기준들을 재구성하여 군집화 기준을 설계한다(S210). 군집화 기준 데이터베이스(110)에 저장된 군집화 기준들은 클래스 형태로 존재하므로, 자식 기준 클래스들은 부모 기준 클래스들을 상속한다.
도 2에서 설명하는 단백질 구조기반 군집화의 예에서 사용되는 군집화 기준의 종류로는 "2차 구조의 개수", "2차 구조의 분포", "2차 구조 순서", "단백질 서열", "3D 에지 히스토그램(edge histogram)", "회귀분석(regresion)", "라마찬드란맵기준" 등이 있다.
예를 들어, 신약을 개발하고자 하는 연구자의 경우, 유사한 활성부위별로 군집화를 하고자 하는 경우, 사용자는 "활성부위" 군집화 기준을 군집화 기준 저장/삭제부(100)를 통해 군집화 기준 데이터베이스(110)에 저장한다. 그러면 군집화 기준 설계부(120)는 군집화 기준 데이터베이스(110)에 저장된 기존의 여러가지 군집화 기준들과 "활성부위" 군집화 기준을 재구성하여 군집화 기준을 새롭게 설계한다.
또 다른 예로써, 2차 구조라는 특징적인 단백질 구조에 대하여 군집화를 수행한 후 전체적으로 3차원 구조가 유사한 단백질로 군집화를 하고자 하는 경우, "2차 구조 개수" 또는 "2차 구조 분포" 군집화 기준으로 먼저 군집화를 수행한 후 그 결과를 "3D 에지 히스토그램" 또는 "회귀분석" 군집화 기준으로 군집화를 수행하면 원하는 구조적 군집화 결과를 얻을 수 있다.
군집화 기준 설계를 통한 계층적 설계의 경우에는, 단백질의 전체적인 3차원 구조로 먼저 군집화를 수행한 후 2차 구조 개소에 대한 군집화를 수행할 수 있다.
또한, 가중치 적용 설계방법을 이용하는 경우에는, "2차 구조 개수" 군집화 기준에는 0.3의 가중치를 부여하고, "3D 에지 히스토그램" 군집화 기준에는 0.7의 가중치를 부여하여 군집화연산을 이용할 수 있다(도 4 참조). 여기에, "활성부위" 군집화 기준에 대하여 검색을 하고 싶을 때는 활성부위 군집화 기준을 추가하여 군집화를 수행할 수 있다.
입력 데이터 처리부(130)는 군집화 기준 설계부(120)에 의해 설계된 군집화 기준에 따라 입력 데이터로부터 특징들을 추출하여 군집화용 특징 데이터베이스(140)에 저장한다(S220). 즉, 군집화에 사용될 여러가지 정보를 추출한다.
예를 들어, 단백질 구조 기반 군집화를 위해 추출되는 특징들을 살펴보면, "2차 구조 개수" 군집화 기준의 경우에는 먼저 각 단백질의 구성원자의 좌표를 입력 데이터로 입력받고, 그 구성원자의 좌표간의 거리와 구성결합력을 참조하여 2차 구조가 α-Helix 인지 β-Helix인지를 구분하여 그 개수를 구한다. 즉, 표 1과 같은 테이블을 구한다.
단백질 명 α-Helix β-Helix
Protein-1 10 5
Protein-2 5 2
... ... ...
Protein-N 4 3
2차 구조 순서를 군집화 기준으로 하는 경우 추출되는 특징은 2차 구조의 N 터미널에서 C 터미널 방향으로 형성된 2차구조의 순서(sequence)이다. 이 특징을 비교할 때는 일반적으로 서열분석에 사용되는 스트링매칭 유사도가 적용된다.
3D 에지 히스토그램을 군집화 기준으로 하는 경우 추출되는 특징은 단백질의 백본을 구성하는 원자들간의 겹합선들의 지역적인 분포 패턴이다.
회귀분석을 군집화 기준으로 하는 경우, 단백질 구조 전체영역을 64개의 부 영역으로 나눠서 각 영역에 포함된 regression 그래프를 특징으로 삼는다.
라마찬드란 맵을 군비화 기준으로 하는 경우 추출되는 특징은 라마찬드란맵의 각 영역에 존재하는 φ와 χ 의 개수이다.
군집화 연산부(150)는 입력 데이터 처리부에 의해 추출된 특징들을 가지고 군집화를 수행한다. 군집화 연산부는 군집화 수행을 위해 먼저 군집화 방법을 선택한다(S230). 군집화 방법들은 종래의 여러가지 방법들을 활용할 수 있으며, 거리 기반의 군집화 방법을 예로 들면, K-menas, ISODATA(Iterative Self Organizing Data Techinique), SOM(Self Organizing Map), Hierarchical clustering 방법 등이 적용될 수 있다. 군집화에 사용되는 여러가지 초가값 및 군집화 인자들은 초기화 설정과정에서 설정될 수 있다.
군집화 연산부(150)는 선택된 군집화 방법에 따라 군집화를 수행하고(S240), 군집화 결과를 수락할 수 있는 경우에는(S250), 그 결과를 출력 장치를 통해 출력한다(S260).
예를 들어, 단백질 구조기반 군집화 시스템에서, 군집화 과정 후 군집화된 결과는 계층적 기준설계의 경우 전체적인 군집화의 트리모양의 계층이고, 가중치 기반의 기준설계의 경우 군집화 계층트리에서 루트로부터 첫번째 자식노도로만 형성되는 계층트리이다. 군집화결과 계층트리에서 각 노드를 선택하면 노드에 포함된 군집의 각 자료(sample)들을 볼 수 있다.
본 발명의 정보추출 군집화 방법은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
본 발명에 따르면, 일반적으로 군집화 시스템 내에 미리 정의되는 하나 또는 그 이상의 기준들을 재구성하여 사용자로 하여금 군집화 시스템을 효율적으로 사용할 수 있도록 한다.

Claims (9)

  1. 삭제
  2. 삭제
  3. 삭제
  4. 단백질 구조에 대한 다수의 군집화 기준들을 계층별로 재구성하거나 상기 군집화 기준들에 가중치를 부여하여 새로운 군집화 기준을 설계하는 군집화 기준 설계부;
    상기 새로운 군집화 기준에 따라 단백질 3차원 구조 데이터베이스로부터 해당 특징들을 추출하는 입력 데이터 처리부; 및
    상기 추출된 특징들을 군집화하는 군집화 연산부; 및
    상기 입력 데이터 처리부에 의해 추출된 특징들을 저장하는 군집화용 특징 데이터베이스;를 포함하고,
    상기 군집화 연산부는 상기 군집화용 특징 데이터베이스에 저장된 특징들에 대해 군집화를 수행하는 것을 특징으로 하는 정보추출 군집화 시스템.
  5. 단백질 구조에 대한 다수의 군집화 기준들을 계층별로 재구성하거나 상기 군집화 기준들에 가중치를 부여하여 새로운 군집화 기준을 설계하는 군집화 기준 설계부;
    상기 새로운 군집화 기준에 따라 단백질 3차원 구조 데이터베이스로부터 해당 특징들을 추출하는 입력 데이터 처리부; 및
    상기 추출된 특징들을 군집화하는 군집화 연산부;를 포함하고,
    상기 다수의 군집화 기준들은 2차 구조의 개수, 2차 구조의 분포, 2차 구조의 순서, 단백질 서열, 3D 에지 히스토그램, 회귀분석, 라마찬드란맵을 포함하는 단백질 구조에 관한 군집화 기준들을 포함하는 것을 특징으로 하는 정보추출 군집화 시스템.
  6. 단백질 구조에 대한 다수의 군집화 기준들을 계층별로 재구성하거나 상기 군집화 기준들에 가중치를 부여하여 새로운 군집화 기준을 설계하는 군집화 기준 설계부;
    상기 새로운 군집화 기준에 따라 단백질 3차원 구조 데이터베이스로부터 해당 특징들을 추출하는 입력 데이터 처리부; 및
    상기 추출된 특징들을 군집화하는 군집화 연산부;를 포함하고,
    상기 군집화 연산부는 K-means, ISODATA(Iterative Self organizing Data Technique), SOM(Self Organizing Map), 계층적 군집화를 포함하는 군집화 방법 중 어느 하나의 군집화 방법을 기초로 상기 특징들을 군집화하는 것을 특징으로 하는 정보추출 군집화 시스템.
  7. 삭제
  8. 단백질 구조에 대한 다수의 군집화 기준들을 계층별로 재구성하거나 상기 군집화 기준들에 가중치를 부여하여 새로운 군집화 기준을 설계하는 단계;
    상기 새로운 군집화 기준에 따라 단백질 3차원 구조 데이터베이스로부터 해당 특징들을 추출하는 단계; 및
    상기 추출된 특징들을 군집화하는 단계;를 포함하고,
    상기 다수의 군집화 기준들은 2차 구조의 개수, 2차 구조의 분포, 2차 구조의 순서, 단백질 서열, 3D 에지 히스토그램, 회귀분석, 라마찬드란맵을 포함하는 단백질 구조에 관한 군집화 기준들을 포함하는 것을 특징으로 하는 정보추출 군집화 방법.
  9. 단백질 구조에 대한 다수의 군집화 기준들을 계층별로 재구성하거나 상기 군집화 기준들에 가중치를 부여하여 새로운 군집화 기준을 설계하는 단계;
    상기 새로운 군집화 기준에 따라 단백질 3차원 구조 데이터베이스로부터 해당 특징들을 추출하는 단계; 및
    상기 추출된 특징들을 군집화하는 단계;를 포함하고,
    상기 군집화 단계는 K-means, ISODATA(Iterative Self Organizing Data Technique), SOM(Self Organizing Map), 계층적 군집화를 포함하는 군집화 방법 중 어느 하나의 군집화 방법을 기초로 상기 특징들을 군집화하는 단계를 포함하는 것을 특징으로 하는 정보추출 군집화 방법.
KR1020060113050A 2005-12-08 2006-11-15 정보추출 군집화 시스템 및 그 방법 KR100875915B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP06125615A EP1796009A3 (en) 2005-12-08 2006-12-07 System for and method of extracting and clustering information
US11/635,447 US7716169B2 (en) 2005-12-08 2006-12-07 System for and method of extracting and clustering information
JP2006331889A JP2007157164A (ja) 2005-12-08 2006-12-08 情報抽出群集化システム及びその方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020050119469 2005-12-08
KR20050119469 2005-12-08

Publications (2)

Publication Number Publication Date
KR20070061347A KR20070061347A (ko) 2007-06-13
KR100875915B1 true KR100875915B1 (ko) 2008-12-26

Family

ID=38357271

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060113050A KR100875915B1 (ko) 2005-12-08 2006-11-15 정보추출 군집화 시스템 및 그 방법

Country Status (1)

Country Link
KR (1) KR100875915B1 (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100982484B1 (ko) * 2008-05-19 2010-09-16 (주)프레이맥스 최적 설계 데이터의 산출 방법 및 장치
KR101179497B1 (ko) 2008-12-22 2012-09-07 한국전자통신연구원 얼굴 검출 방법 및 장치
KR101503513B1 (ko) * 2013-10-28 2015-03-18 한국과학기술원 어휘 나무 생성 방법 및 장치
KR102261474B1 (ko) * 2019-07-12 2021-06-07 주식회사 젠큐릭스 자동 경계화를 이용한 데이터 처리 방법 및 시스템
KR102090239B1 (ko) * 2019-10-04 2020-03-17 주식회사 모비젠 계층융합통계정보를 활용한 고속이상탐지방법 및 그 시스템

Also Published As

Publication number Publication date
KR20070061347A (ko) 2007-06-13

Similar Documents

Publication Publication Date Title
Yuan et al. Index-based densest clique percolation community search in networks
US10318557B2 (en) Hilbert curve partitioning for parallelization of DBSCAN
Aggarwal et al. Data clustering
Papadopoulos et al. Community detection in social media: Performance and application considerations
CN100541486C (zh) 对数据的函数应用的结果进行结构化索引
Lu et al. Source free transfer learning for text classification
Bijuraj Clustering and its Applications
US7716169B2 (en) System for and method of extracting and clustering information
US10002180B2 (en) Landmark point selection
Zaw et al. Web document clustering using cuckoo search clustering algorithm based on levy flight
TW200426627A (en) Information retrieval and text mining using distributed latent semantic indexing
CN103210368A (zh) 软件应用程序识别
KR100875915B1 (ko) 정보추출 군집화 시스템 및 그 방법
Huang et al. QCC: A novel clustering algorithm based on quasi-cluster centers
Moser et al. Joint cluster analysis of attribute and relationship data withouta-priori specification of the number of clusters
US7634487B2 (en) System and method for index reorganization using partial index transfer in spatial data warehouse
CN114287000A (zh) 信息检索和/或可视化方法
Thomasian et al. A decomposition solution to the queueing network model of the centralized DBMS with static locking
Yuan et al. I/O efficient ECC graph decomposition via graph reduction
Manolopoulos et al. R-trees have grown everywhere
KR102215082B1 (ko) Cnn 기반 이미지 검색 방법 및 장치
Šubelj Convex skeletons of complex networks
Banerjee A survey on mining and analysis of uncertain graphs
Kang et al. STUN: Querying spatio-temporal uncertain (social) networks
Bhattacharjee et al. WSM: a novel algorithm for subgraph matching in large weighted graphs

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
J201 Request for trial against refusal decision
B701 Decision to grant
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20121129

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20131128

Year of fee payment: 6

LAPS Lapse due to unpaid annual fee