KR102474042B1

KR102474042B1 - 데이터 마이닝을 이용한 질병 연관성 분석 방법

Info

Publication number: KR102474042B1
Application number: KR1020160005560A
Authority: KR
Inventors: 박수준
Original assignee: 한국전자통신연구원
Priority date: 2016-01-15
Filing date: 2016-01-15
Publication date: 2022-12-06
Also published as: KR20170085876A

Abstract

본 발명의 실시 예에 따른 질병 연관성 분석 방법은 바이오 문헌 분석부가 바이오 문헌을 수집하는 단계, 바이오 문헌 분석부가 수집된 바이오 문헌으로부터 바이오 NE(Named Entity)를 추출하고, 바이오 NE들을 특성에 따라 태깅하고, 바이오 NE들을 제 1 그룹 및 제 2 그룹으로 그룹화하는 단계, 바이오 문헌 분석부가 제 1 그룹의 바이오 NE들 간의 연관성을 분석하고, 제 2 그룹의 바이오 NE들 간의 연관성를 분석하는 단계, 마이닝 패턴 생성부가 제 1 그룹의 제 1 바이오 NE와 제 2 그룹의 제 2 바이오 NE간의 연관성을 발견한 경우, 제 1 바이오 NE와 연관된 제 1 그룹 내의 바이오 NE들과 제 2 바이오 NE와 연관된 제 2 그룹 내의 바이오 NE들을 조합하여 마이닝 패턴을 추출하는 단계 그리고 마이닝 수행부가 바이오 문헌으로부터 추출된 마이닝 패턴과 매칭되는 빈도 또는 마이닝 패턴을 구성하는 바이오 NE들 간의 거리를 분석하여 데이터화하는 단계를 포함할 수 있다.

Description

데이터 마이닝을 이용한 질병 연관성 분석 방법{METHOD FOR ANALYZING ASSOCIATION OF DISEASES USING DATA MINING}

본 발명은 데이터 마이닝에 관한 것으로, 보다 상세하게는 데이터 마이닝을 이용한 질병 연관성 분석 방법에 관한 것이다.

데이터 마이닝이란, 데이터 속에서 유도된 새로운 데이터 모델을 발견하여 미래에 실행 가능한 정보를 추출해 내고 의사 결정에 이용하는 과정을 말한다. 즉 데이터 마이닝은 대용량의 데이터로부터 의미 있는 패턴, 규칙 또는 관계를 찾아 새로운 정보를 생성하는 과정이다. 이러한 데이터 마이닝은 마이닝 패턴을 이용하여 수행되는데, 마이닝 패턴에 따라 다양한 데이터가 생성될 수 있다.

데이터 마이닝 기법은 유전자와 질병 사이의 연관성 분석에 있어 이용될 수 있다. 개인맞춤의학은 개인의 질병 내역 및 환경에 따라 유전체 주석이 어떻게 원인으로 작용하였는지 분석하고, 이를 치료하기 위한 방향을 제시하기 위한 학문이다. 이러한 개인맞춤의학은 질병에 대한 통합적인 지식과 이를 이용한 추론시스템이 가장 중요하게 생각되고 있다. 그러나, 지금까지의 연구방향은 대규모의 환자군으로부터 멀티오믹스(Mulit-Omics) 데이터를 생산하여 이로부터 질병의 방향성을 파악하는 것이 대부분이었다. 즉, 데이터들 간의 연관성을 이용하여 질병을 이해하고자 하는 시도는 많이 이루어지지 않고 있다. 따라서 데이터 마이닝 기법은 유전자와 질병들 간의 연관성에 대한 새로운 정보를 제공할 수 있다.

하지만, 기존의 경우에 마이닝 기법에 이용되는 마이닝 패턴을 생성함에 있어 유전자와 질병 간의 정보를 가공하지 않고 그대로 이용하였다. 따라서 이러한 요소들 간의 연관성을 효과적으로 분석하기 위한 다양한 마이닝 패턴을 생성하지 못하는 한계가 있었다.

본 발명은 상술한 문제를 해결하기 위한 것으로, 본 발명의 목적은 유전자와 질병들 간의 연관성 정보 및 그룹 정보를 이용하여 마이닝 패턴을 생성하고, 이를 이용하여 새로운 연관성 정보를 생성하는 질병 연관성 분석 방법을 제공하는데 있다.

본 발명의 실시 예에 따르면, 유전자와 질병 간의 연관성을 효과적으로 분석할 수 있으며 질병에 관한 새로운 분류 체계를 제공할 수 있다.

본 발명의 실시 예들은 제한적인 방법으로서가 아니라 예로서 도시되었으며, 첨부 도면에서 유사한 참조 번호는 유사한 요소를 참조한다.
도 1은 본 발명의 실시 예에 따른 마이닝 시스템을 보여주는 블록도이다.
도 2는 본 발명의 실시 예에 따른 질병 연관성 분석 방법을 보여주는 순서도이다.

앞의 일반적인 설명 및 다음의 상세한 설명 모두 예시적이라는 것이 이해되어야 하며, 청구된 발명의 부가적인 설명이 제공되는 것으로 여겨져야 한다. 참조 부호들이 본 발명의 바람직한 실시 예들에 상세히 표시되어 있으며, 그것의 예들이 참조 도면들에 표시되어 있다. 가능한 어떤 경우에도, 동일한 참조 번호들이 동일한 또는 유사한 부분을 참조하기 위해서 설명 및 도면들에 사용된다.

이하에서는, 마이닝 시스템이 본 발명의 특징 및 기능을 설명하기 위한 예로서 사용될 것이다. 하지만, 이 기술 분야에 정통한 사람은 여기에 기재된 내용에 따라 본 발명의 다른 이점들 및 성능을 쉽게 이해할 수 있을 것이다. 본 발명은 다른 실시 예들을 통해 또한, 구현되거나 적용될 수 있을 것이다. 게다가, 상세한 설명은 본 발명의 범위, 기술적 사상 그리고 다른 목적으로부터 상당히 벗어나지 않고 관점 및 응용에 따라 수정되거나 변경될 수 있다.

도 1은 본 발명의 실시 예에 따른 마이닝 시스템을 보여주는 블록도이다. 도 1을 참조하면, 마이닝 시스템(100)은 바이오 문헌(110) 및 마이닝 장치(120)를 포함할 수 있다.

바이오 문헌(110)은 마이닝 장치(120)와 연결된다. 예를 들어, 바이오 문헌(110)은 인터넷을 통해 접속 가능한 바이오 문헌 소스 DB(DATA BASE)를 포함할 수 있다. 혹은, 바이오 문헌(110)은 특정 회사 내에 네트워크로 구축되어 바이오 문헌 소스가 저장된 DB를 포함할 수 있다.

마이닝 장치(120)는 바이오 문헌 분석부(121), 소스 DB(122), 마이닝 패턴 생성부(123), 마이닝 패턴 DB(124) 및 마이닝 수행부(125)를 포함할 수 있다. 마이닝 장치(120)는 바이오 문헌(110)들로부터 마이닝 패턴을 생성하여 마이닝을 수행한다. 마이닝 장치(120)는 기본적으로 바이오 NE(Named Entity) 추출 구성들와 관계 추출 구성들로 구분된다. 바이오 NE란 바이오 문헌(110)들로부터 추출된 핵심 용어를 말한다. 바이오 NE 추출 구성들은 바이오 문헌에서 핵심 용어를 인식하여 추출한다. 예를 들어, NE 추출 구성은 바이오 문헌 분석부(121) 및 소스 DB(122)를 포함할 수 있다. 관계 추출 구성들은 NE 간의 연관 관계를 인식하여 추출한다. 예를 들어, 관계 추출 구성은 마이닝 패턴 생성부(123) 및 마이닝 패턴 DB(124)를 포함할 수 있다. NE 추출 구성들과 관계 추출 구성들은 서로 구분되며, 각각 별개로 작업을 수행하게 된다.

바이오 문헌 분석부(121)는 바이오 문헌(110), 소스 DB(122) 및 마이닝 패턴 생성부(123)와 연결된다. 바이오 문헌 분석부(121)는 바이오 문헌(110)에서 핵심 용어를 인식하여 바이오 NE로서 추출한다. 바이오 문헌 분석부(121)는 바이오 문헌(110)를 자연어 처리 기반으로 각각의 요소로 분석하여 바이오 NE를 추출하고, 각각의 바이오 NE에 태그를 매칭시켜 소스 DB(122)에 저장한다. 자연어 처리란 일상 생활 언어를 형태 분석, 의미 분석, 대화 분석 등을 통하여 컴퓨터가 처리할 수 있도록 변환시키는 작업이다. 또한, 바이오 문헌 분석부(121)는 바이오 NE의 태그 정보를 이용하여 바이오 NE들을 그룹화 한다. 더불어 바이오 문헌 분석부(121)는 바이오 NE들 간의 연관 정보를 추출하여 소스 DB(122)에 저장한다. 예를 들어, 태그 정보는 복제수변이(CNV: Copy Number Variation), 단일염기서열변이(SNV: Single Nucleotide Variation)일 수 있다.

소스 DB(122)는 바이오 문헌 분석부(121) 및 마이닝 패턴 생성부(123)와 연결된다. 소스 DB(122)는 바이오 문헌 분석부(121)에 의해 태깅된 바이오 NE들을 저장한다.

마이닝 패턴 생성부(123)는 바이오 문헌 분석부(121), 소스 DB(122), 마이닝 패턴 DB(124) 및 마이닝 수행부(125)와 연결된다. 마이닝 패턴 생성부(123)는 그룹 정보 및 바이오 NE 간의 연관 정보를 이용하여 마이닝 패턴을 추출한다. 이후 마이닝 패턴 생성부(123)는 생성된 마이닝 패턴을 마이닝 패턴 DB(124)에 저장한다.

마이닝 패턴 DB(124)는 마이닝 패턴 생성부(123) 및 마이닝 수행부(125)와 연결된다. 마이닝 패턴 DB(124)는 마이닝 패턴 생성부(123)에 의해 생성된 마이닝 패턴들이 저장된다.

마이닝 수행부(125)는 마이닝 패턴 생성부(123), 마이닝 패턴 DB(124) 및 바이오 문헌(110)과 연결된다. 마이닝 수행부(125)는 마이닝 패턴 생성부(123)가 추출한 마이닝 패턴 혹은 마이닝 패턴 DB(124)로부터 마이닝 패턴을 제공받아 바이오 문헌 (110)에 대해 마이닝을 수행한다. 본 발명의 실시 예에서, 마이닝 수행부(125)는 마이닝 수행에 따른 결과를 데이터화하는 작업을 수행할 수 있다.

본 발명에 따른 질병 연관성 분석 방법은 상술한 마이닝 시스템(100)을 이용하여 수행될 수 있다. 마이닝 시스템(100)의 동작 및 본 발명에 따른 질병 연관성 분석 방법은 도 2를 참조하여 자세히 설명될 것이다.

도 2는 본 발명의 실시 예에 따른 질병 연관성 분석 방법을 보여주는 순서도이다. 도 2를 참조하면, 바이오 NE들의 조합에 의한 다양한 마이닝 패턴이 생성될 수 있다. 또한, 생성된 마이닝 패턴에 의한 마이닝이 수행되고 수행 결과를 데이터화하는 단계를 포함하는 질병 연관성 분석하는 방법이 제공될 수 있다.

S110 단계에서, 바이오 문헌 분석부(121)는 바이오 문헌으로부터 정보를 수집한다. 수집 대상인 바이오 문헌(110)은 마이닝 패턴이 이미 보유된 바이오 문헌 정보외에도 새롭게 발생 되는 바이오 문헌 정보를 포함한다.

S120 단계에서, 바이오 문헌 분석부(121)는 수집된 바이오 문헌으로부터 바이오 NE를 추출하고 그룹화하여 소스 DB(122)를 구축한다. 먼저, 바이오 문헌 분석부(121)는 바이오 문헌의 정보를 자연어 처리 기반으로 각각의 요소로 분석하고 핵심 요소인 바이오 NE를 추출한다. 예를 들어, 바이오 문헌 분석부(121)는 바이오 NE로서 동일어 뿐만 아니라 동의어까지도 추출한다. 이후 바이오 문헌 분석부(121)는 추출된 바이오 NE에 태그를 달아준다. 이후 바이오 문헌 분석부(121)는 바이오 NE의 관련성을 인식하여 그룹화한다. 마지막으로 바이오 문헌 분석부(121)는 태깅된 바이오 NE와 그룹화 정보를 이용하여 소스 DB(122)를 구축한다. 예를 들어, 유전자가 바이오 NE의 예로서 추출될 수 있다. 또한, 각 유전자에 나타난 변이 혹은 특징적인 인자들이 태그로서 각 유전자에 태깅될 수 있다. 이후, 같은 유전자들이 하나의 그룹으로 그룹화될 수 있다. 혹은, 같은 태그를 가진 유전자들을 하나의 그룹으로 그룹화될 수 있다.

S130 단계에서, 바이오 문헌 분석부(121)는 추출된 바이오 NE 간의 연관성을 분석하여 소스 DB(122)에 정보를 저장한다. 바이오 문헌 분석부(121)는 S120 단계에서 그룹 정보와 관계없이 모든 바이오 NE 간의 연관성을 분석하고, 이 정보를 소스 DB(122)에 저장한다. 예를 들어, 한 그룹 내의 바이오 NE들이 수집된 바이오 문헌(110) 중 하나의 문장 안에 있는 경우에 바이오 문헌 분석부(121)는 이들 간에 연관성을 부여할 수 있다. 혹은 바이오 문헌 분석부(121)는 바이오 NE들이 하나의 문단에 있는 경우 이들에 연관성을 부여할 수 있다.

S140 단계에서, 마이닝 패턴 생성부(123)는 소스 DB(122)로부터 마이닝 패턴을 생성한다. 마이닝 패턴 생성부(123)는 소스 DB(122)의 그룹 정보 및 연관성 정보에 의해 바이오 NE들의 조합하여 마이닝 패턴을 생성한다. 예를 들어, 유전자 A, B가 제 1 그룹에 속하고 질병 a, b가 제 2 그룹에 속한다고 가정한다. 또한, 유전자 A와 B가 연관성이 있고 질병 a와 b가 연관성이 있다고 가정한다. 이어 유전자 A와 질병 a 간의 연관성이 발견된 경우, 마이닝 패턴 생성부(123)는 연관성이 발견되지 않은 Ab, Ba, Bb의 패턴을 추가로 생성한다. 즉, 마이닝 패턴 생성부(123)는 연관성 정보를 이용하여 AB, Aa, Ab, Ba, Bb, ab의 총 6개의 패턴을 생성할 수 있다. 따라서 마이닝 패턴 생성부(123)는 연관성 정보 및 그룹 정보를 이용하여 연관성이 없지만 서로 관계가 있을 수 있는 유전자와 질병의 마이닝 패턴들을 생성할 수 있다. 이후 마이닝 패턴 생성부(123)는 생성된 마이닝 패턴으로 마이닝 패턴 DB(124)를 구축한다.

S150 단계에서, 마이닝 수행부(125)는 생성된 마이닝 패턴으로 마이닝을 수행하며 마이닝 결과를 데이터화한다. 먼저, 마이닝 수행부(125)는 마이닝 패턴 DB(124)로부터 생성된 마이닝 패턴을 제공받는다. 이후 마이닝 수행부(125)는 제공받은 마이닝 패턴을 이용하여 바이오 문헌(110)에 대하여 마이닝을 수행한다. 마이닝 수행부(125)는 마이닝에 의한 결과를 처리하여 데이터화 한다. 예를 들어, 마이닝 수행부(125)는 바이오 문헌(110)의 정보와 각각의 마이닝 패턴이 매칭되는 횟수를 카운트하여 매칭 횟수에 따른 연관성 순위에 대한 데이터를 생성할 수 있다. 혹은, 각각의 마이닝 패턴을 구성하는 바이오 NE들 간의 문헌 내의 거리에 따른 연관성 순위에 대한 데이터를 생성할 수 있다. 즉, 바이오 NE들의 거리가 멀다면 연관성이 적고 거리가 가깝다면 연관성이 높다고 판단할 수 있을 것이다.

상술한 단계를 포함하는 질병 연관성 분석하는 방법은 상술한 S110 내지 S150의 단계를 수회 반복적으로 수행되도록 설정될 수 있다. 이 경우, 연관성 정보의 정확도가 증가할 것이다. 이후, 생성된 데이터는 질병의 원인의 해석 및 결과에 대한 예측, 방향성 제시 등의 다양한 방법으로 활용될 수 있다.

이상에서와 같이 도면과 명세서에서 최적 실시 예가 개시되었다. 여기서 특정한 용어들이 사용되었으나, 이는 단지 본 발명을 설명하기 위한 목적에서 사용된 것이지 의미 한정이나 특허청구범위에 기재된 본 발명의 범위를 제한하기 위하여 사용된 것은 아니다. 그러므로 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시 예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.

100 : 마이닝 시스템 110 : 바이오 문헌
120 : 마이닝 장치 121 : 바이오 문헌 분석부
122 : 소스 DB 123 : 마이닝 패턴 생성부
124 : 마이닝 패턴 DB 125 : 마이닝 수행부

Claims

바이오 문헌 분석부, 마이닝 패턴 생성부 및 마이닝 수행부를 포함하는 마이닝 시스템을 이용한 질병 연관성 분석 방법에 있어:
상기 바이오 문헌 분석부가 바이오 문헌을 수집하는 단계;
상기 바이오 문헌 분석부가 상기 수집된 바이오 문헌으로부터 바이오 NE(Named Entity)를 추출하고, 상기 바이오 NE들을 특성에 따라 태깅하고, 상기 바이오 NE들을 제 1 그룹 및 제 2 그룹으로 그룹화하는 단계;
상기 바이오 문헌 분석부가 상기 제 1 그룹의 바이오 NE들 간의 연관성을 분석하고, 상기 제 2 그룹의 바이오 NE들 간의 연관성을 분석하는 단계;
상기 마이닝 패턴 생성부가 상기 제 1 그룹의 제 1 바이오 NE와 상기 제 2 그룹의 제 2 바이오 NE간의 연관성을 발견한 경우, 상기 제 1 바이오 NE와 상기 제 2 그룹의 제 3 바이오 NE를 조합하여 마이닝 패턴을 추출하는 단계로서, 상기 제 1 바이오 NE와 상기 제 3 바이오 NE는 연관성이 없는 것; 그리고
상기 마이닝 수행부가 상기 바이오 문헌으로부터 상기 추출된 마이닝 패턴과 매칭되는 빈도 또는 상기 마이닝 패턴을 구성하는 바이오 NE들 간의 거리를 분석하여 데이터화하는 단계를 포함하는 질병 연관성 분석 방법.
제 1 항에 있어서,
상기 바이오 문헌은 인터넷을 통해 접속 가능한 바이오 문헌 소스 데이터 베이스 또는 특정 회사 내에 네트워크로 구축되어 바이오 문헌 소스가 저장된 데이터 베이스를 포함하는 질병 연관성 분석 방법.
제 1 항에 있어서,
상기 바이오 문헌 분석부가 상기 수집된 바이오 문헌으로부터 상기 바이오 NE를 추출하고, 상기 바이오 NE들을 특성에 따라 태깅하고, 상기 바이오 NE들을 상기 제 1 그룹 및 상기 제 2 그룹으로 그룹화하는 단계는:
상기 바이오 NE의 태깅 정보를 이용하여 같은 태그를 가진 상기 바이오 NE들을 같은 그룹으로 그룹화하는 단계를 포함하는 질병 연관성 분석 방법.
제 1 항에 있어서,
상기 바이오 문헌 분석부가 상기 수집된 바이오 문헌으로부터 상기 바이오 NE를 추출하고, 상기 바이오 NE들을 특성에 따라 태깅하고, 상기 바이오 NE들을 상기 제 1 그룹 및 상기 제 2 그룹으로 그룹화하는 단계는:
상기 바이오 문헌 분석부가 상기 바이오 NE로서 상기 바이오 NE의 동일어 및 상기 바이오 NE의 동의어를 추출하는 단계를 포함하는 질병 연관성 분석 방법.
제 1 항에 있어서,
상기 바이오 문헌 분석부가 상기 제 1 그룹의 바이오 NE들 간의 상기 연관성을 분석하고, 상기 제 2 그룹의 바이오 NE들 간의 상기 연관성을 분석하는 단계는:
수집된 상기 바이오 문헌 중 하나의 문장 또는 하나의 문단 안에 상기 바이오 NE들이 있는 경우 상기 바이오 NE들에 상기 연관성을 부여하는 단계를 포함하는 질병 연관성 분석 방법.
제 1 항에 있어서,
상기 마이닝 수행부가 상기 바이오 문헌으로부터 상기 추출된 마이닝 패턴과 매칭되는 상기 빈도 또는 상기 마이닝 패턴을 구성하는 바이오 NE들 간의 상기 거리를 분석하여 데이터화하는 단계는:
상기 마이닝 수행부가 마이닝 패턴 DB로부터 마이닝 패턴을 제공받는 단계;
상기 마이닝 수행부가 상기 마이닝 패턴을 이용하여 상기 바이오 문헌에 대한 마이닝을 수행하는 단계; 및
상기 마이닝 수행부가 상기 마이닝에 의한 결과를 처리하고 데이터화 하는 단계를 포함하는 질병 연관성 분석 방법.
제 1 항에 있어서,
상기 바이오 문헌 분석부가 상기 수집된 바이오 문헌으로부터 상기 바이오 NE를 추출하고, 상기 바이오 NE들을 특성에 따라 태깅하고, 상기 바이오 NE들을 상기 제 1 그룹 및 상기 제 2 그룹으로 그룹화하는 단계는:
일상 생활 언어를 형태 분석, 의미 분석, 대화 분석 등을 통하여 컴퓨터가 처리할 수 있도록 변환시키는 자연어 처리를 통해 상기 바이오 NE를 추출하는 단계를 포함하는 질병 연관성 분석 방법.
바이오 문헌; 및
상기 바이오 문헌과 연결된 마이닝 장치를 포함하되,
상기 마이닝 장치는:
상기 바이오 문헌으로부터 바이오 NE(Named Entity)를 추출하고, 상기 바이오 NE들을 특성에 따라 태깅하고, 상기 바이오 NE들을 제 1 그룹 및 제 2 그룹으로 그룹화하고, 그리고 상기 제 1 그룹의 바이오 NE들 간의 연관성 및 상기 제 2 그룹의 바이오 NE들 간의 연관성을 분석하도록 구성되는 바이오 문헌 분석부;
상기 제 1 그룹의 제 1 바이오 NE와 상기 제 2 그룹의 제 2 바이오 NE간의 연관성을 발견한 경우, 상기 제 1 바이오 NE와 상기 제 2 그룹의 제 3 바이오 NE를 조합하여 마이닝 패턴을 추출하도록 구성되는 마이닝 패턴 생성부; 및
상기 바이오 문헌으로부터 상기 추출된 마이닝 패턴과 매칭되는 빈도 또는 상기 마이닝 패턴을 구성하는 바이오 NE들 간의 거리를 분석하여 데이터화하도록 구성되는 마이닝 수행부를 포함하되,
상기 제 1 바이오 NE와 상기 제 3 바이오 NE는 연관성이 없는 마이닝 시스템.
제 8 항에 있어서,
상기 마이닝 장치는:
상기 바이오 문헌 분석부에 의해 태깅된 상기 바이오 NE들을 저장하도록 구성되는 소스 DB; 및
상기 마이닝 패턴 생성부로부터 생성된 상기 마이닝 패턴을 저장하도록 구성되는 마이닝 패턴 DB를 더 포함하는 마이닝 시스템.
제 9 항에 있어서,
상기 바이오 문헌 분석부는 상기 소스 DB의 그룹 정보와 관계없이 모든 상기 바이오 NE간의 연관성을 분석하고, 상기 연관성의 분석에 대응하는 정보를 상기 소스 DB에 저장하는 마이닝 시스템.