KR101448731B1

KR101448731B1 - 다차원 인덱스를 이용하여 대용량 생명공학 문헌으로부터 유전자-질병-화합물 관계를 추출하는 방법

Info

Publication number: KR101448731B1
Application number: KR20100105299A
Authority: KR
Inventors: 김태경; 오정수; 이상혁; 허보경
Original assignee: 한국생명공학연구원
Priority date: 2010-10-27
Filing date: 2010-10-27
Publication date: 2014-10-21
Also published as: KR20120043977A

Abstract

본 발명은 유전자-질병-화합물(gene-disease-chemical)에 대한 다차원 분석을 위해 대용량의 생명공학 문헌으로부터 다차원 인덱스를 적용하여 유전자-질병-화합물 관계(gene-disease-chemical relationship)를 효과적으로 추출함으로써, 검색의 효율성 및 정확도를 높이고 유전자-질병-화합물에 대한 다차원 분석을 가능하게 하기 위한 방법에 관한 것으로, 본 발명에 따르면, 다차원 인덱스 구조를 통해 유전자-질병-화합물간의 관계를 신속하고 유연하게 추출할 수 있는 동시에, 유전자-질병-화합물의 관계를 문장수준에서 검색하고 확인할 수 있도록 하며, 인덱스를 활용하여 직관적인 사용자 인터페이스를 구현할 수 있는 다차원 인덱스를 이용하여 대용량 생명공학 문헌으로부터 유전자-질병-화합물 관계를 추출하는 방법이 제공된다.

Description

다차원 인덱스를 이용하여 대용량 생명공학 문헌으로부터 유전자-질병-화합물 관계를 추출하는 방법{A method for retrieving a gene-disease-chemical relationship using multi-dimensional indexes from huge bio-literatures}

본 발명은, 생명정보학분야의 텍스트마이닝(text mining) 기술에 관한 것으로, 더 상세하게는, 유전자-질병-화합물(gene-disease-chemical)에 대한 다차원 분석을 위해 대용량의 생명공학 문헌으로부터 다차원 인덱스를 적용하여 유전자-질병-화합물 관계(gene-disease-chemical relationship)를 효과적으로 추출함으로써, 검색의 효율성 및 정확도를 높이고 유전자-질병-화합물에 대한 다차원 분석을 가능하게 하기 위한 방법에 관한 것이다.

종래, 생물학 분야의 연구에 있어서, 해마다 대량의 생물학 실험결과가 문헌으로 공개되고 있으며, 그에 따라 이러한 정보의 전략적 활용이 점점 중요해지고 있다.

또한, 현재 바이오 텍스트 문헌으로부터 유전자-질병-화합물 관계를 파악하기 위해서는 PubMed 상에서 키워드 검색을 통해 확인하는 방법이 유일한 방법이나, PubMed 상에는 현재도 약 1만여 건의 문헌이 관리되고 있으며, 앞으로 그 양은 급격히 증가할 것이 확실시되고 있다.

따라서 이와 같은 대용량 문헌으로부터 관심 있는 정보를 신속하게 확인하여 생명현상에 대한 검증, 확인 및 유추를 가능하게 하는 인프라에 대한 요구가 날로 증가되고 있다.

상기한 바와 같이 바이오 텍스트 문헌으로부터 유전자-질병-화합물 관계를 파악하기 위한 종래기술의 예로서는, 예를 들면, 2008년 5월 16일자로 발간된 "PolySearch : aweb-based textmining system for extracting relationships between human diseases,genes,mutations,drugs and metabolites", Nucleic Acids Research, 2008. Vol.36과 같은 것이 있다.

즉, 상기 문헌은, 쿼리(query)를 이용하여 해당 질병 또는 유전자를 통해 관련된 돌연변이 증상 및 약품 등을 검색할 수 있도록 하는 시스템을 개시하고 있다.

그러나 상기 문헌에 개시된 유전자-질병-화합물 관계분석 기법은, X->Y의 관계만 고려할 뿐, X,Y->Z의 분석은 할 수 없다는 단점이 있는 것이었다.

또한, 상기한 바와 같은 종래기술의 다른 예로서, 예를 들면, 2005년 2월 22일자로 발행된 "Integration of text- and data-mining using ontologies successfully selects disease gene candidates", Nucleic Acids Research, 2005. Vol.33, No.5에는, 온톨로지 기술과 텍스트마이닝, 데이터마이닝 기술을 이용하여 질병을 일으키는 유전자 후보를 선택하는 것에 대한 기술내용이 기재되어 있다.

아울러, 상기한 바와 같은 종래기술의 다른 예로서, 예를 들면, 2005년 6월 28일자로 발행된 "Text-mining and information-retrieval services for molecular biology", Genome Biology, 2005. 6:224(doi:10.1186/gb-2005-6-7-224)에는, 분자생물학에서 텍스트마이닝을 통해 유전자와 단백질간의 기능적 관계를 텍스트로부터 자동적으로 추출하는 기술내용이 개시되어 있다.

그러나 상기한 바와 같은 종래기술에 기재된 방법들을 이용하여 대용량 생명공학 문헌으로부터 키워드 기반의 검색으로 유전자-질병-화합물 관계를 파악하는데에는 다음과 같은 한계가 있는 것이었다.

첫째, 상기한 바와 같은 종래기술의 방법들은 질의의 대상이 초록이므로, 실제로는 음성인데 결과는 양성이라고 나오는 이른바 거짓 양성(false positive)이 증가하여, 검색되는 문헌의 양이 필요 이상으로 방대해지고, 그에 따라 사용자가 해당 정보를 확인하는데 시간이 많이 걸리게 되는 문제가 있었다.

둘째로, 상기한 바와 같은 종래기술의 방법들은 유전자, 질병, 화합물에 대한 하이라이트 기능이 없어 사용자가 해당 문장을 한눈에 용이하게 식별하기 어려운 단점도 있었다.

셋째로, 상기한 바와 같은 종래기술의 방법들은 유전자-질병-화합물간의 관계에 대한 요약정보를 제시하지 못하는 것이 대부분이며, 요약정보를 제시해주는 경우도 대부분 수작업의 결과로써 새로운 정보를 실시간으로 수용하지 못하는 한계가 있었다.

따라서 상기한 바와 같은 종래기술의 문제점들을 해결하여, 유전자-질병-화합물간의 관계를 신속하고 유연하게 추출할 수 있고, 유전자-질병-화합물의 관계를 문장수준에서 검색하고 확인할 수 있도록 하는 동시에, 인덱스를 활용하여 직관적인 사용자 인터페이스 구현할 수 있는 새로운 대용량 생명공학 문헌으로부터 유전자-질병-화합물 관계 추출방법을 제공하는 것이 바람직하나, 아직까지 그러한 요구를 모두 만족시키는 시스템이나 방법은 제공되지 못하고 있는 실정이다.

본 발명은 상기한 바와 같은 종래기술의 문제점들을 해결하기 위한 것으로, 따라서 본 발명의 목적은, 다차원 인덱스 구조를 통해 유전자-질병-화합물간의 관계를 신속하고 유연하게 추출할 수 있는 동시에, 유전자-질병-화합물의 관계를 문장수준에서 검색하고 확인할 수 있도록 하며, 인덱스를 활용하여 직관적인 사용자 인터페이스를 구현할 수 있는 다차원 인덱스를 이용하여 대용량 생명공학 문헌으로부터 유전자-질병-화합물 관계를 추출하는 방법을 제공하고자 하는 것이다.

상기한 바와 같은 목적을 달성하기 위해, 본 발명에 따르면, 대용량 생명공학 문헌으로부터 유전자-질병-화합물 관계를 추출하는 방법에 있어서, 상기 대용량 생명공학 문헌으로부터 질병, 유전자, 화합물에 대한 다차원 인덱스를 구축하는 단계와, 구축된 상기 다차원 인덱스를 미리 정해진 인덱스 저장구조에 따라 저장하는 단계와, 저장된 상기 인덱스를 이용하여, 사용자가 검색어를 입력하고 상기 대용량 생명공학 문헌으로부터 질병, 유전자, 화합물에 대한 다차원 분석을 수행하는 단계를 포함하여 구성된 것을 특징으로 하는 대용량 생명공학 문헌으로부터 유전자-질병-화합물 관계를 추출하는 방법이 제공된다.

여기서, 상기 다차원 인덱스를 구축하는 단계는, PubMed 데이터베이스로부터 초록(Abstract) 필드가 널(NULL)이 아닌 문헌만을 추출하는 단계와, 각 초록의 내용을 문장 단위로 분할하여 큐레이션(curation)을 통해 문장 테이블(Sentence table)로 만드는 단계와, 상기 문장 테이블에 대하여 역인덱스를 구축하는 단계와, 유전자, 질병, 화합물에 대한 각각의 동의어 사전을 상기 역인덱스와 비교하여 유전자, 질병, 화합물에 대한 각각의 차원 인덱스를 구축하는 단계를 포함하여 구성된 것을 특징으로 한다.

또한, 상기 문장 테이블로 만드는 단계에서, 상기 문장 테이블은, [pubmed id, 문장 id(sentence id), 문장(sentence)]의 순서로 저장되는 것을 특징으로 한다.

아울러, 상기 인덱스 저장구조는, 스타 스키마(Star Schema) 구조인 것을 특징으로 한다.

또한, 상기 인덱스 저장구조에서, 질병 인덱스는, pubmed 아이디, 문장번호, 질병 아이디 및 질병이름, 시작위치, 종료위치에 대한 정보가 저장되고, 여기에 표준 질병명 및 질병에 대한 동의어 정보가 관련지어져 저장되는 것을 특징으로 한다.

더욱이, 상기 인덱스 저장구조에서, 유전자 인덱스는, pubmed 아이디, 문장번호, 유전자 아이디 및 유전자 이름, 시작위치, 종료위치에 대한 정보가 저장되고, 여기에 표준 유전자 및 유전자에 대한 동의어 정보가 관련지어져 저장되는 것을 특징으로 한다.

아울러, 상기 인덱스 저장구조에서, 화합물 인덱스는, pubmed 아이디, 문장번호, 합성물 아이디 및 화합물 아이디, 화합물 이름, 시작위치, 종료위치에 대한 정보가 저장되고, 여기에 합성물명 및 합성물에 대한 동의어 정보가 관련지어져 저장되는 것을 특징으로 한다.

또한, 상기 인덱스 저장구조는, 상기 질병 인덱스, 상기 유전자인덱스 및 상기 화합물 인덱스 이외에 다른 분석차원에 대하여도 인덱스 정보를 추가하여 다차원 분석모델을 수립할 수 있도록 구성된 것을 특징으로 한다.

또, 상기 방법은, 상기 문장을 1차원(유전자, 질병, 화합물), 2차원(유전자-질병, 질병-유전자, 유전자-화합물, 화합물-유전자, 질병-화합물, 화합물-질병 관계) 및 3차원(유전자-질병-화합물 관계)으로 분석할 수 있도록 구성된 것을 특징으로 한다.

또한, 상기 방법은, 사용자가 검색어를 입력하면, 검색결과를 나타내는 화면에 각 유전자, 질병, 화합물에 대한 색 또는 하이라이트를 각각 적용하여, 시각적인 효과를 줄 뿐만 아니라 사용자가 직관적으로 내용을 이해할 수 있도록 구성된 것을 특징으로 한다.

아울러, 상기 방법은, 사용자가 검색어를 입력하면, 문장을 기준으로 내용을 파악한 다음 전체 초록을 볼 수 있도록 함으로써, 문장을 중심으로 초록 내용을 확인할 수 있도록 구성된 것을 특징으로 한다.

더욱이, 상기 방법은, 사용자가 검색어를 입력하면, 그와 관련된 키워드들이 표시되고, 상기 키워드를 선택하면 상기 검색어 및 상기 키워드에 해당하는 검색결과 및 초록이 표시되어, 사용자가 상기 검색어와 상기 키워드간의 관계 분석을 용이하게 수행할 수 있도록 구성된 것을 특징으로 한다.

또한, 상기 방법은, 유전자-질병-화합물간의 관계를 추출하기 위한 별도의 프로그램을 작성할 필요 없이, SQL을 이용하여 상기 인덱스에 접근하여 필요한 분석을 즉시 수행할 수 있도록 구성된 것을 특징으로 한다.

상기한 바와 같이, 본 발명에 따르면, 역인덱스, 다차원 인덱스를 활용하여 유전자-질병-화합물간의 관계를 신속하게 추출할 수 있도록 구성되어, 문장 단위의 정교한 검색을 지원하고, X->Y의 분석뿐만 아니라 X,Y->Z의 관계도 추출할 수 있는 다차원 인덱스를 이용하여 대용량 생명공학 문헌으로부터 유전자-질병-화합물 관계를 추출하는 방법이 제공된다.

즉, 본 발명에 따르면, PubMed 데이터베이스에서 초록파일을 가져오고, 각 초록을 문장 단위로 분리하며, 분리된 문장에 있는 유전자, 질병, 화합물의 위치에 대한 역인덱스를 생성한 후, 유전자,질병,화합물에 각각에 대해 이름과 함께 차원 인덱스를 생성하며, 인덱스 생성시 동의어 용어사전을 활용하여 검색 정확도를 높이고, 인덱스와 문장을 연결하여 다차원 분석이 가능하도록 구성된 다차원 인덱스를 이용하여 대용량 생명공학 문헌으로부터 유전자-질병-화합물 관계를 추출하는 방법이 제공된다.

따라서 본 발명에 따르면, 대용량 문헌으로부터 생명공학 개체들 간의 관계를 도출할 수 있으며, 아울러 이는, 생명공학뿐만 아니라 화학 및 물리학 등 다양한 분야의 문헌으로부터 새로운 관계정보를 도출하는 데에도 적용할 수 있다.

도 1은 본 발명에 따른 대용량 생명공학 문헌으로부터 유전자-질병-화합물 관계를 추출하는 방법에 있어서, 대용량 문헌으로부터 질병-유전자-화합물에 대한 다차원 인덱스를 구축하는 절차를 설명하기 위한 도면이다.
도 2는 본 발명에 따른 대용량 생명공학 문헌으로부터 유전자-질병-화합물 관계를 추출하는 방법에 있어서, 질병-유전자-화합물의 관계를 추출하기 위한 저장 구조를 설명하기 위한 도면이다.
도 3은 본 발명에 따른 대용량 생명공학 문헌으로부터 유전자-질병-화합물 관계를 추출하는 방법에 있어서, 다차원 분석구조를 적용하여 추출한 기본 검색결과를 나타내는 화면을 나타내는 도면이다.
도 4는 본 발명에 따른 대용량 생명공학 문헌으로부터 유전자-질병-화합물 관계를 추출하는 방법에 있어서, 추출된 문장의 전체 초록내용을 제공하는 화면을 나타내는 도면이다.
도 5는 본 발명에 따른 대용량 생명공학 문헌으로부터 유전자-질병-화합물 관계를 추출하는 방법에 있어서, 다차원 분석을 위한 입력화면과 결과화면을 나타내는 도면이다.
도 6은 본 발명에 따른 대용량 생명공학 문헌으로부터 유전자-질병-화합물 관계를 추출하는 방법에 있어서, 화합물-질병간의 관계를 추출하기 위한 SQL의 구조를 나타내는 도면이다.
도 7은 본 발명에 따른 대용량 생명공학 문헌으로부터 유전자-질병-화합물 관계를 추출하는 방법에 대한 실시예로서, 유전자-화합물 관계 분석화면을 나타내는 도면이다.
도 8은 본 발명에 따른 대용량 생명공학 문헌으로부터 유전자-질병-화합물 관계를 추출하는 방법에 대한 실시예로서, 유전자-유전자 관계 분석화면을 나타내는 도면이다.
도 9는 본 발명에 따른 대용량 생명공학 문헌으로부터 유전자-질병-화합물 관계를 추출하는 방법에 대한 실시예로서, 질병-유전자-초록 관계 분석화면을 나타내는 도면이다.
도 10은, 본 발명에 따른 대용량 생명공학 문헌으로부터 유전자-질병-화합물 관계를 추출하는 방법에 대한 실시예로서, 질병-유전자 관계 분석화면을 나타내는 도면이다.

이하, 첨부된 도면을 참조하여, 본 발명에 따른 대용량 생명공학 문헌으로부터 유전자-질병-화합물 관계를 추출하는 방법의 상세한 내용에 대하여 설명한다.

여기서, 이하에 설명하는 내용은 본 발명을 실시하기 위한 하나의 실시예일 뿐이며, 본 발명은 이하에 설명하는 실시예의 내용으로만 한정되는 것은 아니라는 사실에 유념해야 한다.

즉, 본 발명에 따른 대용량 생명공학 문헌으로부터 유전자-질병-화합물 관계를 추출하는 방법은, 후술하는 바와 같이 하여, 대용량 문헌으로부터 스타 스키마(Star Schema) 형태의 유전자-질병-화합물 분석을 위한 다차원 인덱스 구조 및 그러한 인덱스를 활용하여 검색결과에 포함된 유전자-질병-화합물에 대한 하이라이트 기능을 가지는 다차원 인덱스를 이용하는 유전자-질병-화합물 관계분석기법에 관한 것이다.

또한, 본 발명은, 예를 들면, 생명공학자들이 관심이 있는 질병과 관련하여 최근에 밝혀진 유전자 검색이나, 개체(Organism), 신체부위(Anatomy) 등의 차원을 추가하여 다양한 검색서비스 지원 및 생명공학 전 분야에서 사용할 수 있는 정보검색 시스템 등에 적용할 수 있다.

계속해서, 도 1 내지 도 10을 참조하여, 본 발명에 따른 대용량 생명공학 문헌으로부터 유전자-질병-화합물 관계를 추출하는 방법의 구체적인 구성에 대하여 설명한다.

먼저, 도 1을 참조하면, 도 1은 본 발명에 따른 대용량 생명공학 문헌으로부터 유전자-질병-화합물 관계를 추출하는 방법에서 다차원 인덱스의 구축과정을 나타내고 있다.

즉, 도 1에 나타낸 바와 같이, 대용량 문헌으로부터 질병-유전자-화합물에 대한 다차원 인덱스를 구축하는 절차는, 먼저, PubMed 데이터베이스에서 초록파일을 가져온 후, 각 초록을 문장단위로 분리하고, 문장에 들어있는 유전자, 질병, 화합물에 대하여 각각의 위치에 대한 인덱스를 생성한다.

여기서, 상기한 각각의 인덱스 구축시, 동의어 용어사전을 활용하여 검색 정확도를 높이도록 구성한다.

상기한 바와 같이 인덱스를 생성한 후, 각각의 인덱스와 문장을 연결하여 사용자가 다차원 분석을 할 수 있도록 한다.

더 상세하게는, 상기한 다차원 인덱스를 구축하는 절차는, 먼저, PubMed 데이터베이스로부터 전체 문헌을 추출하며, 이때, 추출조건은 초록(Abstract) 필드가 널(NULL)이 아닌 것만을 가져온다(단계 1).

이어서, 각 초록의 내용을 문장 단위로 분할하여 큐레이션(curation)을 통해 문장 테이블(Sentence table)로 만들고, 예를 들면, [pubmed id, sentence id, sentence]의 순서로 저장한다(단계 2).

다음으로, 상기 단계에서 얻어진 문장 테이블에 대하여 역인덱스를 구축한다(단계 3).

계속해서, 유전자, 질병, 화합물 동의어 사전을 문장 역인덱스와 비교하여 각각의 차원 인덱스를 구축한다(단계 4).

계속해서, 도 2를 참조하여, 상기한 바와 같이 하여 구축된 인덱스를 저장하는 방법에 대하여 설명한다.

도 2를 참조하면, 도 2는 질병-유전자-화합물의 관계를 추출하기 위한 인덱스 저장구조를 나타내고 있다.

즉, 본 발명의 핵심적인 특징은, 도 2에 나타낸 바와 같이, 문장(Sentence)을 각각의 질병, 유전자, 화합물 인덱스의 관점(차원)에서 볼 수 있도록 하는 저장구조에 있는 것이며, 여기서, 이러한 저장구조는, 전문용어로 '스타 스키마(Star Schema)'라고 한다.

더 상세하게는, 도 2에 나타낸 바와 같이, 예를 들면, 질병 인덱스에 대하여는, pubmed 아이디, 문장번호, 질병 아이디 및 질병이름, 시작위치, 종료위치에 대한 정보가 저장되고, 여기에 표준 질병명 및 질병에 대한 동의어 정보가 관련지어져 저장된다.

또한, 유전자 인덱스에 대하여도, 마찬가지로, pubmed 아이디, 문장번호, 유전자 아이디 및 유전자 이름, 시작위치, 종료위치에 대한 정보가 저장되고, 여기에 표준 유전자 및 유전자에 대한 동의어 정보가 관련지어져 저장된다.

아울러, 화합물 인덱스에 대하여는, pubmed 아이디, 문장번호, 합성물 아이디 및 화합물 아이디, 화합물 이름, 시작위치, 종료위치에 대한 정보가 저장되고, 여기에 합성물명 및 합성물에 대한 동의어 정보가 관련지어져 저장된다.

또한, 그 외에 다른 분석차원에 대하여도, 상기한 바와 같은 내용을 참조하여 필요에 따라 적절히 인덱스 정보만을 추가하면 되므로, 용이하게 또 다른 분석차원을 추가하여 다차원 분석모델을 수립할 수 있다.

이때, 처리 가능한 질의 유형의 예로는, 예를 들면, 검색 대상에 대하여, 한 문장 또는 초록 내에서 원하는 키워드가 포함된 결과를 검색하거나, 또는, 유형별로, 한 가지 또는 두 가지 이상의 조건을 만족하는 문장 또는 초록을 검색하도록 할 수 있다.

다시 말하면, 본 발명은, 문장 전체로서 약 1억여 건에 달하는 문장에 직접 접근하지 않고, 인덱스를 활용하여 검색의 성능과 정확도를 획기적으로 높이는 방법으로서, 문장을 1차원(유전자, 질병, 화합물), 2차원(유전자-질병, 질병-유전자, 유전자-화합물, 화합물-유전자, 질병-화합물, 화합물-질병 관계) 및 3차원(유전자-질병-화합물 관계)으로 분석할 수 있도록 구성한다.

뿐만 아니라, 이러한 저장구조는, 또 다른 분석차원을 용이하게 추가할 수 있는 매우 유연한 구조를 제공할 수 있다.

다음으로, 도 3은 상기한 바와 같은 다차원 분석구조를 적용하여 추출한 기본 검색결과를 나타내는 화면으로, 문장 기반의 키워드 중심의 검색결과를 나타내는 화면이다.

즉, 도 3에 나타낸 바와 같이, 사용자가 검색어를 입력하면, 검색결과를 나타내는 화면에 각 유전자, 질병, 화합물에 대한 색을 각각 적용하여, 시각적인 효과를 줄 뿐만 아니라 사용자가 직관적으로 내용을 이해할 수 있도록 구성한다.

여기서, 각 문장에서의 유전자, 질병, 화합물 정보는 인덱스로부터 가져오도록 한다.

또한, 도 4는 추출된 문장의 전체 초록내용을 제공하는 화면을 나타내고 있다.

즉, 도 4에 나타낸 바와 같이, 사용자가 검색어를 입력하면, 문장을 기준으로 내용을 파악한 다음 전체 초록을 볼 수 있도록 함으로써, 문장을 중심으로 초록 내용을 확인할 수 있도록 구성한다.

계속해서, 도 5는 다차원 분석을 위한 입력화면과 결과화면을 나타내고 있다.

즉, 도 5에 나타낸 바와 같이, 사용자가 화합물에 대한 검색어를 입력하면, 동의어 처리를 통해 관련된 질병에 대한 검색어가 표시되고, 사용자가 그 중 하나를 선택하면 해당하는 화합물과 질병에 대한 검색결과 및 초록이 표시되어, 사용자가 화합물-질병간 관계 분석을 용이하게 수행할 수 있다.

도 6은 도 5에 나타낸 바와 같은 화합물-질병간의 관계를 추출하기 위한 SQL 구조를 나타내고 있다.

즉, 유전자-질병-화합물간의 관계를 추출하기 위한 별도의 프로그램을 작성할 필요 없이, 도 6에 나타낸 바와 같은 SQL을 이용하여 인덱스에 접근하여 필요한 분석을 즉시 수행할 수 있도록 구성한다.

다시 말하면, 상기한 바와 같이 구성된 본 발명의 특징은, 첫째로, 도 3 및 도 4에 나타낸 바와 같이, 문장을 대상으로 키워드 기반 논리검색을 지원하며, 이 검색 기반을 다차원 분석의 최종결과 확인화면으로 활용하는 것과, 둘째로, 도 2에 나타낸 바와 같은 다차원 인덱스 구조를 통해 유전자-질병-화합물 각 관점별로 애드혹(Ad-Hoc) 질의를 수행할 수 있다는 것이다.

계속해서, 도 7 내지 도 10은 상기한 바와 같은 본 발명의 방법을 이용한 다차원 분석 결과에 대한 실제 적용예를 나타내고 있다.

즉, 도 7 내지 도 10에 나타낸 바와 같이, 본 발명에 따르면, 유전자-화합물 관계 분석, 유전자-유전자 관계 분석, 질병-유전자-초록 분석, 질병-유전자 분석과 같이 다양한 다차원 분석이 가능하게 된다.

상기한 바와 같이, 본 발명에 따르면, 고성능의 문장단위의 논리 검색을 지원함으로써, 현재 생명공학 문헌 검색에서 문장단위의 검색을 지원하지 않고 있는 문제를 해결할 수 있다.

또한, 본 발명에 따르면, 검색 결과에서 유전자-질병-화합물 키워드에 대한 하이라이트 기능을 통해 사용자의 직관적 이해도를 향상시킬 있으며, 아울러, 유전자-질병-화합물의 다차원 인덱스를 활용한 유연하고 고성능의 분석 서비스를 제공할 수 있다.

즉, 본 발명은, 예를 들면, 특정 유전자와 관련된 질병리스트 출력, 특정 질병과 관련된 유전자리스트 출력, 특정질병과 유전자가 포함된 초록 가져오기, 특정유전자와 함께 존재하는 유전자 리스트 출력, 특정 유전자와 관련된 화합물 리스트 출력, 특정 화합물과 관련된 질병 리스트 추력, 특정 신체부위와 관련된 질병리스트 출력, 특정 신체부위와 관련된 화합물 리스트 출력, 특정 종과 관련된 화합물 리스트 출력 등 다양한 경우에 대한 바이오 텍스트 마이닝 서비스를 제공할 수 있다.

이상 상기한 바와 같은 본 발명의 실시예를 통하여 본 발명에 따른 대용량 생명공학 문헌으로부터 유전자-질병-화합물 관계를 추출하는 방법의 상세한 내용에 대하여 설명하였으나, 본 발명은 상기한 실시예에 기재된 내용으로만 한정되는 것은 아니며, 따라서 본 발명은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 설계상의 필요 및 기타 다양한 요인에 따라 여러 가지 수정, 변경, 결합 및 대체 등이 가능한 것임은 당연한 일이라 하겠다.

Claims

인덱스를 생성하는 수단, 상기 인덱스를 관점별로 저장하는 수단 및 상기 인덱스의 관계를 분석하는 수단을 구비하는 컴퓨터가 수행하는 대용량 생명공학 문헌으로부터 유전자-질병-화합물 관계를 추출하는 방법에 있어서,
상기 인덱스를 생성하는 수단이 대용량 생명공학 문헌을 입력받아 질병, 유전자, 화합물에 대한 다차원 인덱스를 구축하는 단계와,
상기 인덱스를 관점별로 저장하는 수단이 구축된 상기 다차원 인덱스를 미리 정해진 인덱스 저장구조에 따라 저장하는 단계와,
상기 인덱스의 관계를 분석하는 수단이 상기 저장된 인덱스를 기초로 사용자에 의해 입력된 검색어를 이용하여 상기 대용량 생명공학 문헌으로부터 질병, 유전자, 화합물에 대한 다차원 분석을 수행하는 단계를 포함하여 구성된 것을 특징으로 하는 대용량 생명공학 문헌으로부터 유전자-질병-화합물 관계를 추출하는 방법.
제 1항에 있어서,
상기 다차원 인덱스를 구축하는 단계는,
PubMed 데이터베이스로부터 초록(Abstract) 필드가 널(NULL)이 아닌 문헌만을 추출하는 단계와,
각 초록의 내용을 문장 단위로 분할하여 큐레이션(curation)을 통해 문장 테이블(Sentence table)로 만드는 단계와,
상기 문장 테이블에 대하여 역인덱스를 구축하는 단계와,
유전자, 질병, 화합물에 대한 각각의 동의어 사전을 상기 역인덱스와 비교하여 유전자, 질병, 화합물에 대한 각각의 차원 인덱스를 구축하는 단계를 포함하여 구성된 것을 특징으로 하는 대용량 생명공학 문헌으로부터 유전자-질병-화합물 관계를 추출하는 방법.
제 2항에 있어서,
상기 문장 테이블로 만드는 단계에서,
상기 문장 테이블은, [pubmed id, 문장 id(sentence id), 문장(sentence)]의 순서로 저장되는 것을 특징으로 하는 대용량 생명공학 문헌으로부터 유전자-질병-화합물 관계를 추출하는 방법.
제 1항에 있어서,
상기 인덱스 저장구조는, 스타 스키마(Star Schema) 구조인 것을 특징으로 하는 대용량 생명공학 문헌으로부터 유전자-질병-화합물 관계를 추출하는 방법.
제 4항에 있어서,
상기 인덱스 저장구조에서, 질병 인덱스는, pubmed 아이디, 문장번호, 질병 아이디 및 질병이름, 시작위치, 종료위치에 대한 정보가 저장되고, 여기에 표준 질병명 및 질병에 대한 동의어 정보가 관련지어져 저장되는 것을 특징으로 하는 대용량 생명공학 문헌으로부터 유전자-질병-화합물 관계를 추출하는 방법.
제 4항에 있어서,
상기 인덱스 저장구조에서, 유전자 인덱스는, pubmed 아이디, 문장번호, 유전자 아이디 및 유전자 이름, 시작위치, 종료위치에 대한 정보가 저장되고, 여기에 표준 유전자 및 유전자에 대한 동의어 정보가 관련지어져 저장되는 것을 특징으로 하는 대용량 생명공학 문헌으로부터 유전자-질병-화합물 관계를 추출하는 방법.
제 4항에 있어서,
상기 인덱스 저장구조에서, 화합물 인덱스는, pubmed 아이디, 문장번호, 합성물 아이디 및 화합물 아이디, 화합물 이름, 시작위치, 종료위치에 대한 정보가 저장되고, 여기에 합성물명 및 합성물에 대한 동의어 정보가 관련지어져 저장되는 것을 특징으로 하는 대용량 생명공학 문헌으로부터 유전자-질병-화합물 관계를 추출하는 방법.
제 5항 내지 제 7항 중 어느 한 항에 있어서,
상기 인덱스 저장구조는, 질병 인덱스, 유전자인덱스 및 화합물 인덱스 이외에 다른 분석차원에 대하여도 인덱스 정보를 추가하여 다차원 분석모델을 수립할 수 있도록 구성된 것을 특징으로 하는 대용량 생명공학 문헌으로부터 유전자-질병-화합물 관계를 추출하는 방법.
제 1항에 있어서,
상기 방법은,
상기 대용량 생명공학 문헌을 1차원(유전자, 질병, 화합물), 2차원(유전자-질병, 질병-유전자, 유전자-화합물, 화합물-유전자, 질병-화합물, 화합물-질병 관계) 및 3차원(유전자-질병-화합물 관계)으로 분석할 수 있도록 구성된 것을 특징으로 하는 대용량 생명공학 문헌으로부터 유전자-질병-화합물 관계를 추출하는 방법.
제 1항에 있어서,
사용자가 검색어를 입력하면, 검색결과를 나타내는 화면에 각 유전자, 질병, 화합물에 대한 색 또는 하이라이트를 각각 적용하여, 시각적인 효과를 줄 뿐만 아니라 사용자가 직관적으로 내용을 이해할 수 있도록 구성된 것을 특징으로 하는 대용량 생명공학 문헌으로부터 유전자-질병-화합물 관계를 추출하는 방법.
제 1항에 있어서,
사용자가 검색어를 입력하면, 문장을 기준으로 내용을 파악한 다음 전체 초록을 볼 수 있도록 함으로써, 문장을 중심으로 초록 내용을 확인할 수 있도록 구성된 것을 특징으로 하는 대용량 생명공학 문헌으로부터 유전자-질병-화합물 관계를 추출하는 방법.
제 1항에 있어서,
사용자가 검색어를 입력하면, 그와 관련된 키워드들이 표시되고, 상기 키워드를 선택하면 상기 검색어 및 상기 키워드에 해당하는 검색결과 및 초록이 표시되어, 사용자가 상기 검색어와 상기 키워드간의 관계 분석을 용이하게 수행할 수 있도록 구성된 것을 특징으로 하는 대용량 생명공학 문헌으로부터 유전자-질병-화합물 관계를 추출하는 방법.
제 1항에 있어서,
유전자-질병-화합물간의 관계를 추출하기 위한 별도의 프로그램을 작성할 필요 없이, SQL을 이용하여 상기 인덱스에 접근하여 필요한 분석을 즉시 수행할 수 있도록 구성된 것을 특징으로 하는 대용량 생명공학 문헌으로부터 유전자-질병-화합물 관계를 추출하는 방법.