KR20070060993A

KR20070060993A - 텍스트 마이닝을 이용한 단백질 상호작용 검증 방법 및시스템

Info

Publication number: KR20070060993A
Application number: KR1020060024786A
Authority: KR
Inventors: 임재수; 장현철; 임준호; 박수준; 박선희
Original assignee: 한국전자통신연구원
Priority date: 2005-12-08
Filing date: 2006-03-17
Publication date: 2007-06-13

Abstract

본 발명은 텍스트 마이닝을 이용한 단백질 상호작용 검증 방법 및 시스템에 관한 것이다. 본 발명에 따른 단백질 상호작용 검증 방법은 (a) 바이오 정보 문헌 데이터베이스로부터 검색된 단백질 관련 문서들 중 단백질 상호작용 관계를 텍스트 마이닝 방법을 이용하여 추출하는 단계; (b) 상기 단백질 상호작용 관계 정보를 온톨로지 아이디로 매핑하는 단계; 및 (c) 상기 매핑된 단백질 상호작용 관계 정보 중 상기 정보의 출현 빈도 및 해당 단백질 관련 문서의 영향력 요인을 기준으로 높은 가중치를 갖는 정보를 필터링 하는 단계;를 포함한다. 본 발명에 따르면, 예측한 단백질 상호작용을 실험적으로 검증하기에 앞서 기존에 문헌으로 입증된 지식을 활용함으로써 중복 실험을 피할 수 있으며, 실험 전개의 타당성을 미리 점검할 수 있게 된다. 또한, 단백질 상호작용을 예측하는 시스템의 결과를 문헌을 통해 검증함으로써 예측 시스템의 성능 평가를 위한 척도로 활용될 수 있다.

단백질 상호작용, 텍스트 마이닝, 검증

Description

텍스트 마이닝을 이용한 단백질 상호작용 검증 방법 및 시스템{Method and system for verifying protein-protein interaction using text mining}

도 1은 본 발명의 바람직한 실시예에 따른 단백질 상호작용 검증 방법을 도시하는 순서도이다.

도 2는 도 1의 단백질 상호작용 관계 추출 과정의 바람직한 실시예를 도시하는 순서도이다.

도 3은 본 발명의 바람직한 실시예에 따른 온톨로지 데이터베이스의 계층 구조를 도시하는 도면이다.

도 4는 도 1의 정보 필터링 과정의 바람직한 실시예를 도시하는 순서도이다.

도 5는 본 발명의 바람직한 실시예에 따른 단백질 상호작용 검증 시스템의 구성을 도시하는 블록도이다.

본 발명은 단백질 상호작용 관계를 검증하기 위한 방법 및 시스템에 관한 것이다.

단백질은 유전자가 발현되어 생성되는 물질로서 생체 내에서 고유한 기능을 가지며, 다른 단백질과의 유기적인 상호작용을 통해 다양한 생명현상에 주도적 역할을 수행한다. 대표적으로, 생체 신호를 세포핵까지 전달하여 생물학적 현상을 발현하는 신호전달, 세포의 생명 주기 및 발달, 물질에 대한 대사 등은 여러 단백질들의 복잡한 상호작용을 통해 수행된다. 따라서, 현대의 생명과학은 개개의 유전자나 단백질보다 이들 사이의 복잡한 상호작용을 통해 전체적인 관점에서 생명 현상을 규명하려는데 초점을 맞추고 있다.

단백질 상호작용(protein-protein interaction)은 생체 내에서 특정한 생물학적 작용이 수행되기 위해 여러 단백질들이 상호간에 형성하는 관계로 정의할 수 있다. 즉, 단백질 상호작용 관계는 하나의 단백질이 다른 단백질과 특정한 상호작용을 형성한다고 해석할 수 있다. 일반적으로 단백질 상호작용 관계는 이스트 투 하이브리드(yeast two hybrid)와 같은 대용량 방법(high-throughput screening)에 의해 실험되고 있다. 그러나, 이 실험 데이터에는 실제로 상호작용을 하지 않는 많은 오류(false positive)를 포함하고 있다. 이 오류를 검출하기 위해서 면역침강(co-immunoprecipitation)과 같은 생물학적 실험을 수행할 수 있으나, 방대한 단백질 상호작용 관계에 대해 이 실험을 수행하기에는 매우 많은 비용이 요구된다.

현재, 많은 연구들이 단백질 상호작용 검증 보다는 예측에 집중되어 진행되고 있다. 이 예측은 크게 기계 학습 방법과 단백질 상동성 방법으로 구분된다. 그러나, 이들 방법 역시 다음에 기술되는 이유로 많은 오류(false positive)를 가지고 있다. 따라서, 단백질 상호작용 관계에 대한 검증 방법이 관계 데이터의 신뢰성 확보를 위해 반드시 요구되고 있다.

종래에 단백질 상호작용 관계를 검증하기 위해, 사용자가 다양한 바이오 정보를 포함하는 논문 또는 특허 문서와 같은 문헌을 포함하는 데이터베이스로부터 키워드 검색 엔진을 통해 검증하고자 하는 단백질을 언급하는 문헌을 검색한 다음, 직접 읽어 보아야 하는 시간적 노력이 필요하였다.

하지만, 최근 생물학 연구 분야에서 바이오 정보를 포함하는 문헌의 양이 폭발적으로 증가하고 있기 때문에, 상기 방법을 이용하여 원하는 단백질 상호작용 관계 정보를 신속하고 정확하게 검증하는 것은 사실상 불가능하다.

본 발명은 상기 종래 기술의 문제점들을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은 사용자가 예측한 단백질 상호작용 관계를 종래의 문헌으로부터 신속하고 정확하게 검증할 수 있는 방법을 제공하는 것이다.

본 발명의 다른 목적은 사용자가 예측한 단백질 상호작용 관계를 종래의 문헌으로부터 신속하고 정확하게 검증할 수 있는 시스템을 제공하는 것이다.

본 발명의 목적을 달성하기 위하여, 본 발명은 (a) 바이오 정보 문헌 데이터베이스로부터 검색된 단백질 관련 문서들 중 단백질 상호작용 관계를 텍스트 마이닝 방법을 이용하여 추출하는 단계; (b) 상기 단백질 상호작용 관계 정보를 온톨로지 아이디로 매핑하는 단계; 및 (c) 상기 매핑된 단백질 상호작용 관계 정보 중 상기 정보의 출현 빈도 및 해당 단백질 관련 문서의 영향력 요인을 기준으로 높은 가중치를 갖는 정보를 필터링 하는 단계;를 포함하는 단백질 상호작용 검증 방법을 제공한다.

본 발명의 일 구체예에 있어서, 상기 단백질 상호작용 검증 방법은 (d) 상기 단백질 관련 문서 정보, 문서 내의 단백질 관련 문장 정보, 온톨로지 아이디 정보, 단백질 상호작용 관계 정보 및 그의 정확도 정보를 색인하는 단계;를 추가로 포함할 수 있다.

본 발명의 일 구체예에 있어서, 상기 (a) 단계는 (a1) 상기 단백질 관련 문서에 포함된 용어에 대해 태깅을 수행하는 단계; (a2) 상기 태깅된 문서로부터 단백질 상호작용 관계에 관련된 문장을 추출하는 단계; 및 (a3) 상기 추출된 문장 중에서 하나의 단백질에 관한 주체 문자, 다른 단백질에 관한 객체 문자 및 그들 사이의 관계를 나타내는 이벤트 문자를 인식하는 단계;를 포함할 수 있다.

본 발명의 일 구체예에 있어서, 상기 (b) 단계는 온톨로지 데이터베이스를 이용하여 상기 단백질 상호작용 관계 정보를 종에 따라 매핑할 수 있다.

본 발명의 일 구체예에 있어서, 상기 (c) 단계는 (c1) 상기 복수의 단백질 상호작용 정보가 충돌하는 경우 각 정보의 가중치를 산정하는 단계; 및 (c2) 상기 정보들의 가중치 차이가 특정 임계치를 초과하는 경우 상기 정보들 중 높은 가중치를 갖는 정보를 선택하는 단계;를 포함할 수 있다.

본 발명의 다른 목적을 달성하기 위하여, 본 발명은 단백질들 사이의 상호 연관성 정보 및 계층 구조 정보를 저장하는 온톨로지 데이터베이스; 단백질 관련 문서들 중 단백질 상호작용 관계를 텍스트 마이닝 방법을 이용하여 추출하는 텍스트 마이닝부; 상기 온톨로지 데이터베이스를 이용하여 상기 단백질 상호작용 관계 정보를 온톨로지 아이디로 매핑하는 온톨로지 매핑부; 및 상기 매핑된 단백질 상호작용 관계 정보 중 상기 정보의 출현 빈도 및 해당 단백질 관련 문서의 영향력 요인을 기준으로 높은 가중치를 갖는 정보를 필터링 하는 정보 필터링부;를 포함하는 단백질 상호작용 검증 시스템을 제공한다.

본 발명의 일 구체예에 있어서, 상기 단백질 관련 문서 정보, 문서 내의 단백질 관련 문장 정보, 온톨로지 아이디 정보, 단백질 상호작용 관계 정보 및 그의 정확도 정보를 색인하고, 상기 색인 정보를 상호작용 정보 데이터베이스에 저장하는 정보 색인부;를 추가로 포함할 수 있다.

본 발명의 일 구체예에 있어서, 상기 텍스트 마이닝부는 (a1) 상기 단백질 관련 문서에 포함된 용어에 대해 태깅을 수행하는 단계; (a2) 상기 태깅된 문서로부터 단백질 상호작용 관계에 관련된 문장을 추출하는 단계; 및 (a3) 상기 추출된 문장 중에서 하나의 단백질에 관한 주체 문자, 다른 단백질에 관한 객체 문자 및 그들 사이의 관계를 나타내는 이벤트 문자를 인식하는 단계;를 수행할 수 있다.

본 발명의 일 구체예에 있어서, 상기 정보 필터링부는 (c1) 상기 복수의 단백질 상호작용 정보가 충돌하는 경우 각 정보의 가중치를 산정하는 단계; 및 (c2) 상기 정보들의 가중치 차이가 특정 임계치를 초과하는 경우 상기 정보들 중 높은 가중치를 갖는 정보를 선택하는 단계;를 수행할 수 있다.

이하 첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 대하여 상세히 설명한다.

도 1은 본 발명의 바람직한 실시예에 따른 단백질 상호작용 검증 방법을 도 시하는 순서도이다.

도 1을 참조하면, 본 발명에 따른 단백질 상호작용 검증 방법은 바이오 정보 문헌 데이터베이스로부터 단백질 관련 문서를 검색하는 단계(S100); 상기 검색된 단백질 관련 문서들 중 단백질 상호작용 관계를 텍스트 마이닝 방법을 이용하여 추출하는 단계(S200); 상기 단백질 상호작용 관계 정보를 온톨로지 아이디로 매핑하는 단계(S300); 및 상기 단백질 상호작용 관계 정보 중 높은 가중치를 갖는 정보를 필터링 하는 단계(S400);를 포함한다. 선택적으로, 본 발명에 따른 단백질 상호작용 검증 방법은 상기 단백질 관련 문서 정보, 문서 내의 단백질 관련 문장 정보, 온톨로지 아이디 정보, 단백질 상호작용 관계 정보 및 그의 정확도 정보를 색인하는 단계(S500);를 추가로 포함할 수 있다.

이하, 본 발명에 따른 단백질 상호작용 검증 방법을 단계별로 상세히 설명한다.

단백질 문서 검색 단계

예측된 단백질 상호작용 관계를 검증하기 위해서, 먼저 바이오 정보 문헌 데이터베이스로부터 단백질 관련 문서를 검색한다(S100).

상기 바이오 정보 문헌은 다양한 바이오 정보를 포함하는 임의의 것일 수 있으며, 예컨대 논문 또는 특허 문서일 수 있다. 또한, 본 단계는 종래의 키워드 검색 엔진을 이용하여 수행될 수 있다. 바람직하게, 상기 단백질 관련 문서는 단백질 상호작용 관계에 관한 정보를 포함할 수 있다.

예컨대, 본 단계는 생물학적으로 의미가 있는 명칭, 즉 단백질, 유기체, 유 전자 및 질병 등과 같은 개체명이 문헌에서 나타날 경우 이들의 경계를 인식하고 의미 카테고리를 결정하는 개체명 인식 과정을 수행하고, 상기 인식된 개체명들 중에서 단백질 상호작용과 관련이 있는 단백질을 포함하는 문서를 검색할 수 있다.

단백질 상호작용 관계 추출 단계

다음으로, 상기 검색된 단백질 관련 문서들 중 단백질 상호작용 관계를 텍스트 마이닝 방법을 이용하여 추출한다(S200).

도 2는 도 1의 단백질 상호작용 관계 추출 과정의 바람직한 실시예를 도시하는 순서도이다. 도 2를 참조하면, 단백질 상호작용 관계 추출 과정은 용어 태깅 단계(S210), 문장 추출 단계(S220) 및 문자 인식 단계(S230)를 포함할 수 있다.

상기 용어 태깅 단계(S210)는 상기 단백질 관련 문서에 포함된 용어에 대해 태깅을 수행한다. 상기 용어 태깅 방식으로 다양한 방법이 사용될 수 있다는 것은 당업자에게 자명할 것이다. 예컨대, 명사, 동사, 형용사 등의 품사를 구별하여 품사별로 다른 태그를 붙일 수 있다. 또한, 예컨대, 단백질 용어를 미리 선정하고 해당 용어가 문서로부터 검색될 경우 별도의 태그를 붙이고, 화학 반응과 관련된 동사인 "bind", "react", "activate" 또는 "inhibit" 등과 같은 동사를 미리 선정하고 해당 동사가 문서로부터 검색될 경우 미리 설정된 태그를 붙일 수도 있을 것이다.

상기 문장 추출 단계(S220)는 미리 설정된 논리를 적용하여 상기 태깅된 문서를 분석하고, 그로부터 단백질 상호작용 관계에 관련된 문장을 추출한다.

상기 문자 인식 단계(S230) 상기 추출된 문장 중에서 하나의 단백질에 관한 주체 문자, 다른 단백질에 관한 객체 문자 및 그들 사이의 관계를 나타내는 이벤트 문자를 인식한다. 상기 인식을 통해 생물학적으로 중요한 의미를 갖는 단백질 상호작용 관계 정보를 추출하게 된다.

온톨로지 매핑 단계

텍스트 상에 나타난 문자열은 형태적으로 다소 다르더라도 같은 의미를 가질 수 있으며, 또한 생물의 종에 따라 그 의미도 조금씩 다르다. 이러한 문제점을 해결하기 위해 단백질 및 상호작용을 기술하는 문자열은 통제된 어휘와 의미 체계를 가질 필요가 있다. 따라서, 본 발명에 따른 단백질 상호작용 검증 방법은 상기 단백질 상호작용 관계 정보를 온톨로지 아이디로 매핑한다(S300).

바람직하게, 본 단계는 온톨로지 데이터베이스를 이용하여 상기 단백질 상호작용 관계 정보를 종에 따라 매핑할 수 있다. 상기 온톨로지 데이터베이스로서 "SwissProt" 또는 "GO" 등과 같은 공지의 유전자 온톨로지 데이터베이스를 이용할 수 있다.

도 3을 참조하면, 상기 유전자 온톨로지 데이터베이스에는 세포 성분(Cellular Component), 생물학적 과정(Biological Process) 및 분자 기능(Molecular Function)의 세 부분으로 이루어지고 계층화 된 단백질들 사이의 상호 연관성을 나타내는 유전자 온톨로지 정보가 저장될 수 있다.

상기 세포 성분은 세포의 구조, 위치, 거대 분자 집합 등의 정보를 포함할 수 있고, 상기 생물학적 과정은 분자 기능의 정렬화 된 조합으로 이루어지며 화학적인 반응에 대한 정보를 포함할 수 있으며, 상기 분자 기능은 개개 유전자 또는 단백질들의 수행 기능에 관한 정보를 포함할 수 있다.

정보 필터링 단계

대량의 문헌을 처리할 경우, 기계적 처리에 따른 오류 및 서로 다른 문헌에서 상반된 기술 내용 등의 이유로 인해 충돌하는 정보가 발생할 수 있다. 상기 문제점을 해결하기 위해, 본 발명에 따른 단백질 상호작용 검증 방법은 상기 매핑된 단백질 상호작용 관계 정보 중 상기 정보의 출현 빈도 및 해당 단백질 관련 문서의 영향력 요인을 기준으로 높은 가중치를 갖는 정보를 필터링 한다(S400).

도 4를 참조하면, 동일한 단백질 상호작용 정보가 여러 문헌에서 발견되고 그 정보가 서로 충돌하는 경우(S410) 각 정보의 가중치를 산정한다(S420). 상기 가중치 산정은 특별한 기준 또는 방법에 한정되지 않으며, 예컨대 상기 충돌하는 각 정보의 출현 빈도 및 상기 정보가 출현한 해당 문서의 영향력 요인(impact factor)을 기준으로 수행될 수 있다.

다음으로, 상기 정보들의 가중치 차이가 특정 임계치를 초과하는 경우(S430) 상기 정보들 중 높은 가중치를 갖는 정보를 선택한다(S440). 즉, 서로 상반된 단백질 상호작용 관계 정보 중 보다 확실한 쪽을 선택한다. 만약 상기 정보들의 가중치 차이가 특정 임계치를 초과하지 않는 경우, 즉 서로 상반된 단백질 상호작용 관계 정보 중 어느 하나가 다른 것들에 비해 확실하다고 판단되지 않는 경우, 어느 정보도 선택하지 않는다.

정보 색인 단계

선택적으로, 본 발명에 따른 단백질 상호작용 검증 방법은 상기 단백질 관련 문서 정보, 문서 내의 단백질 관련 문장 정보, 온톨로지 아이디 정보, 단백질 상호작용 관계 정보 및 그의 정확도 정보를 색인하는 단계를 추가로 포함할 수 있다(S500). 또한, 상기 색인된 정보는 상호작용 정보 데이터베이스에 저장할 수 있다.

도 5를 참조하면, 본 발명에 따른 단백질 상호작용 검증 시스템(100)은 단백질들 사이의 상호 연관성 정보 및 계층 구조 정보를 저장하는 온톨로지 데이터베이스(170); 단백질 관련 문서들 중 단백질 상호작용 관계를 텍스트 마이닝 방법을 이용하여 추출하는 텍스트 마이닝부(120); 상기 온톨로지 데이터베이스(170)를 이용하여 상기 단백질 상호작용 관계 정보를 온톨로지 아이디로 매핑하는 온톨로지 매핑부(130); 및 상기 매핑된 단백질 상호작용 관계 정보 중 상기 정보의 출현 빈도 및 해당 단백질 관련 문서의 영향력 요인을 기준으로 높은 가중치를 갖는 정보를 필터링 하는 정보 필터링부(140);를 포함한다.

본 발명에 따른 단백질 상호작용 검증 시스템(100)은 상기 단백질 관련 문서 정보, 문서 내의 단백질 관련 문장 정보, 온톨로지 아이디 정보, 단백질 상호작용 관계 정보 및 그의 정확도 정보를 색인하고, 상기 색인 정보를 상호작용 정보 데이 터베이스(180)에 저장하는 정보 색인부(150);를 추가로 포함할 수 있다.

또한, 상기 단백질 상호작용 검증 시스템(100)은 다양한 바이오 정보를 포함하는 바이오 문헌을 저장하는 바이오 정보 문헌 데이터베이스(160) 및 상기 바이오 정보 문헌 데이터베이스(160)로부터 단백질 관련 문서를 검색하는 단백질 문서 검색부(110)를 추가로 포함할 수 있다.

상기 텍스트 마이닝부(120)는 (a1) 상기 단백질 관련 문서에 포함된 용어에 대해 태깅을 수행하는 단계; (a2) 상기 태깅된 문서로부터 단백질 상호작용 관계에 관련된 문장을 추출하는 단계; 및 (a3) 상기 추출된 문장 중에서 하나의 단백질에 관한 주체 문자, 다른 단백질에 관한 객체 문자 및 그들 사이의 관계를 나타내는 이벤트 문자를 인식하는 단계;를 수행할 수 있다.

상기 정보 필터링부(140)는 (c1) 상기 복수의 단백질 상호작용 정보가 충돌하는 경우 각 정보의 가중치를 산정하는 단계; 및 (c2) 상기 정보들의 가중치 차이가 특정 임계치를 초과하는 경우 상기 정보들 중 높은 가중치를 갖는 정보를 선택하는 단계;를 수행할 수 있다.

본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플라피디스크, 광데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있 는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.

이상 도면과 명세서에서 최적 실시예들이 개시되었다. 여기서 특정한 용어들이 사용되었으나, 이는 단지 본 발명을 설명하기 위한 목적에서 사용된 것이지 의미 한정이나 특허청구범위에 기재된 본 발명의 범위를 제한하기 위하여 사용된 것은 아니다. 그러므로 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.

상기에서 살펴본 바와 같이, 본 발명에 따르면 예측한 단백질 상호작용을 실험적으로 검증하기에 앞서 기존에 문헌으로 입증된 지식을 활용함으로써 중복 실험을 피할 수 있으며, 실험 전개의 타당성을 미리 점검할 수 있게 된다. 또한, 단백질 상호작용을 예측하는 시스템의 결과를 문헌을 통해 검증함으로써 예측 시스템의 성능 평가를 위한 척도로 활용될 수 있다.

Claims

(a) 바이오 정보 문헌 데이터베이스로부터 검색된 단백질 관련 문서들 중 단백질 상호작용 관계를 텍스트 마이닝 방법을 이용하여 추출하는 단계;

(b) 상기 단백질 상호작용 관계 정보를 온톨로지 아이디로 매핑하는 단계; 및

(c) 상기 매핑된 단백질 상호작용 관계 정보 중 상기 정보의 출현 빈도 및 해당 단백질 관련 문서의 영향력 요인을 기준으로 높은 가중치를 갖는 정보를 필터링 하는 단계;를 포함하는 단백질 상호작용 검증 방법.
제 1항에 있어서,

(d) 상기 단백질 관련 문서 정보, 문서 내의 단백질 관련 문장 정보, 온톨로지 아이디 정보, 단백질 상호작용 관계 정보 및 그의 정확도 정보를 색인하는 단계;를 추가로 포함하는 것을 특징으로 하는 단백질 상호작용 검증 방법.
제 1항에 있어서,

상기 (a) 단계는

(a1) 상기 단백질 관련 문서에 포함된 용어에 대해 태깅을 수행하는 단계;

(a2) 상기 태깅된 문서로부터 단백질 상호작용 관계에 관련된 문장을 추출하는 단계; 및

(a3) 상기 추출된 문장 중에서 하나의 단백질에 관한 주체 문자, 다른 단백질에 관한 객체 문자 및 그들 사이의 관계를 나타내는 이벤트 문자를 인식하는 단계;를 포함하는 것을 특징으로 하는 단백질 상호작용 검증 방법.
제 1항에 있어서,

상기 (b) 단계는 온톨로지 데이터베이스를 이용하여 상기 단백질 상호작용 관계 정보를 종에 따라 매핑하는 것을 특징으로 하는 단백질 상호작용 검증 방법.
제 1항에 있어서,

상기 (c) 단계는

(c1) 상기 복수의 단백질 상호작용 정보가 충돌하는 경우 각 정보의 가중치를 산정하는 단계; 및

(c2) 상기 정보들의 가중치 차이가 특정 임계치를 초과하는 경우 상기 정보들 중 높은 가중치를 갖는 정보를 선택하는 단계;를 포함하는 것을 특징으로 하는 단백질 상호작용 검증 방법.
단백질들 사이의 상호 연관성 정보 및 계층 구조 정보를 저장하는 온톨로지 데이터베이스;

단백질 관련 문서들 중 단백질 상호작용 관계를 텍스트 마이닝 방법을 이용하여 추출하는 텍스트 마이닝부;

상기 온톨로지 데이터베이스를 이용하여 상기 단백질 상호작용 관계 정보를 온톨로지 아이디로 매핑하는 온톨로지 매핑부; 및

상기 매핑된 단백질 상호작용 관계 정보 중 상기 정보의 출현 빈도 및 해당 단백질 관련 문서의 영향력 요인을 기준으로 높은 가중치를 갖는 정보를 필터링 하는 정보 필터링부;를 포함하는 단백질 상호작용 검증 시스템.
제 6항에 있어서,

상기 단백질 관련 문서 정보, 문서 내의 단백질 관련 문장 정보, 온톨로지 아이디 정보, 단백질 상호작용 관계 정보 및 그의 정확도 정보를 색인하고, 상기 색인 정보를 상호작용 정보 데이터베이스에 저장하는 정보 색인부;를 추가로 포함하는 것을 특징으로 하는 단백질 상호작용 검증 시스템.
제 6항에 있어서,

상기 텍스트 마이닝부는

(a1) 상기 단백질 관련 문서에 포함된 용어에 대해 태깅을 수행하는 단계;

(a2) 상기 태깅된 문서로부터 단백질 상호작용 관계에 관련된 문장을 추출하는 단계; 및

(a3) 상기 추출된 문장 중에서 하나의 단백질에 관한 주체 문자, 다른 단백질에 관한 객체 문자 및 그들 사이의 관계를 나타내는 이벤트 문자를 인식하는 단계;를 수행하는 것을 특징으로 하는 단백질 상호작용 검증 시스템.
제 6항에 있어서,

상기 정보 필터링부는

(c1) 상기 복수의 단백질 상호작용 정보가 충돌하는 경우 각 정보의 가중치를 산정하는 단계; 및

(c2) 상기 정보들의 가중치 차이가 특정 임계치를 초과하는 경우 상기 정보들 중 높은 가중치를 갖는 정보를 선택하는 단계;를 수행하는 것을 특징으로 하는 단백질 상호작용 검증 시스템.