KR20070060993A - 텍스트 마이닝을 이용한 단백질 상호작용 검증 방법 및시스템 - Google Patents

텍스트 마이닝을 이용한 단백질 상호작용 검증 방법 및시스템 Download PDF

Info

Publication number
KR20070060993A
KR20070060993A KR1020060024786A KR20060024786A KR20070060993A KR 20070060993 A KR20070060993 A KR 20070060993A KR 1020060024786 A KR1020060024786 A KR 1020060024786A KR 20060024786 A KR20060024786 A KR 20060024786A KR 20070060993 A KR20070060993 A KR 20070060993A
Authority
KR
South Korea
Prior art keywords
information
protein
protein interaction
ontology
document
Prior art date
Application number
KR1020060024786A
Other languages
English (en)
Inventor
임재수
장현철
임준호
박수준
박선희
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to US11/601,620 priority Critical patent/US20070134756A1/en
Publication of KR20070060993A publication Critical patent/KR20070060993A/ko

Links

Images

Classifications

    • G06F17/30
    • G06F19/24

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

본 발명은 텍스트 마이닝을 이용한 단백질 상호작용 검증 방법 및 시스템에 관한 것이다. 본 발명에 따른 단백질 상호작용 검증 방법은 (a) 바이오 정보 문헌 데이터베이스로부터 검색된 단백질 관련 문서들 중 단백질 상호작용 관계를 텍스트 마이닝 방법을 이용하여 추출하는 단계; (b) 상기 단백질 상호작용 관계 정보를 온톨로지 아이디로 매핑하는 단계; 및 (c) 상기 매핑된 단백질 상호작용 관계 정보 중 상기 정보의 출현 빈도 및 해당 단백질 관련 문서의 영향력 요인을 기준으로 높은 가중치를 갖는 정보를 필터링 하는 단계;를 포함한다. 본 발명에 따르면, 예측한 단백질 상호작용을 실험적으로 검증하기에 앞서 기존에 문헌으로 입증된 지식을 활용함으로써 중복 실험을 피할 수 있으며, 실험 전개의 타당성을 미리 점검할 수 있게 된다. 또한, 단백질 상호작용을 예측하는 시스템의 결과를 문헌을 통해 검증함으로써 예측 시스템의 성능 평가를 위한 척도로 활용될 수 있다.
단백질 상호작용, 텍스트 마이닝, 검증

Description

텍스트 마이닝을 이용한 단백질 상호작용 검증 방법 및 시스템{Method and system for verifying protein-protein interaction using text mining}
도 1은 본 발명의 바람직한 실시예에 따른 단백질 상호작용 검증 방법을 도시하는 순서도이다.
도 2는 도 1의 단백질 상호작용 관계 추출 과정의 바람직한 실시예를 도시하는 순서도이다.
도 3은 본 발명의 바람직한 실시예에 따른 온톨로지 데이터베이스의 계층 구조를 도시하는 도면이다.
도 4는 도 1의 정보 필터링 과정의 바람직한 실시예를 도시하는 순서도이다.
도 5는 본 발명의 바람직한 실시예에 따른 단백질 상호작용 검증 시스템의 구성을 도시하는 블록도이다.
본 발명은 단백질 상호작용 관계를 검증하기 위한 방법 및 시스템에 관한 것이다.
단백질은 유전자가 발현되어 생성되는 물질로서 생체 내에서 고유한 기능을 가지며, 다른 단백질과의 유기적인 상호작용을 통해 다양한 생명현상에 주도적 역할을 수행한다. 대표적으로, 생체 신호를 세포핵까지 전달하여 생물학적 현상을 발현하는 신호전달, 세포의 생명 주기 및 발달, 물질에 대한 대사 등은 여러 단백질들의 복잡한 상호작용을 통해 수행된다. 따라서, 현대의 생명과학은 개개의 유전자나 단백질보다 이들 사이의 복잡한 상호작용을 통해 전체적인 관점에서 생명 현상을 규명하려는데 초점을 맞추고 있다.
단백질 상호작용(protein-protein interaction)은 생체 내에서 특정한 생물학적 작용이 수행되기 위해 여러 단백질들이 상호간에 형성하는 관계로 정의할 수 있다. 즉, 단백질 상호작용 관계는 하나의 단백질이 다른 단백질과 특정한 상호작용을 형성한다고 해석할 수 있다. 일반적으로 단백질 상호작용 관계는 이스트 투 하이브리드(yeast two hybrid)와 같은 대용량 방법(high-throughput screening)에 의해 실험되고 있다. 그러나, 이 실험 데이터에는 실제로 상호작용을 하지 않는 많은 오류(false positive)를 포함하고 있다. 이 오류를 검출하기 위해서 면역침강(co-immunoprecipitation)과 같은 생물학적 실험을 수행할 수 있으나, 방대한 단백질 상호작용 관계에 대해 이 실험을 수행하기에는 매우 많은 비용이 요구된다.
현재, 많은 연구들이 단백질 상호작용 검증 보다는 예측에 집중되어 진행되고 있다. 이 예측은 크게 기계 학습 방법과 단백질 상동성 방법으로 구분된다. 그러나, 이들 방법 역시 다음에 기술되는 이유로 많은 오류(false positive)를 가지고 있다. 따라서, 단백질 상호작용 관계에 대한 검증 방법이 관계 데이터의 신뢰성 확보를 위해 반드시 요구되고 있다.
종래에 단백질 상호작용 관계를 검증하기 위해, 사용자가 다양한 바이오 정보를 포함하는 논문 또는 특허 문서와 같은 문헌을 포함하는 데이터베이스로부터 키워드 검색 엔진을 통해 검증하고자 하는 단백질을 언급하는 문헌을 검색한 다음, 직접 읽어 보아야 하는 시간적 노력이 필요하였다.
하지만, 최근 생물학 연구 분야에서 바이오 정보를 포함하는 문헌의 양이 폭발적으로 증가하고 있기 때문에, 상기 방법을 이용하여 원하는 단백질 상호작용 관계 정보를 신속하고 정확하게 검증하는 것은 사실상 불가능하다.
본 발명은 상기 종래 기술의 문제점들을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은 사용자가 예측한 단백질 상호작용 관계를 종래의 문헌으로부터 신속하고 정확하게 검증할 수 있는 방법을 제공하는 것이다.
본 발명의 다른 목적은 사용자가 예측한 단백질 상호작용 관계를 종래의 문헌으로부터 신속하고 정확하게 검증할 수 있는 시스템을 제공하는 것이다.
본 발명의 목적을 달성하기 위하여, 본 발명은 (a) 바이오 정보 문헌 데이터베이스로부터 검색된 단백질 관련 문서들 중 단백질 상호작용 관계를 텍스트 마이닝 방법을 이용하여 추출하는 단계; (b) 상기 단백질 상호작용 관계 정보를 온톨로지 아이디로 매핑하는 단계; 및 (c) 상기 매핑된 단백질 상호작용 관계 정보 중 상기 정보의 출현 빈도 및 해당 단백질 관련 문서의 영향력 요인을 기준으로 높은 가중치를 갖는 정보를 필터링 하는 단계;를 포함하는 단백질 상호작용 검증 방법을 제공한다.
본 발명의 일 구체예에 있어서, 상기 단백질 상호작용 검증 방법은 (d) 상기 단백질 관련 문서 정보, 문서 내의 단백질 관련 문장 정보, 온톨로지 아이디 정보, 단백질 상호작용 관계 정보 및 그의 정확도 정보를 색인하는 단계;를 추가로 포함할 수 있다.
본 발명의 일 구체예에 있어서, 상기 (a) 단계는 (a1) 상기 단백질 관련 문서에 포함된 용어에 대해 태깅을 수행하는 단계; (a2) 상기 태깅된 문서로부터 단백질 상호작용 관계에 관련된 문장을 추출하는 단계; 및 (a3) 상기 추출된 문장 중에서 하나의 단백질에 관한 주체 문자, 다른 단백질에 관한 객체 문자 및 그들 사이의 관계를 나타내는 이벤트 문자를 인식하는 단계;를 포함할 수 있다.
본 발명의 일 구체예에 있어서, 상기 (b) 단계는 온톨로지 데이터베이스를 이용하여 상기 단백질 상호작용 관계 정보를 종에 따라 매핑할 수 있다.
본 발명의 일 구체예에 있어서, 상기 (c) 단계는 (c1) 상기 복수의 단백질 상호작용 정보가 충돌하는 경우 각 정보의 가중치를 산정하는 단계; 및 (c2) 상기 정보들의 가중치 차이가 특정 임계치를 초과하는 경우 상기 정보들 중 높은 가중치를 갖는 정보를 선택하는 단계;를 포함할 수 있다.
본 발명의 다른 목적을 달성하기 위하여, 본 발명은 단백질들 사이의 상호 연관성 정보 및 계층 구조 정보를 저장하는 온톨로지 데이터베이스; 단백질 관련 문서들 중 단백질 상호작용 관계를 텍스트 마이닝 방법을 이용하여 추출하는 텍스트 마이닝부; 상기 온톨로지 데이터베이스를 이용하여 상기 단백질 상호작용 관계 정보를 온톨로지 아이디로 매핑하는 온톨로지 매핑부; 및 상기 매핑된 단백질 상호작용 관계 정보 중 상기 정보의 출현 빈도 및 해당 단백질 관련 문서의 영향력 요인을 기준으로 높은 가중치를 갖는 정보를 필터링 하는 정보 필터링부;를 포함하는 단백질 상호작용 검증 시스템을 제공한다.
본 발명의 일 구체예에 있어서, 상기 단백질 관련 문서 정보, 문서 내의 단백질 관련 문장 정보, 온톨로지 아이디 정보, 단백질 상호작용 관계 정보 및 그의 정확도 정보를 색인하고, 상기 색인 정보를 상호작용 정보 데이터베이스에 저장하는 정보 색인부;를 추가로 포함할 수 있다.
본 발명의 일 구체예에 있어서, 상기 텍스트 마이닝부는 (a1) 상기 단백질 관련 문서에 포함된 용어에 대해 태깅을 수행하는 단계; (a2) 상기 태깅된 문서로부터 단백질 상호작용 관계에 관련된 문장을 추출하는 단계; 및 (a3) 상기 추출된 문장 중에서 하나의 단백질에 관한 주체 문자, 다른 단백질에 관한 객체 문자 및 그들 사이의 관계를 나타내는 이벤트 문자를 인식하는 단계;를 수행할 수 있다.
본 발명의 일 구체예에 있어서, 상기 정보 필터링부는 (c1) 상기 복수의 단백질 상호작용 정보가 충돌하는 경우 각 정보의 가중치를 산정하는 단계; 및 (c2) 상기 정보들의 가중치 차이가 특정 임계치를 초과하는 경우 상기 정보들 중 높은 가중치를 갖는 정보를 선택하는 단계;를 수행할 수 있다.
이하 첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 대하여 상세히 설명한다.
도 1은 본 발명의 바람직한 실시예에 따른 단백질 상호작용 검증 방법을 도 시하는 순서도이다.
도 1을 참조하면, 본 발명에 따른 단백질 상호작용 검증 방법은 바이오 정보 문헌 데이터베이스로부터 단백질 관련 문서를 검색하는 단계(S100); 상기 검색된 단백질 관련 문서들 중 단백질 상호작용 관계를 텍스트 마이닝 방법을 이용하여 추출하는 단계(S200); 상기 단백질 상호작용 관계 정보를 온톨로지 아이디로 매핑하는 단계(S300); 및 상기 단백질 상호작용 관계 정보 중 높은 가중치를 갖는 정보를 필터링 하는 단계(S400);를 포함한다. 선택적으로, 본 발명에 따른 단백질 상호작용 검증 방법은 상기 단백질 관련 문서 정보, 문서 내의 단백질 관련 문장 정보, 온톨로지 아이디 정보, 단백질 상호작용 관계 정보 및 그의 정확도 정보를 색인하는 단계(S500);를 추가로 포함할 수 있다.
이하, 본 발명에 따른 단백질 상호작용 검증 방법을 단계별로 상세히 설명한다.
단백질 문서 검색 단계
예측된 단백질 상호작용 관계를 검증하기 위해서, 먼저 바이오 정보 문헌 데이터베이스로부터 단백질 관련 문서를 검색한다(S100).
상기 바이오 정보 문헌은 다양한 바이오 정보를 포함하는 임의의 것일 수 있으며, 예컨대 논문 또는 특허 문서일 수 있다. 또한, 본 단계는 종래의 키워드 검색 엔진을 이용하여 수행될 수 있다. 바람직하게, 상기 단백질 관련 문서는 단백질 상호작용 관계에 관한 정보를 포함할 수 있다.
예컨대, 본 단계는 생물학적으로 의미가 있는 명칭, 즉 단백질, 유기체, 유 전자 및 질병 등과 같은 개체명이 문헌에서 나타날 경우 이들의 경계를 인식하고 의미 카테고리를 결정하는 개체명 인식 과정을 수행하고, 상기 인식된 개체명들 중에서 단백질 상호작용과 관련이 있는 단백질을 포함하는 문서를 검색할 수 있다.
단백질 상호작용 관계 추출 단계
다음으로, 상기 검색된 단백질 관련 문서들 중 단백질 상호작용 관계를 텍스트 마이닝 방법을 이용하여 추출한다(S200).
도 2는 도 1의 단백질 상호작용 관계 추출 과정의 바람직한 실시예를 도시하는 순서도이다. 도 2를 참조하면, 단백질 상호작용 관계 추출 과정은 용어 태깅 단계(S210), 문장 추출 단계(S220) 및 문자 인식 단계(S230)를 포함할 수 있다.
상기 용어 태깅 단계(S210)는 상기 단백질 관련 문서에 포함된 용어에 대해 태깅을 수행한다. 상기 용어 태깅 방식으로 다양한 방법이 사용될 수 있다는 것은 당업자에게 자명할 것이다. 예컨대, 명사, 동사, 형용사 등의 품사를 구별하여 품사별로 다른 태그를 붙일 수 있다. 또한, 예컨대, 단백질 용어를 미리 선정하고 해당 용어가 문서로부터 검색될 경우 별도의 태그를 붙이고, 화학 반응과 관련된 동사인 "bind", "react", "activate" 또는 "inhibit" 등과 같은 동사를 미리 선정하고 해당 동사가 문서로부터 검색될 경우 미리 설정된 태그를 붙일 수도 있을 것이다.
상기 문장 추출 단계(S220)는 미리 설정된 논리를 적용하여 상기 태깅된 문서를 분석하고, 그로부터 단백질 상호작용 관계에 관련된 문장을 추출한다.
상기 문자 인식 단계(S230) 상기 추출된 문장 중에서 하나의 단백질에 관한 주체 문자, 다른 단백질에 관한 객체 문자 및 그들 사이의 관계를 나타내는 이벤트 문자를 인식한다. 상기 인식을 통해 생물학적으로 중요한 의미를 갖는 단백질 상호작용 관계 정보를 추출하게 된다.
온톨로지 매핑 단계
텍스트 상에 나타난 문자열은 형태적으로 다소 다르더라도 같은 의미를 가질 수 있으며, 또한 생물의 종에 따라 그 의미도 조금씩 다르다. 이러한 문제점을 해결하기 위해 단백질 및 상호작용을 기술하는 문자열은 통제된 어휘와 의미 체계를 가질 필요가 있다. 따라서, 본 발명에 따른 단백질 상호작용 검증 방법은 상기 단백질 상호작용 관계 정보를 온톨로지 아이디로 매핑한다(S300).
바람직하게, 본 단계는 온톨로지 데이터베이스를 이용하여 상기 단백질 상호작용 관계 정보를 종에 따라 매핑할 수 있다. 상기 온톨로지 데이터베이스로서 "SwissProt" 또는 "GO" 등과 같은 공지의 유전자 온톨로지 데이터베이스를 이용할 수 있다.
도 3은 본 발명의 바람직한 실시예에 따른 온톨로지 데이터베이스의 계층 구조를 도시하는 도면이다.
도 3을 참조하면, 상기 유전자 온톨로지 데이터베이스에는 세포 성분(Cellular Component), 생물학적 과정(Biological Process) 및 분자 기능(Molecular Function)의 세 부분으로 이루어지고 계층화 된 단백질들 사이의 상호 연관성을 나타내는 유전자 온톨로지 정보가 저장될 수 있다.
상기 세포 성분은 세포의 구조, 위치, 거대 분자 집합 등의 정보를 포함할 수 있고, 상기 생물학적 과정은 분자 기능의 정렬화 된 조합으로 이루어지며 화학적인 반응에 대한 정보를 포함할 수 있으며, 상기 분자 기능은 개개 유전자 또는 단백질들의 수행 기능에 관한 정보를 포함할 수 있다.
정보 필터링 단계
대량의 문헌을 처리할 경우, 기계적 처리에 따른 오류 및 서로 다른 문헌에서 상반된 기술 내용 등의 이유로 인해 충돌하는 정보가 발생할 수 있다. 상기 문제점을 해결하기 위해, 본 발명에 따른 단백질 상호작용 검증 방법은 상기 매핑된 단백질 상호작용 관계 정보 중 상기 정보의 출현 빈도 및 해당 단백질 관련 문서의 영향력 요인을 기준으로 높은 가중치를 갖는 정보를 필터링 한다(S400).
도 4는 도 1의 정보 필터링 과정의 바람직한 실시예를 도시하는 순서도이다.
도 4를 참조하면, 동일한 단백질 상호작용 정보가 여러 문헌에서 발견되고 그 정보가 서로 충돌하는 경우(S410) 각 정보의 가중치를 산정한다(S420). 상기 가중치 산정은 특별한 기준 또는 방법에 한정되지 않으며, 예컨대 상기 충돌하는 각 정보의 출현 빈도 및 상기 정보가 출현한 해당 문서의 영향력 요인(impact factor)을 기준으로 수행될 수 있다.
다음으로, 상기 정보들의 가중치 차이가 특정 임계치를 초과하는 경우(S430) 상기 정보들 중 높은 가중치를 갖는 정보를 선택한다(S440). 즉, 서로 상반된 단백질 상호작용 관계 정보 중 보다 확실한 쪽을 선택한다. 만약 상기 정보들의 가중치 차이가 특정 임계치를 초과하지 않는 경우, 즉 서로 상반된 단백질 상호작용 관계 정보 중 어느 하나가 다른 것들에 비해 확실하다고 판단되지 않는 경우, 어느 정보도 선택하지 않는다.
정보 색인 단계
선택적으로, 본 발명에 따른 단백질 상호작용 검증 방법은 상기 단백질 관련 문서 정보, 문서 내의 단백질 관련 문장 정보, 온톨로지 아이디 정보, 단백질 상호작용 관계 정보 및 그의 정확도 정보를 색인하는 단계를 추가로 포함할 수 있다(S500). 또한, 상기 색인된 정보는 상호작용 정보 데이터베이스에 저장할 수 있다.
도 5는 본 발명의 바람직한 실시예에 따른 단백질 상호작용 검증 시스템의 구성을 도시하는 블록도이다.
도 5를 참조하면, 본 발명에 따른 단백질 상호작용 검증 시스템(100)은 단백질들 사이의 상호 연관성 정보 및 계층 구조 정보를 저장하는 온톨로지 데이터베이스(170); 단백질 관련 문서들 중 단백질 상호작용 관계를 텍스트 마이닝 방법을 이용하여 추출하는 텍스트 마이닝부(120); 상기 온톨로지 데이터베이스(170)를 이용하여 상기 단백질 상호작용 관계 정보를 온톨로지 아이디로 매핑하는 온톨로지 매핑부(130); 및 상기 매핑된 단백질 상호작용 관계 정보 중 상기 정보의 출현 빈도 및 해당 단백질 관련 문서의 영향력 요인을 기준으로 높은 가중치를 갖는 정보를 필터링 하는 정보 필터링부(140);를 포함한다.
본 발명에 따른 단백질 상호작용 검증 시스템(100)은 상기 단백질 관련 문서 정보, 문서 내의 단백질 관련 문장 정보, 온톨로지 아이디 정보, 단백질 상호작용 관계 정보 및 그의 정확도 정보를 색인하고, 상기 색인 정보를 상호작용 정보 데이 터베이스(180)에 저장하는 정보 색인부(150);를 추가로 포함할 수 있다.
또한, 상기 단백질 상호작용 검증 시스템(100)은 다양한 바이오 정보를 포함하는 바이오 문헌을 저장하는 바이오 정보 문헌 데이터베이스(160) 및 상기 바이오 정보 문헌 데이터베이스(160)로부터 단백질 관련 문서를 검색하는 단백질 문서 검색부(110)를 추가로 포함할 수 있다.
상기 텍스트 마이닝부(120)는 (a1) 상기 단백질 관련 문서에 포함된 용어에 대해 태깅을 수행하는 단계; (a2) 상기 태깅된 문서로부터 단백질 상호작용 관계에 관련된 문장을 추출하는 단계; 및 (a3) 상기 추출된 문장 중에서 하나의 단백질에 관한 주체 문자, 다른 단백질에 관한 객체 문자 및 그들 사이의 관계를 나타내는 이벤트 문자를 인식하는 단계;를 수행할 수 있다.
상기 정보 필터링부(140)는 (c1) 상기 복수의 단백질 상호작용 정보가 충돌하는 경우 각 정보의 가중치를 산정하는 단계; 및 (c2) 상기 정보들의 가중치 차이가 특정 임계치를 초과하는 경우 상기 정보들 중 높은 가중치를 갖는 정보를 선택하는 단계;를 수행할 수 있다.
본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플라피디스크, 광데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있 는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.
이상 도면과 명세서에서 최적 실시예들이 개시되었다. 여기서 특정한 용어들이 사용되었으나, 이는 단지 본 발명을 설명하기 위한 목적에서 사용된 것이지 의미 한정이나 특허청구범위에 기재된 본 발명의 범위를 제한하기 위하여 사용된 것은 아니다. 그러므로 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.
상기에서 살펴본 바와 같이, 본 발명에 따르면 예측한 단백질 상호작용을 실험적으로 검증하기에 앞서 기존에 문헌으로 입증된 지식을 활용함으로써 중복 실험을 피할 수 있으며, 실험 전개의 타당성을 미리 점검할 수 있게 된다. 또한, 단백질 상호작용을 예측하는 시스템의 결과를 문헌을 통해 검증함으로써 예측 시스템의 성능 평가를 위한 척도로 활용될 수 있다.

Claims (9)

  1. (a) 바이오 정보 문헌 데이터베이스로부터 검색된 단백질 관련 문서들 중 단백질 상호작용 관계를 텍스트 마이닝 방법을 이용하여 추출하는 단계;
    (b) 상기 단백질 상호작용 관계 정보를 온톨로지 아이디로 매핑하는 단계; 및
    (c) 상기 매핑된 단백질 상호작용 관계 정보 중 상기 정보의 출현 빈도 및 해당 단백질 관련 문서의 영향력 요인을 기준으로 높은 가중치를 갖는 정보를 필터링 하는 단계;를 포함하는 단백질 상호작용 검증 방법.
  2. 제 1항에 있어서,
    (d) 상기 단백질 관련 문서 정보, 문서 내의 단백질 관련 문장 정보, 온톨로지 아이디 정보, 단백질 상호작용 관계 정보 및 그의 정확도 정보를 색인하는 단계;를 추가로 포함하는 것을 특징으로 하는 단백질 상호작용 검증 방법.
  3. 제 1항에 있어서,
    상기 (a) 단계는
    (a1) 상기 단백질 관련 문서에 포함된 용어에 대해 태깅을 수행하는 단계;
    (a2) 상기 태깅된 문서로부터 단백질 상호작용 관계에 관련된 문장을 추출하는 단계; 및
    (a3) 상기 추출된 문장 중에서 하나의 단백질에 관한 주체 문자, 다른 단백질에 관한 객체 문자 및 그들 사이의 관계를 나타내는 이벤트 문자를 인식하는 단계;를 포함하는 것을 특징으로 하는 단백질 상호작용 검증 방법.
  4. 제 1항에 있어서,
    상기 (b) 단계는 온톨로지 데이터베이스를 이용하여 상기 단백질 상호작용 관계 정보를 종에 따라 매핑하는 것을 특징으로 하는 단백질 상호작용 검증 방법.
  5. 제 1항에 있어서,
    상기 (c) 단계는
    (c1) 상기 복수의 단백질 상호작용 정보가 충돌하는 경우 각 정보의 가중치를 산정하는 단계; 및
    (c2) 상기 정보들의 가중치 차이가 특정 임계치를 초과하는 경우 상기 정보들 중 높은 가중치를 갖는 정보를 선택하는 단계;를 포함하는 것을 특징으로 하는 단백질 상호작용 검증 방법.
  6. 단백질들 사이의 상호 연관성 정보 및 계층 구조 정보를 저장하는 온톨로지 데이터베이스;
    단백질 관련 문서들 중 단백질 상호작용 관계를 텍스트 마이닝 방법을 이용하여 추출하는 텍스트 마이닝부;
    상기 온톨로지 데이터베이스를 이용하여 상기 단백질 상호작용 관계 정보를 온톨로지 아이디로 매핑하는 온톨로지 매핑부; 및
    상기 매핑된 단백질 상호작용 관계 정보 중 상기 정보의 출현 빈도 및 해당 단백질 관련 문서의 영향력 요인을 기준으로 높은 가중치를 갖는 정보를 필터링 하는 정보 필터링부;를 포함하는 단백질 상호작용 검증 시스템.
  7. 제 6항에 있어서,
    상기 단백질 관련 문서 정보, 문서 내의 단백질 관련 문장 정보, 온톨로지 아이디 정보, 단백질 상호작용 관계 정보 및 그의 정확도 정보를 색인하고, 상기 색인 정보를 상호작용 정보 데이터베이스에 저장하는 정보 색인부;를 추가로 포함하는 것을 특징으로 하는 단백질 상호작용 검증 시스템.
  8. 제 6항에 있어서,
    상기 텍스트 마이닝부는
    (a1) 상기 단백질 관련 문서에 포함된 용어에 대해 태깅을 수행하는 단계;
    (a2) 상기 태깅된 문서로부터 단백질 상호작용 관계에 관련된 문장을 추출하는 단계; 및
    (a3) 상기 추출된 문장 중에서 하나의 단백질에 관한 주체 문자, 다른 단백질에 관한 객체 문자 및 그들 사이의 관계를 나타내는 이벤트 문자를 인식하는 단계;를 수행하는 것을 특징으로 하는 단백질 상호작용 검증 시스템.
  9. 제 6항에 있어서,
    상기 정보 필터링부는
    (c1) 상기 복수의 단백질 상호작용 정보가 충돌하는 경우 각 정보의 가중치를 산정하는 단계; 및
    (c2) 상기 정보들의 가중치 차이가 특정 임계치를 초과하는 경우 상기 정보들 중 높은 가중치를 갖는 정보를 선택하는 단계;를 수행하는 것을 특징으로 하는 단백질 상호작용 검증 시스템.
KR1020060024786A 2005-12-08 2006-03-17 텍스트 마이닝을 이용한 단백질 상호작용 검증 방법 및시스템 KR20070060993A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US11/601,620 US20070134756A1 (en) 2005-12-08 2006-11-20 Method and system of verifying protein-protein interaction using text mining

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20050119279 2005-12-08
KR1020050119279 2005-12-08

Publications (1)

Publication Number Publication Date
KR20070060993A true KR20070060993A (ko) 2007-06-13

Family

ID=38356932

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060024786A KR20070060993A (ko) 2005-12-08 2006-03-17 텍스트 마이닝을 이용한 단백질 상호작용 검증 방법 및시스템

Country Status (1)

Country Link
KR (1) KR20070060993A (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100849497B1 (ko) * 2006-09-29 2008-07-31 한국전자통신연구원 온톨로지 매핑을 이용한 단백질 이름 정규화 방법
KR100963667B1 (ko) * 2008-04-30 2010-06-15 한국과학기술정보연구원 대용량 데이터베이스의 의미기반 기술용어 발굴 장치
WO2012046905A1 (ko) * 2010-10-07 2012-04-12 한국과학기술정보연구원 다중 자원의 통합에 의한 자원 검색 장치 및 방법
KR101529120B1 (ko) * 2013-12-30 2015-06-29 주식회사 케이티 바이오 문헌 정보의 마이닝을 위한 마이닝 패턴 생성 방법 및 시스템

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100849497B1 (ko) * 2006-09-29 2008-07-31 한국전자통신연구원 온톨로지 매핑을 이용한 단백질 이름 정규화 방법
KR100963667B1 (ko) * 2008-04-30 2010-06-15 한국과학기술정보연구원 대용량 데이터베이스의 의미기반 기술용어 발굴 장치
WO2012046905A1 (ko) * 2010-10-07 2012-04-12 한국과학기술정보연구원 다중 자원의 통합에 의한 자원 검색 장치 및 방법
KR101529120B1 (ko) * 2013-12-30 2015-06-29 주식회사 케이티 바이오 문헌 정보의 마이닝을 위한 마이닝 패턴 생성 방법 및 시스템

Similar Documents

Publication Publication Date Title
Franzén et al. Protein names and how to find them
CN108549656B (zh) 语句解析方法、装置、计算机设备及可读介质
KR101276602B1 (ko) 표의문자적 내용을 가지는 데이터를 서치하고 매칭하기위한 시스템 및 방법
US9009134B2 (en) Named entity recognition in query
US11514701B2 (en) System and method for global identification in a collection of documents
CN111680173A (zh) 统一检索跨媒体信息的cmr模型
CN111475623A (zh) 基于知识图谱的案件信息语义检索方法及装置
CN102081634B (zh) 语音检索装置和语音检索方法
Chen et al. Towards robust unsupervised personal name disambiguation
CN109284370B (zh) 一种基于深度学习的移动应用描述与权限保真性判定方法及装置
CN111767716A (zh) 企业多级行业信息的确定方法、装置及计算机设备
US20040128292A1 (en) Search data management
CN114911917A (zh) 资产元信息搜索方法、装置、计算机设备及可读存储介质
JP4254763B2 (ja) 文書検索システム、文書検索方法及び文書検索プログラム
WO2020091618A1 (ru) Система определения именованных сущностей с динамическими параметрами
KR20070060993A (ko) 텍스트 마이닝을 이용한 단백질 상호작용 검증 방법 및시스템
CN114764566A (zh) 用于航空领域的知识元抽取方法
CN114491079A (zh) 知识图谱构建和查询方法、装置、设备和介质
Almasian et al. Word embeddings for entity-annotated texts
KR101615164B1 (ko) 엔-그램 기반의 질의 처리 장치 및 그 방법
CN116431746A (zh) 基于编码库的地址映射方法、装置、电子设备及存储介质
CN116127097A (zh) 一种结构化文本关系抽取方法、装置、设备
CN112711695A (zh) 基于内容的搜索建议生成方法及装置
KR100753827B1 (ko) 단백질 상동성 관계를 이용한 단백질 상호작용 검증 방법및 시스템
Afzal et al. Towards semantic annotation of bioinformatics services: building a controlled vocabulary

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application