KR100849497B1

KR100849497B1 - 온톨로지 매핑을 이용한 단백질 이름 정규화 방법

Info

Publication number: KR100849497B1
Application number: KR1020060095817A
Authority: KR
Inventors: 임준호; 장현철; 임재수; 박수준; 박선희
Original assignee: 한국전자통신연구원
Priority date: 2006-09-29
Filing date: 2006-09-29
Publication date: 2008-07-31
Also published as: US20080082483A1; KR20080030138A

Abstract

본 발명은 단백질 이름 정규화 방법에 관한 것으로, 보다 상세하게는 온톨로지 매핑을 이용한 단백질 이름 정규화 방법 및 장치에 관한 것이다.

본 발명은 생물학 문헌을 입력받아 단백질 개체명을 추출하는 단계; 상기 추출된 단백질 개체명과 온톨로지를 통해서 구축된 동의어 사전과의 유사도를 계산하여 단백질 코드를 분석하는 단계; 소정 종분류 학습모델을 이용하여 상기 생물학 문헌에 포함된 단백질의 종 정보를 분류하는 단계; 및 상기 분석된 단백질 코드 및 상기 분류된 종 정보를 통합하여 온톨로지 ID를 할당하는 단계를 포함하는 온톨로지 매핑을 이용한 단백질 이름 정규화 방법을 개시한다.

단백질 이름 정규화, 온톨로지, 생물학 문헌

Description

온톨로지 매핑을 이용한 단백질 이름 정규화 방법{Method of Protein Name Normalization Using Ontology Mapping}

도 1은 본 발명의 실시예에 따른 단백질 이름 정규화 장치의 개략적인 구성을 보여주는 도면,

도 2는 본 발명의 실시예에 따른 단백질 이름 정규화 방법을 보여주는 흐름도이다.

본 발명은 단백질 이름 정규화 방법에 관한 것으로, 보다 상세하게는 온톨로지 매핑을 이용한 단백질 이름 정규화 방법에 관한 것이다.

최근 생물학 분야에서 폭발적으로 증가하는 문헌으로부터 생물학자가 원하는 지식을 빠르고 정확하게 추출하거나 검색할 수 있도록, 문헌에 포함된 단백질 정보를 인식하는 방법이 활발하게 개발되고 있다.

생물학 도메인 문헌으로부터 단백질의 이름을 인식하는 것이 가능하지만, 생 물학 문헌에서 인식된 단백질 이름은 다양한 변형을 포함하고 있기 때문에, 인식된 단백질 이름에 해당하는 단백질 온톨로지의 ID를 알 수 없다는 문제점이 있다.

본 발명은 상기 문제점을 해결하기 위해 제안된 것으로, 단백질 이름의 단백질 코드와 단백질 종을 분석함으로써, 해당 단백질 이름의 온톨로지 ID를 인식할 수 있는 온톨로지 매핑을 이용한 단백질 이름 정규화 방법 및 장치를 제공하는 것이다.

본 발명의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있으며, 본 발명의 실시예에 의해 보다 분명하게 알게 될 것이다. 또한, 본 발명의 목적 및 장점들은 특허 청구 범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 쉽게 알 수 있을 것이다.

상술한 목적을 달성하기 위한 본 발명은 생물학 문헌을 입력받아 단백질 개체명을 추출하는 단계; 상기 추출된 단백질 개체명과 온톨로지를 통해서 구축된 동의어 사전과의 유사도를 계산하여 단백질 코드를 분석하는 단계; 소정 종분류 학습모델을 이용하여 상기 생물학 문헌에 포함된 단백질의 종 정보를 분류하는 단계; 및 상기 분석된 단백질 코드 및 상기 분류된 종 정보를 통합하여 온톨로지 ID를 할당하는 단계를 포함하는 온톨로지 매핑을 이용한 단백질 이름 정규화 방법을 개시 한다.

상기 단백질 코드를 분석하는 단계는, 상기 추출된 단백질 개체명이 약어인 경우 원 단백질 이름을 복원하는 과정을 거친 후에 수행되는 것을 특징으로 한다.

또한, 상기 단백질 코드를 분석하는 단계는, 단백질 코드와 각 단백질 코드별로의 동의어 리스트를 갖는 동의어 사전을 구축하는 과정과, 상기 동의어별 텀리스트를 생성하는 과정과, 상기 텀리스트를 이용하여 상기 동의어 사전의 역색인 구조를 생성하는 과정과, 상기 문헌에서 인식된 단백질 개체명과 상기 동의의 사전의 역색인 구조를 비교하여 가장 유사도가 높은 단백질 코드를 할당하는 과정을 포함하여 구현될 수 있다.

삭제

상술한 목적, 특징 및 장점들은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이다. 우선 각 도면의 구성요소들에 참조 번호를 부가함에 있어서, 동일한 구성 요소들에 한해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 번호를 가지도록 하고 있음에 유의하여야 한다. 또한, 본 발명을 설명함에 있어서, 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예를 상세히 설명한다.

도 1은 본 발명의 실시예에 따른 단백질 이름 정규화 장치의 개략적인 구성을 보여주는 도면이다.

도 1을 참조하면, 단백질 이름 정규화 장치는 생물학 문헌을 입력받아 단백질 개체명 및 종 정보를 추출하기 위한 생물학 문헌 인식부(110), 약어 단백질 이름과 원 단백질 이름의 쌍으로 구성된 약어사전 DB(130), 상기 추출된 단백질 이름이 약어인 경우 상기 약어사전 DB를 검색하여 원 단백질 이름으로 복원하는 약어 단백질 이름 복원부(120), 온톨로지를 통해서 구축된 동의어 사전 DB(150), 상기 동의의 사전의 역색인 구조를 갖는 동의어 사전 역색인 구조 DB(160), 상기 추출된 단백질 개체명과 상기 동의의 사전 역색인 구조 DB(160)를 비교하여 단백질 코드와의 유사도를 계산하여 단백질 코드를 분석하는 단백질 코드 분석부(140)을 포함하여 구성된다.

또한, 상기 도 1의 단백질 이름 정규화 장치는 단백질 종 분석을 위한 구성을 포함한다. 즉, 종 분류 학습모델 DB(180), 상기 종분류 학습모델을 이용하여 상 기 생물학 문헌에 포함된 단백질의 종 정보를 분류하는 단백질 종 분류 분석부(170)를 더 포함한다.

상기 도 1의 단백질 이름 정규화 장치는 최종적으로 상기 분석된 단백질 코드 및 상기 분류된 종 정보를 통합하여 온톨로지 ID를 할당하는 온톨로지 ID 할당부(190)을 더 포함하여 구성된다.

도 2는 본 발명의 실시예에 따른 단백질 이름 정규화 방법을 보여주는 흐름도이다. 이하, 상기 도 1 및 도 2를 참조하여 단백질 이름 정규화 방법을 설명한다.

도 2를 참조하면, 단백질 이름 정규화 방법은 단백질 이름이 인식된 생물학 문헌을 입력으로 받아서(210단계), 각 단백질 이름의 온톨로지 ID를 인식한 문헌을 출력으로 내준다(270단계). 단백질 온톨로지의 ID는 단백질 코드와 단백질 종으로 구성되기 때문에, 각 단백질 이름에 대해서 단백질 코드와 종을 분석한 후, 이를 통합하여 온톨로지 ID를 할당한다. 각 단계의 세부적인 설명은 다음과 같다.

<단백질 개체명 추출 220단계>

220단계에서 생물학 문헌 인식부(110)는 NCBI의 PubMed 논문 또는 USPTO의 특허 문헌과 같이 전자화된 생물학 문헌을 입력으로 받아, 개체명 추출기 모듈을 사용하여 단백질 이름을 인식한다. 개체명 추출기의 결과는 다음과 같다.

본 단계에서는 온톨로지 매핑을 위하여, 문헌에서 인식된 단백질 이름의 문자열들을 추출한다. 위의 예에서는, novel tumor necrosis factor-alpha와 TNF 문자열을 추출한다.

<약어 단백질 이름 복원 230단계>

230단계에서 약어 단백질 이름 복원부(120)는 상기 추출된 단백질 개체명이 약어인 경우 원 단백질 이름을 복원하는 과정을 거친다.

단백질 코드를 분석하기 위해서는 이전 단계에서 추출한 단백질 이름 문자열과 온톨로지에서 추출한 동의어 사전(150)을 비교하여야 한다. 이전 단계에서 추출한 단백질 이름은 약어로 사용된 단백질 이름일 수 있지만, 온톨로지의 동의어 사전(150)에는 단백질 이름의 약어 형태가 등록되지 않은 경우가 많다. 따라서, 정확한 단백질 코드를 추출하기 위해서, 추출된 단백질 이름이 약어일 경우, 약어 단백 질 이름 복원 단계에서 원 단백질 이름을 복원하여야 한다. 약어 사전(130)은 약어 단백질 이름과 원 단백질 이름의 쌍으로 구성되어 있고, 추출된 단백질 이름과 약어사전에 등록된 약어 단백질 이름이 동일할 경우, 약어 단백질 이름으로 판단한다. 약어로 사용된 단백질 이름은 약어 사전에 등록된 원 단백질 이름으로 복원하여 사용하고, 약어로 사용되지 않은 단백질 이름은 복원하지 않는다.

예를 들어, 이전 단계의 TNF 단백질 이름은 약어사전에 따라 “Tumor necrosis factor alpha”의 원 단백질 이름으로 복원된다.

<단백질 코드와 유사도 계산 240단계>

240단계에서 단백질 코드 분석부(140)는 상기 추출된 단백질 개체명과 온톨로지를 통해서 구축된 동의어 사전과의 유사도를 계산하여 단백질 코드를 분석한다.

온톨로지를 통해서 구축된 동의어 사전과 문헌에서 인식된 단백질 이름 사이의 유사도를 계산하기 위하여, 정보검색의 벡터-공간 모형을 이용한다. 유사도 계산 결과, 가장 높은 유사도를 가지는 동의어의 단백질 코드를 해당 단백질 이름의 단백질 코드로 할당한다. (단백질 코드는 온톨로지 ID 중, 종 정보를 제외한 부분의 ID를 의미한다.) 유사도 계산 방법에 대한 세부적인 설명은 다음과 같다.

A. 동의어 사전

온톨로지로부터 단백질 코드들과 각 단백질 코드 별로 동의어들의 리스트를 사전 형태로 구축한다. 정보검색 관점에서 이와 같은 동의어 사전은 검색 대상 문 서집합, 각 단백질 코드는 검색의 대상이 되는 개별적인 문서, 각 코드 별 동의어들은 문서의 내용이 된다.

B. 동의어 별 텀 리스트 생성

동의어 사전과 문헌에서 인식된 단백질 이름(쿼리) 사이의 유사도 계산에 벡터-공간 모형을 적용하기에 앞서, 문헌에서 나타날 수 있는 다양한 형태의 단백질 이름을 표현할 수 있도록, 각 동의어의 텀 리스트를 생성한다. 텀 리스트는 토큰들의 모든 가능한 부분 문자열로 정의된다. 예를 들어, “amyloid beta protein”은 {“amyloid”, “beta”, “protein”, “amyloid beta”, “beta protein”, “amyloid beta protein”}라는 텀 리스트를 생성한다.

C. 벡터-공간 모형

유사도 계산에 벡터-공간 모형을 적용하기 위해서는 term-frequency(tf), inverse-document-frequency(idf) 등을 정의해야 한다. 각 텀 별 tf, idf, weight의 수식은 하기 [수학식 1]과 같다.

위 [수학식1]에서 tf는 해당 단백질 코드와 주어진 텀의 연관성의 정도를 표현하고, idf는 주어진 텀이 전체 단백질 코드 집합에서 가지는 변별력을 표현한다. 예를 들어, “amyloid beta protein” 텀 리스트에서, “amyloid”, “beta”, “protein”은 1/3, “amyloid beta”, “beta protein”은 2/3, “amyloid beta protein”는 3/3의 tf를 가짐으로써, 텀의 길이가 길수록 단백질 코드와 높은 연관성을 가질 수 있도록 한다. 각 텀의 idf는 텀 별 단백질 코드의 비율을 의미한다. 예를 들어, “amyloid” 텀은 “beta” 텀보다 적은 수의 단백질 코드의 텀 리스트에서 나타나기 때문에, “amyloid” 텀이 “beta” 텀보다 단백질 코드를 구분할 수 있는 변별력이 높고, 따라서 “amyloid” 텀이 “beta” 텀보다 높은 idf를 가진다. 각 단백질 코드 별 텀의 가중치는 tf와 idf를 곱한 값을 사용한다.

D. 동의어 사전의 역색인 구조 생성

정보검색의 벡터-공간 모형을 이용하기 위하여 동의어 사전의 역색인 구조를 생성한다. 역색인 구조를 생성하기 위하여 동의어 사전 내의 각 동의어에 대해서 텀 리스트를 생성하고, 각 텀 별로 tf, idf를 통한 weight를 계산한다. 역색인 구조에는 각 단백질 코드 별, 텀들의 weight를 저장한다. 그리고, 텀을 구성하는 각 토큰 별로 해당 토큰이 나타날 수 있는 단백질 코드들의 리스트를 저장한다.

E. 단백질 이름의 유사도 계산

문헌에서 인식된 단백질 이름은 벡터-공간 모형의 쿼리로 이용된다. 각 단백질 이름에 대해서, 동의어 사전과 같이 텀 리스트를 생성한 후, 각 텀의 tf를 계산하고, idf를 1로 설정하여 weigth를 계산한다. 단백질 이름의 각 토큰 별로, 역색인 사전에 저장된 나타날 수 있는 단백질 코드(pcode)들의 리스트에 대해서 하기 수학식 2와 같이 유사도를 계산한다.

위의 유사도 계산식과 일반적인 벡터-공간 모형의 차이점은 문서-길이 정규화(document-length normalization)을 수행하지 않는다는 점이다. 단백질 코드 추출 문제에 있어서는 동의어가 많이 등록된 단백질 코드가 동의어가 적게 등록된 단백질 코드보다 자주 발생하기 때문에, 이를 반영하기 위하여, 문서-길이 정규화를 수행하지 않는다.

F. 단백질 이름의 단백질 코드 할당

문헌에서 인식된 단백질 이름에 대해서, 동의어 사전의 역색인 구조를 비교하여, 가장 유사도가 높은 단백질 코드를 할당한다. 가장 유사도가 높은 단백질 코드가 복수 개인 경우, receptor와 같이 단백질 개체명에 필수적으로 이용되는 단어를 포함하고 있는 단백질 코드 우선, 동일 문헌 내의 타 단백질 이름의 단백질 코드로 분석된 단백질 코드 우선 순으로 할당한다.

<문헌 단위 종 분류 250단계>

250단계에서, 종 분류 분석부 170은 생물학 문헌에서 인식된 단백질 이름의 종을 분류하기 위해서, 우선적으로 문헌단위의 종 분류를 수행한다. 대다수의 문헌은 실험에 사용한 종의 학명을 명시적으로 언급하기 때문에, 문헌 단위로 종을 분류할 경우, 문헌에 포함된 단백질들의 종을 비교적 정확하게 인식할 수 있다. 종 분류 학습모델은 온톨로지에 등록된 문헌 정보를 종 별로 구축한 후, 이를 학습집합으로 사용하여, 기계학습 기법을 적용한 학습 모델이다. 이렇게 학습된 모델을 사용하여 입력된 문헌의 종 정보를 분류한다. 하나의 문헌은 단수 또는 복수 개의 종을 언급할 수 있기 때문에, 이 단계의 결과는 단수 또는 복수 개의 종일 수 있다.

<단백질 단위 종 분류 260단계>

260단계에서, 상기 종 분류 분석부 170은 상기 250단계의 결과에 따라 단백질 단위의 종 분류를 수행한다. 즉, 250단계의 결과가 한 개의 종일 경우, 문헌 내의 단백질 이름들은 해당 종을 가지고, 250단계의 결과가 복수 개일 경우, 각 단백질 이름에 대해서 복수 개의 종 중 하나의 종을 분류한다. 각 단백질 이름에 대해서, 종의 학명들이 나타난 위치와 단백질 이름의 위치를 비교하여, 미리 정의된 규칙을 통하여 각 단백질 이름의 종의 분류한다.

<온톨로지 ID 할당 270단계>

최종적으로 270단계에서 온톨로지 ID 할당부(190)는 유사도 계산 단계(240)에서 인식한 단백질 코드와 종 분류 단계(250,260)에서 인식한 단백질 종 정보를 통합하여, 각 단백질 이름 별 최종 온톨로지 ID를 할당한다.

위의 과정을 통하여 각 단백질 이름을 온톨로지 ID로 정규화하고, 정규화된 단백질 정보를 문헌에 기록하여 결과를 반환한다. 정규화된 단백질 정보는 다음과 같은 형태로 문헌에 기록된다.

상기 정규화된 단백질 정보 예에서, Swiss-Prot 온톨로지를 사용하여 정규화를 수행한다면, 각 단백질 이름은 TNFA라는 단백질 코드와 HUMAN 종 정보를 추출하여 TNFA_HUMAN으로 정규화 된다. 만약, Entrez-Gene 온톨로지를 사용하여 정규화를 수행한다면, 각 단백질은 7124라는 단백질 코드와 9606(Homo Sapiens) 종 정보를 추출하여 7124_9606으로 정규화 된다.

위에서 양호한 실시 예에 근거하여 이 발명을 설명하였지만, 이러한 실시 예는 이 발명을 제한하려는 것이 아니라 예시하려는 것이다. 이 발명이 속하는 분야의 숙련자에게는 이 발명의 기술사상을 벗어남이 없이 위 실시 예에 대한 다양한 변화나 변경 또는 조절이 가능함이 자명할 것이다. 그러므로, 이 발명의 보호범위는 첨부된 청구범위 뿐만 아니라, 위와 같은 변화예나 변경예 또는 조절예를 모두 포함하는 것으로 해석되어야 할 것이다.

본 발명에 따르면, 생물학 문헌에서 인식된 단백질 이름을 정규화된 단백질 온톨로지로 매핑함으로써, 해당 문헌 내의 단백질을 정확하게 인식할 수 있다. 이와 같은 방법을 활용하면, 생물학자가 원하는 단백질을 포함하고 있는 문헌을 검색하고자 할 경우, 기존의 문자열 기반 검색 방법보다 더욱 정확하게 검색할 수 있을 뿐만 아니라, 관계 인식을 이용하여 생물학 문헌에서 단백질-단백질 상호작용 네트워크를 구축하고자 할 경우, 단백질의 이름 기반의 정규화되지 않은 네트워크가 아닌, 온톨로지 ID 기반의 정규화된 단백질-단백질 상호작용 네트워크를 구축할 수 있다.

Claims

온톨로지 매핑을 이용한 단백질 이름 정규화 방법으로서,

생물학 문헌을 입력받아 단백질 개체명을 추출하는 단계;

상기 추출된 단백질 개체명과 온톨로지를 통해서 구축된 동의어 사전과의 유사도를 계산하여 단백질 코드를 분석하는 단계;

단백질 종분류 학습모델을 이용하여 상기 생물학 문헌에 포함된 단백질의 종 정보를 분류하는 단계; 및

상기 분석된 단백질 코드 및 상기 분류된 종 정보를 통합하여 온톨로지 ID를 할당하는 단계를 포함하는 온톨로지 매핑을 이용한 단백질 이름 정규화 방법.
제1항에 있어서, 상기 단백질 코드를 분석하는 단계는,

상기 추출된 단백질 개체명이 약어인 경우 원 단백질 이름을 복원하는 과정을 거친 후에 수행되는 것을 특징으로 하는 온톨로지 매핑을 이용한 단백질 이름 정규화 방법.
제 1항에 있어서, 상기 단백질 코드를 분석하는 단계는,

단백질 코드와 각 단백질 코드별로의 동의어 리스트를 갖는 동의어 사전을 구축하는 과정과,

상기 동의어별 텀리스트를 생성하는 과정과,

상기 텀리스트를 이용하여 상기 동의어 사전의 역색인 구조를 생성하는 과정과,

상기 문헌에서 인식된 단백질 개체명과 상기 동의어 사전의 역색인 구조를 비교하여 가장 유사도가 높은 단백질 코드를 할당하는 과정을 포함하는 것을 특징으로 하는 온톨로지 매핑을 이용한 단백질 이름 정규화 방법.
제3항에 있어서, 가장 유사도가 높은 단백질 코드가 복수인 경우,

단백질 개체명에 필수적으로 이용되는 단어를 포함하고 있는 단백질 코드를 우선 할당하거나, 상기 생물학 문헌내의 타 단백질 코드로 분석된 단백질 코드를 우선순위로 할당하는 것을 특징으로 하는 온톨로지 매핑을 이용한 단백질 이름 정규화 방법.
제1항 내지 제4항 중 어느 한 항에 있어서, 단백질의 종 정보를 분류하는 단계는,

온톨로지에 등록된 문헌을 종 별로 구축하여 기계학습 기법의 학습집합으로 사용하여 문헌단위 종 분류를 수행함을 특징으로 하는 온톨로지 매핑을 이용한 단백질 이름 정규화 방법.
삭제
삭제