KR100849497B1 - 온톨로지 매핑을 이용한 단백질 이름 정규화 방법 - Google Patents

온톨로지 매핑을 이용한 단백질 이름 정규화 방법 Download PDF

Info

Publication number
KR100849497B1
KR100849497B1 KR1020060095817A KR20060095817A KR100849497B1 KR 100849497 B1 KR100849497 B1 KR 100849497B1 KR 1020060095817 A KR1020060095817 A KR 1020060095817A KR 20060095817 A KR20060095817 A KR 20060095817A KR 100849497 B1 KR100849497 B1 KR 100849497B1
Authority
KR
South Korea
Prior art keywords
protein
name
ontology
code
species
Prior art date
Application number
KR1020060095817A
Other languages
English (en)
Other versions
KR20080030138A (ko
Inventor
임준호
장현철
임재수
박수준
박선희
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020060095817A priority Critical patent/KR100849497B1/ko
Priority to US11/852,378 priority patent/US20080082483A1/en
Publication of KR20080030138A publication Critical patent/KR20080030138A/ko
Application granted granted Critical
Publication of KR100849497B1 publication Critical patent/KR100849497B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 단백질 이름 정규화 방법에 관한 것으로, 보다 상세하게는 온톨로지 매핑을 이용한 단백질 이름 정규화 방법 및 장치에 관한 것이다.
본 발명은 생물학 문헌을 입력받아 단백질 개체명을 추출하는 단계; 상기 추출된 단백질 개체명과 온톨로지를 통해서 구축된 동의어 사전과의 유사도를 계산하여 단백질 코드를 분석하는 단계; 소정 종분류 학습모델을 이용하여 상기 생물학 문헌에 포함된 단백질의 종 정보를 분류하는 단계; 및 상기 분석된 단백질 코드 및 상기 분류된 종 정보를 통합하여 온톨로지 ID를 할당하는 단계를 포함하는 온톨로지 매핑을 이용한 단백질 이름 정규화 방법을 개시한다.
단백질 이름 정규화, 온톨로지, 생물학 문헌

Description

온톨로지 매핑을 이용한 단백질 이름 정규화 방법{Method of Protein Name Normalization Using Ontology Mapping}
도 1은 본 발명의 실시예에 따른 단백질 이름 정규화 장치의 개략적인 구성을 보여주는 도면,
도 2는 본 발명의 실시예에 따른 단백질 이름 정규화 방법을 보여주는 흐름도이다.
본 발명은 단백질 이름 정규화 방법에 관한 것으로, 보다 상세하게는 온톨로지 매핑을 이용한 단백질 이름 정규화 방법에 관한 것이다.
최근 생물학 분야에서 폭발적으로 증가하는 문헌으로부터 생물학자가 원하는 지식을 빠르고 정확하게 추출하거나 검색할 수 있도록, 문헌에 포함된 단백질 정보를 인식하는 방법이 활발하게 개발되고 있다.
생물학 도메인 문헌으로부터 단백질의 이름을 인식하는 것이 가능하지만, 생 물학 문헌에서 인식된 단백질 이름은 다양한 변형을 포함하고 있기 때문에, 인식된 단백질 이름에 해당하는 단백질 온톨로지의 ID를 알 수 없다는 문제점이 있다.
본 발명은 상기 문제점을 해결하기 위해 제안된 것으로, 단백질 이름의 단백질 코드와 단백질 종을 분석함으로써, 해당 단백질 이름의 온톨로지 ID를 인식할 수 있는 온톨로지 매핑을 이용한 단백질 이름 정규화 방법 및 장치를 제공하는 것이다.
본 발명의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있으며, 본 발명의 실시예에 의해 보다 분명하게 알게 될 것이다. 또한, 본 발명의 목적 및 장점들은 특허 청구 범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 쉽게 알 수 있을 것이다.
상술한 목적을 달성하기 위한 본 발명은 생물학 문헌을 입력받아 단백질 개체명을 추출하는 단계; 상기 추출된 단백질 개체명과 온톨로지를 통해서 구축된 동의어 사전과의 유사도를 계산하여 단백질 코드를 분석하는 단계; 소정 종분류 학습모델을 이용하여 상기 생물학 문헌에 포함된 단백질의 종 정보를 분류하는 단계; 및 상기 분석된 단백질 코드 및 상기 분류된 종 정보를 통합하여 온톨로지 ID를 할당하는 단계를 포함하는 온톨로지 매핑을 이용한 단백질 이름 정규화 방법을 개시 한다.
상기 단백질 코드를 분석하는 단계는, 상기 추출된 단백질 개체명이 약어인 경우 원 단백질 이름을 복원하는 과정을 거친 후에 수행되는 것을 특징으로 한다.
또한, 상기 단백질 코드를 분석하는 단계는, 단백질 코드와 각 단백질 코드별로의 동의어 리스트를 갖는 동의어 사전을 구축하는 과정과, 상기 동의어별 텀리스트를 생성하는 과정과, 상기 텀리스트를 이용하여 상기 동의어 사전의 역색인 구조를 생성하는 과정과, 상기 문헌에서 인식된 단백질 개체명과 상기 동의의 사전의 역색인 구조를 비교하여 가장 유사도가 높은 단백질 코드를 할당하는 과정을 포함하여 구현될 수 있다.
삭제
상술한 목적, 특징 및 장점들은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이다. 우선 각 도면의 구성요소들에 참조 번호를 부가함에 있어서, 동일한 구성 요소들에 한해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 번호를 가지도록 하고 있음에 유의하여야 한다. 또한, 본 발명을 설명함에 있어서, 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예를 상세히 설명한다.
도 1은 본 발명의 실시예에 따른 단백질 이름 정규화 장치의 개략적인 구성을 보여주는 도면이다.
도 1을 참조하면, 단백질 이름 정규화 장치는 생물학 문헌을 입력받아 단백질 개체명 및 종 정보를 추출하기 위한 생물학 문헌 인식부(110), 약어 단백질 이름과 원 단백질 이름의 쌍으로 구성된 약어사전 DB(130), 상기 추출된 단백질 이름이 약어인 경우 상기 약어사전 DB를 검색하여 원 단백질 이름으로 복원하는 약어 단백질 이름 복원부(120), 온톨로지를 통해서 구축된 동의어 사전 DB(150), 상기 동의의 사전의 역색인 구조를 갖는 동의어 사전 역색인 구조 DB(160), 상기 추출된 단백질 개체명과 상기 동의의 사전 역색인 구조 DB(160)를 비교하여 단백질 코드와의 유사도를 계산하여 단백질 코드를 분석하는 단백질 코드 분석부(140)을 포함하여 구성된다.
또한, 상기 도 1의 단백질 이름 정규화 장치는 단백질 종 분석을 위한 구성을 포함한다. 즉, 종 분류 학습모델 DB(180), 상기 종분류 학습모델을 이용하여 상 기 생물학 문헌에 포함된 단백질의 종 정보를 분류하는 단백질 종 분류 분석부(170)를 더 포함한다.
상기 도 1의 단백질 이름 정규화 장치는 최종적으로 상기 분석된 단백질 코드 및 상기 분류된 종 정보를 통합하여 온톨로지 ID를 할당하는 온톨로지 ID 할당부(190)을 더 포함하여 구성된다.
도 2는 본 발명의 실시예에 따른 단백질 이름 정규화 방법을 보여주는 흐름도이다. 이하, 상기 도 1 및 도 2를 참조하여 단백질 이름 정규화 방법을 설명한다.
도 2를 참조하면, 단백질 이름 정규화 방법은 단백질 이름이 인식된 생물학 문헌을 입력으로 받아서(210단계), 각 단백질 이름의 온톨로지 ID를 인식한 문헌을 출력으로 내준다(270단계). 단백질 온톨로지의 ID는 단백질 코드와 단백질 종으로 구성되기 때문에, 각 단백질 이름에 대해서 단백질 코드와 종을 분석한 후, 이를 통합하여 온톨로지 ID를 할당한다. 각 단계의 세부적인 설명은 다음과 같다.
<단백질 개체명 추출 220단계>
220단계에서 생물학 문헌 인식부(110)는 NCBI의 PubMed 논문 또는 USPTO의 특허 문헌과 같이 전자화된 생물학 문헌을 입력으로 받아, 개체명 추출기 모듈을 사용하여 단백질 이름을 인식한다. 개체명 추출기의 결과는 다음과 같다.
Figure 112006071574576-pat00001
본 단계에서는 온톨로지 매핑을 위하여, 문헌에서 인식된 단백질 이름의 문자열들을 추출한다. 위의 예에서는, novel tumor necrosis factor-alpha와 TNF 문자열을 추출한다.
<약어 단백질 이름 복원 230단계>
230단계에서 약어 단백질 이름 복원부(120)는 상기 추출된 단백질 개체명이 약어인 경우 원 단백질 이름을 복원하는 과정을 거친다.
단백질 코드를 분석하기 위해서는 이전 단계에서 추출한 단백질 이름 문자열과 온톨로지에서 추출한 동의어 사전(150)을 비교하여야 한다. 이전 단계에서 추출한 단백질 이름은 약어로 사용된 단백질 이름일 수 있지만, 온톨로지의 동의어 사전(150)에는 단백질 이름의 약어 형태가 등록되지 않은 경우가 많다. 따라서, 정확한 단백질 코드를 추출하기 위해서, 추출된 단백질 이름이 약어일 경우, 약어 단백 질 이름 복원 단계에서 원 단백질 이름을 복원하여야 한다. 약어 사전(130)은 약어 단백질 이름과 원 단백질 이름의 쌍으로 구성되어 있고, 추출된 단백질 이름과 약어사전에 등록된 약어 단백질 이름이 동일할 경우, 약어 단백질 이름으로 판단한다. 약어로 사용된 단백질 이름은 약어 사전에 등록된 원 단백질 이름으로 복원하여 사용하고, 약어로 사용되지 않은 단백질 이름은 복원하지 않는다.
예를 들어, 이전 단계의 TNF 단백질 이름은 약어사전에 따라 “Tumor necrosis factor alpha”의 원 단백질 이름으로 복원된다.
<단백질 코드와 유사도 계산 240단계>
240단계에서 단백질 코드 분석부(140)는 상기 추출된 단백질 개체명과 온톨로지를 통해서 구축된 동의어 사전과의 유사도를 계산하여 단백질 코드를 분석한다.
온톨로지를 통해서 구축된 동의어 사전과 문헌에서 인식된 단백질 이름 사이의 유사도를 계산하기 위하여, 정보검색의 벡터-공간 모형을 이용한다. 유사도 계산 결과, 가장 높은 유사도를 가지는 동의어의 단백질 코드를 해당 단백질 이름의 단백질 코드로 할당한다. (단백질 코드는 온톨로지 ID 중, 종 정보를 제외한 부분의 ID를 의미한다.) 유사도 계산 방법에 대한 세부적인 설명은 다음과 같다.
A. 동의어 사전
온톨로지로부터 단백질 코드들과 각 단백질 코드 별로 동의어들의 리스트를 사전 형태로 구축한다. 정보검색 관점에서 이와 같은 동의어 사전은 검색 대상 문 서집합, 각 단백질 코드는 검색의 대상이 되는 개별적인 문서, 각 코드 별 동의어들은 문서의 내용이 된다.
B. 동의어 별 텀 리스트 생성
동의어 사전과 문헌에서 인식된 단백질 이름(쿼리) 사이의 유사도 계산에 벡터-공간 모형을 적용하기에 앞서, 문헌에서 나타날 수 있는 다양한 형태의 단백질 이름을 표현할 수 있도록, 각 동의어의 텀 리스트를 생성한다. 텀 리스트는 토큰들의 모든 가능한 부분 문자열로 정의된다. 예를 들어, “amyloid beta protein”은 {“amyloid”, “beta”, “protein”, “amyloid beta”, “beta protein”, “amyloid beta protein”}라는 텀 리스트를 생성한다.
C. 벡터-공간 모형
유사도 계산에 벡터-공간 모형을 적용하기 위해서는 term-frequency(tf), inverse-document-frequency(idf) 등을 정의해야 한다. 각 텀 별 tf, idf, weight의 수식은 하기 [수학식 1]과 같다.
Figure 112006071574576-pat00002
위 [수학식1]에서 tf는 해당 단백질 코드와 주어진 텀의 연관성의 정도를 표현하고, idf는 주어진 텀이 전체 단백질 코드 집합에서 가지는 변별력을 표현한다. 예를 들어, “amyloid beta protein” 텀 리스트에서, “amyloid”, “beta”, “protein”은 1/3, “amyloid beta”, “beta protein”은 2/3, “amyloid beta protein”는 3/3의 tf를 가짐으로써, 텀의 길이가 길수록 단백질 코드와 높은 연관성을 가질 수 있도록 한다. 각 텀의 idf는 텀 별 단백질 코드의 비율을 의미한다. 예를 들어, “amyloid” 텀은 “beta” 텀보다 적은 수의 단백질 코드의 텀 리스트에서 나타나기 때문에, “amyloid” 텀이 “beta” 텀보다 단백질 코드를 구분할 수 있는 변별력이 높고, 따라서 “amyloid” 텀이 “beta” 텀보다 높은 idf를 가진다. 각 단백질 코드 별 텀의 가중치는 tf와 idf를 곱한 값을 사용한다.
D. 동의어 사전의 역색인 구조 생성
정보검색의 벡터-공간 모형을 이용하기 위하여 동의어 사전의 역색인 구조를 생성한다. 역색인 구조를 생성하기 위하여 동의어 사전 내의 각 동의어에 대해서 텀 리스트를 생성하고, 각 텀 별로 tf, idf를 통한 weight를 계산한다. 역색인 구조에는 각 단백질 코드 별, 텀들의 weight를 저장한다. 그리고, 텀을 구성하는 각 토큰 별로 해당 토큰이 나타날 수 있는 단백질 코드들의 리스트를 저장한다.
E. 단백질 이름의 유사도 계산
문헌에서 인식된 단백질 이름은 벡터-공간 모형의 쿼리로 이용된다. 각 단백질 이름에 대해서, 동의어 사전과 같이 텀 리스트를 생성한 후, 각 텀의 tf를 계산하고, idf를 1로 설정하여 weigth를 계산한다. 단백질 이름의 각 토큰 별로, 역색인 사전에 저장된 나타날 수 있는 단백질 코드(pcode)들의 리스트에 대해서 하기 수학식 2와 같이 유사도를 계산한다.
Figure 112006071574576-pat00003
위의 유사도 계산식과 일반적인 벡터-공간 모형의 차이점은 문서-길이 정규화(document-length normalization)을 수행하지 않는다는 점이다. 단백질 코드 추출 문제에 있어서는 동의어가 많이 등록된 단백질 코드가 동의어가 적게 등록된 단백질 코드보다 자주 발생하기 때문에, 이를 반영하기 위하여, 문서-길이 정규화를 수행하지 않는다.
F. 단백질 이름의 단백질 코드 할당
문헌에서 인식된 단백질 이름에 대해서, 동의어 사전의 역색인 구조를 비교하여, 가장 유사도가 높은 단백질 코드를 할당한다. 가장 유사도가 높은 단백질 코드가 복수 개인 경우, receptor와 같이 단백질 개체명에 필수적으로 이용되는 단어를 포함하고 있는 단백질 코드 우선, 동일 문헌 내의 타 단백질 이름의 단백질 코드로 분석된 단백질 코드 우선 순으로 할당한다.
<문헌 단위 종 분류 250단계>
250단계에서, 종 분류 분석부 170은 생물학 문헌에서 인식된 단백질 이름의 종을 분류하기 위해서, 우선적으로 문헌단위의 종 분류를 수행한다. 대다수의 문헌은 실험에 사용한 종의 학명을 명시적으로 언급하기 때문에, 문헌 단위로 종을 분류할 경우, 문헌에 포함된 단백질들의 종을 비교적 정확하게 인식할 수 있다. 종 분류 학습모델은 온톨로지에 등록된 문헌 정보를 종 별로 구축한 후, 이를 학습집합으로 사용하여, 기계학습 기법을 적용한 학습 모델이다. 이렇게 학습된 모델을 사용하여 입력된 문헌의 종 정보를 분류한다. 하나의 문헌은 단수 또는 복수 개의 종을 언급할 수 있기 때문에, 이 단계의 결과는 단수 또는 복수 개의 종일 수 있다.
<단백질 단위 종 분류 260단계>
260단계에서, 상기 종 분류 분석부 170은 상기 250단계의 결과에 따라 단백질 단위의 종 분류를 수행한다. 즉, 250단계의 결과가 한 개의 종일 경우, 문헌 내의 단백질 이름들은 해당 종을 가지고, 250단계의 결과가 복수 개일 경우, 각 단백질 이름에 대해서 복수 개의 종 중 하나의 종을 분류한다. 각 단백질 이름에 대해서, 종의 학명들이 나타난 위치와 단백질 이름의 위치를 비교하여, 미리 정의된 규칙을 통하여 각 단백질 이름의 종의 분류한다.
<온톨로지 ID 할당 270단계>
최종적으로 270단계에서 온톨로지 ID 할당부(190)는 유사도 계산 단계(240)에서 인식한 단백질 코드와 종 분류 단계(250,260)에서 인식한 단백질 종 정보를 통합하여, 각 단백질 이름 별 최종 온톨로지 ID를 할당한다.
위의 과정을 통하여 각 단백질 이름을 온톨로지 ID로 정규화하고, 정규화된 단백질 정보를 문헌에 기록하여 결과를 반환한다. 정규화된 단백질 정보는 다음과 같은 형태로 문헌에 기록된다.
Figure 112006071574576-pat00004
상기 정규화된 단백질 정보 예에서, Swiss-Prot 온톨로지를 사용하여 정규화를 수행한다면, 각 단백질 이름은 TNFA라는 단백질 코드와 HUMAN 종 정보를 추출하여 TNFA_HUMAN으로 정규화 된다. 만약, Entrez-Gene 온톨로지를 사용하여 정규화를 수행한다면, 각 단백질은 7124라는 단백질 코드와 9606(Homo Sapiens) 종 정보를 추출하여 7124_9606으로 정규화 된다.
위에서 양호한 실시 예에 근거하여 이 발명을 설명하였지만, 이러한 실시 예는 이 발명을 제한하려는 것이 아니라 예시하려는 것이다. 이 발명이 속하는 분야의 숙련자에게는 이 발명의 기술사상을 벗어남이 없이 위 실시 예에 대한 다양한 변화나 변경 또는 조절이 가능함이 자명할 것이다. 그러므로, 이 발명의 보호범위는 첨부된 청구범위 뿐만 아니라, 위와 같은 변화예나 변경예 또는 조절예를 모두 포함하는 것으로 해석되어야 할 것이다.
본 발명에 따르면, 생물학 문헌에서 인식된 단백질 이름을 정규화된 단백질 온톨로지로 매핑함으로써, 해당 문헌 내의 단백질을 정확하게 인식할 수 있다. 이와 같은 방법을 활용하면, 생물학자가 원하는 단백질을 포함하고 있는 문헌을 검색하고자 할 경우, 기존의 문자열 기반 검색 방법보다 더욱 정확하게 검색할 수 있을 뿐만 아니라, 관계 인식을 이용하여 생물학 문헌에서 단백질-단백질 상호작용 네트워크를 구축하고자 할 경우, 단백질의 이름 기반의 정규화되지 않은 네트워크가 아닌, 온톨로지 ID 기반의 정규화된 단백질-단백질 상호작용 네트워크를 구축할 수 있다.

Claims (7)

  1. 온톨로지 매핑을 이용한 단백질 이름 정규화 방법으로서,
    생물학 문헌을 입력받아 단백질 개체명을 추출하는 단계;
    상기 추출된 단백질 개체명과 온톨로지를 통해서 구축된 동의어 사전과의 유사도를 계산하여 단백질 코드를 분석하는 단계;
    단백질 종분류 학습모델을 이용하여 상기 생물학 문헌에 포함된 단백질의 종 정보를 분류하는 단계; 및
    상기 분석된 단백질 코드 및 상기 분류된 종 정보를 통합하여 온톨로지 ID를 할당하는 단계를 포함하는 온톨로지 매핑을 이용한 단백질 이름 정규화 방법.
  2. 제1항에 있어서, 상기 단백질 코드를 분석하는 단계는,
    상기 추출된 단백질 개체명이 약어인 경우 원 단백질 이름을 복원하는 과정을 거친 후에 수행되는 것을 특징으로 하는 온톨로지 매핑을 이용한 단백질 이름 정규화 방법.
  3. 제 1항에 있어서, 상기 단백질 코드를 분석하는 단계는,
    단백질 코드와 각 단백질 코드별로의 동의어 리스트를 갖는 동의어 사전을 구축하는 과정과,
    상기 동의어별 텀리스트를 생성하는 과정과,
    상기 텀리스트를 이용하여 상기 동의어 사전의 역색인 구조를 생성하는 과정과,
    상기 문헌에서 인식된 단백질 개체명과 상기 동의어 사전의 역색인 구조를 비교하여 가장 유사도가 높은 단백질 코드를 할당하는 과정을 포함하는 것을 특징으로 하는 온톨로지 매핑을 이용한 단백질 이름 정규화 방법.
  4. 제3항에 있어서, 가장 유사도가 높은 단백질 코드가 복수인 경우,
    단백질 개체명에 필수적으로 이용되는 단어를 포함하고 있는 단백질 코드를 우선 할당하거나, 상기 생물학 문헌내의 타 단백질 코드로 분석된 단백질 코드를 우선순위로 할당하는 것을 특징으로 하는 온톨로지 매핑을 이용한 단백질 이름 정규화 방법.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서, 단백질의 종 정보를 분류하는 단계는,
    온톨로지에 등록된 문헌을 종 별로 구축하여 기계학습 기법의 학습집합으로 사용하여 문헌단위 종 분류를 수행함을 특징으로 하는 온톨로지 매핑을 이용한 단백질 이름 정규화 방법.
  6. 삭제
  7. 삭제
KR1020060095817A 2006-09-29 2006-09-29 온톨로지 매핑을 이용한 단백질 이름 정규화 방법 KR100849497B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020060095817A KR100849497B1 (ko) 2006-09-29 2006-09-29 온톨로지 매핑을 이용한 단백질 이름 정규화 방법
US11/852,378 US20080082483A1 (en) 2006-09-29 2007-09-10 Method and apparatus for normalizing protein name using ontology mapping

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020060095817A KR100849497B1 (ko) 2006-09-29 2006-09-29 온톨로지 매핑을 이용한 단백질 이름 정규화 방법

Publications (2)

Publication Number Publication Date
KR20080030138A KR20080030138A (ko) 2008-04-04
KR100849497B1 true KR100849497B1 (ko) 2008-07-31

Family

ID=39262183

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060095817A KR100849497B1 (ko) 2006-09-29 2006-09-29 온톨로지 매핑을 이용한 단백질 이름 정규화 방법

Country Status (2)

Country Link
US (1) US20080082483A1 (ko)
KR (1) KR100849497B1 (ko)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10176188B2 (en) * 2012-01-31 2019-01-08 Tata Consultancy Services Limited Automated dictionary creation for scientific terms
JP6364846B2 (ja) * 2014-03-18 2018-08-01 富士通株式会社 正式名称の候補出力方法、正式名称の候補出力プログラム、および正式名称の候補出力システム
CN104021198B (zh) * 2014-06-16 2017-09-01 北京理工大学 基于本体语义索引的关系数据库信息检索方法及装置
CN106959958B (zh) 2016-01-11 2020-04-07 阿里巴巴集团控股有限公司 地图兴趣点简称获取方法和装置
KR102153127B1 (ko) * 2018-12-31 2020-09-07 (주) 스펠릭스 개체명 인식(Named-Entity Recognition)의 정확성 제고를 위한 후처리 과정을 제공하기 위한 방법 및 이를 사용한 서버
CN111710365B (zh) * 2020-06-10 2022-04-08 山东省计算中心(国家超级计算济南中心) 一种基于本体的蛋白质/基因同义词表构建方法
US20220245326A1 (en) * 2021-01-29 2022-08-04 Palo Alto Research Center Incorporated Semantically driven document structure recognition

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6023659A (en) 1996-10-10 2000-02-08 Incyte Pharmaceuticals, Inc. Database system employing protein function hierarchies for viewing biomolecular sequence data
KR20030071225A (ko) * 2002-02-28 2003-09-03 주식회사 이즈텍 유전자 어휘 분류체계를 이용하여 디엔에이 칩을 분석하기위한 시스템 및 그 방법
KR20050054377A (ko) * 2003-12-04 2005-06-10 한국전자통신연구원 유전자 온톨로지를 이용한 단백질 상호작용 네트워크 검색시스템 및 방법
KR20070060993A (ko) * 2005-12-08 2007-06-13 한국전자통신연구원 텍스트 마이닝을 이용한 단백질 상호작용 검증 방법 및시스템

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6026398A (en) * 1997-10-16 2000-02-15 Imarket, Incorporated System and methods for searching and matching databases
AU6611900A (en) * 1999-07-30 2001-03-13 Agy Therapeutics, Inc. Techniques for facilitating identification of candidate genes
AU2001286689A1 (en) * 2000-08-24 2002-03-04 Science Applications International Corporation Word sense disambiguation
US6965900B2 (en) * 2001-12-19 2005-11-15 X-Labs Holdings, Llc Method and apparatus for electronically extracting application specific multidimensional information from documents selected from a set of documents electronically extracted from a library of electronically searchable documents
US8166033B2 (en) * 2003-02-27 2012-04-24 Parity Computing, Inc. System and method for matching and assembling records
CN100538695C (zh) * 2004-07-22 2009-09-09 国际商业机器公司 构造、维护个性化分类树的方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6023659A (en) 1996-10-10 2000-02-08 Incyte Pharmaceuticals, Inc. Database system employing protein function hierarchies for viewing biomolecular sequence data
KR20030071225A (ko) * 2002-02-28 2003-09-03 주식회사 이즈텍 유전자 어휘 분류체계를 이용하여 디엔에이 칩을 분석하기위한 시스템 및 그 방법
KR20050054377A (ko) * 2003-12-04 2005-06-10 한국전자통신연구원 유전자 온톨로지를 이용한 단백질 상호작용 네트워크 검색시스템 및 방법
KR20070060993A (ko) * 2005-12-08 2007-06-13 한국전자통신연구원 텍스트 마이닝을 이용한 단백질 상호작용 검증 방법 및시스템

Also Published As

Publication number Publication date
US20080082483A1 (en) 2008-04-03
KR20080030138A (ko) 2008-04-04

Similar Documents

Publication Publication Date Title
US10503828B2 (en) System and method for answering natural language question
KR100849497B1 (ko) 온톨로지 매핑을 이용한 단백질 이름 정규화 방법
CN112632292A (zh) 业务关键词的提取方法、装置、设备及存储介质
JP5346279B2 (ja) 検索による注釈付与
US6137911A (en) Test classification system and method
US11514701B2 (en) System and method for global identification in a collection of documents
JP3041268B2 (ja) 中国語誤り検査(cec)システム
KR970071331A (ko) 정보검색방법, 정보검색장치 및 정보검색 프로그램을 저장하는 기억매체
KR20080066965A (ko) 단어들의 배열의 자연스러움을 결정하기 위한 장치, 방법,및 프로그램을 저장하는 저장 매체
JP2010519655A (ja) 名前照合システムの名前インデックス付け
CN111414763A (zh) 一种针对手语计算的语义消歧方法、装置、设备及存储装置
KR20130108503A (ko) 퍼스널 아이덴티티를 기술하는 데이터에 대한 액셔너블 속성의 애스클라이빙
Sarkar A hybrid approach to extract keyphrases from medical documents
Dai et al. A new statistical formula for Chinese text segmentation incorporating contextual information
WO2015023031A1 (ko) 전문분야 검색 지원 방법 및 그 장치
Wu Acknowledgement entity recognition in CORD-19 papers
Basirat et al. Lexical and morpho-syntactic features in word embeddings-a case study of nouns in swedish
Yahya et al. Arabic text categorization based on Arabic Wikipedia
KR20200036333A (ko) 문서 분석 기반 주요 요소 추출 시스템 및 방법
KR102474042B1 (ko) 데이터 마이닝을 이용한 질병 연관성 분석 방법
KR20070060993A (ko) 텍스트 마이닝을 이용한 단백질 상호작용 검증 방법 및시스템
Arefin et al. BAENPD: A Bilingual Plagiarism Detector.
Bradford Use of latent semantic indexing to identify name variants in large data collections
KR101243054B1 (ko) 웹 검색 기반 용어 인식 방법 및 장치
JP2005141428A (ja) 単語列抽出方法、装置及び単語列抽出プログラムを記録した記録媒体

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
J121 Written withdrawal of request for trial
J201 Request for trial against refusal decision
B701 Decision to grant
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130624

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20140630

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20150723

Year of fee payment: 8

LAPS Lapse due to unpaid annual fee