KR101243063B1 - 패스웨이 구축 시스템 및 방법 - Google Patents

패스웨이 구축 시스템 및 방법 Download PDF

Info

Publication number
KR101243063B1
KR101243063B1 KR1020120085254A KR20120085254A KR101243063B1 KR 101243063 B1 KR101243063 B1 KR 101243063B1 KR 1020120085254 A KR1020120085254 A KR 1020120085254A KR 20120085254 A KR20120085254 A KR 20120085254A KR 101243063 B1 KR101243063 B1 KR 101243063B1
Authority
KR
South Korea
Prior art keywords
pathway
entities
information
relationship
path
Prior art date
Application number
KR1020120085254A
Other languages
English (en)
Inventor
전홍우
최성필
정창후
황미녕
정성재
정한민
Original Assignee
한국과학기술정보연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술정보연구원 filed Critical 한국과학기술정보연구원
Priority to KR1020120085254A priority Critical patent/KR101243063B1/ko
Application granted granted Critical
Publication of KR101243063B1 publication Critical patent/KR101243063B1/ko
Priority to US14/419,336 priority patent/US20150220623A1/en
Priority to PCT/KR2013/006941 priority patent/WO2014021656A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Biotechnology (AREA)
  • Physiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

본 발명은 패스웨이 구축 시스템 및 방법에 관한 것으로, 단백질, 질병, 합성물, 징후, 효소, 의약폼, 질병, 장소, 패스웨이 중 적어도 하나에 대한 개체명이 저장된 사전 정보 데이터베이스, 상기 사전 정보 데이터베이스를 이용하여 입력 문서에서 개체들을 인식하는 개체 인식부, 기 저장된 문맥 패턴 정보를 근거로 상기 인식된 개체 사이의 문맥을 추출하고, 상기 추출된 문맥을 정규화하는 방식으로 개체간의 관계를 인식하는 관계 인식부, 상기 인식된 개체들을 대상으로 웹 검색을 수행하여, 상기 개체들이 출현하는 문서 및 각 개체들의 세포 내 장소 정보를 수집하고, 상기 수집된 정보에 의한 관계 이벤트를 생성하는 관계 이벤트 생성부, 상기 인식된 관계 이벤트를 근거로 세포내 해당 장소에 해당 개체들을 표시하여 패스웨이를 생성하는 패스웨이 생성부를 포함한다.

Description

패스웨이 구축 시스템 및 방법{System and Method for pathway construction}
본 발명은 패스웨이 구축 시스템 및 방법에 관한 것으로, 보다 상세하게는 입력 문서에서 개체들을 인식하고, 인식된 개체들을 대상으로 웹 검색을 수행하여, 개체들의 관계 이벤트를 생성한 후, 관계 이벤트를 근거로 세포내 해당 장소에 해당 개체들을 표시하여 패스웨이를 생성하는 패스웨이 구축 시스템 및 방법에 관한 것이다.
바이오분야 패스웨이란 기술문헌에 출현한 다양한 전문용어와 그들 간의 의미적 상관 관계를 네트워크 형식으로 표현한 자료구조로서, 생명공학 관점에서는 단백질, 유전자, 세포 등의 생체적 요소 간의 역학관계 혹은 상호작용 등을 세밀하게 기술한 생물학적 심층지식(biological deep knowledge)으로 볼 수 있다.
생물학 분야에서 양질의 Pathway 데이터베이스는 (1) 다양한 생물체의 생명 활동 메커니즘 이해, (2) 질병의 발병, 진행, 자연소멸 및 치유에 관한 실체적 원인규명, (3) 새로운 기전을 가진 신약 개발에 있어서의 화학합성, 천연물 추출 등과 같은 신물질 탐색 작업 등과 같은 생의학 분야에서 핵심적인 연구활동을 효과적으로 지원할 수 있는 바이오 기반 지식자원으로서의 역할을 수행할 수 있다.
생명공학 분야에서의 효율적인 연구개발과 더불어 지식서비스 관점에서의 실질적인 장점에도 불구하고, 현재 Pathway 데이터베이스 구축, 연계, 활용 측면에서 많은 문제점과 한계점이 존재한다.
즉, 기존의 페스웨이 데이터베이스는 수작업으로 구축되므로, 수작업에 의한 막대한 구축 비용이 필요하고, 기술 발전에 맞춘 신속한 데이터베이스 확장 및 변경이 불가능한 단점이 있다.
또한, 패스웨이 데이터베이스 연계 측면에서, 동일 내용에 대한 중복 구축이 발생하여 비용 효율성이 저하되고, 상이한 유기체 및 화합물간의 상호 연계가 어려운 문제점이 있다.
또한, 패스웨이를 활용한 심층적 과학 지식 서비스가 부재하여, 기존 패스웨이 데이터베이스 기반의 지식 처리 기술이 부재한 한계점이 있다.
본 발명은 상기한 문제점을 해결하기 위하여 안출된 것으로, 바이오 분야 문서로부터 단백질, 질병, 효소, 약품, 화합물, 징후를 표현하는 용어를 인식하고, 이를 기반하여 자동으로 패스웨이를 구축하는 패스웨이 구축 시스템 및 방법을 제공하는데 그 목적이 있다.
본 발명의 다른 목적은 구축한 패이스웨이에 대한 수작업 검증을 위해 바이오분야 문서들을 제공함으로써, 패스웨이 구축에 들어가는 수작업을 최소화할 수 있는 패스웨이 구축 시스템 및 방법을 제공하는데 있다.
상기 목적들을 달성하기 위하여 본 발명의 일 측면에 따르면, 단백질, 질병, 합성물, 징후, 효소, 의약폼, 질병, 장소, 패스웨이 중 적어도 하나에 대한 개체명이 저장된 사전 정보 데이터베이스, 상기 사전 정보 데이터베이스를 이용하여 입력 문서에서 개체들을 인식하는 개체 인식부, 기 저장된 문맥 패턴 정보를 근거로 상기 인식된 개체 사이의 문맥을 추출하고, 상기 추출된 문맥을 정규화하는 방식으로 개체간의 관계를 인식하는 관계 인식부, 상기 인식된 개체들을 대상으로 웹 검색을 수행하여, 상기 개체들이 출현하는 문서 및 각 개체들의 세포 내 장소 정보를 수집하고, 상기 수집된 정보에 의한 관계 이벤트를 생성하는 관계 이벤트 생성부, 상기 인식된 관계 이벤트를 근거로 세포내 해당 장소에 해당 개체들을 표시하여 패스웨이를 생성하는 패스웨이 생성부를 포함하는 패스웨이 구축 시스템이 제공된다.
상기 패스웨이 구축 시스템은 상기 패스웨이 생성부에서 생성된 패스웨이를 가시화하는 가시화부를 더 포함할 수 있다.
상기 가시화부는, 가시화된 패스웨이에서 특정 개체가 선택된 경우, 상기 특정 개체의 출처 정보를 획득하여 패스웨이의 일정 영역에 표시하고, 상기 패스웨이에서 두 개체를 연결하는 선이 선택된 경우, 두 개체간의 관계를 설명할 수 있는 문서의 문장 또는 단락들을 표시할 수 있다.
또한, 패스웨이 구축 시스템은 상기 가시화부를 통해 가시화된 패스웨이에 대한 편집 정보를 사용자로부터 입력받아 패스웨이 데이터베이스에 저장하는 검증부를 더 포함할 수 있다.
상기 관계 인식부는 2개 이상의 개체가 인식된 단락 또는 문장의 경우, 그 문장 또는 단락에 대해서는 주변 문맥 정보로부터 세포 내의 장소, 두 개체의 동일 질병의 관련 유무, 패스웨이 중 적어도 하나를 인식할 수 있다.
상기 관계 이벤트는 개체들간의 관계, 개체들의 출처, 개체들의 장소정보 중 적어도 하나를 포함할 수 있다.
상기 관계 이벤트 생성부는 각 개체의 염기서열을 분석하여 장소정보를 수집할 수 있다.
본 발명의 다른 측면에 따르면, 패스웨이 구축 시스템이 패스웨이를 구축하는 방법에 있어서, 사전 정보 데이터베이스를 이용하여 입력 문서에서 개체들을 인식하는 단계, 기 저장된 문맥 패턴 정보를 근거로 상기 인식된 개체 사이의 문맥을 추출하고, 상기 추출된 문맥을 정규화하는 방식으로 개체간의 관계를 인식하는 단계, 상기 인식된 개체들을 대상으로 웹 검색을 수행하여, 개체들의 관계 이벤트를 생성하는 단계, 상기 생성된 관계 이벤트를 근거로 세포내 해당 장소에 해당 개체들을 표시하여 패스웨이를 생성하는 단계를 포함하는 패스웨이 구축 방법이 제공된다.
상기 패스웨이 구축 방법은 상기 생성된 패스웨이를 가시화하는 단계, 상기 가시화된 패스웨이에서 특정 개체가 선택된 경우, 상기 특정 개체의 출처 정보를 획득하여 패스웨이의 일정 영역에 표시하고, 상기 패스웨이에서 두 개체를 연결하는 선이 선택된 경우, 두 개체간의 관계를 설명할 수 있는 문서의 문장 또는 단락들을 표시하는 단계를 더 포함할 수 있다.
또한, 상기 패스웨이 구축 방법은 상기 가시화된 패스웨이에 대한 편집 정보를 사용자로부터 입력받아 패스웨이 데이터베이스에 저장하는 단계를 더 포함할 수 있다.
상기 인식된 개체들을 대상으로 웹 검색을 수행하여, 개체들의 관계 이벤트를 생성하는 단계는, 상기 개체들을 대상으로 웹 검색을 수행하여, 그 개체들이 출현하는 문서 및 각 개체들의 세포 내 장소 정보를 수집하는 단계, 개체들간의 관계, 개체들의 출처, 개체들의 세포 내 장소정보 중 적어도 하나를 포함하는 관계 이벤트를 생성하는 단계를 포함할 수 있다.
개체들의 세포내 장소정보는 각 개체의 염기서열을 분석하여 수집하는 것을 특징으로 한다.
본 발명의 또 다른 측면에 따르면, 사전 정보 데이터베이스를 이용하여 입력 문서에서 개체들을 인식하는 단계, 기 저장된 문맥 패턴 정보를 근거로 상기 인식된 개체 사이의 문맥을 추출하고, 상기 추출된 문맥을 정규화하는 방식으로 개체간의 관계를 인식하는 단계, 상기 인식된 개체들을 대상으로 웹 검색을 수행하여, 개체들의 관계 이벤트를 생성하는 단계, 상기 생성된 관계 이벤트를 근거로 세포내 해당 장소에 해당 개체들을 표시하여 패스웨이를 생성하는 단계를 포함하는 패스웨이 구축 방법이 컴퓨터로 판독 가능한 기록매체가 제공된다.
본 발명에 따르면, 바이오 분야 문서로부터 단백질, 질병, 효소, 약품, 화합물, 징후를 표현하는 용어를 인식하고, 이를 기반하여 자동으로 패스웨이를 구축할 수 있다.
또한, 구축한 패이스웨이에 대한 수작업 검증을 위해 바이오분야 문서들을 제공함으로써, 패스웨이 구축에 들어가는 수작업을 최소화할 수 있다.
도 1은 본 발명에 따른 패스웨이 구축 시스템을 나타낸 도면.
도 2는 본 발명에 따른 패스웨이 구축 방법을 나타낸 흐름도.
본 발명의 전술한 목적과 기술적 구성 및 그에 따른 작용 효과에 관한 자세한 사항은 본 발명의 명세서에 첨부된 도면에 의거한 이하 상세한 설명에 의해 보다 명확하게 이해될 것이다.
도 1은 본 발명에 따른 패스웨이 구축 시스템을 나타낸 도면이다.
도 1을 참조하면, 패스웨이 구축 시스템(100)은 사전 정보 데이터베이스(110), 관계정보 데이터베이스(120), 패스웨이 데이터베이스(130), 개체 인식부(140), 관계 인식부(150), 관계 이벤트 인식부(160), 패스웨이 생성부(170), 가시화부(180)를 포함한다.
사전 정보 데이터베이스(110)에는 단백질, 질병, 합성물, 징후, 효소, 의약폼, 질병, 장소, 패스웨이 등에 대한 개체명이 저장되어 있다.
즉, 사전 정보 데이터베이스에는 단백질명, 질병명, 합성물명, 징후명, 효소명 등의 개체명이 각각 저장되어 있다.
개체 인식부(140)는 사전 정보 데이터베이스(110)를 이용하여 입력 문서에서 개체를 인식한다. 즉, 개체 인식부(140)는 입력 문서에 대해 형태소 분석, 구문 분석, 의미 분석으로부터 수집된 정보를 자질값으로 활용한 기계학습 기반 필터링을 수행하여 용어를 인식하고, 그 인식된 용어가 사전 정보 데이터베이스(110)에 등록된 경우, 개체로 인식한다.
관계 인식부(150)는 기 저장된 문맥 패턴 정보를 근거로 인식된 개체 사이의 문맥을 추출하고, 구비된 정규화 사전 데이터베이스를 근거로 상기 추출된 문맥을 정규화하는 방식으로 개체간의 관계를 인식한다.
관계 인식부(150)는 개체 인식부(140)에서 2개 이상의 개체가 인식된 경우, 문맥 패턴 정보를 근거로 인식된 개체 사이의 문맥을 추출하고, 정규화 사전 데이터베이스를 근거로 추출된 문맥을 정규화하는 방식으로 개체간의 관계를 생성한다.
또한, 관계 인식부(150)는 2개 이상의 개체가 인식된 단락 또는 문장의 경우, 그 문장 또는 단락에 대해서는 주변 문맥 정보로부터 세포 내의 장소 명을 인식한다. 이 경우 사전 정보 데이터베이스에는 세포 내의 장소 명이 저장되어 있다. 즉, 모든 단백질은 세포 속 어디에 위치하는지, 어떤 질병과 관련되어 있는지에 대한 정보가 사전정보 데이터베이스에 저장되어 있다. 따라서, 2개 이상의 개체가 인식된 단락 또는 문장의 경우, 관계 인식부(150)는 두 개체(단백질)가 같은 질병에 관련되어 있는 경우를 파악하여 그룹핑하고, 문맥을 이용한 패턴을 활용하여 관계를 인식한다.
또한, 관계 인식부(150)는 2개 이상의 개체가 인식된 단락 또는 문장의 경우, 주변 문맥 정보로부터 패스웨이 명을 인식할 수도 있다. 이 경우, 사전 정보 데이터베이스에는 패스웨이 이름이 저장되어 있다.
모든 단백질은 세포 속 어디에 위치하는지, 어떤 질병과 관련되어 있는지에 대한 정보가 사전정보 데이터베이스에 저장되어 있다. 2개 이상의 개체가 인식된 단락 또는 문장의 경우, 두 개체(단백질)가 같은 질병에 관련되어 있는 경우를 파악하여 그룹핑하고, 문맥을 이용한 패턴을 활용하여 관계를 인식한 후, 세포 속 위치 정보를 고려하여 가시화한다.
또한, 관계 인식부(150)는 유전자 혹은 단백질 개체명과 함께 고빈도로 나타나는 동사들 중 'activate'나 'inhibit'와 같은 상호 작용 관계를 나타내는 이벤트성 동사들을 추출해 패턴을 분석하고, 분석된 패턴 정보를 활용하여 개체들간의 관계를 인식할 수 있다.
예를 들면, "Our data suggest that lipoxygenase metabolites activate ROI formation which then induce IL-2 expression via NF-kappa B activation."에서 “lipoxygenase metabolites”는 “ROI formation”를 활성화(Activate)하고“ROI formation”는 “IL-2 expression”를 induction하는 관계를 생성한다.
관계 이벤트 생성부(160)는 개체 인식부(140)에서 인식된 개체들을 대상으로 웹 검색을 수행하여, 그 개체들이 출현하는 문서 및 각 개체들의 세포 내 장소 정보를 수집하고, 개체들간의 관계, 개체들의 출처, 개체들의 세포 내 장소정보 중 적어도 하나를 포함하는 관계 이벤트를 생성한다.
즉, 관계 이벤트 생성부(160)는 인식된 개체들을 대상으로 PubMed 전체를 검색하여 상기 개체들이 출현하는 문서들을 검색한다. 상기 검색된 문서들이 해당 개체가 출현한 출처일 수 있다. 그런 다음 관계 이벤트 생성부(160)는 개체들에 대한 장소 정보를 서열 기반 방법으로 수집한다.
즉, 관계 이벤트는 두 개체와 관계, 두 개체와 관련된 질병, 각 개체의 위치 정보를 포함한다. 그러므로, 관계 이벤트 생성부는 각 개체의 위치 정보를 획득하기 위해, 해당 개체(단백질)의 염기서열을 분석하여 위치정보를 찾는다.
관계 이벤트 생성부(160)에서 생성한 개체들의 관계 이벤트는 관계 정보 데이터베이스(120)에 저장된다.
패스웨이 생성부(170)는 관계 이벤트 생성부(160)에서 생성된 관계 이벤트를 근거로 세포내 해당 장소에 해당 개체들을 표시하여 패스웨이를 구축한다. 이때, 패스웨이 생성부(170)는 생성된 관계 이벤트를 가시화하기 위해 패스웨이 마크업 언어로 변환한다. 패스웨이 표현을 위한 마크업 언어는 SBML, PSI-MI, BioPax 등의 다양한 언어를 포함할 수 있다.
패스웨이 생성부(170)에서 생성된 패스웨이는 패스웨이 데이트베이스(130)에 저장된다.
가시화부(180)는 패스웨이 생성부(170)에서 생성된 패스웨이를 가시화한다.
또한, 가시화부(180)는 가시화된 패스웨이에서 특정 개체가 선택된 경우, 패스웨이 데이터베이스(130)로부터 특정 개체의 출처 정보를 획득하여 패스웨이의 일정 영역에 표시한다.
또한, 가시화부(180)는 패스웨이에서 사용자가 하나의 선을 선택하면, 두 개체간의 관계를 설명할 수 있는 문서의 문장 또는 단락들을 제시할 수 있다.
상기와 같이 구성된 패스웨이 구축 시스템(100)은 검증부(190)를 더 포함할 수 있다.
상기 검증부(190)는 상기 가시화부(180)를 통해 가시화된 패스웨이를 전문가가 확인하고, 편집 도구를 이용하여 편집된 정보를 상기 패스웨이 데이터베이스(130)에 저장한다. 즉, 전문가는 가시화된 패스웨이를 확인하고, 관계 이벤트에 대해 오류가 발견된 경우, 편집 도구를 이용하여 그 오류를 정정할 수 있다. 상기 편집 도구는 예를 들면, SBML 브라우져 도구일 수 있다.
도 2는 본 발명에 따른 패스웨이 구축 방법을 나타낸 흐름도이다.
도 2를 참조하면, 패스웨이 구축 시스템은 입력문서를 분석하여 개체를 인식한다(S202). 즉, 패스웨이 구축 시스템은 입력 문서에 대해 형태소 분석, 구문 분석, 의미 분석으로부터 수집된 정보를 자질값으로 활용한 기계학습 기반 필터링을 수행하여 용어를 인식하고, 그 인식된 용어가 사전 정보 데이터베이스에 등록된 경우, 개체로 인식한다.
단계 S202의 수행 후, 패스웨이 구축 시스템은 기 저장된 문맥 패턴 정보를 근거로 인식된 개체 사이의 문맥을 추출하고, 추출된 문맥을 정규화하는 방식으로 개체간의 관계를 인식한다(S204). 이때, 패스웨이 구축 시스템은 2개 이상의 개체가 인식된 단락 또는 문장의 경우, 그 문장 또는 단락에 대해서는 주변 문맥 정보로부터 세포 내의 장소, 두 개체의 같은 질병의 관련 유무, 패스웨이 등을 인식할 수 있다.
단계 S204의 수행 후, 패스웨이 구축 시스템은 인식된 개체들을 대상으로 관계 이벤트를 생성한다(S206). 즉, 패스웨이 구축 시스템은 인식된 개체들을 대상으로 PubMed 전체를 검색하여 상기 개체들이 출현하는 문서들을 검색하고, 개체들에 대한 장소 정보를 서열 기반 방법으로 수집한다. 그러면, 패스웨이 구축 시스템은 두 개체와 관계, 두 개체와 관련된 질병, 각 개체의 위치 정보를 포함하는 관계 이벤트를 생성하게 된다.
단계 S206의 수행 후, 패스웨이 구축 시스템은 관계 이벤트를 근거로 세포내 해당 장소에 해당 개체들을 표시하여 패스웨이를 구축한다(S208). 즉, 패스웨이 구축 시스템은 관계 이벤트에 포함된 질병의 세포내에 각 개체의 위치 정보에 해당 개체를 표시하여 패스웨이를 구축한다.
상기와 같이 패스웨이가 구축되면, 사용자 요청에 따라 패스웨이 구축 시스템은 생성된 패스웨이를 가시화할 수 있다. 사용자는 가시화된 패스웨이에서 특정개체를 선택하여 그 개체의 출처를 확인할 수 있다. 또한 사용자는 두 개체를 연결하는 선을 선택하여, 두 개체간의 관계를 설명할 수 있는 문서의 문장 또는 단락들을 확인할 수 있다.
패스웨이 구축 방법은 프로그램으로 작성 가능하며, 프로그램을 구성하는 코드들 및 코드 세그먼트들은 당해 분야의 프로그래머에 의하여 용이하게 추론될 수 있다.
이와 같이, 본 발명이 속하는 기술분야의 당업자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
100 : 패스웨이 구축 시스템 110 : 사전정보 DB
120 : 관계 정보 DB 130 : 패스웨이 DB
140 : 개체 인식부 150 : 관계 인식부
160 : 관계 이벤트 생성부 170 : 패스웨이 생성부
180 : 가시화부 190 : 검증부

Claims (13)

  1. 단백질, 질병, 합성물, 징후, 효소, 의약폼, 질병, 장소, 패스웨이 중 적어도 하나에 대한 개체명이 저장된 사전 정보 데이터베이스;
    입력 문서에 대해 형태소 분석, 구문 분석, 의미 분석 중 적어도 하나를 수행하여 용어를 인식하고, 상기 인식된 용어가 상기 사전 정보 데이터베이스에 등록된 경우, 그 용어를 개체로 인식하는 개체 인식부;
    기 저장된 문맥 패턴 정보를 근거로 상기 인식된 개체 사이의 문맥을 추출하고, 상기 추출된 문맥을 정규화 사전 데이터베이스에 정의된 패턴으로 만들어 개체간의 관계를 인식하는 관계 인식부;
    상기 인식된 개체들을 대상으로 웹 검색을 수행하여, 상기 개체들이 출현하는 문서 및 각 개체들의 세포 내 장소 정보를 수집하고, 상기 수집된 정보에 의한 관계 이벤트를 생성하는 관계 이벤트 생성부; 및
    상기 인식된 관계 이벤트를 근거로 세포내 해당 장소에 해당 개체들을 표시하여 패스웨이를 생성하는 패스웨이 생성부;
    를 포함하는 패스웨이 구축 시스템.
  2. 제1항에 있어서,
    상기 패스웨이 생성부에서 생성된 패스웨이를 화면상에 표시하는 가시화부를 더 포함하는 것을 특징으로 하는 패스웨이 구축 시스템.
  3. 제2항에 있어서,
    상기 가시화부는, 화면상에 표시된 패스웨이에서 특정 개체가 선택된 경우, 상기 특정 개체의 출처 정보를 획득하여 패스웨이의 일정 영역에 표시하고, 상기 패스웨이에서 두 개체를 연결하는 선이 선택된 경우, 두 개체간의 관계를 설명할 수 있는 문서의 문장 또는 단락들을 표시하는 것을 특징으로 하는 패스웨이 구축 시스템.
  4. 제2항에 있어서,
    상기 가시화부를 통해 화면상에 표시된 패스웨이에 대한 편집 정보를 사용자로부터 입력받아 패스웨이 데이터베이스에 저장하는 검증부를 더 포함하는 것을 특징으로 하는 패스웨이 구축 시스템.

  5. 삭제
  6. 제1항에 있어서,
    상기 관계 이벤트는 개체들간의 관계, 개체들의 출처, 개체들의 장소정보 중 적어도 하나를 포함하는 것을 특징으로 하는 패스웨이 구축 시스템.
  7. 제1항에 있어서,
    상기 관계 이벤트 생성부는 각 개체의 염기서열을 분석하여 장소정보를 수집하는 것을 특징으로 하는 패스웨이 구축 시스템.
  8. 패스웨이 구축 시스템이 패스웨이를 구축하는 방법에 있어서,
    입력 문서에 대해 형태소 분석, 구문 분석, 의미 분석 중 적어도 하나를 수행하여 용어를 인식하고, 상기 인식된 용어가 사전 정보 데이터베이스에 등록된 경우, 그 용어를 개체로 인식하는 단계;
    기 저장된 문맥 패턴 정보를 근거로 상기 인식된 개체 사이의 문맥을 추출하고, 상기 추출된 문맥을 정규화 사전 데이터베이스에 정의된 패턴으로 만들어 개체간의 관계를 인식하는 단계;
    상기 인식된 개체들을 대상으로 웹 검색을 수행하여, 개체들의 관계 이벤트를 생성하는 단계; 및
    상기 생성된 관계 이벤트를 근거로 세포내 해당 장소에 해당 개체들을 표시하여 패스웨이를 생성하는 단계;
    를 포함하는 패스웨이 구축 방법.
  9. 제8항에 있어서,
    상기 생성된 패스웨이를 화면상에 표시하는 단계;
    상기 화면상에 표시된 패스웨이에서 특정 개체가 선택된 경우, 상기 특정 개체의 출처 정보를 획득하여 패스웨이의 일정 영역에 표시하고, 상기 패스웨이에서 두 개체를 연결하는 선이 선택된 경우, 두 개체간의 관계를 설명할 수 있는 문서의 문장 또는 단락들을 표시하는 단계를 더 포함하는 것을 특징으로 하는 패스웨이 구축 방법.
  10. 제9항에 있어서,
    상기 화면상에 표시된 패스웨이에 대한 편집 정보를 사용자로부터 입력받아 패스웨이 데이터베이스에 저장하는 단계를 더 포함하는 것을 특징으로 하는 패스웨이 구축 방법.
  11. 제8항에 있어서,
    상기 인식된 개체들을 대상으로 웹 검색을 수행하여, 개체들의 관계 이벤트를 생성하는 단계는,
    상기 개체들을 대상으로 웹 검색을 수행하여, 그 개체들이 출현하는 문서 및 각 개체들의 세포 내 장소 정보를 수집하는 단계;
    개체들간의 관계, 개체들의 출처, 개체들의 세포 내 장소정보 중 적어도 하나를 포함하는 관계 이벤트를 생성하는 단계를 포함하는 것을 특징으로 하는 패스웨이 구축 방법.
  12. 제11항에 있어서,
    개체들의 세포내 장소정보는 각 개체의 염기서열을 분석하여 수집하는 것을 특징으로 하는 패스웨이 구축 방법.
  13. 패스웨이 구축 시스템에 의해 실행될 때,
    입력 문서에 대해 형태소 분석, 구문 분석, 의미 분석 중 적어도 하나를 수행하여 용어를 인식하고, 상기 인식된 용어가 사전 정보 데이터베이스에 등록된 경우, 그 용어를 개체로 인식하는 단계;
    기 저장된 문맥 패턴 정보를 근거로 상기 인식된 개체 사이의 문맥을 추출하고, 상기 추출된 문맥을 정규화 사전 데이터베이스에 정의된 패턴으로 만들어 개체간의 관계를 인식하는 단계;
    상기 인식된 개체들을 대상으로 웹 검색을 수행하여, 개체들의 관계 이벤트를 생성하는 단계; 및
    상기 생성된 관계 이벤트를 근거로 세포내 해당 장소에 해당 개체들을 표시하여 패스웨이를 생성하는 단계를 포함하는 패스웨이 구축 방법이 컴퓨터로 판독 가능한 기록매체.
KR1020120085254A 2012-08-03 2012-08-03 패스웨이 구축 시스템 및 방법 KR101243063B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020120085254A KR101243063B1 (ko) 2012-08-03 2012-08-03 패스웨이 구축 시스템 및 방법
US14/419,336 US20150220623A1 (en) 2012-08-03 2013-08-01 System and method for pathway construction
PCT/KR2013/006941 WO2014021656A1 (ko) 2012-08-03 2013-08-01 패스웨이 구축 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120085254A KR101243063B1 (ko) 2012-08-03 2012-08-03 패스웨이 구축 시스템 및 방법

Publications (1)

Publication Number Publication Date
KR101243063B1 true KR101243063B1 (ko) 2013-03-13

Family

ID=48181778

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120085254A KR101243063B1 (ko) 2012-08-03 2012-08-03 패스웨이 구축 시스템 및 방법

Country Status (3)

Country Link
US (1) US20150220623A1 (ko)
KR (1) KR101243063B1 (ko)
WO (1) WO2014021656A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101488338B1 (ko) 2014-10-20 2015-01-30 한국과학기술정보연구원 바이오패스웨이 통합을 위한 장치, 그 방법 및 바이오패스웨이들을 통합하는 프로그램을 저장하는 저장매체
KR102233464B1 (ko) * 2020-08-13 2021-03-30 주식회사 스탠다임 문서 데이터에서 질병 관련 인자들 간의 관계를 추출하는 방법 및 이를 이용하여 구축되는 시스템

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105389470A (zh) * 2015-11-18 2016-03-09 福建工程学院 一种中医针灸领域实体关系自动抽取的实现方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006185412A (ja) 2004-12-03 2006-07-13 Kazusa Dna Kenkyusho 情報処理装置、情報処理方法及びそのプログラム
KR20070038925A (ko) * 2005-10-07 2007-04-11 가부시끼가이샤 도시바 유전자 진단을 위한 마커 선택 프로그램을 포함하는 컴퓨터판독가능 매체, 마커 선택 장치 및 시스템, 및 유전자진단 함수 생성 장치 및 시스템
KR20090103252A (ko) * 2008-03-28 2009-10-01 상원씨엔티 (주) 동적 유저인터페이스 형성 서버시스템 및 방법, 그리고동적 유저인터페이스 통한 검색서비스 방법
KR20110054926A (ko) * 2009-11-19 2011-05-25 한국생명공학연구원 생물학적 네트워크 분석을 이용한 마이크로어레이 실험 자료의 작용기작, 실험/처리 조건 특이적 네트워크 생성 및 실험/처리 조건 관계성 해석을 위한 알고리즘을 포함한 시스템 및 방법과 상기 방법을 수행하기 위한 프로그램을 갖는 기록매체

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006185412A (ja) 2004-12-03 2006-07-13 Kazusa Dna Kenkyusho 情報処理装置、情報処理方法及びそのプログラム
KR20070038925A (ko) * 2005-10-07 2007-04-11 가부시끼가이샤 도시바 유전자 진단을 위한 마커 선택 프로그램을 포함하는 컴퓨터판독가능 매체, 마커 선택 장치 및 시스템, 및 유전자진단 함수 생성 장치 및 시스템
KR20090103252A (ko) * 2008-03-28 2009-10-01 상원씨엔티 (주) 동적 유저인터페이스 형성 서버시스템 및 방법, 그리고동적 유저인터페이스 통한 검색서비스 방법
KR20110054926A (ko) * 2009-11-19 2011-05-25 한국생명공학연구원 생물학적 네트워크 분석을 이용한 마이크로어레이 실험 자료의 작용기작, 실험/처리 조건 특이적 네트워크 생성 및 실험/처리 조건 관계성 해석을 위한 알고리즘을 포함한 시스템 및 방법과 상기 방법을 수행하기 위한 프로그램을 갖는 기록매체

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101488338B1 (ko) 2014-10-20 2015-01-30 한국과학기술정보연구원 바이오패스웨이 통합을 위한 장치, 그 방법 및 바이오패스웨이들을 통합하는 프로그램을 저장하는 저장매체
KR102233464B1 (ko) * 2020-08-13 2021-03-30 주식회사 스탠다임 문서 데이터에서 질병 관련 인자들 간의 관계를 추출하는 방법 및 이를 이용하여 구축되는 시스템
WO2022035074A1 (ko) * 2020-08-13 2022-02-17 주식회사 스탠다임 문서 데이터에서 질병 관련 인자들 간의 관계를 추출하는 방법 및 이를 이용하여 구축되는 시스템

Also Published As

Publication number Publication date
WO2014021656A1 (ko) 2014-02-06
US20150220623A1 (en) 2015-08-06

Similar Documents

Publication Publication Date Title
CN110990579B (zh) 跨语言的医学知识图谱构建方法、装置与电子设备
JP5283288B2 (ja) 文の配列に基づく文書感情分類システムおよび方法
Stamatatos et al. Overview of the PAN/CLEF 2015 evaluation lab
Haynes et al. Semiautomated text analytics for qualitative data synthesis
CN107408156A (zh) 用于从临床文档进行语义搜索和提取相关概念的系统和方法
JP2006285460A (ja) 情報検索システム
WO2012122122A1 (en) Systems and methods for processing patient history data
JP2017138655A (ja) 対訳コーパス作成方法、該装置および該プログラムならびに機械翻訳システム
Rupp et al. Dealing with heterogeneous big data when geoparsing historical corpora
CN113742493A (zh) 一种病理知识图谱的构建方法及装置
JP2019032704A (ja) 表データ構造化システムおよび表データ構造化方法
KR101243063B1 (ko) 패스웨이 구축 시스템 및 방법
Roy et al. Application of natural language processing in healthcare
Wu et al. Annotating cognates in phylogenetic studies of Southeast Asian languages
KR20190079805A (ko) 복수의 데이터 소스들 기반 지식 베이스 구축 시스템 및 방법
JP2005122231A (ja) 画面表示システム及び画面表示方法
Durelli et al. A mapping study on architecture-driven modernization
Harkema et al. Information extraction from clinical records
Vandeghinste et al. Improving the translation environment for professional translators
Vila et al. Relational paraphrase acquisition from Wikipedia: The WRPA method and corpus
CN111460173A (zh) 一种甲状腺癌的疾病本体模型的构建方法
KR101506757B1 (ko) 자연어로 된 본문의 명확한 모델을 형성하는 방법
KR20140016784A (ko) 패스웨이 확장을 위한 시스템 및 방법
Houssein et al. Semantic protocol and resource description framework query language: a comprehensive review
CN113761899A (zh) 一种医疗文本生成方法、装置、设备及存储介质

Legal Events

Date Code Title Description
A201 Request for examination
A302 Request for accelerated examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20160202

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20161228

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20180102

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20190130

Year of fee payment: 7