KR102518895B1 - 바이오 정보 분석 방법 및 이를 수행하기 위한 프로그램을 저장하는 저장 매체 - Google Patents

바이오 정보 분석 방법 및 이를 수행하기 위한 프로그램을 저장하는 저장 매체 Download PDF

Info

Publication number
KR102518895B1
KR102518895B1 KR1020190090620A KR20190090620A KR102518895B1 KR 102518895 B1 KR102518895 B1 KR 102518895B1 KR 1020190090620 A KR1020190090620 A KR 1020190090620A KR 20190090620 A KR20190090620 A KR 20190090620A KR 102518895 B1 KR102518895 B1 KR 102518895B1
Authority
KR
South Korea
Prior art keywords
bio
entities
correlation score
factor
calculating
Prior art date
Application number
KR1020190090620A
Other languages
English (en)
Other versions
KR20210012606A (ko
Inventor
최원재
Original Assignee
주식회사 꿀비
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 꿀비 filed Critical 주식회사 꿀비
Priority to KR1020190090620A priority Critical patent/KR102518895B1/ko
Publication of KR20210012606A publication Critical patent/KR20210012606A/ko
Application granted granted Critical
Publication of KR102518895B1 publication Critical patent/KR102518895B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Physics & Mathematics (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명의 바이오 정보 분석 방법 및 이를 수행하기 위한 프로그램을 저장하는 저장 매체는 바이오 문헌으로부터 바이오 객체들 및 바이오 객체들 사이의 관계를 추출하고, 이를 이용하여 바이오 데이터베이스를 자동으로 생성할 수 있는 효과가 있다.

Description

바이오 정보 분석 방법 및 이를 수행하기 위한 프로그램을 저장하는 저장 매체{METHOD OF BIO INFORMATION ANALYSIS AND STORAGE MEDIUM STORING A PROGRAM FOR PERFORMING THE SAME}
본 발명은 바이오 정보 분석 방법 및 이를 수행하기 위한 프로그램을 저장하는 저장 매체에 관한 것으로, 보다 상세하게는 바이오 문헌으로부터 바이오 객체들 및 바이오 객체들 사이의 관계를 추출하고, 이를 이용하여 바이오 데이터베이스를 자동으로 생성하는 바이오 정보 분석 방법 및 이를 수행하기 위한 프로그램을 저장하는 저장 매체에 관한 것이다.
바이오 기술(biology technology (BT))은 인간의 건강과 직결되는 기술로서, 최근 그 발전 속도가 점점 증가하고 있으며 이에 따라 바이오 기술과 관련된 문헌도 그 양이 매년 증가하고 있는 추세다. 관련 문헌이 증가함에 따라 이에 포함된 정보도 증가하고 있으나, 이러한 정보를 획득하기 위해서는 많은 시간이 소요되는 문제가 있다.
대한민국 공개특허 10-2005-0111056 A (2005.11.24)
본 발명이 해결하고자 하는 과제는 바이오 문헌으로부터 바이오 객체들 및 바이오 객체들 사이의 관계를 추출하고, 이를 이용하여 바이오 데이터베이스를 자동으로 생성할 수 있는 바이오 정보 분석 방법 및 이를 수행하기 위한 프로그램을 저장하는 저장 매체를 제공하는 것이다.
상술한 과제를 해결하기 위하여 본 발명은 바이오 문헌 데이터를 입력받는 단계; 상기 바이오 문헌 데이터로부터 바이오 개체들을 식별하는 단계; 상기 바이오 개체들 사이의 관계들을 분석하고, 분석 결과에 따라 상기 바이오 개체들 사이의 상관 스코어를 계산하는 단계; 상기 바이오 개체들을 원인 팩터 및 결과 팩터 중 어느 하나로 분류하는 단계; 및 상기 원인 팩터, 상기 결과 팩터 및 상기 상관 스코어를 이용하여 바이오 데이터베이스를 생성하는 단계를 포함하고, 상기 바이오 개체들은 유전자명, 신호 경로 및 질병 중 적어도 하나에 관련된 바이오 정보 분석 방법을 제공한다.
본 발명의 바람직한 일실시예에 따르면, 상기 상관 스코어를 계산하는 단계는, 상기 바이오 문헌 데이터로부터 상기 바이오 개체들 사이의 동사를 식별하는 단계; 및 상기 동사의 의미에 기초하여 상관 스코어를 결정하는 단계;를 포함할 수 있다.
본 발명의 바람직한 일실시예에 따르면, 상기 상관 스코어를 결정하는 단계는, 상기 동사에 해당하는 상관 스코어를 테이블로부터 리드함으로써 상기 상관 스코어를 계산하는 단계를 포함할 수 있다.
본 발명의 바람직한 일실시예에 따르면, 상기 상관 스코어를 결정하는 단계는, 상기 동사와 연관된 부사를 식별하는 단계; 상기 부사에 기초하여 상기 상관 스코어에 대한 가중치를 계산하는 단계; 및 상기 가중치를 상기 상관 스코어에 적용하는 단계;를 더 포함할 수 있다.
본 발명의 바람직한 일실시예에 따르면, 상기 가중치를 계산하는 단계는, 상기 부사의 의미 및 방향에 기초하여 상기 가중치를 계산하는 단계;를 포함할 수 있다.
본 발명의 바람직한 일실시예에 따르면, 상기 상관 스코어를 계산하는 단계는, 상기 바이오 문헌 데이터의 특성에 기초하여 상기 상관 스코어에 대한 가중치를 계산하는 단계; 및 상기 가중치를 상기 상관 스코어에 적용하는 단계;를 더 포함할 수 있다.
본 발명의 바람직한 일실시예에 따르면, 상기 바이오 문헌 데이터의 특성은 상기 바이오 문헌의 저자, 출처 및 영향력 중 적어도 하나를 포함할 수 있다.
본 발명의 바람직한 일실시예에 따르면, 상기 바이오 데이터베이스를 생성하는 단계는, 결과 팩터들을 복수의 카테고리로 분류하는 단계; 및 상기 복수의 카테고리 중 어느 하나의 카테고리에 속하는 결과 팩터들을 상기 어느 하나의 카테고리에 대응하는 바이오 데이터베이스에 저장하는 단계;를 더 포함할 수 있다.
본 발명의 바람직한 일실시예에 따르면, 상기 원인 팩터는 유전자 명칭이고, 상기 결과 팩터는 유전자 명칭, 신호 경로 및 질병 중 적어도 하나일 수 있다.
또한, 본 발명은 상기 어느 하나의 방법을 수행하기 위한 명령들을 포함하는 프로그램을 저장하는 컴퓨터 판독가능 저장 매체를 제공한다.
본 발명의 바이오 정보 분석 방법 및 이를 수행하기 위한 프로그램을 저장하는 저장 매체는 바이오 문헌으로부터 바이오 객체들 및 바이오 객체들 사이의 관계를 추출하고, 이를 이용하여 바이오 데이터베이스를 자동으로 생성할 수 있는 효과가 있다.
도 1은 본 발명의 바람직한 실시예에 따른 바이오 데이터베이스 생성 시스템도이다.
도 2는 본 발명의 바람직한 일실시예에 따른 바이오 정보 분석 장치의 구조도이다.
도 3은 본 발명의 바람직한 일실시예에 따른 바이오 정보 분석 방법의 설명도이다.
도 4 및 도 5는 본 발명의 바람직한 일실시예에 따른 바이오 데이터베이스를 나타낸 도면이다.
도 6은 본 발명의 바람직한 일실시예에 따른 바이오 정보 분석 방법을 나타내는 흐름도이다.
이하, 첨부한 도면을 참고로 하여 본 발명의 실시예에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다.
도 1은 본 발명의 바람직한 실시예에 따른 바이오 데이터베이스 생성 시스템도이다. 도 1을 참조하면, 바이오 데이터베이스 생성 시스템(10)은 바이오 정보 분석 장치(100) 및 바이오 문헌(200)을 포함할 수 있다.
바이오 정보 분석 장치(100)는 연산처리 기능을 가지는 장치 또는 연산처리 기능을 가지는 소프트웨어가 설치된 장치일 수 있다. 실시예들에 따라, 바이오 정보 분석 장치 (100)는 프로세서 및 메모리를 포함할 수 있고, 프로세서는 메모리에 저장된 명령어들을 실행함으로써 바이오 정보 분석 장치 (100)를 제어할 수 있다.
바이오 정보 분석 장치 (100)는 바이오 문헌(200)을 자동적으로 분석하고, 분석 결과에 따라 바이오 문헌(200)으로부터 바이오 개체들을 식별하고, 바이오 개체들 사이의 관계들을 분석할 수 있다.
바이오 문헌(200)은 바이오 개체들에 대한 정보를 포함하는 데이터일 수 있다. 실시예들에 따라, 바이오 문헌(200)은 바이오 개체들에 대한 정보를 포함하는 텍스트, 이미지 또는 음성 데이터일 수 있으나, 이에 한정되는 것은 아니다. 본 발명의 바람직한 일실시예에 따르면, 바이오 문헌(200)은 웹 상에 저장되거나 또는 판독가능한 저장 매체에 저장될 수 있다.
바이오 문헌(200)은 바이오 정보 분석 장치 (100)로 입력될 수 있다.
도 2는 본 발명의 바람직한 일실시예에 따른 바이오 정보 분석 장치의 구조도이다. 도 1 내지 도 2를 참조하면, 바이오 정보 분석 장치 (100)는 데이터 수집부(110), 개체 식별부(120), 관계 분석부(130) 및 데이터베이스 생성부(140)를 포함할 수 있다.
데이터 수집부(110)는 바이오 문헌(200)을 입력받을 수 있다. 본 발명의 바람직한 일실시예에 따르면, 데이터 수집부(110)는 바이오 문헌을 수집하고, 분류할 수 있다. 예컨대, 데이터 수집부(111)는 공개 문헌 데이터베이스로부터 바이오 문헌을 수집할 수 있고, 수집된 바이오 문헌을 적절히 분류할 수 있다.
데이터 수집부(110)는 수집된 바이오 문헌을 저자, 출처, 주제 및 영향력에 기초하여 분류할 수 있다. 실시 예들에 따라, 데이터 수집부(110)는 저자, 출처, 주제 및 영향력에 기초하여 바이오 문헌에 대한 문헌 점수를 계산할 수 있다.
본 발명의 바람직한 일실시예에 따르면, 데이터 수집부(110)는 저자, 출처, 주제 및 영향력에 기초하여 바이오 문헌을 수집할 수 있다. 예컨대, 데이터 수집부(110)는 특정 조건을 만족하는 저자, 출처, 주제 및 영향력의 바이오 문헌만을 수집할 수 있다.
개체 식별부(120)는 수집된 바이오 문헌으로부터 바이오 개체들을 식별할 수 있다. 개체 식별부(120)는 바이오 문헌으로부터 텍스트를 추출하고, 추출된 텍스트로부터 바이오 문헌의 바이오 개체를 식별할 수 있다. 예컨대, 개체 식별부(120)는 바이오 문헌에 대해 자연어 처리를 수행할 수 있다.
개체 식별부(120)는 바이오 문헌에 포함된 텍스트에 대해 형태소 분석을 수행하고, 수행 결과에 따라 텍스트에 포함된 형태소를 식별할 수 있다. 본 발명의 바람직한 일실시예에 따르면, 개체 식별부(120)는 텍스트를 파싱할 수 있다. 형태소(the minimal unit of meaning 또는 morpheme)는 언어학에서(일반적인 정의를 따르면) 일정한 의미가 있는 가장 작은 말의 단위로 발화체 내에서 따로 떼어낼 수 있는 것을 말한다. 즉, 형태소는 더 분석하면 뜻이 없어지는 말의 단위이다.
개체 식별부(120)는 식별된 형태소의 품사를 결정할 수 있다. 개체 식별부(120)는 식별된 형태소의 품사가 동사, 명사, 부사 및 형용사 중 어떤 것인지 판단할 수 있다. 개체 식별부(120)는 형태소 각각에 대해 식별된 품사를 태깅할 수 있다.
개체 식별부(120)는 형태소의 품사에 기초하여 바이오 문헌으로부터 바이오 개체를 식별할 수 있다. 개체 식별부(120)는 형태소의 품사 및 상기 형태소의 의미에 기초하여 바이오 개체를 식별할 수 있다.
개체 식별부(120)는 바이오 문헌에 포함된 명사들 중에서 바이오와 관련된 명사를 바이오 개체로서 식별할 수 있다. 예컨대, 개체 식별부(120)는 바이오 문헌에 포함된 유전자 명칭, 신호 경로(signaling pathway) 및 질병과 관련된 형태소를 바이오 개체로서 식별할 수 있다.
예컨대, 도 3에 도시된 바와 같이, "최근 연구에 따르면 유전자 A는 신호 경로 P를 활성화하는 것으로 밝혀졌다"라는 문장(SEN)이 존재할 때, 개체 식별부(120)는 문장(SEN)에 포함된 "연구", "유전자 A" 및 "신호 경로 P"를 명사로서 식별하고, 이들 명사들 중에서 바이오 분야와 관련된 "유전자 A" 및 "신호 경로 P"를 바이오 개체들로서 식별할 수 있다.
또한, 도 2를 참조하면, 관계 분석부(130)는 바이오 문헌으로부터 식별된 바이오 객체들 사이의 관계를 분석할 수 있다. 관계 분석부(130)는 식별된 바이오 개체가 포함된 문장으로부터 바이오 개체들 사이의 관계를 분석할 수 있다.
관계 분석부(130)는 바이오 개체들이 포함된 문장에서 바이오 개체들 사이를 연결하는 동사를 추출하고, 추출된 동사의 의미로부터 바이오 개체들 사이의 관계를 분석할 수 있다. 관계 분석부(130)는 바이오 개체들을 주어 및 목적어 중 어느 하나로 분류하고, 바이오 개체들 사이의 동사를 추출하고, 주어, 목적어 및 동사 사이의 관계를 이용하여 바이오 개체들 사이의 관계를 분석할 수 있다. 예컨대, 바이오 개체들 각각은 양의 관계 또는 음의 관계 중 어느 하나의 관계를 가질 수 있다.
관계 분석부(130)는 바이오 개체들 사이의 관계를 이용하여 바이오 개체들을 원인 팩터 및 결과 팩터 중 어느 하나로 분류할 수 있다. 관계 분석부(130)는 주어로서 취급되는 바이오 개체를 원인 팩터로 분류할 수 있고 목적어로서 취급되는 바이오 개체를 결과 팩터로 분류할 수 있다.
예컨대, 도 3에 도시된 바와 같이, 개체 식별부(120)는 문장(SEN)에 포함된 바이오 개체들 "유전자 A" 및 "신호 경로 P"사이를 연결하는 동사 "활성화하다"를 식별하고, 식별된 동사의 의미 및 "유전자 A" 및 "신호 경로 P"사이의 관계(주어-목적어 관계)를 이용하여 "유전자 A"및 "신호 경로 P"가 활성화 관계에 있는 것을 식별할 수 있다. 이 경우, 유전자 A"및 "신호 경로 P"는 서로 매칭될 수 있다. 또한, 개체 식별부(120)는 "유전자 A"를 원인 팩터로 분류하고, "신호 경로 P"를 결과 팩터로 분류할 수 있다.
관계 분석부(130)는 분석된 바이오 개체들 사이의 관계에 기초하여, 바이오 개체들 사이의 상관 스코어를 계산할 수 있다. 상기 상관 스코어는 특정 값을 가질 수 있다. 예컨대, 상관 스코어는 양 또는 음의 값을 가질 수 있고, 양의 상관 스코어는 상술한 양의 관계에 해당하고 음의 상관 스코어는 상술한 음의 관계에 해당한다.
관계 분석부(130)는 바이오 개체들 사이의 동사에 해당하는 상관 스코어를 계산할 수 있다. 실시 예들에 따라, 바이오 개체들 사이의 동사에 해당하는 상관 스코어 각각이 미리 결정되어 테이블로서 저장될 수 있고, 관계 분석부(130)는 저장된 테이블을 참조하여 동사에 해당하는 상관 스코어를 계산할 수 있다.
또한, 관계 분석부(130)는 바이오 개체들 사이의 동사의 의미의 방향 및 강도에 기초하여 상관 스코어를 계산할 수 있다. 동사의 의미 및 방향은 미리 결정되어 저장될 수 있고, 관계 분석부(130)는 동사에 해당하는 동사의 의미의 방향 및 강도를 저장된 데이터로부터 획득할 수 있다. 예컨대, 동사의 의미는 상기 의미가 긍정적일 때 양의 방향을 가질 수 있고, 상기 의미가 부정적일 때 음의 방향을 가질 수 있으나 이에 한정되는 것은 아니다.
관계 분석부(130)는 바이오 개체들 사이의 상관 스코어에 대한 가중치를 추가적으로 계산할 수 있다. 상기 가중치는 상기 상관 스코어에 적용되어 상기 상관 스코어를 증가시키거나 또는 감소시킬 수 있다. 예컨대, 상기 가중치는 상기 상관 스코어에 곱해지거나 또는 더해질 수 있으나, 이에 한정되는 것은 아니다.
본 발명의 바람직한 일실시예에 따르면, 관계 분석부(130)는 바이오 개체들 사이의 상관 스코어에 해당하는 동사와 관련된 부사를 추출하고, 추출된 부사에 기초하여 상관 스코어에 대한 가중치를 계산할 수 있다. 예컨대, 관계 분석부(130)는 추출된 부사의 의미 및 빈도 중 적어도 하나에 기초하여 가중치를 계산할 수 있다.
본 발명의 바람직한 다른 일실시예에 따르면, 관계 분석부(130)는 바이오 개체들 및 해당하는 동사의 등장 빈도에 기초하여 상관 스코어에 대한 가중치를 계산할 수 있다. 예컨대, 관계 분석부(130)는 두 개의 바이오 개체들 및 해당하는 동사가 자주 등장하는 경우, 두 개의 바이오 개체들 사이의 상관 스코어에 대한 가중치를 높게 둘 수 있다.
또한, 관계 분석부(130)는 바이오 개체들이 추출된 바이오 문헌의 특성에 기초하여 상관 스코어에 대한 가중치를 계산할 수 있다. 관계 분석부(130)는 바이오 문헌의 저자, 출처 및 영향력 중 적어도 하나에 기초하여 상관 스코어에 대한 가중치를 계산할 수 있다.
데이터베이스 생성부(140)는 바이오 개체들 및 바이오 개체들 사이의 관계를 이용하여 바이오 데이터베이스를 생성할 수 있다. 데이터베이스 생성부(140)는 바이오 개체들을 저장 공간(저장 매체 또는 클라우드 등)에 저장함으로써 바이오 데이터베이스를 생성할 수 있다.
데이터베이스 생성부(140)는 바이오 개체들 각각을 원인 팩터 필드 및 결과 팩터 필드 중 어느 하나의 필드에 저장할 수 있고, 또한, 바이오 개체들 각각 사이의 관계 및 상관 스코어를 추가적으로 저장할 수 있다. 데이터베이스 생성부(140)는 원인 팩터 및 결과 팩터를 매칭하여 저장할 수 있다.
예컨대, 도 4에 도시된 바와 같이, 데이터베이스 생성부(140)는 바이오 데이터베이스(BDB)를 생성할 수 있다. 바이오 데이터베이스(BDB)를 참조하면, 원인 팩터로서 유전자 G1 내지 G3이 저장되어 있으며, 결과 팩터로서 유전자 G4, 질병 D1 및 신호 경로 P1이 각각 원인 팩터와 매칭되어 저장되어 있다. 또한, 각 원인 팩터와 대응하는 결과 팩터 사이의 관계 및 상관 스코어가 바이오 데이터베이스(BDB)에 저장될 수 있다. 예컨대, + 관계는 원인 팩터와 결과 팩터 사이에 양의 상관관계가 있는 것을 의미할 수 있다.
데이터베이스 생성부(140)는 바이오 개체들로부터 분류된 결과 팩터들을 복수의 카테고리로 분류할 수 있다. 예컨대, 결과 팩터들 각각을 유전자 명칭, 신호 경로 및 질병 중 어느 하나의 카테고리로 분류할 수 있다.
데이터베이스 생성부(140)는 결과 팩터들 각각의 카테고리 별로 데이터베이스를 별도로 생성할 수 있다. 예컨대, 데이터베이스 생성부(140)는 동일한 카테고리에 속하는 결과 팩터들을 그룹화하여 저장할 수 있다.
예컨대, 도 5에 도시된 바와 같이, 데이터베이스 생성부(140)는 제1 내지 제3바이오 데이터베이스(BDB1~BDB3)을 생성할 수 있다. 제1바이오 데이터베이스(BDB1)은 유전자 명칭을 결과 팩터로 가지는 바이오 데이터베이스이고, 제2바이오 데이터베이스(BDB2)는 질병을 결과 팩터로 가지는 바이오 데이터베이스이며, 제3바이오 데이터베이스(BDB3)은 신호 경로를 결과 팩터로 가지는 바이오 데이터베이스이다.
제1바이오 데이터베이스(BDB1)을 참조하면, 원인 팩터로서 유전자 G1 내지 G3이 저장되어 있으며, 결과 팩터로서 유전자 G4 내지 G6 이 각각 원인 팩터와 매칭되어 저장되어 있다. 제2바이오 데이터베이스(BDB2)을 참조하면, 원인 팩터로서 유전자 G1 내지 G3이 저장되어 있으며, 결과 팩터로서 질병 D1 내지 D3이 각각 원인 팩터와 매칭되어 저장되어 있다. 제3바이오 데이터베이스(BDB3)을 참조하면, 원인 팩터로서 유전자 G1 내지 G3이 저장되어 있으며, 결과 팩터로서 신호 경로 P1 내지 P3이 각각 원인 팩터와 매칭되어 저장되어 있다.
한편, 본 발명의 바람직한 일실시예에 따른 바이오 정보 분석 장치 (100)에 따르면, 바이오 문헌(200)으로부터 자동으로 바이오 개체들을 식별하고, 식별된 바이오 개체들 사이의 관계를 식별하고, 관계들에 기초하여 바이오 개체들 각각을 원인 팩터 및 결과 팩터로 분류하고, 분류된 원인 팩터 및 결과 팩터를 이용하여 데이터베이스를 구축할 수 있는 효과가 있다.
또한, 본 발명의 바람직한 다른 일실시예에 따른 바이오 정보 분석 장치(100)에 따르면, 바이오 문헌(200)으로부터 자동으로 바이오 개체들을 식별하고, 식별된 바이오 개체들 사이의 관계를 식별하고, 관계들에 기초하여 바이오 개체들 각각 사이의 상관 스코어를 계산할 수 있는 효과가 있다.
도 4는 본 발명의 바람직한 일실시예에 따른 바이오 정보 분석 방법을 나타내는 흐름도이다. 도 4를 참조하여 설명되는 바이오 정보 분석 방법은 도 1을 참조하여 설명된 바이오 정보 분석 장치에 의해 수행될 수 있다.
도 1 내지 도 4를 참조하면, 바이오 정보 분석 장치(100)는 바이오 문헌을 수신할 수 있다(S110). 바이오 정보 분석 장치(100)는 바이오 문헌을 입력받고, 바이오 문헌으로부터 데이터를 추출할 수 있다.
바이오 정보 분석 장치(100)는 바이오 문헌으로부터 바이오 개체들을 식별할 수 있다(S120). 바이오 정보 분석 장치(100) 자연어 처리 방식에 따라 바이오 문헌으로부터 바이오 개체를 식별할 수 있다
바이오 정보 분석 장치(100)는 바이오 개체들 사이의 관계를 분석할 수 있다(S130). 바이오 정보 분석 장치(100)는 식별된 바이오 개체가 포함된 문장으로부터 바이오 개체들 사이를 연결하는 동사를 추출하고, 추출된 동사를 이용하여 바이오 개체들 사이의 관계를 분석할 수 있다.
실시예들에 따라, 바이오 정보 분석 장치(100)는 바이오 개체들 사이의 관계에 기초하여 바이오 개체들 사이의 상관 스코어를 계산할 수 있다.
바이오 정보 분석 장치(100)는 바이오 개체들을 원인 팩터 및 결과 팩터로 분류할 수 있다(S140). 바이오 정보 분석 장치(100)는 주어로서 취급되는 바이오 개체를 원인 팩터로 분류할 수 있고 목적어로서 취급되는 바이오 개체를 결과 팩터로 분류할 수 있다.
바이오 정보 분석 장치(100)는 바이오 개체들 및 바이오 개체들 사이의 관계를 이용하여 바이오 데이터베이스를 생성할 수 있다(S150). 바이오 정보 분석 장치(100)는 바이오 개체들 각각을 원인 팩터 필드 및 결과 팩터 필드 중 어느 하나의 필드에 저장할 수 있고, 또한, 바이오 개체들 각각 사이의 상관 스코어를 추가적으로 저장할 수 있다.
본 발명의 바람직한 일실시예에 따른 바이오 정보 분석 장치 (100)에 따르면, 바이오 문헌(200)으로부터 자동으로 바이오 개체들을 식별하고, 식별된 바이오 개체들 사이의 관계를 식별하고, 관계들에 기초하여 바이오 개체들 각각을 원인 팩터 및 결과 팩터로 분류하고, 분류된 원인 팩터, 결과 팩터 및 이들 사이의 상관 스코어를 이용하여 데이터베이스를 구축할 수 있는 효과가 있다.
본 발명의 바람직한 일실시예에 따른 방법들은 컴퓨터로 판독 가능한 저장 매체에 저장되어 프로세서에 의해 실행될 수 있는 명령어들로 구현될 수 있고, 상기 명령어들은 컴퓨터 프로그램에 포함되어 전자통신망 상에서 배포될 수 있다.
본 발명은 도면에 도시된 실시 예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시 예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 등록청구범위의 기술적 사상에 의해 정해져야 할 것이다.

Claims (10)

  1. 바이오 정보 분석 장치가 바이오 정보 분석을 수행하는 방법에 있어서,
    상기 장치가 바이오 문헌 데이터를 입력받는 단계;
    상기 장치가 바이오 문헌 데이터로부터 바이오 개체들을 식별하는 단계;
    상기 장치가 바이오 개체들 사이의 관계들을 분석하고, 분석 결과에 따라 상기 바이오 개체들 사이의 상관 스코어를 계산하는 단계;
    상기 장치가 바이오 개체들을 원인 팩터 및 결과 팩터 중 어느 하나로 분류하는 단계;및
    상기 장치가 원인 팩터, 상기 결과 팩터 및 상기 상관 스코어를 이용하여 바이오 데이터베이스를 생성하는 단계를 포함하고,
    상기 상관 스코어를 계산하는 단계는,
    상기 장치가 상기 바이오 문헌 데이터로부터 상기 바이오 개체들 사이의 동사를 식별하는 단계;
    상기 장치가 상기 동사의 의미에 기초하여 상관 스코어를 결정하는 단계;
    상기 장치가 상기 바이오 문헌 데이터의 특성에 기초하여 상기 상관 스코어에 대한 가중치를 계산하는 단계;및
    상기 장치가 상기 가중치를 상기 상관 스코어에 적용하는 단계를 포함하고,
    상기 상관 스코어를 결정하는 단계는,
    상기 장치가 상기 동사와 연관된 부사를 식별하는 단계;
    상기 장치가 상기 부사에 기초하여 상기 상관 스코어에 대한 가중치를 계산하는 단계;
    상기 장치가 상기 가중치를 상기 상관 스코어에 적용하는 단계; 및
    상기 장치가 상기 동사에 해당하는 상관 스코어를 테이블로부터 리드함으로써 상기 상관 스코어를 계산하는 단계를 더 포함하고,
    상기 가중치를 계산하는 단계는,
    상기 장치가 상기 부사의 의미 및 방향에 기초하여 상기 가중치를 계산하는 단계를 포함하고,
    상기 바이오 개체들은 유전자명, 신호 경로 및 질병 중 적어도 하나에 관련되고,
    상기 바이오 문헌 데이터의 특성은 상기 바이오 문헌의 저자, 출처 및 영향력 중 적어도 하나를 포함하는 바이오 정보 분석 방법.
  2. 제1항에 있어서,
    상기 바이오 데이터베이스를 생성하는 단계는,
    상기 장치가 결과 팩터들을 복수의 카테고리로 분류하는 단계;및
    상기 장치가 상기 복수의 카테고리 중 어느 하나의 카테고리에 속하는 결과 팩터들을 상기 어느 하나의 카테고리에 대응하는 바이오 데이터베이스에 저장하는 단계;를 더 포함하는 바이오 정보 분석 방법.
  3. 제1항에 있어서,
    상기 원인 팩터는 유전자 명칭이고, 상기 결과 팩터는 유전자 명칭, 신호 경로 및 질병 중 적어도 하나인 바이오 정보 분석 방법.
  4. 삭제
  5. 삭제
  6. 삭제
  7. 삭제
  8. 삭제
  9. 삭제
  10. 삭제
KR1020190090620A 2019-07-26 2019-07-26 바이오 정보 분석 방법 및 이를 수행하기 위한 프로그램을 저장하는 저장 매체 KR102518895B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190090620A KR102518895B1 (ko) 2019-07-26 2019-07-26 바이오 정보 분석 방법 및 이를 수행하기 위한 프로그램을 저장하는 저장 매체

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190090620A KR102518895B1 (ko) 2019-07-26 2019-07-26 바이오 정보 분석 방법 및 이를 수행하기 위한 프로그램을 저장하는 저장 매체

Publications (2)

Publication Number Publication Date
KR20210012606A KR20210012606A (ko) 2021-02-03
KR102518895B1 true KR102518895B1 (ko) 2023-04-12

Family

ID=74572379

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190090620A KR102518895B1 (ko) 2019-07-26 2019-07-26 바이오 정보 분석 방법 및 이를 수행하기 위한 프로그램을 저장하는 저장 매체

Country Status (1)

Country Link
KR (1) KR102518895B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102592031B1 (ko) * 2022-11-28 2023-10-24 주식회사 씨엠엑스 적어도 하나의 건축물에 대한 우수등급랭크정보를 제공하기 위한 방법 및 이를 이용한 서버

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006503351A (ja) * 2002-09-20 2006-01-26 ボード オブ リージェンツ ユニバーシティ オブ テキサス システム 情報の発見と関係分析のためのコンピュータプログラム製品、システム及び方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050111056A (ko) 2004-05-20 2005-11-24 주식회사 이즈텍 생역학 작용 경로 추출 및 시뮬레이션 방법
KR102000248B1 (ko) * 2017-07-27 2019-07-15 가천대학교 산학협력단 의생명 문헌데이터 기반 약효능 도출 방법, 장치 및 컴퓨터-판독가능 매체

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006503351A (ja) * 2002-09-20 2006-01-26 ボード オブ リージェンツ ユニバーシティ オブ テキサス システム 情報の発見と関係分析のためのコンピュータプログラム製品、システム及び方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
F. Benamara 외, "Sentiment Analysis: Adjectives and Adverbs are better than Adjectives Alone", ICWSM’2007, 2007.*

Also Published As

Publication number Publication date
KR20210012606A (ko) 2021-02-03

Similar Documents

Publication Publication Date Title
Paetzold et al. Semeval 2016 task 11: Complex word identification
US9959776B1 (en) System and method for automated scoring of texual responses to picture-based items
KR102256240B1 (ko) 논팩토이드형 질의 응답 시스템 및 방법
KR101968102B1 (ko) 논팩토이드형 질의 응답 시스템 및 컴퓨터 프로그램
CN110337645B (zh) 可适配的处理组件
US11210468B2 (en) System and method for comparing plurality of documents
CN108563620A (zh) 文本自动写作方法和系统
US10503830B2 (en) Natural language processing with adaptable rules based on user inputs
US8321418B2 (en) Information processor, method of processing information, and program
US9443193B2 (en) Systems and methods for generating automated evaluation models
US10339214B2 (en) Structured term recognition
Millington et al. Analysis and classification of word co-occurrence networks from Alzheimer’s patients and controls
Valeriano et al. Detection of suicidal intent in Spanish language social networks using machine learning
Şenel et al. Measuring cross-lingual semantic similarity across European languages
KR102518895B1 (ko) 바이오 정보 분석 방법 및 이를 수행하기 위한 프로그램을 저장하는 저장 매체
CN113743090A (zh) 一种关键词提取方法及装置
CN113408296B (zh) 一种文本信息提取方法、装置及设备
Sikos et al. Authorship analysis of inspire magazine through stylometric and psychological features
Chun et al. Unsupervised event extraction from biomedical literature using co-occurrence information and basic patterns
Lai et al. An unsupervised approach to discover media frames
Ptaszynski et al. Detecting emotive sentences with pattern-based language modelling
CN112329478A (zh) 一种构建因果关系确定模型的方法、装置和设备
Ihsan et al. A Corpus-based Study of Reporting Verbs in Citation Texts Using Natural Language Processing
Tran et al. Modelling consequence relationships between two action, state or process Vietnamese sentences for improving the quality of new meaning-summarizing sentence
Hay et al. Filtering a Reference Corpus to Generalize Stylometric Representations.

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
X091 Application refused [patent]
AMND Amendment
X701 Decision to grant (after re-examination)