KR102233464B1

KR102233464B1 - 문서 데이터에서 질병 관련 인자들 간의 관계를 추출하는 방법 및 이를 이용하여 구축되는 시스템

Info

Publication number: KR102233464B1
Application number: KR1020200176766A
Authority: KR
Inventors: 백영상; 윤영석; 하예찬; 정찬웅; 구희정; 김태용
Original assignee: 주식회사 스탠다임; 에스케이 주식회사
Priority date: 2020-08-13
Filing date: 2020-12-16
Publication date: 2021-03-30
Also published as: US20230326609A1; EP4199003A4; WO2022035074A1; EP4199003A1

Abstract

본 발명은 문서 데이터에 포함된 질병 관련 인자, 그리고 질병 관련 인자들 간의 관계를 도출할 수 있는 방법에 관한 것이다.

Description

문서 데이터에서 질병 관련 인자들 간의 관계를 추출하는 방법 및 이를 이용하여 구축되는 시스템{Extraction method for relationships between disease-related factors from document data and built system using the same}

본 발명은 다수의 문서 데이터로부터 질병 관련 인자들을 추출하여, 인자들 간의 관계, 특히 특정 질병과 특정 유전자 또는 단백질의 관련성을 예측 및 도출할 수 있도록 하는 방법 및 시스템에 관한 것이다.

신약 개발 단계에서 질병과 유전자 또는 질병과 단백질 간의 관계를 밝혀내기 위해 다양하게 분포되어 있는 데이터들을 수집하고, 정리하는 과정이 수반된다. 현대에는 방대한 양의 지식 데이터가 비정형 텍스트의 형태로 배포되고 있으며, 이들을 실시간으로 파악하여 질병과 유전자/단백질 간의 관계를 파악하는 것은 많은 노력이 요구된다. 따라서, 연산 기능을 갖춘 장치(예를 들어, 컴퓨터)를 통해 문서 데이터에 포함된 비정형 텍스트로부터 자연어 처리 과정을 수행하도록 하는 기술이 개발되어 왔다.

종래 기술에 따를 경우, 하나의 문장 내에서의 개체들 간의 관계만을 추출하게 된다. 문서 데이터에 포함된 하나의 문장에 질병과 관련된 인자들이 모두 나열되는 경우도 있지만, 주로 다수의 문장에 질병과 관련된 인자들이 서술되어 있는 경우가 빈번하다. 종래 기술에서 개체들 간의 관계가 추출되고, 추출된 관계에 따라 개체들이 연결되더라도, 어디까지나 하나의 문장마다 독립적으로 자연어 처리를 수행하는 한계 때문에, 데이터의 정확성과 신뢰성이 낮은 문제가 있다.

한편, 국제공개특허 제2020-139861호는 지식 그래프에 관한 것으로, 이종의 데이터셋에서 성격이 다른 데이터(질병, 약물 등)를 정규 레이어(canonical layer)로 통합하고, 머신 러닝 모델을 이용하여 각각의 데이터 간의 관계를 예측하도록 구성된다. 하지만, 상기 특허는 정규 레이어로 통합하는 과정에서 데이터의 종류와 수를 감소시킬 수 있어서 검색 효율을 높이는 점에 주 목적이 있으며, 전체 텍스트(text)를 고려한 개체(entity) 및 개체들 간의 관계(relation)를 추출하는 내용을 전혀 제시하지 못한다.

일본공개특허 제2002-269114호는 지식 데이터베이스 구축 방법에 관한 것으로, 언어화 지식(text)으로부터 미리 색인 사전에 기재되어 있는 개체(entity)를 추출하고, 복수의 지식에 포함된 개체의 관계값을 정량적으로 표현하여, 그래프를 생성하는 내용을 제시한다. 그러나, 상기 방법은 색인 사전에 미리 기재되어 있는 개체들만을 추출할 수 있을 뿐, 색인 사전에 기재되어 있지 않은 개체들은 추출할 수 없어서, 기존 데이터의 내용을 뛰어 넘어 새로운 데이터를 생성하는 것에 한계가 존재한다.

이에, 본 발명자들은 인공지능(Artificial Intelligence) 딥러닝(deep learning) 기술을 이용하여, 다수의 문서 데이터들에서 전체 텍스트 내용의 전후 맥락, 단어 자체의 형태 등을 고려하여 개체, 그리고 개체들 간의 관계를 도출할 수 있으며, 추출된 개체 및 관계에 따른 개체들의 관련성이 반영된 데이터를 그래프 형태로서 출력할 수 있는 시스템을 발명하기에 이르렀다.

국제공개특허문헌 제2020-139861호(2020.07.02) 일본공개특허문헌 제2002-269114호(2002.09.20)

상기한 과제를 해결하기 위해 본 발명은 다수의 문서 데이터로부터 질병, 유전자 및 단백질과 관련된 용어, 그리고 이들 간의 관계를 서술하는 용어를 추출하여 각 개체간의 연결관계들이 포함된 그래프 형태의 통합 데이터를 생성함으로써, 특정 개체와 관련성 있는 개체들을 직관적으로 확인 가능한 방법 및 시스템을 제공하는 것에 그 목적이 있다.

또한, 본 발명은 문서 데이터에 포함된 복수의 문장의 맥락 및 의미를 고려하여 개체들 간 관계를 도출하기 때문에, 구축되는 시스템의 정확성과 신뢰성이 높은 방법 및 시스템을 제공하는 것에 그 목적이 있다.

또한, 본 발명은 개체들과, 개체들간의 관계가 그래프 형태로 출력됨으로써, 개체들간의 관계를 직관적으로 확인할 수 있는 방법 및 시스템을 제공하는 것에 그 목적이 있다.

또한, 본 발명은 “관련성 없음”에 해당하는 연결관계를 삭제함으로써, 데이터가 방대해지거나 중요도가 낮은 데이터가 추출될 수 있는 문제가 해소되는 방법 및 시스템을 제공하는 것에 그 목적이 있다.

또한, 본 발명은 개체 간의 관계를 그 특성에 따라 유형화함으로써, 특정 개체와 특정 유형의 관계로 이어진 개체들을 별도로 확인하는 것이 가능한 방법 및 시스템을 제공하는 것에 그 목적이 있다.

또한, 본 발명은 문서 데이터로부터 개체를 추출하고 관계를 도출하는 과정에서 사전 학습된 신경망 모델을 이용하기 때문에, 기존 데이터의 범주를 넘어서 새로운 범주의 개체를 추출하고 관계를 도출하는 것이 가능한 방법 및 시스템을 제공하는 것에 그 목적이 있다.

본 발명의 목적들은 이상에서 언급한 목적들로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 명확하게 이해될 수 있을 것이다.

상기한 목적을 달성하기 위한 본 발명의 일 실시예는, 하나 이상의 문서 데이터로부터 질병(disease), 유전자(gene) 및 단백질(protein) 관련 용어를 추출하고, 각 용어 간의 관계(relation)를 추출하는 방법으로서, (a) 개체 인식(entity recognition) 모듈(120)이 기설정된 방법에 따라 상기 하나 이상의 문서 데이터에 포함된 질병 관련 용어를 제1 개체로 추출하고, 유전자 관련 용어 또는 단백질 관련 용어를 제2 개체로 추출하고, 상기 하나 이상의 문서 데이터에 포함된 변형(variation), 분자 생리 활성(molecular physiological activity), 상호작용(interaction), 경로(pathway), 세포 생리 활성(cell physiological activity), 조절(regulation), 양성 조절(positive regulation) 및 음성 조절(negative regulation) 관련 용어 중 하나 이상을 각각 제3 개체로 추출하는 단계, (b) 관계 도출(relation extraction) 모듈(130)이 상기 (a) 단계에서 추출된 제1 개체 내지 제3 개체들간의 관계를 도출하여 도출된 관계에 따라 상기 제1 개체 내지 제3 개체를 연결하는 단계, (c) 관련성 판단 모듈(140)이 상기 제1 개체와 상기 제2 개체가 상기 (b) 단계에서 서로 연결되는지 여부에 기초하여, 상기 제1 개체와 상기 제2 개체 간의 관련성 여부를 판단하는 단계 및 (d) 통합 모듈(170)이 상기 하나 이상의 문서 데이터 각각에 대해 상기 (c) 단계에서 판단된 상기 제1 개체와 상기 제2 개체 간의 관련성 여부를 통합하여 통합 데이터를 생성하는 단계를 포함하는, 문서 데이터에서 질병 관련 인자들 간의 관계를 추출하는 방법을 제공한다.

일 실시예에 있어서, 상기 (a) 단계 이전, 입력 모듈(I)을 통해 텍스트(text) 또는 텍스트를 포함하는 문서 데이터가 질의되거나, 임의의 키워드가 질의되는 단계를 더 포함하고, 상기 (a) 단계는, 개체 인식 모듈(120)이 상기 텍스트에 포함된 제1 개체 내지 제3 개체를 추출하거나, 상기 질의된 키워드를 포함하는 문서 데이터를 수집하여 수집된 문서 데이터로부터 제1 개체 내지 제3 개체를 추출하는 단계를 더 포함할 수 있다.

일 실시예에 있어서, 상기 (d) 단계 이후, (e) 출력 모듈(O)을 통해 상기 통합 데이터가 그래프 형태로 출력되되, 관련성 있다고 판단된 제1 개체와 제2 개체 간의 관계만이 표현된 통합 데이터가 그래프 형태로 출력되거나, 관련성 있다고 판단된 제1 개체와 제2 개체 간의 관계에 포함된 제1 개체 내지 제3 개체가 함께 출력되는 단계를 더 포함할 수 있다.

일 실시예에 있어서, 상기 (b) 단계는, 상기 관계 도출 모듈(130)이 상기 개체들 간의 관계를 개체들의 상태를 나타내는 제1 관계 또는 개체들 간의 인과관계를 나타내는 제2 관계로 도출하는 단계를 더 포함할 수 있다.

일 실시예에 있어서, 문서 데이터에 포함된 하나 이상의 문장에 대해 상기 (a) 단계와 상기 (b) 단계가 수행될 수 있으며, 상기 (b) 단계는, 관계 도출 모듈(130)이, 적어도 2개 이상의 문장이 제1 개체 내지 제3 개체를 포함하는 경우, 상기 관계 도출 모듈(130)이 상기 제1 개체 내지 제3 개체 간의 관계를 도출함으로써 상기 제1 개체 내지 제3 개체를 서로 연결하는 단계를 더 포함할 수 있다.

일 실시예에 있어서, ID 부여 모듈(160)이 상기 (a) 단계에서 추출된 제1 개체와 제2 개체들 각각에 고유의 ID를 부여하되, 상기 ID 부여 모듈(160)이 임의의 용어의 동의어(synonym) 및 축약어(abbreviation)를 상기 임의의 용어와 동일한 용어로 판단하여, 상기 동의어 및 상기 축약어에도 상기 임의의 용어와 동일한 ID를 부여하는 단계를 포함할 수 있다.

일 실시예에 있어서, 임의의 용어에 2개 이상의 ID가 부여되는 경우, 상기 ID 부여 모듈(160)이 상기 2개 이상의 ID 중 축약어에 매칭되는 ID가 아닌 풀 네임(full name)에 매칭되는 ID를 상기 임의의 용어의 ID로 부여하는 단계를 더 포함할 수 있다.

일 실시예에 있어서, 상기 관계 도출 모듈(130)에 의해 도출된 개체들 간의 관계가 “관련성 없음”을 포함하는 경우, 관계 삭제 모듈(150)이 상기 “관련성 없음”에 매칭되는 관계를 삭제하는 단계를 더 포함할 수 있다.

일 실시예에 있어서, 상기 (b) 단계에서, 문서 데이터에서 상기 관계 도출 모듈(130)에 의해 복수의 제1 개체가 복수의 제2 개체와 서로 각각 연결된 경우, 상기 관계 도출 모듈(130)이 상기 복수의 제1 개체 중 어느 하나의 제1 개체는 상기 복수의 제2 개체 중 어느 하나의 제2 개체와만 연결되도록 하되, 상기 복수의 제1 개체 중 다른 하나의 제1 개체는 상기 어느 하나의 제2 개체와는 다른 하나의 제2 개체와만 연결되도록 하는 단계를 더 포함할 수 있다.

일 실시예에 있어서, 상기 개체 인식 모듈(120)에 의해 제1 개체 및 제2 개체로 추출되었으나, 추출된 개체가 기설정된 기각 대상 개체 범주에 포함된 경우, 추출된 해당 개체가 삭제되는 단계를 더 포함할 수 있다.

일 실시예에 있어서, 상기 (d) 단계 이후, 연결 유형 분류 모듈(170)이, 상기 통합 데이터에 포함된 제1 개체와 제2 개체 간의 관계를 그 특성에 따라 서로 다른 유형으로 분류하는 단계를 더 포함할 수 있다.

일 실시예에 있어서, 상기 (a) 단계 이전, (a0) 학습 모듈(L)에 의해, 기설정된 구조를 갖는 신경망(Neural Network) 모델이 질의된 텍스트 또는 문서 데이터로부터 제1 개체 내지 제3 개체를 추출하고, 제1 개체 내지 제3 개체 간의 관계를 도출하도록 사전 학습되는 단계를 더 포함할 수 있다.

일 실시예에 있어서, 상기 (a0) 단계는, 학습 모듈(L)에 의해, 상기 신경망 모델이 질의된 텍스트 또는 문서 데이터로부터 제1 개체 내지 제3 개체를 추출하도록 사전 학습되는 단계와, 제1 개체 내지 제3 개체 간의 관계를 도출하도록 사전 학습되는 단계가 연속적으로(sequentially) 이루어지는 단계를 포함할 수 있다.

일 실시예에 있어서, 상기 (a0) 단계는, 학습 모듈(L)에 의해, 상기 신경망 모델이 질의된 텍스트 또는 문서 데이터로부터 제1 개체 내지 제3 개체를 추출하도록 사전 학습되는 단계와, 제1 개체 내지 제3 개체 간의 관계를 도출하도록 사전 학습되는 단계가 동시에(simultaneously) 이루어지는 단계를 포함할 수 있다.

일 실시예에 있어서, 상기 (a) 단계는, 상기 개체 인식 모듈(120)이 상기 (a0) 단계에서 사전 학습된 신경망 모델을 이용하여 상기 문서 데이터로부터 제1 개체 내지 제3 개체를 추출하는 단계를 더 포함할 수 있다.

일 실시예에 있어서, 상기 (b) 단계는, 상기 관계 도출 모듈(130)이 상기 (a0) 단계에서 사전 학습된 신경망 모델을 이용하여 상기 문서 데이터로부터 제1 개체 내지 제3 개체 간의 관계를 도출하는 단계를 더 포함할 수 있다.

일 실시예에 있어서, 상기 (d) 단계는, (d1) 상기 통합 모듈(170)이, 하나의 문서 데이터로부터 추출된 제1 개체 내지 제3 개체들이 도출된 관계에 따라 서로 연결된 데이터인 단위 데이터를 생성하는 단계 및 (d2) 상기 통합 모듈(170)이 각각의 단위 데이터를 통합하여 통합 데이터를 생성하는 단계로서, 동일한 ID가 부여된 제1 개체 및 제2 개체들과, 이에 연결된 제1 개체 및 제2 개체들을 통합함으로써 상기 통합 데이터를 생성하는 단계를 포함할 수 있다.

또한, 본 발명은 전술한 방법을 사용하여 구축된, 시스템을 제공한다.

또한, 본 발명은 전술한 방법을 실행하도록 컴퓨터 판독 가능한 기록 매체에 저장된, 프로그램을 제공한다.

본 발명에 따르면, 다수의 문서 데이터로부터 질병, 유전자 및 단백질과 관련된 용어, 그리고 이들 간의 관계를 서술하는 용어를 추출하여 각 개체간의 관계들이 포함된 그래프 형태의 통합 데이터를 생성함으로써, 특정 개체와 관련성 있는 개체들을 직관적으로 확인 가능하다.

또한, 본 발명은 문서 데이터에 포함된 복수의 문장의 맥락 및 의미를 고려하여 개체들 간 관계를 도출하기 때문에, 구축되는 시스템의 정확성 및 신뢰성이 높다.

또한, 본 발명은 개체들과, 개체들간의 관계가 그래프 형태로 출력됨으로써, 개체들간의 관계를 직관적으로 확인 가능하다.

또한, 본 발명은 “관련성 없음”에 해당하는 연결관계를 삭제함으로써, 데이터가 방대해지거나 중요도가 낮은 데이터가 추출될 수 있는 문제가 해소된다.

또한, 본 발명은 개체 간의 관계를 그 특성에 따라 유형화함으로써, 특정 개체와 특정 유형의 관계로 이어진 개체들을 별도로 확인하는 것이 가능하다.

또한, 본 발명은 문서 데이터로부터 개체를 추출하고 관계를 도출하는 과정에서 사전 학습된 신경망 모델을 이용하기 때문에, 기존 데이터의 범주를 넘어서 새로운 범주의 개체를 추출하고 관계를 도출하는 것이 가능하다.

도 1은 본 발명의 실시예에 따라 구축되는 시스템을 설명하기 위한 블록도이다.
도 2는 종래 기술에 따라, 문서 데이터로부터 개체들을 추출하고, 개체들 간의 관계를 도출하는 것을 설명하기 위한 도면이다.
도 3은 본 발명의 실시예에 따라, 문서 데이터로부터 개체들을 추출하고, 개체들 간의 관계를 도출하는 것을 설명하기 위한 도면이다.
도 4는 본 발명의 실시예에 따라, 도 3과 다른 문서 데이터에서 개체들이 추출된 모습을 설명하기 위한 도면이다.
도 5는 도 4에서 추출된 개체들의 관계를 도출하여, 도출된 관계에 따라 개체들이 서로 관계를 가지면서 연결된 모습을 설명하기 위한 도면이다.
도 6은 본 발명의 실시예에 따라, 도 3의 문서 데이터로부터 도출된 관계를 가지면서 개체들이 서로 연결된 모습의 양태들을 설명하기 위한 도면이다. 구체적으로 도 6-A는 하나의 텍스트 또는 문서 데이터로부터 획득될 수 있는 그래프 형태의 데이터를 도시하며, 도 6-B는 도 6-A에서의 제1 개체와 제2 개체의 연결 여부에 따라 제1 개체와 제2 개체의 관련성을 나타낸 그래프 형태의 데이터를 도시하고, 도 6-C는 도 6-B에서 중복되는 개체들을 삭제하여 나타낸 그래프 형태의 데이터를 도시한다.
도 7은 본 발명의 실시예에 따른 방법을 설명하기 위한 순서도이다.

이하, 첨부된 도면을 참조하여 본 발명을 상세히 설명한다.

이하에서, 용어 "문서 데이터"는 텍스트(text)로 이루어진 데이터를 의미하는 것으로, 상기 텍스트는 영문, 중문, 일문, 국문 등 현존하는 모든 언어로 구성될 수 있다.

도 1을 참조하면, 본 발명에 따른 시스템(100)은 통신 모듈(110), 개체 인식 모듈(120), 관계 도출 모듈(130), 관련성 판단 모듈(140), 관계 삭제 모듈(150), ID 부여 모듈(160), 통합 모듈(170), 연결 유형 분류 모듈(180), 저장 모듈(190), 입력 모듈(I), 출력 모듈(O) 및 학습 모듈(L)을 포함한다.

통신 모듈(110)은 본 발명에 따른 시스템(100)이 외부 시스템과 통신 가능하도록 구성된다. 여기서, 시스템(100)과 외부 시스템은 통신망을 통해 무선 통신 연결될 수 있으나, 유선 통신을 통해 외부 시스템과 통신하는 것도 가능하다.

본 발명에 따른 시스템(100)은 데이터베이스(D)와 상호 통신을 수행할 수 있으며, 데이터베이스(D)는 공개된 데이터베이스일 수 있으나, 비공개 데이터일 수도 있으며, 논문 데이터베이스, 의학 정보 데이터베이스, 약학 정보 데이터베이스 및 검색 포털 데이터베이스 등을 포함하는 개념이다.

개체 인식 모듈(120)은 입력 모듈(I)을 통해 질의되는 텍스트, 텍스트를 포함하는 문서 데이터에 포함된 텍스트(text)로부터 기설정된 방법에 따라 개체를 추출하도록 구성된다. 여기에서, 개체 추출 대상이 되는 문서 데이터는 예를 들어 논문일 수 있고, 구체적으로 논문의 초록(Abstract)일 수 있으나, 특별히 이에 제한되는 것은 아니다.

입력 모듈(I)을 통해 임의의 키워드가 입력되는 경우(즉, 시스템에 구비된 검색창에 특정 키워드가 입력되는 경우), 데이터베이스(D)에 저장되어 있으면서 입력된 키워드를 포함하는 문서 데이터가 검색될 수 있으며, 검색된 문서 데이터를 수집하여 이로부터 개체 및 개체들간의 관계를 도출하는 것이 가능하다. 보다 구체적으로는, 문서 데이터는 논문 데이터일 수 있으며, 논문 데이터 각각에 부여된 고유의 ID를 확보하고, 확보된 ID들을 개체 인식 모듈(120)에 질의하는 방식으로 논문 데이터들에 포함된 정보를 추출하는 것이 가능하다.

개체 인식 모듈(120)에 의한 개체 추출은 기설정된 구조를 갖는 신경망 모델을 이용하여 수행될 수 있으며, 이에 대한 자세한 설명은 후술한다.

개체 인식 모듈(120)은 문서 데이터에 포함된 질병(disease) 관련 용어를 제1 개체로, 유전자(gene) 관련 용어와 단백질(protein) 관련 용어를 제2 개체로 각각 인식하여 추출하도록 구성된다.

여기에서, 질병 관련 용어는 예를 들어, Alzheimer's disease, frontotemporal dementia, frontotemporal lobar degeneration, congenital diarrhea, asthma, male infertility, cancer, atopic dermatitis, early-onset AF, chronic liver disease일 수 있으며, 특정 질병을 지칭하는 용어이면 어느 것이든 포함될 수 있다.

또한, 유전자 관련 용어는 예를 들어, p53, PCSK9, FLG, CgPDR1, STAT1, KMT2A, LRRK2, SHP-2, TRPV1, NR2F2일 수 있으며, 특정 유전자를 지칭하는 용어이면 어느 것이든 포함될 수 있다.

또한, 단백질 관련 용어는 예를 들어, APC protein, G protein-coupled receptors, LDL receptor, p53 protein, KRIT1 protein, H4 histones, CES1 protein, G protein, heterotrimeric Gs protein, apolipoprotein C-Ⅲ, lipoprotein lipase, methyltransferase enzyme, phosphatase, zeaxanthin epoxidase, luciferase, GlcNAc-1-phosphotransferase, methyltransferases MLL1, acetyltransferase MOZ, tyrosin kinase Axl, LasA protease 일 수 있으며, 특정 단백질을 지칭하는 용어이면 어느 것이든 포함될 수 있다.

또한, 개체 인식 모듈(120)은 문서 데이터에 포함된 변형(variation), 분자 생리 활성(molecular physiological activity), 상호작용(interaction), 경로(pathway), 세포 생리 활성(cell physiological activity), 조절(regulation), 양성 조절(positive regulation) 및 음성 조절(negative regulation) 관련 용어를 각각 제3 개체로 추출하도록 구성된다.

이에 제한되지 않고, 제3 개체는 제1 개체와 제2 개체들 간의 관계를 서술하는 용어를 모두 포함하는 개념일 수 있다.

여기에서, 변형 관련 용어는 예를 들어, mutation, mutant, variants, E76K, mutp53, deletion, loss, frameshift, haploinsufficiency, GOF p53일 수 있으며, 변형을 의미하는 용어 또는 변형이 이루어진 특정 물질을 지칭하는 용어이면 어느 것이든 포함될 수 있다.

또한, 분자 생리 활성 관련 용어는 예를 들어, expression, activity, function, signaling, phosphorylation, acetylation, bioactivation of cyclophosphamide, LPL protein level, triglyceride catabolism, sustained exocytosis in MB neurons일 수 있으며, 분자 생리 활성을 의미하는 용어 또는 특정 물질의 분자 생리 활성을 지칭하는 용어이면 어느 것이든 포함될 수 있다.

또한, 상호작용 관련 용어는 예를 들어, binding, interaction, agonist binding, DNA-binding, functional interaction, combined, binding capacity of APRIL ligand to B cells일 수 있으며, 양 개체간의 상호작용을 의미하는 용어이면 어느 것이든 포함될 수 있다.

또한, 경로 관련 용어는 예를 들어, EGFR/PI3K/AKT pathway, epidermal growth factor receptor (EGFR)/phosphatidylinositol 3-kinase (PI3K)/AKT pathway, ERK pathway, IL-3-induced Erk and phosphatidylinositol 3-kinase (PI3K) pathway, PI3K pathway, JNK Signaling, cAMP pathway, Wnt pathway, mitogen-activated protein kinase (MAPK) pathway, yeast-based signaling pathway일 수 있으며, 특정 질병의 발현에 관련되는 경로를 지칭하는 용어이면 어느 것이든 포함될 수 있다.

또한, 세포 생리 활성 관련 용어는 tumorigenesis, autophagy, cell migration, proliferation, tumor malignancy, developmental defects, tumor development, apotosis, migration, distant metastasis일 수 있으며, 세포 생리 활성을 의미하는 용어 또는 특정 세포의 생리 활성을 지칭하는 용어이면 어느 것이든 포함될 수 있다.

또한, 조절 관련 용어는 cause, associate, lead to, affect, alter, influence, induce, contribute, modulate, change일 수 있으며, 어느 하나의 개체가 다른 개체에 영향을 미치는 용어를 지칭하는 것이면 어느 것이든 포함될 수 있다.

또한, 양성 조절 관련 용어는 increase, enhance, elevate, higher, promote, activation일 수 있으며, 특정 물질의 발현이 촉진되도록 하는 의미를 갖는 용어를 지칭하는 것이면 어느 것이든 포함될 수 있다.

또한, 음성 조절 관련 용어는 reduce, decrease, impair, diminish, prevent, absence, disrupt, lack일 수 있으며, 특정 물질의 발현이 억제되도록 하는 의미를 갖는 용어를 지칭하는 것이면 어느 것이든 포함될 수 있다.

관계 도출 모듈(130)은 개체 인식 모듈(120)에 의해 추출된 제1 개체 내지 제3 개체들간의 관계를 도출하고, 도출된 관계에 따라 제1 개체 내지 제3 개체를 연결하도록 구성된다.

관계 도출 모듈(130)에 의해 제1 개체 내지 제3 개체가 서로 연결되었다는 것은, 연결된 개체들 간에 어떤 의미로든 서로 관련성이 있다는 것을 의미한다.

본 발명에 따른 관계 도출 모듈(130)은 하나의 문서 데이터에 포함된 모든 텍스트(문장)를 고려하여 제1 개체 내지 제3 개체들 간의 관계를 도출하게 된다.

본 발명에 따른 관계 도출 모듈(130)은 개체 인식 모듈(120)에 의해 추출되지 않은 용어(단어)들의 맥락(result in, cause 등의 단어)이나 단어들이 서로 연결된 형태에 따라, 제1 개체 내지 제3 개체들 간의 관계를 도출하는 것이 가능하다.

도 2 및 3을 참조하여, 이를 구체적으로 설명한다.

종래 기술의 경우, 하나의 문서 데이터에 다수의 문장이 포함될 경우, 하나의 문장만을 고려한 개체들 간의 관계를 도출한다.

예를 들어, 도 2의 Sentence 1에서는 NFG, BDNF, GDNF라는 유전자 관련 용어만이 추출되고, Sentence 2에서는 childhood brain neoplasms, low-grade astrocytomas, ependymomas의 질병 관련 용어만이 추출되며, Sentence 3에서는 NGF라는 유전자 관련 용어만이 추출될 수 있다. 종래 기술에 따를 경우, Sentence 1 내지 3에 이르는 다수의 문장에서 각 개체 간의 관계를 도출하는 것이 아닌, 어느 하나의 Sentence 내에서만의 각 개체 간의 관계를 도출하므로, 도 2에 도시된 문서 데이터로부터는 어떠한 관계도 도출하지 못한다.

반면, 본 발명에 따른 관계 도출 모듈(130)은 하나의 문서 데이터에 포함된 모든 문장을 고려하여 관계를 도출하게 된다.

동일한 문서 데이터에서, 관계 도출 모듈(130)은 Sentence 1 내지 3을 모두 고려하여, NGF가 ependymomas, childhood brain neoplasms, low-grade astrocytomas와 expression 및 decrease라는 관계에 있음을 도출하게 된다. 이렇듯, 본 발명에서는 문서 데이터 모두에 포함된 문장의 맥락 및 의미를 고려하여 관계를 도출함에 따라 구축되는 시스템의 정확성 및 신뢰성이 높다.

다른 예에서 "A 유전자의 발현이 감소하는 경우 B 질병의 증세가 완화된다"라는 문장과, "A 유전자는 C 유전자의 기능을 강화시킨다"라는 문장이 포함된 텍스트를 가정하여 설명한다.

종래 기술의 경우, 하나의 문장만을 고려하기 때문에 A-B 간의 관계, A-C 간의 관계는 도출(즉, A-발현-감소-B-완화로 이어지는 관계와, A-강화-C로 이어지는 관계)해낼 수 있으나, B-C로 이어지는 관계를 도출하기는 어렵다.

반면, 본 발명의 경우, 전체 텍스트의 맥락까지 고려하기 때문에 C-강화-A-발현-감소-B로 이어지는 관계를 도출해낼 수 있어서, B-C 간의 관계를 도출해낼 수 있다.

한편, 도 3에 도시된 바와 같이, 문서 데이터에서 제1 개체 내지 제3 개체는 서로 다른 색으로 라벨링되어 표시될 수 있다. 한편, 제1 개체 내지 제3 개체와 이들 간의 관계를 표현하는 그래프에서, 제1 개체 및 제2 개체는, 제3 개체보다 큰 도형(예를 들어, 원)으로 표현될 수 있다. 제1 개체 및 제2 개체는 각각 질병, 유전자 및 단백질에 해당하며, 이들이 다른 개체들보다 더 큰 도형으로 나타남에 따라 그래프 상에서 질병, 유전자, 단백질이 어디에 위치하고 이들이 서로 관련성 있는지 손쉽게 파악 가능하다는 장점을 갖는다.

관계 도출 모듈(130)에 의해 도출되는 관계는 개체의 상태를 나타내는 제1 관계 및 개체들 간의 인과관계를 나타내는 제2 관계를 포함한다.

예를 들어, 문서 데이터에 "A 유전자는 B 돌연변이를 갖는다", "A 질병에서 B 조절이 일어난다"라는 텍스트가 포함되는 경우, A 유전자는 B 돌연변이를 갖는 상태를 의미하고, A 질병에서 B 조절이 일어난다라는 상태를 의미하므로, 관계 도출 모듈(130)은 이러한 개체의 "상태"를 나타내는 관계를 제1 관계로 도출하게 된다.

한편, 문서 데이터에 제1 개체와 제2 개체의 관계를 명확히 서술하는 문장이포함되지 않아도, 관계 도출 모듈(130)은 제1 개체와 제2 개체 간의 관계를 도출하는 것이 가능하다.

예를 들어, 문서 데이터에 "PNPLA3 I148M polymorphism"와 같은 텍스트에서도, 이로부터 PNPLA3 유전자에 I148M 돌연변이가 있다라는 관계를 도출하는 것이 가능하다.

또한, 문서 데이터에 "A 돌연변이에 의해 B 기능 상실이 발생된다", "A 유전자의 발현 저하가 이루어지면 B 생물학적 활성이 높아진다"라는 텍스트가 포함되는 경우, A 돌연변이 발생에 의해 B 기능 상실이 발생한다는 것을 의미하고, A 유전자의 발현 저하로 인해 B 생물학적 활성이 높아진다는 것을 의미하므로, 관계 도출 모듈(130)은 이러한 개체들 간의 "인과관계"를 나타내는 관계를 제2 관계로 도출하게 된다.

관련성 판단 모듈(140)은 관계 도출 모듈(130)에 의해 도출된 관계를 이용하여 제1 개체와 제2 개체 간의 관련성 여부를 판단하도록 구성된다.

즉, 관련성 판단 모듈(140)은 제1 개체와 제2 개체가 관계 도출 모듈(130)에 의해 도출된 관계를 통해 서로 연결되어 있는지 여부를 통해, 해당 개체들이 관련성 있는지 여부를 판단하게 된다.

도 3을 예로 들면, NGF라는 제2 개체는 decrease라는 제3 개체를 통해 ependymomas라는 제1 개체와 연결되어 있으며, 따라서 관련성 판단 모듈(140)은 NGF와 ependymomas가 서로 관련성 있음으로 판단할 수 있다. 또한, NGF는 expression이라는 제3 개체를 통해 childhood brain neoplasms라는 제1 개체와 연결되어 있으며, NGF는 childhood brain neoplasms과 서로 관련성 있음으로 판단할 수 있다.

이렇듯, 관련성 판단 모듈(140)은 문서 데이터에서 추출된 제1 개체와 제2 개체들이 도출된 관계를 통해 서로 연결되어 있는지 여부에 따라, 제1 개체와 제2 개체간의 관련성 여부를 판단하게 된다.

관계 삭제 모듈(150)은 관계 도출 모듈(130)에 의해 도출된 관계가 "관련성 없음"(not associated) 관계를 포함할 경우, "관련성 없음" 관계에 해당하는 관계를 삭제하도록 구성된다.

문서 데이터에 "A 유전자는 B 질병과 관련이 없다"라는 텍스트가 포함되고, 개체 인식 모듈이 "A"라는 제2 개체와 "B"라는 제1 개체를 추출하고, "관련(associated)"이라는 제3 개체를 추출한 경우를 가정하여 보다 구체적으로 설명한다.

이 경우, "A", "B", "관련(associated)"이라는 개체들이 연결관계를 통해 서로 연결될 수 있는데, "관련성 없음" 관계로 연결되어 있는 경우까지의 관계를 추출하게 된다면, 여기에 이어 "A"와 도출된 관계에 따라 서로 연결되는 "C", "D"라는 개체 역시 "B"와 서로 관련이 없다는 관계가 도출될 위험도 있다.

따라서, 관계 도출 모듈(130)에 의해 도출된 관계가 "관련성 없음"일 경우, 예를 들어 "관련"이라는 개체를 추출하는 과정에서 "관련"과 근접한 위치에 "없음, not"등의 용어를 감지하는 경우 "관련성 없음" 관계로 "A"와 "B"가 연결되어 있는 것으로 보아, 관계 삭제 모듈(150)은 해당 "관련성 없음"에 해당하는 관계를 삭제함으로써, 데이터가 방대해지거나 중요도가 낮은(어떤 개체가 다른 개체와 관련성이 없다라는 것은 일반적으로 중요도가 낮은 것으로 판단될 가능성이 높음) 데이터가 추출될 수 있는 문제가 해소될 수 있다.

ID 부여 모듈(160)은 개체 인식 모듈(120)에 의해 추출된 제1 개체 및 제2 개체 각각에 고유의 ID를 부여하도록 구성된다.

즉, 본 발명에 따른 ID 부여 모듈(160)은 제1 개체 및 제2 개체의 범주에 해당하는 임의의 용어에 각각 고유의 ID를 부여하게 되는데, 상기 임의의 용어의 동의어(synonym) 및 축약어(abbreviation) 등 상기 임의의 용어와 동일하다고 판단될 수 있는 용어들에도 상기 임의의 용어와 동일한 ID를 부여하도록 구성된다.

한편, 개체 인식 모듈(120)에 의해 추출된 제1 개체 및 제2 개체 범주에 해당하는 임의의 용어에 2개 이상의 ID가 부여되는 경우가 있을 수 있다. 예를 들어, alpha-fetoprotein의 경우 AFP라는 축약어로도 지칭되며, alpha-fetoprotein과 AFP는 모두 174라는 ID가 부여될 수 있다.

AFP는 TRIM26이라는 유전자의 동의어에도 해당하는데, 즉 AFP는 TRIM26의 ID와 동일한 7726라는 ID가 부여될 수도 있다.

즉, AFP는 174 및 7726이라는 2개의 ID가 부여되는데, 이 경우 ID 부여 모듈(150)은 축약어에 매칭되는 ID(7726)가 아닌 AFP의 풀 네임(full name)에 매칭되는 ID를 AFP의 ID로 부여하게 된다.

ID 부여 모듈(160)에 의한 ID 부여가 완료되면, 각각의 문서 데이터로부터 도 3과 같은 그래프 형태의 단위 데이터가 획득될 수 있다.

일 예에서, 단위 데이터는 하나의 문서 데이터로부터 추출된 제1 개체 내지 제3 개체 간의 연결관계가 표현된 그래프 형태일 수 있으며, 다른 예에서는 제1 개체 및 제2 개체 간의 연결관계만이 표현된 그래프 형태일 수 있고, 또 다른 예에서는 동일 ID를 갖는 개체들을 하나로 통합하는 과정을 거친 후, 제1 개체 및 제2 개체 간의 연결관계가 표현된 그래프 형태일 수 있다(도 6 참조).

통합 모듈(170)은 상기 단위 데이터를 통합하여, 문서 데이터로부터 추출되는 모든 제1 개체 내지 제2 개체 간의 관련성 여부가 포함된 통합 데이터를 생성하도록 구성된다.

통합에 사용되는 단위 데이터의 크기가 작고, 간소화될수록 통합 모듈(170)에 의한 통합 과정이 정확하고 신속하게 이루어질 수 있다는 점을 고려하면, 도 6의 C 형태로 이루어진 단위 데이터를 이용하여 통합 데이터를 생성하는 것이 바람직하다.

통합 모듈(170) 역시, 각 단위 데이터에 포함되어 있으면서 동일 ID를 갖는 개체들을 하나로 통합하는 과정을 수행할 수 있으며, 이에 따라 다수의 문서 데이터 모두가 반영된 하나의 통합 그래프가 생성될 수 있다.

연결 유형 분류 모듈(180)은 통합 모듈(170)에 의해 생성된 통합 그래프를 이용하여 제1 개체 및 제2 개체들 간의 관계 특성에 따라 각 관계를 유형화하도록 구성된다.

예를 들어, "A 유전자"와 "B 질병"이 '변형'이라는 관계를 통해 서로 연결되어 있으면, 연결 유형 분류 모듈(180)은 A와 B의 관계를 "유전자 돌연변이"라는 제1 유형의 관계로 유형화한다.

또한, "A 유전자"와 "B 질병"이 '분자생리활성' 및 '음성조절'(또는 '양성조절')이라는 관계를 통해 서로 연결되어 있으면, 연결 유형 분류 모듈(180)은 A와 B의 관계를 "생리 활성 변화"라는 제2 유형의 관계로 유형화한다.

이에 제한되지 않고, 연결 유형 분류 모듈(180)은 제1 개체 및 제2 개체들 간의 관계를 그 특성에 따라 유형화할 수 있으며, 사용자 선택에 따라 "A"와 특정 유형으로 연결된 개체만을 확인하는 것도 가능하다.

저장 모듈(190)에는 제1 개체 및 제2 개체마다 각각 고유의 ID가 매핑(mapping)되어 저장되고, 기각 대상 개체에 해당하는 용어가 저장된다.

즉, ID 부여 모듈(160)은 개체 인식 모듈(120)에 의해 추출된 제1 개체 및 제2 개체들에 각각 고유의 ID를 부여하게 되는데, 저장 모듈(190)에 저장되어 있는 제1 개체 및 제2 개체마다 각각 매칭되는 ID를 부여하게 되는 것이다.

또한, 개체 인식 모듈(120)에 의해 추출된 제1 개체 및 제2 개체들이, 저장 모듈(190)에 저장되어 있는 기각 대상 개체에 해당하는 경우, 해당 개체는 삭제된다. 기각 대상 개체는 예를 들어, DNA, RNA, rDNA, mRNA 등 용어의 형태 상 제2 개체(유전자)의 축약어로 판단될 가능성이 높은 용어이나 제2 개체에는 해당되지 않은 용어일 수 있으며, 마찬가지로 제1 개체의 축약어로 판단될 가능성이 높은 용어이나 각각의 개체에는 해당되지 않은 용어가 이에 포함될 수 있다.

본 발명에 따른 개체 인식 모듈(120)에 의한 제1 개체 내지 제3 개체의 추출, 그리고 관계 도출 모듈(130)에 의한 관계 도출은 사전 학습된 신경망(Neural Network) 모델을 이용하여 수행될 수 있다.

상기 신경망 모델은 기설정된 구조를 가지며, 인코더(encoder)-디코더(decoder)로 이루어진다.

일 예에서, 인코더는 BERT(Bidirectional Encoder Representations from Transformers) 또는 GPT(Generative Pre-Training)와 같은 임의의 사전 학습된(Pre-training) 신경망 모델일 수 있으며, 디코더는 Feed-forward 신경망, Convolutional 신경망, Recurrent 신경망과 같은 모델일 수 있고, 레이어 정규화(layer normalization)와 드랍아웃(dropout)과 같은 정규화 기술이 적용될 수 있다.

또한, 본 발명에서의 학습 과정은 아래의 단계를 거쳐 수행될 수 있다.

먼저, 문서 데이터를 입력하는 단계가 선행되는데, 일 예에서 문서 데이터는 논문일 수 있으며, 구체적으로는 논문의 초록(abstract)이 입력된다. 입력되는 문서 데이터는 제1 개체 내지 제3 개체가 각각 레이블링(labeling)되어 있을 수 있다.

다음, 초록의 텍스트가 tokenize된다. 여기서, tokenize라는 것은 컴퓨터 내에서 텍스트의 의미를 파악하여 처리할 수 있도록 하는 과정을 의미하며, 텍스트가 의미를 가지는 최소 크기의 데이터로 분리되는 과정을 의미한다.

다음, tokenize의 결과 데이터가 사전 학습된 인코더에 입력되고, 인코더에서 출력되는 문맥 벡터(context vector)를 디코더에 입력하여 텍스트 내에서 제1 개체 내지 제3 개체의 개체 추출과, 제1 개체 내지 제3 개체 간의 관계 도출이 수행될 수 있도록 학습시킨다. 이 때, 개체 추출과 관계 도출이 순차적으로 수행되지 않고, 동시에 수행될 수 있도록 학습시킬 수 있다.

상기한 과정에 따라 신경망 모델의 학습이 완료될 수 있으며, 개체 인식 모듈(120)과 관계 도출 모듈(130)은 사전 학습된 신경망 모델을 이용하여 문서 데이터로부터 개체 추출과 관계 도출을 수행하도록 구성된다.

하지만, 본 발명에서는 전술한 신경망 모델에 제한되지 않고, 질의된 텍스트로부터 제1 개체 내지 제3 개체 추출, 그리고 관계를 도출할 수 있도록 사전 학습을 통해 구현될 수 있는 신경망 모델이면 어느 것이든 적용될 수 있다고 할 것이다.

종래 기술에 따를 경우, 추출의 대상이 되는 용어를 미리 색인 사전에 저장해놓은 후, 미리 저장된 용어만을 텍스트로부터 추출하게 된다. 이 경우, 색인 사전에 미리 저장되지 않은 용어가 텍스트에 포함되어 있다면, 이를 추출하지 못하고 결국에는 기존에 알려진 범위 내에서만 시스템 구축이 가능하다.

하지만, 본 발명의 경우 색인 사전에 저장된 용어를 추출하는 것이 아닌, 예를 들어, 신경망 모델이 텍스트의 어느 부분이 제1 개체 내지 제3 개체 중 어느 개체에 해당하는지 레이블링된 학습 데이터(training data)를 학습하기 때문에, 사전 학습되지 않은 용어에 대해서도 용어 자체의 형태나 전후 맥락 등을 고려하여 개체를 유추 및 추출하는 것이 가능하다. 따라서, 기존의 논문을 통해 알려진 범주뿐만 아니라, 새로운 범주에서의 개체 및 개체 간의 관계를 추출하는 것이 가능하다.

입력 모듈(I)은 입력 장치의 형태를 가질 수 있으며, 예를 들어 터치 패널, 키보드일 수 있으나, 사용자 명령을 입력받아 본 발명에 따른 시스템에 상기 명령을 전송할 수 있는 형태이면 특별히 제한되지는 않는다.

또한, 출력 모듈(O)은 출력 장치의 형태를 가지며, 예를 들어 모니터, 디스플레이 패널일 수 있으나, 본 발명에 따른 시스템의 연산 결과를 육안으로 확인할 수 있는 형태이면 특별히 제한되지는 않는다.

입력 모듈(I)를 통해 입력된 명령(예를 들어, 임의의 텍스트, 텍스트를 포함하는 문서 데이터, 임의의 키워드)이 질의될 수 있으며, 입력된 텍스트, 문서 데이터, 임의의 키워드를 포함하는 논문 데이터들에서 개체들을 추출하고, 추출된 개체들간의 연결관계를 도출하여 이에 기초한 개체들 간의 관련성이 판단되며, 판단된 개체들 간의 관련성 여부가 그래프 형태로서 출력 모듈(O)을 통해 출력될 수 있다.

본 발명에 따르면, 제1 개체와 제2 개체의 단순한 관계만이 도시된 그래프(도 6-C의 형태)가 출력될 수도 있으나, 도 5 및 6-A와 같이 제1 개체와 제2 개체가 관련성 있다고 판단된 근거(제1 개체와 제2 개체의 관계에 포함된 다른 개체들)가 함께 그래프 형태로 출력됨으로써, 관련성 여부를 판단하는 데 사용된 맥락을 직관적으로 확인하는 것도 가능하다.

본 발명에 따른 시스템은 상기한 정보 외에도 다양한 정보를 제공하는 것이 가능하다.

예를 들어, 특정 질병-유전자 쌍의 연결관계가 도출된 문서 데이터들이 어느 시점에 출판되었는지, 그리고 특정 질병-유전자 쌍의 연결관계가 도출된 문서 데이터의 빈도 수 등의 정보를 제공할 수 있다. 질병-유전자 쌍에만 한정되는 것이 아닌, 모든 개체-개체 쌍에 대한 연결관계에 대한 정보가 또한 제공될 수 있다.

문서 데이터는 일 예에서 논문일 수 있으며, 본 발명에 따른 시스템에서 특정 질병-유전자 쌍의 연결관계가 도출된 문서 데이터들의 출판 시점 정보가 제공됨으로써, 연구 트렌드의 확인이 가능하다(예를 들어, 어느 시점에 특정 질병-유전자 쌍의 관계를 서술하는 논문 데이터가 집중되어 출판되었다면, 해당 시점에서는 상기 질병-유전자 쌍에 대한 연구가 활발히 진행된 것으로 확인할 수 있음).

또한, 본 발명에 따른 시스템에서 질병-유전자 쌍의 연결관계가 도출된 문서 데이터의 빈도 수가 제공됨으로써, 중요도의 확인이 가능하다(예를 들어, 특정 질병-유전자 쌍의 연결관계가 도출된 문서 데이터의 개수가 다른 질병-유전자 쌍의 연결관계가 도출된 문서 데이터의 개수보다 월등히 많다면, 해당 질병-유전자 쌍이 보다 중요도가 높다고 판단할 수 있음).

이하에서는, 도 7을 참조하여 본 발명의 실시예에 따른 방법을 구체적으로 설명한다.

먼저, 시스템(100)은 학습 모듈(L)에 의해 기설정된 구조를 갖는 신경망 모델이, 문서 데이터로부터 제1 개체 내지 제3 개체를 추출하고 제1 개체 내지 제3 개체들간의 관계를 도출하도록 사전 학습시킨다(S71).

본 발명의 실시예에서는, 신경망 모델이 문서 데이터로부터 제1 개체 내지 제3 개체를 추출하도록 학습하는 단계와, 제1 개체 내지 제3 개체들 간의 관계를 도출하도록 학습하는 단계가 연속적으로(sequentially) 이루어질 수 있으며, 다른 실시예에서는 신경망 모델이 문서 데이터로부터 제1 개체 내지 제3 개체를 추출하도록 학습하는 단계와, 제1 개체 내지 제3 개체들 간의 관계를 도출하도록 학습하는 단계가 동시에(simultaneously) 이루어질 수 있다.

학습 데이터는 제1 개체 내지 제3 개체가 각각 레이블링된 문서 데이터일 수 있다. 사전 학습이 이루어짐에 따라, 시스템(100)의 개체 인식 모듈(120)과 관계 도출 모듈(130)은 상기 신경망 모델을 이용하여 다량의 비정형의 텍스트(질의된 임의의 텍스트, 문서 데이터 등)로부터 제1 개체 내지 제3 개체를 추출하고, 개체들 간 관계를 동시에 도출하여, 이로부터 질병과 유전자 또는 단백질 간의 연관성에 대한 정보를 종합적이고 효율적으로 추출하는 것이 가능하게 된다.

다음, 입력 모듈(I)을 통해 텍스트, 텍스트를 포함하는 문서 데이터 또는 임의의 키워드가 질의된다(S72).

다음, 개체 인식 모듈(120)은 상기 신경망 모델을 이용하여 텍스트, 문서 데이터, 임의의 키워드를 포함하는 논문에 포함된 텍스트 중 질병, 유전자 및 단백질 관련 용어인 제1 개체 및 제2 개체를 각각 추출하고, 문서 데이터에 포함된 텍스트 중 제1 개체 및 제2 개체 간의 관계를 설명하는 용어를 제3 개체로 각각 추출하게 된다(S73). 그리고, 관계 도출 모듈(130)은 다수의 문장을 고려하여 제1 개체 내지 제3 개체 간의 관계를 도출하고, 도출된 관계에 따라 제1 개체 내지 제3 개체를 서로 연결하게 된다(S74).

여기서, 개체 인식 모듈(120)에 의해 추출된 개체들이 저장 모듈(190)에 미리 저장되어 있는 기각 대상 용어에 해당하는 경우, 해당 개체는 삭제될 수 있다.

또한, 관계 삭제 모듈(140)은 관계 추출 모듈(130)에 의해 추출된 관계가 "관련성 없음"에 해당하는 경우, "관련성 없음"에 해당하는 연결관계를 삭제하게 된다.

관련성 판단 모듈(140)은 제1 개체와 제2 개체가 도출된 관계를 통해 서로 연결되는지 여부에 기초하여, 제1 개체와 제2 개체 간의 관련성 여부를 판단하게 된다(S75).

다음, 시스템(100)의 ID 부여 모듈(160)이 추출된 제1 개체 및 제2 개체들 각각에 고유의 ID를 부여하게 된다.

저장 모듈(190)에는 제1 개체 및 제2 개체들 각각마다 고유의 ID가 매칭(매핑)되어 저장되어 있으며(즉, 제1 개체-ID 쌍, 제2 개체-ID 쌍으로 이루어진 정보가 저장되어 있음), ID 부여 모듈(160)은 상기 정보와 n-gram 기술을 이용하여 추출된 개체들에 ID를 부여하게 된다.

ID 부여 모듈(160)에 의한 ID 부여가 완료되면, 각각의 문서 데이터로부터 추출된 개체들, 그리고 개체들 간의 관계를 이용하여 도 5 및 6에 도시된 바와 같은 단위 데이터가 생성될 수 있다.

시스템(100)의 통합 모듈(170)은 다수의 단위 데이터를 통합하여 통합 데이터를 생성하게 된다(S76). 예를 들어, 동일한 ID를 갖는 개체들을 중복 처리하여 한데 모으고, 마찬가지로 동일한 관계를 중복 처리하는 방식으로 다수의 문서 데이터로부터 추출된 정보들이 반영된 통합 데이터를 생성할 수 있다.

여기서, 통합 데이터는 도 5 및 6에 도시된 바와 같은 그래프 데이터 형태일 수 있으며, 이에 따라 특정 개체와 관련성 있는 개체들을 직관적으로 확인하는 것이 가능하다.

시스템(100)의 연결 유형 분류 모듈(180)은 통합 데이터를 이용하여, 각 개체 간의 관계를 그 특성에 따라 유형화한다. 예를 들어, "A 유전자"와 "B 질병"이 '변형'이라는 관계를 통해 서로 연결되어 있으면, 연결 유형 분류 모듈(180)은 A와 B의 관계를 "유전자 돌연변이"라는 제1 유형의 관계로 유형화한다. 이에 제한되지 않고, 연결 유형 분류 모듈(180)은 개체 간의 관계의 특성에 따라, 해당 관계를 제1 내지 제n 유형 중 어느 하나의 유형으로 분류할 수 있다.

이에 따라, 사용자가 임의의 질병과 특정 유형으로 연결된 개체만을 확인하는 것도 가능하다.

본 발명의 실시예에 따른 시스템의 구성 전체 내지 적어도 일부는 하드웨어 모듈 형태 또는 소프트웨어 모듈 형태로 구현되거나, 하드웨어 모듈과 소프트웨어 모듈이 조합된 형태로도 구현될 수 있다.

여기서, 소프트웨어 모듈이란, 예컨대, 질병 관련 인자 예측 시스템 내에서 연산을 제어하는 프로세서에 의해 실행되는 명령어로 이해될 수 있으며, 이러한 명령어는 질병 관련 인자 예측 시스템 내 메모리에 탑재된 형태를 가질 수 있을 것이다.

이상 본 발명의 바람직한 실시 예를 참조하여 설명하였지만, 당업계에서 통상의 지식을 가진 자라면 이하의 청구범위에 기재된 본 발명의 사상 및 영역을 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

100: 시스템
110: 통신 모듈
120: 개체 인식 모듈
130: 관계 도출 모듈
140: 관련성 판단 모듈
150: 관계 삭제 모듈
160: ID 부여 모듈
170: 통합 모듈
180: 연결 유형 분류 모듈
190: 저장 모듈
I: 입력 모듈
O: 출력 모듈
L: 학습 모듈

Claims

하나 이상의 문서 데이터로부터 질병(disease), 유전자(gene) 및 단백질(protein) 관련 용어를 추출하고, 각 용어 간의 관계(relation)를 추출하는 방법으로서,
(a0) 학습 모듈(L)에 의해, 기설정된 구조를 갖는 신경망(Neural Network)이 질병을 지칭하는 용어가 제1 개체로, 유전자를 지칭하는 용어 또는 단백질을 지칭하는 용어가 제2 개체로, 그리고 상기 질병을 지칭하는 용어와 상기 유전자를 지칭하는 용어 또는 상기 단백질을 지칭하는 용어 사이의 관계를 서술하는 용어가 제3 개체로 각각 레이블링(labeling)된 데이터의 문맥 벡터(context vector)를 학습 데이터로 하여, 상기 신경망이 질의되는 텍스트 또는 문서 데이터에 포함된 텍스트로부터 제1 개체 내지 제3 개체를 추출하도록 사전 학습되는 과정과, 상기 신경망이 질의되는 텍스트 또는 문서 데이터에 포함된 텍스트로부터 제1 개체 내지 제3 개체 간의 관계를 도출하도록 사전 학습되는 과정이 동시에(simultaneously) 이루어지는 단계;
(a) 상기 (a0) 단계에서 사전 학습된 상기 신경망에 의해, 개체 인식 (entity recognition) 모듈(120)이 상기 신경망에 질의되는 텍스트 또는 문서 데이터에 포함된 텍스트로부터 제1 개체 내지 제3 개체를 추출하는 단계;
(b) 상기 (a0) 단계에서 사전 학습된 상기 신경망에 의해, 관계 도출(relation extraction) 모듈(130)이 상기 신경망에 질의되는 텍스트 또는 문서 데이터에 포함된 텍스트로부터 제1 개체 내지 제3 개체간의 관계를 도출하여 도출된 관계에 따라 상기 제1 개체 내지 제3 개체를 연결하는 단계;
(c) 관련성 판단 모듈(140)이 상기 제1 개체와 상기 제2 개체가 상기 (b) 단계에서 서로 연결되는지 여부에 기초하여, 상기 제1 개체와 상기 제2 개체 간의 관련성 여부를 판단하는 단계; 및
(d) 통합 모듈(170)이 상기 하나 이상의 문서 데이터 각각에 대해 상기 (c) 단계에서 판단된 상기 제1 개체와 상기 제2 개체 간의 관련성 여부를 통합하여 통합 데이터를 생성하는 단계;를 포함하며,
상기 (a) 단계와 (b) 단계는 동시에 수행되고,
상기 제1 개체 내지 제3 개체 간의 관계는, 질의되는 텍스트 또는 문서 데이터의 텍스트에 포함되면서 제1 개체 내지 제3 개체로 추출되지 않은 용어들의 맥락 또는 상기 용어들이 연결된 형태를 이용하여 도출되는 것을 특징으로 하는,
문서 데이터에서 질병 관련 인자들 간의 관계를 추출하는 방법.
제1항에 있어서,
상기 (a0) 단계 이후 상기 (a) 단계 이전,
입력 모듈(I)을 통해 텍스트(text) 또는 텍스트를 포함하는 문서 데이터가 질의되거나, 임의의 키워드가 질의되는 단계를 더 포함하고,
상기 (a) 단계는,
상기 질의된 키워드를 포함하는 문서 데이터들을 수집하여, 상기 신경망에 의해, 상기 개체 인식 모듈(120)이 수집된 문서 데이터들로부터 제1 개체 내지 제3 개체를 추출하는 단계를 더 포함하고,
상기 (b) 단계는, 상기 신경망에 의해, 상기 관계 도출 모듈(130)이 수집된 문서 데이터들로부터 제1 개체 내지 제3 개체 간의 관계를 도출하는 단계를 더 포함하는,
문서 데이터에서 질병 관련 인자들 간의 관계를 추출하는 방법.
제1항에 있어서,
상기 (d) 단계 이후,
(e) 출력 모듈(O)을 통해 상기 통합 데이터가 그래프 형태로 출력되되, 관련성 있다고 판단된 제1 개체와 제2 개체 간의 관계만이 표현된 통합 데이터가 그래프 형태로 출력되거나, 관련성 있다고 판단된 제1 개체와 제2 개체 간의 관계에 포함된 제1 개체 내지 제3 개체가 함께 출력되는 단계를 더 포함하는,
문서 데이터에서 질병 관련 인자들 간의 관계를 추출하는 방법.
제1항에 있어서,
상기 (b) 단계는,
상기 관계 도출 모듈(130)이 상기 개체들 간의 관계를 개체들의 상태를 나타내는 제1 관계 또는 개체들 간의 인과관계를 나타내는 제2 관계로 도출하는 단계를 더 포함하는,
문서 데이터에서 질병 관련 인자들 간의 관계를 추출하는 방법.
제1항에 있어서,
문서 데이터에 포함된 하나 이상의 문장에 대해 상기 (a) 단계와 상기 (b) 단계가 수행될 수 있으며,
상기 (b) 단계는,
관계 도출 모듈(130)이, 적어도 2개 이상의 문장이 제1 개체 내지 제3 개체를 포함하는 경우, 상기 관계 도출 모듈(130)이 상기 제1 개체 내지 제3 개체 간의 관계를 도출함으로써 상기 제1 개체 내지 제3 개체를 서로 연결하는 단계를 더 포함하는,
문서 데이터에서 질병 관련 인자들 간의 관계를 추출하는 방법.
제1항에 있어서,
ID 부여 모듈(160)이 상기 (a) 단계에서 추출된 제1 개체와 제2 개체들 각각에 고유의 ID를 부여하되, 상기 ID 부여 모듈(160)이 임의의 용어의 동의어(synonym) 및 축약어(abbreviation)를 상기 임의의 용어와 동일한 용어로 판단하여, 상기 동의어 및 상기 축약어에도 상기 임의의 용어와 동일한 ID를 부여하는 단계를 포함하는,
문서 데이터에서 질병 관련 인자들 간의 관계를 추출하는 방법.
제6항에 있어서,
임의의 용어에 2개 이상의 ID가 부여되는 경우, 상기 ID 부여 모듈(160)이 상기 2개 이상의 ID 중 축약어에 매칭되는 ID가 아닌 풀 네임(full name)에 매칭되는 ID를 상기 임의의 용어의 ID로 부여하는 단계를 더 포함하는,
문서 데이터에서 질병 관련 인자들 간의 관계를 추출하는 방법.
제1항에 있어서,
상기 관계 도출 모듈(130)에 의해 도출된 개체들 간의 관계가 “관련성 없음”을 포함하는 경우, 관계 삭제 모듈(150)이 상기 “관련성 없음”에 매칭되는 관계를 삭제하는 단계를 더 포함하는,
문서 데이터에서 질병 관련 인자들 간의 관계를 추출하는 방법.
제1항에 있어서,
상기 (b) 단계에서,
문서 데이터에서 상기 관계 도출 모듈(130)에 의해 복수의 제1 개체가 복수의 제2 개체와 서로 각각 연결된 경우,
상기 관계 도출 모듈(130)이 상기 복수의 제1 개체 중 어느 하나의 제1 개체는 상기 복수의 제2 개체 중 어느 하나의 제2 개체와만 연결되도록 하되, 상기 복수의 제1 개체 중 다른 하나의 제1 개체는 상기 어느 하나의 제2 개체와는 다른 하나의 제2 개체와만 연결되도록 하는 단계를 더 포함하는,
문서 데이터에서 질병 관련 인자들 간의 관계를 추출하는 방법.
제1항에 있어서,
상기 개체 인식 모듈(120)에 의해 제1 개체 및 제2 개체로 추출되었으나, 추출된 개체가 기설정된 기각 대상 개체 범주에 포함된 경우, 추출된 해당 개체가 삭제되는 단계를 더 포함하는,
문서 데이터에서 질병 관련 인자들 간의 관계를 추출하는 방법.
제1항에 있어서,
상기 (d) 단계 이후,
연결 유형 분류 모듈(170)이, 상기 통합 데이터에 포함된 제1 개체와 제2 개체 간의 관계를 그 특성에 따라 서로 다른 유형으로 분류하는 단계를 더 포함하는,
문서 데이터에서 질병 관련 인자들 간의 관계를 추출하는 방법.
제1항에 있어서,
상기 질병을 지칭하는 용어와 상기 유전자를 지칭하는 용어 또는 상기 단백질을 지칭하는 용어 사이의 관계를 서술하는 용어는, 변형(variation), 분자 생리 활성(molecular physiological activity), 상호작용(interaction), 경로(pathway), 세포 생리 활성(cell physiological activity), 조절(regulation), 양성 조절(positive regulation) 및 음성 조절(negative regulation) 관련 용어 중 하나 이상을 포함하는,
문서 데이터에서 질병 관련 인자들 간의 관계를 추출하는 방법.
삭제
삭제
삭제
삭제
제6항에 있어서,
상기 (d) 단계는,
(d1) 상기 통합 모듈(170)이, 하나의 문서 데이터로부터 추출된 제1 개체 내지 제3 개체들이 도출된 관계에 따라 서로 연결된 데이터인 단위 데이터를 생성하는 단계; 및
(d2) 상기 통합 모듈(170)이 각각의 단위 데이터를 통합하여 통합 데이터를 생성하는 단계로서, 동일한 ID가 부여된 제1 개체 및 제2 개체들과, 이에 연결된 제1 개체 및 제2 개체들을 통합함으로써 상기 통합 데이터를 생성하는 단계;를 포함하는,
문서 데이터에서 질병 관련 인자들 간의 관계를 추출하는 방법.
제1항 내지 제12항 및 제17항 중 어느 한 항에 따른 방법을 사용하여 구축된,
시스템.
제1항 내지 제12항 및 제17항 중 어느 한 항에 따른 방법을 실행하도록 컴퓨터 판독 가능한 기록 매체에 저장된,
컴퓨터 프로그램.