KR102233464B1 - 문서 데이터에서 질병 관련 인자들 간의 관계를 추출하는 방법 및 이를 이용하여 구축되는 시스템 - Google Patents
문서 데이터에서 질병 관련 인자들 간의 관계를 추출하는 방법 및 이를 이용하여 구축되는 시스템 Download PDFInfo
- Publication number
- KR102233464B1 KR102233464B1 KR1020200176766A KR20200176766A KR102233464B1 KR 102233464 B1 KR102233464 B1 KR 102233464B1 KR 1020200176766 A KR1020200176766 A KR 1020200176766A KR 20200176766 A KR20200176766 A KR 20200176766A KR 102233464 B1 KR102233464 B1 KR 102233464B1
- Authority
- KR
- South Korea
- Prior art keywords
- relationship
- entity
- document data
- module
- entities
- Prior art date
Links
- 201000010099 disease Diseases 0.000 title claims abstract description 62
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 title claims abstract description 62
- 238000000605 extraction Methods 0.000 title claims abstract description 10
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 55
- 238000000034 method Methods 0.000 claims abstract description 49
- 102000004169 proteins and genes Human genes 0.000 claims abstract description 20
- 238000009795 derivation Methods 0.000 claims description 38
- 230000010354 integration Effects 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 15
- 230000037361 pathway Effects 0.000 claims description 13
- 230000001766 physiological effect Effects 0.000 claims description 13
- 238000013528 artificial neural network Methods 0.000 claims description 10
- 230000033228 biological regulation Effects 0.000 claims description 7
- 238000012217 deletion Methods 0.000 claims description 7
- 230000037430 deletion Effects 0.000 claims description 7
- 230000003993 interaction Effects 0.000 claims description 6
- 230000003827 upregulation Effects 0.000 claims description 6
- 230000003828 downregulation Effects 0.000 claims description 5
- 230000001364 causal effect Effects 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims 1
- 239000000284 extract Substances 0.000 abstract description 12
- 238000003062 neural network model Methods 0.000 description 22
- 102100023635 Alpha-fetoprotein Human genes 0.000 description 9
- 230000014509 gene expression Effects 0.000 description 8
- 108010025020 Nerve Growth Factor Proteins 0.000 description 6
- 108091007960 PI3Ks Proteins 0.000 description 6
- 102000003993 Phosphatidylinositol 3-kinases Human genes 0.000 description 6
- 108090000430 Phosphatidylinositol 3-kinases Proteins 0.000 description 6
- 238000004891 communication Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000035772 mutation Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 208000003174 Brain Neoplasms Diseases 0.000 description 4
- 230000007423 decrease Effects 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 239000000126 substance Substances 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 102100025064 Cellular tumor antigen p53 Human genes 0.000 description 3
- -1 CgPDR1 Proteins 0.000 description 3
- 102000001301 EGF receptor Human genes 0.000 description 3
- 108060006698 EGF receptor Proteins 0.000 description 3
- 206010014967 Ependymoma Diseases 0.000 description 3
- 101000721661 Homo sapiens Cellular tumor antigen p53 Proteins 0.000 description 3
- 206010028980 Neoplasm Diseases 0.000 description 3
- 230000027455 binding Effects 0.000 description 3
- 210000004027 cell Anatomy 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 201000011240 Frontotemporal dementia Diseases 0.000 description 2
- 206010064571 Gene mutation Diseases 0.000 description 2
- 101001045846 Homo sapiens Histone-lysine N-methyltransferase 2A Proteins 0.000 description 2
- 101000848653 Homo sapiens Tripartite motif-containing protein 26 Proteins 0.000 description 2
- 108010013563 Lipoprotein Lipase Proteins 0.000 description 2
- 102100022119 Lipoprotein lipase Human genes 0.000 description 2
- 108091054455 MAP kinase family Proteins 0.000 description 2
- 102000043136 MAP kinase family Human genes 0.000 description 2
- 102100033810 RAC-alpha serine/threonine-protein kinase Human genes 0.000 description 2
- 102100034593 Tripartite motif-containing protein 26 Human genes 0.000 description 2
- 108010026331 alpha-Fetoproteins Proteins 0.000 description 2
- 230000004071 biological effect Effects 0.000 description 2
- 201000011510 cancer Diseases 0.000 description 2
- 208000022080 low-grade astrocytoma Diseases 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000007180 physiological regulation Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 102200129022 rs738409 Human genes 0.000 description 2
- 230000011664 signaling Effects 0.000 description 2
- OUYCCCASQSFEME-UHFFFAOYSA-N tyrosine Chemical compound OC(=O)C(N)CC1=CC=C(O)C=C1 OUYCCCASQSFEME-UHFFFAOYSA-N 0.000 description 2
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 1
- 102100034540 Adenomatous polyposis coli protein Human genes 0.000 description 1
- 208000024827 Alzheimer disease Diseases 0.000 description 1
- 102000030169 Apolipoprotein C-III Human genes 0.000 description 1
- 108010056301 Apolipoprotein C-III Proteins 0.000 description 1
- 108090000715 Brain-derived neurotrophic factor Proteins 0.000 description 1
- 102000004219 Brain-derived neurotrophic factor Human genes 0.000 description 1
- 102100028226 COUP transcription factor 2 Human genes 0.000 description 1
- 208000005623 Carcinogenesis Diseases 0.000 description 1
- CMSMOCZEIVJLDB-UHFFFAOYSA-N Cyclophosphamide Chemical compound ClCCN(CCCl)P1(=O)NCCCO1 CMSMOCZEIVJLDB-UHFFFAOYSA-N 0.000 description 1
- 108020004414 DNA Proteins 0.000 description 1
- 230000004568 DNA-binding Effects 0.000 description 1
- 206010012438 Dermatitis atopic Diseases 0.000 description 1
- 102000004190 Enzymes Human genes 0.000 description 1
- 108090000790 Enzymes Proteins 0.000 description 1
- 102100023593 Fibroblast growth factor receptor 1 Human genes 0.000 description 1
- 208000002339 Frontotemporal Lobar Degeneration Diseases 0.000 description 1
- 102000003688 G-Protein-Coupled Receptors Human genes 0.000 description 1
- 108090000045 G-Protein-Coupled Receptors Proteins 0.000 description 1
- 102000034615 Glial cell line-derived neurotrophic factor Human genes 0.000 description 1
- 108091010837 Glial cell line-derived neurotrophic factor Proteins 0.000 description 1
- 108091006065 Gs proteins Proteins 0.000 description 1
- 102100022103 Histone-lysine N-methyltransferase 2A Human genes 0.000 description 1
- 108010033040 Histones Proteins 0.000 description 1
- 102000006947 Histones Human genes 0.000 description 1
- 101000860860 Homo sapiens COUP transcription factor 2 Proteins 0.000 description 1
- 101100244213 Homo sapiens PNPLA3 gene Proteins 0.000 description 1
- 101001098868 Homo sapiens Proprotein convertase subtilisin/kexin type 9 Proteins 0.000 description 1
- 102000000646 Interleukin-3 Human genes 0.000 description 1
- 108010002386 Interleukin-3 Proteins 0.000 description 1
- 102000056028 KRIT1 Human genes 0.000 description 1
- 108700042464 KRIT1 Proteins 0.000 description 1
- 108010001831 LDL receptors Proteins 0.000 description 1
- 108010020246 Leucine-Rich Repeat Serine-Threonine Protein Kinase-2 Proteins 0.000 description 1
- 102100032693 Leucine-rich repeat serine/threonine-protein kinase 2 Human genes 0.000 description 1
- 102100024640 Low-density lipoprotein receptor Human genes 0.000 description 1
- 108060001084 Luciferase Proteins 0.000 description 1
- 239000005089 Luciferase Substances 0.000 description 1
- 208000007466 Male Infertility Diseases 0.000 description 1
- 206010027476 Metastases Diseases 0.000 description 1
- 102000016397 Methyltransferase Human genes 0.000 description 1
- 108060004795 Methyltransferase Proteins 0.000 description 1
- 102100024193 Mitogen-activated protein kinase 1 Human genes 0.000 description 1
- 108091005804 Peptidases Proteins 0.000 description 1
- 102000045595 Phosphoprotein Phosphatases Human genes 0.000 description 1
- 108700019535 Phosphoprotein Phosphatases Proteins 0.000 description 1
- 108091000080 Phosphotransferase Proteins 0.000 description 1
- 102100038955 Proprotein convertase subtilisin/kexin type 9 Human genes 0.000 description 1
- 239000004365 Protease Substances 0.000 description 1
- 101100172720 Rattus norvegicus Ces1e gene Proteins 0.000 description 1
- 102100037486 Reverse transcriptase/ribonuclease H Human genes 0.000 description 1
- 108010044012 STAT1 Transcription Factor Proteins 0.000 description 1
- 240000004808 Saccharomyces cerevisiae Species 0.000 description 1
- 102100029904 Signal transducer and activator of transcription 1-alpha/beta Human genes 0.000 description 1
- 102000003566 TRPV1 Human genes 0.000 description 1
- 101150016206 Trpv1 gene Proteins 0.000 description 1
- 102100033019 Tyrosine-protein phosphatase non-receptor type 11 Human genes 0.000 description 1
- 101710116241 Tyrosine-protein phosphatase non-receptor type 11 Proteins 0.000 description 1
- 102000013814 Wnt Human genes 0.000 description 1
- 108050003627 Wnt Proteins 0.000 description 1
- 230000021736 acetylation Effects 0.000 description 1
- 238000006640 acetylation reaction Methods 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 239000000556 agonist Substances 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 208000006673 asthma Diseases 0.000 description 1
- 201000008937 atopic dermatitis Diseases 0.000 description 1
- 230000004900 autophagic degradation Effects 0.000 description 1
- 210000003719 b-lymphocyte Anatomy 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000036952 cancer formation Effects 0.000 description 1
- 231100000504 carcinogenesis Toxicity 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000012292 cell migration Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 201000001428 congenital diarrhea Diseases 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 229960004397 cyclophosphamide Drugs 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 238000009509 drug development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000028023 exocytosis Effects 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 239000003446 ligand Substances 0.000 description 1
- 208000019423 liver disease Diseases 0.000 description 1
- 208000017430 low grade ependymoma Diseases 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000036210 malignancy Effects 0.000 description 1
- 108020004999 messenger RNA Proteins 0.000 description 1
- 230000009401 metastasis Effects 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 239000013642 negative control Substances 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 239000002547 new drug Substances 0.000 description 1
- 230000026731 phosphorylation Effects 0.000 description 1
- 238000006366 phosphorylation reaction Methods 0.000 description 1
- 102000020233 phosphotransferase Human genes 0.000 description 1
- 230000035755 proliferation Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 102200155721 rs121918464 Human genes 0.000 description 1
- 230000019491 signal transduction Effects 0.000 description 1
- 230000002459 sustained effect Effects 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- UFTFJSFQGQCHQW-UHFFFAOYSA-N triformin Chemical compound O=COCC(OC=O)COC=O UFTFJSFQGQCHQW-UHFFFAOYSA-N 0.000 description 1
- 230000005748 tumor development Effects 0.000 description 1
- 108010031403 zeaxanthin epoxidase Proteins 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/50—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/10—Ontologies; Annotations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
- G16H70/60—ICT specially adapted for the handling or processing of medical references relating to pathologies
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
Abstract
본 발명은 문서 데이터에 포함된 질병 관련 인자, 그리고 질병 관련 인자들 간의 관계를 도출할 수 있는 방법에 관한 것이다.
Description
본 발명은 다수의 문서 데이터로부터 질병 관련 인자들을 추출하여, 인자들 간의 관계, 특히 특정 질병과 특정 유전자 또는 단백질의 관련성을 예측 및 도출할 수 있도록 하는 방법 및 시스템에 관한 것이다.
신약 개발 단계에서 질병과 유전자 또는 질병과 단백질 간의 관계를 밝혀내기 위해 다양하게 분포되어 있는 데이터들을 수집하고, 정리하는 과정이 수반된다. 현대에는 방대한 양의 지식 데이터가 비정형 텍스트의 형태로 배포되고 있으며, 이들을 실시간으로 파악하여 질병과 유전자/단백질 간의 관계를 파악하는 것은 많은 노력이 요구된다. 따라서, 연산 기능을 갖춘 장치(예를 들어, 컴퓨터)를 통해 문서 데이터에 포함된 비정형 텍스트로부터 자연어 처리 과정을 수행하도록 하는 기술이 개발되어 왔다.
종래 기술에 따를 경우, 하나의 문장 내에서의 개체들 간의 관계만을 추출하게 된다. 문서 데이터에 포함된 하나의 문장에 질병과 관련된 인자들이 모두 나열되는 경우도 있지만, 주로 다수의 문장에 질병과 관련된 인자들이 서술되어 있는 경우가 빈번하다. 종래 기술에서 개체들 간의 관계가 추출되고, 추출된 관계에 따라 개체들이 연결되더라도, 어디까지나 하나의 문장마다 독립적으로 자연어 처리를 수행하는 한계 때문에, 데이터의 정확성과 신뢰성이 낮은 문제가 있다.
한편, 국제공개특허 제2020-139861호는 지식 그래프에 관한 것으로, 이종의 데이터셋에서 성격이 다른 데이터(질병, 약물 등)를 정규 레이어(canonical layer)로 통합하고, 머신 러닝 모델을 이용하여 각각의 데이터 간의 관계를 예측하도록 구성된다. 하지만, 상기 특허는 정규 레이어로 통합하는 과정에서 데이터의 종류와 수를 감소시킬 수 있어서 검색 효율을 높이는 점에 주 목적이 있으며, 전체 텍스트(text)를 고려한 개체(entity) 및 개체들 간의 관계(relation)를 추출하는 내용을 전혀 제시하지 못한다.
일본공개특허 제2002-269114호는 지식 데이터베이스 구축 방법에 관한 것으로, 언어화 지식(text)으로부터 미리 색인 사전에 기재되어 있는 개체(entity)를 추출하고, 복수의 지식에 포함된 개체의 관계값을 정량적으로 표현하여, 그래프를 생성하는 내용을 제시한다. 그러나, 상기 방법은 색인 사전에 미리 기재되어 있는 개체들만을 추출할 수 있을 뿐, 색인 사전에 기재되어 있지 않은 개체들은 추출할 수 없어서, 기존 데이터의 내용을 뛰어 넘어 새로운 데이터를 생성하는 것에 한계가 존재한다.
이에, 본 발명자들은 인공지능(Artificial Intelligence) 딥러닝(deep learning) 기술을 이용하여, 다수의 문서 데이터들에서 전체 텍스트 내용의 전후 맥락, 단어 자체의 형태 등을 고려하여 개체, 그리고 개체들 간의 관계를 도출할 수 있으며, 추출된 개체 및 관계에 따른 개체들의 관련성이 반영된 데이터를 그래프 형태로서 출력할 수 있는 시스템을 발명하기에 이르렀다.
상기한 과제를 해결하기 위해 본 발명은 다수의 문서 데이터로부터 질병, 유전자 및 단백질과 관련된 용어, 그리고 이들 간의 관계를 서술하는 용어를 추출하여 각 개체간의 연결관계들이 포함된 그래프 형태의 통합 데이터를 생성함으로써, 특정 개체와 관련성 있는 개체들을 직관적으로 확인 가능한 방법 및 시스템을 제공하는 것에 그 목적이 있다.
또한, 본 발명은 문서 데이터에 포함된 복수의 문장의 맥락 및 의미를 고려하여 개체들 간 관계를 도출하기 때문에, 구축되는 시스템의 정확성과 신뢰성이 높은 방법 및 시스템을 제공하는 것에 그 목적이 있다.
또한, 본 발명은 개체들과, 개체들간의 관계가 그래프 형태로 출력됨으로써, 개체들간의 관계를 직관적으로 확인할 수 있는 방법 및 시스템을 제공하는 것에 그 목적이 있다.
또한, 본 발명은 “관련성 없음”에 해당하는 연결관계를 삭제함으로써, 데이터가 방대해지거나 중요도가 낮은 데이터가 추출될 수 있는 문제가 해소되는 방법 및 시스템을 제공하는 것에 그 목적이 있다.
또한, 본 발명은 개체 간의 관계를 그 특성에 따라 유형화함으로써, 특정 개체와 특정 유형의 관계로 이어진 개체들을 별도로 확인하는 것이 가능한 방법 및 시스템을 제공하는 것에 그 목적이 있다.
또한, 본 발명은 문서 데이터로부터 개체를 추출하고 관계를 도출하는 과정에서 사전 학습된 신경망 모델을 이용하기 때문에, 기존 데이터의 범주를 넘어서 새로운 범주의 개체를 추출하고 관계를 도출하는 것이 가능한 방법 및 시스템을 제공하는 것에 그 목적이 있다.
본 발명의 목적들은 이상에서 언급한 목적들로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 명확하게 이해될 수 있을 것이다.
상기한 목적을 달성하기 위한 본 발명의 일 실시예는, 하나 이상의 문서 데이터로부터 질병(disease), 유전자(gene) 및 단백질(protein) 관련 용어를 추출하고, 각 용어 간의 관계(relation)를 추출하는 방법으로서, (a) 개체 인식(entity recognition) 모듈(120)이 기설정된 방법에 따라 상기 하나 이상의 문서 데이터에 포함된 질병 관련 용어를 제1 개체로 추출하고, 유전자 관련 용어 또는 단백질 관련 용어를 제2 개체로 추출하고, 상기 하나 이상의 문서 데이터에 포함된 변형(variation), 분자 생리 활성(molecular physiological activity), 상호작용(interaction), 경로(pathway), 세포 생리 활성(cell physiological activity), 조절(regulation), 양성 조절(positive regulation) 및 음성 조절(negative regulation) 관련 용어 중 하나 이상을 각각 제3 개체로 추출하는 단계, (b) 관계 도출(relation extraction) 모듈(130)이 상기 (a) 단계에서 추출된 제1 개체 내지 제3 개체들간의 관계를 도출하여 도출된 관계에 따라 상기 제1 개체 내지 제3 개체를 연결하는 단계, (c) 관련성 판단 모듈(140)이 상기 제1 개체와 상기 제2 개체가 상기 (b) 단계에서 서로 연결되는지 여부에 기초하여, 상기 제1 개체와 상기 제2 개체 간의 관련성 여부를 판단하는 단계 및 (d) 통합 모듈(170)이 상기 하나 이상의 문서 데이터 각각에 대해 상기 (c) 단계에서 판단된 상기 제1 개체와 상기 제2 개체 간의 관련성 여부를 통합하여 통합 데이터를 생성하는 단계를 포함하는, 문서 데이터에서 질병 관련 인자들 간의 관계를 추출하는 방법을 제공한다.
일 실시예에 있어서, 상기 (a) 단계 이전, 입력 모듈(I)을 통해 텍스트(text) 또는 텍스트를 포함하는 문서 데이터가 질의되거나, 임의의 키워드가 질의되는 단계를 더 포함하고, 상기 (a) 단계는, 개체 인식 모듈(120)이 상기 텍스트에 포함된 제1 개체 내지 제3 개체를 추출하거나, 상기 질의된 키워드를 포함하는 문서 데이터를 수집하여 수집된 문서 데이터로부터 제1 개체 내지 제3 개체를 추출하는 단계를 더 포함할 수 있다.
일 실시예에 있어서, 상기 (d) 단계 이후, (e) 출력 모듈(O)을 통해 상기 통합 데이터가 그래프 형태로 출력되되, 관련성 있다고 판단된 제1 개체와 제2 개체 간의 관계만이 표현된 통합 데이터가 그래프 형태로 출력되거나, 관련성 있다고 판단된 제1 개체와 제2 개체 간의 관계에 포함된 제1 개체 내지 제3 개체가 함께 출력되는 단계를 더 포함할 수 있다.
일 실시예에 있어서, 상기 (b) 단계는, 상기 관계 도출 모듈(130)이 상기 개체들 간의 관계를 개체들의 상태를 나타내는 제1 관계 또는 개체들 간의 인과관계를 나타내는 제2 관계로 도출하는 단계를 더 포함할 수 있다.
일 실시예에 있어서, 문서 데이터에 포함된 하나 이상의 문장에 대해 상기 (a) 단계와 상기 (b) 단계가 수행될 수 있으며, 상기 (b) 단계는, 관계 도출 모듈(130)이, 적어도 2개 이상의 문장이 제1 개체 내지 제3 개체를 포함하는 경우, 상기 관계 도출 모듈(130)이 상기 제1 개체 내지 제3 개체 간의 관계를 도출함으로써 상기 제1 개체 내지 제3 개체를 서로 연결하는 단계를 더 포함할 수 있다.
일 실시예에 있어서, ID 부여 모듈(160)이 상기 (a) 단계에서 추출된 제1 개체와 제2 개체들 각각에 고유의 ID를 부여하되, 상기 ID 부여 모듈(160)이 임의의 용어의 동의어(synonym) 및 축약어(abbreviation)를 상기 임의의 용어와 동일한 용어로 판단하여, 상기 동의어 및 상기 축약어에도 상기 임의의 용어와 동일한 ID를 부여하는 단계를 포함할 수 있다.
일 실시예에 있어서, 임의의 용어에 2개 이상의 ID가 부여되는 경우, 상기 ID 부여 모듈(160)이 상기 2개 이상의 ID 중 축약어에 매칭되는 ID가 아닌 풀 네임(full name)에 매칭되는 ID를 상기 임의의 용어의 ID로 부여하는 단계를 더 포함할 수 있다.
일 실시예에 있어서, 상기 관계 도출 모듈(130)에 의해 도출된 개체들 간의 관계가 “관련성 없음”을 포함하는 경우, 관계 삭제 모듈(150)이 상기 “관련성 없음”에 매칭되는 관계를 삭제하는 단계를 더 포함할 수 있다.
일 실시예에 있어서, 상기 (b) 단계에서, 문서 데이터에서 상기 관계 도출 모듈(130)에 의해 복수의 제1 개체가 복수의 제2 개체와 서로 각각 연결된 경우, 상기 관계 도출 모듈(130)이 상기 복수의 제1 개체 중 어느 하나의 제1 개체는 상기 복수의 제2 개체 중 어느 하나의 제2 개체와만 연결되도록 하되, 상기 복수의 제1 개체 중 다른 하나의 제1 개체는 상기 어느 하나의 제2 개체와는 다른 하나의 제2 개체와만 연결되도록 하는 단계를 더 포함할 수 있다.
일 실시예에 있어서, 상기 개체 인식 모듈(120)에 의해 제1 개체 및 제2 개체로 추출되었으나, 추출된 개체가 기설정된 기각 대상 개체 범주에 포함된 경우, 추출된 해당 개체가 삭제되는 단계를 더 포함할 수 있다.
일 실시예에 있어서, 상기 (d) 단계 이후, 연결 유형 분류 모듈(170)이, 상기 통합 데이터에 포함된 제1 개체와 제2 개체 간의 관계를 그 특성에 따라 서로 다른 유형으로 분류하는 단계를 더 포함할 수 있다.
일 실시예에 있어서, 상기 (a) 단계 이전, (a0) 학습 모듈(L)에 의해, 기설정된 구조를 갖는 신경망(Neural Network) 모델이 질의된 텍스트 또는 문서 데이터로부터 제1 개체 내지 제3 개체를 추출하고, 제1 개체 내지 제3 개체 간의 관계를 도출하도록 사전 학습되는 단계를 더 포함할 수 있다.
일 실시예에 있어서, 상기 (a0) 단계는, 학습 모듈(L)에 의해, 상기 신경망 모델이 질의된 텍스트 또는 문서 데이터로부터 제1 개체 내지 제3 개체를 추출하도록 사전 학습되는 단계와, 제1 개체 내지 제3 개체 간의 관계를 도출하도록 사전 학습되는 단계가 연속적으로(sequentially) 이루어지는 단계를 포함할 수 있다.
일 실시예에 있어서, 상기 (a0) 단계는, 학습 모듈(L)에 의해, 상기 신경망 모델이 질의된 텍스트 또는 문서 데이터로부터 제1 개체 내지 제3 개체를 추출하도록 사전 학습되는 단계와, 제1 개체 내지 제3 개체 간의 관계를 도출하도록 사전 학습되는 단계가 동시에(simultaneously) 이루어지는 단계를 포함할 수 있다.
일 실시예에 있어서, 상기 (a) 단계는, 상기 개체 인식 모듈(120)이 상기 (a0) 단계에서 사전 학습된 신경망 모델을 이용하여 상기 문서 데이터로부터 제1 개체 내지 제3 개체를 추출하는 단계를 더 포함할 수 있다.
일 실시예에 있어서, 상기 (b) 단계는, 상기 관계 도출 모듈(130)이 상기 (a0) 단계에서 사전 학습된 신경망 모델을 이용하여 상기 문서 데이터로부터 제1 개체 내지 제3 개체 간의 관계를 도출하는 단계를 더 포함할 수 있다.
일 실시예에 있어서, 상기 (d) 단계는, (d1) 상기 통합 모듈(170)이, 하나의 문서 데이터로부터 추출된 제1 개체 내지 제3 개체들이 도출된 관계에 따라 서로 연결된 데이터인 단위 데이터를 생성하는 단계 및 (d2) 상기 통합 모듈(170)이 각각의 단위 데이터를 통합하여 통합 데이터를 생성하는 단계로서, 동일한 ID가 부여된 제1 개체 및 제2 개체들과, 이에 연결된 제1 개체 및 제2 개체들을 통합함으로써 상기 통합 데이터를 생성하는 단계를 포함할 수 있다.
또한, 본 발명은 전술한 방법을 사용하여 구축된, 시스템을 제공한다.
또한, 본 발명은 전술한 방법을 실행하도록 컴퓨터 판독 가능한 기록 매체에 저장된, 프로그램을 제공한다.
본 발명에 따르면, 다수의 문서 데이터로부터 질병, 유전자 및 단백질과 관련된 용어, 그리고 이들 간의 관계를 서술하는 용어를 추출하여 각 개체간의 관계들이 포함된 그래프 형태의 통합 데이터를 생성함으로써, 특정 개체와 관련성 있는 개체들을 직관적으로 확인 가능하다.
또한, 본 발명은 문서 데이터에 포함된 복수의 문장의 맥락 및 의미를 고려하여 개체들 간 관계를 도출하기 때문에, 구축되는 시스템의 정확성 및 신뢰성이 높다.
또한, 본 발명은 개체들과, 개체들간의 관계가 그래프 형태로 출력됨으로써, 개체들간의 관계를 직관적으로 확인 가능하다.
또한, 본 발명은 “관련성 없음”에 해당하는 연결관계를 삭제함으로써, 데이터가 방대해지거나 중요도가 낮은 데이터가 추출될 수 있는 문제가 해소된다.
또한, 본 발명은 개체 간의 관계를 그 특성에 따라 유형화함으로써, 특정 개체와 특정 유형의 관계로 이어진 개체들을 별도로 확인하는 것이 가능하다.
또한, 본 발명은 문서 데이터로부터 개체를 추출하고 관계를 도출하는 과정에서 사전 학습된 신경망 모델을 이용하기 때문에, 기존 데이터의 범주를 넘어서 새로운 범주의 개체를 추출하고 관계를 도출하는 것이 가능하다.
도 1은 본 발명의 실시예에 따라 구축되는 시스템을 설명하기 위한 블록도이다.
도 2는 종래 기술에 따라, 문서 데이터로부터 개체들을 추출하고, 개체들 간의 관계를 도출하는 것을 설명하기 위한 도면이다.
도 3은 본 발명의 실시예에 따라, 문서 데이터로부터 개체들을 추출하고, 개체들 간의 관계를 도출하는 것을 설명하기 위한 도면이다.
도 4는 본 발명의 실시예에 따라, 도 3과 다른 문서 데이터에서 개체들이 추출된 모습을 설명하기 위한 도면이다.
도 5는 도 4에서 추출된 개체들의 관계를 도출하여, 도출된 관계에 따라 개체들이 서로 관계를 가지면서 연결된 모습을 설명하기 위한 도면이다.
도 6은 본 발명의 실시예에 따라, 도 3의 문서 데이터로부터 도출된 관계를 가지면서 개체들이 서로 연결된 모습의 양태들을 설명하기 위한 도면이다. 구체적으로 도 6-A는 하나의 텍스트 또는 문서 데이터로부터 획득될 수 있는 그래프 형태의 데이터를 도시하며, 도 6-B는 도 6-A에서의 제1 개체와 제2 개체의 연결 여부에 따라 제1 개체와 제2 개체의 관련성을 나타낸 그래프 형태의 데이터를 도시하고, 도 6-C는 도 6-B에서 중복되는 개체들을 삭제하여 나타낸 그래프 형태의 데이터를 도시한다.
도 7은 본 발명의 실시예에 따른 방법을 설명하기 위한 순서도이다.
도 2는 종래 기술에 따라, 문서 데이터로부터 개체들을 추출하고, 개체들 간의 관계를 도출하는 것을 설명하기 위한 도면이다.
도 3은 본 발명의 실시예에 따라, 문서 데이터로부터 개체들을 추출하고, 개체들 간의 관계를 도출하는 것을 설명하기 위한 도면이다.
도 4는 본 발명의 실시예에 따라, 도 3과 다른 문서 데이터에서 개체들이 추출된 모습을 설명하기 위한 도면이다.
도 5는 도 4에서 추출된 개체들의 관계를 도출하여, 도출된 관계에 따라 개체들이 서로 관계를 가지면서 연결된 모습을 설명하기 위한 도면이다.
도 6은 본 발명의 실시예에 따라, 도 3의 문서 데이터로부터 도출된 관계를 가지면서 개체들이 서로 연결된 모습의 양태들을 설명하기 위한 도면이다. 구체적으로 도 6-A는 하나의 텍스트 또는 문서 데이터로부터 획득될 수 있는 그래프 형태의 데이터를 도시하며, 도 6-B는 도 6-A에서의 제1 개체와 제2 개체의 연결 여부에 따라 제1 개체와 제2 개체의 관련성을 나타낸 그래프 형태의 데이터를 도시하고, 도 6-C는 도 6-B에서 중복되는 개체들을 삭제하여 나타낸 그래프 형태의 데이터를 도시한다.
도 7은 본 발명의 실시예에 따른 방법을 설명하기 위한 순서도이다.
이하, 첨부된 도면을 참조하여 본 발명을 상세히 설명한다.
이하에서, 용어 "문서 데이터"는 텍스트(text)로 이루어진 데이터를 의미하는 것으로, 상기 텍스트는 영문, 중문, 일문, 국문 등 현존하는 모든 언어로 구성될 수 있다.
도 1을 참조하면, 본 발명에 따른 시스템(100)은 통신 모듈(110), 개체 인식 모듈(120), 관계 도출 모듈(130), 관련성 판단 모듈(140), 관계 삭제 모듈(150), ID 부여 모듈(160), 통합 모듈(170), 연결 유형 분류 모듈(180), 저장 모듈(190), 입력 모듈(I), 출력 모듈(O) 및 학습 모듈(L)을 포함한다.
통신 모듈(110)은 본 발명에 따른 시스템(100)이 외부 시스템과 통신 가능하도록 구성된다. 여기서, 시스템(100)과 외부 시스템은 통신망을 통해 무선 통신 연결될 수 있으나, 유선 통신을 통해 외부 시스템과 통신하는 것도 가능하다.
본 발명에 따른 시스템(100)은 데이터베이스(D)와 상호 통신을 수행할 수 있으며, 데이터베이스(D)는 공개된 데이터베이스일 수 있으나, 비공개 데이터일 수도 있으며, 논문 데이터베이스, 의학 정보 데이터베이스, 약학 정보 데이터베이스 및 검색 포털 데이터베이스 등을 포함하는 개념이다.
개체 인식 모듈(120)은 입력 모듈(I)을 통해 질의되는 텍스트, 텍스트를 포함하는 문서 데이터에 포함된 텍스트(text)로부터 기설정된 방법에 따라 개체를 추출하도록 구성된다. 여기에서, 개체 추출 대상이 되는 문서 데이터는 예를 들어 논문일 수 있고, 구체적으로 논문의 초록(Abstract)일 수 있으나, 특별히 이에 제한되는 것은 아니다.
입력 모듈(I)을 통해 임의의 키워드가 입력되는 경우(즉, 시스템에 구비된 검색창에 특정 키워드가 입력되는 경우), 데이터베이스(D)에 저장되어 있으면서 입력된 키워드를 포함하는 문서 데이터가 검색될 수 있으며, 검색된 문서 데이터를 수집하여 이로부터 개체 및 개체들간의 관계를 도출하는 것이 가능하다. 보다 구체적으로는, 문서 데이터는 논문 데이터일 수 있으며, 논문 데이터 각각에 부여된 고유의 ID를 확보하고, 확보된 ID들을 개체 인식 모듈(120)에 질의하는 방식으로 논문 데이터들에 포함된 정보를 추출하는 것이 가능하다.
개체 인식 모듈(120)에 의한 개체 추출은 기설정된 구조를 갖는 신경망 모델을 이용하여 수행될 수 있으며, 이에 대한 자세한 설명은 후술한다.
개체 인식 모듈(120)은 문서 데이터에 포함된 질병(disease) 관련 용어를 제1 개체로, 유전자(gene) 관련 용어와 단백질(protein) 관련 용어를 제2 개체로 각각 인식하여 추출하도록 구성된다.
여기에서, 질병 관련 용어는 예를 들어, Alzheimer's disease, frontotemporal dementia, frontotemporal lobar degeneration, congenital diarrhea, asthma, male infertility, cancer, atopic dermatitis, early-onset AF, chronic liver disease일 수 있으며, 특정 질병을 지칭하는 용어이면 어느 것이든 포함될 수 있다.
또한, 유전자 관련 용어는 예를 들어, p53, PCSK9, FLG, CgPDR1, STAT1, KMT2A, LRRK2, SHP-2, TRPV1, NR2F2일 수 있으며, 특정 유전자를 지칭하는 용어이면 어느 것이든 포함될 수 있다.
또한, 단백질 관련 용어는 예를 들어, APC protein, G protein-coupled receptors, LDL receptor, p53 protein, KRIT1 protein, H4 histones, CES1 protein, G protein, heterotrimeric Gs protein, apolipoprotein C-Ⅲ, lipoprotein lipase, methyltransferase enzyme, phosphatase, zeaxanthin epoxidase, luciferase, GlcNAc-1-phosphotransferase, methyltransferases MLL1, acetyltransferase MOZ, tyrosin kinase Axl, LasA protease 일 수 있으며, 특정 단백질을 지칭하는 용어이면 어느 것이든 포함될 수 있다.
또한, 개체 인식 모듈(120)은 문서 데이터에 포함된 변형(variation), 분자 생리 활성(molecular physiological activity), 상호작용(interaction), 경로(pathway), 세포 생리 활성(cell physiological activity), 조절(regulation), 양성 조절(positive regulation) 및 음성 조절(negative regulation) 관련 용어를 각각 제3 개체로 추출하도록 구성된다.
이에 제한되지 않고, 제3 개체는 제1 개체와 제2 개체들 간의 관계를 서술하는 용어를 모두 포함하는 개념일 수 있다.
여기에서, 변형 관련 용어는 예를 들어, mutation, mutant, variants, E76K, mutp53, deletion, loss, frameshift, haploinsufficiency, GOF p53일 수 있으며, 변형을 의미하는 용어 또는 변형이 이루어진 특정 물질을 지칭하는 용어이면 어느 것이든 포함될 수 있다.
또한, 분자 생리 활성 관련 용어는 예를 들어, expression, activity, function, signaling, phosphorylation, acetylation, bioactivation of cyclophosphamide, LPL protein level, triglyceride catabolism, sustained exocytosis in MB neurons일 수 있으며, 분자 생리 활성을 의미하는 용어 또는 특정 물질의 분자 생리 활성을 지칭하는 용어이면 어느 것이든 포함될 수 있다.
또한, 상호작용 관련 용어는 예를 들어, binding, interaction, agonist binding, DNA-binding, functional interaction, combined, binding capacity of APRIL ligand to B cells일 수 있으며, 양 개체간의 상호작용을 의미하는 용어이면 어느 것이든 포함될 수 있다.
또한, 경로 관련 용어는 예를 들어, EGFR/PI3K/AKT pathway, epidermal growth factor receptor (EGFR)/phosphatidylinositol 3-kinase (PI3K)/AKT pathway, ERK pathway, IL-3-induced Erk and phosphatidylinositol 3-kinase (PI3K) pathway, PI3K pathway, JNK Signaling, cAMP pathway, Wnt pathway, mitogen-activated protein kinase (MAPK) pathway, yeast-based signaling pathway일 수 있으며, 특정 질병의 발현에 관련되는 경로를 지칭하는 용어이면 어느 것이든 포함될 수 있다.
또한, 세포 생리 활성 관련 용어는 tumorigenesis, autophagy, cell migration, proliferation, tumor malignancy, developmental defects, tumor development, apotosis, migration, distant metastasis일 수 있으며, 세포 생리 활성을 의미하는 용어 또는 특정 세포의 생리 활성을 지칭하는 용어이면 어느 것이든 포함될 수 있다.
또한, 조절 관련 용어는 cause, associate, lead to, affect, alter, influence, induce, contribute, modulate, change일 수 있으며, 어느 하나의 개체가 다른 개체에 영향을 미치는 용어를 지칭하는 것이면 어느 것이든 포함될 수 있다.
또한, 양성 조절 관련 용어는 increase, enhance, elevate, higher, promote, activation일 수 있으며, 특정 물질의 발현이 촉진되도록 하는 의미를 갖는 용어를 지칭하는 것이면 어느 것이든 포함될 수 있다.
또한, 음성 조절 관련 용어는 reduce, decrease, impair, diminish, prevent, absence, disrupt, lack일 수 있으며, 특정 물질의 발현이 억제되도록 하는 의미를 갖는 용어를 지칭하는 것이면 어느 것이든 포함될 수 있다.
관계 도출 모듈(130)은 개체 인식 모듈(120)에 의해 추출된 제1 개체 내지 제3 개체들간의 관계를 도출하고, 도출된 관계에 따라 제1 개체 내지 제3 개체를 연결하도록 구성된다.
관계 도출 모듈(130)에 의해 제1 개체 내지 제3 개체가 서로 연결되었다는 것은, 연결된 개체들 간에 어떤 의미로든 서로 관련성이 있다는 것을 의미한다.
본 발명에 따른 관계 도출 모듈(130)은 하나의 문서 데이터에 포함된 모든 텍스트(문장)를 고려하여 제1 개체 내지 제3 개체들 간의 관계를 도출하게 된다.
본 발명에 따른 관계 도출 모듈(130)은 개체 인식 모듈(120)에 의해 추출되지 않은 용어(단어)들의 맥락(result in, cause 등의 단어)이나 단어들이 서로 연결된 형태에 따라, 제1 개체 내지 제3 개체들 간의 관계를 도출하는 것이 가능하다.
도 2 및 3을 참조하여, 이를 구체적으로 설명한다.
종래 기술의 경우, 하나의 문서 데이터에 다수의 문장이 포함될 경우, 하나의 문장만을 고려한 개체들 간의 관계를 도출한다.
예를 들어, 도 2의 Sentence 1에서는 NFG, BDNF, GDNF라는 유전자 관련 용어만이 추출되고, Sentence 2에서는 childhood brain neoplasms, low-grade astrocytomas, ependymomas의 질병 관련 용어만이 추출되며, Sentence 3에서는 NGF라는 유전자 관련 용어만이 추출될 수 있다. 종래 기술에 따를 경우, Sentence 1 내지 3에 이르는 다수의 문장에서 각 개체 간의 관계를 도출하는 것이 아닌, 어느 하나의 Sentence 내에서만의 각 개체 간의 관계를 도출하므로, 도 2에 도시된 문서 데이터로부터는 어떠한 관계도 도출하지 못한다.
반면, 본 발명에 따른 관계 도출 모듈(130)은 하나의 문서 데이터에 포함된 모든 문장을 고려하여 관계를 도출하게 된다.
동일한 문서 데이터에서, 관계 도출 모듈(130)은 Sentence 1 내지 3을 모두 고려하여, NGF가 ependymomas, childhood brain neoplasms, low-grade astrocytomas와 expression 및 decrease라는 관계에 있음을 도출하게 된다. 이렇듯, 본 발명에서는 문서 데이터 모두에 포함된 문장의 맥락 및 의미를 고려하여 관계를 도출함에 따라 구축되는 시스템의 정확성 및 신뢰성이 높다.
다른 예에서 "A 유전자의 발현이 감소하는 경우 B 질병의 증세가 완화된다"라는 문장과, "A 유전자는 C 유전자의 기능을 강화시킨다"라는 문장이 포함된 텍스트를 가정하여 설명한다.
종래 기술의 경우, 하나의 문장만을 고려하기 때문에 A-B 간의 관계, A-C 간의 관계는 도출(즉, A-발현-감소-B-완화로 이어지는 관계와, A-강화-C로 이어지는 관계)해낼 수 있으나, B-C로 이어지는 관계를 도출하기는 어렵다.
반면, 본 발명의 경우, 전체 텍스트의 맥락까지 고려하기 때문에 C-강화-A-발현-감소-B로 이어지는 관계를 도출해낼 수 있어서, B-C 간의 관계를 도출해낼 수 있다.
한편, 도 3에 도시된 바와 같이, 문서 데이터에서 제1 개체 내지 제3 개체는 서로 다른 색으로 라벨링되어 표시될 수 있다. 한편, 제1 개체 내지 제3 개체와 이들 간의 관계를 표현하는 그래프에서, 제1 개체 및 제2 개체는, 제3 개체보다 큰 도형(예를 들어, 원)으로 표현될 수 있다. 제1 개체 및 제2 개체는 각각 질병, 유전자 및 단백질에 해당하며, 이들이 다른 개체들보다 더 큰 도형으로 나타남에 따라 그래프 상에서 질병, 유전자, 단백질이 어디에 위치하고 이들이 서로 관련성 있는지 손쉽게 파악 가능하다는 장점을 갖는다.
관계 도출 모듈(130)에 의해 도출되는 관계는 개체의 상태를 나타내는 제1 관계 및 개체들 간의 인과관계를 나타내는 제2 관계를 포함한다.
예를 들어, 문서 데이터에 "A 유전자는 B 돌연변이를 갖는다", "A 질병에서 B 조절이 일어난다"라는 텍스트가 포함되는 경우, A 유전자는 B 돌연변이를 갖는 상태를 의미하고, A 질병에서 B 조절이 일어난다라는 상태를 의미하므로, 관계 도출 모듈(130)은 이러한 개체의 "상태"를 나타내는 관계를 제1 관계로 도출하게 된다.
한편, 문서 데이터에 제1 개체와 제2 개체의 관계를 명확히 서술하는 문장이포함되지 않아도, 관계 도출 모듈(130)은 제1 개체와 제2 개체 간의 관계를 도출하는 것이 가능하다.
예를 들어, 문서 데이터에 "PNPLA3 I148M polymorphism"와 같은 텍스트에서도, 이로부터 PNPLA3 유전자에 I148M 돌연변이가 있다라는 관계를 도출하는 것이 가능하다.
또한, 문서 데이터에 "A 돌연변이에 의해 B 기능 상실이 발생된다", "A 유전자의 발현 저하가 이루어지면 B 생물학적 활성이 높아진다"라는 텍스트가 포함되는 경우, A 돌연변이 발생에 의해 B 기능 상실이 발생한다는 것을 의미하고, A 유전자의 발현 저하로 인해 B 생물학적 활성이 높아진다는 것을 의미하므로, 관계 도출 모듈(130)은 이러한 개체들 간의 "인과관계"를 나타내는 관계를 제2 관계로 도출하게 된다.
관련성 판단 모듈(140)은 관계 도출 모듈(130)에 의해 도출된 관계를 이용하여 제1 개체와 제2 개체 간의 관련성 여부를 판단하도록 구성된다.
즉, 관련성 판단 모듈(140)은 제1 개체와 제2 개체가 관계 도출 모듈(130)에 의해 도출된 관계를 통해 서로 연결되어 있는지 여부를 통해, 해당 개체들이 관련성 있는지 여부를 판단하게 된다.
도 3을 예로 들면, NGF라는 제2 개체는 decrease라는 제3 개체를 통해 ependymomas라는 제1 개체와 연결되어 있으며, 따라서 관련성 판단 모듈(140)은 NGF와 ependymomas가 서로 관련성 있음으로 판단할 수 있다. 또한, NGF는 expression이라는 제3 개체를 통해 childhood brain neoplasms라는 제1 개체와 연결되어 있으며, NGF는 childhood brain neoplasms과 서로 관련성 있음으로 판단할 수 있다.
이렇듯, 관련성 판단 모듈(140)은 문서 데이터에서 추출된 제1 개체와 제2 개체들이 도출된 관계를 통해 서로 연결되어 있는지 여부에 따라, 제1 개체와 제2 개체간의 관련성 여부를 판단하게 된다.
관계 삭제 모듈(150)은 관계 도출 모듈(130)에 의해 도출된 관계가 "관련성 없음"(not associated) 관계를 포함할 경우, "관련성 없음" 관계에 해당하는 관계를 삭제하도록 구성된다.
문서 데이터에 "A 유전자는 B 질병과 관련이 없다"라는 텍스트가 포함되고, 개체 인식 모듈이 "A"라는 제2 개체와 "B"라는 제1 개체를 추출하고, "관련(associated)"이라는 제3 개체를 추출한 경우를 가정하여 보다 구체적으로 설명한다.
이 경우, "A", "B", "관련(associated)"이라는 개체들이 연결관계를 통해 서로 연결될 수 있는데, "관련성 없음" 관계로 연결되어 있는 경우까지의 관계를 추출하게 된다면, 여기에 이어 "A"와 도출된 관계에 따라 서로 연결되는 "C", "D"라는 개체 역시 "B"와 서로 관련이 없다는 관계가 도출될 위험도 있다.
따라서, 관계 도출 모듈(130)에 의해 도출된 관계가 "관련성 없음"일 경우, 예를 들어 "관련"이라는 개체를 추출하는 과정에서 "관련"과 근접한 위치에 "없음, not"등의 용어를 감지하는 경우 "관련성 없음" 관계로 "A"와 "B"가 연결되어 있는 것으로 보아, 관계 삭제 모듈(150)은 해당 "관련성 없음"에 해당하는 관계를 삭제함으로써, 데이터가 방대해지거나 중요도가 낮은(어떤 개체가 다른 개체와 관련성이 없다라는 것은 일반적으로 중요도가 낮은 것으로 판단될 가능성이 높음) 데이터가 추출될 수 있는 문제가 해소될 수 있다.
ID 부여 모듈(160)은 개체 인식 모듈(120)에 의해 추출된 제1 개체 및 제2 개체 각각에 고유의 ID를 부여하도록 구성된다.
즉, 본 발명에 따른 ID 부여 모듈(160)은 제1 개체 및 제2 개체의 범주에 해당하는 임의의 용어에 각각 고유의 ID를 부여하게 되는데, 상기 임의의 용어의 동의어(synonym) 및 축약어(abbreviation) 등 상기 임의의 용어와 동일하다고 판단될 수 있는 용어들에도 상기 임의의 용어와 동일한 ID를 부여하도록 구성된다.
한편, 개체 인식 모듈(120)에 의해 추출된 제1 개체 및 제2 개체 범주에 해당하는 임의의 용어에 2개 이상의 ID가 부여되는 경우가 있을 수 있다. 예를 들어, alpha-fetoprotein의 경우 AFP라는 축약어로도 지칭되며, alpha-fetoprotein과 AFP는 모두 174라는 ID가 부여될 수 있다.
AFP는 TRIM26이라는 유전자의 동의어에도 해당하는데, 즉 AFP는 TRIM26의 ID와 동일한 7726라는 ID가 부여될 수도 있다.
즉, AFP는 174 및 7726이라는 2개의 ID가 부여되는데, 이 경우 ID 부여 모듈(150)은 축약어에 매칭되는 ID(7726)가 아닌 AFP의 풀 네임(full name)에 매칭되는 ID를 AFP의 ID로 부여하게 된다.
ID 부여 모듈(160)에 의한 ID 부여가 완료되면, 각각의 문서 데이터로부터 도 3과 같은 그래프 형태의 단위 데이터가 획득될 수 있다.
일 예에서, 단위 데이터는 하나의 문서 데이터로부터 추출된 제1 개체 내지 제3 개체 간의 연결관계가 표현된 그래프 형태일 수 있으며, 다른 예에서는 제1 개체 및 제2 개체 간의 연결관계만이 표현된 그래프 형태일 수 있고, 또 다른 예에서는 동일 ID를 갖는 개체들을 하나로 통합하는 과정을 거친 후, 제1 개체 및 제2 개체 간의 연결관계가 표현된 그래프 형태일 수 있다(도 6 참조).
통합 모듈(170)은 상기 단위 데이터를 통합하여, 문서 데이터로부터 추출되는 모든 제1 개체 내지 제2 개체 간의 관련성 여부가 포함된 통합 데이터를 생성하도록 구성된다.
통합에 사용되는 단위 데이터의 크기가 작고, 간소화될수록 통합 모듈(170)에 의한 통합 과정이 정확하고 신속하게 이루어질 수 있다는 점을 고려하면, 도 6의 C 형태로 이루어진 단위 데이터를 이용하여 통합 데이터를 생성하는 것이 바람직하다.
통합 모듈(170) 역시, 각 단위 데이터에 포함되어 있으면서 동일 ID를 갖는 개체들을 하나로 통합하는 과정을 수행할 수 있으며, 이에 따라 다수의 문서 데이터 모두가 반영된 하나의 통합 그래프가 생성될 수 있다.
연결 유형 분류 모듈(180)은 통합 모듈(170)에 의해 생성된 통합 그래프를 이용하여 제1 개체 및 제2 개체들 간의 관계 특성에 따라 각 관계를 유형화하도록 구성된다.
예를 들어, "A 유전자"와 "B 질병"이 '변형'이라는 관계를 통해 서로 연결되어 있으면, 연결 유형 분류 모듈(180)은 A와 B의 관계를 "유전자 돌연변이"라는 제1 유형의 관계로 유형화한다.
또한, "A 유전자"와 "B 질병"이 '분자생리활성' 및 '음성조절'(또는 '양성조절')이라는 관계를 통해 서로 연결되어 있으면, 연결 유형 분류 모듈(180)은 A와 B의 관계를 "생리 활성 변화"라는 제2 유형의 관계로 유형화한다.
이에 제한되지 않고, 연결 유형 분류 모듈(180)은 제1 개체 및 제2 개체들 간의 관계를 그 특성에 따라 유형화할 수 있으며, 사용자 선택에 따라 "A"와 특정 유형으로 연결된 개체만을 확인하는 것도 가능하다.
저장 모듈(190)에는 제1 개체 및 제2 개체마다 각각 고유의 ID가 매핑(mapping)되어 저장되고, 기각 대상 개체에 해당하는 용어가 저장된다.
즉, ID 부여 모듈(160)은 개체 인식 모듈(120)에 의해 추출된 제1 개체 및 제2 개체들에 각각 고유의 ID를 부여하게 되는데, 저장 모듈(190)에 저장되어 있는 제1 개체 및 제2 개체마다 각각 매칭되는 ID를 부여하게 되는 것이다.
또한, 개체 인식 모듈(120)에 의해 추출된 제1 개체 및 제2 개체들이, 저장 모듈(190)에 저장되어 있는 기각 대상 개체에 해당하는 경우, 해당 개체는 삭제된다. 기각 대상 개체는 예를 들어, DNA, RNA, rDNA, mRNA 등 용어의 형태 상 제2 개체(유전자)의 축약어로 판단될 가능성이 높은 용어이나 제2 개체에는 해당되지 않은 용어일 수 있으며, 마찬가지로 제1 개체의 축약어로 판단될 가능성이 높은 용어이나 각각의 개체에는 해당되지 않은 용어가 이에 포함될 수 있다.
본 발명에 따른 개체 인식 모듈(120)에 의한 제1 개체 내지 제3 개체의 추출, 그리고 관계 도출 모듈(130)에 의한 관계 도출은 사전 학습된 신경망(Neural Network) 모델을 이용하여 수행될 수 있다.
상기 신경망 모델은 기설정된 구조를 가지며, 인코더(encoder)-디코더(decoder)로 이루어진다.
일 예에서, 인코더는 BERT(Bidirectional Encoder Representations from Transformers) 또는 GPT(Generative Pre-Training)와 같은 임의의 사전 학습된(Pre-training) 신경망 모델일 수 있으며, 디코더는 Feed-forward 신경망, Convolutional 신경망, Recurrent 신경망과 같은 모델일 수 있고, 레이어 정규화(layer normalization)와 드랍아웃(dropout)과 같은 정규화 기술이 적용될 수 있다.
또한, 본 발명에서의 학습 과정은 아래의 단계를 거쳐 수행될 수 있다.
먼저, 문서 데이터를 입력하는 단계가 선행되는데, 일 예에서 문서 데이터는 논문일 수 있으며, 구체적으로는 논문의 초록(abstract)이 입력된다. 입력되는 문서 데이터는 제1 개체 내지 제3 개체가 각각 레이블링(labeling)되어 있을 수 있다.
다음, 초록의 텍스트가 tokenize된다. 여기서, tokenize라는 것은 컴퓨터 내에서 텍스트의 의미를 파악하여 처리할 수 있도록 하는 과정을 의미하며, 텍스트가 의미를 가지는 최소 크기의 데이터로 분리되는 과정을 의미한다.
다음, tokenize의 결과 데이터가 사전 학습된 인코더에 입력되고, 인코더에서 출력되는 문맥 벡터(context vector)를 디코더에 입력하여 텍스트 내에서 제1 개체 내지 제3 개체의 개체 추출과, 제1 개체 내지 제3 개체 간의 관계 도출이 수행될 수 있도록 학습시킨다. 이 때, 개체 추출과 관계 도출이 순차적으로 수행되지 않고, 동시에 수행될 수 있도록 학습시킬 수 있다.
상기한 과정에 따라 신경망 모델의 학습이 완료될 수 있으며, 개체 인식 모듈(120)과 관계 도출 모듈(130)은 사전 학습된 신경망 모델을 이용하여 문서 데이터로부터 개체 추출과 관계 도출을 수행하도록 구성된다.
하지만, 본 발명에서는 전술한 신경망 모델에 제한되지 않고, 질의된 텍스트로부터 제1 개체 내지 제3 개체 추출, 그리고 관계를 도출할 수 있도록 사전 학습을 통해 구현될 수 있는 신경망 모델이면 어느 것이든 적용될 수 있다고 할 것이다.
종래 기술에 따를 경우, 추출의 대상이 되는 용어를 미리 색인 사전에 저장해놓은 후, 미리 저장된 용어만을 텍스트로부터 추출하게 된다. 이 경우, 색인 사전에 미리 저장되지 않은 용어가 텍스트에 포함되어 있다면, 이를 추출하지 못하고 결국에는 기존에 알려진 범위 내에서만 시스템 구축이 가능하다.
하지만, 본 발명의 경우 색인 사전에 저장된 용어를 추출하는 것이 아닌, 예를 들어, 신경망 모델이 텍스트의 어느 부분이 제1 개체 내지 제3 개체 중 어느 개체에 해당하는지 레이블링된 학습 데이터(training data)를 학습하기 때문에, 사전 학습되지 않은 용어에 대해서도 용어 자체의 형태나 전후 맥락 등을 고려하여 개체를 유추 및 추출하는 것이 가능하다. 따라서, 기존의 논문을 통해 알려진 범주뿐만 아니라, 새로운 범주에서의 개체 및 개체 간의 관계를 추출하는 것이 가능하다.
입력 모듈(I)은 입력 장치의 형태를 가질 수 있으며, 예를 들어 터치 패널, 키보드일 수 있으나, 사용자 명령을 입력받아 본 발명에 따른 시스템에 상기 명령을 전송할 수 있는 형태이면 특별히 제한되지는 않는다.
또한, 출력 모듈(O)은 출력 장치의 형태를 가지며, 예를 들어 모니터, 디스플레이 패널일 수 있으나, 본 발명에 따른 시스템의 연산 결과를 육안으로 확인할 수 있는 형태이면 특별히 제한되지는 않는다.
입력 모듈(I)를 통해 입력된 명령(예를 들어, 임의의 텍스트, 텍스트를 포함하는 문서 데이터, 임의의 키워드)이 질의될 수 있으며, 입력된 텍스트, 문서 데이터, 임의의 키워드를 포함하는 논문 데이터들에서 개체들을 추출하고, 추출된 개체들간의 연결관계를 도출하여 이에 기초한 개체들 간의 관련성이 판단되며, 판단된 개체들 간의 관련성 여부가 그래프 형태로서 출력 모듈(O)을 통해 출력될 수 있다.
본 발명에 따르면, 제1 개체와 제2 개체의 단순한 관계만이 도시된 그래프(도 6-C의 형태)가 출력될 수도 있으나, 도 5 및 6-A와 같이 제1 개체와 제2 개체가 관련성 있다고 판단된 근거(제1 개체와 제2 개체의 관계에 포함된 다른 개체들)가 함께 그래프 형태로 출력됨으로써, 관련성 여부를 판단하는 데 사용된 맥락을 직관적으로 확인하는 것도 가능하다.
본 발명에 따른 시스템은 상기한 정보 외에도 다양한 정보를 제공하는 것이 가능하다.
예를 들어, 특정 질병-유전자 쌍의 연결관계가 도출된 문서 데이터들이 어느 시점에 출판되었는지, 그리고 특정 질병-유전자 쌍의 연결관계가 도출된 문서 데이터의 빈도 수 등의 정보를 제공할 수 있다. 질병-유전자 쌍에만 한정되는 것이 아닌, 모든 개체-개체 쌍에 대한 연결관계에 대한 정보가 또한 제공될 수 있다.
문서 데이터는 일 예에서 논문일 수 있으며, 본 발명에 따른 시스템에서 특정 질병-유전자 쌍의 연결관계가 도출된 문서 데이터들의 출판 시점 정보가 제공됨으로써, 연구 트렌드의 확인이 가능하다(예를 들어, 어느 시점에 특정 질병-유전자 쌍의 관계를 서술하는 논문 데이터가 집중되어 출판되었다면, 해당 시점에서는 상기 질병-유전자 쌍에 대한 연구가 활발히 진행된 것으로 확인할 수 있음).
또한, 본 발명에 따른 시스템에서 질병-유전자 쌍의 연결관계가 도출된 문서 데이터의 빈도 수가 제공됨으로써, 중요도의 확인이 가능하다(예를 들어, 특정 질병-유전자 쌍의 연결관계가 도출된 문서 데이터의 개수가 다른 질병-유전자 쌍의 연결관계가 도출된 문서 데이터의 개수보다 월등히 많다면, 해당 질병-유전자 쌍이 보다 중요도가 높다고 판단할 수 있음).
이하에서는, 도 7을 참조하여 본 발명의 실시예에 따른 방법을 구체적으로 설명한다.
먼저, 시스템(100)은 학습 모듈(L)에 의해 기설정된 구조를 갖는 신경망 모델이, 문서 데이터로부터 제1 개체 내지 제3 개체를 추출하고 제1 개체 내지 제3 개체들간의 관계를 도출하도록 사전 학습시킨다(S71).
본 발명의 실시예에서는, 신경망 모델이 문서 데이터로부터 제1 개체 내지 제3 개체를 추출하도록 학습하는 단계와, 제1 개체 내지 제3 개체들 간의 관계를 도출하도록 학습하는 단계가 연속적으로(sequentially) 이루어질 수 있으며, 다른 실시예에서는 신경망 모델이 문서 데이터로부터 제1 개체 내지 제3 개체를 추출하도록 학습하는 단계와, 제1 개체 내지 제3 개체들 간의 관계를 도출하도록 학습하는 단계가 동시에(simultaneously) 이루어질 수 있다.
학습 데이터는 제1 개체 내지 제3 개체가 각각 레이블링된 문서 데이터일 수 있다. 사전 학습이 이루어짐에 따라, 시스템(100)의 개체 인식 모듈(120)과 관계 도출 모듈(130)은 상기 신경망 모델을 이용하여 다량의 비정형의 텍스트(질의된 임의의 텍스트, 문서 데이터 등)로부터 제1 개체 내지 제3 개체를 추출하고, 개체들 간 관계를 동시에 도출하여, 이로부터 질병과 유전자 또는 단백질 간의 연관성에 대한 정보를 종합적이고 효율적으로 추출하는 것이 가능하게 된다.
다음, 입력 모듈(I)을 통해 텍스트, 텍스트를 포함하는 문서 데이터 또는 임의의 키워드가 질의된다(S72).
다음, 개체 인식 모듈(120)은 상기 신경망 모델을 이용하여 텍스트, 문서 데이터, 임의의 키워드를 포함하는 논문에 포함된 텍스트 중 질병, 유전자 및 단백질 관련 용어인 제1 개체 및 제2 개체를 각각 추출하고, 문서 데이터에 포함된 텍스트 중 제1 개체 및 제2 개체 간의 관계를 설명하는 용어를 제3 개체로 각각 추출하게 된다(S73). 그리고, 관계 도출 모듈(130)은 다수의 문장을 고려하여 제1 개체 내지 제3 개체 간의 관계를 도출하고, 도출된 관계에 따라 제1 개체 내지 제3 개체를 서로 연결하게 된다(S74).
여기서, 개체 인식 모듈(120)에 의해 추출된 개체들이 저장 모듈(190)에 미리 저장되어 있는 기각 대상 용어에 해당하는 경우, 해당 개체는 삭제될 수 있다.
또한, 관계 삭제 모듈(140)은 관계 추출 모듈(130)에 의해 추출된 관계가 "관련성 없음"에 해당하는 경우, "관련성 없음"에 해당하는 연결관계를 삭제하게 된다.
관련성 판단 모듈(140)은 제1 개체와 제2 개체가 도출된 관계를 통해 서로 연결되는지 여부에 기초하여, 제1 개체와 제2 개체 간의 관련성 여부를 판단하게 된다(S75).
다음, 시스템(100)의 ID 부여 모듈(160)이 추출된 제1 개체 및 제2 개체들 각각에 고유의 ID를 부여하게 된다.
저장 모듈(190)에는 제1 개체 및 제2 개체들 각각마다 고유의 ID가 매칭(매핑)되어 저장되어 있으며(즉, 제1 개체-ID 쌍, 제2 개체-ID 쌍으로 이루어진 정보가 저장되어 있음), ID 부여 모듈(160)은 상기 정보와 n-gram 기술을 이용하여 추출된 개체들에 ID를 부여하게 된다.
ID 부여 모듈(160)에 의한 ID 부여가 완료되면, 각각의 문서 데이터로부터 추출된 개체들, 그리고 개체들 간의 관계를 이용하여 도 5 및 6에 도시된 바와 같은 단위 데이터가 생성될 수 있다.
시스템(100)의 통합 모듈(170)은 다수의 단위 데이터를 통합하여 통합 데이터를 생성하게 된다(S76). 예를 들어, 동일한 ID를 갖는 개체들을 중복 처리하여 한데 모으고, 마찬가지로 동일한 관계를 중복 처리하는 방식으로 다수의 문서 데이터로부터 추출된 정보들이 반영된 통합 데이터를 생성할 수 있다.
여기서, 통합 데이터는 도 5 및 6에 도시된 바와 같은 그래프 데이터 형태일 수 있으며, 이에 따라 특정 개체와 관련성 있는 개체들을 직관적으로 확인하는 것이 가능하다.
시스템(100)의 연결 유형 분류 모듈(180)은 통합 데이터를 이용하여, 각 개체 간의 관계를 그 특성에 따라 유형화한다. 예를 들어, "A 유전자"와 "B 질병"이 '변형'이라는 관계를 통해 서로 연결되어 있으면, 연결 유형 분류 모듈(180)은 A와 B의 관계를 "유전자 돌연변이"라는 제1 유형의 관계로 유형화한다. 이에 제한되지 않고, 연결 유형 분류 모듈(180)은 개체 간의 관계의 특성에 따라, 해당 관계를 제1 내지 제n 유형 중 어느 하나의 유형으로 분류할 수 있다.
이에 따라, 사용자가 임의의 질병과 특정 유형으로 연결된 개체만을 확인하는 것도 가능하다.
본 발명의 실시예에 따른 시스템의 구성 전체 내지 적어도 일부는 하드웨어 모듈 형태 또는 소프트웨어 모듈 형태로 구현되거나, 하드웨어 모듈과 소프트웨어 모듈이 조합된 형태로도 구현될 수 있다.
여기서, 소프트웨어 모듈이란, 예컨대, 질병 관련 인자 예측 시스템 내에서 연산을 제어하는 프로세서에 의해 실행되는 명령어로 이해될 수 있으며, 이러한 명령어는 질병 관련 인자 예측 시스템 내 메모리에 탑재된 형태를 가질 수 있을 것이다.
이상 본 발명의 바람직한 실시 예를 참조하여 설명하였지만, 당업계에서 통상의 지식을 가진 자라면 이하의 청구범위에 기재된 본 발명의 사상 및 영역을 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
100: 시스템
110: 통신 모듈
120: 개체 인식 모듈
130: 관계 도출 모듈
140: 관련성 판단 모듈
150: 관계 삭제 모듈
160: ID 부여 모듈
170: 통합 모듈
180: 연결 유형 분류 모듈
190: 저장 모듈
I: 입력 모듈
O: 출력 모듈
L: 학습 모듈
110: 통신 모듈
120: 개체 인식 모듈
130: 관계 도출 모듈
140: 관련성 판단 모듈
150: 관계 삭제 모듈
160: ID 부여 모듈
170: 통합 모듈
180: 연결 유형 분류 모듈
190: 저장 모듈
I: 입력 모듈
O: 출력 모듈
L: 학습 모듈
Claims (19)
- 하나 이상의 문서 데이터로부터 질병(disease), 유전자(gene) 및 단백질(protein) 관련 용어를 추출하고, 각 용어 간의 관계(relation)를 추출하는 방법으로서,
(a0) 학습 모듈(L)에 의해, 기설정된 구조를 갖는 신경망(Neural Network)이 질병을 지칭하는 용어가 제1 개체로, 유전자를 지칭하는 용어 또는 단백질을 지칭하는 용어가 제2 개체로, 그리고 상기 질병을 지칭하는 용어와 상기 유전자를 지칭하는 용어 또는 상기 단백질을 지칭하는 용어 사이의 관계를 서술하는 용어가 제3 개체로 각각 레이블링(labeling)된 데이터의 문맥 벡터(context vector)를 학습 데이터로 하여, 상기 신경망이 질의되는 텍스트 또는 문서 데이터에 포함된 텍스트로부터 제1 개체 내지 제3 개체를 추출하도록 사전 학습되는 과정과, 상기 신경망이 질의되는 텍스트 또는 문서 데이터에 포함된 텍스트로부터 제1 개체 내지 제3 개체 간의 관계를 도출하도록 사전 학습되는 과정이 동시에(simultaneously) 이루어지는 단계;
(a) 상기 (a0) 단계에서 사전 학습된 상기 신경망에 의해, 개체 인식 (entity recognition) 모듈(120)이 상기 신경망에 질의되는 텍스트 또는 문서 데이터에 포함된 텍스트로부터 제1 개체 내지 제3 개체를 추출하는 단계;
(b) 상기 (a0) 단계에서 사전 학습된 상기 신경망에 의해, 관계 도출(relation extraction) 모듈(130)이 상기 신경망에 질의되는 텍스트 또는 문서 데이터에 포함된 텍스트로부터 제1 개체 내지 제3 개체간의 관계를 도출하여 도출된 관계에 따라 상기 제1 개체 내지 제3 개체를 연결하는 단계;
(c) 관련성 판단 모듈(140)이 상기 제1 개체와 상기 제2 개체가 상기 (b) 단계에서 서로 연결되는지 여부에 기초하여, 상기 제1 개체와 상기 제2 개체 간의 관련성 여부를 판단하는 단계; 및
(d) 통합 모듈(170)이 상기 하나 이상의 문서 데이터 각각에 대해 상기 (c) 단계에서 판단된 상기 제1 개체와 상기 제2 개체 간의 관련성 여부를 통합하여 통합 데이터를 생성하는 단계;를 포함하며,
상기 (a) 단계와 (b) 단계는 동시에 수행되고,
상기 제1 개체 내지 제3 개체 간의 관계는, 질의되는 텍스트 또는 문서 데이터의 텍스트에 포함되면서 제1 개체 내지 제3 개체로 추출되지 않은 용어들의 맥락 또는 상기 용어들이 연결된 형태를 이용하여 도출되는 것을 특징으로 하는,
문서 데이터에서 질병 관련 인자들 간의 관계를 추출하는 방법.
- 제1항에 있어서,
상기 (a0) 단계 이후 상기 (a) 단계 이전,
입력 모듈(I)을 통해 텍스트(text) 또는 텍스트를 포함하는 문서 데이터가 질의되거나, 임의의 키워드가 질의되는 단계를 더 포함하고,
상기 (a) 단계는,
상기 질의된 키워드를 포함하는 문서 데이터들을 수집하여, 상기 신경망에 의해, 상기 개체 인식 모듈(120)이 수집된 문서 데이터들로부터 제1 개체 내지 제3 개체를 추출하는 단계를 더 포함하고,
상기 (b) 단계는, 상기 신경망에 의해, 상기 관계 도출 모듈(130)이 수집된 문서 데이터들로부터 제1 개체 내지 제3 개체 간의 관계를 도출하는 단계를 더 포함하는,
문서 데이터에서 질병 관련 인자들 간의 관계를 추출하는 방법.
- 제1항에 있어서,
상기 (d) 단계 이후,
(e) 출력 모듈(O)을 통해 상기 통합 데이터가 그래프 형태로 출력되되, 관련성 있다고 판단된 제1 개체와 제2 개체 간의 관계만이 표현된 통합 데이터가 그래프 형태로 출력되거나, 관련성 있다고 판단된 제1 개체와 제2 개체 간의 관계에 포함된 제1 개체 내지 제3 개체가 함께 출력되는 단계를 더 포함하는,
문서 데이터에서 질병 관련 인자들 간의 관계를 추출하는 방법.
- 제1항에 있어서,
상기 (b) 단계는,
상기 관계 도출 모듈(130)이 상기 개체들 간의 관계를 개체들의 상태를 나타내는 제1 관계 또는 개체들 간의 인과관계를 나타내는 제2 관계로 도출하는 단계를 더 포함하는,
문서 데이터에서 질병 관련 인자들 간의 관계를 추출하는 방법.
- 제1항에 있어서,
문서 데이터에 포함된 하나 이상의 문장에 대해 상기 (a) 단계와 상기 (b) 단계가 수행될 수 있으며,
상기 (b) 단계는,
관계 도출 모듈(130)이, 적어도 2개 이상의 문장이 제1 개체 내지 제3 개체를 포함하는 경우, 상기 관계 도출 모듈(130)이 상기 제1 개체 내지 제3 개체 간의 관계를 도출함으로써 상기 제1 개체 내지 제3 개체를 서로 연결하는 단계를 더 포함하는,
문서 데이터에서 질병 관련 인자들 간의 관계를 추출하는 방법.
- 제1항에 있어서,
ID 부여 모듈(160)이 상기 (a) 단계에서 추출된 제1 개체와 제2 개체들 각각에 고유의 ID를 부여하되, 상기 ID 부여 모듈(160)이 임의의 용어의 동의어(synonym) 및 축약어(abbreviation)를 상기 임의의 용어와 동일한 용어로 판단하여, 상기 동의어 및 상기 축약어에도 상기 임의의 용어와 동일한 ID를 부여하는 단계를 포함하는,
문서 데이터에서 질병 관련 인자들 간의 관계를 추출하는 방법.
- 제6항에 있어서,
임의의 용어에 2개 이상의 ID가 부여되는 경우, 상기 ID 부여 모듈(160)이 상기 2개 이상의 ID 중 축약어에 매칭되는 ID가 아닌 풀 네임(full name)에 매칭되는 ID를 상기 임의의 용어의 ID로 부여하는 단계를 더 포함하는,
문서 데이터에서 질병 관련 인자들 간의 관계를 추출하는 방법.
- 제1항에 있어서,
상기 관계 도출 모듈(130)에 의해 도출된 개체들 간의 관계가 “관련성 없음”을 포함하는 경우, 관계 삭제 모듈(150)이 상기 “관련성 없음”에 매칭되는 관계를 삭제하는 단계를 더 포함하는,
문서 데이터에서 질병 관련 인자들 간의 관계를 추출하는 방법.
- 제1항에 있어서,
상기 (b) 단계에서,
문서 데이터에서 상기 관계 도출 모듈(130)에 의해 복수의 제1 개체가 복수의 제2 개체와 서로 각각 연결된 경우,
상기 관계 도출 모듈(130)이 상기 복수의 제1 개체 중 어느 하나의 제1 개체는 상기 복수의 제2 개체 중 어느 하나의 제2 개체와만 연결되도록 하되, 상기 복수의 제1 개체 중 다른 하나의 제1 개체는 상기 어느 하나의 제2 개체와는 다른 하나의 제2 개체와만 연결되도록 하는 단계를 더 포함하는,
문서 데이터에서 질병 관련 인자들 간의 관계를 추출하는 방법.
- 제1항에 있어서,
상기 개체 인식 모듈(120)에 의해 제1 개체 및 제2 개체로 추출되었으나, 추출된 개체가 기설정된 기각 대상 개체 범주에 포함된 경우, 추출된 해당 개체가 삭제되는 단계를 더 포함하는,
문서 데이터에서 질병 관련 인자들 간의 관계를 추출하는 방법.
- 제1항에 있어서,
상기 (d) 단계 이후,
연결 유형 분류 모듈(170)이, 상기 통합 데이터에 포함된 제1 개체와 제2 개체 간의 관계를 그 특성에 따라 서로 다른 유형으로 분류하는 단계를 더 포함하는,
문서 데이터에서 질병 관련 인자들 간의 관계를 추출하는 방법.
- 제1항에 있어서,
상기 질병을 지칭하는 용어와 상기 유전자를 지칭하는 용어 또는 상기 단백질을 지칭하는 용어 사이의 관계를 서술하는 용어는, 변형(variation), 분자 생리 활성(molecular physiological activity), 상호작용(interaction), 경로(pathway), 세포 생리 활성(cell physiological activity), 조절(regulation), 양성 조절(positive regulation) 및 음성 조절(negative regulation) 관련 용어 중 하나 이상을 포함하는,
문서 데이터에서 질병 관련 인자들 간의 관계를 추출하는 방법.
- 삭제
- 삭제
- 삭제
- 삭제
- 제6항에 있어서,
상기 (d) 단계는,
(d1) 상기 통합 모듈(170)이, 하나의 문서 데이터로부터 추출된 제1 개체 내지 제3 개체들이 도출된 관계에 따라 서로 연결된 데이터인 단위 데이터를 생성하는 단계; 및
(d2) 상기 통합 모듈(170)이 각각의 단위 데이터를 통합하여 통합 데이터를 생성하는 단계로서, 동일한 ID가 부여된 제1 개체 및 제2 개체들과, 이에 연결된 제1 개체 및 제2 개체들을 통합함으로써 상기 통합 데이터를 생성하는 단계;를 포함하는,
문서 데이터에서 질병 관련 인자들 간의 관계를 추출하는 방법.
- 제1항 내지 제12항 및 제17항 중 어느 한 항에 따른 방법을 사용하여 구축된,
시스템.
- 제1항 내지 제12항 및 제17항 중 어느 한 항에 따른 방법을 실행하도록 컴퓨터 판독 가능한 기록 매체에 저장된,
컴퓨터 프로그램.
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/KR2021/009271 WO2022035074A1 (ko) | 2020-08-13 | 2021-07-19 | 문서 데이터에서 질병 관련 인자들 간의 관계를 추출하는 방법 및 이를 이용하여 구축되는 시스템 |
US18/020,829 US20230326609A1 (en) | 2020-08-13 | 2021-07-19 | Method for identifying association between disease-related factors from document data, and system constructed using same |
EP21856080.3A EP4199003A4 (en) | 2020-08-13 | 2021-07-19 | METHOD FOR EXTRACTING THE RELATIONSHIP BETWEEN DISEASE-RELATED FACTORS FROM DOCUMENT DATA AND SYSTEM CONSTRUCTED THEREFROM |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200101764 | 2020-08-13 | ||
KR20200101764 | 2020-08-13 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR102233464B1 true KR102233464B1 (ko) | 2021-03-30 |
Family
ID=75264878
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020200176766A KR102233464B1 (ko) | 2020-08-13 | 2020-12-16 | 문서 데이터에서 질병 관련 인자들 간의 관계를 추출하는 방법 및 이를 이용하여 구축되는 시스템 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20230326609A1 (ko) |
EP (1) | EP4199003A4 (ko) |
KR (1) | KR102233464B1 (ko) |
WO (1) | WO2022035074A1 (ko) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022035074A1 (ko) * | 2020-08-13 | 2022-02-17 | 주식회사 스탠다임 | 문서 데이터에서 질병 관련 인자들 간의 관계를 추출하는 방법 및 이를 이용하여 구축되는 시스템 |
WO2023121165A1 (ko) * | 2021-12-21 | 2023-06-29 | 주식회사 스탠다임 | 문서 데이터로부터 질병, 유전자, 물질 및 증상을 포함하는 엔티티 간의 연관성을 예측하고 단위 논거 텍스트를 출력하는 모델의 생성 방법 및 이를 이용한 시스템 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002269114A (ja) | 2001-03-14 | 2002-09-20 | Kousaku Ookubo | 知識データベース及び知識データベースの構築方法 |
KR20050060646A (ko) * | 2003-12-17 | 2005-06-22 | 엄재홍 | 생물학 관련 텍스트에서 생물학개체들간의 상호작용 추출및 추론 방법, 그 방법을 실행하기 위한 프로그램 및 그프로그램을 저장한 기록매체 |
KR101243063B1 (ko) * | 2012-08-03 | 2013-03-13 | 한국과학기술정보연구원 | 패스웨이 구축 시스템 및 방법 |
KR20200080571A (ko) * | 2018-12-27 | 2020-07-07 | 에스케이 주식회사 | 키워드와 관계 정보를 이용한 정보 검색 시스템 및 방법 |
KR20200139861A (ko) | 2019-06-04 | 2020-12-15 | 현대자동차주식회사 | 자동차의 배기가스 정화장치 및 그 제어방법 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060053172A1 (en) * | 2004-09-03 | 2006-03-09 | Biowisdom Limited | System and method for creating, editing, and using multi-relational ontologies |
CN101305366B (zh) * | 2005-11-29 | 2013-02-06 | 国际商业机器公司 | 从非结构化文本提取和显现图表结构化关系的方法和系统 |
WO2017094967A1 (ko) * | 2015-12-03 | 2017-06-08 | 한국과학기술원 | 자연 언어 처리 스키마 및 그 지식 데이터베이스 구축 방법 및 시스템 |
KR101875306B1 (ko) * | 2017-01-11 | 2018-07-05 | 전북대학교산학협력단 | 의료용어 클러스터를 이용한 질병정보제공시스템 |
EP3550568B1 (en) * | 2018-04-07 | 2023-07-05 | Tata Consultancy Services Limited | Graph convolution based gene prioritization on heterogeneous networks |
GB201815664D0 (en) * | 2018-09-26 | 2018-11-07 | Benevolentai Tech Limited | Hierarchical relationship extraction |
US10957433B2 (en) * | 2018-12-03 | 2021-03-23 | Tempus Labs, Inc. | Clinical concept identification, extraction, and prediction system and related methods |
WO2020139861A1 (en) | 2018-12-24 | 2020-07-02 | Roam Analytics, Inc. | Constructing a knowledge graph employing multiple subgraphs and a linking layer including multiple linking nodes |
KR102233464B1 (ko) * | 2020-08-13 | 2021-03-30 | 주식회사 스탠다임 | 문서 데이터에서 질병 관련 인자들 간의 관계를 추출하는 방법 및 이를 이용하여 구축되는 시스템 |
-
2020
- 2020-12-16 KR KR1020200176766A patent/KR102233464B1/ko active IP Right Grant
-
2021
- 2021-07-19 EP EP21856080.3A patent/EP4199003A4/en active Pending
- 2021-07-19 WO PCT/KR2021/009271 patent/WO2022035074A1/ko unknown
- 2021-07-19 US US18/020,829 patent/US20230326609A1/en active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002269114A (ja) | 2001-03-14 | 2002-09-20 | Kousaku Ookubo | 知識データベース及び知識データベースの構築方法 |
KR20050060646A (ko) * | 2003-12-17 | 2005-06-22 | 엄재홍 | 생물학 관련 텍스트에서 생물학개체들간의 상호작용 추출및 추론 방법, 그 방법을 실행하기 위한 프로그램 및 그프로그램을 저장한 기록매체 |
KR101243063B1 (ko) * | 2012-08-03 | 2013-03-13 | 한국과학기술정보연구원 | 패스웨이 구축 시스템 및 방법 |
KR20200080571A (ko) * | 2018-12-27 | 2020-07-07 | 에스케이 주식회사 | 키워드와 관계 정보를 이용한 정보 검색 시스템 및 방법 |
KR20200139861A (ko) | 2019-06-04 | 2020-12-15 | 현대자동차주식회사 | 자동차의 배기가스 정화장치 및 그 제어방법 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022035074A1 (ko) * | 2020-08-13 | 2022-02-17 | 주식회사 스탠다임 | 문서 데이터에서 질병 관련 인자들 간의 관계를 추출하는 방법 및 이를 이용하여 구축되는 시스템 |
WO2023121165A1 (ko) * | 2021-12-21 | 2023-06-29 | 주식회사 스탠다임 | 문서 데이터로부터 질병, 유전자, 물질 및 증상을 포함하는 엔티티 간의 연관성을 예측하고 단위 논거 텍스트를 출력하는 모델의 생성 방법 및 이를 이용한 시스템 |
Also Published As
Publication number | Publication date |
---|---|
US20230326609A1 (en) | 2023-10-12 |
EP4199003A4 (en) | 2024-01-24 |
WO2022035074A1 (ko) | 2022-02-17 |
EP4199003A1 (en) | 2023-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9916304B2 (en) | Method of creating translation corpus | |
Medhat et al. | Sentiment analysis algorithms and applications: A survey | |
Bae et al. | Interactive clustering: A comprehensive review | |
Chartier et al. | Text mining methods for social representation analysis in large corpora | |
Yu et al. | Using a contextual entropy model to expand emotion words and their intensity for the sentiment classification of stock market news | |
US11295071B2 (en) | Graphical systems and methods for human-in-the-loop machine intelligence | |
CN110619044B (zh) | 一种情感分析方法、系统、存储介质及设备 | |
KR102233464B1 (ko) | 문서 데이터에서 질병 관련 인자들 간의 관계를 추출하는 방법 및 이를 이용하여 구축되는 시스템 | |
RU2583716C2 (ru) | Метод построения и обнаружения тематической структуры корпуса | |
Mohamed et al. | A hybrid approach for paraphrase identification based on knowledge-enriched semantic heuristics | |
US20200035229A1 (en) | Word clustering and categorization | |
US20210141842A1 (en) | Visual Mapping of Aggregate Causal Frameworks for Constructs, Relationships, and Meta-Analyses | |
KR102285142B1 (ko) | 챗봇을 위한 학습 데이터 추천 장치 및 방법 | |
Cambria et al. | Sentic API: a common-sense based API for concept-level sentiment analysis | |
CN111241839B (zh) | 实体识别方法、装置、计算机可读存储介质和计算机设备 | |
CN112613324A (zh) | 语义情绪识别方法、装置、设备及存储介质 | |
Karami | Fuzzy topic modeling for medical corpora | |
Tabak et al. | Comparison of emotion lexicons | |
Huddar et al. | Multi‐level feature optimization and multimodal contextual fusion for sentiment analysis and emotion classification | |
CN112035675A (zh) | 医疗文本标注方法、装置、设备及存储介质 | |
CN113742493A (zh) | 一种病理知识图谱的构建方法及装置 | |
Ajitha et al. | Design of text sentiment analysis tool using feature extraction based on fusing machine learning algorithms | |
EP3876137A1 (en) | System for identifying named entities with dynamic parameters | |
CN116882414B (zh) | 基于大规模语言模型的评语自动生成方法及相关装置 | |
WO2020018224A1 (en) | Task execution based on activity clusters |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |