KR100575495B1 - Method for Extracting and Inferring the Interaction of Biological Components, Inferring Program for Performing the Method and Recording Medium thereof - Google Patents

Method for Extracting and Inferring the Interaction of Biological Components, Inferring Program for Performing the Method and Recording Medium thereof Download PDF

Info

Publication number
KR100575495B1
KR100575495B1 KR20030092331A KR20030092331A KR100575495B1 KR 100575495 B1 KR100575495 B1 KR 100575495B1 KR 20030092331 A KR20030092331 A KR 20030092331A KR 20030092331 A KR20030092331 A KR 20030092331A KR 100575495 B1 KR100575495 B1 KR 100575495B1
Authority
KR
South Korea
Prior art keywords
interaction
information
biological
extracting
text
Prior art date
Application number
KR20030092331A
Other languages
Korean (ko)
Other versions
KR20050060646A (en
Inventor
엄재홍
장병탁
황영숙
임해창
이기중
전홍우
박경미
Original Assignee
엄재홍
장병탁
임해창
황영숙
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엄재홍, 장병탁, 임해창, 황영숙 filed Critical 엄재홍
Priority to KR20030092331A priority Critical patent/KR100575495B1/en
Publication of KR20050060646A publication Critical patent/KR20050060646A/en
Application granted granted Critical
Publication of KR100575495B1 publication Critical patent/KR100575495B1/en

Links

Images

Abstract

본 발명은 생물학 관련 텍스트에서 생물학개체들간의 상호작용 추출 및 추론 방법, 그 방법을 실행하기 위한 프로그램 및 그 프로그램을 저장한 기록매체에 관한 것으로서, 분석의 대상이 되는 텍스트 데이터를 대상으로 자연어처리기술을 사용하여 텍스트 분석을 수행하고, 추출된 1차적 상호작용정보들로부터 고차원적 상호작용정보를 추론하고, 개체들 간의 상호작용관계를 시각화하여 보여준다.The present invention relates to a method for extracting and inferring interactions between biological objects in a text related to biology, a program for executing the method, and a recording medium storing the program. We perform text analysis using, deduce high-level interaction information from extracted primary interaction information, and visualize and show interaction relations between objects.

바이오 텍스트, 바이오인포매틱스, 상호작용관계, 유전자, 단백질Bio Text, Bioinformatics, Interaction, Genes, Proteins

Description

생물학 관련 텍스트에서 생물학개체들간의 상호작용 추출 및 추론 방법, 그 방법을 실행하기 위한 프로그램 및 그 프로그램을 저장한 기록매체{Method for Extracting and Inferring the Interaction of Biological Components, Inferring Program for Performing the Method and Recording Medium thereof}Methods for Extracting and Inferring the Interaction of Biological Components, Inferring Program for Performing the Method and Recording in Biological Texts Medium kind}

도1은 본 발명에 따른 상호작용관계 추론 시스템의 개요를 나타낸 구조도.1 is a structural diagram showing an overview of an interaction relationship inference system according to the present invention.

도2는 텍스트 분석 단계의 개요를 나타낸 구조도.2 is a structural diagram showing an outline of a text analysis step;

도3은 개체명 인식의 개요를 나타낸 구조도.3 is a structural diagram showing an overview of entity name recognition.

도4는 표층적 구문분석의 개요를 나타낸 구조도.4 is a structural diagram showing an overview of surface parsing.

도5는 상호작용관계 추출의 개요를 나타낸 구조도.5 is a structural diagram showing an outline of interaction relationship extraction;

도6은 관계 추론 및 시각화 단계의 개요를 나타낸 구조도.6 is a structural diagram showing an overview of the relationship inference and visualization steps.

도7은 가시화를 위한 인터페이스의 실시 예를 나타낸 구조도.7 is a structural diagram illustrating an embodiment of an interface for visualization;

본 발명은 생물학 관련 텍스트에서 생물학개체들간의 상호작용 추출 및 추론 방법, 그 방법을 실행하기 위한 프로그램 및 그 프로그램을 저장한 기록매체에 관한 것으로서, 보다 상세하게는 생명공학의 논문이나 저서 등의 여러 가지 문헌에 등장하는 각종 용어들의 상호작용관계를 추출하고 논리적으로 추론하여, 상호간의 연관성과 유사도를 파악하고 이를 시각적으로 표시하는 생물학 관련 텍스트에서 생물학개체들간의 상호작용 추출 및 추론 방법, 그 방법을 실행하기 위한 프로그램 및 그 프로그램을 저장한 기록매체에 관한 것이다.The present invention relates to a method for extracting and inferring interactions between biological objects in a text related to biology, a program for executing the method, and a recording medium storing the program. Extracting and logically inferring the interaction relations of various terms appearing in the literature, and identifying the interactions and similarities between them and visually displaying them. A program for execution and a recording medium storing the program.

바이오인포매틱스는 생물학에서 다루는 정보의 양이 급증함에 따라 전산학, 수학, 통계학 등의 분야에서 사용되고 있는 정보처리 기법을 응용하여 이를 효율적으로 생산, 관리, 활용하려는 연구분야를 총칭한다.Bioinformatics is a general field of research that intends to efficiently produce, manage, and utilize information processing techniques used in fields such as computer science, mathematics, and statistics as the amount of information dealing with biology increases rapidly.

본 발명에서는 바이오인포매틱스 분야 중 바이오텍스트마이닝에 대해 살펴보고자 한다.In the present invention, we will look at biotext mining in the field of bioinformatics.

본 발명에서 의미하는 바이오텍스트마이닝은 바이오관련 텍스트에 데이터마이닝 기술을 적용하는 것으로, 폭발적으로 증가하고 있는 바이오 관련 문헌의 효과적인 처리를 통해 필요한 지식을 획득하기 위한 것이다.Biotext mining in the present invention is to apply data mining technology to bio-related texts, and is to obtain necessary knowledge through effective processing of an explosion of bio-related literature.

즉, 게놈 프로젝트의 성공 이후 생물학 등 바이오 테크놀로지(BT)와 관련된 다양한 연구결과가 발표되고 있으며, 관련 문헌수의 양적인 증가는 점차 가속화되고 있다. 이처럼 생물학분야에서는 새로운 형태의 단백질 혹은 유전자 명칭들이나, 이들 간의 관계에 관한 새로운 연구관련 문헌이 끊임없이 쏟아지고 있기 때문에 일선 분야의 학자들이나 연구자들은 점차 원하는 정보를 얻기가 어려워지고 있다. 따라서 BT관련 문헌 데이터베이스에서 유의미한 정보를 추출해내는 바이오텍스트마이닝 기술의 중요성은 점점 더 강조되고 있다. 때문에 텍스트마이닝 기술을 정보에 대한 접근에 많은 문제를 겪고 있는 생물학 관련 분야에 활용한다면 생물학 연구 분야의 연구 효율성 제고에 많은 기여를 할 수 있을 것으로 예상된다. 특히 최근의 연구 결과들이 대부분 온라인 접근이 가능한 전자문서나 데이터베이스 형태로 존재하기 때문에 이러한 마이닝 기술을 보다 효율적으로 활용할 수 있는 기반환경은 이미 조성되어 있다고 할 수 있다.That is, after the success of the genome project, various research results related to biotechnology (BT) such as biology have been published, and the quantitative increase in the number of related documents is gradually accelerating. In the field of biology, new types of protein or gene names and new research literature on the relationship between them are constantly flowing, making it difficult for scholars and researchers in the field to obtain the information they want. Therefore, the importance of biotext mining techniques for extracting meaningful information from BT-related literature databases is increasingly emphasized. Therefore, if the text mining technology is applied to the biology-related field that has a lot of problems with access to information, it can be contributed to the improvement of research efficiency in the biological research field. In particular, since most of the recent research results exist in the form of electronic documents or databases that can be accessed online, the foundation environment for the efficient use of such mining technology is already established.

바이오 분야에 적용되는 데이터마이닝 기술은 생물학관련 문서들이 자연언어로 되어 있기 때문에 1차적으로 텍스트를 분석하기 위한 자연언어처리 기술과, 고차원적인 관계를 추론하는 데이터마이닝 관련 학습 알고리즘을 필요로 한다. 이 기술들을 적용해 바이오 관련 텍스트로부터 추출하는 유용한 정보는 단백질과 단백질, 또는 유전자와 유전자 사이의 상호작용(interaction)관계이다. 텍스트로부터 개체들 간에 상호작용관계를 자동으로 추출해 데이터베이스에 저장하면, 특정 단백질이나 유전자에 대한 검색을 통해 그와 상호작용관계를 갖는 모든 단백질 및 유전자 정보를 그래프 등으로 볼 수 있고 각각이 어떤 관계를 갖는지를 알 수 있게 된다. 이를 통해 생물학관련 연구자는 여러 가지로 도움을 받을 수 있다.Data mining technology applied to the biotechnology field requires natural language processing technology for analyzing texts and data mining-related learning algorithms that infer high-dimensional relationships because biological documents are in natural language. The useful information extracted from bio-related texts by applying these techniques is the interaction between proteins and proteins, or between genes and genes. By automatically extracting interactions between entities from text and storing them in a database, you can search for specific proteins or genes and view all the proteins and genes that interact with them in graphs, and each of them You will know if you have it. This can help biology researchers in many ways.

종래에 개시된 시스템으로는 우선 MedStract가 있다. MedStract는 개체간의 상호작용정보를 자동으로 추출하는 시스템으로 추론과정 없이 견고한 자연언어처리 기술만을 사용한다. 이 시스템에서는 바이오 텍스트에 특징적으로 나타나는 단어들을 고려해 UMLS 시소러스에 수반된 사전을 사용하여 개체명과 품사를 인식한다. MedStract는 독립된 몇 가지 오토마타를 단계적으로 적용해 명사구와 동사구 등을 인식하고, 정의한 패턴에 따라 상호작용정보를 추출한다. 그리고 웹에 기반을 둔 사용자 인터페이스를 제공하는데 키워드 검색결과가 테이블과 그래프 형태로 주어 진다.A conventionally disclosed system is MedStract. MedStract is a system that automatically extracts interaction information between objects and uses only solid natural language processing technology without inference process. The system recognizes individual names and parts-of-speech using dictionaries that accompany UMLS thesaurus, taking into account words that are characteristic of biotext. MedStract applies several independent automata step by step to recognize noun phrases and verb phrases, and extracts the interaction information according to the defined pattern. It provides a web-based user interface where keyword search results are given in the form of tables and graphs.

다음으로, GENIES는 생물학 관련 문헌들에서 molecular pathway를 추출하는 자연언어처리 시스템이다. 이것은 GeneWay를 구성하는 모듈 중 하나로 MedLEE를 변형한 것이다. GENIES는 단백질 또는 유전자 명칭을 확인하는 Term tagger와 문장, 단어, 구를 결정하는 Preprocessor, 그리고 제약 규칙과 의미적 패턴으로 되어 있는 문법을 사용해 적절한 상호작용관계를 확인하는 Parser, 구문분석의 오류를 여러 가지 휴리스틱을 사용해 처리하는 Error recovery모듈로 구성되어 있다. 이 시스템은 추출된 개체간의 상호작용정보를 이용해 pathway를 구성한다.Next, GENIES is a natural language processing system that extracts molecular pathways from biological literature. This is a variation of MedLEE as one of the modules that make up GeneWay. GENIES uses Term taggers to identify protein or gene names, preprocessors to determine sentences, words and phrases, parsers to check for proper interactions using grammar of constraint rules and semantic patterns, and errors in parsing. It consists of an error recovery module that handles using heuristics. The system constructs a pathway using the interaction information between the extracted entities.

BIOBIBLIOMETRICS는 유전자 이름을 사용해 생물학관련 문헌 DB에서 정보를 검색하고 가시화하는 시스템이다. 이 시스템은 두 유전자가 서로 관련된 생물학적 기능을 갖는다면, 생물학 문헌들 안에서 자주 공기한다는 가정에서부터 개발이 시작되었다. 문헌 DB에서 두 유전자가 공기하는 정도로부터 유사도를 구하고 특정 임계값 이상이면 관련이 있다고 판단하였다. 실제로 생물학 관련 연구자가 특정 유전자를 검색하면 그 유전자와 관련된 다른 유전자들이 검색되고 이것을 가시화해 보여주는데, 이 결과로부터 유전자와 유전자 사이의 관계를 연구하는데 도움을 준다.BIOBIBLIOMETRICS is a system for retrieving and visualizing information from biological literature databases using gene names. The system was developed from the assumption that if two genes have related biological functions, they often air in the biological literature. In the literature DB, the similarity was obtained from the degree of air of two genes, and it was determined that it was related if it was above a certain threshold. In fact, when a biological researcher searches for a particular gene, other genes related to that gene are searched for and visualized, which helps to study the relationship between genes.

그러나 기존의 분석 시스템에서는 끊임없이 발표되는 새로운 유전자 명칭 및 단백질 명칭에 대하여 수동적으로 데이터를 입력하여야 하며, 이로 인하여 막대한 시간과 비용이 소요된다. 또한 바이오 텍스트 상호간의 정형화된 상호작용관계를 추출하는데 한계를 지니고 있다.However, existing analysis systems require manual data entry for new gene names and protein names that are constantly being published, which requires a great deal of time and money. In addition, there is a limit in extracting a formal interaction relationship between biotexts.

이는 결국 생명공학 분야의 연구자의 정보처리 능력의 한계를 드러내게 되 고, 연구관련 정보수집의 효율성을 저하시키는 문제점을 발생시킨다.This, in turn, reveals the limitations of information processing capabilities of researchers in the field of biotechnology and causes problems that reduce the efficiency of research-related information collection.

본 발명은 이러한 문제점을 해결하기 위하여 안출된 것으로서, 분석의 대상이 되는 텍스트 데이터를 대상으로 자연어처리기술을 사용하여 텍스트 분석을 수행하고, 추출된 1차적 상호작용정보들로부터 고차원적 상호작용정보를 추론하고, 개체들 간의 상호작용관계를 시각화하여 보여주는 생물학 관련 텍스트에서 생물학개체들간의 상호작용 추출 및 추론 방법, 그 방법을 실행하기 위한 프로그램 및 그 프로그램을 저장한 기록매체를 제공하는 것을 목적으로 한다.The present invention has been made to solve such a problem, it performs a text analysis using natural language processing technology for the text data to be analyzed, and extracts the high-level interaction information from the extracted first interaction information. The purpose of the present invention is to provide a method of extracting and inferring interactions between biological entities in a biological text that infers and visualizes the interaction relations between the objects, a program for executing the method, and a recording medium storing the programs. .

상기와 같은 문제점을 해결하기 위한 본 발명은 생물학 관련 텍스트에서 생물학개체들간의 상호작용 추출 및 추론 방법으로서, 상기 바이오 텍스트를 대상으로 자연어처리 기술을 사용하여 분석을 수행하는 텍스트 분석 단계와; 상기 텍스트 분석 결과 추출된 1차적 상호작용 정보들로부터 2차적 상호작용 정보들을 추론하여 네트워크로 표현하고, 상기 네트워크에 대한 가설을 생성하는 관계 추론 단계와; 상기 바이오 텍스트 사이의 네트워크 구조를 이용하여 상기 바이오 텍스트 사이의 상호작용관계를 시각적으로 표현하는 가시화 단계;를 포함한다.The present invention for solving the above problems is a method of extracting and inferring interactions between biological objects in a biological text, the text analysis step of performing the analysis using the natural language processing technology on the biotext; Inferring secondary interaction information from the first interaction information extracted as a result of the text analysis and expressing the second interaction information in a network, and generating a hypothesis for the network; And visualizing the interaction relationship between the biotexts using the network structure between the biotexts.

상기 텍스트 분석 단계는 상기 문서 내의 각 바이오 텍스트에 정확한 하나의 품사정보를 부여하고, 이를 저장하는 단계와; 상기 문서에 TO 표기법(Term or Other)을 사용하여 개체명의 경계 인식 태그를 부착하고, 상기 TO를 경계 부류로 간주해 하나의 SVM (Support Vector Machine)모델을 생성, 경계를 인식하는 단계 와; 상기 품사정보와 개체명의 경계를 바탕으로 구문적으로 관련되어 있는 텍스트들을 하나의 기본어구로 결합하는 단계와; 상기 기본어구의 결합상태를 바탕으로 동사와 의존관계를 갖는 다른 기본어구를 찾고, 주격, 목적격과 같은 문장관계를 표현하는 단계와; 상기 문서에서 미리 지정한 동사가 포함되어 있는 문장 또는 상기 문서에서 일정한 빈도 이상으로 사용되는 동사가 포함되어 있는 문장을 분석하여 패턴을 분석하고, 분석된 패턴 정보를 활용하여 1차적 상호작용 정보를 추출하는 단계;를 포함한다.The text analyzing step includes assigning and storing accurate part-of-speech information to each biotext in the document; Attaching a boundary recognition tag of an entity name using a TO notation (Term or Other) to the document, and generating a single support vector machine (SVM) model by considering the TO as a boundary class; Combining syntactically related texts into a basic phrase based on the boundary of the part-of-speech information and the entity name; Finding another basic phrase having a dependency relationship with a verb based on the combined state of the basic phrases and expressing a sentence relationship such as a main subject and a target case; Analyzing a pattern by analyzing a sentence containing a verb specified in the document or a sentence including a verb used at a predetermined frequency or more in the document, and extracting primary interaction information using the analyzed pattern information. It includes; step.

상기 관계 추론 단계는 1차적 상호작용 정보의 분석을 통하여 2차적 상호작용 정보의 추출을 위하여, 데이터마이닝 및 기계학습 알고리즘을 이용하여 연관규칙의 추론 및 상위 관계 추론을 실시·학습하고, 추론된 연관규칙 정보 및 입력 자료를 상호작용 네트워크로 구성하는 단계와; 계층적 또는 비계층적 군집화를 통한 연관 규칙 대분류 모델과 대분류 그룹간의 상호 연관성 추론을 위한 클러스터링 모델을 개발하고, DBN (Dynamic Bayesian Network) 모델을 이용해 추출된 관계의 분석을 통한 추론 연관 관계의 통계적 가설을 생성하는 단계;를 포함한다.In the relation inference step, in order to extract the secondary interaction information through the analysis of the primary interaction information, the inference of the association rule and the higher relationship inference are performed and learned by using data mining and machine learning algorithms, and the inferred association Organizing rule information and input data into an interactive network; Development of a clustering model for inference of correlation rules between hierarchical and non-hierarchical groups and hierarchical grouping, and statistical hypothesis of inference associations through analysis of relationships extracted using DBN (Dynamic Bayesian Network) model It comprises; generating.

상기 가시화 단계는 그래프, 다이어그램, 네트워크 구조를 포함하는 시각화 도구를 이용하여 추출 및 추론된 상기 상호작용관계를 신뢰성 확인 요소와 함께 표현하는 것을 특징으로 한다.The visualization step may be characterized by using the visualization tool including a graph, diagram, network structure to represent the extracted and inferred interaction relationship with the reliability confirmation element.

상기 바이오 텍스트는 유전자 명칭, 단백질 명칭을 포함한다.The biotext includes a gene name, a protein name.

상기 동사는 activate, inhibit, associate, bind를 포함하여, 생물학 문서에 빈번하게 등장하는 동사인 것을 특징으로 한다.The verb is a verb that frequently appears in biological documents, including activate, inhibit, associate, bind.

상기와 같은 문제점을 해결하기 위한 본 발명의 다른 실시예는 상기 생물학 관련 텍스트에서 생물학개체들간의 상호작용 추출 및 추론 방법을 실행하기 위한 프로그램이다.Another embodiment of the present invention for solving the above problems is a program for executing a method of extracting and inducing interactions between biological objects in the biological text.

상기와 같은 문제점을 해결하기 위한 본 발명의 또 다른 실시예는 상기 생물학 관련 텍스트에서 생물학개체들간의 상호작용 추출 및 추론 방법을 실행하기 위한 프로그램을 저장한 기록매체이다.Another embodiment of the present invention for solving the above problems is a recording medium storing a program for executing a method of extracting and inferencing interaction between biological objects in the biological text.

이하 도면을 참조하여 설명한다.It will be described below with reference to the drawings.

생물학 관련 분야에서 끊임없는 연구 결과로 많은 새로운 단백질 및 유전자 명칭이 생겨나고 있다. 따라서 기존의 사전을 보완하지 않는다면 새로운 개체에 관련한 정보를 텍스트로부터 자동으로 추출하기가 어렵다. 그러나 사람이 수동으로 계속해서 사전을 갱신하는 것은 너무 많은 인적, 시간적 비용이 소요된다. 그러므로 사전에 없는 개체라 할지라도 자동으로 인식하고 개체에 대한 정보를 추출하기 위해 기계학습 방법을 적극적으로 활용한다. 그러나 기계학습을 효과적으로 수행하기 위해서는 개체와 개체들 간의 상호작용정보가 부착된 말뭉치를 필요로 한다.Constant research in the field of biology has led to many new protein and gene names. Therefore, it is difficult to automatically extract information related to a new object from text unless the existing dictionary is complemented. However, it is too much human and time consuming to update the dictionary manually. Therefore, even if the object does not exist in the dictionary, the machine learning method is actively used to automatically recognize and extract information about the object. However, in order to perform machine learning effectively, a corpus with attached information on interaction between objects is required.

현재, 바이오 텍스트 분석을 위한 리소스 구축에 대한 대표적인 연구인 일본의 GENIA 프로젝트의 경우, 관련 연구 문헌에서 자동으로 단백질 및 유전자의 이름을 추출하고 이들 간의 관계를 인식하기 위해 학습 말뭉치를 구축하고 있는데, 아직까지는 단백질 및 유전자의 이름을 추출하기 위한 소규모의 학습 말뭉치를 구축한 상태이다. GENIA 프로젝트에서 학습 말뭉치는 완전히 수동적인 방법에 의존하여 구축되고 있으므로 실용적으로 사용할 수 있을 만한 수준의 말뭉치를 구축하기 위해서는 오랜 시간과 노력이 요구된다. 따라서 대량의 학습 말뭉치를 수작업을 최소화하면서 효과적으로 구축하기 위한 방법론을 필요로 하고 있다. Currently, the GENIA project in Japan, a representative study on building resources for biotext analysis, is building a learning corpus to automatically extract the names of proteins and genes from related research literature and recognize the relationships between them. So far, we have built a small learning corpus to extract the names of proteins and genes. The learning corpus in a GENIA project is built on a completely passive method, which requires a long time and effort to build a practically useful corpus. Therefore, there is a need for a methodology for effectively constructing a large amount of learning corpus while minimizing manual work.

본 발명에서도 생물학분야 중 특정 주제와 관련된 문헌만을 대상으로 생물학분야의 전문가들에 의해서 리소스가 구축된다. 전문가들은 먼저, 관련문헌에서 관심의 대상이 되는 개체들을 찾아내고, 그것들이 속하는 의미 부류를 결정한다. 그리고 개체들 간의 상호작용관계인 이벤트를 나타내는 이벤트성 동사가 무엇인지 정의하고, 문헌에 개체들 간의 관계가 이벤트성 동사로 표현되어 있으면 태그를 붙인다. 이 때, 한 문헌을 두 사람 이상이 검토하도록 하여 최대한 객관성을 유지할 수 있게 한다. 이렇게 태깅(Tagging) 된 문헌들은 개체명 인식과 상호작용관계 추출단계에서 학습말뭉치로 사용된다.In the present invention, resources are constructed by experts in the field of biology only for literature related to a specific topic in the field of biology. Experts first identify the objects of interest in the literature and determine the semantic class to which they belong. It defines what an eventual verb represents an event that is an interaction between objects, and adds a tag if the relationship between objects is expressed as an eventual verb in the literature. At this time, two or more people review one document so as to maintain objectivity as much as possible. The tagged documents are used as learning corpus in the object name recognition and interaction relationship extraction.

본 발명에서는 효과적인 리소스 구축을 위해 공개된 바이오 관련 데이터베이스를 활용한다. 정보 추출의 대상이 되는 바이오 관련 문헌은 미국 국립 의료 도서관에서 제공하는 공개 DB인 MEDLINE으로부터 획득한다. 유전자 명칭과 관련해서는 REBASE, GenBank 등을 이용하고, 단백질 명칭과 관련해서는 PDB, PIR, SWISS-PROT 등을 이용한다. 또한, 각 개체의 의미 분류를 위해 UMLS와 같은 바이오 관련 용어들의 의미 분류 체계를 이용한다. The present invention utilizes a published bio-related database for effective resource construction. Bio-related literature for information extraction is obtained from MEDLINE, an open database provided by the National Library of Medicine. REBASE, GenBank, etc. are used for gene names, and PDB, PIR, SWISS-PROT, etc. are used for protein names. In addition, the semantic classification system of bio-related terms such as UMLS is used for the semantic classification of each individual.

1. 시스템 구성1. System Configuration

도1은 본 발명에 따른 상호작용관계 추론 시스템의 개요를 나타낸 구조도이 다. 1 is a structural diagram showing an outline of an interaction relationship inference system according to the present invention.

바이오텍스트마이닝 시스템의 최종 목표는 바이오 텍스트 문서를 분석하여 유전자나 단백질과 같은 생물학적 요소들 간의 정형화된 상호작용관계를 추출하는 시스템의 구현이다. 이를 위해 시스템은 텍스트 분석, 관계 추론 모듈, 네트워크 가시화 모듈로 구성될 수 있다The ultimate goal of a biotext mining system is to implement a system that analyzes biotext documents to extract formal interactions between biological elements such as genes and proteins. For this purpose, the system can be composed of text analysis, relationship inference module, and network visualization module.

1-1. 텍스트 분석 모듈1-1. Text analysis module

도2는 텍스트 분석 단계의 개요를 나타낸 구조도이다.2 is a structural diagram showing an outline of a text analysis step.

텍스트 분석 모듈은 바이오텍스트마이닝 시스템의 시작부분으로서 마이닝을 수행 할 텍스트 데이터를 대상으로 자연어처리 기술을 사용하여 텍스트 분석을 수행한다. 이 모듈에서는 바이오텍스트마이닝의 입력으로 사용하는 문서에 대해 품사 및 통사 정보를 부착하고, 유전자 이름 등의 개체명을 인식하고 이들 간의 1차적 상호작용관계 정보를 추출한다. The text analysis module is the beginning of the biotext mining system, and performs text analysis using natural language processing techniques for text data to be mined. This module attaches part-of-speech and syntactic information to documents used as input for biotext mining, recognizes individual names such as gene names, and extracts information on primary interactions among them.

이렇게 추출된 유전자나 단백질 등과 같은 생물학 개체들 간의 상호작용정보는 보다 확장된 상호작용정보를 얻기 위해 다음 단계인 관계 추론 모듈로 전달되게 된다. The interaction information between biological entities such as genes or proteins extracted in this way is transferred to the relation inference module, which is the next step, to obtain more extended interaction information.

1-1-1. 개체명 인식1-1-1. Entity Name Recognition

개체명 인식은 개념적으로 볼 때 (1) 개체명의 경계를 구분하는 개체명의 경계 인식과 (2)인식된 개체명의 의미적 부류를 결정하는 의미부류 결정의 두 가지 문제로 나누어 생각할 수 있다. 일반적으로 이 문제들은 분류 문제로 간주되고 은닉 마르코프 모형(HMM : Hidden Markov Model), 지지 벡터 기계(SVM : Support Vector Machine), 최대 엔트로피(ME : Maximum Entropy) 모델 등과 같은 방법을 사용하여 개체명 인식 모듈이 개발된다. 그러나 학습 말뭉치의 부족으로 인해 현재까지 개발된 시스템들은 만족할 만한 성능을 보이지 못하고 있는 실정이다. 특히 개체명의 경계 인식과 부류 결정을 하나의 문제로 통합하여 풀고자 하는 경우 학습 자료 부족의 문제는 더욱 심각해지는 경향이 있다. 이는 성능으로 곧바로 연결되어 처리 효율뿐만 아니라 정확도를 저하시키는 원인이 된다. 이에 두 작업을 개별 작업으로 분리해 접근할 필요가 있다. 또한 전문 용어 사전이나 수동으로 작성한 전문용어 인식 규칙을 함께 사용하여 인식 정확도를 향상시키는 방법이 시도되기도 한다. Conceptually, entity name recognition can be thought of as two problems: (1) the recognition of the boundary of an entity name that separates the boundary of the entity name, and (2) the determination of the semantic class that determines the semantic class of the recognized entity name. Generally, these problems are considered classification problems and object recognition is recognized using methods such as Hidden Markov Model (HMM), Support Vector Machine (SVM), Maximum Entropy (ME) model, etc. The module is developed. However, due to the lack of learning corpus, the systems developed to date have not shown satisfactory performance. In particular, the problem of lack of learning materials tends to be more serious when one wants to solve the boundary recognition of class names and class decisions. This leads directly to performance, causing degradation in accuracy as well as processing efficiency. Therefore, the two tasks need to be separated and accessed. In addition, a method of improving recognition accuracy by using a terminology dictionary or a manually generated terminology recognition rule is also attempted.

이 두 가지 문제에 대해 본 연구에서는 개체명의 경계 인식과 개체명의 의미부류 결정을 분리하고, 기 구축된 개체명 사전과 기계학습 방법을 결합하는 방법을 사용한다. 기계학습 방법은 기존의 많은 분류 문제에서 뛰어난 성능을 보인 SVM을 활용하고, 품사, 철자형태, 내 외부 어휘 문맥 정보들 가운데에서 각 작업에 적합한 자질을 선택하여 인식기와 의미 분류기를 개발하는데 사용하고 있다.For these two problems, this study uses a method that separates the boundary recognition of the entity name and the semantic class determination of the entity name, and combines the existing entity name dictionary and machine learning method. The machine learning method utilizes the SVM that has performed well in many existing classification problems, and selects the appropriate features for each task from parts of speech, spelling, and internal and external lexical context information to develop recognizers and semantic classifiers. .

세부적으로 SVM을 사용해 경계 인식을 하는 경우 학습 문서에 TO(Term, Others) 표기법을 사용하여 개체명의 경계 인식 태그를 부착하고 T/O를 경계 부류로 간주해 one-vs-rest 방식을 이용해 하나의 SVM 모델을 생성, 경계를 인식한다. 개체명의 경계가 인식되고 난 뒤에는 인식된 개체명들만을 대상으로 하여 개체명의 의미 분류를 수행한다. 이때 GENIA 말뭉치의 22개 부류를 대상으로 22개의 SVM 분류기를 one-vs-rest 방식으로 학습하고 개체명 분류를 수행한다. In the case of detailed boundary recognition using SVM, one or more SVMs are attached using the one-vs-rest method by attaching the boundary recognition tag of the object name using TO (Term, Others) notation to the learning document, and considering T / O as the boundary class. Create a model and recognize boundaries. After the boundary of the entity name is recognized, the semantic classification of the entity name is performed targeting only the recognized entity names. At this time, 22 SVM classifiers are studied in one-vs-rest manner and 22 individual names of GENIA corpus are performed.

도3은 개체명 인식의 개요를 나타낸 구조도이다.3 is a structural diagram showing an overview of entity name recognition.

그러나 적은 양의 학습 집합으로부터 기계학습을 통해 개체명 인식 및 분류기를 개발하게 되면 오류가 발생하기 쉽다. 특히 본 연구에서와 같이 두 단계로 개체명을 인식하는 경우 경계 인식 단계에서의 오류는 의미부류 단계에 치명적인 영향을 미치게 된다. 그러므로 본 연구에서는 기 구축된 개체명 사전 정보를 이용하여 경계인식기의 오류를 보정하여 성능을 향상시킨다.However, developing object name recognition and classifiers through machine learning from small learning sets is prone to errors. In particular, in the case of recognizing individual names in two stages as in this study, errors in the boundary recognition stage have a fatal effect on the semantic classification stage. Therefore, in this study, we improve the performance by correcting the error of the boundary recognizer by using the already established entity name dictionary information.

1-1-2. 표층적 구문분석1-1-2. Superficial parsing

전처리가 끝난 문장의 구조를 분석하기 위해 완전한 구문분석(full parsing)을 수행 할 경우, 정확도가 떨어지고 분석 속도가 느려질 수 있다. 따라서 다음 단계인 이벤트 분석에서 필요로 하는 정도의 정보만을 추출하기 위해 최소한의 구문분석을 수행할 필요가 있다. 여기서 말하는 최소한의 구문분석은 문장에서 기본구를 인식하고 그들 사이의 의존관계를 결정하는 것이다. 기본구들은 자동으로 학습된 구문 제약 규칙 및 수동으로 작성된 제약 규칙을 통하여 다른 기본구들과 결합되어 문장 구조를 생성하며, 기본구들 사이의 문법적 관계도 이 과정에서 함께 결정된다. If full parsing is performed to analyze the structure of the preprocessed sentences, the accuracy and the speed of analysis may be slow. Therefore, it is necessary to perform minimal parsing to extract only the information necessary for the next step, event analysis. The minimal parsing here refers to recognizing basic phrases in sentences and determining dependencies between them. Basic phrases are combined with other basic phrases to generate sentence structure through automatically learned syntax constraint rules and manually written constraint rules. The grammatical relationship between the basic phrases is also determined in this process.

구문 제약 규칙만으로는 해결이 힘든 문장의 구조 분석 문제는 대량의 말뭉치로부터 학습한 통계정보를 함께 이용하여 해결하기도 한다. 위에서 설명한 제약 규칙은 Penn Treebank로부터 상당한 수준의 자동 획득이 가능하다. 또, 생물학분야에서 자주 사용되는 어휘들에 대해서는 자동으로 학습된 규칙 집합에 수동으로 규칙을 추가하거나 수정하여 정확한 분석을 하도록 할 수 있다. 제약 규칙을 적용하면 복수개의 구문분석 후보가 생길 수도 있는데, 이 때는 말뭉치로부터 학습한 통계정보를 함께 이용하여 구조적 중의성을 해결할 수 있다. The problem of structural analysis of sentences that cannot be solved by syntax constraint rules alone can be solved by using statistical information learned from large corpus. The constraint rules described above allow a significant degree of automatic acquisition from the Penn Treebank. In addition, for vocabularies that are frequently used in the field of biology, the rule can be manually added or modified in the automatically learned rule set for accurate analysis. Applying a constraint rule may result in a plurality of candidates for parsing. In this case, structural significance can be solved by using statistical information learned from corpus.

본 연구에서는 자질 기반의 통계적 접근 방법을 사용하기 위해, 구문의 분석이 되어있는 대용량의 학습 자료인 Penn Treebank로부터 자질 및 통계 정보를 추출한다. 그리고 기본구 인식(base chunking) 결과와 통계 정보로부터 기본구들 사이의 의존 관계를 결정하고, 동시에 문법적 기능 태그(function tag)를 부착한다. In this study, to use the feature-based statistical approach, we extract feature and statistical information from Penn Treebank, a large-scale learning material with syntax analysis. The base chunking results and statistical information determine the dependencies between the base phrases, and at the same time attach a grammatical function tag.

도4는 표층적 구문분석의 개요를 나타낸 구조도이다.4 is a structural diagram showing an overview of surface syntax analysis.

이 때, 기존 자질을 빼거나 새로운 자질을 추가해 적합 자질 집합을 만들어 가고, 학습 말뭉치를 사용한 통계 기반의 모듈을 구축하는 과정에서 발생하는 자료 부족 문제를 해결하기 위해 영어 단어 온톨로지인 워드넷(WordNet)을 활용하고 있다. At this time, WordNet, an English word ontology, is used to solve the lack of data generated by eliminating existing features or adding new features to create a set of suitable features and building a statistics-based module using a learning corpus. To utilize them.

1-1-3. 상호작용관계 추출1-1-3. Interaction Relationship Extraction

도5는 상호작용관계 추출의 개요를 나타낸 구조도이다.5 is a structural diagram showing an outline of interaction relationship extraction.

이 단계에서는 표층적 구문분석 결과로부터 상호작용관계를 추출해낸다. 구문분석 결과로부터 상호작용관계를 추출하는 기초적인 방법은 수동으로 작성된 규칙을 이용하는 것이다. 이 경우 상호작용관계 추출을 위한 패턴을 구성하는 것이 필요한데, 이는 생물학관련 전문가에 의해 구축된다. 그러나 수동으로 필요한 패턴들을 구축하는 데는 한계가 있기 때문에 자동으로 확장할 수 있는 방법의 개발이 요구된다.This step extracts the interactions from the surface parsing results. The basic method of extracting interaction relationships from parse results is to use manually written rules. In this case, it is necessary to construct a pattern for extracting the interaction relationship, which is built by a biological expert. However, there are limitations in building the necessary patterns manually, which requires the development of a method that can be automatically extended.

본 연구에서는 생물학관련 문서에서 사용자가 궁극적으로 얻고자 하는 상호작용관계를 추출하기 위해 구문분석 정보를 이용하는 상호작용관계 추출패턴을 작성한다. 즉, 생물학관련 문서에서 유전자, 혹은 단백질 개체명과 함께 고빈도로 나타나는 동사들 중 'activate'나 'inhibit'과 같이 상호작용관계를 나타내는 이벤트성 동사들을 추출해 패턴을 분석하고 분석된 패턴 정보를 활용하여 수동으로 상호작용관계 추출패턴을 작성하게 된다. 아래의 [표 1]은 작성된 패턴을 보여준다.In this study, we create an interaction relationship extraction pattern using syntax analysis information to extract the interaction relationship that the user ultimately wants from biological documents. In other words, from the biological documents, we extract the eventual verbs that show interactions such as 'activate' or 'inhibit' among the verbs that appear at high frequency together with the gene or protein individual name, and then analyze the pattern and use the analyzed pattern information. You will create the interaction relationship extraction pattern manually. [Table 1] below shows the created pattern.

동사verb 패턴pattern activateactivate NP activate NP NP be activated by NP NP activate NP NP be activated by NP inhibitinhibit NP inhibit NP NP be inhibit by NP NP inhibit NP NP be inhibit by NP associateassociate NP associate with NP NP associate with by NP NP associate with NP NP associate with by NP bindbind NP bind (to) NP NP binding NP NP bind (to) NP NP binding NP

[표 1] 동사에 따른 패턴의 예[Table 1] Examples of Patterns According to Verbs

그러나 수동으로 패턴 정보를 추출하는 데는 한계가 있다. 이에 상호작용관계 추출을 위한 패턴을 반자동으로 획득할 수 있는 방법을 사용할 수 있는데, 도5는 상호작용관계 추출패턴을 전문가의 도움을 빌어 반자동으로 확장하는 방법을 보여준다. 이 방법은 이벤트 인식기의 결과로부터 이벤트 추출을 위한 패턴 후보를 자동으로 추출하고 추출된 패턴들을 사용하여 이벤트를 추출한 결과를 해당분야 전문가에게 제시하고 검증을 받음으로써 패턴을 확장하는 방법이다. However, there is a limit in manually extracting pattern information. A method for semi-automatically acquiring a pattern for extracting interaction relationships can be used. FIG. 5 shows a method for semi-automatically expanding the interaction relationship extraction pattern with the help of an expert. This method automatically extracts the pattern candidate for event extraction from the result of the event recognizer and extends the pattern by presenting and verifying the result of the event extraction using the extracted patterns to experts in the relevant field.

또한, 조응현상 애매성 해소(Anaphora Resolution)를 통해 상호작용관계 추출의 성능을 향상시키고, 최종적으로 상호작용을 정형적으로 표현하는 형식을 결정한다. 이것은 생물학관련 문서에서 개체간의 상호작용을 어떻게 표현할 것인지에 관한 것으로 개체간의 정적 관계 및 동적 관계를 표현하는 방법을 정의하는 것으로 실제로 생물학자들이 필요한 정보를 포함하고 있는지 검증을 받아야 한다. In addition, anaphora resolution improves the performance of the interaction relationship extraction and finally determines the format in which the interaction is expressed formally. It is about how to express the interactions between individuals in a biological document, which defines how to express static and dynamic relationships between individuals and should be verified to include the information that biologists actually need.

1-2. 관계추론 모듈1-2. Relational Reasoning Module

도6은 관계 추론 및 시각화 단계의 개요를 나타낸 구조도이다.6 is a structural diagram showing an outline of relationship inference and visualization steps.

본 모듈은 실제로 데이터마이닝 알고리즘 및 기계학습 알고리즘을 이용하여 연관 규칙에 대한 추론 및 클러스터링 등을 수행함으로써 텍스트 분석 결과 추출된 1차적 상호작용정보들로부터 고차원적 상호작용정보를 추론하는 단계이다. 본 모듈에서는 이러한 상호작용정보들을 네트워크로 표현하고 표현된 네트워크에 대한 가설을 생성하는 기능을 지원한다.In this module, inference and clustering of association rules using data mining algorithm and machine learning algorithm is inferring high-level interaction information from primary interaction information extracted from text analysis. This module supports the function of expressing such interaction information as network and generating hypothesis about expressed network.

본 모듈에서 생성하는 가설은 상호작용관계 추출 규칙 및 추론된 규칙을 포괄적으로 표현할 수 있는 보다 일반화된 연관성 규칙을 의미한다. 이러한 연관성 규칙은 베이지안망(Bayesian network)과 단순 베이즈 분류기(Naive Bayes Classifier)를 조합하여 변형한 데이터마이닝알고리즘인 Apriori-ppi를 이용하여 학습한다. 그리고 SVM을 사용하여 각 상호작용관계들의 부류를 결정한다. 이때 계층적 혹은 비계층적 클러스터링 알고리즘을 개발하여 연관규칙의 대분류 모델을 개발하고, 대분류 모델에 따라 연관규칙의 부류를 정한다. 그리고 이 클러스터링 정 보 및 연관규칙 정보를 사용하여 상호작용관계의 추론 범위를 결정하고 단백질-단백질 또는 유전자-유전자 등과 같은 생물학적 개체들 간의 고차원적 연관성 추론을 수행한다.The hypothesis generated in this module refers to a more generalized association rule that can comprehensively express interaction relationship extraction rules and inferred rules. This association rule is learned using Apriori-ppi, a data mining algorithm modified by combining Bayesian network and Naive Bayes Classifier. Then use SVM to determine the class of each interaction relationship. At this time, a hierarchical or non-hierarchical clustering algorithm is developed to develop a large classification model of the association rules, and define the classification of the association rules according to the large classification model. The clustering information and association rule information are used to determine the inference range of the interaction relationship and to perform high-level inference between biological entities such as protein-protein or gene-gene.

이처럼 다양한 알고리즘을 이용하여 추론한 관계를 포함하여 확장된 전체 상호작용관계 정보는 우선 로컬 DB에 별도로 체계화 되어 저장되며, 보다 효율적인 정보 전달을 제공하기 위한 모듈인 네트워크 가시화 모듈로 전달되게 된다.In this way, the entire interaction relationship information, including the relationships inferred using various algorithms, is organized and stored separately in the local DB, and then delivered to the network visualization module, which is a module for providing more efficient information transfer.

1-2-1. 연관규칙 학습1-2-1. Association rule learning

상호작용관계 분석을 통한 고차 관계 추론을 위해 기계학습 방법을 이용해 접근하는 단계이다. 이를 위해 기계학습 기법 중 베이지안망과 단순 베이즈 분류기를 이용해 연관 규칙 추론기를 학습한다. 그리고 SVM을 이용하여 각 상호작용관계 그룹에 대한 분류 모델을 개발한다. 그러나 SVM이나 베이지안망과 같은 기계학습 알고리즘은 학습 자료의 부족 등으로 인해 성능 향상에 제한을 받게 된다. 이에 이를 보완하기 위해 IB clustering과 같은 데이터마이닝 기법을 사용하여 유전자 혹은 단백질 그룹 사이의 연관성 발견과, 상호작용관계와 유전자 혹은 단백질 사이의 연관성을 발견해 내고 이를 기계학습과 결합하는 것이다. 결국, 이 단계에서는 데이터마이닝 기법을 이용한 연관 규칙 발견(Association rule discovery) 기법과 텍스트마이닝에 사용되는 기계학습 군집화 및 추론 기법을 결합함으로써 고차원의 상호작용관계를 추출하게 된다.It is a step that uses machine learning method to infer higher order relationship through analysis of interaction relationship. For this, we study the association rule inference machine using Bayesian network and simple Bayesian classifier. And we use SVM to develop a classification model for each interaction relationship group. However, machine learning algorithms such as SVM and Bayesian network are limited in performance improvement due to lack of learning materials. To complement this, data mining techniques such as IB clustering are used to discover associations between genes or protein groups, to discover interactions between genes and proteins, and to combine them with machine learning. Finally, in this step, high-level interaction relationships are extracted by combining association rule discovery using data mining techniques and machine learning clustering and inference techniques used in text mining.

1-2-2. 연관 규칙 군집화1-2-2. Association Rule Clustering

계층적, 비계층적 군집화를 통한 연관 규칙 대분류 모델을 개발하고, 대분류 그룹간의 상호 연관성 추론을 위한 클러스터링 모델을 개발하는 단계이다. 또한 여기서 더 나가 Dynamic Bayesian Network(DBN) 모델을 이용해 추출된 관계의 분석을 통한 추론 연관 관계의 통계적 가설 생성 모델을 개발한다. In this stage, we develop the classification rules for association rules through hierarchical and non-hierarchical clustering, and develop a clustering model for inferring the correlation between the major classification groups. In addition, we develop a statistical hypothesis generation model of inference associations through the analysis of relationships extracted using Dynamic Bayesian Network (DBN) model.

1-3. 네트워크 가시화 모듈1-3. Network visualization module

도7은 가시화를 위한 인터페이스의 실시예를 나타낸 구조도이다.7 is a structural diagram illustrating an embodiment of an interface for visualization.

본 모듈은 시스템에서 추출하고 추론한 단백질과 유전자등 개체들 간의 상호작용관계를 시각화 하여 보여주는 모듈이다. 이 모듈에서는 이전의 텍스트 분석 모듈과 관계 추론 모듈에서 추출된 연관성 정보와, 추출 작업을 수행한 원본 문서를 연결하거나 문서에서의 연관성 출현 빈도 등을 이용하여 계산된 생물학 개체들 간의 상호작용 가중치(weight)등 여러 가지 정보를 다양한 방법으로 표현하여 사용자로 하여금 시스템이 제공하는 연관성 정보에 대한 신뢰성 정도를 확인할 수 있도록 한다. This module is a module that visualizes the interaction relationship between individuals such as proteins and genes extracted from the system. In this module, the weights of interactions between biological entities calculated using the association information extracted from the previous text analysis module and the relation inference module, and the link between the original document that performed the extraction or the frequency of association occurrences in the document, etc. Various information can be expressed in various ways so that the user can check the reliability of the association information provided by the system.

이 모듈에서는 그래프나 다이어그램, 네트워크 구조를 이용하여 추출된 관계를 시각화하여 표현하는데, 추출 및 추론된 개체들 간의 상호 관계를 시각화할 수 있는 통합 인터페이스를 제공한다.This module visualizes and extracts extracted relationships using graphs, diagrams, and network structures. It provides a unified interface for visualizing the interrelationships between extracted and inferred entities.

또한 대상과 관계에 대한 출처 검색 및 참조를 통한 신뢰도 확인 기능을 제공하고 사용자의 연관성 정보 요청에 대한 근거 문서 제시 기능을 제공할 수 있도 록 한다.In addition, it provides the function to verify the reliability by searching and referencing the source and the relationship to the object and provides the function to present the supporting document for the request of the association information.

향후 생물학 연구와 유전자 정보가 급증하고 관련 연구 결과가 폭발적으로 증가할 것으로 예상되는데, 이는 생물학관련 연구 문헌의 연구 결과를 자동으로 요약 및 정리할 수 있는 바이오 텍스트 데이터마이닝 관련 기술의 필요성 증가를 가져올 것이다. 따라서 바이오텍스트마이닝 관련 기술은 실제로 바이오테크놀로지 산업이 활성화되기 위한 필수기술로서 그 중요성이 증가할 것으로 예상된다. 바이오텍스트마이닝 기술은 바이오인포매틱스 기술을 활용한 구체적인 결과물 획득 시기를 크게 앞당길 수 있는 것으로 알려져 있다. Biological research and genetic information are expected to explode in the future, and related research results will explode, which will increase the need for biotext data mining technology that can automatically summarize and summarize the research results of biological research literature. Therefore, biotext mining-related technologies are expected to increase in importance as an essential technology for the biotechnology industry to be active. Biotext mining technology is known to significantly accelerate the timing of acquiring specific results using bioinformatics technology.

우선, 바이오텍스트마이닝 기술을 기반으로 신약 개발 등 BT관련 연구 개발에 소요되는 시간적, 금전적 비용을 획기적으로 줄여, BT관련 제반 기술이 급속도로 성장할 수 있을 것으로 예상되며 생명 공학 관련 문헌으로부터의 개체명 자동 인식을 통한 GeneBank등 관련 리소스의 자동 확장 기술의 개발이 앞당겨 질 수 있을 것이다. 또한, 사용자가 제시한 키워드로부터 검색된 생명 공학 관련 문헌 집합의 클러스터링 및 실시간 자동 분류를 통한 문헌 검색 서비스의 지능화가 가능해지고 표층 구문분석이나 조응어 애매성 해소 기술 등을 활용한 언어처리 기술의 발달은 다국어 바이오 텍스트 문헌검색시스템 연구 및 번역시스템 연구 활성화에도 기여할 것으로 예상된다. First of all, the BT-related technologies are expected to grow rapidly by drastically reducing the time and financial costs of BT-related R & D such as new drug development based on biotext mining technology. The development of automatic extension of related resources such as GeneBank through recognition can be accelerated. In addition, it is possible to intelligentize the literature search service through clustering and real-time automatic classification of biotechnology-related literature sets retrieved from the user-supplied keywords, and the development of language processing technology using surface syntax analysis and codification resolution It is expected to contribute to revitalization of multilingual biotext document retrieval system and translation system research.

이상에서 본 발명에 대하여 설명하였으나, 본 발명의 권리범위는 이러한 실시예에 제한되지 않으며, 당업자가 용이하게 변형할 수 있는 발명에도 권리범위가 미친다.Although the present invention has been described above, the scope of the present invention is not limited to these embodiments, and the scope of the present invention may be easily modified by those skilled in the art.

본 발명에 따르면, BT 관련분야 연구종사자는 다양한 생물학적 용어들의 정보를 체계적으로 수집하고, 개체간 관계를 자동으로 추출할 수 있으며, 1차적으로 추출된 관계를 이용하여 고차원적인 관계를 추론할 수 있으며, 추출된 상호작용관계를 가시화시켜 쉽게 파악할 수 있게 된다.According to the present invention, researchers in a BT-related field can systematically collect information on various biological terms, automatically extract relationships between individuals, and infer high-dimensional relationships using primarily extracted relationships. As a result, the extracted interaction relationship can be visualized for easy identification.

Claims (8)

생물학 관련 문서에 포함된 바이오 텍스트 사이의 상호작용관계를 도출하는 방법에 있어서,In the method of deriving the interaction relationship between the biotexts included in the biological document, 상기 문서 내의 각 바이오 텍스트에 정확한 하나의 품사정보를 부여하고, 이를 저장하는 단계와, 상기 문서에 TO 표기법을 사용하여 개체명의 경계 인식 태그를 부착하고, 상기 TO를 경계 부류로 간주해 하나의 SVM 모델을 생성, 경계를 인식하는 단계와, 상기 품사정보와 개체명의 경계를 바탕으로 구문적으로 관련되어 있는 텍스트들을 하나의 기본어구로 결합하는 단계와, 상기 기본어구의 결합상태를 바탕으로 동사와 의존관계를 갖는 다른 기본어구를 찾고, 주격, 목적격과 같은 문장관계를 표현하는 단계와, 상기 문서에서 미리 지정한 동사가 포함되어 있는 문장 또는 상기 문서에서 일정한 빈도 이상으로 사용되는 동사가 포함되어 있는 문장을 분석하여 패턴을 분석하고, 분석된 패턴 정보를 활용하여 1차적 상호작용 정보를 추출하는 단계를 포함하여, 상기 바이오 텍스트를 대상으로 자연어처리 기술을 사용하여 분석을 수행하는 텍스트 분석 단계와;Assigning and storing accurate part-of-speech information to each biotext in the document, attaching a boundary recognition tag to the document using a TO notation, and considering the TO as a boundary class; Generating, recognizing a boundary, combining syntactically related texts into one basic phrase based on the part-of-speech information and the boundary of the entity name, and relying on a verb based on the combined state of the basic phrases Searching for other basic phrases that have a relationship, expressing sentence relations such as subjective and objective, and sentences containing pre-specified verbs in the document or sentences containing verbs used at a certain frequency in the document. Analyze the pattern by analyzing, and extracting the first interaction information by using the analyzed pattern information W, and the text analysis step of performing an analysis using the natural language processing technology to the bio-text; 1차적 상호작용 정보의 분석을 통하여 2차적 상호작용 정보의 추출을 위하여, 데이터마이닝 및 기계학습 알고리즘을 이용하여 연관규칙의 추론 및 상위 관계 추론을 실시·학습하고, 추론된 연관규칙 정보 및 입력 자료를 상호작용 네트워크로 구성하는 단계와, 계층적 또는 비계층적 군집화를 통한 연관 규칙 대분류 모델과 대분류 그룹간의 상호 연관성 추론을 위한 클러스터링 모델을 개발하고, DBN 모델을 이용해 추출된 관계의 분석을 통한 추론 연관 관계의 통계적 가설을 생성하는 단계를 포함하여, 상기 텍스트 분석 결과 추출된 1차적 상호작용 정보들로부터 2차적 상호작용 정보들을 추출하여 네트워크로 표현하고, 상기 네트워크에 대한 가설을 생성하는 관계 추론 단계와;In order to extract the secondary interaction information through the analysis of the primary interaction information, the inference of the association rules and the inference of the superordinate relations are conducted and learned using data mining and machine learning algorithms, and the inferred association information and input data are inferred. Develop a clustering model for the inference of correlation between the classification rules and the classification of the association rules through hierarchical or non-hierarchical clustering, and inferring the analysis of the extracted relationships using the DBN model. Generating a statistical hypothesis of the association, extracting the secondary interaction information from the first interaction information extracted as a result of the text analysis, and expressing the second interaction information in a network, and generating a hypothesis for the network. Wow; 그래프, 다이어그램, 네트워크 구조를 포함하는 시각화 도구를 이용하여 상기 상호작용관계를 표현하고 신뢰성 확인 요소로 추출된 관계의 원본 문서를 표현하여, 상기 바이오 텍스트 사이의 네트워크 구조를 이용하여 상기 바이오 텍스트 사이의 상호작용관계를 시각적으로 표현하는 가시화 단계;를 포함하는 생물학 관련 텍스트에서 생물학개체들간의 상호작용 추출 및 추론 방법.Represent the interaction relationship using a visualization tool including a graph, a diagram, and a network structure, and represent the original document of the relationship extracted as a reliability confirmation element, and use the network structure between the biotexts to Visualization step of visually expressing the interaction relationship; method for extracting and inferencing interaction between biological objects in the biological text. 삭제delete 삭제delete 삭제delete 제1항에 있어서,The method of claim 1, 상기 바이오 텍스트는 유전자 명칭, 단백질 명칭을 포함하는 생물학 용어인 것을 특징으로 하는 생물학 관련 텍스트에서 생물학개체들간의 상호작용 추출 및 추론 방법.Wherein said biotext is a biological term comprising a gene name and a protein name. 제1항에 있어서,The method of claim 1, 상기 동사는The verb is activate, inhibit, associate, bind를 포함하여, 생물학 문서에 빈번하게 등장하는 동사인 것을 특징으로 하는 생물학 관련 텍스트에서 생물학개체들간의 상호작용 추출 및 추론 방법.A method for extracting and inferring interactions between biological objects in biological texts, including verbs that frequently appear in biological documents, including activate, inhibit, associate, and bind. 제1항 내지 제6항의 생물학 관련 텍스트에서 생물학개체들 간의 상호작용 추출 및 추론 방법을 실행하기 위한 프로그램을 저장하는 기록매체.A recording medium storing a program for executing a method of extracting and inferring interactions between biological objects in the biological text of claim 1. 삭제delete
KR20030092331A 2003-12-17 2003-12-17 Method for Extracting and Inferring the Interaction of Biological Components, Inferring Program for Performing the Method and Recording Medium thereof KR100575495B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR20030092331A KR100575495B1 (en) 2003-12-17 2003-12-17 Method for Extracting and Inferring the Interaction of Biological Components, Inferring Program for Performing the Method and Recording Medium thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR20030092331A KR100575495B1 (en) 2003-12-17 2003-12-17 Method for Extracting and Inferring the Interaction of Biological Components, Inferring Program for Performing the Method and Recording Medium thereof

Publications (2)

Publication Number Publication Date
KR20050060646A KR20050060646A (en) 2005-06-22
KR100575495B1 true KR100575495B1 (en) 2006-05-03

Family

ID=37253330

Family Applications (1)

Application Number Title Priority Date Filing Date
KR20030092331A KR100575495B1 (en) 2003-12-17 2003-12-17 Method for Extracting and Inferring the Interaction of Biological Components, Inferring Program for Performing the Method and Recording Medium thereof

Country Status (1)

Country Link
KR (1) KR100575495B1 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170115406A (en) * 2016-04-07 2017-10-17 한국과학기술원 Apparatus and method for processing biological system information
KR20180082030A (en) * 2017-01-09 2018-07-18 김선중 Search system and method for biological system information
KR20190086395A (en) * 2018-01-12 2019-07-22 (주)호모미미쿠스 Multi-dimensional knowledge searching method and system for expert systems
KR20210004886A (en) * 2019-07-05 2021-01-13 (주)호모미미쿠스 Method and Apparatus to Reasoning Biological System Characteristics through Identification Keys

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100825687B1 (en) * 2006-03-08 2008-04-29 학교법인 포항공과대학교 Method and system for recognizing biological named entity based on workbench
EP2286349A2 (en) 2008-05-21 2011-02-23 New York University Method, system, and computer-accessible medium for inferring and/or determining causation in time course data with temporal logic
KR101029318B1 (en) * 2008-06-03 2011-04-13 포항공과대학교 산학협력단 Automatic construction method and automatic construction system of relations between ontology classes of technical terms using general domain corpus clustering
KR101067352B1 (en) * 2009-11-19 2011-09-23 한국생명공학연구원 System and method comprising algorithm for mode-of-action of microarray experimental data, experiment/treatment condition-specific network generation and experiment/treatment condition relation interpretation using biological network analysis, and recording media having program therefor
KR101991923B1 (en) * 2017-03-21 2019-06-21 김선중 Search device and method for biological system information using keyword hierarchy
KR102233464B1 (en) * 2020-08-13 2021-03-30 주식회사 스탠다임 Extraction method for relationships between disease-related factors from document data and built system using the same

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170115406A (en) * 2016-04-07 2017-10-17 한국과학기술원 Apparatus and method for processing biological system information
KR101881398B1 (en) * 2016-04-07 2018-07-24 한국과학기술원 Apparatus and method for processing biological system information
KR20180082030A (en) * 2017-01-09 2018-07-18 김선중 Search system and method for biological system information
KR101880275B1 (en) 2017-01-09 2018-08-16 김선중 Search system and method for biological system information
KR20190086395A (en) * 2018-01-12 2019-07-22 (주)호모미미쿠스 Multi-dimensional knowledge searching method and system for expert systems
KR102363131B1 (en) 2018-01-12 2022-02-15 (주)호모미미쿠스 Multi-dimensional knowledge searching method and system for expert systems
KR20210004886A (en) * 2019-07-05 2021-01-13 (주)호모미미쿠스 Method and Apparatus to Reasoning Biological System Characteristics through Identification Keys
KR102448275B1 (en) 2019-07-05 2022-09-28 (주)호모미미쿠스 Method and Apparatus to Reasoning Biological System Characteristics through Identification Keys

Also Published As

Publication number Publication date
KR20050060646A (en) 2005-06-22

Similar Documents

Publication Publication Date Title
Miyao et al. Semantic retrieval for the accurate identification of relational concepts in massive textbases
Tatar et al. Automatic rule learning exploiting morphological features for named entity recognition in Turkish
US20060031207A1 (en) Content search in complex language, such as Japanese
JP2012520527A (en) Question answering system and method based on semantic labeling of user questions and text documents
US20210357585A1 (en) Methods for extracting and assessing information from literature documents
KR100575495B1 (en) Method for Extracting and Inferring the Interaction of Biological Components, Inferring Program for Performing the Method and Recording Medium thereof
Alphonse et al. Event-based information extraction for the biomedical domain: the Caderige project
Korobkin et al. Patent data analysis system for information extraction tasks
Szwed Concepts extraction from unstructured Polish texts: A rule based approach
Kaiser et al. Information extraction
AbuTaha et al. An ontology-based arabic question answering system
CN113963748A (en) Protein knowledge map vectorization method
Ananiadou et al. Improving search through event-based biomedical text mining
EP1605371A1 (en) Content search in complex language, such as japanese
Grandi ProbQL: A Probabilistic Query Language for Information Extraction from PDF Reports and Natural Language Written Texts
QasemiZadeh Towards technology structure mining from text by linguistics analysis
Tatar Automating information extraction task for Turkish texts
Polajnar Survey of text mining of biomedical corpora
JP2001034630A (en) System and method for document base retrieval
Khelif et al. Semantic web technologies for interpreting DNA microarray analyses: the MEAT system
Taye et al. An Ontology Learning Framework for unstructured Arabic Text
Betina et al. Applying entity recognition and verb role labelling for information extraction of Tamil biomedicine
Futrelle et al. Corpus linguistics for establishing the natural language content of digital library documents
Yadav et al. Name Entity Conflict Detection in Biomedical Text Data Based on Probabilistic Topic Models
Ghoul et al. Evaluating Lightweight Text Classification Approaches for Arabic Texts

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120319

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20130405

Year of fee payment: 8

LAPS Lapse due to unpaid annual fee