KR102632539B1 - Clinical information search system and method using structure information of natural language - Google Patents

Clinical information search system and method using structure information of natural language Download PDF

Info

Publication number
KR102632539B1
KR102632539B1 KR1020210036995A KR20210036995A KR102632539B1 KR 102632539 B1 KR102632539 B1 KR 102632539B1 KR 1020210036995 A KR1020210036995 A KR 1020210036995A KR 20210036995 A KR20210036995 A KR 20210036995A KR 102632539 B1 KR102632539 B1 KR 102632539B1
Authority
KR
South Korea
Prior art keywords
information
natural language
entity
bundled
clinical trial
Prior art date
Application number
KR1020210036995A
Other languages
Korean (ko)
Other versions
KR20220132679A (en
Inventor
민충기
박서진
김경남
Original Assignee
주식회사 웨이센
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 웨이센 filed Critical 주식회사 웨이센
Priority to KR1020210036995A priority Critical patent/KR102632539B1/en
Publication of KR20220132679A publication Critical patent/KR20220132679A/en
Application granted granted Critical
Publication of KR102632539B1 publication Critical patent/KR102632539B1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data

Abstract

본 발명은 자연어 구조 정보를 이용한 임상정보 검색 시스템 및 방법에 관한 것이다.
본 발명에 따른 자연어 구조 정보를 이용한 임상정보 검색 시스템은, 입력받은 자연어 데이터를 규칙 패턴에 의해 사전 처리한 후, 자연어 데이터를 최소 단위의 어절로 분리하여 형태소적인 품사를 태깅하며, 단어 또는 어구에 대하여 특정 의미 유형으로 라벨링한 후, 의미 유형이 라벨링된 개체들 사이의 형태소적 관계를 추출하며, 추출된 서로 다른 두 개체의 각각의 임베딩 벡터값과 두 개체 간의 관계 정보를 하나로 묶어 묶음 개체 정보를 산출하는 자연어 처리장치와; 자연어 처리장치에 의해 만들어진 묶음 개체의 벡터 정보를 저장하는 검색 데이터베이스(DB); 및 묶음 개체화된 임상시험 데이터를 기반으로 구축되며, 임상시험 정보를 저장하는 임상시험 데이터베이스(DB)를 포함한다.
이와 같은 본 발명에 의하면, 자연어 정보에서 개체와 개체 간의 관계 정보만을 이용하여 검색에 활용함으로써 문장에서 다양한 개체 묶음의 순서 등과 같은 문장의 구조적 차이를 해소할 수 있고, 워드 임베딩 모델을 이용하여 묶음 개체에 대한 벡터 값을 계산함으로써 어휘의 다양성을 해소할 수 있다.
The present invention relates to a clinical information retrieval system and method using natural language structure information.
The clinical information retrieval system using natural language structure information according to the present invention pre-processes the input natural language data according to a rule pattern, separates the natural language data into minimum word units, tags morphological parts of speech, and tags the natural language data into words or phrases. After labeling each entity with a specific semantic type, the morphological relationships between the entities labeled with the semantic type are extracted, and each embedding vector value of the two extracted different entities and the relationship information between the two entities are combined into one to create bundled entity information. A natural language processing device that calculates; A search database (DB) that stores vector information of bundled entities created by a natural language processing device; and a clinical trial database (DB) that is built based on bundled individualized clinical trial data and stores clinical trial information.
According to the present invention, structural differences in sentences, such as the order of various object bundles in a sentence, can be resolved by using only the relationship information between objects in natural language information for search, and using a word embedding model to identify bundled objects. The diversity of vocabulary can be resolved by calculating the vector value for .

Description

자연어 구조 정보를 이용한 임상정보 검색 시스템 및 방법{Clinical information search system and method using structure information of natural language}Clinical information search system and method using structure information of natural language}

본 발명은 자연어 구조 정보를 이용한 임상정보 검색 시스템 및 방법에 관한 것으로서, 더 상세하게는 의미 정보를 가지는 온톨로지(ontology) 등의 데이터베이스의 도움 없이 자연어 처리를 이용한 자연어 수준의 개체 및 개체 간의 관계 정보만을 이용하여 검색 데이터베이스를 구축하고, 비정형화된 텍스트 데이터를 자연어 처리 수준의 가공만으로 검색어에 활용함으로써 환자에 따른 임상시험의 자동 분류를 가능하게 하는 자연어 구조 정보를 이용한 임상정보 검색 시스템 및 방법에 관한 것이다.The present invention relates to a clinical information retrieval system and method using natural language structural information. More specifically, the present invention relates to a system and method for retrieving clinical information using natural language structural information. More specifically, the present invention relates to natural language level entities and relationship information between entities using natural language processing without the help of databases such as ontology with semantic information. It relates to a clinical information search system and method using natural language structure information that enables automatic classification of clinical trials according to patients by building a search database and using unstructured text data for search terms only by processing at the natural language processing level. .

의학 분야와 관련하여 생산되는 데이터는 정형화된 데이터도 많지만, 상당수가 비정형화된 텍스트 중심의 데이터로 생산되고 있다.Although much of the data produced in relation to the medical field is structured, much of it is produced as unstructured, text-oriented data.

환자나 실험 등의 사건 별로 다양한 조합의 임상 결과가 만들어지게 되며, 이를 정형화된 양식에 입력하는 경우 양식의 입력 요구 사항에 반하는 상황이 발생하는 빈도가 높아 이를 비정형화된 문장의 형태로 하여 입력하는 경우가 많다.Various combinations of clinical results are created for each event such as a patient or experiment, and when entering them in a standardized form, there is a high frequency of situations that conflict with the input requirements of the form, so they are entered in the form of an unstructured sentence. There are many cases.

사용자(예를 들면, 의사)는 환자의 환경이나 상태에 따라 유사한 조건에서의 임상 시험결과에 따른 치료법이나 치료제에 대한 정보를 얻고자 하며, 이를 위해 임상시험 데이터베이스에서 해당 환자의 조건을 입력으로 하여 검색을 하는 시스템이 지원되고 있다. 이와 같은 검색 데이터베이스를 구축하기 위해서는 임상시험이나 문헌의 비정형화된 텍스트 데이터를 정형화한 후, 구조적 정보를 표현하는데이터베이스를 이용하여 구축한다.Users (e.g., doctors) wish to obtain information about treatments or treatments based on clinical trial results under similar conditions depending on the patient's environment or condition. To this end, the patient's conditions are entered in the clinical trial database. A search system is supported. In order to build such a search database, unstructured text data from clinical trials or literature is formalized and then constructed using a database that expresses structural information.

비정형화된 데이터의 정형화를 위해 자연어 처리 기술을 이용하여 자연어 수준의 개체 및 개체 간의 관계를 추출하여 1차 구조화하고, 의학과 관련한 개체 관계를 정의하는 다양한 온톨로지 등의 의미 정보를 활용하여 2차 구조화를 하는데, 이는 구축에 많은 비용이 수반되고 의미 정보가 다루는 범위나 규모도 제한적이다.In order to formalize unstructured data, natural language processing technology is used to extract natural language-level entities and relationships between entities for primary structuring, and secondary structuring is performed using semantic information such as various ontologies that define entity relationships related to medicine. However, this involves a lot of cost to build and the scope and scale of semantic information is limited.

또한, 검색 시점에서는 정형화되고 구조화된 입력 양식을 통해서 검색식을 생성하여 데이터베이스에 검색을 요청하게 되는 바, 따라서 검색을 위한 항목의 수가 증가하고, 입력의 자유도가 제한되며, 입력 양식의 복잡도가 증가하게 된다.In addition, at the time of search, a search expression is created through a standardized and structured input form and a search is requested to the database. Therefore, the number of items for search increases, the freedom of input is limited, and the complexity of the input form increases. I do it.

한편, 한국 공개특허공보 제10-2016-0030809호(특허문헌 1)에는 "비구조화 임상 문서의 치환 기반 패턴 검색 장치 및 검색 방법"이 개시되어 있는바, 이에 따른 비구조화 임상 문서의 치환 기반 패턴 검색 장치는, 자연어 처리(Natural Language Processing, NLP) 과정을 통해 수신된 비구조화 의학 문서를 정규화(Normalization)하여 정규화된 텍스트를 생성하는 자연어 처리부; 상기 정규화된 텍스트 및 수신된 도메인 모델을 매칭하여 개체명 인식(Named Entity Recognition) 정보를 식별하는 개체명 인식부; 치환 기반 패턴 발견 접근법(permutation-based pattern discovery approach)을 이용하여 상기 개체명 인식 정보로부터 구조화된 정보를 생성하는 패턴 인식부; 및 상기 구조화된 정보에 기초하여 규정된 템플릿을 작성하는 템플릿 작성부;를 포함하는 것을 특징으로 한다.Meanwhile, Korean Patent Publication No. 10-2016-0030809 (Patent Document 1) discloses a “substitution-based pattern search device and search method for unstructured clinical documents,” and according to this, a substitution-based pattern for unstructured clinical documents is disclosed. The search device includes a natural language processing unit that normalizes unstructured medical documents received through a Natural Language Processing (NLP) process to generate normalized text; an entity name recognition unit that identifies named entity recognition information by matching the normalized text and the received domain model; a pattern recognition unit that generates structured information from the entity name recognition information using a permutation-based pattern discovery approach; and a template creation unit that creates a defined template based on the structured information.

이상과 같은 특허문헌 1의 경우, 구조화되지 않은 의학 문서로부터 구조화된 정보를 추출함으로써, 임상의 또는 연구원들이 정보를 보다 빠르게 검색 및 분류할 수 있는 장점이 있기는 하나, 의학과 관련한 개체 관계를 정의하는 다양한 온톨로지 등의 의미 정보를 활용하여 관계정보를 표현하는 데이터베이스를 구축하고, 온톨로지 검색과 같은 복잡한 검색 규칙을 이용함에 따라, 일반 사용자의 접근을 제한하게 되고, 시스템의 이용을 위한 학습에 상당한 시간을 필요로 하는 단점이 있다. In the case of Patent Document 1 as described above, there is an advantage in that clinicians or researchers can search and classify information more quickly by extracting structured information from unstructured medical documents, but it does not define entity relationships related to medicine. By constructing a database that expresses relationship information using semantic information such as various ontologies and using complex search rules such as ontology search, access to general users is restricted and a significant amount of time is required to learn how to use the system. There is a downside to needing it.

한국 공개특허공보 제10-2016-0030809호(2016.03.21.)Korean Patent Publication No. 10-2016-0030809 (2016.03.21.)

본 발명은 상기와 같은 상황을 종합적으로 감안하여 창출된 것으로서, 의미 정보를 가지는 온톨로지(ontology) 등의 데이터베이스의 도움 없이 자연어 처리를 이용한 자연어 수준의 개체 및 개체 간의 관계 정보만을 이용하여 검색 데이터베이스를 구축하고, 자연어 정보에서 개체와 개체 간의 관계 정보만을 이용하여 검색에 활용함으로써 문장에서 다양한 개체 묶음의 순서 등과 같은 문장의 구조적 차이를 해소할 수 있고, 워드 임베딩 모델을 이용하여 묶음 개체에 대한 벡터 값을 계산함으로써 어휘의 다양성을 해소할 수 있는 자연어 구조 정보를 이용한 임상정보 검색 시스템 및 방법을 제공함에 그 목적이 있다.The present invention was created in comprehensive consideration of the above situation, and builds a search database using only natural language level entities and relationship information between entities using natural language processing without the help of databases such as ontology with semantic information. In addition, by using only the relationship information between entities in natural language information for search, structural differences in sentences, such as the order of various entity bundles in a sentence, can be resolved, and vector values for the bundled entities can be determined using the word embedding model. The purpose is to provide a clinical information retrieval system and method using natural language structure information that can resolve vocabulary diversity through calculation.

상기의 목적을 달성하기 위하여 본 발명에 따른 자연어 구조 정보를 이용한 임상정보 검색 시스템은,In order to achieve the above purpose, the clinical information retrieval system using natural language structure information according to the present invention,

입력받은 자연어 데이터를 규칙 패턴에 의해 사전 처리한 후, 자연어 데이터를 최소 단위의 어절로 분리하여 형태소적인 품사를 태깅하며, 단어 또는 어구에 대하여 특정 의미 유형으로 라벨링한 후, 의미 유형이 라벨링된 개체들 사이의 형태소적 관계를 추출하며, 추출된 서로 다른 두 개체의 각각의 임베딩 벡터값과 두 개체 간의 관계 정보를 하나로 묶어 묶음 개체 정보를 산출하는 자연어 처리장치와;After pre-processing the input natural language data according to rule patterns, the natural language data is separated into the minimum unit of words, tagged with morphological parts of speech, and the words or phrases are labeled with a specific semantic type, and then the object is labeled with the semantic type. a natural language processing device that extracts morphological relationships between two entities and combines each of the extracted embedding vector values of two different entities and the relationship information between the two entities into one to produce bundled entity information;

상기 자연어 처리장치와 인터넷 또는 로컬 네트워크로 연결되며, 상기 자연어 처리장치에 의해 만들어진 묶음 개체 정보를 저장하는 검색 데이터베이스(DB); 및a search database (DB) connected to the natural language processing device via the Internet or a local network and storing bundled entity information created by the natural language processing device; and

상기 자연어 처리장치와 인터넷 또는 로컬 네트워크로 연결되며, 묶음 개체화된 임상시험 데이터를 기반으로 구축되며, 임상시험 정보를 저장하는 임상시험 데이터베이스(DB)를 포함하는 점에 그 특징이 있다.It is connected to the natural language processing device through the Internet or a local network, is built based on bundled individualized clinical trial data, and is characterized by including a clinical trial database (DB) that stores clinical trial information.

여기서, 검색을 위하여 비정형화된 텍스트를 입력으로 받을 수 있는 인터페이스 장치를 더 포함할 수 있다. Here, an interface device capable of receiving unstructured text as input for search may be further included.

여기서, 또한 상기 자연어 처리장치는,Here, the natural language processing device also includes,

문자, 숫자, 특수 기호가 혼재하고, 이메일, 웹URL 규칙 패턴이 존재하는 자연어 데이터를 규칙 패턴에 의해 사전 처리한 후, 문자, 숫자 및 특수 기호의 임의적 규칙 패턴을 만들어 정제하는 자연어 전처리 모듈과;A natural language preprocessing module that pre-processes natural language data containing a mixture of letters, numbers, and special symbols, and in which email and web URL rule patterns exist, using rule patterns, and then creates and refines arbitrary rule patterns of letters, numbers, and special symbols;

상기 자연어 데이터를 문장 성분의 최소 단위의 어절로 분리하고, 해당 어절에 대해서 형태소적 특징인 명사, 동사, 형용사 등의 품사를 태깅하는 POS(part of speech) 분석 모듈과;a POS (part of speech) analysis module that separates the natural language data into words of the smallest unit of sentence components and tags the words with parts of speech such as nouns, verbs, and adjectives, which are morphological features;

개체명 인식(named entity recognition)으로 단일 어절 또는 복수의 어절로 구성된 단어 또는 어구에 대하여 특정 의미 유형으로 라벨링하는 개체명 추출 모듈과; a named entity extraction module that labels words or phrases consisting of a single word or multiple words with a specific semantic type through named entity recognition;

상기 개체명 추출 모듈에 의해 라벨링된 단어 또는 어구에 대하여 각각의 의미 유형이 라벨링된 개체들 사이의 형태소적 관계를 추출하는 개체관계 추출 모듈; 및an entity relationship extraction module that extracts morphological relationships between entities labeled with respective semantic types for words or phrases labeled by the entity name extraction module; and

상기 개체관계 추출 모듈에 의해 추출된 형태소적 관계에 있어서, A개체의 임베딩 벡터값과 B개체의 임베딩 벡터값 및 A개체와 B개체의 관계 정보인 원 핫 벡터(one-hot vector)를 하나로 묶어 하나의 벡터값으로 표출하는 묶음 개체화 모듈을 포함하여 구성될 수 있다.In the morpheme relationship extracted by the entity relationship extraction module, the embedding vector value of entity A, the embedding vector value of entity B, and the one-hot vector, which is the relationship information between entity A and entity B, are combined into one. It can be configured to include a bundle individuation module that is expressed as a single vector value.

이때, 상기 개체명 추출 모듈은 UMLS(Unified Medical Language System)에서 정의한 의미 유형(semantic type)을 이용하여 개체에 대한 의미 정보를 추출하는 개체명 인식기를 이용하여 의학 용어와 관련이 높은 개체를 추출할 수 있다. At this time, the entity name extraction module extracts entities highly related to medical terms using an entity name recognizer that extracts semantic information about the entity using the semantic type defined by UMLS (Unified Medical Language System). You can.

또한, 상기 개체관계 추출 모듈은 자연어 처리에서 사용되는 CONLL-U format에서 정의하고 있는 구조적 관계 정보를 추출하는 개체관계 인식기를 이용하여 개체들 사이의 형태소적 관계인 개체관계를 추출할 수 있다.Additionally, the entity relationship extraction module can extract entity relationships, which are morphological relationships between entities, using an entity relationship recognizer that extracts structural relationship information defined in the CONLL-U format used in natural language processing.

또한, 상기 자연어 처리장치는 상기 A, B 각 개체가 가지는 단어를 이용하여 워드 임베딩 모델(word embedding model)을 통해 벡터 값을 계산하고, 개체 간의 구조적 관계 정보를 함께 연결하여 묶음 개체의 연결 벡터로 구성하며, 전체 임상/문헌 비정형 데이터에서 문서마다 묶음 개체를 추출하여 벡터 값을 계산하고, 각 묶음 개체를 하나의 검색을 위한 행렬로 구성할 수 있다.In addition, the natural language processing device calculates a vector value through a word embedding model using the words of each entity A and B, and connects the structural relationship information between the entities together to create a connection vector of the bundled entity. By extracting bundled entities for each document from the entire clinical/literature unstructured data, vector values can be calculated, and each bundled entity can be configured into a matrix for search.

또한, 상기 자연어 처리장치는 검색 문장의 묶음 개체를 추출하고 벡터 값을 계산한 후, 묶음 개체 검색 행렬과 행렬 곱셈을 통해 묶음 개체 간의 유사도를 계산한 다음, 관련도가 높은 묶음 개체를 판별하고 이 묶음 개체가 속하는 임상시험 데이터베이스를 검색하여, 검색된 임상시험 정보에 대한 유사도 및 개체 빈도를 이용하여 임상 시험 정보를 정렬할 수 있다.In addition, the natural language processing device extracts the bundled entities of the search sentence, calculates the vector value, calculates the similarity between the bundled objects through the bundled object search matrix and matrix multiplication, and then determines the bundled objects with high relevance. You can search the clinical trial database to which the bundled entity belongs and sort the clinical trial information using the similarity and entity frequency of the retrieved clinical trial information.

또한, 상기의 목적을 달성하기 위하여 본 발명에 따른 자연어 구조 정보를 이용한 임상정보 검색 방법은,In addition, in order to achieve the above purpose, the clinical information search method using natural language structure information according to the present invention,

a) 자연어 처리장치에 의해 임상시험 비정형 데이터를 입력받아 처리하여 묶음 개체화된 임상시험 데이터를 추출하는 단계와;a) receiving and processing clinical trial unstructured data using a natural language processing device to extract bundled individualized clinical trial data;

b) 상기 추출된 묶음 개체화된 임상시험 데이터에 대해 워드 임베딩 모델을 통해 각 개체의 단어를 이용하여 벡터값을 계산하는 단계와;b) calculating a vector value using the words of each individual through a word embedding model for the extracted bundled individualized clinical trial data;

c) 상기 벡터값 계산에 의해 묶음 개체의 벡터 정보를 가지는 검색 데이터 베이스(DB) 및 상기 묶음 개체화된 임상시험 데이터 기반의 임상시험 데이터베이스(DB)를 구축하는 단계와;c) constructing a search database (DB) with vector information of bundled entities and a clinical trial database (DB) based on the bundled individualized clinical trial data by calculating the vector values;

d) 자연어 처리장치에 의해 환자 정보 비정형 데이터를 입력받아 처리하여 묶음 개체화된 환자 정보 데이터를 추출하는 단계와;d) receiving and processing unstructured patient information data by a natural language processing device to extract bundled individualized patient information data;

e) 상기 추출된 묶음 개체화된 환자 정보 데이터에 대해 워드 임베딩 모델을 통해 각 개체의 단어를 이용하여 벡터값을 계산하는 단계와;e) calculating a vector value using the words of each entity through a word embedding model for the extracted bundled individualized patient information data;

f) 상기 계산된 환자 정보의 묶음 개체 벡터값과 유사한 묶음 개체 벡터 정보를 가지는 묶음 개체를 상기 검색 데이터베이스(DB)로부터 검색하는 단계; 및f) searching from the search database (DB) for a bundled entity having bundled entity vector information similar to the calculated bundled entity vector value of the patient information; and

g) 상기 검색된 묶음 개체와 유사도가 높은 묶음 개체를 포함하는 임상시험 정보를 상기 임상시험 데이터베이스(DB)로부터 검색하는 단계를 포함하는 점에 그 특징이 있다.g) It is characterized in that it includes the step of searching clinical trial information including bundled entities with high similarity to the retrieved bundled entities from the clinical trial database (DB).

여기서, 바람직하게는 상기 단계 g) 이후에, h) 상기 검색된 임상시험 정보를 유사도 점수에 따라 정렬하고, 검색결과를 유사성이 높다고 판정된 묶음 개체 정보와 함께 시각화하는 단계를 더 포함할 수 있다.Here, preferably after step g), the step h) of sorting the retrieved clinical trial information according to similarity scores and visualizing the search results together with bundled entity information determined to have high similarity may be further included.

또한, 상기 단계 a)에서 상기 임상시험 비정형 데이터는 질병이나 치료법, 임상 소견, 논문, 의학 저널 보고서 등에 게재된 임상시험 관련 내용 및 정보를 포함할 수 있다.Additionally, in step a), the clinical trial unstructured data may include content and information related to clinical trials published in diseases, treatments, clinical findings, papers, medical journal reports, etc.

또한, 상기 단계 a)에서 임상시험 비정형 데이터를 입력받아 처리함에 있어서, 자연어 처리장치의 자연어 전처리 모듈에 의해 문자, 숫자, 특수 기호가 혼재하고, 이메일, 웹URL 규칙 패턴이 존재하는 자연어 데이터를 규칙 패턴에 의해 사전 처리한 후, 문자, 숫자 및 특수 기호의 임의적 규칙 패턴을 만들어 정제할 수 있다.In addition, when receiving and processing the clinical trial unstructured data in step a), the natural language preprocessing module of the natural language processing device rules out natural language data containing a mixture of letters, numbers, and special symbols, and where email and web URL rule patterns exist. After preprocessing by pattern, it can be refined by creating arbitrary regular patterns of letters, numbers, and special symbols.

또한, 상기 단계 a)에서 임상시험 비정형 데이터를 입력받아 처리함에 있어서, POS(part of speech) 분석 모듈에 의해 자연어 데이터(임상시험 비정형 데이터)를 문장 성분의 최소 단위의 어절로 분리하고, 해당 어절에 대해서 형태소적 특징인 명사, 동사, 형용사 등의 품사를 태깅할 수 있다.In addition, when receiving and processing the clinical trial unstructured data in step a), the natural language data (clinical trial unstructured data) is separated into words of the minimum unit of sentence components by the POS (part of speech) analysis module, and the corresponding words are separated into words of the minimum unit of sentence components. You can tag parts of speech such as nouns, verbs, and adjectives, which are morphological features.

또한, 상기 단계 a)에서 임상시험 비정형 데이터를 입력받아 처리함에 있어서, 개체명 추출 모듈에 의해 개체명 인식(named entity recognition)으로 단일 어절 또는 복수의 어절로 구성된 단어 또는 어구에 대하여 특정 의미 유형으로 라벨링할 수 있다.In addition, when receiving and processing clinical trial unstructured data in step a), a word or phrase consisting of a single word or multiple words is recognized as a specific semantic type through named entity recognition by the entity name extraction module. Can be labeled.

또한, 상기 단계 a)에서 임상시험 비정형 데이터를 입력받아 처리함에 있어서, 개체관계 추출 모듈에 의해 상기 개체명 추출 모듈에 의해 라벨링된 단어 또는 어구에 대하여 각각의 의미 유형이 라벨링된 개체들 사이의 형태소적 관계를 추출할 수 있다.In addition, when receiving and processing clinical trial unstructured data in step a), the morphemes between entities for which each semantic type is labeled for the word or phrase labeled by the entity name extraction module by the entity relationship extraction module. Relationships can be extracted.

또한, 상기 단계 b)에서 워드 임베딩 모델을 통해 각 개체의 단어를 이용하여 벡터값을 계산함에 있어서, 묶음 개체화 모듈에 의해 A개체의 임베딩 벡터값과 B개체의 임베딩 벡터값 및 A개체와 B개체의 관계 정보인 원 핫 벡터(one-hot vector)를 하나로 묶어 하나의 벡터값으로 표출할 수 있다.In addition, in step b), when calculating the vector value using the words of each entity through the word embedding model, the embedding vector value of entity A, the embedding vector value of entity B, and entity A and entity B are calculated by the bundle individuation module. The one-hot vector, which is the relationship information of , can be grouped into one and expressed as a single vector value.

이와 같은 본 발명에 의하면, 의미 정보를 가지는 온톨로지(ontology) 등의 데이터베이스의 도움 없이 자연어 처리를 이용한 자연어 수준의 개체 및 개체 간의 관계 정보만을 이용하여 검색 데이터베이스를 구축하고, 자연어 정보에서 개체와 개체 간의 관계 정보만을 이용하여 검색에 활용함으로써 문장에서 다양한 개체 묶음의 순서 등과 같은 문장의 구조적 차이를 해소할 수 있고, 워드 임베딩 모델을 이용하여 묶음 개체에 대한 벡터 값을 계산함으로써 어휘의 다양성을 해소할 수 있는 장점이 있다.According to the present invention, a search database is constructed using only entities and relationship information between entities at the natural language level using natural language processing without the help of databases such as ontology with semantic information, and the relationship between entities is established in natural language information. By using only relationship information for search, structural differences in sentences, such as the order of various object bundles in a sentence, can be resolved, and vocabulary diversity can be resolved by calculating vector values for bundled objects using a word embedding model. There is an advantage.

도 1은 본 발명에 따른 자연어 구조 정보를 이용한 임상정보 검색 시스템의 구성을 개략적으로 나타낸 도면이다.
도 2는 본 발명에 따른 자연어 구조 정보를 이용한 임상정보 검색 방법의 실행 과정을 나타낸 흐름도이다.
도 3은 개체(형태소) 분석 및 관계 정보 추출과, 의료 도메인 관련 형태소만 묶어 하나의 토큰으로 처리하는 개요를 나타낸 도면이다.
도 4는 묶음 개체에 대하여 token1 벡터, token2 벡터, 관계 정보 원-핫 벡터를 테이블로 정리하여 나타낸 도면이다.
Figure 1 is a diagram schematically showing the configuration of a clinical information retrieval system using natural language structure information according to the present invention.
Figure 2 is a flowchart showing the execution process of the clinical information search method using natural language structure information according to the present invention.
Figure 3 is a diagram showing an overview of entity (morpheme) analysis and relationship information extraction, and processing only medical domain-related morphemes into one token.
Figure 4 is a diagram showing the token1 vector, token2 vector, and relationship information one-hot vector for bundled entities organized into a table.

본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정되어 해석되지 말아야 하며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념을 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야 한다.Terms or words used in this specification and claims should not be construed as limited to their ordinary or dictionary meanings, and the inventor may appropriately define the concept of terms to explain his or her invention in the best way. It should be interpreted as meaning and concept consistent with the technical idea of the present invention based on principles.

명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다. 또한, 명세서에 기재된 "…부", "…기", "모듈", "장치" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.Throughout the specification, when a part “includes” a certain element, this means that it does not exclude other elements but may further include other elements, unless specifically stated to the contrary. In addition, terms such as "...unit", "...unit", "module", and "device" used in the specification refer to a unit that processes at least one function or operation, which refers to hardware, software, or a combination of hardware and software. It can be implemented as:

이하 첨부된 도면을 참조하여 본 발명의 실시예를 상세히 설명한다.Hereinafter, embodiments of the present invention will be described in detail with reference to the attached drawings.

도 1은 본 발명의 실시예에 따른 자연어 구조 정보를 이용한 임상정보 검색 시스템의 구성을 개략적으로 나타낸 도면이다.Figure 1 is a diagram schematically showing the configuration of a clinical information retrieval system using natural language structure information according to an embodiment of the present invention.

도 1을 참조하면, 본 발명에 따른 자연어 구조 정보를 이용한 임상정보 검색 시스템(100)은 자연어 처리장치(110), 검색 데이터베이스(DB)(120) 및 임상시험 데이터베이스(DB)(130)를 포함하여 구성된다.Referring to Figure 1, the clinical information retrieval system 100 using natural language structure information according to the present invention includes a natural language processing device 110, a search database (DB) 120, and a clinical trial database (DB) 130. It is composed by:

자연어 처리장치(110)는 입력받은 자연어 데이터(예를 들면, 임상시험 비정형 데이터)를 규칙 패턴에 의해 사전 처리한 후, 자연어 데이터를 최소 단위의 어절로 분리하여 형태소적인 품사를 태깅하며, 단어 또는 어구에 대하여 특정 의미 유형으로 라벨링한 후, 의미 유형이 라벨링된 개체들 사이의 형태소적 관계를 추출하며, 추출된 서로 다른 두 개체의 각각의 임베딩 벡터값과 두 개체 간의 관계 정보를 하나로 묶어 묶음 개체 정보를 산출한다.The natural language processing device 110 pre-processes the input natural language data (e.g., clinical trial unstructured data) according to a rule pattern, separates the natural language data into words of the minimum unit, tags the morphological parts of speech, and tags the words or After labeling a phrase with a specific semantic type, the morphological relationship between the entities labeled with the semantic type is extracted, and the embedding vector values of each of the two extracted different entities and the relationship information between the two entities are bundled into one object. Calculate information.

검색 데이터베이스(DB)(120)는 상기 자연어 처리장치(110)와 인터넷 또는 로컬 네트워크로 연결되며, 상기 자연어 처리장치(110)에 의해 만들어진 묶음 개체 정보를 저장한다.The search database (DB) 120 is connected to the natural language processing device 110 through the Internet or a local network, and stores bundled entity information created by the natural language processing device 110.

임상시험 데이터베이스(DB)(130)는 상기 자연어 처리장치(110)와 인터넷 또는 로컬 네트워크로 연결되며, 묶음 개체화된 임상시험 데이터를 기반으로 구축되며, 임상시험 정보를 저장한다.The clinical trial database (DB) 130 is connected to the natural language processing device 110 via the Internet or a local network, is built based on bundled individualized clinical trial data, and stores clinical trial information.

이상과 같은 본 발명에 따른 자연어 구조 정보를 이용한 임상정보 검색 시스템(100)은 검색을 위하여 비정형화된 텍스트를 입력으로 받을 수 있는 인터페이스 장치(미도시)를 더 포함할 수 있다.The clinical information retrieval system 100 using natural language structure information according to the present invention as described above may further include an interface device (not shown) that can receive unstructured text as input for search.

여기서, 상기 자연어 처리장치(110)는, 문자, 숫자, 특수 기호가 혼재하고, 이메일, 웹URL 규칙 패턴이 존재하는 자연어 데이터를 규칙 패턴에 의해 사전 처리한 후, 문자, 숫자 및 특수 기호의 임의적 규칙 패턴을 만들어 정제하는 자연어 전처리 모듈(111)과; 상기 자연어 데이터를 문장 성분의 최소 단위의 어절로 분리하고, 해당 어절에 대해서 형태소적 특징인 명사, 동사, 형용사 등의 품사를 태깅하는 POS(part of speech) 분석 모듈(112)과; 개체명 인식(named entity recognition)으로 단일 어절 또는 복수의 어절로 구성된 단어 또는 어구에 대하여 특정 의미 유형(예를 들면, 기관, 성명, 장소, 시간, 학교 등)으로 라벨링하는 개체명 추출 모듈(113)과; 상기 개체명 추출 모듈(113)에 의해 라벨링된 단어 또는 어구에 대하여 각각의 의미 유형이 라벨링된 개체들 사이의 형태소적 관계를 추출하는 개체관계 추출 모듈(114); 및 상기 개체관계 추출 모듈(114)에 의해 추출된 개체들에 있어서, A개체의 임베딩 벡터값과 B개체의 임베딩 벡터값 및 A개체와 B개체의 관계 정보인 원 핫 벡터(one-hot vector)를 하나로 묶어 하나의 벡터값으로 표출하는 묶음 개체화 모듈(115)을 포함하여 구성될 수 있다. Here, the natural language processing device 110 pre-processes natural language data in which letters, numbers, and special symbols are mixed and email and web URL rule patterns exist, according to the rule pattern, and then randomizes the letters, numbers, and special symbols. a natural language preprocessing module 111 that creates and refines rule patterns; a POS (part of speech) analysis module 112 that separates the natural language data into words of the smallest unit of sentence components and tags the words with parts of speech such as nouns, verbs, and adjectives, which are morphological features; Named entity recognition is a named entity extraction module (113) that labels words or phrases consisting of a single word or multiple words with a specific semantic type (e.g., institution, name, place, time, school, etc.) )class; an entity relationship extraction module 114 that extracts morphological relationships between entities labeled with each semantic type for the word or phrase labeled by the entity name extraction module 113; And in the entities extracted by the entity relationship extraction module 114, the embedding vector value of entity A, the embedding vector value of entity B, and the one-hot vector that is the relationship information between entity A and entity B. It may be configured to include a bundle individuation module 115 that bundles and expresses them as one vector value.

이상과 같은 자연어 처리장치(110)는 컴퓨터 시스템으로 구성될 수 있다. 또한, 상기 자연어 전처리 모듈(111), POS 분석 모듈(112), 개체명 추출 모듈(113), 개체관계 추출 모듈(114), 묶음 개체화 모듈(115)은 각각 주어진 특정 기능을 수행하는 하나의 소프트웨어 프로그램으로 각각 구성될 수 있다.The natural language processing device 110 described above may be configured as a computer system. In addition, the natural language preprocessing module 111, POS analysis module 112, entity name extraction module 113, entity relationship extraction module 114, and bundle individuation module 115 are each software that performs a given specific function. Each can be composed of a program.

이때, 상기 개체명 추출 모듈(113)은 UMLS(Unified Medical Language System)에서 정의한 의미 유형(semantic type)을 이용하여 개체에 대한 의미 정보를 추출하는 개체명 인식기를 이용하여 의학 용어와 관련이 높은 개체를 추출할 수 있다. At this time, the entity name extraction module 113 uses an entity name recognizer that extracts semantic information about the entity using a semantic type defined by UMLS (Unified Medical Language System) to identify an entity highly related to medical terminology. can be extracted.

또한, 상기 개체관계 추출 모듈(114)은 자연어 처리에서 사용되는 CONLL-U format에서 정의하고 있는 구조적 관계 정보를 추출하는 개체관계 인식기를 이용하여 개체들 사이의 형태소적 관계인 개체관계를 추출할 수 있다.In addition, the entity relationship extraction module 114 can extract entity relationships, which are morphological relationships between entities, using an entity relationship recognizer that extracts structural relationship information defined in the CONLL-U format used in natural language processing. .

또한, 상기 자연어 처리장치(110)는 상기 A, B 각 개체가 가지는 단어를 이용하여 워드 임베딩 모델(word embedding model)을 통해 벡터 값을 계산하고, 개체 간의 구조적 관계 정보를 함께 연결하여 묶음 개체의 연결 벡터로 구성하며, 전체 임상/문헌 비정형 데이터에서 문서마다 묶음 개체를 추출하여 벡터 값을 계산하고, 각 묶음 개체를 하나의 검색을 위한 행렬로 구성할 수 있다.In addition, the natural language processing device 110 calculates a vector value through a word embedding model using the words of each object A and B, and connects the structural relationship information between the objects together to determine the bundled object. It is composed of connection vectors, and the vector value can be calculated by extracting bundled entities for each document from the entire clinical/literature unstructured data, and constructing each bundled object into a matrix for search.

또한, 상기 자연어 처리장치(110)는 검색 문장의 묶음 개체를 추출하고 벡터 값을 계산한 후, 묶음 개체 검색 행렬과 행렬 곱셈을 통해 묶음 개체 간의 유사도를 계산한 다음, 관련도가 높은 묶음 개체를 판별하고 이 묶음 개체가 속하는 임상시험 데이터베이스(130)를 검색하여, 검색된 임상시험 정보에 대한 유사도 및 개체 빈도를 이용하여 임상 시험 정보를 정렬할 수 있다.In addition, the natural language processing device 110 extracts the bundled entities of the search sentence, calculates the vector value, calculates the similarity between the bundled objects through the bundled object search matrix and matrix multiplication, and then selects the bundled objects with high relatedness. By determining and searching the clinical trial database 130 to which this bundle of entities belongs, the clinical trial information can be sorted using the similarity and entity frequency of the retrieved clinical trial information.

그러면, 이하에서는 이상과 같은 구성을 가지는 본 발명에 따른 자연어 구조 정보를 이용한 임상정보 검색 시스템을 기반으로 한 임상정보 검색 방법에 대해 설명해 보기로 한다.Then, the following will explain a clinical information retrieval method based on the clinical information retrieval system using natural language structure information according to the present invention having the above configuration.

도 2는 본 발명의 실시예에 따른 자연어 구조 정보를 이용한 임상정보 검색 방법의 실행 과정을 나타낸 흐름도이다.Figure 2 is a flowchart showing the execution process of a clinical information search method using natural language structure information according to an embodiment of the present invention.

도 2를 참조하면, 본 발명에 따른 자연어 구조 정보를 이용한 임상정보 검색 방법에 따라, 먼저 자연어 처리장치(110)에 의해 임상시험 비정형 데이터를 입력받아 처리하여 묶음 개체화된 임상시험 데이터를 추출한다(단계 S201).Referring to FIG. 2, according to the clinical information search method using natural language structure information according to the present invention, clinical trial unstructured data is first input and processed by the natural language processing device 110 to extract bundled individualized clinical trial data ( Step S201).

그런 후, 상기 추출된 묶음 개체화된 임상시험 데이터에 대해 워드 임베딩 모델을 통해 각 개체의 단어를 이용하여 벡터값을 계산한다(단계 S202).Then, for the extracted bundled individualized clinical trial data, a vector value is calculated using the words of each individual through a word embedding model (step S202).

그리고 상기 벡터값 계산에 의해 묶음 개체의 벡터 정보를 가지는 검색 데이터 베이스(DB)(120) 및 상기 묶음 개체화된 임상시험 데이터 기반의 임상시험 데이터베이스(DB)(130)를 구축한다(단계 S203).And by calculating the vector value, a search database (DB) 120 with vector information of the bundled entities and a clinical trial database (DB) 130 based on the bundled individualized clinical trial data are constructed (step S203).

이상에 의해 입력된 자연어 데이터에 대한 데이터베이스 구축이 완료된 후, 자연어 처리장치(110)에 의해 환자 정보 비정형 데이터를 입력받아 처리하여 묶음 개체화된 환자 정보 데이터를 추출한다(단계 S204).After the database construction for the input natural language data is completed as described above, the unstructured patient information data is received and processed by the natural language processing device 110 to extract bundled individualized patient information data (step S204).

그리고 그 추출된 묶음 개체화된 환자 정보 데이터에 대해 워드 임베딩 모델을 통해 각 개체의 단어를 이용하여 벡터값을 계산한다(단계 S205).Then, for the extracted bundled individualized patient information data, a vector value is calculated using the words of each individual through a word embedding model (step S205).

그런 다음, 상기 계산된 환자 정보의 묶음 개체 벡터값과 유사한 묶음 개체 벡터 정보를 가지는 묶음 개체를 상기 검색 데이터베이스(DB)(120)로부터 검색한다(단계 S206).Then, a bundled entity having bundled entity vector information similar to the calculated bundled entity vector value of the patient information is searched from the search database (DB) 120 (step S206).

그런 후, 상기 검색된 묶음 개체와 유사도가 높은 묶음 개체를 포함하는 임상시험 정보를 상기 임상시험 데이터베이스(DB)(130)로부터 검색한다(단계 S207).Then, clinical trial information including bundled entities with high similarity to the retrieved bundled entities is searched from the clinical trial database (DB) 130 (step S207).

여기서, 바람직하게는 상기 단계 S207 이후에, 상기 검색된 임상시험 정보를 유사도 점수에 따라 정렬하고, 검색결과를 유사성이 높다고 판정된 묶음 개체 정보와 함께 시각화하는 단계를 더 포함할 수 있다.Here, preferably after step S207, the step of sorting the retrieved clinical trial information according to the similarity score and visualizing the search results together with bundled entity information determined to have high similarity may be further included.

또한, 상기 단계 S201에서 상기 임상시험 비정형 데이터는 질병이나 치료법, 임상 소견, 논문, 의학 저널 보고서 등에 게재된 임상시험 관련 내용 및 정보를 포함할 수 있다.Additionally, in step S201, the clinical trial unstructured data may include content and information related to clinical trials published in diseases, treatments, clinical findings, papers, medical journal reports, etc.

또한, 상기 단계 S201에서 임상시험 비정형 데이터를 입력받아 처리함에 있어서, 자연어 처리장치(110)의 자연어 전처리 모듈(111)에 의해 문자, 숫자, 특수 기호가 혼재하고, 이메일, 웹URL 규칙 패턴이 존재하는 자연어 데이터를 규칙 패턴에 의해 사전 처리한 후, 문자, 숫자 및 특수 기호의 임의적 규칙 패턴을 만들어 정제할 수 있다.In addition, when receiving and processing clinical trial unstructured data in step S201, letters, numbers, and special symbols are mixed by the natural language preprocessing module 111 of the natural language processing device 110, and email and web URL rule patterns are present. After preprocessing natural language data using rule patterns, arbitrary rule patterns of letters, numbers, and special symbols can be created and refined.

또한, 상기 단계 S201에서 임상시험 비정형 데이터를 입력받아 처리함에 있어서, POS(part of speech) 분석 모듈(112)에 의해 자연어 데이터(임상시험 비정형 데이터)를 문장 성분의 최소 단위의 어절로 분리하고, 해당 어절에 대해서 형태소적 특징인 명사, 동사, 형용사 등의 품사를 태깅할 수 있다.In addition, when receiving and processing the clinical trial unstructured data in step S201, the POS (part of speech) analysis module 112 separates the natural language data (clinical trial unstructured data) into words of the minimum unit of sentence components, For the word in question, parts of speech such as nouns, verbs, and adjectives, which are morphological features, can be tagged.

또한, 상기 단계 S201에서 임상시험 비정형 데이터를 입력받아 처리함에 있어서, 개체명 추출 모듈(113)에 의해 개체명 인식(named entity recognition)으로 단일 어절 또는 복수의 어절로 구성된 단어 또는 어구에 대하여 특정 의미 유형(예를 들면, 기관, 성명, 장소, 시간, 학교 등)으로 라벨링할 수 있다.In addition, when receiving and processing clinical trial unstructured data in step S201, the entity name extraction module 113 performs named entity recognition to provide a specific meaning to a word or phrase consisting of a single word or multiple words. Can be labeled by type (e.g. institution, name, location, time, school, etc.).

또한, 상기 단계 S201에서 임상시험 비정형 데이터를 입력받아 처리함에 있어서, 개체관계 추출 모듈(114)에 의해 상기 개체명 추출 모듈(113)에 의해 라벨링된 단어 또는 어구에 대하여 각각의 의미 유형이 라벨링된 개체들 사이의 형태소적 관계를 추출할 수 있다.In addition, when receiving and processing clinical trial unstructured data in step S201, each semantic type is labeled for the word or phrase labeled by the entity name extraction module 113 by the entity relationship extraction module 114. Morphological relationships between entities can be extracted.

또한, 상기 단계 S202에서 워드 임베딩 모델을 통해 각 개체의 단어를 이용하여 벡터값을 계산함에 있어서, 묶음 개체화 모듈(115)에 의해 A개체의 임베딩 벡터값과 B개체의 임베딩 벡터값 및 A개체와 B개체의 관계 정보인 원 핫 벡터(one-hot vector)를 하나로 묶어 하나의 벡터값으로 표출할 수 있다.In addition, in calculating the vector value using the word of each entity through the word embedding model in step S202, the embedding vector value of entity A, the embedding vector value of entity B, and entity A are calculated by the bundle individuation module 115. The one-hot vector, which is the relationship information of object B, can be bundled together and expressed as a single vector value.

한편, 도 3은 본 발명에 따른 자연어 구조 정보를 이용한 임상정보 검색 방법에 따라 개체(형태소) 분석 및 관계 정보 추출과, 의료 도메인 관련 형태소만 묶어 하나의 토큰으로 처리하는 개요를 나타낸 도면이고, 도 4는 묶음 개체에 대하여 token1 벡터, token2 벡터, 관계 정보 원-핫 벡터를 테이블로 정리하여 나타낸 도면이다.Meanwhile, Figure 3 is a diagram showing an overview of entity (morpheme) analysis and relationship information extraction and processing of only medical domain-related morphemes into one token according to the clinical information search method using natural language structure information according to the present invention. 4 is a diagram showing the token1 vector, token2 vector, and relationship information one-hot vector for the bundled entity in a table.

먼저, 도 3의 (A)에 도시된 바와 같이, 입력된 자연어 데이터(예컨대, 임상시험 비정형 데이터)에 대해 형태소(개체) 분석 및 개체와 개체 간의 관계 정보를 추출한다. 그런 후, (B)와 같이 의료 도메인과 관련한 형태소만 묶어 하나의 토큰으로 처리한다.First, as shown in (A) of FIG. 3, morpheme (entity) analysis and relationship information between entities are extracted from the input natural language data (e.g., clinical trial unstructured data). Then, as shown in (B), only morphemes related to the medical domain are grouped and processed as one token.

이렇게 하여 각각의 묶음 개체에 대해 토큰으로 처리된 결과는 도 4에 도시된 바와 같이, 묶음 개체, 토큰 벡터, 관계 정보 원-핫 벡터의 테이블로 정리될 수 있다. In this way, the results of processing tokens for each bundle entity can be organized into a table of bundle entities, token vectors, and relationship information one-hot vectors, as shown in FIG. 4.

테이블에 정리되어 있는 token1 벡터는 {0.23, -0.12, ..., 0.01}과 같이 표시할 수 있고, token2 벡터는 {-0.13, -0.02, ..., 0.14}와 같이 표시할 수 있으며, 관계 정보 원-핫 벡터(relation one-hot vector)는 {0, 0, 0, ..., 1}과 같이 표시할 수 있다. 이를 바탕으로, 묶음 개체 벡터는 "token1 vector + token2 vector + relation one-hot vector"로 표시할 수 있다.The token1 vector organized in the table can be displayed as {0.23, -0.12, ..., 0.01}, and the token2 vector can be displayed as {-0.13, -0.02, ..., 0.14}. Relation information one-hot vector can be expressed as {0, 0, 0, ..., 1}. Based on this, the bundled entity vector can be expressed as “token1 vector + token2 vector + relation one-hot vector”.

이상의 설명과 같이, 본 발명에 따른 자연어 구조 정보를 이용한 임상정보 검색 시스템 및 방법은 의미 정보를 가지는 온톨로지(ontology) 등의 데이터베이스의 도움 없이 자연어 처리를 이용한 자연어 수준의 개체 및 개체 간의 관계 정보만을 이용하여 검색 데이터베이스를 구축하고, 자연어 정보에서 개체와 개체 간의 관계 정보만을 이용하여 검색에 활용함으로써 문장에서 다양한 개체 묶음의 순서 등과 같은 문장의 구조적 차이를 해소할 수 있고, 워드 임베딩 모델을 이용하여 묶음 개체에 대한 벡터 값을 계산함으로써 어휘의 다양성을 해소할 수 있는 장점이 있다.As described above, the clinical information retrieval system and method using natural language structure information according to the present invention uses only natural language level entities and relationship information between entities using natural language processing without the help of databases such as ontology with semantic information. By building a search database and using only the relationship information between entities in natural language information for search, structural differences in sentences, such as the order of various object bundles in a sentence, can be resolved, and the word embedding model can be used to identify bundled objects. There is an advantage in that the diversity of vocabulary can be resolved by calculating the vector value for .

또한, 자연어 기반의 검색을 지원함으로써, 사용자가 별도의 시스템 이용에 대한 학습 과정 없이 검색 시스템을 이용할 수 있는 장점이 있다.Additionally, by supporting natural language-based search, there is an advantage that users can use the search system without a separate learning process for using the system.

또한, 병원의 환자 EMR(Endoscopic Mucosal Resection) 데이터 중 임상 소견과 같은 비정형화된 텍스트 데이터를 자연어 처리 수준의 가공만으로 검색어에 활용함으로써 환자에 따른 임상시험의 분류를 자동으로 수행할 수 있는 장점이 있다.In addition, it has the advantage of automatically classifying clinical trials according to patients by using unstructured text data such as clinical findings among the hospital's patient EMR (Endoscopic Mucosal Resection) data for search terms only by processing at the natural language processing level. .

이상, 바람직한 실시예를 통하여 본 발명에 관하여 상세히 설명하였으나, 본 발명은 이에 한정되는 것은 아니며, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 다양하게 변경, 응용될 수 있음은 당해 기술분야의 통상의 기술자에게 자명하다. 따라서, 본 발명의 진정한 보호 범위는 다음의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술적 사상은 본 발명의 권리 범위에 포함되는 것으로 해석되어야 할 것이다.Above, the present invention has been described in detail through preferred embodiments, but the present invention is not limited thereto, and various changes and applications can be made without departing from the technical spirit of the present invention. Self-explanatory to technicians. Therefore, the true scope of protection of the present invention should be interpreted in accordance with the following claims, and all technical ideas within the equivalent scope should be interpreted as being included in the scope of rights of the present invention.

100: (본 발명)자연어 구조 정보를 이용한 임상정보 검색 시스템
110: 자연어 처리장치 111: 자연어 전처리 모듈
112: POS 분석 모듈 113: 개체명 추출 모듈
114: 개체관계 추출 모듈 115: 묶음 개체화 모듈
100: (Present invention) Clinical information retrieval system using natural language structure information
110: Natural language processing device 111: Natural language preprocessing module
112: POS analysis module 113: Entity name extraction module
114: Entity relationship extraction module 115: Bundle individualization module

Claims (15)

입력받은 자연어 데이터를 규칙 패턴에 의해 사전 처리한 후, 자연어 데이터를 최소 단위의 어절로 분리하여 형태소적인 품사를 태깅하며, 단어 또는 어구에 대하여 특정 의미 유형으로 라벨링한 후, 의미 유형이 라벨링된 개체들 사이의 형태소적 관계를 추출하며, 추출된 서로 다른 두 개체의 각각의 임베딩 벡터값과 두 개체 간의 관계 정보를 하나로 묶어 묶음 개체 정보를 산출하는 자연어 처리장치와;
상기 자연어 처리장치와 인터넷 또는 로컬 네트워크로 연결되며, 상기 자연어 처리장치에 의해 만들어진 묶음 개체 정보를 저장하는 검색 데이터베이스(DB); 및
상기 자연어 처리장치와 인터넷 또는 로컬 네트워크로 연결되며, 묶음 개체화된 임상시험 데이터를 기반으로 구축되며, 임상시험 정보를 저장하는 임상시험 데이터베이스(DB)를 포함하고,
상기 자연어 처리장치는,
문자, 숫자, 특수 기호가 혼재하고, 이메일, 웹URL 규칙 패턴이 존재하는 자연어 데이터를 규칙 패턴에 의해 사전 처리한 후, 문자, 숫자 및 특수 기호의 임의적 규칙 패턴을 만들어 정제하는 자연어 전처리 모듈과;
상기 자연어 데이터를 문장 성분의 최소 단위의 어절로 분리하고, 해당 어절에 대해서 형태소적 특징인 명사, 동사, 형용사의 품사를 태깅하는 POS(part of speech) 분석 모듈과;
개체명 인식(named entity recognition)으로 단일 어절 또는 복수의 어절로 구성된 단어 또는 어구에 대하여 특정 의미 유형으로 라벨링하는 개체명 추출 모듈과;
상기 개체명 추출 모듈에 의해 라벨링된 단어 또는 어구에 대하여 각각의 의미 유형이 라벨링된 개체들 사이의 형태소적 관계를 추출하는 개체관계 추출 모듈; 및
상기 개체관계 추출 모듈에 의해 추출된 형태소적 관계에 있어서, A개체의 임베딩 벡터값과 B개체의 임베딩 벡터값 및 A개체와 B개체의 관계 정보인 원 핫 벡터(one-hot vector)를 하나로 묶어 하나의 벡터값으로 표출하는 묶음 개체화 모듈을 포함하여 구성된 자연어 구조 정보를 이용한 임상정보 검색 시스템.
After pre-processing the input natural language data according to rule patterns, the natural language data is separated into the minimum unit of words, tagged with morphological parts of speech, and the words or phrases are labeled with a specific semantic type, and then the object is labeled with the semantic type. a natural language processing device that extracts morphological relationships between two entities and combines each of the extracted embedding vector values of two different entities and the relationship information between the two entities into one to produce bundled entity information;
a search database (DB) connected to the natural language processing device via the Internet or a local network and storing bundled entity information created by the natural language processing device; and
It is connected to the natural language processing device through the Internet or a local network, is built based on bundled individualized clinical trial data, and includes a clinical trial database (DB) that stores clinical trial information,
The natural language processing device,
A natural language preprocessing module that pre-processes natural language data containing a mixture of letters, numbers, and special symbols, and in which email and web URL rule patterns exist, using rule patterns, and then creates and refines arbitrary rule patterns of letters, numbers, and special symbols;
a POS (part of speech) analysis module that separates the natural language data into words of the smallest unit of sentence components and tags the parts of speech of nouns, verbs, and adjectives, which are morphological features, for the words;
a named entity extraction module that labels words or phrases consisting of a single word or multiple words with a specific semantic type through named entity recognition;
an entity relationship extraction module that extracts morphological relationships between entities labeled with respective semantic types for words or phrases labeled by the entity name extraction module; and
In the morpheme relationship extracted by the entity relationship extraction module, the embedding vector value of entity A, the embedding vector value of entity B, and the one-hot vector, which is the relationship information between entity A and entity B, are combined into one. A clinical information retrieval system using natural language structure information, including a bundle individuation module expressed as a single vector value.
제1항에 있어서,
검색을 위하여 비정형화된 텍스트를 입력으로 받을 수 있는 인터페이스 장치를 더 포함하는 자연어 구조 정보를 이용한 임상정보 검색 시스템.
According to paragraph 1,
A clinical information retrieval system using natural language structure information that further includes an interface device that can receive unstructured text as input for search.
삭제delete 제1항에 있어서,
상기 개체명 추출 모듈은 UMLS(Unified Medical Language System)에서 정의한 의미 유형(semantic type)을 이용하여 개체에 대한 의미 정보를 추출하는 개체명 인식기를 이용하여 의학 용어와 관련이 높은 개체를 추출하는 자연어 구조 정보를 이용한 임상정보 검색 시스템.
According to paragraph 1,
The entity name extraction module is a natural language structure that extracts entities highly related to medical terms using an entity name recognizer that extracts semantic information about the entity using the semantic type defined by UMLS (Unified Medical Language System). Clinical information retrieval system using information.
제1항에 있어서,
상기 개체관계 추출 모듈은 자연어 처리에서 사용되는 CONLL-U format에서 정의하고 있는 구조적 관계 정보를 추출하는 개체관계 인식기를 이용하여 개체들 사이의 형태소적 관계인 개체관계를 추출하는 자연어 구조 정보를 이용한 임상정보 검색 시스템.
According to paragraph 1,
The entity relationship extraction module extracts entity relationships, which are morphological relationships between entities, using an entity relationship recognizer that extracts structural relationship information defined in the CONLL-U format used in natural language processing, and clinical information using natural language structural information. Search system.
제1항에 있어서,
상기 자연어 처리장치는 상기 A, B 각 개체가 가지는 단어를 이용하여 워드 임베딩 모델(word embedding model)을 통해 벡터 값을 계산하고, 개체 간의 구조적 관계 정보를 함께 연결하여 묶음 개체의 연결 벡터로 구성하며, 전체 임상/문헌 비정형 데이터에서 문서마다 묶음 개체를 추출하여 벡터 값을 계산하고, 각 묶음 개체를 하나의 검색을 위한 행렬로 구성하는 자연어 구조 정보를 이용한 임상정보 검색 시스템.
According to paragraph 1,
The natural language processing device calculates a vector value through a word embedding model using the words of each object A and B, and connects the structural relationship information between the objects together to form a connection vector of the bundled object. , A clinical information retrieval system using natural language structure information that extracts bundled entities for each document from the entire clinical/literature unstructured data, calculates vector values, and configures each bundled entity into a matrix for one search.
제1항에 있어서,
상기 자연어 처리장치는 검색 문장의 묶음 개체를 추출하고 벡터 값을 계산한 후, 묶음 개체 검색 행렬과 행렬 곱셈을 통해 묶음 개체 간의 유사도를 계산한 다음, 관련도가 높은 묶음 개체를 판별하고 이 묶음 개체가 속하는 임상시험 데이터베이스를 검색하여, 검색된 임상시험 정보에 대한 유사도 및 개체 빈도를 이용하여 임상 시험 정보를 정렬하는 자연어 구조 정보를 이용한 임상정보 검색 시스템.
According to paragraph 1,
The natural language processing device extracts the bundled entity of the search sentence, calculates the vector value, calculates the similarity between the bundled objects through the bundled object search matrix and matrix multiplication, then determines the bundled object with high relevance and selects the bundled object. A clinical information retrieval system using natural language structure information that searches the clinical trial database to which the clinical trial information belongs and sorts the clinical trial information using the similarity and entity frequency of the retrieved clinical trial information.
a) 자연어 처리장치에 의해 임상시험 비정형 데이터를 입력받아 처리하여 묶음 개체화된 임상시험 데이터를 추출하는 단계와;
b) 상기 추출된 묶음 개체화된 임상시험 데이터에 대해 워드 임베딩 모델을 통해 각 개체의 단어를 이용하여 벡터값을 계산하는 단계와;
c) 상기 벡터값 계산에 의해 묶음 개체의 벡터 정보를 가지는 검색 데이터 베이스(DB) 및 상기 묶음 개체화된 임상시험 데이터 기반의 임상시험 데이터베이스(DB)를 구축하는 단계와;
d) 자연어 처리장치에 의해 환자 정보 비정형 데이터를 입력받아 처리하여 묶음 개체화된 환자 정보 데이터를 추출하는 단계와;
e) 상기 추출된 묶음 개체화된 환자 정보 데이터에 대해 워드 임베딩 모델을 통해 각 개체의 단어를 이용하여 벡터값을 계산하는 단계와;
f) 상기 계산된 환자 정보의 묶음 개체 벡터값과 유사한 묶음 개체 벡터 정보를 가지는 묶음 개체를 상기 검색 데이터베이스(DB)로부터 검색하는 단계; 및
g) 상기 검색된 묶음 개체와 유사도가 높은 묶음 개체를 포함하는 임상시험 정보를 상기 임상시험 데이터베이스(DB)로부터 검색하는 단계를 포함하고,
상기 단계 a)에서 임상시험 비정형 데이터를 입력받아 처리함에 있어서, 자연어 처리장치의 자연어 전처리 모듈에 의해 문자, 숫자, 특수 기호가 혼재하고, 이메일, 웹URL 규칙 패턴이 존재하는 자연어 데이터를 규칙 패턴에 의해 사전 처리한 후, 문자, 숫자 및 특수 기호의 임의적 규칙 패턴을 만들어 정제하며,
POS(part of speech) 분석 모듈에 의해 자연어 데이터(임상시험 비정형 데이터)를 문장 성분의 최소 단위의 어절로 분리하고, 해당 어절에 대해서 형태소적 특징인 명사, 동사, 형용사의 품사를 태깅하고,
개체명 추출 모듈에 의해 개체명 인식(named entity recognition)으로 단일 어절 또는 복수의 어절로 구성된 단어 또는 어구에 대하여 특정 의미 유형으로 라벨링하며,
개체관계 추출 모듈에 의해 상기 개체명 추출 모듈에 의해 라벨링된 단어 또는 어구에 대하여 각각의 의미 유형이 라벨링된 개체들 사이의 형태소적 관계를 추출하고,
상기 단계 b)에서 워드 임베딩 모델을 통해 각 개체의 단어를 이용하여 벡터값을 계산함에 있어서, 묶음 개체화 모듈에 의해 A개체의 임베딩 벡터값과 B개체의 임베딩 벡터값 및 A개체와 B개체의 관계 정보인 원 핫 벡터(one-hot vector)를 하나로 묶어 하나의 벡터값으로 표출하는 자연어 구조 정보를 이용한 임상정보 검색 방법.
a) receiving and processing clinical trial unstructured data using a natural language processing device to extract bundled individualized clinical trial data;
b) calculating a vector value using the words of each individual through a word embedding model for the extracted bundled individualized clinical trial data;
c) constructing a search database (DB) with vector information of bundled entities and a clinical trial database (DB) based on the bundled individualized clinical trial data by calculating the vector values;
d) receiving and processing unstructured patient information data by a natural language processing device to extract bundled individualized patient information data;
e) calculating a vector value using the words of each entity through a word embedding model for the extracted bundled individualized patient information data;
f) searching from the search database (DB) for a bundled entity having bundled entity vector information similar to the calculated bundled entity vector value of the patient information; and
g) a step of retrieving clinical trial information including bundled entities with high similarity to the retrieved bundled entities from the clinical trial database (DB),
In step a), when receiving and processing clinical trial unstructured data, the natural language data containing a mixture of letters, numbers, and special symbols, and where email and web URL rule patterns exist are added to the rule pattern by the natural language preprocessing module of the natural language processing device. After preprocessing, it is refined to create random regular patterns of letters, numbers, and special symbols.
The POS (part of speech) analysis module separates natural language data (clinical trial unstructured data) into words of the smallest sentence component, tags the parts of speech of nouns, verbs, and adjectives, which are morphological features, for the words, and
The entity name extraction module labels words or phrases consisting of a single word or multiple words with a specific semantic type through named entity recognition.
Extracting morphological relationships between entities labeled with each semantic type for a word or phrase labeled by the entity name extraction module by an entity relationship extraction module,
In step b), when calculating the vector value using the words of each entity through the word embedding model, the embedding vector value of entity A and entity B and the relationship between entity A and entity B are calculated by the bundle individuation module. A clinical information search method using natural language structure information that bundles information, one-hot vectors, into one vector value.
제8항에 있어서,
상기 단계 g) 이후에, h) 상기 검색된 임상시험 정보를 유사도 점수에 따라 정렬하고, 검색결과를 유사성이 높다고 판정된 묶음 개체 정보와 함께 시각화하는 단계를 더 포함하는 자연어 구조 정보를 이용한 임상정보 검색 방법.
According to clause 8,
After step g), clinical information search using natural language structure information further includes the step of h) sorting the retrieved clinical trial information according to similarity scores and visualizing the search results together with bundled entity information determined to have high similarity. method.
제8항에 있어서,
상기 단계 a)에서 상기 임상시험 비정형 데이터는 질병이나 치료법, 임상 소견, 논문, 의학 저널 보고서에 게재된 임상시험 관련 내용 및 정보를 포함하는 자연어 구조 정보를 이용한 임상정보 검색 방법.
According to clause 8,
In step a), the clinical trial unstructured data includes clinical trial-related content and information published in diseases or treatments, clinical findings, papers, and medical journal reports. A clinical information search method using natural language structure information.
삭제delete 삭제delete 삭제delete 삭제delete 삭제delete
KR1020210036995A 2021-03-23 2021-03-23 Clinical information search system and method using structure information of natural language KR102632539B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210036995A KR102632539B1 (en) 2021-03-23 2021-03-23 Clinical information search system and method using structure information of natural language

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210036995A KR102632539B1 (en) 2021-03-23 2021-03-23 Clinical information search system and method using structure information of natural language

Publications (2)

Publication Number Publication Date
KR20220132679A KR20220132679A (en) 2022-10-04
KR102632539B1 true KR102632539B1 (en) 2024-02-05

Family

ID=83600374

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210036995A KR102632539B1 (en) 2021-03-23 2021-03-23 Clinical information search system and method using structure information of natural language

Country Status (1)

Country Link
KR (1) KR102632539B1 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117573727B (en) * 2024-01-17 2024-03-26 湖南天承信息技术有限公司 Practitioner health physical examination information retrieval system

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101607672B1 (en) 2014-09-11 2016-04-11 경희대학교 산학협력단 Apparatus and method for permutation based pattern discovery technique in unstructured clinical documents

Also Published As

Publication number Publication date
KR20220132679A (en) 2022-10-04

Similar Documents

Publication Publication Date Title
US10282389B2 (en) NLP-based entity recognition and disambiguation
Alfred et al. Malay named entity recognition based on rule-based approach
Alwaneen et al. Arabic question answering system: a survey
Bharadiya A comprehensive survey of deep learning techniques natural language processing
Bam Named Entity Recognition for Nepali text using Support Vector Machine
Dorji et al. Extraction, selection and ranking of Field Association (FA) Terms from domain-specific corpora for building a comprehensive FA terms dictionary
Šandrih et al. Two approaches to compilation of bilingual multi-word terminology lists from lexical resources
Zhao et al. Classification of natural language processing techniques for requirements engineering
Varaprasad et al. Applications and Techniques of Natural Language Processing: An Overview.
KR102632539B1 (en) Clinical information search system and method using structure information of natural language
Al-Smadi et al. Leveraging linked open data to automatically answer Arabic questions
Garrido et al. The GENIE project-a semantic pipeline for automatic document categorisation
Thalib et al. A review on question analysis, document retrieval and answer extraction method in question answering system
AbuTaha et al. An ontology-based arabic question answering system
Bouziane et al. Toward an arabic question answering system over linked data
Rahat et al. A recursive algorithm for open information extraction from Persian texts
Das et al. Analysis of bangla transformation of sentences using machine learning
Vagelatos et al. Developing tools and resources for the biomedical domain of the Greek language
Netisopakul et al. The state of knowledge extraction from text for thai language
Kim et al. Question answering towards automatic augmentations of ontology instances
Dung et al. Ontology-based information extraction and information retrieval in health care domain
Dhivyashree et al. A Combined Model of NLP with Business Process Modelling for Sentiment Analysis
ISLAM QUESTION ANSWERING SYSTEM FROM UNSTRUCTURED DOCUMENTS FOR BANGLA LANGUAGE
Taye et al. An Ontology Learning Framework for unstructured Arabic Text
Albesher et al. A survey study on Arabic WordNet: baring opportunities and future research directions

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant