WO2023128020A1 - 다국가 임상데이터 표준화 방법 및 장치 - Google Patents

다국가 임상데이터 표준화 방법 및 장치 Download PDF

Info

Publication number
WO2023128020A1
WO2023128020A1 PCT/KR2021/020289 KR2021020289W WO2023128020A1 WO 2023128020 A1 WO2023128020 A1 WO 2023128020A1 KR 2021020289 W KR2021020289 W KR 2021020289W WO 2023128020 A1 WO2023128020 A1 WO 2023128020A1
Authority
WO
WIPO (PCT)
Prior art keywords
clinical data
entity names
multinational
entity
names
Prior art date
Application number
PCT/KR2021/020289
Other languages
English (en)
French (fr)
Inventor
조용장
정지희
Original Assignee
주식회사 메디아이플러스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 메디아이플러스 filed Critical 주식회사 메디아이플러스
Publication of WO2023128020A1 publication Critical patent/WO2023128020A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/20ICT specially adapted for the handling or processing of patient-related medical or healthcare data for electronic clinical trials or questionnaires
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H15/00ICT specially adapted for medical reports, e.g. generation or transmission thereof
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references

Definitions

  • the present invention relates to a method and apparatus for standardizing multinational clinical data, and more specifically, to allow quick and easy access to multinational clinical data by first performing a purification process on multinational clinical data and then standardizing the data. It relates to a method and device for standardizing multinational clinical data.
  • a clinical trial is a test conducted on humans to confirm the safety, pharmacological and clinical effects of a drug prior to drug development.
  • a clinical trial is a process that must be carried out indispensably when developing a drug because it corresponds to a procedure for securing the safety of a drug and confirming that it is a drug that can be marketed.
  • KMS knowledge management systems
  • the present invention is to solve the above problems, and to provide a method that enables users to efficiently search desired clinical trial data by converting clinical trial data expressed in different methods into standardized data. has its purpose.
  • the purpose is to enable more accurate and faster standardization to be performed by processing and classifying data so that pre-refined data can be used for standardization.
  • the method for standardizing multi-country clinical data outputs entity names from multi-country clinical data using a neural network model, performs refinement on the entity names, and calculates the degree of similarity for the refined entity names. and standardization of the multi-country clinical data can be performed by reflecting the similarity calculation result.
  • the refining step may include, when at least two of the entity names correspond to one attribute, separating the at least two entity names to correspond to at least two attributes when a predetermined criterion is satisfied. can do.
  • the refining step if at least two of the entity names correspond to at least two attributes, merging the at least two entity names to correspond to one attribute if a predetermined criterion is satisfied. can do.
  • the similarity calculation step may include obtaining character string sets corresponding to the refined entity names; Calculating a distance value between two of the character string sets; and calculating the degree of similarity based on the calculated distance value.
  • the number of characters inserted into the second string constituting the second character string set based on the first character string constituting the first character string set among the two character string sets, the number of deleted characters, and Calculating the distance value based on the number of replaced characters may include.
  • the distance value may be calculated by assigning a low weight to the number of inserted characters and the number of deleted characters, and assigning a high weight to the number of replaced characters.
  • the standardization step may include arranging entity names corresponding to the two character string sets having a similarity equal to or greater than a predetermined threshold value into one entity name;
  • the entity names can be output using .
  • An apparatus for standardizing multi-country clinical data includes a memory for storing multi-country clinical data; and outputting entity names from the multinational clinical data using a neural network model, performing purification on the entity names, performing similarity calculation on the refined entity names, and reflecting the similarity calculation result It may include; a processor that standardizes the multinational clinical data.
  • FIG. 1 is a block diagram of an apparatus 1 for standardizing multinational clinical data according to an embodiment.
  • FIGS. 6 and 7 are detailed flowcharts for s3 in FIG. 2
  • FIG. 10 is a detailed flowchart for s4 in FIG.
  • FIGS. 3 to 5 and FIGS. 8 to 9 and 11 to 12 are reference diagrams for explaining the above-described flowchart.
  • FIG. 1 is a block diagram of an apparatus 1 for standardizing multinational clinical data according to an embodiment.
  • An apparatus 1 for standardizing multinational clinical data may include a processor 10 and a memory 20 .
  • the memory 20 may store various programs and data necessary for the operation of the apparatus 1 for standardizing multinational clinical data.
  • the memory 20 may store a multinational clinical data DB 21 , a first model 22 , a second model 23 , and a clinical data entity dictionary 24 .
  • the processor 10 may store clinical data collected from each country, that is, a plurality of domestic and foreign countries, in the multi-country clinical data DB 21 .
  • the multinational clinical data DB 21 may include at least one information of clinical trial title, institution name, disease name, drug name, researcher information, subject's gender, age, name, and test method.
  • the multinational clinical data DB 21 may be composed of a hierarchical DB 21a and a relational DB 21b.
  • the multinational clinical data DB 21 may store clinical data in the form of documents for each clinical trial, and may assign and store a unique identification code for each clinical trial.
  • the hierarchical DB 21a may be a DB having a hierarchical structure in which records are stored in segments having a hierarchical structure.
  • the hierarchical DB 21a may have a structure in which segments are connected by parent segments and child segments. At least one child segment may be connected to one parent segment in the hierarchical DB 21a.
  • a segment may be a node of the hierarchical DB 21a mapped with a table of the relational DB 21b.
  • the hierarchical DB 21a may be a relation in which records are mapped to the relational DB 21b.
  • the relational DB 21b may be an aggregate in which tables composed of rows and columns form relationships with other tables. Rows can be tuples and/or records. Columns can also be fields and/or attributes. Mapping may correspond to a record existing in a table of the relational DB 21b and a record existing in a segment of the hierarchical DB 21a.
  • the first model 22 may be a model implemented to output entity names from multinational clinical data through the processor 10 .
  • the first model 22 may be acquired by the processor 10 through neural network learning to obtain names of entities included in the multinational clinical data for learning using the multinational clinical data for learning.
  • a Named Entity Recognition (NER) model may be used as the first model 22 .
  • Entity name recognition is to recognize an entity having a name, and may represent an algorithm for recognizing a type of a word belonging to a word meaning a certain name.
  • the second model 23 may be obtained by applying context-reflected embedding to multinational clinical data through the processor 10 .
  • Word/sentence/object/document embedding reflecting context is a technique of expressing words/sentences/objects/documents in a low-dimensional space.
  • Document embedding will extract different vector values depending on the context from words/sentences/objects/documents with the same notation.
  • the second model 23 may be acquired by the processor 10 through neural network learning for obtaining a context-based embedding value for the multi-country clinical data for learning using the multi-country clinical data for learning. Specifically, the second model 23 may be acquired by the processor 10 through learning to obtain a context-based embedding value for each word/sentence/object/document of multinational clinical data for learning.
  • a BERT (Bidirectional Encoder Representations from Transformers) model may be used as the second model 23 .
  • the BERT model is an NLP model that learns sentences in both directions. It is built by pre-learning using pre-registered dictionary words and fine-tuning the learned model.
  • the BERT model exhibits high accuracy even with a small amount of data by undergoing a fine-tuning process, and is an attention-based model that improves performance by drawing attention to a specific vector.
  • BERT is an example, and any other model capable of extracting a context-based vector value can be applied to the present invention.
  • the processor 10 may control overall operations of the apparatus 1 for standardizing multinational clinical data.
  • the processor 10 outputs entity names from multinational clinical data using a neural network model, performs refinement on the entity names, performs similarity calculation on the refined entity names, and calculates the degree of similarity of the entity names. Standardization of the multi-country clinical data can be performed by reflecting the calculation results.
  • FIGS. 6 and 7 are detailed flowcharts for s3 in FIG. 2
  • FIG. 10 is a detailed flowchart for s4 in FIG.
  • FIGS. 3 to 5 and FIGS. 8 to 9 and 11 to 12 are reference diagrams for explaining the above-described flowchart.
  • each step is an example, and the present invention can be equally/similarly applied even when each order is differently changed and/or combined.
  • the processor 10 may change multinational clinical data written in the format of the hierarchical DB 21a to the format of the relational DB 21b (s1).
  • the processor 10 may perform a case in which the number of one child property corresponding to one parent property is the same as well as when the number of one child property corresponding to one parent property is different (ie, more than one child property). case), multi-country clinical data written in the format of the hierarchical DB 21a can be changed to the format of the relational DB 21b.
  • the latter case means that the same attribute is repeated, and according to the embodiment, even in the case of the hierarchical DB 21a of the corresponding type, a new relationship between attributes is defined or a new attribute is added. Through this, it can be changed to the format of the relational DB (21b). And, through this, even when the hierarchical DB 21a has a complex data structure in which the same attribute is repeated, it can be easily changed to a relational DB 21b.
  • the processor 10 may output object names using the first model 22 from multinational clinical data written in the relational DB 21b (s2).
  • the processor 10 outputs the entity names of the multinational clinical data using the first model 22 from the multinational clinical data, and uses the second model 23 to output the entity names for each entity name context. It is possible to output the embedding value for each object name reflected.
  • the processor 10 may perform object name recognition using the first model 22 .
  • the processor 10 may perform entity name recognition of multinational clinical data using the entity name dictionary 24 stored in the memory 20 .
  • entity name dictionary 24 may include a plurality of entity names corresponding to multinational clinical data and a plurality of synonyms corresponding to each of the plurality of entity names.
  • the processor 10 may determine whether entity name recognition is successful by determining whether the entity name recognized through entity name recognition is included in the entity name dictionary 24 . If the entity name is included in the entity name dictionary 24, it can be determined that NER has succeeded. On the other hand, if the entity name is not included in the entity name dictionary 24, it can be determined that NER has failed.
  • the processor 10 may perform part-of-speech tagging (POS tagging) on the entity names output through the first model 22 .
  • POS tagging part-of-speech tagging
  • it can be represented by parts of speech such as nouns, adjectives, and verbs for entity names.
  • the processor 10 uses the second model 23 for the entity names output through the first model 22 and/or the entity names for which parts of speech are marked, the object in which the context for each entity name is reflected. You can output the embedding value for each name.
  • the processor 10 may generate a token for each entity name, input the tokenized entity name to the second model 23, and output an embedding value for each entity name.
  • the processor 10 may output an embedding value for each entity name for each of the clinical trial documents.
  • information resulting from notation of parts of speech and/or context embedding for entity names can be used later when similarity calculation for entity names is performed (s4), and thus more accurate for multinational clinical data.
  • a similarity judgment may be performed. Details on this will be described later with reference to FIG. 4 .
  • the processor 10 may perform refinement on entity names (s3).
  • the processor 10 when at least two of the entity names correspond to one attribute, the processor 10 separates the at least two entity names to correspond to the at least two attributes according to a predetermined criterion.
  • the processor 10 may identify at least two object names expressed as one attribute (S31). According to the embodiment, it may be confirmed whether there are at least two object names expressed as one attribute on one record.
  • the processor 10 may search the multinational clinical data DB 21 for related entity names corresponding to the first entity name based on the first entity name among at least two entity names (S32). Specifically, a search query using the first entity name as a keyword is received from the user, and related entity names (eg, male, 38, M.D.) corresponding to the first entity name (eg, John Newcomer) are entered into a multinational clinical data DB. (21).
  • related entity names eg, male, 38, M.D.
  • the processor 10 may search the multinational clinical data DB 21 for related entity names corresponding to the second entity name based on the second entity name among at least two entity names. Specifically, a search query using the second entity name as a keyword is received from the user, and related entity names (eg male, 38, John Newcomer) corresponding to the second entity name (eg M.D.) are entered into a multinational clinical data DB. (21).
  • related entity names eg male, 38, John Newcomer
  • the related entity names in FIG. 8 are obtained as a list of disease names based on disease names, but the present invention can be equally/similarly applied even when they are obtained as a list based on other attributes such as organ names.
  • the processor 10 may determine whether the degree of association between the related entity names is greater than or equal to a threshold value (S33). Specifically, whether the degree of association between the related entity names on the first disease name list obtained based on the first entity name and the related entity names on the second disease name list obtained based on the second entity name is greater than or equal to a threshold value. can be identified. More specifically, the degree of association may be determined based on the ratio of the second entity name included in the first disease name list and the first entity name included in the second disease name list.
  • entity name separation may be performed so that the first entity name and the second entity name correspond to two attributes (S35). For example, in the case of FIG. 8 , since the output ratio of M.D. among the associated entity names corresponding to John Newcomer is less than the threshold value and the output ratio of John Newcomer among the associated entity names corresponding to M.D. is less than the threshold value, entity name separation is performed. can be performed.
  • the processor 10 may identify at least two object names represented by at least two attributes (S311). According to the embodiment, it may be confirmed whether there are at least two object names represented by at least two attributes on one record.
  • the processor 10 searches the multinational clinical data DB 21 for related entity names corresponding to the first entity name based on the first entity name among the at least two entity names, and then searches the multinational clinical data DB 21 for the first entity name among the at least two entity names. Based on the 2 entity names, related entity names corresponding to the second entity name may be searched in the multinational clinical data DB 21 (s321). Then, the processor 10 may determine whether the degree of association between the associated entity names is greater than or equal to a threshold value (S331). For reference, steps s321 to s331 of FIG. 7 may be equally/similarly applied to steps s32 to s33 of FIG. 6 .
  • entity name merging may be performed so that a first entity name and a second entity name are included in one attribute (S341).
  • the first entity name and the second entity name may be maintained to correspond to two attributes (s351). For example, in the case of FIG. 9 , since the output ratio of M.D. among the related entity names corresponding to John Newcomer is above the threshold value and the output ratio of John Newcomer among the associated entity names corresponding to M.D. is above the threshold value, entity names are merged. can be performed.
  • each keyword is determined based on the rate at which the target keyword is derived, and based on this, it is determined whether to maintain it in one attribute, so that noise is removed, that is, more refined. database can be obtained.
  • standardization based on refined data standardization on unnecessary data is not performed, and data processing speed can be further improved.
  • the processor 10 may perform similarity calculation for the refined entity names (s4).
  • the processor 10 may acquire character string sets corresponding to the refined entity names (s41) and select two character string sets from among the character string sets (s42).
  • the processor 10 may select two character string sets based on a result of performing a false similarity determination on entity names.
  • the processor 10 may determine the false similarity of the entity names based on the corresponding execution result information in a state in which parts of speech and/or context embedding have been performed for the entity names. In addition, by comparing the embedding values for each entity name, a character string set for entity names having a similarity greater than or equal to a threshold value may be selected. For example, you can select Newcomer John and J. Newcomer.
  • the processor 10 may calculate a distance value between two sets of character strings.
  • each of the two character string sets is separated based on a space (s43), and the same character strings may be removed by comparing the separated character strings with each other (s44). Then, the processor 10 may calculate the number of characters inserted into the second character string, the number of deleted characters, and the number of replaced characters based on the first character string with respect to the remaining character strings after being removed ( s45).
  • Newcomer John and J which is the same string, is removed, and John and J are compared to calculate that o-h-n have three deleted characters.
  • the processor 10 may calculate a distance value between two sets of character strings by assigning different weights to the number of inserted characters (or the number of deleted characters) and the number of replaced characters (s46). .
  • the distance value may be calculated by assigning a relatively low weight to the number of inserted characters and the number of deleted characters, and assigning a relatively high weight to the number of replaced characters. In this case, the same weight may be given to the number of inserted characters and the number of deleted characters.
  • the processor 10 may calculate a degree of similarity between refined entity names based on the calculated distance value. Specifically, the processor 10 may determine that the entity names are similar to each other when the distance value is less than a predetermined threshold value. In particular, when the degree of similarity is high, it can be determined that they are the same. On the other hand, if the distance value is greater than or equal to a predetermined threshold value, it may be determined that the entity names are different from each other.
  • the examples of FIGS. 10 and 11 can be particularly usefully applied when each entity name is an abbreviation.
  • entity names such as organ names, names, and disease names
  • a database containing more accurate contents is created by not recognizing the original entity name corresponding to the abbreviated entity name as different entities. can be built.
  • the processor 10 may consider the entity names corresponding to the two character string sets having a similarity equal to or higher than a threshold value as one entity name and organize them in the database (s46).
  • Newcomer John and J. Newcomer are the same entity name, and one of the two entity names is selected as the representative entity name, and the other entities can be changed to the representative entity name and organized in the database.
  • FIGS. 10 and 11 two character string sets are selected, but the present invention may be applied in the same/similar way when at least two or more character string sets are selected and compared.
  • the processor 10 may perform standardization on multinational clinical data by reflecting the result of similarity calculation for the refined entity names (s5).
  • Classification data may be converted to have standard specifications optimized for retrieval. For example, referring to FIG. 12 , a property called cris_vt_overview in CRIS, a property called eudra_ct_summary in eudra, and a property called mfds_ct_summary in mfds can be classified as one property called Title (BriefTitle, OfficialTitle).
  • Standardization may include converting all data containing English characters to lower case or removing adjectives, adverbs, prepositions, and special characters.
  • a separate stopword dictionary may be used, and a spell check may be performed if necessary, and a process of converting typographical errors or incorrectly written terms into standard words may be performed.
  • Standardization is the process of unifying the language by expressing all expressions in foreign languages in the Korean language and all expressions in the Korean language in foreign languages, the process of processing the terms frequently used in the field of clinical trials centered on clinical trials, or having the same meaning. Or, it may include a process of processing terms that can be interpreted as similar meanings into one unified term, and the unified term may be a term used by a person skilled in the art in the field of clinical trials. Furthermore, the standardization process may include a process of converting terms that are no longer used in the field of clinical trials into terms that are used instead in the field of clinical trials.
  • entity names are refined through the s3 process, similarity calculations are performed for the refined entity names in the s4 process, and identical entity names are grouped into one and then standardized.
  • similarity calculations are performed for the refined entity names in the s4 process, and identical entity names are grouped into one and then standardized.
  • the above-described embodiments may be implemented in the form of program instructions that can be executed through various computer components and recorded on a computer-readable recording medium.
  • the computer-readable recording medium may include program instructions, data files, data structures, etc. alone or in combination.
  • Program instructions recorded on the computer-readable recording medium may be specially designed and configured for the present invention, or may be known and usable to those skilled in the art of computer software.
  • Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks and magnetic tapes, optical recording media such as CD-ROMs and DVDs, and magneto-optical media such as floptical disks. optical media), and hardware devices specially configured to store and execute program instructions, such as ROM, RAM, flash memory, and the like.
  • Examples of program instructions include high-level language codes that can be executed by a computer using an interpreter or the like as well as machine language codes such as those produced by a compiler.
  • the hardware device may be configured to act as one or more software modules for executing processes according to the present invention and vice versa.
  • aspects herein may take the form of entirely hardware, entirely software (including firmware, resident software, microcode, etc.) or a computer program product embodied entirely in one or more computer readable media having computer readable program code embodied thereon. .

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Physics & Mathematics (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Pathology (AREA)
  • Machine Translation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Automatic Analysis And Handling Materials Therefor (AREA)

Abstract

실시예에 따른 다국가 임상데이터 표준화 방법은, 다국가 임상데이터로부터 신경망 모델을 이용해 개체명들을 출력하는 단계, 상기 개체명들에 대한 정제를 수행하는 단계, 상기 정제된 개체명들에 대한 유사도 산출을 수행하는 단계 및 상기 유사도 산출 수행 결과를 반영하여 상기 다국가 임상데이터에 대한 표준화를 수행하는 단계를 포함할 수 있다.

Description

다국가 임상데이터 표준화 방법 및 장치
본 발명은 다국가 임상데이터 표준화 방법 및 장치에 관한 것으로, 보다 구체적으로, 다국가 임상데이터에 대한 정제 과정을 선 수행한 후 표준화 작업을 수행하도록 함으로써, 다국가 임상데이터에 빠르고 용이하게 접근할 수 있도록 하기 위한, 다국가 임상데이터 표준화 방법 및 장치에 관한 것이다.
임상시험은 의약품을 개발하기 앞서, 그 의약품의 안전성, 약리효과 및 임상적 효과를 확인하기 위하여 사람을 대상으로 실시하는 시험이다. 임상 시험은 의약품의 안전성을 확보하고, 시판될 수 있는 의약품임을 확인하는 절차에 해당되므로 의약품 개발시 필수적으로 진행되어야 할 과정이라고 할 수 있다.
따라서, 임상시험을 설계하고, 진행하는 것과 더불어, 과거 임상시험 자료를 분석하고 관리하는 것 또한 중요한 단계이다. 성공적인 임상시험을 진행하기 위해서 다양한 기관, 임상시험 수탁기관, 연구자 간의 상호 협력은 필수적이다. 그러나, 수많은 질병 또는 약물에 특화된 임상시험 수탁기관 및 연구자를 찾는 것은 용이하지 않고, 동일한 병원, 임상시험 수탁기관, 연구자를 다양한 방법으로 표현하거나 여러가지 언어로 표현하고 있어 이를 정확하게 구분하는데 많은 어려움이 따른다.
지식기반 사회로 이행되면서 생산 수단으로서의 지식이 주목받기 시작하였으며, 기업들은 기업 내부에 흩어져 있는 지식을 체계적으로 관리하기 위해 지식관리시스템(KMS)를 구축하고 운영하기 시작하였다. 그러나 기존의 지식관리시스템(KMS)은 가장 최근에 연구된 임상시험 데이터를 특히 중요하게 취급하거나, 해외에만 등록이 되어 있어 국내에서는 검색되지 않는 임상시험 데이터도 검색될 필요가 있는 임상시험 데이터의 특성을 제대로 반영하지 못하는 문제가 있다.
본 발명은 전술한 문제점을 해결하기 위한 것으로서, 서로 다른 방법으로 표현된 임상시험 데이터를 표준화된 데이터로 변환하여 줌으로써, 사용자가 원하는 임상시험 데이터를 효율적으로 검색할 수 있도록 하는 방법을 제공하고자 하는 데에 그 목적이 있다.
특히, 표준화 수행을 위해 미리 정제된 데이터를 이용할 수 있도록 데이터를 가공 및 분류함으로써, 보다 정확하고 빠른 표준화 수행이 이루어질 수 있도록 하는 데에 그 목적이 있다.
실시예에 따른 다국가 임상데이터 표준화 방법은, 다국가 임상데이터로부터 신경망 모델을 이용해 개체명들을 출력하고, 상기 개체명들에 대한 정제를 수행하며, 상기 정제된 개체명들에 대한 유사도 산출을 수행하고, 상기 유사도 산출 수행 결과를 반영하여 상기 다국가 임상데이터에 대한 표준화를 수행할 수 있다.
상기 정제 수행 단계는, 상기 개체명들 중 적어도 두 개의 개체명이 하나의 속성에 대응되는 경우, 소정의 기준을 만족하면 상기 적어도 두 개의 개체명을 적어도 두 개의 속성에 대응되도록 분리하는 단계;를 포함할 수 있다.
상기 정제 수행 단계는, 상기 개체명들 중 적어도 두 개의 개체명이 적어도 두 개의 속성에 대응되는 경우, 소정의 기준을 만족하면 상기 적어도 두 개의 개체명을 하나의 속성에 대응되도록 병합하는 단계;를 포함할 수 있다.
상기 유사도 산출 수행 단계는, 상기 정제된 개체명들에 대응되는 문자열 셋트들을 획득하는 단계; 상기 문자열 셋트들 중 두 개의 문자열 셋트 사이의 거리값을 산출하는 단계; 및 상기 산출된 거리값을 기초로 상기 유사도를 산출하는 단계;를 포함할 수 있다.
상기 거리값 산출 단계는, 상기 두 개의 문자열 셋트 중 제1 문자열 셋트를 구성하는 제1 문자열을 기준으로 제2 문자열 셋트를 구성하는 제2 문자열에 삽입된 문자의 개수, 삭제된 문자의 개수, 및 대체된 문자의 개수를 기초로 상기 거리값을 산출하는 단계;를 포함할 수 있다.
상기 유사도 산출 수행 단계는, 상기 삽입된 문자의 개수와 상기 삭제된 문자의 개수에 낮은 가중치를 부여하고, 상기 대체된 문자의 개수에 높은 가중치를 부여하여 상기 거리값을 산출할 수 있다.
상기 표준화 수행 단계는, 상기 유사도가 소정의 임계치 이상인 상기 두 개의 문자열 셋트에 대응되는 개체명들을 하나의 개체명으로 정리하는 단계; 및
상기 정리 결과를 반영해 상기 다국가 임상데이터에 대한 표준화를 수행하는 단계;를 포함할 수 있다.
계층형 DB의 포맷으로 작성된 다국가 임상데이터를 관계형 DB의 포맷으로 변경하는 단계;를 더 포함하고, 상기 개체명들 출력 단계는, 상기 관계형 DB의 포맷으로 작성된 상기 다국가 임상데이터로부터 상기 신경망 모델을 이용해 상기 개체명들을 출력할 수 있다.
실시예에 따른 다국가 임상데이터 표준화 장치는, 다국가 임상데이터를 저장하는 메모리; 및 상기 다국가 임상데이터로부터 신경망 모델을 이용해 개체명들을 출력하고, 상기 개체명들에 대한 정제를 수행하고, 상기 정제된 개체명들에 대한 유사도 산출을 수행하고, 상기 유사도 산출 수행 결과를 반영하여 상기 다국가 임상데이터에 대한 표준화를 수행하는 프로세서;를 포함할 수 있다.
본 발명에 따르면, 서로 다른 방법으로 표현된 임상시험 데이터를 표준화된 데이터로 변환하여 줌으로써, 사용자가 원하는 임상시험 데이터를 효율적으로 검색할 수 있게 된다.
특히, 표준화 수행을 위해 미리 정제된 데이터를 이용할 수 있도록 데이터를 가공 및 분류함으로써, 보다 정확하고 빠른 표준화 수행이 이루어질 수 있다.
도 1은 실시예에 따른 다국가 임상데이터 표준화 장치(1)의 블록도이다.
도 2는 실시예에 따른 다국가 임상데이터 표준화 방법을 설명하기 위한 순서도이고, 도 6과 도 7는 도 2의 s3에 대한 구체화된 순서도이며, 도 10은 도 2의 s4에 대한 구체화된 순서도이고, 도 3 내지 도 5, 및 도 8 내지 도 9, 도 11 내지 도 12는 전술한 순서도를 설명하는 데 참조되는 도면이다.
후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.
도 1은 실시예에 따른 다국가 임상데이터 표준화 장치(1)의 블록도이다.
실시예에 따른 다국가 임상데이터 표준화 장치(1)는 프로세서(10)와 메모리(20)를 포함할 수 있다.
메모리(20)는 다국가 임상데이터 표준화 장치(1)의 동작에 필요한 각종 프로그램 및 데이터를 저장할 수 있다. 메모리(20)는 다국가 임상데이터 DB(21), 제1 모델(22), 제2 모델(23), 및 임상데이터 개체명 사전(24)를 저장할 수 있다.
프로세서(10)는 각 국가, 즉, 국내와 해외 다수의 국가로부터 수집된 임상데이터를 다국가 임상데이터 DB(21)에 저장할 수 있다. 다국가 임상데이터 DB(21)는 임상시험 제목, 기관명, 질병명, 약물명, 연구자 정보, 피험자 성별, 나이, 성명, 시험 방식 중 적어도 하나의 정보를 포함할 수 있다. 다국가 임상데이터 DB(21)는 계층형 DB(21a)와 관계형 DB(21b)로 구성될 수 있다.
다국가 임상데이터 DB(21)는 임상데이터를 임상시험마다 문서 형태로 저장할 수 있고, 각 임상시험마다 고유 식별 코드를 부여하여 저장할 수 있다.
계층형 DB(21a)는 도 3과 같이, 레코드가 계층 구조를 가지는 세그먼트에 저장되어, 계층형 구조를 가지는 DB일 수 있다. 계층형 DB(21a)는 세그먼트가 부모 세그먼트와 자식 세그먼트로 연결된 구조일 수 있다. 계층형 DB(21a)에서 하나의 부모 세그먼트에는 적어도 하나 이상의 자식 세그먼트가 연결될 수 있다. 세그먼트는, 관계형 DB(21b)의 테이블과 맵핑(Mapping)된 계층형 DB(21a)의 노드(node)일 수 있다. 계층형 DB(21a)는 관계형 DB(21b)와 레코드가 맵핑(Mapping)된 관계일 수 있다.
관계형 DB(21b)는 도 4와 같이, 행과 열로 이루어진 테이블이 다른 테이블과 관계를 맺고 모여 있는 집합체일 수 있다. 행은 튜플 및/또는 레코드일 수 있다. 또한, 열은 필드 및/또는 속성일 수 있다. 맵핑(Mapping)은 관계형 DB(21b)의 테이블내 존재하는 레코드와 계층형 DB(21a)의 세그먼트내 존재하는 레코드를 대응시킨 것일 수 있다.
제1 모델(22)은 프로세서(10)를 통해 다국가 임상데이터로부터 개체명들을 출력하도록 구현된 모델일 수 있다.
제1 모델(22)은 프로세서(10)에 의해, 학습용 다국가 임상데이터를 이용해 학습용 다국가 임상데이터에 포함된 개체명들을 획득하기 위한 신경망 학습을 통해 획득될 수 있다.
실시예에 따르면, 제1 모델(22)로 개체명 인식(Named Entity Recognition, NER) 모델을 이용할 수 있다. 개체명 인식은 이름을 가진 개체를 인식하는 것으로, 어떤 이름을 의미하는 단어에 대해 그 단어가 어떤 유형에 속하는지를 인식하는 알고리즘을 나타낼 수 있다.
제2 모델(23)은 프로세서(10)를 통해 다국가 임상데이터에 컨텍스트를 반영한 임베딩을 적용한 것일 수 있다. 컨텍스트를 반영한 단어/문장/개체/문서 임베딩은 단어/문장/개체/문서를 저차원 공간에서 표현하는 기법으로, 같은 표기의 단어/문장/개체/문서라도 컨텍스트에 따라 상이하게 단어/문장/개체/문서 임베딩을 하는 것으로, 동일한 표기를 하는 단어/문장/개체/문서에서 컨텍스트에 따라 다른 벡터값을 추출할 것이다.
제2 모델(23)은 프로세서(10)에 의해, 학습용 다국가 임상데이터를 이용해 학습용 다국가 임상데이터에 대한 컨텍스트 기반 임베딩값을 획득하기 위한 신경망 학습을 통해 획득될 수 있다. 구체적으로, 제2 모델(23)은 프로세서(10)에 의해, 학습용 다국가 임상데이터의 단어/문장/개체/문서별 컨텍스트 기반 임베딩값을 획득하기 위한 학습을 통해 획득될 수 있다.
실시예에 따르면, 제2 모델(23)로 BERT(Bidirectional Encoder Representations from Transformers) 모델을 이용할 수 있다. BERT 모델은 문장을 양방향으로 학습하는 NLP 모델로, 기 등록된 사전의 단어를 이용하여 미리 학습을 수행하고 학습된 모델을 파인 튜닝하여 구축된다. BERT 모델은 파인 튜닝 과정을 거침으로써 적은 양의 데이터에서도 높은 정확도를 나타내며, 특정 벡터에 주목하게 만들어 성능을 향상시키는 어텐션 기반 모델로 문장이 길어져도 성능이 떨어지지 않아 긴 문장에서도 정확도를 유지할 수 있다는 장점이 있다. 다만, BERT는 일예이며, 이외에도 컨텍스트 기반 벡터값을 추출할 수 있는 모델이면 본 발명에 적용될 수 있다.
프로세서(10)는 다국가 임상데이터 표준화 장치(1)의 전반적인 동작을 제어할 수 있다.
구체적으로, 프로세서(10)는 다국가 임상데이터로부터 신경망 모델을 이용해 개체명들을 출력하고, 상기 개체명들에 대한 정제를 수행하고, 상기 정제된 개체명들에 대한 유사도 산출을 수행하고, 상기 유사도 산출 수행 결과를 반영하여 상기 다국가 임상데이터에 대한 표준화를 수행할 수 있다.
도 2는 실시예에 따른 다국가 임상데이터 표준화 방법을 설명하기 위한 순서도이고, 도 6과 도 7는 도 2의 s3에 대한 구체화된 순서도이며, 도 10은 도 2의 s4에 대한 구체화된 순서도이고, 도 3 내지 도 5, 및 도 8 내지 도 9, 도 11 내지 도 12는 전술한 순서도를 설명하는 데 참조되는 도면이다.
이하, 도 2 내지 도 12를 함께 참조하여 설명한다. 참고로, 본 발명의 각 순서도에 있어서, 각 단계는 일예이며, 각 순서를 다르게 변경 및/또는 조합한 경우에도 본 발명이 동일/유사하게 적용될 수 있다.
실시예에 따르면, 프로세서(10)는 계층형 DB(21a)의 포맷으로 작성된 다국가 임상데이터를 관계형 DB(21b)의 포맷으로 변경할 수 있다(s1).
실시예에 따르면, 프로세서(10)는 하나의 부모 속성에 대응되는 하나의 자식 속성의 개수가 동일한 경우 뿐 아니라, 하나의 부모 속성에 대응되는 하나의 자식 속성의 개수가 상이한 경우(즉, 보다 많은 경우)에도 계층형 DB(21a)의 포맷으로 작성된 다국가 임상데이터를 관계형 DB(21b)의 포맷으로 변경할 수 있다.
예를 들어, 도 3의 Organization 부모 속성에 대응되는 OrgFullName 자식 속성의 개수가 360313으로 동일한 경우 뿐 아니라, SecondaryInfoList 부모 속성(81387개)에 대응되는 SecondaryInfo(SECid) 속성의 개수가 125174로 보다 많은 경우에도, 도 4와 같이 다국가 임상데이터를 관계형 DB(21b)의 포맷으로 변경할 수 있다.
즉, 후자의 경우는, 동일 속성이 반복되는 것을 의미하며, 실시예에 따르면 해당 형태의 계층형 DB(21a)인 경우에도 속성들간에 관계를 새롭게 정의해주거나 새로운 속성을 추가하는 등의 방식을 통해 관계형 DB(21b)의 포맷으로 변경할 수 있다. 그리고, 이를 통해, 계층형 DB(21a)가 동일 속성이 반복되는 복잡한 데이터 구조를 가진 경우에도 관계형 DB(21b)로 용이하게 변경할 수 있게 된다.
프로세서(10)는 관계형 DB(21b)로 작성된 다국가 임상데이터로부터 제1 모델(22)을 이용해 개체명들을 출력할 수 있다(s2).
구체적으로, 프로세서(10)는 다국가 임상데이터로부터 제1 모델(22)을 이용해 다국가 임상데이터의 개체명들을 출력하고, 출력된 개체명들에 대해 제2 모델(23)을 통해 개체명별 컨텍스트가 반영된 개체명별 임베딩값을 출력할 수 있다.
구체적으로, 프로세서(10)는 제1 모델(22)을 이용하여, 개체명 인식을 수행할 수 있다. 프로세서(10)는 메모리(20)에 저장된 개체명 사전(24)을 이용하여, 다국가 임상데이터의 개체명 인식을 수행할 수 있다. 예를 들어, 질병명, 임상시험기관, 증상, 치료제, 임상 참가 조건 등을 인식할 수 있다. 개체명 사전(24)은 다국가 임상데이터에 상응하는 복수의 개체명들 및 복수의 개체명들 각각에 상응하는 복수의 유의어들을 포함할 수 있다.
실시예에 따르면, 프로세서(10)는 개체명 인식에 따라 인식된 개체명이 개체명 사전(24)에 포함되어 있는지 여부를 판단하여 개체명 인식 수행에 성공하였는지 여부를 판단할 수 있다. 만일, 개체명이 개체명 사전(24)에 포함된 경우, NER에 성공한 것으로 판단할 수 있다. 반면, 개체명이 개체명 사전(24)에 포함되지 않은 경우, NER에 실패한 것으로 판단할 수 있다.
실시예에 따르면, 프로세서(10)는 제1 모델(22)을 통해 출력된 개체명들에 대해 품사 표기(Part-of-speech tagging, POS tagging)를 수행할 수 있다. 즉, 개체명에 대한 명사, 형용사, 동사 등의 품사 표기로 나타낼 수 있다.
실시예에 따르면, 프로세서(10)는 제1 모델(22)을 통해 출력된 개체명들 및/또는 품사 표기까지 수행된 개체명들에 대해 제2 모델(23)을 이용해 개체명별 컨텍스트가 반영된 개체명별 임베딩값을 출력할 수 있다. 프로세서(10)는 각 개체명별 토큰을 생성하고, 토큰화된 개체명을 제2 모델(23)에 입력시켜 개체명별 임베딩값을 출력할 수 있다. 프로세서(10)는 임상시험문서들 각각에 대해 개체명별 임베딩값을 출력할 수 있다.
본 발명에 따르면, 개체명들에 대한 품사 표기 및/또는 컨텍스트 임베딩까지 수행한 결과 정보를 추후 개체명들에 대한 유사도 산출 수행 시(s4) 이용할 수 있으며, 이에 따라 다국가 임상데이터에 대한 보다 정확한 유사도 판단이 수행될 수 있다. 이에 대한 내용은 도 4에서 후술한다.
프로세서(10)는 개체명들에 대한 정제를 수행할 수 있다(s3).
도 5의 252 레코드와 256 레코드를 예를 들면, 하나의 속성(LocationContactName)에 대응되어 두 개 이상의 개체명들(John Necomer, M.D./ Bankole Johnson, Dsc, MD, PhD)이 기재된 것을 알 수 있다. 그러나, 해당 속성은 성명만 나타내면 될 뿐, MD, PhD 등의 직업명(또는 포지션명)까지 포함할 필요는 없을 수 있다.
이러한 경우, 실시예에 따르면, 프로세서(10)는 개체명들 중 적어도 두 개의 개체명이 하나의 속성에 대응되는 경우, 소정의 기준에 의해 적어도 두 개의 개체명을 적어도 두 개의 속성에 대응되도록 분리할 수 있다.
구체적으로, 도 6과 도 8을 함께 참조하면, 프로세서(10)는 하나의 속성으로 표현된 적어도 두 개의 개체명을 확인(s31)할 수 있다. 실시예에 따르면, 하나의 레코드 상에서 하나의 속성으로 표현된 적어도 두 개의 개체명이 있는지를 확인할 수 있다.
그리고, 프로세서(10)는 적어도 두 개의 개체명 중 제1 개체명을 기준으로 제1 개체명에 대응되는 연관 개체명들을 다국가 임상데이터 DB(21)에서 검색할 수 있다(s32). 구체적으로, 제1 개체명을 키워드로 한 검색 질의를 사용자로부터 입력받아 제1 개체명(예>John Newcomer)에 대응되는 연관 개체명들(예>남, 38, M.D.)을 다국가 임상데이터 DB(21)에서 검색할 수 있다.
이와 마찬가지로, 프로세서(10)는 적어도 두 개의 개체명 중 제2 개체명을 기준으로 제2 개체명에 대응되는 연관 개체명들을 다국가 임상데이터 DB(21)에서 검색할 수 있다. 구체적으로, 제2 개체명을 키워드로 한 검색 질의를 사용자로부터 입력받아 제2 개체명(예>M.D.)에 대응되는 연관 개체명들(예>남, 38, John Newcomer)을 다국가 임상데이터 DB(21)에서 검색할 수 있다.
참고로, 도 8의 연관 개체명들은 질병명을 기준으로 한 질병명 리스트로 획득된 것을 예시하였으나, 기관명 등 다른 속성을 기준으로 한 리스트로 획득되는 경우에도 본 발명이 동일/유사하게 적용될 수 있다.
프로세서(10)는 연관 개체명들 사이의 연관도가 임계치 이상인지 여부를 판별할 수 있다(s33). 구체적으로, 제1 개체명을 기준으로 획득된 제1 질병명 리스트 상의 연관 개체명들과 제2 개체명을 기준으로 획득된 제2 질병명 리스트 상의 연관 개체명들 사이의 연관도가 임계치 이상인지 여부를 판별할 수 있다. 보다 구체적으로, 제1 질병명 리스트 상에 포함된 제2 개체명의 비율과 제2 질병명 리스트 상에 포함된 제1 개체명의 비율을 기초로 연관도를 판별할 수 있다.
만일, 연관도가 임계치 이상인 것으로 판별하면, 하나의 속성에 제1 개체명과 제2 개체명이 포함되는 것이 유지되도록 결정할 수 있다(s34). 반면, 연관도가 임계치 미만인 것으로 판별하면, 제1 개체명과 제2 개체명이 두 개의 속성에 대응되도록 개체명 분리를 수행할 수 있다(s35). 예를 들어, 도 8의 경우, John Newcomer에 대응되는 연관 개체명 중 M.D.가 출력되는 비율이 임계치 미만이고, M.D.에 대응되는 연관 개체명 중 John Newcomer가 출력되는 비율이 임계치 미만이므로, 개체명 분리를 수행할 수 있다.
한편, 도 7과 도 9를 함께 참조하면, 프로세서(10)는 적어도 두 개의 속성으로 표현된 적어도 두 개의 개체명을 확인(s311)할 수 있다. 실시예에 따르면, 하나의 레코드 상에서 적어도 두 개의 속성으로 표현된 적어도 두 개의 개체명이 있는지를 확인할 수 있다.
그리고, 프로세서(10)는 적어도 두 개의 개체명 중 제1 개체명을 기준으로 제1 개체명에 대응되는 연관 개체명들을 다국가 임상데이터 DB(21)에서 검색하고, 적어도 두 개의 개체명 중 제2 개체명을 기준으로 제2 개체명에 대응되는 연관 개체명들을 다국가 임상데이터 DB(21)에서 검색할 수 있다(s321). 그리고, 프로세서(10)는 연관 개체명들 사이의 연관도가 임계치 이상인지 여부를 판별할 수 있다(s331). 참고로, 도 7의 s321 내지 s331은 도 6의 s32 내지 s33에 동일/유사하게 적용될 수 있다.
만일, 연관도가 임계치 이상인 것으로 판별하면, 하나의 속성에 제1 개체명과 제2 개체명이 포함되도록 개체명 병합을 수행할 수 있다(s341). 반면, 연관도가 임계치 미만인 것으로 판별하면, 제1 개체명과 제2 개체명이 두 개의 속성에 대응되도록 유지할 수 있다(s351). 예를 들어, 도 9의 경우, John Newcomer에 대응되는 연관 개체명 중 M.D.가 출력되는 비율이 임계치 이상이고, M.D.에 대응되는 연관 개체명 중 John Newcomer가 출력되는 비율이 임계치 이상이므로, 개체명 병합을 수행할 수 있다.
즉, 각 키워드를 별도로 검색함으로써 타켓 키워드가 도출되는 비율을 기초로 각 키워드 사이의 연관성을 판별하고, 이를 기초로 하나의 속성에 유지할지 여부를 판별하도록 함으로써, 노이즈가 제거된, 즉, 보다 정제된 데이터 베이스를 획득할 수 있다. 그리고, 정제된 데이터를 기초로 표준화를 수행하도록 함으로써, 불필요한 데이터에 대한 표준화 수행은 이루어지지 않아 데이터 처리 속도를 보다 향상시킬 수 있게 된다.
프로세서(10)는 정제된 개체명들에 대한 유사도 산출을 수행할 수 있다(s4).
구체적으로, 도 10 내지 도 11을 참조하면, 프로세서(10)는 정제된 개체명들에 대응되는 문자열 셋트들을 획득하고(s41), 문자열 셋트들 중 두 개의 문자열 셋트를 선택할 수 있다(s42).
실시예에 따르면, 프로세서(10)는 개체명들에 대한 가유사도 판단 수행 결과를 기초로 두 개의 문자열 셋트를 선택할 수 있다.
실시예에 따르면, 프로세서(10)는 개체명들에 대한 품사 표기 및/또는 컨텍스트 임베딩까지 수행된 상태에서, 해당 수행 결과 정보를 기초로 개체명들에 대한 가유사도를 판별할 수 있다. 그리고, 개체명별 임베딩값을 비교하여 가 유사도가 임계치 이상인 개체명들에 대한 문자열 셋트를 선택할 수 있다. 예를 들어, Newcomer John과 J. Newcomer를 선택할 수 있다.
프로세서(10)는 두 개의 문자열 셋트 사이의 거리값을 산출할 수 있다.
구체적으로, 두 개의 문자열 셋트 각각을 공백을 기준으로 분리하고(s43), 분리된 문자열들을 서로 비교하여 동일 문자열들은 제거할 수 있다(s44). 그리고, 프로세서(10)는 제거되고 남은 나머지 문자열들에 대해, 제1 문자열을 기준으로 제2 문자열에 삽입된 문자의 개수, 삭제된 문자의 개수, 및 대체된 문자의 개수를 산출할 수 있다(s45).
예를 들어, (a)의 Newcomer John과 J. Newcomer에서 동일 문자열인 Newcomer은 제거하고, John과 J를 비교하여, o-h-n의 삭제 문자가 3개인 것을 산출할 수 있다. 그리고, (b)의 Newcomer John과 July. Newcomer에서 동일 문자열인 Newcomer은 제거하고, John과 July를 비교하여, u-l-y의 대체 문자가 3개인 것을 산출할 수 있다.
프로세서(10)는 삽입된 문자의 개수(또는, 삭제된 문자의 개수)와 대체된 문자의 개수에 각각 서로 상이한 가중치를 부여하여, 두 개의 문자열 셋트 사이의 거리값을 산출할 수 있다(s46). 실시예에 따르면, 삽입된 문자의 개수와 삭제된 문자의 개수에는 상대적으로 낮은 가중치를 부여하고, 대체된 문자의 개수에는 상대적으로 높은 가중치를 부여하여 거리값을 산출할 수 있다. 이 때, 삽입된 문자의 개수와 삭제된 문자의 개수에는 서로 동일한 가중치를 부여할 수 있다.
예를 들어, 삽입된 문자의 개수와 삭제된 문자의 개수에는 0.1의 가중치를 부여하고, 대체된 문자의 개수에는 1의 가중치를 부여하면, (a)의 경우 0.3이 거리값으로 산출되고, (b)의 경우 3이 거리값으로 산출될 수 있다.
프로세서(10)는 산출된 거리값을 기초로 정제된 개체명들 사이의 유사도를 산출할 수 있다. 구체적으로, 프로세서(10)는 거리값이 소정의 임계치 미만인 경우 개체명들이 서로 유사한 것으로 판단할 수 있다. 특히, 유사도가 높은 경우 동일한 것으로 판단할 수 있다. 반면, 거리값이 소정의 임계치 이상인 경우 개체명들이 서로 상이한 것으로 판단할 수 있다.
예를 들어, (a)의 경우 서로 동일한 개체명인 것으로 판단하고, (b)의 경우 서로 상이한 개체명인 것으로 판단할 수 있다.
즉, 삽입이나 삭제된 경우는 동일 개체명이 상이하게 작성될 가능성이 높으므로(예> 축약형) 가중치를 낮게 부여하지만, 대체된 경우에는 다른 개체명으로 인식될 가능성이 높으므로 가중치를 높게 부여하는 것이다.
실시예에 따르면, 도 10 내지 도 11의 예는, 각 개체명이 축약형인 경우 특히 유용하게 적용될 수 있다. 예를 들어, 기관명, 성명, 질병명 등의 개체명이 축약형으로도 작성될 수 있는 경우, 축약형의 개체명과 대응되는 원형 개체명을 서로 상이한 개체로 인식하지 않도록 함으로써, 보다 정확한 컨텐츠를 담은 데이터 베이스가 구축될 수 있다.
프로세서(10)는 유사도가 임계치 이상인 두 개의 문자열 셋트에 대응되는 개체명들을 하나의 개체명으로 간주하여 데이터베이스 상에 정리할 수 있다(s46).
즉, Newcomer John과 J. Newcomer은 서로 동일한 개체명인 것으로 판단하여 두 개체명 중 하나를 대표 개체명으로 선정하고 나머지를 대표 개체명으로 변경하여 데이터베이스 상에 정리할 수 있다.
한편, 도 10 내지 도 11에서는 두 개의 문자열 셋트를 선택한 것을 예시하였으나, 적어도 두 개 이상의 문자열 셋트를 선택해서 비교하는 경우 본 발명이 동일/유사하게 적용될 수 있다.
프로세서(10)는 정제된 개체명들에 대한 유사도 산출 수행 결과를 반영해 다국가 임상데이터에 대한 표준화를 수행할 수 있다(s5).
구체적으로, 다국가 임상데이터 DB(21)에 국가별 및/또는 기관별 상이한 속성명을 하나의 통일된 속성명으로 분류할 수 있다. 분류 데이터는 검색에 최적화된 표준 규격을 가지도록 변환될 수 있다. 예를 들어, 도 12를 참조하면, CRIS에서 cris_vt_overview라는 속성, eudra에서 eudra_ct_summary라는 속성, mfds에서 mfds_ct_summary라는 속성을 하나의 Title(BriefTitle, OfficialTitle)이라는 속성으로 분류할 수 있다.
표준화 수행은 영문이 포함된 데이터에 대해서 모두 소문자로 변환하거나 형용사, 부사, 전치사, 특수문자를 제거하는 동작을 포함할 수 있다. 이때, 별도의 불용어 사전을 활용할 수 있으며, 필요에 따라 맞춤법 검사를 수행하여 오타나 잘못 쓰여진 용어에 대해서 표준어로 변환하는 과정을 수행할 수 있다.
표준화 수행은 외국어로 표현된 경우 모두 국어로, 국어로 표현된 경우 모두 외국어로 표현하여 언어를 통일하는 과정, 임상시험 분야에서 자주 쓰이는 임상시험 관련된 용어를 중심으로 처리하는 과정, 또는 같은 의미를 갖거나, 유사한 의미라고 해석될 수 있는 용어를 하나의 통일된 용어로 처리하는 과정을 포함할 수 있으며, 통일된 용어는 임상시험 분야에서 통상의 기술자가 사용하는 용어일 수 있다. 나아가 표준화 과정은 임상시험 분야에서 더 이상 사용되지 않는 용어에 대해서 현 임상시험 분야에서 대체되어 쓰이는 용어로 변환하는 과정을 포함할 수 있다.
본 발명에 따르면, s3 과정을 통해 개체명들에 대한 정제를 수행하고, 정제된 개체명들에 대한 s4 과정의 유사도 산출을 수행하여 동일 개체명은 하나로 정리한 후 표준화를 수행함으로써, 대용량의 다국가 임상데이터에 대한 표준화 수행 시 처리 속도를 보다 향상시킬 수 있게 된다.
이상 설명된 실시 형태는 다양한 컴퓨터 구성요소를 통하여 실행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터로 판독가능한 기록매체에 기록될 수 있다. 상기 컴퓨터로 판독가능한 기록매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.
상기 컴퓨터로 판독가능한 기록매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다.
컴퓨터로 판독가능한 기록매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 실행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 실행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
본 명세서의 양상들은 전체적으로 하드웨어, 전체적으로 소프트웨어 (펌웨어, 상주 소프트웨어, 마이크로 코드 등을 포함 함) 또는 컴퓨터 판독 가능 프로그램 코드가 구현 된 하나 이상의 컴퓨터 판독 가능 매체에 구현 된 컴퓨터 프로그램 제품의 형태를 취할 수 있다.
이상에서 실시예들에 설명된 특징, 구조, 효과 등은 본 발명의 하나의 실시예에 포함되며, 반드시 하나의 실시예에만 한정되는 것은 아니다. 나아가, 각 실시예에서 예시된 특징, 구조, 효과 등은 실시예들이 속하는 분야의 통상의 지식을 가지는 자에 의해 다른 실시예들에 대해서도 조합 또는 변형되어 실시 가능하다. 따라서 이러한 조합과 변형에 관계된 내용들은 본 발명의 범위에 포함되는 것으로 해석되어야 할 것이다.
또한, 이상에서 실시예를 중심으로 설명하였으나 이는 단지 예시일 뿐 본 발명을 한정하는 것이 아니며, 본 발명이 속하는 분야의 통상의 지식을 가진 자라면 본 실시예의 본질적인 특성을 벗어나지 않는 범위에서 이상에 예시되지 않은 여러 가지의 변형과 응용이 가능함을 알 수 있을 것이다. 예를 들어, 실시예에 구체적으로 나타난 각 구성 요소는 변형하여 실시할 수 있는 것이다. 그리고 이러한 변형과 응용에 관계된 차이점들은 첨부된 청구 범위에서 규정하는 본 발명의 범위에 포함되는 것으로 해석되어야 할 것이다.
본 발명에 따르면, 서로 다른 방법으로 표현된 임상시험 데이터를 표준화된 데이터로 변환하여 줌으로써, 사용자가 원하는 임상시험 데이터를 효율적으로 검색할 수 있게 된다.
특히, 표준화 수행을 위해 미리 정제된 데이터를 이용할 수 있도록 데이터를 가공 및 분류함으로써, 보다 정확하고 빠른 표준화 수행이 이루어질 수 있다.

Claims (9)

  1. 다국가 임상데이터로부터 신경망 모델을 이용해 개체명들을 출력하는 단계;
    상기 개체명들에 대한 정제를 수행하는 단계;
    상기 정제된 개체명들에 대한 유사도 산출을 수행하는 단계; 및
    상기 유사도 산출 수행 결과를 반영하여 상기 다국가 임상데이터에 대한 표준화를 수행하는 단계;를 포함하는,
    다국가 임상데이터 표준화 방법.
  2. 제 1항에 있어서,
    상기 정제 수행 단계는,
    상기 개체명들 중 적어도 두 개의 개체명이 하나의 속성에 대응되는 경우, 소정의 기준을 만족하면 상기 적어도 두 개의 개체명을 적어도 두 개의 속성에 대응되도록 분리하는 단계;를 포함하는,
    다국가 임상데이터 표준화 방법.
  3. 제 1항에 있어서,
    상기 정제 수행 단계는,
    상기 개체명들 중 적어도 두 개의 개체명이 적어도 두 개의 속성에 대응되는 경우, 소정의 기준을 만족하면 상기 적어도 두 개의 개체명을 하나의 속성에 대응되도록 병합하는 단계;를 포함하는,
    다국가 임상데이터 표준화 방법.
  4. 제 1항에 있어서,
    상기 유사도 산출 수행 단계는,
    상기 정제된 개체명들에 대응되는 문자열 셋트들을 획득하는 단계;
    상기 문자열 셋트들 중 두 개의 문자열 셋트 사이의 거리값을 산출하는 단계; 및
    상기 산출된 거리값을 기초로 상기 유사도를 산출하는 단계;를 포함하는,
    다국가 임상데이터 표준화 방법.
  5. 제 4항에 있어서,
    상기 거리값 산출 단계는,
    상기 두 개의 문자열 셋트 중 제1 문자열 셋트를 구성하는 제1 문자열을 기준으로 제2 문자열 셋트를 구성하는 제2 문자열에 삽입된 문자의 개수, 삭제된 문자의 개수, 및 대체된 문자의 개수를 기초로 상기 거리값을 산출하는 단계;를 포함하는,
    다국가 임상데이터 표준화 방법.
  6. 제 5항에 있어서,
    상기 유사도 산출 수행 단계는,
    상기 삽입된 문자의 개수와 상기 삭제된 문자의 개수에 낮은 가중치를 부여하고, 상기 대체된 문자의 개수에 높은 가중치를 부여하여 상기 거리값을 산출하는,
    다국가 임상데이터 표준화 방법.
  7. 제 4항에 있어서,
    상기 표준화 수행 단계는,
    상기 유사도가 소정의 임계치 이상인 상기 두 개의 문자열 셋트에 대응되는 개체명들을 하나의 개체명으로 정리하는 단계; 및
    상기 정리 결과를 반영해 상기 다국가 임상데이터에 대한 표준화를 수행하는 단계;를 포함하는,
    다국가 임상데이터 표준화 방법.
  8. 제 1항에 있어서,
    계층형 DB의 포맷으로 작성된 다국가 임상데이터를 관계형 DB의 포맷으로 변경하는 단계;를 더 포함하고,
    상기 개체명들 출력 단계는,
    상기 관계형 DB의 포맷으로 작성된 상기 다국가 임상데이터로부터 상기 신경망 모델을 이용해 상기 개체명들을 출력하는,
    다국가 임상데이터 표준화 방법.
  9. 다국가 임상데이터를 저장하는 메모리; 및
    상기 다국가 임상데이터로부터 신경망 모델을 이용해 개체명들을 출력하고, 상기 개체명들에 대한 정제를 수행하고, 상기 정제된 개체명들에 대한 유사도 산출을 수행하고, 상기 유사도 산출 수행 결과를 반영하여 상기 다국가 임상데이터에 대한 표준화를 수행하는 프로세서;를 포함하는,
    다국가 임상데이터 표준화 장치.
PCT/KR2021/020289 2021-12-28 2021-12-30 다국가 임상데이터 표준화 방법 및 장치 WO2023128020A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2021-0190379 2021-12-28
KR1020210190379A KR20230100462A (ko) 2021-12-28 2021-12-28 다국가 임상데이터 표준화 방법 및 장치

Publications (1)

Publication Number Publication Date
WO2023128020A1 true WO2023128020A1 (ko) 2023-07-06

Family

ID=86999370

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2021/020289 WO2023128020A1 (ko) 2021-12-28 2021-12-30 다국가 임상데이터 표준화 방법 및 장치

Country Status (2)

Country Link
KR (1) KR20230100462A (ko)
WO (1) WO2023128020A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180013095A (ko) * 2016-07-28 2018-02-07 건국대학교 산학협력단 유사 텍스트를 포함한 웹 페이지 수집을 위한 포털 사이트 기반 웹 크롤링 방법 및 장치
US20190361908A1 (en) * 2016-11-07 2019-11-28 University-Industry Cooperation Group Of Kyung Hee University Method, apparatus and computer program for mapping medical data
KR102271810B1 (ko) * 2020-11-23 2021-07-02 주식회사 엠로 기계 학습을 통한 학습 모델을 사용한 정보 제공 방법 및 장치
KR20210084909A (ko) * 2019-12-30 2021-07-08 (주)메디아이플러스 임상시험 데이터 매칭 방법 및 장치
KR20210152126A (ko) * 2020-06-08 2021-12-15 (주)메디아이플러스 임상시험 검색을 위한 데이터 분류 장치, 시스템 및 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180013095A (ko) * 2016-07-28 2018-02-07 건국대학교 산학협력단 유사 텍스트를 포함한 웹 페이지 수집을 위한 포털 사이트 기반 웹 크롤링 방법 및 장치
US20190361908A1 (en) * 2016-11-07 2019-11-28 University-Industry Cooperation Group Of Kyung Hee University Method, apparatus and computer program for mapping medical data
KR20210084909A (ko) * 2019-12-30 2021-07-08 (주)메디아이플러스 임상시험 데이터 매칭 방법 및 장치
KR20210152126A (ko) * 2020-06-08 2021-12-15 (주)메디아이플러스 임상시험 검색을 위한 데이터 분류 장치, 시스템 및 방법
KR102271810B1 (ko) * 2020-11-23 2021-07-02 주식회사 엠로 기계 학습을 통한 학습 모델을 사용한 정보 제공 방법 및 장치

Also Published As

Publication number Publication date
KR20230100462A (ko) 2023-07-05

Similar Documents

Publication Publication Date Title
Zhang et al. The past is not a foreign country: Detecting semantically similar terms across time
CN110413734B (zh) 一种医疗服务的智能搜索系统及方法
JP7068106B2 (ja) 試験計画策定支援装置、試験計画策定支援方法及びプログラム
CN110097278B (zh) 一种科技资源智能共享融合训练系统和应用系统
CN103294764A (zh) 用于从电子文档提取信息的方法和系统
WO2021251558A1 (ko) 임상시험 검색을 위한 데이터 분류 장치, 시스템 및 방법
WO2011162446A1 (ko) 온톨로지 스키마와 결합된 개체명 사전 및 마이닝 규칙을 이용한 용어의 개체명 결정모듈 및 방법
Minard et al. Multi-class SVM for relation extraction from clinical reports
Golshan et al. A study of recent contributions on information extraction
CN113806531A (zh) 药物关系分类模型构建方法、药物关系分类方法及系统
WO2023128020A1 (ko) 다국가 임상데이터 표준화 방법 및 장치
Gero et al. Word centrality constrained representation for keyphrase extraction
Nambiar et al. Dedicated farm-haystack question answering system for pregnant women and neonates using corona virus literature
WO2019112223A1 (ko) 전자 문서 검색 방법 및 그 서버
WO2022114447A1 (ko) 유사 임상 시험 데이터 제공 방법 및 이를 실행하는 서버
Wang et al. Enabling scientific reproducibility through FAIR data management: An ontology-driven deep learning approach in the NeuroBridge Project
US10956443B2 (en) System and method for enabling interoperability between a first knowledge base and a second knowledge base
Garda et al. BELB: a biomedical entity linking benchmark
WO2023085500A1 (ko) 그래프 독해 기반 지식 추출을 위한 시스템 및 방법
Qamar et al. Most: A system to semantically map clinical model data to snomed-ct
Shareha et al. Multimodal integration (image and text) using ontology alignment
Wennerberg Aligning medical domain ontologies for clinical query extraction
WO2011062311A1 (ko) 기술용어 간 관계 추출용 테스트 컬렉션 반자동 구축을 위한 프레임워크
Mandal et al. XBLQPS: An Extended Bengali Language Query Processing System for e-Healthcare Domain
Veerappa et al. Syntax and Table Aware Parsing Based Naturalized Structured Query Language.

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21970089

Country of ref document: EP

Kind code of ref document: A1