KR102630941B1 - 약물-식품 상호작용 정보 추출 장치 및 방법 - Google Patents

약물-식품 상호작용 정보 추출 장치 및 방법 Download PDF

Info

Publication number
KR102630941B1
KR102630941B1 KR1020210172058A KR20210172058A KR102630941B1 KR 102630941 B1 KR102630941 B1 KR 102630941B1 KR 1020210172058 A KR1020210172058 A KR 1020210172058A KR 20210172058 A KR20210172058 A KR 20210172058A KR 102630941 B1 KR102630941 B1 KR 102630941B1
Authority
KR
South Korea
Prior art keywords
drug
food
food interaction
paper
pharmaceutical
Prior art date
Application number
KR1020210172058A
Other languages
English (en)
Other versions
KR20230083759A (ko
Inventor
이형기
김시언
Original Assignee
서울대학교병원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서울대학교병원 filed Critical 서울대학교병원
Priority to KR1020210172058A priority Critical patent/KR102630941B1/ko
Publication of KR20230083759A publication Critical patent/KR20230083759A/ko
Application granted granted Critical
Publication of KR102630941B1 publication Critical patent/KR102630941B1/ko

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/40ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/20ICT specially adapted for the handling or processing of patient-related medical or healthcare data for electronic clinical trials or questionnaires
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Primary Health Care (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Epidemiology (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Toxicology (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Medicinal Chemistry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Pathology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

약물-식품 상호작용 정보 추출 장치 및 방법이 개시된다. 일 양상에 따른 약물-식품 상호작용 정보 추출 장치는 의약학 논문을 획득하는 논문 획득부; 및 사전학습된 언어모델을 기초로 생성된 약물-식품 상호작용 추출 모델을 이용하여 상기 획득된 의약학 논문에서 약물-식품 상호작용과 관련된 정보를 추출하는 정보 추출부; 를 포함한다.

Description

약물-식품 상호작용 정보 추출 장치 및 방법{Apparatus and method for extracting drug-food interaction information}
논문에서 약물-식품 상효작용 정보를 추출하는 기술과 관련된다.
기존의 약물-식품 상호작용 정보를 추출하는 플랫폼에서는 약물과 식품 단어 간 구분을 기계적으로 수행하여 'insulin-glucose' 등의 상호작용을 약물-식품 상호작용 정보로 잘못 추출하는 경우가 발생하였다. 더욱이 약물과 식품 단어 간의 주술관계에 기초하여서 약물-식품 상호작용을 정의하였기 때문에 상당히 많은 약물-식품 상호작용 정보를 누락할 뿐만 아니라, 약리학적 지식에 근거하지 않고 약물-식품 상호작용을 분류하였기 때문에 임상전문가가 해당 정보를 활용하기 위해서는 추가적인 해석 과정을 수행하는 불편이 있었다.
공개특허공보 제10-2019-0065128 (2019.06.11.)
논문에서 약물-식품 상호작용과 관련된 정보를 높은 정확도로 추출할 수 있는 약물-식품 상호작용 정보 추출 장치 및 방법을 제공하는 것을 목적으로 한다.
일 양상에 따른 약물-식품 상호작용 정보 추출 장치는, 의약학 논문을 획득하는 논문 획득부; 및 사전학습된 언어모델을 기초로 생성된 약물-식품 상호작용 추출 모델을 이용하여 상기 획득된 의약학 논문에서 약물-식품 상호작용과 관련된 정보를 추출하는 정보 추출부; 를 포함할 수 있다.
상기 사전학습된 언어모델은 BERT, BioBERT, PubMedBERT 및 ClinicalBERT 중 하나일 수 있다.
상기 약물-식품 상호작용과 관련된 정보는 약물-식품 상호작용 정보 또는 약물-식품 상호작용 정보를 포함하는 문장, 해당 약물과 해당 식품의 개체명, 및 논문의 증거 수준을 포함할 수 있다.
상기 약물-식품 상호작용 추출 모델은 상기 의약학 논문 또는 상기 의약학 논문의 초록에서 약물-식품 상호작용 정보를 포함하는 핵심 문장을 추출하는 핵심 문장 추출 모델, 상기 의약학 논문 또는 상기 의약학 논문의 초록에서 약물과 식품의 개체명을 인식하는 개체명 인식 모델 및 상기 의약학 논문의 증거 수준을 판단하는 증거 수준 판단 모델을 포함할 수 있다.
상기 약물-식품 상호작용 추출 모델은 사전학습된 언어모델을 학습 데이터를 기반으로 미세조정하여 생성되고, 상기 학습 데이터는 약물-식품 상호작용 정보를 포함하는 문장, 약물과 식품의 개체명, 및 증거 수준이 라벨링된 논문 또는 논문 초록일 수 있다.
상기 약물-식품 상호작용 정보 추출 장치는 상기 추출된 약물-식품 상호작용과 관련된 정보를 상기 의약학 논문 또는 상기 의약학 논문의 초록과 매칭하여 저장함으로써 약물-식품 상호작용 데이터베이스를 구축하는 데이터베이스 구축부; 를 더 포함할 수 있다.
다른 양상에 따른 약물-식품 상호작용 정보 추출 방법은, 의약학 논문을 획득하는 단계; 및 사전학습된 언어모델을 기초로 생성된 약물-식품 상호작용 추출 모델을 이용하여 상기 획득된 의약학 논문에서 약물-식품 상호작용과 관련된 정보를 추출하는 단계; 를 포함할 수 있다.
상기 사전학습된 언어모델은 BERT, BioBERT, PubMedBERT 및 ClinicalBERT 중 하나일 수 있다.
상기 약물-식품 상호작용과 관련된 정보는 약물-식품 상호작용 정보 또는 약물-식품 상호작용 정보를 포함하는 문장, 해당 약물과 해당 식품의 개체명, 및 논문의 증거 수준을 포함할 수 있다.
상기 약물-식품 상호작용 추출 모델은 상기 의약학 논문 또는 상기 의약학 논문의 초록에서 약물-식품 상호작용 정보를 포함하는 핵심 문장을 추출하는 핵심 문장 추출 모델, 상기 의약학 논문 또는 상기 의약학 논문의 초록에서 약물과 식품의 개체명을 인식하는 개체명 인식 모델 및 상기 의약학 논문의 증거 수준을 판단하는 증거 수준 판단 모델을 포함할 수 있다.
상기 약물-식품 상호작용 추출 모델은 사전학습된 언어모델을 학습 데이터를 기반으로 미세조정하여 생성되고, 상기 학습 데이터는 약물-식품 상호작용 정보를 포함하는 문장, 약물과 식품의 개체명, 및 증거 수준이 라벨링된 논문 또는 논문 초록일 수 있다.
상기 약물-식품 상호작용 정보 추출 방법은 상기 추출된 약물-식품 상호작용과 관련된 정보를 상기 의약학 논문 또는 상기 의약학 논문의 초록과 매칭하여 저장함으로써 약물-식품 상호작용 데이터베이스를 구축하는 단계; 를 더 포함할 수 있다.
사전학습된 언어모델을 기초로 생성된 약물-식품 상호작용 추출 모델을 이용함으로써 높은 정확도로 의약학 논문에서 약물-식품 상호작용과 관련된 정보를 추출할 수 있으며, 이를 통해 잘 정비된 약물-식품 상호작용 데이터베이스를 구축할 수 있다.
도 1은 예시적 실시예에 따른 약물-식품 상호작용 추출 모델 생성 장치를 도시한 도면이다.
도 2는 학습 데이터의 일 실시예를 도시한 도면이다.
도 3은 예시적 실시예에 따른 약물-식품 상호작용 정보 추출 장치를 도시한 도면이다.
도 4는 예시적인 실시예들에서 사용되기에 적합한 컴퓨팅 장치를 포함하는 컴퓨팅 환경을 예시하여 설명하기 위한 도면이다.
도 5는 예시적 실시예에 따른 약물-식품 상호작용 추출 모델 생성 방법을 도시한 도면이다.
도 6은 예시적 실시예에 따른 약물-식품 상호작용 정보 추출 방법을 도시한 도면이다.
이하, 첨부된 도면을 참조하여 본 발명의 일 실시예를 상세하게 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다.
한편, 각 단계들에 있어, 각 단계들은 문맥상 명백하게 특정 순서를 기재하지 않은 이상 명기된 순서와 다르게 일어날 수 있다. 즉, 각 단계들은 명기된 순서와 동일하게 수행될 수 있고 실질적으로 동시에 수행될 수도 있으며 반대의 순서대로 수행될 수도 있다.
후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 구성요소들은 용어들에 의해 한정되어서는 안 된다. 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한 다수의 표현을 포함하고, '포함하다' 또는 '가지다' 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
또한, 본 명세서에서의 구성부들에 대한 구분은 각 구성부가 담당하는 주 기능별로 구분한 것에 불과하다. 즉, 2개 이상의 구성부가 하나의 구성부로 합쳐지거나 또는 하나의 구성부가 보다 세분화된 기능별로 2개 이상으로 분화되어 구비될 수도 있다. 그리고 구성부 각각은 자신이 담당하는 주기능 이외에도 다른 구성부가 담당하는 기능 중 일부 또는 전부의 기능을 추가적으로 수행할 수도 있으며, 구성부 각각이 담당하는 주기능 중 일부 기능이 다른 구성부에 의해 전담되어 수행될 수도 있다. 각 구성부는 하드웨어(예컨대 프로세서) 또는 소프트웨어로 구현되거나 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
도 1은 예시적 실시예에 따른 약물-식품 상호작용 추출 모델 생성 장치를 도시한 도면이고, 도 2는 학습 데이터의 일 실시예를 도시한 도면이다.
도 1을 참조하면, 예시적 실시예에 따른 약물-식품 상호작용 추출 모델 생성 장치(100)는 학습 데이터 수집부(110) 및 모델 학습부(120)를 포함할 수 있다.
학습 데이터 수집부(110)는 약물-식품 상호작용 정보를 포함하는 문장, 약물과 식품의 개체명, 및 증거 수준이 라벨링된 논문 또는 논문 초록을 학습 데이터로서 수집할 수 있다. 예를 들어, 학습 데이터로서 수집되는 논문 또는 논문 초록은 영어, 한글, 일본어, 중국어 등 다양한 언어로 기재된 의약학 논문 또는 의약학 논문 초록일 수 있다. 약물-식품 상호작용은 식품의 섭취에 의한 약물의 잘 알려진 효능, 안정성 및 폭로 정도의 변화로 정의될 수 있다. 약물과 식품의 개체명은 약물과 식품의 명칭뿐만 아니라, 약물과 식품을 구성하는 구성 성분의 명칭을 포함할 수 있다. 증거 수준은 약물-식품 상호작용 정보를 뒷받침하는 논문의 증거 수준으로서, 예를 들어 임상시험, 관찰연구, 동물시험, 세포시험, in-vivo 연구 등을 포함할 수 있다. 논문 또는 논문 초록의 라벨링은 약리학적 지식을 가진 자인 의약학 전문가에 의해 수행될 수 있으나 이는 일 실시예에 불과할 뿐 이에 한정되는 것은 아니다.
예를 들어, 도 2에 도시된 바와 같이, 학습 데이터는 약물의 개체명(drug1, drug2, drug3, drug4)과 식품의 개체명(food component1, food1, food component2, food component3, food component4, food component5, food component6), 약물-식품 상호작용 정보를 포함하는 문장(DFI key-sentence1, DFI key-sentence2) 및, 증거 수준(in-vivo study)이 라벨링된 논문 초록일 수 있다.
예시적 실시예에 따르면, 학습 데이터 수집부(110)는 약물-식품 상호작용 정보를 포함하는 문장, 약물과 식품의 개체명, 및 증거 수준이 라벨링된 논문 또는 논문 초록을 저장하는 외부 데이베이스로부터 학습 데이터를 수집할 수 있다. 이때, 학습 데이터 수집부(110)는 유무선 통신 기술을 이용할 수 있다. 여기서, 무선 통신 기술은 블루투스(bluetooth) 통신, BLE(Bluetooth Low Energy) 통신, 근거리 무선 통신(Near Field Communication, NFC), WLAN 통신, 지그비(Zigbee) 통신, 적외선(Infrared Data Association, IrDA) 통신, WFD(Wi-Fi Direct) 통신, UWB(ultra-wideband) 통신, Ant+ 통신, WIFI 통신, RFID(Radio Frequency Identification) 통신, 3G 통신, 4G 통신 및 5G 통신 등을 포함할 수 있으나 이에 한정되는 것은 아니다.
모델 학습부(120)는 학습 데이터 수집부(110)를 통해 수집된 학습 데이터를 기반으로 약물-식품 상호작용 추출 모델을 생성할 수 있다. 약물-식품 상호작용 추출 모델은 논문 또는 논문 초록에서 약물-식품 상호작용 정보를 포함하는 핵심 문장을 추출하는 핵심 문장 추출 모델, 논문 또는 논문 초록에서 약물과 식품의 개체명을 인식하는 개체명 인식 모델, 및 약물-식품 상호작용 정보를 뒷받침하는 논문의 증거 수준을 판단하는 증거 수준 판단 모델을 포함할 수 있다. 또는 약물-식품 상호작용 추출 모델은 핵심 문장 추출 모델, 개체명 인식 모델 및 증거 수준 판단 모델이 통합된 하나의 통합 모델일 수도 있다.
예시적 실시예에 따르면, 모델 학습부(120)는 사전학습(pre-training)된 언어모델을 학습 데이터 수집부(110)를 통해 수집된 학습 데이터를 기반으로 미세조정(fine-tuning)하여 약물-식품 상호작용 추출 모델을 생성할 수 있다. 이때, 사전학습된 언어모델은 의약학 분야의 대용량의 자연어 자료를 기반으로 사전학습된 언어모델로서, 예컨대, BERT(Bidirectional Entity Representation Transformer), BioBERT, PubMedBERT, ClinicalBERT 중 하나일 수 있다. 사전학습된 언어모델은 외부 데이터베이스로부터 획득될 수 있다.
예시적 실시예에 따르면, 모델 학습부(120)는 언어모델을 학습시켜 사전학습된 언어모델을 생성하고, 사전학습된 언어모델을 미세조정하여 약물-식품 상호작용 추출 모델을 생성할 수 있다. 예를 들어 학습 데이터 수집부(110)는 의약학 분야의 대용량의 자연어 자료를 사전학습용 학습 데이터로서 수집하고, 약물-식품 상호작용 정보를 포함하는 문장, 약물과 식품의 개체명, 및 증거 수준이 라벨링된 논문 또는 논문 초록을 미세조정용 학습 데이터로서 수집할 수 있다. 모델 학습부(120)는 수집된 사전학습용 학습 데이터를 기반으로 언어 모델을 학습시켜 사전학습된 언어모델을 생성하고, 수집된 미세조정용 학습 데이터를 기반으로 사전학습된 언어모델을 미세조정하여 약물-식품 상호작용 추출 모델을 생성할 수 있다.
도 3은 예시적 실시예에 따른 약물-식품 상호작용 정보 추출 장치를 도시한 도면이다.
도 3을 참조하면, 예시적 실시예에 따른 약물-식품 상호작용 정보 추출 장치(300)는 논문 획득부(310) 및 정보 추출부(320)를 포함할 수 있다.
논문 획득부(310)는 의약학 논문을 획득할 수 있다. 예를 들어, 논문 획득부(310)는 의약학 논문을 저장하는 외부 장치로부터 의약학 논문을 획득할 수 있다. 이때, 논문 획득부(310)는 유무선 통신 기술을 이용할 수 있다.
정보 추출부(320)는 약물-식품 상호작용 추출 모델을 이용하여 논문 획득부(310)를 통해 획득된 의약학 논문으로부터 약물-식품 상호작용과 관련된 정보를 추출할 수 있다. 여기서 약물-식품 상호작용과 관련된 정보는 약물-식품 상호작용 정보 또는 약물-식품 상호작용 정보를 포함하는 핵심 문장, 해당 약물과 식품의 개체명, 및 해당 약물-식품 상호작용 정보를 뒷받침하는 논문의 증거 수준을 포함할 수 있다.
예시적 실시예에 따르면, 정보 추출부(320)는 핵심 문장 추출부(321), 개체명 인식부(322) 및 증거 수준 판단부(323)를 포함할 수 있다.
핵심 문장 추출부(321)는 약물-식품 상호작용 추출 모델, 예컨대 핵심 문장 추출 모델 또는 통합 모델을 이용하여 의약학 논문 또는 의약학 논문의 초록을 문장 단위로 분석하여 약물-식품 상호작용 정보를 포함하고 있는 핵심 문장을 추출할 수 있다. 이때, 핵심 문장 추출부(321)는 후술하는 개체명 인식부(322)에서 추출된 약물과 식품의 개체명을 이용할 수 있다.
개체명 인식부(322)는 약물-식품 상호작용 추출 모델, 예컨대 개체명 인식 모델 또는 통합 모델을 이용하여 의약학 논문 또는 의약학 논문의 초록에서 약물과 식품의 개체명을 추출할 수 있다. 또한, 개체명 인식부(322)는 핵심 문장 추출부(321)에서 약물-식품 상호작용 정보를 포함하는 핵심 문장이 추출되면, 추출된 핵심 문장에 포함된 상호작용하는 약물과 식품의 개체명을 인식할 수 있다.
증거 수준 판단부(323)는 핵심 문장 추출부(321)에서 약물-식품 상호작용 정보를 포함하는 핵심 문장이 추출되면, 약물-식품 상호작용 추출 모델, 예컨대 증거 수준 판단 모델 또는 통합 모델을 이용하여 의약학 논문 또는 의약학 논문의 초록에서 논문의 증거 수준을 판단할 수 있다.
예시적 실시예에 따르면, 약물-식품 상호작용 정보 추출 장치(300)는 데이터베이스 구축부(330)를 더 포함할 수 있다.
데이터베이스 구축부(330)는 추출된 약물-식품 상호작용과 관련된 정보를 해당 의약학 논문 또는 의약학 논문 초록에 매칭하여 검색 가능한 형태로 내부 또는 외부 데이터베이스에 저장함으로써 약물-식품 상호작용 데이터베이스를 구축할 수 있다.
도 4는 예시적인 실시예들에서 사용되기에 적합한 컴퓨팅 장치를 포함하는 컴퓨팅 환경을 예시하여 설명하기 위한 도면이다. 도시된 실시예에서, 각 구성부들은 이하에 기술된 것 이외에 상이한 기능 및 능력을 가질 수도 있고, 컴퓨팅 환경은 이하에 기술되지 것 이외에도 추가적인 구성부를 포함할 수도 있다.
도시된 컴퓨팅 환경(400)은 컴퓨팅 장치(410)를 포함할 수 있다. 일 실시예에 따르면, 컴퓨팅 장치(410)는 예를 들어, 도 1 및 도 3을 참조하여 설명한 약물-식품 상호작용 추출 모델 생성 장치(100) 및 약물-식품 상호작용 정보 추출 장치(300)에 포함되는 하나 이상의 구성부를 포함할 수 있다.
컴퓨팅 장치(410)는 적어도 하나의 프로세서(411), 컴퓨터 판독 가능 저장 매체(412) 및 통신 버스(413)를 포함할 수 있다. 프로세서(411)는 컴퓨팅 장치(410)로 하여금 앞서 언급된 예시적인 실시예에 따라 동작하도록 할 수 있다. 예컨대, 프로세서(411)는 컴퓨터 판독 가능 저장 매체(412)에 저장된 하나 이상의 프로그램들(414)을 실행할 수 있다. 하나 이상의 프로그램들(414)은 하나 이상의 컴퓨터 실행 가능 명령어를 포함할 수 있으며, 컴퓨터 실행 가능 명령어는 프로세서(411)에 의해 실행되는 경우 컴퓨팅 장치(410)로 하여금 예시적인 실시예에 따른 동작들을 수행하도록 구성될 수 있다.
컴퓨터 판독 가능 저장 매체(412)는 컴퓨터 실행 가능 명령어 내지 프로그램 코드, 프로그램 데이터 및/또는 다른 적합한 형태의 정보를 저장할 수 있다. 컴퓨터 판독 가능 저장 매체(412)에 저장된 프로그램(414)은 프로세서(411)에 의해 실행 가능한 명령어의 집합을 포함할 수 있다. 일 실시예에 따르면, 컴퓨터 판독 가능 저장 매체(412)는 메모리(랜덤 액세스 메모리와 같은 휘발성 메모리, 비휘발성 메모리, 또는 이들의 적절한 조합), 하나 이상의 자기 디스크 저장 디바이스들, 광학 디스크 저장 디바이스들, 플래시 메모리 디바이스들, 그 밖에 컴퓨팅 장치(410)에 의해 액세스되고 원하는 정보를 저장할 수 있는 다른 형태의 저장 매체, 또는 이들의 적합한 조합일 수 있다.
통신 버스(413)는 프로세서(411), 컴퓨터 판독 가능 저장 매체(412)를 포함하여 컴퓨팅 장치(410)의 다른 다양한 구성부들을 상호 연결할 수 있다.
컴퓨팅 장치(410)는 또한 하나 이상의 입출력 장치(420)를 위한 인터페이스를 제공하는 하나 이상의 입출력 인터페이스(415) 및 하나 이상의 네트워크 통신 인터페이스(416)를 포함할 수 있다. 입출력 인터페이스(415) 및 네트워크 통신 인터페이스(416)는 통신 버스(413)에 연결될 수 있다. 입출력 장치(420)는 입출력 인터페이스(415)를 통해 컴퓨팅 장치(410)의 다른 구성부들에 연결될 수 있다. 입출력 장치(420)는 예를 들어, 포인팅 장치(마우스 또는 트랙패드 등), 키보드, 터치 입력 장치(터치패드 또는 터치스크린 등), 음성 또는 소리 입력 장치, 다양한 종류의 센서 장치 및/또는 촬영 장치와 같은 입력 장치, 및/또는 디스플레이 장치, 프린터, 스피커 및/또는 네트워크 카드와 같은 출력 장치를 포함할 수 있다. 입출력 장치(420)는 컴퓨팅 장치(410)를 구성하는 일 구성부로서 컴퓨팅 장치(410)의 내부에 포함될 수도 있고, 컴퓨팅 장치(410)와는 구별되는 별개의 장치로 컴퓨팅 장치(410)와 연결될 수도 있다.
도 5는 예시적 실시예에 따른 약물-식품 상호작용 추출 모델 생성 방법을 도시한 도면이다. 도 5의 약물-식품 상호작용 추출 모델 생성 방법은 도 1의 약물-식품 상호작용 추출 모델 생성 장치(100)에 의해 수행될 수 있다.
도 5를 참조하면, 약물-식품 상호작용 추출 모델 생성 장치는 약물-식품 상호작용 정보를 포함하는 문장, 약물과 식품의 개체명, 및 증거 수준이 라벨링된 논문 또는 논문 초록을 학습 데이터로서 수집할 수 있다(510). 예를 들어, 약물-식품 상호작용 추출 모델 생성 장치는 유무선 통신 기술을 이용하여 약물-식품 상호작용 정보를 포함하는 문장, 약물과 식품의 개체명, 및 증거 수준이 라벨링된 논문 또는 논문 초록을 저장하는 외부 데이베이스로부터 학습 데이터를 수집할 수 있다.
약물-식품 상호작용 추출 모델 생성 장치는 수집된 학습 데이터를 기반으로 약물-식품 상호작용 추출 모델을 생성할 수 있다(520). 약물-식품 상호작용 추출 모델은 논문 또는 논문 초록에서 약물-식품 상호작용 정보를 포함하는 핵심 문장을 추출하는 핵심 문장 추출 모델, 논문 또는 논문 초록에서 약물과 식품의 개체명을 인식하는 개체명 인식 모델, 및 약물-식품 상호작용 정보를 뒷받침하는 논문의 증거 수준을 판단하는 증거 수준 판단 모델을 포함할 수 있다. 또는 약물-식품 상호작용 추출 모델은 핵심 문장 추출 모델, 개체명 인식 모델 및 증거 수준 판단 모델이 통합된 하나의 통합 모델일 수도 있다.
예를 들면, 약물-식품 상호작용 추출 모델 생성 장치는 사전학습(pre-training)된 언어모델을 수집된 학습 데이터를 기반으로 미세조정(fine-tuning)하여 약물-식품 상호작용 추출 모델을 생성할 수 있다. 이때, 사전학습된 언어모델은 의약학 분야의 대용량의 자연어 자료를 기반으로 사전학습된 언어모델로서, 예컨대, BERT(Bidirectional Entity Representation Transformer), BioBERT, PubMedBERT, ClinicalBERT 중 하나일 수 있다.
다른 예를 들면, 약물-식품 상호작용 추출 모델 생성 장치는 언어모델을 학습시켜 사전학습된 언어모델을 생성하고, 사전학습된 언어모델을 미세조정하여 약물-식품 상호작용 추출 모델을 생성할 수 있다. 예를 들어 약물-식품 상호작용 추출 모델 생성 장치는 의약학 분야의 대용량의 자연어 자료를 사전학습용 학습 데이터로서 수집하고, 약물-식품 상호작용 정보를 포함하는 문장, 약물과 식품의 개체명, 및 증거 수준이 라벨링된 논문 또는 논문 초록을 미세조정용 학습 데이터로서 수집할 수 있다. 약물-식품 상호작용 추출 모델 생성 장치는 수집된 사전학습용 학습 데이터를 기반으로 언어 모델을 학습시켜 사전학습된 언어모델을 생성하고, 수집된 미세조정용 학습 데이터를 기반으로 사전학습된 언어모델을 미세조정하여 약물-식품 상호작용 추출 모델을 생성할 수 있다.
도 6은 예시적 실시예에 따른 약물-식품 상호작용 정보 추출 방법을 도시한 도면이다. 도 6의 약물-식품 상호작용 정보 추출 방법은 도 4의 약물-식품 상호작용 정보 추출 장치(300)에 의해 수행될 수 있다.
도 6을 참조하면, 약물-식품 상호작용 정보 추출 장치는 의약학 논문을 획득할 수 있다(610). 예를 들어, 약물-식품 상호작용 정보 추출 장치는 유무선 통신 기술을 이용하여 의약학 논문을 저장하는 외부 장치로부터 의약학 논문을 획득할 수 있다.
약물-식품 상호작용 정보 추출 장치는 약물-식품 상호작용 추출 모델을 이용하여 의약학 논문으로부터 약물-식품 상호작용과 관련된 정보를 추출할 수 있다(620). 여기서 약물-식품 상호작용과 관련된 정보는 약물-식품 상호작용 정보 또는 약물-식품 상호작용 정보를 포함하는 핵심 문장, 해당 약물과 식품의 개체명, 및 해당 약물-식품 상호작용 정보를 뒷받침하는 논문의 증거 수준을 포함할 수 있다.
예를 들면, 약물-식품 상호작용 정보 추출 장치는 약물-식품 상호작용 추출 모델, 예컨대 핵심 문장 추출 모델 또는 통합 모델을 이용하여 의약학 논문 또는 의약학 논문의 초록을 문장 단위로 분석하여 약물-식품 상호작용 정보를 포함하고 있는 핵심 문장을 추출할 수 있다.
또한, 약물-식품 상호작용 정보 추출 장치는 약물-식품 상호작용 추출 모델, 예컨대 개체명 인식 모델 또는 통합 모델을 이용하여, 추출된 핵심 문장에 포함된 상호작용하는 약물과 식품의 개체명을 인식할 수 있다.
또한, 약물-식품 상호작용 정보 추출 장치는 약물-식품 상호작용 정보를 포함하는 핵심 문장이 추출되면, 약물-식품 상호작용 추출 모델, 예컨대 증거 수준 판단 모델 또는 통합 모델을 이용하여 의약학 논문 또는 의약학 논문의 초록에서 논문의 증거 수준을 판단할 수 있다.
약물-식품 상호작용 정보 추출 장치는 추출된 약물-식품 상호작용과 관련된 정보를 해당 의약학 논문 또는 의약학 논문 초록에 매칭하여 검색 가능한 형태로 내부 또는 외부 데이터베이스에 저장함으로써 약물-식품 상호작용 데이터베이스를 구축할 수 있다(630).
상술한 실시예들은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터가 읽을 수 있는 코드로서 구현될 수 있다. 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함할 수 있다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 디스크 등을 포함할 수 있다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드로 작성되고 실행될 수 있다.
이제까지 본 발명에 대하여 그 바람직한 실시 예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 따라서, 본 발명의 범위는 전술한 실시 예에 한정되지 않고 특허 청구범위에 기재된 내용과 동등한 범위 내에 있는 다양한 실시 형태가 포함되도록 해석되어야 할 것이다.
100: 약물-식품 상호작용 추출 모델 생성 장치
110: 학습 데이터 수집부
120: 모델 학습부
300: 약물-식품 상호작용 정보 추출 장치
310: 논문 획득부
320: 정보 추출부
330: 데이터베이스 구축부
340: 핵심 문장 추출부
350: 개체명 인식부
360: 증거 수준 판단부

Claims (12)

  1. 의약학 논문을 획득하는 논문 획득부; 및
    사전학습된 언어모델을 기초로 생성된 약물-식품 상호작용 추출 모델을 이용하여 상기 획득된 의약학 논문에서 약물-식품 상호작용과 관련된 정보를 추출하는 정보 추출부; 를 포함하되,
    상기 약물-식품 상호작용 추출 모델은 상기 의약학 논문 또는 상기 의약학 논문의 초록에서 약물-식품 상호작용 정보를 포함하는 핵심 문장을 추출하는 핵심 문장 추출 모델, 상기 의약학 논문 또는 상기 의약학 논문의 초록에서 약물과 식품의 개체명을 인식하는 개체명 인식 모델 및 상기 의약학 논문의 증거 수준을 판단하는 증거 수준 판단 모델을 포함하고,
    상기 약물-식품 상호작용 추출 모델은 사전학습된 언어모델을 학습 데이터를 기반으로 미세조정하여 생성되고,
    상기 학습 데이터는 상기 의약학 논문 또는 상기 의약학 논문의 초록에 포함된 약물-식품 상호작용 정보를 포함하는 문장, 약물과 식품의 개체명, 및 증거 수준이 라벨링된 논문 또는 논문 초록인,
    약물-식품 상호작용 정보 추출 장치.
  2. 제1항에 있어서,
    상기 사전학습된 언어모델은 BERT, BioBERT, PubMedBERT 및 ClinicalBERT 중 하나인,
    약물-식품 상호작용 정보 추출 장치.
  3. 제1항에 있어서,
    상기 약물-식품 상호작용과 관련된 정보는 약물-식품 상호작용 정보 또는 약물-식품 상호작용 정보를 포함하는 문장, 해당 약물과 해당 식품의 개체명, 및 논문의 증거 수준을 포함하는,
    약물-식품 상호작용 정보 추출 장치.
  4. 삭제
  5. 삭제
  6. 제1항에 있어서,
    상기 추출된 약물-식품 상호작용과 관련된 정보를 상기 의약학 논문 또는 상기 의약학 논문의 초록과 매칭하여 저장함으로써 약물-식품 상호작용 데이터베이스를 구축하는 데이터베이스 구축부; 를 더 포함하는,
    약물-식품 상호작용 정보 추출 장치.
  7. 의약학 논문을 획득하는 단계; 및
    사전학습된 언어모델을 기초로 생성된 약물-식품 상호작용 추출 모델을 이용하여 상기 획득된 의약학 논문에서 약물-식품 상호작용과 관련된 정보를 추출하는 단계; 를 포함하되,
    상기 약물-식품 상호작용 추출 모델은 상기 의약학 논문 또는 상기 의약학 논문의 초록에서 약물-식품 상호작용 정보를 포함하는 핵심 문장을 추출하는 핵심 문장 추출 모델, 상기 의약학 논문 또는 상기 의약학 논문의 초록에서 약물과 식품의 개체명을 인식하는 개체명 인식 모델 및 상기 의약학 논문의 증거 수준을 판단하는 증거 수준 판단 모델을 포함하고,
    상기 약물-식품 상호작용 추출 모델은 사전학습된 언어모델을 학습 데이터를 기반으로 미세조정하여 생성되고,
    상기 학습 데이터는 상기 의약학 논문 또는 상기 의약학 논문의 초록에 포함된 약물-식품 상호작용 정보를 포함하는 문장, 약물과 식품의 개체명, 및 증거 수준이 라벨링된 논문 또는 논문 초록인,
    약물-식품 상호작용 정보 추출 방법.
  8. 제7항에 있어서,
    상기 사전학습된 언어모델은 BERT, BioBERT, PubMedBERT 및 ClinicalBERT 중 하나인,
    약물-식품 상호작용 정보 추출 방법.
  9. 제7항에 있어서,
    상기 약물-식품 상호작용과 관련된 정보는 약물-식품 상호작용 정보 또는 약물-식품 상호작용 정보를 포함하는 문장, 해당 약물과 해당 식품의 개체명, 및 논문의 증거 수준을 포함하는,
    약물-식품 상호작용 정보 추출 방법.
  10. 삭제
  11. 삭제
  12. 제7항에 있어서,
    상기 추출된 약물-식품 상호작용과 관련된 정보를 상기 의약학 논문 또는 상기 의약학 논문의 초록과 매칭하여 저장함으로써 약물-식품 상호작용 데이터베이스를 구축하는 단계; 를 더 포함하는,
    약물-식품 상호작용 정보 추출 방법.
KR1020210172058A 2021-12-03 2021-12-03 약물-식품 상호작용 정보 추출 장치 및 방법 KR102630941B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210172058A KR102630941B1 (ko) 2021-12-03 2021-12-03 약물-식품 상호작용 정보 추출 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210172058A KR102630941B1 (ko) 2021-12-03 2021-12-03 약물-식품 상호작용 정보 추출 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20230083759A KR20230083759A (ko) 2023-06-12
KR102630941B1 true KR102630941B1 (ko) 2024-01-30

Family

ID=86770427

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210172058A KR102630941B1 (ko) 2021-12-03 2021-12-03 약물-식품 상호작용 정보 추출 장치 및 방법

Country Status (1)

Country Link
KR (1) KR102630941B1 (ko)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008181188A (ja) * 2007-01-23 2008-08-07 Kokusai Research Academy:Kk 健康関連情報提供システム
US20190355458A1 (en) 2018-05-17 2019-11-21 International Business Machines Corporation Predicting interactions between drugs and foods

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019107804A1 (ko) 2017-12-01 2019-06-06 한국과학기술원 약물의 구조 정보를 이용한 약물-약물 또는 약물-음식 상호작용 예측 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008181188A (ja) * 2007-01-23 2008-08-07 Kokusai Research Academy:Kk 健康関連情報提供システム
US20190355458A1 (en) 2018-05-17 2019-11-21 International Business Machines Corporation Predicting interactions between drugs and foods

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Dinh Phuong Nguyen and Tu Bao Ho, Drug-Drug Interaction Extraction from Biomedical Texts via Relation BERT, 2020 RIVF International Conference on Computing and Communication Technologies, 2020.10.14. 1부.*

Also Published As

Publication number Publication date
KR20230083759A (ko) 2023-06-12

Similar Documents

Publication Publication Date Title
KR102033435B1 (ko) 자연어 질의응답 시스템과 방법 및 패러프라이즈 모듈
CN109783618B (zh) 基于注意力机制神经网络的药物实体关系抽取方法及系统
JP5825676B2 (ja) ノン・ファクトイド型質問応答システム及びコンピュータプログラム
Nespor et al. Prosody in Israeli sign language
Thompson et al. A generative model for semantic role labeling
KR101726667B1 (ko) 어법컴파일방법, 어의해석방법, 디바이스, 컴퓨터 저장매체 및 장치
JP5866370B2 (ja) テキスト入力の際の関連用語の提案
CN109190125A (zh) 医学语言文本的处理方法、装置和存储介质
US9141601B2 (en) Learning device, determination device, learning method, determination method, and computer program product
KR20120063442A (ko) 수학문장의 시맨틱거리 추출 및 시맨틱거리에 의한 수학문장의 분류방법과 그를 위한 장치 및 컴퓨터로 읽을 수 있는 기록매체
US10223349B2 (en) Inducing and applying a subject-targeted context free grammar
Van den Bosch et al. Implicit schemata and categories in memory-based language processing
Berzak et al. Reconstructing native language typology from foreign language usage
Wang et al. Cascading classifiers for named entity recognition in clinical notes
US11635883B2 (en) Indication of content linked to text
Wang et al. The role of animacy in online argument interpretation in Mandarin Chinese
Dou et al. Data2text studio: Automated text generation from structured data
JP2018195012A (ja) 学習プログラム、学習方法、学習装置、及び変換パラメータ製造方法
CN116244412A (zh) 多意图识别方法及装置
Walker et al. Neural semantic parsing with anonymization for command understanding in general-purpose service robots
Ten Bosch et al. DIANA, a process-oriented model of human auditory word recognition
KR102630941B1 (ko) 약물-식품 상호작용 정보 추출 장치 및 방법
EP3901875A1 (en) Topic modelling of short medical inquiries
Kabadjov A comprehensive evaluation of anaphora resolution and discourse-new classification
Jofche et al. Named entity recognition and knowledge extraction from pharmaceutical texts using transfer learning

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant