KR20230012751A - 의학용어를 포함한 자연어의 지식 증류기법 기반의 의료 표준용어 생성기 - Google Patents

의학용어를 포함한 자연어의 지식 증류기법 기반의 의료 표준용어 생성기 Download PDF

Info

Publication number
KR20230012751A
KR20230012751A KR1020210093394A KR20210093394A KR20230012751A KR 20230012751 A KR20230012751 A KR 20230012751A KR 1020210093394 A KR1020210093394 A KR 1020210093394A KR 20210093394 A KR20210093394 A KR 20210093394A KR 20230012751 A KR20230012751 A KR 20230012751A
Authority
KR
South Korea
Prior art keywords
medical
standard
terms
data
rule
Prior art date
Application number
KR1020210093394A
Other languages
English (en)
Other versions
KR102581133B1 (ko
Inventor
조인휘
김현주
Original Assignee
한양대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한양대학교 산학협력단 filed Critical 한양대학교 산학협력단
Priority to KR1020210093394A priority Critical patent/KR102581133B1/ko
Publication of KR20230012751A publication Critical patent/KR20230012751A/ko
Application granted granted Critical
Publication of KR102581133B1 publication Critical patent/KR102581133B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • General Physics & Mathematics (AREA)
  • Public Health (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Primary Health Care (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Pathology (AREA)
  • Machine Translation (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

의학용어를 포함한 자연어의 지식 증류기법 기반의 의료 표준용어 생성기 기술이 개시된다. 일 실시예에 따른 의료 표준용어 생성 시스템에 의해 수행되는 의료 표준용어 생성 방법은, 의료 용어를 포함하는 텍스트 데이터를 의료 표준용어 생성을 위한 학습 모델에 입력받는 단계; 및 상기 의료 표준용어 생성을 위한 학습 모델을 통해 의료 용어를 포함하는 텍스트 데이터로부터 룰(Rule) 기반의 의료 표준용어로 변환하는 단계를 포함할 수 있다.

Description

의학용어를 포함한 자연어의 지식 증류기법 기반의 의료 표준용어 생성기{MEDICAL STANDARD TERMINOLOGY GENERATOR BASED ON KNOWLEDGE DISTILLATION FROM MEDICAL NATURAL LANGUAGE}
아래의 설명은 의학용어를 포함하는 자연어를 의료 표준용어로 변환하는 기술에 관한 것이다.
바이오 의학 문서수가 늘어남에 따라 생물 의학 텍스트 마이닝을 위해, NLP 추출 기법을 사용하여 최근에 도입된 사전 훈련된 언어 모델인 BERT가 생물 의학 말뭉치에 적용 되었다. 일반 도메인 말뭉치에서 생의학 말뭉치로의 단어 분포의 차이로 인해, 생의학 말뭉치 데이터를 이용해 Bert의 미세조정(fine-tuning) 기반의 재학습을 통해 BioBert(Biomedical TextMining용 Transformers의 양방향 인코더 표현) 알고리즘이 개발되었다.
기존에 학습된 모델을 미세조정(fine-tuning)하여, 기존 모델의 구조를 유지하면서 학습을 진행하였고, 아키텍처는 매우 정적인 구조를 가지고 있다. 대량의 의료 말뭉치를 사용하여 학습한 결과물에 대해 바이오의학 자연어가 아닌 의료 영역에서도 학습이 가능하지만, 크고 복잡한 모델을 학습하는데 비용과 자원이 많이 소모된다. 개체인식, 생물 의학관계 추출, 생물 의학 질문과 답변에 대한 분석 결과를 제공하고 있으며, 생물 의학 말뭉치에 대한 복잡한 언어 체계를 이해하는데 목적을 두고 있다.
대부분의 솔루션은 SNOMED CT를 온톨로지의 의미론적 요소가 아닌 단순한 용어로 간주한다. 의료 분야에서 자유 텍스트의 비율이 높으며 인코딩과 학습을 통한 SNOMED-CT로의 변환에 다양한 시도가 있었으나, 매핑률이 낮고 비용 효율적인 학습 모델이 나오지 못했다. 모델의 작성에 소요되는 시간과 반복작업에 소요되는 시간이 많다. 또한 대량 데이터의 학습에는 계산에 필요한 연산량 또한 많이 소요된다.
의료 자연어를 룰 기반의 국제 표준 용어 체계를 생성함으로써 모호한 자연어의 해석을 용이하고 명확하게 하여 정확한 진단과 정확한 의료정보를 전달하기 위한 방법 및 시스템을 제공할 수 있다.
지식증류(Knowledge distillation) 기법을 통해 의료 자연어를 의료 표준 용어체계로 변환하여 기계가 이해할 수 있는 룰(Rule) 기반의 언어로 생성하는 방법 및 시스템을 제공할 수 있다.
의료 표준용어 생성 시스템에 의해 수행되는 의료 표준용어 생성 방법은, 의료 용어를 포함하는 텍스트 데이터를 의료 표준용어 생성을 위한 학습 모델에 입력받는 단계; 및 상기 의료 표준용어 생성을 위한 학습 모델을 통해 의료 용어를 포함하는 텍스트 데이터로부터 룰(Rule) 기반의 의료 표준용어로 변환하는 단계를 포함할 수 있다.
상기 의료 표준용어 생성을 위한 학습 모델은, 의료 용어를 포함한 자연어 데이터를 표준의료 체계에 설정된 컨셉(concept)과 의료 용어(preferred term)에 기초하여 룰(Rule)기반 의료 표준용어를 생성하도록 구축된 것일 수 있다.
상기 의료 표준용어 생성을 위한 학습 모델은, 의학 용어를 인식할 수 있는 사전에 학습된 모델을 선생 모델(Teacher Model)로 사용하고, 상기 선생 모델에서 상기 지식증류 기법을 사용하여 도출된 학생 모델(Student Model)을 학습시킬 수 있다.
상기 학생 모델의 데이터 셋은, 제한된 개수의 의료 용어를 포함하는 자연어 데이터와 의학 용어(Medical Terminology)로 라벨링된 데이터 셋과, 표준의료 체계에 설정된 어휘 용어 데이터(Lexical Term data)와 컨셉 데이터(Concept data)가 임베딩된 데이터 셋을 포함하고, 상기 제한된 개수의 의료 용어를 포함하는 자연어 데이터와 의학 용어(Medical Terminology)로 라벨링된 데이터 셋과, 표준의료 체계의 어휘 용어 데이터(Lexical Term data)와 컨셉 데이터(Concept data)가 임베딩된 워드 벡터(Embedding word vector)가 이용되어 상기 학생 모델이 학습될 수 있다.
상기 학생 모델에서 학습이 수행됨에 따라 획득된 지식 데이터가 지식 전이를 통해 생성된 룰 언어 생성기에 의해 룰 기반의 의료 표준용어로 변환될 수 있다.
상기 입력받는 단계는, 상기 텍스트 데이터가 임베딩 워드 벡터 인코더에 입력됨에 따라 워드 벡터로 변환되는 단계를 포함하고, 상기 변환하는 단계는, 상기 변환된 워드 벡터를 룰 언어 생성기(Rule Language Generator)내의 생성자(Generator) 및 판별자(Discreminator)에 의해 학습된 생성자를 통해 룰 기반의 언어로 생성하고, 상기 생성된 룰 기반의 언어를 워드 벡터 디코더를 통해 가독 가능한 룰 기반의 표준의료 용어로 변환하는 단계를 포함할 수 있다.
의료 표준용어 생성 시스템은, 의료 용어를 포함하는 텍스트 데이터를 의료 표준용어 생성을 위한 학습 모델에 입력받는 데이터 입력부; 및 상기 의료 표준용어 생성을 위한 학습 모델을 통해 의료 용어를 포함하는 텍스트 데이터로부터 룰(Rule) 기반의 의료 표준용어로 변환하는 표준용어 변환부를 포함할 수 있다.
의료 자연어들의 모호함을 해소하고, 국제 표준용어 체계(SNOMED-CT)인 명확한 룰(Rule) 기반 언어 데이터를 확보할 수 있다.
지식증류 기법을 사용하여 사전에 학습된 모델을 사용하여 선생 모델로서 사용하고, 선생 모델을 통해 작고 경량의 학생 네트워크를 학습시킴으로써 비용 및 자원의 효율성을 얻을 수 있다. 또한, 선생 모델과 유사한 성능을 내는 경량의 아키텍처를 가지는 매우 소형(compact)의 모델을 획득할 수 있다.
지식 증류 기법을 사용하여 모델의 수렴 속도를 개선하고, 학습에 소요되는 시간을 개선할 수 있다.
의료 자연어를 기반으로 국제 표준 용어 체계인 SNOMED-CT 기반의 룰 언어를 생성함에 따라 CDSS 등 특수목적을 가지고 있는 머신을 위해 모호한 자연어의 해석을 용이하고 명확하게 하여 정확한 진단과 정확한 의료정보를 전달할 수 있다.
도 1은 일 실시예에 있어서, 의료 자연어에서 표준용어 체계의 언어로 변환된 예를 설명하기 위한 도면이다.
도 2는 일 실시예에 있어서, 지식증류 기법을 이용하여 학습하는 동작을 설명하기 위한 도면이다.
도 3은 일 실시예에 있어서, 룰 언어 생성 동작을 설명하기 위한 도면이다.
도 4는 일 실시예에 있어서, 의료 자연어를 룰 언어 생성기를 통해 의료 표준용어로 변환하는 동작을 설명하기 위한 도면이다.
도 5는 일 실시예에 있어서, 의료 표준용어 생성 시스템의 구성을 설명하기 위한 블록도이다.
도 6은 일 실시예에 있어서, 의료 표준용어 생성 방법을 설명하기 위한 흐름도이다.
이하, 실시예를 첨부한 도면을 참조하여 상세히 설명한다.
실시예에서는 지식증류(Knowledge distillation) 기법을 통해 의료 자연어에 대해 표준 용어체계로 변환하여 기계가 이해할 수 있는 룰(Rule)기반의 언어로 생성하는 동작에 대하여 설명하기로 한다. 아래에서는 의료적 표현인 SNOMED-CT(Systemized Nomenclature of Medicine Clinical Term) 표준 용어체계를 예를 들어 설명하기로 한다.
SNOMED-CT란 보건의료 분야의 모든 영역(예를 들면, 임상소견, 임상관찰, 진단명, 수술, 치료 등)에서 사용되는 약 35만개의 개념과 100만개의 동의어를 포함하고 있는 용어체계이다. 환자의 진료 향상을 목적으로 임상에서 자료를 효율적으로 기록하는 것을 지원하고, 임상 자료를 일관된 방법으로 색인, 저장, 검색, 통합을 가능하게 하는 임상정보를 활용하여 연구 및 정보를 이용한 의사 결정을 가능하게 한다. 또한 개념 간 논리 구조로 연계가 되어 있기 때문에 한 진단 코드에 다양한 의미를 가지고 있다. 하나의 SNOMED-CT 코드는 부모 개념, 자식 개념, 발생 부위 및 관련 형태학에 관한 다양한 정보를 포함하고 있다.
도 1은 일 실시예에 있어서, 의료 자연어에서 표준용어 체계의 언어로 변환된 예를 설명하기 위한 도면이다.
의료 표준용어 생성 시스템(의료 표준용어 생성기)은 의료 자연어를 학습 모델의 데이터로 이용하여 학습 모델을 학습할 수 있다. 의료 표준용어 생성 시스템은 학습 모델을 이용하여 의료 자연어에 대하여 표준 의료체계인 SNOMED-CT의 컨셉(concept)과 의학 용어(preferred term)을 생성하는 룰(Rule) 기반 언어체계를 생성하는 작업을 수행할 수 있다.
이때, 의료 자연어는 텍스트 데이터 형태로 구성된 것일 수 있다. 의료 자연어의 범위는 환자의 병력 및 신체 검사 문서(History and physical examinations), 의료요약정보(Clinical summaries), 사망 증명서(Death certificates), 환자의 문제 상황에 대한 보고서 및 설명 메모 등이 포함될 수 있다.
환자의 병력 및 신체 검사 문서는 환자의 병력과, 검사 결과에 대한 데이터로 입원한 환자의 상황을 요약한 문서를 포함할 수 있다. 또한, 의료요약정보는 퇴원요약과 같은 치료 에피소드가 포함된 문서를 포함할 수 있다. 또한, 사망 증명서는 환자의 사망과 관련된 문서를 포함할 수 있다. 또한, 문서인 환자의 문제 상황에 대한 보고서는 부검 보고서(Autopsy reports), 사고 보고서(Incident reports), 알레르기 보고서(Allergy reports), 병리학 및 게놈 보고서 및 방사선과를 포함하는 보완보고서(Complementary exam reports)를 포함할 수 있다. 또한, 설명 메모는 간호사 메모, 임상메모 등을 포함할 수 있다.
도 1을 참고하면, 의료 자연어 문서가 입력 데이터로 입력됨에 따라 증상명(Symptom Name), 질병(Disease), 의료적 절차(Procedure) 등이 인식될 수 있고, 인식 결과에 기초하여 SNOMED-CT기반 룰 코드(Rule Code)로 변환될 수 있다. 각종 조건에 대한 룰 언어 규약은 SNOMED-CT의 규약에 따른다.
도 2는 일 실시예에 있어서, 지식증류 기법을 이용하여 학습하는 동작을 설명하기 위한 도면이다.
의료 표준용어 생성 시스템은 지식증류 기법을 이용하여 의료 용어를 포함한 자연어 데이터를 표준의료 체계에 설정된 컨셉(concept)과 의료 용어(preferred term)에 기초하여 룰(Rule)기반 의료 표준용어를 생성할 수 있다.
의료 표준용어 생성 시스템은 의료 용어를 포함하는 텍스트 데이터를 의료 표준용어 생성을 위한 학습 모델에 입력받을 수 있다. 의료 표준용어 생성 시스템은 의료 표준용어 생성을 위한 학습 모델을 이용하여 의료 용어를 포함하는 텍스트 데이터에 대한 룰(Rule)기반 의료 표준용어를 생성할 수 있다. 이때, 의료 표준용어 생성을 위한 학습 모델은, 의료 용어를 포함한 자연어 데이터를 표준의료 체계에 설정된 컨셉(concept)과 의료 용어(preferred term)에 기초하여 룰(Rule)기반 의료 표준용어를 생성하도록 구축된 것일 수 있다.
도 2를 참고하면, 지식증류기법의 핵심 학습 메커니즘을 설명한 도면으로서, 의학 용어를 인식할 수 있는 사전에 학습된 모델을 선생 모델(Teacher Model)(210)을 사용하여 경량의 학생 모델(220)을 학습시키는 지식증류 기법의 학습 흐름을 나타낸 것이다.
지식증류 기법이란 미리 학습된 네트워크(Teacher network)의 지식을 실제 사용하고자 하는 작은 네트워크(Student network)에게 전달하는 것이다. 작은 네트워크로도 큰 네트워크와 비슷한 성능을 낼 수 있도록 학습 과정에서 큰 네트워크의 지식을 작은 네트워크에 전달하여 학생 네트워크(student network)의 성능을 높이는데 목적을 두고 있다. 큰 모델에서 출력값은 일반적으로 하나의 특정 레이블에 대한 확률값을 나타내지만, 지식 증류에서는 이를 확률값들의 분포의 형태로 변형하여 학습 속도 향상과 모델의 정확도를 최적화하는 기법이다.
사전에 학습된 모델인 선생 모델을 이용하여 지식증류가 수행될 수 있다. 학생 모델은 선생 모델로부터 전달되는 정보와 학습 데이터(Train data)(201, 202) 셋을 이용하여 학습을 진행할 수 있다. 학생 모델은 학습 데이터로 의료 자연어 문서와 표준 의료용어를 매핑한 라벨 데이터 셋(201)을 사용하고, SNOMED-CT의 어휘 용어 데이터(Lexical Term data)와 SNOMED-CT의 컨셉 데이터(Concept data)를 사용하여 임베딩한 데이터 셋(202)을 사용할 수 있다.
제한된 개수의 의료 용어를 포함하는 자연어 데이터(Plane text)와 의학 용어(Medical Terminology)로 라벨링된 데이터 셋을 사용하고, 표준의료 체계에 설정된 어휘 용어 데이터(Lexical Term data)와 컨셉 데이터(Concept data)이 임베딩된 데이터 셋을 사용하여 학생 모델이 학습될 수 있다.
도 3은 일 실시예에 있어서, 룰 언어 생성 동작을 설명하기 위한 도면이다.
의학 용어를 인식할 수 있는 사전에 학습된 모델을 선생 모델(Teacher Model)(210)로 사용하고, 선생 모델(210)에서 지식증류 기법을 사용하여 도출된 학생 모델(Student Model)(220)이 학습될 수 있다. 학생 모델(220)에 제한된 개수의 의료 용어를 포함하는 자연어 데이터와 의학 용어(Medical Terminology)로 라벨링된 데이터 셋(201)이 입력될 수 있다.
또한, 표준의료 체계에 설정된 어휘 용어 데이터(Lexical Term data)와 컨셉 데이터(Concept data)를 사용하여 임베딩된 데이터 셋(202)이 학생 모델(220)에 입력될 수 있다. 표준의료 체계에 설정된 어휘 용어 데이터(Lexical Term data)와 컨셉 데이터(Concept data)는 임베딩을 통해 임베딩 워드 벡터(301)로 추출될 수 있고, 추출된 임베딩 워드 벡터(301)가 학생 모델(220)에 입력될 수 있다.
학생 모델(220)에서 학습이 수행됨에 따라 획득된 지식 데이터가 지식 전이를 통해 룰 기반의 의료 표준용어가 생성될 수 있다. 이때, 룰 언어 생성기(310)에 의해 룰 기반의 의료 표준용어가 생성될 수 있다.
도 3은 데이터 셋의 학습부터 임베딩, 지식 증류 과정을 거쳐 학습 후에 룰 언어를 생성하는 과정을 나타낸 것으로, 임베딩 학습을 통한 SNOMED-CT 컨셉 데이터 및 의학 용어(Medical Terminology) 데이터를 기반으로 워드 임베딩을 진행하고, 실제 의료 자연어 문서 데이터와 정답 데이터 세트를 학습하여 선생 모델(210)에서의 지식 증류를 진행하여 학생 모델(220)은 학습을 완료할 수 있다. 학생 모델(220)에서 학습된 지식 데이터는 룰 언어 생성기(310)를 거쳐 최종적인 룰 기반의 의료 표준용어 생성을 완료할 수 있다.
도 4는 일 실시예에 있어서, 의료 자연어를 룰 언어 생성기를 통해 의료 표준용어로 변환하는 동작을 설명하기 위한 도면이다.
룰 언어 생성기(310)가 의료 용어를 포함하는 텍스트 데이터(plain text)를 입력받을 수 있다. 룰 언어 생성기(310)는 의료 용어를 포함하는 텍스트 데이터를 이용하여 최종적으로 룰 기반의 의료 표준용어로 변환할 수 있다.
우선, 의료 용어를 포함하는 텍스트 데이터가 임베딩 워드 벡터 인코더(Embedding word vector Encoder)(410)로 입력되어 워드 벡터로 변환될 수 있다. 변환된 워드 벡터는 룰 언어 생성기(310) 내의 생성자/판별자(Generator/Discreminator)에 의해 학습된 생성자에 의해 룰 언어가 생성될 수 있다. 이때, 룰 언어 생성기(310)는 GAN 학습을 수행할 수 있다. 생성된 룰 언어는 최종적으로 워드 벡터 디코더(420)를 통해 가독 가능한 룰 언어 기반의 의료 표준용어로 변환될 수 있다.
도 5는 일 실시예에 있어서, 의료 표준용어 생성 시스템의 구성을 설명하기 위한 블록도이고, 도 6은 일 실시예에 있어서, 의료 표준용어 생성 방법을 설명하기 위한 흐름도이다.
의료 표준용어 생성 시스템(100)의 프로세서는 데이터 입력부(510) 및 표준용어 변환부(520)를 포함할 수 있다. 이러한 프로세서의 구성요소들은 의료 표준용어 생성 시스템에 저장된 프로그램 코드가 제공하는 제어 명령에 따라 프로세서에 의해 수행되는 서로 다른 기능들(different functions)의 표현들일 수 있다. 프로세서 및 프로세서의 구성요소들은 도 6의 의료 표준용어 생성 방법이 포함하는 단계들(610 내지 620)을 수행하도록 의료 표준용어 생성 시스템을 제어할 수 있다. 이때, 프로세서 및 프로세서의 구성요소들은 메모리가 포함하는 운영체제의 코드와 적어도 하나의 프로그램의 코드에 따른 명령(instruction)을 실행하도록 구현될 수 있다.
프로세서는 의료 표준용어 생성 방법을 위한 프로그램의 파일에 저장된 프로그램 코드를 메모리에 로딩할 수 있다. 예를 들면, 의료 표준용어 생성 스템에서 프로그램이 실행되면, 프로세서는 운영체제의 제어에 따라 프로그램의 파일로부터 프로그램 코드를 메모리에 로딩하도록 의료 표준용어 생성 시스템을 제어할 수 있다. 이때, 데이터 입력부(510) 및 표준용어 변환부(520) 각각은 메모리에 로딩된 프로그램 코드 중 대응하는 부분의 명령을 실행하여 이후 단계들(610 내지 620)을 실행하기 위한 프로세서의 서로 다른 기능적 표현들일 수 있다.
단계(610)에서 데이터 입력부(510)는 의료 용어를 포함하는 텍스트 데이터를 의료 표준용어 생성을 위한 학습 모델에 입력받을 수 있다. 데이터 입력부(510)에서 텍스트 데이터가 임베딩 워드 벡터 인코더에 입력됨에 따라 워드 벡터로 변환될 수 있다.
단계(620)에서 표준용어 변환부(520)는 의료 표준용어 생성을 위한 학습 모델을 통해 의료 용어를 포함하는 텍스트 데이터로부터 룰(Rule) 기반의 의료 표준용어로 변환할 수 있다. 표준용어 변환부(520)는 변환된 워드 벡터를 룰 언어 생성기(Rule Language Generator) 내의 생성자(Generator) 및 판별자(Discreminator)에 의해 학습된 생성자를 통해 룰 기반의 언어로 생성할 수 있다. 표준용어 변환부(520)는 생성된 룰 기반의 언어를 워드 벡터 디코더를 통해 가독 가능한 룰 기반의 표준의료 용어로 변환할 수 있다.
실시예에 따르면, 사전에 학습된 모델과 똑같이 복제하여 복잡한 아키텍처를 그대로 가져오는 정적인 구조에서 파라미터의 값을 데이터에 맞게 피팅하여 반복 재학습을 통해 모델을 구현하였던 문제점을 해결하기 위하여, 지식증류 기법을 사용하여 사전에 학습된 모델을 사용하여 선생 모델로 사용하고, 작고 경량의 학생 네트워크를 학습시킴으로써 비용 및 자원의 효율성을 얻을 수 있다. 또한, 선생 모델과 유사한 성능을 내는 경량의 아키텍처를 가지는 매우 소형의 모델을 얻을 수 있다. 이에, 지식증류 기법을 사용하여 모델의 수렴 속도를 개선하고, 학습에 소요되는 시간을 개선할 수 있다.
실시예에 따르면, 의료 자연에 대해 개체명인식(NER), 생물 의학관계 추출, 생물 의학 질문과 답변 등 특수한 테스크(Task)에 국한된 기능을 제공하였던 종래 기술의 한계를 극복하고, 의료 자연어를 기반으로 국제 표준 용어 체계인 룰 기반 언어로 생성하여, 모호한 자연어의 해석을 용이하고 명확하게 하여 정확한 진단과 정확한 의료정보를 전달할 수 있다.
실시예에 따르면, 환자들의 기록, 의료진이 작성한 진료기록, 처방전 등의 자연어로 되어 있는 자료에 대한 의료 표준용어로의 변환을 통해 의료 정보 추출할 수 있다. 또한, 의료 용어를 포함하는 자연어로부터 표준 의료 용어들을 추출해 CDSS의 진단 자료로 활용 가능하다.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (7)

  1. 의료 표준용어 생성 시스템에 의해 수행되는 의료 표준용어 생성 방법에 있어서,
    의료 용어를 포함하는 텍스트 데이터를 의료 표준용어 생성을 위한 학습 모델에 입력받는 단계; 및
    상기 의료 표준용어 생성을 위한 학습 모델을 통해 의료 용어를 포함하는 텍스트 데이터로부터 룰(Rule) 기반의 의료 표준용어로 변환하는 단계
    를 포함하는 의료 표준용어 생성 방법.
  2. 제1항에 있어서,
    상기 의료 표준용어 생성을 위한 학습 모델은, 의료 용어를 포함한 자연어 데이터를 표준의료 체계에 설정된 컨셉(concept)과 의료 용어(preferred term)에 기초하여 룰(Rule)기반 의료 표준용어를 생성하도록 구축된
    것을 특징으로 하는 의료 표준용어 생성 방법.
  3. 제2항에 있어서,
    상기 의료 표준용어 생성을 위한 학습 모델은, 의학 용어를 인식할 수 있는 사전에 학습된 모델을 선생 모델(Teacher Model)로 사용하고, 상기 선생 모델에서 상기 지식증류 기법을 사용하여 도출된 학생 모델(Student Model)을 학습시키는
    것을 특징으로 하는 의료 표준용어 생성 방법.
  4. 제3항에 있어서,
    상기 학생 모델의 데이터 셋은,
    제한된 개수의 의료 용어를 포함하는 자연어 데이터와 의학 용어(Medical Terminology)로 라벨링된 데이터 셋과, 표준의료 체계에 설정된 어휘 용어 데이터(Lexical Term data)와 컨셉 데이터(Concept data)가 임베딩된 데이터 셋을 포함하고,
    상기 제한된 개수의 의료 용어를 포함하는 자연어 데이터와 의학 용어(Medical Terminology)로 라벨링된 데이터 셋과, 표준의료 체계의 어휘 용어 데이터(Lexical Term data)와 컨셉 데이터(Concept data)가 임베딩된 워드 벡터(Embedding word vector)가 이용되어 상기 학생 모델이 학습되는
    것을 특징으로 하는 의료 표준용어 생성 방법.
  5. 제4항에 있어서,
    상기 학생 모델에서 학습이 수행됨에 따라 획득된 지식 데이터가 지식 전이를 통해 생성된 룰 언어 생성기에 의해 룰 기반의 의료 표준용어로 변환되는
    것을 특징으로 하는 의료 표준용어 생성 방법.
  6. 제1항에 있어서,
    상기 입력받는 단계는,
    상기 텍스트 데이터가 임베딩 워드 벡터 인코더에 입력됨에 따라 워드 벡터로 변환되는 단계
    를 포함하고,
    상기 변환하는 단계는,
    상기 변환된 워드 벡터를 룰 언어 생성기(Rule Language Generator) 내의 생성자(Generator) 및 판별자(Discreminator)에 의해 학습된 생성자를 통해 룰 기반의 언어로 생성하고, 상기 생성된 룰 기반의 언어를 워드 벡터 디코더를 통해 가독 가능한 룰 기반의 표준의료 용어로 변환하는 단계
    를 포함하는 의료 표준용어 생성 방법.
  7. 의료 표준용어 생성 시스템에 있어서,
    의료 용어를 포함하는 텍스트 데이터를 의료 표준용어 생성을 위한 학습 모델에 입력받는 데이터 입력부; 및
    상기 의료 표준용어 생성을 위한 학습 모델을 통해 의료 용어를 포함하는 텍스트 데이터로부터 룰(Rule) 기반의 의료 표준용어로 변환하는 표준용어 변환부
    를 포함하는 의료 표준용어 생성 시스템.
KR1020210093394A 2021-07-16 2021-07-16 의학용어를 포함한 자연어의 지식 증류기법 기반의 의료 표준용어 생성기 KR102581133B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210093394A KR102581133B1 (ko) 2021-07-16 2021-07-16 의학용어를 포함한 자연어의 지식 증류기법 기반의 의료 표준용어 생성기

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210093394A KR102581133B1 (ko) 2021-07-16 2021-07-16 의학용어를 포함한 자연어의 지식 증류기법 기반의 의료 표준용어 생성기

Publications (2)

Publication Number Publication Date
KR20230012751A true KR20230012751A (ko) 2023-01-26
KR102581133B1 KR102581133B1 (ko) 2023-09-21

Family

ID=85110714

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210093394A KR102581133B1 (ko) 2021-07-16 2021-07-16 의학용어를 포함한 자연어의 지식 증류기법 기반의 의료 표준용어 생성기

Country Status (1)

Country Link
KR (1) KR102581133B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112800213A (zh) * 2021-01-26 2021-05-14 北京壹永科技有限公司 医学文本信息显示方法、装置及电子设备
CN116721778A (zh) * 2023-08-10 2023-09-08 北方健康医疗大数据科技有限公司 一种医学术语标准化方法、系统、设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102046640B1 (ko) * 2019-07-22 2019-12-02 (주)위세아이텍 빅데이터 표준화를 위한 표준용어 자동 추천 장치 및 방법
KR20190139630A (ko) * 2018-06-08 2019-12-18 경희대학교 산학협력단 임상 의사 결정 시스템 구축을 위한 의료 정보 변환 방법 및 시스템
KR20210086820A (ko) * 2019-12-30 2021-07-09 주식회사 에비드넷 위계정보를 이용한 표준화된 용어 추천 방법 및 장치

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190139630A (ko) * 2018-06-08 2019-12-18 경희대학교 산학협력단 임상 의사 결정 시스템 구축을 위한 의료 정보 변환 방법 및 시스템
KR102046640B1 (ko) * 2019-07-22 2019-12-02 (주)위세아이텍 빅데이터 표준화를 위한 표준용어 자동 추천 장치 및 방법
KR20210086820A (ko) * 2019-12-30 2021-07-09 주식회사 에비드넷 위계정보를 이용한 표준화된 용어 추천 방법 및 장치

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112800213A (zh) * 2021-01-26 2021-05-14 北京壹永科技有限公司 医学文本信息显示方法、装置及电子设备
CN112800213B (zh) * 2021-01-26 2024-06-07 北京壹永科技有限公司 医学文本信息显示方法、装置及电子设备
CN116721778A (zh) * 2023-08-10 2023-09-08 北方健康医疗大数据科技有限公司 一种医学术语标准化方法、系统、设备及介质
CN116721778B (zh) * 2023-08-10 2024-01-09 北方健康医疗大数据科技有限公司 一种医学术语标准化方法、系统、设备及介质

Also Published As

Publication number Publication date
KR102581133B1 (ko) 2023-09-21

Similar Documents

Publication Publication Date Title
Xue et al. Multimodal recurrent model with attention for automated radiology report generation
US11610678B2 (en) Medical diagnostic aid and method
US11132361B2 (en) System for responding to complex user input queries using a natural language interface to database
Sivarajkumar et al. HealthPrompt: a zero-shot learning paradigm for clinical natural language processing
Mahajan et al. Identification of semantically similar sentences in clinical notes: Iterative intermediate training using multi-task learning
CN112597774A (zh) 中文医疗命名实体识别方法、系统、存储介质和设备
KR102581133B1 (ko) 의학용어를 포함한 자연어의 지식 증류기법 기반의 의료 표준용어 생성기
US20190370383A1 (en) Automatic Processing of Ambiguously Labeled Data
KR102508131B1 (ko) 지식그래프에 대한 그래프 연결강화 시스템 및 방법
Yuan et al. Large language models for healthcare data augmentation: An example on patient-trial matching
Yan et al. Style-aware radiology report generation with radgraph and few-shot prompting
CN113657086B (zh) 词语处理方法、装置、设备及存储介质
CN113704481B (zh) 一种文本处理方法、装置、设备及存储介质
Buonocore et al. A rule-free approach for cardiological registry filling from Italian clinical notes with question answering transformers
Li et al. A scoping review of using Large Language Models (LLMs) to investigate Electronic Health Records (EHRs)
Mohamed et al. ImageCLEF 2020: An approach for Visual Question Answering using VGG-LSTM for Different Datasets.
Maaroufi et al. Towards data integration automation for the French rare disease registry
Wu et al. A medical diagnostic assistant based on llm
Wunnava et al. One Size Does Not Fit All: An Ensemble Approach Towards Information Extraction from Adverse Drug Event Narratives.
Wang et al. End-to-end pre-trained dialogue system for automatic diagnosis
Al-Ash et al. Indonesian protected health information removal using named entity recognition
Kindberg Word embeddings and patient records: The identification of MRI risk patients
Alkhalaf et al. Applying generative AI with retrieval augmented generation to summarize and extract key clinical information from electronic health records
Kim et al. Comparative Study of Various Approaches for Ensemble-based De-identification of Electronic Health Record Narratives
Metcalf et al. Embedded word representations for rich indexing: a case study for medical records

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant