KR20230076335A - 의료 데이터 임베딩 방법 및 장치, 컴퓨터 판독 가능한 기록 매체 및 컴퓨터 프로그램 - Google Patents

의료 데이터 임베딩 방법 및 장치, 컴퓨터 판독 가능한 기록 매체 및 컴퓨터 프로그램 Download PDF

Info

Publication number
KR20230076335A
KR20230076335A KR1020210163161A KR20210163161A KR20230076335A KR 20230076335 A KR20230076335 A KR 20230076335A KR 1020210163161 A KR1020210163161 A KR 1020210163161A KR 20210163161 A KR20210163161 A KR 20210163161A KR 20230076335 A KR20230076335 A KR 20230076335A
Authority
KR
South Korea
Prior art keywords
embedding
graph
data
nodes
medical
Prior art date
Application number
KR1020210163161A
Other languages
English (en)
Other versions
KR102588270B1 (ko
Inventor
김대영
송지은
김영학
전태준
Original Assignee
한국과학기술원
재단법인 아산사회복지재단
울산대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원, 재단법인 아산사회복지재단, 울산대학교 산학협력단 filed Critical 한국과학기술원
Priority to KR1020210163161A priority Critical patent/KR102588270B1/ko
Priority to PCT/KR2022/018768 priority patent/WO2023096386A1/ko
Publication of KR20230076335A publication Critical patent/KR20230076335A/ko
Application granted granted Critical
Publication of KR102588270B1 publication Critical patent/KR102588270B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Public Health (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Primary Health Care (AREA)
  • Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

실시예의 의료 데이터 임베딩 방법은 의료 텍스트 데이터를 임베딩 공간에 텍스트 임베딩을 수행하는 단계와, EMR 내의 의료 코드 데이터를 그래프로 변환시키는 단계와, 상기 텍스트 임베딩을 이용하여 상기 그래프의 노드를 초기화하는 단계와, 상기 노드들이 초기화된 그래프의 노드와 상기 노드들이 초기화된 그래프에서 상세 진단 노드를 제외한 서브 그래프의 노드를 각각 샘플링하는 단계와, 샘플링된 노드들을 상기 임베딩 공간에 임베딩하는 단계와, 상기 임베딩 공간에 임베딩된 상기 의료 코드 데이터와 상기 의료 텍스트 데이터의 관계 학습을 수행하는 단계와, 상기 텍스트 임베딩과 그래프의 상기 그래프 노드들이 초기화된 형태를 포함하는 임베딩 데이터와, 상기 관계 학습을 수행하여 획득된 임베딩 데이터를 이용하여 최종 임베딩 데이터를 획득하는 단계를 포함할 수 있다.

Description

의료 데이터 임베딩 방법 및 장치, 컴퓨터 판독 가능한 기록 매체 및 컴퓨터 프로그램{METHOD AND APPARATUS FOR EMBEDDING OF MEDICAL DATA, COMPUTER-READABLE STORAGE MEDIUM AND COMPUTER PROGRAM}
실시예는 의료 데이터를 임베딩하는 의료 데이터 임베딩 방법 및 장치에 관한 것이다.
일반적으로, EMR(Electronic Medical Record)은 환자의 건강 정보를 전자적으로 기록한 것으로, 최근 의료 정보학 분야에서 EMR 분석의 중요성이 높아지고 있다.
EMR은 의료 텍스트와 ICD-10 code와 같은 의료 코드(concept)를 포함하는 멀티 모델 데이터이다. 최근에는 EMR을 부분적으로 분석하기 위해 의학 텍스트 또는 의학 코드의 임베딩을 시도하고 있다. 여기서, 임베딩은 텍스트의 각 단어나 코드를 전산화시키기 위해 각각의 개념을 벡터화시키는 것이다.
하지만, 종래에는 의료 텍스트 또는 의료 코드를 각각 임베딩하는 기술만 존재하기 때문에 의료 텍스트와 의료 코드 사이의 관계성이 없어 전체 EMR을 분석하기에는 어려움이 있다.
상술한 문제점을 해결하기 위해, 실시예는 서로 관계성을 가지는 의료 텍스트 데이터와 의료 코드 데이터를 하나의 임베딩 공간에 임베딩하기 위한 의료 데이터 임베딩 방법 및 장치를 제공하는 것을 그 목적으로 한다.
실시예의 의료 데이터 임베딩 방법은 의료 텍스트 데이터를 임베딩 공간에 텍스트 임베딩을 수행하는 단계와, EMR 내의 의료 코드 데이터를 그래프로 변환시키는 단계와, 상기 텍스트 임베딩을 이용하여 상기 그래프의 노드를 초기화하는 단계와, 상기 노드들이 초기화된 그래프의 노드와 상기 노드들이 초기화된 그래프에서 상세 진단 노드를 제외한 서브 그래프의 노드를 각각 샘플링하는 단계와, 샘플링된 노드들을 상기 임베딩 공간에 임베딩하는 단계와, 상기 임베딩 공간에 임베딩된 상기 의료 코드 데이터와 상기 의료 텍스트 데이터의 관계 학습을 수행하는 단계와, 상기 텍스트 임베딩과 그래프의 상기 그래프 노드들이 초기화된 형태를 포함하는 임베딩 데이터와, 상기 관계 학습을 수행하여 획득된 임베딩 데이터를 이용하여 최종 임베딩 데이터를 획득하는 단계를 포함할 수 있다.
상기 그래프는 큰 등급 노드, 중간 등급 노드, 진단 노드 및 상세 진단 노드를 포함하고, 상기 서브 그래프는 큰 등급 노드, 중간 등급 노드 및 진단 노드를 포함할 수 있다.
상기 그래프의 노드를 초기화하는 단계는, 상기 노드를 구성하고 있는 텍스트들의 벡터 평균값으로 초기화할 수 있다.
상기 샘플링하는 단계는, node2vec 기법에서 사용되는 리턴 매개변수와 인-아웃 매개변수를 이용하여 상기 그래프의 노드와 상기 서브 그래프의 노드를 샘플링하고, 상기 그래프의 노드는 상기 리턴 매개변수를 상기 인-아웃 매개변수 보다 크게 설정하여 샘플링하고, 상기 서브 그래프의 노드는 상기 리턴 매개변수를 상기 인-아웃 매개변수 보다 작게 설정하여 샘플링할 수 있다.
상기 샘플링된 노드들을 상기 임베딩 공간에 임베딩하는 단계는, 상기 인코딩 함수, 디코딩 함수 및 유사성 함수를 이용하여 샘플링된 노드들을 상기 임베딩 공간에 임베딩할 수 있다.
상기 최종 임베딩 데이터를 획득하는 단계는 수학식 1에 의해 결정될 수 있다.
[수학식 1]
Figure pat00001
또한, 실시예의 의료 데이터 임베딩 장치는 의료 데이터를 임베딩하는 제어 프로그램이 저장된 메모리와, 상기 제어 프로그램을 실행하는 프로세서를 포함하고, 상기 프로세서는, 의료 텍스트 데이터를 word2vec 기법으로 임베딩 공간에 텍스트 임베딩을 수행하고, EMR 내의 의료 코드 데이터를 그래프로 변환시키고, 상기 텍스트 임베딩을 이용하여 상기 그래프의 노드를 초기화하고, 상기 노드들이 초기화된 그래프의 노드와 상기 노드들이 초기화된 그래프에서 상세 진단 노드를 제외한 서브 그래프의 노드를 각각 샘플링하고, Node2vec 기법에 의해 샘플링된 노드들을 상기 임베딩 공간에 임베딩하고, 상기 임베딩 공간에 임베딩된 상기 의료 코드 데이터와 상기 의료 텍스트 데이터의 관계 학습을 수행하고, 상기 텍스트 임베딩과 그래프의 상기 그래프 노드들이 초기화된 형태를 포함하는 임베딩 데이터와, 상기 관계 학습을 수행하여 획득된 임베딩 데이터를 이용하여 최종 임베딩 데이터를 획득할 수 있다.
상기 그래프는 큰 등급 노드, 중간 등급 노드, 진단 노드 및 상세 진단 노드를 포함하고, 상기 서브 그래프는 큰 등급 노드, 중간 등급 노드 및 진단 노드를 포함할 수 있다.
상기 프로세서는, 상기 노드를 구성하고 있는 텍스트들의 벡터 평균값으로 상기 그래프의 노드를 초기화시킬 수 있다.
상기 프로세서는, 리턴 매개변수와 인-아웃 매개변수를 이용하여 상기 그래프의 노드와 상기 서브 그래프의 노드를 샘플링하고, 상기 그래프의 노드는 상기 리턴 매개변수를 상기 인-아웃 매개변수 보다 크게 설정하여 샘플링하고, 상기 서브 그래프의 노드는 상기 리턴 매개변수를 상기 인-아웃 매개변수 보다 작게 설정하여 샘플링할 수 있다.
상기 프로세서는, 상기 인코딩 함수, 디코딩 함수 및 유사성 함수를 이용하여 샘플링된 노드들을 상기 임베딩 공간에 임베딩할 수 있다.
상기 최종 임베딩 데이터는 수학식 1에 의해 결정될 수 있다.
Figure pat00002
또한, 실시예는 컴퓨터 프로그램을 저장하고 있는 컴퓨터 판독 가능 기록매체로서, 상기 컴퓨터 프로그램은, 프로세서에 의해 실행되면, 의료 텍스트 데이터를 word2vec 기법으로 임베딩 공간에 텍스트 임베딩을 수행하는 단계와, EMR 내의 의료 코드 데이터를 그래프로 변환시키는 단계와, 상기 텍스트 임베딩을 이용하여 상기 그래프의 노드를 초기화하는 단계와, 상기 노드들이 초기화된 그래프의 노드와 상기 노드들이 초기화된 그래프에서 상세 진단 노드를 제외한 서브 그래프의 노드를 각각 샘플링하는 단계와, Node2vec 기법에 의해 샘플링된 노드들을 상기 임베딩 공간에 임베딩하는 단계와, 상기 임베딩 공간에 임베딩된 상기 의료 코드 데이터와 상기 의료 텍스트 데이터의 관계 학습을 수행하는 단계와, 상기 텍스트 임베딩과 그래프의 상기 그래프 노드들이 초기화된 형태를 포함하는 임베딩 데이터와, 상기 관계 학습을 수행하여 획득된 임베딩 데이터를 이용하여 최종 임베딩 데이터를 획득하는 단계를 포함하는 동작을 상기 프로세서가 수행하도록 하기 위한 명령어를 포함할 수 있다.
또한, 실시예는 컴퓨터 판독 가능한 기록매체에 저장되어 있는 컴퓨터 프로그램으로서, 상기 컴퓨터 프로그램은, 프로세서에 의해 실행되면, 의료 텍스트 데이터를 word2vec 기법으로 임베딩 공간에 텍스트 임베딩을 수행하는 단계와, EMR 내의 의료 코드 데이터를 그래프로 변환시키는 단계와, 상기 텍스트 임베딩을 이용하여 상기 그래프의 노드를 초기화하는 단계와, 상기 노드들이 초기화된 그래프의 노드와 상기 노드들이 초기화된 그래프에서 상세 진단 노드를 제외한 서브 그래프의 노드를 각각 샘플링하는 단계와, Node2vec 기법에 의해 샘플링된 노드들을 상기 임베딩 공간에 임베딩하는 단계와, 상기 임베딩 공간에 임베딩된 상기 의료 코드 데이터와 상기 의료 텍스트 데이터의 관계 학습을 수행하는 단계와, 상기 텍스트 임베딩과 그래프의 상기 그래프 노드들이 초기화된 형태를 포함하는 임베딩 데이터와, 상기 관계 학습을 수행하여 획득된 임베딩 데이터를 이용하여 최종 임베딩 데이터를 획득하는 단계를 포함하는 동작을 상기 프로세서가 수행하도록 하기 위한 명령어를 포함할 수 있다.
실시예는 의료 텍스트 데이터와 의료 코드 데이터를 하나의 임베딩 공간에 임베딩할 수 있는 효과가 있다.
또한, 실시예는 의료 텍스트 데이터와 의료 코드 데이터의 관계성을 가지도록 임베딩을 수행함으로써, EMR을 효과적으로 분석할 수 있다.
또한, 실시예는 파라미터를 조절함으로써, 어플리케이션 사용시 보다 임베딩 효과가 좋은 데이터를 얻을 수 있다.
도 1은 실시예에 따른 의료 데이터 임베딩 시스템을 나타낸 도면이다.
도 2는 실시예에 따른 의료 데이터 임베딩 장치를 나타낸 도면이다.
도 3은 실시예에 따른 의료 데이터 임베딩 장치에서 수행되는 의료 데이터 임베딩 방법을 나타낸 순서도이다.
도 4 내지 도 11은 실시예에 따른 의료 데이터 임베딩 방법의 세부 동작을 설명하기 위한 도면이다.
이하, 도면을 참조하여 실시예를 상세히 설명하기로 한다.
도 1은 실시예에 따른 의료 데이터 임베딩 시스템을 나타낸 도면이고, 도 2는 실시예에 따른 의료 데이터 임베딩 장치를 나타낸 도면이다.
도 1을 참조하면, 실시예에 따른 의료 데이터 임베딩 시스템은 서버(100)와, 의료 데이터 임베딩 장치(200)를 포함할 수 있다.
서버(100)는 의료 데이터, 예컨대 EMR 데이터가 저장되는 공간일 수 있다. 서버(100)는 의료 기관에 구비된 서버 또는 의료 기간으로부터 EMR을 전달받아 EMR을 저장하는 저장 공간일 수 있다.
의료 데이터 임베딩 장치(200)는 서버로부터 EMR을 수신하여, 의료 텍스트 데이터와 의료 코드 데이터의 관계성을 기초로 의료 텍스트 데이터와 의료 코드 데이터를 하나의 임베딩 공간에 임베딩을 수행할 수 있다.
도 2에 도시된 바와 같이, 의료 데이터 임베딩 장치(200)는 메모리(210)와, 통신부(230)와, 프로세서(250)를 포함할 수 있다.
메모리(210)는 프로세서(250)의 처리 또는 의료 데이터 임베딩을 위한 제어 프로그램 등 의료 데이터 임베딩 장치(200) 전반의 동작을 위한 다양한 데이터를 저장할 수 있다. 구체적으로, 메모리(210)에는 의료 데이터 임베딩 장치(200)에서 구동되는 다수의 응용 프로그램, 의료 데이터 임베딩 장치(200)에서 구동되는 다수의 응용 프로그램, 의료 데이터 임베딩 장치(200)의 동작을 위한 데이터 및 명령어들을 저장할 수 있다.
메모리(210)에는 서버(100)로부터 수신된 EMR 정보 등이 저장될 수 있으나, 이에 한정되지 않는다. 메모리(210)는 자기 저장 매체(magnetic storage media) 또는 플래시 저장 매체(flash storage media)를 포함할 수 있으나, 이에 한정되는 것은 아니다.
통신부(230)는 서버(100)와 연결되며, 복수의 통신 방법을 이용하여 서버(100)와 통신을 수행할 수 있는 통신 인터페이스를 제공할 수 있다. 통신부(230)는 다른 네트워크 장치와 유무선 연결을 통해 제어 신호 또는 데이터 신호와 같은 신호를 송수신하기 위해 필요한 하드웨어 및 소프트웨어를 포함하는 장치일 수 있다. 통신부(230)를 통해 EMR 데이터가 메모리(210)에 저장될 수 있다.
통신부(230)는 3G, LTE 및 5G 뿐만 아니라, NB-IoT, LoRa, SigFox, LTE-CAT1 과 같은 LPWN(Low Power Wireless Network) 및 LPWAN(Low Power Wide Area Network)을 이용하여 통신을 수행할 수 있다.
통신부(230)는 유선 LAN(Local Area Network) 뿐만 아니라 WiFi 80211a/b/g/n 와 같은 무선 LAN을 이용한 통신 방법을 이용하여 통신을 수행할 수 있다. 이 외에도 통신부(230)는 NFC, Bluetooth와 같은 통신 방법을 이용하여 서버(100)와 통신을 수행할 수도 있다.
여기서, 통신부(230)는 의료 데이터 임베딩 장치(200)의 구성 요소로 생략될 수도 있다.
프로세서(250)는 일종의 중앙처리장치로서 의료 데이터 임베딩 장치(200)를 제어할 수 있다.
프로세서(250)는 데이터를 처리할 수 있는 모든 종류의 장치를 포함할 수 있다. 여기서, '프로세서(processor)'는, 예를 들어 프로그램 내에 포함된 코드 또는 명령으로 표현된 기능을 수행하기 위해 물리적으로 구조화된 회로를 갖는, 하드웨어에 내장된 데이터 처리 장치를 의미할 수 있다. 이와 같이 하드웨어에 내장된 데이터 처리 장치의 일 예로써, 마이크로프로세서(microprocessor), 중앙처리장치(central processing unit: CPU), 프로세서 코어(processor core), 멀티프로세서(multiprocessor), ASIC(application-specific integrated circuit), FPGA(field programmable gate array) 등의 처리 장치를 망라할 수 있으나, 이에 한정되는 것은 아니다.
이하에서는 의료 데이터 임베딩 장치(200)의 프로세서(250)에 의해 수행되는 의료 데이터 임베딩 방법에 대해 살펴보기로 한다.
도 3은 실시예에 따른 의료 데이터 임베딩 장치에서 수행되는 의료 데이터 임베딩 방법을 나타낸 순서도이고, 도 4 내지 도 11은 실시예에 따른 의료 데이터 임베딩 방법의 세부 동작을 설명하기 위한 도면이다.
도 3에 도시된 바와 같이, 의료 데이터 임베딩 장치(200)는 텍스트 임베딩을 수행할 수 있다(S100). 의료 데이터 임베딩 장치(200)는 Wikipedia와 같은 큰 규모의 의료 말뭉치인 Pubmed abstract와 상대적으로 소규모인 EMR 진단 노드(예를 들어, MIMIC-3 discharge note)를 이용하여 Word2Vec 방식으로 의료 텍스트 데이터를 임베딩할 수 있다.
의료 데이터 임베딩 장치(200)는 EMR 내의 의료 코드 데이터를 그래프로 변환시킬 수 있다(S200). 의료 코드 데이터는 ICD-10 데이터일 수 있으나, 이에 한정되지 않는다. ICD-10 코드는 U 클래스와 V 클래스를 제외하고 4 글자(letters)까지 사용할 수 있다.
도 4에 도시된 바와 같이, 그래프(G)는 루트에서 아래로 큰 등급 노드(N1, 예: A00-B99), 중간 등급 노드(N2, 예: A00-A09), 진단 노드(N3, 예: A00, A02) 및 상세 진단 노드(N4, leaf node)로 구분될 수 있다.
진단 노드(N3)와 상세 진단 노드(N4)를 제외한 모든 노드는 분류자이며, 이들 노드는 진단 노드(N3)와 상세 진단 노드(N4)가 속하는 범주를 의미할 수 있다. 진단 노드(N3)와 상세 진단 노드(N4)는 모두 의료 상황에서 주로 사용될 수 있다.
각 노드의 리터럴 이름을 나타내는 'name' 속성을 가진 네트워크 패키지[Hagberg et al., 2008]를 이용하여 ICD-10 그래프를 구성할 수 있다. 예를 들어, 노드 C01에는 "이름 = 혀 기저부의 악성 신생물" 속성이 있다. 마지막으로 생성된 ICD-10 그래프에는 10604개의 노드가 존재할 수 있으나, 이에 한정되지 않는다.
의료 데이터 임베딩 장치(200)는 그래프의 노드를 초기화시킬 수 있다(S300). 초기화는 이전 단계에서 수행된 텍스트 임베딩(예: Pubmed+EMR text embedding)을 사용하여 속성 이름의 각 단어의 평균 벡터로 초기화될 수 있다. 초기 값은 코드가 온톨로지 방식 기반으로만 임베딩 되는 것을 방지하기 위해 사전 훈련된 임베딩 값을 기반으로 할 수 있다.
도 5에 도시된 바와 같이, B27 노드의 경우, 감염 벡터(infectious vector) 값이 (0.0102, 0.5734 0.2122, ... , 0.2124)이고, 단핵구증 벡터(mononucleosis vector) 값이 (-0.3435, 0.6423, ... ,0.1242)인 경우, B27 노드를 구성하고 있는 텍스트들의 벡터값들의 평균값으로 초기화시킬 수 있다. 즉, B27 노드에 대해 (-0.1666, 0.6078, ... , 0.1683)의 값으로 초기화될 수 있다.
의료 데이터 임베딩 장치(200)는 그래프 노드들을 샘플링할 수 있다(S400). 의료 데이터 임베딩 장치(200)는 node2vec 임베딩 방법의 샘플링 기법을 사용할 수 있다.
도 6에 도시된 바와 같이, node2vec 임베딩 방법은 리턴 매개변수 p와 인-아웃 매개변수 q를 사용할 수 있다. 리턴 매개변수 p는 초기 노드로 복귀하는 정도로 정의되고, 인-아웃 매개변수 q는 초기 노드에서 다른 노드로 이동하는 정도로 정의될 수 있다. 매개변수 p와 q는 그래프의 크기, 그래프의 특성에 따라 다르며, 최적의 매개변수 p와 q는 p, q의 일부 집합에 대한 그리드 검색으로 획득할 수 있다.
의료 데이터 임베딩 장치(200)는 그래프 노드를 두 단계로 샘플링할 수 있다. ICD-10 그래프 형태의 가장 큰 특징 중 하나는 노드의 약 80%가 상세 진단 노드에 위치한다는 점이다. 이 경우, 위상 분할 없이 한 쌍의 매개변수 p와 q로 전체 그래프를 샘플링하면 상세 진단 노드에 대한 온톨로지 학습이 거의 수행되지 않게 된다.
따라서, 의료 데이터 임베딩 장치(200)는 진단 노드와 상세 진단 노드 계층 간의 그래프를 나누어 2단계로 샘플링을 수행할 수 있다.
의료 데이터 임베딩 장치(200)는 도 7a에 도시된 바와 같이, 큰 등급 노드, 중간 등급 노드, 진단 노드 및 상세 진단 노드를 포함하는 메인 그래프(MG)와 도 7b에 도시된 바와 같이, 상세 진단 노드를 제외한 서브 그래프(SG)를 이용하여 노드들을 샘플링할 수 있다.
의료 데이터 임베딩 장치(200)는 그래프 깊이 우선 탐색을 유도하여 메인 그래프(MG)의 온톨로지 정보를 학습하기 위해 p를 q 보다 크게 설정할 수 있다. 예컨대, p를 105로 설정하고, q를 10-5로 설정할 수 있다.
또한, 의료 데이터 임베딩 장치(200)는 너비 우선 탐색과 같은 광범위한 탐색을 위해 서브 그래프(SG)에 대해 q를 p보다 크게 설정할 수 있다. 예컨대, p는 0.5로 설정하고, q는 2.0으로 설정할 수 있다.
의료 데이터 임베딩 장치(200)는 메인 그래프(MG) 노드들의 샘플을 학습한 다음 서브 그래프(SG)의 노드들의 샘플을 학습할 수 있으나, 그 순서는 한정되지 않는다.
의료 데이터 임베딩 장치(200)는 학습이 완료되어 샘플링된 그래프의 노드를 임베딩 공간에 임베딩할 수 있다(S500).
의료 데이터 임베딩 장치(200)는 먼저, 그래프의 노드를 임베딩하기 위해 인코딩 함수, 디코딩 함수 및 유사성 함수를 정의할 수 있다. 임베딩 행렬의 룩업(lookup)이 인코딩 함수로 사용될 수 있다.
의료 데이터 임베딩 장치(200)는 node2vec 임베딩 방법에서 디코딩 및 유사성 기능을 채택하여 샘플링된 노드의 임베딩 및 웰 트레이닝에 구조적 정보를 반영할 수 있다.
node2vec 메트릭의 주요 개념은 길이 w의 랜덤 워크에서 시작 노드 v에서 대상 노드 u가 나타날 확률일 수 있다. 이 방법에 대한 디코딩 함수는 수학식 1로 나타낼 수 있으며, 유사성 함수는 수학식 2로 나타낼 수 있다.
[수학식 1]
Figure pat00003
[수학식 2]
Figure pat00004
위 수학식 1에서, DEC는 디코딩 함수를 의미하고, Zu 및 Zv는 각각 인코딩 된 node u 및 node v를 의미하며, e는 자연 상수를 나타내고, T는 행렬 전치를 의미한다. 또한, 위 수학식 2에서, Similarity는 유사성 함수를 의미하며, Pw(u|v)는 시작 노드 v에서 대상 노드 u가 나타날 확률을 의미한다.
도 8에 도시된 바와 같이, 가중치를 초기화한 후의 그래프 임베딩을 훈련하기 전과 그래프 임베딩을 훈련한 후에 대한 ICD-10 노드의 시각화를 보여준다.
대상 노드는 C22노드이고 나머지 노드는 대상 노드 C22의 가장 유사한 20개의 ICD-10 노드를 나타낸다.
도 8a에는 C22와 관련 없는 코드 예컨대, D135, D376, K824, Q44가 존재하며, 도 8b에는 C23, C261, C19, C154와 같은 C22와 연관된 노드가 존재함을 알 수 있다.
의료 데이터 임베딩 장치(200)는 의료 텍스트 데이터와 의료 코드 데이터의 관계 학습을 수행할 수 있다(S600).
도 9에 도시된 바와 같이, 의료 데이터 임베딩 장치(200)는 의료 코드 데이터와 의료 텍스트 데이터의 리터럴 이름을 연결하여 문장을 생성할 수 있다. 의료 데이터 임베딩 장치(200)는 창 크기가 문자의 최대 길이로 설정된 양수 샘플만 추출할 수 있다.
도 10에 도시된 바와 같이, Adam 방식의 옵티마이저(인공 신경망)를 사용하여 샘플을 훈련시킬 수 있다. 이 단계에서는 의료 코드 데이터와 의료 텍스트 데이터의 특정 벡터가 동시에 업데이트될 수 있다.
이러한 훈련 과정을 통해 의료 코드 데이터와 의료 텍스트 데이터의 관계를 강화할 수 있다.
의료 데이터 임베딩 장치(200)는 텍스트 임베딩과 그래프의 그래프 노드들이 초기화된 형태를 포함하는 제1 임베딩 데이터와, 관계 학습을 수행하여 획득된 제2 임베딩 데이터를 이용하여 최종 임베딩 데이터를 획득할 수 있다(S700).
최종 임베딩 데이터는 수학식 3에 의해 획득될 수 있다.
[수학식 3]
Figure pat00005
(여기서, Wi는 제1 임베딩 데이터이고, Wf는 제2 임베딩 데이터이고,
Figure pat00006
는 반사 정도를 조정하는 매개변수이다.)
의료 코드 데이터와 의료 텍스트 데이터의 관계는
Figure pat00007
가 0에 가까워질수록 느슨해질 수 있다. 반면, 의료 코드 데이터와 의료 텍스트 데이터의 관계는
Figure pat00008
가 1에 가까워질수록 강해질 수 있다.
따라서, 어플리케이션에 따라
Figure pat00009
값을 조절하게 되면 임베딩 결과가 보다 효과적으로 표현될 수 있다.
도 11에 도시된 바와 같이, ICD-10 코드의 유사 쌍 데이터를 가지고 코드 간의 유사도를 코사인 유사도로 수치화하여 비교하였다. 도 11에서 알 수 있듯이, 실시예는
Figure pat00010
가 0.9에서 성능이 가장 좋은 것을 확인할 수 있다.
본 문서의 다양한 실시예들은 기기(machine)(예: 컴퓨터)로 읽을 수 있는 저장 매체(machine-readable storage media)(예: 메모리(내장 메모리 또는 외장 메모리))에 저장된 명령어를 포함하는 소프트웨어(예: 프로그램)로 구현될 수 있다. 기기는, 저장 매체로부터 저장된 명령어를 호출하고, 호출된 명령어에 따라 동작이 가능한 장치로서, 개시된 실시예들에 따른 전자 장치를 포함할 수 있다. 상기 명령이 제어부에 의해 실행될 경우, 제어부가 직접, 또는 상기 제어부의 제어하에 다른 구성요소들을 이용하여 상기 명령에 해당하는 기능을 수행할 수 있다. 명령은 컴파일러 또는 인터프리터에 의해 생성 또는 실행되는 코드를 포함할 수 있다. 기기로 읽을 수 있는 저장매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, 비일시적은 저장매체가 신호(signal)를 포함하지 않으며 실재(tangible)한다는 것을 의미할 뿐 데이터가 저장매체에 반영구적 또는 임시적으로 저장됨을 구분하지 않는다.
일 실시예에 따르면, 본 문서에 개시된 다양한 실시예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다.
일 실시예에 따르면, 컴퓨터 프로그램을 저장하고 있는 컴퓨터 판독 가능 기록매체로서, 의료 텍스트 데이터를 word2vec 기법으로 임베딩 공간에 텍스트 임베딩을 수행하는 단계와, EMR 내의 의료 코드 데이터를 그래프로 변환시키는 단계와, 상기 텍스트 임베딩을 이용하여 상기 그래프의 노드를 초기화하는 단계와, 상기 노드들이 초기화된 그래프의 노드와 상기 노드들이 초기화된 그래프에서 상세 진단 노드를 제외한 서브 그래프의 노드를 각각 샘플링하는 단계와, Node2vec 기법에 의해 샘플링된 노드들을 상기 임베딩 공간에 임베딩하는 단계와, 상기 임베딩 공간에 임베딩된 상기 의료 코드 데이터와 상기 의료 텍스트 데이터의 관계 학습을 수행하는 단계와, 상기 텍스트 임베딩과 그래프의 상기 그래프 노드들이 초기화된 형태를 포함하는 임베딩 데이터와, 상기 관계 학습을 수행하여 획득된 임베딩 데이터를 이용하여 최종 임베딩 데이터를 획득하는 단계를 수행하기 위한 동작을 포함하는 방법을 프로세서가 수행하도록 하기 위한 명령어를 포함할 수 있다.
일 실시예에 따르면, 컴퓨터 판독 가능한 기록매체에 저장되어 있는 컴퓨터 프로그램으로서, 의료 텍스트 데이터를 word2vec 기법으로 임베딩 공간에 텍스트 임베딩을 수행하는 단계와, EMR 내의 의료 코드 데이터를 그래프로 변환시키는 단계와, 상기 텍스트 임베딩을 이용하여 상기 그래프의 노드를 초기화하는 단계와, 상기 노드들이 초기화된 그래프의 노드와 상기 노드들이 초기화된 그래프에서 상세 진단 노드를 제외한 서브 그래프의 노드를 각각 샘플링하는 단계와, Node2vec 기법에 의해 샘플링된 노드들을 상기 임베딩 공간에 임베딩하는 단계와, 상기 임베딩 공간에 임베딩된 상기 의료 코드 데이터와 상기 의료 텍스트 데이터의 관계 학습을 수행하는 단계와, 상기 텍스트 임베딩과 그래프의 상기 그래프 노드들이 초기화된 형태를 포함하는 임베딩 데이터와, 상기 관계 학습을 수행하여 획득된 임베딩 데이터를 이용하여 최종 임베딩 데이터를 획득하는 단계를 수행하기 위한 동작을 포함하는 방법을 프로세서가 수행하도록 하기 위한 명령어를 포함할 수 있다.
상기에서는 도면 및 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허청구범위에 기재된 실시예의 기술적 사상으로부터 벗어나지 않는 범위 내에서 실시예는 다양하게 수정 및 변경시킬 수 있음은 이해할 수 있을 것이다.
100: 서버
200: 의료 데이터 임베딩 장치
210: 메모리
250: 프로세서

Claims (14)

  1. 의료 텍스트 데이터를 임베딩 공간에 텍스트 임베딩을 수행하는 단계;
    EMR 내의 의료 코드 데이터를 그래프로 변환시키는 단계;
    상기 텍스트 임베딩을 이용하여 상기 그래프의 노드를 초기화하는 단계;
    상기 노드들이 초기화된 그래프의 노드와 상기 노드들이 초기화된 그래프에서 상세 진단 노드를 제외한 서브 그래프의 노드를 각각 샘플링하는 단계;
    샘플링된 노드들을 상기 임베딩 공간에 임베딩하는 단계;
    상기 임베딩 공간에 임베딩된 상기 의료 코드 데이터와 상기 의료 텍스트 데이터의 관계 학습을 수행하는 단계; 및
    상기 텍스트 임베딩과 그래프의 상기 그래프 노드들이 초기화된 형태를 포함하는 임베딩 데이터와, 상기 관계 학습을 수행하여 획득된 임베딩 데이터를 이용하여 최종 임베딩 데이터를 획득하는 단계;
    를 포함하는 의료 데이터 임베딩 방법.
  2. 제1항에 있어서,
    상기 그래프는 큰 등급 노드, 중간 등급 노드, 진단 노드 및 상세 진단 노드를 포함하고, 상기 서브 그래프는 큰 등급 노드, 중간 등급 노드 및 진단 노드를 포함하는 의료 데이터 임베딩 방법.
  3. 제1항에 있어서,
    상기 그래프의 노드를 초기화하는 단계는,
    상기 노드를 구성하고 있는 텍스트들의 벡터 평균값으로 초기화하는 의료 데이터 임베딩 방법.
  4. 제1항에 있어서,
    상기 샘플링하는 단계는,
    node2vec 기법에서 사용되는 리턴 매개변수와 인-아웃 매개변수를 이용하여 상기 그래프의 노드와 상기 서브 그래프의 노드를 샘플링하고,
    상기 그래프의 노드는 상기 리턴 매개변수를 상기 인-아웃 매개변수 보다 크게 설정하여 샘플링하고,
    상기 서브 그래프의 노드는 상기 리턴 매개변수를 상기 인-아웃 매개변수 보다 작게 설정하여 샘플링하는 의료 데이터 임베딩 방법.
  5. 제1항에 있어서,
    상기 샘플링된 노드들을 상기 임베딩 공간에 임베딩하는 단계는,
    상기 인코딩 함수, 디코딩 함수 및 유사성 함수를 이용하여 샘플링된 노드들을 상기 임베딩 공간에 임베딩하는 의료 데이터 임베딩 방법.
  6. 제1항에 있어서,
    상기 최종 임베딩 데이터를 획득하는 단계는
    수학식 1에 의해 결정되는 의료 데이터 임베딩 방법.
    [수학식 1]
    Figure pat00011

    (여기서, Wi는 텍스트 임베딩과 그래프의 노드들이 초기화된 형태를 포함하는 임베딩 데이터이고, Wf는 관계 학습을 수행하여 획득된 임베딩 데이터이고,
    Figure pat00012
    는 반사 정도를 조정하는 매개변수이다.)
  7. 의료 데이터를 임베딩하는 제어 프로그램이 저장된 메모리; 및
    상기 제어 프로그램을 실행하는 프로세서를 포함하고,
    상기 프로세서는,
    의료 텍스트 데이터를 임베딩 공간에 텍스트 임베딩을 수행하고, EMR 내의 의료 코드 데이터를 그래프로 변환시키고, 상기 텍스트 임베딩을 이용하여 상기 그래프의 노드를 초기화하고, 상기 노드들이 초기화된 그래프의 노드와 상기 노드들이 초기화된 그래프에서 상세 진단 노드를 제외한 서브 그래프의 노드를 각각 샘플링하고, 샘플링된 노드들을 상기 임베딩 공간에 임베딩하고, 상기 임베딩 공간에 임베딩된 상기 의료 코드 데이터와 상기 의료 텍스트 데이터의 관계 학습을 수행하고, 상기 텍스트 임베딩과 그래프의 상기 그래프 노드들이 초기화된 형태를 포함하는 임베딩 데이터와, 상기 관계 학습을 수행하여 획득된 임베딩 데이터를 이용하여 최종 임베딩 데이터를 획득하는 의료 데이터 임베딩 장치.
  8. 제7항에 있어서,
    상기 그래프는 큰 등급 노드, 중간 등급 노드, 진단 노드 및 상세 진단 노드를 포함하고, 상기 서브 그래프는 큰 등급 노드, 중간 등급 노드 및 진단 노드를 포함하는 의료 데이터 임베딩 장치.
  9. 제7항에 있어서,
    상기 프로세서는,
    상기 노드를 구성하고 있는 텍스트들의 벡터 평균값으로 상기 그래프의 노드를 초기화시키는 의료 데이터 임베딩 장치.
  10. 제7항에 있어서,
    상기 프로세서는,
    node2vec 기법에서 사용되는 리턴 매개변수와 인-아웃 매개변수를 이용하여 상기 그래프의 노드와 상기 서브 그래프의 노드를 샘플링하고,
    상기 그래프의 노드는 상기 리턴 매개변수를 상기 인-아웃 매개변수 보다 크게 설정하여 샘플링하고,
    상기 서브 그래프의 노드는 상기 리턴 매개변수를 상기 인-아웃 매개변수 보다 작게 설정하여 샘플링하는 의료 데이터 임베딩 장치.
  11. 제7항에 있어서,
    상기 프로세서는,
    상기 인코딩 함수, 디코딩 함수 및 유사성 함수를 이용하여 샘플링된 노드들을 상기 임베딩 공간에 임베딩하는 의료 데이터 임베딩 장치.
  12. 제7항에 있어서,
    상기 최종 임베딩 데이터는 수학식 1에 의해 결정되는 의료 데이터 임베딩 장치.
    [수학식 1]
    Figure pat00013

    (여기서, Wi는 텍스트 임베딩과 그래프의 노드들이 초기화된 형태를 포함하는 임베딩 데이터이고, Wf는 관계 학습을 수행하여 획득된 임베딩 데이터이고,
    Figure pat00014
    는 반사 정도를 조정하는 매개변수이다.)
  13. 컴퓨터 프로그램을 저장하고 있는 컴퓨터 판독 가능 기록매체로서,
    상기 컴퓨터 프로그램은, 프로세서에 의해 실행되면,
    의료 텍스트 데이터를 임베딩 공간에 텍스트 임베딩을 수행하는 단계;
    EMR 내의 의료 코드 데이터를 그래프로 변환시키는 단계;
    상기 텍스트 임베딩을 이용하여 상기 그래프의 노드를 초기화하는 단계;
    상기 노드들이 초기화된 그래프의 노드와 상기 노드들이 초기화된 그래프에서 상세 진단 노드를 제외한 서브 그래프의 노드를 각각 샘플링하는 단계;
    샘플링된 노드들을 상기 임베딩 공간에 임베딩하는 단계;
    상기 임베딩 공간에 임베딩된 상기 의료 코드 데이터와 상기 의료 텍스트 데이터의 관계 학습을 수행하는 단계; 및
    상기 텍스트 임베딩과 그래프의 상기 그래프 노드들이 초기화된 형태를 포함하는 임베딩 데이터와, 상기 관계 학습을 수행하여 획득된 임베딩 데이터를 이용하여 최종 임베딩 데이터를 획득하는 단계;
    를 포함하는 동작을 상기 프로세서가 수행하도록 하기 위한 명령어를 포함하는 컴퓨터 판독 가능한 기록매체.
  14. 컴퓨터 판독 가능한 기록매체에 저장되어 있는 컴퓨터 프로그램으로서,
    상기 컴퓨터 프로그램은, 프로세서에 의해 실행되면,
    의료 텍스트 데이터를 임베딩 공간에 텍스트 임베딩을 수행하는 단계;
    EMR 내의 의료 코드 데이터를 그래프로 변환시키는 단계;
    상기 텍스트 임베딩을 이용하여 상기 그래프의 노드를 초기화하는 단계;
    상기 노드들이 초기화된 그래프의 노드와 상기 노드들이 초기화된 그래프에서 상세 진단 노드를 제외한 서브 그래프의 노드를 각각 샘플링하는 단계;
    샘플링된 노드들을 상기 임베딩 공간에 임베딩하는 단계;
    상기 임베딩 공간에 임베딩된 상기 의료 코드 데이터와 상기 의료 텍스트 데이터의 관계 학습을 수행하는 단계; 및
    상기 텍스트 임베딩과 그래프의 상기 그래프 노드들이 초기화된 형태를 포함하는 임베딩 데이터와, 상기 관계 학습을 수행하여 획득된 임베딩 데이터를 이용하여 최종 임베딩 데이터를 획득하는 단계;
    를 포함하는 동작을 상기 프로세서가 수행하도록 하기 위한 명령어를 포함하는 컴퓨터 프로그램.
KR1020210163161A 2021-11-24 2021-11-24 의료 데이터 임베딩 방법 및 장치, 컴퓨터 판독 가능한 기록 매체 및 컴퓨터 프로그램 KR102588270B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020210163161A KR102588270B1 (ko) 2021-11-24 2021-11-24 의료 데이터 임베딩 방법 및 장치, 컴퓨터 판독 가능한 기록 매체 및 컴퓨터 프로그램
PCT/KR2022/018768 WO2023096386A1 (ko) 2021-11-24 2022-11-24 의료 데이터 임베딩 방법, 장치, 및 컴퓨터 판독 가능한 기록 매체

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210163161A KR102588270B1 (ko) 2021-11-24 2021-11-24 의료 데이터 임베딩 방법 및 장치, 컴퓨터 판독 가능한 기록 매체 및 컴퓨터 프로그램

Publications (2)

Publication Number Publication Date
KR20230076335A true KR20230076335A (ko) 2023-05-31
KR102588270B1 KR102588270B1 (ko) 2023-10-12

Family

ID=86540142

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210163161A KR102588270B1 (ko) 2021-11-24 2021-11-24 의료 데이터 임베딩 방법 및 장치, 컴퓨터 판독 가능한 기록 매체 및 컴퓨터 프로그램

Country Status (2)

Country Link
KR (1) KR102588270B1 (ko)
WO (1) WO2023096386A1 (ko)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190139722A (ko) * 2018-06-08 2019-12-18 연세대학교 산학협력단 진단명 레이블링을 위한 딥러닝을 이용한 판독기록문으로부터 최종 진단명 추출 방법 및 장치
US20200293712A1 (en) * 2019-03-11 2020-09-17 Christopher Potts Methods, apparatus and systems for annotation of text documents
WO2021046536A1 (en) * 2019-09-06 2021-03-11 F. Hoffmann-La Roche Ag Automated information extraction and enrichment in pathology report using natural language processing
KR102329920B1 (ko) * 2021-06-04 2021-11-23 가천대학교 산학협력단 기계학습된 모델을 이용한 의료원문데이터를 증강하는 방법 및 시스템

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102225894B1 (ko) * 2018-04-24 2021-03-11 네이버 주식회사 딥 어텐션 네트워크를 이용하여 환자 의료 기록으로부터 질병 예후를 예측하는 방법 및 시스템
CN111382272B (zh) * 2020-03-09 2022-11-01 西南交通大学 一种基于知识图谱的电子病历icd自动编码方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190139722A (ko) * 2018-06-08 2019-12-18 연세대학교 산학협력단 진단명 레이블링을 위한 딥러닝을 이용한 판독기록문으로부터 최종 진단명 추출 방법 및 장치
US20200293712A1 (en) * 2019-03-11 2020-09-17 Christopher Potts Methods, apparatus and systems for annotation of text documents
WO2021046536A1 (en) * 2019-09-06 2021-03-11 F. Hoffmann-La Roche Ag Automated information extraction and enrichment in pathology report using natural language processing
KR102329920B1 (ko) * 2021-06-04 2021-11-23 가천대학교 산학협력단 기계학습된 모델을 이용한 의료원문데이터를 증강하는 방법 및 시스템

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
김한상, 정여진, 보건의료 빅데이터에서의 자연어처리기법 적응방안 연구: 단어임베딩 방법을 중심으로, 보건행정학회지 제30권제1호, 15-25페이지, 2020. *

Also Published As

Publication number Publication date
KR102588270B1 (ko) 2023-10-12
WO2023096386A1 (ko) 2023-06-01

Similar Documents

Publication Publication Date Title
US20230100376A1 (en) Text sentence processing method and apparatus, computer device, and storage medium
US11468262B2 (en) Deep network embedding with adversarial regularization
US20230237706A1 (en) Encoding and decoding a stylized custom graphic
CN107168952B (zh) 基于人工智能的信息生成方法和装置
TWI729472B (zh) 特徵詞的確定方法、裝置和伺服器
US10755048B2 (en) Artificial intelligence based method and apparatus for segmenting sentence
RU2635902C1 (ru) Способ и система отбора обучающих признаков для алгоритма машинного обучения
WO2019216938A1 (en) Application development platform and software development kits that provide comprehensive machine learning services
JP2019008778A (ja) 画像の領域のキャプション付加
US20240004703A1 (en) Method, apparatus, and system for multi-modal multi-task processing
JP2021125217A (ja) マルチホップ機械読み取りのための潜在質問再定式化および情報蓄積
CN109147868B (zh) 蛋白质功能预测方法、装置、设备及存储介质
KR20210043894A (ko) 전자 장치 및 이의 문장 제공 방법
CN116776872A (zh) 医疗数据结构化归档系统
CN117616431A (zh) 针对大规模数据的可解释的机器学习
CN113688955B (zh) 文本识别方法、装置、设备及介质
US20220399017A1 (en) Performing global image editing using editing operations determined from natural language requests
CN114613450A (zh) 药物分子的性质预测方法、装置、存储介质及计算机设备
KR20210098820A (ko) 전자 장치, 전자 장치의 제어 방법 및 판독 가능한 기록 매체
KR20230076335A (ko) 의료 데이터 임베딩 방법 및 장치, 컴퓨터 판독 가능한 기록 매체 및 컴퓨터 프로그램
WO2023229483A1 (ru) Способ и система классификации текста
US11436529B1 (en) Method, apparatus, and computer program product for natural language processing
KR102539680B1 (ko) 인공지능 모델을 이용하여 이미지로부터 객체를 인식하는 방법
RU2818693C2 (ru) Способ и система классификации текста
CN115859984B (zh) 医疗命名实体识别模型训练方法、装置、设备及介质

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right