KR20230076335A

KR20230076335A - 의료 데이터 임베딩 방법 및 장치, 컴퓨터 판독 가능한 기록 매체 및 컴퓨터 프로그램

Info

Publication number: KR20230076335A
Application number: KR1020210163161A
Authority: KR
Inventors: 김대영; 송지은; 김영학; 전태준
Original assignee: 한국과학기술원; 재단법인 아산사회복지재단; 울산대학교 산학협력단
Priority date: 2021-11-24
Filing date: 2021-11-24
Publication date: 2023-05-31
Also published as: KR102588270B1; WO2023096386A1

Abstract

실시예의 의료 데이터 임베딩 방법은 의료 텍스트 데이터를 임베딩 공간에 텍스트 임베딩을 수행하는 단계와, EMR 내의 의료 코드 데이터를 그래프로 변환시키는 단계와, 상기 텍스트 임베딩을 이용하여 상기 그래프의 노드를 초기화하는 단계와, 상기 노드들이 초기화된 그래프의 노드와 상기 노드들이 초기화된 그래프에서 상세 진단 노드를 제외한 서브 그래프의 노드를 각각 샘플링하는 단계와, 샘플링된 노드들을 상기 임베딩 공간에 임베딩하는 단계와, 상기 임베딩 공간에 임베딩된 상기 의료 코드 데이터와 상기 의료 텍스트 데이터의 관계 학습을 수행하는 단계와, 상기 텍스트 임베딩과 그래프의 상기 그래프 노드들이 초기화된 형태를 포함하는 임베딩 데이터와, 상기 관계 학습을 수행하여 획득된 임베딩 데이터를 이용하여 최종 임베딩 데이터를 획득하는 단계를 포함할 수 있다.

Description

의료 데이터 임베딩 방법 및 장치, 컴퓨터 판독 가능한 기록 매체 및 컴퓨터 프로그램{METHOD AND APPARATUS FOR EMBEDDING OF MEDICAL DATA, COMPUTER-READABLE STORAGE MEDIUM AND COMPUTER PROGRAM}

실시예는 의료 데이터를 임베딩하는 의료 데이터 임베딩 방법 및 장치에 관한 것이다.

일반적으로, EMR(Electronic Medical Record)은 환자의 건강 정보를 전자적으로 기록한 것으로, 최근 의료 정보학 분야에서 EMR 분석의 중요성이 높아지고 있다.

EMR은 의료 텍스트와 ICD-10 code와 같은 의료 코드(concept)를 포함하는 멀티 모델 데이터이다. 최근에는 EMR을 부분적으로 분석하기 위해 의학 텍스트 또는 의학 코드의 임베딩을 시도하고 있다. 여기서, 임베딩은 텍스트의 각 단어나 코드를 전산화시키기 위해 각각의 개념을 벡터화시키는 것이다.

하지만, 종래에는 의료 텍스트 또는 의료 코드를 각각 임베딩하는 기술만 존재하기 때문에 의료 텍스트와 의료 코드 사이의 관계성이 없어 전체 EMR을 분석하기에는 어려움이 있다.

상술한 문제점을 해결하기 위해, 실시예는 서로 관계성을 가지는 의료 텍스트 데이터와 의료 코드 데이터를 하나의 임베딩 공간에 임베딩하기 위한 의료 데이터 임베딩 방법 및 장치를 제공하는 것을 그 목적으로 한다.

상기 그래프는 큰 등급 노드, 중간 등급 노드, 진단 노드 및 상세 진단 노드를 포함하고, 상기 서브 그래프는 큰 등급 노드, 중간 등급 노드 및 진단 노드를 포함할 수 있다.

상기 그래프의 노드를 초기화하는 단계는, 상기 노드를 구성하고 있는 텍스트들의 벡터 평균값으로 초기화할 수 있다.

상기 샘플링하는 단계는, node2vec 기법에서 사용되는 리턴 매개변수와 인-아웃 매개변수를 이용하여 상기 그래프의 노드와 상기 서브 그래프의 노드를 샘플링하고, 상기 그래프의 노드는 상기 리턴 매개변수를 상기 인-아웃 매개변수 보다 크게 설정하여 샘플링하고, 상기 서브 그래프의 노드는 상기 리턴 매개변수를 상기 인-아웃 매개변수 보다 작게 설정하여 샘플링할 수 있다.

상기 샘플링된 노드들을 상기 임베딩 공간에 임베딩하는 단계는, 상기 인코딩 함수, 디코딩 함수 및 유사성 함수를 이용하여 샘플링된 노드들을 상기 임베딩 공간에 임베딩할 수 있다.

상기 최종 임베딩 데이터를 획득하는 단계는 수학식 1에 의해 결정될 수 있다.

[수학식 1]

또한, 실시예의 의료 데이터 임베딩 장치는 의료 데이터를 임베딩하는 제어 프로그램이 저장된 메모리와, 상기 제어 프로그램을 실행하는 프로세서를 포함하고, 상기 프로세서는, 의료 텍스트 데이터를 word2vec 기법으로 임베딩 공간에 텍스트 임베딩을 수행하고, EMR 내의 의료 코드 데이터를 그래프로 변환시키고, 상기 텍스트 임베딩을 이용하여 상기 그래프의 노드를 초기화하고, 상기 노드들이 초기화된 그래프의 노드와 상기 노드들이 초기화된 그래프에서 상세 진단 노드를 제외한 서브 그래프의 노드를 각각 샘플링하고, Node2vec 기법에 의해 샘플링된 노드들을 상기 임베딩 공간에 임베딩하고, 상기 임베딩 공간에 임베딩된 상기 의료 코드 데이터와 상기 의료 텍스트 데이터의 관계 학습을 수행하고, 상기 텍스트 임베딩과 그래프의 상기 그래프 노드들이 초기화된 형태를 포함하는 임베딩 데이터와, 상기 관계 학습을 수행하여 획득된 임베딩 데이터를 이용하여 최종 임베딩 데이터를 획득할 수 있다.

상기 프로세서는, 상기 노드를 구성하고 있는 텍스트들의 벡터 평균값으로 상기 그래프의 노드를 초기화시킬 수 있다.

상기 프로세서는, 리턴 매개변수와 인-아웃 매개변수를 이용하여 상기 그래프의 노드와 상기 서브 그래프의 노드를 샘플링하고, 상기 그래프의 노드는 상기 리턴 매개변수를 상기 인-아웃 매개변수 보다 크게 설정하여 샘플링하고, 상기 서브 그래프의 노드는 상기 리턴 매개변수를 상기 인-아웃 매개변수 보다 작게 설정하여 샘플링할 수 있다.

상기 프로세서는, 상기 인코딩 함수, 디코딩 함수 및 유사성 함수를 이용하여 샘플링된 노드들을 상기 임베딩 공간에 임베딩할 수 있다.

상기 최종 임베딩 데이터는 수학식 1에 의해 결정될 수 있다.

또한, 실시예는 컴퓨터 프로그램을 저장하고 있는 컴퓨터 판독 가능 기록매체로서, 상기 컴퓨터 프로그램은, 프로세서에 의해 실행되면, 의료 텍스트 데이터를 word2vec 기법으로 임베딩 공간에 텍스트 임베딩을 수행하는 단계와, EMR 내의 의료 코드 데이터를 그래프로 변환시키는 단계와, 상기 텍스트 임베딩을 이용하여 상기 그래프의 노드를 초기화하는 단계와, 상기 노드들이 초기화된 그래프의 노드와 상기 노드들이 초기화된 그래프에서 상세 진단 노드를 제외한 서브 그래프의 노드를 각각 샘플링하는 단계와, Node2vec 기법에 의해 샘플링된 노드들을 상기 임베딩 공간에 임베딩하는 단계와, 상기 임베딩 공간에 임베딩된 상기 의료 코드 데이터와 상기 의료 텍스트 데이터의 관계 학습을 수행하는 단계와, 상기 텍스트 임베딩과 그래프의 상기 그래프 노드들이 초기화된 형태를 포함하는 임베딩 데이터와, 상기 관계 학습을 수행하여 획득된 임베딩 데이터를 이용하여 최종 임베딩 데이터를 획득하는 단계를 포함하는 동작을 상기 프로세서가 수행하도록 하기 위한 명령어를 포함할 수 있다.

또한, 실시예는 컴퓨터 판독 가능한 기록매체에 저장되어 있는 컴퓨터 프로그램으로서, 상기 컴퓨터 프로그램은, 프로세서에 의해 실행되면, 의료 텍스트 데이터를 word2vec 기법으로 임베딩 공간에 텍스트 임베딩을 수행하는 단계와, EMR 내의 의료 코드 데이터를 그래프로 변환시키는 단계와, 상기 텍스트 임베딩을 이용하여 상기 그래프의 노드를 초기화하는 단계와, 상기 노드들이 초기화된 그래프의 노드와 상기 노드들이 초기화된 그래프에서 상세 진단 노드를 제외한 서브 그래프의 노드를 각각 샘플링하는 단계와, Node2vec 기법에 의해 샘플링된 노드들을 상기 임베딩 공간에 임베딩하는 단계와, 상기 임베딩 공간에 임베딩된 상기 의료 코드 데이터와 상기 의료 텍스트 데이터의 관계 학습을 수행하는 단계와, 상기 텍스트 임베딩과 그래프의 상기 그래프 노드들이 초기화된 형태를 포함하는 임베딩 데이터와, 상기 관계 학습을 수행하여 획득된 임베딩 데이터를 이용하여 최종 임베딩 데이터를 획득하는 단계를 포함하는 동작을 상기 프로세서가 수행하도록 하기 위한 명령어를 포함할 수 있다.

실시예는 의료 텍스트 데이터와 의료 코드 데이터를 하나의 임베딩 공간에 임베딩할 수 있는 효과가 있다.

또한, 실시예는 의료 텍스트 데이터와 의료 코드 데이터의 관계성을 가지도록 임베딩을 수행함으로써, EMR을 효과적으로 분석할 수 있다.

또한, 실시예는 파라미터를 조절함으로써, 어플리케이션 사용시 보다 임베딩 효과가 좋은 데이터를 얻을 수 있다.

도 1은 실시예에 따른 의료 데이터 임베딩 시스템을 나타낸 도면이다.
도 2는 실시예에 따른 의료 데이터 임베딩 장치를 나타낸 도면이다.
도 3은 실시예에 따른 의료 데이터 임베딩 장치에서 수행되는 의료 데이터 임베딩 방법을 나타낸 순서도이다.
도 4 내지 도 11은 실시예에 따른 의료 데이터 임베딩 방법의 세부 동작을 설명하기 위한 도면이다.

이하, 도면을 참조하여 실시예를 상세히 설명하기로 한다.

도 1은 실시예에 따른 의료 데이터 임베딩 시스템을 나타낸 도면이고, 도 2는 실시예에 따른 의료 데이터 임베딩 장치를 나타낸 도면이다.

도 1을 참조하면, 실시예에 따른 의료 데이터 임베딩 시스템은 서버(100)와, 의료 데이터 임베딩 장치(200)를 포함할 수 있다.

서버(100)는 의료 데이터, 예컨대 EMR 데이터가 저장되는 공간일 수 있다. 서버(100)는 의료 기관에 구비된 서버 또는 의료 기간으로부터 EMR을 전달받아 EMR을 저장하는 저장 공간일 수 있다.

의료 데이터 임베딩 장치(200)는 서버로부터 EMR을 수신하여, 의료 텍스트 데이터와 의료 코드 데이터의 관계성을 기초로 의료 텍스트 데이터와 의료 코드 데이터를 하나의 임베딩 공간에 임베딩을 수행할 수 있다.

도 2에 도시된 바와 같이, 의료 데이터 임베딩 장치(200)는 메모리(210)와, 통신부(230)와, 프로세서(250)를 포함할 수 있다.

메모리(210)는 프로세서(250)의 처리 또는 의료 데이터 임베딩을 위한 제어 프로그램 등 의료 데이터 임베딩 장치(200) 전반의 동작을 위한 다양한 데이터를 저장할 수 있다. 구체적으로, 메모리(210)에는 의료 데이터 임베딩 장치(200)에서 구동되는 다수의 응용 프로그램, 의료 데이터 임베딩 장치(200)에서 구동되는 다수의 응용 프로그램, 의료 데이터 임베딩 장치(200)의 동작을 위한 데이터 및 명령어들을 저장할 수 있다.

메모리(210)에는 서버(100)로부터 수신된 EMR 정보 등이 저장될 수 있으나, 이에 한정되지 않는다. 메모리(210)는 자기 저장 매체(magnetic storage media) 또는 플래시 저장 매체(flash storage media)를 포함할 수 있으나, 이에 한정되는 것은 아니다.

통신부(230)는 서버(100)와 연결되며, 복수의 통신 방법을 이용하여 서버(100)와 통신을 수행할 수 있는 통신 인터페이스를 제공할 수 있다. 통신부(230)는 다른 네트워크 장치와 유무선 연결을 통해 제어 신호 또는 데이터 신호와 같은 신호를 송수신하기 위해 필요한 하드웨어 및 소프트웨어를 포함하는 장치일 수 있다. 통신부(230)를 통해 EMR 데이터가 메모리(210)에 저장될 수 있다.

통신부(230)는 3G, LTE 및 5G 뿐만 아니라, NB-IoT, LoRa, SigFox, LTE-CAT1 과 같은 LPWN(Low Power Wireless Network) 및 LPWAN(Low Power Wide Area Network)을 이용하여 통신을 수행할 수 있다.

통신부(230)는 유선 LAN(Local Area Network) 뿐만 아니라 WiFi 80211a/b/g/n 와 같은 무선 LAN을 이용한 통신 방법을 이용하여 통신을 수행할 수 있다. 이 외에도 통신부(230)는 NFC, Bluetooth와 같은 통신 방법을 이용하여 서버(100)와 통신을 수행할 수도 있다.

여기서, 통신부(230)는 의료 데이터 임베딩 장치(200)의 구성 요소로 생략될 수도 있다.

프로세서(250)는 일종의 중앙처리장치로서 의료 데이터 임베딩 장치(200)를 제어할 수 있다.

프로세서(250)는 데이터를 처리할 수 있는 모든 종류의 장치를 포함할 수 있다. 여기서, '프로세서(processor)'는, 예를 들어 프로그램 내에 포함된 코드 또는 명령으로 표현된 기능을 수행하기 위해 물리적으로 구조화된 회로를 갖는, 하드웨어에 내장된 데이터 처리 장치를 의미할 수 있다. 이와 같이 하드웨어에 내장된 데이터 처리 장치의 일 예로써, 마이크로프로세서(microprocessor), 중앙처리장치(central processing unit: CPU), 프로세서 코어(processor core), 멀티프로세서(multiprocessor), ASIC(application-specific integrated circuit), FPGA(field programmable gate array) 등의 처리 장치를 망라할 수 있으나, 이에 한정되는 것은 아니다.

이하에서는 의료 데이터 임베딩 장치(200)의 프로세서(250)에 의해 수행되는 의료 데이터 임베딩 방법에 대해 살펴보기로 한다.

도 3은 실시예에 따른 의료 데이터 임베딩 장치에서 수행되는 의료 데이터 임베딩 방법을 나타낸 순서도이고, 도 4 내지 도 11은 실시예에 따른 의료 데이터 임베딩 방법의 세부 동작을 설명하기 위한 도면이다.

도 3에 도시된 바와 같이, 의료 데이터 임베딩 장치(200)는 텍스트 임베딩을 수행할 수 있다(S100). 의료 데이터 임베딩 장치(200)는 Wikipedia와 같은 큰 규모의 의료 말뭉치인 Pubmed abstract와 상대적으로 소규모인 EMR 진단 노드(예를 들어, MIMIC-3 discharge note)를 이용하여 Word2Vec 방식으로 의료 텍스트 데이터를 임베딩할 수 있다.

의료 데이터 임베딩 장치(200)는 EMR 내의 의료 코드 데이터를 그래프로 변환시킬 수 있다(S200). 의료 코드 데이터는 ICD-10 데이터일 수 있으나, 이에 한정되지 않는다. ICD-10 코드는 U 클래스와 V 클래스를 제외하고 4 글자(letters)까지 사용할 수 있다.

도 4에 도시된 바와 같이, 그래프(G)는 루트에서 아래로 큰 등급 노드(N1, 예: A00-B99), 중간 등급 노드(N2, 예: A00-A09), 진단 노드(N3, 예: A00, A02) 및 상세 진단 노드(N4, leaf node)로 구분될 수 있다.

진단 노드(N3)와 상세 진단 노드(N4)를 제외한 모든 노드는 분류자이며, 이들 노드는 진단 노드(N3)와 상세 진단 노드(N4)가 속하는 범주를 의미할 수 있다. 진단 노드(N3)와 상세 진단 노드(N4)는 모두 의료 상황에서 주로 사용될 수 있다.

각 노드의 리터럴 이름을 나타내는 'name' 속성을 가진 네트워크 패키지[Hagberg et al., 2008]를 이용하여 ICD-10 그래프를 구성할 수 있다. 예를 들어, 노드 C01에는 "이름 = 혀 기저부의 악성 신생물" 속성이 있다. 마지막으로 생성된 ICD-10 그래프에는 10604개의 노드가 존재할 수 있으나, 이에 한정되지 않는다.

의료 데이터 임베딩 장치(200)는 그래프의 노드를 초기화시킬 수 있다(S300). 초기화는 이전 단계에서 수행된 텍스트 임베딩(예: Pubmed+EMR text embedding)을 사용하여 속성 이름의 각 단어의 평균 벡터로 초기화될 수 있다. 초기 값은 코드가 온톨로지 방식 기반으로만 임베딩 되는 것을 방지하기 위해 사전 훈련된 임베딩 값을 기반으로 할 수 있다.

도 5에 도시된 바와 같이, B27 노드의 경우, 감염 벡터(infectious vector) 값이 (0.0102, 0.5734 0.2122, ... , 0.2124)이고, 단핵구증 벡터(mononucleosis vector) 값이 (-0.3435, 0.6423, ... ,0.1242)인 경우, B27 노드를 구성하고 있는 텍스트들의 벡터값들의 평균값으로 초기화시킬 수 있다. 즉, B27 노드에 대해 (-0.1666, 0.6078, ... , 0.1683)의 값으로 초기화될 수 있다.

의료 데이터 임베딩 장치(200)는 그래프 노드들을 샘플링할 수 있다(S400). 의료 데이터 임베딩 장치(200)는 node2vec 임베딩 방법의 샘플링 기법을 사용할 수 있다.

도 6에 도시된 바와 같이, node2vec 임베딩 방법은 리턴 매개변수 p와 인-아웃 매개변수 q를 사용할 수 있다. 리턴 매개변수 p는 초기 노드로 복귀하는 정도로 정의되고, 인-아웃 매개변수 q는 초기 노드에서 다른 노드로 이동하는 정도로 정의될 수 있다. 매개변수 p와 q는 그래프의 크기, 그래프의 특성에 따라 다르며, 최적의 매개변수 p와 q는 p, q의 일부 집합에 대한 그리드 검색으로 획득할 수 있다.

의료 데이터 임베딩 장치(200)는 그래프 노드를 두 단계로 샘플링할 수 있다. ICD-10 그래프 형태의 가장 큰 특징 중 하나는 노드의 약 80%가 상세 진단 노드에 위치한다는 점이다. 이 경우, 위상 분할 없이 한 쌍의 매개변수 p와 q로 전체 그래프를 샘플링하면 상세 진단 노드에 대한 온톨로지 학습이 거의 수행되지 않게 된다.

따라서, 의료 데이터 임베딩 장치(200)는 진단 노드와 상세 진단 노드 계층 간의 그래프를 나누어 2단계로 샘플링을 수행할 수 있다.

의료 데이터 임베딩 장치(200)는 도 7a에 도시된 바와 같이, 큰 등급 노드, 중간 등급 노드, 진단 노드 및 상세 진단 노드를 포함하는 메인 그래프(MG)와 도 7b에 도시된 바와 같이, 상세 진단 노드를 제외한 서브 그래프(SG)를 이용하여 노드들을 샘플링할 수 있다.

의료 데이터 임베딩 장치(200)는 그래프 깊이 우선 탐색을 유도하여 메인 그래프(MG)의 온톨로지 정보를 학습하기 위해 p를 q 보다 크게 설정할 수 있다. 예컨대, p를 10⁵로 설정하고, q를 10^-5로 설정할 수 있다.

또한, 의료 데이터 임베딩 장치(200)는 너비 우선 탐색과 같은 광범위한 탐색을 위해 서브 그래프(SG)에 대해 q를 p보다 크게 설정할 수 있다. 예컨대, p는 0.5로 설정하고, q는 2.0으로 설정할 수 있다.

의료 데이터 임베딩 장치(200)는 메인 그래프(MG) 노드들의 샘플을 학습한 다음 서브 그래프(SG)의 노드들의 샘플을 학습할 수 있으나, 그 순서는 한정되지 않는다.

의료 데이터 임베딩 장치(200)는 학습이 완료되어 샘플링된 그래프의 노드를 임베딩 공간에 임베딩할 수 있다(S500).

의료 데이터 임베딩 장치(200)는 먼저, 그래프의 노드를 임베딩하기 위해 인코딩 함수, 디코딩 함수 및 유사성 함수를 정의할 수 있다. 임베딩 행렬의 룩업(lookup)이 인코딩 함수로 사용될 수 있다.

의료 데이터 임베딩 장치(200)는 node2vec 임베딩 방법에서 디코딩 및 유사성 기능을 채택하여 샘플링된 노드의 임베딩 및 웰 트레이닝에 구조적 정보를 반영할 수 있다.

node2vec 메트릭의 주요 개념은 길이 w의 랜덤 워크에서 시작 노드 v에서 대상 노드 u가 나타날 확률일 수 있다. 이 방법에 대한 디코딩 함수는 수학식 1로 나타낼 수 있으며, 유사성 함수는 수학식 2로 나타낼 수 있다.

[수학식 1]

[수학식 2]

위 수학식 1에서, DEC는 디코딩 함수를 의미하고, Zu 및 Zv는 각각 인코딩 된 node u 및 node v를 의미하며, e는 자연 상수를 나타내고, T는 행렬 전치를 의미한다. 또한, 위 수학식 2에서, Similarity는 유사성 함수를 의미하며, Pw(u|v)는 시작 노드 v에서 대상 노드 u가 나타날 확률을 의미한다.

도 8에 도시된 바와 같이, 가중치를 초기화한 후의 그래프 임베딩을 훈련하기 전과 그래프 임베딩을 훈련한 후에 대한 ICD-10 노드의 시각화를 보여준다.

대상 노드는 C22노드이고 나머지 노드는 대상 노드 C22의 가장 유사한 20개의 ICD-10 노드를 나타낸다.

도 8a에는 C22와 관련 없는 코드 예컨대, D135, D376, K824, Q44가 존재하며, 도 8b에는 C23, C261, C19, C154와 같은 C22와 연관된 노드가 존재함을 알 수 있다.

의료 데이터 임베딩 장치(200)는 의료 텍스트 데이터와 의료 코드 데이터의 관계 학습을 수행할 수 있다(S600).

도 9에 도시된 바와 같이, 의료 데이터 임베딩 장치(200)는 의료 코드 데이터와 의료 텍스트 데이터의 리터럴 이름을 연결하여 문장을 생성할 수 있다. 의료 데이터 임베딩 장치(200)는 창 크기가 문자의 최대 길이로 설정된 양수 샘플만 추출할 수 있다.

도 10에 도시된 바와 같이, Adam 방식의 옵티마이저(인공 신경망)를 사용하여 샘플을 훈련시킬 수 있다. 이 단계에서는 의료 코드 데이터와 의료 텍스트 데이터의 특정 벡터가 동시에 업데이트될 수 있다.

이러한 훈련 과정을 통해 의료 코드 데이터와 의료 텍스트 데이터의 관계를 강화할 수 있다.

의료 데이터 임베딩 장치(200)는 텍스트 임베딩과 그래프의 그래프 노드들이 초기화된 형태를 포함하는 제1 임베딩 데이터와, 관계 학습을 수행하여 획득된 제2 임베딩 데이터를 이용하여 최종 임베딩 데이터를 획득할 수 있다(S700).

최종 임베딩 데이터는 수학식 3에 의해 획득될 수 있다.

[수학식 3]

(여기서, W_i는 제1 임베딩 데이터이고, W_f는 제2 임베딩 데이터이고,

는 반사 정도를 조정하는 매개변수이다.)

의료 코드 데이터와 의료 텍스트 데이터의 관계는

가 0에 가까워질수록 느슨해질 수 있다. 반면, 의료 코드 데이터와 의료 텍스트 데이터의 관계는

가 1에 가까워질수록 강해질 수 있다.

따라서, 어플리케이션에 따라

값을 조절하게 되면 임베딩 결과가 보다 효과적으로 표현될 수 있다.

도 11에 도시된 바와 같이, ICD-10 코드의 유사 쌍 데이터를 가지고 코드 간의 유사도를 코사인 유사도로 수치화하여 비교하였다. 도 11에서 알 수 있듯이, 실시예는

가 0.9에서 성능이 가장 좋은 것을 확인할 수 있다.

본 문서의 다양한 실시예들은 기기(machine)(예: 컴퓨터)로 읽을 수 있는 저장 매체(machine-readable storage media)(예: 메모리(내장 메모리 또는 외장 메모리))에 저장된 명령어를 포함하는 소프트웨어(예: 프로그램)로 구현될 수 있다. 기기는, 저장 매체로부터 저장된 명령어를 호출하고, 호출된 명령어에 따라 동작이 가능한 장치로서, 개시된 실시예들에 따른 전자 장치를 포함할 수 있다. 상기 명령이 제어부에 의해 실행될 경우, 제어부가 직접, 또는 상기 제어부의 제어하에 다른 구성요소들을 이용하여 상기 명령에 해당하는 기능을 수행할 수 있다. 명령은 컴파일러 또는 인터프리터에 의해 생성 또는 실행되는 코드를 포함할 수 있다. 기기로 읽을 수 있는 저장매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, 비일시적은 저장매체가 신호(signal)를 포함하지 않으며 실재(tangible)한다는 것을 의미할 뿐 데이터가 저장매체에 반영구적 또는 임시적으로 저장됨을 구분하지 않는다.

일 실시예에 따르면, 본 문서에 개시된 다양한 실시예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다.

일 실시예에 따르면, 컴퓨터 프로그램을 저장하고 있는 컴퓨터 판독 가능 기록매체로서, 의료 텍스트 데이터를 word2vec 기법으로 임베딩 공간에 텍스트 임베딩을 수행하는 단계와, EMR 내의 의료 코드 데이터를 그래프로 변환시키는 단계와, 상기 텍스트 임베딩을 이용하여 상기 그래프의 노드를 초기화하는 단계와, 상기 노드들이 초기화된 그래프의 노드와 상기 노드들이 초기화된 그래프에서 상세 진단 노드를 제외한 서브 그래프의 노드를 각각 샘플링하는 단계와, Node2vec 기법에 의해 샘플링된 노드들을 상기 임베딩 공간에 임베딩하는 단계와, 상기 임베딩 공간에 임베딩된 상기 의료 코드 데이터와 상기 의료 텍스트 데이터의 관계 학습을 수행하는 단계와, 상기 텍스트 임베딩과 그래프의 상기 그래프 노드들이 초기화된 형태를 포함하는 임베딩 데이터와, 상기 관계 학습을 수행하여 획득된 임베딩 데이터를 이용하여 최종 임베딩 데이터를 획득하는 단계를 수행하기 위한 동작을 포함하는 방법을 프로세서가 수행하도록 하기 위한 명령어를 포함할 수 있다.

일 실시예에 따르면, 컴퓨터 판독 가능한 기록매체에 저장되어 있는 컴퓨터 프로그램으로서, 의료 텍스트 데이터를 word2vec 기법으로 임베딩 공간에 텍스트 임베딩을 수행하는 단계와, EMR 내의 의료 코드 데이터를 그래프로 변환시키는 단계와, 상기 텍스트 임베딩을 이용하여 상기 그래프의 노드를 초기화하는 단계와, 상기 노드들이 초기화된 그래프의 노드와 상기 노드들이 초기화된 그래프에서 상세 진단 노드를 제외한 서브 그래프의 노드를 각각 샘플링하는 단계와, Node2vec 기법에 의해 샘플링된 노드들을 상기 임베딩 공간에 임베딩하는 단계와, 상기 임베딩 공간에 임베딩된 상기 의료 코드 데이터와 상기 의료 텍스트 데이터의 관계 학습을 수행하는 단계와, 상기 텍스트 임베딩과 그래프의 상기 그래프 노드들이 초기화된 형태를 포함하는 임베딩 데이터와, 상기 관계 학습을 수행하여 획득된 임베딩 데이터를 이용하여 최종 임베딩 데이터를 획득하는 단계를 수행하기 위한 동작을 포함하는 방법을 프로세서가 수행하도록 하기 위한 명령어를 포함할 수 있다.

상기에서는 도면 및 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허청구범위에 기재된 실시예의 기술적 사상으로부터 벗어나지 않는 범위 내에서 실시예는 다양하게 수정 및 변경시킬 수 있음은 이해할 수 있을 것이다.

100: 서버
200: 의료 데이터 임베딩 장치
210: 메모리
250: 프로세서

Claims

의료 텍스트 데이터를 임베딩 공간에 텍스트 임베딩을 수행하는 단계;
EMR 내의 의료 코드 데이터를 그래프로 변환시키는 단계;
상기 텍스트 임베딩을 이용하여 상기 그래프의 노드를 초기화하는 단계;
상기 노드들이 초기화된 그래프의 노드와 상기 노드들이 초기화된 그래프에서 상세 진단 노드를 제외한 서브 그래프의 노드를 각각 샘플링하는 단계;
샘플링된 노드들을 상기 임베딩 공간에 임베딩하는 단계;
상기 임베딩 공간에 임베딩된 상기 의료 코드 데이터와 상기 의료 텍스트 데이터의 관계 학습을 수행하는 단계; 및
상기 텍스트 임베딩과 그래프의 상기 그래프 노드들이 초기화된 형태를 포함하는 임베딩 데이터와, 상기 관계 학습을 수행하여 획득된 임베딩 데이터를 이용하여 최종 임베딩 데이터를 획득하는 단계;
를 포함하는 의료 데이터 임베딩 방법.
제1항에 있어서,
상기 그래프는 큰 등급 노드, 중간 등급 노드, 진단 노드 및 상세 진단 노드를 포함하고, 상기 서브 그래프는 큰 등급 노드, 중간 등급 노드 및 진단 노드를 포함하는 의료 데이터 임베딩 방법.
제1항에 있어서,
상기 그래프의 노드를 초기화하는 단계는,
상기 노드를 구성하고 있는 텍스트들의 벡터 평균값으로 초기화하는 의료 데이터 임베딩 방법.
제1항에 있어서,
상기 샘플링하는 단계는,
node2vec 기법에서 사용되는 리턴 매개변수와 인-아웃 매개변수를 이용하여 상기 그래프의 노드와 상기 서브 그래프의 노드를 샘플링하고,
상기 그래프의 노드는 상기 리턴 매개변수를 상기 인-아웃 매개변수 보다 크게 설정하여 샘플링하고,
상기 서브 그래프의 노드는 상기 리턴 매개변수를 상기 인-아웃 매개변수 보다 작게 설정하여 샘플링하는 의료 데이터 임베딩 방법.
제1항에 있어서,
상기 샘플링된 노드들을 상기 임베딩 공간에 임베딩하는 단계는,
상기 인코딩 함수, 디코딩 함수 및 유사성 함수를 이용하여 샘플링된 노드들을 상기 임베딩 공간에 임베딩하는 의료 데이터 임베딩 방법.
제1항에 있어서,
상기 최종 임베딩 데이터를 획득하는 단계는
수학식 1에 의해 결정되는 의료 데이터 임베딩 방법.
[수학식 1]

(여기서, W_i는 텍스트 임베딩과 그래프의 노드들이 초기화된 형태를 포함하는 임베딩 데이터이고, W_f는 관계 학습을 수행하여 획득된 임베딩 데이터이고,
는 반사 정도를 조정하는 매개변수이다.)
의료 데이터를 임베딩하는 제어 프로그램이 저장된 메모리; 및
상기 제어 프로그램을 실행하는 프로세서를 포함하고,
상기 프로세서는,
의료 텍스트 데이터를 임베딩 공간에 텍스트 임베딩을 수행하고, EMR 내의 의료 코드 데이터를 그래프로 변환시키고, 상기 텍스트 임베딩을 이용하여 상기 그래프의 노드를 초기화하고, 상기 노드들이 초기화된 그래프의 노드와 상기 노드들이 초기화된 그래프에서 상세 진단 노드를 제외한 서브 그래프의 노드를 각각 샘플링하고, 샘플링된 노드들을 상기 임베딩 공간에 임베딩하고, 상기 임베딩 공간에 임베딩된 상기 의료 코드 데이터와 상기 의료 텍스트 데이터의 관계 학습을 수행하고, 상기 텍스트 임베딩과 그래프의 상기 그래프 노드들이 초기화된 형태를 포함하는 임베딩 데이터와, 상기 관계 학습을 수행하여 획득된 임베딩 데이터를 이용하여 최종 임베딩 데이터를 획득하는 의료 데이터 임베딩 장치.
제7항에 있어서,
상기 그래프는 큰 등급 노드, 중간 등급 노드, 진단 노드 및 상세 진단 노드를 포함하고, 상기 서브 그래프는 큰 등급 노드, 중간 등급 노드 및 진단 노드를 포함하는 의료 데이터 임베딩 장치.
제7항에 있어서,
상기 프로세서는,
상기 노드를 구성하고 있는 텍스트들의 벡터 평균값으로 상기 그래프의 노드를 초기화시키는 의료 데이터 임베딩 장치.
제7항에 있어서,
상기 프로세서는,
node2vec 기법에서 사용되는 리턴 매개변수와 인-아웃 매개변수를 이용하여 상기 그래프의 노드와 상기 서브 그래프의 노드를 샘플링하고,
상기 그래프의 노드는 상기 리턴 매개변수를 상기 인-아웃 매개변수 보다 크게 설정하여 샘플링하고,
상기 서브 그래프의 노드는 상기 리턴 매개변수를 상기 인-아웃 매개변수 보다 작게 설정하여 샘플링하는 의료 데이터 임베딩 장치.
제7항에 있어서,
상기 프로세서는,
상기 인코딩 함수, 디코딩 함수 및 유사성 함수를 이용하여 샘플링된 노드들을 상기 임베딩 공간에 임베딩하는 의료 데이터 임베딩 장치.
제7항에 있어서,
상기 최종 임베딩 데이터는 수학식 1에 의해 결정되는 의료 데이터 임베딩 장치.
[수학식 1]

(여기서, W_i는 텍스트 임베딩과 그래프의 노드들이 초기화된 형태를 포함하는 임베딩 데이터이고, W_f는 관계 학습을 수행하여 획득된 임베딩 데이터이고,
는 반사 정도를 조정하는 매개변수이다.)
컴퓨터 프로그램을 저장하고 있는 컴퓨터 판독 가능 기록매체로서,
상기 컴퓨터 프로그램은, 프로세서에 의해 실행되면,
의료 텍스트 데이터를 임베딩 공간에 텍스트 임베딩을 수행하는 단계;
EMR 내의 의료 코드 데이터를 그래프로 변환시키는 단계;
상기 텍스트 임베딩을 이용하여 상기 그래프의 노드를 초기화하는 단계;
상기 노드들이 초기화된 그래프의 노드와 상기 노드들이 초기화된 그래프에서 상세 진단 노드를 제외한 서브 그래프의 노드를 각각 샘플링하는 단계;
샘플링된 노드들을 상기 임베딩 공간에 임베딩하는 단계;
상기 임베딩 공간에 임베딩된 상기 의료 코드 데이터와 상기 의료 텍스트 데이터의 관계 학습을 수행하는 단계; 및
상기 텍스트 임베딩과 그래프의 상기 그래프 노드들이 초기화된 형태를 포함하는 임베딩 데이터와, 상기 관계 학습을 수행하여 획득된 임베딩 데이터를 이용하여 최종 임베딩 데이터를 획득하는 단계;
를 포함하는 동작을 상기 프로세서가 수행하도록 하기 위한 명령어를 포함하는 컴퓨터 판독 가능한 기록매체.
컴퓨터 판독 가능한 기록매체에 저장되어 있는 컴퓨터 프로그램으로서,
상기 컴퓨터 프로그램은, 프로세서에 의해 실행되면,
의료 텍스트 데이터를 임베딩 공간에 텍스트 임베딩을 수행하는 단계;
EMR 내의 의료 코드 데이터를 그래프로 변환시키는 단계;
상기 텍스트 임베딩을 이용하여 상기 그래프의 노드를 초기화하는 단계;
상기 노드들이 초기화된 그래프의 노드와 상기 노드들이 초기화된 그래프에서 상세 진단 노드를 제외한 서브 그래프의 노드를 각각 샘플링하는 단계;
샘플링된 노드들을 상기 임베딩 공간에 임베딩하는 단계;
상기 임베딩 공간에 임베딩된 상기 의료 코드 데이터와 상기 의료 텍스트 데이터의 관계 학습을 수행하는 단계; 및
상기 텍스트 임베딩과 그래프의 상기 그래프 노드들이 초기화된 형태를 포함하는 임베딩 데이터와, 상기 관계 학습을 수행하여 획득된 임베딩 데이터를 이용하여 최종 임베딩 데이터를 획득하는 단계;
를 포함하는 동작을 상기 프로세서가 수행하도록 하기 위한 명령어를 포함하는 컴퓨터 프로그램.