KR20240067148A - 의료 인공지능 모델 동작 방법 및 이를 수행하는 전자 장치 - Google Patents

의료 인공지능 모델 동작 방법 및 이를 수행하는 전자 장치 Download PDF

Info

Publication number
KR20240067148A
KR20240067148A KR1020220143646A KR20220143646A KR20240067148A KR 20240067148 A KR20240067148 A KR 20240067148A KR 1020220143646 A KR1020220143646 A KR 1020220143646A KR 20220143646 A KR20220143646 A KR 20220143646A KR 20240067148 A KR20240067148 A KR 20240067148A
Authority
KR
South Korea
Prior art keywords
medical
sequence
diagnosis
data
diagnostic
Prior art date
Application number
KR1020220143646A
Other languages
English (en)
Inventor
김영학
전태준
김민경
강희준
안임진
권한슬
김윤하
서혜람
조하나
최희정
한지예
기가은
박서현
Original Assignee
재단법인 아산사회복지재단
울산대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 재단법인 아산사회복지재단, 울산대학교 산학협력단 filed Critical 재단법인 아산사회복지재단
Priority to KR1020220143646A priority Critical patent/KR20240067148A/ko
Priority to PCT/KR2023/013928 priority patent/WO2024096307A1/ko
Publication of KR20240067148A publication Critical patent/KR20240067148A/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Pathology (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

일 실시예에 따른 의료 인공지능 모델의 동작 전자 장치는, 컴퓨터로 실행 가능한 명령어들(computer-executable instructions)이 저장된 메모리; 및 상기 메모리에 액세스(access)하여 상기 명령어들을 실행하는 프로세서를 포함하고, 상기 명령어들은, 환자의 전자의무기록(EMR, electronic medical record)에 포함된 복수의 진단 코드들로부터 정렬(sorting) 기준에 기초하여 진단 코드 시퀀스(diagnosis code sequence)를 생성하고, 상기 생성된 진단 코드 시퀀스를 의료 데이터 전처리 모델에 적용하여, 상기 진단 코드 시퀀스의 차원(dimension)보다 감소된 차원을 가지는 변환된 시퀀스 데이터를 획득하고, 상기 의료 인공지능 모델에 대한 상기 변환된 시퀀스 데이터의 입력에 기초하여 상기 의료 인공지능 모델을 동작시킴으로써, 상기 환자에 대해 예측된 진단 데이터를 생성할 수 있다.

Description

의료 인공지능 모델 동작 방법 및 이를 수행하는 전자 장치{METHOD FOR OPERATING MEDICAL ARTIFICIAL INTELLIGENCE MODEL AND ELECTRONIC DEVICE PERFORMING THE SAME}
이하, 의료 인공지능 모델 동작 방법 및 이를 수행하는 전자 장치에 관한 기술이 제공된다.
전자의무기록(EMR, electronic medical record) 내 환자 정보는 대부분 비정형 데이터로 기록되어 있으며 질병, 약물, 및 처치 등 다양한 코드들이 포함되어 있다. 특히, 진단 코드와 같은 데이터에는 환자의 상태 및 기타 특성을 설명하는 데 중요하지만 분석을 위한 가장 쉽고 간단한 형식이 아닌 경우가 많다. 이로 인해, 인공지능(AI, artificial intelligence) 기반 예측 연구에서 코드 형태의 의료 정보를 효율적으로 활용하기 위한 효과적인 표현(representation) 방식 적용에 대한 관심이 증가하고 있다. 그러나 현재 보편적으로 사용되는 One-hot Encoding(OHE) 방식은 코드의 카디널리티(cardinality)가 크면 활용이 어렵고 코드의 유사도를 계산하는 것 또한 불가능하다는 단점이 있다. 이를 보완하기 위해 전자의무기록에 NLP(Natural Language Processing) 모델을 직접 적용하는 경우 또한 증가하고 있지만 W2V(skip-gram)과 같은 모델은 데이터의 문맥을 반영하지 못한다는 한계가 있다. 따라서 PLM(Pre-trained language model)을 사용하여 전처리한 방식이 기존의 OHE 방식에 비해 모델 성능에 긍정적인 영향을 미치는지 확인해 볼 필요성이 있다.
위에서 설명한 배경기술은 발명자가 본원의 개시 내용을 도출하는 과정에서 보유하거나 습득한 것으로서, 반드시 본 출원 전에 일반 공중에 공개된 공지기술이라고 할 수는 없다.
일 실시예에 따른 의료 인공지능 모델의 동작 전자 장치는, 컴퓨터로 실행 가능한 명령어들(computer-executable instructions)이 저장된 메모리; 및 상기 메모리에 액세스(access)하여 상기 명령어들을 실행하는 프로세서를 포함하고, 상기 명령어들은, 환자의 전자의무기록(EMR, electronic medical record)에 포함된 복수의 진단 코드들로부터 정렬(sorting) 기준에 기초하여 진단 코드 시퀀스(diagnosis code sequence)를 생성하고, 상기 생성된 진단 코드 시퀀스를 의료 데이터 전처리 모델에 적용하여, 상기 진단 코드 시퀀스의 차원(dimension)보다 감소된 차원을 가지는 변환된 시퀀스 데이터를 획득하고, 상기 의료 인공지능 모델에 대한 상기 변환된 시퀀스 데이터의 입력에 기초하여 상기 의료 인공지능 모델을 동작시킴으로써, 상기 환자에 대해 예측된 진단 데이터를 생성할 수 있다.
상기 프로세서는, 상기 전자의무기록을 미리 결정된(predetermined) 길이를 가지는 기간(time period)으로 구분함으로써 복수의 부분 시퀀스들을 획득하고, 상기 복수의 부분 시퀀스들 각각에 대하여, 각 부분 시퀀스에 포함된 하나 이상의 진단 코드들을 정렬할 수 있다.
상기 프로세서는, 상기 부분 시퀀스에 포함된 진단 코드들 중 중복되는 진단 코드들을 상기 부분 시퀀스에서 삭제할 수 있다.
상기 프로세서는, 상기 진단 코드들의 상기 전자의무기록에서 기록된 빈도 (frequency)에 기초하여, 상기 부분 시퀀스에 포함된 하나 이상의 진단 코드들을 정렬할 수 있다.
상기 프로세서는, 상기 의료 데이터 전처리 모델의 트랜스퍼 레이어(transfer layer)에서 상기 변환된 시퀀스 데이터를 획득할 수 있다.
상기 프로세서는, 미리 결정된 기간마다 상기 진단 코드의 빈도(frequency)에 의해 정렬된 진단 코드들에 기초하여, 상기 의료 데이터 전처리 모델을 미세 조정(fine tuning)할 수 있다.
도 1은 일 실시예에 따른 의료 인공지능 모델을 동작시키는 전자 장치를 도시한 도면이다.
도 2는 일 실시예에 따른 의료 인공지능 모델을 동작시키는 방법을 도시한 흐름도이다.
도 3은 일 실시예에 따른 전자의무기록(EMR, electronic medical record)에서 진단 코드를 도시한 도면이다.
도 4는 일 실시예에 따른 진단 코드 시퀀스를 의료 데이터 전처리 모델에 적용하여 변환된 시퀀스 데이터를 획득하는 방법을 도시한 도면이다.
도 5는 일 실시예에 따른 정렬(sorting) 방법에 따라 복수의 진단 코드 시퀀스들을 생성하는 방법을 도시한 도면이다.
도 6은 일 실시예에 따른 BERT 모델을 미세 조정(fine-tuning)하여 의료 데이터 전처리 모델을 생성하는 방법을 도시한 도면이다.
도 7은 일 실시예에 따른 OHE(one-hot encoding)에 의해 생성된 시퀀스 데이터를 의료 인공지능 모델에 적용하는 것을 도시한 도면이다.
도 8은 일 실시예에 따른 의료 데이터 전처리 모델에 의해 변환된 시퀀스 데이터를 의료 인공지능 모델에 적용하는 것을 도시한 도면이다.
도 9는 일 실시예에 따른 진단 코드 시퀀스의 정렬 방법에 따라 의료 데이터 전처리 모델의 성능을 도시한 도면이다.
도 10은 일 실시예에 따른 OHE(one-hot encoding) 및 의료 데이터 전처리 모델의 성능을 도시한 도면이다.
실시예들에 대한 특정한 구조적 또는 기능적 설명들은 단지 예시를 위한 목적으로 개시된 것으로서, 다양한 형태로 변경되어 구현될 수 있다. 따라서, 실제 구현되는 형태는 개시된 특정 실시예로만 한정되는 것이 아니며, 본 명세서의 범위는 실시예들로 설명한 기술적 사상에 포함되는 변경, 균등물, 또는 대체물을 포함한다.
제1 또는 제2 등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이런 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 해석되어야 한다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 설명된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
본 문서에서, "A 또는 B", "A 및 B 중 적어도 하나", "A 또는 B 중 적어도 하나", "A, B 또는 C", "A, B 및 C 중 적어도 하나", 및 "A, B, 또는 C 중 적어도 하나"와 같은 문구들 각각은 그 문구들 중 해당하는 문구에 함께 나열된 항목들 중 어느 하나, 또는 그들의 모든 가능한 조합을 포함할 수 있다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 해당 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 실시예들을 첨부된 도면들을 참조하여 상세하게 설명한다. 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조 부호를 부여하고, 이에 대한 중복되는 설명은 생략하기로 한다.
도 1은 일 실시예에 따른 의료 인공지능 모델을 동작시키는 전자 장치를 도시한 도면이다.
일 실시예에 따른 전자 장치(100)는 프로세서(110) 및 메모리(120)를 포함할 수 있다. 예를 들어, 전자 장치(100)는 환자의 전자의무기록(EMR, electronic medical record)에 대한 예측된 진단 데이터를 생성하는 장치일 수 있다. 구체적으로, 전자 장치(100)는 전자의무기록에 포함된 진단 코드들을 정렬(sorting)하여 진단 코드 시퀀스를 생성할 수 있다. 전자 장치(100)는 진단 코드 시퀀스를 의료 데이터 전처리 모델에 적용하여 변환된 시퀀스 데이터를 획득할 수 있다. 전자 장치(100)는 변환된 시퀀스 데이터를 의료 인공지능 모델에 적용하여 환자의 전자의무기록에 대한 예측된 진단 데이터를 생성할 수 있다.
프로세서(110)는, 예를 들면, 소프트웨어를 실행하여 프로세서(110)에 연결된 전자 장치(100)의 적어도 하나의 다른 구성요소(예: 하드웨어 또는 소프트웨어 구성요소)를 제어할 수 있고, 다양한 데이터 처리 또는 연산을 수행할 수 있다. 일 실시예에 따르면, 의료 인공지능 모델을 동작 시키기 위한 데이터 처리 또는 연산의 적어도 일부로서, 프로세서(110)는 명령 또는 데이터를 메모리(120)에 저장하고, 메모리(120)에 저장된 명령 또는 데이터를 처리하고, 결과 데이터를 메모리(120)에 저장할 수 있다.
메모리(120)는 컴퓨터로 실행 가능한 명령어들을 포함할 수 있다. 메모리(120)는 의료 데이터 전처리 모델 및/또는 의료 인공지능 모델 중 적어도 하나를 동작 시키기 위해 요구되는 다양한 데이터 및/또는 정보를 임시적으로 및/또는 영구적으로 저장할 수 있다. 예를 들어, 메모리(120)는 환자의 전자의무기록, 진단 코드 시퀀스, 변환된 시퀀스 데이터, 또는 진단 데이터 중 적어도 하나 이상을 저장할 수 있다.
도 2는 일 실시예에 따른 의료 인공지능 모델을 동작시키는 방법을 도시한 흐름도이다.
단계(210)에서, 전자 장치(예: 도 1의 전자 장치(100))는 진단 코드 시퀀스를 생성할 수 있다. 진단 코드 시퀀스는 정렬된 진단 코드들의 시퀀스일 수 있다. 진단 코드는, 환자의 전자의무기록에 포함된, 환자의 진단 결과를 지시하는 코드일 수 있다. 예를 들어, 전자 장치는, 전자의무기록에서 진단 코드들을 정렬하여 부분 시퀀스를 생성할 수 있다. 전자 장치는 부분 시퀀스들을 결합하여 진단 코드 시퀀스를 생성할 수 있다.
전자의무기록은 진료기록부 등 의료인이 작성하는 의무기록을 전자서명이 기재된 전자문서로 입력, 관리, 및 저장하는 기록일 수 있다. 진단 코드는 환자의 사망, 질병, 손상, 또는 건강 상태를 포함하는 국제질병분류(ICD, International Statistical Classification of Diseases and Related Health Problems)를 나타낼 수 있다. 진단 코드는 알파벳 및 숫자를 병행하여 기재되는 코드들을 포함할 수 있다. 예를 들어, 진단 코드는 환자의 각 질병을 감염원이나 해부학적 부위 및 기타 요인에 따라 21개 장으로 분류하여 알파벳 및 숫자로 구분되는 코드들을 포함할 수 있다.
부분 시퀀스는 기간 단위로 정렬된 진단 코드들을 포함할 수 있다. 예를 들어, 부분 시퀀스들은 미리 결정된 시간 길이를 가지는 기간(time period) 단위로 구분될 수 있고, 임의의 기간에 대응하는 부분 시퀀스는 해당 기간에 속하는 진단 코드들을 포함할 수 있다. 예를 들어, 전자 장치는 환자의 전자의무기록에서 내원일자(INDT)를 시작으로 퇴원일자(OUDT)까지 해당하는 전체 기간을 1년 단위로 구분하여 부분 시퀀스들을 생성할 수 있다. 전자 장치는 미리 결정된 파라미터(parameter)를 부분 시퀀스들 마다 추가할 수 있다. 전자 장치는 파라미터(예를 들어, 부분 시퀀스를 구분하는 구분자(delimiter))가 추가된 부분 시퀀스들을 결합하여 진단 코드 시퀀스를 생성할 수 있다. 진단 코드 시퀀스를 생성하는 방법은 하기 도 5에서 후술한다.
단계(220)에서, 전자 장치는 진단 코드 시퀀스를 의료 데이터 전처리 모델에 적용하여 변환된 시퀀스 데이터를 획득할 수 있다. 예를 들어, 전자 장치는 의료 데이터 전처리 모델의 트랜스퍼 레이어(transfer layer)에서 변환된 시퀀스 데이터를 획득할 수 있다. 참고로, 트랜스퍼 레이어에 관한 설명은 하기 도 4에서 후술한다.
의료 데이터 전처리 모델은, 트랜스포머(transformer)로부터 양방향 인코더 표현들을 수행하는 사전 학습(pre-training)된 BERT(bidirectional encoder representations from transformer) 언어 표현 모델일 수 있다. 구체적으로, 전자 장치는 사전 학습된 BERT 모델을 미세 조정(fine-tuning)하여 의료 데이터 전처리 모델을 생성할 수 있다. 사전 학습된 BERT 모델은, 자연어(natural language) 처리에 특화된 반면, 진단 코드와 같은 비정형 데이터 처리에 적합하지 않을 수 있다. 그러므로, 전자 장치는 진단 코드 시퀀스를 사전 학습된 BERT 모델에 적용하여 BERT 모델을 미세 조정할 수 있다. 전자 장치는 미세 조정된 BERT 모델을 의료 데이터 전처리 모델로 사용할 수 있다. 참고로, BERT 모델을 미세 조정하여 의료 데이터 전처리 모델을 생성하는 방법은 하기 도 6에서 후술한다.
변환된 시퀀스 데이터는 진단 코드 시퀀스에 존재하는 복수의 진단 코드들의 관계를 추상화한 데이터일 수 있다. 예를 들어 변환된 시퀀스 데이터는, 진단 코드의 특징이 숫자로 표현되는 특징 벡터들을 포함할 수 있다. 변환된 시퀀스 데이터에 관한 설명은 하기 도 8에서 후술한다.
단계(230)에서, 전자 장치는 의료 인공지능 모델에 대한 변환된 시퀀스 데이터의 입력에 기초하여 의료 인공지능 모델을 동작 시킬 수 있다. 예를 들어, 의료 인공지능 모델은 변환된 시퀀스 데이터의 입력에 기초하여, 환자에 대해 예측된 진단 데이터를 생성하는 기계 학습 모델(machine learning model)일 수 있다. 의료 인공지능 모델은 기계 학습을 통해 생성될 수 있다. 학습 알고리즘은, 예를 들어, 지도형 학습(supervised learning), 비지도형 학습(unsupervised learning), 준지도형 학습(semi-supervised learning) 또는 강화 학습(reinforcement learning)을 포함할 수 있으나, 전술한 예에 한정되지 않는다. 의료 인공지능 모델은, 복수의 인공 신경망 레이어들을 포함할 수 있다. 인공 신경망은 심층 신경망(DNN: deep neural network), CNN(convolutional neural network), RNN(recurrent neural network), RBM(restricted boltzmann machine), DBN(deep belief network), BRDNN(bidirectional recurrent deep neural network), 심층 Q-네트워크(deep Q-networks) 또는 상기 중 둘 이상의 조합 중 하나일 수 있으나, 전술한 예에 한정되지 않는다. 본 명세서에서는 설명의 편의를 위해 의료 인공지능 모델이 기계 학습 모델로서 설명하였으나, 이로 한정하는 것은 아니다. 예를 들어, 의료 인공지능 모델은 진단 데이터를 예측하기 위해 결정 트리(decision tree)로 구성되는 분류 모델(classification model)일 수 있다. 구체적으로 의료 인공지능 모델은 XGB(extreme gradient boosting) 모델일 수 있다. 의료 인공지능 모델은 하나 이상의 의사결정 트리(decision tree)들을 포함할 수 있다. 의료 인공지능 모델은 하나 이상의 의사결정 트리의 결과들을 앙상블(ensemble)할 수 있다. 의료 인공 지능 모델은 하나 이상의 의사결정 트리의 결과들을 앙상블하여, 환자에 대해 예측된 진단 데이터를 생성할 수 있다. 진단 데이터는 입원환자(inpatient)의 퇴원 가능성에 관한 진단 데이터, 심부전(heart failure) 환자의 입원 중 사망 가능성에 관한 진단 데이터, 환자의 판독결과지(예: X-ray 판독결과지, CT 판독결과지, MRI 판독결과지, 또는 초음파 판독결과지)에 대한 유사한 판독결과지 검색에 관한 진단 데이터, 또는 패혈증(sepsis) 환자의 치료 가이드에 관한 진단 데이터 중 적어도 하나 이상을 포함할 수 있다.
도 3은 일 실시예에 따른 전자의무기록(EMR, electronic medical record)에서 진단 코드를 도시한 도면이다.
일 실시예에 따른 전자의무기록(300)은 환자의 개인정보, 환자의 병원 방문 종류, 임상 데이터, 또는 진단 코드(310) 중 적어도 하나 이상을 포함할 수 있다. 환자의 개인 정보는 환자의 성별, 환자의 생년월일, 및 병원 방문 ID 등을 포함할 수 있다. 환자의 병원 방문 종류는 외래 진료 및 입원 진료에 따른 방문 종류를 포함할 수 있다.
진단 코드(310)는 복수의 분류를 포함할 수 있다. 예를 들어, H00 내지 H59 진단 코드는 눈 및 눈 부속기의 질환과 관련된 정보를 포함할 수 있다. H25 내지 H28 진단 코드는 수정체의 장애와 관련된 정보를 포함할 수 있다. H25는 노년백내장과 관련된 정보를 포함하며, H25.8은 기타 노년백내장과 관련된 정보를 포함할 수 있다. 예를 들어, 전자의무기록(300)은 'H25' 코드에 대응되는 노년백내장(senile cataract)에 관한 질병 정보를 나타내는 진단 코드(310)를 포함할 수 있다. 본 명세서에서는 설명의 편의를 위해 진단 코드(310)로서 제10차 국제질병분류(ICD-10)를 주로 설명하겠으나, 이로 한정하는 것은 아니고, 진단 코드(310)는 제11차 국제질병분류(ICD-11)를 나타낼 수도 있다. 하기 도 5에서 후술하겠으나, 전자 장치(예: 도 1의 전자 장치(100))는 진단 코드(310)의 소수 점이하의 숫자(예: H25.8의 진단 코드에서 8)를 제외하고 진단 코드 시퀀스를 생성할 수 있다.
도 4는 일 실시예에 따른 진단 코드 시퀀스를 의료 데이터 전처리 모델에 적용하여 변환된 시퀀스 데이터를 획득하는 방법을 도시한 도면이다.
일 실시예에 따른 전자 장치(예: 도 1의 전자 장치(100))는 제1 전처리(435) 및 제2 전처리(455)를 수행할 수 있다. 전자 장치는 제1 전처리(435)를 통해 진단 코드 시퀀스(430)를 획득할 수 있다. 전자 장치는 진단 코드 시퀀스(430)를 의료 데이터 전처리 모델(440)에 적용할 수 있다. 여기서, 의료 데이터 전처리 모델(440)은 미세 조정된 BERT 모델일 수 있다. 전자 장치는 제2 전처리(455)를 통해 변환된 시퀀스 데이터(460)를 획득할 수 있다. 전자 장치는 변환된 시퀀스 데이터(460)를 의료 인공지능 모델(470)에 적용할 수 있다.
제1 전처리(435)는 전자의무기록(400)으로부터 진단 코드 시퀀스(430)를 생성하는 과정을 포함할 수 있다. 예를 들어, 전자 장치는 전자의무기록(400)으로부터 정렬된 진단 코드를 포함하는 진단 코드 시퀀스(430)를 생성하는 제1 전처리(435)를 수행할 수 있다. 진단 코드 시퀀스(430)는 환자(410)에 대한 복수의 진단 코드(420)들을 포함할 수 있다. 진단 코드 시퀀스(430)는 정렬 기준에 기초하여 정렬된 진단 코드들을 포함할 수 있다. 전자 장치는 제1 전처리(435)를 통해 획득된 진단 코드 시퀀스(430)를 의료 데이터 전처리 모델(440)에 적용할 수 있다. 구체적으로, 전자 장치는 진단 코드 시퀀스(430)를 의료 데이터 전처리 모델(440)에 적용하여, 마스크 코드 확률(446) 또는 변환된 시퀀스 데이터(460) 중 적어도 하나를 획득할 수 있다.
전자 장치는 진단 코드 시퀀스(430)를 의료 데이터 전처리 모델(440)에 적용하여 정확도를 측정할 수 있다. 예를 들어, 전자 장치는, 의료 데이터 전처리 모델(440)의 정확도를 측정하기 위해, 마스크 코드 시퀀스(442)를 의료 데이터 전처리 모델(440)에 적용할 수 있다. 마스크 코드 시퀀스(442)는 진단 코드 시퀀스(430)에서 임의의 진단 코드가 마스크 토큰(mask token)에 의해 가려진 시퀀스를 나타낼 수 있다. 전자 장치는 마스크 코드 시퀀스(442)를 의료 데이터 전처리 모델(440)에 적용하여 마스크 코드 확률(446)을 획득할 수 있다. 마스크 코드 확률(446)은 마스크 코드 시퀀스(442)에서 마스크 토큰에 의해 가려진 진단 코드에 대한 예측 결과들을 포함할 수 있다. 전자 장치는 마스크 코드 확률(446)로서 진단 코드 I10의 예측 확률 값, I20의 예측 확률 값, C22의 예측 확률 값, 또는 J45의 예측 확률 값 중 적어도 하나 이상의 예측 확률 값을 획득할 수 있다. 여기서, 전자 장치는 마스크 코드 확률(446)에 기초하여, 의료 데이터 전처리 모델(440)의 정확도를 측정할 수 있다.
제2 전처리(455)는 진단 코드 시퀀스(430)를 의료 데이터 전처리 모델(440)에 적용하여 변환된 시퀀스 데이터(460)를 생성하는 과정을 포함할 수 있다. 예를 들어, 전자 장치는 진단 코드 시퀀스(430)를 의료 데이터 전처리 모델(440)에 적용하여 변환된 시퀀스 데이터(460)를 획득하는 제2 전처리(455)를 수행할 수 있다. 전자 장치는, 의료 데이터 전처리 모델(440)의 트랜스퍼 레이어(transfer layer)(450)에서 변환된 시퀀스 데이터(460)를 획득할 수 있다. 트랜스퍼 레이어(450)는 의료 데이터 전처리 모델(440)에 포함된 하나 이상의 레이어 중 적어도 하나의 레이어일 수 있다. 구체적으로, 의료 데이터 전처리 모델(440)은 트랜스포머 블록(transformer block) 및 분류 블록(classification block)을 포함할 수 있다. 트랜스포머 블록은 의료 데이터 전처리 모델(440)의 입력 데이터(예: 마스크 코드 시퀀스(442))에 대한 중간 출력(예: 변환된 시퀀스 데이터(460))을 출력하는 블록일 수 있다. 분류 블록은 의료 데이터 전처리 모델(440)의 입력 데이터(예: 마스크 코드 시퀀스(442))에 대한 예측 결과(예: 마스크 코드 확률(446))를 출력하는 블록일 수 있다. 전자 장치는 트랜스포머 블록의 트랜스퍼 레이어(450)에서 변환된 시퀀스 데이터(460)를 획득할 수 있다. 변환된 시퀀스 데이터(460)는 진단 코드 시퀀스(430)에 존재하는 복수의 진단 코드(420)들의 임상 정보 및 질병 간의 관계를 추상화한 수치형 벡터로 변환된 데이터들을 포함할 수 있다.
도 5는 일 실시예에 따른 정렬(sorting) 방법에 따라 복수의 진단 코드 시퀀스들을 생성하는 방법을 도시한 도면이다.
일 실시예에 따른 전자 장치(예: 도 1의 전자 장치(100))는 제1 코드 집합(510) 및 제2 코드 집합(520)으로부터 진단 코드 시퀀스(530)를 생성할 수 있다. 예를 들어, 전자 장치는 환자(500)의 제1 코드 집합(510)에서 중복되는 진단 코드들을 제거하여 제2 코드 집합(520)을 생성할 수 있다. 제1 코드 집합(510)은 환자(500)의 내원일자를 기준으로 1년 단위로 구분되는 진단 코드들을 포함할 수 있다. 도 5를 참조하면, 제1 코드 집합(520)은 환자(500)의 내원일자를 기준으로 1년 마다 하나 이상의 진단 코드들을 포함할 수 있다.
제2 코드 집합(520)은 제1 코드 집합(510)에서 1년 단위로 중복되는 진단 코드들이 제거된 진단 코드들을 포함할 수 있다. 또한, 제2 코드 집합(520)은 진단 코드의 소수 점이하의 숫자가 제거된 진단 코드들을 포함할 수 있다. 전자 장치는 제2 코드 집합(520)에서 1년 단위로 복수의 진단 코드들을 포함하는 부분 시퀀스를 생성할 수 있다. 즉, 부분 시퀀스는 환자(500)의 1년동안 진단받은 복수의 진단 코드들을 포함할 수 있다. 예를 들어, 도 5를 참조하면, 제2 코드 집합(520)에서 1년 차에 해당하는 부분 시퀀스는, 진단 코드 'J45'를 포함할 수 있다. 또한, 제2 코드 집합(520)에서 2년 차에 해당하는 부분 시퀀스는, 진단 코드 'J45', 'N40', 및 'I20'을 포함할 수 있다. 그러므로, 전자 장치는 1년 기간의 진단 코드들을 포함하는 부분 시퀀스를 생성할 수 있다. 전자 장치는 상술한 부분 시퀀스들을 결합하여 진단 코드 시퀀스(530)를 생성할 수 있다. 예를 들어, 전자 장치는 제2 코드 집합(520)으로부터 생성된 복수의 부분 시퀀스들을 결합하여 진단 코드 시퀀스(530)를 생성할 수 있다. 구체적으로, 전자 장치는 제2 코드 집합(520)에서 1년 단위로 구분자(예를 들어, 마침표('.'))를 추가하여 부분 시퀀스들이 결합된 진단 코드 시퀀스(530)를 생성할 수 있다. 진단 코드 시퀀스(530)는 환자(500)의 내원일자를 기준으로 1년차에 해당하는 진단 코드(예: 'J45') 내지 4년 차에 해당하는 진단 코드들(예: R60, Z85, J45, I20 등)이 구분자에 의해 결합된 시퀀스를 포함할 수 있다. 다만, 본 명세서에서는 설명의 편의를 위하여 1년 단위를 구분하는 파라미터로서 마침표를 주로 설명하겠으나, 이로 한정하는 것은 아니다.
일 실시예에 따른 전자 장치는 정렬 기준에 따라 진단 코드들이 정렬된 진단 코드 시퀀스를 획득할 수 있다. 예를 들어, 정렬 기준은 무작위(random) 정렬, 알파벳순의 순서(alphabetical order) 정렬, 또는 빈도(frequency) 정렬 중 적어도 하나를 포함할 수 있다.
무작위 정렬은 난수(random number)를 통해 생성된 임의의 확률을 기초로 진단 코드들을 정렬하는 것일 수 있다.
알파벳순의 순서 정렬은 진단 코드가 포함하는 알파벳의 순서에 따라 정렬하는 것일 수 있다.
빈도 정렬은 제2 코드 집합(520)에서 각 진단 코드들 마다 발생된 횟수에 기초하여 정렬하는 것일 수 있다. 예를 들어, 전자 장치는 제2 코드 집합(520)에 존재하는 모든 진단 코드들에 대해 각각 발생된 횟수를 계산할 수 있다. 전자 장치는 각 기간에서 제1 발생 빈도를 가지는 진단 코드에 대해, 제1 발생 빈도보다 큰 제2 발생 빈도를 가지는 진단 코드를 선행하게 배열함으로써, 해당 기간에 대한 부분 시퀀스를 생성할 수 있다. 예를 들어, 전자 장치는 발생된 횟수가 큰 진단 코드가 내림차순으로 정렬되도록 진단 코드를 정렬할 수 있다. 예를 들어, 전자 장치는, 임의의 기간 동안 가장 큰 발생 빈도를 가지는 진단 코드부터 가장 작은 발생 빈도를 가지는 진단 코드까지, 해당 기간에 대해 순차적으로 정렬된 진단 코드들을 포함하는 부분 시퀀스를 생성할 수 있다. 전자 장치는 진단 코드들 중 둘 이상의 진단 코드들이 같은 발생 빈도를 가지는 경우, 해당 진단 코드들을 발생 순서에 기초하여 정렬할 수 있다. 예를 들어, 전자 장치는 같은 발생 빈도를 가지는 진단 코드들 중 먼저 발생한 진단 코드를 선행(precede)하게 배치할 수 있다.
전자 장치는, 복수의 부분 시퀀스들 각각에 대하여, 각 부분 시퀀스에 포함된 하나 이상의 진단 코드들을 정렬할 수 있다.
제1 진단 코드 시퀀스(540)는, 무작위 정렬 기준에 의해 진단 코드들이 정렬된 부분 시퀀스들을 결합하여 생성된 진단 코드 시퀀스를 나타낼 수 있다. 제2 진단 코드 시퀀스(550)는, 알파벳의 순서 정렬 기준에 의해 진단 코드들이 정렬된 부분 시퀀스들을 결합하여 생성된 진단 코드 시퀀스를 나타낼 수 있다. 제3 진단 코드 시퀀스(560)는, 빈도 정렬 기준에 의해 진단 코드들이 정렬된 부분 시퀀스들을 결합하여 생성된 진단 코드 시퀀스를 나타낼 수 있다.
전자 장치는 제1 진단 코드 시퀀스(540)를 제1 의료 데이터 전처리 모델(542)에 적용할 수 있다. 전자 장치는 제2 진단 코드 시퀀스(550)를 제2 의료 데이터 전처리 모델(552)에 적용할 수 있다. 전자 장치는 제3 진단 코드 시퀀스(560)를 제3 의료 데이터 전처리 모델(562)에 적용할 수 있다. 여기서, 제1 의료 데이터 전처리 모델(542) 내지 제3 의료 데이터 전처리 모델(562)은 미세 조정된 BERT 모델일 수 있다. 참고로, 도 5에서는 의료 데이터 전처리 모델들(예: 제1 의료 데이터 전처리 모델(542), 제2 의료 데이터 전처리 모델(552), 및 제3 의료 데이터 전처리 모델(562))이 별개 모델인 것처럼 도시하였으나, 이로 한정하는 것은 아니다. 하나의 의료 데이터 전처리 모델이 여러 진단 코드 시퀀스를 적용하는 연산들에서 반복적으로 사용될 수도 있다.
도 6은 일 실시예에 따른 BERT 모델을 미세 조정(fine-tuning)하여 의료 데이터 전처리 모델을 생성하는 방법을 도시한 도면이다.
일 실시예에 따른 전자 장치(예: 도 1의 전자 장치(100))는, 사전 학습된 BERT 모델(620)을 미세 조정(630)하여, 의료 데이터 전처리 모델을 생성할 수 있다. 예를 들어, 전자 장치는 진단 코드 시퀀스(600)로부터 마스킹 입력(610)을 생성할 수 있다. 여기서, 진단 코드 시퀀스(600)는 빈도에 기초하여 정렬된 진단 코드들을 포함하는 시퀀스 일 수 있다. 마스킹 입력(610)은 진단 코드 시퀀스(600)에서 임의의 진단 코드(예를 들어, 도 6에서는 I40)가 마스크 토큰(mask token)에 의해 가려진 형태의 진단 코드들을 포함할 수 있다. 전자 장치는 마스킹 입력(610)을 사전 학습된 BERT 모델(620)에 적용하여 미세 조정(630)을 수행할 수 있다. 사전 학습된 BERT 모델(620)은 진단 코드들에 대해 예측 성능이 우수하지 않은 모델일 수 있다. 그러므로, 전자 장치는 마스킹 입력(610) 생성하여 사전 학습된 BERT 모델(620)의 미세 조정(630)을 수행함으로써, 의료 데이터에 관해 예측 성능이, 미세 조정(630) 수행 전 모델 대비 개선된 의료 데이터 전처리 모델을 획득할 수 있다.
참고로 BERT 모델(620)을 미세 조정하는 방법의 경우, 상술한 BERT 모델(620)은 마스킹 입력(610) 및 해당 마스킹 입력(610)에 매핑된 예측 출력(예를 들어, 마스킹 입력(610)에서 마스크 토큰(mask token)에 의해 가려진 형태의 진단 코드 예측 확률)의 쌍을 포함하는 데이터에 기초하여 미세 조정될 수 있다. 예를 들어, BERT 모델(620)은 마스킹 입력(610)으로부터 예측 출력을 출력하도록 미세 조정될 수 있다. 미세 조정 중의 BERT 모델(620)은 마스킹 입력(610)에 응답하여 임시 출력을 생성할 수 있고, 임시 출력 및 미세 조정 타깃 간의 손실이 최소화되도록 미세 조정될 수 있다. 미세 조정 동안 BERT 모델(620)의 파라미터(예를 들어, BERT 모델(620)에서 노드들/레이어들 간의 연결 가중치)가 손실에 따라 업데이트될 수 있다. 이러한 미세 조정은, 예를 들어, BERT 모델(620)이 수행되는 전자 장치 자체에서 수행될 수 있고, 별도의 서버를 통해 수행될 수도 있다. 미세 조정된 BERT 모델(예를 들어, 의료 데이터 전처리 모델)은 메모리에 저장될 수 있다.
도 7은 일 실시예에 따른 OHE(one-hot encoding)에 의해 생성된 시퀀스 데이터를 의료 인공지능 모델에 적용하는 것을 도시한 도면이다.
일 실시예에 따른 전자 장치(예: 도 1의 전자 장치(100))는 진단 코드 시퀀스(700)를 원-핫 인코딩(OHE, one-hot encoding)(710)을 통해 시퀀스 데이터(720)를 생성할 수 있다. 예를 들어, 원-핫 인코딩(710)은 표현하고 싶은 단어(예를 들어, 진단 코드)에 대해 숫자 '1'을 부가하여 벡터를 생성하는 인코딩일 수 있다. 도 7을 참조하면, 시퀀스 데이터(720)는 진단 코드 시퀀스(700)에 포함된 환자의 수에 대응되는 행(row)의 개수와 국제질병분류인 진단 코드의 개수에 대응되는 열(column)의 개수를 포함할 수 있다. 또한, 시퀀스 데이터(720)는 표현하고 싶은 단어 또는 진단 코드 시퀀스(700)에 포함되어 있는 진단 코드의 인덱스에 대해서는 '1'인 원소 값을 포함할 수 있다.
전자 장치는 시퀀스 데이터(720)를 의료 인공지능 모델(730)에 적용할 수 있다. 후술하겠으나, 원-핫 인코딩(710)에 의해 획득된 시퀀스 데이터(720)는 의료 데이터 전처리 모델에 의해 생성된 변환된 시퀀스 데이터(예: 도 4의 변환된 시퀀스 데이터(460)) 대비 진단 코드의 존재 여부에 대해서만 표현된 행렬일 수 있다.
도 8은 일 실시예에 따른 의료 데이터 전처리 모델에 의해 변환된 시퀀스 데이터를 의료 인공지능 모델에 적용하는 것을 도시한 도면이다.
일 실시예에 따른 전자 장치(예: 도 1의 전자 장치(100))는 의료 데이터 전처리 모델(820)의 트랜스퍼 레이어(transfer layer)에서 변환된 시퀀스 데이터(830)를 획득할 수 있다. 예를 들어, 의료 데이터 전처리 모델(820)은 진단 코드의 빈도(810)에 기초하여 정렬된 진단 코드 시퀀스를 통해 미세 조정된 BERT 모델일 수 있다. 도 8을 참조하면, 변환된 시퀀스 데이터(830)는 국제질병분류인 진단 코드의 개수(예를 들어, 도 7의 시퀀스 데이터(720)의 열(row)의 개수)보다 감소된 차원을 포함할 수 있다. 전자 장치는 진단 코드 시퀀스(800)의 특성이 저차원으로 감소된 변환된 시퀀스 데이터(830)를 의료 인공지능 모델(840)에 적용할 수 있다. 변환된 시퀀스 데이터(830)는 시퀀스 데이터(예: 도 7의 시퀀스 데이터(720)) 대비, 진단 코드 시퀀스(800)의 진단 코드들의 임상 정보 및 질병 간의 관계를 추상화한 데이터를 포함할 수 있다. 전자 장치는 상술한 변환된 시퀀스 데이터(830)를 통해 의료 인공지능 모델(840)의 성능 개선에 긍정적인 영향을 제공할 수 있다.
도 9는 일 실시예에 따른 진단 코드 시퀀스의 정렬 방법에 따라 의료 데이터 전처리 모델의 성능을 도시한 도면이다.
일 실시예에 따른 전자 장치(예: 도 1의 전자 장치(100))는 진단 코드 시퀀스를 의료 데이터 전처리 모델에 적용하여 예측 확률 결과를 획득할 수 있다. 예를 들어, 제1 의료 데이터 전처리 모델(900) 내지 제3 의료 데이터 전처리 모델(920)은 미세 조정된 BERT 모델일 수 있다. 제1 의료 데이터 전처리 모델(900)은 무작위(random) 정렬에 의해 정렬된 진단 코드 시퀀스에 기초하여 미세 조정된 모델일 수 있다. 제2 의료 데이터 전처리 모델(910)은 알파벳순의 순서(alphabetical order) 정렬에 의해 정렬된 진단 코드 시퀀스에 기초하여 미세 조정된 모델일 수 있다. 제3 의료 데이터 전처리 모델(920)은 빈도(frequency) 정렬에 의해 정렬된 진단 코드 시퀀스에 기초하여 미세 조정된 모델일 수 있다. 예측 확률 결과는, 의료 데이터 전처리 모델이 진단 코드 시퀀스의 예시에서 마스크 토큰의 정확한 진단 코드를 예측하는 결과를 나타낼 수 있다.
전자 장치는, 도 9에 도시된 진단 코드 시퀀스의 예시에서 임의의 진단 코드를 마스크 토큰으로 교체할 수 있다. 전자 장치는 마스크 토큰이 포함된 진단 코드 시퀀스를 의료 데이터 전처리 모델에 적용하여 예측 확률 결과를 획득할 수 있다. 예를 들어, 전자 장치는 제3 의료 데이터 전처리 모델(920)에서 제1 의료 데이터 전처리 모델(900) 및 제2 데이터 전처리 모델(910) 대비 높은 예측 확률 결과를 획득할 수 있다.
도 10은 일 실시예에 따른 OHE(one-hot encoding) 및 의료 데이터 전처리 모델의 성능을 도시한 도면이다.
일 실시예에 따른 전자 장치(예: 도 1의 전자 장치(100))는 ROC 커브 그래프(1000)를 획득할 수 있다. ROC 커브 그래프(1000)는 ROC 커브를 포함할 수 있다. ROC 커브는 민감도(sensitivity) 및 특이도(specificity)를 기초로 결과를 평가하는 척도일 수 있다.
예를 들어, 그래프(1010)는 의료 데이터 전처리 모델(예: 도 8의 의료 데이터 전처리 모델(820))을 통해 획득된 변환된 시퀀스 데이터(예: 도 8의 변환된 시퀀스 데이터(830))를, 의료 인공지능 모델(예: 도 8의 의료 인공지능 모델(840))에 적용하여 환자에 대해 예측된 진단 데이터의 결과를 나타낼 수 있다. 그래프(1020)는 원-핫 인코딩(예: 도 7의 원-핫 인코딩(710))을 통해 획득된 시퀀스 데이터(예: 도 7의 시퀀스 데이터(720))를, 의료 인공지능 모델(예: 도 7의 의료 인공지능 모델(730))에 적용하여 환자에 대해 예측된 진단 데이터의 결과를 나타낼 수 있다.
도 10을 참조하면, 진단 코드 G20에 대해 의료 데이터 전처리 모델을 사용하여 획득된 결과가 원-핫 인코딩을 사용하여 획득된 결과보다 우수한 성능을 나타내는 것을 확인할 수 있다. 다만, 진단 코드 G20으로 한정하는 것은 아니라, 국제질병분류에 포함된 다수의 진단 코드에서, 의료 데이터 전처리 모델을 사용하여 획득된 결과가 우수한 성능을 나타낼 수 있다.
이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 컨트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있으며 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
위에서 설명한 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 또는 복수의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 이를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (13)

  1. 의료 인공지능 모델의 동작 전자 장치에 있어서,
    컴퓨터로 실행 가능한 명령어들(computer-executable instructions)이 저장된 메모리; 및
    상기 메모리에 액세스(access)하여 상기 명령어들을 실행하는 프로세서
    를 포함하고,
    상기 명령어들은,
    환자의 전자의무기록(EMR, electronic medical record)에 포함된 복수의 진단 코드들로부터 정렬(sorting) 기준에 기초하여 진단 코드 시퀀스(diagnosis code sequence)를 생성하고,
    상기 생성된 진단 코드 시퀀스를 의료 데이터 전처리 모델에 적용하여, 상기 진단 코드 시퀀스의 차원(dimension)보다 감소된 차원을 가지는 변환된 시퀀스 데이터를 획득하고,
    상기 의료 인공지능 모델에 대한 상기 변환된 시퀀스 데이터의 입력에 기초하여 상기 의료 인공지능 모델을 동작시킴으로써, 상기 환자에 대해 예측된 진단 데이터를 생성하는
    전자 장치.
  2. 제1항에 있어서,
    상기 프로세서는,
    상기 전자의무기록을 미리 결정된(predetermined) 길이를 가지는 기간(time period)으로 구분함으로써 복수의 부분 시퀀스들을 획득하고,
    상기 복수의 부분 시퀀스들 각각에 대하여, 각 부분 시퀀스에 포함된 하나 이상의 진단 코드들을 정렬하는
    전자 장치.
  3. 제2항에 있어서,
    상기 프로세서는,
    상기 부분 시퀀스에 포함된 진단 코드들 중 중복되는 진단 코드들을 상기 부분 시퀀스에서 삭제하는
    전자 장치.
  4. 제2항에 있어서,
    상기 프로세서는,
    상기 진단 코드들의 상기 전자의무기록에서 기록된 빈도(frequency)에 기초하여, 상기 부분 시퀀스에 포함된 하나 이상의 진단 코드들을 정렬하는
    전자 장치.
  5. 제1항에 있어서,
    상기 프로세서는,
    상기 의료 데이터 전처리 모델의 트랜스퍼 레이어(transfer layer)에서 상기 변환된 시퀀스 데이터를 획득하는
    전자 장치.
  6. 제1항에 있어서,
    상기 프로세서는,
    미리 결정된 기간마다 상기 진단 코드의 빈도(frequency)에 의해 정렬된 진단 코드들에 기초하여, 상기 의료 데이터 전처리 모델을 미세 조정(fine tuning)하는
    전자 장치.
  7. 프로세서에 의하여 수행되는 의료 인공지능 모델의 동작 방법에 있어서,
    환자의 전자의무기록(EMR, electronic medical record)에 포함된 복수의 진단 코드들로부터 정렬(sorting) 기준에 기초하여 진단 코드 시퀀스(diagnosis code sequence)를 생성하는 단계;
    상기 생성된 진단 코드 시퀀스를 의료 데이터 전처리 모델에 적용하여, 상기 진단 코드 시퀀스의 차원(dimension)보다 감소된 차원을 가지는 변환된 시퀀스 데이터를 획득하는 단계; 및
    상기 의료 인공지능 모델에 대한 상기 변환된 시퀀스 데이터의 입력에 기초하여 상기 의료 인공지능 모델을 동작시킴으로써, 상기 환자에 대해 예측된 진단 데이터를 생성하는 단계
    를 포함하는 방법.
  8. 제7항에 있어서,
    상기 진단 코드 시퀀스를 생성하는 단계는,
    상기 전자의무기록을 미리 결정된(predetermined) 길이를 가지는 기간(time period)으로 구분함으로써 복수의 부분 시퀀스들을 획득하는 단계; 및
    상기 복수의 부분 시퀀스들 각각에 대하여, 각 부분 시퀀스에 포함된 하나 이상의 진단 코드들을 정렬하는 단계
    를 포함하는 방법.
  9. 제8항에 있어서,
    상기 복수의 부분 시퀀스들을 획득하는 단계는,
    상기 복수의 부분 시퀀스들 각각에 대하여, 각 부분 시퀀스에 포함된 진단 코드들 중 중복되는 진단 코드들을 상기 부분 시퀀스에서 삭제하는 단계
    를 포함하는 방법.
  10. 제8항에 있어서,
    상기 진단 코드들을 정렬하는 단계는,
    상기 진단 코드들의 상기 전자의무기록에서 기록된 빈도(frequency)에 기초하여, 상기 부분 시퀀스에 포함된 하나 이상의 진단 코드들을 정렬하는 단계
    를 포함하는 방법.
  11. 제7항에 있어서,
    상기 변환된 시퀀스 데이터를 획득하는 단계는,
    상기 의료 데이터 전처리 모델의 트랜스퍼 레이어(transfer layer)에서 상기 변환된 시퀀스 데이터를 획득하는 단계
    를 포함하는 방법.
  12. 제7항에 있어서,
    상기 변환된 시퀀스 데이터를 획득하는 단계는,
    미리 결정된 기간마다 상기 진단 코드의 빈도(frequency)에 의해 정렬된 진단 코드들에 기초하여, 상기 의료 데이터 전처리 모델을 미세 조정(fine tuning)하는 단계
    를 포함하는 방법.
  13. 하드웨어와 결합되어 제7항 내지 제12항 중 어느 하나의 항의 방법을 실행시키기 위하여 컴퓨터 판독 가능한 기록매체에 저장된 컴퓨터 프로그램.
KR1020220143646A 2022-11-01 2022-11-01 의료 인공지능 모델 동작 방법 및 이를 수행하는 전자 장치 KR20240067148A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020220143646A KR20240067148A (ko) 2022-11-01 2022-11-01 의료 인공지능 모델 동작 방법 및 이를 수행하는 전자 장치
PCT/KR2023/013928 WO2024096307A1 (ko) 2022-11-01 2023-09-15 의료 인공지능 모델 동작 방법 및 이를 수행하는 전자 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220143646A KR20240067148A (ko) 2022-11-01 2022-11-01 의료 인공지능 모델 동작 방법 및 이를 수행하는 전자 장치

Publications (1)

Publication Number Publication Date
KR20240067148A true KR20240067148A (ko) 2024-05-16

Family

ID=90930725

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220143646A KR20240067148A (ko) 2022-11-01 2022-11-01 의료 인공지능 모델 동작 방법 및 이를 수행하는 전자 장치

Country Status (2)

Country Link
KR (1) KR20240067148A (ko)
WO (1) WO2024096307A1 (ko)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10231077B2 (en) * 2007-07-03 2019-03-12 Eingot Llc Records access and management
KR102225894B1 (ko) * 2018-04-24 2021-03-11 네이버 주식회사 딥 어텐션 네트워크를 이용하여 환자 의료 기록으로부터 질병 예후를 예측하는 방법 및 시스템
US20200043579A1 (en) * 2018-08-06 2020-02-06 David McEwing Diagnositic and treatmetnt tool and method for electronic recording and indexing patient encounters for allowing instant search of patient history
KR20210068713A (ko) * 2019-12-02 2021-06-10 주식회사 피디젠 딥러닝 기반 다중의료데이터를 통한 질병의 진행 예측 분석 시스템
KR20220011979A (ko) * 2020-07-22 2022-02-03 삼성전자주식회사 언어 모델 및 이를 포함하는 전자 장치

Also Published As

Publication number Publication date
WO2024096307A1 (ko) 2024-05-10

Similar Documents

Publication Publication Date Title
US11604956B2 (en) Sequence-to-sequence prediction using a neural network model
Che et al. Deep computational phenotyping
US10949456B2 (en) Method and system for mapping text phrases to a taxonomy
Wu et al. Modeling asynchronous event sequences with RNNs
Scheurwegs et al. Selecting relevant features from the electronic health record for clinical code prediction
US11514091B2 (en) Extracting entity relations from semi-structured information
US20230281298A1 (en) Using multimodal model consistency to detect adversarial attacks
Gayathri et al. Automated classification of diabetic retinopathy through reliable feature selection
Kale et al. Causal phenotype discovery via deep networks
Wu et al. Optimizing for interpretability in deep neural networks with tree regularization
Jin et al. Automatic detection of hypoglycemic events from the electronic health record notes of diabetes patients: empirical study
Le et al. Detecting of a patient's condition from clinical narratives using natural language representation
JP7476181B2 (ja) モデル支援型事象予測のためのシステム及び方法
Wang et al. Predictive modeling of hospital readmission: challenges and solutions
US20140244293A1 (en) Method and system for propagating labels to patient encounter data
Sabeena et al. Optimization‐Based Ensemble Feature Selection Algorithm and Deep Learning Classifier for Parkinson’s Disease
Cohan et al. Identifying harm events in clinical care through medical narratives
Ha et al. Predicting high-risk prognosis from diagnostic histories of adult disease patients via deep recurrent neural networks
KR20240067148A (ko) 의료 인공지능 모델 동작 방법 및 이를 수행하는 전자 장치
CN114420232A (zh) 基于电子病历数据生成健康教育数据的方法和系统
Bahanshal et al. Hybrid fuzzy weighted K-Nearest neighbor to predict hospital readmission for diabetic patients
Tang et al. A deep learning approach to handling temporal variation in chronic obstructive pulmonary disease progression
Jagannatha et al. Bidirectional recurrent neural networks for medical event detection in electronic health records
Theodorou et al. Synthesize extremely high-dimensional longitudinal electronic health records via hierarchical autoregressive language model
El-Bashbishy et al. Pediatric diabetes prediction using deep learning