KR102429319B1 - 병원 리소스에 대한 환자 니즈 예측 방법 및 시스템 - Google Patents

병원 리소스에 대한 환자 니즈 예측 방법 및 시스템 Download PDF

Info

Publication number
KR102429319B1
KR102429319B1 KR1020200171441A KR20200171441A KR102429319B1 KR 102429319 B1 KR102429319 B1 KR 102429319B1 KR 1020200171441 A KR1020200171441 A KR 1020200171441A KR 20200171441 A KR20200171441 A KR 20200171441A KR 102429319 B1 KR102429319 B1 KR 102429319B1
Authority
KR
South Korea
Prior art keywords
data
embedding
patient
natural language
vector
Prior art date
Application number
KR1020200171441A
Other languages
English (en)
Other versions
KR20210143635A (ko
Inventor
김중희
정주
김대곤
Original Assignee
서울대학교병원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서울대학교병원 filed Critical 서울대학교병원
Priority to US17/926,653 priority Critical patent/US20230317257A1/en
Priority to PCT/KR2021/006287 priority patent/WO2021235866A1/ko
Priority to EP21808663.5A priority patent/EP4156202A1/en
Publication of KR20210143635A publication Critical patent/KR20210143635A/ko
Application granted granted Critical
Publication of KR102429319B1 publication Critical patent/KR102429319B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H40/00ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
    • G16H40/20ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the management or administration of healthcare resources or facilities, e.g. managing hospital staff or surgery rooms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06315Needs-based resource requirements planning or analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0637Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/10ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to drugs or medications, e.g. for ensuring correct administration to patients
    • G16H20/17ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to drugs or medications, e.g. for ensuring correct administration to patients delivered via infusion or injection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/40ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to mechanical, radiation or invasive therapies, e.g. surgery, laser therapy, dialysis or acupuncture
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/20ICT specially adapted for the handling or processing of medical references relating to practices or guidelines
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/60ICT specially adapted for the handling or processing of medical references relating to pathologies

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Educational Administration (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Game Theory and Decision Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

실시예들은 언어 및 숫자로 기록된 환자 자료 내 자연어 자료와 정형화 자료를 인코딩하여 정보 유형별 숫자형 데이터를 생성하는 단계; 및 상기 정보 유형별 숫자형 데이터를 인공 신경망에 적용하여 병원 리소스에 대한 환자의 니즈에 대응하는 태스크를 예측하는 단계를 포함하는 병원 리소스에 대한 환자의 니즈 예측 방법 및 이를 수행하는 시스템에 관련된다.

Description

병원 리소스에 대한 환자 니즈 예측 방법 및 시스템{METHOD AND SYSTEM FOR PREDICTING PATIENTS NEEDS FOR HOSPITAL RESOURCES}
본 발명은 병원 리소스에 대한 환자의 니즈를 예측하는 기술에 관한 것으로서, 보다 상세하게는 응급환자의 상태를 표현한 자연어 자료 및 정형화 자료를 처리하여 병원 리소스에 대한 환자의 니즈를 예측하는 방법 및 이를 수행하는 시스템에 관한 것이다.
응급 의료 서비스(EMS)에서 환자의 상태를 정확하게 파악하는 것은 환자의 예후를 위해 반드시 분석되어야 하는 중요한 요소이다. 현재는 응급 의료 서비스의 관리자가 직접 환자의 자료를 판독하여 환자의 니즈에 대한 단서를 제공하고 있다.
그러나, 응급 의료 서비스는 연중 무휴 24시간 유지되어야 하기 때문에, 관리자의 업무량이 증가하면 환자의 니즈를 정확하게 예측하는 것이 어려운 한계가 있다.
따라서, 연중 무휴 24시간 인간 관리자와 비슷한 성능으로 환자의 니즈를 예측하는 업무를 수행할 수 있는 기술이 요구된다.
특허공개공보 제10-2009-0001551호 (2009.01.09.)
본 발명의 일 측면에 따르면, 응급환자의 상태를 표현한 자연어 자료 및 정형화 자료를 처리하여 병원 리소스에 대한 환자의 니즈를 예측하는 동작을 수행하는 시스템을 제공할 수도 있다.
이 외에도, 병원 리소스에 대한 환자의 니즈 예측 방법 및 상기 방법이 기록된 컴퓨터 판독가능 기록 매체를 제공할 수 있다.
본 발명의 예시적인 구현예들에서는, 프로세서에 의해 수행되는, 병원 리소스에 대한 환자의 니즈 예측 방법에 있어서, 언어 및 숫자로 기록된 환자 자료 내 자연어 자료와 정형화 자료를 인코딩하여 정보 유형별 숫자형 데이터를 생성하는 단계; 및 상기 정보 유형별 숫자형 데이터를 인공 신경망에 적용하여 병원 리소스에 대한 환자의 니즈에 대응하는 태스크를 예측하는 단계를 포함하되, 상기 인공 신경망은, 상기 숫자형 데이터에 기초하여 상기 환자 자료의 임베딩 행렬을 산출하는 임베딩 모델; 및 상기 환자 자료의 임베딩 행렬을 포함한 중간 데이터 세트를 입력받아 상기 환자 자료가 속하는 태스크를 결정하는 결정 모델을 포함하는 환자의 니즈 예측 방법을 제공한다.
본 발명의 예시적인 구현예들에서는 또한, 언어 및 숫자로 기록된, 환자의 상태를 표현하는 자연어 자료 및 정형화 자료를 포함한 환자 자료를 획득하는 데이터 획득 장치; 상기 환자 자료 내 자연어 자료와 정형화 자료를 인코딩하여 정보 유형별 숫자형 데이터를 생성하는 인코딩 모듈; 및 상기 숫자형 데이터를 인공 신경망에 적용하여 병원 리소스에 대한 환자의 니즈에 대응하는 태스크를 예측하는 예측 모듈을 포함하되, 상기 인공 신경망은, 상기 숫자형 데이터에 기초하여 상기 환자 자료의 임베딩 행렬을 산출하는 임베딩 모델; 및 상기 환자 자료의 임베딩 행렬을 포함한 중간 데이터 세트를 입력받아 상기 환자 자료가 속하는 태스크를 결정하는 결정 모델을 포함하는 시스템을 제공한다.
본 발명의 일 측면에 따른 병원 리소스에 대한 환자의 니즈 예측 방법은 환자 자료에 포함된 자연어 자료와 정형화 자료를 미리 학습된 인공 신경망을 통해 분석함으로써 환자의 니즈를 예측할 수도 있다.
본 발명의 효과들은 이상에서 언급한 효과들로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 청구범위의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
본 발명 또는 종래 기술의 실시예의 기술적 해결책을 보다 명확하게 설명하기 위해, 실시예에 대한 설명에서 필요한 도면이 아래에서 간단히 소개된다. 아래의 도면들은 본 명세서의 실시예를 설명하기 목적일 뿐 한정의 목적이 아니라는 것으로 이해되어야 한다. 또한, 설명의 명료성을 위해 아래의 도면들에서 과장, 생략 등 다양한 변형이 적용된 일부 요소들이 도시될 수 있다.
도 1은, 본 발명의 일 실시예에 따른, 병원 리소스에 대한 환자의 니즈 예측 동작을 수행하는 시스템의 블록 구성도이다.
도 2는, 본 발명의 일 실시예에 따른, 인공 신경망의 개념도이다.
도 3은, 본 발명의 다른 일 실시예에 따른, 인공 신경망의 개념도이다.
도 4는, 본 발명의 일 실시예에 따른, 병원 리소스에 대한 환자의 니즈 예측 방법이 흐름도이다.
도 5a는, 본 발명의 일 실험에예 따른, 도 2의 인공 신경망과 인간 전문가의 예측 성능을 비교한 도면이다.
도 5b는, 본 발명의 일 실험에예 따른, 도 3의 인공 신경망과 인간 전문가의 예측 성능을 비교한 도면이다.
도 6은, 본 발명의 일 실험예에 따른, 어텐션 맵의 샘플을 도시한 도면이다.
이하에서, 도면을 참조하여 본 발명의 실시예들에 대하여 상세히 살펴본다.
도 1은, 본 발명의 일 실시예에 따른, 병원 리소스에 대한 환자의 니즈 예측 동작을 수행하는 시스템의 블록 구성도이다.
도 1을 참조하면, 병원 리소스에 대한 환자의 니즈 예측 동작을 수행하는 시스템(이하, “예측 시스템”(1))은 데이터 획득 장치(10); 인코딩 모듈(30); 및 예측 모듈(50)을 포함한다. 일부 실시예에서, 상기 예측 시스템(1)은 학습 모듈(70)을 더 포함할 수도 있다.
상기 예측 시스템(1)은 데이터 획득 장치(10)에 의해 환자 자료를 획득한다. 상기 환자 자료는 단일 문장으로 표현될 수도 있다. 상기 문장은 복수의 단어로 이루어진다.
상기 환자 자료는 정형화되는 자료(이하, “정형화 자료”)와 자연어 자료를 포함한다. 상기 정형화 자료 및/또는 자연어 자료가 단일 문장으로 표현될 수도 있다.
상기 정형화 자료는 수치나 범주형으로 표현되어 정형화 가능한 정보를 포함한다.
일 실시예에서, 상기 환자 자료는 수치 자료로서 측정 정보, 및/또는 범주형 정보로서 인구통계학적 정보를 포함한다.
상기 인구통계학적 정보는, 예를 들어, 연령, 성별를 포함할 수도 있으나, 이에 제한되진 않는다.
상기 측정 정보는 환자의 신체 상태를 측정한 다양한 측정 값을 포함할 수도 있다. 특정 실시예들에서, 상기 측정 정보는, 동공 상태, 수축기 혈압(SBP, systolic blood pressure), 이완기 혈압(DBP, diastolic blood pressure), 맥박, 호흡률, 체온, 의식 수준, 초기 O2 포화도 중 하나 이상의 측정 항목에 대한 측정 값을 포함할 수도 있다.
상기 자연어 자료는 상기 환자 자료 내에서 정형화 자료를 제외한 나머지 자료이다. 의료진이 수기로 기록하는 자료의 일부 또는 전부가 자연어 자료로 사용될 수도 있다. 특정 실시예들에서, 상기 자연어 자료는 현재 질병 정보, 주증상 관련 정보, 부상 관련 정보, 과거 관련 정보 중 하나 이상을 포함할 수도 있다. 상기 현재 질병 정보는 HPI(History of Present Illness)를 포함할 수도 있다. 상기 주증상 관련 정보는 주요 주증상(CC, chief complaitns)을 포함할 수도 있다. 부상 관련 정보는 부상 요약(injury summary)을 포함할 수도 있다. 과거 관련 정보는 과거의 의료 또는 수술 이력에 관한 정보로서, 예를 들어 PMH(Past Medical History)를 포함할 수도 있다.
상기 자연어 자료는 제1 유형의 정보 및 제2 유형의 정보로 분류될 수도 있다. 상기 자연어 자료 중 제1 유형의 정보는 환자의 니즈를 예측하는데 더 중요하게 고려되는 정보이다. 특정 실시예들에서, 상기 자연어 자료 중 제1 유형의 정보는 현재 질병 정보일 수도 있다. 환자의 니즈를 결정하는데 가장 주로 사용되는 자료가 HPI이기 때문이다.
상기 자연어 자료 중 제2 유형의 정보는 환자의 니즈를 예측하는데 제1 유형의 자연어 자료 대비 덜 중요하게 고려되는 자료이다. 특정 실시예들에서, 상기 자연어 자료 중 제2 유형의 정보는 상기 자연어 자료 중 제1 유형의 정보 이외의 나머지 정보의 일부 또는 전부를 포함할 수도 있다.
데이터 획득 장치(10)는 획득한 환자 자료를 인코딩 모듈(30)로 공급한다.
인코딩 모듈(30)은 자연어 자료와 정형화 자료를 포함한 환자 자료를 숫자형 데이터로 변환하는 전처리 동작을 수행한다. 이러한 전처리 동작은 인코딩 동작으로 지칭된다. 인공 신경망에는 숫자형 데이터만 입력이 허용되기 때문에, 인코딩 모듈(30)에 의해 환자 자료의 데이터가 인공 신경망에 입력 가능하게 된다.
인코딩 모듈(30)은 자연어 자료와 정형화 자료를 인코딩하여 정보 유형별 숫자형 데이터를 생성한다. 숫자형 데이터의 생성은 자연어 처리 동작을 통해 수행된다.
환자 자료 중에서 자연어 자료, 범주형 자료는 언어로 기록되어 있어, 단순 데이터화될 경우 문자열 값으로 변환된다. 문자열 값은 인공 신경망에 입력 값으로 허용되지 않으므로, 인코딩 모듈(30)은 환자 자료, 즉 입력 문장 내 언어를 문자열 데이터로 텍스트 데이터화한 후 숫자형 데이터로 변환한다.
텍스트를 수치화하는 과정은 임베딩 처리를 통해 수행되며, 텍스트의 수치화 결과는 임베딩 벡터로 획득된다. 즉, 임베딩 벡터는 해당 텍스트를 수치화한 것을 나타내며, 예를 들어, 단어 임베딩은 단어 단위의 텍스트를 수치화한 것을 나타낸다. 상기 단어 단위는 토큰으로 지칭되며, 이는, 통상적으로 사용하는 단어이거나 이 외에 형태소나 이와 유사한 것과 같이, 문장 분해의 최소한의 단위를 의미한다. 상기 토큰은 극단적인 경우 문자 하나 하나를 지칭할 수도 있다.
일 실시예에서, 인코딩 모듈(30)은 토큰화 단위로 문장 내 텍스트의 일부 또는 전부에 대한 임베딩 데이터를 출력할 수도 있다.
자연어 자료는 기록된 언어의 자연어 처리 도구를 통해 토큰화되고 인덱싱된다. 예를 들어, 한국어를 처리할 때에는 문장의 모든 구성요소들을 형태소와 같은 최소 단위(즉, 토큰)으로 분해하고(토큰 화로 지칭됨), 이로부터 얻어진 토큰 집합의 각 원소에 대해서 그 자체의 고유의 번호를 붙이는 방식으로 전처리 될 수 있다. 그러나 이외에도 서브워드 분절화 (예를 들어 byte-pair encoding)나 그 이외의 다른 여러 방식의 토큰 화 방식도 이용 될 수 있다.
토큰화 단위는 단어(word)로 지정될 수도 있다. 그러면, 상기 토큰화는 다양한 언어 데이터베이스 (예컨대, 한국어의 경우 Wikipiedia 기반 사내 말뭉치 데이터세트)에 기초하여 수행된다. 인코딩 모듈(30)은 문장 내에 표현된 자연어 자료를 분할 처리(예컨대, 크롤링 등)하여 말뭉치 데이터(corpus data)를 획득하고, 상기 말뭉치 데이터에서 구두점, 특수문자, 띄어쓰기 등을 추가/제거/수정하거나 단어/형태소/문자 단위로 토큰화될 수도 있다.
이러한 자연어 처리를 통해 인코딩 모듈(30)은 환자 자료의 정보 유형을 식별한다. 자연어 자료의 텍스트 데이터는 상기 자연어 자료 중 제1 유형의 정보 또는 제2 유형의 정보로 구별된다. 예를 들어, 단일 문장에서 HPI에 해당하는 단어가 제1 유형의 자연어 자료로 식별된다.
상기 자연어 자료 중 제1 유형의 정보의 데이터에 제1 유형을 나타내는 식별자가 연관될 수도 있다.
이와 같이, 인코딩 모듈(30)은 자연어 처리 동작을 통해 환자 자료 내 언어에 대한 텍스트 데이터를 생성하고, 최종적으로 자연어 자료 중 제1 유형의 정보의 숫자형 데이터, 즉 제1 유형의 자연어 임베딩 벡터, 그리고 자연어 자료 중 제2 유형의 정보의 숫자형 데이터, 즉 제2 유형의 자연어 임베딩 벡터를 생성한다.
또한, 범주형 자료가 언어로 기록된 경우, 인코딩 모듈(30)은 획득한 환자 자료에서 범주형 자료를 숫자형 데이터로 인코딩할 수도 있다. 예를 들어, 인코딩 모듈(30)은 인구통계학적 정보의 특징을 원-핫 인코딩(one-hot encoded) 처리함으로써 범주형 자료를 숫자형 데이터로 변환할 수도 있다.
인코딩 모듈(30)은 환자 자료 내 측정 정보를 숫자형 데이터로 변환한다.
일 실시예에서, 인코딩 모듈(30)은 측정 행렬(또는 벡터)을 형성할 수도 있다. 측정 행렬(또는 벡터)은 환자의 측정 항목에 대한 측정 값으로 이루어진 행렬(또는 벡터)로서, 내부 성분(element)의 위치가 측정 항목을 나타낸다.
또한, 인코딩 모듈(30)은 측정 정보를 전처리하도록 더 구성될 수도 있다. 일 실시예에서, 인코딩 모듈(30)은 수치형 자료의 특징에서 평균을 제거하거나 및/또는 단위 분산에 맞게 스케일링하는 표준화 처리를 통해 수치형 자료를 인코딩할 수도 있다. 그러면, 표준화된 값으로 측정 행렬(또는 벡터)가 형성된다.
이와 같이, 자연어 처리를 통해 정보 유형별 숫자형 데이터가 생성된다. 인코딩 모듈(30)은, 자연어 처리를 통해 획득된 현재 질병 정보의 텍스트 데이터를 임베딩 처리하여 산출되는 제1 유형의 자연어 임베딩 벡터, 자연어 처리를 통해 획득된 상기 자연어 자료의 나머지 정보의 텍스트 데이터를 임베딩 처리하여 산출되는 제2 유형의 자연어 임베딩 벡터, 상기 정형화 자료 중 상기 인구통계학적 정보를 자연어 처리하여 획득된 상기 인구통계학적 정보의 텍스트 데이터를 임베딩 처리하여 산출되는 인구통계학적 정보의 임베딩 벡터, 및/또는 자연어 처리를 통해 변환되는 상기 측정 정보의 숫자형 데이터(예컨대, 측정 행렬)를 생성하고, 이러한 숫자형 데이터 중 적어도 하나를 포함한 데이터 세트를 예측 모듈(50)에 공급한다.
일 실시예에서, 상기 자연어 자료 중 제1 유형의 정보가 복수의 단어로 이루어진 경우, 상기 인코딩 모듈(30)은 제1 유형의 정보를 이루는 단어 각각에 대한 제1 유형의 자연어 임베딩 벡터를 산출할 수도 있다. 그러면, 제1 유형의 정보(예컨대, HPI)의 숫자형 데이터는 복수의 단어 임베딩 벡터의 집합으로 예측 모듈(50)에 공급된다.
또한, 상기 인코딩 모듈(30)은 환자를 맥락으로 서술하는 정보에 대한 단일 임베딩 벡터를 생성할 수도 있다. 상기 단일 임베딩 벡터는 상기 제1 유형의 정보와 다른 유형의 정보, 예를 들어 상기 제2 유형의 자연어 임베딩 벡터, 인구통계학적 정보의 임베딩 벡터 및/또는 상기 측정 정보의 숫자형 데이터로 이루어질 수도 있다. 이러한 단일 임베딩 벡터는 상기 맥락 임베딩 벡터(contextual embedding vector)로 지칭된다. 자연어 자료 중 제2 유형의 정보의 정보, 또는 범주형 자료의 정보, 숫자형 자료의 정보는 상기 맥락 임베딩 벡터를 통해 환자의 니즈를 예측하는데 고려된다.
예측 모듈(50)은 상기 제1 유형의 자연어 임베딩 벡터(예컨대, 복수의 단어 임베딩 벡터의 집합), 그리고 상기 맥락 임베딩 벡터를 사용하여 환자의 니즈를 예측할 수도 있다.
예측 모듈(50)은 환자 자료를 인코딩한 데이터를 인공 신경망에 적용하여 병원 리소스에 대한 환자의 니즈를 예측한다. 예측 모듈(50)은 예컨대, 문장 내 HPI단어의 임베딩 벡터 등의 정보 유형별 숫자형 데이터를 인공 신경망에 적용할 수도 있다.
예측 모듈(50)은 인공 신경망을 사용하여, 환자의 니즈를 예측하기 위해 환자 자료를 직접 판독하여 환자의 니즈를 예측하는 사용자 (예컨대 의료진이나 구급 관리자)의 동작과 유사한 동작을 수행할 수도 있다. 예를 들어, 예측 모듈(50)은, 환자의 니즈를 예측하기 위해, 환자 자료 내 주증상 사항, 인구통계학적 정보 등의 자연어 자료의 일부를 간략하게 살펴보는 동작; HPI를 자세히 읽는 동작; 그리고 다양한 측정 값(예컨대, 활력 징후 등)을 해석하는 동작을 수행할 수도 있다. 또한, 예측 모듈(50)은 특정 이벤트를 예측하려는 경우 (예를 들어, 환자가 응급실에 머무는 이벤트를 예측하려는 경우), 다시 환자 자료로 돌아가서 해당 이벤트와 관련된 텍스트의 특정 부분에 초점을 맞추어 자료를 다시 분석하는 동작에 더 수행할 수도 있다. 이러한 동작 중 적어도 일부는 인공 신경망의 동작으로 모델링될 수도 있다.
일 실시예에서, 인공 신경망은 상기 숫자형 데이터에 기초하여 상기 환자 자료의 임베딩 행렬(또는 벡터)을 산출하는 임베딩 모델(E); 및 상기 환자 자료가 속하는 태스크를 결정하는 결정 모델(D)을 포함할 수도 있다. 위의 가정과 같이, 환자 자료가 단일 문장일 경우, 임베딩 모델(E)은 문장 임베딩 행렬을 산출한다. 그러면, 결정 모델(D)은 상기 문장이 속하는 태스크를 결정함으로써, 환자의 니즈가 예측된다.
예측 모듈(50)은 임베딩 모델(E)에 상기 제1 유형의 자연어 임베딩 벡터(예컨대, 복수의 단어 임베딩 벡터의 집합)을 입력하거나, 또는 상기 제1 유형의 자연어 임베딩 벡터 및 맥락 임베딩 벡터를 입력하여 문장(즉, 환자 자료)의 임베딩 벡터를 산출할 수도 있다.
이를 위해, 상기 임베딩 모델(E)은 입력 데이터의 특징을 추출하여 은닉 상태 벡터를 산출하는, 하나 이상의 은닉층을 포함할 수도 있다. 맥락 임베딩 벡터를 포함한 숫자형 데이터의 세트가 이러한 임베딩 모델(E)에 입력되면, 문장의 임베딩 벡터가 산출된다. 전술한 가정과 같이, 해당 문장이 다수의 단어를 포함할 경우, 임베딩 모델(E)은 문장 임베딩 행렬을 산출할 수도 있다.
상기 임베딩 모델(E)은 RNN 기반 구조를 가질 수도 있다. 일 실시예에서, 임베딩 모델(E)은 일방향 혹은 양방향 GRU(Gated Recurrent Unit)-RNN(Recurrent Neural Network) 기반의 구조를 가질 수도 있다. 그러면, 임베딩 모델(E)은 일방향 혹은 양방향 GRU 기반 은닉층을 포함한다.
이러한 임베딩 모델(E)은 맥락 정보, 즉 맥락 임베딩 벡터를 입력하여 처리하는 과정에 따라 적어도 2개의 구조로 모델링될 수도 있다.
도 2는, 본 발명의 일 실시예에 따른, 인공 신경망의 개념도이다.
도 2를 참조하면, 맥락 임베딩 벡터는 GRU의 초기 은닉 상태들 상에 겹쳐쓰여질(overwritten) 수도 있다. 상기 실시예에서, 임베딩 모델(E)에는 자연어 정보의 전처리 결과인 토큰의 임베딩 벡터(e)가 입력된다.
도 2의 인공 신경망에서 맥락 임베딩 벡터(c)는 임베딩 모델(E)의 초기 은닉 상태로 지정된다. 환자 자료 내 문장이 토큰화되면, 각 토근의 임베딩 벡터(e)가 순차적으로 상기 임베딩 모델(E)에 입력되어 문장 임베딩 행렬을 산출할 수도 있다.
일방향 GRU에서는 이러한 토큰의 임베딩 벡터(e)의 입력은 순방향으로만 이루어지고 각 입력 시점에서 하나의 출력 벡터만 생성된다.
양방향 GRU에서는 위에서 언급된 과정에 추가하여 입력 문장의 마지막 토큰으로부터 역방향으로 임베딩 벡터(e)를 입력하게 되며, 이러한 순방향/역방향 연산 과정에서 얻어지는 각 토큰의 두 벡터 (순방향 연산 과정에서 얻어진 출력 벡터와 역방향 연산 과정에서 얻어진 출력 벡터) 합쳐저서 (concatenate) 하나의 벡터가 되며 이는 네트워크의 다음 은닉층의 입력으로 처리된다.
구체적으로, 도 2의 인공 신경망에서 먼저 맥락 임베딩 벡터(c)가 임베딩 모델(E)의 초기 은닉 상태 벡터로 설정된다.
이후 인코딩 모듈(30)에 의해 제1 유형의 자연어 자료(w)를 인코딩하여 획득되는 제1 유형의 자연어 임베딩 벡터(e)는 순차적으로 임베딩 모델(E)에 입력된다.
임베딩 벡터(e)가 순방향/역방향으로 하나씩 입력될 때마다 순방향/역방향에 해당하는 각각의 은닉층이 입력값에 비추어 업데이트 되고, 이렇게 업데이트 된 은닉층의 은닉상태 벡터 (혹은 이것에 추가적인 계산을 적용한 결과)를 산출한다. 은닉 상태 벡터 중에서 순방향 또는 역방향으로 마지막에 산출되는 상태 벡터는 마지막 은닉 상태 벡터(last hidden state vector)로 지칭될 수도 있다.
임베딩 모델(E)의 은닉층을 모두 통과하면 최종 상태 벡터들(final hidden state vectors)이 산출된다. 최종 상태 벡터들은 태스크를 예측하기 위해 사용된다.
또한, 상기 임베딩 모델(E)은 어텐션 가중치에 기초한 어텐션 행렬A를 형성하도록 더 구성된다. 상기 어텐션 행렬A는 상기 최종 은닉 상태에 기초한 문장의 출력 행렬H와 함께 보다 효율적인 태스크 예측을 위해 사용된다.
상기 인공 신경망에서 임베딩 모델(E)은 인코더로 기능하고, 결정 모델(D)은 디코더로 기능한다. 어텐션 가중치는 상기 디코더에서 문장의 태스크를 예측하는 매 시점(timestep)마다, 인코더의 전체 입력 문장을 다시 한 번 참고하는데 사용된다.
그러나, 결정 모델(D)는 입력 단어 (혹은 벡터)들을 전부 다 동일한 비율로 참고하지 않고, 해당 시점에서 예측해야할 태스크와 연관이 있는 입력 단어 부분에 보다 집중(attention)시켜 입력 데이터를 분석하게 한다.
이를 위해, 임베딩 모델(E)은 상기 최종 은닉 상태 벡터에 기초하여 문장의 출력 행렬H를 형성할 수도 있다. 상기 출력 행렬H은 최종 은닉 상태 벡터로 이루어진 행렬로서, 은닉 행렬H로 지칭될 수도 있다.
예를 들어, 상기 임베딩 모델(E)은 은닉층의 dh 차원의 은닉 상태 벡터hs를 각 시점(timestep)에서 결합하여 n×2×l의 형태를 갖는 은닉 행렬H를 형성한다. 여기서 n은 시점을 나타내고, l은 은닉층의 단방향의 길이를 나타낸다. 통상적으로 은닉층이 양방향 GRU 네트워크로 이루어지므로, 은닉 행렬H은 2l의 열을 가진다. 단방향 GRU 구조에서는 은닉 행렬H은 n×l의 형태를 가진다.
그러면, 상기 임베딩 모델(E)은 어텐션 행렬A를 형성하기 위해, 은닉 행렬H를 위한 어텐션 가중치a를 산출한다. 상기 은닉 행렬H를 위한 어텐션 가중치a는 다음의 수학식으로 표현된다.
[수학식 1]
a = softmax(ws2tanh(Ws1HT))
여기서, Ws1은 da×2ldh의 형태를 갖는 가중치 행렬이고, Ws2는 사이즈 da의 벡터이다. 여기서 da는 하이퍼 파라미터 값으로서, 학습 과정을 통해 최적화될 수도 있다.
HPI의 표현 벡터 m을 획득하기 위해, 은닉 상태 벡터 hs로 이루어진 은닉 행렬H가 가중치 a로 합해진다.
단일 문장이 다수의 표현을 포함할 경우, Ws2의 사이즈 행렬을 r×da 형태로 확장할 수도 있다. 여기서 r은 단일 문장에 포함된 표현의 수를 나타낸다. Ws2의 사이즈 행렬이 확장되면, 가중치 벡터 a는 가중치 행렬A를 형성한다.
상기 가중치 행렬A와 은닉 행렬H를 곱하면 문장의 임베딩 행렬M을 산출할 수도 있다. 상기 문장의 임베딩 행렬M은 각 표현별 임베딩 벡터m를 포함한다. 이러한 상기 가중치 행렬A를 사용하면, 상기 인공 신경망은 단일 문장으로부터 다수의 표현을 분석(또는 학습)할 수도 있다.
이러한 임베딩 모델(E)에서 출력된 값은 결정 모델(D)로 공급되어, 환자의 니즈를 예측하는데 사용된다. 상기 임베딩 모델(E)에서 출력된 값은 문장 임베딩 행렬M, 및/또는 최종 은닉 상태 벡터와 같은 은닉 상태 벡터를 포함한다.
상기 결정 모델(D)은 완전 연결층을 포함한다. 상기 완전 연결층은 복수의 층으로 이루어질 수도 있다. 예를 들어, 결정 모델(D)은 이중 또는 삼중 층의 완전 연결층으로 이루어질 수도 있다.
상기 완전 연결층의 파라미터는 미리 설정된 태스크를 예측하기 위해 학습된다. 태스크는 인공 신경망을 통해 해야할 작업으로서, 환자의 니즈는 하나 이상의 태스크(task)에 대응될 수도 있다.
상기 결정 모델(D)에 의해 수행되는 태스크는 메인 태스크, 제1 보조 태스크 그룹 및/또는 제2 보조 태스크일 수도 있다. 각각의 태스크는 하나 이상의 항목을 클래스로 포함할 수도 있다. 결정 모델(D)에 입력되는 데이터가 특정 클래스로 분류되면, 분류된 특정 클래스를 포함한 범주 태스크가 해당 환자의 니즈로 결정된다.
태스크를 나타내는 목표 변수는 전자 건강 기록(EHR) 데이터베이스에서 추출될 수도 있다. 태스크는 다수의 범주로 그룹화될 수도 있다. 상기 EHR 데이터베이스에서 추출된 태스크는 다수의 범주로 분류되어 인공 신경망에 반영된다.
상기 메인 태스크는 환자의 상태에 대한 전문가의 진단과 관련된 태스크 클래스를 포함할 수도 있다. 응급실 환자에 대해서, 상기 메인 태스크는, 예를 들어, 병원 입원, 기관 내 삽관, 기계적 환기, 승압제 주입, 심장 카테터 삽입, 수술, 중환자실(ICU) 입원, 응급실(ED) 도착 24 시간 이내에 심정지 중 하나 이상의 태스크 클래스를 포함할 수도 있으나, 이에 제한되진 않는다.
상기 제1 보조 태스크는 환자에 대한 질병 진단과 관련된 태스크 클래스를 포함할 수도 있다. 예를 들어, 제1 보조 태스크는 환자의 진단 병명 코드의 태스크 클래스를 포함할 수도 있다. 상기 진단 병명 코드는 KCD(Korean Classification of Disease) 데이터베이스 등과 같은 본 발명의 기술분야의 통상의 기술자에게 공지로 사용되는 코드일 수도 있다. 상기 1 보조 태스크는 코드가 나타낸 병명을 태스크 클래스로 다수 포함할 수도 있다.
상기 제2 보조 태스크는 환자의 처치 결과와 관련된 태스크 클래스를 포함할 수도 있다. 예를 들어, 상기 제2 보조 태스크는 퇴원, 병동 입원, 중환자실 입원, 수술실(OR) 이송 및 사망 중 하나 이상의 태스크 클래스를 포함할 수도 있다.
특정 실시예들에서, 상기 결정 모델(D)이 환자 자료에 기초하여 환자의 니즈를 예측하는 동작은 환자 자료(또는 문장)를 바탕으로 다수의 니즈 범주(예컨대, 유/무 또는 2개 이상의 범주)에 해당 환자를 분류하는 동작을 의미하며, multi-label binary classification 및/또는 multinomial classification으로 구현될 수도 있다.
그러면, 메인 태스크를 결정하는 것은 다중 이진 예측 문제로서, 다중 이진 예측 문제의 정답을 맞출 경우 정답에 대응하는 니즈를 갖는 것으로 예측된다. 예를 들어, 병원 입원 여부에 대한 '예/아니오'의 판단 등과 같은 다중 이진 문제에 정답을 맞춤으로써 해당 환자의 니즈가 예측된다.
이러한 니즈의 예측을 위해, 상기 결정 모델(D)은 임베딩 모델(E)의 출력된 값 및/또는 인코딩 모듈(30)의 출력 값(예컨대, 인코딩된 정형화 자료)을 사용할 수도 있다. 상기 결정 모델(D)은 태스크별로 상이하게 데이터를 사용할 수도 있다.
일 실시예에서, 상기 결정 모델(D)은, 메인 태스크 및/또는 제1 보조 태스크를 예측하는데 임베딩 모델(E)에서 출력된 값 및 인코딩 모듈(30)에서 전처리된 값을 사용할 수도 있다. 상기 임베딩 모델(E)에서 출력된 값은 문장 임베딩 벡터m, 문장 임베딩 행렬M, 은닉 상태 벡터 및/또는 최종 은닉 상태 벡터를 포함할 수도 있다. 전처리된 값은 정형화 자료의 인코딩 결과로서 측정 행렬 또는 인구통계학 정보의 숫자형 데이터를 포함할 수도 있다.
예를 들어, 도 2에 도시된 바와 같이, 문장 임베딩 벡터m, 문장 임베딩 행렬M, 및 최종 은닉 상태 벡터 같은 임베딩 모델(E)에서 출력된 값과 정형화 자료의 인코딩 결과가 메인 태스크 및 제1 보조 태스크를 예측하기 위해 결정 모델(D)에 입력된다.
그리고, 제 2 보조 태스크에 대한 예측 동작은, 상기의 메인 태스크 및 제 1 보조 태스크의 예측 동작과 동일한 방식으로 수행하되, 입력 값으로 임베딩 모델(E)에서 출력된 값만을 사용할 수 있다. 이것은 임베딩 모델의 성능을 좀더 선택적으로 개선시키기 위한 방법에 해당한다.
이를 위해, 상기 결정 모델(D)은 태스크별 네트워크로 이루어질 수도 있다.
일 실시예에서, 결정 모델(D)은 메인 태스크를 결정하는 제1 네트워크(N1), 및/또는 제1 보조 태스크를 결정하는 제2 네트워크(N2)를 포함할 수도 있다. 여기서, 상기 제1 네트워크(N1) 및 제2 네트워크(N2)는 임베딩 모델(E)에서 출력된 값을 입력으로 받거나 또는 상기 임베딩 모델(E)에서 출력된 값과 최종 은닉 상태 벡터를 함께 입력으로 받아, 환자의 상태 및/또는 상기 환자 병명을 결정할 수도 있다.
상기 네트워크(N1) 및 네트워크(N2)는 서로 입력이 동일한 공유 은닉층을 포함할 수도 있다. 그러면, 공유 네트워크의 최종 출력은 메인 태스크 또는 제1 보조 태스크를 결정하는데 사용된다.
또한, 상기 결정 모델(D)은 제2 보조 태스크를 결정하기 위한 제3 네트워크(N3)를 포함할 수도 있다. 일부 실시예들에서, 상기 네트워크(N3)는 다수의 서브 네트워크를 포함할 수도 있다. 예를 들어, 도 2에 도시된 바와 같이 네트워크(N3)는 복수의 서브 네트워크(N4, N5, N6)를 포함할 수도 있다.
상기 제3 네트워크(또는 복수의 서브 네트워크)는 제2 보조 태스크를 결정하기 위해 오직 임베딩 모델(E)에서 출력된 값만을 사용하도록 구성된다. 예를 들어, 제2 보조 태스크 그룹을 수행하는 N4, N5, N6 네트워크는 임베딩모델(E)에서 출력된 값 (문장 임베딩 벡터m, 문장 임베딩 행렬M, 최종 은닉 상태 벡터 등) 만을 입력으로 받을 수 있으며, 다른 네트워크 (N1, N2)와 공유하는 은닉층이 없다.
이러한 네트워크(N4, N5, N6)의 처리 결과는 퇴원에 해당하는지 여부, 병동 입원에 해당하는지 여부, 중환자실 입원에 해당하는지 여부, 수술실 이송 여부 및 사망 여부에 대한 5개의 클래스로 분류하는데 사용되고, 결국 결정 모델(D)은 입력 문장이 속하는 제2 보조 태스크를 결정할 수도 있다.
추가적으로, 예측 모듈(50)은 임베딩 모델(E)에서 출력된 문장의 임베딩 행렬, 마지막 은닉 상태 벡터 및 정형화 자료를 네트워크(N1, N2)의 공유 네트워크를 거치거나 혹은 거치지 않는 방식으로 입력하도록 구성될 수도 있다. 그러면, 정형화 자료의 숫자형 데이터는 네트워크(N1, N2)에 직/간접적으로 입력될 수도 있다.
한편, 제2 보조 태스크를 결정하기 위한 네트워크(N4, N5, N6)에는 임베딩모델(E)에서 출력된 값 (문장 임베딩 벡터m, 문장 임베딩 행렬M, 최종 은닉 상태 벡터 등)이 입력된다.
상기 결정 모델(D)은 각 범주 태스크별 네트워크의 출력에 기초하여 중간 데이터 세트의 문장이 해당 범주 태스크에서 어느 클래스에 속할 확률을 산출할 수도 있다. 예를 들어, 공유 네트워크의 중간 출력 또는 최중 출력에 기초하여 테스크에 대한 확률이 각각 산출될 수도 있다. 상기 결정 모델(D)은 완전 연결층의 출력으로부터 확률을 산출하기 위해 Softmax 함수를 포함할 수도 있으나, 이에 제한되진 않는다.
테스크가 결정되면, 결정된 태스크에 해당하는 니즈가 환자에게 요구되는 것으로 예측된다. 예를 들어, 특정 문장을 나타낸 중간 데이터 세트가 결정 모델(D)에 입력되어 메인 태스크 중 병원 입원이 출력된 경우, 해당 환자는 메인 태스크로서 병원 입원의 니즈를 갖는 것으로 예측된다.
도 3은, 본 발명의 다른 일 실시예에 따른, 인공 신경망의 개념도이다.
도 3의 인공 신경망은 도 2의 인공 신경망과 유사하므로, 차이점을 위주로 설명한다.
도 3을 참조하면, 맥락 임베딩 벡터(c)를 단어의 임베딩 벡터에 각각 결합시켜 임베딩 모델(E)에 순차적으로 일방향 혹은 양방향으로 입력시킴으로써 문장의 임베딩 행렬(또는 벡터)를 산출할 수도 있다.
맥락 임베딩 벡터(c)는 제1 유형의 자연어 임베딩 벡터(e)에 각각 결합되어 임베딩 모델(E)에 입력된다. 예를 들어, 도 3에 도시된 바와 같이, 맥락 임베딩 벡터(c)는 HPI의 복수의 단어 임베딩 벡터(e)에 각각 결합되고, 이 결합 벡터가 일방향 혹은 양방향 GRU 기반의 은닉층으로 입력된다.
최종 은닉 상태 벡터를 산출하여 출력 행렬H를 산출하고, 최종적으로 문장의 임베딩 행렬M을 산출하는 과정과 같은, 임베딩 모델(E)로 데이터 입력 이후의 과정은 도 2와 동일하며, 자세한 설명은 생략한다.
상기 예측 시스템(1)은 내부의 구성요소(예컨대, 학습 모듈(70))에 의해 학습된 인공 신경망을 사용하거나, 또는 외부의 프로세서를 통해 미리 학습된 인공 신경망을 사용할 수도 있다.
도 2 및 도 3의 인공 신경망은 (예컨대, 학습 모듈(70)에 의해) 다수의 훈련 샘플로 이루어진 훈련 데이터 세트를 사용하여 학습된다.
훈련 데이터 세트 내 각각의 훈련 샘플은 훈련 환자의 정형화 자료 및 자연어 자료를 포함한다. 예를 들어, 훈련 샘플은 훈련 환자에 대한 연령, 성별, 주증상 관련 정보(예컨대, CC), 부상 관련 정보(예컨대, 부상 요약), 과거 이력 정보(예컨대, PMH), 현재 질병 정보(예컨대, HPI), 크기 및 반사를 포함한 동공 상태, 수축기 혈압(SBP, mmHg), 이완기 혈압(DBP, mmHg), 맥박(PR, 분당 박동), 호흡률(PR, 분당 호흡), 및 체온(BT, ℃), 의식 수준(예컨대, AVPU), 초기 O2 포화도(맥박 산소 측정 시 SpO2, %) 중 적어도 하나를 각각 포함할 수도 있다.
상기 훈련 환자의 상태를 기록한 문장에서 자연어 자료는 자연어 처리를 통해 소문자, 공백 등이 수정되어 자연어 처리된 단어의 텍스트 데이터로 정리된다. 정리된 텍스트 데이터를 포함한 훈련 데이터 세트가 인공 신경망의 학습에 활용된다.
상기 인공 신경망의 파라미터는 손실 함수를 최소화하도록 학습된다.
상기 손실함수는 다수의 항(terms)을 포함한다. 일 실시예에서, 상기 손실함수는 교차 엔트로피 손실 항(ECL) 및 페널티 항(P)을 포함한다. ECL은 태스크를 위한 네트워크의 교차 엔트로피 손실의 가중 합이다. 예를 들어, 결정 모델(D)이 상기 제1 항은 메인 태스크를 위한 네트워크(N1), 제1 보조 태스크를 위한 네트워크(N2) 및 제2 보조 태스크를 위한 네트워크(N3)를 포함할 경우, 제1 항은 각 네트워크(N1, N2, N3)의 교차 엔트로피 손실의 가중 합으로 이루어진다.
일 실시예에서, 메인 태스크에 대한 가중치 분포와 전체 보조 태스크에 대한 가중치 분포는 1:1로 지정된다. 여기서, 전체 중 각각의 보조 태스크에 대한 가중치 분포는 보조 범주 태스크별 네트워크의 수에 따라 다시 분포된다. 상기 일 예에서, 결정 모델(D)이 6개의 범주 태스크별 네트워크를 포함할 경우, 제1 및 제2 보조 태스크를 포함한 전체 보조 태스크의 네트워크의 개수는 5개이므로, 각 보조 태스크를 위한 변수의 가중치 분포는 각각 0.1로 지정될 수도 있다.
상기 제1 보조 태스크의 오차는 결정 모델(D)의 전체 네트워크의 일반화(generalization)를 개선하는데 사용된다. 반면, 제2 보조 태스크의 오차는 인공 신경망 내 Bi-GRU 네트워크의 일반화 가능성을 개선하는데 사용된다.
상기 손실함수에서 페널티 항(P)은 다음의 수학식으로 표현된다.
[수학식 2]
Figure 112020133596834-pat00001
여기서, A는 위에서 전술한 어텐션 벡터a를 행으로 갖는 어텐션 행렬이다. I는 단위 행렬(identity matrix)이다. 어텐션 행렬A 및 단위 행렬 I이 프로베니우스 표준(Frobenius norm, F)에 따라 상기 수학식 2와 같이 처리된다. 상기 제2항의 변수P는 어텐션 벡터 a의 다양성을 장려하고 임의로 설정할 수 있는 하이퍼 파라미터를 계수로 가진다. 즉, 손실함수는 제2항과 계수의 곱을 포함한다.
상기 인공 신경망은 인공 신경망의 파라미터가 최적화되도록 업데이트됨으로써 학습된다. 이러한 파라미터의 최적화 방식은, 예를 들어 ADAM(Adaptive Moment Estimation), Momentum, NAG(Nesterov Accelerated Gradient), Adagrad(Adaptive Gradient), RMSProp, 다양한 경사 하강(gradient discent) 방식을 포함할 수도 있다.
상기 인공 신경망은 인공 신경망의 하이퍼 파라미터에 대해서 추가로 학습될 수도 있다. 일 실시예에서, 학습되는 상기 하이퍼 파라미터는 문맥의 임베딩 벡터c의 사이즈, GRU 기반 은닉층의 수, 은닉 상태 벡터의 사이즈, 어텐션 유닛(da)의 은닉층의 사이즈, 공유되는 완전 연결층의 수, 각 완전 연결층(each FC layer) 내 유닛(예컨대, 노드)의 수, 초기 학습률, 학습률 감쇠 인자(Learning rate reduction factor), 드롭아웃 확률, 배치 사이즈, 페널티 항(P)의 계수 중 적어도 하나를 포함할 수도 있다.
상기 하이퍼 파라미터의 학습 방식은, 예를 들어 트리 구조의 파르젠 추정(tree-structured Parzen estimation) 방식을 포함할 수도 있으나, 이에 제한되진 않는다. 일 예에서, 도 2 또는 도 3의 인공 신경망에 대해서 수백번(대략 500번)으로 파르젠 추정을 사용하여 전술한 하이퍼 파라미터가 최적화될 수도 있다.
상기 인공 신경망은 보다 적은 규모의 훈련 데이터 세트를 사용하여 학습되어도 상대적으로 높은 성능을 가질 수도 있다. 환자의 니즈를 나타내는 태스크는 다수의 그룹으로 분류 가능하지만, 각 그룹(예컨대, 메인 태스크, 제1 보조 태스크, 또는 제2 보조 태스크) 사이에는 서로 관련성이 있다. 상기 인공 신경망은 공유 네트워크의 중간 출력을 다수의 유형의 태스크를 결정하는 능력을 위해 사용하므로, 효율적인 학습이 가능하다.
추가적으로, 상기 결정 모델(D)은 전술한 니즈의 예측 이외에도, 환자의 진단 및 환자의 향후 치료 위치 배정 결과를 알아 내도록 구성 및 훈련될 수도 있다. 이 경우, 상기 결정 모델(D)은 전술한 환자의 니즈를 예측하고, 그리고 환자의 진단 및 환자의 향후 치료 위치 배정 결과를 알아내는, 다중 범주 예측/분류 태스크((multi-categories prediction/classification tasks) 기능을 갖도록 구성 및 훈련될 수도 있다.
상기 예측 시스템(1)이 본 명세서에 서술되지 않은 다른 구성요소를 포함할 수도 있다는 것이 통상의 기술자에게 명백할 것이다. 예를 들어, 상기 예측 시스템(1)은 네트워크 인터페이스, 데이터 엔트리를 위한 입력 장치, 및 디스플레이, 인쇄 또는 다른 데이터 표시를 위한 출력 장치를 포함하는, 본 명세서에 서술된 동작에 필요한 다른 하드웨어 요소를 포함할 수도 있다.
본 발명의 다른 일 측면에 따른 병원 리소스에 대한 환자의 니즈 예측 방법은 프로세서를 포함한 컴퓨팅 장치(예를 들어, 도 1의 시스템(1))에 의해 수행될 수도 있다. 이하, 설명의 명료성을 위해, 상기 도 1의 시스템(1)에 의해 수행되는 실시예들에 기초하여 본 발명을 보다 상세하게 서술한다.
도 4는, 본 발명의 일 실시예에 따른, 병원 리소스에 대한 환자의 니즈 예측 방법이 흐름도이다.
도 4를 참조하면, 도 1을 참조하면, 상기 병원 리소스에 대한 환자의 니즈 예측 방법은: 환자 자료를 획득하는 단계(S100)를 포함한다. 상기 환자 자료는 정형화 자료 및 자연어 자료를 포함한다. 상기 정형화 자료는 환자의 인구통계학적 정보 및 환자의 측정 정보 중 하나 이상을 포함한다. 상기 인구통계학적 정보는 성별 및 나이 중 하나 이상의 정보를 포함한다. 상기 측정 정보는 동공 상태, 수축기(SBP) 혈압, 이완기(DBP) 혈압, 맥박, 호흡률, 체온, 의식 수준, 초기 O2 포화도 중 하나 이상의 측정 항목에 대한 측정 값을 포함한다. 상기 자연어 자료는 제1 유형의 정보로서 환자의 현재 질병 정보를 포함한다. 또한, 상기 자연어 자료는 제2 유형의 정보로서, 주증상 관련 정보, 부상 관련 정보, 및 과거 관련 정보 중 하나 이상을 포함할 수도 있다.
또한, 상기 병원 리소스에 대한 환자의 니즈 예측 방법은: 환자 자료를 인코딩 처리하는 단계(S300)를 포함한다. 언어 및 숫자로 기록된 환자 자료 내 자연어 자료와 정형화 자료가 숫자형 데이터로 변환된다(S300). 상기 숫자형 데이터는 정보 유형별로 생성될 수도 있다.
상기 단계(S300)는: 측정 정보를 자연어 처리하여 숫자형 데이터로 변환하는 단계를 포함한다.
또한, 측정 정보의 숫자형 데이터를 사용하여 환자의 측정 행렬(또는 벡터)을 형성될 수도 있다(S300). 수치형 자료의 인코딩 결과는 행렬(또는 벡터)로 산출될 수도 있다.
상기 단계(S300)는: 자연어 자료를 자연어 처리하여 상기 자연어 자료를 숫자형 데이터로 변환하는 단계를 포함한다. 상기 단계(S300)는, 자연어 처리를 통해 획득된 현재 질병 정보의 텍스트 데이터를 임베딩 처리하여 제1 유형의 자연어 임베딩 벡터를 산출하고, 자연어 처리를 통해 획득된 상기 자연어 자료의 나머지 정보의 텍스트 데이터를 임베딩 처리하여 제2 유형의 자연어 임베딩 벡터를 산출하는 단계를 포함한다.
또한, 상기 단계(S300)는: 텍스트로 표현된 인구통계학적 정보를 자연어 처리하여 숫자형 데이터로 변환하는 단계를 포함할 수도 있다. 상기 범주형 자료를 자연어 처리함으로써 범주형 자료를 텍스트 데이터로 변환하고 상기 텍스트 데이터의 임베딩 벡터가 산출된다(S300).
일 실시예에서, 상기 단계(S300)는: 자연어 자료의 텍스트 데이터를 정보 유형별로 식별하는 단계를 포함할 수도 있다. 예를 들어, HPI는 제1 유형의 자연어 정보로 식별된다. 식별된 텍스트 데이터의 숫자형 데이터, 즉 임베딩 벡터는 식별된 유형 데이터와 연관된다.
또한, 상기 단계(S300)에서 제1 유형의 자연어 임베딩 벡터는 단어별로 산출될 수도 있다. 상기 제1 유형의 자연어 자료는 단어 단위로 텍스트화되고 단어의 임베딩 벡터가 산출된다.
상기 단계(S300)는, 제1 유형의 자연어 임베딩 벡터, 그리고 상기 제2 유형의 자연어 임베딩 벡터 및 상기 인구통계학적 정보의 임베딩 벡터에 기초한 맥락 임베딩 벡터를 형성하는 단계를 포함할 수도 있다. 자연어 자료 중 제2 유형의 정보 및 범주형 자료의 숫자형 데이터는 단일 임베딩 벡터를 형성하는데 사용된다. 예를 들어, 제2 유형의 자연어 임베딩 벡터와 범주형 자료의 임베딩 벡터는 결합되어 맥락 임베딩 벡터(c)를 형성할 수도 있다.
이러한 전처리 과정을 통해 환자 자료는 숫자형 데이터로 변환되고, 인공 신경망에 적용될 수 있다.
상기 병원 리소스에 대한 환자의 니즈 예측 방법은: 상기 정보 유형별 숫자형 데이터를 인공 신경망에 적용하여 병원 리소스에 대한 환자의 니즈를 예측하는 단계(S500)를 포함한다. 환자 자료를 인코딩한 데이터(예컨대, 문장 내 단어의 임베딩 벡터 등)를 인공 신경망에 적용된다(S500).
상기 인공 신경망은, 상기 숫자형 데이터에 기초하여 상기 환자 자료의 임베딩 행렬을 산출하는 임베딩 모델; 및 상기 임베딩 모델의 출력 값(예컨대, 임베딩 벡터, 임베딩 행렬, 은닉 상태 벡터 등) 및/또는 전처리된 숫자형 데이터 중 적어도 일부(예컨대, 측정 행렬)를 입력 받아 상기 환자 자료가 속하는 태스크를 결정하는 결정 모델을 포함한다. 상기 결정 모델은 해당 환자가 속하는 다중 태스크를 결정할 수도 있다.
일 실시예에서, 상기 결정 모델(D)은 메인 태스크, 제1 보조 태스크 및/또는 제2 보조 태스크를 결정하기 위해, 환자가 해당 태스크(예컨대, 메인 태스크, 제1 보조 태스크 또는 제2 보조 태스크)에 포함된 다수의 태스크 클래스에 속하는지를 분류하는, 다중 이진 분류를 수행하도록 구성될 수도 있다.
예를 들어, 병원 입원, 기관 내 삽관, 기계적 환기, 혈관 압착기 주입, 심장 카테터 삽입, 수술, 중환자실(ICU) 입원, 및 심장마비 중 하나 이상의 태스크 클래스를 포함한 메인 태스크에 대해서 임의의 태스크 클래스에 속할지를 결정함으로써 상기 메인 태스크를 결정하기 위한 다중 이진 분류 동작이 수행될 수도 있다.
또는, 단계(S100)의 환자 자료에 기록된 진단 병명에 대응하는 코드를 결정함으로써, 상기 제1 보조 태스크를 결정하기 위한 다중 이진 분류 동작이 수행될 수도 있다.
또는, 퇴원 여부, 병동 입원 여부, 중환자실 입원 여부, 이송 여부 및 사망 여부 중 어느 하나의 태스크 클래스를 결정함으로써 상기 제2 보조 태스크를 결정하기 위한 다중 이진 분류 동작이 수행될 수도 있다.
결정 모델(D)은 이러한 다중 이진 분류 동작을 통해, 해당 환자에 연관된 메인 태스크, 제1 보조 태스크 및/또는 제2 보조 태스크에 대응한 환자의 니즈를 예측할 수도 있다.
제1 유형의 자연어 임베딩 벡터(e), 맥락 임베딩 벡터(c) 및 측정 행렬(또는 벡터)를 포함한 입력 데이터 세트가 미리 학습된 인공 신경망에 입력된다(S500). 단계(S500)에서 사용되는 인공 신경망은 도 2 또는 도 3의 인공 신경망일 수도 있다.
일 실시예에서, 상기 인공 신경망은 임베딩 모델(E) 및 결정 모델(D)를 포함하고, 상기 단계(S500)는 환자 자료의 임베딩 행렬을 산출하기 위해, 제1 유형의 자연어 임베딩 벡터(E)를 임베딩 모델(E)에 입력하거나, 또는 제1 유형의 자연어 임베딩 벡터(E) 및 맥락 임베딩 벡터(c)를 상기 임베딩 모델(E)에 입력하는 단계(S510);를 포함한다.
도 2의 인공 신경망이 사용될 경우, 제1 유형의 자연어 임베딩 벡터(e)가 임베딩 모델(E)에 입력된다. 제1 유형의 정보가 복수의 단어로 이루어진 경우, 맥락 임베딩 벡터(c)가 초기 은닉 상태로 지정된 임베딩 모델(E)에는 도 2에 도시된 바와 같이 복수의 단어 임베딩 벡터 각각이 순차적으로 입력될 수도 있다. 그러면, 맥락 임베딩 벡터(c)가 제1 유형의 자연어 임베딩 벡터(e)별로 겹쳐쓰여진 성분(elements)을 포함한 출력 행렬H가 형성된다.
도 3의 인공 신경망에이 사용될 경우, 제1 유형의 자연어 임베딩 벡터(e)는 입력 이전에 임베딩 벡터와 결합되어, 임베딩 모델(E)에 입력된다. 복수의 단어의 임베딩 벡터가 상기 인공 신경망에 입력될 경우, 맥락 임베딩 벡터는 복수의 단어의 임베딩 벡터 각각에 결합된다. 도 3의 임베딩 모델(E)은 단어의 임베딩 벡터 및 맥락 임베딩 벡터에 기초한 초기 은닉 상태 벡터를 산출하여 출력 행렬H를 형성한다.
상기 양방향-GRU 기반 은닉층이 롤링 처리를 수행하도록 구성될 경우, 도 3의 맥락 임베딩 벡터는 각각의 새로운 입력 벡터와 함께 양방향-GRU 기반 은닉층에 제공되어 롤링될 수도 있다. 그러면, 초기 은닉 상태에 인코딩된 맥락 임베딩 벡터의 정보가 양방향-GRU 기반 은닉층에서 언롤링 처리가 진행됨에 따라 저하되지 않는다.
상기 출력 행렬H이 문장 임베딩 행렬M으로서 니즈 예측에 사용되거나, 또는 상기 출력 행렬H 및 가중치 행렬A에 기초한 문장 임베딩 행렬M이 니즈 예측에 사용된다.
상기 단계(S500)는: 임베딩 모델(E)에서 출력된 값 및 정형화 자료의 숫자형 데이터, 또는 임베딩 모델(E)에서 출력된 값이 결정 모델(D)에 입력되어 환자의 니즈를 예측하는 단계(S550)를 포함한다.
상기 임베딩 모델(E)에서 출력된 값은 상기 문장 임베딩 행렬M를 포함한다. 또한, 일부 실시예에서, 상기 임베딩 모델(E)에서 출력된 값은 최종 은닉 상태 벡터를 더 포함한다.
상기 정형화 자료의 숫자형 데이터는 측정 행렬일 수도 있다.
단계(S530)에서 메인 태스크 및/또는 제1 보조 태스크를 결정하기 위해, 임베딩 모델(E)에서 출력된 값 및 정형화 자료의 숫자형 데이터가 사용될 수도 있다. 예를 들어, 도 2 또는 도 3에 도시된 바와 같이, 문장 임베딩 행렬M, 최종 은닉 상태 벡터 및 측정 행렬이 공유 네트워크에 입력될 수도 있다.
단계(S530)에서 제2 보조 태스크를 결정하기 위해, 임베딩 모델(E)에서 출력된 값만이 사용될 수도 있다. 예를 들어, 도 2 또는 도 3에 도시된 바와 같이, 문장 임베딩 행렬M, 최종 은닉 상태 벡터가 네트워크(N4, N5, N6)에 입력될 수도 있다.
상기 인공 신경망은, 상기 결정 모델이 훈련 환자의 상기 중간 데이터 세트를 사용하여 다중 태스크를 결정하도록 미리 학습된 것으로서, 입력 데이터에 기초하여 환자의 니즈에 대응하는 태스크를 결정하도록 미리 학습된 파라미터 및/또는 하이퍼 파라미터를 가진다. 인공 신경망의 학습 및 내부 구조, 처리 동작에 대해서는 위에서 서술하였는 바 자세한 설명은 생략한다.
본 발명은 상기 인공 신경망을 통해서 많은 의료 응급 상태에서 일반적으로 단일 결과로 예측할 수 없는 환자의 여러 치료에 대한 니즈를 예측할 수 있다.
또한, 상기 인공 신경망은, 기타 구조화되지 않은 데이터 형식(예컨대, 언어)에 흩어져 있는 특징을 자연어 처리를 통해 사용하여 다양한 예측을 수행할 수 있다. 즉, 자연어 처리를 통해 구조화된 데이터와 구조화되지 않는 데이터 모두 관한 정보를 사용하여 예측 동작을 수행할 수 있다.
실험예
도 5 내지 도 6은, 본 발명의 일 실험예에 따른, 인공 신경망을 사용한 환자 니즈의 예측 성능을 평가한 도면이다.
상기 실험예에서 대략 4,2000개의 환자 자료가 검증을 위해 사용되었다. 상기 인공 신경망은 하나의 메인 태스크, 제1 보조 태스크 및 제2 보조 태스크를 결정하도록 구성되었다. 상기 메인 태스크는 병원 입원 여부, 기관 내 삽관, 기계적 환기(MV, mechanical ventilation), 혈관 압착기 주입, 심장 카테터 삽입(CAG, cardiac catheterization), 수술, 중환자실(ICU) 입원, 및 응급실(ED) 도착 24시간 이내 심장 마비를 포함한다. 상기 제1 보조 태스크는 응급실 진단 병명 코드를 포함한다. 상기 제2 보조 태스크는 퇴원, 병동 입원, 중환자실 입원, 그리고 수술실(OR) 이송 또는 사망의 5개의 성분을 포함한다. 즉, 상기 인공 신경망은 하나의 메인 태스크 및 5개의 보조 태스크(1개의 제1 보조 태스크 및 4개의 제2 보조 태스크)를 포함한다.
상기 실험예에서 응급실 의료 서비스(EMS) 디렉터 경험이 2 년인 또 다른 인간 전문가와 인공 신경망에 무작위 샘플 100개의 환자 자료에서 어텐션 매핑(attention mapping)의 품질이 평가되었다.
어텐션 매핑의 품질을 평가하기 위해, 5점 Likert 척도 기법이 사용되었다. 어텐션 매핑의 패턴은 임상 관련성 측면에서 5 레벨로 평가된다.
도 5a는 도 2의 인공 신경망과 인간 전문가의 예측 성능을 비교한 도면이고, 도 5b는 도 3의 인공 신경망과 인간 전문가의 예측 성능을 비교한 도면이다.
도 5a 및 도 5b를 참조하면, 상기 인공 신경망은 인간 전문가의 평가 결과와 유사한 수준의 성능을 가진다. 특히, 상기 인공 신경망은 기계적 환기(MV, mechanical ventilation) 및 중환자실(ICU) 입원의 니즈를 예측하는데 인간 전문가 보다 우수한 성능을 가진다.
도 6은 5레벨 중 높은 레벨 순으로 3레벨 범위에서 선택된 어텐션 맵의 샘플을 도시한 도면이다. 인공 신경망이 환자 자료의 데이터를 어텐션 매핑한 결과는 환자 자료 상에 시각화될 수도 있다. 상기 실험예에서 어텐션 매핑 결과는 Grad-CAM(gradient-weighted class activation map)을 통해 시각화된다.
도 6에 도시된 각각의 문장이 환자 자료로 입력되면, 입력된 문장이 속하는 태스크를 결정함으로써 환자의 니즈가 예측된다. 상기 인공 신경망은 환자의 니즈를 예측하기 위해 실제 인간이 집중하는 단어와 동일 또는 유사한 단어에 집중하는 성능을 갖는 것이 확인된다.
이상에서 설명한 실시예들에 따른 병원 리소스에 대한 환자의 니즈 예측 방법 및 이를 수행하는 시스템(1)에 의한 동작은 적어도 부분적으로 컴퓨터 프로그램으로 구현되어, 컴퓨터로 읽을 수 있는 기록매체에 기록될 수 있다. 예를 들어, 프로그램 코드를 포함하는 컴퓨터-판독가능 매체로 구성되는 프로그램 제품과 함께 구현되고, 이는 기술된 임의의 또는 모든 단계, 동작, 또는 과정을 수행하기 위한 프로세서에 의해 실행될 수 있다.
상기 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등을 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수도 있다. 또한, 본 실시예를 구현하기 위한 기능적인 프로그램, 코드 및 코드 세그먼트(segment)들은 본 실시예가 속하는 기술 분야의 통상의 기술자에 의해 용이하게 이해될 수 있을 것이다.
이상에서 살펴본 본 발명은 도면에 도시된 실시예들을 참고로 하여 설명하였으나 이는 예시적인 것에 불과하며 당해 분야에서 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 실시예의 변형이 가능하다는 점을 이해할 것이다. 그러나, 이와 같은 변형은 본 발명의 기술적 보호범위 내에 있다고 보아야 한다. 따라서, 본 발명의 진정한 기술적 보호범위는 첨부된 특허청구범위의 기술적 사상에 의해서 정해져야 할 것이다.
본 발명은 4차 산업 기술 중 하나인 기계 학습 기법에 의해 학습된 인공 신경망을 사용하여 병원 리소스에 대한 환자의 니즈를 효율적으로 예측할 수 있어, 의료 분야에서 높은 산업상 이용가능성을 가질 것으로 예상된다.

Claims (23)

  1. 프로세서에 의해 수행되는, 병원 리소스에 대한 환자의 니즈 예측 방법에 있어서,
    언어 및 숫자로 기록된 환자 자료 내 자연어 자료와 정형화 자료를 인코딩하여 정보 유형별 숫자형 데이터를 생성하는 단계; 및
    상기 정보 유형별 숫자형 데이터를 인공 신경망에 적용하여 병원 리소스에 대한 환자의 니즈에 대응하는 태스크를 예측하는 단계를 포함하되,
    상기 인공 신경망은,
    상기 숫자형 데이터 중 적어도 일부에 기초하여 상기 환자 자료의 임베딩 행렬을 산출하는 임베딩 모델; 및
    상기 환자 자료의 임베딩 행렬, 또는 상기 환자 자료의 임베딩 행렬 및 상기 정형화 자료의 숫자형 데이터를 입력받아 상기 환자 자료가 속하는 태스크를 결정하는 결정 모델을 포함하는 것을 특징으로 하는 환자의 니즈 예측 방법.
  2. 제1항에 있어서,
    상기 자연어 자료는 환자의 현재 질병 정보를 포함하고, 상기 정형화 자료는 환자의 인구통계학적 정보 및 환자의 측정 정보 중 하나 이상을 포함하며,
    상기 정보 유형별 숫자형 데이터를 생성하는 단계는,
    상기 자연어 자료를 자연어 처리하는 단계;
    자연어 처리를 통해 획득된 현재 질병 정보의 텍스트 데이터를 임베딩 처리하여 제1 유형의 자연어 임베딩 벡터를 산출하는 단계;
    자연어 처리를 통해 획득된 상기 자연어 자료의 나머지 정보의 텍스트 데이터를 임베딩 처리하여 제2 유형의 자연어 임베딩 벡터를 산출하는 단계;
    상기 정형화 자료를 자연어 처리하는 단계; 및
    자연어 처리를 통해 획득된 상기 상기 인구통계학적 정보의 텍스트 데이터를 임베딩 처리하여 인구통계학적 정보의 임베딩 벡터를 산출하거나, 또는 자연어 처리를 통해 숫자형 데이터로 변환하는 단계를 포함하는 환자의 니즈 예측 방법.
  3. 제2항에 있어서, 상기 병원 리소스에 대한 환자의 니즈에 대응하는 태스크를 예측하는 단계는,
    상기 임베딩 모델에 의해, 상기 제1 유형의 자연어 임베딩 벡터, 그리고 맥락 임베딩 벡터로부터 상기 환자 자료의 임베딩 행렬을 산출하는 단계를 포함하고,
    상기 맥락 임베딩 벡터는 상기 제2 유형의 자연어 임베딩 벡터 및 상기 인구통계학적 정보의 임베딩 벡터에 기초하고,
    상기 임베딩 모델은 입력 데이터의 특징을 추출하여 은닉 상태 벡터를 산출하는, 일방향 또는 양방향 GRU(Gated Recurrent Unit) 기반 은닉층; 및 상기 은닉층의 출력 행렬을 입력 받아 상기 환자 자료의 임베딩 행렬을 산출하는 어텐션층을 포함하는 것을 특징으로 하는 환자의 니즈 예측 방법.
  4. 제3항에 있어서,
    상기 임베딩 모델의 초기 은닉 상태는 상기 맥락 임베딩 벡터로 지정된 것이고,
    상기 병원 리소스에 대한 환자의 니즈에 대응하는 태스크를 예측하는 단계에서, 상기 제1 유형의 자연어 임베딩 벡터를 상기 임베딩 모델의 초기 은닉층에 입력하는 것을 특징으로 하는 환자의 니즈 예측 방법.
  5. 제4항에 있어서,
    상기 임베딩 모델에 복수의 제1 유형의 자연어 임베딩 벡터가 입력될 경우, 상기 복수의 제1 유형의 자연어 임베딩 벡터를 상기 은닉층에 순차적으로 입력하는 것을 특징으로 하는 환자의 니즈 예측 방법.
  6. 제3항에 있어서, 상기 병원 리소스에 대한 환자의 니즈에 대응하는 태스크를 예측하는 단계에서,
    상기 제1 유형의 자연어 임베딩 벡터를 상기 맥락 임베딩 벡터와 결합한 결합 벡터를 상기 임베딩 모델의 초기 은닉층에 입력하는 것을 특징으로 하는 환자의 니즈 예측 방법.
  7. 제3항에 있어서, 상기 병원 리소스에 대한 환자의 니즈에 대응하는 태스크를 예측하는 단계는,
    최종 은닉 상태 벡터로 이루어진 은닉 행렬H를 형성하는 단계를 포함하고,
    상기 어텐션 층은 상기 은닉 행렬H와 어텐션 가중치에 기초한 어텐션 행렬A에 기초한 환자 자료의 임베딩 행렬M을 산출하는 것을 특징으로 하는 환자의 니즈 예측 방법.
  8. 제3항에 있어서, 상기 병원 리소스에 대한 환자의 니즈에 대응하는 태스크를 예측하는 단계는,
    상기 결정 모델에 의해, 상기 환자 자료의 임베딩 행렬 및 최종 은닉 상태 벡터, 및 상기 측정 정보의 숫자형 데이터 중 적어도 상기 환자 자료의 임베딩 행렬을 입력 받는 단계를 포함하고,
    상기 결정 모델은 둘 이상의 층으로 이루어진 완전 연결층을 포함하는 것을 특징으로 하는 것을 특징으로 하는 환자의 니즈 예측 방법.
  9. 제8항에 있어서,
    상기 인공 신경망은 상기 결정 모델이 복수의 훈련 환자에 대한 훈련 데이터 세트를 사용하여 다중 태스크 중 적어도 하나의 태스크를 결정하도록 미리 학습된 것으로서,
    상기 훈련 데이터 세트는 각각의 훈련 환자에 대한 훈련 샘플로 이루어지며, 각 훈련 샘플은 해당 훈련 환자에 대한 환자 자료의 임베딩 행렬, 최종 은닉 상태 벡터, 및 상기 측정 정보의 숫자형 데이터 중 적어도 상기 훈련 환자에 대한 환자 자료의 임베딩 행렬을 포함하는 것을 특징으로 하는 환자의 니즈 예측 방법.
  10. 제8항에 있어서,
    상기 결정 모델은 다중 태스크 중 적어도 하나의 태스크를 결정하기 위해, 해당 태스크에 포함된 복수의 태스크 클래스 중 상기 환자 자료가 속하는 태스크 클래스를 결정하는, 다중 이진 분류를 수행하도록 학습된 것을 특징으로 하는 환자의 니즈 예측 방법.
  11. 제8항에 있어서, 상기 완전 연결층은,
    메인 태스크를 결정하기 위한 제1 네트워크, 제1 보조 태스크를 결정하기 위한 제2 네트워크, 및 제2 보조 태스크를 결정하기 위한 제3 네트워크 중 하나 이상의 네트워크를 포함하고,
    상기 제1 네트워크 또는 제2 네트워크는 상기 환자 자료의 임베딩 행렬 및 최종 은닉 상태 벡터를 입력 받도록 구성되며,
    상기 제3 네트워크는 제2 네트워크는 상기 환자 자료의 임베딩 행렬, 최종 은닉 상태 벡터 및 상기 측정 정보의 숫자형 데이터를 입력 받도록 구성되는 것을 특징으로 하는 환자의 니즈 예측 방법.
  12. 제11항에 있어서, 상기 인공 신경망의 손실 함수는,
    상기 완전 연결층의 태스크별 네트워크 간의 교차 엔트로피 손실 함수의 가중치 합을 나타낸 일 항(term), 그리고
    어텐션 행렬 및 상기 어텐션 행렬의 트랜스폼 행렬, 단위 행렬(identity matrix)에 프로베니우스 표준(Frobenius norm)을 적용한 다른 항을 포함하는 것을 특징으로 하는 환자의 니즈 예측 방법.
  13. 제2항에 있어서,
    상기 자연어 자료는 주증상 관련 정보, 부상 관련 정보, 및 과거 관련 정보 중 하나 이상을 더 포함하고,
    상기 인구통계학적 정보는 성별 및 나이 중 하나 이상의 정보를 포함하는 것을 특징으로 하는 환자의 니즈 예측 방법.
  14. 제2항에 있어서,
    상기 측정 정보는 동공 상태, 수축기(SBP) 혈압, 이완기(DBP) 혈압, 맥박, 호흡률, 체온, 의식 수준, 초기 O2 포화도 중 하나 이상의 측정 항목에 대한 측정 값을 포함하는 것을 특징으로 하는 환자의 니즈 예측 방법.
  15. 제11항에 있어서,
    상기 메인 태스크는 병원 입원, 기관 내 삽관, 기계적 환기, 혈관 압착기 주입, 심장 카테터 삽입, 수술, 중환자실(ICU) 입원, 심장마비 중 하나 이상을 태스크 클래스로 포함하고,
    상기 제1 보조 태스크는 응급실 진단 병명 코드를 태스크 클래스로 포함하고,
    상기 제2 보조 태스크는 퇴원, 병동 입원, 중환자실 입원, 이송 및 사망 중 하나 이상을 태스크 클래스로 포함하는 것을 특징으로 하는 환자의 니즈 예측 방법.
  16. 제1항 내지 제15항 중 어느 하나의 항에 따른 환자의 니즈 예측 방법을 수행하기 위한, 컴퓨터 프로그램이 기록된 컴퓨터 판독가능 기록매체.
  17. 언어 및 숫자로 기록된, 환자의 상태를 표현하는 자연어 자료 및 정형화 자료를 포함한 환자 자료를 획득하는 데이터 획득 장치;
    상기 환자 자료 내 자연어 자료와 정형화 자료를 인코딩하여 정보 유형별 숫자형 데이터를 생성하는 인코딩 모듈; 및
    상기 숫자형 데이터를 인공 신경망에 적용하여 병원 리소스에 대한 환자의 니즈에 대응하는 태스크를 예측하는 예측 모듈을 포함하되,
    상기 인공 신경망은,
    상기 숫자형 데이터 중 적어도 일부에 기초하여 상기 환자 자료의 임베딩 행렬을 산출하는 임베딩 모델; 및
    상기 환자 자료의 임베딩 행렬, 또는 상기 환자 자료의 임베딩 행렬 및 상기 정형화 자료의 숫자형 데이터를 입력받아 상기 환자 자료가 속하는 태스크를 결정하는 결정 모델을 포함하는 것을 특징으로 하는 시스템.
  18. 제17항에 있어서,
    상기 자연어 자료는 환자의 현재 질병 정보를 포함하고, 상기 정형화 자료는 환자의 인구통계학적 정보 및 환자의 측정 정보 중 하나 이상을 포함하며,
    상기 인코딩 모듈은,
    상기 자연어 자료를 자연어 처리하고,
    자연어 처리를 통해 획득된 현재 질병 정보의 텍스트 데이터를 임베딩 처리하여 제1 유형의 자연어 임베딩 벡터를 산출하며,
    자연어 처리를 통해 획득된 상기 자연어 자료의 나머지 정보의 텍스트 데이터를 임베딩 처리하여 제2 유형의 자연어 임베딩 벡터를 산출하고,
    상기 정형화 자료를 자연어 처리하며, 그리고
    자연어 처리를 통해 획득된 상기 상기 인구통계학적 정보의 텍스트 데이터를 임베딩 처리하여 인구통계학적 정보의 임베딩 벡터를 산출하거나, 또는 자연어 처리를 통해 숫자형 데이터로 변환하도록 구성된 것을 특징으로 하는 시스템.
  19. 제18항에 있어서, 상기 예측 모듈은,
    상기 임베딩 모델에 의해, 상기 제1 유형의 자연어 임베딩 벡터, 그리고 맥락 임베딩 벡터로부터 상기 환자 자료의 임베딩 행렬을 산출하도록 구성되고,
    상기 맥락 임베딩 벡터는 상기 제2 유형의 자연어 임베딩 벡터 및 상기 인구통계학적 정보의 임베딩 벡터에 기초하고,
    상기 임베딩 모델은 입력 데이터의 특징을 추출하여 은닉 상태 벡터를 산출하는, 일방향 또는 양방향 GRU(Gated Recurrent Unit) 기반 은닉층; 및 상기 은닉층의 출력 행렬을 입력 받아 상기 환자 자료의 임베딩 행렬을 산출하는 어텐션층을 포함하는 것을 특징으로 하는 시스템.
  20. 제18항에 있어서,
    상기 임베딩 모델의 초기 은닉 상태는 맥락 임베딩 벡터로 지정된 것이고,
    상기 예측 모듈은,
    상기 제1 유형의 자연어 임베딩 벡터를 상기 임베딩 모델의 초기 은닉층에 입력하는 것을 특징으로 하는 시스템.
  21. 제18항에 있어서, 상기 예측 모듈은,
    상기 제1 유형의 자연어 임베딩 벡터를 맥락 임베딩 벡터와 결합한 결합 벡터를 상기 임베딩 모델의 초기 은닉층에 입력하는 것을 특징으로 하는 시스템.
  22. 제18항에 있어서, 상기 예측 모듈은,
    상기 환자 자료의 임베딩 행렬 및 최종 은닉 상태 벡터, 및 상기 측정 정보의 숫자형 데이터 중 적어도 상기 환자 자료의 임베딩 행렬을 상기 결정 모델에 입력하는 것을 특징으로 하는 시스템.
  23. 제17항에 있어서,
    상기 결정 모델이 훈련 환자의 중간 데이터 세트를 사용하여 다중 태스크 중 적어도 하나의 태스크를 결정하도록 상기 인공 신경망을 학습하는 학습 모듈을 더 포함하되,
    상기 훈련 데이터 세트는 각각의 훈련 환자에 대한 훈련 샘플로 이루어지며, 각 훈련 샘플은 해당 훈련 환자에 대한 환자 자료의 임베딩 행렬, 최종 은닉 상태 벡터, 및 측정 정보의 숫자형 데이터 중 적어도 상기 훈련 환자에 대한 환자 자료의 임베딩 행렬을 포함하는 것을 특징으로 하는 시스템.
KR1020200171441A 2020-05-20 2020-12-09 병원 리소스에 대한 환자 니즈 예측 방법 및 시스템 KR102429319B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US17/926,653 US20230317257A1 (en) 2020-05-20 2021-05-20 Method and system for predicting needs of patient for hospital resources
PCT/KR2021/006287 WO2021235866A1 (ko) 2020-05-20 2021-05-20 병원 리소스에 대한 환자 니즈 예측 방법 및 시스템
EP21808663.5A EP4156202A1 (en) 2020-05-20 2021-05-20 Method and system for predicting needs of patient for hospital resources

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020200060548 2020-05-20
KR20200060548 2020-05-20

Publications (2)

Publication Number Publication Date
KR20210143635A KR20210143635A (ko) 2021-11-29
KR102429319B1 true KR102429319B1 (ko) 2022-08-04

Family

ID=78698107

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200171441A KR102429319B1 (ko) 2020-05-20 2020-12-09 병원 리소스에 대한 환자 니즈 예측 방법 및 시스템

Country Status (4)

Country Link
US (1) US20230317257A1 (ko)
EP (1) EP4156202A1 (ko)
KR (1) KR102429319B1 (ko)
WO (1) WO2021235866A1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114757549B (zh) * 2022-04-24 2023-06-27 中交第二航务工程勘察设计院有限公司 内河干流航道水上服务区功能与规模决策方法
CN116612870B (zh) * 2023-07-17 2023-10-10 山东圣剑医学研究有限公司 一种普外科患者数据管理方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180365560A1 (en) 2017-06-19 2018-12-20 International Business Machines Corporation Context aware sensitive information detection
US20190133480A1 (en) 2017-11-08 2019-05-09 Koninklijke Philips N.V. Discretized embeddings of physiological waveforms
US20190287684A1 (en) 2018-03-16 2019-09-19 Vvc Holding Corporation Medical system interface apparatus and methods to classify and provide medical data using artificial intelligence
JP2019185748A (ja) 2018-04-12 2019-10-24 バイドゥ ユーエスエイ エルエルシーBaidu USA LLC インタラクティブ言語習得のシステム、及び方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090001551A (ko) 2007-04-25 2009-01-09 연세대학교 산학협력단 응급 의료자원 관리장치 및 시스템
KR101808836B1 (ko) * 2016-02-29 2017-12-14 경희대학교 산학협력단 학습 장치, 학습 시스템, 그리고 이를 이용한 학습 방법
US9984772B2 (en) * 2016-04-07 2018-05-29 Siemens Healthcare Gmbh Image analytics question answering

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180365560A1 (en) 2017-06-19 2018-12-20 International Business Machines Corporation Context aware sensitive information detection
US20190133480A1 (en) 2017-11-08 2019-05-09 Koninklijke Philips N.V. Discretized embeddings of physiological waveforms
US20190287684A1 (en) 2018-03-16 2019-09-19 Vvc Holding Corporation Medical system interface apparatus and methods to classify and provide medical data using artificial intelligence
JP2019185748A (ja) 2018-04-12 2019-10-24 バイドゥ ユーエスエイ エルエルシーBaidu USA LLC インタラクティブ言語習得のシステム、及び方法

Also Published As

Publication number Publication date
EP4156202A1 (en) 2023-03-29
KR20210143635A (ko) 2021-11-29
US20230317257A1 (en) 2023-10-05
WO2021235866A1 (ko) 2021-11-25

Similar Documents

Publication Publication Date Title
US20210183484A1 (en) Hierarchical cnn-transformer based machine learning
CN109637669B (zh) 基于深度学习的治疗方案的生成方法、装置及存储介质
Prasadl et al. An approach to develop expert systems in medical diagnosis using machine learning algorithms (asthma) and a performance study
CN108027698A (zh) 用于分析医疗保健数据的系统和方法
Kale et al. Causal phenotype discovery via deep networks
KR102429319B1 (ko) 병원 리소스에 대한 환자 니즈 예측 방법 및 시스템
Fakhfakh et al. ProgNet: Covid-19 prognosis using recurrent and convolutional neural networks
CN113707307A (zh) 病情分析方法、装置、电子设备及存储介质
CN115497616A (zh) 一种感染性疾病辅助决策的方法、系统、设备及存储介质
CN112908452A (zh) 事件数据建模
CN114724710A (zh) 突发事件的应急方案推荐方法、装置及存储介质
CN114708976A (zh) 辅助诊断技术的方法、装置、设备及存储介质
US11954442B2 (en) Neural symbolic reader
US11281855B1 (en) Reinforcement learning approach to decode sentence ambiguity
CN112035627A (zh) 自动问答方法、装置、设备及存储介质
CN114627993A (zh) 信息预测方法、装置、存储介质及计算机设备
CN113658688A (zh) 基于无分词深度学习的临床决策支持方法
Li et al. Clinical outcome prediction under hypothetical interventions--a representation learning framework for counterfactual reasoning
Vineeth et al. Smart Health Care Chatbot for Prognosis of Treatments and Disease Diagnosis Using Machine Learning
Gurjar et al. Mental Health Prediction Using Machine Learning
Das et al. Application of neural network and machine learning in mental health diagnosis
US20230317279A1 (en) Method and system for medical diagnosis using graph embeddings
Dao et al. Patient Similarity using Electronic Health Records and Self-supervised Learning
Stubbs Multiple neural network approaches to clinical expert systems
Khan et al. Computational Intelligent Models for Alzheimer's Prediction Using Audio Transcript Data

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant