KR20230014384A - 심층 신경망 네트워크 모델 및 전이 학습을 이용하여 전자의무기록으로부터 저밀도 지질단백질 콜레스테롤 예측 방법 및 예측 시스템 - Google Patents

심층 신경망 네트워크 모델 및 전이 학습을 이용하여 전자의무기록으로부터 저밀도 지질단백질 콜레스테롤 예측 방법 및 예측 시스템 Download PDF

Info

Publication number
KR20230014384A
KR20230014384A KR1020210095660A KR20210095660A KR20230014384A KR 20230014384 A KR20230014384 A KR 20230014384A KR 1020210095660 A KR1020210095660 A KR 1020210095660A KR 20210095660 A KR20210095660 A KR 20210095660A KR 20230014384 A KR20230014384 A KR 20230014384A
Authority
KR
South Korea
Prior art keywords
dnn
ldl
system server
emr
server
Prior art date
Application number
KR1020210095660A
Other languages
English (en)
Inventor
어영
황상원
권찬우
서동민
Original Assignee
연세대학교 원주산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 연세대학교 원주산학협력단 filed Critical 연세대학교 원주산학협력단
Priority to KR1020210095660A priority Critical patent/KR20230014384A/ko
Publication of KR20230014384A publication Critical patent/KR20230014384A/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Epidemiology (AREA)
  • Theoretical Computer Science (AREA)
  • Primary Health Care (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

본 발명은 심층 신경망 네트워크 모델 및 전이 학습을 이용하여 전자의무기록(Electronic Medical Record, EMR)으로부터 저밀도 지질단백질 콜레스테롤 예측 방법 및 예측 시스템에 관한 것으로, 본 발명의 저밀도 지질단백질 콜레스테롤 예측 방법 및 시스템은 EMR 시스템 서버와 DNN 시스템 서버를 분리하여, 기존 시스템 환경을 최대한 유지하면서, EMR 시스템 서버의 운영에 영향을 최소화하고, 시스템 관리자가 관리해야 할 시스템의 업무 부담을 최소화할 수 있는 장점이 있다. 또한, 본 발명의 저밀도 지질단백질 콜레스테롤 예측 방법 및 시스템은 심층 신경망 네트워크 모델뿐만 아니라 전이 학습을 적용하여 미세 조정함으로써 보다 정확한 저밀도 지질단백질 콜레스테롤 수치를 예측할 수 있다.

Description

심층 신경망 네트워크 모델 및 전이 학습을 이용하여 전자의무기록으로부터 저밀도 지질단백질 콜레스테롤 예측 방법 및 예측 시스템{METHOD AND SYSTEM FOR ESTIMATING LOW DENSITY LIPOPROTEIN CHOLESTEROL OF ELECTRONIC MEDICAL RECORD USING DNN MODEL TRANSFER LEARNING FROM}
본 발명은 심층 신경망 네트워크 모델 및 전이 학습을 이용하여 전자의무기록(Electronic Medical Record, EMR)으로부터 저밀도 지질단백질 콜레스테롤 예측 방법 및 예측 시스템에 관한 것이다.
저밀도 지질단백질 콜레스테롤(LDL-C)은 죽상동맥경화증의 병태 생리학에서의 역할로 인해 심혈관 질환(CVD)의 주요 표적 중 하나이다.
LDL-C의 측정의 참고방법으로는 베타 정량법(β-quantification)이 있으나, 이 방법은 검사가 복잡하고 시간이 많이 걸리며, 비싼 기구들과 숙련된 검사인원이 필요하기 때문에 일상적인 검사로 사용하기에는 부적합하다.
현재 LDL-C 측정을 위해 직접 측정법인 균질법(homogenous assay)과 Freidewald 공식에 의한 계산법이 가장 널리 쓰이고 있다. Friedewald 공식은 Very Low Density Lipoprotein(VLDL)-콜레스테롤에 대한 중성지방(Triglyceride, TG)의 비율(TG:VLDL-C)이 5라고 가정한다. 이 두 가지 방법으로 측정한 LDL-C 수치는 일치하지는 않지만 좋은 상관관계를 보인다는 연구들이 발표되어 왔었지만, 중성지방 농도가 아주 높거나 여러 가지 병적인 상태에서는 Freidewald 공식을 사용할 수 없다는 것은 이미 잘 알려져 있다.
최근 Martin 등은 TG:VLDL-C 비율을 고정된 값이 아닌 TG와 non-High Density Lipoprotein(HDL)-C의 수준에 따라 분류된 하위 집단 각각에 최적화된 TG:VLDL-C 비율을 적용하였다. 이 새로운 방법은 기존의 Friedewald 공식에 비해 LDL-C 실측값과 추정 값의 오차가 유의하게 작았으며, 특히 LDL-C 70 mg/dL 미만에서 가장 큰 위험수준 분류 일치도의 개선이 있었다고 보고했다.
그들은 TG와 non-HDL-C의 수준에 따라 피험자를 나누어, 180개의 그룹(클러스터라고도 함)을 생성했다. 180개 그룹에 대해 180개의 방정식이 만들어져 Novel 방법이라는 추정 방법에 통합되었다.
대한민국 공개특허 제10-2017-0101300호 2017. 09. 05.
Hwang et al., Deep LDL-EHR: Real-time Routine Clinical Application of Deep Neural Network for Estimating Low-Density Lipoprotein Cholesterol on Electronic Health Record, JMIR Medical Informatics (2021).
본 발명은 전자의무기록 시스템(EMR)에 있는 중성지방(Triglyceride, TG), 총 콜레스테롤(Total Cholesterol, TC), 고밀도 지질단백질 콜레스테롤(High Density Lipoprotein Cholesterol, HDL-C) 데이터를 기반으로 심층신경망(Deep Neural Network, DNN)를 구축하여 생성한 저밀도 지질단백질 콜레스테롤(Low Density Lipoprotein, LDL-C) 예측 모델을 전이학습(Transfer Learning, TL) 기법으로 지속적으로 개선하는 시스템 및 저밀도 지질단백질 콜레스테롤(Low Density Lipoprotein, LDL-C) 예측 방법에 관한 것이다.
전이학습은 사전 훈련된 DNN이 새로운 작업을 학습하도록 미세 조정하는 과정이다. 전이학습을 사용하면 신경망을 처음부터 새로 훈련시키지 않고, 기존 훈련된 모델과 신규 데이터를 사용하여 훈련 모델을 개선할 수 있다.
본 발명을 위해 180개의 퍼셉트론으로 LDL-C를 예측하는 모델을 만들고, 해당 모델에 원주세브란스기독병원에서 지속적으로 수집하는 데이터를 기반으로 전이학습을 수행하여 LDL-C 예측 정확도를 향상시키는 것을 목표로 하고 있다.
본 발명은 상기 과제를 해결하고자, EMR 시스템과 연계된 DNN 모델을 이용한 LDL-C 예측 방법을 제공하며, 상기 예측 방법은 1) EMR 시스템의 서버에 의해, 총 콜레스테롤(Total Cholesterol, TC)(X1), 고밀도 지질 단백질 콜레스테롤(High Density Lipoprotein Cholesterol, HDL-C)(X2) 및 트리글리세라이드(Triglyceride, TG)(X3)의 특정 값을 입력으로 수신하는 단계; 2) 상기 EMR 시스템의 서버에 의해, 상기 수신된 입력을 EMR 데이터베이스에 저장하는 단계; 3) 상기 EMR 시스템의 서버에 의해, 상기 수신된 입력을 DNN 시스템 서버로 전송하는 단계; 4) 상기 DNN 시스템 서버에 의해, 상기 수신된 입력에 기초하여, DNN 모델을 이용하여 LDL-C 값을 예측하는 단계; 5) 상기 DNN 시스템 서버에 의해, 상기 DNN 모델을 전이 학습하는 단계; 6) 상기 DNN 시스템 서버에 의해, 최종 예측된 LDL-C 값을 상기 EMR 시스템의 서버로 전송하는 단계; 7) 상기 EMR 시스템의 서버에 의해, 상기 LDL-C 값을 상기 EMR 데이터베이스에 저장하고 출력하는 단계를 포함할 수 있다.
상기 DNN 모델은 6개의 은닉 레이어(hidden layer)를 포함하고, 상기 각 은닉 레이어에는 30개의 은닉 노드(hidden node)를 포함할 수 있으나 이에 제한되는 것은 아니다.
상기 은닉 레이어는 DNN 모델에 포함된 ReLU(rectified linear unit) 함수의 비선형성과 연결될 수 있으나, 이에 제한되는 것은 아니다.
상기 DNN 시스템 서버에 의해, 구체적으로 DNN 모델을 이용하여 상기 노드의 응답(z)은 [수학식 1] 및 [수학식 2]에 의하여 산출될 수 있다:
[수학식 1]
Figure pat00001
,
[수학식 2]
Figure pat00002
,
여기서 i는 1, 2 및 3 중 어느 하나이고,
wi는 가중치 파라미터로 트레이닝 데이터 세트에 의하여 학습된다.
상기 DNN 시스템 서버에 의해, 구체적으로 DNN 모델을 이용하여 LDL-C 값을 예측한 이후, 상기 DNN 시스템 서버에 의해, 교차 검증 단계를 더 포함할 수 있으나, 이에 제한되는 것은 아니다.
상기 교차 검증 단계는 상기 DNN 시스템 서버에 의해, 트레이닝 데이터 세트를 이용한 5중 교차 검증(fivefold cross-validation) 단계를 포함할 수 있으나, 이에 제한되는 것은 아니다.
상기 5중 교차 검증 단계는 a) 상기 DNN 시스템 서버에 의해, 트레이닝 샘플을 무작위로 5개의 동일한 부분으로 분할하는 단계; b) 상기 DNN 시스템 서버에 의해, 한 부분(one part)을 선택하고, 나머지 4개의 부분을 DNN 훈련을 위한 하위 집합으로 병합하는 단계; c) 상기 DNN 시스템 서버에 의해, 단일 부분(single part)을 사용하여 DNN의 예측 오류를 계산하는 단계; d) 상기 DNN 시스템 서버에 의해, 오류 계산에 사용된 부분을 다음 부분으로 교체하여 상기 b) 및 c) 단계를 반복하는 단계를 포함할 수 있으나, 이에 제한되는 것은 아니다.
본 발명의 다른 실시 예에서, EMR 시스템 서버 및 DNN 시스템 서버를 포함하는 LDL-C 예측 시스템을 제공하며, 상기 EMR 시스템 서버는 사용자 인터페이스로부터 TC(X1), HDL-C(X2) 및 TG(X3)의 특정 값을 입력으로 수신하는 통신부; 상기 수신된 특정 값을 식별하는 제어부; 상기 수신된 특정 값을 저장하는 EMR 데이터베이스를 포함하는 저장부를 포함하고, 상기 DNN 시스템 서버는 상기 EMR 시스템의 서버로부터 상기 특정 값을 수신하는 통신부; DNN 모델을 저장하고, 상기 DNN 모델 및 전이 학습을 이용하여 LDL-C 값을 예측하는 제어부를 포함할 수 있다.
상기 DNN 시스템 서버의 통신부는 예측된 LDL-C 값을 상기 EMR 시스템 서버로 전송하고, 상기 EMR 시스템의 통신부는 상기 수신된 LDL-C 값을 상기 사용자 인터페이스로 송신할 수 있으나 이에 제한되는 것은 아니다.
상기 EMR 시스템의 저장부는 상기 수신된 LDL-C 값을 EMR 데이터베이스에 저장할 수 있으나 이에 제한되는 것은 아니다.
상기 DNN 시스템 서버 제어부의 DNN 모델은 6개의 은닉 레이어를 포함하고, 상기 각 은닉 레이어에는 30개의 은닉 노드를 포함할 수 있으나, 이에 제한되는 것은 아니다.
상기 노드의 응답(z)은 [수학식 1] 및 [수학식 2]에 의하여 산출될 수 있다:
[수학식 1]
Figure pat00003
,
[수학식 2]
Figure pat00004
,
여기서 i는 1, 2 및 3 중 어느 하나이고,
wi는 가중치 파라미터로 트레이닝 데이터 세트에 의하여 학습된다.
상기 DNN 시스템 서버 제어부는 LPL-C 예측부 및 전이 학습부를 더 포함하고, LPL-C 예측부는 DNN 모델을 이용하여 LDL-C 예측 값을 계산한 이후, 전이 학습부에서 사전 학습된 DNN 모델을 이용하여 전이 학습을 수행할 수 있으나, 이에 제한되는 것은 아니다.
상기 DNN 시스템 서버 제어부는 교차 검증부를 더 포함하고 LDL-C 예측 값을 계산한 이후, 상기 교차 검증부에 의하여 교차 검증 단계를 더 수행할 수 있다.
상기 교차 검증 단계는 트레이닝 데이터 세트를 이용한 5중 교차 검증(fivefold cross-validation) 단계를 포함할 수 있으나, 이에 제한되는 것은 아니다.
상기 5중 교차 검증 단계는 a) 상기 DNN 시스템 서버, 바람직하게는 교차 검증부에 의해, 트레이닝 샘플을 무작위로 5개의 동일한 부분으로 분할하는 단계; b) 상기 DNN 시스템 서버, 바람직하게는 교차 검증부에 의해, 한 부분(one part)을 선택하고, 나머지 4개의 부분을 DNN 훈련을 위한 하위 집합으로 병합하는 단계; c) 상기 DNN 시스템 서버, 바람직하게는 교차 검증부에 의해, 단일 부분(single part)을 사용하여 DNN의 예측 오류를 계산하는 단계; d) 상기 DNN 시스템 서버, 바람직하게는 교차 검증부에 의해, 오류 계산에 사용된 부분을 다음 부분으로 교체하여 상기 b) 및 c) 단계를 반복하는 단계로 수행될 수 있다.
본 발명의 심층 신경망 네트워크 모델 및 전이 학습을 이용하여 전자의무기록(Electronic Medical Record, EMR)으로부터 저밀도 지질단백질 콜레스테롤 예측 방법 및 예측 시스템은 EMR 시스템 서버와 DNN 시스템 서버를 분리하여, 기존 시스템 환경을 최대한 유지하면서, EMR 시스템 서버의 운영에 영향을 최소화하고, 시스템 관리자가 관리해야 할 시스템의 업무 부담을 최소화할 수 있는 장점이 있다.
또한, 본 발명의 저밀도 지질단백질 콜레스테롤 예측 방법 및 시스템은 심층 신경망 네트워크 모델뿐만 아니라 전이 학습을 적용하여 미세 조정함으로써 보다 정확한 저밀도 지질단백질 콜레스테롤 수치를 예측할 수 있다.
도 1은 본 발명의 실시 예에 따른 EMR 시스템 서버 및 DNN 시스템 서버를 포함하는 LDL-C 예측 시스템의 개략적으로 도시한 도면이다.
도 2는 LDL-C 수준을 예측하기 위한 DNN 시스템 서버 내에 포함되어 있는 DNN 모델을 개략적으로 도시한 도면이다.
도 3은 LDL-C 수준을 예측하기 위한 DNN 시스템 서버 내에 포함되어 있는 5중 표차 검증 모델을 개략적으로 도시한 도면이다.
도 4는 LDL-C 수준을 예측하기 위한 DNN 시스템 서버 내에 포함되어 있는 전이 학습 모델을 개략적으로 도시한 도면이다.
도 5는 4가지 LDL 추정 방법의 성능을 비교한 그래프이다. (A) 상한과 하한은 각각 1-표본 t-검정으로 측정한 평균과 t-값을 나타낸다. FW, 프리데발트 방정식; NIH, 국립 보건원 방정식; DNN, 심층 신경망; RMSE, 제곱 평균 제곱근 오차; LDL-C, 저밀도 지질단백질 콜레스테롤.
도 6은 5가지 LDL 추정 방법의 성능을 비교한 그래프이다. (A) 상한과 하한은 각각 1-표본 t-검정으로 측정한 평균과 t-값을 나타낸다. DNN 방법은 도 5의 DNN 모델에 대한 복제 모델이었다. FW, 프리데발트 방정식; NIH, 국립 보건원 방정식; DNN, 심층 신경망; TL, 전이 학습; RMSE, 제곱 평균 제곱근 오차.
도 7은 본 발명의 일 실시예에 따른 EMR 시스템 서버의 기능적 구성을 도시한 도면이다.
도 8은 본 발명의 일 실시예에 따른 DNN 시스템 서버의 기능적 구성을 도시한 도면이다.
이하, 실시 예 및 실험 예를 통해 본 발명을 보다 구체적으로 설명한다. 그러나 이들 예는 본 발명의 이해를 돕기 위한 것일 뿐 어떠한 의미로든 본 발명의 범위가 이들 예로 한정되는 것은 아니다.
본 발명의 명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다.
본 발명의 저밀도 지질단백질 콜레스테롤 예측 시스템은 (1) EMR 시스템 서버와 (2) DNN 시스템 서버의 두 가지 주요 하위 시스템으로 나뉜다. EMR 시스템 서버는 TC(X1), HDL-C(X2) 및 TG(X3)의 수준을 포함한 사용자 입력 데이터를 수신 및 저장하고 이를 DNN 시스템 서버로 전송하는 역할을 한다.
EMR 시스템 서버는 현재 병원에서 실제 운영에 활용 중이며, 상기 EMR 시스템 서버는 (1) 사용자로부터 데이터를 입력 받고 데이터를 수집하는 웹서비스, (2) 사용자가 웹브라우저를 이용하여 웹서비스를 이용할 수 있도록 환경을 구축해주는 웹서버, (3) 입력된 데이터와 계산 결과 데이터를 저장할 수 있는 데이터베이스, (4) 이와 같은 소프트웨어 서비스를 구동하게 해주는 물리 HW 서버(physical HW server)를 포함할 수 있다.
먼저, 웹서비스는 Java 기반의 JSP, servlet 애플리케이션으로 개발되었고, HTML, CSS, Javascript로 UI 화면을 표현하였다. 웹서버는 JSP, Servlet을 지원하는 Apache Tomcat로 구축되었다. 데이터베이스는 Sybase RDBMS(relational database management system)를 사용한다.
상기 DNN 시스템 서버는 수신된 레벨을 기반으로 LDL-C 예측 값을 계산한다. 상기 DNN 시스템 서버는 Python 기반으로 구축되었고, EMR 시스템 서버와 분리되어 운영된다. 또한 DNN 시스템 서버는 EMR 시스템 서버로부터 전달받은 3가지 입력 값(TC, HDL-C, TG)을 가지고 LDL-C를 예측하여 결과를 전달하는 역할만 수행한다.
상기 DNN 시스템 서버는 (1) EMR 시스템이 전달하는 3가지 값을 받는 Flask 기반 웹서비스, (2) 전달받은 값을 입력하여 DNN을 기반으로 예측 값을 계산하는 DNN 모델, (3) High-performance DNN 분석을 수행할 수 있도록 다양한 Python API를 제공해주는 tensorflow 프레임워크, (4) Tensorflow 프레임워크 위에서 복잡한 tensorflow API 대신 손쉽게 neural network를 생성하고 deep learning 등을 수행할 수 있도록 API 라이브러리를 제공해주는 Keras를 포함할 수 있다.
Flask는 EMR 시스템의 요청에서 사용자 입력 데이터를 수신하고 EMR 시스템 서버와 별도로 작동하는 경량 웹 애플리케이션 프레임 워크이다.
Flask는 Apache Tomcat과 동일하게 서버 사이드(server side)와 클라이언트 사이드(client side) 코드를 구분하여 생성할 수 있고, 템플릿 라이브러리 태그(template library tag)에 익숙하다면 쉽게 적응이 가능하다. 앞에서 Tensorflow와 Keras를 기능적으로 분리하여 설명하였지만, 현재는 두 라이브러리가 통합되어 사용된다.
이와 같이 EMR 시스템 서버와 DNN 시스템 서버를 분리하여 설계한 이유는 기존 EMR 시스템 서버의 운영에 영향을 최소화하고, 시스템 관리자가 관리해야 할 시스템의 업무 부담을 줄이기 위함이다.
운영 중인 시스템 환경에 추가적인 응용 시스템을 직접 적용하는 것은 개발 및 시스템 운영 측면에서 부담이 크다. 예를 들어, AI expert는 병원 시스템의 구조 및 운영 환경 개발에 익숙하지 않기 때문에, 직접 운영 시스템에 접근하여 AI 알고리즘을 적용할 경우 운영 중인 시스템에 문제가 발생할 수 있다. 그리고 AI 기술을 모르는 시스템 관리자 및 기술자는 예측 알고리즘의 유지 보수에 부담을 가질 수 있다.
이러한 문제를 해결하고자, 본 발명에서는 기존 시스템 환경을 최대한 유지하고, 관리자의 업무 부담을 최소화하여 진행하는 방법으로 환경을 구축하였다. 이것은 부서간 마찰을 피하고, time-to-market을 지킬 수 있는 가장 효율적인 방법 중 한 가지이다.
프로세스는 다음과 같다. 먼저, EMR 시스템 서버는 HTTP를 이용하여 url의 파라미터에 3가지 레벨(TC, HDL-C, TG)을 키(key)와 값(value)으로 구성하여 DNN 시스템 서버로 요청(request)을 보내고 응답(response)을 대기한다.
DNN 시스템 서버는 전달받은 3개의 파라미터로 LDL-C 예측 값을 계산하고, 이후 전이 학습 데이터 세트를 사용하여 DNN 모델을 사전 학습하고 테스트 데이터 세트를 사용하여 미세조정하고 그 결과를 간단한 텍스트 스트림(text stream) 형태로 응답한다. 대기 중인 EMR 서버는 상기 응답을 받아서 분석(파싱)하여 화면에 출력한다.
본 발명 시스템의 프로세스는 다음과 같다.
1) EMR 시스템 서버는 tomcat 웹 애플리케이션 서버를 기반으로 하는 사용자 인터페이스를 통해 사용자로부터 정보(TC, HDL-C, TG 수준)를 자동으로 수신한다.
2) 사용자 인터페이스는 상기 정보를 EMR 데이터베이스에 저장하고 Flask에서 구축한 DNN 시스템 서버로 전송한다.
3) 상기 정보는 DNN 시스템 서버의 핵심 구성 요소인 DNN 모델의 입력 노드에 포함된다.
4) DNN 모델은 이전에 딥 러닝 단계에서 설정한 DNN 모델을 사용하여 LDL-C 예상 수치를 예측한다.
5) 상기 LDL-C 예측 값을 기반으로 전이 학습을 수행하여 최종 LDL-C 예상 수치를 계산한다.
6) 상기 최종 LDL-C의 예상 수치는 DNN 시스템 서버를 통해 EMR 시스템을 전송한다.
7) EMR 시스템 서버는 데이터베이스의 LDL-C 수준을 업데이트하고 이를 사용자 인터페이스로 전송한다.
8) 마지막으로 사용자 인터페이스는 DNN 모델에서 추정한 LDL-C 수준을 표시한다.
DNN을 이용한 LDL-C 예측 방법은 다음과 같다.
테스트 데이터 세트로는 2008년 9월부터 2013년 3월까지 원주세브란스기독 병원(WSCH)에 기록된 지질단백질 하위 분획 검사 결과를 선정했다. TC, TG, HDL-C 및 LDL-C의 결과가 누락된 데이터는 제외되었다. 이상지질혈증약물을 복용하거나 400 mg/dL 이상의 TG 농도가 높은 데이터는 제외되지 않았다. 모든 지질 프로필은 12시간의 금식 후에 테스트되었다.
총 4,520개의 샘플이 지질 프로파일에 대한 누락된 데이터가 있는 샘플을 제외하고 최종적으로 등록되었다. 모든 피험자는 아침 채혈 전 12시간 동안 금식했으며, 혈액 채취 당일 혈청 샘플에서 TC, TG, HDL-C 및 LDL-C 농도를 측정했다. 환자 기록에 연구 기간 동안 지질단백질 하위 분획 테스트의 여러 테스트 결과가 포함된 경우 데이터 세트에서 첫 번째 결과만 선택되었다. TC, TG, HDL-C 및 LDL-C 결과는 LDL-C 하위 분획 검사 결과가 같은 날 수집된 경우에만 추출되었다.
모든 데이터는 헬싱키 선언에 따라 액세스되었으며 교육 데이터는 WSCH 기관 검토위원회(승인 번호 CR317314)를 준수했다.
LDL-C를 추정하기 위한 DNN 모델의 성능 비교를 위해 Friedewald 방정식(LDL-CF) 및 Martin 등이 개발한 새로운 방법(LDL-CN)이 사용되었으며 다음과 같이 정의된다.
LDL-CF = (TC-HDL-C) - (TG/5)
LDL-CN = (TC-HDL-C) - (TG/X)
LDL-CN에서 X는 180-셀 방법에 따라 조정 가능한 계수이다.
DNN 모델은 TC, HDL-C 및 TG의 세 가지 입력 값을 취하고 LDL-C를 출력으로 추정한다. 상기 모델은 6개의 은닉 레이어로 구성되며 각 은닉 레이어에는 30개의 은닉 노드가 있다.
각 노드에서 입력이 Xi (여기서, i는 1, 2 및 3 중 어느 하나임)로 표시되면 활성화 함수 g(z)를 통해 출력을 얻는다.
[수학식 1]
Figure pat00005
[수학식 2]
Figure pat00006
여기서는 각 은닉 레이어에 비선형성을 적용하기 위해 활성화 함수로 ReLU를 선택했다.
가중치 매개 변수 wi는 훈련 데이터 세트를 사용하여 학습되었다. DNN 모델의 아키텍처는 도 2에 나와 있다. 훈련 데이터 세트를 사용하여 5중 교차 검증을 수행했다(도 3). 교차 검증은 모델 선택에 널리 사용되는 전략이다.
이 기술에 대한 알고리즘은 다음 단계에서 설명된다.
a) 트레이닝 샘플을 무작위로 5개의 동일한 부분으로 분할한다.
b) 한 부분(one part)을 선택하고, 나머지 4개의 부분을 DNN 훈련을 위한 하위 집합으로 병합한다.
c) 단일 부분(single part)을 사용하여 DNN의 예측 오류를 계산한다.
d) 오류 계산에 사용된 부분을 다음 부분으로 교체하여 상기 b) 및 c) 단계를 반복한다.
이 절차는 기본 구조는 동일하지만 가중치와 예측 오류가 다른 5가지 DNN 모델을 생성한다.
본 발명에서는 DNN의 구조를 결정하고 내부적으로 객관적으로 성능을 확인하기 위해 5중 교차 검증을 선택했다. 교차 검증 과정에서 각 DNN의 히든 레이어와 노드를 늘렸고 성능 변화가 관찰되었다.
이 과정 후에 각 레이어에 30개의 노드가 있는 6개의 은닉 레이어로 구성된 DNN이 선택되었다(도 2).
결정된 DNN 구조에 14,812개 샘플로 구성된 국민건강영양조사(KNHANES) 데이터를 적용하여 LDL-C 예측을 위한 최종 DNN 모델을 구성했다. DNN 모델을 외부적으로 검증하기 위해 트레이닝에 포함되지 않은 WSCH(Wonju Severance Christian Hospital)에서 2008년부터 2013년까지 얻은 테스트 데이터 세트를 사용하여 DNN의 예측 오류를 확인했다.
LDL-CF, LDL-CN, DNN을 포함한 각 방법의 성능은 다음과 같이 제곱 오차(Squared error)를 통해 확인되었다.
제곱 오차 = (측정된 LDL-C - 예측된 LDL-C)2
여기서 "측정된 LDL-C"는 기준 사실로 간주되고 "예측된 LDL-C"는 "측정된 LDL-C"의 근사값으로 간주된다.
전이 학습은 상기 DNN 모델을 업그레이드 하기 위하여 사용되었다. 전이 학습에는 일반적으로 대규모 데이터 세트인 소스 도메인(source domain)과 상대적으로 소규모이지만 소스 도메인에 비해 더 구체적인 데이터를 포함하는 대상 도메인(target domain)이 포함된다.
소스 작업(즉, KNHANES 데이터 세트)에서, 정보(즉, 트레이닝 된 가중치)를 추출하고, 대상 작업(즉, WSCH 데이터 세트의 하위 집합)에서 LDL-DNN을 다시 훈련했다(미세 조정(fine-tuning)이라고도 함).
각 LDL-C 추정 방법의 정확도를 평가하고 비교하기 위해 다음 네 가지 지표를 측정했다. 바이어스[추정된 LDL-C(eLDL-C) - 측정된 LDL-C(mLDL-C)]; 평균 제곱근 오차(RMSE); P10 내지 P30; 및 일치성(concordance).
0과 다른 각 추정 방법의 평균 바이어스 정도를 측정하기 위해 1-표본 t-검정(One-sample t-test)을 사용했다.
RMSE는 다음과 같이 측정되었다:
[수학식 3]
Figure pat00007
여기서 Pn(n = 10, 15, 20, 25 및 30)은 mLDL-C ± n % 내에서 각 방법을 사용하여 추정된 LDL-C를 모든 샘플로 나눈 샘플의 비율로 측정되었습니다.
[수학식 4]
Figure pat00008
mLDL-C 및 eLDL-C 값은 다른 연구에서 사용한 Nation Cholesterol Education Program Adult Treatment III 가이드 라인 컷오프에 따라 6개의 하위 그룹으로 분류되었습니다. 일치성(Concordance)은 다음과 같이 측정되었다.
[수학식 5]
Figure pat00009
여기서 A는 특정 범위 내에 mLDL-C가 있는 샘플이고 B는 mLDL-C와 동일한 간격에 있는 eLDL-C가 있는 샘플이다. 통계 분석은 R 프로그래밍 언어 (버전 3.6.4)를 사용하여 수행되었다. 두 그룹을 기반으로 한 연속 변수를 비교하기 위해 t-검정과 Mann-Whitney U 검정을 사용했다. 범주 형 변수(categorical variables)의 경우 카이-제곱 검정을 사용했으며 P 값이 0.05 미만이면 통계적으로 유의한 것으로 간주되었다.
도 5를 참고하면, Novel 방법을 사용하여 추정된 LDL-C 값은 0에서 가장 적게 다르며 Friedewald 방정식(FW) 방법을 사용하는 값은 0에서 가장 많이 편향되었다. DNN 응용 시스템을 사용하는 eLDL-C 수준은 네 가지 방법의 eLDL-C와 mLDL-C 간의 차이 값 중 0에서 두 번째로 편향된 분포를 가졌다(도 5A). 각 방법의 RMSE를 비교할 때 FW 방법이 가장 높은 RMSE를 얻었고 DNN 모델 시스템이 뒤를 이었다. 도 3C-D는 P10 ~ P30 및 각 LDL-C 추정 방법의 일치성을 설명한다. 모든 P10 ~ P30에서 FW 방법은 가장 낮은 비율을 보였고 DNN 응용 시스템은 두 번째로 낮은 비율을 보였다(도 5C).
네 가지 방법에서 얻은 mLDL-C와 eLDL-C 수준으로 계층화된 그룹 간의 일치성을 비교했다. 그 결과 Novel 방법은 mLDL-C 수준 중 70 ~ 129개에서 가장 높은 일치성을 보였고, NIH(National Institutes of Health) 방법은 4가지 방법 중 최대 mLDL-C 수준에 대해 130에서 가장 높은 일치도를 나타냈다(도 5D). 종합적으로 DNN 애플리케이션은 다른 방법에 비해 부정확한 결과를 생성했다.
이러한 한계를 극복하기 위해 본 발명자는 전이 학습(TL) 방법을 적용했다. 2009 ~ 2015년 KNHANES 데이터 세트를 사용하여 사전 학습된 DNN 모델을 생성했다. 다음으로, 사전 훈련된 DNN 모델을 미세 조정하는데 사용된 WSCH 데이터 세트의 30%를 무작위로 선택했다. 위의 4가지 방법과 DNN + TL 방법을 포함한 5가지 방법의 성능을 비교했습니다.
바이어스 및 RMSE를 기반으로 DNN + TL은 0에서 가장 적게 바이어스되었으며 RMSE 값이 가장 낮았다(도 6A-B). 모든 P10 ~ P30에서 DNN + TL 방법은 다른 방법 중에서 가장 높은 비율을 보였다. 특히 P10에서는 DNN + TL 방법의 우수한 성능이 두드러졌다(도 6C). LDL-C 추정 방법의 일치를 위해 DNN + TL 방법은 최소에서 69mg/dL까지 LDL-C 섹션을 제외하고 대부분의 LDL-C 범위에서 비율의 가장 높은 값을 가졌다(도 6D).
도 7은 본 발명의 일 실시예에 따른 EMR 시스템의 서버 장치(400)의 기능적 구성을 도시한 도면이다.
도 7을 참고하면, EMR 시스템의 서버 장치(400)는 통신부(410), 제어부(420), 저장부(430) 및 표시부(440)를 포함할 수 있다.
통신부(410)는 TC(X1), HDL-C(X2) 및 TG(X3)의 특정 값을 입력으로 수신할 수 있다. 상기 TC(X1), HDL-C(X2) 및 TG(X3)의 특정 값은 사용자 인터페이스에 의하여 전송될 수 있으며, 상기 사용자 인터페이스는 TC(X1), HDL-C(X2) 및 TG(X3)의 값을 입력할 수 있는 입력부를 포함할 수 있다.
일 실시예에서, 통신부(410)는 상기 수신된 입력을 DNN 시스템 서버로 전송할 수 있다.
일 실시 예에서, 통신부(410)는 유선 통신 모듈 및 무선 통신 모듈 중 적어도 하나를 포함할 수 있다. 통신부(410)의 전부 또는 일부는 '송신부', '수신부' 또는 '송수신부(transceiver)'로 지칭될 수 있다.
제어부(420)는 수신된 TC(X1), HDL-C(X2) 및 TG(X3)의 특정 값을 식별할 수 있다.
일 실시 예에서, 제어부(420)는 적어도 하나의 프로세서 또는 마이크로(micro) 프로세서를 포함하거나, 또는, 프로세서의 일부일 수 있다. 또한, 제어부(420)는 CP(communication processor)라 지칭될 수 있다. 제어부(420)는 본 발명의 다양한 실시 예에 따른 EMR 시스템의 서버 장치(400)의 동작을 제어할 수 있다.
저장부(430)는 EMR 데이터베이스를 포함하고, 상기 수신된 입력을 EMR 데이터베이스에 저장할 수 있다.
일 실시 예에서, 저장부(430)는 휘발성 메모리, 비휘발성 메모리 또는 휘발성 메모리와 비휘발성 메모리의 조합으로 구성될 수 있다. 그리고 저장부(430)는 제어부(420)의 요청에 따라 저장된 데이터를 제공할 수 있다.
일 실시 예에서, 통신부(410)는 LDL-C 값을 DNN 시스템 서버로부터 수신할 수 있다. 이후, 저장부(430)는 LDL-C 값을 EMR 데이터베이스에 저장할 수 있다.
일 실시 예에서, 상기 통신부(410)는 DNN 시스템 서버로부터 수신된 LDL-C 값을 사용자 인터페이스에 전송할 수 있다.
다른 실시 예에서, 상기 EMR 데이터베이스는 표시부(440)를 더 포함할 수 있으며, 상기 표시부(440)는 LDL-C 값을 출력할 수 있다. 예를 들어, 표시부(440)는 LDL-C 값을 디스플레이 할 수 있다.
일 실시 예에서, 표시부(440)는 EMR 시스템의 서버 장치(400)에서 처리되는 정보를 나타낼 수 있다. 예를 들면, 표시부(440)는 액정 디스플레이(LCD; Liquid Crystal Display), 발광 다이오드(LED; Light Emitting Diode) 디스플레이, 유기 발광 다이오드(OLED; Organic LED) 디스플레이, 마이크로 전자기계 시스템(MEMS; Micro Electro Mechanical Systems) 디스플레이 및 전자 종이(electronic paper) 디스플레이 중 적어도 어느 하나를 포함할 수 있다.
특히 상기 표시부(440)는 사용자 인터페이스일 수 있으며, 상기 사용자가 입력한 특정 값을 처리한 결과, 즉 LDL-C 값을 상기 사용자 인터페이스에 표시할 수 있다.
도 7을 참고하면, EMR 시스템의 서버 장치(400)는 통신부(410), 제어부(420), 저장부(430) 및 표시부(440)를 포함할 수 있다. 본 발명의 다양한 실시 예에서 EMR 시스템의 서버 장치(400)는 도 7에 설명된 구성들이 필수적인 것은 아니어서, 도 8에 설명된 구성들보다 많은 구성들을 가지거나, 또는 그보다 적은 구성들을 가지는 것으로 구현될 수 있다.
도 8은 본 발명의 일 실시 예에 따른 DNN 시스템 서버(500)의 기능적 구성을 도시한 도면이다.
도 8을 참고하면, DNN 시스템 서버(500)는 통신부(510), 제어부(520) 및 저장부(530)를 포함할 수 있고, 상기 제어부(520)는 LDL-C 예측부(521), 교차 검증부(522) 및 전이 학습부(523)를 더 포함할 수 있다.
통신부(510)는 EMR 시스템의 서버(400)로부터 TC(X1), HDL-C(X2) 및 TG(X3)의 특정 값으로 구성된 입력을 수신할 수 있다.
일 실시 예에서, 통신부(510)는 유선 통신 모듈 및 무선 통신 모듈 중 적어도 하나를 포함할 수 있다. 통신부(510)의 전부 또는 일부는 '송신부', '수신부' 또는 '송수신부(transceiver)'로 지칭될 수 있다.
제어부(520)는 LDL-C 예측부(521), 교차 검증부(522) 및 전이 학습부(523)를 더 포함할 수 있으며, 상기 LDL-C 예측부(521)는 상기 통신부(510)로부터 수신된 TC(X1), HDL-C(X2) 및 TG(X3)의 특정 값을 기반으로 DNN 모델을 이용하여 LDL-C 값을 예측할 수 있으며, 상기 교차 검증부(522)는 5중 교차 검증(fivefold cross-validation)을 통하여 상기 DNN 모델에 의하여 예측된 LDL-C 값의 오류를 검증할 수 있다.
상기 전이 학습부(523)는, FPGA 또는 GPU 자원을 이용한 분산 AI 서비스를 제공하기 위해 전이학습을 지원한다. 상기 전이학습은 과도한 컴퓨팅 능력 없이 과거 모델을 새 도메인으로 전이하는 머신 학습의 부문이다. 또한, 상기 전이학습은 도메인의 임베딩 벡터(embedding vector)의 근본적인 분포가 원본 도메인과 다르며, 이를 통해 기존 모델 및 도메인 지식을 재사용할 수 있어 오랜 데이터 세트에 대한 반복 훈련을 피할 수 있다. 상기 전이 학습부(523)는 고정된 특징 추출기(fixed feature extractor), 미세조정(fine-tuning), 미리 학습된 모델(pretrained model) 등을 이용하여 상기 LDL-C 예측부(521)로부터 수신받은 수집데이터를 전이학습한다.
상기 전이 학습부(523)는 대규모 데이터 세트인 소스 도메인(source domain)과 상대적으로 소규모이지만 소스 도메인에 비해 더 구체적인 데이터를 포함하는 대상 도메인(target domain)이 포함된다.
상기 전이 학습부(523)는 상기 LDL-C 예측부(521) 또는 교차 검증부(522)로부터 정보(트레이닝 된 가중치)를 추출하고, 이를 대상 작업에서 미세조정하여 다시 훈련할 수 있다.
따라서 상기 DNN 모델을 이용하여 LDL-C 예측 값을 계산한 이후, 상기 전이 학습부(523)는 사전 학습된 DNN 모델을 이용하여 전이 학습을 수행하여 최종적으로 보다 정확한 LDL-C 값을 예측할 수 있다.
일 실시 예에서, 제어부(520)는 적어도 하나의 프로세서 또는 마이크로(micro) 프로세서를 포함하거나, 또는, 프로세서의 일부일 수 있다. 또한, 제어부(520)는 CP(communication processor)라 지칭될 수 있다. 제어부(520)는 본 발명의 다양한 실시예에 따른 DNN 시스템 서버(500)의 동작을 제어할 수 있다.
일 실시 예에서, 통신부(510)는 LDL-C 값을 상기 EMR 시스템의 서버(400)로 전송할 수 있다.
저장부(530)는 DNN 모델을 저장할 수 있다. 일 실시 예에서, 저장부(530)는 휘발성 메모리, 비휘발성 메모리 또는 휘발성 메모리와 비휘발성 메모리의 조합으로 구성될 수 있다. 그리고 저장부(530)는 제어부(520)의 요청에 따라 저장된 데이터를 제공할 수 있다.
도 8을 참고하면, DNN 시스템 서버(500)는 통신부(510), 제어부(520) 및 저장부(530)를 포함할 수 있다. 본 발명의 다양한 실시 예에서 DNN 시스템 서버(500)는 도 9에 설명된 구성들이 필수적인 것은 아니어서, 도 8에 설명된 구성들보다 많은 구성들을 가지거나, 또는 그보다 적은 구성들을 가지는 것으로 구현될 수 있다.
본 명세서에서는 본 발명을 한정된 실시 예를 중심으로 설명하였으나, 본 발명의 사상적 범위 내에서 다양한 실시 예가 가능하다. 또한 설명되지는 않았으나, 균등한 수단도 또한 본 발명에 그대로 결합하는 것이라 할 것이다. 따라서 본 발명의 진정한 보호범위는 하기 특허청구범위에 의하여 정해져야 할 것이다.

Claims (16)

1) EMR 시스템의 서버에 의해, TC(X1), HDL-C(X2) 및 TG(X3)의 특정 값을 입력으로 수신하는 단계;
2) 상기 EMR 시스템의 서버에 의해, 상기 수신된 입력을 EMR 데이터베이스에 저장하는 단계;
3) 상기 EMR 시스템의 서버에 의해, 상기 수신된 입력을 DNN 시스템의 DNN 시스템 서버로 전송하는 단계;
4) 상기 DNN 시스템 서버에 의해, 상기 수신된 입력에 기초하여, DNN 모델을 이용하여 LDL-C 값을 예측하는 단계;
5) 상기 DNN 시스템 서버에 의해, 상기 DNN 모델을 전이 학습하는 단계;
6) 상기 DNN 시스템 서버에 의해, 최종 예측된 LDL-C 값을 상기 EMR 시스템의 서버로 전송하는 단계;
7) 상기 EMR 시스템의 서버에 의해, 상기 LDL-C 값을 상기 EMR 데이터베이스에 저장하고 출력하는 단계를 포함하는, DNN 모델 및 전이 학습을 이용한 LDL-C 예측 방법.
제1항에 있어서,
상기 DNN 모델은 6개의 은닉 레이어를 포함하고, 상기 각 은닉 레이어에는 30개의 은닉 노드를 포함하는 LDL-C 예측 방법.
제2항에 있어서,
상기 은닉 레이어는 뉴럴 네트워크에 포함된 ReLU(rectified linear unit) 함수의 비선형성과 연결되는 LDL-C 예측 방법.
제2항에 있어서,
상기 DNN 시스템 서버에 의해, 상기 노드의 응답(z)은 [수학식 1] 및 [수학식 2]에 의하여 산출되는 LDL-C 예측 방법:
[수학식 1]
Figure pat00010
,
[수학식 2]
Figure pat00011
,
여기서, i는 1, 2 및 3 중 어느 하나이고,
wi는 가중치 파라미터로 트레이닝 데이터 세트에 의하여 학습된다.
제1항에 있어서,
상기 DNN 시스템 서버에 의해, DNN 모델을 이용하여 LDL-C 예측 값을 계산한 이후, 교차 검증 단계를 더 포함하는 LDL-C 예측 방법.
제5항에 있어서,
상기 교차 검증 단계는 상기 DNN 시스템 서버에 의해, 트레이닝 데이터 세트를 이용한 5중 교차 검증(fivefold cross-validation) 단계를 포함하는 LDL-C 예측 방법.
제6항에 있어서,
상기 5중 교차 검증 단계는
a) 상기 DNN 시스템 서버에 의해, 트레이닝 샘플을 무작위로 5개의 동일한 부분으로 분할하는 단계;
b) 상기 DNN 시스템 서버에 의해, 한 부분(one part)을 선택하고, 나머지 4개의 부분을 DNN 훈련을 위한 하위 집합으로 병합하는 단계;
c) 상기 DNN 시스템 서버에 의해, 단일 부분(single part)을 사용하여 DNN의 예측 오류를 계산하는 단계;
d) 상기 DNN 시스템 서버에 의해, 오류 계산에 사용된 부분을 다음 부분으로 교체하여 상기 b) 및 c) 단계를 반복하는 단계를 포함하는 LDL-C 예측 방법.
EMR 시스템 서버 및 DNN 시스템 서버를 포함하는 LDL-C 예측 시스템으로,
상기 EMR 시스템 서버는 사용자 인터페이스로부터 TC(X1), HDL-C(X2) 및 TG(X3)의 특정 값을 입력으로 수신하는 통신부;
상기 수신된 특정 값을 식별하는 제어부;
상기 수신된 특정 값을 저장하는 EMR 데이터베이스를 포함하는 저장부를 포함하고,
상기 DNN 시스템 서버는 상기 EMR 시스템의 서버로부터 상기 특정 값을 수신하는 통신부;
DNN 모델을 저장하고, 상기 DNN 모델 및 전이 학습을 이용하여 LDL-C 값을 예측하는 제어부를 포함하는 시스템.
제8항에 있어서,
상기 DNN 시스템 서버의 통신부는 예측된 LDL-C 값을 상기 EMR 시스템 서버로 전송하고, 상기 EMR 시스템의 통신부는 상기 수신된 LDL-C 값을 상기 사용자 인터페이스로 송신하는 시스템.
제9항에 있어서,
EMR 시스템의 저장부는 상기 수신된 LDL-C 값을 EMR 데이터베이스에 저장하는 시스템.
제8항에 있어서,
상기 DNN 시스템 서버 제어부의 DNN 모델은 6개의 은닉 레이어를 포함하고, 상기 각 은닉 레이어에는 30개의 은닉 노드를 포함하는 시스템.
제11항에 있어서,
상기 노드의 응답(z)은 [수학식 1] 및 [수학식 2]에 의하여 산출되는 시스템:
[수학식 1]
Figure pat00012
,
[수학식 2]
Figure pat00013
,
여기서, i는 1, 2 및 3 중 어느 하나이고,
wi는 가중치 파라미터로 트레이닝 데이터 세트에 의하여 학습된다.
제8항에 있어서,
상기 DNN 시스템 서버 제어부는 LPL-C 예측부 및 전이 학습부를 더 포함하고, LPL-C 예측부는 DNN 모델을 이용하여 LDL-C 예측 값을 계산한 이후, 전이 학습부에서 사전 학습된 DNN 모델을 이용하여 전이 학습을 수행하여 최종 LDL-C 값을 예측하는 시스템.
제8항에 있어서,
상기 DNN 시스템 서버 제어부는 교차 검증부를 더 포함하고 LDL-C 예측 값을 계산한 이후, 상기 교차 검증부에 의하여 교차 검증 단계를 더 수행하는 시스템.
제14항에 있어서,
상기 교차 검증 단계는 트레이닝 데이터 세트를 이용한 5중 교차 검증(fivefold cross-validation) 단계를 포함하는 시스템.
제15항에 있어서,
상기 5중 교차 검증 단계는
a) 트레이닝 샘플을 무작위로 5개의 동일한 부분으로 분할하는 단계;
b) 한 부분(one part)을 선택하고, 나머지 4개의 부분을 DNN 훈련을 위한 하위 집합으로 병합하는 단계;
c) 단일 부분(single part)을 사용하여 DNN의 예측 오류를 계산하는 단계;
d) 오류 계산에 사용된 부분을 다음 부분으로 교체하여 상기 b) 및 c) 단계를 반복하는 단계로 수행되는 시스템.
KR1020210095660A 2021-07-21 2021-07-21 심층 신경망 네트워크 모델 및 전이 학습을 이용하여 전자의무기록으로부터 저밀도 지질단백질 콜레스테롤 예측 방법 및 예측 시스템 KR20230014384A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210095660A KR20230014384A (ko) 2021-07-21 2021-07-21 심층 신경망 네트워크 모델 및 전이 학습을 이용하여 전자의무기록으로부터 저밀도 지질단백질 콜레스테롤 예측 방법 및 예측 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210095660A KR20230014384A (ko) 2021-07-21 2021-07-21 심층 신경망 네트워크 모델 및 전이 학습을 이용하여 전자의무기록으로부터 저밀도 지질단백질 콜레스테롤 예측 방법 및 예측 시스템

Publications (1)

Publication Number Publication Date
KR20230014384A true KR20230014384A (ko) 2023-01-30

Family

ID=85106021

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210095660A KR20230014384A (ko) 2021-07-21 2021-07-21 심층 신경망 네트워크 모델 및 전이 학습을 이용하여 전자의무기록으로부터 저밀도 지질단백질 콜레스테롤 예측 방법 및 예측 시스템

Country Status (1)

Country Link
KR (1) KR20230014384A (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170101300A (ko) 2014-12-31 2017-09-05 제네럴 일렉트릭 컴퍼니 전자 의료 기록(emr)에 대한 심전도(ecg) 분석을 제공하기 위한 시스템

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170101300A (ko) 2014-12-31 2017-09-05 제네럴 일렉트릭 컴퍼니 전자 의료 기록(emr)에 대한 심전도(ecg) 분석을 제공하기 위한 시스템

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Hwang et al., Deep LDL-EHR: Real-time Routine Clinical Application of Deep Neural Network for Estimating Low-Density Lipoprotein Cholesterol on Electronic Health Record, JMIR Medical Informatics (2021).

Similar Documents

Publication Publication Date Title
Keizer et al. Modeling and simulation workbench for NONMEM: tutorial on Pirana, PsN, and Xpose
Lewis Stepwise versus Hierarchical Regression: Pros and Cons.
Fortmann-Roe Consistent and clear reporting of results from diverse modeling techniques: the A3 method
US8615529B2 (en) Method and apparatus for adapting computer-based systems to end-user profiles
AU2021202521A1 (en) Dynamic search and retrieval of questions
US11024428B2 (en) Automated method and system for screening and prevention of unnecessary medical procedures
Barrett et al. Estimating the association between blood pressure variability and cardiovascular disease: An application using the ARIC Study
Quintana A guide for calculating study-level statistical power for meta-analyses
US11960493B2 (en) Scoring system for digital assessment quality with harmonic averaging
EP3965050A1 (en) Systems and methods for deriving rating for properties
JP2023518220A (ja) 多様なテキストを自動的に生成する方法
Morris Scientists' Perspectives on the Potential for Generative AI in their Fields
WO2005038587A2 (en) Drug model explorer
WO2011126942A2 (en) Systems, methods, and logic for generating statistical research information
Peng et al. A multiparameter regression model for interval‐censored survival data
KR20230014384A (ko) 심층 신경망 네트워크 모델 및 전이 학습을 이용하여 전자의무기록으로부터 저밀도 지질단백질 콜레스테롤 예측 방법 및 예측 시스템
KR20220164363A (ko) 전자의무기록(Electronic Medical Record, EMR) 시스템과 연계된 심층 신경망 네트워크(Deep Neural Network, DNN) 모델을 이용한 저밀도 지질단백질 콜레스테롤(Low Density Lipoprotein Cholesterol, LDL-C) 예측 방법 및 예측 시스템
WO2007145900A2 (en) Method and apparatus for adapting computer-based systems to end-user profiles
US20210343421A1 (en) Data model processing in machine learning employing feature selection using sub-population analysis
US11422989B2 (en) Scoring system for digital assessment quality
Samadi et al. Evaluating digital library effectiveness: A survey at University of Tehran
Kloprogge et al. Statistical power calculations for mixed pharmacokinetic study designs using a population approach
Franklin et al. Incorporating linked healthcare claims to improve confounding control in a study of in-hospital medication use
Clark Health and Demographic Surveillance Systems and the 2030 Agenda: Sustainable Development Goals
Hu et al. Estimating the hazard rate difference from case-cohort studies

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E601 Decision to refuse application