KR102434112B1 - Method and apparatus for generating disease prediction ai model, and system and method for predicting user-customized disease using the same - Google Patents

Method and apparatus for generating disease prediction ai model, and system and method for predicting user-customized disease using the same Download PDF

Info

Publication number
KR102434112B1
KR102434112B1 KR1020220004825A KR20220004825A KR102434112B1 KR 102434112 B1 KR102434112 B1 KR 102434112B1 KR 1020220004825 A KR1020220004825 A KR 1020220004825A KR 20220004825 A KR20220004825 A KR 20220004825A KR 102434112 B1 KR102434112 B1 KR 102434112B1
Authority
KR
South Korea
Prior art keywords
data
disease
user
disease prediction
occurrence
Prior art date
Application number
KR1020220004825A
Other languages
Korean (ko)
Inventor
이정의
Original Assignee
주식회사 에이치디메디
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 에이치디메디 filed Critical 주식회사 에이치디메디
Priority to KR1020220004825A priority Critical patent/KR102434112B1/en
Priority to KR1020220096666A priority patent/KR20230109068A/en
Application granted granted Critical
Publication of KR102434112B1 publication Critical patent/KR102434112B1/en

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0641Shopping interfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • General Physics & Mathematics (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • General Business, Economics & Management (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Technology Law (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

An embodiment of the present invention provides an apparatus for generating an artificial intelligence model that provides customized disease prediction information to a user. The apparatus includes a memory for storing a disease prediction model generation program and a processor for executing the program stored in the memory. The processor is configured to: by executing the disease prediction model generation program, pre-process learning data including medical information of each of a plurality of insurers to generate a learning data set; based on test data including some of the training data included in the training data set, perform performance evaluation including accuracy evaluation for each of the plurality of artificial intelligence to select an artificial intelligence model with the highest performance index among the plurality of artificial intelligence models; set personal data, medical treatment data, and lifestyle data of insurers included in the learning data set as input variables; and create a user-customized disease prediction model by setting the disease occurrence data of the insurers included in the learning data set as an output variable and learning the selected artificial intelligence model based on the learning data set.

Description

질병 예측 모델 생성 방법 및 장치, 이를 이용한 사용자 맞춤형 질병 예측 시스템 및 방법 {METHOD AND APPARATUS FOR GENERATING DISEASE PREDICTION AI MODEL, AND SYSTEM AND METHOD FOR PREDICTING USER-CUSTOMIZED DISEASE USING THE SAME}Method and apparatus for generating a disease prediction model, and a user-customized disease prediction system and method using the same

본 발명은 질병 예측 모델 생성 방법 및 장치, 이를 이용한 사용자 맞춤형 질병 예측 시스템 및 방법에 관한 것으로, 보다 상세하게는, 국민건강보험공단에서 제공하는 의료 정보를 학습하여 사용자에게 발생 가능한 질병 정보를 제공하는 인공지능 모델을 생성하는 방법 및 장치와, 이를 이용한 사용자 맞춤형 질병 예측 시스템 및 방법에 관한 것이다. The present invention relates to a method and apparatus for generating a disease prediction model, and a user-customized disease prediction system and method using the same. A method and apparatus for generating an artificial intelligence model, and a user-customized disease prediction system and method using the same.

최근 현대 사회에서는 암, 심질환, 뇌혈관 질환, 간질환, 당뇨병, 고혈압, 갑상선, 신부선, 녹내장 및 동맥경화와 같은 질환들의 발병률이 계속해서 증가하고 있으며, 발병 나이대 역시 낮아지고 있는 추세이다. Recently, in modern society, the incidence of diseases such as cancer, heart disease, cerebrovascular disease, liver disease, diabetes, high blood pressure, thyroid gland, renal disease, glaucoma, and arteriosclerosis continues to increase, and the age of onset is also decreasing.

종래에는 일반인들이 위와 같은 질환에 걸렸는지 판단하기 위해서는 진료기관을 방문하여 주기적으로 건강 검진을 받아야만 했다. 일반인들이 주기적으로 진료기관에 방문하여 건강 검진을 받지 않을 경우, 질환이 있는 것을 파악하지 못하여 질환 치료 시기를 놓쳐 질환이 악화될 수 있다. 질환의 악화는 질환 자체로 인한 신체적인 문제를 넘어 생활 자체의 위기 및 부정적인 정서를 초래할 수 있다.Conventionally, in order to determine whether the general public has the above diseases, it is necessary to visit a medical institution and receive periodic health check-ups. If the general public does not regularly visit medical institutions and do not receive health check-ups, they may not be able to detect the presence of the disease and may miss the time to treat the disease, which may exacerbate the disease. Aggravation of the disease can lead to a crisis of life itself and negative emotions beyond the physical problems caused by the disease itself.

위와 같은 문제를 방지하기 위해서는 일반인들이 자신의 생활 습관 및 자신의 병력 정보를 바탕으로 미래에 걸릴 가능성이 높은 질환을 파악하고, 해당 질환을 예방하기 위한 예방법을 어디에서나 손쉽게 받을 수 있는 기술이 필요한 상황이다.In order to prevent the above problems, it is necessary for the general public to identify diseases that are most likely to contract in the future based on their lifestyle and medical history information, and a technology that allows them to easily receive preventive measures to prevent the disease from anywhere. to be.

대한민국 등록특허공보 제10-2188766호 (2020.12.1.) (발명의 명칭: 인공지능 기반의 헬스케어 서비스 제공장치)Republic of Korea Patent Publication No. 10-2188766 (2020.12.1.) (Title of the invention: AI-based healthcare service providing device)

본 발명은 사용자 맞춤형 질병 예측 정보를 제공하는 질병 예측 모델을 생성하는 장치 및 방법을 제공하는 것을 일 기술적 과제로 한다. An object of the present invention is to provide an apparatus and method for generating a disease prediction model that provides user-customized disease prediction information.

또한, 본 발명은 사용자의 병력 데이터 및 생활 습관 데이터를 질병 예측 모델에 입력하여, 위 데이터 중 위험 인자에 따라 예측되는 질병의 위험도를 분석하고, 예측된 질병에 대한 증상, 자가진단 및 예방법을 사용자에게 제공하는 사용자 맞춤형 질병 예측 시스템 및 방법을 제공하는 것을 다른 일 기술적 과제로 한다.In addition, the present invention inputs the user's history data and lifestyle data into the disease prediction model, analyzes the risk of disease predicted according to risk factors among the above data, and provides symptoms, self-diagnosis and prevention methods for the predicted disease to the user. Another technical task is to provide a user-customized disease prediction system and method for

또한, 본 발명은 질병 예측 모델을 통해 예측된 질병을 보장하는 보험상품을 사용자에게 추천하는 사용자 맞춤형 질병 예측 시스템 및 방법을 제공하는 것을 본 발명의 또 다른 기술적 과제로 한다.Another technical object of the present invention is to provide a user-customized disease prediction system and method for recommending to a user an insurance product that guarantees a disease predicted through a disease prediction model.

본 발명이 이루고자 하는 기술적 과제들은 상기한 기술적 과제로 제한되지 않으며, 이하의 설명으로부터 본 발명의 또 다른 기술적 과제들이 도출될 수 있다.The technical problems to be achieved by the present invention are not limited to the above technical problems, and other technical problems of the present invention may be derived from the following description.

상술한 기술적 과제를 해결하기 위한 기술적 수단으로서, 본 발명의 제1 측면에 따라 사용자에게 맞춤형 질병 예측 정보를 제공하는 인공지능 모델을 생성하는 방법이 제공된다. 본 방법은, 상기 장치가. 복수의 보험자들 각각의 의료 정보를 포함하는 학습 데이터들을 전처리하여 학습 데이터 세트를 생성하고, 상기 학습 데이터 세트에 포함된 학습 데이터들 중 일부를 포함하는 테스트 데이터를 기초로 복수개의 인공지능 모델들 각각에 대한 정확도 평가를 포함한 성능 평가를 수행하여 상기 복수개의 인공지능 모델들 중 가장 높은 성능 지표를 갖는 인공지능 모델을 선정하고, 그리고 상기 학습 데이터 세트에 포함된 상기 보험자들의 개인 데이터, 진료 데이터 및 생활 습관 데이터를 입력 변수로 설정하고, 상기 학습 데이터 세트에 포함된 상기 보험자들의 질병 발생 데이터를 출력 변수로 설정하여 상기 학습 데이터 세트를 기초로 상기 선정된 인공지능 모델을 학습시켜 사용자 맞춤형 질병 예측 모델을 생성하는 단계를 포함한다. As a technical means for solving the above technical problem, according to the first aspect of the present invention, there is provided a method of generating an artificial intelligence model that provides customized disease prediction information to a user. In the method, the apparatus comprises: A training data set is generated by preprocessing training data including medical information of each of a plurality of insurers, and each of a plurality of artificial intelligence models is based on test data including some of the training data included in the training data set. Selects an AI model having the highest performance index among the plurality of AI models by performing performance evaluation including accuracy evaluation for Habit data is set as an input variable, disease occurrence data of the insurers included in the learning data set is set as an output variable, and the selected artificial intelligence model is trained based on the learning data set to create a user-customized disease prediction model. comprising the steps of creating

또한, 상술한 기술적 과제를 해결하기 위한 기술적 수단으로서, 본 발명의 제2 측면에 따라, 사용자 맞춤형 질병 예측 모델을 생성하는 장치가 제공된다. 본 장치는 질병 예측 모델 생성 프로그램을 저장하는 메모리 및 상기 메모리에 저장된 프로그램을 실행하는 프로세서를 포함하며, 상기 프로세서는, 상기 질병 예측 모델 생성 프로그램을 실행하여, 복수의 보험자들 각각의 의료 정보를 포함하는 학습 데이터들을 전처리하여 학습 데이터 세트를 생성하고, 상기 학습 데이터 세트에 포함된 학습 데이터들 중 일부를 포함하는 테스트 데이터를 기초로 복수개의 인공지능 모델들 각각에 대한 정확도 평가를 포함한 성능 평가를 수행하여 상기 복수개의 인공지능 모델들 중 가장 높은 성능 지표를 갖는 인공지능 모델을 선정하고, 그리고, 상기 학습 데이터 세트에 포함된 상기 보험자들의 개인 데이터, 진료 데이터 및 생활 습관 데이터를 입력 변수로 설정하고, 상기 학습 데이터 세트에 포함된 상기 보험자들의 질병 발생 데이터를 출력 변수로 설정하여 상기 학습 데이터 세트를 기초로 상기 선정된 인공지능 모델을 학습시켜 사용자 맞춤형 질병 예측 모델을 생성하는 것을 수행하도록 구성된다. In addition, as a technical means for solving the above-described technical problem, according to a second aspect of the present invention, an apparatus for generating a user-customized disease prediction model is provided. The apparatus includes a memory storing a disease prediction model generation program and a processor executing the program stored in the memory, wherein the processor executes the disease prediction model generation program to include medical information of each of a plurality of insurers pre-processing the training data to generate a training data set, and perform performance evaluation including accuracy evaluation for each of a plurality of artificial intelligence models based on test data including some of the training data included in the training data set to select an artificial intelligence model having the highest performance index among the plurality of artificial intelligence models, and set personal data, medical treatment data, and lifestyle data of the insurers included in the learning data set as input variables, and setting the disease occurrence data of the insurers included in the learning data set as an output variable, and learning the selected artificial intelligence model based on the learning data set to generate a user-customized disease prediction model.

또한, 상술한 기술적 과제를 해결하기 위한 기술적 수단으로서, 본 발명의 제3 측면에 따라, 단말과 서버의 통신 연결을 통해 사용자에게 맞춤형 질병 예측 정보를 제공하는 방법이 제공된다. 본 방법은, 상기 서버가, 상기 단말로부터 사용자 입력 정보를 수신하고, 국민건강보험공단 서버로부터 수신한 보험자들의 개인 데이터, 진료 데이터, 생활 습관 데이터 및 질병 발생 데이터를 포함하는 학습 데이터 세트를 기초로, 상기 개인 데이터, 진료 데이터 및 생활 습관 데이터를 입력 변수로 하고 상기 질병 발생 데이터를 출력 변수로 하여 학습된 질병 예측 모델을 이용하여, 상기 사용자 입력 정보를 토대로 사용자 질병 예측 정보를 생성하고, 그리고 상기 서버가, 상기 사용자 질병 예측 정보를 상기 단말에게 제공하는 단계를 포함한다. In addition, as a technical means for solving the above technical problem, according to a third aspect of the present invention, there is provided a method of providing customized disease prediction information to a user through a communication connection between a terminal and a server. In this method, the server receives user input information from the terminal, and based on a learning data set including personal data, medical treatment data, lifestyle data, and disease occurrence data of insurers received from the National Health Insurance Corporation server. , generating user disease prediction information based on the user input information by using the disease prediction model learned by using the personal data, medical treatment data, and lifestyle data as input variables and using the disease occurrence data as output variables, and and providing, by the server, the user disease prediction information to the terminal.

또한, 상술한 기술적 과제를 해결하기 위한 기술적 수단으로서, 본 발명의 제4 측면에 따라, 단말과의 통신 연결을 통해 사용자에게 맞춤형 질병 예측 정보를 제공하는 시스템이 제공된다. 본 시스템은, 단말과의 정보 송수신을 수행하는 통신 모듈, 사용자 맞춤형 질병 예측 정보 제공 프로그램을 저장하는 메모리 및 상기 메모리에 저장된 프로그램을 실행하는 프로세서를 포함한다. 상기 프로세서는 상기 사용자 맞춤형 질병 예측 정보 제공 프로그램을 실행하여, 상기 단말로부터 사용자 입력 정보를 수신하고, 국민건강보험공단서버로부터 수신한 보험자들의 개인 데이터, 진료 데이터, 생활 습관 데이터 및 질병 발생 데이터를 포함하는 학습 데이터 세트를 기초로, 상기 개인 데이터, 진료 데이터 및 생활 습관 데이터를 입력 변수로 하고 상기 질병 발생 데이터를 출력 변수로 하여 학습된 질병 예측 모델을 이용하여, 상기 사용자 입력 정보를 토대로 사용자 질병 예측 정보를 생성하고, 그리고, 상기 사용자 질병 예측 정보를 상기 단말에게 제공하는 것을 수행하도록 구성된다. In addition, as a technical means for solving the above technical problem, according to a fourth aspect of the present invention, a system for providing customized disease prediction information to a user through a communication connection with a terminal is provided. The system includes a communication module that transmits and receives information to and from the terminal, a memory that stores a program for providing user-customized disease prediction information, and a processor that executes the program stored in the memory. The processor executes the user-customized disease prediction information providing program, receives user input information from the terminal, and includes personal data, medical treatment data, lifestyle data, and disease occurrence data of the insurers received from the National Health Insurance Corporation server. Predicting user disease based on the user input information by using the disease prediction model learned by using the personal data, medical treatment data, and lifestyle data as input variables and the disease occurrence data as output variables based on the learning data set and generating information, and providing the user disease prediction information to the terminal.

전술한 본 발명의 과제 해결 수단들에 의하면, 본 발명은 사용자 맞춤형 질병 예측 정보를 제공하는 질병 예측 모델을 생성하는 장치를 제공할 수 있다. According to the above-described problem solving means of the present invention, the present invention can provide an apparatus for generating a disease prediction model that provides user-customized disease prediction information.

또한, 본 발명은 사용자의 병력 데이터 및 생활 습관 데이터를 질병 예측 모델에 입력하여, 위 데이터 중 위험 인자에 따라 예측되는 질병의 위험도를 분석하고, 예측된 질병에 대한 증상, 자가진단 및 예방법을 사용자에게 제공하는 시스템을 제공할 수 있다. In addition, the present invention inputs the user's history data and lifestyle data into the disease prediction model, analyzes the risk of disease predicted according to risk factors among the above data, and provides symptoms, self-diagnosis and prevention methods for the predicted disease to the user. We can provide a system that provides

또한, 본 발명은 질병 예측 모델을 통해 예측된 질병을 보장하는 보험상품을 사용자에게 추천하는 시스템을 제공할 수 있다.In addition, the present invention may provide a system for recommending an insurance product that guarantees a disease predicted through a disease prediction model to a user.

도 1은 본 발명의 일 실시예에 따른 질병 예측 모델 생성 장치의 구성을 도시한 블록도이다.
도 2는 본 발명의 다른 실시예에 따른 질병 예측 모델 생성 방법의 순서를 도시한 흐름도이다.
도 3 내지 도 5는 도 2에 도시된 질병 예측 모델 생성 방법의 일부 단계들에 대한 세부 과정들을 도시한 도면이다.
도 6 내지 도 8은 도 3의 학습 데이터 통합 및 전처리 단계에서 통합된 학습 데이터들 간의 상관관계를 분석한 결과를 도시한 도면이다.
도 9는 본 발명의 또 다른 실시예에 따른 사용자 맞춤형 질병 예측 시스템을 나타낸 도면이다.
도 10은 도 9에 도시된 사용자 맞춤형 질병 예측 시스템의 구성을 도시한 블록도이다.
도 11은 도 9에 도시된 단말의 구성을 도시한 블록도이다.
도 12는 본 발명의 또 다른 실시예에 따른 사용자 맞춤형 질병 예측 방법을 설명하는 동작 흐름도이다.
도 13은 도 12에 도시된 사용자 맞춤형 질병 예측 방법의 추가 단계를 설명하기 위해 도시된 도면이다.
1 is a block diagram illustrating a configuration of an apparatus for generating a disease prediction model according to an embodiment of the present invention.
2 is a flowchart illustrating a sequence of a method for generating a disease prediction model according to another embodiment of the present invention.
3 to 5 are diagrams illustrating detailed processes for some steps of the method for generating a disease prediction model shown in FIG. 2 .
6 to 8 are diagrams illustrating the results of analyzing the correlation between the learning data integrated in the learning data integration and pre-processing steps of FIG. 3 .
9 is a diagram illustrating a user-customized disease prediction system according to another embodiment of the present invention.
FIG. 10 is a block diagram illustrating the configuration of the user-customized disease prediction system shown in FIG. 9 .
11 is a block diagram showing the configuration of the terminal shown in FIG.
12 is a flowchart illustrating a user-customized disease prediction method according to another embodiment of the present invention.
FIG. 13 is a diagram illustrating an additional step of the method for predicting a user-customized disease shown in FIG. 12 .

이하에서는 첨부한 도면을 참조하여 본 발명을 상세히 설명하기로 한다. 다만, 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 여기에서 설명하는 실시예들로 한정되는 것은 아니다. 또한, 첨부된 도면은 본 명세서에 개시된 실시예를 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 명세서에 개시된 기술적 사상이 제한되지 않는다. 여기에 사용되는 기술용어 및 과학용어를 포함하는 모든 용어들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 일반적으로 이해하는 의미로 해석되어야 한다. 사전에 정의된 용어들은 관련기술문헌과 현재 개시된 내용에 부합하는 의미를 추가적으로 갖는 것으로 해석되어야 하며, 별도로 정의되지 않는 한 매우 이상적이거나 제한적인 의미로 해석되지 않는다.Hereinafter, the present invention will be described in detail with reference to the accompanying drawings. However, the present invention may be implemented in various different forms, and is not limited to the embodiments described herein. In addition, the accompanying drawings are only for easy understanding of the embodiments disclosed in the present specification, and the technical ideas disclosed in the present specification are not limited by the accompanying drawings. All terms including technical terms and scientific terms used herein should be interpreted as meanings commonly understood by those of ordinary skill in the art to which the present invention belongs. Terms defined in the dictionary should be interpreted as having additional meanings consistent with the related technical literature and the presently disclosed content, and are not interpreted in a very ideal or limiting sense unless otherwise defined.

도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 도면에 나타난 각 구성요소의 크기, 형태, 형상은 다양하게 변형될 수 있다. 명세서 전체에 대하여 동일/유사한 부분에 대해서는 동일/유사한 도면 부호를 붙였다. In order to clearly explain the present invention in the drawings, parts irrelevant to the description are omitted, and the size, shape, and shape of each component shown in the drawings may be variously modified. The same/similar reference numerals are attached to the same/similar parts throughout the specification.

이하의 설명에서 사용되는 구성요소에 대한 접미사 "모듈" 및 “부” 등은 명세서 작성의 용이함만이 고려되어 부여 되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다. 또한, 본 명세서에 개시된 실시예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 명세서에 개시된 실시 예의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략하였다.The suffixes “module” and “part” for components used in the following description are given or mixed in consideration of only the ease of writing the specification, and do not have distinct meanings or roles by themselves. In addition, in describing the embodiments disclosed in the present specification, when it is determined that detailed descriptions of related known technologies may obscure the gist of the embodiments disclosed in the present specification, detailed descriptions thereof are omitted.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결(접속, 접촉 또는 결합)"되어 있다고 할 때, 이는 "직접적으로 연결(접속, 접촉 또는 결합)"되어 있는 경우뿐만 아니라, 그 중간에 다른 부재를 사이에 두고 "간접적으로 연결 (접속, 접촉 또는 결합)"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함(구비 또는 마련)"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 "포함(구비 또는 마련)"할 수 있다는 것을 의미한다. Throughout the specification, when a part is said to be "connected (connected, contacted, or coupled)" with another part, this means not only when it is "directly connected (connected, contacted, or coupled)" but also refers to another member in the middle. It also includes the case of "indirectly connected (connected, contacted, or combined)" between them. Also, when a part "includes (provides or provides)" a component, it does not exclude other components unless otherwise stated, but further "includes (provides or provides)" other components. means you can

본 명세서에서 사용되는 제1, 제2 등과 같이 서수를 나타내는 용어들은 하나의 구성 요소를 다른 구성요소로부터 구별하는 목적으로만 사용되며, 구성 요소들의 순서나 관계를 제한하지 않는다. 예를 들어, 본 발명의 제1구성요소는 제2구성요소로 명명될 수 있고, 유사하게 제2구성요소도 제1구성 요소로 명명될 수 있다. 본 명세서에서 사용되는 단수 표현의 형태들은 명백히 반대의 의미를 나타내지 않는 한 복수 표현의 형태들도 포함하는 것으로 해석되어야 한다. As used herein, terms indicating ordinal numbers such as first, second, etc. are used only for the purpose of distinguishing one element from other elements, and do not limit the order or relationship of the elements. For example, a first component of the present invention may be referred to as a second component, and similarly, a second component may also be referred to as a first component. Forms of the singular expression used herein should be construed to include forms of the plural expression as well, unless the meaning is clearly indicated to the contrary.

도 1은 본 발명의 일 실시예에 따른 질병 예측 모델 생성 장치(100)의 구성을 도시한 블록도이다. 1 is a block diagram illustrating a configuration of an apparatus 100 for generating a disease prediction model according to an embodiment of the present invention.

도 1을 참조하면, 질병 예측 모델 생성 장치(100)는 메모리(110) 및 프로세서(130)를 포함하며, 통신 모듈(120)을 더 포함하여 구성될 수 있다. Referring to FIG. 1 , the apparatus 100 for generating a disease prediction model may include a memory 110 and a processor 130 , and may further include a communication module 120 .

메모리(110)는 질병 예측 모델 생성 프로그램을 저장한다. 또한, 메모리(110)는 프로세서(130) 실행에 따라 생성된 데이터 중 적어도 어느 하나를 저장하도록 구성될 수 있다. 메모리(110)는 전원이 공급되지 않아도 저장된 정보를 계속 유지하는 비휘발성 저장장치 및 저장된 정보를 유지하기 위하여 전력을 필요로 하는 휘발성 저장장치를 통칭하는 것으로 해석되어야 한다. 메모리(110)는 프로세서(130)가 처리하는 데이터를 일시적 또는 영구적으로 저장하는 기능을 수행할 수 있다. 메모리(110)는 저장된 정보를 유지하기 위하여 전력이 필요한 휘발성 저장장치 외에 자기 저장 매체(magnetic storage media) 또는 플래시 저장 매체(flash storage media)를 포함할 수 있으나, 본 발명의 범위가 이에 한정되는 것은 아니다. The memory 110 stores a disease prediction model generation program. Also, the memory 110 may be configured to store at least one of data generated according to the execution of the processor 130 . The memory 110 should be interpreted as a generic term for a non-volatile storage device that continuously maintains stored information even when power is not supplied, and a volatile storage device that requires power to maintain the stored information. The memory 110 may perform a function of temporarily or permanently storing data processed by the processor 130 . The memory 110 may include magnetic storage media or flash storage media in addition to the volatile storage device that requires power to maintain stored information, but the scope of the present invention is not limited thereto. not.

통신 모듈(120)은 외부 장치 또는 서버와 정보 송수신을 수행하여 질병 예측 모델 생성에 필요한 데이터를 송수신할 수 있다. 통신 모듈(120)은 다른 네트워크 장치와 유무선 연결을 통해 제어 신호 또는 데이터 신호와 같은 신호를 송수신하기 위해 필요한 하드웨어 및 소프트웨어를 포함하는 장치를 포함할 수 있다.The communication module 120 may transmit/receive data necessary for generating a disease prediction model by performing information transmission/reception with an external device or server. The communication module 120 may include a device including hardware and software necessary for transmitting and receiving signals such as control signals or data signals through wired/wireless connection with other network devices.

프로세서(130)는 메모리(110)에 저장된 질병 예측 모델 생성 프로그램을 실행하도록 구성된다. 프로세서(130)는 데이터를 제어 및 처리하는 다양한 종류의 장치들을 포함할 수 있다. 프로세서(130)는 프로그램 내에 포함된 코드 또는 명령으로 표현된 기능을 수행하기 위해 물리적으로 구조화된 회로를 갖는, 하드웨어에 내장된 데이터 처리 장치를 의미할 수 있다. 일 예에서, 프로세서(130)는 마이크로프로세서(microprocessor), 중앙처리장치(central processing unit: CPU), 프로세서 코어(processor core), 멀티프로세서(multiprocessor), ASIC(application-specific integrated circuit), FPGA(field programmable gate array) 등의 형태로 구현될 수 있으나, 본 발명의 범위가 이에 한정되는 것은 아니다.The processor 130 is configured to execute a disease prediction model generation program stored in the memory 110 . The processor 130 may include various types of devices for controlling and processing data. The processor 130 may refer to a data processing device embedded in hardware having a physically structured circuit to perform a function expressed as a code or an instruction included in a program. In one example, the processor 130 includes a microprocessor, a central processing unit (CPU), a processor core, a multiprocessor, an application-specific integrated circuit (ASIC), an FPGA ( field programmable gate array), but the scope of the present invention is not limited thereto.

프로세서(130)는 질병 예측 모델 생성 프로그램을 실행하여, 다음과 같은 기능 및 절차들을 수행하도록 구성된다. The processor 130 is configured to execute the disease prediction model generation program to perform the following functions and procedures.

프로세서(130)는 복수의 보험자들 각각의 의료 정보를 포함하는 학습 데이터들을 전처리하여 학습 데이터 세트를 생성한다. 프로세서(130)는 국민건강보험공단 (KNHIS)으로부터 의료 정보를 포함하는 학습 데이터들을 수신한다. 의료 정보는 복수의 보험자들 각각의 보험자격 데이터, 보험료 데이터, 출생 데이터, 사망 데이터, 진료 데이터, 질병 이력 데이터 및 건강검진 데이터를 포함할 수 있다. 예를 들어, 의료 정보는 여러 개로 분류된 엑셀 파일 형식일 수 있다. 학습 데이터는 비정형 데이터이며, 학습 데이터를 전처리한 학습 데이터 세트는 정형화된 데이터이다.The processor 130 pre-processes the training data including medical information of each of the plurality of insurers to generate a training data set. The processor 130 receives learning data including medical information from the National Health Insurance Corporation (KNHIS). The medical information may include insurance eligibility data, insurance premium data, birth data, death data, medical treatment data, disease history data, and health checkup data of each of the plurality of insurers. For example, the medical information may be in the form of an Excel file classified into several. The training data is unstructured data, and the training data set obtained by preprocessing the training data is structured data.

프로세서(130)는 질병 예측 모델 생성 프로그램을 실행하여 학습 데이터들 전처리 시, 의료 정보에서 주상병 데이터, 부상병 데이터, 개인 데이터, 생활 습관 데이터 및 진료 데이터를 학습 데이터 세트의 라벨링 대상인 특징 데이터로 설정하는 것을 더 수행할 수 있다. 프로세서(130)는 학습 데이터들을 하나로 통합하고, 통합된 학습 데이터들에서 복수의 보험자들 각각의 주상병 데이터, 부상병 데이터, 개인 데이터, 생활 습관 데이터 및 진료 데이터를 추출할 수 있다. 프로세서(130)는 주상병 데이터, 부상병 데이터, 개인 데이터, 생활 습관 데이터 및 진료 데이터를 공통 키를 통해 통합한다. 프로세서(130)는 통합된 데이터들 간의 상관관계를 분석하여 데이터 중요도 및 데이터 신뢰도를 파악할 수 있다. 주상병 데이터는 보험자들의 치료나 검사에 대한 요구가 가장 큰 상병 정보를 포함한다. 부상병 데이터는 보험자들의 진료기간 중, 주상병과 함께 있었거나 발생된 병태로서 환자 진료에 영향을 주었던 상병 정보를 포함한다. 개인 데이터는 보험자의 성별 및 나이를 포함한다. 생활 습관 데이터는 흡연량, 흡연일수, 음주일수 및 음주량 정보 등을 포함한다. 진료 데이터는 보험자의 진료 기간 및 진료 날짜, 과거 질병 이력, 최근 질병 이력, 가족 과거 병력, 검진 종류, 약물 치료 병력, 방문 진료과, B형 간염 항원 보유 여부 및 현재 약물 복용 여부 중 적어도 하나 이상을 포함한다. 공통 키는 보험자들의 개인 고유 번호(RN_INDI)일 수 있다. When the processor 130 executes the disease prediction model generation program to pre-process the learning data, the treatment data, personal injury data, injury data, personal data, lifestyle data, and treatment data in the medical information are set as feature data that is the labeling target of the learning data set. more can be done The processor 130 may integrate the learning data into one, and extract each of the plurality of insurers' personal injury data, injury data, personal data, lifestyle data, and medical treatment data from the combined learning data. The processor 130 integrates main-injury data, wounded-injury data, personal data, lifestyle data, and medical treatment data through a common key. The processor 130 may analyze the correlation between the integrated data to determine data importance and data reliability. The main-injury data includes information on the health and illness that insurers have the greatest demand for treatment or testing. Injury data includes information on injuries and diseases that have affected patient care as a condition that occurred with or occurred during the insurers' treatment period. Personal data includes the gender and age of the insurer. The lifestyle data includes information on the amount of smoking, the number of days smoked, the number of days drunk, and the amount of alcohol consumed. Medical data includes at least one or more of the insurer's medical treatment period and treatment date, past disease history, recent disease history, family history, type of examination, medical history, visiting department, hepatitis B antigen holding and current drug use do. The common key may be the insurers' personal unique number (RN_INDI).

프로세서(130)는 Cramer V test, Random Forest 및 Linear Regression 중 적어도 하나의 수단을 이용하여 통합된 데이터들 간의 상관관계를 분석할 수 있다. Cramer V test 및 Random Forest는 통합된 데이터에서 데이터들의 중요도를 파악할 수 있다. Linear Regression는 통합된 데이터에서 데이터의 신뢰도를 파악할 수 있다.The processor 130 may analyze the correlation between the integrated data by using at least one of a Cramer V test, a random forest, and a linear regression. Cramer V test and Random Forest can identify the importance of data in the integrated data. Linear Regression can determine the reliability of data from the integrated data.

보다 상세하게는, 프로세서(130)는 Cramer V test 값이 0.5 이상인 데이터는 높은 중요도를 갖는 주요 데이터이고, Cramer V test 값이 0.3 이상, 0.5 미만인 데이터는 주요 데이터에 비해 낮은 주요도를 갖는 특징 데이터로 설정할 수 있다. 예를 들어, Cramer V test 값이 0.5 이상인 데이터는 주상병 데이터 및 부상병 데이터일 수 있다. 예를 들어, Cramer V test 값이 0.3 이상, 0.5 미만인 데이터는 진료 데이터 중 과거 질병 이력 및 약물 치료 병력 데이터일 수 있다. In more detail, the processor 130 determines that data having a Cramer V test value of 0.5 or more is main data having high importance, and data having a Cramer V test value of 0.3 or more and less than 0.5 is characteristic data having a low importance compared to the main data. can be set to For example, data having a Cramer V test value of 0.5 or more may be data for main and wounded soldiers. For example, data having a Cramer V test value of 0.3 or more and less than 0.5 may be past disease history and drug treatment history data among medical data.

프로세서(130)는 Random Forest 값(IncNodePurity)이 100,000 초과인 데이터는 중요도가 매우 높은 데이터이고, Random Forest 값(IncNodePurity)이 10,000 초과, 100,000 이하인 데이터는 중요도가 보통인 데이터로 설정할 수 있다. 예를 들어, Random Forest 값(IncNodePurity)이 100,000 초과인 데이터는 주상병 데이터, 부상병 데이터, 개인 데이터의 나이 데이터 및 진료 데이터의 방문 진료과 데이터일 수 있다. 예를 들어, Random Forest 값(IncNodePurity)이 10,000 초과, 100,000 이하인 데이터는 생활 습관 데이터, 개인 데이터의 성별 데이터 및 진료 데이터일 수 있다.The processor 130 may set data having a random forest value (IncNodePurity) of more than 100,000 as data having very high importance, and data having a random forest value (IncNodePurity) of more than 10,000 and less than or equal to 100,000 may be set as data having normal importance. For example, data having a Random Forest value (IncNodePurity) greater than 100,000 may be head injury data, injury disease data, age data of personal data, and visiting department data of treatment data. For example, data having a random forest value (IncNodePurity) greater than 10,000 and less than or equal to 100,000 may be lifestyle data, gender data of personal data, and medical treatment data.

프로세서(130)는 Linear Regression 값(P-value)이 0 이상, 0.5 미만이면 신뢰도가 높은 데이터로 설정할 수 있다. 예를 들어, Linear Regression 값(P-value)이 0 이상, 0.5 미만인 데이터는 주상병 데이터, 부상병 데이터, 가족 과거 병력 데이터를 제외한 진료 데이터 및 개인 데이터일 수 있다. When the linear regression value (P-value) is 0 or more and less than 0.5, the processor 130 may set the data to have high reliability. For example, data having a linear regression value (P-value) greater than or equal to 0 and less than 0.5 may be medical data and personal data excluding main-injury data, injury data, and family history data.

프로세서(130)는 위와 같이 통합된 데이터들 간의 상관관계 분석을 통해 도출된 데이터 중요도 및 신뢰도를 참고하여 인공지능 모델 생성을 위한 학습 데이터를 생성하거나, 인공지능 모델의 입력 변수 및 출력 변수를 설정할 수 있다. 예컨대, 프로세서(130)는 상관관계 분석을 통해 데이터 각각에 대하여 특정 수치(0 내지 1)를 설정할 수 있다. 이 때, 프로세서(130)는 0.5 이상의 수치가 부여된 데이터를 입력 변수 및 출력 변수로 설정하거나, 학습 데이터 세트에 반드시 포함시켜야 하는 특징 데이터로 설정할 수 있다. 프로세서(130)는 상관관계가 파악되고 통합된 학습 데이터의 오류를 파악하고, 해당 오류를 보정하여 학습 데이터 세트를 생성할 수 있다. 학습 데이터의 오류 보정은 결측치 처리, 이상치 처리, 데이터 증강 및 데이터 단위 변환 중 적어도 하나 이상을 포함할 수 있다. 결측치 처리는 학습 데이터에서 결측치 값을 제거하거나 또는 mode 값을 삽입하여 보정될 수 있다. 데이터 증강은 학습 데이터의 데이터 불균형(Imbalanced Data)를 파악하고, SMOTE(Synthetic Minority Oversampling Technique)을 적용하여 보정할 수 있다. 데이터 단위 변환은 MinMax Scaling을 통해 특정 범위로 모든 데이터를 변환하여 데이터 단위를 맞추는 것이다. 예를 들어, 데이터 단위 변환은 SMOTE를 통해 데이터 증강 후 수행될 수 있다. The processor 130 may generate learning data for generating an artificial intelligence model by referring to the data importance and reliability derived through the correlation analysis between the integrated data as described above, or set input variables and output variables of the artificial intelligence model. have. For example, the processor 130 may set a specific value (0 to 1) for each data through correlation analysis. In this case, the processor 130 may set the data to which a numerical value of 0.5 or more is assigned as an input variable and an output variable, or may set it as characteristic data that must be included in the learning data set. The processor 130 may generate a training data set by identifying an error in the learning data that is correlated and integrated, and correcting the error. The error correction of the training data may include at least one of missing value processing, outlier processing, data augmentation, and data unit conversion. Missing value processing can be corrected by removing the missing value from the training data or inserting a mode value. Data augmentation can be corrected by identifying Imbalanced Data of training data and applying Synthetic Minority Oversampling Technique (SMOTE). Data unit conversion is to fit data units by converting all data within a specific range through MinMax Scaling. For example, data unit conversion may be performed after data augmentation through SMOTE.

프로세서(130)는 학습 데이터 세트에 포함된 학습 데이터들 중 일부를 포함하는 테스트 데이터를 기초로 복수개의 인공지능 모델들 각각에 대한 성능 평가를 수행하여 복수개의 인공지능 모델들 중 가장 높은 성능 지표를 갖는 인공지능 모델을 선정한다. 테스트 데이터는 복수의 보험자들 중 어느 한 보험자의 개인 데이터, 진료 데이터 및 생활 습관 데이터와 같은 테스트 입력 데이터 및 테스트 결과 데이터를 포함한다. 상기 복수개의 인공지능 모델은 Random Forest, Decision Tree, XGBoost, Naive Bayes 및 DNN 중 둘 이상을 포함할 수 있다. 성능 평가는 복수개의 인공지능 모델들 각각에 대한 정확도 평가, 정밀도 평가, 재현율 평가 및 F1스코어 평가를 포함한다. 성능 지표는 성능 평가에 대응되는 정확도 지표, 정밀도 지표, 재현율 지표 및 F1 스코어 지표를 포함한다. 예를 들어, 프로세서(130)가 복수개의 인공지능 모델 각각에 대한 성능 평가를 진행하면, 아래와 같이 성능 지표가 나타날 수 있다. The processor 130 performs a performance evaluation on each of the plurality of AI models based on test data including some of the training data included in the training data set to obtain the highest performance index among the plurality of AI models. Select an artificial intelligence model with The test data includes test input data and test result data such as personal data, medical treatment data, and lifestyle data of any one of the plurality of insurers. The plurality of artificial intelligence models may include two or more of Random Forest, Decision Tree, XGBoost, Naive Bayes, and DNN. Performance evaluation includes accuracy evaluation, precision evaluation, recall evaluation, and F1 score evaluation for each of a plurality of artificial intelligence models. The performance index includes an accuracy index, a precision index, a recall index, and an F1 score index corresponding to the performance evaluation. For example, when the processor 130 performs performance evaluation for each of the plurality of artificial intelligence models, the performance index may appear as follows.

“Random Forest: 정확도 97%, 정밀도 94%, 재현율 95%, F1 값 94%“Random Forest: 97% accuracy, 94% precision, 95% recall, 94% F1 value

Decision Tree: accuracy(정확도): 97%, recall(정밀도): 93%, recall(재현율): 96%, F1 값: 95%Decision Tree: accuracy: 97%, recall: 93%, recall: 96%, F1 value: 95%

Naive Bayes: accuracy(정확도): 28%, recall(정밀도): 32%, recall(재현율): 40%, F1 값: 27%Naive Bayes: accuracy: 28%, recall: 32%, recall: 40%, F1 value: 27%

XGBoost: accuracy(정확도): 97%, recall(정밀도): 93%, recall(재현율): 97%, F1 값: 95%XGBoost: accuracy: 97%, recall: 93%, recall: 97%, F1 value: 95%

DNN(Deep Neural Network) : accuracy(정확도): 40%~94%”DNN (Deep Neural Network) : accuracy: 40%~94%”

프로세서(130)는 복수개의 인공지능 모델 중, 정확도 지표, 정밀도 지표, 재현율 지표 및 신뢰성을 동등하게 계산한 F1 스코어를 포함한 지표들의 수치값들 중 가장 높은 인공지능 모델을 선정한다. 수치값의 높고 낮음을 결정하는 기준은 지표들 각각의 수치값을 토대로 산출한 평균값이 될 수 있다. 프로세서(130)는 복수개의 인공지능 모델 중, F1 스코어가 가장 높은 인공지능 모델을 선정할 때, Decision Tree를 사용할 수 있다. The processor 130 selects the highest artificial intelligence model among the numerical values of the indicators including the F1 score in which the accuracy indicator, the precision indicator, the recall indicator, and the reliability are equally calculated among the plurality of artificial intelligence models. A criterion for determining whether the numerical value is high or low may be an average value calculated based on the numerical value of each of the indicators. The processor 130 may use a decision tree when selecting an AI model having the highest F1 score among a plurality of AI models.

프로세서(130)는 학습 데이터 세트에 포함된 보험자들의 개인 데이터, 진료 데이터 및 생활 습관 데이터를 입력 변수로 설정하고, 상기 학습 데이터 세트에 포함된 보험자들의 질병 발생 데이터를 출력 변수로 설정할 수 있다. 입력 변수 및 출력 변수는 프로세서(130)가 통합된 학습 데이터들 간의 상관관계 분석을 통해 도출한 데이터 중요도 및 신뢰도를 참조하여 선정된다. 이와 같이 통합된 학습 데이터들 간의 상관관계 분석을 참조하여 선정된 입력 변수는 보험자들의 개인 데이터, 진료 데이터 및 생활 습관 데이터를 포함한다. 개인 데이터는 나이, 성별, 생년월일 중 적어도 하나 이상을 포함할 수 있다. 개인 데이터는 나이 및 성별 데이터를 반드시 포함한다. 진료 데이터는 보험자의 진료 기간 및 진료 날짜, 과거 질병 이력, 최근 질병 이력, 검진 종류, 방문 진료과, 가족 과거 병력, 약물 치료 병력, B형 간염 항원 보유 여부 및 현재 약물 복용 여부 중 적어도 하나 이상을 포함할 수 있다. 진료 데이터는 과거 질병 이력, 최근 질병 이력, 방문 진료과 및 약물 치료 병력 데이터를 반드시 포함한다. 생활 습관 데이터는 흡연 여부, 흡연 기간, 흡연량, 음주 여부, 음주 기간 및 음주량 중 적어도 하나 이상을 포함할 수 있다. 생활 습관 데이터는 흡연 여부, 흡연 기간, 흡연량, 음주 여부, 음주 기간 및 음주량 데이터를 반드시 포함한다. 질병 발생 데이터는, 암 발생 데이터, 심장질환 발생 데이터, 뇌질환 발생 데이터, 간질환 발생 데이터, 당뇨병 발생 데이터, 고혈압 발생 데이터, 갑상성 발생 데이터, 신부선 발생 데이터, 녹내장 발생 데이터 및 동맥경화 발생 데이터를 포함할 수 있다. 출력 변수는 프로세서(130)에 의해 질병 발생 데이터에 포함된 데이터들 중 적어도 하나 이상의 데이터를 포함하도록 설정될 수 있다. The processor 130 may set personal data, medical treatment data, and lifestyle data of insurers included in the learning data set as input variables, and set disease occurrence data of insurers included in the learning data set as output variables. The input variable and the output variable are selected by referring to the data importance and reliability derived by the processor 130 through the correlation analysis between the integrated learning data. The input variables selected by referring to the correlation analysis between the integrated learning data include personal data, medical treatment data, and lifestyle data of insurers. The personal data may include at least one of age, gender, and date of birth. Personal data must include age and gender data. Medical data includes at least one or more of the insurer's medical treatment period and date, past disease history, recent disease history, type of examination, visiting department, family history, drug treatment history, hepatitis B antigen holding and current drug use can do. Medical data must include historical disease history, recent disease history, visiting department and drug treatment history data. The lifestyle data may include at least one of smoking status, smoking period, smoking amount, drinking status, drinking period, and drinking amount. Lifestyle data must include data on whether or not smoking, smoking period, smoking amount, drinking status, drinking period and drinking amount data. The disease occurrence data includes cancer occurrence data, heart disease occurrence data, brain disease occurrence data, liver disease occurrence data, diabetes occurrence data, hypertension occurrence data, thyroid disease occurrence data, renal gland occurrence data, glaucoma occurrence data, and arteriosclerosis occurrence data. may include. The output variable may be set by the processor 130 to include at least one or more data among data included in the disease occurrence data.

프로세서(130)는 입력 변수와 출력 변수를 포함하는 학습 데이터 세트를 기초로 인공지능 모델 성능 평가에 따라 선정된 인공지능 모델을 학습시켜 사용자 맞춤형 질병 예측 모델을 생성한다. 학습 데이터 세트의 주상병 데이터 및 부상병 데이터와 개인 데이터, 생활 습관 데이터 및 진료 데이터 간의 상관관계는 사용자 맞춤형 질병 예측 모델의 출력 변수와 가장 높은 상관관계를 갖는다. 예컨대, 보험자 A의 주상병은 폐암이고, 부상병은 기관지 암이다. 이 때, 보험자 A는 1년 이내에 만성 기침 질환을 겪었으며, 평소에 주 5일 흡연을 했다. 위와 같은 진료 데이터 및 생활 습관 데이터를 갖는 입력 변수가 사용자 맞춤형 질병 예측 모델에 입력될 경우, 사용자 맞춤형 질병 예측 모델은 폐암과 기관지 암을 출력 변수(질병 예측 정보)로 출력하고, 출력된 변수를 암 발생 데이터로 카테고리화할 수 있다. The processor 130 generates a user-customized disease prediction model by learning the AI model selected according to the AI model performance evaluation based on the training data set including the input variable and the output variable. The correlation between the main and injured disease data of the training data set and personal data, lifestyle data, and medical treatment data has the highest correlation with the output variable of the user-customized disease prediction model. For example, insurer A's main disease is lung cancer, and the injured disease is bronchial cancer. At this time, insurer A suffered from chronic cough disease within 1 year and smoked 5 days a week. When an input variable having the above treatment data and lifestyle data is input to a user-customized disease prediction model, the user-customized disease prediction model outputs lung cancer and bronchial cancer as output variables (disease prediction information), and outputs the output variables to cancer It can be categorized by occurrence data.

도 2는 본 발명의 다른 실시예에 따른 질병 예측 모델 생성 방법의 순서를 도시한 흐름도이고, 도 3 내지 도 5는 질병 예측 모델 생성 방법의 일부 단계들에 대한 세부 과정들을 도시한 도면들이다. 이하에서 도 2 내지 도 5를 참조하여, 질병 예측 모델 생성 방법을 설명하도록 한다. 이하에서 설명될 질병 예측 모델 생성 방법의 각 단계들은 앞서 도 1을 참조하여 설명한 질병 예측 모델 생성 장치(100)에 의해 수행될 수 있다. 따라서, 앞서 도 1을 참조하여 설명한 본 발명의 실시예에 대한 내용은 이하에서 설명될 도 2 내지 도 5의 실시예에도 동일하게 적용될 수 있으며, 도 1에서 상술한 설명과 중복되는 내용은 생략하도록 한다. 도 2 내지 도 5에서 설명되는 단계들은 반드시 순서대로 수행되어야 하는 것은 아니고, 단계들의 순서는 다양하게 설정될 수 있으며, 단계들은 거의 동시에 수행될 수도 있다.2 is a flowchart illustrating a sequence of a method for generating a disease prediction model according to another embodiment of the present invention, and FIGS. 3 to 5 are diagrams illustrating detailed processes for some steps of the method for generating a disease prediction model. Hereinafter, a method for generating a disease prediction model will be described with reference to FIGS. 2 to 5 . Each step of the method for generating a disease prediction model to be described below may be performed by the apparatus 100 for generating a disease prediction model previously described with reference to FIG. 1 . Accordingly, the contents of the embodiment of the present invention described above with reference to FIG. 1 can be equally applied to the embodiments of FIGS. 2 to 5 to be described below, and the contents overlapping with the description described in FIG. 1 will be omitted. do. The steps described in FIGS. 2 to 5 are not necessarily performed in order, and the order of the steps may be set in various ways, and the steps may be performed almost simultaneously.

도 2를 참조하면, 질병 예측 모델 생성 방법은, 질병 예측 모델 생성 장치를 이용한 질병 예측 모델 생성 방법으로서, 학습 데이터 생성 단계(S110), 인공지능 모델 테스트 단계(S120) 및 인공지능 모델 생성 단계(S130)를 포함한다. 여기서, 질병 예측 모델 생성 장치는 상술한 질병 예측 모델 생성 장치(도 1의 100)일 수 있다. Referring to FIG. 2 , the method for generating a disease prediction model is a method for generating a disease prediction model using a device for generating a disease prediction model. S130). Here, the apparatus for generating a disease prediction model may be the above-described apparatus for generating a disease prediction model ( 100 of FIG. 1 ).

학습 데이터 생성 단계(S100)는 질병 예측 모델 생성 장치가, 복수의 보험자들 각각의 의료 정보를 포함하는 학습 데이터들을 전처리하여 학습 데이터 세트를 생성하는 단계이다. 인공지능 모델 테스트 단계(S120)는 질병 예측 모델 생성 장치가, 학습 데이터 세트에 포함된 학습 데이터들 중 일부를 포함하는 테스트 데이터를 기초로 복수개의 인공지능 모델들 각각에 대한 정확도 평가를 포함한 성능 평가를 수행하여 복수개의 인공지능 모델들 중 가장 높은 성능 지표를 갖는 인공지능 모델을 선정하는 단계이다. 인공지능 모델 생성 단계(S130)는 질병 예측 모델 생성 장치가, 학습 데이터 세트에 포함된 보험자들의 개인 데이터, 진료 데이터 및 생활 습관 데이터를 입력 변수로 설정하고, 학습 데이터 세트에 포함된 보험자들의 질병 발생 데이터를 출력 변수로 설정하여 학습 데이터 세트를 기초로 인공지능 모델 테스트 단계(S120)에 따라 선정된 인공지능 모델을 학습시켜 사용자 맞춤형 질병 예측 모델을 생성하는 단계이다. The training data generation step S100 is a step in which the disease prediction model generating apparatus pre-processes training data including medical information of each of a plurality of insurers to generate a training data set. In the AI model testing step ( S120 ), the disease prediction model generating apparatus performs performance evaluation including accuracy evaluation for each of a plurality of AI models based on test data including some of the training data included in the training data set. It is a step to select an AI model with the highest performance index among a plurality of AI models by performing In the artificial intelligence model generation step (S130), the disease prediction model generation device sets the personal data, medical treatment data, and lifestyle data of insurers included in the learning data set as input variables, and disease occurrence of the insurers included in the learning data set. It is a step of generating a user-customized disease prediction model by setting the data as an output variable and learning the selected AI model according to the AI model test step (S120) based on the training data set.

도 3을 참조하면, 학습 데이터 생성 단계(S100)는 학습 데이터 수신 단계(S111), 학습 데이터 통합 및 전처리 단계(S112) 및 학습 데이터 세트 생성 단계(S113)를 포함할 수 있다. Referring to FIG. 3 , the training data generation step S100 may include a training data reception step S111 , a training data integration and pre-processing step S112 , and a training data set generation step S113 .

학습 데이터 수신 단계(S111)는 질병 예측 모델 생성 장치가, 국민건강보험공단 (KNHIS)으로부터 의료 정보를 포함하는 학습 데이터들을 수신하는 단계이다. 의료 정보는 복수의 보험자들 각각의 보험자격 데이터, 보험료 데이터, 출생 데이터, 사망 데이터, 진료 데이터, 질병 이력 데이터 및 건강검진 데이터를 포함할 수 있다. 예를 들어, 의료 정보는 여러 개로 분류된 엑셀 파일 형식일 수 있다. The learning data receiving step S111 is a step in which the disease prediction model generating apparatus receives learning data including medical information from the National Health Insurance Corporation (KNHIS). The medical information may include insurance eligibility data, insurance premium data, birth data, death data, medical treatment data, disease history data, and health checkup data of each of the plurality of insurers. For example, the medical information may be in the form of an Excel file classified into several.

학습 데이터 통합 및 전처리 단계(S112)는 질병 예측 모델 생성 장치가, 학습 데이터들을 하나로 통합하고, 통합된 학습 데이터들을 전처리하여 학습 데이터 세트를 생성하는 단계이다. 학습 데이터 통합 및 전처리 단계(S112)는 질병 예측 모델 생성 장치가, 학습 데이터들 전처리 시, 의료 정보에서 주상병 데이터, 부상병 데이터, 개인 데이터, 생활 습관 데이터 및 진료 데이터를 학습 데이터 세트의 라벨링 대상인 특징 데이터로 설정하는 단계를 포함할 수 있다. 학습 데이터 통합 및 전처리 단계(S112)는 질병 예측 모델 생성 장치가 통합된 학습 데이터들에서 복수의 보험자들 각각의 주상병 데이터, 부상병 데이터, 개인 데이터, 생활 습관 데이터 및 진료 데이터를 추출 및 통합하는 단계를 포함할 수 있다. 학습 데이터 통합 및 전처리 단계(S112)는 질병 예측 모델 생성 장치가 주상병 데이터, 부상병 데이터, 개인 데이터, 생활 습관 데이터 및 진료 데이터를 공통 키를 통해 통합하는 단계를 포함할 수 있다.학습 데이터 통합 및 전처리 단계(S112)는 통합된 데이터들 간의 상관관계를 분석하여 데이터 중요도 및 데이터 신뢰도를 파악하는 단계를 포함할 수 있다. 주상병 데이터는 보험자들의 치료나 검사에 대한 요구가 가장 큰 상병 정보를 포함한다. 부상병 데이터는 보험자들의 진료기간 중, 주상병과 함께 있었거나 발생된 병태로서 환자 진료에 영향을 주었던 상병 정보를 포함한다. 개인 데이터는 보험자의 성별 및 나이 포함한다. 생활 습관 데이터는 흡연량, 흡연일수, 음주일수 및 음주량 정보 등을 포함한다. 진료 데이터는 보험자의 진료 기간 및 진료 날짜, 과거 질병 이력, 최근 질병 이력 및 검진 종류, 약물 치료 병력, 방문 진료과, 가족 과거 병력, B형 간염 항원 보유 여부 및 현재 약물 복용 여부 중 적어도 하나 이상을 포함한다. 공통 키는 보험자들의 개인 고유 번호(RN_INDI)일 수 있다. 통합된 데이터들 간의 상관관계는 Cramer V test, Random Forest 및 Linear Regression를 통해 분석된다. Cramer V test 및 Random Forest는 통합된 데이터에서 데이터들의 중요도를 파악할 수 있다. Linear Regression는 통합된 데이터에서 데이터의 신뢰도를 파악할 수 있다. 통합된 데이터들 간의 상관관계를 분석하는 방법에 대해서는 후술하는 도 6 내지 도 8을 통해 상세하게 설명하고자 한다. The learning data integration and pre-processing step ( S112 ) is a step in which the disease prediction model generating apparatus integrates the training data into one and pre-processes the integrated training data to generate a training data set. In the learning data integration and pre-processing step (S112), the disease prediction model generating device pre-processes the learning data, from medical information to the labeling target of the training data set for the main and injury data, injury data, personal data, lifestyle data, and medical treatment data. It may include the step of setting it to data. The learning data integration and pre-processing step (S112) is a step of extracting and integrating each of the plurality of insurers' personal injury data, injury data, personal data, lifestyle data and medical treatment data from the learning data in which the disease prediction model generating device is integrated. may include. The learning data integration and pre-processing step ( S112 ) may include a step in which the disease prediction model generating device integrates the main-injured disease data, the wounded disease data, personal data, lifestyle data, and medical treatment data through a common key. Learning data integration and The pre-processing step ( S112 ) may include analyzing the correlation between the integrated data to determine data importance and data reliability. The main-injury data includes information on the health and illness that insurers have the greatest demand for treatment or testing. Injury data includes information on injuries and diseases that have affected patient care as a condition that occurred with or occurred during the insurers' treatment period. Personal data includes the gender and age of the insurer. The lifestyle data includes information on the amount of smoking, the number of days smoked, the number of days drunk, and the amount of alcohol consumed. Medical data includes at least one or more of the insurer's medical treatment period and treatment date, past disease history, recent disease history and type of examination, drug treatment history, visiting department, family history, hepatitis B antigen holding and current drug use do. The common key may be the insurers' personal unique number (RN_INDI). The correlation between the integrated data is analyzed through Cramer V test, Random Forest and Linear Regression. Cramer V test and Random Forest can identify the importance of data in the integrated data. Linear Regression can determine the reliability of data from the integrated data. A method of analyzing the correlation between the integrated data will be described in detail with reference to FIGS. 6 to 8 to be described later.

학습 데이터 세트 생성 단계(S113)는 질병 예측 모델 생성 장치가, 상관관계가 파악되고 통합된 학습 데이터의 오류를 파악하고, 해당 오류를 보정하여 학습 데이터 세트를 생성하는 단계이다. 학습 데이터의 오류 보정은 결측치 처리, 이상치 처리, 데이터 증강 및 데이터 단위 변환 중 적어도 하나 이상을 포함할 수 있다. 결측치 처리는 학습 데이터에서 결측치 값을 제거하거나 또는 mode 값을 삽입하여 보정될 수 있다. 데이터 증강은 학습 데이터의 데이터 불균형(Imbalanced Data)를 파악하고, SMOTE(Synthetic Minority Oversampling Technique)을 적용하여 보정할 수 있다. 데이터 단위 변환은 MinMax Scaling을 통해 특정 범위로 모든 데이터를 변환하여 데이터 단위를 맞추는 것이다. 예를 들어, 데이터 단위 변환은 SMOTE를 통해 데이터 증강 후, 수행될 수 있다. 보다 상세하게는, 데이터 불균형은 질병 예측 모델 생성 장에 의한 데이터 불균형 처리 방법의 일종인 MLSMOTE와 MLP(Multi-Layer Perceptron)를 결합한 MLSMOTE_MLP를 통해 해결될 수 있다. MLSMOTE_MLP는 라벨갯수 |L|과 라벨횟수 |N|을 갖는 데이터를 아래 식 (1)을 통해 IRPL(Imbalance ratio per label, 라벨별 개별적 계산값)을 계산하고, 아래 식 (2)를 통해 MIR(Mean Imbalance ratio, IRPL 평균값)를 계산한다. 그리고, 아래 식 (3)과 같이 IRPL(I) > MIR 이면, 테일라벨(불균형 minority data)로 분류한다. 테일라벨은 데이터 왜곡과 특이성을 감안하여 평균값(mean)이 아닌 중앙값(median)으로 분류한다. 테일라벨을 분류한 후, 테일라벨에 맞는 Feature Vector 데이터 증강을 진행한다. 데이터 증강은 NN 유클리드 거리를 이용하는 것일 수 있다. 증강된 데이터는 MLP 모델에 입력되어 최종적으로 데이터 불균형을 보정한다. MLP 모델의 데이터 불균형 보정 성능을 향상시키기 위해 질병 예측 모델 생성 장치는 하이퍼변수(Hyprerparameter)를 튜닝할 수 있다. The training data set generation step S113 is a step in which the disease prediction model generating apparatus recognizes errors in the learning data that are correlated and integrated, and generates a training data set by correcting the errors. The error correction of the training data may include at least one of missing value processing, outlier processing, data augmentation, and data unit conversion. Missing value processing can be corrected by removing the missing value from the training data or inserting a mode value. Data augmentation can be corrected by identifying Imbalanced Data of training data and applying Synthetic Minority Oversampling Technique (SMOTE). Data unit conversion is to fit data units by converting all data within a specific range through MinMax Scaling. For example, data unit conversion may be performed after data augmentation through SMOTE. More specifically, data imbalance can be resolved through MLSMOTE_MLP, which combines MLSMOTE, a type of data imbalance processing method by the disease prediction model generation chapter, and MLP (Multi-Layer Perceptron). MLSMOTE_MLP calculates IRPL (Imbalance ratio per label, individually calculated value for each label) for the data with the number of labels |L| and the number of labels |N| through Equation (1) below, and MIR ( Mean Imbalance ratio, IRPL average value) is calculated. And, as shown in Equation (3) below, if IRPL(I) > MIR, it is classified as a tail label (unbalanced minority data). The tail label is classified as the median rather than the mean in consideration of data distortion and specificity. After classifying the tail label, we proceed to augment the feature vector data suitable for the tail label. Data augmentation may be using NN Euclidean distance. The augmented data is input to the MLP model to finally correct the data imbalance. In order to improve data imbalance correction performance of the MLP model, the apparatus for generating a disease prediction model may tune a hyperparameter.

식 (1)

Figure 112022004242134-pat00001
Figure 112022004242134-pat00002
Formula (1)
Figure 112022004242134-pat00001
Figure 112022004242134-pat00002

식 (2)

Figure 112022004242134-pat00003
Equation (2)
Figure 112022004242134-pat00003

식 (3)

Figure 112022004242134-pat00004
Equation (3)
Figure 112022004242134-pat00004

또한, 본 발명의 실시예에서 데이터 불균형 처리 방법의 일종인 SMOTE와 MLP를 결합한 SMOTE_MLP를 활용하여 데이터 불균형을 처리할 수 있다. SMOTE_MLP는 다중라벨을 멀티클래스로 변환하는 것을 주된 특징으로 하며, SMOTE, ML/DL, 모델 튜닝의 순서를 포함할 수 있다. In addition, in an embodiment of the present invention, data imbalance can be processed by using SMOTE_MLP, which is a combination of SMOTE and MLP, which is a type of data imbalance processing method. The main feature of SMOTE_MLP is to convert multi-label to multi-class, and may include the order of SMOTE, ML/DL, and model tuning.

다중라벨을 멀티클래스로 변환하는 예시는 다음과 같다.An example of converting a multilabel to a multiclass is as follows.

(A,B) -> 1, (A,B) -> 1,

(A,E) -> 2, (A,E) -> 2,

(C,E) -> 3, (C,E) -> 3,

(D,E) -> 4, (D,E) -> 4,

(A,B) -> 1, (A,B) -> 1,

(A,B) -> 1, (A,B) -> 1,

(D,E) -> 4(D,E) -> 4

도 4를 참조하면, 인공지능 모델 테스트 단계(S120)는 테스트 데이터 생성 단계(S121), 인공지능 모델 성능 평가 단계(S122) 및 인공지능 모델 선정 단계(S123)를 포함할 수 있다. Referring to FIG. 4 , the AI model testing step S120 may include a test data generation step S121 , an AI model performance evaluation step S122 , and an AI model selection step S123 .

테스트 데이터 생성 단계(S121)는 질병 예측 모델 생성 장치가, 학습 데이터 세트에 포함된 학습 데이터들 중 일부를 테스트 데이터로 생성하는 단계이다. 테스트 데이터는 복수의 보험자들 중 어느 한 보험자의 개인 데이터, 진료 데이터 및 생활 습관 데이터와 같은 테스트 입력 데이터 및 테스트 결과 데이터를 포함한다.The test data generation step S121 is a step in which the disease prediction model generating apparatus generates some of the training data included in the training data set as test data. The test data includes test input data and test result data such as personal data, medical treatment data, and lifestyle data of any one of the plurality of insurers.

인공지능 모델 성능 평가 단계(S122)는 질병 예측 모델 생성 장치가, 테스트 데이터를 기초로 복수개의 인공지능 모델들 각각에 대한 성능 평가를 수행하여 복수개의 인공지능 모델들 각각에 대한 성능 지표를 도출하는 단계이다. 복수개의 인공지능 모델은 Random Forest, Decision Tree, XGBoost, Naive Bayes 및 DNN 중 둘 이상을 포함할 수 있다. 성능 평가는 복수개의 인공지능 모델들 각각에 대한 정확도 평가, 정밀도 평가, 재현율 평가 및 F1스코어 평가를 포함한다. In the AI model performance evaluation step (S122), the disease prediction model generating device performs performance evaluation on each of a plurality of AI models based on the test data to derive a performance index for each of the plurality of AI models. is a step The plurality of AI models may include two or more of Random Forest, Decision Tree, XGBoost, Naive Bayes, and DNN. Performance evaluation includes accuracy evaluation, precision evaluation, recall evaluation, and F1 score evaluation for each of a plurality of artificial intelligence models.

인공지능 모델 선정 단계(S123)는 질병 예측 모델 생성 장치가, 복수개의 인공지능 모델들 중 가장 높은 성능 지표를 갖는 인공지능 모델을 선정하는 단계이다. 보다 상세하게는, 복수개의 인공지능 모델 중, 정확도 지표, 정밀도 지표, 재현율 지표 및 신뢰성을 동등하게 계산한 F1 스코어가 가장 높은 인공지능 모델을 선정하는 단계이다. 인공지능 모델 선정은 질병 예측 모델 생성 장치가, Decision Tree를 사용하여 선정할 수 있다. The artificial intelligence model selection step S123 is a step in which the disease prediction model generating apparatus selects an artificial intelligence model having the highest performance index among a plurality of artificial intelligence models. More specifically, it is a step of selecting an artificial intelligence model having the highest F1 score in which an accuracy index, a precision index, a recall index, and a reliability are equally calculated among a plurality of artificial intelligence models. The AI model selection can be selected by the disease prediction model generation device using a decision tree.

도 5를 참조하면, 인공지능 모델 생성 단계(S130)는 입력 변수 및 출력 변수 설정 단계(S131) 및 질병 예측 모델 생성 단계(132)를 포함할 수 있다. Referring to FIG. 5 , the artificial intelligence model generation step S130 may include an input variable and output variable setting step S131 and a disease prediction model generation step 132 .

입력 변수 및 출력 변수 설정 단계(S131)는 질병 예측 모델 생성 장치가, 학습 데이터 세트에 포함된 보험자들의 개인 데이터, 진료 데이터 및 생활 습관 데이터를 입력 변수로 설정하고, 상기 학습 데이터 세트에 포함된 보험자들의 질병 발생 데이터를 출력 변수로 설정하는 단계이다. 입력 변수 및 출력 변수는 학습 데이터 통합 및 전처리 단계(S112)에서 통합된 학습 데이터 상관관계 분석을 통해 도출한 데이터 중요도 및 신뢰도를 참조하여 선정된다. 이와 같이 통합된 학습 데이터들 간의 상관관계 분석을 참조하여 선정된 입력 변수는 보험자들의 개인 데이터, 진료 데이터 및 생활 습관 데이터를 포함한다. 개인 데이터는 나이, 성별, 생년월일 중 적어도 하나 이상을 포함한다. 개인 데이터는 나이 및 성별 데이터를 반드시 포함한다. 진료 데이터는 보험자의 진료 기간 및 진료 날짜, 과거 질병 이력, 최근 질병 이력, 검진 종류, 방문 진료과, 가족 과거 병력, 약물 치료 병력, B형 간염 항원 보유 여부 및 현재 약물 복용 여부 중 적어도 하나 이상을 포함한다. 진료 데이터는 과거 질병 이력, 최근 질병 이력, 방문 진료과 및 약물 치료 병력 데이터를 반드시 포함한다. 생활 습관 데이터는 흡연 여부, 흡연 기간, 흡연량, 음주 여부, 음주 기간 및 음주량 중 적어도 하나 이상을 포함한다. 생활 습관 데이터는 흡연 여부, 흡연 기간, 흡연량, 음주 여부, 음주 기간 및 음주량 데이터를 반드시 포함한다. 질병 발생 데이터는, 암 발생 데이터, 심장질환 발생 데이터, 뇌질환 발생 데이터, 간질환 발생 데이터, 당뇨병 발생 데이터, 고혈압 발생 데이터, 갑상성 발생 데이터, 신부선 발생 데이터, 녹내장 발생 데이터 및 동맥경화 발생 데이터를 포함할 수 있다. 출력 변수는 질병 발생 데이터에 포함된 데이터들 중 적어도 하나 이상의 데이터를 포함하도록 설정될 수 있다. In the step S131 of setting input variables and output variables, the disease prediction model generating apparatus sets personal data, medical treatment data, and lifestyle data of insurers included in the learning data set as input variables, and the insurers included in the learning data set. This is the step of setting their disease occurrence data as an output variable. The input variable and the output variable are selected by referring to the data importance and reliability derived through the learning data correlation analysis integrated in the learning data integration and pre-processing step (S112). The input variables selected by referring to the correlation analysis between the integrated learning data include personal data, medical treatment data, and lifestyle data of insurers. The personal data includes at least one of age, gender, and date of birth. Personal data must include age and gender data. Medical data includes at least one or more of the insurer's medical treatment period and date, past disease history, recent disease history, type of examination, visiting department, family history, drug treatment history, hepatitis B antigen holding and current drug use do. Medical data must include historical disease history, recent disease history, visiting department and drug treatment history data. The lifestyle data includes at least one of smoking status, smoking period, smoking amount, drinking status, drinking period, and drinking amount. Lifestyle data must include data on whether or not smoking, smoking period, smoking amount, drinking status, drinking period and drinking amount data. The disease occurrence data includes cancer occurrence data, heart disease occurrence data, brain disease occurrence data, liver disease occurrence data, diabetes occurrence data, hypertension occurrence data, thyroid disease occurrence data, renal gland occurrence data, glaucoma occurrence data, and arteriosclerosis occurrence data. may include. The output variable may be set to include at least one or more data among data included in the disease occurrence data.

질병 예측 모델 생성 단계(132)는 질병 예측 모델 생성 장치가, 입력 변수와 출력 변수를 포함하는 학습 데이터 세트를 기초로 인공지능 모델 성능 평가에 따라 선정된 인공지능 모델을 학습시켜 사용자 맞춤형 질병 예측 모델을 생성하는 단계이다. 학습 데이터 세트의 주상병 데이터 및 부상병 데이터와 개인 데이터, 생활 습관 데이터 및 진료 데이터 간의 상관관계는 사용자 맞춤형 질병 예측 모델의 출력 변수와 가장 높은 상관관계를 갖는다. 예컨대, 보험자 A의 주상병은 폐암이고, 부상병은 기관지 암이다. 이 때, 보험자 A는 1년 이내에 만성 기침 질환을 겪었으며, 평소에 주 5일 흡연을 했다. 위와 같은 진료 데이터 및 생활 습관 데이터를 갖는 입력 변수가 사용자 맞춤형 질병 예측 모델에 입력될 경우, 사용자 맞춤형 질병 예측 모델은 폐암과 기관지 암을 출력 변수(질병 예측 정보)로 도출하고, 해당 출력 변수를 암 발생 데이터로 카테고리화 한다. In the disease prediction model generation step 132 , the disease prediction model generating device learns the AI model selected according to the AI model performance evaluation based on the training data set including the input variable and the output variable, and the user-customized disease prediction model is the step to create The correlation between the main and injured disease data of the training data set and personal data, lifestyle data, and medical treatment data has the highest correlation with the output variable of the user-customized disease prediction model. For example, insurer A's main disease is lung cancer, and the injured disease is bronchial cancer. At this time, insurer A suffered from chronic cough disease within 1 year and smoked 5 days a week. When an input variable having the above treatment data and lifestyle data is input to a user-customized disease prediction model, the user-customized disease prediction model derives lung cancer and bronchial cancer as output variables (disease prediction information), and converts the output variables into cancer Categorize by occurrence data.

도 6 내지 도 8은 학습 데이터 통합 및 전처리 단계(S112)에서 통합된 학습 데이터들 간의 상관관계를 분석한 결과를 도시한 도면이다. 이하에서 도 6 및 도8을 참조하여 통합된 학습 데이터들 간의 상관관계 분석 결과를 설명하고자 한다.6 to 8 are diagrams illustrating the results of analyzing the correlation between the learning data integrated in the learning data integration and pre-processing step (S112). Hereinafter, a correlation analysis result between the integrated learning data will be described with reference to FIGS. 6 and 8 .

도 6은 Cramer’s V test를 이용한 통합된 학습 데이터들 간의 상관관계 분석 결과를 도시한 도면이다. 6 is a diagram illustrating a correlation analysis result between integrated learning data using Cramer's V test.

질병 예측 모델 생성 장치는, 통합된 학습 데이터를 아래 <표 1>과 데이터를 분류한다. The disease prediction model generating apparatus classifies the integrated learning data into <Table 1> and the data.

<표 1> 통합된 학습 데이터 분류<Table 1> Classification of integrated training data 분류 코드classification code 코드 설명Code Description Age Age 나이 age Q_DRK_AMT_V09N Q_DRK_AMT_V09N 1회 음주량 1 drink Q_DRK_FRQ_V09N Q_DRK_FRQ_V09N 주간음주일수 Weekly drinking week Q_SMK_NOW_AMT_V09N Q_SMK_NOW_AMT_V09N (현재)하루흡연량 (Current) Smoking amount per day Q_SMK_NOW_DRT Q_SMK_NOW_DRT (현재)흡연기간 (Current) Smoking Period Q_SMK_PRE_AMT Q_SMK_PRE_AMT (과거) 하루흡연량 (Past) Smoking amount per day Q_SMK_PRE_DRT Q_SMK_PRE_DRT (과거) 흡연기간 (Past) Smoking period Q_SMK_YN Q_SMK_YN 흡연상태 smoking status Q_HBV_AG Q_HBV_AG B형간염항원보유자 Hepatitis B antigen carrier Q_FHX_ETC Q_FHX_ETC (가족력)기타(암포함) 여부 (Family history) Other (including cancer) Q_FHX_DM Q_FHX_DM (가족력)당뇨병 여부 (Family history) Diabetes mellitus Q_FHX_HTN Q_FHX_HTN (가족력) 고혈압여부 (Family history) High blood pressure Q_FHX_HTDZ Q_FHX_HTDZ (가족력) 심장병(심근경색 협심증) 여부 (Family history) Heart disease (myocardial infarction angina) Q_PHX_TX_STK Q_PHX_TX_STK (본인)뇌졸증(중풍)약물치료여부 (Self) Stroke (Stroke) Whether drug treatment Q_PHX_DX_ETC Q_PHX_DX_ETC (본인)기타(암포함) 질환과거병력유무 (Individual) Past history of other (including cancer) diseases Q_PHX_DX_PTB Q_PHX_DX_PTB (본인) 폐결핵 과거병력유무 (Self) Past history of pulmonary tuberculosis Q_PHX_TX_DLD Q_PHX_TX_DLD (본인)고지혈증 약물치료 여부 (Self) Hyperlipidemia drug treatment Q_PHX_DX_DM Q_PHX_DX_DM (본인)당뇨병 과거병력유무 (You) Have a past history of diabetes Q_PHX_DX_HTN Q_PHX_DX_HTN (본인)고혈압 과거병력 유무 (Self) Do you have a past history of high blood pressure? Q_PHX_DX_HTDZ Q_PHX_DX_HTDZ (본인) 심장병 과거병력 유무 (Self) Do you have a past history of heart disease? Q_PHX_DX_STK Q_PHX_DX_STK (본인)뇌졸증 과거병력유무 (You) Have a history of stroke SEX SEX 성별 gender DETAIL_TMSG_SUBJ_CD DETAIL_TMSG_SUBJ_CD 세부전문과목코드 Detailed Specialized Course Code MCEX_SICK_SYM MCEX_SICK_SYM 진료기간 중 환자가 진료 받은 해당상병 The morbidity that the patient received treatment during the treatment period SICK_SYM1 SICK_SYM1 주상병columnar Q_PHX_TX_HTN Q_PHX_TX_HTN (본인)고혈압 약물치료여부 Whether (the person) is treated with medication for high blood pressure Q_PHX_DX_DLD Q_PHX_DX_DLD 고지혈증(이상지질혈증) 과거병력 유무 Past history of hyperlipidemia (dyslipidemia) Q_PHX_TX_ETC Q_PHX_TX_ETC (본인)기타(암포함) 약물치료 여부 Whether (person) other (including cancer) drug treatment Q_FHX_STK Q_FHX_STK (가족력)뇌졸증(중풍)여부 (Family history) Stroke (stroke)

질병 예측 모델 생성 장치가, Cramer’s V test에 <표 1>과 같이 분류된 데이터를 입력하면, 아래 <표 2>, <표 3> 및 <표 4>와 같은 결과가 도출된다.When the disease prediction model generating device inputs the classified data as shown in <Table 1> into Cramer’s V test, the results shown in <Table 2>, <Table 3> and <Table 4> are derived.

<표 2> 진료과목코드 데이터 상관관계<Table 2> Correlation of medical course code data

Figure 112022004242134-pat00005
Figure 112022004242134-pat00005

<표 3> 약품 성분명 추출 데이터 상관관계<Table 3> Correlation of drug ingredient name extraction data

Figure 112022004242134-pat00006
Figure 112022004242134-pat00006

<표 4> 진료과목코드 데이터 타겟값에 대한<Table 4> About the target value of the medical course code data
상관관계 correlation

Figure 112022004242134-pat00007
Figure 112022004242134-pat00007

6을 참조하면, 위 <표 2>, <표 3> 및 <표 4>의 결과 그래프가 다음과 같이 나타난다. 여기서, Cramer’s V test 값이 0.5 이상인 데이터는 주상병 데이터 및 부상병 데이터와 상관관계가 높아 인공지능 모델 학습 변수로 사용 가능한 유의미한 데이터인 것으로 질병 예측 모델 생성 장치에 의해 판단된다. 유의미한 데이터는 예를 들어, MCEX_SICK_SYM(부상병) 및 SICK_SYM1(주상병)일 수 있다. Cramer’s V test 값이 0.3 이상, 0.5 미만인 데이터는 주상병 데이터 및 부상병 데이터와 상관관계가 낮으나, 인공지능 모델 학습 후보 변수로 사용 가능할 것으로 판단된다. 후보 변수 데이터는 예를 들어, Q_PHX_DX_STK((본인)뇌졸증 과거병력 유무) 및 Q_PHX_TX_STK((본인)뇌졸증(중풍)약물치료여부) 일 수 있다. Referring to 6, the result graphs of <Table 2>, <Table 3> and <Table 4> above are shown as follows. Here, data with a Cramer's V test value of 0.5 or higher is judged by the disease prediction model generating device as meaningful data that can be used as an artificial intelligence model learning variable because it has a high correlation with the main and wounded disease data and the wounded disease data. Significant data may be, for example, MCEX_SICK_SYM (injured) and SICK_SYM1 (injured). Data with Cramer's V test values of 0.3 or more and less than 0.5 have low correlation with the main and wounded soldiers data, but are judged to be usable as candidate variables for artificial intelligence model learning. The candidate variable data may be, for example, Q_PHX_DX_STK (whether or not (the person) has a past history of stroke) and Q_PHX_TX_STK (whether (the person) is treated with drugs for stroke (paralysis)).

도 7은 Random Forest를 통해 통합된 학습 데이터들 간의 상관관계 분석 결과를 도시한 도면이다, 7 is a diagram illustrating a correlation analysis result between learning data integrated through a random forest.

도 7을 참조하면, 질병 예측 모델 생성 장치가, 통합된 학습 데이터에서 위 <표 1>과 같이 분류된 데이터를 Random Forest 모델에 입력한다. Random Forest 모델은 입력된 데이터의 중요도를 분석한다. Random Forest 모델은 입력된 데이터를 분석하여 아래 <표 5>, <표 6>, <표 7>, <표 8> 및 <표 9>과 같은 결과를 도출한다. Referring to FIG. 7 , the disease prediction model generating device inputs the classified data as shown in Table 1 above from the integrated training data into the random forest model. The random forest model analyzes the importance of the input data. The random forest model derives the results shown in <Table 5>, <Table 6>, <Table 7>, <Table 8> and <Table 9> by analyzing the input data.

<표 5> 진료과목코드(타겟) 데이터 RF Ranking<Table 5> RF Ranking of Medical Course Code (Target) Data

Figure 112022004242134-pat00008
Figure 112022004242134-pat00008

<표 6> 진료과목코드(주상병) 데이터 RF Ranking<Table 6> RF Ranking of Medical Course Code (Public Disease) Data

Figure 112022004242134-pat00009
Figure 112022004242134-pat00009

<표 7> 진료과목코드 (부상병) 데이터
RF Ranking

Figure 112022004242134-pat00010
<Table 7> Medical course code (injured disease) data
RF Ranking
Figure 112022004242134-pat00010

<표 8> 약품성분명(주상병) 추출 데이터 <Table 8> Extraction data of drug ingredient name
RF RankingRF Ranking

Figure 112022004242134-pat00011
Figure 112022004242134-pat00011

<표 9> 약품성분명(부상병) 추출 데이터
RF Ranking

Figure 112022004242134-pat00012
<Table 9> Drug ingredient name (injured disease) extraction data
RF Ranking
Figure 112022004242134-pat00012

위 <표 5> 내지 <표 9>의 결과 중, 가장 높은 값을 갖는 데이터를 그래프로 표현하면 도 7과 같이 표현된다. 여기서, Random Forest 모델 결과값이 100,000 초과인 데이터는 데이터 중요도가 매우 높은 것으로 질병 예측 모델 생성 장치에 의해 판단될 수 있다. Random Forest 모델 결과값이 10,000 초과, 100,000 이하인 데이터는 예를 들어, SICK_SYM1(주상병), MCEX_SICK_SYM(부상병), DETAIL_TMSG_SUBJ_CD(세부전문과목코드) 및 age(나이) 데이터일 수 있다. Random Forest 모델 결과값이 10,000 초과, 100,000 이하인 데이터도 중요도가 높은 것으로 판단된다. Random Forest 모델 결과값이 10,000 초과, 100,000 이하 인 데이터는 예를 들어, SEX(성별), Q_DRK_FRQ_V09N(주간음주일수), (Q_HBV_AG(B형간염항원보유자), Q_DRK_AMT_V09N(1회 음주량), Q_PHX_TX_STK((본인)뇌졸증(중풍)약물치료여부), Q_SMK_PRE_DRT((과거) 흡연기간), Q_SMK_NOW_DRT((현재)흡연기간), Q_PHX_DX_HTN((본인)고혈압 과거병력 유무), Q_PHX_TX_HTN((본인)고혈압 약물치료여부), Q_DRK_AMT_V09N(1회 음주량)일 수 있다. Among the results of <Table 5> to <Table 9>, when the data having the highest value is expressed as a graph, it is expressed as shown in FIG. 7 . Here, data having a random forest model result value of more than 100,000 may be determined by the disease prediction model generating device as having very high data importance. Data whose random forest model result value is greater than 10,000 and less than or equal to 100,000 may be, for example, SICK_SYM1 (injured disease), MCEX_SICK_SYM (injured disease), DETAIL_TMSG_SUBJ_CD (subspecialty code) and age (age) data. Data with a random forest model result value of more than 10,000 and less than 100,000 are also judged to be of high importance. Data with a random forest model result value greater than 10,000 and less than or equal to 100,000 are, for example, SEX (gender), Q_DRK_FRQ_V09N (weekly drinking weeks), (Q_HBV_AG (hepatitis B antigen holder), Q_DRK_AMT_V09N (amount of alcohol consumed), Q_PHX_TX_STK(( Self) Stroke (paralysis) medication treatment), Q_SMK_PRE_DRT((past) smoking period), Q_SMK_NOW_DRT((current) smoking period), Q_PHX_DX_HTN((person) past history of hypertension), Q_PHX_TX_HTN((person) high blood pressure medication treatment) , Q_DRK_AMT_V09N (amount of alcohol per drink).

도 8은 Linear Regression을 통해 통합된 학습 데이터들 간의 상관관계 분석 결과를 도시한 도면이다. 8 is a diagram illustrating a correlation analysis result between learning data integrated through linear regression.

도 8을 참조하면, 질병 예측 모델 생성 장치가, 통합된 학습 데이터에서 위 <표 1>과 같이 분류된 데이터를 Linear Regression 모델에 입력한다. Linear Regression 모델은 입력된 데이터의 신뢰도를 분석한다. Linear Regression 모델은 입력된 데이터를 분석하여 아래 <표 10>, <표 11>, <표 12> 및 <표 13>과 같은 결과를 도출한다. Referring to FIG. 8 , the disease prediction model generating device inputs the classified data as shown in Table 1 from the integrated training data into the linear regression model. The linear regression model analyzes the reliability of the input data. The linear regression model derives the results shown in <Table 10>, <Table 11>, <Table 12> and <Table 13> by analyzing the input data.

<표 10> 진료과목코드 데이터 P-value<Table 10> Medical course code data P-value

Figure 112022004242134-pat00013
Figure 112022004242134-pat00013

<표 11> 진료과목코드 추출 데이터 P-value<Table 11> P-value of medical course code extraction data

Figure 112022004242134-pat00014
Figure 112022004242134-pat00014

<표 12> 진료과목코드 타겟값에 대한
P-value

Figure 112022004242134-pat00015
<Table 12> About the target value of the medical course code
P-value
Figure 112022004242134-pat00015

<표 13> 약품 성분명 추출 데이터 <Table 13> Drug ingredient name extraction data
P-valueP-value

Figure 112022004242134-pat00016
Figure 112022004242134-pat00016

<표 10> 내지 <표 13>의 결과값(P-value)을 그래프로 표현하면 도 8과 같이 표현된다. 여기서, Linear Regression 모델 결과값(P-value)이 0이상, 0.5 미만인 데이터는 데이터 신뢰도가 높은 것으로 판단된다. Random Forest 모델 결과값이 0이상, 0.5 미만인 데이터는 예를 들어, SICK_SYM1(주상병), MCEX_SICK_SYM(진료기간 중 환자가 진료 받은 해당상병), DETAIL_TMSG_SUBJ_CD(세부전문과목코드), SEX(성별), Q_PHX_DX_HTN((본인)고혈압 과거병력유무), Q_PHX_DX_DLD(고지혈증(이상지질혈증) 과거병력 유무), Q_PHX_TX_DM((본인)당뇨병 약물치료여부), Q_PHX_TX_DLD((본인)고지혈증 약물치료 여부), Q_PHX_TX_ETC((본인)기타(암포함) 약물치료 여부), Q_HBV_AG(B형간염항원보유자), Q_SMK_PRE_DRT((과거) 흡연기간), Q_SMK_PRE_AMT((과거) 하루흡연량), Q_DRK_FRQ_V09N(주간음주일수), Q_DRK_AMT_V09N(1회 음주량) 및 age(나이)일 수 있다. Random Forest 모델 결과값이 0.001 미만인 데이터는 예를 들어, Q_FHX_STK((가족력) 뇌졸증(중풍) 여부), Q_SMK_YN(흡연상태), Q_SMK_NOW_DRT((현재)흡연기간) 및 Q_SMK_NOW_AMT_V09N((현재)하루흡연량)일 수 있다. Random Forest 모델 결과값이 0.05 미만인 데이터는 Q_PHX_TX_HTN((본인)고혈압 약물치료여부), Q_FHX_HTN((가족력) 고혈압여부), Q_PHX_DX_STK((본인)뇌졸증 과거병력유무), Q_PHX_DX_DM((본인)당뇨병 과거병력유무), Q_PHX_TX_STK((본인)뇌졸증(중풍)약물치료여부) 및 Q_FHX_HTDZ((가족력) 심장병(심근경색/협심증) 여부) 일 수 있다. When the result value (P-value) of <Table 10> to <Table 13> is expressed as a graph, it is expressed as in FIG. 8 . Here, data having a linear regression model result value (P-value) of 0 or more and less than 0.5 is determined to have high data reliability. Data with a random forest model result value of 0 or more and less than 0.5 are, for example, SICK_SYM1 (main disease), MCEX_SICK_SYM (corresponding disease treated by the patient during treatment), DETAIL_TMSG_SUBJ_CD (subspecialty code), SEX (gender), Q_PHX_DX_HTN ((You) have a history of high blood pressure, Q_PHX_DX_DLD (Have a history of hyperlipidemia (dyslipidemia)), Q_PHX_TX_DM((You) have diabetes drug treatment), Q_PHX_TX_DLD((You) have been treated with hyperlipidemia medication), Q_PHX_TX_ETC((You) Other (including cancer) drug treatment), Q_HBV_AG (Hepatitis B antigen holder), Q_SMK_PRE_DRT ((Past) smoking period), Q_SMK_PRE_AMT((Past) Amount smoked per day), Q_DRK_FRQ_V09N (Number of drinks per week), Q_DRK_AMT_V09N (Amount drunk per day) and age. Data with a random forest model result value less than 0.001 are, for example, Q_FHX_STK ((family history) stroke (stroke)), Q_SMK_YN (smoking status), Q_SMK_NOW_DRT ((current) smoking period), and Q_SMK_NOW_AMT_V09N ((current) daily smoking amount) days can Data with a random forest model result value of less than 0.05 are Q_PHX_TX_HTN((your own) hypertension drug treatment), Q_FHX_HTN((family history) high blood pressure status), Q_PHX_DX_STK((your own) history of stroke), Q_PHX_DX_DM((your own) diabetes mellitus or not ), Q_PHX_TX_STK (whether (the person) is treated with drugs for stroke (paralysis)), and Q_FHX_HTDZ (whether (family history) heart disease (myocardial infarction/angina)).

도 9는 본 발명의 다른 실시예에 따른 사용자 맞춤형 질병 예측 시스템(이하, “질병 예측 시스템(900)” 이라 함)과 통신 연결되는 단말(1000)을 나타낸 도면이다. 9 is a diagram illustrating a terminal 1000 communicatively connected to a user-customized disease prediction system (hereinafter, referred to as a “disease prediction system 900”) according to another embodiment of the present invention.

도 9를 참조하면, 질병 예측 시스템(900) 및 단말(1000)은 유선 또는 무선 통신망을 통해 상호 연결될 수 있다. 질병 예측 시스템(900)은 SaaS (Software as a Service), PaaS (Platform as a Service) 또는 IaaS (Infrastructure as a Service)와 같은 클라우드 컴퓨팅 서버로 형성될 수 있다. 단말(1000)은 예를 들어, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(desktop), 랩톱(laptop), 휴대성과 이동성이 보장되는 무선 통신 장치 또는 스마트폰, 터치패드를 포함하는 태블릿 PC 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치를 의미할 수 있다. 통신망은 근거리 통신망(Local Area Network; LAN), 광역 통신망(Wide Area Network; WAN) 또는 부가가치 통신망(Value Added Network; VAN) 등과 같은 유선 네트워크나 이동 통신망(mobile radio communication network) 또는 위성 통신망 등과 같은 모든 종류의 무선 네트워크로 구현될 수 있다. Referring to FIG. 9 , the disease prediction system 900 and the terminal 1000 may be interconnected through a wired or wireless communication network. The disease prediction system 900 may be formed of a cloud computing server such as Software as a Service (SaaS), Platform as a Service (PaaS), or Infrastructure as a Service (IaaS). Terminal 1000 is, for example, a web browser (WEB Browser) is mounted laptop, desktop (desktop), laptop (laptop), a wireless communication device or smart phone that guarantees portability and mobility, and a tablet PC including a touchpad It may refer to all types of handheld-based wireless communication devices such as, for example. A communication network is a wired network such as a Local Area Network (LAN), a Wide Area Network (WAN) or a Value Added Network (VAN), or any network such as a mobile radio communication network or a satellite network. It can be implemented as a kind of wireless network.

단말(1000)은 질병 예측 시스템(900)에게 사용자 입력 정보를 송신할 수 있고, 질병 예측 시스템(900)으로부터 수신한 질병 예측 정보를 출력하여 디스플레이 상에 표시할 수 있다. The terminal 1000 may transmit user input information to the disease prediction system 900 , and may output the disease prediction information received from the disease prediction system 900 and display it on a display.

질병 예측 시스템(900) 및 단말(1000)에 대해서는 이하에서 도 10 및 도 11을 참조하여 더욱 상세하게 설명하고자 한다. The disease prediction system 900 and the terminal 1000 will be described in more detail below with reference to FIGS. 10 and 11 .

도 10은 사용자 맞춤형 질병 예측 시스템(900)의 구성을 도시한 블록도이다.10 is a block diagram illustrating the configuration of a user-customized disease prediction system 900 .

도 10을 참조하면, 질병 예측 시스템(900)은 통신 모듈(910), 메모리(920), 프로세서(940)를 포함하며, 데이터베이스(930)를 더 포함할 수 있다. Referring to FIG. 10 , the disease prediction system 900 includes a communication module 910 , a memory 920 , a processor 940 , and may further include a database 930 .

통신 모듈(910)은 단말(1000)과의 정보 송수신을 수행할 수 있다. 통신 모듈(910)은 다른 네트워크 장치와 유무선 연결을 통해 제어 신호 또는 데이터 신호와 같은 신호를 송수신하기 위해 필요한 하드웨어 및 소프트웨어를 포함하는 장치를 포함할 수 있다.The communication module 910 may transmit/receive information to and from the terminal 1000 . The communication module 910 may include a device including hardware and software necessary for transmitting and receiving signals such as control signals or data signals through wired/wireless connection with other network devices.

메모리(920)는 사용자 맞춤형 질병 예측 정보 제공 프로그램을 저장한다. 사용자 맞춤형 질병 예측 정보 제공 프로그램의 명칭은 설명의 편의를 위해 설정된 것으로, 명칭 그 자체로 프로그램의 기능을 제한하는 것은 아니다. 메모리(920)는 통신 모듈(910)로 입력되는 데이터, 프로세서(940)에 의해 수행되는 기능에 필요한 데이터 및 프로세서(940)에 실행에 따라 생성된 데이터 중 적어도 어느 하나를 저장하도록 구성될 수 있다. 메모리(920)는 전원이 공급되지 않아도 저장된 정보를 계속 유지하는 비휘발성 저장장치 및 저장된 정보를 유지하기 위하여 전력을 필요로 하는 휘발성 저장장치를 통칭하는 것으로 해석되어야 한다. 메모리(920)는 프로세서(940)가 처리하는 데이터를 일시적 또는 영구적으로 저장하는 기능을 수행할 수 있다. 메모리(920)는 저장된 정보를 유지하기 위하여 전력이 필요한 휘발성 저장장치 외에 자기 저장 매체(magnetic storage media) 또는 플래시 저장 매체(flash storage media)를 포함할 수 있으나, 본 발명의 범위가 이에 한정되는 것은 아니다. The memory 920 stores a program for providing user-customized disease prediction information. The name of the user-customized disease prediction information providing program is set for convenience of explanation, and the name itself does not limit the function of the program. The memory 920 may be configured to store at least one of data input to the communication module 910 , data required for a function performed by the processor 940 , and data generated according to execution by the processor 940 . . The memory 920 should be interpreted as a generic term for a non-volatile storage device that continuously maintains stored information even when power is not supplied, and a volatile storage device that requires power to maintain the stored information. The memory 920 may perform a function of temporarily or permanently storing data processed by the processor 940 . The memory 920 may include magnetic storage media or flash storage media in addition to a volatile storage device that requires power to maintain stored information, but the scope of the present invention is not limited thereto. not.

데이터베이스(930)는 사용자 맞춤형 질병 예측 정보 생성에 필요한 데이터가 저장되는 곳일 수 있다. 데이터베이스(930)는 메모리(920)의 일부 영역에 구축되거나 별도의 하드웨어로 구현될 수 있다.The database 930 may be a place in which data required for generating user-customized disease prediction information is stored. The database 930 may be built in a partial area of the memory 920 or implemented as separate hardware.

프로세서(940)는 메모리(920)에 저장된 사용자 맞춤형 질병 예측 정보 제공 프로그램을 실행하도록 구성된다. 프로세서(940)는 데이터를 제어 및 처리하는 다양한 종류의 장치들을 포함할 수 있다. 프로세서(940)는 프로그램 내에 포함된 코드 또는 명령으로 표현된 기능을 수행하기 위해 물리적으로 구조화된 회로를 갖는, 하드웨어에 내장된 데이터 처리 장치를 의미할 수 있다. 일 예에서, 프로세서(940)는 마이크로프로세서(microprocessor), 중앙처리장치(central processing unit: CPU), 프로세서 코어(processor core), 멀티프로세서(multiprocessor), ASIC(application-specific integrated circuit), FPGA(field programmable gate array) 등의 형태로 구현될 수 있으나, 본 발명의 범위가 이에 한정되는 것은 아니다.The processor 940 is configured to execute a program for providing user-customized disease prediction information stored in the memory 920 . The processor 940 may include various types of devices for controlling and processing data. The processor 940 may refer to a data processing device embedded in hardware having a physically structured circuit to perform a function expressed as a code or an instruction included in a program. In one example, the processor 940 includes a microprocessor, a central processing unit (CPU), a processor core, a multiprocessor, an application-specific integrated circuit (ASIC), an FPGA (FPGA). field programmable gate array), but the scope of the present invention is not limited thereto.

프로세서(940)는 사용자 맞춤형 질병 예측 정보 제공 프로그램을 실행하여, 다음과 같은 기능 및 절차들을 수행하도록 구성된다. The processor 940 is configured to execute a user-customized disease prediction information providing program to perform the following functions and procedures.

프로세서(940)는 통신 모듈(910)을 통해 단말(1000)로부터 사용자 입력 정보를 수신한다. 사용자 입력 정보는 사용자의 개인 데이터, 사용자의 진료 데이터, 생활 습관 데이터를 포함한다. 사용자의 개인 데이터는 이름, 나이, 생년월일 및 성별 중 적어도 하나 이상을 포함한다. 사용자의 개인 데이터는 나이 및 성별 데이터를 반드시 포함한다. 사용자의 진료 데이터는 사용자의 진료 날짜, 검진 종류, 과거 병력 데이터, 최근 병력 데이터, 최근 진료과 데이터, 가족 과거 병력 및 약물 치료 병력 데이터 중 적어도 하나 이상을 포함한다. 사용자의 진료 데이터는 과거 병력 데이터, 최근 병력 데이터, 최근 진료과 데이터 및 약물 치료 병력 데이터를 반드시 포함한다. 사용자의 생활 습관 데이터는 음주 데이터, 흡연 데이터, B형 간염 항원 보유 데이터 및 현재 약물 복용 데이터 중 적어도 하나 이상을 포함할 수 있다. 사용자의 생활 습관 데이터는 음주 데이터 및 흡연 데이터를 반드시 포함한다. 음주 데이터는 음주 기간, 음주 여부 및 음주량 등의 정보를 포함하며, 흡연 데이터는 흡연 여부, 흡연 기간 및 흡연량 등의 정보를 포함한다. The processor 940 receives user input information from the terminal 1000 through the communication module 910 . The user input information includes the user's personal data, the user's medical treatment data, and lifestyle data. The user's personal data includes at least one or more of a name, age, date of birth, and gender. Users' personal data must include age and gender data. The user's medical treatment data includes at least one or more of the user's medical treatment date, examination type, past medical history data, recent medical history data, recent department data, family history, and drug treatment history data. The user's medical treatment data necessarily includes past medical history data, recent medical history data, recent department data, and drug treatment history data. The user's lifestyle data may include at least one of drinking data, smoking data, hepatitis B antigen holding data, and current drug intake data. The user's lifestyle data necessarily includes drinking data and smoking data. The drinking data includes information such as the drinking period, whether or not drinking, and the amount of drinking, and the smoking data includes information such as whether or not smoking, the period of smoking and the amount of smoking.

프로세서(940)는 질병 예측 모델을 이용해서 사용자 입력 정보를 토대로 사용자 질병 예측 정보를 생성한다. 질병 예측 모델은 프로세서(940)에 의해 아래와 같은 기능 및 절차를 통해 생성된다. 질병 예측 모델은 프로세서(940)를 통해, 국민건강보험공단 서버로부터 수신한 보험자들의 개인 데이터, 진료 데이터, 생활 습관 데이터 및 질병 발생 데이터를 포함하는 학습 데이터 세트를 기초로, 개인 데이터, 진료 데이터 및 생활 습관 데이터를 입력 변수로 하고 상기 질병 발생 데이터를 출력 변수로 하여 학습된 인공지능 모델이다. 개인 데이터는 나이, 성별, 생년월일 중 적어도 하나 이상을 포함한다. 개인 데이터는 나이 및 성별 데이터를 반드시 포함한다. 진료 데이터는 보험자의 진료 기간 및 진료 날짜, 과거 질병 이력, 최근 질병 이력, 검진 종류, 방문 진료과, 가족 과거 병력, 약물 치료 병력, B형 간염 항원 보유 여부 및 현재 약물 복용 여부 중 적어도 하나 이상을 포함한다. 진료 데이터는 과거 질병 이력, 최근 질병 이력, 방문 진료과 및 약물 치료 병력 데이터를 반드시 포함한다. 생활 습관 데이터는 흡연 여부, 흡연 기간, 흡연량, 음주 여부, 음주 기간 및 음주량 중 적어도 하나 이상을 포함한다. 생활 습관 데이터는 흡연 여부, 흡연 기간, 흡연량, 음주 여부, 음주 기간 및 음주량 중 적어도 하나 이상을 포함한다. 생활 습관 데이터는 흡연 여부, 흡연 기간, 흡연량, 음주 여부, 음주 기간 및 음주량 데이터를 반드시 포함한다. 질병 발생 데이터는, 암 발생 데이터, 심장질환 발생 데이터, 뇌질환 발생 데이터, 간질환 발생 데이터, 당뇨병 발생 데이터, 고혈압 발생 데이터, 갑상성 발생 데이터, 신부선 발생 데이터, 녹내장 발생 데이터 및 동맥경화 발생 데이터를 포함할 수 있다. 출력 변수는 프로세서(940)에 의해 질병 발생 데이터에 포함된 데이터들 중 적어도 하나 이상의 데이터를 포함하도록 설정될 수 있다. 프로세서(940)는 입력 변수와 출력 변수를 포함하는 학습 데이터 세트를 기초로 인공지능 모델을 학습시켜 질병 예측 모델을 생성한다. 보다 상세하게는, 프로세서(940)는 질병 예측 모델 생성 시, 국민건강보험공단 서버로부터 수신한 보험자들의 데이터를 포함하는 학습 데이터에서 주상병 데이터, 부상병 데이터, 개인 데이터, 생활 습관 데이터 및 진료 데이터를 학습 데이터 세트의 라벨링 대상인 특징 데이터로 설정할 수 있다. 프로세서(940)는 질병 예측 모델이 학습 데이터 세트에서 특징 데이터로 설정한 데이터들의 상관관계 분석을 진행하여 데이터 중요도 및 신뢰도를 파악하고, 높은 중요도 및 신뢰도를 갖는 데이터 중에서 입력 변수 및 출력 변수를 설정할 수 있도록 한다. 예컨대, 보험자 A의 주상병은 폐암이고, 부상병은 기관지 암이다. 이 때, 보험자 A는 1년 이내에 만성 기침 질환을 겪었으며, 평소에 주 5일 흡연을 했다. 위와 같은 진료 데이터 및 생활 습관 데이터를 갖는 입력 변수가 사용자 맞춤형 질병 예측 모델에 입력될 경우, 사용자 맞춤형 질병 예측 모델은 폐암과 기관지 암을 출력 변수(질병 예측 정보)로 출력하고, 출력된 변수를 암 발생 데이터로 카테고리화 할 수 있다. 프로세서(940)가 수행하는 특징 데이터들 간의 상관관계는 Cramer V test, Random Forest 및 Linear Regression를 통해 분석하여 파악할 수 있다. The processor 940 generates user disease prediction information based on user input information using the disease prediction model. The disease prediction model is generated by the processor 940 through the following functions and procedures. The disease prediction model is based on the learning data set including personal data, medical treatment data, lifestyle data, and disease occurrence data of the insurers received from the National Health Insurance Corporation server through the processor 940, personal data, medical treatment data and It is an artificial intelligence model learned by using lifestyle data as an input variable and the disease occurrence data as an output variable. The personal data includes at least one of age, gender, and date of birth. Personal data must include age and gender data. Medical data includes at least one or more of the insurer's medical treatment period and date, past disease history, recent disease history, type of examination, visiting department, family history, drug treatment history, hepatitis B antigen holding and current drug use do. Medical data must include historical disease history, recent disease history, visiting department and drug treatment history data. The lifestyle data includes at least one of smoking status, smoking period, smoking amount, drinking status, drinking period, and drinking amount. The lifestyle data includes at least one of smoking status, smoking period, smoking amount, drinking status, drinking period, and drinking amount. Lifestyle data must include data on whether or not smoking, smoking period, smoking amount, drinking status, drinking period and drinking amount data. The disease occurrence data includes cancer occurrence data, heart disease occurrence data, brain disease occurrence data, liver disease occurrence data, diabetes occurrence data, hypertension occurrence data, thyroid disease occurrence data, renal gland occurrence data, glaucoma occurrence data, and arteriosclerosis occurrence data. may include. The output variable may be set by the processor 940 to include at least one or more of data included in the disease occurrence data. The processor 940 generates a disease prediction model by learning an artificial intelligence model based on a training data set including an input variable and an output variable. In more detail, when the disease prediction model is generated, the processor 940 collects personal data, injury data, personal data, lifestyle data, and medical treatment data from learning data including data of insurers received from the National Health Insurance Corporation server. It can be set as feature data that is a labeling target of the training data set. The processor 940 may determine data importance and reliability by performing correlation analysis of data set by the disease prediction model as feature data in the training data set, and may set input variables and output variables among data having high importance and reliability. let it be For example, insurer A's main disease is lung cancer, and the injured disease is bronchial cancer. At this time, insurer A suffered from chronic cough disease within 1 year and smoked 5 days a week. When an input variable having the above treatment data and lifestyle data is input to a user-customized disease prediction model, the user-customized disease prediction model outputs lung cancer and bronchial cancer as output variables (disease prediction information), and outputs the output variables to cancer It can be categorized by occurrence data. The correlation between the feature data performed by the processor 940 may be identified by analyzing through Cramer V test, Random Forest, and Linear Regression.

프로세서(940)는 사용자 질병 예측 정보를 단말(1000)에게 제공한다. 사용자 질병 예측 정보는 보험자들의 질병 발생 데이터에 포함된 데이터 중 적어도 하나 이상의 데이터와 관련된 위험 질병 예측 정보, 상기 위험 질병 예측 정보에 대응되는 자가 진단 방법 정보 및 상기 위험 질병 예측 정보에 대응되는 예방법 정보를 포함한다. 사용자 질병 예측 정보가 상기 질병 발생 데이터에 포함된 데이터 중 두 개 이상의 데이터와 관련된 복수개의 위험 질병 예측 정보들을 포함하는 경우, 프로세서(940)가, 복수개의 위험 질병 예측 정보들을 고위험군 및 저위험군으로 분류하여 단말(1000)에게 제공할 수 있다. The processor 940 provides the user disease prediction information to the terminal 1000 . The user disease prediction information includes dangerous disease prediction information related to at least one or more data among data included in the insurers' disease occurrence data, self-diagnosis method information corresponding to the dangerous disease prediction information, and prevention method information corresponding to the dangerous disease prediction information. include When the user disease prediction information includes a plurality of dangerous disease prediction information related to two or more data among the data included in the disease occurrence data, the processor 940 classifies the plurality of risk disease prediction information into a high-risk group and a low-risk group Thus, it can be provided to the terminal 1000 .

프로세서(940)는 사용자 질병 예측 정보에 대응되는 보험상품 추천 정보를 단말(1000)에게 제공하는 것을 더 포함할 수 있다. 보험상품 추천 정보는 사용자 질병 예측 정보에 대응되는 보험 상품 이름 및 보험상품 약관을 포함할 수 있다. 프로세서(940)는 보험사 서버 또는 단말로부터 보험상품 데이터를 수신할 수 있다. 보험상품 데이터는 보험상품 이름 및 보험상품 약관 데이터를 포함한다. 보험상품 약관 데이터는 보험 대상 질병에 대한 질병 분류 번호 및 질병 명칭과 같은 정보를 포함할 수 있다. 보험상품 데이터는 보험상품 약관과 같은 PDF 파일일 수 있다. 프로세서(940)는 보험상품 데이터에서 질병 명칭 및 질병 분류 번호를 추출하고, 추출된 데이터와 사용자 질병 예측 정보를 매핑하여 사용자 질병 예측 정보에 대응되는 질병 분류 번호 및 질병 명칭에 대한 보험상품 추천 정보를 생성한다. 그리고 생성된 보험상품 추천 정보를 단말(1000)에게 제공한다. 예를 들어, 사용자 질병 예측 정보의 위험 질병 정보가 소화기관의 악성 신생물일 경우, 해당 위험 질병 정보와 대응되는 보험상품을 추천할 수 있다. 보험상품 데이터에서 질병 명칭 및 질병 분류 번호를 추출 시. 파이썬(Python)을 활용하여 수행할 수 있다. The processor 940 may further include providing insurance product recommendation information corresponding to the user disease prediction information to the terminal 1000 . The insurance product recommendation information may include an insurance product name and insurance product terms corresponding to the user's disease prediction information. The processor 940 may receive insurance product data from an insurance company server or terminal. The insurance product data includes insurance product names and insurance product terms and conditions data. Insurance policy data may include information such as disease classification numbers and disease names for insured diseases. The insurance product data may be a PDF file such as an insurance product policy. The processor 940 extracts the disease name and disease classification number from the insurance product data, and maps the extracted data and user disease prediction information to obtain insurance product recommendation information for the disease classification number and disease name corresponding to the user disease prediction information. create Then, the generated insurance product recommendation information is provided to the terminal 1000 . For example, when the dangerous disease information of the user's disease prediction information is a malignant neoplasm of the digestive system, an insurance product corresponding to the dangerous disease information may be recommended. When extracting disease names and disease classification numbers from insurance product data. This can be done using Python.

도 11은 단말(1000)의 구성을 도시한 블록도이다. 11 is a block diagram illustrating the configuration of the terminal 1000 .

도 11을 참조하면, 단말(1000)은 통신 모듈(1010), 메모리(1020), 입출력 모듈(1030) 및 프로세서(1040)를 포함할 수 있다. Referring to FIG. 11 , the terminal 1000 may include a communication module 1010 , a memory 1020 , an input/output module 1030 , and a processor 1040 .

통신 모듈(1010)은 질병 예측 시스템(900)과의 정보 송수신을 수행한다. 통신 모듈(910)은 다른 네트워크 장치와 유무선 연결을 통해 제어 신호 또는 데이터 신호와 같은 신호를 송수신하기 위해 필요한 하드웨어 및 소프트웨어를 포함하는 장치를 포함할 수 있다.The communication module 1010 transmits/receives information to and from the disease prediction system 900 . The communication module 910 may include a device including hardware and software necessary for transmitting and receiving signals such as control signals or data signals through wired/wireless connection with other network devices.

메모리(1020)는 사용자 맞춤형 질병 예측 정보 추천 프로그램을 저장한다. 사용자 맞춤형 질병 예측 정보 추천 프로그램의 명칭은 설명의 편의를 위해 설정된 것으로, 명칭 그 자체로 프로그램의 기능을 제한하는 것은 아니다. 메모리(1020)는 통신 모듈(1010)로 입력되는 정보 및 데이터, 프로세서(1040)에 의해 수행되는 기능에 필요한 정보 및 데이터, 프로세서(1040)의 실행에 따라 생성된 데이터 중 적어도 어느 하나 이상을 저장할 수 있다. 메모리(1020)는 전원이 공급되지 않아도 저장된 정보를 계속 유지하는 비휘발성 저장장치 및 저장된 정보를 유지하기 위하여 전력을 필요로 하는 휘발성 저장장치를 통칭하는 것으로 해석되어야 한다. 또한, 메모리(1020)는 프로세서(1040)가 처리하는 데이터를 일시적 또는 영구적으로 저장하는 기능을 수행할 수 있다. 메모리(1020)는 저장된 정보를 유지하기 위하여 전력이 필요한 휘발성 저장장치 외에 자기 저장 매체(magnetic storage media) 또는 플래시 저장 매체(flash storage media)를 포함할 수 있으나, 본 발명의 범위가 이에 한정되는 것은 아니다. The memory 1020 stores a user-customized disease prediction information recommendation program. The name of the user-customized disease prediction information recommendation program is set for convenience of explanation, and the name itself does not limit the function of the program. The memory 1020 stores at least any one or more of information and data input to the communication module 1010 , information and data necessary for a function performed by the processor 1040 , and data generated according to the execution of the processor 1040 . can The memory 1020 should be interpreted as a generic term for a non-volatile storage device that continuously maintains stored information even when power is not supplied, and a volatile storage device that requires power to maintain the stored information. Also, the memory 1020 may perform a function of temporarily or permanently storing data processed by the processor 1040 . The memory 1020 may include magnetic storage media or flash storage media in addition to a volatile storage device that requires power to maintain stored information, but the scope of the present invention is not limited thereto. not.

입출력 모듈(1030)은 외부로부터 단말(1000)로 전송되는 정보, 데이터 등을 입력받거나, 단말(1000)이 보유한 정보, 데이터 등을 외부로 출력할 수 있다. 예컨대, 입출력 모듈(1030)은 디스플레이, 터치패드, 스피커 및 마이크 등을 포함할 수 있다. The input/output module 1030 may receive information, data, etc. transmitted from the outside to the terminal 1000 , or may output information and data possessed by the terminal 1000 to the outside. For example, the input/output module 1030 may include a display, a touchpad, a speaker, and a microphone.

프로세서(1040)는 데이터를 제어 및 처리하는 다양한 종류의 장치들을 포함할 수 있다. 프로세서(1040)는 프로그램 내에 포함된 코드 또는 명령으로 표현된 기능을 수행하기 위해 물리적으로 구조화된 회로를 갖는, 하드웨어에 내장된 데이터 처리 장치를 의미할 수 있다. 일 예에서, 프로세서(1040)는 마이크로프로세서(microprocessor), 중앙처리장치(central processing unit: CPU), 프로세서 코어(processor core), 멀티프로세서(multiprocessor), ASIC(application-specific integrated circuit), FPGA(field programmable gate array) 등의 형태로 구현될 수 있으나, 본 발명의 범위가 이에 한정되는 것은 아니다. 프로세서(1040)는 메모리(1020)에 저장된 사용자 맞춤형 질병 예측 정보 추천 프로그램(이하, “질병 예측 추천 프로그램” 이라 함)을 실행하여 다음과 같은 기능 및 절차들을 수행하도록 구성된다.The processor 1040 may include various types of devices for controlling and processing data. The processor 1040 may refer to a data processing device embedded in hardware having a physically structured circuit to perform a function expressed as a code or an instruction included in a program. In one example, the processor 1040 is a microprocessor, a central processing unit (CPU), a processor core, a multiprocessor, an application-specific integrated circuit (ASIC), an FPGA ( field programmable gate array), but the scope of the present invention is not limited thereto. The processor 1040 is configured to execute a user-customized disease prediction information recommendation program (hereinafter, referred to as a “disease prediction recommendation program”) stored in the memory 1020 to perform the following functions and procedures.

프로세서(1040)에서 질병 예측 시스템(900)으로 송신하는 정보는 입출력 모듈(1030)을 통해 출력되는 다양한 인터페이스에 입력된 정보일 수 있다. 인터페이스는 질병 예측 시스템(900)으로부터 수신되거나 프로세서(1040)에 의해 생성될 수 있다.Information transmitted from the processor 1040 to the disease prediction system 900 may be information input to various interfaces output through the input/output module 1030 . The interface may be received from the disease prediction system 900 or generated by the processor 1040 .

프로세서(1040)는 입출력 모듈(1030)에 사용자 정보 입력 인터페이스를 생성하고, 해당 인터페이스에 입력된 사용자 입력 정보를 통신 모듈(1010)을 통해 사용자 질병 예측 시스템(900)으로 송신한다. 사용자 입력 정보는 앞서 도 10을 참조하여 설명한 사용자 입력 정보와 동일하므로, 이에 대한 설명은 생략하도록 한다. The processor 1040 generates a user information input interface in the input/output module 1030 , and transmits the user input information input to the interface to the user disease prediction system 900 through the communication module 1010 . Since the user input information is the same as the user input information described with reference to FIG. 10, a description thereof will be omitted.

프로세서(1040)는 질병 예측 시스템(900)으로부터 사용자 질병 예측 정보를 수신 받아 입출력 모듈(1030)에 출력할 수 있다. 사용자 질병 예측 정보는 위험 질병 정보, 상기 위험 질병 정보에 대응되는 자가진단 방법 및 상기 위험 질병 정보에 대응되는 예방법 정보 등을 포함할 수 있다. The processor 1040 may receive user disease prediction information from the disease prediction system 900 and output it to the input/output module 1030 . The user disease prediction information may include dangerous disease information, a self-diagnosis method corresponding to the dangerous disease information, and prevention method information corresponding to the dangerous disease information.

프로세서(1040)는 질병 예측 시스템(900)으로부터 사용자 질병 예측 정보에 대응되는 보험상품 추천 정보를 수신 받아 입출력 모듈(1030)에 출력할 수 있다. 보험상품 추천 정보는 사용자 질병 예측 정보에 대응되는 보험 상품 이름 및 보험상품 약관을 포함할 수 있다The processor 1040 may receive insurance product recommendation information corresponding to the user's disease prediction information from the disease prediction system 900 and output the received insurance product recommendation information to the input/output module 1030 . The insurance product recommendation information may include an insurance product name and insurance product terms corresponding to the user's disease prediction information.

도 12는 본 발명의 다른 실시예에 따른, 사용자에게 맞춤형 질병 예측 정보를 제공하는 사용자 맞춤형 질병 예측 방법을 설명하는 동작 흐름도이고, 도 13은 도 12에 도시된 사용자 맞춤형 질병 예측 방법의 추가 단계를 설명하기 위해 도시된 도면이다. 이하에서 도 12 및 도 13을 참조하여, 사용자 맞춤형 질병 예측 방법을 설명하고자 한다. 이하에서 설명될 사용자 맞춤형 질병 예측 방법의 각 단계들은 앞서 도 9 내지 도 11을 참조하여 설명한 사용자 맞춤형 질병 예측 시스템(900)에 의해 수행될 수 있다. 따라서, 앞서 도 9 내지 도 11을 참조하여 설명한 본 발명의 다른 실시예에 대한 내용은 이하에서 설명될 도 12 및 도 13의 실시예에도 동일하게 적용될 수 있으며, 도 9 내지 도 11에서 상술한 설명과 중복되는 내용은 생략하도록 한다. 도 12 및 도 13에서 설명되는 단계들은 반드시 순서대로 수행되어야 하는 것은 아니고, 단계들의 순서는 다양하게 설정될 수 있으며, 각 단계들은 거의 동시에 수행될 수도 있다. 12 is a flowchart illustrating a user-customized disease prediction method for providing customized disease prediction information to a user according to another embodiment of the present invention, and FIG. 13 is an additional step of the user-customized disease prediction method shown in FIG. It is a drawing shown for explanation. Hereinafter, a user-customized disease prediction method will be described with reference to FIGS. 12 and 13 . Each step of the user-customized disease prediction method to be described below may be performed by the user-customized disease prediction system 900 described above with reference to FIGS. 9 to 11 . Accordingly, the contents of another embodiment of the present invention described above with reference to FIGS. 9 to 11 can be equally applied to the embodiments of FIGS. 12 and 13 to be described below, and the descriptions described above with reference to FIGS. 9 to 11 . Contents that overlap with the above should be omitted. The steps described in FIGS. 12 and 13 are not necessarily performed in order, and the order of the steps may be set in various ways, and each step may be performed almost simultaneously.

도 12를 참조하면, 사용자 맞춤형 질병 예측 방법은, 서버와 단말의 통신 연결을 통해 사용자에게 맞춤형 질병 예측 정보를 제공하는 방법으로서, 사용자 입력 정보 수신 단계(S1210), 사용자 질병 예측 정보 생성 단계(S1220) 및 사용자 질병 예측 정보 송신 단계(930)를 포함한다. 여기서, 서버 및 단말은 각각 도 9에 도시된 맞춤형 질병 예측 시스템(도 9의 900) 및 단말(도 9의 1000)일 수 있다. Referring to FIG. 12 , the user-customized disease prediction method is a method of providing customized disease prediction information to a user through a communication connection between a server and a terminal. ) and transmitting user disease prediction information ( 930 ). Here, the server and the terminal may be a customized disease prediction system ( 900 in FIG. 9 ) and a terminal ( 1000 in FIG. 9 ) shown in FIG. 9 , respectively.

사용자 입력 정보 수신 단계(S1210)는 서버가 단말로부터 사용자 입력 정보를 수신하는 단계이다. 사용자 입력 정보는 사용자의 개인 데이터, 사용자의 진료 데이터, 생활 습관 데이터를 포함한다. 사용자의 개인 데이터는 이름, 나이, 생년월일 및 성별 중 적어도 하나 이상을 포함한다. 사용자의 개인 데이터는 나이 및 성별 데이터를 반드시 포함한다. 사용자의 진료 데이터는 사용자의 진료 날짜, 검진 종류, 과거 병력 데이터, 최근 병력 데이터, 최근 진료과 데이터, 가족 과거 병력 및 약물 치료 병력 데이터 중 적어도 하나 이상을 포함한다. 사용자의 진료 데이터는 과거 병력 데이터, 최근 병력 데이터, 최근 진료과 데이터 및 약물 치료 병력 데이터를 반드시 포함한다. 사용자의 생활 습관 데이터는 음주 데이터, 흡연 데이터, B형 간염 항원 보유 데이터 및 현재 약물 복용 데이터 중 적어도 하나 이상을 포함할 수 있다. 사용자의 생활 습관 데이터는 음주 데이터 및 흡연 데이터를 반드시 포함한다. 음주 데이터는 음주 기간, 음주 여부 및 음주량 등의 정보를 포함하며, 흡연 데이터는 흡연 여부, 흡연 기간 및 흡연량 등의 정보를 포함한다.The user input information receiving step S1210 is a step in which the server receives user input information from the terminal. The user input information includes the user's personal data, the user's medical treatment data, and lifestyle data. The user's personal data includes at least one or more of a name, age, date of birth, and gender. Users' personal data must include age and gender data. The user's medical treatment data includes at least one or more of the user's medical treatment date, examination type, past medical history data, recent medical history data, recent department data, family history, and drug treatment history data. The user's medical treatment data necessarily includes past medical history data, recent medical history data, recent department data, and drug treatment history data. The user's lifestyle data may include at least one of drinking data, smoking data, hepatitis B antigen holding data, and current drug intake data. The user's lifestyle data necessarily includes drinking data and smoking data. The drinking data includes information such as the drinking period, whether or not drinking, and the amount of drinking, and the smoking data includes information such as whether or not smoking, the period of smoking and the amount of smoking.

사용자 질병 예측 정보 생성 단계(S1220)는 서버가 질병 예측 모델을 이용해서 단말로부터 수신한 사용자 입력 정보를 토대로 사용자 질병 예측 정보를 생성하는 단계이다. 질병 예측 모델은 서버에 의해 생성된다. 서버는 국민건강보험공단 서버로부터 수신한 보험자들의 개인 데이터, 진료 데이터, 생활 습관 데이터 및 질병 발생 데이터를 포함하는 학습 데이터 세트를 기초로, 개인 데이터, 진료 데이터 및 생활 습관 데이터를 입력 변수로 하고 상기 질병 발생 데이터를 출력 변수로 하여 학습된 질병 예측 모델을 생성한다. 개인 데이터는 나이, 성별, 생년월일 중 적어도 하나 이상을 포함한다. 개인 데이터는 나이 및 성별 데이터를 반드시 포함한다. 진료 데이터는 보험자의 진료 기간 및 진료 날짜, 과거 질병 이력, 최근 질병 이력, 검진 종류, 방문 진료과, 가족 과거 병력, 약물 치료 병력, B형 간염 항원 보유 여부 및 현재 약물 복용 여부 중 적어도 하나 이상을 포함한다. 진료 데이터는 과거 질병 이력, 최근 질병 이력, 방문 진료과 및 약물 치료 병력 데이터를 반드시 포함한다. 생활 습관 데이터는 흡연 여부, 흡연 기간, 흡연량, 음주 여부, 음주 기간 및 음주량 중 적어도 하나 이상을 포함한다. 생활 습관 데이터는 흡연 여부, 흡연 기간, 흡연량, 음주 여부, 음주 기간 및 음주량 데이터를 반드시 포함한다. 질병 발생 데이터는, 암 발생 데이터, 심장질환 발생 데이터, 뇌질환 발생 데이터, 간질환 발생 데이터, 당뇨병 발생 데이터, 고혈압 발생 데이터, 갑상성 발생 데이터, 신부선 발생 데이터, 녹내장 발생 데이터 및 동맥경화 발생 데이터를 포함할 수 있다. 출력 변수는 서버에 의해 질병 발생 데이터에 포함된 데이터들 중 적어도 하나 이상의 데이터를 포함하도록 설정될 수 있다. 이와 같이, 서버는 입력 변수와 출력 변수를 포함하는 학습 데이터 세트를 기초로 인공지능 모델을 학습시켜 질병 예측 모델을 생성한다. 보다 상세하게는, 서버는 질병 예측 모델 생성 시, 국민건강보험공단 서버로부터 수신한 보험자들의 데이터를 포함하는 학습 데이터에서 주상병 데이터, 부상병 데이터, 개인 데이터, 생활 습관 데이터 및 진료 데이터를 학습 데이터 세트의 라벨링 대상인 특징 데이터로 설정할 수 있다. 서버는 질병 예측 모델이 학습 데이터 세트에서 특징 데이터로 설정한 데이터들의 상관관계 분석을 진행하여 데이터 중요도 및 신뢰도를 파악하고, 높은 중요도 및 신뢰도를 갖는 데이터 중에서 입력 변수 및 출력 변수를 설정할 수 있도록 한다. 예컨대, 보험자 A의 주상병은 폐암이고, 부상병은 기관지 암이다. 이 때, 보험자 A는 1년 이내에 만성 기침 질환을 겪었으며, 평소에 주 5일 흡연을 했다. 위와 같은 진료 데이터 및 생활 습관 데이터를 갖는 입력 변수가 사용자 맞춤형 질병 예측 모델에 입력될 경우, 사용자 맞춤형 질병 예측 모델은 폐암과 기관지 암을 출력 변수(질병 예측 정보)로 출력하고, 출력된 변수를 암 발생 데이터로 카테고리화 할 수 있다.The user disease prediction information generation step ( S1220 ) is a step in which the server generates user disease prediction information based on user input information received from the terminal using the disease prediction model. The disease prediction model is generated by the server. The server uses personal data, medical treatment data and lifestyle data as input variables based on a learning data set including personal data, medical treatment data, lifestyle data, and disease occurrence data of insurers received from the National Health Insurance Corporation server, and A trained disease prediction model is generated using the disease occurrence data as an output variable. The personal data includes at least one of age, gender, and date of birth. Personal data must include age and gender data. Medical data includes at least one or more of the insurer's medical treatment period and date, past disease history, recent disease history, type of examination, visiting department, family history, drug treatment history, hepatitis B antigen holding and current drug use do. Medical data must include historical disease history, recent disease history, visiting department and drug treatment history data. The lifestyle data includes at least one of smoking status, smoking period, smoking amount, drinking status, drinking period, and drinking amount. Lifestyle data must include data on whether or not smoking, smoking period, smoking amount, drinking status, drinking period and drinking amount data. The disease occurrence data includes cancer occurrence data, heart disease occurrence data, brain disease occurrence data, liver disease occurrence data, diabetes occurrence data, hypertension occurrence data, thyroid disease occurrence data, renal gland occurrence data, glaucoma occurrence data, and arteriosclerosis occurrence data. may include. The output variable may be set by the server to include at least one or more data among data included in the disease occurrence data. In this way, the server generates a disease prediction model by learning the artificial intelligence model based on the training data set including the input variable and the output variable. In more detail, when the server generates a disease prediction model, the training data set includes personal injury data, injury data, personal data, lifestyle data and medical treatment data from the learning data including data of insurers received from the National Health Insurance Corporation server. It can be set as the feature data that is the labeling target of The server performs correlation analysis of data set by the disease prediction model as feature data in the training data set to determine data importance and reliability, and enables input and output variables to be set among data with high importance and reliability. For example, insurer A's main disease is lung cancer, and the injured disease is bronchial cancer. At this time, insurer A suffered from chronic cough disease within 1 year and smoked 5 days a week. When an input variable having the above treatment data and lifestyle data is input to a user-customized disease prediction model, the user-customized disease prediction model outputs lung cancer and bronchial cancer as output variables (disease prediction information), and outputs the output variables to cancer It can be categorized by occurrence data.

사용자 질병 예측 정보 송신 단계(S1230)는 서버가 사용자 질병 예측 정보를 단말에게 제공하는 단계이다. 사용자 질병 예측 정보는 보험자들의 질병 발생 데이터에 포함된 데이터 중 적어도 하나 이상의 데이터와 관련된 위험 질병 예측 정보, 상기 위험 질병 예측 정보에 대응되는 자가 진단 방법 정보 및 상기 위험 질병 예측 정보에 대응되는 예방법 정보를 포함한다. 사용자 질병 예측 정보가 질병 발생 데이터에 포함된 데이터 중 두 개 이상의 데이터와 관련된 복수개의 위험 질병 예측 정보들을 포함하는 경우, 서버가 복수개의 위험 질병 예측 정보들을 고위험군 및 저위험군으로 분류하여 단말에게 제공할 수 있다. The user disease prediction information transmission step ( S1230 ) is a step in which the server provides the user disease prediction information to the terminal. The user disease prediction information includes dangerous disease prediction information related to at least one or more data among data included in the insurers' disease occurrence data, self-diagnosis method information corresponding to the dangerous disease prediction information, and prevention method information corresponding to the dangerous disease prediction information. include When the user disease prediction information includes a plurality of dangerous disease prediction information related to two or more data among the data included in the disease occurrence data, the server classifies the plurality of dangerous disease prediction information into a high-risk group and a low-risk group and provides it to the terminal. can

도 13은 도 12에 도시된 사용자 맞춤형 질병 예측 방법의 추가 단계를 설명하기 위해 도시된 도면이다. FIG. 13 is a diagram illustrating an additional step of the method for predicting a user-customized disease shown in FIG. 12 .

도 13을 참조하면, 사용자 맞춤형 질병 예측 방법은, 보험상품 추천 정보 제공 단계를 더 포함할 수 있다. 보험상품 추천 정보 제공 단계는 보험상품 데이터 수신 단계(S1310) 및 보험상품 추천 정보 생성 단계(S1320)를 포함할 수 있다. Referring to FIG. 13 , the user-customized disease prediction method may further include providing insurance product recommendation information. The step of providing insurance product recommendation information may include an insurance product data receiving step (S1310) and an insurance product recommendation information generating step (S1320).

보험상품 데이터 수신 단계(S1310)는 서버가 보험사 서버 또는 단말로부터 보험상품 데이터를 수신하는 단계이다. 보험상품 데이터는 보험상품 이름 및 보험상품 약관 데이터를 포함한다. 보험상품 약관 데이터는 보험 대상 질병에 대한 질병 분류 번호 및 질병 명칭과 같은 정보를 포함할 수 있다. 보험상품 데이터는 보험상품 약관과 같은 PDF 파일일 수 있다.The insurance product data receiving step S1310 is a step in which the server receives insurance product data from the insurance company server or terminal. The insurance product data includes insurance product names and insurance product terms and conditions data. Insurance policy data may include information such as disease classification numbers and disease names for insured diseases. The insurance product data may be a PDF file such as an insurance product policy.

보험상품 추천 정보 생성 단계(S1320)는 서버가 사용자 질병 예측 정보에 대응되는 보험상품 추천 정보를 생성하고, 단말에게 제공하는 단계이다. 보다 상세하게는, 서버가 보험상품 데이터에서 질병 명칭 및 질병 분류 번호를 추출하고, 추출된 데이터와 사용자 질병 예측 정보를 매핑하여 사용자 질병 예측 정보에 대응되는 질병 분류 번호 및 질병 명칭에 대한 보험상품 추천 정보를 생성한다. 그리고 생성된 보험상품 추천 정보를 단말에게 제공할 수 있다. 보험상품 추천 정보는 사용자 질병 예측 정보에 대응되는 보험 상품 이름 및 보험상품 약관을 포함할 수 있다. 위와 같이, 예를 들어, 서버에서 도출된 사용자 질병 예측 정보의 위험 질병 정보가 소화기관의 악성 신생물일 경우, 해당 위험 질병 정보와 대응되는 보험상품을 추천할 수 있다. The insurance product recommendation information generation step ( S1320 ) is a step in which the server generates insurance product recommendation information corresponding to the user's disease prediction information and provides it to the terminal. More specifically, the server extracts the disease name and disease classification number from the insurance product data, maps the extracted data and the user disease prediction information, and recommends the insurance product for the disease classification number and disease name corresponding to the user disease prediction information create information In addition, the generated insurance product recommendation information may be provided to the terminal. The insurance product recommendation information may include an insurance product name and insurance product terms corresponding to the user's disease prediction information. As above, for example, when the dangerous disease information of the user's disease prediction information derived from the server is a malignant neoplasm of the digestive system, an insurance product corresponding to the dangerous disease information may be recommended.

이상 지금까지 설명한 본 발명의 실시예들에 따른 질병 예측 모델 생성 방법 및 이를 이용한 사용자 질병 예측 방법은, 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. The disease prediction model generation method and the user disease prediction method using the same according to the embodiments of the present invention described above are also in the form of a recording medium including instructions executable by a computer, such as a program module executed by a computer. can be implemented. Computer-readable media can be any available media that can be accessed by a computer and includes both volatile and nonvolatile media, removable and non-removable media. Also, computer-readable media may include computer storage media. Computer storage media includes both volatile and nonvolatile, removable and non-removable media implemented in any method or technology for storage of information such as computer readable instructions, data structures, program modules or other data.

본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 상술한 설명을 기초로 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해되어야만 한다. 본 발명의 범위는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다. 본원의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본원의 범위에 포함되는 것으로 해석되어야 한다.Those of ordinary skill in the art to which the present invention pertains will be able to understand that it can be easily modified into other specific forms without changing the technical spirit or essential features of the present invention based on the above description. Therefore, it should be understood that the embodiments described above are illustrative in all respects and not restrictive. The scope of the present invention is indicated by the following claims, and all changes or modifications derived from the meaning and scope of the claims and their equivalents should be construed as being included in the scope of the present invention. The scope of the present application is indicated by the following claims rather than the above detailed description, and all changes or modifications derived from the meaning and scope of the claims and their equivalent concepts should be construed as being included in the scope of the present application.

100: 질병 예측 모델 생성 장치
110: 메모리
120: 통신 모듈
130: 프로세서
900: 사용자 맞춤형 질병 예측 시스템
910: 통신 모듈
920: 메모리
930: 데이터베이스
940: 프로세서
1000: 단말
1010: 통신 모듈
1020: 메모리
1030: 입출력 모듈
1040: 프로세서
100: device for generating a disease prediction model
110: memory
120: communication module
130: processor
900: User-customized disease prediction system
910: communication module
920: memory
930: database
940: processor
1000: terminal
1010: communication module
1020: memory
1030: input/output module
1040: Processor

Claims (20)

사용자 맞춤형 질병 예측 모델을 생성하는 장치를 이용하여 사용자에게 맞춤형 질병 예측 정보를 제공하는 인공지능 모델을 생성하는 방법에 있어서,
a) 상기 장치가. 복수의 보험자들 각각의 의료 정보를 포함하는 학습 데이터들을 전처리하여 학습 데이터 세트를 생성하는 단계;
b) 상기 장치가, 상기 학습 데이터 세트에 포함된 학습 데이터들 중 일부를 포함하는 테스트 데이터를 기초로 복수개의 인공지능 모델들 각각에 대한 정확도 평가를 포함한 성능 평가를 수행하여 상기 복수개의 인공지능 모델들 중 가장 높은 성능 지표를 갖는 인공지능 모델을 선정하는 단계; 및
c) 상기 학습 데이터 세트에 포함된 상기 보험자들의 개인 데이터, 진료 데이터 및 생활 습관 데이터를 입력 변수로 설정하고, 상기 학습 데이터 세트에 포함된 상기 보험자들의 질병 발생 데이터를 출력 변수로 설정하여 상기 학습 데이터 세트를 기초로 상기 b)단계에 따라 선정된 인공지능 모델을 학습시켜 사용자 맞춤형 질병 예측 모델을 생성하는 단계를 포함하고,
상기 성능 평가는 상기 복수개의 인공지능 모델들 각각에 대한 정확도 평가, 정밀도 평가, 재현율 평가 및 F1 스코어 평가 중 적어도 하나 이상을 포함하고, 그리고,
상기 성능 지표는 성능 평가에 대응되는 정확도 지표, 정밀도 지표, 재현율 지표 및 F1 스코어 지표 중 적어도 하나 이상을 포함하는 것인 질병 예측 모델 생성 방법.
A method of generating an artificial intelligence model that provides customized disease prediction information to a user by using a device for generating a user-customized disease prediction model, the method comprising:
a) the device. generating a training data set by pre-processing training data including medical information of each of a plurality of insurers;
b) the device performs performance evaluation including accuracy evaluation for each of a plurality of AI models based on test data including some of the training data included in the training data set, and the plurality of AI models selecting an AI model having the highest performance index among them; and
c) setting the personal data, medical treatment data, and lifestyle data of the insurers included in the learning data set as input variables, and setting the disease occurrence data of the insurers included in the learning data set as output variables, as an output variable, the learning data Generating a user-customized disease prediction model by learning the artificial intelligence model selected according to step b) based on the set,
The performance evaluation includes at least one of an accuracy evaluation, a precision evaluation, a recall evaluation, and an F1 score evaluation for each of the plurality of artificial intelligence models, and
Wherein the performance index includes at least one of an accuracy index, a precision index, a recall index, and an F1 score index corresponding to the performance evaluation.
제 1항에 있어서,
상기 의료 정보는 상기 복수의 보험자들 각각의 보험자격 데이터, 보험료 데이터, 출생 데이터, 사망 데이터, 진료 데이터, 질병 이력 데이터 및 건강검진 데이터를 포함하는 것인 질병 예측 모델 생성 방법.
The method of claim 1,
Wherein the medical information includes insurance eligibility data, insurance premium data, birth data, death data, medical treatment data, disease history data, and health checkup data of each of the plurality of insurers.
제 2항에 있어서,
상기 a) 단계는,
상기 장치가, 상기 의료 정보에 포함된 데이터들 중 주상병 데이터, 부상병 데이터, 개인 데이터, 생활 습관 데이터 및 진료 데이터를 학습 데이터 세트의 라벨링 대상인 특징 데이터로 설정하는 단계를 포함하는 것인 질병 예측 모델 생성 방법.
3. The method of claim 2,
Step a) is,
Disease prediction model comprising the step of, by the device, setting, among the data included in the medical information, main-injury disease data, injured disease data, personal data, lifestyle data, and medical treatment data as characteristic data to be labeled in a learning data set creation method.
삭제delete 제 1항에 있어서,
상기 질병 발생 데이터는, 암 발생 데이터, 심장질환 발생 데이터, 뇌질환 발생 데이터, 간질환 발생 데이터, 당뇨병 발생 데이터, 고혈압 발생 데이터, 갑상성 발생 데이터, 신부선 발생 데이터, 녹내장 발생 데이터 및 동맥경화 발생 데이터를 포함하고,
상기 출력 변수는 상기 질병 발생 데이터에 포함된 데이터들 중 적어도 하나 이상의 데이터를 포함하도록 설정되는 것인 질병 예측 모델 생성 방법.
The method of claim 1,
The disease occurrence data includes cancer occurrence data, heart disease occurrence data, brain disease occurrence data, liver disease occurrence data, diabetes occurrence data, hypertension occurrence data, thyroid disease occurrence data, renal gland occurrence data, glaucoma occurrence data, and arteriosclerosis occurrence data. contains data;
The method of generating a disease prediction model, wherein the output variable is set to include at least one or more data among data included in the disease occurrence data.
사용자 맞춤형 질병 예측 모델을 생성하는 장치에 있어서,
질병 예측 모델 생성 프로그램을 저장하는 메모리; 및
상기 메모리에 저장된 프로그램을 실행하는 프로세서를 포함하며,
상기 프로세서는, 상기 질병 예측 모델 생성 프로그램을 실행하여,
복수의 보험자들 각각의 의료 정보를 포함하는 학습 데이터들을 전처리하여 학습 데이터 세트를 생성하고, 상기 학습 데이터 세트에 포함된 학습 데이터들 중 일부를 포함하는 테스트 데이터를 기초로 복수개의 인공지능 모델들 각각에 대한 정확도 평가를 포함한 성능 평가를 수행하여 상기 복수개의 인공지능 모델들 중 가장 높은 성능 지표를 갖는 인공지능 모델을 선정하고, 그리고, 상기 학습 데이터 세트에 포함된 상기 보험자들의 개인 데이터, 진료 데이터 및 생활 습관 데이터를 입력 변수로 설정하고, 상기 학습 데이터 세트에 포함된 상기 보험자들의 질병 발생 데이터를 출력 변수로 설정하여 상기 학습 데이터 세트를 기초로 상기 선정된 인공지능 모델을 학습시켜 사용자 맞춤형 질병 예측 모델을 생성하고,
상기 성능 평가는 상기 복수개의 인공지능 모델들 각각에 대한 정확도 평가, 정밀도 평가, 재현율 평가 및 F1 스코어 평가 중 적어도 하나 이상을 포함하고, 및
상기 성능 지표는 성능 평가에 대응되는 정확도 지표, 정밀도 지표, 재현율 지표 및 F1 스코어 지표 중 적어도 하나 이상을 포함하는 것인, 질병 예측 모델 생성 장치.
In the device for generating a user-customized disease prediction model,
a memory for storing a disease prediction model generation program; and
A processor for executing the program stored in the memory;
The processor, by executing the disease prediction model generation program,
A training data set is generated by preprocessing training data including medical information of each of a plurality of insurers, and each of a plurality of artificial intelligence models is based on test data including some of the training data included in the training data set. Selects an AI model having the highest performance index among the plurality of AI models by performing performance evaluation including accuracy evaluation for A user-customized disease prediction model by setting lifestyle data as an input variable and setting the disease occurrence data of the insurers included in the learning data set as an output variable to learn the selected artificial intelligence model based on the learning data set create,
The performance evaluation includes at least one of an accuracy evaluation, a precision evaluation, a recall evaluation, and an F1 score evaluation for each of the plurality of artificial intelligence models, and
Wherein the performance index includes at least one of an accuracy index, a precision index, a recall index, and an F1 score index corresponding to the performance evaluation, the disease prediction model generating apparatus.
제6항에 있어서,
상기 의료 정보는 상기 복수의 보험자들 각각의 보험자격 데이터, 보험료 데이터, 출생 데이터, 사망 데이터, 진료 데이터, 질병 이력 데이터 및 건강검진 데이터를 포함하고,
상기 프로세서는, 상기 질병 예측 모델 생성 프로그램을 실행하여,
상기 학습 데이터들 전처리 시, 상기 의료 정보에서 주상병 데이터, 부상병 데이터, 개인 데이터, 생활 습관 데이터 및 진료 데이터를 학습 데이터 세트의 라벨링 대상인 특징 데이터로 설정하는 것을 더 수행하는 것인, 질병 예측 모델 생성 장치.
7. The method of claim 6,
The medical information includes insurance eligibility data, insurance premium data, birth data, death data, medical treatment data, disease history data, and health checkup data of each of the plurality of insurers,
The processor, by executing the disease prediction model generation program,
In the pre-processing of the learning data, setting the column and injury data, injury data, personal data, lifestyle data, and medical treatment data in the medical information as feature data to be labeled in the learning data set is further performed, disease prediction model generation Device.
삭제delete 제 6항에 있어서,
상기 질병 발생 데이터는, 암 발생 데이터, 심장질환 발생 데이터, 뇌질환 발생 데이터, 간질환 발생 데이터, 당뇨병 발생 데이터, 고혈압 발생 데이터, 갑상성 발생 데이터, 신부선 발생 데이터, 녹내장 발생 데이터 및 동맥경화 발생 데이터를 포함하고,
상기 출력 변수는 상기 질병 발생 데이터에 포함된 데이터들 중 적어도 하나 이상의 데이터를 포함하도록 설정되는 것인 질병 예측 모델 생성 장치.
7. The method of claim 6,
The disease occurrence data includes cancer occurrence data, heart disease occurrence data, brain disease occurrence data, liver disease occurrence data, diabetes occurrence data, hypertension occurrence data, thyroid disease occurrence data, renal gland occurrence data, glaucoma occurrence data, and arteriosclerosis occurrence data. contains data;
The apparatus for generating a disease prediction model, wherein the output variable is set to include at least one or more data among data included in the disease occurrence data.
◈청구항 10은(는) 설정등록료 납부시 포기되었습니다.◈◈Claim 10 was abandoned when paying the registration fee.◈ 단말과 서버의 통신 연결을 통해 사용자에게 맞춤형 질병 예측 정보를 제공하는 방법에 있어서,
i) 상기 서버가, 상기 단말로부터 사용자 입력 정보를 수신하는 단계;
ii) 상기 서버가, 국민건강보험공단 서버로부터 수신한 보험자들의 개인 데이터, 진료 데이터, 생활 습관 데이터 및 질병 발생 데이터를 포함하는 학습 데이터 세트를 기초로, 상기 개인 데이터, 진료 데이터 및 생활 습관 데이터를 입력 변수로 하고 상기 질병 발생 데이터를 출력 변수로 하여 학습된 질병 예측 모델을 이용하여, 상기 사용자 입력 정보를 토대로 사용자 질병 예측 정보를 생성하는 단계; 및
iii) 상기 서버가, 상기 사용자 질병 예측 정보를 상기 단말에게 제공하는 단계를 포함하고,
상기 질병 예측 모델은 상기 학습 데이터 세트에 포함된 데이터들 중 일부를 포함하는 테스트 데이터를 기초로 복수개의 인공지능 모델들 각각에 대한 정확도 평가를 포함한 성능 평가를 수행하여 상기 복수개의 인공지능 모델들 중 가장 높은 성능 지표를 갖는 인공지능 모델을 선정하고, 선정된 인공지능 모델을 상기 입력 변수 및 상기 출력 변수를 기초로 학습된 것이고,
상기 성능 평가는 상기 복수개의 인공지능 모델들 각각에 대한 정확도 평가, 정밀도 평가, 재현율 평가 및 F1 스코어 평가 중 적어도 하나 이상을 포함하고, 및 상기 성능 지표는 성능 평가에 대응되는 정확도 지표, 정밀도 지표, 재현율 지표 및 F1 스코어 지표 중 적어도 하나 이상을 포함하는 것인, 사용자 맞춤형 질병 예측 방법.
A method of providing customized disease prediction information to a user through a communication connection between a terminal and a server,
i) receiving, by the server, user input information from the terminal;
ii) the server collects the personal data, medical treatment data and lifestyle data based on the learning data set including personal data, medical treatment data, lifestyle data and disease occurrence data of the insurers received from the National Health Insurance Corporation server generating user disease prediction information based on the user input information using a disease prediction model learned using the disease occurrence data as an input variable and the disease occurrence data as an output variable; and
iii) the server, comprising the step of providing the user disease prediction information to the terminal,
The disease prediction model performs performance evaluation including accuracy evaluation on each of a plurality of artificial intelligence models based on test data including some of the data included in the training data set, and among the plurality of artificial intelligence models An artificial intelligence model having the highest performance index is selected, and the selected artificial intelligence model is learned based on the input variable and the output variable,
The performance evaluation includes at least one of an accuracy evaluation, a precision evaluation, a recall evaluation, and an F1 score evaluation for each of the plurality of artificial intelligence models, and the performance indicator includes an accuracy indicator corresponding to the performance evaluation, a precision indicator, A method for predicting user-customized disease, comprising at least one of a recall index and an F1 score index.
◈청구항 11은(는) 설정등록료 납부시 포기되었습니다.◈◈Claim 11 was abandoned when paying the registration fee.◈ 제 10항에 있어서,
상기 사용자 입력 정보는
상기 사용자의 개인 데이터, 진료 데이터 및 생활 습관 데이터를 포함하고,
상기 사용자의 개인 데이터는 이름, 나이, 생년월일 및 성별 중 적어도 하나 이상을 포함하고,
상기 사용자의 진료 데이터는 진료 날짜, 검진 종류, 과거 병력 데이터, 최근 병력 데이터, 최근 진료과 데이터, 가족 과거 병력 및 약물 치료 병력 데이터 중 적어도 하나 이상을 포함하고, 그리고,
상기 사용자의 생활 습관 데이터는 음주 데이터, 흡연 데이터, B형 간염 항원 보유 데이터 및 현재 약물 복용 데이터 중 적어도 하나 이상을 포함하는 사용자 맞춤형 질병 예측 방법.
11. The method of claim 10,
The user input information is
including the user's personal data, medical treatment data, and lifestyle data;
The user's personal data includes at least one of name, age, date of birth, and gender;
The user's medical treatment data includes at least one or more of medical treatment date, examination type, past medical history data, recent medical history data, recent department data, family history, and drug treatment history data;
The user's lifestyle data is a user-customized disease prediction method comprising at least one of drinking data, smoking data, hepatitis B antigen holding data, and current drug intake data.
◈청구항 12은(는) 설정등록료 납부시 포기되었습니다.◈◈Claim 12 was abandoned when paying the registration fee.◈ 제 11항에 있어서,
상기 보험자들의 질병 발생 데이터는, 암 발생 데이터, 심장질환 발생 데이터, 뇌질환 발생 데이터, 간질환 발생 데이터, 당뇨병 발생 데이터, 고혈압 발생 데이터, 갑상성 발생 데이터, 신부선 발생 데이터, 녹내장 발생 데이터 및 동맥경화 발생 데이터를 포함하고,
상기 출력 변수는 상기 질병 발생 데이터에 포함된 데이터들 중 적어도 하나 이상의 데이터를 포함하도록 설정되는 것인 사용자 맞춤형 질병 예측 방법.
12. The method of claim 11,
The disease occurrence data of the insurers includes cancer occurrence data, heart disease occurrence data, brain disease occurrence data, liver disease occurrence data, diabetes occurrence data, hypertension occurrence data, thyroid disease occurrence data, renal gland occurrence data, glaucoma occurrence data, and arterial disease occurrence data. curing occurrence data;
The output variable is a user-customized disease prediction method that is set to include at least one or more data among the data included in the disease occurrence data.
◈청구항 13은(는) 설정등록료 납부시 포기되었습니다.◈◈Claim 13 was abandoned when paying the registration fee.◈ 제 12항에 있어서,
상기 사용자 질병 예측 정보는
상기 보험자들의 질병 발생 데이터에 포함된 데이터 중 적어도 하나 이상의 데이터와 관련된 위험 질병 예측 정보, 상기 위험 질병 예측 정보에 대응되는 자가 진단 방법 정보 및 상기 위험 질병 예측 정보에 대응되는 예방법 정보를 포함하는 것인 사용자 맞춤형 질병 예측 방법.
13. The method of claim 12,
The user disease prediction information is
Dangerous disease prediction information related to at least one or more of the data included in the disease occurrence data of the insurers, self-diagnosis method information corresponding to the dangerous disease prediction information, and prevention method information corresponding to the dangerous disease prediction information. User-tailored disease prediction methods.
◈청구항 14은(는) 설정등록료 납부시 포기되었습니다.◈◈Claim 14 was abandoned when paying the registration fee.◈ 제 13항에 있어서,
상기 iii) 단계는,
상기 사용자 질병 예측 정보가 상기 질병 발생 데이터에 포함된 데이터 중 두 개 이상의 데이터와 관련된 복수개의 위험 질병 예측 정보들을 포함하는 경우, 상기 서버가, 상기 복수개의 위험 질병 예측 정보들을 고위험군 및 저위험군으로 분류하여 상기 단말에게 제공하는 단계를 포함하는 것인 사용자 맞춤형 질병 예측 방법.
14. The method of claim 13,
Step iii) is,
When the user disease prediction information includes a plurality of dangerous disease prediction information related to two or more data among the data included in the disease occurrence data, the server classifies the plurality of risk disease prediction information into a high-risk group and a low-risk group A user-customized disease prediction method comprising the step of providing to the terminal.
◈청구항 15은(는) 설정등록료 납부시 포기되었습니다.◈◈Claim 15 was abandoned when paying the registration fee.◈ 제 11항에 있어서,
상기 iii) 단계 이후에,
상기 서버가, 상기 사용자 질병 예측 정보에 대응되는 보험상품 추천 정보를 단말에게 제공하는 단계를 더 포함하는 사용자 맞춤형 질병 예측 방법.
12. The method of claim 11,
After step iii) above,
The method further comprising the step of providing, by the server, insurance product recommendation information corresponding to the user's disease prediction information to the terminal.
◈청구항 16은(는) 설정등록료 납부시 포기되었습니다.◈◈Claim 16 has been abandoned at the time of payment of the registration fee.◈ 단말과의 통신 연결을 통해 사용자에게 맞춤형 질병 예측 정보를 제공하는 시스템에 있어서,
상기 단말과의 정보 송수신을 수행하는 통신 모듈;
사용자 맞춤형 질병 예측 정보 제공 프로그램을 저장하는 메모리; 및
상기 메모리에 저장된 프로그램을 실행하는 프로세서를 포함하고,
상기 프로세서는 상기 사용자 맞춤형 질병 예측 정보 제공 프로그램을 실행하여,
상기 단말로부터 사용자 입력 정보를 수신하고, 국민건강보험공단 서버로부터 수신한 보험자들의 개인 데이터, 진료 데이터, 생활 습관 데이터 및 질병 발생 데이터를 포함하는 학습 데이터 세트를 기초로, 상기 개인 데이터, 진료 데이터 및 생활 습관 데이터를 입력 변수로 하고 상기 질병 발생 데이터를 출력 변수로 하여 학습된 질병 예측 모델을 이용하여, 상기 사용자 입력 정보를 토대로 사용자 질병 예측 정보를 생성하고, 그리고, 상기 사용자 질병 예측 정보를 상기 단말에게 제공하고,
상기 질병 예측 모델은 상기 학습 데이터 세트에 포함된 데이터들 중 일부를 포함하는 테스트 데이터를 기초로 복수개의 인공지능 모델들 각각에 대한 정확도 평가를 포함한 성능 평가를 수행하여 상기 복수개의 인공지능 모델들 중 가장 높은 성능 지표를 갖는 인공지능 모델을 선정하고, 선정된 인공지능 모델을 상기 입력 변수 및 상기 출력 변수를 기초로 학습되고,
상기 성능 평가는 상기 복수개의 인공지능 모델들 각각에 대한 정확도 평가, 정밀도 평가, 재현율 평가 및 F1 스코어 평가 중 적어도 하나 이상을 포함하고, 및 상기 성능 지표는 성능 평가에 대응되는 정확도 지표, 정밀도 지표, 재현율 지표 및 F1 스코어 지표 중 적어도 하나 이상을 포함하는 것인, 사용자 맞춤형 질병 예측 시스템.
A system for providing customized disease prediction information to a user through a communication connection with a terminal,
a communication module for transmitting and receiving information to and from the terminal;
a memory for storing a program for providing user-customized disease prediction information; and
A processor for executing the program stored in the memory;
The processor executes the user-customized disease prediction information providing program,
Receive user input information from the terminal, and based on a learning data set including personal data, medical treatment data, lifestyle data, and disease occurrence data of insurers received from the National Health Insurance Corporation server, the personal data, medical treatment data and Using the disease prediction model learned by using lifestyle data as an input variable and the disease occurrence data as an output variable, generating user disease prediction information based on the user input information, and converting the user disease prediction information to the terminal provide to,
The disease prediction model performs performance evaluation including accuracy evaluation on each of a plurality of artificial intelligence models based on test data including some of the data included in the training data set, and among the plurality of artificial intelligence models Selecting an artificial intelligence model having the highest performance index, and learning the selected artificial intelligence model based on the input variable and the output variable,
The performance evaluation includes at least one of an accuracy evaluation, a precision evaluation, a recall evaluation, and an F1 score evaluation for each of the plurality of artificial intelligence models, and the performance indicator includes an accuracy indicator corresponding to the performance evaluation, a precision indicator, A user-customized disease prediction system comprising at least one of a recall index and an F1 score index.
◈청구항 17은(는) 설정등록료 납부시 포기되었습니다.◈◈Claim 17 was abandoned when paying the registration fee.◈ 제 16항에 있어서,
상기 사용자 입력 정보는
상기 사용자의 개인 데이터, 진료 데이터 및 생활 습관 데이터를 포함하고,
상기 사용자의 개인 데이터는 이름, 나이, 생년월일 및 성별 중 적어도 하나 이상을 포함하고,
상기 사용자의 진료 데이터는 진료 날짜, 검진 종류, 과거 병력 데이터, 최근 병력 데이터, 최근 진료과 데이터, 가족 과거 병력 및 약물 치료 병력 데이터 중 적어도 하나 이상을 포함하고, 그리고,
상기 사용자의 생활 습관 데이터는 음주 데이터, 흡연 데이터, B형 간염 항원 보유 데이터 및 현재 약물 복용 데이터 중 적어도 하나 이상을 포함하는 사용자 맞춤형 질병 예측 시스템.
17. The method of claim 16,
The user input information is
including the user's personal data, medical treatment data, and lifestyle data;
The user's personal data includes at least one of name, age, date of birth, and gender;
The user's medical treatment data includes at least one or more of medical treatment date, examination type, past medical history data, recent medical history data, recent department data, family history, and drug treatment history data;
The user's lifestyle data is a user-customized disease prediction system including at least one of drinking data, smoking data, hepatitis B antigen holding data, and current drug intake data.
◈청구항 18은(는) 설정등록료 납부시 포기되었습니다.◈◈Claim 18 was abandoned when paying the registration fee.◈ 제 17항에 있어서,
상기 보험자들의 질병 발생 데이터는, 암 발생 데이터, 심장질환 발생 데이터, 뇌질환 발생 데이터, 간질환 발생 데이터, 당뇨병 발생 데이터, 고혈압 발생 데이터, 갑상성 발생 데이터, 신부선 발생 데이터, 녹내장 발생 데이터 및 동맥경화 발생 데이터를 포함하고,
상기 출력 변수는 상기 질병 발생 데이터에 포함된 데이터들 중 적어도 하나 이상의 데이터를 포함하도록 설정되고, 그리고,
상기 사용자 질병 예측 정보는 상기 보험자들의 질병 발생 데이터에 포함된 데이터 중 적어도 하나 이상의 데이터와 관련된 위험 질병 예측 정보, 상기 위험 질병 예측 정보에 대응되는 자가 진단 방법 정보 및 상기 위험 질병 예측 정보에 대응되는 예방법 정보를 포함하는 것인 사용자 맞춤형 질병 예측 시스템.
18. The method of claim 17,
The disease occurrence data of the insurers includes cancer occurrence data, heart disease occurrence data, brain disease occurrence data, liver disease occurrence data, diabetes occurrence data, hypertension occurrence data, thyroid disease occurrence data, renal gland occurrence data, glaucoma occurrence data, and arterial disease occurrence data. curing occurrence data;
The output variable is set to include at least one or more data among data included in the disease occurrence data, and
The user disease prediction information includes risk disease prediction information related to at least one data among data included in the disease occurrence data of the insurers, self-diagnosis method information corresponding to the risk disease prediction information, and a prevention method corresponding to the dangerous disease prediction information A user-customized disease prediction system that includes information.
◈청구항 19은(는) 설정등록료 납부시 포기되었습니다.◈◈Claim 19 was abandoned at the time of payment of the registration fee.◈ 제 18항에 있어서,
상기 프로세서는 상기 사용자 맞춤형 질병 예측 정보 제공 프로그램을 실행하여,
상기 사용자 질병 예측 정보가 상기 질병 발생 데이터에 포함된 데이터 중 두 개 이상의 데이터와 관련된 복수개의 위험 질병 예측 정보들을 포함하는 경우, 복수개의 위험 질병 예측 정보들을 고위험군 및 저위험군으로 분류하여 상기 단말에게 제공하는 것을 더 수행하도록 구성되는 것인, 사용자 맞춤형 질병 예측 시스템.
19. The method of claim 18,
The processor executes the user-customized disease prediction information providing program,
When the user disease prediction information includes a plurality of dangerous disease prediction information related to two or more data among the data included in the disease occurrence data, a plurality of dangerous disease prediction information is classified into a high-risk group and a low-risk group and provided to the terminal wherein the user-customized disease prediction system is further configured to:
◈청구항 20은(는) 설정등록료 납부시 포기되었습니다.◈◈Claim 20 was abandoned when paying the registration fee.◈ 제 16항에 있어서,
상기 프로세서는 상기 사용자 맞춤형 질병 예측 정보 제공 프로그램을 실행하여,
상기 사용자 질병 예측 정보에 대응되는 보험상품 추천 정보를 단말에게 제공하는 것을 더 수행하도록 구성되는 것인, 사용자 맞춤형 질병 예측 시스템.
17. The method of claim 16,
The processor executes the user-customized disease prediction information providing program,
The user-customized disease prediction system that is further configured to provide the terminal with insurance product recommendation information corresponding to the user disease prediction information.
KR1020220004825A 2022-01-12 2022-01-12 Method and apparatus for generating disease prediction ai model, and system and method for predicting user-customized disease using the same KR102434112B1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020220004825A KR102434112B1 (en) 2022-01-12 2022-01-12 Method and apparatus for generating disease prediction ai model, and system and method for predicting user-customized disease using the same
KR1020220096666A KR20230109068A (en) 2022-01-12 2022-08-03 User-customized disease prediction method and system using artificial intelligence model

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220004825A KR102434112B1 (en) 2022-01-12 2022-01-12 Method and apparatus for generating disease prediction ai model, and system and method for predicting user-customized disease using the same

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020220096666A Division KR20230109068A (en) 2022-01-12 2022-08-03 User-customized disease prediction method and system using artificial intelligence model

Publications (1)

Publication Number Publication Date
KR102434112B1 true KR102434112B1 (en) 2022-08-24

Family

ID=83111887

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020220004825A KR102434112B1 (en) 2022-01-12 2022-01-12 Method and apparatus for generating disease prediction ai model, and system and method for predicting user-customized disease using the same
KR1020220096666A KR20230109068A (en) 2022-01-12 2022-08-03 User-customized disease prediction method and system using artificial intelligence model

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020220096666A KR20230109068A (en) 2022-01-12 2022-08-03 User-customized disease prediction method and system using artificial intelligence model

Country Status (1)

Country Link
KR (2) KR102434112B1 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102639285B1 (en) * 2023-11-20 2024-02-21 주식회사 메타온테크 Method, device and system for providing customized medical guide information based on artificial intelligence model based on personalized health data

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190069047A (en) * 2017-12-11 2019-06-19 한림대학교 산학협력단 Apparatus and method for predicting disease
KR20200054745A (en) * 2018-11-12 2020-05-20 한림대학교 산학협력단 Disease prediction system
KR20200092161A (en) * 2019-01-24 2020-08-03 주식회사 레이니스트 Method for recommending insurance product based on health data and financial data and apparatus for performing the same
KR102188766B1 (en) 2020-03-09 2020-12-11 주식회사 글로벌비즈텍 Apparatus for providing artificial intelligence based health care service
KR102342770B1 (en) * 2021-03-30 2021-12-23 주식회사 라이프시맨틱스 A health management counseling system using the distribution of predicted disease values

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190069047A (en) * 2017-12-11 2019-06-19 한림대학교 산학협력단 Apparatus and method for predicting disease
KR20200054745A (en) * 2018-11-12 2020-05-20 한림대학교 산학협력단 Disease prediction system
KR20200092161A (en) * 2019-01-24 2020-08-03 주식회사 레이니스트 Method for recommending insurance product based on health data and financial data and apparatus for performing the same
KR102188766B1 (en) 2020-03-09 2020-12-11 주식회사 글로벌비즈텍 Apparatus for providing artificial intelligence based health care service
KR102342770B1 (en) * 2021-03-30 2021-12-23 주식회사 라이프시맨틱스 A health management counseling system using the distribution of predicted disease values

Also Published As

Publication number Publication date
KR20230109068A (en) 2023-07-19

Similar Documents

Publication Publication Date Title
CN110520872B (en) Embedded Predictive Machine Learning Model
US20200402665A1 (en) Unplanned readmission prediction using an interactive augmented intelligent (iai) system
US20190034475A1 (en) System and method for detecting duplicate data records
US20200356846A1 (en) Prediction of healthcare outcomes and recommendation of interventions using deep learning
Dipaola et al. Artificial intelligence algorithms and natural language processing for the recognition of syncope patients on emergency department medical records
Quisel et al. Collecting and analyzing millions of mhealth data streams
Ali et al. Multitask deep learning for cost-effective prediction of patient's length of stay and readmission state using multimodal physical activity sensory data
KR102434112B1 (en) Method and apparatus for generating disease prediction ai model, and system and method for predicting user-customized disease using the same
Singh et al. Machine learning for psychiatric patient triaging: an investigation of cascading classifiers
Zebin et al. Design and implementation of a deep recurrent model for prediction of readmission in urgent care using electronic health records
Priya et al. Elderly healthcare system for chronic ailments using machine learning techniques–a review
Folorunso et al. Heart disease classification using machine learning models
Yadav et al. Predicting depression from routine survey data using machine learning
Sanjeev et al. Advanced healthcare system using artificial intelligence
Ferrão et al. Can structured EHR data support clinical coding? A data mining approach
Bide et al. Survey on Diabetes Mellitus and incorporation of Big data, Machine Learning and IoT to mitigate it
Md Ashafuddula et al. An Intelligent Diagnostic System to Analyze Early-Stage Chronic Kidney Disease for Clinical Application
Stiglic et al. Pediatric readmission classification using stacked regularized logistic regression models
Mosa et al. Evaluation of machine learning applications using real-world EHR data for predicting diabetes-related long-term complications
Alfian et al. Utilizing IoT-based sensors and prediction model for health-care monitoring system
CN118019494A (en) Systems and methods for predicting reduced renal function
Restrepo et al. DF-DM: A foundational process model for multimodal data fusion in the artificial intelligence era
Zhang et al. A transfer learning approach to correct the temporal performance drift of clinical prediction models: retrospective cohort study
Sridevi et al. A Comprehensive Study for Predicting Chronic Kidney Disease, Diabetes, Hypertension, and Anemia by Machine Learning and Feature Engineering Techniques
US11621081B1 (en) System for predicting patient health conditions

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
A107 Divisional application of patent
GRNT Written decision to grant