KR20180061553A - System and method for predicting future health trends through prediction models based on similar case clustering - Google Patents

System and method for predicting future health trends through prediction models based on similar case clustering Download PDF

Info

Publication number
KR20180061553A
KR20180061553A KR1020160160721A KR20160160721A KR20180061553A KR 20180061553 A KR20180061553 A KR 20180061553A KR 1020160160721 A KR1020160160721 A KR 1020160160721A KR 20160160721 A KR20160160721 A KR 20160160721A KR 20180061553 A KR20180061553 A KR 20180061553A
Authority
KR
South Korea
Prior art keywords
prediction
similar case
class
prediction model
health
Prior art date
Application number
KR1020160160721A
Other languages
Korean (ko)
Inventor
김민호
김영원
이동훈
최재훈
김대희
임명은
정호열
한영웅
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020160160721A priority Critical patent/KR20180061553A/en
Priority to US15/812,540 priority patent/US20180150609A1/en
Publication of KR20180061553A publication Critical patent/KR20180061553A/en

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/22Social work
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q90/00Systems or methods specially adapted for administrative, commercial, financial, managerial or supervisory purposes, not involving significant data processing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders

Abstract

The present invention relates to a system for predicting a future health trend through a predication model based on a similar case cluster and a method thereof, and more particularly, to a system for predicting a future health trend and a method thereof, capable of extracting a multiple association feature similar case cluster matched to a prediction query for the health information of a user through a future value prediction model and a class prediction model for a health characteristic of the similar case cluster generated by circularly clustering a target feature that is a health characteristic for personal health information and association features of the target feature, predicting the future health trend for each association feature using a multi-prediction model based on the corresponding similar case cluster, and outputting a prediction result by performing the ensembling of the prediction result. Accordingly, the present invention can simplify the configuration of the system for predicting a future health trend and quickly and reliably provide the prediction result to the user.

Description

유사사례 클러스터 기반 예측모델을 통한 미래건강추이 예측 시스템 및 그 방법{SYSTEM AND METHOD FOR PREDICTING FUTURE HEALTH TRENDS THROUGH PREDICTION MODELS BASED ON SIMILAR CASE CLUSTERING}TECHNICAL FIELD The present invention relates to a system and a method for predicting future health trends using a cluster-based prediction model,

본 발명은 유사사례 클러스터 기반 예측모델을 통한 미래건강추이 예측 시스템 및 그 방법에 관한 것으로, 더욱 상세하게는 개인건강정보에 대한 건강특징인 타겟피처와 상기 타겟피처의 연관피처를 순환적으로 클러스터링하여 생성한 유사사례 클러스터의 상기 건강특징에 대한 클래스 예측모델과 미래값 예측모델을 통해, 사용자의 건강정보에 대한 예측쿼리에 매칭되는 다중 연관피처 유사사례 클러스터를 추출하고 해당 유사사례 클러스터를 기반으로 한 다중 예측모델을 이용하여 연관피처별 미래건강 추이를 예측하고, 예측결과를 앙상블하여 출력하는 미래건강추이 예측 시스템 및 그 방법에 관한 것이다.The present invention relates to a system and method for predicting future health trends through a similar case cluster-based prediction model, and more particularly to a system and method for predicting future health trends through a similar case cluster- Based on the similar case cluster, the multi-associative feature similar case cluster matching the prediction query for the user's health information is extracted through the class prediction model and the future value prediction model of the health feature of the created similar case cluster A future health trend prediction system for predicting future health trends by association feature using a multiple prediction model, and outputting the predicted results by ensemble, and a method thereof.

최근 의학의 발달과 생활수준의 향상으로 인류의 수명이 급격하게 늘어가고 있으며, 이로 인해 현대사회는 고령화 사회로 접어들고 있다. 반면에 지구 온난화, 사람의 인체에 대한 위해요소의 증가, 식생활 습관을 포함한 생활양식의 변화 등으로 인해 새롭고 다양한 형태의 질병들이 출현하고 있다.With the recent development of medical science and the improvement of living standards, human life span is rapidly increasing, and modern society is turning into an aging society. On the other hand, new and diverse forms of disease are emerging due to global warming, increased risk factors for human health, and changes in lifestyle including eating habits.

이러한 사회적 환경의 변화에 따라, 질병의 양상도 크게 변화하여 감염성 질환이 주로 발생하였던 과거와는 달리, 최근에는 순환계 질환, 당뇨병, 암, 심혈관, 고혈압 등과 같은 비감염성 질환의 발생률이 급격하게 증가하고 있다. 이러한 비감염성 질환은 치료비용에 대한 부담이 높은 질환이 대부분이므로, 사용자의 미래건강추이를 예측하여 건강악화에 대한 예방과 관리가 절실한 실정이다. 따라서 미래건강추이를 예측하여 건강악화를 방지하는 예방과 관리에 대한 중요성이 크게 부각되고 있다.Unlike the past, in which infectious diseases mainly occurred, the incidence of non-infectious diseases such as circulatory diseases, diabetes, cancer, cardiovascular diseases and hypertension increased rapidly have. These non - infectious diseases are mostly diseases with high treatment cost, so it is necessary to prevent and manage the health deterioration by predicting the future health trend of users. Therefore, the importance of preventing and managing prevention of health deterioration by predicting future health trends has been greatly emphasized.

이에 따라 대중의 건강에 대한 인식이 높아지고 있고, 질환의 사후치료에서 사전 예방적 치료에 대한 의료서비스의 수요가 급증하고 있으며, 이를 해결하기 위한 방안으로 사용자의 미래건강에 대한 추이를 예측하여 사용자의 질환을 사전에 관리하는 미래건강추이 예측 시스템이 개발되고 있다. 미래건강추이 예측 시스템을 통해, 효율적으로 사용자의 질환을 관리하기 위해서는 사용자의 미래건강에 대한 추이를 정확하게 예측하는 것이 매우 중요하다.As a result, there is a growing awareness of public health and the demand for medical services for proactive treatment in post-treatment of diseases is increasing rapidly. To solve this problem, Future health trend prediction systems that manage disease in advance are being developed. In order to efficiently manage the user's diseases through the future health trend prediction system, it is very important to accurately predict the future trend of the user's future health.

일반적으로 미래건강추이 예측 시스템은, 시계열 데이터인 사용자의 개인건강기록(PHR, Personal Health Record)을 기반으로 사용자의 현재 건강상태와 유사한 건강상태를 나타내는 사람들의 개인건강기록을 검색하여, 이를 기반으로 해당 사람들의 건강상태에 대한 변화를 참고함으로써, 사용자의 미래 건강상태를 예측한다.In general, the future health trend prediction system searches personal health records of people who show health status similar to the user's current health status based on the user's personal health record (PHR), which is time series data, Predict the future health status of the user by referring to changes in the health status of the persons concerned.

그러나 종래의 미래건강추이 예측 시스템은, 사용자의 개인건강기록에 나타나 있는 모든 건강특징(즉, 피처(feature))을 기반으로 유사사례를 검색하기 때문에 너무 많은 경우의 수가 존재하여, 검색에 소요되는 시간이 매우 오래 걸리고, 시스템 구성의 복잡도가 매우 높으며, 유사사례 검색 시 사용자의 질환과 관련도가 낮은 피처들도 포함되므로, 검색된 유사사례를 기반으로 해당 사용자의 건강상태를 예측한 결과는 그 정확도가 매우 낮아 신뢰성 있는 예측 결과를 제공하지 못하는 문제점이 있었다.However, the conventional future health trend prediction system searches for similar cases based on all the health features (i.e., features) appearing in the user's personal health record, so that there are too many cases, Because the time is very long, the complexity of the system configuration is very high, and the search for similar cases also includes features with low relevance to the user's disease, the result of predicting the health status of the user based on the retrieved similar cases, The reliability of prediction can not be provided.

예를 들어, 37개의 피처에 대해서 각 피처별로 10개의 경우만 다룬다고 하더라도 총 1037가지의 상태를 다루어야 하며, 시계열적인 건강기록 데이터에 대해서 미래건강 추이를 다루어야 할 경우 건강추이의 예측에 필요한 시간과 비용이 많이 소요되고, 예측의 정확도도 떨어지는 문제점이 발생한다.For example, even if only 10 cases are covered for each of the 37 features, a total of 10 37 cases should be dealt with. If the future health trends are to be handled for time series health record data, the time required for predicting health trends And the cost is high, and the accuracy of prediction is low.

따라서 본 발명에서는, 사용자의 미래건강수치를 예측하기 위한 타겟(target)피처(예: 혈당)에 대한 클러스터링 및 상기 타겟피처의 연관피처(예: 수축기 혈압, 콜레스테롤, 가족력 등)에 대한 클러스터링을 포함하는 계층적 클러스터링을 수행하여 시스템의 복잡도를 획기적으로 줄임과 동시에 신속하게 미래건강을 예측하여 신뢰성 있는 예측결과를 제공하는 장치 및 그 방법을 제공하고자 한다.Thus, in the present invention, clustering for a target feature (e.g., blood sugar) to predict a user's future health value and clustering for an association feature (e.g., systolic blood pressure, cholesterol, family history, etc.) The present invention provides a device and a method for providing reliable prediction results by rapidly reducing the complexity of a system while rapidly estimating future health.

즉, 건강정보에 대한 건강특징인 타겟피처와 상기 타겟피처의 연관피처를 순환적으로 클러스터링하여 생성한 유사사례 클러스터를 이용하여 상기 유사사례 클러스터의 건강특징에 대한 클래스 예측모델과 미래값 예측모델을 생성하고, 상기 생성된 클래스 예측모델 중에서 정확도가 높은 복수의 클래스 예측모델을 선별하여 상기 미래값 예측모델과 함께(다중 예측모델) 저장하고, 상기 다중 예측모델 중에서 클래스 예측모델을 이용하여 특정 미래건강추이 예측쿼리에 대한 예측결과를 추출한 다음, 추출된 예측결과를 앙상블하여, 최종 클래스 예측확률을 추출하고, 해당 클래스에 대한 미래값 예측모델을 이용하여 해당 쿼리에 대한 미래건강추이를 예측하는 시스템 및 그 방법을 제공하고자 한다.That is, a class prediction model and a future value prediction model for health characteristics of the similar case cluster are generated using a similar case cluster generated by cyclically clustering a target feature, which is a health characteristic of health information, A plurality of class prediction models having high accuracy are selected from among the generated class prediction models and stored together with the future value prediction model (multiple prediction models) A system for extracting prediction results for a prediction prediction query, ensuring the extracted prediction results, extracting final class prediction probabilities, and predicting future health trends for the queries using a future value prediction model for the classes; I want to provide that method.

또한 계층적 클러스터링 기법을 이용하여, 복수의 유사사례 클러스터를 생성하고, 이를 기반으로 예측모델을 생성하고, 생성된 예측모델을 이용하여, 사용자의 미래건강추이를 정확하게 예측함으로써, 사용자의 질환에 대한 예측과 관리를 효율적으로 수행할 수 있도록 하는 장치 및 그 방법을 제공하고자 한다.In addition, by using a hierarchical clustering technique, a plurality of similar case clusters are created, a prediction model is generated based on the generated similar case clusters, and the future health trend of the user is accurately predicted using the generated prediction model, The present invention provides an apparatus and method for efficiently performing prediction and management.

다음으로 본 발명의 기술 분야에 존재하는 선행기술에 대하여 간단하게 설명하고, 이어서 본 발명이 상기 선행기술에 비해서 차별적으로 이루고자 하는 기술적 사항에 대해서 기술하고자 한다.Next, a brief description will be given of the prior arts that exist in the technical field of the present invention, and technical matters which the present invention intends to differentiate from the prior arts will be described.

먼저 한국공개특허 제2016-0062668호(2016.06.02.)는, 개방형 건강관리 장치 및 방법에 관한 것으로, 건강 사례별 빅데이터를 마이닝하여 사용자의 건강데이터에 대한 유사사례를 탐색하고, 상기 탐색한 유사사례를 근거로 해당 사용자의 미래 건강상태를 예측하여, 건강 향상을 위한 가이드라인을 제시하는 개방형 건강관리 장치 및 방법에 관한 것이다.Korean Patent Laid-Open Publication No. 2016-0062668 (June 26, 2016) discloses an open health management apparatus and method, which searches for similar cases of user's health data by mining big data for each health case, The present invention relates to an open health management apparatus and method for predicting a future health state of a user based on similar cases and suggesting guidelines for health improvement.

상기 선행기술은, 사용자의 건강데이터를 기반으로 유사사례를 탐색하고, 이를 기반으로 사용자의 미래건강상태를 예측하는 점에서 본 발명의 기술적 특징과 일부분 유사한 점이 있으나, 반면에 본 발명은 단순히 유사사례를 검색하는 것이 아니라, 사용자에 대한 건강수치를 예측하기 위한 특정 타겟피처에 대한 1단계 클러스트링을 수행한 후, 상기 수행한 1단계 클러스터링을 기반으로 상기 타겟피처와 연관된 연관피처들에 대한 2단계 클러스터링을 수행하여 생성한 각 연관피처별 예측모델 중에서 예측 정확도가 높은 적어도 하나 이상의 예측모델을 선별하여, 상기 선별한 예측모델에서 예측한 특정 타겟피처에 대한 예측값을 앙상블하여 예측하는 것으로, 상기 선행기술에는 본 발명의 상기 기술적 특징에 대해서는 기재하거나 시사하고 있지 않다.The prior art has some similarities with the technical features of the present invention in that it searches for similar cases based on the user's health data and predicts the future health state of the user based on the similarity cases, Stage clustering for a particular target feature to predict a health value for a user rather than performing a two-step clustering on associated features associated with the target feature based on the performed one-step clustering At least one predictive model having a high prediction accuracy is selected from among the predictive models for each of the related features generated by performing the predictive modeling and predictive values for the specific target features predicted by the selected predictive model are ensured and predicted, The technical features of the present invention are not described or suggested .

또한 한국공개특허 제2014-0022641호(2014.02.25.)는 만성질환 관리를 위한 지능형 에이전트 기반의 건강일지 서비스 시스템 및 그 방법에 관한 것으로, 유무선 네트워크를 통해 개인의 생체정보 데이터, 개인정보, 과거력 등의 정보를 수집하고, 상기 수집한 정보들을 퍼지추론을 이용하여 개인의 종합 건강상태 정보를 추정하여, 상기 개인에게 제공하는 시스템 및 그 방법에 관한 것이다.Korean Patent Laid-Open Publication No. 2014-0022641 (Feb. 25, 2014) discloses an intelligent agent-based health log service system and method for managing chronic diseases. The system includes a biometric information database, personal information, The present invention relates to a system and a method for collecting information on an individual by using fuzzy inference and providing the collected information to the individual.

상기 선행기술은 개인의 건강데이터를 기반으로 개인의 건강상태에 대한 정보를 제공하는 점에서 본 발명과 일부분 유사한 점이 있다. 반면에 본 발명은, 사용자의 개인건강기록을 바탕으로, 미래건강상태를 예측하기 위한 타겟피처를 특정하고, 상기 특정한 타겟피처와 해당 타겟피처와 연관된 복수의 연관피처에 대한 클러스터링을 계층적으로 수행하여, 이를 기반으로 상기 타겟피처에 대한 최적의 다중 예측모델을 생성함으로써, 이를 통해 시스템의 복잡도가 낮고, 신속하고 신뢰성 있는 사용자의 미래건강에 대한 추이를 예측하는 것으로, 상기 선행기술에는 본 발명의 상기 기술적 특징에 대해서는 기재하거나 시사하고 있지 않다.The prior art is somewhat similar to the present invention in that it provides information about an individual's health status based on individual health data. On the other hand, the present invention specifies a target feature for predicting a future health condition based on a user's personal health record, and hierarchically performs clustering for a plurality of related features associated with the specific target feature and the target feature And generating an optimal multiple prediction model for the target feature on the basis of the prediction result, thereby predicting a transition to future health of a user with a low complexity and quick and reliable user through the system. The above technical features are not described or suggested.

본 발명은 상기와 같은 문제점을 해결하기 위해 창작된 것으로, 사용자의 건강정보에 대한 예측쿼리에 대해서, 유사사례 클러스터를 기반으로 한 예측모델을 이용하여 유사사례를 예측하고, 예측결과를 출력하는 미래건강추이 예측 시스템 및 그 방법을 제공하는 것을 목적으로 한다.Disclosure of Invention Technical Problem [8] Accordingly, the present invention has been made in view of the above problems, and it is an object of the present invention to provide a health information prediction method and a health information prediction method for predicting similar cases using a prediction model based on similar case clusters, Health trend prediction system and method thereof.

또한 본 발명은 사용자의 건강정보에 대한 예측쿼리에 대해서 유사사례 클러스터를 판별하고, 상기 판별한 유사사례 클러스터에 대한 클래스 예측모델을 검색하여, 복수의 클래스 예측모델별 유사사례 예측을 수행하여 복수의 클래스 예측결과를 출력함으로써, 처리속도와 정확도가 우수한 미래건강추이 예측 시스템 및 그 방법을 제공하는 것을 목적으로 한다.The present invention also provides a method for classifying a similar case cluster for a prediction query for health information of a user, searching for a class prediction model for the identified similar case cluster, performing similar case prediction for each of a plurality of class prediction models, And outputting a class prediction result, thereby providing a system and a method for predicting future health trends that are excellent in processing speed and accuracy.

또한 본 발명은 복수의 클래스 예측결과에 대해서 앙상블을 수행하여 적어도 하나 이상의 미래값 예측모델을 선택하여 출력하고, 적어도 하나 이상의 미래값 예측모델에 대한 유사사례 예측을 수행하여 복잡도가 낮고 정확도가 높은 미래건강추이 예측 시스템 및 그 방법을 제공하는 것을 목적으로 한다.The present invention also provides a method for predicting future predictions of at least one future value prediction model by performing an ensemble on a plurality of class prediction results to select and output at least one future value prediction model, Health trend prediction system and method thereof.

또한 본 발명은 특정 타겟피처에 대한 미래건강추이를 예측하기 위해 유사사례 클러스터링을 수행할 때, 계층적 클러스터링 기법으로, 타겟피처에 대한 복수의 유사사례 클러스터를 생성한 후, 이를 기반으로 상기 타겟피처와 연관된 연관피처에 대한 유사사례 클러스터를 생성하는 유사사례 클러스터링을 통해서, 구성에 대한 복잡도를 획기적으로 줄일 수 있는 미래건강추이 예측 시스템 및 그 방법을 제공하는 것을 목적으로 한다.The present invention also includes a method of generating a plurality of similar case clusters for a target feature using a hierarchical clustering technique when performing similar case clustering to predict future health trends for a specific target feature, And a similar case clustering method for generating similar case clusters for association features associated with the related features, and a method for predicting future health trends that can reduce the complexity of the configuration drastically.

또한 본 발명은 상기 계층적 클러스터링을 통해 생성한 유사사례 클러스터를 토대로, 타겟피처에 대한 최적의 연관피처를 선별함으로써, 사용자의 타겟피처에 대한 유사사례 클러스터와 연관피처에 대한 유사사례 클러스터를 신속하게 검색하여 사용자의 미래건강추이를 예측할 수 있도록 하는 시스템 및 그 방법을 제공하는 것을 목적으로 한다.In addition, the present invention selects a best-fit association feature for the target feature based on the similar-case cluster generated through the hierarchical clustering, thereby rapidly retrieving the similar-case cluster for the user's target feature and the similar- And to provide a system and a method for searching for a future health trend of a user.

또한 본 발명은 사용자의 미래건강상태를 예측하기 위한 타겟피처에 대한 클러스터링 및 상기 클러스터링을 기반으로 상기 타겟피처에 관련된 연관피처에 대한 클러스터링을 수행하여 생성한 예측모델에 대해서, 정확도가 높은 적어도 하나 이상의 예측모델을 선별하여, 상기 선별한 예측모델을 통해 출력되는 적어도 하나 이상의 예측결과를 앙상블하여 최종적인 예측결과를 도출해냄으로써, 신뢰성 있는 사용자의 미래건강추이에 대한 예측결과를 제공하는 것을 그 목적으로 한다.The present invention also relates to a method for estimating a future state of health of a user, comprising the steps of: clustering a target feature to predict a future health state of a user; and clustering the related features associated with the target feature based on the clustering, An object of the present invention is to provide a prediction result of a reliable user's future health by selecting a prediction model and ensuring at least one prediction result outputted through the selected prediction model to obtain a final prediction result .

본 발명의 일 실시예에 따른 유사사례 클러스터 기반 예측모델을 통한 미래건강추이 예측 시스템은, 사용자의 건강정보에 대한 예측쿼리로부터 복수의 클래스 예측모델을 선별하는 클래스 예측모델 선별부, 복수의 클래스 예측모델별 예측을 수행하여 복수의 클래스 예측결과를 출력하며, 적어도 하나 이상의 미래값 예측모델에 대한 예측을 수행하여 미래값 예측결과를 출력하는 클래스 및 미래값 예측부 및 상기 복수의 클래스 예측결과에 대해서 앙상블을 수행하여 적어도 하나 이상의 미래값 예측모델을 선택하여 출력하는 미래값 예측모델 선별부를 포함하는 것을 특징으로 한다.A future health trend prediction system using a similar case cluster based prediction model according to an embodiment of the present invention includes a class prediction model selection unit for selecting a plurality of class prediction models from a prediction query for health information of a user, A class and a future value predicting unit for performing a model-by-model prediction to output a plurality of class prediction results, performing prediction for at least one or more future value prediction models to output a future value prediction result, And a future value prediction model selector for selecting and outputting at least one or more future value prediction models by performing an ensemble.

여기서 상기 클래스 예측모델 선별부는, 사용자의 건강정보에 대한 예측쿼리를 수신하여 유사사례 클러스터를 판별하는 유사사례 클러스터 판별부 및 상기 판별한 유사사례 클러스터에 대한 클래스 예측모델을 검색하는 클래스 예측모델 검색부를 포함하며, 상기 유사사례 클러스터는, 복수의 시계열적인 건강데이터로부터 타겟피처와 상기 타겟피처의 연관피처를 계층적으로 클러스터링하여 생성되며, 소정의 시간구간에 대해 시계열적으로 변화되는 복수의 패턴을 그룹핑하여 생성된 개인건강기록 데이터와 상기 유사사례 클러스터에 포함된 소정의 시간구간 이후에 나타나는 타겟피처를 복수의 클래스로 분류한 것을 특징으로 한다.Here, the class prediction model selection unit may include a similar case cluster discrimination unit for discriminating the similar case cluster by receiving a prediction query for the user's health information, and a class prediction model searching unit for searching the class prediction model for the determined similar case cluster Wherein the similar case cluster is generated by hierarchically clustering a target feature and an association feature of the target feature from a plurality of time series health data and grouping a plurality of patterns that are generated in a time- And a target feature appearing after a predetermined time period included in the similar case cluster are classified into a plurality of classes.

또한 상기 클래스 예측모델은, 상기 연관피처에 대한 유사사례 클러스터에서 클래스의 확률에 대한 예측모델이며, 상기 미래값 예측모델은, 상기 연관피처에 대한 유사사례 클러스터의 각 클래스에 대하여 학습한 미래값 예측모델 혹은 상기 연관피처에 대한 유사사례 클러스터의 모든 클래스를 포함하여 학습한 미래값 예측모델인 것을 특징으로 한다.Wherein the class prediction model is a prediction model for a probability of a class in a similar case cluster for the association feature, the future value prediction model further comprising: Model, or all the classes of the similar case cluster for the association feature.

여기서 상기 미래건강추이를 예측하는 것은, 시계열적인 건강데이터의 특정구간에 대한 변화패턴에서 이어지는 구간의 미래건강추이에 대한 변화를 예측하는 것을 특징으로 한다.Here, the prediction of the future health trend is characterized by predicting a change in the future health trend of a section following a change pattern for a specific section of time-series health data.

또한 상기 유사사례 클러스터 판별부는, 상기 유사사례 클러스터에 대한 대표정보와 상기 예측쿼리를 매칭하여 해당 유사사례 클러스터를 판단하는 것이며, 상기 대표정보는 하나의 유사사례 클러스터를 형성하고 하나의 유사사례 클러스터에 포함되는 복수의 시계열 개인건강데이터를 대표하는 변화패턴에 대한 정보인 것을 특징으로 한다. 또한 상기 유사사례 클러스터 판별부는, 상기 유사사례 클러스터의 클래스 예측모델 중에서 선별된 연관피처 클러스터의 건강특징과 상기 예측쿼리를 매칭하여 해당 유사사례 클러스터를 판단하는 것이며, 상기 선별된 연관피처는, 전체 연관피처 중에서 소정의 정확도에 대한 기준을 만족하는 연관피처 클래스 예측모듈을 선별하는 과정에서 추출된 연관피처인 것을 특징으로 한다.In addition, the similar-case cluster discrimination unit judges the similar case cluster by matching the representative information on the similar case cluster with the prediction query, and the representative information forms one similar case cluster and one similar case cluster And is information on a change pattern representing a plurality of time series personal health data included. In addition, the similar case cluster discrimination unit judges the similar case cluster by matching the health feature of the related feature cluster selected from the class prediction models of the similar case cluster with the prediction query, And an associated feature extracted in the process of selecting an associated feature class prediction module that satisfies a criterion for a predetermined accuracy among the features.

또한 상기 클래스 예측모델 검색부는, 상기 예측쿼리와 매칭되는 것으로 판별된 유사사례 클러스터에 대한 예측모델을 클래스 예측모델 데이터베이스로부터 검색하여 로딩하는 것을 포함하는 것을 특징으로 한다.The class prediction model searching unit may further include searching and loading a prediction model for a similar case cluster determined to match the prediction query from the class prediction model database.

아울러 본 발명의 또 다른 일 실시예 따른 유사사례 클러스터 기반 예측모델을 통한 미래건강추이 예측 방법은, 사용자의 건강정보에 대한 예측쿼리로부터 복수의 클래스 예측모델을 선별하는 클래스 예측모델 선별단계, 복수의 클래스 예측모델별 예측을 수행하여 복수의 클래스 예측결과를 출력하며, 적어도 하나 이상의 미래값 예측모델에 대한 예측을 수행하여 미래값 예측결과를 출력하는 클래스 및 미래값 예측단계 및 상기 복수의 클래스 예측결과에 대해서 앙상블을 수행하여 적어도 하나 이상의 미래값 예측모델을 선택하여 출력하는 미래값 예측모델 선별단계를 포함하는 것을 특징으로 한다.According to another aspect of the present invention, there is provided a method for predicting future health trends through a similar case cluster-based prediction model, the method comprising: a class prediction model selection step of selecting a plurality of class prediction models from a prediction query for health information of a user; A class and a future value prediction step of outputting a plurality of class prediction results by performing prediction by class prediction model, outputting a future value prediction result by performing prediction of at least one or more future value prediction models, And selecting and outputting at least one or more future value prediction models by performing an ensemble on the future value prediction model.

또한 본 발명의 또 다른 일 실시예 따른 유사사례 클러스터 기반 예측모델을 통한 미래건강추이 예측 방법은, 사용자의 건강정보에 대한 예측쿼리에 매칭되는 연관피처 클러스터의 해당 예측모델이 소정의 정확도를 만족하는지 여부에 대해서 상기 예측모델을 필터링하는 예측모델 필터링 단계, 상기 필터링한 복수의 예측모델에 대해서 예측을 수행하고 예측모델별 예측결과를 출력하는 클래스 및 미래값 예측단계, 및 상기 복수의 예측결과에 대해서 앙상블을 수행하여 예측결과를 출력하는 단계를 포함하는 것을 특징으로 한다.In another aspect of the present invention, there is provided a method for predicting future health trends through a similar case cluster-based prediction model, the method comprising: determining whether a corresponding prediction model of an associated feature cluster matching a prediction query for health information of a user satisfies a predetermined accuracy A prediction class prediction step of classifying the plurality of prediction models and outputting a prediction result of each prediction model and a prediction value prediction step of classifying the plurality of prediction results, And outputting a prediction result by performing an ensemble.

이상에서와 같이 본 발명의 유사사례 클러스터 기반 예측모델을 통한 미래건강추이 예측 시스템 및 그 방법은, 복수의 개인건강기록 데이터를 기반으로 타겟피처와 상기 타겟피처의 연관피처를 순환적으로 클러스터링하여 생성한 유사사례 클러스터를 이용하여 상기 유사사례 클러스터의 건강특징에 대한 클래스 예측모델과 미래값 예측모델을 생성하고, 상기 생성된 클래스 예측모델 중에서 정확도가 높은 복수의 클래스 예측모델을 선별하여 상기 미래값 예측모델과 함께(다중 예측모델) 저장한 상태에서, 사용자의 건강정보에 대한 예측쿼리로부터 상기 다중 예측모델 중에서 클래스 예측모델을 이용하여 특정 미래건강추이 예측쿼리에 대한 예측결과를 추출한 다음, 추출된 예측결과를 앙상블하여, 최종 클래스 예측확률을 추출하고, 해당 클래스에 대한 미래값 예측모델을 이용하여 해당 쿼리에 대한 미래건강추이를 예측함으로써, 미래건강추이 예측 시스템의 구성을 단순화할 수 있고, 신속하고 신뢰성있는 예측결과를 사용자에게 제공할 수 있는 효과가 있다.As described above, the future health trend prediction system and the method for predicting future health trends through the similar case cluster-based prediction model of the present invention can be realized by cyclically clustering the target feature and the association feature of the target feature based on a plurality of personal health record data A class prediction model and a future value prediction model for the health characteristics of the similar case cluster are generated using a similar case cluster, and a plurality of class prediction models with high accuracy are selected from the generated class prediction models, Extracting a prediction result for a specific future health transition prediction query using the class prediction model among the multiple prediction models from a prediction query for the health information of the user, Ensemble the result, extract the final class prediction probability, The future health trend prediction for the query is predicted using the future value prediction model for the query, and the structure of the future health trend prediction system can be simplified, and quick and reliable prediction results can be provided to the user.

도 1은 본 발명의 일 실시예에 따른 유사사례 클러스터 기반 예측모델을 통한 미래건강추이 예측 시스템 및 그 방법을 개략적으로 설명하기 위한 개념도이다.
도 2는 본 발명의 일 실시예에 따른 계층적 유사사례 클러스터링을 수행하여 예측모델을 생성하는 과정을 개략적으로 설명하기 위해 나타낸 도면이다.
도 3은 본 발명의 일 실시예에 따른 미래건강추이 예측 장치에 대한 구성을 나타낸 블록도이다.
도 4는 본 발명의 일 실시예에 따른 개인별 시계열의 개인건강기록 데이터를 설명하기 위한 도면이다.
도 5는 본 발명의 일 실시예에서 활용하는 정보를 생성하는 유사사례 클러스터링 과정과 미래건강추이 예측모델의 생성과정에 대한 흐름도이다.
도 6은 본 발명의 일 실시예에 따른 미래건강추이 예측과정에 대한 절차를 나타낸 흐름도이다.
도 7은 본 발명의 또 다른 일 실시예에 따른 미래건강추이 예측과정에 대한 절차를 나타낸 흐름도이다.
FIG. 1 is a conceptual diagram for schematically explaining a future health transition prediction system and a method thereof according to a similar case cluster-based prediction model according to an embodiment of the present invention.
2 is a diagram schematically illustrating a process of generating a prediction model by performing hierarchical similar case clustering according to an embodiment of the present invention.
3 is a block diagram illustrating a configuration of a future health transition prediction apparatus according to an embodiment of the present invention.
FIG. 4 is a view for explaining individual time-series personal health record data according to an embodiment of the present invention.
5 is a flowchart illustrating a similar case clustering process of generating information utilized in an embodiment of the present invention and a process of generating a future health trend prediction model.
FIG. 6 is a flowchart illustrating a procedure of a future health transition prediction process according to an embodiment of the present invention.
7 is a flowchart illustrating a procedure for predicting a future health trend according to another embodiment of the present invention.

이하, 첨부된 도면을 참조하여 본 발명의 유사사례 클러스터 기반 예측모델 을 통한 미래건강추이 예측 시스템 및 그 방법을 상세하게 설명한다. 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 여기에서 설명하는 실시예에 한정되지 않는다. 명세서 전체를 통하여 유사한 부분에 대해서는 동일한 도면 부호를 붙였다.Hereinafter, a system and method for predicting future health trends through a similar case cluster-based prediction model of the present invention will be described in detail with reference to the accompanying drawings. The present invention may be embodied in many different forms and is not limited to the embodiments described herein. Like parts are designated with like reference numerals throughout the specification.

이하에서는 유사사례 클러스터 기반 예측모델을 통한 미래건강추이 예측 시스템 및 그 방법을 개략적으로 설명하도록 한다.Hereinafter, a system and method for predicting future health trends through a similar case cluster-based prediction model will be briefly described.

도 1은 본 발명의 일 실시예에 따른 유사사례 클러스터 기반 예측모델을 통한 미래건강추이 예측 시스템 및 그 방법을 개략적으로 설명하기 위한 개념도이다.FIG. 1 is a conceptual diagram for schematically explaining a future health transition prediction system and a method thereof according to a similar case cluster-based prediction model according to an embodiment of the present invention.

도 1에 도시한 바와 같이 미래건강추이 예측 시스템(10)은, 유사사례 클러스터링을 수행하는 유사사례 클러스터링 장치(100), 미래건강추이 예측모델을 생성하는 미래건강추이 예측모델 생성 장치(200) 및 상기 생성한 예측모델을 이용하여 사용자의 쿼리에 따른 사용자의 타겟피처에 대한 미래건강추이를 예측하여 제공하는 미래건강추이 예측장치(300)를 포함하여 구성된다.1, the future health transition prediction system 10 includes a similar case clustering apparatus 100 for performing similar case clustering, a future health transition prediction model generating apparatus 200 for generating a future health transition prediction model, And a future health transition prediction apparatus 300 that predicts and provides a future health transition for a target feature of a user according to a user's query using the generated prediction model.

상기 미래건강추이 예측 시스템(10)은 유사사례 클러스터 데이터베이스(500a), 클러스터 대표정보 데이터베이스(500b), 예측모델 데이터베이스(600a) 및 타겟별 최적 연관피처 데이터베이스(600b)를 네트워크상에서 혹은 로컬에서 더 구비하도록 구성될 수 있다.The future health trend prediction system 10 further includes a similar case cluster database 500a, a cluster representative information database 500b, a predictive model database 600a, and a target optimal relevance feature database 600b on a network or locally .

여기서 유사사례 클러스터링 장치(100)는 개인건강기록 데이터베이스(400)로부터 개인의 시계열 건강정보를 입력받아 유사사례별로 클러스터링을 수행한다. 클러스터링을 수행한 결과는 유사사례 클러스터 데이터베이스(500a)에 저장되고 상기 유사사례 클러스터의 대표정보에 대한 집합은 클러스터 대표정보 데이터베이스(500b)에 저장된다.Here, the similar-case clustering apparatus 100 receives personal time-series health information from the personal health record database 400, and performs clustering on similar cases. The result of the clustering is stored in the similar case cluster database 500a, and the set of representative information of the similar case cluster is stored in the cluster representative information database 500b.

상기 유사사례 클러스터는 미래건강추이 예측모델 생성 장치(200)에 입력되어 미래건강추이를 예측하기 위한 예측모델의 생성에 활용되고, 상기 생성된 예측모델은 예측모델 데이터베이스(600a)에 저장되며, 상기 예측모델은 상기 유사사례 클러스터의 대표정보와 함께 미래건강추이 예측장치(300)에서 미래건강추이를 예측하는데 활용된다. 이러한 과정은 통신망을 통해서 사용자와 관리자에 의해서 제어될 수 있으며, 또한 예측결과가 사용자에게 제공된다.The similar case cluster is input to the future health trend prediction model generating apparatus 200 and used for generating a prediction model for predicting future health trends, the generated prediction model is stored in a prediction model database 600a, The prediction model is used to predict future health trends in the future health trend prediction apparatus 300 together with the representative information of the similar case cluster. This process can be controlled by the user and the administrator through the communication network, and the prediction result is also provided to the user.

이하에서는 타겟피처를 혈당으로 하여, 유사사례 클러스터링을 수행하여 유사사례 클러스터를 생성하고, 이에 대한 예측모델을 생성하는 과정을 설명하고자 한다.Hereinafter, a process of generating a similar case cluster by performing similar case clustering using the target feature as the blood sugar, and generating a prediction model therefor will be described.

도 2는 본 발명의 일 실시예에 따른 계층적 유사사례 클러스터링을 수행하여 예측모델을 생성하는 과정을 개략적으로 설명하기 위해 나타낸 도면이다.2 is a diagram schematically illustrating a process of generating a prediction model by performing hierarchical similar case clustering according to an embodiment of the present invention.

유사사례 클러스터링 장치(100)는 유사사례 예측모델을 생성하기 위해, 개인건강기록 데이터베이스(400)로부터 로드한 복수의 개인건강기록을 계층적 클러스터링을 수행하여 유사사례 클러스터를 생성한다.The similar case clustering apparatus 100 performs hierarchical clustering of a plurality of personal health records loaded from the personal health record database 400 to generate a similar case cluster to generate a similar case prediction model.

여기서 계층적 클러스터링은, 타겟피처에 대한 유사사례 클러스터링 및 상기 타겟피처와 밀접한 연관성을 가지는 연관피처에 대한 유사사례 클러스터링을 수행하는 과정을 포함한다. 한편 상기 유사사례 클러스터링은, 타겟피처와 밀접한 연관성을 가지는 연관피처에 대해서 수행되는 것뿐만 아니라 개인건강 기록에 나타나 있는 모든 건강특징들에 대해서도 수행될 수 있다.Wherein the hierarchical clustering includes performing similar case clustering for the target feature and performing similar case clustering for the association feature having a close association with the target feature. On the other hand, the similar case clustering can be performed for all health features that appear in a personal health record, as well as being performed for an association feature that is closely related to the target feature.

또한 타겟피처는, 복수의 개인건강기록에 포함되어 있는 건강특징 중에 미래건강추이 예측의 대상이 되는 건강특징(예: 혈당)을 의미하며, 연관피처는, 상기 타겟피처와 연관성이 있는 건강특징을 의미한다. 예를 들어, 타겟피처가 혈당인 경우, 연관피처는 수축기혈압, 이완기혈압, LDL 콜레스테롤, 가족력(예: 당뇨) 등이 될 수 있다. Also, the target feature may refer to a health feature (e.g., blood glucose) that is subject to future health trend predictions among the health features included in a plurality of personal health records, and the associated feature may include a health feature associated with the target feature it means. For example, if the target feature is blood sugar, the associated features may be systolic blood pressure, diastolic blood pressure, LDL cholesterol, family history (e.g., diabetes), and the like.

상기 개인건강기록 데이터베이스(400)는, 로컬 또는 네트워크상에 구현될 수 있으며, 심평원 또는 건보공단에서 제공되는 공공 코호트 정보이거나, 병원과 같은 의료 기관에서 제공되는 환자의 개인건강기록이거나, 사용자 개인으로부터 제공되는 개인건강기록 등과 같이, 개별 개인건강기록을 저장하는 저장소이다. 또한 개인건강기록은 성별, 나이 등에 따라 그룹핑되어 개인건강기록 데이터베이스(400)에 저장될 수 있다.The personal health record database 400 may be implemented on a local or network and may be public cohort information provided by the HIRA or the NHS or may be a patient's personal health record provided by a medical institution such as a hospital, It is a repository for storing individual personal health records, such as provided personal health records. The personal health record may also be grouped according to gender, age, etc. and stored in the personal health record database 400.

좀 더 상세하게 설명하면, 유사사례 클러스터링 장치(100)는, 유사사례 클러스터링 및 예측모델을 생성하기 위한 학습을 효율적으로 수행할 수 있도록, 개인건강기록 데이터베이스(400)로부터 로드한 복수의 개인건강기록을 시계열의 개인건강기록 데이터로 변환하고 정규화한다. 상기 변환한 개인건강기록 데이터는, 각각의 개인건강기록을 토대로, 시계열적으로 변화되는 각각의 건강특징들을 그룹핑하여 변환한 것으로, 소정의 시간구간별(예: 년도) 건강특징(예: 체중, 신장, 수축기혈압, 이완기혈압, 나이 등) 등을 포함하여 구성될 수 있다.More specifically, the similar-case clustering apparatus 100 has a plurality of personal health records (e.g., a plurality of personal health records) loaded from a personal health record database 400 so as to efficiently perform learning for generating similar- Into a time series of personal health record data and normalize it. The converted individual health record data is obtained by grouping and converting the respective health characteristics that are changed in a time series on the basis of each personal health record, and is obtained by converting the health characteristics (for example, weight, Height, systolic blood pressure, diastolic blood pressure, age, etc.).

또한 유사사례 클러스터링 장치(100)는, 타겟피처에 대한 미래건강추이를 예측하기 위한 예측모델을 생성하기 위해, 개인건강기록 데이터를 기반으로 타겟피처에 대한 유사사례 클러스터링을 수행(1단계)하여, 복수의 유사사례 클러스터(예: 10개의 클러스터)를 생성한다. 상기 생성한 각각의 1단계 유사사례 클러스터별로 연관피처에 대한 클러스터링을 수행하여, 복수의 유사사례 클러스터를 생성한다.Also, the similar-case clustering apparatus 100 performs similar-case clustering on the target feature based on the individual health record data (step 1) to generate a prediction model for predicting the future health trend for the target feature, A plurality of similar case clusters (e.g., 10 clusters) are created. Clustering is performed on the related features for each of the generated one-stage similar case clusters to generate a plurality of similar case clusters.

상기 생성한 각각의 타겟피처에 대한 유사사례 클러스터에 포함되는 개인건강기록 데이터를 기반으로 상기 타겟피처와 연관된 연관피처에 대한 클러스터링을 수행하여, 각 타겟피처에 대한 유사사례 클러스터별로 복수의 연관피처에 대한 유사사례 클러스터를 생성한다.Clustering is performed on the associated features associated with the target feature based on the individual health record data included in the similar case clusters for each of the generated target features to obtain a plurality of associated features for each similar feature cluster for each target feature Create a similar case cluster.

즉, 타겟피처에 대한 유사사례 클러스터링은, 소정의 시간구간에 대해 시계열적으로 변화되는 타겟피처를 패턴별로 그룹핑하여, 타겟피처에 대한 복수의 유사사례 클러스터를 생성하는 것이고, 연관피처에 대한 유사사례 클러스터링은, 상기 타겟피처에 대한 유사사례 클러스터링과 동일한 메커니즘으로, 타겟피처와 연관된 연관피처 각각에 대하여 복수의 유사사례 클러스터를 타겟피처에 대한 타겟피처에 대한 유사사례 클러스터별로 생성하는 것이다.That is, the similar case clustering for the target feature is to group the target features, which are time-sequentially changed for a predetermined time period, by pattern, to generate a plurality of similar case clusters for the target feature, The clustering is to generate a plurality of similar case clusters for each of the associated features associated with the target feature for each similar case cluster for the target feature with the same mechanism as the similar case clustering for the target feature.

한편 본 발명에서 유사사례 클러스터를 생성하기 위한 계층적 클러스터링은, 1단계 및 2단계 유사사례 클러스터링을 수행하는 것으로 한정되는 것은 아니며, 특정 피처에 대한 1단계 클러스터링 및 상기 특정 피처와 연관된 연관피처에 대한 2단계 클러스터링을 수행하고, 또한 2단계 클러스터링을 위해 사용된 연관피처와 연관된 또 따른 연관피처로 3단계 클러스터링을 수행하는 것과 같이 복수의 단계로 유사사례 클러스터링을 수행하여 유사사례 클러스터를 생성할 수도 있다.In the present invention, the hierarchical clustering for creating a similar case cluster is not limited to performing the one-stage and two-stage similar case clustering, and it is also possible to perform clustering for one- A similar case cluster may be created by carrying out two-step clustering and performing similar-case clustering in a plurality of steps, such as performing three-step clustering with another related feature associated with the association feature used for two-step clustering .

따라서 유사사례 클러스터링 장치(100)는, 개인건강기록 데이터베이스(400)에 저장된 복수의 개인건강기록에 대해서 계층적 클러스터링을 수행하여 유사사례 클러스터를 생성하여 유사사례 클러스터 데이터베이스(500a)에 저장하고, 상기 유사사례 클러스터에 대한 대표정보를 유사사례 클러스터 대표정보 데이터베이스(500b)에 저장한다. 즉, 상기 시계열적인 건강 데이터로부터 먼저 상기 타겟피처에 대한 특정구간의 시계열적인 변화패턴을 추출하여 클러스터링을 수행하고, 다음으로 상기 타겟피처의 각 클러스터에 대한 연관피처에 대해서 상기 특정구간에 해당하는 시계열적인 변화패턴을 추출함으로써 클러스터링을 수행하며, 상기 미래건강추이를 예측하는 것은 상기 특정구간의 시계열적인 변화패턴에 이어지는 구간의 미래건강추이에 대한 패턴을 예측하는 것이다. 상기 변화패턴은 타겟피처와 연관피처의 클러스터에 대한 대표정보이며, 상기 대표정보는 사용자로부터 미래건강추이 예측에 대한 쿼리가 입력되는 경우, 해당 사용자의 건강특징에 대한 유사사례 클러스터를 판별하기 위해 사용되는 것으로, 하나의 유사사례 클러스터를 형성하게 되며, 하나의 유사사례 클러스터에 포함되는 복수의 개인건강데이터를 대표하는 변화패턴의 정보이다.Therefore, the similar-case clustering apparatus 100 creates a similar case cluster by performing hierarchical clustering on a plurality of personal health records stored in the individual health record database 400, stores the similar case cluster in the similar case cluster database 500a, The representative information on the similar case cluster is stored in the similar case cluster representative information database 500b. In other words, clustering is performed by extracting a time-series change pattern of a specific section for the target feature from the time-series health data, and then, for the related feature for each cluster of the target feature, The clustering is performed by extracting a change pattern of a specific period, and predicting the future health trend is to predict a pattern of a future health trend of a section following the time varying pattern of the specific period. Wherein the change pattern is representative information on a cluster of the target feature and the association feature, and the representative information is used to identify a similar case cluster for a health characteristic of the user when a query for future health transition prediction is input from the user , And forms a similar case cluster, and is information of a change pattern representing a plurality of personal health data included in one similar case cluster.

또한 상기 미래건강추이 예측모델 생성 장치(200)는, 계층적 클러스터링 기법을 통해 생성한 각 연관피처별 유사사례 클러스터 각각을 학습하여, 타겟피처에 대한 클러스터별 예측모델을 생성한다. 상기 생성한 각각의 예측모델을 테스트하여, 미리 설정한 수치 이상의 정확도를 가지거나, 미리 설정한 순위 이상의 정확도를 가진 예측모델을 선별함으로써, 특정 타겟피처에 대한 최적의 연관피처를 선별하고, 상기 선별한 예측모델을 예측모델 데이터베이스(500a)에 저장한다.Also, the future health transition prediction model generation apparatus 200 learns each of the similar case clusters for each of the related features generated through the hierarchical clustering technique, and generates a cluster-specific prediction model for the target feature. Selecting a prediction model having an accuracy higher than or equal to a preset numerical value or having an accuracy higher than or equal to a predetermined rank by testing each of the generated prediction models to thereby select an optimal related feature for a specific target feature, And stores a prediction model in the prediction model database 500a.

또한 상기 미래건강추이 예측모델 생성 장치(200)는 시계열적인 개인건강기록 데이터로부터 계층적 클러스터링 기법으로 클러스터링한 복수의 유사사례 클러스터에 대해서 기계학습을 통해서 학습하여 예측모델을 생성한다. 여기서 상기 계층적 클러스터링 기법은, 개인건강기록 데이터로부터 타겟피처에 대한 유사사례 클러스터를 생성하고, 상기 타겟피처와 연관된 연관피처에 대한 유사사례 클러스터를 생성하며, 상기 유사사례 클러스터는, 소정의 시간구간에 대해 시계열적으로 변화되는 복수의 패턴을 그룹핑하여 생성된 개인건강기록 데이터와 상기 유사사례 클러스터에 포함된 소정의 시간구간 이후에 나타나는 타겟피처를 복수의 클래스로 분류한 것이다. 상기 연관피처에 대한 유사사례 클러스터 각각에 포함되는 개인건강기록 데이터의 선형적 또는 비선형적 분포에 기반하여 각 클래스에 대한 확률을 예측하여 클래스 예측모델을 생성하며, 상기 클래스마다 또는 각 클러스터에 대해서 타겟피처에 대한 미래값을 예측하는 미래값 예측모델을 생성하여 예측모델 데이터베이스(600a)에 저장한다. 이어서 상기 생성한 클래스 예측모델을 테스트하여 미리 설정한 수치 이상의 정확도를 가지거나 미리 설정된 순위 이상의 정확도를 가진 클래스 예측모델을 선별하여 예측모델 데이터베이스(600a)에 저장한다.In addition, the future health trend prediction model generating apparatus 200 learns a plurality of similar case clusters clustered in a hierarchical clustering technique from time series personal health record data through machine learning to generate a prediction model. Wherein the hierarchical clustering technique creates a similar case cluster for a target feature from personal health record data and creates a similar case cluster for an associated feature associated with the target feature, And a target feature appearing after a predetermined time period included in the similar case cluster are classified into a plurality of classes. Generating a class prediction model by predicting a probability for each class based on a linear or nonlinear distribution of individual health record data included in each of the similar case clusters for the associated feature, A future value prediction model for predicting a future value for the feature is generated and stored in the prediction model database 600a. Then, the generated class prediction model is tested to select a class prediction model having an accuracy higher than or equal to a preset numerical value or having an accuracy higher than a predetermined order, and stored in the prediction model database 600a.

상기 선별한 클래스 예측모델에 대해서 타겟별 최적 연관피처들의 집합에 대한 정보를 추출하여 타겟별 최적 연관피처 데이터베이스(600b)에 저장한다. 그리고 미래건강추이 예측 장치(300)에서 사용자의 특정 건강정보에 대한 예측쿼리에 매칭되는 클러스터의 예측모델을 선별할 수 있도록 최적 연관피처에 대한 정보를 제공한다. 여기서 상기 정확도는 상기 클래스 예측모델을 생성하는데 사용되지 않은 소정의 테스트 입력데이터를 활용하여, 클래스 예측결과로부터 클래스 예측 성공여부나 클래스 예측 확률에 대한 정보를 계산하되, 특정 테스트 입력데이터에 포함된 모든 입력데이터에 대해서 반복하여 누적 계산된다.Information about a set of the optimal association features for each target is extracted for the selected class prediction model and stored in the target-specific optimum association feature database 600b. In addition, the future health trend prediction apparatus 300 provides information on an optimal association feature so that a prediction model of a cluster matching a prediction query for a user's specific health information can be selected. Herein, the accuracy is calculated by calculating information on a class prediction success or a class prediction probability from the class prediction result using predetermined test input data not used to generate the class prediction model, It is cumulatively repeatedly calculated with respect to the input data.

이를 통해, 본 발명은, 개인건강기록에 나타나는 모든 건강특징들에 대해서 유사사례를 검색하는 것이 아니라, 미래건강추이 예측의 대상이 되는 특정 건강특징에 대해서 유사사례를 우선적으로 검색하고, 상기 검색한 특정 건강특징에 대한 유사사례 중에서, 특정 건강특징에 대해 연관이 있는 최적의 건강특징에 대해서만 유사사례를 검색하기 때문에, 검색에 대한 경우의 수를 획기적으로 줄일 수 있으며, 이를 통해 미래건강추이 예측 시스템(10)의 구성에 대한 복잡도를 획기적으로 낮출 수 있다.Accordingly, the present invention can be applied not only to search for similar cases for all health characteristics appearing in the individual health record, but also to search for similar cases preferentially for specific health characteristics to be predicted for future health trends, Since similar cases are searched only for optimal health characteristics that are related to specific health characteristics among similar cases of specific health characteristics, the number of cases for the search can be drastically reduced, and the future health trend prediction system The complexity of the configuration of the display device 10 can be drastically reduced.

또한 개인건강기록에 나타나있는 모든 건강특징을 기반으로 미래건강추이를 예측하는 것이 아니라, 타겟피처와 밀접하게 관련되어 있는 최적의 연관피처를 활용하여 타겟피처에 대한 미래건강추이를 예측하는 것이므로, 예측에 소요되는 시간이 단축되며, 높은 정확도를 가지는 신뢰성 있는 예측결과를 제공할 수 있다.It also predicts the future health trends for the target features by using the best related features that are closely related to the target features, rather than predicting future health trends based on all the health characteristics shown in the individual health record. It is possible to shorten the time required for the prediction, and to provide reliable prediction results with high accuracy.

이하에서는 도 3을 참조하여 미래건강추이 예측장치(300)를 상세히 설명하도록 한다. 도 3은 본 발명의 일 실시예에 따른 미래건강추이 예측 장치에 대한 구성을 나타낸 블록도이다.Hereinafter, the future health transition prediction apparatus 300 will be described in detail with reference to FIG. 3 is a block diagram illustrating a configuration of a future health transition prediction apparatus according to an embodiment of the present invention.

도 3에 도시한 바와 같이, 미래건강추이 예측 장치(300)는, 사용자의 건강정보에 대한 예측쿼리로부터 복수의 클래스 예측모델을 선별하는 클래스 예측모델 선별부(310), 복수의 클래스 예측모델별 유사사례 예측을 수행하여 복수의 클래스 예측결과를 출력하며, 적어도 하나 이상의 미래값 예측모델에 대한 유사사례 예측을 수행하여 미래값 예측결과를 출력하는 클래스 및 미래값 예측부(320) 및 상기 복수의 클래스 예측결과에 대해서 앙상블을 수행하여 적어도 하나 이상의 미래값 예측모델을 선택하여 출력하는 미래값 예측모델 선별부(330)를 포함하여 구성된다.3, the future health trend prediction apparatus 300 includes a class prediction model selection unit 310 for selecting a plurality of class prediction models from a prediction query for the user's health information, a plurality of class prediction models A class and future value predicting unit 320 for performing similar case prediction to output a plurality of class prediction results, performing similar case prediction for at least one or more future value prediction models to output a future value prediction result, And a future value prediction model selector 330 for performing an ensemble on the class prediction result to select and output at least one or more future value prediction models.

또한 상기 클래스 예측모델 선별부(310)는 사용자의 건강정보에 대한 예측쿼리를 수신하여 유사사례 클러스터를 판별하는 유사사례 클러스터 판별부(311) 및 상기 판별한 유사사례 클러스터에 대한 클래스 예측모델을 검색하는 클래스 예측모델 검색부(312)를 포함하여 구성되며, 여기서 유사사례 클러스터는, 복수의 시계열적인 건강데이터로부터 타겟피처와 상기 타겟피처의 연관피처를 계층적으로 클러스터링하여 생성되며, 소정의 시간구간에 대해 시계열적으로 변화되는 복수의 패턴을 그룹핑하여 생성된 개인건강기록 데이터와 상기 유사사례 클러스터에 포함된 소정의 시간구간 이후에 나타나는 타겟피처를 복수의 클래스로 분류한 것이다.The class prediction model selection unit 310 includes a similar case cluster discrimination unit 311 for receiving a prediction query for health information of a user to discriminate a similar case cluster and a class prediction model for the determined similar case cluster Wherein the similar case clusters are generated by hierarchically clustering a target feature and an association feature of the target feature from a plurality of time series health data, And a target feature appearing after a predetermined time period included in the similar case cluster are classified into a plurality of classes.

또한 미래건강추이 예측 장치(300)는, 사용자 인터페이스(미도시)를 통해 사용자로부터 사용자 쿼리 및 개인건강기록을 입력받아 전처리 과정을 수행하여, 시계열의 개인건강기록 데이터를 생성하여 정규화한다. 이는, 유사사례 클러스터링 장치(100)에서 수행되는 전처리 과정과 동일한 방법으로 수행된다.In addition, the future health trend prediction apparatus 300 receives a user query and a personal health record from a user through a user interface (not shown), performs a preprocessing process, and generates and normalizes time series personal health record data. This is performed in the same manner as the preprocessing process performed in the similar-case clustering apparatus 100.

즉, 전처리 과정은 개인건강기록 데이터베이스(400)에 저장된 복수의 개인건강기록을 로드하여, 개인별 시계열의 개인건강기록 데이터로 변환한다. 상기 변환한 개인건강기록 데이터는, 유사사례 클러스터의 생성과, 예측모델의 학습을 효율적으로 수행하기 위해 변환되며, 소정의 시간구간에 따른 각각의 건강특징을 포함하여 구성된다. 상기에서 설명한 개인별 시계열의 개인건강기록 데이터는 도 4에 도시되어 있다. 상기 변환한 각각의 개인건강기록 데이터가 0과 1 사이의 값을 가지도록 정규화한다. 또한 흡연유무, 음주유무 등과 같이 특정수치 값으로 나타나지 않는 건강특징에 대해서는 0 또는 1로 정규화할 수 있다.That is, the preprocessing process loads a plurality of personal health records stored in the personal health record database 400 and converts them into individual time-series personal health record data. The converted individual health record data is converted to efficiently generate the similar case cluster and the learning of the prediction model, and is configured to include each health characteristic according to a predetermined time period. The individual time-series personal health record data described above is shown in FIG. And normalizes the converted individual health record data so as to have a value between 0 and 1. In addition, health characteristics that do not appear as specific numerical values such as smoking, drinking or not, can be normalized to 0 or 1.

도 4에 도시된 바와 같이, 특정 개인의 개인건강기록 도 4의 (a)와 같이 복수의 개인건강기록이 각각의 건강정보를 나타내는 고유한 값으로 개인건강기록 데이터베이스(400)에 저장되어 있을 것이며, 이를 본 발명에 따른 전처리부에서 로딩하여 도 4의 (b)와 같이 개인별 시계열의 개인건강기록 데이터로 변환한다.As shown in FIG. 4, a personal health record of a particular individual. A plurality of personal health records may be stored in the personal health record database 400 as unique values indicating respective health information, as shown in (a) of FIG. 4 , And it is loaded in the preprocessing unit according to the present invention and converted into individual time-series personal health record data as shown in FIG. 4 (b).

또한 상기 전처리 과정은 상기 변환한 개인건강기록 데이터로부터 예측모델 학습에 이용 가능한 데이터를 선별한다. 이는, 소정의 기간 동안 변화되는 건강특징을 학습하여 상기 소정의 기간 이후의 건강특징에 대한 추이를 예측하기 위해 선별되는 것이다. 예를 들어, 3년 동안의 혈당수치에 대한 변화패턴을 학습하여 4년째의 혈당수치를 예측하기 위해 사용되는 학습용 데이터는 4년 이상 연속으로 측정된 혈당수치가 필요하므로, 4년 연속의 측정치(즉, 4년 연속 검진)를 포함하고 있는 개인건강기록 데이터를 선별한다. 상기 선별한 개인건강기록 데이터에서 누락된 데이터에 대한 여부를 체크할 수 있다. 체크 결과, 누락된 데이터가 있는 경우에는 중간값 또는 평균값 계산을 통해 누락된 데이터를 보간(interpolation)할 수 있다. 예를 들어, 13년도, 15년도 및 16년도의 혈당수치가 각각 80mg/dl, 90mg/dl, 95mg/dl이고 14년도의 혈당수치가 누락되어 있는 경우, 14년도의 전후값인 13년도와 15년도의 혈당수치를 토대로 중간값이나 평균값을 계산하여, 15년도의 혈당수치를 85mg/dl로 보간할 수 있다.Also, the preprocessing process selects data available for prediction model learning from the converted individual health record data. It is selected to learn health characteristics that change over a period of time and to predict trends in health characteristics after the predetermined period of time. For example, the learning data used to predict changes in blood glucose levels over a three-year period to predict blood glucose levels at 4 years requires a four-year continuous measurement of blood glucose levels, That is, four consecutive years of screening). It is possible to check whether the data is missing from the selected personal health record data. As a result of the check, if there is missing data, the missing data can be interpolated by calculating the median value or the average value. For example, if blood glucose levels in years 13, 15, and 16 are 80 mg / dl, 90 mg / dl, and 95 mg / dl, respectively, and the blood glucose levels in year 14 are missing, Based on the blood glucose level of the year, the median or average value can be calculated to interpolate the blood glucose level at 15 years to 85 mg / dl.

상기 유사사례 클러스터 판별부(311)는 사용자의 쿼리에 따른 특정 타겟피처에 대한 유사사례 클러스터와, 상기 타겟피처에 대한 유사사례 클러스터 각각에 대한 연관피처별 유사사례 클러스터를 로드한다. 한편 타겟피처에 대한 유사사례 클러스터 각각에 대한 연관피처별 유사사례 클러스터는, 미래건강추이 예측모델 생성장치(200)에 의해 선별된 특정 타겟피처에 대한 최적의 연관피처에 대한 유사사례 클러스터이다.The similar case cluster discrimination unit 311 loads a similar case cluster for a specific target feature according to a query of a user and a similar case cluster for each related feature for each similar case cluster for the target feature. On the other hand, the similar case cluster for each related feature for each similar case cluster to the target feature is a similar case cluster for the best related feature for a specific target feature selected by the future health transition prediction model generating apparatus 200.

또한 유사사례 클러스터 판별부(311)는, 상기 전처리한 사용자의 개인건강기록 데이터에 나타나 있는 타겟피처의 패턴을 분석하여, 상기 로드한 타겟피처에 대한 1단계 유사사례 클러스터를 판별한다. 상기 전처리한 사용자의 개인건강기록 데이터에 나타나 있는 연관피처별 패턴을 분석하여, 상기 로드한 연관피처별 유사사례 클러스터를 판별한다. 한편 상기 판별한 연관피처별 유사사례 클러스터에 포함되는 개인건강기록 데이터는, 상기 선택한 유사사례 클러스터에 포함되는 개인건강기록 데이터의 집합인 것은 당연하다.The similar case cluster discrimination unit 311 analyzes a pattern of the target feature indicated in the personal health record data of the preprocessed user to determine a first-stage similar case cluster for the loaded target feature. And analyzes the pattern for each related feature indicated in the personal health record data of the preprocessed user to determine the similar case cluster for each loaded feature. On the other hand, it is a matter of course that the personal health record data included in the identified similar case cluster per related feature is a set of individual health record data included in the selected similar case cluster.

또한 클래스 예측모델 검색부(312)는, 상기 판별한 연관피처별 유사사례 클러스터를 학습하여 생성한 클래스 예측모델을 저장하고 있는 예측모델 데이터베이스(500a)를 검색하여, 로드한다. 상기 로드한 클래스 예측모델은 미래건강추이 예측모델 생성 장치(200)에 의해 선별된 최적의 다중 예측모델이다.The class prediction model searching unit 312 searches for and loads the prediction model database 500a storing the class prediction model generated by learning the similar case cluster for each related feature determined as described above. The loaded class prediction model is an optimal multiple prediction model selected by the future health trend prediction model generating apparatus 200. [

또한 클래스 및 미래값 예측부(320)는 복수의 클래스 예측모델별 유사사례 예측을 수행하여 복수의 클래스 예측결과를 출력하는 클래스 예측부(321) 및 적어도 하나 이상의 미래값 예측모델에 대한 유사사례 예측을 수행하여 미래값 예측결과를 출력하는 미래값 예측부(322)를 포함한다.The class and future value predicting unit 320 includes a class predicting unit 321 for performing similar case prediction for each of a plurality of class prediction models to output a plurality of class prediction results and a similar case prediction And a future value predicting unit 322 for outputting a future value prediction result.

특히 클래스 예측부(321)는, 상기 로드한 클래스 예측모델을 통해 해당 타겟피처에 대한 클래스별 확률을 예측하여, 각 클래스별 예측결과를 출력한다. 상기 클래스 예측모델은, 상기 연관피처에 대한 유사사례 클러스터에서 클래스의 확률에 대한 예측모델이며, 상기 미래값 예측모델은, 상기 연관피처에 대한 유사사례 클러스터의 각 클래스에 대하여 학습한 미래값 예측모델 혹은 상기 연관피처에 대한 유사사례 클러스터의 모든 클래스를 포함하여 학습한 미래값 예측모델이다.In particular, the class predicting unit 321 predicts the probability of each class for the target feature through the loaded class prediction model, and outputs the prediction result for each class. Wherein the class prediction model is a prediction model for a probability of a class in a similar case cluster for the association feature, the future value prediction model further comprising: a future value prediction model learning for each class of the similar case cluster for the association feature Or all the classes of the similar case cluster for the related feature.

또한 상기 미래건강추이를 예측하는 것은, 시계열적인 건강데이터의 특정구간에 대한 변화패턴에서 이어지는 구간의 미래건강추이에 대한 변화를 예측하는 것이다.In addition, predicting the future health trend is to predict a change in the future health trend of a section following a change pattern for a specific section of time series health data.

또한 미래값 예측모델 선별부(330)는 예측결과 앙상블부(331) 및 미래값 예측모델 검색부(332)로 구성된다.The future value prediction model selection unit 330 includes a prediction result ensemble unit 331 and a future value prediction model search unit 332.

이어서 도 5내지 도7를 참조하여 유사사례 클러스터링, 미래건강추이 예측모델 생성 및 미래건강추이 예측과정을 설명하고자 한다.Next, referring to FIGS. 5 to 7, a description will be made of a similar case clustering, a future health trend prediction model generation process, and a future health trend prediction process.

유사사례 클러스터링과 미래건강추이 예측모델 생성 과정을 통해서 생성된 정보와 예측모델을 이용하여 미래건강추이를 예측하기 때문에 상기 정보가 어떻게 생성되고 활용되는지 설명한다. 상기 정보의 생성과정에 따라 상기 정보의 활용과정이 달라질 수 있으므로, 먼저 상기 정보의 생성과정에 대해서 설명하고자 한다.Clustering of similar cases and prediction of future health trends We will explain how information is generated and used because it predicts future health trends by using information and prediction models generated through model generation process. Since the utilization process of the information may be changed according to the process of generating the information, the process of generating the information will be described first.

도 5는 본 발명의 일 실시예에서 활용하는 정보를 생성하는 유사사례 클러스터링 과정과 미래건강추이 예측모델의 생성과정에 대한 흐름도이다.5 is a flowchart illustrating a similar case clustering process of generating information utilized in an embodiment of the present invention and a process of generating a future health trend prediction model.

도 5에 도시된 바와 같이, 유사사례 클러스터링 장치(100)는 개인건강 데이터베이스(400)로부터 개인건강기록을 입력받아 전처리를 수행한다. 상기 전처리에는 입력된 개인건강기록의 데이터를 유사사례 클러스터링 장치(100)에서 사용하기에 적합한 포맷으로 변환하고, 각 특징에 대해서 정규화하는 과정을 수행하는 것을 포함한다. 여기서 상기 변환에 대해서는 데이터의 종류에 따라 텍스트, 숫자, 이미지, 혹은 음성과 같은 다양한 정보를 클러스터링하기에 적합하도록 변환하는 것을 포함한다. 상기 정규화는 입력되는 데이터의 다이내믹 레인지를 0과 1사이의 값으로 수렴시키고, 이를 통해서 데이터에 대한 핸들링을 간략화하고 통일하기 위함이다.As shown in FIG. 5, the similar case clustering apparatus 100 receives the personal health record from the personal health database 400 and performs preprocessing. The pre-processing includes converting the input personal health record data into a format suitable for use in the similar case clustering apparatus 100, and performing a process of normalizing each feature. The conversion may include converting various information such as text, numbers, images, or voice to be suitable for clustering according to the type of data. The normalization converges the dynamic range of input data to a value between 0 and 1, and simplifies and unifies the handling of data through the normalization.

또한 상기 전처리된 개인건강기록은 계층적인 클러스터링에 의해서 유사사례 클러스터를 생성한다. 상기 생성된 유사사례 클러스터는 다양한 계층적 구조를 가지고 있기 때문에 이러한 계층적인 구조의 특징을 유지한 채로 유사사례 클러스터 데이터베이스(500b)에 저장된다. 예를 들어, 타겟피처가 혈당인 경우, 3년 동안 측정된 혈당의 시계열적으로 변화되는 혈당수치에 대한 패턴을 기반으로, 비슷한 양상의 패턴을 가지는 복수의 타겟피처를 그룹화하고, 상기 그룹화된 각각의 타겟피처에 대한 대표(패턴)정보를 생성한다. 이러한 대표패턴은, 사용자로부터 미래건강추이 예측에 대한 쿼리가 입력되는 경우, 해당 사용자의 건강특징에 대한 유사사례 클러스터를 판별하기 위해 사용되는 것으로, 하나의 유사사례 클러스터를 형성하게 되며, 하나의 유사사례 클러스터에 포함되는 복수의 개인건강데이터를 대표하게 된다.The preprocessed personal health record also creates a similar case cluster by hierarchical clustering. Since the generated similar case clusters have various hierarchical structures, they are stored in the similar case cluster database 500b while maintaining the characteristics of the hierarchical structure. For example, if the target feature is blood sugar, grouping a plurality of target features having a pattern of similar pattern, based on the pattern for the time-varying blood glucose levels of the blood glucose measured over three years, (Pattern) information for the target feature of the target. Such a representative pattern is used to identify a similar case cluster for a health characteristic of a user when a query for prediction of future health transition is input from a user and forms one similar case cluster, And represent a plurality of personal health data included in the case cluster.

여기서 계층적 클러스터링에 의한 유사사례 클러스터 생성과정은 먼저 타겟피처 클러스터링을 수행하고, 각각의 타겟피처에 대한 대표정보를 생성하며, 이러한 대표정보는 사용자로부터 미래건강추이 예측에 대한 쿼리가 입력되는 경우, 해당 사용자의 건강특징에 대한 유사사례 클러스터를 판별하기 위해 사용되는 것으로, 하나의 유사사례 클러스터를 형성하게 되며, 하나의 유사사례 클러스터에 포함되는 복수의 개인건강데이터를 대표하는 패턴의 정보가 된다. 이어서 각 타겟피처에 대한 클러스터에 포함된 개인건강기록에 대한 연관피처 클러스터링을 수행하고, 상기 수행된 연관피처 클러스터에 대해서도 클러스터의 대표정보를 계산한다. 다음으로 상기 연관피처 클러스터링을 통해서 생성된 각 클러스터에 대해서 클래스별로 분류하고 해당 클래스에 대한 개인건강기록 데이터의 확률분포를 계산한다.Here, the similar case cluster generation process by hierarchical clustering first performs the target feature clustering and generates representative information for each target feature, and when the query for future health transition prediction is input from the user, A similar case cluster is used to identify a similar case cluster for a health characteristic of the user and is a pattern information representing a plurality of personal health data included in one similar case cluster. Next, an association feature clustering for the individual health records contained in the cluster for each target feature is performed, and the cluster representative information is also calculated for the performed association feature cluster. Next, each cluster generated through the association feature clustering is classified into classes and a probability distribution of personal health record data for the class is calculated.

이렇게 생성된 유사사례 클러스터 대표정보는 유사사례 클러스터 대표정보 데이터베이스(500b)에 저장되고, 유사사례 클러스터는 유사사례 클러스터 데이터베이스(500a)에 저장된다.The generated similar case cluster representative information is stored in the similar case cluster representative information database 500b, and the similar case cluster is stored in the similar case cluster database 500a.

이어서 미래건강추이 예측모델 생성 과정은, 먼저 유사사례 클러스터 데이터베이스(500a)에 저장된 유사사례 클러스터를 미래건강추이 예측모델 생성 장치(200)에서 로딩하여 가져온다. 다음으로 유사사례 클러스터별 예측모델 학습을 수행하여, 유사사례 클러스터 각각에 대한 예측모델을 생성한다. 유사사례 클러스터별 예측모델 학습은, 특정 타겟피처의 유사사례 클러스터에 대한 연관피처별로 생성한 복수의 유사사례 클러스터에 대해서 수행된다. 이 과정은 타겟피처에 대한 유사사례 클러스터와 상기 타겟피처와 연관된 연관피처에 대한 유사사례 클러스터에서, 상기 연관피처에 대한 유사사례 클러스터를 학습하여 예측모델을 생성하는 것이다.Next, in the process of generating the future health trend prediction model, the similar case cluster stored in the similar case cluster database 500a is first loaded by loading it in the future health trend prediction model generating apparatus 200. [ Next, the similar case cluster-specific prediction model learning is performed to generate a prediction model for each of the similar case clusters. Similar case cluster-by-cluster prediction model learning is performed for a plurality of similar case clusters generated for each related feature for a similar case cluster of a specific target feature. In this process, in a similar case cluster for a target feature and a similar case cluster for an association feature associated with the target feature, a similar model cluster for the related feature is learned to generate a prediction model.

예를 들어, 타겟피처가 혈당이면, 혈당에 대한 유사사례 클러스터가 생성되고, 상기 혈당에 대한 연관피처가 수축기혈압, 이완기혈압, 콜레스테롤이라면, 혈당에 대한 유사사례 클러스터 각각에 대한 수축기혈압, 이완기혈압, 콜레스테롤에 대한 유사사례 클러스터가 생성되어 있으며, 이 후, 상기 수축기혈압 이완기혈압 콜레스테롤 각각에 대해 생성된 복수의 유사사례 클러스터를 학습하여 상기 혈당에 대한 예측모델을 생성하는 것이다.For example, if the target feature is blood glucose, a similar case cluster for blood glucose is generated, and if the associated features for blood glucose are systolic blood pressure, diastolic blood pressure, and cholesterol, then the systolic blood pressure, diastolic blood pressure , A similar case cluster for cholesterol is generated, and then a plurality of similar case clusters generated for each of the systolic blood pressure diastolic blood pressure cholesterol are learned to generate a prediction model for the blood glucose.

연관피처에 대한 유사사례 클러스터는 클래스별로 분류된다. 여기서 클래스 예측모델은 상기 클러스터에서 클래스 확률을 예측하는 클래스 예측모델과 각 클러스터의 클래스별로 혹은 클러스터 전체에 대해서 미래값을 예측하기 위한 미래값 예측모델로 나누어진다.Similar case clusters for associative features are categorized by class. Here, the class prediction model is divided into a class prediction model for predicting the class probability in the cluster, and a future value prediction model for predicting a future value for each class of each cluster or for the entire cluster.

따라서 일단 유사사례 클러스터별로 또는 유사사례 클러스터 내의 클래스별로 미래값 예측모델을 생성하여 유사사례 예측모델 데이터베이스(600a)에 저장한다.Therefore, the future value prediction model is generated for each similar case cluster or each class in the similar case cluster and stored in the similar case prediction model database 600a.

다만, 클래스 예측모델에 대해서는 바로 모든 클래스 예측모델을 유사사례 예측모델 데이터베이스(600a)에 저장하기보다, 복수의 클래스 예측모델 중에서 최적의 예측모델을 선별하여 저장한다. 상기 선별은 연관피처별 복수의 예측모델을 테스트하여 각각의 예측모델에 대한 정확도를 계산하여, 미리 설정한 수치 이상의 정확도를 가지거나, 또는 미리 설정된 순위 이상의 정확도를 가지는 복수의 예측모델을 선택함으로써 선별될 수 있다.However, instead of storing all the class prediction models in the similar case prediction model database 600a, the optimum prediction models are selected and stored among the plurality of class prediction models. The selection may be performed by testing a plurality of prediction models for each associated feature to calculate an accuracy for each prediction model and selecting a plurality of prediction models having an accuracy higher than a preset value or having an accuracy higher than a predetermined order, .

한편 상기 테스트는, 각 연관피처에 대한 클러스터를 학습하여 생성한 모든 클래스 예측모델에 대해서 수행되는 것으로, 학습에 사용되는 데이터를 이용하여 상기 모든 클래스 예측모델에 대한 정확도를 계산한다. 이를 통해 정확도가 높은 클래스 예측모델을 선별함으로써, 특정 타겟피처의 향후 변화에 대해 밀접한 관련이 있는 최적의 연관피처를 선별할 수 있다.On the other hand, the test is performed on all the class prediction models generated by learning clusters for each related feature, and the accuracy for all the class prediction models is calculated using data used for learning. This allows the selection of the most accurate class prediction models to select the best-fit associative features that are closely related to future changes in a particular target feature.

예를 들어, 타겟피처가 혈당이고, 혈당에 대한 연관피처가 수축기혈압, LDL 콜레스테롤인 경우, 미래건강 예측모델 생성 장치(200)는, 테스트 데이터들의 혈당에 대한 유사사례 클러스터를 각각 결정하고, 이후 모든 연관피처(즉, 수축기혈압, LDL 콜레스테롤)에 대한 유사사례 클러스터를 각각 결정한다. 이후, 상기 결정한 수축기혈압 및 LDL 콜레스테롤에 대한 클래스 예측모델을 예측모델 데이터베이스(600a)로부터 로드하여, 상기 복수의 테스트데이터들을 입력하여 클래스 예측모델의 예측결과와 상기 테스트 데이터들의 실제값을 비교함으로써, 상기 로드한 클래스 예측모델에 대한 정확도를 계산한다.For example, if the target feature is blood sugar and the associated features to blood glucose are systolic blood pressure, LDL cholesterol, the future health prediction model generation device 200 determines similar case clusters for blood glucose of the test data, A cluster of similar cases for all relevant features (i.e., systolic blood pressure, LDL cholesterol) is determined. Thereafter, the predicted model of systolic blood pressure and LDL cholesterol is loaded from the predictive model database 600a, the predicted results of the class predictive model are compared with the actual values of the test data by inputting the plurality of test data, And calculates the accuracy of the loaded class prediction model.

즉, 클래스 예측결과를 상기 입력한 테스트 데이터의 클래스와 비교하여 예측 성공여부를 판단하거나 예측확률이 높은 상위 몇 개의 클래스를 선별할 수 있는데, 이러한 메커니즘을 모든 테스트 그룹에 대하여 수행함으로써, 해당 수축기혈압 및 LDL 콜레스테롤에 대한 클래스 예측모델의 정확도를 계산하게 된다. 이는, 각각의 연관피처에 대한 유사사례 클러스터별로 생성한 후보확률 예측모델에 대해서 수행되는 것이며, 이를 통해 최적의 클래스 예측모델을 선별하게 된다.That is, it is possible to judge the success or failure of prediction by comparing the class prediction result with the class of the inputted test data, or to select the upper several classes having a high probability of prediction. By performing such a mechanism for all the test groups, And the accuracy of the class prediction model for LDL cholesterol. This is performed for a candidate probability prediction model generated for each similar case cluster for each related feature, thereby selecting an optimal class prediction model.

또한 클래스 예측모델은 각각의 연관피처별로 생성되는 것이므로, 상기와 같은 일련의 과정을 통해 정확도가 높은 클래스 예측모델을 결정하는 것은 특정 타겟피처의 향후 변화에 대한 밀접한 관련이 있는 연관피처를 선별하는 것과 동일한 효과가 있다.In addition, since the class prediction model is generated for each related feature, the determination of the class prediction model with high accuracy through the above-described series of processes is performed by selecting a related feature closely related to a future change of a specific target feature It has the same effect.

이어서 이렇게 생성된 유사사례 클러스터의 대표정보, 타겟별 최적 연관피처에 대한 집합 및 유사사례 예측모델을 활용하여 미래건강추이를 예측하는 과정에 대해서 설명하고자 한다.Next, we describe the process of predicting future health trends by using representative information of similar case clusters generated in this way, aggregation of optimal relevance features for each target, and similar case prediction models.

도 6은 본 발명의 일 실시예에 따른 미래건강추이 예측과정에 대한 절차를 나타낸 흐름도이다.FIG. 6 is a flowchart illustrating a procedure of a future health transition prediction process according to an embodiment of the present invention.

도 6에 도시한 바와 같이, 미래건강추이 예측 장치(300)에 의해 미래건강 추이를 예측하는 절차는 우선, 사용자로부터 개인건강기록과 함께 특정 타겟피처에 대한 미래건강추이 예측 쿼리를 입력받은 경우(S310), 상기 미래건강추이 예측 장치(300)는, 유사사례 클러스터의 대표정보(패턴정보 등)와 타겟별 최적 연관피처 집합에 관한 정보를 토대로 사용자의 예측쿼리와 매칭하는 것을 통해서 해당 유사사례 클러스터를 판별한다(S320). 즉, 미래건강추이 예측장치(300)는, 타겟피처에 대한 미래건강추이를 효율적으로 수행하기 위해, 클러스터링 과정에서 수행한 과정을 동일하게, 상기 입력한 개인건강기록을 시계열의 개인건강기록 데이터로 변환하고, 상기 변환한 개인건강기록 데이터를 정규화하여, 각각의 유사사례 클러스터를 판별한다. 상기 판별은, 개인건강기록 데이터로부터 타겟피처 및 복수의 연관피처에 대한 소정의 기간 동안에 대한 패턴을 분석하여, 미리 저장되어 있는 특정 타겟피처에 대한 유사사례 클러스터 중에서, 가장 유사한 특정 연관피처에 대한 유사사례 클러스터를 결정하고, 이후, 동일한 메커니즘으로 연관피처별 유사사례 클러스터를 결정하는 과정을 포함한다. 한편 타겟피처에 대한 연관피처는, 미래건강추이 예측모델 생성장치(200)에서 선별된 최적의 연관피처를 의미한다.As shown in FIG. 6, the procedure for predicting future health trends by the future health trend predicting apparatus 300 is as follows. First, when a user inputs a future health trend prediction query for a specific target feature together with a personal health record S310), the future health trend prediction apparatus 300 matches the prediction query of the user based on the representative information (pattern information and the like) of the similar case cluster and the information on the optimum association feature set per target, (S320). That is, in order to efficiently perform the future health transition for the target feature, the future health trend predicting device 300 may similarly classify the input personal health record as the time series personal health record data , Normalizes the converted individual health record data, and identifies each similar case cluster. The determination may comprise analyzing a pattern for a predetermined period of time for a target feature and a plurality of associated features from the individual health record data to determine a similarity measure for a similar feature cluster among similar case clusters for a particular target feature that is pre- Determining a case cluster, and then determining a similar case cluster per association feature with the same mechanism. On the other hand, the association feature for the target feature means the optimal relevance feature selected in the future health trend prediction model generation apparatus 200.

다음으로 미래건강추이 예측 장치(300)는, 상기 예측쿼리에 매칭된다고 판별한 유사사례 클러스터에 따라, 쿼리매칭 클러스터 인덱스를 이용하여 유사사례 예측모델 데이터베이스(600a)로부터 최적의 연관피처 클러스터에 대한 다중 클래스 예측모델을 검색하여 로드한다(S330).Next, the future health trend prediction apparatus 300 searches the similar case prediction model database 600a using the query matching cluster index according to the similar case cluster determined to match the prediction query, The multi-class prediction model is retrieved and loaded (S330).

상기 검색을 통해 로드되는 연관피처에 대한 유사사례 클러스터별 다중 클래스 예측모델은, 정확도 계산을 통해 선별된 최적의 클래스 예측모델이다. 예를 들어, 타겟피처가 혈당이고, 미래건강추이 예측모델 생성 장치(200)에 의해 선별된 혈당에 대한 최적의 연관피처가 수축기혈압, 이완기혈압, LDL 콜레스테롤이라면, 상기 미래건강추이 예측 장치(300)는, 사용자의 개인건강기록 데이터로부터 혈당에 대한 유사사례 클러스터를 판별하고, 상기 판별한 유사사례 클러스터의 연관피처에 대한 유사사례 클러스터에 대한 판별은, 수축기혈압, 이완기혈압, LDL 콜레스테롤에 대해서만 수행된다. 이후, 상기 판별한 수축기혈압, 이완기혈압, LDL 콜레스테롤에 대한 유사사례 클러스터를 학습하여 생성한 최적의 클래스 예측모델을 로드하게 된다. 즉, 클래스 예측모델에 대한 정확도를 계산하여 최적의 클래스 예측모델을 결정할 때 적어도 하나 이상의 클래스 예측모델을 결정할 수 있으며, 이에 따라 특정 타겟에 대한 적어도 하나 이상의 최적의 연관피처에 대한 클래스 예측모델이 선별될 수 있다. The multi-class prediction model for each similar case cluster for the associated features loaded through the search is an optimal class prediction model selected through accuracy calculation. For example, if the target feature is blood sugar and the optimal associated feature for blood glucose selected by the future health trend prediction model generating device 200 is systolic blood pressure, diastolic blood pressure, LDL cholesterol, the future health trend prediction device 300 ) Identifies a similar case cluster for blood glucose from the user's personal health record data, and the discrimination for the similar case cluster for the related feature of the identified similar case cluster is performed only for systolic blood pressure, diastolic blood pressure, and LDL cholesterol do. Thereafter, the optimal class prediction model generated by learning the similar systolic blood pressure, diastolic blood pressure, and LDL cholesterol similarity clusters is loaded. That is, at least one or more class prediction models can be determined when determining the optimal class prediction model by calculating the accuracy for the class prediction model, so that the class prediction model for at least one or more optimal association features for a particular target is selected .

다음으로 미래건강추이 예측 장치(300)는, 상기 검색하여 로드한 다중 클래스 예측모델을 이용하여 각 모델별 클래스 예측을 수행한다(S340). 상기 각 모델별 클래스 예측의 결과는, 클래스별 확률에 대한 예측결과이다.Next, the future health trend prediction apparatus 300 performs class prediction for each model using the retrieved and loaded multi-class prediction model (S340). The result of the class prediction for each model is a prediction result on the probability for each class.

이어서 미래건강추이 예측장치(200)는, 상기 예측한 각 모델별 클래스 예측결과를 앙상블하여, 최종적으로 해당 사용자의 타겟피처에 대한 클래스 예측확률을 추출하고 최종 클래스의 인덱스를 출력한다(S350).Next, the future health transition prediction apparatus 200 asserts the predicted class prediction results for each model, finally extracts a class prediction probability for the target feature of the user, and outputs an index of the final class at step S350.

다음으로 미래건강추이 예측장치(300)는, 상기 최종 클래스의 인덱스를 이용하여 최종 클래스의 미래값 예측모델을 로딩한다(S360). 이어서 유사사례 예측모델 데이터베이스(600a)로부터 미래값 예측모델을 추출하여 미래값 예측을 수행하고, 최종 클래스의 미래값을 출력하여 사용자에게 제공한다(S370).Next, the future health trend prediction apparatus 300 loads the final value prediction model of the final class using the index of the final class (S360). Subsequently, the future value prediction model is extracted from the similar case prediction model database 600a to perform future value prediction, and the future value of the final class is output to the user (S370).

여기서 미래건강추이 예측 장치(300)는, 각 모델별 예측결과 토대로 평균하거나 중간값을 계산함으로서, 최종적인 미래건강추이를 예측할 수 있다. 즉, 미래건강추이 예측 장치(300)는 클래스 예측모델을 통해 최적 연관피처의 클래스별 확률값을 예측한 복수개의 클래스 예측결과를 앙상블하여, 최종 예측 클래스를 결정하고, 상기 결정된 클래스에 대한 미래값 예측모델을 이용하여 해당 클래스에 대한 미래값을 예측함으로써, 사용자의 쿼리에 대한 최종 예측결과를 출력할 수 있다. 한편 상기 최종 예측 클래스는 적어도 하나 이상으로 결정될 수 있음은 상술한 바와 같다.Here, the future health trend predicting apparatus 300 can predict the final health trend by averaging or calculating the median based on the predicted results of each model. That is, the future health trend predicting apparatus 300 determines a final prediction class by ensuring a plurality of class prediction results that predict a probability value for each class of the optimal association feature through a class prediction model, By using the model to predict the future value for the class, the final prediction result for the user's query can be output. On the other hand, as described above, the final prediction class can be determined to be at least one or more.

한편 최적 연관피처가 복수개로 선별된 경우에도, 상기 선별된 복수개의 최적 연관피처에 대한 클래스 예측모델을 로드하고, 상기 로드한 클래스 예측모델별로 최종 예측 클래스를 결정하여, 상기 결정한 복수의 최종 예측 클래스에 대한 미래값 예측모델을 이용하여, 해당 클래스에 대한 미래값을 각각 예측한다. 이 후, 미래건강추이 예측 장치(300)는 상기 예측한 복수의 미래값을 사용자에게 제공하거나, 또는 상기 예측한 복수의 미래값을 평균하거나 중간값으로 계산하여 사용자에게 제공할 수 있다.In addition, even when a plurality of optimal association features are selected, a class prediction model for the selected plurality of optimal association features is loaded, a final prediction class is determined for each of the loaded class prediction models, and the determined plurality of final prediction classes And predicts future values for the class using the future value prediction model for the class. Thereafter, the future health trend prediction apparatus 300 may provide the predicted plurality of future values to the user, or may provide the user with the predicted plurality of future values as an average or an intermediate value.

이하에서는 본 발명의 또 다른 일 실시예에 따른 미래건강추이 예측과정에 대해서 설명하고자 한다.Hereinafter, a future health transition prediction process according to another embodiment of the present invention will be described.

도 7은 본 발명의 또 다른 일 실시예에 따른 미래건강추이 예측과정에 대한 절차를 나타낸 흐름도이다.7 is a flowchart illustrating a procedure for predicting future health trend according to another embodiment of the present invention.

도 7에 도시된 바와 같이, 사용자로부터 개인건강기록과 함께 특정 타겟피처에 대한 미래건강추이 예측쿼리를 입력받아, 상기 예측쿼리에 매칭되는 유사사례 클러스터의 해당 예측모델을 로딩하는 과정은 이전과 동일하게 수행된다. 물론 사용자의 예측쿼리에 대해서 반드시 클래스 예측모델을 매칭하고 로딩하여야 하는 것은 아니다. 사용자의 예측쿼리를 입력받아 클래스 예측모델이나 미래값 예측모델의 구분없이 바로 예측모델을 로딩할 수도 있다(S310 ~ S330).As shown in FIG. 7, the process of loading a future health trend prediction query for a specific target feature together with a personal health record from a user and loading a corresponding prediction model of a similar case cluster matched with the prediction query is the same as before Lt; / RTI > Of course, it is not necessary to match and load the class prediction model with respect to the user's prediction query. The predictive query of the user may be input and the predictive model may be loaded immediately without distinguishing the class predictive model or the future predictive model (S310 to S330).

일단 로딩한 예측모델을 필터링하여 예측할 모델의 개수를 줄이는 과정이 필요하다(S340a). 상기 필터링은 유사사례 클러스터링 과정에서 계산된 타겟피처와 연관피처의 분포, 클래스에 대한 분포, 각 연관피처들 간의 예측 확률값을 이용할 수 있다.A process of reducing the number of models to be predicted by filtering the loaded prediction models is required (S340a). The filtering may utilize the distribution of the target features and the associated features calculated in the similar case clustering process, the distribution of the classes, and the prediction probability values between the respective related features.

이어서 필터링된 예측모델을 이용하여 예측모델 별로 예측을 수행한다(S350a). 상기 필터링된 예측모델(최상의 확률값을 가진 예측모델 혹은 복수의 상위 몇 개에 해당하는 예측모델 등)은 복수가 될 수 있으므로 여기서 생성된 예측결과도 복수개가 된다.Subsequently, prediction is performed for each prediction model using the filtered prediction model (S350a). The filtered prediction model (a prediction model having the best probability value or a prediction model corresponding to a plurality of higher probability values) can be plural, and thus, a plurality of prediction results generated here are also obtained.

다음으로 상기 생성된 복수의 모델별 예측결과를 앙상블하여 예측결과를 출력하여 사용자에게 제공한다(S360a).Next, the generated prediction results for each model are ensemble, and the prediction results are output to the user (S360a).

이상에서 살펴본 바와 같이 미래건강추이 예측 장치(300)는, 클래스와 미래값에 대한 구분이 없이 복수의 유사사례 예측모델에 대해서 필터링을 통해 적어도 하나 이상의 예측모델을 추출하고, 상기 추출한 적어도 하나 이상의 예측모델에 대해서 추출된 예측결과를 앙상블하여 최종적인 미래값을 예측함으로써, 사용자의 쿼리에 대한 최종 예측결과를 출력할 수 있다.As described above, the future health trend prediction apparatus 300 extracts at least one prediction model through filtering for a plurality of similar case prediction models without class and future values, The final prediction result for the user query can be output by ensuring the extracted prediction results for the model and predicting the final future value.

이상에서 살펴본 바와 같이, 본 발명의 유사사례 클러스터 기반 예측모델을 통한 미래건강추이 예측 시스템 및 그 방법은, 복수의 개인건강기록 데이터를 토대로 계층적 클러스터링을 수행하여 개별 피처들 간의 연관관계에 따라 유사사례 클러스터를 생성하고, 상기 생성한 유사사례 클러스터를 학습한 예측모델을 통해 사용자의 미래건강추이를 예측함으로써, 시스템 구성의 복잡도를 현저하게 낮출 수 있고, 신속하고 신뢰성있는 예측결과를 사용자에게 제공할 수 있는 효과가 있다.As described above, the future health trend prediction system and the method using the similar case cluster-based prediction model of the present invention can perform hierarchical clustering based on a plurality of personal health record data, By generating a case cluster and predicting the future health trend of the user through the prediction model in which the generated similar case cluster is learned, it is possible to significantly reduce the complexity of the system configuration and provide a quick and reliable prediction result to the user There is an effect that can be.

여기에서, 상술한 본 발명에서는 바람직한 실시예를 참조하여 설명하였지만, 해당 기술분야의 숙련된 당업자는 하기의 특허청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경할 수 있음을 이해할 수 있을 것이다.It will be apparent to those skilled in the art that various modifications may be made to the invention without departing from the spirit and scope of the invention as defined in the following claims And changes may be made without departing from the spirit and scope of the invention.

10 : 미래건강추이 예측 시스템
100 : 유사사례 클러스터링 장치 200 : 미래건강추이 예측모델 생성 장치
300 : 미래건강추이 예측 장치 400 : 개인건강기록 데이터베이스
500a : 유사사례 클러스터 데이터베이스
500b : 클러스터 대표정보 데이터베이스
600a : 유사사례 예측모델 데이터베이스
600b : 타겟별 최적 연관피처 데이터베이스
310 : 클래스 예측모델 선별부 320 : 클래스 및 미래값 예측부
330 : 미래값 예측모델 선별부 311 : 유사사례 클러스터 판별부
312 : 클래스 예측모델 검색부 321 : 클래스 예측부
322 : 미래값 예측부 331 : 예측결과 앙상블부
332 : 미래값 예측모델 검색부
10: Future health trend forecasting system
100: similar case clustering device 200: future health trend prediction model generating device
300: Future health trend prediction device 400: Personal health history database
500a: Similar case cluster database
500b: cluster representative information database
600a: Similar case prediction model database
600b: Optimal association feature database per target
310: Class prediction model selection unit 320: Class and future value prediction unit
330: future value prediction model selection unit 311: similar case cluster determination unit
312: class prediction model searching unit 321: class prediction unit
322: future value prediction unit 331: prediction result ensemble unit
332: prediction value prediction model search unit

Claims (15)

사용자의 건강정보에 대한 예측쿼리로부터 복수의 클래스 예측모델을 선별하는 클래스 예측모델 선별부;
복수의 클래스 예측모델별 예측을 수행하여 복수의 클래스 예측결과를 출력하며, 적어도 하나 이상의 미래값 예측모델에 대한 예측을 수행하여 미래값 예측결과를 출력하는 클래스 및 미래값 예측부; 및
상기 복수의 클래스 예측결과에 대해서 앙상블을 수행하여 적어도 하나 이상의 미래값 예측모델을 선택하여 출력하는 미래값 예측모델 선별부를 포함하는 것을 특징으로 하는 유사사례 클러스터 기반 예측모델을 통한 미래건강추이 예측 시스템.
A class prediction model selection unit for selecting a plurality of class prediction models from a prediction query for health information of a user;
A class and a future value predicting unit for performing a plurality of class predictive model predictions to output a plurality of class predicted results, and to predict at least one or more future predictive models to output a future value predicted result; And
And a future value prediction model selector for performing an ensemble on the plurality of class prediction results to select and output at least one or more future value prediction models.
제 1 항에 있어서,
상기 클래스 예측모델 선별부는,
사용자의 건강정보에 대한 예측쿼리를 수신하여 유사사례 클러스터를 판별하는 유사사례 클러스터 판별부; 및
상기 판별한 유사사례 클러스터에 대한 클래스 예측모델을 검색하는 클래스 예측모델 검색부를 포함하며,
상기 유사사례 클러스터는, 복수의 시계열적인 건강데이터로부터 타겟피처와 상기 타겟피처의 연관피처를 계층적으로 클러스터링하여 생성되며, 소정의 시간구간에 대해 시계열적으로 변화되는 복수의 패턴을 그룹핑하여 생성된 개인건강기록 데이터와 상기 유사사례 클러스터에 포함된 소정의 시간구간 이후에 나타나는 타겟피처를 복수의 클래스로 분류한 것을 특징으로 하는 유사사례 클러스터 기반 예측모델을 통한 미래건강추이 예측 시스템.
The method according to claim 1,
Wherein the class prediction model selector comprises:
A similar case cluster discrimination unit for receiving the prediction query for the health information of the user and discriminating the similar case cluster; And
And a class prediction model retrieval unit for retrieving a class prediction model for the identified similar case cluster,
The similar case cluster is generated by hierarchically clustering a target feature and an association feature of the target feature from a plurality of time series health data, and generates a plurality of patterns that are generated by grouping a plurality of patterns that are changed in a time- Wherein the personal health record data and the target features appearing after a predetermined time period included in the similar case cluster are classified into a plurality of classes.
제 2 항에 있어서,
상기 클래스 예측모델은, 상기 연관피처에 대한 유사사례 클러스터에서 클래스의 확률에 대한 예측모델이며,
상기 미래값 예측모델은, 상기 연관피처에 대한 유사사례 클러스터의 각 클래스에 대하여 학습한 미래값 예측모델 혹은 상기 연관피처에 대한 유사사례 클러스터의 모든 클래스를 포함하여 학습한 미래값 예측모델인 것을 특징으로 하는 유사사례 클러스터 기반 예측모델을 통한 미래건강추이 예측 시스템.
3. The method of claim 2,
Wherein the class prediction model is a prediction model for the probability of a class in a similar case cluster for the association feature,
The future value prediction model is a future value prediction model that is learned by including a future value prediction model learned for each class of the similar case cluster for the association feature or all classes of the similar case cluster for the association feature Future health trend prediction system based on cluster - based prediction model with similar case.
제 1 항에 있어서,
상기 미래건강추이를 예측하는 것은,
시계열적인 건강데이터의 특정구간에 대한 변화패턴에서 이어지는 구간의 미래건강추이에 대한 변화를 예측하는 것을 특징으로 하는 유사사례 클러스터 기반 예측모델을 통한 미래건강추이 예측 시스템.
The method according to claim 1,
To predict the future health trend,
A future health trend prediction system based on a similar case cluster based prediction model, characterized by predicting a change in future health trends of a section following a change pattern for a specific section of time series health data.
제 2 항에 있어서,
상기 유사사례 클러스터 판별부는,
상기 유사사례 클러스터에 대한 대표정보와 상기 예측쿼리를 매칭하여 해당 유사사례 클러스터를 판단하는 것이며,
상기 대표정보는 하나의 유사사례 클러스터를 형성하고 하나의 유사사례 클러스터에 포함되는 복수의 시계열 개인건강데이터를 대표하는 변화패턴에 대한 정보인 것을 특징으로 하는 유사사례 클러스터 기반 예측모델을 통한 미래건강추이 예측 시스템.
3. The method of claim 2,
The similar case cluster determination unit may determine,
Wherein the similar case cluster is determined by matching the representative information on the similar case cluster with the prediction query,
Wherein the representative information is information on a change pattern representing a plurality of time series personal health data included in one similar case cluster forming one similar case cluster, and a future health trend based on a similar case cluster based prediction model Prediction system.
제 5 항에 있어서,
상기 유사사례 클러스터 판별부는,
상기 유사사례 클러스터의 클래스 예측모델 중에서 선별된 연관피처 클러스터의 건강특징과 상기 예측쿼리를 매칭하여 해당 유사사례 클러스터를 판단하는 것이며,
상기 선별된 연관피처는, 전체 연관피처 중에서 소정의 정확도에 대한 기준을 만족하는 연관피처 클래스 예측모델을 선별하는 과정에서 추출된 연관피처인 것을 특징으로 하는 유사사례 클러스터 기반 예측모델을 통한 미래건강추이 예측 시스템.
6. The method of claim 5,
The similar case cluster determination unit may determine,
A similar case cluster is determined by matching the health feature of the selected feature feature cluster and the prediction query among the class prediction models of the similar case cluster,
Wherein the selected associated feature is an associated feature extracted in the process of selecting an associated feature class prediction model that satisfies a criterion for a predetermined accuracy among all of the associated features. Prediction system.
제 6 항에 있어서,
상기 클래스 예측모델 검색부는,
상기 예측쿼리와 매칭되는 것으로 판별된 유사사례 클러스터에 대한 예측모델을 클래스 예측모델 데이터베이스로부터 검색하여 로딩하는 것을 포함하는 것을 특징으로 하는 유사사례 클러스터 기반 예측모델을 통한 미래건강추이 예측 시스템.
The method according to claim 6,
Wherein the class prediction model searching unit comprises:
And retrieving and loading a prediction model for a similar case cluster identified as being matched with the prediction query from a class prediction model database, and loading the similar model cluster based prediction model.
사용자의 건강정보에 대한 예측쿼리로부터 복수의 클래스 예측모델을 선별하는 클래스 예측모델 선별단계;
복수의 클래스 예측모델별 예측을 수행하여 복수의 클래스 예측결과를 출력하며, 적어도 하나 이상의 미래값 예측모델에 대한 예측을 수행하여 미래값 예측결과를 출력하는 클래스 및 미래값 예측단계; 및
상기 복수의 클래스 예측결과에 대해서 앙상블을 수행하여 적어도 하나 이상의 미래값 예측모델을 선택하여 출력하는 미래값 예측모델 선별단계를 포함하는 것을 특징으로 하는 유사사례 클러스터 기반 예측모델을 통한 미래건강추이 예측 방법.
A class prediction model selection step of selecting a plurality of class prediction models from a prediction query for health information of a user;
A class and a future value prediction step of performing a plurality of class prediction model-by-model prediction to output a plurality of class prediction results, performing a prediction for at least one or more future value prediction models, and outputting a future value prediction result; And
And a future value prediction model selection step of performing an ensemble on the plurality of class prediction results to select and output at least one or more future value prediction models. .
제 8 항에 있어서,
상기 클래스 예측모델 선별단계는,
사용자의 건강정보에 대한 예측쿼리를 수신하여 유사사례 클러스터를 판별하는 유사사례 클러스터 판별단계; 및
상기 판별한 유사사례 클러스터에 대한 클래스 예측모델을 검색하는 클래스 예측모델 검색단계를 포함하며,
상기 유사사례 클러스터는, 복수의 시계열적인 건강데이터로부터 타겟피처와 상기 타겟피처의 연관피처를 계층적으로 클러스터링하여 생성되며, 소정의 시간구간에 대해 시계열적으로 변화되는 복수의 패턴을 그룹핑하여 생성된 개인건강기록 데이터와 상기 유사사례 클러스터에 포함된 소정의 시간구간 이후에 나타나는 타겟피처를 복수의 클래스로 분류한 것을 특징으로 하는 유사사례 클러스터 기반 예측모델을 통한 미래건강추이 예측 방법.
9. The method of claim 8,
The class prediction model selection step includes:
A similar case cluster discrimination step of discriminating a similar case cluster by receiving a prediction query for health information of a user; And
And a class prediction model retrieval step of retrieving a class prediction model for the identified similar case cluster,
The similar case cluster is generated by hierarchically clustering a target feature and an association feature of the target feature from a plurality of time series health data, and generates a plurality of patterns that are generated by grouping a plurality of patterns that are changed in a time- Wherein the personal health record data and the target features appearing after a predetermined time period included in the similar case cluster are classified into a plurality of classes.
제 9 항에 있어서,
상기 클래스 예측모델은, 상기 연관피처에 대한 유사사례 클러스터에서 클래스의 확률에 대한 예측모델이며,
상기 미래값 예측모델은, 상기 연관피처에 대한 유사사례 클러스터의 각 클래스에 대하여 학습한 미래값 예측모델 혹은 상기 연관피처에 대한 유사사례 클러스터의 모든 클래스를 포함하여 학습한 미래값 예측모델인 것을 특징으로 하는 유사사례 클러스터 기반 예측모델을 통한 미래건강추이 예측 방법.
10. The method of claim 9,
Wherein the class prediction model is a prediction model for the probability of a class in a similar case cluster for the association feature,
The future value prediction model is a future value prediction model that is learned by including a future value prediction model learned for each class of the similar case cluster for the association feature or all classes of the similar case cluster for the association feature Future health trend prediction method using cluster - based prediction model with similar case.
제 8 항에 있어서,
상기 미래건강추이를 예측하는 것은,
시계열적인 건강데이터의 특정구간에 대한 변화패턴에서 이어지는 구간의 미래건강추이에 대한 변화를 예측하는 것을 특징으로 하는 유사사례 클러스터 기반 예측모델을 통한 미래건강추이 예측 방법.
9. The method of claim 8,
To predict the future health trend,
A method for predicting future health trends through a similar case cluster based prediction model, characterized by predicting a change in future health trends of a section following a change pattern for a particular section of time series health data.
제 9 항에 있어서,
상기 유사사례 클러스터 판별단계는,
상기 유사사례 클러스터에 대한 대표정보와 상기 예측쿼리를 매칭하여 해당 유사사례 클러스터를 판단하는 것이며,
상기 대표정보는 하나의 유사사례 클러스터를 형성하고 하나의 유사사례 클러스터에 포함되는 복수의 시계열 개인건강데이터를 대표하는 변화패턴에 대한 정보인 것을 특징으로 하는 유사사례 클러스터 기반 예측모델을 통한 미래건강추이 예측 방법.
10. The method of claim 9,
In the similar case cluster determination step,
Wherein the similar case cluster is determined by matching the representative information on the similar case cluster with the prediction query,
Wherein the representative information is information on a change pattern representing a plurality of time series personal health data included in one similar case cluster forming one similar case cluster, and a future health trend based on a similar case cluster based prediction model Prediction method.
제 12 항에 있어서,
상기 유사사례 클러스터 판별단계는,
상기 유사사례 클러스터의 클래스 예측모델 중에서 선별된 연관피처 클러스터의 건강특징과 상기 예측쿼리를 매칭하여 해당 유사사례 클러스터를 판단하는 것이며,
상기 선별된 연관피처는, 전체 연관피처 중에서 소정의 정확도에 대한 기준을 만족하는 연관피처 클래스 예측모듈을 선별하는 과정에서 추출된 연관피처인 것을 특징으로 하는 유사사례 클러스터 기반 예측모델을 통한 미래건강추이 예측 방법.
13. The method of claim 12,
In the similar case cluster determination step,
A similar case cluster is determined by matching the health feature of the selected feature feature cluster and the prediction query among the class prediction models of the similar case cluster,
Wherein the selected associated feature is an associated feature extracted in the process of selecting an associated feature class prediction module that satisfies a criterion for a predetermined accuracy among all the related features. Prediction method.
제 12 항에 있어서,
상기 클래스 예측모델 검색단계는,
상기 예측쿼리와 매칭되는 것으로 판별된 유사사례 클러스터에 대한 예측모델을 클래스 예측모델 데이터베이스로부터 검색하여 로딩하는 것을 포함하는 것을 특징으로 하는 유사사례 클러스터 기반 예측모델을 통한 미래건강추이 예측 방법.
13. The method of claim 12,
Wherein the class predictive model retrieving step comprises:
And retrieving and loading a prediction model for a similar case cluster identified as being matched with the prediction query from a class prediction model database and estimating future health trend based on the similar case cluster based prediction model.
사용자의 건강정보에 대한 예측쿼리에 매칭되는 연관피처 클러스터의 해당 예측모델이 소정의 정확도를 만족하는지 여부에 대해서 상기 예측모델을 필터링하는 예측모델 필터링 단계;
상기 필터링한 복수의 예측모델에 대해서 예측을 수행하고 예측모델별 예측결과를 출력하는 클래스 및 미래값 예측단계; 및
상기 복수의 예측결과에 대해서 앙상블을 수행하여 예측결과를 출력하는 단계를 포함하는 것을 특징으로 하는 유사사례 클러스터 기반 예측모델을 통한 미래건강추이 예측 방법.
A predictive model filtering step of filtering the predictive model as to whether or not a corresponding predictive model of an associated feature cluster matching a predictive query for health information of a user satisfies a predetermined accuracy;
A class and a future value prediction step of performing a prediction on the plurality of filtered prediction models and outputting a prediction result of each prediction model; And
And outputting a prediction result by performing an ensemble on the plurality of prediction results. A method for predicting future health trends through a similar case cluster based prediction model.
KR1020160160721A 2016-11-29 2016-11-29 System and method for predicting future health trends through prediction models based on similar case clustering KR20180061553A (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020160160721A KR20180061553A (en) 2016-11-29 2016-11-29 System and method for predicting future health trends through prediction models based on similar case clustering
US15/812,540 US20180150609A1 (en) 2016-11-29 2017-11-14 Server and method for predicting future health trends through similar case cluster based prediction models

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160160721A KR20180061553A (en) 2016-11-29 2016-11-29 System and method for predicting future health trends through prediction models based on similar case clustering

Publications (1)

Publication Number Publication Date
KR20180061553A true KR20180061553A (en) 2018-06-08

Family

ID=62600343

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160160721A KR20180061553A (en) 2016-11-29 2016-11-29 System and method for predicting future health trends through prediction models based on similar case clustering

Country Status (1)

Country Link
KR (1) KR20180061553A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200117588A (en) 2019-04-05 2020-10-14 한봉훈 Apparatus for servicing decision advice based on artificial intelligence
KR20210073352A (en) * 2019-12-10 2021-06-18 한국전자통신연구원 Device for ensembling data received from prediction devices and operating method thereof

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200117588A (en) 2019-04-05 2020-10-14 한봉훈 Apparatus for servicing decision advice based on artificial intelligence
KR20210073352A (en) * 2019-12-10 2021-06-18 한국전자통신연구원 Device for ensembling data received from prediction devices and operating method thereof

Similar Documents

Publication Publication Date Title
US20180150609A1 (en) Server and method for predicting future health trends through similar case cluster based prediction models
Gonsalves et al. Prediction of coronary heart disease using machine learning: an experimental analysis
Sk et al. Coronary Heart Disease Prediction and Classification using Hybrid Machine Learning Algorithms
KR101903522B1 (en) The method of search for similar case of multi-dimensional health data and the apparatus of thereof
Khennou et al. A machine learning approach: Using predictive analytics to identify and analyze high risks patients with heart disease
Alalawi et al. Detection of cardiovascular disease using machine learning classification models
JP4471736B2 (en) Similar case search system and program
US20200058408A1 (en) Systems, methods, and apparatus for linking family electronic medical records and prediction of medical conditions and health management
CN113539460A (en) Intelligent diagnosis guiding method and device for remote medical platform
KR20180061552A (en) Apparatus and method for generating future health trends prediction models based on similar case clusters
KR20180061551A (en) Method and apparatus of similar case clustering for future health trends prediction
Reddy et al. Prediction of heart disease using decision tree approach
CN114724710A (en) Emergency scheme recommendation method and device for emergency events and storage medium
Anderies et al. Prediction of heart disease UCI dataset using machine learning algorithms
KR20180061553A (en) System and method for predicting future health trends through prediction models based on similar case clustering
Pati et al. An ensemble deep learning approach for Chronic kidney disease (CKD) prediction
Bah Knn algorithm used for heart attack detection
Sudharson et al. Performance analysis of enhanced adaboost framework in multifacet medical dataset
Ahammad Risk factor identification for stroke prognosis using machine-learning algorithms
Raju et al. Chronic kidney disease prediction using ensemble machine learning
CN114496231A (en) Constitution identification method, apparatus, equipment and storage medium based on knowledge graph
Babu et al. Heart Disease Prediction System Using Random Forest Technique G
Mandava MDensNet201-IDRSRNet: Efficient cardiovascular disease prediction system using hybrid deep learning
CN113688854A (en) Data processing method and device and computing equipment
Gold et al. Heart failure prediction framework using random forest and J48 with Adaboost algorithms