KR20210084231A

KR20210084231A - 질환별 발생예측값 분포를 활용한 보험 설계 상담 서비스 시스템

Info

Publication number: KR20210084231A
Application number: KR1020200137095A
Authority: KR
Inventors: 김재원; 이찬중; 나유리; 심지현; 송승재
Original assignee: 주식회사 라이프시맨틱스
Priority date: 2019-12-27
Filing date: 2020-10-21
Publication date: 2021-07-07

Abstract

표본 데이터로부터 고객의 유사 그룹을 샘플링하여 각 질환의 질병발생 위험도 분포를 생성하고, 각 질환별 위험도 분포에서 고객의 위험도 위치를 분석하여 고객의 각 질환별 위험도 수준을 예측하는, 질환별 발생예측값 분포를 활용한 보험 설계 상담 서비스 시스템에 관한 것으로서, 다수의 사람들의 의료 데이터로 구성되는 표본 데이터를 수집하되, 각 사람의 의료 데이터를 하나의 레코드로 구성하는, 데이터 수집부; 고객의 의료 데이터를 수집하는 고객자료 수집부; 상기 표본 데이터에서 고객과 유사한 레코드를 샘플링하여 유사 레코드 그룹(이하 유사군)을 구성하는 샘플 추출부; 고객 또는 레코드의 의료 데이터를 이용하여, 해당 고객 또는 해당 레코드의 각 질환의 질병발생 위험도(이하 위험도)를 예측하는 위험도 예측부; 상기 위험도 예측부를 통해 상기 유사군의 레코드들의 위험도를 예측하게 하고, 예측된 위험도로 위험도 분포를 생성하는 위험분포 생성부; 및, 상기 위험도 예측부를 통해 상기 고객의 위험도를 예측하게 하고, 상기 위험도 분포 내에서 고객의 위험도 위치를 찾고, 해당 위치를 고객의 위험도 수준으로 추정하는 위험수준 추정부를 포함하는 구성을 마련한다.
상기와 같은 시스템에 의하면, 고객과 유사한 그룹의 위험도 분포 내에서의 고객의 위치를 분석함으로써, 고객의 적절한 건강수준을 보다 정확하게 추정할 수 있고, 이를 통해, 개인의 의료비를 감소시킬 수 있을 뿐만 아니라, 보험사 입장에서도 지출을 줄일 수 있다.

Description

질환별 발생예측값 분포를 활용한 보험 설계 상담 서비스 시스템 { An insurance planning counseling system using the distribution of predicted values for each disease }

본 발명은 표본 데이터로부터 고객의 유사 그룹을 샘플링하여 각 질환의 질병발생 위험도 분포를 생성하고, 각 질환별 위험도 분포에서 고객의 위험도 위치를 분석하여 고객의 각 질환별 위험도 수준을 추정하는, 질환별 발생예측값 분포를 활용한 보험 설계 상담 서비스 시스템에 관한 것이다.

일반적으로, 보험은 우발적 사고나 병 따위의 장차 발생할 수 있는 일에 대비하여 미리 일정한 돈을 내게 하고, 약정된 조건이 성립될 경우 그에 맞는 일정 금액을 지급하는 제도이다. 대표적인 보험으로는 건강보험이 있다. 세계보건기구(World Health Organization)에 따르면, 건강이란 신체적, 정신적, 사회적으로 완전히 안녕한 상태에 놓여있고, 질병이 없거나 허약하지 않은 상태를 의미한다. 따라서 건강의 기본 조건인 질병이 없는 상태를 유지하기 위해, 우리는 향후 발생할 질병의 위험도를 예측하고, 미리 예방할 필요가 있다.

그런 의미에서 민간 의료보험은 같은 종류의 질병을 걸릴 위험성이 있는 사람이 미리 금전을 각출하여 공통준비재산을 형성하고, 질병에 걸린 사람이 해당 재산으로부터 급여를 받는 자본주의 경제제도이다. 즉, 가입자는 의료비 부담을 절감하기 위해, 암보험, 의료실비보험 등의 보험에 가입하여 질병에 대비하고 있다. 보험사들은 고객의 질병이 발생할수록 지급하는 보험금이 늘어나게 된다.

한편, 개인마다 건강상태, 체질, 생활 습관 등 다양한 요인에 따라 걸릴 수 있는 질병의 종류와 발병 확률이 다르다. 그럼에도 불구하고, 단순히 성별, 나이, 직업에만 맞춰 건강보험에 가입하게 되므로, 비교적 걸릴 확률이 낮은 질병에 대하여 고액의 보험료를 납부하게 되거나, 꼭 필요한 질병에 대하여 대비하지 못하는 사례가 발생할 수 있다.

반대로, 보험회사의 입장에서, 가입시 예상치보다 질병이 많이 발생되는 경우, 사차손(mortality loss) 등 손해가 발생할 수 있다. 따라서, 고객의 니즈를 최대한으로 충족시키는 것과 동시에 사차손이 발생할 가능성(또는 사차리스크)을 줄이기 위한 다양한 시도들이 보험업계 내에서 이루어지고 있다.

이를 위해, 각종 의료 시설에서 기초적인 진료를 받은 이후, 이러한 의료 시설의 진료 결과 및 피보험자의 현재 상태에 따라 예상 관련 질병의 보험에 가입시키려는 기술이 제시되고 있다[특허문헌 1,2]. 상기 선행기술은 피보험자 및 보험사 양측에 초기진료 단계에 의한 정확한 보험료 산출 및 정확도를 제공하려는 것이다.

그러나 상기 선행기술들은 단지 현재 피보험자의 건강 상태만을 고려하여 보험 상품을 선택하나, 해당 피보험자의 상태에 따라 소요되는 의료 비용을 고려하지 않고 있는 문제점이 있다.

즉, 본인의 건강수준이 공통준비재산을 형성하고 있는 일반 사람들 중에서 어느 정도 위치에 있는지 파악하여, 민간 의료보험 종류 및 가입여부를 설계하는 것은 매우 중요하다고 할 수 있다.

한국공개특허공보 제10-2003-0023667호(2003.03.19.공개) 한국공개특허공보 제10-2015-0049993호(2015.05.08.공개)

본 발명의 목적은 상술한 바와 같은 문제점을 해결하기 위한 것으로, 표본 데이터로부터 고객의 유사 그룹을 샘플링하여 각 질환의 질병발생 위험도 분포를 생성하고, 각 질환별 위험도 분포에서 고객의 위험도 위치를 분석하여 고객의 각 질환별 위험도 수준을 예측하는, 질환별 발생예측값 분포를 활용한 보험 설계 상담 서비스 시스템을 제공하는 것이다.

특히, 본 발명의 목적은 샘플링된 유사 그룹의 검진 결과를 질환예측 모델에 적용하여, 해당 그룹의 각 질환별 발생 위험도를 추출하고, 추출된 질병발생 위험도로 각 질환별 위험도 분포를 생성하는, 질환별 발생예측값 분포를 활용한 보험 설계 상담 서비스 시스템을 제공하는 것이다.

상기 목적을 달성하기 위해 본 발명은 질환별 발생예측값 분포를 활용한 보험 설계 상담 서비스 시스템에 관한 것으로서, 다수의 사람들의 의료 데이터로 구성되는 표본 데이터를 수집하되, 각 사람의 의료 데이터를 하나의 레코드로 구성하는, 데이터 수집부; 고객의 의료 데이터를 수집하는 고객자료 수집부; 상기 표본 데이터에서 고객과 유사한 레코드를 샘플링하여 유사 레코드 그룹(이하 유사군)을 구성하는 샘플 추출부; 고객 또는 레코드의 의료 데이터를 이용하여, 해당 고객 또는 해당 레코드의 각 질환의 질병발생 위험도(이하 위험도)를 예측하는 위험도 예측부; 상기 위험도 예측부를 통해 상기 유사군의 레코드들의 위험도를 예측하게 하고, 예측된 위험도로 위험도 분포를 생성하는 위험분포 생성부; 및, 상기 위험도 예측부를 통해 상기 고객의 위험도를 예측하게 하고, 상기 위험도 분포 내에서 고객의 위험도 위치를 찾고, 해당 위치를 고객의 위험도 수준으로 추정하는 위험수준 추정부를 포함하는 것을 특징으로 한다.

또한, 본 발명은 질환별 발생예측값 분포를 활용한 보험 설계 상담 서비스 시스템에 관한 것으로서, 다수의 사람들의 의료 데이터로 구성되는 표본 데이터를 수집하되, 각 사람의 의료 데이터를 하나의 레코드로 구성하는, 데이터 수집부; 고객의 의료 데이터를 수집하는 고객자료 수집부; 상기 표본 데이터에서 고객과 유사한 레코드를 샘플링하여 유사 레코드 그룹(이하 유사군)을 구성하는 샘플 추출부; 고객 또는 레코드의 의료 데이터를 이용하여, 해당 고객 또는 해당 레코드의 각 질환의 질병발생 위험도(이하 위험도)를 예측하는 위험도 예측부; 상기 위험도 예측부를 통해 상기 유사군의 레코드들의 위험도를 예측하게 하고, 예측된 위험도로 위험도 분위를 구분하고, 각 위험도 분위의 범위를 설정하는 위험분포 생성부; 및, 상기 위험도 예측부를 통해 상기 고객의 위험도를 예측하게 하고, 상기 위험도 분위 내에서 고객의 위험도가 속하는 위험도 분위를 찾고, 해당 위험도 분위를 고객의 위험도 수준으로 추정하는 위험수준 추정부를 포함하는 것을 특징으로 한다.

또, 본 발명은 질환별 발생예측값 분포를 활용한 보험 설계 상담 서비스 시스템에 있어서, 상기 샘플 추출부는 상기 표본 데이터에서, 유사군 추출 변수의 값이 동일한 범위 또는 범주를 가지는 레코드들을 랜덤하게 샘플링하되, 사전에 정해진 크기의 레코드들을 샘플링하는 것을 특징으로 한다.

또, 본 발명은 질환별 발생예측값 분포를 활용한 보험 설계 상담 서비스 시스템에 있어서, 상기 추출 변수는 성별과 연령인 것을 특징으로 한다.

또, 본 발명은 질환별 발생예측값 분포를 활용한 보험 설계 상담 서비스 시스템에 있어서, 상기 위험도 예측부는 질환예측 모델에 상기 고객 또는 상기 레코드의 의료 데이터를 적용하여 출력되는 값을 위험도로 예측하되, 상기 질환예측 모델은 신경망으로 구성되어 학습 데이터에 의해 학습되는 것을 특징으로 한다.

또, 본 발명은 질환별 발생예측값 분포를 활용한 보험 설계 상담 서비스 시스템에 있어서, 상기 위험수준 추정부는 상기 위험도 분포 내에서 상기 고객의 위험도 위치를 찾고, 해당 위치를 누적 분포의 비율을 찾고, 해당 누적 분포의 비율을 상기 고객의 위험도 수준으로 추정하는 것을 특징으로 한다.

또, 본 발명은 질환별 발생예측값 분포를 활용한 보험 설계 상담 서비스 시스템에 있어서, 상기 위험분포 생성부는 각 위험도 분위에 라벨을 설정하고, 상기 위험수준 추정부는 상기 고객의 위험도가 속하는 위험도 분위의 라벨로, 상기 고객의 위험도 수준을 추정하는 것을 특징으로 한다.

상술한 바와 같이, 본 발명에 따른 질환별 발생예측값 분포를 활용한 보험 설계 상담 서비스 시스템에 의하면, 현재 피보험자의 질환에 대한 질병발생 위험도 수준을 추정하고 그로부터 예상되는 미래 건강수준을 제공함으로써, 향후 사용자에게 발생할 수 있는 의료 비용을 제공할 수 있고, 이로 인해, 사용자에게 보험 가입의 동기를 상당히 부여할 수 있는 효과가 얻어진다.

또한, 본 발명에 따른 질환별 발생예측값 분포를 활용한 보험 설계 상담 서비스 시스템에 의하면, 고객과 유사한 그룹의 위험도 분포 내에서의 고객의 위치를 분석함으로써, 고객의 적절한 건강수준을 보다 정확하게 추정할 수 있고, 이를 통해, 개인의 의료비를 감소시킬 수 있을 뿐만 아니라, 보험사 입장에서도 지출을 줄일 수 있는 효과가 얻어진다.

도 1은 본 발명을 실시하기 위한 전체 시스템에 대한 구성도.
도 2는 본 발명의 일실시예에 따른 질환별 발생예측값 분포를 활용한 보험 설계 상담 서비스 시스템의 구성에 대한 블록도.
도 3은 본 발명의 일실시예에 따른 질환예측모델의 입력 변수를 나타낸 표.
도 4는 본 발명의 일실시예에 따른 위험도 분포의 예시도.
도 5는 본 발명의 일실시예에 따른 위험도 분위의 예시도.
도 6은 본 발명의 일실시예에 따른 뇌혈관질환과 골다공증의 위험도 분포를 나타낸 예시도.

이하, 본 발명의 실시를 위한 구체적인 내용을 도면에 따라서 설명한다.

또한, 본 발명을 설명하는데 있어서 동일 부분은 동일 부호를 붙이고, 그 반복 설명은 생략한다.

먼저, 본 발명을 실시하기 위한 전체 시스템의 구성을 도 1을 참조하여 설명한다.

도 1a 또는 도 1b에서 보는 바와 같이, 본 발명에 따른 질환별 발생예측값 분포를 활용한 보험 설계 상담 서비스 시스템은 네트워크 상의 서버 시스템(또는 서버-클라이언트 시스템) 또는 컴퓨터 단말 상의 프로그램 시스템으로 실시될 수 있다.

도 1a와 같이, 본 발명의 실시를 위한 전체 시스템의 일례는 클라이언트 단말(10)과 서버(30)로 구성되고 서로 네트워크(80)로 연결된다. 또, 필요한 데이터를 저장하기 위한 데이터베이스(40)를 더 구비할 수 있다.

클라이언트 단말(10)은 고객 또는 보험 상담사 등 사용자가 이용하는 PC, 노트북, 넷북, PDA, 태블릿PC, 스마트폰, 모바일 등의 통상의 컴퓨팅 단말기이다. 사용자는 클라이언트 단말(10)을 이용하여 고객의 상담 데이터를 서버(30)로 전송하거나, 결과 데이터 등을 서버(30)로부터 수신한다. 또한, 클라이언트 단말(10)에는 어플리케이션(또는 모바일 어플리케이션, 모바일 앱, 어플 등)이 설치될 수 있다.

서버(30)는 통상의 서버로서 네트워크(20)에 연결되어 보험 설계 상담을 위한 서비스를 제공한다. 한편, 서버(30)는 상기 각 서비스들을 인터넷 상의 웹페이지로 제공하는 웹서버 또는 웹어플리케이션 서버 등으로 구현될 수 있다. 또는 서버(30)는 모바일 어플리케이션과 연동되어 서비스를 제공하는 통상의 서버일 수 있다.

또한, 클라이언트 단말(10)과 서버(30)는 서버-클라이언트 시스템으로 구현될 수 있다. 즉, 전체 시스템의 기능들을 클라이언트의 성능이나, 서버와의 통신량 등에 따라 분담될 수 있다. 또한, 서버(30)는 클라우드 시스템으로 구현될 수 있다.

또한, 데이터베이스(40)는 환자들의 인구사회학적 정보와 건강검진 결과 등 표본 데이터를 저장하는 표본자료DB(41), 고객의 인구사회학적 정보 및 건강검진결과 등을 저장하는 고객의료정보DB(42), 고객의 각 질환별 위험도 수준을 저장하는 예측정보DB(43) 등을 포함한다. 그러나 상기 데이터베이스(40)의 구성은 바람직한 일실시예일 뿐이며, 구체적인 장치를 개발하는데 있어서, 접근 및 검색의 용이성 및 효율성 등을 감안하여 데이터베이스 구축이론에 의하여 다른 구조로 구성될 수 있다.

도 1b와 같이, 본 발명의 실시를 위한 전체 시스템의 다른 예는 컴퓨터 단말(10)에 설치되는 프로그램 형태의 상담 시스템(30)으로 구성된다. 즉, 상담 시스템(30)의 각 기능들은 컴퓨터 프로그램으로 구현되어 컴퓨터 단말(10)에 설치되어, 사용자에 의해 보험 상담에 필요한 데이터 등을 컴퓨터 단말(10)의 입력장치를 통해 입력받아 등록하거나, 보험 상담의 추정 결과 등을 컴퓨터 단말(10)의 출력장치를 통해 출력한다. 한편, 상담 시스템(30)에서 필요한 데이터들은 컴퓨터 단말(10)의 하드디스크 등 저장공간에 저장되어 이용된다.

다음으로, 본 발명의 일실시예에 따른 질환별 발생예측값 분포를 활용한 보험 설계 상담 서비스 시스템(300)을 도 2를 참조하여 설명한다.

도 2에서 보는 바와 같이, 본 발명의 일실시예에 따른 서비스 시스템(300)은 과거 환자들의 인구사회학적 정보, 건강검진 정보 등을 표본 데이터로 수집하는 표본자료 수집부(31), 고객의 인구사회학적 정보, 건강검진결과 등 의료 데이터를 수집하는 고객자료 수집부(32), 고객과 유사한 레코드 그룹을 추출하는 샘플 추출부(33), 의료 레코드에 대한 위험도를 예측하는 위험도 예측부(34), 유사 그룹의 위험도 분포를 생성하는 위험분포 생성부(35), 및, 고객의 위험도 수준을 추정하는 위험수준 추정부(36)로 구성된다.

먼저, 표본자료 수집부(31)는 사람들의 인구사회학적 정보, 건강검진 정보, 질병이환 데이터 등 의료 데이터를 표본 데이터로 수집한다.

한편, 표본 데이터는 인구사회학적 정보에 의해 분류 또는 식별되어 수집된다. 즉, 환자의 이름, 주민번호 등 환자를 식별하는 개인 정보는 제외되고, 해당 환자의 인구사회학적 정보, 건강검진 정보, 질병이환 정보 등 의료 데이터가 수집된다. 한 환자에 대한 의료 데이터를 레코드 또는 레코드 데이터라 부르기로 한다. 즉, 표본 데이터는 다수의 레코드(또는 레코드 데이터)로 구성되고, 각 레코드(또는 레코드 데이터)는 하나의 환자 또는 하나의 사람에 대한 인구사회학적 정보, 건강검진 데이터 등 의료 데이터로 구성된다.

특히, 인구사회학적 정보는 환자의 건강 상태를 나타내는 데이터로서, 나이, 성별, 신장, 체중, 장애 유무, 생활 습관 등으로 구성된다. 또한, 건강검진 정보는 환자의 건강검진 데이터로서, 혈압, 콜레스테롤 수치, 혈색소, 요단백 수치 등 건강검진을 수행할 때 측정(검진)되는 데이터이다. 또한, 질병이환 데이터는 해당 환자의 발병된 질환에 대한 데이터로서, 해당 환자의 질환 발병 여부 및 그 이후 상태 등을 나타낸다.

바람직하게는, 표본 데이터는 국민건강보험공단에서 제공하는 표본 코호트 DB를 이용한다. 표본 코호트 DB는 진료정보, 질병의 이환, 건강검진결과를 대표하는 코호트 데이터이다. 표본코호트DB를 구축하고 있는 전체 데이터는 국민 100만명의 데이터를 의미한다. 해당 100만명의 대상자는 전국민의 성별 및 연령과 거주지역 분포를 기준으로 층화 추출되었으므로, 본 데이터를 통해 도출되는 결과값은 전국민을 대표한다고 할 수 있다.

다음으로, 고객자료 수집부(32)는 고객의 인구사회학적 정보, 건강검진 정보, 질병이환 데이터 등 의료 데이터를 수집한다.

앞서 설명한 바와 같이, 고객의 인구사회학적 정보는 나이, 성별, 신장, 체중, 장애 유무, 생활 습관, 소득 분위, 과거 병력, 가족 병력 등으로 구성된다. 또한, 건강검진 정보는 고객의 건강검진 데이터로서, 건강검진을 수행할 때 측정(검진)되는 데이터이다. 또한, 질병이환 데이터는 고객의 질환 발병 여부 및 그 이후 상태 등을 나타낸다.

또한, 고객자료 수집부(32)는 문진을 통해 의료 데이터를 수집하거나, 의료데이터 기관을 통해 의료 데이터를 참조하여 수집한다.

즉, 고객의 인구사회학적 정보 전체 또는 일부는 문진에 의해 취득될 수 있다. 일례로서, 보험 상담사의 클라이언트 단말(10)을 통해, 인구사회학적 정보를 문진하는 인터페이스를 제공하면, 고객이 각 문진에 대해 직접 응답하게 하여, 고객의 정보를 입력받는다.

바람직하게는, 문진 데이터는 성별, 연령, 거주지역, 보험가입유형, 소득분위, 장애유무, 검진기관종류, 신장, 체중, 본인(뇌졸중, 심장병, 고혈압, 당뇨, 이상지질혈증, 폐결핵, 암포함 기타질환)과거력, 가족(뇌졸증, 심장병, 고혈압, 당뇨, 간장질환, 암)과거력, 흡연상태, 흡연기간, 하루흡연량, 음주습관, 1회음주량, 1주운동량 등을 포함한다.

또한, 고객의 건강검진 데이터는 고객의 인증 과정을 수행한 후 가장 최근의 건강검진 데이터를 건강보험공단, 의료데이터 기관(건강인 사이트) 등으로부터 가져온다. 보험 상담사의 클라이언트 단말(10)에서 해당 사이트에 접근하여, 고객의 인증정보를 입력하고 직접 수집할 수 있다.

고객의 건강검진 데이터는 수축기 혈압, 이완기 혈압, 식전 혈당, 총콜레스테롤, 고밀도 콜레스테롤, 저밀도 콜레스테롤, 중성지방, 혈색소, 요단백, 혈청크레아티닌, 혈청지오티, 혈청지피티, 감마지티피 등 건강 검진 시 측정되는 데이터들로 구성된다.

다음으로, 샘플 추출부(33)는 표본 데이터에서 고객과 유사한 레코드를 일정한 크기로 샘플링하여 유사 레코드 그룹(또는 유사군)을 구성한다.

유사 레코드 그룹(또는 유사군)은 유사군 추출 변수에 의해, 표준 데이터에서 사전에 정해진 크기로 랜덤하게 샘플링된 레코드 집합을 말한다. 즉, 유사군은 표준 데이터의 부분 집합이다. 이때, 고객의 추출 변수(유사군 추출 변수)의 값이 동일한 범위 또는 범주를 가지는 레코드들이 추출된다.

또한, 유사군 추출 변수는 사전에 정해진 다수 개의 변수들로 구성된다. 바람직하게는, 유사군 추출 변수는 성별과 연령으로 구성된다. 즉, 고객의 성별 범주와 연령의 범위와 동일한 성별 범주 및 연령 범위를 가지는 레코드들을 추출하여, 유사군으로 구성된다.

추출 변수는 성별, 연령 외에도 인종이나 거주 국가 등도 포함될 수 있다. 즉, 보험 설계시 중요하게 고려하는 변수들과 연관된 특성을 추출 변수로 설정할 수 있다. 예를 들어, 암 발병 이력이 있는 환자에게만 판매되는 보험의 설계를 위하여, 고객의 위험도 수준을 평가하는 경우가 있다. 이 경우, 암 발병 이력의 추출 변수를 추가하여, 암 발병 이력을 가진 레코드들만 샘플링하여, 유사 군을 생성할 수 있다.

또한, 추출 변수에 의한 동일 여부는, 변수의 값들을 범위나 범주로 구분하고, 해당 범위나 범주에 포함되면 동일한 것으로 판단한다. 예를 들어, 나이는 만 19세부터 85세 이상까지, 5세 단위의 범위로 구분할 수 있고, 성별은 남자, 여자 등 2개의 범주로 구분될 수 있다.

또한, 범주가 다수 개인 경우, 여러 개의 범주를 묶어 범위로 설정할 수 있다. 이하에서 설명의 편의를 위하여, 범주 또는 범위를 모두 범위로 지칭하기로 한다.

또한, 유사 레코드 그룹 또는 유사군의 크기는 사전에 정해진다. 유사군의 크기는 위험도 분포를 생성할 수 있을 정도의 크기로 설정된다. 바람직하게는, 유사군의 크기를 200개로 설정한다. 즉, 유사군은 200개의 레코드들로 구성된다.

한편, 바람직하게는, 샘플 추출부(33)는 추출 변수의 모든 범위의 조합에 대하여, 사전에 유사군을 추출하여 구성할 수 있다. 그리고, 필요한 경우 해당 유사군을 선택하여 이용할 수 있다.

다음으로, 위험도 예측부(34)는 고객 또는 레코드의 의료 데이터를 이용하여 해당 고객 또는 해당 레코드의 각 질환의 질병발생 위험도(또는 질환의 위험도)를 산출(예측)한다.

바람직하게는, 위험도 예측부(34)는 질환예측모델을 사용하여 고객의 질환을 예측한다. 질환예측모델은 사전에 정해진 입력 변수의 입력값을 입력받으면, 사전에 정해진 각 질환 변수의 발병 확률을 출력한다.

특히, 질환예측모델은 신경망 등으로 구성되어, 학습 데이터에 의해 내부 변수들이 학습된다. 그리고 학습이 된 질환예측모델은 학습한 변수를 입력받으면, 각 질환의 발병 확률을 출력시킨다.

질환예측모델은 각 질환 별 국내 환자를 대표할 수 있게 선정된 수천명에서부터 수만명까지의 건강검진결과, 인구사회학적요인, 생활습관 등 의료 데이터 수백만 건을 기계학습(Machine Learning)한 인공지능 신경망의 결과물이다. 해당 산출결과는 사용자의 꾸준한 건강행태 개선 등으로 얼마든지 달라질 수 있다.

도 3은 질환예측모델의 입력 변수를 나타내고 있다. 도 3의 예에서, 모두 총 44개의 입력 변수로 구성된다.

또한, 바람직하게는, 출력 변수는 12개의 질환(또는 12대 질환)에 대한 발병 확률로 구성된다. 특히, 질환은 유방암, 5대암, 암통합, 뇌혈관질환, 골다공증, 백내장, 고혈압, 비만, 당뇨, COPD(만성폐쇄성폐질환), 관절질환, 이상지혈증 등이다.

또한, 위험도 예측부(34)는 해당 질환의 출력값이 사전에 정해진 기준 확률 이상이 되면 해당 질환을 발병 가능 질환으로 선정한다.

다음으로, 위험분포 생성부(35)는 유사군의 레코드들의 위험도를 예측하고, 예측된 레코드들의 위험도로 위험도 분포를 생성하거나 분위 범위를 설정한다. 이때, 각 질환별로 위험도 분포 또는 분위 범위를 생성한다.

먼저, 위험분포 생성부(35)는 위험도 예측부(34)를 통해, 고객의 유사군에 속하는 모든 레코드의 각 질환의 위험도를 산출하도록 하여, 유사군 레코드들의 각 질환의 위험도를 획득한다.

그리고 위험분포 생성부(35)는 획득된 각 질환별 위험도들의 값들의 위험도 분포를 생성한다. 바람직하게는, 분포는 도수 분포로 나타낸다.

위험도 분포의 예가 도 4에 도시되고 있다. 도 4와 같이, 위험도 분포는 위험도 값(계급)을 나타내는 x축과, 해당 위험도 값(계급)의 도수(개수)(또는 도수의 비율)을 나타내는 y축으로 구성된다.

즉, 도 4는 100분위수를 표현하는 그래프는 성별 및 연령별 각 200명의 질환예측결과 50%를 중심으로 두개의 정규분포곡선 형태로 이루어져 있으며, 사용자의 예측결과가 왼쪽 곡선에 위치할 경우 상대적으로 질병발생 위험이 낮다는 것을 의미하며, 오른쪽 곡선에 위치할 경우 높다는 것을 의미한다.

특히, 도 4는 본인(사용자 및 보험 잠재고객)이 속해 있는 동일 성별 및 연령 200명의 평균값과 자신의 건강상태를 비교해 볼 수 있다는 장점이 있다. 따라서 동일 성별 및 연령 200명의 평균 수치에는 본인보다 건강상태가 좋은 사람과 좋지못한 사람이 모두 포함되어 있으므로, 만약 본인의 건강상태가 전국민의 평균(보통)수준에 가깝다면, 해당 수치와 비슷한 양상을 보일 것이다.

또는, 위험분포 생성부(35)는 획득된 각 질환별 위험도들의 분위를 나누고 각 분위의 범위를 산출한다. 즉, 각 질환별 위험도를 크기 순으로 나열하고, 나열된 위험도를 일정한 구간으로 구분하여 분위를 설정한다. 분위의 크기는 사전에 정해진다. 바람직하게는, 분위는 계층적으로 세분화될 수 있다.

위험도 분위의 예가 도 5에 도시되고 있다. 도 5와 같이, 전체 분위는 크게 4개로 구분하고, 다시 각 분위를 3개로 더 나누어, 모두 12개로 구분한다. 즉, 도 5에서, 분위를 2개의 계층으로 세분화 하고 있다.

도 5의 예에서, 샘플 크기가 200개이면, 모두 200개의 질환별 위험도가 획득된다. 획득된 200개의 위험도를 크기 순으로 나열하여, 1-50등, 51-100등, 101-150등, 151-200등 으로 4개의 분위로 구분한다. 그리고 각 4개의 분위를 다시 3개로 세분화 한다.

도 5는 4분위수를 표현하는 그래프는 질환예측결과를 100개의 등수로 세운 후, 사용자의 질병발생 위험도가 '낮음', '주의', '높음', '매우 높음' 중 어디에 해당하는지를 시각적으로 알려준다. 즉, 도 5는 본인(사용자 및 보험 잠재고객)과 동일한 성별 및 연령의 질환 별 발생확률을 100개의 등수로 세웠으므로, 자신의 질환 별 발생확률이 '낮음', '주의', '높음', '매우 높음' 중 어느 위치에 속해 있는지 시각적으로 파악할 수 있다.

또한, 위험분포 생성부(35)는 각 분위의 범위(분위 범위)를 설정한다. 각 분위의 범위는 해당 분위에 속하는 위험도의 최소값과 최대값으로 설정된다. 즉, 1분위의 1등 값이 가 1-50등의 레코드이고, 1등의 위험도가 1.1%이고, 50등의 위험도가 32.5%이면, 1분위의 범위는 1.1 ~ 32.5%가 된다. 이와 같이 구하면, 4개의 분위는 < 1.1, 32.5 >, < 33.0, 45.3 >, < 45.6, 82.5 >, < 83.0, 95.0 > (단위 %)로 산출될 수 있다.

한편, 바람직하게는, 각 분위에 대해 해당 분위의 라벨(명칭)을 사전에 설정할 수 있다. 도 5의 예에서, 1분위, 2분위, 3분위, 4분위 각각에 대하여, "낮음", "주의", "높음", "매우 높음"으로 라벨링(명칭)을 설정할 수 있다.

즉, 앞서 위험도 분포나 위험도 분위는 사용자의 질환별 발생위험이 객관적으로 어느 정도인지 해석할 수 있게 해준다는 측면에서 의의가 있다.

한편,'낮음', '주의', '높음', '매우 높음'의 기준은 각 질환의 특성을 반영하여 산출되며, 각 질환마다 상이한 모습을 나타낸다. 예를 들어, 유방암 및 비만과 같이 여성의 연령과 밀접한 관련이 있는 질환은 타 질환에 비해 발생확률의 절대치가 유사한 모습을 보여준다. 따라서 각 질환별로 4개의 구간을 나누는 기준이 서로 다르다. 도 6은 각 발생확률 별로 총 200명의 n수가 분포하는 비율을 그래프로 나타낸 것이며, 뇌혈관질환과 골다공증을 대표값으로 표현하고 있다.

다음으로, 위험수준 추정부(36)는 각 질환의 해당 분포 또는 위험도 분위 내에서, 고객의 해당 질환의 위험도가 속하는 위치를 위험도 수준으로 추정한다.

먼저, 위험수준 추정부(36)는 위험도 예측부(34)를 통해, 고객의 각 질환의 위험도를 산출하도록 하여, 고객의 각 질환의 위험도를 획득한다.

그리고 위험수준 추정부(36)는 각 질환의 해당 분포 내에서 고객의 위험도 위치를 찾고, 해당 위치를 위험도 수준으로 추정한다.

바람직하게는, 해당 위치를 누적 분포의 비율로 표시한다. 예를 들어, 고객의 위험도가 전체 분포 내에서 36%(가장 작은 값에서부터 누적된 분포) 지점에 위치하면, 해당 위험도 수준을 36%로 추정한다.

또 다른 실시예로서, 위험수준 추정부(36)는 위험도 분위 중에서, 해당 고객의 위험도가 속하거나 가장 가까운 위험도 분위를 찾고, 해당 분위를 위험도 수준으로 추정한다. 특히, 해당 분위의 라벨이 있는 경우, 해당 고객의 위험도 수준은 해당 분위의 라벨로 추정한다.

예를 들어, 고객의 위험도가 33.4이면, 해당 수치는 2분위에 속하고, 해당 2분위의 라벨은 "주의"이므로, 해당 고객의 위험도 수준은 "주의(2분위)"로 추정된다. 또한, 고객의 위험도가 32.7이면, 해당 수치는 1분위에 가장 가깝다. 따라서 고객은 "낮음(1분위)"으로 추정된다.

즉, 사용자가 해당 질환예측 모델에 본인의 건강검진 및 설문데이터를 입력하여 얻은 결과를 전국민 평균수치와 자동으로 비교되어, 사용자의 향후 질병발생위험도가 전국민 대비 어느 정도 위험한 수준에 있는지 파악할 수 있다.

이상, 본 발명자에 의해서 이루어진 발명을 상기 실시 예에 따라 구체적으로 설명하였지만, 본 발명은 상기 실시 예에 한정되는 것은 아니고, 그 요지를 이탈하지 않는 범위에서 여러 가지로 변경 가능한 것은 물론이다.

10 : 클라이언트 단말 30 : 서버
31 : 표본자료 수집부 32 : 고객자료 수집부
33 : 샘플 추출부 34 : 위험도 예측부
35 : 위험분포 생성부 36 : 위험수준 추정부
40 : 데이터베이스 41 : 표본자료DB
42 : 고객의료정보DB 43 : 예측정보DB
80 : 네트워크

Claims

질환별 발생예측값 분포를 활용한 보험 설계 상담 서비스 시스템에 있어서,
다수의 사람들의 의료 데이터로 구성되는 표본 데이터를 수집하되, 각 사람의 의료 데이터를 하나의 레코드로 구성하는, 데이터 수집부;
고객의 의료 데이터를 수집하는 고객자료 수집부;
상기 표본 데이터에서 고객과 유사한 레코드를 샘플링하여 유사 레코드 그룹(이하 유사군)을 구성하는 샘플 추출부;
고객 또는 레코드의 의료 데이터를 이용하여, 해당 고객 또는 해당 레코드의 각 질환의 질병발생 위험도(이하 위험도)를 예측하는 위험도 예측부;
상기 위험도 예측부를 통해 상기 유사군의 레코드들의 위험도를 예측하게 하고, 예측된 위험도로 위험도 분포를 생성하는 위험분포 생성부; 및,
상기 위험도 예측부를 통해 상기 고객의 위험도를 예측하게 하고, 상기 위험도 분포 내에서 고객의 위험도 위치를 찾고, 해당 위치를 고객의 위험도 수준으로 추정하는 위험수준 추정부를 포함하는 것을 특징으로 하는 질환별 발생예측값 분포를 활용한 보험 설계 상담 서비스 시스템.
질환별 발생예측값 분포를 활용한 보험 설계 상담 서비스 시스템에 있어서,
다수의 사람들의 의료 데이터로 구성되는 표본 데이터를 수집하되, 각 사람의 의료 데이터를 하나의 레코드로 구성하는, 데이터 수집부;
고객의 의료 데이터를 수집하는 고객자료 수집부;
상기 표본 데이터에서 고객과 유사한 레코드를 샘플링하여 유사 레코드 그룹(이하 유사군)을 구성하는 샘플 추출부;
고객 또는 레코드의 의료 데이터를 이용하여, 해당 고객 또는 해당 레코드의 각 질환의 질병발생 위험도(이하 위험도)를 예측하는 위험도 예측부;
상기 위험도 예측부를 통해 상기 유사군의 레코드들의 위험도를 예측하게 하고, 예측된 위험도로 위험도 분위를 구분하고, 각 위험도 분위의 범위를 설정하는 위험분포 생성부; 및,
상기 위험도 예측부를 통해 상기 고객의 위험도를 예측하게 하고, 상기 위험도 분위 내에서 고객의 위험도가 속하는 위험도 분위를 찾고, 해당 위험도 분위를 고객의 위험도 수준으로 추정하는 위험수준 추정부를 포함하는 것을 특징으로 하는 질환별 발생예측값 분포를 활용한 보험 설계 상담 서비스 시스템.
제1항 또는 제2항에 있어서,
상기 샘플 추출부는 상기 표본 데이터에서, 유사군 추출 변수의 값이 동일한 범위 또는 범주를 가지는 레코드들을 랜덤하게 샘플링하되, 사전에 정해진 크기의 레코드들을 샘플링하는 것을 특징으로 하는 질환별 발생예측값 분포를 활용한 보험 설계 상담 서비스 시스템.
제3항에 있어서,
상기 추출 변수는 성별과 연령인 것을 특징으로 하는 질환별 발생예측값 분포를 활용한 보험 설계 상담 서비스 시스템.
제1항 또는 제2항에 있어서,
상기 위험도 예측부는 질환예측 모델에 상기 고객 또는 상기 레코드의 의료 데이터를 적용하여 출력되는 값을 위험도로 예측하되, 상기 질환예측 모델은 신경망으로 구성되어 학습 데이터에 의해 학습되는 것을 특징으로 하는 질환별 발생예측값 분포를 활용한 보험 설계 상담 서비스 시스템.
제1항에 있어서,
상기 위험수준 추정부는 상기 위험도 분포 내에서 상기 고객의 위험도 위치를 찾고, 해당 위치를 누적 분포의 비율을 찾고, 해당 누적 분포의 비율을 상기 고객의 위험도 수준으로 추정하는 것을 특징으로 하는 질환별 발생예측값 분포를 활용한 보험 설계 상담 서비스 시스템.
제2항에 있어서,
상기 위험분포 생성부는 각 위험도 분위에 라벨을 설정하고,
상기 위험수준 추정부는 상기 고객의 위험도가 속하는 위험도 분위의 라벨로, 상기 고객의 위험도 수준을 추정하는 것을 특징으로 하는 질환별 발생예측값 분포를 활용한 보험 설계 상담 서비스 시스템.