KR20220139115A

KR20220139115A - 의료기관 간 의료데이터통합을 이용한 관심패턴 후보탐색방법과 장치

Info

Publication number: KR20220139115A
Application number: KR1020210045333A
Authority: KR
Inventors: 이지섭
Original assignee: 주식회사 에비드넷
Priority date: 2021-04-07
Filing date: 2021-04-07
Publication date: 2022-10-14
Also published as: KR102571593B1

Abstract

시계열의 복수의 의료기간으로부터 수집된 의료데이터(HD)로부터 유의미한 테이터의 관심패턴을 탐색하여 부가적인 의료서비스를 제공하기 위한 의료기관 간 의료데이터통합을 이용한 관심패턴 후보탐색방법에 있어서, 상기 관심패턴 후보탐색방법은; 복수 개의 상기 의료기관으로부터 네트워크인터페이스를 통하여 수집된 시계열의 상기 의료데이터(HD)를 전송받아 수집하는 단계(S100), 수집된 도메인단위의 상기 의료데이터(HD)의 패턴데이터의 특징을 추출하기 이전에 데이터의 구조를 변경하여 로우데이터(DU)를 얻는 로우데이터가공단계(S110), 상기 의료데이터(HD)의 상기 로우데이터(DU)로부터 도메인단위의 비교를 통해, 인과관계 특징에 기초하는 로직으로서의 패턴추출정의(PD)로써 패턴데이터를 추출하여 상기 복수의 의료기관(H)의 각각의 단위패턴DB(Pd1,Pd2..Pdn)로 구축하는 단계(S120), 상기 의료기관(H)의 각각의 상기 단위패턴DB(Pd1,Pd2..Pdn)로부터 도메인단위 데이터의 결합체인 패턴DB(PDB)를 구축하는 단계(S130), 상기 패턴DB(PDB)의 패턴데이터를 정의된 패턴설정정의(PC)로써 분리하여 각각 일반패턴DB(Gd)와 관심패턴DB(Id)로 구축하는 단계(S140), 상기 후보패턴의 구축을 위하여 정의되는 패턴분석로직(PL)으로써 상기 일반패턴DB(Gd)와 상기 관심패턴DB(Id)의 패턴데이터를 연관규칙 관계의 테이터마이닝으로 후보패턴DB(Cd)를 생성하는 단계(S150)를 적어도 포함한다.

Description

의료기관 간 의료데이터통합을 이용한 관심패턴 후보탐색방법과 장치{A method of constructing an interest pattern candidate database using medical data between medical institutions, and its devicee}

본 발명은 의료기관 간 의료데이터통합을 이용한 관심패턴 후보탐색방법과 장치에 관한 것으로서, 더욱 상세하게는 의료데이터의 방문, 재방문들 간에 이루어지는 의료관련한 환자의 행동을 패턴화하여 추출한 일반적인 의료패턴 정보와 관심패턴 정보를 데이터마이닝기법인 '연관성 규칙'을 이용하여 비교 분석한 데이터베이스를 제공함으로써, 기존의 의료행위에서 새로운 유의미한 정보의 탐색을 돕는 솔루션을 제공하는 방법과 그 방법을 구현하는 장치에 관한 것이다.

2, 3차 병원을 포함하는 의료관련 기관 또는 기관 간의 축적된 의료데이터의 활용을 위한 서비스 개발 또는 연구 사례가 증가하고 있다.

의료기관을 방문하는 환자의 케이스에 따라 정해진 의료행동(진단, 수술, 검사, 처방 등)을 시계열적으로 실행함으로써 환자의 증상의 호전을 기대하고, 이러한 정해진 의료행동은 이미 각 분야의 전문가들에 의해 일반적으로 검증된 정보에 기초한 의학적 지식에 의하여 수행된다.

다만, 모든 환자의 신체적인 상태가 다르고 복합적으로 고려할 부분이 많기 때문에, 의료행동에 대한 결과에서는 의도하지 않거나 예상하지 못한 결과가 나타날 수 있으며 특히, 이러한 결과의 발생은 환자가 의료기관을 재방문 또는 재진단받는 시점에 알 수 있는 특징이 있다.

따라서, 의료기관에서 처음 진단하는 시점, 그리고 다음 시점의 의료정보를 이용하여, 진단과 처방을 포함하는 의료행위 간의 인과관계를 정의하여 이를 추출함으로써 유의미한 패턴정보를 찾아낼 수 있을 것이며, 이들 패턴정보를 이용하여 새로운 의료행위를 위한 정보와 툴을 제공할 수 있을 것이다.

종래에도 이러한 의료데이터를 처리하기 위한 방법과 장치가 안출되어 왔으며 본 발명의 기술분야에 가장 근접한 선행기술에는 하기와 같은 선출원들이 있다.

특허문헌 1은 '시계열 데이터 처리 장치, 이를 포함하는 건강 예측 시스템, 및 시계열 데이터 처리 장치의 동작 방법에 관한 것으로서, 제 1 타입을 갖고, 타겟 시점의 이전 시간에 대응되는 제1 시계열 데이터를 수신하는 네트워크 인터페이스; 상기 제1 시계열 데이터에 기초하여, 제2 타입을 갖고, 상기 타겟 시점의 이전 시간에 대응되는 제2 시계열 데이터를 생성하는 데이터 생성기; 상기 제1 시계열 데이터 및 상기 제2 시계열 데이터에 기초하여, 상기 타겟 시점의 이후 시간에 대응되는 예측데이터를 생성하는 예측기; 및 상기 데이터 생성기 및 상기 예측기를 제어하는 프로세서를 포함하는 시계열 데이터 처리 장치로 하고,

특허문헌 2는, '다차원의 시계열 의료 데이터를 처리하는 장치 및 방법'에 관한 것으로서 다차원의 시계열 의료 데이터를 처리하는 장치에 있어서, 제1 시간에 대응되는 제1 방문 데이터 및 상기 제1 시간 이전의 제2 시간에 대응되는 제2 방문 데이터를 포함하는 시계열 의료 데이터를 수신하는 네트워크 인터페이스; 상기 시계열 의료 데이터를 전처리하여 모델링 데이터를 생성하는 전처리부; 상기 모델링 데이터로부터 상기 제1 시간 이후의 제3 시간에 대응되는 미래 방문 데이터를 예측하기 위한 시계열 분석 모델을 생성하는 데이터 분석부; 및 상기 전처리부 및 상기 데이터 분석부를 제어하는 프로세서를 포함하되, 상기 전처리부는 상기 제1 시간과 상기 제2 시간의 차이에 기초하여 상기 제1 방문 데이터를 전처리하는 장치로 구성하고,

특허문헌 3은 '시계열 패턴 마이닝'에 관한 것으로서, 관심패턴 길이, 최대 허용 불일치 값 및 최소 지지도를 포함하는 관심패턴 모델을 이용한 시계열 패턴 마이닝 방법에 있어서, 시퀀스 데이터에 대한 데이터 서픽스 트리를 기반으로 패턴 길이가 서로 동일한 데이터 패턴 집합을 생성하는 단계; 상기 데이터 패턴 집합에 포함되는 데이터 패턴과의 불일치 값이 상기 최대 허용 불일치 값 이하인 후보 패턴집합을 생성하는 단계; 데이터 패턴과의 불일치 값에 따라 상이한 가중치를 적용하여 상기 후보 패턴 집합에 포함되는 각 후보 패턴의 지지도를 산출하는 단계; 및 상기 각 후보 패턴의 지지도를 기반으로 각 후보 패턴이 미리 설정된 패턴 조건을 만족하는지 여부를 판단하는 단계; 를 포함하는 시계열 패턴 마이닝 방법으로 한다.

특히, 특허문헌 3에서는 '메디컬 데이터의 큰 데이터인 대용량 데이터를 분석하기 위해 데이터 마이닝 기술에 대한 연구에 관한 것으로서, 데이터 마이닝 기법에 있어, 관심패턴의 형태를 정의하는 관심패턴 모델이 활용될 수 있다. 즉, 관심패턴의 길이, 최대 허용 불일치 값(mismatch) 및 최소 지지도(minimum support)를 정의하는 관심패턴 모델을 이용하여 시퀀스 데이터에서 빈발 패턴을 마이닝할 수 있다. 그러나, 최대 허용 불일치 값을 허용함으로서 시퀀스 데이터 자체에는 등장하지 않는 패턴이 같이 추출되며, 최대 허용 불일치 값이 크면 추출되는 빈발 패턴의 수도 증가하여 분석이 곤란하므로 필요없는 패턴의 추출을 지양하고 속도 향상에도 기여하는 효율적인 데이터 마이닝 기법이 요구된다라고 하여 관심패턴 모델을 이용하여 시퀀스 데이터에서 빈발 패턴을 마이닝하는 방법을 제공하고 있다.

한국 특허공개 제 10-2019-0086345 호 한국 특허공개 제 10-2019-0070232 호 한국 특허 제 10-2020673 호

없슴.

특허문헌 1은 '시계열 데이터 처리 장치, 이를 포함하는 건강 예측 시스템, 및 시계열 데이터 처리 장치의 동작 방법에 관한 것으로서, 시계열적인 분석은 수행되고 있으나, 건강예측을 위한 모델링기법에 관한 것이고,

특허문헌 2는 다차원의 시계열 의료 데이터를 처리하는 장치 및 방법에 관한 것이나, 역시 미래의 건강예측을 위한 예측기법에 관한 것이다.

특허문헌 3은 본 발명의 전체 구성중 데이터의 관심패턴에 대한 마이닝에 관한 것이나, 본 발명의 미래의 의료행위에 유용한 관심패턴을 가지는 데이터추출에 관한 것과는 무관하고 단지, 일부 분석로직이 유사한 점이 있다.

본 발명이 해결하고자 하는 기술적 과제는 환자의 의료기관의 방문-재방문 간에 이루어지는 의료행위의 양태 및 그 양태의 결과로서의 의료데이터를 패턴화하여 일반패턴과 관심패턴을 추출하고, 두 패턴을 비교함으로써 유의미한 결과를 가지는 후보리스트를 탐색하여 그 결과물을 피드백하여 의료현장에 제공함에 있다.

본 발명의 의료기관 간 의료데이터통합을 이용한 관심패턴 후보탐색방법과 장치의 구체적인 구성은 하기와 같이 제공된다.

환자의 방문 시점(T1)과 재방문의 시점(T2..) 간의 의료행위에 의하여 복수의 의료기관(H)의 서버에 누적된 시계열의 의료데이터(HD)를 통합하고, 상기 의료데이터(HD)로부터 유의미한 테이터의 관심패턴을 탐색하여 부가적인 의료서비스를 제공하기 위한 의료기관 간 의료데이터통합을 이용한 관심패턴 후보탐색방법에 있어서,

상기 관심패턴 후보탐색방법은; 복수 개의 상기 의료기관으로부터 네트워크인터페이스를 통하여 수집된 시계열의 상기 의료데이터(HD)를 전송받아 수집하는 단계(S100), 수집된 도메인단위의 상기 의료데이터(HD)의 패턴데이터의 특징을 추출하기 이전에 데이터의 구조를 변경하여 로우데이터(DU)를 얻는 로우데이터가공단계(S110), 상기 의료데이터(HD)의 상기 로우데이터(DU)로부터 도메인단위의 비교를 통해, 인과관계 특징에 기초하는 로직으로서의 패턴추출정의(PD)로써 패턴데이터를 추출하여 상기 복수의 의료기관(H)의 각각의 단위패턴DB(Pd1,Pd2..Pdn)로 구축하는 단계(S120), 상기 의료기관(H)의 각각의 상기 단위패턴DB(Pd1,Pd2..Pdn)로부터 도메인단위 데이터의 결합체인 패턴DB(PDB)를 구축하는 단계(S130), 상기 패턴DB(PDB)의 패턴데이터를 정의된 패턴설정정의(PC)로써 분리하여 각각 일반패턴DB(Gd)와 관심패턴DB(Id)로 구축하는 단계(S140), 상기 후보패턴의 구축을 위하여 정의되는 패턴분석로직(PL)으로써 상기 일반패턴DB(Gd)와 상기 관심패턴DB(Id)의 패턴데이터를 연관규칙 관계의 테이터마이닝으로 후보패턴DB(Cd)를 생성하는 단계(S150), 생성된 상기 후보패턴DB(Cd)의 후가공 및 판매를 위한 활용단계(S160)를 적어도 포함하는 것을 특징으로 하고,

본 발명의 의료기관 간 의료데이터통합을 이용한 관심패턴 후보탐색장치에서는; 환자의 방문 시점(T1)과 재방문(Rv)의 시점(T2..) 간의 의료행위에 의하여 복수의 의료기관(H)의 서버에 누적된 시계열의 의료데이터(HD)를 통합하고, 상기 의료데이터(HD로부터 유의미한 테이터의 관심패턴을 탐색하기 위한 의료기관 간 의료데이터통합을 이용한 관심패턴 후보탐색장치에 있어서, 상기 후보탐색장치는; 상기 의료데이터(HD)를 저장하는 의료DB(11,,,N)들을 데이터 연결하는 네트워크(10) 및 복수 개의 단말기(20), 상기 의료데이터(HD)를 데이터처리하는 의료데이터처리장치(30), 상기 의료데이터처리장치(30)에 의하여 처리된 데이터가 축적되는 일반패턴DB(Gd)와 관심패턴DB(Id) 및 이들로부터 구축되는 후보패턴DB(Cd)를 저장하는 스토리지(40) 및 메인프로세서(50)를 적어도 포함하는 것을 특징으로 힌다.

본 발명의 의료기관 간 의료데이터통합을 이용한 관심패턴 후보탐색방법과 장치는 최신의 의료데이터 정보에 대한 관심 분야의 패턴을 이용하여 최적화된 후보패턴을 추출하여 데이터베이스로 구축되는 정보를 피드백하여 제공함으로써 의료연구 및 발전에 기여할 수 있다.

또한, 본 발명의 방법에 따르면 의료데이터의 중도절단 문제를 고려하지 않아도 되며, 복수 개의 의료기관 간의 데이터를 결합하여 사용함으로써 추출되는 데이터와 그 데이터를 바탕으로 구축되는 데이터베이스의 신뢰도를 대폭 증대할 수 있다는 유용성이 있다.

나아가, 본 발명에서는 분산 연구망(Distributed Research Networks)에서의 의료기록의 비밀 유지를 보장하면서도 동시에 복수 개의 의료기관에서 획득된 의료데이터들 간의 발생할 수 있는 이질성을 해결하고, 수합된 의료데이터들을 통합하여 유용한 데이터로서 활용할 수 있게 한다.

도 1은 본 발명의 의료기관 간 의료데이터통합을 이용한 관심패턴 후보탐색방법과 장치를 설명하기 위한, 환자 -의료기관 간의 의료행위관계의 모식적인 설명도.
도 2는 본 발명의 관심패턴 후보탐색방법의 전개를 위한 개념을 설명하는 설명도.
도 3은 본 발명의 의료기관 간 의료데이터통합을 이용한 관심패턴 후보탐색방법이 구현되는 전체 시스템도.
도 4는 본 발명의 의료기관 간 의료데이터통합을 이용한 관심패턴 후보탐색방법이 구현되는 시스템에서의 구체적인 장치구성도.
도 5는 본 발명의 의료기관 간 의료데이터통합을 이용한 관심패턴 후보탐색방법에서의 의료데이터처리장치의 데이터전처리부와 데이터분석부의 구성과 작용을 설명하는 블럭 설명도.
도 6은 본 발명에서의 데이터전처리부와 데이터분석부에서의 후보탐색방법을 도시하는 플로우챠트.
도 7은 본 발명의 의료기관 간 의료데이터통합을 이용한 관심패턴 후보탐색방법에서의 의료데이터의 전가공 단계를 설명하는 설명도.
도 8은 본 발명의 의료기관 간 의료데이터통합을 이용한 관심패턴 후보탐색방법에서의 데이터전처리부에서의 인과관계 특징에 따른 패턴데이터의 추출로써 단위패턴DB를 구축하는 과정을 도시하는 블럭 설명도.
도 9는 본 발명의 의료기관 간 의료데이터통합을 이용한 후보탐색방법에서의 데이터분석부에서의 관심패턴DB와 일반패턴DB의 구축의 로직개념을 설명하는 블럭 설명도.
도 10은 도 9의 데이터분석부에서의 일반패턴DB로 정의되는 패턴데이터의 예를 도시하는 모식도.
도 11은 도 9의 데이터분석부에서의 관심패턴DB로 정의되는 패턴데이터의 예를 도시하는 모식도.
도 12는 본 발명의 의료기관 간 의료데이터통합을 이용한 관심패턴 후보탐색방법에서의 일반패턴DB와 관심패턴DB로부터 분석로직에 의하여 후보 패턴데이터를 저장하는 후보패턴DB 구축방법을 설명하는 블럭 설명도.
도 13은 본 발명의 의료기관 간 의료데이터통합을 이용한 관심패턴 후보탐색방법으로 생성된 후보 패턴데이터의 후보패턴DB의 예시적인 샘플도.
도 14는 본 발명의 의료기관 간 의료데이터통합을 이용한 관심패턴 후보탐색방법에 의하여 구현된 결과물로서의 처방행위를 수행하기 위하여 피드백된 결과물의 인터페이스화면의 캡쳐도.
도 15는 본 발명의 의료기관 간 의료데이터통합을 이용한 관심패턴 후보탐색방법에 의하여 구현된 결과물의 예시적인 샘플로서의 특정 질병의 부작용 가능성이 높은 약물의 약물리스트도이다.

이하 첨부되는 도면과 관련하여 상기 목적을 달성하기 위한 본 발명의 바람직한 구성과 작용에 대하여 설명하면 다음과 같다.

도 1은 본 발명의 의료기관 간 의료데이터통합을 이용한 관심패턴 후보탐색방법과 장치를 설명하기 위한, 환자 -의료기관 간의 의료행위관계의 모식적인 설명도, 도 2는 후보탐색방법의 전개를 위한 개념을 설명하는 설명도, 도 3은 관심패턴 후보탐색방법이 구현되는 전체 시스템도, 도 4는 관심패턴 후보탐색방법이 구현되는 시스템에서의 구체적인 장치구성도, 도 5는 의료데이터처리장치의 데이터전처리부와 데이터분석부의 구성과 작용을 설명하는 블럭 설명도, 도 6은 데이터전처리부와 데이터분석부에서의 후보탐색방법을 도시하는 플로우챠트, 도 7은 의료데이터의 전가공 단계를 설명하는 설명도, 도 8은 데이터전처리부에서의 인과관계 특징에 따른 패턴데이터의 추출로써 단위패턴DB를 구축하는 과정을 도시하는 블럭 설명도, 도 9는 데이터분석부에서의 관심패턴DB와 일반패턴DB의 구축의 로직개념을 설명하는 블럭 설명도, 도 10은 도 9의 데이터분석부에서의 일반패턴DB로 정의되는 패턴데이터의 예를 도시하는 모식도, 도 11은 도 의 데이터분석부에서의 관심패턴DB로 정의되는 패턴데이터의 예를 도시하는 모식도, 도 12는 관심패턴 후보탐색방법에서의 일반패턴DB와 관심패턴DB로부터 분석로직에 의하여 후보 패턴데이터를 저장하는 후보패턴DB 구축방법을 설명하는 블럭 설명도, 도 13은 관심패턴 후보탐색방법으로 생성된 후보 패턴데이터의 후보패턴DB의 예시적인 샘플도, 도 14는 관심패턴 후보탐색방법에 의하여 구현된 결과물로서의 처방행위를 수행하기 위하여 피드백된 결과물의 인터페이스화면의 캡쳐도, 도 15는 구현된 결과물의 예시적인 샘플로서의 특정 질병의 부작용 가능성이 높은 약물의 약물리스트도로서 순차적으로 그리고 함께 설명한다.

본 발명은 의료데이터의 인과관계 특징추출의 조합을 수행하는 여러 가지 실시예를 가질 수 있을 것이며 본 발명에 개시되는 기술은 그러한 변형되는 실시예를 모두 권리로 한다.

이하에서의 설명에서 데이터베이스(Data Base)는 간략한 설명을 위하여 'DB'로서 기재한다.

본 발명의 설명에 적용되는 개념으로서 일반적인 환자의 의료기관방문 - 재방문 관계를 도 1에 도시한다.

통상적인 의료행위는 외래(FO)의 경우, 의료기관(H)에 환자(P)는 방문(Fv:초회방문을 포함한다.)에 따른 의료진의 진단(S), 진단(S)의 결과에 따른 처방(D)(수술이나 검사가 필요한 경우 수술(O) 및 검사(I)를 포함한다.)을 수행하고,

입원(HO) 또는 통원에 따른 경과(C)의 관찰에 따라 의료행위가 종결(E:완치,사망,상급병원 이동 등)되거나, 재방문(Rv)이 이루어지고 이러한 과정에서 의료데이터(HD)가 복수 개의 의료기관(H)의 서버(도시하지 않음)에 누적되어 일정한 데이터베이스로 구축된다.

이렇게 구축되는 의료데이터(HD)는 당연히 시계열 데이터이며, 시계열 간에 고려해야 할 부분은 대단히 많게 된다.

특정 방문(Fv:초회방문을 포함한다.)의 시점(T1)과 다음 방문시점인 재방문(Rv)시점(T2) 간에도 방문양태, 대표명칭으로서의 병명인 진단명과 투여되는 처방약물에 대한 데이터가 확보되며, 무엇보다 의료데이터(HD)는 환자가 의료기관(H)을 방문하여야 생성되는 데이터로 시점(T1)과 시점(T2...) 사이의 간격이 일정하지 않으며, 그 기간 사이의 환자를 통제하는 것은 매우 어려운 일이다.

그렇기 때문에, 방문시점(T1, T2,..Tn)의 시계열 정보를 모두 활용하게 된다면 매우 유의미한 데이터관리가 가능하게 될 것이다.

이하에서 말하는 도메인(단위)이란 방문정보, 진단정보, 처방정보, 수술정보, 검사정보 등을 클러스터링한 정보를 총괄한다.

본 발명의 방법에 따르면, 의료데이터(HD)의 각각의 도메인단위(방문정보-진단정보-처방정보-수술정보-검사정보와 같은 데이터 단위)를 연결할 수 있도록 기본키를 가진 개별 도메인단위로 분류하고,

특정 시점(T)과 연속된 다음 시점(T+1) 간의 정보를 하나의 행(Row)으로 작성하며, 이들의 행의 수는 시점(T)에서의 대표명칭(예를 들면, 병명이 될 수 있다.)의 수(n1)와 시점(T+1)에서의 대표명칭의 수(n2)의 곱(n1 x n2)의 개수 만큼 생성된다. 이렇게 구성되는, 예를 들어 2 단계 시계열 개념의 데이터는 다음과 같이 활용할 수 있다.

첫번째, 시점(T)과 시점(T+1)의 대표명칭의 관계를 예시적으로 3 가지(유지, 추가, 제외와 같은, 필요에 따라서는 '변경'포함)로 나타낼 수 있으며,

이는 도 2에서와 같이, 진단, 처방, 수술, 검사에서 만일 진단이 시점(T)에서는 '진단 a' 였으나 시점(T+1)에서는 '진단 a' 에 추가하여 '진단 b' 가 된다면(즉, 추가적인 병명이 확인된다면), 대표명칭인 병명이 '추가'로 되는 것으로서 이는 일반적으로 환자(P) 또는 의료기관에서 소망하는 결과가 아닌 관심사항의 데이터가 되는 것이다.

두번째, 관계파악이 가능한 도메인단위(방문정보-진단정보-처방정보-수술정보-검사정보)에서는 예시적으로 추가적인 관계 3가지(유지-완화-악화 또는 유지-추가-제외)로 나타낼 수 있다.

따라서, 유지 = 0, 완화(또는 악화) = 1의 값을 할당할 수 있으며 예를 들면, 시점(T)의 응급실 방문에서 시점(T+1)에서의 응급실 입원의 경우는 악화의 개념이다.

세번째, 특정 도메인단위에서의 투여약물의 용량과 같은 수치데이터는 그 변수의 관계를 예를 들면, 3 가지(유지-완화-악화; 또는 동등-증가-감소)로 표현할 수 있다.

네번째, 앞의 내용들의 다양한 조합으로 의미 있는 결과를 도출할 수 있다.

일반적인 의료수행과정에서 상정가능한 도메인단위의 조합을 예시적인 표 1로서 보면 하기와 같다.

도메인	변수	값	활용
방문정보	명칭의 변화	유지, 완화, 악화	결과 해석
진단정보	명칭의 변화	유지, 추가, 제외	조합
처방정보	명칭의 변화	유지, 추가, 제외	조합
	수치정보의 변화	유지, 완화, 악화	결과 해석
	누적총량		조합
수술정보	명칭의 변화	유지, 추가, 제외	조합
검사정보	명칭의 변화	유지, 추가, 제외	조합
	수치정보의 변화	유지, 완화, 악화	결과 해석
	수치값의 차이		유의성 검정

의료데이터(HD)의 청크된 도메인단위(방문정보-진단정보-처방정보-수술정보-검사정보) 중, 방문정보는 외래, 응급실, 입원 등의 내원형태로서 대표명칭이 될 수 있고, 진단정보는 특정한 병명, 처방정보는 특정약물의 투여량, 회수, 누적회수, 수술정보는 특정 수술명, 검사수치는 특정 병명에 기초하는 각종의 의료검사, 검사결과수치값, 방문시점 간의 검사결과의 수치값의 차이 등이 될 수 있다.

본 발명은 건강보험심사평가원(HIRA)의 전 국민 3% 규모의 HIRA 2017 데이터 자료를 OMOP (Observational Health Data Sciences and Informatics) CDM (Common Data Model)으로 변환한 자료를 이용하여 실제적으로 구현하여 보았다.

OMOP CDM을 이용함으로써, 청크 단위의 분할 단계를 생략할 수 있는 이점이 있어 관련 DB 구축에 용이하였다.

도 3, 4는 본 발명의 실시예에 따른 분산 네트워크망(DRN)을 통해 본 발명의 관심패턴 후보의 탐색방법이 수행되는 장치로서 동작하는 시스템의 관계 및 구체적인 장치관계를 도시한다.

네트워크(10)를 통하여 의료데이터(HD)를 저장하는 의료DB(11,,,N)들은 상호 데이터 연결되고, 이를 관리하는 복수 개의 단말기(20)에 의하여 데이터입력 및 관리될 것이다.

본 발명의 의료데이터처리장치(30) 및 이 의료데이터처리장치(30)에 의하여 처리된 데이터가 축적되는 도메인단위에 기초한 후술하는 일반패턴DB(Gd)와 관심패턴DB(Id) 및 이들 데이터베이스로부터 작성되는 후보패턴DB(Cd)가 구축 및 저장되어 제공된다.

복수 개의 의료기관(H)은 각각 획득하는 의료데이터(HD)를 저장하고 관리하기 위하여 각각 고유의 시스템으로 데이터베이스를 구축하고 이용할 수 있다.

본 발명의 실시예에 따른 시스템에서의 구체적인 장치로서의 의료데이터처리장치(30)를 더욱 구체적으로 설명한다.

의료데이터처리장치(30)는 데이터전처리부(32)를 메모리(M)에 상주하는 프로그램으로 가진다.

데이터전처리부(32)는 네트워크인터페이스(31)로부터의 의료데이터(HD)의 수신 및 입력을 수행하는 데이터수신/입력부(32-1), 일련의 정의된 로직인 패턴추출정의(PD)를 로직으로 구동함으로써 각각의 의료기관(H)의 의료데이터(HD)의 단위패턴DB(Pd1,Pd2..Pdn)를 구축하는 패턴특징추출부(32-2), 단위패턴DB(Pd1,Pd2..Pdn)를 다시 패턴합인 패턴DB(PDB)로 구축하는 패턴DB결합부(32-3)를 가진다.

나아가, 의료데이터처리장치(30)는 데이터전처리부(32)의 후속적인 처리부로서 데이터분석부(33)를 가진다.

데이터분석부(33)는 패턴DB결합부(32-3)로부터의 패턴DB(PDB)를 역시 정의된 로직인 패턴설정정의(PC)로 일반적인 패턴특성을 가지는 패턴데이터와, 관심을 두어야 하는 패턴데이터를 분리하여 그들 분리된 패턴데이터로부터 일반패턴DB(Gd)와 관심패턴DB(Id)를 구축한다.

또한, 데이터분석부(33)는 상기의 일반패턴DB(Gd), 관심패턴DB(Id)로부터 정의된 분석로직(PL)에 의하여 분석,추출된 자료의 데이터베이스로서 생성되는 후보패턴DB(Cd)를 구축한다.

위의 일반패턴DB(Gd), 관심패턴DB(Id), 후보패턴DB(Cd)를 저장하는 스토리지(40) 및 이들 데이터베이스의 로직실현 구동 및 시스템을 제어하는 메인프로세서(50)를 포함하여 구성된다.

위 구성을 부언하여 설명하면, 네트워크인터페이스(31)는 환자(P)의 방문(Fv)과 재방문(Rv)에 의하여 발생되는 시점(T1,T2..TN)의 각각의 시계열 데이터를 수신하며,

데이터전처리부(32)는 시계열 데이터를 도메인단위(청크단위)의 비교를 통해, 인과관계 특징에 기초한 패턴추출정의(PD)로써 의료데이터(HD)의 패턴의 특징을 패턴특징추출부(32-2)에서 추출하여 각각의 의료기관(H)의 단위패턴DB(Pd1,Pd2..Pdn)를 생성한다.

또한, 데이터전처리부(32)에서는 각각의 단위패턴DB(Pd1,Pd2..Pdn)를 후술하는 방법의 가중치를 부여한 합으로써 결합하여 단일의 통합된 데이터베이스인 패턴DB(PDB)를 구축하고,

나아가, 데이터분석부(33)는 정의된 로직인 패턴설정정의(PC)로써 패턴데이터를 분리하여 일반패턴DB(Gd)와 관심패턴DB(Id)를 생성시키며, 일반패턴DB(Gd)와 관심패턴DB(Id)는 후보패턴생성을 위한 패턴분석로직(PL)으로써 정의된 패턴특성의 패턴데이터들의 데이터베이스인 후보패턴DB(Cd)를 생성한다.

각각의 복수 개의 의료기관 간의 도메인단위의 단위패턴DB(Pd1,Pd2..Pdn)의 제 1의 규약은 청크를 대표하는 대표명칭의 관계는 두 시점(T1,T2)의 대표명칭이 같게 설정하여야 하는 것이다.

복수 개의 의료기관 간의 의료데이터(HD)의 단위패턴DB(Pd1,Pd2..Pdn)는 동일한 패턴 정보의 합인 패턴DB(PDB)로서 통합된다.

데이터분석부(33)는 패턴설정정의(PC)에 의하여 패턴DB(PDB)의 패턴데이터를 일반적인 정형성을 가지는 패턴데이터와, 주목하고 처리하여야 하는 관심패턴데이터를 각각 일반패턴DB(Gd)와 관심패턴DB(Id)의 데이터베이스로 구축하고,

일반패턴DB(Gd)와 관심패턴DB(Id)의 패턴데이터를 후술하는 연관규칙 평가지수의 계산, 연관규칙에 따른 후보의 선정, 후보 순위의 결정을 수행하는 패턴분석로직(PL)으로써 최종적인 결과물이고 유의미한 의료정보로서의 패턴데이터로서 추출하여 데이터베이스를 구축함으로써 후보패턴DB(Cd)를 만든다.

상기와 같은 시스템과 장치로서 수행하는 관심패턴 후보패턴의 구축방법은 도 6에서와 같이, 하기와 같은 단계를 포함하는 것으로서 정의된다.

복수 개의 의료기관으로부터 네트워크인터페이스(31)를 통하여 수집된 시계열의 의료데이터(HD)를 전송받아 수집하는 단계(S100),

데이터전처리부(32)에서 수집된 도메인단위의 의료데이터(HD)의 패턴데이터의 특징을 추출하기 이전에 데이터의 구조를 데이터전처리부(32)에서 변경하는 로우데이터가공단계(S110).

데이터전처리부(32)에서 의료데이터(HD)의 도메인단위의 비교를 통해, 인과관계 특징에 기초하는 로직으로서의 패턴추출정의(PD)로써 의료데이터(HD)의 패턴데이터를 추출하여 각각의 의료기관(H)의 단위패턴DB(Pd1,Pd2..Pdn)로 구축하는 단계(S120),

데이터전처리부(32)에서 각각의 의료기관(H)의 단위패턴DB(Pd1,Pd2..Pdn)의 결합체인 패턴DB(PDB)를 구축하는 단계(S130),

데이터전처리부(32)에서 구축된 패턴DB(PDB)의 패턴데이터를 데이터분석부(33)에서 정의된 패턴설정정의(PC)로써 분리하여 각각 일반패턴DB(Gd)와 관심패턴DB(Id)으로 구축하는 단계(S140),

데이터분석부(33)에서, 일반패턴DB(Gd)와 관심패턴DB(Id)의 패턴데이터로부터 후보패턴의 구축을 위하여 정의되는 패턴분석로직(PL)으로써 연관규칙 관계에 기초한 테이터마이닝에 의하여 후보패턴DB(Cd)를 데이터전처리부(32)에서 생성하도록, 연관규칙 평가지수를 계산하는 서브단계(S151), 연관규칙에 따른 후보를 선정하는 서브단계(S152), 후보패턴DB(Cd)에 수록되는 후보리스트 및 순위를 결정하는 서브단계(S153)를 포함하는 패턴분석로직(PL)을 수행하는 단계(S150) 및,

후보패턴DB(Cd)의 후가공 및 판매 등을 위한 활용단계(S160)를 적어도 포함하여야 한다.

이하에서는 위 각 단계에서의 구체적인 테이터처리를 설명한다.

도 7에 도시되는 바와 같이,

각각의 복수 개의 의료기관(H)으로부터 수집된 도메인단위의 의료데이터(HD)의 패턴데이터의 인과관계에 기초하는 특징을 추출하기 이전에, 의료데이터(HD)의 구조를 변경하는 로우데이터가공단계(S110)에서,

환자(P)의 의료기관(H)의 방문(Fv:초회방문을 포함한다.) 또는 재방문(Rv)에 따른 의료데이터(HD)의 청크단위(도메인단위)로 분할된 로우데이터(RD)를 예시적으로 시점(T1)과 시점(T2)...의 데이터정보를 결합하여 구축하는 과정으로 설명한다.

의료데이터(HD)를 청크 단위로 분할하여 살펴보면,

각각의 도메인단위의 개별적인 테이블(TB1)로서, 환자(P)의 의료기관(H) 방문시점인 시점(T1), 시점(T2), 시점(T3)에 대해 각각의 행(Row)으로 표현되는 1 개 이상의 대표명칭(문자데이터일 수 있다.), 복수 개의 수치데이터 1(투여약물 또는 검사결과치 등의 수치데이터일 수 있다.), 수치데이터 2, 수치데이터 3, .. 의 정보를 포함한 시계열 정보를 획득하여 구성할 수 있음을 도시한다.

여기에서 '대표명칭'이란 당뇨병, 심부전 등과 같은 병명으로서의 문자데이터가 될 수 있고, 시점(T1)의 방문(Fv:초회방문을 포함한다.)과 시점(T2)의 재방문(Rv)의 의료데이터가 된다. 상기 의료데이터(HD)를 가지는 데이터테이블(TB)들을 시점(T1)의 방문(Fv) 시와, 시점(T2)의 시점(T2)의 재방문(Rv) 시의 의료데이터를 결합한 형태로 구성하여 새로운 데이터테이블(TB2)을 구성할 수 있다.

그 예로, 시점(T1)의 방문(Fv) 시와, 시점(T2)의 재방문(Rv) 시의 정보를 하나의 행으로 표현하고, 시점(T2) 및 시점(T3)의 시점 정보를 하나의 행으로 나타낼 수 있다.

이렇게 얻어지는 상기 데이터테이블(TB2)의 데이터의 각 행은 두 시점의 대표명칭의 수 [N, M] 간에 표현할 수 있는 모든 관계를 행으로 표현하고, 기타 정보는 관련시켜 동일하게 하여 새로운 데이터테이블(TB3)을 구성하게 된다.

구성된 데이터테이블(TB3)은 각각의 방문 시점과 대표명칭에 따른 도메인의 모든 정보를 수록하게 되고 후가공을 위한 로우데이터(DU)가 된다.

도 8에는 선가공된 로우데이터(DU)를 사용하여 도메인단위의 비교를 통해, 인과관계 특징에 기초하여, 로우데이터(DU)의 패턴데이터의 특징을 추출하는 패턴특징추출(32-2)을 수행하여 각각의 의료기관(H)의 의료데이터(HD) 별로 단위패턴DB(Pd1,Pd2..Pdn)를 구축하는 방법이 도시되며,

이하와 같은 방법으로 정의되는 패턴추출정의(PD)를 이용하여, 재방문 데이터의 대표명칭 관계와 수치 관계를 로우데이터(DU)의 대표명칭데이터(ID)와 수치데이터(ND1,ND2.NDn)로부터 패턴특징을 추출한다.

대표명칭의 인과관계의 특징을 추출(B1)하고, 수치데이터 1의 인과관계의 특징에 따른 추출(B2), 수치데이터 2..의 인과관계의 특징에 따른 추출(B3..BN)을 수행하며 이는 패턴추출정의(PD)의 로직에 의하여 수행된다. 필요한 경우에는 위의 각각의 추출단계 이전에 인과관계에 영향을 미치는 데이터들의 그룹화 결과인 범주화(CT)가 가능할 것이다.

이러한 인과관계의 특징을 추출하는 방법을 하기와 같이 수행된다.

만일, 환자(P)의 의료기관(H)의 방문(Fv)과 재방문(Rv) 간의 대표명칭이 동일하면 즉, 도면의 블럭(B1)에서 FD11(A)-FD21(A)이면 "Related(0)"로 부여하고, 재방문(Rv) 시의 병명 즉, 대표명칭이 추가되면 즉, 블럭(B1)에서 FD11(_) -FD21(C)이면"Add(1)", 재방문(Rv) 시에 대표명칭이 제외되면 즉, 블럭(B1)에서 FD11(B)-FD21(_)이면 "Remove(-1)", 시점(T1)에서의 방문(Fv) 시의 대표명칭이 제외되고 시점(T2)의 재방문(Rv) 시의 대표명칭이 추가되면 즉, 블럭(B1)에서 FD11(A)-FD21(C)이면 "Changed(999)" 로 설정하도록 정의할 수 있을 것이다.

이상의 정의에서, "Related", "Add", "Remove","Changed"는 용어상의 정의일뿐 다른 어떠한 문어적인 정의 또는 수치적인 정의로도 대체될 수 있음은 물론이다.

또한, 동일한 방법으로 방문정보로서, 시점(T1)의 방문(Fv)이 외래방문이고 시점(T2)의 재방문(Rv)이 역시 외래방문이면 "Stable(0)"로, 시점(T1)에서는 외래방문이고 시점(T2)에서 외래외 방문이면 "Worse(-1)"로, 시점(T1)에서의 응급실방문이고 시점(T2)에서는 응급외 방문이면 역시 "Worse(-1)"로, 시점(T1)에서의 외래외 방문이고 시점(T2)에서 외래방문이면 "Better(1)"로 정의할 수 있을 것이다.

수치데이터 1의 인과관계의 특징에 따른 추출(B2)의 예로서는 특정한 검사의 수치의 증대를 'Increasing', 감소를 Decreasing'으로 정의한다거나, 수치데이터2..의 인과관계의 특징에 따른 추출(B3)은 투여하는 약물의 추가를 'Add', 동일하게 유지를 'General', 약물투여의 중단을 'Remove'로 설정하는 등의 방법으로 정의된다.

즉, 연속형 수치 변수 중 일부는 두 시점(T1,T2)의 차이값을 기초하여 그 차이의 증감을 하나의 관계로 나타내는 것이며, 선행된 방문에 비해, 투여약물의 처방용량이 증가하는 경우를 증가(Increasing), 반대로 감소하는 경우를 감소(Decreasing)로 표기하거나, 다른 연속형 수치 변수는 범위에 따라 이진 범주로 치환이 가능하며, 그 관계는 1→0, 1→1, 0→1, 0→0의 관계로 나타낼 수 있으며, 검사 수치를 예로 들면, 각각은 '정상수치(Normal)', '변화없음(Abnormal)', '악화되었음(Worse)', '호전되었음(Better)'으로 정의될 수 있다.

기타, 추가적인 의미(환자의 심리적 변동, 투여약물의 가격변동 등)는 변수에 따라 차등 부여할 필요가 있음은 물론이다.

상기와 같은 인과관계 특징에 따른 정의와 테이블결합으로써, 도메인단위로 두 시점(T1,T2)의 관계에 대한 인과관계의 특징으로 추출하고, 도메인데이터를 기준키를 이용하여 재결합하여 복수 개의 의료기관(H) 별의 단위패턴DB(Pd1,Pd2..Pdn)를 구축한다.

나아가, 대표명칭을 기준으로 빈도를 포함한 평균, 표준편차 등의 통계치로 표현하여 복수 개의 의료기관 간의 단위패턴DB(Pd1,Pd2..Pdn)의 결합에 의한 통합된 패턴DB(PDB)를 구축하게 된다.

패턴DB(PDB)는 각각의 의료기관에서 생성된 단위패턴DB(Pd1,Pd2..Pdn)의 결합을 의미하며, 일반적인 빈도 또는 범주 결과에 대한 결과는 단순 합으로 연산되며, 바람직하게는 연속형 수치 정보는 하기와 같은 수학식(1)의 가중평균(weighted mean)을 이용하여 계산한다.

[수학식 1]

여기서

는 각 기관의 수치형 정보의 평균에 대한 가중평균값이고, μi은 i번째 기관의 수치형 정보의 평균이고, Ni은 이 μi 계산에 사용되는 샘플수이고, S는 결합에 사용되는 기관의 총 개수이다.

이렇게 가중평균값을 각각의 의료기관(H)에 의료데이터(HD)에 적용함으로써 의료기관(H) 간의 편차 및 오차를 최소화할 수 있다.

이는 의료기관(H)과 의료진의 의료지식의 개인적인 차이, 예를 들면 의료진의 전문성의 편차, 특정질환에 투여하는 약의 개인적인 선호와 용량, 투여회수의 개인적 편차, 사용하는 수술 및 검사용의 의료장비의 수준차 등의 요소를 고려하여 최적화된 패턴DB(PDB)를 구축할 수 있게 된다.

의료기관(H)의 수치형 정보인 μi는 기히 구축된 HIRA 2017 데이터 자료를 OMOP CDM 변환자료 등을 통하여 구득할 수 있다.

위의 단위패턴DB(Pd1,Pd2..Pdn)의 구축을 더욱 상세하게 설명한다.

패턴추출정의(PD)의 블럭(Bp)에서와 같이, 인과관계 특징 1이 'Related'이고 인과관계 특징 2가 'Decreasing'이며 인과관계 특징 3이 'Better'이면 특정한 질병에 대하여 두 시점(T1,T2) 사이에 병명이 유지된 채로 특정 검사의 수치가 낮아져 증세가 호전됨을 의미할 것이다.

상기와 같이 패턴추출정의(PD)는 다양한 정의방법과 대응방법으로 변형, 정의되어 사용될 수 있음을 알 수 있다.

도 9는 데이터분석부(33)에서, 패턴추출정의(PD)에 의하여 구축된 패턴DB(PDB)가 데이터전처리부(32)에서의 패턴설정정의(PC)의 정의에 의하여 패턴DB(PDB)의 패턴데이터가 각각 분리추출되어 일반패턴DB(Gd)와 관심패턴DB(Id)의 데이터베이스로 구축되는 단계(S140)를 도시한다.

패턴DB(PDB)에서 정의한 도메인별 인과관계 특성을 선택하는 단계가 되며, 패턴설정정의(PC)는 다음과 같이 기능할 수 있다.

일반패턴DB(Gd)로 저장되는 패턴데이터의 예로서는 도 10에 도시되는 바와 같이, '방문정보 = Stable', '진단정보 = Related', '처방정보 = Related', '수술정보 = Related', '검사수치정보 = Related'로 환자(P)의 완치를 위한 치료과정이므로 정상적으로 인식되는 패턴데이터가 된다.

관심패턴DB(Id)로 저장되는 패턴데이터의 예로서는, '방문정보 = Stable', '진단정보 = Add', '처방정보 = Related', '수술정보 = Related', '검사수치정보 = Related'를 선택하면 치료과정 중에 추가적인 질환이 발생 또는 발견되었음을 알 수 있게 된다.

이를 모식적으로 도시하면 도 10은 일반패턴DB(Gd)의 예시이고 도 11은 관심패턴DB(Id)의 예시가 된다.

도 12는 일반패턴DB(Gd)와 관심패턴DB(Id)으로부터 유의미한 결합관계의 패턴데이터베이스를 추출하여 후보패턴데이터를 생성하기 위하여,

데이터전처리부(32)에서 패턴분석로직(PL)으로 정의된 인과관계 특징에 따라 패턴데이터를 추출하여 후보패턴DB(Cd)를 구축, 생성하는 단계(S150)를 도시하고, 도 13은 관심패턴DB(Id)으로부터 후보패턴DB(Cd)을 생성한 패턴데이터의 결과물의 예시적인 테이블, 도 14는 후보패턴DB(Cd)의 구체적인 시스템 활용의 결과를 도시한다.

일반패턴DB(Gd)와 관심패턴DB(Id)의 패턴데이터들이 가지는 의미있는 규칙을 찾고자 본 발명에서는 데이터마이닝기법인 '연관성 규칙'을 이용하여 후보패턴DB(Cd)를 구축하는 패턴분석로직(PL)을 수행한다.

후보패턴DB(Cd)를 데이터전처리부(32)에서 생성하는 단계(S150)에서의 패턴분석로직(PL)은 다시, 일반패턴DB(Gd)와 관심패턴DB(Id)의 패턴데이터들 사이의 연관규칙 평가지수를 계산하는 서브단계(S151), 평가지표에 따라 후보의 패턴데이터를 필터링하여 선정하는 서브단계(S152), 리프트비교방법으로써,

후보패턴DB(Cd)에 수록될 패턴데이터로서의 후보 순위를 결정하는 서브단계(153)를 세분화하여 포함하는 패턴분석로직(PL)을 수행하는 단계(S150)가 수행된다.

일반패턴DB(Gd)와 관심패턴DB(Id) 사이의 연관규칙 평가지수를 계산하는 서브단계(S151)에서의 '연관규칙'이란 조건-결과 식으로 표현되는 유용한 패턴관계를 말하며, 이를 위한 평가지표는 지지도(Support), 신뢰도(Confidence), 향상도(Lift)로 정의되며,

이는 어떤 조건과 그 결과 사이의 강한 규칙 관계를 발견하는데 사용하는 데이터마이닝(Data Mining) 기법중 하나로서, 다양한 학설로 정의되어 데이터베이스 구축분야에서는 널리 사용되고 있으며 본 발명에서는 그러한 일반적인 데이터마이닝기법을 적용하여 수행한다.

아래에서 예시적인 연관규칙을 설명한다.

'지지도(Support)'는 조건 - 결과가 동시에 발생할 확률을 의미하며, 신뢰도(Confidence)는 조건이 발생한 경우 중에 조건 - 결과가 발생한 확률을 의미한다.

또한, 향상도(Lift)는 조건이 고려되지 않고 결과가 발생한 확률 대비 조건이 고려되어 결과가 발생한 확률을 의미한다. 즉, 조건 - 결과에 대한 강한 관계의 규칙을 찾는다 것을 의미한다.

즉, 지지도 (Support)는 일반패턴DB(Gd)와 관심패턴DB(Id)의 패턴데이터 중에서 특정한 도메인에 대한 대표명칭의 데이터와, 수치명칭1,2,3..n의 전체의 데이터수와 관심을 가지게 되는 데이터를 모두 포함하는 패턴데이터수의 비율을 의미한다.

지지도는 좋은 규칙(빈도가 많은, 구성비가 높은)을 찾는 데에 사용되며, 만일, 전체 관심패턴DB(Id)와 일반패턴DB(Gd)의 총 패턴데이터의 수를 'N'이라 하고 대표명칭이 당뇨병(X)인 경우, 특정 약물을 사용하였을 때에 심부전(Y)이 발생하는 총패턴데이터의 수를 'n' 이라 하여 계산하면 지지도는 조건 - 결과가 동시에 발생할 확률이므로,

지지도(support) s(X→Y): = X 와 Y를 모두 포함하는 데이터수 / 전체 데이터수 = n(X∪Y) / N 와 같이 된다.

즉, 관심패턴DB(Id)과 일반패턴DB(Gd)의 패턴데이터로부터, 관심패턴DB(Id)의 패턴데이터의 수로서 당뇨병(X)이 250 이고, 당뇨병환자가 특정 약물을 사용하였을 때에 심부전(Y)이 발생하는 총 패턴데이터의 수가 50 이라면, 지지도는 50/(250 + 50) = 0.17이 된다.

이 경우는 관심패턴DB(Id)의 패턴데이터 중에서, '방문정보=Stable', '진단정보(대표명칭) = Add', '처방정보='Add', '수술정보=Related', '검사수치정보=' Add'로 나타나는 경우가 될 것이다.

신뢰도(Confidence)는 조건이 발생한 경우 중에 조건-결과가 발생한 확률이므로 신뢰도(Confidence) c(X→Y); = X 와 Y를 모두 포함하는 데이터수 / X 가 포함된 데이터수 n(X∪Y) / n(X) 로 정의되어 진다.

즉, 관심패턴DB(Id)과 일반패턴DB(Gd)의 패턴데이터의 당뇨병(X)과 심부전(Y)을 모두 가지는 패턴데이터의 수가 60 이고, 당뇨병(X) 만 가지는 패턴데이터의 수가 250 이라면, 60/250 = 0.24가 된다.

향상도(Lift)는 조건이 고려되지 않고 결과가 발생한 확률 대비 조건이 고려되어 결과가 발생한 확률이므로, 향상도가 1 보다 크거나( +의 관계) 작다면( -의 관계), 일반패턴DB(Gd)에서의 패턴데이터에 비하여 관심패턴DB(Id)의 패턴데이터의 우연적 기회(random chance)가 우수함을 의미한다.

만일, X 와 Y가 서로 독립하는 관계이면 향상도(Lift) = 1 이 될 것이다.

향상도(Lift) = 연관규칙의 신뢰도/지지도 = c(X→Y) / s(Y)

즉, 위의 예시적인 경우, 향상도(Lift)는 0.24/0.17 = 1.41 이 된다.

따라서, 관심패턴DB(Id)에서의 패턴데이터의 향상도가 일반패턴DB(Gd)에서의 패턴데이터의 향상도보다 크면 관심패턴DB(Id)의 특정한 패턴데이터는 매우 높은 상관관계를 보여줌을 의미한다.

위와 같은 연관규칙에 따라서, 일반패턴DB(Gd)와 관심패턴DB(Id)의 패턴데이터의 연관규칙 평가지수를 계산하는 서브단계(S151)를 수행하고, 빈도 또는 지지도 또는 신뢰도를 이용하여 관심 주제를 필터링하여 선정하는 서브단계(S152), 리프트 비교에 의하여 일반패턴DB(Gd)와 관심패턴DB(Id)으로부터 후보 순위를 결정하여 최종적인 후보패턴DB(Cd)을 구축하는 서브단계(153)를 부가적으로 수행하게 된다.

예를 들면, 최소빈도는 30, 최소신뢰도는 0.9를 설정하여 후보 패턴데이터를 필터링하고, 관심패턴DB(Id)의 패턴데이터의 향상도가 일반패턴DB(Gd)의 패턴데이터의 향상도보다 강한 규칙을 찾아서 강한 순서대로 정렬하는 것이다.

정렬 방법은 일반패턴DB(Gd)의 향상도에 대비, 일반패턴DB(Gd)와 관심패턴DB(Id)의 향상도(Lift)의 차이의 크기에 대한 비율이 큰 순으로 나타내는 아래의 수학식(2)을 적용할 수 있다.

[수학식 2]

도 13에 상기의 연관규칙에 따라 얻어진 후보패턴DB(Cd)의 예시가 도시되어있으며 대표명칭에 관련하는 환자의 상태컨셉-약물컨셉-조건명-약물명-일반패턴-제거패턴-차이패턴으로 규정하여 후보패턴DB(Cd)을 설정한 예이다.

본 발명의 의료기관 간 의료데이터통합을 이용한 관심패턴 후보탐색방법에 의하여 구현된 결과물의 피드백 활용례를 도시하기 위한 도 14의 인터페이스의 리스트와, 후보약물리스트(105)의 예시적인 예로서의 도 15에서와 같이,

실제의 건강보험심사평가원(HIRA)의 OMOP CDM 데이터를 이용하여,

일반패턴DB(Gd)와 관심패턴DB(Id)의 패턴데이터 사이의 연관규칙 평가지수로써 산출한 일반패턴DB(Gd)와 관심패턴DB(Id)의 패턴데이터의 향상도와 상호 간의 향상도 차이를 도시하고 높은 상관성순위를 순서대로 보여준다.

도표에서 판단할 수 있는 바는, 당뇨병 환자 중에서 심부전(Heart failure) 진단이 추가되는 패턴데이터에서 처방받은 약물과의 관계를 살펴본 결과, 당뇨병 환자에게 처방되는 약물 중에, 관심패턴DB(Id)와 일반패턴DB(Gd)의 패턴데이터로부터 생성된 후보패턴DB(Cd)의 패턴데이터로부터 발견되는 심부전 발생과 관련성이 높은 약물 순서는 1순위로 알마게이트(almagate), 2순위로 날록손(Naloxone), 3순위 티로프라미드(tiropramide)로 높은 상관성을 보이는 것으로 판단할 수 있다.

만약, 특정 약물의 부작용 패턴을 찾고 싶다면, 특정 그룹군에서 처방약물A-일반패턴와 처방약물A-관심패턴 중 후자의 관계가 더 강함을 보이면 된다.

실제적으로 이상과 같은 본 발명의 의료기관 간 통합 의료데이터를 이용하여 얻어지는 후보패턴DB(Cd)의 상업적이고도 학술적인 사용은,

도 14, 15와 같은 관심패턴DB(Id)의 패턴데이터에 대한 투여약물의 후보군 또는 진단의 후보군과 같은 후보군 리스트를 의료기관(H)의 의료인력에게 피드백하여 제공할 수 있고 이는 상업적인 정보로서 활용된다.

본 발명의 의료기관 간 의료데이터통합을 이용한 관심패턴 후보탐색방법에 의하여 구현된 결과물의 피드백 활용례를 도시하기 위한 인터페이스의 예가 도 14의 도시된다.

만일, 특정진단제거패턴을 선택(100: 즉, 치료하고자 하는 질환의 패턴의 선택)한 상태에서 예를 들어, '급성하기도 감염을 동반한 만성폐쇄성 폐질환(chronic ostructive pulmonary disease with acute lower repiratory infection)'을 선택(102)하면, 통상적인 약리적인 투여약물인 '로수바스타틴칼슘(rosuvastatin calcium)'과 '리나글립틴(linagliptin)'이 추천처방윈도우(101) 상에 제시되고, 본 발명에 따른 결과물로서의 최적의 투여약물(104)이 후보패턴DB(Cd)에 의하여 생성되는 후보약물리스트(105)에 제시되며,

의료진은 추천처방윈도우(101) 상에 제시된 약물 중에,

리나글립틴(linagliptin) 5mg, 경구타블렛'보다는, 로수바스타틴칼슘(rosuvastatin calcium) 20mg 경구타블렛'이 지지도 및 신뢰도에 근거한 연관관계가 높으므로 이 약물을 환자에게 처방하는 것이 더욱 치료효과가 높았음을 판단하여 이 약물을 투여하는 처방을 발행하게 되는 것으로써, 이는 축적된 복수 개의 의료기관(H)으로부터의 의료데이터(HD)로부터 얻어진 본 발명의 결과물이 된다.

본 발명의 의료기관 간 의료데이터통합을 이용한 관심패턴 후보탐색방법과 장치에 따르면 다음과 같은 예시적인 유의미한 데이터를 후보패턴DB(Cd)로 구축하여 활용할 수 있다.

[ 조합예 1]

일반적인 진단별 처방/수술 정보,

[ 조합예 2]

상기 조합예 1의 약물 리스트와의 차집합을 통한 부작용 리스트 ,

[ 조합예 3 ]

부작용 발생까지의 투여약물의 종류 및 누적 투여용량의 수치;

등이 될 수 있을 것이다.

H: 의료기관
10: 네트워크
20: 단말기
30: 의료데이터처리장
40: 스토리지
50: 메인프로세서

Claims

환자의 방문 시점(T1)과 재방문의 시점(T2..) 간의 의료행위에 의하여 복수의 의료기관(H)의 서버에 누적된 시계열의 의료데이터(HD)를 통합하고, 상기 의료데이터(HD)로부터 유의미한 테이터의 관심패턴을 탐색하여 부가적인 의료서비스를 제공하기 위한 의료기관 간 의료데이터통합을 이용한 관심패턴 후보탐색방법에 있어서,
상기 관심패턴 후보탐색방법은;
복수 개의 상기 의료기관으로부터 네트워크인터페이스를 통하여 수집된 시계열의 상기 의료데이터(HD)를 전송받아 수집하는 단계(S100),
수집된 도메인단위의 상기 의료데이터(HD)의 패턴데이터의 특징을 추출하기 이전에 데이터의 구조를 변경하여 로우데이터(DU)를 얻는 로우데이터가공단계(S110),
상기 의료데이터(HD)의 상기 로우데이터(DU)로부터 도메인단위의 비교를 통해, 인과관계 특징에 기초하는 로직으로서의 패턴추출정의(PD)로써 패턴데이터를 추출하여 상기 복수의 의료기관(H)의 각각의 단위패턴DB(Pd1,Pd2..Pdn)로 구축하는 단계(S120),
상기 의료기관(H)의 각각의 상기 단위패턴DB(Pd1,Pd2..Pdn)로부터 도메인단위 데이터의 결합체인 패턴DB(PDB)를 구축하는 단계(S130),
상기 패턴DB(PDB)의 패턴데이터를 정의된 패턴설정정의(PC)로써 분리하여 각각 일반패턴DB(Gd)와 관심패턴DB(Id)로 구축하는 단계(S140),
상기 후보패턴의 구축을 위하여 정의되는 패턴분석로직(PL)으로써 상기 일반패턴DB(Gd)와 상기 관심패턴DB(Id)의 패턴데이터를 연관규칙 관계의 테이터마이닝으로 후보패턴DB(Cd)를 생성하는 단계(S150),
생성된 상기 후보패턴DB(Cd)의 후가공 및 판매를 위한 활용단계(S160);
를 적어도 포함하는 것을 특징으로 하는 의료기관 간 의료데이터통합을 이용한 관심패턴 후보탐색방법.
제 1 항에 있어서;
상기 로우데이터가공단계(S110)는;
상기 의료데이터(HD)의 청크 단위(도메인단위)로 분할된 개별적인 테이블(TB1)에서, 상기 환자(P)의 의료기관(H) 방문시점인 시점(T1), 시점(T2...)에 대하여 각각의 행(Row)으로 표현되는 1 개 이상의 대표명칭, 복수 개의 수치데이터 1,2..의 정보를 포함한 시계열 정보를 결합하여 새로운 데이터테이블(TB2)을 구성하고,
상기 데이터테이블(TB2)의 데이터의 각 행은 상기 두 시점(T1,T2)의 대표명칭의 수 [N, M] 간에 표현할 수 있는 모든 관계를 행으로 표현하고, 기타 정보는 관련시켜 얻은 새로운 데이터테이블(TB3)을 구성하여,
도메인단위의 모든 정보를 수록하는 후가공용의 로우데이터(DU)를 얻는 것을 특징으로 하는 의료기관 간 의료데이터통합을 이용한 관심패턴방법.
제 1 항에 있어서,
상기 후가공용의 로우데이터(DU)로부터 각각의 상기 의료기관(H)의 단위패턴DB(Pd1,Pd2..Pdn)로 구축하는 단계(S120)는 상기 로우데이터(DU)의 대표명칭데이터(ID)와 수치데이터(ND1,ND2.NDn)로부터 패턴특징을 추출하는 패턴추출정의(PD)로써 수행하고, 상기 패턴추출정의(PD)는;
상기 환자(P)의 상기 의료기관(H)의 방문(Fv)과 재방문(Rv) 간의 도메인단위의 문자데이터 및 수치데이터 1,2..의 변동성에 따라 부여되는 정의된 용어와 수치적 정의의 변동성 또는 동일성에 따라 분류하여,
상기 복수 개의 의료기관(H) 별로 단위패턴DB(Pd1,Pd2..Pdn)를 구축하는 것을 특징으로 하는 의료기관 간 의료데이터통합을 이용한 관심패턴 후보탐색방법.
제 1 항에 있어서,
상기 단위패턴DB(Pd1,Pd2..Pdn)의 결합체인 패턴DB(PDB)를 구축하는 단계(S130)는;
상기 도메인단위의 대표명칭을 기준으로 빈도를 포함한 평균, 표준편차 등의 통계치로 표현하여 복수 개의 상기 의료기관의 상기 단위패턴DB(Pd1,Pd2..Pdn)의 결합으로서 통합된 패턴DB(PDB)를 구축하고,
상기 단위패턴DB(Pd1,Pd2..Pdn)의 결합은 빈도 또는 범주 결과에 따라 단순 합으로 연산하고, 연속형 수치 정보는,

(
는 각 기관의 수치형 정보의 평균에 대한 가중평균값, μi은 i번째 기관의 수치형 정보의 평균, Ni은 이 μi 계산에 사용되는 샘플수, S는 결합에 사용되는 기관의 총 개수);
의 식으로 가중평균(weighted mean)으로써 계산하여 얻음으로써 상기 복수의 의료기관(H) 간의 편차 및 오차를 최소화하는 것을 특징으로 하는 의료기관 간 의료데이터통합을 이용한 관심패턴 후보탐색방법.
제 1 항에 있어서,
상기 패턴DB(PDB)로부터 상기 일반패턴DB(Gd)와 상기 관심패턴DB(Id)로 구축하는 단계(S140)는 정의된 패턴설정정의(PC)로써 분리,구축하고, 상기 패턴설정정의(PC)는;
상기 일반패턴DB(Gd)는 상기 도메인단위에 따라 부여되는 문자데이터와 수치데이터의 정의된 용어 또는 수치값의 동일성과 변동성을 판단하여, 정상적으로 변동이 없는 패턴데이터의 집합으로 하고,
상기 관심패턴DB(Id)는 상기 도메인단위의 변동성에 따라 부여되는 문자데이터와 수치데이터의 정의된 용어 또는 수치값의 동일성과 변동성을 판단하여 비정상인 변동성을 가지는 패턴데이터의 집합으로 하도록 정의되어지는 것을 특징으로 하는 의료기관 간 의료데이터통합을 이용한 관심패턴 후보탐색방법.
제 1 항에 있어서,
상기 일반패턴DB(Gd)와 상기 관심패턴DB(Id)로부터, 상기 후보패턴DB(Cd)를 구축하는 단계(S150)는 정의된 패턴분석로직(PL)으로써 수행하고 상기패턴분석로직(PL)은;
연관규칙 평가지수를 계산하는 단계(S151),
상기 연관규칙에 따른 후보를 선정하는 단계(S152),
상기 후보패턴DB(Cd)에 수록되는 후보리스트 및 순위를 결정하는 단계(S153)의 서브단계를 더 포함하고;
상기 연관규칙 평가지수는 데이터마이닝기법에 따른 '연관성 규칙'을 이용하고, 상기 '연관규칙'의 평가지표로서 지지도(Support), 신뢰도(Confidence), 향상도(Lift)로 정의하여,
상기 지지도(support) s(X→Y): = X 와 Y를 모두 포함하는 데이터수 / 전체 데이터수 = n(X∪Y) / N, 상기 신뢰도(Confidence)는 조건이 발생한 경우 중에 조건-결과가 발생한 확률이므로 신뢰도(Confidence) c(X→Y); = X 와 Y를 모두 포함하는 데이터수 / X 가 포함된 데이터수 n(X∪Y) / n(X), 향상도(Lift) = 연관규칙의 신뢰도/지지도 = c(X→Y) / s(Y)로 정의하며,
상기 후보의 선정 및 상기 후보패턴DB(Cd)에 수록되는 후보리스트 및 그 순위의 결정은 상기 일반패턴DB(Gd)의 향상도에 대비, 상기 일반패턴DB(Gd)와 상기 관심패턴DB(Id)의 향상도(Lift)의 차이의 크기에 대한 비율이 큰 순으로서,

로 규정되는 것을 특징으로 하는 의료기관 간 의료데이터통합을 이용한 관심패턴 후보탐색방법.
환자의 방문 시점(T1)과 재방문(Rv)의 시점(T2..) 간의 의료행위에 의하여 복수의 의료기관(H)의 서버에 누적된 시계열의 의료데이터(HD)를 통합하고, 상기 의료데이터(HD로부터 유의미한 테이터의 관심패턴을 탐색하기 위한 의료기관 간 의료데이터통합을 이용한 관심패턴 후보탐색장치에 있어서,
상기 후보탐색장치는;
상기 의료데이터(HD)를 저장하는 의료DB(11,,,N)들을 데이터 연결하는 네트워크(10) 및 복수 개의 단말기(20), 상기 의료데이터(HD)를 데이터처리하는 의료데이터처리장치(30), 상기 의료데이터처리장치(30)에 의하여 처리된 데이터가 축적되는 일반패턴DB(Gd)와 관심패턴DB(Id) 및 이들로부터 구축되는 후보패턴DB(Cd)를 저장하는 스토리지(40) 및 메인프로세서(50)를 적어도 포함하는 것을 특징으로 하는 의료기관 간 의료데이터통합을 이용한 관심패턴 후보탐색장치.
제 7 항에 있어서,
상기 의료데이터처리장치(30)는 메모리(M)에 상주하는 프로그램인 데이터전처리부(32)와 데이터분석부(33)를 가지고,
상기 데이터전처리부(32)는;
상기 네트워크(10)와 연결되는 네트워크인터페이스(31)로부터의 의료데이터(HD)의 수신 및 입력을 수행하는 데이터수신/입력부(32-1),
상기 의료데이터(HD)로부터 정의된 로직인 패턴추출정의(PD)로써 각각의 상기 의료데이터(HD)의 단위패턴DB(Pd1,Pd2..Pdn)를 구축하는 패턴특징추출부(32-2),
상기 단위패턴DB(Pd1,Pd2..Pdn)로부터 패턴합인 패턴DB(PDB)를 구축하는 패턴DB결합부(32-3)를 가지고,
상기 데이터분석부(33)는;
상기 패턴DB(PDB)를 정의된 로직인 패턴설정정의(PC)로써 일반적인 패턴특성을 가지는 패턴데이터와, 관심을 두어야 하는 패턴데이터를 분리하여, 분리된 상기 패턴데이터로부터 일반패턴DB(Gd)와 관심패턴DB(Id)를 구축하고,
상기 일반패턴DB(Gd)과 관심패턴DB(Id)로부터 분석로직(PL)으로써 후보패턴DB(Cd)를 구축하는 장치인 것을 특징으로 하는 의료기관 간 의료데이터통합을 이용한 관심패턴 후보탐색장치.