KR102142857B1

KR102142857B1 - 코호트 데이터의 혼란변수에 따른 계층화 및 질병 간 발생 시간이 고려된 질병 네트워크 구축 방법, 그 시각화 방법 및 이를 기록한 컴퓨터 판독 가능한 기록매체

Info

Publication number: KR102142857B1
Application number: KR1020180050851A
Authority: KR
Inventors: 한현욱; 유종만; 이동현; 윤호; 황태선; 이채원; 김강현; 남상민
Original assignee: 차의과학대학교 산학협력단
Priority date: 2018-05-02
Filing date: 2018-05-02
Publication date: 2020-08-10
Also published as: KR20190126658A; WO2019212262A1; US20210057110A1; JP2021523499A; EP3790016A1; EP3790016A4

Abstract

본 발명에 따른 질병 네트워크 구축 방법은, 코호트 데이터를 시계열적으로 정리하는 (1)과정과; 상기 (1)과정에서 정리된 데이터를 혼란변수별로 계층화 내지 그룹화하는 (2)과정과; 상기 (2)과정에서 계층화 내에서 질병의 상관성을 도출하는 (3)과정과; (3)과정에서 도출된 상관성에 기초하여 질병 네트워크를 구축하는 (4)과정;을 포함하는 것을 특징으로 한다.
이에, 본 발명에 따르면, 질병은 연령, 성별, 인종, 사회경제적 변수, 지역 및 국가 보건의료체계 등과 같은 다양한 임상의학적 혼란변수에 의해 영향을 받을 수 있기 때문에 질병 간의 연관성을 보다 신뢰성 있게 도출할 수 있는 방법을 제공할 수 있다.

Description

코호트 데이터의 혼란변수에 따른 계층화 및 질병 간 발생 시간이 고려된 질병 네트워크 구축 방법, 그 시각화 방법 및 이를 기록한 컴퓨터 판독 가능한 기록매체 {Disease Network Construction Method considering Stratification according to confounding factors of Cohort data and Disease occurring time between the diseases, Its Visualization Method and Computer Readable Record Medium thereof}

본 발명은, 코호트 데이터의 혼란변수에 따른 계층화 및 질병 간 발생 시간이 고려된 질병 네트워크 구축 방법, 그 시각화 방법 및 이를 기록한 컴퓨터 판독 가능한 기록매체에 관한 것으로, 구체적으로 심평원이나 건강보험공단 혹은 미국의 메디케어 데이터를 포함하는 시계열별로 정리된 환자의 코호트 임상 데이터를 이용하여 환자의 연령, 성별, 인종, 사회경제적 변수, 복용 중인 약물, 해당 지역 등과 같은 혼란변수 별로 계층화를 구성하고 계층화된 데이터로부터 상대 위험도와 상관분석에 의한 상관계수를 통해 질환들 간의 발생 위험도를 추출하고 이를 다시 전체 코호트에 합쳐 혼란변수별로 네트워크를 재구성하는 방법, 구축된 네트워크의 링크에 추출한 계층화 변수와 질병 간 발생 시간적 차이를 시각화하는 방법, 그리고 구축된 질병 네트워크의 각 노드와 링크 선택에 따른 다양한 임상적 변수를 시각화할 수 있는 코호트 데이터의 혼란변수에 따른 계층화 및 질병 간 발생 시간이 고려된 질병 네트워크 구축 방법, 그 시각화 방법 및 이를 기록한 컴퓨터 판독 가능한 기록매체에 관한 것이다.

네트워크 분석을 위해서는 양질의 네트워크 데이터 확보가 필수적인데 기존의 전통적인 네트워크 구축에 관한 연구방법은 설문조사, 문헌조사, 데이터 마이닝 등이 있다.

특히, 의학 분야에서도 네트워크에 관한 연구가 활발히 이루어지고 있는데 여기에는 유전자 네트워크, 단백질 상호작용 네트워크, 약물 상호작용 네트워크, 약물-유전자 네트워크 및 질병 상호작용 네트워크 등이 있다.

질병 네트워크 연구의 최근 쟁점은 임상 데이터를 이용해 질환 간 발생의 선후관계, 상대 위험도, 방향성, 유병률, 발생률, 성별, 연령별 네트워크의 시각화하고 분석하는 것인데 질병은 연령, 인종, 성별, 사회경제적 변수, 복용하는 약, 지리적 차이 등 다양한 원인에 의해 서로 다른 양상을 보일 수 있음에도 불구하고 이를 전체론적인 입장에서 구성하여 해석하기 때문에 네트워크를 구축하고 나서도 그 효용성에 대해서는 지속적으로 문제가 제기 되어 왔다.

또한, 기존의 임상 데이터 기반 질병 네트워크의 구축에 사용했던 측정치가 천편일률적으로 상대위험도만을 사용하여 구축하였는데 이는 짧은 시간 관찰에서 질병 상호관계 파악에 유용한 방법이긴 하나 시계열 데이터를 이용한다면 시간의 개념을 도입해 좀 더 민감한 측정치인 상관분석을 통한 상관계수를 측정해서 네트워크를 구축하는 것이 바람직할 것이다.

한편, 기존의 질병 네트워크는 질병 선후관계 (방향성), 상대위험도는 고려가 되었으나, 질병 간의 발생의 시간적 차이를 고려하지 못했고 여러 계층화변수를 고려해서 질병 네트워크를 시각화하지 못했다는 문제점을 가지고 있다.

이와 같은 관점에서 장기간에 걸쳐 시계열적으로 병원에 방문하는 환자들의 임상 질환 데이터베이스를 활용한다면 혼란 변수, 질병 간 발생의 시간적 차이, 상관분석에 의한 질병 네트워크 모델링 방법을 통해 질병 예측기술, 이를 시각화하는 방법 등을 보다 구체적으로 파악하는 것이 바람직하다.

[참고문헌]

공개특허공보 제10-2016-0043777호 (2016. 04. 22. 공개)

본 발명의 목적은, 장기간(예를 들면, 10년 이상) 축척된 환자의 코호트 빅 데이터를 이용하여 환자의 연령, 성별, 인종, 사회경제적 변수, 복용 중인 약물, 해당 지역, 요양기관 등과 같은 혼란변수를 이용해 코호트를 계층화한 후 계층화된 데이터 내에서 질환간의 상대위험도를 계산하여 계층화 네트워크를 우선적으로 구축하고 이후 계층화 네트워크를 다시 하나의 전체 질환 네트워크로 통합하여 구축하는 코호트 데이터의 혼란변수에 따른 계층화 및 질병 간 발생 시간이 고려된 질병 네트워크 구축 방법, 그 시각화 방법 및 이를 기록한 컴퓨터 판독 가능한 기록매체를 제공하는 것이다.

또한, 본 발명의 다른 목적은, 위와 유사한 방법으로 장기간(예를 들면, 10년 이상) 축척된 환자의 코호트 빅 데이터를 이용하여 환자의 연령, 성별, 인종, 사회경제적 변수, 복용 중인 약물, 해당 지역, 요양기관 등과 같은 혼란변수를 이용해 계층화한 후 계층화된 데이터 내에서 첫해 데이터로부터 특정 질환을 앓았던 경험이 있는 사람과 그렇지 않은 사람들을 구분하고 시계열(연도)에 따라 각 그룹에 새롭게 관찰하고자 하는 질환의 유병율을 구해 각 그룹을 상관분석하고 이후 두 상관계수의 차이를 봄으로써 특정질환과 관찰하는 질환과의 상관관계를 밝히고 이를 다시 하나의 전체 질환 네트워크로 통합하여 시각화하는 코호트 데이터의 혼란변수에 따른 계층화 및 질병 간 발생 시간이 고려된 질병 네트워크 구축 방법, 그 시각화 방법 및 이를 기록한 컴퓨터 판독 가능한 기록매체를 제공하는 것이다.

또한, 본 발명의 또 다른 목적은, 인구 집단 내에서 한 질병에서 또 다른 질병으로 이행하는 평균기간을 계산하여 네트워크의 링크 정보로 활용해 시각화 하는 코호트 데이터의 혼란변수에 따른 계층화 및 질병 간 발생 시간이 고려된 질병 네트워크 구축 방법, 그 시각화 방법 및 이를 기록한 컴퓨터 판독 가능한 기록매체를 제공하는 것이다.

또한, 본 발명의 또 다른 목적은, 구축된 질병 네트워크와 시각화 방법 및 질병 네트워크를 위해 사용된 분석된 데이터를 이용하여 새롭게 코호트에 진입하는 환자의 시계열 질병 데이터를 이용해 향후 발생할 수 있는 질병이 무엇인지 예측해 주는 코호트 데이터의 혼란변수에 따른 계층화 및 질병 간 발생 시간이 고려된 질병 네트워크 구축 방법, 그 시각화 방법 및 이를 기록한 컴퓨터 판독 가능한 기록매체를 제공하는 것이다.

또한, 본 발명의 또 다른 목적은, 구축된 질병 네트워크의 다양한 임상적 속성들을 시각화하는 코호트 데이터의 혼란변수에 따른 계층화 및 질병 간 발생 시간이 고려된 질병 네트워크 구축 방법, 그 시각화 방법 및 이를 기록한 컴퓨터 판독 가능한 기록매체를 제공하는 것이다.

본 발명의 목적은, 질병 네트워크 구축 방법에 있어서, 코호트 데이터를 시계열적으로 정리하는 (1)과정과; 상기 (1)과정에서 정리된 데이터를 혼란변수별로 계층화 내지 그룹화하는 (2)과정과; 상기 (2)과정에서 계층화 내에서 질병의 상관성을 도출하는 (3)과정과; (3)과정에서 도출된 상관성에 기초하여 질환 네트워크를 구축하는 (4)과정;을 포함하는 것을 특징으로 하는 질병 네트워크 구축 방법에 의해 달성된다.

또한, 상기 (2)과정에서 혼란변수는 환자의 연령, 성별, 인종, 복용 중인 약물, 해당 지역, 요양기관을 포함하는 것이 바람직하다.

또한, 상기 (3)과정은, 선행질환과 후행질환의 상대위험도를 산출하는 과정 또는 질환 간의 상관관계를 분석하는 과정을 포함하는 것이 바람직하다.

또한, 상기 (3)과정에서는 질환의 발생기간을 고려하는 과정이 더 포함된 것이 바람직하다.

또한, 상기 코호트 데이터는 건강보험공단, 건강보험심사평원의 데이터, 미국의 메디케어 데이터 또는 의료 빅데이터 공유를 위한 국제 오딧세이 컨소시엄의 공통데이터모델(CDM) 기반 데이터를 포함하는 것이 바람직하다.

또한, 상기 (4)과정은, 혼란변수별 계층화된 서브네트워크 구축 과정과, 구축된 상기 서브네트워크를 통합하는 과정을 포함하는 것이 바람직하다.

또한, 상기 서브네트워크를 통합하는 과정은 상기 각 서브네트워크의 계층화된 각 그룹 간 평균값 또는 최대값을 선택하여 통합하는 것이 바람직하다.

한편, 본 발명의 목적은, 질병 네트워크 구축 방법을 통해 도출된 각 질환 간의 상호 연관되었는지를 시각적으로 표시하는 이미지 시각화를 포함하는 것을 특징으로 하는 질병 네트워크 시각화 방법에 의해서도 달선된다.

또한, 사용자가 상기 혼란변수를 하나 또는 복수로 선택하면 사용자의 선택에 따라 상기 질병 네트워크가 재구축되고 재구축된 결과에 기초하여 각 질환 간의 상호 연관되었는지를 시각적으로 표시하는 이미지 시각화를 포함하는 것이 바람직하다.

다른 한편, 본 발명의 목적은, 질병 네트워크 구축 방법 또는 질병 네트워크 시각화 방법을 포함하는 것을 특징으로 하는 컴퓨터로 판독 가능한 기록매체에 의해서도 달성된다.

본 발명에 따르면, 질병은 연령, 성별, 인종, 사회경제적 변수, 지역 및 국가 보건의료체계 등과 같은 다양한 임상의학적 혼란변수에 의해 영향을 받을 수 있기 때문에 질병 간의 연관성을 보다 신뢰성 있게 도출할 수 있는 코호트 데이터의 혼란변수에 따른 계층화 및 질병 간 발생 시간이 고려된 질병 네트워크 구축 방법, 그 시각화 방법 및 이를 기록한 컴퓨터 판독 가능한 기록매체를 제공할 수 있다.

또한, 이렇게 구성된 각 질병 네트워크는 각 계층화 내에서 도출될 결과물이기 때문에 각 계층화된 질병 네트워크를 통합해 하나의 전체 질병 네트워크를 도출하고 이를 통해 코호트 데이터의 혼란변수에 따른 계층화 및 질병 간 발생 시간이 고려된 질병 네트워크 구축 방법, 그 시각화 방법 및 이를 기록한 컴퓨터 판독 가능한 기록매체를 제공할 수 있다.

또한, 임상데이터 기반의 질병 네트워크 구축을 위해 그동안 대부분 사용하던 통계방법은 전통적으로 이변량 범주형 자료분할표 (Contingency Table)에 기초해 단순히 질병위험도를 계산하였는데 만일 장기간의 시계열 데이터를 이용할 수 있다면 독립변수를 연도로 설정하고 종속변수를 질병 발생건수, 발생율 또는 유병율로 설정하여 회귀분석에 기초해 회귀계수를 계산함으로써 질병 간의 연관관계를 파악할 수 있는 코호트 데이터의 혼란변수에 따른 계층화 및 질병 간 발생 시간이 고려된 질병 네트워크 구축 방법, 그 시각화 방법 및 이를 기록한 컴퓨터 판독 가능한 기록매체를 제공할 수 있다.

또한, 그 동안 질병 네트워크에서는 발병되는 질병 간의 방향성 및 연관성 강도 등은 고려되었으나 한 질병이 다른 질병으로 이환되는 시간은 전혀 고려되지 않았기 때문에 장기간 관찰되는 코호트 데이터가 전체 환자의 시계열적 데이터라고 가정한다면 한 질병에서 다른 질병으로 이환되는 평균 시간을 계산할 수 있는 코호트 데이터의 혼란변수에 따른 계층화 및 질병 간 발생 시간이 고려된 질병 네트워크 구축 방법, 그 시각화 방법 및 이를 기록한 컴퓨터 판독 가능한 기록매체를 제공할 수 있다.

또한, 상기 구축된 질병 네트워크의 효율적인 활용성 내지 사용성을 향상시키기 위해 해당 노드와 링크에 대한 보다 자세한 정보(예를 들면, 총 환자 수, 질병 노드 및 링크의 환자 수, 질병 노드 및 링크의 성별 환자 수, 질병 노드 및 링크의 성별 비율, 질병 노드 및 링크의 연도별 환자 수, 질병 노드 및 링크의 연도별/성별 환자 수, 질병 노드 및 링크의 연도별/성별 비율, 질병 노드 및 링크의 연령별 환자 수, 질병 노드 및 링크의 연령별 비율, 질병 노드 및 링크의 연도별/연령별 환자 수, 질병 노드 및 링크의 연도별/연령 비율, 질병 노드 및 링크의 연도별/성별/연령별 환자 수, 질병 노드 및 링크의 연도별/성별/연령별 환자 비율, 질병노드 및 링크의 연도별 유병율, 질병 노드 및 링크의 연도별 발생율, 질병 노드 및 링크의 해당 질병으로 인해 복용했던 약물 분포, 질병 노드 및 링크의 사회경제적 변수 분포, 질병 노드 및 링크의 인종분포, 질병노드 및 링크의 지역 분포, 질병노드 및 링크의 요양기관별 분포)를 시각화하여 제공할 수 있는 코호트 데이터의 혼란변수에 따른 계층화 및 질병 간 발생 시간이 고려된 질병 네트워크 구축 방법, 그 시각화 방법 및 이를 기록한 컴퓨터 판독 가능한 기록매체를 제공할 수 있다.

도 1은 본 발명의 일실시예에 따른 질병 네트워크 구축 방법을 설명하기 위한 개략적인 흐름도,
도 2a는 본 발명의 일실시예가 적용되는 임상 코호트 데이터의 일예,
도 2b는 도 2a의 데이터를 시계열적으로 정리한 일예,
도 2c는 도 2b의 데이터를 혼란변수 중 하나인 연령별로 데이터를 그룹화한 일예,
도 2d는 선행질환이 후행질환에 영향을 주는 상대위험도를 산출하기 위한 과정을 설명하기 위한 그림,
도 2e는 도 2c의 그룹화된 데이터에서 도 2d와 같은 과정을 거쳐 2d에서의 그림에서 상대위험도 산출 공식 및 산출된 데이터의 평균값, 중앙값 등을 설명하기 위한 개략도,
도 2f는 그룹화된 데이터를 회귀분석 기반으로 질병 상관성 및 기간을 도출하는 과정을 설명하기 위한 개략도,
도 2g는 혼란변수별로 추출된 서브네트워크를 도시한 일예,
도 2h는 도 2g의 서브네트워크를 통합하여 구축한 전체 네트워크를 도시한 일예,
도 2i는 도 2h에서 구축된 전체 통합 네트워크를 시각화하여 노드를 클릭한 경우 나타난 일예를 설명하기 위한 네트워크의 시각화된 일예를 도시한 그래프,
도 3은 본 발명의 다른 실시예인 상대위험도를 이용한 질병 서브 네트워크 구축 및 전체 질병 네트워크 재구성의 일례를 설명하는 도표,
도 4는 상관계수 차이를 이용한 질병 서브 네트워크 구축 방법을 설명하기 위한 그래프,
도 5는 질병 서브네트워크에서 평균 질병발생시간 차이 구하는 예를 설명하기 위한 표 및 그래프,
도 6은 전체 질병 네트워크에서 다양한 임상변수를 시각화를 위한 것을 설명하기 위한 개략도이다.

본 발명에 따른 코호트 데이터의 혼란변수에 따른 계층화 및 질병 간 발생 시간이 고려된 질병 네트워크 구축 방법(이하에서 ‘질병 네트워크 구축 방법’이라 함), 그 시각화 방법 및 이를 기록한 컴퓨터 판독 가능한 기록매체에 대하여 도 1 내지 도 6을 참조하여 이하에서 구체적으로 설명한다.

도 1은 본 발명의 일실시예에 따른 질병 네트워크 구축 방법을 설명하기 위한 개략적인 흐름도이고, 도 2a는 본 발명의 일실시예가 적용되는 임상 코호트 데이터의 일예이며, 도 2b는 도 2a의 데이터를 시계열적으로 정리한 일예이고, 도 2c는 도 2b의 데이터를 혼란변수 중 하나인 연령별로 데이터를 그룹화한 일예이며, 도 2d는 선행질환이 후행질환에 영향을 주는 상대위험도를 산출하기 위한 과정을 설명하기 위한 그림이고, 도 2e는 도 2c의 그룹화된 데이터에서 도 2d와 같은 과정을 거쳐 2d에서의 그림에서 상대위험도 산출 공식 및 산출된 데이터의 평균값, 중앙값 등을 설명하기 위한 개략도이며, 도 2f는 그룹화된 데이터를 회귀분석 기반으로 질병 상관성 및 기간을 도출하는 과정을 설명하기 위한 개략도이고, 도 2g는 혼란변수별로 추출된 서브네트워크를 도시한 일예이며, 도 2h는 도 2g의 서브네트워크를 통합하여 구축한 전체 네트워크를 도시한 일예이고, 도 2i는 도 2h에서 구축된 전체 통합 네트워크를 시각화하여 노드를 클릭한 경우 나타난 일예를 설명하기 위한 네트워크의 시각화된 일예를 도시한 그래프이며, 도 3은 본 발명의 다른 실시예인 상대위험도를 이용한 질병 서브 네트워크 구축 및 전체 질병 네트워크 재구성의 일례를 설명하는 도표이고, 도 4는 상관계수 차이를 이용한 질병 서브 네트워크 구축 방법을 설명하기 위한 그래프이며, 도 5는 질병 서브네트워크에서 평균 질병발생시간 차이 구하는 예를 설명하기 위한 표 및 그래프이고, 도 6은 전체 질병 네트워크에서 다양한 임상변수를 시각화를 위한 것을 설명하기 위한 개략도이다.

본 발명에 따른 질병 네트워크 방법은, 도 1 내지 도 6에 도시된 바와 같이, 코호트 데이터를 시계열적으로 정리하는 (1)과정(S110)과; 상기 (1)과정에서 정리된 데이터를 혼란변수별로 계층화 내지 그룹화하는 (2)과정(S120)과; 상기 (2)과정에서 계층화 내에서 질병의 상관성을 도출하는 (3)과정(S130)과; (3)과정에서 도출된 상관성에 기초하여 질병 네트워크를 구축하는 (4)과정(S140, S150);과, 질병 네트워크 방법을 시각화하는 과정(S160)을 포함하는 것이 바람직하다.

먼저, 도 2a와 같은 전체 코호트 데이터(S)를 도 2b와 같이 시계열적으로 정리한다(S110).

다음, 시계열적으로 정리된 데이터를 하나의 혼란변수별(예를 들면, S(1),S(2), S(3) ...S(n)) 또는 두 개 이상의 혼란변수별 조합(예를 들면, S(1,2), S(1,3),..., S(1,2,3) .... S(1,2,..n)으로 계층화 내지 그룹화한다(S120).

다른 예를 들어, 전체 코호트(S)를 혼란변수인 연령을 기준으로 계층화하는 경우 도 2c에 도시된 바와 같이 S(연령)₁은 19세 이하, S(연령)₂는 20-39세, S(연령)₃은 40-59세, S(연령)₄은 60대 이상이 될 수 있다. 그리고, 전체 코호트(S)를 다른 혼란변수인 성별에 따라 서브그룹으로 계층화한다면 S(성별)₁은 남성, S(성별)₂는 여성으로 두 개의 서브그룹이 된다.

따라서, 두 개의 혼란변수인 연령과 성별에 따라 서브그룹으로 계층화하여 구분한다면 S(연령, 성별)₁은 19세 이하면서 남성, S(연령, 성별)₂는 20~39세이면서 남성이고, S(연령,성별)₃은 40~59세이면서 남성, S(연령,성별)₄는 60세 이상, S(연령,성별)₅는 19세 이하면서 여성, S(연령, 성별)₆은 20~39세이면서 여성이고, S(연령,성별)₇은 40~59세이면서 여성, S(연령, 성별)₈은 60세 이상이면서 여성이 되어 이론적으로 8개의 서브그룹으로 구분될 수 있다. 이후 각 서브그룹에서 질환 서브 네트워크를 통계적 방법에 의해 추출하는 단계와, 각 추출된 질환 서브 네트워크로부터 다시 각 계층화변수에 따라 전체 질환 네트워크로 재구성하는 단계로 구분될 수 있다.

여기서, 혼란변수는 환자의 연령, 성별, 사회경제적 변수(내지 지위), 해당(거주) 지역, 인종, 요양기관 등이 포함될 수 있다. 혼란변수 중 연령별로 계층화, 그룹화의 일예는, 도 2c에 도시된 바와 같이, 0-19세,20-39, 40-59, 60 이상 그룹의 네 그룹으로 나눌 수 있고 이하에서 설명의 편의상 연령으로 계층화된 예를 들어 설명하고 이러한 혼란변수는 전술한 바와 같이 하나 또는 복수로 선택될 수도 있음은 물론이다.

각 혼란변수별(또는 혼란변수들의 조합으로)로 설정된 서브그룹 내에서 질병 서브네트워크를 구성하기 위한 과정(S130)은, 선행질병과 후행질병의 상대위험도에 기초하여 질병 상관성을 도출하는 과정(S133)과, 질환 간의 상관분석에 기초하여 질병 상관성을 도출하는 과정(S135)을 포함할 수 있다.

먼저, 상대위험도에 기초하여 질병 상관성을 도출하는 과정은, 도 2d 및 도 3에 도시된 바와 같이, 코호트의 임상 데이터를 기반으로 질환 네트워크의 구축이 가능하다. 이러한 예는 본 발명자를 포함하는 “코호트를 이용한 질병 발병 예측 방법, 질환 발병 네트워크 시각화 방법 및 이를 기록한 컴퓨터 판독 가능한 기록매체(특허출원번호 10-016-0163260)”로 출원되어 이하에서 상세한 설명을 생략한다. 이러한 질환 네트워크는 혼란변수 혹은 혼란변수의 조합에 따른 특정 서브그룹 내에서만 이루어지기 때문에 혼란변수의 특정 그룹에 대한 하나의 질병 서브네트워크가 만들어진다.

도 2d, 도 2e 및 도 3에 도시된 바와 같이, 전체 코호트(S)를 특정 혼란변수별(또는 혼란변수들의 조합)에 따라 서브그룹으로 나누고 각 서브그룹에서 상대위험도에 기초하여 질병 서브네트워크를 추출할 수 있다. 예를 들어, 상대위험도(Relative Risk)가 4를 초월하고, 유의도(P-value)가 0.05 미만인 경우를 디폴트로 추출할 수 있다. 여기서, 만일 사용자가 상대위험도와 P-value를 선택하여 설정하면 설정된 값에서 방향성을 고려한 질병 서브네트워크가 추출될 수 있다. 즉, S(1)의 서브그룹이 n개일 경우 n개의 질환 서브 네트워크가 추출될 수 있다(도 3 참조).

그리고, 전체 코호트 데이터(S)를 특정 혼란변수별에 따라 서브그룹으로 나누고 각 서브그룹에서 상관분석에 기초하여 질병 서브네트워크를 추출하기 위해서는 선행질환

과 후행질환

에서 초기 1년간의 관찰기간동안 한번이라도 특정질환

을 경험했던 그룹을

으로 설정하고

을 단 한 번도 경험하지 않았던 그룹을

으로 설정한다(도 4 참조). 다음, 2년부터 데이터가 존재하는 마지막 년도까지

과

의 각 그룹에서 후행질환

이 발생하는 연도별 누적 발생한 사람수(또는 유병률, 누적 발생률)를 구한다. 초기 1년간

= n명이고

= m명이라고 가정할 때 스케일의 차이로 발생하게 되는 오류를 보정하기 위해

그룹에 속하는 연도별 누적 발생한 사람수에 m/n을 곱하고 x축을 연도로 설정하고 y축을

와

의 누적 발생한 사람수로 설정한 후 상관분석을 실시한다(도 4 참조). 상관분석의 결과 두 개의 상관계수

,

와 두 개의 유의수준값인 p-value (

,

)가 계산되는데,

< 0.05 이면서

> 0 와

의 값과는 상관없이

> 0 경우만을 취해 이것의 차 (

)를 계산하여 질환

이 질환

에 영향을 미치는지 평가한다. 이론적으로

의 범위는 -1 ~ 1 이며

> 0.2 인 경우만 디폴트로 지정된 ‘양의 상관관계’라 가정하고

로 연결한다. 이와 같은 방법으로 각 서브그룹에서

을 차례대로 적용해 모든 서브그룹의 모든 질환 쌍에 의미 있는 양의 상관관계에 대해 질환쌍을 연결하여(S140) 혼란변수별 서브네트워크를 구축할 수 있다. 만일 사용자가

의 값을 임의로 지정한다면 지정한 값 이상의 값을 양의 상관관계로 추출할 수도 있다.

그리고, 또 다르게 질환간의 회귀분석을 통해 선형적인 변화여부를 도출하는 과정을 개략적으로 도시한 그림이 도 2f이다.

다른 한편, 본 발명의 다른 실시예는 선행 질환이 후행 질환에 이르는 평균 발생기간을 도출하여 데이터화하는 과정(S137)을 포함하고 질환 네트워크를 효과적으로 시각화할 수 있다. 이를 위해 도 5에 도시된 바와 같이 우선 특정 계층화 변수의 서브그룹들에서 각 서브그룹별로

인 각 사람들의 발생시간

구한 후, 이들의 평균발생시간

을 계산한다. 이와 같은 방법으로 각 그룹별로

을 차례대로 적용해 모든 질환 쌍에 대해 각 질환쌍의 평균 발생시간을 계산하여 혼란변수별 계층화된 서브네트워크에서 기간과 관련된 정보를 구축할 수 있다.

이러한 혼란변수별 계층별(그룹별) 질환 네트워크를 구축한 예를 도시한 것이 도 2g이다.

앞서 계산한 질환쌍의 상대위험도, 상관계수 차이 및 평균발생 시간은 계층화변수별로 특정 그룹 내에서 계산된 값인데, 이를 특정 그룹이 아닌 전체그룹으로 통합하기 위한 방법(S150)은, 그룹 간 평균을 구해 결정하는 방법과 각 그룹에서 최대값을 선택하는 방법을 포함하는 것이 바람직하다.

상대위험도에 대한 질환 네트워크 통합방법은 위에서 언급한 두 가지 방법(평균값과 최대값을 선택하는 방법) 모두에 대해서 제공될 수 있다. 상대위험도의 그룹 간 평균은 각 그룹의 상대위험도의 산술평균을 이용하는 방법과 중앙값을 이용하는 방법 두 가지를 포함할 수 있다. 또한 각 질환에서 상대위험도는 각 그룹 중 최대가 되는 값을 선택해 제공하기도 한다. 이는 온전히 사용자의 선택에 따르며 디폴트로는 그룹 간 평균을 제공하는 것으로 한다.

또한, 상관계수 차이에 의한 질환 네트워크 통합방법도 위에서 언급한 두 가지 방법(평균값과 최대값을 선택하는 방법) 모두에 대해서 제공될 수 있다. 상관계수 차이에 의한 그룹 간 평균은 각 그룹의 상관계수차이의 산술평균을 이용하는 방법과 중앙값을 이용하는 방법 두 가지를 제공한다. 또한 각 질환에서 상관계수 차이는 각 그룹 중 최대가 되는 값을 선택해 제공하기도 한다. 이는 온전히 사용자의 선택에 따르며 디폴트로는 그룹 간 평균을 제공하는 것으로 한다.

또한, 질환쌍 간 평균발생 기간도 위에서 언급한 두 가지 방법(평균값과 최대값을 선택하는 방법) 모두에 대해서 제공될 수 있다. 질환쌍 간 평균발생기간 차이의 그룹 간 평균은 각 그룹의 질환쌍 간 평균발생기간의 산술평균을 이용하는 방법과 중앙값을 이용하는 방법 두 가지를 제공한다. 또한 각 질환쌍 간 평균발생기간의 차이는 각 그룹 중 최대가 되는 값을 선택해 제공하기도 한다. 이는 온전히 사용자의 선택에 따르며 디폴트로는 그룹간 평균을 제공하는 것으로 한다.

이렇게 통합되어 구축된 질환 네트워크의 일예를 보여주는 그림이 도 2h이다.

이렇게 구축한 질환 네트워크를 사용자가 용이하게 한눈에 파악하고 볼 수 있도록 시각화(S160)를 할 수 있고, 본 발명에 따르면, 사용자가 임의로 설정한 혼란변수에 기초하여 이러한 질환 네트워크를 재구성해 보여줄 수 있다. 혼란변수는 환자의 성별, 연령, 사회계층 인자(예를 들면, 소득 등), 인종, 해당 지역, 요양기관 등을 포함한다. 일례로 사용자가 연령을 선택하고 연령에 따라 3개의 서브그룹 (29세 이하, 30~59세, 59세 이상)으로 설정한다면 연령에 의해 3개의 서브그룹에 의해 결정되는 전체 질환 네트워크가 재구성되며, 다른 일례로 사용자가 연령과 성별을 동시에 선택하면 6개의 서브그룹(29세 이하 남자, 29세 이하 여자, 30~59세 남자, 30~59세 여자, 60세 이상 남자, 60세 이상 여자)으로 설정한다면 6개의 서브그룹에 의해 결정되는 전체 질환 네트워크가 재구성되어 시각화 되는 것이 바람직하다.

전체 질환 네트워크에서 노드는 원형 및 사각형으로 표현될 수 있고 질환들의 상대적인 유병률이나 발생률에 따라 그 크기가 결정된다. 질환 네트워크의 링크의 시각화 모드는, 상대위험도에 기초한 링크 모드, 상관계수에 기초한 링크 모드 중 사용자가 선택한 모드에 따라 시각화가 가능한 것이 바람직하다. 또한, 링크의 모드 선택 시 산술평균에 의한 시각화인지 중간값에 의한 시각화인지 사용자가 선택할 수 있고 최대값을 기준으로 링크를 시각화 할 수도 있다. 일례로 사용자가 질환쌍에서 연령별 상대위험도를 보고자 할 경우에는 각 서브그룹에서 질환쌍들의 모든 상대위험도가 시각화되어 나타나며, 질환쌍에서 연령별 및 성별 상대위험도를 선택한 경우에는 각 서브그룹에서 질환쌍들의 모든 상대위험도가 시각화되어 나타날 수 있다. 마찬가지로 사용자가 설정한 모든 계층화변수 조합에 대해 상대위험도를 계산해 보여줄 수 있다.

마찬가지 방법으로 사용자가 질환쌍에서 연령별 상관계수 차이를 보고자 할 경우에는 각 서브그룹에서 질환쌍들의 모든 상관계수 차이를 시각화하며 보여주며, 질환쌍에서 연령별 및 성별 상관계수 차이를 보고자 할 경우에는 각 서브그룹에서 질환쌍들의 모든 상관계수 차이를 시각화해 보여준다. 마찬가지로 사용자가 설정한 모든 혼란변수 조합에 대해 상관계수 차이를 계산해 보여줄 수 있다.

또한, 질병 네트워크에서 질병쌍 간에 발생시간의 차이를 시각화 하기 위해 전체 질병 네트워크에서는 링크를 짧은 기간(short-Term)일 경우는 파란색으로 중간기간(Middle-Term)일 경우는 초록색으로, 긴 기간(Long-Term)일 경우는 빨간색으로 표현하여 짧은 기간에서 긴 기간으로 가면서 파란색에서 빨간색으로 구분되어 시각화되는 것이 바람직하다. 질병 쌍 간 발생시간 차이를 나누는 기준은 사용자가 선택할 수 있다.

또한, 상기 구축된 질병네트워크에서 특정 노드나 링크를 선택할 경우 해당하는 질병 정보에 관한 보다 자세한 정보를 대쉬보드(Dashboard) 형태로 시각화할 수 있다. 질병 노드에 관한 자세한 정보는, 첫째, 자료에 포함된 총 환자수를 시각화하고, 둘째, 자료에 포함된 환자수를 연도별로 바 그래프 형식으로 시각화하며, 셋째, 질병 노드에 해당하는 총 환자수를 시각화하며, 넷째, 질병 노드에 해당하는 성별 환자수 및 비율을 시각화하고, 다섯째, 질병 노드의 연도별 환자수를 바 그래프 형식으로 시각화하며, 여섯째, 질병노드의 연도별 성별 환자수 및 비율을 바 그래프 형식으로 시각화하고, 일곱째, 질병 노드의 연령별 환자수를 바 그래프 형식으로 시각화하며, 여덟째, 질병 노드의 연령별 비율을 파이차트(Pie Chart) 형태로 시각화하고, 아홉째, 질병 노드의 연도별-연령별 환자수를 바 그래프 형식으로 시각화하며, 열 번째, 질병 노드의 연도별 연령비율을 바 그래프 형식으로 시각화하고, 열한 번째, 질병 노드의 연도별-성별-연령별 환자수와 비율을 바 그래프 형식으로 시각화하며, 열두 번째, 질병 노드의 연도별 유병율을 바 그래프 형식으로 시각화하고, 열세 번째, 질병 노드의 연도별 발생율과 누적발생율을 바 그래프 형식으로 시각화하며, 열네 번째, 질병 노드의 해당질병으로 인해 복용했던 약물 분포를 파이차트 형식으로 시각화하고, 열다섯 번째, 질병 노드의 사회경제적 변수에 따른 분포를 파이차트 형식으로 시각화하며, 열여섯 번째, 질병 노드의 인종분포를 파이차트 형식으로 시각화하고, 열일곱 번째, 질병 노드의 지역 분포를 지도상에 시각화하며, 열여덟 번째, 질병 노드의 요양기관별(1차, 2차, 3차병원) 분포를 파이차트 형식으로 시각화하는 것이 바람직하고 이러한 일예를 표시한 것이 도 2i이다.

질병쌍 간 링크에 대한 자세한 정보는, 첫째, 상대위험도, 회귀계수 차이 및 질병쌍 간 평균 발생기간을 시각화하고, 둘째, 질병 간 링크에 해당하는 총 환자수를 시각화하며, 셋째, 질병 간 링크에 해당하는 성별 환자수 및 비율을 시각화하고, 넷째, 질병 간 링크의 연도별 환자수를 바 그래프 형식으로 시각화하며, 다섯째, 질병 간 링크의 연도별 성별 환자수 및 비율을 바 그래프 형식으로 시각화하고, 여섯째, 질병 간 링크의 연령별 환자수를 바 그래프 형식으로 시각화하며, 일곱째, 질병 간 링크의 연령별 비율을 파이차트(Pie Chart) 형태로 시각화하고, 여덟째, 질병 간 링크의 연도별-연령별 환자수를 바 그래프 형식으로 시각화하며, 아홉째, 질병 간 링크의 연도별 연령비율을 바 그래프 형식으로 시각화하고, 열 번째, 질병 간 링크의 연도별-성별-연령별 환자수와 비율을 바 그래프 형식으로 시각화하며, 열한 번째, 질병 각 링크의 연도별 유병율을 바 그래프 형식으로 시각화하고, 열두 번째, 질병 간 링크의 연도별 발생율과 누적발생율을 바 그래프 형식으로 시각화하며, 열세 번째, 질병 간 링크의 해당 질병으로 인해 복용했던 약물 분포를 파이차트 형식으로 시각화하고, 열네 번째, 질병 간 링크의 사회경제적 변수에 따른 분포를 파이차트 형식으로 시각화하며, 열다섯 번째, 질병 간 링크의 인종분포를 파이차트 형식으로 시각화하고, 열여섯 번째, 질병 간 링크의 지역 분포를 지도상에 시각화하며. 열일곱 번째, 질병 간 링크의 요양기관별(1차, 2차, 3차병원) 분포를 파이차트 형식으로 시각화하는 것이 바람직하고 이의 유사한 예 및 예를 도시한 것이 도 2i 및 도 6이다.

다음은 질병 네트워크를 시각화하기 위한 목록의 일예는, 총 환자수, 질병 노드 및 링크의 환자 수, 질병 노드 및 링크의 성별 환자 수, 질병 노드 및 링크의 성별 비율, 질병 노드 및 링크의 연도별 환자 수, 질병 노드 및 링크의 연도별 성별 환자 수, 질병 노드 및 링크의 연도별 성별 비율, 질병 노드 및 링크의 연령별 환자 수, 질병 노드 및 링크의 연령별 비율, 질병 노드 및 링크의 연도별 연령별 환자 수, 질병 노드 및 링크의 연도별 연령 비율, 질병 노드 및 링크의 연도별 성별-연령별 환자 수, 질병 노드 및 링크의 연도별 성별-연령별 환자 비율, 질병 노드 및 링크의 연도별 유병율, 질병 노드 및 링크의 연도별 발생율, 질병 노드 및 링크의 해당 질병으로 인해 복용했던 약물 분포, 질병 노드 및 링크의 사회경제적 변수 분포, 질병 노드 및 링크의 인종 분포, 질병노드 및 링크의 지역 분포, 질병노드 및 링크의 요양기관별 분포, 질병 링크의 평균 발생 기간 등을 포함하는 것이 바람직하다.

다른 한편, 본 발명의 목적은, 전술한 질병 발병 네트워크 구출 방법 및 그 시각화 방법을 기록한 기록매체로 컴퓨터로 판독 가능한 기록매체에 의해서도 달성된다.

또한, 상기 코호트 데이터는 건강보험공단, 건강보험심사평원의 데이터 및 미국의 메디케어 데이터 및 의료 빅데이터 공유를 위한 국제 오딧세이 컨소시엄의 공통데이터모델 (CDM)기반 데이터를 포함하는 것이 바람직하다.

이와 같이 시계열로 정리된 환자의 코호트 데이터로부터 여러 혼란변수(예를 들면 환자의 연령, 성별, 인종, 사회경제적 변수, 복용 중인 약물, 해당(거주) 지역, 요양기관별)를 이용해 자료를 계층화하여 계층화된 자료로부터 전술한 상대위험도 및 상관분석을 포함하는 방법에 기초하여 질병 간 평균 발생기간이 고려된 질환 서브네트워크를 구축하고 각 서브네트워크를 계층화변수별로 다시 재구성하여 전체 네트워크로 만들어 주며, 최종적으로 사용자의 편의성을 고려해 질환 노드나 링크를 선택할 경우 노드와 링크에 대한 자세한 추가적인 정보를 추출하여 시각화할 수 있다.

이에, 본 발명에 따르면, 질병은 연령, 성별, 인종, 사회경제적 변수, 지역 및 국가 보건의료체계 등과 같은 다양한 임상의학적 혼란변수에 의해 영향을 받을 수 있기 때문에 질병 간의 연관성을 보다 신뢰성 있게 도출할 수 있는 코호트 데이터의 혼란변수에 따른 계층화 및 질병 간 발생 시간이 고려된 질병 네트워크 구축 방법, 그 시각화 방법 및 이를 기록한 컴퓨터 판독 가능한 기록매체를 제공할 수 있다.

또한, 임상데이터 기반의 질병 네트워크 구축을 위해 그동안 대부분 사용하던 통계방법은 전통적으로 이변량 범주형 자료분할표(Contingency Table)에 기초해 단순히 질병위험도를 계산하였는데 만일 장기간의 시계열 데이터를 이용할 수 있다면 독립변수를 연도로 설정하고 종속변수를 질병 발생건수, 발생율 또는 유병율로 설정하여 회귀분석에 기초해 회귀계수를 계산함으로써 질병 간의 연관관계를 파악할 수 있는 코호트 데이터의 혼란변수에 따른 계층화 및 질병 간 발생 시간이 고려된 질병 네트워크 구축 방법, 그 시각화 방법 및 이를 기록한 컴퓨터 판독 가능한 기록매체를 제공할 수 있다.

또한, 그동안 질병 네트워크에서는 발병되는 질병 간의 방향성 및 연관성 강도 등은 고려되었으나 한 질병이 다른 질병으로 이환되는 시간은 전혀 고려되지 않았기 때문에 장기간 관찰되는 코호트 데이터가 전체 환자의 시계열적 데이터라고 가정한다면 한 질병에서 다른 질병으로 이환되는 평균 시간을 계산할 수 있는 코호트 데이터의 혼란변수에 따른 계층화 및 질병 간 발생 시간이 고려된 질병 네트워크 구축 방법, 그 시각화 방법 및 이를 기록한 컴퓨터 판독 가능한 기록매체를 제공할 수 있다.

여기서, 본 발명의 일 실시예를 도시하여 설명하였지만, 본 발명의 속하는 기술 분야의 통상의 지식을 가진 자라면 본 발명의 원칙이나 정신에서 벗어나지 않으면서 본 실시예를 변형할 수 있음을 알 수 있을 것이다. 발명의 범위는 첨부된 청구항과 그 균등물에 의해 정해질 것이다.

Claims

질병 네트워크를 시각화하여 출력하는 컴퓨터의 질병 네트워크 구축 방법에 있어서,
상기 컴퓨터가 코호트 데이터를 시계열적으로 정리하는 (1)과정과;
상기 컴퓨터가 상기 (1)과정에서 정리된 데이터를 환자의 성별, 연령, 인종, 복용 중인 약물, 사회계층 인자, 지역, 요양기관 중 적어도 하나를 포함하는 혼란변수별로 계층화하는 (2)과정과;
상기 컴퓨터가 상기 (2)과정에서 계층화된 혼란변수별 그룹 내 환자들에서 발병이 확인된 각 질병 간의 상관 계수 값을 도출하는 (3)과정과;
상기 컴퓨터가 상기 (3)과정에서 도출된 상관 계수 값에 기초하여 상기 각 그룹에 대응하는 복수의 질병 서브네트워크를 구축하는 (4)과정; 및
상기 컴퓨터가 상기 (4) 과정에서 구축된 상기 질병 서브네트워크들을 결합하여, 상기 상관 계수와, 상기 혼란변수와, 상기 시계열에 기초하여 시각화되는 복수의 질병 노드 및 상기 질병 노드간 링크를 포함하여 시각화된 전체 질병 네트워크를 구축하는 (5) 과정을 포함하며,
상기 (5) 과정에서, 상기 질병 노드는 질병들 간 상기 상관계수 값에 기초한 상대적 유병률에 따라 시각화 크기가 결정되고, 상기 질병 노드간 링크는 사용자가 선택한 링크 모드 및 상기 링크에 연결된 질병 노드들의 질병쌍 간의 발생시간의 차이에 따라 시각화되며,
상기 (3)과정은, 상기 컴퓨터가 선행질병과 후행질병의 상대위험도를 산출하거나 질병 간의 시계열에 따른 연도별 누적 유병률의 상관관계를 분석하여, 상기 상관 계수 값을 결정하는 과정을 포함하는 것을 특징으로 하는
질병 네트워크를 시각화하여 출력하는 컴퓨터의 질병 네트워크 구축 방법.
삭제
삭제
제1항에 있어서,
상기 (3)과정에 있어서, 상기 컴퓨터가 상기 상관 계수 값을 결정하기 위해 질병의 발생기간 정보를 이용하는 과정을 더 포함하는 것을 특징으로 하는
질병 네트워크를 시각화하여 출력하는 컴퓨터의 질병 네트워크 구축 방법.
제1항에 있어서,
상기 코호트 데이터는 건강보험공단, 건강보험심사평원의 데이터, 미국의 메디케어 데이터 또는 의료 빅데이터 공유를 위한 국제 오딧세이 컨소시엄의 공통데이터모델(CDM) 기반 데이터를 포함하는 것을 특징으로 하는
질병 네트워크를 시각화하여 출력하는 컴퓨터의 질병 네트워크 구축 방법.
삭제
제1항에 있어서,
상기 제(5)과정은, 상기 컴퓨터가 상기 각 서브네트워크의 계층화된 각 그룹 간 상대위험도의 평균값 또는 최대값을 이용하여 통합하여 상기 전체 질병 네트워크를 구축하는 과정을 포함하는
질병 네트워크를 시각화하여 출력하는 컴퓨터의 질병 네트워크 구축 방법.
제1항에 있어서,
상기 컴퓨터가, 상기 질병 네트워크를 이용하여, 각 질병 간 상호 연관성을 시각적으로 표시하는 이미지 시각화 단계를 더 포함하는 것을 특징으로 하는
질병 네트워크를 시각화하여 출력하는 컴퓨터의 질병 네트워크 구축 방법.
제8항에 있어서,
상기 컴퓨터가, 상기 혼란변수를 하나 또는 복수로 선택하는 사용자 선택 입력에 따라, 상기 전체 질병 네트워크를 재구축하는 과정; 및
상기 컴퓨터가, 상기 재구축된 결과에 기초하여 각 질병 간 상호 연관성을 시각적으로 표시하도록 하는 데이터를 출력하는 이미지 시각화 과정을 더 포함하는 것을 특징으로 하는
질병 네트워크를 시각화하여 출력하는 컴퓨터의 질병 네트워크 구축 방법.
제1항에 기재된 방법을 컴퓨터에서 실행시키기 위한 프로그램이 기록된 컴퓨터로 판독 가능한 기록매체.