KR102203711B1

KR102203711B1 - 연속형 변수의 보정 방법 및 이를 이용한 상관관계 분석 방법 및 그 장치

Info

Publication number: KR102203711B1
Application number: KR1020180101420A
Authority: KR
Inventors: 노오규
Original assignee: 아주대학교산학협력단
Priority date: 2018-08-28
Filing date: 2018-08-28
Publication date: 2021-01-15
Also published as: US11610689B2; KR20200024570A; US20200075172A1

Abstract

연속형 변수의 보정 방법 및 이를 이용한 상관관계 분석 방법 및 그 장치를 제공한다. 본 발명의 일 실시예에 따른 연속형 변수의 보정 방법은, 장치가 연속형 변수를 보정하는 방법에 있어서, 분석 데이터에서 적어도 하나 이상의 교란변수를 판별하는 단계, 상기 분석 데이터를 상기 교란변수들의 조합이 동일한 복수의 서브그룹으로 분류하는 단계, 각 서브그룹별로 상기 연속형 변수 분포의 대표값에 기초하여 새로운 연속형 변수를 생성하는 단계를 포함한다.

Description

연속형 변수의 보정 방법 및 이를 이용한 상관관계 분석 방법 및 그 장치{Method for adjusting of continuous variables and Method and Apparatus for analyzing correlation using as the same}

본 발명은 연속형 변수의 보정 방법 및 이를 이용한 상관관계 분석 방법 및 그 장치에 관한 것으로, 보다 자세하게는 연속형 변수를 교란변수에 따라 보정하여 새로운 연속형 변수를 생성하는 연속형 변수의 보정 방법 및 이를 이용한 상관관계 분석 방법 및 그 장치에 관한 것이다.

현대 의학에서는 질병을 일으키거나 질병 발생과 관련된 요인을 찾고, 새로 개발된 신약이나 치료법의 효과를 분석하기 위해서 다양한 통계 분석 알고리즘이 탑재되어 있는 소프트웨어를 빈번하게 이용하게 된다.

간수치, 콜레스테롤 수치, 혈압, 체질량 지수(BMI), 흡연 여부 등은 병원에서 대표적으로 확보할 수 있는 임상, 역학 변수들로, 치료 또는 연구하고자 하는 목적에 따라 측정, 관찰 또는 실험을 통해 확보되는 변수들은 수십건 이상으로 확대될 수 있다.

한편, 연속형 변수(독립 변수)는 특정 종속변수와 상관관계가 있는 경우가 있다. 연속형 변수는 숫자로 표기되고, 숫자 자체로 크기가 의미가 있는 변수로, 예컨대, 환자에게 투여되는 약의 양 및/또는 횟수 등일 수 있다. 종속 변수는 연속형 변수(독립 변수)의 값에 의존하는 것으로 가정되는 변수(예를 들어, 환자의 혈압)이다. 이러한 연속형 변수와 종속 변수 사이에 실제로 관계가 있는지(예를 들어, 환자가 받는 약의 양이 환자의 혈압과 관계가 있는지)를 다양한 통계 알고리즘을 이용하여 판정할 수 있다.

한편, 연속형 변수가 특정한 종속변수와 상관관계가 있는 경우가 있다. 예를 들면 커피 소비가 많은 사람이 노벨상을 더 많이 수상하는 것과 상관관계를 보였다고 하자. 그러나 커피 소비량이 그 사람의 교육 수준이나 사회 경제학적 수준과 직접적인 연관이 있는 경우, 커피의 소비량과는 관계가 없고(커피의 효능이 아니라), 교육 수준 및 사회경제학적 수준이 높은 것과 노벨상 수상이 연관이 있다고 해야 할 것이다. 이때 커피 소비량은 "연속형 변수", 노벨상 수상은 "종속변수", 그리고 교육 수준이나 사회 경제학적 수준인 이 둘 사이의 "교란변수(confounder)"라고 한다. 따라서 어떤 연속형 변수와 종속변수가 상관관계가 있다는 결과가 나올 경우에는 반드시 교란변수가 영향을 끼쳤는지 보정해야 한다. 실제적으로 커피 소비량과 노벨상의 수상은 교란변수를 교정할 경우 도 1의 B와 같이 영항이 없는 것으로 보고되었다.

그러나 위의 경우와 다르게, 반드시 상관관계가 보여야 할 것으로 생각되는 경우인데도 도 1의 C와 같이 상관관계가 보이지 않을 경우가 있다. 이 경우 현재의 방법으로는 아무리 교란변수를 교정해 주어도 상관관계를 밝혀내는 것은 불가능한 경우가 대부분이다.

하지만 도 1의 C와 같은 경우에도 연속형 변수와 종속변수의 상관관계가 교란변수에 의해 관계가 없는 방향으로 교란되었을 수 있다. 종래의 교란변수를 교정하는 방법은 연속형 변수를 그대로 두고 보정하는 방법으로는 이를 밝혀내기가 쉽지 않다.

따라서 연속형 변수와 종속 변수간에 반드시 상관관계가 있어야 하나, 교란변수로 인해 상관관계를 밝히지 못할 경우에도 연속형 변수와 종속변수와의 상관관계를 분석할 수 있는 기술 개발에 대한 필요성이 요구되고 있다.

관련 선행기술로는 한국공개특허 제10-2015-0116121호(발명의 명칭: 연속형 종속변수 예측 시스템 및 방법, 이를 이용한 항공 화물 운임 예측 시스템 및 방법, 공개일자: 2015.10.15.)가 있다.

본 발명이 해결하고자 하는 과제는 연속형 변수가 특정 종속변수와 상관관계가 있으나, 교란변수로 인해 상관관계를 밝히지 못할 경우에도 연속형 변수와 종속변수와의 상관관계를 분석할 수 있는 연속형 변수의 보정 방법 및 이를 이용한 상관관계 분석 방법 및 그 장치를 제공하는 것이다.

본 발명이 해결하고자 하는 과제는 이상에서 언급한 과제(들)로 제한되지 않으며, 언급되지 않은 또 다른 과제(들)은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

본 발명의 일 실시예에 따른 연속형 변수의 보정 방법은, 장치가 연속형 변수를 보정하는 방법에 있어서, 분석 데이터에서 적어도 하나 이상의 교란변수를 판별하는 단계, 상기 분석 데이터를 상기 교란변수들의 조합이 동일한 복수의 서브그룹으로 분류하는 단계, 각 서브그룹별로 상기 연속형 변수 분포의 대표값에 기초하여 새로운 연속형 변수를 생성하는 단계를 포함한다.

바람직하게는, 상기 판별하는 단계는, 상기 분석 데이터에서 임상 변수들을 범주형 변수로 변환하는 단계, 상기 각 임상변수별로 상기 연속형 변수와 비교하여 유의확률(p-value)을 산출하는 단계, 상기 유의확률이 기 정의된 설정값 미만인 임상변수를 교란변수로 판별하는 단계를 포함할 수 있다.

바람직하게는, 상기 새로운 연속형 변수를 생성하는 단계는, 각 서브그룹별로 상기 연속형 변수 분포의 대표값을 '0'으로 설정하는 단계, 상기 각 서브그룹의 연속형 변수에 대해, 상기 설정된 '0'을 기준으로 상대적인 값으로 변환하는 단계를 포함할 수 있다.

본 발명의 다른 실시예에 따른 연속형 변수의 보정을 이용한 상관관계 분석 방법은, 장치가 분석하고자 하는 데이터에 대해 연속형 변수와 특정 종속변수와의 상관관계를 분석하는 방법에 있어서, 상기 데이터에서 연속형 변수, 종속변수, 임상변수들에 대한 정보를 추출하는 단계, 상기 임상변수들 중에서 적어도 하나 이상의 교란변수를 판별하는 단계, 상기 판별된 교란변수들을 이용하여 상기 연속형 변수를 새로운 연속형 변수로 변환하는 단계, 상기 새로운 연속형 변수와 상기 종속변수간의 상관관계를 분석하는 단계를 포함한다.

바람직하게는, 상기 새로운 연속형 변수로 변환하는 단계는, 상기 데이터를 교란변수들의 조합이 동일한 복수의 서브그룹으로 분류하는 단계, 각 서브그룹별로 상기 연속형 변수 분포의 대표값을 '0'으로 설정하는 단계, 상기 각 서브그룹의 연속형 변수에 대해, 상기 설정된 '0'을 기준으로 상대적인 값으로 변환하는 단계를 포함할 수 있다.

본 발명의 또 다른 실시예에 따른 연속형 변수의 보정을 이용한 상관관계 분석 장치는, 분석하고자 하는 데이터에서 교란변수를 판별하고, 상기 판별된 교란변수들을 이용하여 연속형 변수를 새로운 연속형 변수로 변환하는 보정부, 상기 새로운 연속형 변수와 종속변수간의 상관관계를 분석하는 상관관계 분석부를 포함한다.

바람직하게는, 상기 보정부는, 상기 데이터에서 임상변수들을 추출하고, 각 임상변수별로 연속형 변수와 비교하여 유의확률(p-value)을 산출하며, 유의확률이 기 정의된 설정값 미만인 임상변수를 교란변수로 판별하고, 상기 데이터를 교란변수들의 조합이 동일한 복수의 서브그룹으로 분류하며, 각 서브그룹별로 연속형 변수 분포의 대표값을 '0'으로 하여, 각 서브그룹의 연속형 변수에 대해, '0'을 기준으로 상대적인 값으로 변환하여 새로운 연속형 변수를 생성할 수 있다.

본 발명에 따르면, 연속형 변수 자체를 교란변수에 따라 보정함으로써, 연속형 변수가 특정 종속변수와 상관관계가 있으나 교란변수로 인해 상관관계를 밝히지 못할 경우에도 연속형 변수와 종속변수와의 상관관계를 분석할 수 있다.

본 발명의 효과들은 이상에서 언급한 효과들로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

도 1은 일반적인 상관관계를 밝혀내는 과정을 설명하기 위한 도면이다.
도 2는 본 발명의 일 실시예에 따른 교란변수 보정 기술을 적용하여 상관관계를 밝혀내는 과정을 설명하기 위한 도면이다.
도 3은 본 발명의 일 실시예에 따른 연속형 변수의 상관관계 분석 방법을 설명하기 위한 흐름도이다.
도 4는 본 발명의 일 실시예에 따른 연속형 변수의 보정 방법을 설명하기 위한 흐름도이다.
도 5는 본 발명의 일 실시예에 따른 연속형 변수의 보정 방법을 설명하기 위한 예시도이다.
도 6은 본 발명의 일 실시예에 따른 교란변수를 판별하는 방법을 설명하기 위한 흐름도이다.
도 7은 본 발명의 일 실시예에 따른 연속형 변수에 영향을 끼치는 교란변수를 확인하기 위한 산점도이다.
도 8은 본 발명의 일 실시예에 따른 새로운 연속형 변수를 생성하는 방법을 설명하기 위한 흐름도이다.
도 9는 본 발명의 일 실시예에 따른 연속형 변수에 대해 교란변수들을 공유하는 서브그룹별 중앙값으로 교란변수의 영향을 보정하는 과정을 설명하기 위한 예시도이다.
도 10은 본 발명의 일 실시예에 따른 보정된 연속형 변수에 대해 교란변수들이 보정된 것을 확인하기 위한 예시도이다.
도 11은 본 발명의 일 실시예에 따른 연속형 변수의 보정을 이용한 상관관계 분석을 위한 장치를 설명하기 위한 도면이다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.

제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.

도 2는 본 발명의 일 실시예에 따른 교란변수 보정 기술을 적용하여 상관관계를 밝혀내는 과정을 설명하기 위한 도면이다.

도 2를 참조하면, 연속형 변수에 대한 교란변수들을 확인 및 보정하여 새로운 연속형 변수를 생성하고, 새로운 연속형 변수와 종속변수와의 상관관계를 분석한다. 이는 기존 단변량 분석에서 상관관계가 없는 경우 교란변수 보정 기술을 적용하여 새로운 연속형 변수를 생성한 후에 상관관계를 새롭게 분석할 수 있다. 그러면, 연속형 변수가 특정한 종속변수와 상관관계가 있으나, 교란변수로 인해 상관관계를 밝히지 못할 경우에도 연속형 변수와 종속변수와의 상관관계를 분석할 수 있다.

도 3은 본 발명의 일 실시예에 따른 연속형 변수의 상관관계 분석 방법을 설명하기 위한 흐름도이다.

도 3을 참조하면, 장치는 분석하고자 하는 데이터가 입력되면(S310), 그 데이터에서 연속형 변수, 종속변수, 임상변수들에 대한 정보를 추출한다(S320). 즉, 장치는 데이터가 입력되면, 그 데이터를 분석하여 연속형 변수, 종속변수, 기타변수(이하에서는 임상변수라 칭함) 등에 대한 정보를 획득한다. 이때, 연속형 변수와 종속변수는 미리 설정될 수 있다.

단계 S320이 수행되면, 장치는 연속형 변수를 교란변수에 따라 보정하여 새로운 연속형 변수를 생성하고(S330), 새로운 연속형 변수와 종속변수간의 상관관계를 분석한다(S340). 즉, 장치는 임상변수들 중에서 교란변수들을 판별하고, 판별된 교란변수들을 이용하여 연속형 변수를 새로운 연속형 변수로 변환한다. 그런 후, 장치는 장치가 새로운 연속형 변수와 종속변수간의 상관관계를 분석한다. 이때, 장치는 스튜던트의 T 검정(Student's T test), 웰치의 T 검정(Welch's T test), 크루스칼-왈리스 검정(Kruskal-Wallis test), Cox-proportional Hazard Model 등 다양한 통계 알고리즘을 이용하여 연속형 변수와 종속변수간의 상관관계를 분석할 수 있다.

장치가 연속형 변수를 교란변수에 따라 보정하여 새로운 연속형 변수를 생성하는 방법에 대한 상세한 설명은 도 4를 참조하기로 한다.

도 4는 본 발명의 일 실시예에 따른 연속형 변수의 보정 방법을 설명하기 위한 흐름도, 도 5는 본 발명의 일 실시예에 따른 연속형 변수의 보정 방법을 설명하기 위한 예시도이다.

도 4를 참조하면, 장치는 분석하고자 하는 데이터에서 적어도 하나 이상의 교란변수를 판별한다(S410). 즉, 장치는 연속형 변수에 영향을 끼치는 교란변수들이 무엇인지를 찾아낸다. 교란변수를 판별하는 방법에 대한 상세한 설명은 도 6을 참조하기로 한다.

단계 S410이 수행되면, 장치는 분석하고자 하는 데이터를 교란변수들의 조합이 동일한 복수의 서브그룹으로 분류한다(S420).

예를 들어, 도 5의 (a)와 같이 임상변수(Variable 1, 2, ..., i)가 주어진 경우, 장치는 임상변수에서 도 5의 (b)와 같이 교란변수(confounder 1, 3, .., i)를 추출한다. 그런 후, 장치는 도 5의 (c)와 같이 교란변수들의 조합이 동일한 복수의 서브그룹으로 분류한다. 이때, 제1 교란변수(confounder 1)의 값이 1, 0으로 구성되고, 제2 교란변수(confounder 3)의 값이 1, 0으로 구성되며, 제i 교란변수(confounder 1)의 값이 1, 0으로 구성되었다고 가정한다. 이 경우, 제1 교란변수 내지 제i 교란변수의 조합은 (0,0,..., 0), (0,0,..., 1),..., (1,1,..., 0), (1,1,..,1)이므로, 장치는 도 5의 (c)와 같이 제1 내지 제i 교란변수의 조합이 동일한 복수개의 서브그룹을 생성한다. 즉, 장치는 제1 내지 제i 교란변수의 값이 모두 '0'인 조합 (0,0,..., 0)의 데이터들을 제1 서브그룹, 제1 내지 제(i-1) 교란변수의 값이 '0'이고, 제i 교란변수의 값이 '1'인 조합 (0,0,...,1)의 데이터들을 제2 서브그룹, 제1 내지 제(i-2) 교란변수의 값이 '0'이고, 제(i-1) 및 제i 교란변수의 값이 '1'인 조합 (0,0,..., 1,1)의 데이터들을 제3 서브그룹 등으로 서브그룹들을 생성한다.

단계 S420이 수행되면, 장치는 각 서브그룹의 연속형 변수를 교란변수에 따라 보정하여 새로운 연속형 변수를 생성한다(S430). 즉, 장치는 각 서브그룹별로 연속형 변수 분포의 대표값을 '0'으로 설정하여, 새로운 연속형 변수를 생성한다. 새로운 연속형 변수를 생성하는 방법에 대한 상세한 설명은 도 8을 참조하기로 한다.

도 6은 본 발명의 일 실시예에 따른 교란변수를 판별하는 방법을 설명하기 위한 흐름도, 도 7은 본 발명의 일 실시예에 따른 연속형 변수에 영향을 끼치는 교란변수를 확인하기 위한 산점도이다.

도 6을 참조하면, 장치는 분석 데이터에서 임상 변수들을 범주형 변수로 변환한다(S610). 분석 데이터에서 추출된 임상 변수에는 연속형 변수와 범주형 변수(categorical variable)를 포함한다. 즉, 임상 변수에는 성별과 같이 범주형 변수인 것도 있지만, 나이와 같이 연속형 변수인 것도 있다. 따라서, 장치는 연속형 변수인 것은 특정 값 (예컨대, 중앙값 등임)으로 나누어 범주형 변수로 변환한다.

단계 S610이 수행되면, 장치는 각 임상변수별로 연속형 변수와 비교하여 유의확률(p-value)을 산출한다(S620).

그런 후, 장치는 유의확률을 기 정의된 설정값과 비교하여(S630), 유의확률이 설정값 미만인 임상변수를 교란변수로 판별한다(S640). 즉, 장치는 각 임상변수별로 연속형 변수의 평균 비교를 하여 통계적으로 의미있게 차이가 나는지 확인한다. 그 결과 p-value가 설정값(예컨대, 0.1) 미만인 것들만 연속형 변수에 영향을 주는 교란변수로 판별한다.

교란변수를 판별하는 방법에 대해 도 7을 참조하면, 산점도에서 가로축은 각 임상 변수(잠재적 confounder)의 값을 나타내고, 세로축은 연속형 변수인 MLD(Mean Lung Dose)를 나타낸다. 이때, 각 임상 변수의 값은 연속형 변수가 아닌 범주형 변수(categorical variable)이다. 따라서 산점도들은 각 임상 변수들에 따라 MLD가 차이가 나는지 개략적으로 보여준다. 도 7에서 C, D, G와 같이 각 변수에 따라 MLD가 차이가 나는 것을 눈으로 확인할 수 있다. 그러나 눈으로 차이를 검정하지 않고, 각 변수별로 MLD의 평균비교를 하여 통계적으로 의미있게 차이가 나는지 확인한다. 그 결과 p-value 가 0.1 미만인 것들만 MLD에 영향을 주는 교란변수로 간주하였다.

한편, 여기서는 p-value의 수준을 0.1 로 정하였으나, 상황에 따라 다르게 설정할 수 있다.

도 8은 본 발명의 일 실시예에 따른 새로운 연속형 변수를 생성하는 방법을 설명하기 위한 흐름도, 도 9는 본 발명의 일 실시예에 따른 연속형 변수에 대해 교란변수들을 공유하는 서브그룹별 중앙값으로 교란변수의 영향을 보정하는 과정을 설명하기 위한 예시도, 도 10은 본 발명의 일 실시예에 따른 보정된 연속형 변수에 대해 교란변수들이 보정된 것을 확인하기 위한 예시도이다.

도 8을 참조하면, 장치는 분석하고자 하는 데이터를 교란변수들의 조합이 동일한 복수의 서브그룹으로 분류한다(S810).

그런 후, 장치는 각 서브그룹의 해당 연속형 변수의 분포를 확인하고(S820), 각 서브그룹별로 연속형 변수 분포의 대표값을 '0'으로 설정하며(S830), 각 서브그룹의 연속형 변수에 대해, 상기 설정된 '0'을 기준으로 상대적인 값으로 변환한다(S840). 그러면, 연속형 변수가 교란변수에 따라 보정된 새로운 연속형 변수로 변환된다. 여기서, 대표값은 중앙값, 평균값 등을 포함할 수 있으나, 이하에서는 중앙값으로 한정하여 설명하기로 한다. 이 경우, 장치는 각 서브그룹별로 연속형 변수 분포의 중앙값을 '0'으로 하고, 각 서브그룹의 연속형 변수 값을 '0'을 중심으로 하는 상대적인 값으로 변환한다.

예를 들어, 제1 서브그룹의 연속형 변수가 4, 6, 7, 8, 11, 15, 17, 18, 19 로 이루어진 경우 새로운 연속형 변수를 생성하는 방법에 대해 설명하기로 한다. 제1 서브그룹의 중앙값이 '11'이므로, '11'을 '0'으로 한다. 그러면, 연속형 변수인 {4, 6, 7, 8, 11, 15, 17, 18, 19}는 '0'을 기준으로 하는 상대적인 값인 {-7, -5, -4, -3, 0, 4, 6, 7, 8}로 변환될 수 있다. 이때 변환된 {-7, -5, -4, -3, 0, 4, 6, 7, 8}이 새로운 연속형 변수일 수 있다.

또한, 도 7에서 교란변수로 판별된 C, D, G, H, J, L을 각 변수 값들의 조합을 만들어 각 조합의 값을 가진 subgroup으로 나눈 경우를 예로하여 설명하기로 한다. 이 경우, Subgroup 들은 이론적으로는 C(2개) x D(3개) x G(2개) x H(2개) x J(2개) x L (2개) = 96 개가 생성되나, 각 subgroup별로 나누었을 때 그 subgroup에 해당되는 경우가 없거나 있어도 1명인 경우는 제외하고, 2명 이상인 경우부터 포함시켰기 때문에, 도 9에 도시된 바와 같이 38개의 subgroup을 이용해서 새로운 연속형 변수인 new MLD를 생성하였다. 한편, 여기서는 2명 이상을 사용하였지만, 각 subgroup 별로 몇 명 혹은 몇 건 이상의 data 가 있을 경우만 포함시킬지도 사용자 설정에 따라 달라질 수 있다.

도 9를 참조하면, A와 같은 각 subgroup 별로 MLD의 대표값을 '0'으로 하여 상대적인 MLD의 새로운 값으로 변환시키면 B와 같을 수 있다.

상기와 같이 변환된 new MLD를 다시 임상변수에 따라 어떻게 분포하는지에 대한 산점도는 도 10과 같다. 이는 해당 연속형 변수를 교란시킨 변수들이, 보정된 새로운 연속형 변수에 대해 여전히 교란시키는지 아니면 훌륭하게 보정되었는지 확인하는 과정일 수 있다. 변환에 이용된 변수든 그렇지 않은 변수든 상관없이 모두 평균 비교시 new MLD를 교란시키는 인자가 없다는 것을 확인할 수 있다.

이러한 새로운 연속형 변수에 대한 교란변수들을 확인 및 보정하여 새로운 연속형 변수를 생성시키는 기술을 통해 해당 연속형 변수가 실제 우리가 알려고 하는 종속변수와 상관관계가 있는지 확인할 수 있다.

도 11은 본 발명의 일 실시예에 따른 연속형 변수의 보정을 이용한 상관관계 분석을 위한 장치를 설명하기 위한 도면이다.

도 11을 참조하면, 본 발명의 일 실시예에 따른 연속형 변수의 보정을 이용한 상관관계 분석을 위한 장치는 저장부(1110), 출력부(1120), 제어부(1130), 보정부(1140), 상관관계 분석부(1150)을 포함한다.

저장부(1110)는 연속형 변수의 보정을 이용한 상관관계 분석을 위한 장치(1100)의 동작과 관련된 데이터들을 저장하는 구성이다. 여기서 저장부(1110)는 공지된 저장매체를 이용할 수 있으며, 예를 들어, ROM, PROM, EPROM, EEPROM, RAM 등과 같이 공지된 저장매체 중 어느 하나 이상을 이용할 수 있다.

특히, 저장부(1110)에는 연속형 변수를 교란변수에 따라 보정하는 기술과 상관관계 분석을 위한 프로그램 또는 애플리케이션이 저장될 수 있다. 또한, 저장부(1110)에는 연속형 변수를 교란변수에 따라 보정하는 기술과 상관관계 분석을 위한 관련된 다양한 알고리즘(또는 수학식)을 저장할 수 있다. 이러한 경우, 제어부(1130)는 저장부(1110)를 호출하여 필요한 알고리즘을 획득할 수 있다.

출력부(1120)는 연속형 변수의 보정을 이용한 연속형 변수의 상관관계 분석을 위한 장치(1100)의 동작과 관련된 다양한 정보를 표시하기 위한 구성이다. 특히, 출력부(1120)는 보정부(1140)에서 교란변수에 따라 보정된 연속형 변수, 상관관계 분석부(1150)에서 분석된 연속형 변수와 종속변수간의 상관관계 등의 다양한 정보를 표시할 수 있다. 이러한 출력부(1120)는 LCD, LED 등을 포함하는 다양한 디스플레이 장치를 통해 구현될 수 있다.

제어부(1130)는 연속형 변수의 보정을 이용한 연속형 변수의 상관관계 분석을 위한 장치(1100)의 다양한 구성부들의 동작을 제어하는 구성으로, 적어도 하나의 연산 장치를 포함할 수 있는데, 여기서 상기 연산 장치는 범용적인 중앙연산장치(CPU), 특정 목적에 적합하게 구현된 프로그래머블 디바이스 소자(CPLD, FPGA), 주문형 반도체 연산장치(ASIC) 또는 마이크로 컨트롤러 칩일 수 있다.

보정부(1140)는 분석하고자 하는 데이터에서 교란변수를 판별하고, 판별된 교란변수들을 이용하여 연속형 변수를 새로운 연속형 변수로 변환한다. 즉, 보정부(1140)는 데이터에서 임상변수를 추출하고, 각 임상변수별로 연속형 변수와 비교하여 유의확률(p-value)을 산출하며, 유의확률이 기 정의된 설정값 미만인 임상변수를 교란변수로 판별한다. 그런 후, 보정부(1140)는 데이터를 교란변수들의 조합이 동일한 복수의 서브그룹으로 분류하고, 각 서브그룹별로 연속형 변수 분포의 대표값을 '0'으로 하여, 각 서브그룹의 연속형 변수에 대해, '9'을 기준으로 상대적인 값으로 변환한다. 그러면, 연속형 변수가 새로운 연속형 변수로 변환된다.

상관관계 분석부(1150)는 보정부(1140)에서 생성된 새로운 연속형 변수와 종속변수간의 상관관계를 분석한다. 이때, 상관관계 분석부(1150)는 Cox-proportional Hazard Model 등을 이용하여 상관관계를 분석할 수 있다.

본 발명의 일 실시예에 따르면, 보정부(1140) 및 상관관계 분석부(1150)는 외부 단말 장치나 외부 서버 등과 통신하는 프로그램 모듈들일 수 있다. 이러한 프로그램 모듈들은 운영 시스템, 응용 프로그램 모듈 및 기타 프로그램 모듈로서 장치(700)에 포함될 수 있으며, 물리적으로는 여러 가지 공지의 기억 장치상에 저장될 수 있다. 또한, 이러한 프로그램 모듈들은 장치(1100)와 통신 가능한 원격 기억 장치에 저장될 수도 있다. 이러한 프로그램 모듈들은 본 발명에 따라 전술한 특정 동작을 수행하거나 특정 추상 데이터 유형을 실행하는 루틴, 서브루틴, 프로그램, 오브젝트, 컴포넌트, 데이터 구조 등을 포괄하지만, 이에 제한되지는 않는다.

한편, 장치(1100)는 컴퓨터, 노트북, 넷북, PDA 등의 통신단말기일 수 있으며, 스마트폰, 스마트 노트, 태블릿 PC, 스마트 TV 등의 스마트 기기일 수도 있다. 또한, 장치(1100)는 단일의 연산 장치로 구현되거나 둘 이상의 연산 장치가 서로 연결된 집합 장치의 형태로 구현될 수도 있다. 예를 들어, 장치(1100)는 단일의 서버로 구현되거나 둘 이상의 서버가 연결된 형태로 구현될 수 있다.

이하, 본 발명에 대해 폐암 환자들의 방사선 치료와 생존율을 예시로 하여 설명하기로 한다.

폐암에서 방사선치료의 목적은 암세포를 파괴하여 재발률을 낮추고 결과적으로 생존율을 향상시키는 것이다. 그러나 방사선치료는 정상 조직도 손상시키는 독성이 있으며, 이 독성으로 인한 부작용이 발생하면 환자의 건강에 부정적인 영향을 끼쳐 방사선치료가 오히려 생존율을 감소시킬 수도 있다. 따라서 방사선치료를 할때 정상 조직의 방사선량을 최소화시켜 이러한 잠재적인 부정적 영향도 최소화하는 것이 매우 중요하다.

한편, 폐암의 방사선치료에서 대표적인 부작용을 일으키는 장기는 바로 폐 자체이다. 폐에 있는 종양을 치료하기 때문에 폐 자체의 방사선피폭을 완전히 피하기는 어렵다. 그래서 부작용의 확률을 최소화하는 폐의 방사선피폭의 한도 선량(dose limit)을 많은 사람들이 제시하였고, 이 한도 선량 이하에서는 부작용도 적고 생존율에 부정적 영향이 거의 없다고 알려져 있다.

예컨대, 폐암 수술후 방사선치료를 받은 178명의 폐암 환자를 분석하였을 때, 방사선치료를 할때 폐의 피폭량은 생존율에 부정적인 영향을 끼치지 않는 것으로 나타났다. 여기서 사용된 MLD(mean lung dose)는 방사선치료 시에 해당 환자에서 폐의 피폭량의 평균값으로, 그 환자의 폐 피폭량을 대변하는 값으로 자주 사용된다.

종래 MLD의 생존율에 대한 Cox-proportional Hazard Model 결과는 아래와 같다.

Hazard Ratio (위험비) : 0.99

Confidence interval (위험비의 95% 신뢰구간) : 0.94 ~ 1.04

P-value (확률값) : 0.651

여기서 "위험비"란 폐의 피폭선량(MLD)가 단위값 (1 Gy) 만큼 증가할 때 생존율에 미치는 상대적인 위험도를 표시한 것이다. 위험비가 1이라는 의미는 피폭선량이 증가해도 위험도가 증가하지도 감소하지도 않는다는 것을 의미한다. 위험비가 0.99 라는 의미는 폐의 피폭선량(MLD)이 1Gy 증가할 때 생존율이 오히려 감소한다는 의미가 된다. 그러나 위험비의 95% 신뢰구간이 1을 포함하고 있기 때문에, MLD의 증가나 감소가 생존율에 영향을 끼친다고 말할 수 없다. 곧 폐 피폭선량이 생존율에 부정적 영향을 끼치는지는 이 결과로 알 수가 없다.

그러나 이는 환자의 생존율에도 영향을 미칠 수 있는 인자(예컨대, 성별, 나이, 폐암의 병기, 수술의 범위, 수술의 완전성, 기저 폐질환의 유무, 동반 질병 등)들이 MLD의 값을 교란시켜서 유의미한 결과를 희석시켰기 때문일 수 있다. 이런 교란변수(confounder)를 보정하는 방법은 Cox-proportional Hazard Model에 이런 교란변수를 포함시켜 분석하는 것이다. 곧 변수를 하나만 넣어 분석하는 단변수 분석이 아닌, 여러 변수들의 상호 작용을 고려한 다변수 분석을 하는 것이다.

그러나 종래의 결과처럼 MLD 값에 대한 생존율의 영향이 의미 없게 나온 상태에서는 이런 다변수 분석 자체를 진행하지 않는다. 왜냐하면 이미 단변수 분석에서 의미 없다고 판단했기 때문이다.

하지만 본 발명의 연속형 변수인 MLD 에 대한 교란변수를 보정하는 기법을 사용하여 연속형 변수 자체를 적절하게 변환한다면, 이 변환된 연속형 변수를 통해 생존율에 미치는 영향을 밝힐 수 있다.

우선 환자의 MLD에 영향을 끼칠 교란변수(confounder)를 찾아내는 과정을 수행하였다. 도 7에 도시된 산점도들은 각 임상 변수들에 따라 MLD가 차이가 나는지 개략적으로 보여준다. C, D, G와 같이 각 변수에 따라 MLD가 차이가 나는 것을 눈으로도 확인할 수 있다. 그러나 눈으로 차이를 검정하지 않고, 각 변수별로 MLD 의 평균비교를 하여 통계적으로 의미있게 차이가 나는지 확인한다. 그 결과 p value 가 0.1 미만인 것들만 MLD에 영향을 주는 교란변수로 간주하였다.

이렇게 MLD에 대한 교란변수로 판별된 C, D, G, H, J, L을 각 변수 값들의 조합을 만들어 각 조합의 값을 가진 subgroup으로 나눈다. 그리고 각 subgroup 별로 MLD의 대표값을 0으로 하는 상대적인 MLD의 새로운 값으로 변환시킨다. 이때, 새로운 MLD값을 new MLD라고 칭하기로 한다. Subgroup 들은 이론적으로는 C(2개) x D(3개) x G(2개) x H(2개) x J(2개) x L (2개) = 96 개가 생기겠지만 각 subgroup별로 나누었을 때 그 subgroup에 해당되는 경우가 없거나 있어도 1명인 경우는 제외하고, 2명 이상인 경우부터 포함시켰기 때문에, 도 9에서 보는 것과 같이 38개의 subgroup을 이용해서 new MLD를 생성시켰다.

이렇게 생성된 new MLD를 이용해서 다시 한번 생존율에 대한 영향을 Cox-proportional Hazard model을 이용해서 분석한 결과는 아래와 같다.

Hazard Ratio (위험비) : 1.075

Confidence interval (위험비의 95% 신뢰구간) : 1.005 ~ 1.150

P-value (확률값) : 0.036

본 발명의 결과 new MLD 가 1 Gy 증가할 때마다 생존율은 1.075배로 나쁜 영향을 끼친다는 것을 알 수 있다. P-value 가 0.036으로 일반적 유의수준인 0.05 미만이므로 유의미한 결과를 도출하였다.

따라서 폐의 피폭선량이 증가할수록 생존율에 나쁜 영향을 끼친다는 결과가 도출되었다. 본 연구에 포함된 환자들은 모두 MLD가 25 Gy 이하로 이러한 수준에서는 일반적으로 생존율에는 영향을 끼치지 않는다고 판단된다. 그러나 이렇게 낮은 폐 피폭량이라 하더라도 생존율에 부정적인 영향을 끼친다는 사실을 분석을 통해 확인하였다. 이 결과는 폐의 방사선 피폭량을 방사선치료시 가능한 낮게 유지시켜야 생존율의 향상을 극대화시킬 수 있다는 것을 시사한다.

한편, 본 발명의 실시예들은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광매체(magneto-optical), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 일 실시예들의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

1100: 장치
1110 : 저장부
1120 : 출력부
1130 : 제어부
1140 : 보정부
1150 : 상관관계 분석부

Claims

장치가 연속형 변수를 보정하는 방법에 있어서,
분석 데이터에서 적어도 하나 이상의 교란변수를 판별하는 단계;
상기 분석 데이터를 상기 교란변수들의 조합이 동일한 복수의 서브그룹으로 분류하는 단계; 및
각 서브그룹별로 상기 연속형 변수 분포의 대표값에 기초하여 새로운 연속형 변수를 생성하는 단계
를 포함하고,
상기 교란변수를 판별하는 단계는,
상기 분석 데이터에서 임상 변수들을 범주형 변수로 변환하는 단계;
상기 각 임상변수별로 상기 연속형 변수와 비교하여 유의확률(p-value)을 산출하는 단계; 및
상기 유의확률이 기 정의된 설정값 미만인 임상변수를 교란변수로 판별하는 단계를 포함하는 것을 특징으로 하는 연속형 변수의 보정 방법.
삭제
제1항에 있어서,
상기 새로운 연속형 변수를 생성하는 단계는,
각 서브그룹별로 상기 연속형 변수 분포의 대표값을 '0'으로 설정하는 단계; 및
상기 각 서브그룹의 연속형 변수에 대해, 상기 설정된 '0'을 기준으로 상대적인 값으로 변환하는 단계를 포함하는 것을 특징으로 하는 연속형 변수의 보정 방법.
장치가 분석하고자 하는 데이터에 대해 연속형 변수와 특정 종속변수와의 상관관계를 분석하는 방법에 있어서,
상기 데이터에서 연속형 변수, 종속변수, 임상변수들에 대한 정보를 추출하는 단계;
상기 임상변수들 중에서 적어도 하나 이상의 교란변수를 판별하는 단계;
상기 판별된 교란변수들을 이용하여 상기 연속형 변수를 새로운 연속형 변수로 변환하는 단계; 및
상기 새로운 연속형 변수와 상기 종속변수간의 상관관계를 분석하는 단계
를 포함하고,
상기 교란변수를 판별하는 단계는,
상기 분석 데이터에서 임상 변수들을 범주형 변수로 변환하는 단계;
상기 각 임상변수별로 상기 연속형 변수와 비교하여 유의확률(p-value)을 산출하는 단계; 및
상기 유의확률이 기 정의된 설정값 미만인 임상변수를 교란변수로 판별하는 단계를 포함하는 것을 특징으로 하는 연속형 변수의 보정을 이용한 상관관계 분석 방법.
삭제
제4항에 있어서,
상기 새로운 연속형 변수로 변환하는 단계는,
상기 데이터를 교란변수들의 조합이 동일한 복수의 서브그룹으로 분류하는 단계;
각 서브그룹별로 상기 연속형 변수 분포의 대표값을 '0'으로 설정하는 단계; 및
상기 각 서브그룹의 연속형 변수에 대해, 상기 설정된 '0'을 기준으로 상대적인 값으로 변환하는 단계를 포함하는 것을 특징으로 하는 연속형 변수의 보정을 이용한 상관관계 분석 방법.
분석하고자 하는 데이터에서 교란변수를 판별하고, 상기 판별된 교란변수들을 이용하여 연속형 변수를 새로운 연속형 변수로 변환하는 보정부; 및
상기 새로운 연속형 변수와 종속변수간의 상관관계를 분석하는 상관관계 분석부
를 포함하고,
상기 보정부는
상기 데이터에서 임상변수들을 추출하고, 각 임상변수들을 범주형 변수로 변환하고, 상기 각 임상변수별로 연속형 변수와 비교하여 유의확률(p-value)을 산출하며, 유의확률이 기 정의된 설정값 미만인 임상변수를 교란변수로 판별하는 것을 특징으로 하는 연속형 변수의 보정을 이용한 상관관계 분석 장치.
제7항에 있어서,
상기 보정부는,
상기 데이터를 교란변수들의 조합이 동일한 복수의 서브그룹으로 분류하며, 각 서브그룹별로 연속형 변수 분포의 대표값을 '0'으로 하여, 각 서브그룹의 연속형 변수에 대해, '0'을 기준으로 상대적인 값으로 변환하여 새로운 연속형 변수를 생성하는 것을 특징으로 하는 연속형 변수의 보정을 이용한 상관관계 분석 장치.