KR20130040014A

KR20130040014A - 변수 연관관계 자동 탐색 및 이를 이용한 동적 결과 리포트 산출방법

Info

Publication number: KR20130040014A
Application number: KR1020110104734A
Authority: KR
Inventors: 김양석; 유진호; 이영복; 하인철; 최성은
Original assignee: 주식회사 이즈텍
Priority date: 2011-10-13
Filing date: 2011-10-13
Publication date: 2013-04-23
Also published as: KR101305841B1

Abstract

본 발명은 변수 연관관계 자동 탐색 및 이를 이용한 동적 결과 리포트 산출방법, 보다 구체적으로는 1) 의료 통계에서 사용되는 수많은 임상, 역학 변수의 특성을 파악하여 가장 많이 사용되는 유형으로 자동 분류해 주고, 2) 분석하고자 하는 변수들과 적용하고자 하는 통계 알고리듬이 많을 경우 모든 변수들 간의 연관관계를 일일이 자동으로 지정해 주며, 3) 임상, 역학 변수들 간에 분석된 수많은 연관관계를 한눈에 파악할 수 있는 종합적인 결과 리포트를 제공할 수 있는 것을 특징으로 하는 변수 연관관계 자동 탐색 및 이를 이용한 동적 결과 리포트 산출방법을 제공한다.

Description

변수 연관관계 자동 탐색 및 이를 이용한 동적 결과 리포트 산출방법{Method that automatically explores statistical relationships among variables and generates dynamic report}

현대 의학에서는 질병을 일으키거나 질병 발생과 관련된 요인을 찾고, 새로 개발된 신약이나 치료법의 효과를 분석하기 위해서 다양한 통계 분석 알고리듬이 탑재되어 있는 소프트웨어를 빈번하게 이용하게 된다.

간수치, 콜레스테롤 수치, 혈압, 체질량 지수(BMI), 흡연 여부 등은 병원에서 대표적으로 확보할 수 있는 임상, 역학 변수들로, 치료 또는 연구하고자 하는 목적에 따라 측정, 관찰 또는 실험을 통해 확보되는 변수들은 수십 건 이상으로 확대될 수 있다.

이러한 임상, 역학 변수들 간에는 다양한 연관관계가 있을 수 있는데, 체질량 지수(BMI)와 콜레스테롤 수치 간 존재하는 양(+)의 상관관계가 대표적인 예라고 할 수 있다.

하지만, 현대 의학의 발전으로 인해 새로이 개발되는 약물, 치료 방법, 검사 방법 등이 다양해짐에 따라 생성되는 변수들 또한 지속적으로 증가해가는 추세이며, 이들 변수 간 존재할 수 있는 연관관계도 복잡해질 수밖에 없는 상황이다.

이러한 임상, 역학 변수 분석 시 적용되는 대표적인 방법으로는 상관관계 분석(correlation analysis), 평균값 차이 분석(mean difference test), 카이제곱 검정(chi-square test), 회귀 분석(regression analysis) 등이 있다.

SAS나 SPSS는 이러한 다양한 통계 분석 알고리듬이 탑재되어 있는, 현재 연구자들이 가장 많이 사용하고 있는 통계 분석 전용 소프트웨어이다. 하지만, 이러한 분석 소프트웨어들은 사용자가 분석하고자 하는 변수, 적용하고자 하는 통계 알고리듬을 명확하게 알고 있다는 전제 하에서는 적확한 결과를 도출할 수 있지만, 통계적인 지식이 상대적으로 부족한 임상의나 연구자들이 사용하기에는 다소 어려움이 있는 게 현실이다.

예를 들어, 분석하고자 하는 변수가 10개이고 적용하고자 하는 통계 알고리듬이 3개인 경우만 고려해도 변수들 간 가능한 분석 방법 개수는 135개(2개 변수로 이루어진 가능한 변수 조합 수 x 알고리듬 수 = 10x9/2 x 3)나 되기 때문에 통계 비전문가가 기존 분석 소프트웨어를 이용하여 분석을 하는 것은 현실적으로 어렵다고 할 수 있다.

또한, 시간을 들여 분석을 수행한 경우에도 기존 분석 소프트웨어는 수많은 분석 결과를 독립적인 결과 형태로만 제시해 줄 뿐 입력한 변수들 간에 분석된 모든 연관관계를 한눈에 파악할 수 있는 결과는 제공하지 못하고 있다.

본 발명은 상기와 같은 문제점을 해결하기 위해 제안된 것으로, 1) 의료 통계에서 사용되는 수많은 임상, 역학 변수의 특성을 파악하여 가장 많이 사용되는 유형으로 자동 분류해 주고, 2) 분석하고자 하는 변수들과 적용하고자 하는 통계 알고리듬이 많을 경우 모든 변수들 간의 연관관계를 일일이 자동으로 지정해 주며, 3) 임상, 역학 변수들 간에 분석된 수많은 연관관계를 한눈에 파악할 수 있는 종합적인 결과 리포트를 제공할 수 있는 것을 특징으로 하는 변수 연관관계 자동 탐색 및 이를 이용한 동적 결과 리포트 산출방법을 제공하는 것을 목적으로 한다.

상기한 목적을 달성하기 위하여 본 발명은,

컴퓨터 장치 내 프로그램화 된 변수 유형 자동 분류 모듈, 통계 알고리즘 자동 적용 모듈, 동적 변수 연관관계도 작성 모듈 및 동적 결과 리포트 작성 모듈의 작용에 따라 단계적으로 구현되는 변수 연관관계 자동 탐색 및 이를 이용한 동적 결과 리포트 산출방법에 있어서,

상기 변수 유형 자동 분류 모듈이 데이터에 포함되어 있는 변수를 구성하는 값들이 어떤 형태를 가지는지 분석하여 범주형 변수와 연속형 변수로 자동 분류하되, 변수를 구성하는 값들이 모두 문자인 경우 및 숫자이지만 숫자의 종류 수가 한정되어 있는 경우에는 해당 변수를 범주형으로 분류하고, 그 외에는 모두 연속형 변수로 분류하는 단계;

상기 통계 알고리즘 자동 적용 모듈이 상기 변수 유형 자동 분류 모듈에 의해 자동 분류된 변수를 그 유형 조합에 따라 서로 다른 통계 알고리즘을 적용하여 통계 분석을 하되, (범주형, 범주형) 변수 조합을 이용한 분석인 경우에는 두 변수 간 연관관계 분석(association analysis)을 수행하며, (범주형, 연속형) 변수 조합을 이용한 분석인 경우에는 2개 또는 3개 이상 세부 범주에서 연속형 변수의 평균값 차이 분석을 수행하거나 두 변수 간 연관관계 분석을 수행하며, (연속형, 연속형) 변수 조합을 이용한 분석인 경우에는 두 변수 간 상관관계 분석(correlation analysis)을 수행하거나 두 변수 간 선형 회귀 분석(linear regression analysis)을 수행하는 단계;

상기 동적 변수 연관관계도 작성 모듈이 상기 통계 알고리즘 자동 적용 모듈에 의하여 통계 분석된 모든 변수들 간의 연관관계를 보여주는 동적 변수 연관관계도를 작성하는 단계 및;

상기 동적 결과 리포트 작성 모듈이 상기 통계 알고리즘 자동 적용 모듈에 의하여 통계 분석된 모든 변수들 간의 연관관계를 보여주는 동적 결과 리포트를 작성하는 단계;

를 포함하는 것을 특징으로 하는 변수 연관관계 자동 탐색 및 이를 이용한 동적 결과 리포트 산출방법을 제공한다.

이 경우, 상기 동적 변수 연관관계도에는 범주형 변수 및 연속형 변수가 나타나며, 범주형과 범주형 변수들 간 연관관계가 있거나 범주형, 연속형 변수 조합을 이용하여 평균값 차이가 있는 경우 또는 연속형 변수 간 상관관계가 있는 경우는 선으로 연결된다. 그리고 서로 선으로 연결된 변수들 간에는 "p-value ＜ 유의 수준"인 관계가 성립한다.

한편, 상기 동적 변수 연관관계도에서 변수들 간을 서로 선으로 연결함에 있어서는, 적용한 통계 알고리즘 3개에서 계산된 p-value가 모두 유의 수준보다 작게 나온 경우와 적용한 통계 알고리즘 2개에서만 계산된 p-value가 유의 수준보다 작게 나온 경우와 적용한 통계 알고리즘 1개에서만 계산된 p-value가 유의 수준보다 작게 나온 경우의 선 색깔을 서로 달리 표시한다.

한편, 상기 동적 변수 연관관계도와 상기 동적 결과 리포트는 서로 링크가 되어 있어 상기 동적 변수 연관관계도의 변수나 선을 클릭하면 상기 동적 결과 리포트의 해당 결과로 바로 이동한다.

이 경우, 상기 동적 결과 리포트는,

분석된 데이터에 포함되어 있는 변수 수, 샘플 수, 적용한 통계 분석 방법 수가 정리되어 있는 [데이터와 변수 속성(Data and Variable Property)] 항목;

상기 동적 변수 연관관계도에 나타나 있는 변수 이름을 나열하고 이들 변수들에 모두 링크를 걸어 변수 이름을 클릭하면 해당 변수를 기준으로 다른 변수들 간 계산된 결과가 요약된 테이블을 보여주는 [변수 연관관계 분석 결과 링크(Association Investigator Result)] 항목;

연관관계가 있는 변수들을 선으로 연결한 네트워크를 보여주는 [변수 연관관계도(Association Plot among Variables)] 항목;

범주형 변수들 간, 연속형 변수들 간, 범주형과 연속형 변수들 간 계산된 p-value를 정리하고 이들 p-value에 모두 링크를 걸어 p-value를 클릭하면 해당 p-value와 관련한 상세 분석 결과를 보여주는 [변수 간 연관 매트릭스(Association Matrix among Variables)] 항목;

기준 변수에서 계산된 변수 연관관계표를 표 형태로 작성하여 보여주는 [기준 변수에서 계산된 변수 연관관계표(Association Investigator Results about Each Variable)] 항목 및;

모든 변수들 간 계산된 상세 결과를 표와 그림으로 보여주는 [상세 분석 결과(Detailed Statistical Analysis Result)] 항목;

을 포함하는 것을 특징으로 한다.

본 발명에 따르면 다음과 같은 유리한 효과를 얻을 수 있다.

1. 변수 유형 자동 설정에서 발생하는 장점

기존 통계 분석 소프트웨어의 경우 데이터 입력 시 변수의 속성을 숫자형과 문자형으로 구분하는데 그쳤으나 본 발명에서는 숫자형 변수의 경우에도 데이터에 존재하는 값의 특성을 파악하여 범주형인지 연속형인지 자동으로 분류해 주는 기능을 가지고 있다.

예를 들어, 체질량 지수(BMI, body mass index)가 20 미만은 저체중, 20～25는 정상, 26～30는 과체중, 30 초과를 비만으로 분류할 때 BMI 변수가 가지는 값은 0, 1, 2, 3으로 표기하는 경우가 많다. 이런 경우 기존 소프트웨어는 BMI 변수를 연속형 숫자로 인식하는데, 실제 분석에서는 범주형 변수로 이용하는 경우가 많기 때문에 연속형 변수를 범주형 변수로 변환하는 수동 작업이 필수적이다.

하지만 본 발명의 경우 0, 1, 2, 3으로 표기된 BMI 변수는 범주형 변수로 자동 분류되기 때문에, 특히 입력 변수가 많을 경우 변수 유형 변환에 드는 시간을 상당히 많이 줄일 수 있는 장점을 가지고 있다.

2. 대규모 변수 자동 분석 과정에서 발생하는 장점

기존 통계 소프트웨어의 데이터 분석 방식은 보통 「데이터 입력(①) → 분석 목적 검토(②) → 적용할 통계 알고리즘 지정(③) → 분석 대상 변수군 선정(④) → 분석에 필요한 파라미터 설정(⑤) → 결과 확인 (⑥) → 원하는 결과가 나오지 않을 경우 ③ ～ ⑥ 과정 수동 반복(⑦)」과 같이 기본으로 7개 과정을 거치며, 원하는 분석 결과가 나오지 않을 경우 ③ ～ ⑥ 과정을 원하는 분석 결과가 나올 때까지 수작업으로 계속 반복해야 한다.

만일 연구자가 어떤 변수에 어떤 통계 알고리즘을 적용할지에 대한 선지식을 미리 가지고 있는 경우에 기존 통계 소프트웨어를 사용하여 분석을 하는 것과 본 발명을 이용하여 사용하는 것에는 그다지 큰 차이가 없다.

하지만 관심 대상인 변수 수가 많아 여러 변수를 모두 고려한 다변량 분석(multivariate analysis)을 바로 적용하지 못하고 변수 간 수많은 단변량 분석(univariate analysis)을 먼저 수행하는 경우, 또는 통계 비전문가가 어떤 통계 알고리즘을 이용할지에 대한 적확한 지식이 없는 경우 기존 통계 소프트웨어를 사용하는 것은 비효율적이거나 또는 사용하기 매우 어렵다고 할 수 있다.

이러한 기존 소프트웨어의 단점을 보완한 본 발명의 데이터 분석 과정은 「데이터 입력(①) → 모든 변수를 분석 대상으로 지정(②) → 적용할 통계 알고리듬 및 분석 파라미터 자동 설정(수동으로 세부 지정 가능)(③) → 결과 확인(④) → 분석 목적 검토(⑤) → 관심 변수군 최종 선정(⑥) → 적용할 통계 알고리듬 및 분석 파라미터 수동 설정(⑦) → 결과 확인(⑧)」과 같이 ① ～ ④ 단계를 자동으로 수행하며, 자동 분석 결과 원하는 결과가 있는 경우 ⑤ ～ ⑧ 단계는 수행하지 않아도 되며, 보다 고급 분석을 원할 경우에만 ⑤ ～ ⑧ 단계를 수행하게 된다.

위에서 기술한 분석 과정에서 "모든 변수를 분석 대상으로 지정(②)" 하는 기능은 기존 소프트에는 없는 것이다. 즉, 기존 소프트웨어에서는 통계 분석 알고리즘을 먼저 선택한 후 알고리즘 특성에 맞는 변수를 수동으로 지정해 줘야 하는데, 본 발명에서는 모든 변수를 대상으로 가능한 모든 통계 알고리즘이 자동으로 지정되어 분석되기 때문에 한번 분석이 완료되면 분석된 결과만을 검토하여 원하는 결과를 찾으면 되어 기존 소프트웨어에 비해 매우 효율적이라고 할 수 있다.

즉, 기존 소프트웨어를 이용하면 입력된 변수들 간의 통계적 연관관계를 모두 수동으로 지정하여 분석하기 때문에 시간도 많이 걸릴 뿐더러 무척이나 지루한 반복 작업을 하게 된다. 하지만, 본 발명에서는 입력된 모든 변수들의 유형을 고려하여 가장 많이 사용하는 통계 알고리즘을 자동 적용하여 배치로 분석하기 때문에 사용자는 분석된 결과들을 검토하는 과정만 필요하게 되며, 따라서 분석에 걸리는 시간이나 노력을 효율적으로 줄일 수 있다(참고: 10,000 샘플로 이루어진 50개 변수의 경우 최대 1시간 내로 모든 분석이 완료됨).

3. 다양한 변수들의 통계적 연관성에 대한 직관적 확인 및 상세 분석 결과와의 동적 연동

기존 통계 분석 소프트웨어의 경우 변수들 간의 통계적 연관관계 분석 결과는 독립적으로 분리되어 있다. 즉, 4개 변수들 간의 연관관계 분석을 수행할 때 6개의 분석 결과가 도출 가능하다고 하면 6번의 독립적인 분석을 수행해야 하며, 따라서, 이들 4개 변수들 간 연관관계는 다른 매체(예를 들면 워드나 파워포인트, 또는 필기구)를 이용하여 수동으로 작성해서 확인해야 하는 번거로움이 있다.

하지만 본 발명에서는 모든 변수들 간의 연관관계를 직관적으로 확인할 수 있는 연관관계도를 시각적으로 자동 제시해 주기 때문에 다른 매체를 이용할 필요가 없다. 또한, 이들 변수들 간의 연관관계는 openoffice의 객체로 자동 생성된 상세 분석 결과 리포트와 동적으로 연결되기 때문에 단지 "변수 확인(①) → 상세 결과로 이동 및 검토(②)"와 같은 단순한 작업만으로 검토하고자 하는 결과를 쉽게 확인할 수 있다는 장점이 있다.

＜도 1＞ 본 발명의 작동 개요
＜도 2＞ 본 발명의 실시 예 중 입력 데이터 예시
＜도 3＞ 본 발명의 실시 예 중 변수 유형 자동 분류 모듈 작동 방법
＜도 4＞ 본 발명의 실시 예 중 입력 데이터 및 변수 유형 자동 설정 예
＜도 5＞ 본 발명의 실시 예 중 샘플군 변수와 흡연유무 변수 간 연관관계 분석을 위한 분할표
＜도 6＞ 본 발명의 실시 예 중 샘플군 변수와 흡연유무 변수 간 연관관계 분석을 위한 회귀식
＜도 7＞ 본 발명의 실시 예 중 CHOLES 변수와 DBP 변수 간의 선형 회귀관계
＜도 8＞ 본 발명의 실시 예 중 통계 알고리즘 자동 적용 모듈 작동 방법
＜도 9＞ 본 발명의 실시 예 중 통계 알고리즘 자동 적용 모듈 인터페이스 예시
＜도 10＞ 본 발명의 실시 예 중 동적 변수 연관관계도
＜도 11＞ 본 발명의 실시 예 중 동적 변수 연관관계도 모듈 작동 방법
＜도 12＞ 본 발명의 실시 예 중 동적 결과 리포트 모듈 작동 방법
＜도 13＞ 본 발명의 실시 예 중 [데이터와 변수 속성] 항목
＜도 14＞ 본 발명의 실시 예 중 [변수 연관관계 분석 결과 링크] 항목
＜도 15＞ 본 발명의 실시 예 중 클릭한 변수(Hypertension)를 기준으로 다른 변수들 간 분석된 결과 요약
＜도 16-A＞ 본 발명의 실시 예 중 두 범주형 변수 간에 계산된 분할표
＜도 16-B＞ 본 발명의 실시 예 중 두 범주형 변수 간에 계산된 p-value 및 막대그래프
＜도 17＞ 본 발명의 실시 예 중 [변수 연관관계도] 항목
＜도 18＞ 본 발명의 실시 예 중 [범주형 변수 간 연관 매트릭스] 항목
＜도 19＞ 본 발명의 실시 예 중 [연속형 변수 간 연관 매트릭스] 항목
＜도 20＞ 본 발명의 실시 예 중 [범주형과 연속형 변수 간 연관 매트릭스] 항목
＜도 21＞ 본 발명의 실시 예 중 연속형 변수 간 계산된 상관관계 결과
＜도 22＞ 본 발명의 실시 예 중 평균값 차이 분석 결과
＜도 23＞ 본 발명의 실시 예 중 상세 분석 결과에서 [Quick Chart] 탭
＜도 24＞ 본 발명의 실시 예 중 [Quick Chart] 탭 실행 결과
＜도 25＞ 본 발명의 실시 예 중 차트 생성 결과
＜도 26＞ 본 발명의 실시 예 중 동적 변수 연관관계도에서 변수 클릭 후 이동 결과
＜도 27＞ 본 발명의 실시 예 중 동적 변수 연관관계도 에서의 연결 선 클릭 후 이동 결과

이하, 첨부된 도면들을 참조하여 본 발명의 실시 예에 대하여 상세히 설명한다. 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.

가. 발명의 전체 작동 개요

본 발명은,

＜도 1＞은 본 발명의 전반적인 작동 개요를 나타낸 것이다. 분석을 하고자 하는 데이터를 입력하면, 상기 변수 유형 자동 분류 모듈, 상기 통계 알고리즘 자동 적용 모듈 2가지가 순차적으로 작동하게 되며, 상기 2가지 모듈의 작동이 완료되면 동적 변수 연관관계도, 동적 결과 리포트가 그 결과물로 생성된다. 또한 생성된 동적 변수 연관관계도와 동적 결과 리포트는 서로 링크(본 발명에서는 이를 포괄적으로 '동적 연동'이라 한다)가 되어 있어 관련되어 있는 내용을 서로 쉽게 참조해가며 확인할 수 있다는 특징이 있다.

이하, 상기 변수 유형 자동 분류 모듈, 상기 통계 알고리즘 자동 적용 모듈, 상기 동적 변수 연관관계도 작성 모듈 및 상기 동적 결과 리포트 작성 모듈의 작용을 위주로 하여 본 발명 및 그 실시 예에 대하여 상세히 설명한다.

나. 변수 유형 자동 분류 모듈

＜도 2＞는 본 발명에 입력되는 데이터의 예를 나타낸 것이다. 데이터 형식은 각 열이 "탭"으로 구분된 텍스트 파일이거나 또는 "엑셀" 파일이 될 수 있다.

입력 데이터에서 첫 번째 행은 변수 이름을 나타낸다. 두 번째 행부터는 샘플(예: 병원에 내원한 환자)을 나타낸다. 예를 들어 ＜도 2＞에서 "Hypertension" 이라는 변수는 1 과 2라는 값을 가지는데, 1은 고혈압이 있음을, 2는 고혈압이 없음을 나타내고 있다. ID 값이 1인 샘플의 경우 Hypertension 값이 1이기 때문에 이 샘플은 고혈압이 있음을 나타낸다. ＜도 2＞에 나타낸 각 변수에 대한 설명은 아래와 같다.

ID 변수: 샘플의 고유 ID

SEX 변수: 샘플의 성별(M=남자, F=여자)

CHOLES: 샘플의 콜레스테롤 수지

SBP: 샘플의 수축기 혈압

DBP: 샘플의 이완기 혈압

DRINK: 샘플의 음주 습관(1=안 마심, 2=일주일에 1번 마심, 3=일주일에 3번 마심, 4=일주에 4번 이상 마심)

Family_History: 샘플 집안의 고혈압 가족력(1=가족력 없음, 2=가족력 있음)

＜도 3＞은 입력된 데이터에 포함되어 있는 변수의 유형을 자동 분류하는 과정을 도식화한 것이다. 데이터를 입력하였을 때 상기 변수 유형 자동 분류 모듈은 변수를 구성하는 값들이 어떤 형태를 가지는지 분석하여 범주형 변수와 연속형 변수로 자동 분류하게 된다. 변수를 범주형으로 분류하는 기준은 아래와 같다. 한편, 본 발명에서는 아래에서 기술한 경우 외에는 모두 연속형 변수로 분류한다.

변수를 구성하는 값들이 모두 문자인 경우

예: "F", "M"과 같은 문자로 구성되어 있는 SEX 변수(＜도 2＞ 참고)

변수를 구성하고 있는 값들이 숫자이지만 숫자의 종류 수(본 발명의 실시 예에서는 k로 정의함)가 한정되어 있는 경우

예: 1, 2와 같이 2가지 숫자로만 구성되어 있는 Hypertension 변수(＜도 2＞ 참고)

설문 조사 자료에서 많이 사용하는 5점 척도, 7점 척도, 10점 척도 값으로 구성된 변수를 데이터 입력 초기에 범주형 변수로 자동 인식하기 위하여 본 발명의 실시 예에서는 k=10을 기본값으로 지정하지만, 이는 사용자의 의도에 따라 자유롭게 변경할 수 있음

＜도 4＞는 데이터 입력 후 자동으로 분류된 변수 속성 및 입력된 데이터를 나타낸 예시 도면이다.

다. 통계 알고리즘 자동 적용 모듈

상기 변수 유형 자동 분류 모듈에 의해 자동 분류된 변수는 상기 통계 알고리즘 자동 적용 모듈에 의하여 그 유형 조합에 따라 서로 다른 통계 알고리즘을 적용하여 통계 분석이 이루어지게 된다. 통계 분석은 입력된 변수 쌍(변수 2개)에 대해서 적용된다. 만일 변수가 v1, v2, v3, v4와 같이 네 개가 있다고 한다면 가능한 분석 방법 조합은 (v1, v2), (v1, v3), (v1, v4), (v2, v3), (v2, v4), (v3, v4)와 같이 6가지가 된다. 그리고 v1, v2 변수가 범주형, v3, v4 변수가 연속형 변수인 경우 (v1, v2) 변수 조합은 (범주형, 범주형)이 되고 (v3, v4) 변수 조합은 (연속형, 연속형)이 되며 나머지 4가지 변수 조합은 모두 (범주형, 연속형)이 된다. 이러한 변수 유형 조합에 따라 적용 가능한 분석 방법은 아래에 기술되어 있다.

(범주형, 범주형) 변수 조합을 이용한 분석인 경우

두 변수 간 연관관계 분석(association analysis) 수행

두 변수 간 연관관계 분석 예1: ＜도 5＞에 나타낸 분할표에서처럼 환자군, 정상군 2개 집단으로 구성되는 샘플군 변수가 있고, 흡연, 비흡연의 2개 범주로 구성된 흡연유무 변수가 있다고 가정했을 때, 흡연을 하는 환자 수(35명)와 비흡연자인 정상인 수(27명)가 다른 경우보다 상대적으로 많은데, 어떤 두 변수 간에 이와 유사한 관계를 보일 경우 두 변수는 연관관계가 있다고 기술함

분할표를 이용한 두 변수 간 연관관계의 강약은 아래와 같이 연구자들이 가장 많이 사용하는 통계 알고리즘을 이용하여 수치값으로 제시함

적합도 검정(Goodness of Fit Test)

우도비 검정(Likelihood Ratio Test)

두 변수 간 연관관계 분석 예2: 샘플군 변수를 구성하는 정상군을 0, 환자군 을 1 값으로 변환하고 흡연인 경우를 1, 비흡연인 경우를 2로 변환한 후 흡연유무가 환자, 정상 상태를 어느 정도 설명할 수 있는지를 ＜도 6＞과 같은 회귀식(regression equation)을 통해 분석할 수 있음. ＜도 6＞에서 Y는 샘플군 변수를, X는 흡연유무 변수를 나타내며 a0, a1은 분석 결과로 계산될 계수(coefficient)를 나타냄. 회귀식을 이용한 두 변수 간 연관관계 유무는 아래와 같이 연구자들이 가장 많이 사용하는 통계 알고리즘을 이용하여 수치값으로 제시함

한 변수를 종속 변수(dependent variable, Y 변수), 다른 변수를 독립 변수(independent variable, X 변수)로 두고 로지스틱 회귀 분석(logistic regression analysis) 적용

(범주형, 연속형) 변수 조합을 이용한 분석인 경우

2개 세부 범주에서 연속형 변수의 평균값 차이 분석 예: SEX 변수가 남, 여 세부범주를 가지는 범주형 변수이고 CHOLES 변수가 콜레스테롤 수치를 나타내는 연속형 변수라고 했을 때 남, 여에서 콜레스테롤 수치가 차이가 나는지 통계적인 수치로 제시하며, 아래에 나열한 것과 같이 연구자들이 가장 많이 사용하는 통계 알고리즘을 적용함

스튜던트의 T 검정(Student's T test)

웰치의 T 검정(Welch's T test)

맨-휘트니 검정(Mann-Whitney test)

3개 이상 세부 범주에서 연속형 변수의 평균값 차이 분석 예: DRINK 변수가 샘플의 음주 습관(1=안 마심, 2=일주일에 1번 마심, 3=일주일에 3번 마심, 4=일주에 4번 이상 마심)을 나타내는 범주형 변수이고 CHOLES 변수가 콜레스테롤 수치를 나타내는 연속형 변수라고 했을 때 음주습관에 따라 콜레스테롤 수치가 차이가 나는지 통계적인 값으로 제시하며, 아래와 같이 연구자들이 가장 많이 사용하는 통계 알고리즘을 적용함

일원배치 분산 분석(1-way ANOVA)

크루스칼-왈리스 검정(Kruskal-Wallis test)

사후 검정(Post Hoc Test) → 종류: Bonferroni, Tukey, Scheffe

두 변수 간 연관관계 분석 예: Hypertension 변수가 고혈압인 경우(1), 그렇지 않은 경우(2) 값을 가지는 범주형 변수이고 CHOLES 변수가 콜레스테롤 수치를 나타내는 연속형 변수라고 했을 때, 콜레스테롤 수치가 고혈압 유무에 어느 정도 영향을 주는지 회귀식을 이용하여 분석할 수 있음(＜도 6＞ 참조). 회귀식을 이용한 두 변수 간 연관관계 유무는 아래와 같이 연구자들이 가장 많이 사용하는 통계 알고리즘을 적용함

(연속형, 연속형) 변수 조합을 이용한 분석인 경우

두 변수 간 상관관계(correlation) 분석 예: SBP를 수축기 혈압, DBP를 이완기 혈압이라고 할 때 이완기 혈압의 증감에 따라 수축기 혈압도 동일하게 증감 경향을 보이면 두 변수 간에는 상관관계가 있다고 기술함. 두 변수 간 상관관계 분석에는 아래와 같이 연구자들이 가장 많이 사용하는 통계 알고리즘을 적용함

피어슨 상관계수(Pearson's correlation coefficient) 분석

스피어만 상관계수(Spearman's correlation coefficient) 분석

두 변수 간 선형 회귀(linear regression) 분석 예: CHOLES 변수를 콜레스테롤 수치, DBP 변수를 이완기 혈압이라고 했을 때 두 변수에서 관측된 값들은 ＜도 7＞과 같이 2차원 평면에서 좌표(파란 점)로 표시할 수 있으며, 이들 좌표들의 전반적인 관계는 선형(붉은 직선)으로 나타낼 수 있음. 선형 회귀식을 이용한 두 변수 간 연관관계 유무는 아래와 같이 연구자들이 가장 많이 사용하는 통계 알고리즘을 적용함

한 변수를 종속 변수(dependent variable, Y 변수), 다른 변수를 독립 변수(independent variable, X 변수)로 두고 선형 회귀 분석(logistic regression analysis) 적용

＜도 8＞은 두 개 변수 간 유형 조합을 이용하여 적합한 통계 알고리즘을 자동으로 적용하기 위한 과정을 도식화 한 것이다. ＜도 9＞는 통계 알고리즘을 자동으로 적용하기 위한 실제 인터페이스를 예시한 것이다.

라. 동적 변수 연관관계도 작성 모듈

상술한 바와 같이, 상기 변수 유형 자동 분류 모듈에 의해 유형별로 자동 분류된 변수는 상기 통계 알고리즘 자동 적용 모듈에 의하여 그 유형 조합에 따라 적합한 통계 알고리즘을 자동으로 적용하여 분석되는데, 이렇게 분석된 결과는 ＜도 10＞에서 보는 바와 같이 상기 동적 변수 연관관계도 작성 모듈에 의하여 작성된 동적 변수 연관관계도를 통하여 모든 변수들 간의 연관관계를 나타낼 수 있다.

＜도 10＞에서 노란색 타원형(①)은 변수를 나타내고 있다. 가운데 점선을 기준으로 왼쪽에는 범주형 변수가 오른쪽에는 연속형 변수가 나타난다. 범주형과 범주형 변수들 간 연관관계가 있거나 범주형, 연속형 변수 조합을 이용하여 평균값 차이가 있는 경우, 또는 연속형 변수 간 상관관계가 있는 경우는 선(②)으로 연결된다.

변수들 간 연관관계 분석, 평균값 차이 분석, 상관관계 분석으로 도출된 여러 결과 중 동적 변수 연관관계도 작성에 필요한 값은 p-value이다. p-value는 일종의 확률값으로, 0 ～ 1 사이의 값만을 가질 수 있다. 만일 두 변수 간에 계산된 p-value가 0에 가까우면 두 변수 간에는 강한 연관관계가 있거나 의미 있는 평균차가 존재하거나 또는 강한 상관관계가 있는 것으로 해석할 수 있다. 반대로 p-value가 1에 가까울수록 두 변수 간에는 의미 있는 관계는 없다고 해석할 수 있다.

일반적으로 두 변수 간 강한 연관관계, 의미 있는 평균 차이, 강한 상관관계 존재 여부를 나누는 기준은 0.05 또는 0.01을 많이 사용하며, 이 값은 유의 수준(significance level, α 로 표기)이라고 정의된다.

본 발명의 실시 예에서는 기본 유의 수준 값으로 0.05를 설정하였으며(α = 0.05), ＜도 10＞에서 서로 선으로 연결된 변수들 간에는 "p-value ＜ α"인 상태임을 나타내고 있다.

한편 본 발명의 실시 예에서 선 색깔은 빨강, 파랑, 녹색의 세 가지가 있는데, 선 색깔을 다르게 표기하는 방식은 아래와 같다.

적용한 통계 알고리즘 3개에서 계산된 p-value가 모두 유의 수준(α)보다 작게 나온 경우 빨강색 선으로 표기

적용한 통계 알고리즘 2개에서만 계산된 p-value가 유의 수준(α)보다 작게 나온 경우 파랑색 선으로 표기

적용한 통계 알고리즘 1개에서만 계산된 p-value가 유의 수준(α)보다 작게 나온 경우 녹색 선으로 표기

유의 수준값은 ＜도 10＞에서 [Option] 버튼(③)을 이용하여 변경할 수 있으며, 가운데 그림의 크기는 스케일 조정 슬라이드(④)를 이용하여 확대 또는 축소할 수 있다.

시각화 된 동적 변수 연관관계도는 [Export Image] 버튼(⑤)을 클릭하여 아래와 같은 형식의 파일로 저장할 수 있다.

pdf, svg, emf, eps, swf, ppt, png, jpg, gif

＜도 11＞은 동적 변수 연관관계도를 작성하기 위한 과정을 도식화 한 것이다.

마. 동적 결과 리포트 작성 모듈

본 발명에 의해 변수가 유형별로 자동 분류된 후 유형 조합에 따라 적합한 통계 알고리즘을 적용하여 분석된 결과는 상기 동적 변수 연관관계도와 함께 동적 결과 리포트로도 작성된다. 이러한 동적 결과 리포트는 상기 동적 결과 리포트 작성 모듈에 의하여 작성되며, 동적 결과 리포트를 작성하는 과정은 ＜도 12＞에 나타내었다. 동적 결과 리포트를 구성하는 내용은 아래와 같다.

1. [데이터와 변수 속성(Data and Variable Property)] 항목

본 항목에는 ＜도 13＞과 같이 분석된 데이터에 포함되어 있는 변수 수, 샘플 수, 적용한 통계 분석 방법 수 등이 정리되어 있다.

2. [변수 연관관계 분석 결과 링크(Association Investigator Result)] 항목

본 항목에는 작성된 동적 변수 연관관계도에 나타나 있는 변수 이름이 ＜도 14＞와 같이 나열되어 있다. 이들 변수들에는 모두 링크가 걸려 있으며, 변수 이름을 마우스로 클릭하면 ＜도 15＞와 같이 해당 변수를 기준으로 다른 변수들 간 계산된 결과가 요약된 테이블 항목으로 이동하게 된다.

＜도 15＞의 실시 예에서 테이블 최상단의 "Test Method" 아래에 기술되어 있는 것은 분석에 적용한 통계 방법을 나타내고 있으며, 테이블 왼쪽의 제일 처음 열은 분석에 이용한 변수 이름을 나타내고 있다. 변수와 테스트 방법이 교차하는 곳의 값은 해당 분석 방법을 적용하여 계산된 p-value(라. 동적 변수 연관관계도 작성 모듈 참고)를 의미하며, 계산된 p-value가 2개인 경우 2개의 p-value가 나타난다. 또한, p-value ＜ α(라. 동적 변수 연관관계도 작성 모듈 참고)인 경우 해당 p-value 오른쪽 어깨에 * 로 표시된다. 각 p-value에는 모두 링크가 걸려 있는데, 사용자가 링크를 클릭했을 때는 ＜도 16＞과 같은 항목으로 이동하게 된다.

＜도 16-A＞는 두 범주형 변수 간 연관관계 분석을 수행한 상세 분석 결과를 나타내고 있다. 가로와 세로 각각 변수 및 변수를 구성하는 세부 범주가 표시되어 있고 세부 범주가 교차하는 곳은 세부 범주를 구성하는 샘플 수(No), 퍼센티지(％)를 나타내고 있으며, 오른쪽 열의 OR과 95％ CI는 범주형 변수의 연관 분석에서 기본적으로 분석되는 Odds Ratio와 Odds Ratio의 95％ 신뢰구간을 나타내고 있다.

＜도 16-B＞는 두 범주형 변수 간 적합도 검정 및 우도비 검정 방법을 이용하여 계산된 p-value와 함께 각 세부 범주에서 관측된 샘플 수를 막대그래프로 나타낸다.

3. [변수 연관관계도(Association Plot among Variables)] 항목

본 항목에는 ＜도 17＞과 같이 연관관계가 있는 변수들을 선으로 연결한 네트워크가 제시되어 있다.

4. [변수 간 연관 매트릭스(Association Matrix among Variables)] 항목

본 항목에는 범주형 변수들 간, 연속형 변수들 간, 범주형과 연속형 변수들 간 계산된 p-value(라. 동적 변수 연관관계도 작성 모듈 참고)가 정리되어 있다. ＜도 18＞, ＜도 19＞, ＜도 20＞ 각각은 범주형 변수들 간, 연속형 변수들 간, 범주형과 연속형 변수들 간 계산된 p-value를 테이블 형태로 정리한 것이다. 첫 번째 행, 첫 번째 열은 모두 변수 이름을 나타내며, 변수와 변수가 교차하는 부분에 계산된 p-value가 나타나게 된다. 계산된 p-value가 2개인 경우 2개의 p-value가 나타난다. 또한, 계산된 p-value 중 한 개라도 p-value ＜ α(라. 동적 변수 연관관계도 작성 모듈 참고)인 경우에는 붉은색으로 표시된다. 나머지 색깔은 별다른 의미가 없다. 각 p-value에는 모두 링크가 걸려 있다. 사용자가 ＜도 18＞에 있는 p-value를 클릭하면 위에서 기술한 ＜도 16-A＞ 및 ＜도 16-B＞와 같은 결과 항목으로 이동하게 된다.

＜도 19＞에 있는 p-value를 클릭하면 ＜도 21＞과 같은 결과로 이동하게 된다. ＜도 21＞에 나타나 있는 그림은 두 변수의 상관관계를 산포도(scatter plot)로 나타낸 것이며, 아래 표는 계산된 피어슨과 스피어만의 상관 계수값 및 p-value를 나타낸 것이다.

＜도 20＞에 있는 p-value 를 클릭하면 ＜도 22＞와 같은 결과로 이동하게 된다. ＜도 22＞는 연구자들이 가장 많이 사용하는 형태의 테이블로 평균값 차이 분석 결과를 나타낸 것이다.

5. [기준 변수에서 계산된 변수 연관관계표(Association Investigator Results about Each Variable)] 항목

본 항목에는 기준 변수에서 계산된 변수 연관관계표가 ＜도 15＞와 같은 표 형태로 작성되어 나타난다.

6. [상세 분석 결과(Detailed Statistical Analysis Result)] 항목

본 항목에는 모든 변수들 간 계산된 상세 결과가 표와 그림으로 제시된다. 각 결과는 위에서 기술한 ＜도 16-B＞, ＜도 21＞, ＜도 22＞에 상세히 나타나 있다.

사용자가 ＜도 23＞과 같은 상세 분석 결과 테이블의 왼쪽 위에 표시된 [Quick Chart]를 클릭하면 해당 테이블에 표시된 샘플수를 그림으로 나타낼 수 있는 ＜도 24＞와 같은 인터페이스가 나타나게 된다.

그리고 사용자가 ＜도 24＞에 표시되어 있는 세 가지 그림 형태 중 하나를 선택하고 바로 아래 "Statistics: p-value" 항목에서 표시하고자 하는 통계 분석 결과 종류를 선택한 후 [Create] 버튼을 클릭하면 ＜도 25＞와 같은 결과 차트가 생성된다.

바. 변수 연관관계도와 결과 리포트 동적 연동

본 발명에 따르면, 상기 작성된 동적 변수 연관관계도와 동적 결과 리포트는 서로 링크가 되어 있어, ＜도 26＞ 및 ＜도 27＞과 같이 동적 변수 연관관계도의 변수나 선을 클릭하면 동적 결과 리포트의 해당 결과로 바로 이동할 수 있다.

이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위 내에서 다양한 수정, 변경 및 치환이 가능할 것이다. 따라서 본 발명에 개시된 실시 예 및 첨부된 도면들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시 예 및 첨부된 도면에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims

컴퓨터 장치 내 프로그램화 된 변수 유형 자동 분류 모듈, 통계 알고리즘 자동 적용 모듈, 동적 변수 연관관계도 작성 모듈 및 동적 결과 리포트 작성 모듈의 작용에 따라 단계적으로 구현되는 변수 연관관계 자동 탐색 및 이를 이용한 동적 결과 리포트 산출방법에 있어서,
상기 변수 유형 자동 분류 모듈이 데이터에 포함되어 있는 변수를 구성하는 값들이 어떤 형태를 가지는지 분석하여 범주형 변수와 연속형 변수로 자동 분류하되, 변수를 구성하는 값들이 모두 문자인 경우 및 숫자이지만 숫자의 종류 수가 한정되어 있는 경우에는 해당 변수를 범주형으로 분류하고, 그 외에는 모두 연속형 변수로 분류하는 단계;
상기 통계 알고리즘 자동 적용 모듈이 상기 변수 유형 자동 분류 모듈에 의해 자동 분류된 변수를 그 유형 조합에 따라 서로 다른 통계 알고리즘을 적용하여 통계 분석을 하되, (범주형, 범주형) 변수 조합을 이용한 분석인 경우에는 두 변수 간 연관관계 분석(association analysis)을 수행하며, (범주형, 연속형) 변수 조합을 이용한 분석인 경우에는 2개 또는 3개 이상 세부 범주에서 연속형 변수의 평균값 차이 분석을 수행하거나 두 변수 간 연관관계 분석을 수행하며, (연속형, 연속형) 변수 조합을 이용한 분석인 경우에는 두 변수 간 상관관계 분석(correlation analysis)을 수행하거나 두 변수 간 선형 회귀 분석(linear regression analysis)을 수행하는 단계;
상기 동적 변수 연관관계도 작성 모듈이 상기 통계 알고리즘 자동 적용 모듈에 의하여 통계 분석된 모든 변수들 간의 연관관계를 보여주는 동적 변수 연관관계도를 작성하는 단계 및;
상기 동적 결과 리포트 작성 모듈이 상기 통계 알고리즘 자동 적용 모듈에 의하여 통계 분석된 모든 변수들 간의 연관관계를 보여주는 동적 결과 리포트를 작성하는 단계;
를 포함하는 것을 특징으로 하는 변수 연관관계 자동 탐색 및 이를 이용한 동적 결과 리포트 산출방법.
제 1 항에 있어서,
상기 동적 변수 연관관계도에는 범주형 변수 및 연속형 변수가 나타나며, 범주형과 범주형 변수들 간 연관관계가 있거나 범주형, 연속형 변수 조합을 이용하여 평균값 차이가 있는 경우 또는 연속형 변수 간 상관관계가 있는 경우는 선으로 연결되는 것을 특징으로 하는 변수 연관관계 자동 탐색 및 이를 이용한 동적 결과 리포트 산출방법.
제 2 항에 있어서,
서로 선으로 연결된 변수들 간에는 "p-value ＜ 유의 수준"인 관계가 성립되는 것을 특징으로 하는 변수 연관관계 자동 탐색 및 이를 이용한 동적 결과 리포트 산출방법.
제 3 항에 있어서,
적용한 통계 알고리즘 3개에서 계산된 p-value가 모두 유의 수준보다 작게 나온 경우와 적용한 통계 알고리즘 2개에서만 계산된 p-value가 유의 수준보다 작게 나온 경우와 적용한 통계 알고리즘 1개에서만 계산된 p-value가 유의 수준보다 작게 나온 경우의 선 색깔을 서로 달리 표시하는 것을 특징으로 하는 변수 연관관계 자동 탐색 및 이를 이용한 동적 결과 리포트 산출방법.
제 1 항에 있어서,
상기 동적 변수 연관관계도와 상기 동적 결과 리포트는 서로 링크가 되어 있어 상기 동적 변수 연관관계도의 변수나 선을 클릭하면 상기 동적 결과 리포트의 해당 결과로 바로 이동하는 것을 특징으로 하는 변수 연관관계 자동 탐색 및 이를 이용한 동적 결과 리포트 산출방법.
제 1 항에 있어서,
상기 동적 결과 리포트는,
분석된 데이터에 포함되어 있는 변수 수, 샘플 수, 적용한 통계 분석 방법 수가 정리되어 있는 [데이터와 변수 속성(Data and Variable Property)] 항목;
상기 동적 변수 연관관계도에 나타나 있는 변수 이름을 나열하고 이들 변수들에 모두 링크를 걸어 변수 이름을 클릭하면 해당 변수를 기준으로 다른 변수들 간 계산된 결과가 요약된 테이블을 보여주는 [변수 연관관계 분석 결과 링크(Association Investigator Result)] 항목;
연관관계가 있는 변수들을 선으로 연결한 네트워크를 보여주는 [변수 연관관계도(Association Plot among Variables)] 항목;
범주형 변수들 간, 연속형 변수들 간, 범주형과 연속형 변수들 간 계산된 p-value를 정리하고 이들 p-value에 모두 링크를 걸어 p-value를 클릭하면 해당 p-value와 관련한 상세 분석 결과를 보여주는 [변수 간 연관 매트릭스(Association Matrix among Variables)] 항목;
기준 변수에서 계산된 변수 연관관계표를 표 형태로 작성하여 보여주는 [기준 변수에서 계산된 변수 연관관계표(Association Investigator Results about Each Variable)] 항목 및;
모든 변수들 간 계산된 상세 결과를 표와 그림으로 보여주는 [상세 분석 결과(Detailed Statistical Analysis Result)] 항목;
을 포함하는 것을 특징으로 하는 변수 연관관계 자동 탐색 및 이를 이용한 동적 결과 리포트 산출방법.