WO2018088825A1

WO2018088825A1 - 특정 항목이 속하는 클래스를 예측하기 위한 2-클래스 분류 방법 및 이를 이용하는 컴퓨팅 장치

Info

Publication number: WO2018088825A1
Application number: PCT/KR2017/012690
Authority: WO
Inventors: 김철우; 김용대; 강경남; 권오란
Original assignee: (주)바이오인프라생명과학
Priority date: 2016-11-09
Filing date: 2017-11-09
Publication date: 2018-05-17
Also published as: CN109937421B; KR101747783B1; EP3540648A4; US20190318266A1; CN109937421A; EP3540648A1; US11461704B2

Abstract

본 발명은 컴퓨팅 장치가, 분포된 샘플 데이터가 획득되면, 모형식의 미지 모수 β를 추정하되, β의 추정량이 획득되면, 랜덤 포레스트 모형을 이용하여 함수 g를 추정하여 g의 추정량이 획득되면, 이와 β의 추정량을 이용하여 특정 항목에 대응되는 신규 데이터를 위한 예측식으로서 함수 G를 추정함으로써 G의 추정량을 획득하여, 신규 데이터 x_new를 입력 받아, 산출한 값으로부터 상기 특정 항목의 클래스를 분류할 수 있다.

Description

특정 항목이 속하는 클래스를 예측하기 위한 2-클래스 분류 방법 및 이를 이용하는 컴퓨팅 장치

본 발명은 특정 항목이 속하는 클래스를 예측하기 위한 2-클래스 분류 방법에 관한 것으로서, 보다 상세하게는, 독립 항등 분포된(independently identically distributed) 샘플 데이터를 획득하고, 신규한 준모수 로지스틱 회귀 랜덤 포레스트 방법론(semi parametric logistic regression with random forests)을 통하여, (i) 모형식의 미지 모수를 추정하며, (ii) 랜덤 포레스트 모형(random forest model)을 이용하여 신규 데이터를 위한 예측식을 추정함으로써, 특정 항목이 속하는 클래스를 예측하는 방법 및 이를 이용한 컴퓨팅 장치에 관한 것이다.

분류(classification)는 항목들의 모음(예컨대 데이터 샘플들)을 분할하되, 측정 가능한 특성 또는 특징의 면에서 균질한 클래스(homogeneous classes)들로 분할하는 데에 이용되는 통계 처리(statistical process)를 의미한다. 일반적으로 말하자면, 전형적인 분류기(예컨대 분류를 수행하는 전산화된 시스템을 가리키나 종종 그러한 분류 방법론 자체를 지칭하기도 함)는, 우선, 가용한 트레이닝 샘플들의 집합에서 키 패턴(key pattern)을 인식하고 이에 표식을 달도록 훈련(train; 트레이닝)된다. 여기에서, 훈련이라고 함은, 분류기에 적합한 분류 능력을 부여하기 위하여 반복적으로 계산하는 절차를 의미한다. 한번 훈련된 분류기는 향후 입력되는 데이터가 어느 클래스에 소속되는지를 예측하는 데에 이용될 것이다.

분류에 있어서 최근의 괄목할 만한 진보 중의 하나가 랜덤 포레스트(random forest; RF) 방법론인데, 랜덤 결정 포레스트의 개념은 1995년에 벨 연구소의 틴 캄 호(Tin Kam Ho)에 의하여 처음 제안되었으며, 레오 브레이먼(Leo Breiman)에 의하여 확장되고 공식화되었다. 본원에서 "랜덤 포레스트", "랜덤 포레스트 방법론" 및 "RF"는 레오 브레이먼에 의하여 설명된 분류 개념을 의미하는바, 같은 이름의 소프트웨어 상품을 지칭하는 것이 아님을 밝혀둔다. 랜덤 포레스트는 데이터 샘플들을 분류하는 다수의 분류 나무들의 결정을 결합하는 데에 배깅(bagging)을 활용하는 머신 러닝의 비모수 앙상블 접근법이다. 달리 말하자면, 랜덤 포레스트는 서로 연관성이 약한 의사 결정 나무를 생성한 후에 이를 선형 결합하여 최종 학습기를 만드는 방법이다. 랜덤 포레스트는 예측력이 매우 높은 방법으로 알려져 있다. 또한 랜덤 포레스트는 무작위성(randomness)을 최대로 주기 위하여 부트스트랩과 더불어 독립 변수들에 대한 무작위 추출을 결합한다. 이 특징은 각 나무들의 예측값들이 비상관화(decorrelation)되게 하며, 결과적으로 일반화 성능을 향상시킨다. 무작위 추출은 노이즈가 포함된 데이터에 대해서도 포레스트를 강인(robust)하게 만들어 준다. 무작위 추출은 각 나무들의 훈련 과정에서 진행되며, 앙상블 학습법인 배깅과 무작위 노드 최적화(randomized node optimization)가 적용될 수 있다. 이 두 가지 방법은 동시에 사용되어 무작위적 특성을 더 증진시킬 수 있다.

참고로, 랜덤 포레스트 방법론의 알고리즘을 슈도 코드(pseudo code)로써 간략하게 기술하자면, 다음과 같다.

(1) For b=1 to B;

(1-i) 훈련용 샘플 데이터를 이용하여 부트스트랩 표본 Z을 생성함

(1-ii) 부트스트랩 표본 Z을 이용하여 의사 결정 나무(기초 분류기)를 생성(훈련)하되, 독립 변수는 무작위로 뽑힌 k개만 이용함

(2) 이렇게 생성된 의사 결정 나무를 T_b(x)라고 하면, 생성된 의사 결정 나무들을 (T₁(x)+T₂(x)+...T_B(x))/B와 같이 선형 결합함(평균 방식 이용하는 경우)

종래에 고전적인 랜덤 포레스트(random forest; RF) 방법론을 적용한 분류 시스템은, 예컨대 미국 등록특허 제5,930,392호에 개시되어 있는바, 이에 따르면 초기의 랜덤 결정 포레스트를 이용하여 데이터를 분류하는 방법 및 이를 이용한 시스템이 개시되어 있다. 특히, 해당 특허 문헌은 이미지 및 패턴의 자동 해석 및 분석을 다루고 있는바, 이에 따라 이미지 및 패턴의 분류 및 이를 이용한 이미지 및 패턴의 인식을 도모하는 기술이 기재되어 있다.

한편, 두 범주(category) 혹은 두 클래스(class)들만을 가지는 종속 변수를 예측하는 방법에 있어서 로지스틱 회귀 방법론이 오랫동안 이용되어 왔으며, 이는 본 발명이 속한 기술 분야에서 통상의 지식을 가진 사람(이하 "통상의 기술자"라 함)에게 잘 알려져 있다. 여기에서 두 범주는 "남자"와 "여자", "특정 질병의 환자"와 "환자가 아닌 사람", "합법"과 "불법" 등, 서로 양립될 수 없는 속성에 대응되는 개념인바, 이와 같은 방법론은 예컨대 특정 질병에 걸린 환자인지 그렇지 않은지를 판정하는 통계 모형으로 많이 활용되고 있다.

본 발명자는 두 범주(category)들만을 가지는 종속 변수를 예측하는 방법으로서 오랫동안 이용되었던 로지스틱 회귀 방법론의 예측 성능을 향상시키는 방법을 연구하는 과정에서 로지스틱 회귀 방법론에 랜덤 포레스트 방법론을 접목하여 이용하는 방안을 모색하게 되었다. 종래에 로지스틱 회귀 방법론과 랜덤 포레스트 방법론이 알려져 있었음에도 불구하고 기본적으로 로지스틱 회귀 방법론은 모수적 방법인 반면, 랜덤 포레스트 방법은 비모수적 방법이어서 이 둘을 결합하는 방안을 도출하는 것이 용이하지 않았다.

이에, 본 발명자는 종래에 행해지지 않던 방식으로 로지스틱 회귀 모형에 랜덤 포레스트 방법론을 접목함으로써, 보다 정확한 2 클래스 분류를 가능하게 하는 2 클래스 분류 방법 및 이를 이용하는 컴퓨팅 장치를 제안하고자 한다.

본 발명은 종래의 로지스틱 회귀 분석보다 더 높은 정확도로 2 클래스 분류를 가능하게 하는 방법 및 이를 이용한 컴퓨팅 장치를 제시하는 것을 목적으로 한다.

구체적으로, 본 발명은 종래에 높은 정확도를 가져 널리 쓰였지만 조합이 용이하지 않아 함께 이용되지 않았던 로지스틱 회귀 방법론과 랜덤 포레스트 방법론을 결합한 방안을 제시하는 것을 목적으로 한다.

또한, 본 발명은 요구되는 계산량에 비하여 높은 정확도를 가지는 2 클래스 분류를 가능하게 하는 것을 다른 목적으로 한다.

또한, 본 발명은 본 발명의 방법 및 컴퓨팅 장치가 실세계에서 여러 가지 용도로 클래스 소속을 판정하는 데에 이용되게 하는 것을 다른 목적으로 한다.

예를 들어 어떤 데이터가 특정 질병을 앓는 환자의 것인지 정상인의 것인지와 같이 2개의 클래스로 분류 가능한 경우에 그러한 분류를 정확하게 하기 위한 분류 방법을 제공하는 것을 한 가지 목적으로 한다.

상기한 바와 같은 본 발명의 목적을 달성하고, 후술하는 본 발명의 특징적인 효과를 실현하기 위한, 본 발명의 특징적인 구성은 하기와 같다.

본 발명의 일 태양에 따르면, 특정 항목이 속하는 클래스를 예측하기 위한 2-클래스 분류 방법이 제공되는바, 그 방법은, (a) 컴퓨팅 장치가, 독립 항등 분포된(independently identically distributed) 샘플 데이터

를 획득하는 단계로서, 상기 n은 상기 샘플 데이터의 개수이며,

는 d-차원 벡터이고, Y_i는 -1 또는 1의 값을 가지거나 가지도록 가공된 것이며, 상기 -1 및 상기 1의 값은 2개의 클래스 각각에 대응되는 것으로 설정된 값인 단계; (b) 상기 샘플 데이터가 획득되면, 상기 컴퓨팅 장치가, 모형식

,

의 미지 모수 β를 추정하거나 추정하도록 지원하는 단계로서,

이며, 상기 X는 독립 변수를 지칭하고, 상기 Y는 종속 변수를 지칭하며, 상기 함수 g는 랜덤 포레스트 모형(random forest model)의 형태인 단계; (c) 상기 미지 모수 β의 추정량

이 획득되면, 상기 컴퓨팅 장치가, 상기 랜덤 포레스트 모형을 이용하여 상기 함수 g를 추정하거나 추정하도록 지원하는 단계; 및 (d) 상기 함수 g의 추정량

이 획득되면, 상기 컴퓨팅 장치가, 상기 미지 모수 β의 추정량

및 상기 함수 g의 추정량

을 이용하여 상기 특정 항목에 대응되는 신규 데이터를 위한 예측식으로서 상기 함수 G를 추정하거나 추정하도록 지원함으로써 상기 함수 G의 추정량

을 획득하는 단계를 포함한다.

일 실시예에 따르면, 상기 방법은, (e) 상기 함수 G의 추정량

이 획득되고, 상기 신규 데이터 x_new가 입력되면, 상기 컴퓨팅 장치가,

(x_new)의 값을 산출하고, 산출된 상기

(x_new)의 값으로부터 상기 특정 항목의 상기 클래스를 분류하거나 분류하도록 지원하는 단계를 더 포함할 수 있다.

본 발명의 다른 태양에 따르면, 특정 항목이 속하는 클래스를 예측하기 위한 2-클래스 분류 방법을 수행하는 컴퓨팅 장치가 제공되는바, 그 컴퓨팅 장치는, 독립 항등 분포된(independently identically distributed) 샘플 데이터

를 획득하는 통신부로서, 상기 n은 상기 샘플 데이터의 개수이며,

는 d-차원 벡터이고, Y_i는 -1 또는 1의 값을 가지거나 가지도록 가공된 것이며, 상기 -1 및 상기 1의 값은 2개의 클래스 각각에 대응되는 것으로 설정된 값인 통신부; 및 상기 샘플 데이터가 획득되면, 모형식

,

의 미지 모수 β를 추정하거나 추정하도록 지원하는 프로세서로서,

이며, 상기 X는 독립 변수를 지칭하고, 상기 Y는 종속 변수를 지칭하며, 상기 함수 g는 랜덤 포레스트 모형(random forest model)의 형태인 프로세서를 포함하며, 상기 프로세서는, 상기 미지 모수 β의 추정량

이 획득되면, 상기 랜덤 포레스트 모형을 이용하여 상기 함수 g를 추정하거나 추정하도록 지원하고, 상기 함수 g의 추정량

이 획득되면, 상기 미지 모수 β의 추정량

및 상기 함수 g의 추정량

을 획득한다.

일 실시예에 따르면, 상기 프로세서는, 상기 함수 G의 추정량

이 획득되고, 상기 신규 데이터 x_new가 입력되면,

(x_new)의 값을 산출하고, 산출된 상기

(x_new)의 값으로부터 상기 특정 항목의 상기 클래스를 분류하거나 분류하도록 지원할 수 있다.

본 발명에 의하면, 요구되는 계산량에 비하여 높은 정확도로 2 클래스 분류가 가능하게 되는 효과가 있다.

본 발명의 실시예의 설명에 이용되기 위하여 첨부된 아래 도면들은 본 발명의 실시예들 중 단지 일부일 뿐이며, 본 발명이 속한 기술 분야의 통상의 기술자에게 있어서는 발명적 작업이 이루어짐 없이 이 도면들에 기초하여 다른 도면들이 얻어질 수 있다.

도 1은 본 발명에 따라 특정 항목이 속하는 클래스를 예측하기 위한 2-클래스 분류 방법을 수행하는 컴퓨팅 장치의 예시적 구성을 개략적으로 도시한 개념도이다.

도 2는 본 발명에 따라 특정 항목이 속하는 클래스를 예측하기 위한 2-클래스 분류 방법을 예시적으로 나타낸 흐름도이다.

도 3A에서 3D까지는 유방암 환자와 정상인을 분류하는 데 있어서 종래의 로지스틱 회귀 모형과 본 발명의 방법에 따른 모형 각각의 성능을 비교 평가하기 위한 도구로서 ROC 곡선(Receiver Operating Characteristic Curve; 수용자 반응 특성 곡선)을 도시한 도면이다.

도 4A에서 4D까지는 위암 환자와 정상인을 분류하는 데 있어서 종래의 로지스틱 회귀 모형과 본 발명의 방법에 따른 모형 각각의 성능을 비교 평가하기 위한 도구로서 ROC 곡선을 도시한 도면이다.

후술하는 본 발명에 대한 상세한 설명은, 본 발명의 목적들, 기술적 해법들 및 장점들을 분명하게 하기 위하여 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 통상의 기술자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다.

본 명세서에서 '학습'이나 '훈련'은 절차에 따라 통계 모형을 얻는 과정을 일컫는 용어인바, 인간의 교육 활동과 같은 정신적 작용을 지칭하도록 의도된 것이 아님을 통상의 기술자는 잘 이해할 수 있을 것이다.

또한, 본 발명의 상세한 설명 및 청구항들에 걸쳐, '포함하다'라는 단어 및 그것의 변형은 다른 기술적 특징들, 부가물들, 구성요소들 또는 단계들을 제외하는 것으로 의도된 것이 아니다. 해당 기술분야의 통상의 기술자에게 본 발명의 다른 목적들, 장점들 및 특성들이 일부는 본 설명서로부터, 그리고 일부는 본 발명의 실시로부터 드러날 것이다. 아래의 예시 및 도면은 실례로서 제공되며, 본 발명을 한정하는 것으로 의도된 것이 아니다.

더욱이 본 발명은 본 명세서에 표시된 실시 예들의 모든 가능한 조합들을 망라한다. 본 발명의 다양한 실시 예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시 예로 구현될 수 있다. 또한, 각각의 개시된 실시 예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.

본 명세서에서 달리 표시되거나 분명히 문맥에 모순되지 않는 한, 단수로 지칭된 항목은, 그 문맥에서 달리 요구되지 않는 한, 복수의 것을 아우른다. 이하, 통상의 기술자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 바람직한 실시 예들에 관하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.

본 발명에 따른 방법을 실시하기 위한 컴퓨팅 장치는 전형적으로 컴퓨터 하드웨어(예컨대, 컴퓨터 프로세서, 메모리, 스토리지, 입력 장치 및 출력 장치, 기타 기존의 컴퓨터 시스템의 구성요소들을 포함할 수 있는 클라이언트 컴퓨터 및 서버 컴퓨터; 전자 통신선, 라우터, 스위치 등등과 같은 전자 통신 장치; 네트워크 부착 스토리지(NAS) 및 스토리지 영역 네트워크(SAN)와 같은 전자 정보 스토리지 시스템)와 컴퓨터 소프트웨어{즉, 컴퓨터 하드웨어로 하여금 특정의 방식으로 기능하게 하는 인스트럭션들(instructions)}의 조합을 활용하여 원하는 시스템 성능을 달성한다.

도 1에는 본 발명에 따른 방법을 수행하는 컴퓨팅 장치(100)가 도시되는바, 컴퓨팅 장치(100)는 통신부(110) 및 프로세서(120)를 포함한다. 컴퓨팅 장치(100)는 본 발명의 방법에 따라 데이터를 획득하고, 이를 처리하여 원하는 클래스 분류 기능을 사용자에게 제공할 수 있다. 아래에서 상술 되는 바와 같이 본 발명의 방법이 컴퓨터 하드웨어 및 소프트웨어의 조합을 활용하여 구현될 것이라는 점은 통상의 기술자는 용이하게 이해할 것이다. 예를 들어 통계적 방법을 컴퓨터 하드웨어 상에서 구현하기 위한 소프트웨어로서, R 통계 패키지, SPSS, SAS, Mathematica 등의 통계 소프트웨어, 혹은 그러한 통계적 방법을 구현할 수 있는 프로그래밍 언어 등 정해진 연산을 수행할 수 있게 하는 것이라면 어느 것이라도 이용될 수 있을 것이다.

본 발명의 방법 및 컴퓨팅 장치에 관한 설명의 편의를 위하여 본 명세서에는 통계적 분석 방법을 다루는 R 통계 패키지(R Development Core Team (2007). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0, URL http://www.R-project.org.)를 이용한 예시가 포함될 것이나, 본 명세서의 예시를 본 통상의 기술자는 R 통계 패키지라는 소프트웨어 플랫폼에 한정되지 않고, 원하는 소프트웨어 기술을 이용하여 컴퓨팅 장치로 하여금 본 발명의 방법을 수행하도록 할 수 있을 것이다.

이제 본 발명에 따른 방법에 대하여 설명하기로 한다. 도 2는 본 발명에 따라 특정 항목이 속하는 클래스를 예측하기 위한 2-클래스 분류 방법을 예시적으로 나타낸 흐름도이다.

도 2를 참조하면, 본 발명의 방법은, 컴퓨팅 장치(100)가, 독립 항등 분포된 샘플 데이터

를 획득하는 단계(S210)를 포함한다. 여기에서 상기 n은 상기 샘플 데이터의 개수이며,

는 d-차원 벡터이며, 종속 변수 Y_i는 -1 또는 1의 값을 가진다. 여기에서 종속 변수 Y_i가 -1 또는 1의 값을 가지지 아니한 경우에도, 이 둘 중의 하나의 값을 가지도록 용이하게 가공될 수 있을 것이다.

본 발명에서 이용하는 통계 모형은 준모수적 로지스틱 회귀 방법론 및 랜덤 포레스트 방법론을 결합한 모형(semi parametric logistic regression with random forests)이다. 설명의 편의상, 이를 본 발명의 모형으로 지칭한다. 본 발명의 모형은 독립 변수를 이용하여, 두 범주(-1 또는 1)만을 가지는 종속 변수를 예측하는 방법론들에 있어서 신규한 방법론에 해당된다.

이해를 돕기 위한 실례로서, 아래의 표 1에서는 피험체들(유방암 환자와 정상인)에게서 얻은 생물학적 시료에 포함된 특정 물질들의 농도 및 피험체들의 인구통계학적 정보(예컨대, 나이)가 샘플 데이터의 예시(X7)로서 제공된다. 또한, 아래의 표 1에서 사용된 생물학적 시료에 포함된 물질(X1 내지 X6)은 AFP(alpha-fetoprotein), TTR(Transthyretin), CEA(Carcinoembryonic antigen; 암배 항원), CA19-9(cancer antigen 19-9), CA125(cancer antigen 125), ApoA1(Apolipoprotein A-I)을 포함할 수 있다.

참고로, 샘플 데이터에 의하여 만들어진 본 발명의 모형을 이용하여 테스트를 진행하기 위한 테스트 데이터의 예시는 다음 표 2와 같다.

예컨대, R 통계 패키지에서는 예컨대 다음과 같은 명령어로 샘플 데이터를 획득하는 상기 단계(S210)를 수행할 수 있는바, 그 결과로서 샘플 데이터가 입력된다.

단계(S210)에서 상기 샘플 데이터가 획득되면, 그 다음으로, 본 발명의 방법은, 컴퓨팅 장치(100)가, 모형식

,

의 미지 모수 β를 추정하거나 추정하도록 지원하는 단계(S220)를 더 포함한다.

위 모형식과 같이 본 발명의 모형이 상정된 이유는 다음과 같다.

우선, 베이즈 분류기(Bayes classifier)는 다음과 같이 정의된다.

하나의 예시로서, P(Y=1|x)=0.6이라고 가정하자. 그렇다면, P(Y=-1|x)=1-P(Y=1|x)=0.4이며, G(x)=log(0.6/0.4)/2=0.2027326이 된다. G(x)가 0보다 크므로, 베이즈 분류기에 의하여 Y=1로 분류가 되는 것이다.

이제, 베이즈 분류기 G(X)의 형태로 본 발명의 모형을 표현하면 다음과 같이 표현된다. 즉, 준모수적 로지스틱 회귀 방법론 및 랜덤 포레스트 방법론이 결합된 모형은 다음을 가정한다.

여기에서 Y는 종속 변수를 의미하고, 수식 표현 상에서 Y는 -1 또는 1의 두 범주에 해당되는 값만을 가진다. 또한, X=(1, X_1,... , X_D)^T는 독립 변수를 의미하며, D는 독립 변수의 개수이다. 즉, X_i는 제i 독립 변수(i번째 독립 변수)를 의미한다.

는 미지 모수, 함수 g는 랜덤 포레스트 모형의 형태로 이루어진 함수로서 X에 대한 함수이다.

하나의 예시로서, G(X)가 베이즈 분류기이며, X=(1, 2, 3)^T ^,β=(4, 5, 6)^T ^,g(x)=7임을 가정하자. 즉, β와 g는 알고 있다고 가정한다. 그렇다면, G(x)=x^Tβ+g(x)=(1, 2, 3)(4, 5, 6)^T+7=14+25+36+7=32+7=39가 되며, G(x)가 0보다 크므로 Y=1로 분류가 된다.

수학식 1의 미지 모수 β와 비모수 g를 추정하기 위해서, 손실 함수(loss function) L(y, G(x)) 또는 L_y(G(x))를 최소화 하는 β와 g를 추정 값이라고 정의하는 것이 가장 이상적이다. 손실 함수를 음 이항 로그 우도(negative binomial log likelihood)로 정의하면,

와 같이 표현될 수 있다. 이 손실함수를 최소화 하는

와

를 라고 정의한다면,

와 같이 표현될 수 있는데 이를 직접 계산해 내기는 힘들다.

따라서 본 발명에서는 수학식 1의 미지 모수 β와 비모수 g를 추정하기 위해서 역적합 방법(backfitting method)을 이용할 것이다. 역적합 방법은 다음과 같다.

,

위의 첫 번째 수식을 첫 번째 단계인 단계(S220)에서, 두 번째 수식을 두 번째 단계인 단계(S230)에서 해결할 것이다.

첫 번째 단계인 단계(S220)에서는 미지 모수 β를 추정하기 위한 방법으로 로지스틱 회귀의 접근법을 다룰 것이며, 추정된

를 가지고 두 번째 단계(S230)에서는 미지 비모수 g를 추정하는 방법으로 음 기울기(negative gradient: 기울기에 -를 씌운 값)를 이용할 것이다.

이제 수학식 1로부터 미지 모수 β를 추정하는 방법으로서 로지스틱 회귀의 접근법을 다룬다. 이 단계(S220)에서는

로부터 로지스틱 회귀 접근법으로써 β를 추정할 수 있다. 로지스틱 회귀 모형에 대한 간략한 설명은 다음과 같다. 아래 수학식 2는 로지스틱 회귀 모형을 나타낸 것이다.

이 형태를 살펴보면, 로지스틱 회귀 모형에서의

가 본 발명의 모형에서의 β와 유사한 역할을 하고 있음을 알 수 있다. 또한, 로지스틱 회귀 방법 역시 같은 손실 함수를 최소화하는 미지 모수

를 추정해준다. 따라서 로지스틱 회귀에서 추정된

를 2로 나누어

, 즉 β 추정 값을 도출할 수 있다. 이와 같이 도출된 β를

로 지칭하기로 한다.

따라서, 로지스틱 회귀 모형의 추정량을

이라고 한다면,

와

사이에는

가 성립하는 것을 알 수 있다.

R 통계 패키지에서는, 예컨대, 다음과 같은 명령어로

을 구할 수 있다.

예를 들어 표 1의 샘플 데이터를 이용하여

를 구해보면, 다음과 같은

값을 확인할 수 있다.

즉,

=(62.40686469, -2.00244054, -3.29727188, ...)^T가 된다.

다시 도 2를 참조하면, 본 발명의 방법은, 상기 미지 모수 β의 추정량

이 획득되면, 컴퓨팅 장치(100)가, 상기 랜덤 포레스트 모형을 이용하여 상기 함수 g를 추정하거나 추정하도록 지원하는 단계(S230)를 더 포함한다. 그러면, 본 발명의 방법은, 컴퓨팅 장치(100)가, 상기 미지 모수 β의 추정량

및 상기 함수 g의 추정량

을 획득(S240)하게 된다.

상기 함수 g를 추정하거나 추정하도록 지원하는 단계(S230)에서는, 구체적으로, 음의 기울기를 이용할 수 있다.

단계(S220)에서

가 획득되었기 때문에, 손실 함수 G(x)에

를 대입하면, 손실 함수는

가 된다. 단계(S220)에서는

에서 손실 함수가 최소화되었다. 보다 더 손실 함수를 줄이기 위하여 G(x)를

에서 음의 기울기만큼 이동시켰다.

손실 함수의

에서 음 기울기를 구해주면 다음과 같이 된다.

음의 기울기만큼 이동하였을 때 손실 함수를 줄일 수 있음을 예제를 통하여 간단히 살펴보겠다. 상기 표 1의 트레이닝 데이터의 첫 번째 데이터의 y₁은 1,

는 -0.405374, r₁은 1.199956이다.

일 때, L(y,

) = log[1+exp{-2*1*(-0.405374+1)}] = 1.178529이다. 하지만

에서 음의 기울기만큼 이동하여

이 된 경우, L(y,

+r₁) = log[1+exp{-2*1*(-0.405374+1*1.199956)}] = 0.1857292이 되어 더 작아지게 된다.

그렇다면,

데이터를 랜덤 포레스트(random forest)에 적합(fitting)시켜 RF(x)를 구함으로 g를 추정할 수 있다.

요컨대, 단계(S230)에서는 상기 단계(S230)는 컴퓨팅 장치(100)가

를 산출하는 단계(S232), 및 컴퓨팅 장치(100)가 랜덤 포레스트(random forest)를 이용하여 데이터

를 적합(fitting; 피팅) 시킴으로써 상기 적합의 결과인 함수 RF(x)를 산출하고, 소정의 조율 모수 λ=γ에 대하여

로 부터 상기 함수 g를 추정하거나 추정하도록 지원하는 단계(S234)를 포함할 수 있다.

조율 모수가 고려되지 않은 경우, 즉, λ=γ=1인 경우에, 표 1에 제공된 예시적 샘플 데이터를 이용하여 r_i값을 구하는 예시를 보이면 다음 표 3과 같다.

표 1의 샘플 데이터 중 첫 번째(i=1) 샘플 데이터에 대하여 r_i를 구하기 위하여 우선 샘플 데이터에서 Y=암이면, y=1이라고, Y=정상이면, y=-1이라고 하자, 그러면, 단계(S220)에서 구한

=(62.40686469, -2.00244054, -3.29727188, …)^T이다. 첫 번째 샘플은 암 환자의 샘플이기 때문에 y₁=1이 된다.

= (1, 0.227887, 6.09691, …) * (62.40686469, -2.00244054, -3.29727188, ...)^T

= 1*62.40686469 + 0.2278878*(-2.00244054) + 6.09691*(-3.29727188) + …

= -0.202687

그리고 exp(-2*y₁*

) = exp(-2*1*-0.202687) = 1.499863

r₁ = 2 * y₁* exp(-2*y₁*

)/{1+exp(-2 * y₁*

) } = 2*1*1.499863/(1+1.499863) = 1.199956

마찬가지 방식으로 예시적 샘플 데이터의 모든 샘플 데이터에 대하여 r_i이 구해진다.

이 각각의 단계는, R 통계 패키지를 이용하면, 예컨대, 다음과 같은 명령어로 수행할 수 있다.

이를 통하여, 예를 들어, 상기 표 2의 테스트 데이터의 첫 번째 데이터의 Y값을 예측해 볼 수 있다.

그런데 조율 모수 없이 전술한 랜덤 포레스트를 그대로 이용하면 손실 함수를 최소화시켜주지 못한다는 단점이 있다. 따라서 RF(x)에 조율 모수 λ를 붙여주면 최소화할 수 있는바, 조율 모수가 1일 때 손실 함수가 최적이 아닌 이유를 간략하게 설명하자면 다음과 같다.

상기 표 1의 트레이닝 데이터의 첫 번째 데이터를 가지고 예를 들어 보겠다. y₁은 1,

는 -0.405374, r₁은 1.199956이었다. 조율 모수가 1로 음의 기울기만큼만 이동시켜준다면(즉, G(x₁)=

+r₁), L(y,

+r₁) = log[1+exp{-2*1*(-0.405374+1*1.199956)}] = 0.1857292이 된다. 하지만 조율 모수가 2일 때(즉, G(x₁)=

+2*r₁), L(y, G(x₁))은 log[1+exp{-2*1*(-0.405374+2*1.199956)}] = 0.01834747으로 더 작아지게 된다. 즉 조율 모수가 1이 아닌 다른 수 일 때 손실함수는 최소화 될 수 있다.

상기 소정의 조율 모수 λ를 추정하는 한 가지 해결 방법은 아래에서 설명하는 제1 방법이다.

제1 방법에서, 수학식 1은

와 같이 쓸 수 있다. 이는 비절편 로지스틱 회귀 모형(no intercept logistic regression model)과 같은 형태를 지니고 있다. 비절편 로지스틱 회귀 모형은 다음과 같다. 또한 편의를 위하여 독립 변수(a)는 1개만 있다고 가정한다. 그렇다면,

.

여기에서 Y는 종속 변수를 의미하는바, 수식 표현에서 Y는 -1 또는 1의 두 범주만을 가진다. 또한, a는 독립 변수의 값을 의미한다. 그리고 λ는 미지 모수이다. 그리고, 비절편 로지스틱 회귀 모형의 절편(b)을 알고 있다고 가정한다면 수학식 1은 다음과 같은 형태가 된다.

여기에서 b는 알고 있는 절편이다. 따라서, 아래의 식을 비절편 로지스틱 회귀 모형처럼 생각할 수 있다.

즉, Y를 종속 변수로, 2RF를 독립 변수(a)로,

를 알고 있는 절편(b)으로, λ를 미지 모수로 취급할 수 있다. 그렇다면 로지스틱 회귀 방법을 통하여 λ를 도출할 수 있는바, 이와 같이 도출된 λ를

라고 지칭한다.

R 통계 패키지를 이용하면, 예컨대, 다음과 같은 명령어로 표 1의 샘플 데이터의 첫 번째 데이터에 대하여

, 2RF(x₁) 값을 구할 수 있다.

정리하면 상기 소정의 조율 모수 λ를 적용한 최종적인 본 발명의 모형은

이 된다.

이와 같이 조율 모수가 고려되는 경우에, 표 2에 제공된 예시적 테스트 데이터 중 첫 번째 데이터의 Y값을 예측하는 예시를 보이면 다음 표 4와 같다.

전술한 바와 같이 값들을 구하면 다음과 같다.

x=(1, 0.361728, 6.041393, …)^T

=(62.40686469, -2.00244054, -3.29727188, …)^T

=1.652886

그렇다면, 예시적인 RF(x) 값으로서 다음과 같은 값이 산출될 수 있다.

RF(x)=-0.0345803

예컨대, R 통계 패키지를 이용하여 상기 RF(x)를 구하기 위한 명령어는 다음과 같을 수 있다.

그렇다면, 조율 모수를 고려한 본 발명의 모형에 따라,

= (1, 0.361728, 6.041393, …)*(62.40686469, -2.00244054, -3.29727188, …)^T + 1.652886*(-0.0345803)

= [1*62.40686469+ 0.361728*(-2.00244054) + 6.041393*(-3.29727188) + …] + 1.652886*(-0.0345803)

= 0.5805196 + -0.05715729 = 0.5233623으로 계산되며, 0.5233623은 0보다 크므로, Y=1, 즉, 암 환자로 분류된다. 나머지 테스트 데이터에 대해서도 같은 방법으로 실행할 수 있다.

다시 도 2를 참조하면, 본 발명의 방법은, 전술한 바와 같이 획득된 모형에 해당하는 상기 함수 G의 추정량

이 획득되고, 상기 신규 데이터 x_new가 입력되면, 컴퓨팅 장치(100)가,

(x_new)의 값을 산출하고, 산출된 상기

(x_new)의 값으로부터 상기 특정 항목의 상기 클래스를 분류하거나 분류하도록 지원하는 단계(S250)를 더 포함할 수 있는바, 이로써, 훈련된 분류기를 통한 클래스 분류가 이루어지는 것이며, 전술한 예시에서 이를 설명하였다.

이러한 클래스 분류의 실제적 적용 사례를 고려하면, 본 발명에서 분류하고자 하는 2개의 클래스는, 예컨대, 각각 특정 질병의 환자임에 대응되는 클래스와 상기 특정 질병의 환자임에 대응되는 클래스로서 설정되는 것일 수 있다. 이 경우에 상기 샘플 데이터 각각은 개별 피험체로부터 획득된 변수일 수 있는데, 상기 샘플 데이터 각각의 독립 변수 X_ij 각각은, 개별 피험체로부터 획득된 생물학적 시료에 포함된 특정 물질의 물리량 또는 상기 개별 피험체의 인구통계학적 변수일 수 있다. 특히 본 발명의 방법이 실제로 적용되어 종래의 기술과 대비된 특정 질병은 유방암(Breast Cancer; BC로 표시됨) 및 위암(Stomach Cancer; SC로 표시됨)이다.

본 발명의 방법이 실제로 우수함을 입증하기 위하여 본 발명자들은 대한민국의 주식회사 바이오인프라(Bioinfra Inc., Republic of Korea)가 획득한 유방암 및 위암에 관한 2개의 상이한 실제 데이터 세트를 이용하였다. 그 데이터 세트의 개요는 아래 표 5와 같으며, 그 일부는 본 발명의 이해를 돕기 위하여 표 1 및 2로 이미 제공된 것이다.

표 5에서 “BC”는 유방암(breast cancer)를 의미하고, “SC”는 위암(stomach cancer)를 의미한다. 데이터 세트의 크기는 유방암에 대하여 554개, 위암에 대하여 951개였다. 유방암의 데이터 세트에서 유방암으로 판정된 유방암 환자(Y=1)의 수는 307, 정상인(Y=-1)의 수는 247이었으며, 위암의 데이터 세트에서 위암으로 판정된 위암 환자(Y=1)의 수는 359, 정상인(Y=-1)의 수는 592이었다.

본 발명자는 각각의 데이터 세트를 무작위적으로 분할하여 80%는 훈련용(샘플) 데이터 세트로 20%는 테스트 세트로 활용하였다. 성능의 비교는 종래의 로지스틱 회귀 모형과 본 발명의 모형에 대하여 이루어졌으며, 성능 측정을 위한 산출값은 경험적 오류율(empirical error rate), 음 이항 로그 우도의 평균(mean of negative binomial log likelihood)의 평균값, 및 테스트 세트의 관측값과 예측값 사이의 ROC-AUC의 평균값이다.

경험적 오류율을 간략하게 설명하자면, 예컨대, 종속 변수의 예측값이 순서대로 (암, 암, 암, 정상, 암, 암)이었으며, 실제의 종속 변수 값이 (암, 암, 암, 암, 암, 암)이었다면, 경험적 오류율은 1/6=0.1666667로 계산되는 것으로서, 이와 같은 경험적 오류율은 낮을수록 좋은 것이다. 참고로, 표 2의 데이터로부터 계산된 경험적 오류율은 본 발명의 모형에 대해 0.1272727이었으며, 로지스틱 회귀 모형에 대하여 0.1636364이었다.

또한, 음 이항 로그 우도(negative binomial log likelihood)를 간략하게 설명하자면, 음 이항 로그 우도는

로 정의되는데, 여기에서 G(x)는 베이즈 분류기를 의미한다. 음 이항 로그 우도의 평균은 작을수록 실제에 가깝게 분류가 이루어지는 것을 의미하므로 좋은 것이다. 참고로, 표 2의 데이터로부터 계산된 음 이항 로그 우도의 평균값은 본 발명의 모형에 대해 0.2580402이었으며, 로지스틱 회귀 모형에 대하여 0.3367284이었다.

그리고 ROC-AUC(area under curve)를 간략하게 설명하자면, 우선 ROC 곡선(Receiver Operating Characteristic Curve; 수용자 반응 특성 곡선)은 분류기의 성능을 평가하기 위한 도구이며, ROC의 AUC는 전체 그래프 중에서 곡선의 아래가 차지하는 면적의 비율을 나타낸 것이다.

ROC 곡선을 간략히 설명하자면, 우선, ROC 곡선 그래프의 가로축에 나타난 수치는 1 - 특이도(specificity) = 위양성률(false positive rate)로서, 특이도는 특이도(specificity) = 진음성(true negative) / (위양성(false positive) + 진음성(true negative))으로 정의되는 값이다. 즉, 특이도는 '틀린 것(음성)'을 틀렸다고 판단하는 비율을 뜻하므로, 그래프에서는 좌측으로 기울수록 '옳은 것(양성)'을 틀렸다고 판단할 오판의 비율이 줄어든다고 볼 수 있다. 또한 ROC 곡선 그래프의 세로축에 나타난 수치는 민감도(sensitivity) = 진양성률(true positive rate)로서, 민감도는 민감도(sensitivity) = 진양성(true positive) / (진양성(true positive) + 위음성(false negative))로 정의되는 값이다. 즉, 민감도는 '옳은 것'을 옳다고 판단할 비율을 뜻하므로, 그래프에서는 위로 기울수록 '틀린 것'을 옳다고 오판할 비율이 줄어든다고 볼 수 있다. 따라서 분류기가 올바르게 판단할수록 그래프 곡선의 아래의 면적(AUC; area under curve)은 증가하게 된다. 분류기가 올바르게 판단하는 분류 성능을 하나도 가지고 있지 않을 때에는 AUC는 0.5가 된다. 보통, AUC 수치에 따라 비정보적(AUC = 0.5), 덜 정확한(0.5 < AUC ≤≤ 0.7), 중등도의 정확한(0.7 < AUC ≤≤ 0.9), 매우 정확한(0.9 < AUC < 1), 그리고 완벽한 검사(AUC 1)로 분류할 수 있다. 요컨대, ROC의 AUC는 클수록 좋은 것이다. 참고로, 표 2의 데이터로부터 계산된 AUC는 본 발명의 모형에 대해 0.9663978이었으며, 로지스틱 회귀 모형에 대하여 0.9301075이었다.

앞에서 살펴본 표 2의 데이터는 테스트 세트 전체 중의 일부분을 나타낸 것으로서, 하기에서는 표 5로 요약된 테스트 세트 전체에 대하여 산출된 수치를 설명할 것이다.

아래 표 6은 테스트 세트로부터 산출된 경험적 오류율(empirical error rate)의 평균값을 표시한 것이며, 표준 편차는 괄호 안에 표시되어 있다. 표 6에서는 종래의 로지스틱 회귀 방법론(logistic regression)과 본 발명의 방법론(semi parametric logistic regression with random forests)에 대하여 수치들을 표시함으로써 성능을 비교하였다. 이때, 평균값과 표준 편차를 얻기 위한 계산의 반복 횟수는 1000번이었다.

표 6을 참조하면, 본 발명의 방법론이 종래의 로지스틱 회귀 방법론에 비하여 경험적 오류율의 평균값이 더 낮게 나타난다는 점을 알 수 있다. 편차를 고려하여도 유의하게 본 발명의 방법이 더 우수함을 알 수 있다.

또한, 아래 표 7은 표 6와 마찬가지로 테스트 세트로부터 산출된 음 이항 로그 우도의 평균(mean of negative binomial log likelihood)의 평균값을 표시한 것이며, 표준 편차는 괄호 안에 표시되어 있다. 역시, 평균값과 표준 편차를 얻기 위한 계산의 반복 횟수는 1000번이었다.

표 7을 참조하면, 본 발명의 방법론이 종래의 로지스틱 회귀 방법론에 비하여 음 이항 로그 우도의 평균값이 낮게 나타나는 것을 알 수 있다. 이는 본 발명의 방법에 의한 적합(fitting)이 종래의 로지스틱 회귀 방법론에 비하여 실제 분류에 더 가깝게 이루어졌음을 의미하는 것이다.

또한, 아래 표 8은 마찬가지로 동일 테스트 세트로부터 산출된 ROC-AUC (area under curve)의 평균값을 표시한 것이며, 표준 편차는 괄호 안에 표시되어 있다. 마찬가지로, 평균값과 표준 편차를 얻기 위한 계산의 반복 횟수는 1000번이었다.

참고로, 도 3A~3D는 유방암 환자와 정상인을 분류하는 데 있어서 종래의 로지스틱 회귀 모형과 본 발명의 방법에 따른 모형 각각의 성능을 비교 평가하기 위한 도구로서 ROC 곡선을 도시한 도면이며, 도 4A~4D는 위암 환자와 정상인을 분류하는 데 있어서 종래의 로지스틱 회귀 모형과 본 발명의 방법에 따른 모형 각각의 성능을 비교 평가하기 위한 도구로서 ROC 곡선을 도시한 도면이다.

도 3A에서 3D까지 그리고 도 4A에서 4D까지는 테스트 세트에 대하여 이루어진 최초 4회의 계산에 대하여 개별 방법 각각의 ROC들이 도시되어 있다.

도 3A~3D 및 도 4A~4D에 따르면, 통상의 기술자는, 유방암 환자 혹은 위암 환자를 정상인으로부터 분류해내는 전체적 성능에 있어 본 발명의 방법이 종래의 로지스틱 회귀 모형보다 우수함을 알 수 있다.

수치적으로 동일한 결론이 정리되어 있는 표 7을 참조하면 본 발명의 방법론이 종래의 로지스틱 회귀 방법론에 비하여 AUC 평균값이 더 높게 나타난다는 것을 알 수 있다. 이는 본 발명의 방법의 분류 성능이 더 우수함을 의미한다.

이와 같이 본 발명의 전술한 모든 실시예들에 걸쳐, 본 발명의 방법이 종래의 방법에 비하여 입력 데이터에 대응되는 특정 항목이 속하는 클래스를 더 정확하게 분류할 수 있는 효과가 있다.

상기 실시예들로서 여기에서 설명된 기술의 이점은, 현저한 계산량의 증대 없이도 분류의 정확도를 높일 수 있다는 점이다. 더구나 종래에 2 클래스 분류에 흔히 이용되던 로지스틱 회귀 모형을 개량하여 일반적으로 2 클래스 분류에 이용될 수 있는 범용 모형을 개발한 것은 괄목할 만한 성취라 할 수 있다.

위 실시예의 설명에 기초하여 해당 기술분야의 통상의 기술자는, 본 발명이 소프트웨어 및 하드웨어의 결합을 통하여 달성되거나 하드웨어만으로 달성될 수 있다는 점을 명확하게 이해할 수 있다. 본 발명의 기술적 해법의 대상물 또는 선행 기술들에 기여하는 부분들은 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 분야의 통상의 기술자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다. 상기 하드웨어 장치는, 프로그램 명령어를 저장하기 위한 ROM/RAM 등과 같은 메모리와 결합되고 상기 메모리에 저장된 명령어들을 실행하도록 구성되는 CPU나 GPU와 같은 프로세서를 포함할 수 있으며, 외부 장치와 신호를 주고 받을 수 있는 통신부를 포함할 수 있다. 덧붙여, 상기 하드웨어 장치는 개발자들에 의하여 작성된 명령어들을 전달받기 위한 키보드, 마우스, 기타 외부 입력장치를 포함할 수 있다.

이상에서 본 발명이 구체적인 구성요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나, 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명이 상기 실시예들에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형을 꾀할 수 있다.

따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등하게 또는 등가적으로 변형된 모든 것들은 본 발명의 사상의 범주에 속한다고 할 것이다.

그와 같이 균등하게 또는 등가적으로 변형된 것에는, 예컨대 본 발명에 따른 방법을 실시한 것과 동일한 결과를 낼 수 있는, 수학적으로 또는 논리적으로 동치(mathematically equivalent or logically equivalent)인 방법이 포함될 것이다.

Claims

특정 항목이 속하는 클래스를 예측하기 위한 2-클래스 분류 방법에 있어서,

(a) 컴퓨팅 장치가, 독립 항등 분포된(independently identically distributed) 샘플 데이터
를 획득하는 단계로서, 상기 n은 상기 샘플 데이터의 개수이며,
는 d-차원 벡터이고, Y_i는 -1 또는 1의 값을 가지거나 가지도록 가공된 것이며, 상기 -1 및 상기 1의 값은 2개의 클래스 각각에 대응되는 것으로 설정된 값인 단계;

(b) 상기 샘플 데이터가 획득되면, 상기 컴퓨팅 장치가, 모형식

,
의 미지 모수 β를 추정하거나 추정하도록 지원하는 단계로서,
이며, 상기 X는 독립 변수를 지칭하고, 상기 Y는 종속 변수를 지칭하며, 상기 함수 g는 랜덤 포레스트 모형(random forest model)의 형태인 단계;

(c) 상기 미지 모수 β의 추정량
이 획득되면, 상기 컴퓨팅 장치가, 상기 랜덤 포레스트 모형을 이용하여 상기 함수 g를 추정하거나 추정하도록 지원하는 단계; 및

(d) 상기 함수 g의 추정량
이 획득되면, 상기 컴퓨팅 장치가, 상기 미지 모수 β의 추정량
및 상기 함수 g의 추정량
을 이용하여 상기 특정 항목에 대응되는 신규 데이터를 위한 예측식으로서 상기 함수 G를 추정하거나 추정하도록 지원함으로써 상기 함수 G의 추정량
을 획득하는 단계;

를 포함하는 방법.
제1항에 있어서,

(e) 상기 함수 G의 추정량
이 획득되고, 상기 신규 데이터 X_new가 입력되면, 상기 컴퓨팅 장치가,
(X_new)의 값을 산출하고, 산출된 상기
(X_new)의 값으로부터 상기 특정 항목의 상기 클래스를 분류하거나 분류하도록 지원하는 단계;

를 더 포함하는 방법.
제1항에 있어서,

상기 (b) 단계는,

상기 미지 모수 β의 추정량
이

를 통하여 구해지되,

상기 y_i는 제i 샘플 데이터의 실제로 관측된 Y값을 지칭하고,

상기 X_i=(1, X_i1, … , X_iD)^T는 상기 제i 샘플 데이터의 실제로 관측된 X값을 지칭하며,

상기 X_ij는 상기 제i 샘플 데이터의 실제로 관측된 X값의 j번째 독립변수 값을 지칭하고,

상기 D는 독립 변수의 개수를 지칭하는 것을 특징으로 하는 방법.
제1항에 있어서,

상기 (c) 단계는,

상기 함수 g의 추정량

이 음의 기울기 및 소정의 조율 모수 λ>= 0을 통하여 구해지되,

상기 y_i는 제i 샘플 데이터의 실제로 관측된 Y값을 지칭하고,

상기 X_i=(1, X_i1, … , X_iD)^T는 상기 제i 샘플 데이터의 실제로 관측된 X값을 지칭하며,

상기 X_ij는 상기 제i 샘플 데이터의 실제로 관측된 X값의 j번째 독립변수 값을 지칭하는 것을 특징으로 하는 방법.
제1항에 있어서,

상기 (c) 단계는,

(c1) 상기 컴퓨팅 장치가,
를 산출하는 단계로서,

상기 y_i는 제i 샘플 데이터의 실제로 관측된 Y값을 지칭하고,

상기 X_i=(1, X_i1, … , X_iD)^T는 상기 제i 샘플 데이터의 실제로 관측된 X값을 지칭하며,

상기 X_ij는 상기 제i 샘플 데이터의 실제로 관측된 X값의 j번째 독립변수 값을 지칭하고,

상기 D는 독립 변수의 개수를 지칭하는 단계; 및

(c2) 상기 r_i가 산출되면, 상기 컴퓨팅 장치가, 랜덤 포레스트(random forest)를 이용하여 데이터
를 적합(fitting; 피팅) 시킴으로써 상기 적합의 결과인 함수 RF(x)를 산출하고, 소정의 조율 모수 λ에 대하여
로 부터 상기 함수 g를 추정하거나 추정하도록 지원하는 단계;

를 포함하는 것을 특징으로 하는 방법.
제4항 또는 제5항에 있어서,

상기 소정의 조율 모수 λ는,

λ=1인 것을 특징으로 하는 방법.
제4항 또는 제5항에 있어서,

상기 소정의 조율 모수 λ는,

비절편 로지스틱 회귀 모형(no intercept logistic regression model)을 이용하여 산출된 것임을 특징으로 하는 방법.
제1항에 있어서,

상기 2개의 클래스는,

각각 특정 질병의 환자임 및 상기 특정 질병의 환자가 아님에 대응되도록 설정되며,

상기 샘플 데이터 각각의 독립 변수 X_ij 각각은,

개별 피험체로부터 획득된 생물학적 시료에 포함된 특정 물질의 물리량 또는 상기 개별 피험체의 인구통계학적 변수인 것을 특징으로 하는 방법.
제8항에 있어서,

상기 특정 질병은,

유방암 또는 위암인 것을 특징으로 하는 방법.
특정 항목이 속하는 클래스를 예측하기 위한 2-클래스 분류 방법을 수행하는 컴퓨팅 장치에 있어서,

독립 항등 분포된(independently identically distributed) 샘플 데이터
를 획득하는 통신부로서, 상기 n은 상기 샘플 데이터의 개수이며,
는 d-차원 벡터이고, Y_i는 -1 또는 1의 값을 가지거나 가지도록 가공된 것이며, 상기 -1 및 상기 1의 값은 2개의 클래스 각각에 대응되는 것으로 설정된 값인 통신부; 및

상기 샘플 데이터가 획득되면, 모형식

,

의 미지 모수 β를 추정하거나 추정하도록 지원하는 프로세서로서,
이며, 상기 X는 독립 변수를 지칭하고, 상기 Y는 종속 변수를 지칭하며, 상기 함수 g는 랜덤 포레스트 모형(random forest model)의 형태인 프로세서

를 포함하되,

상기 프로세서는,

상기 미지 모수 β의 추정량
이 획득되면, 상기 랜덤 포레스트 모형을 이용하여 상기 함수 g를 추정하거나 추정하도록 지원하고,

상기 함수 g의 추정량
이 획득되면, 상기 미지 모수 β의 추정량
및 상기 함수 g의 추정량
을 이용하여 상기 특정 항목에 대응되는 신규 데이터를 위한 예측식으로서 상기 함수 G를 추정하거나 추정하도록 지원함으로써 상기 함수 G의 추정량
을 획득하는 컴퓨팅 장치.
제10항에 있어서,

상기 프로세서는,

상기 함수 G의 추정량
이 획득되고, 상기 신규 데이터 X_new가 입력되면,
(X_new)의 값을 산출하고, 산출된 상기
(X_new)의 값으로부터 상기 특정 항목의 상기 클래스를 분류하거나 분류하도록 지원하는 것을 특징으로 하는 컴퓨팅 장치.
제10항에 있어서,

상기 미지 모수 β의 추정량
이

를 통하여 구해지되,

상기 y_i는 제i 샘플 데이터의 실제로 관측된 Y값을 지칭하고,

상기 x_i=(1, x_i1, ... , x_iD)^T는 상기 제i 샘플 데이터의 실제로 관측된 X값을 지칭하며,

상기 x_ij는 상기 제i 샘플 데이터의 실제로 관측된 X값의 j번째 독립 변수 값을 지칭하고,

상기 D는 독립 변수의 개수를 지칭하는 것을 특징으로 하는 컴퓨팅 장치.
제10항에 있어서,

상기 함수 g의 추정량

이 음의 기울기 및 소정의 조율 모수 λ>= 0 을 통하여 구해지되,

상기 y_i는 제i 샘플 데이터의 실제로 관측된 Y값을 지칭하고,

상기 x_i=(1, x_i1, … , x_iD)^T는 상기 제i 샘플 데이터의 실제로 관측된 X값을 지칭하며,

상기 x_ij는 상기 제i 샘플 데이터의 실제로 관측된 X값의 j번째 독립변수 값을 지칭하는 것을 특징으로 하는 컴퓨팅 장치.
제10항에 있어서,

상기 랜덤 포레스트 모형을 이용하여 상기 함수 g를 추정하거나 추정하도록 지원하기 위하여,

상기 프로세서는,

를 산출하되,

상기 y_i는 제i 샘플 데이터의 실제로 관측된 Y값을 지칭하고,

상기 x_i=(1, x_i1, … , x_iD)^T는 상기 제i 샘플 데이터의 실제로 관측된 X값을 지칭하며,

상기 x_ij는 상기 제i 샘플 데이터의 실제로 관측된 X값의 j번째 독립변수 값을 지칭하고,

상기 D는 독립 변수의 개수를 지칭하며,

상기 프로세서는,

상기 r_i가 산출되면, 랜덤 포레스트(random forest)를 이용하여 데이터
를 적합(fitting; 피팅) 시킴으로써 상기 적합의 결과인 함수 RF(x)를 산출하고, 소정의 조율 모수 λ에 대하여
로부터 상기 함수 g를 추정하거나 추정하도록 지원하는 것을 특징으로 하는 컴퓨팅 장치.
제13항 또는 제14항에 있어서,

상기 소정의 조율 모수 λ는,

λ=1인 것을 특징으로 하는 컴퓨팅 장치.
제13항 또는 제14항에 있어서,

상기 소정의 조율 모수 λ는,

비절편 로지스틱 회귀 모형(no intercept logistic regression model)을 이용하여 산출된 것임을 특징으로 하는 컴퓨팅 장치.
제10항에 있어서,

상기 2개의 클래스는,

각각 특정 질병의 환자임 및 상기 특정 질병의 환자가 아님에 대응되도록 설정되며,

상기 샘플 데이터 각각의 독립 변수 X_ij 각각은,

개별 피험체로부터 획득된 생물학적 시료에 포함된 특정 물질의 물리량 또는 상기 개별 피험체의 인구통계학적 변수인 것을 특징으로 하는 컴퓨팅 장치.
제17항에 있어서,

상기 특정 질병은,

유방암 또는 위암인 것을 특징으로 하는 컴퓨팅 장치.