KR20140006785A

KR20140006785A - 객체에 스코어를 제공하는 방법, 그리고 결정-지원 시스템

Info

Publication number: KR20140006785A
Application number: KR1020137009000A
Authority: KR
Inventors: 스테판 클레멘콩; 니콜라스 바야티스
Original assignee: 앵스띠뛰 텔레콩-텔레콩 파리 테끄
Priority date: 2010-09-08
Filing date: 2011-09-08
Publication date: 2014-01-16
Also published as: EP2614470B1; WO2012032118A2; US20120059790A1; CN103262104A; EP2614470A2; SG188469A1; CA2810941C; US8738534B2; US9235805B2; WO2012032118A3; JP2013541085A; CA2810941A1; US20130173520A1

Abstract

본 발명은 다중차원 스페이스로부터의 타겟 항목에 의해 표현되는 객체(object)에 스코어를 제공하는 방법에 관한 것으로, 상기 스코어는 주어진 이진 속성을 상기 객체가 충족시킬 확률을 나타내며, 상기 방법은 메모리 수단에 연결된 프로세싱 수단을 포함하는 컴퓨터 환경에서 실행되며, 상기 방법은, (a) 상기 다중차원 스페이스로부터의 샘플 항목들의 세트를 나타내는 데이터를 상기 메모리 수단에 제공 및 저장하는 단계, 각각의 샘플 항목은 상기 샘플 항목에 의해서 표현되는 객체가 상기 주어진 이진 속성을 충족시킬 확률을 나타내는 다중-값 라벨에 관련되며; (b) 상기 타겟 항목을 나타내는 데이터를 상기 메모리 수단에 저장하는 단계; (c) 상기 프로세싱 수단에 의해서, 주어진 높이를 갖는 지향된(oriented) 이진 트리(binary tree)를 나타내는 데이터를 상기 메모리 수단에 생성 및 저장하는 단계, 상기 이진 트리는 상기 이진 트리에서의 노드들의 위치에 관련된 인덱스 값들을 갖는 복수의 노드들에 의해서 정의되며, 상기 노드들은 루트 노드, 중간 노드들(intermediate nodes), 그리고 종말 노드들(terminal nodes)을 포함하고, 그리고 각각의 노드는 다음의 규칙들에 따라 상기 다중차원 스페이스의 서브스페이스에 관련되며: - 만일, 상기 노드가 루트 노드라면, 관련된 서브스페이스는 전체 다중차원 서브스페이스이며; - 만일, 상기 노드가 비-종말(non-terminal) 노드라면, 상기 비-종말 노드의 관련 서브스페이스는 상기 비-종말 노드의 제 1 차일드 노드 및 제 2 차일드 노드에 각각 관련되는 2개의 서로소(disjoint)인 서브스페이스들 ε₊ 및 ε_- 로 분열되며(split), 상기 분열(splitting)은 서브스페이스 ε₊ 에 속하는 주어진 제 1 라벨 값에 관련된 샘플 항목들의 개수 및/또는 서브스페이스 ε_- 에 속하는 주어진 제 2 라벨 값에 관련된 샘플 항목들의 개수를 최소화하는 분류자(classifier)에 따라 상기 프로세싱 수단에 의해서 수행되며, 상기 주어진 제 2 라벨 값은 상기 주어진 제 1 라벨 값에 비하여 상기 샘플 항목에 의해서 표현되는 객체가 주어진 이진 속성을 충족시키는 더 높은 확률을 나타내며; (d) 상기 프로세싱 수단에 의해서, 상기 이진 트리의 적어도 각각의 종말 노드와 상기 이진 트리에서의 상기 종말 노드의 인덱스 값에 따른 스코어를 관련시키고, 그리고 상기 스코어 값을 상기 메모리 수단에 저장하는 단계; (e) 상기 프로세싱 수단에 의해서, 타겟 노드를 식별하는 단계, 상기 타겟 노드는 그것의 관련된 서브스페이스가 상기 타겟 항목을 포함하는 종말 노드이며; 그리고 (f) 상기 타겟 노드에 관련된 상기 스코어 값을 출력하는 단계를 포함한다. 또한, 본 발명은 결정-지원 시스템에 관한 것이다.

Description

객체에 스코어를 제공하는 방법, 그리고 결정-지원 시스템{METHOD FOR PROVIDING WITH A SCORE AN OBJECT, AND DECISION-SUPPORT SYSTEM}

본 발명은 결정-실행 행위들(decision-making activities)을 지원하는 지식-기반 시스템(knowledge-based systems)에 관한 것이다.

좀더 상세하게는, 본 발명은 객체(object)에 스코어(score)를 제공하는 방법에 관한 발명이다.

금융(finance)에서 의학(medicine)에 이르는 다양한 분야들에서 많은 행위들은 리스크를 평가하고 그리고 결정을 내릴 것을 요구하는데, 이는, 투자를 할지를 결정하는 것, 주어진 병리학에 대해서(for a given pathology) 환자에 대한 치료를 시작하는 것, 문서가 관련이 있는지 없는지의 여부를 결정하는 것, 결함 때문에 제품을 불합격시키는 것, 2개 이상의 가능성들 중에서 단순히 선택하는 것, 등이 될 수 있다.

"결정 지원 시스템들(decision supporting system)" 이라고 지칭되는 컴퓨터 툴들의 패밀리는, 대규모의 데이터(massive data)를 분석함으로써, 결정을 내리는데 도움을 주는 것을 목적으로 한다. 예를 들면, 매우 많은 개수의 금융 데이터를 알고 있다면, 이러한 시스템은 투자가 이루어져야 하는지를 수립하고자 시도할 수 있다.

수학과 컴퓨터 사이언스의 경계에 위치한 감독 분류(supervised classification)의 방법들은, 가령, "양호한 지급인(good payer)"과 "지불 불능인 지급인(insolvent payer)", "관련 문서"와 "관련없는 문서", "건강한 환자"와 "아픈 환자", "합치하는(conform) 제품"과 "합치하는 않는(not conform) 제품" 등의 이진 라벨(binary label)로 케이스들을 관련시킴으로써, 테스트될 케이스들을 분류할 것을 제안한다. 하지만, 이러한 방법들은, 케이스에 대해서 가장 공산이 큰 라벨(most likely label for a case)을 예측하고자 시도할 뿐이다. 실수를 저지를 리스크가 단지 약간만 감소할 뿐이다.

스코어링(scoring)/랭킹(ranking) 방법들은 다른 접근법을 제안한다. 이러한 방법들의 목적은, 상기 케이스들을 어떻게 소팅(sort)/정렬(order)하는지를 학습하는 것이며, 따라서 매우 많은 수의 "양호한 지급자들" 혹은 "관련 문서들"이 최대 가능성(maximun likelihood)을 갖고 리스트의 정점(top)에 존재한다.

다변량 관찰값들(multivariate observations)을 정렬시키는(ordering) 가장 자연스러운 방법은, 소팅 함수(sorting function)를 이용하는 것인데, 소팅 함수는 리스크 혹은 관련성의 정도(degree)로 해석될 수 있는 수치값(numerical value) 즉, 스코어(score)를 관찰된 각각의 케이스(신규하거나 혹은 신규하지 않은)에 할당한다. 소팅 함수의 품질은, 함수적인 기준(functional criterion), 즉 수신자 조작 특성 커브(Receiver Operating Characteristic curve: ROC 커브)를 이용하여 통상적으로 평가되며, ROC 커브는 오류 포지티브(false positives) 비율에 대한 트루 포지티브(true positive) 비율의 매우 시각적인 디스플레이를 제공한다. 정보 검색 분야에서 널리 이용되는 리콜-프리시젼 커브(Recall-Precision curve)는, 포지티브 라벨 데이터의 비율이 매우 높거나 혹은 매우 낮을 때, 판별(discrimination)의 결과들을 시각화하는 유사한 접근법이다.

비록, 고차원 데이터의 감독 분류에 관한 강력한 많은 알고리즘들(CART, SVM, 부스팅(boosting), 랜덤 포레스트(random forests))이 이미 알려져 있지만, 이제까지 그 어떤 "머신-학습(machine-learning)" 유형의 알고리즘도 스코어링 문제에 적용되지 않았다.

대부분의 어플리케이션들에서, 상기 접근법은, 가령, 관찰값들의 분포 모델링(modelling distribution of the observations), 정보의 잘라내기(truncation of information), 등등과 같은 수동 데이터 전처리(manual data preprocessing)에 주로 기초하는 로지스틱 회귀법(logistic regression)(선형) 혹은 선형 판별 분석법(linear discriminant analysis) 등과 같은 통상적인 통계학적 방법들을 이용하는 것이다. 이러한 접근법들은 여분의 차원들(dimensions)을 추가하는 것에 관련된 데이터 볼륨의 지수적 증가에 의해서 야기되는 문제들(차원의 저주: Curse of dimensionality)에 직면한다. 게다가, 이진 분류 방법들은 때때로 "마진까지의 거리(distance to the margin)"를 스코어로서 부정확하게 사용한다.

결과적으로, 머신-학습에 기초하는 개선된 스코어링 방법이 요구되고 있다.

이러한 목적들을 위하여 본 발명은 다중차원 스페이스(multidimensional space)로부터의 타겟 항목에 의해 표현되는 객체(object)에 스코어를 제공하는 방법을 제공하는데, 상기 스코어는 주어진 이진 속성을 상기 객체가 충족시킬 확률을 나타내며, 상기 방법은 메모리 수단에 연결된 프로세싱 수단을 포함하는 컴퓨터 환경에서 실행되며, 상기 방법은 다음의 단계들을 포함한다:

(a) 상기 다중차원 스페이스로부터의 샘플 항목들의 세트를 나타내는 데이터를 상기 메모리 수단에 제공 및 저장하는 단계, 각각의 샘플 항목은 상기 샘플 항목에 의해서 표현되는 객체가 상기 주어진 이진 속성을 충족시키는지 혹은 충족시키지 않는지를 나타내는 이진 라벨에 관련되며;

(b) 상기 타겟 항목을 나타내는 데이터를 상기 메모리 수단에 저장하는 단계;

(c) 상기 프로세싱 수단에 의해서, 주어진 높이를 갖는 지향된(oriented) 이진 트리(binary tree)를 나타내는 데이터를 상기 메모리 수단에 생성 및 저장하는 단계, 상기 이진 트리는 상기 이진 트리에서의 노드들의 위치에 관련된 인덱스 값들을 갖는 복수의 노드들에 의해서 정의되며, 상기 노드들은 루트 노드, 중간 노드들(intermediate nodes), 그리고 종말 노드들(terminal nodes)을 포함하고, 그리고 각각의 노드는 다음의 규칙들에 따라 상기 다중차원 스페이스의 서브스페이스에 관련되며:

- 만일, 상기 노드가 루트 노드라면, 관련된 서브스페이스는 전체 다중차원 서브스페이스이며;

- 만일, 상기 노드가 비-종말(non-terminal) 노드라면, 상기 비-종말 노드의 관련 서브스페이스는 상기 비-종말 노드의 제 1 차일드 노드 및 제 2 차일드 노드에 각각 관련되는 2개의 서로소(disjoint)인 서브스페이스들 ε₊ 및 ε_- 로 분열되며(split), 상기 분열(splitting)은 서브스페이스 ε₊ 에 속하는 주어진 제 1 라벨 값에 관련된 샘플 항목들의 개수 및/또는 서브스페이스 ε_- 에 속하는 주어진 제 2 라벨 값에 관련된 샘플 항목들의 개수를 최소화하는 분류자(classifier)에 따라 상기 프로세싱 수단에 의해서 수행되며, 상기 주어진 제 2 라벨 값은 상기 주어진 제 1 라벨 값에 비하여 상기 샘플 항목에 의해서 표현되는 객체가 주어진 이진 속성을 충족시키는 더 높은 확률을 나타내며;

(d) 상기 프로세싱 수단에 의해서, 상기 이진 트리의 적어도 각각의 종말 노드와 상기 이진 트리에서의 상기 종말 노드의 인덱스 값에 따른 스코어를 관련시키고, 그리고 상기 스코어 값을 상기 메모리 수단에 저장하는 단계;

(e) 상기 프로세싱 수단에 의해서, 타겟 노드를 식별하는 단계, 상기 타겟 노드는 그것의 관련된 서브스페이스가 상기 타겟 항목을 포함하는 종말 노드이며; 그리고

(f) 상기 타겟 노드에 관련된 상기 스코어 값을 출력하는 단계.

이러한 방법은 광범위한 시뮬레이션(extensive simulation)을 통해 강조된, 우수한 성능을 가능케하며, 이는 함수적으로 포즈된 최적화 문제(optimization problem posed functional)를 본 발명이 실제로 해결한다는 사실로부터 기인한다: 본 발명은 최적의 ROC 커브에 점점 더 가까워지는 적응형 근사(adaptive approximation)로 수렴하는 회귀적 스코어링 함수를 확립한다.

또한, 재샘플링(resampling)(부트스트랩)하는 제안된 기법들은 매우 큰 분량의 샘플들을 용이하게 획득할 수 있게 하며, 매우 신뢰성 있는 스코어링 규칙들을 얻을 수 있게 한다. 또한, 본 접근법의 논파라메트릭 양상(nonparametric aspect)은 가우시안 분포들에 종종 불완전하게 적용되는 데이터(data often poorly adapted to Gaussian distributions)를 처리하는 것을 가능케한다.

하지만, 가장 중요한 점은, 본 방법이 통계학자가 아닌 사람(non-statistician)에 의해서 용이하게 이해될 수 있는 스코어링 규칙들을 생성할 수 있게 해 준다는 점이다. 본 명세서에서 스코어링 규칙이라고 지칭되는 것은, 벡터 혹은 관찰값(observation)의 각각의 속성(attribute) 혹은 성분(component)에 대한 영향(impact)을 정량화(quantify)할 수 있는 간단한 이진 규칙들의 조합이다.

예를 들면, 의학적 진단에서, 관찰 벡터가 혈액 파라미터들에 대한 측정값들의 세트로 구성되는 경우, 생성되는 스코어링 규칙들은 2개의 카데고리들 즉, "건강한 환자" 와 "아픈 환자" 를 정의하는, 각각의 파라미터에 대한 범위 값들의 형태를 갖게 될 것이다. 물론, 카테고리들의 개수는 2개보다 클 수 있다.

마지막으로, 이들 규칙들은 지향된 이진 트리로서 용이하게 시각화될 수 있는바, 상기 트리에서 가장 관심이 있는 파라미터들은 상기 트리의 최상부에 출현하게 되며, 따라서 통계학자가 아닌 사용자에 의해서도 곧 바로 이해될 수 있을 것이다.

본 발명의 바람직한, 하지만 이에 한정되지 않는 피처들은 다음과 같다:

● 각 노드의 인덱스 값은 한쌍의 값들을 포함하고, 제 1 인덱스 값은 상기 이진 트리에서의 노드의 깊이를 나타내며, 그리고 제 2 인덱스 값은 상기 이진 트리의 주어진 깊이 레벨에서 상기 노드의 위치를 나타낸다.

● 루트 노드의 인덱스는 (0,0)이며, 그리고 인덱스가 (d,k)인 비-종말 노드의 상기 제 1 및 제 2 차일드 노드들의 인덱스들은 각각 (d+1,2k) 및 (d+1,2k+1) 이다.

● 인덱스가 (d,k)인 노드에 관련된 스코어는 2^D(1-k/2^d) 이며, D는 상기 이진 트리의 높이이다.

● 상기 분열은, 서브스페이스 ε₊ 에 속하는 주어진 제 1 라벨 값에 관련된 샘플 항목들의 개수와 서브스페이스 ε_- 에 속하는 주어진 제 2 라벨 값에 관련된 샘플 항목들의 개수의 가중된 조합(weighted combination)을 상기 프로세싱 수단에 의해서 최소화함으로써 수행된다.

● 상기 가중된 조합의 가중치들은 각각, 서로소인 서브스페이스들 ε₊ 및 ε_- 로 분열되는 서브스페이스에서의 주어진 제 2 라벨 값에 관련된 샘플 항목들의 비율과, 그리고 서로소인 서브스페이스들 ε₊ 및 ε_- 로 분열되는 서브스페이스에서의 주어진 제 1 라벨 값에 관련된 샘플 항목들의 비율이다.

● 상기 분열은 프로세싱 수단에 의해서,

의 값을 최소화함으로써 수행되며, 여기서,

(X₁, Y₁)...(X_n, Y_n)은, 그들의 이진 라벨에 관련된 샘플 항목들의 세트이며,

ω는 서로소인 서브스페이스들 ε₊ 및 ε_- 로 분열되는 서브스페이스에서의 주어진 제 2 라벨 값에 관련된 샘플 항목들의 상기 비율이며,

ξ₁ 는 제 1 라벨 값이며, 그리고

ξ₂ 는 제 2 라벨 값이다.

● 상기 분열 동안에 고려되는 샘플 항목들의 개수 및/또는 관련된 서브스페이스의 차원들의 개수는 감소된다.

● 상기 다중차원 스페이스는 무한-차원 스페이스이며, 상기 분열은 유한-차원 항목들로의 샘플 항목들의 근사(approximation)를 포함한다.

● 상기 방법은, 프로세싱 수단에 의해서, 형성된 상기 이진 트리의 서브트리를 선택하고 그리고 상기 이진 트리를 상기 서브트리로 대체하는 단계(c1)를 더 포함하며, 상기 단계(c1)는 단계(c)를 후속한다.

● 가능한 각각의 서브트리에 대하여 단계 (c1)에서 상기 프로세싱 수단에 의해서 수신자 조작 특성 커브(Receiver Operating Characteristic curve: ROC 커브)가 확립되고, 그리고 메모리 수단에 저장되며, 상기 선택된 서브트리는, 그 서브트리의 관련된 ROC 커브 아래에서 가장 큰 면적을 갖는다고 상기 프로세싱 수단에 의해서 판별된 서브트리이다.

● 가능한 각각의 서브트리에 대하여 단계 (c1)에서 상기 프로세싱 수단에 의해서 ROC 커브가 확립되고, 그리고 메모리 수단에 저장되며, 상기 선택된 서브트리는, 그 서브트리의 관련된 ROC 커브 아래에서 가장 큰 복잡도-벌칙 면적(Complexity-Penalized Area)을 갖는다고 상기 프로세싱 수단에 의해서 판별된 서브트리이다.

● 단계(c1)는, 가능한 서브트리들의 세트에 대하여 상기 프로세싱 수단에 의해서 수행되는 교차-확인 테스트(cross-validation test)를 포함한다.

● 상기 다중-값 라벨은 상기 샘플 항목에 의해서 표현되는 객체가 주어진 이진 속성을 충족시키는지 혹은 충족시키지 않는지를 나타내는 이진 라벨이며, 상기 제 1 라벨 값은 상기 주어진 이진 속성을 충족시키지 않는 샘플 항목들에 관련된 라벨 값이며, 그리고 상기 제 2 라벨 값은 상기 주어진 이진 속성을 충족시키는 샘플 항목들에 관련된 라벨 값이다.

● 상기 다중-값 라벨은 적어도 3개의 값들(1≤ξ≤Ξ)을 포함하고, 상기 라벨 값은 상기 주어진 이진 속성을 충족시키는 확률로 상승되며(ascending), ξ₁ < ξ₂ 되도록 라벨 값들의 Ξ(Ξ-1)/2 개의 가능 쌍들(ξ₁ , ξ₂) 각각에 대하여 지향된 이진 트리가 형성 및 저장되며, 상기 제 1 라벨 값은ξ₁ 이며 그리고 상기 제 2 라벨 값은ξ₂ 이다.

● 상기 다중-값 라벨은 적어도 3개의 값들(1≤ξ≤Ξ)을 포함하고, 상기 라벨 값은 상기 주어진 이진 속성을 충족시키는 확률로 상승되며(ascending), 라벨 값들 ξ₂ = ξ₁ + 1 의 Ξ-1 개의 가능 쌍들(ξ₁ , ξ₂) 각각에 대하여 지향된 이진 트리가 형성 및 저장되며, 제 1 라벨 값은ξ₁ 이며 그리고 제 2 라벨 값은ξ₂ 이다.

● 샘플 항목들의 복수의 세트가 단계 (a)에서 생성 및 저장되며, 지향된 이진 트리가 샘플 항목들의 각각의 세트에 대하여 생성 및 저장된다.

● 샘플 항목들의 각각의 세트는, 샘플 항목들의 메인 세트를 리샘플링(resampling)함으로써 상기 프로세싱 수단에 의해서 생성된 부트스트랩 복제물(bootstrap replicate)이다.

● 상기 방법은, 형성된 복수의 이진 트리들을 취합(aggregating)하고 그리고 최상(best)의 스코어링 규칙을 결정하는 단계(d1)를 더 포함하며, 상기 단계(d1)은 단계(c)에 후속한다.

● 단계(d1)은 다음의 서브-단계들,

- 형성된 각각의 이진 트리에 대하여, 상기 종말 노드들에 관련된 서브스페이스들에 의해서 형성된 다중차원 스페이스의 파티션(partition)을 상기 메모리 수단에 제공 및 저장하는 단계;

- 공통 서브파티션을 형성하도록 이들 파티션들을 상기 프로세싱 수단에 의해서 취합하는 단계;

- 형성된 각각의 이진 트리에 대하여, 상기 공통 서브파티션의 각 부분을 스코어링함으로써 스코어링 큐칙을 제공 및 저장하는 단계;

- 각각의 스코어링 규칙에 대하여, 상기 스코어링 규칙에 따라 스코어링된 상기 부분들의 랭킹을 제공 및 저장하는 단계;

- 상기 프로세싱 수단에 의해서 상기 복수의 랭킹들 중에서 중앙값 랭킹(median ranking)을 결정하고, 그리고 상기 중앙값 랭킹을 상기 메모리 수단에 저장하는 단계; 그리고

- 상기 프로세싱 수단에 의해서 상기 중앙값 랭킹에 관련된 스코어링 규칙을 최상의 스코어링 규칙으로 선택하는 단계를 포함한다.

● 중앙값 랭킹을 결정하는 상기 서브-단계는, 랭킹들의 각각의 쌍들 간의 비유사성 비율(dissimilarity rate)을 상기 프로세싱 수단에 의해서 계산하고, 그리고 다른 랭킹들과의 가장 낮은 비유사성 비율을 나타내는 랭킹을 상기 프로세싱 수단에 의해서 상기 중앙값 랭킹으로 선택하는 단계를 포함한다.

● 상기 중앙값 랭킹은 랭킹

이며, 따라서

이고

는 랭킹들이며, 그리고

는 랭킹들의 쌍 사이의 비유사성 비율이다.

● 상기 비유사성 비율은,

로 정의되며,

C_i ... C_K 는 공통 서브파티션의 부분들이며, 그리고

는 랭킹

에 따른 공통 서브파티션의 다른 부분들 중에서 부분 C_i 의 랭크이다.

● 상기 비유사성 비율은,

로 정의되며,

C_i ... C_K 는 공통 서브파티션의 부분들이며, 그리고

는 랭킹

● 상기 비유사성 비율은,

로 정의되며,

C_i ... C_K 는 공통 서브파티션의 부분들이며, 그리고

는 랭킹

제 2 양상에서, 본 발명은 프로세싱 수단, 입력 수단, 출력 수단, 메모리 수단을 포함하는 결정-지원 시스템을 제공하며, 상기 프로세싱 수단은 본 발명의 제 1 양상에 따른 방법을 구현하도록 구성된다.

본 발명의 다른 목적들, 피처들 및 장점들은 첨부된 도면들과 함께 본 발명의 예시적인 실시예에 대한 다음의 상세한 설명에서 명백해질 것이다.
도1은 본 발명의 제 1 양상에 따른 방법에서 이용되는 이진 트리의 일례를 나타낸다.
도2는 본 발명의 제 1 양상에 따른 방법의 일실시예에서 이용되는 이진 서브트리의 일례를 나타낸다.
도3은 본 발명의 제 1 양상에 따른 방법의 테스트 ROC(Receiver Operating Characteristic) 커브의 일례에 대한 그래프이다.
도4는 본 발명의 제 1 양상에 따른 방법의 일실시예의 단계들을 나타내는 다이어그램이다.
도5는 본 발명의 제 1 양상에 따른 방법의 일실시예에서 이용되는, 트리 구조 파티션들(partitions)에 의해서 유발되는 최대 공통 서브파티션을 특징화한 이진 서브트리의 일례를 나타낸다.
도6a는 본 발명의 제 1 양상에 따른 방법을 설명하는데 이용되는 샘플 항목들의 세트에 대한 일례를 나타낸다.
도6b는 도5a의 일례에 관련된 회귀 함수의 바이-레벨(bi-level) 세트들을 그래프로 나타낸다.
도6c는 본 발명의 제 1 양상에 따른 방법을 이용하여 도5a의 일례로부터 학습한 스코어링 함수의 바이-레벨 세트들을 그래프로 나타낸다.
도6d는 도5c의 스코어링 함수의 최적의 ROC 커브와 테스트 ROC 커브를 그래프로 나타낸다.

도면들을 참조하여 본 발명의 선호 실시예들에 따른 방법이 설명될 것이다.

서론(Preliminaries)

확률적 프레임워크(probabilistic framework)는 표준 이진 분류의 확률적 프레임워크와 정확히 동일하다. 예컨대, 랜덤 변수들의 쌍은 (X, Y)로 표현되며, 여기서 Y ∈ {+1;-1} 는 이진 라벨이며 그리고 X는 Y를 예측하기 위한 소정의 관찰값을 모델링하는 항목(item)이며, 고차원의 피처 공간(feature space) χ⊂R^q 에서 그 값들이 취해진다. 따라서, 각각의 커플 (X, Y)은 객체(object)를 나타내며, 이러한 객체는 주어진 이진 속성을 충족시키거나 혹은 충족시키지 않는다. 만일, 이진 속성이 충족된다면, Y = +1 이고, 그렇지 않으면 Y = -1 이다. 예를 들면, 의학 진단의 경우에 있어서, 상기 객체는 환자이며, 그리고 이진 속성은 "환자는 건강하다" 가 될 수 있다. 환자와 관련된 항목은, 환자의 체온, 연령, 그리고 환자의 혈액 내의 소정 항체들(antibodies) 및/또는 림프구들(lymphocytes)의 농도를 포함하는 투플(tuple)이 될 수도 있다.

다음을 유의해야 하는바, X는 (아마도 다변량의) 샘플링된 커브(예를 들면, 시간-의존적인 데이터, 즉 X=X(t))가 될 수도 있는데, 달리 말하면 무한-차원의 항목(infinite-dimensional item)이 될 수 있다. 이러한 "함수적인(functional)" 버전에서, 입력 커브들은 유한-차원의 서브스페이스(subspace) 상에 투사되어야 한다.

3개 이상의 카테고리들의 경우, 이진 속성들의 조합이 이용될 수도 있다. 예를 들면, "환자는 건강하다" , "환자는 질병 A를 갖는다", 및 "질병 B의 환자" 라는 3개의 카테고리들을 관리하기 위하여, 제 1 라벨 Y₁ 은 환자가 건강한지 아닌지의 여부를 나타내며 그리고 Y₁ = -1 인 경우, 제 2 라벨 Y₂ 은 질병이 A 인지 B 인지의 여부를 나타낸다. 이러한 2개의 이진 속성들은 별도로 프로세싱될 수 있다. 따라서, 다수의 모든 분류 문제(every multiple classification problem)는 하나 이상의 이진 분류 문제로 감소될 수 있다.

대안적으로, Y는 다중-값 라벨(Y ∈ {1,... Ξ})이 될 수도 있으며, 이는 이진 속성에 관한 성취 신뢰도(confidence of achievement)의 정렬된 단계적 변화(ordered gradation)를 나타낸다. 특히, Ξ = 3 이라면, Y = 2 는 2개의 확정 상태들 사이의 불확실(uncertainty)("아마도(maybe)") 상태에 대응할 수 있다(만일, 이진 속성이 충족되면 Y = 3, 그렇지 않고 이진 속성이 충족되지 않으면 Y = 1). 일례로서, 질병에 대한 몇몇 의료 기준들(medicine benchmarrks)은, 0:"병에 걸리지 않음(not diseased)" 에서 4:"중환자(seriously ill)" 까지의 5개의 값들을 취한다. 본 발명에 따른 방법의 일실시예는 아래에 설명되는 바와 같이, 이러한 다중-분류(multi-class)의 경우들에 이용될 수 있다.

간단명료함을 위하여, 다음의 설명들은 본질적으로 하나의 이진 분류 문제에 관련될 것이지만, 본 발명은 이러한 경우만으로 한정되지 않으며, 해당 기술분야의 당업자라면 본 발명을 임의의 다중 분류 문제에 적용하는 법을 능히 알 수 있을 것이다.

따라서, 객체의 이진 라벨 Y의 값은, 일반적으로 알려져 있지 않으며, 본 발명의 목적은 그것의 항목 X(즉, 타겟 항목)을 알고, 그리고 샘플 항목들(X₁, ... X_K)의 세트에 대한 Y 값을 알도록 Y의 값에 따라 결정을 내리는데 도움을 주는 것이다. 이를 위하여, 본 발명에 따른 방법은, 타겟 항목 X에 의해서 표현되는 객체에 스코어 s를 제공하는 것을 제안하는데, 상기 스코어 s는 주어진 이진 속성을 객체가 충족시킬 확률을 나타내는바, 달리 말하면 Y = +1 일 확률을 나타낸다.

이러한 방법은 메모리 수단에 연결된 프로세싱 수단을 포함하는 컴퓨터 환경에서 수행된다. 예를 들면, 메모리 수단은 컴퓨터의 하드 드라이브이며, 그리고 프로세싱 수단은 컴퓨터의 프로세서이다.

스코어링 - 데이터 입력(Scoring - Data input)

먼저, 타겟 항목을 나타내며 그리고 샘플 항목들의 세트를 나타내는 데이터가 메모리 수단에 저장되어야만 한다. 사실, 앞서 설명한 바와 같이, 본 발명에 따른 방법은, 머신-학습에 기초한다. 따라서, 타겟 항목에 의해서 표현되는 객체에 스코어를 제공할 스코어 함수는 샘플 항목들의 세트로부터 학습한다.

이러한 세트가 제공되어야만 한다. 의학용 일례에서는, 상기 세트는 건강하다고 알려진 다양한 환자들(Y = +1)의 건강 파라미터들, 그리고 아프다고 알려진 다양한 환자들(Y = -1)의 건강 파라미터들로 구성될 수 있다.

샘플 항목들의 개수는 매우 중요하다. 샘플 항목들이 많으면 많을수록, 상기 스코어는 정확해질 것이다. 또한, 샘플 항목들은 매우 철저해야 하며(very exhaustive), 그리고 다중차원 스페이스(multidimensional space) 전체의 가능한 최대 서브스페이스를 커버해야만 한다. 예를 들어, 만일 그의 건강 파라미터들이 샘플 항목들로 이용되는 모든 환자들이 37℃ ~ 38℃의 동일한 체온을 갖는다면, 체온이 39℃ 보다 높은 환자들을 신뢰성 있게 스코어링하는 것은 매우 어려울 것이다.

스코어링 - 이진 랭킹 트리(Scoring - Binary Ranking trees)

메모리 수단에 저장된 샘플 항목들의 세트로부터, 프로세싱 수단은 지향된(oriented) 이진 트리를 생성한다. 사실, 본 발명에 따른 방법은, 구분적으로 일정한 스코어링 함수(piecewise constant scoring function)의 특정 패밀리, 즉, 이진 랭킹 트리에 의해서 정의되는 것들에 주안점을 둔다.

먼저, 완전한, 좌-우 방향의(left-right oriented) 루트화된 이진 트리 T_D (유한 깊이 D ≥ 1 을 갖는)를 고려하자. T_D 의 모든 비-종말 노드(non-terminal node)는 서브세트 C ⊂ χ 에 관련되며 그리고 2개의 차일드 노드들을 갖는데, 이들 차일드 노드들은 2개의 서브세트들, C_left ⊂ C 및 C_left = C/C_left 에 각각 관련되는 좌측 형제(left sibling)과 우측 형제(right sibling)이며, 여기서 χ 는 관례상(by convention) 루트 노드에 관련된 서브세트이다. 이러한 (완전한) 랭킹 트리는 마스터 랭킹 트리라고 지칭되며, 그리고 일례로서 도1에 도시된다.

이러한 방식으로, 이진 트리의 임의의 레벨에서, 관련된 서브스페이스들은 χ의 파티션을 형성한다. 이진 트리에서의 각 노드의 위치와 관련하여 각각의 노드에 인덱스 값들을 부여함으로써, 이진 트리의 적어도 각각의 종말 노드와 이진 트리에서의 그것의 인덱스 값에 따른 스코어를 관련시키는 것이 가능하다. 예를 들어, 상기 스코어는 오른쪽에서 왼쪽으로 상기 트리를 이동하는 경우에 증가할 수 있다. 바람직하게는, 각 노드의 인덱스 값은 한쌍의 값들을 포함하는데, 이진 트리에서 노드의 깊이를 나타내는 제 1 인덱스 값과, 그리고 이진 트리에서 노드의 위치를 나타내는 제 2 인덱스 값이 그것이며, 예를 들면, (d,k)이고 여기서, d ∈ {0, ... D-1} 이고 k ∈ {0, ... 2^d-1} 이다. 이 경우, 루트 노드의 인덱스 값은 (0,0) 이며, 그리고 인덱스가 (d,k)인 비-종말 노드의 제 1 및 제 2 차일드 노드의 인덱스는, 각각 (d+1, 2k) 과 (d+1, 2k+1) 이다. 유리하게도, 이러한 지수화(indexation)와 더불어, 스코어링 함수는 다음과 같이 선택될 수 있다.

달리 말하면, 인덱스가 (d,k)인 노드에 관련된 스코어는 2^D(1-k/2^d) 이다. 즉, 종말 노드들은 1부터 2^D까지 스코어된다(scored). 이러한 스코어링 함수가 도1에 예시된다.

이진 트리의 종말 노드들이 χ의 파티션을 형성하므로, 타겟 항목은 하나 및 오직 하나의 종말 노드에 관련된 서브스페이스에 속할 것이며, 상기 종말 노드는 정의된 스코어에 대응한다.

스코어링 - 관련된 서브스페이스들의 분열(splitting)

신뢰성있는 스코어링 함수를 갖기 위한 핵심은 노드들에 관련된 서브스페이스들의 구성(construction)이다. 트리는 루트 노드로부터 만들어지며, 그리고 한층 한층(level by level) 높이 D 까지 도달된다. 생성된 노드들은 인덱스 값 및 서브스페이스에 관련되며, 그리고 메모리 수단에 저장된다.

관련된 서브스페이스들의 생성은 2개의 규칙들을 따른다. 먼저, 이미 설명한 바와 같이, 루트 노드에 관련된 서브스페이스는 전체 다중차원 스페이스 χ 이다. 다음으로, 만일 노드가 비-종말 노드라면, 그것의 관련 서브스페이스는 서로소(disjoint)인 2개의 서브스페이스들,ε₊ 및 ε_- 로 분열되는데, 이들은 상기 비-종말 노드의 제 1 차일드 노드와 제 2 차일드 노드에 각각 관련된다. 전술한 분열은, 서브스페이스 ε₊ 에 속하는 주어진 제 1 라벨 값(ξ₁ ∈ {1,... Ξ})에 관련된 샘플 항목들의 개수 및/또는 서브스페이스 ε_- 에 속하는 주어진 제 2 라벨 값(ξ₂ ∈ {1,... Ξ}, ξ₁ ＞ ξ₂ , 달리 말하면, 제 2 라벨 값은 상기 주어진 제 1 라벨 값에 비하여 상기 샘플 항목에 의해서 표현되는 객체가 주어진 이진 속성을 충족시키는 더 높은 확률을 나타낸다)에 관련된 샘플 항목들의 개수를 최소화하는 분류자(classifier)에 따라 프로세싱 유닛에 의해서 수행된다.

앞서 언급한 바와 같이, 편의를 위해서, 라벨은 이진 라벨 즉, Ξ = 2 이라고 간주될 것이다. 결과적으로, ξ₁ = -1 (상기 라벨 값에 관련된 샘플 항목들은 주어진 이진 속성을 충족시키지 못한다) 그리고 ξ₂ = +1 (상기 라벨 값에 관련된 샘플 항목들은 주어진 이진 속성을 충족시킨다).

모든 경우에 있어서, 서브스페이스 ε_- 에 속한 아이템보다 서브스페이스 ε₊ 에 속한 아이템이 주어진 이진 속성을 충족시킬 확률이 더 높다. 만일, 제 1 차일드 노드가 좌측 형제이며 그리고 제 2 차일드 노드가 우측 형제라면, 노드가 더 좌측에 있을수록 그와 관련된 스코어는 더 높을 것이다.

최적(best)의 서브스페이스 ε₊ 및 ε_- 를 어떻게 찾아내는가 하는 문제는 공지된 이진 분류 문제들과 같다. 사실, 유용하게도, 최소화되어야만 하는 함수는 주어진 이진 속성을 충족시키지 못하여 서브스페이스 ε₊ 에 속하는 샘플 항목들의 개수와 주어진 이진 속성을 충족시켜서 서브스페이스 ε_- 에 속하는 샘플 항목들의 개수의 가중된 조합(weighted combination)이며, 상기 가중된 조합의 가중치들(weights) 각각은 예를 들어, 서로소(disjoint)인 서브스페이스들 ε₊ 및 ε_- 로 분열되는 서브스페이스에서 주어진 이진 속성을 충족시키는 샘플 항목들의 비율과, 그리고 서로소인 서브스페이스들 ε₊ 및 ε_- 로 분열되는 서브스페이스에서 주어진 이진 속성을 충족시키지 않는 샘플 항목들의 비율, 즉 서브스페이스 C 에서의 네가티브 샘플 항목들의 비율:

그리고 서브스페이스 C 에서의 포지티브 샘플 항목들의 비율

이 될 수 있으며, 여기서,

이다.

이러한 경우에 있어서, 최소화될 함수에 대한 표현은 다음과 같을 수 있다:

달리 말하면,

= (포지티브의 비율)×(오류 네가티브의 비율) + (네가티브의 비율)×(오류 포지티브의 비율) 이다. [

= (rate of positive)×(rate of false negative) + (rate of negative)×(rate of false positive)]. 가령, CART, SVM, 뉴론 네트워크 등등과 같은 감독 분류(supervised classification)의 방법들은 이러한 표현을 최소화시키는 서브스페이스 ε₊ (그리고 ε_- 등등)를 빠르게 그리고 효율적으로 찾아내도록 프로세싱 수단에 의해서 실행될 수도 있다.

이러한 분열(splitting)은 완전할 필요는 없지만, 효율적이어야 한다. 너무 정밀한(precise) 분열은 X 와 Y 사이의 실제 관계 대신에 랜덤 에러 혹은 노이즈를 묘사할 것이며, 그리고 데이터에서의 중요치 않은 변동(minor fluctuation)을 지나치게 과장할 것인바, 이러한 문제는 오버피팅(overfitting)이라고 지칭된다. 이를 방지하기 위하여, 분열할 때에 자유도(degree of freedom)의 수가 제한되며, 이는 서브스페이스의 더 간단한 파티션을 야기하고 그리고 학습 속도의 증가를 야기한다.

유용하게도, 고려되는 샘플 항목들의 개수 및/또는 스페이스의 차원들의 개수는 이진 트리 안으로 깊이 들어감에 따라 자발적으로 감소된다. 예를 들면, 하나의 레벨에서 다음 레벨까지, 샘플 항목들의 오직 10% 만이 재사용될 수 있다. 데이터 무작위화(data randomization)라고 지칭되는 이러한 기법은, 오버피팅을 방지하는 또 다른 방법이며, 그리고 다수의 차원들(numerous dimensions)의 경우에서 효율을 증가시킨다.

예를 들면, 데이터 마이닝 정확도 스코어링(data mining accuracy scoring)의 몇몇 경우에 있어서, 객체들은 웹페이지들이다. 차원의 수는 1만개를 초과할 수 있으며, 반면에 샘플 항목들의 개수는 수십억개를 초과할 수도 있다. 오버피팅의 위험성이 매우 높다.

필터링

입력에서의 "기능적(functional)" 데이터 X의 경우(무한-차원 항목으로 설명된 바와 같은), "필터링" 또는 "정규화(regularization)" 방법들은 투영들(projections)을 제공하는데 도움을 줄 수도 있는바, 즉, 무한-차원의 항목들(infinite-dimensional items)을 본 발명에 따른 방법에서 좀더 용이하게 이용가능한 유한-차원의 항목들로 변환한다. 이를 위하여, 예를 들면, 푸리에 변환들, 라플라스 변환들 혹은 특히나 선호되는 특정한 웨이브렛 변환들(Wavelet transforms) 등과 같은, 변환들(transforms)이라고 지칭되는 수학적 연산들이, 기능적 데이터를 직교 기반의 함수들(orthogonal basis of functions)로 표현하는데 효과적으로 도움을 줄 수 있다.

웨이브렛 변환들은 신호 처리 분야에서 널리 알려진 것이다. 푸리에 분석의에 대하여, 웨이브렛 변환은 X(t) 신호를 간단한 요소들(각각이 사인 곡선들(sinusoids)의 합과 웨이브렛들의 합)로 인수분해한다. 주요 차이점은, 웨이브렛들은 시간 및 주파수 둘다에서 국소화(localized)되는 반면에, 표준 푸리에 변환은 주파수에서만 국소화된다는 점이다.

웨이브렛들은, 제로에서 시작하여, 증가하고, 그리고 다시 제로로 감소하는 진폭을 갖는 파형-유사한 진동들(wave-like oscillations)이다. 이는 전형적으로, "간략화된 진동(brief oscillation)"로 시각화될 수 있다.

상기 합의 웨이브렛들은 하나의 생성 함수 Ψ(즉, 머더(mother) 웨이브렛)의 쉬프트들에 의해서 가장 종종 생성되는 것들이다. 잘 알려진 일례들은 도브시(Daubechies), 몰레(Morlet) 그리고 Coiflet 함수들이다.

따라서, 웨이브렛 계수들은

이며, 여기서 예를 들면

이다.

X 함수의 유한-차원의 웨이브렛-기반의 근사(approximation)는 "필터링" 에 의해서 즉, n개의 웨이브렛 계수들 W(a,b), 예를 들면 임계값 보다 큰 레졸루션 레벨(resolution level)("a" 파라미터)의 그것들 중에서 가장 높은 분산(variance)을 갖는 n개의 계수들을 선택함에 의해서 얻어질 수 있다.

이러한 경우에 있어서, 상기 근사는

에 의해 주어진다. 도브시-2 웨이브렛(Daubechies-2 wavelets), 레졸루션 임계값 4, 그리고 37-텀 근사(37-term approximation)에 기초하는 일례들은 훌륭한 결과를 나타냈다.

다음이 이해될 것인바, 본 발명은 웨이브렛-기반의 필터링에 한정되지 않으며, 그리고 해당 기술분야의 당업자라면 감소된 차원의 스패닝 세트(spanning set) 상에 함수적 데이터를 투영하기 위한 임의의 방법에 본 발명에 따른 방법을 어떻게 적용하는지를 능히 이해할 것이다.

커브 아래의 영역(Area Under the Curve)

포지티브 집단(ositive population)과 네가티브 집단을 구별할 수 있는 후보 스코어링 함수(candidate scoring function) s 의 용량은 일반적으로 그것의 ROC 커브에 의해서 평가되는바, ROC 커브는 널리 이용되는 기능적인 성능 측정법이며, 명확함을 위하여 아래와 같이 표현된다.

스코어링 함수 s 의 트루(true) ROC 커브는 아래와 같이 주어지는 "확률-확률(probability-probability)" 도표(plot)이다.

관례상, 점프가 발생하는 때, 대응 말단들(corresponding extremities)은 라인 세그먼트에 의해서 연결되며, 따라서 S(x) 의 ROC 커브는 연속적인 맵핑 α∈ [0,1] → ROC(s,α) 의 그래프로서 도시될 수 있다.

이것은 "오류 포지티브 항목들의 비율에 상관관계인 트루 포지티브 항목들의 비율(the rate of true positive items, in function of the rate of false positive items)" 이라고 이해될 수 있다.

이러한 커브는 스코어링 성능을 평가하기 위한 유용한 시각적인 툴(tool)을 제공한다: ROC 커브가 단위 정사각형(unit square) [0,1]² 의 좌측 상단 코너에 가까워질수록, 스코어링 함수 s가 더 우수하다. 따라서, 이것은 모든 스코어링 함수들의 세트 상에 부분 순서(partial order)가 있게 한다: 모든 (s₁; s₂)에 대해서, ROC(s₁,α) ≤ ROC(s₁,α) 인 경우에 s₂ 는 s₁ 보다 더 우수하다고 얘기된다(모든 α∈ [0,1]에 대해서).

후보 s의 성능은 통상적으로 스칼라 양, 즉 ROC 커브 아래의 영역(축약하면 AUC)에 의해서 요약된다.

본 발명에 따른 방법은 최적의 ROC 커브를 근사화하기 위한 방법으로 보여질 수 있다. 사실, 제공된 스코어링 함수는 최적 ROC 함수의 구분적 선형 근사(piecewise linear approximation)이다: 각각의 종말 노드는 이러한 근사의 선형 부분에 대응한다.

사실, 각각의 분열(split)에서, ε₊ 에 속하는 샘플 항목들은 포지티브이어야 한다. 이 경우, 이들은 "트루 포지티브" 이다. 그렇지 않고, 만일 이들이 네가티브라면, 이는 이들이 ε_- 에 속해야함을 의미하며, 그리고 실제로 "오류 포지티브" 이다. 이와 같이 각각의 분열은 좌표처럼 ROC 커브가 갖는 포인트(a point of the ROC curve having as coordinates)(ε₊ 내의 네가티브 샘플 항목들의 비율, ε_- 내의 포지티브 샘플 항목들의 비율)에 대응한다. 이것은 s를 나타내는 구분적인 선형 근사의 브레이크포인트를 형성한다.

이진 트래 내에 더 많은 레벨들을 형성함으로써, 상기 커브의 새로운 브레이크포인트들이 나타나며, 이는 최적의 ROC 커브의 더욱 세밀한 근사를 야기한다. 관련된 이진 트리의 서로 다른 높이에 대응하는, ROC 커브의 연속적인 구분적 선형 근사들의 일례 및 최적의 ROC 커브가 도3에 도시된다.

랭킹 트리 전지하기(Ranking Tree Pruning)

ROC 커브의 양호한 근사를 얻기 위해서는 최소 개수의 종말 노드들이 필요하다. 하지만, 많은 수의 종말 노드들은 오버피팅을 야기한다: 너무 많은 서브스페이스들로 분할된 χ의 파티션은 로컬 노이즈를 나타내며, 그리고 상기 분열(splitting)이 불안정해진다(이용되는 샘플 항목들의 세트에 대한 약간의 변경들은 매우 다른 스코어링 함수의 학습을 야기할 수도 있으며, 이러한 문제는 다음에 좀더 상세히 논의될 것이다). 또한, 노드들의 개수가 각각의 레벨에서 2배가 되면, 형성된 이진 트리들은 이들의 높이가 증가하는 경우 매우 빠르게 조작이 힘들어질 수도 있는데, 이는 스코어링 방법의 계산상의 복잡도가 노드들의 개수에 의존하기 때문이다: 매우 큰 이진 트리는 프로세싱 수단의 속도를 저하시킨다.

바람직한 실시예에서, 본 발명은 형성된 이진 트리의 서브트리(subtree)를 상기 프로세싱 수단에 의해서 선택하고 그리고 이진 트리를 상기 서브트리로 대체하는 단계를 포함하며, 상기 단계는 이진 트리를 형성하는 단계에 후속한다. 이진 트리의 "서브트리" 라는 용어는 임의의 노드가 종말 노드가 될 수도 있는 이진 트리를 지칭한다. 그 밖에, 노드는 2개의 칠드런(children)을 갖는다. 달리 말하면, 이것은 처음에는 완전한 이진 트리이며, 이는 적어도 한 노드의 모든 자손들(descendant)을 제거함으로써 전지(pruned)될 수도 있다. 예를 들면, 도2는 도1에 도시된 이진 트리의 가능한 서브트리를 도시한다.

이러한 전지 단계(pruning step)의 목적은, 큰 트리를 형성한 후 성능들을 개선시키지 않는 노드들 혹은 심지어 성능들을 저하시키는 노드들을 제거함으로써, 이진 트리의 높이를 최적으로 선택하는 것이다. 유용하게도, ROC 커브는 각각의 가능한 서브트리에 대하여 프로세싱 수단에 의해서 형성되며 그리고 메모리 수단에 저장된다. 이들 구분적 선형 ROC 커브들 각각에 대하여, 프로세싱 수단에 의하여 AUC가 계산된다

제 1 가능성(a first possibility)은 가장 높은 AUC를 갖는 서브트리를 프로세싱 수단에 의해서 선택하는 것이다. 선택된 서브트리는 가장 효율성이 높은 것이지만, 계산상의 복잡도가 매우 높은 여전히 큰 트리일 수도 있다.

대안적으로는, 또 다른 기준, 즉 "복잡도-벌칙 AUC(Complexity-penalized AUC)" (CPAUC)가 이용된다:

여기서, #P(T)는 종말 노드들의 개수이며 그리고 λ는 트레이닝 성능(training performance) 대(versus) 모델 계산 복잡도 사이의 트레이드-오프를 관장하는 튜닝 파라미터이다. 선택된 서브트리는 가장 높은 CPAUC를 갖는 서브트리의 경우이다.

λ는 설정되어야만 하는 매우 중요한 파라미터(수동으로 설정될 수도 있음)이다. 하지만 이것은, 가능한 서브트리들 T_λ의 세트(이는 가능한 서브트리들의 전체 세트의 유한 서브세트임)에 대해서 프로세싱 수단에 의해서 수행되는 교차-확인 테스트(cross-validation test) 덕분에 유리하게 평가된다. N-폴드(fold) 교차-확인에서, 샘플들의 오리지널 세트는 N 서브세트들로 랜덤하게 파티션된다. N 서브세트들 중에서, 하나의 서브세트는 모델을 테스트하기 위한 확인 데이터(validation data)로서 보유되며(즉, 관련된 경험적(empirical) ROC 커브를 만들고 그리고 AUC를 계산함), 그리고 나머지 N-1 서브세트들은 트레이닝 데이터로서 이용된다. 이후, 교차-확인 프로세스가 N 번 반복되며(폴드들:folds), N 서브샘플들 각각은 확인 데이터(validation data)로서 정확히 한번 이용된다. 하나의 평가(estimation)를 생성하도록, 폴드들로부터의 N 결과들은 평균화될 수 있다(혹은, 조합될 수 있다).

반복되는 랜덤 서브-샘플링에 비교되는, 이러한 방법의 장점은 모든 관찰값들(observations)이 트레이닝 및 확인 둘다를 위해서 이용되며, 그리고 각각의 관찰값은 확인을 위하여 정확히 한번 이용된다는 점이다. 교차-확인된 AUC를 최대화시키는 값

는 프로세싱 수단에 의해서 결정되며, 그리고 관련된 서브트리

가 선택되며 그리고 메모리 수단에 저장된다. 10-폴드 교차-확인(10-fold cross-validation)이 통상적으로 이용된다.

랭킹 포레스트 - 원리 (Ranking Forest - Principe)

앞서 설명된 스코어링 방법과 유사한, 회귀적 분열(recursive splitting)에 기초하는 머신-학습 방법들의 주요한 문제는 불안정성(instability) 이다. 앞서 설명한 바와 같이, 이용되는 샘플 항목들의 세트에 대한 약간의 변경들은, 전혀 다른 스코어링 함수들의 학습을 야기할 수도 있다.

도4에 도시되는 바람직한 실시예에서, 복수의 이진 랭킹 트리들(이는 합쳐서 랭킹 포레스트라고 지칭될 수 있음)이 생성되며 그리고 AUC 기준(criterion)에 관하여 하나의 이진 랭킹 트리들의 성능을 개선시키도록 합쳐진다. 이를 위하여, 샘플 항목들의 복수의 세트들이 생성되며 그리고 저장된다. 이들 서로 다른 세트들 각각으로부터, 이진 트리가 형성된다.

샘플 항목들의 매우 큰 세트는 분열될 수도 있다. 대안적으로, 샘플 항목들의 각각의 세트는 부트스트랩 복제물(bootstrap replicate)이 될 수도 있다. 부트스트랩 복제물은, 샘플 항목들의 메인 세트를 리젬블링(resembling)함으로써 생성된 세트이다.

따라서, K 샘플 항목들의 서로 다른 B 세트들을 획득하기 위하여, N > K 샘플 항목들의 오직 하나의 세트만이 요구된다. 이것이 메인 세트 D 이다. 다음으로, 메인 세트 D 사이에서 교체 샘플 항목들(replacement sample items)로 드로잉(drawing)함으로써, B 부트스트랩 복제물

이 형성된다. 회귀적 분열의 불안정성 때문에, 이러한 재샘플링(resampling)은 샘플 항목들의 세트들을 생성하기에 충분하며, 이로부터 독립적인 이진 트리들

이 형성될 수 있으며 그리고 학습된 스코어링 함수들에 관련될 수 있다.

이후, 이들 트리들은 결합되어야 한다.

랭킹 포레스트 - 취합(aggregation)

서로 다른 샘플 세트로부터 서로 다른 이진 트리들이 생성되기 때문에, 이들의 종말 노드들에 관련된 서브스페이스들에 의해서 형성되는 다중차원 스페이스 χ의 이들의 파티션들은 양립불능(incompatible) 이다.

취합의 첫번째 목적은, 랭킹 포레스트의 임의의 트리의 종말 노드들에 관련된 서브스페이스들에 의해서 형성된 χ의 파티션들과 양립가능한, χ의 새로운 파티션을 만드는 것이다

이를 위하여, 형성된 이진 트리 각각에 대해, 종말 노드들에 관련된 서브스페이스들에 의해서 형성되는 다중차원 스페이스 χ의 파티션이 제공되고 그리고 메모리 수단에 저장되며, 그리고 상기 프로세싱 수단에 의하여 이들 파티션들이 취합되어 공통 서브파티션(common subpartition)을 형성한다. 사실,

및

가, 이진 트리들 T₁ 및 T₂ 에 각각 관련된 χ의 2개의 파티션들이라면, 공통 서브파티션은

형태의 서브세트들의 모음(collection) 이다.

그래픽적으로, 이것은, 다음과 같은 방식으로 T₁ 트리 구조를 확장함으로써 획득될 수 있다: 임의의 k ∈ {1,... K₁}에 대해서, 서브스페이스

에 관련된 T₁의 종말 노드에서,

를 루트(root)로서 T₂에 대응하는 서브트리를 부가한다. 글로벌 루트 χ에서 시작하는, 결과적인 결합된 서브트리의 종말 노드들에 관련된 서브스페이스들은, 공통 서브파티션(이러한 서브파티션의 부분들 중 일부는 비었을 수도 있음)에 대응하는바, 이는 도5에 도시된 바와 같다. 이러한 체계는, 반복될 수 있는데, 이는 B > 2 트리 구조 파티션들에 의해서 야기되는 서브파티션의 모든 부분들을 복원하기 위한 것이다. 계산적 성질(computational nature)에 따른 이유들 때문에, 상기 취합은 가장 복잡한 트리에서 시작되는 것이 바람직하며 그리고 하나가 진행되면 점점 덜 복잡한 트리들을 점진적으로 결합시키는 것이 바람직하다.

랭킹 포레스트 - 중앙값 랭킹(The Median Ranking)

공통 서브파티션은 서로 다른 트리들에 관련된 스코어링 함수들을 비교가능하게 한다. 이러한 서브파티션이 형성되어 메모리 수단에 저장되는 때, 형성된 각각의 이진 트리 랭킹 포레스트의 에 대해서, 공통 서브파티션의 각 부분(part)을 스코어링함으로써 스코어링 규칙이 제공되며 그리고 메모리 수단에 저장된다.

다음 단계는 각각의 스코어링 규칙에 대해서, 스코어링 규칙에 따라 스코어링된 부분들(parts)의 랭킹을 제공하고 그리고 저장하는 것이다. 특히, 다중차원 스페이스 χ 상의 전체 순서(total order)를 정의하는 가장 자연스러운 방법은, 실제 라인(real line) 상의 자연스런 순서(natural order)를 스코어링 함수에 의해서 운송(transport)하는 것이다. 즉, 측정가능한 맵핑 s:χ → R. 따라서, χ 상의 랭킹

은 다음에 의해 정의된다:

공통 서브파티션은 간단한 이진 트리에 관련된 임의의 파티션 보다 매우 많은 부분들을 포함하고 있기 때문에, 일부 서로 다른 부분들은 동일한 스코어를 가질 수도 있으며, 이들의 랭킹에 관하여 이들을 "대등하게(ex-aequo)" 만든다.

부분들의 랭크들에 대한 신뢰성있는 비교를 가능케 하기 위하여, 공통 서브파티션 P*(χ)의 부분 C의 모든 항목들은 동일한 스코어를 가지고 있기에, 부분 C의 랭크는 예를 들면, 다음과 같이 주어질 수 있다.

여기서,

는 오직 관계(relation)

만이 검증됨을 의미한다(즉, Z 와 Z’는 서로 다른 스코어를 가짐).

서로 다른 랭킹들이 샘플들의 서로 다른 세트들로부터 유래되기 때문에, 불안정한 경우, 공통 서브파티션의 주어진 부분의 랭크는 랭킹

에 따라 변동할 수 있다. 랭크들의 이러한 변동들은 가장 불안정한 랭킹들을 드러낸다. 반대로, 선택되어야만 하는 랭킹은 중앙값 랭킹(medium ranking)이라고 지칭된다(즉, 덜 불안정한 랭킹).

유용하게도, 이를 위해서, 랭킹들의 각각의 쌍 사이의 비유사성 비율(dissimilarity rate)이 프로세싱 수단에 의해서 계산되며, 그리고 다른 랭킹들과의 가장 낮은 비유사성 비율을 나타내는 랭킹이 프로세싱 수단에 의하여 중앙값 랭킹으로 선택되는바, 상기 비유사성 비율은 2개의 랭킹들 사이에서 랭크들의 변동성(variability)을 나타내는 기준이다.

예를 들어, 중앙값 랭킹은 랭킹

이 될 수 있으며, 따라서

이고

여기서:

는 랭킹들이며, 그리고

는 랭킹들의 쌍 사이의 비유사성 비율이다.

공통 서브파티션의 부분들의 랭크들의 함수에서 비유사성 비율을 계산하기 위한 서로 다른 여러 공식들이 해당 기술분야의 당업자에게 공지되어 있다. 예를 들면, 다음과 같은 3개의 공식들이 이용될 수도 있다:

- 스피어맨 랭크-오더 상관(The Spearman rank-order correlation)

여기서:

C_i ... C_K 는 공통 서브파티션의 부분들이며, 그리고

는 랭킹

- 스피어맨 푸트룰(The Spearman footrule)

여기서:

C_i ... C_K 는 공통 서브파티션의 부분들이며, 그리고

는 랭킹

- 켄달 타우(The Kendall tau)

여기서:

C_i ... C_K 는 공통 서브파티션의 부분들이며, 그리고

는 랭킹

중앙값 랭킹이 결정되고 그리고 메모리 수단에 저장되는 때, 프로세싱 수단은 중앙값 랭킹에 관련된 스코어링 규칙을 최상의 스코어링 규칙으로서 최종적으로 선택할 수 있다.

다중-값 라벨(Multi-values label)

앞서 설명한 바와 같이, 본 발명에 따른 방법은 다중-클래스 데이터와 양립가능(compatible) 하다. 즉, 다중-값 라벨(Y ∈ {1,... Ξ}, Ξ≥ 3)에 관련된 샘플 항목들을 처리할 수 있다.

이 때문에, 복수의 이분 랭킹 문제들(a plurality of bipartite ranking problems)이 유용하게 해결된다.

제 1 실시예에서는, 라벨 값들 ξ₂ = ξ₁ + 1 의 Ξ-1 개의 가능 쌍들(ξ₁ , ξ₂) 각각에 대하여, 지향된(oriented) 이진 트리가 형성 및 저장되는데, 제 1 라벨 값은ξ₁ 이며 그리고 제 2 라벨 값은ξ₂ 이다. 예를 들어, 만일 상기 라벨이 3-value 라벨(no/maybe/yes)이라면, "no" (Y=1) 혹은 "maybe" (Y=2)로 라벨링된 샘플 항목들만을 고려함으로써 제 1 이분 문제(a first bipartite problem)가 해결되며, 그리고 "maybe" (Y=2) 혹은 "yes" (Y=3)로 라벨링된 샘플 항목들만을 고려함으로써 제 2 이분 문제가 해결된다.

바람직한 실시예에서는, ξ₁ < ξ₂ 되도록 라벨 값들의 Ξ(Ξ-1)/2 개의 가능 쌍들(ξ₁ , ξ₂) 각각에 대하여, 지향된 이진 트리가 형성 및 저장되는데, 제 1 라벨 값은ξ₁ 이며 그리고 제 2 라벨 값은ξ₂ 이다. 여기서, 이전의 일례에 대하여, "no" (Y=0) 혹은 "yes" (Y=2)로 라벨링된 샘플 항목들을 고려함으로써 제 3 이분 문제가 해결된다.

2개의 경우들 모두에서, 획득된 복수의 트리들은 결합되어야만 한다. 이는 랭킹 포레스트와 동일한 매커니즘에 의해서 수행되는 것이 바람직하다: 취합, 그리고 중앙값 랭킹.

다음을 유의해야 하는바, 랭킹 포레스트는 다중-클래스 랭킹과 조합되어 이용될 수 있다: 부트스트랩 복제(bootstrap replicating)에 의하여 샘플 항목들의 복수의 세트들이 생성되며, 그리고 샘플 항목들의 각각의 세트에 대하여 그리고 라벨 값들의 각각의 쌍에 대하여 트리가 생성된다. 달리 말하면, 라벨 값의 각각의 쌍에 대하여 세트들의 개수와 같은 많은 트리들이 생성된다.

이들 트리들은 모두 동시에 결합될 수 있지만, 바람직하게는, 랭킹 포레스트가 먼저 수행되며(라벨 값의 쌍 하나당 트리들이 결합되며) 이후 취합된 트리들이 결합된다.

일례(Example)

본 발명에 따른 방법의 효율을 설명하기 위하여, 도6a에 도시된 샘플 항목들의 인공적인 데이터 세트가 다음과 같이 생성되었다:

단위 정사각형(unit square) χ = [0,1]² 는 4개의 쿼터들(four quaters)로 분열된다:

로 표현되는, 측정가능한 세트 C ⊂ χ 상의 균등 분포(uniform distribution), 클래스 분포들(class distributions)은 다음과 같이 주어진다:

여기서, H(dx) 와 G(dx) 는 각각 Y = +1 인 경우 및 Y= -1 인 경우의 조건부 분포들(conditional distributions) X 이다(the conditional distributions X given Y = +1 and X given Y = -1).

상기 일례에서는 2000개의 샘플 항목들이 이용되었다: 도6a에서, "+" 는 주어진 속성 (Y = +1)을 충족시키는 항목을 나타내며 그리고 "o"는 주어진 속성 (Y = -1)을 충족시키는 항목을 나타낸다. 이러한 설정에서, 최적의 스코어링 함수들은 구분적으로 일정하다(piecewise constant), 회귀 함수(regression function) 처럼:

회귀 함수는 주어진 X에 대해 Y = +1 이라는 확률(즉,

)을 제공하는 함수이다. 회귀 함수의 바이-레벨(bi-level) 세트들은 도6b에 도시된다. 스퀘어의 4개의 영역들이 명확히 보여진다.

본 발명에 따른 방법의 결과들이 도6c에 도시되는데, 도6c는 도6a의 샘플 항목들의 세트로부터 학습된 스코어링 함수를 나타낸다. 마스터 랭킹 트리는 앞서 설명된 방법에 따라 성장되며, 다음으로, 10개의 부트스트랩 복제물을 구비한 앞서 설명된 N-폴드 교차-확인(N-fold cross-validation) 절차를 통하여 전지된다(pruned). 4개 레벨들의 스코어가 출현함이 관찰될 수 있으며, 이는 스퀘어의 상기 4개의 영역들에 거의 완벽하게 대응한다.

도6d는 도6c의 스코어링 함수의 최적의 ROC 커브와 테스트 ROC 커브를 나타내는 그래프이다. 우리는 상기 2개의 커브들이 거의 구별될 수 없다고 생각할 수 있다.

어플리케이션들(Applications)

앞서 설명한 바와 같이, 본 발명에 따른 방법은 다양한 산업적 혹은 경제적 어플리케이션들을 허용한다. 신용 평가(credit scoring), 의학적 진단(medical diagnosis), 데이터 마이닝 정확도 스코어링(data mining accuracy scoring)은 이미 언급하였다.

이외에도, 본 발명에 따른 방법은 예를 들면, 품질 제어 및/또는 오류 검출에 효과적이다. 사실, 공장의 생산 라인에서는, 매우 적은 기준(few criteria)에 기초하여 생산품의 품질이 평가되어야만 한다. 이러한 경우, 주어진 이진 속성은 "표준(standard)(혹은, 비표준:non-standard) 제품" 이다. 생산 라인에서 랜덤하게 생산품을 골라내고(picking) 그리고 이들을 수동으로(manually) 체크함으로써, 샘플 항목들의 세트가 용이하게 설정될 수 있다. 예를 들어, 비-표준 생산품들의 비율이 임계값을 초과하면 오류가 검출될 수 있다.

또한, 본 발명에 따른 방법은 생물학(biology) 및 화학에 적용될 수도 있으며 특히, 분자, 단백질(proteins), 촉매(catalysts), 유전자(genes), 기타등등의 테스트에 적용될 수 있다. 분자의 구조와 공지된 다른 분자들의 구조를 비교함으로써, 상기 분자(혹은 단백질, 촉매...)가 소정의 효능(effect)을 가질 수 있는지의 여부를 예측하는 것이 가능할 수도 있다.

다양한 분야의 다른 많은 어플리케이션들이 고려될 수 있다.

결정-지원 시스템

제 2 양상에 따르면, 본 발명은 프로세싱 수단, 입력 수단, 출력 수단, 메모리 수단을 포함하는 결정-지원 시스템에 관한 것이다. 결정-지원 시스템의 프로세싱 수단은 앞서 설명된 바와 같은 스코어링 방법을 구현하도록 구성된다.

입력 수단은 타겟 항목을 나타내는 데이터, 그리고 샘플 항목들의 세트가 입력되게 한다. 입력 수단은 사용자가 수동으로 이들 데이터를 입력하기를 원한다면예를 들어 키보드가 될 수 있으며, 또는 예컨대, 샘플들의 데이터베이스를 갖고있는 임의의 컴퓨터와의 인터페이스가 될 수도 있다. 출력 수단은 예를 들면 디스플레이 스크린이 될 수 있다.

해당 기술분야의 당업자라면, 임의의 공지된 유형의 컴퓨터 언어, 임의 유형의 프로세서에 본 발명을 어떻게 적용할지를 능히 이해할 것이다.

Claims

다중차원 스페이스(multidimensional space)로부터의 타겟 항목에 의해 표현되는 객체(object)에 스코어를 제공하는 방법으로서, 상기 스코어는 주어진 이진 속성을 상기 객체가 충족시킬 확률을 나타내며, 상기 방법은 메모리 수단에 연결된 프로세싱 수단을 포함하는 컴퓨터 환경에서 실행되며, 상기 방법은,
(a) 상기 다중차원 스페이스로부터의 샘플 항목들의 세트를 나타내는 데이터를 상기 메모리 수단에 제공 및 저장하는 단계, 각각의 샘플 항목은 상기 샘플 항목에 의해서 표현되는 객체가 상기 주어진 이진 속성을 충족시킬 확률을 나타내는 다중-값 라벨에 관련되며;
(b) 상기 타겟 항목을 나타내는 데이터를 상기 메모리 수단에 저장하는 단계;
(c) 상기 프로세싱 수단에 의해서, 주어진 높이를 갖는 지향된(oriented) 이진 트리(binary tree)를 나타내는 데이터를 상기 메모리 수단에 생성 및 저장하는 단계, 상기 이진 트리는 상기 이진 트리에서의 노드들의 위치에 관련된 인덱스 값들을 갖는 복수의 노드들에 의해서 정의되며, 상기 노드들은 루트 노드, 중간 노드들(intermediate nodes), 그리고 종말 노드들(terminal nodes)을 포함하고, 그리고 각각의 노드는 다음의 규칙들에 따라 상기 다중차원 스페이스의 서브스페이스에 관련되며:
- 만일, 상기 노드가 루트 노드라면, 관련된 서브스페이스는 전체 다중차원 서브스페이스이며;
- 만일, 상기 노드가 비-종말(non-terminal) 노드라면, 상기 비-종말 노드의 관련 서브스페이스는 상기 비-종말 노드의 제 1 차일드 노드 및 제 2 차일드 노드에 각각 관련되는 2개의 서로소(disjoint)인 서브스페이스들 ε₊ 및 ε_- 로 분열되며(split), 상기 분열(splitting)은 서브스페이스 ε₊ 에 속하는 주어진 제 1 라벨 값에 관련된 샘플 항목들의 개수 및/또는 서브스페이스 ε_- 에 속하는 주어진 제 2 라벨 값에 관련된 샘플 항목들의 개수를 최소화하는 분류자(classifier)에 따라 상기 프로세싱 수단에 의해서 수행되며, 상기 주어진 제 2 라벨 값은 상기 주어진 제 1 라벨 값에 비하여 상기 샘플 항목에 의해서 표현되는 객체가 주어진 이진 속성을 충족시키는 더 높은(higher) 확률을 나타내며;
(d) 상기 프로세싱 수단에 의해서, 상기 이진 트리의 적어도 각각의 종말 노드와 상기 이진 트리에서의 상기 종말 노드의 인덱스 값에 따른 스코어를 관련시키고, 그리고 상기 스코어 값을 상기 메모리 수단에 저장하는 단계;
(e) 상기 프로세싱 수단에 의해서, 타겟 노드를 식별하는 단계, 상기 타겟 노드는 그것의 관련된 서브스페이스가 상기 타겟 항목을 포함하는 종말 노드이며; 그리고
(f) 상기 타겟 노드에 관련된 상기 스코어 값을 출력하는 단계
를 포함하는 것을 특징으로 하는 객체에 스코어를 제공하는 방법.
제1항에 있어서,
각 노드의 상기 인덱스 값은 한쌍의 값들을 포함하고, 제 1 인덱스 값은 상기 이진 트리에서의 노드의 깊이를 나타내며, 그리고 제 2 인덱스 값은 상기 이진 트리의 주어진 깊이 레벨에서 상기 노드의 위치를 나타내는 것을 특징으로 하는 객체에 스코어를 제공하는 방법.
제2항에 있어서,
상기 루트 노드의 인덱스는 (0,0)이며, 그리고
인덱스가 (d,k)인 비-종말 노드의 상기 제 1 및 제 2 차일드 노드들의 인덱스들은 각각 (d+1,2k) 및 (d+1,2k+1) 인 것을 특징으로 하는 객체에 스코어를 제공하는 방법.
제3항에 있어서,
인덱스가 (d,k)인 노드에 관련된 스코어는 2^D(1-k/2^d) 이며, D는 상기 이진 트리의 높이인 것을 특징으로 하는 객체에 스코어를 제공하는 방법.
제1항 내지 제4항 중 어느 한 항에 있어서,
서브스페이스 ε₊ 에 속하는 주어진 제 1 라벨 값에 관련된 샘플 항목들의 개수와 서브스페이스 ε_- 에 속하는 주어진 제 2 라벨 값에 관련된 샘플 항목들의 개수의 가중된 조합(weighted combination)을 상기 프로세싱 수단에 의해서 최소화함으로써 상기 분열이 수행되는 것을 특징으로 하는 객체에 스코어를 제공하는 방법.
제5항에 있어서,
상기 가중된 조합의 가중치들은 각각,
서로소인 서브스페이스들 ε₊ 및 ε_- 로 분열되는 서브스페이스에서의 주어진 제 2 라벨 값에 관련된 샘플 항목들의 비율, 그리고 서로소인 서브스페이스들 ε₊ 및 ε_- 로 분열되는 서브스페이스에서의 주어진 제 1 라벨 값에 관련된 샘플 항목들의 비율인 것을 특징으로 하는 객체에 스코어를 제공하는 방법.
제6항에 있어서,
상기 분열은 상기 프로세싱 수단에 의해서,

의 값을 최소화함으로써 수행되며,
(X₁, Y₁)...(X_n, Y_n)은, 그들의 이진 라벨에 관련된 샘플 항목들의 세트이며,
ω는 서로소인 서브스페이스들 ε₊ 및 ε_- 로 분열되는 서브스페이스에서의 주어진 제 2 라벨 값에 관련된 샘플 항목들의 상기 비율이며,
ξ₁ 는 제 1 라벨 값이며, 그리고
ξ₂ 는 제 2 라벨 값인 것을 특징으로 하는 객체에 스코어를 제공하는 방법.
제1항 내지 제7항 중 어느 한 항에 있어서,
상기 분열 동안에 고려되는 샘플 항목들의 개수 및/또는 관련된 서브스페이스의 차원들의 개수가 감소되는 것을 특징으로 하는 객체에 스코어를 제공하는 방법.
제1항 내지 제8항 중 어느 한 항에 있어서,
상기 다중차원 스페이스는 무한-차원 스페이스이며, 상기 분열은 유한-차원 항목들로의 샘플 항목들의 근사(approximation)를 포함하는 것을 특징으로 하는 객체에 스코어를 제공하는 방법.
제1항 내지 제9항 중 어느 한 항에 있어서,
상기 프로세싱 수단에 의해서, 형성된 상기 이진 트리의 서브트리를 선택하고 그리고 상기 이진 트리를 상기 서브트리로 대체하는 단계(c1)를 더 포함하며, 상기 단계(c1)는 단계(c)를 후속하는 것을 특징으로 하는 객체에 스코어를 제공하는 방법.
제10항에 있어서,
가능한 각각의 서브트리에 대하여 단계 (c1)에서 상기 프로세싱 수단에 의해서 수신자 조작 특성 커브(Receiver Operating Characteristic curve: ROC 커브)가 확립되고, 그리고 메모리 수단에 저장되며,
상기 선택된 서브트리는, 그 서브트리의 관련된 ROC 커브 아래에서 가장 큰 면적을 갖는다고 상기 프로세싱 수단에 의해서 판별된 서브트리인 것을 특징으로 하는 객체에 스코어를 제공하는 방법.
제10항에 있어서,
가능한 각각의 서브트리에 대하여 단계 (c1)에서 상기 프로세싱 수단에 의해서 ROC 커브가 확립되고, 그리고 메모리 수단에 저장되며,
상기 선택된 서브트리는, 그 서브트리의 관련된 ROC 커브 아래에서 가장 큰 복잡도-벌칙 면적(Complexity-Penalized Area)을 갖는다고 상기 프로세싱 수단에 의해서 판별된 서브트리인 것을 특징으로 하는 객체에 스코어를 제공하는 방법.
제12항에 있어서,
상기 단계(c1)는, 가능한 서브트리들의 세트에 대하여 상기 프로세싱 수단에 의해서 수행되는 교차-확인 테스트(cross-validation test)를 포함하는 것을 특징으로 하는 객체에 스코어를 제공하는 방법.
제1항 내지 제13항 중 어느 한 항에 있어서,
상기 다중-값 라벨은 상기 샘플 항목에 의해서 표현되는 객체가 주어진 이진 속성을 충족시키는지 혹은 충족시키지 않는지를 나타내는 이진 라벨이며,
상기 제 1 라벨 값은 상기 주어진 이진 속성을 충족시키지 않는 샘플 항목들에 관련된 라벨 값이며, 그리고 상기 제 2 라벨 값은 상기 주어진 이진 속성을 충족시키는 샘플 항목들에 관련된 라벨 값인 것을 특징으로 하는 객체에 스코어를 제공하는 방법.
제1항 내지 제13항 중 어느 한 항에 있어서,
상기 다중-값 라벨은 적어도 3개의 값들(1≤ξ≤Ξ)을 포함하고, 상기 라벨 값은 상기 주어진 이진 속성을 충족시키는 확률로 상승되며(ascending), ξ₁ < ξ₂ 되도록 라벨 값들의 Ξ(Ξ-1)/2 개의 가능 쌍들(ξ₁ , ξ₂) 각각에 대하여 지향된 이진 트리가 형성 및 저장되며, 상기 제 1 라벨 값은ξ₁ 이며 그리고 상기 제 2 라벨 값은ξ₂ 인 것을 특징으로 하는 객체에 스코어를 제공하는 방법.
제1항 내지 제13항 중 어느 한 항에 있어서,
상기 다중-값 라벨은 적어도 3개의 값들(1≤ξ≤Ξ)을 포함하고, 상기 라벨 값은 상기 주어진 이진 속성을 충족시키는 확률로 상승되며(ascending), 라벨 값들 ξ₂ = ξ₁ + 1 의 Ξ-1 개의 가능 쌍들(ξ₁ , ξ₂) 각각에 대하여 지향된 이진 트리가 형성 및 저장되며, 제 1 라벨 값은ξ₁ 이며 그리고 제 2 라벨 값은ξ₂ 인 것을 특징으로 하는 객체에 스코어를 제공하는 방법.
제1항 내지 제16항 중 어느 한 항에 있어서,
샘플 항목들의 복수의 세트가 단계 (a)에서 생성 및 저장되며, 지향된 이진 트리가 샘플 항목들의 각각의 세트에 대하여 생성 및 저장되는 것을 특징으로 하는 객체에 스코어를 제공하는 방법.
제17항에 있어서,
샘플 항목들의 각각의 세트는, 샘플 항목들의 메인 세트를 리샘플링(resampling)함으로써 상기 프로세싱 수단에 의해서 생성된 부트스트랩 복제물(bootstrap replicate)인 것을 특징으로 하는 객체에 스코어를 제공하는 방법.
제15항 내지 제18항 중 어느 한 항에 있어서,
형성된 복수의 이진 트리들을 취합(aggregating)하고 그리고 최상(best)의 스코어링 규칙을 결정하는 단계(d1)를 더 포함하며, 상기 단계(d1)은 단계(c)에 후속하는 것을 특징으로 하는 객체에 스코어를 제공하는 방법.
제19항에 있어서,
상기 단계(d1)은 다음의 서브-단계들,
- 형성된 각각의 이진 트리에 대하여, 상기 종말 노드들에 관련된 서브스페이스들에 의해서 형성된 다중차원 스페이스의 파티션(partition)을 상기 메모리 수단에 제공 및 저장하는 단계;
- 공통 서브파티션을 형성하도록 이들 파티션들을 상기 프로세싱 수단에 의해서 취합하는 단계;
- 형성된 각각의 이진 트리에 대하여, 상기 공통 서브파티션의 각 부분을 스코어링함으로써 스코어링 큐칙을 제공 및 저장하는 단계;
- 각각의 스코어링 규칙에 대하여, 상기 스코어링 규칙에 따라 스코어링된 상기 부분들의 랭킹을 제공 및 저장하는 단계;
- 상기 프로세싱 수단에 의해서 상기 복수의 랭킹들 중에서 중앙값 랭킹(median ranking)을 결정하고, 그리고 상기 중앙값 랭킹을 상기 메모리 수단에 저장하는 단계; 그리고
- 상기 프로세싱 수단에 의해서 상기 중앙값 랭킹에 관련된 스코어링 규칙을 최상의 스코어링 규칙으로 선택하는 단계
를 포함하는 것을 특징으로 하는 객체에 스코어를 제공하는 방법.
제20항에 있어서,
중앙값 랭킹을 결정하는 상기 서브-단계는,
랭킹들의 각각의 쌍들 간의 비유사성 비율(dissimilarity rate)을 상기 프로세싱 수단에 의해서 계산하고, 그리고 다른 랭킹들과의 가장 낮은 비유사성 비율을 나타내는 랭킹을 상기 프로세싱 수단에 의해서 상기 중앙값 랭킹으로 선택하는 단계
를 더 포함하는 것을 것을 특징으로 하는 객체에 스코어를 제공하는 방법.
제21항에 있어서,
상기 중앙값 랭킹은 랭킹
이며, 따라서

이고
는 랭킹들이며, 그리고

는 랭킹들의 쌍 사이의 비유사성 비율인 것을 특징으로 하는 객체에 스코어를 제공하는 방법.
제22항에 있어서,
상기 비유사성 비율은,

로 정의되며,
C_i ... C_K 는 공통 서브파티션의 부분들이며, 그리고

는 랭킹
에 따른 공통 서브파티션의 다른 부분들 중에서 부분 C_i 의 랭크인 것을 특징으로 하는 객체에 스코어를 제공하는 방법.
제22항에 있어서,
상기 비유사성 비율은,

로 정의되며,
C_i ... C_K 는 공통 서브파티션의 부분들이며, 그리고

는 랭킹
에 따른 공통 서브파티션의 다른 부분들 중에서 부분 C_i 의 랭크인 것을 특징으로 하는 객체에 스코어를 제공하는 방법.
제22항에 있어서,
상기 비유사성 비율은,

로 정의되며,
C_i ... C_K 는 공통 서브파티션의 부분들이며, 그리고

는 랭킹
에 따른 공통 서브파티션의 다른 부분들 중에서 부분 C_i 의 랭크인 것을 특징으로 하는 객체에 스코어를 제공하는 방법.
결정-지원 시스템으로서,
프로세싱 수단, 입력 수단, 출력 수단, 메모리 수단을 포함하며,
상기 프로세싱 수단은 제1항 내지 제25항 중 어느 한 항에 따른 방법을 구현하도록 된 것을 특징으로 하는 결정-지원 시스템.