KR100724104B1

KR100724104B1 - 멀티플 지지벡터장치를 사용하여 멀티플 데이터세트로부터의 지식발견 강화방법

Info

Publication number: KR100724104B1
Application number: KR1020017015064A
Authority: KR
Inventors: 스티븐 디 반힐
Original assignee: 헬쓰 디스코버리 코포레이션
Priority date: 1999-05-25
Filing date: 2000-05-24
Publication date: 2007-06-04
Also published as: NO20015723L; NO20015723D0; CA2371240A1; JP2003500766A; EP1192595B1; EP1192595B8; KR20020030744A; WO2000072257A3; ATE311635T1; EA200101238A1; EP1192595A2; AU780050B2; IL146705A; IL146705A0; DE60024452T2; WO2000072257A2; CN1358288A; NO319838B1; CN1197025C; CA2371240C

Abstract

일반적으로 멀티플 학습장치, 특히 멀티플 지지벡터장치를 사용하여 데이터로부터 지식발견을 강화하는 시스템 및 방법이 제공된다. 학습장치를 위한 트레이닝 데이터는 의미를 부여하기 위해 예비처리된다. 예비처리된 데이터는 데이터 포인트를 변환 및/또는 확장하는 단계를 포함한다. 데이터에 의미를 부가하므로써, 학습장치는 처리할 다량의 정보를 갖게 된다. 특지, 지지벡터장치에 있어서, 처리될 정보량이 많을수록, 유도될 데이터에 대한 일반화는 보다 양호하게 된다. 독특한 커널을 포함하는 멀티플 지지벡터장치는 예비처리된 트레이닝 데이터로 트레이닝되며, 동일한 방식으로 예비처리되는 테스트 데이터로 테스팅된다. 어떠한 테스트출력이 최적의 솔루션을 나타내는지를 결정하기 위해, 멀티플 지지벡터장치로부터의 테스트 출력들은 비교된다. 하나이상의 커널 선택은 조정될 수 있으며, 하나이상의 지지벡터장치는 재교육되어 재검사된다. 독특한 입력 데이터 세트에 기초한 최적의 솔루션은 하나이상의 부가의 지지벡터장치로 입력되는 새로운 입력 데이터 세트를 형성하기 위해 조합될 수 있다.

지식, 발견, 지지벡터 장치, 데이터 차원, 초평면, 테스트, 트레이닝, 좌표, 최적화, 솔루션, 학습 장치 프로세서, 출력

Description

멀티플 지지벡터장치를 사용하여 멀티플 데이터세트로부터의 지식발견 강화방법{ENHANCING KNOWLEDGE DISCOVERY FROM MULTIPLE DATA SETS USING MULTIPLE SUPPORT VECTOR MACHINES}

본 발명은 데이터로부터 지식을 발견하기 위한 학습장치의 사용에 관한 것으로서, 특히 멀티플 데이터세트로부터 발견된 지식을 강화하기 위해 학습장치와 이에 관련된 입출력데이터의 최적화에 관한 것이다.

지식발견은 데이터수집의 가장 바람직한 최종적인 산물이다. 최근 데이터베이스 기법에서의 발전은 엄청난 양의 데이터를 생성, 수집 및 저장하기 위한 방법과 그 시스템을 폭발적으로 성장시켰다. 데이터베이스 기법은 상당한 양의 데이터를 효율적으로 수집 및 저장할 수 있게 하였지만, 이러한 데이터에서 정보에 대한 인간의 이해를 촉진시키기 위한 도전은 점점 더 어려워지고 있다. 현존의 여러가지 기법으로는 이러한 문제점에 접근할 수도 없다. 따라서, 신세대의 자동화된 지식 발견 툴(tool)이 요망되고 있다.

특수한 실시예로서, 인간 지놈프로젝트는 인간의 유전코드를 설명하는 멀티기가바이트 데이터베이스를 점유하고 있다. 이러한 인간 지놈 매핑이 완성(2003년으로 추정됨)되기 전에, 데이터베이스의 크기는 상당히 증가되리라고 여겨진다. 이러한 데이터베이스내의 광대한 양의 데이터는 스프레드시트와 ad hoc queries 와 같은 전통적인 데이터분석 툴을 압도한다. 전통적인 데이터분석 방법은 데이터로부터 정보 보고서를 생성하는데 사용되지만, 광대한 양의 데이터에서 유용한 지식패턴을 분석 및 발견하는데 총명하게 그리고 자동적으로 인간을 도와줄 수 있는 능력을 갖고 있지 못하다. 이와 마찬가지로, 전통적으로 허용되고 있는 기준범위와 해석에 대한 표준을 사용하여, 소량의 데이터로 유용한 지식 패턴을 확인하는 것은 불가능하다.

최근 학습장치의 일부 실시예에서 효과적인 것으로 보이는 한가지 발전은 후방번식 신경망(back-propagation neural nework)이다. 상기 후방번식 신경망은 인간에게 용이하게 나타나지 않는 데이터세트에서 지식발견을 연습하는 학습장치이다. 그러나, 상기 후방번식 신경망에서는 신경망이 양호하게 제어되는 습득장치로 되는 것을 방해한다는 문제점을 내포하고 있다. 예를 들어, 후방번식 신경망에서의 심각한 결점으로는, 경험적 위험기능(empirical risk function)이 많은 국부적 최소값(local minimum)과, 이러한 기법에 의한 발견으로부터 최적의 솔루션을 쉽게 손상시킬 수 있다는 경우를 들 수 있다. 후방번식 신경망에 의해 사용되는 표준 최적화 처리(standard optimization procedure)는 최소한으로 수렴되지만, 신경망방법은 국부적 최소값이 필요로 하는 글로벌 최소값(global minimum) 보다 작게 달성된 경우를 보상할 수 없다. 신경망으로부터 얻은 솔루션의 품질은 여러가지 요소에 좌우된다. 특히, 신경망을 조작하는 사용자의 숙련도가 근본적인 장점을 결정하지만, 초기 부담(initial weight)의 임의의 선택으로서 양호한 것으로 보이는 요소라도 불리한 결과를 도출하게 된다. 또한, 신경망 학습에 사용되는 경사도를 기본으로 하는 방법의 수렴은 본질적으로 느리다. 또 다른 결점으로서, 시그모이드 함수(sigmoid fucntion)는 근사값의 품질에 영향을 미치는 계수인자 라는 점이다. 지식발견에 관련된 신경망의 가장 큰 제한요소는 필요로 하는 연산기관과 트레이닝 데이터에서의 칫수 또는 각각의 부가적인 특징에 대한 동력에 있어 불균형적인 증식과 연관된 "차원의 저주(curse of dimensionality)" 이다.

신경망의 단점은 지지벡터장치를 사용하므로써 극복될 수 있다. 일반적으로, 지지벡터장치는 선험적(先驗的)으로 선택된, 비선형 매핑함수를 통해 입력 벡터를 고차원 특징 공간(feature space)으로 매핑한다. 이러한 고차원 특징 공간에서는 최적의 분리 초평면(hyperplane)이 구성된다. 상기 최적의 초평면은 등급분류, 회귀삽입(regression fit), 또는 밀도추정시의 정밀도 등을 결정하는데 사용된다.

지지벡터장치내에서는 특징 공간의 차원이 상당히 크다. 예를 들어, 4차 다항식 매핑함수는 200차원 입력공간이 16억 차원 특징 공간으로 매핑되게 한다. 커널(kernel) 기법과 배프닉-쉐르보넨키스 차원에 의해, 상기 지지벡터장치는 다른 방법을 제한하는 "차원의 저주"를 좌절시키며, 이와 같은 고차원 특징 공간으로부터 일반화될 수 있는 답을 효과적으로 이끌어낸다.

만일 트레이닝 벡터가 최적의 초평면(또는 일반화된 최적이 초평면)에 의해 분리될 수 있다면, 테스트시 에러를 범할 확률에 대한 기대값은 트레이닝 세트에서의 실시예에 의해 바운드된다. 이러한 바운드는 특징 공간의 차원과, 계수의 벡터의 표준과, 입력 벡터의 넘버의 바운드에 의존하지 않는다. 따라서, 만일 최적의 초평면이 트레이닝 세트 크기에 대해 소수의 지지벡터로 구성될 수 있다면, 한정된 차원 공간인 경우라도 일반화 능력(generalization ability)은 높아질 것이다.

이와 같이, 지지벡터장치는 광대한 양의 입력 데이터로부터 지식을 발견하려는 문제점에 대해 바람직한 솔루션을 제공한다. 그러나, 데이터 세트로부터 지식을 발견할 수 있는 지지벡터장치의 능력은 트레이닝 데이터 세트내에 포함된 정보에 비례하여 제한된다. 따라서, 지지벡터장치에 의한 지식발견을 극대화하는 트레이닝 데이터를 증가시키기 위해 데이터를 예비처리하기 위한 시스템 및 방법이 요망되고 있다.

또한, 지지벡터장치로부터의 원자료(raw data)는 지식을 가장 용이하게 해석할 수 있는 형태로 완전히 서술하지 않는다. 따라서, 인간이나 또 다른 자동처리에 의해 분배된 정보의 값을 극대화하기 위해 지지벡터장치로부터 데이터 출력을 예비처리하기 위한 시스템 및 방법도 요망되고 있다.

또한, 데이터로부터 지식을 발견할 수 있는 지지벡터장치의 능력은 커널의 선택에 의해 한정된다. 따라서, 지지벡터장치에 필요로 하는 커널을 선택 및/또는 생성하기 위한 개선된 시스템 및 방법이 요망되고 있다.

본 발명은 일반적으로 멀티플 학습장치와 특히 멀티플 지지벡터장치를 사용하여, 멀티플 데이터 세트로부터 발견된 지식을 강화하기 위한 시스템 및 방법을 제공하므로써, 상술한 요구사항에 부응하고 있다. 학습장치의 가장 유리한 적용을 허용하기 위해, 하나이상의 트레이닝 데이터 세트가 처리된다. 각각의 트레이닝 데이터 포인트는 하나이상의 좌표를 갖는 벡터를 포함하고 있다. 트레이닝 데이터의 예비처리는 누락 또는 잘못된 데이터 포인트를 확인하는 단계와; 잘못된 데이터를 보정하거나, 관찰 또는 문제된 범위로부터 전체 필드를 적절히 제거하기 위한 단계를 포함한다. 트레이닝 데이터의 예비처리는 벡터에 하나이상의 새로운 좌표를 부가하므로써 각각의 트레이닝 데이터에 차원을 부가하는 단계도 포함한다. 상기 벡터에 부가된 새로운 좌표는 하나이상의 본래 좌표에 변환(transformation)을 인가하므로써 유도된다. 상기 변환은 전문가 지식에 기초하거나, 또는 연산에 의해 유도된다. 트레이닝 데이터 세트가 연속한 변수를 포함하는 경우, 상기 변환은 트레이닝 데이터 세트의 연속한 변수를 최적으로 분류하는 단계를 포함한다.

이러한 방법에 따라, 상기 예비처리에 의해 제공된 트레이닝 데이터의 부가적인 표현은 지식을 발견할 수 있는 학습장치의 능력을 강화시킨다. 특수한 지지벡터장치에 있어서, 트레이닝 세트의 차원이 높을수록, 이로부터 유도되는 일반화의 품질은 더욱 좋아진다. 데이터로부터 발견된 지식이 회귀 또는 밀도추정과 연관이 있거나 또는 트레이닝 출력이 연속한 변수를 포함하게 될 때, 상기 트레이닝 출력은 연속한 변수로부터 분류화를 유도하기 위해 트레이닝 출력을 최적으로 분류하므로써 후처리된다.

테스트 데이터 세트는 트레이닝 데이터 세트에서와 동일한 방식으로 예비처리된다. 트레이닝된 학습장치는 예비처리된 테스트 데이터 세트를 사용하여 테스 트된다. 트레이닝된 학습장치의 테스트 출력은 테스트 출력이 최적의 솔루션인지의 여부를 결정하기 위해 후처리된다. 테스트 출력의 후처리는 테스트 데이터 세트와 비교될 수 있는 포맷으로 테스트 출력을 해석하는 단계를 포함한다. 선택적인 후처리단계는 출력 데이터의 부가적인 처리를 위하여 인간의 해석력이나 적합성을 강화시킨다.

지지벡터장치의 콘텍스트에 있어서, 본 발명은 지지벡터장치를 트레이닝하기 전에 커널의 선택을 제공한다. 이러한 커널 선택은 접근했었던 특수한 문제에 대한 이전의 지식이나 또는 학습장치로 사용하였던 유용 데이터의 특성분석에 기초하고 있으며, 전형적으로는 데이터로부터 발견되는 지식의 본질에 의존한다. 선택적으로, 후처리된 트레이닝 출력 또는 테스트 출력을 비교하는 반복적인 처리는 어떠한 형태가 최적의 솔루션을 제공하는지를 결정하기 위해 인가될 수 있다. 만일 테스트 출력이 최적의 솔루션이 아니라면, 상기 커널 선택은 조정될 수 있으며, 지지벡터장치는 다시 트레이닝되어 재검사된다. 최적의 솔루션인 것으로 결정되었다면, 트레이닝 데이터 세트와 동일한 방식으로 생데이터(live data) 세트가 수집되어 예비처리된다. 예비처리된 생데이터 세트는 학습장치로 입력되어 처리된다. 그후, 생출력을 연산유도된 문자숫자식 분류자로 해석하므로써, 학습장치의 생출력이 후처리된다.

삭제

예시적인 실시예에서는 지지벡터장치를 사용하여 데이터로부터 발견된 지식을 강화하는 시스템이 제공된다. 이러한 예시적인 시스템은 트레이닝 데이터 세트 및 테스트 데이터 세트를 저장하는 저장장치와, 지지벡터장치를 실행하기 위한 프로세서를 포함한다. 상기 프로세서는 데이터베이스로부터 트레이닝 데이터를 수집하고, 다수의 트레이닝 데이터 포인트를 각각 강화하기 위해 트레이닝 데이터 세트를 예비처리하고, 상기 예비처리된 트레이닝 데이터 세트를 사용하여 지지벡터장치를 트레이닝하고, 데이터베이스로부터 테스트 데이터 세트를 수집하고, 트레이닝 데이터 세트와 동일한 방식으로 데이터 세트를 예비처리하고, 트레이닝된 지지벡터장치의 테스트 출력의 수신에 응답하여 예비처리된 테스트 데이터 세트를 사용하여 트레이닝된 지지벡터장치를 테스팅하고, 테스트 출력이 최적의 솔루션인지를 결정하기 위해 테스트 출력을 후처리하도록 작동된다. 이러한 시스템은 원격원(remote source)으로부터 트레이닝 데이터 및 테스트 데이터를 수신하기 위한 커뮤니케이션 장치를 포함한다. 이 경우, 상기 프로세서는 트레이닝 데이터 세트를 예비처리하기 전에 저장장치에 트레이닝 데이터 세트를 저장하고, 테스트 데이터 세트를 예비처리하기 전에 저장장치에 테스트 데이터 세트를 저장할 수 있도록 작동된다. 이러한 시스템은 후처리된 테스트 데이터를 디스플레이하기 위한 디스플레이 장치를 포함한다. 이러한 시스템의 프로세서는 상술한 바와 같은 부가적인 기능을 각각 수행하도록 작동될 수 있다. 상기 커뮤니케이션 장치는 연산유도된 문자숫자식 분류자를 원격원에 전송할 수 있도록 작동된다.

예시적인 실시예에 따르면, 일반적으로 멀티플 학습장치와 특히 멀티플 지지벡터장치를 사용하여 데이터로부터의 지식발견을 강화하기 위한 시스템 및 방법이 제공된다. 학습장치로부터의 트레이닝 데이터는 이에 대한 의미를 부가하기 위해 예비처리된다. 데이터의 예비처리단계는 데이터 포인트를 전송하고 이를 확장하는 단계를 포함한다. 데이터에 의미를 부가하므로써, 상기 학습장치는 처리를 위한 상당한 양의 정보를 갖게 된다. 특히, 지지벡터장치에 있어서, 처리될 정보의 양이 많을수록, 유도될 데이터에 대한 일반화가 더욱 양호하게 된다. 독특한 커널을 각각 포함하는 멀티플 지지벡터장치는 예비처리된 트레이닝 데이터로 트레이닝되며, 동일한 방식으로 예비처리된 테스트 데이터로 테스트된다. 멀티플 지지벡터장치로부터의 테스트 출력은 어떠한 테스트 출력이 최적의 솔루션을 나타내는지를 결정하기 위해 비교된다. 하나이상의 커널 선택은 조정될 수 있으며, 하나이상의 지지벡터장치는 다시 트레이닝되어 재검사된다. 최적의 솔루션이 달성되었다고 결정되면, 생데이터는 처리된 후 최적의 솔루션을 생성하는 커널을 포함하고 있는 지지벡터장치로 입력된다. 학습장치로부터의 생출력은 연산유도된 문자숫자식 분류자에서 후처리되어 인간 또는 컴퓨터 자동처리에 의해 해석된다.

또 다른 실시예에 따르면, 연속한 변수를 최적으로 분류하기 위한 시스템 및 방법이 제공된다. 연속한 변수를 나타내는 데이터 세트는 분류자와 연속한 변수로부터의 샘플을 각각 구비하는 데이터 포인트를 포함한다. 데이터 세트내에서의 다수의 독특한 등급 확인자(identifier)가 결정되며, 데이터 세트내에서의 샘플의 정밀도와 샘프의 범위에 기초하여 다수의 후보 빈(candidate bin)이 결정된다. 각각의 후보 빈은 샘플의 서브범위를 나타낸다. 각각의 후보 빈을 위하여, 후보 빈내에 속하는 데이터 포인트의 엔트로피가 연산된다. 그후, 최소한의 경계 엔트로피를 갖는 후보 빈의 각각의 시컨스를 위하여, 샘플 범위에서의 컷오프 포인트는 후 보 빈의 시컨스에서 마지막 후보의 경계가 되도록 한정된다. 반복적인 처리에 의해, 일련의 후보의 상이한 조합을 위해 수집된 엔트로피가 연산된다. 또한, 한정된 컷오프 포인트의 갯수는 최소한의 엔트로피 연산에 기초하여 최적의 컷오프 포인트 갯수를 결정하기 위해 조정될 수 있다. 상술한 바와 같이, 연속한 변수를 최적으로 분류하기 위한 예시적인 시스템 및 방법은 학습장치로 입력되는 예비처리 데이터와, 학습장치의 후처리 출력을 위해 사용된다.

또 다른 실시예에 따르면, 일반적으로 학습장치와, 특히 분배된 네트웍 환경에서 지지벡터장치를 사용하여 데이터로부터 지식발견을 강화하기 위한 시스템 및 방법이 제공된다. 고객은 트레이닝 데이터와 테스트 데이터 및 생데이터를 원격원으로부터 분포된 네트웍을 통해 매각인(vendor)의 서버로 전송한다. 상기 고객은 사용자명, 패스워드 및 재정상담 확인자와 같은 인증정보(identification information)를 서버로 전송한다. 트레이닝 데이터와 테스트 데이터 및 생데이터는 저장장치에 저장된다. 그후, 트레이닝 데이터는 그 의미를 부가하기 위하여 예비처리된다. 데이터 예비처리 단계는 데이터 포인트를 전송 및 확장하는 단계를 포함한다. 데이터에 의미를 부가하므로써, 학습장치는 처리를 위한 상당한 양의 정보를 갖게 된다. 특히, 지지벡터장치에 있어서, 처리될 정보량이 많을수록, 유도될 데이터에 대한 일반화는 더욱 양호하게 된다. 따라서, 상기 학습장치는 예비처리된 트레이닝 데이터로 트레이닝되며, 이와 동일한 방식으로 예비처리된 테스트 데이터로 테스트된다. 학습장치로부터의 테스트 출력은 테스트 데이터로부터 발견된 지식이 바람직한 것인지의 여부를 결정할 수 있도록 후처리된다. 이러한 후처 리단계는 테스트 데이터와 비교될 수 있는 포맷으로 테스트 출력을 해석하는 단계를 포함한다. 생데이터는 예비처리된 후, 트레이닝되고 테스트된 학습장치로 입력된다. 그후, 학습장치로부터의 생출력은 인간이나 컴튜터 자동처리에 의한 해석을 위하여 연산유도된 문자숫자식 분류자에서 후처리된다. 분포된 네트웍을 통해 문자숫자식 분류자를 고객에게 전송하기 전에, 서버는 재정 상담 확인자에 의해 확인된 고객의 재정 상담으로부터 펀드를 수용하기 위해 재정 협회(finantial institution)와 통화한다.

또 다른 실시예에 따르면, 하나이상의 지지벡터장치는 예비처리 제1트레이닝 데이터를 사용하여 트레이닝되며, 하나이상의 지지벡터장치는 예비처리된 제2트레이닝 데이터 세트를 사용하여 트레이닝된다. 유사한 지지벡터장치로부터의 최적의 출력은 하나이상의 부가적인 지지벡터장치를 위한 새로운 입력 데이터 세트를 형성하도록 조합된다.

도1은 학습장치를 사용하여 발견된 지식을 증가시키는 일반적인 방법을 도시하는 플로우챠트.

도2는 지지벡터장치를 사용하여 데이터로부터 발견된 지식을 증가시키는 방법을 도시한 플로우챠트.

도3은 본 발명의 실시예에 따른 예비처리기법이나 후처리기법을 위해 단독으로 사용되거나 학습장치와 조합되어 사용되는, 최적의 분류화를 도시한 플로우챠트.

도4는 지지벡터장치로 입력되는 확장되지 않은 데이터 세트를 도시한 도면.

도5는 도4의 데이터 세트를 사용하여, 지지벡터장치로 입력되는 후처리된 출력을 도시한 도면.

도6은 지지벡터장치로 입력되는 확장된 데이터를 도시한 도면.

도7은 도6의 데이터 세트를 사용하여 지지벡터에 의해 발생된 후처리된 출력을 도시한 도면.

도8은 도3의 최적의 분류방법의 단독적용을 위한 입출력을 도시한 도면.

도9는 선형 커널을 포함하는 제1지지벡터장치와 다항 커널을 포함하는 제2지지벡터장치로부터 후처리된 출력을 도시한 도면.

도10은 본 발명의 실시예에 대한 예시적인 작동환경을 도시한 블럭도.

도11은 본 발명의 다른 실시예에 대한 상이한 작동환경을 도시한 블럭도.

도12는 본 발명의 또 다른 실시예에 대한 또 다른 작동환경을 도시한 블럭도.

도13은 멀티플 지지벡터장치의 계층적 시스템을 도시한 블럭도.

본 발명은 학습장치를 사용하여 데이터로부터 지식을 발견하기 위한 개선된 방법을 제공한다. 학습장치에 대한 여러 실시예가 존재하고 있으며, 이 분야에서 이에 대한 진보를 기대할 수 있지만, 본 발명의 실시예는 지지벡터장치에 촛점을 맞추고 있다. 본 기술분야에 공지된 바와 같이, 학습장치는 결과를 알고 있는 데이터를 사용하여 일반화하기 위해 트레이닝되는 알고리즘을 포함한다. 트레이닝된 학습장치 알고리즘은 모르는 결과인 경우에 적용되어 예측을 하게 된다. 예를 들어, 학습장치는 데이터에서의 패턴을 인식하여, 데이터에서의 회귀를 추정하거나 데이터내에서의 확률 밀도를 추정하게 된다. 상기 학습장치는 본 기술분야의 숙련자가 알고 있는 다양한 문제들을 해결하기 위해 트레이닝된다. 트레이닝된 학습장치는 그 출력이 허용가능한 에러 마진(error margin)내에서 유효하다는 것을 보장하기 위해 테스트 데이터를 사용하여 최적으로 테스트된다. 일단 학습장치가 트레이닝되어 테스트된 후에는, 생데이터가 입력된다. 학습장치의 생출력은 생데이터에 인가된 모든 트레이닝 데이터로부터 발견된 지식을 포함한다.

본 발명의 제1특징은 학습장치를 트레이닝하는 데이터를 사용하기 전에 데이터를 선택적으로 예비처리하거나 또는 학습장치로부터의 출력을 선택적으로 후처리하여 지식발견을 강화하는 것이다. 일반적으로, 데이터의 예비처리단계는 학습장치가 가장 양호하게 적용될 수 있도록 하기 위해 데이터를 재포맷하거나 증가하는 단계를 포함한다. 이와 마찬가지로, 후처리단계는 그 의미있는 특징을 발견하기 위해 학습장치의 출력을 해석하는 단계를 포함한다. 출력으로부터 확정되는 상기 의미있는 특징은 문제점 또는 특수한 데이터이다. 후처리단계는 컴퓨터에 의해 이해되거나 인간에 의해 이해될 수 있는 형태로 출력을 해석하는 단계를 포함한다.

본 발명의 실시예는 첨부된 도면을 참조하여 상세히 서술될 것이며, 도면에 있어서 유사한 구성요소에는 동일한 도면부호가 부여되었다. 도1은 학습장치를 사용하여 지식발견을 강화하는 일반적인 방법(100)을 도시하는 플로우챠트이다. 상기 방법(100)은 단계(101)에서 시작되어 단계(102)로 진행되며, 상기 단계(102)에서는 지식발견의 적용을 위해 특정한 문제가 학습장치를 통해 정형화된다. 특히, 학습장치에 필요로 하는 출력의 적절한 정형화가 매우 중요하다. 예를 들어, 각각의 공정 기구(equity instrument) 또는 시장 지수(market index)의 미래 성능을 예견하기 위해, 학습장치는 미래의 가격수준을 예측하기 보다는 예견된 미래변화를 예측할 때 보다 양호한 성능을 달성하리라고 본다. 미래 가격예측은 하기에 서술되는 바와 같이 후처리 단계에서 유도될 것이다.

문제를 정형화한 후, 단계(103)에서는 트레이닝 데이터 수집이 이루어진다. 상기 트레이닝 데이터는 공지된 특징을 갖는 데이터 세트를 포함한다. 상기 트레이닝 데이터는 하나이상의 로컬 및/또는 원격원으로부터 수집된다. 트레이닝 데이터의 수집은 공지의 전자 데이터 이송방법과 같은 자동화 처리 또는 수동에 의해 수집될 수 있다. 따라서, 본 발명의 실시예는 네트웍화된 컴퓨터 환경에서 조작된다. 도10 내지 도12를 참조하여 본 발명의 다양한 실시예에 대한 작동환경에 대해 서술하기로 한다.

단계(104)에서, 수집된 트레이닝 데이터는 본래 트레이닝 데이터가 갖고 있는 지식을 추출하기 위하여 학습장치가 가장 양호하게 적용될 수 있도록 하기 위해 선택적으로 예비처리된다. 이러한 처리단계에서, 트레이닝 데이터는 트레이닝 데이터의 레코드(record)내에서 독립적인 또는 멀티플 측정 변환, 조합 또는 조작을 통해 선택적으로 확장될 수 있다. 확장된 데이터는 각각의 입력 포인트를 결정하는데 유용한 관찰횟수를 변화시키므로써 입력 데이터의 차원을 변경하는 것을 의미한다(선택적으로, 이것은 데이터베이스 테이블내에서 컬럼을 부가하거나 삭제하는 것으로 서술된다). 데이터 포인트는 좌표(1, 4, 9)를 포함한다. 이러한 포인트의 확장된 버젼은 좌표(1, 1, 4, 2, 9, 3)로 나타난다. 이러한 실시예에서, 확장된 데이터 포인트에 부가된 좌표는 본래 좌표의 제곱근 변환에 기초한다는 것을 알 수 있다. 데이터 포인트에 차원을 부가하므로써, 이러한 확장된 데이터 포인트는 지식발견에 잠재적으로 보다 의미있는 변형된 입력데이터 표현을 제공한다. 이러한 의미에서의 데이터 확장은 학습장치로 하여금 확장되지 않은 트레이닝 데이터에서는 용이하게 나타나지 않는 지식을 발견할 기회를 제공한다.

데이터 확장단계는 데이터의 어떠한 형태의 의미있는 변화를 인가하는 단계와, 이러한 변환을 본래의 데이터에 부가하는 단계를 포함한다. 변환이 의미있는지의 여부를 결정하는 기준은 입력 데이터 그 자체 및/또는 데이터로부터 탐색되는 지식에 의존한다. 도시된 형태의 데이터 변환은 전문가 정보의 부가와; 라벨링(labelling)과; 이진법 변환; 사인, 코사인, 탄젠트, 코탄젠트, 및 기타 다른 삼각변환(trigonometric transformation); 클러스터링; 스케일링(scaling); 개연적 및 통계적 분석; 중요성 테스트; 강도 테스팅; 2-D 질서를 위한 탐색; 히든 마르코프 모델링; 등가 관계(equivalence relation)의 확인; 우연성 테이블의 적용; 그래프 원리의 적용; 벡터 맵의 생성; 다항식 및 기타 다른 대수학적 변환의 더하기, 빼기, 곱하기, 나누기; 비례성의 확인; 식별력의 결정 등을 포함한다. 의학적 데이터의 경우, 잠재적으로 의미있는 변환은, 공지의 표준 의학적 기준범위와의 연관성; 생리학적 절단; 생리학적 조합; 생화학적 조합; 발견적 학습규칙의 적용; 진단 기준 결정; 임상학적 가중시스템; 진단 변환; 임상 변환; 전문가 지식의 적용; 라벨링 기법; 기타 다른 생육지식의 적용; 베이즈 네트웍 지식 등을 포함한다. 이러한 변환과 기타 다른 변환은 그 조합과 마찬가지로 본 기술분야의 숙련자에 의해 이루어질 것이다.

본 기술분야의 숙련자라면 데이터 변환은 데이터 포인트에 차원성을 부가하지 않고 실행될 수 있음을 인식해야 한다. 예를 들어, 데이터 포인트는 좌표(A, B, C)를 포함한다. 이러한 데이트 포인트의 변환된 버젼은 좌표(1, 2, 3)으로 나타나며, 상기 좌표(1)는 좌표(A)와 공지된 관계를 가지며, 좌표(2)는 좌표(B)와 공지된 관계를 가지며, 좌표(3)는 좌표(C)와 공지된 관계를 갖는다. 예를 들어 학습장치가 문자를 인식하지 못할 경우 문자로부터 숫자로의 변환이 필요할 수도 있다. 데이터가 본래 숫자 형태인 경우에도, 데이터 포인트의 차원을 부가하지 않고, 다른 형태의 변환이 가능하다. 또한, 데이터에 의미를 부여하는 예비처리단계는 불완전하거나 부정한 또는 "오염된" 데이터를 분석하는 단계를 포함한다. 학습장치는 방식으로 "오염된" 데이터를 처리할 수 없다. 따라서, 예비처리단계는 오염된 데이터 포인트를 제거, 보수, 또는 대체하기 위해 데이터 세트를 세척하는 단계를 포함한다.

도1의 단계(106)에 있어서, 학습장치는 예비처리된 데이터를 사용하여 트레이닝된다. 본 기술분야에 공지된 바와 같이, 학습장치는 필요로 하는 트레이닝 출력이 얻어질 때까지 그 작동변수를 조정하므로써 트레이닝된다. 트레이닝 출력이 바람직한 것인지의 여부에 대한 결정은 트레이닝 출력을 트레이닝 데이터의 공지된 특성과 비교하므로써 자동으로 또는 수동으로 이루어질 수 있다. 학습장치는 트레 이닝 출력이 트레이닝 데이터의 공지된 특성으로부터 설정의 임계값내에 있을 때 트레이닝된 것으로 간주한다. 이러한 상태에서, 필요하지 않다면 단계(107)에서 학습장치의 트레이닝 출력을 후처리하는 것이 바람직하다. 상술한 바와 같이, 학습장치의 트레이닝 출력을 후처리하는 단계는 상기 출력을 의미있는 형태로 해석하는 단계를 포함한다. 회귀문제에 있어서는, 예를 들어 입력 데이터 포인트가 정확하게 분류되었는지의 여부를 결정하기 위해 학습장치의 출력에 대한 범위 분류를 결정할 필요가 있다. 패턴 인식 문제에 있어서, 때로는 학습장치의 트레이닝 출력을 후처리할 필요가 없다.

단계(108)에 있어서, 테스트 데이터는 트레이닝된 학습장치를 테스트하기 위해 미리 선택적으로 수집된다. 테스트 데이터는 하나이상의 국부적 및/또는 원격원으로부터 수집된다. 실제로, 테스트 데이터 및 트레이닝 데이터는 동일한 원격원으로부터 동시에 수집된다. 따라서, 테스트 데이터 및 트레이닝 데이터 세트는 통상적인 데이터로 분할되어, 학습장치용의 상이한 입력 데이터 세트로서 사용하기 위해 국부적 저장매체에 저장된다. 테스트 데이터가 수집된 방법과는 관계없이, 사용된 그 어떠한 테스트 데이터라도 상기 트레이닝 데이터와 동일한 방식으로 단계(110)에서 예비처리된다. 본 기술분야의 숙련자라면 알 수 있는 바와 같이, 트레이닝 데이터와 동일한 포맷의 테스팅 데이터를 사용하므로써 적절한 학습테스트가 달성될 수 있다. 따라서, 단계(112)에 있어서, 학습장치는 예비처리된 테스트 데이터를 사용하여 테스팅된다. 학습장치의 테스트 출력은 그 결과가 바람직한지의 여부를 결정하기 위해 단계(114)에서 선택적으로 후처리된다. 또한, 이러한 후처리단계는 테스트 출력을 의미있는 형태로 해석하는 단계를 포함한다. 상기 의미있는 형태는 인간에 의해 인식될 수 있는 것이나 또는 컴퓨터에 의해 인식될 수 있는 것을 의미한다. 그러나, 상기 테스트 출력은 그 결과가 바람직한 것인지의 여부를 결정하기 위해 테스트 데이터와 비교될 수 있는 형태로 후처리되어야만 한다. 후처리단계의 실시예는 최적의 분류화 결정, 스케일링 기법(선형 및 비선형), 변환(선형 및 비선형), 확률 추정 등과 같은 기법을 포함하지만, 이에 한정되는 것은 아니다. 상기 방법(100)은 단계(116)에서 종료된다.

도2는 지지벡터장치(support vector machine: SVM)로서 알려진 특정한 형태의 학습장치를 사용하여 데이터로부터 발견될 수 있는 지식을 강화하기 위한 방법(200)을 도시하고 있다. 상기 SVM은 데이터의 한정된 수집으로부터 다차원 함수를 추정할 때 일반화를 제공하기 위한 특정한 알고리즘을 실행한다. 상기 SVM은 의존성 추정문제를 해결하는데 특히 유용하다. 특히, SVM은 인디케이터 함수(예를 들어, 패턴 인식문제)와, 실제값 함수(예를 들어, 함수 근사값 문제, 회귀 추정 문제, 밀도 추정 문제, 및 역전 문제의 해결)를 매우 정밀하게 추정하는데 사용된다. 원래 SVM은 블라디미르 엔. 바프닉에 의해 개발되었었다. SVM에 내재되어 있는 개념은 본 발명에 참조인용되고 블라디미르 엔. 바프닉 저 "통계학적 학습원리"(죤 윌리 앤 선즈 인코포레이드, 1998)에 상세히 개시되어 있다. 따라서, SVM 이란 용어와 그 내용은 본 명세서에서 친근하게 인식될 수 있을 것이다.

상기 방법(200)은 단계(201)에서 시작되어 문제가 정형화되는 단계(202)로 진행되며, 단계(203)에서는 트레이닝 데이터가 수집된다. 도1을 참조로 서술한 바 와 같이, 트레이닝 데이터는 수동 또는 자동 처리를 통해 하나이상의 국부적 및/또는 원격원으로부터 수집된다. 단계(204)에서 트레이닝 데이터는 선택적으로 예비처리된다. 또한, 데이터의 예비처리단계는 데이터를 세척하므로써 트레이닝 데이터내에 의미를 강화하는 단계와, 데이터를 변환 및/또는 확장하는 단계를 포함한다. 본 기술분야의 숙련자라면 상기 SVM은 상당히 높은 차원의 입력 데이터를 처리할 수 있음을 인식해야 한다. 실제로, 입력 데이터의 차원이 높을수록, SVM이 연산될 수 있는 일반화는 더욱 양호하게 된다. 따라서, 트레이닝 데이터를 확장하지 않는 트레이닝 데이터 변환이 가능할 동안, SVM의 특정한 상황에 있어서 상기 트레이닝 데이터는 의미있는 정보를 부가하므로써 확장될 수 있다.

단계(206)에서는 SVM을 위한 커널이 선택된다. 본 기술분야에 공지된 바와 같이, 커널이 다르면, SVM은 주어진 입력 데이터 세트에서의 출력에 대한 다양한 품질을 생성하게 된다. 따라서, 적절한 커널 선택은 필요로 하는 SVM의 출력 품질에 기본적인 사항이 된다. 본 발명의 일실시예에서, 커널은 종래의 성능 지식에 기초하여 선정된다. 본 기술분야에 공지된 바와 같이, 예시적인 커널은 다항 커널, 방사형 기본 분류자 커널(radial basis classifier kernel), 선형 커널 등을 포함한다. 다른 실시예에서는 특정한 문제 또는 데이터 세트의 형태에 특정한 주문형 커널(customized kernel)이 생성된다. 또 다른 실시예에서, 각각 상이한 커널을 갖는 멀티플 SVM이 동시에 트레이닝되어 테스트된다. 동시에 트레이닝되어 테스트되는 출력의 품질은 가장 적합한 커널을 결정하기 위해 선택가능한 또는 가중된 메트릭스[단계(222)]의 다양성을 사용하여 비교된다.

단계(208)에 있어서, 예비처리된 트레이닝 데이터는 SVM으로 입력된다. 단계(210)에서, SVM은 최적의 초평면을 생성하기 위하여 예비처리된 트레이닝 데이터를 사용하여 트레이닝된다. 선택적으로, SVM의 트레이닝 출력은 단계(211)에서 후처리될 수도 있다. 또한, 출력에 대한 범위과 범주를 적절히 연산하기 위해 이러한 포인트에서는 트레이닝 출력의 후처리가 바람직하다. 단계(212)에서, 테스트 데이터는 이전의 데이터 수집과 유사하게 수집된다. 상기 테스트 데이터는 단계(214)에서 상기 트레이닝 데이터와 동일한 방식으로 예비처리된다. 그후, 단계(216)에서는 SVM이 바람직한 방식으로 트레이닝되었는지의 여부를 결정하기 위해, 예비처리된 테스트 데이터가 SVM에 입력되어 처리된다. 상기 테스트 출력은 단계(218)에서 SVM으로부터 수신된 후, 단계(220)에서 선택적으로 후처리된다.

후처리된 테스트 출력에 기초하여, 단계(222)에서는 SVM에 의해 최적의 최소값이 달성되었는지의 여부가 결정된다. 본 기술분야의 숙련자라면, SVM이 글로벌 최소값 에러를 갖는 출력을 하기 위해 작동될 수 있음을 인식해야 한다. 그러나 상술한 바와 같이, 주어진 데이터에 대한 SVM의 출력 결과는 전형적으로 커널 선택에 연관되어 변할 것이다. 따라서, 실제로는 주어진 데이터에 대해 SVM에 의해 확인되는 글로벌 멀티플 최소값이 있게 된다. "최적의 최소값" 또는 "최적의 솔루션" 이란 용어는 SVM에 의해 확인되는 기타 다른 글로벌 최소값과 비교하였을 때, 최적인 것(예를 들어, 주어진 특정 문제 및 기설정된 기준 에 대한 최적의 솔루션)으로 간주되는 선택된 글로벌 최소값을 의미한다. 따라서, 단계(222)에서 최적의 최소값이 확인되었는지의 여부에 대한 결정은 SVM의 출력을 과거의 값 또는 설정값과 비교하는 단계를 포함한다. 이러한 설정값은 테스트 데이터 세트에 의존한다. 예를 들어, 데이터 포인트가 SVM에 의해 그러한 특징을 갖거나 또는 갖지 않는 것으로 분류되는 패턴 인식문제에 있어서는 50%의 글로벌 최소값 에러가 최적인 값이다. 이러한 실시예에서, 50%의 글로벌 최소값은 데이터 포인트가 특징을 갖는지의 여부를 결정하기 위해 동전을 던져서 얻어지는 결과 보다 좋지 않다. 다른 실시예에서, 변화하는 커널과 동시에 멀티플 SVM이 트레이닝되어 테스팅되는 경우, 각각의 SVM을 위한 출력은 특정한 커널 세트를 위한 실제적인 최적의 솔루션을 결정하기 위해 다른 SVM의 출력과 비교된다. 최적의 솔루션이 확인되었는지의 여부에 대한 결정은 수동으로 실행되거나 또는 자동화된 비교처리에 의해 실행된다.

만일 최적의 최소값이 트레이닝된 SVM에 의해 달성되었다고 결정되면, 상기 방법은 커널 선택이 조정되는 단계(224)로 진행한다. 커널 선택의 조정단계를 하나이상의 새로운 커널을 선택하거나 커널 변수를 조정하는 단계를 포함한다. 또한, 멀티플 SVM이 트레이닝되는 동시에 테스팅되는 경우, 선택된 커널은 제어를 위해 다른 커널이 재사용될 동안 대체되거나 변형될 수 있다. 커널 선택이 조정된 후, 상기 방법(200)은 단계(208)로부터 반복되며, 이러한 단계에서 예비처리된 트레이닝 데이터는 트레이닝을 위하여 SVM으로 입력된다. 단계(222)에서 최적의 최소값이 달성되었을 때, 상기 방법은 단계(226)로 진행하여, 상술한 바와 같이 생데이터가 수집된다. 트레이닝 데이터 및 테스트 데이터에 대해 공지되어 있는 필요로 하는 출력 특성은 상기 생데이터에 대해서는 공지되어 있지 않다.

단계(228)에서, 생데이터는 트레이닝 데이터 및 테스트 데이터와 동일한 방식으로 예비처리된다. 단계(230)에서, 예비처리된 생데이터는 SVM으로 입력되어 처리된다. SVM의 생출력은 단계(232)에서 수신되어, 단계(234)에서 후처리된다. 본 발명의 일실시예에서, 후처리단계는 인간이나 컴퓨터에 의한 해석을 위하여 SVM의 출력을 연산유도된 문자숫자식 분류자로 변환하는 단계를 포함한다. 상기 문자숫자식 분류자는 인간이나 컴퓨터에 의해 용이하게 인식될 수 있는 단일값을 포함한다. 상기 방법(200)은 단계(236)에서 종료된다.

도3은 본 발명의 실시예에 따라 데이터를 예비처리하거나 학습장치로부터의 출력을 후처리하는데 사용되는 최적화 분류방법(300)을 포함한다. 하기에 서술되는 바와 같이, 최적의 분류방법은 학습장치와는 독립적인, 단독의 분류 기법으로서 사용된다. 상기 최적화 분류방법(300)은 단계(301)에서 시작되어, 입력 데이터 세트가 수신되는 단계(302)로 진행된다. 상기 입력 데이터 세트는 연속한 변수로부터 일련의 데이터 샘플을 포함한다. 상기 데이터 샘플은 2개이상의 분류 범주내에 속한다. 이어서, 단계(304)에서 빈과 등급 트래킹 변수가 시작된다. 본 기술분야에 공지된 바와 같이, 빈 변수는 솔루션과 관련되어 있으며, 등급 트래킹 변수는 데이터 세트내의 등급수와 관련되어 있다. 빈 및 등급 트래킹의 초기화를 위한 값의 결정은 수동으로 또는 입력 데이터 세트의 분석으로부터 컴퓨터 프로그램과 같은 자동화처리를 통해 실행된다. 단계(306)에서는 각각의 빈을 위한 데이터 엔트로피가 연산된다. 엔트로피는 랜덤 분포의 불확실성을 측정하는 기계적 품질을 의미한다. 상기 방법(300)에 있어서, 엔트로피는 최대 분류능력이 달성될 수 있도록 입력변수의 등급을 측정하는데 사용된다.

상기 최적화 분류방법(300)은 연속한 변수에서 일련의 커트(cut)를 생성하므로, 상기 연속한 변수는 분리된 범주로 분할될 수 있다. 상기 방법(300)에 의해 선택된 커트는 분리된 각각의 최종 범주의 평균 엔트로피가 최소화한다는 점에서 최적으로 된다. 단계(308)에서, 모든 커트가 연속한 변수를 포함하는 입력 데이터 세트내에 위치되는지의 여부가 결정된다. 만일 모든 커트가 위치되지 않을 경우에는 단계(310)에서 컷오프 결정을 위하여 일련의 빈 조합이 테스트된다. 단계(310)에서, 상기 방법(300)은 단계(306)로 복귀한 후, 단계(308)로 진행하여, 모든 커트가 연속한 변수를 포함하는 입력 데이터 세트내에 위치되는지의 여부를 다시 결정한다. 모든 커트가 위치되었을 때, 시스템 전체에 대한 엔트로피는 단계(309)에서 평가되며, 다소의 커트로부터 이전 결과와 비교가 이루어진다. 만일 최소 엔트로피 상태로 결정된 것으로 포함되지 않으면, 다른 가능한 커트 선택이 평가되어야만 하며, 상기 방법은 단계(311)로 진행된다. 단계(311)에서, 지금까지 테스트되지 않은 커트 수에 대한 선택이 이루어지며, 상술한 처리는 단계(304)에서 반복된다. 빈 폭에 의해 결정된 결정의 한계가 테스트되거나, 또는 최소값 솔루션에 대한 수렴이 확인될 때, 단계(312)에서 최적의 분류기준은 출력이며, 최적화 분류방법(300)은 단계(313)에서 종료된다.

상기 최적화 분류방법(300)은 역동적인 프로그래밍 기법의 장점을 내포하고 있다. 본 기술분야에 공지된 바와 같이, 역동적인 프로그래밍 기법은 알고리즘을 신중이 구성하여 여분의 연산을 감소시키므로써, 복잡한 문제의 해결에 대한 효율 을 상당히 증진시키는데 사용된다. 최적의 분류 문제에 있어서, 연속한 변수에서 모든 가능한 커트를 철저히 탐색하는 직접적인 접근방법은 복잡성이 증가되는 알고리즘으로 나타나며, 적절한 크기의 입력에 대해서도 문제를 가공하기 어렵게 한다. 목표 함수의 부가적 특성이라는 장점을 취하므로써, 평균 엔트로피라는 문제는 일련의 서브 문제(sub-problem)로 분할된다. 각각의 서브 문제를 해결하고 서브 문제의 솔루션을 저장하기 위해 알고리즘 서브구조를 적절히 정형화하므로써, 상당한 양의 여분의 연산이 확인되어 이를 피할 수 있게 된다. 역동적인 프로그래밍 접근방법을 사용하므로써, 상기 최적화 분류방법(300)은 커다란 크기의 문제를 해결하는데 사용되는 다항 복잡성을 갖는 알고리즘으로서 조작된다.

상술한 바와 같이, 최적화 분류방법(300)은 데이터를 예비처리하거나 학습장치의 출력을 후처리하는데 사용된다. 예를 들어 예비처리 변환 단계로서, 상기 최적화 분류방법(300)은 원자료로부터 분류정보를 추출하는데 사용된다. 후처리 기법으로서, 상기 최적 범위 분류방법은 특별 접근방법에 의존하는 것이 아니라, 데이터에 객관적으로 기초한 마커(marker)를 위한 최적의 컷오프값을 결정하는데 사용된다. 상기 최적의 분류 방법(300)은 패턴 인식, 분류, 회귀 문제 등에도 적용될 수 있다. 상기 최적의 분류 방법(300)은 SVM 및 기타 다른 학습장치와는 독립적으로, 독립적인 분류 기법으로 사용될 수 있다. 도8을 참조하여 상기 최적화 분류방법(300)의 단독 적용에 대해 서술하기로 한다.

도4는 지지벡터장치를 위한 입력값으로 사용되는 확장되지 않은 데이터 세트(400)를 도시하고 있다. 이러한 데이터 세트(400)는 부가의 정보가 부가되지 않기 때문에, "확장되지 않은" 정보로 언급된다. 도시된 바와 같이, 확장되지 않은 데이터 세트는 트레이닝 데이터 세트(402)와 테스트 데이터 세트(404)를 포함한다. 상기 확장되지 않은 트레이닝 데이터 세트(402)와 확장되지 않는 테스트 데이터 세트(404)는 샘플화된 의료환자로부터의 과거 의료 데이터와 연관된 예시적인 데이터 포인트(406)와 같은 데이터 포인트를 포함한다. 상기 데이터 세트(400)는 유방암 환자가 재발의 징후를 보이는지의 여부를 결정하기 위해 SVM을 트레이닝하는데 사용된다.

각각의 데이터 포인트는 5개의 입력좌표 또는 차원과 각각의 환자로부터 수집된 의료데이터를 나타내는 출력 분류(406a-f)를 포함한다. 특히, 제1좌표(406a)는 "연령"을 나타내고, 제3좌표(406b)는 "에스트로겐 리셉터 레벨"을 나타내며, 제3좌표(406c)는 "프로제스테론 리셉터 레벨"을 나타내고, 제4좌표(406d)는 "전체 림프절 추출"을 나타내며, 제5좌표(406e)는 "양성(악성) 림프절 추출"을 나타내며, 제6좌표(406f)는 "재발분류"를 나타낸다. 데이터(400)에 대해 공지된 중요한 특징은 출력 분류(406f)로서, 이러한 실시예에서는 샘플화된 의료환자가 암의 재발없이 치료에 양호하게 반응하는지("-1)"의 여부와, 암이 재발되어 치료에 부정적으로 반응하는지("1)"의 여부를 표시한다. SVM에서 트레이닝 데이터를 처리할 동안 학습을 위해 사용되는 이러한 공지의 특성은 테스트 데이터가 SVM에 입력되어 "블라인드" 세트를 생성한 후 평가 형태로 사용되며, 현존의 의료환자의 생데이터에서는 공지되지 않게 된다.

도5는 도4에 도시된 확장되지 않은 데이터 세트(404)와 확장되지 않은 트레 이닝 데이터 세트(402)로 트레이닝되는 SVM으로부터의 테스트 출력(502)을 도시하고 있다. 상기 테스트 출력(502)은 인간이나 컴퓨터에 의해 인식될 수 있도록 후처리된다. 상술한 바와 같이, 테스트 출력(502)은 전체 샘플(데이터 포인트)이 SVM에 의해 테스팅되고, SVM은 8개의 양성 샘플중 4개를 부정확하게 확인하였으며(50%), 16개의 음성 샘플중 6개를 부정확하게 확인하였다(37.5%).

도6은 지지벡터장치를 위한 입력값으로 사용되는 확장된 데이터 세트(600)를 도시하고 있다. 이러한 데이터 세트(600)는 부가의 정보가 부가되기 때문에 "확장된" 것으로 언급된다. 상기 부가된 정보와는 별도로, 확장된 데이터 세트(600)는 도4에 도시된 확장되지 않은 데이터 세트(400)와 동일한 것임을 인식해야 한다. 확장되지 않은 데이터 세트(400)로 공급되는 부가의 정보는 도3을 참조하여 서술된 최적범위 분류방법(300)을 사용하여 공급된다. 도시된 바와 같이, 확장된 데이터 세트는 트레이닝 데이터 세트(602)와, 테스트 데이터 세트(604)를 포함한다. 상기 트레이닝 데이터 세트(602)와, 테스트 데이터 세트(604)는 샘플화된 의료환자로부터의 과거 데이터와 연관된 예시적인 데이터 포인트(606)와 같은 데이터 포인트를 포함한다. 또한, 상기 데이터 세트(600)는 유방암 환자가 재발을 경험할 것인지의 여부를 알기 위해 SVM을 트레이닝하는데 사용된다.

최적화 분류방법(300)의 적용을 통해서, 각각의 확장 데이터 포인트는, 개별 환자용의 의료 데이터와 그 분류 변환을 수집하여 나타내는 20좌표(또는 차원)(606a1-3 내지 606e1-3)와 출력 등급(606f)을 포함한다. 특히, 제1좌표(606a)는 "연령(Age)"을 나타내고, 제2좌표 내지 제4좌표(606a-606a3)는 합성하여 연령 분류를 나타내는 가변성이 있는 것이다. 예를 들면, 연령 범위는 데이터에 주어지는 연령 범위에 대해 각각 "청년", "중년", "노년"으로 분류할 수 있다. 도시된 바와 같이, 일련의 변수 "0"(606a1), "0"(606a2), "1"(606a3)는 임의적 연령값이 "노년"으로 분류되는 것을 나타내는데 사용된다. 마찬가지로, 일련의 변수 "0"(606a1), "1"(606a2), "0"(606a3)은 임의적 연령값이 "중년"으로 분류되는 것을 나타내는데 사용된다. 또한, 일련의 변수 "1"(606a1), "0"(606a2), "0"(606a1)은 임의적 연령값이 "청년"으로 분류되는 것을 나타내는데 사용된다. 도6을 참조하면, 최적화 분류방법(300)을 사용하는 "노년"(606a) 값의 범위의 최적화 분류는 31-33="청년", 34="중년", 및 35-49="노년"으로 판단되는 것을 알 수 있다. 다른 좌표, 즉 좌표(606b)는 "에스트로겐 리셉터 레벨"을 나타내고, 좌표(606c)는 "프로게스테론 리셉터 레벨"을 나타내며, 좌표(606d)는 "전체 림프절 추출"을 나타내고, 좌표(606e)는 "양성(악성) 림프절 추출"을 나타내도록 각각 유사한 방식으로 최적으로 분류되어 있다.

도7은 확장 트레이닝 데이터 세트(602)로 트레이닝되고 도6에 도시된 확장 데이터 세트(604)로 테스트된 SVM으로부터의 확장 테스트 출력(702)을 설명하고 있다. 확장 테스트 출력(702)은 사람 또는 컴퓨터에 의해 인식될 수 있도록 후처리된다. 지시된 바와 같이, 확장 테스트 출력(702)은 24개 전체 샘플(데이터 포인트)이 SVM에 의해 테스트되고 그리고 SVM은 8개 포지티브 샘플 중의 4개(50%)를 부정확하게 확인하고 16개 네가티브 샘플 중의 4개(25%)를 부정확하게 확인하는 것을 나타낸다. 따라서, 도5의 비확장 테스트 출력(502)과 이러한 확장 테스트 출력(702)을 대비하여, 데이터 포인트의 확장이 향상된 결과는(예를 들면, 보다 낮아진 글로벌 최소값 에러), 특정적으로는 암 치료에 동반하여 불필요하게 받게 되는 환자의 고통 절감을 초래하는 것을 볼 수 있다.

도8은 도3에 기술된 최적화 분류방법(300)을 적용하는데 따르는 스탠드의 전형적인 입력 및 출력을 설명하는 도면이다. 도8의 예에서는, 출력 데이터 세트(801)가 "포지티브 림프절 수"(802)와 대응의 "회복 등급(Recurrence Classification)"(804)을 포함한다. 이러한 예에서는, 최적화 분류방법(300)이 수술후 조직 샘플에 수집되는 포지티브 림프절의 수에만 기초하여 암 회복을 위한 치료를 판단하기 위한 최적 절개 포인트에 위치하도록 입력 데이터 세트(801)에 적용되어진다. 널리 공지된 임상 기준은 적어도 3개의 포지티브 림프절로 환자의 치료 부위를 정하는 것이다. 그리고, 최적화 분류방법(300)은, 입력 데이터(801)에 기본한 최적 절개부(806)가 적어도 6개의 포지티브 림프절로 환자의 임상규정에 정해진 추적검사 처리에 대응하는 보다 높은 값의 5.5림프절에 있어야 함을 입증하는 것이다.

대비표(808)에 나타낸 바와 같이, 종래기술에서 인정된 임상 절결 포인트(≥3.0)는 47%의 올바른 등급 회복율과 71%의 올바른 등급 비-회복율을 초래한다. 따라서, 53%의 회복률은 오류 등급으로(부가적인 치료가 부적절하게 제시되지 않음) 그리고 29%의 비회복률은 오류 등급으로(부가적인 치료가 부적절하게 제시되지 않음) 된다. 대조적으로, 최적화 분류방법(300)에 의해 판단되는 절결 포인트(≥5.5)는 33%의 올바른 등급 회복율과 97%의 올바른 등급 비-회복율을 초래한 다. 따라서, 67%의 회복률은 오류 등급으로(부가적인 치료가 부적절하게 제시되지 않음), 그리고 3%의 비회복률은 오류 등급으로(부가적인 치료가 부적절하게 제시되지 않음) 된다.

상기 실시예에서 볼 수 있는 바와 같이, 최적화 분류방법(300)을 사용하므로써, 수술후 암 치료 방식을 피할 수 있는 환자를 보다 정확하게 확인할 수 있는 것이다. 적정하게 높은 비율의 오류 등급 재현을 산출하는 최적화 분류방법(300)으로 정해진 절결 포인트를 통하더라도, 이것은 현저하게 낮은 비율의 오류 등급 비-재발을 산출한다. 따라서, 이율 배반성을 고려하고 그리고 불필요한 치료를 회피하는 최적성 문제의 목표를 실현하여, 최적화 분류방법(300)에 의해 정해지는 절결 포인트의 결과가 종래기술의 임상 절결 포인트에 의한 것보다 수학적으로 우수한 것이다. 이러한 타입의 정보는 유방암의 재발을 우려하거나 또는 화학요법과 같은 진단 치료 사이에서의 선택을 평가해야 하는 환자에게 추가적인 통찰력을 제공하는데 잠재적으로 극히 유용한 것이다.

도9는 선형 커널을 포함하는 제1지지벡터장치와 다항 커널을 포함하는 제2지지벡터장치로부터의 후처리 출력을 대비한 도면이다. 도9는 커널의 선택 변화가 SVM의 출력 특성의 레벨에 영향을 미치는 것을 도시하고 있다. 도시된 바와 같이, 선형 도트 프로덕트 커널을 포함하는 제1SVM(902)의 후처리 출력은, 24개 샘플로 이루어진 테스트 세트용으로 8개 포지티브 샘플 중의 6개가 오류 인식되고 16개 네가티브 샘플 중의 3개가 오류 인식되어 나타난다. 비교에 의해, 다항 커널을 포함하는 제2SVM(904)용 후처리 출력은, 동일한 테스트 세트용으로 8개 포지티브 샘플 중의 2개 만이 오류 인식되고 16개 네가티브 샘플 중의 4개가 오류 인식되었다. 비교에 의해, 산출된 다항 커널은 포지티브 샘플의 인식에 관련된 결과가 현저하게 향상되고 그리고 네가티브 샘플의 인식에 관련된 결과만이 미세하게 나쁜 결과를 산출한다. 따라서, 본 기술분야의 숙련자가 명백하게 이해될 수 있는 바와 같이 다항 커널용의 글로벌 최소값 에러가 데이터 세트용의 선형 커널용의 글로벌 최소값 에러보다 더 낮게 된다.

도10과 그에 따르는 설명은 본 발명을 이행하기에 적절한 컴퓨터사용 환경을 요약하여 설명하고 있다. 도10에 도시된 시스템이 일반적인 퍼스널 컴퓨터(1000)일지라도, 본 기술분야의 숙련자라면 본 발명이 다른 타입의 컴퓨터 시스템 구조를 사용하여 실행될 수도 있음을 인식해야 한다. 컴퓨터(1000)는 중앙처리장치(1022), 시스템 메모리(1020), 및 입력/출력("I/O") 버스(1026)를 구비한다. 시스템 버스(1021)는 시스템 메모리(1020)에 중앙처리장치(1022)를 결합시킨다. 버스 컨트롤러(1023)는 I/O버스(1026)에 데이터 흐름을 제어하고 내부 및 외부 I/O디바이스의 변수와 중앙처리장치(1022)와의 사이를 제어한다. I/O버스(1026)에 접속된 I/O디바이스는 DMA(Direct Memory Access) 컨트롤러(1024)를 사용하는 시스템 메모리(1020)에 직접 억세스 된다.

I/O디바이스는 일 세트의 디바이스 인터페이스를 경유하여 I/O버스(1026)에 접속된다. 디바이스 인터페이스는 하드웨어 성분과 소프트웨어 성분 모두를 구비한다. 예를 들면, 제거가능한 미디어(1050)를 읽거나 기록하는 플로피 디스크 드라이브(1032)와 하드 디스크 드라이브(1030)는 디스크 드라이브 컨트롤러(1040)를 통하여 I/O버스(1026)에 접속된다. 광 미디어(1052)를 읽거나 기록하는 광 디스크 드라이브(1034)는 SCSI(Small Computer System Interface)(1041)를 사용하는 I/O버스(1026)에 접속된다. 선택적으로, IDE(ATAPI) 또는 EIDE인터페이스가 CD-ROM드라이브를 가진 케이스에 있는 것과 같은 광 드라이브와 관계를 갖게 된다. 드라이브와 그 상관 컴퓨터-판독 미디어는 컴퓨터(1000)용의 비휘발성 스토리지를 제공한다. 상술된 컴퓨터-판독 미디어에 더하여, 다른 타입의 컴퓨터-판독 미디어, 예를 들면 ZIP드라이버도 사용할 수 있다.

모니터와 같은 디스플레이 디바이스(1053)는 비디오 어댑터(1042)와 같은 다른 인터페이스를 경유하여 I/O버스(1026)에 접속된다. 병렬 인터페이스(1043)는 레이저 프린터(1056)와 같은 동기식 주변기기를 I/O버스(1026)에 접속시킨다. 시리얼 인터페이스(1044)는 통신기기를 I/O버스(1026)에 접속시킨다. 사용자는 시리얼 인터페이스(1044)를 경유하여 컴퓨터(1000)에 명령과 정보를 입력하거나 키보드(1038), 마우스(1036) 또는 모뎀(1057)과 같은 입력기기를 사용하여 명령과 정보를 입력시킬 수 있다. 다른 주변기기(도시 않음)도 오디오 입력/출력 디바이스 또는 이미지 캡쳐 디바이스와 같이 컴퓨터(1000)에 접속시킬 수 있다.

다수의 프로그램 모듈을 드라이브와 시스템 메모리(1020)에 저장시킬 수 있다. 시스템 메모리(1020)는 RAM(Random Access Memory)과 ROM(Read Only Memory) 양쪽을 구비한다. 프로그램 모듈은 컴퓨터(1000)를 제어하여, 사용자와, I/O디바이스와 또는 다른 컴퓨터와 상호작용 한다. 프로그램 모듈은 루틴, 운영 시스템(1065), 적용 프로그램, 데이터 구조, 및 다른 소프트웨어 또는 필름웨어 성분을 구비한다. 설명을 위한 실시예에서, 본 발명은 컴퓨터(1000)의 시스템 메모리(1020)에 또는 드라이브에 저장된, 하나이상의 예비처리 프로그램 모듈(1075A), 하나이상의 후처리 프로그램 모듈(1075B), 및/또는 하나이상의 최적화 분류 프로그램 모듈(1077) 및 하나이상의 SVM프로그램 모듈(1070)을 포함하는 것이다. 특정적으로는, SVM프로그램 모듈(1070)과 함께하는 예비처리 프로그램 모듈(1075A)과 후처리 프로그램 모듈(1075B)은 도1과 도2를 참고로 설명된 일실시예의 방법에 따르는 학습 알고리즘을 이행하고 학습장치로부터의 예비처리 데이터와 후처리 출력을 하는 컴퓨터-실행 지시(computer-executable instructions)를 포함한다. 또한, 최적화 분류 프로그램 모듈(1077)은 도3을 참조로 서술된 최적화 분류방법에 따르는 데이터 세트를 최적으로 분류하는 컴퓨터-실행 지시를 포함한다.

컴퓨터(1000)는 원격 컴퓨터(remote computers)와 같은 하나이상의 원격 컴퓨터에 논리적 접속을 사용하는 네트웍 환경에서 운영할 수 있다. 원격 컴퓨터(1060)는 서버, 라우터, 피어(peer) 디바이스 또는 다른 공통 네트웍 노드 이며, 일반적으로 컴퓨터(1000)와 관련하여 설명된 많은 요소 또는 모든 요소를 구비한다. 네트웍 환경에서는, 프로그램 모듈과 데이터를 원격 컴퓨터(1060)에 저장할 수 있다. 도10에 도시된 논리 접속부는 LAN(local area network)(1054)과 WAN(wide area network)(1055)을 구비한다. LAN환경에서는, 이더넷(Ethernet) 어댑터 카드와 같은 네트웍 인터페이스(1045)가 컴퓨터(1000)를 원격 컴퓨터(1060)에 접속하는데 사용된다. WAN환경에서는, 모뎀(1057)과 같은 원격통신 기기가 접속을 확립시키는데 사용된다. 도시된 네트웍 접속은 설명을 하기 위한 것임을 이해할 수 있을 것이며, 컴퓨터 간에 통신 링크를 확립하는 다른 기기가 사용될 수도 있다.

도11은 본 발명을 이행하는 선택적 일실시예의 운영환경을 설명하는 블록도이다. 본 발명은 멀티플 컴퓨터 시스템의 특정한 구조에서 실행될 수 있다. 멀티플 컴퓨터 시스템의 특정한 구조의 일실시예를 본 발명에서는 BSVP(BIOWulf^TM Support Vector Processor)로서 언급한다. BSVP는 패턴 인식, 회귀 평가(regression estimation), 및 밀도 평가에 최근 수학적 제의와 병렬 컴퓨팅 하드웨어 기술에 최근 제의를 결합한 것이다. 상기 기술의 결합이 독특하고 신규한 도입인 것이기는 하지만, 하드웨어 구조는 NASA Goddard Space Flight Center에서 개척된 Beowulf 슈퍼컴퓨터 도입에 기초하는 것이다.

BSVP는 대형-스케일 데이터 세트에 SVM트레이닝과 평가를 신속히 처리하는데 필요한 대량 병렬 컴퓨터사용을 제공한다. BSVP는 실질적인 적용에서 지지 벡터를 효율적으로 확인하도록 멀티스레딩(multithreading)과 메시지 패싱 모두를 유효하게 활용할 수 있는 이중 병렬 하드웨어 도입과 일반적인 피병렬식 소프트웨어를 구비한다. 하드웨어와 소프트웨어 양쪽을 최적하게 하는 것은 BSVP가 일반적인 SVM 도입 성능을 매우 우수하게 할 수 있다. 더우기, 유용한 컴퓨팅 기술의 발전으로 BSVP의 업그레이드성이 오픈 소스 소프트웨어와 표준 인터페이싱 기술에 기초하여 보장된다. 미래의 컴퓨팅 플랫폼과 네트웍 기술은 이들이 소프트웨어 도입에 영향을 받지 않고 경제적인 비용으로 이루어져 BSVP에 적합하게 될 것이다.

도11에 도시된 바와 같이, BSVP는 20개의 처리 노드(1104a-t)와 하나의 호스트 노드(1112)를 가진 Beowulf 클래스 슈퍼컴퓨팅 클러스터를 포함한다. 처리 노드(1104a-j)는 스위치(1102a)에 의해 상호 접속되고 반면에 처리 노드(1104k-t)는 스위치(1102b)에 의해 상호 접속된다. 호스트 노드(1112)는 적절한 이더넷 케이블(1114)에 의해 하나의 네트웍 스위치(1102a 또는 1102b)(1102a로 도시됨)에 접속된다. 또한, 스위치(1102a)와 스위치(1102b)는 서로 적절한 이더넷 케이블(1114)에 의해 접속되어, 모두 20개 처리 노드(1104a-t)와 호스트 노드(1112)가 서로 간에 통신을 유효하게 한다. 스위치(1102a,1102b)는 양호하게 급속도 이더넷 상호접속부를 포함한다. BSVP의 이중 병렬 구성은 멀티플 장치 병렬구조를 지나가며 호스트 노드(1112)로서 고성능 이중 프로세서 SMP 컴퓨터를 활용하는 Beowulf 슈퍼컴퓨터의 메시지의 도입을 통하여 달성된다.

이러한 실시예의 구조에서는, 호스트 노드(1112)가 무접착 멀티-프로세서 SMP 기술을 함유하며, 18GB의 울트라 SCSI스토리지, 256MB메모리, 2개 100Mbit/sec NIC, 및 24GB DAT 네트웍 백업 테이프 디바이스를 가진 이중 450Mhz Pentium II Xeon 기본 장치로 구성된다. 호스트 노드(1112)는 리눅스(Linux)하에 NIS, MPL 및/또는 PMV를 실행하여 BSVP의 활동을 관리한다. 호스트 노드(1112)는 또한 BSVP와 외부와의 사이에 통로를 제공한다. 이러한 작용으로, BSVP의 내부 네트웍이, 전체 클러스터가 단일장치로서 기능하도록 허용하는 외부 상호작용으로부터 격리된다.

20개 처리 노드(1104a-t)는 150MHz 펜티움 프로세서, 32MB RAM, 850MB HDD, 1.44MB FDD 및, 급속도 이더넷 mb100Mb/s NIC를 내재한 컴퓨터를 인식할 수 있는 구조로 이루어진다. 처리 노드(1104a-t)는 서로 접속되고 TCP/IP에 걸친 NFS접속을 통하는 호스트 노드와 상호접속 한다. BSVP컴퓨터 사용에 더하여, 처리 노드는 KVM스위치(1108a,1108b)를 통하여 단일 마우스 디바이스와 단일 키보드 디바이스에 전송되는 각각의 노드의 키보드와 마우스로 모니터의 부착 뱅크를 통해 입증 능력을 제공하는 구조로 이루어진다.

BSVP에 최적 활동을 허용하는 소프트웨어 주문 및 개발을 한다. SVM처리구획에 동시 연합작용은 BSVP하드웨어에 의해 제공되는 하이브리드 병렬계산을 통해 가장 유리한 방식으로 활용된다. 소프트웨어 실시 전체 사이클은 원자료에서 실행된 해결방식으로 지원한다. 데이터베이스 엔진은 예비처리 미가공 데이터에 소요되는 저장성과 유연성을 제공한다. 코스텀 디벨로프 루틴(custom developed routines)은 SVM 트레이닝에 앞서 데이터의 예비처리를 자동화한다. 멀티플 변화와 데이터 조작은 데이터베이스 환경 내에서 실행되어 후보 트레이닝 데이터를 발생한다.

BSVP의 피크 이론적 처리능력은 3.90GFLOPS 이다. 그 Beowulf 클라스 장치에 NASA Goddard Space Flight Center에서 이행되는 벤치마크에 기초하여, 예상되는 실질 성능은 약1.56GFLOPS이어야 한다. 따라서, Beowulf 클라스 클러스터 장치에 파워를 산정하는 산출물 성분을 사용하여 획득되는 성능은 크레이(Cray) J932/8과 같은 슈퍼컴퓨터의 성능과 대등한 것이다. 연구 학술기구에서 테스트되는 Beowulf는 단일 프로세서의 18배 정도의 성능이 20노드 Beowulf 클러스터에서 일반 적으로 획득될 수 있는 것임을 나타낸다. 예를 들면, 단일 펜티움 프로세서 컴퓨터에 클록 시간의 17분 45초가 소요되는 최적화 문제는 20노드의 Beowulf에서는 59초 내에서 해결된다. 따라서, BSVP의 고성능 성질은 종래 컴퓨터 시스템에 의해 조작되는데 상당한 부담으로 현실적으로 간주되는 데이터 세트의 실질적인 분석을 할 수 있는 것이다.

BSVP의 대량 컴퓨팅 파워는 막대한 수의 입력을 해결하는 실생활 문제를 해결하는 것과 동일하게 멀티플 SVM을 실시하는데 특히 유용성이 있는 것이다. 특정한 BSVP와 일반적인 SVM의 유용한 사용예는: 특히 인간 지놈 프로젝트인 유전자 연구; 관리 감독효율의 평가; 치료판단 및 추적검사; 적절한 치료 우선순위도(triage); 약제 개발기술; 분자구조의 발견; 예후(prognostic) 평가; 의료 인포메틱스(informatics);거짓 빌링(billing fraud) 탐지; 목록 조사조정; 주가 평가 및 예측; 상품 평가 및 예측; 및 보험성 평가가 포함된다.

본 기술분야의 숙련자라면 상술된 BSVP구조가 본 발명의 성질을 설명하는 것으로서 본 발명의 범위를 제한하는 것이 아님을 이해할 수 있을 것이다. 예를 들면, 20개 처리 노드의 선택은 널리 공지된 Beowulf구조에 기초하는 것이다. 그런데, BSVP는 20개 처리 노드보다 많거나 적게 사용하여 선택적으로 이행될 수 있는 것이다. 더우기, 상기 인용된 특정 하드웨어와 소프트웨어 성분은 예를 든것에 불과한 것이다. 상술된 바와 같이, 본 발명의 BSVP실시예는 개조 및/또는 미래 하드웨어 및 소프트웨어 성분과 양립할 수 있는 구조로 이루어진 것이다.

도12는 본 발명의 부가적인 변경 실시예를 조작하기 위한 네트웍 운영환경을 설명하는 블록도이다. 일실시예의 네트웍 운영 환경에서는, 고객(1202) 또는 다른 실체가 매각인(1212)에게 인터넷(1204)과 같은 할당된 컴퓨터 네트웍을 경유하여 데이터를 전송한다. 본 기술분야의 숙련자라면 고객(1202)이 통신기기와 데이터 저장기기와 통신상태로 있거나 이를 구비하는 임의 타입의 컴퓨터 또는 랩 기구로부터의 데이터를 전송할 수 있음을 인식하여야 한다. 고객(1202)으로부터 전송된 데이터는 학습장치에 의해 처리되는 트레이닝 데이터, 테스트 데이터 및/또는 생데이터 이다. 고객에 의해 전송된 데이터는 내부 네트웍(1214a-b)을 경유하여 하나이상의 학습장치로 데이터를 전송하는 매각인의 웹 서버(1206)에 수신된다. 상술된 바와 같이, 학습장치는 SVM, BSVP(1000), 뉴트럴 네트웍, 다른 학습장치 및 그 조합체를 포함할 수 있다. 웹 서버(1206)는 방화벽(1208) 또는 다른 보안 시스템에 의해 학습장치로부터 격리된다. 매각인(1212)은 또한 인터넷(1204) 또는 전용 또는 온-디멘드 통신 링크를 경유하여 하나이상의 금융기관(1210)과도 통신할 수 있다. 웹 서버(1206) 또는 다른 통신 장치는 하나이상의 금융기관과의 통신을 취급할 수 있는 것이다. 금융기관에는 은행, 인터넷 은행, 어음교환소, 신용카드 회사 또는 그와 같은 류의 회사가 포함된다.

작동시, 매각인은 웹 서버(1206)에 호스트된 웹 사이트 또는 웹 서버(1206)와 통신하는 다른 서버를 경유하는 학습장치 처리 서비스를 제안한다. 고객(1202)은 웹 서버(1206)에 데이터를 전송하여 학습장치로 처리를 받게 된다. 고객(1202)은 또한 사용자명, 패스워드 및/또는 금융계좌 확인서와 같은 확인 정보를 웹 서버에 전송할 수 있다. 데이터 및 확인 정보 수신에 답하여, 웹 서버(1206)는 금융기관(1210)에서 고객(1202)이 보유하거나 인증된 금융계좌로부터 소요 금액을 전자적으로 인출한다. 또한, 웹 서버는 고객의 데이터를 BSVP(1100) 또는 다른 학습장치로 전송한다. BSVP(1100)가 데이터 처리 및 예비처리 출력을 완료하면, 후처리 출력은 웹 서버(1206)로 복귀된다. 상술한 바와 같이, 학습장치로부터의 출력은 사람 또는 자동응답기용으로 단일 수치 또는 복합 수치 컴퓨터사용 구동 문자숫자식 분류자를 발생하도록 예비처리를 받게 된다. 웹 서버(1206)는 예비처리 출력이 인터넷(1204)을 경유하여 고객(1202)에게 반송되기 전에 고객으로부터 지불금이 안전하게 있음을 보장할 수 있다.

SVM은 광범위하게 변화하는 실생활 문제를 해결하는데 사용된다. 예를 들면, SVM은 회계 및 목록 데이터, 주식 및 상품 시장데이터, 보험 데이터, 의학 데이터 등을 분석하는데 적용할 수 있는 것이다. 상술된 네트웍 환경은 많은 산업과 시장 부분에 걸쳐서 폭넓게 적용할 수 있는 것이다. 목록 데이터 분석과 관련하여서는 예를 들어, 고객이 소매상이 될 수 있다. 소매상은 예정된 시간에서 웹 서버(1206)로 목록과 결산 데이터를 공급한다. 목록과 결산 데이터는 소매상의 목록 자료를 평가하기 위해서 BSVP 및/또는 하나이상의 다른 학습장치로 처리된다. 마찬가지로, 의료 데이터 분석과 관련하여서는, 고객은 의료실험실이며 환자가 의료 시험실에 있는 동안 웹 서버(1206)로 환자로부터 수집된 생데이터를 전송한다. BSVP 또는 다른 학습장치로 의료 데이터를 처리하여 발생되는 출력은 의료 시험실로 재전송되어 환자에게 주어진다.

다른 실시예에서, 본 발명은 병렬로 또는 순차적으로 멀티플 데이터 세트를 계층적 처리(hierarchically process)하도록 구조되는 복수의 지지벡터장치에 관련한 것이다. 특히, 하나이상의 제1레벨 지지벡터장치가 제1타입의 데이터를 처리하도록 트레이닝 및 테스트되며, 하나이상의 제1레벨 지지벡터장치는 제2타입의 데이터를 처리하도록 트레이닝 및 테스트된다. 추가 타입의 데이터는 다른 제1레벨 지지벡터장치에 의해 양호하게 처리된다. 제1레벨 지지벡터장치의 일부 또는 전부에서 배출되는 출력은 하나이상의 제2레벨 지지벡터장치용 입력 데이터 세트를 생성하도록 논리적 방식으로 합성된다. 유사한 모양으로, 복수의 제2레벨 지지벡터장치로부터 나오는 출력은 하나이상의 제3레벨 지지벡터장치용 입력 데이터를 생성하도록 논리적 방식으로 합성된다. 지지벡터장치의 계층은 적절하게 임의 수의 레벨로 확장된다. 이러한 방식에서는 낮은 계층 레벨 지지벡터장치가 높은 계층레벨 지지벡터장치에 입력되는 예비처리 데이터에 사용될 수 있다. 또한, 높은 계층레벨 지지벡터장치도 낮은 계층레벨 지지벡터장치로부터 출력되는 후처리 데이터에 사용될 수 있다.

지지벡터장치의 각 계층레벨 또는 계층적으로 있는 각각의 지지벡터장치는 독특한 커널로 구성된다. 예를 들면, 제1타입 데이터를 처리하는데 사용되는 지지벡터장치는 제1타입의 커널로 구조되며, 이러한 사실에 반하여 제2타입의 데이터를 처리하는데 사용되는 지지벡터장치는 제2타입의 커널로 구조된다. 또한, 동일한 또는 다른 계층레벨에 멀티플 지지벡터장치는 독특한 커널을 사용하는 동일한 타입의 데이터를 처리하는 구조로 된다.

도13은 지지벡터장치의 계층시스템을 설명하는 예를 나타낸 도면이다. 도시된 바와 같이, 하나이상의 제1레벨 지지벡터장치(1302A1,1302A2)는 의료환자의 샘플을 함유하는 마모그래피 데이터(mamography data)와 같은 제1타입의 입력 데이터(1304A)를 처리하도록 트레이닝되고 테스트된다. 하나이상의 상기 지지벡터장치는 독특한 커널[커널(1)과 커널(2)로 도시]을 포함한다. 또한, 하나이상의 추가적 제1레벨 지지벡터장치(1302B1,1302B2)가 의료환자의 동일한 또는 다른 샘플용으로 지놈 데이터와 같은 제2타입의 데이터(1304B)를 처리하도록 트레이닝 및 테스트된다. 또한, 하나이상의 추가적 지지벡터장치는 독특한 커널[커널1과 커널3으로 도시]을 포함한다. 유사한 제1레벨 지지벡터장치의 각각으로부터 나오는 출력이 최적의 출력(1308A,1308B)을 결정하도록 서로 대비[예를 들면, 출력(A2 1306B)과 대비되는 출력(A1 1306A); 출력(B2 1306D)과 대비되는 출력(B1 1306C)]된다. 다음, 2개 타입의 제1레벨 지지벡터장치(1308A,1308B)로부터 나오는 최적 출력이 예를 들면, 마모그래피와 지놈 데이터와 관련하여 신규한 다차원 입력 데이터 세트(1310)를 형성하도록 합성된다. 신규 데이터 세트는 하나이상의 적절하게 트레이닝되어 테스트되는 제2레벨 지지벡터장치(1312A,1312B)에 의해 처리된다. 제2레벨 지지벡터장치(1312A,1312B)로 부터 생성된 출력(1314A,1314B)은 최적 출력(1316)을 결정하도록 대비된다. 최적 출력(1316)은 마모그래피와 지놈 데이터 포인트 사이에 인과관계를 확인한다. 본 기술분야의 숙련자가 이해하고 있는 바와 같이, 지지벡터장치의 예상 계층이 학습장치에 의한 데이터의 분석이 요망되는 분야 또는 산업에 적용된다.

멀티플 지지벡터장치를 사용하는 멀티플 데이터 세트의 계층처리공정은 다른 지지벡터장치 또는 학습장치로부터의 출력 또는 그곳으로 입력되는 예비처리 또는 후처리 데이터를 위한 방법으로 사용된다. 또한, 데이터의 예비처리 또는 후처리가 지지벡터장치의 상술된 계층구조의 출력 및/또는 입력 데이터로 이행된다.

본 발명은 양호한 실시예를 참조로 서술되었기에 이에 한정되지 않으며, 본 기술분야의 숙련자라면 첨부된 청구범위로부터의 일탈없이 본 발명에 다양한 변형과 수정이 가해질 수 있음을 인식해야 한다.

Claims

멀티플 지지벡터장치를 사용하여 다량의 데이터 세트를 처리하기 위한 컴퓨터 실행 방법에 있어서,

데이터 형태가 상이한 다수의 트레이닝 데이터 포인트가 내장되어 있는 다수의 트레이닝 데이터를 포함하는 트레이닝 입력값(103, 203)을 수신하는 단계와,

제1 및 제2트레이닝 데이터 세트내의 각각의 트레이닝 데이터 포인트에 차원을 부가하기 위해, 제1데이터 형태를 포함하는 제1트레이닝 데이터 세트와 제2데이터 형태를 포함하는 제2트레이닝 데이터 세트를 예비처리하는 단계(104, 204)와,

예비처리된 제1트레이닝 데이터 세트(1304A)를 사용하여, 독특한 제1커널을 포함하는 하나이상의 제1레벨 지지벡터장치를 트레이닝하는 단계(105, 210)와,

예비처리된 제2트레이닝 데이터 세트(1304B)를 사용하여, 독특한 제2커널을 포함하는 하나이상의 제2레벨 지지벡터장치를 트레이닝하는 단계(105, 210)와,

데이터 형태가 상이한 다수의 테스트 데이터 포인트를 구비한 다수의 테스트 데이터 세트를 포함하는 테스트 입력값(108, 212)을 수신하는 단계와,

제1 및 제2테스트 데이터 세트내의 각각의 테스트 데이터 포인트에 차원을 부가하기 위해, 제1데이터 형태를 포함하는 제1테스트 데이터 세트와 제2데이터 형태를 포함하는 제2테스트 데이터 세트를 예비처리하는 단계(110, 214)와,

하나이상의 제1 및 제2테스트 출력(1306A, 1306B, 1306C, 1306D)을 발생하기 위해 예비처리된 제1 및 제2테스트 데이터 세트를 사용하여, 트레이닝된 제1레벨 지지벡터장치를 테스트하는 단계(112; 218, 220)와,

하나이상의 제1테스트 출력으로부터 제1최적 솔루션(1308A)을 확인하는 단계(222)와,

하나이상의 제2테스트 출력으로부터 제2최적 솔루션(1308B)을 확인하는 단계(222)와,

하나이상의 제2레벨 지지벡터장치(1312A, 1312B)내로 입력되는 제2레벨 입력 데이터 세트(1310)를 생성하기 위해, 상기 제1최적 솔루션과 제2최적 솔루션을 조합하는 단계와,

하나이상의 제2레벨 지지벡터장치를 위한 제2레벨 출력(1314A, 1314B)을 발생하는 단계와,

제2레벨 최적 솔루션(1316)을 확인하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 실행 방법.
제1항에 있어서, 각각의 예비처리 단계는 적어도 하나의 데이터 포인트가 오염되었는지의 여부를 결정하는 단계와; 상기 데이터 포인트가 오염되었다는 결정에 응답하여, 오염된 데이터 포인트를 삭제하거나 수리하거나 대체하는 단계를 부가로 포함하는 것을 특징으로 하는 컴퓨터 실행 방법.
제1항 또는 제2항에 있어서, 데이터 형태가 상이한 생데이터 포인트가 구비되어 있는 하나이상의 생데이터 세트를 포함하는 생입력을 수신하는 단계와; 각각의 생데이터 포인트에 차원을 부가하기 위해, 다수의 생데이터 세트를 예비처리하는 단계와; 예비처리된 다수의 생데이터 세트를 제1레벨 지지벡터장치 및 제2레벨 지지벡터장치를 사용하여 처리하는 단계를 부가로 포함하며; 상기 제1레벨 지지벡터장치는 제1 및 제2최적 솔루션을 생산하고, 상기 제2레벨 지지벡터장치는 제2레벨 최적 솔루션을 생산하는 것을 특징으로 하는 컴퓨터 실행 방법.
제3항에 있어서, 각각의 트레이닝 데이터 포인트는 적어도 하나의 본래 좌표를 갖는 벡터를 포함하며, 상기 트레이닝 데이터 세트의 예비처리단계는 상기 벡터에 적어도 하나의 새로운 좌표를 부가하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 실행 방법.
제4항에 있어서, 적어도 하나의 본래 좌표에 변환을 적용하므로써 적어도 하나의 새로운 좌표가 유도되는 것을 특징으로 하는 컴퓨터 실행 방법.
제5항에 있어서, 상기 변환은 전문가 지식에 기초하는 것을 특징으로 하는 컴퓨터 실행 방법.
제5항에 있어서, 상기 변환은 컴퓨터의 연산에 의해 유도되는 것을 특징으로 하는 컴퓨터 실행 방법.
제5항 내지 제7항중 어느 한 항에 있어서, 상기 트레이닝 데이터 세트는 연속한 변수를 포함하며, 상기 변환은 트레이닝 데이터 세트의 연속한 변수를 최적으로 분류하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 실행 방법.
제5항 내지 제7항중 어느 한 항에 있어서, 제1최적 솔루션을 확인하는 단계는 하나이상의 제1테스트 출력을 공통의 포맷으로 해석하므로써 제1테스트 출력을 후처리하는 단계와; 하나이상의 제1테스트 출력중 그 어느 것이 가장 낮은 제1글로벌에러를 나타내는지의 여부를 결정하기 위해, 후처리된 각각의 제1테스트 출력을 서로 비교하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 실행 방법.
제5항 내지 제7항중 어느 한 항에 있어서, 제2최적 솔루션을 확인하는 단계는 각각의 제2테스트 출력을 공통의 포맷으로 해석하므로써 하나이상의 제2테스트 출력을 후처리하는 단계와; 하나이상의 제2테스트 출력중 그 어느 것이 가장 낮은 제2글로벌에러를 나타내는지의 여부를 결정하기 위해, 후처리된 각각의 제2테스트 출력을 서로 비교하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 실행 방법.
제5항 내지 제7항중 어느 한 항에 있어서, 연속한 변수에서 컷오프 포인트를 유도하기 위해 트레이닝 출력을 최적으로 분류하므로써 각각의 트레이닝 출력을 후처리하는 단계를 부가로 포함하며; 각각의 제1레벨 지지벡터장치는 연속한 변수를 포함하는 트레이닝 출력을 생산하는 것을 특징으로 하는 컴퓨터 실행 방법.
제5항 내지 제7항중 어느 한 항에 있어서, 제1최적 솔루션이 확인되지 않을 경우, 하나이상의 제1의 제1레벨 지지벡터장치를 위한 상이한 커널(kernel)을 선택하는 단계와; 하나이상의 제1의 제1레벨 지지벡터장치를 반복적으로 트레이닝 및 테스팅하는 단계와; 하나이상의 제1테스트 출력으로부터 제1최적 솔루션을 확인하는 단계를 부가로 포함하는 것을 특징으로 하는 컴퓨터 실행 방법.
제5항 내지 제7항중 어느 한 항에 있어서, 제2최적 솔루션이 확인되지 않을 경우, 하나이상의 제2의 제1레벨 지지벡터장치를 위한 상이한 커널(kernel)을 선택하는 단계와; 하나이상의 제2의 제1레벨 지지벡터장치를 반복적으로 트레이닝 및 테스팅하는 단계와; 하나이상의 제2테스트 출력으로부터 제2최적 솔루션을 확인하는 단계를 부가로 포함하는 것을 특징으로 하는 컴퓨터 실행 방법.
제12항에 있어서, 상이한 커널을 선택하는 단계는 이전의 성능 또는 과거의 데이터를 기준으로 실행되며, 데이터의 본질에 의존하는 것을 특징으로 하는 컴퓨터 실행 방법.
프로세서(1022)와, 처리될 입력 데이터를 수신하는 입력 장치(1022)와, 상기 프로세서와 연결되며 다수의 프로그램 모듈(1075A)이 내장된 메모리 장치(1020)와, 출력 장치를 포함하며; 상기 다수의 프로그램 모듈은 입력 데이터 및 지지벡터모듈에 차원을 부가하기 위해 예비처리 모듈을 포함하는, 다수의 데이터 형태를 포함하는 다량의 데이터 세트를 처리하기 위한 컴퓨터 시스템에 있어서,

지지벡터모듈(1075B)은 다수의 제1레벨 지지벡터장치(1302A, 1302B, 1302C, 1302D)와, 하나이상의 제2레벨 지지벡터장치(1312A, 1312B)를 포함하며; 상기 다수의 제1레벨 지지벡터장치는 하나이상의 독특한 커널을 각각 포함하는, 적어도 제1의 하나이상의 제1레벨 지지벡터장치(1302A, 1302B)와 제2의 하나이상의 제1레벨 지지벡터장치(1302C, 1302D)를 포함하며; 상기 제1의 하나이상의 제1레벨 지지벡터장치는 제1최적 솔루션(1308A)을 확인하기 위한 하나이상의 제1출력(1306A, 1306B)을 생성하기 위하여, 제1데이터 형태의 예비처리된 데이터(1304A)를 사용하여 트레이닝되고 테스트되며; 상기 제2의 하나이상의 제1레벨 지지벡터장치는 제2최적 솔루션(1308B)을 확인하기 위한 하나이상의 제2출력(1306C, 1306D)을 생성하기 위하여, 제2데이터 형태의 예비처리된 데이터(1304B)를 사용하여 트레이닝되고 테스트되며; 상기 제1최적 솔루션 및 제2최적 솔루션은 하나이상의 제2레벨 지지벡터장치(1312A, 1312B)에 제2레벨 입력(1310)으로 조합되며; 상기 출력장치는 하나이상의 제2레벨 지지벡터장치에 의해 발생된 최적의 제2레벨 솔루션(1316)을 포함하는 제2레벨 출력(1314A, 1314B)을 발생시키는 것을 특징으로 하는 컴퓨터 시스템.
제15항에 있어서, 상기 다수의 프로그램 모듈은 제1의 하나이상의 제1레벨 지지벡터장치로부터의 하나이상의 제1테스트 출력을 공통의 포맷으로 해석하여 가장 낮은 제1글로벌 최소에러를 확인하기 위해, 후처리 모듈(1075B)을 부가로 포함하는 것을 특징으로 하는 컴퓨터 시스템.
제15항에 있어서, 상기 다수의 프로그램 모듈은 제1의 하나이상의 제1레벨 지지벡터장치로부터의 하나이상의 제2테스트 출력을 공통의 포맷으로 해석하여 가장 낮은 제2글로벌 최소에러를 확인하기 위해, 후처리 모듈(1075B)을 부가로 포함하는 것을 특징으로 하는 컴퓨터 시스템.
제15항에 있어서, 하나이상의 제1출력은 연속한 변수를 포함하며, 상기 다수의 프로그램 모듈은 연속한 변수에서 컷오프 포인트를 유도하기 위한 최적화 분류 모듈(1077)을 포함하는 것을 특징으로 하는 컴퓨터 시스템.
제15항에 있어서, 하나이상의 제2출력은 연속한 변수를 포함하며, 상기 다수의 프로그램 모듈은 연속한 변수에서 컷오프 포인트를 유도하기 위한 최적화 분류 모듈(1077)을 포함하는 것을 특징으로 하는 컴퓨터 시스템.
제13항에 있어서, 상이한 커널을 선택하는 단계는 이전의 성능 또는 과거의 데이터를 기준으로 실행되며, 데이터의 본질에 의존하는 것을 특징으로 하는 컴퓨터 실행 방법.