KR20180028610A

KR20180028610A - 관련도 벡터 머신을 이용한 기계학습방법, 이를 구현하는 컴퓨터 프로그램 및 이를 수행하도록 구성되는 정보처리장치

Info

Publication number: KR20180028610A
Application number: KR1020160116110A
Authority: KR
Inventors: 이재욱; 박새롬; 장희수; 손영두
Original assignee: 서울대학교산학협력단
Priority date: 2016-09-09
Filing date: 2016-09-09
Publication date: 2018-03-19
Also published as: KR101895121B1

Abstract

본 발명은 관련도 벡터 머신을 이용한 기계학습방법, 이를 구현하는 컴퓨터 프로그램 및 이를 수행하도록 구성되는 정보처리장치에 관한 것이다. 구체적으로, 기계학습방법은, (1) 데이터 포인트들을 포함한 원시 데이터 집합 중 일부의 데이터 포인트들만 라벨링된 경우, 라벨링된 데이터 포인트들의 제1 데이터 집합 및 라벨링되지 않은 데이터 포인트들의 제2 데이터 집합을 초기값으로 설정하여, 베이지안 회귀 모델에 기초한 변환적 일반화 관련도 벡터 머신을 구성하는 단계와, (2) 상기 관련도 벡터 머신으로부터 획득된 분포에 기초하여 상기 제2 데이터 집합으로부터 선택된 관련도 벡터들의 제3 데이터 집합을 획득하는 단계와, (3) 상기 제3 데이터 집합에 포함된 관련도 벡터들에 기초하여, 상기 제1 및 제2 데이터 집합들의 갱신을 위한 제4 데이터 집합을 구성하고 상기 제1 데이터 집합 및 제2 데이터 집합을 갱신하는 단계와, (4) 상기 갱신된 제1 데이터 집합 및 제2 데이터 집합을 초기값으로 설정하여, 상기 단계 (1)의 변환적 일반화 관련도 벡터 머신을 재구성하는 단계와, (5) 상기 단계 (2) 내지 단계 (4)를 반복하여 최종 구성되는 관련도 벡터 머신으로부터 관련도 벡터 및 가중치를 획득하는 단계를 포함한다.

Description

관련도 벡터 머신을 이용한 기계학습방법, 이를 구현하는 컴퓨터 프로그램 및 이를 수행하도록 구성되는 정보처리장치{MACHINE LEARNING METHOD USING RELEVANCE VECTOR MACHINE, COMPUTER PROGRAM IMPLEMENTING THE SAME AND INFORMAION PROCESSINTG DEVICE CONFIGURED TO PERFORM THE SAME}

본 발명은 기계학습방법, 이를 구현하는 컴퓨터 프로그램 및 이를 수행하도록 구성되는 정보처리장치에 관한 것으로서, 보다 구체적으로는 소수의 라벨링 데이터를 이용한 기계학습방법, 이를 구현하는 컴퓨터 프로그램 및 이를 수행하도록 구성되는 정보처리장치에 관한 것이다.

기계학습(machine learning)은 컴퓨터 과학의 한 분야인 인공지능 분야에서 패턴인식 및 계산학습 이론에 대한 연구로부터 진화된 학문으로서, 주어진 데이터로부터 학습을 하여 예측 결과를 만들어내는 알고리즘에 관련된 연구 분야이다. 컴퓨터 하드웨어의 기술발달 및 다양한 알고리즘의 연구들로 인해, 기계학습은 스팸 필터, 광학 문자인식(optical character recognition, OCR) 등과 같은 응용에서부터 검색 엔진, 컴퓨터 비전(vision), 데이터 마이닝(mining) 등에 이르는 광범위한 분야에 응용되고 있다.

기계학습에 의해 해결하기 위한 여러 문제들에는 불규칙하게 분포하는 데이터로부터 규칙성을 찾아내는 회귀(regression) 문제나, 이러한 데이터들을 일정한 카테고리로 분류하는 분류(classification) 문제가 포함된다.

지지도 벡터 머신(support vector machine, SVM)은 분류 및 회귀 문제를 위해 사용되는 지도학습(supervised learning) 방법에 관련된 프레임워크이다. SVM을 사용하면, 어느 하나의 카테고리로 마크(mark)된 학습 데이터들이 주어진 경우, 입력되는 새로운 데이터가 SVM 학습 알고리즘에 의해 어느 카테고리로 마크될 것인지 예측하는 모델이 구성된다.

이러한 분류 또는 회귀 문제에서, 주어진 학습 데이터에 의해 예측을 만들기 위한 적절한 모델을 구성하기 위해서는, 모든 학습 데이터가 라벨링(labelled)될 필요가 있다.

그러나 전체 학습 데이터를 라벨링하여 기계학습시키는 경우, 계산 복잡도가 증가하며 성능이 감소되는 문제가 있다.

또한, SVM을 이용하는 경우, SVM을 구성하는 데에 필요한 지지도 벡터(support vector)들의 개수가 대개 학습 셋트의 크기에 따라 선형적으로 증가하므로 불필요하게 많은 기저 함수들이 사용되고, 이로 인해 계산 복잡도가 증가하게 된다.

나아가, 회귀 문제에서 데이터 포인트 추정치를 출력하고, 분류 문제에서 강한(hard) 이산적 결정을 출력하는 SVM의 예측은 확률적이지 않기 때문에, 클래스 사전 분포 및 비대칭 오분류 비용에 적응되어야 하는 분류 문제에 적용되기 어려운 한계가 있다.

또한, SVM에서는 에러(error) 및 마진(margin) 간의 트레이드 오프(trade-off) 파라미터를 추정해야 하므로, 이를 추정하기 위한 교차검증 과정에 의해 데이터 및 계산 성능이 모두 낭비된다.

본 발명은 기존에 제안된 방법들의 상기와 같은 문제점들을 해결하기 위해 제안된 것으로서, 전체 학습 데이터 중 소수의 데이터만 라벨링되더라도 효율적으로 기계학습을 수행할 수 있는, 관련도 벡터 머신을 이용한 기계학습방법, 이를 구현하는 컴퓨터 프로그램 및 이를 수행하도록 구성되는 정보처리장치를 제공하는 것을 목적으로 한다.

상기한 목적들을 달성하기 위해 본 발명의 일 측면에 따른 컴퓨터 프로그램은, 정보처리장치의 프로세서에 의해 실행되는 경우, 상기 프로세서로 하여금, (1) N개(N은 2 이상의 자연수)의 데이터 포인트들을 포함한 원시 데이터 집합에서 L개(L은 1 이상 N 미만의 자연수)의 데이터 포인트들을 라벨링하고, 라벨링된 데이터 포인트들의 제1 데이터 집합 및 라벨링되지 않은 데이터 포인트들의 제2 데이터 집합을 초기값으로 설정하여, 베이지안 회귀 모델에 기초한 변환적(transductive) 일반화 관련도 벡터 머신을 구성하는 단계, (2) 상기 관련도 벡터 머신으로부터 획득된 분포에 기초하여 상기 제2 데이터 집합으로부터 선택된 관련도 벡터들의 제3 데이터 집합을 획득하는 단계, (3) 관련도 벡터를 쿼리하는 정책에 따라 상기 제3 데이터 집합에 포함된 관련도 벡터들에 기초하여 제4 데이터 집합을 구성하고, 상기 구성된 제4 데이터 집합에 따라 상기 제1 데이터 집합 및 제2 데이터 집합을 갱신하는 단계, (4) 상기 갱신된 제1 데이터 집합 및 제2 데이터 집합을 초기값으로 설정하여, 상기 단계 (1)의 변환적 일반화 관련도 벡터 머신을 재구성하는 단계, (5) 미리 설정된 정지조건이 만족될 때까지, 상기 단계 (2) 내지 단계 (4)를 반복하는 단계, 및 (6) 상기 정지조건이 만족되는 경우, 최종 구성되는 관련도 벡터 머신으로부터 관련도 벡터 및 가중치를 획득하는 단계를 포함하는 프로세스를 수행하도록 구성된다.

일 실시예에서, 상기 단계 (1)에서 변환적 일반화 관련도 벡터 머신을 구성하는 단계는, (a) 상기 초기값 중 라벨링된 데이터 포인트들 및 모든 데이터 포인트들에 대한 커널값을 원소로 갖는 행렬을 포함하는 일반화된 베이지안 회귀 모델을 구성하는 단계, (b) 상기 구성된 일반화된 베이지안 회귀 모델로부터 ARD(automatic relevance determination) 사전 확률분포를 사용하여 희소 해를 얻는 단계, (c) 상기 초기값 중 라벨링되지 않은 데이터 포인트들의 추정 출력 및 상기 얻어진 희소 해에 대한 근사 결합 분포를 얻는 단계, (d) 상기 얻어진 근사 결합 분포로부터 상기 희소 해에 대한 근사 주변우도함수를 얻는 단계, 및 (e) 상기 근사 주변우도함수에 기초하여, 상기 초기값에 포함된 데이터 포인트들과 상이한 데이터 포인트에 대한 사후 예측분포를 얻는 단계를 포함할 수 있다.

일 실시예에서, 상기 단계(3)에서 상기 관련도 벡터를 쿼리하는 정책은, 라벨링되지 않은 관련도 벡터에 대한 쿼리, 가장 불특정한 관련도 벡터에 대한 쿼리 및 가장 먼 관련도 벡터에 대한 쿼리 중 적어도 하나를 포함할 수 있다.

일 실시예에서, 상기 단계 (3)에서 상기 제4 데이터 집합은, 상기 관련도 벡터에 대한 쿼리가 라벨링되지 않은 관련도 벡터에 대한 쿼리인 경우, 상기 제3 데이터 집합과 동일하게 정의되고, 상기 관련도 벡터에 대한 쿼리가 가장 불특정한 관련도 벡터에 대한 쿼리인 경우, 상기 제3 데이터 집합에 포함된 관련도 벡터들 중 분산값을 최대로 만드는 관련도 벡터들의 집합으로 정의되며, 상기 관련도 벡터에 대한 쿼리가 가장 먼 관련도 벡터에 대한 쿼리인 경우, 상기 제3 데이터 집합에 포함된 관련도 벡터들 중 상기 제1 데이터 집합의 데이터 포인트들과의 거리가 최소가 되는 관련도 벡터들의 집합으로 정의될 수 있다.

일 실시예에서, 상기 관련도 벡터에 대한 쿼리가 상기 가장 불특정한 관련도 벡터에 대한 쿼리인 경우, 상기 관련도 벡터에 대한 쿼리가 상기 라벨링되지 않은 관련도 벡터에 대한 쿼리이거나 상기 가장 먼 관련도 벡터에 대한 쿼리인 경우에 비해, 상기 단계 (5)에서의 반복 횟수가 더 적을 수 있다.

일 실시예에서, 상기 단계 (1)에서 라벨링되는 데이터 포인트들의 개수는, 상기 관련도 벡터에 대한 쿼리가 상기 라벨링되지 않은 관련도 벡터에 대한 쿼리이거나 상기 가장 먼 관련도 벡터에 대한 쿼리인 경우에 비해, 상기 가장 불특정한 관련도 벡터에 대한 쿼리인 경우에서, 더 적을 수 있다.

일 실시예에서, 상기 단계 (3)에서, 상기 제1 데이터 집합은, 상기 제1 데이터 집합 및 제4 데이터 집합의 합집합으로 갱신되고, 상기 제2 데이터 집합은, 상기 제2 데이터 집합으로부터 상기 제4 데이터 집합의 원소들을 제외한 차집합으로 갱신될 수 있다.

상기한 목적들을 달성하기 위해 본 발명의 일 측면에 따른 기계학습방법은, 관련도 벡터 머신을 이용한 기계학습방법으로서, (1) 데이터 포인트들을 포함한 원시 데이터 집합 중 일부의 데이터 포인트들만 라벨링된 경우, 라벨링된 데이터 포인트들의 제1 데이터 집합 및 라벨링되지 않은 데이터 포인트들의 제2 데이터 집합을 초기값으로 설정하여, 베이지안 회귀 모델에 기초한 변환적(transductive) 일반화 관련도 벡터 머신을 구성하는 단계, (2) 상기 관련도 벡터 머신으로부터 획득된 분포에 기초하여 상기 제2 데이터 집합으로부터 선택된 관련도 벡터들의 제3 데이터 집합을 획득하는 단계, (3) 상기 제3 데이터 집합에 포함된 관련도 벡터들에 기초하여, 상기 제1 및 제2 데이터 집합들의 갱신을 위한 제4 데이터 집합을 구성하고 상기 제1 데이터 집합 및 제2 데이터 집합을 갱신하는 단계, (4) 상기 갱신된 제1 데이터 집합 및 제2 데이터 집합을 초기값으로 설정하여, 상기 단계 (1)의 변환적 일반화 관련도 벡터 머신을 재구성하는 단계, 및 (5) 상기 단계 (2) 내지 단계 (4)를 반복하여 최종 구성되는 관련도 벡터 머신으로부터 관련도 벡터 및 가중치를 획득하는 단계를 포함한다.

일 실시예에서, 상기 단계 (3)에서, 상기 제4 데이터 집합은, 상기 제3 데이터 집합에 포함된 관련도 벡터에 대한 쿼리가 라벨링되지 않은 관련도 벡터에 대한 쿼리인 경우, 상기 제3 데이터 집합과 동일하게 정의되고, 상기 제3 데이터 집합에 포함된 관련도 벡터에 대한 쿼리가 가장 불특정한 관련도 벡터에 대한 쿼리인 경우, 상기 제3 데이터 집합에 포함된 관련도 벡터들 중 분산값을 최대로 만드는 관련도 벡터들의 집합으로 정의되며, 상기 제3 데이터 집합에 포함된 관련도 벡터에 대한 쿼리가 가장 먼 관련도 벡터에 대한 쿼리인 경우, 상기 제3 데이터 집합에 포함된 관련도 벡터들 중 상기 제1 데이터 집합의 데이터 포인트들과의 거리가 최소가 되는 관련도 벡터들의 집합으로 정의될 수 있다.

일 실시예에서, 상기 제3 데이터 집합에 포함된 관련도 벡터에 대한 쿼리가 상기 가장 불특정한 관련도 벡터에 대한 쿼리인 경우, 상기 제3 데이터 집합에 포함된 관련도 벡터에 대한 쿼리가 상기 라벨링되지 않은 관련도 벡터에 대한 쿼리이거나 상기 가장 먼 관련도 벡터에 대한 쿼리인 경우에 비해, 상기 단계 (5)에서의 반복 횟수가 더 적을 수 있다.

일 실시예에서, 상기 단계 (3)에서, 상기 제1 데이터 집합 및 제2 데이터 집합은, 상기 제4 데이터 집합과의 합집합 및 차집합 중 적어도 하나의 연산을 통해 갱신될 수 있다.

일 실시예에서, 상기 변환적(transductive) 일반화 관련도 벡터 머신은, (a) 상기 제1 데이터 집합의 데이터 포인트들과 상기 제1 및 제2 데이터 집합들의 합집합에서의 데이터 포인트들에 대한 커널값을 원소로 갖는 행렬을 포함하는 일반화된 베이지안 회귀 모델을 구성하는 단계, (b) 상기 구성된 일반화된 베이지안 회귀 모델로부터 ARD(automatic relevance determination) 사전 확률분포를 사용하여 희소 해를 얻는 단계, (c) 상기 제2 데이터 집합의 데이터 포인트들의 추정 출력 및 상기 얻어진 희소 해에 대한 근사 결합 분포를 얻는 단계, (d) 상기 얻어진 근사 결합 분포로부터 상기 희소 해에 대한 근사 주변우도함수를 얻는 단계, 및 (e) 상기 근사 주변우도함수에 기초하여, 상기 초기값에 포함된 데이터 포인트들과 상이한 데이터 포인트에 대한 사후 예측분포를 얻는 단계를 포함하여 처리될 수 있다.

상기한 목적들을 달성하기 위해 본 발명의 일 측면에 따른 정보처리장치는, 관련도 벡터 머신을 이용한 기계학습방법을 수행하도록 구성되는 프로세서를 포함하고, 상기 프로세서는, (1) 데이터 포인트들을 포함한 원시 데이터 집합 중 일부의 데이터 포인트들만 라벨링된 경우, 라벨링된 데이터 포인트들의 제1 데이터 집합 및 라벨링되지 않은 데이터 포인트들의 제2 데이터 집합을 초기값으로 설정하여, 베이지안 회귀 모델에 기초한 변환적(transductive) 일반화 관련도 벡터 머신을 구성하는 단계, (2) 상기 관련도 벡터 머신으로부터 획득된 분포에 기초하여 상기 제2 데이터 집합으로부터 선택된 관련도 벡터들의 제3 데이터 집합을 획득하는 단계, (3) 상기 제3 데이터 집합에 포함된 관련도 벡터들에 기초하여, 상기 제1 및 제2 데이터 집합들의 갱신을 위한 제4 데이터 집합을 구성하고 상기 제1 데이터 집합 및 제2 데이터 집합을 갱신하는 단계, (4) 상기 갱신된 제1 데이터 집합 및 제2 데이터 집합을 초기값으로 설정하여, 상기 단계 (1)의 변환적 일반화 관련도 벡터 머신을 재구성하는 단계, 및 (5) 상기 단계 (2) 내지 단계 (4)를 반복하여 최종 구성되는 관련도 벡터 머신으로부터 관련도 벡터 및 가중치를 획득하는 단계를 수행하도록 구성된다.

본 발명에서 제안하고 있는 관련도 벡터 머신을 이용한 기계학습방법, 이를 구현하는 컴퓨터 프로그램 및 이를 수행하도록 구성되는 정보처리장치에 따르면, 라벨링된 데이터와 라벨링되지 않은 데이터를 함께 이용하여 변환적 일반화 관련도 벡터 머신을 구성하되, 관련도 벡터의 쿼리 정책에 따라 라벨링된 데이터 및 라벨링되지 않은 데이터를 반복적으로 갱신하면서 상기 변환적 일반화 관련도 벡터 머신을 새로 구성하여 최종적으로 관련성 벡터 및 가중치를 획득함으로써, 전체 학습 데이터 중 소수의 데이터만 라벨링되더라도 효율적으로 기계학습을 수행할 수 있다.

도 1은 본 발명의 일실시예에 따른 관련도 벡터 머신을 이용한 기계학습방법의 흐름을 도시한 순서도이다.
도 2는 본 발명의 일실시예에 따른 관련도 벡터 머신을 이용한 기계학습방법에서, 변환적 일반화 관련도 벡터 머신을 구성하는 방법의 흐름을 도시한 순서도이다.
도 3은 본 발명의 일실시예에 따른 관련도 벡터 머신을 이용한 기계학습방법에 따라 소수의 라벨링 데이터를 사용하여 얻어진 예측 평균을 도시한 분포도들이다.

이하에서는 첨부된 도면을 참조하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 실시예들을 상세히 설명한다. 다만, 본 발명의 실시예들을 상세하게 설명함에 있어, 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다. 또한, 유사한 기능 및 작용을 하는 부분에 대해서는 상세한 설명 및 도면 전체에 걸쳐 동일 또는 유사한 부호를 사용한다. 덧붙여, 명세서 전체에서, 어떤 구성요소를 ‘포함’한다는 것은, 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다.

이하, 본 발명의 실시예들에 따른 관련도 벡터 머신을 이용한 기계학습방법, 이를 구현하는 컴퓨터 프로그램 및 이를 수행하도록 구성되는 정보처리장치를 설명한다. 상기 정보처리장치는 서버 컴퓨터, 데스크톱 컴퓨터(personal computer, PC), 태블릿 PC, 노트북 PC, 스마트폰, 휴대폰, 네비게이션 단말기, PDA(personal digital assistant) 등과 같은 임의의 전자장치의 하나 또는 그 이상의 조합일 수 있다. 상기 정보처리장치는 다양한 형태로 데이터를 처리할 수 있으며, 프로세서, 메인 메모리 및 보조저장장치를 포함할 수 있다.

상기 프로세서는 중앙처리장치(central processing unit, CPU), 그래픽 처리 장치(graphic processing unit, GPU) 등과 같은 고속의 프로세싱 장치를 포함할 수 있다. 상기 메인 메모리는 랜덤 액세스 메모리(RAM) 등과 같은 휘발성 메모리를 포함할 수 있다. 상기 보조저장장치는, 예컨대, 하드디스크 드라이브(hard disk drive, HDD), 솔리드 스테이트 드라이브(solid state drive, SSD)등과 같은 비휘발성 저장매체를 포함할 수 있다.

상기 정보처리장치의 프로세서는, 상기 메인 메모리 및/또는 보조저장장치에 기록되거나 적재된 컴퓨터 프로그램을 실행하도록 구성될 수 있다. 상기 컴퓨터 프로그램은 상기 정보처리장치의 내부 또는 외부에 설치된 비일시적인 컴퓨터 독출가능 매체에 저장된 것일 수 있다. 상기 컴퓨터 프로그램은 예를 들어, RAM에 적재되고, 실행 시, 프로세서에 의해 실행될 수 있다.

상기 컴퓨터 독출가능 매체는 읽기 전용 메모리(read only memory, ROM), 콤팩트 디스크(compact disc, CD), 디지털 다기능 디스크(digital versatile disc, DVD), HDD, SSD, 자기 디스크, 자기 테이프, 자기-광학 디스크 등과 같은 임의의 기록매체일 수 있다. 상기 컴퓨터 프로그램은 일련의 프로세스를 구현하기 위한 하나 이상의 서브루틴, 함수, 모듈, 기능블록 등을 포함할 수 있다.

도 1은 본 발명의 일실시예에 따른 관련도 벡터 머신을 이용한 기계학습방법의 흐름을 도시한 순서도이다.

도 1을 참조하면, 본 실시예에 따른 관련도 벡터 머신을 이용한 기계학습방법은, 데이터 포인트들을 포함한 원시 데이터 집합에서 일부의 데이터 포인트들을 라벨링하고, 라벨링된 데이터 포인트들의 제1 데이터 집합 및 언라벨링된(unlabelled) 데이터 포인트들의 제2 데이터 집합을 초기값으로 설정하여, 베이지안 회귀 모델에 기초한 변환적(transductive) 일반화 관련도 벡터 머신을 구성하는 단계(S100), 관련도 벡터 머신으로부터 획득된 분포에 기초하여 관련도 벡터들의 데이터 집합을 획득하는 단계(S300), 관련도 벡터에 대한 쿼리 정책에 따라, 관련도 벡터들의 데이터 집합에 포함된 관련도 벡터들에 기초하여, 제1 데이터 집합 및 제2 데이터 집합을 갱신하는 단계(S500), 정지 조건이 만족되는지 판단하는 단계(S700) 및 최종 구성된 관련도 벡터 머신으로부터 관련도 벡터 및 가중치를 획득하는 단계(S900)를 포함할 수 있다. 이하, 각각의 단계에 대해 상세히 설명하도록 한다.

단계 S100에서는, 데이터 포인트들을 포함한 원시 데이터 집합에서 일부의 데이터 포인트들을 라벨링하고, 라벨링된 데이터 포인트들의 제1 데이터 집합 및 라벨링되지 않은 데이터 포인트들의 제2 데이터 집합을 초기값으로 설정하여, 베이지안 회귀 모델에 기초한 변환적(transductive) 일반화 관련도 벡터 머신을 구성할 수 있다.

데이터 포인트들은 M차원(M은 1 이상의 자연수) 공간의 벡터에 대응될 수 있는 포인트들일 수 있다. 라벨링은 적어도 하나의 데이터 포인트에 대한 마크(mark)를 포함할 수 있다. 단계 S100이 최초로 시작되는 경우, 전체 데이터 포인트들 중 몇몇 데이터 포인터들은 미리 설정된 다른 알고리즘에 의해 라벨링되어 있거나, 또는 정보처리장치의 사용자에 의해 인위적으로 라벨링되어 있을 수 있다.

원시 데이터 집합은 N개(N은 2 이상의 자연수)의 데이터 포인트 x들을 포함할 수 있다. 원시 데이터 집합 D는 식 1과 같이 정의될 수 있다.

[식 1]

이때, 원시 데이터 집합에서 L개(L은 1 이상 N 미만의 자연수)의 데이터 포인트들이 라벨링될 수 있고, N-L개의 데이터 포인트들은 라벨링되지 않을 수 있다. 라벨링된 데이터 포인트들의 집합은 제1 데이터 집합을 구성하고, 라벨링되지 않은 데이터 포인트들의 집합은 제2 데이터 집합을 구성한다. 제1 데이터 집합 D_L은 식 2와 같이 정의되고, 제2 데이터 집합 D_U은 식 3과 같이 정의될 수 있다.

[식 2]

[식 3]

식 2 및 식 3에서, 데이터 집합 D의 아랫첨자 L은 라벨링된 데이터 포인트들의 집합을, U는 라벨링되지 않은 데이터 포인트들의 집합을 나타내고, 윗첨자 1은, 최초에 라벨링 또는 언라벨링된 데이터 포인트들의 집합임을 나타낸다. 또한, L₁은 1 이상 및 N 미만의 자연수로서, 최초에 라벨링된 데이터 포인트들의 개수를 나타낸다. y는 데이터 포인트 x에 대응하는 라벨을 나타낸다.

상기 제1 데이터 집합 및 제2 데이터 집합의 데이터 포인트들은 함께, 베이지안 회귀 모델에 기초한 변환적(transductive) 일반화 관련도 벡터 머신(generalized relevance vector machine, GRVM)에 대한 초기값으로 사용된다. 관련도 벡터 머신(relevance vector machine, RVM)은, 식 3의 함수에 기반한 예측을 베이지안 방식으로 수행하는 방법이다.

[식 3]

여기서, x는 입력 벡터들을 나타내고, w들은 가중치들을 나타내며, K(x,x_i)는 커널 함수를 나타내고, y는 출력 벡터를 나타내며, N은 2 이상의 자연수이다.

일반적으로, 데이터로부터 최확값(most probable value)들이 반복적으로 추정되는 하이퍼-파라미터(hyperparameter)의 셋트에 의해 결정되는 모델 가중치들에 대하여 사전 확률이 도입되면, 상기 가중치들의 다수의 사후 분포는 영(zero) 근방에서 피크를 갖게 되는데, 이때 영이 아닌(non-zero) 가중치들에 대한 학습 벡터들은 관련도 벡터(relevance vector, RV)라고 정의된다. RVM의 가장 큰 장점은, SVM과 동등한 성능을 보이면서도 커널 함수의 개수를 크게 감소시킬 수 있으며, 이에 따라 계산 복잡도를 향상시킬 수 있는 점이다. 본 발명에 따른 실시예들에서는, SVM이 아닌, RVM을 능동 학습(active learning) 방식에 적용하여, 계산 복잡도를 향상시킬 수 있다.

상기 제1 데이터 집합 및 제2 데이터 집합의 데이터 포인트들을 초기값으로 함께 사용하여, 베이지안 회귀 모델에 기초한 변환적 일반화 관련도 벡터 머신(transductive GRVM)을 구성하는 과정은 도 2를 참조하여 상세히 설명한다.

도 2는 본 발명의 일실시예에 따른 관련도 벡터 머신을 이용한 기계학습방법에서, 변환적 일반화 관련도 벡터 머신을 구성하는 방법의 흐름을 도시한 순서도이다.

도 2를 참조하면, 본 실시예에 따른 관련도 벡터 머신을 이용한 기계학습방법에서, 변환적 일반화 관련도 벡터 머신을 구성하는 방법은, 라벨링된 데이터 포인트들 및 모든 데이터 포인트들에 대한 커널값을 원소로 갖는 행렬을 포함하는 일반화된 베이지안 회귀 모델을 구성하는 단계(S210), 일반화된 베이지안 회귀 모델로부터 ARD(automatic relevance determination) 사전 확률분포를 사용하여 희소 해(sparse solution)를 얻는 단계(S230), 라벨링되지 않은 데이터 포인트들의 추정 출력 및 상기 희소 해에 대한, 근사 결합분포(approximated joint distribution)를 얻는 단계(S250), 근사 결합분포로부터 희소 해에 대한 근사 주변우도함수(approximated marginal likelihood function)를 얻는 단계(S270), 및 근사 주변우도함수에 기초하여, 초기값에 포함된 데이터 포인트들과 상이한 데이터 포인트에 대한 사후 예측분포를 얻는 단계(S290)를 포함할 수 있다.

단계 S210에서는, 라벨링된 데이터 포인트들 및 모든 데이터 포인트들에 대한 커널값을 원소로 갖는 행렬을 포함하는 일반화된 베이지안 회귀 모델을 구성할 수 있다. 이때, RVM을 이용한 베이지안 회귀 모델은 식 4와 같이, 라벨링된 데이터 집합 D_L의 라벨링된 데이터와, 라벨링되지 않은(unlabelled) 데이터 집합 D_U의 라벨링되지 않은 데이터를 함께 사용하여 구성될 수 있다.

[식 4]

여기서, Φ_L,L _+U는 Φ_L,L ₊ _U:L×(L+U) 인 행렬로서, 각각의 원소는 라벨링된 x_i및 모든 데이터 x_j에 대한 커널값 k(x_i,x_j)을 나타낸다(단, 1≤i≤L, 1≤j≤L+U 이고, L은 라벨링된 데이터의 개수를 나타내며, U는 언라벨링된 데이터의 개수를 나타냄). 또한, w는 미지의(unknown) 가중치 벡터를 나타낸다. 또한, ε_L은 ε_L ~ N(0, σ²I_L)인 정규분포를 따르는 것으로 전제되는 노이즈 처리를 위한 독립 벡터를 나타내는데, 이때 I_L은 L차원의 단위행렬(identity matrix)을 나타내며, σ는 표준편차를 나타낸다. 또한, y_L은 출력 벡터를 나타낸다.

단계 S230에서는, 이렇게 구성된 일반화된 베이지안 회귀 모델로부터 ARD(automatic relevance determination) 사전 확률분포를 사용하여 희소 해(sparse solution)를 얻을 수 있다. ARD는 불필요하거나 과다한 특징들을 효과적으로 제거하며, 파라미터화된, 데이터 종속적인(data-dependent) 사전 확률분포를 사용하여 해 공간(solution space)을 정규화할 수 있다. ARD 사전 확률분포를 이용하여 희소 해를 얻는 과정은, 본 기술분야에서 공지된 방법으로 처리될 수 있다.

이때, 얻어진 사후 확률분포 p(w|A)는 평균이 영(zero)이고, 공분산 행렬 A^-1을 가지는데, A는 대각행렬이 된다. 여기서, 상기 사후 확률분포의 분산 σ² 와, 공분산 행렬에 관련된 A는, 본 기술분야에서 잘 알려진, 타입-2 최대우도 추정(type-2 maximum likelihood estimation)에 의해 얻을 수 있다.

단계 S250에서는, 라벨링되지 않은 데이터 포인트들의 추정 출력 및 상기 희소 해에 대한, 근사 결합분포(approximated joint distribution)를 얻을 수 있다. 라벨링되지 않은 데이터들의 추정 출력 f_U는 식 5와 같이 나타낼 수 있는데,

[식 5]

본 기술분야에서 잘 알려진, 라플라스 근사법(Laplace approximation)을 사용하면, 식 4의 y_L과, 식 5의 f_U에 대한 근사 결합 분포(approximated joint distribution)를 식 6과 같이 얻을 수 있다.

[식 6]

여기서, Φ_G,H는 Φ_G,H:G×H 인 행렬로서, 각각의 원소는 라벨링된 x_i및 모든 데이터 x_j에 대한 커널값 k(x_i,x_j)을 나타낸다(단, 1≤i≤G, 1≤j≤H 이고, G 및 H는 각각, L, U 및 L+U 중 어느 하나임). 또한, 윗첨자 T는 전치(transpose) 행렬을 나타낸다.

단계 S270에서는, 상기 근사 결합분포로부터 희소 해에 대한 근사 주변우도함수(approximated marginal likelihood function)를 얻을 수 있다. 식 6에서 얻은 y_L에 대한 근사 주변우도함수는 하기의 식 7과 같이 얻어진다.

[식 7]

단계 S290에서는, 상기 근사 주변우도함수에 기초하여, 초기값에 포함된 데이터 포인트들과 상이한 데이터 포인트 x^*에 대한 사후 예측분포를 얻을 수 있다. 새로운 데이터 포인트 x^*에 대한 사후 예측분포는, 본 기술분야에서 잘 알려진, Sheman-Morrison-Woodbury 식을 통해 하기의 식 8과 같이 얻을 수 있다.

[식 8]

여기서, m f(x^*)는 식 9와 같이 정의되고, Σ_L _+U는 식 10과 같이 정의될 수 있다.

[식 9]

[식 10]

다시 도 1을 참조하면, 단계 S300에서는, 관련도 벡터 머신(transductive GRVM)으로부터 획득된 사후 예측분포에 기초하여 관련도 벡터들의 데이터 집합 RV_U을 획득할 수 있다. 구체적으로, 본 단계에서 제3 데이터 집합 RV_U는 라벨링되지 않은 관련도 벡터들로 구성될 수 있다.

단계 S500에서는, 관련도 벡터에 대한 쿼리 정책에 따라, 관련도 벡터들의 데이터 집합 RV_U에 포함된 관련도 벡터들에 기초하여, 제1 데이터 집합 및 제2 데이터 집합을 갱신할 수 있다. 본 단계에서는, 단계 S300에서 얻은 관련도 벡터들의 데이터 집합 RV_U을 이용하여, 상기 쿼리 전략에 따라 상기 제1 데이터 집합 D_L및 제2 데이터 집합 D_U을 갱신하기 위한 제4 데이터 집합 D_q를 선택할 수 있다.

구체적으로, 상기 쿼리 정책으로서, 관련도 벡터에 대한 쿼리가 언라벨링된 관련도 벡터에 대한 쿼리인 경우, 상기 쿼리 정책에 따른 데이터 집합 D_q는 식 11과 같이, 상기 데이터 집합 RV_U와 동일하게 정의될 수 있다.

[식 11]

상기 쿼리 정책으로서, 관련도 벡터에 대한 쿼리가 가장 불특정한(most uncertain) 관련도 벡터에 대한 쿼리인 경우, 상기 쿼리 정책에 따른 데이터 집합 D_q는 식 12와 같이, 상기 데이터 집합 RV_U에 포함된 관련도 벡터들 중 분산값을 최대로 만드는 관련도 벡터들의 집합으로 정의될 수 있다.

[식 12]

여기서, x_u는 제3 데이터 집합 RV_u의 원소인 관련도 벡터들을 나타낸다.

상기 쿼리 정책으로서, 관련도 벡터에 대한 쿼리가 가장 먼(farthest) 관련도 벡터에 대한 쿼리인 경우, 상기 쿼리 정책에 따른 데이터 집합 D_q는 식 13과 같이, 상기 데이터 집합 RV_U에 포함된 관련도 벡터들 중 상기 제1 데이터 집합 D_L의 데이터 포인트들과의 거리가 최소가 되는 관련도 벡터들의 집합으로 정의될 수 있다.

[식 13]

여기서, x_u는 제3 데이터 집합 RV_u의 원소인 관련도 벡터들을 나타내고, x_l은 제1 데이터 집합 D_L의 원소인 데이터 포인트들을 나타내며, D_L의 윗첨자 j는 갱신되는 횟수에 따른 카운트를 나타낸다(즉, j=1이면 최초에 설정된 D_L을, j=2이면 1번 갱신된 D_L을, j=3이면 2번 갱신된 D_L을 나타냄).

이어서, 상기 쿼리 정책에 따라 식 11 내지 식 13 중 어느 하나로 선택되는 데이터 집합 D_q을 이용하여, 제1 데이터 집합 D_L및 제2 데이터 집합 D_U을 갱신할 수 있다. 구체적으로, 제1 데이터 집합 D_L은, 제1 데이터 집합 D_L및 제4 데이터 집합 D_q의 합집합으로 갱신되고, 제2 데이터 집합 D_U는, 제2 데이터 집합 D_U으로부터 제4 데이터 집합 D_q의 원소들을 제외한 차집합으로 갱신될 수 있는데, 이는 하기의 식 14와 같다.

[식 14]

여기서, 윗첨자 j+1은 갱신된 데이터 집합들을 나타내고, y_q는 D_q의 원소들인 x_q에 대한 라벨을 나타낸다.

단계 S700에서는, 정지 조건이 만족되는지 판단할 수 있다. 상기 정지 조건은 예를 들어, 관련도 벡터들에 대한 분산, 표준편차 등이 미리 설정된 범위 내에 속하거나, 미리 설정된 범위를 벗어나는 것일 수 있다. 상기 정지 조건이 만족되지 않는 경우, 갱신된 제1 데이터 집합 D_L및 제2 데이터 집합 D_U을 초기값으로 설정하여, 단계 S100에서의 베이지안 회귀 모델에 기초한 변환적 일반화 관련도 벡터 머신을 재구성하며, 단계 S300 및 S500을 반복할 수 있다. 이에 따라, 정지 조건이 만족될 때까지, 단계 S100 내지 S500이 반복될 수 있다.

단계 S900에서는, 단계 S700에서 정지 조건이 만족되는 경우, 최종적으로 구성된 관련도 벡터 머신으로부터 관련도 벡터 및 가중치를 획득할 수 있다. 이렇게 얻어진 관련도 벡터 및 가중치는, 최초에 소수의 라벨링된 데이터 포인트들로부터 학습되는 관련도 벡터 및 가중치이므로, 학습을 위해 미리 전체 데이터 포인트들을 라벨링할 필요가 없어, 기계학습의 라벨링 비용을 감소시킬 수 있다.

구체적으로, 단계 S500에서의 쿼리 정책으로서, 관련도 벡터에 대한 쿼리가 언라벨링된 관련도 벡터에 대한 쿼리이거나, 가장 불특정한(most uncertain) 관련도 벡터에 대한 쿼리인 경우에 설정되는 데이터 집합 D_q에 기반(식 11 또는 식 12)하여 제1 및 제2 데이터 집합들을 갱신하는 경우, 무작위 선택 알고리즘(random selection algorithm)에 비해 표준오차가 적은 것으로 확인되었다. 다만, 출력 분포가 수렴하기 위해서는 비교적 많은 양의 데이터가 라벨링될 필요가 있었다.

이에 반해, 단계 S500에서의 쿼리 정책으로서, 관련도 벡터에 대한 쿼리가 가장 먼(farthest) 관련도 벡터에 대한 쿼리인 경우에 설정되는 데이터 집합 D_q에 기반(식 13)하여 제1 및 제2 데이터 집합들을 갱신하는 경우, 라벨링 데이터의 개수가 적더라도 상기 무작위 선택 알고리즘에 비해 빠르게 수렴하는 결과를 나타내었다.

도 3은 본 발명의 일실시예에 따른 관련도 벡터 머신을 이용한 기계학습방법에 따라 소수의 라벨링 데이터를 사용하여 얻어진 예측 평균을 도시한 분포도들이다. 도 3(a) 내지 도 3(f)에서, 라벨링된 데이터의 개수는 각각, (a) L=3, (b) L=7, (c) L=9, (d) L=13, (e) L=17, (e) L=20 이다.

도 3의 각 도면들에서, 주어진 입력 데이터 포인트들은 청색 아스테리스크(*)로 표시되고, 라벨링된 데이터 포인트는 흑색 크로스(+)로 표시되며, 관련도 벡터들은 적색 원(o)으로 표시되었다. 또한, 녹색 실선은, 모델에 의해 예측된 평균을 나타낸다. 도 3(a) 내지 도 3(f)를 참조하면, 라벨링 개수가 많을수록(a에서 f로 갈수록) 예측 평균이 원래의 주어진 데이터에 보다 잘 수렴하는 것을 확인할 수 있다.

이상에서와 같이, 본 발명의 실시예들에 따른 관련도 벡터 머신을 이용한 기계학습방법, 이를 구현하는 컴퓨터 프로그램 및 이를 수행하도록 구성되는 정보처리장치에 따르면, 라벨링된 데이터와 라벨링되지 않은 데이터를 함께 이용하여 변환적 일반화 관련도 벡터 머신을 구성하되, 관련도 벡터의 쿼리 정책에 따라 라벨링된 데이터 및 라벨링되지 않은 데이터를 반복적으로 갱신하면서 상기 변환적 일반화 관련도 벡터 머신을 새로 구성하여 최종적으로 관련성 벡터 및 가중치를 획득함으로써, 전체 학습 데이터 중 소수의 데이터만 라벨링되더라도 효율적으로 기계학습을 수행할 수 있다.

본 발명에 따른 실시예들을 구성하는 구성요소들은 전술한 실시예에 한정되는 것은 아니고, 구성요소들 각각이 하나의 독립적인 하드웨어로 구현되거나, 각 구성요소들의 그 일부 또는 전부가 선택적으로 조합되어 하나 또는 복수의 하드웨어에서 조합된 일부 또는 전부의 기능을 수행하는 프로그램 모듈을 갖는 컴퓨터 프로그램으로서 구현될 수도 있다. 이러한, 컴퓨터 프로그램을 구성하는 코드들 및 코드 세그먼트들은 구체적인 의사코드가 명시되지 않더라도, 본 발명의 기술 분야의 통상의 기술자에 의해 용이하게 추론될 수 있을 것이다.

또한, 순서도를 사용하여 여기에 설명된 프로세스들은 반드시 상기 순서도에 설명된 순서대로 수행될 필요가 없다. 몇몇 프로세스 단계들은 병렬적으로 실행될 수 있고, 또한, 부가적인 프로세스 단계가 적용될 수도 있다.

이상 설명한 본 발명은 본 발명이 속한 기술 분야에서 통상의 지식을 가진 자에 의하여 다양한 변형이나 응용이 가능하며, 본 발명에 따른 기술적 사상의 범위는 아래의 특허 청구범위에 의하여 정해져야 할 것이다.

Claims

정보처리장치의 프로세서에 의해 실행되는 경우, 상기 프로세서로 하여금,
(1) N개(N은 2 이상의 자연수)의 데이터 포인트들을 포함한 원시 데이터 집합에서 L개(L은 1 이상 N 미만의 자연수)의 데이터 포인트들을 라벨링하고, 라벨링된 데이터 포인트들의 제1 데이터 집합 및 라벨링되지 않은 데이터 포인트들의 제2 데이터 집합을 초기값으로 설정하여, 베이지안 회귀 모델에 기초한 변환적(transductive) 일반화 관련도 벡터 머신을 구성하는 단계;
(2) 상기 관련도 벡터 머신으로부터 획득된 분포에 기초하여 상기 제2 데이터 집합으로부터 선택된 관련도 벡터들의 제3 데이터 집합을 획득하는 단계;
(3) 관련도 벡터를 쿼리하는 정책에 따라 상기 제3 데이터 집합에 포함된 관련도 벡터들에 기초하여 제4 데이터 집합을 구성하고, 상기 구성된 제4 데이터 집합에 따라 상기 제1 데이터 집합 및 제2 데이터 집합을 갱신하는 단계;
(4) 상기 갱신된 제1 데이터 집합 및 제2 데이터 집합을 초기값으로 설정하여, 상기 단계 (1)의 변환적 일반화 관련도 벡터 머신을 재구성하는 단계;
(5) 미리 설정된 정지조건이 만족될 때까지, 상기 단계 (2) 내지 단계 (4)를 반복하는 단계; 및
(6) 상기 정지조건이 만족되는 경우, 최종 구성되는 관련도 벡터 머신으로부터 관련도 벡터 및 가중치를 획득하는 단계를 포함하는 프로세스를 수행하도록 구성되는, 컴퓨터 프로그램.
제1항에 있어서,
상기 단계 (1)에서 변환적 일반화 관련도 벡터 머신을 구성하는 단계는,
(a) 상기 초기값 중 라벨링된 데이터 포인트들 및 모든 데이터 포인트들에 대한 커널값을 원소로 갖는 행렬을 포함하는 일반화된 베이지안 회귀 모델을 구성하는 단계;
(b) 상기 구성된 일반화된 베이지안 회귀 모델로부터 ARD(automatic relevance determination) 사전 확률분포를 사용하여 희소 해를 얻는 단계;
(c) 상기 초기값 중 라벨링되지 않은 데이터 포인트들의 추정 출력 및 상기 얻어진 희소 해에 대한 근사 결합 분포를 얻는 단계;
(d) 상기 얻어진 근사 결합 분포로부터 상기 희소 해에 대한 근사 주변우도함수를 얻는 단계; 및
(e) 상기 근사 주변우도함수에 기초하여, 상기 초기값에 포함된 데이터 포인트들과 상이한 데이터 포인트에 대한 사후 예측분포를 얻는 단계를 포함하는 것을 특징으로 하는 컴퓨터 프로그램.
제1항에 있어서,
상기 단계(3)에서 상기 관련도 벡터를 쿼리하는 정책은,
라벨링되지 않은 관련도 벡터에 대한 쿼리, 가장 불특정한 관련도 벡터에 대한 쿼리 및 가장 먼 관련도 벡터에 대한 쿼리 중 적어도 하나를 포함하는 것을 특징으로 하는 컴퓨터 프로그램.
제3항에 있어서,
상기 단계 (3)에서 상기 제4 데이터 집합은,
상기 관련도 벡터에 대한 쿼리가 라벨링되지 않은 관련도 벡터에 대한 쿼리인 경우, 상기 제3 데이터 집합과 동일하게 정의되고,
상기 관련도 벡터에 대한 쿼리가 가장 불특정한 관련도 벡터에 대한 쿼리인 경우, 상기 제3 데이터 집합에 포함된 관련도 벡터들 중 분산값을 최대로 만드는 관련도 벡터들의 집합으로 정의되며,
상기 관련도 벡터에 대한 쿼리가 가장 먼 관련도 벡터에 대한 쿼리인 경우, 상기 제3 데이터 집합에 포함된 관련도 벡터들 중 상기 제1 데이터 집합의 데이터 포인트들과의 거리가 최소가 되는 관련도 벡터들의 집합으로 정의되는 것을 특징으로 하는 컴퓨터 프로그램.
제4항에 있어서,
상기 관련도 벡터에 대한 쿼리가 상기 가장 불특정한 관련도 벡터에 대한 쿼리인 경우, 상기 관련도 벡터에 대한 쿼리가 상기 라벨링되지 않은 관련도 벡터에 대한 쿼리이거나 상기 가장 먼 관련도 벡터에 대한 쿼리인 경우에 비해, 상기 단계 (5)에서의 반복 횟수가 더 적은 것을 특징으로 하는 컴퓨터 프로그램.
제4항에 있어서,
상기 단계 (1)에서 라벨링되는 데이터 포인트들의 개수는,
상기 관련도 벡터에 대한 쿼리가 상기 라벨링되지 않은 관련도 벡터에 대한 쿼리이거나 상기 가장 먼 관련도 벡터에 대한 쿼리인 경우에 비해, 상기 가장 불특정한 관련도 벡터에 대한 쿼리인 경우에서, 더 적은 것을 특징으로 하는 컴퓨터 프로그램.
제1항에 있어서,
상기 단계 (3)에서,
상기 제1 데이터 집합은, 상기 제1 데이터 집합 및 제4 데이터 집합의 합집합으로 갱신되고,
상기 제2 데이터 집합은, 상기 제2 데이터 집합으로부터 상기 제4 데이터 집합의 원소들을 제외한 차집합으로 갱신되는 것을 특징으로 하는 컴퓨터 프로그램.
관련도 벡터 머신을 이용한 기계학습방법으로서,
(1) 데이터 포인트들을 포함한 원시 데이터 집합 중 일부의 데이터 포인트들만 라벨링된 경우, 라벨링된 데이터 포인트들의 제1 데이터 집합 및 라벨링되지 않은 데이터 포인트들의 제2 데이터 집합을 초기값으로 설정하여, 베이지안 회귀 모델에 기초한 변환적(transductive) 일반화 관련도 벡터 머신을 구성하는 단계;
(2) 상기 관련도 벡터 머신으로부터 획득된 분포에 기초하여 상기 제2 데이터 집합으로부터 선택된 관련도 벡터들의 제3 데이터 집합을 획득하는 단계;
(3) 상기 제3 데이터 집합에 포함된 관련도 벡터들에 기초하여, 상기 제1 및 제2 데이터 집합들의 갱신을 위한 제4 데이터 집합을 구성하고 상기 제1 데이터 집합 및 제2 데이터 집합을 갱신하는 단계;
(4) 상기 갱신된 제1 데이터 집합 및 제2 데이터 집합을 초기값으로 설정하여, 상기 단계 (1)의 변환적 일반화 관련도 벡터 머신을 재구성하는 단계; 및
(5) 상기 단계 (2) 내지 단계 (4)를 반복하여 최종 구성되는 관련도 벡터 머신으로부터 관련도 벡터 및 가중치를 획득하는 단계를 포함하는 기계학습방법.
제8항에 있어서,
상기 단계 (3)에서, 상기 제4 데이터 집합은,
상기 제3 데이터 집합에 포함된 관련도 벡터에 대한 쿼리가 라벨링되지 않은 관련도 벡터에 대한 쿼리인 경우, 상기 제3 데이터 집합과 동일하게 정의되고,
상기 제3 데이터 집합에 포함된 관련도 벡터에 대한 쿼리가 가장 불특정한 관련도 벡터에 대한 쿼리인 경우, 상기 제3 데이터 집합에 포함된 관련도 벡터들 중 분산값을 최대로 만드는 관련도 벡터들의 집합으로 정의되며,
상기 제3 데이터 집합에 포함된 관련도 벡터에 대한 쿼리가 가장 먼 관련도 벡터에 대한 쿼리인 경우, 상기 제3 데이터 집합에 포함된 관련도 벡터들 중 상기 제1 데이터 집합의 데이터 포인트들과의 거리가 최소가 되는 관련도 벡터들의 집합으로 정의되는 것을 특징으로 하는 기계학습방법.
제9항에 있어서,
상기 제3 데이터 집합에 포함된 관련도 벡터에 대한 쿼리가 상기 가장 불특정한 관련도 벡터에 대한 쿼리인 경우, 상기 제3 데이터 집합에 포함된 관련도 벡터에 대한 쿼리가 상기 라벨링되지 않은 관련도 벡터에 대한 쿼리이거나 상기 가장 먼 관련도 벡터에 대한 쿼리인 경우에 비해, 상기 단계 (5)에서의 반복 횟수가 더 적은 것을 특징으로 하는 기계학습방법.
제8항에 있어서,
상기 단계 (3)에서,
상기 제1 데이터 집합 및 제2 데이터 집합은, 상기 제4 데이터 집합과의 합집합 및 차집합 중 적어도 하나의 연산을 통해 갱신되는 것을 특징으로 하는 기계학습방법.
제8항에 있어서,
상기 변환적(transductive) 일반화 관련도 벡터 머신은,
(a) 상기 제1 데이터 집합의 데이터 포인트들과 상기 제1 및 제2 데이터 집합들의 합집합에서의 데이터 포인트들에 대한 커널값을 원소로 갖는 행렬을 포함하는 일반화된 베이지안 회귀 모델을 구성하는 단계;
(b) 상기 구성된 일반화된 베이지안 회귀 모델로부터 ARD(automatic relevance determination) 사전 확률분포를 사용하여 희소 해를 얻는 단계;
(c) 상기 제2 데이터 집합의 데이터 포인트들의 추정 출력 및 상기 얻어진 희소 해에 대한 근사 결합 분포를 얻는 단계;
(d) 상기 얻어진 근사 결합 분포로부터 상기 희소 해에 대한 근사 주변우도함수를 얻는 단계; 및
(e) 상기 근사 주변우도함수에 기초하여, 상기 초기값에 포함된 데이터 포인트들과 상이한 데이터 포인트에 대한 사후 예측분포를 얻는 단계를 포함하여 처리되는 것을 특징으로 하는 기계학습방법.
관련도 벡터 머신을 이용한 기계학습방법을 수행하도록 구성되는 프로세서를 포함하고,
상기 프로세서는,
(1) 데이터 포인트들을 포함한 원시 데이터 집합 중 일부의 데이터 포인트들만 라벨링된 경우, 라벨링된 데이터 포인트들의 제1 데이터 집합 및 라벨링되지 않은 데이터 포인트들의 제2 데이터 집합을 초기값으로 설정하여, 베이지안 회귀 모델에 기초한 변환적(transductive) 일반화 관련도 벡터 머신을 구성하는 단계;
(2) 상기 관련도 벡터 머신으로부터 획득된 분포에 기초하여 상기 제2 데이터 집합으로부터 선택된 관련도 벡터들의 제3 데이터 집합을 획득하는 단계;
(3) 상기 제3 데이터 집합에 포함된 관련도 벡터들에 기초하여, 상기 제1 및 제2 데이터 집합들의 갱신을 위한 제4 데이터 집합을 구성하고 상기 제1 데이터 집합 및 제2 데이터 집합을 갱신하는 단계;
(4) 상기 갱신된 제1 데이터 집합 및 제2 데이터 집합을 초기값으로 설정하여, 상기 단계 (1)의 변환적 일반화 관련도 벡터 머신을 재구성하는 단계; 및
(5) 상기 단계 (2) 내지 단계 (4)를 반복하여 최종 구성되는 관련도 벡터 머신으로부터 관련도 벡터 및 가중치를 획득하는 단계를 수행하도록 구성되는, 정보처리장치.
제13항에 있어서,
상기 단계 (3)에서, 상기 제4 데이터 집합은,
상기 제3 데이터 집합에 포함된 관련도 벡터에 대한 쿼리가 라벨링되지 않은 관련도 벡터에 대한 쿼리인 경우, 상기 제3 데이터 집합과 동일하게 정의되고,
상기 제3 데이터 집합에 포함된 관련도 벡터에 대한 쿼리가 가장 불특정한 관련도 벡터에 대한 쿼리인 경우, 상기 제3 데이터 집합에 포함된 관련도 벡터들 중 분산값을 최대로 만드는 관련도 벡터들의 집합으로 정의되며,
상기 제3 데이터 집합에 포함된 관련도 벡터에 대한 쿼리가 가장 먼 관련도 벡터에 대한 쿼리인 경우, 상기 제3 데이터 집합에 포함된 관련도 벡터들 중 상기 제1 데이터 집합의 데이터 포인트들과의 거리가 최소가 되는 관련도 벡터들의 집합으로 정의되는 것을 특징으로 하는 정보처리장치.