KR20070060862A

KR20070060862A - 학습 데이터 구축 장치 및 방법

Info

Publication number: KR20070060862A
Application number: KR1020050120977A
Authority: KR
Inventors: 이창기; 왕지현; 김현진; 이충희; 오효정; 장명길; 이영직
Original assignee: 한국전자통신연구원
Priority date: 2005-12-09
Filing date: 2005-12-09
Publication date: 2007-06-13
Also published as: US20070143284A1; US7725408B2; KR100750886B1

Abstract

본 발명은 정보검색, 정보추출, 번역, 자연어 처리 등의 작업을 위한 통계적 방법론에서 필요한 학습 데이터 구축을 효율적으로 하기 위한 학습 데이터 구축 장치 및 방법을 제공하기 위한 것으로서, (a) 학습 데이터에 대해 기계 학습을 수행하여 학습 모델을 생성하는 단계와, (b) 상기 생성된 학습 모델을 이용하여 원시 코퍼스에 자동으로 태그를 부착하여 학습 데이터 후보를 생성하는 단계와, (c) 상기 생성된 학습 데이터 후보의 신뢰점수를 계산하고, 계산된 후보의 신뢰 점수를 이용하여 학습 데이터 후보를 선택하는 단계와, (d) 사용자에 의해 오류 수정된 상기 학습 데이터 후보를 학습 데이터에 추가시키는 단계를 포함하는데 있다.

학습데이터, 자동태그 부착, 학습 데이터 후보 선택, 능동 학습, 점진 학습

Description

학습 데이터 구축 장치 및 방법{Apparatus and method for learning data construction}

도 1 은 본 발명에 따른 학습 데이터 구축 장치를 나타낸 구성도

도 2 는 본 발명에 따른 학습 데이터 구축 방법을 나타낸 흐름도

도 3 은 본 발명에 따른 학습 데이터 구축 방법에서 점진 학습부의 세부 동작을 나타낸 흐름도

도 4 는 본 발명에 따른 학습 데이터 구축 방법에서 자동 태그 부착부의 세부 동작을 나타낸 흐름도

도 5 는 본 발명에 따른 학습 데이터 구축 방법에서 자동 태그 부착부의 세부 동작을 나타낸 흐름도

도 6 은 본 발명에 따른 학습 데이터 구축 방법에서 수동 오류 수정부의 세부 동작을 나타낸 흐름도

도 7 은 본 발명에 따른 학습 데이터 구축 방법의 정보 추출 분야에서 실제로 액티브 학습 방법론을 사용한 실시예

도 8 은 본 발명에 따른 학습 데이터 구축을 위한 실제 사용자 인터페이스의 실시예

*도면의 주요부분에 대한 부호의 설명

10 : 점진 학습부 11 : 초기 학습 데이터

20 : 자동 태그 부착부 21 : 원시 코퍼스

30 : 학습 데이터 후보 선택부 40 : 수동 오류 수정부

41 : 생성된 학습 데이터

본 발명은 정보검색, 정보추출, 번역, 자연어처리 등의 작업을 위한 통계적 방법론에서 필요한 학습 데이터 구축을 효율적으로 하기 위한 학습 데이터 구축 장치 및 그 방법에 관한 것이며,

정보검색, 정보추출, 번역, 자연어처리 등의 작업등에 최근 통계적 방법론이 많이 사용되고 있다. 이러한 통계적 방법론은 각 작업에 따른 학습 데이터 구축을 필요로 하고, 학습 데이터 구축의 양이 많을수록 높은 성능을 낸다.

일예로서 자연어처리의 형태소 분석과 개체명 승인(Named Entity Recognition)의 학습 데이터의 예를 들면 다음과 같다.

원문1 : 어제 이순신 장군과 말을 했다.

형태소 분석 : 어제/nc 이순신/nc 장군/nc+과/jj 말/nc+을/jc 하/pv+었/ep+다/ef ./s

원문2 : 한국ㅇ일본ㅇ만주ㅇ우수리강 등지에 분포한다.

Named Entity Recognition : <한국:LCP.COUNTRY>ㅇ<일본:LCP.COUNTRY>ㅇ<만주:LC.OTHERS>ㅇ<우수리강:LCG.RIVER> 등지에 분포한다.

또한, 정보추출의 학습 데이터의 예를 들면 다음과 같다.

원문3 : 한양대학교 송시몬 교수님을 모시고 "바이오칩을 이용한 샘플 전처리"에 대한 내용으로 전문가 초청 세미나를 개최합니다.

정보추출 : <한양대학교:발표자.소속> <송시몬교수님:발표자.경력>을 모시고 <"바이오칩을 이용한 샘플 전처리":세미나.제목>에 대한 내용으로 전문가 초청 세미나를 개최합니다.

그러나, 이와 같은 학습 데이터의 구축은 많은 인력과 시간이 필요하기 때문에 학습 데이터 부족 문제가 자주 발생한다.

상기 학습 데이터 부족 문제를 해결하기 위해서 기존의 방법들은 크게 세 가지 방법론으로 분류 된다.

첫 번째 방법론은 기계 학습을 이용하여 자동 태깅 기능을 지원하는 워크벤치를 사용하는 방법이다. 이는 자동 태깅을 지원하는 점은 본 발명과 비슷하지만 학습 데이터 후보 선택이나 오류 수정된 학습 데이터를 재사용하여 학습 데이터를 증강시켜 점진적으로 자동 태깅 성능을 높여주는 기능은 지원하지 않는다.

두 번째 방법은 비교사 학습(bootstrapping) 이나 코-트레이닝(co-training) 같은 방법이다. 이는 학습 데이터를 자동으로 태깅하여 학습 데이터를 증강시키는 기능은 본 발명과 비슷하나 자동 태깅 결과의 오류 수정이나 학습 데이터 후보 선택 등의 기능은 지원하지 않는다. 그리고 기계 학습 시에 일괄 학습(batch learning)을 이용하기 때문에 매 회 반복되는 기계 학습에 많은 시간이 걸린다는 단점이 있다. 또한 자동 태깅 결과에 오류가 포함되어 있기 때문에 성능이 좋지 않다는 단점이 있다.

세 번째 방법론은 능동 학습(active learning) 방법으로, 초기 학습 데이터로부터 학습모델을 생성하여 원시 코퍼스에 적용한 후, 최적의 학습 데이터 후보를 선택하여 적은 양의 학습 데이터를 구축해도 높은 성능을 내도록 하는 점은 본 발명과 비슷하지만, 매 회 반복되는 기계 학습에 일괄 학습(batch learning)을 적용하고 있어 학습 시간에 많은 시간이 소요된다. 특히 학습 데이터가 많아질수록 매회 반복되는 학습 시간이 늘어나 실제로 이 방법을 적용하기에 문제점이 있다.

따라서 본 발명은 상기와 같은 문제점을 해결하기 위해 안출한 것으로서, 학습 데이터 구축을 효율적으로 하기 위해서 기계 학습을 이용하여 자동으로 태그를 부착하여 학습 데이터 후보를 생성하고 신뢰점수를 계산하고 학습 데이터 후보를 선택하여 학습 데이터 구축의 비용 및 시간을 줄일 수 있는 학습 데이터 반자동 구축 장치 및 방법을 제공하는데 그 목적이 있다.

본 발명의 다른 목적은 학습 시간을 줄이기 위해 새로 추가된 학습 데이터만 을 이용하여 점진 학습(incremental learning)을 수행하여 학습 시간을 단축하여, 학습 데이터가 많아질수록 학습 시간이 증가하는 문제를 해결할 수 있는 학습 데이터 반자동 구축 장치 및 방법을 제공하는데 있다.

상기와 같은 목적을 달성하기 위한 본 발명에 따른 학습 데이터 구축 방법의 특징은 (a) 학습 데이터에 대해 기계 학습을 수행하여 학습 모델을 생성하는 단계와, (b) 상기 생성된 학습 모델을 이용하여 원시 코퍼스에 자동으로 태그를 부착하여 학습 데이터 후보를 생성하는 단계와, (c) 상기 생성된 학습 데이터 후보의 신뢰점수를 계산하고, 계산된 후보의 신뢰 점수를 이용하여 학습 데이터 후보를 선택하는 단계와, (d) 사용자에 의해 오류 수정된 상기 학습 데이터 후보를 학습 데이터에 추가시키는 단계를 포함하는데 있다.

바람직하게 상기 추가된 학습 데이터에 대해 상기 (a) 내지 (d) 단계를 반복 수행하는 것을 특징으로 한다.

바람직하게 상기 (b)단계는 원시 코퍼스에 속한 문장들로부터 자질을 생성하는 단계와, 상기 생성된 자질에 다수의 학습 모델을 적용하여 다수의 정답 추측을 한 후에 이들을 선출(Voting)하여 정답 문장을 결정하는 단계와, 상기 결정된 문장에 태그를 부착하여 학습 데이터 후보를 생성하는 단계를 포함하는 것을 특징으로 한다.

바람직하게 상기 (c)단계는 상기 다수의 학습 모델로부터 생성된 다수의 정답 추측치들을 이용하여 자동 생성된 학습 데이터 후보들의 신뢰 점수(Confidence score)를 계산하는 단계와, 상기 계산된 학습 데이터 후보들의 신뢰 점수를 이용하여 특정 학습 데이터 후보를 선택하는 단계를 포함하는 것을 특징으로 한다.

바람직하게 상기 학습 데이터 후보들의 신뢰 점수는 다수의 학습 모델을 이용하여 제공되는 다수의 정답 추측을 이용하여 커미티-베이스(committee-base) 방법으로 계산되는 것을 특징으로 한다.

바람직하게 상기 후보의 선택은 신뢰점수가 낮은 순으로 후보로 선택하는 액티브 학습(active learning) 방법과, 신뢰점수가 높은 순으로 후보로 선택하는 비교사 학습(bootstrapping) 방법중 하나의 방법으로 선택되는 것을 특징으로 한다.

바람직하게 상기 (d)단계는 사용자에게 상기 생성된 특정 학습 데이터 후보를 제시하면, 사용자가 GUI 도구를 이용하여 오류를 수정하는 단계와, 상기 수정된 학습 데이터 후보를 기존의 학습 데이터에 추가하는 단계를 포함하는 것을 특징으로 한다.

상기와 같은 목적을 달성하기 위한 본 발명에 따른 학습 데이터 구축 장치의 특징은 기계 학습을 이용하여 학습 데이터로부터 학습 모델을 생성하는 점진 학습부와, 상기 생성된 학습모델을 이용하여 원시 코퍼스에 자동으로 태그를 부착하여 학습 데이터 후보를 생성하는 자동 태그 부착부와, 상기 생성된 학습 데이터 후보의 신뢰점수를 계산하여 학습 데이터 후보를 선택하는 학습 데이터 후보 선택부와, 사용자에게 상기 선택된 학습 데이터 후보를 게시하고 사용자가 오류를 수정하도록 인터페이스를 제공하기 위한 수동 오류 수정부를 포함하는데 있다.

본 발명의 다른 목적, 특성 및 이점들은 첨부한 도면을 참조한 실시예들의 상세한 설명을 통해 명백해질 것이다.

본 발명에 따른 학습 데이터 구축 장치 및 방법의 바람직한 실시예에 대하여 첨부한 도면을 참조하여 설명하면 다음과 같다.

도 1 은 본 발명에 따른 학습 데이터 구축 장치를 나타낸 구성도이다.

도 1과 같이, 초기 학습 데이터(11)로부터 점진 학습을 수행하여 다수의 학습 모델을 생성하는 점진 학습부(10)와, 상기 생성된 다수의 학습모델을 이용하여 원시 코퍼스(21)에 자동으로 태그를 부착하여 학습 데이터 후보를 생성하는 자동 태그 부착부(20)와, 상기 자동 생성된 학습 데이터 후보들의 신뢰점수를 계산하여 학습 데이터 후보를 선택하는 학습 데이터 후보 선택부(30)와, 사용자에게 자동으로 태그가 부착된 학습 데이터 후보를 이용하여 학습 데이터(41)를 추가시키는 수동 오류 수정부(40)로 구성된다.

이때, 상기 점진 학습부(10)는 초기 학습 데이터(11)나 추가된 학습 데이터가 주어지면 학습 데이터에 속한 문장들로부터 기계 학습에 사용될 자질을 생성한 후, 생성된 자질을 이용하여 점진 학습으로 다수의 학습 모델을 생성한다.

그리고 상기 자동 태그 부착부(20)는 원시 코퍼스에 속한 문장들로부터 자질을 생성한 후 생성된 자질과 다수의 학습 모델을 적용하여 다수의 정답 추측으로 선출(voting) 정답을 결정하고 문장에 태그를 자동으로 부착하여 학습 데이터 후보를 생성한다.

또한, 상기 학습 데이터 후보 선택부(30)는 자동 생성된 학습 데이터 후보들의 신뢰 점수를 계산하고, 이때 다수의 모델로부터 생성된 정답 추측치들을 이용하 여 커미티-베이스(committee-base) 방법으로 신뢰 점수를 계산하는 것이 가능하며, 후보들의 신뢰 점수를 이용하여 학습 데이터 후보를 선택한다.

이와 같이 구성된 본 발명에 따른 학습 데이터 반자동 구축 장치의 동작을 첨부한 도면을 참조하여 상세히 설명하면 다음과 같다.

도 2 는 본 발명에 따른 학습 데이터 구축 방법을 나타낸 흐름도이다.

도 2를 참조하여 설명하면, 초기 학습 데이터(11)로부터 점진 학습부(10)에서 자질 생성 후 점진 학습을 이용하여 학습 모델을 생성한다(S100).

이어, 자동 태그 부착부(20)가 상기 생성된 학습 모델을 이용하여 원시 코퍼스(21)에 자동으로 태그를 부착하여 학습 데이터 후보를 생성한다(S200).

그러면, 학습 데이터 후보 선택부(30)에서 학습 데이터 후보들의 신뢰 점수를 계산하고, 이 계산된 후보들의 신뢰 점수를 이용하여 특정 학습 데이터 후보를 선택한다(S300).

이렇게 생성된 특정 학습 데이터 후보를 수동 오류 수정부(40)가 사용자에게 제시하고 이를 사용자가 GUI(Graphical User Interface) 도구를 이용하여 오류 수정한 후 학습 데이터를 증강하며, 증간된 학습 데이터(41)는 다시 점진 학습부(10)에 전달되어 추가된 학습 데이터에 대해서 점진 학습을 한다(S400).

이와 같은 과정을 반복하여 점진적으로 자동 태깅의 정확성을 높이고 학습 데이터를 증강시킨다.

도 3 은 본 발명에 따른 학습 데이터 구축 방법에서 점진 학습부의 세부 동작을 나타낸 흐름도이다.

도 3을 참조하여 설명하면, 초기 학습 데이터(11)가 주어지면 상기 학습 데이터로부터 기계 학습에 사용될 제 1 자질을 생성한다(S110). 이렇게 생성된 제 1 자질을 이용하여 기계 학습기로 학습을 수행하여(S120) 초기 학습 모델을 생성한다(S130).

이 생성된 초기 학습 모델로 도 1의 자동 태그 부착부(20), 학습 데이터 후보 선택부(30), 수동 오류 수정부(40) 등을 거쳐 학습 데이터를 생성하고, 생성된 학습 데이터(41)로부터 다시 점진 학습부(10)에서 제 2 자질을 생성한다(S140).

이어 상기 생성된 제 2 자질을 이용하여 점진 학습을 수행함으로써, 또 다른 학습 모델을 생성한다(S150).

그리고 기존의 학습 모델과 함께 다수의 학습 모델을 구성한다(S130).

이때, 새로 생성된 학습 데이터(41)로부터 점진 학습을 수행 시에(S140), 기본 기계 학습기(base learner)가 점진 학습(incremental learning or online learning)을 지원하는 경우에는 기존의 학습 모델에 생성된 학습 데이터를 이용하여 점진 학습을 수행하면 되지만, 대부분의 기계 학습기는 점진 학습을 지원하지 않기 때문에, 새로 생성된 데이터 만으로 학습하여 또 다른 학습 모델을 생성한다. 그리고 그 후에, 기존의 모델과 함께 다수의 학습 모델을 구성하여 도 1의 자동 태그 부착부(20)에서 다수의 모델을 이용하여 정답을 추측하게 된다.

즉, 최근 사용되는 기계 학습기는 Maximum Entropy 및 Conditional Random Fields 등이 높은 성능으로 많이 쓰이고 있는데, 여기에서는 점진 학습을 지원하지 않고 있다.

그러나 본 발명의 방법을 사용하면 점진 학습을 지원하지 않는 상기 기존의 기계 학습기를 기본 기계 학습기(base learner)로 사용하더라도 모든 학습 데이터를 이용하지 않고, 새로 생성된 학습 데이터만으로 또 다른 학습 모델을 생성함으로써 점진 학습의 효과를 볼 수 있다. 이에 따라, 학습 시간을 크게 줄일 수 있게 된다.

다음은 자연어처리의 청킹에 사용하는 자질 및 학습 모델의 일 실시예이다.

원문 : 한국의 세종 기지와 그 주변 세종 기지

청킹 학습 데이터 : <한국의 세종 기지와:NP> <그 주변 세종 기지:NP>

생성된 청킹 자질 :

(정답) (자질) (자질) …

B-NP word=한국 word+1=의 tag=MP tag+1=j

I-NP word=의 word-1=한국 word+1=세종 tag-1=MP tag=j tag+1=MP

I-NP word=세종word-1=의 word+1=기지 tag-1=j tag=MP tag+1=MC

I-NP word=기지 word-1=세종 word+1=와 tag-1=MP tag=MC tag+1=j

I-NP word=와 word-1=기지 word+1=그 tag-1=MC tag=j tag+1=G

B-NP word=그 word-1=와 word+1=주변 tag-1=j tag=G tag+1=MC

I-NP word=주변 word-1=그 word+1=세종 tag-1=G tag=MC tag+1=MP

I-NP word=세종 word-1=주변 word+1=기지 tag-1=MC tag=MP tag+1=MC

I-NP word=기지 word-1=세종 tag-1=MP tag=MC

생성된 학습 모델 :

(자질) (정답) (자질 Weight)

word=한국 B-NP 0.733384

word=한국 I-NP 0.0277564

word=한국 O -0.387011

word-1=한국 B-NP 0.528912

word-1=한국 I-NP 0.0375574

word-1=한국 O -0.423916

…

위의 일 실시예의 생성된 청킹 자질의 첫 번째 정보인 B-NP, I-NP 등은 각각 NP 청크의 시작점(Begin-Noun-Phrase), NP 청크의 중간점(Inside-Noun-Phrase) 등을 의미한다.

도 4 는 본 발명에 따른 학습 데이터 구축 방법에서 자동 태그 부착부의 세부 동작을 나타낸 흐름도이다.

도 4를 참조하여 설명하면, 먼저 원시 코퍼스(21)에 속한 문장들로부터 자질을 생성한다(S210).

그리고 상기 생성된 자질에 다수의 학습 모델을 적용하여 다수의 정답 추측을 한 후에 이들을 선출(Voting)하여 정답을 결정하고(S220), 문장에 태그를 자동으로 부착하여(S230) 학습 데이터 후보(S240)를 생성한다.

다음은 자연어처리의 청킹에 사용하는 자질 및 학습 데이터 후보의 일 실시 예이다.

원시 코퍼스 문장 : 아르헨티나의 주기지

생성된 자질 :

(자질) (자질) …

word=아르헨티나 word+1=의 tag=MP tag+1=j

word=의 word-1=아르헨티나 tag-1=MP tag=j tag+1=MP

word=주기지 word-1=의 tag-1=j word+1=는 tag=MP tag+1=j

다수의 학습 모델을 이용한 정답 추측 (학습 모델이 3개인 경우) :

(형태소) (모델1)(모델2)(모델3) (Voting결과)

아르헨티나 B-NP I-NP B-NP B-NP

의 I-NP I-NP I-NP I-NP

주기지 O I-NP I-NP I-NP

자동 태그 부착 (B-NP, I-NP, O) :

(형태소) (태그)

아르헨티나 B-NP

의 I-NP

주기지 I-NP

생성된 학습 데이터 후보 : <아르헨티나의 주기지:NP>

도 5 는 본 발명에 따른 학습 데이터 구축 방법에서 자동 태그 부착부의 세부 동작을 나타낸 흐름도이다.

도 5를 참조하여 설명하면, 먼저 상기 다수의 학습 모델로부터 생성된 다수의 정답 추측치들을 이용하여 자동 생성된 학습 데이터 후보들의 신뢰 점수(Confidence score)를 계산한다(S310).

그리고 상기 계사된 학습 데이터 후보들의 신뢰 점수를 이용하여 학습 데이터 후보를 선택한다(S320). 이렇게 선택된 학습 데이터 후보(S303)는 다음 단계인 수동 오류 수정부(40)의 입력으로 들어간다(S330).

이때, 상기 학습 데이터 후보들의 신뢰 점수를 구하는 방법은 여러 가지가 있는데 일반적으로는 기계 학습기가 제공하는 확률값 등을 사용하고, 그 이외에 다양한 정보를 이용하여 신뢰점수를 계산할 수 있다. 본 발명에서는 다수의 학습 모델을 이용하여 다수의 정답 추측을 제공하므로 커미티-베이스(committee-base) 방법을 사용하는 것이 바람직하다.

이러한 신뢰점수를 이용하여 후보를 선택할 때에 액티브 학습(active learning) 방법론을 사용하는 경우에는 신뢰점수가 낮은 순으로 후보로 선택하고, 비교사 학습(bootstrapping) 방법론을 사용하는 경우에는 신뢰점수가 높은 순으로 후보로 선택하게 된다.

일반적으로 상기 액티브 학습(active learning) 방법론을 사용하면 적은 학 습 데이터 후보를 사용해도 높은 성능을 유지할 수 있기 때문에 액티브 학습(active learning) 방법론을 사용하는 것이 바람직하다.

도 7 은 본 발명에 따른 학습 데이터 구축 방법의 정보 추출 분야에서 실제로 액티브 학습 방법론을 사용한 실시예이다.

도 7의 도표에서 세로축은 정보 추출의 정확도(accuracy)이고, 가로축은 학습 데이터의 크기이다. 그리고 점선으로 표시한 선이 액티브 학습을 이용하여 학습 데이터 후보를 선택한 것이고, 실선으로 표시한 선이 무작위로 학습 데이터를 선택한 것이다.

도 7을 보면 알 수 있듯이 대략 91.7%의 성능을 내기 위해서 액티브 학습은 2000개의 학습 데이터를 필요로 하지만, 랜덤 선택(random selection)에서는 그보다 4배 많은 8000개의 학습 데이터가 필요함을 알 수 있다.

따라서 상기 액티브 학습을 사용하여 학습 데이터를 선택함으로써 학습 데이터 구축 양을 75% 정도 감소시킬 수 있다.

도 6 은 본 발명에 따른 학습 데이터 구축 방법에서 수동 오류 수정부의 세부 동작을 나타낸 흐름도이다.

도 6을 참조하여 설명하면, 먼저 사용자에게 자동으로 생성된 상기 특정 학습 데이터 후보를 제시하면(S410), 사용자가 GUI 도구를 이용하여 수동으로 오류를 수정한다(S420).

그리고 이렇게 오류가 수정된 학습 데이터 후보를 기존의 학습 데이터에 추가한다(S430). 이렇게 추가된 학습 데이터는 다시 기계 학습부(10)의 입력으로 들 어가서 새로운 학습 모델을 생성하여 좀더 높은 정확도의 자동 태깅이 가능해진다.

이러한 작업을 반복하여 학습 모델의 구축 양이 늘어나고 자동 태깅 정확도가 높아진다.

도 8 은 본 발명에 따른 학습 데이터 구축을 위한 실제 사용자 인터페이스의 실시예이다

도 8과 같이, 사용자에게 자동으로 태깅된 결과를 보여주면, 사용자가 오류를 수정하고, 이를 다시 학습 데이터에 추가하며, 이 과정을 반복하게 하게 된다.

이상의 과정을 거쳐서 초기 학습 데이터를 이용하여 원시 코퍼스에 자동을 태그를 부착하여 학습 데이터 후보를 생성하고 신뢰 점수를 계산하여 학습 데이터 후보를 선택한다. 그리고 수동으로 오류를 수정하여 학습 데이터를 증강시킬 수 있게 된다. 또한, 이상의 과정을 반복함으로써 점진적으로 자동 태깅의 정확도가 높아지게 된다.

아울러 학습 데이터 후보를 신뢰 점수로 선택함으로써 액티브 학습이나 비교사 학습 방법론을 선택할 수 있으며, 상기 액티브 학습 사용시에는 적은 양의 학습 데이터로 높은 성능을 유지 할 수 있다.

또한 점진 학습을 사용하여 기존의 일괄 학습을 사용할 때보다 좀더 빠르게 학습을 수행할 수 있다.

이상에서와 같이 상세한 설명과 도면을 통해 본 발명의 최적 실시예를 개시하였다. 용어들은 단지 본 발명을 설명하기 위한 목적에서 사용된 것이지 의미 한정이나 특허청구범위에 기재된 본 발명의 범위를 제한하기 위하여 사용된 것은 아 니다. 그러므로 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.

이상에서 설명한 바와 같은 본 발명에 따른 학습 데이터 구축 장치 및 방법은 자동 태깅의 성능을 높이는 장치로 통계 정보를 이용하는 정보검색, 정보추출, 기계번역, 자연어처리 시스템에 필요한 학습 데이터 구축의 비용 및 시간을 줄여주고 학습 데이터 후보 선택 기능을 이용하여 적은 양의 학습 데이터로 높은 성능을 유지할 수 있다.

또한 기계 학습 시에 기존의 일괄 학습 대신에 점진 학습을 사용함으로써 학습 시간을 크게 줄일 수 있다.

Claims

(a) 학습 데이터에 대해 기계 학습을 수행하여 학습 모델을 생성하는 단계와,

(b) 상기 생성된 학습 모델을 이용하여 원시 코퍼스에 자동으로 태그를 부착하여 학습 데이터 후보를 생성하는 단계와,

(c) 상기 생성된 학습 데이터 후보의 신뢰점수를 계산하고, 계산된 후보의 신뢰 점수를 이용하여 학습 데이터 후보를 선택하는 단계와,

(d) 사용자에 의해 오류 수정된 상기 학습 데이터 후보를 학습 데이터에 추가시키는 단계를 포함하는 것을 특징으로 하는 학습 데이터 구축 방법.
제 1 항에 있어서,

상기 추가된 학습 데이터에 대해 상기 (a) 내지 (d) 단계를 반복 수행하는 것을 특징으로 하는 학습 데이터 구축 방법.
제 1 항에 있어서, 상기 (b)단계는

원시 코퍼스에 속한 문장들로부터 자질을 생성하는 단계와,

상기 생성된 자질에 다수의 학습 모델을 적용하여 다수의 정답 추측을 한 후에 이들을 선출(Voting)하여 정답 문장을 결정하는 단계와,

상기 결정된 문장에 태그를 부착하여 학습 데이터 후보를 생성하는 단계를 포함하는 것을 특징으로 하는 학습 데이터 구축 방법.
제 1 항에 있어서, 상기 (c)단계는

상기 다수의 학습 모델로부터 생성된 다수의 정답 추측치들을 이용하여 자동 생성된 학습 데이터 후보들의 신뢰 점수(Confidence score)를 계산하는 단계와,

상기 계산된 학습 데이터 후보들의 신뢰 점수를 이용하여 특정 학습 데이터 후보를 선택하는 단계를 포함하는 것을 특징으로 하는 학습 데이터 구축 방법.
제 4 항에 있어서,

상기 학습 데이터 후보들의 신뢰 점수는 다수의 학습 모델을 이용하여 제공되는 다수의 정답 추측을 이용하여 커미티-베이스(committee-base) 방법으로 계산되는 것을 특징으로 하는 학습 데이터 구축 방법.
제 4 항에 있어서,

상기 후보의 선택은 신뢰점수가 낮은 순으로 후보로 선택하는 액티브 학습(active learning) 방법과, 신뢰점수가 높은 순으로 후보로 선택하는 비교사 학습(bootstrapping) 방법중 하나의 방법으로 선택되는 것을 특징으로 하는 학습 데이터 구축 방법.
제 1 항에 있어서, 상기 (d)단계는

사용자에게 상기 생성된 특정 학습 데이터 후보를 제시하면, 사용자가 GUI 도구를 이용하여 오류를 수정하는 단계와,

상기 수정된 학습 데이터 후보를 기존의 학습 데이터에 추가하는 단계를 포함하는 것을 특징으로 하는 학습 데이터 구축 방법.
기계 학습을 이용하여 학습 데이터로부터 학습 모델을 생성하는 점진 학습부와,

상기 생성된 학습모델을 이용하여 원시 코퍼스에 자동으로 태그를 부착하여 학습 데이터 후보를 생성하는 자동 태그 부착부와,

상기 생성된 학습 데이터 후보의 신뢰점수를 계산하여 학습 데이터 후보를 선택하는 학습 데이터 후보 선택부와,

사용자에게 상기 선택된 학습 데이터 후보를 게시하고 사용자가 오류를 수정하도록 인터페이스를 제공하기 위한 수동 오류 수정부를 포함하는 것을 특징으로 하는 학습 데이터 구축 장치.