KR20070060862A - 학습 데이터 구축 장치 및 방법 - Google Patents

학습 데이터 구축 장치 및 방법 Download PDF

Info

Publication number
KR20070060862A
KR20070060862A KR1020050120977A KR20050120977A KR20070060862A KR 20070060862 A KR20070060862 A KR 20070060862A KR 1020050120977 A KR1020050120977 A KR 1020050120977A KR 20050120977 A KR20050120977 A KR 20050120977A KR 20070060862 A KR20070060862 A KR 20070060862A
Authority
KR
South Korea
Prior art keywords
learning
learning data
candidate
generated
data
Prior art date
Application number
KR1020050120977A
Other languages
English (en)
Other versions
KR100750886B1 (ko
Inventor
이창기
왕지현
김현진
이충희
오효정
장명길
이영직
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020050120977A priority Critical patent/KR100750886B1/ko
Priority to US11/633,190 priority patent/US7725408B2/en
Publication of KR20070060862A publication Critical patent/KR20070060862A/ko
Application granted granted Critical
Publication of KR100750886B1 publication Critical patent/KR100750886B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models

Abstract

본 발명은 정보검색, 정보추출, 번역, 자연어 처리 등의 작업을 위한 통계적 방법론에서 필요한 학습 데이터 구축을 효율적으로 하기 위한 학습 데이터 구축 장치 및 방법을 제공하기 위한 것으로서, (a) 학습 데이터에 대해 기계 학습을 수행하여 학습 모델을 생성하는 단계와, (b) 상기 생성된 학습 모델을 이용하여 원시 코퍼스에 자동으로 태그를 부착하여 학습 데이터 후보를 생성하는 단계와, (c) 상기 생성된 학습 데이터 후보의 신뢰점수를 계산하고, 계산된 후보의 신뢰 점수를 이용하여 학습 데이터 후보를 선택하는 단계와, (d) 사용자에 의해 오류 수정된 상기 학습 데이터 후보를 학습 데이터에 추가시키는 단계를 포함하는데 있다.
학습데이터, 자동태그 부착, 학습 데이터 후보 선택, 능동 학습, 점진 학습

Description

학습 데이터 구축 장치 및 방법{Apparatus and method for learning data construction}
도 1 은 본 발명에 따른 학습 데이터 구축 장치를 나타낸 구성도
도 2 는 본 발명에 따른 학습 데이터 구축 방법을 나타낸 흐름도
도 3 은 본 발명에 따른 학습 데이터 구축 방법에서 점진 학습부의 세부 동작을 나타낸 흐름도
도 4 는 본 발명에 따른 학습 데이터 구축 방법에서 자동 태그 부착부의 세부 동작을 나타낸 흐름도
도 5 는 본 발명에 따른 학습 데이터 구축 방법에서 자동 태그 부착부의 세부 동작을 나타낸 흐름도
도 6 은 본 발명에 따른 학습 데이터 구축 방법에서 수동 오류 수정부의 세부 동작을 나타낸 흐름도
도 7 은 본 발명에 따른 학습 데이터 구축 방법의 정보 추출 분야에서 실제로 액티브 학습 방법론을 사용한 실시예
도 8 은 본 발명에 따른 학습 데이터 구축을 위한 실제 사용자 인터페이스의 실시예
*도면의 주요부분에 대한 부호의 설명
10 : 점진 학습부 11 : 초기 학습 데이터
20 : 자동 태그 부착부 21 : 원시 코퍼스
30 : 학습 데이터 후보 선택부 40 : 수동 오류 수정부
41 : 생성된 학습 데이터
본 발명은 정보검색, 정보추출, 번역, 자연어처리 등의 작업을 위한 통계적 방법론에서 필요한 학습 데이터 구축을 효율적으로 하기 위한 학습 데이터 구축 장치 및 그 방법에 관한 것이며,
정보검색, 정보추출, 번역, 자연어처리 등의 작업등에 최근 통계적 방법론이 많이 사용되고 있다. 이러한 통계적 방법론은 각 작업에 따른 학습 데이터 구축을 필요로 하고, 학습 데이터 구축의 양이 많을수록 높은 성능을 낸다.
일예로서 자연어처리의 형태소 분석과 개체명 승인(Named Entity Recognition)의 학습 데이터의 예를 들면 다음과 같다.
원문1 : 어제 이순신 장군과 말을 했다.
형태소 분석 : 어제/nc 이순신/nc 장군/nc+과/jj 말/nc+을/jc 하/pv+었/ep+다/ef ./s
원문2 : 한국ㅇ일본ㅇ만주ㅇ우수리강 등지에 분포한다.
Named Entity Recognition : <한국:LCP.COUNTRY>ㅇ<일본:LCP.COUNTRY>ㅇ<만주:LC.OTHERS>ㅇ<우수리강:LCG.RIVER> 등지에 분포한다.
또한, 정보추출의 학습 데이터의 예를 들면 다음과 같다.
원문3 : 한양대학교 송시몬 교수님을 모시고 "바이오칩을 이용한 샘플 전처리"에 대한 내용으로 전문가 초청 세미나를 개최합니다.
정보추출 : <한양대학교:발표자.소속> <송시몬교수님:발표자.경력>을 모시고 <"바이오칩을 이용한 샘플 전처리":세미나.제목>에 대한 내용으로 전문가 초청 세미나를 개최합니다.
그러나, 이와 같은 학습 데이터의 구축은 많은 인력과 시간이 필요하기 때문에 학습 데이터 부족 문제가 자주 발생한다.
상기 학습 데이터 부족 문제를 해결하기 위해서 기존의 방법들은 크게 세 가지 방법론으로 분류 된다.
첫 번째 방법론은 기계 학습을 이용하여 자동 태깅 기능을 지원하는 워크벤치를 사용하는 방법이다. 이는 자동 태깅을 지원하는 점은 본 발명과 비슷하지만 학습 데이터 후보 선택이나 오류 수정된 학습 데이터를 재사용하여 학습 데이터를 증강시켜 점진적으로 자동 태깅 성능을 높여주는 기능은 지원하지 않는다.
두 번째 방법은 비교사 학습(bootstrapping) 이나 코-트레이닝(co-training) 같은 방법이다. 이는 학습 데이터를 자동으로 태깅하여 학습 데이터를 증강시키는 기능은 본 발명과 비슷하나 자동 태깅 결과의 오류 수정이나 학습 데이터 후보 선택 등의 기능은 지원하지 않는다. 그리고 기계 학습 시에 일괄 학습(batch learning)을 이용하기 때문에 매 회 반복되는 기계 학습에 많은 시간이 걸린다는 단점이 있다. 또한 자동 태깅 결과에 오류가 포함되어 있기 때문에 성능이 좋지 않다는 단점이 있다.
세 번째 방법론은 능동 학습(active learning) 방법으로, 초기 학습 데이터로부터 학습모델을 생성하여 원시 코퍼스에 적용한 후, 최적의 학습 데이터 후보를 선택하여 적은 양의 학습 데이터를 구축해도 높은 성능을 내도록 하는 점은 본 발명과 비슷하지만, 매 회 반복되는 기계 학습에 일괄 학습(batch learning)을 적용하고 있어 학습 시간에 많은 시간이 소요된다. 특히 학습 데이터가 많아질수록 매회 반복되는 학습 시간이 늘어나 실제로 이 방법을 적용하기에 문제점이 있다.
따라서 본 발명은 상기와 같은 문제점을 해결하기 위해 안출한 것으로서, 학습 데이터 구축을 효율적으로 하기 위해서 기계 학습을 이용하여 자동으로 태그를 부착하여 학습 데이터 후보를 생성하고 신뢰점수를 계산하고 학습 데이터 후보를 선택하여 학습 데이터 구축의 비용 및 시간을 줄일 수 있는 학습 데이터 반자동 구축 장치 및 방법을 제공하는데 그 목적이 있다.
본 발명의 다른 목적은 학습 시간을 줄이기 위해 새로 추가된 학습 데이터만 을 이용하여 점진 학습(incremental learning)을 수행하여 학습 시간을 단축하여, 학습 데이터가 많아질수록 학습 시간이 증가하는 문제를 해결할 수 있는 학습 데이터 반자동 구축 장치 및 방법을 제공하는데 있다.
상기와 같은 목적을 달성하기 위한 본 발명에 따른 학습 데이터 구축 방법의 특징은 (a) 학습 데이터에 대해 기계 학습을 수행하여 학습 모델을 생성하는 단계와, (b) 상기 생성된 학습 모델을 이용하여 원시 코퍼스에 자동으로 태그를 부착하여 학습 데이터 후보를 생성하는 단계와, (c) 상기 생성된 학습 데이터 후보의 신뢰점수를 계산하고, 계산된 후보의 신뢰 점수를 이용하여 학습 데이터 후보를 선택하는 단계와, (d) 사용자에 의해 오류 수정된 상기 학습 데이터 후보를 학습 데이터에 추가시키는 단계를 포함하는데 있다.
바람직하게 상기 추가된 학습 데이터에 대해 상기 (a) 내지 (d) 단계를 반복 수행하는 것을 특징으로 한다.
바람직하게 상기 (b)단계는 원시 코퍼스에 속한 문장들로부터 자질을 생성하는 단계와, 상기 생성된 자질에 다수의 학습 모델을 적용하여 다수의 정답 추측을 한 후에 이들을 선출(Voting)하여 정답 문장을 결정하는 단계와, 상기 결정된 문장에 태그를 부착하여 학습 데이터 후보를 생성하는 단계를 포함하는 것을 특징으로 한다.
바람직하게 상기 (c)단계는 상기 다수의 학습 모델로부터 생성된 다수의 정답 추측치들을 이용하여 자동 생성된 학습 데이터 후보들의 신뢰 점수(Confidence score)를 계산하는 단계와, 상기 계산된 학습 데이터 후보들의 신뢰 점수를 이용하여 특정 학습 데이터 후보를 선택하는 단계를 포함하는 것을 특징으로 한다.
바람직하게 상기 학습 데이터 후보들의 신뢰 점수는 다수의 학습 모델을 이용하여 제공되는 다수의 정답 추측을 이용하여 커미티-베이스(committee-base) 방법으로 계산되는 것을 특징으로 한다.
바람직하게 상기 후보의 선택은 신뢰점수가 낮은 순으로 후보로 선택하는 액티브 학습(active learning) 방법과, 신뢰점수가 높은 순으로 후보로 선택하는 비교사 학습(bootstrapping) 방법중 하나의 방법으로 선택되는 것을 특징으로 한다.
바람직하게 상기 (d)단계는 사용자에게 상기 생성된 특정 학습 데이터 후보를 제시하면, 사용자가 GUI 도구를 이용하여 오류를 수정하는 단계와, 상기 수정된 학습 데이터 후보를 기존의 학습 데이터에 추가하는 단계를 포함하는 것을 특징으로 한다.
상기와 같은 목적을 달성하기 위한 본 발명에 따른 학습 데이터 구축 장치의 특징은 기계 학습을 이용하여 학습 데이터로부터 학습 모델을 생성하는 점진 학습부와, 상기 생성된 학습모델을 이용하여 원시 코퍼스에 자동으로 태그를 부착하여 학습 데이터 후보를 생성하는 자동 태그 부착부와, 상기 생성된 학습 데이터 후보의 신뢰점수를 계산하여 학습 데이터 후보를 선택하는 학습 데이터 후보 선택부와, 사용자에게 상기 선택된 학습 데이터 후보를 게시하고 사용자가 오류를 수정하도록 인터페이스를 제공하기 위한 수동 오류 수정부를 포함하는데 있다.
본 발명의 다른 목적, 특성 및 이점들은 첨부한 도면을 참조한 실시예들의 상세한 설명을 통해 명백해질 것이다.
본 발명에 따른 학습 데이터 구축 장치 및 방법의 바람직한 실시예에 대하여 첨부한 도면을 참조하여 설명하면 다음과 같다.
도 1 은 본 발명에 따른 학습 데이터 구축 장치를 나타낸 구성도이다.
도 1과 같이, 초기 학습 데이터(11)로부터 점진 학습을 수행하여 다수의 학습 모델을 생성하는 점진 학습부(10)와, 상기 생성된 다수의 학습모델을 이용하여 원시 코퍼스(21)에 자동으로 태그를 부착하여 학습 데이터 후보를 생성하는 자동 태그 부착부(20)와, 상기 자동 생성된 학습 데이터 후보들의 신뢰점수를 계산하여 학습 데이터 후보를 선택하는 학습 데이터 후보 선택부(30)와, 사용자에게 자동으로 태그가 부착된 학습 데이터 후보를 이용하여 학습 데이터(41)를 추가시키는 수동 오류 수정부(40)로 구성된다.
이때, 상기 점진 학습부(10)는 초기 학습 데이터(11)나 추가된 학습 데이터가 주어지면 학습 데이터에 속한 문장들로부터 기계 학습에 사용될 자질을 생성한 후, 생성된 자질을 이용하여 점진 학습으로 다수의 학습 모델을 생성한다.
그리고 상기 자동 태그 부착부(20)는 원시 코퍼스에 속한 문장들로부터 자질을 생성한 후 생성된 자질과 다수의 학습 모델을 적용하여 다수의 정답 추측으로 선출(voting) 정답을 결정하고 문장에 태그를 자동으로 부착하여 학습 데이터 후보를 생성한다.
또한, 상기 학습 데이터 후보 선택부(30)는 자동 생성된 학습 데이터 후보들의 신뢰 점수를 계산하고, 이때 다수의 모델로부터 생성된 정답 추측치들을 이용하 여 커미티-베이스(committee-base) 방법으로 신뢰 점수를 계산하는 것이 가능하며, 후보들의 신뢰 점수를 이용하여 학습 데이터 후보를 선택한다.
이와 같이 구성된 본 발명에 따른 학습 데이터 반자동 구축 장치의 동작을 첨부한 도면을 참조하여 상세히 설명하면 다음과 같다.
도 2 는 본 발명에 따른 학습 데이터 구축 방법을 나타낸 흐름도이다.
도 2를 참조하여 설명하면, 초기 학습 데이터(11)로부터 점진 학습부(10)에서 자질 생성 후 점진 학습을 이용하여 학습 모델을 생성한다(S100).
이어, 자동 태그 부착부(20)가 상기 생성된 학습 모델을 이용하여 원시 코퍼스(21)에 자동으로 태그를 부착하여 학습 데이터 후보를 생성한다(S200).
그러면, 학습 데이터 후보 선택부(30)에서 학습 데이터 후보들의 신뢰 점수를 계산하고, 이 계산된 후보들의 신뢰 점수를 이용하여 특정 학습 데이터 후보를 선택한다(S300).
이렇게 생성된 특정 학습 데이터 후보를 수동 오류 수정부(40)가 사용자에게 제시하고 이를 사용자가 GUI(Graphical User Interface) 도구를 이용하여 오류 수정한 후 학습 데이터를 증강하며, 증간된 학습 데이터(41)는 다시 점진 학습부(10)에 전달되어 추가된 학습 데이터에 대해서 점진 학습을 한다(S400).
이와 같은 과정을 반복하여 점진적으로 자동 태깅의 정확성을 높이고 학습 데이터를 증강시킨다.
도 3 은 본 발명에 따른 학습 데이터 구축 방법에서 점진 학습부의 세부 동작을 나타낸 흐름도이다.
도 3을 참조하여 설명하면, 초기 학습 데이터(11)가 주어지면 상기 학습 데이터로부터 기계 학습에 사용될 제 1 자질을 생성한다(S110). 이렇게 생성된 제 1 자질을 이용하여 기계 학습기로 학습을 수행하여(S120) 초기 학습 모델을 생성한다(S130).
이 생성된 초기 학습 모델로 도 1의 자동 태그 부착부(20), 학습 데이터 후보 선택부(30), 수동 오류 수정부(40) 등을 거쳐 학습 데이터를 생성하고, 생성된 학습 데이터(41)로부터 다시 점진 학습부(10)에서 제 2 자질을 생성한다(S140).
이어 상기 생성된 제 2 자질을 이용하여 점진 학습을 수행함으로써, 또 다른 학습 모델을 생성한다(S150).
그리고 기존의 학습 모델과 함께 다수의 학습 모델을 구성한다(S130).
이때, 새로 생성된 학습 데이터(41)로부터 점진 학습을 수행 시에(S140), 기본 기계 학습기(base learner)가 점진 학습(incremental learning or online learning)을 지원하는 경우에는 기존의 학습 모델에 생성된 학습 데이터를 이용하여 점진 학습을 수행하면 되지만, 대부분의 기계 학습기는 점진 학습을 지원하지 않기 때문에, 새로 생성된 데이터 만으로 학습하여 또 다른 학습 모델을 생성한다. 그리고 그 후에, 기존의 모델과 함께 다수의 학습 모델을 구성하여 도 1의 자동 태그 부착부(20)에서 다수의 모델을 이용하여 정답을 추측하게 된다.
즉, 최근 사용되는 기계 학습기는 Maximum Entropy 및 Conditional Random Fields 등이 높은 성능으로 많이 쓰이고 있는데, 여기에서는 점진 학습을 지원하지 않고 있다.
그러나 본 발명의 방법을 사용하면 점진 학습을 지원하지 않는 상기 기존의 기계 학습기를 기본 기계 학습기(base learner)로 사용하더라도 모든 학습 데이터를 이용하지 않고, 새로 생성된 학습 데이터만으로 또 다른 학습 모델을 생성함으로써 점진 학습의 효과를 볼 수 있다. 이에 따라, 학습 시간을 크게 줄일 수 있게 된다.
다음은 자연어처리의 청킹에 사용하는 자질 및 학습 모델의 일 실시예이다.
원문 : 한국의 세종 기지와 그 주변 세종 기지
청킹 학습 데이터 : <한국의 세종 기지와:NP> <그 주변 세종 기지:NP>
생성된 청킹 자질 :
(정답) (자질) (자질) …
B-NP word=한국 word+1=의 tag=MP tag+1=j
I-NP word=의 word-1=한국 word+1=세종 tag-1=MP tag=j tag+1=MP
I-NP word=세종word-1=의 word+1=기지 tag-1=j tag=MP tag+1=MC
I-NP word=기지 word-1=세종 word+1=와 tag-1=MP tag=MC tag+1=j
I-NP word=와 word-1=기지 word+1=그 tag-1=MC tag=j tag+1=G
B-NP word=그 word-1=와 word+1=주변 tag-1=j tag=G tag+1=MC
I-NP word=주변 word-1=그 word+1=세종 tag-1=G tag=MC tag+1=MP
I-NP word=세종 word-1=주변 word+1=기지 tag-1=MC tag=MP tag+1=MC
I-NP word=기지 word-1=세종 tag-1=MP tag=MC
생성된 학습 모델 :
(자질) (정답) (자질 Weight)
word=한국 B-NP 0.733384
word=한국 I-NP 0.0277564
word=한국 O -0.387011
word-1=한국 B-NP 0.528912
word-1=한국 I-NP 0.0375574
word-1=한국 O -0.423916
위의 일 실시예의 생성된 청킹 자질의 첫 번째 정보인 B-NP, I-NP 등은 각각 NP 청크의 시작점(Begin-Noun-Phrase), NP 청크의 중간점(Inside-Noun-Phrase) 등을 의미한다.
도 4 는 본 발명에 따른 학습 데이터 구축 방법에서 자동 태그 부착부의 세부 동작을 나타낸 흐름도이다.
도 4를 참조하여 설명하면, 먼저 원시 코퍼스(21)에 속한 문장들로부터 자질을 생성한다(S210).
그리고 상기 생성된 자질에 다수의 학습 모델을 적용하여 다수의 정답 추측을 한 후에 이들을 선출(Voting)하여 정답을 결정하고(S220), 문장에 태그를 자동으로 부착하여(S230) 학습 데이터 후보(S240)를 생성한다.
다음은 자연어처리의 청킹에 사용하는 자질 및 학습 데이터 후보의 일 실시 예이다.
원시 코퍼스 문장 : 아르헨티나의 주기지
생성된 자질 :
(자질) (자질) …
word=아르헨티나 word+1=의 tag=MP tag+1=j
word=의 word-1=아르헨티나 tag-1=MP tag=j tag+1=MP
word=주기지 word-1=의 tag-1=j word+1=는 tag=MP tag+1=j
다수의 학습 모델을 이용한 정답 추측 (학습 모델이 3개인 경우) :
(형태소) (모델1)(모델2)(모델3) (Voting결과)
아르헨티나 B-NP I-NP B-NP B-NP
의 I-NP I-NP I-NP I-NP
주기지 O I-NP I-NP I-NP
자동 태그 부착 (B-NP, I-NP, O) :
(형태소) (태그)
아르헨티나 B-NP
의 I-NP
주기지 I-NP
생성된 학습 데이터 후보 : <아르헨티나의 주기지:NP>
도 5 는 본 발명에 따른 학습 데이터 구축 방법에서 자동 태그 부착부의 세부 동작을 나타낸 흐름도이다.
도 5를 참조하여 설명하면, 먼저 상기 다수의 학습 모델로부터 생성된 다수의 정답 추측치들을 이용하여 자동 생성된 학습 데이터 후보들의 신뢰 점수(Confidence score)를 계산한다(S310).
그리고 상기 계사된 학습 데이터 후보들의 신뢰 점수를 이용하여 학습 데이터 후보를 선택한다(S320). 이렇게 선택된 학습 데이터 후보(S303)는 다음 단계인 수동 오류 수정부(40)의 입력으로 들어간다(S330).
이때, 상기 학습 데이터 후보들의 신뢰 점수를 구하는 방법은 여러 가지가 있는데 일반적으로는 기계 학습기가 제공하는 확률값 등을 사용하고, 그 이외에 다양한 정보를 이용하여 신뢰점수를 계산할 수 있다. 본 발명에서는 다수의 학습 모델을 이용하여 다수의 정답 추측을 제공하므로 커미티-베이스(committee-base) 방법을 사용하는 것이 바람직하다.
이러한 신뢰점수를 이용하여 후보를 선택할 때에 액티브 학습(active learning) 방법론을 사용하는 경우에는 신뢰점수가 낮은 순으로 후보로 선택하고, 비교사 학습(bootstrapping) 방법론을 사용하는 경우에는 신뢰점수가 높은 순으로 후보로 선택하게 된다.
일반적으로 상기 액티브 학습(active learning) 방법론을 사용하면 적은 학 습 데이터 후보를 사용해도 높은 성능을 유지할 수 있기 때문에 액티브 학습(active learning) 방법론을 사용하는 것이 바람직하다.
도 7 은 본 발명에 따른 학습 데이터 구축 방법의 정보 추출 분야에서 실제로 액티브 학습 방법론을 사용한 실시예이다.
도 7의 도표에서 세로축은 정보 추출의 정확도(accuracy)이고, 가로축은 학습 데이터의 크기이다. 그리고 점선으로 표시한 선이 액티브 학습을 이용하여 학습 데이터 후보를 선택한 것이고, 실선으로 표시한 선이 무작위로 학습 데이터를 선택한 것이다.
도 7을 보면 알 수 있듯이 대략 91.7%의 성능을 내기 위해서 액티브 학습은 2000개의 학습 데이터를 필요로 하지만, 랜덤 선택(random selection)에서는 그보다 4배 많은 8000개의 학습 데이터가 필요함을 알 수 있다.
따라서 상기 액티브 학습을 사용하여 학습 데이터를 선택함으로써 학습 데이터 구축 양을 75% 정도 감소시킬 수 있다.
도 6 은 본 발명에 따른 학습 데이터 구축 방법에서 수동 오류 수정부의 세부 동작을 나타낸 흐름도이다.
도 6을 참조하여 설명하면, 먼저 사용자에게 자동으로 생성된 상기 특정 학습 데이터 후보를 제시하면(S410), 사용자가 GUI 도구를 이용하여 수동으로 오류를 수정한다(S420).
그리고 이렇게 오류가 수정된 학습 데이터 후보를 기존의 학습 데이터에 추가한다(S430). 이렇게 추가된 학습 데이터는 다시 기계 학습부(10)의 입력으로 들 어가서 새로운 학습 모델을 생성하여 좀더 높은 정확도의 자동 태깅이 가능해진다.
이러한 작업을 반복하여 학습 모델의 구축 양이 늘어나고 자동 태깅 정확도가 높아진다.
도 8 은 본 발명에 따른 학습 데이터 구축을 위한 실제 사용자 인터페이스의 실시예이다
도 8과 같이, 사용자에게 자동으로 태깅된 결과를 보여주면, 사용자가 오류를 수정하고, 이를 다시 학습 데이터에 추가하며, 이 과정을 반복하게 하게 된다.
이상의 과정을 거쳐서 초기 학습 데이터를 이용하여 원시 코퍼스에 자동을 태그를 부착하여 학습 데이터 후보를 생성하고 신뢰 점수를 계산하여 학습 데이터 후보를 선택한다. 그리고 수동으로 오류를 수정하여 학습 데이터를 증강시킬 수 있게 된다. 또한, 이상의 과정을 반복함으로써 점진적으로 자동 태깅의 정확도가 높아지게 된다.
아울러 학습 데이터 후보를 신뢰 점수로 선택함으로써 액티브 학습이나 비교사 학습 방법론을 선택할 수 있으며, 상기 액티브 학습 사용시에는 적은 양의 학습 데이터로 높은 성능을 유지 할 수 있다.
또한 점진 학습을 사용하여 기존의 일괄 학습을 사용할 때보다 좀더 빠르게 학습을 수행할 수 있다.
이상에서와 같이 상세한 설명과 도면을 통해 본 발명의 최적 실시예를 개시하였다. 용어들은 단지 본 발명을 설명하기 위한 목적에서 사용된 것이지 의미 한정이나 특허청구범위에 기재된 본 발명의 범위를 제한하기 위하여 사용된 것은 아 니다. 그러므로 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.
이상에서 설명한 바와 같은 본 발명에 따른 학습 데이터 구축 장치 및 방법은 자동 태깅의 성능을 높이는 장치로 통계 정보를 이용하는 정보검색, 정보추출, 기계번역, 자연어처리 시스템에 필요한 학습 데이터 구축의 비용 및 시간을 줄여주고 학습 데이터 후보 선택 기능을 이용하여 적은 양의 학습 데이터로 높은 성능을 유지할 수 있다.
또한 기계 학습 시에 기존의 일괄 학습 대신에 점진 학습을 사용함으로써 학습 시간을 크게 줄일 수 있다.

Claims (8)

  1. (a) 학습 데이터에 대해 기계 학습을 수행하여 학습 모델을 생성하는 단계와,
    (b) 상기 생성된 학습 모델을 이용하여 원시 코퍼스에 자동으로 태그를 부착하여 학습 데이터 후보를 생성하는 단계와,
    (c) 상기 생성된 학습 데이터 후보의 신뢰점수를 계산하고, 계산된 후보의 신뢰 점수를 이용하여 학습 데이터 후보를 선택하는 단계와,
    (d) 사용자에 의해 오류 수정된 상기 학습 데이터 후보를 학습 데이터에 추가시키는 단계를 포함하는 것을 특징으로 하는 학습 데이터 구축 방법.
  2. 제 1 항에 있어서,
    상기 추가된 학습 데이터에 대해 상기 (a) 내지 (d) 단계를 반복 수행하는 것을 특징으로 하는 학습 데이터 구축 방법.
  3. 제 1 항에 있어서, 상기 (b)단계는
    원시 코퍼스에 속한 문장들로부터 자질을 생성하는 단계와,
    상기 생성된 자질에 다수의 학습 모델을 적용하여 다수의 정답 추측을 한 후에 이들을 선출(Voting)하여 정답 문장을 결정하는 단계와,
    상기 결정된 문장에 태그를 부착하여 학습 데이터 후보를 생성하는 단계를 포함하는 것을 특징으로 하는 학습 데이터 구축 방법.
  4. 제 1 항에 있어서, 상기 (c)단계는
    상기 다수의 학습 모델로부터 생성된 다수의 정답 추측치들을 이용하여 자동 생성된 학습 데이터 후보들의 신뢰 점수(Confidence score)를 계산하는 단계와,
    상기 계산된 학습 데이터 후보들의 신뢰 점수를 이용하여 특정 학습 데이터 후보를 선택하는 단계를 포함하는 것을 특징으로 하는 학습 데이터 구축 방법.
  5. 제 4 항에 있어서,
    상기 학습 데이터 후보들의 신뢰 점수는 다수의 학습 모델을 이용하여 제공되는 다수의 정답 추측을 이용하여 커미티-베이스(committee-base) 방법으로 계산되는 것을 특징으로 하는 학습 데이터 구축 방법.
  6. 제 4 항에 있어서,
    상기 후보의 선택은 신뢰점수가 낮은 순으로 후보로 선택하는 액티브 학습(active learning) 방법과, 신뢰점수가 높은 순으로 후보로 선택하는 비교사 학습(bootstrapping) 방법중 하나의 방법으로 선택되는 것을 특징으로 하는 학습 데이터 구축 방법.
  7. 제 1 항에 있어서, 상기 (d)단계는
    사용자에게 상기 생성된 특정 학습 데이터 후보를 제시하면, 사용자가 GUI 도구를 이용하여 오류를 수정하는 단계와,
    상기 수정된 학습 데이터 후보를 기존의 학습 데이터에 추가하는 단계를 포함하는 것을 특징으로 하는 학습 데이터 구축 방법.
  8. 기계 학습을 이용하여 학습 데이터로부터 학습 모델을 생성하는 점진 학습부와,
    상기 생성된 학습모델을 이용하여 원시 코퍼스에 자동으로 태그를 부착하여 학습 데이터 후보를 생성하는 자동 태그 부착부와,
    상기 생성된 학습 데이터 후보의 신뢰점수를 계산하여 학습 데이터 후보를 선택하는 학습 데이터 후보 선택부와,
    사용자에게 상기 선택된 학습 데이터 후보를 게시하고 사용자가 오류를 수정하도록 인터페이스를 제공하기 위한 수동 오류 수정부를 포함하는 것을 특징으로 하는 학습 데이터 구축 장치.
KR1020050120977A 2005-12-09 2005-12-09 학습 데이터 구축 장치 및 방법 KR100750886B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020050120977A KR100750886B1 (ko) 2005-12-09 2005-12-09 학습 데이터 구축 장치 및 방법
US11/633,190 US7725408B2 (en) 2005-12-09 2006-12-04 Apparatus and method for constructing learning data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020050120977A KR100750886B1 (ko) 2005-12-09 2005-12-09 학습 데이터 구축 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20070060862A true KR20070060862A (ko) 2007-06-13
KR100750886B1 KR100750886B1 (ko) 2007-08-22

Family

ID=38174957

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020050120977A KR100750886B1 (ko) 2005-12-09 2005-12-09 학습 데이터 구축 장치 및 방법

Country Status (2)

Country Link
US (1) US7725408B2 (ko)
KR (1) KR100750886B1 (ko)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101064950B1 (ko) * 2008-12-02 2011-09-15 한국전자통신연구원 번역 오류 후처리 보정 장치 및 방법
US8458520B2 (en) 2008-12-01 2013-06-04 Electronics And Telecommunications Research Institute Apparatus and method for verifying training data using machine learning
US8494835B2 (en) 2008-12-02 2013-07-23 Electronics And Telecommunications Research Institute Post-editing apparatus and method for correcting translation errors
KR101496885B1 (ko) * 2008-04-07 2015-02-27 삼성전자주식회사 문장 띄어쓰기 시스템 및 방법
US10055406B2 (en) 2015-09-08 2018-08-21 Samsung Electronics Co., Ltd. Server, user terminal, and method for controlling server and user terminal
KR20200068050A (ko) 2018-11-26 2020-06-15 국민대학교산학협력단 인공지능 수행을 위한 학습 데이터 생성장치 및 방법
KR102175531B1 (ko) 2020-04-23 2020-11-06 호서대학교 산학협력단 인공신경망을 학습시키기 위한 레이블을 포함하는 학습 데이터를 생성하기 위한 장치, 이를 위한 방법 및 이 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능한 기록매체
KR102259878B1 (ko) 2020-12-01 2021-06-03 주식회사 딥노이드 융합 컨볼루셔널 오토인코더를 이용한 객체의 회전에 영향을 받지 않는 분류 모델을 생성하기 위한 장치 및 이를 위한 방법
KR20210083726A (ko) * 2019-12-27 2021-07-07 재단법인대구경북과학기술원 알고리즘의 갱신을 위한 학습 데이터 결정 방법 및 장치
KR20210146611A (ko) * 2020-05-27 2021-12-06 (주)휴톰 일관성기반 정규화를 이용한 능동학습 방법 및 장치
WO2022055244A1 (ko) * 2020-09-09 2022-03-17 고려대학교 산학협력단 기계 번역의 학습 데이터 구축을 위한 방법
KR20220065640A (ko) * 2020-11-13 2022-05-20 홍채은 자가 지도학습을 통한 데이터 특성 학습 방법 및 가짜 정보 판별 방법

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8682819B2 (en) * 2008-06-19 2014-03-25 Microsoft Corporation Machine-based learning for automatically categorizing data on per-user basis
JP5390925B2 (ja) * 2009-04-24 2014-01-15 パナソニック株式会社 電池パック
CN103164426B (zh) * 2011-12-13 2015-10-28 北大方正集团有限公司 一种命名实体识别的方法及装置
US11631265B2 (en) 2012-05-24 2023-04-18 Esker, Inc. Automated learning of document data fields
JP6291844B2 (ja) * 2014-01-06 2018-03-14 日本電気株式会社 データ処理装置
US9589563B2 (en) 2014-06-02 2017-03-07 Robert Bosch Gmbh Speech recognition of partial proper names by natural language processing
US10169826B1 (en) 2014-10-31 2019-01-01 Intuit Inc. System and method for generating explanations for tax calculations
US10387970B1 (en) 2014-11-25 2019-08-20 Intuit Inc. Systems and methods for analyzing and generating explanations for changes in tax return results
US10872384B1 (en) 2015-03-30 2020-12-22 Intuit Inc. System and method for generating explanations for year-over-year tax changes
US10607298B1 (en) 2015-07-30 2020-03-31 Intuit Inc. System and method for indicating sections of electronic tax forms for which narrative explanations can be presented
KR102195627B1 (ko) 2015-11-17 2020-12-28 삼성전자주식회사 통역 모델 생성 장치 및 방법과, 자동 통역 장치 및 방법
US9589049B1 (en) 2015-12-10 2017-03-07 International Business Machines Corporation Correcting natural language processing annotators in a question answering system
US20170186098A1 (en) * 2015-12-28 2017-06-29 Intuit Inc. Systems and methods for identifying and explaining errors in the preparation of a payroll tax form using error graphs
US10679144B2 (en) 2016-07-12 2020-06-09 International Business Machines Corporation Generating training data for machine learning
US10872315B1 (en) 2016-07-27 2020-12-22 Intuit Inc. Methods, systems and computer program products for prioritization of benefit qualification questions
US10769592B1 (en) 2016-07-27 2020-09-08 Intuit Inc. Methods, systems and computer program products for generating explanations for a benefit qualification change
US10762472B1 (en) 2016-07-27 2020-09-01 Intuit Inc. Methods, systems and computer program products for generating notifications of benefit qualification change
US11055794B1 (en) 2016-07-27 2021-07-06 Intuit Inc. Methods, systems and computer program products for estimating likelihood of qualifying for benefit
US20180114274A1 (en) * 2016-10-26 2018-04-26 Intuit Inc. Methods, systems and computer program products for generating and presenting explanations for tax questions
AU2018269941A1 (en) * 2017-05-14 2019-12-05 Digital Reasoning Systems, Inc. Systems and methods for rapidly building, managing, and sharing machine learning models
US11080850B2 (en) 2018-01-16 2021-08-03 Electronics And Telecommunications Research Institute Glaucoma diagnosis method using fundus image and apparatus for the same
EP3797382A1 (en) * 2018-05-21 2021-03-31 Leverton Holding LLC Post-filtering of named entities with machine learning
US11556746B1 (en) * 2018-10-26 2023-01-17 Amazon Technologies, Inc. Fast annotation of samples for machine learning model development
US11720621B2 (en) * 2019-03-18 2023-08-08 Apple Inc. Systems and methods for naming objects based on object content
JP7238610B2 (ja) * 2019-06-04 2023-03-14 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
KR102281590B1 (ko) * 2019-07-31 2021-07-29 엘지전자 주식회사 음성인식 성능 향상을 위한 비 지도 가중치 적용 학습 시스템 및 방법, 그리고 기록 매체
US11562236B2 (en) * 2019-08-20 2023-01-24 Lg Electronics Inc. Automatically labeling capability for training and validation data for machine learning
WO2023027278A1 (ko) * 2021-08-27 2023-03-02 디어젠 주식회사 커리큘럼 기반의 능동적 학습 방법
KR20240017321A (ko) 2022-07-29 2024-02-07 주식회사 메디컬에이아이 심전도 판독을 위한 인공지능 모델의 업데이트 방법,프로그램 및 장치

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3135235B2 (ja) 1999-02-26 2001-02-13 株式会社エイ・ティ・アール音声翻訳通信研究所 照応解析装置
KR100322743B1 (ko) 1999-09-28 2002-02-07 윤종용 음성합성기의 문서해석기에서 사용되는 형태소 해석방법 및 그 장치
KR100338806B1 (ko) 2000-02-18 2002-05-31 윤종용 목적언어 분석에 기반한 언어 번역 방법 및 장치
KR100408855B1 (ko) * 2001-05-03 2003-12-18 주식회사 다이퀘스트 mDTD 문법 규칙을 이용한 웹 문서 자동 정보 추출 방법
US7668718B2 (en) * 2001-07-17 2010-02-23 Custom Speech Usa, Inc. Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile
JP4065936B2 (ja) * 2001-10-09 2008-03-26 独立行政法人情報通信研究機構 機械学習法を用いた言語解析処理システムおよび機械学習法を用いた言語省略解析処理システム
US6925601B2 (en) * 2002-08-28 2005-08-02 Kelly Properties, Inc. Adaptive testing and training tool
JP2004094434A (ja) 2002-08-30 2004-03-25 Fujitsu Ltd 言語処理方法、プログラム及び装置
US7249012B2 (en) 2002-11-20 2007-07-24 Microsoft Corporation Statistical method and apparatus for learning translation relationships among phrases
KR100533810B1 (ko) * 2003-10-16 2005-12-07 한국전자통신연구원 백과사전 질의응답 시스템의 지식베이스 반자동 구축 방법
KR100496873B1 (ko) 2003-10-24 2005-06-22 한국전자통신연구원 대표 형태소 어휘 문맥에 기반한 통계적 태깅 오류 정정장치 및 그 방법
US7296018B2 (en) * 2004-01-02 2007-11-13 International Business Machines Corporation Resource-light method and apparatus for outlier detection
KR100597437B1 (ko) * 2004-12-17 2006-07-06 한국전자통신연구원 하이브리드 정답유형 인식 장치 및 방법
US7630978B2 (en) * 2006-12-14 2009-12-08 Yahoo! Inc. Query rewriting with spell correction suggestions using a generated set of query features

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101496885B1 (ko) * 2008-04-07 2015-02-27 삼성전자주식회사 문장 띄어쓰기 시스템 및 방법
US8458520B2 (en) 2008-12-01 2013-06-04 Electronics And Telecommunications Research Institute Apparatus and method for verifying training data using machine learning
US8494835B2 (en) 2008-12-02 2013-07-23 Electronics And Telecommunications Research Institute Post-editing apparatus and method for correcting translation errors
KR101064950B1 (ko) * 2008-12-02 2011-09-15 한국전자통신연구원 번역 오류 후처리 보정 장치 및 방법
US10055406B2 (en) 2015-09-08 2018-08-21 Samsung Electronics Co., Ltd. Server, user terminal, and method for controlling server and user terminal
KR20200068050A (ko) 2018-11-26 2020-06-15 국민대학교산학협력단 인공지능 수행을 위한 학습 데이터 생성장치 및 방법
KR20210083726A (ko) * 2019-12-27 2021-07-07 재단법인대구경북과학기술원 알고리즘의 갱신을 위한 학습 데이터 결정 방법 및 장치
KR102175531B1 (ko) 2020-04-23 2020-11-06 호서대학교 산학협력단 인공신경망을 학습시키기 위한 레이블을 포함하는 학습 데이터를 생성하기 위한 장치, 이를 위한 방법 및 이 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능한 기록매체
KR20210146611A (ko) * 2020-05-27 2021-12-06 (주)휴톰 일관성기반 정규화를 이용한 능동학습 방법 및 장치
WO2022055244A1 (ko) * 2020-09-09 2022-03-17 고려대학교 산학협력단 기계 번역의 학습 데이터 구축을 위한 방법
KR20220033652A (ko) * 2020-09-09 2022-03-17 고려대학교 산학협력단 기계 번역의 학습 데이터 구축을 위한 방법
KR20220065640A (ko) * 2020-11-13 2022-05-20 홍채은 자가 지도학습을 통한 데이터 특성 학습 방법 및 가짜 정보 판별 방법
KR102259878B1 (ko) 2020-12-01 2021-06-03 주식회사 딥노이드 융합 컨볼루셔널 오토인코더를 이용한 객체의 회전에 영향을 받지 않는 분류 모델을 생성하기 위한 장치 및 이를 위한 방법

Also Published As

Publication number Publication date
US20070143284A1 (en) 2007-06-21
US7725408B2 (en) 2010-05-25
KR100750886B1 (ko) 2007-08-22

Similar Documents

Publication Publication Date Title
KR100750886B1 (ko) 학습 데이터 구축 장치 및 방법
CN109766538B (zh) 一种文本纠错方法、装置、电子设备以及存储介质
CN105989040B (zh) 智能问答的方法、装置及系统
CN108287820B (zh) 一种文本表示的生成方法及装置
CN110543552A (zh) 对话交互方法、装置及电子设备
CN101630333A (zh) 用于查询扩展的音译
CN107748744B (zh) 一种勾勒框知识库的建立方法及装置
KR20190056184A (ko) 기계 독해를 위한 질의응답 데이터 생성 시스템
CN112069349A (zh) 自动填写答案的方法、电子设备和可读存储介质
CN113407675A (zh) 教育题目自动批改方法、装置和电子设备
CN112287926A (zh) 一种图形题目的批改方法、装置以及设备
CN114218379A (zh) 一种面向智能问答系统的无法回答问题的归因方法
CN110516240B (zh) 一种基于Transformer的语义相似度计算模型DSSM技术
CN116361306A (zh) 面向开放域科普的问答库自动更新方法和装置
CN116881470A (zh) 一种生成问答对的方法及装置
CN113836894B (zh) 多维度英语作文评分方法、装置及可读存储介质
KR20170014262A (ko) 외국어 문장을 올바른 문장으로 보정하는 작문 서비스 방법 및 장치
CN116663530B (zh) 数据生成方法、装置、电子设备及存储介质
CN117077679A (zh) 命名实体识别方法和装置
CN112419812A (zh) 一种习题批改方法及装置
CN106599312B (zh) 知识库的检验方法、装置及终端
CN112800177B (zh) 基于复杂数据类型的faq知识库自动生成方法和装置
CN112560431A (zh) 用于生成试题辅导信息的方法、装置、设备、存储介质以及计算机程序产品
CN114611513A (zh) 样本生成方法、模型训练方法、实体识别方法及相关装置
CN113822053A (zh) 一种语法错误检测方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120730

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20130729

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20140728

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20150728

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20160726

Year of fee payment: 10

LAPS Lapse due to unpaid annual fee