KR100487718B1

KR100487718B1 - 영역 외 코퍼스를 이용한 영역 종속적 훈련 코퍼스 보강시스템 및 그 방법

Info

Publication number: KR100487718B1
Application number: KR10-2002-0081932A
Authority: KR
Inventors: 정의정
Original assignee: 한국전자통신연구원
Priority date: 2002-12-20
Filing date: 2002-12-20
Publication date: 2005-05-03
Also published as: KR20040055292A

Abstract

영역 외 코퍼스를 이용한 영역 종속적 훈련 코퍼스 보강 시스템 및 그 방법이 개시된다. 본 발명에 따른 코퍼스 보강 시스템은 특정 영역에 대한 소규모의 언어모델 데이터를 갖는 영역 코퍼스, 영역 코퍼스와는 다른 영역에 대한 언어모델 데이터를 가지되, 영역 코퍼스와 내용은 유사하지만 형식이 다른 내용유사 코퍼스, 내용유사 코퍼스의 형식을 영역 코퍼스와 같은 형식으로 표준화시키는 형식 표준화부 및 형식 표준화부에서 표준화된 코퍼스를 영역 코퍼스에 추가하여 언어모델이 보강된 코퍼스를 생성하는 가산기를 포함하는 것을 특징으로 하며, 연속음성인식을 위한 통계적 언어모델의 성능 저하의 원인이 되는 영역 종속적 훈련 코퍼스 부족 문제 해결을 위하여 영역 외 훈련 코퍼스를 활용함으로써, 음성인식을 위한 언어모델이 보다 신뢰성 있고 강건해 질 수 있다.

Description

영역 외 코퍼스를 이용한 영역 종속적 훈련 코퍼스 보강 시스템 및 그 방법{System and method for improving in-domain training data using out-of-domain data}

본 발명은 대어휘 연속 음성 인식(Large Vocabulary Continuous Speech Recognition; LVCSR)에 관한 것으로, 특히, 영역외 훈련 코퍼스를 이용한 훈련 코퍼스 보강 시스템 및 그 방법에 관한 것이다.

음성인식 시스템을 위한 가장 성공적인 언어모델링 기법은 통계적 언어모델링이며 이는 신뢰성이 높고 강건한 통계치를 가지기 위해 충분한 규모의 훈련 코퍼스(말뭉치:text database)를 필요로 한다. 또한, 어떤 한 영역에 종속적으로 구축된 통계적 언어모델은 영역이 달라질 경우 제대로 된 성능을 나타낼 수 없다. 즉, 새로운 영역 종속적 훈련 코퍼스가 부족할 경우 통계적 언어모델은 음성인식 성능에 어떠한 기여도 하지 못할 뿐더러 오히려 성능 악화를 유발시킨다. 또한, 영역 종속적인 코퍼스 확보는 결코 쉽지가 않다는 문제점이 있다.

도 1은 일반적인 연속 음성인식시스템을 개략적으로 나타내는 블록도이다.

도 1을 참조하여, 특징추출부(101)는 입력된 음성으로부터 인식에 유용한 정보만을 추출하여 특징벡터로 변환한다.

탐색부(102)는 특징추출부(101)에서 출력되는 특징벡터로부터 학습과정에서 미리 구해진 음향모델 데이터베이스(104)와 발음사전 데이터베이스(105), 언어모델 데이터베이스(106)를 이용하여 확률이 가장 높은 단어열을 비터비 알고리듬을 이용하여 찾는다. 여기서 대어휘 인식을 위하여 인식 대상 어휘들은 트리를 구성하고 있으며, 탐색부(102)는 이러한 트리를 탐색한다.

마지막으로, 인식 결과 출력부(103)는 탐색부(102)의 출력을 이용하여 인식된 텍스트를 출력한다.

도 1에 도시된 시스템과 같이, 다양한 영역의 대화 인식을 목적으로 하는 대화체 연속음성인식 시스템에서의 통계적 언어모델은 훈련 코퍼스가 충분히 확보된 경우에 아주 신뢰성이 높고 강건한 모델이 구축될 수 있다. 여기서, 언어모델이란 음성 인식 시스템의 문법이라 할 수 있다. 연속음성인식 시스템이라고 해서 임의의 아무 문장을 다 인식할 수 있는 것은 아니고 어떤 정해진 문법에 맞는 문장만을 인식하게 된다. 언어모델을 음성인식 시스템의 탐색 과정에 사용함으로써 음성인식 시스템의 탐색 공간을 감소시킬 수 있으며, 문법에 맞는 문장에 대한 확률을 높여주는 역할을 하기 때문에 인식률 향상에도 기여하게 된다.

상기한 바와 같이, 여러 언어모델링 기법 가운데 통계적 언어모델링이 대어휘 연속 음성인식시 가장 성능이 뛰어나다. 통계적 언어모델은 단어간의 연결 관계가 확률로서 표현되는 문법이다. 통계적 언어모델에 많이 사용되는 n-gram은 과거의 n-1개의 단어로부터 다음에 나타날 단어의 확률을 정의하는 문법으로서 흔히 사용되는 n-gram은 바이그램(n=2), 트라이그램(n=3)이다. 통계적 언어모델의 장점은 모든 것을 확률로서 정의하기 때문에 사람의 지식이 별로 필요하지 않고 대량의 코퍼스만 있으면 쉽게 구현할 수 있다는 장점이 있다. 그러나 코퍼스가 적을 경우에는 믿을만한 수치의 확률값을 구하지 못하고, 오히려 성능 악화를 유발시킬 수 있다.

결국, 통계적 언어 모델의 확률값들이 믿을만한 수치를 지니기 위해서는 엄청난 양의 코퍼스를 필요로 하며 이를 수집하는 것은 굉장한 노력과 시간 돈이 드는 일이다. 특히, 여행 상담이나 일상 생활속에서 발생하는 대화체 유형의 문장을 충분히 확보하는 일은 결코 쉬운 일이 아니며, 따라서 불충분한 텍스트 데이터로부터 강건한(robust) 언어모델을 구축하기 위한 새로운 기법들이 요구된다.

본 발명이 이루고자 하는 기술적 과제는 연속 음성인식을 위한 통계적 언어모델 구축 시 일반적으로 발생하게 되는 영역 종속적 훈련 코퍼스 부족으로 인한 통계적 언어 모델의 성능 저하 문제를 극복하기 위해, 영역 외 훈련 코퍼스를 활용함으로써 연속 음성인식을 위한 언어모델의 성능을 향상시킬 수 있는 훈련 코퍼스 보강 시스템을 제공하는 데 있다.

본 발명이 이루고자 하는 다른 기술적 과제는 상기 훈련 코퍼스 보강 시스템에서 수행되는 코퍼스 보강 방법을 제공하는 데 있다.

본 발명이 이루고자 하는 또 다른 기술적 과제는 상기 훈련 코퍼스 보강 방법을 컴퓨터에서 실행 가능한 프로그램 코드로 기록된 기록 매체를 제공하는 데 있다.

상기 과제를 이루기 위해, 본 발명에 따른 코퍼스 보강 시스템은 특정 영역에 대한 소규모의 언어모델 데이터를 갖는 영역 코퍼스, 영역 코퍼스와는 다른 영역에 대한 언어모델 데이터를 가지되, 영역 코퍼스와 내용은 유사하지만 형식이 다른 내용유사 코퍼스, 내용유사 코퍼스의 형식을 영역 코퍼스와 같은 형식으로 표준화시키는 형식 표준화부 및 형식 표준화부에서 표준화된 코퍼스를 영역 코퍼스에 추가하여 언어모델이 보강된 코퍼스를 생성하는 가산기를 포함하는 것이 바람직하다.

상기 과제를 이루기 위해, 본 발명에 따른 코퍼스 보강 시스템은 특정 영역에 대한 소규모의 언어모델 데이터를 갖는 영역 코퍼스, 영역 코퍼스와는 다른 영역에 대한 언어모델 데이터를 가지되, 영역 코퍼스와 형식은 유사하지만 내용이 다른 형식유사 코퍼스, 형식 유사 코퍼스를 영역 코퍼스에 추가하여 언어모델이 보강된 코퍼스를 생성하는 가산기 및 가산기에서 생성된 보강된 코퍼스에서 영역 코퍼스의 언어모델에 가중치를 높게 부여하여 영역 코퍼스의 언어모델이 선택될 확률을 높게하는 가중치 조정부를 포함하는 것이 바람직하다.

상기 과제를 이루기 위해, 본 발명에 따른 코퍼스 보강 시스템은 특정 영역에 대한 소규모의 언어모델 데이터를 갖는 영역 코퍼스, 영역 코퍼스와는 다른 영역에 대한 언어모델 데이터를 가지되, 영역 코퍼스와 내용은 유사하지만 형식이 다른 내용유사 코퍼스, 영역 코퍼스와는 다른 영역에 대한 언어모델 데이터를 가지되, 영역 코퍼스와 형식은 유사하지만 내용이 다른 형식유사 코퍼스, 내용유사 코퍼스의 형식을 영역 코퍼스와 같은 형식으로 표준화시키는 형식 표준화부, 형식 표준화부에서 표준화된 코퍼스를 영역 코퍼스에 추가하여 언어모델이 보강된 코퍼스를 생성하는 제1가산기, 형식 유사 코퍼스를 영역 코퍼스에 추가하여 언어모델이 보강된 코퍼스를 생성하는 제2가산기 및 가산기에서 생성된 보강된 코퍼스에서 영역 코퍼스의 언어모델에 가중치를 높게 부여하여 영역 코퍼스의 언어모델이 선택될 확률을 높게하는 가중치 조정부를 포함하는 것이 바람직하다.

상기 다른 과제를 이루기 위해, 특정 영역에 대한 소규모의 언어모델 데이터를 갖는 영역 코퍼스를 영역 코퍼스와는 다른 영역에 대한 언어모델 데이터를 갖는 영역 외 코퍼스를 이용하여 코퍼스 보강하는 본 발명에 따른 코퍼스 보강 방법은 영역 외 코퍼스에서 영역 코퍼스와 내용은 유사하지만 형식이 다른 내용유사 코퍼스를 추출하는 (a)단계, 내용유사 코퍼스의 형식을 영역 코퍼스와 같은 형식으로 표준화시키는 (b)단계 및 (b)단계에서 표준화된 코퍼스를 영역 코퍼스에 추가하여 언어모델이 보강된 코퍼스를 생성하는 (c)단계를 포함하는 것이 바람직하다.

상기 다른 과제를 이루기 위해, 특정 영역에 대한 소규모의 언어모델 데이터를 갖는 영역 코퍼스를 영역 코퍼스와는 다른 영역에 대한 언어모델 데이터를 갖는 영역 외 코퍼스를 이용하여 코퍼스 보강하는 본 발명에 따른 코퍼스 보강 방법은 영역 외 코퍼스에서 영역 코퍼스와 형식은 유사하지만 내용이 다른 형식유사 코퍼스를 추출하는 (a)단계, 형식 유사 코퍼스를 영역 코퍼스에 추가하여 언어모델이 보강된 코퍼스를 생성하는 (b)단계 및 (b)단계에서 생성된 코퍼스에서 영역 코퍼스의 언어모델에 가중치를 높게 부여하여 영역 코퍼스의 언어모델이 선택될 확률이 높아지도록 가중치를 조정하는 (c)단계를 포함하는 것이 바람직하다.

상기 다른 과제를 이루기 위해, 특정 영역에 대한 소규모의 언어모델 데이터를 갖는 영역 코퍼스를 영역 코퍼스와는 다른 영역에 대한 언어모델 데이터를 갖는 영역 외 코퍼스를 이용하여 코퍼스 보강하는 본 발명에 따른 코퍼스 보강 방법은 영역 외 코퍼스에서 영역 코퍼스와 내용은 유사하지만 형식이 다른 내용유사 코퍼스 및 영역 코퍼스와 형식은 유사하지만 내용이 다른 형식유사 코퍼스를 각각 추출하는 (a)단계, 내용유사 코퍼스의 형식을 영역 코퍼스와 같은 형식으로 표준화시키는 (b)단계, (b)단계에서 표준화된 코퍼스 및 형식 유사 코퍼스를 영역 코퍼스에 각각 추가하여 언어모델이 보강된 코퍼스를 생성하는 (c)단계 및 (c)단계에서 생성된 보강된 코퍼스에서 영역 코퍼스의 언어모델에 가중치를 높게 부여하여 영역 코퍼스의 언어모델이 선택될 확률이 높아지도록 가중치를 조정하는 (d)단계를 포함하는 것이 바람직하다.

이하, 본 발명에 따른 영역 외 훈련 코퍼스를 이용한 영역 종속적 훈련 코퍼스 보강 시스템 및 그 방법을 첨부한 도면들을 참조하여 다음과 같이 설명한다.

도 2는 본 발명에 따른 영역 외 훈련 코퍼스를 이용한 영역 종속적 훈련 코퍼스 보강 시스템의 일실시예를 개략적으로 나타내는 블록도이다. 본 발명에 따른 훈련 코퍼스 보강 시스템은 영역 외 코퍼스(201), 형식 표준화부(204), 제1 및 제2가산부(209,210), 영역 코퍼스(205), 제1 및 제2보강된 코퍼스(206,207) 및 유니그램값 조정부(208)를 포함하여 구성된다.

도 2를 참조하여, 영역 코퍼스(205)는 특정 영역에 대한 소규모의 언어모델 데이터를 갖는 코퍼스이다. 이하, 설명의 편의를 위해, 영역 코퍼스(205)는 여행과 관련된 대화체 코퍼스인 것으로 한다.

영역 외 코퍼스(201)는 영역 코퍼스(205) 이외의 영역에 대한 언어모델 데이터를 갖는 코퍼스이다. 이 때, 영역 외 코퍼스(201)는 크게 영역 코퍼스(205)와 내용은 유사하되 형식이 다른 내용유사 코퍼스(202)와 형식은 유사하되 내용이 다른 형식유사 코퍼스(203)로 각각 분류될 수 있다.

형식 표준화부(204)는 영역 외 코퍼스(201)에서 내용유사 코퍼스(202)를 추출하고, 추출된 내용유사 코퍼스(202)의 형식을 영역 코퍼스(205)의 형식으로 즉, 여행관련 대화체 형식으로 변화시킨다.

제1가산부(209)는 형식 표준화부(204)에서 영역 코퍼스(205)의 형식으로 변화된 코퍼스와 영역 코퍼스(205)에 추가하여 제1보강된 코퍼스(206)를 생성할 수 있다. 즉, 영역 코퍼스(205)의 부족했던 언어모델 데이터를 내용유사 코퍼스(202)의 형식을 영역 코퍼스(205)의 형식으로 변화시켜 영역 코퍼스(205)의 언어모델 데이터를 보다 풍부하게 보강시킬 수 있다.

제2가산부(210)는 영역 외 코퍼스(201)에서 형식 유사 코퍼스(203)를 추출하여 영역 코퍼스(205)에 추가시켜 제2보강된 코퍼스(207)를 생성할 수 있다. 즉, 영역 코퍼스(205)와 형식이 유사한 경우, 그 내용을 그대로 영역 코퍼스(205)에 추가시킨다.

가중치 조정부(208)는 제2보강된 코퍼스(207)에서 추가된 형식유사 코퍼스(203)보다 영역 코퍼스(205)의 언어모델의 유니그램(unigram) 확률값에 가중치를 높게 부여함으로써, 영역 코퍼스(205)의 언어모델이 선택될 확률을 높게 한다. 그 이유는, 가산된 형식유사 코퍼스(203)의 경우 영역 코퍼스(205)와 내용이 다를 수 있으므로, 영역 코퍼스(205)의 유니그램값을 조정하여 형식유사 코퍼스(203)보다는 영역 코퍼스(205)의 언어모델이 선택될 확률값을 높인다.

이상에서와 같이, 영역 외 코퍼스(201)를 이용하여 영역 코퍼스(205)의 언어모델 데이터를 보강하고자 할 경우, 내용유사 코퍼스(202)인가 또는 형식유사 코퍼스(203)인가에 따라 보강된 코퍼스(206,207)를 각각 구축할 수 있다.

예를 들어, 다음과 같은 [여행상담-낭독체]와 [여행상담-대화체}의 경우를 살펴보자.

[여행상담-낭독체]

여권 발급서류는 여권용사진 2매, 신분증입니다.

발급장소는 공항터미널 1층 강남구청 여권과에서 신청하시면 됩니다. 자세한 사항은 강남구청 여권과로 문의하시기 바랍니다.

[여행상담-대화체]

A:어 그냥 돈 바꿀려구요.

B:저기 환전소는 여기 일 층에 있구요, 면세점은 삼 층에 있습니다

위와 같이, 여행을 주제로 하고 있으면서 문장 형식도 대화체적인 특징이 있는 텍스트들은 대화체의 여행 분야 언어모델 구축을 위해 당연히 사용 가능하다. 그러나, 내용이 유사한 [여행상담-낭독체] 데이터를 그냥 가져다 쓸 수는 없다. 왜냐하면, [여행상담-낭독체] 데이터는 형식면에서나 문장의 스타일면에서나 대화체의 대화체 여행 분야와 상이한 특징들을 나타내고 있기 때문이다. 이처럼, 여행을 주제로 하고 있지만 대화체적인 스타일을 가지고 있지 않은 텍스트 데이터들은 스타일 측면에서 대화체적인 요소를 가지게끔 형식 표준화부(204)를 통해 변환해주어야 한다.

형식 표준화부(204)를 통해 [여행상담-낭독체]를 대화체적인 스타일을 가지게끔 변환해주면 다음과 같다.

[여행상담-낭독체::변환후]

여권 발급 서류는 여권 사진 2장이랑 신분증이예요.

발급하는 장소는 공항터미널 1층에 강남구청 여권과에서 신청하면 되구요 좀 더 자세한건 강남구청 여권과로 문의하면 됩니다.

이처럼, 형식 표준화부(204)를 통해 형식 변환을 함으로써, 대화체의 여행 분야 언어모델 구축에 [여행상담-낭독체]를 이용할 수 있게 된다. 구체적으로, 형식 표준화는 원래의 텍스트 데이터에 형태소 태깅(각 형태소 어휘마다 품사를 표기하여 주는 것)을 하여서 대화체적인 특징을 나타내는 품사가 어떤 것이 있는지, 또 낭독체적인 특징을 나타내는 품사엔 어떤 것이 있는지 미리 미리 조사하고 있다가 영역 외 데이터 가운데 해당하는 품사가 나타나면 그 품사를 대화체적 품사로 변환하여 주는 역할을 한다. 형식 표준화부(204)에 대해서는 도 3을 참조하여 보다 구체적으로 설명될 것이다.

계속해서, 다음과 같은 [여행중 공항에서의 대화]와 [여행중 호텔에서의 대화]의 경우, 즉, 형식은 대화체로서 유사하나 내용이 서로 다른 경우를 살펴보자.

[여행 중 공항에서의 대화]

A:어 그냥 돈 바꾸려구요.

B:저기, 환전소는 여기 일 층에 있구여 면세점은 삼 층에 있습니다

[여행중 호텔에서의 대화]

A:저, 제가 헬스클럽을 이용하고 싶은데 부대 시설은 어디에 있나요.

B:휘트니스 클럽이 있는데, 수영장은 야외에 있고 체력실은 지하 일 층, 사우나는 지하 삼 층, 온천은 지하 이 층, 볼링장은 지하 일 층, 오락실은 지하 일 층에 각각 있습니다.

A:네.. 그리고요 식당은 어디에 있나요.

B:일 층에 가요 주점이 있고요, 이 층에 일식당과 양식당이 있습니다.

그리고, 삼 층에 가시면 민속 식당과 커피숍이 있으니까 입 맛에 맞는 곳으로 가세요.

만약, [여행 중 공항에서의 대화]를 위한 언어모델을 구축하고자 하는데 영역 코퍼스가 부족한 경우에 영역 외 코퍼스로 위의 [여행중 호텔에서의 대화]를 사용할 수 있다. 즉, [여행중 호텔에서의 대화]의 경우는 주제면에서 그 키워드는 [여행 중 공항에서의 대화]와 다르지만 말하는 패턴이나 스타일이 대화체로서 유사한 형식유사 코퍼스인 경우이다. 이처럼, 내용은 다르지만 스타일이 유사한 형식유사 코퍼스를 이용하여 언어모델을 구축할 경우, 가중치 조정부(208)를 통해 [여행중 공항에서의 대화]에 나타는 공항용 어휘들의 확률값에 가중치를 더 높여주어 선택될 확률을 높인다.

이상에서와 같이, 연속음성인식을 위한 통계적 언어모델의 성능 저하의 원인이 되는 영역 종속적 훈련 코퍼스 부족 문제 해결을 위하여 영역 외 훈련 코퍼스를 활용함으로써, 음성인식을 위한 언어모델이 보다 신뢰성 있고 강건해 질 수 있다.

도 3은 도 2에 도시된 시스템에서 형식 표준화부(204)를 구체적으로 나타내는 블록도이다. 도 3을 참조하여, 형식 표준화부(204)는 형태소 분석부(302), 품사정보 분석부(303), 텍스트 표준화부(304) 변환된 영역 외 코퍼스(305)를 포함하여 구성된다.

도 2 및 도 3을 참조하여, 형태소 분석부(302)는 영역 외 코퍼스(201) 가운데 영역 코퍼스(205)와 내용면에서 유사한 내용유사 코퍼스(202)의 형태소를 분석하여 각 형태소 어휘마다 품사를 표기하는 형태소 태깅을 한다.

품사정보 분석부(303)는 형태소 분석부(302)에서 형태소 태깅된 결과를 이용하여 대화체적인 특징으로 나타내는 품사가 어떤 것이 있는지, 또 낭독체적인 특징을 나타내는 품사엔 어떤 것이 있는지를 분석한다.

텍스트 표준화부(304)는 품사정보 분석부(303)에서 품사분석된 품사 리스트를 이용하여 영역 코퍼스(205)와 유사한 형식을 갖도록 품사 변형을 하여 형식변환된 영역 외 코퍼스를 생성한다. 예컨대, 영역 코퍼스(205)의 형식이 대화체 형식이고 영역 외 코퍼스(201)의 내용유사 코퍼스(202)가 낭독체 형식이라면, 텍스트 표준화부(304)는 품사정보 분석부(303)에서 품사분석된 결과중 낭독체 품사를 대화체 품사로 변형하여 내용유사 코퍼스(202)의 형식을 영역 코퍼스(205)의 형식으로 변화시킨다.

이상에서와 같은 형태소 분석, 품사정보 분석 및 텍스트 표준화 과정들을 통해 내용유사 코퍼스(202)는 내용뿐만 아니라 그 형식도 영역 코퍼스(205)와 유사해지게 된다.

본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플라피디스크, 광데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.

이상 도면과 명세서에서 최적 실시예들이 개시되었다. 여기서 특정한 용어들이 사용되었으나, 이는 단지 본 발명을 설명하기 위한 목적에서 사용된 것이지 의미 한정이나 특허청구범위에 기재된 본 발명의 범위를 제한하기 위하여 사용된 것은 아니다. 그러므로 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.

상술한 바와 같이, 영역 외 코퍼스를 이용한 본 발명에 따른 코퍼스 보강 시스템 및 그 방법에 따르면, 연속음성인식을 위한 통계적 언어모델의 성능 저하의 원인이 되는 영역 종속적 훈련 코퍼스 부족 문제 해결을 위하여 영역 외 훈련 코퍼스를 활용함으로써, 음성인식을 위한 언어모델이 보다 신뢰성 있고 강건해 질 수 있다.

도 2는 본 발명에 따른 영역 외 훈련 코퍼스를 이용한 영역 종속적 훈련 코퍼스 보강 시스템의 일실시예를 개략적으로 나타내는 블록도이다.

도 3은 도 2에 도시된 시스템에서 형식 표준화부(204)를 구체적으로 나타내는 블록도이다.

Claims

특정 영역에 대한 소규모의 언어모델 데이터를 갖는 영역 코퍼스;

상기 영역 코퍼스와는 다른 영역에 대한 언어모델 데이터를 가지되, 상기 영역 코퍼스와 내용은 유사하지만 형식이 다른 내용유사 코퍼스;

상기 내용유사 코퍼스의 형태소를 분석하여 형태소 태깅을 수행하고, 상기 형태소 태깅된 결과에 대하여 품사분석하여 이루어진 품사 리스트를 통하여 상기 내용유사 코퍼스의 형식을 상기 영역 코퍼스와 유사한 형식을 갖도록 품사 변형을 함으로써 형식 변환된 영역 외 코퍼스를 생성하는 형식 표준화부; 및

상기 형식 표준화부에서 형식 변환된 영역 외 코퍼스를 상기 영역 코퍼스에 추가하여 언어모델이 보강된 코퍼스를 생성하는 가산기를 포함하는 것을 특징으로 하는 코퍼스 보강 시스템.
제1항에 있어서, 상기 형식 표준화부는

상기 내용유사 코퍼스의 형태소를 분석하여 각 형태소 어휘마다 품사를 표기하는 형태소 태깅을 하는 형태소 분석부;

상기 형태소 분석부에서 형태소 태깅된 결과를 이용하여 형식적인 특징을 나타내는 품사가 어떤 것이 있는지를 분석하는 품사정보 분석부; 및

상기 품사정보 분석부에서 품사분석된 품사 리스트를 이용하여 상기 영역 코퍼스와 유사한 형식을 갖도록 품사 변형을 하여 형식 변환된 영역 외 코퍼스를 생성하는 텍스트 표준화부를 포함하는 것을 특징으로 하는 코퍼스 보강 시스템.
특정 영역에 대한 소규모의 언어모델 데이터를 갖는 영역 코퍼스;

상기 영역 코퍼스와는 다른 영역에 대한 언어모델 데이터를 가지되, 상기 영역 코퍼스와 형식은 유사하지만 내용이 다른 형식유사 코퍼스;

상기 형식 유사 코퍼스를 상기 영역 코퍼스에 추가하여 언어모델이 보강된 코퍼스를 생성하는 가산기; 및

상기 가산기에서 생성된 보강된 코퍼스에서 상기 영역 코퍼스의 언어모델에 가중치를 높게 부여하여 상기 영역 코퍼스의 언어모델이 선택될 확률을 높게하는 가중치 조정부를 포함하는 것을 특징으로 하는 코퍼스 보강 시스템.
제3항에 있어서, 상기 가중치 조정부는

상기 영역 코퍼스의 언어모델에 유니그램 확률값을 높게 부여하는 것을 특징으로 하는 코퍼스 보강 시스템.
특정 영역에 대한 소규모의 언어모델 데이터를 갖는 영역 코퍼스;

상기 영역 코퍼스와는 다른 영역에 대한 언어모델 데이터를 가지되, 상기 영역 코퍼스와 내용은 유사하지만 형식이 다른 내용유사 코퍼스;

상기 영역 코퍼스와는 다른 영역에 대한 언어모델 데이터를 가지되, 상기 영역 코퍼스와 형식은 유사하지만 내용이 다른 형식유사 코퍼스;

상기 내용유사 코퍼스의 형태소를 분석하여 형태소 태깅을 수행하고, 상기 형태소 태깅된 결과에 대하여 품사분석하여 이루어진 품사 리스트를 통하여 상기 내용유사 코퍼스의 형식을 상기 영역 코퍼스와 유사한 형식을 갖도록 품사 변형을 함으로써 형식 변환된 영역 외 코퍼스를 생성하는 형식 표준화부; 및

상기 형식 표준화부에서 형식 변환된 영역 외 코퍼스를 상기 영역 코퍼스에 추가하여 언어모델이 보강된 코퍼스를 생성하는 제1가산기;

상기 형식 유사 코퍼스를 상기 영역 코퍼스에 추가하여 언어모델이 보강된 코퍼스를 생성하는 제2가산기; 및

상기 가산기에서 생성된 보강된 코퍼스에서 상기 영역 코퍼스의 언어모델에 가중치를 높게 부여하여 상기 영역 코퍼스의 언어모델이 선택될 확률을 높게 하는 가중치 조정부를 포함하는 것을 특징으로 하는 코퍼스 보강 시스템.
제5항에 있어서, 상기 형식 표준화부는

상기 내용유사 코퍼스의 형태소를 분석하여 각 형태소 어휘마다 품사를 표기하는 형태소 태깅을 하는 형태소 분석부;

상기 형태소 분석부에서 형태소 태깅된 결과를 이용하여 형식적인 특징을 나타내는 품사가 어떤 것이 있는지를 분석하는 품사정보 분석부; 및

상기 품사정보 분석부에서 품사분석된 품사 리스트를 이용하여 상기 영역 코퍼스와 유사한 형식을 갖도록 품사 변형을 하여 형식 변환된 영역 외 코퍼스를 생성하는 텍스트 표준화부를 포함하는 것을 특징으로 하는 코퍼스 보강 시스템.
제5항에 있어서, 상기 가중치 조정부는

상기 영역 코퍼스의 언어모델에 유니그램 확률값을 높게 부여하는 것을 특징으로 하는 코퍼스 보강 시스템.
특정 영역에 대한 소규모의 언어모델 데이터를 갖는 영역 코퍼스를 상기 영역 코퍼스와는 다른 영역에 대한 언어모델 데이터를 갖는 영역 외 코퍼스를 이용하여 코퍼스 보강하는 코퍼스 보강 방법에 있어서,

(a)상기 영역 외 코퍼스에서 상기 영역 코퍼스와 내용은 유사하지만 형식이 다른 내용유사 코퍼스를 추출하는 단계;

(b)상기 내용유사 코퍼스의 형태소를 분석하여 형태소 태깅을 수행하고, 상기 형태소 태깅된 결과에 대하여 품사분석하여 이루어진 품사 리스트를 통하여 상기 내용유사 코퍼스의 형식을 상기 영역 코퍼스와 유사한 형식을 갖도록 품사 변형을 함으로써 형식 변환된 영역 외 코퍼스를 생성하는 형식 표준화 단계; 및

(c)상기 (b)단계에서 형식 변환된 영역 외 코퍼스를 상기 영역 코퍼스에 추가하여 언어모델이 보강된 코퍼스를 생성하는 단계를 포함하는 것을 특징으로 하는 코퍼스 보강 방법.
제8항에 있어서, 상기 (b)단계는

(b1)상기 내용유사 코퍼스의 형태소를 분석하여 각 형태소 어휘마다 품사를 표기하는 형태소 태깅을 하는 단계;

(b2)상기 (b1)단계에서 형태소 태깅된 결과를 이용하여 형식적인 특징을 나타내는 품사가 어떤 것이 있는지를 분석하는 단계; 및

(b3)상기 (b2)단계에서 품사분석된 품사 리스트를 이용하여 상기 영역 코퍼스와 유사한 형식을 갖도록 품사 변형을 하여 형식 변환된 영역 외 코퍼스를 생성하는 단계를 포함하는 것을 특징으로 하는 코퍼스 보강 방법.
특정 영역에 대한 소규모의 언어모델 데이터를 갖는 영역 코퍼스를 상기 영역 코퍼스와는 다른 영역에 대한 언어모델 데이터를 갖는 영역 외 코퍼스를 이용하여 코퍼스 보강하는 코퍼스 보강 방법에 있어서,

(a)상기 영역 외 코퍼스에서 상기 영역 코퍼스와 형식은 유사하지만 내용이 다른 형식유사 코퍼스를 추출하는 단계;

(b)상기 형식 유사 코퍼스를 상기 영역 코퍼스에 추가하여 언어모델이 보강된 코퍼스를 생성하는 단계; 및

(c)상기 (b)단계에서 생성된 코퍼스에서 상기 영역 코퍼스의 언어모델의에 가중치를 높게 부여하여 상기 영역 코퍼스의 언어모델이 선택될 확률을 높게 하는 가중치 조정 단계를 포함하는 것을 특징으로 하는 코퍼스 보강 방법.
제10항에 있어서, 상기 (c)단계는

상기 영역 코퍼스의 언어모델에 유니그램 확률값을 높게 부여하는 것을 특징으로 하는 코퍼스 보강 방법.
특정 영역에 대한 소규모의 언어모델 데이터를 갖는 영역 코퍼스를 상기 영역 코퍼스와는 다른 영역에 대한 언어모델 데이터를 갖는 영역 외 코퍼스를 이용하여 코퍼스 보강하는 코퍼스 보강 방법에 있어서,

(a)상기 영역 외 코퍼스에서 상기 영역 코퍼스와 내용은 유사하지만 형식이 다른 내용유사 코퍼스 및 상기 영역 코퍼스와 형식은 유사하지만 내용이 다른 형식유사 코퍼스를 각각 추출하는 단계;

(b) 상기 내용유사 코퍼스의 형태소를 분석하여 형태소 태깅을 수행하고, 상기 형태소 태깅된 결과에 대하여 품사분석하여 이루어진 품사 리스트를 통하여 상기 내용유사 코퍼스의 형식을 상기 영역 코퍼스와 유사한 형식을 갖도록 품사 변형을 함으로써 형식 변환된 영역 외 코퍼스를 생성하는 형식 표준화 단계;

(c)상기 (b)단계에서 형식 변환된 영역 외 코퍼스 및 상기 형식 유사 코퍼스를 상기 영역 코퍼스에 각각 추가하여 언어모델이 보강된 코퍼스를 생성하는 단계; 및

(d)상기 (c)단계에서 생성된 보강된 코퍼스에서 상기 영역 코퍼스의 언어모델에 가중치를 높게 부여하여 상기 영역 코퍼스의 언어모델이 선택될 확률을 높게 하는 가중치 조정 단계를 포함하는 것을 특징으로 하는 코퍼스 보강 방법.
제12항에 있어서, 상기 (b)단계는

(b1)상기 내용유사 코퍼스의 형태소를 분석하여 각 형태소 어휘마다 품사를 표기하는 형태소 태깅을 하는 단계;

(b2)상기 (b1)단계에서 형태소 태깅된 결과를 이용하여 형식적인 특징을 나타내는 품사가 어떤 것이 있는지를 분석하는 단계; 및

(b3)상기 (b2)단계에서 품사분석된 품사 리스트를 이용하여 상기 영역 코퍼스와 유사한 형식을 갖도록 품사 변형을 하여 형식 변환된 영역 외 코퍼스를 생성하는 단계를 포함하는 것을 특징으로 하는 코퍼스 보강 방법.
제12항에 있어서, 상기 (d)단계는

상기 영역 코퍼스의 언어모델에 유니그램 확률값을 높게 부여하는 것을 특징으로 하는 코퍼스 보강 방법.
제8항 내지 제14항 중 어느 한 항의 코퍼스 보강 방법을 컴퓨터에서 실행 가능한 프로그램 코드로 기록한 기록 매체.