KR20110057351A

KR20110057351A - 훈련 코퍼스의 정규화 장치 및 방법

Info

Publication number: KR20110057351A
Application number: KR1020090113720A
Authority: KR
Inventors: 김승희; 윤승; 이일빈; 김정세; 김상훈; 박상규
Original assignee: 한국전자통신연구원
Priority date: 2009-11-24
Filing date: 2009-11-24
Publication date: 2011-06-01

Abstract

의미적으로 거의 동일한 활용 형태들을 하나의 대표활용형으로 치환하여 동일한 훈련 코퍼스로부터 훈련되는 언어모델의 신뢰성을 높이고자 하는 훈련 코퍼스의 정규화 장치 및 방법을 제시한다. 제시된 훈련 코퍼스의 정규화 장치는 훈련 코퍼스로부터의 입력 문장의 용언구에 대한 대표형을 의미에 기반하여 구하는 용언구 정규화부; 및 입력 문장의 용언구를, 용언구 정규화부에서 구한 대표형으로 치환하는 용언구 치환부를 포함한다. 언어모델을 훈련하기 위한 텍스트 코퍼스(훈련 코퍼스)에서 다양한 용언 활용형들을 의미에 기반하여 분류하고 대표 활용형으로 치환함으로써 훈련해야 할 파라메터 개수를 줄여서 언어모델의 성능을 개선시킬 수 있게 된다.

Description

훈련 코퍼스의 정규화 장치 및 방법{Apparatus and method of regulating train data}

본 발명은 훈련 코퍼스의 정규화 장치 및 방법에 관한 것으로, 보다 상세하게는 언어모델을 훈련하기 위한 텍스트 코퍼스에서 다양한 용언 활용형들을 의미에 기반하여 분류하고 대표 활용형으로 치환하여 훈련해야 할 파라메터 개수를 줄여서 언어모델의 성능을 개선하도록 한 장치 및 방법에 관한 것이다.

본 발명은 지식경제부 및 정보통신연구진흥원의 IT성장동력기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호: 2008-S-019-02, 과제명: 휴대형 한/영 자동통역 기술개발].

일반적으로, 확률통계에 기반한 언어모델 훈련 방법은 훈련 코퍼스 내에서 추정하고자 하는 어휘의 확률값(이하, 훈련해야 할 파라메터)을 해당 어휘의 상대 출현 빈도수에 근거하여 구한다.

훈련 코퍼스의 크기가 동일하면 훈련해야 할 파라메터 개수가 많아질수록 훈련되는 언어모델의 신뢰도는 떨어진다. 이 때문에, 어휘들을 범주별로 분류하고 해당 범주의 확률을 구함으로써 언어모델의 신뢰성을 높이고자 하는 class n-gram 방 법이 연구되기도 하였다. 예를 들어, 사람 이름의 경우 인명 범주로 묶어서 하나의 훈련 단위로 취급할 수 있다. Class n-gram은 어휘 n-gram에 비해 언어모델의 신뢰성은 높아지지만 언어모델의 표현력이 떨어진다는 문제가 있다.

확률통계 방식의 언어모델 중 특히 음성인식 분야에서 널리 사용되는 n-gram은 길이 1부터 길이 n의 어휘순서열들을 언어모델의 단위로 사용한다. 어휘순서열의 길이가 길수록, 제대로 훈련되었다는 전제하에서는 더욱 높은 성능을 나타낸다.

그런데, 본용언과 보조 용언 등으로 이루어진 용언구의 경우에는, 용언구를 구성하는 단위들을 별개로 취급할 경우 용언구의 길이 때문에 용언구 앞 뒤의 어휘들과의 연관성을 반영하기 힘들다.

한국어에서는 어휘로 어절, 단어, 의사형태소, 형태소 등의 단위를 많이 사용한다. 어절과 같이 길이가 긴 단위들을 사용하게 될 경우 다양한 조사 및 용언 활용으로 인해 어휘의 개수가 너무 많아진다. 그에 의해 훈련되는 언어모델의 신뢰성이 떨어질 수 있다. 반면, 형태소와 같이 길이가 짧은 단위들을 사용하게 될 경우는 어휘의 개수는 상대적으로 작지만 어휘 순서열에서 차지하는 용언구의 길이가 길어진다. 그에 의해 용언구 앞 뒤에 나타나는 다른 어휘들과의 연관성을 반영하기 힘들다.

한국어와 같은 굴절어의 경우 용언의 다양한 어미 변화와 보조 용언으로 인해 하나의 기본형으로부터 많은 수의 용언구가 생성된다. 예를 들어, '먹다'라는 기본형에 대해 '먹어요', '먹고 싶은데요', '먹을 겁니다', '먹었습니다'를 포함한 많은 용언구가 생성될 수 있다.

특히, 의미적으로는 동일하거나 유사한데 형태가 다른 활용형들도 많다. 예를 들어, '먹고 싶다'라는 의미에 대해 '먹고 싶어요', '먹고 싶은데요', '먹고 싶습니다', '먹고 싶네요', '먹고 싶군요' 등과 같은 의미상 별 차이가 없는 활용형들이 존재한다.

기존의 확률통계에 기반한 언어모델 방법에 있어서, 상기에서 언급한 '먹고 싶다'와 유사한 의미의 다양한 표현들은 별개의 어휘로 취급된다. 언어모델의 훈련 코퍼스에서 이들이 별개의 어휘로 취급된다면 확률통계 방식의 특성상 어휘의 출현 빈도가 높지 않을 경우 언어모델 확률값도 낮을 뿐더러, 훈련된 언어모델의 신뢰성도 떨어지며, 훈련 코퍼스 내에 나타나지 않는 경우도 있다.

본 발명은 상기한 종래의 문제점을 해결하기 위해 제안된 것으로, 의미적으로 거의 동일한 활용 형태들을 하나의 대표활용형으로 치환하여 동일한 훈련 코퍼스로부터 훈련되는 언어모델의 신뢰성을 높이고자 하는 훈련 코퍼스의 정규화 장치 및 방법을 제공함에 그 목적이 있다.

상기와 같은 목적을 달성하기 위하여 본 발명의 바람직한 실시양태에 따른 훈련 코퍼스의 정규화 장치는, 훈련 코퍼스로부터의 입력 문장의 용언구에 대한 대표형을 의미에 기반하여 구하는 용언구 정규화부; 및 입력 문장의 용언구를, 용언구 정규화부에서 구한 대표형으로 치환하는 용언구 치환부를 포함한다.

용언구 정규화부는 입력 문장의 용언구에 대한 기본형을 바탕으로 한 양태 정보와 시제 정보 및 문형 정보들중의 하나 이상의 정보에 근거하여 대표형을 구한다.

용언구 정규화부는, 입력 문장에서 용언구의 기본형을 추출하는 기본형 추출부; 입력 문장에서 용언구의 양태를 추출하는 양태 추출부; 입력 문장에서 용언구의 시제를 추출하는 시제 추출부; 입력 문장에서 용언구의 문형을 추출하는 문형 추출부; 및 추출된 용언구의 기본형, 양태, 시제, 문형의 정보를 바탕으로 용언구에 대한 대표형을 생성하는 용언구 대표형 생성부를 포함한다.

그리고, 본 발명의 바람직한 실시양태에 따른 훈련 코퍼스의 정규화 방법은, 용언구 정규화부가, 훈련 코퍼스로부터의 입력 문장의 용언구에 대한 대표형을 의미에 기반하여 구하는 용언구 정규화 단계; 및 용언구 치환부가, 입력 문장의 용언구를 용언구 정규화부에서 구한 대표형으로 치환하는 용언구 치환 단계를 포함한다.

용언구 정규화 단계는 입력 문장의 용언구에 대한 기본형을 바탕으로 한 양 태 정보와 시제 정보 및 문형 정보들중의 하나 이상의 정보에 근거하여 대표형을 구한다.

용언구 정규화 단계는, 입력 문장에서 용언구의 기본형을 추출하는 단계; 입력 문장에서 용언구의 양태를 추출하는 단계; 입력 문장에서 용언구의 시제를 추출하는 단계; 입력 문장에서 용언구의 문형을 추출하는 단계; 및 추출된 용언구의 기본형, 양태, 시제, 문형의 정보를 바탕으로 용언구에 대한 대표형을 생성하는 단계를 포함한다.

이러한 구성의 본 발명에 따르면, 언어모델을 훈련하기 위한 텍스트 코퍼스(훈련 코퍼스)에서 다양한 용언 활용형들을 의미에 기반하여 분류하고 대표 활용형으로 치환함으로써 훈련해야 할 파라메터 개수를 줄여서 언어모델의 성능을 개선시킬 수 있게 된다.

즉, 훈련 코퍼스에서 등장하는 의미적으로 거의 유사한 용언 활용형태들을 하나의 대표활용형으로 치환함으로써 훈련되는 언어모델의 성능을 높일 수 있게 된다.

이하, 첨부된 도면을 참조하여 본 발명의 실시예에 따른 훈련 코퍼스의 정규화 장치 및 방법에 대하여 설명하면 다음과 같다. 본 발명의 상세한 설명에 앞서, 이하에서 설명되는 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니된다. 따라서, 본 명세서에 기재된 실 시예와 도면에 도시된 구성은 본 발명의 가장 바람직한 일실시예에 불과할 뿐이고 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형예들이 있을 수 있음을 이해하여야 한다.

도 1은 본 발명의 실시예에 따른 훈련 코퍼스의 정규화 장치의 구성도이다.

본 발명의 실시예에 따른 훈련 코퍼스의 정규화 장치는 용언구 정규화부(110), 및 용언구 치환부(120)를 포함한다.

용언구 정규화부(110)는 훈련 코퍼스(105)로부터 입력받은 입력 문장의 용언구에 대한 대표형을 의미에 기반하여 구한다.

용언구 치환부(120)는 입력 문장의 용언구를, 용언구 정규화부(110)에서 구한 대표형으로 치환한다.

입력 문장의 용언구가 용언구 치환부(120)에서의 대표형으로 치환됨에 따라, 최초 입력 당시의 입력 문장은 새로운 코퍼스를 구성하게 된다. 새롭게 구성된 코퍼스는 정규화된 훈련 코퍼스(125)에 저장된다.

도 2는 도 1에 도시된 용언구 정규화부(110)의 내부 구성도이다. 용언구 정규화부(110)는 기본형 추출부(210), 양태 추출부(220), 시제 추출부(230), 문형 추출부(240), 및 용언구 대표형 생성부(250)를 포함한다.

기본형 추출부(210)는 훈련 코퍼스(105)로부터 입력된 입력 문장에서 용언구 의 기본형을 추출한다. 예를 들어, 입력 문장이 '저는 스테이크를 먹고 싶어요.'라고 하면, 용언구는 '먹고 싶어요.'가 되며, 기본형은 '먹다'가 된다.

양태 추출부(220)는 훈련 코퍼스(105)로부터 입력된 입력 문장에서 용언구의 양태를 구한다. 양태의 종류는 본 발명의 응용 분야에 따라 다르게 할 수 있다. 상기 예에서 '먹고 싶어요.'의 양태는 '희망'으로 간주할 수 있다.

시제 추출부(230)는 훈련 코퍼스(105)로부터 입력된 입력 문장에서 용언구의 시제를 구한다. 상기 예에서는 '현재'가 된다.

문형 추출부(240)는 훈련 코퍼스(105)로부터 입력된 입력 문장에서 용언구의 문형을 추출한다. 여기서, 문형이란 '의문', '평서' 등을 의미한다. 상기 예에서는 '평서'가 된다.

용언구 대표형 생성부(250)는, 기본형 추출부(210), 양태 추출부(220), 시제 추출부(230), 및 문형 추출부(240)에서 추출된 정보(즉, 기본형 정보, 양태 정보, 시제 정보, 문형 정보)를 바탕으로, 입력 문장의 용언구의 대표형을 생성한다. 상기 예에서는, '먹다'라는 기본형에 대해, '희망', '현재', '평서'등의 정보를 바탕으로 '먹고 싶습니다.'라는 대표형을 생성한다.

도 3은 본 발명의 실시예에 따른 훈련 코퍼스의 정규화 방법을 설명하는 플로우차트이다.

훈련 코퍼스(105)로부터 처리할 문장이 용언구 정규화부(110)에게로 입력되면(S10), 용언구 정규화부(110)는 입력 문장(예컨대, '저는 스테이크를 먹고 싶어 요')의 용언구('먹고 싶어요')에 대한 대표형을 구한다.

즉, 용언구 정규화부(110)의 기본형 추출부(210)는 입력된 입력 문장에서 용언구의 기본형을 추출한다. 기본형 추출부(210)는 상기 예의 입력 문장의 용언구에 대하여 '먹다'라는 기본형을 추출하게 된다(S12).

용언구 정규화부(110)의 양태 추출부(220)는 입력된 입력 문장에서 용언구의 양태를 구한다. 양태 추출부(220)는 상기 예의 입력 문장의 용언구에 대하여 '희망'이라는 양태를 추출하게 된다(S14).

용언구 정규화부(110)의 시제 추출부(230)는 입력된 입력 문장에서 용언구의 시제를 구한다. 시제 추출부(230)는 상기 예의 입력 문장의 용언구에 대하여 '현재'라는 시제를 추출하게 된다(S16).

용언구 정규화부(110)의 문형 추출부(240)는 입력된 입력 문장에서 용언구의 문형을 추출한다. 문형 추출부(240)는 상기 예의 입력 문장의 용언구에 대하여 '평서'라는 문형을 추출하게 된다(S18).

상술한 설명에 의하면 마치 상기 S12 ~ S18의 과정이 순차적으로 행해지는 것처럼 이해될 수 있으나, 실제적으로는 거의 동시간에 각각의 단계의 동작이 행해지는 것으로 이해하면 된다.

용언구 정규화부(110)의 용언구 대표형 생성부(250)는 기본형 추출부(210), 양태 추출부(220), 시제 추출부(230), 및 문형 추출부(240)에서 추출된 정보를 바탕으로, 입력 문장의 용언구의 대표형을 생성한다(S20). 용언구 대표형 생성부(250)는 상기 예에 의하면 '먹다'라는 기본형에 대해, '희망', '현재', '평서'등 의 정보를 바탕으로 '먹고 싶습니다.'라는 대표형을 생성한다.

이와 같이 입력 문장의 용언구에 대한 대표형이 생성되면, 이후에는 용언구 치환부(120)가 입력 문장의 용언구를, 용언구 정규화부(110)에서 구한 대표형으로 치환한다(S22). 즉, 용언구 치환부(120)는 상기 예('저는 스테이크를 먹고 싶어요')의 입력 문장을 '저는 스테이크를 먹고 싶습니다.'와 같은 문장으로 치환한다.

물론, 입력 문장이 '저는 스테이크를 먹고 싶은데요.', '저는 스테이크를 먹고 싶군요.', '저는 스테이크를 먹고 싶네요.' 등과 같다고 하더라도 모두 '저는 스테이크를 먹고 싶습니다'로 치환된다.

이와 같이 입력 문장의 용언구가 용언구 치환부(120)에서의 대표형으로 치환됨에 따라, 최초 입력 당시의 입력 문장은 새로운 코퍼스를 구성하게 된다. 새롭게 구성된 코퍼스는 정규화된 훈련 코퍼스(125)에 저장된다(S24).

기존 방식의 경우, 어절 단위의 1-gram 언어모델에서는 상기 예의 5개 문장('저는 스테이크를 먹고 싶어요', '저는 스테이크를 먹고 싶은데요', '저는 스테이크를 먹고 싶군요', '저는 스테이크를 먹고 싶네요', '저는 스테이크를 먹고 싶습니다')에서 추정해야 할 파라메터가 모두 8개('저는', '스테이크를', '먹고', '싶어요', '싶은데요', '싶군요', '싶네요', '싶습니다')이다.

그러나, 본 발명의 실시예에 의하면, 상기 5개 문장('저는 스테이크를 먹고 싶어요', '저는 스테이크를 먹고 싶은데요', '저는 스테이크를 먹고 싶군요', '저는 스테이크를 먹고 싶네요', '저는 스테이크를 먹고 싶습니다')에서 추정해야 할 파라메터가 모두 4개('저는', '스테이크를', '먹고', '싶습니다')이므로 확률통계 방법의 특성상 훈련되는 모델의 신뢰도가 높아지게 된다.

본 발명의 실시예가 적용된 언어모델을 음성인식에 사용하고자 할 경우, 본 발명의 실시예로 정규화되는 다양한 용언구들은 다중발음사전에 반영할 수 있다. 상기 예에서 '싶습니다', '싶군요', '싶은데요', '싶네요'에 대한 발음들을 모두 대표형인 '싶습니다'의 다중발음으로 등록하면, 사용자가 '저는 스테이크를 먹고 싶은데요'라고 발성하더라도 '싶은데요'라는 발음이 이미 발음사전에 반영되어 있기 때문에 인식과정에 문제가 되지 않는다. 오히려 본 발명의 실시예가 적용될 경우 언어모델의 신뢰도가 높아지기 때문에 음성인식의 성능이 향상된다.

상술한 실시예에서는 용언구의 의미를 거의 훼손시키지 않는 범위에서 양태, 시제, 문형 정보를 바탕으로 정규화하였다.

정규화의 정도, 즉 정규화에 의해 용언구의 의미가 어느 정도까지 손상되는 것을 허용할 것인가는 본 발명이 적용되는 응용 사례에 따라 달라질 수 있으며, 정규화의 방법으로 양태, 시제, 문형에 기반한 방식 외의 다른 방법을 적용할 수도 있다.

한편, 본 발명은 상술한 실시예로만 한정되는 것이 아니라 본 발명의 요지를 벗어나지 않는 범위내에서 수정 및 변형하여 실시할 수 있고, 그러한 수정 및 변형이 가해진 기술사상 역시 이하의 특허청구범위에 속하는 것으로 보아야 한다.

도 2는 도 1에 도시된 용언구 정규화부의 내부 구성도이다.

Claims

훈련 코퍼스로부터의 입력 문장의 용언구에 대한 대표형을 의미에 기반하여 구하는 용언구 정규화부; 및

상기 입력 문장의 용언구를, 상기 용언구 정규화부에서 구한 대표형으로 치환하는 용언구 치환부를 포함하는 것을 특징으로 하는 훈련 코퍼스의 정규화 장치.
청구항 1에 있어서,

상기 용언구 정규화부는 상기 입력 문장의 용언구에 대한 기본형을 바탕으로 한 양태 정보와 시제 정보 및 문형 정보들중의 하나 이상의 정보에 근거하여 상기 대표형을 구하는 것을 특징으로 하는 훈련 코퍼스의 정규화 장치.
청구항 1에 있어서,

상기 용언구 정규화부는,

상기 입력 문장에서 상기 용언구의 기본형을 추출하는 기본형 추출부;

상기 입력 문장에서 상기 용언구의 양태를 추출하는 양태 추출부;

상기 입력 문장에서 상기 용언구의 시제를 추출하는 시제 추출부;

상기 입력 문장에서 상기 용언구의 문형을 추출하는 문형 추출부; 및

상기 추출된 용언구의 기본형, 양태, 시제, 문형의 정보를 바탕으로 상기 용언구에 대한 대표형을 생성하는 용언구 대표형 생성부를 포함하는 것을 특징으로 하는 훈련 코퍼스의 정규화 장치.
용언구 정규화부가, 훈련 코퍼스로부터의 입력 문장의 용언구에 대한 대표형을 의미에 기반하여 구하는 용언구 정규화 단계; 및

용언구 치환부가, 상기 입력 문장의 용언구를 상기 용언구 정규화부에서 구한 대표형으로 치환하는 용언구 치환 단계를 포함하는 것을 특징으로 하는 훈련 코퍼스의 정규화 방법.
청구항 4에 있어서,

상기 용언구 정규화 단계는 상기 입력 문장의 용언구에 대한 기본형을 바탕으로 한 양태 정보와 시제 정보 및 문형 정보들중의 하나 이상의 정보에 근거하여 상기 대표형을 구하는 것을 특징으로 하는 훈련 코퍼스의 정규화 방법.
청구항 4에 있어서,

상기 용언구 정규화 단계는,

상기 입력 문장에서 상기 용언구의 기본형을 추출하는 단계;

상기 입력 문장에서 상기 용언구의 양태를 추출하는 단계;

상기 입력 문장에서 상기 용언구의 시제를 추출하는 단계;

상기 입력 문장에서 상기 용언구의 문형을 추출하는 단계; 및

상기 추출된 용언구의 기본형, 양태, 시제, 문형의 정보를 바탕으로 상기 용 언구에 대한 대표형을 생성하는 단계를 포함하는 것을 특징으로 하는 훈련 코퍼스의 정규화 방법.