KR20040051349A

KR20040051349A - 출현불가능한 어휘조합에 대한 정보를 반영한 연속 음성인식 방법

Info

Publication number: KR20040051349A
Application number: KR1020020079263A
Authority: KR
Inventors: 김승희
Original assignee: 한국전자통신연구원
Priority date: 2002-12-12
Filing date: 2002-12-12
Publication date: 2004-06-18

Abstract

본 발명은, 허용되지 아니하는 어휘열의 정보를 반영하여 언어모델을 수정하는 방법, 그리고 그 언어모델을 적용하는 연속 음성 인식 방법에 관한 것으로서, 연속으로 음성을 인식하는 과정에서 인식대상 어휘간 천이시에 있어서, 허용되지 않는 어휘열을 형성하는지의 여부를 판단하는 단계; 및 상기 판단 결과 허용되지 아니하는 어휘열에 대하여는 천이되지 아니하도록 하고, 허용되는 어휘열에 대하여 언어모델에 적용하는 단계;를 포함하는 것을 특징으로 하며, 기존 방법이 간과했던 사항, 즉 언어모델에서 출현 불가능한 어휘 조합이 인식 후보로 나타나는 문제점을 보완하게 되며, 기존의 인식과정을 아예 수정하지 않거나 약간의 수정만으로 본 발명에 의한 개선된 언어모델을 적용할 수 있다. 따라서 인식 시스템의 정확도가 개선되면서도 인식 속도 저하가 없거나 오히려 인식 속도가 개선되는 효과를 얻게 된다.

Description

출현불가능한 어휘조합에 대한 정보를 반영한 연속 음성 인식 방법{Method for speech recognition using information of forbidden word sequences}

본 발명은 언어모델을 사용하는 음성인식(Speech Recognition)에 관한 것으로서, 특히 출현이 불가능한 어휘조합을 명기하거나 언어모델에 반영하여 기존 언어모델의 스무딩(smoothing)방법의 단점을 보완하기 위한 연속음성인식방법에 관한 것이다. 언어모델을 사용하는 음성인식 분야에서는 주로 N-그램(gram)에 의한 언어모델을 많이 사용해 왔다. N-gram의 경우 unseen event, 즉 실제 출현 가능한 어휘 조합이지만 단지 훈련용 코퍼스에 나타나지 않았기 때문에 확률이 0으로 되는 경우가 현실적으로는 발생할 수 밖에 없다. 따라서 기존에 발표된 많은 방법들은 이 문제를 해결하기 위하여 각 어휘 조합에 대해 어느 정도의 출현확률을 부여하는 데 초점을 맞추고 있다. 그러나 이런 방식의 경우, 실제 출현 불가능한 어휘조합에 대해서도 확률을 부여하게 되어 전혀 등장해서는 안 될 어휘 조합이 인식결과로 나타나는 경우가 발생하게 된다.

또한 후처리 과정에서 여러 방법들을 써서 인식결과의 오류를 보완하고자 하는 방법들도 발표되었으나 이는 이미 인식과정이 끝난 후에 또 다른 과정을 거치는 것으로써 최종 인식속도의 저하 문제도 발생하며, 별도의 추가 과정을 채용할 수 없는 분야의 경우 적용 자체가 불가능한 문제점이 있다.

본 발명이 이루고자 하는 기술적 과제는 언어모델을 사용하는 기존 인식시스템의 단점을 보완할 수 있는 언어모델을 제공하여, 별도의 후처리 과정을 거치는 것이 아니라 기존 인식과정에 그대로 적용할 수 있는 연속음성인식방법을 제공하는데 있다.

도 1은 본 발명에 의한 언어모델의 제작과정에 대한 흐름도이다.

도 2는 본 발명에 의한 언어모델을 사용하는 음성인식과정에 대한 흐름도이다.

도 3은 본 발명에 의한 언어모델 적용과정을 개선한 음성인식과정에 대한 흐름도이다.

도 4는 본 발명에 의한 언어모델과 언어모델 적용과정을 개선한 음성인식 과정에 대한 흐름도이다.

도 5는 트라이그램(tri-gram)을 사용하고 백오프 바이그램(back-off bi-gram), 백오프 유니그램(back-off unigram)을 사용하는 음성인식시스템에 대해서, 언어모델을 적용하는 과정을 본 발명에 의해 개선한 일실시예를 보여주는 도면이다.

도 6은 언어모델로 트라이그램을 사용하는 음성인식시스템에 있어서, 본 발명에 의한 허용 불가능한 어휘열을 검색하는 과정에 대한 흐름도이다.

도 7은 본 발명에 의한 허용 불가능한 어휘열의 리스트를 제작하는 과정에 대한 일실시예를 보여주는 도면이다.

상기의 기술적 과제를 이루기 위하여 본 발명에 의한 언어모델 생성방법은 텍스트 코퍼스로부터 언어모델을 형성하는 단계; 허용되지 않는 어휘열의 리스트를 구성하는 단계; 및 상기 리스트를 기초로 하여 음성인식과정에서 상기 어휘열이 인식되지 않도록 상기 언어모델을 수정하는 단계;를 포함하는 것을 특징으로 한다.

상기의 기술적 과제를 이루기 위하여 본 발명에 의한 연속 음성 인식방법은 연속으로 음성을 인식하는 과정에서 인식대상 어휘간 천이시에 있어서, 허용되지 않는 어휘열을 형성하는지의 여부를 판단하는 단계; 및 상기 판단 결과 허용되지 아니하는 어휘열에 대하여는 천이되지 아니하도록 하고, 허용되는 어휘열에 대하여 언어모델에 적용하는 단계;를 포함하는 것을 특징으로 한다.

이하 첨부된 도면을 참조하면서 본 발명의 바람직한 실시예를 자세히 설명하도록 한다. 먼저 도 1을 참조하면서 언어모델 생성방법의 일 실시예를 설명한다. 도 1은 본 발명에 의한 언어모델의 제작과정에 대한 흐름도이다. 언어모델이란 연속된 단어가 음성으로 입력되는 경우에 음향학적 모델에 의해 구성되는 여러 문장들중에 가장 자연스럽고 가능성이 큰 문장을 인식문장으로 선정하기 위하여 사용되는 모델을 말한다. 우선 훈련용 텍스트 코퍼스로부터 일반적인 언어모델을 만든다(110). 여기서 코퍼스란 언제든지 재사용이 가능하도록 부가적인 정보화 다큐먼트가 갖추어져 있으며, 컴퓨터로 읽을 수 있는 형태로 구성된 음성자료의 모음을 말한다. 언어모델을 만들 때 적용되는 방법론으로는 통상 사용되는 N-gram을 대표적인 예로 들 수 있다. 다음으로 음성인식시스템이 적용되는 도메인에서 허용이 불가능한 어휘열의 리스트를 만든다(120). 여기에서 어휘열이란 아래에서 설명하는 여러 내용을 포함한다. 참고로 W_i는 문장에서 i번째의 어휘, C_i는 W_i가 속한 어휘셋(어휘의 집합)을 말한다. 여기서 i는 양의 정수이다. 어휘셋은 여러 가지로 정의될 수 있으며, 일례로 품사도 어휘셋이 될 수 있다. 본 발명에서 적용되는 어휘열을 구성하는 예를 들어보도록 한다. "우리 나라는 좋은 나라이다"라는 문장과 단어를 어휘로 사용하고 어휘셋으로 품사를 사용하는 예를 들어보도록 한다. 상기 예문은 '우리', '나라', '는', '좋은', '나라','이다'의 단어로 이루어져 있다. '좋은'이라는 단어는 상기 예문에서 4번째의 어휘(W₄)이며, 이 단어의 품사는 형용사이므로 C₄는 형용사가 된다.

① W_i- W_i+1; 어휘쌍 (상기 예문에서 우리-나라, 나라-는, 는-좋은, 좋은-나라, 나라-이다)

② W_i- C_i+1, C_i- W_i+1; 어휘와 어휘셋의 쌍 (상기 예문에서 우리-명사, 대명사-나라, 나라-조사, 명사-는,..)

③ C_i- C_i+1; 어휘셋의 쌍 (상기 예문에서 대명사-명사, 명사-조사, 조사-형용사, 형용사-명사, 명사-조사)

④ W_i- W_i+1- W_i+2(상기 예문에서 우리-나라-는, 나라-는-좋은, 는-좋은-나라, 좋은-나라-이다)

⑤ W_i- W_i+1- C_i+1,W_i- C_i+1-W_i+2, C_i- W_i+1- W_i+2(상기 예문에서 우리-나라-조사, 우리-명사-는, 대명사-나라-는,...)

⑥ W_i- C_i+1- C_i+2, C_i- W_i+1- C_i+2, C_i- C_i+1- W_i+2(상기 예문에서 우리-명사-조사, 대명사-나라-조사, 대명사-명사-는,...)

⑦ C_i- C_i+1- C_i+2(상기 예문에서 대명사-명사-조사, 명사-조사-형용사, 조사-형용사-명사, 형용사-명사-조사)

위와 같은 방식으로 N개의 어휘 및 어휘셋으로 이루어진 열을 구성할 수 있다.

다음으로 위와 같은 방식으로 작성한 허용 불가능한 어휘열의 정보를 언어모델에 반영한다(130). 즉, 허용 불가능한 어휘열은 출현확률이 0이므로 이를 언어모델에 반영하여 언어모델을 새로이 구성한다. 기존의 언어모델은, 훈련용 텍스트 코퍼스로부터 관측된 어휘열에 대한 확률을 구하고, 관측되지 않은 어휘열에 대해서는 백오프 모델(back-off model)를 써서 보다 일반적인 어휘열(예를 들어, 트라이그램이 없을 경우 바이그램, 바이그램이 없을 경우 유니그램)의 확률을 사용한다던지, 아니면 적당한 확률값을 부여하여 사용해 왔다. 그러다보니 허용되지 않는 어휘열의 경우에도 출현확률을 부여하게 되어 때때로 출현할 수 없는 어휘열이 인식결과로 나타나는 경우가 발생하곤 했다. 그러나 본 발명의 경우에는 훈련용 텍스트코퍼스에서 관측되지 않는 어휘열 중 출현 불가능한, 즉 허용되지 않는 어휘열에 대해서는 출현확률 0를 언어모델에 반영하여 이들이 인식결과에 나타나는 것을 사전에 방지하게 되는 것이다.

언어모델이 어휘셋과 어휘의 열 혹은 어휘셋만의 열을 지원하지 않는 경우에는 도 4와 같이 허용되지 않는 어휘열에 대한 검색과정(41)을 추가로 도입하여 적용할 수 있다. 이 내용은 뒤에서 설명한다.

도 2는 기존의 연속 음성 인식과정에 개선된 언어모델을 적용한 일실시예를 나타낸다. 전체적인 흐름은 일반적인 것이므로 간략하게 언급한다. 먼저 인식하고자 하는 음성이 입력되면(210단계) 입력된 음성의 특징을 분석하여 특징벡터를 추출한다(220단계). 그리고 상기의 음성 특징 분석 과정에서 추출된 음성특징 계수들과 가장 잘 부합하는 언어적 표현을 찾아내는 과정을 거치게 된다. 이는 미리 저장된 음성의 기본 단위에 해당하는 각각의 대표 패턴 또는 모델들과 비교하여 가장 가까운 패턴들에 해당하는 음성단위들을 인식된 단어 또는 음소의 후보로 결정하게 된다(230). 그 다음으로 어휘간 천이시 본 발명에 의하여 개선된 언어모델(상기 도 1에 관한 설명에서 언급되었음)을 적용(240단계)하여 어휘의 열을 구성한다. 이렇게 구성된 어휘의 열들에 대해 비터비(Viterbi)알고리즘을 적용해서 탐색과정을 거쳐 가장 확률이 높은 어휘의 열을 찾게 된다(250단계).

음성입력이 종료되었는지를 판단하여 종료되지 않았으면 즉 계속 입력이 들어오면 상기 과정(210 내지 250단계)을 반복하고, 종료되었으면 후처리 과정을 거쳐 최적 후보를 선정하여 인식된 결과를 출력하게 된다(270 내지 290단계).

즉 본 발명에 의한 언어모델 생성 방법을 적용하여 기존의 언어모델만 교체(240)하면 되기 때문에 기존 인식과정의 수정없이 바로 적용이 가능하다는 장점이 있게 된다.

도 3과 도 4를 참조하면서 또 다른 실시예를 살펴본다. 도 3은 본 발명에 의한 언어모델 적용과정을 개선한 음성인식과정에 대한 흐름도이고, 도 4는 본 발명에 의한 언어모델과 언어모델 적용과정을 개선한 음성인식 과정에 대한 흐름도이다. 도 2의 210 내지 230 단계와 250 내지 290단계는 동일하므로 설명을 생략한다. 도 3은 기존의 언어모델을 사용(305단계)하는 경우이고, 도 4는 도 1에서의 과정을 거쳐 개선된 언어모델을 사용(405단계)하는 경우의 실시예가 된다.

먼저 도 3의 경우를 보면, 인식과정에서 어휘간 천이시 허용되지 아니하는 어휘열을 형성하는지에 대한 검색과정(301단계)을 거쳐 기존의 언어모델을 적용한다. 상기 검색과정(301단계)에서 허용되지 아니하는 어휘열이 검색된 경우에는 언어모델을 거치치 않고 바로 출현 확률값으로 0을 부여한다(303단계). 도 3은 별도의 검색과정을 적용하는 일 실시예를 나타낸 것으로, 언어모델의 종류에 따라서 허용 불가능한 어휘열의 검색과정(301단계)을 언어모델 적용 후에 배치할 수도 있으며, 혹은 그 과정을 나누어서 언어모델 적용 전후 혹은 언어모델 적용과정 중간(도 5의 530단계)에 배치할 수도 있다.

도 4는 어휘셋과 어휘의 열, 혹은 어휘셋만의 열을 반영하지 않는 언어모델이 사용되는 경우로서, 어휘셋과 어휘의 열, 혹은 어휘셋만의 열에 대해서는 별도의 검색과정을 거치고(401단계), 어휘만의 열에 대해서는 언어모델에 반영하여 해결한다(405단계).

본 발명에 의한 개선된 언어모델을 적용하는 또 다른 실시예를, 도 5를 참조 하면서 설명한다. 도 5는 트라이그램(tri-gram)을 사용하고 백오프 바이그램(back-off bi-gram), 백오프 유니그램(back-off unigram)을 사용하는 음성인식시스템에 대해서, 본 발명에 의한 개선된 언어모델을 적용하는 과정에 대한 일실시예를 보여주는 도면이다. 제 5도에서 도시한 바와 같이 백오프 바이그램(550)이나 백오프 유니그램(560)을 사용하는 언어모델의 경우, 트라이그램 검색(510) 뒤 백오프 바이그램(550)이나 백오프 유니그램을 적용(560)하기 전에 허용 불가능한 어휘열에 대한 검색과정(530)을 삽입할 수 있다. N-그램에 대해서는 N-그램 검색 뒤 백오프 (N-1)-그램을 적용하기 전에 허용 불가능한 어휘열에 대한 검색과정(530)을 삽입할 수 있다. 이 검색과정에서 허용 불가능한 어휘열이라고 판정되면 출현확률 0를 부여하고(570) 언어모델 적용과정을 종료한다. 허용 가능한 어휘열이라고 판정되면 백오프 바이그램(550)이나 백오프 유니그램(560)을 적용한다. 사용하는 언어모델(트라이그램)(520)은 본 발명을 적용하여 허용 불가능한 어휘열에 대한 정보를 반영하여 개선할 수도 있다. 이 과정을 N - 그램으로 확장할 수 있는 것은 위의 설명에 비추어 명백하다.

이제 도 6을 참조하면서 허용 불가능한 어휘열을 검색하는 방법을 살펴본다.도 6과 도 7에서 사용되는 W_i와 C_i는 위의 어휘열을 구성하는 부분에서의 정의와 같이 W_i는 문장에서 i번째의 어휘, C_i는 W_i가 속한 어휘셋(어휘의 집합)을 말한다. 도 6은 허용 불가능한 어휘열을 검색하는 과정에 대한 일실시예를 보여주는 도면이다. 도 6에서는 트라이그램까지만을 사용하는 것을 예로 하였다. 우선 범위가 넓은 어휘셋의 쌍에 대해 허용 가능한 조합인지를 조사하고(610단계), 허용 가능하다면 다음으로 어휘와 어휘셋의 쌍에 대해 허용 가능한 조합인지를 조사한다(620단계). 허용 가능하다면 다음으로 어휘의 쌍에 대해 허용 가능한 조합인지를 조사한다(630단계). 이런 방식으로 N개 어휘 혹은 어휘셋으로 이루어진 조합에 대해 허용 가능한 지를 조사할 수 있다(640 내지 660단계). 상기 610 내지 660단계의 각 단계에서 규정하고 있는 조합의 범위내에 속하는지를 각 단계에서 검색하여 허용가능 혹은 허용 불가능한 어휘열인지를 판별하게 된다(670, 680단계)

다음으로 도 7을 참조하면서 허용 불가능한 어휘열의 리스트를 제작하는 단계를 살펴본다. 도 7은 허용 불가능한 어휘열의 리스트를 제작하는 과정에 대한 일실시예를 보여주는 도면이다. 도 6에서와 유사한 방식으로 우선 범위가 넓은 어휘셋의 쌍에 대해 허용 불가능한 조합을 선정하여 리스트에 추가하고(710), 다음으로 어휘와 어휘셋의 쌍에 대해 허용 불가능한 조합을 선정하여 리스트에 추가한다(720). 다음으로 어휘의 쌍에 대해 허용 불가능한 조합을 선정하여 리스트에 추가한다(730). 이런 방식으로 N개의 어휘 혹은 어휘셋으로 이루어진 허용 불가능한 조합을 선정하여 리스트에 추가한다(740 내지 760 단계).

본 발명에 의한 연속 음성 인식방법은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현되는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 하드 디스크, 플로피 디스크, 플래쉬 메모리, 광 데이타 저장장치등이 있으며, 또한 캐리어 웨이브(예를들면 인터넷을 통한 전송)의 형태로 구현되는 것도 포함된다. 또한 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 통신망으로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 읽을 수 있는 코드로서 저장되고 실행될 수 있다. 또한 본 발명에 의한 폰트 롬 데이터구조도 컴퓨터로 읽을 수 있는 ROM, RAM, CD-ROM, 자기 테이프, 하드 디스크, 플로피 디스크, 플래쉬 메모리, 광 데이타 저장장치등과 같은 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현되는 것이 가능하다.

본 발명에 의한 연속 음성 인식 방법에 의하면, 기존 방법이 간과했던 사항, 즉 언어모델에서 출현 불가능한 어휘 조합이 인식 후보로 나타나는 문제점을 보완하게 되며, 기존의 인식과정을 아예 수정하지 않거나 약간의 수정만으로 본 발명에 의한 개선된 언어모델을 적용할 수 있다. 따라서 인식 시스템의 정확도가 개선되면서도 인식 속도 저하가 없거나 오히려 인식 속도가 개선되는 효과를 얻게 된다.

따라서 기존의 인식시스템을 그대로 사용하거나 아니면 약간의 수정만으로 사용할 수 있으며, 인식률의 향상과 함께 인식 속도의 개선도 얻을 수 있다.

Claims

(a) 텍스트 코퍼스로부터 언어모델을 형성하는 단계;

(b) 허용되지 않는 어휘열의 리스트를 구성하는 단계; 및

(c) 상기 리스트를 기초로 하여 음성인식과정에서 상기 어휘열이 인식되지 않도록 상기 언어모델을 수정하는 단계;를 포함하는 것을 특징으로 하는 언어모델 생성방법.
제1항에 있어서, 상기 (b) 단계는

(b1) 어휘셋으로 이루어지는 제1조합을 구성하는 단계;

(b2) 어휘와 어휘셋으로 이루어지는 제2조합을 구성하는 단계; 및

(b3) 어휘로 이루어지는 제3조합을 구성하는 단계;를 포함하는 것을 특징으로 하는 언어모델 생성방법.
제1항에 있어서, 상기 (c) 단계는

상기 허용되지 않는 어휘열에 대하여 확률값을 0으로 하여 상기 언어모델을 수정하는 것을 특징으로 하는 언어모델 생성방법.
연속으로 음성을 인식하는 과정에서 인식대상 어휘간 천이시에 있어서,

(a) 허용되지 않는 어휘열을 형성하는지의 여부를 판단하는 단계; 및

(b) 상기 판단 결과 허용되지 아니하는 어휘열에 대하여는 천이되지 아니하도록 하고, 허용되는 어휘열에 대하여 언어모델에 적용하는 단계;를 포함하는 것을 특징으로 하는 연속음성인식방법.
제4항에 있어서, 상기 (a)단계는

(a1) 상기 형성된 어휘열을 소정의 어휘셋의 열에 대하여 검색하는 단계;

(a2) 상기 (a1)단계에서 검색되지 않는 경우에는 소정의 어휘와 어휘셋의 열에 대하여 검색하는 단계; 및

(a3) 상기 (a2)단계에서 검색되지 않는 경우에는 소정의 어휘의 열에 대하여 검색하는 단계;를 포함하는 것을 특징으로 하는 연속음성인식방법.
제4항에 있어서, 상기 언어모델이 백오프 모델을 적용하는 경우에는,

(d1) 상기 형성되는 어휘열에 대한 N-그램이 존재하면 N-그램을 적용하고, 부존재하는 경우에는 상기 검색을 하여 허용되지 않는 어휘열이 존재하면 상기 어휘열에 확률값 0을 부여하며, 존재하지 아니하면 N-1그램의 존재여부를 판단하는 단계;

(d2) 상기 N-1그램이 존재하면 N-1그램을 적용하고, 부존재하는 경우에는 상기 검색을 하여 허용되지 않는 어휘열이 존재하면 상기 어휘열에 확률값 0을 부여하며, 존재하지 아니하면 N-2그램의 존재여부를 판단하는 단계; 및

(d3) 상기 (d2)단계를 바이그램 혹은 유니그램이 될 때까지 반복하는 단계를 더 포함하는 것을 특징으로 하는 연속음성인식방법.
제4항에 있어서, 상기 연속음성인식방법은

상기 (a)단계와 (b)단계를 상기 언어모델의 특성에 따라 적용순서를 가변하는 것을 특징으로 하는 연속음성인식방법.
제4항에 있어서, 상기 (b)단계는

(b1) 텍스트 코퍼스로부터 언어모델을 형성하는 단계;

(b2) 허용되지 않는 어휘열의 리스트를 구성하는 단계; 및

(b3) 상기 리스트를 기초로 하는 음성인식과정에서 상기 어휘열이 인식되지 않도록 상기 언어모델을 수정하여 적용하는 단계;를 포함하는 것을 특징으로 하는 연속음성인식방법.
제8항에 있어서, 상기 (b2) 단계는

(b21) 어휘셋으로 이루어지는 제1조합을 구성하는 단계;

(b22) 어휘와 어휘셋으로 이루어지는 제2조합을 구성하는 단계; 및

(b23) 어휘로 이루어지는 제3조합을 구성하는 단계;를 포함하는 것을 특징으로 하는 연속음성인식방법.
제8항에 있어서, 상기 (b3)단계는

상기 허용되지 않는 어휘열에 대하여 확률값을 0으로 하여 상기 언어모델을 수정하는 것을 특징으로 하는 연속음성인식방법.
제4항에 있어서, 상기 언어모델이

어휘로 이루어지는 제3조합을 검색할 수 있으면, 상기 어휘셋으로 이루어지는 제1조합과 어휘와 어휘셋으로 이루어지는 제2조합에 대하여 허용되지 아니하는 어휘열이 존재하는지를 판단하는 단계;를 포함하는 것을 특징으로 하는 연속음성인식방법.
제1항 혹은 제4항의 단계를 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.