KR101709188B1

KR101709188B1 - 비문형적 어휘 모델 기반 음성 인식 방법

Info

Publication number: KR101709188B1
Application number: KR1020120130140A
Authority: KR
Inventors: 전형배; 정의석; 강병옥; 이윤근; 박전규; 강점자
Original assignee: 한국전자통신연구원
Priority date: 2012-11-16
Filing date: 2012-11-16
Publication date: 2017-03-08
Also published as: KR20140070703A

Abstract

본 발명은 대화체 연속어 음성인식을 수행함에 있어 대화체에서 나타날 수 있는 비문법적 형태에 대해 음성인식 성능을 강인하게 해주는 음성 인식 방법에 관한 것이다. 본 실시예에 따른 비문형적 어휘 모델 기반 음성 인식 방법은 입력된 음성신호의 단위 신호의 문형적 어휘 또는 비문형적 어휘 여부를 판단하기 위하여 상기 음성신호를 미리 결정된 문형적 어휘 모델 또는 비문형적 어휘 모델과 매칭시키는 단계; 및 상기 음성 신호의 매칭 결과를 출력하는 단계를 포함한다. 본 발명에 따르면, 대화체에서 나타나는 비문법적인 간투어, 반복 발성, 머뭇거림 부분을 제외한 나머지 부분에서의 엔그램 언어모델 확률 값은 그대로 유지할 수 있어 해당 부분의 인식 성능을 높일 수 있는 장점을 기대할 수 있다.

Description

비문형적 어휘 모델 기반 음성 인식 방법{A method for recognizing an audio signal based on sentence pattern}

본 발명은 대화체 연속어 음성인식을 수행함에 있어 대화체에서 나타날 수 있는 비문법적 형태에 대해 음성인식 성능을 강인하게 해주는 음성 인식 방법에 관한 것이다.

연속어 음성인식에서는 엔그램(N-gram) 방식의 언어모델이 가장 많이 사용되고 있다. 그러나 엔그램을 학습하는 텍스트 코퍼스(Text corpus)가 일반적으로는 대화체의 다양한 양태를 반영하기 어렵다. 반면 대화체 발성에서는 간투어, 머뭇거림, 반복 발성 등이 언제나 발생할 수 있게 된다. 이를 해결하기 위하여 모든 가능한 위치에 모든 가능한 대화체 패턴을 추가하는 것은 현실적으로 불가능하다.

이와 같은 대화체의 발성패턴을 강인하게 인식 하기 위해 적용되는 방법으로 필러 모델을 적용할 수 있다. 그러나 기존의 필러 모델은 엔그램 탐색 네트워크와 병렬로 동작 시키는 방식이거나, 엔그램 탐색 네트워크에 유니그램 백오프(unigram back-off) 방식으로 통합하는 방식이었다.

필러 단어의 유니그램을 통과하게 되는 경우 필러 단어 앞, 뒤 단어의 연속성이 깨지게 되어 바이그램, 트라이그램이 아닌 유니그램으로 필러 다음 단어가 시작하게 되는 문제점이 존재한다. 즉, 간투어, 반복, 머뭇거림 등의 어휘를 필러 모델로 매칭시키고, 나머지 단어 들을 기존의 엔그램으로 디코딩 하는데 있어 필러 모델이 매칭된 부분에서의 확률값이 유니그램으로 시작하여 성능이 나빠지게 되는 문제점이 있었다.

본 발명은 상기 종래 기술의 문제를 해결하기 위하여 안출된 것으로서, 본 발명에서는 모든 단어에서 재귀적으로 필러 모델을 매칭할 수 있도록 음성 인식 네트워크에 경로를 추가하여, 단어들을 순차적으로 인식해 나가고, 엔그램 확률을 그대로 적용 받으면서 단어 사이의 간투어, 반복, 머뭇거림 등은 필러 모델 경로로 인식하는 것을 목적으로 한다.

상기 기술적 과제를 해결하기 위한 본 실시예에 따른 비문형적 어휘 모델 기반 음성 인식 방법은 입력된 음성신호의 단위 신호의 문형적 어휘 또는 비문형적 어휘 여부를 판단하기 위하여 상기 음성신호를 미리 결정된 문형적 어휘 모델 또는 비문형적 어휘 모델과 매칭시키는 단계; 및 상기 음성 신호의 매칭 결과를 출력하는 단계를 포함한다.

상기 어휘 모델 또는 비문형적 어휘 모델과 매칭시키는 단계는 상기 단위 신호의 연속 발생 확률을 통해 상기 단위 신호를 상기 어휘 모델 또는 비문형적 어휘 모델과 매칭시키는 것이 바람직하다.

상기 어휘 모델 또는 비문형적 어휘 모델과 매칭시키는 단계는 상기 단위 신호가 비문형적 어휘인 경우 상기 단위 신호의 이전 단위 신호와 상기 단위 신호의 다음 단위 신호의 연속 발생 확률을 통해 상기 다음 단위 신호를 상기 어휘 모델 또는 비문형적 어휘 모델과 매칭시키는 것이 바람직하다.

상기 비문형적 어휘는 간투어, 더듬거림 또는 반복 발성에 의한 음성 신호를 포함하는 것이 바람직하다.

상기 문형적 어휘는 상기 음성 신호의 시작을 의미하는 묵음 신호를 포함하는 것이 바람직하다.

상기 단위 신호의 매칭 결과를 출력하는 단계는 상기 단위 신호가 상기 비문형적 어휘인 경우 비문형적 어휘임을 정의하는 미리 결정된 어휘를 출력하는 것이 바람직하다.

본 발명에 따르면, 대화체에서 나타나는 비문법적인 간투어, 반복 발성, 머뭇거림 부분을 제외한 나머지 부분에서의 엔그램 언어모델 확률 값은 그대로 유지할 수 있어 해당 부분의 인식 성능을 높일 수 있는 장점을 기대할 수 있다.

도 1은 본 발명의 일실시예에 따른 비문형적 어휘 모델 기반 음성 인식 방법을 나타내는 흐름도이다.
도 2는 엔그램 언어모델 방식의 음성 신호 탐색 네트워크를 나타내는 도이다.
도 3은 본 발명의 일실시예에 따라 비문형적 어휘 모델을 적용한 음성 신호 탐색 네트워크를 나타내는 도이다.
도 4는 본 발명의 일실시예에 따른 대화체 비문법적 패턴에 대한 인식 결과를 예시하는 도이다.
도 5는 본 발명의 일실시예에 따른 비문형적 어휘 모델 기반 음성 인식 방법을 나타내는 흐름도이다.

이하의 내용은 단지 발명의 원리를 예시한다. 그러므로 당업자는 비록 본 명세서에 명확히 설명되거나 도시되지 않았지만 발명의 원리를 구현하고 발명의 개념과 범위에 포함된 다양한 장치를 발명할 수 있는 것이다. 또한, 본 명세서에 열거된 모든 조건부 용어 및 실시예들은 원칙적으로, 발명의 개념이 이해되도록 하기 위한 목적으로만 명백히 의도되고, 이와 같이 특별히 열거된 실시예들 및 상태들에 제한적이지 않는 것으로 이해되어야 한다.

상술한 목적, 특징 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이며, 그에 따라 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 또한, 발명을 설명함에 있어서 발명과 관련된 공지 기술에 대한 구체적인 설명이 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에 그 상세한 설명을 생략하기로 한다. 이하, 첨부된 도면을 참조하여 발명에 따른 바람직한 일실시예를 상세히 설명하기로 한다.

도 1은 본 발명의 일실시예에 따른 비문형적 어휘 모델 기반 음성 인식 방법을 나타내는 흐름도이다.

도 1을 참조하면, 본실시예에 따른 비문형적 어휘 모델 기반 음성 인식 방법은 어휘 모델 매칭 단계(S100), 매칭 결과 출력 단계(S200)를 포함한다.

어휘 모델 매칭 단계(S100)는 입력된 음성신호의 단위 신호의 문형적 어휘 또는 비문형적 어휘 여부를 판단하기 위하여 상기 음성신호를 미리 결정된 문형적 어휘 모델 또는 비문형적 어휘 모델과 매칭시킨다.

음성 신호의 단위 신호는 음성 신호를 미리 결정된 기준에 따라 분할한 단위 음성 신호로서 본 실시예에서 단위 신호는 엔그램(N-gram)탐색 네트워크를 통한 음성 신호의 탐색 단위로서 분리하여 자립적으로 쓸 수 있는 말이나 이에 준하는 것으로서 단어인 것이 바람직하다.

엔그램이란 대표적인 확률적 언어 모델의 하나로서, 문장 및 음성의 인식이나 이해를 하려면 문법 처리가 필요하다. 그런데 자연 언어(한국어, 영어 등)의 문법은 매우 복잡하기 때문에 인간의 발화(發話)는 정규 문법에 따르지 않는 경우가 많다.

종래의 문장 인식에서는 음소 및 단어 인식을 한 후에 규칙에 따라 기술된 문법 처리를 적용하고 최후에 오류를 수정하는 방법이 주류였으나, 최근에는 단어열을 확률적으로 취급하는 언어 모델이 성행되어 연구, 실용화되고 있다. 엔그램은 이와 같은 확률적 언어 모델의 대표적인 것으로서, n개 단어의 연쇄를 확률적으로 표현해 두면 실제로 발성된 문장의 기록을 계산할 수 있는 것을 특징으로 한다.

또한 본 실시예에서 문형적 어휘란 입력된 음성 신호 중 인식하고자 하는 정보를 포함하는 신호로서, 실질적인 뜻이나 문형적 구조를 이루는 신호를 의미한다. 비문형적 어휘란 음성 신호 중 문형적 어휘에 포함되지 않는 신호로서 본 실시예에서는 발화 전에 발성되는 음성으로서 ‘아’, ‘어’, ‘음’, ‘그’ 등의 간투어를 포함한다.

또한 말을 더듬는 더듬거림 또는 특정 음절의 반복 발성에 의한 음성 신호를 더 포함할 수 있다. 이 밖에도 특정한 의미가 없거나 문형적 구조상 불필요한 음성 신호들을 포함한다.

본 실시예에서 어휘 모델 매칭 단계(S100)는 단위 신호의 연속 발생 확률을 통해 단위 신호를 어휘 모델 또는 비문형적 어휘 모델과 매칭시키는 것으로서 어휘 모델 매칭 단계(S100) 및 매칭 결과 출력 단계(S200)는 도 2 및 도 3을 통해 보다 상세히 설명한다.

일반적인 엔그램 언어모델 방식의 음성 신호 탐색 네트워크를 구성하면 도 2와 같게 된다. 도 2에서는 문장 시작 묵음 단어인 “<s>” 와 단어 “w1”, 단어 “w2” 이 연속해서 나타나는 경우의 그래프를 나타낸다. 이하 언어모델은 바이그램(bigram)을 기준으로 설명한다.

[수학식 1]

p(<s>, w1, w2)= p(<s>)* p(w1|<s>)* p(w2|w1)

수학식 1과 같이 “<s>”, “w1”, “w2” 가 연속적으로 발생할 확률은 <s> 단어의 유니그램(unigram)인 p(<s>)와 “<s>”, “w1” 바이그램 확률 p(w1|<s>), 그리고 “w1”, “w2” 바이그램 확률 p(w2|w1)의 곱으로 표현된다. 탐색 네트워크 그래프에서 첫번째 에지(204)가 “<s>” 단어의 unigram 확률 p(<s>)을 의미한다. 실제로 에지의 가중치는 엔그램 확률값을 로그 값으로 변환한 후 어휘 모델 언어 모델 가중치를 곱한 값이 되겠다. 첫번째 에지(204)를 통해서 노드 1(201)로 천이된 후에 노드 2(202)로 천이하기 위해 두번째 에지(205)를 지나게 되고, 이때의 가중치는 bigram 확률 p(w1|<s>)에 의해서 정해진다. 두번째 에지(205)를 지날 때의 출력 단어는 “w1” 이 된다. 노드 2(202)에서 노드 3(203)으로 천이는 세번째 에지(206)을 통과해서 이루어 지고, 이 때의 가중치는 bigram 확률 p(w2|w1)에 의해 정해진다. 세번째 에지(206)을 통과할 때의 출력 단어는 “w2” 이 된다. 이와 같이 그래프를 통과하면 3개의 확률이 누적되고 출력 단어열로 “<s>”, “w1”, “w2”을 출력해 준다.

도 3에서는 도 2에서 설명한 일반적인 엔그램 언어모델 방식의 탐색 네트워크에 대화체에서 나타나는 비문법적 현상을 해결하기 위한 비문형적 어휘 모델(이하, 필러(filler)모델)을 적용한 언어모델 탐색 네트워크를 나타낸다.

기본 네트워크 구조는 도 2와 동일하고, 각 노드 별로 필러 모델을 통과하는 에지를 추가하였다. 첫번째 필러 에지(307)는 노드 1(301)을 출발하여 다시 노드 1(301)로 들어온다. 이때 가중치는 필러 모델을 통과할 때의 언어모델 값으로, 일종의 패널티(penalty)역할을 하게 된다.

출력 단어는 “filler” 가 된다. 두번째 필러 에지(308)는 노드 2(302)를 출발하여 다시 노드 2(302)로 들어온다. 이때도 동일한 필러 모델 언어 모델 값을 가중치로 갖는다. 출력 단어는 “filler” 가 된다. 세번째 필러 에지(309)는 노드 3(303)을 출발하여 다시 노드 3(303)으로 들어온다. 이때도 동일한 필러 모델 언어모델 값을 가중치로 갖는다. 출력 단어는 “filler” 가 된다.

예를 들어 “w1” 과 “w2” 사이에 간투어 “음” 이 발생한다고 가정하자. 이와 같은 경우 탐색 경로는 에지(304)-> 에지(305)-> 에지(308)-> 에지(306)을 지나게 된다. 본 실시예에 따른 비문형적 어휘 모델 기반 음성 인식 방법의 어휘 모델 매칭 단계(S100)는 단위 신호가 비문형적 어휘(간투어 ‘음’)인 경우 상기 단위 신호의 이전 단위 신호(w1)와 상기 단위 신호의 다음 단위 신호(w2)의 연속 발생 확률을 통해 다음 단위 신호(w2)를 어휘 모델 또는 비문형적 어휘 모델과 매칭시키는 것이 바람직하다.

즉, 입력된 음성 신호가 “<s> w1 음 w2” 인 경우에 대해서 살펴보면 어휘 모델 매칭 단계(S100)는 음성인식 과정 중 탐색 네트워크의 모든 경로를 탐색을 수행하는데 “<s> w1 w2” 경로와 “<s> w1 filler w2” 경로, “<s> filler w1 w2” 경로, “<s> w1 w2 filler” 의 모든 가능한 경로에 대한 탐색이 수행된다.

이때 실제 입력 음성과 “<s> w1 filler w2” 의 경로가 가장 가깝기 때문에 인식 결과로 “<s> w1 filler w2”의 결과를 얻는다.

또한, 이때의 언어모델 누적 값은 아래 수식 2와 같다. 즉 기존의 단어 “<s>”, “w1”, “w2” 단어열에 대한 bigram 확률 누적 값을 그대로 가지고 오면서 어휘 필러 모델에 해당하는 p(filler)값이 추가로 누적되어 최종 언어모델 값이 된다.

[수학식 2]

누적 확률값 = p(<s>)* p(w1|<s>)* p(filler)* p(w2|w1)

이와 같은 필러 어휘는 3개의 어휘 “<s>”, “w1”, “w2” 다음에 모두 위치할 수 있기 때문에 모든 가능한 경우를 표현하고 있게 된다.

매칭 결과 출력 단계(S200)는 음성 신호의 매칭 결과를 출력한다. 도 4에서는 실제 어휘 필러 모델을 적용하여 대화체 비문법적 패턴에 대한 인식 결과를 예시하고 있다. 즉 발성문장이 ‘음’이라는 간투어를 포함하고 있는 ‘매 개월 마다 음 변동 될 수 있습니다.’인 경우 인식 결과는 ‘매 개월 마다 filler 변동 될 수 있습니다.’로 인식된다(도 4 (a).

또 다른 예로 발성 문장이 ‘서명과 동일 동일한 효력이 있습니다.’로 ‘동일’이라는 반복 발성이 있는 경우, 인식 결과는 ‘서명과 filler 동일한 효력이 있습니다.’가 된다(도 4 (b). 또한 발성 문장이 더듬거림을 포함하는 경우로 ‘이용 모목적이 달성되면’인 경우 이때의 인식 문장은 ‘이용 filler 목적이 달성되면’이 된다(도 4 (c).

나아가 발성 문장이 문장의 어형 구조상 의미나 뜻이 없는 어휘를 포함하는 경우로 ‘좀 넣어드려 볼 해서 해 볼 께요’인 경우 인식 결과는 ‘좀 넣어드려 볼 filler 께요’가 된다(도 4 (d). 즉 본 실시예에 따른 음성 인식 방법을 통하면, 발성 문장 중 대화체 비문법적 양태인 간투어, 머뭇거림, 반복 발성에 대해서는 어휘 필러(filler)로 매칭되고, 나머지 단어 열은 정상적으로 인식하고 있음을 확인할 수 있다.

어휘 필러 모델을 통해 대화체의 비문법적 발성에 대해 비문법적 부분은 필러 모델이 매칭하고, 나머지 문법에 맞는 부분이 기존 엔그램 방식의 언어모델이 매칭하게 되어 대화체 연속어 음성인식의 성능을 높일 수 있게 된다.

이하 도 5를 참조하여 본 실시예에 따른 비문형적 어휘 모델 기반 음성 인식 방법을 수행하는 장치에 대하여 설명한다.

본 실시예에 따른 비문형적 어휘 모델 기반 음성 인식 장치는 어휘 모델 매칭부(100), 매칭 결과 출력부(200)를 포함한다.

어휘 모델 매칭부(100)는 입력된 음성신호의 단위 신호의 문형적 어휘 또는 비문형적 어휘 여부를 판단하기 위하여 상기 음성신호를 미리 결정된 문형적 어휘 모델 또는 비문형적 어휘 모델과 매칭시키는 것으로서 이에 대한 상세한 설명은 상술한 어휘 모델 매칭 단계(S100)에서 설명한 바 생략한다.

매칭 결과 출력부(200)는 어휘 모델 매칭 단계(S100)에 따른 음성 신호의 매칭 결과를 출력한다(S200). 이상의 본 실시예에 따른 비문형적 어휘 모델 기반 음성 인식 장치의 각 구성은 상술한 실시예에 따른 음성 인식 방법을 수행하는 것으로서 이에 대한 상세한 설명은 중복되므로 생략한다.

한편 본 발명의 음성 인식 방법은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다.

컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광데이터 저장장치 등이 있으며, 또한 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고 본 발명을 구현하기 위한 기능적인(functional)프로그램, 코드 및 코드 세그먼트 들은 본 발명이 속하는 기술 분야의 프로그래머들에 의하여 용이하게 추론될 수 있다.

이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위 내에서 다양한 수정, 변경 및 치환이 가능할 것이다.

따라서, 본 발명에 개시된 실시예 및 첨부된 도면들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예 및 첨부된 도면에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구 범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리 범위에 포함되는 것으로 해석되어야 할 것이다.

Claims

입력된 음성신호를 단어를 기준으로 분할한 단위 신호가 문형적 어휘 또는 비문형적 어휘에 해당하는지 여부를 판단하기 위하여 상기 음성신호에 대한 각 단위 신호를 미리 결정된 문형적 어휘 모델 또는 비문형적 어휘 모델과 매칭시키는 단계; 및
상기 음성 신호의 매칭 결과를 출력하는 단계를 포함하고,
상기 문형적 어휘 모델 또는 비문형적 어휘 모델과 매칭시키는 단계는,
상기 음성 신호에 포함된 단위 신호가 비문형적 어휘인 경우, 해당 단위 신호를 비문형적 어휘 모델에 매칭시키고 상기 단위 신호에 대해 상기 비문형적 어휘 모델의 언어모델 값을 가중치로 부여하며,
상기 음성 신호의 매칭 결과를 출력하는 단계는,
상기 음성신호에 대한 단위 신호가 상기 비문형적 어휘인 경우, 해당 단위 신호에 대응하여 비문형적 어휘임을 정의하는 미리 결정된 어휘를 출력하는 것을 특징으로 하는 비문형적 어휘 모델 기반 음성 인식 방법.
청구항 1에 있어서,
상기 문형적 어휘 모델 또는 비문형적 어휘 모델과 매칭시키는 단계는,
상기 음성 신호에 대한 각 단위 신호의 연속 발생 확률을 통해 해당 단위 신호를 상기 문형적 어휘 모델 또는 비문형적 어휘 모델과 매칭시키는 것을 특징으로 하는 비문형적 어휘 모델 기반 음성 인식 방법.
청구항 2에 있어서,
상기 문형적 어휘 모델 또는 비문형적 어휘 모델과 매칭시키는 단계는,
상기 음성 신호의 단위 신호 중 문장 시작을 의미하는 묵음 신호의 유니그램(unigram) 확률 및 각 단위 신호와 이전 단위 신호의 바이그램(bigram) 확률을 곱하는 것에 의해 상기 각 단위 신호의 연속 발생 확률을 산출하는 것을 특징으로 하는 비문형적 어휘 모델 기반 음성 인식 방법.
청구항 1에 있어서,
상기 문형적 어휘 모델 또는 비문형적 어휘 모델과 매칭시키는 단계는,
상기 음성 신호에 포함된 단위 신호가 비문형적 어휘인 경우, 해당 단위 신호의 이전 단위 신호와 다음 단위 신호의 연속 발생 확률을 통해 상기 다음 단위 신호를 상기 문형적 어휘 모델 또는 비문형적 어휘 모델과 매칭시키는 것을 특징으로 하는 비문형적 어휘 모델 기반 음성 인식 방법.
삭제
삭제
청구항 1에 있어서,
상기 문형적 어휘 모델 또는 비문형적 어휘 모델과 매칭시키는 단계는,
상기 비문형적 어휘에 해당하는 단위 신호를 제외한 나머지 단위 신호들에 대한 바이그램 확률값에 상기 비문형적 어휘에 해당하는 단위 신호의 언어모델 값을 누적하는 것을 특징으로 하는 비문형적 어휘 모델 기반 음성 인식 방법.
청구항 1에 있어서,
상기 비문형적 어휘는,
간투어, 더듬거림 또는 반복 발성에 의한 음성 신호를 포함하는 것을 특징으로 하는 비문형적 어휘 모델 기반 음성 인식 방법.
청구항 1에 있어서,
상기 문형적 어휘는,
상기 음성 신호의 시작을 의미하는 묵음 신호를 포함하는 것을 특징으로 하는 비문형적 어휘 모델 기반 음성 인식 방법.