KR101578766B1

KR101578766B1 - 음성 인식용 탐색 공간 생성 장치 및 방법

Info

Publication number: KR101578766B1
Application number: KR1020110090283A
Authority: KR
Inventors: 김승희; 김동현; 김영익; 박준; 조훈영; 김상훈
Original assignee: 한국전자통신연구원
Priority date: 2011-09-06
Filing date: 2011-09-06
Publication date: 2015-12-22
Also published as: KR20130026855A

Abstract

본 발명은 선택적 포즈가 삽입될 단어 목록을 기반으로 요소 WFST를 구성함으로써, 음성 인식의 성능을 떨어뜨리지 않으면서 탐색 공간의 크기 증가를 최소화할 수 있는 음성 인식용 탐색 공간 생성 장치 및 방법에 관한 것이다.
이를 위하여 본 발명은 발음 사전과, 선택적 포즈가 삽입될 단어 목록을 저장하고 있는 단어 목록 데이터베이스와, 상기 발음 사전으로부터 읽어 들인 각 단어의 발음열을 이용하여 탐색 공간을 생성하되, 상기 읽어 드린 단어가 상기 단어 목록 데이터베이스에 포함된 경우 상기 읽어 드린 단어에 선택적 포즈를 삽입시켜 탐색 공간을 생성하는 탐색 공간 구현부와, 상기 선택적 포즈가 삽입된 탐색 공간이 저장된 데이터베이스를 포함하는 음성 인식용 탐색 공간 생성 장치를 제공한다.

Description

음성 인식용 탐색 공간 생성 장치 및 방법{APPARATUS AND METHOD FOR GENERATING INVESTIGATION SPACE IN SPEECH RECOGNITION}

본 발명은 음성 인식용 탐색 공간 생성에 관한 것으로, 더욱 상세하게는 음성인식의 성능을 떨어뜨리지 않으면서 탐색 공간의 크기 증가를 최소화하기 위해 특정 단어에 대해서만 선택적 포즈(pause)를 삽입하여 탐색 공간을 생성할 수 있는 음성 인식용 탐색 공간 생성 장치 및 방법에 관한 것이다.

일반적으로 자동 음성 인식을 위해서는 여러 가지 요소들이 필요하다. 그 중에는 음성 인식의 대상 범위를 나타내는 탐색 공간이 있다. 탐색 공간을 만드는 방법으로는 여러 가지 방법이 있는데, 그 중에서 WFST(Weighted Finite State Transducer)를 이용하는 방법이 널리 확산되고 있다. WFST 방식으로 탐색 공간을 만들기 위해서는 몇 가지의 요소 WFST들이 필요하다. 요소 WFST의 예로는 탐색 대상 문장을 단어 간의 관계로 표현하는 문법 WFST(이하, WFST G), 각 단어들을 문맥 독립 음소를 이용하여 표현하는 발음 사전 WFST(이하, WFST L), 문맥 독립 음소들을 문맥 종속 음소들로 변환하는 문맥 WFST를 들 수 있다.

문장의 시작 혹은 끝에 나타날 수 있는 묵음(silence)은 WFST G에서 표현한다. 그러나, 문장의 중간에서 단어들 사이에 나타날 수 있는 묵음(이하 선택적 pause)은 WFST G에서 표현하는 것보다는 WFST L에서 표현하는 것이 훨씬 효율적이다. 단어들 사이의 pause는 나타날 수도 있고 나타나지 않을 수도 있다. 그래서, 각 단어의 발음열을 정의한 발음사전에는 단어의 발음열에 pause를 포함하지 않는다. 단지, 발음사전을 WFST로 구현한 WFST L에서, 각 단어에 대해 pause가 삽입된 발음열과 pause가 삽입되지 않는 발음열을 모두 WFST로 구현한다. 즉, 인식 과정에서 탐색공간을 탐색할 때 선택적 pause를 거칠 수도 있고, 거치지 않을 수도 있다. WFST 방식이 아닌 형태의 탐색공간을 정의하여 사용하는 인식기에서도 이런 개념은 마찬가지이다.

일반적인 개념에서 설명하면 다음과 같다. 일반적인 연속음성 발화에서는, 경우에 따라 발화 중간에 묵음이 포함될 수 있다. 예를 들어, "어제 오후 2시 경에 제가 전화를 했고 4시 경에 처리되었다는 연락을 받았습니다"라고 얘기를 할 때 '전화를 했고'와 '4시 경에' 사이에 잠시 말을 끊을 수도 있고 아닐 수도 있다. 이렇게 단어 사이에 삽입될 수도 있고 아닐 수도 있는 묵음을 본 발명에서는 선택적 pause라고 언급한다.

일반적으로 연속 음성 인식기에서는 언어모델을 이용하여 단어들간의 관계를 정의한다. 이 때 언어모델은 단어 사이에 삽입될 수 있는 선택적 pause를 고려하지 않는다.

각 단어의 발음은 별도의 발음사전에 정의한다. 선택적 pause는 개별 단어의 발음이 아니라 단어 사이에 삽입될 수 있는 것이므로 개별 단어의 발음으로 취급하지는 않는다. 특정 단어 내에서 항상 묵음이 관측된다면 해당 단어의 발음열의 일부로서 묵음을 반영할 수도 있으나, 이러한 묵음과 선택적 pause는 개념이 다른 것이다.

인식기에서 사용할 탐색 공간은 언어모델에 기반을 두고, 발음사전에 근거하여 단어를 발음열을 구성하는 음소열로 확장하며, 각 음소를 보다 작은 단위로 확장하여 구성된다.

언어모델로부터 발음사전을 이용하여 음소열로 확장하는 과정에서, 선택적 pause를 각 단어의 앞 혹은 뒤에 추가한다.

전술한 바와 같은 종래 기술에 따라 탐색 공간을 구성하는 경우 선택적 pause를 단어에 삽입하지 않으면 사용자의 발화 중 단어 사이에 묵음이 들어간 문장에 대해서 인식 성능이 떨어지는 문제가 발생한다. 반대로, 모든 단어에 대해 일괄적으로 선택적 pause를 삽입할 경우 탐색공간의 크기가 커지는 문제가 발생한다. 탐색 공간의 종류에 따라서 크기 증가의 비율은 다르겠으나, 연속 음성인식 영역의 경우 30% 정도가 증가하는 문제점이 있다.

본 발명은 이와 같은 종래 기술의 문제점을 해결하기 위해 제안한 것으로서, 음향 모델 훈련용 음성 발화 데이터베이스에 대해 음성 인식을 수행한 후 이를 기반으로 선택적 포즈가 삽입될 단어 목록을 구성하기 위한 장치를 제공한다.

또한, 본 발명은 선택적 포즈가 삽입될 단어 목록을 기반으로 요소 WFST를 구성함으로써, 음성 인식의 성능을 떨어뜨리지 않으면서 탐색 공간의 크기 증가를 최소화할 수 있는 음성 인식용 탐색 공간 생성 장치를 제공한다.

본 발명의 일 관점에 의하면, 본 발명의 실시 예에 따른 음성 인식용 탐색 공간 생성 장치는 발음 사전과, 선택적 포즈가 삽입될 단어 목록을 저장하고 있는 단어 목록 데이터베이스와, 상기 발음 사전으로부터 읽어 들인 각 단어의 발음열을 이용하여 탐색 공간을 생성하되, 상기 읽어 들인 단어가 상기 단어 목록 데이터베이스에 포함된 경우 상기 읽어 들인 단어의 발음열에 선택적 포즈를 삽입시켜 탐색 공간을 생성하는 탐색 공간 구현부와, 상기 선택적 포즈가 삽입된 탐색 공간이 저장된 데이터베이스를 포함할 수 있다.
본 발명의 실시 예에 따른 음성 인식용 탐색 공간 생성 장치에서 상기 탐색 공간 구현부는, 상기 선택적 포즈가 삽입된 탐색 공간인 WFST(Weighted Finite State) L을 생성할 수 있는 기능을 포함할 수 있다.
본 발명의 실시 예에 따른 음성 인식용 탐색 공간 생성 장치는 음향 모델 훈련용 음성 발화 데이터베이스와, 선택적 포즈가 일괄 포함된 탐색 공간과, 상기 탐색 공간과 상기 음성 발화 데이터베이스 내 각 전사문을 이용하여 음성 인식을 수행하는 음성 인식부와, 상기 음성 인식부의 음성 인식 수행 결과를 이용하여 단어별 선택적 포즈가 삽입되는 빈도 수를 산출하며, 상기 산출된 빈도 수에 의거하여 상기 단어 목록을 생성하여 상기 단어 목록 데이터베이스를 구축하는 음성 인식 결과 분석부를 포함할 수 있다.
본 발명의 실시 예에 따른 음성 인식용 탐색 공간 생성 장치에서 상기 선택적 포즈가 일괄 포함된 탐색 공간을 구성하는 WFST G는, 상기 음성 발화 데이터베이스 내 전사문으로부터 생성될 수 있다.
본 발명의 실시 예에 따른 음성 인식용 탐색 공간 생성 장치에서 상기 음성 인식 결과 분석부는, 상기 음성 인식 수행 결과를 읽어드린 후 선택적 포즈가 삽입된 단어들을 검색하는 선택적 포즈 검색부와, 상기 단어 각각에 대해 선택적 포즈의 삽입 빈도 수를 산출한 후 상기 빈도 수가 기 설정된 임계치 이상을 갖는 단어들을 추출하여 상기 단어 목록을 구축하는 빈도별 정렬부를 포함할 수 있다.
본 발명의 다른 관점에 따르면, 본 발명의 실시 예에 따른 음성 인식용 탐색 공간 생성 방법은 음향 모델용 음성 발화 데이터베이스를 이용하여 선택적 포즈가 삽입된 단어 목록을 생성하여 단어 목록 데이터베이스를 구축하는 단계와, 발음 사전으로부터 단어를 읽어 들리는 단계와, 상기 읽어 들인 단어가 상기 단어 목록 데이터베이스에 포함된 경우 상기 읽어 들인 단어에 선택적 포즈를 삽입시켜 탐색 공간을 생성하는 단계와, 상기 선택적 포즈가 삽입된 탐색 공간을 데이터베이스에 저장하는 단계를 포함할 수 있다.
본 발명의 실시 예에 따른 음성 인식용 탐색 공간 생성 방법에서 상기 단어 목록 데이터베이스를 구축하는 단계는, 상기 음향 모델 훈령용 음성 발화 데이터베이스 내 전사문을 읽어 들이는 단계와, 상기 읽어 들인 전사문의 각 단어에 선택적 포즈를 삽입하여 탐색 공간을 생성하는 단계와, 상기 탐색 공간을 포함하는 전사문에 대한 음성 인식을 수행하는 단계와, 상기 음향 모델 훈련용 음성 발화 데이터베이스 내 모든 전사문에 대해 상기 단계들을 반복 수행하며, 상기 반복 수행 결과를 이용하여 단어별 선택적 포즈가 삽입된 빈도 수를 산출하는 단계와, 상기 산출된 단어별 선택적 포즈가 삽입된 빈도 수를 기반으로 상기 단어 목록을 생성하여 상기 단어 목록 데이터베이스를 구축하는 단계를 포함할 수 있다.

삭제

본 발명의 실시 예에 의하면, 일반적인 음성 인식을 통하지 않고 음향 모델 훈련용 음성 발화 데이터베이스를 이용하여 음성 인식을 수행하기 때문에 음성 인식의 정확도를 높여 선택적 포즈가 삽입될 단어 목록에 대한 정확도를 높일 수 있는 효과가 있다.

또한, 본 발명은 이미 보유 중인 음향 모델 훈련용 음성 발화 데이터베이스를 이용하기 때문에, 선택적 포즈가 삽입될 단어 목록을 구하기 위하여 별도의 음성 발화 데이터베이스를 구축할 필요를 없애는 효과가 있다.

또한, 본 발명은 특정 단어에 대해서만 선택적 포즈를 삽입하여 탐색 공간을 구성하기 때문에 음성 인식의 성능을 떨어뜨리지 않으면서 탐색 공간의 크기 증가를 최소화할 수 있는 효과가 있다.

도 1은 본 발명의 실시 예에 따라 특정 단어에 대해서만 선택적 포즈를 삽입하여 탐색 공간의 요소 중 하나인 WFST L을 생성하기 위한 장치를 도시한 블록도,
도 2는 본 발명의 실시 예에 따라 선택적 포즈를 삽입할 단어 목록을 생성하기 위한 장치를 도시한 블록도,
도 3은 본 발명의 실시 예에 따라 선택적 포즈가 삽입될 단어 목록을 산출하는 과정을 설명하기 위한 도면이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시 예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시 예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시 예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.

본 발명의 실시 예들을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명의 실시 예에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

이하, 첨부된 도면을 참조하여 선택적 포즈가 삽입될 단어 목록을 구성하기 위한 장치 및 방법과 단어 목록을 기반으로 탐색 공간을 구성하기 위한WFST L을 구현하는 장치 및 방법에 대해 설명한다.

도 1은 본 발명의 실시 예에 따라 특정 단어에 대해서만 선택적 포즈를 삽입하여 탐색 공간의 요소 중 하나인 WFST L을 생성하기 위한 장치를 도시한 블록도로서, 발음 사전(100), 단어 목록 데이터베이스(120), WFST L 구현부(140), WFST L 데이터베이스(160) 등을 포함할 수 있다.

WFST L 구현부(140)는 발음 사전(100)을 읽어 들여 각 단어의 발음열을 구한 후 단어 목록 데이터베이스(120)에 저장된 단어 목록과의 비교를 통해 선택적 포즈가 삽입된 WFST L을 생성하여 WFST L 데이터베이스(160)에 저장한다. 즉, WFST L 구현부(140)는 각 단어의 발음열을 WFST로 구현하되, 해당 단어가 단어 목록 데이터베이스(120)에 존재하는 경우 해당 단어에 선택적 포즈를 삽입하여 WFST L을 생성할 수 있다.

본 발명의 실시 예에 따른 단어 목록 데이터베이스(120)에는 선택적 포즈의 삽입이 필요한 단어 목록이 저장되어 있는데, 이러한 단어 목록을 생성하는 과정에 대해 도 2을 참조하여 설명한다.

도 2는 본 발명의 실시 예에 따라 선택적 포즈를 삽입할 단어 목록을 생성하기 위한 장치를 도시한 블록도로서, 음향 모델(200), 음향 모델 훈련용 음성 발화 데이터베이스(210), 음성 인식부(220), 선택적 포즈가 일괄 포함된 탐색 공간(230), 음성 인식 결과 분석부(240) 및 단어 목록 데이터베이스(120) 등을 포함할 수 있다.

음성 인식부(220)는 음향 모델 훈련용 음성 발화 데이터베이스(210)에 저장된 각 전사문과 발화에 대해 음성 인식을 수행하는데, 즉 각 전사문과 선택적 포즈가 일괄 포함된 탐색 공간(230)을 이용하여 음성 인식을 수행한 후 수행 결과를 음성 인식 결과 분석부(240)에 제공할 수 있다. 여기에서, 선택적 포즈가 일괄 포함된 탐색 공간(230)을 구성하는 WFST G는 음향 모델 훈련용 음성 발화 데이터베이스(210) 내 전사문으로부터 생성될 수 있으며, 선택적 포즈가 일괄 포함된 탐색 공간(230)을 구성하는 WFST L은 도 1의 발음 사전(100) 내 각 단어의 발음열에 선택적 포즈를 일괄 삽입하여 구현할 수 있다.

상술한 바와 같이, 일반적인 음성 인식을 통하지 않고 음향 모델 훈련용 음성 발화 데이터베이스(210)를 이용하여 음성 인식을 수행하기 때문에 음성 인식의 정확도를 높일 수 있을 뿐만 아니라 포즈의 검출 성능도 높일 수 있다.

음성 인식부(220)에서 출력되는 음성 인식 결과에는 음성 신호에 포즈가 포함되어 있을 경우 매우 높은 정확도를 갖는 포즈가 포함되어 있다.

음성 인식 결과 분석부(240)는 음성 인식부(220)의 음성 인식 수행 결과, 즉 음향 모델 훈련용 음성 발화 데이터베이스(210)에 저장된 모든 전사문에 대한 음성 인식 수행 결과를 분석하여 선택적 포즈가 삽입될 단어 목록을 구한 후 이를 단어 목록 데이터베이스(120)에 저장할 수 있다. 즉, 음성 인식 결과 분석부(240)는 음성 인식 결과를 기반으로 단어별로 포즈가 삽입된 빈도 수를 산출한 후 빈도 수가 기 설정된 임계치 이상을 갖는 단어들을 구함으로써, 선택적 포즈가 삽입될 단어 목록을 구할 수 있다.

상기와 같이 음성 인식 결과 분석부(240)가 음성 인식부(220)의 음성 인식 결과를 기반으로 단어 목록을 산출하는 과정에 대해 도 3을 참조하여 설명한다.

도 3은 본 발명의 실시 예에 따라 선택적 포즈가 삽입될 단어 목록을 산출하는 과정을 도시한 도면이다.

도 3에 도시된 바와 같이, 선택적 포즈 검색부(300)는 음성 인식 결과를 분석하여 선택적 포즈가 삽입된 단어들을 검색하고, 각 단어별 빈도 수를 산출한다.

그런 다음, 빈도별 정렬부(310)는 산출된 빈도 수를 정렬한 후 최상위 빈도의 N개의 단어 목록을 산출하며, 산출된 단어 목록을 이용하여 단어 목록 데이터베이스(120)를 구축할 수 있다. 즉, 빈도별 정렬부(310)는 빈도 수가 기 설정된 임계치 이상을 갖는 단어들을 추출함으로써, 단어 목록 데이터베이스(120)를 구축할 수 있다. 단어 목록 데이터베이스(120)에 저장된 단어 목록은 WFST L 구현을 위해 선택적 포즈가 삽입될 단어들을 의미한다.

이상의 설명에서는 WFST 방식의 탐색 공간을 구현하는 방법을 실시 예로 설명하였으나, 본 발명이 반드시 WFST 방식에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자라면 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능함을 쉽게 알 수 있을 것이다.

100 :발음 사전 120 : 단어 목록 데이터베이스
140 : WFST L 구현부 160 : WFST L 데이터베이스
200 : 음향 모델
210 : 음향 모델 훈련용 음성 발화 데이터베이스
220 : 음성 인식부
230 : 선택적 포즈가 일괄 포함된 탐색 공간
240 : 음성 인식 결과 분석부
300 : 선택적 포즈 검색부
310 :빈도별정렬부

Claims

발음 사전과,
선택적 포즈가 삽입될 단어 목록을 저장하고 있는 단어 목록 데이터베이스와,
상기 발음 사전으로부터 읽어 들인 각 단어의 발음열을 이용하여 탐색 공간을 생성하되, 상기 읽어 들인 단어가 상기 단어 목록 데이터베이스에 포함된 경우 상기 읽어 들인 단어의 발음열에 선택적 포즈를 삽입시켜 탐색 공간을 생성하는 탐색 공간 구현부와,
상기 선택적 포즈가 삽입된 탐색 공간이 저장된 데이터베이스를 포함하되,
상기 탐색 공간 구현부는, 상기 선택적 포즈가 삽입된 탐색 공간인 WFST(Weighted Finite State) L을 생성하는 기능을 포함하는 것을 특징으로 하는 음성 인식용 탐색 공간 생성 장치.
삭제
제 1 항에 있어서,
음향 모델 훈련용 음성 발화 데이터베이스와,
선택적 포즈가 일괄 포함된 탐색 공간과,
상기 탐색 공간과 상기 음성 발화 데이터베이스 내 각 전사문을 이용하여 음성 인식을 수행하는 음성 인식부와,
상기 음성 인식부의 음성 인식 수행 결과를 이용하여 단어별 선택적 포즈가 삽입되는 빈도 수를 산출하며, 상기 산출된 빈도 수에 의거하여 상기 단어 목록을 생성하여 상기 단어 목록 데이터베이스를 구축하는 음성 인식 결과 분석부를 포함하는
음성 인식용 탐색 공간 생성 장치.
제 3 항에 있어서,
상기 선택적 포즈가 일괄 포함된 탐색 공간을 구성하는 WFST G는, 상기 음성 발화 데이터베이스 내 전사문으로부터 생성되는
음성 인식용 탐색 공간 생성 장치.
제 3 항에 있어서,
상기 음성 인식 결과 분석부는,
상기 음성 인식 수행 결과를 읽어드린 후 선택적 포즈가 삽입된 단어들을 검색하는 선택적 포즈 검색부와,
상기 단어 각각에 대해 선택적 포즈의 삽입 빈도 수를 산출한 후 상기 빈도 수가 기 설정된 임계치 이상을 갖는 단어들을 추출하여 상기 단어 목록을 구축하는 빈도별 정렬부를 포함하는
음성 인식용 탐색 공간 생성 장치.
음향 모델용 음성 발화 데이터베이스를 이용하여 선택적 포즈가 삽입된 단어 목록을 생성하여 단어 목록 데이터베이스를 구축하는 단계와,
발음 사전으로부터 단어를 읽어 들이는 단계와,
상기 읽어 들인 단어가 상기 단어 목록 데이터베이스에 포함된 경우 상기 읽어 들인 단어에 선택적 포즈를 삽입시켜 탐색 공간을 생성하는 단계와,
상기 선택적 포즈가 삽입된 탐색 공간을 데이터베이스에 저장하는 단계를 포함하며,
상기 단어 목록 데이터베이스를 구축하는 단계는,
상기 음향 모델 훈령용 음성 발화 데이터베이스 내 전사문을 읽어 들이는 제1 단계와,
상기 읽어 들인 전사문의 각 단어에 선택적 포즈를 삽입하여 탐색 공간을 생성하는 제2 단계와,
상기 탐색 공간을 포함하는 전사문에 대한 음성 인식을 수행하는 제3 단계와,
상기 음향 모델 훈련용 음성 발화 데이터베이스 내 모든 전사문에 대해 상기 제1 단계 내지 제3 단계를 반복 수행하며, 상기 반복 수행 결과를 이용하여 단어별 선택적 포즈가 삽입된 빈도 수를 산출하는 제4 단계와,
상기 산출된 단어별 선택적 포즈가 삽입된 빈도 수를 기반으로 상기 단어 목록을 생성하는 제5 단계를 포함하는
음성 인식용 탐색 공간 생성 방법.
삭제
제 6 항에 있어서,
상기 단어 목록을 생성하는 제5 단계는,
상기 산출된 빈도 수가 기 설정된 임계치 이상을 갖는 단어들을 추출하여 단어 목록을 생성하는
음성 인식용 탐색 공간 생성 방법.