KR20120031548A

KR20120031548A - 다수 화자 음성에 대하여 자동적으로 적응화하는 음성 인식 방법

Info

Publication number: KR20120031548A
Application number: KR1020100092980A
Authority: KR
Inventors: 방영규
Original assignee: 주식회사 씨에스
Priority date: 2010-09-27
Filing date: 2010-09-27
Publication date: 2012-04-04

Abstract

다수 화자 음성에 대하여 자동적으로 적응화하는 음성 인식 방법이 개시된다. 본 발명에 따른 음성 인식 방법은 (a) 메모리의 용량 한도에 맞게 대응하고자 하는 화자 수만큼 인식 모델을 복수 개 복사하여 준비된 복수 개의 음향 데이터베이스와 키워드 거절 모델 및 기타 명령어 거절 모델을 사용하여 명령어 인식을 1차 음성 인식으로서 수행하는 단계; (b) 상기 (a) 단계에서 명령어 인식을 수행하는 과정에서 명령어로 인식된 경우에는 키워드의 마지막 폰으로부터 더미로 향하는 로그우도비를 각각의 음향 데이터베이스와 비교하여 가장 높은 값(score)을 가지는 음향 데이터베이스를 상기 (a) 단계에서 명령어를 발성한 화자에 대한 음향 데이터베이스로 결정하는 단계; (c) 상기 (b) 단계에서 결정된 음향 데이터베이스를 사용한 음성 인식을 2차 음성 인식으로서 수행하는 단계; (d) 상기 (c) 단계에서 인식결과가 승인된 경우에 그 인식 결과에 따른 기기 제어를 수행하는 단계; 및 (e) 음성을 저장하고 저장된 음성을 사용하여 해당 화자에 대한 음향 데이터 베이스를 적응화함으로써 해당 화자의 음향 데이터베이스를 갱신하는 단계;를 포함하는 것을 특징으로 한다.
본 발명에 따른 다수 화자 음성에 대하여 자동적으로 적응화하는 음성 인식 방법은 종래 기술의 경우 수동적으로 적응화를 함에 의하여 사용자에게 불편함을 주었던 단점을 해결하여 자동적으로 적응화를 수행하도록 하되 종래 기술의 경우 적응화 이후 화자 종속적인 경향을 가지게 되어 적응된 화자 또는 적응되지 않은 화자에 대하여 인식률이 떨어지는 문제를 해결하여 인식률을 높이면서도 시스템의 복잡도가 낮다.

Description

다수 화자 음성에 대하여 자동적으로 적응화하는 음성 인식 방법{Voice recognition method for automatically adapting with respect to a plurality of speaker's voices}

본 발명은 화자 적응화를 적용한 음성 인식 방법에 관한 것으로 더 상세하게는 다수의 화자에 대하여 자동으로 적응화하는 음성 인식 방법에 관한 것이다.

종래의 음성 인식 방법에서는 화자를 인식하여 음성 인식률을 높이고 있다. 대한민국 공개특허 제 10-2010-27865호에는 화자 및 음성 인식 장치 및 그 방법이 개시되어 있다. 상기 공개 특허에 따르면 1차 인식에서 화자인식을 하고 2차인식에서 음성인식을 하기 때문에 화자 인식용 데이터베이스와 음성 인식용 데이터베이스를 별개로 사용하게 되고 그로 인하여 시스템의 사이즈가 커지고 복잡도가 높아져 음성 인식 시간이 길어질 뿐만 아니라 음성 인식 시스템의 제조 원가 상승 요인이 된다는 문제점이 있다.

또한 상기 방법에 따르면 적응화 이후 화자 종속적인 성향을 가지게 되어 기존의 적응된 화자 또는 적응되지 않은 화자에 대하여 인식률이 감소된다는 문제점이 있다.

본 발명은 상기한 문제점들을 해결하기 위하여 개발된 것으로 본 발명이 이루고자 하는 기술적 과제는 종래 기술의 경우 수동적으로 적응화를 함에 의하여 사용자에게 불편함을 주었던 단점을 해결하여 자동적으로 적응화를 수행하도록 하되 종래 기술의 경우 적응화 이후 화자 종속적인 경향을 가지게 되어 적응된 화자 또는 적응되지 않은 화자에 대하여 인식률이 떨어지는 문제를 해결하여 인식률을 높이면서도 시스템의 복잡도를 줄인 다수 화자 음성에 대하여 자동적으로 적응화하는 음성 인식 방법을 제공하는 것이다.

상기 기술적 과제를 이루기 위한 본 발명에 따른 음성 인식 방법은

(a) 메모리의 용량 한도에 맞게 대응하고자 하는 화자 수만큼 인식 모델을 복수 개 복사하여 준비된 복수 개의 음향 데이터베이스와 키워드 거절 모델 및 기타 명령어 거절 모델을 사용하여 명령어 인식을 1차 음성 인식으로서 수행하는 단계;

(b) 상기 (a) 단계에서 명령어 인식을 수행하는 과정에서 명령어로 인식된 경우에는 키워드의 마지막 폰으로부터 더미로 향하는 로그우도비를 각각의 음향 데이터베이스와 비교하여 가장 높은 값(score)을 가지는 음향 데이터베이스를 상기 (a) 단계에서 명령어를 발성한 화자에 대한 음향 데이터베이스로 결정하는 단계;

(c) 상기 (b) 단계에서 결정된 음향 데이터베이스를 사용한 음성 인식을 2차 음성 인식으로서 수행하는 단계;

(d) 상기 (c) 단계에서 인식결과가 승인된 경우에 그 인식 결과에 따른 기기 제어를 수행하는 단계; 및

(e) 음성을 저장하고 저장된 음성을 사용하여 해당 화자에 대한 음향 데이터 베이스를 적응화함으로써 해당 화자의 음향 데이터베이스를 갱신하는 단계;를 포함하는 것을 특징으로 한다.

또한, 상기 (e) 단계는,

(e-1) 명령어 데이터베이스를 보유하고 있는지를 체크하는 단계; 및

(e-2) 상기 (e-1) 단계에서 명령어 데이터베이스를 보유하고 있지 않은 것으로 체크되면 음성을 저장하고 저장된 음성을 사용하여 해당 화자에 대한 음향 데이터 베이스를 적응화함으로써 해당 화자의 음향 데이터베이스를 갱신하는 단계;를 포함하는 것이 바람직하다.

또한, 상기 (e-1) 단계는,

(e-1-1) 상기 (b) 단계에서 각각의 음향 데이터베이스와 비교하여 가장 높은 값(score)을 가지는 음향 데이터베이스가 존재하지 않는지 체크하는 단계; 및

(e-1-2) 상기 (e-1-1) 단계에서 모든 음향 데이터베이스에 대하여 동일한 값이 얻어져 가장 높은 값을 가지는 음향 데이터베이스가 존재하지 않는 것으로 체크되면 상기 (a) 단계에서 명령어를 발성한 화자에게 할당된 음향 데이터베이스가 없는 것으로 체크하는 단계;를 포함하는 것이 보다 바람직하다.

즉, 본 발명에 따르면 적응 모델과 적응되지 않은 모델을 따로 보유하여 이미 적응된 화자로 판단된 경우에는 해당 화자의 적응 모델을 선택하여 인식을 하고 적응되지 않은 화자인 것으로 판단된 경우에는 적응되지 않은 모델을 선택하여 인식한다. 여러 명의 적응 모델을 한꺼번에 검색하면 검색을 필요로 하는 모델의 사이즈가 커지게 되므로 인식 시간이 길어지는 문제가 있어 본 발명에 따르면 키워드 인식 또는 기타 명령어 인식을 위한 1차 인식에서 발성한 화자가 기존에 적응된 화자인지의 여부를 판단하게 되는데 그 과정에서는 화자별 인식 모델의 로그 우도비를 계산하게 된다.

본 발명에 따른 다수 화자 음성에 대하여 자동적으로 적응화하는 음성 인식 방법은 종래 기술의 경우 수동적으로 적응화를 함에 의하여 사용자에게 불편함을 주었던 단점을 해결하여 자동적으로 적응화를 수행하도록 하되 종래 기술의 경우 적응화 이후 화자 종속적인 경향을 가지게 되어 적응된 화자 또는 적응되지 않은 화자에 대하여 인식률이 떨어지는 문제를 해결하여 인식률을 높이면서도 시스템의 복잡도가 낮다.

도 1은 본 발명에 따른 다수 화자 음성에 대하여 자동적으로 적응화하는 음성 인식 방법을 수행하는 시스템의 구조를 개략적으로 나타낸 블록도,
도 2는 도 1의 시스템 내에서 수행되는 본 발명에 따른 다수 화자 음성에 대하여 자동적으로 적응화하는 음성 인식 방법의 주요 단계들을 나타낸 흐름도,

이하 첨부된 도면들을 참조하여 본 발명의 바람직한 실시예를 보다 상세히 설명하기로 한다.

도 1에는 본 발명에 따른 다수 화자 음성에 대하여 자동적으로 적응화하는 음성 인식 방법을 수행하는 시스템의 구조를 블록도로써 개략적으로 나타내었다. 도 1을 참조하면, 본 발명에 따른 다수 화자 음성에 대하여 자동적으로 적응화하는 음성 인식 방법을 수행하는 시스템은 입력부(100)에서 음성을 입력하고 제1 인식부(102)에서 키워드 및 명령어를 인식한다. 제1 인식부(102)에서 키워드 및 명령어를 인식할 때에는 음성 모델 데이터베이스(104)를 사용한다. 음성 모델 데이터베이스(104)에 저장되는 음성 모델는 거절모델(106)과 인식모델(108)로 구분할 수 있다. 거절모델(106)은 키워드의 변별력을 높여주는 키워드 거절 모델(106_1)과, 키워드 이외의 명령어의 거절률을 높여주기 위한 기타 거절 모델(106_2)로 나누어질 수 있다. 인식모델(108)은 명령어 문장을 이루는 음소집합들을 말하는데, 메모리의 용량 한도에 맞게 대응하고자 하는 화자 수만큼 인식 모델을 복수 개 복사하여 복수 개의 음향 데이터베이스(108_1, 108_2, 108_3, 108_4,... ) 를 준비한다. 향후 이러한 복수 개의 음향 데이터베이스(108_1, 108_2, 108_3, 108_4, ... )에 저장된 인식모델에 대하여 적응화가 이루어지면 초기의 동일하게 복사된 인식모델이 화자별로 각각 적응화되어 갱신되면서 서로 다른 인식모델로 변경된다.

본 발명에 따르면 음성인식은 두 단계로 나뉘어져 음성 인식을 수행한다. 제1 인식부(102)에 의한 첫 번째 인식에서는 명령어를 발성했는지를 확인하는 명령어 인식 과정(S200)을 수행하고 명령어를 발성한 것으로 확인된 경우에 대해서만 발성한 화자에 대한 구분을 하는 과정(S202)을 수행한다. 명령어를 발성했는지 확인하는 방법은 첫 번째 인식에서 거절 단어가 인식되지 않고 명령어가 인식되었다면 명령어를 발성한 것으로 간주한다. 또는 인식한 단어 중에 키워드가 포함되어 있어도 명령어를 발성한 것으로 간주할 수 있다. 발성한 화자에 대해서 구분하는 방법은 상기 단계(S200)에서 명령어 인식을 수행하는 과정에서 명령어로 인식된 경우에는 키워드의 마지막 폰으로부터 더미로 향하는 로그우도비(Log-likelihood ratio)를 각각의 음향 데이터베이스(108_1, 108_2,...)와 비교하여 가장 높은 값(score)을 가지는 음향 데이터베이스를 상기 단계(S200)에서 명령어를 발성한 화자에 대하여 2차 음성 인식에 사용할 인식 모델을 저장한 음향 데이터베이스, 즉, 2차 인식 모델로서 결정한다(S204).

예컨대, 음성 인식 과정에서는 각 단어들이 인식된 후 더미(dummy) 노드를 거쳤다가 다시 또 다른 단어들로 확장된다. 예를 들면 “나래야” → 더미 →“안방” → 더미 →“불켜” 와 같다. 더미 노드에서는 자신에게로 향하는 모든 단어들의 각각의 확률값을 계산하여 가장 높은 확률 값을 가지는 단어를 인식 후보로 등록한다. 본 특허의 아이디어는 키워드의 마지막 폰으로부터 더미로 향하는 로그우도비를 각각의 음향 데이터베이스와 비교하여 가장 높은 값(score)을 가지는 음향 데이터베이스를 2차 인식에서 사용하고자 하는 것이다.

만일 키워드가 “나래야”이고 화자의 수에 대응하는 수 만큼의 그 수가 결정되는 음향 데이터베이스의 수가 4개라고 가정한다면, “나래야”는 제1 음향 데이터베이스에 속하는 n-a+r, a-r+ae, r-ae+ja 폰 세트와, 제2 음향 데이터베이스에 속하는 n2-a2+r2, a2-r2+ae2, r2-ae2+ja2 폰 세트와 n3-a3+r3, a3-r3+ae3, r3-ae3+ja3 폰 세트와, n4-a4+r4, a4-r4+ae4, r4-ae4+ja4 폰 세트로 구성될 수 있다. 따라서 r-ae+ja, r2-ae2+ja2, r3-ae3+ja3, r4-ae4+ja4 폰들은 더미로 향하는 폰들이 될 것이다. 이제 더미에서 r-ae+ja, r2-ae2+ja2, r3-ae3+ja3, r4-ae4+ja4 폰들에 대해서 로그우도비를 각각 구하는데, 이때 가장 높은 값을 얻은 폰이 화자에 가장 적합한 음향 데이터베이스라고 결정하는 것이다. 화자 적응을 하게 되면 음향 데이터베이스들이 화자의 발성성향에 맞추어 화자 종속의 성격을 가지는 데이터베이스로 변형되는데 이렇게 변형된 음향 데이터베이스에 속하는 폰이 가장 높은 로그 우도비 값을 가지게 될 것이기 때문이다.

위와 같은 과정을 “나래야” 즉 키워드 수준에서 생각해 볼 수 있고, 좀더 넓게는 “나래야 거실 조명 켜”와 같이 1차 인식에서 전체 명령어를 인식한 후에 어떤 음향 데이터베이스에 속하는 단어가 인식되었는지를 따져 2차 인식에서 사용할 음향 데이터베이스를 선택할 수 있다.

이제, 제2 인식부(112)는 상기 단계(S204)에서 결정된 음향 데이터베이스를 사용한 음성 인식을 2차 음성 인식으로서 수행한다(S206). 결과 판단부(114)는 단계(S206)에서 이루어진 음성 인식에 대하여 올바르게 인식되었는지를 판단하여 올바르게 인식된 경우에는 그를 승인하고, 기기제어부(116)는 상기 단계(S206)에서 인식결과가 승인된 경우(S208)에 그 인식 결과에 따른 기기 제어를 수행한다(S210).

다음으로, 적응화부(118)는 음성을 저장(S212)하고 저장된 음성을 사용하여 해당 화자에 대한 음향 데이터 베이스를 적응화(S214)함으로써 해당 화자의 음향 데이터베이스를 갱신(S216)한다

대안적으로, 제2 인식부(112)는 두 번째 인식에 대해서 제1 인식부(102)에 의한 첫 번째 인식결과가 명령어 발성을 했다고 판단되면 발성한 화자에 대하여 적응된 모델 또는 적응되지 않은 화자일 경우 적응되지 않은 모델을 선택하여 인식을 수행할 수 있다. 첫 번째 인식을 수행함에 있어서 방대한 모델을 검색하는 단점을 보완하기 위하여 모델을 최소화하여 구성한다. 모델을 최소화하여 구성하는 방법은 거절 모델을 구성함에 있어서 키워드 거절모델을 중점으로 구성하여 거절 모델을 최소화 한다. 키워드 중심의 거절 모델을 구성하는 방법은 필러 모델과, 키워드에 포함된 모노폰 모델과, 가비지 키워드 모델이 사용될 수 있다. 두 번째 인식을 수행할 때 검색 모델은 거절모델 전체와 선택된 적응모델을 사용한다.

최종 인식이 완료되고 인식 승인이 허가되면 적응화를 수행한다. 적응화를 수행하는 방법은 현재 발성한 화자가 기존에 적응화를 수행한 화자인지 아닌지를 따져 적응화를 수행하지 않은 화자인 경우 발성 음성을 저장하고 적응화를 수행하여 새로운 모델을 생성한다. 기존에 적응화를 한 화자이면 현재 발성 명령어가 적응화를 하지 않은 명령어이면 음성을 저장하고 기존에 적응화를 위해 저장했던 음성과 함께 새로운 적응화를 수행한다.

보다 바람직하게는, 해당 화자에 대한 명령어 데이터베이스를 보유하고 있는지를 체크(S230)하여, 상기 단계(S230)에서 명령어 데이터베이스를 보유하고 있지 않은 것으로 체크되면 음성을 저장(S212)하고 저장된 음성을 사용하여 해당 화자에 대한 음향 데이터 베이스를 적응화(S214)함으로써 해당 화자의 음향 데이터베이스를 갱신(S216)한다. 단계(S230)은 상기 단계(S204)에서 각각의 음향 데이터베이스와 비교하여 가장 높은 값(score)을 가지는 음향 데이터베이스가 존재하지 않는지 체크하고, 모든 음향 데이터베이스에 대하여 동일한 값이 얻어져 가장 높은 값을 가지는 음향 데이터베이스가 존재하지 않는 것으로 체크되면 상기 단계에서 명령어를 발성한 화자에게 할당된 음향 데이터베이스가 없는 것으로 체크함으로써 이루어질 수 있다.

100: 입력부
102: 제1 인식부
104: 음성모델 데이터베이스
106: 거절모델
106_1: 키워드 거절모델 106_2: 기타 거절모델
108: 인식모델
108_1: 제1 화자 음향 데이터베이스 108_2: 제2 화자 음향 데이터베이스
112: 제1 인식부
114: 결과 판단부
116: 기기제어부
118: 적응화부

Claims

(a) 메모리의 용량 한도에 맞게 대응하고자 하는 화자 수만큼 인식 모델을 복수 개 복사하여 준비된 복수 개의 음향 데이터베이스와 키워드 거절 모델 및 기타 명령어 거절 모델을 사용하여 명령어 인식을 1차 음성 인식으로서 수행하는 단계;
(b) 상기 (a) 단계에서 명령어 인식을 수행하는 과정에서 명령어로 인식된 경우에는 키워드의 마지막 폰으로부터 더미로 향하는 로그우도비를 각각의 음향 데이터베이스와 비교하여 가장 높은 값(score)을 가지는 음향 데이터베이스를 상기 (a) 단계에서 명령어를 발성한 화자에 대한 음향 데이터베이스로 결정하는 단계;
(c) 상기 (b) 단계에서 결정된 음향 데이터베이스를 사용한 음성 인식을 2차 음성 인식으로서 수행하는 단계;
(d) 상기 (c) 단계에서 인식결과가 승인된 경우에 그 인식 결과에 따른 기기 제어를 수행하는 단계; 및
(e) 음성을 저장하고 저장된 음성을 사용하여 해당 화자에 대한 음향 데이터 베이스를 적응화함으로써 해당 화자의 음향 데이터베이스를 갱신하는 단계;를 포함하는 것을 특징으로 하는 다수 화자 음성에 대하여 자동적으로 적응화하는 음성 인식 방법.
제1항에 있어서, 상기 (e) 단계는,
(e-1) 해당 화자의 명령어 데이터베이스를 보유하고 있는지를 체크하는 단계; 및
(e-2) 상기 (e-1) 단계에서 명령어 데이터베이스를 보유하고 있지 않은 것으로 체크되면 음성을 저장하고 저장된 음성을 사용하여 해당 화자에 대한 음향 데이터 베이스를 적응화함으로써 해당 화자의 음향 데이터베이스를 갱신하는 단계;를 포함하는 것을 특징으로 하는 다수 화자 음성에 대하여 자동적으로 적응화하는 음성 인식 방법.
제2항에 있어서, 상기 (e-1) 단계는,
(e-1-1) 상기 (b) 단계에서 각각의 음향 데이터베이스와 비교하여 가장 높은 값(score)을 가지는 음향 데이터베이스가 존재하지 않는지 체크하는 단계; 및
(e-1-2) 상기 (e-1-1) 단계에서 모든 음향 데이터베이스에 대하여 동일한 값이 얻어져 가장 높은 값을 가지는 음향 데이터베이스가 존재하지 않는 것으로 체크되면 상기 (a) 단계에서 명령어를 발성한 화자에게 할당된 음향 데이터베이스가 없는 것으로 체크하는 단계;를 포함하는 것을 특징으로 하는 다수 화자 음성에 대하여 자동적으로 적응화하는 음성 인식 방법.