KR20140077422A

KR20140077422A - 음성인식 성능향상 방법

Info

Publication number: KR20140077422A
Application number: KR1020120146227A
Authority: KR
Inventors: 이성주; 강병옥; 정훈; 이윤근
Original assignee: 한국전자통신연구원
Priority date: 2012-12-14
Filing date: 2012-12-14
Publication date: 2014-06-24

Abstract

실시 예에 따른 음성인식 성능향상 방법은 적어도 하나의 음성인식 특징벡터를 기초로, 잡음환경 상에서 입력된 음성에 대한 음성인식 성능을 향상시키기 용이하도록, 실시 예는 입력된 한국어 음성에 대한 음소별로 설정된 적어도 2이상의 음향모델에 따라 적어도 2이상의 특징 벡터를 추출하는 단계, 비터비 디코더(viterbi decoder)에서 활성화되는 통합 음향모델에 대하여 기 설정된 상기 적어도 2이상의 음향모델 각각의 이전 특징 벡터 및 상기 적어도 2이상의 특징 벡터를 통하여 상기 음소별로 관측 확률값을 추출하는 단계 및 상기 음소별로 추출된 상기 관측 확률값을 기초로, 상기 통합 음향모델을 재설정하여 상기 한국어 음성을 음소별로 재인식하는 단계를 포함하는 음성인식 성능향상 방법을 제공한다.

Description

음성인식 성능향상 방법{Voice recognition performance improvement method}

실시 예는 음성인식 성능향상 방법에 관한 것으로서, 더욱 상세하게는 적어도 하나의 음성인식 특징벡터를 기초로, 잡음환경 상에서 입력된 음성에 대한 음성인식 성능을 향상시키기 용이한 음성인식 성능향상 방법에 관한 것이다.

최근 스마트폰 등 모바일 기기의 사용의 폭발적 증가로 인해 새로운 모바일 서비스 및 생태계가 구축되고 있으며, 이러한 서비스 변화에 많은 영향을 끼친 기술로 음성 인식 기술을 들 수 있다.

즉, 클라우드 컴퓨팅 환경 등으로의 모바일 생태계의 변이로 인해 실시간으로 거의 무제한 어휘 인식이 가능해 졌으며, 음성 검색의 경우 성공적으로 상용화된 사례이다. 또한 서비스 영역을 확장하여 SMS, SNS, 예약, 일정관리, 이메일 작성 등과 연계한 음성인식 응용 시스템이 거의 실용화 단계에 접어 들고 있다.

그러나, 이러한 다양한 모바일 기기의 출현 및 사용으로 인해 음성 인식의 경우 이전보다 훨씬 많은 다양한 잡음 환경에 노출된다. 먼저 사용자는 계속 이동 중에 사용하므로 부가잡음이 계속해서 변한다. 또한 수많은 종류의 기기로 인해 기기마다 채널잡음이 다르므로 음성 인식의 성능을 유지하기 위해서는 이러한 잡음들에 대해 강인성을 유지하도록 해야 한다.

최근 들어, 입력된 음성에 따른 음성인식 성능을 향상시키기 위한 연구가 진행 중에 있다.

실시 예의 목적은, 적어도 하나의 음성인식 특징벡터를 기초로, 잡음환경 상에서 입력된 음성에 대한 음성인식 성능을 향상시키기 용이한 음성인식 성능향상 방법을 제공함에 있다.

실시 예에 따른 음성인식 성능향상 방법은, 입력된 한국어 음성에 대한 음소별로 설정된 적어도 2이상의 음향모델에 따라 적어도 2이상의 특징 벡터를 추출하는 단계, 비터비 디코더(viterbi decoder)에서 활성화되는 통합 음향모델에 대하여 기 설정된 상기 적어도 2이상의 음향모델 각각의 이전 특징 벡터 및 상기 적어도 2이상의 특징 벡터를 통하여 상기 음소별로 관측 확률값을 추출하는 단계 및 상기 음소별로 추출된 상기 관측 확률값을 기초로, 상기 통합 음향모델을 재설정하여 상기 한국어 음성을 음소별로 재인식하는 단계를 포함한다.

실시 예에 따른 음성인식 성능향상 방법은, 입력된 한국어 음성에 대하여 음소인식성능이 우수한 음성인식 특징벡터를 선별적으로 적용하여 계산된 관측확률을 기초로 한국어 음성에 대한 음성인식 성능을 향상시킬 수 있는 이점이 있다.

도 1은 실시 예에 따른 음성인식 성능향상 방법을 나타낸 순서도이다.

실시 예의 구성 요소를 설명하는 데 있어서, 동일한 명칭의 구성 요소에 대하여 도면에 따라 다른 참조부호를 부여할 수도 있으며, 서로 다른 도면임에도 불구하고 동일한 참조부호를 부여할 수도 있다. 그러나, 이와 같은 경우라 하더라도 해당 구성 요소가 실시 예에 따라 서로 다른 기능을 갖는다는 것을 의미하거나, 서로 다른 실시 예에서 동일한 기능을 갖는다는 것을 의미하는 것은 아니며, 각각의 구성 요소의 기능은 해당 실시 예에서의 각각의 구성요소에 대한 설명에 기초하여 판단하여야 할 것이다.

또한, 실시 예를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략할 수 있다.

또한, 실시 예의 구성 요소를 설명하는 데 있어서, 제1, 제2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 어떤 구성 요소가 다른 구성요소에 "연결", "결합" 또는 "접속"된다고 기재된 경우, 그 구성 요소는 그 다른 구성요소에 직접적으로 연결되거나 접속될 수 있지만, 각 구성 요소 사이에 또 다른 구성 요소가 "연결", "결합" 또는 "접속"될 수도 있다고 이해되어야 할 것이다.

이하에서는, 실시 예에 따른 음성인식 성능향상 방법에 대한 동작 및 작용을 이해하는데 필요한 부분을 도면을 중심으로 상세히 설명한다.

도 1을 참조하면, 음성 인식 시스템에 한국어 음성이 입력되면(S100), 상기 한국어 음성에 대한 음소별로 설정된 적어도 2이상의 음향모델에 따라 적어도 2이상의 특징 벡터를 추출한다(S110).

즉, 음성 인식 시스템은 입력된 한국어 음성에 대한 음소별로 적어도 2이상의 특징 벡터를 추출하기 위하여 적어도 2이상의 음향모델이 설정된다.

실시 예에서, 음성 인식 시스템은 적어도 2이상의 음향모델이 설정된 것으로 나타내었으나, 음향모델의 개수에 대하여 한정을 두지 않는다.

상기 음향모델은 주파수 영역 에너지 추정방식으로 가장 대표적인 방법으로 Mel frequency cepstral coefficient (MFCC) 추출방법, 시간축 자기상관함수를 이용하는 방법으로 가장 대표적인 방법으로 Perceptual linear prediction (PLP) 방법 및 time-frequency analysis 방식으로 가장 대표적인 방법으로 Gammatone filter-bank를 이용한 cepstral coefficient (GTCC) 추출 방법 중 적어도 하나를 포함할 수 있으며, 이 외에 다른 음향모델일 수 있으며 이에 한정을 두지 않는다.

비터비 디코더(viterbi decoder)에서 활성화되는 통합 음향모델에 대하여 기 설정된 상기 적어도 2이상의 음향모델 각각의 이전 특징 벡터 및 상기 적어도 2이상의 특징 벡터를 통하여 상기 음소별로 관측 확률값을 추출하며(S120), 비터비 디코더(viterbi decoder)에서 추출된 상기 관측 확률값을 기초로 상기 통합 음향모델을 재구성하며(S130), 상기 한국어 음성을 재인식할 수 있다(S140).

즉, 음성 인식 시스템에 포함된 비터비 디코더는 이전 특징 벡터에 의해 이전 입력된 한국어 음성에 대한 이전 음소별로 음성인식 활률이 높은 상기 적어도 2이상의 음향모델 각각의 이전 특징 벡터에 의해 상기 적어도 2이상의 음향모델이 통합된 통합 음향 모델을 활용하여, 현재 추출된 상기 적어도 2이상의 특징 벡터를 비교하여, 상기 한국어 음성의 음소별로 관측 확률값을 추출한다.

[표 1]은 한국어 및 영어 음소별로 상술한 3개의 음향모델에서 인식한 특징 벡터이다.

[표 1]은 현재 전세계적으로 사용되는 음성인식을 위한 특징벡터 추출방법 [표 1]에 나타낸 PLP, MFCC 및 GTCC의 특징 벡터를 추출하여 음소인식 성능을 테스트한 결과이다.

즉, [표 1]은 한국어 음소인식 성능이 우수한 PLP, MFCC 및 GTCC의 특징들만 이용하여 한국어 음소의 인식율을 향상되도록 설정을 변경할 수 있다.

다시 말하면, 비터비 디코더(viterbi decoder)는 관측확율 계산시 [표 1]의 특징 중 테스트 결과가 높은 음소에 대한 특징을 이용하여 음향모델을 재구성한다.

상기 음향모델에는 각 음소별 모델을 더 구체적으로 가지고 있으며, [표 1]에는 모노폰의 경우로 나타내었으나, 이에 한정을 두지 않으며 트라이 폰에 대한 인식성능을 구할 수 있으며, 이런 경우, 방대한 양의 테스트 데이터 필요하므로, 트레이드 오프관계 및 어플리케이션에 맞게 구성할 필요하다.

예를 들어, [표 1]을 기준으로 ‘B’음소에 대해 MFCC 성능이 좋은 경우, 센터 폰은 ‘B’인 음향모델을 MFCC기반의 음향모델로 재구성한다.

인식 시에는 PLP, MFCC, GTCC 특징을 모두 추출하여 사용하나 센터 폰이 ‘B’인 음향모델의 관측확율 구할 때 MFCC를 사용하여 관측확율을 얻는 것이다. 예를 들어, [표 1]을 기준으로 센터 폰이 ‘D’인 음향모델의 경우, 높은 관측확률을 갖는 GTCC의 음향모델로 재구성하여야 한다.

즉, 통합모델이라는 것은 한국어 음소인식율이 최고가 되는 N개의 음향모델로 부터 재구성된 깃이며, 비터비 디코더(viterbi decoder)는 관측확율을 계산할 때 N개의 특징벡터를 선별적으로 사용할 수 있도록 정보를 미리 입력해야한다.

여기서, 비터비 디코더(viterbi decoder)는 이전입력된 이전 한국어 음소별로 음성 인식이 강한 상술한 3개의 음향모델을 통합한 통합 음향모델을 생성하여, 현재 입력된 한국어 음성에 대한 음소별로 음성인식 성능을 높일 수 있다.

비터비 디코더(viterbi decoder)는 현재 인식된 상기 적어도 2이상의 특징 벡터와 상술한 [표 1]의 이전 특징 벡터를 비교하여 음소별로 관측 확률값을 추출하여, 상기 관측 확률값이 높은 적어도 2이상의 음향 모델을 이용하여 상기 통합 음향모델을 재 설정한 후, 상기 한국어 음성을 재인식하여, 음성인식 성능을 향상시킬 수 있다.

이상 본 발명의 바람직한 실시 예에 대해 상세히 기술하였지만, 본 발명이 속하는 기술분야에 있어서 통상의 지식을 가진 사람이라면, 첨부된 청구범위에 정의된 본 발명의 정신 및 범위에 벗어나지 않으면서 본 발명을 여러 가지로 변형 또는 변경하여 실시할 수 있음을 알 수 있을 것이다. 따라서, 본 발명의 앞으로의 실시 예들의 변경은 본 발명의 기술을 벗어날 수 없을 것이다.

Claims

입력된 한국어 음성에 대한 음소별로 설정된 적어도 2이상의 음향모델에 따라 적어도 2이상의 특징 벡터를 추출하는 단계;
비터비 디코더(viterbi decoder)에서 활성화되는 통합 음향모델에 대하여 기 설정된 상기 적어도 2이상의 음향모델 각각의 이전 특징 벡터 및 상기 적어도 2이상의 특징 벡터를 통하여 상기 음소별로 관측 확률값을 추출하는 단계; 및
상기 음소별로 추출된 상기 관측 확률값을 기초로, 상기 통합 음향모델을 재설정하여 상기 한국어 음성을 음소별로 재인식하는 단계;를 포함하는 음성인식 성능향상 방법.