KR20110028095A

KR20110028095A - 실시간 화자 적응을 통한 음성 인식 시스템 및 방법

Info

Publication number: KR20110028095A
Application number: KR1020090086024A
Authority: KR
Inventors: 이길호
Original assignee: 삼성전자주식회사
Priority date: 2009-09-11
Filing date: 2009-09-11
Publication date: 2011-03-17
Also published as: US20110066426A1

Abstract

실시간 화자 적응을 통한 음성 인식 시스템 및 방법이 개시된다. 음성 인식 시스템은 입력된 음성 신호에서 음성 구간의 피치를 추정하고, 추정된 피치를 이용하여 음성 인식을 위한 음성 특징을 추출하며, 음성 특징을 이용하여 음성 신호에 대해 음성 인식을 수행할 수 있다. 음성 인식 시스템은 화자에 따라 적응적으로 정규화하여 음성 인식을 위한 음성 특징을 추출함으로써 음성 인식의 성능을 향상시킬 수 있다.

화자, 음성 인식, 워핑, 피치, 성도 길이 정규화

Description

실시간 화자 적응을 통한 음성 인식 시스템 및 방법{SYSTEM AND METHOD FOR SPEAKER-ADAPTIVE SPEECH RECOGNITION IN REAL TIME}

음성 인식 시스템 및 방법에 관한 것으로, 보다 구체적으로, 화자의 특성을 음성 인식 시스템에 반영하여 음성 인식의 성능이 향상된 음성 인식 시스템 및 방법에 관한 것이다.

음성인식은 특정 화자에 대해서만 인식하는 화자종속 시스템과 화자에 상관없이 인식하는 화자독립 시스템으로 구분될 수 있다. 구체적으로, 화자종속 음성 인식은 사용자의 음성을 저장, 등록하고, 입력된 음성의 패턴과 저장된 음성의 패턴을 비교하여 음성 인식을 수행한다. 반면, 화자독립 음성인식은 불특정 다수 화자의 음성을 인식하기 위한 것으로, 다수 화자의 음성을 수집하여 통계적인 모델을 학습하고, 학습된 모델을 이용하여 음성 인식을 수행한다.

종래의 경우, 음성 인식을 위해 음향 모델에 대해 모든 가능한 정규화 계수를 적용하여 가장 높은 확률을 갖는 계수를 선택하는 방법이 적용되었다. 그러나, 상기 방법은 많은 연산량이 필요하므로, 동시에 다수의 음성 인식을 수행하기에는 무리가 있었다. 또한, 종래의 방법에 의하면, 실시간 처리 및 단말향 음성 인식 시스템에 적합하지 않았다.

따라서, 연산량과 처리 시간을 줄임으로써 실시간으로 음성 인식을 수행할 수 있는 방법이 요구되고 있다.

음성 인식 시스템은 음성 신호로부터 음성 구간을 추출하여 상기 음성 구간에 대해 피치(pitch)를 추정하는 피치 추정부, 상기 추정된 피치를 이용하여 상기 음성 구간에서 음성 인식을 위한 음성 특징을 추출하는 음성 특징 추출부 및 상기 음성 특징을 이용하여 상기 음성 신호에 대해 음성 인식을 수행하는 음성 인식부를 포함할 수 있다.

음성 인식 시스템의 음성 특징 추출부는 추정된 피치를 이용하여 성도 길이 정규화를 위한 워핑 계수를 계산하는 워핑 계수 계산부 및 상기 워핑 계수를 이용하여 주파수 워핑(frequency warping)을 수행하는 주파수 워핑부를 포함할 수 있다.

음성 인식 시스템은 상기 워핑 계수의 정확도를 향상시키기 위해 상기 음성 인식에 대한 사용자 피드백을 수행하는 사용자 피드백부를 더 포함할 수 있다.

음성 인식 방법은 음성 신호로부터 음성 구간을 추출하여 상기 음성 구간에 대해 피치(pitch)를 추정하는 단계, 상기 추정된 피치를 이용하여 상기 음성 구간에서 음성 인식을 위한 음성 특징을 추출하는 단계 및 상기 음성 특징을 이용하여 상기 음성 신호에 대해 음성 인식을 수행하는 단계를 포함할 수 있다.

음성 인식 시스템 및 방법에 의하면, 화자에 따른 음성의 특성을 정규화하는 방법을 사용하여 음성 인식 특징을 추출함으로써 음성 인식의 성능을 향상시킬 수 있다.

음성 인식 시스템 및 방법에 의하면, 불특정 화자의 음성 신호에 대해 성도 길이 정규화를 수행하여 음성 인식의 성능을 향상시킬 수 있다.

음성 인식 시스템 및 방법에 의하면, 적은 연산으로 성도 길이 정규화를 위한 워핑 계수를 추정하여 실시간 처리가 가능할 수 있다.

이하, 첨부된 도면들에 기재된 내용들을 참조하여 본 발명에 따른 실시예를 상세하게 설명한다. 다만, 본 발명이 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조부호는 동일한 부재를 나타낸다.

도 1은 본 발명의 일실시예에 따른 음성 인식 시스템의 동작을 설명하기 위한 도면이다.

음성 인식 시스템(100)은 입력된 음성 신호로부터 화자의 특성을 추출하여 음성 인식에 반영함으로써, 음성 인식의 성능을 향상시킬 수 있다. 특히, 음성 인식 시스템(100)은 실시간으로 화자 적응의 음성 인식을 수행할 수 있다.

음성 인식 시스템(100)은 음성 신호로부터 피치를 추정하고, 피치를 이용하여 성도 길이 정규화 계수를 계산함으로써 음성 특징을 추출할 수 있다. 그러면, 음성 인식 시스템(100)은 음성 특징을 이용하여 음성 인식을 수행하고, 음성 인식 결과를 사용자로부터 피드백을 받아 보다 정확한 정규화 계수를 계산함으로써 음성 인식의 성능을 향상시킬 수 있다.

도 2는 본 발명의 일실시예에 따른 음성 인식 시스템의 세부 구성을 도시한 블록 다이어그램이다.

도 2를 참고하면, 음성 인식 시스템(100)은 피치 추정부(201), 음성 특징 추출부(202), 음성 인식부(203)를 포함할 수 있다. 일례로, 음성 인식 시스템(100)은 사용자 피드백부(204)를 더 포함할 수 있다.

피치 추정부(201)는 음성 신호로부터 음성 구간을 추출하여 음성 구간에 대해 피치를 추정할 수 있다. 이 때, 피치(pitch)는 사람이 느끼는 음의 고유 주파수를 의미할 수 있다.

음성 특징 추출부(202)는 음성 신호의 음성 구간에 대해 추정된 피치를 이용하여 음성 구간에서 음성 인식을 위한 음성 특징을 추출할 수 있다.

피치 추정부(201) 및 음성 특징 추출부(202)에 대해서는 도 3에서 보다 구체적으로 설명한다.

음성 인식부(203)는 음성 인식을 위해 추출된 음성 특징을 이용하여 음성 신호에 대해 음성 인식을 수행할 수 있다.

사용자 피드백부(204)는 음성 인식에 대한 사용자 피드백을 수행하여 음성 특징부(202)에 피드백 결과를 전달할 수 있다. 결국, 음성 인식 결과는 반복적인 피드백 과정을 통해 성능이 향상될 수 있다.

도 3은 본 발명의 일실시예에 따른 피치 추정부 및 음성 특징 추출부의 세부 구성을 도시한 블록 다이어그램이다.

도 3을 참고하면, 피치 추정부(201)는 음성 구간 추출부(301) 및 유성음 판단부(302)를 포함할 수 있다.

음성 구간 추출부(301)는 입력된 음성 신호에서 음성의 시작과 끝을 포함하는 음성 구간을 추출할 수 있다. 예를 들어, 음성 신호는 마이크 등의 장치를 통해 음성 인식 시스템(100)에 입력될 수 있다. 입력 신호에서 음성 구간이 아닌 경우, 음성 구간을 추출하는 과정은 생략될 수 있다.

유성음 판단부(302)는 추출된 음성 구간이 유성음인지 여부를 판단할 수 있다. 일례로, 유성음 판단부(302)는 피치의 신뢰도를 파악함으로써 음성 구간이 유성음인지 또는 무성음인지 판단할 수 있다.

이 때, 음성 구간이 유성음 프레임인 경우, 피치 추정부(201)는 음성 구간에 대한 피치를 추정할 수 있다. 반대로, 음성 구간이 무성음 프레임인 경우, 피치 추정부(201)는 이전 유성음 프레임의 피치를 현재 무성음 프레임의 피치로 대체할 수 있다. 여기서, 유성음(voice)은 성대의 진동으로 발생하는 음성을 의미한다. 그리고, 무성음(unvoice)은 성대의 진동을 수반하지 않은 음성을 의미한다.

피치 추정부(201)를 통해 음성 구간에 대해 추정된 피치는 음성 특징 추출부(202)로 전달될 수 있다. 또한, 음성 인식에 대한 사용자 피드백도 음성 특징 추출부(202)로 전달될 수 있다.

도 3을 참고하면, 음성 특징 추출부(202)는 전처리부(303), 윈도우 처리부(304), 워핑 계수 계산부(305) 및 주파수 워핑부(306)를 포함할 수 있다. 추가로, 음성 특징 추출부(202)는 필터 뱅크 집적부(307), 로그 스케일링부(308) 및 DCT 수행부(309)를 더 포함할 수 있다.

전처리부(303)는 음성 신호의 고주파 대역을 강조하기 위한 전처리(pre- processing)를 수행할 수 있다. 일례로, 전처리부(303)는 하기 수학식 1에 따라 전처리를 수행할 수 있다.

여기서, S_pre는 전처리된 입력 신호를 의미하고, S_in은 입력 신호를 의미한다. 수학식 1은 일례에 불과하고, 시스템의 구성에 따라 변경될 수 있다.

윈도우 처리부(304)는 전처리된 음성 신호에 대해 해밍 윈도우(Hamming Window)를 처리할 수 있다. 일례로, 윈도우 처리부(304)는 하기 수학식 2에 따른 해밍 윈도우를 전처리된 음성 신호에 대해 처리할 수 있다.

상기 수학식 2는 일례에 불과하고, 시스템의 구성에 따라 변경될 수 있다.

워핑 계수 계산부(305)는 피치 추정부(201)를 통해 추정된 음성 구간의 피치를 이용하여 성도 길이 정규화를 위한 워핑 계수(warping factor)를 계산할 수 있다. 이 때, 워핑 계수 계산부(305)는 해밍 윈도우가 처리된 음성 신호에 대해 워핑 계수를 계산할 수 있다. 여기서, 성도 길이 정규화(Vocal Tract Length Normalization)은 화자별로 다른 성도 길이를 표준 화자에 맞게 음성 신호를 워핑(warping)시키는 방법을 의미한다. 워핑(warping)은 화자의 음성 신호를 표준 신호에 근접하도록 왜곡시키는 것을 의미한다. 일례로, 워핑 계수 계산부(305)는 하기 수학식 3에 따라 워핑 계수를 계산할 수 있다.

Wfactor는 워핑 계수를 의미하며, 0.8에서 1.4의 값을 가질 수 있다. 도 3을 참고하면, 피치는 100에서 400사이에 분포할 수 있고, 피치의 평균값은 203.777을 나타낸다. α는 음성 인식률을 의미한다. 수학식 3은 일례에 불과하고, 시스템의 구성에 따라 변경될 수 있다.

사용자 피드백부(204)는 워핑 계수의 정확도를 향상시키기 위해 음성 인식에 대한 사용자 피드백을 수행할 수 있다. 그러면, 워핑 계수 계산부(305)는 사용자 피드백을 고려하여 워핑 계수를 계산할 수 있다. 이 때, 사용자 피드백은 이전 피치, 워핑 계수 또는 음성 인식률 중 적어도 하나의 정보를 포함할 수 있다.

주파수 워핑부(306)는 워핑 계수를 이용하여 주파수 워핑을 수행할 수 있다. 구체적으로, 주파수 워핑부(306)는 음성 신호에 대한 주파수 해석을 수행하고, 주파수 해석시 워핑 계수를 이용하여 주파수 워핑을 수행할 수 있다. 일례로, 주파수 도메인에서 주파수 워핑은 piecewise방법과 bilinear 방법이 적용될 수 있다.

필터 뱅크 집적부(307)는 음성 인식을 위한 음성 특징을 추출하기 위해, 필터 뱅크 집적(Filter Bank Integration)을 수행할 수 있다.

로그 스케일링부(308)는 필터 뱅크 집적부(307)를 통해 계산된 각 필터링 값 에 대한 로그 값을 계산할 수 있다.

DCT 수행부(309)는 로그 값에 대해 DCT(Discrete Cosine Transform: 이산 코사인 변환을 수행할 수 있다.

도 5는 본 발명의 일실시예에 따른 피치 추정 방법과 Maximum Likelihood(ML) 방법의 워핑 계수를 나타내는 도면이다.

ML 방법은 가능한 모든 워핑 계수(Warping Factor)에 대해 음성인식을 수행한 뒤 Likelihood 값이 가장 큰 워핑 계수를 선택하는 방법을 의미한다. 이 방법은 향상된 음성인식의 결과를 얻을 수 있으나 다양한 경우에 대해 병렬 처리가 필요하며 따라서 많은 연산량이 필요하다.

도 4에 도시된 ML 방법은 0.8부터 1.4까지 0.05 간격으로 워핑(Warping)을 수행하여 이중 Likelihood 값이 가장 큰 워핑 계수를 표시하였다. 본 발명의 일실시예에 따른 피치 방법과의 상관계수를 구하면 약 0.81로 상관도가 우수함을 알 수 있다.

도 6은 본 발명의 일실시예에 따라 200개 발화에 대한 피치 추정 처리 시간을 나타내는 도면이다.

특히, 도 6은 음성 구간에 대한 피치 추정 시간을 줄이기 위해 유성음 10 프레임 피치를 추정하는 실시예를 나타낸다. 전체 발화에 대한 피치 추정 시간이 도5와 같이 적게 소요될지라도 본 발명은 실시간 화자 적응을 목적으로 하기 때문에 이에 대한 시간 역시 추가적으로 줄일 필요가 있다. 도 6에서는 유성음 10 프레임에 대해 피치를 추정하는 것을 도시하였으나, 유성음에 대한 프레임의 개수는 변경될 수 있다.

따라서 음성 인식 시스템(100)은 유성음 프레임에서 피치를 구하여 워핑 계수를 계산하고, 해당 프레임에 워핑을 수행하며, 무성음 프레임인 경우 이전 유성음 프레임의 피치를 사용하여 워핑 계수를 계산하여, 주파수 워핑을 수행한다.

음성 인식 시스템(100)은 최소 유성음 n개 프레임에 대해 서로 다른 워핑 계수를 적용하고 이후 프레임에 대해서는 n번째 프레임 값을 사용하여 피치 추정 시간을 줄였다. 도 6에서 10번째 프레임 값을 마지막 프레임까지 적용하였으나 10번째 프레임까지의 평균 값을 마지막 프레임까지 적용할 수도 있다.

도 7은 본 발명의 일실시예에 따른 음성 인식 방법의 전체 과정을 도시한 플로우차트이다.

단계(S701)에서, 음성 인식 시스템(100)은 음성 신호로부터 음성 구간을 추출하여 음성 구간에 대해 피치(pitch)를 추정할 수 있다. 일례로, 음성 인식 시스템(100)은 음성 신호에서 음성의 시작과 끝을 포함하는 음성 구간을 추출하고, 음성 구간이 유성음인지 여부를 판단할 수 있다. 이 때, 음성 구간이 유성음 구간인 경우, 음성 인식 시스템(100)은 음성 구간에 대한 피치를 추정할 수 있다. 그리고, 음성 구간이 무성음 구간인 경우, 음성 인식 시스템(100)은 이전 유성음 구간의 피치를 음성 구간에 대한 피치로 대체할 수 있다.

단계(S702)에서, 음성 인식 시스템(100)은 음성 구간에 대해 추정된 피치를 이용하여 음성 구간에서 음성 인식을 위한 음성 특징을 추출할 수 있다. 이 때, 음성 인식 시스템(100)은 추정된 피치를 이용하여 성도 길이 정규화를 위한 워핑 계수를 계산하고, 워핑 계수를 이용하여 주파수 워핑을 수행할 수 있다. 일례로, 워핑 계수를 계산하기 이전에, 음성 인식 시스템(100)은 음성 신호의 고주파 대역을 강조하기 위한 전처리를 수행하고, 전처리된 음성 신호에 대해 해밍 윈도우를 처리할 수 있다.

단계(S703)에서, 음성 인식 시스템(100)은 추출된 음성 특징을 이용하여 음성 신호에 대해 음성 인식을 수행할 수 있다.

단계(S704)에서, 음성 인식 시스템(100)은 워핑 계수의 정확도를 향상시키기 위해 음성 인식에 대한 사용자 피드백을 수행할 수 있다. 이 경우, 음성 인식 시스템(100)은 사용자 피드백을 고려하여 워핑 계수를 계산할 수 있다. 일례로, 사용자 피드백은 피치, 워핑 계수 또는 음성 인식률 중 적어도 하나의 정보를 포함할 수 있다.

도 7에서 설명되지 않은 부분은 도 1 내지 도 6에 기재된 설명을 참고할 수 있다.

또한 본 발명의 일실시예에 따른 음성 인식 방법은 다양한 컴퓨터로 구현되는 동작을 수행하기 위한 프로그램 명령을 포함하는 컴퓨터 판독 가능 매체를 포함한다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD- ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 시스템이 포함된다. 상기 매체는 프로그램 명령, 데이터 구조 등을 지정하는 신호를 전송하는 전송 매체일 수도 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

이상과 같이 본 발명의 일실시예는 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명의 일실시예는 상기 설명된 실시예에 한정되는 것은 아니며, 이는 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명의 일실시예는 아래에 기재된 특허청구범위에 의해서만 파악되어야 하고, 이의 균등 또는 등가적 변형 모두는 본 발명 사상의 범주에 속한다고 할 것이다.

도 4는 입력된 음성 신호의 피치 분포의 일례를 도시한 도면이다.

<도면의 주요 부분에 대한 부호의 설명>

100: 음성 인식 시스템

201: 피치 추정부

202: 음성 특징 추출부

203: 음성 인식부

204: 사용자 피드백부

Claims

음성 신호로부터 음성 구간을 추출하여 상기 음성 구간에 대해 피치(pitch)를 추정하는 피치 추정부;

상기 추정된 피치를 이용하여 상기 음성 구간에서 음성 인식을 위한 음성 특징을 추출하는 음성 특징 추출부; 및

상기 음성 특징을 이용하여 상기 음성 신호에 대해 음성 인식을 수행하는 음성 인식부

를 포함하는 음성 인식 시스템.
제1항에 있어서,

상기 피치 추정부는,

상기 음성 신호에서 음성의 시작과 끝을 포함하는 음성 구간을 추출하는 음성 구간 추출부; 및

상기 음성 구간이 유성음인지 여부를 판단하는 유성음 판단부

를 포함하는 음성 인식 시스템.
제2항에 있어서,

상기 피치 추정부는,

상기 음성 구간이 유성음 프레임인 경우, 상기 음성 구간에 대한 피치를 추 정하고, 상기 음성 구간이 무성음 프레임인 경우, 이전 유성음 프레임의 피치를 상기 음성 구간에 대한 피치로 대체하는 것을 특징으로 하는 음성 인식 시스템.
제1항에 있어서,

상기 음성 특징 추출부는,

상기 추정된 피치를 이용하여 성도 길이 정규화를 위한 워핑 계수를 계산하는 워핑 계수 계산부; 및

상기 워핑 계수를 이용하여 주파수 워핑(frequency warping)을 수행하는 주파수 워핑부

를 포함하고,

상기 음성 인식부는,

상기 주파수 워핑된 음성 특징을 이용하여 음성 인식을 수행하는 것을 특징으로 하는 음성 인식 시스템.
제4항에 있어서,

상기 음성 특징 추출부는,

상기 음성 신호의 고주파 대역을 강조하기 위한 전처리를 수행하는 전처리부; 및

상기 전처리된 음성 신호에 대해 해밍 윈도우(hamming window)를 처리하는 윈도우 처리부

를 더 포함하고,

상기 워핑 계수 계산부는,

상기 해밍 윈도우가 처리된 음성 신호에 대해 워핑 계수를 계산하는 것을 특징으로 하는 음성 인식 시스템.
제4항에 있어서,

상기 음성 인식 시스템은,

상기 워핑 계수의 정확도를 향상시키기 위해 상기 음성 인식에 대한 사용자 피드백을 수행하는 사용자 피드백부

를 더 포함하는 음성 인식 시스템.
제6항에 있어서,

상기 워핑 계수 계산부는,

상기 사용자 피드백을 고려하여 상기 워핑 계수를 계산하는 것을 특징으로 하는 음성 인식 시스템.
제6항에 있어서,

상기 사용자 피드백은,

피치, 워핑 계수 또는 음성 인식률 중 적어도 하나의 정보를 포함하는 것을 특징으로 하는 음성 인식 시스템.
음성 신호로부터 음성 구간을 추출하여 상기 음성 구간에 대해 피치(pitch)를 추정하는 단계;

상기 추정된 피치를 이용하여 상기 음성 구간에서 음성 인식을 위한 음성 특징을 추출하는 단계; 및

상기 음성 특징을 이용하여 상기 음성 신호에 대해 음성 인식을 수행하는 단계

를 포함하는 음성 인식 방법.
제9항에 있어서,

상기 워핑 계수의 정확도를 향상시키기 위해 상기 음성 인식에 대한 사용자 피드백을 수행하는 단계

를 더 포함하는 음성 인식 방법.