KR100738341B1

KR100738341B1 - 성대신호를 이용한 음성인식 장치 및 그 방법

Info

Publication number: KR100738341B1
Application number: KR1020060050045A
Authority: KR
Inventors: 조관현; 한문성; 박준석; 정영규
Original assignee: 한국전자통신연구원
Priority date: 2005-12-08
Filing date: 2006-06-02
Publication date: 2007-07-12
Also published as: KR20070061134A; CN101223574B; CN101223574A

Abstract

1. 청구범위에 기재된 발명이 속한 기술분야

본 발명은 성대신호를 이용한 음성인식 장치 및 그 방법에 관한 것임.

2. 발명이 해결하려고 하는 기술적 과제

본 발명은 성대신호와 잡음이 포함된 음성신호의 스펙트럼 차이값으로 계산한 인접 프레임 밴드별 평균값에 실험적으로 획득한 가중치를 부여하여 정규화한 후, 상기 정규값을 상기 성대신호에 보상하여 특징벡터를 추출하고 상기 특징벡터의 인식모델을 학습하여 음성인식을 수행하는, 성대신호를 이용한 음성인식 장치 및 그 방법을 제공하는데 그 목적이 있음.

3. 발명의 해결방법의 요지

본 발명은, 외부채널에서 입력된 성대신호로부터 성대신호 로그 스펙트럼을 계산하고, 잡음이 포함된 음성신호로부터 음성신호 로그 스펙트럼을 계산하는 신호처리수단과; 상기 성대신호 로그 스펙트럼과 상기 음성신호 로그 스펙트럼을 이용해 가중치를 부여한 정규값을 계산하고, 상기 성대신호 로그 스펙트럼을 상기 정규값으로 보상하는 가중치계산수단과; 상기 보상된 성대신호 로그 스펙트럼의 특징벡터를 추출하는 특징추출수단; 및 상기 특징벡터를 이용하여 인식모델을 학습한 후 음성인식을 수행하는 인식수단을 포함함.

4. 발명의 중요한 용도

본 발명은 성대신호를 이용한 음성인식 장치 및 방법 등에 이용됨.

음성인식, 신호처리수단, 가중치계산수단, 특징추출수단, 인식수단

Description

성대신호를 이용한 음성인식 장치 및 그 방법{Apparatus and method for voice recognition using vocal band signal}

도 1은 본 발명에 따른 성대신호를 이용한 음성인식 장치에 대한 일실시예 구성도,

도 2는 본 발명에 따른 가중치계산수단의 동작에 대한 일실시예 설명도,

도 3은 본 발명에 따른 성대신호를 이용한 음성인식 방법에 대한 일실시예 흐름도.

* 도면의 주요 부분에 대한 부호 설명

10; 신호처리수단

20; 가중치계산수단

30; 특징추출수단

40; 인식수단

본 발명은 성대신호를 이용한 음성인식 장치 및 그 방법에 관한 것으로, 더욱 상세하게는 성대신호와 잡음이 포함된 음성신호의 스펙트럼 차이값으로 계산한 인접 프레임 밴드별 평균값에 실험적으로 획득한 가중치를 부여하여 정규화한 후, 상기 정규값을 상기 성대신호에 보상하여 특징벡터를 추출하고 상기 특징벡터의 인식모델을 학습하여 음성인식을 수행하는, 성대신호를 이용한 음성인식 장치 및 그 방법에 관한 것이다.

최근 음성인식 기술은 유무선 통신의 발달과 더불어 더욱 각광받는 기술로서, 사용자에게 좀 더 편리한 인터페이스를 제공할 수 있는 장점이 있다.

그런데, 음성인식 기술이 실생활에서 활용되기 위해서는 음성에 부가되는 간섭신호(interfering signal)의 영향을 줄이는 문제를 해결해야 한다.

상기 간섭신호는 실제로 인식의 대상이 되는 음성에 부가될 수 있는 모든 종류의 신호로서, 주변잡음에 의한 왜곡, 통신선로 왜곡, 음향반향(acoustic echo), 배경음악, 타인의 말소리 등이 있다. 그런데, 상기 간섭신호에서 음성인식 성능을 가장 치명적으로 저하시키는 요인은 주변잡음에 의한 왜곡이기 때문에, 주변잡음에 의한 왜곡을 보상하기 위한 연구가 주로 진행되고 있다.

상기와 같이 주변잡음에 의한 왜곡을 보상하기 위한 종래의 방식으로서, 대한민국 등록특허 0446626호에 기재된 음성신호에서 잡음을 제거하는 방식이 있다. 즉, 대한민국 등록특허 0446626호는 음성과 잡음이 혼합된 신호로부터 잡음이 감쇄된 음성신호를 얻기 위하여 독립성분 분석방법(Independent Component Analysis; ICA)과 스펙트럼 차감법을 직렬적으로 사용하여 음성신호에서 잡음을 제거하는 방식을 제안하고 있다.

또한, 종래의 방식으로서 대한민국 등록특허 0442825호에 기재된 음성인식을 위한 환경보상 방식이 있다. 즉, 대한민국 등록특허 0442825호는 환경 보상 방법을 이용하여 잡음 또는 선로에 의한 왜곡으로 오염된 음성의 스펙트럼을 실제의 음성 스펙트럼에 가깝도록 보상하는 방식을 제안하고 있다.

그러나, 상기 등록특허 0446626호는 잡음신호를 제어함에 있어 독립성분 분석방법(ICA)을 사용함으로써 많은 계산량이 필요하고, 잡음의 종류가 음성과 유사한 경우에 신호를 분리하기 어렵다.

또한, 상기 등록특허 0442825호는 잡음 또는 선로에 의한 왜곡으로 나타나는 환경변수에 대한 추정으로 임의의 환경에 대해 최적화되지 않은 평균적인 보상방식을 사용함으로써, 특정환경에 대한 적응성이 떨어지는 단점이 있다.

또한, 상기 등록특허 0442825호는 오염된 음성신호에 대한 환경변수를 이용하여 왜곡된 음성신호를 보상하는 과정에서 비교적 많은 계산량이 필요하고, 이에 따라 소형 휴대단말과 같은 제한된 자원을 가지는 소형 디바이스의 실시간 작동이 어려운 단점이 있다.

본 발명은 상기와 같은 문제점을 해결하고 상기와 같은 요구에 부응하기 위하여 제안된 것으로, 성대신호와 잡음이 포함된 음성신호의 스펙트럼 차이값으로 계산한 인접 프레임 밴드별 평균값에 실험적으로 획득한 가중치를 부여하여 정규화한 후, 상기 정규값을 상기 성대신호에 보상하여 특징벡터를 추출하고 상기 특징벡터의 인식모델을 학습하여 음성인식을 수행하는, 성대신호를 이용한 음성인식 장치 및 그 방법을 제공하는데 그 목적이 있다.

본 발명의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있으며, 본 발명의 실시예에 의해 보다 분명하게 알게 될 것이다. 또한, 본 발명의 목적 및 장점들은 특허 청구 범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 쉽게 알 수 있을 것이다.

상기 목적을 달성하기 위한 본 발명은, 외부채널에서 입력된 성대신호로부터 성대신호 로그 스펙트럼을 계산하고, 잡음이 포함된 음성신호로부터 음성신호 로그 스펙트럼을 계산하는 신호처리수단과; 상기 성대신호 로그 스펙트럼과 상기 음성신호 로그 스펙트럼을 이용해 가중치를 부여한 정규값을 계산하고, 상기 성대신호 로그 스펙트럼을 상기 정규값으로 보상하는 가중치계산수단과; 상기 보상된 성대신호 로그 스펙트럼의 특징벡터를 추출하는 특징추출수단; 및 상기 특징벡터를 이용하여 인식모델을 학습한 후 음성인식을 수행하는 인식수단을 포함한다.

또한, 본 발명은 외부 채널에서 입력받은 성대신호로부터 성대신호 로그 스펙트럼을 계산하고, 잡음이 포함된 음성신호로부터 음성신호 로그 스펙트럼을 계산하는 제1 단계와; 상기 성대신호 로그 스펙트럼과 음성신호 로그 스펙트럼을 이용 해 가중치를 부여한 정규값을 계산하고, 상기 성대신호 로그 스펙트럼을 상기 정규값으로 보상하는 제2 단계와; 상기 보상된 성대신호 로그 스펙트럼의 특징벡터를 추출하는 제3 단계; 및 상기 추출한 특징벡터의 인식모델을 학습하고, 음성인식을 수행하는 제4 단계를 포함한다.

상술한 목적, 특징 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이며, 그에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 또한, 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에 그 상세한 설명을 생략하기로 한다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명하기로 한다.

도 1은 본 발명에 따른 성대신호를 이용한 음성인식 장치에 대한 일실시예 구성도이다.

도 1에 도시된 바와 같이, 본 발명에 따른 성대신호를 이용한 음성인식 장치는, 신호처리수단(10), 가중치계산수단(20), 특징추출수단(30), 인식수단(40)을 포함한다.

신호처리수단(10)은 성대신호와 잡음이 포함된 음성신호(이하, "음성신호"라 통칭함)를 각각 채널로부터 입력받으면, 입력된 신호의 로그 스펙트럼(log spectrum)을 계산한다. 즉, 상기 신호처리수단(10)은 입력된 신호를 일정구간에서 구성된 프레임(frame)별로 고속 푸리에 변환(Fast Fourier Transform; FFT)을 수행하여 주파수 영역으로 변환한 후 필터뱅크(filter bank)를 이용해 로그 스펙트럼을 계산한다. 이때, 상기 신호처리수단(10)에서 성대신호와 음성신호의 로그 스펙트럼 계산과정이 공지의 기술이므로, 상기 계산과정에 대한 자세한 설명은 생략한다.

또한, 신호처리수단(10)은 성대신호 로그 스펙트럼과 음성신호 로그 스펙트럼을 가중치계산수단(20)에 제공한다.

가중치계산수단(20)은 신호처리수단(10)에서 성대신호 로그 스펙트럼과 음성신호 로그 스펙트럼을 제공받아, 상기 성대신호 로그 스펙트럼를 강화시켜주는 값(후술할 "정규값")을 계산하여 보상한다.

이를 통해, 상기 가중치계산수단(20)은 음성신호에 비해 명료도가 떨어지는 성대신호의 특성(즉, 주변잡음에 의한 왜곡이 없지만 성대를 지난 후 공진을 반영하지 못해 음성신호에 비해 명료도가 떨어지는 특성)을 보완할 수 있다.

또한, 가중치계산수단(20)은 계산된 가중치를 성대신호 로그 스펙트럼에 적용하여 특징추출수단(30)으로 제공한다.

특징추출수단(30)은 인식기의 학습에 필요한 특징벡터를 추출한다. 이때, 상기 특징추출수단(30)은 음성의 특징을 추출하는 여러 가지 방법에서 공지의 멜 켑스트럼(Mel-Frequency Cepstrum Coefficient; MFCC), 선형예측계수 켑스트럼(Linear Prediction Coefficient Cepstrum; LPCC), 인지선형예측 켑스트럼(Perceptual Linear Prediction Cepstrum Coefficient; PLPCC) 등을 주로 사용한다.

인식수단(40)은 특징추출수단(30)에서 추출된 특징벡터들을 이용하여 인식 모델을 학습한다. 이때, 상기 인식수단(40)은 인식 모델로서 공지의 HMM(Hidden Markov Model), DTW(Dynamic Time Warping), 신경회로망(Neural Network) 등을 주로 사용한다.

또한, 인식수단(40)은 인식모델을 이용해 학습과정을 거친 특징벡터들을 모델 파라미터로 저장한다. 이때, 상기 인식수단(40)은 모델 파라미터를 이용하여 미리 학습된 모델과의 유사도를 측정하여 입력받는 신호의 음성인식을 수행한다.

도 2는 본 발명에 따른 가중치계산수단(20)의 동작에 대한 일실시예 설명도이다. 여기서, 도 2를 설명하기에 앞서, 신호처리수단(10)에서 제공받는 성대신호 로그 스펙트럼을

라 하고, 음성신호 로그 스펙트럼을

라 한다.

도 2에 도시된 바와 같이, 본 발명에 따른 가중치계산수단(20)은, 신호처리수단(10)에서 성대신호 로그 스펙트럼(

)과 음성신호 로그 스펙트럼(

)을 제공받아, 상기 성대신호 로그 스펙트럼과 음성신호 로그 스펙트럼의 로그 스펙트럼 크기(magnitude)의 차이값(이하, "스펙트럼 차이값"이라 함)을 계산한다(S21). 이때, 상기 스펙트럼 차이값이

이면, 상기

는 다음 수학식 1과 같다.

한편, 가중치계산수단(20)은 상기 스펙트럼 차이값을 버퍼링(buffering)함으로써, 일시적으로 상기 스펙트럼 차이값을 저장하여 임의의 자연수 N개(예를 들어, N은 3∼5 개)의 인접 프레임의 밴드별 로컬 이동 평균값(local moving average)을 계산한다(S22). 즉, 상기 가중치계산수단(20)은 로컬 이동 평균값(

)을 수학식 2와 같이 계산한다.

여기서, "b"는 밴드 인덱스(band index)이고, "t"는 프레임 인덱스(frame index)인 시간을 의미하고, "N"은 로컬 이동 평균값을 계산하기 위한 버퍼링 프레임의 개수를 의미한다.

특히, 상기 가중치계산수단(20)은 로컬 이동 평균값을 이용함으로서, 성대신호 로그 스펙트럼의 급격한 변화를 방지한다.

이후, 가중치계산수단(20)은 상기 로컬 이동 평균값(

)을 신호 대 잡음비(Signal to Noise Ratio; 이하, "SNR"라 함)에 비례하는 가중치를 부여하여 정규화(normalization)시킨 값을 계산한다(S23). 여기서, 상기 로컬 이동 평균값을 가중치를 부여하여 정규화시킨 값을 이하, "정규값"이라 한다.

여기서, 가중치계산수단(20)에서 SNR에 비례하는 가중치는 실험적으로 획득된 값이 적용되는데, 상기 가중치는 신호처리수단(10)에서 제공받는 원본 성대신호 로그 스펙트럼의 심각한 왜곡을 방지하기 위하여 최대 0.1(10%) 이하를 갖는 것이 바람직하다.

이하, 가중치계산수단(20)은 정규값(

)을 수학식 3과 같이 계산한다.

여기서, "b"는 밴드 인덱스이고, "

"는 밴드 "b"에서 로컬 이동 평균값이고, "

"는 밴드 "b"에서 가중치이다.

한편, 가중치계산수단(20)은 신호처리수단(10)에서 제공받은 원본 성대신호 로그 스펙트럼에 상기 정규값을 보상한 스펙트럼(이하, "보상 스펙트럼"이라 함)을 특징추출수단(30)으로 제공한다.

도 3은 본 발명에 따른 성대신호를 이용한 음성인식 방법에 대한 일실시예 흐름도이다.

도 3에 도시된 바와 같이, 음성인식 장치는 성대신호를 이용하여 다음과 같은 방법으로 주변잡음에 대한 왜곡을 보상한다.

음성인식 장치는 성대신호와 음성신호를 외부 채널로부터 입력받아 로그 스펙트럼을 계산한다(S100).

이후, 음성인식 장치는 성대신호 로그 스펙트럼과 음성신호 로그 스펙트럼의 차이값인 스펙트럼 차이값을 계산한다(S101). 이때, 상기 음성인식 장치는 계산한 스펙트럼 차이값을 버퍼링한다. 이를 통해, 상기 음성인식 장치는 버퍼링한 스펙트럼 차이값을 임의의 자연수 N개의 인접 프레임의 밴드별 로컬 이동 평균값을 계산한다(S102).

이후, 음성인식 장치는 상기 로컬 이동 평균값을 SNR에 따른 가중치를 부여한 후에 정규화시킨 정규값을 계산한다(S103). 이때, 상기 음성인식 장치는 S100 단계에서 계산된 원본 성대신호 로그 스펙트럼을 상기 정규값에 의해 보상한 스펙트럼인 보상 스펙트럼을 생성한다(S104).

이후, 음성인식 장치는 상기 보상 스펙트럼에서 특징벡터를 추출하고(S105), 상기 특징벡터를 이용하여 인식모델을 학습한 후에 음성인식을 수행한다(106).

상술한 바와 같은 본 발명의 방법은 프로그램으로 구현되어 컴퓨터로 읽을 수 있는 형태로 기록매체(씨디롬, 램, 롬, 플로피 디스크, 하드 디스크, 광자기 디스크 등)에 저장될 수 있다. 이러한 과정은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있으므로 더 이상 상세히 설명하지 않기로 한다.

이상에서 설명한 본 발명은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니다.

상기와 같은 본 발명은 심한 잡음환경에서도 성대신호를 이용하여 사용자의 명령을 정확히 인식할 수 있는 효과가 있다.

또한, 본 발명은 주변잡음을 제거하는데 적은 계산량을 필요로 하기 때문에 PDA같은 자원이 제한적인 소형 휴대단말기에 적합한 인식기를 제공할 수 있는 효과가 있다.

또한, 본 발명은 손의 사용이 자유롭지 못한 장애인에게 편리한 대체 인터페이스를 제공하는 효과가 있다.

Claims

외부채널에서 입력된 성대신호로부터 성대신호 로그 스펙트럼을 계산하고, 잡음이 포함된 음성신호로부터 음성신호 로그 스펙트럼을 계산하는 신호처리수단;

상기 성대신호 로그 스펙트럼과 상기 음성신호 로그 스펙트럼을 이용해 가중치를 부여한 정규값을 계산하고, 상기 성대신호 로그 스펙트럼을 상기 정규값으로 보상하는 가중치계산수단;

상기 보상된 성대신호 로그 스펙트럼의 특징벡터를 추출하는 특징추출수단; 및

상기 특징벡터를 이용하여 인식모델을 학습한 후 음성인식을 수행하는 인식수단

을 포함하는 성대신호를 이용한 음성인식 장치.
제1 항에 있어서,

상기 신호처리수단은 입력된 신호를 프레임별 고속 푸리에 변환 수행하고 필터뱅크를 이용하여 상기 신호의 로그 스펙트럼을 계산하는 것을 특징으로 하는 성대신호를 이용한 음성인식 장치.
제1 항에 있어서,

상기 가중치계산수단은 상기 신호처리수단에서 전달받은 성대신호 로그 스펙트럼과 음성신호 로그 스펙트럼의 차이값을 계산하여 버퍼링하고, 상기 차이값을 임의의 자연수 N개의 인접 프레임 밴드별 로컬 이동 평균값을 계산하여 신호 대 잡음비에 따른 가중치를 부여한 정규값을 계산하고, 상기 성대신호 로그 스펙트럼을 상기 정규값으로 보상하는 것을 특징으로 하는 성대신호를 이용한 음성인식 장치.
제3 항에 있어서,

상기 가중치계산수단은 상기 로컬 이동 평균값에 최대 10% 이하인 가중치를 부여하는 것을 특징으로 하는 성대신호를 이용한 음성인식 장치.
외부 채널에서 입력받은 성대신호로부터 성대신호 로그 스펙트럼을 계산하고, 잡음이 포함된 음성신호로부터 음성신호 로그 스펙트럼을 계산하는 제1 단계;

상기 성대신호 로그 스펙트럼과 음성신호 로그 스펙트럼을 이용해 가중치를 부여한 정규값을 계산하고, 상기 성대신호 로그 스펙트럼을 상기 정규값으로 보상하는 제2 단계;

상기 보상된 성대신호 로그 스펙트럼의 특징벡터를 추출하는 제3 단계; 및

상기 추출한 특징벡터의 인식모델을 학습하고, 음성인식을 수행하는 제4 단 계

를 포함하는 성대신호를 이용한 음성인식 방법.
제5 항에 있어서,

상기 제1 단계는 입력된 신호를 프레임별 고속 푸리에 변환 수행하고 필터뱅크를 이용하여 상기 신호의 로그 스펙트럼을 계산하는 것을 특징으로 하는 성대신호를 이용한 음성인식 방법.
제5 항에 있어서,

상기 제2 단계는 상기 성대신호 로그 스펙트럼과 음성신호 로그 스펙트럼의 차이값을 계산하여 버퍼링하고, 상기 차이값을 임의의 자연수 N개의 인접 프레임 밴드별 로컬 이동 평균값을 계산하여 신호 대 잡음비에 따른 가중치를 부여한 정규값을 계산하고, 상기 성대신호 로그 스펙트럼을 상기 정규값으로 보상하는 것을 특징으로 하는 성대신호를 이용한 음성인식 방법.
제7 항에 있어서,

상기 제2 단계에서 상기 가중치는 상기 로컬 이동 평균값에 최대 10% 이하로 부여되는 것을 특징으로 하는 성대신호를 이용한 음성인식 방법.