KR102051966B1 - 음성 인식 향상 장치 및 방법 - Google Patents

음성 인식 향상 장치 및 방법 Download PDF

Info

Publication number
KR102051966B1
KR102051966B1 KR1020140035720A KR20140035720A KR102051966B1 KR 102051966 B1 KR102051966 B1 KR 102051966B1 KR 1020140035720 A KR1020140035720 A KR 1020140035720A KR 20140035720 A KR20140035720 A KR 20140035720A KR 102051966 B1 KR102051966 B1 KR 102051966B1
Authority
KR
South Korea
Prior art keywords
voice
mfcc
standard
standard voice
feature data
Prior art date
Application number
KR1020140035720A
Other languages
English (en)
Other versions
KR20150112168A (ko
Inventor
김주엽
구본태
김태중
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020140035720A priority Critical patent/KR102051966B1/ko
Priority to US14/667,675 priority patent/US9311916B2/en
Publication of KR20150112168A publication Critical patent/KR20150112168A/ko
Application granted granted Critical
Publication of KR102051966B1 publication Critical patent/KR102051966B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)

Abstract

음성 인식에 필요한 음성 특징 데이터인 MFCC의 소음으로 인한 왜곡을 보정하여 음성 인식률을 향상시키도록 하는 음성 인식 향상 장치 및 방법을 제시한다. 제시된 장치는 표준 음성을 발생시키는 표준 음성 발신부, 음성 인식 수행 전에 표준 음성의 발성을 근거로 하는 음성특징 데이터(MFCC)를 생성하는 MFCC 생성부, 및 표준 음성을 근거로 생성한 이득값을 저장하고 음성 인식 수행중에 사용자의 발성을 근거로 하는 음성특징 데이터의 왜곡을 이득값을 이용하여 보상하는 MFCC 보상부를 포함한다.

Description

음성 인식 향상 장치 및 방법{Speech recognition enhancement apparatus and method}
본 발명은 음성 인식 향상 장치 및 방법에 관한 것으로, 보다 상세하게는 음성 인식 과정에서의 음성 인식률을 향상시키기 위한 장치 및 방법에 관한 것이다.
음성 인식은 음성 이외의 주변 소음으로 인해 인식률이 저하되는 문제를 안고 있다. 일반적으로, 음성 인식기가 가지고 있는 단어 수준에서 인식률이 저하되는 것은 주변 소음에 의한 음성 신호의 왜곡에서 비롯되는 것이라 할 수 있다. 음성 신호의 왜곡이 음성 인식률을 저하시키는 원인은 음성 인식기가 가지고 있는 학습된 음향학 데이터베이스와 비교하였을 때, 특정 상태로 확정할 수 없는 결과값이 도출되기 때문이다. 이것은 HMM(Hidden Markov Model) 알고리즘을 기반으로 음성 인식을 수행하고 있는 대부분의 음성 인식기에서 발생하는 문제이다.
HMM 알고리즘을 기반으로 하고 있는 음성 인식기는 일정한 시간 단위로 묶어 MFCC(Mel-Frequency Cepstrum Coefficient)라는 데이터를 추출한다. 일정 시간 단위로 추출된 MFCC는 음성 인식기의 디코더 부분에 전달되어, 실제 학습된 음향학 및 언어 데이터베이스를 기반으로 HMM 알고리즘의 처리 과정에 따라 음성 인식 디코딩을 수행하게 된다.
이때, 주변 소음으로 왜곡된 MFCC 값이 음성 인식 디코더에 전달될 때에 발생하는 문제로 인해 음성 인식률이 떨어지는데, 소음 성분을 적절히 제거하거나 보상해 줄 때 음성 인식률은 향상될 수 있다.
과거 연구에서는 음성 신호에서 소음 신호를 시간 또는 주파수 영역에서 소음을 제거하는 방식이 제안되어 음성 인식 분야와 관련없이 연구가 진행되어 왔다.
그러나, 이러한 방식은 음성 인식기의 학습된 데이터베이스와 다른 음성의 왜곡을 발생시킬 수 있는 단점을 가지고 있다. 일반적으로, 소음과 음성신호의 SNR을 추정하여 주파수 또는 시간 영역에서 이득(Gain)값을 곱해주는 형태를 가지는데, 잘못된 SNR 값을 추정할 때에는 오히려 인식률이 떨어지거나, 소음제거 효과를 크게 얻지 못할 수 있다. 뿐만 아니라, 각각의 주파수 값에 대해서 정교하게 소음의 영향을 추정해야 하므로 계산의 복잡도가 증가하는 문제를 가지고 있다.
도 1에서와 같이 HMM 기반 음성 인식기의 경우, MFCC 생성부(110)는 입력받은 음성 데이터(100)를 근거로 MFCC(120)를 생성하고, 이어 관찰확률 계산부(130) 및 비터비디코더 계산부(140)에서 MFCC(120)에 대한 순차적인 계산 과정을 거침에 따라, 음성인식결과(150)를 얻을 수 있다. 이때, 관찰확률 계산부(130) 및 비터비디코더 계산부(140)는 음성 인식 학습데이터인 음향학 모델 데이터베이스(160) 및 언어 모델 데이터베이스(170)의 데이터를 입력받아야 한다. 여기서, 관찰확률 계산부(130) 및 비터비디코더 계산부(140)는 음성 인식기의 디코더에 해당한다고 볼 수 있다.
한편, HMM 기반 음성인식기는 도 2에서와 같이, MFCC라는 음성특징 데이터 단위로 음성 탐색 네트워크 내부의 최적화된 경로를 탐색하는 절차를 가지고 있다.
음성 인식기는 이미 학습된 음향학 데이터베이스를 통해 음성 탐색 네트워크를 구성하는 내부의 상태(220)들에 해당할 확률(관찰확률)(200)을 GMM(Gaussian Mixture Model) 함수를 통해 계산할 수 있다. 이 계산에 필요한 각 상태(220)들의 분산과 확률값이 학습 데이터베이스에 저장되어 있다. 또한, 상태(220)와 상태(220) 사이의 전이확률값(210, 230)도 학습 데이터로 저장하고 있다.
매시간 단위로 MFCC가 음성 인식기로 입력되면, 음성 인식기는 관찰확률(200)과 전이확률(210, 230)을 통해 음성 탐색 네트워크 내부의 최적 경로를 찾게 되는데, 이 과정은 비터비디코더와 그 계산 절차가 동일하다. 그래서, HMM 기반의 음성 탐색 과정은 비터비디코더를 활용하게 된다. 즉, 최적 경로에 해당하는 발음이 포함되어 있는 단어가 음성인식 결과가 되는 것이다.
이와 같이 HMM 기반 음성 인식기는 MFCC가 시간단위로 입력되어 전이확률(210, 230)과 관찰확률(200)의 누적값이 최대인 경우가 최적 경로로 확정되는데, 일반적으로 의도되지 않은 주변 소음과 잡음으로 인해 최적 경로가 발성자의 발음에 해당하는 상태 변화 경로와 다른 탐색 결과가 나올 가능성이 높다. 이것이 음성 인식기의 오인식에 해당한다.
이를 해결하기 위해서, 종래의 음성 인식기는 도 3과 같이 MFCC 생성부(330)의 앞에 소음이 섞인 신호(300)에서 음성 신호만 분리하거나 보상하는 소음 처리기(310)를 따로 연결하였다.
도 3의 소음 처리기(310)에는 일반적으로 음성에서 소음을 처리하기 위한 방식이 채용되었는데, 음성과 소음에 대한 SNR을 주파수 영역에서 예측하여 보정하기 위한 이득(Gain) 값을 추정하기 위한 시도를 해 왔다.
이와 같은 방식은 도 4와 같이 소음이 섞인 신호(300)를 주파수 영역으로 변환하여 소음 신호 분석을 하기 위해 고속퓨리에변환기(311)를 거치고, 그 결과 생성된 각 주파수 단위의 출력값을 얻는다. 그리고, 고속퓨리에변환기(311)의 출력 값 각각에 대한 음성신호와 소음 신호는 SNR추정부(312), 이득(Gain) 생성부(313), 소음신호 보상부(314)를 거치게 됨에 따라, 주파수 영역에서 음성신호를 향상시키는 일련의 과정을 행한다. 이어, 향상된 주파수영역의 음성신호를 다시 역고속퓨리에변환기(315)를 거쳐 소음 제거된 음성신호(316)를 얻게 되는 것이다.
실제적으로, 주파수 각각에 대한 소음의 확률, 통계치에 대한 변화량은 사용자의 발성 위치에 따른 주변 환경에 영향을 많이 받는다. 사용자의 주변 환경에 따른 소음 인자의 변화량이 비교적 적은 경우, 소음 제거를 위한 단계가 복잡할 필요가 없다. 특히, 사무실, 가정 등의 실내 환경에서의 음성 인식에 방해가 되는 소음 인자의 주파수 영역에서의 통계, 확률적 변화량은 극히 제한적이다. 프로그램의 제목 검색 등의 비교적 짧은 시간 단위의 음성 단어들일 경우 이러한 특성은 더 부각된다.
기존의 짧은 시간 단위 주파수 영역 소음 분석 모델에서는 일반적으로 20~30ms 단위의 시간영역 샘플링 데이터를 대략 10ms 단위로 반복 FFT(Fast Fourier Transform) 연산을 수행하여, 주파수 영역 음성 데이터를 얻게 된다. 주파수 영역에서의 음성 또는 소리 신호들은 통계, 확률적으로 분석이 용이한 특징을 가지고 있다. 주파수 간의 전력량의 변화가 이론적으로 독립적이고, 주변의 잡음이 백색 잡음(White Noise)의 경향을 보일 경우 통계적으로 그 예측이 안정적으로 이루어질 수 있다. 이러한 소리 신호의 특징으로 인해 기존 기술에서는 20~30ms 크기의 샘플링 데이터들을 10ms 간격의 프레임 단위로 나누어, 주파수 영역 전력값 변화를 가우시안 분포(Gaussian Distribution)로 확률 모델을 만들어 음성과 잡음의 SNR(Signal-to-Noise Ratio)을 예측하여 보정하는 작업을 주파수 별로 수행하였다. 이와 같이 기존의 소음 제거 기술은 이론적으로 정교하나, 그 절차와 계산이 복잡하다.
관련 선행기술로는, 사람의 청각 시스템을 반영한 필터 뱅크(Filter Bank)의 출력 에너지 또는 전력을 활용하여 SNR을 예측하고 보상하므로 그 복잡도가 기존 기술을 적용할 때 보다 훨씬 줄어 드는 내용이, 미국공개특허 제2010-0153104호(Noise Suppressor for Robust Speech Recognition)에 개시되었다.
다른 관련 선행기술로는, 시간 영역의 소리신호를 주파수 영역으로 변환하여, 각 주파수의 전력 및 에너지의 변화 양상을 통계, 확률적으로 모델링한 후에 소음 신호 성분을 제거하기 위한 알고리즘이 제시된 논문이, Y. Ephraim and D. Malah, Speech Enhancement Using a Minimum Mean-Square Error Log-Spectral Amplitude Estimator, April. 1985, IEEE TRANSACTIONS ON Acoustics, Speech, And Signal Processing, Vol, ASSP-33, No. 2에 개시되었다.
또 다른 관련 선행기술로는, 기존의 소음 제거 기술이었던 주파수 영역에서의 "log-MMSE suppressor" 기법을 발전시킨 논문이, Dong Yu, Li Deng, Jasha Droppo, Jian Wu, Yifan Gong, Alex Acero, Robust Speech Recognition Using a Cepstral Minimum-Mean-Square-Error-Motivated Noise Suppressor, JULY. 2008, IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, VOL. 16, NO. 5에 개시되었다.
본 발명은 상기한 종래의 문제점을 해결하기 위해 제안된 것으로, 음성 인식에 필요한 음성 특징 데이터인 MFCC의 소음으로 인한 왜곡을 보정하여 음성 인식률을 향상시키도록 하는 음성 인식 향상 장치 및 방법을 제공함에 그 목적이 있다.
상기와 같은 목적을 달성하기 위하여 본 발명의 바람직한 실시양태에 따른 음성 인식 향상 장치는, 표준 음성을 발생시키는 표준 음성 발신부; 음성 인식 수행 전에 상기 표준 음성의 발성을 근거로 하는 음성특징 데이터(MFCC)를 생성하는 MFCC 생성부; 및 상기 표준 음성을 근거로 생성한 이득값을 저장하고, 음성 인식 수행중에 사용자의 발성을 근거로 하는 음성특징 데이터의 왜곡을 상기 이득값을 이용하여 보상하는 MFCC 보상부;를 포함한다.
이때, 상기 MFCC 보상부는, 상기 표준 음성의 발성을 근거로 하는 음성특징 데이터의 생성을 통해 이득 값을 생성하는 초기화 작업 모드 및 상기 음성 인식을 수행하는 모드 중에서 어느 하나의 모드로 스위칭 동작하는 스위치부; 상기 초기화 작업 모드에서 상기 표준 음성의 발성을 통해 상기 MFCC 생성부에서 생성된 음성특징 데이터를 저장하는 입력 MFCC 저장부; 상기 표준 음성의 표준 음성특징 데이터를 저장하는 표준 MFCC 저장부; 상기 초기화 작업 모드에서, 상기 표준 음성의 발성을 통해 생성된 음성특징 데이터 및 상기 표준 음성특징 데이터를 상호 비교하여 왜곡 보정을 위한 이득 값을 생성하는 MFCC 비교부; 및 상기 스위치부가 상기 음성 인식을 수행하는 모드로의 스위칭 동작을 수행함에 따라 상기 사용자의 발성을 근거로 하는 음성특징 데이터의 왜곡을 상기 이득 값으로 보상하는 보상부;를 포함할 수 있다.
이때, 상기 MFCC 보상부는 상기 MFCC 비교부에 의해 생성된 이득 값을 저장하는 이득 저장부를 추가로 포함할 수 있다.
이때, 음성인식 디코더 비터비 탐색의 확률 값이 목표치 이하로 도달하면 상기 표준 음성 발신부에게 다른 표준 음성을 발생시키라는 신호를 제공하는 비터비디코더 계산부를 추가로 포함하여도 된다.
이때, 상기 표준 음성 발신부는 상기 비터비디코더 계산부로부터의 다른 표준 음성을 발생시키라는 신호에 의해 다른 표준 음성을 발생시킬 수 있다.
한편, 본 발명의 바람직한 실시양태에 따른 음성 인식 향상 방법은, 표준 음성 발신부가, 표준 음성을 발생시키는 단계; MFCC 생성부가, 음성 인식 수행 전에 상기 표준 음성의 발성을 근거로 하는 음성특징 데이터를 생성하는 단계; 및 MFCC 보상부가, 음성 인식 수행중에 사용자의 발성을 근거로 생성된 음성특징 데이터의 왜곡을 상기 표준 음성을 근거로 생성한 이득값을 이용하여 보상하는 단계;를 포함한다.
이러한 구성의 본 발명에 따르면, 기존의 음성 인식률을 개선시키기 위해서 적용된 소음제거 방식과 달리, 음성 인식에 필요한 특징 추출 데이터인 MFCC에 대한 보상 이득(Gain)을 비교적 간단하게 획득하여, 음성 인식시에 보상 값으로 이득(Gain)을 적용할 수 있는 장점이 있다.
기존의 소음제거 방식 및 기술들은 이론적으로 정교함이나 정확성 측면에서 장점을 가지고 있으나, 집안 또는 사무실 등의 비교적 소음이 적은 환경에서는 그 계산 대비 성능의 효율성이 떨어진다. 그러나, 본 발명은 소음에 대한 정확한 패턴 및 통계, 확률적 정보를 예측할 수 있도록 초기에 약속된 표준음성신호를 발생시켜, 실내의 잡음 및 반향 제거에 필요한 이득(Gain)값 획득에 탁월한 성능을 보일 수 있다.
도 1은 종래의 HMM 기반 음성 인식기의 처리 과정을 설명하기 위한 도면이다.
도 2는 종래의 HMM 기반 음성 인식기의 음성 인식 탐색 네트워크를 설명하기 위한 도면이다.
도 3은 종래의 음성 인식기의 소음 처리 방법을 설명하기 위한 도면이다.
도 4는 종래 소음 처리기의 구성도이다.
도 5는 본 발명의 실시예에 따른 음성 인식 향상 장치의 구성도이다.
도 6은 도 5에 도시된 MFCC 보상부의 내부 구성도이다.
도 7은 본 발명의 실시예에 따른 음성 인식 향상 방법을 설명하기 위한 플로우차트이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 상세하게 설명하고자 한다.
그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가진 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예를 보다 상세하게 설명하고자 한다. 본 발명을 설명함에 있어 전체적인 이해를 용이하게 하기 위하여 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.
도 5는 본 발명의 실시예에 따른 음성 인식 향상 장치의 구성도이다.
본 발명의 실시예에 따른 음성 인식 향상 장치는 표준 음성 발신부(10), MFCC 생성부(20), 및 MFCC 보상부(30)를 포함한다.
표준 음성 발신부(10)는 사용자가 음성 인식을 본격적으로 수행하기 전에 스피커(5)를 통해 표준 음성을 발생시킨다. 표준 음성은 마이크(1)를 통해 MFCC 생성부(20)에게로 입력되어 기존의 방식과 동일하게 MFCC 처리과정을 거치게 된다.
또한, 표준 음성 발신부(10)는 표준 음성에 상응하는 표준 MFCC 값을 MFCC 보상부(30)에게로 보낼 수 있다.
MFCC 생성부(20)는 마이크(1)를 통해 입력되는 음성데이터(2)를 근거로 MFCC(Mel-Frequency Cepstrum Coefficient; 음성특징 데이터라고 할 수 있음)(3)를 생성하여 출력한다. 즉, MFCC 생성부(20)는 음성 인식 수행 전에는 마이크(1)를 통한 표준 음성의 발성에 근거한 MFCC를 생성할 수 있고, 음성 인식 수행중에는 사용자의 발성에 근거한 MFCC를 생성할 수 있다.
MFCC 보상부(30)는 HMM 음성 인식기의 음성 인식 처리 과정중에 소음 및/또는 잡음으로 왜곡된 MFCC를 보상한다.
MFCC 보상부(30)는 소음 및/또는 잡음이 섞이지 않았을 경우에 생성되어야 할 표준 MFCC 값을 미리 저장해 둔다. MFCC 보상부(30)는 미리 저장해 둔 표준 MFCC 값을 MFCC 생성부(520)에 의해 실제로 생성된 MFCC 값과 비교하여 MFCC 차수에 맞추어 비교 수행을 거쳐서 각각에 대한 이득(Gain) 값을 얻고, 사용자 음성의 MFCC를 보정하기 위한 값으로 저장해 둔다.
즉, 본격적으로 음성인식이 수행되는 시점에 MFCC 생성부(20)가 사용자의 음성데이터(2)를 입력받아 MFCC(3)를 생성하면, MFCC 보상부(30)는 표준 음성을 근거로 획득해 둔 이득(Gain)으로 MFCC(3)를 보정한 신호(4)를 생성한다.
MFCC 보상부(30)에서 출력되는 신호(4)는 관찰확률 계산부(130) 및 비터비디코더 계산부(140)의 순차적인 계산 과정을 거쳐 음성인식 결과(150)로서 출력될 수 있다. 이때, 관찰확률 계산부(130) 및 비터비디코더 계산부(140)는 음향학 모델 데이터베이스(160) 및 언어 모델 데이터베이스(170)의 데이터를 이용함은 물론이다.
한편, 비터디디코더 계산부(140)는 음성인식 디코더 비터비 탐색(Viterbi Search)의 확률 값이 목표치 이하로 도달하는 경우 표준 음성 발신부(10)에게 다른 표준 음성을 발생시키라는 신호를 제공한다. 그에 따라 표준 음성 발신부(10)는 이전에 발생시킨 표준 음성과는 다른 표준 음성을 발생시켜서 음성인식을 수행하기 전에 활용할 수 있도록 한다.
도 5에서, 관찰확률 계산부(130), 비터비디코더 계산부(140), 음향학 모델 데이터베이스(160), 및 언어 모델 데이터베이스(170)는 도 1에서 설명한 해당 구성요소와 거의 동일한 기능을 수행하므로 참조부호를 동일하게 부여하였다.
상술한 도 5에 따르면, 음성 인식기에서 그 처리를 위한 음성 데이터는 MFCC라는 단위로 음성인식 디코더(즉, 관찰확률 계산부(130), 비터비디코더 계산부(140))로 전달되는데, 이때 소음 및/또는 잡음으로 왜곡된 MFCC 수준에서의 보정 기법을 적용함으로써 음성 인식률을 향상시키는 효과를 얻을 수 있다.
다시 말해서, 음성인식 전후에 소음 및/또는 잡음으로 인한 MFCC의 왜곡 치를 분석하여 보정하기 위한 이득(gain) 값을 추출하고, 그 이득 값을 실제 사용자가 음성 인식을 수행하는 중에 소음 및/또는 잡음에 대한 왜곡을 보정하기 위한 값으로 적용하게 되면 종래의 기술보다 복잡도를 줄이는 동시에 손쉽게 음성 인식률을 향상시킬 수 있다.
도 6은 도 5에 도시된 MFCC 보상부의 내부 구성도이다.
MFCC 보상부(30)는 스위치부(31), 입력 MFCC 저장부(32), 표준 MFCC 저장부(33), MFCC 비교부(34), 이득 저장부(35), 및 보상부(36)를 포함한다.
스위치부(31)는 표준 음성 신호(즉, 표준 음성의 발성을 근거로 하는 MFCC)의 생성을 통해 이득(Gain)값을 생성하는 초기화 작업 모드 및 음성 인식을 수행하는 모드 중에서 선택되는 모드에 따라 해당 모드의 처리 절차가 수행될 수 있도록 스위칭 동작을 수행한다.
입력 MFCC 저장부(32)는 초기화 작업 모드에서 표준 음성 발신부(10)에서 발생된 표준 음성이 마이크(1)를 통해 MFCC 생성부(20)로 인가된 후에 MFCC 생성부(20)에서 생성된 MFCC를 저장한다.
표준 MFCC 저장부(33)는 발성된 표준 음성의 MFCC를 저장한다. 즉, 표준 MFCC 저장부(33)는 소음 및/또는 잡음이 섞이지 않았을 경우에 생성되어야 할 표준 음성의 MFCC 값을 저장한다.
MFCC 비교부(34)는 초기화 작업 모드에서 입력 MFCC 저장부(32)에 저장된 표준 음성의 발성을 통해 생성된 MFCC를 제공받고, 표준 MFCC 저장부(33)에 저장된 표준 음성의 MFCC를 제공받아, 이 둘의 MFCC를 비교한다. 이어, MFCC 비교부(34)는 MFCC의 왜곡 치를 분석하여 보정하기 위한 이득(gain) 값을 추출한다. 추출한 이득 값은 실제 음성 인식을 수행하는 중에 소음 및/또는 잡음이 섞인 사용자의 음성데이터(MFCC)에 대한 왜곡을 보정하기 위한 값으로 사용된다.
이득 저장부(35)는 MFCC 비교부(34)에 의해 생성된 이득 값을 저장한다.
보상부(36)는 스위치부(31)가 음성 인식을 수행하는 모드로의 스위칭 동작을 수행함에 따라 입력되는 MFCC 신호(3)(즉, 사용자 음성에 대한 MFCC 신호)에 대하여 이득 저장부(35)의 이득 값으로 보상을 수행한다. 결국, 보상부(36)는 음성 인식중에 보상된 MFCC 신호(4)를 출력하게 된다.
상술한 바와 같은 MFCC 보상부(30)는 소음이 없는 상황에서 표준 음성의 MFCC 값을 사전에 저장해 두고, 표준 음성의 발성에 의해 실제로 생성된 MFCC 값과 표준 음성의 MFCC 값을 서로 비교하였을 시에 발생하는 차이를 보정하기 위한 이득(Gain) 값으로 생성한 후에, 그 이득 값을 사용자가 발성하는 음성에 대한 MFCC의 보상 이득으로 적용한다.
도 7은 본 발명의 실시예에 따른 음성 인식 방법을 설명하기 위한 플로우차트이다. 본 발명은 음성 인식 과정에서의 음성 인식률을 향상시키기 위한 것으로서, 소음 등에 대한 MFCC 값의 왜곡을 보정하는 것을 주안점으로 한다. 따라서, 이하의 설명에서는 음성 인식 과정의 전반적인 흐름에 대해서는 설명하지 않고 상술한 주안점에 맞추어 설명하기로 한다.
먼저, S10에서, MFCC 보상부(20)는 스위치부(31)의 현재 스위칭 모드에 따라 이득을 얻기 위한 초기화 작업 모드인지 아니면 음성 인식을 수행하는 모드인지를 판단하게 된다.
그 판단 결과, 현재의 스위칭 모드가 초기화 작업 모드이면, S20에서, MFCC 보상부(30)는 입력 MFCC 저장부(32)에 저장된 표준 음성의 발성을 통해 생성된 MFCC 및 표준 MFCC 저장부(33)에 저장된 표준 음성의 MFCC를 비교한다.
그 비교 이후, S30에서, MFCC 보상부(30)는 서로 비교하였을 시에 발생하는 차이(즉, MFCC의 왜곡 치)에 상응하는 값을 보정을 위한 이득(gain) 값으로 생성한다.
그리고 나서, S40에서, MFCC 보상부(30)는 생성한 이득 값을 이득 저장부(35)에 저장한다.
이와 같이 현재의 스위칭 모드가 초기화 작업 모드이면 MFCC 보상부(30)는 상술한 S20 ~ S40의 동작을 수행한다.
한편, 현재의 스위칭 모드가 음성 인식을 수행하는 모드이면, S50에서, MFCC 보상부(30)는 MFCC 생성부(20)에서 생성된 MFCC(예컨대, 사용자 음성에 대한 MFCC)를 입력받고 입력받은 MFCC를 이득 저장부(35)에 미리 저장한 보정을 위한 이득 값으로 보정을 행한다.
그 보정 결과, S60에서, MFCC 보상부(30)는 보정된 신호(즉, 소음 및/또는 잡음이 제거된 MFCC)를 생성하여 출력하게 된다. 그리고, MFCC 보상부(30)에서 출력되는 신호(즉, 소음 및/또는 잡음이 제거된 MFCC)는 관찰확률 계산부(130) 및 비터비디코더 계산부(140)의 순차적인 계산 과정을 거쳐 음성인식 결과(150)로서 출력될 수 있다. 여기서, 비터디디코더 계산부(140)는 음성인식 디코더 비터비 탐색(Viterbi Search)의 확률 값이 목표치 이하로 도달하는 경우 표준 음성 발신부(10)에게 다른 표준 음성을 발생시키라는 신호를 제공하고, 표준 음성 발신부(10)는 이전에 발생시킨 표준 음성과는 다른 표준 음성을 발생시켜서 음성인식을 수행하기 전에 활용할 수 있도록 한다.
상술한 바와 같이, 음성 인식에 필요한 특징 추출 데이터인 MFCC에 대한 보상 이득을 비교적 간단하게 획득하여 저장해 두고, 음성 인식시에 보상값으로 이득을 적용시킴으로써, 종래에 비해 복잡도를 줄이는 동시에 손쉽게 음성 인식률을 향상시킬 수 있게 된다.
이상에서와 같이 도면과 명세서에서 최적의 실시예가 개시되었다. 여기서 특정한 용어들이 사용되었으나, 이는 단지 본 발명을 설명하기 위한 목적에서 사용된 것이지 의미 한정이나 특허청구범위에 기재된 본 발명의 범위를 제한하기 위하여 사용된 것은 아니다. 그러므로, 본 기술 분야의 통상의 지식을 가진자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.
10 : 표준 음성 발신부 20 : MFCC 생성부
30 : MFCC 보상부 130 : 관찰확률 계산부
140 : 비터비디코더 계산부 160 : 음향학 모델 데이터베이스
170 : 언어 모델 데이터베이스

Claims (9)

  1. 표준 음성을 발생시키는 표준 음성 발신부;
    음성 인식 수행 전에 상기 표준 음성의 발성을 근거로 하는 음성특징 데이터(MFCC)를 생성하는 MFCC 생성부; 및
    상기 표준 음성을 근거로 생성한 이득값을 저장하고, 음성 인식 수행중에 사용자의 발성을 근거로 하는 음성특징 데이터의 왜곡을 상기 이득값을 이용하여 보상하는 MFCC 보상부;를 포함하고,
    상기 표준 음성 발신부는,
    다른 표준 음성을 발생시키라는 신호에 근거하여 다른 표준 음성을 발생시키는 것을 특징으로 하는 음성 인식 향상 장치.
  2. 청구항 1에 있어서,
    상기 MFCC 보상부는,
    상기 표준 음성의 발성을 근거로 하는 음성특징 데이터의 생성을 통해 이득 값을 생성하는 초기화 작업 모드 및 상기 음성 인식을 수행하는 모드 중에서 어느 하나의 모드로 스위칭 동작하는 스위치부;
    상기 초기화 작업 모드에서 상기 표준 음성의 발성을 통해 상기 MFCC 생성부에서 생성된 음성특징 데이터를 저장하는 입력 MFCC 저장부;
    상기 표준 음성의 표준 음성특징 데이터를 저장하는 표준 MFCC 저장부;
    상기 초기화 작업 모드에서, 상기 표준 음성의 발성을 통해 생성된 음성특징 데이터 및 상기 표준 음성특징 데이터를 상호 비교하여 왜곡 보정을 위한 이득 값을 생성하는 MFCC 비교부; 및
    상기 스위치부가 상기 음성 인식을 수행하는 모드로의 스위칭 동작을 수행함에 따라 상기 사용자의 발성을 근거로 하는 음성특징 데이터의 왜곡을 상기 이득 값으로 보상하는 보상부;를 포함하는 것을 특징으로 하는 음성 인식 향상 장치.
  3. 청구항 2에 있어서,
    상기 MFCC 보상부는 상기 MFCC 비교부에 의해 생성된 이득 값을 저장하는 이득 저장부를 추가로 포함하는 것을 특징으로 하는 음성 인식 향상 장치.
  4. 청구항 1에 있어서,
    음성인식 디코더 비터비 탐색의 확률 값이 목표치 이하로 도달하면 상기 표준 음성 발신부에게 다른 표준 음성을 발생시키라는 신호를 제공하는 비터비디코더 계산부를 추가로 포함하는 것을 특징으로 하는 음성 인식 향상 장치.
  5. 청구항 4에 있어서,
    상기 표준 음성 발신부는 상기 비터비디코더 계산부로부터의 다른 표준 음성을 발생시키라는 신호에 의해 다른 표준 음성을 발생시키는 것을 특징으로 하는 음성 인식 향상 장치.
  6. 표준 음성 발신부가, 표준 음성을 발생시키는 단계;
    MFCC 생성부가, 음성 인식 수행 전에 상기 표준 음성의 발성을 근거로 하는 음성특징 데이터를 생성하는 단계; 및
    MFCC 보상부가, 음성 인식 수행중에 사용자의 발성을 근거로 생성된 음성특징 데이터의 왜곡을 상기 표준 음성을 근거로 생성한 이득값을 이용하여 보상하는 단계;를 포함하고,
    상기 표준 음성을 발생시키는 단계는,
    다른 표준 음성을 발생시키라는 신호에 근거하여 다른 표준 음성을 발생시키는 것을 특징으로 하는 음성 인식 향상 방법.
  7. 청구항 6에 있어서,
    상기 보상해 주는 단계는,
    스위치부가 초기화 작업 모드로 스위칭됨에 따라 상기 표준 음성의 발성을 통해 생성된 음성특징 데이터를 저장하는 단계;
    상기 표준 음성의 표준 음성특징 데이터를 저장하는 단계;
    상기 초기화 작업 모드에서, 상기 표준 음성의 발성을 통해 생성된 음성특징 데이터 및 상기 표준 음성특징 데이터를 상호 비교하여 왜곡 보정을 위한 이득 값을 생성하는 단계; 및
    상기 스위치부가 상기 음성 인식을 수행하는 모드로 스위칭됨에 따라 상기 사용자의 발성을 근거로 하는 음성특징 데이터의 왜곡을 상기 이득 값으로 보상하는 단계;를 포함하는 것을 특징으로 하는 음성 인식 향상 방법.
  8. 청구항 7에 있어서,
    상기 보상해 주는 단계는 상기 이득 값을 생성하는 단계에 의해 생성된 이득 값을 저장하는 단계를 추가로 포함하는 것을 특징으로 하는 음성 인식 향상 방법.

  9. 삭제
KR1020140035720A 2014-03-27 2014-03-27 음성 인식 향상 장치 및 방법 KR102051966B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020140035720A KR102051966B1 (ko) 2014-03-27 2014-03-27 음성 인식 향상 장치 및 방법
US14/667,675 US9311916B2 (en) 2014-03-27 2015-03-24 Apparatus and method for improving voice recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140035720A KR102051966B1 (ko) 2014-03-27 2014-03-27 음성 인식 향상 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20150112168A KR20150112168A (ko) 2015-10-07
KR102051966B1 true KR102051966B1 (ko) 2019-12-04

Family

ID=54191287

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140035720A KR102051966B1 (ko) 2014-03-27 2014-03-27 음성 인식 향상 장치 및 방법

Country Status (2)

Country Link
US (1) US9311916B2 (ko)
KR (1) KR102051966B1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105741842A (zh) * 2016-01-07 2016-07-06 中国农业大学 一种基于食品安全语料数据的语音匹配方法
CN106356058B (zh) * 2016-09-08 2019-08-20 河海大学 一种基于多频带特征补偿的鲁棒语音识别方法
KR102356889B1 (ko) 2017-08-16 2022-01-28 삼성전자 주식회사 음성 인식을 수행하는 방법 및 이를 사용하는 전자 장치

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050063995A (ko) 2003-12-23 2005-06-29 한국전자통신연구원 음성인식을 위한 학습과 인식 방법 및 시스템
US8185389B2 (en) 2008-12-16 2012-05-22 Microsoft Corporation Noise suppressor for robust speech recognition
KR101253102B1 (ko) 2009-09-30 2013-04-10 한국전자통신연구원 음성인식을 위한 모델기반 왜곡 보상형 잡음 제거 장치 및 방법
KR101236539B1 (ko) * 2010-12-30 2013-02-25 부산대학교 산학협력단 가중 자동회귀 이동평균 필터와 전역 켑스트럼 평균 및 분산 정규화를 이용한 특징 보상 장치 및 방법
JP2013164572A (ja) * 2012-01-10 2013-08-22 Toshiba Corp 音声特徴量抽出装置、音声特徴量抽出方法及び音声特徴量抽出プログラム

Also Published As

Publication number Publication date
US20150279385A1 (en) 2015-10-01
KR20150112168A (ko) 2015-10-07
US9311916B2 (en) 2016-04-12

Similar Documents

Publication Publication Date Title
Parchami et al. Recent developments in speech enhancement in the short-time Fourier transform domain
Kumar et al. Delta-spectral cepstral coefficients for robust speech recognition
Droppo et al. Environmental robustness
Hirsch et al. A new approach for the adaptation of HMMs to reverberation and background noise
KR20160125984A (ko) 화자 사전 기반 스피치 모델링을 위한 시스템들 및 방법들
CN108877784B (zh) 一种基于口音识别的鲁棒语音识别方法
Fujimoto et al. Noise robust voice activity detection based on switching Kalman filter
JP5242782B2 (ja) 音声認識方法
Chowdhury et al. Bayesian on-line spectral change point detection: a soft computing approach for on-line ASR
Sehr et al. Towards a better understanding of the effect of reverberation on speech recognition performance
Stouten et al. Model-based feature enhancement with uncertainty decoding for noise robust ASR
Garner Cepstral normalisation and the signal to noise ratio spectrum in automatic speech recognition
Milner et al. Robust acoustic speech feature prediction from noisy mel-frequency cepstral coefficients
Pujol et al. On real-time mean-and-variance normalization of speech recognition features
JP4705414B2 (ja) 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体
Nakamura et al. A mel-cepstral analysis technique restoring high frequency components from low-sampling-rate speech.
KR102051966B1 (ko) 음성 인식 향상 장치 및 방법
WO2018140020A1 (en) Methods and apparatus for asr with embedded noise reduction
US11929058B2 (en) Systems and methods for adapting human speaker embeddings in speech synthesis
CN109155128B (zh) 声学模型学习装置、声学模型学习方法、语音识别装置和语音识别方法
JP2009276365A (ja) 処理装置、音声認識装置、音声認識システム、音声認識方法
Han et al. Reverberation and noise robust feature compensation based on IMM
Sehr et al. Towards robust distant-talking automatic speech recognition in reverberant environments
Gao et al. HMM-based speech enhancement using vector Taylor series and parallel modeling in Mel-frequency domain
Han et al. Switching linear dynamic transducer for stereo data based speech feature mapping

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant