KR101975057B1 - 잡음 환경에서의 음성 인식을 위한 특징 보상 장치 및 방법 - Google Patents

잡음 환경에서의 음성 인식을 위한 특징 보상 장치 및 방법 Download PDF

Info

Publication number
KR101975057B1
KR101975057B1 KR1020150039098A KR20150039098A KR101975057B1 KR 101975057 B1 KR101975057 B1 KR 101975057B1 KR 1020150039098 A KR1020150039098 A KR 1020150039098A KR 20150039098 A KR20150039098 A KR 20150039098A KR 101975057 B1 KR101975057 B1 KR 101975057B1
Authority
KR
South Korea
Prior art keywords
feature
noise
speech signal
speech
model
Prior art date
Application number
KR1020150039098A
Other languages
English (en)
Other versions
KR20160112793A (ko
Inventor
김현우
정호영
박전규
이윤근
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020150039098A priority Critical patent/KR101975057B1/ko
Priority to US15/074,579 priority patent/US9799331B2/en
Publication of KR20160112793A publication Critical patent/KR20160112793A/ko
Application granted granted Critical
Publication of KR101975057B1 publication Critical patent/KR101975057B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Noise Elimination (AREA)
  • Telephone Function (AREA)

Abstract

본 발명에 따른 잡음 환경에서의 음성 인식을 위한 특징 보상 장치는 둘 이상의 프레임으로 구성된 잡음이 부가된 오염된 음성 신호로부터 음성 신호 특징 정보를 추출하는 특징 추출부, 추출된 음성 신호 특징 정보 및 보상된 음성 특징으로부터 잡음 특징 정보를 추정하는 잡음 추정부, 둘 이상의 프레임으로 구성된 잡음이 부가된 오염된 음성 신호의 인접 프레임 간의 상관도를 산출하는 확률 산출부 및 오염된 음성 신호의 인접 프레임 간의 상관도 및 추정된 잡음 특징 정보를 고려하여 추출된 음성 신호 특징 정보의 잡음 특징을 제거하여 상기 보상된 음성 특징을 생성하는 음성 특징 보상부를 포함한다.

Description

잡음 환경에서의 음성 인식을 위한 특징 보상 장치 및 방법{APPARATUS AND METHOD FOR FEATURE COMPENSATION FOR SPEECH RECOGNITION IN NOISE ENVIROMENT}
본 발명은 음성 인식에 관한 기술로서, 보다 상세하게는 잡음 환경에서의 음성 인식 성능을 향상시키는 기술에 관한 것이다.
통계적 패턴 방식을 이용한 음성 인식 기술은 음성 인식 분야에서 널리 사용되고 있으나, 여러 가지 원인에 인해 성능 저하가 발생하게 된다. 통계적 패턴 방식의 음성 인식 성능을 저하시키는 주요 원인은 음향 모델 훈련에 사용하는 음성 신호와 실제 음성 인식 환경에서 입력되는 음성 신호의 음향학적 특성이 다르다는 것이다. 특히 음성 인식 환경의 다양한 배경 잡음(자동차 소음, 음악 등)이 입력 음성 신호에 부가되면, 훈련에 사용한 음성 신호와 다른 음향학적 특성을 가지게 된다. 이러한 음향학적 특성의 불일치를 줄이기 위한 방법으로 음질 향상 기법(speech enhancement), 특징 보상 기법(feature compensation), 모델 적응 기법(model adaptation)이 사용되고 있다.
데이터 주도(data-driven) 방법과 모델 기반(model-based) 방법으로 분류되는 특징 보상 기법은 모델 적응 기법에 비해 음성 인식 성능은 떨어지지만 적은 계산량으로 새로운 음성 인식 환경에 유연하게 적용 가능한 장점이 있다.
대표적인 모델 기반의 음성 특징 보상 과정은 음성 신호 특징의 분포를 정규 혼합 모델(GMM: Gaussian Mixture Model) 형태로 표현한다. 하지만, 이러한 방법은 음성과 잡음을 구분하는 가장 중요한 특징 중 하나인 인접 음성 프레임간의 동적 정보(temporal dynamics)를 활용하지 못한다는 단점이 있다. 그래서 배블(babble) 소음이나 TV 소리처럼 음성의 형태를 띤 배경 잡음 환경에서 음성 인식 성능 저하가 두드러지는 문제가 발생한다. 잡음 특징 추정 과정에서 사용되는 확장 칼만 필터는 특징 영역에서 시간에 따라 천천히 변하는 비정상(non-stationary) 잡음 특징 추정에 좋은 성능을 보여주고 있으나, 현재 프레임만의 특징을 직접 사용하기 때문에 비상관 가정은 어긋나고 관측 모델 오류가 발생한다. 따라서 잡음 특징 추정도 부정확해지며, 특히 음성 구간에서 잘못된 잡음 특징 추정은 음성 인식의 저하를 일으킨다.
대한민국 공개특허 특1999-015044
본 발명이 해결하고자 하는 과제는 선형 모델 기반의 음성 특징 보상 과정에서 인접 음성 프레임간의 동적 정보를 활용함으로써 잡음 환경에서의 음성 인식 성능을 향상시킬 수 있는 음성 인식을 위한 특징 보상 장치 및 방법을 제공하는 것이다.
본 발명에 따른 잡음 환경에서의 음성 인식을 위한 특징 보상 장치는 둘 이상의 프레임으로 구성된 잡음이 부가된 오염된 음성 신호로부터 음성 신호 특징 정보를 추출하는 특징 추출부, 추출된 음성 신호 특징 정보 및 보상된 음성 특징으로부터 잡음 특징 정보를 추정하는 잡음 추정부, 둘 이상의 프레임으로 구성된 잡음이 부가된 오염된 음성 신호의 인접 프레임 간의 상관도를 산출하는 확률 산출부 및 오염된 음성 신호의 인접 프레임 간의 상관도 및 추정된 잡음 특징 정보를 고려하여 추출된 음성 신호 특징 정보의 잡음 특징을 제거하여 상기 보상된 음성 특징을 생성하는 음성 특징 보상부를 포함한다. 그리고, 비선형 관계 모델을 선형 관계 모델로 근사화하는 선형 관계 모델 생성부를 더 포함할 수 있다.
특징 추출부는 둘 이상의 프레임으로 구성된 잡음이 부가된 오염된 음성 신호를 매 프레임마다 시간 영역에서 주파수 영역으로 변환하고, 주파수 영역으로 변환된 오염된 음성 신호에 멜 스케일 필터 뱅크를 적용하여 에너지를 계산한 후 로그(Log)를 취하여 로그 에너지 값을 산출하여 음성 신호 특징 정보를 추출한다. 그리고, 특징 추출부는 주파수 영역으로 변환된 오염된 음성 신호에 멜 스케일 필터 뱅크를 적용하여 에너지를 계산한 후, 로그를 취하기 전 평활화(Smoothing)를 수행할 수 있다. 그리고, 잡음 추정부는 상기 추출된 음성 신호 특징 정보에서 잡음 특징에 대한 동적 모델 및 오염된 음성 특징의 비선형 관측 모델을 기반으로 잡음 특징의 평균 및 분산을 추정한다.
하나의 실시예로서, 확률 산출부는 둘 이상의 프레임으로 구성된 훈련 음성 신호로부터 음성 신호 특징의 가우시안 혼합 모델(Gaussian Mixture Model, GMM) 확률 분포를 획득하는 확률 분포 획득부, 훈련 음성 신호의 특징의 인접 프레임간의 가우시안 혼합 모델(Gaussian Mixture Model, GMM) 혼합 성분 전이 확률을 획득하는 전이 확률 코드북 획득부 및 훈련 음성 신호의 인접 프레임간의 가우시안 혼합 모델(Gaussian Mixture Model, GMM) 혼합 성분 전이 확률을 검색하여 오염된 음성 신호로부터 추출된 음성 신호 특징 정보의 인접 프레임 간의 혼합 성분 전이 확률과 대응하는 가우시안 혼합 모델 혼합 성분 전이 확률을 계산하는 전이 확률 계산부를 포함한다. 그리고, 음성 특징 보상부는 훈련 음성 신호의 가우시안 혼합 모델 확률 분포 및 가우시안 혼합 모델 혼합 성분 전이 확률에 따른 오염된 음성 신호의 인접 프레임 간의 상관도 및 추정된 잡음 특징 정보를 사용하여 추출된 음성 신호 특징 정보의 잡음 특징을 제거한다.
다른 하나의 실시예로서, 확률 산출부는 둘 이상의 프레임으로 구성된 훈련 음성 신호로부터 음성 신호 특징의 마르코프 은닉 모델(Hidden Markov Model, HMM) 구조의 통계 모델을 획득하고, 음성 신호 특징을 마르코프 은닉 모델로 복호화(Decoding)하여 마르코프 은닉 모델 상태 확률을 산출한다. 그리고, 음성 특징 보상부는 음성 신호 특징의 통계 모델, 추정된 잡음 특징, 음성 신호 특징 및 마르코프 은닉 모델 상태 확률을 사용하여 오염된 음성 특징에서 추정된 잡음 특징을 제거한다.
본 발명에 따른 잡음 환경에서의 음성 인식을 위한 특징 보상 방법은 먼저, 둘 이상의 프레임으로 구성된 잡음이 부가된 오염된 음성 신호로부터 음성 신호 특징 정보를 추출하고, 추출된 음성 신호 특징 정보 및 보상된 음성 특징으로부터 잡음 특징 정보를 추정한다. 그리고, 둘 이상의 프레임으로 구성된 잡음이 부가된 오염된 음성 신호의 인접 프레임 간의 상관도를 산출한다. 다음으로, 오염된 음성 신호의 인접 프레임 간의 상관도 및 추정된 잡음 특징 정보를 고려하여 상기 추출된 음성 신호 특징 정보의 잡음 특징을 제거하여 보상된 음성 특징을 생성한다. 인접 프레임 간의 상관도를 산출하는 과정은 프레임들간의 가우시안 혼합 모델 성분 전이 확률 또는 마르코프 은닉 모델 상태열 확률을 이용하여 산출할 수 있다.
본 발명에 따른 잡음 환경에서의 음성 인식을 위한 특징 보상 장치 및 방법은 음성과 잡음을 구분하는 가장 중요한 특징 중 하나인 인접 음성 프레임간의 동적 정보(상관도)를 활용하기 위해 인접 프레임들간의 GMM 성분 전이 확률 또는 HMM 상태열 확률을 사용한다. 본 발명은 인접 음성 프레임간의 동적 정보(상관도)를 통해 잡음 환경에서의 음성 인식을 향상시킬 수 있다. 특히, 본 발명은 배블 (Babble) 소음이나 TV 소리와 같이 음성의 형태를 가지는 배경 잡음 환경에서 더욱 효과적으로 음성 인식을 향상시킬 수 있다.
그리고, 본 발명에 따른 잡음 환경에서의 음성 인식을 위한 특징 보상 장치 및 방법은 확장 칼만 필터에 의한 잡음 추정 시, 신호 영역에서 평활화를 수행함으로써, 관측 모델의 정확도가 높아져 잡음 추정의 정확도가 높아질 수 있다. 또한 현재 프레임의 잡음 대비 음성 특징 크기에 따라 칼만 이득을 조절함으로써 음성 구간에서 잘못된 잡음 특징 추정으로 인한 음성 인식 성능 저하를 예방할 수 있다.
도 1은 본 발명에 따른 잡음 환경에서의 음성 인식을 위한 특징 보상 장치의 일 실시예를 나타내는 구성도이다.
도 2는 본 발명의 일 실시예에 따른 잡음 환경에서의 음성 인식을 위한 특징 보상 장치(100)의 잡음 추정부(120)의 잡음 추정 과정을 설명하기 위한 도면이다.
도 3은 최소 평균 오차를 통한 음성 특징 보상 과정을 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따른 잡음 환경에서의 음성 인식을 위한 특징 보상 장치의 가우시안 혼합 모델의 전이 확률을 사용하는 음성 특징 보상 과정을 설명하기 위한 도면이다.
도 5는 본 발명의 일 실시예에 따른 본 발명의 일 실시예에 따른 잡음 환경에서의 음성 인식을 위한 특징 보상 장치의 음성 마르코프 은닉 모델의 상태열 확률값을 사용하는 음성 특징 보상 과정을 설명하기 위한 도면이다.
도 6은 본 발명에 따른 잡음 환경에서의 음성 인식을 위한 특징 보상 장치(600)의 다른 일 실시예를 나타내는 구성도이다.
도 7은 본 발명에 따른 잡음 환경에서의 음성 인식을 위한 특징 보상 장치의 잡음 추정부의 다른 일 실시예를 나타내는 구성도이다.
도 8은 본 발명의 일 실시예에 따른 잡음 환경에서의 음성 인식을 위한 특징 보상 방법을 나타내는 흐름도이다.
이하, 본 발명의 실시예를 첨부된 도면들을 참조하여 상세하게 설명한다. 본 명세서에서 사용되는 용어 및 단어들은 실시예에서의 기능을 고려하여 선택된 용어들로서, 그 용어의 의미는 발명의 의도 또는 관례 등에 따라 달라질 수 있다. 따라서 후술하는 실시예에서 사용된 용어는, 본 명세서에 구체적으로 정의된 경우에는 그 정의에 따르며, 구체적인 정의가 없는 경우는 당업자들이 일반적으로 인식하는 의미로 해석되어야 할 것이다.
도 1은 본 발명에 따른 잡음 환경에서의 음성 인식을 위한 특징 보상 장치의 일 실시예를 나타내는 구성도이다.
도 1을 참조하면, 본 발명에 따른 잡음 환경에서의 음성 인식을 위한 특징 보상 장치(100)는 종래의 음성 인식 방법의 잡음 제거 방식과 달리 둘 이상의 프레임으로 구성된 음성 신호에서 인접하는 프레임을 함께 고려하여 잡음을 제거한다. 이를 위해, 본 발명에 따른 잡음 환경에서의 음성 인식을 위한 특징 보상 장치(100)는 특징 추출부(110), 잡음 추정부(120), 확률 산출부(130), 음성 특징 보상부(140) 및 선형 관계 모델 생성부(150)를 포함한다.
특징 추출부(110)는 오염된 음성 신호로부터 음성 신호 특징 정보를 추출한다. 오염된 음성 신호는 인식 목표 음성뿐만 아니라 잡음이 부가된 음성 신호를 의미한다. 특징 추출부(110)는 오염된 음성 신호를 소정의 시간 간격으로 둘 이상의 프레임으로 분할할 수 있다. 특징 추출부(110)는 먼저 오염된 음성 신호를 시간 영역에서 주파수 영역으로 변환한다. 오염된 음성 신호는 시간 순서에 따른 프레임으로 구성되어있다. 특징 추출부(110)는 오염된 음성 신호의 매 프레임마다 고속 푸리에 변환(Fast Fourier Transform, FFT)을 적용하여 시간 영역에서 주파수 영역으로 변환할 수 있다. 그리고, 특징 추출부(110)는 주파수 영역으로 변환된 오염된 음성 신호에 음성 인식과 밀접한 관련이 있는 멜-스케일(Mel-Scale)의 필터 뱅크(Filter Bank)를 적용한 후 로그 에너지를 산출하여 음성 신호 특징 정보를 구한다. 필터 뱅크는 음성 신호의 주파수 대역을 다수 개의 대역 통과 필터에 의해 분할하고, 이들 필터 군으로부터의 출력에 의해서 음성 분석을 하는 경우의 필터군을 나타낸다.
잡음 추정부(120)는 특징 추출부(110)에서 추출된 음성 신호 특징 정보 및 음성 특징 보상부(140)에 의해 보상된 음성 특징을 이용하여 잡음 특징 정보를 추정한다. 잡음 추정부(120)는 추출된 음성 신호 특징 정보에 동적 모델과 관측 모델을 기반으로 확장 칼만 필터를 적용하여 잡음 특징의 평균과 분산을 추정한다. 이 과정은 크게 예측(Prediction) 과정과 정정(Correction) 과정으로 나뉜다. 그리고, 잡음 추정부(120)는 잡음 특징 대비 추출된 음성 신호 특징의 크기의 차이에 반비례하여 업데이트하는 잡음 특징의 평균 및 분산의 칼만 이득의 크기를 줄일 수 있다. 잡음 추정부(120)의 잡음 특징 정보 추정 과정은 후술하는 도 2에서 추가적으로 설명하도록 한다.
확률 산출부(130)는 둘 이상의 프레임으로 구성된 훈련 음성 신호로부터 음성 신호 특징의 마르코프 은닉 모델(Hidden Markov Model, HMM) 구조의 통계 모델을 획득하고, 음성 신호 특징을 마르코프 은닉 모델로 복호화(Decoding)하여 마르코프 은닉 모델 상태 확률을 산출할 수 있다. 먼저, 확률 산출부(130)는 훈련 음성 신호를 활용하여 오염된 음성 신호의 인접 프레임 간의 상관도에 대한 정보를 산출한다. 본 발명은 서로 다른 인접 프레임들 간의 상관도를 고려하여 음성 특징을 보상한다. 훈련 음성 신호는 인식 대상인 오염된 음성 신호와 구분되는 음성 신호로서 잡음이 포함되지 않은(오염되지 않은) 음성 신호이다. 훈련 음성 신호는 오염된 음성 신호를 인식하기 과정을 수행하기 이전에 수행되는 전처리 과정이다. 확률 산출부(130)는 하나의 실시예로서 가우시안 혼합 모델(Gaussian Mixture Model, GMM) 또는 마르코프 은닉 모델(Hidden Markov Model)을 적용하여 훈련 음성 신호의 인접 프레임 간의 상관도를 산출할 수 있다. 도 1의 실시예에서는 가우시안 혼합 모델을 적용하여 훈련 음성 신호의 인접 프레임 간의 상관도를 산출한다. 확률 산출부(130)의 상관도 산출 과정은 후술하는 도 4 및 도 5에서 추가적으로 설명하도록 한다.
이와 같은 전처리 과정에서, 확률 산출부(130)는 훈련 음성 신호로부터 음성 신호 특징의 분포를 가우시안 혼합 모델 형태로 획득한다. 이를 위해, 확률 산출부(130)는 확률 분포 획득부, 전이 확률 코드북 획득부 및 전이 확률 계산부를 포함한다. 확률 분포 획득부는 둘 이상의 프레임으로 구성된 훈련 음성 신호로부터 음성 신호 특징의 가우시안 혼합 모델 확률 분포를 획득한다. 그리고, 전이 확률 코드북 획득부는 훈련 음성 신호의 특징의 인접 프레임간의 가우시안 혼합 모델 혼합 성분 전이 확률을 획득한다. 또한, 전이 확률 계산부는 훈련 음성 신호의 인접 프레임간의 가우시안 혼합 모델 혼합 성분 전이 확률을 검색하여 상기 오염된 음성 신호로부터 추출된 음성 신호 특징 정보의 인접 프레임 간의 혼합 성분 전이 확률과 대응하는 가우시안 혼합 모델 혼합 성분 전이 확률을 계산한다. 일반적으로, 오염된 음성 신호에서 잡음 신호보다 음성 신호의 상관도가 높다. 이와 같은 과정을 통해 확률 산출부(130)는 오염된 음성 신호를 구성하는 다수의 프레임 중에서 어느 하나의 프레임만을 사용하는 것이 아니라 인접한 프레임 사이의 관계를 함께 고려하여 잡음을 제거하는 음성 특징 보상 과정을 수행하게 된다.
선형 관계 모델 생성부(150)는 확률 산출부(130)의 확률 분포 획득부에서 산출된 훈련 음성 신호 특징의 가우시안 혼합 모델 확률 분포, 잡음 추정부(120)에서 추정된 잡음 특징 정보를 사용하여 음성 신호 특징, 잡음 특징, 오염된 특징의 비선형 관계를 선형 관계 모델로 근사화한다. 음성 신호 특징, 잡음 특징, 오염된 특징의 관계는 언제나 비선형 형태일 수 있다. 선형 관계 모델 생성부(150)에서는 벡터 테일러 급수 또는 통계선 선형 근사화를 사용하여 비선형 관계모델인 상기 정보를 선형 관계 모델로 근사화할 수 있다.
음성 특징 보상부(140)는 확률 산출부(130)에서 산출된 오염된 음성 신호의 인접 프레임 간의 상관도 및 잡음 추정부(120)에서 추정된 잡음 특징 정보를 고려하여 특징 추출부(110)에서 추출된 음성 신호 특징 정보의 잡음 특징을 제거하여 보상된 음성 특징을 생성한다. 음성 특징 보상부(140)는 이와 같은 음성 특징 보상 과정을 통해 잡음을 제거함으로써 음성 인식 성능을 개선할 수 있다.
도 2는 본 발명의 일 실시예에 따른 잡음 환경에서의 음성 인식을 위한 특징 보상 장치(100)의 잡음 추정부(120)의 잡음 추정 과정을 설명하기 위한 도면이다.
도 2를 참조하면, 잡음 추정부(120)는 확장 칼만 필터를 사용하여 실시간으로 오염된 음성 특징의 잡음 특징을 추정한다. 잡음 추정부(120)는 t번째 프레임의 k차 잡음 특징
Figure 112015027708116-pat00001
, 음성 특징
Figure 112015027708116-pat00002
, 오염된 음성 특징
Figure 112015027708116-pat00003
의 동적 모델과 비선형 관측 모델을 수학식 1과 같이 설정한다.
Figure 112015027708116-pat00004
수학식 1에서,
Figure 112015027708116-pat00005
는 평균이 0이고 분산이
Figure 112015027708116-pat00006
인 정규분포로서 시간에 따라 변하는 잡음의 양을 나타낸다.
동적 모델과 관측 모델을 기반으로 확장 칼만 필터를 적용하여 잡음 특징의 평균과 분산을 추정한다. 이와 같은 과정은 크게 예측 과정과 정정 과정으로 구분될 수 있다. 예측 과정에서 현재 프레임의 예측 잡음 특징의 평균
Figure 112015027708116-pat00007
은 이전 프레임에서 추정된 잡음 특징의 평균
Figure 112015027708116-pat00008
과 동일하게 예측한다. 또한, 현재 프레임의 예측 잡음 특징의 분산
Figure 112015027708116-pat00009
은 이전 프레임에서 추정된 잡음 특징의 분산
Figure 112015027708116-pat00010
과 시간에 따라 변하는 잡음의 양
Figure 112015027708116-pat00011
의 분산과 합으로 예측한다. 정정 과정에서 예측 잡음 특징과 보상된 음성 특징
Figure 112015027708116-pat00012
에 대한 관측 모델의 미분값을 A와 B라고 하면, 현재 프레임에서 추정된 잡음 특징의 평균
Figure 112015027708116-pat00013
과 분산
Figure 112015027708116-pat00014
는 수학식 2와 같이 산출된다.
Figure 112015027708116-pat00015
수학식 2에서,
Figure 112015027708116-pat00016
는 칼만 이득으로서 수학식 3과 같이 산출된다.
Figure 112015027708116-pat00017
도 3은 최소 평균 오차를 통한 음성 특징 보상 과정을 설명하기 위한 도면이다.
도 3을 참조하면, 잡음 환경에서의 음성 인식을 위한 종래의 보상된 음성 특징
Figure 112015027708116-pat00018
은 각각의 프레임 별 가우시안 혼합 모델 혼합 성분 및 선형 관계 모델과 추정된 잡음 특징, 오염된 음성 신호를 활용하여 최소 평균 오차를 기준으로 각각 t번째 프레임의 j번째 혼합 성분
Figure 112015027708116-pat00019
에서의 보상된 음성 특징을 구하고 사후 확률을 곱함으로써 수학식 4와 같이 산출된다.
Figure 112015027708116-pat00020
수학식 4에서, t번째 프레임의 j번째 혼합 성분
Figure 112015027708116-pat00021
에서 사후 확률은 오염된 신호의 우도(Likelihood)를 정규화함으로써 수학식 5와 같이 산출된다.
Figure 112015027708116-pat00022
수학식 5에서, M은 가우시안 혼합 모델 혼합 성분의 총 개수이다.
도 4는 본 발명의 일 실시예에 따른 잡음 환경에서의 음성 인식을 위한 특징 보상 장치의 가우시안 혼합 모델의 전이 확률을 사용하는 음성 특징 보상 과정을 설명하기 위한 도면이다.
도 4를 참조하면, 잡음 환경에서의 음성 인식을 위한 특징 보상 장치의 음성 특징 보상부(440)는 인접 음성 프레임간의 가우시안 혼합 성분의 전이 확률을 사용하여 음성 특징을 보상할 수 있다. 일반적으로 음성은 인접 프레임 사이에 높은 상관도를 가지고 있다. 하지만, 종래의 음성 인식 방법은 도 3과 같이 현재 프레임의 최소 평균 오차 기준에 의해 추정하기 때문에 프레임간 상관도를 반영하지 못한다. 본 발명에서는 적은 계산량으로 프레임간 정보를 활용하기 위해 인접 프레임 간의 가우시안 혼합 모델 혼합 성분의 전이 확률을 사용한다. 전이 확률 코드북은 확률 산출부(130)에 의해 사전에 훈련 음성 신호로부터 획득한다. 확률 산출부(130)는 훈련 음성 신호의 모든 프레임에 가장 높은 사후 확률을 갖는 혼합 성분을 할당한 후, 이전 프레임들과 현재 프레임들간의 혼합 성분 전이 확률 코드북을 수학식 6과 같이 산출한다.
Figure 112015027708116-pat00023
수학식 6에서 count(x)는 혼합 성분 x를 갖는 프레임의 개수를 나타낸다.
이전 프레임들에서 가장 큰 사후 확률을 갖는 혼합 성분을 계산한 후 저장하고, 사전에 획득한 코드북에서 인접 프레임들간의 혼합 성분의 전이 확률을 찾는다. 그리고, 상기 전이 확률을 사용하여 혼합 성분의 사후 확률을 수학식 7과 같이 산출한다.
Figure 112015027708116-pat00024
본 발명에서는 전이 확률을 사용하여 정확한 사후 확률을 계산할 수 있고 깨끗한 음성 특징을 추정할 수 있다. 이와 같은 방법의 가정은 현재 프레임의 혼합 성분은 이전 프레임들의 혼합 성분에만 영향을 받는다는 가정하에 성립한다.
도 5는 본 발명의 일 실시예에 따른 본 발명의 일 실시예에 따른 잡음 환경에서의 음성 인식을 위한 특징 보상 장치의 음성 마르코프 은닉 모델의 상태열 확률값을 사용하는 음성 특징 보상 과정을 설명하기 위한 도면이다.
도 5를 참조하면, 잡음 환경에서의 음성 인식을 위한 특징 보상 장치는 인접 음성 프레임들의 마르코프 은닉 모델 상태열 확률값을 사용하여 음성 특징 보상을 수행할 수 있다. 음성 특징 보상부(540)는 사전에 훈련 음성 신호로부터 하나의 상태에서 다른 하나의 상태로 음성 특징 프레임의 시간적 전개를 모델링하는 좌우(Left-Right) 구조의 마르코프 은닉 모델을 획득하여 음성 신호 특징의 확률 분포를 산출한다. 예컨대, 조음 위치에 따라 표 1과 같이 10개의 모노폰 마르코프 은닉 모델을 구성하고, 각 모델에 대해 3개의 상태 및 8개의 정규분포로 표현할 수 있다.
모노폰 HMM (i,e,E,we,wE,wi,Wi,je,jE) / (a,ja,wa,v,jv,wv,o,u,U,jo,ju) /
(b,xb,B,p,m,xm) / (d,D,xd,n,xn,t,r,xl) / (s,S) /
(g,G,xg,k,N) / (z,Z,c) / (h) / (sil) / (sp)
인접 입력 음성 특징들을 마르코프 은닉 모델로 복호화(Decoding)를 수행하여 s번째 마르코프 은닉 모델 상태 확률
Figure 112015027708116-pat00025
을 계산한다. 도 3에서 기술한 기존의 음성 특징 보상 방법을 이용하여 s번째 마르코프 은닉 모델 상태에서 음성 특징
Figure 112015027708116-pat00026
을 추정한 후, 수학식 8과 같이 s번째 마르코프 은닉 모델 상태 확률을 곱하고 모든 상태를 더하여 새로운 보상된 음성 특징을 획득한다.
Figure 112015027708116-pat00027
수학식 8에서,
Figure 112015027708116-pat00028
는 마르코프 은닉 모델을 나타낸다.
도 6은 본 발명에 따른 잡음 환경에서의 음성 인식을 위한 특징 보상 장치(600)의 다른 일 실시예를 나타내는 구성도이다.
도 6을 참조하면, 본 발명에 따른 본 발명의 일 실시예에 따른 잡음 환경에서의 음성 인식을 위한 특징 보상 장치(600)의 다른 일 실시예는 확장 칼만 필터의 성능을 향상시키기 위해 평활화를 도입하여 실시간 잡음 특징 추정 과정을 수행한다. 관측 모델의 비선형 관계식 성립의 전제 조건은 잡음과 음성은 비상관이어야 한다는 것이다. 하지만, 현재 프레임의 잡음 특징과 음성 특징을 그대로 사용하게 되는 경우, 서로 비상관이라는 가정이 어긋나게 되고 관측 모델의 비선형 관계식에서 오차가 발생한다. 이러한 오차는 부정확한 잡음 추정의 원인이 될 수 있다. 따라서, 본 발명에서는 이러한 문제를 해결하기 위해 확장 칼만 필터로 잡음 특징을 추정하는 과정에서 각 주파수에서 에너지를 계산(611,612)한 후 로그를 취하기 전 평활화(Smoothing, 614)를 수행하도록 한다. 즉, 잡음이 부가된 오염된 음성 신호의 멜 스케일 필터뱅크부(612)의 필터뱅크 에너지로 수학식 9와 같이 평활화된 음성 신호를 얻을 수 있다.
Figure 112015027708116-pat00029
수학식 9에서,
Figure 112015027708116-pat00030
는 음성 신호의 멜 스케일 필터뱅크 에너지를 나타내고,
Figure 112015027708116-pat00031
는 평활화된 음성 신호를 나타내며,
Figure 112015027708116-pat00032
는 평활화 정보를 반영하는 상수로서 0과 1 사이의 값을 가진다.
음성 특징 보상부(640)에서 생성된 보상된 음성 특징도 상술한 내용과 마찬가지로 평활화를 수행(670)한다. 보상된 음성 특징의 평활화는 수학식 10과 같다.
Figure 112015027708116-pat00033
수학식 10에서,
Figure 112015027708116-pat00034
는 평활화 된 보상된 음성 특징을 나타내고, β는 평활화 정도를 반영하는 상수로서 0과 1 사이의 값을 가진다.
도 7은 본 발명에 따른 잡음 환경에서의 음성 인식을 위한 특징 보상 장치의 잡음 추정부의 다른 일 실시예를 나타내는 구성도이다.
도 7을 참조하면, 본 발명에 따른 잡음 환경에서의 음성 인식을 위한 특징 보상 장치의 잡음 추정부(710)는 확장 칼만 필터의 성능을 높이기 위해 칼만 이득 제어 과정을 도입하여 실시간 잡음 특징을 추정할 수 있다. 비음성 구간과 달리 음성 구간에서 잘못된 잡음 특징 추정은 음성 인식 성능을 저하시킬 수 있다. 특히, 음성 구간에서 비슷한 분포로 잡음이 과잉 추정되는 경우가 발생하는데, 이는 원하는 음성 특징을 왜곡시킬 수 있다. 따라서, 본 발명에서는 잡음 대비 현재 프레임의 음성의 크기에 따라 칼만 이득을 조절할 수 있도록 한다. 수학식 11과 같이 음성이 클수록 칼만 이득은 줄임으로써 보다 정확한 이전 프레임에서 추정된 잡음에 가중치를 둘 수 있다. 즉, 잡음 추정부(710)는 상술한 수학식 2를 통해 잡음 특징의 평균과 분산을 산출하는데, 현재 프레임의 잡음 특징의 평균과 분산은 예측된 잡음 특징의 평균과 분산에서 새로운 값을 칼만 이득만큼 반영하여 업데이트한다. 이 과정에서, 잡음 추정부(710)는 잡음 특징 대비 추출된 음성 신호 특징의 크기의 차이에 반비례하여 업데이트하는 잡음 특징의 평균 및 분산의 칼만 이득의 크기를 줄인다.
Figure 112015027708116-pat00035
수학식 11에서,
Figure 112015027708116-pat00036
는 칼만 이득,
Figure 112015027708116-pat00037
는 보상된 음성 특징,
Figure 112015027708116-pat00038
는 t번째 프레임의 k차 잡음 특징,
Figure 112015027708116-pat00039
은 칼만 이득 조절 정도를 반영하는 상수로 0과 1 사이의 값을 가진다.
도 8은 본 발명의 일 실시예에 따른 잡음 환경에서의 음성 인식을 위한 특징 보상 방법을 나타내는 흐름도이다.
도 8을 참조하면, 잡음 환경에서의 음성 인식을 위한 특징 보상 방법은 먼저, 오염된 음성 신호로부터 음성 신호 특징 정보를 추출한다(S801). 오염된 음성 신호는 인식 목표 음성뿐만 아니라 잡음이 부가된 음성 신호를 의미한다. 음성 인식을 위한 특징 보상 장치는 소정의 시간 간격으로 둘 이상의 프레임으로 분할된 오염된 음성 신호를 시간 영역에서 주파수 영역으로 변환한다. 그리고, 음성 인식을 위한 특징 보상 장치는 주파수 영역으로 변환된 오염된 음성 신호에 음성 인식과 밀접한 관련이 있는 멜-스케일(Mel-Scale)의 필터 뱅크(Filter Bank)를 적용한 후 로그 에너지를 산출하여 음성 신호 특징 정보를 구한다.
다음으로, 추출된 음성 신호 특징 정보 및 보상된 음성 특징을 이용하여 잡음 특징 정보를 추정한다(S802). 음성 인식을 위한 특징 보상 장치는 추출된 음성 신호 특징 정보에 동적 모델과 관측 모델을 기반으로 확장 칼만 필터를 적용하여 잡음 특징의 평균과 분산을 추정한다. 이 과정은 크게 예측(Prediction) 과정과 정정(Correction) 과정으로 나뉜다. 잡음 특징 정보 추정 과정은 상술한 도 2의 설명을 참조하도록 한다.
잡음 특징 정보가 추정되면, 오염된 음성 신호의 인접 프레임 간의 상관도를 산출한다(S803). 이를 위해, 음성 인식을 위한 특징 보상 장치는 사전에 훈련 음성 신호에 가우시안 혼합 모델 또는 마르코프 은닉 모델을 적용하여 상태 확률을 산출한다. 그리고, 이를 이용하여 오염된 음성 신호의 인접 프레임 간의 상관도를 산출할 수 있다. 상관도를 산출하는 과정은 상술한 도 4 및 도 5를 참조하도록 한다.
다음으로, 비선형 관계모델 형태의 정보를 선형 관계 모델로 근사화한다(S804). 음성 인식을 위한 특징 보상 장치는 산출된 훈련 음성 신호 특징의 가우시안 혼합 모델 확률 분포, 추정된 잡음 특징 정보 정보를 사용하여 음성 신호 특징, 잡음 특징, 오염된 특징의 비선형 관계를 선형 관계 모델로 근사화한다. 음성 인식을 위한 특징 보상 장치에서는 벡터 테일러 급수 또는 통계선 선형 근사화를 사용하여 비선형 관계모델인 상기 정보를 선형 관계 모델로 근사화한다.
그리고, 상관도 및 잡음 특징 정보를 고려하여 보상된 음성 특징을 생성한다(S805). 음성 인식을 위한 특징 보상 장치는 산출된 오염된 음성 신호의 인접 프레임 간의 상관도 및 추정된 잡음 특징 정보를 고려하여 추출된 음성 신호 특징 정보의 잡음 특징을 제거하여 보상된 음성 특징을 생성한다. 음성 인식을 위한 특징 보상 장치는 이와 같은 음성 특징 보상 과정을 통해 잡음을 제거함으로써 음성 인식 성능을 개선할 수 있다.
상술한 내용을 포함하는 본 발명은 컴퓨터 프로그램으로 작성이 가능하다. 그리고 상기 프로그램을 구성하는 코드 및 코드 세그먼트는 당분야의 컴퓨터 프로그래머에 의하여 용이하게 추론될 수 있다. 또한, 상기 작성된 프로그램은 컴퓨터가 읽을 수 있는 기록매체 또는 정보저장매체에 저장되고, 컴퓨터에 의하여 판독되고 실행함으로써 본 발명의 방법을 구현할 수 있다. 그리고 상기 기록매체는 컴퓨터가 판독할 수 있는 모든 형태의 기록매체를 포함한다.
이상 바람직한 실시예를 들어 본 발명을 상세하게 설명하였으나, 본 발명은 전술한 실시예에 한정되지 않고, 본 발명의 기술적 사상의 범위 내에서 당분야에서 통상의 지식을 가진자에 의하여 여러 가지 변형이 가능하다.
100: 잡음 환경에서의 음성 인식을 위한 특징 보상 장치
110: 특징 추출부
120: 잡음 추정부
130: 확률 산출부
140: 음성 특징 보상부
150: 선형 관계 모델 생성부

Claims (20)

  1. 둘 이상의 프레임으로 구성된 잡음이 부가된 오염된 음성 신호로부터 음성 신호 특징 정보를 추출하는 특징 추출부;
    상기 오염된 음성 신호로부터 추출된 음성 신호 특징 정보 및 보상된 음성 특징으로부터 잡음 특징 정보를 추정하는 잡음 추정부;
    둘 이상의 프레임으로 구성된 잡음이 부가된 오염된 음성 신호의 인접 프레임 간의 상관도를 산출하는 확률 산출부; 및
    상기 오염된 음성 신호의 인접 프레임 간의 상관도 및 상기 추정된 잡음 특징 정보를 고려하여 상기 추출된 음성 신호 특징 정보의 잡음 특징을 제거하여 상기 보상된 음성 특징을 생성하는 음성 특징 보상부;
    를 포함하되,
    상기 잡음 추정부는 상기 추출된 음성 신호 특징 정보에서 잡음 특징에 대한 동적 모델 및 오염된 음성 특징의 비선형 관측 모델을 기반으로 잡음 특징의 평균 및 분산을 추정하되, 예측 과정을 통해 현재 프레임에서 예측된 잡음 특징의 평균과 이전 프레임에서 추정된 잡음 특징의 평균을 동일하게 예측하고, 현재 프레임에서 예측된 잡음 특징의 분산은 이전 프레임에서 추정된 잡음 특징의 분산과 시간에 따라 변하는 잡음의 양의 분산의 합으로 예측하며,
    상기 잡음 특징 대비 상기 추출된 음성 신호 특징의 크기의 차이에 반비례하여 업데이트하는 상기 잡음 특징의 평균 및 분산의 칼만 이득의 크기를 줄임으로써 이전 프레임에서 추정된 잡음에 가중치를 부여하되, 상기 현재 프레임에서의 잡음 특징의 평균과 분산은 상기 예측 과정을 통해 예측된 잡음 특징의 평균과 분산에 따른 새로운 값이 칼만 이득만큼 반영되여 업데이트하는 것을 특징으로 하는 잡음 환경에서의 음성 인식을 위한 특징 보상 장치.
  2. 제1항에 있어서,
    상기 확률 산출부는,
    둘 이상의 프레임으로 구성된 훈련 음성 신호로부터 음성 신호 특징의 가우시안 혼합 모델(Gaussian Mixture Model, GMM) 확률 분포를 획득하는 확률 분포 획득부;
    상기 훈련 음성 신호의 특징의 인접 프레임간의 가우시안 혼합 모델(Gaussian Mixture Model, GMM) 혼합 성분 전이 확률을 획득하는 전이 확률 코드북 획득부; 및
    훈련 음성 신호의 인접 프레임간의 가우시안 혼합 모델(Gaussian Mixture Model, GMM) 혼합 성분 전이 확률을 검색하여 상기 오염된 음성 신호로부터 추출된 음성 신호 특징 정보의 인접 프레임 간의 혼합 성분 전이 확률과 대응하는 가우시안 혼합 모델 혼합 성분 전이 확률을 계산하는 전이 확률 계산부;
    를 포함하는 것을 특징으로 하는 잡음 환경에서의 음성 인식을 위한 특징 보상 장치.
  3. 제2항에 있어서,
    상기 음성 특징 보상부는,
    상기 훈련 음성 신호의 가우시안 혼합 모델 확률 분포 및 상기 가우시안 혼합 모델 혼합 성분 전이 확률에 따른 오염된 음성 신호의 인접 프레임 간의 상관도 및 상기 추정된 잡음 특징 정보를 사용하여 상기 추출된 음성 신호 특징 정보의 잡음 특징을 제거하는 것을 특징으로 하는 잡음 환경에서의 음성 인식을 위한 특징 보상 장치.
  4. 제1항에 있어서,
    가우시안 혼합 모델 확률 분포, 상기 추정된 잡음 특징 정보 및 상기 음성 신호 특징 정보를 선형 관계 모델로 근사화하는 선형 관계 모델 생성부;
    를 더 포함하는 것을 특징으로 하는 잡음 환경에서의 음성 인식을 위한 특징 보상 장치.
  5. 제1항에 있어서,
    상기 특징 추출부는 상기 둘 이상의 프레임으로 구성된 잡음이 부가된 오염된 음성 신호를 매 프레임마다 시간 영역에서 주파수 영역으로 변환하고, 상기 주파수 영역으로 변환된 오염된 음성 신호에 멜 스케일 필터 뱅크를 적용하여 에너지를 계산한 후 로그(Log)를 취하여 로그 에너지 값을 산출하여 음성 신호 특징 정보를 추출하는 것을 특징으로 하는 잡음 환경에서의 음성 인식을 위한 특징 보상 장치.
  6. 제5항에 있어서,
    상기 특징 추출부는 상기 주파수 영역으로 변환된 오염된 음성 신호에 멜 스케일 필터 뱅크를 적용하여 에너지를 계산한 후, 로그를 취하기 전 평활화(Smoothing)를 수행하는 것을 특징으로 하는 잡음 환경에서의 음성 인식을 위한 특징 보상 장치.
  7. 삭제
  8. 삭제
  9. 제1항에 있어서,
    상기 확률 산출부는,
    둘 이상의 프레임으로 구성된 훈련 음성 신호로부터 음성 신호 특징의 마르코프 은닉 모델(Hidden Markov Model, HMM) 구조의 통계 모델을 획득하고, 상기 음성 신호 특징을 마르코프 은닉 모델로 복호화(Decoding)하여 마르코프 은닉 모델 상태 확률을 산출하는 것을 특징으로 하는 잡음 환경에서의 음성 인식을 위한 특징 보상 장치.
  10. 제9항에 있어서,
    상기 음성 특징 보상부는 상기 음성 신호 특징의 통계 모델, 상기 추정된 잡음 특징, 상기 음성 신호 특징 및 상기 마르코프 은닉 모델 상태 확률을 사용하여 상기 오염된 음성 특징에서 추정된 잡음 특징을 제거하는 것을 특징으로 하는 잡음 환경에서의 음성 인식을 위한 특징 보상 장치.
  11. 둘 이상의 프레임으로 구성된 잡음이 부가된 오염된 음성 신호로부터 음성 신호 특징 정보를 추출하는 단계;
    상기 오염된 음성 신호로부터 추출된 음성 신호 특징 정보 및 보상된 음성 특징으로부터 잡음 특징 정보를 추정하는 단계;
    둘 이상의 프레임으로 구성된 잡음이 부가된 오염된 음성 신호의 인접 프레임 간의 상관도를 산출하는 단계; 및
    상기 오염된 음성 신호의 인접 프레임 간의 상관도 및 상기 추정된 잡음 특징 정보를 고려하여 상기 추출된 음성 신호 특징 정보의 잡음 특징을 제거하여 상기 보상된 음성 특징을 생성하는 단계;
    를 포함하되,
    상기 잡음 특징 정보를 추정하는 단계는,
    상기 추출된 음성 신호 특징 정보에서 잡음 특징에 대한 동적 모델 및 오염된 음성 특징의 비선형 관측 모델을 기반으로 잡음 특징의 평균 및 분산을 추정하되, 예측 과정을 통해 현재 프레임에서 예측된 잡음 특징의 평균과 이전 프레임에서 추정된 잡음 특징의 평균을 동일하게 예측하고, 현재 프레임에서 예측된 잡음 특징의 분산은 이전 프레임에서 추정된 잡음 특징의 분산과 시간에 따라 변하는 잡음의 양의 분산의 합으로 예측되며,
    상기 잡음 특징 대비 상기 추출된 음성 신호 특징의 크기의 차이에 반비례하여 업데이트하는 상기 잡음 특징의 평균 및 분산의 칼만 이득의 크기를 줄임으로써 이전 프레임에서 추정된 잡음에 가중치를 부여하되, 상기 현재 프레임에서의 잡음 특징의 평균과 분산은 상기 예측 과정을 통해 예측된 잡음 특징의 평균과 분산에 따른 새로운 값이 칼만 이득만큼 반영되여 업데이트하는 것을 특징으로 하는 잡음 환경에서의 음성 인식을 위한 특징 보상 방법.
  12. 제11항에 있어서,
    상기 상관도를 산출하는 단계는,
    사전에 둘 이상의 프레임으로 구성된 훈련 음성 신호로부터 음성 신호 특징의 가우시안 혼합 모델(Gaussian Mixture Model, GMM) 확률 분포를 획득하는 단계;
    상기 훈련 음성 신호의 특징의 인접 프레임간의 가우시안 혼합 모델(Gaussian Mixture Model, GMM) 혼합 성분 전이 확률을 획득하는 단계; 및
    훈련 음성 신호의 인접 프레임간의 가우시안 혼합 모델(Gaussian Mixture Model, GMM) 혼합 성분 전이 확률을 검색하여 상기 오염된 음성 신호로부터 추출된 음성 신호 특징 정보의 인접 프레임 간의 혼합 성분 전이 확률과 대응하는 가우시안 혼합 모델 혼합 성분 전이 확률을 계산하는 단계;
    를 포함하는 것을 특징으로 하는 잡음 환경에서의 음성 인식을 위한 특징 보상 방법.
  13. 제12항에 있어서,
    상기 보상된 음성 특징을 생성하는 단계는,
    상기 훈련 음성 신호의 가우시안 혼합 모델 확률 분포 및 상기 가우시안 혼합 모델 혼합 성분 전이 확률에 따른 오염된 음성 신호의 인접 프레임 간의 상관도 및 상기 추정된 잡음 특징 정보를 사용하여 상기 추출된 음성 신호 특징 정보의 잡음 특징을 제거하는 것을 특징으로 하는 잡음 환경에서의 음성 인식을 위한 특징 보상 방법.
  14. 제11항에 있어서,
    가우시안 혼합 모델 확률 분포, 상기 추정된 잡음 특징 정보 및 상기 음성 신호 특징 정보를 선형 관계 모델로 근사화하는 단계;
    를 더 포함하는 것을 특징으로 하는 잡음 환경에서의 음성 인식을 위한 특징 보상 방법.
  15. 제11항에 있어서,
    상기 음성 신호 특징 정보를 추출하는 단계는,
    상기 둘 이상의 프레임으로 구성된 잡음이 부가된 오염된 음성 신호를 매 프레임마다 시간 영역에서 주파수 영역으로 변환하는 단계; 및
    상기 주파수 영역으로 변환된 오염된 음성 신호에 멜 스케일 필터 뱅크를 적용하여 에너지를 계산한 후 로그(Log)를 취하여 로그 에너지 값을 산출하여 음성 신호 특징 정보를 추출하는 단계;
    를 포함하는 것을 특징으로 하는 잡음 환경에서의 음성 인식을 위한 특징 보상 방법.
  16. 제15항에 있어서,
    상기 음성 신호 특징 정보를 추출하는 단계는,
    상기 주파수 영역으로 변환된 오염된 음성 신호에 멜 스케일 필터 뱅크를 적용하여 에너지를 계산한 후, 로그를 취하기 전 평활화(Smoothing)를 수행하는 것을 특징으로 하는 잡음 환경에서의 음성 인식을 위한 특징 보상 방법.
  17. 삭제
  18. 삭제
  19. 제11항에 있어서,
    상기 상관도를 산출하는 단계는,
    둘 이상의 프레임으로 구성된 훈련 음성 신호로부터 음성 신호 특징의 마르코프 은닉 모델(Hidden Markov Model, HMM) 구조의 통계 모델을 획득하는 단계; 및
    상기 음성 신호 특징을 마르코프 은닉 모델로 복호화(Decoding)하여 마르코프 은닉 모델 상태 확률을 산출하는 단계;
    를 포함하는 것을 특징으로 하는 잡음 환경에서의 음성 인식을 위한 특징 보상 방법.
  20. 제19항에 있어서,
    상기 보상된 음성 특징을 생성하는 단계는,
    상기 음성 신호 특징의 통계 모델, 상기 추정된 잡음 특징, 상기 음성 신호 특징 및 상기 마르코프 은닉 모델 상태 확률을 사용하여 상기 오염된 음성 특징에서 추정된 잡음 특징을 제거하는 것을 특징으로 하는 잡음 환경에서의 음성 인식을 위한 특징 보상 방법.
KR1020150039098A 2015-03-20 2015-03-20 잡음 환경에서의 음성 인식을 위한 특징 보상 장치 및 방법 KR101975057B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020150039098A KR101975057B1 (ko) 2015-03-20 2015-03-20 잡음 환경에서의 음성 인식을 위한 특징 보상 장치 및 방법
US15/074,579 US9799331B2 (en) 2015-03-20 2016-03-18 Feature compensation apparatus and method for speech recognition in noisy environment

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150039098A KR101975057B1 (ko) 2015-03-20 2015-03-20 잡음 환경에서의 음성 인식을 위한 특징 보상 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20160112793A KR20160112793A (ko) 2016-09-28
KR101975057B1 true KR101975057B1 (ko) 2019-05-03

Family

ID=56925176

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150039098A KR101975057B1 (ko) 2015-03-20 2015-03-20 잡음 환경에서의 음성 인식을 위한 특징 보상 장치 및 방법

Country Status (2)

Country Link
US (1) US9799331B2 (ko)
KR (1) KR101975057B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210026655A (ko) 2019-08-30 2021-03-10 주식회사 케이티 특정 공간에 구비된 음성 인식 단말을 통해 음성 인식 서비스를 제공하는 서버, 방법 및 컴퓨터 프로그램

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108074586B (zh) * 2016-11-15 2021-02-12 电信科学技术研究院 一种语音问题的定位方法和装置
KR20180111271A (ko) * 2017-03-31 2018-10-11 삼성전자주식회사 신경망 모델을 이용하여 노이즈를 제거하는 방법 및 장치
JP6812381B2 (ja) * 2018-02-08 2021-01-13 日本電信電話株式会社 音声認識精度劣化要因推定装置、音声認識精度劣化要因推定方法、プログラム
US10540981B2 (en) 2018-02-28 2020-01-21 Ringcentral, Inc. Systems and methods for speech signal processing to transcribe speech
CN110495185B (zh) * 2018-03-09 2022-07-01 深圳市汇顶科技股份有限公司 语音信号处理方法及装置
KR20190118816A (ko) * 2018-04-11 2019-10-21 한국전자통신연구원 통계적 메모리 네트워크 방법 및 장치
KR102045953B1 (ko) * 2018-09-19 2019-11-18 한양대학교 산학협력단 칼만필터 기반의 다채널 입출력 음향학적 반향 제거 방법
CN111081269B (zh) * 2018-10-19 2022-06-14 中国移动通信集团浙江有限公司 通话过程中的噪声检测方法及系统
CN110246490B (zh) * 2019-06-26 2022-04-19 合肥讯飞数码科技有限公司 语音关键词检测方法及相关装置
KR20210008788A (ko) 2019-07-15 2021-01-25 삼성전자주식회사 전자 장치 및 그 제어 방법
US11556862B2 (en) * 2019-09-14 2023-01-17 Oracle International Corporation Techniques for adaptive and context-aware automated service composition for machine learning (ML)
KR20220115453A (ko) * 2021-02-10 2022-08-17 삼성전자주식회사 음성 구간 인식의 향상을 지원하는 전자 장치
KR20230146865A (ko) 2022-04-13 2023-10-20 부산대학교 산학협력단 소음환경을 고려한 임베디드 음성 키워드 검출 시스템 및 방법
WO2023211443A1 (en) * 2022-04-28 2023-11-02 Innopeak Technology, Inc. Transformer-encoded speech extraction and enhancement

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100434527B1 (ko) 1997-08-01 2005-09-28 삼성전자주식회사 벡터 테일러 급수를 이용한 음성 모델 보상 방법
JP3888543B2 (ja) 2000-07-13 2007-03-07 旭化成株式会社 音声認識装置及び音声認識方法
US6985858B2 (en) * 2001-03-20 2006-01-10 Microsoft Corporation Method and apparatus for removing noise from feature vectors
US20040181409A1 (en) * 2003-03-11 2004-09-16 Yifan Gong Speech recognition using model parameters dependent on acoustic environment
US7418383B2 (en) * 2004-09-03 2008-08-26 Microsoft Corporation Noise robust speech recognition with a switching linear dynamic model
US20080140399A1 (en) 2006-12-06 2008-06-12 Hoon Chung Method and system for high-speed speech recognition
KR100919223B1 (ko) * 2007-09-19 2009-09-28 한국전자통신연구원 부대역의 불확실성 정보를 이용한 잡음환경에서의 음성인식 방법 및 장치
US8131543B1 (en) * 2008-04-14 2012-03-06 Google Inc. Speech detection
US8296135B2 (en) 2008-04-22 2012-10-23 Electronics And Telecommunications Research Institute Noise cancellation system and method
KR20100015044A (ko) 2008-08-04 2010-02-12 김상훈 풍력발전기용 샤프트
US8639502B1 (en) * 2009-02-16 2014-01-28 Arrowhead Center, Inc. Speaker model-based speech enhancement system
US20100262423A1 (en) 2009-04-13 2010-10-14 Microsoft Corporation Feature compensation approach to robust speech recognition
US8892436B2 (en) * 2010-10-19 2014-11-18 Samsung Electronics Co., Ltd. Front-end processor for speech recognition, and speech recognizing apparatus and method using the same
US20150287406A1 (en) * 2012-03-23 2015-10-08 Google Inc. Estimating Speech in the Presence of Noise
US20140114650A1 (en) * 2012-10-22 2014-04-24 Mitsubishi Electric Research Labs, Inc. Method for Transforming Non-Stationary Signals Using a Dynamic Model

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Ivo Batina et al., ‘Kalman filtering based noise power spectral density estimation for speech enhancement’, 2005 13th European Signal Processing Conference, pp. 1~4, April 2005.*
Nam Soo Kim et al., ‘Feature compensation based on switching linear dynamic model’, IEEE Signal Processing Letters, Vol.12, No.6, June 2005.*

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210026655A (ko) 2019-08-30 2021-03-10 주식회사 케이티 특정 공간에 구비된 음성 인식 단말을 통해 음성 인식 서비스를 제공하는 서버, 방법 및 컴퓨터 프로그램

Also Published As

Publication number Publication date
US9799331B2 (en) 2017-10-24
US20160275964A1 (en) 2016-09-22
KR20160112793A (ko) 2016-09-28

Similar Documents

Publication Publication Date Title
KR101975057B1 (ko) 잡음 환경에서의 음성 인식을 위한 특징 보상 장치 및 방법
Lei et al. A noise robust i-vector extractor using vector taylor series for speaker recognition
Cui et al. Noise robust speech recognition using feature compensation based on polynomial regression of utterance SNR
KR100919223B1 (ko) 부대역의 불확실성 정보를 이용한 잡음환경에서의 음성인식 방법 및 장치
JP5242782B2 (ja) 音声認識方法
Harvilla et al. Least squares signal declipping for robust speech recognition
CN105355198B (zh) 一种基于多重自适应的模型补偿语音识别方法
US20100076759A1 (en) Apparatus and method for recognizing a speech
CN104485108A (zh) 一种基于多说话人模型的噪声与说话人联合补偿方法
Sarkar et al. Stochastic feature compensation methods for speaker verification in noisy environments
KR101236539B1 (ko) 가중 자동회귀 이동평균 필터와 전역 켑스트럼 평균 및 분산 정규화를 이용한 특징 보상 장치 및 방법
Deng et al. Speech enhancement based on AR model parameters estimation
Stouten et al. Joint removal of additive and convolutional noise with model-based feature enhancement
Li et al. Unscented transform with online distortion estimation for HMM adaptation
KR100413797B1 (ko) 음성 신호 보상 방법 및 그 장치
Sim et al. A trajectory-based parallel model combination with a unified static and dynamic parameter compensation for noisy speech recognition
Kai et al. Combination of SPLICE and feature normalization for noise robust speech recognition
KR100694879B1 (ko) 아이겐 환경 및 바이어스 벡터 동시 가중치 추정을 통한잡음 보상 방법
Loweimi et al. Channel Compensation in the Generalised Vector Taylor Series Approach to Robust ASR.
KR101740637B1 (ko) 불확실성을 이용한 잡음 환경에서의 음성 인식 방법 및 장치
Zhao et al. Recursive estimation of time-varying environments for robust speech recognition
KR101005858B1 (ko) 히스토그램 등화를 이용한 음향모델 파라메터 적응 장치 및그 방법
De La Torre et al. Speech recognition under noise conditions: Compensation methods
Mushtaq et al. A particle filter feature compensation approach to robust speech recognition.
Park et al. Noise robust feature for automatic speech recognition based on mel-spectrogram gradient histogram.

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right