KR20120077527A - 가중 자동회귀 이동평균 필터와 전역 켑스트럼 평균 및 분산 정규화를 이용한 특징 보상 장치 및 방법 - Google Patents

가중 자동회귀 이동평균 필터와 전역 켑스트럼 평균 및 분산 정규화를 이용한 특징 보상 장치 및 방법 Download PDF

Info

Publication number
KR20120077527A
KR20120077527A KR1020100139509A KR20100139509A KR20120077527A KR 20120077527 A KR20120077527 A KR 20120077527A KR 1020100139509 A KR1020100139509 A KR 1020100139509A KR 20100139509 A KR20100139509 A KR 20100139509A KR 20120077527 A KR20120077527 A KR 20120077527A
Authority
KR
South Korea
Prior art keywords
cepstrum
speech
moving average
training
weighted
Prior art date
Application number
KR1020100139509A
Other languages
English (en)
Other versions
KR101236539B1 (ko
Inventor
김형순
반성민
Original Assignee
부산대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 부산대학교 산학협력단 filed Critical 부산대학교 산학협력단
Priority to KR1020100139509A priority Critical patent/KR101236539B1/ko
Publication of KR20120077527A publication Critical patent/KR20120077527A/ko
Application granted granted Critical
Publication of KR101236539B1 publication Critical patent/KR101236539B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/081Search algorithms, e.g. Baum-Welch or Viterbi

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

본 발명은 잡음과 반향이 존재하는 원거리 환경에서 음성인식 시스템의 성능 저하를 막을 수 있는 가중 자동회귀 이동평균 필터와 전역 켑스트럼 평균 및 분산 정규화를 이용한 특징 보상 장치 및 방법을 제공하기 위한 것으로서, 입력되는 훈련 음성 및 인식 음성을 각각 입력받아 복수의 프레임으로 분리하고, 각 프레임의 음성 신호에 대해 훈련 음성 켑스트럼과 인식 음성 켑스트럼을 추출하는 단계와, 상기 추출된 훈련 음성 켑스트럼 및 인식 음성 켑스트럼의 전역 평균과 분산으로 훈련 음성 켑스트럼 및 인식 음성 켑스트럼을 각각 정규화하는 단계와, 상기 정규화에서 인식 음성 켑스트럼을 정규화할 경우 1 번째 문장부터 마지막(n) 번째 문장까지 각각 이전 입력의 켑스트럼의 정규화 값을 기반으로 현재 입력되는 켑스트럼의 전역 평균과 분산을 지속적으로 갱신하는 단계와, 상기 정규화된 훈련 음성 및 인식 음성 켑스트럼의 프레임별 음성 존재 여부에 대한 가중치를 구하여 정규화된 켑스트럼 시계열을 가중 자동회귀 이동평균 필터링을 수행하는 단계와, 상기 가중 자동회귀 이동평균 필터링되어 출력되는 훈련 음성 켑스트럼에 해당하는 HMM의 유사도(likelihood)가 최대가 되도록 HMM 음향 모델을 갱신하고, 비터비 디코딩(Viterbi decoding)을 통해 상기 갱신된 HMM 음향 모델 중 가중 자동회귀 이동평균 필터링 된 인식 음성 켑스트럼에 대한 HMM 음향 모델의 유사도(likelihood)가 최대가 되는 인식 문장을 선택하는 단계를 포함하여 이루어지는데 있다.

Description

가중 자동회귀 이동평균 필터와 전역 켑스트럼 평균 및 분산 정규화를 이용한 특징 보상 장치 및 방법{Apparatus and Method For Feature Compensation Using Weighted Auto-Regressive Moving Average Filter and Global Cepstral Mean and Variance Normalization}
본 발명은 음성 신호 처리 기술분야에 관한 것으로, 특히 다양한 잡음과 반향이 존재하는 원거리 환경에서 음성인식에 적용될 수 있도록 하는 새로운 방식의 특징 보상 알고리즘에 관한 것이다. 새로운 방식의 특징 보상 알고리즘은 기존의 자동회귀 이동평균 필터 기반의 특징 보상 방식에 음성의 존재 여부에 대한 가중치를 적용하고, 훈련과 인식 데이터의 전역 켑스트럼 평균과 분산을 사용하여 켑스트럼을 정규화한다.
최근 들어 음성인식 기술은 실험실 데모 수준을 벗어나 실생활에 적용, 상용화되고 있다. 그러나 현재의 음성인식 시스템은 제한된 환경에서는 비교적 좋은 성능을 보이나 이것이 실제 인식환경에 적용된다면 성능이 급격히 저하될 수 있다. 이것은 음성인식을 수행하는 실제 환경이 주변 소음, 발성 거리, 마이크 특성, 채널 왜곡 및 화자의 변이 등 인식 성능을 저하시키는 요소들을 수반하기 때문이다.
이러한 부가적인 잡음은 음성신호를 오염시키며 음성을 표현하는 특징벡터를 변화시킨다. 그래서 특징벡터의 통계적 특성의 변이를 유발한다. 예를 들어, 백색 잡음은 스펙트럼의 포락선 정보를 표현하는 켑스트럼과 같은 특징벡터의 동적 범위(또는 분산)를 감소시킨다.
실제 인식기가 사용될 경우와 유사한 조건에서 학습된 시스템은 좋은 성능을 보인다. 그래서 음성인식 기술 개발자들은 학습과 인식 환경의 불일치에 의한 인식 성능의 저하를 최소화하기 위한 노력을 기울여 왔다.
이러한 연구개발에 따라, 음성 인식 시스템은 깨끗한 음성을 사용한 훈련모드와 잡음 섞인 음성을 사용한 인식 모드로 분류되어 구성된다. 즉, 음성인식 시스템에 잡음과 반향으로 왜곡된 음성이 입력되면 특징 보상 알고리즘으로 특징을 보상하여 추출한다. 사전에 깨끗한 음성에도 동일한 특징 보상 알고리즘을 적용하여 음향모델을 구성하고, 이 음향모델을 사용하여 음성인식을 수행한다.
한편, 음성인식 시 음원과 마이크 사이의 거리가 멀어질수록 인식 성능이 저하되는 문제가 있는데, 이는 음성인식에서 훈련환경과 인식환경의 불일치 때문이다. 특히 원거리에서는 부가 잡음뿐만 아니라 반향 성분 또한 존재해서 환경 불일치로 인한 문제가 더 커진다.
이러한 불일치 문제를 해결하기 위해 여러 가지 알고리즘들이 연구되었는데, 크게 모델 보상, 잡음 제거, 반향 제거, 특징 보상 등으로 분류할 수 있다.
이 중 모델 보상은 PMC(Parallel Model Combination)와 VTS(Vector Taylor Series) 방식처럼 사전에 인식 환경의 정보를 이용하여 깨끗한 음성으로부터의 음향모델을 보상할 수 있다. 이러한 방식은 인식 환경의 정보를 충분히 가지고 있다면 효과적으로 사용될 수 있지만, 보통 인식환경을 예측하기 어렵기 때문에 실제로 이러한 모델 방식을 사용하는 데에 제한이 있다.
이에 비해 음질 개선은 인식환경에 대한 사전정보 없이 잡음을 추정하여 음질을 개선시킨다. 음질 개선은 부가잡음으로 인한 왜곡 감소에 초점을 맞춘 것으로 지금까지 많은 연구가 진행되었다. 그러나 이러한 음질 개선 방식으로 부가 잡음을 효율적으로 제거할 수 있지만, 반향까지 함께 제거하기는 어렵다. 그래서 반향을 줄이기 위한 연구가 별도로 진행되기도 했는데, 반향 제거 알고리즘 중 MSLP(Multi-Step Linear Prediction)이 우수한 성능을 보인다. 하지만 MSLP는 음성 파형의 상관도를 이용하기 때문에 계산량이 많은 단점을 가지고 있다.
이에 비해 자동회귀 이동평균 필터를 이용한 특징 보상 방식은 계산량이 적으면서도 우수한 성능을 보인다. 이 방식은 켑스트럼 평균 및 분산으로 정규화시킨 켑스트럼의 시계열을 자동회귀 이동평균 필터에 통과시켜 특징을 강화한다. 하지만 이는 잡음에서 음성으로 변화하는 구간에서 잡음구간의 특징이 음성구간의 특징에 영향을 미치며, 이는 자동회귀 이동평균 필터의 성능을 떨어뜨리는 요인이 될 수 있는 문제점이 있다.
또한, 현재 대부분의 음성인식 시스템은 부가잡음과 반향의 영향이 적은 근거리 환경에서 동작한다. 하지만 음성인식 시스템이 다양한 분야에 적용되기 위해서는 원거리 환경에서도 잘 동작해야 한다. 보통 음원과 마이크 사이의 거리가 멀어질수록 부가잡음과 반향 성분이 많아지기 때문에 음성인식 성능이 저하된다. 실제로 음성인식 시스템은 계산량이 제한되거나 사용 가능한 마이크 개수가 하나인 경우가 많다.
따라서 오 인식률을 낮추어 음성인식의 성능을 높이기 위해서는 당연히 이러한 문제점들은 큰 문제로 작용되고 있으며, 최근 음성인식에 따른 관심과 적용분야의 확대 등으로 인해 이에 따른 요구가 증대되고 있다.
따라서 본 발명은 상기와 같은 문제점을 해결하기 위해 안출한 것으로서, 잡음과 반향이 존재하는 원거리 환경에서 음성인식 시스템의 성능 저하를 막을 수 있는 가중 자동회귀 이동평균 필터와 전역 켑스트럼 평균 및 분산 정규화를 이용한 특징 보상 장치 및 방법을 제공하는데 그 목적이 있다.
상기와 같은 목적을 달성하기 위한 본 발명에 따른 가중 자동회귀 이동평균 필터와 전역 켑스트럼 평균 및 분산 정규화를 이용한 특징 보상 장치의 특징은 훈련 음성 및 인식 음성을 각각 입력받아 복수의 프레임으로 분리하고, 각 프레임의 음성 신호에 대해 푸리에 변환을 수행하여 훈련 음성 켑스트럼과 인식 음성 켑스트럼을 추출하는 MFCC(Mel-Frequency Cepstral Coefficients) 특징 추출부와, 상기 MFCC 특징 추출부에서 출력되는 훈련 음성 켑스트럼 및 인식 음성 켑스트럼의 전역 평균과 분산으로 훈련 음성 켑스트럼 및 인식 음성 켑스트럼을 각각 정규화하는 켑스트럼 평균 및 분산 정규화부와, 상기 정규화에서 인식 음성 켑스트럼을 정규화할 경우 1 번째 문장부터 마지막(n) 번째 문장까지 각각 이전 입력의 켑스트럼의 정규화 값을 기반으로 현재 입력되는 켑스트럼의 전역 평균과 분산을 지속적으로 갱신하는 업데이트부와, 상기 켑스트럼 평균 및 분산 정규화부에서 출력되는 정규화된 훈련 음성 켑스트럼 및 인식 음성 켑스트럼의 프레임별 음성 존재 여부에 대한 가중치를 구하여 정규화된 켑스트럼 시계열을 가중 자동회귀 이동평균 필터링하는 가중 자동회귀 이동평균 필터와, 상기 가중 자동회귀 이동평균 필터에서 출력되는 훈련 음성 켑스트럼이 입력되면, 입력되는 훈련 음성 켑스트럼에 해당하는 HMM의 유사도(likelihood)가 최대가 되도록 HMM 음향 모델을 갱신하는 음향 모델 훈련부와, 비터비 디코딩(Viterbi decoding)을 통해 상기 가중 자동회귀 이동평균 필터에서 출력되는 인식 음성 켑스트럼에 대한 상기 음향 모델 훈련부에서 출력되는 HMM 음향 모델의 유사도(likelihood)가 최대가 되는 문장을 선택하는 음성 인식부를 포함하여 구성되는데 있다.
상기와 같은 목적을 달성하기 위한 본 발명에 따른 가중 자동회귀 이동평균 필터와 전역 켑스트럼 평균 및 분산 정규화를 이용한 특징 보상 방법의 특징은 (A) 입력되는 훈련 음성 및 인식 음성을 각각 입력받아 복수의 프레임으로 분리하고, 각 프레임의 음성 신호에 대해 훈련 음성 켑스트럼과 인식 음성 켑스트럼을 추출하는 단계와, (B) 상기 추출된 훈련 음성 켑스트럼 및 인식 음성 켑스트럼의 전역 평균과 분산으로 훈련 음성 켑스트럼 및 인식 음성 켑스트럼을 각각 정규화하는 단계와, (C) 상기 정규화에서 인식 음성 켑스트럼을 정규화할 경우 1 번째 문장부터 마지막(n) 번째 문장까지 각각 이전 입력의 켑스트럼의 정규화 값을 기반으로 현재 입력되는 켑스트럼의 전역 평균과 분산을 지속적으로 갱신하는 단계와, (D) 상기 정규화된 훈련 음성 및 인식 음성 켑스트럼의 프레임별 음성 존재 여부에 대한 가중치를 구하여 정규화된 켑스트럼 시계열을 가중 자동회귀 이동평균 필터링을 수행하는 단계와, (E) 상기 가중 자동회귀 이동평균 필터링되어 출력되는 훈련 음성 켑스트럼이 입력되면, 이 훈련 음성 켑스트럼에 해당하는 HMM의 유사도(likelihood)가 최대가 되도록 HMM 음향 모델을 갱신하는 음향 모델 훈련 단계와, (F) 비터비 디코딩(Viterbi decoding)을 통해 상기 갱신된 HMM 음향 모델 중 가중 자동회귀 이동평균 필터링 된 인식 음성 켑스트럼에 대한 HMM 음향 모델의 유사도(likelihood)가 최대가 되는 인식 문장을 선택하는 음성 인식 단계를 포함하여 이루어지는데 있다.
바람직하게, 상기 (B) 단계는 (B1) 입력되는 훈련 음성 및 인식 음성 켑스트럼별로 k(1 이상의 상수)개의 샘플들을 취하여 각각 한 개의 프레임으로 구성하는 단계와, (B2) 상기 구성된 연속된 프레임별로 이상 푸리에 변환(Discrete Fourier Transform : DFT)을 한 후, 멜-스케일(mel-scale)의 삼각 필터뱅크에 통과시켜 N(1 이상의 상수)개의 필터뱅크 출력을 산출하고, 이를 이산 코사인 변환(Discrete Cosine Transform : DCT)하여 켑스트럼의 값을 산출하는 단계와, (B3) 상기 산출된 켑스트럼의 각 값을 켑스트럼 평균 및 분산 정규화를 사용하여 각각 정규화하는 단계를 포함하는 것을 특징으로 한다.
바람직하게 상기 (B3) 단계는 상기 산출된 켑스트럼의 값(
Figure pat00001
)을 수식
Figure pat00002
를 이용하여 정규화하는 것을 특징으로 한다.
바람직하게 상기 (C) 단계는 (C1) 인식에 사용했던 1 번째 문장부터 마지막(n) 번째 문장을 사용한 전역 평균
Figure pat00003
을 수식
Figure pat00004
로 갱신하고, 이를 다시 수식
Figure pat00005
로 변환하여 켑스트럼의 전역 평균을 산출하고, 수식
Figure pat00006
로 변환하여 켑스트럼의 전역 표준편차를 산출하는 단계와, (C2) 상기 산출된 켑스트럼의 평균과 표준편차를 이용하여 n번째 인식 대상 문장의 t번째 프레임에서의 k번째 켑스트럼
Figure pat00007
를 수식 를 이용하여 정규화하는 단계로 이루어지는 것을 특징으로 한다.
바람직하게 상기 (D) 단계에서 가중 자동회귀 이동평균 필터링은 수식
Figure pat00009
를 적용하여 필터링을 수행하는 것을 특징으로 한다.
이상에서 설명한 바와 같이 본 발명에 따른 가중 자동회귀 이동평균 필터와 전역 켑스트럼 평균 및 분산 정규화를 이용한 특징 보상 장치 및 방법은 기존의 자동회귀 이동평균 필터 기반의 TMF 방식에서 음성의 존재 여부 정도에 따른 가중치를 적용하여 자동회귀 이동평균 필터기반 TMF의 단점을 보완한다. 또한 전체 데이터의 켑스트럼으로부터의 전역 평균과 분산을 사용하여 환경 불일치 문제를 줄이는 효과가 있다.
그리고 본 발명은 필요한 계산량이 적어서 실시간으로 충분히 동작할 수 있으며, 또한 부가잡음과 반향이 존재하는 다양한 환경에서 인식 성능의 저하를 크게 줄일 수 있는 효과가 있다.
[도 1] 본 발명의 실시예에 따른 가중 자동회귀 이동평균 필터와 전역 켑스트럼 평균 및 분산 정규화를 이용한 특징 보상 장치의 구조를 나타낸 구성도
[도 2] 본 발명의 실시예에 따른 가중 자동회귀 이동평균 필터와 전역 켑스트럼 평균 및 분산 정규화를 이용한 특징 보상 방법을 설명하기 위한 흐름도
본 발명의 다른 목적, 특성 및 이점들은 첨부한 도면을 참조한 실시예들의 상세한 설명을 통해 명백해질 것이다.
본 발명에 따른 가중 자동회귀 이동평균 필터와 전역 켑스트럼 평균 및 분산 정규화를 이용한 특징 보상 장치 및 방법의 바람직한 실시예에 대하여 첨부한 도면을 참조하여 설명하면 다음과 같다. 그러나 본 발명은 이하에서 개시되는 실시예에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예는 본 발명의 개시가 완전하도록하며 통상의 지식을 가진자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이다. 따라서, 본 명세서에 기재된 실시예와 도면에 도시된 구성은 본 발명의 가장 바람직한 일 실시예에 불과할 뿐이고 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형예들이 있을 수 있음을 이해하여야 한다.
도 1 은 본 발명의 실시예에 따른 가중 자동회귀 이동평균 필터와 전역 켑스트럼 평균 및 분산 정규화를 이용한 특징 보상 장치의 구조를 나타낸 구성도이다.
도 1과 같이, 특징 보상 장치는 MFCC(Mel-Frequency Cepstral Coefficients) 특징 추출부(100)와, 켑스트럼 평균 및 분산 정규화부(110)와, 업데이트부(120)와, 가중 자동회귀 이동평균 필터(130)와, 음향 모델 훈련부(140)와, 음성 인식부(160)로 구성된다.
상기 MFCC 특징 추출부(100)는 깨끗한 음성(이하 “훈련 음성”이라 칭함) 및 잡음 섞인 음성(이하 “인식 음성”이라 칭함)을 각각 음성 신호로 입력받아 복수의 프레임으로 분리하고, 각 프레임의 음성 신호에 대해 푸리에 변환을 수행하여 훈련 음성 켑스트럼과 인식 음성 켑스트럼의 MFCC 특징을 추출하여 시간에 따른 프레임 열을 출력한다.
상기 켑스트럼 평균 및 분산 정규화부(110)는 상기 MFCC 특징 추출부(100)에서 출력되는 훈련 음성 켑스트럼 및 인식 음성 켑스트럼의 전역 평균과 분산으로 훈련 음성 켑스트럼 및 인식 음성 켑스트럼을 각각 정규화시킨다.
상기 업데이트부(120)는 상기 켑스트럼 평균 및 분산 정규화부(110)에서 인식 음성 켑스트럼을 정규화할 경우 1 번째 문장부터 마지막(n) 번째 문장까지 각각 이전 입력 문장들까지의 켑스트럼 전역 평균 및 분산과 현재 입력 문장의 켑스트럼 평균 및 분산을 기반으로 현재의 전역 평균 및 분산을 갱신한 후, 이렇게 갱신된 인식 음성 켑스트럼의 전역 평균 및 분산을 상기 켑스트럼 평균 및 분산 정규화부(110)로 재입력한다. 재입력된 전역 평균 및 분산은 다음 입력 문장의 켑스트럼을 정규화시키는데 사용한다. 이는 실제 음성인식 시 켑스트럼의 전역 평균과 분산을 실시간으로 구하기 힘들기 때문이며, 이를 통해 효율적으로 인식 음성 켑스트럼의 전역 평균을 계산하도록 하여 인식 음성의 특징(인식 음성 켑스트럼)을 정규화하도록 한다.
상기 가중 자동회귀 이동평균 필터(130)는 상기 켑스트럼 평균 및 분산 정규화부(110)에서 출력되는 정규화된 훈련 음성 켑스트럼 및 인식 음성 켑스트럼의 프레임별 음성 존재 여부에 대한 가중치를 구하여 정규화된 켑스트럼 시계열을 가중 자동회귀 이동평균 필터링한다.
상기 음향 모델 훈련부(140)는 상기 가중 자동회귀 이동평균 필터(130)에서 출력되는 훈련 음성 켑스트럼이 입력되면 HMM 음향 모델 DB(150)에 저장된 음향 모델 중 입력되는 훈련 음성 켑스트럼에 해당하는 HMM 음향 모델의 유사도(likelihood)가 최대가 되도록 HMM 음향 모델을 갱신한다.
상기 음성 인식부(160)는 비터비 디코딩(Viterbi decoding)을 통해 상기 가중 자동회귀 이동평균 필터(130)에서 출력되는 인식 음성 켑스트럼들에 대한 상기 음향 모델 훈련부(140)에서 출력되는 HMM 음향모델의 유사도(likelihood)가 최대가 되는 인식 문장을 출력한다.
이와 같이 구성된 본 발명에 따른 가중 자동회귀 이동평균 필터와 전역 켑스트럼 평균 및 분산 정규화를 이용한 특징 보상 장치의 동작을 첨부한 도면을 참조하여 상세히 설명하면 다음과 같다. 도 1과 동일한 참조부호는 동일한 기능을 수행하는 동일한 부재를 지칭한다.
도 2 는 본 발명의 실시예에 따른 가중 자동회귀 이동평균 필터와 전역 켑스트럼 평균 및 분산 정규화를 이용한 특징 보상 방법을 설명하기 위한 흐름도이다.
도 2를 참조하여 설명하면, 먼저 MFCC 특징 추출부(100)는 입력되는 깨끗한 음성인 훈련 음성 및 잡음 섞인 음성인 인식 음성을 각각 음성 신호로 입력받아 복수의 프레임으로 분리하고, 각 프레임의 음성 신호에 대해 푸리에 변환을 수행하여 훈련 음성 켑스트럼과 인식 음성 켑스트럼의 MFCC 특징을 추출하여 시간에 따른 프레임 열을 출력한다(S10).
이어 켑스트럼 평균 및 분산 정규화부(110)는 상기 MFCC 특징 추출부(100)에서 출력되는 훈련 음성 켑스트럼 및 인식 음성 켑스트럼의 전역 평균과 분산으로 MFCC 특징을 각각 정규화시켜 출력한다(S20).
상기 켑스트럼의 정규화 과정은 상세히 설명하면 다음과 같다.
훈련 음성 및 인식 음성 켑스트럼을 정규화하기에 앞서 훈련 음성 및 인식 음성 켑스트럼별로 각각 k개의 샘플들을 취하여 각각 한 개의 프레임을 구성한다. 이때 이웃한 프레임들 사이에는 k/2개의 샘플들이 중복되도록 한다. 이때 k는 1 이상의 상수이다.
이어 연속된 프레임별로 이상 푸리에 변환(Discrete Fourier Transform : DFT)을 한 후, 멜-스케일(mel-scale)의 삼각 필터뱅크에 통과시켜 N개의 필터뱅크 출력을 산출하고, 이를 이산 코사인 변환(Discrete Cosine Transform : DCT)하여 켑스트럼 값을 산출한다.
이때, t번째 프레임에서의 k번째 켑스트럼의 값
Figure pat00010
는 다음 수학식 1과 같이 구한다.
Figure pat00011
여기서 상기
Figure pat00012
는 t번째 프레임에서 b번째 멜-스케일의 삼각 필터뱅크 출력값이고, N은 필터뱅크의 차수이다.
그리고 상기
Figure pat00013
는 다음 수학식 2와 같이 구한다.
Figure pat00014
이때, 상기
Figure pat00015
는 b번째 필터뱅크의 i번째 성분의 값을 나타내며,
Figure pat00016
는 b번째 필터뱅크가 가지는 성분의 개수이다. 그리고 상기
Figure pat00017
는 b번째 필터뱅크의 i번째 성분에 대응되는 입력음성의 t번째 프레임 DFT 계수 크기이다.
이렇게 구한 켑스트럼의 값
Figure pat00018
는 켑스트럼 평균 및 분산 정규화를 사용하여 다음 수학식 3과 같이 정규화시킨다.
Figure pat00019
그리고 켑스트럼의 평균(
Figure pat00020
)과 표준편차(
Figure pat00021
)는 각각 다음 수학식 4, 수학식 5와 같다.
Figure pat00022
Figure pat00023
여기서 상기 N은 훈련 또는 인식 음성에서 사용한 전체 문장의 개수이며, 상기
Figure pat00024
은 n번째 문장의 프레임 수이다. 따라서 상기
Figure pat00025
은 훈련 또는 인식 음성에서 사용한 전체 프레임의 개수이다.
한편, 실제 인식 환경에서는 전체 문장을 사용할 수 없기 때문에 상기 켑스트럼 평균 및 분산 정규화부(110)를 통한 정규화할 때, 입력된 음성이 훈련 음성인지 인식 음성인지를 판단하고(S30), 인식 음성 켑스트럼에 따른 정규화는 상기 업데이트부(120)를 통해 이전 인식 실험에서 사용했던 문장들을 사용하여 상기 수학식 4, 수학식 5와 동일하게 켑스트럼의 평균과 분산을 갱신하는 과정을 추가로 수행한다(S40).
음성인식 시 켑스트럼의 전역 평균과 분산 갱신 방법을 상세히 설명하면 다음과 같다.
즉, 실제 음성인식 시 켑스트럼의 전역 평균과 분산을 구하기 힘들기 때문에 인식에 사용했던 1 번째 문장부터 마지막(n) 번째 문장을 사용한 전역 평균
Figure pat00026
을 다음 수학식 6과 같이 갱신할 수 있다.
Figure pat00027
또한, 상기 수학식 6을 수학식 7과 같이 바꾸면 효율적으로 켑스트럼의 전역 평균을 계산할 수 있다.
Figure pat00028
여기서 상기
Figure pat00029
는 n번째 문장을 추가함에 따라 수학식 8과 같이 구한다.
Figure pat00030
위 식에서 n'과 α는 실험을 통해서 구해진 미리 정의되는 상수이다.
그리고 위의 전역 평균을 구하는 방식과 동일하게 전역 표준편차를 다음 수학식 9와 같이 구할 수 있다.
Figure pat00031
이렇게 구해진 켑스트럼의 평균과 표준편차를 이용하여 n번째 인식 대상 문장의 t번째 프레임에서의 k번째 켑스트럼
Figure pat00032
를 아래 수학식 10과 같이 정규화시킬 수 있다.
Figure pat00033
이때, 상기 수학식 7 및 수학식 9의
Figure pat00034
Figure pat00035
는 상기 수학식 4, 수학식 5에서 구한 값으로 초기화한다.
이렇게 켑스트럼 평균 및 분산 정규화부(110)를 통한 훈련 음성 켑스트럼 및 인식 음성 켑스트럼의 전역 평균과 분산으로 각각 정규화가 완료되면, 가중 자동회귀 이동평균 필터(130)는 정규화된 각 입력 신호인 훈련 음성 및 인식 음성 켑스트럼의 프레임별 음성 존재 여부에 대한 가중치를 구하여 정규화된 켑스트럼 시계열을 가중 자동회귀 이동평균 필터링을 수행한다(S50).
이때, 상기 가중 자동회귀 이동평균 필터는 아래의 수학식 11을 적용하여 필터링을 수행한다.
Figure pat00036
상기 k=1,...,12로 켑스트럼의 차수를 나타내고, 상기
Figure pat00037
는 가중 자동회귀 이동평균 필터(130)를 적용하여 t번째 프레임의 k번째 정규화된 켑스트럼을 보상한 결과이다.
그리고 상기 w(t)는 t번째 프레임에서의 음성의 존재 여부에 대한 가중치이며, [0,1]의 범위를 갖는 시그모이드(sigmoid) 함수로서 다음 수학식 12와 같이 나타낸다.
Figure pat00038
또한, 상기
Figure pat00039
로서, 상기
Figure pat00040
는 t번째 프레임의 0번째 켑스트럼으로 에너지의 크기를 나타내며,
Figure pat00041
는 0번째 켑스트럼의 평균이다.
그리고 상기 α는 상수이고, 실험을 통해서 결정된다.
이처럼, 가중 자동 회귀 이동평균 필터링이 완료되면(S50), 상기 가중 자동 회귀 이동평균 필터링된 음성이 훈련 음성인지 인식 음성인지를 판단한다(S60).
상기 판단결과(S60), 훈련 음성인 경우에 음향 모델 훈련부(140)를 통해 HMM 음향 모델 DB(150)에 저장된 음향 모델 중 입력되는 훈련 음성 켑스트럼에 해당하는 HMM 음향 모델의 유사도(likelihood)가 최대가 되도록 HMM 음향 모델을 갱신한다(S70).
그리고 음성 인식부(160)는 비터비 디코딩(Viterbi decoding)을 통해 상기 갱신된 HMM 음향 모델 중 가중 자동회귀 이동평균 필터링 된 인식 음성 켑스트럼에 대한 HMM 음향 모델의 유사도(likelihood)가 최대가 되는 인식 문장을 출력한다(S80).
이처럼, 기존의 자동회귀 이동평균 필터 기반의 TMF 방식에서 음성의 존재 여부 정도에 따른 가중치를 적용함으로써, 자동회귀 이동평균 필터기반 TMF의 단점을 보완하였다.
상기에서 설명한 본 발명의 기술적 사상은 바람직한 실시예에서 구체적으로 기술되었으나, 상기한 실시예는 그 설명을 위한 것이며 그 제한을 위한 것이 아님을 주의하여야 한다. 또한, 본 발명의 기술적 분야의 통상의 지식을 가진자라면 본 발명의 기술적 사상의 범위 내에서 다양한 실시예가 가능함을 이해할 수 있을 것이다. 따라서 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.

Claims (7)

  1. 훈련 음성 및 인식 음성을 각각 입력받아 복수의 프레임으로 분리하고, 각 프레임의 음성 신호에 대해 푸리에 변환을 수행하여 훈련 음성 켑스트럼과 인식 음성 켑스트럼을 추출하는 MFCC(Mel-Frequency Cepstral Coefficients) 특징 추출부와,
    상기 MFCC 특징 추출부에서 출력되는 훈련 음성 켑스트럼 및 인식 음성 켑스트럼의 전역 평균과 분산으로 훈련 음성 켑스트럼 및 인식 음성 켑스트럼을 각각 정규화하는 켑스트럼 평균 및 분산 정규화부와,
    상기 정규화에서 인식 음성 켑스트럼을 정규화할 경우 1 번째 문장부터 마지막(n) 번째 문장까지 각각 이전 입력의 켑스트럼의 정규화 값을 기반으로 현재 입력되는 켑스트럼의 전역 평균과 분산을 지속적으로 갱신하는 업데이트부와,
    상기 켑스트럼 평균 및 분산 정규화부에서 출력되는 정규화된 훈련 음성 켑스트럼 및 인식 음성 켑스트럼의 프레임별 음성 존재 여부에 대한 가중치를 구하여 정규화된 켑스트럼 시계열을 가중 자동회귀 이동평균 필터링하는 가중 자동회귀 이동평균 필터와,
    상기 가중 자동회귀 이동평균 필터에서 출력되는 훈련 음성 켑스트럼이 입력되면, 입력되는 훈련 음성 켑스트럼에 해당하는 HMM의 유사도(likelihood)가 최대가 되도록 HMM 음향 모델을 갱신하는 음향 모델 훈련부와,
    비터비 디코딩(Viterbi decoding)을 통해 상기 가중 자동회귀 이동평균 필터에서 출력되는 인식 음성 켑스트럼에 대한 상기 음향모델 훈련부에서 출력되는 HMM 음향 모델의 유사도(likelihood)가 최대가 되게 하는 문장을 선택하는 음성 인식부를 포함하여 구성되는 것을 특징으로 하는 가중 자동회귀 이동평균 필터와 전역 켑스트럼 평균 및 분산 정규화를 이용한 특징 보상 장치.
  2. 제 1 항에 있어서,
    상기 HMM 음향 모델 데이터베이스는 음소 단위로 구성된 HMM(Hidden Markov Model)와, 인식 단어에 대하여 상기 HMM을 구성하는 음소를 저장하는 것을 특징으로 하는 가중 자동회귀 이동평균 필터와 전역 켑스트럼 평균 및 분산 정규화를 이용한 특징 보상 장치.
  3. (A) 입력되는 훈련 음성 및 인식 음성을 각각 입력받아 복수의 프레임으로 분리하고, 각 프레임의 음성 신호에 대해 훈련 음성 켑스트럼과 인식 음성 켑스트럼을 추출하는 단계와,
    (B) 상기 추출된 훈련 음성 켑스트럼 및 인식 음성 켑스트럼의 전역 평균과 분산으로 훈련 음성 켑스트럼 및 인식 음성 켑스트럼을 각각 정규화하는 단계와,
    (C) 상기 정규화에서 인식 음성 켑스트럼을 정규화할 경우 1 번째 문장부터 마지막(n) 번째 문장까지 각각 이전 입력의 켑스트럼의 정규화 값을 기반으로 현재 입력되는 켑스트럼의 전역 평균과 분산을 지속적으로 갱신하는 단계와,
    (D) 상기 정규화된 훈련 음성 및 인식 음성 켑스트럼의 프레임별 음성 존재 여부에 대한 가중치를 구하여 정규화된 켑스트럼 시계열을 가중 자동회귀 이동평균 필터링을 수행하는 단계와,
    (E) 상기 가중 자동회귀 이동평균 필터링되어 출력되는 훈련 음성 켑스트럼이 입력되면 입력되는 훈련 음성 켑스트럼에 해당하는 HMM의 유사도(likelihood)가 최대가 되도록 HMM 음향 모델을 갱신하는 단계와,
    (F) 비터비 디코딩(Viterbi decoding)을 통해 상기 갱신된 HMM 음향 모델 중 가중 자동회귀 이동평균 필터링 된 인식 음성 켑스트럼에 대한 HMM 음향 모델의 유사도(likelihood)가 최대가 되는 인식 문장을 선택하는 단계를 포함하여 이루어지는 것을 특징으로 하는 가중 자동회귀 이동평균 필터와 전역 켑스트럼 평균 및 분산 정규화를 이용한 특징 보상 방법.
  4. 제 3 항에 있어서, 상기 (B) 단계는
    (B1) 입력되는 훈련 음성 및 인식 음성 켑스트럼별로 k(1 이상의 상수)개의 샘플들을 취하여 각각 한 개의 프레임으로 구성하는 단계와,
    (B2) 상기 구성된 연속된 프레임별로 이산 푸리에 변환(Discrete Fourier Transform : DFT)을 한 후, 멜-스케일(mel-scale)의 삼각 필터뱅크에 통과시켜 N(1 이상의 상수)개의 필터뱅크 출력을 산출하고, 이를 이산 코사인 변환(Discrete Cosine Transform : DCT)하여 켑스트럼의 값을 산출하는 단계와,
    (B3) 상기 산출된 켑스트럼의 각 값을 켑스트럼 평균 및 분산 정규화를 사용하여 각각 정규화하는 단계를 포함하는 것을 특징으로 하는 가중 자동회귀 이동평균 필터와 전역 켑스트럼 평균 및 분산 정규화를 이용한 특징 보상 방법.
  5. 제 4 항에 있어서, 상기 (B3) 단계는
    상기 산출된 켑스트럼의 값(
    Figure pat00042
    )을 수식
    Figure pat00043
    를 이용하여 정규화하고,
    이때, 켑스트럼의 평균(
    Figure pat00044
    )은 수식
    Figure pat00045
    를, 표준편차(
    Figure pat00046
    )는 수식
    Figure pat00047
    를 이용하여 산출하며,
    여기서 상기 N은 훈련 또는 인식 음성에서 사용한 전체 문장의 개수이며, 상기
    Figure pat00048
    은 n번째 문장의 프레임 수이며, 따라서 상기
    Figure pat00049
    은 훈련 또는 인식 음성에서 사용한 전체 프레임의 개수인 것을 특징으로 하는 가중 자동회귀 이동평균 필터와 전역 켑스트럼 평균 및 분산 정규화를 이용한 특징 보상 방법.
  6. 제 3 항에 있어서, 상기 (C) 단계는
    (C1) 인식에 사용했던 1 번째 문장부터 마지막(n) 번째 문장을 사용한 전역 평균
    Figure pat00050
    을 수식
    Figure pat00051
    로 갱신하고, 이를 다시 수식
    Figure pat00052
    로 변환하여 켑스트럼의 전역 평균을 산출하고, 수식
    Figure pat00053
    로 변환하여 켑스트럼의 전역 표준편차를 산출하는 단계와,
    (C2) 상기 산출된 켑스트럼의 평균과 표준편차를 이용하여 n번째 인식 대상 문장의 t번째 프레임에서의 k번째 켑스트럼
    Figure pat00054
    를 수식
    Figure pat00055
    를 이용하여 정규화하는 단계로 이루어지고,
    이때, 상기
    Figure pat00056
    는 n번째 문장을 추가함에 따라 수식
    Figure pat00057
    으로 산출하고, 이때 n'과 는 미리 정의되는 상수인 것을 특징으로 하는 가중 자동회귀 이동평균 필터와 전역 켑스트럼 평균 및 분산 정규화를 이용한 특징 보상 방법.
  7. 제 3 항에 있어서,
    상기 (D) 단계에서 가중 자동회귀 이동평균 필터링은 수식
    Figure pat00058
    를 적용하여 필터링을 수행하고,
    이때, 상기 k=1,...,12로 켑스트럼의 차수를 나타내고, 상기
    Figure pat00059
    는 가중 자동회귀 이동평균 필터링을 통해 t번째 프레임의 k번째 정규화된 켑스트럼을 보상한 결과이며,
    상기 w(t)는 t번째 프레임에서의 음성의 존재 여부에 대한 가중치이며, [0,1]의 범위를 갖는 시그모이드(sigmoid) 함수로서 수식
    Figure pat00060
    로 나타내고,
    상기
    Figure pat00061
    로서, 상기
    Figure pat00062
    는 t번째 프레임의 0번째 켑스트럼으로 에너지의 크기를 나타내며, 는 0번째 켑스트럼의 평균을 나타내고, 상기 α는 미리 정의되는 상수인 것을 특징으로 하는 가중 자동회귀 이동평균 필터와 전역 켑스트럼 평균 및 분산 정규화를 이용한 특징 보상 방법.
KR1020100139509A 2010-12-30 2010-12-30 가중 자동회귀 이동평균 필터와 전역 켑스트럼 평균 및 분산 정규화를 이용한 특징 보상 장치 및 방법 KR101236539B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020100139509A KR101236539B1 (ko) 2010-12-30 2010-12-30 가중 자동회귀 이동평균 필터와 전역 켑스트럼 평균 및 분산 정규화를 이용한 특징 보상 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020100139509A KR101236539B1 (ko) 2010-12-30 2010-12-30 가중 자동회귀 이동평균 필터와 전역 켑스트럼 평균 및 분산 정규화를 이용한 특징 보상 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20120077527A true KR20120077527A (ko) 2012-07-10
KR101236539B1 KR101236539B1 (ko) 2013-02-25

Family

ID=46710991

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100139509A KR101236539B1 (ko) 2010-12-30 2010-12-30 가중 자동회귀 이동평균 필터와 전역 켑스트럼 평균 및 분산 정규화를 이용한 특징 보상 장치 및 방법

Country Status (1)

Country Link
KR (1) KR101236539B1 (ko)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150112168A (ko) * 2014-03-27 2015-10-07 한국전자통신연구원 음성 인식 향상 장치 및 방법
CN105810212A (zh) * 2016-03-07 2016-07-27 合肥工业大学 一种复杂噪声环境下的列车鸣笛识别方法
US9804822B2 (en) 2014-07-29 2017-10-31 Samsung Electronics Co., Ltd. Electronic apparatus and control method thereof
CN109088985A (zh) * 2018-07-24 2018-12-25 Oppo(重庆)智能科技有限公司 语音数据生成方法及相关装置
CN110689880A (zh) * 2019-10-21 2020-01-14 国家电网公司华中分部 一种应用于电力调度领域的语音识别方法及装置
CN112562704A (zh) * 2020-11-17 2021-03-26 中国人民解放军陆军工程大学 基于blstm的分频拓谱抗噪语音转换方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100450787B1 (ko) * 1997-06-18 2005-05-03 삼성전자주식회사 스펙트럼의동적영역정규화에의한음성특징추출장치및방법
KR100614932B1 (ko) * 2004-12-14 2006-08-25 한국전자통신연구원 강인한 음성인식을 위한 채널 정규화 장치 및 그 방법

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150112168A (ko) * 2014-03-27 2015-10-07 한국전자통신연구원 음성 인식 향상 장치 및 방법
US9804822B2 (en) 2014-07-29 2017-10-31 Samsung Electronics Co., Ltd. Electronic apparatus and control method thereof
CN105810212A (zh) * 2016-03-07 2016-07-27 合肥工业大学 一种复杂噪声环境下的列车鸣笛识别方法
CN109088985A (zh) * 2018-07-24 2018-12-25 Oppo(重庆)智能科技有限公司 语音数据生成方法及相关装置
CN110689880A (zh) * 2019-10-21 2020-01-14 国家电网公司华中分部 一种应用于电力调度领域的语音识别方法及装置
CN112562704A (zh) * 2020-11-17 2021-03-26 中国人民解放军陆军工程大学 基于blstm的分频拓谱抗噪语音转换方法
CN112562704B (zh) * 2020-11-17 2023-08-18 中国人民解放军陆军工程大学 基于blstm的分频拓谱抗噪语音转换方法

Also Published As

Publication number Publication date
KR101236539B1 (ko) 2013-02-25

Similar Documents

Publication Publication Date Title
CN108198547B (zh) 语音端点检测方法、装置、计算机设备和存储介质
US8838446B2 (en) Method and apparatus of transforming speech feature vectors using an auto-associative neural network
KR101415534B1 (ko) 다단계 음성인식장치 및 방법
US8271283B2 (en) Method and apparatus for recognizing speech by measuring confidence levels of respective frames
US8417522B2 (en) Speech recognition method
US20080167862A1 (en) Pitch Dependent Speech Recognition Engine
US9280979B2 (en) Online maximum-likelihood mean and variance normalization for speech recognition
KR101236539B1 (ko) 가중 자동회귀 이동평균 필터와 전역 켑스트럼 평균 및 분산 정규화를 이용한 특징 보상 장치 및 방법
CN110942766A (zh) 音频事件检测方法、系统、移动终端及存储介质
Ismail et al. Mfcc-vq approach for qalqalahtajweed rule checking
KR101065188B1 (ko) 진화 학습에 의한 화자 적응 장치 및 방법과 이를 이용한 음성인식 시스템
Alku et al. The linear predictive modeling of speech from higher-lag autocorrelation coefficients applied to noise-robust speaker recognition
CN111489763B (zh) 一种基于gmm模型的复杂环境下说话人识别自适应方法
KR100897555B1 (ko) 음성 특징벡터 추출장치 및 방법과 이를 채용하는음성인식시스템 및 방법
Aggarwal et al. Fitness evaluation of Gaussian mixtures in Hindi speech recognition system
KR101361034B1 (ko) 하모닉 주파수 의존성을 이용한 독립벡터분석에 기반한 강한 음성 인식 방법 및 이를 이용한 음성 인식 시스템
Rout et al. Data-adaptive single-pole filtering of magnitude spectra for robust keyword spotting
López et al. Normal-to-shouted speech spectral mapping for speaker recognition under vocal effort mismatch
Darling et al. Feature extraction in speech recognition using linear predictive coding: an overview
KR102300599B1 (ko) 가중치를 이용한 음성 신호의 스트레스 판별 방법 및 그를 위한 장치
Rout et al. Enhancement of formant regions in magnitude spectra to develop children’s KWS system in zero resource scenario
Ranjeet et al. Automatic Speech Recognition System
Vuppala End-to-End User-Defined Keyword Spotting using Shifted Delta Coefficients
Ogawa et al. Improved Example-Based Speech Enhancement by Using Deep Neural Network Acoustic Model for Noise Robust Example Search.
Rout et al. Addressing Effects of Formant Dispersion and Pitch Sensitivity for the Development of Children’s KWS System

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20160203

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20180122

Year of fee payment: 6

LAPS Lapse due to unpaid annual fee