KR20060067097A - 강인한 음성인식을 위한 채널 정규화 장치 및 그 방법 - Google Patents

강인한 음성인식을 위한 채널 정규화 장치 및 그 방법 Download PDF

Info

Publication number
KR20060067097A
KR20060067097A KR1020050037094A KR20050037094A KR20060067097A KR 20060067097 A KR20060067097 A KR 20060067097A KR 1020050037094 A KR1020050037094 A KR 1020050037094A KR 20050037094 A KR20050037094 A KR 20050037094A KR 20060067097 A KR20060067097 A KR 20060067097A
Authority
KR
South Korea
Prior art keywords
channel
mfcc
mel
feature
coefficient
Prior art date
Application number
KR1020050037094A
Other languages
English (en)
Other versions
KR100614932B1 (ko
Inventor
정호영
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to US11/300,223 priority Critical patent/US7702505B2/en
Publication of KR20060067097A publication Critical patent/KR20060067097A/ko
Application granted granted Critical
Publication of KR100614932B1 publication Critical patent/KR100614932B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)

Abstract

본 발명은 음성인식의 실제 적용에 있어 성능에 영향을 주는 채널변이를 해결하고자 하는 것이다. 이러한 본 발명의 장치는 멜(mel)-주파수 켑스트럼 계수(MFCC) 특징을 추출하여 시간에 따른 프레임열을 출력하는 특징추출부; 상기 출력된 멜-주파수 켑스트럼 계수(MFCC) 특징열의 평균값을 계산하는 특징 파라미터 평균계산부; 채널변이를 줄인 음성 데이터베이스로부터 코드북을 구성한 후, 채널왜곡된 입력음성의 멜-주파수 켑스트럼 계수(MFCC)값이 들어오면 각 프레임의 멜-주파수 켑스트럼 계수(MFCC)값과 상기 코드북 중심값과의 거리를 구해 프레임별 채널변이를 추정하는 프레임별 채널변이 추정부; 및 상기 특징 파라미터 평균계산부에서 얻어진 채널변이와 상기 프레임별 채널변이 추정부에서 얻어진 시간별 채널변이의 평균값을 스무싱(smoothing)한 후 스무싱된 평균값을 각 프레임의 멜-주파수 켑스트럼 계수(MFCC)에서 빼어 채널정규화된 멜-주파수 켑스트럼 계수(MFCC) 특징열을 출력하는 스무싱 기반 채널정규화부로 구성된다. 따라서 본 발명은 음성인식시스템의 안정적인 성능을 위해서 채널정규화 방법을 제시하고 있으며, 다양한 채널변이가 있는 환경, 특히 전화망 환경에서 인식성능 향상에 기여할 수 있다.
음성인식, 채널정규화, MFCC, 평균, 채널변이 추정

Description

강인한 음성인식을 위한 채널 정규화 장치 및 그 방법{CHANNEL NORMALIZATION APPARATUS AND METHOD FOR ROBUST SPEECH RECOGNITION}
도 1은 기존의 CMS(Cepstral Mean Subtraction) 방식에 기반한 채널정규화 구성을 도시한 블럭도,
도 2는 본 발명에 따른 채널정규화 장치의 제1 실시예의 구성을 도시한 블럭도,
도 3은 본 발명에 따른 채널정규화 장치의 제2 실시예의 구성을 도시한 블럭도,
도 4는 일반적인 음성인식 시스템을 도시한 개략도,
도 5는 도 4에 도시된 특징추출부의 예를 도시한 구성 블록도이다.
<도면의 주요부분에 대한 부호의 설명>
110: 특징추출부 120: 특징파라미터 평균계산부
130: 채널정규화부 210: 특징추출부
220: 프레임별 채널변이추정부 230: 특징파리미터 평균계산부
240: 스무싱기반 채널정규화부 310: 채널변이갱신부
320: 특징추출부 330: 프레임별 채널변이추정부
340: 특징파리미터 평균계산부 350: 스무싱기반 채널정규화부
본 발명은 음성인식기술에 관한 것으로, 더욱 상세하게는 다양한 마이크 특성, 통신시스템의 차이 등을 정규화함으로써 음성인식 성능을 향상시킬 수 있는 강인한 음성인식을 위한 채널 정규화 장치 및 그 방법에 관한 것이다.
일반적으로, 음성인식장치는 도 4에 도시된 바와 같이, 입력된 음성신호의 특징을 추출하는 특징추출부(10)와, 특징추출부(10)에서 추출된 특징 데이터에 의해서 음성을 인식하는 음성인식부(20)로 구성된다. 특징추출부(10)는 여러가지 방법으로 구현될 수 있으나 MFCC(Mel-Frequency Cepstrum Coefficient)나 PLPCC(Perceptual Linear Prediction Cepstrum Coefficient)가 주로 사용되고, 음성인식부(20)는 HMM(Hidden Markov Model), DTW(Dynamic Time Warping), 신경회로망 등이 많이 사용된다.
음성인식장치에서 멜-주파수 켑스트럼 계수(MFCC) 방법으로 음성특징을 추출하기 위한 특징추출부의 예는 도 5에 도시된 바와 같이, 음성신호의 주파수 스펙트럼 정보를 추출하는 스펙트럼 분석부(11)와, 스펙트럼 분석부(11)에 의해 구해진 스펙트럼으로부터 간략화된 스펙트럼의 포락선을 구하는 필터뱅크부(12), 간략화된 스펙트럼의 크기를 로그함수를 이용하여 함축시키는 로그 압축부(13), 로그 압축부 (13)의 출력을 이산 코사인 변환(DCT)하여 켑스트럼 계수를 구하는 이산 코사인 변환부(14)로 구성될 수 있다.
한편, 음성인식에 있어서 음성신호에는 마이크 종류, 전화망 종류, 통신시스템의 차이, 화자차이 등에 의해 채널 변이가 일어나는데, 이러한 채널 변이를 보상하는 방법으로서 켑스트럼 평균 차감법(CMS: Cepstral Mean Subtraction), 신호 편차 제거법(SBR: Signal Bias Removal), 켑스트럼 선형 변환법(ATC: Affine Transform of Cepstrum) 등이 알려져 있다. 즉, 음성인식 기술 중 채널변이를 처리하여 인식성능을 높이는 대부분의 방법은 계산량의 문제로 음성신호 자체에 대해서 적용하는 것이 아니라 특징추출 후 시간별 특징 파라미터에 대해 적용한다.
이때 널리 쓰이는 방법은 대표적 음성특징인 MFCC 영역에서 채널변이가 하나의 상수로 표현된다는 점에 기반해, 시간에 따른 MFCC 파라미터의 평균을 구한 후 각 MFCC 파라미터에서 빼는 CMS이다. 이 방법은 효과적이나 각 시간별로 보면 MFCC 값 자체를 채널변이로 취급하여 인식을 위한 음성성분까지 제거하는 문제점이 있다. 즉, 종래의 CMS 방식은 간단하면서 효과적이나, 전체 평균을 빼주는 방식으로 MFCC 파라미터값을 채널변이로 보는 문제가 있다. 예를 들어, sin(t) + a의 신호가 채널변이의 영향으로 sin(t)+a+b가 되었을 경우 CMS를 적용하면 평균 a+b를 제거하게 되어 sin(t)를 출력하게 되는 것이다.
본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로, 본 발명의 목적은 각 시간별로 채널변이를 추정하고 이를 전체 시간에 대해 평균해서 각 발화에 대한 채널변이를 구하여 다양한 채널변이에 강인하게 대처할 수 있는 강인한 음성인식을 위한 채널 정규화 장치 및 그 방법을 제공하는 것이다.
본 발명의 다른 목적은 시간별 채널변이의 평균값이 짧은 발화에 대해서는 민감하게 작용할 수 있으므로 켑스트럼 평균 차감법(CMS)에 사용되는 멜-주파수 켑스트럼 계수(MFCC) 파라미터의 평균과 스무싱(smoothing)해서 발화당 채널변이를 제거할 수 있는 강인한 음성인식을 위한 채널 정규화 장치 및 그 방법을 제공하는 것이다.
상기와 같은 목적을 달성하기 위하여 본 발명의 장치는, 멜-주파수 켑스트럼 계수(MFCC) 특징을 추출하여 시간에 따른 프레임열을 출력하는 특징추출부; 상기 출력된 멜-주파수 켑스트럼 계수(MFCC) 특징열의 평균값을 계산하는 특징 파라미터 평균계산부; 채널변이를 줄인 음성 데이터베이스로부터 코드북을 구성한 후, 채널왜곡된 입력음성의 멜-주파수 켑스트럼 계수(MFCC)값이 들어오면 각 프레임의 멜-주파수 켑스트럼 계수(MFCC)값과 상기 코드북 중심값과의 거리를 구해 프레임별 채널변이를 추정하는 프레임별 채널변이 추정부; 및 상기 특징 파라미터 평균계산부에서 얻어진 채널변이와 상기 프레임별 채널변이 추정부에서 얻어진 시간별 채널변 이의 평균값을 스무싱(smoothing)한 후 스무싱된 평균값을 각 프레임의 멜-주파수 켑스트럼 계수(MFCC)에서 빼어 채널정규화된 멜-주파수 켑스트럼 계수(MFCC) 특징열을 출력하는 스무싱 기반 채널정규화부를 포함하는 것을 특징으로 한다.
상기와 같은 목적을 달성하기 위하여 본 발명의 방법은, 각 시간별 채널변이를 추정하기 위하여 채널변이를 줄인 음성을 대상으로 멜-주파수 켑스트럼 계수(MFCC) 특징을 추출한 후, 일정크기의 코드북을 구성하는 단계; 입력음성에 대한 각 프레임의 멜-주파수 켑스트럼 계수(MFCC)값과 상기 코드북 중심값과의 거리를 구해 프레임별 채널변이로 추정하는 추정하는 단계; 상기 입력음성에 대한 멜-주파수 켑스트럼 계수(MFCC) 특징열의 평균값을 계산하는 단계; 및 상기 평균값으로 얻어진 채널변이와 상기 시간별 채널변이의 추정으로 구한 평균값을 스무싱(smoothing)한 후 스무싱된 평균값을 각 프레임의 멜-주파수 켑스트럼 계수(MFCC)에서 빼어 채널정규화된 멜-주파수 켑스트럼 계수(MFCC) 특징열을 출력하는 단계를 구비한 것을 특징으로 한다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 자세히 설명하기로 한다.
종래기술에서 설명한 바와 같이, 기존의 켑스트럼 평균 차감법(CMS)은 간단하면서 효과적이나, 전체 평균을 빼주는 방식으로 MFCC 파라미터값을 채널변이로 보는 문제가 있다. 예를 들어 sin(t) + a의 신호가 채널변이의 영향으로 sin(t)+a+b가 되었을 경우 CMS를 적용하면 평균 a+b를 제거하게 되어 sin(t)를 출 력하게 되는 것이다.
이것을 해결하기 위해 제안된 방법이 시간별로 채널변이를 추정하고, 이것의 평균을 구해 뺌으로써 채널정규화하는 것이다.
채널 정규화를 수행하는 절차는 먼저, 각 시간별 채널변이를 추정하기 위하여 채널변이를 줄인 음성을 대상으로 MFCC 특징을 추출한 후, 일정크기의 코드북을 구성하고, 입력음성의 각 시간별 MFCC와 코드북내의 각 중심값들과의 거리를 구한다.
다음으로 가장 가까운 거리에 있는 중심값이 현재 시간의 MFCC 특징을 대표한다고 가정한 후, 이때의 거리를 해당 시간의 채널변이로 추정하게 된다. 마지막으로 각 시간별로 구해진 채널변이를 전체 발화에 대해 평균내어 채널정규화에 적용한다.
본 발명은 채널 정규화 절차에서 기준이 되는 코드북을 기존의 방법처럼 벡터양자화방식을 이용하지 않고, PCA(Principle Component Analysis) 방식에 의해 구성하여, 다양한 채널변이에 강인하게 대처하는 방식이다. 또한 시간별 채널변이의 평균값이 짧은 발화에 대해서는 민감하게 작용할 수 있으므로 CMS에 사용되는 MFCC 파라미터의 평균과 스무싱(smoothing)해서 발화당 채널변이를 제거하는 것이다.
도 1은 현재 널리 쓰이고 있는 CMS 기반의 채널정규화 장치를 도시한 블럭도로서, CMS 기반의 채널정규화 장치는 특징추출부(110)와, 특징 파라미터 평균계산부(120), 채널정규화부(130)로 이루어진다.
도 1을 참조하면, 특징추출부(110)는 음성인식에 대표적인 MFCC 특징을 추출하여 시간에 따른 프레임열을 출력하고, 특징 파라미터 평균계산부(120)는 출력된 MFCC 특징열의 평균값을 계산한다. 그리고 채널정규화부(130)는 계산된 평균값을 각 프레임의 MFCC에서 빼어 채널정규화된 MFCC 특징열을 출력한다. 이 방식은 다음 수학식 1로 표현될 수 있다.
Figure 112005023341709-PAT00001
Figure 112005023341709-PAT00002
상기 수학식 1 및 수학식 2에서, “b”는 채널변이를 나타내는 상수값, “Ct”는 t프레임에서의 정규화 이전의 MFCC 파라미터이고, “T”는 입력발화에 대한 프레임의 수를 나타낸다. 그리고, “^Ct” 는 t 프레임에서의 채널정규화된 MFCC 파라미터를 의미한다. 결국, CMS방식은 매 프레임별 MFCC값이 프레임별 채널변이가 되어, 음성성분이 채널변이에 포함될 위험이 크다.
본 발명에서는 이런 채널변이 결정방식을 해결하기 위해 채널변이를 줄인 음성 DB로부터 코드북을 구성하고, 각 프레임의 MFCC값과 코드북 중심값과의 거리를 구해 프레임별 채널변이로 추정하는 방식을 이용한다. 채널변이를 줄인 음성신호에 대한 코드북이 기준이 되어, 채널왜곡된 입력음성이 들어오면 코드북 내의 가장 가까운 중심값으로 이동시키는 거리만큼이 채널변이 추정값이 되는 것이다. 이 방식 은 아래의 수학식 3으로 표현될 수 있다.
Figure 112005023341709-PAT00003
Figure 112005023341709-PAT00004
여기서, “bt”는 프레임 t에 대한 채널변이 추정을 나타내고, “D”는 MFCC 파라미터와 코드북내의 각 중심값(codeword)과의 거리, “codewordi” 는 코드북의 i번째 중심값을 나타낸다. 그리고 “b”는 전체 발화에 대한 채널변이 추정값이다. 따라서 CMS방식과는 달리 각 프레임 t에서 채널변이가 MFCC값 자체가 아니라 추정된 bt이며, 이것들의 평균을 빼는 것은 음성성분의 손실을 최소화할 수 있다.
위의 방식에서 한가지 중요한 것은 음성을 나타내는 기준 코드북의 구성 방법이다. 코드북은 채널변이된 입력음성의 변이정도를 예측하는 척도이므로 성능에 큰 영향을 줄 수 있다. 일반적 방법인 벡터양자화 기법은 코드북 생성에 사용된 DB에 의존성이 커서 다양한 채널변이에 대처하기가 어렵다. 벡터양자화는 전체 DB를 원하는 클러스터 수만큼 나누어 각 클러스터에서의 평균으로 중심값을 구하므로, 임의방향으로의 바이어스가 있을 수 있다.
본 발명에서는 이런 문제를 해결하기 위해 코드북 생성을 위한 전체 특징벡터를 이루는 여러 개의 축을 추출해서 중심값으로 사용한다. 일반적으로 MFCC특징은 13차 벡터로 이루어지며, 13차보다 적은 N개의 주요 축성분을 PCA방식을 이용해 추출하게 된다. 채널변이를 해결하기 위한 일반적인 N의 수는 8∼10이다.
본 발명에서 한가지 더 중요한 요소는 상기 수학식 4와 같은 발화 전체의 채널변이를 구하는 경우에 있어 수학식 1과의 스무싱(smoothing)을 하는 것이다. 수학식 4에 의한 채널특성 추출은 효과적이나 발화길이가 짧을 경우 너무 민감하게 작용하는 문제가 발생할 수 있으며, 이를 해결하기 위해 스무싱(smoothing) 기법을 적용한다. 이것은 다음의 수학식 5로 표현된다.
Figure 112005023341709-PAT00005
즉, CMS 방식에서 얻어진 채널변이와 시간별 채널변이의 평균값과의 스무싱(smoothing)을 하게된다.
도 2는 본 발명에서 제시한 채널정규화 장치를 도시한 블럭도로서, 본 발명의 채널 정규화장치는 특징추출부(210), 프레임별 채널변이 추정부(220), 특징파라미터 평균계산부(230), 스무싱(smoothing)기반 채널정규화부(240)로 구성된다.
특징추출부(210)과 특징 파리미터 평균계산부(230)는 도 1과 같은 작용을 하고, 프레임별 채널변이 추정부(220)는 수학식 3∼4를 수행하고, 스무싱(smoothing)기반 채널정규화부(240)는 수학식 5를 수행하게 된다.
한편, 도 2의 방식은 입력음성을 다 받은 후 처리하게 되어 시스템 구현에 있어 지연이 있게 된다. 이를 해결하기 위해 음성인식시스템이 사용되고 있는 환경에서 이전 발화로부터 지속적으로 채널변이를 갱신하여 현재 입력발화에 적용하고, 현재 발화로부터 얻은 채널변이는 다음 발화를 위해 채널변이 갱신에 사용한다.
도 3은 이와 같이 도 2의 방식을 실시간으로 처리하기 위한 채널정규화 장치를 도시한 블럭도로서, 다른 실시예의 채널 정규화 장치는 특징추출부(320)와, 프레임별 채널변이 추정부(330), 특징파라미터 평균 계산부(340), 스무싱기반 채널 정규화부(350), 채널변이 갱신부(310)로 구성된다.
도 3을 참조하면, 현재 입력된 음성은 채널변이갱신부(310)에서 제공하는 채널변이값을 이용해 정규화되는 동시에 도 2와 같은 방법에 의해 프레임별 채널변이추정부(320), 특징 파라미터 평균계산부(330), 스무싱(smoothing)기반 채널정규화부(340)를 거친 후, 다음 발화를 위해 채널변이갱신부(310)로 추정된 채널변이를 제공한다. 이러한 실시간 처리 가능한 채널정규화장치는 인터넷과 같은 온라인 음성인식시스템에서 효과적으로 사용될 수 있다.
이상에서 몇 가지 실시예를 들어 본 발명을 더욱 상세하게 설명하였으나, 본 발명은 반드시 이러한 실시예로 국한되는 것이 아니고 본 발명의 기술사상을 벗어나지 않는 범위 내에서 다양하게 변형실시될 수 있다.
이상에서 설명한 바와 같이, 본 발명은 음성인식시스템의 안정적인 성능을 위해서 채널정규화 방법을 제시하고 있으며, 다양한 채널변이가 있는 환경, 특히 전화망 환경에서 인식성능 향상에 기여할 수 있다.

Claims (12)

  1. 멜-주파수 켑스트럼 계수(MFCC) 특징을 추출하여 시간에 따른 프레임열을 출력하는 특징추출부;
    상기 출력된 멜-주파수 켑스트럼 계수(MFCC) 특징열의 평균값을 계산하는 특징 파라미터 평균계산부;
    채널변이를 줄인 음성 데이터베이스로부터 코드북을 구성한 후, 채널왜곡된 입력음성의 멜-주파수 켑스트럼 계수(MFCC)값이 들어오면 각 프레임의 멜-주파수 켑스트럼 계수(MFCC)값과 상기 코드북 중심값과의 거리를 구해 프레임별 채널변이를 추정하는 프레임별 채널변이 추정부; 및
    상기 특징 파라미터 평균계산부에서 얻어진 채널변이와 상기 프레임별 채널변이 추정부에서 얻어진 시간별 채널변이의 평균값을 스무싱(smoothing)한 후 스무싱된 평균값을 각 프레임의 멜-주파수 켑스트럼 계수(MFCC)에서 빼어 채널정규화된 멜-주파수 켑스트럼 계수(MFCC) 특징열을 출력하는 스무싱 기반 채널정규화부
    를 포함하는 것을 특징으로 하는 강인한 음성인식을 위한 채널 정규화 장치.
  2. 제 1 항에 있어서, 상기 코드북은 피시에이(PCA:Principle Component Analysis) 기반으로 구성된 것을 특징으로 하는 강인한 음성인식을 위한 채널 정규화 장치.
  3. 제 2 항에 있어서, 상기 PCA 기반 코드북은
    중심값 개수를 8∼10개로 설계하는 것을 특징으로 하는강인한 음성인식을 위한 채널 정규화 장치.
  4. 제 1 항에 있어서, 상기 채널 정규화 장치는
    채널정규화의 실시간처리를 위해 이전 발화로부터 얻어진 채널추정값으로 현재 입력발화를 정규화하고, 현재발화의 추정값은 다음 발화를 위해 과거값과 함께 지속적으로 갱신하는 채널변이 갱신부를 더 구비한 것을 특징으로 하는 강인한 음성인식을 위한 채널 정규화 장치.
  5. 제 4 항에 있어서, 상기 실시간 채널정규화장치는
    온라인 음성인식시스템에 적용되는 것을 특징으로 하는 강인한 음성인식을 위한 채널 정규화 장치.
  6. 제 1 항에 있어서, 상기 특징추출부는
    음성신호의 주파수 스펙트럼 정보를 추출하는 스펙트럼 분석부와, 상기 스펙트럼 분석부에 의해 구해진 스펙트럼으로부터 간략화된 스펙트럼의 포락선을 구하는 필터뱅크부와, 상기 간략화된 스펙트럼의 크기를 로그함수를 이용하여 함축시키는 로그 압축부와, 상기 로그 압축부의 출력을 이산 코사인 변환(DCT)하여 켑스트 럼 계수를 구하는 이산 코사인 변환부로 구성된 것을 특징으로 하는 강인한 음성인식을 위한 채널 정규화 장치.
  7. 각 시간별 채널변이를 추정하기 위하여 채널변이를 줄인 음성을 대상으로 멜-주파수 켑스트럼 계수(MFCC) 특징을 추출한 후, 일정크기의 코드북을 구성하는 단계;
    입력음성에 대한 각 프레임의 멜-주파수 켑스트럼 계수(MFCC)값과 상기 코드북 중심값과의 거리를 구해 프레임별 채널변이로 추정하는 추정하는 단계;
    상기 입력음성에 대한 멜-주파수 켑스트럼 계수(MFCC) 특징열의 평균값을 계산하는 단계; 및
    상기 평균값으로 얻어진 채널변이와 상기 시간별 채널변이의 추정으로 구한 평균값을 스무싱(smoothing)한 후 스무싱된 평균값을 각 프레임의 멜-주파수 켑스트럼 계수(MFCC)에서 빼어 채널정규화된 멜-주파수 켑스트럼 계수(MFCC) 특징열을 출력하는 단계
    를 구비한 것을 특징으로 하는 강인한 음성인식을 위한 채널 정규화 방법.
  8. 제 7 항에 있어서, 상기 코드북은 피시에이(PCA: Principle Component Analysis) 기반으로 구성된 것을 특징으로 하는 강인한 음성인식을 위한 채널 정규화 방법.
  9. 제 8 항에 있어서, 상기 PCA기반 코드북은
    중심값 개수를 8∼10개로 설계하는 것을 특징으로 하는 강인한 음성인식을 위한 채널 정규화 방법.
  10. 제 7 항에 있어서, 상기 채널 정규화 방법은
    채널정규화의 실시간처리를 위해 이전 발화로부터 얻어진 채널추정값으로 현재 입력발화를 정규화하고, 현재발화의 추정값은 다음 발화를 위해 과거값과 함께 지속적으로 갱신하는 단계를 더 구비한 것을 특징으로 하는 강인한 음성인식을 위한 채널 정규화 방법.
  11. 제 7 항에 있어서, 상기 채널변이 추정 단계는
    수학식
    Figure 112005023341709-PAT00006
    으로 채널변이를 추정하는 것을 특징으로 하는 강인한 음성인식을 위한 채널 정규화 방법.
  12. 제 7 항에 있어서, 상기 스무싱 단계는
    수학식
    Figure 112005023341709-PAT00007
    으로 채널변이를 산출하는 것을 특징으로 하는 강인한 음성인식을 위한 채널 정규화 방법.
KR1020050037094A 2004-12-14 2005-05-03 강인한 음성인식을 위한 채널 정규화 장치 및 그 방법 KR100614932B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US11/300,223 US7702505B2 (en) 2004-12-14 2005-12-14 Channel normalization apparatus and method for robust speech recognition

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020040105509 2004-12-14
KR20040105509 2004-12-14

Publications (2)

Publication Number Publication Date
KR20060067097A true KR20060067097A (ko) 2006-06-19
KR100614932B1 KR100614932B1 (ko) 2006-08-25

Family

ID=37161713

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020050037094A KR100614932B1 (ko) 2004-12-14 2005-05-03 강인한 음성인식을 위한 채널 정규화 장치 및 그 방법

Country Status (1)

Country Link
KR (1) KR100614932B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101236539B1 (ko) * 2010-12-30 2013-02-25 부산대학교 산학협력단 가중 자동회귀 이동평균 필터와 전역 켑스트럼 평균 및 분산 정규화를 이용한 특징 보상 장치 및 방법
KR101430730B1 (ko) * 2011-10-19 2014-08-14 한국전자통신연구원 채널 정규화 장치 및 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101236539B1 (ko) * 2010-12-30 2013-02-25 부산대학교 산학협력단 가중 자동회귀 이동평균 필터와 전역 켑스트럼 평균 및 분산 정규화를 이용한 특징 보상 장치 및 방법
KR101430730B1 (ko) * 2011-10-19 2014-08-14 한국전자통신연구원 채널 정규화 장치 및 방법

Also Published As

Publication number Publication date
KR100614932B1 (ko) 2006-08-25

Similar Documents

Publication Publication Date Title
US9536547B2 (en) Speaker change detection device and speaker change detection method
Viikki et al. Cepstral domain segmental feature vector normalization for noise robust speech recognition
US5590242A (en) Signal bias removal for robust telephone speech recognition
EP0792503B1 (en) Signal conditioned minimum error rate training for continuous speech recognition
JP3584458B2 (ja) パターン認識装置およびパターン認識方法
US20100138222A1 (en) Method for Adapting a Codebook for Speech Recognition
KR101260938B1 (ko) 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체
WO2009123387A1 (en) Procedure for processing noisy speech signals, and apparatus and computer program therefor
US8423360B2 (en) Speech recognition apparatus, method and computer program product
EP1511007A2 (en) Vocal tract resonance tracking using a nonlinear predictor and a target-guided temporal constraint
KR100897555B1 (ko) 음성 특징벡터 추출장치 및 방법과 이를 채용하는음성인식시스템 및 방법
Elshamy et al. An iterative speech model-based a priori SNR estimator
Alam et al. Robust feature extraction for speech recognition by enhancing auditory spectrum
KR100614932B1 (ko) 강인한 음성인식을 위한 채널 정규화 장치 및 그 방법
US7702505B2 (en) Channel normalization apparatus and method for robust speech recognition
KR100784456B1 (ko) Gmm을 이용한 음질향상 시스템
JP3039623B2 (ja) 音声認識装置
KR100571427B1 (ko) 잡음 환경에서의 음성 인식을 위한 특징 벡터 추출 장치및 역상관 필터링 방법
Kaur et al. Optimizing feature extraction techniques constituting phone based modelling on connected words for Punjabi automatic speech recognition
Hirsch HMM adaptation for applications in telecommunication
Upadhyay et al. Robust recognition of English speech in noisy environments using frequency warped signal processing
Abka et al. Speech recognition features: Comparison studies on robustness against environmental distortions
JPH07121197A (ja) 学習式音声認識方法
JP2001067094A (ja) 音声認識装置及び方法
JPH11212588A (ja) 音声処理装置、音声処理方法、及び音声処理プログラムを記録したコンピュータ読み取り可能な記録媒体

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120730

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20130729

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20140728

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20150728

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20160726

Year of fee payment: 11

LAPS Lapse due to unpaid annual fee