KR100835993B1 - 마스킹 확률을 이용한 음성 인식 전처리 방법 및 전처리장치 - Google Patents

마스킹 확률을 이용한 음성 인식 전처리 방법 및 전처리장치 Download PDF

Info

Publication number
KR100835993B1
KR100835993B1 KR1020060119872A KR20060119872A KR100835993B1 KR 100835993 B1 KR100835993 B1 KR 100835993B1 KR 1020060119872 A KR1020060119872 A KR 1020060119872A KR 20060119872 A KR20060119872 A KR 20060119872A KR 100835993 B1 KR100835993 B1 KR 100835993B1
Authority
KR
South Korea
Prior art keywords
filtering
noise
masking
probability
noise masking
Prior art date
Application number
KR1020060119872A
Other languages
English (en)
Other versions
KR20080049385A (ko
Inventor
김영준
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020060119872A priority Critical patent/KR100835993B1/ko
Publication of KR20080049385A publication Critical patent/KR20080049385A/ko
Application granted granted Critical
Publication of KR100835993B1 publication Critical patent/KR100835993B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Abstract

음성인식에서 사용되는 잡음전처리중 많은 알고리즘이 음성에 대한 GMM 모델을 기반으로 환경보상을 한다. 하지만 음성과 잡음의 결합 관계에서의 마스킹에 의한 효과를 고려하지 않는다면 전혀 다른 환경 보상이 일어나 오히려 성능을 감소시키게된다.
본 발명은 음성인식에서 많이 사용되고 있는 멜 뱅크의 섭스트럼을 구하는 과정중 하나인 로그 스펙트럼에서의 환경보상 시스템에 대해서 제안한다. 로그 스펙트럼에서 음성의 GMM 모델을 기반으로 이루어지는 환경보상에서 잡음의 크기와 음성의 크기에 따른 마스킹에 따라 잡음과 음성의 결합이 어떻게 이뤄지는지에 대해서 분석하고 이를 기반으로 마스킹 확률을 구하는 방법을 제시하여 이를 잡음전처리 및 환경보상을 이용하는 방법을 제안한다.
본 발명의 음성 인식 전처리 방법은, 잡음의 마스킹 확률을 구하는 단계; 및 상기 마스킹 확률에 따라 2개 이상의 필터링 함수를 결합하여 필터링을 수행하는 단계로 이루어지는 것을 특징으로 한다.
음성인식, 잡음처리, 전처리, 마스킹, 로그 스펙트럼

Description

마스킹 확률을 이용한 음성 인식 전처리 방법 및 전처리 장치{Pre-processing Method and Device for Clean Speech Feature Estimation based on Masking Probability}
도 1은 로그 스펙트럼 도메인에서 음성이 잡음에 의해 마스킹되는 것을 설명하기 위한 그래프.
도 2는 babble 잡음과 car 잡음 환경에서의 제안된 방법과 종래기술의 방법의 성능을 비교한 그래프.
도 3은 본 발명의 음성 인식 방법과 기존 방법의 성능 비교표.
도 4는 본 발명 일실시예에 따른 음성 인식 전처리 장치를 도시한 블록도.
* 도면의 주요 부분에 대한 부호의 설명
110 : 프레임 형성부 120 : 푸리에 변환부
130 : 멜 뱅크 에너지 추출부 140 : 비선형 변환부
150 : 마스킹 검출부 160 : 플랙시블 필터
170 : 이산코사인 변환부
본 발명은 음성 인식 과정에 있어서 전처리 방법 및 그 장치에 관한 것으로, 특히 잡음 특성에 따라 밴드별로 다른 전처리 방식을 적용하는 전처리 방법 및 그 장치에 관한 것이다.
유실 특성 이론(Missing Feature Theory)이라는 음성인식 잡음전처리 분야에서 잡음에 의해 손상된 밴드(band)를 보정하는 작업이 이루어져 왔다. 하지만 잡음에 의해 손상된 밴드를 찾는데 명확한 기준이 제시되지 않았으며 이를 정량적으로 구할 수도 없었다. 그리고 하드 디시젼(hard decision)에 의해 판단된 손상된 밴드와 그렇지 않은 밴드를 구분하는 방법에 의해 손상되지 않은 밴드를 기준으로 손상된 밴드를 복구하는 방법에만 치중해 왔다. 이러한 방법에서는 손상되지 않은 것으로 판단된 밴드 역시 얼마나 정상적인가에 대한 기준이 명확하지 않아 실제 음성인식의 환경보상에 사용되었을 때 그 성능 향상의 기여도가 매우 미비하였다.
한편, 잡음 신호를 줄이는 정도가 큰 하드 디시젼의 경우, 잡음 소리가 현저히 감소하지만, 음성 신호 보다 잡음이 더 큰 영역의 경우에는 잡음 제거 중에 음성 신호도 제거되어 정보전달의 충실도가 문제되었다.
반면, 잡음 신호의 저감 보다는 음성 신호의 재현을 중시하는 소프트 디시젼의 경우, 음성 신호의 손실이 거의 없어 정보전달의 충실도가 높지만, 상당량의 잡음을 포함하게 되는 문제가 있었다.
본 발명은 상기 문제점을 해결하기 위하여 안출된 것으로서, 잡음의 상태에 따라 적절한 잡음 제거 알고리즘을 적용할 수 있는 음성 인식 전처리 방법 및 그 장치를 제공하는데 그 목적이 있다.
이에 따라 본 발명은 잡음 신호의 억제 효율을 높이면서도 음성 신호 보다 잡음이 더 큰 영역에서는 음성 신호 재현을 충실하게 하는 음성 인식 전처리 방법 및 그 장치를 제공하는데 그 구체화된 목적이 있다.
즉, 음성인식 잡음전처리에서 음성의 분포를 미리 알고 있다고 가정한 경우, 매 프레임 음성의 분포가 잡음에 의해 얼마나 손상되는지에 관한 손상 정도의 기준이라고 할 수 있는 마스킹 확률(Masking Probability)을 계산해 냄으로써 이것을 기준으로 마스킹(masking)에 강인한 알고리즘과의 결합을 이뤄 최적의 음성인식 성능을 내는 것을 목표로 하고 있다.
상기 목적을 달성하기 위한 본 발명의 음성 인식 전처리 방법은, 잡음의 마스킹 확률을 구하는 단계; 및 상기 마스킹 확률에 따라 2개 이상의 필터링 함수를 결합하여 필터링을 수행하는 단계로 이루어지는 것을 특징으로 한다. 여기서, 마스킹 확률이 높으면 위터 필터링 같은 소프트 디시젼 함수에 의한 필터링이 중심이 되며, 마스킹 확률이 낮으면 IMM(Interacting Multiple Model) 필터링 같은 하드 디시젼 함수에 의한 필터링이 중심이 된다.
이하, 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다.
본 발명의 하기 설명에 있어, 멜뱅크와 클러스터의 차이를 정의하자면, 여러개의 파일로부터 매 시간마다의 맬뱅크를 추출하여  그것을 모아 벡터 양자화(vector quantization)를 수행할 때, 그렇게 해서 만들어진 것이 코드북이고 이러한 코드북에서의 한 개의 벡터를 클러스터라고 지칭한다.
(실시예)
음성인식의 특징벡터로 많이 사용되는 셉스트럼(cepstrum)을 추출하는 과정은 스펙트럼(spectrum) 추출, 멜뱅크(Mel band)의 적용, 로그(log) 스펙트럼 추출, DCT의 단계를 통하여 이뤄진다. 본 실시예에서는 이중에서 로그 스펙트럼에서 음성이 잡음에 의해 마스킹 효과를 분석하고 마스킹(masking) 정도를 확률적으로 구하는 방법을 제시한다.
도 4에 도시된 바와 같이, 본 실시예에 따른 음성 인식 전처리 장치는 프레임 형성부(110), 푸리에 변환부(120), 멜 뱅크 에너지(filter-bank energy) 추출부(130), 비선형 변환부(140), 이산코사인(discrete cosine) 변환부(170), 마스킹 검출부(150) 및 플랙시블 필터(160)를 포함한다.
상기 프레임 형성부(110)는 음성 신호의 연속적인 단시간 스펙트럼 정보를 얻기 위해서 입력되는 음성 신호를 대략 10msec마다 20 ~ 30 msec 길이의 프레임으로 분리한다.
구현에 따라 각 프레임의 음성 신호에 대해 프리엠퍼시스(pre-emphasis) 처리와 해밍 윈도우(Hanmming window) 처리를 수행하기 위한 부가 처리부를 상기 프레임 형성부(110) 및 푸리에 변환부(120) 사이에 둘 수 있다. 여기서, 프리엠퍼시스 처리는 입력 신호의 고주파 성분을 강조하는 동작이며, 해밍 윈도우 처리는 각 프레임의 경계에서의 불연속성을 최소화하기 위해 상기 프리엠퍼시스 처리된 음성 신호에 윈도우 함수를 곱하는 동작이다.
상기 푸리에 변환부(120)는 상기 푸리에 변환부(110)를 통과한 프레임별 음성 신호에 대해 푸리에 변환(Fourier transform)을 수행하여 스펙트럼 정보를 출력한다. 상기 멜주파수 기반 필터뱅크 에너지 추출부(130)는 상기 푸리에 변환을 통해 얻어진 스펙트럼에 여러 개의 구간을 설정하고, 각 구간별 에너지를 구하여 필터뱅크 에너지를 생성한다.
상기 비선형 변환부(140)는 상기 생성된 필터뱅크 에너지에 로그(log) 함수를 적용하여 로그 필터뱅크 에너지를 출력한다.
상기 마스킹 검출부(150)는 입력되는 음성 신호 프레임 별로 또는 필터뱅크 별로 전체 신호에서 잡음이 차지하는 정도인 마스킹 확률을 구하고, 마스킹 확률에 따라 플랙시블 필터의 조정계수를 결정한다.
상기 플렉시블 필터(160)는 상기 조정계수에 따라 소프트 디시젼 방식의 필터링과 하드 디시젼 방식의 필터링을 소정 규칙에 따라 조합하여 필터링을 수행한다. 여기서 소프트 디시젼 방식의 필터링은 상기 소프트 디시젼 함수의 필터링은 위너(Wiener) 필터링이, 상기 하드 디시젼 함수의 필터링은 IMM(Interacting Multiple Model) 필터링이 될 수 있다. 이 경우 도시한 바와 같이 위너 필터링은 선형적인 로그 필터뱅크 에너지에 적용되며, IMM 필터링은 로그 필터뱅크 에너지에 대하여 적용된다.
상기 이산코사인 변환부(160)는 상기 플렉시블 필터(160)에 의해 잡음 성분이 제거된 로그 필터뱅크 에너지로부터 최종적인 섭스트럽(MFCC) 특징 벡터를 추출한다.
현재 음성 인식 기술 분야에서 널리 사용되고 있는 섭스트럽 특징 벡터는 각 프레임당 12차의 벡터로 표현되며, 섭스트럽 특징 벡터의 각 차수별 분포를 살펴보면, 저차(low order)의 분산이 고차(high order)의 분산에 비해 훨씬 큰 특성을 가진다. 먼저, 일반적인 섭스트럼 특징 벡터를 추출하는 과정을 설명하겠다.
상기 비선형변환부(140)에서 출력되는 로그 필터뱅크 에너지의 D차 로그 스펙트럼은 하기 수학식 1과 같다.
Figure 112006089052161-pat00001
여기서,
Figure 112006089052161-pat00002
은 순수 음성 신호(clean speech)의 로그 스펙트럼을 의미하고,
Figure 112006089052161-pat00003
은 잡음 신호(noise)의 로그 스펙트럼을 의미한다.
우선, IMM 방법에 의한 환경 보상이 이루어진다. IMM방법에서는 음성의 분포는 가우션 혼합 모델(Gaussian Mixture Model : GMM)의 분포를 이룬다고 가정하고 훈련에 의해 그 모델을 우리가 미리 갖고 있게 된다. 음성의 GMM 모델은 하기 수학식 2와 같은 모양을 갖는다.
Figure 112006089052161-pat00004
M : totla number of mixture components
Figure 112006089052161-pat00005
: a priori probability
Figure 112006089052161-pat00006
: a priori mean of kth Gaussian distribution
Figure 112006089052161-pat00007
: a priori covariance matrix of kth Gaussian distribution
반면, 잡음의 모델은 하나의 혼합(mixture)으로 이루어진 가우션(Gaussian) 분포를 가정하면, 스펙트럼 도메인에서 파워 스펙트럴 밀도(power spectral density)는 하기 수학식 3과 같은 관계를 갖는다.
Figure 112006089052161-pat00008
잡음과 음성의 비선형결합인 수학식 1을 IMM에서는 하기 수학식 4와 같은 선형 관계로 모델링 한다.
Figure 112006089052161-pat00009
여기서, {
Figure 112006089052161-pat00010
,
Figure 112006089052161-pat00011
,
Figure 112006089052161-pat00012
}는 통계적 선형 근사(statistical linear approximation : SLA)방법을 이용하여 구하게 되고, 이렇게 구해진 선형 식을 이용하여 매 프레임 마다 시퀀셜(sequential)하게 환경변수인
Figure 112006089052161-pat00013
을 구하게 된다.
Figure 112006089052161-pat00014
가 구해진 이후 매 프레임 마다 구해진 환경변수를 기반으로 최소 민스퀘어-에러 평가(miminum mean square error estimation : MMSE) 방법을 이용하여 순수 음성 신호의 로그 스펙트럼 크기를 평가(estimation)하게 된다.
다음, 본 발명의 사상에 따라 잡음의 마스킹 효과를 구한다. 로그 스펙트럼 도메인에서 음성과 잡음의 크기에 따른 마스킹(masking) 효과를 보기 위하여 도 1에서 수학식 1의 결합함수를 이용하여 잡음의 크기를 5.0으로 고정시켜놓고 음성의 크기를 0에서 10까지 변화시켜가면서 전체 결합함수의 크기가 어떻게 영향을 받는 지에 대해서 살펴보았다. 도 1에서 나타나듯이 잡음의 크기가 음성에 비해서 많이 커져버린 경우에는 음성의 크기에 무관하게 잡음의 크기만이 전체적인 결합함수의 결과가 된다. 즉, 잡음의 크기를 고정시켜놓고 음성의 크기를 변화시켜가면 어느 순간부터는 음성의 크기 변화가 전체 잡음섞인 신호의 변화에 영향을 미치지 않게되면, 다시말해, 음성이 잡음에 마스킹 되면, 잡음과 음성의 결합함수인 전체 잡음섞인 신호에서는 보이지 않게 된다.
이럴 경우에는 잡음의 크기를 아무리 정확하게 예측하더라도 그 속에서 정확한 음성의 크기를 찾아낼 수 없게 된다. 즉, 잡음을 제거함에 따라 미약한 음성 신호의 일부가 함께 제거되어 음성 신호의 상당한 손실이 발생한다.
GMM을 이용하는 IMM 등의 방법에서는 수학식 1을 선형화하거나 또는 비선형식을 그대로 이용하지만 이렇게 결합식에서의 마스킹 효과로 인해 정확한 음성의 분포를 찾아내기 어려운 경우가 많이 발생하게 된다. 이러한 마스킹 효과는 순수 음성의 예측에 바이어스(bias)를 주게 되어 전체적인 환경보상 방법에서의 성능 저하를 가져온다.
이러한 마스킹 효과에 의한 성능 저하를 극복하기 위해서 마스킹에 의해 영향을 받은 정도를 구해낼 수 있어야 한다. 그것을 목적으로 전체 GMM의 클러스터(cluster)를 마스킹에 의해 영향을 받은 집합
Figure 112006089052161-pat00015
과 그렇지 않은 집합
Figure 112006089052161-pat00016
으로 구분하였다. 그 구분의 기준으로서는 음성의 변화
Figure 112006089052161-pat00017
가 전체적인 결합함수의 변화
Figure 112006089052161-pat00018
에 영향을 주지 못하는 것을 기준으로 하기 수학식 5와 같이 구분할 수 있다.
Figure 112006089052161-pat00019
Figure 112006089052161-pat00020
: small positive threshold
다음, 마스킹에 기반한 특성 평가(Clean Feature Estimation based on Spectral Masking)를 수행한다. 상기 마스킹 검출부(150)는 상기 판단된 잡음 마스킹 클러스터(noise masking cluster)를 기반으로하여 음성이 잡음에 의해 마스킹될 확률인 잡음 마스킹 확률(Noise Masking Probability : NMP)을 하기 수학식 6과 같이 정의한다.
Figure 112006089052161-pat00021
Figure 112006089052161-pat00022
Figure 112006089052161-pat00023
상기 플랙시블 필터(160)에서는, 위에서 구한 NMP를 기반으로 잡음 마스킹에 비교적 강인한 스펙트럼 도메인 알고리즘과의 결합을 하기 수학식 7과 같은 방법으로 달성할 수 있다.
Figure 112006089052161-pat00024
여기서,
Figure 112006089052161-pat00025
,
Figure 112006089052161-pat00026
은 각각 위너 필터(Wiener Filter)와 IMM 방법에 의해 구해진 결과이다. 이렇게 해서 구해진 로그 스펙트럼 도메인 음성
Figure 112006089052161-pat00027
는 마스킹 효과에 강인하여 음성인식의 성능향상에 기여하게 됨을 알 수 있다.
도 3은 본 실시예의 전처리에 따른 필터링 성능을 비교하기 위한 표로서, IMM만을 사용한 경우와, IMM과 SAP(speech absence probability)를 결합한 경우와, 본 실시예의 IMM과 NMP를 적용한 경우를 비교하였다. 상기 표에서 본 실시예의 경우가 종래 기술에 비해 개선된 효과가 있음을 알 수 있다.
이상, 본 발명을 바람직한 실시예를 들어 상세하게 설명하였으나, 본 발명은 상기 실시예에 한정되지 않고, 본 발명의 기술적 사상의 범위 내에서 당 분야에서 통상의 지식을 가진 자에 의하여 여러가지 변형이 가능하다.
상기 구성의 본 발명에 따른 음성 인식 전처리 방법을 수행함에 의해 잡음의 상태에 따라 적절한 잡음 제거 알고리즘을 적용하여, 잡음 신호의 억제 효율을 높이면서도 음성 신호 보다 잡음이 더 큰 영역에서는 음성 신호 재현을 충실하게 하는 효과가 있다.
즉, 음성과 비음성을 보다 명확히 구분함으로써, 음성 인식부의 부하를 낮출 수 있고, 비음성 신호를 음성 신호로 판단하고 음성인식함으로써 발생하는 음성인식의 오류를 줄일 수 있다.

Claims (10)

  1. 잡음 마스킹 확률을 구하는 단계; 및
    상기 잡음 마스킹 확률에 따라 2개 이상의 필터링 함수를 결합하여 필터링을 수행하는 단계
    를 포함하는 음성 인식 전처리 방법.
  2. 제1항에 있어서, 상기 필터링을 수행하는 단계는,
    상기 잡음 마스킹 확률이 소정 기준치보다 높으면 소프트 디시젼 함수의 필터링을 적용하고,
    상기 잡음 마스킹 확률이 소정 기준치보다 낮으면 하드 디시젼 함수의 필터링을 적용하는 것을 특징으로 하는 음성 인식 전처리 방법.
  3. 제2항에 있어서,
    상기 소프트 디시젼 함수의 필터링은 위너(Wiener) 필터링이며,
    상기 하드 디시젼 함수의 필터링은 IMM(Interacting Multiple Model) 필터링인 것을 특징으로 하는 음성 인식 전처리 방법.
  4. 제1항에 있어서,
    상기 필터링 함수는 하기 수학식에 따라 결합되는 것을 특징으로 하는 음성 인식 전처리 방법.
    Figure 112008009734803-pat00028
    (여기서,
    Figure 112008009734803-pat00040
    는 로그 스펙트럼 도메인 음성,
    Figure 112008009734803-pat00041
    는 잡음 마스킹 확률,
    Figure 112008009734803-pat00042
    는 위너 필터링의 결과,
    Figure 112008009734803-pat00043
    는 IMM 필터링의 결과.)
  5. 제1항에 있어서,
    상기 잡음 마스킹 확률은 하기 수학식에 의해 구하는 것을 특징으로 하는 음성 인식 전처리 방법.
    Figure 112008009734803-pat00029
    Figure 112008009734803-pat00030
    Figure 112008009734803-pat00031
    (여기서,
    Figure 112008009734803-pat00044
    는 잡음 마스킹 확률,
    Figure 112008009734803-pat00045
    는 마스킹에 의해 영향을 받은 집합,
    Figure 112008009734803-pat00046
    는 마스킹에 의해 영향을 받지 않은 집합,
    Figure 112008009734803-pat00047
    는 환경변수.)
  6. 입력되는 음성 신호를 프레임으로 분할하는 프레임 형성부;
    프레임별 음성 신호에 대해 푸리에 변환을 수행하여 스펙트럼 정보를 생성하는 푸리에 변환부;
    상기 푸리에 변환을 통해 얻어진 스펙트럼에 여러 개의 구간을 설정하고, 각 구간별 에너지를 구하여 필터뱅크 에너지를 생성하는 멜 뱅크 에너지 추출부;
    상기 생성된 필터뱅크 에너지에 로그(log) 함수를 적용하여 로그 필터뱅크 에너지를 생성하는 비선형 변환부;
    상기 각 구간별 필터뱅크 에너지로부터 잡음 마스킹 확률을 구하는 잡음 마스킹 검출부;
    상기 잡음 마스킹 확률에 따라 2개 이상의 필터링 함수를 결합하여 필터링을 수행하는 플렉시블 필터; 및
    상기 로그 필터뱅크 에너지로부터 최종적인 섭스트럽 특징 벡터를 추출하는 이산 코사인 변환부
    를 포함하는 것을 특징으로 하는 음성 인식 전처리 장치.
  7. 제6항에 있어서, 상기 플렉시블 필터는,
    상기 잡음 마스킹 확률이 소정 기준치보다 높으면 소프트 디시젼 함수의 필터링을 적용하고,
    상기 잡음의 마스킹 확률이 소정 기준치보다 낮으면 하드 디시젼 함수의 필터링을 적용하는 것을 특징으로 하는 음성 인식 전처리 장치.
  8. 제7항에 있어서,
    상기 소프트 디시젼 함수의 필터링은 위너(Wiener) 필터링이며,
    상기 하드 디시젼 함수의 필터링은 IMM(Interacting Multiple Model) 필터링인 것을 특징으로 하는 음성 인식 전처리 장치.
  9. 제6항에 있어서,
    상기 플렉시블 필터는 하기 수학식에 따라 필터링을 수행하는 것을 특징으로 하는 음성 인식 전처리 장치.
    Figure 112008009734803-pat00032
    (여기서,
    Figure 112008009734803-pat00048
    는 로그 스펙트럼 도메인 음성,
    Figure 112008009734803-pat00049
    는 잡음 마스킹 확률,
    Figure 112008009734803-pat00050
    는 위너 필터링의 결과,
    Figure 112008009734803-pat00051
    는 IMM 필터링의 결과.)
  10. 제6항에 있어서,
    상기 잡음 마스킹 검출부는 하기 수학식에 따라 상기 잡음 마스킹 확률을 구하는 것을 특징으로 하는 음성 인식 전처리 장치.
    Figure 112008009734803-pat00033
    Figure 112008009734803-pat00034
    Figure 112008009734803-pat00035
    (여기서,
    Figure 112008009734803-pat00052
    는 잡음 마스킹 확률,
    Figure 112008009734803-pat00053
    는 마스킹에 의해 영향을 받은 집합,
    Figure 112008009734803-pat00054
    는 마스킹에 의해 영향을 받지 않은 집합,
    Figure 112008009734803-pat00055
    는 환경변수.)
KR1020060119872A 2006-11-30 2006-11-30 마스킹 확률을 이용한 음성 인식 전처리 방법 및 전처리장치 KR100835993B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020060119872A KR100835993B1 (ko) 2006-11-30 2006-11-30 마스킹 확률을 이용한 음성 인식 전처리 방법 및 전처리장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020060119872A KR100835993B1 (ko) 2006-11-30 2006-11-30 마스킹 확률을 이용한 음성 인식 전처리 방법 및 전처리장치

Publications (2)

Publication Number Publication Date
KR20080049385A KR20080049385A (ko) 2008-06-04
KR100835993B1 true KR100835993B1 (ko) 2008-06-09

Family

ID=39805175

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060119872A KR100835993B1 (ko) 2006-11-30 2006-11-30 마스킹 확률을 이용한 음성 인식 전처리 방법 및 전처리장치

Country Status (1)

Country Link
KR (1) KR100835993B1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107633842B (zh) 2017-06-12 2018-08-31 平安科技(深圳)有限公司 语音识别方法、装置、计算机设备及存储介质
CN108257617B (zh) * 2018-01-11 2021-01-19 会听声学科技(北京)有限公司 一种噪声场景识别系统及方法
CN111128209B (zh) * 2019-12-28 2022-05-10 天津大学 一种基于混合掩蔽学习目标的语音增强方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10111699A (ja) 1996-10-07 1998-04-28 Matsushita Electric Ind Co Ltd 音声再生装置
US20040015348A1 (en) 1999-12-01 2004-01-22 Mcarthur Dean Noise suppression circuit for a wireless device
WO2005109404A2 (en) * 2004-04-23 2005-11-17 Acoustic Technologies, Inc. Noise suppression based upon bark band weiner filtering and modified doblinger noise estimate
KR20060015389A (ko) * 2004-08-14 2006-02-17 삼성전자주식회사 교차채널 간섭을 제거하기 위한 후처리장치 및 방법과이를 이용한 다채널 음원 분리장치 및 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10111699A (ja) 1996-10-07 1998-04-28 Matsushita Electric Ind Co Ltd 音声再生装置
US20040015348A1 (en) 1999-12-01 2004-01-22 Mcarthur Dean Noise suppression circuit for a wireless device
WO2005109404A2 (en) * 2004-04-23 2005-11-17 Acoustic Technologies, Inc. Noise suppression based upon bark band weiner filtering and modified doblinger noise estimate
KR20060015389A (ko) * 2004-08-14 2006-02-17 삼성전자주식회사 교차채널 간섭을 제거하기 위한 후처리장치 및 방법과이를 이용한 다채널 음원 분리장치 및 방법

Also Published As

Publication number Publication date
KR20080049385A (ko) 2008-06-04

Similar Documents

Publication Publication Date Title
Plapous et al. A two-step noise reduction technique
CN104021789A (zh) 一种利用短时时频值的自适应端点检测方法
Ma et al. Perceptual Kalman filtering for speech enhancement in colored noise
Chandra et al. Usable speech detection using the modified spectral autocorrelation peak to valley ratio using the LPC residual
Ramirez et al. Voice activity detection with noise reduction and long-term spectral divergence estimation
KR100835993B1 (ko) 마스킹 확률을 이용한 음성 인식 전처리 방법 및 전처리장치
Segura et al. Feature extraction combining spectral noise reduction and cepstral histogram equalization for robust ASR.
KR100714721B1 (ko) 음성 구간 검출 방법 및 장치
Alam et al. Robust feature extraction for speech recognition by enhancing auditory spectrum
KR100571427B1 (ko) 잡음 환경에서의 음성 인식을 위한 특징 벡터 추출 장치및 역상관 필터링 방법
Joy et al. Deep Scattering Power Spectrum Features for Robust Speech Recognition.
Al-Ali et al. Enhanced forensic speaker verification using multi-run ICA in the presence of environmental noise and reverberation conditions
Soni et al. Effectiveness of ideal ratio mask for non-intrusive quality assessment of noise suppressed speech
Shao et al. A versatile speech enhancement system based on perceptual wavelet denoising
Ravuri et al. Using spectro-temporal features to improve AFE feature extraction for ASR.
Cadore et al. Morphological processing of spectrograms for speech enhancement
Darabian et al. Improving the performance of MFCC for Persian robust speech recognition
Shi et al. Improving noise robustness in speaker identification using a two-stage attention model
Mehta et al. Robust front-end and back-end processing for feature extraction for Hindi speech recognition
KR101096091B1 (ko) 음성 분리 장치 및 이를 이용한 단일 채널 음성 분리 방법
Gbadamosi et al. Development of non-parametric noise reduction algorithm for GSM voice signal
Ma et al. A perceptual kalman filtering-based approach for speech enhancement
Kobatake et al. Linear predictive coding of speech signals in a high ambient noise environment
Farahani et al. Robust features for noisy speech recognition based on filtering and spectral peaks in autocorrelation domain
Tseng et al. A single channel speech enhancement approach by combining statistical criterion and multi-frame sparse dictionary learning.

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120531

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee