KR20070061216A - Gmm을 이용한 음질향상 시스템 - Google Patents

Gmm을 이용한 음질향상 시스템 Download PDF

Info

Publication number
KR20070061216A
KR20070061216A KR1020060066884A KR20060066884A KR20070061216A KR 20070061216 A KR20070061216 A KR 20070061216A KR 1020060066884 A KR1020060066884 A KR 1020060066884A KR 20060066884 A KR20060066884 A KR 20060066884A KR 20070061216 A KR20070061216 A KR 20070061216A
Authority
KR
South Korea
Prior art keywords
noise
estimator
characteristic
input signal
dynamic
Prior art date
Application number
KR1020060066884A
Other languages
English (en)
Other versions
KR100784456B1 (ko
Inventor
이성주
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Publication of KR20070061216A publication Critical patent/KR20070061216A/ko
Application granted granted Critical
Publication of KR100784456B1 publication Critical patent/KR100784456B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders

Abstract

기존의 단일 채널 음질향상(single channel speech enhancement) 방법들은 최초 일정구간의 입력신호를 잡음구간으로 가정하여 이로부터 잡음 신호의 주파수 특성을 추정한다. 그런 다음 입력 음성 신호로부터 잡음 신호의 주파수 에너지 값을 차감함으로써 음질의 향상된 출력신호를 얻는다. 이러한 단일 채널 음질 향상 방법은 잡음의 주파수 특성이 시간에 따라 변하지 않는 정적 잡음(stationary noise) 환경에서는 그 성능이 우수하나 잡음의 주파수 특성이 시간에 따라 변하는 동적 잡음(dynamic noise) 환경에서는 그 성능이 우수하지 못한 단점을 가지고 있다.
본 발명의 음질향상 시스템은 Gaussian Mixture Model(GMM)을 이용하여 동적 잡음(dynamic noise)의 주파수 특성을 추정하여 단일채널 음질향상(single channel speech enhancement) 방법에 적용함으로써 동적 잡음 환경하에서 단일 채널 음질 향상 방법의 성능을 향상시킨다.
동적 잡음 제거, 단일 채널 음질 향상 기법

Description

GMM을 이용한 음질향상 시스템{Voice Enhancement System using GMM}
도 1은 종래기술에 따른 단일채널 음질향상 시스템을 도시한 블록도.
도 2는 본 발명 일실시예에 따른 단일채널 음질향상 시스템을 도시한 블록도.
* 도면의 주요부분에 대한 부호의 설명
210 : 주파수 스펙트럼 추정부 220 : 특징 추출부
230 : 정적 잡음 추정부 240 : 동적 잡음 추정부
250 : 잡음특성 추정부 260 : 필터 주파수특성 제어부
270 : 음질향상 필터부 280 : 동적 잡음 GMM 모델
290 : 음성 GMM 모델
본 발명은 입력 신호에 부가된 잡음을 제거하여 입력 신호의 음질을 향상시키는 단일채널 음질향상 시스템에 관한 것이다.
종래의 단일채널 음질향상 기법들은 입력신호의 최초 일정구간 동안을 부가잡음신호로 가정하여 부가잡음신호의 주파수 스펙트럼 특성을 추정하고 음성신호로부터 부가 잡음을 제거함으로써 음질이 향상된 음성신호를 얻는다.
도 1에서 음성/비음성 구간 추정부(130)가 입력신호의 최초 일정구간 동안을 부가잡음신호로 규정하며, 시간 흐름에 따른 부가잡음신호의 특성의 추정을 위하여 음성/비음성 추정부(130)를 두고 비음성 구간의 경우, 현재 구간의 부가잡음의 주파수 특성을 일정비율로 더함으로써 시간의 흐름에 따른 부가 잡음의 주파수 특성을 추정하게 된다. 이후, 상기 추정된 부가 잡음의 주파수 특성을 이용하여 필터 주파수 특성 제어부(160)가 음질향상 필터부(170)의 필터링 특성을 제어하게 된다.
이러한 부가잡음의 주파수 스펙트럼 추정은 부가잡음의 특성이 시간의 흐름에 따라 변하지 않는 정적 잡음에 대해서는 그 성능이 우수하나, 주파수 스펙트럼의 특성이 시간의 흐름에 따라 급격히 변하는 동적 잡음의 경우에는 동적 잡음의 주파수 스펙트럼 특성을 추적하지 못 하는 단점을 가지고 있다.
이와 같은 정적 잡음에는 냉장고 팬 소리, PC의 팬 소리, 노트북 팬 소리, 백색 잡음 등을 들 수 있으며 동적 잡음에는 라디오에서 흘러 나오는 음악, 뉴스, 전화벨소리, 초인종 멜로디 등을 들 수가 있으며 일상생활에서 쉽게 접할 수 있는 부가 잡음들이다. 입력신호에 부가되는 정적 잡음뿐만 아니라 동적 잡음도 입력신호의 음질을 저하시키는 원인으로 작용한다.
본 발명은 상기 문제점들을 해결하기 위하여 안출된 것으로서 입력신호의 음질을 저하시키는 원인으로 작용하는 동적 잡음을 제거할 수 있는 음질향상 시스템을 제공하는 것을 그 목적으로 한다.
이를 위해 본 발명은 GMM(Gaussian Mixture Model)을 이용하여 동적 잡음의 유무를 추정하고 이러한 정보를 이용하여 동적 잡음의 주파수 스펙트럼 특성을 추정하여 입력신호로부터 이를 제거하여 음질이 향상시킬 수 있는 음질향상 시스템을 제공하는 것을 심화된 목적으로 한다.
상기 목적을 달성하기 위한 본 발명의 음질 향상 시스템은, 입력 신호의 음질을 향상시키기 위해 실시간적으로 필터링 특성이 조절되는 음질 향상 필터부; 입력 신호를 주파수 대역상에서 분석하기 위한 주파수 스펙트럼 추정부; 미리 설정된 정적 잡음의 주파수 특성에 따라 상기 주파수 스펙트럼 추정부의 출력 신호에서 정적 잡음의 정도를 계산하기 위한 정적 잡음 추정부; 동적 잡음 GMM 모델에 따라 상기 주파수 스펙트럼 추정부의 출력 신호에서 동적 잡음의 정도를 계산하기 위한 동적 잡음 추정부; 상기 정적 잡음 정도와 상기 동적 잡음 정도에 대한 정보로부터 입력 신호의 잡음 특성을 추정하기 위한 잡음 특성 추정부; 및 상기 잡음 특성에 따라 상기 음질 향상 필터부의 필터링 특성을 조절하는 필터 주파수 특성 제어부를 포함하는 것을 특징으로 한다.
본 발명을 설명하기에 앞서, 도 1에 도시한 바와 같은 기존의 단일채널 음질향상 방법에서 잡음의 주파수 스펙트럼 추정 방법에 대해서 설명하겠다. 잡음과 음성의 주파수 성분이 통계적으로 컴플렉스 가우션(complex Gaussian) 분포를 가지고 잡음은 부가적이며 음성신호의 주파수 성분과 교차하지 않는(uncorrelated) 특성을 가진다고 가정한다면 하기 수학식 1 및 수학식 2와 같은 관계가 성립한다.
Figure 112006050867613-PAT00001
Figure 112006050867613-PAT00002
상기 수학식 1은 음성 신호가 존재하지 않을때 잡음 스팩트럼상 콤포넌트(Yk)의 확률을 나타내며, 상기 수학식 2는 음성 신호가 존재할 때 잡음 스팩트럼상 콤포넌트(Yk)의 확률을 나타낸다. 즉, 상기 두 수식은 각각 음성이 존재하지 않는 경우 혹은 존재하는 경우에 대한 입력 신호의 확률분포를 나타낸다.
k번째 스펙트럼빈(spectral bin)의 개연성비(likelihood ratio, LR)은 상기 두 수식의 확률분포들로부터 하기 수학식 3과 같이 정의 된다.
Figure 112006050867613-PAT00003
여기서,
Figure 112006050867613-PAT00004
Figure 112006050867613-PAT00005
는 a posteriori와 a prior를 각각 나타내며 하기 수학식 4 및 5와 같다.
Figure 112006050867613-PAT00006
Figure 112006050867613-PAT00007
n 번째 프레임의 a prior(SNR)는 다음과 같은 디시젼-다이렉티드(decision-directed, DD) 방법에 의해 구할 수 있다.
Figure 112006050867613-PAT00008
여기서 잡음이 부가되지 않은 음성신호의 주파수 크기(
Figure 112006050867613-PAT00009
)는 단기-진폭-평가기(the short-time amplitude estimator)의 최소 민-스퀘어 에러(the minimum mean square error, MSE) 방법에 의해 추정할 수 있다. 이렇게 구한 개연성비(LR)로부터 평탄화한 개연성비(smoothed likelihood ratio, SLR)를 다음 수학식 7과 같이 구할 수 있다.
Figure 112006050867613-PAT00010
이렇게 구한 SLR로부터 Bayes’rule을 이용하여 풀면 음성이 존재하지 않을 확률을 구할 수 있고 이는 다음 수학식 8과 같으며, 음성/비음성 구간 추정부(130)에 의해 수행된다..
Figure 112006050867613-PAT00011
이러한 과정을 통하여 구한 음성이 존재하지 않을 확률을 이용하여 다음 수학식 9와 같이 잡음의 주파수 파워를 추정할 수 있다.
Figure 112006050867613-PAT00012
위에서 예상되는 잡음 전력 스펙트럼은 다음 수학식 10과 같이 추정된다.
Figure 112006050867613-PAT00013
잡음특성 추정부(150)는 이러한 과정을 통하여 추정한 잡음의 주파수 파워와 입력 신호의 주파수 파워를 이용하여 MMSE 방식 혹은 Wiener 필터링 방법 등을 이용하여 잡음이 부가되지 않은 입력신호의 주파수 파워를 구한다. 이렇게 구한 잡음이 부가되지 않은 입력신호의 주파수 파워와 잡음의 주파수 파워를 이용하여 MMSE 혹은 Wiener 필터링 방법 등을 이용하여 음질향상 필터(170)의 주파수 특성을 구할 수 있다. 입력신호에 대하여 이러한 음질향상 필터(170)를 적용하면 음질이 향상된 음성신호를 구할 수 있게 된다.
(실시예)
이러한 기존의 단일채널 음질향상 방법은 부가되는 잡음의 특성이 시간에 따라 변하지 않는 정적인 잡음에서는 잘 동작하나 부가되는 잡음의 특성이 시간에 따라 변화하는 동적 잡음의 경우에는 잡음제거 성능이 현저히 떨어지거나 동적 잡음을 제거하지 못하는 단점을 가지고 있다. 시간에 따라 그 특성이 변화하는 동적 잡음을 제거하기 위해서는 동적 잡음을 어떻게 추정하고 동적 잡음의 주파수 파워를 어떻게 추정할 것인지에 대한 방법론이 필요하다.
이를 위한 본 실시예의 음질 향상 시스템은 도 2에 도시한 바와 같이, 입력 신호의 음질을 향상시키기 위해 실시간적으로 필터링 특성이 조절되는 음질 향상 필터부(270); 입력 신호를 주파수 대역상에서 분석하기 위한 주파수 스펙트럼 추정부(210); 미리 설정된 정적 잡음의 주파수 특성에 따라 상기 주파수 스펙트럼 추정부(210)의 출력 신호에서 정적 잡음의 정도를 계산하기 위한 정적 잡음 추정부(230); 동적 잡음 GMM 모델에 따라 상기 주파수 스펙트럼 추정부의 출력 신호에서 동적 잡음의 정도를 계산하기 위한 동적 잡음 추정부(240); 상기 정적 잡음 정도와 상기 동적 잡음 정도에 대한 정보로부터 입력 신호의 잡음 특성을 추정하기 위한 잡음 특성 추정부(250); 및 상기 잡음 특성에 따라 상기 음질 향상 필터(270)의 필터링 특성을 조절하는 필터 주파수 특성 제어부(260)를 포함한다. 도시한 각 구성요소는 하드웨어 모듈일 수도 있고, 소프트웨어 모듈일 수도 있다.
상기 동적 잡음 추정부(240)의 동적 잡음 추정을 위해 동적 잡음 GMM 모델(280)을 더 구비할 수 있고, 보다 정확한 동적 잡음 추정을 위해 음성 GMM 모델을(290)을 상기 동적 잡음 GMM 모델(280)과 함께 구비할 수 있다. 또한, 상기 주파수 스펙트럼 추정부(210)에 의해 주파수축 신호로 변환된 신호에서 상기 동적 잡음 GMM 모델과 비교하기 위한 기준 특징들을 추출하기 위한 특징 추출부(220)를 더 구비할 수 있다. 상기 특징 추출부(220)는 일반적으로 음성인식에 사용되는 특징벡터들을 적용하여 특징을 추출할 수 있는데, 예컨대, 주파수 기울기 특징을 사용할 수 있다.
우선, 각 구성 요소 및 신호들에 대하여 기술하겠다. 도면의 입력 신호는 단일채널 음질향상 방법의 입력이 되는 신호이며, 주파수 스펙트럼 추정부(210)는 푸리에 변환 파워(Fourier Transform Power)를 이용한 입력신호를 주파수축상의 신 호로 변환한다. 특징 추출부(220)는 주파수 스펙트럼 추정부(210)를 구성하는 멜 필터뱅크 출력간의 주파수 축 기울기를 검출한다. 여기서, 멜 필터뱅크는 선형 주파수 대역을 멜 주파수(mel-frequency) 대역으로 변형한 주파수 대역의 다수개의 필터로 이루어진 필터 뱅크를 말한다.
본 실시예에서는 잡음 검출을 위해 사용하는 멜 필터뱅크의 출력으로 주파수 파워의 기울기를 사용하였지만, 이에 한정되지 않으며, 구현에 따라서는 멜 필터뱅크 켑스트럼(MFCC), LPC( Linear Prediction Coefficient) 켑스트럼, PLP(perceptually based linear prediction) 켑스트럼, RASTA PLP 켑스트럼, 멜 필터뱅크 에너지 등등의 다양한 특징벡터들과 그들의 delta 혹은 delta-delta 등 시간에 따른 변화를 나타내는 특징벡터들을 혼합하여 사용할 수 있다.
동적 잡음 GMM 모델(280)에는 동적 잡음에 대한 GMM 모델들이 기록되며, 음성 GMM 모델(290)에는 잡음없는 일반적인 음성 신호에 대한 GMM 모델이 기록된다.
정정 잡음 추정부(230)는 입력 신호로부터 음성 혹은 비음성 구간을 추정하며, 동적 잡음 추정부(240)는 음성의 GMM 모델과 동적 잡음의 GMM 모델을 이용하여 입력신호의 특성이 동적 잡음인지 아닌지를 추정하는데, 이때 하기에서 설명하는 로그 개연성비(log likelihood ration, LLR) 값을 이용한다.
잡음 특성 추정부(250)는 음성/비음성 구간 추정 정보와 동적 잡음구간 추정 정보 그리고 입력신호의 주파수 스펙트럼 정보를 이용하여 정적 혹은 동적 잡음신호의 스펙트럼 파워를 추정한다. 이때 동적 잡음신호의 스펙트럼 파워는 상기 정적 잡음 추정부(230)에 의한 음성/비음성 구간 추정 정보가 음성인 경우에 한하여 업데이트 되어지며, 그 추정 방법은 후술하겠다.
필터 주파수특성 제어부(260)는 입력 신호의 주파수 스펙트럼 정보와 정적 잡음신호의 주파수 스펙트럼 그리고 동적 잡음신호의 주파수 스펙트럼을 이용하여 음질향상 필터의 주파수 특성을 조절한다.
음질향상 필터부(270)는 상기 필터 주파수특성 제어부(260)에서 결정한 주파수 특성을 이용하여 입력 신호를 필터링함으로써 음질이 향상된 출력신호를 생성한다.
이하에서는 본 발명의 사상에 따른 특징인 입력 신호가 동적 잡음인지 여부를 판단하는 방법, 및 동적 잡음으로 판단한 경우 동적 잡음의 주파수 파워를 추정하는 방법에 대하여 상술하겠다. 2 방법 모두 도 2의 동적 잡음 추정부(240)에서 수행된다.
잡음이 부가된 음성신호의 관측벡터를 X라 하고 H0는 음성이 없는 경우 H1는 음성이 있는 경우를 나타낸다고 하면, 음성이 없는 경우 음성신호 관측벡터의 확률은 다음 수학식 11과 같다.
Figure 112006050867613-PAT00014
여기서, 각 변수값의 정의는 다음과 같다.
μ0,i : i번째 mixture의 평균(mean)
Σ0,i : i번째 mixture의 코베리언스(covariance)
ωo,i : i번째 mixture의 웨이트(weight)
N : 총 mixture의 개수
이와 반대로 음성이 존재하는 경우 음성신호의 관측벡터의 확률은 다음 수학식 12와 같다.
Figure 112006050867613-PAT00015
여기에서 사용되는 GMM 모델들은 훈련 코퍼스(training corpus)의 음성신호들의 관측벡터들과 잡음신호들의 관측벡터들로부터 훈련을 통하여 미리 얻어진다.
음성이 존재하는 경우의 관측벡터의 확률과 음성이 존재하지 않는 경우 관측 벡터의 확률 사이의 개연성비(likelihood ratio, LR) Λ는 다음 수학식 13과 같다.
Figure 112006050867613-PAT00016
상기 수학식에 따라 구해진 개연성비(Λ)값으로 바로 입력신호가 동적 잡음인지에 대한 판단을 수행하도록 구현할 수도 있지만, 너무 변화가 큰 개연성비(Λ) 값보다는 로그 개연성비를 이용하는 것이 바람직하다. 음성이 존재하는 경우의 관측벡터의 확률과 음성이 존재하지 않는 경우 관측 벡터의 확률 사이의 로그 개연성비(log likelihood ratio) LLR는 하기 수학식 14와 같다.
Figure 112006050867613-PAT00017
이렇게 구한 LLR값은 입력신호가 동적 잡음신호인지 아닌지에 대한 판단기준으로 이용된다. 즉 LLR값이 특정 임계치 보다 높은 낮은 경우, 입력신호가 동적 잡음신호라 판단하게 된다.
상기 과정에 따라 동적 잡음으로 판단한 경우 동적 잡음의 주파수 파워를 추정하는 방법은 다음과 같다. 입력신호의 관측벡터 X가 관측된 경우 음성이 존재하지 않을 확률은 상기 구해진 개연성비(Λ)값으로 나타내면 하기 수학식 15와 같다.
Figure 112006050867613-PAT00018
여기서, q는 하기 수학식 16으로부터 구할 수 있다.
Figure 112006050867613-PAT00019
여기서, p(H1)은 어떤 프레임이 다른 부가 조건이 없는 상태에서 음성일 확률을 나타내고, p(H0)는 음성이 아닐 확률을 나타낸다.
동적 잡음의 경우 음성이 존재하는 경우의 관측벡터의 확률과 음성이 존재하지 않는 경우 관측 벡터의 확률 사이의 개연성비(likelihood ratio, LR) 값이 너무 지나치게 빠르게 변화하는 특성을 가지지 않기 위해서는 평탄화(smoothing) 과정이 필요하다. 따라서 평탄화된 개연성비(smoothed likelihood ratio, SLR)를 다음 수학식 17과 같은 과정을 통하여 구한다.
Figure 112006050867613-PAT00020
(k는 forgetting factor를 나타내고 0과 1사이의 값을 가질 수 있다.)
여기서 구해진 SLR을 이용하여 구한 입력신호의 관측벡터 Χ가 관측된 경우 음성이 존재하지 않을 확률은 다음 수학식 18과 같다.
Figure 112006050867613-PAT00021
도 2의 동적 잡음 추정부(240)는, 상기 수학식 13의 개연성비(Λ)값에 따라 동적 잡음 여부를 판단한 정보와, 상기 수학식 17에 의해 Ψ(n) 값을 잡음 특성 추정부(250)로 전달한다.
상기 잡음 특성 추정부(250)는 정적/동적의 잡음 종류와 무관하게 입력 신호에 포함된 잡음의 주파수상 전력 특성을 표시하는 잡음 전력의 주파수 스펙트럼을 추정하는 역할을 수행한다.
상기 필터 주파수특성 제어부(260)는 상기 잡음 전력의 주파수 스펙트럼을 입력받아, 동적 잡음 억제 평가(auto-regressive dynamic noise estimation)를 수행하기 위한 잡음의 주파수 파워를 구한다.
정적 잡음의 경우, 앞서 살펴본 바와 같이 상기 수학식 10에 의해 잡음 전력 스펙트럼을 추정하고, 이를 적용받는 상기 수학식 9에 의해 잡음 주파수 파워를 추정한다. 반면, 본 발명에 따른 동적 잡음의 경우 하기 수학식 19에 의해 잡음 주파수 파워를 추정하는데, 이 수학식에 대입되는 잡음 전력 스펙트럼은 하기 수학식 20에 의해 추정된다.
Figure 112006050867613-PAT00022
위에서 예상되는 잡음 전력 스펙트럼은 다음 수학식 20과 같이 추정된다.
Figure 112006050867613-PAT00023
잡음 특성 추정부(250)는 이러한 과정을 통하여 추정한 잡음의 주파수 파워와 입력 신호의 주파수 파워를 이용하여 MMSE 방식 혹은 Wiener 필터링 방법 등을 이용하여 잡음이 부가되지 않은 입력신호의 주파수 파워를 구한다. 이렇게 구한 잡음이 부가되지 않은 입력신호의 주파수 파워와 잡음의 주파수 파워를 이용하여 필터 주파수특성 제어부(260)에서 MMSE 혹은 Wiener 필터링 방법 등을 이용하여 음질향상 필터부(270)의 주파수 특성을 구할 수 있다. 입력신호에 대하여 이와 같이 주파수 특정이 조절된 음질향상 필터부(270)를 적용하면 음질이 향상된 음성신호를 구할 수 있게 된다.
도 2에 도시한 바와 같이 상기 동적 잡음 추정부(240)가 동적 잡음 추정을 수행하는데, 동적 잡음 GMM 모델을 이용하는데, 다양한 동적 잡음들을 GMM을 이용하여 모델링 하는 방법을 크게 두 가지로 나눌 수 있다. 첫번째는 각각의 동적 잡음들을 여러 개의 GMM으로 각각 나누어 모델링 하는 방법이고, 두번째는 여러 가지 동적 잡음들을 하나의 GMM으로 모델링 하는 방법이다.
첫번째 방법으로 모델링한 경우에는 상기 수학식 19 및 20에 의한 잡음 전력 스펙트럼 추정, 잡음 주파수 파워 추정 및 동적 잡음 억제 평가가 이루어진다. 이는 특정 동적 잡음에 대하여 각각의 잡음 성분을 추정하는 방식을 사용하고 특정 동적 잡음이 발생한 경우 추정된 특정 동적 잡음 성분을 이용하는 것이다.
반면, 두번째 방법으로 모델링한 경우에는 하기 수학식 21에 나타낸 바와 같은 무빙 평균(moving average)을 이용하는 방법으로 동적 잡음 억제 평가가 이루어진다.
Figure 112006050867613-PAT00024
이때, 동적 잡음 구간이 아닌 프레임은 제외하여 하기 수학식 22와 같은 무빙 평균(moving average)을 구한다.
Figure 112006050867613-PAT00025
상기 수식은 β 코렐레이션 펙터(correction factor) 이다. 실험적인 방법으로 구하고 부가된 동적 잡음의 특성과도 관련이 있다. 2의 방법은 무빙 평균(moving average)을 이용하여 동적 잡음의 시간적 변화 특성을 추정하는 방식을 사용한다.
이상, 본 발명을 바람직한 실시예를 들어 상세하게 설명하였으나, 본 발명은 상기 실시예에 한정되지 않고, 본 발명의 기술적 사상의 범위 내에서 당 분야에 서 통상의 지식을 가진 자에 의하여 여러가지 변형이 가능하다.
본 발명은 기존의 단일채널 음질향상 방법의 단점이었던 동적 잡음제거 성능을 크게 향상시킴으로써 정적 잡음 환경뿐만 아니라 동적 잡음 환경에서도 입력 음성신호의 음질을 크게 향상시킬 수 있는 효과가 있다.

Claims (7)

  1. 입력 신호의 음질을 향상시키기 위해 실시간적으로 필터링 특성이 조절되는 음질 향상 필터부;
    입력 신호를 주파수 대역상에서 분석하기 위한 주파수 스펙트럼 추정부;
    미리 설정된 정적 잡음의 주파수 특성에 따라 상기 주파수 스펙트럼 추정부의 출력 신호에서 정적 잡음의 정도를 계산하기 위한 정적 잡음 추정부;
    동적 잡음 GMM 모델에 따라 상기 주파수 스펙트럼 추정부의 출력 신호에서 동적 잡음의 정도를 계산하기 위한 동적 잡음 추정부;
    상기 정적 잡음 정도와 상기 동적 잡음 정도에 대한 정보로부터 입력 신호의 잡음 특성을 추정하기 위한 잡음 특성 추정부; 및
    상기 잡음 특성에 따라 상기 음질 향상 필터의 필터링 특성을 조절하는 필터 주파수 특성 제어부
    를 포함하는 음질 향상 시스템.
  2. 제1항에 있어서,
    상기 잡음 특성 추정부는 하기 수학식에 따라 잡음 전력의 주파수 스펙트럼을 추정하는 것을 특징으로 하는 음질 향상 시스템.
    Figure 112006050867613-PAT00026
  3. 제2항에 있어서,
    상기 필터 주파수 특성 제어부는 하기 수학식에 따라 잡음의 주파수 파워를 산출하는 것을 특징으로 하는 음질 향상 시스템.
    Figure 112006050867613-PAT00027
  4. 제2항에 있어서, 상기 수학식의 확률값들은 다음 수학식들에 따라 산출되는 것을 특징으로 하는 음질 향상 시스템.
    Figure 112006050867613-PAT00028
    Figure 112006050867613-PAT00029
  5. 제2항에 있어서, 상기 수학식의 확률값들은 다음 수학식들에 따라 산출되는 것을 특징으로 하는 음질 향상 시스템.
    Figure 112006050867613-PAT00030
    Figure 112006050867613-PAT00031
    Figure 112006050867613-PAT00032
  6. 제1항에 있어서, 상기 동적 잡음 추정부는,
    하기 수학식에 따라 구해지는 개연성비(Λ)로부터 입력신호가 동적 잡음인지에 대한 판단을 수행하는 것을 특징으로 하는 음질 향상 시스템.
    Figure 112006050867613-PAT00033
    Figure 112006050867613-PAT00034
    Figure 112006050867613-PAT00035
  7. 제6항에 있어서, 상기 동적 잡음 추정부는,
    하기 수학식에 따라 구해지는 로그 개연성비(Λ)로부터 입력신호가 동적 잡음인지에 대한 판단을 수행하는 것을 특징으로 하는 음질 향상 시스템.
    Figure 112006050867613-PAT00036
KR1020060066884A 2005-12-08 2006-07-18 Gmm을 이용한 음질향상 시스템 KR100784456B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20050119529 2005-12-08
KR1020050119529 2005-12-08

Publications (2)

Publication Number Publication Date
KR20070061216A true KR20070061216A (ko) 2007-06-13
KR100784456B1 KR100784456B1 (ko) 2007-12-11

Family

ID=38357154

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060066884A KR100784456B1 (ko) 2005-12-08 2006-07-18 Gmm을 이용한 음질향상 시스템

Country Status (1)

Country Link
KR (1) KR100784456B1 (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100853171B1 (ko) * 2007-02-28 2008-08-20 포항공과대학교 산학협력단 구속 순차 em 알고리즘을 이용한 깨끗한 음성 복원을위한 음성 강조 방법
KR100933604B1 (ko) * 2007-11-08 2009-12-23 연세대학교 산학협력단 유동적 주파수 밴드를 이용한 단채널 음질 향상 기술
WO2011041738A2 (en) * 2009-10-01 2011-04-07 Qualcomm Incorporated Suppressing noise in an audio signal
US8504362B2 (en) 2008-12-22 2013-08-06 Electronics And Telecommunications Research Institute Noise reduction for speech recognition in a moving vehicle
KR101460059B1 (ko) * 2007-12-17 2014-11-12 삼성전자주식회사 잡음 검출 방법 및 장치

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5212764A (en) * 1989-04-19 1993-05-18 Ricoh Company, Ltd. Noise eliminating apparatus and speech recognition apparatus using the same
JPH10257583A (ja) 1997-03-06 1998-09-25 Asahi Chem Ind Co Ltd 音声処理装置およびその音声処理方法
US6122610A (en) * 1998-09-23 2000-09-19 Verance Corporation Noise suppression for low bitrate speech coder
US7107210B2 (en) 2002-05-20 2006-09-12 Microsoft Corporation Method of noise reduction based on dynamic aspects of speech

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100853171B1 (ko) * 2007-02-28 2008-08-20 포항공과대학교 산학협력단 구속 순차 em 알고리즘을 이용한 깨끗한 음성 복원을위한 음성 강조 방법
KR100933604B1 (ko) * 2007-11-08 2009-12-23 연세대학교 산학협력단 유동적 주파수 밴드를 이용한 단채널 음질 향상 기술
KR101460059B1 (ko) * 2007-12-17 2014-11-12 삼성전자주식회사 잡음 검출 방법 및 장치
US8504362B2 (en) 2008-12-22 2013-08-06 Electronics And Telecommunications Research Institute Noise reduction for speech recognition in a moving vehicle
WO2011041738A2 (en) * 2009-10-01 2011-04-07 Qualcomm Incorporated Suppressing noise in an audio signal
WO2011041738A3 (en) * 2009-10-01 2011-07-14 Qualcomm Incorporated Suppressing noise in an audio signal
US8571231B2 (en) 2009-10-01 2013-10-29 Qualcomm Incorporated Suppressing noise in an audio signal

Also Published As

Publication number Publication date
KR100784456B1 (ko) 2007-12-11

Similar Documents

Publication Publication Date Title
CN109643552B (zh) 用于可变噪声状况中语音增强的鲁棒噪声估计
JP5666444B2 (ja) 特徴抽出を使用してスピーチ強調のためにオーディオ信号を処理する装置及び方法
KR100330230B1 (ko) 잡음 억제 방법 및 장치
KR101009854B1 (ko) 음성 신호의 하모닉스를 이용한 잡음 추정 방법 및 장치
Cohen et al. Spectral enhancement methods
KR101260938B1 (ko) 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체
JP5752324B2 (ja) 雑音の入った音声信号中のインパルス性干渉の単一チャネル抑制
KR101317813B1 (ko) 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체
KR100784456B1 (ko) Gmm을 이용한 음질향상 시스템
KR101335417B1 (ko) 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체
KR101295727B1 (ko) 적응적 잡음추정 장치 및 방법
Elshamy et al. An iterative speech model-based a priori SNR estimator
KR20200095370A (ko) 음성 신호에서의 마찰음의 검출
Hirsch HMM adaptation for applications in telecommunication
Tashev et al. Unified framework for single channel speech enhancement
US9875755B2 (en) Voice enhancement device and voice enhancement method
Elshamy et al. Two-stage speech enhancement with manipulation of the cepstral excitation
Rehr et al. Cepstral noise subtraction for robust automatic speech recognition
Hizlisoy et al. Noise robust speech recognition using parallel model compensation and voice activity detection methods
Seyedin et al. New features using robust MVDR spectrum of filtered autocorrelation sequence for robust speech recognition
Sunnydayal et al. Speech enhancement using sub-band wiener filter with pitch synchronous analysis
KR20040073145A (ko) 음성인식기의 성능 향상 방법
Gouda et al. Robust Automatic Speech Recognition system based on using adaptive time-frequency masking
KR100435441B1 (ko) 사용자 이동성을 고려한 화자 인식에서의 채널 불일치보상 장치 및 그 방법
Seyedin et al. A new subband-weighted MVDR-based front-end for robust speech recognition

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20111129

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee