KR101327572B1 - 음성 존재 확률을 이용한 코드북 기반 음성 향상 방법 및 그 장치 - Google Patents

음성 존재 확률을 이용한 코드북 기반 음성 향상 방법 및 그 장치 Download PDF

Info

Publication number
KR101327572B1
KR101327572B1 KR1020120006751A KR20120006751A KR101327572B1 KR 101327572 B1 KR101327572 B1 KR 101327572B1 KR 1020120006751 A KR1020120006751 A KR 1020120006751A KR 20120006751 A KR20120006751 A KR 20120006751A KR 101327572 B1 KR101327572 B1 KR 101327572B1
Authority
KR
South Korea
Prior art keywords
speech
noise
clean
voice
codebook
Prior art date
Application number
KR1020120006751A
Other languages
English (en)
Other versions
KR20130085732A (ko
Inventor
김무영
이명석
Original Assignee
세종대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 세종대학교산학협력단 filed Critical 세종대학교산학협력단
Priority to KR1020120006751A priority Critical patent/KR101327572B1/ko
Publication of KR20130085732A publication Critical patent/KR20130085732A/ko
Application granted granted Critical
Publication of KR101327572B1 publication Critical patent/KR101327572B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/028Noise substitution, i.e. substituting non-tonal spectral components by noisy source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/0308Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0002Codebook adaptations

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명은 기존의 코드북 기반의 음성 향상 방법에 음성 존재 확률을 결합하여, 입력 신호에 음성이 존재하는 구간과 존재하지 않는 구간을 나눠 모델링하고, 이 확률 모델링을 통해, 게인 산정 및 코드북 산정을 진행한다.
본 발명에 따른 음성 존재 확률을 결합한 코드북 기반 음성 향상 방법은 학습된 잡음에 대해서는 기존의 IMCRA나 CDSTP에 비해 더 좋은 성능을 보여주며 학습되지 않는 잡음에 대해서도 기존의 CDSTP에 비해 뛰어난 성능을 보여준다.

Description

음성 존재 확률을 이용한 코드북 기반 음성 향상 방법 및 그 장치{A codebook-based speech enhancement method using speech absence probability and apparatus thereof}
본 발명은 음성 신호 처리 방법 및 그 장치에 관한 것이다. 구체적으로는 코드북 기반으로 음성에 혼합되어있는 잡음을 제거하여 향상된 음성을 얻기 위한 방법 및 그 장치에 관한 것이다.
음성향상 기법은 휴대기기를 이용한 통신 및 음악정보 처리 분야는 물론이고 로봇제어를 위한 음성인식 등 다양한 분야에서 필요로 하는 기술이다. 음성향상 기법의 성능을 향상시키기 위해서는 잡음을 제거하는 기술이 중요하다.
잡음을 제거하는 기술에는 잡음으로 오염된 음성이 깨끗한 음성과 배경 잡음의 합이라는 가정에서 시작된 스펙트럼 제거(spectral subtraction; SS) 방법이 있다. 도한 잡음의 변화가 주파수 밴드 별로 독립적이라는 가정을 이용하여 성능을 개선한 MBSS(multi-bank spectral subtraction) 방법 등이 있다. 또한 잡음 추정 알고리즘은 음성 인식(voice activity detection; VAD)을 이용한 방법이나 최소 통계(Minimum statistics; MS)를 이용한 방법 등 다양한 알고리즘이 연구되어 있다. 또한 단기 예측계수 코드북 기법(Codebook Driven Short-Term Predictor parameter estimation; CDSTP)과 같은 방법은 음성과 잡음의 선형 예측 계수를 데이터베이스로 이용하고, 입력된 음성신호와의 최대 유사도(Maximum Likelihood; ML) 또는 최소 평균 제곱 오류(Minimun Mean Square Error; MMSE) 추정을 통하여 잡음을 제거하고 향상된 음성 신호를 얻는다. 이 기법은 코드북에 포함된 다양한 선형 예측 계수를 이용하기 때문에 정상(stationary) 배경 잡음 환경뿐만 아니라 비정상(non-stationary) 배경 잡음 환경에서도 뛰어난 성능을 보인다.
MS(Minimum statistics), WSA(Weighted spectral averaging), IMCRA(improce minima control recursive average) 등은 이전의 프레임의 정보를 이용하여 잡음 추정하여 급변하는 잡음환경에서 취약점을 보인다. 또한 코드북 기반의 잡음 추정방법의 경우에는 급변하는 잡음 환경에서는 강인하지만, 학습되지 않은 잡음에 대하여 취약점을 보인다.
이에 따라 급변하는 잡음환경에서도 강인하며 학습되지 않은 잡음에도 강인한 잡음 추정 알고리즘을 구현하는 개선 방법이 요구되었다.
본 발명의 목적은 급변하는 잡음 환경과 학습되지 않는 잡음에도 강인한 알고리즘을 구현하는 음성 향상 방법을 제공하는 것이다.
상기한 바와 같은 목적을 달성하기 위한 본 발명의 사상에 따르면, 음성 향상 방법은, 입력된 음성 신호를 시간 영역 신호에서 주파수 영역 신호로 변환시키는 단계, 상기 입력된 음성 신호에 대해서 클린 음성이 존재하는 구간과 클린 음성이 부존재하는 구간을 구분하는 음성 부존재 확률(SAP)에 대한 바이너리 추정 모델을 산정하는 단계, 상기 음성 신호의 잡음 코드북을 선정하는 단계, 상기 음성 신호의 클린 음성 코드북을 선정하는 단계, 상기 음성 부존재 확률을 통해 잡음의 클린 음성 부존재 시의 게인과 클린 음성 존재시의 게인을 산출하는 단계, 상기 음성 부존재 확률을 통해 클린 음성과 잡음의 스펙트럼 형태와 게인을 파라미터 세트를 정하는 단계, 상기 정해진 파리미터 세트를 이용하여 최대 유사도를 갖는 값을 파라미터 세트를 선정하는 단계, 상기 선정된 최대 유사도 값을 기초로 바이너(wiener) 필터링을 이용하여 잡음을 제거하는 단계, 및 상기 잡음이 제거된 음성 신호를 시간 영역 신호로 변환시키는 단계를 포함한다.
바람직하게는, 상기 잡음 코드북과 상기 클린 음성 코드북 선정 단계는, 상기 산정된 바이너리 추정 모델을 이용하여, 상기 입력된 음성 신호에 대해서 클린 음성이 존재하는 구간과 클린 음성이 부존재하는 구간을 구분하여, 각각 연산을 진행하여 구한다.
더욱 바람직하게는, 상기 바이너리 모델 산정 단계는, 상기 입력 음성 신호에 클린 음성이 없는 잡음만 존재하는 음성 부존재 추정 모델과, 상기 입력 음성 신호에 클린 음성과 잡음이 존재하는 음성 존재 추정 모델로 구분한다.
더욱 바람직하게는, 상기 잡음 코드북 선정 및 상기 클린 음성 코드북 선정 단계는, 원 입력된 음성 신호의 스펙트럼과 상기 잡음 코드북의 코드벡터와 상기 클린 음성 코드북의 코드벡터를 이용한 합성 신호 스펙트럼의 IS-D(Itakura-Saito Distortion) 알고리즘을 통해 선정한다.
본 발명의 다른 특징에 의하면, 잡음을 포함하는 음성 신호에서 잡음을 제거하는 음성 향상 방법은, 상기 입력된 음성 신호에 대해서 클린 음성이 존재하는 구간과 클린 음성이 부존재하는 구간을 구분하는 음성 부존재 확률(SAP)에 대한 바이너리 추정 모델을 산정하는 단계, 상기 음성 부존재 확률에 대한 바이너리 추정 모델을 기반으로 상기 음성 신호의 클린 음성 및 잡음 스펙트럼 형태를 구하는 단계, 및 상기 음성 신호에 대하여 상기 바이너리 추정 모델을 기반으로 클린 음성이 존재하는 구간과 클린 음성이 부존재하는 구간을 구분하여, 상기 클린 음성 부존재 시의 게인과 상기 클린 음성 존재시의 게인을 최대 유사도 산정을 통해 별도로 결정하는 단계를 포함한다.
일 실시예에서 상기 음성 향상 방법은, 상기 클린 음성 및 잡음의 스펙트럼 형태 및 게인들을 이용하여 CDSTP를 위한 최소 평균 제곱 오류(MMSE) 추정을 통해 잡음을 제거하는 단계를 더 포함한다.
다른 실시예에서, 상기 음성 향상 방법은, 상기 클린 음성 및 잡음의 스펙트럼 형태 및 게인들을 이용하여 상기 입력된 음성 신호와의 최대 유사도 추정을 통해 잡음을 제거하는 단계를 더 포함한다.
바람직하게는, 상기 CDSTP를 위한 최소 평균 제곱 오류 추정은 상기 입력 음성 신호와 유사한 잡음과 클린 음성의 코드북을 산정하고 상기 산정된 코드북을 이용하여 상기 클린 음성 및 잡음의 형태 및 게인을 포함하는 파라미터 세트를 산출하는 단계를 더 포함한다.
본 발명의 또 다른 특징에 의하면, 잡음을 포함하는 음성 신호에서 잡음을 제거하는 음성 향상 장치는, 상기 입력된 음성 신호에 대해서 클린 음성이 존재하는 구간과 클린 음성이 부존재하는 구간을 구분하는 음성 부존재 확률(SAP)에 대한 바이너리 추정 모델을 산정하는 SAP 모델링부, 상기 음성 부존재 확률에 대한 바이너리 추정 모델을 기반으로 상기 음성 신호의 클린 음성 및 잡음 스펙트럼 형태를 구하는 잡음 코드 벡터 및 클린 음성 코드 벡터 선정부, 및 상기 음성 신호에 대하여 상기 바이너리 추정 모델을 기반으로 클린 음성이 존재하는 구간과 클린 음성이 부존재하는 구간을 구분하여, 상기 클린 음성 부존재 시의 게인과 상기 클린 음성 존재시의 게인을 최대 유사도 산정을 통해 별도로 결정하는 게인 추정 및 최적 파라미터 선정부를 포함하며, 상기 잡음 코드 벡터 및 클린 음성 코드 벡터 선정부는, 잡음 코드 벡터 및 클린 음성 코드 벡터 선정부는 상기 클린 음성 및 잡음의 스펙트럼 형태 및 게인들을 이용하여 CDSTP를 위한 최소 평균 제곱 오류(MMSE) 추정을 통해 선정하고, 상기 게인 추정 및 최적 파라미터 선정부는, 상기 CDSTP를 위한 최소 평균 제곱 오류 추정은 상기 입력 음성 신호와 유사한 잡음과 클린 음성의 코드북을 산정하고 상기 산정된 코드북을 이용하여 상기 클린 음성 및 잡음의 형태 및 게인을 포함하는 파라미터 세트를 산출하고, 상기 잡음 코드 벡터 및 클린 음성 코드 벡터 선정부는, 상기 산정된 바이너리 추정 모델을 이용하여, 상기 입력된 음성 신호에 대해서 클린 음성이 존재하는 구간과 클린 음성이 부존재하는 구간을 구분하여, 각각 연산을 진행하여 구한다.
일 실시예에서, 상기 바이너리 모델은 하기 수학식으로 정의되며,
Figure 112012005607612-pat00001
여기서 H0 및 H1 은 각각 음성이 부존재 할 때와 음성이 존재할 때의 추정 모델이며, 추정 모델 H0 및 H1에 대한 확률 밀도 함수(PDF)는 P(H0 | y)와 P(H1 | y)로 정의되며, 상기 잡음 코드 벡터 및 클린 음성 코드 벡터 선정부는, 원 입력된 음성 신호의 스펙트럼과 상기 잡음 코드북의 코드벡터와 상기 클린 음성 코드북의 코드벡터를 이용한 합성 신호 스펙트럼의 IS-D(Itakura-Saito Distortion) 알고리즘을 통해 선정된다.
본 발명에 따른 음성 향상 방법은, 음정 존재 확률을 코드북 기반의 음성 향상 알고리즘에 적용하여 급변하는 잡음 환경에서도 강인할 뿐만 아니라 학습되지 않는 잡음에 대해서도 강인한 효과를 얻을 수 있다.
도 1은 본 발명의 실시예에 따른 음성 인식 향상 방법의 프로세스를 나타낸다.
도 2는 본 발명의 실시예에 따른 음성 인식 향상 장치의 구성을 나타낸다.
기타 실시예들의 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.
본 발명의 이점 및, 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 후술 되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
도 1은 본 발명의 실시예에 따른 음성 인식 향상 방법의 프로세스를 나타낸다.
도 1을 참조하면, 입력되는 신호는 신호 처리를 위해 신호 영역의 음성 신호를 주파수 영역의 신호로 바꾸기 위해 고속 푸리에 변환(Fast Fourier Transform; FFT)을 수행한다(S11). 입력되는 음성 신호(y)는 클린 음성(x)과 잡음(d)이 섞여서 들어온다. 그런 다음 잡음 추정 단계(S12)를 거쳐 입력된 음성 신호(x+d)에서 잡음(d)을 추정하게 된다.
한편, 잡음으로 오염된 y(n)이 클린 음성 x(n)와 잡음 d(n)의 합으로 이루어졌다고 추정하면 다음과 같이 표현할 수 있다.
Figure 112012005607612-pat00002
여기서 x(n)은 클린 음성 신호이며 d(n)은 잡음 신호이다.
이를, 주파수 파워 스펙트럼으로 보면
Figure 112012005607612-pat00003
으로 표시될 수 있다.
여기서,
Figure 112012005607612-pat00004
Figure 112012005607612-pat00005
는 각각 클린 음성 신호와 잡음 신호의 파워 스펙트럼이며, ω는 주파수 값이다.
이러한 추정에 기초하면, D(ω)가 완전하게 특정되기만 한다면 X(ω)는를 완벽하게 재구성될 수 있을 것이다. 따라서 잡음 추정은 음성 향상에 있어서 결정적인 부분이라고 할 수 있다.
잡음 추정 방법으로는 MS(Minimum statistics), WSA(Weighted spectral averaging), IMCRA(improce minima control recursive average), CDSTP(Codebook driven short-term parameter estimation) 기법 등이 있다. 이 중에서, MS, WSA, IMCRA 등은 이전의 프레임의 정보를 이용하여 잡음 추정하여 급변하는 잡음환경에서 취약점을 보인다. 이러한 문제점을 극복하기 위해 CDSTP 가 제안되었는데, CDSTP는 이전의 프레임으로부터 이전 정보를 이용하지 않고 음성 및 잡음 코드북들에 기초하여 잡음 스펙트럼을 추정한다.
CDSTP 알고리즘은 음성과 잡음의 스펙트럼을 LPC(Linear predictive coding) 계수로 표현하고, 대표적인 스펙트럼 형태(shape) 들을 LPC 형태로 코드북에 저장한다. 이후 최대 유사도 추정(maximum-likelihood estimates) 방식을 사용하여 음성과 잡음의 코드북 파라미터와 각각의 게인 값을 추정하여 잡음을 추정하는 알고리즘이다.
그러나 CDSTP의 잡음 추정 성능은 코드북 형태에 상당한 영향을 받는다. 만일 입력된 신호가 사전에 학습된 코드북에 정의된 잡은 신호에 의해 오염된 신호라면 CDSTP 는 MS, WSA 및 IMCRA 보다 훨씬 뛰어난 성능을 보여준다. 그러나 현실 세계에서 잡음의 형태에 대한 경우의 수는 무한대라고 볼 수 있기에 모든 종류에 대한 잡음 코드북을 갖는 것은 불가능하다고 볼 수 있을 것이다. 또한 코드북에 대한 수가 증가하게 되면 메모리 요구량도 증가하게 되는 문제점도 발생된다.
따라서 본 발명에서는 음성 부재 확률(SAP; speech absence probability)를 이용한 CDSTP 알고리즘을 제한한다.
CDSTP 에서는 음성고 잡음 스펙트럼 형태(shape) 코드북에서 음성과 잡음 형태 코드벡터 후보를 선정하여 likelihood(유사도) 값을 계산하게 되고, likelihood 값을 최소화하는 코드북 엔트리와 게인(gain)을 추정하여 최종적으로 바이너 필터(Wiener filter) 계수로 사용하게 된다. CDSTP 에서는 Itakura-Saito distortion(IS-D)을 이용하여 음성과 잡음에 대한 적절한 코드벡터를 찾는다. 그리고 프레임마다 이와 같은 과정의 반복을 통해서 파라미터들을 측정하게 된다.
CDSTP에서 사용하는 파라미터는 LPC 계수와 게인(gain)이다. 잡음과 음성 형태(shape) 코드벡터에 따른 게인 추정은 non-stationanry 배경잡음 추정에 중요한 역할을 한다.
한편, 음성신호 y(n)는 효율적인 음성 코딩을 위해 사람의 vocal tract 필터를 선형 예측 코딩(Linear Predictive Coding; LPC)계수에 의해 모델링 된다(S14). 보다 나은 LPC계수의 코딩을 위해 선형 스펙트럼 주파수(Line Spectral Frequency; LSF)가 제안되었는데, 음성의 각 프레임은 올-폴(all-pole) 필터,
Figure 112012005607612-pat00006
로써 일반화 될 수 있다. 여기서
Figure 112012005607612-pat00007
는 LPC로 구성된 인버스 필터이고, 그 값은 Z-변환(Z-transform)을 이용하여 나타낸다.
Figure 112012005607612-pat00008
여기서
Figure 112012005607612-pat00009
는 LPC 차수이고,
Figure 112012005607612-pat00010
는 LPC 계수이다. LSF를 정의하기 위해 inverse 필터는 2개의 다항식으로 나타낼 수 있다.
Figure 112012005607612-pat00011
Figure 112012005607612-pat00012
는 인버스 필터의 짝수 항이고,
Figure 112012005607612-pat00013
는 홀수 항을 나타낸다. 코딩을 위해 이용되는 LSF계수는 이
Figure 112012005607612-pat00014
Figure 112012005607612-pat00015
의 근을 말한다. (2)번식으로 구한 LSF는 오름차순으로 정렬된다. 그 성질은 효율적인 LSF계산을 도와주기 때문에, 압축 효율을 높힐 수 있게 된다. 그 결과 입력된 음성 신호를 하나의 프레임이 M 개의 선형 스펙트럼 주파수로 이루어진 선형 스펙트럼 주파수를 얻을 수 있다.
도 1을 참조하면, 음성과 잡음의 형태 코드 벡터를 통해 게인 값을 구하고, IS-D를 이용하여 최적의 파라미터를 찾는 과정을 나타낸다. 잡음으로 오염된 입력신호의 스펙트럼과 코드북에 저장되어 있는 정보들을 이용해 클린 음성과 잡음의 형태와 게인을 측정한다.
본 발명의 일 실시예에서는 잡음 코드북 데이터베이스에 있는 잡음 코드북들을 이용하여 잡음 코드북을 선정하는 데(S13), 본 발명의 일 실시에에서는 IS-D 알고리즘을 이용하여 잡음 코드북을 선정한다.
IS-D를 이용한 방법에서 잡음신호의 코드북 타입의 선정은 다음의 식에 의해 이루어진다.
Figure 112012005607612-pat00016
Figure 112012005607612-pat00017
는 MS(minimum statistics) 등의 잡음 추정 기법으로 예측한 잡음신호 샘플벡터이며,
Figure 112012005607612-pat00018
은 n 번째 잡음 코드북의 j 번째 샘플 벡터, Sn은 n 번째 코드북의 크기, N은 잡음 코드북의 수를 나타낸다.
수학식 5에 의해 선정된 잡음신호 코드북과 음성신호 코드북의 조합을 이용하여 IS-D(Itakura-Saito Distortion)를 최소화하는 파라미터를 찾는다. 그리고 잡음 제거를 위해 바이너 필터(Wiener filter) 를 만들 때에 이 파라미터들이 사용되며 이 바이너 필터링(Wiener filtering) 과정을 거쳐 음성 향상을 이룰 수 있다.
이와 같은 방법은 잡음 코드북의 i 번째 코드 벡터를 변경해 가변서 최대 유사도 값을 갖는 잡음 코드 벡터를 찾게 된다. 마찬가지로 IS-D 알고리즘을 통해 클린 음성의 코드북에서 클린 음성 코드 벡터를 찾는다(S15).
클린 음성과 잡음 코드북에서 각각 i 번째 음성(클린 음성) 코드 벡터
Figure 112012005607612-pat00019
와 j 번째 잡음 벡터
Figure 112012005607612-pat00020
를 선택하는 과정을 나타내면 다음 수학식과 같다.
Figure 112012005607612-pat00021
여기서
Figure 112012005607612-pat00022
Figure 112012005607612-pat00023
는 음성과 잡음의 excitation variance를 나타낸다. 위 수학식의 확률밀도함수(PDF)
Figure 112012005607612-pat00024
가 가우시안이라 가정하고 유사도(likelihood) 값을 로그 도메인에서 표현하면 다음 수학식으로 표현될 수 있다.
Figure 112012005607612-pat00025
여기서
Figure 112012005607612-pat00026
는 입력신호의 스펙트럼
Figure 112012005607612-pat00027
는 i 번째 음성 코드벡터의 스펙트럼,
Figure 112012005607612-pat00028
는 j 번째 잡음 코드벡터의 스펙트럼이다.
위 두 수학식을 결합하면 다음과 같은 수학식으로 나타낼 수 있다.
Figure 112012005607612-pat00029
여기서
Figure 112012005607612-pat00030
는 음성과 잡음 코드벡터를 통해 표현한 스펙트럼으로
Figure 112012005607612-pat00031
와 같이 표현할 수 있다.
Figure 112012005607612-pat00032
는 원신호와 합성신호 스펙트럼의 IS-D(Itakura-Saito Distortion)을 의미하며, 아래 수학식 9와 같이 표현할 수 있다.
Figure 112012005607612-pat00033
일반적인 CDSTP에서 게인은 위 수학식 8을 최소화하는 과정에서 구할 수 있을 것이다. 그리고
Figure 112012005607612-pat00034
와 같이, 최적의 LPC와 게인이 선택되었다면, 아래 수학식 10과 같은 Wiener filter(바이너 필터)를 구현하여 잡음 제거에 적용할 수 있을 것이다.
Figure 112012005607612-pat00035
그러나 본 발명의 음성 향상 방법은 음성 부존재 확률을 이용하여 잡음의 게인을 산정하는데, 음성 부존재 확률(SAP)을 이용하기 위해, 본 발명에서는 음성이 존재하지 않는 묵음 구간과 음성이 존재하는 구간을 나누어 음성 부존재 확률에 대한 아래와 같은 수학식의 바이너리 추정 모델을 구한다(S16).
Figure 112012005607612-pat00036
여기서 H0 및 H1 은 각각 음성이 부존재 할 때와 음성이 존재할 때의 추정 모델이다. 즉, H0 는 잡음(D)만이 존재하는 경우이며, H1 은 클린 음성(X)과 잡음(D)이 혼합된 경우이다. 입력된 음성의 묵음 구간에서의 H0 의 확률 즉 P(H0) 는 1이 되고 H1 의 확률 즉 P(H1) 는 0이 되며, 음성이 존재하는 구간에서의 H1 의 확률 즉 P(H1) 는 1이 되고 H0 의 확률 즉 P(H0) 는 0이 된다. 그리고 P(H0) + P(H1) 는 언제나 1의 값을 갖게 된다.
주어진 잡음 관측 입력 신호 y에 대해 추정 모델 H에 대한 확률 밀도 함수(PDF)는 P(H | y)로 정의된다. 바람직한 실시예에서, P(H | y)는 MS, WSA, IMCRA 등과 같은 종래의 잡음 추정 알고리즘을 통해 계산된 이전 및 그 이전 SNR 값을 이용하여 추정한다. 즉, 본 SAP를 이용한 발명에서는, 2개의 추정 모델 H0 및 H1에 대한 확률 밀도 함수(PDF)를 P(H0 | y)와 P(H1 | y)로 정의하며, P(H0 | y)와 P(H1 | y)는 종래의 잡음 추정 알고리즘을 통해 계산된 이전 및 상기 이전의 이전 SNR 값을 이용하여 추정하게 된다.
그리고 CDSTP를 위한 SAP 기반 최소 평균 제곱 오류(Minimum Mean Square Error; MMSE) 추정은 다음 수학식으로 정의된다.
Figure 112012005607612-pat00037
여기서
Figure 112012005607612-pat00038
이며, 주어진 모델 H의 파라미터 세트(θ)이다. 그리고
Figure 112012005607612-pat00039
Figure 112012005607612-pat00040
는 각각 클린 음성 및 잡음의 스펙트럼 형태의 항을 의미하며,
Figure 112012005607612-pat00041
Figure 112012005607612-pat00042
는 각각 클린 음성과 잡음의 게인의 항을 나타낸다. 위 수학식에서 알 수 있는 바와 같이, 본 발명에 따른 SAP 기반 CDSTP 에서는 클린 음성이 존재하는 구간(H1)과 클린 음성이 부존재하는 묵음 구간(H0)을 구분하여 각각 연산을 별도로 진행한다.
이때, 클린 음성 및 잡음의 스펙트럼 형태(shape)는 각각 다음의 수학식과 같이 P차 및 Q차 LPC 파리미터들에 의해 나타내진다.
Figure 112012005607612-pat00043
Figure 112012005607612-pat00044
그리고 대응되는 스펙트럼은 각각 다음의 수학식으로 나태내질 수 있다.
Figure 112012005607612-pat00045
Figure 112012005607612-pat00046
그리고
Figure 112012005607612-pat00047
,
Figure 112012005607612-pat00048
및 잡음 섞은 음성 y 가 주어진 경우, 클린 음성과 잡음의 게인(gain) 항들(
Figure 112012005607612-pat00049
,
Figure 112012005607612-pat00050
)은 아래의 수학의 최대 유사도(ML; Maximum Likelihood) 산정을 통해 결정될 수 있다(S17).
Figure 112012005607612-pat00051
여기서
Figure 112012005607612-pat00052
여기서
Figure 112012005607612-pat00053
이다.
즉 위 수학식에서 최대 값을 갖는
Figure 112012005607612-pat00054
Figure 112012005607612-pat00055
가 각각 클린 음성 및 잡음의 게인 (
Figure 112012005607612-pat00056
,
Figure 112012005607612-pat00057
)이 된다.
위 수학식에서 알 수 있는 바와 같이, 게인은 클린 음성이 부존재할 때의 게인(
Figure 112012005607612-pat00058
,
Figure 112012005607612-pat00059
)과 클린 음성이 존재할 때의 게인(
Figure 112012005607612-pat00060
,
Figure 112012005607612-pat00061
)을 구분하여 산출한다.
한편, 수학식 1, 2에서 클린 음성과 잡음이 서로 독립적인 것이라고 가정하는데, 이 경우 클린 음성 및 잡음의 스펙트럼 형태와 게인의 항들도 서로 독립적인 것이라고 한다면,
Figure 112012005607612-pat00062
와 같은 확률식이 도달될 수 있다.
그러면, 수학식 12의 SAP 기반 최소 평균 제곱 오류(Minimum Mean Square Error; MMSE) 추정식은 다음 식과 같이 변형될 수 있다.
Figure 112012005607612-pat00063
여기서
Figure 112012005607612-pat00064
는 델타 함수이다.
또한 게인 항들은 주어진 형태 항들에 의해 결정되기 때문에, 수학식 17은 다음과 같이 바뀔 수 있다.
Figure 112012005607612-pat00065
이때,
Figure 112012005607612-pat00066
여기서
Figure 112012005607612-pat00067
이다.
수학식 18에서의 적분은 아래의 수학식에 나타낸 수치 적분을 통해 계산될 수 있다.
Figure 112012005607612-pat00068
이때,
Figure 112012005607612-pat00069
여기서,
Figure 112012005607612-pat00070
이다.
여기서 C 와
Figure 112012005607612-pat00071
는 각각 임의 상수와 Itakura-Saito distortion 측정 값이다. 클린 음성과 잡음의 스펙트럼 형태를 표현하기 위해 2개의 독립적인 LPC 코드북들이 학습된다(S13, S15). Nx 및 Nd 는 클린 음성과 잡음의 코드벡터이다.
i 번째 클린 음성 및 j 번째 잡음의 코드벡터들,
Figure 112012005607612-pat00072
Figure 112012005607612-pat00073
의 주어진 조합들에 대해서, 대응하는 게인 항들인,
Figure 112012005607612-pat00074
Figure 112012005607612-pat00075
는 수학식 15를 통해 얻어진다. 그 결과 i 번째 클린 음성 및 j 번째 잡음에 대한 파라미터 세트인
Figure 112012005607612-pat00076
를 얻을 수 있다.
이를 간략히 하기 위해, i 번째 클린 음성 및 j 번째 잡음에 대한 파라미터 세트
Figure 112012005607612-pat00077
의 각 성분들의 확률 밀도 함수(PDF)는 고르게 분포되어 있다고 가정한다. 이 경우, 수학식 19에서 분자와 분모 사이의 항들이 상쇄되기 때문에 각 확률 밀도 함수의 간격은 특정될 필요가 없다.
수학식 19에서 최적의 최소 평균 제곱 오류(MMSE) 추정 값이
Figure 112012005607612-pat00078
로 계산되면, 음성 향상을 위해 다음과 바이너 필터(wiener filter) 과정을 거친다(S18).
Figure 112012005607612-pat00079
여기서
Figure 112012005607612-pat00080
Figure 112012005607612-pat00081
는 각각 추정된 파라미터 세트 클린 음성과 잡음의 형태인
Figure 112012005607612-pat00082
Figure 112012005607612-pat00083
에 의해 구현된 LPC 스펙트럼이다.
위와 같은 바이너 필터링을 통해 잡음은 제거되고 클린 음성만 남게 되어 음성이 향상되게 된다. 그런 다음 필터링된 신호를 주파수 영역에서 시간 영역으로 변환시키는 단계를 거치게 된다(S19).
아울러, 본 발명의 상세한 설명에서는 입력된 음성에서 잡음을 제거하여 음성을 향상시키는 방법을 설명하였지만, 본 발명은 잡음 제거 방법뿐만 아니라 본 방법을 적용한 잡음 제거 장치도 포함한다.
도 2는 본 발명의 실시예에 따른 음성 인식 향상 장치의 구성을 나타낸다.
도 2를 참조하면 음성 인식 향상 장치(20)는 FFT부(21), 잡음 추정부(22), 잡음 코드벡터 선정부(23), 잡음 코드 데이터베이스(24), 클린 음성 코드벡터 선정부(25), 클린 음성 코드 데이터베이스(26), 게인 추정 및 최적 파라미터 선정부(27), LPC부(28), SAP 모델링부(29), wiener filtering 부(30) 및 IFFT부(31)를 포함한다. FFT부(21)는 입력되는 신호의 신호 처리를 위해 신호 영역의 음성 신호를 주파수 영역의 신호로 바꾸는 고속 푸리에 변환(Fast Fourier Transform; FFT)을 수행을 하며, 잡음 추정부(22)는 입력된 음성 신호(x+d)에서 잡음(d)을 추정하는 기능을 하고, 잡음 코드 벡터 선정부(23)와 클린 음성 코드 벡터 선정부(25)는 음성 부존재 확률에 대한 바이너리 추정 모델을 기반으로 상기 음성 신호의 클린 음성 및 잡음 스펙트럼 형태를 구하는 기능을 하며, 잡음 코드 데이터베이스(24)와 클린 음성 코드 데이터베이스(26)는 각각 잡음 코드와 클린 음성 코드를 저장한다. 게인 추정 및 최적 파라미터 선정부(27)는 음성 신호에 대하여 상기 바이너리 추정 모델을 기반으로 클린 음성이 존재하는 구간과 클린 음성이 부존재하는 구간을 구분하여, 상기 클린 음성 부존재 시의 게인과 상기 클린 음성 존재시의 게인을 최대 유사도 산정을 통해 별도로 결정하며, 입력 음성 신호와 유사한 잡음과 클린 음성의 코드북을 산정하여 클린 음성 및 잡음의 형태 및 게인을 포함하는 파라미터 세트를 산출하는 기능을 한다. LPC부(28)는 음성과 잡음의 스펙트럼을 LPC(Linear predictive coding) 계수로 표현하고, 대표적인 스펙트럼 형태(shape) 들을 LPC 형태로 만드는 기능을 수행하며, SAP 모델링부(29)는 입력된 음성 신호에 대해서 클린 음성이 존재하는 구간과 클린 음성이 부존재하는 구간을 구분하는 음성 부존재 확률(SAP)에 대한 바이너리 추정 모델을 산정하는 기능을 한다. 또한 Wiener filtering 부(30)는 클린 음성 및 잡음의 스펙트럼 형태 및 게인들을 이용하여 입력된 음성 신호와의 최대 유사도 추정을 통해 잡음을 Wiener filtering 알고리즘을 통해 제거하는 기능을 하며, IFFT부(31)는 주파수 영역의 신호를 시간 영역의 신호로 바꾸기 위해 역 고속 푸리에 변환을 수행한다.
각 구성요소에 대한 구체적인 기능은 도 1의 음성 향상 알고리즘에서 설명한 바와 같아 반복되는 설명은 생략한다.
본 발명에 따른 음성 향상 시스템의 성능을 알아보기 위해 기존의 IMCRA와 CDSTP 와 본 발명에 따른 SAP-CDSTP를 이용한 잡음 추정 알고리즘을 다양한 잡음 환경에서의 LSD(log-specral distortion) 과 SSNR(Signal Seperation and Noise Reduction) 값을 비교한 결과는 다음과 같다.
Figure 112012005607612-pat00084
위의 표 1을 살펴보면, 내부 잡음 환경에는 NOISEX-92 데이터베이스 중 핑크 잡음, 화이트 잡음, babble(와글와글) 잡음, F16 잡음, 공장2 잡음에서 테스트하였고, 외부 잡음 환경에는 NOISEX-92 데이터베이스와 AURORA2 데이터베이스 중 공장 1, buccaneer 1 잡음, 자동차 잡음, 거리 잡음, 식당 잡음에서 테스트 하였다.
테스트 결과, 본 발명에 따른 SAP를 이용한 CDSTP 잡음 추정 알고리즘을 이용한 음성 향상 방법은 기존의 IMCRA 나 CDSTP 잡음 추정 방법에 비해 훨씬 낮은 LSD값을 가졌고, SSNR 성능도 본 발명에 따른 방법이 기존의 IMCRA 나 CDSTP 방법에 비해 더 뛰어난 성능을 가지고 있음이 확인되었다.
한편, 외부 잡음 환경에서 기존의 CDSTP 의 경우는 제한된 잡음 코드벡터들의 한계로 인해, IMCRA 보다 못한 성능을 갖지만, 본 발명에 따른 SAP를 결합한 CDSTP 잡음 추정 방법을 통한 음성 향상 방법은 IMCRA보다 동등하거나 더 좋은 성능을 가짐을 확인할 수 있다. 따라서 본 발명에 따른 음성 향상 방법은 급변하는 잡음 환경뿐만 아니라 학습되지 않는 잡음에 대해서도 강인한 효과를 갖는다.
본 발명은 첨부된 도면에 도시된 실시예를 참고하여 설명되었으나, 이는 예시적인 것에 불과하며, 본 발명과 관련된 기술 분야에서의 통상적인 지식을 가진 자라면, 이로부터 다양한 변형 또는 균등한 타 실시예가 존재 가능하다는 점을 이해할 것이다.
따라서 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.

Claims (16)

  1. 잡음을 포함하는 음성 신호에서 잡음을 제거하는 음성 향상 방법에 있어서,
    입력된 음성 신호를 시간 영역 신호에서 주파수 영역 신호로 변환시키는 단계;
    상기 입력된 음성 신호에 대해서 클린 음성이 존재하는 구간과 클린 음성이 부존재하는 구간을 구분하는 음성 부존재 확률(SAP)에 대한 바이너리 추정 모델을 산정하는 단계;
    상기 음성 신호의 잡음 코드북을 선정하는 단계;
    상기 음성 신호의 클린 음성 코드북을 선정하는 단계;
    상기 음성 부존재 확률을 통해 잡음의 클린 음성 부존재시의 게인과 클린 음성 존재시의 게인을 산출하는 단계;
    상기 음성 부존재 확률을 통해 클린 음성과 잡음의 스펙트럼 형태와 게인을 포함하는 파라미터 세트를 정하는 단계;
    상기 정해진 파라미터 세트를 이용하여 최대 유사도를 갖는 파라미터 세트를 선정하는 단계;
    상기 선정된 최대 유사도 값을 기초로 바이너(wiener) 필터링을 이용하여 잡음을 제거하는 단계; 및
    상기 잡음이 제거된 음성 신호를 시간 영역 신호로 변환시키는 단계; 를 포함하고,
    상기 잡음 코드북과 상기 클린 음성 코드북 선정 단계는, 상기 산정된 바이너리 추정 모델을 이용하여, 상기 입력된 음성 신호에 대해서 클린 음성이 존재하는 구간과 클린 음성이 부존재하는 구간을 구분하여, 각각 연산을 진행하여 구하며,
    상기 바이너리 모델 산정 단계는, 상기 입력된 음성 신호에 클린 음성이 없는 잡음만 존재하는 음성 부존재 추정 모델과, 상기 입력된 음성 신호에 클린 음성과 잡음이 존재하는 음성 존재 추정 모델로 구분되며,
    상기 바이너리 모델은 하기 수학식으로 정의되며,
    Figure 112013051708593-pat00199

    여기서 H0 및 H1 은 각각 음성이 부존재 할 때와 음성이 존재할 때의 추정 모델이며, 추정 모델 H0 및 H1에 대한 확률 밀도 함수(PDF)는 P(H0 | y)와 P(H1 | y)로 정의되고,
    상기 P(H0 | y)와 P(H1 | y)는 MS, WSA, IMCRA 를 포함하는 잡음 추정 알고리즘 중 어느 한 알고리즘을 통해 계산된 이전 및 상기 이전의 이전 SNR 값을 이용하여 추정하는 것을 특징으로 하는 음성 향상 방법.
  2. 삭제
  3. 제 1 항에 있어서,
    상기 잡음 코드북 선정 및 상기 클린 음성 코드북 선정 단계는, 원 입력된 음성 신호의 스펙트럼과 상기 잡음 코드북의 코드벡터와 상기 클린 음성 코드북의 코드벡터를 이용한 합성 신호 스펙트럼의 IS-D(Itakura-Saito Distortion) 알고리즘을 통해 선정하는 것을 특징으로 하는 음성 향상 방법.
  4. 제 1 항에 있어서,
    상기 잡음 코드북 선정 및 상기 클린 음성 코드북 선정 단계는, 상기 음성 부존재 확률(SAP) 아래 수학식의 기반 최소 평균 제곱 오류(Minimum Mean Square Error; MMSE) 추정 방법을 통해 선정하며,
    Figure 112013051708593-pat00200

    여기서
    Figure 112013051708593-pat00201
    이며, 주어진 모델 H의 파라미터 세트(θ)이고
    Figure 112013051708593-pat00202
    Figure 112013051708593-pat00203
    는 각각 클린 음성 및 잡음의 스펙트럼 형태의 항을 의미하며,
    Figure 112013051708593-pat00204
    Figure 112013051708593-pat00205
    는 각각 클린 음성과 잡음의 게인의 항이며
    상기 파라미터 세트는,
    Figure 112013051708593-pat00206
    로 표현되며, 상기 클린 음성 및 잡음의 스펙트럼 형태는
    Figure 112013051708593-pat00207

    Figure 112013051708593-pat00208

    로 표현되며,
    상기 클린 음성과 잡음의 게인(gain) 항들(
    Figure 112013051708593-pat00209
    ,
    Figure 112013051708593-pat00210
    )은, 2개의 추정 모델 H0 및 H1에 대해 각각,
    Figure 112013051708593-pat00211

    여기서
    Figure 112013051708593-pat00212

    여기서
    Figure 112013051708593-pat00213

    의 수학식을 통해 산정되며 상기 수학식에서 최대값을 갖는
    Figure 112013051708593-pat00214
    Figure 112013051708593-pat00215
    가 각각 클린 음성 및 잡음의 게인 (
    Figure 112013051708593-pat00216
    ,
    Figure 112013051708593-pat00217
    )이 되고,
    상기 정해진 파라미터 세트를 이용하여 최대 유사도를 갖는 값을 파라미터 세트를 선정하는 단계는, 최소 평균 제곱 오류 산정에 대한 아래 수학식을 통해 선정되며,
    Figure 112013051708593-pat00218

    이때,
    Figure 112013051708593-pat00219

    여기서,
    Figure 112013051708593-pat00220
    이고,
    상기 최소 평균 제곱 오류 산정을 통해 얻은 추정 값이 파라미터 세트
    Figure 112013051708593-pat00221
    로 계산되는 경우, 바이너(wiener) 필터링 단계는, 하기 수학식을 통해 수행되며,
    Figure 112013051708593-pat00222

    여기서
    Figure 112013051708593-pat00223
    Figure 112013051708593-pat00224
    는 각각 추정된 파라미터 세트의 클린 음성과 잡음의 형태(
    Figure 112013051708593-pat00225
    Figure 112013051708593-pat00226
    )에 의해 구성된 LPC 스펙트럼인 것을 특징으로 하는 음성 향상 방법.
  5. 잡음을 포함하는 음성 신호에서 잡음을 제거하는 음성 향상 방법에 있어서,
    입력된 음성 신호에 대해서 클린 음성이 존재하는 구간과 클린 음성이 부존재하는 구간을 구분하는 음성 부존재 확률(SAP)에 대한 바이너리 추정 모델을 산정하는 단계;
    상기 음성 부존재 확률에 대한 바이너리 추정 모델을 기반으로 상기 음성 신호의 클린 음성 및 잡음 스펙트럼 형태를 구하는 단계; 및
    상기 음성 신호에 대하여 상기 바이너리 추정 모델을 기반으로 클린 음성이 존재하는 구간과 클린 음성이 부존재하는 구간을 구분하여, 상기 클린 음성 부존재 시의 게인과 상기 클린 음성 존재시의 게인을 최대 유사도 산정을 통해 별도로 결정하는 단계;
    상기 클린 음성 및 잡음의 스펙트럼 형태 및 게인들을 이용하여 CDSTP를 위한 최소 평균 제곱 오류(MMSE) 추정을 통해 잡음을 제거하는 단계;
    상기 CDSTP를 위한 최소 평균 제곱 오류 추정은 상기 입력된 음성 신호와 유사한 잡음과 클린 음성의 코드북을 산정하고 상기 산정된 코드북을 이용하여 상기 클린 음성 및 잡음의 형태 및 게인을 포함하는 파라미터 세트를 산출하는 단계;를 포함하며,
    상기 잡음 코드북과 상기 클린 음성 코드북 선정 단계는, 상기 산정된 바이너리 추정 모델을 이용하여, 상기 입력된 음성 신호에 대해서 클린 음성이 존재하는 구간과 클린 음성이 부존재하는 구간을 구분하여, 각각 연산을 진행하여 구하며,
    상기 바이너리 모델은 하기 수학식으로 정의되며,
    Figure 112013051708593-pat00227

    여기서 H0 및 H1 은 각각 음성이 부존재 할 때와 음성이 존재할 때의 추정 모델이며, 추정 모델 H0 및 H1에 대한 확률 밀도 함수(PDF)는 P(H0 | y)와 P(H1 | y)로 정의되고,
    상기 잡음 코드북 선정 및 상기 클린 음성 코드북 선정 단계는, 원 입력된 음성 신호의 스펙트럼과 상기 잡음 코드북의 코드벡터와 상기 클린 음성 코드북의 코드벡터를 이용한 합성 신호 스펙트럼의 IS-D(Itakura-Saito Distortion) 알고리즘을 통해 선정하는 것을 특징으로 하는 음성 향상 방법.
  6. 삭제
  7. 제 5 항에 있어서,
    상기 잡음 코드북 선정 및 상기 클린 음성 코드북 선정 단계는, 상기 음성 부존재 확률(SAP) 아래 수학식의 기반 최소 평균 제곱 오류(Minimum Mean Square Error; MMSE) 추정 방법을 통해 선정하며,
    Figure 112013051708593-pat00228

    여기서
    Figure 112013051708593-pat00229
    이며, 주어진 모델 H의 파라미터 세트(θ)이고
    Figure 112013051708593-pat00230
    Figure 112013051708593-pat00231
    는 각각 클린 음성 및 잡음의 스펙트럼 형태의 항을 의미하며,
    Figure 112013051708593-pat00232
    Figure 112013051708593-pat00233
    는 각각 클린 음성과 잡음의 게인의 항이고,
    상기 파라미터 세트는,
    Figure 112013051708593-pat00234
    로 표현되며, 상기 클린 음성 및 잡음의 스펙트럼 형태는
    Figure 112013051708593-pat00235

    Figure 112013051708593-pat00236

    로 표현되는 것을 특징으로 하는 음성 향상 방법.
  8. 제 7 항에 있어서,
    상기 클린 음성과 잡음의 게인(gain) 항들(
    Figure 112013051708593-pat00237
    ,
    Figure 112013051708593-pat00238
    )은, 2개의 추정 모델 H0 및 H1에 대해 각각,
    Figure 112013051708593-pat00239

    여기서
    Figure 112013051708593-pat00240

    여기서
    Figure 112013051708593-pat00241

    의 수학식을 통해 산정되며 상기 수학식에서 최대값을 갖는
    Figure 112013051708593-pat00242
    Figure 112013051708593-pat00243
    가 각각 클린 음성 및 잡음의 게인 (
    Figure 112013051708593-pat00244
    ,
    Figure 112013051708593-pat00245
    )이 되고,
    상기 정해진 파라미터 세트를 이용하여 최대 유사도를 갖는 파라미터 세트를 선정하는 단계는, 최소 평균 제곱 오류 산정에 대한 아래 수학식을 통해 선정되며,
    Figure 112013051708593-pat00246

    이때,
    Figure 112013051708593-pat00247

    여기서,
    Figure 112013051708593-pat00248
    이고,
    상기 최소 평균 제곱 오류 산정을 통해 얻은 추정 값이 파라미터 세트
    Figure 112013051708593-pat00249
    로 계산되는 경우, 바이너(wiener) 필터링 단계는, 하기 수학식을 통해 수행되며,
    Figure 112013051708593-pat00250

    여기서
    Figure 112013051708593-pat00251
    Figure 112013051708593-pat00252
    는 각각 추정된 파라미터 세트의 클린 음성과 잡음의 형태(
    Figure 112013051708593-pat00253
    Figure 112013051708593-pat00254
    )에 의해 구성된 LPC 스펙트럼인 것을 특징으로 하는 음성 향상 방법.
  9. 잡음을 포함하는 음성 신호에서 잡음을 제거하는 음성 향상 장치에 있어서,
    입력된 음성 신호를 시간 영역 신호에서 주파수 영역 신호로 변환시키는 FFT 부;
    상기 입력된 음성 신호에 대해서 클린 음성이 존재하는 구간과 클린 음성이 부존재하는 구간을 구분하는 음성 부존재 확률(SAP)에 대한 바이너리 추정 모델을 산정하는 SAP 모델링부;
    상기 음성 신호의 잡음 코드북을 선정하는 잡음 코드 벡터 선정부;
    상기 음성 신호의 클린 음성 코드북을 선정하는 클린 음성 코드 벡터 선정부;
    상기 음성 부존재 확률을 통해 잡음의 클린 음성 부존재 시의 게인과 클린 음성 존재시의 게인을 산출하고, 상기 음성 부존재 확률을 통해 클린 음성과 잡음의 스펙트럼 형태와 게인을 파라미터 세트를 정하고 이중 최대 유사도를 갖는 파라미터 세트 값을 선정하는 게인 추정 및 최적 파라미터 선정부;
    상기 선정된 최대 유사도 값을 기초로 바이너(wiener) 필터링을 이용하여 잡음을 제거하는 바이너 필터링부; 및
    상기 잡음이 제거된 음성 신호를 시간 영역 신호로 변환시키는 IFFT부;
    를 포함하고,
    상기 잡음 코드 벡터 선정부와 상기 클린 음성 코드 벡터 선정부는, 상기 산정된 바이너리 추정 모델을 이용하여, 상기 입력된 음성 신호에 대해서 클린 음성이 존재하는 구간과 클린 음성이 부존재하는 구간을 구분하여, 각각 연산을 진행하여 구하며,
    상기 SAP 모델링부는, 상기 입력된 음성 신호에 클린 음성이 없는 잡음만 존재하는 음성 부존재 추정 모델과, 상기 입력된 음성 신호에 클린 음성과 잡음이 존재하는 음성 존재 추정 모델로 구분하며,
    상기 바이너리 모델은 하기 수학식으로 정의되며,
    Figure 112013051708593-pat00255

    여기서 H0 및 H1 은 각각 음성이 부존재 할 때와 음성이 존재할 때의 추정 모델이며, 추정 모델 H0 및 H1에 대한 확률 밀도 함수(PDF)는 P(H0 | y)와 P(H1 | y)로 정의되고,
    상기 P(H0 | y)와 P(H1 | y)는 MS, WSA, IMCRA 를 포함하는 잡음 추정 알고리즘 중 어느 한 알고리즘을 통해 계산된 이전 및 상기 이전의 이전 SNR 값을 이용하여 추정하는 것을 특징으로 하는 음성 향상 장치.
  10. 삭제
  11. 제 9 항에 있어서,
    상기 잡음 코드 벡터 선정부 및 상기 클린 음성 코드 벡터 선정부는, 원 입력된 음성 신호의 스펙트럼과 상기 잡음 코드북의 코드벡터와 상기 클린 음성 코드북의 코드벡터를 이용한 합성 신호 스펙트럼의 IS-D(Itakura-Saito Distortion) 알고리즘을 통해 선정하는 것을 특징으로 하는 음성 향상 장치.
  12. 제 9 항에 있어서,
    상기 잡음 코드 벡터 선정부 및 상기 클린 음성 코드 벡터 선정부는, 상기 음성 부존재 확률(SAP) 아래 수학식의 기반 최소 평균 제곱 오류(Minimum Mean Square Error; MMSE) 추정 장치를 통해 선정하며,
    Figure 112013051708593-pat00256

    여기서
    Figure 112013051708593-pat00257
    이며, 주어진 모델 H의 파라미터 세트(θ)이고
    Figure 112013051708593-pat00258
    Figure 112013051708593-pat00259
    는 각각 클린 음성 및 잡음의 스펙트럼 형태의 항을 의미하며,
    Figure 112013051708593-pat00260
    Figure 112013051708593-pat00261
    는 각각 클린 음성과 잡음의 게인의 항이며,
    상기 파라미터 세트는,
    Figure 112013051708593-pat00262
    로 표현되며, 상기 클린 음성 및 잡음의 스펙트럼 형태는
    Figure 112013051708593-pat00263

    Figure 112013051708593-pat00264

    로 표현되며,
    상기 클린 음성과 잡음의 게인(gain) 항들(
    Figure 112013051708593-pat00265
    ,
    Figure 112013051708593-pat00266
    )은, 2개의 추정 모델 H0 및 H1에 대해 각각,
    Figure 112013051708593-pat00267

    여기서
    Figure 112013051708593-pat00268

    여기서
    Figure 112013051708593-pat00269

    의 수학식을 통해 산정되며 상기 수학식에서 최대값을 갖는
    Figure 112013051708593-pat00270
    Figure 112013051708593-pat00271
    가 각각 클린 음성 및 잡음의 게인 (
    Figure 112013051708593-pat00272
    ,
    Figure 112013051708593-pat00273
    )이 되고,
    상기 게인 추정 및 최적 파라미터 선정부는, 최소 평균 제곱 오류 산정에 대한 아래 수학식을 통해 선정되며,
    Figure 112013051708593-pat00274

    이때,
    Figure 112013051708593-pat00275

    여기서,
    Figure 112013051708593-pat00276
    이고,
    상기 최소 평균 제곱 오류 산정을 통해 얻은 추정 값이 파라미터 세트
    Figure 112013051708593-pat00277
    로 계산되는 경우, 상기 바이너 필터링부는, 하기 수학식을 통해 수행되며,
    Figure 112013051708593-pat00278

    여기서
    Figure 112013051708593-pat00279
    Figure 112013051708593-pat00280
    는 각각 추정된 파라미터 세트의 클린 음성과 잡음의 형태(
    Figure 112013051708593-pat00281
    Figure 112013051708593-pat00282
    )에 의해 구성된 LPC 스펙트럼인 것을 특징으로 하는 음성 향상 장치.
  13. 잡음을 포함하는 음성 신호에서 잡음을 제거하는 음성 향상 장치에 있어서,
    입력된 음성 신호에 대해서 클린 음성이 존재하는 구간과 클린 음성이 부존재하는 구간을 구분하는 음성 부존재 확률(SAP)에 대한 바이너리 추정 모델을 산정하는 SAP 모델링부;
    상기 음성 부존재 확률에 대한 바이너리 추정 모델을 기반으로 상기 음성 신호의 클린 음성 및 잡음 스펙트럼 형태를 구하는 잡음 코드 벡터 및 클린 음성 코드 벡터 선정부; 및
    상기 음성 신호에 대하여 상기 바이너리 추정 모델을 기반으로 클린 음성이 존재하는 구간과 클린 음성이 부존재하는 구간을 구분하여, 상기 클린 음성 부존재 시의 게인과 상기 클린 음성 존재시의 게인을 최대 유사도 산정을 통해 별도로 결정하는 게인 추정 및 최적 파라미터 선정부를 포함하며,
    상기 잡음 코드 벡터 및 클린 음성 코드 벡터 선정부는,
    잡음 코드 벡터 및 클린 음성 코드 벡터 선정부는 상기 클린 음성 및 잡음의 스펙트럼 형태 및 게인들을 이용하여 CDSTP를 위한 최소 평균 제곱 오류(MMSE) 추정을 통해 선정하고, 상기 산정된 바이너리 추정 모델을 이용하여, 상기 입력된 음성 신호에 대해서 클린 음성이 존재하는 구간과 클린 음성이 부존재하는 구간을 구분하여, 각각 연산을 진행하여 구하고
    상기 게인 추정 및 최적 파라미터 선정부는, 상기 CDSTP를 위한 최소 평균 제곱 오류 추정은 상기 입력된 음성 신호와 유사한 잡음과 클린 음성의 코드북을 산정하고 상기 산정된 코드북을 이용하여 상기 클린 음성 및 잡음의 형태 및 게인을 포함하는 파라미터 세트를 산출하며,
    상기 바이너리 모델은 하기 수학식으로 정의되며,
    Figure 112013051708593-pat00283

    여기서 H0 및 H1 은 각각 음성이 부존재 할 때와 음성이 존재할 때의 추정 모델이며, 추정 모델 H0 및 H1에 대한 확률 밀도 함수(PDF)는 P(H0 | y)와 P(H1 | y)로 정의되며,
    상기 잡음 코드 벡터 및 클린 음성 코드 벡터 선정부는, 원 입력된 음성 신호의 스펙트럼과 상기 잡음 코드북의 코드벡터와 상기 클린 음성 코드북의 코드벡터를 이용한 합성 신호 스펙트럼의 IS-D(Itakura-Saito Distortion) 알고리즘을 통해 선정하는 것을 특징으로 하는 음성 향상 장치.
  14. 삭제
  15. 제 13 항에 있어서,
    상기 잡음 코드 벡터 및 클린 음성 코드 벡터 선정부는, 상기 음성 부존재 확률(SAP) 아래 수학식의 기반 최소 평균 제곱 오류(Minimum Mean Square Error; MMSE) 추정 장치를 통해 선정하며,
    Figure 112013051708593-pat00284

    여기서
    Figure 112013051708593-pat00285
    이며, 주어진 모델 H의 파라미터 세트(θ)이고
    Figure 112013051708593-pat00286
    Figure 112013051708593-pat00287
    는 각각 클린 음성 및 잡음의 스펙트럼 형태의 항을 의미하며,
    Figure 112013051708593-pat00288
    Figure 112013051708593-pat00289
    는 각각 클린 음성과 잡음의 게인의 항인 것을 특징으로 하는 음성 향상 장치.
  16. 제 15 항에 있어서,
    상기 파라미터 세트는,
    Figure 112013051708593-pat00290
    로 표현되며, 상기 클린 음성 및 잡음의 스펙트럼 형태는
    Figure 112013051708593-pat00291

    Figure 112013051708593-pat00292

    로 표현되고,
    상기 클린 음성과 잡음의 게인(gain) 항들(
    Figure 112013051708593-pat00293
    ,
    Figure 112013051708593-pat00294
    )은, 2개의 추정 모델 H0 및 H1에 대해 각각,
    Figure 112013051708593-pat00295

    여기서
    Figure 112013051708593-pat00296

    여기서
    Figure 112013051708593-pat00297

    의 수학식을 통해 산정되며 상기 수학식에서 최대값을 갖는
    Figure 112013051708593-pat00298
    Figure 112013051708593-pat00299
    가 각각 클린 음성 및 잡음의 게인 (
    Figure 112013051708593-pat00300
    ,
    Figure 112013051708593-pat00301
    )이 되며,
    상기 게인 추정 및 최적 파라미터 선정부는, 최소 평균 제곱 오류 산정에 대한 아래 수학식을 통해 상기 정해진 파라미터 세트를 이용하여 최대 유사도를 갖는 파라미터 세트를 선정하며,
    Figure 112013051708593-pat00302

    이때,
    Figure 112013051708593-pat00303

    여기서,
    Figure 112013051708593-pat00304
    이고,
    상기 최소 평균 제곱 오류 산정을 통해 얻은 추정 값이 파라미터 세트
    Figure 112013051708593-pat00305
    로 계산되는 경우, 바이너 필터링부는, 하기 수학식을 통해 수행되며,
    Figure 112013051708593-pat00306

    여기서
    Figure 112013051708593-pat00307
    Figure 112013051708593-pat00308
    는 각각 추정된 파라미터 세트의 클린 음성과 잡음의 형태(
    Figure 112013051708593-pat00309
    Figure 112013051708593-pat00310
    )에 의해 구성된 LPC 스펙트럼인 것을 특징으로 하는 음성 향상 장치.
KR1020120006751A 2012-01-20 2012-01-20 음성 존재 확률을 이용한 코드북 기반 음성 향상 방법 및 그 장치 KR101327572B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020120006751A KR101327572B1 (ko) 2012-01-20 2012-01-20 음성 존재 확률을 이용한 코드북 기반 음성 향상 방법 및 그 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120006751A KR101327572B1 (ko) 2012-01-20 2012-01-20 음성 존재 확률을 이용한 코드북 기반 음성 향상 방법 및 그 장치

Publications (2)

Publication Number Publication Date
KR20130085732A KR20130085732A (ko) 2013-07-30
KR101327572B1 true KR101327572B1 (ko) 2013-11-28

Family

ID=48995840

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120006751A KR101327572B1 (ko) 2012-01-20 2012-01-20 음성 존재 확률을 이용한 코드북 기반 음성 향상 방법 및 그 장치

Country Status (1)

Country Link
KR (1) KR101327572B1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101475617B1 (ko) * 2013-08-05 2014-12-30 세종대학교산학협력단 코드북 기반 음성 향상 장치 및 그 방법
KR101943582B1 (ko) * 2017-04-25 2019-01-29 연세대학교 산학협력단 음향 신호 강조 방법
CN111477243B (zh) * 2020-04-16 2023-05-23 维沃移动通信有限公司 音频信号处理方法及电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
IEEE TRANSACTIONS ON AUDIO, S *
SIGNAL PROCESSING 81 (2001) 2403-2418 *

Also Published As

Publication number Publication date
KR20130085732A (ko) 2013-07-30

Similar Documents

Publication Publication Date Title
CN107004409B (zh) 利用运行范围归一化的神经网络语音活动检测
Hu et al. A perceptually motivated approach for speech enhancement
CN109378013B (zh) 一种语音降噪方法
JP4818335B2 (ja) 信号帯域拡張装置
US10403298B2 (en) Concept for encoding of information
JP2002023800A (ja) マルチモード音声符号化装置及び復号化装置
KR101892733B1 (ko) 켑스트럼 특징벡터에 기반한 음성인식 장치 및 방법
CN105489226A (zh) 一种用于拾音器的多窗谱估计的维纳滤波语音增强方法
Giacobello et al. Enhancing sparsity in linear prediction of speech by iteratively reweighted 1-norm minimization
KR101327572B1 (ko) 음성 존재 확률을 이용한 코드북 기반 음성 향상 방법 및 그 장치
CN110797039B (zh) 语音处理方法、装置、终端及介质
JP2016143042A (ja) 雑音除去装置及び雑音除去プログラム
KR101802444B1 (ko) 독립 벡터 분석 및 반향 필터 재추정을 이용한 베이시안 특징 향상에 의한 강인한 음성 인식 장치 및 방법
JP6404780B2 (ja) ウィナーフィルタ設計装置、音強調装置、音響特徴量選択装置、これらの方法及びプログラム
JP2006215228A (ja) 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体
Graf et al. Improved performance measures for voice activity detection
Kuropatwinski et al. Estimation of the short-term predictor parameters of speech under noisy conditions
Le et al. Harmonic enhancement using learnable comb filter for light-weight full-band speech enhancement model
JP4362072B2 (ja) 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体
McCallum et al. Joint stochastic-deterministic wiener filtering with recursive Bayesian estimation of deterministic speech.
Cui et al. Linear Prediction-based Part-defined Auto-encoder Used for Speech Enhancement
Hasan et al. An efficient pitch estimation method using windowless and normalized autocorrelation functions in noisy environments
Das et al. Spectral Envelope Statistics for Source Modeling in Speech Enhancement
KR101284507B1 (ko) 가우시안 혼합 모듈을 이용한 코드북 기반 음성 향상 방법 및 그 장치
Sfeclis et al. Investigating Imaginary Mask Estimation in Complex Masking for Speech Enhancement

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20161101

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20171027

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee