KR20080105334A - 복소 라플라시안 확률 밀도 함수를 이용한 음성 향상 방법 - Google Patents

복소 라플라시안 확률 밀도 함수를 이용한 음성 향상 방법 Download PDF

Info

Publication number
KR20080105334A
KR20080105334A KR1020070052793A KR20070052793A KR20080105334A KR 20080105334 A KR20080105334 A KR 20080105334A KR 1020070052793 A KR1020070052793 A KR 1020070052793A KR 20070052793 A KR20070052793 A KR 20070052793A KR 20080105334 A KR20080105334 A KR 20080105334A
Authority
KR
South Korea
Prior art keywords
noise
speech
gsap
density function
probability density
Prior art date
Application number
KR1020070052793A
Other languages
English (en)
Inventor
장준혁
박윤식
조규행
Original Assignee
인하대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인하대학교 산학협력단 filed Critical 인하대학교 산학협력단
Priority to KR1020070052793A priority Critical patent/KR20080105334A/ko
Publication of KR20080105334A publication Critical patent/KR20080105334A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

본 발명은 복소 라플라시안 확률 밀도 함수를 이용한 음성 향상 방법에 관한 것으로서, 보다 구체적으로는 (1) 깨끗한 음성 및 잡음 신호의 분포가 복소 라플라시안 확률 밀도 함수(PDF)를 따른다고 가정하고, 전역 음성 부재 확률(Global Speech Absence Probability; GSAP)을 구하는 제1 단계와, (2) 상기 제1 단계에서 구한 상기 GSAP를 이용하여 잡음 스펙트럼을 추정하는 제2 단계와, (3) 상기 제1 단계에서 구한 상기 GSAP 및 상기 제2 단계에서 추정한 상기 잡음 스펙트럼을 이용하여 잡음 제거 이득을 수정하는 제3 단계와, (4) 상기 제2 단계에서 추정한 상기 잡음 스펙트럼 및 상기 제3 단계에서 수정한 상기 잡음 제거 이득을 이용하여 잡음이 섞인 음성의 음질을 향상시키는 제4 단계를 포함하는 것을 그 구성상의 특징으로 한다.
본 발명의 음성 향상 방법에 따르면, 복소 라플라시안 PDF를 소프트 디시전 방법과 접목시킴으로써, 즉 깨끗한 음성 및 잡음 신호의 분포가 복소 라플라시안 PDF를 따른다고 가정하고 전역 음성 부재 확률(GSAP)을 구한 후, 이를 이용하여 잡음 스펙트럼을 추정하고 잡음 제거 이득을 수정함으로써 잡음이 섞인 음성의 품질을 크게 향상시킬 수 있다.
음성 향상, 복소 라플라시안, 가우시안, 전역 음성 부재 확률(Global Speech Absence Probability; GSAP), 잡음 스펙트럼 추정, 잡음 제거 이득 수정, 누적 분포 함수(CDF), 소프트 디시전, 하드 디시전

Description

복소 라플라시안 확률 밀도 함수를 이용한 음성 향상 방법{A NOISY SPEECH ENHANCEMENT METHOD USING DETECTING METHOD USING A COMPLEX LAPLACIAN PROBABILITY DENSITY FUNCTION}
도 1은 가정 H1(음성 존재)의 경우에 오염된 음성 스펙트럼(실수부)에 대한 가우시안 및 라플라시안 누적 분포 함수를 실험적 누적 분포 함수와 비교하여 나타내는 도면으로서, 도 1a는 백색 잡음이 SNR = 10dB로 부가된 경우를 나타내고, 도 1b는 차량 잡음이 SNR = 10dB로 부가된 경우를 나타내는 도면.
<도면 중 주요 부분에 대한 부호의 설명>
Laplacian : 라플라시안 CDF
Gaussian : 가우시안 CDF
empirical CDF : 실험적 CDF
본 발명은 음성 향상 방법에 관한 것으로서, 특히 복소 라플라시안 확률 밀 도 함수를 이용한 음성 향상 방법에 관한 것이다.
음성 향상 방법은 가변 전송률의 음성 부호화나 자동 음성 인식에서 중요한 요소이다. 최근에는 소프트 디시전(soft decision)이 적용된 잡음 제거 이득이, 초기의 음성 검출기(Voice Activity Detector; VAD)에 의해 각 프레임을 음성/비음성 구분하는 하드 디시전(hard decision)보다 향상된 성능을 보이는 것으로 나타나면서 음성 향상 방법에 소프트 디시전을 적용하여 음성 향상 방법의 성능을 개선하려는 많은 시도가 이루어지고 있다.
또한, 이산 푸리에 변환(Discrete Fourier Transform; DFT)은 오염된 음성 향상을 위해 가장 널리 사용되고 있는 방법으로서, 깨끗한 음성과 잡음 스펙트럼이 복소 가우시안(Complex Gaussian) 확률 밀도 함수(Probability Density Function; PDF)를 따른다고 가정하고 있다. 하지만, 최근의 연구결과에 따르면, 깨끗한 음성과 잡음의 DFT 계수는 가우시안 PDF보다 감마 (Gamma) PDF와 라플라시안(Laplacian) PDF에 의해 보다 정확하게 표현될 수 있다고 확인되고 있으며, 그 결과 복소 라플라시안 PDF는 다양한 잡음 환경에서 VAD를 위해 잡음으로 오염된 음성에 대한 DFT 계수의 PDF로서 사용되고 있다.
이와 같은 연구 결과들을 고려해 볼 때, 복소 라플라시안 PDF를 소프트 디시전 방법과 접목하여 이용함으로써 잡음이 섞인 음성의 품질 향상을 시도해 볼 필요가 있다.
본 발명은, 상기와 같은 필요성의 인식에서 비롯된 것으로서, 복소 라플라시 안 PDF를 소프트 디시전 방법과 접목시킴으로써, 즉 깨끗한 음성 및 잡음 신호의 분포가 복소 라플라시안 PDF를 따른다고 가정하고 전역 음성 부재 확률(Global Speech Absence Probability; GSAP)을 구한 후, 이를 이용하여 잡음 스펙트럼을 추정하고 잡음 제거 이득을 수정함으로써 잡음이 섞인 음성의 품질을 향상시킬 수 있는 음성 향상 방법을 제안하는 것을 그 목적으로 한다.
상기한 목적을 달성하기 위한 본 발명의 특징에 따른, 음성 향상 방법은,
(1) 깨끗한 음성 및 잡음 신호의 분포가 복소 라플라시안 확률 밀도 함수(Probability Density Function; PDF)를 따른다고 가정하고, 전역 음성 부재 확률(Global Speech Absence Probability; GSAP)을 구하는 제1 단계;
(2) 상기 제1 단계에서 구한 상기 GSAP를 이용하여 잡음 스펙트럼을 추정하는 제2 단계;
(3) 상기 제1 단계에서 구한 상기 GSAP 및 상기 제2 단계에서 추정한 상기 잡음 스펙트럼을 이용하여 잡음 제거 이득을 수정하는 제3 단계;
(4) 상기 제2 단계에서 추정한 상기 잡음 스펙트럼 및 상기 제3 단계에서 수정한 상기 잡음 제거 이득을 이용하여 잡음이 섞인 음성의 음질을 향상시키는 제4 단계를 포함하는 것을 그 구성상의 특징으로 한다.
바람직하게는, 상기 제1 단계에서, 상기 GSAP(
Figure 112007039799536-PAT00001
)는 다음과 같은 수학식을 이용하여 구할 수 있다.
Figure 112007039799536-PAT00002
여기서,
Figure 112007039799536-PAT00003
이고,
Figure 112007039799536-PAT00004
는 k번째 주파수 성분의 우도비로서, 아래 수학식과 같이 주어진다.
Figure 112007039799536-PAT00005
여기서,
Figure 112007039799536-PAT00006
로서 정의된다.
이하에서는 본 발명의 실시예를 도면을 참조하여 상세히 설명한다.
본 발명의 상세한 설명에서는, 먼저 음성의 통계적 분석을 통해 오염된 음성의 DFT 계수가 가우시안 분포보다는 라플라시안 분포에 의해 보다 정확하게 표현될 수 있다는 것을 확인한 후, 이에 기초하여 복소 라플라시안 PDF와 소프트 디시전을 접목한 본 발명에 따른 음성 향상 방법을 상세히 설명하기로 한다.
1. 오염된 음성의 통계적 분석
잡음신호 n이 깨끗한 음성신호 s에 인가되어 만들어진 오염된 음성신호 x에 대하여, 음성과 비음성일 때의 각각의 가정을 다음 수학식 1과 같이 표현할 수 있다.
Figure 112007039799536-PAT00007
Figure 112007039799536-PAT00008
Figure 112007039799536-PAT00009
,
Figure 112007039799536-PAT00010
는 각각 오염된 음성과 잡음, 깨끗한 음성신호의 DFT 계수를 의미한다.
계수의 통계적 모델은 적절한 DFT 계수 분포를 명시해 줌으로써 이용될 수 있다. 본 발명에서는 DFT 계수의 분포를 위해 서로 다른 두 개의 PDF를 비교하여 보았다. 먼저, 음성 분석에서 DFT 계수의 분포를 나타내기 위해 가장 많이 사용되는 복소 가우시안 PDF가 선택되었다.
음성 향상을 위한 적절한 통계적 모델을 적용하기 위해서는 주어진 오염된 음성 스펙트럼에 가장 가까운 모델을 선택해야 한다. 이를 위해, 다양한 잡음 조건 하에서 가정 H0과 H1에 따라 오염된 음성 스펙트럼의 통계적 적합도 테스트가 수행되었다. 적합도 테스트로서는, 일련의 깨끗한 음성 분포로부터 최소 평균 제곱 오차 추정치를 구하는 방법 대신에, 일반적으로 GOF로 알려진 Kolmogorov-Smirnov(KS) 테스트를 선택하여 각각의 가정 하에서 신뢰할 수 있는 분석을 도출하 였다.
Figure 112007039799536-PAT00011
가 오염된 음성의 DFT 계수를 나타내는 벡터라면, KS 테스트는 실험적 누적 분포 함수(Cumulative Distribution Function; CDF) FX를 주어진 분포 함수 F와 비교한다. 실험적 CDF는 다음 수학식 2와 같이 정의된다.
Figure 112007039799536-PAT00012
여기서, X(n)(n = 0, …, N-1)는 데이터 X의 차수 통계이다. 차수 통계를 구하기 위해 X의 성분들을 분류 배열하면, X(0)는 가장 작고 X(N-1)는 가장 큰 성분이 된다. 잡음 환경의 시뮬레이션을 위해 각각 서로 다른 4명의 남성 및 여성으로부터 추출한 64초의 깨끗한 음성 데이터에 NOISEX-92 데이터베이스의 백색 잡음(white noise)과 차량 잡음(vehicle noise)을 신호 대 잡음비(Signal-to-Noise Ratio; SNR) 10 dB로 부가하였다. 이러한 샘플 데이터를 기반으로 샘플의 평균, 분산을 계산하여 라플라시안과 가우시안 분포에 각각 적용하였다. 도 1은 가정 H1(음성 존재)의 경우에 오염된 음성 스펙트럼(실수부)에 대한 가우시안 및 라플라시안 누적 분포 함수를 실험적 누적 분포 함수와 비교하여 나타내는 도면으로서, 도 1a는 백색 잡음이 SNR = 10dB로 부가된 경우를 나타내고, 도 1b는 차량 잡음이 SNR = 10dB로 부가된 경우를 나타낸다. 도 1을 통하여, 백색 잡음이 부가된 경우 및 차량 잡음이 부가된 경우 모두에 있어서 라플라시안 CDF 곡선이 가우시안 CDF 곡선보다 실험적 CDF에 더 근접하다는 것을 분명하게 확인할 수 있다.
실험적 CDF와 제시된 분포간의 거리 측정을 위해, 다음 수학식 3과 같이 정의되는 KS 통계 T를 사용하였다.
Figure 112007039799536-PAT00013
여기서, 거리는 샘플 포인트 Xi에서 평가된 FX( )와 F( ) 사이의 최대 차이를 의미하며, 여러 분포에 대한 데이터를 테스트할 때, 가장 작은 T를 만드는 PDF가 주어진 데이터에 가장 적합한 분포를 의미한다.
잡음의 유형 백색 차량 배블
SNR(dB) 5 10 15 5 10 15 5 10 15
H1 가우시안: 실수부 0.043 0.078 0.129 0.211 0.223 0.231 0.129 0.165 0.198
라플라시안: 실수부 0.031 0.025 0.068 0.164 0.177 0.186 0.071 0.107 0.145
가우시안: 허수부 0.044 0.081 0.134 0.214 0.225 0.232 0.142 0.173 0.203
라플라시안: 실수부 0.028 0.026 0.073 0.164 0.178 0.187 0.080 0.116 0.149
H0 가우시안: 실수부 0.045 0.052 0.063 0.238 0.270 0.311 0.149 0.127 0.136
라플라시안: 실수부 0.024 0.024 0.023 0.189 0.237 0.277 0.088 0.067 0.078
가우시안: 허수부 0.051 0.059 0.071 0.243 0.275 0.325 0.153 0.127 0.134
라플라시안: 실수부 0.019 0.016 0.021 0.243 0.237 0.278 0.093 0.067 0.075
표 1은 다양한 잡음 환경 하에서 오염된 음성의 DFT 계수에 대한 KS 테스트 비교 결과를 나타내고 있다. 표 1로부터, 테스트에 사용된 모든 잡음 환경에서 라플라시안 분포가 가우시안 분포보다 작은 KS 통계 T를 갖는다는 것을 확인할 수 있다. 그러므로 오염된 음성의 DFT 계수에 대한 PDF로서는, 가우시안 PDF보다는 라플라시안 PDF가 더 적합하다는 결론을 내릴 수 있다.
2. 복소 라플라시안 PDF 를 이용한 음성 향상 방법
(1) 전역 음성 부재 확률
Xk (R)과 Xk (I)을 각각 DFT 계수 Xk의 실수부와 허수부라고 정의하면, 복소 라플라시안 PDF에 따라 Xk (R)과 Xk (I)는 다음 수학식 4와 같은 분포를 갖는다고 가정할 수 있다.
Figure 112007039799536-PAT00014
여기서,
Figure 112007039799536-PAT00015
는 Xk의 분산이고, Xk의 실수부와 허수부가 서로 독립이라고 가정하면 p(Xk)는 다음 수학식 5와 같다.
Figure 112007039799536-PAT00016
실수부와 허수부가 독립이라는 가정을 증명하기 위해, DFT 계수의 실수부와 허수부에 대해 산점도(scatter plots)를 평가하면, 실수부와 허수부의 상관관계는 약하고 독립이라는 가정에 의해 발생되는 에러는 무시할 수 있을 정도로 작다는 결론을 내릴 수 있다.
상기 수학식 5에서 오염된 음성의 DFT 계수 분포는 다음 수학식 6과 같이 음 성이 존재하는 H0의 경우와 음성이 존재하지 않는 H1의 경우로 표현된다.
Figure 112007039799536-PAT00017
여기서,
Figure 112007039799536-PAT00018
Figure 112007039799536-PAT00019
는 각각 Nk와 Sk의 분산을 의미한다.
입력 신호 X(t)에 대한 전역 음성 부재 확률(GSAP)은 다음 수학식 7과 같이 계산될 수 있다.
Figure 112007039799536-PAT00020
여기서,
Figure 112007039799536-PAT00021
는 음성 부재에 대한 사전확률(a priori probability)이다.
각 주파수의 스펙트럼 성분은 통계적으로 독립이라고 가정했기 때문에, 상기 수학식 7은 다음 수학식 8과 같이 표현될 수 있다.
Figure 112007039799536-PAT00022
여기서,
Figure 112007039799536-PAT00023
이고,
Figure 112007039799536-PAT00024
는 k번째 주파수 성분의 우도비로서, 다음 수학식 9와 같다.
Figure 112007039799536-PAT00025
여기서,
Figure 112007039799536-PAT00026
이다.
(2) GSAP를 이용하여 추정된 잡음과 음성의 전력
상기 수학식 8의 전역 소프트 디시전(global soft decision)의 성능 향상 여부에는, 일반적으로 깨끗한 음성 전력
Figure 112007039799536-PAT00027
와 배경 잡음 전력
Figure 112007039799536-PAT00028
의 정확한 추정이 중요한 요소로 작용한다. 대체적으로 N(t)과 X(t)가 정상 상태라는 가정 하에
Figure 112007039799536-PAT00029
Figure 112007039799536-PAT00030
을 추정하기 위해 이와 같은 전력 스펙트럼에 long-term smoothing을 적용한다. 따라서
Figure 112007039799536-PAT00031
Figure 112007039799536-PAT00032
의 추정치
Figure 112007039799536-PAT00033
Figure 112007039799536-PAT00034
는 다음 수학식 10과 같다.
Figure 112007039799536-PAT00035
여기서,
Figure 112007039799536-PAT00036
Figure 112007039799536-PAT00037
는 스무딩 파라미터이다.
상기 수학식 10은,
Figure 112007039799536-PAT00038
Figure 112007039799536-PAT00039
가 입력신호 X(t)에 의존하지 않는 일종의 관련된 파라미터에 의한 예측된 추정치라는 것을 내포하고 있다. 상기 수학식 10의 X(t)와 N(t)에 적용한 통계적 가정에 기초하면, 다음 수학식 11을 같이 도출할 수 있다.
Figure 112007039799536-PAT00040
여기서, 다음 수학식 12가 성립된다.
Figure 112007039799536-PAT00041
여기서,
Figure 112007039799536-PAT00042
로서 정의된다.
상기 수학식 12는, 잡음 전력 스펙트럼의 추정치가 비음성 구간뿐만 아니라 음성 구간에서도 갱신되는 특징을 보여 주고 있다. 이것은, 일반적으로 비음성 구간에서만 잡음 전력을 갱신해주는 기존의 방법과는 구별되는 점이다. 그러나 부정확한 잡음 전력이 음성의 왜곡을 크게 발생시킬 수 있기 때문에, 음성 부재 확률(SAP)이 임계값 pth보다 클 경우에만
Figure 112007039799536-PAT00043
을 갱신하도록 하였다. 본 발명의 일 실시예에서는 pth = 0.7로 설정하였다.
(3) GSAP를 이용하여 수정된 잡음 제거 이득
Figure 112007039799536-PAT00044
는 t번째 프레임에서 추정된 깨끗한 음성의 스펙트럼을 의미한다. 기존의 일반적인 스펙트럼 향상 기법은, 오염된 음성신호의 각각의 스펙트럼 성분에 특정 잡음 제거 이득을 적용함으로써 추정된 깨끗한 음성 신호
Figure 112007039799536-PAT00045
을 얻었다. 본 발명에서는, 잡음 제거 이득을 구하는 여러 방법들 중에서 음성 향상 후 음질을 저해하는 뮤지컬 잡음을 제거하는데 우수한 성능을 보이는, 다음 수학식 13과 같은 Ephraim과 Malah에 의해 제안된 EMSR(Ephraim and Malah Suppression Rule)을 선택하였다.
Figure 112007039799536-PAT00046
여기서,
Figure 112007039799536-PAT00047
Figure 112007039799536-PAT00048
는 각각 선행 SNR(a priori SNR)과 사후 SNR(a posteriori SNR)을 나타내며, 잡음 제거 이득 G( )는 다음 수학식 14와 같다.
Figure 112007039799536-PAT00049
여기서, M[ ]은 다음 수학식 15와 같다.
Figure 112007039799536-PAT00050
상기 수학식 15에서 I0, I1은 각각 0차, 1차 수정 베셀(modified Bessel) 함수를 의미한다. EMSR에서 지배적 파라미터로 사용되는 선행 SNR을 추정하는 decision-directed 방법은 뮤지컬 잡음을 제거하는데 우수한 성능을 가지고 있다.
Figure 112007039799536-PAT00051
Figure 112007039799536-PAT00052
의 추정치
Figure 112007039799536-PAT00053
Figure 112007039799536-PAT00054
를 decision-directed 방법을 이용하여 구하면 다음 수학식 16과 같다.
Figure 112007039799536-PAT00055
여기서,
Figure 112007039799536-PAT00056
는 가중치 파라미터이고, P[x]는
Figure 112007039799536-PAT00057
이고,
Figure 112007039799536-PAT00058
을 의미하는 연산자이다.
상기 수학식 13에서 입력된 오염 음성의 스펙트럼에서 잡음이 제거된 스펙트럼 추정치
Figure 112007039799536-PAT00059
는, 음성/비음성의 경우를 고려한 소프트 디시전을 적용하면 다음 수학식 17과 같이 나타낼 수 있다.
Figure 112007039799536-PAT00060
상기 수학식 17을 이용하여, 기존의 수학식 13의 잡음 제거 이득을 수정하면 소프트 디시전이 적용된 잡음 제거 이득
Figure 112007039799536-PAT00061
는 다음 수학식 18과 같다.
Figure 112007039799536-PAT00062
3. 실험 결과
본 발명에서 제안한 복소 라플라시안 PDF 기반의 소프트 디시전이 적용된 음성 향상 방법의 성능을 평가하기 위해, 다양한 잡음 조건 하에서 객관적인 테스트를 수행하였다. 각각 5명의 남성과 여성 화자가 발음하도록 한 10개의 문장이 테스트에 사용되었으며, NOISEX-92 데이터베이스의 백색 잡음, 배블 잡음, 차량 잡음이 다양한 SNR로 깨끗한 음성에 부가되었다.
잡음의 유형 방법 SNR(dB)
5 10 15
백색 잡음 음성 향상 비적용 1.50 1.80 2.61
기존의 방법 1.71 1.85 2.81
제안된 방법 1.81 1.90 2.87
차량 잡음 음성 향상 비적용 2.37 2.50 2.64
기존의 방법 2.60 2.65 2.81
제안된 방법 2.68 2.71 2.84
배블 잡음 음성 향상 비적용 1.81 2.03 2.21
기존의 방법 1.97 2.22 2.36
제안된 방법 2.09 2.30 2.44
표 2는 본 발명에서 제안된 음성 향상 방법(제안된 방법)과 기존의 음성 향상 방법(기존의 방법)의 PESQ 수치를 비교한 표이다. 표 2의 결과로부터, 대부분의 잡음 환경에서 본 발명에서 제안된 음성 향상 방법이 기존의 음성 향상 방법보다 향상된 결과를 보인다는 것을 분명하게 확인할 수 있다.
이상 설명한 본 발명은 본 발명이 속한 기술분야에서 통상의 지식을 가진 자에 의하여 다양한 변형이나 응용이 가능하며, 본 발명에 따른 기술적 사상의 범위는 아래의 특허청구범위에 의하여 정해져야 할 것이다.
본 발명의 음성 향상 방법에 따르면, 복소 라플라시안 PDF를 소프트 디시전 방법과 접목시킴으로써, 즉 깨끗한 음성 및 잡음 신호의 분포가 복소 라플라시안 PDF를 따른다고 가정하고 전역 음성 부재 확률(GSAP)을 구한 후, 이를 이용하여 잡음 스펙트럼을 추정하고 잡음 제거 이득을 수정함으로써 잡음이 섞인 음성의 품질을 크게 향상시킬 수 있다.

Claims (2)

  1. (1) 깨끗한 음성 및 잡음 신호의 분포가 복소 라플라시안 확률 밀도 함수(Probability Density Function; PDF)를 따른다고 가정하고, 전역 음성 부재 확률(Global Speech Absence Probability; GSAP)을 구하는 제1 단계;
    (2) 상기 제1 단계에서 구한 상기 GSAP를 이용하여 잡음 스펙트럼을 추정하는 제2 단계;
    (3) 상기 제1 단계에서 구한 상기 GSAP 및 상기 제2 단계에서 추정한 상기 잡음 스펙트럼을 이용하여 잡음 제거 이득을 수정하는 제3 단계;
    (4) 상기 제2 단계에서 추정한 상기 잡음 스펙트럼 및 상기 제3 단계에서 수정한 상기 잡음 제거 이득을 이용하여 잡음이 섞인 음성의 음질을 향상시키는 제4 단계
    를 포함하는 음성 향상 방법.
  2. 제1항에 있어서,
    상기 제1 단계에서, 상기 GSAP(
    Figure 112007039799536-PAT00063
    )는 다음과 같은 수학식을 이용하여 구하는 음성 향상 방법.
    Figure 112007039799536-PAT00064
    여기서,
    Figure 112007039799536-PAT00065
    이고,
    Figure 112007039799536-PAT00066
    는 k번째 주파수 성분의 우도비로서, 아래 수학식과 같이 주어짐.
    Figure 112007039799536-PAT00067
    여기서,
    Figure 112007039799536-PAT00068
    로서 정의됨.
KR1020070052793A 2007-05-30 2007-05-30 복소 라플라시안 확률 밀도 함수를 이용한 음성 향상 방법 KR20080105334A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020070052793A KR20080105334A (ko) 2007-05-30 2007-05-30 복소 라플라시안 확률 밀도 함수를 이용한 음성 향상 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020070052793A KR20080105334A (ko) 2007-05-30 2007-05-30 복소 라플라시안 확률 밀도 함수를 이용한 음성 향상 방법

Publications (1)

Publication Number Publication Date
KR20080105334A true KR20080105334A (ko) 2008-12-04

Family

ID=40366645

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070052793A KR20080105334A (ko) 2007-05-30 2007-05-30 복소 라플라시안 확률 밀도 함수를 이용한 음성 향상 방법

Country Status (1)

Country Link
KR (1) KR20080105334A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016117793A1 (ko) * 2015-01-23 2016-07-28 삼성전자 주식회사 음성 향상 방법 및 시스템

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016117793A1 (ko) * 2015-01-23 2016-07-28 삼성전자 주식회사 음성 향상 방법 및 시스템
US10431240B2 (en) 2015-01-23 2019-10-01 Samsung Electronics Co., Ltd Speech enhancement method and system

Similar Documents

Publication Publication Date Title
Sadjadi et al. Hilbert envelope based features for robust speaker identification under reverberant mismatched conditions
KR20080030140A (ko) 통계적 모델에 기반한 선험적 음성 부재 확률 추정 방법
KR20190130533A (ko) 음성 검출기를 구비한 보청기 및 그 방법
Roy et al. Deep learning with augmented Kalman filter for single-channel speech enhancement
KR20080075362A (ko) 잡음 환경에서 음성 신호의 추정치를 구하는 방법
Elshamy et al. An iterative speech model-based a priori SNR estimator
KR100784456B1 (ko) Gmm을 이용한 음질향상 시스템
KR20080105334A (ko) 복소 라플라시안 확률 밀도 함수를 이용한 음성 향상 방법
Thiagarajan et al. Pitch-based voice activity detection for feedback cancellation and noise reduction in hearing aids
KR100901367B1 (ko) 조건 사후 최대 확률 기반 최소값 제어 재귀평균기법을 이용한 음성 향상 방법
Shao et al. A versatile speech enhancement system based on perceptual wavelet denoising
Hizlisoy et al. Noise robust speech recognition using parallel model compensation and voice activity detection methods
KR20090111739A (ko) 잡음 제거 장치 및 방법
Potamitis et al. Gender-dependent and speaker-dependent speech enhancement
Ravi Performance analysis of adaptive wavelet denosing by speech discrimination and thresholding
Ju et al. Speech enhancement based on generalized singular value decomposition approach.
Win et al. Speech enhancement techniques for noisy speech in real world environments
Ding et al. Speech enhancement based on speech spectral complex Gaussian mixture model
KR101051035B1 (ko) 음성 향상을 위한 2차 조건 사후최대확률 기반 광역연판정 방법
Vali et al. Robust speech recognition by modifying clean and telephone feature vectors using bidirectional neural network
Liu et al. MTF-based kalman filtering with linear prediction for power envelope restoration in noisy reverberant environments
Prodeus Late reverberation reduction and blind reverberation time measurement for automatic speech recognition
Sunitha et al. NOISE ROBUST SPEECH RECOGNITION UNDER NOISY ENVIRONMENTS.
Liao et al. Assessing the Effect of Temporal Misalignment between the Probe and Processed Speech Signals on Objective Speech Quality Evaluation
Hwang et al. Energy contour enhancement for noisy speech recognition

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application