KR20100136634A - 음성 향상을 위한 2차 조건 사후최대확률 기반 광역연판정 방법 - Google Patents

음성 향상을 위한 2차 조건 사후최대확률 기반 광역연판정 방법 Download PDF

Info

Publication number
KR20100136634A
KR20100136634A KR1020090054807A KR20090054807A KR20100136634A KR 20100136634 A KR20100136634 A KR 20100136634A KR 1020090054807 A KR1020090054807 A KR 1020090054807A KR 20090054807 A KR20090054807 A KR 20090054807A KR 20100136634 A KR20100136634 A KR 20100136634A
Authority
KR
South Korea
Prior art keywords
speech
probability
voice
absence
frame
Prior art date
Application number
KR1020090054807A
Other languages
English (en)
Other versions
KR101051035B1 (ko
Inventor
장준혁
금종모
Original Assignee
인하대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인하대학교 산학협력단 filed Critical 인하대학교 산학협력단
Priority to KR1020090054807A priority Critical patent/KR101051035B1/ko
Publication of KR20100136634A publication Critical patent/KR20100136634A/ko
Application granted granted Critical
Publication of KR101051035B1 publication Critical patent/KR101051035B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Algebra (AREA)
  • Quality & Reliability (AREA)
  • Noise Elimination (AREA)
  • Telephonic Communication Services (AREA)

Abstract

본 발명은 음성 향상을 위한 2차 조건 사후최대확률 기반 광역연판정 방법에 관한 것으로서, 보다 구체적으로는 (1) 인접한 프레임들의 상호 연관성을 고려하여, 음성 존재 및 부재에 관한 조건 사후최대확률 값을 정의하는 단계; (2) 상기 정의된 음성 존재 및 부재에 관한 조건 사후최대확률 값에 기초하여, 현재 프레임의 음성부재확률을 획득하는 단계; 및 (3) 상기 획득한 음성부재확률을 적용하여, 현재 프레임의 음성을 향상시키는 단계를 포함하는 것을 그 구성상의 특징으로 한다.
본 발명의 음성 향상을 위한 2차 조건 사후최대확률 기반 광역연판정 방법에 따르면, 음성 신호를 구성하는 이전 두 프레임의 음성 활동(Voice Activity) 및 은닉 마르코프 모델(Hidden Markov Model; HMM)을 이용하여, 음성 존재 및 부재에 관한 2차조건 사후최대확률 값(Conditional Maximum A Posteriori; CMAP)을 정의하기 때문에, 인접 프레임 간에 존재하는 상호 연관성을 고려하는 것이 가능해진다. 또한 인접 프레임들의 음성 활동을 고려하는 상기 2차 조건 사후최대확률 값을 이용하여 음성부재확률을 도출하기 때문에, 수시로 변하는 잡음환경에서도 정확하게 잡음을 추정하여 음성을 향상시키는 것이 가능해진다.
음성 향상, 광역연판정, 2차 조건 사후최대확률

Description

음성 향상을 위한 2차 조건 사후최대확률 기반 광역연판정 방법{AN IMPROVED GLOBAL SOFT DECISION METHOD INCORPORATING SECOND-ORDER CONDITIONAL MAP FOR SPEECH ENHANCEMENT}
본 발명은 음성 향상 방법에 관한 것으로서, 보다 구체적으로는 음성 향상을 위한 2차 조건 사후최대확률 기반 광역연판정 방법에 관한 것이다.
최근 이동통신 단말기나 차량 내비게이션 등 음성 신호처리 시스템의 사용이 증가함에 따라, 음성 향상 기술에 대한 연구가 주목받고 있다. 음성 향상을 위한 신호처리 과정에서 가장 중요한 부분은 잡음을 정확하게 추정하는 것인데, 특히 비상관 잡음 신호를 효과적으로 처리할 수 있어야 한다. 따라서 잡음을 정확하게 추정하여 음성 스펙트럼을 향상시키기 위한 많은 연구가 진행되어 왔다. 지금까지 스펙트럼 차감법, Wiener 필터링, 연판정(Soft Decision), 최소평균 자승오차(Minimum Mean Square Error; MMSE)를 이용하는 잡음 추정 방법들이 연구되어 왔으며, 특히 연판정에 근거한 추정방법이 뛰어난 성능을 가지는 것으로 알려져 있다.
최근에 제안된 광역연판정(Global Soft Decision) 방법에서는 기존의 채널별 음성부재확률(Local Speech Absence Probability; LSAP)과 현재 프레임에서의 모든 데이터에 의해 결정 되어지는 전역 음성부재확률(Global Speech Absence Probability; GSAP)이 결합되어, 통계적으로 견실한 음성부재확률을 도출하였다. 하지만 기존의 광역연판정 방법은 기존의 통계적 가정을 바탕으로 음성 부재 및 존재 확률이 사전에 정해지고, 이 값이 고정된 상태로 음성부재확률을 도출하기 때문에, 음성 신호를 구성하는 각각의 프레임간의 상호 연관성을 고려하지 못하는 단점이 있으며, 이에 더하여 수시로 변하는 잡음 환경에서 정확한 음성부재확률을 추정하기 어려운 문제점이 있다.
본 발명은 기존에 제안된 방법들의 상기와 같은 문제점들을 해결하기 위해 제안된 것으로서, 음성 신호를 구성하는 이전 두 프레임의 음성 활동(Voice Activity) 및 은닉 마르코프 모델(Hidden Markov Model, HMM)을 이용하는 음성 존재 및 부재에 관한 2차 조건 사후최대확률 값을 정의하여, 인접 프레임 간에 존재하는 상호 연관성을 고려할 수 있는 방법을 제공하는 것을 목적으로 한다.
또한 인접 프레임들의 음성 활동을 고려하는 상기 2차 조건 사후최대확률 값을 이용하여 음성부재확률을 도출하여, 수시로 변하는 잡음환경에서도 정확하게 잡음을 추정하여 음성을 향상시키는 것을 다른 목적으로 한다.
상기한 목적을 달성하기 위한 본 발명의 특징에 따른 음성 향상을 위한 2차조건 사후최대확률 기반 광역연판정 방법은,
(1) 인접한 프레임들의 상호 연관성을 고려하여, 음성 존재 및 부재에 관한 조건 사후최대확률 값을 정의하는 단계;
(2) 상기 정의된 음성 존재 및 부재에 관한 조건 사후최대확률 값에 기초하여, 현재 프레임의 음성부재확률을 획득하는 단계; 및
(3) 상기 획득한 음성부재확률을 적용하여, 현재 프레임의 음성을 향상시키 는 단계를 포함하는 것을 그 구성상의 특징으로 한다.
바람직하게는, 음성 신호와 잡음의 스펙트럼이 복소가우시안 분포를 따른다는 가정으로부터, 음성 존재 및 부재 가설에 근거한 음성 신호의 확률밀도함수를 다음과 같은 수학식으로 정의할 수 있다.
Figure 112009037161247-PAT00001
여기서, λx(k, l)는 l번째 프레임의 k번째 주파수 성분에서 음성 신호의 분산 값을 의미하고, λn(k, l)은 l번째 프레임의 k번째 주파수 성분에서 잡음의 분산 값을 의미한다. 또한, P(Y(k, l)|H 0)는 음성 부재 시 Y(k, l)의 확률밀도함수를 의미하고, P(Y(k, l)|H 1 )는 음성 존재 시 Y(k, l)의 확률밀도함수를 의미한다.
더욱 바람직하게는, 상기 음성 존재 및 부재 가설에 근거한 음성 신호의 확률밀도함수로부터, l번째 프레임의 k번째 주파수 채널의 우도비 Λ(Y(k, l))를 다음과 같은 수학식으로 정의할 수 있다.
Figure 112009037161247-PAT00002
여기서,
Figure 112009037161247-PAT00003
은 사전 SNR을 나타내며,
Figure 112009037161247-PAT00004
은 사후 SNR을 나타낸다.
바람직하게는, 상기 단계 (1)에서 인접한 프레임들의 상호 연관성을 고려하기 위하여, 이전 두 프레임의 음성 활동(Voice Activity) 및 은닉 마르코프 모델(Hidden Markov Model, HMM)을 이용하여, 음성 존재 및 부재에 관한 2차 조건 사후최대확률 값을 다음과 같은 수학식으로 정의할 수 있다.
Figure 112009037161247-PAT00005
여기서, k는 프레임에서의 주파수 성분 번호, l은 프레임 번호, H0는 음성 부재 가설, H1은 음성 존재 가설,
Figure 112009037161247-PAT00006
는 이전 프레임에 음성이 존재하지 않고 그 이전 프레임에도 음성이 존재하지 않을 경우,
Figure 112009037161247-PAT00007
는 이전 프레임에 음성이 존재하지 않고 그 이전 프레임에 음성이 존재하는 경우,
Figure 112009037161247-PAT00008
는 이전 프레임에는 음성이 존재하고 그 이전 프레임에는 음성이 존재하지 않는 경우,
Figure 112009037161247-PAT00009
는 이전 프레임과 그 이전 프레임에 모두 음성이 존재하는 경우의 2차 조건 사후최대확률 값을 나타낸다.
더더욱 바람직하게는, 상기 단계 (2)에서, 상기 음성 존재 및 부재 가설에 근거한 음성 신호의 확률밀도함수, 상기 l번째 프레임의 k번째 주파수 채널의 우도비 및 상기 2차 조건 사후최대확률 값을 고려하여, 음성부재확률을 다음의 수학식으로 정의할 수 있다.
Figure 112009037161247-PAT00010
여기서,
Figure 112009037161247-PAT00011
는 상기 음성 존재 및 부재에 관한 2차 조건 사후최대확률 값 4개 중 하나의 값을 가진다.
본 발명의 음성 향상을 위한 2차조건 사후최대확률 기반 광역연판정 방법에 따르면, 음성 신호를 구성하는 이전 두 프레임의 음성 활동 및 은닉 마르코프 모델(HMM)을 이용하여, 음성 존재 및 부재에 관한 2차조건 사후최대확률 값을 정의하기 때문에, 인접 프레임 간에 존재하는 상호 연관성을 고려하는 것이 가능해진다.
또한 인접 프레임들의 음성 활동을 고려하는 상기 2차조건 사후최대확률 값을 이용하여 음성부재확률을 도출하기 때문에, 수시로 변하는 잡음환경에서도 정확하게 잡음을 추정하여 음성을 향상시키는 것이 가능해진다.
이하에서는 첨부된 도면들을 참조하여, 본 발명에 따른 실시예에 대하여 상세하게 설명하기로 한다.
본 발명에 대한 상세한 설명을 하기 전에, 먼저 기존의 광역연판정 방법에 의하여 음성부재확률을 구하는 과정에 관하여 상세히 기술한다.
먼저, 잡음의 영향을 받은 음성 신호 Y(t)는 원래의 음성 신호 X(t)에 잡음 N(t)이 더해진 형태로 가정한다. 여기서, t는 이산시간을 나타낸다. 음성 향상 방법에서 사용되고 있는 기본가설 H 0(k, l), H 1(k, l)이 l번째 프레임의 k번째 주파수 성분에 대하여, 각각 음성의 부재와 존재를 나타낸다고 정의하면 다음 수학식 1과 같이 표현할 수 있다.
Figure 112009037161247-PAT00012
여기서, Y(k, l), X(k, l) 및 N(k, l)은 각각 잡음의 영향을 받은 음성 신호, 원래의 음성 신호 및 잡음 신호의 l번째 프레임에서의 k번째 주파수 성분을 의미하는 푸리에변환 계수를 의미한다.
음성 신호와 잡음의 스펙트럼이 복소가우시안 분포를 따른다는 가정으로부 터, 가설 H 0(k, l)과 H 1(k, l)에 근거한 음성 신호의 확률밀도함수는 다음 수학식 2와 같이 나타낼 수 있다.
Figure 112009037161247-PAT00013
여기서, λx(k, l)는 l번째 프레임의 k번째 주파수 성분에서 음성 신호의 분산 값을 의미하고, λn(k, l)은 l번째 프레임의 k번째 주파수 성분에서 잡음의 분산 값을 의미한다. 또한, P(Y(k, l)|H 0)는 음성 부재 시 Y(k, l)의 확률밀도함수를 의미하고, P(Y(k, l)|H 1 )는 음성 존재 시 Y(k, l)의 확률밀도함수를 의미한다.
음성의 존재와 부재에 관한 가설을 바탕으로, 주파수 채널별 음성부재확률은 다음 수학식 3과 같이 정의할 수 있다.
Figure 112009037161247-PAT00014
여기서, Λ(Y(k, l))는 다음 수학식 4로 정의되는, l번째 프레임의 k번째 주 파수 채널의 우도비를 의미한다.
Figure 112009037161247-PAT00015
여기서,
Figure 112009037161247-PAT00016
은 사전 SNR을 나타내며,
Figure 112009037161247-PAT00017
은 사후 SNR을 나타낸다.
또한, 한 프레임에서의 음성부재확률은 현재 프레임의 관찰 결과를 기반으로 다음 수학식 5와 같이 구할 수 있다.
Figure 112009037161247-PAT00018
각 주파수 성분들의 통계적인 독립성을 가정하면, 한 프레임에서의 음성부재확률을 다음 수학식 6과 같이 표현할 수 있다.
Figure 112009037161247-PAT00019
여기서, 주파수 채널의 총 개수는 M이다.
기존의 광역연판정 방법을 이용하여 구한 수학식 6으로 표현할 수 있는 음성부재확률을 사용하여 잡음을 추정하는 경우의 문제점은 수학식 6의 분모에 나타나는 P(H 1)와 P(H 0)가 기존의 통계적 가정을 바탕으로 고정되어 있기 때문에(일례로, P(H 1) = P(H 0) = 0.5로 고정할 수 있음), 음성을 구성하는 각각의 프레임 간에 존재하는 강한 상호 연관성을 이용할 수 없으며, 또한 기존의 통계적 가정에서 벗어나는, 다양한 음성 환경 변화에 대해 정확한 잡음 추정이 어렵다.
본 발명에서는 기존의 광역연판정 방법의 상기 문제점을 해결하기 위하여, 2차 조건 사후최대확률에 기반을 둔 광역연판정 방법을 제안한다. 상기 첫 번째 문제점으로 지적한 인접 프레임 간의 상호 연관성을 이용하기 위하여, 음성 신호를 구성하는 이전 두 프레임의 음성 활동 및 은닉 마르코프 모델(HMM)을 적용하여, 음성 존재 및 부재에 관한 2차 조건 사후최대확률 값(CMAP)을 정의한다. 또한 상기 두 번째 문제점으로 지적한 다양하면서 수시로 변하는 음성 환경 변화에 적응하기 위하여, 상기 2차 조건 사후최대확률 값이 적용된 음성부재확률을 도출하고, 이를 통해 음성을 향상시킨다.
지금부터 본 발명의 음성 향상을 위한 2차 조건 사후최대확률 기반 광역연판 정 방법에 대해 상세히 설명한다.
상기 기술한 바와 같이, 인접 프레임 간의 강한 상호 연관성을 고려하기 위하여, 본 발명의 일실시예에서는 두 프레임의 음성 존재 및 부재 조건을 고려한다. 두 프레임의 음성 존재 및 부재 조건을 고려한 주파수 채널별 음성부재확률은 다음 수학식 7과 같이 표현할 수 있다.
Figure 112009037161247-PAT00020
여기서, α와 β는 다음의 수학식 8처럼 표현된다.
Figure 112009037161247-PAT00021
Figure 112009037161247-PAT00022
본 발명의 음성 향상을 위한 2차 조건 사후최대확률 기반 광역연판정 방법은 기존의 광역연판정 방법을 통해 구할 수 있는, 상기 수학식 6에 표기된 음성부재확률에서 고정 파라미터 P(H1)/P(H0) 대신 다음 수학식 9로 표현할 수 있는 2차 조건 사후최대확률 값을 적용한다.
Figure 112009037161247-PAT00023
2차 조건 사후최대확률 값을 고려하여 광역연판정 방법을 수행하게 되면, 2차 조건 사후최대확률 값이 다음 수학식 10과 같이, 통계적인 가설에 의한 사전 확률보다 신뢰성이 높기 때문에, 기존의 광역연판정 방법보다 더욱 정확하게 음성부재확률을 구할 수 있다.
Figure 112009037161247-PAT00024
상기 2차 조건 사후최대확률 값은 다음 수학식 11과 같이 4개 중 하나의 값을 가진다.
Figure 112009037161247-PAT00025
여기서, k는 프레임에서의 주파수 성분 번호, l은 프레임 번호, H0는 음성 부재 가설, H1은 음성 존재 가설,
Figure 112009037161247-PAT00026
는 이전 프레임에 음성이 존재하지 않고 그 이전 프레임에도 음성이 존재하지 않을 경우,
Figure 112009037161247-PAT00027
는 이전 프레임에 음성이 존재하지 않고 그 이전 프레임에 음성이 존재하는 경우,
Figure 112009037161247-PAT00028
는 이전 프레임에는 음성이 존재하고 그 이전 프레임에는 음성이 존재하지 않는 경우,
Figure 112009037161247-PAT00029
는 이전 프레임과 그 이전 프레임에 모두 음성이 존재하는 경우의 2차 조건 사후최대확률 값을 나타낸다.
수학식 3의 고정 파라미터 P(H1)/P(H0)를 상기 2차 조건 사후최대확률로 대체한 주파수 채널별 음성부재확률은 다음 수학식 12와 같이 나타낼 수 있다.
Figure 112009037161247-PAT00030
상기 수학식 12의 음성부재확률을 이용하여 잡음을 추정하게 되면, 음성부재확률의 분모에 있는 2차 조건 사후최대확률 값에 의하여, 인접 프레임들 간의 상호 연관성을 고려할 수 있으며, 또한 다양한 음성 환경에 대해서도 강인한 특성을 지니므로, 기존의 광역연판정 방법을 이용하는 경우보다 더욱 정확하게 잡음을 추정하여 음성 신호의 질을 더욱 향상시킬 수 있다.
도 1은 본 발명의 일실시예에 따른 음성 향상을 위한 2차 조건 사후최대확률 기반 광역연판정 방법에 대한 흐름도이다. 도 1에 도시된 바와 같이, 본 발명의 일실시예에 따른 음성 향상을 위한 2차 조건 사후최대확률 기반 광역연판정 방법은, 인접한 프레임들의 상호 연관성을 고려하여, 음성 존재 및 부재에 관한 조건 사후최대확률 값을 정의하는 단계(S100), 상기 정의된 음성 존재 및 부재에 관한 조건 사후최대확률 값에 기초하여, 현재 프레임의 음성부재확률을 획득하는 단계(S200), 및 상기 획득한 음성부재확률을 적용하여, 현재 프레임의 음성을 향상시키는 단계(S300)를 포함한다.
단계 S100은, 인접한 프레임들의 상호 연관성을 고려하기 위하여, 이전 두 프레임의 음성 활동 및 은닉 마르코프 모델(HMM)을 이용하여, 음성 존재 및 부재에 관한 2차 조건 사후최대확률 값을 결정하는 단계이다.
단계 S200은, 음성 존재 및 부재 가설에 근거한 음성 신호의 확률밀도함수, l번째 프레임의 k번째 주파수 채널의 우도비 및 2차 조건 사후최대확률 값을 고려하여, 음성부재확률을 획득하는 단계이다.
단계 S300은, 단계 S200 에서 획득한 음성부재확률에 기초하여, 잡음을 추정하고 이를 제거하는 과정을 통하여 현재 프레임의 음질을 향상시키는 단계이다.
이상 본 발명의 일실시예에 따른, 음성 향상을 위한 2차 조건 사후최대확률 기반 광역연판정 방법의 성능 평가를 위하여, 널리 사용되고 있는 ITU-T P.862 PESQ(Perceptual Evaluation of Speech Quality)테스트를 이용한다. 그리고 본 발명에서 제안하는 2차 조건 사후최대확률 기반 광역연판정 방법의 성능 비교를 위한 대상으로 기존의 광역연판정 방법을 고려한다. 2차 조건 사후최대확률 기반 광역연판정 방법 및 기존의 연판정방법의 성능을 검증하기 위한 ITU-T P.862 PESQ 테스트를 위하여, 남성 및 여성 화자 각각이 100개의 문장을 발음하여 얻은 음성 신호를, 하나의 프레임의 길이를 10ms로 정한 후 8kHz로 샘플링하여 획득한 음성샘플링 데이터에, NOISEX-92 데이터베이스를 이용하여 세 가지 잡음(white 잡음, car 잡음 및 F16 잡음)을 각각 5, 10, 15dB의 SNR에 맞게 부가하여, ITU-T P.862 PESQ 테스트 파일을 구성하였다. 도 2는 F16 잡음을 SNR = 10dB로 음성 샘플데이터에 첨가한 경우의 음성 파형을 나타내는 도면이다. 도 3은 기존의 광역연판정 방법을 이용하였을 때의 음성존재확률(점선으로 표기) 및 본 발명에서 제안된 방법을 이용한 경우의 음성존재확률(실선으로 표기)을 비교하여 나타낸 도면이다. 본 발명에서 제안한 방법은 2차 조건 사후최대확률 값을 통하여, 이전 두 프레임의 정보가 음성 신호일 확률이 높을 때에는 음성부재확률을 더 작게 만들어주고, 이전 두 프레임의 정보가 잡음 신호일 확률이 높을 때에는, 음성부재확률을 1에 가깝게 만들어 신뢰성을 향상시킨다. 도 3에서 관찰할 수 있는 것처럼, 기존의 광역연판정 방법은 음성 신호가 존재하는 경우에도 음성존재확률의 변동이 심하지만, 본 발명의 방법을 사용할 경우에는 음성존재확률이 거의 1에 근접하는 것을 알 수 있다. 또한 ITU-T P.862 PESQ 테스트를 위하여, 기존의 광역연판정 방법의 음성부재확률에 존재하는 고정 파라미터 P(H1)/P(H0)는 1로 설정하였으며, 제안된 방법에서 사용되는 수학식 11로 표현될 수 있는 4개의 2차 사후조건 확률값은 긴 음성 파일의 확률적 통계 자료를 바탕으로
Figure 112009037161247-PAT00031
=0.0246,
Figure 112009037161247-PAT00032
=0.0738,
Figure 112009037161247-PAT00033
=53.41,
Figure 112009037161247-PAT00034
=479로 설정하였다. 표 1은 기존의 광역연판정 방법을 적용하여 음성을 향상시킨 경우와, 본 발명에서 제안된 방법을 적용하여 음성을 향상시킨 경우에 대한 PESQ 테스트를 결과이다. 모든 실험 조건에 대하여 본 발명에서 제안하는 방법의 결과가 기존의 광역연판정 방법보다 나은 것을 확인할 수 있으며, 특히 낮은 SNR에서 더욱 뛰어난 성능을 나타냄을 알 수 있다. 이는 도 3에서와 같이, 고정 파라미터 P(H1)/P(H0)를 사용하던 광역연판정 방법보다, 본 발명에서 제안한 2차 조건 사후최대확률 값을 이용한 방법이, 다양한 잡음 환경에서 음성부재확률을 구할 때, 더 정확하게 잡음을 추정할 수 있으므로, 음성 향상 시스템에 적용되었을 때 더 나은 성능을 보일 수 있기 때문이다.
잡음 유형 방법 SNR(dB)
5 10 15
white Global
Proposed
2.080
2.082
2.423
2.424
2.475
2.478
car Global
Proposed
3.310
3.320
3.596
3.604
3.848
3.854
F16 Global
Proposed
2.148
2.196
2.540
2.554
2.847
2.858
이상 설명한 본 발명은 본 발명이 속한 기술분야에서 통상의 지식을 가진 자에 의하여 다양한 변형이나 응용이 가능하며, 본 발명에 따른 기술적 사상의 범위는 아래의 특허청구범위에 의하여 정해져야 할 것이다.
도 1은 본 발명의 일실시예에 따른 음성 향상을 위한 2차조건 사후최대확률 기반 광역연판정 방법에 대한 흐름도.
도 2는 F16 잡음을 SNR = 10dB로 음성 샘플데이터에 첨가한 경우의 음성 파형을 나타내는 도면.
도 3은 기존의 광역연판정 방법을 이용하였을 때의 음성존재확률 및 본 발명에서 제안된 방법을 이용한 경우의 음성존재확률을 비교하여 나타낸 도면.
<도면 부호에 대한 설명>
S100: 인접한 프레임들의 상호 연관성을 고려하여, 음성 존재 및 부재에 관한 조건 사후최대확률 값을 정의하는 단계
S200: 정의된 음성 존재 및 부재에 관한 조건 사후최대확률 값에 기초하여, 현재 프레임의 음성부재확률을 획득하는 단계
S300: 획득한 음성부재확률을 적용하여, 현재 프레임의 음성을 향상시키는 단계

Claims (5)

  1. 음성 향상을 위한 2차조건 사후최대확률 기반 광역연판정 방법으로서,
    (1) 인접한 프레임들의 상호 연관성을 고려하여, 음성 존재 및 부재에 관한 조건 사후최대확률 값을 정의하는 단계;
    (2) 상기 정의된 음성 존재 및 부재에 관한 조건 사후최대확률 값에 기초하여, 현재 프레임의 음성부재확률을 획득하는 단계; 및
    (3) 상기 획득한 음성부재확률을 적용하여, 현재 프레임의 음성을 향상시키는 단계
    를 포함하는 것을 특징으로 하는, 음성 향상을 위한 2차조건 사후최대확률 기반 광역연판정 방법.
  2. 제1항에 있어서,
    음성 신호와 잡음의 스펙트럼이 복소가우시안 분포를 따른다는 가정으로부터, 음성 존재 및 부재 가설에 근거한 음성 신호의 확률밀도함수를 다음과 같은 수학식으로 정의하는 것을 특징으로 하는, 음성 향상을 위한 2차 조건 사후최대확률 기반 광역연판정 방법.
    Figure 112009037161247-PAT00035
    여기서, λx(k, l)는 l번째 프레임의 k번째 주파수 성분에서 음성 신호의 분산 값을 의미하고, λn(k, l)은 l번째 프레임의 k번째 주파수 성분에서 잡음의 분산 값을 의미한다. 또한, P(Y(k, l)|H 0)는 음성 부재 시 Y(k, l)의 확률밀도함수를 의미하고, P(Y(k, l)|H 1 )는 음성 존재 시 Y(k, l)의 확률밀도함수를 의미한다.
  3. 제2항에 있어서,
    상기 음성 존재 및 부재 가설에 근거한 음성 신호의 확률밀도함수로부터, l번째 프레임의 k번째 주파수 채널의 우도비 Λ(Y(k, l))를 다음과 같은 수학식으로 정의하는 것을 특징으로 하는, 음성 향상을 위한 2차조건 사후최대확률 기반 광역연판정 방법.
    Figure 112009037161247-PAT00036
    여기서,
    Figure 112009037161247-PAT00037
    은 사전 SNR을 나타내며,
    Figure 112009037161247-PAT00038
    은 사후 SNR을 나타낸다.
  4. 제1항에 있어서,
    상기 단계 (1)에서 인접한 프레임들의 상호 연관성을 고려하기 위하여, 이전 두 프레임의 음성 활동(Voice Activity) 및 은닉 마르코프 모델(Hidden Markov Model, HMM)을 이용하여, 음성 존재 및 부재에 관한 2차조건 사후 최대확률값을 다음과 같은 수학식으로 정의하는 것을 특징으로 하는, 음성 향상을 위한 2차조건 사후최대확률 기반 광역연판정 방법.
    Figure 112009037161247-PAT00039
    여기서, k는 프레임에서의 주파수 성분 번호, l은 프레임 번호, H0는 음성 부재 가설, H1은 음성 존재 가설,
    Figure 112009037161247-PAT00040
    는 이전 프레임에 음성이 존재하지 않고 그 이전 프레임에도 음성이 존재하지 않을 경우,
    Figure 112009037161247-PAT00041
    는 이전 프레임에 음성이 존재하지 않고 그 이전 프레임에 음성이 존재하는 경우,
    Figure 112009037161247-PAT00042
    는 이전 프레임에는 음성이 존재 하고 그 이전 프레임에는 음성이 존재하지 않는 경우,
    Figure 112009037161247-PAT00043
    는 이전 프레임과 그 이전 프레임에 모두 음성이 존재하는 경우의 2차 조건 사후최대확률 값을 나타낸다.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서,
    상기 단계 (2)에서, 상기 음성 존재 및 부재 가설에 근거한 음성 신호의 확률밀도함수, 상기 l번째 프레임의 k번째 주파수 채널의 우도비 및 상기 2차 조건 사후최대확률 값을 고려하여, 음성부재확률을 다음의 수학식으로 정의되는 것을 특징으로 하는, 음성 향상을 위한 2차 조건 사후최대확률 기반 광역연판정 방법.
    Figure 112009037161247-PAT00044
    여기서,
    Figure 112009037161247-PAT00045
    는 상기 음성 존재 및 부재에 관한 2차 조건 사후최대확률 값 4개 중 하나의 값을 가진다.
KR1020090054807A 2009-06-19 2009-06-19 음성 향상을 위한 2차 조건 사후최대확률 기반 광역연판정 방법 KR101051035B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020090054807A KR101051035B1 (ko) 2009-06-19 2009-06-19 음성 향상을 위한 2차 조건 사후최대확률 기반 광역연판정 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090054807A KR101051035B1 (ko) 2009-06-19 2009-06-19 음성 향상을 위한 2차 조건 사후최대확률 기반 광역연판정 방법

Publications (2)

Publication Number Publication Date
KR20100136634A true KR20100136634A (ko) 2010-12-29
KR101051035B1 KR101051035B1 (ko) 2011-07-21

Family

ID=43510580

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090054807A KR101051035B1 (ko) 2009-06-19 2009-06-19 음성 향상을 위한 2차 조건 사후최대확률 기반 광역연판정 방법

Country Status (1)

Country Link
KR (1) KR101051035B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016117793A1 (ko) * 2015-01-23 2016-07-28 삼성전자 주식회사 음성 향상 방법 및 시스템

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100901367B1 (ko) * 2008-10-09 2009-06-05 인하대학교 산학협력단 조건 사후 최대 확률 기반 최소값 제어 재귀평균기법을 이용한 음성 향상 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016117793A1 (ko) * 2015-01-23 2016-07-28 삼성전자 주식회사 음성 향상 방법 및 시스템
US10431240B2 (en) 2015-01-23 2019-10-01 Samsung Electronics Co., Ltd Speech enhancement method and system

Also Published As

Publication number Publication date
KR101051035B1 (ko) 2011-07-21

Similar Documents

Publication Publication Date Title
Krueger et al. Model-based feature enhancement for reverberant speech recognition
US8296135B2 (en) Noise cancellation system and method
EP3175458B1 (en) Estimation of background noise in audio signals
CN110875054B (zh) 一种远场噪声抑制方法、装置和系统
Swami et al. Speech enhancement by noise driven adaptation of perceptual scales and thresholds of continuous wavelet transform coefficients
Jaiswal et al. Implicit wiener filtering for speech enhancement in non-stationary noise
Elshamy et al. An iterative speech model-based a priori SNR estimator
KR20080075362A (ko) 잡음 환경에서 음성 신호의 추정치를 구하는 방법
Saleem Single channel noise reduction system in low SNR
Dionelis et al. Speech enhancement using modulation-domain Kalman filtering with active speech level normalized log-spectrum global priors
Fang et al. Integrating statistical uncertainty into neural network-based speech enhancement
KR101051035B1 (ko) 음성 향상을 위한 2차 조건 사후최대확률 기반 광역연판정 방법
Hendriks et al. Adaptive time segmentation for improved speech enhancement
KR100901367B1 (ko) 조건 사후 최대 확률 기반 최소값 제어 재귀평균기법을 이용한 음성 향상 방법
KR20170140461A (ko) 적응형 잡음제거기, 잡음제거 방법
Chai et al. Acoustics-guided evaluation (age): a new measure for estimating performance of speech enhancement algorithms for robust asr
Tupitsin et al. Two-step noise reduction based on soft mask for robust speaker identification
Shao et al. A versatile speech enhancement system based on perceptual wavelet denoising
EP1635331A1 (en) Method for estimating a signal to noise ratio
KR20090111739A (ko) 잡음 제거 장치 및 방법
Ephraim et al. A brief survey of speech enhancement 1
Zhang et al. Gain factor linear prediction based decision-directed method for the a priori SNR estimation
Abutalebi et al. Speech dereverberation in noisy environments using an adaptive minimum mean square error estimator
Jan et al. Joint blind dereverberation and separation of speech mixtures
Mellahi et al. Notice of Violation of IEEE Publication Principles: LPCs enhancement in iterative Kalman filtering for speech enhancement using overlapped frames

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20140612

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20150626

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20160602

Year of fee payment: 6

LAPS Lapse due to unpaid annual fee