KR101394504B1 - 적응적 잡음 처리 장치 및 방법 - Google Patents

적응적 잡음 처리 장치 및 방법 Download PDF

Info

Publication number
KR101394504B1
KR101394504B1 KR1020120034546A KR20120034546A KR101394504B1 KR 101394504 B1 KR101394504 B1 KR 101394504B1 KR 1020120034546 A KR1020120034546 A KR 1020120034546A KR 20120034546 A KR20120034546 A KR 20120034546A KR 101394504 B1 KR101394504 B1 KR 101394504B1
Authority
KR
South Korea
Prior art keywords
noise
speech
spectral
region
signal
Prior art date
Application number
KR1020120034546A
Other languages
English (en)
Other versions
KR20130112287A (ko
Inventor
정성일
Original Assignee
(주)트란소노
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)트란소노 filed Critical (주)트란소노
Priority to KR1020120034546A priority Critical patent/KR101394504B1/ko
Publication of KR20130112287A publication Critical patent/KR20130112287A/ko
Application granted granted Critical
Publication of KR101394504B1 publication Critical patent/KR101394504B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02087Noise filtering the noise being separate speech, e.g. cocktail party

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

본 발명은 적응적 잡음 처리 장치 및 방법에 관한 것이다.
이러한 본 명세서는 음성 신호를 입력받는 단계, 상기 음성 신호에 포함된 잡음을 추정하는 단계, 상기 음성 신호와 상기 추정된 잡음간의 신호대 잡음비를 계산하는 단계, 상기 음성 신호에 대한 잡음유사 영역과 음성유사 영역에서 잔재잡음을 마스킹시키는 스펙트럼 평탄화 계수를 소정의 기준에 기반하여 적응적으로 결정하는 단계, 상기 스펙트럼 평탄화 계수와 상기 신호대 잡음비를 변수로 하는 이득함수를 계산하는 단계, 및 상기 이득함수와 상기 음성 신호를 곱하여 개선된 음성을 계산하는 단계를 포함하는 스펙트럼 차감에 기반한 잡음 처리방법을 개시한다.
본 발명에 따르면, 잡음영역에서 뮤지컬 잡음의 잔재를 효과적으로 추출할 수 있고, 음성영역에서 잡음을 마스킹하여 추출하기 때문에 뮤지컬 잡음의 잔재와 발산, 음성왜곡을 효과적으로 방지할 수 있다.

Description

적응적 잡음 처리 장치 및 방법{APPARATUS AND METHOD FOR ADAPTIVE NOISE PROCESSING}
본 발명은 음질개선방법에 관한 것으로서, 보다 상세하게는 스펙트럼 차감(spectral subtraction)에서 적응적 음성왜곡(speech distortion)과 잔여잡음(residual noise)을 처리하는 적응적 잡음 처리장치 및 방법에 관한 것이다.
실생활에서 배경잡음은 순수음성을 거의 항상 오염시키며 음성인식, 음성코딩, 화자인식 등과 같은 음성통신 시스템의 성능을 심각하게 저하시킨다. 따라서 잡음의 효과를 줄여 시스템의 성능을 향상시키고자 하는 음질개선 연구가 오래전부터 수행되어 왔으며 최근에 크게 부각되고 있다.
스펙트럼 차감(Spectral Subtraction: SS)는 여러 음질개선 방법 중에서 적은 계산비용과 용이한 구현 때문에 단일채널(single channel)에서 널리 사용되는 전형적인 방법이다. 그러나 스펙트럼 차감 방법에 의해 개선된 음성에는 새로운 인공음(artifact)인 뮤지컬(musical) 잡음이 잔재하는 문제가 있다. 뮤지컬 잡음은 추정된 잡음이 실제잡음보다 낮게 평가되어 발생하는 임의의(random) 주파수 성분이며 청자에게 지각적으로 성가시게 하는 음조(tones)이다.
뮤지컬 잡음의 잔재를 억제하기 위해 이득함수(gain function)를 기반으로 여러 스펙트럼 차감 방법이 제안되었다. 그러나 제시된 방법의 대부분은 비정적이고 낮은 신호대 잡음비(signal to noise ratio: SNR) 환경에서 음질개선을 효율적으로 수행하지 못하는 것으로 알려져 있다. 개선된 음성이 뮤지컬 잡음을 여전히 수반하거나 신뢰적인 음성명도(speech intelligibility)를 제시하지 못하기 때문이다. 따라서 이득함수기반 스펙트럼 차감방법을 이용한 음질개선의 성패는 음성신호의 손실을 적게 발생시키면서 뮤지컬 잡음의 잔재를 억제할 수 있는 정확한 이득함수의 설정에 있다.
본 발명의 기술적 과제는 적응적 잡음 처리 장치 및 방법을 제공함에 있다.
본 발명의 다른 기술적 과제는 스펙트럼 차감에서 적응적 음성왜곡과 잔여잡음을 처리하는 장치 및 방법을 제공함에 있다.
본 발명의 일 양태에 따르면, 스펙트럼 차감에 기반한 잡음 처리방법을 제공한다. 상기 방법은 음성 신호를 입력받는 단계, 상기 음성 신호에 포함된 잡음을 추정하는 단계, 상기 음성 신호와 상기 추정된 잡음간의 신호대 잡음비(signal to noise ratio: SNR)를 계산하는 단계, 상기 음성 신호에 대한 잡음유사(noisy-like) 영역과 음성유사(speech-like) 영역에서 잔재잡음(residue noise)을 마스킹(masking)시키는 스펙트럼 평탄화 계수를 소정의 기준에 기반하여 적응적으로 결정하는 단계, 상기 스펙트럼 평탄화 계수와 상기 신호대 잡음비를 변수로 하는 이득함수를 계산하는 단계, 및 상기 이득함수와 상기 음성 신호를 곱하여 개선된 음성을 계산하는 단계를 포함한다.
본 발명의 다른 양태에 따르면, 스펙트럼 차감에 기반한 잡음 처리장치를 제공한다. 상기 장치는 음성 신호를 입력받고, 상기 음성 신호에 포함된 잡음을 추정하는 잡음 추정 유닛, 상기 음성 신호와 상기 추정된 잡음간의 신호대 잡음비(SNR)를 계산하는 신호대 잡음비 계산부, 상기 음성 신호에 대한 잡음유사 영역과 음성유사 영역에서 잔재잡음을 마스킹시키는 스펙트럼 평탄화 계수를 소정의 기준에 기반하여 적응적으로 결정하는 스펙트럼 평탄화 계산부, 상기 스펙트럼 평탄화 계수와 상기 신호대 잡음비를 변수로 하는 이득함수를 계산하는 적응적 이득함수 계산부, 및 상기 적응적 이득함수와 상기 음성 신호를 곱하여 개선된 음성을 계산하는 개선된 음성 출력부를 포함한다.
본 발명에 따르면, 잡음영역에서 뮤지컬 잡음의 잔재를 효과적으로 추출할 수 있고, 음성영역에서 잡음을 마스킹(masking)하여 추출하기 때문에 뮤지컬 잡음의 잔재와 발산, 음성왜곡을 효과적으로 방지할 수 있다.
도 1은 백색 가우시안(white Gaussian) 잡음에 의해 SNR 10dB에 오염된 음성으로부터 개선된 음성의 파형과 스펙트로그램을 나타낸 것이다.
도 2는 본 발명의 일 예에 따른 잡음 처리장치의 동작 순서도이다.
도 3은 본 발명의 일 예에 따른 잡음 처리장치의 블록도이다.
이하에서는, 첨부 도면을 참조하여 본 발명의 바람직한 실시예에 대하여 상세하게 설명한다. 후술하는 실시예는 본 발명의 기술적 사상을 예시적으로 설명하기 위한 목적이므로, 본 발명의 기술적 사상은 이 실시예에 의하여 한정되는 것으로 해석되어서는 안 된다. 본 실시예에 대한 설명 및 도면에서 각각의 구성요소에 부가된 참조 부호는 단지 설명의 편의를 위하여 기재된 것일 뿐이며, 명세서 전체에 걸쳐서 동일한 참조 번호는 동일한 구성 요소를 지칭한다.
본 특허는 잡음마스크(noise masker) 효과(effect)를 이용하여 단일채널(single channel)에서 오염된 음성으로부터 개선된 음성에서 음성왜곡(speech distortion)의 발생을 방지하면서 뮤지컬 잡음의 잔재를 추출할 수 있는 이득함수 기반의 음질개선 방법을 제안한다. 잡음마스크는 음성성분에 포함된 잡음을 마스킹(masking)하기 위한 도구이며, 잡음의 상태와 조건에 따라 여러 타입으로 구성된다.
음질개선 방법의 일 예로서, 주파수 영역에서 음질개선을 위한 스펙트럼 차감(spectral subtraction: SS) 방법이 있다. 파워 SS에서 이득함수기반 SS로 유도되는 과정과 이를 이용하여 개선된 음성에 잔재되는 뮤지컬 잡음의 특성은 다음과 같다. 파워 SS는 오염된 음성의
Figure 112012026740141-pat00001
으로부터 추정된 잡음
Figure 112012026740141-pat00002
을 차감하여 개선된 음성의
Figure 112012026740141-pat00003
을 얻기 위한 전형적인 방법이다. 여기서, 수학식 1이 성립한다.
Figure 112012026740141-pat00004
수학식 1을 참조하면, i와 f는 각각 프레임 인덱스와 주파수 위치 인덱스이다. 사후(Posterior) SNR인
Figure 112012026740141-pat00005
을 이용하여 위너 필터(Wiener Filter: WF) 이득함수
Figure 112012026740141-pat00006
기반 SS는 수학식 2와 수학식 3으로 재정의될 수 있다.
Figure 112012026740141-pat00007
Figure 112012026740141-pat00008
또한, 수학식 1에서, Yi(f)의 위상(phase)을 보존하는 파워(PW, Power) 이득함수 Hi PW(f)기반 SS는 수학식 4와 수학식 5로 정의될 수 있다.
Figure 112012026740141-pat00009
Figure 112012026740141-pat00010
SS 방법은 적은 계산비용과 용이한 구현측면과는 반대로 개선된 음성에 뮤지컬 잡음이 잔재될 수 있다. 도 1은 백색 가우시안(white Gaussian) 잡음에 의해 SNR 10dB에 오염된 음성으로부터 수학식 4의 Hi PW(f)가 실제신호보다 크게 추정된 잡음에 대해서 0을 적용하고 개선된 음성의 파형과 스펙트로그램을 나타내었다. 도 1을 참조하면, (a)는 백색 가우시안 잡음에 의해 SNR 10dB에 오염된 음성의 파형; (b)는 오염된 음성(a)로부터 스펙트럼 차감 방법에 의해 개선된 음성의 파형; (c)는 오염된 음성(a)의 스펙트로그램; (d)는 개선된 음성(b)의 스펙트로그램이다. 개선된 음성(b)의 스펙트로그램에서 볼 수 있듯이, 비주기적으로 잔재하는 뮤지컬 잡음이 빈번하게 발견된다.
다음으로, 변형된 이득함수에 관하여 설명된다. 수학식 4에서 Hi PW(f)은 추정된 잡음
Figure 112012026740141-pat00011
이 오염된 음성
Figure 112012026740141-pat00012
보다 크면 음수가 되어 성립하지 않은 경우가 발생할 수 있다. 이를 방지하기 위해 다음과 같은 반파정류(half wave rectification)를 이용하여 변형된 파워(MPW, Modified Power) 이득함수 Hi MPW(f)가 사용될 수 있다.
Figure 112012026740141-pat00013
또한, 개선된 음성에서 발생되는 음성왜곡을 고려하여 로그(logarithm) 영역에서 Hi MPW(f)의 변형된 로그 파워(MLPW, Modified Log Power) 이득함수 Hi MLPW(f)가 사용될 수 있다.
Figure 112012026740141-pat00014
또한, ML(Maximum Likelihood)와 SD(Soft-Decision)를 이용한 이득함수 Hi ML(f)이 사용될 수도 있다.
Figure 112012026740141-pat00015
수학식 5에서 Hi PW(f)를 상기 이득함수 Hi MPW(f)와 Hi MLPW(f), Hi ML(f)로 대체하면 좀더 개선된 음성이 획득될 수 있다.
다음으로, 과중차감기반의 이득함수에 관하여 설명된다. 뮤지컬 잡음의 잔재를 억제하기 위해 도입된 과중차감(OS, OverSubtraction) 요소 α(α≥1)가 포함된 이득함수 Hi OS(f)기반 비선형 스펙트럼 차감(Nonlinear Spectral Subtraction: NSS)방법은 다음의 수학식에 의해 표현될 수 있다.
Figure 112012026740141-pat00016
Figure 112012026740141-pat00017
수학식 9 및 수학식 10을 참조하면, α는 추정된 잡음보다 많이 차감하여 잔재잡음의 꼭지점(peak) 성분을 감쇠시키는 동시에 음성왜곡을 증가시키는 요인이다. β(0≤β≤1)는 잔재잡음을 마스킹시키기 위한 스펙트럼 평탄화(flooring) 계수이며, 0에 근접한 수치를 통상적으로 사용한다. 또한 r은 차감 굽음의 형태를 결정하기 위한 멱지수(exponent)이며, r=1이 사용되면 크기 NSS이라 하고, r=2이 사용되면 파워 NSS이라 통상적으로 일컫는다.
비정적인 잡음환경에서, NSS의 과중차감은 추정된 잡음보다 많이 차감하여 잔재잡음의 꼭지점(peak) 성분을 감쇠시킬 수 있고, 음성왜곡을 증가시키며 비연속적인 잔여잡음을 유발할 수 있다. NSS의 과중차감은 SNR을 기반으로 적응적 또는 고정된 가중치를 사용한다. 한편, 비정적인 잡음환경에서, NSS의 스펙트럼 평탄화는 오염된 음성으로부터 개선된 음성이 포함하는 잔재잡음의 정도(amount)를 결정한다. 또한 NSS의 스펙트럼 평탄화는 크기에 따라 음성왜곡과 잔재잡음의 정도를 결정하고, 고정된 크기를 사용한다.
NSS 방법에 의해 개선된 음성은 다음과 같은 특성을 가질 수 있다. 첫째, 뮤지컬 잡음의 잔재를 억제하기 위해 과도한 과중차감 요소가 적용되면 음성신호의 손실로 인한 음성왜곡이 증가할 수 있다. 둘째, 반대로 낮은 과중차감 계수가 적용되면 다량의 뮤지컬 잡음이 잔재한다. 따라서 NSS 방법을 이용한 음질개선의 성패는 신뢰성 있는 잡음추정과 잡음의 양에 따라 결정되는 적응적 과중차감 요소의 설정에 있다.
음질개선 방법의 다른 예로서, 최소 평균자승 오차(Minimum Mean Square Error: MMSE) 단구간 스펙트럼 크기(short-time spectral amplitude)를 이용한 음질개선 방법이 있다. MMSE 단구간 스펙트럼 크기를 이용한 음질개선 방법은 오염된 음성으로부터 깨끗한 음성의 단구간 스펙트럼 크기를 추정하는 방법이다. 그리고, 이 방법은 음성과 잡음신호간의 스펙트럼 요소(component)가 서로가 독립(independent)이라는 가정하에서 영평균(zero mean)을 가진 가우시안 랜덤(Gaussian random) 변수 모델을 기반으로 한다. 깨끗한 음성의 스펙트럼 크기를 추정하기 위해 제안된 이득함수 Hi MMSE(f)기반 SS는 다음의 수학식으로 정의될 수 있다.
Figure 112012026740141-pat00018
Figure 112012026740141-pat00019
수학식 11 및 12를 참조하면, I0(·)와 I1(·)는 각각 변형된 영차(zero order)와 일차(first order) 베셀(Bessel) 함수를 의미한다. 또한 υi(f)는 다음의 수학식으로 정의된다.
Figure 112012026740141-pat00020
수학식 13에서, γi(f)와 ζi(f)는 각각 수학식 2의 사후 SNR과 다음 수학식 14의 사후 SNR인 SNRi PRIO(f)을 의미한다.
Figure 112012026740141-pat00021
수학식 14에서, P[·]는 반파정류를 의미한다.
도 2는 본 발명의 일 예에 따른 잡음 처리장치의 동작 순서도이다.
도 2를 참조하면, 잡음 처리장치는 잡음에 의해 오염된 음성의 스펙트럼 크기(또는 파워)로부터 잡음 추정을 수행하는 단계(S200), 추정된 잡음과 오염된 음성간의 신호대 잡음 비 SNR을 계산하는 단계(S205), 적응적 스펙트럼 평탄화 계수를 결정하는 단계(S210), 그리고 결정된 스펙트럼 평탄화 계수와 상기 계산된 SNR에 기반하여 NSS에 의해 개선된 음성을 계산하는 단계(S215)를 포함한다.
이하, 잡음 처리장치가 잡음을 처리하는 본 발명의 실시예를 구성하는 각 단계에 대하여 보다 구체적으로 설명한다. 잡음 처리장치는 잡음 추정을 수행한다(S200). 잡음 추정은, 오염된 음성 신호
Figure 112012026740141-pat00022
에 대한 푸리에 변환을 수행하고, 미분기를 이용한 필터링을 수행하며, 주파수 영역과 시간 영역에서의 평탄화 단계를 수행하고, 크기 SNR과 전방향 탐색 SNR을 이용하여 추정된 잡음
Figure 112012026740141-pat00023
을 계산하는 과정을 포함한다.
잡음 처리장치는 추정된 잡음과 오염된 음성간의 신호대 잡음비 SNR을 계산한다(S205). 예를 들어, 사후 SNR인 SNRi post(f)는 다음의 수학식에 의해 계산된다.
Figure 112012026740141-pat00024
다양한 잡음에 의해 오염된 음성으로부터 NSS를 이용하여 개선된 음성은 음성왜곡과 잔재잡음을 포함한다. 이는 NSS가 포함하는 잡음추정과 과중차감, 스펙트럼 평탄화를 잡음의 변화에 따라 정확히 설정하기 어렵기 때문이다. 즉, NSS에서 음성왜곡과 잔재잡음을 극복하기 위해 고정된(fixed) 스펙트럼 평탄화를 수동적으로 조절하는 경우가 대부분이다. 예를 들어, NSS의 스펙트럼 평탄화를 0.5(0, 1)로 하면, 개선된 음성은 잔재잡음 50%(0%, 100%)를 유지한다. NSS의 스펙트럼 평탄화 변화에 따른 개선된 음성은 다음과 같은 특성을 지닌다. 이는 NSS의 잡음 추정과 과중차감을 동일하게 적용함을 전제로 한다. i) 스펙트럼 평탄화 계수가 1에 가까워질수록 음성왜곡과 잔재잡음의 발생은 점차적으로 감소하는 반면, 잡음제거의 성능은 점차적으로 감소한다. ii) 스펙트럼 평탄화 계수가 0에 가까워질수록 음성왜곡과 잔재잡음의 발생은 점차적으로 증가하는 반면, 잡음제거의 성능은 점차적으로 증가한다.
인덱스 i인 현재 프레임에서, NSS에 의해 개선된 음성이 여전히 음성왜곡과 잔재잡음을 포함하는 특성을 고려하여, 잡음 처리장치는 잡음의 변화에 따라 적응적으로 스펙트럼 평탄화 계수 βASF(i+1)를 결정한다(S210). 일 예로서, βASF(i)는 다음 표의 알고리즘에 의해 계산될 수 있다.
IF Noise-like Frame THEN
IF Hi ASF(f) < βASF(i)+βASF(i)·μ THEN
? ? ? Hi ASF(f)=Hi ASF(f)·ψ?
ENDIF
??βASF(i+1)=βASF(i)-βINIT·η
IF βASF(i+1)<βMIN THEN
ASF(i+1)=βMIN
ENDIF
ELSE
? ?βASF(i+1)=βASF(i)+βINIT·η
IF βASF(i+1)>βMAX THEN
βASF(i+1)=βMAX
ENDIF
ENDIF
표 1의 알고리즘에 따르면, 잡음 처리장치는 현재 프레임(인덱스 i)이 잡음 유사 프레임(Noise-Like Frame)인지, 음성 유사 프레임(speech-like frame)인지에 따라, 다음 프레임(인덱스 i+1)에서의 적응적 스펙트럼 평탄화 계수 βASF(i+1)를 가변적으로 설정한다. Hi ASF(f)는 다음의 수학식에 의해 계산되는 적응적 이득함수이다.
Figure 112012026740141-pat00025
수학식 16을 참조하면, 0≤Hi ASF(f)≤1의 값을 가진다. 다시 표 1에서, μ는 잡음유사(noise-like) 영역에서 잡음유사 성분을 마스킹하기 위한 가중치로서, 0≤μ≤1이다. 이로써, 잡음 처리장치는 잡음유사 영역에서 잡음 마스킹 임계치에 기반하여 잡음유사 성분을 감쇄시킬 수 있다. 예를 들어, 표 1에서, 잡음유사 영역에서 조건 Hi ASF(f) < βASF(i)+βASF(i)·μ가 만족하는 경우, 잡음 처리장치는 Hi ASF(f)=Hi ASF(f)·ψ에 의해 잡음유사 성분을 감쇄시킨다. βINIT는 초기 스펙트럼 평탄화 계수이고, 0≤βINIT≤1이다. βMIN은 최소 스펙트럼 평탄화 계수이며, 0≤βMIN≤1이다. βMAX는 최대 스펙트럼 평탄화 계수이고, 0≤βMAX≤1이며, 0≤βMIN≤βINIT≤βMAX≤1이다. ψ는 Hi ASF(f)에 포함된 잡음유사 성분을 줄이기 위한 재설정(refining) 가중치로서, 0≤ψ≤1이다.
그리고 η는 잡음유사와 음성유사(speech-like) 영역에서 각각 βASF(i)를 적응적으로 변환하기 위한 가중치이며, 0≤η≤1이다.
일 예로서, 잡음 처리장치는 음성유사 영역에 비해 상대적으로 낮은 스펙트럼 평탄화 계수를 잡음유사 영역에 적용하여, 잔재잡음의 양을 줄인다. 예를 들어, 표 1에서 잡음 처리장치는 잡음유사 영역에서 βASF(i+1)=βASF(i)-βINIT·η에 의해 스펙트럼 평탄화 계수를 점차적으로 βMIN까지 줄여서 잔재잡음 성분을 효율적으로 감쇄시킨다.
다른 예로서, 잡음 처리장치는 잡음유사 영역보다 상대적으로 높은 스펙트럼 평탄화 계수를 음성유사 영역에 적용하여 음성왜곡을 줄인다. 예를 들어, 표 1에서 잡음 처리장치는 음성유사 영역에서 βASF(i+1)=βASF(i)+βINIT·η에 의해 스펙트럼 평탄화 계수를 점차적으로 βMAX까지 증가시켜 음성왜곡을 효율적으로 방지한다.
잡음 처리장치는 결정된 적응적 스펙트럼 평탄화 계수 βASF(i+1)와 적응적 이득함수 Hi ASF(f)를 기반으로, 수학식 17과 같이 개선된 음성
Figure 112012026740141-pat00026
을 계산한다(S215).
Figure 112012026740141-pat00027
도 3은 본 발명의 일 예에 따른 잡음 처리장치의 블록도이다.
도 3을 참조하면, 잡음 처리장치(300)는 잡음 추정유닛(305), 신호대잡음비(SNR) 계산부(310), 스펙트럼 평탄화 계수 계산부(315), 적응적 이득함수 계산부(320) 및 개선된 음성 출력부(325)를 포함한다.
잡음 추정유닛(305)은 오염된 음성 신호
Figure 112012026740141-pat00028
에 대한 푸리에 변환을 수행하고, 미분기를 이용한 필터링을 수행하며, 주파수 영역과 시간 영역에서의 평탄화 단계를 수행하고, 크기 SNR과 전방향 탐색 SNR을 이용하여 추정된 잡음
Figure 112012026740141-pat00029
을 계산한다.
신호대잡음비 계산부(310)는 추정된 잡음과 오염된 음성간의 신호대 잡음비 SNR을 계산한다. 예를 들어, 사후 SNR인 SNRi post(f)는 다음의 수학식에 의해 계산된다.
Figure 112012026740141-pat00030
스펙트럼 평탄화 계수 계산부(315)는 인덱스 i인 현재 프레임에서, NSS에 의해 개선된 음성이 여전히 음성왜곡과 잔재잡음을 포함하는 특성을 고려하여, 잡음 처리장치는 잡음의 변화에 따라 적응적으로 스펙트럼 평탄화 계수 βASF(i+1)를 결정한다. 일 예로서, 스펙트럼 평탄화 계수 계산부(315)는 다음 표의 알고리즘에 기반하여 βASF(i)를 계산할 수 있다.
IF Noise-like Frame THEN
IF Hi ASF(f) < βASF(i)+βASF(i)·μ THEN
? ? ? Hi ASF(f)=Hi ASF(f)·ψ?
ENDIF
??βASF(i+1)=βASF(i)-βINIT·η
IF βASF(i+1)<βMIN THEN
ASF(i+1)=βMIN
ENDIF
ELSE
? ?βASF(i+1)=βASF(i)+βINIT·η
IF βASF(i+1)>βMAX THEN
βASF(i+1)=βMAX
ENDIF
ENDIF
그리고 적응적 이득함수 계산부(320)는 스펙트럼 평탄화 계수 계산부(315)에 의해 얻어진 스펙트럼 평탄화 계수 βASF(i)를 다음의 수학식에 대입함으로써 적응적 이득함수 Hi ASF(f)를 계산한다.
Figure 112012026740141-pat00031
개선된 음성 출력부(325)는 계산된 적응적 이득함수 Hi ASF(f)를 기반으로, 수학식 20과 같이 개선된 음성
Figure 112012026740141-pat00032
을 계산한다.
Figure 112012026740141-pat00033
이러한 본 발명의 실시예에 따른 잡음 추정 장치(300)는 스피커폰이나 영상 통화용 통신 기기, 보청기, 블루투스 기기 등과 같은 음성 기반 어플리케이션 장치 또는 음성인식 시스템 등에 구비되어, 입력 노이지 음성 신호로부터 잡음의 상태를 판별하고, 또한 이를 이용하여 잡음 추정, 음질 개선, 및/또는 음성 인식을 하는데 이용될 수 있다.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시 예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시 예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims (10)

  1. 스펙트럼 차감(spectral subtraction)에 기반한 잡음 처리방법에 있어서,
    음성 신호를 입력받는 단계;
    상기 음성 신호에 포함된 잡음을 추정하는 단계;
    상기 음성 신호와 상기 추정된 잡음간의 신호대 잡음비(signal to noise ratio: SNR)를 계산하는 단계;
    상기 음성 신호에 대한 잡음유사(noisy-like) 영역인지 음성유사(speech-like) 영역인지에 따라 잔재잡음(residue noise)을 마스킹(masking)시키는 스펙트럼 평탄화 계수를 적응적으로 결정하는 단계;
    상기 스펙트럼 평탄화 계수와 상기 신호대 잡음비를 변수로 하는 이득함수를 계산하는 단계; 및
    상기 이득함수와 상기 음성 신호를 곱하여 개선된 음성을 계산하는 단계를 포함함을 특징으로 하는 잡음 처리방법.
  2. 제 1 항에 있어서,
    상기 스펙트럼 평탄화 계수는 상기 잡음유사 영역에서보다 상기 음성유사 영역에서 상대적으로 높은 값을 가지도록 결정됨을 특징으로 하는, 잡음 처리방법.
  3. 제 1 항에 있어서,
    상기 스펙트럼 평탄화 계수는 상기 잡음유사 영역에서보다 상기 음성유사 영역에서 상대적으로 낮은 값을 가지도록 결정됨을 특징으로 하는, 잡음 처리방법.
  4. 제 1 항에 있어서,
    상기 스펙트럼 평탄화 계수는 미리 정해진 최대값과 최소값 사이에서 결정되는 것을 특징으로 하는, 잡음 처리방법.
  5. 제 1 항에 있어서, 상기 이득함수 Hi ASF(f)는 다음의 수학식에 의해 계산됨을 특징으로 하는, 잡음 처리방법.
    Figure 112012026740141-pat00034

    상기 수학식에서, i는 프레임 인덱스이고, α는 상기 음성 신호에서 뮤지컬 잡음의 잔재를 억제하는 과중차감 계수이며, βASF(i)는 스펙트럼 평탄화 계수이고,
    Figure 112012026740141-pat00035
    는 상기 추정된 잡음이며,
    Figure 112012026740141-pat00036
    는 상기 음성 신호이고, r은 차감 굽음의 형태를 결정하는 멱지수(exponent)임.
  6. 스펙트럼 차감에 기반한 잡음 처리장치에 있어서,
    음성 신호를 입력받고, 상기 음성 신호에 포함된 잡음을 추정하는 잡음 추정 유닛;
    상기 음성 신호와 상기 추정된 잡음간의 신호대 잡음비(SNR)를 계산하는 신호대 잡음비 계산부;
    상기 음성 신호에 대한 잡음유사 영역인지 음성유사 영역인지에 따라 잔재잡음을 마스킹시키는 스펙트럼 평탄화 계수를 적응적으로 결정하는 스펙트럼 평탄화 계산부;
    상기 스펙트럼 평탄화 계수와 상기 신호대 잡음비를 변수로 하는 이득함수를 계산하는 적응적 이득함수 계산부; 및
    상기 적응적 이득함수와 상기 음성 신호를 곱하여 개선된 음성을 계산하는 개선된 음성 출력부를 포함함을 특징으로 하는 잡음 처리장치.
  7. 제 6 항에 있어서, 스펙트럼 평탄화 계산부는,
    상기 스펙트럼 평탄화 계수가 상기 잡음유사 영역에서보다 상기 음성유사 영역에서 상대적으로 낮은 값을 가지도록 결정함을 특징으로 하는, 잡음 처리장치.
  8. 제 6 항에 있어서, 스펙트럼 평탄화 계산부는,
    상기 스펙트럼 평탄화 계수가 상기 잡음유사 영역에서보다 상기 음성유사 영역에서 상대적으로 높은 값을 가지도록 결정함을 특징으로 하는, 잡음 처리장치.
  9. 제 6 항에 있어서, 스펙트럼 평탄화 계산부는,
    미리 정해진 최대값과 최소값 사이에서 상기 스펙트럼 평탄화 계수를 결정함을 특징으로 하는, 잡음 처리장치.
  10. 제 6 항에 있어서, 상기 적응적 이득함수 계산부는
    다음의 수학식에 의해 이득함수 Hi ASF(f)를 계산함을 특징으로 하는, 잡음 처리장치.
    Figure 112012026740141-pat00037

    상기 수학식에서, i는 프레임 인덱스이고, α는 상기 음성 신호에서 뮤지컬 잡음의 잔재를 억제하는 과중차감 계수이며, βASF(i)는 스펙트럼 평탄화 계수이고,
    Figure 112012026740141-pat00038
    는 상기 추정된 잡음이며,
    Figure 112012026740141-pat00039
    는 상기 음성 신호이고, r은 차감 굽음의 형태를 결정하는 멱지수임.
KR1020120034546A 2012-04-03 2012-04-03 적응적 잡음 처리 장치 및 방법 KR101394504B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020120034546A KR101394504B1 (ko) 2012-04-03 2012-04-03 적응적 잡음 처리 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120034546A KR101394504B1 (ko) 2012-04-03 2012-04-03 적응적 잡음 처리 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20130112287A KR20130112287A (ko) 2013-10-14
KR101394504B1 true KR101394504B1 (ko) 2014-05-13

Family

ID=49633313

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120034546A KR101394504B1 (ko) 2012-04-03 2012-04-03 적응적 잡음 처리 장치 및 방법

Country Status (1)

Country Link
KR (1) KR101394504B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102288182B1 (ko) * 2020-03-12 2021-08-11 한국과학기술원 음성 사생활 보호 방법, 음성 사생활 보호 장치 및 이를 이용한 모바일 단말

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090104557A (ko) * 2008-03-31 2009-10-06 (주)트란소노 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090104557A (ko) * 2008-03-31 2009-10-06 (주)트란소노 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체

Also Published As

Publication number Publication date
KR20130112287A (ko) 2013-10-14

Similar Documents

Publication Publication Date Title
KR100335162B1 (ko) 음성신호의잡음저감방법및잡음구간검출방법
US8521530B1 (en) System and method for enhancing a monaural audio signal
US6023674A (en) Non-parametric voice activity detection
US7873114B2 (en) Method and apparatus for quickly detecting a presence of abrupt noise and updating a noise estimate
EP2056296B1 (en) Dynamic noise reduction
CN109273019B (zh) 用于回声抑制的双重通话检测的方法及回声抑制
WO2012102977A1 (en) Method and apparatus for masking wind noise
WO2008101324A1 (en) High-frequency bandwidth extension in the time domain
KR20100003530A (ko) 전자기기에서 음성 신호의 잡음 제거 장치 및 방법
CN111554315A (zh) 单通道语音增强方法及装置、存储介质、终端
US11664040B2 (en) Apparatus and method for reducing noise in an audio signal
CN113539285B (zh) 音频信号降噪方法、电子装置和存储介质
US20200286501A1 (en) Apparatus and a method for signal enhancement
US9137611B2 (en) Method, system and computer program product for estimating a level of noise
CN106782586B (zh) 一种音频信号处理方法及装置
US7885810B1 (en) Acoustic signal enhancement method and apparatus
CN103813251A (zh) 一种可调节去噪程度的助听器去噪装置和方法
US7889874B1 (en) Noise suppressor
CN112151060B (zh) 单通道语音增强方法及装置、存储介质、终端
Upadhyay et al. Spectral subtractive-type algorithms for enhancement of noisy speech: an integrative review
KR101394504B1 (ko) 적응적 잡음 처리 장치 및 방법
US9666206B2 (en) Method, system and computer program product for attenuating noise in multiple time frames
US20190035382A1 (en) Adaptive post filtering
EP3566229B1 (en) An apparatus and method for enhancing a wanted component in a signal
US20130054233A1 (en) Method, System and Computer Program Product for Attenuating Noise Using Multiple Channels

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20170529

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20180531

Year of fee payment: 5