KR101088627B1 - 잡음 억압 장치 및 잡음 억압 방법 - Google Patents

잡음 억압 장치 및 잡음 억압 방법 Download PDF

Info

Publication number
KR101088627B1
KR101088627B1 KR1020090101089A KR20090101089A KR101088627B1 KR 101088627 B1 KR101088627 B1 KR 101088627B1 KR 1020090101089 A KR1020090101089 A KR 1020090101089A KR 20090101089 A KR20090101089 A KR 20090101089A KR 101088627 B1 KR101088627 B1 KR 101088627B1
Authority
KR
South Korea
Prior art keywords
noise
gain
frame
noise suppression
input signal
Prior art date
Application number
KR1020090101089A
Other languages
English (en)
Other versions
KR20100045933A (ko
Inventor
엔카이 리우
Original Assignee
야마하 가부시키가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 야마하 가부시키가이샤 filed Critical 야마하 가부시키가이샤
Publication of KR20100045933A publication Critical patent/KR20100045933A/ko
Application granted granted Critical
Publication of KR101088627B1 publication Critical patent/KR101088627B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/083Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Noise Elimination (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

본 발명은 뮤지컬 노이즈를 발생시키지 않고, 또한 음성 프레임 및 잡음 프레임간의 절환 장면에서도 잡음량의 변화가 자연스러운, 잡음 억압 장치를 제공하는 것을 과제로 한다.
K개의 주파수 대역마다(단, K는 2 이상의 자연수) 입력 신호에 포함되는 잡음 스펙트럼을 추정하는 잡음 스펙트럼 추정부(20)와, 그 추정 결과에 기초하여, 상기 K개의 주파수 대역마다의 잡음 억압 게인을 산출하는 잡음 억압 게인 연산부(30)와, 상기 잡음 억압 게인에 대한, 상기 K개의 주파수 대역에 관한 평균치 게인을 산출하는 잡음 기간ㆍ잡음 억압 게인 연산부(40)와, 상기 입력 신호에 관한 상기 K개의 주파수 대역의 전부에 대해, 상기 평균치 게인을 적용함으로써, 당해 입력 신호에 포함되는 잡음을 억압하는 잡음 억압 수단을 구비한다.
잡음 억압 장치, 잡음 스펙트럼 추정부, 게인 연산 수단, 잡음 억압 수단

Description

잡음 억압 장치 및 잡음 억압 방법{NOISE SUPPRESSION DEVICE AND NOISE SUPPRESSION METHOD}
본 발명은, 잡음 억압 장치 및 잡음 억압 방법에 관한 것이다.
종래, 입력 신호에 따라서 스피커 등의 부하를 구동하는 음성 재생 장치, 원격지간에 음성을 전달하는 음성 통신 장치, 음성의 종별 등을 구별ㆍ인식함으로써 그 의미 등을 이해하는 음성 인식 장치 등등이 제안되어 있다. 이들 각 장치에서는, 음성을 정확하게 재생하고, 전달하고, 혹은 인식 등 하기 위해, 거기에 포함되는 잡음의 영향이 제거되는 것이 적합하다.
그와 같은 잡음 억압의 기술로서는, 예를 들어 이하의 특허 문헌 1 및 비특허 문헌 1 내지 비특허 문헌 4에 개시되어 있는 바와 같은 것이 알려져 있다.
[특허 문헌 1] 일본 특허 공개 제2007-226264호 공보
[비특허 문헌 1] Boll, S.,"Suppression of acoustic noise in speech using spectral subtraction", IEEE Trans. Vol.ASSP-27, No.2, pp.113-120, 1979.
[비특허 문헌 2] M. Berouti, el al, "Enhancement of Speech Corrupted by Acoustic Noise", Proceedings of ICASSP, pp.201-211, 1979.
[비특허 문헌 3] Lim & Oppenheim, "Enhancement and Bandwidth Compression of Noisy Speech", Proc.IEEE, Vol.67, No.12, pp.1586-1604, 1979
[비특허 문헌 4] Y. Ephraim and D. Malah, "Speech Enhancement Using a Minimum Mean-Square Error Short-Time Spectral Amplitude Estimator", IEEE Trans. Vol.ASSP-32, No.6, pp.1109-1121, 1984.
이들 각 문헌에 개시되는 기술은, 기본적으로, 주파수 영역의 진폭 스펙트럼의 레벨을 적당한 방법에 의해 차감함으로써 잡음을 억압하는 방법, 즉 소위 스펙트럴 서브트랙션법(Spectral Subtraction)에 관련하여, 이들 어느 기술에 의해서도 일정한 잡음 억압 효과가 향수될 수 있다.
그러나, 이들 문헌에 있어서는 미개시ㆍ미해결의 과제는 아직 있다.
예를 들어, 상기한 스펙트럴 서브트랙션법은, 입력 신호 중에 포함되는 잡음 스펙트럼을 추정하고, 그 잡음 스펙트럼 추정치를 진폭 스펙트럼으로부터 차감하는 방법에 기초하지만, 이 경우, 소위 뮤지컬 노이즈가 발생할 우려가 높다고 하는 문제가 있다. 이는, 여기서 말하는 잡음 스펙트럼 추정치가, 반드시 실제의 잡음 스펙트럼을 반영한다고는 할 수 없는 것에 의한다. 즉, 어느 주파수 대역에서는, 잡음 스펙트럼 추정치를 차감한 후에도 아직 잡음이 남는 경우가 있고, 또한 다른 주파수 대역에서는, 과잉 차감이 발생하는 경우가 있다. 이로 인해, 잡음 스펙트럼차감 후의 진폭 스펙트럼을 시간 영역으로 재변환하면, 복수의 랜덤의 주파수를 갖 는 정현파가 합성된 것이 나타날 가능성이 있고, 이것이 재생됨으로써 상당히 귀에 거슬리는 잡음(즉, 뮤지컬 노이즈)이 발생하게 될 우려가 있는 것이다.
또한, 입력 신호 중에는, 주로 음성이 차지하는 부분(음성 부분)과, 그것이 거의 없는 부분(잡음 부분)이 존재한다.
이와 같은 상황 하에서, 예를 들어, 전술한 비특허 문헌 1과 같이, 음성 부분에는 스펙트럴 서브트랙션법을 적용하지만, 잡음 부분에는 고정 게인을 적용하여 잡음을 억압하는 경우, 그 고정 게인의 값이 너무 작을 때는, 잡음 부분으로부터 음성 부분으로의 절환 장면에 있어서, 배경 잡음량이 커지는 현상이 생기고, 고정 게인의 값이 너무 클 때는, 반대로 배경 잡음량이 작아지는 현상이 발생할 수 있다. 이것이 예를 들어 재생되면, 청취자에게 청감상의 부자연스러움을 느끼게 할 우려가 높다.
본 발명은, 상술한 과제의 적어도 일부를 해결하는 것이 가능한 잡음 억압 장치 및 잡음 억압 방법을 제공하는 것을 과제로 한다.
본 발명에 관한 잡음 억압 장치는, 상술한 과제를 해결하기 위해, K개의 주파수 대역(단, K는 2 이상의 자연수)의 각각에 대해, 입력 신호에 포함되는 잡음 스펙트럼을 당해 입력 신호에 기초하여 추정하는 잡음 스펙트럼 추정 수단과, 상기 잡음 스펙트럼 추정 수단에 의한 잡음 스펙트럼의 추정 결과에 기초하여, 상기 K개의 주파수 대역의 각각의 잡음 억압 게인을 산출하는 제1 게인 연산 수단과, 상기 잡음 억압 게인에 대해, 상기 K개의 주파수 대역의 전부 또는 일부에 관한 평균치 게인을 산출하는 제2 게인 연산 수단과, 상기 입력 신호에 관한 상기 K개의 주파수 대역의 전부 또는 일부에 대해, 상기 평균치 게인을 적용함으로써, 당해 입력 신호에 포함되는 잡음을 억압하는 잡음 억압 수단을 구비한다.
본 발명에 따르면, K개의 잡음 스펙트럼, 및 K개의 잡음 억압 게인을 각각 구할 수 있다. 그리고, 제2 게인 연산 수단은, 이 중 K개의 잡음 억압 게인으로부터 평균치 게인을 산출한다. 즉, 본 발명에 있어서「K개의 주파수 대역의 전부…에 관한」평균치를 구한다라 함은, 잡음 억압 게인이, 가령 G(1), G(2),…, G(K)라고 하면, 예를 들어 평균치 게인 Gave가, Gave=(G(1)+G(2)+…+G(K))/K 등으로 구해지는 것이다(또한, 이 예에 있어서와 같은 평균치 게인을 구하는 데 있어서는, K개 모든 잡음 억압 게인을 반드시 사용할 필요는 없음. 본 발명에서 말하는「K개의 주파수 대역의…『일부』에 관한 평균치 게인」이라 함은, 그와 같은 경우를 함의함).
그리고, 본 발명에서는, 이와 같은 평균치 게인 Gave가, K개의 주파수 대역의 전부 또는 일부에 대한 입력 신호에 적용된다. 예를 들어, 시간 영역에 있는 입력 신호가, 주파수 영역으로 변환하여 얻어지는 진폭 스펙트럼이, Y(1), Y(2),…,Y(K)라고 하면, 주파수 영역에 있는 출력 신호가, GaveㆍY(1), GaveㆍY(2),…, GaveㆍY(K) 등으로 얻어지게 된다.
이와 같은 이유로, 본 발명에 있어서는, 잡음 억압 효과가 향수되는 것은 물론, 예를 들어 전술한 바와 같은 잡음 스펙트럼 추정치에 의한 진폭 스펙트럼의 과잉 차감의 사례 등이 발생하지 않고, 따라서 뮤지컬 노이즈의 발생이 매우 실효적 으로 억압된다.
본 발명에 관한 잡음 억압 장치에서는, 상기 제2 게인 연산 수단은, 상기 평균치 게인을 시간축 상에서 평활화한 평활화 게인을 산출하고, 상기 잡음 억압 수단은, 상기 입력 신호에 관한 상기 K개의 주파수 대역의 전부 또는 일부에 대해, 상기 평활화 게인을 적용함으로써, 당해 입력 신호에 포함되는 잡음을 억압하도록 구성해도 된다.
이 형태에 따르면, 상기 평균치 게인을 시간축 상에서 평활화한 평활화 게인이 산출된다. 따라서, 이 평활화 게인은, 전술한 평균화 처리된 후에, 또한 평활화 처리된 것이다(이 점을 중시하면, 이 평활화 게인은, 평균화ㆍ평활화 게인이라고도 할 수 있음). 또한,「시간축 상에서 평활화」라 함은, 산출 후의 평활화 게인이, 시계열을 따라, Gsmt-T(1), Gsmt-T(2),…, Gsmt-T(r),…,라고 되어 있다고 하면(r은 적당한 정수), 예를 들어 적당한 평활화 계수 δ를 사용하여, Gsmt-T(r)=δㆍGsmt-T(r-1)+(1-δ)ㆍGave 등으로서 산출되는 것을 의미한다
이에 따르면, 평균치 게인(정확하게 말하면, 평활화된 평균치 게인. 즉, 본 형태에서 말하는「평활화 게인」)의 시간의 경과에 따른 급격한 변화가 발생하지 않으므로, 잡음 억압 처리의 연속성ㆍ일관성이 유지된다.
또한, 본 발명에 있어서는, 후술하는 바와 같이, 경시적으로(즉, 시간의 경과에 따라) 구분된 프레임마다의 처리가 행해지면 적합하지만, 그 경우, 본 형태에서 말하는「시간축」은, 보다 구체적으로는, 그 프레임의 하나하나가 순서대로 배열되어 가는 경우에 관념되는 축으로서 상정될 수 있다. 이 점에 대한, 보다 상세한 구체예에 대해서는, 후술하는 실시 형태, 특히 수학식 4에 관하여 설명된다.
또한, 본 발명에 관한 잡음 억압 장치에서는, 상기 입력 신호에 포함되는 음성의 유무를 경시적으로 검출함으로써, 당해 입력 신호를 당해 음성이 포함되는 음성 프레임 및 당해 음성이 포함되지 않는 잡음 프레임으로 구분하는 음성 검출 수단을 더 구비하고, 상기 잡음 억압 수단은, 상기 입력 신호 중 상기 잡음 프레임에 해당하는 부분에, 상기 평균치 게인 또는 상기 평활화 게인을 적용하도록 구성해도 된다.
이 형태에 따르면, 전술한 평균치 게인, 혹은 평활화 게인이, 잡음 프레임에, 보다 적합하게는 잡음 프레임에만 적용된다. 잡음 프레임에서는, 뮤지컬 노이즈가 비교적으로 발생하기 쉬운 점에서 보면, 본 형태는, 그것을 목표로 하는 것처럼 평균치 게인 등의 적용을 행하게 되므로, 뮤지컬 노이즈 억압 효과를 얻기 위한 최적의 형태의 하나라 할 수 있다.
또한, 본 형태에 있어서, 음성이「포함된다」혹은「포함되지 않는다」라는 용어는, 말하자면 절대적인 의미로 해석되어서는 안 된다. 예를 들어, "모두가 음성"으로 채워진 프레임과, "전혀 음성이 존재하지 않음"의 프레임이라는 2개의 형태가 관념적으로는 상정되지만, 이 양자 양극단부를 가리켜「음성 프레임」 및 「잡음 프레임」의 구별이 행해지는 경우로 본 형태가 한정되는 것은 물론 아니고, 또한 후자만이「잡음 프레임」이고, 그 이외는 모두「음성 프레임」이라는 구별이 행해지는 경우로, 본 형태가 한정되는 것도 아니다. 즉, 본 형태는,「잡음 프레임」으로 인정되는 경우에 있어서도, 당해의 잡음 프레임에「음성」이 전혀 포함되어 서는 안 된다는 것까지 요구하지 않고, 본 형태에서 말하는「음성 프레임」및「잡음 프레임」의 구별은, 상기의 2가지의 경우의 적당한 중간점을 기준으로 행해지면 되는 것이다.
이상과 같은 의미에 있어서, 본 형태에서 말하는「포함된다」혹은「포함되지 않는다」라는 용어, 혹은 본 형태에 관한「음성 프레임」및「잡음 프레임」의 구별은, 상대적인 것이라 할 수 있다.
이 형태에서는, 상기 잡음 억압 수단은, 상기 입력 신호 중 상기 음성 프레임에 해당하는 부분에 상기 잡음 억압 게인을 적용하도록 구성해도 된다.
이 형태에 따르면, 전술한 잡음 억압 게인이 음성 프레임에 적용된다. 이 형태는, 바로 앞에 설명한 형태와 병존 가능하지만, 그 경우, 적합하게는, 음성 프레임에서는 평균화 처리를 거치지 않는 말하자면 통상의 잡음 억압 게인만이 이용되고, 잡음 프레임에서는, 평균화 처리를 거친, 평균치 게인 또는 평활화 게인만이 이용되게 되는 것이 된다. 음성 프레임에서는, 잡음의 존재가 그다지 눈에 띄지 않고, 잡음 프레임에서는, 그 반대라는 사정을 감안한다면, 본 형태에 관한 처리 내용은 매우 합리적ㆍ효율적ㆍ실효적인 잡음 억압 효과를 향수 가능하게 한다.
상기한「음성 검출 수단」을 포함하는 본 발명의 형태에서는, 상기 잡음 스펙트럼 추정 수단은, 상기 음성 프레임에 관한 잡음 스펙트럼을 추정하고자 하는 경우에 있어서, 당해 음성 프레임에 가장 가까운 잡음 프레임에 관하여 이미 추정된 잡음 스펙트럼을, 당해 음성 프레임에 있어서의 잡음 스펙트럼이라 추정하도록 구성해도 된다.
이 형태에 따르면, 음성 프레임에 있어서의 잡음 스펙트럼에는, 그의 가장 가깝게 처리된 잡음 프레임에 있어서의 잡음 스펙트럼이 해당된다. 여기서, 잡음 억압 게인은, 추정된 잡음 스펙트럼에 기초하여 구해지는 것이므로, 당해의 음성 프레임에 있어서의 잡음 억압 게인도 또한, 기본적으로는, 당해의 잡음 프레임에 있어서의 잡음 억압 게인이 해당되는 것이 된다(단, 이 경우, 양자간에 값이 다른 경우는 당연히 있을 수 있음).
이와 같은 이유로, 본 형태에 있어서는, 가장 가까운 잡음 프레임에서 실행된 잡음 억압 처리가, 그에 계속되는 음성 프레임에 있어서의 잡음 억압 처리에 말하자면 이어지게 되어, 잡음 프레임으로부터 음성 프레임으로의 절환 장면에 있어서, 잡음 억압 처리의 일관성이 유지된다. 이에 의해, 당해 절환 장면에 있어서, 잡음량이 급격하게 변화되는 등의 현상의 발생이 미연에 방지된다.
또한, 마찬가지로 상기한「음성 검출 수단」을 포함하는 본 발명의 형태에서는, 상기 잡음 스펙트럼 추정 수단은, 상기 잡음 프레임에 관한 잡음 스펙트럼을 추정하고자 하는 경우에는, 일시적 스펙트럼 추정치를 산출한 후, 당해 잡음 프레임의 직전의 프레임에 있어서의 잡음 스펙트럼 추정치를 사용하여, 당해 일시적 스펙트럼 추정치를 시간축 상에서 평활화한 평활화 잡음 스펙트럼 추정치를 산출하고, 이 평활화 잡음 스펙트럼 추정치를, 당해 잡음 프레임에 있어서의 잡음 스펙트럼이라 추정하고, 상기 음성 프레임에 관한 잡음 스펙트럼을 추정하고자 하는 경우에는, 당해 음성 프레임 직전의 프레임에 있어서의 잡음 스펙트럼 추정치를 그대로, 당해 음성 프레임에 있어서의 잡음 스펙트럼이라 추정하도록 구성해도 된다.
이 형태에 따르면, 음성 프레임 및 잡음 프레임 각각에 대한 잡음 스펙트럼이 적절하게 추정된다. 잡음 프레임에 관해서는, 평활화 잡음 스펙트럼 추정치가 산출되므로, 잡음 억압 처리의 일관성ㆍ연속성이 유지되고, 음성 프레임에 관해서는, 전술한 바와 같은「가장 가까운 잡음 프레임」에 있어서의 잡음 스펙트럼의 유지가 적절하게 이루어진다(즉, 본 형태에 따르면, 어느 잡음 프레임에 대해 잡음 스펙트럼이 이미 추정되어 있으면, 그 후, 음성 프레임이 계속되는 한은, 당해 잡음 스펙트럼이 계속해서 유지됨).
또한, 본 형태에 있어서, 단순히「프레임」이라 하는 경우, 그것은「음성 프레임」인 경우도 있고,「잡음 프레임」인 경우도 있다.
이 점에 대한, 보다 상세한 구체예에 대해서는, 후술하는 실시 형태, 특히 수학식 1에 관하여 설명된다.
한편, 본 발명에 관한 잡음 억압 방법은, 상기 과제를 해결하기 위해, K개의 주파수 대역(단, K는 2 이상의 자연수) 각각에 대해, 입력 신호에 포함되는 잡음 스펙트럼을 당해 입력 신호에 기초하여 추정하는 잡음 스페트럼 추정 공정과, 상기 잡음 스펙트럼 추정 공정에 있어서의 잡음 스펙트럼의 추정 결과에 기초하여, 상기 K개의 주파수 대역 각각의 잡음 억압 게인을 산출하는 제1 게인 연산 공정과, 상기 잡음 억압 게인에 대해, 상기 K개의 주파수 대역의 전부 또는 일부에 관한 평균치 게인을 산출하는 제2 게인 연산 공정과, 상기 입력 신호에 관한 상기 K개의 주파수 대역의 전부 또는 일부에 대해 상기 평균치 게인을 적용함으로써, 당해 입력 신호에 포함되는 잡음을 억압하는 잡음 억압 공정을 포함한다.
본 발명에 따르면, 상술한, 본 발명에 관한 잡음 억압 장치에 관하여 설명한 작용 효과와 본질적으로 다르지 않은 작용 효과가 발휘되는 것이 명백하다.
본 발명에 관한 잡음 억압 방법에서는, 상기 입력 신호에 포함되는 음성의 유무를 검출함으로써, 당해 입력 신호를 당해 음성이 포함되는 음성 프레임 및 당해 음성이 포함되지 않는 잡음 프레임으로 구분하는 음성 검출 공정을 더 포함하고, 상기 잡음 억압 공정은 상기 입력 신호 중 상기 잡음 프레임에 해당하는 부분에 상기 평균치 게인을 적용하도록 구성해도 된다.
이 형태에 따르면, 상술한, 본 발명에 관한 잡음 억압 장치의 각종 형태 중, 잡음 프레임에 평균치 게인을 적용하는 형태에 관하여 설명한 작용 효과와 본질적으로 다르지 않은 작용 효과가 발휘되는 것이 명백하다.
또한, 본 형태에서 말하는「포함된다」혹은「포함되지 않는다」라는 용어의 의의에 대해서는, 상술과 마찬가지이다.
이상 외에, 본 발명의, 보다 구체화된 형태, 혹은 그에 의해 발휘되는 작용 효과는, 바로 이후에서 시작되는 실시 형태에 있어서의 기재에 있어서 명백해진다.
본 발명에 따르면, 상술한 과제의 적어도 일부를 해결하는 것이 가능한 잡음 억압 장치 및 잡음 억압 방법을 제공할 수 있다.
<제1 실시 형태>
이하에서는, 본 발명에 관한 제1 실시 형태에 대해 도 1을 참조하면서 설명 한다. 또한, 여기에 언급한 도 1에 부가하여, 이하에서 참조하는 각 도면(예를 들어 도 6 등의 그래프도 포함함)에 있어서는, 각 부의 치수의 비율이 실제의 것과는 적절하게 다르게 되어 있는 경우가 있다.
잡음 억압 장치(1)는, 도 1에 도시하는 바와 같이, 시간ㆍ주파수 변환부(10), 잡음 스펙트럼 추정부(20), 잡음 억압 게인 연산부(30), 잡음 기간ㆍ잡음 억압 게인 연산부(40), 원음 가산율 연산부(50), 원음 가산 게인 연산부(60), 주파수ㆍ시간 변환부(70) 및 음성 검출부(80)로 이루어진다.
시간ㆍ주파수 변환부(10)는, 시간 영역의 입력 신호에 푸리에 변환을 가하여, 주파수 영역의 신호로 변환한다. 이 푸리에 변환은, 입력 신호를 경시적으로 소정수의 프레임으로 나누고, 또한 그 프레임에 적당한 창함수를 적용하는 것을 통해 행해지는 것이 적합하다.
상기한 주파수 영역의 신호는, 진폭 스펙트럼 및 위상 스펙트럼으로 나누어지고, 이 중 위상 스펙트럼은, 후술하는 주파수ㆍ시간 변환부(70)에 그대로 보내진다. 한편, 진폭 스펙트럼은, 후술하는 잡음 스펙트럼 추정부(20) 이후의 각 부에 보내져, 후술하는 각종 처리를 받는다.
상기한 시간 영역의 입력 신호는 음성 검출부(80)에도 공급된다. 음성 검출부(80)는 이 입력 신호 중 음성 신호의 유무를 검출한다. 전술한 바와 같이, 입력 신호가 프레임으로 나누어지는 경우에는, 프레임마다의 음성 검출이 행해진다(또한, 제1 실시 형태에서는, 이와 같은 처리를 전제로 함). 여기서「음성」이라 함은 특히, 회화, 구어, 음악, 각종 신호 등등, 사람에 있어서 의미있는 음향을 의미 한다. 즉, 입력 신호를 적당한 재생 수단에 의해 재생한다고 한 경우, 그 입력 신호 중의「음성 신호」를 재생하면, 당해 음향이 된다는 관계가 성립한다.
이 음성 신호는, 예를 들어 입력 신호의 레벨이 미리 정한 임계치를 초과하는지 여부를 기준으로 하여 검출된다. 하지만, 본 발명은, 이 이외에도 다양한 방법을 채용하는 것이 가능하다. 예를 들어, 확률ㆍ통계적 방법을 이용하여 음성 신호의 발생 확률을 추정하는 방법 등이 채용되어도 되고, 혹은 검출 대상으로서도, 상기 입력 신호를 이용하는 것이 아닌, 그 푸리에 변환 후의 신호(즉, 상기에서 말하는 주파수 영역의 신호)를 이용하는 방법 등이 채용되어도 된다.
또한, 이하에서는, 이 음성 검출부(80)에 의해 음성 신호가 존재한다고 판정된 프레임은「음성 프레임」으로, 존재하지 않는다고 판정된 프레임은「잡음 프레임」으로, 각각 부르는 경우가 있다. 또한, 여기서 존재ㆍ존재하지 않음이라 하는 것은, 말하자면 절대적인 의의를 갖지 않는다. 전술한 바와 같이, 음성 신호의 유무가 소정의 임계치를 기준으로 판단되는 경우가 있는 이상,「잡음 프레임」에, 엄밀하게 말하면 음성 신호라 부를 수 있는 것이 포함되어 있을 가능성은 배제되지 않는다.
잡음 스펙트럼 추정부(20)는 상기 진폭 스펙트럼에 기초하여 잡음 스펙트럼의 추정치를 산출한다. 제1 실시 형태에서는 특히, 이하의 수학식 1에 기초하여, 소정의 개수로 분할된 주파수 대역마다의 잡음 스펙트럼이 추정된다.
Figure 112009064991181-pat00001
여기서, Nt(n)는 실제로 처리 중인 프레임에 있어서의 잡음 스펙트럼 추정치, Nt -1(n)은, 그 직전의 프레임에 있어서의 잡음 스펙트럼 추정치(따라서, "t"는, 실제로 처리 중인 프레임 그 자체를 표현하는 첨자임), Y(n)는 입력된 진폭 스펙트럼, n은 주파수 대역[에 부여된 번호. 또한, 주파수 대역은 N개로 분할됨. 또한, 이 N은 본 발명에서 말하는「K개의 주파수 대역」의 K 이하(N≤K)임], β는 평활화 계수이다. 또한, 수학식 1 중, caseㆍA로 되어 있는 것은, 잡음 스펙트럼 추정부(20)가 잡음 프레임을 처리하는 경우를 표현하고, caseㆍB로 되어 있는 것은, 음성 프레임을 처리하는 경우를 표현하고 있다.
이와 같이, 잡음 스펙트럼 추정부(20)는, 실제로 처리하고 있는 프레임이 잡음 프레임인지 음성 프레임인지에 따라서, 잡음 스펙트럼 추정치 Nt(n)를 구하기 위해 이용하는 식을 변경한다. 즉, 음성 프레임 처리시(caseㆍB)에는, 그 직전의 잡음 스펙트럼 추정치를 그대로 이용하여 잡음 스펙트럼 추정치 Nt(t)를 구하고, 잡음 프레임 처리시(caseㆍA)에는, 입력한 진폭 스펙트럼을 시간축 상에서 평활화함으로써, 잡음 스펙트럼 추정치 Nt(n)를 구한다.
잡음 억압 게인 연산부(30)는, 상기 진폭 스펙트럼과, 수학식 1에서 구해진 잡음 스펙트럼 추정치 Nt(n)에 기초하여, 잡음 억압 게인을 산출한다. 제1 실시 형태에서는 특히 이하의 수학식 2에 의해 잡음 억압 게인을 산출한다.
Figure 112009064991181-pat00002
여기서, max(a, b)는, a 및 b 중 어느 하나의 큰 값을 되돌려주는 함수를 의미한다(이하, 동일).
이 수학식 2에 의해, 입력된 진폭 스펙트럼 Y(n)에 대한 잡음 스펙트럼 추정치 Nt(n)와의 사이에 있어서, Y(n)<Nt(n)가 성립하는 경우에는, G(n)=0이 되고, Y(n)>Nt(n)가 성립하는 경우에는, G(n)=(Y(n)-Nt(n))/Y(n)가 된다.
이 잡음 억압 게인 연산부(30)에서 산출된 잡음 억압 게인은, 상기 음성 검출부(80)에 의해 구분된 음성 프레임 및 잡음 프레임의 각각에 따라서, 잡음 기간ㆍ잡음 억제 게인 연산부(40)를 통해 또는 직접적으로 원음 가산 게인 연산부(60)에 공급된다. 도 1에 도시하는 잡음 억압 장치(1)는 이와 같은 처리를 실현하기 위한 스위치를 구비한다(도면 중 호선 화살표 참조).
잡음 기간ㆍ잡음 억압 게인 연산부(40)[이하, 간단하게 하기 위해,「잡음 기간용 게인 연산부(40)」라고 하는 경우가 있음]는, 잡음 프레임에 적용할 잡음 억압 게인을 산출한다. 제1 실시 형태에 있어서는, 이 잡음 억압 게인을 산출하기 위해, 이하의 방법이 취해진다.
우선, 수학식 2에서 구해진 잡음 억압 게인 G(n)에 기초하여, 이하의 수학식 3으로 표현되는 g가 산출된다.
Figure 112009064991181-pat00003
이 g는, 수학식 3의 우측변으로부터 명백한 바와 같이, 수학식 2의 잡음 억압 게인에 대한, 주파수 대역 n에 관한 평균치를 의미한다.
계속해서, 이 수학식 3의 잡음 억압 게인 평균치 g가, 이하의 수학식 4에 의해 평활화된다.
Figure 112009064991181-pat00004
여기서, μ는 평활화 계수, Gt는 실제로 처리 중인 잡음 프레임에 대한 잡음 억압 게인, Gt -1은 그 직전에 처리한 잡음 프레임에 대한 잡음 억압 게인이다.
전술한 수학식 1의 caseㆍA로서 나타내어지는 식도 그렇지만, 이 수학식 4에서는, 실제로 처리 중인 프레임에 있어서의 잡음 억압 게인을 구하는 데 있어서, 그 직전에 처리된 프레임에 있어서의 그것이 참조되어 있으므로, 시간축 상에서 평활화가 행해지고 있다고 할 수 있다(후술하는 수학식 7에 대해서도 마찬가지임).
이 수학식 4 중의 Gt가, 본 잡음 기간용 게인 연산부(40)에 있어서 구해져야 할, 잡음 기간에 적용하기 위한 잡음 억압 게인(이하, 간단하게 하기 위해,「잡음 기간용 게인」이라고 하는 경우가 있음)이다.
잡음 기간용 게인 연산부(40)는, 이와 같이 하여 구해진 잡음 기간용 게인 Gt를, 모든 주파수 대역에 대해 일률적으로 적용한다. 이하에서는, 이 사정을 표현하기 위해, 이 일률적으로 적용되는 Gt를, G1(n)으로 표현한다. 이 경우, G1(0), G1(1),…, G1(N-1) 모두가, Gt와 같다.
원음 가산율 연산부(50)는 잡음 억압된 신호에 대한, 원음 신호의 원음 가산율을 산출한다. 제1 실시 형태에서는 특히, 이 원음 가산율 og가 이하의 수학식 5에 기초하여 구해진다.
Figure 112009064991181-pat00005
여기서, tg는 목표 잡음 억압 게인이며, 이하의 수학식 6에 기초하고 있다.
Figure 112009064991181-pat00006
이 수학식 6 중 TG는 목표 잡음 억압량이며, dB 단위로 부여된다. 이 TG(혹은, tg)는, 장치 외부로부터 도시하지 않은 조작부 등을 거침으로써 인위적으로 부여되거나, 혹은 어떠한 적당한 방법에 의해 자동적으로 연산되어도 된다.
이상의 수학식 5에 따르면, 목표 잡음 억압 게인 tg와 잡음 기간용 게인 Gt 사이에 있어서, tg<Gt가 성립하는 경우에는, og=0이 되고, tg≥Gt가 성립하는 경우 에는, og=tg-Gt가 된다.
원음 가산 게인 연산부(60)는, 상기한 원음 가산율 og에 기초하여, 원음 가산 후의 잡음 억압 게인을 산출한다. 제1 실시 형태에 있어서는, 이 잡음 억압 게인을 산출하기 위해 이하의 방법이 취해진다.
우선, 수학식 5에서 구해진 원음 가산율 og에 기초하여, 이하의 수학식 7로 표현되는 OGt가 산출된다.
Figure 112009064991181-pat00007
여기서 OGt는, 실제로 처리 중인 프레임에 있어서의 원음 가산 비율, OGt -1은 그 직전의 프레임에 있어서의 원음 가산 비율, λ는 평활화 계수이다. 또한, 수학식 7 중의 caseㆍA 및 caseㆍB의 의의는, 상술한 수학식 1의 경우와 마찬가지이다(이하의 수학식 8에 있어서도 마찬가지임).
이와 같이, 원음 가산 게인 연산부(60)는 실제로 처리하고 있는 프레임이, 잡음 프레임인지 음성 프레임인지에 따라서, 원음 가산 비율 OGt를 구하기 위해 이용하는 식을 변경한다. 즉, 음성 프레임 처리시(caseㆍB)에는, 그 직전의 원음 가산 비율을 그대로 이용하여, 원음 가산 비율 OGt를 구하고, 잡음 프레임 처리시(caseㆍA)에는, 상기한 원음 가산율 og를 시간축 상에서 평활화함으로써, 원음 가산 비율 OGt를 구한다.
계속해서, 원음 가산 게인 연산부(60)는, 이하의 수학식 8에 기초하여, 원음 가산 후의 잡음 억압 게인을 구한다.
Figure 112009064991181-pat00008
여기서, G1(n)은, 위에서 설명한 바와 같이, 잡음 프레임에 있어서, 모든 주파수 대역에 대해 일률적으로 적용되는 잡음 기간용 게인을 나타내고 있다.
이 수학식 8에 따르면, 전술한 수학식 7에 있어서의 경우 분류에 따라서, 원음 가산 후의 잡음 억압 게인 G2(n)[이하, 간단하게 하기 위해,「수정 후 게인 G2(n)」라고 하는 경우가 있음]가 구해진다.
도 1에 도시하는 승산기(11)는, 이상과 같이 하여 구해진 수정 후 게인 G2(n)를 진폭 스펙트럼 Y(n)에 곱한다. 즉, S(n)=G2(n)ㆍY(n)인 연산이 행하해지고, 그 결과, 최종적으로 얻어야 할 잡음 억압 후의 진폭 스펙트럼 S(n)를 얻을 수 있다.
마지막으로, 주파수ㆍ시간 변환부(70)는, 이상과 같이 하여 구해진 잡음 억압 후의 진폭 스펙트럼 S(n)와, 시간ㆍ주파수 변환부(10)로부터 직접적으로 공급되는 위상 스펙트럼에 기초하여 시간 영역의 출력 신호를 생성한다. 제1 실시 형태에서는, 시간ㆍ주파수 변환부(10)에 있어서 푸리에 변환이 가해지고 있으므로, 주 파수ㆍ시간 변환부(70)는 역푸리에 변환을 실시한다.
다음에, 이상에서 설명한 제1 실시 형태에 관한 잡음 억압 장치(1)의 작용 또는 동작 및 효과에 대해, 이미 참조한 도 1에 부가하여, 도 2 내지 도 4를 참조하면서 설명한다.
우선, 시간ㆍ주파수 변환부(10)는 입력 신호에 대해, 푸리에 변환을 실시하고, 또한 이것을, 도 1에 도시한 바와 같이, 진폭 스펙트럼 Y(n) 및 위상 스펙트럼으로 분해한다(도 2의 스텝 S101). 이때, 시간ㆍ주파수 변환부(10)는 전술한 바와 같이, 프레임마다의 처리를 실시한다.
또한, 이와 병행하여, 음성 검출부(80)는, 입력 신호 중에 포함되는 음성 신호의 유무를 검출한다(도 2의 스텝 S102). 이 검출 처리는, 입력 신호를, 음성 프레임과 잡음 프레임으로 분별하는 처리를 가능하게 한다. 음성 검출부(80)는 당해의 처리도 행한다.
다음에, 잡음 스펙트럼 추정부(20)는, 전술한 진폭 스펙트럼 Y(n), 및 상기 수학식 1에 의해, 소정의 폭을 갖는 주파수 대역 n마다 잡음 스펙트럼 추정치 Nt(n)를 구한다. 이 경우, 전술한 바와 같이, 실제로 처리하고 있는 프레임이 잡음 프레임인지 음성 프레임인지에 따라서, 다른 처리가 행해진다(도 2의 스텝 S103 참조). 또한, 도 2에 도시한 바와 같이, 이 잡음 스펙트럼 추정치 Nt(n)의 산출 처리이후는, 도 1에 도시하는 승산기(11)에 의한 출력 신호 생성 처리(도 2의 스텝 S104)까지의 동안은, 잡음 프레임과 음성 프레임의 구별에 따라서, 그 내용이 실질 적으로 다른 처리가 전개된다. 따라서, 이하에서는, 제1 잡음 프레임용 처리에 대해, 제2 음성 프레임용 처리에 대해, [I] 및 [II]로 분별하여 설명한다.
또한, 이와 같은 분별 처리는, 도 1에 도시하는 바와 같이, 음성 검출부(80)의 검출 결과에 따른 스위치의 절환에 따르고 있다.
[I] 우선, 잡음 프레임용 처리에서는, 상기 수학식 1의 caseㆍA로서 나타내어지는 식에 의해, 잡음 스펙트럼 추정치 Nt(n)가 구해진다(도 2의 스텝 S201). 전술한 바와 같이, 이는 입력한 진폭 스펙트럼 Y(n)의 평활화 처리에 의한다.
다음에, 전술한 잡음 스펙트럼 추정치 Nt(n), 및 상기 수학식 2에 기초하여, 잡음 억압 게인 G(n)가 산출된다(도 2의 스텝 S202). 이는, 도 1의 잡음 억압 게인 연산부(30)의 작용에 의한다. 전술한 바와 같이, Y(n)>Nt(n)가 성립하는 경우에는 G(n)=(Y(n)-Nt(n))/Y(n)가 되지만, 그렇지 않은 경우에는, G(n)=0이 된다. 이에 따르면, 예를 들어 도 3의 (C)와 같은 잡음 억압 게인이 얻어지게 된다[또한, 도 3의 (B)에서는, 전술한 잡음 스펙트럼 추정치 Nt(n), 도 3의 (A)에서는, 입력 신호의 진폭 스펙트럼이 각각 예시되어 있음].
다음에, 상기 수학식 3 및 수학식 4에 의해, 이 잡음 억압 게인 G(n)의, 주파수 대역에 관한 평균치 g를 취하고, 또한 그 g에 대한 평활화 처리를 행함으로써, 잡음 기간용 게인 Gt가 구해진다(도 2의 스텝 S203). 이 평균화ㆍ평활화를 거친 잡음 기간용 게인 Gt가, 전체 주파수 대역에 공통의 G1(n)이 된다. 이는, 잡음 기간용 게인 연산부(40)의 작용에 의한다.
이와 같이, 제1 실시 형태에 있어서는, 수학식 2에 의해 구해지는 잡음 억압 게인 G(n)를 그대로의 상태에서 이용하는 것이 아니라, 그 G(n)에 대해, 수학식 3에 의한 주파수 대역에 관한 평균화, 및 수학식 4에 의한 시간축 상의 평활화를 행한 후의 잡음 기간용 게인 Gt를, 전체 주파수 대역용 잡음 기간용 게인 G1(n)으로서 이용하는 것에, 그 큰 특징의 하나가 있다.
또한, 도 3의 (D)에서는, 잡음 억압 게인 G(n)에 대한 평균화 처리를 행한 경우의 일례가 예시되어 있다[도 3의 (C) 중에 나타내어지는 파선도 참조].
다음에, 전술한 잡음 기간용 게인 Gt, 및 상기 수학식 5에 의해, 원음 가산율 og가 구해진다(도 2의 스텝 S204). 이는, 도 1의 원음 가산율 연산부(50)의 작용에 의한다. 여기서는, 목표 잡음 억압 게인 tg 또는 목표 잡음 억압량 TG의 설정의 여하가 1개의 지배적 요인으로서 작용한다. 즉, 잡음 기간용 게인 Gt가, 목표 잡음 억압 게인 tg보다도 커지면, 원음 가산율 og는 0으로 설정되고, 그렇지 않으면, 잡음 기간용 게인 Gt에 따른 원음 가산율 og(즉, og=tg-Gt)가 설정된다. 이 양자를 구분하여 사용하는 것은, 원음을 가산함으로써 초래되는 음질 개선의 효과를, 목표 잡음 억압량 TG와의 관계에서 어떻게 향수할지를 정하는 의의가 있다. 즉, 후자의 경우에는, 목표 잡음 억압량에 의해 정해지는 프레임 내(즉, tg와 Gt의 차에 해당하는 부분)에서 원음을 가산하여 음질 개선을 도모하는 것을 주 목적으로 하 고, 전자의 경우에는, Gt>tg가 성립하고 있어, 이미 음질 개선의 여유가 없으므로, 원음 가산율 og를 0으로 하는 것이다(이 경우, 이에 의해 오히려, 잡음량이 많아지는 것이 억지됨). 결국, 상기한 수학식 5 및 수학식 6은, 목표 잡음 억압량을 준수하는 것을 기준으로, 또한 원음 가산의 여유가 있는 경우에, 그 프레임 내에서 음질 개선을 도모해 간다는 처리를 실현하는 의의가 있다.
이와 같이, 제1 실시 형태에 있어서는, 원음 가산율 og가 잡음 기간용 게인 Gt를 이용함으로써 구해지는 것에, 그 큰 특징의 하나가 있다.
다음에, 전술한 원음 가산율 og, 및 상기 수학식 7의 caseㆍA로서 나타내어지는 식에 의해, 원음 가산 비율 OGt가 구해진다(도 2의 스텝 S205). 이 원음 가산 비율 OGt는, 전술한 바와 같이 원음 가산율 og를 시간축 상에서 평활화함으로써 구해진다. 그리고, 이와 같이 하여 구해진 원음 가산 비율 OGt, 및 상기 수학식 8에 의해, 원음 가산 후의 잡음 억압 게인, 즉 수정 후 게인 G2(n)가 구해진다. 이상은 원음 가산 게인 연산부(60)의 작용에 의한다.
이 경우, 이 수정 후 게인 G2(n)는 결국, 전술한 평균화ㆍ평활화를 거친 잡음 기간용 게인 G1(n)과, 원음 가산의 정도를 감안한 후에 결정된 게인이라는 의미를 갖는다.
또한, 장치 구동 직후의 경우에 배려하여, 상기 수학식 1의 Nt -1(n)에 해당하는 값으로서의 초기치가 적당하게 정해져 있으면 바람직하다[이와 같은 초기치로서 의 Nt -1(n)은, 당연히, 후술하는 음성 프레임용 처리에 있어서의 잡음 스펙트럼 추정치 Nt(n)의 산출 처리에 있어서도 이용 가능함]. 이와 같은 것은, 상기 수학식 4, 수학식 7 중 Gt -1(n)에 대해서도 할 수 있다.
[II] 한편, 음성 프레임용 처리에서는, 기본적으로는, 상술한 잡음 프레임 처리와 대략 같은 각 처리가 실행된다. 즉, 잡음 스펙트럼 추정치 Nt(n) 및 그에 기초하는 잡음 억압 게인 G(n)가 구해지고(도 2의 스텝 S301ㆍ스텝 S202 참조), 원음 가산 비율 OGt에 기초하여 수정 후 게인 G2(n)가 구해지는(도 2의 스텝 S303ㆍ스텝 S304) 것은, 잡음 프레임 처리와 동일하다.
단, 이 음성 프레임 처리에서는, 잡음 프레임 처리에 비해, 이하와 같은 같고 다름, 혹은 주의점이 있다.
(i) 잡음 스펙트럼 추정치 Nt(n)는, 상기 수학식 1의 caseㆍA로서 나타내어지는 식에 의한 것은 아니며, caseㆍB로서 나타내어지는 식에 의해 구해진다(도 2의 스텝 S301). 이 식은, Nt(n)=Nt -1(n)이므로, 음성 프레임 처리는, 말하자면 현상을 유지하는 처리라고 할 수 있다. 조금 더 상세하게 말하면, 당해의 음성 프레임 전이 잡음 프레임이었던 경우에는, 그 잡음 프레임에 있어서 산출된 잡음 스펙트럼 추정치 Nt -1(n)이 그대로, 당해의 음성 프레임 처리로 이용되게 되고, 또한 한편, 당해의 음성 프레임 전이 음성 프레임이며, 또한 나아가 그 전이 잡음 프레임이었 던 경우에는, 그 잡음 프레임에 있어서 산출된 잡음 스펙트럼 추정치 Nt -2(n)가 그대로, 당해의 음성 프레임 처리에서 이용되게 된다.
요컨데, 음성 프레임에서는, 가장 가까운 잡음 프레임에 있어서 산출된 잡음 스펙트럼 추정치 Nt -p(n)[p는 당해 음성 프레임 직전의 프레임으로부터 세어, 그 가장 가까운 잡음 프레임까지의 프레임수(양단부를 포함함)]가 이용되게 되는 것이다.
(ii) 이와 같은 것은, 상기 수학식 7을 이용하여 행해지는, 원음 가산 비율 OGt의 산출 처리에 있어서도 할 수 있다. 즉, 수학식 7의 caseㆍB로서 나타내어지는 식은, OGt=OGt -1이므로, 이 경우도 역시, 음성 프레임 처리에서는, 말하자면 현상이 유지되는 것이다(도 2의 스텝 S303 참조).
상술한 경우와 표현을 일치시킨다면, 음성 프레임에서는 가장 가까운 잡음 프레임에 있어서 산출된 원음 가산 비율 OGt -p(n)[p는 당해의 음성 프레임 직전의 프레임으로부터 세어, 그 가장 가까운 잡음 프레임까지의 프레임수(양단부를 포함함)]가 이용되게 된다.
(iii) 잡음 억압 게인 G(n)의 연산 그 자체는, 음성 프레임 및 잡음 프레임의 각각에 관계없이, 상기 수학식 2를 이용하여 마찬가지로 행해진다. 도 2의 스텝 S202에 있어서, [잡음 프레임용 처리]와 [음성 프레임용 처리]에 대응하는 박스가 연결되어 그려져 있는 것은, 그것을 상징적으로 표현하고 있다[단, 수학식 2 중 Nt(n)의 값은, 수학식 1의 caseㆍA 및 caseㆍB의 각각에 따라서, 양 프레임에 관해 당연히 다름].
(iv) 음성 프레임 처리에서는, 상기 수학식 3 및 수학식 4에 관한 처리, 즉, 잡음 억압 게인 G(n)에 대한 평균화ㆍ평활화 처리가 행해지지 않는다(도 2의 스텝 S203 및 그 도면 중 우측 참조). 또한, 이에 수반하여, 정당한 잡음 기간용 게인 Gt가 말하자면 존재하지 않는 상태가 되므로, 상기 수학식 5에 관한 처리, 즉 원음 가산율 og를 산출하는 처리도 또한 행해지지 않는다(도 2의 스텝 S204 및 그 도면 중 우측 참조).
(v) 최종적으로 산출되는 수정 후 게인 G2(n)는, 상기 수학식 8의 caseㆍA로서 나타내어지는 식에 의한 것은 아니며, caseㆍB로서 나타내어지는 식에 의해 구해진다(도 2의 스텝 S304). 이 경우, 잡음 프레임 처리시에 있어서는, 평균화ㆍ평활화를 거친 잡음 기간용 게인 G1(n)이 사용되는 점, 음성 프레임 처리시에 있어서는, 수학식 2로부터 구해진 잡음 억압 게인 G(n)가 그대로 사용되는 점이 다르다.
이상의 [I] 및 [II]의 처리를 거치면, 어떻든간에 수정 후 게인 G2(n)를 얻을 수 있지만, 이 수정 후 게인 G2(n)에 원래의 진폭 스펙트럼 Y(n)를 곱하면, 잡음 억압 후의 진폭 스펙트럼 S(n)가 산출된다(도 2의 스텝 S104).
도 3의 (E)에서는, 간단하게 하기 위해, 단순히 도 3의 (A)의 진폭 스펙트럼 Y(n)에, 도 3의 (C)의 평균화된 잡음 억압 게인(즉, g)이 승산된 결과가 나타내어져 있다. 제1 실시 형태에서는, 상술한 바와 같이, 이에 부가하여, 원음 가산의 정도에 배려된 게인의 조정이 또한 행해지기는 하지만[수학식 8, 특히 OGt(n)의 역할, 참조], 도 3의 (E)는 가령, 그와 같은 원음 가산 처리에의 배려를 생략하는 경우를 상정하였을 때의 처리의 본질을 잘 나타내고 있다[수학식 8에 있어서, OGt(n)=0이면, 수정 후 게인 G2(n)는 단순히 G1(n), 또는, G(n)와 같을 뿐임].
이상에 설명한 바와 같은 구성 및 작용을 갖는 잡음 억압 장치(1)에 따르면, 이하의 효과가 발휘된다.
우선, 제1 실시 형태의 잡음 억압 장치(1)에 따르면, 입력 신호에 포함되는 잡음이 매우 적절하게 억압된다. 여기서「적절하게」라는 것 중에는, 제1 실시 형태에 있어서 특히, 이하에 기록하는 각 점의 내실이 포함된다.
(1) 첫째, 제1 실시 형태에 따르면, 소위 뮤지컬 노이즈의 발생을 매우 실효적으로 방지할 수 있다. 여기서 뮤지컬 노이즈라 함은, 입력 신호의 진폭 스펙트럼으로부터 잡음 스펙트럼 추정치를 차감한 후에 발생하는 노이즈를 의미한다.
예를 들어, 잡음 스펙트럼 추정치에 기초하는 잡음 억압 게인은, 간단하게는, 상기 수학식 2 중의 (Y(n)-N(n))/Y(n)를 사용하여 구하는 것이 가능하고, 이것을 그대로 도 1에 도시하는 승산기(11)에 적용하는 형태를 상정하면, 잡음 억압 후의 진폭 스펙트럼 S(n)는, S(n)= {(Y(n)-N(n))/Y(n)}ㆍY(n)=Y(n)-N(n)으로서 구해지게 된다. 즉, 이 경우에는, 입력 신호의 진폭 스펙트럼으로부터 잡음 스펙트럼 추정치를 단순히 차감함으로써, 잡음 억압 후의 진폭 스펙트럼 S(n)가 얻어지게 된다.
그러나, 이 경우의 잡음 스펙트럼 추정치는, 어디까지나 "추정치"이므로, 반드시 실제의 잡음 스펙트럼을 반영하고 있다고는 할 수 없다. 따라서, 어느 주파수 대역에서는, 잡음 스펙트럼 추정치 차감 후에도 아직 잡음이 남는 경우가 있고, 또한 다른 주파수 대역에서는, 과잉 차감이 발생하는 경우도 있다(이 과잉 차감의 경우에는, 마이너스의 진폭 스펙트럼이 고려되지 않는 이상, 0으로 설정됨). 도 4에서는, 이와 같은 사정이 개념적으로 표현되어 있고, 예를 들어 도 4의 (C) 중 실선은 차감 잔여(부호 "KN" 참조), 파선은 과잉 차감(부호 "HS" 참조)의 각 경우를 표현하고 있다[또한, 도 4의 (A) 및 도 4의 (B)는, 도 3의 (A) 및 도 3의 (B)와 완전 동일함. 또한, 도 4의 (C)의 부호 HSt가 지시하는 부분은, 간혹 Y(n)-N(n)=0이 성립하는 경우의 예시임].
이와 같은 진폭 스펙트럼 S(n)를 시간 영역으로 역푸리에 변환하면, 그 신호는, 복수의 랜덤의 주파수를 갖는 정현파가 합성된 것처럼 되고, 이것이 재생되면, 상당히 귀에 거슬리는 소리가 되어 들려오게 된다. 이것이 뮤지컬 노이즈이다.
이와 같이, 뮤지컬 노이즈는, 엄밀하게 말하면 알 수 없는 실제 잡음 스펙트럼과, 잡음 스펙트럼 추정치가 일치하지 않는 것을 주된 원인으로 하여 발생한다.
제1 실시 형태에서는, 이와 같은 뮤지컬 노이즈의 발생이 매우 효과적으로 억제된다. 이와 같은 것도, 잡음 프레임 처리시에 있어서는, 평균화ㆍ평활화된 잡음 기간용 게인 Gt가 사용되고, 수정 후 게인 G2(n)가 구해지고, 이것이 진폭 스펙트럼 Y(n)에 적용되도록 되어 있기 때문이다[도 3의 (E) 참조]. 이에 의해, 원래 의 진폭 스펙트럼이 갖고 있던 주파수 구조가 유지된 상태에서, 잡음 억압이 행해지므로, 뮤지컬 노이즈는 매우 발생하기 어렵게 되어 있는 것이다.
(1-i) 또한, 잡음 기간용 게인 Gt를 구하는 데 있어서 행해지는 평균화(상기 수학식 3) 및 평활화(상기 수학식 4)의 각각에는, 고유의 의의가 있다. 전자의 목적은, 도 3으로부터도 명백한 바와 같이, 주로, 상기 뮤지컬 노이즈의 억압이라는 효과를 유도하는 것에 있고, 후자의 목적은, 주로, 말하자면 통시적으로 본 잡음 억압 처리의 연속성을 유지하는 것에 있다. 후자에 따르면, 잡음 기간용 게인 Gt(n)의 시간의 경과에 따른 급격한 변화가 발생하지 않기 때문에, 예를 들어 당해 잡음 프레임에 포함되는 신호가 재생된다고 한 경우에, 청취자에게, 청감상의 위화감을 주는 일이 없다[또한, 제1 실시 형태에 있어서 행해지는, 그 밖의 평활화 처리(즉, 수학식 1의 caseㆍA. 수학식 7의 caseㆍA)는, 기본적으로, 이와 본질적으로 다르지 않은 의의를 가짐].
(2) 둘째, 상기 (1)은 잡음 프레임 처리에 관한 뮤지컬 노이즈의 발생 예방에 대해서이지만, 이에 관련하여, 제1 실시 형태에 따르면, 음성 프레임 처리에 관한 뮤지컬 노이즈의 발생 예방도 보다 좋게 실현된다. 이는, 전술한 바와 같이, 음성 프레임 처리에서는, 평균화ㆍ평활화를 거치지 않는 잡음 억압 게인 G(n)(수학식 2 참조)가 말하자면 그대로 이용되는 형태로, 수정 후 게인 G2(n)가 구해지는 것에 의한다[수학식 8의 caseㆍB, 혹은 전술한 [II](v)].
(3) 게다가 셋째, 제1 실시 형태에 따르면, 잡음 프레임으로부터 음성 프레 임으로의 절환 장면에 있어서, 잡음 억압 처리의 일관성이 유지된다. 이는, 전술한 바와 같이, 음성 프레임 처리시에 있어서는, 잡음 스펙트럼 추정치 Nt(n)로서, 가장 가까운 잡음 프레임에 있어서 산출된 Nt -p(n)가 이용되도록 되어 있는 것에 의한다[전술한 [II](i)의 기재 참조].
이상의 (2) 및 (3)을 요약하면, 제1 실시 형태에서는, 음성 프레임에 있어서, 실효적인 잡음 억압이 행해지면서도, 또한 잡음 프레임 처리시에 있어서의 잡음 억압 처리(특히, 그 효과)를 존중하여, 양 프레임간의 흐름이 보다 자연스러운 것이 되는 고안이 이루어지고 있는 것이다. 이에 따르면, 제1 실시 형태의 잡음 억압 장치(1)가 어떠한 음성 재생 수단에 접속되었다고 한 경우, 잡음 프레임으로부터 음성 프레임으로의 절환 장면에 있어서, 청취자에게, 잡음에 관한 음량감의 변경 등등의 청감상의 위화감을 주지 않는다.
또한, 음성 프레임에 있어서의 뮤지컬 노이즈를 억제하기 위해서는, 전술한 S(n)=Y(n)-N(n) 대신에, S(n)=Y(n)-αN(n)으로 하고, 이 α(>0)의 값을 크게 하는 방법도 생각할 수 있지만, 이것으로는, 음질의 열화가 심해질 우려가 매우 높아진다는 결점을 갖는다. 그렇다고 해서, α를 작게 하는 것으로는, 뮤지컬 노이즈의 억압이 불충분해진다.
또한, 도 4의 (C) 중 파선으로 나타내는, 잡음 억압 후의 진폭 스펙트럼이 0으로 되어 버리는 부분(즉, 부호 HS 및 HSt가 지시하는 부분)에, 일정한 값(노이즈 플로어)을 가산하는 방법을 취함으로써, 뮤지컬 노이즈를 억압하는 것도 생각할 수 있다. 이는, 당해의 부분 HS 및 HSt에, 말하자면 실제보다 값을 올림으로써, 차감 잔여 부분 KN을 마스킹하려고(혹은, 눈에 띄지 않게 하려고) 하는 발상에서 나오고 있다(또한, 이 방법과, 상기한 α를 사용하는 방법을 병용하는 경우, α는 보다 작게 설정되어도 되므로, 그 경우, 음질의 열화 방지라는 효과도 얻을 수 있음).
그러나, 이와 같은 노이즈 플로어의 가산은, 즉 잡음의 절대량을 증가시키는 것을 의미하므로, 잡음 억압이라는 본래의 목적 달성의 관점에서 볼 때 문제가 있을 뿐만 아니라, 그 노이즈 플로어의 양의 설정 여하에 따라서는, 잡음 억압 효과가 매우 불충분해질 우려가 높다는 문제를 발생시킨다.
이와 같은 관점에서 보아도, 제1 실시 형태의 잡음 억압 장치(1)가 매우 우위에 서는 것이 명백하다. 즉, 제1 실시 형태에서는, 상기한 α의 이용과 같이, 차감량을 말하자면 기계적으로 증가시키는 것이 아니므로, 음질의 열화가 발생할 우려는 거의 없고, 또한 상기 노이즈 플로어의 단순한 가산과 같은 처리가 행해지는 것은 아니므로, 일단은 행한 잡음 억압 효과가 희생되는 일도 없다. 그리고, 이미 설명한 바와 같이, 그럼에도 불구하고, 뮤지컬 노이즈는, 실효적으로 억압되는 것이다.
(4) 제1 실시 형태의 잡음 억압 장치(1)에 따르면, 전술한 수학식 5 내지 수학식 7, 혹은 도 2의 스텝 S205 및 스텝 S303을 참조하여 설명한 바와 같이, 원음 가산 처리가 행해지도록 되어 있으므로, 잡음 억압 효과가 더욱 실효적으로 발휘된다. 이 원음 가산 처리에 따르면, 마치 전술한 노이즈 플로어의 가산 처리와 마찬가지의 효과, 즉 도 4의 (C)의 차감 잔여 부분 KN의 마스킹 효과를 기대할 수 있으 므로, 뮤지컬 노이즈의 억압, 혹은 음질의 열화 방지가 보다 실효적으로 되는 것이다(단, 상기 노이즈 플로어는 어디까지나「일정」함. 이 점이「원음」을 이용하는 경우와의 결정적인 차이임).
또한, 상술에 있어서는, 제1 실시 형태의 잡음 억압 장치(1)에 의해 발휘되는 효과를 보다 명료하게 파악하기 위해, 상기 α를 사용하는 방법, 혹은 노이즈 플로어를 사용하는 방법과의 대비에 있어서, 당해 효과에 대한 설명을 행하고 있는 부분이 있지만, 본 발명은, 이들 α 혹은 노이즈 플로어를 이용하여 뮤지컬 노이즈를 억압하는 방법을 적극적으로 배제하는 의도까지는 갖지 않는다. 즉, 이들 방법과 본 발명 및 그 각종 형태는 병용 가능하고, 그와 같은 병용 형태에 따르면, 당해 방법의 좋은 점을 향수하면서, 본 발명 및 그 각종 형태의 효과를 보다 뛰어나게 하는 것 등이 가능해진다.
게다가, 제1 실시 형태에서는, 단순히 원음 가산을 실행하는 것뿐만 아니라, 이하의 각 점에 특징이 있다.
(4-i) 우선, 원음 가산의 비율(즉, OGt)이, 잡음 기간용 게인 Gt와 목표 잡음 억압 게인 tg의 크기의 여하에 따라서 정해지는 원음 가산율 og에 기초하여 정해지도록 되어 있다. 구체적으로는, 이미 설명한 바와 같이, 원음 가산 처리에 있어서는, 목표로 하고 있는 잡음 억압의 정도(즉, tg)를 지배적 요인의 하나로 하고, 이와의 관계에 있어서 원음 가산율 og가 정해지도록 되어 있으므로, 잡음 기간용 게인 Gt에 기초하는 처리와, 원음 가산 처리 사이에서, 균형이 잡힌 사용 분류가 행해짐으로써, 보다 실효적으로 잡음 억압 효과 또는 뮤지컬 노이즈 억압 효과, 나아가 음질 개선 효과가 향수되게 된다.
(4-ii) 또한, 이와 같은 원음 가산 처리에서도, 음성 프레임 처리시에 있어서는, 원음 가산 비율 OGt로서, 가장 가까운 잡음 프레임에 있어서 산출된 OGt -p가 이용되도록 되어 있다[전술한 [II](ii)의 기재 참조]. 이는, 어떤 음성 프레임에 있어서의 잡음 스펙트럼 추정치 Nt(n)로서, 그 전의 잡음 스펙트럼 추정치 Nt -1(n)이 그대로 이용된다는, 전술한 사고 방식과 그 본질을 동일하게 한다. 즉, 이 원음 가산 처리에 있어서도, 잡음 프레임 및 음성 프레임간의 절환 장면에 있어서, 잡음 억압 처리의 일관성이 유지되는 것이다.
<제2 실시 형태>
이하에서는, 본 발명에 관한 제2 실시 형태에 대해 도 5 내지 도 7을 참조하면서 설명한다. 또한, 이 제2 실시 형태는, 상기 제1 실시 형태와의 대비에 있어서, 음성 검출 처리에 관련된 차이점이 있고, 그 밖의 점에 대해서는, 특별히 언급이 없는 한 상기 제1 실시 형태와 완전히 동일하다. 따라서, 이하에서는, 상기 차이점에 관한 설명을 주로 행하고, 그 밖의 점에 대한 설명은 간략화 또는 생략한다. 또한, 도면 상의 부호에 대해서도 상기 상이점 이외에 대해서는 유용한다.
이 제2 실시 형태의 잡음 억압 장치(1')는, 도 5에 도시한 바와 같이, 음성 검출부(801)가 잡음 억압 게인 연산부(30)의 후단에 접속되는 구성을 갖는다. 즉, 이 음성 검출부(801)는 상기 수학식 2에 의해 산출되는 잡음 억압 게인 G(n)를 이 용함으로써, 입력 신호 중 음성 신호의 유무를 검출하고, 혹은 음성 프레임과 잡음 프레임의 구별을 행한다.
제2 실시 형태에 있어서는, 음성 신호의 유무를 검출하기 위해 이하의 방법이 취해진다.
우선, 수학식 2에서 구해진 잡음 억압 게인 G(n)에 기초하여, 이하의 수학식 9로 표현되는 Var이 산출된다.
Figure 112009064991181-pat00009
여기서, g는 상기 제1 실시 형태에 있어서 이용되고 있던 수학식 3에 의해 표현되는 g이며, 결국, G(n)에 대한 주파수 대역 n에 관한 평균치이다[제2 실시 형태는, 이 g의 연산을, 잡음 기간용 게인 연산부(40)뿐만 아니라, 음성 검출부(801)도 행함. 물론, 양자 중 한쪽에서 행한 연산의 결과를, 양자간에 공용해도 됨].
이 수학식 9의 Var은 표식으로부터 명백한 바와 같이, G(n)의 분산을 나타낸다.
다음에, 이 Var이 소정치를 초과하는지 여부가 판단된다. 이 판단의 의의는 이하에 있다.
일반적으로, 수학식 2에 의해 산출되는 잡음 억압 게인 G(n)는 음성 신호가 포함되는 경우와 포함되지 않는 경우로 크게 다른 양상을 나타낸다. 도 6 및 도 7은 그 일례를 나타내고 있고, 전자는, 음성 신호가 포함되는 경우의 잡음 억압 게 인 G(n)의 연산예, 후자는, 포함되지 않는 경우의 잡음 억압 게인 G(n)의 연산예이다. 이들 도면을 대비하면 명백한 바와 같이, 양자의 경우 각각에 있어서의 G(n)의 분산을 계산하면, 양자간에 큰 격차가 발생하는 것이 용이하게 추측된다. 즉, 어느 프레임에 대한 G(n)의 분산의 값이 일정 정도 크면, 그것은 음성 신호를 포함하고, 그렇지 않으면, 음성 신호를 포함하지 않는다는 판단을 행하는 것이, 상당 정도의 정확도로 가능하다.
전술한 Var에 관한 대소 판단의 의의는 여기에 있다. 다시 말하면, 어느 소정치 VB가 있다고 하고, Var>VB이면, 당해 프레임에는 음성 신호가 있고, 따라서 그것은「음성 프레임」으로 구별되고, Var≤VB이면, 당해 프레임에는 음성 신호가 없고, 따라서 그것은「잡음 프레임」으로 구별되게 된다.
또한, 도 5의 구성에서는, 도 1의 구성과는 달리, 잡음 스펙트럼 추정부(20)가 음성 신호의 검출 결과를 이용할 수 없다. 즉, 잡음 스펙트럼 추정부(20)는, 음성 프레임 및 잡음 프레임의 구별을 전제로 하지 않고, 잡음 스펙트럼 추정치 Nt(n)를 연산한다.
이와 같은 경우에 있어서의 잡음 스펙트럼 추정치 Nt(n)는, 예를 들어 이하의 수학식 10 및 수학식 11에 의해 구해져도 된다.
Figure 112009064991181-pat00010
Figure 112009064991181-pat00011
여기서, PAt(n)는 실제로 처리 중인 프레임에 있어서의 입력 신호 중의 진폭 스펙트럼이며 평활화된 것, PAt -1(n)은 그 직전의 프레임에 있어서의 당해 진폭 스펙트럼이며 평활화된 것, α는 평활화 계수, γㆍβ는 제어 파라미터이다. 또한, 수학식 11 중, caseㆍC로 되어 있는 것은, PAt(n)>Nt -1(n)이 성립하는 경우를 표현하고, caseㆍD로 되어 있는 것은, 그 이외의 경우를 표현하고 있다.
이 경우, 수학식 11의 caseㆍD로서 나타내어지는 식 및 수학식 10의 조합이 상기한 수학식 1의 caseㆍA로서 나타내어지는 식과 실질적으로 대략 동의이다.
한편, 수학식 11의 caseㆍC로서 나타내어지는 식은, 상기 수학식 1 중에 있어서는 해당하는 것은 없다. 단, 이 식은, 상술한 바와 같이, 즉 PAt(n)>Nt -1(n)이 성립하는 경우, 즉 실제로 처리 중인 프레임에 있어서의 진폭 스펙트럼이, 그 직전의 프레임에 있어서의 잡음 스펙트럼 추정치를 초과하는 경우에 발동하므로, 이 caseㆍC는 그 실제로 처리 중인 프레임이, 음성 프레임일 가능성을 시사하는 것으로 파악하는 것도 불가능하지 않다[가령, 대부분의 n(=0, 1, 2, 3,…)에 대해, 이러한 조건이 만족된다면, 그 가능성은 보다 높아진다고 할 수 있음. 단, 어디까지나 "시사"에 지나지 않음].
이들 수학식 10 및 수학식 11은, 이상과 같은 의미에 있는 한, 상기 수학식 1과 공통성을 갖는다고 할 수 있다.
어떻든간에, 잡음 스펙트럼 추정치가 적절하게 산출되는 것에 차이는 없다.
이와 같은 제2 실시 형태에 따르면, 다음과 같은 효과가 발휘된다.
우선, 이 제2 실시 형태에 의해서도, 상기 제1 실시 형태에 의해 발휘된 작용 효과와 본질적으로 다르지 않은 작용 효과가 발휘되는 것은 명백하다. 즉, 이 제2 실시 형태에서도, 상기 제1 실시 형태에 관해 설명한 (1) 내지 (4)의 효과가 거의 마찬가지로 발휘된다.
게다가, 이 제2 실시 형태에 따르면, 도 1과 도 5를 대비하면 명백한 바와 같이, 처리 효율의 향상, 회로 구성의 간이화 등의 효과가 향수된다. 이는, 제1 실시 형태에 있어서의 음성 검출이, 말하자면 독립으로 행해지고 있었던 것에 대신하여, 제2 실시 형태에 있어서의 음성 검출이, 잡음 억압 게인 G(n)의 이용이 도모됨으로써 행해지고, 그 종속화가 행해지고 있는 것에 의한다.
본 발명에 있어서는, 잡음 억압 게인 G(n)의 연산은 반드시 행해야만 하는 처리인 이상, 그 연산 결과를 이용하여 음성 검출 처리도 행하는 것이, 처리의 효율화ㆍ합리화를 유도하는 것은 물론이다. 게다가, 그 검출 성능은 상당 정도 높다(도 6 및 도 7 대비 참조).
이상, 본 발명에 관한 실시 형태에 대해 설명하였지만, 본 발명에 관한 잡음 억압 장치는, 상술한 형태에 한정되지 않고, 각종 변형이 가능하다.
(1) 상기 제1 및 제2 실시 형태에서는, 잡음 기간용 게인 Gt가, 주파수축 상에서 평균화되고, 시간축 상에서 평활화되어 있지만, 본 발명은, 이러한 형태에 한정되지 않는다. 위에서도 이미 설명하였지만, 평균화 처리와 평활화 처리에서는, 그 주된 목적이 다르므로, 특히 평활화 처리에 관해서는, 경우에 따라서는 생략되어도 된다. 도 3의 (E)에서 볼 수 있는 바와 같이, 평균화 처리만을 실시하였다 해도, 뮤지컬 노이즈의 억압 효과는 일정 정도 향수 가능하다.
(2) 또한, 상기 제1 및 제2 실시 형태에서는, 잡음 기간용 게인 Gt가, 상기 수학식 3에 의한 평균화 처리, 및 상기 수학식 4에 의한 평활화 처리를 거쳐서 구해지고 있지만, 본 발명은 이들 수학식 3 및 수학식 4의 형태에도 구애되지 않는다.
우선, 본 발명에 있어서, 잡음 억압 게인 평균치 g는, 수학식 3에 의해 구해지는 형태에 한정되지 않는다.
즉, 수학식 3에 있어서, g는 N개 모든 주파수 대역(전부 N개의 0, 1, 2,…, N-1번째의 주파수 대역)을 사용하여 산출되고 있지만, 이 g는, 예를 들어, 그 중 일부만의 주파수 대역을 사용하여 산출되어도 된다. 이 경우, 극저역(極低域)(DC 성분에 가까운 대역)이나 극고역(極高域)(나이키스트 주파수에 가까운 대역) 양쪽 또는 한쪽을 제외한, 주파수 대역을 사용하는 것을 생각할 수 있다.
또한, 잡음 억압 게인 평균치 g를 구하는 데 있어서는, 개개의 주파수 대역에 다른 가중치 부여를 행해도 된다. 예를 들어, 어떤 특정한 가중 계수를 특정한 주파수 대역에 대해서만 승산하거나, 혹은 연속적, 단계적으로 증가 또는 감소하는 가중 계수를 모든 주파수 대역에 대해 승산하는 등등과 같다.
다음에, 본 발명에 있어서, 잡음 기간용 게인 Gt는, 상기 수학식 4에 의해 구해지는 형태에 한정되지 않는다.
즉, 수학식 4에 있어서, Gt는, 잡음 억압 게인 평균치 g를 시간축 상에서 평활화함으로써 구해지고 있지만, 이 Gt는, 예를 들어 서로 인접하는 프레임의 g의 평균치로서 산출되어도 된다.
(3) 게다가, 상기 제1 및 제2 실시 형태에서는, 평균화ㆍ평활화된 잡음 기간용 게인 Gt 또는 G1(n)이 모든 주파수 대역에 적용되고 있지만[수학식 8의 caseㆍA, 혹은 도 3의 (E) 참조], 본 발명은, 이와 같은 형태에도 한정되지 않는다.
예를 들어, 전술한 극저역이나 극고역 양쪽 또는 한쪽을 제외한 주파수 대역에만, 당해 잡음 기간용 게인 Gt 또는 G1(n)이 적용되어도 된다. 이 경우, 그 적용 제외가 된 주파수 대역에 대해서는, 고정치인 게인이 적용되면 된다.
(4) 상기 제1 및 제2 실시 형태에서는, 잡음 억압 게인 G(n)가 수학식 2에 의해 산출되어 있지만, 본 발명은, 이러한 형태에 한정되지 않는다. 예를 들어, 이 이외에도, 위너 필터법, MMSE(Minimum Mean-Square Error)법 등이 이용되어도 된다(이들에 대해서는, 전술한 비특허 문헌 3 및 비특허 문헌 4를 참조). SNR[음성(신호)/노이즈 비율]을 추정하여, 그 SNR에 기초하여 잡음 억압 게인 G(n)가 구 해져도 된다.
(5) 상기 제2 실시 형태에서는, 음성 프레임 및 잡음 프레임간의 구별을 행하기 위해, 상기 수학식 9에 의해, 잡음 억압 게인 G(n)에 대한 주파수축 상의 분산이 취해지고 있지만, 본 발명은, 이러한 형태에 한정되지 않는다.
예를 들어, 분산 대신에, 표준 편차가 사용되어도 되는 것은 당연하고, 시간축 상의 분산, 혹은 표준 편차가 사용되어도 된다. 또한, 주파수 대역마다의 잡음 억압 게인 G(n) 중, 소정의 2개의 기준치에 의해 구획된 공간 내에 들어가는 것이 몇 개 있는지 등에 기초하여, 음성 프레임 및 잡음 프레임간의 구별이 행해져도 된다[예를 들어, 그 수가 비교적 크면, 잡음 억압 게인 G(n)는 일정 부위에 집중하여 존재한다고 판단 가능하므로, 그 흩어짐 정도는 작다고 할 수 있고, 따라서 당해의 프레임은 잡음 프레임이라 인정되는 등과 같음]. 또한, 상술한 각종 판단 방법은, 경우에 따라서 병용되어도 된다. 이에 따르면, 예를 들어, 흩어짐 정도가, 상기 분산과 상기 공간 내에 들어가는 잡음 억압 게인 G(n)의 수 양쪽이 참조된 후에 판단되게 된다.
도 1은 본 발명의 제1 실시 형태에 관한 잡음 억압 장치의 구성을 나타내는 블록도.
도 2는 제1 실시 형태에 관한 잡음 억압 처리의 흐름을 나타내는 흐름도.
도 3은 제1 실시 형태에 관한 잡음 억압 처리의 내용을 설명하기 위한 설명도.
도 4는 종래의 잡음 억압 처리의 내용을 설명하기 위한 설명도.
도 5는 본 발명의 제2 실시 형태에 관한 잡음 억압 장치의 구성을 나타내는 블록도.
도 6은 음성 신호가 포함되는 경우의 잡음 억압 게인 G(n)의 연산예를 나타내는 그래프.
도 7은 음성 신호가 포함되지 않는 경우의 잡음 억압 게인 G(n)의 연산예를 나타내는 그래프.
<도면의 주요 부분에 대한 부호의 설명>
1, 1' : 잡음 억압 장치
10 : 시간ㆍ주파수 변환부
20 : 잡음 스펙트럼 추정부
30 : 잡음 억압 게인 연산부
40 : 잡음 기간ㆍ잡음 억압 게인 연산부(잡음 기간용 게인 연산부)
50 : 원음 가산율 연산부
60 : 원음 가산 게인 연산부
70 : 주파수ㆍ시간 변환부
11 : 승산기
Y(n) : 입력 신호의 진폭 스펙트럼
N(n) : 잡음 스펙트럼 추정치
G(n) : 잡음 억압 게인
g : 잡음 억압 게인 평균치
Gt, G1(n) : 잡음 기간에 적용하기 위한 잡음 억압 게인(잡음 기간용 게인)
og : 원음 가산율
tg : 목표 잡음 억압 게인
TG : 목표 잡음 억압량
OG : 원음 가산 비율
G2(n) : 원음 가산 후의 잡음 억압 게인(수정 후 게인)

Claims (8)

  1. K개의 주파수 대역(단, K는 2 이상의 자연수)의 각각에 대해, 입력 신호에 포함되는 잡음 스펙트럼을 당해 입력 신호에 기초하여 추정하는 잡음 스펙트럼 추정 수단과,
    상기 잡음 스펙트럼 추정 수단에 의한 잡음 스펙트럼의 추정 결과에 기초하여, 상기 K개의 주파수 대역의 각각의 잡음 억압 게인을 산출하는 제1 게인 연산 수단과,
    상기 잡음 억압 게인에 대해, 상기 K개의 주파수 대역의 전부 또는 일부에 관한 평균치 게인을 산출하는 제2 게인 연산 수단과,
    상기 입력 신호에 관한 상기 K개의 주파수 대역의 전부 또는 일부에 대해, 상기 평균치 게인을 적용함으로써, 당해 입력 신호에 포함되는 잡음을 억압하는 잡음 억압 수단을 구비하는 것을 특징으로 하는 잡음 억압 장치.
  2. 제1항에 있어서, 상기 제2 게인 연산 수단은,
    상기 평균치 게인을 시간축 상에서 평활화한 평활화 게인을 산출하고,
    상기 잡음 억압 수단은,
    상기 입력 신호에 관한 상기 K개의 주파수 대역의 전부 또는 일부에 대해, 상기 평활화 게인을 적용함으로써, 당해 입력 신호에 포함되는 잡음을 억압하는 것을 특징으로 하는 잡음 억압 장치.
  3. 제2항에 있어서, 상기 입력 신호에 포함되는 음성의 유무를 시간의 경과에 따라 검출함으로써, 당해 입력 신호를, 당해 음성이 포함되는 음성 프레임 및 당해 음성이 포함되지 않는 잡음 프레임으로 구분하는 음성 검출 수단을 더 구비하고,
    상기 잡음 억압 수단은,
    상기 입력 신호 중 상기 잡음 프레임에 해당하는 부분에, 상기 평균치 게인 또는 상기 평활화 게인을 적용하는 것을 특징으로 하는 잡음 억압 장치.
  4. 제3항에 있어서, 상기 잡음 억압 수단은,
    상기 입력 신호 중 상기 음성 프레임에 해당하는 부분에, 상기 잡음 억압 게인을 적용하는 것을 특징으로 하는 잡음 억압 장치.
  5. 제3항에 있어서, 상기 잡음 스펙트럼 추정 수단은,
    상기 음성 프레임에 관한 잡음 스펙트럼을 추정하고자 하는 경우에 있어서,
    당해 음성 프레임에 가장 가까운 잡음 프레임에 관하여 이미 추정된 잡음 스펙트럼을, 당해 음성 프레임에 있어서의 잡음 스펙트럼이라 추정하는 것을 특징으로 하는 잡음 억압 장치.
  6. 제3항에 있어서, 상기 잡음 스펙트럼 추정 수단은,
    상기 잡음 프레임에 관한 잡음 스펙트럼을 추정하려고 하는 경우에는,
    일시적 스펙트럼 추정치를 산출한 후, 당해 잡음 프레임 직전의 프레임에 있어서의 잡음 스펙트럼 추정치를 사용하여, 당해 일시적 스펙트럼 추정치를 시간축 상에서 평활화한 평활화 잡음 스펙트럼 추정치를 산출하고, 이 평활화 잡음 스펙트럼 추정치를 당해 잡음 프레임에 있어서의 잡음 스펙트럼이라 추정하고,
    상기 음성 프레임에 관한 잡음 스펙트럼을 추정하고자 하는 경우에는,
    당해 음성 프레임 직전의 프레임에 있어서의 잡음 스펙트럼 추정치를 그대로, 당해 음성 프레임에 있어서의 잡음 스펙트럼이라 추정하는 것을 특징으로 하는 잡음 억압 장치.
  7. K개의 주파수 대역(단, K는 2 이상의 자연수)의 각각에 대해, 입력 신호에 포함되는 잡음 스펙트럼을 당해 입력 신호에 기초하여 추정하는 잡음 스펙트럼 추정 공정과,
    상기 잡음 스펙트럼 추정 공정에 있어서의 잡음 스펙트럼의 추정 결과에 기초하여, 상기 K개의 주파수 대역 각각의 잡음 억압 게인을 산출하는 제1 게인 연산 공정과,
    상기 잡음 억압 게인에 대해, 상기 K개의 주파수 대역의 전부 또는 일부에 관한 평균치 게인을 산출하는 제2 게인 연산 공정과,
    상기 입력 신호에 관한 상기 K개의 주파수 대역의 전부 또는 일부에 대해, 상기 평균치 게인을 적용함으로써, 당해 입력 신호에 포함되는 잡음을 억압하는 잡 음 억압 공정을 포함하는 것을 특징으로 하는 잡음 억압 방법.
  8. 제7항에 있어서, 상기 입력 신호에 포함되는 음성의 유무를 검출함으로써, 당해 입력 신호를, 당해 음성이 포함되는 음성 프레임 및 당해 음성이 포함되지 않는 잡음 프레임으로 구분하는 음성 검출 공정을 더 포함하고,
    상기 잡음 억압 공정은,
    상기 입력 신호 중 상기 잡음 프레임에 해당하는 부분에, 상기 평균치 게인을 적용하는 것을 특징으로 하는 잡음 억압 방법.
KR1020090101089A 2008-10-24 2009-10-23 잡음 억압 장치 및 잡음 억압 방법 KR101088627B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JPJP-P-2008-274772 2008-10-24
JP2008274772A JP5245714B2 (ja) 2008-10-24 2008-10-24 雑音抑圧装置及び雑音抑圧方法

Publications (2)

Publication Number Publication Date
KR20100045933A KR20100045933A (ko) 2010-05-04
KR101088627B1 true KR101088627B1 (ko) 2011-11-30

Family

ID=42273494

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090101089A KR101088627B1 (ko) 2008-10-24 2009-10-23 잡음 억압 장치 및 잡음 억압 방법

Country Status (3)

Country Link
JP (1) JP5245714B2 (ko)
KR (1) KR101088627B1 (ko)
CN (1) CN101727910B (ko)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5526524B2 (ja) * 2008-10-24 2014-06-18 ヤマハ株式会社 雑音抑圧装置及び雑音抑圧方法
KR101173980B1 (ko) 2010-10-18 2012-08-16 (주)트란소노 음성통신 기반 잡음 제거 시스템 및 그 방법
KR101176207B1 (ko) * 2010-10-18 2012-08-28 (주)트란소노 음성통신 시스템 및 음성통신 방법
JP2012103395A (ja) * 2010-11-09 2012-05-31 Sony Corp 符号化装置、符号化方法、およびプログラム
CA2818210C (en) * 2010-12-08 2015-08-04 Widex A/S Hearing aid and a method of enhancing speech reproduction
US9173025B2 (en) 2012-02-08 2015-10-27 Dolby Laboratories Licensing Corporation Combined suppression of noise, echo, and out-of-location signals
US8712076B2 (en) 2012-02-08 2014-04-29 Dolby Laboratories Licensing Corporation Post-processing including median filtering of noise suppression gains
BR112015019176B1 (pt) 2013-04-05 2021-02-09 Dolby Laboratories Licensing Corporation método e aparelho de expansão de um sinal de áudio, método e aparelho de compressão de um sinal de áudio, e mídia legível por computador
CN104242850A (zh) * 2014-09-09 2014-12-24 联想(北京)有限公司 一种音频信号处理方法及电子设备
JP6559576B2 (ja) 2016-01-05 2019-08-14 株式会社東芝 雑音抑圧装置、雑音抑圧方法及びプログラム
EP4218012A1 (en) * 2020-09-23 2023-08-02 Dolby Laboratories Licensing Corporation Adaptive noise estimation

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005250266A (ja) 2004-03-05 2005-09-15 Nippon Telegr & Teleph Corp <Ntt> エコー抑圧方法、この方法を実施する装置、プログラムおよび記録媒体
US20080010063A1 (en) 2004-12-28 2008-01-10 Pioneer Corporation Noise Suppressing Device, Noise Suppressing Method, Noise Suppressing Program, and Computer Readable Recording Medium
US20080189104A1 (en) 2007-01-18 2008-08-07 Stmicroelectronics Asia Pacific Pte Ltd Adaptive noise suppression for digital speech signals

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4630305A (en) * 1985-07-01 1986-12-16 Motorola, Inc. Automatic gain selector for a noise suppression system
JP3269969B2 (ja) * 1996-05-21 2002-04-02 沖電気工業株式会社 背景雑音消去装置
US6487257B1 (en) * 1999-04-12 2002-11-26 Telefonaktiebolaget L M Ericsson Signal noise reduction by time-domain spectral subtraction using fixed filters
US6507623B1 (en) * 1999-04-12 2003-01-14 Telefonaktiebolaget Lm Ericsson (Publ) Signal noise reduction by time-domain spectral subtraction
JP3454206B2 (ja) * 1999-11-10 2003-10-06 三菱電機株式会社 雑音抑圧装置及び雑音抑圧方法
JP4583781B2 (ja) * 2003-06-12 2010-11-17 アルパイン株式会社 音声補正装置
JP4162604B2 (ja) * 2004-01-08 2008-10-08 株式会社東芝 雑音抑圧装置及び雑音抑圧方法
US7492889B2 (en) * 2004-04-23 2009-02-17 Acoustic Technologies, Inc. Noise suppression based on bark band wiener filtering and modified doblinger noise estimate
US7454332B2 (en) * 2004-06-15 2008-11-18 Microsoft Corporation Gain constrained noise suppression
WO2005124739A1 (ja) * 2004-06-18 2005-12-29 Matsushita Electric Industrial Co., Ltd. 雑音抑圧装置および雑音抑圧方法
WO2008032828A1 (fr) * 2006-09-15 2008-03-20 Panasonic Corporation Dispositif de codage audio et procédé de codage audio

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005250266A (ja) 2004-03-05 2005-09-15 Nippon Telegr & Teleph Corp <Ntt> エコー抑圧方法、この方法を実施する装置、プログラムおよび記録媒体
US20080010063A1 (en) 2004-12-28 2008-01-10 Pioneer Corporation Noise Suppressing Device, Noise Suppressing Method, Noise Suppressing Program, and Computer Readable Recording Medium
US20080189104A1 (en) 2007-01-18 2008-08-07 Stmicroelectronics Asia Pacific Pte Ltd Adaptive noise suppression for digital speech signals

Also Published As

Publication number Publication date
JP2010102199A (ja) 2010-05-06
CN101727910A (zh) 2010-06-09
CN101727910B (zh) 2012-07-04
KR20100045933A (ko) 2010-05-04
JP5245714B2 (ja) 2013-07-24

Similar Documents

Publication Publication Date Title
KR101088627B1 (ko) 잡음 억압 장치 및 잡음 억압 방법
JP5071346B2 (ja) 雑音抑圧装置及び雑音抑圧方法
US8521530B1 (en) System and method for enhancing a monaural audio signal
US8644496B2 (en) Echo suppressor, echo suppressing method, and computer readable storage medium
US7912567B2 (en) Noise suppressor
US8571231B2 (en) Suppressing noise in an audio signal
KR101088558B1 (ko) 잡음 억압 장치 및 잡음 억압 방법
JP5300861B2 (ja) 雑音抑圧装置
US8560308B2 (en) Speech sound enhancement device utilizing ratio of the ambient to background noise
CN103718241B (zh) 噪音抑制装置
JP5153886B2 (ja) 雑音抑圧装置および音声復号化装置
US20070232257A1 (en) Noise suppressor
JP2002508891A (ja) 特に補聴器における雑音を低減する装置および方法
JP2014122939A (ja) 音声処理装置および方法、並びにプログラム
JP2004341339A (ja) 雑音抑圧装置
JP5131149B2 (ja) 雑音抑圧装置及び雑音抑圧方法
CN103187068B (zh) 基于Kalman的先验信噪比估计方法、装置及噪声抑制方法
US20130044890A1 (en) Information processing device, information processing method and program
JP2003517761A (ja) 通信システムにおける音響バックグラウンドノイズを抑制するための方法と装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20141022

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20151030

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee