KR20030074762A - 노이즈 감소 방법 및 장치 - Google Patents

노이즈 감소 방법 및 장치 Download PDF

Info

Publication number
KR20030074762A
KR20030074762A KR10-2003-7010104A KR20037010104A KR20030074762A KR 20030074762 A KR20030074762 A KR 20030074762A KR 20037010104 A KR20037010104 A KR 20037010104A KR 20030074762 A KR20030074762 A KR 20030074762A
Authority
KR
South Korea
Prior art keywords
impulse response
noise reduction
frame
reduction filter
noise
Prior art date
Application number
KR10-2003-7010104A
Other languages
English (en)
Other versions
KR100549133B1 (ko
Inventor
스깔라르빠스깔
끌로드 마로
로랑 모위아리
Original Assignee
프랑스 텔레콤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=8859390&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=KR20030074762(A) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by 프랑스 텔레콤 filed Critical 프랑스 텔레콤
Publication of KR20030074762A publication Critical patent/KR20030074762A/ko
Application granted granted Critical
Publication of KR100549133B1 publication Critical patent/KR100549133B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01LMEASURING FORCE, STRESS, TORQUE, WORK, MECHANICAL POWER, MECHANICAL EFFICIENCY, OR FLUID PRESSURE
    • G01L21/00Vacuum gauges
    • G01L21/02Vacuum gauges having a compression chamber in which gas, whose pressure is to be measured, is compressed

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Noise Elimination (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Superconductors And Manufacturing Methods Therefor (AREA)
  • Pharmaceuticals Containing Other Organic And Inorganic Compounds (AREA)
  • Filters That Use Time-Delay Elements (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereo-Broadcasting Methods (AREA)

Abstract

본 발명은 주파수 도메인의 입력 신호를 분석할 때 입력 신호 프레임에서 노이즈 레벨 추정량 및 유용한 신호 레벨 추정량을 결정하는 것을 포함함으로써, 제1 노이즈 감소 필터의 전달 함수를 산출하고, 신호 스펙트럼과 제1 필터 전달 함수를 결합함으로써, 유용한 신호 레벨 추정량을 잘 맞추기 위해 제2 패스를 수행한 후, 잘 맞추어진 유용한 신호 레벨 추정량과 노이즈 레벨 추정량에 기초하여 제2 노이즈 감소 필터의 전달 함수를 계산할 수 있다. 상기 제2 노이즈 감소 필터는 프레임의 노이즈 레벨을 감소시키는데 사용된다.

Description

노이즈 감소 방법 및 장치{NOISE REDUCTION METHOD AND DEVICE}
중요한 응용 분야는, 이하의 제한적이지 않은 방법에서 포함되는 오디오 신호 처리(스피치 또는 음악) 분야이다.
ㆍ(전용 룸에서의 또는 심지어 멀티미디어 컴퓨터로부터의) 노이지 환경에서의 원격 회의 및 화상 회의;
ㆍ텔레포니(telephony): 고정된 또는 휴대용 단말기에서의 프로세싱, 및/또는 전송 네트워크에서의 프로세싱;
ㆍ핸즈 프리 단말기, 특히 오피스, 차량 또는 휴대용 단말기;
ㆍ공공 장소에서의 사운드 픽업(역, 공항 등);
ㆍ차량에서의 핸즈 프리 사운드 픽업;
ㆍ음향(acoustic) 환경에서의 강한 스피치 인식;
ㆍ영화 및 미디어(예를 들어 스포츠 저널리즘 또는 콘서트를 위한 라디오, 텔레비전 등)에 대한 사운드 픽업.
본 발명은 유용한 정보가 노이지(noisy) 관찰으로부터 추출될 필요가 있는임의의 분야에 적용될 수도 있다. 특히, 다음의 분야 : 해저 촬상, 해저 원격 감지, 생물 의학의 신호 처리(EEG, ECG, 생물 의학의 촬상 등)에서 인용될 수 있다.
사운드 픽업의 특징적인 문제점은 사운드 픽업 마이크로폰이 배치되는 음향 환경에 관한 것이고, 특히 이 환경을 충분히 제어하는 것이 불가능하기 때문에, 간섭 신호(노이즈라 칭함) 또한 관찰 신호 내에 존재한다는 사실에 관한 것이다.
신호의 질을 개선하기 위해, 노이지 관찰 신호 상에서 처리를 행함으로써 유용한 정보를 추출하는 것을 목적으로 하는 노이즈 감소 시스템이 개발되고 있다. 오디오 신호가 장거리로부터 전송되는 스피치 신호(speech signal)인 경우, 이들 시스템은 그 명료도를 증가시키고 응신처에서의 부담을 감소시키기 위해 사용될 수 있다. 이들 구두의 통신(spoken communication)의 응용에 부가하여, 스피치 신호 질의 개선은 또한 음성 인식에 유용하다고 판명되었고, 그 성능은 사용자가 노이지 환경에 있는 경우 크게 크게 손상된다.
노이즈 감소 동작을 수행하기 위한 신호 처리 기술의 선택은 우선 프로세스의 입력에서 이용가능한 관찰의 수에 달려 있다. 본 기술에 있어서, 단지 하나의 관찰 신호가 이용가능한 경우를 고려해보자. 이 단일 캡쳐(capture) 문제에 대하여 적용되는 노이즈 감소 방법들은 시간 진행/지연(advance/delay)을 갖는 적응형 필터링, 파라메트릭 칼만 필터링(parametric Kalman filtering), 또는 심지어 단시간 스펙트럼의 변경에 의한 필터링과 같은 신호 처리 기술에 주로 의존한다.
마지막 필터링(단시간 스펙트럼의 변경에 의한 필터링)은 실제로 관련된 개념들의 간단함 및 베이직 툴을 프로그래밍하는데 요구되는 베이직 툴(예를 들어 이산적인 푸리에 변환)의 폭넓은 이용가능성에 의해 산업상 설비에 사용되는 모든 해결책들을 결합한다. 그러나, 이들 노이즈 감소 기술의 급속한 진보는 주로 처리 동작의 출력에서 이용가능한 신호 상의 주요 왜곡들을 도입하지 않고, 신호 처리 프로세서에서 실시간으로 이들 처리 동작들을 용이하게 수행할 수 있는 능력에 달려있다. 이 페밀리의 방법들에서, 프로세싱은 노이즈 감소 필터의 전달 함수를 추정한 후, 스펙트럼 도메인에서의 승산에 기초하여 필터링을 행하는 것이고, 이는 블록들 마다의 프로세싱에 의해, 수행될 단시간 스펙트럼의 감쇠에 의한 노이즈 감소를 가능하게 한다.
원하는 신호 s(n) 및 간섭 신호 b(n)의 혼합에 의해 발생하는 노이지 관찰 신호는 x(n)으로 표시되며, 여기서 n은 이산적인 시간의 타임 인덱스를 나타낸다. 이산적인 시간의 표시 선택은 신호의 디지털 처리를 지향하는 구현에 관련되지만, 상술한 방법들은 연속적인 시간 신호들에도 적용되는 것을 이해할 것이다. 신호는 일정 길이의 인덱스 k의 연속적인 세그먼트들 또는 프레임들에서 분석된다. 이산적인 시간 및 주파수 도메인의 표시에 일반적으로 사용되는 표기는 다음과 같다:
ㆍX(k,f): 분석된 신호 x(n)의 k번째 프레임(k는 프레임 인텍스임)의 푸리에 변환(f는 주파수 인덱스임);
ㆍS(k,f): 원하는 신호 s(n)의 k번째 프레임의 푸리에 변환;
: (시간 또는 주파수 도메인에서의) 양 ν의 추정(estimation); 예를 들면는 원하는 신호의 푸리에 변환의 추정이다;
ㆍγuu(f): 신호 u(n)의 PSD(power spectral density).
대부분의 노이즈 감소 기술에서는, 노이지 신호 x(n)은 주파수 도메인에서 필터링이 수행되어, 가능한 한 어떤 간섭도 없는 원래 신호 s(n)과 가까운 유용한 추정 신호를 생성한다. 상술한 바와 같이, 이 필터링 동작은 이 성분의 추정된 신호 대 잡음비(SNR) 하에서 노이지 신호의 각 주파수 성분 f를 감소시키는 것이다. 이 SNR은 주파수 f에 의존적이며, 프레임 k에 대해 η(k,f)로서 이하에 표시된다.
각 프레임들에 대해, 신호는 우선 노이즈 감소 필터를 산출하는데 필요한 스펙트럼의 양에 대한 이후의 추정을 개산하기 위해 웨이팅 윈도우(weighting window)가 곱해진다. 다음, 이에 의해 윈도우화된 각 프레임이 스펙트럼의 도메인에서 분석된다(일반적으로 빠른 버전의 이산적인 푸리에 변환을 이용함). 이 동작은 단시간 푸리에 변환(STFT)이라 불린다. 관찰된 신호의 이 주파수-도메인 표시 X(k,f)는 노이즈 감소 필터의 전달 함수 H(k,f)를 동시에 추정하고, 노이지 신호의 단시간 스펙트럼과 이 전달 함수의 간단한 승산에 의해 스펙트럼의 도메인에서 이 필터를 적용하는데 사용될 수 있다.
(1)
이와 같이 얻어진 신호는 그 후 간단한 역 스펙트럼 변환에 의해 시간 도메인으로 되돌아온다. 디노이즈된(denoised) 신호는 일반적으로 블록들의 중첩 및 추가 기술(OLA, "overlap-add") 또는 블록들의 세이빙 기술(OLS, "overlap-save")에 의해 합성화된다. 시간 도메인의 신호를 복구하는 이 동작은 ISTFT(inverse short time Fourier transform)이라 불린다.
단시간 스펙트럼 감쇠 방법의 상세한 설명은 다음 참조문헌에 나타나 있다: J.S.Lim, A.V. Openheim, "노이지 스피치의 향상 및 대역폭 압축(enhancement and bandwidth compression of noisy speech)", Rreceedings of the IEEE, vol. 67, 페이지 1586-1604, 1979; 및 R.E Crochiere, L.R. Rabiner, "멀티 레이트 디지털 신호 처리" Prentice Hall, 1983.
이러한 노이즈 감소 시스템에 의해 수행되는 주요 작업은 다음과 같다:
ㆍVAD(voice activity detection);
ㆍ음성 인액티비티(voice inactivity)의 순간 동안 노이즈의 PSD의 추정;
ㆍ노이즈의 스펙트럼 성분들을 억제하기 위한 룰에 기초하여 추정된 단시간 스펙트럼 감쇠의 응용;
ㆍOLS 또는 OLA형 기술에 기초하여 처리된 신호의 합성.
노이즈 성분을 억제하기 위한 룰의 선택은 그것이 전송된 신호의 질을 결정하기 때문에 중요하다. 이들 억제 룰들은 일반적으로 노이지 신호의 스펙트럼 성분중 그 위상이 아니라 단지 진폭 |X(k,f)|만을 변경한다. 일반적으로, 다음 가정이 이루어진다:
ㆍ노이즈 및 유용한 신호는 통계적으로 비연관된다:
ㆍ유용한 노이즈는 간헐적이다(노이즈가 추정될 수 있는 침묵의 기간의 존재);
ㆍ인간의 청각은 신호의 위상에 민감하지 않다(D.L.Wang, J.S.Lim, "스피치 향상에 있어서 위상의 비중요성(The unimportance of phase in speech enhancement)" IEEE Trans. on ASSP, vol. 30, No.4, pp.679-681, 1892).
주파수 도메인 성분 f에서 인덱스 k의 프레임 상의 관찰 신호 X(k,f)에 적용되는 단시간 스펙트럼 감쇠 H(k,f)는 일반적으로 로컬 신호 대 잡음비 η(k,f)의 추정에 기초하여 결정된다. 모든 억제 룰에 공통인 특징은 다음과 같이 주어지는 그 점근 거동이다:
(2)
일반적으로 채용되는 억제 룰은 다음과 같다:
ㆍ노이즈 감소 필터의 전달 함수 H(k,f)가
(3)
와 같이 표현되는 파워 스펙트럼 감산법(J.S. Lim 및 A.V Oppenheim에 의한 상기 자료를 참조);
ㆍ노이즈 감소 필터의 전달 함수 H(k,f)가
(4)
와 같이 표현되는 진폭 스펙트럼 감산법(S.F. Boll, "스펙트럼 감산범을 사용한 스피치의 음향 노이즈 억제(Suppression of acoustic noise in speech usingspectral subtraction)", IEEE Trans, on Audio, Speech and signal Processing, vol. 27, pp.113-120, April 1979 참조);
ㆍ전달 함수 H(k,f)가
(5)
와 같이 표현되는 위너 필터(Wiener filter)의 직접적인 응용.
이들 식에서, γss(k,f) 및 γbb(k,f)는 각각 인덱스 k의 프레임 상의 관찰 신호 X(k,f)의 주파수 도메인 성분 f 내에 존재하는 노이즈 및 유용한 신호의 PSD를 나타낸다.
주어진 주파수 도메인 성분 f 상에서 측정되는 로컬 신호 대 잡음비에 따른 식 (3)-(5)로부터, 노이지 신호에 가해지는 스펙트럼 감쇠의 거동을 연구할 수 있다. 모든 룰들은 로컬 신호 대 잡음비가 높은 경우에 동일한 감쇠를 발생시킨다는 것을 이해해야 한다. 파워 감산법은 가우시안 모델의 최대 우도(maximum likelihood)의 의미에서 최적이다(O. Cappe, "에프레임 및 말라 노이즈 억제기에 의한 음악 노이즈 현상의 제거(Elimination of the musical noise phenomenon with the Ephraim and Malah noise suppressor)", IEEE Trans, on speech and Audio Processing, vol.2, No.2, pp 345-349, April 1994 참조). 그러나 파워 감산법은 노이즈 파워가 프로세싱의 출력에서 최대로 남아있는 방법이다. 모든 억제룰에 있어서, 컷 오프 값 근처의 로컬 신호 대 잡음비의 작은 변화는 총 감쇠의 경우(H(k,f)0)로부터 무시할 수 있는 스펙트럼 변경의 경우(H(k,f)1)까지 변화를 발생시키기에 충분하다는 것을 주의해야 한다.
후자의 특성은 "음악 노이즈(musical noise)"로서 알려진 현상의 이유들중 하나를 구성한다. 사실상, 결정론적이고 랜덤한 성분들 모두에 의해 특징되는 주변(ambient) 노이즈는 음성 비활성의 기간 동안만 특징적일 수 있다. 이들 랜덤한 성분들의 존재에 의해, 음성 비활성의 기간 동안 노이즈의 주파수 도메인 성분 f의 실제 기여와 음성 비활성의 순간들 동안 수 프레임에 걸쳐 행해지는 그 평균 추정 사이에 매우 특징적인 변화가 있다. 이 차이점 때문에, 로컬 신호 대 잡음비의 추정은 컷 오프 레벨 주위에서 변동할 수 있고, 따라서 나타난 후 사라지는 스펙트럼의 요소들을 프로세싱의 출력에서 생성할 수 있으며, 평균 수명은 통계적으로, 고려되는 분석 윈도우의 크기의 차수를 넘지 않는다. 전체 통과대역에 대한 이 거동의 일반화는 "음악 노이즈(musical noise)"로서 알려진, 자극적으로 들리는 잔여 노이즈를 도입시킨다.
이 노이즈의 영향을 감소시키는데 기여하는 많은 연구들이 있다. 추천 해결책은 각종 공정에 따라 개발되고 있다.
ㆍ단시간 추정의 평균화(S.F.Boll에 의한 상기 자료를 참조)
ㆍ노이즈 파워 스펙트럼의 과추정(overestimation)(M. Berouti et al, "음향 노이즈에 의해 붕괴되는 스피치 향상(Enhanced of speech corrupted by acoustic noise)", Int. Conf. on Speech, Signal Processing, pp. 208-211, 1979; 및 P. Lockwood, J. Boudy, "비선형 스펙트럼 감산기, HMM 및 차량의 강한 스피치 인식용 프로젝션으로의 실험(Experiments with a non-linear spectral subtractor, hiddenMarkov models and the projection for robust speech recognition in cars)", Proc. of EUSIPCO'91, PP.79-82, 1991 참조);
ㆍ노이즈 스펙트럼 밀도의 최소값 트래킹(tracking)(R. Martin, "최소 통계학에 기초한 스펙트럼 감산법(Spectral subtraction based on minimum statistics)", in Signal Processing Ⅶ: Theories and Applications, EUSIPCO'94, PP. 1182-1185, Sept.1994 참조).
또한, 스피치 및 추가 노이즈에 대한 신호들의 통계적 모델들에 기초하여 새로운 억제 룰을 정하는 것에 대한 많은 연구가 있다. 이 연구들은 새로운 "연판정(soft decision)" 알고리즘들의 도입으로 이어졌는데, 그 이유는 이들이 종래 방법들(R.J. Mac Aulay, M.L. Malpass, "연판정 노이즈 억제 필터를 이용한 스피치 향상(Speech enhancement using a soft-decision noise suppression filter)", IEEE trans, on Audio, Speech and Signal Processing, , vol. 28, No. 2, pp.138-145, April 1980, Y. Ephraim, D.Malah, "최적 비선형 스펙트럼의 진폭 추정을 사용한 스피치 향상(speech enhancement using optimal non-linear spectral amplitude estimation)", Int. Conf. on Speech, Signal Processing, pp.1118-1121, 1983, Y. Ephraim, D. Malha, "최소 평균 제곱 오차 단시간 스펙트럼 진폭 추정량을 사용한 스피치 향상(Speech enhancement using a minimum mean square error short-time spectral amplitude estimator)", IEEE Trans, on ASSP, vol. 32, No. 6, pp.1109-1121, 1984 참조)에 비해 부가적인 자유도를 가지기 때문이다.
상기한 단시간 스펙트럼의 변경 룰은 다음과 같은 특징을 갖는다:
ㆍ단시간 스펙트럼 감쇠의 산출은 스펙트럼 성분들의 각각에 대한 신호 대 잡음비의 추정에 의존하며, 식 (3)-(5) 각각은 다음 양을 포함한다:
(6)
따라서, 노이즈 감소 기술의 성능(왜곡들, 노이즈 레벨에서의 효과적인 감소)은 신호 대 잡음비의 이 추정량의 관련성에 의해 지배된다.
ㆍ이들 기술들은 단일 스펙트럼 감쇠에 의해, 노이즈 감소 장치의 입력에 존재하는, 주어진 프레임의 모든 샘플들을 필터링하는 것을 포함하는 블록식의 프로세싱(연속적인 블록들 사이의 중첩의 가능성을 가짐)에 기초한다. 이 특성은 스펙트럼 도메인의 승산이 필터에 적용된다는 점에 있다. 이는 현재 프레임 상에 존재하는 신호가 예를 들어 워드의 시작 또는 끝인 경우에, 또는 혼합된 유성음의/무성음의 프레임인 경우에도, 2차 정상성(stationarity) 가정과 부합하지 않을 때 특히 제한적이다.
ㆍ스펙트럼 도메인에서 행해지는 승산은 주기적인 컨볼루션 동작과 실제로 대응한다. 실제로, 왜곡을 피하기 위해, 시도된 동작은 선형 컨볼루션이며, 각 입력 프레임에 특정 수의 제로 샘플들을 더하는 것("제로 패딩(zero padding))"이라 칭해지는 기술)과 노이즈 감소 필터의 임펄스 응답의 시간 도메인 지원을 제한하는 것에 목표를 두고 있는 부가 프로세싱을 행하는 것 모두를 필요로 한다. 따라서, 시간 도메인 컨볼루션 제약을 만족시키는 것은 스펙트럼 변환의 차수를 필연적으로증가시키고, 그 결과, 노이즈 감소 프로세싱의 연산 복잡성을 증가시킨다. 노이즈 감소 필터의 임펄스 응답의 시간 도메인 지원을 제한하기 위해 대부분 사용되는 기술은 시간 도메인에서의 제약을 도입시키는 것을 포함하며, 이는 (i) 필터의 전달 함수 H(k,f)의 지식에 기초하여 임펄스 응답 h(k,n)을 얻기 위한 1차 "역(inverse)" 스펙트럼 변환, (ii)절단된 시간 도메인 필터 h'(k,n)를 따르는, 이 임펄스 응답의 점들의 갯수의 제한, 그 후 (iii) 절단된 임펄스 응답 h'(k,n)에 기초하여 수정된 전달 함수 H'(k,f)를 얻기 위한 2차 "직접(direct)" 스펙트럼 변환을 필요로 한다.
ㆍ실제로, 각 분석 프레임은 스펙트럼 변환 동작을 행하기 전에 분석 윈도우 w(n)가 곱해진다. 노이즈 감소 필터가 전대역 타입(즉, H(k,f)1,f)인 경우에, 완전한 복구의 조건이 만족하기를 바란다면, 분석 윈도우는 다음 조건
(7)
을 만족시켜야 한다. 이 식에서, 파라미터 D는 2개의 연속적인 분석 프레임 사이의 (샘플들 수에 있어서의) 시프트를 나타낸다. 한편, 웨이팅 윈도우 w(n)(일반적으로 해닝(Hanning), 해밍(Hamming), 블랙맨(Blackman) 등의 타입)의 선택은 W(f)의 메인 로브의 폭과 (메인 로브의 진폭과 비례하는) 2차 로브의 진폭을 결정한다. 메인 로브가 넓으면, 원래 신호의 변환의 빠른 천이가 매우 나쁘게 접근된다. 2차 로브의 상대적인 진폭이 크면, 얻어진 근사값은 특히 불연속 주위에서 자극적인 진동을 갖는다. 따라서, 적절한 스펙트럼 분석 조건(메인 로브의 폭의 선택, 및 사이드 로브의 진폭의 선택)과 노이즈 감소 필터링 프로세스에 의해 생성되는 작은 지연의 조건(프로세싱의 입력 및 출력에서의 신호 사이의 타임 시프트) 모두를 만족시키는 것은 어렵다. 제2 조건을 만족시키는 것은 임의의 중첩 없이 연속적인 프레임, 따라서 사각형의 분석 윈도우를 사용하게 하여, 적절한 스펙트럼 분석을 수행하지 못하게 한다. 이들 두 조건을 동시에 만족시키기 위한 한가지 방법은, (양호한 스펙트럼 추정을 수행하기 위해) 적절한 분석 윈도우에 의해 웨이팅되는 프레임 상에서 행해지는 제1 스펙트럼 변환에 기초하여 스펙트럼 분석을 수행하는 것이고, 동시에 (스펙트럼 승산에 의한 컨볼루션 동작을 수행하기 위해) 윈도우화되지 않은 데이터 상에 제2 스펙트럼 변환을 수행하는 것이다. 실제로, 이러한 기술은 연산 복잡성의 관점에서 매우 고가인 것으로 판명되었다.
EP-A-0 710 947호는 에코 캔슬러(echo canceler)와 연결된 노이즈 감소 장치를 개시하고 있다. 노이즈 감소는 스펙트럼 분석 동안 신호 대 잡음비에 따라 추정되는 전달 함수 H(k,f)의 역 푸리에 변환에 의해 얻어지는 임펄스 응답의 수단으로, 시간 도메인의 블럭형 필터링에 의해 행해진다.
본 발명은 입력 신호에 존재하는 노이즈 레벨을 감소시키는데 사용되는 신호 처리 기술에 관한 것이다.
도 1은 본 발명에 따른 방법을 구현하도록 설계된 노이즈 감소 장치의 블록도.
도 2는 도 1에 따른 장치에 사용될 수 있는 노이즈 감소 필터의 전달 함수를 추정하는 유닛의 블록도.
도 3은 도 1에 따른 장치에 사용될 수 있는 시간 도메인 필터링 뉴유닛의 블록도.
도 4는 상기 방법에 대한 특정 실시예에서 사용될 수 있는 윈도우 함수의 그래프.
본 발명의 주요한 목적은 노이즈 감소 방법들의 성능을 개선하는 것이다.
따라서, 본 발명은 입력 신호의 연속적인 프레임들에서 노이즈를 감소시키는 방법에 있어서, 프레임들의 적어도 일부에 대해:
- 주파수 도메인으로의 변환에 의해 입력 신호의 스펙트럼을 산출하는 단계;
- 주파수 의존형의 노이즈 레벨 추정량을 얻는 단계;
- 프레임에 대한 제1 주파수 의존형의 유용한 신호 레벨 추정량을 산출하는 단계;
- 제1 유용한 신호 레벨 추정량 및 노이즈 레벨 추정량에 기초하여 제1 노이즈 감소 필터의 전달 함수를 산출하는 단계;
- 입력 신호의 스펙트럼과 제1 노이즈 감소 필터의 전달 함수를 결합함으로써, 프레임에 대한 제2 주파수 의존형의 유용한 신호 레벨 추정량을 산출하는 단계;
- 제2 유용한 신호 레벨 추정량과 노이즈 레벨 추정량에 기초하여 제2 노이즈 감소 필터의 전달 함수를 산출하는 단계; 및
프레임 필터링 동작에서 제2 노이즈 감소 필터의 전달함수를 사용하여 노이즈가 감소된 신호를 생성하는 단계
를 포함하는 방법을 제안하고 있다.
추정되는 노이즈 및 유용한 신호 레벨은 일반적으로 PSD이고, 보다 일반적으로는 이들 PSD와 관련된 양들이다.
2가지 패스(pass)에서의 산출, 유용한 신호 γss(k,f)의 PSD의 보다 빠른 업데이트에 존재하는 특징에 의해, 이전 방법들에서 제2 노이즈 감소 필터가 2가지 중요한 이점을 얻게 된다. 우선, 특히 일시적인 포락선의 보다 빠른 변동(예를 들어 침묵/스피치 변환시 일부 스피치 신호에 대한 어택(attack) 또는 소멸) 동안 유용한 신호의 비 정상성(non-stationarities)의 보다 빠른 트래킹이 있다. 두번째로, 노이즈 감소 필터는 추정이 용이하기 때문에, 방법의 성능 향상을 얻을 수 있다(보다 두드러진 노이즈 감소 및 유용한 신호의 저하 감소).
이 방법은 2가지 이상의 패스가 행해지는 경우로 일반화될 수 있다. 얻어진 p번째 전달 함수(p≥2)에 기초하여, 유용한 신호 레벨 추정량이 재산출되고, 노이즈 감소를 위해 (p+1)번째 전달 함수가 재추정된다. 상기한 방법의 정의는 P>2 패스가 이루어지는 경우에도 적용된다: 이 정의에 따른 "제1 유용한 신호 레벨 추정량"은 단순히 (P-1)번째 패스 동안 얻어진 것으로서 여겨질 필요가 있다. 실제로, 이 방법의 만족스러운 성능은 P=2에서 관찰된다.
방법의 한 가지 유용한 실시예에서, 스펙트럼의 순환은 윈도우 함수에 의한 입력 신호 프레임의 웨이팅 및 웨이팅된 프레임의 주파수 도메인으로의 변환을 포함하며, 윈도우 함수는 프레임의 덜 최근의 절반보다 프레임의 보다 최근의 절반에 더 강한 웨이팅을 적용하도록 비대칭적이다.
이러한 윈도우 함수의 선택은 스펙트럼 추정의 웨이트가 가장 최근의 샘플들 쪽으로 집중될 수 있으면서, (2차 로브의 증가를 제어하는) 양호한 스펙트럼 특성을 갖는 윈도우를 제공하는 것을 의미한다. 이에 의해 신호 변화가 빠르게 트래킹된다. 주파수 의존형 분석을 위한 스펙트럼의 순환의 이 모드는 노이즈 감소 필터의 전달 함수의 추정이 단지 하나의 패스에서 수행되는 경우에 적용될 수 있다는 것을 이해해야 한다.
이 방법은 입력 신호가 상기한 단시간 스펙트럼 감쇠 방법들에 의해, 주파수 도메인에서 블록형으로 필터링되는 경우에 사용될 수 있다. 그 후, 디노이즈된 신호는, (예를 들면 코딩 어플리케이션 또는 스치피 인식 어플리케이션에서) 직접 이용되거나 신호를 명백하게 얻기 위해 시간 도메인으로 변환될 수 있는 그 스펙트럼 성분의 형태로 생성된다.
그러나, 방법의 한 가지 바람직한 실시예에서, 노이즈 감소 필터 임펄스 응답은 제2 노이즈 감소 필터의 전달 함수의 시간 도메인으로의 변환에 기초하여 현재 프레임에 대해 결정되고, 시간 도메인의 프레임 상에서의 필터링 동작은 상기 프레임에 대해 결정된 임펄스 응답에 의해 행해진다.
바람직하게는, 현재 프레임에 대한 노이즈 감소 필터 임펄스 응답의 결정은 다음 단계들을 포함한다:
- 제2 노이즈 감소 필터의 전달 함수를 시간 도메인으로 변환하여 제1 임펄스 응답을 얻는 단계; 및
- 시간 도메인으로의 변환점들의 갯수보다 실질적으로 작은(일반적으로 적어도 5배 작은) 다수의 샘플들에 대응하는 절단 길이로 제1 임펄스 응답을 절단하는 단계.
노이즈 감소 필터의 시간 도메인 지원에서의 이 제한은 2가지의 이점을 제공한다. 첫째, (선형 컨볼루션에 따라) 시간 도메인 에일리어싱(aliasing) 문제들을 방지하는 것을 의미한다. 둘째, 유용한 신호를 저하시킬 수 있는 매우 자극적인 필터의 효과들을 방지할 수 있는 유연한 효과를 제공한다. 절단 길이에 대응하는 다수의 샘플들 상에 윈도우 함수에 의해 절단된 임펄스 응답의 웨이팅이 수반될 수있다. 필터의 시간 도메인 지원에서의 이 제한은 전달 함수의 추정이 단일 패스에서 수행되는 경우에도 적용될 수 있다.
시간 도메인에서 필터링이 수행되면, 현재 프레임을 여러개의 서브 프레임들로 세분화하고, 현재 프레임에 대해 결정된 노이즈 감소 필터 임펄스 응답 및 적어도 하나의 이전 프레임에 대해 결정된 노이즈 감소 필터 임펄스 응답에 기초하여 보간된 임펄스 응답을 각 서브 프레임에 대해 산출하는 것이 유리하다. 그 후 프레임의 필터링 동작은 상기 서브 프레임에 대해 산출되는 보간된 임펄스 응답에 따라 시간 도메인에서의 각 서브 프레임의 신호의 필터링을 하는 것을 포함한다.
서브 프레임으로의 이 프로세싱은 동일한 프레임 내에서 변하는 노이즈 감소 필터를 적용하는 것을 가능하게 하므로, 처리된 신호의 비 정상성에 매우 적합하다. 음성 신호를 처리하는 경우에, (유성음 및 유성음의 소리를 갖는 프레임은 말할 것도 없고) 특히 혼합된 프레임들에서 이 상황이 발생한다. 서브 프레임으로의 이 프로세싱은 또한 필터의 전달함수의 추정이 단일 패스에서 수행되는 경우에 적용될 수 있다는 것을 명심해야 한다.
본 발명의 다른 양태는 상기 방법을 구현하도록 설계된 노이즈 감소 장치에 관한 것이다.
본 발명의 다른 특징 및 이점은 다음 첨부 도면을 참조하여 제한적이지 않은 예의 실시예들에 대한 다음 설명에서 명백해질 것이다.
도 1 내지 도 3은 분리된 유닛들의 형태로 본 발명에 따른 장치를 도시한 것이다. 방법에 대한 하나의 일반적인 구현에 있어서, 신호 처리 동작은 일반적으로 각종 기능 모듈들이 상기한 유닛들에 대응하는 디지털 신호 프로세서 실행 프로그램에 의해 수행된다.
도 1을 참조하면, 본 발명에 따른 노이즈 감소 장치는 디지털 음성 신호와 같은 입력 신호 x(n)을 길이 L 샘플의 연속적인 프레임들(정수 k로 인덱싱됨)으로 분배하는 유닛(1)을 포함한다. 인덱스 k의 각 프레임은 그것을 윈도우 함수 w(n)으로 승산함으로써 웨이팅되어(승산기(2)), 신호 xw(k,n)=w(n)·x(k,n) (0≤n<L)을 생성한다.
주파수 도메인으로의 변환은 현재 프레임의 푸리에 변환 X(k,f)를 전달하는 유닛(3)에 의해 웨이팅된 프레임 xw(k,n)에 DFT(descrete Fourier transform)을 적용함으로써 실현된다.
본 발명에 포함되는 시간-주파수 도메인 변환에 있어서, 그리고 그 반대에 있어서, DFT 및 필요하다면 다운스트림에서 사용되는 시간 도메인에 대한 역변환(IDFT)은 바람직하게는 FFT(fast Fourier transform) 및 IFFT(inverse fast Fourier transform)이다. 웨이브렛 변환(wavelet trasform)과 같은 다른 시간-주파수 변환도 사용될 수 있다.
VAD(voice activity detection) 유닛(4)은 스피치 프레임으로부터 노이즈 전용 프레임을 구별하고, 현재 프레임에 대한 2진 음성 액티비티 인디케이터(binary voice activity indicator) δ를 전달한다. VAD 방법이 신호 x(k,n)에 기초하여 시간 도메인에서 동작하든지, 또는 점선으로 나타낸 바와 같이, 신호 X(k,f)에 기초하여 주파수 도메인에서 동작하든지, 임의의 공지된 VAD 방법이 사용될 수 있다.
VAD는 유닛(5)에 의해 노이즈의 PSD 의 추정을 제어한다. 따라서, 유닛(4)에 의해 검출되는 각 "노이즈 전용" 프레임 kb에 대해(δ=0), 노이즈 파워 스펙트럼 밀도가 다음 순환식에 의해 추정된다:
(10)
여기서, kb는 δ=0이면 현재 노이즈 프레임이고, 또는 δ=1이면 마지막 노이즈 프레임이며(k는 유용한 신호 프레임으로서 검출된다), α(kb)는 시간에 따라 변할 수 있는 평활 파라미터(smoothing parameter)이다.
의 산출 방법이 지수 평활법(exponential smoothing)에 의한 이 추정량에 제한되지 않으며: 임의의 다른 PSD 추정량은 유닛(5)에 의해 사용될 수 있다는 것을 이해할 것이다.
현재 프레임의 스펙트럼 X(k,f) 및 노이즈 레벨 추정을 사용하여, 다른 유닛(6)은 노이즈 감소 필터의 전달 함수(TF)를 추정한다. 유닛(7)은 대응하는 임펄스 응답를 얻기 위해 이 TF에 IDFT를 적용한다.
윈도우 함수 wfilt(n)는 이 임펄스 응답에 승산기(8)을 적용함으로써 노이즈 감소 장치의 시간 도메인 필터의 임펄스 응답을 얻는다. 디노이즈된 시간 도메인 신호를 생성하기 위해 필터링 유닛(9)에 의해 수행되는 동작은, 원리상, 현재 프레임에 대해 결정된 임펄스 응답을 갖는 입력 신호의 컨볼루션(convolution)이다.
윈도우 함수 wfilt(n)는 프레임의 길이보다 매우 짧은 지원을 갖는다. 즉, IDFT로부터 기인하는 임펄스 응답은 함수 wfilt(n)에 의한 웨이팅이 적용되기 전에 절단된다. 바람직하게는, 다수의 샘플들로서 표현되는 절단 길이 Lfilt는 프레임의 길이보다 적어도 5배 짧다. 이는 일반적으로 이 프레임 길이의 10분의 1의 크기 정도이다.
임펄스 응답의 최대 유효 Lfilt계수는 예를 들어 길이 Lfilt의 해밍 또는 해닝윈도우인 윈도우 wfilt(n)에 의한 웨이팅의 대상이다:
(11)
노이즈 감소 필터의 시간 도메인 지원에서의 제한은 선형 컨볼루션을 만족시키기 위해, 시간 도메인 에일리어싱 문제를 방지시킬 수 있다. 부가적으로, 효과들이 유용한 신호를 저하시킬 수 있는 지나치게 공격적인 필터의 효과를 방지할 수 있는 평활법을 제공한다.
도 2는 노이즈 b(n) 및 유용한 신호 s(n)의 PSD에 의존하는, 노이즈 감소 필터의 전달 함수를 추정하기 위한 유닛(6)의 바람직한 구성을 도시한다.
유닛(5)이 어떻게 노이즈의 PSD를 추정할 수 있는 지에 대해 설명하였다. 그러나, 유용한 신호의 PSD γss(k,f)는 음성 액티비티의 기간 동안 혼합되는 신호와 노이즈로 인해 직접 얻어질 수 없다. 이것을 미리 추정하기 위해, 도 2의 유닛(6)의 모듈(11)은 하기의 식에 따라, 규제된 판정 추정량(directed decision estimator)을 사용한다(Y. Ephraim, D. Malha, "최소 평균 제곱 오류 단시간 스펙트럼의 진폭 추정량을 사용한 스피치 향상(speech enhancement using a minimum mean square error short-time spectral amplitude estimator)", IEEE Trans. on ASSP, vol. 32, No. 6, pp. 1109-1121, 1984 참조):
(12)
여기서, β(k)는 시간에 따라 변할 수 있는 중심 파라미터(barycentricparameter)이고,는 인덱스 k-1의 이전 프레임에 대해 추정된 유용한 신호의 스펙트럼이다(예를 들어 도 2의 승산기(12)에 의해 얻어진,) 함수 P는 추정 에러의 발생시 음으로 될 위험이 있는 양의 임계화(thresholding)를 제공한다. 이는 다음과 같이 주어진다:
(13)
의 계산은 이 규제된 판정 추정량에 제한되지 않음을 이해해야 한다. 사실상, 지수 평활 추정량 또는 다른 파워 스펙트럼 밀도 추정량이 사용될 수 있다.
현재 프레임에 대한 노이즈 감소 필터의 TF의 사전 추정(pre-estimation)은 추정된 PSD의 함수로서, 모듈(13)에 의해 계산된다:
(14)
이 모듈(13)은 특히 파워 스펙트럼 감산법((3)에 따르면), 진폭 스펙트럼 감산법((4)에 따르면)의 규칙, 또는 심지어 개방 루프 위너 필터((5)에 따르면)의 룰을 구현할 수 있다.
통상, 노이즈 감소 필터의 최종 전달 함수는 식(14)를 사용하여 얻어진다. 필터의 성능을 향상시키기 위해, 2가지 패스에서 반복적인 절차를 사용하여 성능을 추정하는 것이 제안된다. 제1 패스는 모듈(11 내지 13)에 의해 수행되는 동작들을 포함한다.
이와 같이 얻어진 전달 함수는 유용한 신호의 PSD의 추정을 개량하기 위해 재사용된다. 유닛(6)(승산기(14) 및 모듈(15))은 이를 위해, 하기와 같이 주어진 양을 산출한다:
(15)
그리고 제2 패스는 모듈(16)에 대해, 유용한 신호의 PSD의 개량된 추정에 기초하여 노이즈 감소 필터의 전달 함수의 최종 추정량를 산출하는 것을 포함한다:
(16)
함수 F는 모듈(13)에 의해 사용되는 것과 동일할 수 있다.
2가지 패스에서의 이 산출은 유용한 신호의 PSD 의 빠른 업데이트 및 필터의 양호한 추정을 가능하게 한다.
도 3은 현재의 프레임을 N개의 서브 프레임들로 세분화하는 것에 기초한, 시간 도메인 필터링 유닛(9)의 바람직한 구성을 도시하며, 이에 의해 동일한 신호 프레임 내에서 전개될 수 있는 노이즈 감소 함수의 적용을 가능하게 한다.
모듈(21)은 1에서 N까지의 i에 대한 서브 프레임의 필터의 N≥2인 임펄스 응답들의 세트를 얻기 위해 절단되고 웨이팅된 임펄스 응답의 보간을 수행한다.
서브 프레임에 기초한 필터링은 현재 서브 프레임의 인데스 i에 기초하여 셀렉터(22)에 의해 캐스케이드로 표현되는 길이 Lfilt계수들의 횡단 필터(transverse filter)(23)를 사용하여 구현될 수 있다. 필터링되는 신호의 서브 프레임은 입력 프레임 x(k,n)의 세분화에 의해 얻어진다. 따라서, 횡단 필터(23)는 현재의 서브 프레임과 관련된 계수들를 갖는 입력 신호 x(n)의 컨볼루션에 의해 감소된 노이즈 신호을 산출한다.
서브 프레임 필터의 의 응답은 현재 프레임에 대해 결정되는 임펄스 응답의 웨이팅된 합, 그리고 이전 프레임에 대해 결정되는 임펄스 응답의 웨이팅된 합으로서 모듈(21)에 의해 산출될 수 있다. 서브 프레임은 프레임 내에서 일정하게 나누어지며, 웨이팅된 혼합 함수는 특히 다음과 같다:
(17)
필터가 직접 적용되는 경우는 N=1(서브 프레임 없음)에 대응한다는 것을 관찰할 수 있을 것이다.
예 1
이 예의 장치는 구두 통신에 대한 어플리케이션에 적합하며, 특히 낮은 비트 레이트 스피치 코더의 전처리에 특히 적합하다.
비중첩 윈도우는 사용자가 어플리케이션에 적당한 윈도우를 선택할 가능성을 제공하면서 프로세싱에 의해 발생하는 이론상의 최대 지연을 감소시키는데 사용된다. 이것은 장치의 입력 신호의 윈도우화가 완벽한 복구의 제약을 받지 않기 때문에 가능하다.
이러한 어플리케이션에서, 승산기(2)가 적용되는 윈도우 함수 w(n)는 덜 최근의 절반보다 프레임의 더 최근의 절반에서 더 강한 웨이팅을 수행하기 위해 비대칭인 것이 바람직하다.
도 4로 도시한 바와 같이, 비대칭 분석 윈도우 w(n)는 사이즈가 다른 L1및 L2의 2개의 해닝 하프 윈도우(Hanning half-window)를 사용하여 구성될 수 있다:
(18)
차량용의 많은 스피치 코더(speech coder)는 길이 20 ms의 프레임을 사용하며, 샘플링 주파수 Fe=8kHz(즉, 프레임 당 160 샘플)에서 동작한다. 도 4에 도시된 예에서는 다음과 같이 선택된다: L=160, L1=120 및 L2=40.
이러한 윈도우의 선택은 양호한 스펙트럼 윈도우를 보장하면서, 스펙트럼 추정의 웨이트가 가장 최근의 샘플들을 향하여 집중될 수 있다는 것을 의미한다. 제안된 방법은 합성시 신호(시간 도메인 필터링에 의해 출력에서 복구된 신호)의 완전한 복구의 제약이 없기 때문에 이러한 선택을 가능하게 한다.
보다 나은 주파수 분해능을 위해, 유닛(3 및 7)은 길이 LFET=256인 FET를 사용한다. 이와 같은 선택의 이유는, FET는 그 길이가 2의 제곱수인 프레임에 적용되는 경우에 수치상 적합하기 때문이다. 따라서, LFET-L=96 제로 샘플("제로 패딩(zero-padding)"만큼 윈도우 블록 xw(k,n)을 미리 연장할 필요가 있다.
(19)
이 예에서 사용되는 VAD는 신호의 단기간/장기간 에너지 비교에 기초하는 종래의 방법이다. 노이즈 파워 스펙트럼 밀도 γbb(k,f)의 추정은, 신뢰성 있는 추정과 노이즈 통계량의 시간 도메인 변화의 트래킹 사이에서 절충을 확보하기에 충분한, 128ms의 시정수에 대응하는 α(kb)=0.8553인 식(10)에 따라, 지수 평활법 추정에 의해 업데이트된다.
노이즈 감소 필터의 TF는, β(K)=0.98인 식(12)에 정의된 규제된 판정 추정량에 따라 유용한 신호의 PSD를 사전 추정(pre-estimate)한 후에, 식(5)(개방 루프 위너 필터)에 따라 사전 추정된다. 동일한 함수 F는 TF의 최종 추정를 생성하기 위해 모듈(16)에 의해 재사용된다.
TF는 실수값을 갖는 TF이기 때문에, 시간 도메인 필터는 통상 하기 식이 주어진다:
(20)
그 후 길이 Lfilt인 해닝 윈도우 wfilt(n)에 의해 웨이팅되는 이 필터의 Lfilt=21 계수들, 이 어플리케이션에 대한 유효 샘플들에 대응하는 값을 선택한다.
(21)
여기서,(22)
시간 도메인 필터링은 식(17)로 주어진 웨이팅된 혼합 함수들에 의해 얻어지는 서브 프레임의 N=4 필터들에 의해 행해진다. 이들 4개의 필터들은 그 후 길이 Lfilt=21인 횡단 필터링을 사용하여 입력 신호 x(i)(k,n)의 4개의 서브프레임들에 적용되며, 이들 서브 프레임들은 관찰 신호 x(k,n)의 사이즈가 L/4=40인 샘플들의 4개의 서브 프레임들의 연속적인 추출에 의해 얻어진다:
(22)
예 2
이 예의 장치는 (노이지 환경에서) 강한 스피치 인식에 대한 어플리케이션에 적합하다.
이 예에서, 2개의 연속 프레임들 사이의 L/2 샘플들의 상호 중첩을 나타내는 길이 L의 분석 프레임들이 사용되며, 사용되는 윈도우는 해닝형이다:
(23)
프레임 길이는 샘플링 주파수 Fe=8kHz에서 20ms 즉, L=160이며, 프레임들은 FFT에 대해 96 제로 샘플들("제로 패딩")로 보충된다.
이 예에서, 노이즈 감소 필터의 TF의 산출은 노이즈와 유용한 신호의 파워 스펙트럼 밀도의 제곱근의 비, 결과적으로 노이즈와 유용한 신호의 추정 계수에 기초한다.
이 예에서 사용되는 VAD는 신호의 단기간/장기간 에너지 비교에 기초하여 존재하는 종래 방법이다. 노이즈 신호의 계수의 추정은 지수 평활법 추정에 의해 업데이트된다:
(24)
여기서 kb는 현재 노이즈 프레임 또는 마지막 노이즈 프레임(k가 유용한 신호 프레임으로서 검출된다면)이다. 평활량 α는 상수로서 선택되며 시정수가 1.6 s인 0.99이다.
노이즈 감소 필터의 TF는 다음 식에 따라 모듈(13)에 의해 미리 추정된다:
(25)
여기서:(26)
제곱근을 계산함으로써 다음 식에 의해 SNR η(k,f)와 관련된 계수들에 대해 추정이 행해질 수 있다:
(27)
계수 ||로서의 유용한 신호의 추정량은 다음 식에 의해 얻어진다:
(28)
여기서 β(k)=0.98이다.
승산기(14)는 미리 추정된 TF와 스펙트럼 X(k,f)의 곱을 행하며,그 결과의 계수(그 제곱이 아님)는 모듈(16)이 식(25)에서와 동일한 함수 F를 사용하여 TF의 최종 추정을 생성하는 것에 기초하여,의 개량된 추정을 제공하기 위해 15에서 얻어진다.
시간 도메인 응답은 그 후 예 1에서와 정확히 동일한 방식으로 얻어진다(시간 도메인으로의 변환, 인과율의 복원, 유효 샘플들의 선택 및 윈도우화). 유일한 차이점은 이 예에서 Lfilt=17로 고정되는 계수 Lfilt의 선택된 수의 선택에 있다.
입력 프레임 x(k,n)은에 의해 얻어지는 노이즈 감소 필터 시간 도메인 응답을 입력 프레임에 직접 적용함으로써 필터링된다. 서브 프레임에서 필터링을 행하지 않는 것은 결과적으로 식(17)에서 N=1로 한 것이다.

Claims (18)

  1. 입력 신호 (x(n))의 연속적인 프레임에서 노이즈를 감소시키는 방법에 있어서,
    상기 프레임들 중 적어도 일부에 대해서,
    - 주파수 도메인으로의 변환에 의해 상기 입력 신호의 스펙트럼 (X(k,f))을 산출하는 단계;
    - 주파수 의존형 노이즈 레벨 추정량(noise level estimator)을 얻는 단계;
    - 상기 프레임에 대한 제1 주파수 의존형의 유용한 신호 레벨 추정량을 산출하는 단계;
    - 상기 제1 유용한 신호 레벨 추정량 및 상기 노이즈 레벨 추정량에 기초하여 제1 노이즈 감소 필터의 전달 함수를 산출하는 단계;
    - 상기 입력 신호의 스펙트럼과 상기 제1 노이즈 감소 필터의 전달 함수를 결합함으로써, 상기 프레임에 대한 제2 주파수 의존형의 유용한 신호 레벨 추정량을 산출하는 단계;
    - 상기 제2 유용한 신호 레벨 추정량 및 상기 노이즈 레벨 추정량에 기초하여 제2 노이즈 감소 필터의 전달 함수를 산출하는 단계; 및
    - 프레임 필터링 동작에서 상기 제2 노이즈 감소 필터의 전달 함수를 사용하여 노이즈가 감소된 신호를 생성하는 단계
    를 포함하는 방법.
  2. 제1항에 있어서,
    상기 스펙트럼 (X(k,f))의 산출 단계는 윈도우 함수 (w(n)) - 상기 윈도우 함수(windowing fuction)는 상기 프레임의 덜 최근의 절반보다 상기 프레임의 더 최근의 절반에 더 강한 웨이팅(weighting)을 적용하도록 비대칭임 - 에 의해 상기 입력 신호 프레임을 웨이팅하는 단계 및 상기 웨이팅된 프레임을 상기 주파수 도메인으로 변환하는 단계를 포함하는 방법.
  3. 제1항 또는 제2항에 있어서,
    노이즈 감소 필터 임펄스 응답은 상기 제2 노이즈 감소 필터의 전달 함수의 시간 도메인으로의 변환에 기초하여 현재 프레임에 대해 결정되며, 시간 도메인에서의 상기 프레임에 대한 필터링 동작은 상기 프레임에 대해 결정된 임펄스 응답에 의해 수행되는 방법.
  4. 제3항에 있어서,
    현재 프레임에 대한 상기 노이즈 감소 필터 임펄스 응답의 결정단계는,
    - 상기 제2 노이즈 감소 필터의 전달 함수를 시간 도메인으로변환하여 제1 임펄스 응답을 얻는 단계; 및
    - 상기 제1 임펄스 응답을, 시간 도메인으로의 변환점들의 갯수보다 실질적으로 작은 다수의 샘플들에 대응하는 절단 길이(truncation length)로 절단하는 단계
    를 포함하는 방법.
  5. 제4항에 있어서,
    현재 프레임에 대한 상기 노이즈 감소 필터 임펄스 응답의 결정단계는,
    - 상기 절단 길이에 대응하는 다수의 샘플들의 윈도우 함수 (wfilt(n))에 의해 절단된 임펄스 응답을 웨이팅하는 단계
    를 더 포함하는 방법.
  6. 제3항 내지 제5항중 어느 한 항에 있어서,
    상기 현재 프레임은 복수의 서브 프레임으로 세분화(subdivide)되고, 각 서브 프레임에 대해 보간된 임펄스 응답이 현재 프레임에 대해 결정된 노이즈 감소 필터 임펄스 응답 및 적어도 하나의 이전 프레임에 대해 결정된 노이즈 감소 필터 임펄스 응답에 기초하여 산출되며, 프레임의 필터링 동작은 상기 서브 프레임에 대해 산출된 상기 보간된 임펄스 응답에 따라 시간 도메인의 각 서브프레임의 신호를 필터링하는 것을 포함하는 방법.
  7. 제6항에 있어서,
    상기 보간된 임펄스 응답은 현재 프레임에 대해 결정된 노이즈 감소 필터 임펄스 응답과 이전 프레임에 대해 결정된 노이즈 감소 필터 임펄스 응답의 웨이팅된 합으로서 현재 프레임의 각종 서브 프레임들에 대해 산출되는 방법.
  8. 제7항에 있어서,
    현재 프레임의 i번째(1≤i≤N) 서브 프레임에 대해 산출된 상기 보간된 임펄스 응답은 이전 프레임에 대해 결정된 노이즈 감소 필터 임펄스 응답의 (N-i)/N배 플러스 현재 프레임에 대해 결정된 노이즈 감소 필터 임펄스 응답의 i/N배이며, N은 현재 프레임의 서브 프레임수인 방법.
  9. 전술한 항들 중 어느 한 항에 기재된 방법에 있어서,
    상기 입력 신호 (x(n))는 오디오 신호인 방법.
  10. 입력 신호 (x(n))의 노이즈를 감소시키는 장치에 있어서,
    - 주파수 도메인으로의 변환에 의해 상기 입력 신호 프레임의 스펙트럼 (X(k,f))을 산출하는 수단(1-3);
    - 주파수 의존형 노이즈 레벨 추정량을 얻는 수단(5);
    - 상기 프레임에 대한 제1 주파수 의존형의 유용한 신호 레벨 추정량을 산출하는 수단(11);
    - 상기 제1 유용한 신호 레벨 추정량 및 상기 노이즈 레벨 추정량에 기초하여 제1 노이즈 감소 필터의 전달 함수를 산출하는 수단(13);
    - 상기 입력 신호의 스펙트럼과 상기 제1 노이즈 감소 필터의 전달 함수를 결합함으로써, 상기 프레임에 대한 제2 주파수 의존형의 유용한 신호 레벨 추정량을 산출하는 수단(14-15);
    - 상기 제2 유용한 신호 레벨 추정량 및 상기 노이즈 레벨 추정량에 기초하여 제2 노이즈 감소 필터의 전달 함수를 산출하는 수단(16); 및
    - 상기 제2 노이즈 감소 필터의 전달 함수에 의해 상기 프레임을 필터링하여 노이즈가 감소된 신호를 생성하는 수단(7-9)
    를 포함하는 장치.
  11. 제10항에 있어서,
    상기 스펙트럼 산출 수단은 윈도우 함수 (w(n)) - 상기 윈도우 함수는 상기 프레임의 덜 최근의 절반보다 상기 프레임의 더 최근의 절반에 더 강한 웨이팅을적용하도록 비대칭임 - 에 의해 상기 입력 신호 프레임 (x(n))을 웨이팅하는 수단(2) 및 상기 웨이팅된 프레임을 상기 주파수 도메인으로 변환하는 수단(3)을 포함하는 장치.
  12. 제10항 또는 제11항에 있어서,
    상기 제2 노이즈 감소 필터의 전달 함수의 시간 도메인으로의 변환에 기초하여 현재 프레임에 대해 노이즈 감소 필터 임펄스 응답을 결정하는 수단(7-8)을 포함하며, 장치의 필터링 수단(9)은 현재 프레임에 대해 결정된 임펄스 응답에 의해 시간 도메인에서 동작하는 장치.
  13. 제12항에 있어서,
    상기 노이즈 감소 필터 임펄스 응답을 결정하는 수단은, 제1 임펄스 응답을 얻기 위해, 상기 제2 노이즈 감소 필터의 전달 함수를 시간 도메인으로 변환하는 수단(7) 및 상기 제1 임펄스 응답을, 시간 도메인으로의 변환점들의 갯수보다 실질적으로 작은 다수의 샘플들에 대응하는 절단 길이로 절단하는 수단(8)를 포함하는 장치.
  14. 제13항에 있어서,
    상기 노이즈 감소 필터 임펄스 응답을 결정하는 수단은, 상기 절단 길이에대응하는 다수의 샘플들에서 윈도우 함수 (wfilt(n))에 의해 절단된 임펄스 응답을 웨이팅하는 수단(8)을 포함하는 장치.
  15. 제12항 내지 제14항중 어느 한 항에 있어서,
    상기 현재 프레임을 복수의 서브 프레임으로 세분화하는 수단 및 현재 프레임에 대해 결정된 노이즈 감소 필터 임펄스 응답및 적어도 하나의 이전 프레임에 대해 결정된 노이즈 감소 필터 임펄스 응답에 기초하여 각 서브 프레임에 대해 보간된 임펄스 응답을 산출하는 수단(21)을 더 포함하며, 필터링 수단(9)은 상기 서브 프레임에 대해 산출된 상기 보간된 임펄스 응답에 따라 시간 도메인에서 각 서브 프레임의 신호를 필터링하는 장치.
  16. 제15항에 있어서,
    상기 보간된 임펄스 응답을 산출하는 수단은, 현재 프레임에 대해 결정된 노이즈 감소 필터 임펄스 응답과 이전 프레임에 대해 결정된 노이즈 감소 필터 임펄스 응답의 웨이팅된 합으로서 현재 프레임의 각종 서브 프레임들에 대해 상기 보간된 임펄스 응답을 산출하기 위해 배치되는 장치.
  17. 제16항에 있어서,
    현재 프레임의 i번째(1≤i≤N) 서브 프레임에 대해 산출된 보간된 임펄스 응답은, 이전 프레임에 대해 결정된 노이즈 감소 필터 임펄스 응답의 (N-i)/N배 플러스 현재 프레임에 대해 결정된 노이즈 감소 필터 임펄스 응답의 i/N배이며, N은 현재 프레임의 서브 프레임수인 장치.
  18. 제10항 내지 제17항 중 어느 한 항에 있어서,
    상기 입력 신호 (x(n))는 오디오 신호인 장치.
KR1020037010104A 2001-01-30 2001-11-19 노이즈 감소 방법 및 장치 KR100549133B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR01/01220 2001-01-30
FR0101220A FR2820227B1 (fr) 2001-01-30 2001-01-30 Procede et dispositif de reduction de bruit
PCT/FR2001/003624 WO2002061731A1 (fr) 2001-01-30 2001-11-19 Procede et dispositif de reduction de bruit

Publications (2)

Publication Number Publication Date
KR20030074762A true KR20030074762A (ko) 2003-09-19
KR100549133B1 KR100549133B1 (ko) 2006-02-03

Family

ID=8859390

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020037010104A KR100549133B1 (ko) 2001-01-30 2001-11-19 노이즈 감소 방법 및 장치

Country Status (14)

Country Link
US (1) US7313518B2 (ko)
EP (1) EP1356461B1 (ko)
JP (1) JP4210521B2 (ko)
KR (1) KR100549133B1 (ko)
CN (1) CN1284139C (ko)
AT (1) ATE472794T1 (ko)
BR (1) BRPI0116844B1 (ko)
CA (1) CA2436318C (ko)
DE (1) DE60142490D1 (ko)
ES (1) ES2347760T3 (ko)
FR (1) FR2820227B1 (ko)
HK (1) HK1057639A1 (ko)
MX (1) MXPA03006667A (ko)
WO (1) WO2002061731A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100565086B1 (ko) * 2004-10-13 2006-03-30 삼성전자주식회사 뮤지컬 잡음을 감쇄하는 스펙트럼 잡음 제거 방법 및 그장치
KR100853018B1 (ko) * 2003-12-24 2008-08-19 노키아 코포레이션 일반화된 사이드로브 제거를 위한 노이즈 레퍼런스들을생성하는 방법

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8073689B2 (en) * 2003-02-21 2011-12-06 Qnx Software Systems Co. Repetitive transient noise removal
US7885420B2 (en) 2003-02-21 2011-02-08 Qnx Software Systems Co. Wind noise suppression system
US7895036B2 (en) 2003-02-21 2011-02-22 Qnx Software Systems Co. System for suppressing wind noise
US7725315B2 (en) 2003-02-21 2010-05-25 Qnx Software Systems (Wavemakers), Inc. Minimization of transient noises in a voice signal
US8326621B2 (en) 2003-02-21 2012-12-04 Qnx Software Systems Limited Repetitive transient noise removal
US7949522B2 (en) 2003-02-21 2011-05-24 Qnx Software Systems Co. System for suppressing rain noise
US8271279B2 (en) 2003-02-21 2012-09-18 Qnx Software Systems Limited Signature noise removal
US7516069B2 (en) * 2004-04-13 2009-04-07 Texas Instruments Incorporated Middle-end solution to robust speech recognition
EP1591995B1 (en) * 2004-04-29 2019-06-19 Harman Becker Automotive Systems GmbH Indoor communication system for a vehicular cabin
ATE476733T1 (de) * 2004-09-16 2010-08-15 France Telecom Verfahren zum verarbeiten eines rauschbehafteten tonsignals und einrichtung zur implementierung des verfahrens
US7383179B2 (en) * 2004-09-28 2008-06-03 Clarity Technologies, Inc. Method of cascading noise reduction algorithms to avoid speech distortion
WO2006079349A1 (en) * 2005-01-31 2006-08-03 Sonorit Aps Method for weighted overlap-add
FR2888458A1 (fr) * 2005-07-11 2007-01-12 France Telecom Procede et dispositif de prise de son, notamment dans des terminaux telephoniques en "mains libres"
JP4765461B2 (ja) * 2005-07-27 2011-09-07 日本電気株式会社 雑音抑圧システムと方法及びプログラム
CA2640683C (en) * 2006-01-31 2014-10-21 Canadian Space Agency Method and system for increasing signal-to-noise ratio
JP4827661B2 (ja) * 2006-08-30 2011-11-30 富士通株式会社 信号処理方法及び装置
JP4653059B2 (ja) * 2006-11-10 2011-03-16 オリンパス株式会社 撮像システム、画像処理プログラム
DE602007004217D1 (de) * 2007-08-31 2010-02-25 Harman Becker Automotive Sys Schnelle Schätzung der Spektraldichte der Rauschleistung zur Sprachsignalverbesserung
ATE456130T1 (de) * 2007-10-29 2010-02-15 Harman Becker Automotive Sys Partielle sprachrekonstruktion
US20100151118A1 (en) * 2008-12-17 2010-06-17 Eastman Chemical Company Carrier solvent compositions, coatings compositions, and methods to produce thick polymer coatings
WO2013046055A1 (en) * 2011-09-30 2013-04-04 Audionamix Extraction of single-channel time domain component from mixture of coherent information
US9173025B2 (en) 2012-02-08 2015-10-27 Dolby Laboratories Licensing Corporation Combined suppression of noise, echo, and out-of-location signals
US8712076B2 (en) 2012-02-08 2014-04-29 Dolby Laboratories Licensing Corporation Post-processing including median filtering of noise suppression gains
WO2012126415A2 (zh) * 2012-05-04 2012-09-27 华为技术有限公司 一种信号发送方法、通信设备及系统
CN103916730B (zh) * 2013-01-05 2017-03-08 中国科学院声学研究所 一种能够改善音质的声场聚焦方法及系统
CN103916733B (zh) * 2013-01-05 2017-09-26 中国科学院声学研究所 基于均方误差最小准则的声能量对比控制方法及系统
US9318125B2 (en) * 2013-01-15 2016-04-19 Intel Deutschland Gmbh Noise reduction devices and noise reduction methods
RU2675777C2 (ru) * 2013-06-21 2018-12-24 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ улучшенного плавного изменения сигнала в различных областях во время маскирования ошибок
US10149047B2 (en) * 2014-06-18 2018-12-04 Cirrus Logic Inc. Multi-aural MMSE analysis techniques for clarifying audio signals
US10789967B2 (en) 2016-05-09 2020-09-29 Harman International Industries, Incorporated Noise detection and noise reduction
CN108848435B (zh) * 2018-09-28 2021-03-09 广州方硅信息技术有限公司 一种音频信号的处理方法和相关装置
CN110010144A (zh) * 2019-04-24 2019-07-12 厦门亿联网络技术股份有限公司 语音信号增强方法及装置
CN111402917B (zh) * 2020-03-13 2023-08-04 北京小米松果电子有限公司 音频信号处理方法及装置、存储介质
CN111968615A (zh) * 2020-08-31 2020-11-20 Oppo广东移动通信有限公司 降噪处理方法及装置、终端设备和可读存储介质
US12062369B2 (en) * 2020-09-25 2024-08-13 Intel Corporation Real-time dynamic noise reduction using convolutional networks
CN112489615B (zh) * 2020-10-29 2024-06-18 宁波方太厨具有限公司 降噪方法、降噪系统、降噪装置及吸油烟机
CN112960012B (zh) * 2021-02-03 2022-05-31 中国铁道科学研究院集团有限公司节能环保劳卫研究所 基于阈值归一化短时功率谱密度的高速铁路钢轨波磨声学诊断方法
KR102704879B1 (ko) 2022-10-06 2024-09-09 주식회사 라우드에이아이 센싱신호로부터 노이즈를 제거하기 위한 장치 및 노이즈 제거하기 위한 방법
CN116952355B (zh) * 2023-07-24 2024-05-14 中国人民解放军海军工程大学 一种浅海环境近场辐射噪声测量系统及终端
CN116952356B (zh) * 2023-07-24 2024-08-06 中国人民解放军海军工程大学 基于浅海环境水下声全息技术的近场辐射噪声测量方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5630013A (en) * 1993-01-25 1997-05-13 Matsushita Electric Industrial Co., Ltd. Method of and apparatus for performing time-scale modification of speech signals
FR2726392B1 (fr) * 1994-10-28 1997-01-10 Alcatel Mobile Comm France Procede et dispositif de suppression de bruit dans un signal de parole, et systeme avec annulation d'echo correspondant
FR2729247A1 (fr) * 1995-01-06 1996-07-12 Matra Communication Procede de codage de parole a analyse par synthese
JP2760373B2 (ja) * 1995-03-03 1998-05-28 日本電気株式会社 雑音消去装置
JP2874679B2 (ja) 1997-01-29 1999-03-24 日本電気株式会社 雑音消去方法及びその装置
US5999561A (en) * 1997-05-20 1999-12-07 Sanconix, Inc. Direct sequence spread spectrum method, computer-based product, apparatus and system tolerant to frequency reference offset
FR2771542B1 (fr) * 1997-11-21 2000-02-11 Sextant Avionique Procede de filtrage frequentiel applique au debruitage de signaux sonores mettant en oeuvre un filtre de wiener
US6549586B2 (en) * 1999-04-12 2003-04-15 Telefonaktiebolaget L M Ericsson System and method for dual microphone signal noise reduction using spectral subtraction
US6792405B2 (en) * 1999-12-10 2004-09-14 At&T Corp. Bitstream-based feature extraction method for a front-end speech recognizer

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100853018B1 (ko) * 2003-12-24 2008-08-19 노키아 코포레이션 일반화된 사이드로브 제거를 위한 노이즈 레퍼런스들을생성하는 방법
KR100565086B1 (ko) * 2004-10-13 2006-03-30 삼성전자주식회사 뮤지컬 잡음을 감쇄하는 스펙트럼 잡음 제거 방법 및 그장치

Also Published As

Publication number Publication date
HK1057639A1 (en) 2004-04-08
US20040064307A1 (en) 2004-04-01
WO2002061731A1 (fr) 2002-08-08
BRPI0116844B1 (pt) 2015-07-28
CA2436318A1 (fr) 2002-08-08
JP2004520616A (ja) 2004-07-08
CA2436318C (fr) 2007-09-04
ES2347760T3 (es) 2010-11-04
BR0116844A (pt) 2003-12-16
DE60142490D1 (de) 2010-08-12
US7313518B2 (en) 2007-12-25
EP1356461B1 (fr) 2010-06-30
CN1284139C (zh) 2006-11-08
FR2820227A1 (fr) 2002-08-02
EP1356461A1 (fr) 2003-10-29
ATE472794T1 (de) 2010-07-15
JP4210521B2 (ja) 2009-01-21
CN1488136A (zh) 2004-04-07
FR2820227B1 (fr) 2003-04-18
MXPA03006667A (es) 2003-10-24
KR100549133B1 (ko) 2006-02-03

Similar Documents

Publication Publication Date Title
KR100549133B1 (ko) 노이즈 감소 방법 및 장치
JP5068653B2 (ja) 雑音のある音声信号を処理する方法および該方法を実行する装置
CA2210490C (en) Spectral subtraction noise suppression method
CN105788607B (zh) 应用于双麦克风阵列的语音增强方法
US8218780B2 (en) Methods and systems for blind dereverberation
RU2768514C2 (ru) Процессор сигналов и способ обеспечения обработанного аудиосигнала с подавленным шумом и подавленной реверберацией
CN102347028A (zh) 双麦克风语音增强装置及方法
CN101083640A (zh) 低复杂度的降噪方法
WO2009043066A1 (en) Method and device for low-latency auditory model-based single-channel speech enhancement
US20020177995A1 (en) Method and arrangement for performing a fourier transformation adapted to the transfer function of human sensory organs as well as a noise reduction facility and a speech recognition facility
US20070250312A1 (en) Signal processing apparatus and method thereof
CN114530160A (zh) 模型训练方法、回声消除方法、系统、设备及存储介质
JPWO2007094463A1 (ja) 信号歪み除去装置、方法、プログラム及びそのプログラムを記録した記録媒体
WO2006114100A1 (en) Estimation of signal from noisy observations
Prasad et al. Two microphone technique to improve the speech intelligibility under noisy environment
Hirsch Automatic speech recognition in adverse acoustic conditions
Roy Single channel speech enhancement using Kalman filter
Morita et al. MTF-based Sub-band Power-envelope Restoration for Robust Speech Recognitionin Noisy Reverberant Environments
Arslan et al. Speech enhancement for crosstalk interference
Krishnamoorthy et al. Processing noisy speech for enhancement
Goli et al. Adaptive speech noise cancellation using wavelet transforms
Tsukamoto et al. Speech enhancement based on MAP estimation with a variable speech distribution
CN118899005A (zh) 一种音频信号处理方法、装置、计算机设备及存储介质
Mohammed Multi-Microphone Noise Reduction Technique Based On Upsampling and IIR-RLS Filter
Babu et al. Speech Enhancement Using Kalman Filter

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130121

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20140102

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20151230

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20161230

Year of fee payment: 12

FPAY Annual fee payment

Payment date: 20180104

Year of fee payment: 13

FPAY Annual fee payment

Payment date: 20191231

Year of fee payment: 15