KR20090012154A - 통합적 순음 감소 방식의 노이즈 감소 방법 - Google Patents

통합적 순음 감소 방식의 노이즈 감소 방법 Download PDF

Info

Publication number
KR20090012154A
KR20090012154A KR1020080072811A KR20080072811A KR20090012154A KR 20090012154 A KR20090012154 A KR 20090012154A KR 1020080072811 A KR1020080072811 A KR 1020080072811A KR 20080072811 A KR20080072811 A KR 20080072811A KR 20090012154 A KR20090012154 A KR 20090012154A
Authority
KR
South Korea
Prior art keywords
background noise
pure
noise
bin
signal
Prior art date
Application number
KR1020080072811A
Other languages
English (en)
Inventor
에이. 헤더링톤 필
리 쑤에맨
Original Assignee
큐엔엑스 소프트웨어 시스템즈 (웨이브마커스) 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 큐엔엑스 소프트웨어 시스템즈 (웨이브마커스) 인코포레이티드 filed Critical 큐엔엑스 소프트웨어 시스템즈 (웨이브마커스) 인코포레이티드
Publication of KR20090012154A publication Critical patent/KR20090012154A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02085Periodic noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Noise Elimination (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)

Abstract

본 시스템은 입력 신호 중 순음을 억제하거나 제거하는 기법을 제공한다. 본 시스템은 복수의 주파수 빈에서 입력 신호에 작용하고 이전 빈에서 얻어진 정보를 사용하여 후속 빈에서의 값을 계산하는 것을 보조한다. 본 시스템은 신호 중 피크를 우선 식별하고, 피크가 순음 효과에 기인한 것인지 여부를 결정한다. 이것은 현재 빈의 평가된 배경 노이즈를 동일 빈의 평활화된 배경 노이즈와 비교하는 것으로 행해질 수 있다. 평활화된 배경 노이즈는 비대칭 IIR 필터를 사용하여 계산될 수 있다. 현재 계산된 평활화 배경 노이즈에 대한 현재 배경 노이즈 평가치의 비율이 1보다 훨씬 크면, 순음이 추정된다. 순음이 발견되면, 고정 플로어 인자의 이득 억제, 적응적 플로어 이득 억제 기법 및 랜덤 위상 기법을 포함하는 여러 억제 기법을 적용하여 순음을 감소시킬 수 있다.

Description

통합적 순음 감소 방식의 노이즈 감소 방법{NOISE REDUCTION WITH INTEGRATED TONAL NOISE REDUCTION}
본 발명은 음향 처리에 관한 것이다. 보다 상세하게 본 발명은 음성 또는 음악의 품질저하 없이 순음(tonal noise)을 제거하는 방법에 관한 것이다.
음성 향상은 음성 신호로부터 노이즈를 제거하는 것을 포함하기도 한다.
음성 프로세서나 청취자에 의해 음성이 인식될 수 있도록 음성 신호로부터 외부 노이즈를 제거하는 것에 의해 음성 신호를 향상시키는 것은 흥미있는 연구 주제이다. 지난 수십 년간 다양한 접근 방식이 개발되어 왔다. 이들 중 스펙트럼 차감법(spectral subtraction method)이 실시간 응용에 가장 폭넓게 사용되고 있다. 이 방법에서는 평균 노이즈 스펙트럼을 평가한 후 이를 노이즈 신호 스펙트럼으로부터 감산하는 것에 의해 평균 신호 대 잡음비(SNR)를 개선한다.
그러나, 종래 기술의 음성 향상 기법은 노이즈가 "순음(tonal noise)"으로 지칭되는 형태를 가지는 경우 항상 효과적인 것은 아니다. 순음은 가정, 사무실, 차량 및 기타 환경에서 생길 수 있다. 가정과 사무실에서 이따금 인용되는 순음 소스는 형광등의 부저음이다. 다른 것으로는 컴퓨터나 프로젝터 팬의 기계음이 있다. 차량 내에서 순음은 도로상 경고홈(rumble strip), 차량 엔진, 발전기 소음, 주파수 간섭("GSM 부저") 또는 개방 창의 풍절음에 기인할 수 있다. 이러한 순음은 전화 통화와 음성 인식에 불리한 영향을 미쳐 음성의 이해 또는 인식을 다소 어렵게 한다.
바람직한 신호 콘텐츠를 위해 입력 신호를 조사하는 음성 처리 시스템은 순음을 음성으로 해석할 수 있으며, 그러한 순음을 갖는 입력 신호의 세그먼트를 분리할 수 있으며, 그러한 순음의 처리를 시도할 수 있다. 음성 처리 시스템은 유용한 계산적 자원을 소모하여, 상기 세그먼트를 분리시키는 것은 물론, 그 세그먼트를 처리하고 그 처리 결과를 기초로 동작을 취한다. 음성 인식 시스템에서, 시스템은 순음을 음성 명령으로 해석하고, 그 허위의 명령을 실행하고, 전혀 의도하지 않았던 대응 동작을 취할 수 있다.
순음은 음향 주파수 스펙트럼에서 일정한 피크로 나타난다. 정의상, 상기 피크는 광역 노이즈로부터 약 6-20dB 만큼 상승되어 있다. 노이즈 감소는 전형적으로 전 주파수를 동일하게 감쇠시켜 잔류 순음이 보다 조용해 지지만, 노이즈 감소 후에도 여전히 구분이 명확하다. 그러므로, 기존의 노이즈 제거 접근법은 광역의 배경 노이즈보다 순음의 감쇠에 실제 도움이 되지 않는다.
본 발명은 노이즈 제거 시스템의 개선에 관한 것이다. 준-안정 순음은 정상적으로 광대역 또는 분산 노이즈의 스펙트럼의 피크로 나타난다. 노이즈 감소는 전형적으로 전 주파수를 동일하게 감쇠시켜, 조용해지는 순음이 노이즈 감소 이전에도 이후에서처럼 분명히 구분된다. 상기 시스템은 피크를 식별하고, 어떤 피크가 순음 피크인지를 결정하고, 그 순음 피크에 적응적 억제를 적용한다. 시스템은 순음이 발견되는 주파수에 큰 감쇠를 적용하는 순음 감소(Tonal Noise Reduction: TNR) 방법을 사용한다.
TNR 시스템은 추가의 처리(위상 랜덤화)를 행하여 소정의 잔류 순음을 실질적으로 제거할 수 있다. 이 시스템은 단순하고 비활성의 일련의 노치 필터가 아니며, 따라서 주파수 중복되는 음성 또는 음악을 제거하지 않는다. 더욱이, 시스템은 적응적이어서, 순음이 존재하지 않는 경우 어떤 추가의 필터링도 행하지 않는다.
전형적인 주파수 도메인의 음성 향상 시스템은 스펙트럼 억제 이득 계산 방법과 배경 노이즈 파워 스펙트럼 밀도(Power Spectral Density: PSD) 평가 방법으로 이루어지는 것이 보통이다. 스펙트럼 억제는 잘 이해되지만, PSD 노이즈 평가는 이전부터 관심을 덜 받았다. 그러나, 최근에 전체 시스템의 품질과 이해도에 매우 중 요하다는 것이 밝혀진 바 있다. 대부분의 스펙트럼 억제 방법은 배경 노이즈가 시간 경과에 따라 고정적 또는 반-고정적이고 또한 주파수에 대해 평활할(smooth) 때 좋은 품질을 획득할 수 있다. 순음이 배경에 존재하는 경우, 종래의 스펙트럼 억제 방법은 순음을 억제할 수는 있으나 제거하지는 못한다. 잔류 순음은 뚜렷이 구별되기 때문에 사람의 귀에 거슬릴 수 있다. 본 시스템은 음성 품질의 저하 없이 순음을 완전히 제거하는 원리와 방법을 제공한다.
본 시스템의 순음 감소(TNR)는 피크 주파수에 확산 노이즈보다 큰 정도로 큰 감쇠를 제공한다. 예를 들면, 노이즈 평가가 주변 주파수의 노이즈보다 10dB 더 큰 피크가 관찰되면, 그 주파수에 여분의 10dB 노이즈 감쇠를 행한다. 그러면, TNR 이후의 스펙트럼 형상이 인접 주파수에 걸쳐 평활화될 것이고, 순음은 상당히 감소된다.
소정의 주어진 주파수에서, 음성이 노이즈보다 큰 12dB 이상일 때 노이즈의 기여는 미미한 것으로 간주될 수 있다. 그러므로, 신호가 노이즈보다 매우 클 때, TNR 적용 또는 비적용의 순음 감소나 그렇지 않으면 노이즈 감소(NR)는 상당한 영향을 미치지 않아야 하고 미치지 않는다. 낮은 신호대 잡음비(SNR) 신호는 순음 피크 근처에서 보다 크게 감쇠될 것이고, 순음 피크와 동일한 신호들은 얻어지는 스펙트럼이 피크 주파수(그 진폭은 인접 주파수에서의 노이즈의 진폭과 동일함) 근처에서 평탄하도록 감쇠될 것이다.
(위상을 그대로 두고) 순음의 파워를 감소시키는 것은 주어진 주파수의 위상이 음(tone)의 인식에 여전히 기여하므로 음의 음향을 완전하게는 제거할 수 없다. 일 방법에서, 신호가 순음에 가까우면, 그 주파수 빈에서의 위상은 랜덤화될 수 있다. 이것은 그 주파수에서 음을 완전히 제거하는 장점을 갖는다. 본 시스템은 음성 품질을 개선하고, 청취자의 피로를 줄여주며, 음성 인식을 향상시킨다.
본 발명의 다른 시스템, 방법, 특징 및 장점들은 후속하는 도면 및 상세한 설명의 검토를 통해 당업자에게 분명하거나 분명해질 것이다. 이러한 추가의 시스템, 방법, 특징 및 장점들 모두는 본 상세한 설명에 포함되고, 본 발명의 범위 내에 있으며, 후속하는 특허청구범위에 의해 보호되도록 의도된다.
순음 검출 방법
정상적 차량 노이즈는 확산 노이즈이다. 그 파워 밀도는 주파수 증가에 따라 점진적으로 감소된다. 정상적 차량 노이즈의 스펙트럼은 스펙트럼에 걸쳐 상대적으로 평활하고 다소 균일하게 분포됨을 보여준다. 이에 비해, 순음은 통상적으로 소정 주파수를 커버할 뿐으로 비교적 긴 시간 동안 유지된다. 순음의 스펙트럼은 매우 평탄치 못한 분포를 보인다.
정상적 차량 노이즈의 PSD가 도 1에 도시되어 있다. 그래프는 신호의 파워가 주파 수에 따라 어떻게 분포되는 지를 보여준다. 그래프에서 볼 수 있는 바와 같이, 정상적 도로 노이즈는 낮은 주파수에서 큰 파워를 가지며, 보다 높은 주파수에서 신호 파워가 상대적으로 작은 값을 갖도록 주파수에 따라 파워가 실질적으로 감소된다. 이에 비해, 도 2에 도시된 순음의 PSD는 파워가 변화하는 주파수에서 수 많은 피크로 분포됨을 보여준다. 도 2의 순음의 PSD는 정상적 도로 노이즈보다 훨씬 더 "피크 형태"를 취한다.
합리적인 주파수 범위를 갖는 대부분의 종래의 노이즈 트래킹 알고리즘은 배경 중 순음을 트래킹할 수 있다. 순음은 도 2에서 다수의 주파수에서 도시된 바와 같이 통상 노이즈 스펙트럼에서 그 주변부보다 훨씬 큰 값의 피크로서 보여진다.
도 5는 본 시스템의 순음 식별 및 억제 동작을 나타낸 흐름도이다. 501 단계에서, 시스템은 배경 노이즈 스펙트럼의 피크를 식별한다. 502 단계에서, 억제될 순음 피크가 식별된다. 503 단계에서, 순음 피크는 신호에 대한 영향이 감소되도록 억제된다.
순음 피크 검출
순음 처리를 위해 순음의 피크를 1차 식별하는 하나의 방법을 살펴볼 수 있다. 도 6은 본 시스템에 사용된, 입력 신호에서 피크를 식별하는 방법을 나타낸 흐름도이다. 시스템은 시간 도메인 신호를 주파수 도메인으로 변환한다. 주파수 분 할(frequency resolution)은 시스템 간에 변화할 수 있다. 시스템의 일부 실시예에서, 본 경우에 해당하는 시스템의 주파수 분할은 43Hz/빈이다. 입력 신호는 주파수 빈 각각에서 분석된다. 601 단계에서, 고려 대상의 현재 빈에 대한 배경 노이즈 평가치가 얻어진다. 602 단계에서, 현재 배경 노이즈 평가치는 이전의 빈(현재 빈 바로 이전에 분석된 빈)에 대한 평활화된 배경 노이즈와 비교된다. 결정 블록(603)에서, 현재 배경 노이즈 평가치가 이전 빈의 평활화된 배경 노이즈보다 크거나 같은지 여부가 결정된다. 만일 그렇다면, 604 단계에서 제1 알고리즘이 적용된다. 그렇지 않은 경우, 605 단계에서 제2 알고리즘이 적용된다.
도 6의 방법을 실시하기 위한 한 방법은 비대칭의 무한 임펄스 응답 필터(infinite impulse response filter: IIR filter)를 적용하여 순음 피크의 위치 및 진폭을 검출하는 것이다.
601 단계에서 알 수 있는 바와 같이, n번째 프레임과 k번째 주파수 빈에서의 배경 노이즈 평가치
Figure 112008053651024-PAT00001
가 얻어진다. 이 k번째 빈에 대한 평활화된 배경 노이즈
Figure 112008053651024-PAT00002
는 비대칭 IIR 필터에 의해 계산될 수 있다. 현재 빈(present bin)의 배경 노이즈 평가치
Figure 112008053651024-PAT00003
는 이전 빈의 평활화된 배경 노이즈
Figure 112008053651024-PAT00004
와 비교된다(602 단계). 비교 결과에 따라, 비대칭 IIR 필터의 상이한 브랜치(branches)가 적용된다.
Figure 112008053651024-PAT00005
이면(603 단계가 참이면), 다음이 적용된다.
Figure 112008053651024-PAT00006
(604 단계)
Figure 112008053651024-PAT00007
이면(603 단계가 거짓이면), 다음이 적용된다:
Figure 112008053651024-PAT00008
(605 단계)
여기서, β1과 β2는 0-1 범위의 파라미터이다. 이들은 상승 및 하강 적응 속도(adaptation speed)의 조정에 사용된다. β2가 β1보다 크거나 같게 선택하는 것에 의해, 평활화된 배경 노이즈는 순음 피크가 존재하는 부분을 제외하고 노이즈 평가치에 가깝게 추종한다. 평활화된 배경은 다음 단계에서 순음을 제거하는데 사용될 수 있다. 주의할 점은 동일한 필터가 노이즈 스펙트럼을 통해 전방 또는 후방으로 그리고 또한 소망하는 바의 다중 통과(multiple passes)를 위해 작동될 수 있다는 것이다.
순음 피크의 식별
도 7은 순음의 존재를 결정하기 위한 비율 기법을 나타낸 흐름도이다. 701 단계에서, 현재 빈에 대한 평활화된 배경 노이즈가 계산된다(이는 도 6에서 설명된 바와 같이 행해질 수 있다). 702 단계에서, 현재 빈에 대한 평활화된 배경 노이즈는 현재 빈에 대한 배경 노이즈 평가치와 비교된다. 결정 블록(703)에서, 비율이 1보다 훨씬 큰지 여부가 결정된다. 만일 그렇다면, 704 단계에서 상기 빈에서의 피크가 순음인 것으로 간주된다. 만일 그렇지 않으면, 705 단계에서 상기 빈에서의 피크가 정상 노이즈인 것으로 간주된다.
도 7의 기법을 실시하기 위한 하나의 방법을 여기 설명한다. 비-평활화 배경 노이즈 평가치(
Figure 112008053651024-PAT00009
)와 평활화 배경 노이즈(
Figure 112008053651024-PAT00010
)(701 단계) 사이의 비율은 다음과 같이 주어진다:
Figure 112008053651024-PAT00011
(702 단계).
Figure 112008053651024-PAT00012
의 값은 정상적으로는 비-평활화 배경 노이즈가 평활화 배경 노이즈와 대략 동일하여 정상 노이즈가 되는 의미하는 대략 1이다(705 단계). 그러나, 배경에 순음이 존재하면, 큰 값의
Figure 112008053651024-PAT00013
이 상이한 주파수에서 발견된다(703 단계가 참). 따라서, 큰 값의
Figure 112008053651024-PAT00014
는 순음의 지시자로서 사용된다(704 단계).
본 시스템은 어떤 빈이 순음 효과에 따른 노이즈를 가지며 또한 어떤 빈이 정상 노이즈로 간주되는 노이즈를 갖는지 추적한다.
순음 제거 방법
비- 적응적
처리를 요하는 피크가 일단 결정되면, 수정 동작을 취할 수 있다. 도 8은 순수 음성 신호를 평가하는 비-적응적 방법을 나타내는 흐름도이다. 801 단계에서, 현재 빈에서의 노이즈 음성 신호의 스펙트럼 진폭이 결정된다. 802 단계에서, 스펙트럼 진폭에 억제 이득 값이 적용된다. 803 단계에서, 순수 음성 스펙트럼 진폭의 평가 가 행해진다.
도 8의 시스템은 다음과 같이 실행된다. 전통적인 부가 노이즈 모델에서 노이즈 음성은 다음에 의해 주어진다:
Figure 112008053651024-PAT00015
여기서, x(t)와 d(t)는 각각 음성과 노이즈 신호를 지시한다.
Figure 112008053651024-PAT00016
을 각각 n번째 프레임과 k번째 주파수 빈에서의 노이즈 음성, 음성 및 노이즈의 단-시간 스펙트럼 진폭으로 지정한다. 노이즈 음성 스펙트럼 진폭은 알 수 있으나(801 단계), 노이즈와 순수 음성의 실제 값은 알지 못한다. 순수 음성을 얻기 위해 신호는 노이즈 음성 스펙트럼 진폭의 조작을 필요로 한다. 노이즈 감소 처리는 스펙트럼 이득 값(Gn,k)을 각각의 단-시간 스펙트럼 값에 적용하는 것(802 단계)으로 이루어진다. 순수 음성 스펙트럼 진폭의 평가는 다음과 같이 얻어진다(803 단계).
Figure 112008053651024-PAT00017
여기서, Gn,k는 스펙트럼 억제 이득이다. 이 이득을 계산하는 법에 대한 많은 방법이 여러 문헌에 소개된 바 있다. 그 예로는 Ephraim, Y에 의해 제안된 판정 의거 접근법(decision-directed approach); 1984년 12월자, 음향, 음성 및 신호 처리에 관한 IEEE Trans.의 6쇄 32권 1109-1121면에 소개된 최소 평균 자승 에러 단-시 간 스펙트럼 증폭 추정량을 이용한 음성 향상법을 포함한다.
음악적 순음
스펙트럼 억제 방법의 하나의 문제점은 음악적 순음의 존재 가능성이다. 음악 노이즈를 제거 또는 차폐하기 위해 억제 이득을 플로어링하여야(floored) 한다:
Figure 112008053651024-PAT00018
여기서, σ는 0-1의 값을 갖는 상수이다.
상기 스펙트럼 이득에 기초한 노이즈 감소 방법들은 정상적 차량 노이즈에 대해 잘 실행된다. 그러나, 배경에 순음이 존재하면, 이들 방법은 순음을 억제할 수만 있을 뿐 제거할 수 없다. 도 3을 참조하면, 종래 기술에 따른 노이즈 감소 이후의 신호의 PSD를 볼 수 있다. 신호는 순음이 존재하는 주파수에 여전히 피크를 가지고 있다. 따라서, 전체 신호는 억제되지만 순음은 그대로 유지된다.
적응적 방법
플로어 상수(σ)를 이용하는 대신에 순음을 제거하기 위해, 본 시스템은 각 주파수 빈에서 특정되는 가변 플로어(variable floor)를 사용한다. 도 9는 억제 이득 값을 계산하기 위해 적응적 인자를 사용하는 것을 나타내는 흐름도이다. 901 단계에서, 평활화된 배경 노이즈와 배경 노이즈 평가치가 현재 주파수 빈에 대해 결정된 다.
902 단계에서, 평활화된 배경값과 배경 노이즈 평가치가 사용되어 비율을 형성한다. 이 비율은 903 단계에서 이용되어 현재 빈에 대해 사용될 적응적 인자를 위한 값을 계산한다. 904 단계에서, 적응적 인자는 현재 빈에 대한 억제 이득 값을 형성하는데 사용된다. 이 방식으로, 각 주파수 빈은 그 주파수 빈에서의 비율에 의존하는 변화하는 억제 이득 플로어를 가진다. 도면의 시스템의 동작은 다음과 같이 설명된다:
주파수 빈에서 배경 노이즈(
Figure 112008053651024-PAT00019
)를 평가하고 평활화된 배경 노이즈(
Figure 112008053651024-PAT00020
)를 계산한다(901 단계). 전술한 기법들은 상기 값을 생성하는데 사용될 수 있다. 902 단계에서, 전술한 바와 같은 비율(
Figure 112008053651024-PAT00021
)을 계산한다. 이것은 이후 903 단계에서 사용되어 현재 주파수 빈에 관련된 적응적 인자(σ)를 생성할 수 있다. 적응적 인자는 다음과 같이 정의된다:
Figure 112008053651024-PAT00022
신호에 적용될 순음 억제 이득(904 단계)은 다음과 같이 주어진다:
Figure 112008053651024-PAT00023
랜덤 기법
상기 적응적 억제 이득을 스펙트럼 진폭에 적용하는 것은 개선된 순음 제거를 달성할 수 있다. 그러나, 배경에 심각한 순음이 존재할 때, 원시 노이즈 위상을 이용하는 것은 순음이 여전히 처리 신호에서 가청적이 되도록 할 수 있다. 더 이상의 평활화를 위한 대안 기법은 원시 노이즈 신호에 적용된 적응적 억제 이득이 평활화된 배경 노이즈보다 작을 때마다 주파수 빈에서 원시 위상을 랜덤 위상으로 대체하는 것이다.
도 10은 랜덤 위상을 이용한 억제 기법을 나타내는 흐름도이다. 1001 단계에서, 도 9의 적응적 이득 억제 기법을 적용한다. 1002 단계에서, 그 결과치(노이즈 신호로 곱한 값)를 현재 주파수 빈에 대한 평활화된 배경 노이즈 값과 비교한다. 결정 블록(1003)에서, 상기 결과치가 상기 평활화된 배경 노이즈 값보다 작은지 여부를 결정한다. 만일 그렇지 않으면, 생성된 결과치를 이용할 수 있다. 상기 결과치가 평활화된 배경 노이즈보다 작으면, 1005 단계에서 원시 위상을 랜덤 위상으로 대체한다. 1002 단계와 1003 단계는 다음과 같이 실시될 수 있다:
Figure 112008053651024-PAT00024
순수 음성 스펙트럼 진폭의 평가는 다음과 같이 얻을 수 있다(1001 단계):
Figure 112008053651024-PAT00025
복합 순수 음성의 평가는 다음과 같이 주어진다:
Figure 112008053651024-PAT00026
여기서, Rn ,k, In,k는 제로 평균 및 단위 분산의 가우스 난수이다.
도 4는 개시된 순음 감소 방법에 의해 처리된 순음의 PSD를 나타낸다. 도면에서 볼 수 있듯이, 결과 파형은 피크가 거의 없고 보다 평활화된 프로파일을 갖는다.
논의된 예시는 모듈이나 성분으로 식별되는 기능 블록을 참조한 것이나, 상기 모듈 또는 성분들은 개별 구조를 표현하도록 의도된 것이 아니며, 서로 조합되거나 더욱 세분될 수 있다. 또한, 본 발명의 여러 실시예들이 설명되었지만, 당업자들에게 있어서는 본 발명의 범위 내에 있는 다른 실시예와 실시가 가능함이 분명할 것이다. 따라서, 본 발명은 첨부한 특허청구범위와 그 등가물의 관점을 제외하고는 제한되지 않는다.
도 1은 정상 차량 노이즈의 PSD이다.
도 2는 순음의 PSD이다.
도 3은 종래 기술에 따른 노이즈 감소 후 순음의 PSD이다.
도 4는 개시된 순음 감소 방법으로 처리된 순음의 PSD이다.
도 5는 본 시스템의 순음 식별 및 억제 동작을 나타낸 흐름도이다.
도 6은 본 시스템에 사용된, 평활화된 배경 노이즈를 평가하는 방법을 나타낸 흐름도이다.
도 7은 순음의 존재를 결정하는 방법을 나타낸 흐름도이다.
도 8은 순수 음성 신호를 평가하는 종래 기술의 방법을 나타낸 흐름도이다.
도 9는 억제 이득값을 계산하는 적응적 인자의 사용을 나타낸 흐름도이다.
도 10은 랜덤 위상을 이용한 억제 방법을 나타낸 흐름도이다.

Claims (14)

  1. 순음 식별 방법으로서:
    입력 신호를 복수의 주파수 빈으로 변환하는 단계와;
    각 빈에서, 평활화된 배경 노이즈와 배경 노이즈 평가치를 계산하는 단계와;
    각 빈에서, 상기 평활화된 배경 노이즈를 상기 배경 노이즈 평가치와 비교하는 단계와;
    상기 평활화된 배경 노이즈에 대한 상기 배경 노이즈 평가치의 비율이 임계값보다 클 때 빈을 순음 피크를 갖는 것으로 식별하는 단계
    를 포함하는 것을 특징으로 하는 순음 식별 방법.
  2. 제1항에 있어서, 상기 비교 단계는 동일한 빈에 있어서 상기 배경 노이즈 평가치에 대한 상기 평활화된 배경 노이즈의 비교를 행하는 것을 특징으로 하는 순음 식별 방법.
  3. 제1항에 있어서, 상기 임계값은 1보다 큰 것을 특징으로 하는 순음 식별 방법.
  4. 제2항에 있어서, 현재 프레임(n)에 대한 평활화된 배경 노이즈 결정 단계는
    Figure 112008053651024-PAT00027
    에 의해 달성되고,
    상기
    Figure 112008053651024-PAT00028
    는 주파수 빈(k)에서 현재 프레임(n)의 배경 노이즈 평가치이고,
    Figure 112008053651024-PAT00029
    는 이전 빈(k-1)의 평활화된 배경 노이즈인 것을 특징으로 하는 순음 식별 방법.
  5. 제2항에 있어서, 평활화된 배경 노이즈 결정 단계는
    Figure 112008053651024-PAT00030
    에 의해 주어지는 것을 특징으로 하는 순음 식별 방법.
  6. 제4항 또는 제5항에 있어서, 상기 β1과 β2는 0-1 범위의 파라미터인 것을 특징으로 하는 순음 식별 방법.
  7. 제1항에 있어서, 상기 비율(
    Figure 112008053651024-PAT00031
    )은
    Figure 112008053651024-PAT00032
    으로 주어지는 것을 특징으로 하는 순음 식별 방법.
  8. 신호 중 순음 제거 방법으로서:
    n번째 프레임과 k번째 주파수 빈에서 노이즈 음성 신호의 단-시간 스펙트럼 진폭(
    Figure 112008053651024-PAT00033
    )을 결정하는 단계와;
    Figure 112008053651024-PAT00034
    (여기서,
    Figure 112008053651024-PAT00035
    는 적응적 억제 이득 값)
    에 의해 평가 순수 음성 신호(
    Figure 112008053651024-PAT00036
    )를 생성하는 단계
    를 포함하는 것을 특징으로 하는 신호 중 순음 제거 방법.
  9. 제8항에 있어서, 상기
    Figure 112008053651024-PAT00037
    Figure 112008053651024-PAT00038
    에 의해 생성되고,
    상기
    Figure 112008053651024-PAT00039
    는 현재 주파수 빈에 관련된 적응적 이득 인자인 것을 특징으로 하는 신호 중 순음 제거 방법.
  10. 제9항에 있어서, 상기
    Figure 112008053651024-PAT00040
    Figure 112008053651024-PAT00041
    에 의해 생성되며,
    상기
    Figure 112008053651024-PAT00042
    는 상수 인자이며,
    상기
    Figure 112008053651024-PAT00043
    는 빈(k)에서 배경 노이즈 평가치와 평활화된 배경 노이즈 사이의 비율인 것을 특징으로 하는 신호 중 순음 제거 방법.
  11. 제10항에 있어서, 관계식
    Figure 112008053651024-PAT00044
    (
    Figure 112008053651024-PAT00045
    는 주파수(k)에서 현재 프레임(n)의 배경 노이즈 평가치이고,
    Figure 112008053651024-PAT00046
    는 동일한 빈의 평활화된 배경 노이즈이다)을 만족하는 것을 특징으로 하는 신호 중 순음 제거 방법.
  12. 제11항에 있어서,
    Figure 112008053651024-PAT00047
    Figure 112008053651024-PAT00048
    와 비교하는 단계를 더 포함하는 것을 특징으로 하는 신호 중 순음 제거 방법.
  13. 제12항에 있어서,
    Figure 112008053651024-PAT00049
    일 때,
    Figure 112008053651024-PAT00050
    를 허용하는 단계를 더 포함하는 것을 특징으로 하는 신호 중 순음 제거 방법.
  14. 제12항에 있어서,
    Figure 112008053651024-PAT00051
    일 때, 원시 위상을 랜덤 위상으로 대체하는 단계를 더 포함하는 것을 특징으로 하는 신호 중 순음 제거 방법.
KR1020080072811A 2007-07-25 2008-07-25 통합적 순음 감소 방식의 노이즈 감소 방법 KR20090012154A (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US95192207P 2007-07-25 2007-07-25
US60/951,922 2007-07-25
US11/961,715 US8489396B2 (en) 2007-07-25 2007-12-20 Noise reduction with integrated tonal noise reduction
US11/961,715 2007-12-20

Publications (1)

Publication Number Publication Date
KR20090012154A true KR20090012154A (ko) 2009-02-02

Family

ID=39712585

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080072811A KR20090012154A (ko) 2007-07-25 2008-07-25 통합적 순음 감소 방식의 노이즈 감소 방법

Country Status (5)

Country Link
US (1) US8489396B2 (ko)
EP (1) EP2023342A1 (ko)
JP (1) JP2009031793A (ko)
KR (1) KR20090012154A (ko)
CA (1) CA2638265C (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020145509A3 (ko) * 2019-01-11 2020-09-24 브레인소프트 주식회사 디제이 변환에 의한 주파수 추출 방법
WO2022019425A1 (ko) * 2020-07-21 2022-01-27 브레인소프트 주식회사 복합음을 구성하는 순음의 추출 방법

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8831936B2 (en) * 2008-05-29 2014-09-09 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for speech signal processing using spectral contrast enhancement
US8538749B2 (en) 2008-07-18 2013-09-17 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for enhanced intelligibility
ES2385293T3 (es) * 2008-09-19 2012-07-20 Dolby Laboratories Licensing Corporation Procesamiento de señales ascendentes para dispositivos clientes en una red inalámbrica de células pequeñas
JP5141542B2 (ja) 2008-12-24 2013-02-13 富士通株式会社 雑音検出装置及び雑音検出方法
US9202456B2 (en) 2009-04-23 2015-12-01 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for automatic control of active noise cancellation
CN101986386B (zh) * 2009-07-29 2012-09-26 比亚迪股份有限公司 一种语音背景噪声的消除方法和装置
US9087518B2 (en) * 2009-12-25 2015-07-21 Mitsubishi Electric Corporation Noise removal device and noise removal program
US8577678B2 (en) * 2010-03-11 2013-11-05 Honda Motor Co., Ltd. Speech recognition system and speech recognizing method
US9053697B2 (en) 2010-06-01 2015-06-09 Qualcomm Incorporated Systems, methods, devices, apparatus, and computer program products for audio equalization
CN102314883B (zh) * 2010-06-30 2013-08-21 比亚迪股份有限公司 一种判断音乐噪声的方法以及语音消噪方法
JP5566846B2 (ja) * 2010-10-15 2014-08-06 本田技研工業株式会社 ノイズパワー推定装置及びノイズパワー推定方法並びに音声認識装置及び音声認識方法
US8818806B2 (en) * 2010-11-30 2014-08-26 JVC Kenwood Corporation Speech processing apparatus and speech processing method
WO2013125257A1 (ja) * 2012-02-20 2013-08-29 株式会社Jvcケンウッド 雑音信号抑制装置、雑音信号抑制方法、特殊信号検出装置、特殊信号検出方法、報知音検出装置、および、報知音検出方法
JP6054142B2 (ja) * 2012-10-31 2016-12-27 株式会社東芝 信号処理装置、方法およびプログラム
EP3011556B1 (en) 2013-06-21 2017-05-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for obtaining spectrum coefficients for a replacement frame of an audio signal, audio decoder, audio receiver and system for transmitting audio signals
PT3011561T (pt) 2013-06-21 2017-07-25 Fraunhofer Ges Forschung Aparelho e método para desvanecimento de sinal aperfeiçoado em diferentes domínios durante ocultação de erros
CN110265058B (zh) * 2013-12-19 2023-01-17 瑞典爱立信有限公司 估计音频信号中的背景噪声
FR3017484A1 (fr) * 2014-02-07 2015-08-14 Orange Extension amelioree de bande de frequence dans un decodeur de signaux audiofrequences
WO2015170140A1 (en) * 2014-05-06 2015-11-12 Advanced Bionics Ag Systems and methods for cancelling tonal noise in a cochlear implant system
ES2758517T3 (es) * 2014-07-29 2020-05-05 Ericsson Telefon Ab L M Estimación del ruido de fondo en las señales de audio
CN116057628A (zh) * 2020-07-30 2023-05-02 杜比国际公司 用于语音和音乐录音的嗡嗡噪声检测和去除
CN114076681A (zh) * 2020-08-20 2022-02-22 上海汽车集团股份有限公司 一种啸叫噪声评价方法和相关装置

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE1796078U (de) * 1957-01-30 1959-09-17 Bosch Gmbh Robert Zahnradpumpe.
EP0459362B1 (en) * 1990-05-28 1997-01-08 Matsushita Electric Industrial Co., Ltd. Voice signal processor
US5485522A (en) * 1993-09-29 1996-01-16 Ericsson Ge Mobile Communications, Inc. System for adaptively reducing noise in speech signals
JP3604393B2 (ja) * 1994-07-18 2004-12-22 松下電器産業株式会社 音声検出装置
US5706395A (en) 1995-04-19 1998-01-06 Texas Instruments Incorporated Adaptive weiner filtering using a dynamic suppression factor
US5950154A (en) * 1996-07-15 1999-09-07 At&T Corp. Method and apparatus for measuring the noise content of transmitted speech
CN1262994C (zh) * 1996-11-07 2006-07-05 松下电器产业株式会社 噪声消除器
US6415253B1 (en) * 1998-02-20 2002-07-02 Meta-C Corporation Method and apparatus for enhancing noise-corrupted speech
US6519559B1 (en) * 1999-07-29 2003-02-11 Intel Corporation Apparatus and method for the enhancement of signals
US6910011B1 (en) * 1999-08-16 2005-06-21 Haman Becker Automotive Systems - Wavemakers, Inc. Noisy acoustic signal enhancement
US6111183A (en) * 1999-09-07 2000-08-29 Lindemann; Eric Audio signal synthesis system based on probabilistic estimation of time-varying spectra
US6959274B1 (en) * 1999-09-22 2005-10-25 Mindspeed Technologies, Inc. Fixed rate speech compression system and method
US7058572B1 (en) * 2000-01-28 2006-06-06 Nortel Networks Limited Reducing acoustic noise in wireless and landline based telephony
US6674865B1 (en) * 2000-10-19 2004-01-06 Lear Corporation Automatic volume control for communication system
GB2375028B (en) * 2001-04-24 2003-05-28 Motorola Inc Processing speech signals
US7272234B2 (en) * 2002-04-04 2007-09-18 Brigham Young University Multi-channel active control system and method for the reduction of tonal noise from an axial fan
US7277537B2 (en) * 2003-09-02 2007-10-02 Texas Instruments Incorporated Tone, modulated tone, and saturated tone detection in a voice activity detection device
US20050091049A1 (en) * 2003-10-28 2005-04-28 Rongzhen Yang Method and apparatus for reduction of musical noise during speech enhancement
JP4520732B2 (ja) * 2003-12-03 2010-08-11 富士通株式会社 雑音低減装置、および低減方法
US7725314B2 (en) * 2004-02-16 2010-05-25 Microsoft Corporation Method and apparatus for constructing a speech filter using estimates of clean speech and noise
US20060018457A1 (en) * 2004-06-25 2006-01-26 Takahiro Unno Voice activity detectors and methods
US20050288923A1 (en) * 2004-06-25 2005-12-29 The Hong Kong University Of Science And Technology Speech enhancement by noise masking
US7917356B2 (en) * 2004-09-16 2011-03-29 At&T Corporation Operating method for voice activity detection/silence suppression system
US7716046B2 (en) * 2004-10-26 2010-05-11 Qnx Software Systems (Wavemakers), Inc. Advanced periodic signal enhancement
WO2006046293A1 (ja) * 2004-10-28 2006-05-04 Fujitsu Limited 雑音抑圧装置
EP1703494A1 (en) 2005-03-17 2006-09-20 Emma Mixed Signal C.V. Listening device
US7706542B2 (en) * 2005-03-28 2010-04-27 Pioneer Corporation Noise removal device
US8520861B2 (en) 2005-05-17 2013-08-27 Qnx Software Systems Limited Signal processing system for tonal noise robustness
GB2429139B (en) * 2005-08-10 2010-06-16 Zarlink Semiconductor Inc A low complexity noise reduction method
US7912567B2 (en) * 2007-03-07 2011-03-22 Audiocodes Ltd. Noise suppressor

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020145509A3 (ko) * 2019-01-11 2020-09-24 브레인소프트 주식회사 디제이 변환에 의한 주파수 추출 방법
CN113316816A (zh) * 2019-01-11 2021-08-27 脑软株式会社 使用dj变换的频率提取方法
WO2022019425A1 (ko) * 2020-07-21 2022-01-27 브레인소프트 주식회사 복합음을 구성하는 순음의 추출 방법

Also Published As

Publication number Publication date
CA2638265A1 (en) 2009-01-25
JP2009031793A (ja) 2009-02-12
EP2023342A1 (en) 2009-02-11
US8489396B2 (en) 2013-07-16
CA2638265C (en) 2013-06-18
US20080167870A1 (en) 2008-07-10

Similar Documents

Publication Publication Date Title
KR20090012154A (ko) 통합적 순음 감소 방식의 노이즈 감소 방법
KR101168466B1 (ko) 오디오 잡음을 감소시키는 시스템 및 방법
CA2346251C (en) A method and system for updating noise estimates during pauses in an information signal
Esch et al. Efficient musical noise suppression for speech enhancement system
KR100739905B1 (ko) 소스 음성 신호에서 잡음을 억제하는 방법 및 잡음 억제기
US9449615B2 (en) Externally estimated SNR based modifiers for internal MMSE calculators
EP1287520A1 (en) Spectrally interdependent gain adjustment techniques
CA2404030A1 (en) Relative noise ratio weighting techniques for adaptive noise cancellation
WO2008085703A2 (en) A spectro-temporal varying approach for speech enhancement
US9773509B2 (en) Speech probability presence modifier improving log-MMSE based noise suppression performance
WO2001073751A9 (en) Speech presence measurement detection techniques
US9449609B2 (en) Accurate forward SNR estimation based on MMSE speech probability presence
KR20160116440A (ko) 음성인식 시스템의 신호대잡음비 추정 장치 및 방법
KR101993003B1 (ko) 잡음 제거 장치 및 방법
Yektaeian et al. Comparison of spectral subtraction methods used in noise suppression algorithms
Ma et al. A perceptual kalman filtering-based approach for speech enhancement
Qu et al. A modified a priori SNR estimation for spectral subtraction speech enhancement
Alam et al. COMPARATIVE STUDY OF A PRIORI SIGNAL-TONOISE RATIO (SNR) ESTIMATION APPROACHES FOR SPEECH ENHANCEMENT
Zhang et al. An improved MMSE-LSA speech enhancement algorithm based on human auditory masking property
Alam et al. Speech enhancement based on a hybrid a priori signal-to-noise ratio (SNR) estimator and a self-adaptive Lagrange multiplier
Rao et al. A Perceptual Approach to Reduce Musical Noise Using Critical Bands Tonality Coefficients and Masking Thresholds.
Wang et al. An impulse noise robust noise estimation algorithm applied for low signal-to-noise ratio digital communication
Alam et al. A new perceptual post-filter for single channel speech enhancement
STOLBOV et al. Speech enhancement technique for low SNR recording using soft spectral subtraction

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application