KR20180054823A - 선형 예측 코딩을 사용하여 감소된 배경 잡음을 갖는 오디오 신호를 인코딩하기 위한 인코더 및 방법 - Google Patents

선형 예측 코딩을 사용하여 감소된 배경 잡음을 갖는 오디오 신호를 인코딩하기 위한 인코더 및 방법 Download PDF

Info

Publication number
KR20180054823A
KR20180054823A KR1020187011461A KR20187011461A KR20180054823A KR 20180054823 A KR20180054823 A KR 20180054823A KR 1020187011461 A KR1020187011461 A KR 1020187011461A KR 20187011461 A KR20187011461 A KR 20187011461A KR 20180054823 A KR20180054823 A KR 20180054823A
Authority
KR
South Korea
Prior art keywords
audio signal
background noise
signal
representation
encoder
Prior art date
Application number
KR1020187011461A
Other languages
English (en)
Other versions
KR102152004B1 (ko
Inventor
요하네스 피셔
톰 벡스트롬
엠마 조키넨
Original Assignee
프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. filed Critical 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Publication of KR20180054823A publication Critical patent/KR20180054823A/ko
Application granted granted Critical
Publication of KR102152004B1 publication Critical patent/KR102152004B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • G10L19/125Pitch excitation, e.g. pitch synchronous innovation CELP [PSI-CELP]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • G10L19/265Pre-filtering, e.g. high frequency emphasis prior to encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/0308Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/12Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients

Abstract

선형 예측 코딩을 사용하여 감소된 배경 잡음을 갖는 오디오 신호를 인코딩하기 위한 인코더가 도시된다. 인코더는 오디오 신호의 배경 잡음을 추정하도록 구성된 배경 잡음 추정기, 오디오 신호로부터 오디오 신호의 추정된 배경 잡음을 감산함으로써 배경 잡음 감소된 오디오 신호를 발생시키도록 구성된 배경 잡음 감소기, 및 오디오 신호에 선형 예측 분석이 이루어지게 하여 제1 세트의 선형 예측 필터(LPC) 계수들을 획득하고 배경 잡음 감소된 오디오 신호에 선형 예측 분석이 이루어지게 하여 제2 세트의 선형 예측 필터(LPC) 계수들을 획득하도록 구성된 예측기를 포함한다. 더욱이, 인코더는 획득된 제1 세트의 LPC 계수들 및 획득된 제2 세트의 LPC 계수들에 의해 제어되는 시간 도메인 필터들의 캐스케이드로 구성된 분석 필터를 포함한다.

Description

선형 예측 코딩을 사용하여 감소된 배경 잡음을 갖는 오디오 신호를 인코딩하기 위한 인코더 및 방법
본 발명은 선형 예측 코딩을 사용하여 감소된 배경 잡음을 갖는 오디오 신호를 인코딩하기 위한 인코더, 대응하는 방법, 및 인코더와 디코더를 포함하는 시스템에 관한 것이다. 즉, 본 발명은 예컨대, 코드북 여기 선형 예측(CELP: codebook excited linear predictive) 코덱에 통합함으로써 음성의 공동 확장 및 코딩과 같은 공동 음성 확장 및/또는 인코딩 접근 방식에 관한 것이다.
음성 및 통신 디바이스들이 보편화되었고 불리한 조건들에서 사용될 가능성이 있음에 따라, 불리한 환경들에 대처할 수 있는 음성 확장 방법들에 대한 수요가 증가해왔다. 그에 따라, 예를 들면, 휴대 전화들에서 지금까지 음성 코딩과 같은 모든 후속 음성 처리를 위한 전처리 블록/단계로서 잡음 감쇄 방법들을 사용하는 것이 일반적이다. 음성 코더들에 음성 확장을 포함하는 다양한 접근 방식들이 존재한다[1, 2, 3, 4]. 이러한 설계들은 송신된 음성의 품질을 개선하지만, 캐스케이드식 처리가 품질의 공동 지각 최적화/최소화를 가능하게 하지 않거나, 양자화 잡음 및 간섭의 공동 최소화가 적어도 어려웠다.
음성 코덱들의 목표는 최소량의 송신 데이터를 갖는 고품질 음성의 송신을 가능하게 하는 것이다. 이러한 목표를 이루기 위해, 선형 예측에 의한 음성 신호의 스펙트럼 포락선의 모델링, 장기간 예측기에 의한 기본 주파수 및 잡음 코드북을 가진 나머지와 같은 신호의 효율적인 표현이 필요하다. 이 표현은 적응적 멀티 레이트(AMR: Adaptive Multi-Rate), AMR 광대역(AMR-WB: AMR-Wide-Band), 통합 음성 및 오디오 코딩(USAC: Unified Speech and Audio Coding) 및 확장 음성 서비스(EVS: Enhanced Voice Service)와 같은 주요 음성 코딩 표준들에 사용되는 코드 여기 선형 예측(CELP) 패러다임을 사용하는 음성 코덱들의 기본이다[5, 6, 7, 8, 9, 10, 11].
자연 음성 통신의 경우, 스피커들은 종종 핸즈프리 모드들로 디바이스들을 사용한다. 이러한 시나리오들에서, 마이크로폰은 대개 입에서 멀리 떨어져 있는데, 이것에 의해 음성 신호가 잔향 또는 배경 잡음과 같은 간섭들에 의해 쉽게 왜곡될 수 있다. 저하는 인지된 음성 품질뿐만 아니라 음성 신호의 명료도에도 영향을 미치며, 따라서 대화의 자연스러움을 심각하게 방해할 수 있다. 통신 체험을 개선하기 위해, 다음에는 잡음을 감쇄시키고 잔향의 영향들을 감소시키기 위한 음성 확장 방법들을 적용하는 것이 유리하다. 음성 확장 분야는 발달되어 있으며, 많은 방법들이 쉽게 이용 가능하다[12]. 그러나 기존의 알고리즘들의 대부분은 중첩 가산 기반 윈도우 처리(windowing)방식들을 적용하는 중첩 가산 방법들, 이를테면 국소 푸리에 변환(STFT: short-time Fourier transform)과 같은 변환들을 기반으로 하는 반면, 그에 반해 CELP 코덱들은 선형 예측기/선형 예측 필터로 신호를 모델링하고 나머지에만 윈도우 처리를 적용한다. 이러한 근본적인 차이점들은 확장 및 코딩 방법들을 병합하기 어렵게 만든다. 그러나 확장 및 코딩의 공동 최적화가 잠재적으로 품질을 향상시키고, 지연 및 계산상 복잡도를 감소시킬 수 있다는 것이 명백하다.
따라서 개선된 접근 방식이 필요하다.
선형 예측 코딩을 사용하여 오디오 신호를 처리하기 위한 개선된 개념을 제공하는 것이 본 발명의 과제이다. 이 목적은 독립항들의 요지에 의해 해결된다.
본 발명의 실시예들은 선형 예측 코딩을 사용하여 감소된 배경 잡음을 갖는 오디오 신호를 인코딩하기 위한 인코더를 도시한다. 인코더는 오디오 신호의 배경 잡음을 추정하도록 구성된 배경 잡음 추정기, 오디오 신호로부터 오디오 신호의 추정된 배경 잡음을 감산함으로써 배경 잡음 감소된 오디오 신호를 발생시키도록 구성된 배경 잡음 감소기, 및 오디오 신호에 선형 예측 분석이 이루어지게 하여 제1 세트의 선형 예측 필터(LPC) 계수들을 획득하고 배경 잡음 감소된 오디오 신호에 선형 예측 분석이 이루어지게 하여 제2 세트의 선형 예측 필터(LPC) 계수들을 획득하도록 구성된 예측기를 포함한다. 더욱이, 인코더는 획득된 제1 세트의 LPC 계수들 및 획득된 제2 세트의 LPC 계수들에 의해 제어되는 시간 도메인 필터들의 캐스케이드로 구성된 분석 필터를 포함한다.
본 발명은 선형 예측 코딩 환경에서의 개선된 분석 필터가 인코더의 신호 처리 특성들을 증가시킨다는 결론을 기반으로 한다. 보다 구체적으로는, 직렬로 접속된 시간 도메인 필터들이 선형 예측 코딩 환경의 분석 필터에 적용된다면 상기 필터들의 캐스케이드 또는 시리즈의 사용이 입력된 오디오 신호의 처리 속도 또는 처리 시간을 개선한다. 잡음에 의해 큰 영향을 받는 주파수 대역들을 필터링함으로써 배경 잡음을 감소시키기 위한 착신 시간 도메인 오디오 신호의 일반적으로 사용되는 시간-주파수 변환 및 주파수-시간 역변환이 생략되기 때문에 이것이 유리하다. 다시 말하면, 분석 필터의 일부로서 배경 잡음 감소 또는 제거를 수행함으로써, 배경 잡음 감소가 시간 도메인에서 수행될 수 있다. 따라서 예를 들면, 시간/주파수/시간 변환을 위해 사용될 수 있는 MDCT/IDMCT의 중첩 및 가산 프로시저([역] 변형 이산 코사인 변환)가 생략된다. 배경 잡음 감소는 단일 프레임에 대해 수행되는 것이 아니라 연속 프레임들에 대해서만 수행될 수 있기 때문에, 이 중첩 및 가산 방법은 인코더의 실시간 처리 특징을 제한한다.
즉, 설명된 인코더는 배경 잡음 감소 및 이에 따라 단일 오디오 프레임에 대한 분석 필터의 전체 처리를 수행할 수 있으며, 따라서 오디오 신호의 실시간 처리를 가능하게 한다. 실시간 처리는 참여하는 사용자들에 대한 눈에 띄는 지연이 없는 오디오 신호의 처리를 의미할 수 있다. 한 사용자가 오디오 신호의 처리 지연으로 인해 다른 사용자의 응답을 기다려야 한다면, 예를 들어 원격 회의에서 눈에 띄는 지연이 발생할 수 있다. 이러한 최대 허용 지연은 1초 미만, 바람직하게는 0.75초 아래 또는 훨씬 더 바람직하게는 0.25초 아래일 수 있다. 이러한 처리 시간들은 전송기에서부터 수신기까지의 오디오 신호의 전체 처리를 의미하며, 따라서 인코더의 신호 처리뿐만 아니라, 오디오 신호를 송신하는 시간 및 대응하는 디코더에서의 신호 처리를 또한 포함한다는 점이 주목되어야 한다.
실시예들에 따르면, 시간 도메인 필터들 및 이에 따라 분석 필터의 캐스케이드는 획득된 제1 세트의 LPC 계수들을 사용하여 선형 예측 필터를 2회 그리고 획득된 제2 세트의 LPC 계수들을 사용하여 추가 선형 예측 필터의 역을 1회 포함한다. 이 신호 처리는 흔히 위너(Wiener) 필터링으로 지칭될 수 있다. 즉, 이에 따라 시간 도메인 필터들의 캐스케이드는 위너 필터를 포함할 수 있다.
추가 실시예들에 따르면, 배경 잡음 추정기는 오디오 신호의 배경 잡음의 표현으로서 배경 잡음의 자기 상관을 추정할 수 있다. 더욱이, 배경 잡음 감소기는 오디오 신호의 추정된 자기 상관으로부터 배경 잡음의 자기 상관을 감산함으로써 배경 잡음 감소된 오디오 신호의 표현을 생성할 수 있으며, 여기서 오디오 신호의 추정된 오디오 상관은 오디오 신호의 표현이고, 배경 잡음 감소된 오디오 신호의 표현은 배경 잡음 감소된 오디오 신호의 자기 상관이다. LPC 계수들을 계산하기 위해 그리고 배경 잡음 감소를 수행하기 위해 시간 도메인 오디오 신호를 사용하는 대신 자기 상관 함수들의 추정을 사용하는 것은 시간 도메인에서 완벽하게 신호 처리를 가능하게 한다. 따라서 오디오 프레임의 컨볼루션 적분 또는 오디오 프레임의 서브파트를 컨볼빙함으로써 또는 이를 사용함으로써 오디오 신호의 자기 상관과 배경 잡음의 자기 상관이 계산될 수 있다. 따라서 배경 잡음의 자기 상관은 프레임에서 또는 심지어, 음성과 같은 전경 오디오 신호가 (거의) 없는 프레임 또는 프레임의 일부로서 정의될 수 있는 서브프레임에서만 수행될 수 있다. 더욱이, 배경 잡음 감소된 오디오 신호의 자기 상관은 배경 잡음의 자기 상관과 (배경 잡음을 포함하는) 오디오 신호의 자기 상관을 감산함으로써 계산될 수 있다. 배경 잡음 감소된 오디오 신호 및 (일반적으로 배경 잡음을 갖는) 오디오 신호의 자기 상관을 사용하는 것은 배경 잡음 감소된 오디오 신호 및 오디오 신호에 대한 LPC 계수들을 각각 계산할 수 있게 한다. 배경 잡음 감소된 LPC 계수들은 제2 세트의 LPC 계수들로 지칭될 수 있으며, 여기서 오디오 신호의 LPC 계수들은 제1 세트의 LPC 계수들로 지칭될 수 있다. 따라서 오디오 신호가 시간 도메인에서 완벽하게 처리될 수 있는데, 이는 시간 도메인 필터들의 캐스케이드의 적용이 시간 도메인에서 오디오 신호에 대해 이들의 필터링을 또한 수행하기 때문이다.
첨부된 도면들을 사용하여 실시예들이 상세하게 설명되기 전에, 동일하거나 기능상 동일한 엘리먼트들에는 도면들에서 동일한 참조 번호들이 주어지고 동일한 참조 번호들이 제공된 엘리먼트들에 대한 반복된 설명이 생략된다는 점이 지적되어야 한다. 그러므로 동일한 참조 번호들을 갖는 엘리먼트들에 제공된 설명들은 상호 교환 가능하다.
본 발명의 실시예들은 첨부된 도면들을 다음에 논의될 것이다.
도 1은 오디오 신호를 인코딩하기 위한 인코더 및 디코더를 포함하는 시스템의 개략적인 블록도를 도시한다.
도 2는 a) 캐스케이드식 확장 인코딩 방식, b) CELP 음성 코딩 방식 및 c) 본 발명의 공동 확장 인코딩 방식의 개략적인 블록도를 도시한다.
도 3은 다른 표기법을 가진 도 2의 실시예의 개략적인 블록도를 도시한다.
도 4는 제안된 공동 접근 방식(J)과 캐스케이드식 방법(C)에 대해 식(23)에 정의된 지각 크기 신호대 잡음비(SNR: signal-to-noise ratio)의 개략적인 선형 차트를 도시하며, 여기서 입력 신호는 비정상 자동차 소음에 의해 열화되었고, 그 결과들은 2개의 서로 다른 비트레이트들(아래첨자 7로 표시된 7.2kbit/s 및 아래첨자 13으로 표시된 13.2kbit/s)에 대해 제시된다.
도 5는 제안된 공동 접근 방식(J)과 캐스케이드식 방법(C)에 대해 식(23)에 정의된 지각 크기 SNR의 개략적인 선형 차트를 도시하며, 여기서 입력 신호는 정상 백색 잡음에 의해 열화되었고, 그 결과들은 2개의 서로 다른 비트레이트들(아래첨자 7로 표시된 7.2kbit/s 및 아래첨자 13으로 표시된 13.2kbit/s)에 대해 제시된다.
도 6은 2개의 서로 다른 입력 SNR들(10dB(1) 및 20dB(2))에 대해 2개의 서로 다른 간섭들(백색 잡음(W)과 자동차 소음(C))에 대한 서로 다른 영어 사용자들(여성(F)와 남성(M))의 MUSHRA 스코어의 예시를 보여주는 개략적인 플롯을 도시하며, 여기서 제안된 공동 접근 방식(JE) 및 캐스케이드식 확장(CE: cascaded enhancement)에 대해 모든 항목들이 2개의 비트레이트들(7.2kbit/s(7) 및 13.2kbit/s(13))로 인코딩되었고, REF는 숨겨진 참조, LP는 3.5kHz 저역 통과 앵커, Mix는 왜곡된 혼합물이었다.
도 7은 2개의 서로 다른 비트레이트들에 걸쳐 시뮬레이션된 서로 다른 MUSHRA 스코어들의 플롯을 도시한 것으로, 새로운 공동 확장(JE)과 캐스케이드식 접근 방식(CE)을 비교한 것이다.
도 8은 선형 예측 코딩을 사용하여 감소된 배경 잡음을 갖는 오디오 신호를 인코딩하기 위한 방법의 개략적인 흐름도를 도시한다.
다음에, 본 발명의 실시예들이 보다 상세히 설명될 것이다. 동일하거나 유사한 기능을 갖는 각각의 도면들에 도시된 엘리먼트들은 동일한 참조 부호들과 연관될 것이다.
다음은 위너 필터링[12] 및 CELP 코딩을 기반으로 한 공동 확장 및 코딩을 위한 방법을 설명할 것이다. 이 융합의 이점들은 1) 처리 체인에서의 위너 필터링의 포함이 CELP 코덱의 낮은 알고리즘 지연을 증가시키지 않으며, 2) 공동 최적화는 양자화 및 배경 잡음으로 인한 왜곡을 동시에 최소화한다는 것이다. 게다가, 공동 방식의 계산상 복잡도는 캐스케이드식 접근 방식의 계산상 복잡도보다 더 낮다. 구현은 새로운 방식으로 CELP 코덱의 필터들에 위너 필터링을 통합할 수 있게 하는 CELP 스타일 코덱들[13, 14, 15]의 잔차 윈도우 처리에 대한 최근 연구에 의존한다. 이 접근 방식을 통해, 캐스케이드식 시스템과 비교하여 객관적 품질과 주관적 품질 모두가 향상되었음이 입증될 수 있다.
음성의 공동 확장 및 코딩을 위해 제안된 방법은 이로써 캐스케이드식 처리로 인한 오류들의 누적을 피하고 지각 출력 품질을 더욱 향상시킨다. 즉, 지각 도메인에서의 최적 위너 필터링에 의해 간섭 및 양자화 왜곡의 공동 최소화가 실현되므로, 제안된 방법은 캐스케이드식 처리로 인한 오류들의 누적을 피한다.
도 1은 인코더(4) 및 디코더(6)를 포함하는 시스템(2)의 개략적인 블록도를 보여준다. 인코더(4)는 선형 예측 코딩을 사용하여 감소된 배경 잡음을 갖는 오디오 신호(8')를 인코딩하도록 구성된다. 따라서 인코더(4)는 오디오 신호(8')의 배경 잡음(12)의 표현을 추정하도록 구성된 배경 잡음 추정기(10)를 포함할 수 있다. 인코더는 오디오 신호(8)의 표현으로부터 오디오 신호(8')의 추정된 배경 잡음(12)의 표현을 감산함으로써, 배경 잡음 감소된 오디오 신호(16)의 표현을 생성하도록 구성된 배경 잡음 감소기(14)를 더 포함할 수 있다. 따라서 배경 잡음 감소기(14)는 배경 잡음 추정기(10)로부터 배경 잡음(12)의 표현을 수신할 수 있다. 배경 잡음 감소기의 추가 입력은 오디오 신호(8') 또는 오디오 신호(8)의 표현일 수 있다. 선택적으로, 배경 잡음 감소기는 예를 들어, 오디오 신호(8')의 자기 상관(8)과 같은 오디오 신호(8)의 표현을 내부적으로 생성하도록 구성된 생성기를 포함할 수 있다.
더욱이, 인코더(4)는 오디오 신호(8)의 표현에 선형 예측 분석이 이루어지게 하여 제1 세트의 선형 예측 필터(LPC) 계수들(20a)을 획득하고 배경 잡음 감소된 오디오 신호(16)의 표현에 선형 예측 분석이 이루어지게 하여 제2 세트의 선형 예측 필터 계수들(20b)을 획득하도록 구성된 예측기(18)를 포함할 수 있다. 배경 잡음 감소기(14)와 유사하게, 예측기(18)는 오디오 신호(8')로부터 오디오 신호(8)의 표현을 내부적으로 생성하기 위한 생성기를 포함할 수 있다. 그러나 공통 또는 중앙 생성기(17)를 사용하여 오디오 신호(8')의 표현(8)을 한 번 계산하고, 오디오 신호(8')의 자기 상관과 같은 오디오 신호의 표현을 배경 잡음 감소기(14) 및 예측기(18)에 제공하는 것이 유리할 수 있다. 따라서 예측기는 오디오 신호(8)의 표현 및 배경 잡음 감소된 오디오 신호(16)의 표현, 예를 들어 오디오 신호의 자기 상관 및 배경 잡음 감소된 오디오 신호의 자기 상관을 수신하고, 인바운드 신호들에 기초하여 제1 세트의 LPC 계수들 및 제 2 세트의 LPC 계수들을 각각 결정할 수 있다.
즉, 제1 세트의 LPC 계수들은 오디오 신호(8)의 표현으로부터 결정될 수 있고, 제2 세트의 LPC 계수들은 배경 잡음 감소된 오디오 신호(16)의 표현으로부터 결정될 수 있다. 예측기는 레빈슨-더빈(Levinson-Durbin) 알고리즘을 수행하여 각각의 자기 상관으로부터 제1 및 제2 세트의 LPC 계수들을 계산할 수 있다.
더욱이, 인코더는 획득된 제1 세트의 LPC 계수들(20a) 및 획득된 제2 세트의 LPC 계수들(20b)에 의해 제어되는 시간 도메인 필터들(24a, 24b)의 캐스케이드(24)로 구성된 분석 필터(22)를 포함한다. 분석 필터는 시간 도메인 필터들의 캐스케이드를 오디오 신호(8')에 적용하여 잔차 신호(26)를 결정할 수 있으며, 여기서 제1 시간 도메인 필터(24a)의 필터 계수들은 제1 세트의 LPC 계수들이고 제2 시간 도메인 필터(24b)의 필터 계수들은 제2 세트 LPC 계수들이다. 잔차 신호는 제1 및/또는 제2 세트의 LPC 계수들을 갖는 선형 필터로 표현되지 않을 수도 있는 오디오 신호(8')의 신호 컴포넌트들을 포함할 수 있다.
실시예들에 따르면, 잔차 신호는 송신 전에 잔차 신호 및/또는 제2 세트의 LPC 계수들(24b)을 양자화 및/또는 인코딩하도록 구성된 양자화기(28)에 제공될 수 있다. 양자화기는 예를 들어, 변환 코딩 여기(TCX: transform coded excitation), 코드 여기 선형 예측(CELP) 또는 예를 들어, 엔트로피 코딩과 같은 무손실 인코딩을 수행할 수 있다.
추가 실시예에 따르면, 잔차 신호의 인코딩은 양자화기(28)에서의 인코딩에 대한 대안으로서 송신기(30)에서 수행될 수 있다. 따라서 송신기는 예를 들어, 변환 코딩 여기(TCX), 코드 여기 선형 예측(CELP), 또는 예를 들어, 엔트로피 코딩과 같은 무손실 인코딩을 수행하여 잔차 신호를 인코딩한다. 더욱이, 송신기는 제2 세트의 LPC 계수들을 송신하도록 구성될 수 있다. 선택적인 수신기는 디코더(6)이다. 따라서 송신기(30)는 잔차 신호(26) 또는 양자화된 잔차 신호(26')를 수신할 수 있다. 일 실시예에 따르면, 송신기는 적어도 양자화된 잔차 신호가 양자화기에서 이미 인코딩되지 않았다면, 잔차 신호 또는 양자화된 잔차 신호를 인코딩할 수 있다. 잔차 신호 또는 대안으로 양자화된 잔차 신호의 선택적인 인코딩 이후, 송신기에 제공된 각각의 신호는 인코딩된 잔차 신호(32)로서 또는 인코딩되고 양자화된 잔차 신호(32')로서 송신된다. 더욱이, 송신기는 제2 세트의 LPC 계수들(20b')을 수신할 수 있고, 선택적으로는 이들을, 예를 들어 잔차 신호를 인코딩하는데 사용된 것과 동일한 인코딩 방법으로 인코딩할 수 있으며, 제1 세트의 LPC 계수들을 송신하지 않고, 인코딩된 제2 세트의 LPC 계수들(20b')을 예를 들어, 디코더(6)에 추가로 송신할 수 있다. 즉, 제1 세트의 LPC 계수들(20a)은 송신될 필요가 없다.
디코더(6)는 인코딩된 잔차 신호(32) 또는 대안으로 인코딩되어 양자화된 잔차 신호(32')를 그리고 잔차 신호들(32 또는 32') 중 하나에 추가하여 인코딩된 제2 세트의 LPC 계수들(20b')을 추가로 수신할 수 있다. 디코더는 단일 수신 신호들을 디코딩하여 디코딩된 잔차 신호(26)를 합성 필터에 제공할 수 있다. 합성 필터는 필터 계수들로서 제2 세트의 LPC 계수들을 갖는 선형 예측 유한 임펄스 응답(FIR: finite impulse response) 필터의 역이 될 수 있다. 즉, 제2 세트의 LPC 계수들을 갖는 필터는 반전되어 디코더(6)의 합성 필터를 형성한다. 합성 필터의 출력 및 이에 따라 디코더의 출력은 디코딩된 오디오 신호(8")이다.
실시예들에 따르면, 배경 잡음 추정기는 오디오 신호의 배경 잡음의 표현으로서 오디오 신호의 배경 잡음의 자기 상관(12)을 추정할 수 있다. 더욱이, 배경 잡음 감소기는 오디오 신호(8)의 자기 상관으로부터 배경 잡음(12)의 자기 상관을 감산함으로써 배경 잡음 감소된 오디오 신호(16)의 표현을 생성할 수 있으며, 여기서 오디오 신호의 추정된 자기 상관(8)은 오디오 신호의 표현이고, 배경 잡음 감소된 오디오 신호(16)의 표현은 배경 잡음 감소된 오디오 신호의 자기 상관이다.
도 2와 도 3은 둘 다 동일한 실시예에 관한 것이지만, 서로 다른 표기법을 사용한다. 따라서 도 2는 캐스케이드식 및 공동 확장/코딩 접근 방식들의 예시를 보여주는데, 여기서 W N W C 는 각각 잡음이 있는 신호 및 클린 신호의 백색화를 나타내고,
Figure pct00001
Figure pct00002
은 이들의 대응하는 역들을 나타낸다. 그러나 도 3은 캐스케이드식 및 공동 확장/코딩 접근 방식들의 예시를 보여주는데, 여기서 A y A s 는 각각 잡음이 있는 신호 및 클린 신호의 백색화 필터들을 나타내고, H y H s 는 재구성(또는 합성) 필터들인 이들의 대응하는 역들이다.
도 2a와 도 3a는 모두 이와 같이 캐스케이드식 확장 및 인코딩을 수행하는 신호 처리 체인의 확장 부분 및 코딩 부분을 보여준다. 확장 부분(34)은 주파수 도메인에서 동작할 수 있으며, 블록들(36a, 36b)은 예를 들어, MDCT를 사용하여 시간 주파수 변환을 그리고 예를 들어 IMDCT 또는 임의의 다른 적절한 변환을 사용하여 주파수 시간 변환을 수행하여 시간 주파수 및 주파수 시간 변환을 수행할 수 있다. 필터들(38, 40)은 주파수 변환된 오디오 신호(42)의 배경 잡음 감소를 수행할 수 있다. 여기서 배경 잡음의 그러한 주파수 부분들은 오디오 신호(8')의 주파수 스펙트럼에 대한 이들의 영향을 감소시킴으로써 필터링될 수 있다. 따라서 주파수 시간 변환기(36b)는 주파수 도메인에서 시간 도메인으로의 역변환을 수행할 수 있다. 확장 부분(34)에서 배경 잡음 감소가 수행된 후에, 코딩 부분(35)은 배경 잡음이 감소된 오디오 신호의 인코딩을 수행할 수 있다. 따라서 분석 필터(22')는 적절한 LPC 계수들을 사용하여 잔차 신호(26”)를 계산한다. 잔차 신호는 양자화되어 합성 필터(42)에 제공될 수 있는데, 이는 도 2a 및 도 3a의 경우에는 분석 필터(22')의 역이 된다. 도 2a 및 도 3a의 경우에 합성 필터(42)는 분석 필터(22')의 역이기 때문에, 잔차 신호(26)를 결정하는 데 사용된 LPC 계수들이 디코더로 송신되어, 디코딩된 오디오 신호(8")를 결정한다.
도 2b 및 도 3b는 이전에 수행된 배경 잡음 감소 없이 코딩 스테이지(35)를 도시한다. 코딩 스테이지(35)는 도 2a 및 도 3a에 관하여 이미 설명되었으므로, 단지 설명을 반복하는 것을 피하기 위해 추가 설명은 생략된다.
도 2c 및 도 3c는 공동 확장 인코딩의 주요 개념과 관련된다. 분석 필터(22)는 필터들(A y H s )을 사용하는 시간 도메인 필터들의 캐스케이드를 포함하는 것으로 도시된다. 보다 정확하게, 시간 도메인 필터들의 캐스케이드는 획득된 제1 세트의 LPC 계수들(20a)을 사용하는 선형 예측 필터(
Figure pct00003
)를 2회 그리고 획득된 제2 세트의 LPC 계수들(20b)을 사용하는 추가 선형 예측 필터(
Figure pct00004
)의 역을 1회 포함한다. 이러한 필터들의 배열 또는 이 필터 구조는 위너 필터로 지칭될 수 있다. 그러나 하나의 예측 필터(
Figure pct00005
)가 분석 필터(
Figure pct00006
)로 상쇄된다는 점에 주의해야 한다. 즉, 이는 또한 (
Figure pct00007
로 표기된) 필터(
Figure pct00008
)에 2회, (
Figure pct00009
로 표기된) 필터(
Figure pct00010
)에 2회 그리고 필터(
Figure pct00011
)에 1회 적용될 수도 있다.
도 1과 관련하여 이미 설명된 바와 같이, 이들 필터들에 대한 LPC 계수들은 예를 들어, 자기 상관을 이용하여 결정되었다. 자기 상관은 시간 도메인에서 수행될 수 있기 때문에, 공동 확장 및 인코딩을 구현하기 위해 시간-주파수 변환이 수행될 필요가 없다. 더욱이, 이러한 접근 방식은 도 2a 및 도 3a와 관련하여 설명된 코딩 스테이지(35)와 비교할 때, 합성 필터링을 송신하는 양자화의 추가 처리 체인이 그대로 동일하기 때문에 유리하다. 그러나 배경 잡음 감소된 신호에 기반한 LPC 필터 계수들은 적절한 합성 필터링을 위해 디코더로 송신되어야 한다는 점이 주목되어야 한다. 그러나 추가 실시예에 따르면, LPC 계수들을 송신하는 대신에, 합성 필터(42)를 도출하기 위해 (필터 계수들(20b)의 역으로 표현되는) 필터(24b)의 이미 계산된 필터 계수들이 송신되어 LPC 계수들을 갖는 선형 필터의 추가 반전을 피할 수 있는데, 이 반전은 이미 인코더에서 수행되었기 때문이다. 즉, 필터 계수들(20b)을 송신하는 대신에, 이러한 필터 계수들의 역행렬이 송신될 수 있어, 반전을 2회 수행하는 것을 피할 수 있다. 더욱이, 인코더 측 필터(24b) 및 합성 필터(42)는 각각 인코더 및 디코더에 적용되는 동일한 필터일 수 있다는 점이 주목되어야 한다.
즉, 도 2와 관련하여, CELP 모델에 기반한 음성 코덱들은 입력 음성 신호(s n )의 상관이 계수들(
Figure pct00012
)을 갖는 선형 예측 필터에 의해 모델링될 수 있다고 가정하는 음성 생성 모델에 기반하며, 여기서 M은 모델 차수이다[16]. 선형 예측 필터에 의해 예측될 수 없는 음성 신호의 부분인 잔차(r n = a n * s n )는 다음에 벡터 양자화를 사용하여 양자화된다.
s k = [s k , s k -1, …, s k - M ]T를 입력 신호의 벡터라고 하고, 여기서 위첨자(T)는 전치를 나타낸다. 다음에 잔차는 다음과 같이 표현될 수 있다:
Figure pct00013
. (1)
음성 신호 벡터(s k )의 자기 상관 행렬(R ss )이 다음과 같이 주어지고:
Figure pct00014
, (2)
차수(M)의 예측 필터의 추정은 [20]으로서 주어질 수 있으며:
Figure pct00015
, (3)
여기서 u = [1, 0, 0, …, 0] T 이고 스칼라 예측 오차(
Figure pct00016
)는
Figure pct00017
이 되도록 선택된다. 선형 예측 필터(
Figure pct00018
)가 백색화 필터라는 것을 관찰하면, r k 는 상관되지 않은 백색 잡음이다. 더욱이, 원래의 신호(s n )는 예측기(
Figure pct00019
)에 의한 IIR 필터링을 통해 잔차(r n )로부터 재구성될 수 있다. 다음 단계는 지각 왜곡이 최소화되도록 벡터 양자화기를 사용하여 잔차(r k = [r kN , r kN -1, …, r kN - N +1]T)의 벡터들을
Figure pct00020
로 로 양자화하는 것이다. 출력 신호의 벡터를
Figure pct00021
= [s kN , s kN -1, …, s k - N +1]T로 그리고
Figure pct00022
를 이것의 양자화된 대응부로 하며, W는 출력에 지각 가중을 적용하는 컨볼루션 행렬이라 한다. 지각 최적화 문제는 다음에 아래와 같이 작성될 수 있으며:
Figure pct00023
, (4)
여기서 H는 예측기(
Figure pct00024
)의 임펄스 응답에 대응하는 컨볼루션 행렬이다.
CELP 타입 음성 코딩의 프로세스가 도 2b에 도시된다. 입력 신호는 먼저 필터(
Figure pct00025
)로 백색화되어 잔차 신호를 얻는다. 잔차의 벡터들은 다음에 블록(Q)에서 양자화된다. 마지막으로, 스펙트럼 포락선 구조는 다음에 IIR 필터링(
Figure pct00026
)에 의해 재구성되어 양자화된 출력 신호(
Figure pct00027
)를 얻는다. 재합성된 신호가 지각 도메인에서 평가되기 때문에, 이러한 접근 방식은 합성에 의한 분석 방법으로 알려져 있다.
위너 필터링
단일 채널 음성 확장에서, 원하는 클린 음성 신호(s n )와 원하지 않는 어떤 간섭(v n )의 부가적인 혼합인 신호(y n )가 다음과 같이 획득된다고 가정된다:
Figure pct00028
. (5)
확장 프로세스의 목표는 클린 음성 신호(s n )를 추정하는 것인데, 잡음이 있는 신호(y n )에 대해서만 액세스 가능하고 상관 행렬들의 추정치들은 다음과 같다:
Figure pct00029
(6)
여기서 y k = [y k , y k -1, …, y k - M ]T이다. 필터 행렬(H)을 사용하면, 클린 음성 신호(
Figure pct00030
)의 추정치는 다음과 같이 정의된다:
Figure pct00031
. (7)
위너 필터로 알려진 최소 평균 제곱 오차(MMSE: minimum mean square error) 의미에서의 최적 필터는 다음과 같이 쉽게 유도될 수 있다[12]:
Figure pct00032
. (8)
보통, 위너 필터링이 입력 신호의 중첩 윈도우들에 적용되고 중첩 가산 방법을 사용하여 재구성된다[21, 12]. 이 접근 방식은 도 2a의 확장 블록에 예시되어 있다. 그러나 이는 윈도우들 사이의 중첩 길이에 대응하는 알고리즘 지연의 증가로 이어진다. 이러한 지연을 피하기 위해, 위너 필터링을 선형 예측에 기반한 방법에 병합하는 것이 과제이다.
이러한 연결을 얻기 위해, 추정된 음성 신호(
Figure pct00033
)가 식(1)에 대입됨으로써,
Figure pct00034
(9)
여기서
Figure pct00035
는 스케일링 계수이고, 아래 식은 잡음이 있는 신호(y n )에 대한 최적 예측기이다:
Figure pct00036
(10)
즉,
Figure pct00037
로 잡음이 있는 신호를 필터링함으로써 추정된 클린 신호의 (스케일링된) 잔차가 얻어진다. 스케일링은 클린 신호와 잡음이 있는 신호의 예상 잔차 오류들, 각각
Figure pct00038
Figure pct00039
사이의 비, 즉
Figure pct00040
이다. 따라서 이러한 도출은 위너 필터링과 선형 예측이 밀접하게 관련된 방법들임을 보여주며, 다음 섹션에서는 이러한 연결을 사용하여 공동 확장 및 코딩 방법을 개발하는 데 사용될 것이다.
CELP 코덱으로의 위너 필터 통합
(섹션 3과 섹션 2에서 설명되는) 위너 필터링과 CELP 코덱들을 공동 알고리즘으로 병합하는 것이 과제이다. 이러한 알고리즘들을 병합함으로써, 위너 필터링의 일반적인 구현들에 필요한 중첩 가산 윈도우 처리의 지연이 회피될 수 있고 계산상의 복잡도가 감소된다.
그러면 공동 구조의 구현이 간단해진다. 식(9)에 의해 강화된 음성 신호의 잔차가 얻어질 수 있다고 보인다. 따라서 강화된 음성 신호는 클린 신호의 선형 예측 모델(
Figure pct00041
)로 잔차를 IIR로 필터링함으로써 재구성될 수 있다.
잔차의 양자화를 위해, 식(4)은 클린 신호(
Figure pct00042
)를 추정된 신호(
Figure pct00043
)로 대체함으로써 아래 식을 얻도록 수정될 수 있다:
Figure pct00044
. (11)
즉, 강화된 타깃 신호(
Figure pct00045
)를 갖는 목적 함수는 클린 입력 신호(
Figure pct00046
)에 액세스하는 경우와 그대로 동일하다.
결론적으로, 표준 CELP에 대한 유일한 수정은 클린 신호의 분석 필터(a)를 잡음이 있는 신호의 분석 필터(
Figure pct00047
)로 대체하는 것이다. CELP 알고리즘의 나머지 부분들은 변경되지 않고 그대로이다. 제안된 접근 방식은 도 2(c)에 예시된다.
제안된 방법은 잡음 감쇄가 요구될 때마다 그리고 클린 음성 신호(R ss )의 자기 상관의 추정치에 액세스할 때 최소한의 변화들로 임의의 CELP 코덱에 적용될 수 있음이 명백하다. 클린 음성 신호 자기 상관의 추정치가 이용 가능하지 않다면, 이는 R ss
Figure pct00048
R yy - R vv 에 의한 잡음 신호(R vv )의 자기 상관의 추정치 또는 다른 일반적인 추정치들을 사용하여 추정될 수 있다.
이 방법은 시간 도메인 필터들을 사용하여 클린 신호의 추정치가 얻어질 수 있는 한, 빔 형성을 이용하는 다채널 알고리즘들과 같은 시나리오들로 쉽게 확장될 수 있다.
제안된 방법의 계산상 복잡도의 이점은 다음과 같이 특성화될 수 있다. 종래의 접근 방식에서 식(8)에 의해 주어지는 행렬 필터(H)를 결정할 필요가 있다는 점에 주목한다. 필요한 행렬 반전은 복잡하다(
Figure pct00049
). 그러나 제안된 접근 방식에서는 잡음이 있는 신호에 대해 식(3)만이 풀릴 것이며, 이는
Figure pct00050
의 복잡도를 갖는 레빈슨-더빈 알고리즘(또는 이와 유사한 것)으로 구현될 수 있다.
코드 여기 선형 예측
즉, 도 3과 관련하여, CELP 패러다임에 기반한 음성 코덱들은 입력 음성 신호(sn)의 상관 및 이에 따라 스펙트럼 포락선이 계수들(
Figure pct00051
)을 갖는 선형 예측 필터에 의해 모델링될 수 있다고 가정하는 음성 생성 모델을 이용하며, 여기서 M은 기반이 되는 튜브 모델에 의해 결정되는 모델 차수이다[16]. (예측기(18)로도 또한 지칭되는) 선형 예측 필터에 의해 예측될 수 없는 음성 신호의 부분인 잔차(r n = a n * s n )는 다음에 벡터 양자화를 사용하여 양자화된다.
입력 신호(s)의 한 프레임에 대한 선형 예측 필터(a s )가 획득되어, 다음을 최소화하며:
Figure pct00052
, (12)
여기서 u = [1 0 0 … 0] T 이다. 해는 다음과 같다:
Figure pct00053
. (13)
다음과 같이 a s의 필터 계수들(
Figure pct00054
)로 구성된 컨볼루션 행렬(A s )의 정의에 따르면,
Figure pct00055
(14)
컨볼루션 행렬(A s )에 입력 음성 프레임을 곱함으로써 다음과 같이 잔차 신호가 얻어질 질 수 있다:
e s = A s · s (15)
여기서는 CELP 코덱들에서와 마찬가지로 입력 신호에서 제로-입력 응답을 감산하고 이를 재합성에 다시 도입함으로써 윈도우 처리가 수행된다[15].
식(15)에서의 곱셈은 입력 신호와 예측 필터의 컨볼루션과 동일하며, 따라서 FIR 필터링에 대응한다. 원래의 신호는 재구성 필터(H s )와의 곱셈에 의해 잔차로부터 다음과 같이 재구성될 수 있으며:
s = H s · e s . (16)
여기서 H s 는 다음과 같이 예측 필터의 임펄스 응답(
Figure pct00056
)으로 구성되어:
Figure pct00057
(17)
이 연산은 IIR 필터링에 대응한다.
잔차 벡터는 벡터 양자화를 적용하여 양자화된다. 따라서 양자화된 벡터(
Figure pct00058
)가 선택되어, 지각 거리를 놈-2(norm-2)의 의미에서 원하는 재구성된 클린 신호로 다음과 같이 최소화하며:
Figure pct00059
, (18)
여기서 e s 는 양자화되지 않은 잔차이고 W(z) = A(0.92z)는 AMR-WB 음성 코덱에서 사용된 것과 같은 지각 가중 필터이다[6].
CELP 코덱에서의 위너 필터링 적용
단일 채널 음성 확장의 적용을 위해, 획득된 마이크로폰 신호(y n )가 원하는 클린 음성 신호(s n )와 원하지 않는 어떤 간섭(v n )의 부가적인 혼합이라고 가정하면, y n = s n + v n 이 된다. Z 도메인에서는, 등가적으로 Y(z) = S(z) + V(z)가 된다.
위너 필터(B(z))를 적용함으로써, 필터링에 의해 잡음이 있는 관측(Y(z))으로부터 음성 신호(S(z))를 재구성하여, 추정된 음성 신호가
Figure pct00060
(z) := B(z)Y(z)
Figure pct00061
S(z)가 되는 것이 가능하다. 음성 신호 및 잡음 신호(s n v n )가 각각 상관되지 않는다는 가정하에, 위너 필터에 대한 최소 평균 제곱 해는 다음과 같다[12]:
Figure pct00062
, (19)
음성 코덱에서, 전력 스펙트럼의 추정치는 잡음이 있는 신호(y n )에서 선형 예측 모델의 임펄스 응답(|A y (z)|-2)의 형태로 이용 가능하다. 즉, |S(z)|2 + |V(z)|2
Figure pct00063
Figure pct00064
|A y (z)|-2이며, 여기서
Figure pct00065
는 스케일링 계수이다. 잡음이 있는 신호의 자기 상관 행렬(R yy )로부터 잡음이 있는 선형 예측기가 종래와 같이 계산될 수 있다.
더욱이, 클린 음성 신호의 전력 스펙트럼(|S(z)|2) 또는 등가적으로 클린 음성 신호의 자기 상관 행렬(R ss )이 추정될 수 있다. 확장 알고리즘들은 종종, 잡음 신호가 고정되어 있다고 가정하므로, R vv 로서의 잡음 신호의 자기 상관은 입력 신호의 비-음성 프레임으로부터 추정될 수 있다. 다음에 클린 음성 신호(R ss )의 자기 상관 행렬이
Figure pct00066
ss = R yy - R vv 로서 추정될 수 있다. 여기서는
Figure pct00067
ss 가 반드시 양의 값을 유지하게 하도록 일반적인 예방 조치들을 취하는 것이 유리하다.
클린 음성에 대해 추정된 자기 상관 행렬(
Figure pct00068
ss )을 사용하여, Z 도메인에서의 임펄스 응답이
Figure pct00069
인 대응하는 선형 예측기가 결정될 수 있다. 따라서 |S(z)|2
Figure pct00070
|
Figure pct00071
s (z)|-2이고 식(19)는 다음과 같이 작성될 수 있다:
Figure pct00072
. (20)
즉, FIR 모드와 IIR 모드에서 각각, 잡음이 있는 신호와 클린 신호의 예측기들로 두 번 필터링함으로써, 클린 신호의 위너 추정치가 획득될 수 있다.
예측기들(
Figure pct00073
Figure pct00074
)에 의한 FIR 필터링에 대응하는 컨볼루션 행렬들은 각각 A s A y 로 표기될 수 있다. 유사하게, H s H y 를 예측 필터링(IIR)에 대응하는 각각의 컨볼루션 행렬들이라 한다. 이러한 행렬들을 사용하여, 종래의 CELP 코딩은 도 3b에서와 같은 흐름도로 예시될 수 있다. 여기서는 입력 신호(s n )를 A s 로 필터링하여 잔차를 얻고, 이를 양자화하고, H s 로 필터링함으로써 양자화된 신호를 재구성하는 것이 가능하다.
확장을 코딩과 결합하는 종래의 접근 방식이 도 3a에 예시되는데, 여기서는 코딩 전에 전처리 블록으로서 위너 필터링이 적용된다.
마지막으로, 제안된 접근 방식에서는 위너 필터링이 CELP 타입 음성 코덱들과 결합된다. 도 3a의 캐스케이드식 접근 방식과 도 3b에 예시된 공동 접근 방식을 비교하면, 추가적인 중첩 가산 윈도우 처리(OLA: overlap add windowing)인 윈도우 처리 방식이 생략될 수 있다는 것이 명백하다. 더욱이, 인코더에서의 입력 필터(A s )는 H s 로 상쇄된다. 따라서 도 3c에 도시된 바와 같이, 열화된 입력 신호(y)를 필터 조합(
Figure pct00075
)으로 필터링함으로써 추정된 클린 잔차 신호(
Figure pct00076
)가 뒤따른다. 따라서 오류 최소화는 다음과 같다:
Figure pct00077
. (21)
따라서 이러한 접근 방식은 클린 추정치와 양자화된 신호 사이의 거리를 최소화함으로써, 지각 도메인에서의 간섭 및 양자화 잡음의 공동 최소화가 실현 가능하다.
공동 음성 코딩 및 확장 접근 방식의 성능은 객관적 및 주관적 측정 모두를 사용하여 평가되었다. 새로운 방법의 성능을 분리하기 위해, 단순화된 CELP 코덱이 사용되는데, 여기서는 잔차 신호만 양자화되었지만 이득 계수들, 선형 예측 코딩(LPC: linear predictive coding) 및 장기 예측(LTP: long term prediction)의 지연 및 이득은 양자화되지 않았다. 잔차는 쌍 단위(pair-wise) 반복 방법을 사용하여 양자화되었으며, 여기서는 2개의 펄스들이 [17]에서 설명된 것처럼 모든 각각의 위치에서 이들을 시험함으로써 연속적으로 추가된다. 더욱이, 추정 알고리즘들의 어떠한 영향도 피하기 위해, 클린 음성 신호(R ss )의 상관 행렬은 시뮬레이션된 모든 시나리오들에서 알려진 것으로 가정되었다. 음성 및 잡음 신호가 상관되지 않는다는 가정 하에, R ss = R yy - R vv 를 유지한다. 임의의 실제 애플리케이션에서, 잡음 상관 행렬(R vv ) 또는 대안으로 클린 음성 상관 행렬(R ss )은 획득된 마이크로폰 신호로부터 추정되어야 한다. 일반적인 접근 방식은 간섭이 고정되어 있다고 가정하여, 음성 브레이크들에서 잡음 상관 행렬을 추정하는 것이다.
평가된 시나리오는 원하는 클린 음성 신호와 부가 간섭의 혼합으로 구성된다. 두 가지 타입들의 간섭들: Civilisation Soundscapes Library[18]로부터의 자동차 소음의 녹음의 세그먼트 및 고정된 백색 잡음이 고려되었다. 잔차의 벡터 양자화는 AMR-WB 코덱[6]의 경우 각각 7.2 kbit/s 및 13.2 kbit/s의 전체 비트레이트에 대응하는 2.8 kbit/s 및 7.2 kbit/s의 비트레이트로 수행되었다. 12.8 kHz의 샘플링 레이트가 모든 시뮬레이션에 사용되었다.
강화 및 코딩된 신호들은 객관적 및 주관적 측정들 모두를 사용하여 평가되었으며, 따라서 식(23)과 식(22)에 정의된 바와 같이, 청취 테스트가 수행되었고 지각 크기 신호대 잡음비(SNR)가 계산되었다. 합성 필터와 재구성 필터 모두가 예측 필터들의 설계에 따라 최소 위상 필터들의 제약에 구속되기 때문에, 공동 확장 프로세스가 필터들의 위상에 어떠한 영향도 갖지 않을 때 이러한 지각 크기 SNR이 사용되었다.
연산자(
Figure pct00078
)로서의 푸리에 변환의 정의로, 지각 도메인에서 재구성된 클린 기준 및 추정된 클린 신호의 절대 스펙트럼 값들은 다음과 같다:
Figure pct00079
. (22)
수정된 지각 신호대 잡음비(PSNR: perceptual signal to noise ratio)의 정의는 다음과 같다:
Figure pct00080
. (23)
주관적 평가를 위해, 위에서 설명한 바와 같이, 백색 잡음 및 자동차 소음에 의해 손상된 음성 항목들이 USAC[8]의 표준화에 사용된 테스트 세트로부터 사용되었다. 방음 환경에서 STAX 정전기 헤드폰들을 사용하여 14명의 참가자들과 함께 MUSHRA: Multiple Stimuli with Hidden Reference and Anchor)[19] 청취 테스트가 실시되었다. 청취 테스트의 결과들은 도 6에 그리고 차등 MUSHRA 스코어들은 도 7에 예시되어, 평균 및 95% 신뢰 구간들을 보여준다.
도 6의 절대 MUSHRA 테스트 결과들은 숨겨진 기준이 항상 정확히 100 포인트들에 할당되었음을 보여준다. 원래의 잡음이 있는 혼합물은 모든 각각의 항목에 대해 가장 낮은 평균 스코어를 얻었으며, 이는 모든 확장 방법들이 지각 품질을 향상시켰음을 나타낸다. 더 낮은 비트레이트에 대한 평균 스코어들은 캐스케이드식 접근 방식과 비교하여 모든 항목들에 대한 평균에 대해 6.4 MUSHRA 포인트들의 통계적으로 의미 있는 향상을 보여준다. 더 높은 비트레이트의 경우, 모든 항목들에 대한 평균은 향상을 보여주지만, 이는 통계적으로 유의미하진 않다.
공동 방법과 사전 강화 방법의 보다 상세한 비교를 얻기 위해, 차등 MUSHRA 스코어들이 도 7에서 제시되며, 여기서는 사전 강화 방법과 공동 방법 간의 차이가 각각의 청취자와 항목에 대해 계산된다. 차등 결과들은 더 낮은 비트레이트에 대해 통계적으로 의미 있는 향상을 보여줌으로써 절대 MUSHRA 스코어들을 확인하는 반면, 더 높은 비트레이트들에 대한 향상은 통계적으로 유의미하지 않다.
즉, 전반적인 간섭 및 양자화 잡음의 최소화를 가능하게 하는 공동 음성 확장 및 코딩을 위한 방법이 도시된다. 대조적으로, 종래의 접근 방식들은 캐스케이드식 처리 단계들에서 확장 및 코딩을 적용한다. 반복된 윈도우 처리 및 필터링 연산들이 생략될 수 있기 때문에, 두 처리 단계들을 결합하는 것은 또한 계산상의 복잡도 측면에서 매력적이다.
CELP 타입 음성 코덱들은 매우 낮은 지연을 제공하고 그에 따라 향후 처리 윈도우들에 대한 처리 윈도우들의 중첩을 피하도록 설계된다. 대조적으로, 주파수 도메인에 적용되는 종래의 확장 방법들은 중첩 가중 윈도우 처리에 의존하는데, 이는 중첩 길이에 대응하는 추가 지연을 유도한다. 공동 접근 방식은 중첩 가산 윈도우 처리를 필요로 하는 것이 아니라, 음성 코덱들[15]에 적용된 윈도우 처리 방식을 사용함으로써, 알고리즘 지연의 증가를 피한다.
제안된 방법의 알려진 문제점은 신호 위상이 온전하게 유지되는 종래의 스펙트럼 위너 필터링과 달리, 제안된 방법은 위상을 수정하는 시간 도메인 필터들을 적용한다는 점이다. 이러한 위상 수정들은 적절한 전역 통과 필터들의 적용에 의해 쉽게 처리될 수 있다. 그러나 위상 수정들에 기인한 어떠한 지각 열화도 의식하지 못했기 때문에, 이러한 전역 통과 필터들은 계산상의 복잡도를 낮게 유지하기 위해 생략되었다. 그러나 객관적 평가에서는, 방법들의 공정한 비교를 가능하게 하도록 지각 크기 SNR이 측정되었다는 점에 주목한다. 이러한 객관적 측정은 제안된 방법이 캐스케이드식 처리보다 평균 3dB 더 우수함을 보여준다.
제안된 방법의 성능 이점은 6.4 포인트들의 평균 향상을 보여주는 MUSHRA 청취 테스트의 결과들로 추가 확인되었다. 이러한 결과들은 CELP 음성 코덱들의 낮은 알고리즘 지연을 유지하면서 품질 및 계산상 복잡도 측면에서 전체 시스템에 대해 공동 확장 및 코딩의 적용이 유리하다는 것을 입증한다.
도 8은 선형 예측 코딩을 사용하여 감소된 배경 잡음을 갖는 오디오 신호를 인코딩하기 위한 방법(800)의 개략적인 블록도를 도시한다. 이 방법(800)은, 오디오 신호의 배경 잡음의 표현을 추정하는 단계(S802), 오디오 신호의 표현으로부터 오디오 신호의 추정된 배경 잡음의 표현을 감산함으로써, 배경 잡음 감소된 오디오 신호의 표현을 생성하는 단계(S804), 오디오 신호의 표현에 선형 예측 분석이 이루어지게 하여 제1 세트의 선형 예측 필터 계수들을 획득하고 배경 잡음 감소된 오디오 신호의 표현에 선형 예측 분석이 이루어지게 하여 제2 세트의 선형 예측 필터 계수들을 획득하는 단계(S806), 및 오디오 신호로부터 잔차 신호를 얻도록, 획득된 제1 세트의 LPC 계수들 및 획득된 제2 세트의 LPC 계수들에 의해 시간 도메인 필터들의 캐스케이드를 제어하는 단계(S808)를 포함한다.
본 명세서에서, 라인들 상의 신호들은 때로는 라인들에 대한 참조 번호들로 명명되거나 때로는 그 라인들에 기인한 참조 번호들 자체로 표시된다고 이해되어야 한다. 따라서 표기법은 특정 신호를 갖는 라인이 신호 자체를 나타내고 있는 것과 같다. 라인은 하드와이어링된 구현의 물리적 라인일 수 있다. 그러나 컴퓨터화된 구현에서, 물리적 라인은 존재하는 것이 아니라, 라인으로 표현된 신호가 하나의 계산 모듈로부터 다른 계산 모듈로 송신된다.
본 발명은 블록들이 실제 또는 논리적 하드웨어 컴포넌트들을 표현하는 블록도들과 관련하여 설명되었지만, 본 발명은 또한 컴퓨터 구현 방법에 의해 구현될 수 있다. 후자의 경우, 블록들은 대응하는 방법 단계들을 나타내는데, 여기서 이러한 단계들은 대응하는 논리적 또는 물리적 하드웨어 블록들에 의해 수행되는 기능들을 의미한다.
일부 양상들은 장치와 관련하여 설명되었지만, 이러한 양상들은 또한 대응하는 방법의 설명을 나타내며, 여기서 블록 또는 디바이스는 방법 단계 또는 방법 단계의 특징에 대응한다는 점이 명백하다. 비슷하게, 방법 단계와 관련하여 설명한 양상들은 또한 대응하는 장치의 대응하는 블록 또는 항목 또는 특징의 설명을 나타낸다. 방법 단계들의 일부 또는 전부가 예를 들어, 마이크로프로세서, 프로그래밍 가능한 컴퓨터 또는 전자 회로와 같은 하드웨어 장치에 의해(또는 사용하여) 실행될 수도 있다. 일부 실시예들에서, 가장 중요한 방법 단계들 중 어떤 하나 또는 그보다 많은 단계들이 이러한 장치에 의해 실행될 수도 있다.
본 발명의 송신된 또는 인코딩된 신호는 디지털 저장 매체 상에 저장될 수 있고 또는 송신 매체, 예컨대 무선 송신 매체 또는 유선 송신 매체, 예컨대 인터넷을 통해 송신될 수 있다.
특정 구현 요건들에 따라, 본 발명의 실시예들은 하드웨어로 또는 소프트웨어로 구현될 수 있다. 구현은 각각의 방법이 수행되도록 프로그래밍 가능 컴퓨터 시스템과 협력하는(또는 협력할 수 있는) 전자적으로 판독 가능 제어 신호들이 저장된 디지털 저장 매체, 예를 들어 플로피 디스크, DVD, 블루레이, CD, ROM, PROM 및 EPROM, EEPROM 또는 플래시 메모리를 사용하여 수행될 수 있다. 따라서 디지털 저장 매체는 컴퓨터 판독 가능할 수도 있다.
본 발명에 따른 일부 실시예들은 본 명세서에서 설명한 방법들 중 하나가 수행되도록, 프로그래밍 가능 컴퓨터 시스템과 협력할 수 있는 전자적으로 판독 가능 제어 신호들을 갖는 데이터 반송파를 포함한다.
일반적으로, 본 발명의 실시예들은 컴퓨터 프로그램 제품이 컴퓨터 상에서 실행될 때, 방법들 중 하나를 수행하기 위해 작동하는 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로서 구현될 수 있다. 프로그램 코드는 예를 들어, 기계 판독 가능 반송파 상에 저장될 수 있다.
다른 실시예들은 기계 판독 가능 반송파 상에 저장된, 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함한다.
즉, 본 발명의 방법의 한 실시예는 이에 따라, 컴퓨터 상에서 컴퓨터 프로그램이 실행될 때 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.
따라서 본 발명의 방법의 추가 실시예는 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함하여 그 위에 기록된 데이터 반송파(또는 디지털 저장 매체와 같은 비-일시적 저장 매체, 또는 컴퓨터 판독 가능 매체)이다. 데이터 반송파, 디지털 저장 매체 또는 레코딩된 매체는 통상적으로 유형적이고 그리고/또는 비-일시적이다.
따라서 본 발명의 방법의 추가 실시예는 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 나타내는 신호들의 데이터 스트림 또는 시퀀스이다. 신호들의 데이터 스트림 또는 시퀀스는 예를 들어, 데이터 통신 접속을 통해, 예를 들어 인터넷을 통해 전송되도록 구성될 수 있다.
추가 실시예는 처리 수단, 예를 들어 본 명세서에서 설명한 방법들 중 하나를 수행하도록 구성 또는 적응된 컴퓨터 또는 프로그래밍 가능 로직 디바이스를 포함한다.
추가 실시예는 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램이 설치된 컴퓨터를 포함한다.
참조들
[1] M. Jeub and P. Vary, "Enhancement of reverberant speech using the CELP postfilter," in Proc. ICASSP, April 2009, pp. 3993-3996.
[2] M. Jeub, C. Herglotz, C. Nelke, C. Beaugeant, and P. Vary, "Noise reduction for dual-microphone mobile phones exploiting power level differences," in Proc. ICASSP, March 2012, pp. 1693-1696.
[3] R. Martin, I. Wittke, and P. Jax, "Optimized estimation of spectral parameters for the coding of noisy speech," in Proc. ICASSP, vol. 3, 2000, pp. 1479-1482 vol.3.
[4] H. Taddei, C. Beaugeant, and M. de Meuleneire, "Noise reduction on speech codec parameters," in Proc. ICASSP, vol. 1, May 2004, pp. I-497-500 vol.1.
[5] 3GPP, "Mandatory speech CODEC speech processing functions; AMR speech Codec; General description," 3rd Generation Partnership Project (3GPP), TS 26.071, 12 2009. [Online]. Available: http://www.3gpp.org/ftp/Specs/html-info/26071.htm
[6] ――, "Speech codec speech processing functions; Adaptive Multi-Rate - Wideband (AMR-WB) speech codec; Transcoding functions," 3rd Generation Partnership Project (3GPP), TS 26.190, 12 2009. [Online]. Available: http://www.3gpp.org/ftp/Specs/html-info/26190.htm
[7] B. Bessette, R. Salami, R. Lefebvre, M. Jelinek, J. Rotola-Pukkila, J. Vainio, H. Mikkola, and K. Jarvinen, "The adaptive multirate wideband speech codec (AMR-WB)," IEEE Transactions on Speech and Audio Processing, vol. 10, no. 8, pp. 620-636, Nov 2002.
[8] ISO/IEC 23003-3:2012, "MPEG-D (MPEG audio technologies), Part 3: Unified speech and audio coding," 2012.
[9] M. Neuendorf, P. Gournay, M. Multrus, J. Lecomte, B. Bessette, R. Geiger, S. Bayer, G. Fuchs, J. Hilpert, N. Rettelbach, R. Salami, G. Schuller, R. Lefebvre, and B. Grill, "Unified speech and audio coding scheme for high quality at low bitrates," in Acoustics, Speech and Signal Processing, 2009. ICASSP 2009. IEEE International Conference on, April 2009, pp. 1-4.
[10] 3GPP, "TS 26.445, EVS Codec Detailed Algorithmic Description; 3GPP Technical Specification (Release 12)," 3rd Generation Partnership Project (3GPP), TS 26.445, 12 2014. [Online]. Available: http://www.3gpp.org/ftp/Specs/html-info/26445.htm
[11] M. Dietz, M. Multrus, V. Eksler, V. Malenovsky, E. Norvell, H. Pobloth, L. Miao, Z.Wang, L. Laaksonen, A. Vasilache, Y. Kamamoto, K. Kikuiri, S. Ragot, J. Faure, H. Ehara, V. Rajendran, V. Atti, H. Sung, E. Oh, H. Yuan, and C. Zhu, "Overview of the EVS codec architecture," in Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on, April 2015, pp. 5698-5702.
[12] J. Benesty, M. Sondhi, and Y. Huang, Springer Handbook of Speech Processing. Springer, 2008.
[13] T. B
Figure pct00081
ckstr
Figure pct00082
m, "Computationally efficient objective function for algebraic codebook optimization in ACELP," in Proc. Interspeech, Aug. 2013.
[14] ――, "Comparison of windowing in speech and audio coding," in Proc. WASPAA, New Paltz, USA, Oct. 2013.
[15] J. Fischer and T. B
Figure pct00083
ckstr
Figure pct00084
m, "Comparison of windowing schemes for speech coding," in Proc EUSIPCO, 2015.
[16] M. Schroeder and B. Atal, "Code-excited linear prediction (CELP): High-quality speech at very low bit rates," in Proc. ICASSP. IEEE, 1985, pp. 937-940.
[17] T. B
Figure pct00085
ckstr
Figure pct00086
m and C. R. Helmrich, "Decorrelated innovative codebooks for ACELP using factorization of autocorrelation matrix," in Proc. Interspeech, 2014, pp. 2794-2798.
[18] soundeffects.ch, "Civilisation soundscapes library," accessed: 23.09.2015. [Online]. Available: https://www.soundeffects.ch/de/geraeusch-archive/soundeffects.ch- produkte/civilisation-soundscapes-d.php
[19] Method for the subjective assessment of intermediate quality levels of coding systems, ITU-R Recommendation BS.1534, 2003. [Online]. Available: http://www.itu.int/rec/R-REC-BS.1534/en.
[20] P. P. Vaidyanathan, \The theory of linear prediction," in Synthesis Lectures on Signal Processing, vol. 2, pp. 1{184. Morgan & Claypool publishers, 2007.
[21] J. Allen, \Short-term spectral analysis, and modification by discrete Fourier transform," IEEE Trans. Acoust., Speech, Signal Process., vol. 25, pp. 235{238, 1977.

Claims (13)

  1. 선형 예측 코딩을 사용하여 감소된 배경 잡음을 갖는 오디오 신호(8')를 인코딩하기 위한 인코더(4)로서,
    상기 오디오 신호(8')의 배경 잡음(12)의 표현을 추정하도록 구성된 배경 잡음 추정기(10);
    상기 오디오 신호(8)의 표현으로부터 상기 오디오 신호(8')의 추정된 배경 잡음(12)의 표현을 감산함으로써, 배경 잡음 감소된 오디오 신호(16)의 표현을 생성하도록 구성된 배경 잡음 감소기(14);
    상기 오디오 신호(8)의 표현에 선형 예측 분석이 이루어지게 하여 제1 세트의 선형 예측 필터(LPC) 계수들(20a)을 획득하고 상기 배경 잡음 감소된 오디오 신호(16)의 표현에 선형 예측 분석이 이루어지게 하여 제2 세트의 선형 예측 필터(LPC) 계수들(20b)을 획득하도록 구성된 예측기(18); 및
    상기 오디오 신호(8')로부터 잔차 신호(26)를 얻도록, 획득된 제1 세트의 LPC 계수들(20a) 및 획득된 제2 세트의 LPC 계수들(20b)에 의해 제어되는 시간 도메인 필터들(24, 24a, 24b)의 캐스케이드로 구성된 분석 필터(22)를 포함하는,
    선형 예측 코딩을 사용하여 감소된 배경 잡음을 갖는 오디오 신호(8')를 인코딩하기 위한 인코더(4).
  2. 제1 항에 있어서,
    상기 시간 도메인 필터들(24)의 캐스케이드는 상기 획득된 제1 세트의 LPC 계수들(20a)을 사용하는 선형 예측 필터(24a)를 2회 그리고 상기 획득된 제2 세트의 LPC 계수들(20b)을 사용하는 추가 선형 예측 필터(24b)의 역을 1회 포함하는,
    선형 예측 코딩을 사용하여 감소된 배경 잡음을 갖는 오디오 신호(8')를 인코딩하기 위한 인코더(4).
  3. 제1 항 또는 제2 항에 있어서,
    상기 시간 도메인 필터들(24)의 캐스케이드는 위너(Wiener) 필터인,
    선형 예측 코딩을 사용하여 감소된 배경 잡음을 갖는 오디오 신호(8')를 인코딩하기 위한 인코더(4).
  4. 제1 항 내지 제3 항 중 어느 한 항에 있어서,
    상기 배경 잡음 추정기(10)는 상기 오디오 신호(8)의 배경 잡음(12)의 표현으로서 상기 배경 잡음의 자기 상관을 추정하도록 구성되고,
    상기 배경 잡음 감소기(14)는 상기 오디오 신호(8)의 자기 상관으로부터 상기 배경 잡음(12)의 자기 상관을 감산함으로써 상기 배경 잡음 감소된 오디오 신호(16)의 표현을 생성하도록 구성되며,
    상기 오디오 신호(8)의 자기 상관은 상기 오디오 신호의 표현이고,
    상기 배경 잡음 감소된 오디오 신호(16)의 표현은 배경 잡음 감소된 오디오 신호의 자기 상관인,
    선형 예측 코딩을 사용하여 감소된 배경 잡음을 갖는 오디오 신호(8')를 인코딩하기 위한 인코더(4).
  5. 제1 항 내지 제4 항 중 어느 한 항에 있어서,
    상기 표현은 자기 상관인,
    선형 예측 코딩을 사용하여 감소된 배경 잡음을 갖는 오디오 신호(8')를 인코딩하기 위한 인코더(4).
  6. 제1 항 내지 제5 항 중 어느 한 항에 있어서,
    상기 제2 세트의 LPC 계수들(20b)을 송신하도록 구성된 송신기(30)를 더 포함하는,
    선형 예측 코딩을 사용하여 감소된 배경 잡음을 갖는 오디오 신호(8')를 인코딩하기 위한 인코더(4).
  7. 제1 항 내지 제6 항 중 어느 한 항에 있어서,
    상기 잔차 신호(26)를 송신하도록 구성된 송신기를 더 포함하는,
    선형 예측 코딩을 사용하여 감소된 배경 잡음을 갖는 오디오 신호(8')를 인코딩하기 위한 인코더(4).
  8. 제1 항 내지 제7 항 중 어느 한 항에 있어서,
    송신 전에 상기 잔차 신호(26)를 양자화 및/또는 인코딩하도록 구성된 양자화기(28)를 더 포함하는,
    선형 예측 코딩을 사용하여 감소된 배경 잡음을 갖는 오디오 신호(8')를 인코딩하기 위한 인코더(4).
  9. 제1 항 내지 제8 항 중 어느 한 항에 있어서,
    송신 전에 상기 제2 세트의 LPC 계수들(20b)을 양자화 및/또는 인코딩하도록 구성된 양자화기(28)를 더 포함하는,
    선형 예측 코딩을 사용하여 감소된 배경 잡음을 갖는 오디오 신호(8')를 인코딩하기 위한 인코더(4).
  10. 제8 항 또는 제9 항에 있어서,
    상기 양자화기는 코드 여기 선형 예측(CELP: code-excited linear prediction), 엔트로피 코딩 또는 변환 코딩 여기(TCX: transform coded excitation)를 사용하도록 구성되는,
    선형 예측 코딩을 사용하여 감소된 배경 잡음을 갖는 오디오 신호(8')를 인코딩하기 위한 인코더(4).
  11. 시스템(2)으로서,
    제1 항 내지 제10 항 중 어느 한 항에 따른 인코더(4);
    인코딩된 오디오 신호를 디코딩하도록 구성된 디코더(6)를 포함하는,
    시스템(2).
  12. 선형 예측 코딩을 사용하여 감소된 배경 잡음을 갖는 오디오 신호를 인코딩하기 위한 방법(800)으로서,
    상기 오디오 신호의 배경 잡음의 표현을 추정하는 단계(S802);
    상기 오디오 신호의 표현으로부터 상기 오디오 신호의 추정된 배경 잡음의 표현을 감산함으로써, 배경 잡음 감소된 오디오 신호의 표현을 생성하는 단계(S804);
    상기 오디오 신호의 표현에 선형 예측 분석이 이루어지게 하여 제1 세트의 선형 예측 필터(LPC) 계수들을 획득하고 상기 배경 잡음 감소된 오디오 신호의 표현에 선형 예측 분석이 이루어지게 하여 제2 세트의 선형 예측 필터(LPC) 계수들을 획득하는 단계(S806); 및
    상기 오디오 신호로부터 잔차 신호를 얻도록, 획득된 제1 세트의 LPC 계수들 및 획득된 제2 세트의 LPC 계수들에 의해 시간 도메인 필터들의 캐스케이드를 제어하는 단계(S808)를 포함하는,
    선형 예측 코딩을 사용하여 감소된 배경 잡음을 갖는 오디오 신호를 인코딩하기 위한 방법(800).
  13. 제12 항에 따른 방법을 수행하기 위한 프로그램 코드를 갖는,
    컴퓨터 프로그램.
KR1020187011461A 2015-09-25 2016-09-23 선형 예측 코딩을 사용하여 감소된 배경 잡음을 갖는 오디오 신호를 인코딩하기 위한 인코더 및 방법 KR102152004B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP15186901.3 2015-09-25
EP15186901 2015-09-25
EP16175469.2 2016-06-21
EP16175469 2016-06-21
PCT/EP2016/072701 WO2017050972A1 (en) 2015-09-25 2016-09-23 Encoder and method for encoding an audio signal with reduced background noise using linear predictive coding

Publications (2)

Publication Number Publication Date
KR20180054823A true KR20180054823A (ko) 2018-05-24
KR102152004B1 KR102152004B1 (ko) 2020-10-27

Family

ID=56990444

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020187011461A KR102152004B1 (ko) 2015-09-25 2016-09-23 선형 예측 코딩을 사용하여 감소된 배경 잡음을 갖는 오디오 신호를 인코딩하기 위한 인코더 및 방법

Country Status (11)

Country Link
US (1) US10692510B2 (ko)
EP (1) EP3353783B1 (ko)
JP (1) JP6654237B2 (ko)
KR (1) KR102152004B1 (ko)
CN (1) CN108352166B (ko)
BR (1) BR112018005910B1 (ko)
CA (1) CA2998689C (ko)
ES (1) ES2769061T3 (ko)
MX (1) MX2018003529A (ko)
RU (1) RU2712125C2 (ko)
WO (1) WO2017050972A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210110622A (ko) * 2018-12-21 2021-09-08 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우 음질의 추정 및 제어를 이용한 소스 분리 장치 및 방법

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3324407A1 (en) * 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic
EP3324406A1 (en) 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a variable threshold
WO2018189414A1 (en) * 2017-04-10 2018-10-18 Nokia Technologies Oy Audio coding
DE202018006284U1 (de) 2018-03-29 2019-11-26 Leica Microsystems Cms Gmbh Vorrichtung, insbesondere für Mikroskope und Endoskope, unter Anwendung einer Grundlinienschätzung und halbquadratischen Minimierung für die Unschärfereduzierung von Bildern
US10741192B2 (en) * 2018-05-07 2020-08-11 Qualcomm Incorporated Split-domain speech signal enhancement
EP3906551B1 (en) * 2019-01-03 2023-01-25 Dolby International AB Method, apparatus and system for hybrid speech synthesis
US11195540B2 (en) * 2019-01-28 2021-12-07 Cirrus Logic, Inc. Methods and apparatus for an adaptive blocking matrix
CN110455530B (zh) * 2019-09-18 2021-08-31 福州大学 谱峭度结合卷积神经网络的风机齿轮箱复合故障诊断方法
CN111986686B (zh) * 2020-07-09 2023-01-03 厦门快商通科技股份有限公司 短时语音信噪比估算方法、装置、设备及存储介质
CN113409810B (zh) * 2021-08-19 2021-10-29 成都启英泰伦科技有限公司 一种联合去混响的回声消除方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6263307B1 (en) * 1995-04-19 2001-07-17 Texas Instruments Incorporated Adaptive weiner filtering using line spectral frequencies
EP1944761A1 (en) * 2007-01-15 2008-07-16 Siemens Networks GmbH & Co. KG Disturbance reduction in digital signal processing

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5173941A (en) * 1991-05-31 1992-12-22 Motorola, Inc. Reduced codebook search arrangement for CELP vocoders
US5307460A (en) * 1992-02-14 1994-04-26 Hughes Aircraft Company Method and apparatus for determining the excitation signal in VSELP coders
DE69428119T2 (de) * 1993-07-07 2002-03-21 Picturetel Corp Verringerung des hintergrundrauschens zur sprachverbesserung
US5590242A (en) * 1994-03-24 1996-12-31 Lucent Technologies Inc. Signal bias removal for robust telephone speech recognition
US6001131A (en) * 1995-02-24 1999-12-14 Nynex Science & Technology, Inc. Automatic target noise cancellation for speech enhancement
US5706395A (en) * 1995-04-19 1998-01-06 Texas Instruments Incorporated Adaptive weiner filtering using a dynamic suppression factor
CA2206652A1 (en) * 1996-06-04 1997-12-04 Claude Laflamme Baud-rate-independent asvd transmission built around g.729 speech-coding standard
US6757395B1 (en) * 2000-01-12 2004-06-29 Sonic Innovations, Inc. Noise reduction apparatus and method
JP2002175100A (ja) * 2000-12-08 2002-06-21 Matsushita Electric Ind Co Ltd 適応型雑音抑圧音声符号化装置
US6915264B2 (en) * 2001-02-22 2005-07-05 Lucent Technologies Inc. Cochlear filter bank structure for determining masked thresholds for use in perceptual audio coding
WO2002101728A1 (es) * 2001-06-11 2002-12-19 Lear Automotive (Eeds) Spain, S.L. Metodo y sistema para cancelacion de exos y ruidos en entornos con condiciones acusticas variables y altamente realimentados
JP4506039B2 (ja) * 2001-06-15 2010-07-21 ソニー株式会社 符号化装置及び方法、復号装置及び方法、並びに符号化プログラム及び復号プログラム
US7065486B1 (en) * 2002-04-11 2006-06-20 Mindspeed Technologies, Inc. Linear prediction based noise suppression
US7043423B2 (en) * 2002-07-16 2006-05-09 Dolby Laboratories Licensing Corporation Low bit-rate audio coding systems and methods that use expanding quantizers with arithmetic coding
CN1458646A (zh) * 2003-04-21 2003-11-26 北京阜国数字技术有限公司 一种滤波参数矢量量化和结合量化模型预测的音频编码方法
US7516067B2 (en) * 2003-08-25 2009-04-07 Microsoft Corporation Method and apparatus using harmonic-model-based front end for robust speech recognition
JP5154934B2 (ja) * 2004-09-17 2013-02-27 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 知覚的歪みを最小化する結合オーディオ符号化
EP1640971B1 (en) * 2004-09-23 2008-08-20 Harman Becker Automotive Systems GmbH Multi-channel adaptive speech signal processing with noise reduction
US8949120B1 (en) * 2006-05-25 2015-02-03 Audience, Inc. Adaptive noise cancelation
US8700387B2 (en) * 2006-09-14 2014-04-15 Nvidia Corporation Method and system for efficient transcoding of audio data
US8060363B2 (en) * 2007-02-13 2011-11-15 Nokia Corporation Audio signal encoding
KR101238239B1 (ko) * 2007-11-06 2013-03-04 노키아 코포레이션 인코더
EP2154911A1 (en) * 2008-08-13 2010-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. An apparatus for determining a spatial output multi-channel audio signal
GB2466671B (en) * 2009-01-06 2013-03-27 Skype Speech encoding
EP2458586A1 (en) * 2010-11-24 2012-05-30 Koninklijke Philips Electronics N.V. System and method for producing an audio signal
CN103534754B (zh) * 2011-02-14 2015-09-30 弗兰霍菲尔运输应用研究公司 在不活动阶段期间利用噪声合成的音频编解码器
US9208796B2 (en) * 2011-08-22 2015-12-08 Genband Us Llc Estimation of speech energy based on code excited linear prediction (CELP) parameters extracted from a partially-decoded CELP-encoded bit stream and applications of same
US9406307B2 (en) * 2012-08-19 2016-08-02 The Regents Of The University Of California Method and apparatus for polyphonic audio signal prediction in coding and networking systems
US9263054B2 (en) * 2013-02-21 2016-02-16 Qualcomm Incorporated Systems and methods for controlling an average encoding rate for speech signal encoding
US9520138B2 (en) * 2013-03-15 2016-12-13 Broadcom Corporation Adaptive modulation filtering for spectral feature enhancement
EP3011561B1 (en) * 2013-06-21 2017-05-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for improved signal fade out in different domains during error concealment
US9538297B2 (en) * 2013-11-07 2017-01-03 The Board Of Regents Of The University Of Texas System Enhancement of reverberant speech by binary mask estimation
GB201617016D0 (en) * 2016-09-09 2016-11-23 Continental automotive systems inc Robust noise estimation for speech enhancement in variable noise conditions

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6263307B1 (en) * 1995-04-19 2001-07-17 Texas Instruments Incorporated Adaptive weiner filtering using line spectral frequencies
EP1944761A1 (en) * 2007-01-15 2008-07-16 Siemens Networks GmbH & Co. KG Disturbance reduction in digital signal processing

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210110622A (ko) * 2018-12-21 2021-09-08 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우 음질의 추정 및 제어를 이용한 소스 분리 장치 및 방법

Also Published As

Publication number Publication date
RU2018115191A (ru) 2019-10-25
WO2017050972A1 (en) 2017-03-30
JP6654237B2 (ja) 2020-02-26
CN108352166A (zh) 2018-07-31
KR102152004B1 (ko) 2020-10-27
US10692510B2 (en) 2020-06-23
RU2018115191A3 (ko) 2019-10-25
BR112018005910B1 (pt) 2023-10-10
CA2998689A1 (en) 2017-03-30
US20180204580A1 (en) 2018-07-19
RU2712125C2 (ru) 2020-01-24
EP3353783B1 (en) 2019-12-11
CN108352166B (zh) 2022-10-28
ES2769061T3 (es) 2020-06-24
BR112018005910A2 (pt) 2018-10-16
MX2018003529A (es) 2018-08-01
JP2018528480A (ja) 2018-09-27
EP3353783A1 (en) 2018-08-01
CA2998689C (en) 2021-10-26

Similar Documents

Publication Publication Date Title
KR102152004B1 (ko) 선형 예측 코딩을 사용하여 감소된 배경 잡음을 갖는 오디오 신호를 인코딩하기 위한 인코더 및 방법
JP7244609B2 (ja) ビットバジェットに応じて2サブフレームモデルと4サブフレームモデルとの間で選択を行うステレオ音声信号の左チャンネルおよび右チャンネルを符号化するための方法およびシステム
KR101871644B1 (ko) 적응적 대역폭 확장 및 그것을 위한 장치
JP5722437B2 (ja) 広帯域音声コーディングのための方法、装置、およびコンピュータ可読記憶媒体
TWI455114B (zh) 多模式音訊編解碼器及其適用碼簿激發線性預測編碼技術
KR101885193B1 (ko) 인코더, 디코더 및 인코딩과 디코딩을 위한 방법
JP5978218B2 (ja) 低ビットレート低遅延の一般オーディオ信号の符号化
KR101698905B1 (ko) 정렬된 예견 부를 사용하여 오디오 신호를 인코딩하고 디코딩하기 위한 장치 및 방법
JP7123134B2 (ja) デコーダにおけるノイズ減衰
KR20160070147A (ko) 결정론적 및 잡음 유사 정보를 사용하는 오디오 신호의 인코딩 및 오디오 신호의 디코딩을 위한 개념
RU2636126C2 (ru) Устройство для кодирования речевого сигнала с использованием acelp в автокорреляционной области
CN107710324B (zh) 音频编码器和用于对音频信号进行编码的方法
Fischer et al. Joint Enhancement and Coding of Speech by Incorporating Wiener Filtering in a CELP Codec.

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant