KR102099293B1

KR102099293B1 - 오디오 인코더 및 오디오 신호를 인코딩하는 방법

Info

Publication number: KR102099293B1
Application number: KR1020177031466A
Authority: KR
Inventors: 톰 벡스트롬; 엠마 조키넨
Original assignee: 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date: 2015-04-09
Filing date: 2016-04-06
Publication date: 2020-05-18
Also published as: WO2016162375A1; CN107710324A; EP3079151A1; RU2017135436A; RU2017135436A3; CN107710324B; ES2741009T3; MX366304B; CA2983813A1; RU2707144C2; BR112017021424B1; US20180033444A1; CA2983813C; JP2018511086A; EP3281197A1; BR112017021424A2; KR20170132854A; JP6626123B2; EP3281197B1; US10672411B2

Abstract

오디오 신호(104)에 기초하여 인코딩된 표현(102)을 제공하기 위한 오디오 인코더(100)로서, 오디오 인코더(100)는 오디오 신호(104)에 포함된 잡음을 기술하는 잡음 정보(106)를 획득하도록 구성되고, 그리고 오디오 인코더(100)는 오디오 신호(104)에 포함된 잡음에 의하여 더 많은 영향을 받는 오디오 신호(104)의 부분보다 오디오 신호(104)에 포함된 잡음에 의하여 더 적은 영향을 받는 오디오 신호(104)의 부분에 대하여 인코딩 정확도가 더 높도록, 잡음 정보(106)에 따라 오디오 신호(104)를 적응적으로 인코딩하도록 구성된다.

Description

오디오 인코더 및 오디오 신호를 인코딩하는 방법{Audio Encoder and Method for Encoding an Audio Signal}

실시 예들은 오디오 신호에 기초하여 인코딩된 표현을 제공하기 위한 오디오 인코더에 관한 것이다. 다른 실시 예들은 오디오 신호에 기초하여 인코딩된 표현을 제공하는 방법에 관한 것이다. 일부 실시 예는 지각(perceptual) 음성 및 오디오 코덱에 대한 저 지연, 저 복잡성, 원단 잡음(far-end noise) 억제에 관한 것이다.

음성 및 오디오 코덱에 대한 현재의 문제점은 음향 입력 신호가 배경 잡음 및 다른 아티팩트(artifact)에 의해 왜곡되는 불리한 환경에서 사용된다는 것이다. 이로 인해 몇 가지 문제가 발생한다. 코덱은 이제 원하는 신호와 원하지 않는 왜곡을 모두 인코딩해야하기 때문에 신호가 이제는 두 개의 소스(source)로 구성되어 인코딩 품질이 저하되므로 코딩 문제가 더 복잡해진다. 그러나 두 과정의 조합을 단일 클린(clean)a 신호로서 동일한 품질로 인코딩 할 수 있더라도 음성 부분은 여전히 클린 신호보다 낮은 품질을 가지게 될 것이다. 잃어버린 인코딩 품질은 지각적으로 짜증나게할 뿐만 아니라 중요하게, 청취 노력을 증가시키고, 최악의 경우에는, 디코딩된 신호의 명료도를 줄이거나 청취 노력을 증가시킨다.

WO 2005/031709 A1은 코드북 이득을 수정함으로써 잡음 감소를 적용하는 음성 코딩 방법을 보여준다. 상세하게는, 음성 성분 및 잡음 성분을 포함하는 음향 신호는 합성법을 통한 분석을 사용하여 인코딩되고, 음향 신호를 인코딩하기 위해 합성 신호는 시간 간격 동안 음향 신호와 비교되며, 상기 합성 신호는 고정 코드북 및 관련 고정 이득을 사용하여 묘사된다.

US 2011/076968 A1은 감소된 잡음 음성 코딩을 가지는 통신 장치를 보여준다. 통신 장치는 메모리, 입력 인터페이스, 처리 모듈 및 송신기를 포함한다. 처리 모듈은 입력 인터페이스로부터 디지털 신호를 수신하며, 디지털 신호는 원하는 디지털 신호 성분 및 원하지 않는 디지털 신호 성분을 포함한다. 처리 모듈은 원하지 않는 디지털 신호 성분에 기초하여 복수의 코드북 중 하나를 찾는다. 처리 모듈은 선택된 코드북 항목(entry)을 생성하기 위해 원하는 디지털 신호 성분에 기초하여 복수의 코드북 중 하나로부터 코드북 항목을 찾는다. 처리 모듈은 선택된 코드북 항목에 기초하여 코딩된 신호를 생성하며, 코딩된 신호는 원하는 디지털 신호 성분의 실질적으로 감쇄되지 않은 표현 및 원하지 않는 디지털 신호 성분의 감쇄된 표현을 포함한다.

US 2001/001140 A1은 음성 코딩에 대한 적용으로 음성 향상에 대한 모듈식 접근법을 보여준다. 음성 코더(speech coder)는 입력된 디지털화된 음성을 인터벌(interval)에 따라 성분 부분들로 분리한다. 성분 부분은 이득 성분, 스펙트럼 성분 및 여기(excitation) 신호 성분을 포함한다. 음성 코더내의 음성 향상 시스템들의 세트는 각각의 성분 부분이 그 자신의 개별적인 음성 향상 프로세스를 가지도록 성분 부분들을 처리한다. 예를 들어, 하나의 음성 향상 프로세스는 스펙트럼 성분을 분석하기 위해 적용될 수 있고 또 다른 스피치 향상 프로세스는 여기 신호 성분을 분석하기 위해 사용될 수있다.

US 5,680,508 A는 저율(low-rate) 음성 코더에 대한 배경 잡음에 있어 음성 코딩의 향상을 개시한다. 음성 코딩 시스템은 잡음 환경에서 발생하는 입력 음성에 대한 음성 결정을 하기 위해 그 분포가 잡음/레벨에 의해 크게 영향을 받지 않는 음성 프레임들의 강건한 특징의 측정을 채용한다. 강건한 특징과 각 가중치에 대한 선형 프로그램 분석은 이러한 특징의 최적의 선형 조합을 결정하는 데 사용된다. 입력 음성 벡터는 대응하는 최적으로 매칭되는 코드워드(codeword)를 선택하기 위해 코드워드의 어휘에 매칭된다. 적응형 벡터 양자화는 조용한 환경에서 얻어진 단어들의 어휘가 입력 음성이 발생하는 잡음 환경의 잡음 평가에 기초하여 갱신되고, 입력 음성 벡터와 가장 매칭되는 "잡음 많은" 어휘가 검색된다. 이어서, 대응하는 깨끗한 코드워드 인덱스가 송신 및 수신단에서의 합성을 위해 선택된다.

US 2006/116874 A1은 잡음-의존 포스트 필터링을 보여준다. 방법은 음성 코딩에 의한 왜곡 감소에 적합한 필터를 제공하고, 음성 신호 내의 음향 잡음을 추정하고, 적응 필터를 얻기 위해 추정된 음향 잡음에 응답하여 필터를 적응시키고, 적응 필터를 음성 신호에 적용함으로써 음성 신호의 음성 코딩에 의해 야기된 음향 잡음 및 왜곡을 감소시킨다.

US 6,385,573 B1은 합성된 음성 잔류에 대한 적응형 틸트 보상을 보여준다. 멀티-레이트 (multi-rate) 음성 코덱은 통신 채널 제한들에 매칭시키기 위해 인코딩 비트 레이트 모드들을 적응적으로 선택함으로써 복수의 인코딩 비트 레이트 모드들을 지원한다. 보다 높은 비트 레이트 인코딩 모드에서, 고품질의 디코딩 및 재생을 위해 코드 여기 선형 예측(code excited linear prediction;이하 CELP) 및 다른 관련 모델링 파라미터를 통한 음성의 정확한 표현이 생성된다. 낮은 비트 레이트 인코딩 모드에서 높은 품질을 달성하기 위해, 음성 인코더는 일반 CELP 코더의 엄격한 파형 매칭 기준을 벗어나 입력 신호의 중요한 지각 특징을 식별하기 위해 노력한다.

US 5,845,244 A는 지각 가중을 사용하는 합성 분석에서 잡음 마스킹 레벨을 적응시키는 것에 관한 것이다. 단기간 지각 가중 필터를 사용하는 합성 분석 음성 코더에서, 스펙트럼 확장 계수의 값은 단기간 선형 예측 분석 동안 얻어진 스펙트럼 파라미터에 기초하여 동적으로 적응된다. 이 적응에서 제공되는 스펙트럼 파라미터들은 특히 음성 신호의 스펙트럼의 전체 슬로프를 나타내는 파라미터 및 단기 합성 필터의 공진 특성을 나타내는 파라미터를 포함 할 수있다.

US 4,133,976 A는 감소된 잡음 효과를 가지는 예측 음성 신호 코딩을 보여준다. 예측 음성 신호 프로세서는 양자화기 주변의 피드백 네트워크에 있는 적응형 필터를 특징으로 한다. 적응형 필터는 본질적으로 양자화 오류 신호, 포먼트 (formant) 관련 예측 파라미터 신호 및 차이 신호를 결합하여 음성 스펙트럼의 시변 포먼트 부분에 대응하는 스펙트럼 최대치에 양자화 오류 잡음을 집중시킴으로써 양자화 잡음이 음성 신호 포먼트에 의해 감춰지게 한다.

WO 9425959 A1은 음성 합성 시스템의 비트 레이트를 낮추거나 품질을 향상시키는 청각 모델의 사용을 보여준다. 가중 필터는 심리 음향 도메인(psychoacoustic domain)에서 최적의 확률 코드 벡터를 검색할 수있는 청각 모델로 대체된다. PERCELP (Perceptually Enhanced Random Codebook Excited Linear Prediction)라고 불리는 알고리즘이 개시되어, 가중 필터를 통해 얻은 것보다 훨씬 더 우수한 품질의 음성을 생성한다.

US 2008/312916 A1은 향상된 지능형 신호를 생성하기 위해 입력 음성 신호를 처리하는 수신기 명료도 향상 시스템을 보여준다. 주파수 도메인에서, 원단(far-end)으로부터 수신된 음성의 FFT 스펙트럼은 국부적인 배경 잡음의 LPC 스펙트럼에 따라 수정되어 강화된 지능형 신호를 생성한다. 시간 도메인에서, 음성은 향상된 지능형 신호를 생성하기 위해 잡음의 LPC 계수에 따라 수정된다.

US 2013/030800 1A는 적응형 음성 명료도 프로세서를 보여주는데, 적응형 음성 명료도 프로세서는 포먼트 위치를 적응적으로 식별하고 추적함으로써 그들이 변화하는대로 포먼트를 강조할 수 있습니다. 결과적으로, 이러한 시스템 및 방법은 잡음이 많은 환경에서도 근단(near-end) 명료도를 향상시킬 수 있다.

[Atal, Bishnu S., and Manfred R. Schroeder. "Predictive coding of speech signals and subjective error criteria". Acoustics, Speech and Signal Processing, IEEE Transactions on 27.3 (1979): 247-254]에서, 음성 신호에 대한 예측 코더의 주관적 왜곡을 감소시키는 방법이 기술되고 평가된다. 개선된 음성 품질은 1) 양자화 전에 음성의 포먼트 및 피치 관련 중복 구조의 효율적 제거, 및 2) 음성 신호에 의하여 양자화 잡음에 대한 효과적인 마스킹에 의해 얻어진다.

[Chen, Juin-Hwey and Allen Gersho. "Real-time vector APC speech coding at 4800 bps with adaptive postfiltering". Acoustics, Speech and Signal Processing, IEEE International Conference on ICASSP'87.. Vol. 12, IEEE, 1987]에서, 향상된 벡터 APC(VAPC) 음성 코더가 제공되는데, APC를 벡터 양자화를 결합하고, 합성 분석, 지각 잡음 가중 및 적응형 포스트필터링을 통합한다.

본 발명의 목적은 음향 입력 신호가 배경 잡음 및 다른 아티팩트들에 의해 왜곡될 때 청취 노력을 줄이거나 신호 품질을 향상시키거나 또는 디코딩 된 신호의 명료도를 증가시키기 위한 개념을 제공하는 것이다.

상기 목적은 독립항들에 의해 해결될 수 있다.

유리한 구현들이 종속항들에서 언급된다.

실시 예들은 오디오 신호에 기초하여 인코딩된 표현을 제공하기 위한 오디오 인코더를 제공한다. 오디오 인코더는 오디오 신호에 포함된 잡음을 기술하는 잡음 정보를 획득하도록 구성되며, 오디오 인코더는 오디오 신호에 포함된 잡음에 의하여 덜 영향 받은 오디오 신호 부분이 오디오 신호에 포함된 잡음에 의하여 더 많이 영향 받는 오디오 신호의 부분보다 인코딩 정확도가 더 높도록 잡음 정보에 따라 오디오 신호를 적응적으로 인코딩하도록 구성된다.

본 발명의 개념에 따르면, 오디오 인코더는, 잡음에 더 영향을 받는(예를 들면, 보다 낮은 신호 대 잡음비를 가지는) 오디오 신호의 부분에 비해 잡음의 영향을 덜 받는(예 : 높은 신호 대 잡음비를 가지는) 오디오 신호의 부분들에 대하여 더 높은 인코딩 정확도를 얻기 위해 오디오 신호에 포함된 잡음을 기술하는 잡음 정보에 따라 오디오 신호를 적응적으로 인코딩한다

통신 코덱은 원하는 신호가 배경 잡음에 의해 손상되는 환경에서 자주 동작한다. 본 명세서에 개시된 실시 예는 송신기/인코더 측 신호가 이미 코딩하기 전에 배경 잡음을 가지는 상황을 다룬다.

예를 들어, 일부 실시 예에 따르면, 코덱의 지각 목적 함수(perceptual objective function)를 변경함으로써, 보다 높은 신호-대- 잡음비(SNR)를 가지는 신호 부분의 코딩 정확도가 증가 될 수 있고, 그에 따라 신호의 잡음이 없는 부분의 품질을 유지할 수 있다. 신호의 높은 SNR 부분을 저장함으로써, 송신된 신호의 명료도가 향상될 수 있고 청취 노력이 감소될 수 있다. 종래의 잡음 억제 알고리즘은 코덱에 대한 전처리 블록으로서 구현되지만, 현재의 접근법은 두 가지 뚜렷한 이점을 갖는다. 첫째, 공동 노이즈 억제 및 인코딩을 통해 억제 및 코딩의 직렬 효과를 피할 수 있습니다. 둘째, 제안된 알고리즘은 지각 목적 함수의 수정으로 구현될 수 있기 때문에 매우 낮은 계산 복잡도를 갖는다. 더욱이, 통신 코덱은 어느 경우 에나 통신 소음 발생기(comfort noise generator)를 위한 배경 잡음를 추정하기 때문에, 잡음 추정이 이미 코덱에서 이용 가능하며 추가적인 계산 비용 없이 (잡음 정보로) 사용될 수 있다.

다른 실시 예들은 오디오 신호에 기초하여 인코딩된 표현을 제공하는 방법에 관한 것이다. 상기 방법은 상기 오디오 신호에 포함된 잡음을 기술하는 잡음 정보를 획득하는 단계와, 상기 오디오 신호에 포함된 잡음에 의하여 더 많은 영향을 받는 상기 오디오 신호의 부분보다 상기 오디오 신호에 포함된 잡음에 의하여 더 적은 영향을 받는 상기 오디오 신호의 부분에 대하여 인코딩 정확도가 더 높도록, 상기 잡음 정보에 따라 상기 오디오 신호를 적응적으로 인코딩하는 단계를 포함한다.

다른 실시 예들은 오디오 신호의 인코딩된 표현을 운반하는 데이터 스트림에 관한 것인데, 상기 오디오 신호의 상기 인코딩된 표현은 상기 오디오 신호에 포함된 잡음에 의하여 더 많은 영향을 받는 상기 오디오 신호의 부분보다 상기 오디오 신호에 포함된 잡음에 의하여 더 적은 영향을 받는 상기 오디오 신호의 부분에 대하여 인코딩 정확도가 더 높도록, 상기 오디오 신호에 포함된 잡음을 기술하는 잡음 정보에 따라 상기 오디오 신호를 적응적으로 코딩한 것이다.

본 발명의 실시 예들이 첨부된 도면을 참조하여 본 명세서에서 설명된다.
도 1은 본 발명의 일 실시 예에 따른, 오디오 신호에 기초하여 인코딩된 표현을 제공하기 위한 오디오 인코더의 개략적인 블록도를 도시한다.
도 2a는 본 발명의 일 실시 예에 따른, 음성 신호에 기초하여 인코딩된 표현을 제공하기 위한 오디오 인코더의 개략적인 블록도를 도시한다.
도 2b는 본 발명의 일 실시 예에 따른, 코드북 항목 결정기의 개략적인 블록도를 도시한다.
도 3은 주파수에 걸쳐 도시된 잡음의 추정치 및 잡음에 대하여 재구성된 스펙트럼의 크기를 도면에 도시한다.
도 4는 주파수에 걸쳐 도시된 상이한 예측 차수에 대한 잡음에 대한 선형 예측 적합도의 크기를 도면에 도시한다.
도 5는 주파수에 걸쳐 원래의 가중 필터의 역의 크기 및 상이한 예측 차수를 가지는 제안된 가중 필터의 역의 크기를 도면에 도시한다
도 6은 본 발명의 일 실시 예에 따른, 오디오 신호에 기초하여 인코딩된 표현을 제공하는 방법의 흐름도를 도시한다.

동일 또는 등가의 구성 요소들 또는 동일하거나 등가 기능을 가진 구성 요소들은 다음 설명에서 동일하거나 등가의 참조 번호로 표시된다.

다음의 설명에서, 본 발명의 실시 예에 대한 보다 완전한 설명을 제공하기 위해 다수의 세부 사항이 설명된다. 그러나, 본 발명의 실시 예가 이러한 특정 세부 사항 없이도 실시될 수 있음은 통상의 기술자에게 명백할 것이다. 다른 예들에서, 본 발명의 실시 예들이 모호하게 되는 것을 피하기 위해 공지된 구조들 및 장치들은 상세하지 않고 블록도 형태로 도시된다. 또한, 이하에서 설명하는 다른 실시 예의 특징들은 특별히 언급하지 않는 한, 서로 결합될 수 있다.

도 1은 오디오 신호(104)에 기초하여 인코딩된 표현 (또는 인코딩된 오디오 신호)(102)을 제공하기 위한 오디오 인코더(100)의 개략적인 블록도를 도시한다. 오디오 인코더(100)는 오디오 신호(104)에 포함된 잡음을 기술하는 잡음 정보(106)를 획득하고, 오디오 신호(104)에 포함된 잡음에 의하여 더 많은 영향을 받는 오디오 신호(104)의 부분보다 오디오 신호(104)에 포함된 잡음에 의하여 더 적은 영향을 받는 오디오 신호(104)의 부분에 대하여 인코딩 정확도가 더 높도록, 잡음 정보(106)에 따라 오디오 신호(104)를 적응적으로 인코딩하도록 구성된다.

예를 들어, 오디오 인코더(100)는 잡음 추정기 (또는 잡음 결정기 또는 잡음 분석기)(110) 및 코더 (112)를 포함할 수 있다. 잡음 추정기(110)는 오디오 신호(104)에 포함된 잡음을 기술하는 잡음 정보(106)를 획득하도록 구성될 수 있다. 코더(112)는 오디오 신호(104)에 포함된 잡음에 의하여 더 많은 영향을 받는 오디오 신호(104)의 부분보다 오디오 신호(104)에 포함된 잡음에 의하여 더 적은 영향을 받는 오디오 신호(104)의 부분에 대하여 인코딩 정확도가 더 높도록, 잡음 정보(106)에 따라 오디오 신호(104)를 적응적으로 인코딩하도록 구성될 수 있다.

잡음 추정기(110) 및 코더(112)는 예를 들어, 집적 회로, FPGA(field programmable gate array), 마이크로 프로세서, 프로그램 가능한 컴퓨터 또는 전자 회로와 같은 하드웨어 장치 (의 사용)에 의해 구현 될 수있다.

실시 예들에서, 오디오 인코더(100)는 잡음 정보(106)에 따라 오디오 신호(104)를 적응 적으로 인코딩함으로써 오디오 신호(104)를 인코딩하고 동시에 오디오 신호(104)의 인코딩된 표현(102) (또는 인코딩된 오디오 신호)에서 잡음을 줄이도록 구성될 수 있다.

실시 예들에서, 오디오 인코더(100)는 지각 목적 함수를 사용하여 오디오 신호(104)를 인코딩하도록 구성될 수 있다. 지각 목적 함수는 잡음 정보(106)에 따라 조정 (또는 수정) 될 수 있고, 이에 의해 잡음 정보(106)에 따라 오디오 신호(104)를 적응적으로 인코딩할 수 있다. 잡음 정보(106)는, 예를 들어, 신호-대-잡음비 또는 오디오 신호(104)에 포함된 잡음의 추정된 형상일 수 있다.

본 발명의 실시 예들은 청취 노력을 줄이거나 또는 각각 명료도를 증가시키려고 시도한다. 여기서, 실시 예들은 일반적으로 입력 신호의 가장 정확한 가능한 표현을 제공하지 않을 수 있지만 청취 노력 또는 명료도가 최적화되는 신호의 그러한 부분들을 전송하려고 시도할 수 있음을 주목하는 것이 중요하다. 구체적으로, 실시 예들은 신호의 음색을 변경할 수 있지만, 송신된 신호가 청취 노력을 감소시키거나 또는 정확하게 송신된 신호보다 명료도가 더 나은 방식으로 변화시킬 수 있다.

일부 실시 예에 따르면, 코덱의 지각 목적 함수가 수정된다. 달리 말하면, 실시 예들은 잡음을 명시적으로 억제하지 않지만, 신호-대-잡음비가 가장 좋은 신호의 부분에서 정확도가 더 높아지도록 목적을 변경한다. 등가적으로, 실시 예들은 SNR이 높은 부분에서 신호 왜곡을 감소시킨다. 그러면 인간 청취자는 신호를 더 쉽게 이해할 수 있다. 낮은 SNR를 가지는 신호의 부분은 그로 인해 정확도가 떨어지게 전송되지만 어쨌든 이러한 부분은 대부분 잡음을 포함하기 때문에 그러한 부분을 정확히 인코딩하는 것은 중요하지 않다. 즉, 높은 SNR 부분에 정확도를 집중시킴으로써, 실시 예들은 잡음 부분의 SNR을 감소시키면서 음성 부분의 SNR을 암시적으로 향상시킨다.

실시 예들은 임의의 음성 및 오디오 코덱, 예를 들어 지각 모델을 사용하는 코덱들에 구현되거나 적용될 수 있다. 사실상, 일부 실시 예들에 따르면, 지각 가중 함수는 잡음 특성에 기초하여 수정(또는 조정)될 수 있다. 예를 들어, 잡음 신호의 평균 스펙트럼 엔벨로프(average spectral envelope)가 추정되어 지각 목적 함수를 수정하는 데 사용될 수 있습니다.

본 명세서에 개시된 실시 예들은 바람직하게는 CELP형 (CELP = code-excited linear prediction) 음성 코덱 또는 지각 모델이 가중 필터에 의해 표현될 수 있는 다른 코덱들에 적용 가능하다. 그러나 실시 다른 주파수 - 도메인 코덱뿐만 아니라 예들은 TCX(transform coded excitation)형 코덱에서도 사용될 수 있다. 더욱이, 실시 예들의 바람직한 사용 예는 음성 코딩이지만, 실시 예들은 또한 임의의 음성 및 오디오 코덱에서 보다 일반적으로 사용될 수 있다. ACELP(ACELP = algebraic code excited linear prediction)가 전형적인 적용 대상이기 때문에, ACELP에서의 실시 예들의 적용이 이하에서 상세히 설명될 것이다. 그러면, 주파수 도메인 코덱들을 포함하는 다른 코덱에서의 실시 예의 응용은 통상의 기술자에게 자명할 것이다.

음성 및 오디오 코덱들에서의 잡음 억제에 대한 종래의 접근법은 코딩하기 전에 잡음 제거의 목적으로 별도의 전처리 블록에 적용하는 것이다. 그러나 별도의 블록으로 분리함으로써 두 가지 주요 단점을 가지게 된다. 첫째, 잡음 억제기가 일반적으로 잡음을 제거할뿐만 아니라 원하는 신호를 왜곡할 있기 때문에 코덱은 왜곡된 신호를 정확하게 인코딩하려고 시도할 것이다. 따라서 코덱에는 잘못된 대상을 가지는 것이고, 효율성과 정확성을 잃게 된다. 이것은 다음 블록이 축적되는 독립적인 오류를 생성하는 텐덤(tandem)형 문제의 경우로 볼 수 있다. 결합된 잡음 억제 및 코딩에 의하여 실시 예들은 텐덤형 문제를 피할 수 있다. 둘째, 잡음 억제기가 종래에 별도의 전처리 블록으로 구현되기 때문에 계산상의 복잡성과 지연이 크다. 이와는 대조적으로, 실시 예들에 따르면, 잡음 억제 기가 코덱에 내장되어 있기 때문에 매우 낮은 계산 복잡도 및 지연을 가지면서 적용될 수 있다. 이것은 종래의 잡음 억제를 위한 계산 능력을 가지지 못한 저가 디바이스들에서 특히 유익할 것이다.

본 명세서 작성 시에 가장 일반적으로 사용되는 음성 코덱이기 때문에 AMR-WB(AMR-WB = adaptive multi-rate wideband) 코덱의 맥락에서의 응용을 더 논의할 것이다. 실시 예들은 3GPP 개선된 음성 서비스(Enhanced Voice Service) 또는 G.718과 같은 다른 음성 코덱들 상에도 쉽게 적용될 수있다. 실시 예들은 비트 스트림 포맷을 변경하지 않고서도 코덱에 적용될 수 있기 때문에, 실시 예들의 바람직한 사용이 기존 표준들에 추가될 수 있다.

도 2a는 본 발명의 일 실시 예에 따른, 음성 신호(104)에 기초하여 인코딩된 표현 (102)을 제공하기 위한 오디오 인코더(100)의 개략적인 블록도를 도시한다. 오디오 인코더(100)는 음성 신호(104)로부터 잔류 신호(120)를 도출하고 코드북(122)을 사용하여 잔류 신호 (120)를 인코딩하도록 구성될 수 있다. 상세하게, 오디오 인코더(100)는 잡음 정보(106)에 따라 잔류 신호(120)를 인코딩하기 위하여 코드북(122)의 복수의 코드북 항목들 중에서 하나의 코드북 항목을 선택하도록 구성될 수 있다. 예를 들어, 오디오 인코더(100)는 코드북(122)을 포함하는 코드북 항목 결정기 (124)를 포함할 수 있으며, 코드북 항목 결정기(124)는 잡음 정보(106)에 따라 잔류 신호(120)를 인코딩하고, 그에 의해 양자화된 잔류(126)를 획득하기 위하여 코드북(122)의 복수의 코드북 항목들 중에서 하나의 코드북 항목을 선택하도록 구성될 수 있다.

오디오 인코더(100)는 음성 신호(104) 상의 성도(vocal tract)의 기여도를 추정하고 잔류 신호(120)를 획득하기 위해 음성 신호(104)로부터 성도의 추정된 기여도를 제거하도록 구성될 수있다. 예를 들어, 오디오 인코더(100)는 성도 추정기(130) 및 성도 제거기(132)를 포함할 수 있다. 성도 추정기(130)는 음성 신호 (104)를 수신하고, 음성 신호(104) 상의 성도의 기여도를 추정하고, 음성 신호 (104) 상의 성도의 추정된 기여도(128)를 성도 제거기(132)에 제공하도록 구성될 수 있다. 성도 제거기(132)는 잔류 신호(120)를 획득하기 위하여 음성 신호(104)로부터 성도의 추정된 기여도(128)를 제거하도록 구성될 수 있다. 예를 들어, 음성 신호(104) 상의 성도의 기여도는 선형 예측을 사용하여 추정될 수 있다.

오디오 인코더(100)는 음성 신호에 기초하여 인코딩된 표현 (또는 인코딩된 음성 신호)로서 양자화된 잔류(126) 및 성도의 추정된 기여도(128) (또는 성도의 추정된 기여도(128)를 기술하는 필터 파라미터들)을 제공하도록 구성될 수 있다.

도 2b는 본 발명의 일 실시 예에 따른 코드북 항목 결정기(124)의 개략적인 블록도를 도시한다. 코드북 항목 결정기(124)는 지각 가중 필터(W)를 사용하여 코드북 항목을 선택하도록 구성된 최적화기(140)를 포함할 수 있다. 예를 들어, 최적화기(140)는 지각 가중 필터(W)로 가중된 잔류 신호의 합성되고 가중된 양자화 오류(126)가 감소(최소화)하도록 잔류 신호(120)에 대하여 코드북 항목을 선택하도록 구성된다. 예를 들어, 최적화기(140)는 거리 함수(distance function)

를 사용하여 코드북 항목을 선택하도록 구성될 수 있다.

여기서

는 잔류 신호를 나타내고,

은 양자화된 잔류 신호를 나타내고,

는 지각 가중 필터를 나타내고, 그리고

는 양자화된 성도 합성 필터를 나타낸다. 따라서,

및

는 콘벌루션 매트릭스(convolution matrix)일 수 있다.

코드북 항목 결정기 (124)는 성도의 추정된 기여도(A(z))로부터 양자화된 성도 합성 필터(H)를 결정하도록 구성된 양자화된 성도 합성 필터 결정기(144)를 포함할 수 있다.

또한, 코드북 항목 결정기 (124)는 코드북 항목의 선택에 있어서 잡음의 영향이 감소되도록 지각 가중 필터(W)를 조정하도록 구성되는 지각 가중 필터 조정기(142)를 포함할 수 있다. 예를 들어, 지각 가중 필터 (W)는 잡음에 의해 영향을 덜 받는 음성 신호의 부분이 잡음에 의해 더 영향을 받는 음성 신호의 부분보다 코드북 항목의 선택을 위해 더 가중되도록 조정될 수 있다. 또한 (또는 대안적으로) 지각 가중 필터(W)는 잡음에 의해 영향을 덜 받는 잔류 신호 120)의 부분과 양자화된 잔류(126) 신호의 대응하는 부분 사이의 오차가 감소되도록 조정될 수 있다.

지각 가중 필터 조정기(142)는 잡음 정보(106)로부터 선형 예측 계수를 도출하여 선형 예측 적합도(A_BCK)를 결정하고, 지각 가중 필터(W)에서 선형 예측 적합도(A_BCK)를 사용하도록 구성될 수 있다. 예를 들어, 지각 가중 필터 조정기 (142)는 다음 식을 이용하여 지각 가중 필터 (W)를 조정하도록 구성될 수 있다 :

는 지각 가중 필터를 나타내고,

는 성도 모델을 나타내고,

은 선형 예측 적합도를 나타내고,

는 디엠퍼시스(de-emphasis) 필터를 나타내고,

는 0.92이고, 그리고

는 잡음 억제량을 조정할 수 있는 파라미터이다. 이에 의해,

는

일 수 있다.

다시 말하면, AMR-WB 코덱은 음성 신호(104)를 파라미터화하기 위해 ACELP(algebraic code-excited linear prediction)를 사용한다. 이것은 먼저 성도의 기여도(A(z))를 선형 예측으로 추정하고 제거한 다음 잔류 신호가 대수 코드북을 사용하여 파라미터화 되는 것을 의미한다. 최상의 코드북 항목을 찾기 위해, 원래의 잔류와 코드북 항목 간의 지각 거리가 최소화될 수 있다. 거리 함수는

로 쓰여질 수 있는데, 여기서,

및

은 원래의 잔류 및 양자화된 잔류이고,

및

는 콘벌루션 매트릭스로 각각 양자화된 성도 합성 필터,

및 전형적으로

= 0.92인

로 선택되는 지각 가중치(

)에 대응된다.

애플리케이션 시나리오에서, 추가 원단 잡음이 입력되는 음성 신호에 존재할 수 있다. 따라서, 신호는 y (t) = s (t) + n (t)이다. 이 경우, 성도 모델(A(z)) 및 원래 잔류 모두 잡음을 포함한다. 성도 모델에서의 잡음을 무시하고 잔류 내의 잡음에 초점을 맞추는 단순화로부터 시작하여, (실시 예에 따라) 아이디어는 부가 잡음의 효과가 잔류 선택에서 감소하도록 지각 가중을 이끄는 것이다. 통상적으로 원래 및 양자화된 잔류 사이의 오류가 음성 스펙트럼 엔벨로프와 유사하게 되기를 원하는 반면, 실시 예에 따르면, 잡음에 대해 보다 견고하다고 여겨지는 영역에서의 오류는 감소된다. 다시 말해서, 실시 예들에 따르면, 잡음에 의해 더 적게 손상된 주파수 성분들은 보다 적은 오류를 가지면서 양자화되고 반면에, 잡음에 의한 오류를 포함할 수 있는 낮은 크기를 갖는 성분들은 양자화 프로세스에서 더 낮은 가중치를 가진다.

원하는 신호에 대한 잡음의 영향을 고려하기 위해, 먼저 잡음 신호의 추정이 필요하다. 잡음 추정은 많은 방법이 존재하는 고전적인 주제입니다. 일부 실시 예는 이미 인코더에 존재하는 정보가 사용되는 저 복잡도 방법을 제공한다. 바람직한 접근법으로, 음성 활성도 검출 (VAD)을 위해 저장된 배경 잡음의 형상의 추정이 사용될 수있다. 이 추정에는 너비가 증가하는 12 개의 주파수 대역에서의 배경 잡음 레벨이 포함된다. 원래의 데이터 포인트 사이의 보간법을 사용하여 이를 선형 주파수 스케일(scale)에 매핑함으로써 스펙트럼이 이 추정치로부터 구성될 수 있다. 원래의 배경 추정치와 재구성된 스펙트럼의 예가 도 3에 도시된다. 상세하게 보면, 도 3은 평균 SNR이 -10dB인 자동차 잡음에 대한 원래 배경 추정치와 재구성된 스펙트럼을 보여준다. 재구성된 스펙트럼으로부터 자기 상관이 계산되고, Levinson-Durbin 재귀와 함께 p 차 차수 선형 예측 (LP) 계수를 도출하기 위하여 사용된다. 도 4는 p가 2 내지 6 인 획득한 선형 예측 적합도의 예를 도시한다. 상세하게 보면, 도 4는 상이한 예측 차수 (p = 2 ... 6)의 배경 잡음에 대해 획득한 선형 예측 적합도를 보여준다. 배경 잡음은 평균 SNR이 -10dB인 차량 잡음이다.

획득한 선형 예측 적합도(A_BCK(z))는 가중 필터의 일부로 사용되어 새로운 가중 필터가 다음 식으로 계산될 수 있다:

_.

여기서

는 잡음 억제량을 조정할 수 있는 파라미터이다.

가 0에 가까워지면 효과가 작아지고, 반면에

가 거의 1이면 높은 잡음 억제를 획득할 수 있다.

도 5에는, 상이한 예측 차수를 가지는 제안된 가중 필터의 역뿐만 아니라 최초 가중 필터의 역의 예가 도시된다. 이 그림의 경우 디앰퍼시스 필터는 사용되지 않았다. 다시 말하면, 도 5는 상이한 예측 차수를 가지는 제안된 가중 필터 및 원래의 가중 필터의 역의 주파수 응답을 도시한다. 배경 잡음은 평균 SNR이 -10dB인 차량 잡음이다.

도 6은 오디오 신호에 기초하여 인코딩된 표현을 제공하는 방법의 흐름도를 도시한다. 이 방법은 오디오 신호에 포함된 잡음을 기술하는 잡음 정보를 획득하는 단계(202)를 포함한다. 또한, 방법(200)은 오디오 신호에 포함된 잡음에 의하여 더 많은 영향을 받는 오디오 신호의 부분보다 오디오 신호에 포함된 잡음에 의하여 더 적은 영향을 받는 오디오 신호의 부분에 대하여 인코딩 정확도가 더 높도록, 잡음 정보에 따라 오디오 신호를 적응적으로 인코딩하는 단계 (204)를 포함한다.

비록 몇몇 양상들이 장치의 맥락에서 설명되었지만, 이러한 양상들은 또한 대응하는 방법의 설명을 나타내는 것이 분명하고, 블록 또는 디바이스는 방법의 단계 또는 방법의 단계의 특징에 대응된다. 이와 유사하게, 방법 단계의 맥락에서 설명된 양상은 대응하는 장치의 대응하는 블록 또는 세부 사항 또는 특징의 설명을 나타낸다. 방법 단계들의 일부 또는 전부는 마이크로 프로세서, 프로그램 가능한 컴퓨터 또는 전자 회로와 같은 하드웨어 장치(의 사용)에 의해 수행될 수 있다. 일부 실시 예에서, 가장 중요한 방법 단계 중 하나 또는 몇몇은 그러한 장치에 의해 수행될 수 있다.

본 발명에 따른 인코딩된 오디오 신호는 디지털 저장 매체에 저장될 수 있거나 또는 예를 들어 인터넷과 같은 유선 전송 매체 또는 무선 전송 매체와 같은 전송 매체를 통해 전송될 수 있다.

특정 구현 요건들에 따라, 본 발명의 실시 예들은 하드웨어 또는 소프트웨어로 구현될 수 있다. 구현은 각각의 방법이 수행되도록 프로그램 가능한 컴퓨터 시스템과 협력하거나 (또는 협력할 수 있는) 저장된 전자 판독 가능 제어 신호를 가지는 예를 들어, 플로피 디스크, DVD, Blu-ray, CD, ROM, PROM, EPROM, EEPROM 또는 플래시 메모리와 같은 디지털 저장 매체를 사용하여 수행될 수 있다. 이것이 디지털 저장 매체가 컴퓨터 판독가능할 수 있는 이유이다.

본 발명에 따른 일부 실시 예는 본 명세서에 기재된 방법 중 하나를 수행하도록 하는 프로그램 가능한 컴퓨터 시스템과 협력할 수 있는 전자 판독 가능 제어 신호들을 가지는 데이터 캐리어를 포함한다.

일반적으로, 본 발명의 실시 예들은 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로서 구현될 수 있으며, 상기 프로그램 코드는 컴퓨터 프로그램 제품이 컴퓨터상에서 실행될 때 상기 방법들 중 하나를 수행하도록 동작한다. 프로그램 코드는 예를 들어 기계 판독가능 캐리어에 저장될 수 있다.

다른 실시 예는 기계 판독가능 캐리어에 저장된 본 명세서에 기술된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함한다.

다시 말하면, 본 발명의 실시 예는 컴퓨터 프로그램이 컴퓨터상에서 실행될 때, 본 명세서에 기술된 방법들 중 하나를 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.

따라서, 본 발명의 방법의 또 다른 실시 예는 본 명세서에 기재된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 기록하여 포함하는 데이터 캐리어 (또는 디지털 저장 매체 또는 컴퓨터 판독 가능 매체)이다. 데이터 캐리어, 디지털 저장 매체 또는 컴퓨터 판독가능 매체는 전형적으로 유형적 및/또는 비-일시적이다.

따라서, 본 발명에 따른 방법의 또 다른 실시 예는 본 명세서에서 기술된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 나타내는 데이터 스트림 또는 신호 시퀀스이다. 데이터 스트림 또는 신호 시퀀스는, 예를 들면, 인터넷과 같은 데이터 통신 연결을 통해 전송되도록 구성될 수 있다.

다른 실시 예는 본 명세서에서 기재된 방법들 중 하나를 수행하도록 구성된 또는 적응된 컴퓨터 또는 프로그램 가능한 논리 장치와 같은 처리 수단을 포함한다.

다른 실시 예는 본 명세서에 기재된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램이 인스톨되는 컴퓨터를 포함한다.

본 발명에 따른 또 다른 실시 예는 본 명세서에 기재된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 수신기에 (전자적으로 또는 광학적으로) 전송하도록 구성된 장치 또는 시스템을 포함한다. 수신기는 예를 들어, 컴퓨터, 모바일 장치, 메모리 장치 또는 유사한 장치일 수 있다. 장치 또는 시스템은 예를 들어 컴퓨터 프로그램을 수신기로 전송하기 위한 파일 서버를 포함할 수 있다.

일부 실시 예들에서, 프로그램 가능 논리 장치(예를 들어, FPGA)는 본 명세서에 기재된 방법들의 일부 또는 모든 기능들을 수행하기 위해 사용될 수 있다. 일부 실시 예들에서, FPGA는 본 명세서에 기재된 방법들 중 하나를 수행하기 위해 마이크로 프로세서와 협력할 수 있다. 일반적으로, 방법들은 바람직하게 임의의 하드웨어 장치에 의해 수행된다.

본 명세서에 기재된 장치는 하드웨어 장치를 사용하여, 또는 컴퓨터를 사용하여, 또는 하드웨어 장치 및 컴퓨터의 조합을 사용하여 구현될 수 있다.

본 명세서에 기재된 방법은 하드웨어 장치를 사용하여, 또는 컴퓨터를 사용하여, 또는 하드웨어 장치 및 컴퓨터의 조합을 사용하여 수행될 수 있다.

상술한 실시 예는 단지 본 발명의 원리를 설명하기 위한 것일 뿐이다. 본 명세서에 기재된 구성 및 세부 사항의 변경 및 변형은 통상의 기술자에게 명백할 것이다. 따라서, 본 발명은 본 명세서의 실시 예에 대한 설명 및 논의에 의해 제시된 특정 세부 사항에 의해서가 아니라 다음의 특허 청구 범위에 의해서만 제한되도록 의도된다.

Claims

음성 신호(speech signal; 104)에 기초하여 인코딩된 표현(102)을 제공하기 위한 오디오 인코더(100)로서,
상기 오디오 인코더(100)는 상기 음성 신호(104)에 포함된 잡음을 기술하는 잡음 정보(106)를 획득하도록 구성되고, 그리고 상기 오디오 인코더(100)는 상기 음성 신호(104)에 포함된 잡음에 의하여 더 많은 영향을 받는 상기 음성 신호(104)의 부분보다 상기 음성 신호(104)에 포함된 잡음에 의하여 더 적은 영향을 받는 상기 음성 신호(104)의 부분에 대하여 인코딩 정확도가 더 높도록, 상기 잡음 정보(106)에 따라 상기 음성 신호(104)를 적응적으로 인코딩하도록 구성되고,
상기 오디오 인코더(100)는 상기 음성 신호(104)로부터 잔류 신호(residual signal; 120)를 도출하고 코드북(122)을 사용하여 상기 잔류 신호(120)를 인코딩하도록 구성되고,
상기 오디오 인코더(100)는 상기 잡음 정보(106)에 따라 상기 잔류 신호(120)를 인코딩하기 위한 코드북(122)의 복수의 코드북 항목들 중에서 하나의 코드북 항목을 선택하도록 구성되고,
상기 오디오 인코더(100)는 지각 가중 필터(perceptual weighting filter; W)를 사용하여 상기 코드북 항목을 선택하도록 구성되고,
상기 오디오 인코더(100)는 상기 잡음에 의하여 더 많이 영향 받는 상기 음성 신호(104)의 부분보다 상기 잡음에 의하여 더 적게 영향 받는 상기 음성 신호(104)의 부분이 상기 코드북 항목의 선택에 대하여 더 많이 가중되도록 상기 지각 가중 필터(W)를 조정하도록 구성되고,
상기 오디오 인코더(100)는 지각 가중 필터(W)로 가중된 잔류 신호의 합성되고 가중된 양자화 오류(126)가 감소하거나 또는 최소화하도록 상기 잔류 신호(120)에 대하여 상기 코드북 항목을 선택하도록 구성되는,
오디오 인코더.
제1항에 있어서,
상기 오디오 인코더(100)는 상기 잡음 정보(106)에 따라 상기 음성 신호(104)를 인코딩하기 위하여 사용된 지각목적함수(perceptual objective function)를 조정함으로써 상기 음성 신호(104)를 적응적으로 인코딩하도록 구성되는,
오디오 인코더.
제1항에 있어서,
상기 오디오 인코더(100)는 상기 잡음 정보(106)에 따라 상기 음성 신호(104)를 적응적으로 인코딩함으로써, 상기 음성 신호(104)를 인코딩하면서 동시에 상기 음성 신호(104)의 인코딩된 표현(102)에서의 잡음을 감소하도록 구성되는,
오디오 인코더.
제1항에 있어서,
상기 잡음 정보(106)는 신호 대 잡음 비율(signal-to-noise ratio)인,
오디오 인코더.
제1항에 있어서,
상기 잡음 정보(106)는 상기 음성 신호(104)에 포함된 잡음의 추정된 형상(an estimated shape)인,
오디오 인코더.
제1항에 있어서,
상기 오디오 인코더(100)는 상기 음성 신호(104)상의 성도(vocal tract)의 기여도를 추정하고, 상기 잔류 신호(120)를 획득하기 위하여 상기 음성 신호(104)로부터 상기 성도의 추정된 기여도를 제거하도록 구성되는,
오디오 인코더.
제6항에 있어서,
상기 오디오 인코더(100)는 선형 예측(linear prediction)을 사용하여 상기 음성 신호(104)상의 성도의 기여도를 추정하도록 구성되는,
오디오 인코더.
제1항에 있어서,
상기 오디오 인코더(100)는 상기 코드북 항목의 선택에 있어서 잡음의 영향이 감소되도록 상기 지각 가중 필터(W)를 조정하도록 구성되는,
오디오 인코더.
제1항에 있어서,
상기 오디오 인코더(100)는 상기 잡음에 의하여 더 적게 영향받는 상기 잔류 신호(120)의 부분과 양자화된 잔류 신호(126)의 대응하는 부분 사이의 오차(error)가 감소되도록 상기 지각 가중 필터(W)를 조정하도록 구성되는,
오디오 인코더.
제1항에 있어서,
상기 오디오 인코더(100)는 상기 지각 가중 필터(W)로 가중된 상기 잔류 신호의 합성되고 가중된 양자화 오차가 감소되도록 상기 잔류 신호(120)에 대한 상기 코드북 항목을 선택하도록 구성되는,
오디오 인코더.
제1항에 있어서,
상기 오디오 인코더(100)는 거리 함수
를 사용하여 상기 코드북 항목을 선택하도록 구성되되,

는 상기 잔류 신호를 나타내고,
은 상기 양자화된 잔류 신호를 나타내고,
는 상기 지각 가중 필터를 나타내고, 그리고
는 양자화된 성도 합성 필터(quantized vocal tract synthesis filter)를 나타내는,
오디오 인코더.
제1항에 있어서,
상기 오디오 인코더(100)는 상기 잡음 정보로서 음성 활성 검출(voice activity detection)을 위하여 상기 오디오 인코더(100)에서 이용가능한 상기 잡음의 형상 추정을 사용하도록 구성되는,
오디오 인코더.
제1항에 있어서,
상기 오디오 인코더(100)는 상기 잡음 정보(106)로부터 선형 예측 계수(linear prediction coefficients)를 도출하고, 상기 선형 예측 계수에 의해 선형 예측 적합도(linear prediction fit
)를 결정하고, 그리고 상기 지각 가중 필터(W)에서 상기 선형 예측 적합도(
)를 사용하도록 구성되는,
오디오 인코더.
제13항에 있어서,
상기 오디오 인코더(100)는
식을 사용하여 상기 지각 가중 필터를 조정하도록 구성되되,

는 상기 지각 가중 필터를 나타내고,
는 성도 모델(vocal tract model)을 나타내고,
은 상기 선형 예측 적합도를 나타내고,
는 양자화된 성도 합성 필터를 나타내고,
는 0.92이고, 그리고
는 잡음 억제량을 조정할 수 있는 파라미터인,
오디오 인코더.
음성 신호(104)에 기초하여 인코딩된 표현을 제공하기 위한 방법으로서,
상기 음성 신호(104)에 포함된 잡음을 기술하는 잡음 정보(106)를 획득하는 단계;
상기 음성 신호(104)에 포함된 잡음에 의하여 더 많은 영향을 받는 상기 음성 신호(104)의 부분보다 상기 음성 신호(104)에 포함된 잡음에 의하여 더 적은 영향을 받는 상기 음성 신호(104)의 부분에 대하여 인코딩 정확도가 더 높도록, 상기 잡음 정보(106)에 따라 상기 음성 신호(104)를 적응적으로 인코딩하는 단계 - 상기 잡음에 의해 더 적게 손상된 주파수 성분들은 보다 적은 오류를 가지면서 양자화되고, 반면에 상기 잡음으로부터 오류를 포함할 가능성이 있는 성분들은 양자화 프로세스에서 더 낮은 가중치를 가짐-;
상기 음성 신호(104)로부터 잔류 신호(residual signal; 120)를 도출하고 코드북(122)을 사용하여 상기 잔류 신호(120)를 인코딩하는 단계;
상기 잡음 정보(106)에 따라 상기 잔류 신호(120)를 인코딩하기 위한 코드북(122)의 복수의 코드북 항목들 중에서 하나의 코드북 항목을 선택하는 단계;
지각 가중 필터(perceptual weighting filter; W)를 사용하여 상기 코드북 항목을 선택하는 단계;
상기 잡음에 의하여 더 많이 영향 받는 상기 음성 신호(104)의 부분보다 상기 잡음에 의하여 더 적게 영향 받는 상기 음성 신호(104)의 부분이 상기 코드북 항목의 선택에 대하여 더 많이 가중되도록 상기 지각 가중 필터(W)를 조정하는 단계; 및
지각 가중 필터(W)로 가중된 잔류 신호의 합성되고 가중된 양자화 오류(126)가 감소하거나 또는 최소화하도록 상기 잔류 신호(120)에 대하여 상기 코드북 항목을 선택하는 단계를 포함하는,
오디오 신호에 기초하여 인코딩된 표현을 제공하기 위한 방법.
제15항에 따른 방법을 수행하기 위한 컴퓨터 프로그램이 저장된 컴퓨터 판독가능 디지털 저장 매체.
음성 신호(speech signal; 104)에 기초하여 인코딩된 표현(102)을 제공하기 위한 오디오 인코더(100)로서,
상기 오디오 인코더(100)는 배경 잡음(background noise)을 기술하는 잡음 정보(106)를 획득하도록 구성되고, 그리고 상기 오디오 인코더(100)는 상기 잡음 정보(106)에 따라 상기 음성 신호(104)를 인코딩하기 위하여 사용되는 지각 가중 필터(perceptual weighting filter; W)를 조정함으로써 상기 잡음 정보(106)에 따라 상기 음성 신호(104)를 적응적으로 인코딩하도록 구성되고,
상기 오디오 인코더(100)는 상기 음성 신호(104)로부터 잔류 신호(120)를 도출하고 코드북(122)을 사용하여 상기 잔류 신호(120)를 인코딩하도록 구성되고,
상기 오디오 인코더(100)는 상기 잡음 정보(106)에 따라 상기 잔류 신호(120)를 인코딩하기 위한 코드북(120)의 복수의 코드북 항목 중에서 하나의 코드북 항목을 선택하도록 구성되고,
상기 오디오 인코더(100)는 상기 잡음에 의하여 더 많이 영향받는 상기 음성 신호(104)의 부분보다 상기 잡음에 의하여 더 적게 영향받는 상기 음성 신호(104)의 부분이 상기 코드북 항목의 선택에 대하여 더 많이 가중되도록 상기 지각 가중 필터(W)를 조정하도록 구성되고,
상기 오디오 인코더(100)는 지각 가중 필터(W)로 가중된 잔류 신호의 합성되고 가중된 양자화 오류(126)가 감소하거나 또는 최소화하도록 상기 잔류 신호(120)에 대하여 상기 코드북 항목을 선택하도록 구성되는,
오디오 인코더.
제17항에 있어서,
상기 오디오 인코더(100)는 거리 함수
를 사용하여 상기 코드북 항목을 선택하도록 구성되되,

는 상기 잔류 신호를 나타내고,
은 상기 양자화된 잔류 신호를 나타내고,
는 상기 지각 가중 필터를 나타내고, 그리고
는 양자화된 성도 합성 필터(quantized vocal tract synthesis filter)를 나타내는,
오디오 인코더.
제17항에 있어서,
상기 오디오 인코더(100)는 상기 잡음 정보(106)로부터 선형 예측 계수(linear prediction coefficients)를 도출하고, 상기 선형 예측 계수에 의해 선형 예측 적합도(linear prediction fit
)를 결정하고, 그리고 상기 지각 가중 필터(W)에서 상기 선형 예측 적합도(
)를 사용하도록 구성되는,
오디오 인코더.
제17항에 있어서,
상기 오디오 인코더(100)는
식을 사용하여 상기 지각 가중 필터를 조정하도록 구성되되,

는 상기 지각 가중 필터를 나타내고,
는 성도 모델(vocal tract model)을 나타내고,
은 선형 예측 적합도를 나타내고,
는 양자화된 성도 합성 필터를 나타내고,
는 0.92이고, 그리고
는 잡음 억제량을 조절할 수 있는 파라미터인,
오디오 인코더.
음성 신호(speech signal; 104)에 기초하여 인코딩된 표현(102)을 제공하기 위한 오디오 인코더(100)로서,
상기 오디오 인코더(100)는 상기 음성 신호(104)에 포함된 잡음을 기술하는 잡음 정보(106)를 획득하도록 구성되고, 그리고 상기 오디오 인코더(100)는 상기 음성 신호(104)에 포함된 잡음에 의하여 더 많은 영향을 받는 상기 음성 신호(104)의 부분보다 상기 음성 신호(104)에 포함된 잡음에 의하여 더 적은 영향을 받는 상기 음성 신호(104)의 부분에 대하여 인코딩 정확도가 더 높도록, 상기 잡음 정보(106)에 따라 상기 음성 신호(104)를 적응적으로 인코딩하도록 구성되고,
상기 오디오 인코더(100)는 상기 음성 신호(104)로부터 잔류 신호(residual signal; 120)를 도출하고 코드북(122)을 사용하여 상기 잔류 신호(120)를 인코딩하도록 구성되고,
상기 오디오 인코더(100)는 상기 잡음 정보(106)에 따라 상기 잔류 신호(120)를 인코딩하기 위한 코드북(122)의 복수의 코드북 항목들 중에서 하나의 코드북 항목을 선택하도록 구성되고,
상기 오디오 인코더(100)는 상기 잡음 정보(106)로부터 선형 예측 계수(linear prediction coefficients)를 도출하고, 상기 선형 예측 계수에 의해 선형 예측 적합도((linear prediction fit
)를 결정하고, 그리고 지각 가중 필터(perceptual weighting filter; W)에서 상기 선형 예측 적합도(
)를 사용하도록 구성되고,
상기 오디오 인코더(100)는
식을 사용하여 상기 지각 가중 필터(W)를 조정하도록 구성되되,

는 상기 지각 가중 필터를 나타내고,
는 성도 모델(vocal tract model)을 나타내고,
은 상기 선형 예측 적합도를 나타내고,
는 양자화된 성도 합성 필터를 나타내고,
는 0.92이고, 그리고
는 잡음 억제량을 조정할 수 있는 파라미터인,
오디오 인코더.
삭제
삭제
삭제
삭제
삭제
삭제