KR101831088B1

KR101831088B1 - 오디오 신호를 인코딩하기 위한 인코더, 오디오 전송 시스템 및 보정값들을 결정하기 위한 방법

Info

Publication number: KR101831088B1
Application number: KR1020167015045A
Authority: KR
Inventors: 콘스탄틴 슈미츠; 기욤 훅스; 마티아스 뉴싱거; 마틴 디이츠
Original assignee: 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date: 2013-11-13
Filing date: 2014-11-06
Publication date: 2018-02-21
Also published as: BR112016010197A2; MX356164B; AU2014350366B2; BR112016010197B1; MX2016006208A; CA2928882C; US9818420B2; KR20160079110A; JP2017501430A; ES2716652T3; CN105723455B; US10229693B2; TW201523594A; PL3069338T3; US10720172B2; AU2014350366A1; TWI571867B; RU2016122865A; PT3069338T; CN111179953A

Abstract

오디오 신호를 인코딩하기 위한 인코더는 오디오 신호를 분석하고, 오디오 신호로부터 분석 예측 계수를 결정하기 위해 구성된 분석기를 포함한다. 인코더는 분석 예측 계수로부터 변환된 예측 계수들을 도출하기 위해 구성된 변환기, 다수의 보정값들을 저장하기 위해 구성된 메모리와 계산기를 더 포함한다. 계산기는 스펙트럼 가중치들을 얻도록 변환된 예측 계수들을 처리하기 위해 구성된 프로세서를 포함한다. 계산기는 보정된 가중치들을 얻도록 스펙트럼 가중치들과 다수의 보정값을 조합하기 위해 구성된 조합기를 더 포함한다. 계산기의 양자화기는 변환된 예측 계수의 양자화된 표현을 얻도록 보정된 가중치들을 이용하여 변환된 예측 계수들을 양자화하기 위해 구성된다. 인코더는 변환된 예측 계수의 양자화된 표현과 오디오 신호에 기초하여 출력 신호를 형성하기 위해 구성된 비트스트림 형성기를 포함한다.

Description

오디오 신호를 인코딩하기 위한 인코더, 오디오 전송 시스템 및 보정값들을 결정하기 위한 방법{ENCODER FOR ENCODING AN AUDIO SIGNAL, AUDIO TRANSMISSION SYSTEM AND METHOD FOR DETERMINING CORRECTION VALUES}

본 발명은 오디오 신호를 인코딩하기 위한 인코더, 오디오 전송 시스템, 보정값들을 결정하기 위한 방법 및 컴퓨터 프로그램에 관한 것이다. 본 발명은 또한 이미턴스(immittance) 스펙트럼 주파수/라인 스펙트럼 주파수 가중에 관한 것이다.

오늘날의 음성 및 오디오 코덱들에서는 선형 예측에 의해 음성 또는 오디오 신호의 스펙트럼 포락선(spectral envelope)을 추출하고, 또한 선형 예측 계수(Linear Prediction Coefficient; LPC)의 변환을 양자화하고 코딩하는 것이 현재의 기술 수준(state of the art)이다. 이러한 변환은 예를 들어 라인 스펙트럼 주파수(LSF) 또는 이미턴스 스펙트럼 주파수(ISF)이다.

벡터 양자화(VQ)는 일반적으로 성능의 증가로 인해 LPC 양자화를 위한 스칼라 양자화보다 선호된다. 그러나, 최적의 LPC 코딩은 LSF들 또는 ISF들의 벡터의 각각의 주파수에 대한 상이한 스칼라 감도를 나타내는 것이 관찰되었다. 직접적인 결과로서, 양자화 단계에서 메트릭(metric)으로서 고전적인 유클리드 거리(classical Euclidean distance)를 이용하는 것은 차선 시스템(suboptimal system)으로 이어질 것이다. LPC 양자화의 성능은 일반적으로 유클리드 거리와 직접 비례 관계가 없는 대수 스펙트럼 거리(Logarithmic Spectral Distance; LSD) 또는 가중 대수 스펙트럼 거리(WLSD)와 같은 거리에 의해 측정된다는 사실에 의해 설명될 수 있다.

LSD는 원래의 LPC 계수들 및 이들의 양자화된 버전의 스펙트럼 포락선의 유클리드 거리의 대수로 정의된다. WLSD는 저주파가 고주파보다 지각적으로 더 관련성이 있음을 고려하는 가중된 버전이다.

LSD 및 WLSD 모두는 너무 복잡하여 LPC 양자화 방식 내에서 계산될 수 없다. 따라서 대부분의 LPC 코딩 방식은 간단한 유클리드 거리 또는 다음과 같이 정의된 (WED)의 가중된 버전을 이용한다:

여기서,

은 양자화될 파라미터이고,

는 양자화된 파라미터이다. w는 어떤 계수에는 더 많은 왜곡을 주고, 다른 계수에는 왜곡을 덜 주는 가중치이다.

Laroia 등 [1]은 포먼트 영역들(formant regions)에 근접된 LSF들에 더 많은 중요성을 부여하는 가중치를 계산하는 역 조화 평균(inverse harmonic mean)으로 알려진 경험적 접근 방식(heuristic approach)을 제시하였다. 두 LSF 파라미터들이 서로 근접하면, 신호 스펙트럼은 해당 주파수 부근의 피크를 포함할 것으로 예상된다. 그래서, 이의 이웃들(neighbors) 중 하나에 근접한 LSF는 높은 스칼라 감도를 가지고, 더 높은 웨이트가 부여되어야 한다:

첫번째 및 마지막 가중치는 이러한 의사 LSF들로 계산된다:

및

, 여기서 p는 LP 모델의 순서이다. 순서는 일반적으로 8 kHz에서 샘플링된 음성 신호에 대해서는 10이고, 16 kHz에서 샘플링된 음성 신호에 대해서는 16이다.

Gardner and Rao [2]는 (예를 들어 30 이상의 비트를 가진 VQ를 사용할 때) 고속 근사(high-rate approximation)로부터 LSF들에 대한 개별 스칼라 감도를 도출했다. 이러한 경우에, 도출된 가중치들은 최적이고 LSD를 최소화한다. 스칼라 가중치는 다음에 의해 주어지는 소위 민감도 매트릭스의 대각선을 형성한다:

여기서 R_A는 LPC 분석의 원래의 예측 계수로부터 도출된 합성 필터 1/A(z)의 임펄스 응답의 자기 상관 매트릭스이다. J_ω(ω)는 LSF들을 LPC 계수로 변환하는 야코비안(Jacobian) 매트릭스이다.

이러한 솔루션의 주요 단점은 감도 매트릭스를 계산하기 위한 계산 복잡성이다.

ITU 권고 G.718 [3]은 어떤 심리 음향 고려 사항(psychoacoustic consideration)들을 추가하여 Gardner의 접근 방식을 확장한다. 매트릭스 R_A를 고려하는 대신에, 그것은 지각 가중된 합성 필터 W(z)의 임펄스 응답을 고려한다:

여기서 W_B(z)는 저주파에 더 많은 중요성이 부여된 바크(Bark) 가중 필터에 근사한 IIR 필터이다. 그 다음, 감도 매트릭스는 1/A(z)를 W(z)으로 대체하여 계산된다.

G.718에 사용되는 가중치기 이론적으로 거의 최적의 접근 방식이지만, 그것은 Gardner의 접근 방식으로부터 매우 높은 복잡성을 물려받는다. 오늘날의 오디오 코덱은 복잡성의 제한으로 표준화되며, 따라서 지각 품질면에서 복잡성 및 이득의 트레이드오프(tradeoff)가 이러한 접근 방식으로 만족되지 않는다.

Laroia 등에 의해 제시된 접근 방식은 차선 가중치(suboptimal weight)들을 산출할 수 있지만 복잡성이 낮다. 이러한 방식으로 생성된 가중치는 인간의 귀 감도가 매우 비선형적일지라도 전체 주파수 범위를 균등하게 처리한다. 저주파의 왜곡은 고주파의 왜곡보다 훨씬 더 가청적이다.

따라서, 인코딩 방식을 개선하기 위한 필요성이 존재한다.

본 발명의 목적은 인코딩된 오디오 신호를 디코딩할 때 양호한 오디오 품질을 유지하면서 알고리즘의 계산 복잡성 및/또는 이의 증가된 정확성을 갖는 인코딩 방식을 제공하기 위한 것이다.

이러한 목적은 제 1 항에 따른 인코더에 의해 달성되며, 제 10 항에 따른 오디오 전송 시스템, 제 11 항에 따른 방법 및 제 15 항에 따른 컴퓨터 프로그램에 의해 달성된다.

본 발명자들은, 낮은 계산 복잡성을 포함하는 방법을 사용하여 스펙트럼 가중치들을 결정하고, 미리 계산된 보정 정보를 사용하여 얻어진 스펙트럼 가중치들을 적어도 부분적으로 보정함으로써, 얻어진 보정된 스펙트럼 가중치들이 인코딩 정확성을 유지하면서 낮은 계산 노력으로 오디오 신호의 인코딩 및 디코딩을 허용하고/하거나 감소된 라인 스펙트럼 거리(LSD)를 감소시킬 수 있다.

본 발명의 실시예에 따르면, 오디오 신호를 인코딩하기 위한 인코더는 오디오 신호를 분석하고, 오디오 신호로부터 분석 예측 계수를 결정하기 위한 분석기를 포함한다. 인코더는 분석 예측 계수로부터 변환된 예측 계수들을 도출하기 위해 구성된 변환기 및 다수의 보정값을 저장하기 위해 구성된 메모리를 더 포함한다. 인코더는 계산기 및 비트스트림 형성기(bitstream former)를 더 포함한다. 계산기는 프로세서, 조합기 및 양자화기를 포함하며, 프로세서는 스펙트럼 가중치들을 얻도록 변환된 예측을 처리하기 위해 구성된다. 조합기는 보정된 가중치들을 얻도록 스펙트럼 가중치들과 다수의 보정값을 조합하기 위해 구성된다. 양자화기는 변환된 예측 계수, 예를 들어, 데이터베이스에서 예측 계수의 진입(entry)에 관련된 값의 양자화된 표현을 얻도록 보정된 가중치들을 이용하여 변환된 예측 계수들을 양자화하기 위해 구성된다. 비트스트림 형성기는 변환된 예측 계수의 양자화된 표현에 관련된 정보와 오디오 신호에 기초하여 출력 신호를 형성하기 위해 구성된다. 본 실시예의 이점은 프로세서가 낮은 계산 복잡성을 포함하는 방법 및/또는 개념을 이용하여 스펙트럼 가중치들을 얻을 수 있다는 것이다. 다른 개념 또는 방법에 대하여 아마 얻어진 에러는 다수의 보정값을 적용함으로써 적어도 부분적으로 보정될 수 있다. 이것은 [3]에 기초한 결정 규칙에 비해 감소된 가중 도출의 계산 복잡성 및 [1]에 따른 결정 규칙에 비해 감소된 LSD들을 허용한다.

추가의 실시예들은 조합기가 스펙트럼 가중치들, 다수의 보정값, 및 보정된 가중치들을 얻기 위해 입력 신호에 관련된 추가 정보를 조합하기 위해 구성되는 인코더를 제공한다. 입력 신호에 관련된 추가 정보를 이용함으로써, 추가 정보가 재순환될 수 있도록 특히 입력 신호에 관련된 추가 정보가 다른 인코딩 단계 동안 적어도 부분적으로 얻어지는 경우, 얻어진 보정된 가중치들의 추가의 향상(enhancement)은 낮은 계산 복잡성을 유지하면서 달성될 수 있다.

추가의 실시예들은 조합기가 매 사이클에서 보정된 가중치들을 순환적으로 얻기 위해 구성되는 인코더를 제공한다. 제 1 및 제 2 양자화된 가중치들의 값들 사이의 값을 포함하는 평활화 보정된 가중치들을 얻기 위해 계산기는 이전 사이클 동안에 얻어진 제 1 양자화된 가중치들과 이전 사이클에 뒤따른 사이클 동안에 얻어진 제 2 양자화된 가중치들을 가중하여 조합하기 위해 구성된 평활화기를 포함한다. 이것은 특히 2개의 연속적인 사이클의 보정된 가중치들이 각각 비교될 때 큰 차이를 포함하도록 결정되는 경우에 전이 왜곡의 감소 또는 방지를 허용한다.

추가의 실시예들은 인코더의 출력 신호 또는 그것에 관하여 도출된 신호를 수신하고, 합성된 오디오 신호를 제공하기 위해 수신된 신호를 디코딩하기 위해 구성된 디코더 및 인코더를 포함하는 오디오 전송 시스템을 제공하며, 인코더의 출력 신호는 유선 매체 또는 무선 매체와 같은 전송 매체를 통해 전송된다. 오디오 전송 시스템의 이점은 디코더가 변경되지 않은 방법에 기초하여 각각 출력 신호 및 오디오 신호를 디코딩할 수 있다는 것이다.

추가의 실시예들은 제 1 다수의 제 1 가중치들에 대한 보정값을 결정하기 위한 방법을 제공한다. 각각의 가중치들은 예를 들어 라인 스펙트럼 주파수 또는 이미턴스 스펙트럼 주파수로 표현되는 오디오 신호의 부분을 가중하기 위해 구성된다. 제 1 다수의 제 1 가중치들은 각각의 오디오 신호에 대한 제 1 결정 규칙에 기초하여 결정된다. 제 2 다수의 제 2 가중치들은 제 2 결정 규칙에 기초하여 오디오 신호들의 세트 중 각각의 오디오 신호에 대해 계산된다. 제 2 다수의 제 2 가중치들의 각각은 제 1 가중치들에 관련되며, 즉 가중치들은 상이할 수 있는 두 결과를 얻기 위해 제 1 결정 규칙 및 제 2 결정 규칙에 기초하여 오디오 신호의 부분에 대해 결정될 수 있다. 제 3 다수의 거리 값이 계산되며, 거리 값은 제 1 가중치와 제 2 가중치 사이의 거리에 관련된 값을 가지며, 제 1 가중치와 제 2 가중치 모두는 오디오 신호의 부분에 관련된다. 제 1 가중치가 제 4 다수의 보정값과 조합되는 경우, 보정된 제 1 가중치들 사이의 거리가 제 2 가중치에 비해 감소되도록 제 4 다수의 보정값은 계산되어 제 1 가중치와 조합될 때 거리 값을 감소시키기 위해 구성된다. 이것은 높은 계산 복잡성 및/또는 높은 정확성을 포함하는 제 2 결정 규칙에 기초한 하나의 시간과, 낮은 계산 복잡성을 포함할 수 있고 낮은 정확성을 포함할 수 있는 제 1 결정 규칙에 기초한 다른 시간을 설정한 트레이닝(training) 데이터에 기초하여 가중치를 계산하는 것을 허용하며, 낮은 정확성은 보정에 의해 적어도 부분적으로 보상되거나 감소된다.

추가의 실시예들은 거리가 다항식을 구성함으로써 감소되는 방법을 제공하고, 다항식 계수들은 보정값에 관계한다. 추가의 실시예들은 컴퓨터 프로그램을 제공한다.

본 발명의 바람직한 실시예들은 첨부한 도면을 참조하여 상세히 설명될 것이다.

도 1은 실시예에 따른 오디오 신호를 인코딩하기 위한 인코더의 개략적인 블록도를 도시한다.
도 2는 도 1에 도시된 계산기에 비해 계산기가 수정되는 실시예에 따른 계산기의 개략적인 블록도를 도시한다.
도 3은 실시예에 따른 스펙트럼 분석기 및 스펙트럼 프로세서를 추가적으로 포함하는 인코더의 개략적인 블록도를 도시한다.
도 4a는 실시예에 따라 결정된 예측 계수들에 기초하여 변환기에 의해 얻어지는 라인 스펙트럼 주파수들의 16 값들을 포함하는 벡터를 예시한다.
도 4b는 실시예에 따른 조합기에 의해 실행되는 결정 규칙을 예시한다.
도 4c는 실시예에 따라 획득한 보정된 가중치의 단계를 예시하기 위한 예시적인 결정 규칙을 도시한다.
도 5a는 실시예에 따라 변환된 예측 계수의 양자화된 표현을 결정하기 위해 양자화기에 의해 구현될 수 있는 예시적인 결정 방식을 도시한다.
도 5b는 실시예에 따른 세트에 조합될 수 있는 양자화 값들의 예시적인 벡터를 도시한다.
도 6은 실시예에 따른 오디오 전송 시스템의 개략적인 블록도를 도시한다.
도 7은 보정값을 유도하는 실시예를 예시한다.
도 8은 실시예에 따라 오디오 신호를 인코딩하기 위한 방법의 개략적인 흐름도를 도시한다.

동일하거나 동등한 요소들 또는 동일하거나 동등한 기능을 갖는 요소들은 상이한 도면에서 발생할지라도 다음의 설명에서 동일하거나 동등한 참조 번호로 나타낸다.

다음의 설명에서, 본 발명의 실시예들에 대한 더욱 철저한 설명을 제공하기 위해 복수의 상세 사항이 설명된다. 그러나, 본 발명의 실시예들은 이들 특정 상세 사항 없이 실시될 수 있다는 것이 당업자에게는 자명할 것이다. 다른 경우에, 본 발명의 실시예들을 모호하게 하는 것을 피하기 위해 잘 알려진 구조 및 장치는 상세함보다는 블록도 형태로 도시된다. 게다가, 이하 설명되는 상이한 실시예들의 특징들은 특별히 달리 언급되지 않으면 서로 조합될 수 있다.

도 1은 오디오 신호를 인코딩하기 위한 인코더(100)의 개략적인 블록도를 도시한다. 오디오 신호는 오디오 신호의 프레임(102)의 시퀀스로서 인코더(100)에 의해 획득될 수 있다. 인코더(100)는 프레임(102)을 분석하고 오디오 신호(102)로부터 분석 예측 계수(112)를 결정하기 위한 분석기를 포함한다. 분석 예측 계수(예측 계수)(112)는 예를 들어 선형 예측 계수(LPC)로서 획득될 수 있다. 대안적으로, 또한 비선형 예측 계수가 획득될 수 있으며, 선형 예측 계수는 적은 계산 능력을 이용하여 획득될 수 있으며, 따라서 더 빠르게 획득될 수 있다.

인코더(100)는 예측 계수(112)로부터 변환된 예측 계수(122)를 도출하기 위해 구성된 변환기(120)를 포함한다. 변환기(120)는 예를 들어 라인 스펙트럼 주파수(LSF) 및/또는 이미턴스 스펙트럼 주파수(ISF)를 얻도록 변환된 예측 계수(122)를 결정하기 위해 구성될 수 있다. 변환된 예측 계수(122)는 예측 계수(112)에 비해 나중 양자화에서 양자화 에러에 대해 높은 견고성(robustness)을 포함할 수 있다. 양자화가 일반적으로 비선형적으로 수행됨에 따라, 선형 예측 계수를 양자화하는 것은 디코딩된 오디오 신호의 왜곡으로 이어질 수 있다.

인코더(100)는 계산기(130)를 포함한다. 계산기(130)는 스펙트럼 가중치(142)를 얻기 위해 변환된 예측 계수(122)를 처리하도록 구성되는 프로세서(140)를 포함한다. [1]에서 알려진 바와 같이 역 조화 평균(IHM)과 같은 복수의 공지된 결정 규칙들 중 하나 이상에 기초하여 또는 [2]에서 설명된 바와 같이 더 복잡한 접근 방식에 따라 프로세서는 가중치(142)를 계산하고/하거나 결정하도록 구성될 수 있다. 국제 전기 통신 연합(ITU) 표준 G.718는 [3]에서 설명되어 있는 바와 같이 [2]의 접근 방식을 확장함으로써 가중치들을 결정하는 추가의 접근 방식을 설명한다. 바람직하게는, 프로세서(140)는 낮은 계산 복잡성을 포함하는 결정 규칙에 기초하여 가중치들(142)을 결정하도록 구성된다. 이것은 적은 계산 노력들에 기초하여 적은 에너지를 소비할 수 있는 하드웨어로 인해 인코딩된 오디오 신호들의 높은 처리량 및/또는 인코더(100)의 간단한 실현을 허용할 수 있다.

계산기(130)는 보정된 가중치들(152)을 얻도록 스펙트럼 가중치들(142)과 다수의 보정 값들(162)을 조합하기 위해 구성된 조합기(150)를 포함한다. 다수의 보정 값들은 보정 값들(162)을 저장하는 메모리(160)로부터 제공된다. 보정 값(162)은 정적 또는 동적일 수 있으며, 즉 보정 값들(162)은 인코더(100)의 동작 동안 업데이트될 수 있거나, 동작 중에 변하지 않을 수 있고/있거나, 인코더(100)를 교정하기 위한 교정 절차 동안 업데이트만 될 수 있다. 바람직하게는, 메모리(160)는 정적 보정 값들(162)을 포함한다. 후술되는 바와 같이, 보정 값들(162)은 예를 들어 사전 계산 절차에 의해 획득될 수 있다. 대안적으로, 메모리(160)는 대안적으로 점선으로 나타낸 바와 같이 계산기(130)로 구성될 수 있다.

계산기(130)는 보정된 가중치들(152)을 이용하여 변환된 예측 계수들(122)을 양자화하기 위해 구성된 양자화기(170)를 포함한다. 양자화기(170)는 변환된 예측 계수들(122)의 양자화된 표현(172)을 출력하도록 구성된다. 양자화기(170)는 각각 선형 양자화기, 대수 양자화기 또는 벡터형 양자화기와 같은 비선형 양자화기, 벡터 양자화기일 수 있다. 벡터형 양자화기는 보정된 가중치들(152)의 복수의 부분들을 복수의 양자화된 값들(부분들)로 양자화하도록 구성될 수 있다. 양자화기(170)는 보정된 가중치들(152)로 변환된 예측 계수들(122)을 가중하기 위해 구성될 수 있다. 양자화기는 또한 양자화기(170)의 데이터베이스의 엔트리들에 대한 가중 변환된 예측 계수들(122)의 거리를 결정하고, 데이터베이스 내의 엔트리와 관련된 코드 워드(표현)를 선택하기 위해 구성될 수 있으며, 엔트리는 가중 변환된 예측 계수들(122)에 대한 최저 거리를 포함할 수 있다. 이러한 절차는 예시적으로 후술된다. 양자화기(170)는 스토캐스틱(stochastic) 벡터 양자화기(Vector Quantizer; VQ)일 수 있다. 대안적으로, 양자화기(170)는 또한 격자와 같은 다른 벡터 양자화기(VQ) 또는 임의의 스케일러 양자화기를 적용하기 위해 구성될 수 있다. 대안적으로, 양자화기(170)는 또한 선형 또는 대수 양자화를 적용하도록 구성될 수 있다.

변환된 예측 계수(122)의 양자화된 표현(172), 즉 코드 워드는 인코더(100)의 비트스트림 형성기(180)에 제공된다. 인코더(100)는 오디오 신호(102)의 오디오 정보의 일부 또는 전부 및/또는 추가 정보를 처리하기 위해 구성된 오디오 처리 유닛(190)을 포함할 수 있다. 오디오 처리 유닛(190)는 유성음 신호 정보 또는 무성음 신호 정보와 같은 오디오 데이터(192)를 비트스트림 형성기(180)에 제공하기 위해 구성된다. 비트스트림 형성기(180)는 변환된 예측 계수(122)의 양자화된 표현(172)과, 오디오 신호(102)에 기초하는 오디오 정보(192)에 기초하여 출력 신호(비트스트림)(182)를 형성하기 위해 구성된다.

인코더(100)의 이점은 프로세서(140)가 낮은 계산 복잡성을 포함하는 결정 규칙을 사용하여 가중치(142)를 획득하도록, 즉 계산하도록 구성될 수 있다는 것이다. 보정값(162)은, 단순한 방식으로 표현되는 경우, (기준) 결정 규칙에 의해 얻어진 가중치들의 세트를 높은 계산 복잡성과 비교하지만, 따라서 높은 정확성 및/또는 양호한 오디오 품질, 및/또는 프로세서(140)에 의해 실행되는 결정 규칙에 의해 얻어진 가중치들을 가진 낮은 LSD를 포함함으로써 얻어질 수 있다. 이것은 다수의 오디오 신호에 대해 행해질 수 있으며, 오디오 신호들의 각각에 대해, 다수의 가중치들은 두 결정 규칙에 기초하여 얻어진다. 각각의 오디오 신호에 대해, 얻어진 결과는 불일치 또는 에러에 관련된 정보를 얻기 위해 비교될 수 있다. 불일치 또는 에러에 관련된 정보는, 낮은 계산 복잡성을 가진 결정 규칙을 실행할 경우 기준 결정 규칙에 대하여 프로세서(140)에 의해 생성되는 평균 에러에 관련된 정보를 얻기 위해 다수의 오디오 신호에 대해 되고/되거나 평균화될 수 있다. 평균 에러 및/또는 불일치에 관련된 얻어진 정보는 가중치(142)가 평균 에러를 감소시키거나 보상하기 위해 조합기에 의해 보정 값(162)과 조합되도록 보정 값(162)으로 나타낼 수 있다. 이것은 여전히 가중치(142)의 덜 복잡한 결정을 허용하면서 오프라인에 사용된 기준 결정 규칙에 비해 가중치(142)의 에러를 감소시키거나 거의 보상하는 것을 허용한다.

도 2는 수정된 계산기(130')의 개략적인 블록도를 도시한다. 계산기(130')는 변환된 예측 계수들을 나타내는 LSF(122')에서 역 조화 평균(IHM) 가중치들을 계산하기 위해 구성된 프로세서(140')를 포함한다. 계산기(130')는, 조합기(150)에 비교할 때, 프로세서(140')의 IHM 웨이트들(142'), 보정값들(162)과, "반사 계수들(reflection coefficients)"로 나타내는 오디오 신호(102)의 추가 정보(114)를 조합하기 위해 구성되는 조합기(150')를 포함하며, 추가 정보(114)는 이에 한정되지 않는다. 추가 정보는 다른 인코딩 단계의 중간 결과(interim result)일 수 있으며, 예를 들어, 반사 계수들(114)은 도 1에 설명된 바와 같이 예측 계수들(112)을 결정하는 동안 분석기(110)에 의해 획득될 수 있다. 반사 알고리즘이 결정되는 레빈슨-더빈(Levinson-Durbin) 알고리즘에 따라 결정 규칙을 실행할 경우에 선형 예측 계수들은 분석기(110)에 의해 결정될 수 있다. 파워 스펙트럼에 관련된 정보는 또한 예측 계수들(112)을 계산하는 동안 획득될 수 있다. 조합기(150')의 가능한 구현은 나중에 설명된다. 대안적으로 또는 부가적으로, 추가 정보(114)는 가중치들(142 또는 142') 및 보정 파라미터(162), 예를 들어, 오디오 신호(102)의 파워 스펙트럼에 관련된 정보와 조합될 수 있다. 추가 정보(114)는 계산기(130 또는 130')에 의해 결정된 가중치들(142 또는 142')과 기준 웨이트들들 사이의 차이를 더 감소시킬 수 있다. 계산 복잡성의 증가는 추가 정보(114)가 오디오 인코딩의 다른 단계 동안 분석기(110)와 같은 다른 구성 요소에 의해 이미 결정될 수 있을 때에만 작은 효과를 가질 수 있다.

계산기(130')는 조합기(150')로부터의 보정된 가중치들(152')과 평활기(155)의 동작(ON/OFF 상태)을 제어할 수 있는 선택적 정보(157)(제어 플래그)를 수신하기 위해 구성된 평활기(155)를 더 포함한다. 제어 플래그(157)는 예를 들어 귀에 거슬리는 전환(harsh transitions)을 감소시키기 위해 평활이 수행되는 것을 나타내는 분석기로부터 획득될 수 있다. 평활기(155)는 오디오 신호의 이전의 프레임 또는 서브프레임에 대해 결정되는 보정된 가중치, 즉 ON 상태에서 이전의 사이클에 결정되는 보정된 가중치의 지연된 표현인 보정된 가중치들(152') 및 보정된 가중치들(152''')을 조합하기 위해 구성된다. 평활기(155)는 무한 임펄스 응답(IIR) 필터로서 구현될 수 있다. 따라서, 계산기(130')는 제 1 사이클에서 평활기(155)에 의해 제공되는 보정된 가중치들(152'')을 수신하고 지연하여, 이들 가중치들을 다음 사이클에서 보정된 가중치들(152''')로서 제공하기 위해 구성된 지연 블록(159)을 포함한다.

지연 블록(159)은 예를 들어 지연 필터 또는 수신되는 보정된 가중치들(152'')을 저장하기 위해 구성된 메모리로서 구현될 수 있다. 평활기(155)는 과거로부터 수신되는 보정된 가중치들(152') 및 수신되는 보정된 가중치들(152''')을 가중하여 조합하기 위해 구성된다. 예를 들어, (현재) 보정된 가중치들(152')은 평활화되는 보정된 가중치들(152'')에서 25%, 50%, 75% 또는 임의의 다른 값의 몫(share)을 포함할 수 있으며, (과거) 가중치들(152''')은 (보정된 가중치들(152')의 1 몫)의 몫을 포함할 수 있다. 이것은 오디오 신호, 즉 이의 2개의 후속하는 프레임이 디코딩된 오디오 신호의 왜곡을 초래하는 상이한 보정된 가중치를 생성할 경우에 후속하는 오디오 프레임들 간의 귀에 거슬리는 전환을 회피할 수 있다. OFF 상태에서, 평활기(155)는 보정된 가중치들(152')을 전달하기 위해 구성된다. 대안적으로 또는 부가적으로, 평활화는 고 레벨의 주기성을 포함하는 오디오 신호에 대한 오디오 품질을 증가시킬 수 있다.

대안적으로, 평활기(155)는 추가적으로 더 이전의 사이클의 보정된 가중치들을 조합하도록 구성될 수 있다. 대안적으로 또는 부가적으로, 변환된 예측 계수(122')는 또한 이미턴스 스펙트럼 주파수일 수 있다.

가중치 w_i는 예를 들어 역 조화 평균(IHM)에 기초하여 획득될 수 있다. 결정 규칙은 아래의 식에 기초할 수 있다:

여기서 w_i는 인덱스 i를 가진 결정된 웨이트(142')를 나타내고, LSF_i는 인덱스 i를 가진 라인 스펙트럼 주파수를 나타낸다. 인덱스 i는 획득된 스펙트럼 가중치들의 수에 대응하고, 스펙트럼 분석기에 의해 결정된 예측 계수의 수와 동일할 수 있다. 예측 계수의 수 및 따라서 변환된 계수의 수는 예를 들어 16일 수 있다. 대안적으로, 이러한 수는 또한 8 또는 32일 수 있다. 대안적으로, 예를 들어, 변환된 계수(122)가 예측 계수의 수에 비해 적은 수를 포함할 수 있는 이미턴스 스펙트럼 주파수로서 결정되는 경우, 변환된 계수의 수는 또한 예측 계수들의 수보다 낮을 수 있다.

다시 말하면, 도 2는 변환기(120)에 의해 실행되는 웨이트의 도출 단계에서 행해진 처리를 상세히 예시한다. 먼저 IHM 웨이트는 LSF들로부터 계산된다. 일 실시예에 따르면, 16의 LPC 차수(order)는 16 kHz에서 샘플링된 신호를 위해 사용된다. 이것은 LSF들이 0과 8 kHz 사이에서 경계를 이룬다는 것을 의미한다. 추가의 실시예에 따르면, LPC는 차수 16의 것이고, 신호는 12.8 kHz에서 샘플링된다. 이 경우에, LSF들은 0과 6.4 kHz 사이에서 경계를 이룬다. 추가의 실시예에 따르면, 신호는 협대역 샘플링이라고 불리는 8 kHz에서 샘플링된다. 그 후, IHM 웨이트는 추가 정보와 조합될 수 있으며, 예를 들어 어떤 계수가 트레이닝 단계 동안 오프라인에서 최적화되는 다항식 내의 반사 계수 중 일부에 관련된다. 마지막으로, 얻어진 가중치는 예를 들어 정지 신호에 대해 어떤 경우에 웨이트들의 이전의 세트에 의해 평활화된다. 실시예에 따르면, 평활화는 수행되지 않는다. 다른 실시예에 따르면, 그것은 입력 프레임이 유성음인 것으로 분류될 때에만 수행되며, 즉 신호는 매우 주기적인 것으로 검출된다.

다음에는, 도출된 가중치를 보정하는 상세 사항에 대한 참조가 행해질 것이다. 예를 들어, 분석기는 차수 10 또는 16의 선형 예측 계수(LPC), 즉 10 또는 16 LPC의 수를 결정하도록 구성된다. 분석기가 또한 선형 예측 계수의 임의의 다른 수 또는 상이한 타입의 계수를 결정하도록 구성될 수 있지만, 이러한 계수의 수가 이동 통신에서 이용되는 바와 같이 다음의 설명은 16 계수를 참조하여 이루어진다.

도 3은 추가적으로 인코더(100)와 비교할 때 포함하는 스펙트럼 분석기(115) 및 스펙트럼 프로세서(145)를 포함하는 인코더(300)의 개략적인 블록도를 도시한다. 스펙트럼 분석기(115)는 오디오 신호(102)로부터 스펙트럼 파라미터(116)를 도출하기 위해 구성된다. 스펙트럼 파라미터는 예를 들어 오디오 신호 또는 이의 프레임의 스펙트럼의 포락선 곡선 및/또는 포락선 곡선을 특징으로 하는 파라미터일 수 있다. 대안적으로, 파워 스펙트럼에 관련된 계수가 획득될 수 있다.

스펙트럼 프로세서(145)는 스펙트럼 파라미터(116)에 기초하여 오디오 신호(102)의 스펙트럼의 주파수 빈(bin)들의 에너지에 대한 양 또는 측정치(146)를 계산하도록 구성되는 에너지 계산기(145a)를 포함한다. 스펙트럼 프로세서는 정규화된 예측 계수들(147)을 얻기 위해 변환된 예측 계수들(122')(LSF)를 정규화하기 위한 정규화기(145b)를 더 포함한다. 변환된 예측 계수들은 예를 들어 복수의 LSF의 최대값에 대해서 상대적으로 및/또는 사용된 계산 변수에 의해 예상되거나 표현할 수 있는 최대값과 같은 미리 정해진 값에 대해서는 절대적으로 정규화될 수 있다.

스펙트럼 프로세서(145)는 각각의 정규화된 예측 파라미터에 대한 빈 에너지를 결정하기 위해, 즉 정규화기(145b)로부터 획득되는 각각의 정규화된 예측 파라미터(147)를 각각의 LSF에 대한 빈 에너지를 포함하는 벡터 W1를 얻기 위해 계산된 측정치(146)에 관련시키기 위해 구성된다. 스펙트럼 프로세서(145)는 주파수 가중치를 포함하는 벡터 W2를 얻기 위해 각각의 정규화된 LSF에 대한 주파수 가중치를 찾기(결정하기) 위해 구성된 제 2 결정기(145d)를 더 포함한다. 추가 정보(114)는 벡터 W1 및 W2를 포함하며, 즉 벡터 W1 및 W2는 추가 정보(114)를 나타내는 특징(feature)이다.

프로세서(142')는 변환된 예측 파라미터(122') 및 IHM의 거듭제곱(power), 예를 들어 2 제곱에 기초하여 IHM을 결정하기 위해 구성되며, 대안적으로 또는 부가적으로, 또한 더 높은 거듭제곱이 계산될 수 있으며, IHM 및 이의 거듭제곱(들)은 가중치(142')를 형성한다.

조합기(150'')는 추가 정보(114) 및 가중치(142')에 기초하여 보정된 가중치(보정된 LSF 가중치)(152')를 결정하기 위해 구성된다.

대안적으로, 프로세서(140'), 스펙트럼 프로세서(145) 및/또는 조합기는 중앙 처리 유닛, (마이크로) 제어기, 프로그램 가능한 게이트 어레이 등과 같은 단일 처리 유닛으로서 구현될 수 있다.

다시 말하면, 조합기로의 제 1 및 2 엔트리는 IHM 및 IHM², 즉 가중치(142')이다. 제 3 엔트리는 각각의 LSF 벡터 요소 i에 대한 것이다:

여기서, wfft는 W1 및 W2의 조합이고, min은 wfft의 최소이다.

i = 0..M이고, M은 16 예측 계수가 오디오 신호로부터 도출될 경우에 16일 수 있으며,

binEner은 스펙트럼의 각각의 빈의 에너지를 포함하며, 즉, binEner는 측정치(146)에 대응한다.

매핑 binEner

는 스펙트럼 포락선의 포먼트(formant)의 에너지의 대략적인 근사치이다. FreqWTable는 유성음 또는 무성음인 입력 신호에 따라 선택되는 추가적인 가중치를 포함하는 벡터이다.

Wfft는 LSF 계수와 같은 예측 계수에 가까운 스펙트럼 에너지의 근사치이다. 간단히 말해서, 예측(LSF) 계수가 값 X를 포함하는 경우, 이것은 오디오 신호(프레임)의 스펙트럼이 주파수 X 이하에서 에너지 최대치(포먼트(formant))를 포함하는 것을 의미한다. wfft는 주파수 X에서의 에너지의 대수 표현이며, 즉 그것은 이러한 위치에서의 대수 에너지에 대응한다. 대안적으로 또는 부가적으로, 반사 계수를 추가 정보로서 이용할 시에 상술한 실시예에 비교하면, wfft(W1) 및 FrequWTable(W2)의 조합은 추가 정보(114)를 얻기 위해 사용될 수 있다. FreqWTable은 이용될 복수의 가능한 테이블들 중 하나를 나타낸다. 인코더(300)의 "코딩 모드", 예를 들어, 유성음, 마찰음 등에 기초하여, 복수의 테이블들 중 적어도 하나가 선택될 수 있다, 복수의 테이블들 중 하나 이상은 인코더(300)의 동작 동안 트레이닝(프로그램 및 적응)될 수 있다.

wfft를 사용하는 결과는 포먼트를 나타내는 변환된 예측 계수의 코딩을 향상시킬 것이다. 잡음이 상당량의 (신호) 에너지를 포함하는 주파수들에 있는 통상의 잡음 형상화(classical noise shaping)와는 대조적으로, 설명된 접근 방식은 스펙트럼 포락선 곡선을 양자화하는 것에 관한 것이다. 파워 스펙트럼이 변환된 예측 계수의 주파수를 포함하거나 이러한 주파수에 인접하여 배열된 주파수들에서 상당량의 에너지(큰 측정치)를 포함하는 경우, 이러한 변환된 예측 계수(LSF)는 낮은 에너지 측정치를 포함하는 다른 계수보다 더 양호하게 양자화될 수 있으며, 즉 높은 웨이트에 의해 달성된 낮은 에러로 양자화될 수 있다.

도 4a는 결정된 예측 계수들에 기초하여 변환기에 의해 얻어지는 결정된 라인 스펙트럼 주파수들의 엔트리의 16 값들을 포함하는 벡터 LSF를 예시한다. 프로세서는 또한 16 가중치, 예시적으로 벡터 IHM으로 나타낸 역 조화 평균 IHM을 획득하도록 구성된다. 보정값들(162)은 예를 들어 벡터 a, 벡터 b 및 벡터 c로 그룹화된다. 벡터들 a, b 및 c의 각각은 16 값들 a_1-16, b_1-16 및 c_1-16을 포함하며, 동일한 인덱스는 각각의 보정값이 예측 계수, 이의 변환된 표현 및 동일한 인덱스를 포함하는 가중치와 관련되는 것을 나타낸다. 도 4b는 실시예에 따라 조합기(150 또는 150')에 의해 실행되는 결정 규칙을 예시한다. 조합기는 식 y = a + bx + cx ²에 기초하여 다항식 함수에 대한 결과를 계산하거나 결정하기 위해 구성되며, 즉 상이한 보정값들 a, b, c는 (x로서 예시된) 가중치들의 상이한 거듭제곱과 조합(승산)된다. y는 얻어진 보정된 가중치들의 벡터를 나타낸다.

대안적으로 또는 부가적으로, 조합기는 또한 추가 보정값들(d, e, f, ...) 및 가중치 또는 추가 정보의 추가 거듭제곱을 가산하도록 구성될 수 있다. 예를 들어, 도 4b에 도시된 다항식은 추가 정보(114)의 3 제곱과 승산되는 16 값들을 포함하는 벡터 d, 또한 16 값들을 포함하는 각각의 벡터에 의해 확장될 수 있다. 이것은 도 3에서 설명된 바와 같이 프로세서(140')가 IHM의 추가 거듭제곱을 결정하도록 구성되는 경우에 예를 들어 벡터 IHM³에 기초한 벡터일 수 있다. 대안적으로, 단지 적어도 벡터 b 및 선택적으로 고차 벡터 c, d, ... 중 하나 이상이 계산될 수 있다. 간략하게 해서, 다항식의 차수는 각 항에 따라 증가하며, 각 타입은 가중치에 기초하고/하거나 선택적으로 추가 정보에 기초하여 형성될 수 있으며, 다항식은 고차의 항을 포함할 경우에도 식 y = a + bx + cx ² 에 기초한다. 보정값들 a, b, c 및 선택적으로 d, e, ...는 실수 값 및/또는 허수 값을 포함할 수 있고, 또한 0의 값을 포함할 수 있다.

도 4c는 보정된 가중치(152 또는 152')를 획득하는 단계를 예시하기 위한 예시적인 결정 규칙을 도시한다. 보정된 가중치는 16 값들을 포함하는 벡터 w로 나타내고, 하나의 가중치는 도 4a에 도시되는 변환된 예측 계수의 각각에 대해 나타낸다. 보정된 가중치 w_1-16의 각각은 도 4b에 도시된 결정 규칙에 따라 계산된다. 위의 설명은 단지 보정된 가중치를 결정하는 원리를 예시하며, 상술한 결정 규칙에 한정되지 않는다. 상술한 결정 규칙은 변화, 스케일링, 시프트 등을 이룰 수 있다. 일반적으로, 보정된 가중치는 결정된 가중치와 보정값의 조합을 수행함으로써 얻어진다.

도 5a는 변환된 예측 계수의 양자화된 표현을 결정하기 위해 양자화기(170)와 같은 양자화기에 의해 구현될 수 있는 예시적인 결정 방식을 도시한다. 양자화기는 에러, 예를 들어 LSF_i로서 도시된 결정된 변환 계수와 LSF'_I로서 나타낸 기준 계수 사이의 차 또는 이의 거듭제곱을 할 수 있으며, 기준 계수는 양자화기의 데이터베이스에 저장될 수 있다. 결정된 거리는 양의 값들만이 획득되도록 제곱될 수 있다. 거리들(에러들)의 각각은 각각의 가중치 W_i에 의해 가중된다. 이것은 오디오 품질에 대한 높은 중요성을 가진 주파수 범위 또는 변환된 예측 계수에 높은 웨이트를 부여하고, 오디오 품질에 대한 낮은 중요성을 가진 주파수 범위에 낮은 웨이트를 부여할 수 있다. 에러는 전체 에러 값을 얻기 위해 인덱스 1-16의 일부 또는 모두에 걸쳐 합산된다. 이것은 도 5b에 나타낸 바와 같이 세트들 Qu', Qu'', ... Quⁿ에 조합될 수 있는 계수들의 복수의 미리 정의된 조합(데이터베이스 엔트리)에 대해 행해질 수 있다. 양자화기는 결정되는 보정된 가중치 및 변환된 예측 계수에 대하여 최소 에러를 포함하는 미리 정의된 계수들의 세트와 관련된 코드 워드를 선택하기 위해 구성될 수 있다. 코드 워드는 예를 들어 디코더가 각각 수신된 인덱스, 수신된 코드 워드에 기초하여 미리 정의된 세트 Qu', Qu'', ...을 복원할 수 있도록 테이블의 인덱스일 수 있다.

트레이닝 단계 동안 보정값을 얻기 위해, 기준 웨이트들을 결정하는 기준 결정 규칙이 선택된다. 인코더가 기준 웨이트들에 대해 결정된 가중치를 보정하도록 구성되고, 기준 웨이트들의 결정은 오프라인, 즉 교정 단계 등 동안에 행해질 수 있음에 따라, 높은 정확성(예를 들어, 낮은 LSD)을 포함하는 결정 규칙은 생성된 계산 노력을 무시하면서 선택된다. 바람직하게는, 높은 정확성 및 높은 계산 복잡성을 포함하는 방법은 미리 크기가 정해진 기준 가중치를 얻기 위해 선택될 수 있다. 예를 들어, G.718 표준 [3]에 따라 가중치를 결정하기 위한 방법이 이용될 수 있다.

인코더는 가중치를 결정하는 결정 규칙이 또한 실행된다. 이것은 결정된 결과의 낮은 정확성을 수용하면서 낮은 계산 복잡성을 포함하는 방법일 수 있다. 웨이트들은 예를 들어 음성 및/또는 음악을 포함하는 오디오 자료의 세트를 사용하면서 두 결정 규칙에 따라 계산된다. 오디오 자료는 M 트레이닝 벡터의 수로 나타낼 수 있으며, M은 100 이상, 1000 이상 또는 5000 이상의 값을 포함할 수 있다. 획득된 가중치의 두 세트들은 매트릭스로 저장되고, 각 매트릭스는 각각 M 트레이닝 벡터들 중 하나에 관련되는 벡터들을 포함한다.

M 트레이닝 벡터들의 각각에 대해, 제 1(기준) 결정 규칙에 기초하여 결정된 가중치를 포함하는 벡터와 인코더 결정 규칙에 기초하여 결정된 가중 벡터들을 포함하는 벡터 사이에서 거리가 결정된다. 총 거리(에러)를 획득하기 위한 거리가 합산되며, 총 에러는 평균 에러 값을 획득하기 위해 평균화될 수 있다.

보정값의 결정 동안, 목표(objective)는 총 에러 및/또는 평균 에러를 줄일 수 있다. 따라서, 다항식 피팅(polynomial fitting)은 도 4b에 도시된 결정 규칙에 기초하여 실행될 수 있으며, 벡터 a, b, c 및/또는 추가의 벡터는 총 에러 및/또는 평균 에러가 감소되거나 최소화되도록 다항식에 적응된다. 다항식은 결정 규칙에 기초하여 결정된 가중치에 맞출 수 있으며, 이는 디코더에서 실행될 것이다. 다항식은 총 에러 또는 평균 에러가 임계 값, 예를 들어, 0.01, 0.1 또는 0.2 이하로 되도록 맞출 수 있으며, 여기서 1은 총 불일치(mismatch)를 나타낸다. 대안적으로 또는 부가적으로, 다항식은 총 에러가 에러 최소화 알고리즘에 기초하여 이용함으로써 최소화되도록 맞출 수 있다. 0.01의 값은 차이(거리) 및/또는 거리의 지수로서 표현될 수 있는 상대 에러를 나타낼 수 있다. 대안적으로, 다항식 피팅은 생성된 총 에러 또는 평균 에러가 수학적 최소(mathematical minimum)에 가까운 값을 포함하도록 보정값을 결정함으로써 행해질 수 있다. 이것은 예를 들어 획득된 도출을 0에 설정하는 것에 기초하여 사용된 함수의 도출 및 최적화에 의해 행해질 수 있다.

인코더 측에서 114에 대해 도시된 바와 같이, 거리(에러), 예를 들어 유클리드 거리의 추가 감소는 부가적인 정보를 추가하는 경우에 달성될 수 있다. 이런 부가적인 정보는 또한 보정 파라미터를 계산하는 동안 사용될 수 있다. 정보는 이를 보정값을 결정하기 위한 다항식과 조합하여 사용될 수 있다.

다시 말하면, 먼저 IHM 웨이트들 및 G.718 웨이트들은 음성 및 음악 자료의 5000 초(또는 M 트레이닝 벡터) 이상을 포함하는 데이터베이스로부터 추출될 수 있다. IHM 웨이트들은 매트릭스 I 내에 저장될 수 있고, G.718 웨이트들은 매트릭스 G 내에 저장될 수 있다. I_i 및 G_i는 전체 트레이닝 데이터베이스의 제 i ISF 또는 LSF 계수의 모든 IHM 및 G.718 웨이트 w_i를 포함하는 벡터라고 한다. 이들 두 벡터들 사이의 평균 유클리드 거리는 다음의 식에 기초하여 결정될 수 있다:

이들 두 벡터 사이의 거리를 최소화하기 위하여, 2차 다항식이 적합할 수 있다:

매트릭스

가 도입될 수 있고, 다시 작성하기 위해 벡터

:

및

최저 평균 유클리드 거리를 갖는 벡터 P_i를 얻기 위해, 도함수

는 0으로 설정되어:

다음을 얻을 수 있다:

제안된 웨이트들와 G.718 웨이트들 사이의 차이(유클리드 거리)를 더 감소시키기 위해, 다른 정보의 반사 계수들은 매트릭스 EI_i에 부가될 수 있다. 예를 들어, 반사 계수는 LSF 또는 ISF 도메인에서 직접 관찰할 수 없는 LPC 모델에 대한 어떤 정보를 반송하기 때문에, 이들은 유클리드 거리 d_i를 줄이는 것을 돕는다. 실제로, 아마 모든 반사 계수는 유클리드 거리에서 상당한 감소로 이어지지 않을 것이다. 발명자는 제 1 및 14 반사 계수를 사용하기에 충분할 수 있음을 발견하였다. 반사 계수를 추가함으로써 매트릭스 EI_i는 다음과 같을 것이다:

r_x,y는 트레이닝 데이터세트에서 제 x 인스턴스(instance)의 제 y 반사 계수(또는 다른 정보)이다. 따라서, 벡터 P_i의 차원(dimension)은 매트릭스 EI_i의 열의 수에 따라 변경된 차원들을 포함할 것이다. 최적의 벡터 Pi의 계산은 위와 동일하게 유지한다.

추가 정보를 부가함으로써, 도 4b에 도시된 결정 규칙은 y = a + bx + cx ² + dr ₁ ³ + ....에 따라 변경(확장)될 수 있다.

도 6은 실시예에 따른 오디오 전송 시스템(600)의 개략적인 블록도를 도시한다. 오디오 전송 시스템(600)은 각각 양자화된 LSF를 포함하는 비트스트림 또는 이와 관련된 정보로서 인코더(100) 및 출력 신호(182)를 수신하도록 구성된 디코더(602)를 포함한다. 비트스트림은 유선 연결(케이블) 또는 공기와 같은 전송 매체(604)를 통해 전송된다.

다시 말하면, 도 6은 인코더 측에서의 LPC 코딩 방식의 개요를 도시한다. 웨이팅은 인코더에 의해서만 사용되고, 디코더가 필요로 하지 않는다는 것을 언급할 가치가 있다. 먼저, LPC 분석은 입력 신호에서 수행된다. 그것은 LPC 계수 및 반사 계수(RC)를 출력한다. LPC 분석 후에, LPC 예측 계수는 LSF들로 변환된다. 이들 LSF들은 다단계 벡터 양자화와 같은 방식을 사용함으로써 벡터 양자화되어 디코더로 전송된다. 코드 워드는 이전 섹션에서 소개된 바와 같이 WED라는 가중 제곱 에러 거리에 따라 선택된다. 이를 위하여, 관련된 웨이트는 미리 계산되어야 한다. 웨이트 도함수는 원래의 LSF들 및 반사 계수들의 함수이다. 반사 계수들은 레빈슨-더빈(Levinson-Durbin) 알고리즘에 필요한 인턴 변수들(intern variables)로서 LPC 분석 중에 직접 이용 가능하다.

도 7은 상술한 바와 같이 보정값들을 도출하는 실시예를 도시한다. 변환된 예측 계수들(122')(LSF들) 또는 다른 계수들은 블록 A에서의 인코더에 따른 웨이트들을 결정하고 블록 B에서의 대응하는 웨이트들을 계산하기 위해 이용된다. 얻어진 웨이트들(142)은 블록 A에서 블록 C까지 점선으로 나타낸 바와 같이 모델링을 피팅(fitting)하고, 즉 벡터 P_i를 계산하기 위해 블록 C에서 획득된 기준 웨이트들(142'')와 직접 조합된다. 선택적으로, 추가 정보(114)가 반사 계수와 같거나 스펙트럼 파워 정보가 보정값들(162)을 결정하기 위해 이용되는 경우, 웨이트들(142')은 반사 값들에 의해 확장된 EL_i로 나타낸 바와 같이 블록 D로서 나타낸 회귀 벡터(regression vector)에서의 추가 정보(114)와 조합된다. 그 다음, 얻어진 웨이트들(142''')은 블록 C에서 기준 가중치(142'')와 조합된다.

다시 말하면, 블록 C의 피팅 모델은 상술된 벡터 P이다. 다음에는, 의사 코드가 가중 도출 처리를 예시적으로 요약한다:

Input: lsf = original LSF vector

order = order of LPC, length of lsf

parcorr[0] = - 1^st reflection coefficient

parcorr[1] = - 14^th reflection coefficient

smooth_flag= flag for smoothing weights

w_past = past weights

Output

weights = computed weights

/*Compute IHM weights*/

weights[0] = 1.f/( lsf[0] - 0 ) + 1.f/( lsf[1] - lsf[0] );

for(i=1; i<order-1; i++)

weights[i] = 1.f/( lsf[i] - lsf[i-1] ) + 1.f/( lsf[i+1] - lsf[i] );

weights[order-1] = 1.f/( lsf[order-1] - lsf[order-2] ) + 1.f/( 8000 - lsf[order-1] );

/* Fitting model*/

for(i=0; i<order; i++)

{

weights[i] *= (8000/ PI);

weights[i] = ((float)(lsf_fit_model[0][i])/(1<<12))

+ weights[i]*((float)(lsf_fit_model[1][i])/(1<<14))

+ weights[i]*weights[i]*((float)(lsf_fit_model[2][i])/(1<<19))

+ parcorr[0]* ((float)(lsf_fit_model[3][i])/(1<<13))

+ parcorr[1] * ((float)(lsf_fit_model[4][i])/(1<<10));

/* avoid too low weights and negative weights*/

if(weights[i] < 1.f/(i+1))

weights[i] = 1.f/(i+1);

}

여기서 "parcorr"는 매트릭스 EI의 확장을 나타낸다

if(smooth_flag){

for(i=0; i<order; i++) {

tmp = 0.75f*weights[i] * 0.25f*w_past[i];

w_past[i]=weights[i];

weights[i]=tmp;

}

이는 현재 웨이트가 0.75의 인수로 가중되고 과거 웨이트가 0.25의 인수로 가중되는 상술한 평활을 나타낸다.

벡터 P에 대해 획득된 계수는 16 kHz에서 샘플링되고 16의 LPC 차수를 가진 신호에 대해 아래에 예시적으로 나타낸 바와 같은 스칼라 값들을 포함할 수 있다:

lsf_fit_model[5][16] = {

{679 , 10921 , 10643 , 4998 , 11223 , 6847 , 6637 , 5200 , 3347 , 3423 , 3208 , 3329 , 2785 , 2295 , 2287 , 1743},

{23735 , 14092 , 9659 , 7977 , 4125 , 3600 , 3099 , 2572 , 2695 , 2208 , 1759 , 1474 , 1262 , 1219 , 931 , 1139},

{-6548 , -2496 , -2002 , -1675 , -565 , -529 , -469 , -395 , -477 , -423 , -297 , -248 , -209 , -160 , -125 , -217},

{-10830 , 10563 , 17248 , 19032 , 11645 , 9608 , 7454 , 5045 , 5270 , 3712 , 3567 , 2433 , 2380 , 1895 , 1962 , 1801},

{-17553 , 12265 , -758 , -1524 , 3435 , -2644 , 2013 , -616 , -25 , 651 , -826 , 973 , -379 , 301 , 281 , -165}};

상술한 바와 같이, LSF 대신에, 또한 ISF는 변환기에 의해 변환된 계수(122)로서 제공될 수 있다. 가중 도함수는 다음의 의사 코드로 나타낸 바와 매우 유사할 수 있다. 차수 N의 ISF들은 제 N 반사 계수를 부가하는 N-1의 제 1 계수에 대한 차수 N-1의 LSF들과 동등하다. 따라서 웨이트 도함수는 LSF 웨이트 도함수에 매우 가깝다. 그것은 다음의 의사 코드에 의해 주어진다:

Input: isf = original ISF vector

order = order of LPC, length of lsf

parcorr[0] = - 1^st reflection coefficient

parcorr[1] = - 14^th reflection coefficient

smooth_flag= flag for smoothing weights

w_past = past weights

Output

weights = computed weights

/*Compute IHM weights*/

weights[0] = 1.f/( lsf[0] - 0 ) + 1.f/( lsf[1] - lsf[0] );

for(i=1; i<order-2; i++)

weights[i] = 1.f/( lsf[i] - lsf[i-1] ) + 1.f/( lsf[i+1] - lsf[i] );

weights[order-2] = 1.f/(lsf[order-2] - lsf[order-3]) + 1.f/

(6400-lsf[order-2] );

/* Fitting model*/

for(i=0; i<order-1; i++)

{

weights[i] *= (6400/PI);

weights[i] = ((float)(isf_fit_model[0][i])/(1<<12))

+ weights[i]*((float)(isf_fit_model[1][i])/(1<<14))

+ weights[i]*weights[i]*((float)(isf_fit_model[2][i])/(1<<19))

+ parcorr[0]* ((float)(isf_fit_model[3][i])/(1<<13))

+ parcorr[1] * ((float)(isf_fit_model[4][i])/(1<<10));

/* avoid too low weights and negative weights*/

if(weights[i] < 1.f/(i+1))

weights[i] = 1.f/(i+1);

}

if(smooth_flag){

for(i=0; i<order-1; i++) {

tmp = 0.75f*weights[i] * 0.25f*w_past[i];

w_past[i]=weights[i];

weights[i]=tmp;

}

weights[order-1]=1;

여기서 최대 6.4 kHz인 주파수 성분을 가진 입력 신호에 대한 피팅 모델 계수는 다음과 같다:

isf_fit_model[5][15] = {

{8112 , 7326 , 12119 , 6264 , 6398 , 7690 , 5676 , 4712 , 4776 , 3789 , 3059 , 2908 , 2862 , 3266 , 2740},

{16517 , 13269 , 7121 , 7291 , 4981 , 3107 , 3031 , 2493 , 2000 , 1815 , 1747 , 1477 , 1152 , 761 , 728},

{-4481 , -2819 , -1509 , -1578 , -1065 , -378 , -519 , -416 , -300 , -288 , -323 , -242 , -187 , -7 , -45},

{-7787 , 5365 , 12879 , 14908 , 12116 , 8166 , 7215 , 6354 , 4981 , 5116 , 4734 , 4435 , 4901 , 4433 , 5088},

{-11794 , 9971 , -3548 , 1408 , 1108 , -2119 , 2616 , -1814 , 1607 , -714 , 855 , 279 , 52 , 972 , -416}};

여기서 최대 4 kHz인 주파수 성분과, 4 kHz에서 6.4 kHz로 올라가는 주파수 성분에 대한 제로 에너지를 가진 입력 신호에 대한 피팅 모델 계수는 다음과 같다:

isf_fit_model [5][15] = {

{21229 , -746 , 11940 , 205 , 3352 , 5645 , 3765 , 3275 , 3513 , 2982 , 4812 , 4410 , 1036 , -6623 , 6103},

{15704 , 12323 , 7411 , 7416 , 5391 , 3658 , 3578 , 3027 , 2624 , 2086 , 1686 , 1501 , 2294 , 9648 , -6401},

{-4198 , -2228 , -1598 , -1481 , -917 , -538 , -659 , -529 , -486 , -295 , -221 , -174 , -84 , -11874 , 27397},

{-29198 , 25427 , 13679 , 26389 , 16548 , 9738 , 8116 , 6058 , 3812 , 4181 , 2296 , 2357 , 4220 , 2977 , -71},

{-16320 , 15452 , -5600 , 3390 , 589 , -2398 , 2453 , -1999 , 1351 , -1853 , 1628 , -1404 , 113 , -765 , -359}};

기본적으로, 블록 /* compute IHN weights */ of both pseudo-codes와 비교했을 때에 보여질 수 있는 ISF의 차수는 수정된다.

도 8은 오디오 신호를 인코딩하기 위한 방법(800)의 개략적인 흐름도를 도시한다. 방법(800)은 오디오 신호를 분석하고 오디오 신호로부터 분석 예측 계수들을 결정하는 단계(802)를 포함한다. 방법(800)은 변환된 예측 계수들이 분석 예측 계수들로부터 도출되는 단계(804)를 더 포함한다. 단계(806)에서, 다수의 보정값들은 예를 들어 메모리(160)와 같은 메모리 내에 저장된다. 단계(808)에서, 변환된 예측 계수들 및 다수의 보정값들은 보정된 가중치들을 획득하기 위해 조합된다. 단계(812)에서, 변환된 예측 계수들은 변환된 예측 계수들의 양자화된 표현을 획득하기 위해 보정된 가중치들을 이용하여 양자화된다. 단계(814)에서, 출력 신호는 변환된 예측 계수의 표현 및 오디오 신호에 기초하여 형성된다.

다시 말하면, 본 발명은 낮은 복합 휴리스틱 알고리즘(complex heuristic algorithm)을 이용하여 최적의 웨이트들 w을 도출하는 새로운 효율적인 방식을 제안한다. IHM 가중을 통한 최적화는 고주파에 더 왜곡을 부여하고 전체 왜곡으로 덜 가청적을 산출하면서 저주파에서 왜곡을 적게 한다. 이러한 최적화는 [1]에 제시된 바와 같이 먼저 웨이트들을 계산하고 나서 이들을 G.718의 접근 방식[3]을 이용하여 달성된 웨이트들에 매우 근접하게 하는 방식으로 수정함으로써 달성된다. 제 2 스테이지는 수정된 IHM 웨이트들과 G.718의 웨이트들 사이의 평균 유클리드 거리를 최소화함으로써 트레이닝 단계 동안 간단한 2차 다항식 모델로 구성된다. 간단히 말해서, IHM과 G.718 웨이트들 사이의 관계는 (아마도 단순한) 다항식 함수에 의해 모델링된다.

일부 양태들은 장치와 관련하여 설명되었지만, 이들 양태들은 또한 블록 또는 장치가 방법 단계 또는 방법 단계의 특징에 대응하는 방법의 설명을 나타내는 것이 분명하다. 유사하게, 방법 단계와 관련하여 설명된 양태들은 또한 대응하는 장치의 대응하는 블록 또는 항목 또는 특징에 대한 설명을 나타낸다.

본 발명의 인코딩된 오디오 신호는 디지털 저장 매체에 저장될 수도 있고, 무선 전송 매체 또는 인터넷과 같은 유선 전송 매체와 같은 전송 매체상에서 전송될 수 있다.

어떤 구현 요구 사항에 따라, 본 발명의 실시예들은 하드웨어 또는 소프트웨어로 구현될 수 있다. 이러한 구현은 디지털 저장 매체, 예를 들어 플로피 디스크, DVD, CD, ROM, PROM, EPROM, EEPROM 또는 FLASH 메모리를 이용하여 수행될 수 있으며, 이러한 매체는 각각의 방법이 수행되도록 프로그램 가능한 컴퓨터 시스템과 협력하는(또는 협력할 수 있는) 전자적으로 판독 가능한 제어 신호들을 저장한다.

본 발명에 따른 일부 실시예들은 본 명세서에서 설명된 방법들 중 하나가 수행되도록 프로그램 가능한 컴퓨터 시스템과 협력할 수 있는 전자적으로 판독 가능한 제어 신호들을 갖는 데이터 캐리어를 포함한다.

일반적으로, 본 발명의 실시예들은 프로그램 코드를 가진 컴퓨터 프로그램 제품으로서 구현될 수 있으며, 프로그램 코드는 컴퓨터 프로그램 제품이 컴퓨터상에서 실행될 때 방법들 중 하나를 수행하기 위해 동작한다. 프로그램 코드는 예를 들어 기계 판독 가능한 캐리어 상에 저장될 수 있다.

다른 실시예는 본 명세서에서 설명되고, 기계 판독 가능한 캐리어 상에 저장된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함한다.

그래서, 다시 말하면, 본 발명의 방법의 실시예는 컴퓨터 프로그램이 컴퓨터상에서 실행될 때 본 명세서에 설명된 방법들 중 하나를 수행하기 위해 프로그램 코드를 갖는 컴퓨터 프로그램이다.

그래서, 본 발명의 방법들의 추가의 실시예는 데이터 캐리어(또는 디지털 저장 매체, 또는 컴퓨터 판독 가능한 매체)이며, 이러한 데이터 캐리어는 본 명세서에서 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 기록하는 것을 포함한다.

그래서, 본 발명의 방법의 추가의 실시예는 본 명세서에서 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 나타내는 데이터 스트림 또는 신호들의 시퀀스이다. 데이터 스트림 또는 신호들의 시퀀스는 예를 들어 데이터 통신 접속, 예를 들어 인터넷을 통해 전송되도록 구성될 수 있다.

추가의 실시예는 본 명세서에서 설명된 방법들 중 하나를 수행하도록 구성되거나 적응되는 처리 수단, 예를 들어 컴퓨터 또는 프로그램 가능한 논리 장치를 포함한다.

추가의 실시예는 본 명세서에서 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 설치한 컴퓨터를 포함한다.

일부 실시예에서, 프로그램 가능한 논리 장치(예를 들어, 필드 프로그램 가능한 게이트 어레이)는 본 명세서에서 설명된 방법들의 기능의 일부 또는 모두를 수행하기 위해 이용될 수 있다. 일부 실시예에서, 필드 프로그램 가능한 게이트 어레이는 본 명세서에서 설명된 방법들 중 하나를 수행하기 위해 마이크로프로세서와 협력할 수 있다. 일반적으로, 이러한 방법들은 바람직하게는 임의의 하드웨어 장치에 의해 수행된다.

상술한 실시예는 단지 본 발명의 원리들에 대한 예시이다. 본 명세서에서 설명된 배치의 수정 및 변형과 상세 사항은 당업자에게는 자명할 것으로 이해된다. 따라서, 본 명세서에서 실시예들의 설명에 의해 제시된 특정 상세 사항에 의해서가 아니라 첨부된 특허 청구항들에 의해서만 제한되는 것으로 의도된다.

참고 문헌

[1] Laroia, R.; Phamdo, N.; Farvardin, N., "Robust and efficient quantization of speech LSP parameters using structured vector quantizers," Acoustics, Speech, and Signal Processing, 1991. ICASSP-91., 1991 International Conference on , vol., no., pp.641,644 vol. 1, 14-17 Apr 1991

[2] Gardner, William R.; Rao, B.D., "Theoretical analysis of the high-rate vector quantization of LPC parameters," Speech and Audio Processing, IEEE Transactions on , vol.3, no.5, pp.367,381, Sep 1995

[3] ITU-T G.718 "Frame error robust narrow-band and wideband embedded variable bit-rate coding of speech and audio from 8-32 kbit/s", 06/2008, section 6.8.2.4 "ISF weighting function for frame-end ISF quantization

Claims

오디오 신호(102)를 인코딩하기 위한 인코더(100)로서,
상기 오디오 신호(102)를 분석하고, 상기 오디오 신호(102)로부터 분석 예측 계수들(112)을 결정하기 위해 구성된 분석기(110);
상기 분석 예측 계수들(112)로부터 변환된 예측 계수들(122; 122')을 도출하기 위해 구성된 변환기(120);
다수의 보정값들(162)을 저장하기 위해 구성된 메모리(160);
계산기(130; 130')로서, 스펙트럼 가중치들(142; 142')을 얻도록 상기 변환된 예측 계수들(122; 122')을 처리하기 위해 구성된 프로세서(140; 140'), 보정된 가중치들(152; 152')을 얻도록 상기 스펙트럼 가중치들(142; 142')과 다수의 보정값들(162; a, b, c)을 조합하기 위해 구성된 조합기(150; 150'), 및 상기 변환된 예측 계수들(122; 122')의 양자화된 표현(172)을 얻도록 상기 보정된 가중치들(152; 152')을 이용하여 변환된 예측 계수들(122; 122')을 양자화하기 위해 구성된 양자화기(170)를 포함하는 상기 계산기(130; 130'); 및
상기 변환된 예측 계수들(122; 122')의 상기 양자화된 표현(172) 및 상기 오디오 신호(102)에 기초하여 출력 신호(182)를 형성하기 위해 구성된 비트스트림 형성기(180)를 포함하는데,
상기 조합기(150; 150')는 다음의 식에 기초하여 다항식을 적용하기 위해 구성되며:

w는 얻어진 보정 가중치를 나타내고, x는 스펙트럼 가중치를 나타내며, a, b 및 c는 보정값을 나타내는 인코더.
제 1 항에 있어서,
상기 조합기(150')는 상기 스펙트럼 가중치들(142; 142'), 상기 다수의 보정값들(162; a, b, c), 및 상기 보정된 가중치들(152)을 얻기 위해 상기 오디오 신호(102)에 관련된 추가 정보(114)를 조합하기 위해 구성되는 인코더.
제 2 항에 있어서,
상기 오디오 신호(102)에 관련된 상기 추가 정보(114)는 상기 분석기(110)에 의해 얻어진 반사 계수들을 포함하거나 상기 오디오 신호(102)의 파워 스펙트럼에 관련된 정보를 포함하는 인코더.
제 1 항에 있어서,
상기 분석기(110)는 선형 예측 계수(LPC)를 결정하기 위해 구성되고, 상기 변환기(120)는 상기 선형 예측 계수(LPC)로부터 라인 스펙트럼 주파수(LSF; 122') 또는 이미턴스 스펙트럼 주파수(ISF)를 도출하기 위해 구성되는 인코더.
제 1 항에 있어서,
상기 조합기(150; 150')는 매 사이클에서 상기 보정된 가중치들(152; 152')을 순환적으로 얻기 위해 구성되고,
상기 계산기(130')는 제 1 양자화된 가중치들(152''')과 제 2 양자화된 가중치들(152')의 값들 사이의 값을 포함하는 평활화 보정된 가중치들(152'')을 얻기 위해 이전 사이클 동안에 얻어진 제 1 양자화된 가중치들(152''')과 상기 이전 사이클에 뒤따른 사이클 동안에 얻어진 제 2 양자화된 가중치들(152')을 가중하여 조합하기 위해 구성된 평활화기(155)를 더 포함하는 인코더.
제 1 항에 있어서,
상기 다수의 보정값들(162; a, b, c)은 미리 계산된 웨이트들(LSF; 142'')로부터 도출되고, 상기 미리 계산된 웨이트들(LSF; 142'')을 결정하기 위한 계산 복잡성은 상기 스펙트럼 가중치들(142; 142')을 결정하는 계산 복잡성에 비해 높은 인코더.
제 1 항에 있어서,
상기 프로세서(140; 140')는 역 조화 평균에 의해 상기 스펙트럼 가중치들(142; 142')을 얻기 위해 구성되는 인코더.
제 1 항에 있어서,
상기 프로세서(140; 140')는 다음 식에 기초하여 상기 스펙트럼 가중치들(142; 142')을 얻기 위해 구성되고:

w_i는 인덱스 i를 가진 결정된 웨이트를 나타내고, lsf_i는 인덱스 i를 가진 라인 스펙트럼 주파수를 나타내며. 인덱스 i는 획득된 스펙트럼 가중치들의 수에 대응하는 인코더.
오디오 전송 시스템(600)으로서,
제 1 내지 제 8 항 중 어느 한 항에 따른 인코더(100); 및
상기 인코더의 출력 신호(182) 또는 상기 출력 신호로부터 도출된 신호를 수신하고, 합성된 오디오 신호(102')를 제공하기 위해 수신된 신호(182)를 디코딩하기 위한 디코더(602)를 포함하며,
상기 인코더(100)는 전송 매체(604)에 액세스하고 상기 전송 매체(604)를 통해 상기 출력 신호(182)를 전송하도록 구성되는 오디오 전송 시스템.
각각의 가중치는 오디오 신호(102)의 부분(LSF; ISF)을 가중하기 위해 적용되는 제 1 다수(IHM)의 제 1 가중치들(142; 142')에 대한 제4 다수의 보정값들(162; a, b, c)을 결정하기 위한 방법으로서,
제 1 결정 규칙에 기초하여 오디오 신호의 세트의 각각의 오디오 신호에 대한 상기 제 1 다수(IHM)의 제 1 가중치들(142; 142')을 계산하는 단계;
제 2 결정 규칙에 기초하여 오디오 신호의 세트의 각각의 오디오 신호에 대한 제 2 다수의 제 2 가중치들(142'')을 계산하는 단계로서, 상기 제 2 다수의 제 2 가중치들(142'')의 각각은 제 1 가중치들(142; 142')에 관련되는 상기 제 2 다수의 제 2 가중치들(142'')을 계산하는 단계;
각각의 거리 값(d_i)이 상기 오디오 신호(102)의 부분과 관련된 제 2 가중치(142'')와 제 1 가중치(142; 142') 사이의 거리에 관련된 값을 갖는 제 3 다수의 거리 값들(d_i)을 계산하는 단계; 및
상기 제 1 가중치(142; 142')와 조합되는 경우에 상기 거리 값들(d_i)을 감소시키도록 구성된 상기 제 4 다수의 보정값들(162; a, b, c)을 계산하는 단계를 포함하는데,
상기 제 4 다수의 보정값들(162; a, b, c)은 다항식의 항에 적응하기 위한 적어도 하나의 변수를 포함하는 다항식(y = a + bx + cx²; 여기서 y는 획득한 보정된 가중치를 나타내며, x는 스펙트럼 가중치를 나타내며, 그리고, a, b, 및 c는 보정값들을 나타냄)과 상기 제 1 가중치(142; 142')의 값들을 승산(multiplying)하는 단계를 포함하는 다항식 피팅에 기초하여 결정되는, 제4 다수의 보정값들(162; a, b, c)을 결정하기 위한 방법.
제 10 항에 있어서,
상기 제 4 다수의 보정값들(162; a, b, c)이 다항식 피팅에 기초하여 결정되는 것은
다항식의 항에 적응하기 위한 적어도 하나의 변수를 포함하는 다항식(y = a + bx + cx²; 여기서 y는 획득한 보정된 가중치를 나타내며, x는 스펙트럼 가중치를 나타내며, 그리고, a, b, 및 c는 보정값들을 나타냄)과 상기 제 1 가중치(142; 142')의 값들을 승산하는 단계;
상기 제 3 다수의 거리 값들(d_i)이 다음의 식에 기초하여 임계값 이하의 값을 포함하도록 상기 변수에 대한 값을 계산하는 단계를 포함하고

및

d_i는 상기 오디오 신호의 제 i 부분의 거리 값을 나타내고, P_i는
에 기초한 식을 포함하는 벡터를 나타내고, EI_i는 다음에 기초한 매트릭스를 나타내며

I_x,_i는 상기 오디오 신호(102)의 제 x 부분에 대한 제 1 결정 규칙(IHM)에 기초하여 결정된 제 i 가중치(142; 142')를 나타내는 제4 다수의 보정값들(162; a, b, c)을 결정하기 위한 방법.
제 10 항에 있어서,
상기 제 3 다수의 거리 값들(d_i)은 다음의 매트릭스에 기초하여 반사 계수들을 포함하는 추가 정보(114) 또는 오디오 신호들(102)의 세트 중 적어도 하나의 파워 스펙트럼에 관련된 정보에 기초하여 계산되며:

I_x,_i는 상기 오디오 신호(102)의 제 x 부분에 대한 제 1 결정 규칙(IHM)에 기초하여 결정된 제 i 가중치(142; 142')를 나타내고, r_a,b는 제 b 가중치(142; 142') 및 상기 오디오 신호(102)의 제 x 부분에 기초한 추가 정보(114)를 나타내는 제4 다수의 보정값들(162; a, b, c)을 결정하기 위한 방법.
오디오 신호를 인코딩하기 위한 방법(800)으로서,
오디오 신호(102)로부터 분석 예측 계수들(112)을 결정하기 위해 상기 오디오 신호(102)를 분석하는 단계(802);
상기 분석 예측 계수들(112)로부터 변환된 예측 계수들(122; 122')을 도출하는 단계(804);
다수의 보정값들(162; a-c)을 저장하는 단계(806);
보정된 가중치들(152; 152')을 획득하기 위해 상기 변환된 예측 계수들(122; 122') 및 상기 다수의 보정값들(162; a-c)을 조합하는 단계(808)로서, 다음의 식에 기초하여 다항식을 적용하며:

w는 얻어진 보정 가중치를 나타내고, x는 스펙트럼 가중치를 나타내며, a, b 및 c는 보정값을 나타내는 상기 조합하는 단계(808);
상기 변환된 예측 계수들(122; 122')의 양자화된 표현(172)을 획득하기 위해 상기 보정된 가중치들(152; 152')을 이용하여 상기 변환된 예측 계수들(122; 122')을 양자화하는 단계(812); 및
상기 변환된 예측 계수(122)의 표현(172) 및 상기 오디오 신호(102)에 기초하여 출력 신호(182)를 형성하는 단계(814)를 포함하는 오디오 신호의 인코딩 방법.
컴퓨터상에서 실행할 때 제 10 내지 제 13 항 중 어느 한 항에 따른 방법을 수행하기 위해 프로그램 코드를 가진 컴퓨터 판독 가능 저장 매체에 기록된 컴퓨터 프로그램.
삭제