KR20060037375A

KR20060037375A - 저비트율 오디오 인코딩

Info

Publication number: KR20060037375A
Application number: KR1020067001232A
Authority: KR
Inventors: 안드레아스 제이. 거리츠; 브링커 알베르투스 씨. 덴
Original assignee: 코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date: 2003-07-18
Filing date: 2004-07-08
Publication date: 2006-05-03
Also published as: EP1649453B1; RU2006105017A; CN1826634B; ES2322264T3; ATE425533T1; US7640156B2; WO2005008628A1; RU2368018C2; KR101058064B1; JP4782006B2; BRPI0412717A; JP2007519027A; CN1826634A; EP1649453A1; US20070112560A1; DE602004019928D1

Abstract

사인파 오디오 인코더에서, 다수의 사인파들은 오디오 세그먼트마다 추정된다. 사인파는 주파수, 진폭 및 위상으로 표현된다. 보통, 위상은 주파수와 무관하게 양자화된다. 본 발명은 위상의 주파수 종속 양자화를 사용하며, 특히 저주파수들은 고주파수들보다 작은 양자화 간격들을 사용하여 양자화된다. 따라서, 저주파수들의 언래핑된 위상들은 고주파수들의 위상들보다 작은 양자화 범위로 더 정밀하게 양자화된다. 본 발명은 특히 저비트율 양자화기들에 비하여 디코딩된 신호 품질을 상당히 개선시킨다.

사인파 오디오 인코더, 양자화기, 오디오 스트림, 잡음 합성기

Description

저비트율 오디오 인코딩{Low bit-rate audio encoding}

본 발명은 특정 오디오 신호들과 같은 방송 신호들의 인코딩 및 디코딩에 관한 것이다.

방송신호들, 예컨대 음성과 같은 오디오 신호들을 전송할 때, 압축 또는 인코딩 기술들은 신호의 대역폭 또는 비트율을 감소시키기 위하여 사용된다.

도 1은 알려진 파라메트릭 인코딩 방식, 특히 본 발명에 사용하고 제WO 01/69593호에 기술된 사인파 인코더를 도시한다. 이러한 인코더에서, 입력 오디오 신호 x(t)는 여러(가능하게 중첩하는) 시간 세그먼트들 또는 프레임들, 전형적으로 지속 기간 20ms로 각각 분할된다. 각각의 세그먼트는 과도, 사인파 및 잡음 성분들로 분해된다. 또한, 고조파 복소성분들(harmonic complexes)과 같은 입력 오디오 신호의 다른 성분들이 본 발명의 목적과 관련되지 않을지라도 상기 다른 성분들을 유도하는 것이 가능하다.

사인파 분석기(130)에서, 각각의 세그먼트에 대한 신호 x2는 진폭, 주파수 및 위상 파라미터들에 의하여 표현된 다수의 사인파들을 사용하여 모델링된다. 이러한 정보는 주파수들, 각각의 주파수에 대한 진폭들 및 각각의 주파수에 대한 위상들을 포함하는 간격의 스펙트럼 표현을 제공하는 푸리에 변환(FT)을 수행함으로 서 분석 시간간격에 대하여 보통 추출되며, 여기서 각각의 위상은 범위 {-π, π}에서 "래핑(wrapped)"된다. 일단 세그먼트에 대한 사인파 정보가 추정되면, 트래킹 알고리즘이 초기화된다. 이러한 알고리즘은 소위 트랙들을 획득하기 위하여 세그먼트 단위로 서로 다른 세그먼트들에 사인파들을 링크시키기 위하여 비용함수를 사용한다. 따라서, 트래킹 알고리즘은 특정 시점에서 시작하고 다수의 시간 세그먼트들 이상의 임의의 기간 동안 전개한 후 중지하는 사인파 트랙들을 포함하는 사인파 코드들 C_S를 발생시킨다.

이러한 사인파 인코딩에서, 인코더에서 형성된 트랙들에 대한 주파수 정보를 전송하는 것이 일반적이다. 이는 트랙들이 저속으로 변화하는 주파수들을 가지기 때문에 단순한 방식으로 그리고 비교적 저비용으로 수행될 수 있다. 따라서, 주파수 정보는 시간 차동 인코딩에 의하여 효율적으로 전송될 수 있다. 일반적으로, 진폭은 시간에 따라 다르게 인코딩될 수 있다.

주파수와 대조적으로, 위상은 시간에 대하여 고속으로 변화한다. 만일 주파수가 일정하면, 위상은 시간에 대하여 선형적으로 변화하고, 주파수 변화들은 선형 과정동안 대응 위상 편차들을 야기할 것이다. 트랙 세그먼트 인덱스의 함수로서, 위상은 대략 선형 동작을 가질 것이다. 따라서, 인코딩된 위상의 전송은 더 복잡하게 된다. 그러나, 전송시에, 위상은 범위 {-π, π}에 제한되며, 위상은 푸리에 변환에 의하여 제공되는 바와 같이 "래핑"된다. 이러한 위상의 모듈로 2π 표현때문에, 위상의 구조적 인터-프레임 관계는 손실되며 일견하여 랜덤 변수로 보일 것 이다.

그러나, 위상이 주파수의 적분이기 때문에, 위상은 과다하여 전송될 필요가 없다. 이는 소위 위상 계속이라 불리며, 비트율을 상당히 감소시킨다.

위상 계속에서, 각각의 트랙의 제 1사인파만이 비트율을 절약하기 위하여 전송된다. 각각의 다음 위상은 초기 위상 및 트랙의 주파수들로부터 계산된다. 주파수들이 양자화되어 항상 정확하게 추정되지 않기 때문에, 연속 위상은 측정된 위상로부터 이탈될 것이다. 위상 연속이 오디오 신호의 품질을 저하시키는 실험이 개시되어 있다.

모든 사인파에 대하여 위상을 전송하면 수신기에서 디코딩된 신호의 품질이 향상되나 비트율/대역폭이 상당히 증가한다. 따라서, -π 및 π간의 값들을 가진 사인파 트랙의 측정된 위상들이, 측정된 주파수들 및 링크 정보를 사용하여 언래핑되는 결합 주파수/위상 양자화기는 트랙을 따라 단조 증가 언래핑 위상들을 발생시킨다. 인코더에서, 언래핑된 위상은 적응 차동펄스 코드변호(ADPCM) 양자화기를 사용하여 양자화된 후 디코더에 전송된다. 디코더는 언래핑된 위상 궤도로부터 사인파 트랙의 주파수들 및 위상들을 유도한다.

위상 연속에서, 단지 인코딩된 주파수만이 전송되며, 위상은 위상 및 주파수간의 적분관계를 전개함으로서 주파수 데이터로부터 디코더에서 복원된다. 그러나, 위상 연속이 사용될 때 위상이 바람직하게 복원될 수 없다는 것이 알려져 있다. 만일 주파수 에러들이 예컨대 주파수의 측정 에러 또는 양자화 잡음으로 인하여 발생하면, 적분 관계를 사용하여 재구성된 위상은 전형적으로 드리프트의 특성 을 가진 에러를 나타낼 것이다. 이는 주파수 에러들이 대략 랜덤 특성을 가지기 때문이다. 저주파수 에러들은 적분에 의하여 증폭되며, 결과적으로 복원된 위상은 실제로 측정된 위상과 차이가 나는 경향이 있다. 이는 가청 가공물들을 유발한다.

이는 도 2a에 기술되며, 여기서 Ω 및

는 각각 트랙에 대한 실제 주파수 및 실제 위상이다. 인코더 및 디코더에서, 주파수 및 위상은 문자 "I"에 의하여 표현된 적분 관계를 가진다. 인코더에서 양자화 프로세스는 부가 잡음 n으로서 모델링된다. 디코더에서, 복원된 위상

은 2개의 성분, 즉 위상

및 잡음 성분

을 포함하며, 여기서 복원된 위상의 스펙트럼 및 잡음

의 전력 스펙트럼 밀도 함수는 발음된 저주파수 문자를 가진다.

따라서, 위상 연속에 있어서, 복원된 위상이 저주파수 신호의 적분이기 때문에, 복원된 위상은 저주파수 신호 그 자체이다. 그러나, 재구성된 프로세스에서 유입된 잡음 저주파수 범위에서 저주파수 범위에서 현저하다. 따라서, 인코딩 동안 유입된 잡음 n을 필터링할 목적으로 이들 소스들을 분리하는 것은 곤란하다.

종래의 양자화 방법에서, 주파수 및 위상은 서로 독립적으로 양자화된다. 일반적으로, 균일한 스칼라 양자화기는 위상 파라미터에 적용된다. 지각적인 이유로 인하여, 저주파수들은 고주파수들보다 더 높게 양자화되어야 한다. 따라서, 주파수들은 ERB 또는 바크 함수를 사용하여 비균일 표현으로 변환된 후 균일하게 양자화되며, 이는 비균일 양자화기에서 수행된다. 또한, 물리적인 이유들이 발견될 수 있으며, 고조파 복소수들에 있어서 높은 고조파 주파수들은 저주파수들보다 높 은 주파수 변동들을 가지는 경향이 있다.

주파수 및 위상이 공동으로 양자화될 때, 주파수 종속 양자화는 정확하지 않다. 균일한 양자화 접근방법의 사용은 저품질 사운드 재구성을 유발한다. 게다가, 양자화 정밀도이 낮을 수 있는 고주파수들에 대하여, 적은 비트들을 필요로 하는 양자화기가 개발될 수 있다. 언래핑된 위상들에 대하여, 유사한 메커니즘이 바람직하다.

본 발명은 저비트율을 사용하여 광대역 신호, 특히 음성신호와 같은 오디오 신호를 인코딩하는 방법을 제공한다. 사인파 인코더에서, 다수의 사인파들은 오디오 세그먼트마다 추정된다. 사인파는 주파수, 진폭 및 위상에 의하여 표현된다. 보통, 위상은 주파수와 무관하게 양자화된다. 본 발명은 위상의 주파수 종속 양자화를 사용하며, 특히 저주파수들은 고주파수들보다 짧은 양자화 간격들을 사용하여 양자화된다. 따라서, 저주파수들의 언래핑된 위상들은 고주파수들의 위상들보다 짧은 양자화 범위로 인하여 더 정밀하게 양자화된다. 본 발명은 특히 저비트율 양자화기들에 대하여 디코딩된 신호 품질을 상당히 개선시킨다.

본 발명은 비균일 주파수 양자화를 유지하면서 주파수 및 위상의 공동 양자화를 사용한다. 이는 모든 주파수들, 특히 저주파수들에서 양호한 위상 정밀도 및 신호 품질을 계속해서 유지하면서 저비트율로 위상 정보를 전송할 수 있는 장점을 제공할 수 있다.

이러한 방법의 장점은 특히 저주파수들에서 위상의 정밀도을 개선시키며, 여기서 위상 에러는 고주파수들보다 큰 시간 에러에 대응한다. 이는 사람의 귀가 주파수 및 위상에 민감할 뿐만아니라 과도상태들로서 절대 타이밍에 민감하기 때문에 중요하며, 본 발명의 방법은 특히 위상 및 주파수 값들을 양자화하기 위하여 소수의 비트들만이 사용될 때 사운드 품질을 개선시킬 수 있다. 다른 한편으로, 요구된 사운드 품질은 소수의 비트들을 사용하여 획득될 수 있다. 저주파수들이 저속으로 변화하기 때문에, 양자화 범위는 더 제한될 수 있으며 더 정밀한 양자화가 획득된다. 게다가, 정밀 양자화로의 적응이 고속으로 이루어진다.

본 발명은 사인파들이 사용되는 오디오 인코더에서 사용될 수 있다. 본 발명은 인코더 및 디코더에 관한 것이다.

도 1은 본 발명의 실시예가 구현되는 종래의 오디오 인코더를 도시한 도면.

도 2a는 종래의 시스템들에서 위상 및 주파수의 관계를 도시한 도면.

도 2b는 본 발명에 따른 오디오 시스템들에서 위상 및 주파수의 관계를 도시한 도면.

도 3a 및 도 3b는 도 1의 오디오 인코더의 사인파 인코더 성분에 대한 바람직한 실시예를 도시한 도면.

도 4는 본 발명의 실시예가 구현되는 오디오 플레이어를 도시한 도면.

도 5a 및 도 5b는 도 4의 오디오 플레이어의 사인파 합성기 성분에 대한 바람직한 실시예를 도시한 도면.

도 6은 본 발명에 따른 오디오 인코더 및 오디오 플레이어를 포함하는 시스 템을 도시한 도면.

본 발명의 바람직한 실시예들은 동일한 구성요소들이 동일한 도면부호들을 가지며 다른 방식으로 언급하지 않는 한 동일한 기능들을 수행하는 첨부도면들을 참조로하여 지금 기술될 것이다. 본 발명의 바람직한 실시예에서, 인코더(1)는 제WO 01/69593호에 개시된 타입의 사인파 인코더이다(도 1). 이러한 종래의 인코더 및 대응 디코더의 동작이 또한 기술되며, 본 발명과 관련된 설명만이 여기에 제공된다.

본 발명의 종래 및 바람직한 실시예에서, 오디오 인코더(1)는 임의의 샘플링 주파수로 입력 오디오 신호를 샘플링하여 오디오 신호의 디지털 표현 x(t)을 발생시킨다. 그 다음에, 인코더(1)는 샘플링된 입력 신호를 3가지 성분들, 즉 과도신호 성부들, 유지 결정 성분들, 및 유지 확률 성분들로 분리한다. 오디오 인코더(1)는 과도 인코더(11), 사인파 인코더(13) 및 잡음 인코더(14)를 포함한다.

과도 인코더(11)는 과도 검출기(TD)(110), 과도 분석기(TA)(111) 및 과도 합성기(TS)(112)를 포함한다. 첫째, 신호 x(t)는 과도 검출기(110)에 입력된다. 이러한 검출기(110)는 과도 신호성분 및 이의 위치가 존재가 존재하는지를 추정한다. 이러한 정보는 과도 분석기(111)에 공급된다. 만일 과도 신호성분의 위치가 결정되면, 과도 분석기(111)는 과도 신호 성분(및 과도 신호 성분의 주요 부분)의 추출을 시도한다. 과도 신호 성분은 바람직하게 추정된 시작 위치에서 시작하는 신호 세그먼트에 대한 형상 함수와 매칭되며, 예컨대 소수의 사인파 성분들을 사용함으로 써 형성 함수 하부의 콘텐츠를 결정한다. 이러한 정보는 과도 코드 C_T에 포함되며, 과도 코드 C_T의 발생과 관련한 더 상세한 설명은 제WO 01/69593호에 제공된다.

과도 코드 C_T는 과도 합성기(112)에 제공된다. 합성된 과도 신호 성분은 감산기(16)에서 입력 신호 x(t)로부터 감산되어 신호 x1로 생성된다. 이득 제어 메커니즘 GC(12)은 x1으로부터 x2를 생성하기 위하여 사용된다.

신호 x2는 사인파 인코더(13)에 공급되며, 신호 x2는 (결정적) 사인파 성분들을 결정하는 사인파 분석기(SA)(130)에서 분석된다. 따라서, 과도 분석기의 존재가 바람직한 반면에 필수적인 것이 아니며, 결국 본 발명은 분석기없이 구현될 수 있다. 선택적으로, 앞서 언급된 바와 같이, 본 발명은 예컨대 고조파 복소수 분석기로 구현될 수 있다. 간단히 말해서, 사인파 인코더는 한 프레임 세그먼트로부터 다른 프레임 세그먼트로 링크된 사인파 성분들의 트랙들로서 입력 신호 x2를 인코딩한다.

도 3a를 지금 참조하면, 종래의 기술과 동일한 방식으로, 바람직한 실시예에서 입력 신호 x2의 각각의 세그먼트는 푸리에 변환(FT) 유닛(40)에서 주파수 영역으로 변환된다. 각각의 세그먼트에 대하여, FT 유닛은 측정된 진폭들 A, 위상들 φ 및 주파수들 ω을 제공한다. 이전에 언급된 바와 같이, 푸리에 변환에 의하여 제공된 위상들의 범위는 -π≤φ≤π에 제한된다. 트래킹 알고리즘(TA) 유닛(42)은 각각의 세그먼트에 대한 정보를 선택하며 적절한 비용함수를 사용함으로써 한 세그먼트로부터 다른 세그먼트로 사인파들을 링크하며 그 결과 각각의 트랙에 대하 여 측정된 위상들

및 주파수들 ω(k)의 시퀀스를 생성한다.

종래의 기술과 대조적으로, 분석기(130)에 의하여 생성된 사인파 코드들 C_S은 위상 정보를 포함하며, 주파수는 디코더에서 상기 정보로부터 재구성된다.

그러나, 앞서 언급된 바와 같이, 측정된 위상은 래핑되며, 이는 측정된 위상이 모듈로 2π 표현으로 재구성된다는 것을 의미한다. 따라서, 바람직한 실시예에서, 분석기는 트랙에 대하여 구조적 인터-프레임 위상 상태

을 노출시키기 위하여 모듈로 2π 위상 표현이 언래핑되는 위상 언래퍼(PU)(44)를 포함한다. 사인파 트랙들의 주파수가 거의 일정하기 때문에, 언래핑된 위상

은 전형적으로 거의 선형적으로 증가하는(또는 감소하는) 함수이며 이는 가능한 저비트율로 위상을 전송할 수 있도록 한다는 것을 알 수 있다. 언래핑된 위상

은 전송하기에 적합한 양자화된 표현 레벨들 r을 출력으로서 제공하는 위상 인코더(PE)(46)에 입력으로서 제공된다.

위상 언래퍼(44)의 동작을 지금 참조하면, 앞서 언급된 바와 같이, 트랙에 대한 순간 위상

및 순간 주파수 Ω는 이하의 수식 (1)에 의하여 관련된다.

(1)

여기서, T₀는 기준 시간상수이다.

프레임들 k=K, K+1,...,K+L-1에서 사인파 트랙은 측정된 주파수들 ω(k)(초당 라디안으로 표현됨) 및 측정된 위상들 φ(k)(라디안으로 표현됨)를 가진다. 프 레임의 중심들 간의 거리는 U(초로 표현된 업데이트율)에 의하여 주어진다. 측정된 주파수들은 ω(k) = Ω(kU)으로 가정된 하부 연속 시간 주파수 트랙 Ω의 샘플들인 것으로 가정되며, 유사하게 측정된 위상들은

=

(kU) mod (2π)와 연관된 연속-시간 위상 트랙

의 샘플들이다. 사인파 인코딩에 대하여 Ω가 거의 선형함수인 것이 가정된다.

주파수들이 세그먼트 내에서 거의 일정한 것으로 가정하면, 수식(1)은 다음과 같이 근사화될 수 있다.

(2)

따라서, 주어진 세그먼트의 위상 및 주파수와 다음 세그먼트의 주파수를 알면 다음 세그먼트 및 트랙 내의 각각의 세그먼트에 대하여 언래핑된 위상값을 추정하는 것이 가능하다는 것을 알 수 있다.

바람직한 실시예에서, 위상 언래퍼는 시간 상수 k에서 언래퍼 인자 m(k)를 결정한다.

(3)

언래퍼 인자 m(k)는 언래핑된 위상을 구하기 위하여 부가되어야 하는 사이클들의 수를 위상 언래퍼(44)에 알린다.

수식(2) 및 수식(3)을 결합하면, 위상 언래퍼는 다음과 같이 증가 언래퍼 인자 e(k)를 결정한다.

여기서 e는 정수이어야 한다. 그러나, 측정 및 모델 에러들로 인하여, 증가 언래퍼 인자는 정확하게 정수가 아닐 것이며, 그 결과 모델 및 측정치 에러들이 작다고 가정하면 다음과 같다.

증가 언래퍼 인자 e를 가지면, 수식(3)으로부터 m(k)는 누산 합으로서 계산되며, 여기서 일반성의 손실없이 위상 언래퍼는 m(K)=0를 가진 제 1프레임 K에서 시작되며 m(k) 및 φ(k)로부터 (언래핑된) 위상

(kU)가 결정된다.

실제로, 샘플링된 데이터

(kU) 및 Ω(kU)는 다음과 같은 측정 에러들에 의하여 왜곡된다.

여기서, ε₁ 및 ε₂는 각각 위상 및 주파수 에러들이다. 언래퍼 인자가 모호하게 결정되는 것을 방지하기 위하여, 측정 데이터는 정확하게 결정될 필요가 있다. 따라서, 바람직한 실시예에서, 트래킹은 다음과 같은 수식이 되도록 제한된다.

여기서, δ는 라우딩 연산에서 에러이다. 에러 δ는 U와의 곱으로 인하여 ω에서 에러들에 의하여 주로 결정된다. ω가 샘플링 주파수 F_s를 가진 입력신호의 샘플링된 버전으로부터 푸리에 변환의 절대값의 최대치로부터 결정되고 푸리에 변환의 해답이 2π/La이다(여기서, L_a은 분석 크기이다). 고려된 경계 내에 있도록 다음과 같은 관계를 가진다.

이는 분석 크기가 정확하게 언래핑되도록 업데이트 크기보다 수매 커야하며 예컨대 δ₀=1/4로 세팅되면 분석 크기가 업데이트 크기의 4배되어야 한다는 것을 의미한다(위상 측정시에 에러들 ε₁를 무시하는 경우에).

라운드 연산에서 결정 에러들을 방지하기 위하여 취해질 수 있는 제 2 경계는 트랙들을 개략적으로 정의한다. 트래킹 유닛(42)에서, 사인파 트랙들은 전형적으로 진폭 및 주파수 차이들을 고려함으로써 정의된다. 부가적으로, 링크 기준에서 위상 기준에서 위상 정보를 고려하는 것이 가능하다. 예컨대, 다음과 같은 수식에 따라 측정된 값 및 예측된 값

간의 차이로서 위상 예측 에러 ε를 정의할 수 있다.

여기서, 예측된 값은 다음과 같이 될 수 있다.

따라서, 바람직하게 트래킹 유닛(42)은 ε가 임의의 값(예컨대, ε>π/2)보드 큰 트랙들을 금지하며, 이에 따라 e(k)가 명백하게 정의된다.

부가적으로, 인코더는 디코더에서 이용가능한 위상들 및 주파수들을 계산할 수 있다. 만일 디코더에서 이용가능한 위상들 또는 주파수들이 인코더에서 존재하는 것과 같은 위상들 및/또는 주파수들과 다르면, 트랙을 인터럽트하고, 즉 트랙의 끝을 알리고 현재의 주파수 및 위상 및 이들과 링크된 사인파 데이터를 사용하여 새로운 트랙을 시작하는 것이 결정될 수 있다.

위상 언래퍼(PU)(44)에 의하여 생성된 샘플링된 언래핑된 위상

(kU)은 표현 레벨들 r의 세트를 생성하기 위하여 위상 인코더(PE)(46)에 입력으로서 제공되다. 언래핑된 위상과 같은 일반적으로 단조 변화 특징을 효율적으로 전송하는 기술들이 알려져 있다. 바람직한 실시예에서, 도 3b에 도시된 바와 같이, 적응 차동 펄스 코드 변조(ADPCM)가 사용된다. 여기서, 예측기(PF)(48)는 다음 트랙 세그먼트의 위상을 추정하고 양자화기(Q)(50)에서만 차이를 인코딩하기 위하여 사용된다.

가 거의 선형 함수인 것으로 예측되기 때문에 단순화를 위하여 예측기(48)는 다음과 같은 형식의 2차 필터로서 선택된다.

여기서, x는 입력이며 y는 출력이다. 그러나, 다른 함수 관계들(고차 관계들을 포함)을 취하여 필터 계수들의 적응(순방향 또는 역방향)을 포함하는 것이 가 능하다는 것을 알 수 있다. 바람직한 실시예에서, 역방향 적응 제어 메커니즘(QC)(52)은 양자화기(50)를 제어하기 위하여 사용된다. 순방향 적응 제어가 또한 가능하나 초과 비트율 오버헤드를 필요로 한다.

알 수 있는 바와 같이, 트랙에 대한 인코더(및 디코더)의 초기화는 시작 위상 φ(0) 및 주파수 ω(0)의 정보와 함께 시작한다. 이들은 양자화되며 개별 메커니즘에 의하여 전송된다. 부가적으로, 인코더의 양자화 제어기(52) 및 디코더의 대응 제어기(62)에서 사용된 초기 양자화 단계는 인코더 및 디코더에서 임의의 값으로 전송되거나 또는 세팅된다(도 5b). 최종적으로, 트랙의 끝은 개별 측면 스트림으로 알려지거나 또는 위상들의 비트 스트림에서 고유 심볼로서 알려질 수 있다.

언래핑된 위상의 시작 주파수는 인코더 및 디코더에 알려진다. 이러한 주파수를 기초로하여, 양자화 주파수가 선택된다. 저주파수에서 시작하는 언래핑된 위상 궤도들에 대하여, 더 정밀한 양자화 그리드, 즉 높은 분석이 고주파수에서 시작하는 언래핑된 위상 궤도 대신에 선택된다.

ADPCM 양자화기에서, 언래핑된 위상

(k)는 트랙의 선행 위상들로부터 예측/추정된다(여기서 k는 트랙의 수를 나타낸다). 예측된 위상

(k) 및 언래핑된 위상

(k)간의 차이는 양자화되어 전송된다. 양자화기는 트랙의 모든 언래핑된 위상에 대하여 적응된다. 예측 에러가 작을 때, 양자화기는 가능한 값들의 범위를 제한하며 양자화기는 더 정밀하게 될 수 있다. 다른 한편으로, 예측 에러가 크면, 양자화기는 개략 양자화를 사용한다.

양자화기 Q(도 3b)는 다음과 같은 수식에 의하여 계산된 예측 에러 Δ를 양자화한다.

예측 에러 Δ는 룩업-테이블을 사용하여 양자화될 수 있다. 이를 위하여, 테이블 Q가 유지된다. 예컨대, 2-비트 ADPCM 양자화기에 대하여, Q에 대한 초기 테이블이 테이블 1에 도시된 테이블과 같이 보일 수 있다.

인덱스 i	하부 경계치들 bl	상부 경계치 bu
0	- ∞	- 3.0
1	- 3.0	0
2	0	3.0
3	3.0	∞

테이블 1: 제 1 연속을 위하여 사용된 양자화 테이블 Q

양자화는 다음과 같이 수행된다. 예측 에러 Δ는 다음과 같은 관계식이 만족되도록 경계치들 b와 비교된다.

앞의 관계식을 만족하는 i의 값으로부터, 표현 레벨 r은 r=i에 의하여 계산된다.

연관된 표현 레벨들은 테이블 2에 기술된 표현 테이블 R에 저장된다.

표현 레벨 r	표현 테이블 R	레벨 타입
0	-3.0	외부 레벨
1	-0.75	내부 레벨
2	0.75	내부 레벨
3	3.0	외부 레벨

테이블 2: 제 1 연속을 위하여 사용된 표현 레벨 R

테이블들 Q의 엔트리들은 트랙에서 다음 사인파 성분의 양자화를 위하여 인 자 c에 의하여 곱해진다.

트랙의 디코딩 동안, 양 테이블들은 일반화된 표현 레벨들 r에 따라 스케일링된다. 만일 r이 현재의 부프레임에 대하여 1 또는 2(내부 레벨)이면, 양자화 테이블에 대한 스케일 인자는 다음과 같이 세팅된다.

c=2^-1/4

c<1이기 때문에, 트랙에서 다음 사인파의 주파수 및 위상은 더 정밀하게 된다. 만일 r이 0 또는 3(외부 레벨)이면, 스케일 인자는 다음과 같이 세팅된다.

c=2^1/2

c>1이기 때문에, 트랙에서 다음 사인파에 대한 양자화 정밀도이 감소된다. 이들 인자들을 사용하면, 하나의 업-스케일링은 2개의 다운-스케일링에 의하여 원상태로 복원될 수 있다. 업-스케일 및 다운-스케일 인자들간의 차이점은 업-스케일링의 고속 온세트를 야기하며, 대응 다운-스케일링은 2개의 단계들을 필요로한다.

양자화 테이블에서 매우 작거나 또는 매우 큰 엔트리들을 방지하기 위하여, 내부 레벨의 절대값이 π/64 내지 3π/4이다. 이 경우에 c는 1로 세팅된다.

디코더에서, 단지 테이블 R만이 수신된 표현 레벨들 r을 양자화된 예측 에러로 변환시키도록 유지되어야 한다. 이러한 역-양자화 연산은 도 5b에서 블록 DQ에 의하여 수행된다.

앞의 세팅들을 사용하면, 재구성된 사운드의 품질은 개선점을 필요로 한다. 본 발명에 따르면, 언래핑된 위상 트랙들에 대한 다른 초기 테이블들은 시작 주파수에 따라 사용된다. 이 결과, 보다 양호한 사운드 품질이 획득된다. 이는 다음과 같이 수행된다. 초기 테이블들 Q 및 R은 트랙의 제 1주파수로 스케일링된다. 테이블 3에서, 스케일 인자들은 주파수 범위들과 함께 주어진다. 만일 트랙의 제 1주파수가 임의의 주파수 범위 내에 놓이면, 적절한 스케일 인자가 선택되며, 테이블 R 및 Q는 스케일 인자에 의하여 나누어진다. 엔드-포인트들은 트랙의 제 1주파수에 따를 수 있다. 디코더에서, 정확한 초기 테이블 R과 함께 시작하기 위하여 대응 절차가 수행된다.

테이블 3: 주파수 종속 스케일 인자들 및 초기 테이블들

테이블 3은 2-비트 ADPCM 양자화기에 대한 주파수 종속 스케일 인자들 및 대응 초기 테이블들 Q 및 R의 예를 도시한다. 오디오 주파수 범위 0-22050Hz는 4개의 주파수 부범위들로 분할된다. 위상 정밀도이 고주파수 범위들에 대하여 저주파수 범위들에서 개선된다는 것을 알 수 있다.

주파수 부범위들의 수 및 주파수 종속 스케일 인자들은 변화하며, 개인 목적 및 요건들에 적합하도록 선택될 수 있다. 앞서 기술된 것과 유사하게, 테이블 3에서 주파수 종속 초기 테이블들 Q 및 R은 하나의 시간 세그먼트로부터 다음 시간 세그먼트까지 위상의 변화에 적응하도록 동적으로 업-스케일 및 다운-스케일링될 수 있다.

예컨대 3-비트 ADPCM 양자화기에서, 3비트에 의하여 정의된 8개의 양자화 간격들의 초기 경계치들은 다음과 같이 정의될 수 있다.

이며, 최소 그리드 크기 π/64 및 최대 그리드 크기 π/2를 가질 수 있다. 표현 테이블 R은 다음과 같을 수 있다.

. 테이블 3에 도시된 테이블 Q 및 R의 유사한 주파수 종속 초기화는 일한 경우에 사용될 수 있다.

사인파 인코더에서 발생된 사인파 코드 C_S로부터, 사인파 신호 성분들은 디코더의 사인파 합성기(SS)(32)와 관련하여 기술된 것과 동일한 방식으로 사인파 합성기(SS)(131)에 의하여 재구성된다. 이러한 신호는 사인파 인코더(13)에 대한 입력 x2로부터 감산기(17)에서 감산되며, 이에 따라 나머지 신호 x3가 생성된다. 사인파 인코더(13)에 의하여 생성된 잔류 신호 x3는 예컨대 국제특허 출원번호 PCT/EP00/04599에 기술된 바와 같이 잡음을 나타내는 잡음 코드 C_N를 생성하는 바람 직한 실시예의 잡음 분석기(14)에 전송된다.

최종적으로, 멀티플렉서(15)에서는 코드들 C_T, C_S, 및 C_N를 포함하는 오디오 스트림 AS이 구성된다. 오디오 스트림 AS는 예컨대 데이터 버스, 안테나 시스템, 저장 매체 등에 공급된다.

도 4는 예컨대 도 1의 인코더(1)에 의하여 생성되고 데이터 버스, 안테나 시스템, 저장 매체 등으로부터 획득된 오디오 스트림 AS'에 디코딩하는데 적합한 오디오 플레이어(3)를 도시한다. 오디오 스트림 AS'는 코드들 C_T, C_S 및 C_N을 획득하기 위하여 디-멀티플렉서(30)에서 디-멀티플렉싱된다. 이들 코드들은 과도 합성기(31), 사인파 합성기(32) 및 잡음 합성기(33)에 각각 공급된다. 과도 코드 C_T로부터, 과도 신호 성분들은 과도 합성기(31)에서 계산된다. 이 경우에, 과도 코드는 형상 함수를 지시하며, 형상은 수신된 파라미터들에 기초하여 계산된다. 게다가, 형상 콘텐츠는 사인파 성분들의 주파수들 및 진폭들에 기초하여 계산된다. 만일 과도 코드 C_T가 단계를 지시하면, 과도 상태가 계산되지 않는다. 전체 과도 신호 y_T는 모든 과도상태들의 합이다.

분석기(130)에 의하여 인코딩된 정보를 포함하는 사인파 코드 C_S는 신호 y_S를 생성하기 위하여 사인파 합성기(32)에 의하여 사용된다. 도 5a 및 도 5b를 지금 참조하면, 사인파 합성기(32)는 위상 인코더(46)와 호환가능한 위상 디코더(PD)(56)를 포함한다. 여기서, 2차 예측 필터(PF)(64)와 관련한 역양자화기 (DQ)(60)는 표현 레벨들 r로부터의 언래핑된 위상

(의 추정치), 예측 필터(PF)(64)에 제공된 초기 정보

및 양자화 제어기(QC)(62)에 대한 초기 양자화 스텝을 생성한다.

도 2b에 기술된 바와 같이, 주파수는 미분에 의하여 언래핑된 위상

으로부터 복원될 수 있다. 디코더에서의 위상 에러가 대략 백색 에러인 것을 가정하면, 미분이 고주파수들을 증폭하기 때문에, 미분은 잡음을 감소시키고 이에 따라 디코더에서 주파수의 정확한 추정을 구하기 위하여 저주파수 필터와 결합될 수 있다.

바람직한 실시예에서, 필터링 유닛(FR)(58)은 순방향, 역방향 또는 중앙 차이점들로서 절차들에 의하여 언래핑된 위상으로부터 주파수

를 구하는데 필요한 미분을 근사화한다. 이는 인코딩된 신호의 사인파 성분을 합성하기 위하여 디코더가 종래의 방식으로 사용가능한 위상들

및 주파수들

를 출력으로서 생성하도록 한다.

동시에, 신호의 사인파 성분들이 합성되기 때문에, 잡음 코드 C_N는 잡음 스펙트럼을 근사화하는 주파수 응답을 가진 필터인 잡음 합성기(NS)(33)에 공급된다. NS(33)은 잡음 코드 C_N를 가진 백색 잡음 신호를 필터링함으로써 재구성된 잡음 y_N을 생성한다. 전체 신호 y(t)는 과도 신호 y_T의 합, 임의의 진폭 압축해제(g) 의 곱 및 사인파 신호 y_T 및 잡음 신호 y_N의 합을 포함한다. 오디오 플레이어는 각각의 신호들을 합산하기 위하여 2개의 가산기들(36, 37)을 포함한다. 전체 신호는 예컨대 스피커인 출력 유닛(35)에 공급된다.

도 6은 도 1에 도시된 오디오 신호(1) 및 도 4에 도시된 오디오 플레이어(3)를 포함하는 본 발명의 오디오 시스템을 도시한다. 이러한 시스템은 재생 및 기록 특징들을 제공한다. 오디오 스트림 AS는 오디오 인코더로부터 무선 접속부, 데이터(2) 버스 또는 저장 매체일 수 있는 통신 채널(2)을 통해 오디오 플레이어에 공급된다. 통신 채널(2)이 저장매체인 경우에, 저장매체는 시스템에 고정될 수 있거나, 또는 제거가능 디스크, 메모리 스틱 등일 수 있다. 통신 채널(2)은 오디오 시스템의 부분일 수 있으나, 종종 오디오 시스템 외부에 존재할 것이다.

여러 연속 세그먼트들로부터 코딩된 데이터는 링크된다. 이는 다음과 같이 수행된다. 각각의 세그먼트에 대하여, 사인파들의 수가 결정된다(예컨대 FFT를 사용하여). 사인파는 주파수, 진폭 및 위상으로 구성된다. 사인파들의 수는 세그먼트마다 변화한다. 일단 사인파들이 세그먼트에 대하여 결정되면, 이전 세그먼트로부터의 사인파들에 접속하기 위하여 분석이 수행된다. 이는 '링크(linking)' 및 '트래킹(tracking)'으로 불린다. 분석은 현재 세그먼트의 사인파 및 이전 세그먼트로부터의 모든 사인파들간의 차이에 기초한다. 링크/트랙은 가장 작은 차이를 가진 이전 세그먼트의 사인파로 형성된다. 만일 임의의 임계값보다 가장 작은 차이가 크면, 이전 세그먼트의 사인파들에의 접속이 형성되지 않는다. 이러한 방식에 서는 새로운 사인파가 생성되거나 또는 "탄생(born)"된다.

사인파들 간의 차이점은 사인파들의 주파수, 진폭 및 위상을 사용하는 '비용 함수(cost function)'를 사용하여 결정된다. 이러한 분석은 각각의 세그먼트에 대하여 수행된다. 결과는 오디오 신호에 대한 다수의 트랙들이다. 트랙은 이전 세그먼트로부터의 사인파들과 접속되지 않은 사인파인 탄생(birth) 사인파를 가진다. 탄생 사인파는 비구별적으로 인코딩된다. 이전 세그먼트들로부터의 사인파들에 접속된 사인파들은 연속들이라 불리며, 이들은 이전 세그먼트로부터의 사인파들과 구별되도록 인코딩된다. 이는 단지 차이점들이 인코딩되거나 절대값이 아니기 때문에 다수의 비트들을 절약한다.

만일 f(n-1)이 이전 세그먼트로부터의 사인파의 주파수이고 f(n)가 현재 세그먼트로부터의 접속된 사인파이면, f(n)-f(n+1)는 디코더에 전송된다. 수 n은 트랙의 수를 나타내며, n=1은 탄생 사인파를 나타내며, n=2는 제 1연속들을 나타낸다. 진폭들에 대하여 동일하게 적용된다. 초기 사인파(=탄생 사인파)의 위상 값이 전송되는 반면에, 연속에 대하여 위상이 전송되지 않으며 위상은 주파수들로부터 검색될 수 있다. 만일 트랙이 다음 세그먼트에서 연속되지 않으면, 트랙은 종료하거나 또는 "소멸(dies)"된다.

Claims

신호 인코딩 방법에 있어서,

복수의 순차적인 세그먼트들의 각 세그먼트에 대한 샘플링된 신호값들(x(t))의 각 세트를 제공하는 단계;

상기 복수의 순차적인 세그먼트들의 각 세그먼트에 대한 하나 이상의 사인파 성분들을 결정하기 위하여 상기 샘플링된 신호값들(x(t))을 분석하는 단계로서, 상기 각각의 사인파 성분은 주파수값(Ω) 및 위상값
을 포함하는, 상기 분석 단계;

사인파 트랙들을 제공하기 위하여 복수의 순차적인 세그먼트들에 사인파 성분들을 링크하는 단계;

상기 복수의 순차적인 세그먼트들의 각 세그먼트 내의 각각의 사인파 트랙에 대하여, 적어도 이전 세그먼트에 대한 위상값의 함수로서 예측된 위상값
을 결정하는 단계;

상기 각각의 사인파 트랙에 대하여, 일반적인 단조 변화 값(monotonically changing value)을 포함하는 측정된 위상값
을 결정하는 단계;

상기 세그먼트에 대한 상기 예측된 위상값
및 측정된 위상값
의 함수로서 사인파 코드들(C_S)을 양자화하는 단계로서, 상기 사인파 코드들 (C_S)은 상기 각각의 사인파 트랙의 적어도 하나의 주파수값(Ω)에 따라서 양자화되는, 상기 양자화 단계; 및

상기 주파수와 상기 위상을 나타내는 사인파 코드들(C_S) 및 링크 정보를 포함하는 인코딩된 신호(AS)를 생성하는 단계를 포함하는, 신호 인코딩 방법.
제 1항에 있어서, 제 1주파수값을 갖는 제 1사인파 성분을 포함하는 제 1사인파 트랙에서 상기 사인파 코드들(C_S)은 제 1양자화 정밀도를 사용하여 양자화되며, 상기 제 1주파수값보다 높은 제 2주파수값을 갖는 제 2사인파 성분을 포함하는 제 2사인파 트랙에서 상기 사인파 코드들(C_S)은 상기 제 1양자화 정밀도보다 낮거나 동일한 제 2양자화 정밀도를 사용하여 양자화되는, 신호 인코딩 방법.
제 1항에 있어서, 트랙에 대한 상기 사인파 코드들(C_S)은 초기 위상값 및 초기 주파수값을 포함하며, 상기 예측단계는 최초의 예측을 제공하기 위하여 상기 초기 주파수값 및 상기 초기 위상값을 사용하는, 신호 인코딩 방법.
제 1항에 있어서, 각각의 링크된 세그먼트의 상기 위상값은 상기 이전 세그먼트에 대한 주파수와 상기 링크된 세그먼트의 주파수의 적분, 및 상기 이전 세그먼트의 위상의 함수로서 결정되며, 상기 사인파 성분들은 범위 {-π; π}에서 위상 값
을 포함하는, 신호 인코딩 방법.
제 1항에 있어서, 상기 사인파 코드들의 양자화단계는 각각의 예측된 위상값
및 대응 관측된 위상값
간의 위상차를 결정하는 단계를 포함하는, 신호 인코딩 방법.
제 4항에 있어서, 상기 생성단계는 상기 양자화된 사인파 코드들(C_S)의 함수로서 상기 양자화 단계를 제어하는 단계를 포함하는, 신호 인코딩 방법.
제 6항에 있어서, 상기 사인파 코드들(C_S)은 트랙의 끝에 대한 지시자를 포함하는, 신호 인코딩 방법.
제 1항에 있어서,

상기 사인파 코드들(C_S)을 사용하여 상기 사인파 성분들을 합성하는 단계;

상기 오디오 신호의 나머지 성분을 나타내는 값들(x₃)의 세트를 제공하기 위하여 상기 샘플링된 신호값들(x(t))로부터 상기 합성된 신호값들을 감산하는 단계;

파라미터들을 결정함으로써 상기 오디오 신호의 상기 나머지 성분을 모델링하여 상기 나머지 성분을 근사화하는 단계; 및

오디오 스트림(AS)에서 상기 파라미터들을 포함하는 단계를 더 포함하는, 신호 인코딩 방법.
제 1항에 있어서, 상기 샘플링된 신호값들(x₁)은 과도 성분들(transient component)이 제거된 오디오 신호를 나타내는, 신호 인코딩 방법.
주파수와 위상을 나타내는 사인파 코드들(C_S) 및 링크 정보를 포함하는 오디오 스트림(AS')을 디코딩하는 방법으로서,

상기 오디오 스트림(AS')을 포함하는 신호를 수신하는 단계;

언래핑된 역양자화된 위상값(
)을 구하기 위하여 상기 사인파 코드들(C_S)을 역양자화하는 단계로서, 상기 사인파 코드들(C_S)은 상기 각각의 사인파 트랙의 적어도 하나의 주파수값에 따라 역양자화되는, 상기 역양자화 단계;

상기 역양자화된 언래핑된 위상값(
)으로부터 주파수값
을 계산하는 단계; 및

상기 오디오 신호(y(t))의 사인파 성분들을 합성하기 위하여 상기 역양자화된 주파수 및 위상값들
을 사용하는 단계를 포함하는, 오디오 스트림 디코딩 방법.
제 10항에 있어서, 제 1주파수값을 갖는 제 1사인파 성분을 포함하는 제 1사인파 트랙에서 상기 사인파 코드들은 제 1양자화 정밀도를 사용하여 역양자화되며, 상기 제 1주파수값보다 높은 제 2주파수값을 갖는 제 2사인파 성분을 포함하는 제 2사인파 트랙에서 상기 사인파 코드들은 상기 제 1양자화 정밀도보다 낮거나 동일한 제 2양자화 정밀도를 사용하여 역양자화되는, 오디오 스트림 디코딩 방법.
제 10항에 있어서, 각각의 링크된 사인파 성분의 상기 위상값은 상기 이전 세그먼트에 대한 주파수와 상기 링크된 세그먼트의 주파수의 적분, 및 상기 이전 세그먼트의 위상의 함수로서 결정되며, 상기 사인파 성분들은 범위 {-π; π}에서 위상값을 포함하는 오디오 스트림 디코딩 방법.
제 12항에 있어서, 상기 양자화 정밀도는 상기 양자화된 사인파 코드들의 함수로서 제어되는, 오디오 스트림 디코딩 방법.
복수의 순차적인 세그먼트들의 각 세그먼트에 대한 샘플링된 신호값들의 각 세트를 처리하도록 배열된 오디오 인코더로서,

상기 복수의 순차적인 세그먼트들의 각 세그먼트에 대한 하나 이상의 사인파 성분들을 결정하기 위하여 상기 샘플링된 신호값들을 분석하는 분석기로서, 상기 각각의 사인파 성분은 주파수값 및 위상값을 포함하는, 상기 분석기;

사인파 트랙들을 제공하기 위하여 복수의 순차적인 세그먼트들에 사인파 성 분들을 링크하는 링커(13);

상기 복수의 순차적인 세그먼트들의 각 세그먼트 내의 각각의 사인파 트랙에 대하여 적어도 이전 세그먼트에 대한 위상값의 함수로서 예측된 위상값
을 결정하고, 상기 각각의 사인파 트랙에 대하여 일반적인 단조 변화 값을 포함하는 측정된 위상값
을 결정하는 위상 언래퍼(44);

상기 세그먼트에 대한 예측된 위상값
및 측정된 위상값
의 함수로서 사인파 코드들을 양자화하는 양자화기(50)로서, 상기 사인파 코드들은 상기 각각의 사인파 트랙의 적어도 하나의 주파수값에 따라서 양자화되는, 상기 양자화기; 및

상기 주파수 및 상기 위상을 나타내는 사인파 코드들(C_S)을 포함하는 인코딩된 신호(AS)를 제공하는 수단(15)을 포함하는, 오디오 인코더.
제 14항에 있어서, 상기 양자화기(50)는 상기 제 1주파수값을 갖는 제 1사인파 성분을 포함하는 제 1사인파 트랙에서 제 1양자화 정밀도를 사용하여 상기 사인파 코드들(C_S)을 양자화하도록 적응되며, 상기 제 1주파수값보다 높은 제 2주파수값을 갖는 제 2사인파 성분을 포함하는 제 2사인파 트랙에서 상기 제 1양자화 정밀도보다 낮거나 또는 동일한 제 2양자화 정밀도를 사용하여 상기 사인파 코드들(C_S)을 양자화하도록 적응되는, 오디오 인코더.
오디오 플레이어에 있어서,

링크된 사인파 성분들의 각각의 트랙에 대한 주파수 및 위상을 나타내는 사인파 코드들을 포함하는 인코딩된 오디오 신호를 판독하는 수단;

위상값들을 생성하고 상기 위상값들로부터 주파수값들을 생성하는 역양자화기; 및

상기 오디오 신호의 사인파 성분들을 합성하기 위하여 상기 생성된 위상 및 주파수값들을 사용하도록 배열된 합성기를 포함하는, 오디오 플레이어.
제 14항에 따른 오디오 인코더 및 제 16항에 따른 오디오 플레이어를 포함하는, 오디오 시스템.
오디오 신호의 복수의 순차적인 세그먼트들를 가로질러 링크된 사인파 성분들의 트랙들을 나타내고, 적어도 이전 세그먼트에 대한 위상값의 함수로서 예측된 위상값 및 일반적인 단조 변화값을 포함하는 측정된 위상값을 나타내는 사인파 코드들을 포함하는 오디오 스트림에 있어서,

상기 사인파 코드들(C_S)은 상기 세그먼트에 대한 상기 예측된 위상값
및 상기 측정된 위상값
의 함수로서 양자화되며, 상기 사인파 코드들(C_S)은 상기 각각의 사인파 트랙의 적어도 하나의 주파수값(Ω)에 따라 양자화되 는, 오디오 스트림.
제 18항에 따른 오디오 스트림이 저장되는 저장매체.