KR100780561B1

KR100780561B1 - 라게르 함수를 이용한 오디오 코딩 장치 및 방법

Info

Publication number: KR100780561B1
Application number: KR1020017014581A
Authority: KR
Inventors: 오오멘아놀더스더블유.제이.; 덴브링커알버터스씨.
Original assignee: 코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date: 2000-03-15
Filing date: 2001-03-05
Publication date: 2007-11-29
Also published as: EP1190415B1; CN1154975C; KR20010113950A; JP4803938B2; CN1364290A; US7499852B2; ES2292581T3; JP2003527632A; US20050187760A1; WO2001069593A1; US6925434B2; EP1190415A1; DE60129771T2; ATE369600T1; DE60129771D1; US20010032087A1

Abstract

오디오 신호의 코딩(1) 방법이 제공되며, 상기 방법은 오디오 신호에서 과도 신호 성분의 위치를 추정하는 단계(110)와, 상기 과도 신호 성분이 초기 증가 후에 점차 감쇠하는 경우에 상기 과도 신호 성분에 형상 함수를 매칭하는 단계(111, 112)로서, 상기 형상 함수는 tⁿ에 실질적으로 따르는 초기 행동(initial behavior) 및 초기 행동 후에

에 실질적으로 따르는 감쇠 행동을 가지며, 여기서 t는 시간이며, n 및

는 상기 형상 함수를 기술하는 형상 파라미터들인, 상기 매칭 단계와, 오디오 스트림(AS)에 위치 및 형상 파라미터들을 포함시키는 단계(15)를 포함한다.

오디오 코더, 오디오 플레이어, 오디오 시스템, 오디오 스트림, 형상 함수

Description

라게르 함수를 이용한 오디오 코딩 장치 및 방법{An audio coding apparatus using a Laguerre function and a method thereof}

본 발명은 과도 신호(transient signal) 성분들이 코딩되는 오디오 신호들의 코딩에 관한 것이다.

본 발명은 또한 오디오 신호들의 디코딩에 관한 것이다.

본 발명은 또한 오디오 코더, 오디오 플레이어, 오디오 시스템, 오디오 스트림 및 기억 매체에 관한 것이다.

Purnhagen 및 Edler에 의한, "Objektbasierter Analyse/Synthese Audio Coder

sehr niedrige Datenraten", ITG Fachbericht 1998년, No. 146, pp. 35-40의 논문에는 저 비트 레이트에서 오디오 신호들을 코딩하는 장치가 기재되어 있다. 모델에 기초한 분석 합성 장치(model-based Analysis-Synthesis arrangement)가 사용되며, 여기서 입력 신호는 3개의 부분들로 분할된다: 단일 사인 곡선들, 하모닉 톤들 및 잡음. 입력 신호는 또한 32ms의 고정된 프레임들로 분할된다. 모든 블록들과 신호 부분들에 대해, 파라미터들은 소스 모델에 기초하여 도출된다. 과도 신호 부분들의 표현을 개선하기 위해, 엔벨로프 함수 a(t)는 입력 신호로부터 도출되고 선택된 사인 곡선들에 적용된다. 엔벨로프 함수는 도 1에 도시된 바와 같이 파라미터들(r_atk, r_dec, t_max)에 의해 결정된 2개의 라인 세그먼트들로 구성된다.

본 발명의 목적은 비트 레이트 및 인지(perception)에 관하여 유리한 오디오 코딩을 제공하는 것이다. 이 목적을 위해, 본 발명은 독립 청구항들에 규정된 바와 같이 코딩 및 디코딩 방법, 오디오 코더, 오디오 플레이어, 오디오 시스템, 오디오 스트림 및 기억 매체를 제공한다. 이로운 실시예들은 종속 청구항들에서 규정된다.

본 발명의 제 1 실시예는 오디오 신호에서 과도 신호 성분의 위치를 추정하는 단계와, 상기 과도 신호 성분이 초기 증가 후에 점차 감쇠하는(declining) 경우에 상기 과도 신호 성분에 형상 함수(shape function)를 매칭하는 단계로서, 상기 형상 함수는 tⁿ에 실질적으로 따르는 초기 행동(initial behavior) 및 초기 행동 후에

는 상기 형상 함수를 기술하는 형상 파라미터들인, 상기 매칭 단계를 포함한다. 본 발명은, 이러한 함수가 과도 신호 성분들의 양호한 표현을 제공하는 한편, 함수가 소수의 파라미터들에 의해 기술될 수 있어 비트 레이트와 지각 품질에 관해 유리하다는 통찰력(insight)에 기초한다. 본 발명은 과도 신호 성분들이 지속 신호 성분으로부터 개별적으로 인코딩되는 실시예들에서 특히 유리한데, 그 이유는, 특히 이 실시예들에서 과도 신호 성분들의 양호한 표현이 중요하기 때문이다.

본 발명의 다른 양태에 따라, 형상 함수는 라게르 함수이며, 이는

에 의해 주어진 연속 시간 내에 있으며, 여기서 c는 스케일링 파라미터(1을 취할 수 있는)이다. 실용적인 실시예에서, 시간 이산 라게르 함수가 사용된다.

과도 신호 성분들은 파워(또는 진폭) 레벨의 급격한 변화 또는 파형 패턴의 급격한 변화로서 지각가능하다. 이와 같은 과도 신호 성분들의 검출은 기술상 공지되어 있다. 예를 들어, J. Kliewer와 A. Mertins에 의한, 'Audio subband coding with improved representation of trasient signal segments', Proc. of EUSIPCO-98, Signal Processing IX, Theories and applications, Rhodos, Greece, 1998년 9월, pp. 2345-2348에는, 과도 검출 메커니즘이 제안되어 있으며, 이는 어택(attack) 시작 위치 전후의 에너지 레벨들의 차이에 기초한다. 본 발명에 따른 실용적인 실시예에서, 진폭 레벨의 급격한 변화들이 고려된다.

본 발명의 양호한 실시예에서, 형상 함수는 일반화된 이산 라게르 함수이다. 메이스너 및 메이스너형 함수들은 사용하는데 실용적이며 놀랄 만큼 좋은 결과를 제공한다. 이러한 함수들은 A.C. den Brinker에 의한, 'Meixner-like functions having a rational z-transform', Int. J. Circuit Theory, 1995년 4월 23일, pp. 237-246에 기재되어 있다. 이 형상 함수들의 파라미터들은 간단한 방식으로 도출된다.

본 발명의 다른 실시예에서, 과도 신호 성분이 진폭의 스텝형 변화(step-like change)인 경우 형상 파라미터들은 스텝 표시를 포함한다. 스텝형 변화 후의 신호는 지속 코더들에서 유리하게 코딩된다.

본 발명의 다른 양호한 실시예에서, 과도 신호 성분의 위치는 시작 위치이다. 적응 프레이밍(adaptive framing)을 위해 과도 신호 성분의 시작 위치를 제공하는 것이 편리하며, 여기서 프레임은 과도 신호 성분의 시작 위치에서 시작한다. 시작 위치는 형상 함수와 적응 프레이밍 둘 다에 사용되며, 그 결과 효율적으로 코딩된다. 시작 위치가 주어지면, 에들러(Edler)에 의해 기술된 실시예에서 필요한 바와 같이 2개의 파라미터들을 조합함으로써 시작 위치를 결정할 필요가 없다.

본 발명의 전술된 그리고 다른 양태들은 하기에 기재된 실시예들을 참조하여 설명되고 명백해질 것이다.

도 1은 이미 기재된 바와 같은, 공지된 엔벨로프 함수를 도시한 도면.

도 2는 본 발명에 따른 오디오 코더의 실시예를 도시한 도면.

도 3은 본 발명에 따른 형상 함수의 예를 도시한 도면.

도 4는 입력 오디오 신호의 1차 및 2차 러닝 중심 모멘트들(running central moments)을 도시한 도면.

도 5는 입력 오디오 신호에서 유도된 형상 함수의 예를 도시한 도면.

도 6은 본 발명에 따른 오디오 플레이어의 실시예를 도시한 도면.

도 7은 오디오 코더와 오디오 플레이어를 포함하는 시스템을 도시한 도면.

도면들은 단지 본 발명을 이해하는데 필요한 요소들을 보여준다.

도 2는 본 발명에 따른 오디오 코더(1)를 도시하고 있으며, 이는 입력 오디오 신호 x(t)를 얻기 위한 입력 유닛(10)을 포함한다. 오디오 코더(1)는 입력 신호를 3개의 성분들로 분리시킨다: 과도 신호 성분들(transient signal components), 지속 결정적 성분들(sustained deterministic components) 및 지속 확률적 성분들(sustained stochastic components). 오디오 코더(1)는 과도 코더(transient coder)(11), 사인 곡선 코더(sinusoidal coder)(13), 및 잡음 코더(14)를 포함한다. 오디오 코더는 선택적으로 이득 압축 메커니즘(GC)(12)을 포함한다.

본 발명의 이러한 이로운 실시예에서, 과도 코딩은 지속 코딩 전에 수행된다. 이것은, 과도 신호 성분들이 지속 코더들에서 효율적 및 최적으로 코딩되지 않기 때문에 유리하다. 지속 코더들이 과도 신호 성분들을 코딩하는데 사용되면, 많은 코딩 노력이 필요하다. 예를 들면, 과도 신호 성분을 지속 사인 곡선만으로 코딩하는 것은 어렵다고 생각할 수 있다. 그러므로, 과도 신호 성분들을 코딩될 오디오 신호로부터 지속 코딩 전에 제거하는 것이 유리하다. 과도 코더에서 얻어진 과도 시작 위치는 적응 분할(adaptive segmentation)(적응 프레이밍)을 위해 지속 코더들에 사용되며, 그 결과 지속 코딩의 성능이 더 향상된다.

과도 코더(11)는 과도 검출기(TD)(110), 과도 분석기(TA)(111) 및 과도 합성기(TS)(112)를 포함한다. 우선, 신호 x(t)는 과도 검출기(110)에 들어간다. 이 검출기(110)는 과도 신호 성분이 존재하는지 그리고 어느 위치에 있는지를 추정한다. 이 정보는 과도 분석기(111)로 전송된다. 이 정보는 또한 이로운 신호 유도 분할을 얻기 위해 사인 곡선 코더(13)와 잡음 코더(14)에 사용될 수 있다. 과도 신호 성분의 위치가 결정되면, 과도 분석기(111)는 과도 신호 성분(의 주요 부분)을 추출하려고 한다. 이는 형상 함수를 바람직하게는 추정된 시작 위치에서 시작하는 신호 세그먼트와 매칭하고 형상 함수 아래의 컨텐트, 예를 들어 (소) 수의 사인 곡선 성분들을 결정한다. 이 정보는 과도 코드(C_T)에 포함된다. 과도 코드(C_T)는 과도 합성기(112)에 공급된다. 합성된 과도 신호 성분은 감산기(16)에서 입력 신호 x(t)로부터 감산되며, 그 결과 신호 x₁가 얻어진다. GC(12)가 생략되는 경우에, x₁=x₂이다. 신호 x₂는 사인 곡선 코더(13)에 공급되며, 여기서 이는 사인 곡선 분석기(SA)(130)에서 분석되며, 그 사인 곡선 분석기는 (결정적) 사인 곡선 성분들을 결정한다. 이 정보는 사인 곡선 코더(C_S)에 포함된다. 사인 곡선 코드(C_S)로부터, 사인 곡선 신호 성분이 사인 곡선 합성기(SS)(131)에 의해 재구성된다. 이 신호는 감산기(17)에서 사인 곡선 코더(13)에의 입력(x₂)으로부터 감산되며, 그 결과 (큰) 과도 신호 성분들과 (주요) 결정적 사인 곡선 성분들이 없는 잔존 신호(x₃)가 얻어진다. 그러므로, 잔존 신호 x₃은 대개는 잡음으로 구성된다고 가정된다. 이것은 잡음 분석기(NA)(14)에서 ERB 스케일에 따라 그 파워 컨텐트가 분석된다. 잡음 분석기(14)는 잡음 코드(C_N)를 생성한다. 사인 곡선 코더(13)에서의 상황과 유사하게, 잡음 분석기(14)는 또한 새로운 분석 블록을 시작하는 위치로서 과도 신호 성분의 시작 위치를 사용할 수 있다. 사인 곡선 분석기(130)와 잡음 분석기(14)의 세그먼트 크기들은 동일할 필요가 없다. 멀티플렉스(15)에서, 오디오 스트림(AS)은 코드들(C_T, C_S 및 C_N)을 포함하도록 구성된다. 오디오 스트림(AS)은 예를 들어, 데이터 버스, 안테나 시스템, 기억 매체 등에 공급된다.

다음에, 본 발명에 따른 과도 신호 성분들의 표현이 기술될 것이다. 이 실시예에서, 과도 성분들(C_T)에 대한 코드는 형상 아래의 파라메트릭 형상 플러스 추가적인 주요 주파수 성분들(또는 다른 컨텐트) 또는 스텝형 변화를 식별하는 코드 중 어느 하나로 이루어진다. 본 발명의 양호한 실시예에 따라, 초기 증가 후에 점차 감쇠하는 과도에 대한 형상 함수는 바람직하게는 일반화된 이산 라게르 함수이다. 다른 타입들의 과도 신호 성분들에 대해서는, 다른 함수들이 사용될 수 있다.

일반화된 이산 라게르 함수의 예는 메이스너 함수(Meixner function)이다. 이산 0차 메이스너 함수 g(t)가 다음과 같이 주어진다:

여기서 t= 0, 1, 2, ...이고 (b)_t=b(b+1)...(b+t-1)은 Pochhammer 기호이다. 파라미터 b는 일반 차수(b>0)를 나타내며 함수의 초기 형상을 결정한다: 작은 t에 대해서는 대략 f∝t^(b-1)/2. 파라미터 ξ는 0<ξ<1의 극(pole)을 나타내며 큰 t에 대한 지연을 결정한다. 함수 g(t)는 t의 모든 값들에 대해 양의 함수이다. b=1에 대해, 이산 라게르 함수가 구해진다. 또한, b=1에 대해서는, g의 z-변환이 z에서 유리 함수이며 따라서 1차 무한 임펄스 응답(IIR) 필터의 임펄스 응답으로서 실현될 수 있다. b의 다른 모든 값들에 대해서는 유리 z-변환은 없다. 함수 g(t)는 에너지 정규화되며, 즉

g²(t)=1. 0차 메이스너 함수는

에 의해 귀납적으로 생성될 수 있다.

본 발명에 따른 다른 실시예에서는, 메이스너형 함수들이 사용된다. 그 이유는, 이들이 유리 z-변환을 갖기 때문이다. 메이스너형 함수의 예는 도 3에 도시된다. 이산 0차 메이스너형 함수 h(t)는 그 z-변환:

에 의해 제공된다.

여기서 a=0,1,2,...이고 C_a는

에 의해 제공된다.

여기서 P_a는,

에 의해 제공된 a차 르장드르 다항식(Legendre polynomial)이다.

파라미터 a는 일반 차수를 나타내며(a는 음이 아닌 정수), ξ는 0<ξ<1의 극(pole)이다. 파라미터 a는 함수의 초기 형상을 결정한다: 작은 t에 대해서는 f∝t^a. 파라미터 ξ는 큰 t에 대한 지연을 결정한다. 함수 h는 t의 모든 값들에 대해 양의 함수이며 에너지 정규화된다. a의 모든 값들에 대해, 함수 h는 유리 z-변환을 가지며 IIR 필터(차수 a+1의)의 임펄스 응답으로 실현될 수 있다.

함수 h(t)는

에 의해 유한 이산 라게르 시리즈로 표시될 수 있다.

여기서

은 A.C. den Brinker의 논문을 참조하면, 이산 라게르 함수들이 다. B_m은

에 의해 제공된다.

주어진 함수 f(t)의 1차 및 2차 러닝 중앙 모멘트들(running central moments)은

에 의해 규정된다.

여기서 k₀은 과도 신호 성분의 시작 위치이다.

입력 오디오 신호의 러닝 모멘트들(T₁ 및 T₂)의 양호한 추정(식들 10 및 11에서 f(t)=x(t)를 취함)을 사용하면, 형상 파라미터들이 추론될 수 있다. 불행히도, 실제 데이터에서는 과도 신호 성분 다음에 통상적으로 지속 여기 위상이 와 러닝 모멘트들의 가능한 측정을 방해한다. 도 4는 입력 오디오 신호의 1차 및 2차 러닝 중앙 모멘트들을 도시한다. 러닝 모멘트들은 초기에는 추정된 시작 위치에서 선형으로 증가하며 나중에는 포화하는 경향이 있다. 형상 파라미터들이 이 곡선으로부터 추론될 수 있다 하더라도, 포화가 파라미터 추출에 대해서 원하는 만큼 명확하지 않기 때문에, 즉, 어느 k로 T₁ 및 T₂의 양호한 추정들을 얻을 수 있을지 충분히 명확하지 않다. 본 발명의 이로운 실시예에서, 러닝 모멘트들(T₁ 및 T₂)의 초기 증가에 있어서의 비는 형상 파라미터들을 추정하는데 사용된다. 이 측정은 b(및 0차 메이스너 함수의 경우에 a)를 결정하는데 있어 유리한데, 그 이유는 b가 형상의 초기 행동(behavior)을 결정하기 때문이다. 러닝 모멘트들(T₁ 및 T₂)의 기울기들 간의 비로부터 b에 대한 양호한 추정이 얻어진다. 시뮬레이션 결과로부터 매우 양호한 정도로, 기울기T₁/기울기T₂가 되는 비와 파라미터 b 사이에 선형 관계가 존재함이 얻어졌으며, 이는 라게르 함수와 대조적으로, 지연 파라미터 ξ에 약간 의존한다. 기술로서

메이스너에 대해: 기울기T₁/기울기T₂=b+1/2 (12)

메이스너형에 대해: 기울기T₁/기울기T₂=2a+3/2 (13)

가 사용될 수 있으며(실험들에 의해 도출됨), 여기서 ξ의존성은 무시된다. k=k₀에 대해서는 T₁및 T₂가 0이기 때문에, 기울기T₁/기울기T₂는 적절한 k에 대해서 T₁/T₂에 의해 근접할 수 있다.

형상의 극 ξ는 다음 방식으로 추정될 수 있다. 2차 다항식은 러닝 중심 모멘트, 예를 들어, T₁에 적합하게 된다. 이 다항식은, 레벨링 오프(leveling off)가 명확하게 보이도록, 즉 다항식에서 명확한 2차항이 T에 적합하도록, 관찰 시간 T에서 T₁의 신호 세그먼트에 적합하게 된다. 다음에, 2차 다항식은 그 최대까지 외삽(extrapolate)되며, 이 값은 T₁의 포화 레벨로 추정된다. T₁ 및 b에 대한 이 값으로부터, ξ는 f(t)=g(t)로, 식들 2 및 10을 사용하여 계산된다. 메이스너형 함수에 대해서는, ξ는 f(t)=h(t)로, 식들 8 내지 10을 사용하여 T₁ 및 a에 대한 값으로부터 계산된다.

지연 파라미터 ξ의 추정 절차는 다음과 같다:

T의 어떤 값에서 시작

2차 다항식을 0 내지 T의 데이터에 적합, 즉, t=[0, T]에 대해 T₁(t)

c₀+c₁t+c₂t², 여기서 c_0,1,2는 적당한 파라미터들이다.

이 다항식의 2차항이 t=T에서 필수적인지를 체크: T₁(T)<(1-ε)(c₀+c₁T) 여기서 ε는 t=T에서 2차항의 상대 공헌도를 나타낸다.

이것이 만족되면, T₁(t)을 그 최대까지 외삽하고 이것을 T₁:

과 같게 하고 T₁및 b(또는 a)로부터 지연 파라미터 ξ를 계산한다. 메이스너형 함수들에 대해서는, 형상 파라미터 a는 바람직하게 정수 값들로 반올림된다(round).

도 5는 입력 오디오 신호에서 도출된 형상 함수의 예를 도시한다.

전처리가 본 발명에 필수적이지 않다 하더라도, 데이터의 힐버트 변환을 수행하는 것과 같은 몇 가지 전처리가 형상의 1차 근사값을 얻기 위해서 수행될 수 있다.

러닝 모멘트들이 포화하는 값이 큰 경우, 즉 대략 세그먼트/프레임 길이로, 메이스너(형) 형상이 버려진다. 과도가 진폭의 스텝형 변화인 경우, 과도의 위치는 사인 곡선 코더 및 잡음 코드에서 적절한 분할을 위해 유지된다.

과도의 시작 위치 및 형상이 결정된 후, 형상 아래의 신호 컨텐트가 추정된다. (소) 수의 사인 곡선들은 형상 아래에서 추정된다. 이는 해당 기술분야에서 공지된 바와 같은 분석 합성 절차(analysis-by-synthesis procedure)에서 행해진다. 사인 곡선들을 추정하는데 사용되는 데이터는 과도를 포함하지만 임의의 결과로 생긴 지속 응답은 포함하지 않도록 윈도우된 세그먼트이다. 그러므로, 시간 윈도우는 분석 합성 방법을 도입하기 전에 데이터에 적용된다. 본질적으로, 고려되는 신호는 시작 위치에서 형상이 그 최대의 임의의 퍼센트까지 감소되는 어떤 샘플까지 연장한다. 윈도우된 데이터는 예를 들어, 이산 퓨리에 변화(DFT)에 의해 주파수 영역으로 변환될 수 있다. 아마도 추정된 과도를 벗어나 연장하는 저 주파수 성분을 피하기 위해서, 주파수 영역에서 윈도우가 또한 적용된다. 다음으로 최대 응답이 결정되고, 이 최대 응답과 연관된 주파수가 결정된다. 추정된 형상이 이 주파수에 의해 변조되고, 최대 가능한 적합성이 예를 들어 청각 심리 모델(psycho-acoustic model) 또는 최소 제곱 센스(least-squares sense)와 같은 어떤 미리 결정된 기준에 따라 데이터로 만들어진다. 이 추정된 과도 세그먼트는 원래의 과도로부터 감산되고 절차는 최대 수의 사인 곡선의 성분이 초과될 때까지 또는 세그먼트에 어떠한 에너지도 남겨지지 않을 때까지 반복된다. 본질적으로, 과도는 변조된 메이스너 함수들의 합에 의해 표현된다. 실제 실시예에서, 6 사인 곡선들이 추정된다. 밑에 있는 컨텐트가 주로 잡음을 포함하면, 잡음 추정이 사용되거나 또는 추상적인 값들이 사인 곡선들의 주파수들에 대해 제공된다.

과도 코드(C_T)는 과도의 시작 위치와 과도의 타입을 포함한다. 메이스너(형) 형상의 경우에 과도에 대한 코드는:

과도의 시작 위치

형상이 메이스너(형) 함수인 표시

형상 파라미터들 b(또는 a) 및 ξ

변조 조건: N_F 주파수 파라미터들 및 (코)사인 변조된 형상에 대한 진폭들을 포함한다.

과도가 본질적으로 진폭 레벨에서 갑자기 증가하며 시작 위치 뒤 (상대적으로) 짧은 시간에 이 레벨에서 명확한 지연이 없는 경우에, 과도는 메이스너(형) 형상으로 인코드될 수 없다. 그 경우에, 시작 위치는 적절한 신호 분할을 얻기 위해 유지된다. 스텝 과도들에 대한 코드는:

과도의 시작 위치

스텝에 대한 인디케이터를 포함한다.

다음의 지속 코딩 단들(사인 곡선 및 잡음)의 성능은 신호의 분할에서 과도 위치를 사용함으로써 향상된다. 사인 곡선 코더 및 잡음 코더는 검출된 과도의 위치에서의 새로운 프레임에서 시작한다. 이 방식에서, 정지하지 않는 행동을 나타내는 것으로 알려진 신호 부분에 걸쳐 평균화하는 것이 방지된다. 이는 과도 세그먼트 앞의 세그먼트가 짧아지거나 쉬프트되거나 또는 이전의 프레임으로 연관되어야만 하는 것을 의미한다.

본 발명에 따른 오디오 코더(1)는 선택적으로 지속 코더들(13 및 14) 앞의 이득 제어 요소(12)를 포함한다. 지속 코더들이 진폭 레벨에서의 변화들을 방지하기 위해서 유리하다. 스텝형 과도에 대해서, 이 문제는 과도들에 따른 분할을 사용함으로써 해결된다. 형상으로 표현된 과도들에 대해, 문제는 대개 과도를 입력 신호로부터 추출함으로써 해결된다. 잔존 신호는 여전히 진폭 레벨의 큰 동적 변화를 포함할 수 있으며 아마도 추정된 형상과 유사한 형상이 된다. 잔존 신호를 평탄화하기 위해, 이득 제어 요소가 사용될 수 있다. 압축레이트는:

에 의해 규정될 수 있다. 여기서 h(t)는 추정된 형상이며 d는 압축 레이트를 기술하는 파라미터이다. 이득 제어 요소는 과도 후에, 정지 위상이 추정된 형상에서 최대의 약 0.2배에 이르는 진폭으로 발생한다고 가정한다. 레이트 r은

에 의해 규정되며, 여기서 M_r은 잔존 신호의 최대값이다.

r>2이면 압축 레이트 파라미터 d는 r과 같으며, 그렇지 않으면 d는 0을 취한다. 압축에 대해서, d만이 송신될 필요가 있다.

도 6은 본 발명에 따른 오디오 플레이어(3)를 도시한다. 예를 들어 도 2에 따른 인코더에 의해 발생된 오디오 스트림(AS')은 데이터 버스, 안테나 시스템, 기억 매체 등으로부터 얻어진다. 오디오 스트림(AS)은 코드들(C_T', C_S' 및 C_N')을 획득하기 위해 디멀티플렉서(30)에서 디멀티플렉싱된다. 이 코드들은 과도 합성기(31), 사인 곡선 합성기(32) 및 잡음 합성기(33)에 각각 공급된다. 과도 코드(C_T')로부터, 과도 신호 성분들은 과도 합성기(31)에서 계산된다. 과도 코드가 형상 함수를 나타내는 경우에, 형상은 수신된 파라미터들에 기초하여 계산된다. 게다가, 형상 컨텐트는 사인 곡선 성분들의 주파수들 및 진폭들에 기초하여 계산된다. 과도 코드(C_T')가 스텝을 나타내면, 과도는 계산되지 않는다. 총 과도 신호 y_T는 모든 과도들의 합이다.

압축해제 파라미터 d가 사용되는 경우, 즉 코더(1)에서 도출되고 오디오 스트림(AS')에 포함되는 경우, 압축 해제 메커니즘(34)이 사용된다. 이득 신호 g(t)는 1(unity)로 초기화되며, 총 진폭 압축해제 팩터(factor)는 모든 상이한 감압 팩터들의 곱으로 계산된다. 과도가 스텝인 경우, 진폭 압축해제 팩터는 계산되지 않는다.

2개의 연속하는 과도 위치들로부터, 사인 곡선 합성(SS)(32) 및 잡음 합성(NS)(33)에 대한 분할이 계산된다. 사인 곡선 코드(C_s)는 주어진 세그먼트 상의 사인 곡선들의 합으로서 기술된 신호 y_s를 발생시키는데 사용된다. 잡음 코드(C_N)는 잡음 신호 y_N를 발생시키는데 사용된다. 다음의 세그먼트들은 예를 들어 오버랩 가산 방법에 의해 가산된다.

총 신호 y(t)는 사인 곡선 신호 y_s와 잡음 신호 y_N의 합과 진폭 압축해제 g의 곱 및 과도 신호 y_T의 합으로 이루어진다. 오디오 플레이어는 각 신호들을 합하기 위해 2개의 가산기들(36 및 37)을 포함한다. 총 신호는 예를 들어 스피커인 출력 유닛(35)에 공급된다.

도 7은 도 2에 도시된 바와 같은 오디오 코더(1)와 도 6에 도시된 바와 같은 오디오 플레이어(3)를 포함하는 본 발명에 따른 오디오 시스템을 도시한다. 이러한 시스템은 재생하고 기록하는 특징들을 제공한다. 오디오 스트림(AS)은 오디오 코더에서 통신 채널(2)을 통해 오디오 플레이어에 공급되며, 그 통신 채널은 무선 접속, 데이터 버스 또는 기억 매체일 수 있다. 통신 채널(2)이 기억 매체인 경우에, 기억 매체는 시스템에 고정될 수 있거나 또는 제거 가능한 디스크, 메모리 스틱 등일 수도 있다. 통신 채널(2)은 오디오 시스템의 일부일 수 있지만, 종종 오디오 시스템밖에 있을 수 있다.

상술된 실시예들이 본 발명을 제한한다기보다는 오히려 설명하고, 당업자가 첨부된 청구항들의 범위에서 벗어나지 않고 많은 대안적인 실시예들을 설계할 수 있음에 유념해야 한다. 청구항들에서, 괄호들 사이에 있는 임의의 참조 기호들은 청구항들을 한정하는 것으로 해석해서는 안된다. 단어 '포함하는(comprising)'은 청구항에 기재된 요소들이나 단계들 이외의 다른 요소들이나 단계들의 존재를 배제하지 않는다. 본 발명은 몇 개의 별개의 요소들을 포함하는 하드웨어에 의해 구현될 수 있고, 적절하게 프로그램된 컴퓨터에 의해 구현될 수 있다. 몇 개의 수단을 차례로 열거한 장치 청구항에서, 이 몇 개의 수단은 하드웨어의 동일한 아이템에 의해 구현될 수 있다. 임의의 수단이 서로 상이한 종속 청구항들에 기재된다는 단순한 사실이 이 수단의 조합이 유리하게 사용될 수 없음을 나타내지는 않는다.

요약하면, 본 발명은 오디오 신호의 코딩 및 디코딩 방법을 제공하며 이 방법은 오디오 신호에서 과도 신호 성분의 위치를 추정하는 단계와, 상기 과도 신호 성분이 초기 증가 후에 점차 감쇠하는 경우 상기 과도 신호 성분에 형상 함수를 매칭하는 단계로서, 상기 형상 함수는 실질적으로 지수 초기 행동 및 실질적으로 대수 감쇠 행동을 가지는, 상기 매칭 단계와, 오디오 스트림에 형상 함수를 기술하는 위치 및 파라미터들을 포함시키는 단계를 포함한다.

Claims

오디오 신호(x)를 인코딩(1)하는 방법에 있어서,

상기 오디오 신호에서 과도 신호 성분의 위치를 추정하는 단계(110)와,

상기 과도(transient) 신호 성분이 초기 증가 후에 점차 감쇠되는 경우에 상기 과도 신호 성분에 형상 함수(shape function)를 매칭하는 단계(111, 112)로서, 상기 형상 함수는 tⁿ에 실질적으로 따르는 초기 행동(initial behavior) 및 초기 행동 후에
에 실질적으로 따르는 감쇠 행동을 가지며, 여기서 t는 시간이며, n 및
는 상기 형상 함수를 기술하는 형상 파라미터들인, 상기 매칭 단계와,

오디오 스트림(AS)에 상기 위치 및 상기 형상 파라미터들을 포함시키는 단계(15)를 포함하는, 오디오 신호 인코딩 방법.
제 1 항에 있어서,

상기 형상 함수는 라게르 함수(Laguerre function) 또는 일반화된 이산 라게르 함수(generalized discrete Laguerre function)인, 오디오 신호 인코딩 방법.
제 2 항에 있어서,

상기 형상 함수는 메이스너 함수(Meixner function) 또는 메이스너형 함수(Meixner-like function)인, 오디오 신호 인코딩 방법.
제 2 항에 있어서,

상기 형상 파라미터들 중 적어도 하나는 상기 오디오 신호(x)의 러닝 1차 및 2차 모멘트들의 기울기들의 비에 의해 결정되는, 오디오 신호 인코딩 방법.
제 1 항에 있어서,

상기 과도 신호 성분이 진폭의 스텝형 변화인 경우 상기 형상 파라미터들은 스텝 표시를 포함하는, 오디오 신호 인코딩 방법.
제 1 항에 있어서,

상기 과도 신호 성분의 상기 위치는 시작 위치인, 오디오 신호 인코딩 방법.
제 1 항에 있어서,

상기 방법은,

이득 제어 메커니즘에서 상기 형상 함수를 사용하여 적어도 하나의 지속 코딩 단에 공급되는 상기 오디오 신호의 일부를 평탄화하는 단계를 더 포함하는, 오디오 신호 인코딩 방법.
오디오 스트림을 디코딩하는 방법에 있어서,

주어진 위치에서 과도 신호 성분을 발생시키는 단계(31)와,

수신된 형상 파라미터들에 기초하여 형상 함수를 계산하는 단계(31)로서, 상기 형상 함수는 tⁿ에 실질적으로 따르는 초기 행동 및 초기 행동 후에
에 실질적으로 따르는 감쇠 행동을 가지며, 여기서 t는 시간이며, n 및
는 상기 형상 파라미터들인, 상기 계산 단계를 포함하는, 오디오 스트림 디코딩 방법.
오디오 코더(1)에 있어서,

오디오 신호에서 과도 신호 성분의 위치를 추정하는 수단(110)과,

상기 과도 신호 성분이 초기 증가 후에 점차 감쇠하는 경우에 상기 과도 신호 성분에 형상 함수를 매칭하는 수단(111, 112)으로서, 상기 형상 함수는 tⁿ에 실질적으로 따르는 초기 행동 및 초기 행동 후에
에 실질적으로 따르는 감쇠 행동을 가지며, 여기서 t는 시간이며, n 및
는 상기 형상 함수를 기술하는 상기 형상 파라미터들인, 상기 매칭 수단과,

오디오 스트림(AS)에 상기 위치 및 상기 형상 파라미터들을 포함시키는 수단(15)을 포함하는, 오디오 코더(1).
오디오 플레이어(3)에 있어서,

주어진 위치에서 과도 신호 성분을 발생시키는 수단(31)과,

수신된 형상 파라미터들에 기초하여 형상 함수를 계산하는 수단(31)으로서, 상기 형상 함수는 tⁿ에 실질적으로 따르는 초기 행동 및 초기 행동 후에
에 실질적으로 따르는 감쇠 행동을 가지며, 여기서 t는 시간이며, n 및
는 상기 형상 파라미터들인, 상기 계산 수단을 포함하는, 오디오 플레이어(3).
제 9 항에 기재된 오디오 코더(1)와 제 10 항에 기재된 오디오 플레이어(2)를 포함하는 오디오 시스템.
삭제
오디오 스트림이 저장되는 기억 매체(2)에 있어서,

상기 오디오 스트림은,

과도 신호 성분의 위치, 및

형상 함수를 기술하는 형상 파라미터들로서, 상기 형상 함수는 tⁿ에 실질적으로 따르는 초기 행동 및 초기 행동 후에
에 실질적으로 따르는 감쇠 행동을 가지며, 여기서 t는 시간이며, n 및
는 형상 파라미터들인, 상기 형상 파라미터들을 포함하는, 기억 매체(2).