KR101038446B1 - 오디오 코딩 - Google Patents
오디오 코딩 Download PDFInfo
- Publication number
- KR101038446B1 KR101038446B1 KR1020047019512A KR20047019512A KR101038446B1 KR 101038446 B1 KR101038446 B1 KR 101038446B1 KR 1020047019512 A KR1020047019512 A KR 1020047019512A KR 20047019512 A KR20047019512 A KR 20047019512A KR 101038446 B1 KR101038446 B1 KR 101038446B1
- Authority
- KR
- South Korea
- Prior art keywords
- order
- audio signal
- impulse response
- properties
- audio
- Prior art date
Links
- 238000000034 method Methods 0.000 claims abstract description 21
- 230000005236 sound signal Effects 0.000 claims abstract description 21
- 230000004044 response Effects 0.000 claims abstract description 19
- 230000001235 sensitizing effect Effects 0.000 claims abstract 4
- 238000010606 normalization Methods 0.000 claims description 13
- 230000035945 sensitivity Effects 0.000 claims description 11
- 238000012546 transfer Methods 0.000 claims description 10
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 2
- 230000001131 transforming effect Effects 0.000 claims description 2
- OAICVXFJPJFONN-UHFFFAOYSA-N Phosphorus Chemical compound [P] OAICVXFJPJFONN-UHFFFAOYSA-N 0.000 claims 1
- 238000006243 chemical reaction Methods 0.000 claims 1
- 229910052698 phosphorus Inorganic materials 0.000 claims 1
- 239000011574 phosphorus Substances 0.000 claims 1
- 230000006870 function Effects 0.000 description 11
- 238000013139 quantization Methods 0.000 description 6
- 230000003595 spectral effect Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000005259 measurement Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/12—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
- Complex Calculations (AREA)
- Cereal-Derived Products (AREA)
Abstract
오디오 신호(x(n))을 인코딩(14)하는 방법이 개시된다. 상기 방법은 오디오 신호(x(n))에 대한 추정치를 제공하기 위해 주파수 민감성 파라미터(()와 선형으로 결합될 수 있는 한 세트의 K 차수의 무한 임펄스 응답(IIR) 필터형 특성들((0...k-1)을 제공하기 위해 주파수 민감성 파라미터(()에 따라 오디오 신호를 모델링하는 단계를 포함하며, IIR 형 필터 모델은 최소 위상 필터의 요건들을 충족시킨다. 최소 위상 필터의 요건들을 충족시키는 유한 임펄스 응답(FIR) 필터형 특성들과 호환 가능한 한 세트의 K+1 차수의 특성들(c0...k)을 제공하기 위해, 상기 세트의 K 차수의 특성들((0....k-1)은 민감성 파라미터(()의 함수로서 변환된다. 상기 세트의 K+1 차수의 특성들(c0...k)은 한 세트의 K 차수의 특성들(d1...k)을 제공하기 위해 정규화된다. 인코딩된 오디오 스트림(50)은 상기 정규화된 세트의 K 차수의 특성들(d1...k)의 표현들(LAR, LSF들)을 포함하기 위해 생성된다.
오디오 신호, 무한 임펄스 응답, 인코딩, 오디오 스트림, 정규화
Description
본 발명은 오디오 신호들을 코딩 및 디코딩하는 것에 관한 것이다.
선형 예측 코딩(Linear predictive coding; LPC)은 종종 오디오 및 음성 코딩에 이용된다. 도 1(a)는 종래 LPC 기반 인코더를 위한 K 차수의 유한 임펄스 응답(finite impulse response; FIR) 형 예측 필터(10) 컴포넌트를 도시한다. 필터는 신호의 이전의 샘플들의 K 선형 결합으로부터 생성된 주어진 신호 x(n)에 대한 추정치 을 제공한다. 도 1(a)의 예에서, x(n) 및 r(n)에 관련된 필터의 전달 함수 F(z)는 하기처럼 표현될 수 있다.
추정치 은 잔류 신호 r(n)을 제공하기 위해 신호 x(n)으로부터 차례로 감산된다. 이 잔류 신호 및 예측 필터에 대한 정보 즉, 예측 계수들 는 일반적으로 더 효율적인 형태로 저장되거나 전송된다. 예컨대, 예측 계수들 는 반사 계수들의 세트 상에 매핑될 수 있고, 이것들은 차례로 로그 영역 비율들(log area ratios; LAR)에 매핑된다. 대안적으로, 예측 계수들 는 신호 x(n)을 나타내는 비트스트림에서 잔류 신호와 함께 인코딩되기 이전에 선 스펙트럼 주파수들(line spectral frequencies; LSF)에 직접 매핑될 수 있다(양자화 민감도들 관점에서, LAR 및 LSF 도메인들이 바람직하다). 아크사인 반사 계수들(arcsine reflection coefficients; ASRC들) 및 선 스펙트럼 쌍들(Line Spectral Pairs; LSP들)과 같은 대안적 표현들이 또한 이용될 수 있다.
도 1(b)의 디코더에서 예측 필터를 위한 정보 및 잔류 신호는 원래의 신호 x(n)를 재구성(또는 근사)하는데 사용된다. 도 1로부터 유사 메커니즘들이 인코더 및 디코더에서 나타나는 것이 명확하다. 그러나 특히 신호 x(n)에 대한 비트스트림을 인코딩하기 이전에 양자화 동안 신호에 도입될 수 있는 왜곡과 관련하여 디코더의 안정성을 보장하기 위해, 필터 F(z)가 일반적으로 최소-위상 필터인 것을 주의하는 것이 중요하다. 그것은 전달 함수 F(z)의 모든 근들(roots)(극들(poles) 및 영들(zeros))이 유닛 서클 안에 존재해야 한다고 말하는 것이고 이것은 일반적으로 FIR 필터들에 대해 보장하기 위해 실현 가능하다.
위에서 기술된 유형의 FIR 형 필터를 사용하는 것은 인코더가 청각 프로세스(auditory process)의 음향 심리학(psycho acoustic) 모델을 고려하여 조정되어 작동하도록 할 수 없다.
"워프된 선형 예측들에 대한 대안들(Alternatives for Warped Linear Predictors)" (V. Voitishchuk et al., pp710-713, Proc. ProRISC Workshop CSSP, Veldhoven (NL), 29-30 Nov.2001) 및 "IIR 필터들을 사용하는 선형 예측 구조들의 안정성(Stability of Linear Predictive Structures using IIR filters)" (A.C. den Brinker, pp.317-320, Proc. ProRisc Workshop CSSP, Veldhoven (NL), 29-30 Nov.2001)에서, 무한 임펄스 응답(IIR) 형 필터들로서 더 흥미 있고 더 정상적으로 생각되는 주파수들의 범위들 쪽으로 인코더/디코더를 조정하도록 이용될 수 있는 라구에르(Laguerre) 및 카우츠(Kautz) 형의 필터들은 도 2(a) 및 2(b)에 도시되는 형태로 표현될 수 있다.
x(n) 및 r(n)와 관련된 도 2(a)의 필터에 대한 전체 전달 함수는
여기서 세트 Hk는 안정, 임시, 선형 및 선형-독립 필터들에 속한 전달 함수이다.
라구에르 필터들로서 세트 Hk 즉,
으로 선택되는 것으로 도시되고, 여기서 λ∈(-1, 1)이고, 전체 전달 함수 F는 최소-위상 IIR 필터가 될 수 있다.
여기에서 λ이 실수이고 0 보다 더 크면, 모델링은 사람의 귀가 더욱 민감한 더 낮은 주파수들로 이동하고, 반면에 λ이 0 보다 더 작으면, 모델링은 더 높은 주파수들 쪽으로 이동한다. 여기에서 λ= 0은 도 1의 종래 경우에 대응한다.
본 발명에 따라 제 1 항에서 청구된 오디오 신호를 인코딩하는 방법이 제공된다.
본 발명의 바람직한 실시예들은 라구에르 형 예측 계수들이 FIR 시스템의 예측 계수들에 매핑되도록 허용하는 종래 LPC 기법의 확장을 제공한다. 따라서, 종래 선형 예측 코딩 기술들은 라구에르 예측 계수들을 양자화 및 전송 또는 저장하도록 사용될 수 있다.
본 발명의 실시예들은 첨부된 도면들을 참조하여 지금 기술될 것이다.
도 1(a) 및 1(b)는 종래의 선형 예측 구조에 대해 인코더 및 디코더를 도시한 도면.
도 2(a) 및 2(b)는 대안 선형 예측 기법에 대해 인코더 및 디코더를 도시한 도면.
도 3(a) 및 3(b)는 본 발명의 제 1 실시예에 따른 선형 예측 기법에 대해 개별적으로 인코더 및 디코더를 도시한 도면.
도 4는 본 발명의 제 2 실시예에 따라 인코더를 도시한 도면.
도 5는 본 발명의 제 1 및 제 2 실시예를 포함하는 일반적 인코더를 도시한 도면.
도 6은 오디오 코더 및 오디오 플레이어를 포함하는 시스템을 도시한 도면.
도 2의 개략도를 사용하여 나타낸 라구에르(Laguerre) 형 필터에 대하여, 전체 전달 함수 F(z)는 수학식 2 및 3의 결합으로 표현될 수 있다.
계수들이 예컨대 보이티쉬추크 등과 덴 브린커(Voitishchuk et al and den Brinker)에 의해 개시된 데이터-입력 윈도잉 방법을 사용하여 최적화된다면, 전달 함수 F(z)는 최소-위상 시스템이 될 수 있는 것으로 알려져 있다.
본 발명의 제 1 실시예에서, 상기 필터는 K 차수의 최소-위상 FIR 필터에 매핑되어, 이런 라구에르 형 예측 계수들은 표준 기술들에 의해 양자화되고 전송될 수 있다.
이제 본 발명의 제 1 실시예에 따른 인코더(14)를 도시하는 도 3(a)를 참조한다. 인코더(14)는 보이티쉬추크 등과 덴 브린커에 의해 게시된 유형의 라구에르 필터 컴포넌트(16)를 포함한다. 컴포넌트(16)는 필터의 주파수 민감도를 결정하는 λ의 값을 제공받는다. 이 값은 도 3(b)의 디코더(22)에 의한 이후의 사용을 위해 인코더에 의해 생성되는 비트스트림(50)에 인코딩될 수 있거나, 그렇지 않다면 λ의 값은 디코더(22)에 의해 알려질 수 있다.
신호 x(n)에 대해, 상기 컴포넌트는 예측 계수들 의 세트를 제공한다. λ값과 함께 이들은 합성기 컴포넌트(18)에 공급되고, 도 2(a)에 도시된 방식으로 신호의 추정치 을 생성한다.
그러나, 바람직한 실시예들에서 예측 계수들 은 변환 컴포넌트(20)에서 변환된다. 컴포넌트(20)에 의해 실행된 변환은 하기처럼 상위 삼각 토에플리츠 매트릭스(upper Triangular Toeplitz matrix)의 형태를 사용하여 도시된다.
여기서, 는 라구에르 예측 계수들이고, p = 이다. K + 1 계수들 c는 를 가진 K번-차수 FIR 필터의 전달 함수 와 관련될 수 있다. 예측 계수들 가 최소-위상 필터 F(z)에 속한다면 그 때 는 최소-위상 FIR 필터를 나타낸다.
도 3(b)의 디코더(22)에서, 역변환은 순변환 컴포넌트에 의해 생성된 계수들 c0...ck 에 대해 컴포넌트(24)에 의해 실행된다. 컴포넌트(24)는 인코더(14)에 의해 이용된 것과 동일한 λ를 공급받고, 컴포넌트(24)에 의해 실행된 변환은 하기처럼 상위 삼각 토에플리츠의 형태를 사용하여 도시된다.
이 역변환으로부터, 다음을 알 수 있다;
계수들(c0...ck)은 선형 제약(linear constraint) 즉,
인코더(14)로 되돌아가면, 제 1 실시예에서 계수들(c0...ck)은 정규화 컴포넌트(26)에 전달된다. 상기 컴포넌트는 한 세트의 계수들(d0...dk)을 제공하기 위해 c0의 값으로 계수들(c0...ck)을 나눈다. 그러나, 계수들(c0...ck)이 최소 위상 필터를 나타내면, d0의 값은 항상 1이고, 따라서 계수들(d1...dk)은 전달 함수 를 갖는 K 차수의 최소 위상 FIR 필터의 예측 계수들에 대응함을 이해할 것이다. 컴포넌트(26)에 대해 실행된 정규화는 단지 어떤 인자로 모든 계수들을 나누는 것이기 때문에, 변환 컴포넌트(20) 및 정규화 컴포넌트(26)의 순서는 변경될 수 있다. 즉, 먼저 정규화를 한 다음에 변환을 할 수 있다. 인코더에서 이것은 이후의 변화들에 대응하여 먼저 c0의 계산을 필요로 한다. 또한, 역변환 및 역-정규화의 순서의 동일 변화가 후술되는 디코더에서 이루어질 수 있음을 이해할 것이다.
정규화 컴포넌트(26)는 계수들(d1...dk)을, 인덱싱이 상이하고 신호들이 역방향이 되는 것을 제외하고 계수들이 바람직하게 LAR 또는 LSF 파라미터들로 변환되고 도 1(a)의 계수들의 양자화에 대응하는 방식으로 양자화되는 컴포넌트(28)에 전달한다. 컴포넌트(28)는 또한 잔류 신호 r(n)을 수신하고, 이를 적절히 양자화하며 그 값들을 신호 x(n)을 나타내는 비트스트림(50)을 생성하는 멀티플렉싱 유닛(30)에 전달한다. 따라서, 이 비트스트림은 종래의 FIR 필터 파라미터들을 포함하는 비트스트림과 동일 형태로 전송될 수 있음을 이해할 것이다. 대안적으로, 비트스트림은 어떤 점에서 λ의 값을 포함하도록 경미하게 수정될 수 있지만, 그 이외에서는 그것의 포맷은 변경될 필요가 없다.
이제 도 3(b)의 디코더(22)로 돌아가면 비트스트림(50)은 디-멀티플렉싱 유닛(32)에 의해 디코딩된다. 추출된 파라미터들은 잔류 신호 r(n) 및 정규화된 FIR 형 필터 파라미터들(d1...dk)을 종래 방식으로 생성하는 역-양자화 컴포넌트에 제공된다.
역-정규화 컴포넌트(36)는 c0의 값을 결정하기 위해 가장 먼저 이용된다. 수학식 5로부터
임을 알 수 있고, 컴포넌트(36)는, 인코더에서 사용된 값 λ이 제공될 때 c0에 대한 값을 결정하기 위해 다음 수학식을 사용할 수 있다.
수학식 7에 대해 역-정규화 컴포넌트가 단지 파라미터들(d1...dk)을 구비하는 동안, d0=1을 추측할 수 있음을 주의해야 한다. 따라서, 일단 c0가 결정되면 잔존하는 계수들(c1...ck)은 컴포넌트(36)에 의해 다음과 같이 결정된다.
계수들(c0...ck)은 역-정규화 컴포넌트(36)에 의해 위에서 기술된 역변환 유닛(24)에 제공되고, 이것은 추정된 신호 를 생성하기 위해 도 2(b)에서 도시된 디코더 합성기 컴포넌트(18')에 의해 차례로 사용될 수 있는 라구에르 필터 예측 계수들 의 세트를 제공한다. 이것은 최종적인 디코딩된 신호 x(n)를 제공하기 위해 역-양자화기 컴포넌트(34)에 의해 제공된 잔류 신호 r(n)와 결합된다.
바람직한 실시예의 변형들이 가능하다는 것을 이해할 것이다. 예컨대, 도 4의 본 발명의 제 2 실시예에서, "PARCOR 음성 분석-합성에서 스펙트럼 평활화 기술(Spectral smoothing technique in PARCOR speech analysis-synthesis)"(Y. Tohkura and F. Itakura and S. Hashimoto, IEEE Trans. Acoust. Speech Signal Process. vol. 26, pp. 587-596, 1978)에 개시된 바와 같이, 적응된 인코더(14')는 피크 확장 또는 대역폭 확장/확대/넓힘(extension/expansion/widening)을 제공한다. 선형 예측 코딩에서 스펙트럼 피크 확장은 기하급수적-감소 시퀀스에 의해 임펄스 응답(예측 계수들)을 곱함으로써 행해진다.
본 발명에 관련하여, 피크 확장은 제 1 실시예의 적응된 정규화 컴포넌트(26')와 변환 컴포넌트(20) 사이에 피크 확장 컴포넌트(38)를 삽입함으로써 구현된다.
원래의 라구에르 필터형 예측 계수들 를 계수들(c0...ck)로 변환한 후, 인코더는 피크 확장이 요구되는지를 결정한다. 피크 확장이 요구된다면, 계수들(c0...ck)이 피크 확장 컴포넌트(38)로 전달된다. 이것은 계수들(c0...ck)을 피크 확장 응답으로 예컨대 하기 형태로 곱한다.
계수들 은 이러한 곱셈기 에 의해 나누어져, 생성된 계수들 는 수학식 5의 제약들을 충족한다. 다음으로 정규화 컴포넌트(26')는 정규화된 유형의 FIR 계수들(d1...k)을 이전처럼 제공하기 위해 계수들()을 정규화한다.
피크 확장이 최종적으로 피크 확장 신호를 판독하는 디코더 내에서 합성될 신호에 영향을 미치고, 피크 확장이 적용된다면, 그러한 상이한 잔류 신호 r(n)이 인코더(14') 내에서 계산되어짐을 이해할 것이다.
따라서, 도 2(b)에서와 같이 제 2 실시예에서 역-양자화기 컴포넌트(34)는 계수들(d1...k)이 디코더내에서 생성될 수 있는 것처럼 정확하게 계수들(d1...k)을 제공하기 위해 컴포넌트(28)에 의해 생성된 양자화된 신호를 제공받는다. 이러한 것들은 피크 확장된 신호에 대해 디코더 내에서 생성된 것처럼 예측 계수들 의 세트를 생성하기 위해 도 2(b)의 컴포넌트들에 다시 대응하여 개별적으로 컴포넌트들(36 및 24)에 의해 차례로 역-정규화되고 역으로 변환된다. 다음으로 합성기(18)는 피크 확장이 적용되었는지 적용되지 않았는지에 따라서 예측 계수들( 또는 ) 중 하나를 사용하고 신호 x(n)로부터 이것을 감산하여 잔류 신호 r(n)을 생성한다.
계수들( 또는 )이 역변환 컴포넌트(24)로 직접 제공된다면, 동일 예측 계수들 이 위에서처럼 제공되지 않을 것임을 이해할 것이다. 그럼에도 불구하고, 이것은 인코더 내의 컴포넌트들(34 및 36)에 대한 필요성을 제거하고 인코더가 계산적으로 제한되는 것이 받아들여질 수 있다.
이러한 피크 확장에 대한 비트스트림이 디코딩될 때, 생성하는 예측 계수들 이 스펙트럼의 피크 확장된 라구에르 예측 필터의 계수들이고, 피크 확장은 주파수 워프된 도메인(frequency warped domain)에서 실행된다. 이것은 인코더가 음향-심리학적으로 관련하는 스케일로 피크 확장을 실제로 실행하고 또한 피크 확장 함수, 예컨대 가 자신의 음향-심리학적 함수에 기초하여 선택되는 것을 허용함을 의미한다.
제 2 실시예의 변형들에서, 피크 확장은 잔류 신호의 생성을 위해 필요로 되는 적절한 변화들을 구비한 계수들 c0...k보다 오히려 계수들 d1...k에 적용될 수 있음을 이해할 것이다.
위에서 설명된 것처럼, 인코더 내에서 사용된 예측 계수들은 원래의 오디오 신호의 최종적인 추정치를 생성하기 위해 디코더 내에서 이용된 예측 계수들과 같음을 보장하는 것이 바람직하다. 도 5는 제 1 및 제 2 실시예들의 인코더들을 포함하는 인코더(14")의 더욱 일반적인 형태를 도시한다. 상기 인코더에서, 변환, 정규화, 양자화 및 선택적으로 피크 확장의 단계들은 컴포넌트들(20, 26', 28 및 38/38')에 의해 개별적으로 이전처럼 실행될 수 있다(도 5에서, 컴포넌트들(38/38')은 피크 확장이 정규화 이전(38)에 또는 정규화 이후(38')에 생성할 수 있는 것을 지시한다).
그러나 제 2 실시예에서 잔류 신호를 생성하기 위해 인코더에 의해 이용된 예측 계수들이 디코더에 이용된 예측 계수들과 정확히 동일할 것임을 보장하는 것처럼, 인코더의 일반적인 형태에서, 양자화 신호는 역-양자화, 역-정규화 및 역변환 컴포넌트들(24, 26, 24)을 통해 개별적으로 전달된다.
본 발명이 처음 2개의 실시예들에 있어서와 같이, 신호 을 합성하고 이것을 신호 x(n)으로부터 감산함으로써 잔류 신호 r(n)를 생성하는 것으로 제한되지 않음을 도 5로부터 이해될 것이다. 본 발명의 이러한 양상은 모델화된 양상의 신호 과 신호 그 자체 x(n) 사이의 차이의 표시 b를 생성하기 위해 주파수 민감성 파라미터 λ 및 디코더에서 이용될 예측 계수들을 이상적으로 사용하는 인코더(18")를 포함함으로써 보다 일반적으로 생각될 수 있다.
디코더에서(도시되지 않음), 대응하는 컴포넌트는 원래의 오디오 신호의 최종적인 추정치를 생성하기 위해 이 표시 b와 예측 계수들 및 주파수 민감성 파라미터 λ를 결합한다.
도 6은 도 3(a) 또는 도 4에 도시되는 바와 같은 인코더(14, 14')를 포함하는 오디오 코더(1), 및 도 3(b)에 도시되는 바와 같은 디코더(22)를 포함하는 오디오 플레이어(3)를 포함하는 본 발명에 따른 오디오 시스템을 도시한다. 인코딩된 오디오 스트림(50)은 통신 채널(2)을 통해 오디오 코더로부터 오디오 플레이어까지 공급되고, 통신 채널(2)은 무선 접속, 데이터 버스 또는 기억 매체가 될 수 있다. 통신 채널(2)이 기억 매체인 경우에, 기억 매체는 시스템에 고정될 수 있거나 제거 가능 디스크, 소니 코포레이션으로부터의 메모리 스틱TM(Memory StickTM)과 같은 고체 상태 기억 장치 등이 될 수 있다. 통신 채널(2)은 오디오 시스템의 일부가 될 수 있지만, 종종 오디오 시스템 외부에 있을 것이다.
위에서-언급된 실시예들은 본 발명을 제한하기보다 설명하고, 당업자들은 첨부된 청구범위들의 범위를 벗어나지 않고 많은 대안의 실시예들을 설계할 수 있을 것이다. 청구범위들에서, 괄호들 사이의 위치하는 어떤 참조 부호들은 청구범위를 제한하도록 해석되지 않는다. 용어 '포함하는'은 청구항에 열거되지 않은 소자들 또는 단계들을 배제하지 않는다. 본 발명은 여러 개별 요소들을 포함하는 하드웨어 및 적절히 프로그램된 컴퓨터에 의해 구현될 수 있다. 여러 수단을 열거하는 장치 청구 범위에서 이러한 여러 수단은 하드웨어의 하나 및 동일 아이템에 의해 구현될 수 있다. 어떤 측정들이 상호 다르게 의존하는 청구 범위들로 인용되는 단순한 사실은 이러한 측정들의 조합이 이점으로 사용될 수 없도록 지시하지 않는다.
Claims (14)
- 오디오 신호를 인코딩하는 방법에 있어서:상기 오디오 신호에 대한 추정치를 제공하기 위해, 주파수 민감성 파라미터(frequency sensitizing parameter)와 선형으로 결합될 수 있는 제 1 세트의 K 차수의 무한 임펄스 응답(infinite impulse response; IIR) 필터형 특성들을 제공하도록 상기 주파수 민감성 파라미터에 따라 상기 오디오 신호를 모델링하는 단계;유한 임펄스 응답(finite impulse response; FIR) 필터형 특성들과 호환 가능한 제 2 세트의 특성들을 제공하기 위해 상기 주파수 민감성 파라미터의 함수로서 상기 제 1 세트 또는 제 3 세트의 특성들을 변환하는 단계;상기 제 3 세트의 특성들을 제공하기 위해 상기 제 1 세트 또는 상기 제 2 세트의 특성들을 정규화하는 단계; 및변환되고 정규화된 세트의 K 차수의 특성들의 표현들을 포함하는 인코딩된 오디오 스트림을 생성하는 단계를 포함하는, 오디오 신호 인코딩 방법.
- 제 1 항에 있어서,상기 무한 임펄스 응답 필터형 특성들은 최소 위상 필터의 요건들을 충족시키고, 상기 유한 임펄스 응답 필터형 특성들은 최소 위상 필터의 요건들을 충족시키는, 오디오 신호 인코딩 방법.
- 제 1 항에 있어서,잔류 신호를 제공하기 위해 상기 오디오 신호로부터 상기 추정치를 감산하는 단계를 더 포함하고, 상기 생성 단계는 상기 인코딩된 오디오 스트림에 상기 잔류 신호를 포함시키는 단계를 포함하는, 오디오 신호 인코딩 방법.
- 제 5 항에 있어서,상기 정규화 단계는 상기 제 2 세트의 K+1 차수의 특성들을 상기 제 2 세트의 특성들 중 하나로 나누는 단계, 및 상기 나누어진 세트의 특성들 중의 나머지를 상기 제 3 세트의 K 차수의 특성들로서 제공하는 단계를 포함하는, 오디오 신호 인코딩 방법.
- 제 1 항에 있어서,상기 생성 단계는 상기 인코딩된 오디오 스트림에 상기 주파수 민감성 파라미터를 포함시키는, 오디오 신호 인코딩 방법.
- 제 1 항에 있어서,상기 제 2 (c0, ..., ck) 세트의 특성들을 피크 확장하는 단계를 더 포함하는, 오디오 신호 인코딩 방법.
- 오디오 스트림을 디코딩하는 방법에 있어서:유한 임펄스 응답 필터형 특성들과 호환 가능한 제 1 세트의 K 차수의 특성들을 제공하기 위해 오디오 신호의 표현들을 포함하는 인코딩된 오디오 스트림을 판독하는 단계;역-정규화 특성을 제공하기 위해 상기 제 1 세트의 K 차수의 특성들과 주파수 민감성 파라미터를 결합하는 단계;제 2 세트의 특성들을 제공하기 위해 상기 역-정규화 특성의 함수로서 상기 제 1 또는 제 3 무한 임펄스 응답 필터형 세트의 특성들을 역-정규화하는 단계;상기 제 3 세트의 특성들을 제공하기 위해 상기 민감성 파라미터의 함수로서 상기 제 1 또는 상기 제 2 세트의 특성들을 변환하는 단계; 및상기 주파수 민감성 파라미터와 한 세트의 역-정규화되고 변환된 K 차수의 특성들의 선형 결합으로서의 상기 오디오 신호를 합성하는 단계를 포함하는, 오디오 신호 디코딩 방법.
- 오디오 코더에 있어서:오디오 신호에 대한 추정치를 제공하기 위해, 주파수 민감성 파라미터와 선형으로 결합될 수 있는 제 1 세트의 K 차수의 무한 임펄스 응답 필터형 특성들을 제공하도록 상기 주파수 민감성 파라미터에 따라 상기 오디오 신호를 모델링하는 수단;유한 임펄스 응답 필터형 특성들과 호환 가능한 제 2 세트의 특성들을 제공하기 위해 상기 민감성 파라미터의 함수로서 상기 제 1 세트 또는 제 3 세트의 특성들을 변환하는 수단;상기 제 3 세트의 특성들을 제공하기 위해 상기 제 1 세트 또는 상기 제 2 세트의 특성들을 정규화하는 수단; 및변환되고 정규화된 세트의 K 차수의 특성들의 표현들을 포함하는 인코딩된 오디오 스트림을 생성하는 수단을 포함하는, 오디오 코더.
- 오디오 플레이어에 있어서:유한 임펄스 응답 필터형 특성들과 호환 가능한 제 1 세트의 K 차수의 특성들을 제공하기 위해 오디오 신호의 표현들을 포함하는 인코딩된 오디오 스트림을 판독하는 수단;역-정규화 특성을 제공하기 위해 상기 제 1 세트의 K 차수의 특성들과 주파수 민감성 파라미터를 결합하는 수단;제 2 세트의 특성들을 제공하기 위해 상기 역-정규화 특성의 함수로서 상기 제 1 또는 제 3 무한 임펄스 응답 필터형 세트의 특성들을 역-정규화하는 수단;상기 제 3 세트의 특성들을 제공하기 위해 상기 민감성 파라미터의 함수로서 상기 제 1 세트 또는 상기 제 2 세트의 특성들을 변환하는 수단; 및상기 주파수 민감성 파라미터와 한 세트의 역-정규화되고 변환된 K 차수의 특성들의 선형 결합으로서 상기 오디오 신호를 합성하는 수단을 포함하는, 오디오 플레이어.
- 제 10 항에서 청구된 오디오 코더 및 제 11 항에서 청구된 오디오 플레이어를 포함하는 오디오 시스템.
- 한 세트의 K 차수의 특성들에 대응하는 오디오 신호의 표현들을 포함하는 오디오 스트림을 기록한 컴퓨터 판독 가능한 기록 매체에 있어서,상기 세트의 K 차수의 특성들은 유한 임펄스 응답 필터형 특성들과 호환 가능한 한 세트의 K+1 차수의 특성들을 제공하기 위해 주파수 민감성 파라미터와 결합 가능하고, 상기 세트의 K+1 차수의 특성들은 한 세트의 K 차수의 무한 임펄스 응답 필터형 특성들을 제공하기 위해 상기 민감성 파라미터의 함수로서 변환 가능한, 컴퓨터 판독 가능한 기록 매체.
- 삭제
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP02077128.3 | 2002-05-30 | ||
EP02077128 | 2002-05-30 | ||
PCT/IB2003/002044 WO2003102922A1 (en) | 2002-05-30 | 2003-05-16 | Audio coding |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20050007574A KR20050007574A (ko) | 2005-01-19 |
KR101038446B1 true KR101038446B1 (ko) | 2011-06-01 |
Family
ID=29595018
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020047019512A KR101038446B1 (ko) | 2002-05-30 | 2003-05-16 | 오디오 코딩 |
Country Status (9)
Country | Link |
---|---|
US (1) | US20050228656A1 (ko) |
EP (1) | EP1514262B1 (ko) |
JP (1) | JP4446883B2 (ko) |
KR (1) | KR101038446B1 (ko) |
CN (1) | CN100343895C (ko) |
AT (1) | ATE336781T1 (ko) |
AU (1) | AU2003230132A1 (ko) |
DE (1) | DE60307634T2 (ko) |
WO (1) | WO2003102922A1 (ko) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
BRPI0609897A2 (pt) * | 2005-05-25 | 2011-10-11 | Koninkl Philips Electronics Nv | codificador, decodificador, método para codificação de um sinal de multicanal, sinal de multicanal codificado, produto programa de computador, transmissor, receptor, sistema de transmissão, métodos de transmissão e de recebimento de um sinal de multicanal, dispositivos de registro e de reprodução de áudio, e, meio de armazenamento |
DE102006022346B4 (de) * | 2006-05-12 | 2008-02-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Informationssignalcodierung |
TWI538000B (zh) | 2012-05-10 | 2016-06-11 | 杜比實驗室特許公司 | 多階段過濾器,音頻編碼器,音頻解碼器,施行多階段過濾的方法,用以編碼音頻資料的方法,用以將編碼音頻資料解碼的方法,及用以處理編碼位元流的方法和裝置 |
CN104737463B (zh) * | 2012-06-18 | 2018-03-16 | 瑞典爱立信有限公司 | Mimo接收器中的预滤波 |
US9548056B2 (en) * | 2012-12-19 | 2017-01-17 | Dolby International Ab | Signal adaptive FIR/IIR predictors for minimizing entropy |
KR101832368B1 (ko) * | 2014-01-24 | 2018-02-26 | 니폰 덴신 덴와 가부시끼가이샤 | 선형 예측 분석 장치, 방법, 프로그램 및 기록 매체 |
CN109188069B (zh) * | 2018-08-29 | 2020-08-28 | 广东石油化工学院 | 一种用于负载开关事件检测的脉冲噪声滤除方法 |
CN118136042B (zh) * | 2024-05-10 | 2024-07-23 | 四川湖山电器股份有限公司 | 基于iir频谱拟合的频谱优化方法、系统、终端及介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4493048A (en) * | 1982-02-26 | 1985-01-08 | Carnegie-Mellon University | Systolic array apparatuses for matrix computations |
US7423983B1 (en) * | 1999-09-20 | 2008-09-09 | Broadcom Corporation | Voice and data exchange over a packet based network |
JP2001134295A (ja) * | 1999-08-23 | 2001-05-18 | Sony Corp | 符号化装置および符号化方法、記録装置および記録方法、送信装置および送信方法、復号化装置および符号化方法、再生装置および再生方法、並びに記録媒体 |
US6931373B1 (en) * | 2001-02-13 | 2005-08-16 | Hughes Electronics Corporation | Prototype waveform phase modeling for a frequency domain interpolative speech codec system |
-
2003
- 2003-05-16 JP JP2004509924A patent/JP4446883B2/ja not_active Expired - Fee Related
- 2003-05-16 KR KR1020047019512A patent/KR101038446B1/ko active IP Right Grant
- 2003-05-16 WO PCT/IB2003/002044 patent/WO2003102922A1/en active IP Right Grant
- 2003-05-16 EP EP03722975A patent/EP1514262B1/en not_active Expired - Lifetime
- 2003-05-16 US US10/515,746 patent/US20050228656A1/en not_active Abandoned
- 2003-05-16 AU AU2003230132A patent/AU2003230132A1/en not_active Abandoned
- 2003-05-16 DE DE60307634T patent/DE60307634T2/de not_active Expired - Lifetime
- 2003-05-16 AT AT03722975T patent/ATE336781T1/de not_active IP Right Cessation
- 2003-05-16 CN CNB038122014A patent/CN100343895C/zh not_active Expired - Fee Related
Non-Patent Citations (1)
Title |
---|
"Generalized Source-filter Structures for Speech Synthesis" (EUROSPEECH 2001) |
Also Published As
Publication number | Publication date |
---|---|
JP2005528646A (ja) | 2005-09-22 |
KR20050007574A (ko) | 2005-01-19 |
WO2003102922A1 (en) | 2003-12-11 |
CN100343895C (zh) | 2007-10-17 |
ATE336781T1 (de) | 2006-09-15 |
DE60307634D1 (de) | 2006-09-28 |
EP1514262B1 (en) | 2006-08-16 |
DE60307634T2 (de) | 2007-08-09 |
JP4446883B2 (ja) | 2010-04-07 |
CN1656537A (zh) | 2005-08-17 |
AU2003230132A1 (en) | 2003-12-19 |
EP1514262A1 (en) | 2005-03-16 |
US20050228656A1 (en) | 2005-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Dutoit et al. | Applied Signal Processing: A MATLABTM-based proof of concept | |
JP3592473B2 (ja) | 周波数領域内のlpc予測による時間領域内での知覚ノイズ整形 | |
WO2004008437A2 (en) | Audio coding | |
US6353807B1 (en) | Information coding method and apparatus, code transform method and apparatus, code transform control method and apparatus, information recording method and apparatus, and program providing medium | |
JPH10282999A (ja) | オーディオ信号を符号化する方法及び装置、並びに符号化されたオーディオ信号を復号する方法及び装置 | |
JP3636094B2 (ja) | 信号符号化装置及び方法、並びに信号復号装置及び方法 | |
US7197454B2 (en) | Audio coding | |
US6778953B1 (en) | Method and apparatus for representing masked thresholds in a perceptual audio coder | |
JPH10149199A (ja) | 音声符号化方法、音声復号化方法、音声符号化装置、音声復号化装置、電話装置、ピッチ変換方法及び媒体 | |
JP2007504503A (ja) | 低ビットレートオーディオ符号化 | |
KR101038446B1 (ko) | 오디오 코딩 | |
EP0926659B1 (en) | Speech encoding and decoding method | |
US8473286B2 (en) | Noise feedback coding system and method for providing generalized noise shaping within a simple filter structure | |
JP4359949B2 (ja) | 信号符号化装置及び方法、並びに信号復号装置及び方法 | |
JP4281131B2 (ja) | 信号符号化装置及び方法、並びに信号復号装置及び方法 | |
JP5451603B2 (ja) | デジタルオーディオ信号の符号化 | |
JP3348759B2 (ja) | 変換符号化方法および変換復号化方法 | |
JP3437421B2 (ja) | 楽音符号化装置及び楽音符号化方法並びに楽音符号化プログラムを記録した記録媒体 | |
JP4618823B2 (ja) | 信号符号化装置及び方法 | |
JPH1049200A (ja) | 音声情報圧縮蓄積方法及び装置 | |
JPH0736484A (ja) | 音響信号符号化装置 | |
JP3274451B2 (ja) | 適応ポストフィルタ及び適応ポストフィルタリング方法 | |
JP3271966B2 (ja) | 符号化装置及び符号化方法 | |
JP2005099825A (ja) | パラメトリック音声符号化器における励起とモデルの合同最適化 | |
Shum | Optimisation techniques for low bit rate speech coding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20140519 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20150526 Year of fee payment: 5 |
|
FPAY | Annual fee payment |
Payment date: 20160517 Year of fee payment: 6 |
|
FPAY | Annual fee payment |
Payment date: 20170517 Year of fee payment: 7 |
|
FPAY | Annual fee payment |
Payment date: 20180517 Year of fee payment: 8 |