KR20080049116A - 오디오 코딩 - Google Patents
오디오 코딩 Download PDFInfo
- Publication number
- KR20080049116A KR20080049116A KR1020087009379A KR20087009379A KR20080049116A KR 20080049116 A KR20080049116 A KR 20080049116A KR 1020087009379 A KR1020087009379 A KR 1020087009379A KR 20087009379 A KR20087009379 A KR 20087009379A KR 20080049116 A KR20080049116 A KR 20080049116A
- Authority
- KR
- South Korea
- Prior art keywords
- subbands
- subband
- factor
- scaled
- companded
- Prior art date
Links
- 230000005236 sound signal Effects 0.000 claims abstract description 37
- 238000013139 quantization Methods 0.000 claims description 35
- 238000000034 method Methods 0.000 claims description 31
- 238000005259 measurement Methods 0.000 claims description 22
- 230000001186 cumulative effect Effects 0.000 claims description 7
- 238000005457 optimization Methods 0.000 claims description 7
- 238000005315 distribution function Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims 5
- 230000001149 cognitive effect Effects 0.000 claims 1
- 230000001419 dependent effect Effects 0.000 claims 1
- 230000000977 initiatory effect Effects 0.000 claims 1
- 230000003595 spectral effect Effects 0.000 description 28
- 239000013598 vector Substances 0.000 description 21
- 230000006870 function Effects 0.000 description 15
- 238000013459 approach Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000007423 decrease Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000004513 sizing Methods 0.000 description 2
- 230000001174 ascending effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/035—Scalar quantisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
- G10L19/0208—Subband vocoders
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
본 발명은 입력 오디오 신호를 수신하고, 입력 오디오 신호를 적어도 2개의 부대역들로 분할하고, 적어도 2개의 부대역들을 적어도 대응하는 부대역의 표준 편차에 종속하는 인자로 규모 축소하고, 적어도 규모 축소된 부대역들 각각을 컴팬딩하고, 컴팬딩되고, 규모 축소된 부대역들을 격자 양자화기로 양자화하는 오디오 코딩을 제공한다.
Description
본 출원은 일반적으로 오디오 인코딩 및 디코딩 기술에 관련된다.
오디오 코딩을 위하여, 과거에 서로 다른 코딩 스킴들이 적용되어 왔다. 이들 코딩 스킴들 중 하나는 음향 심리학적인(psychoacoustical) 인코딩을 적용하는 것이다. 이런 코딩 스킴들을 갖고, 입력 오디오 신호들의 스펙트럼 속성(property)들이 덧붙임(redundancy)을 감소시키기 위해 사용된다. 입력 오디오 신호들의 스펙트럼 컴포넌트들이 분석되어서 인간의 귀로 명확하게 인식되지 않는 스펙트럼 컴포넌트들은 제거된다. 이런 코딩 스킴들을 적용하기 위하여, 입력 오디오 신호들의 스펙트럼 계수들이 얻어진다.
AAC(Advanced Audio Coder) 및 MPEG 오디오와 같은, 음향 심리학적인 인코딩 내에서 스펙트럼 계수들의 양자화(quantization)는 스칼라 양자화 이후에 배율(scale factor)들 및 크기 조정된 스펙트럼 계수들의 엔트로피 코딩을 사용하여 이전에 실행되었다. 엔트로피 코딩은 스펙트럼 계수들을 위한 11개의 가능한 고정 호프만(Huffman) 트리(tree)들 및 배율들을 위한 하나의 트리를 사용하여 차동 인코딩으로서 실행되었다.
이상적인 코딩 시나리오는 원본 신호의 압축된 버전을 만들고, 이것은 (적 어도 직관적으로는) 원본에 매우 가까운 신호에서 디코딩 프로세스가 생기게 하는 반면에, 고압축율 및 그렇게 복잡하지 않은 압축 알고리즘을 갖는 결과가 생기게 하였다. 오늘날의 광범위한 멀티미디어 통신들 및 이종 네트워크들 때문에, 동일하거나 더 나은 품질을 위해 압축률을 증가시키는 반면 복잡도는 낮추는 것이 끊임없는 도전 과제이다.
본 발명의 하나의 양상에 따라, 애플리케이션은 오디오 인코딩을 위한 방법을 제공하고, 상기 방법은 입력 오디오 신호를 수신하는 단계, 입력 오디오 신호를 적어도 2개의 부대역들로 분할하는(splitting) 단계, 적어도 2개의 부대역들을 제1 인자(factor)로 크기 조정하는(scaling) 단계, 적어도 두개의 크기 조정된 부대역들 각각을 컴팬딩(compading) 하는 단계, 및 컴팬딩된, 크기 조정된 부대역들을 양자화하는(quantizing) 단계를 갖는다.
본 발명의 다른 하나의 양상에 따라, 애플리케이션은 인코더를 제공하고, 상기 인코더는 입력 오디오 신호를 수신하고 입력 오디오 신호를 적어도 2개의 부대역들로 분할하도록 구성된 변환 유닛, 적어도 2개의 부대역들을 제1 인자로 크기 조정하도록 구성된 크기 조정 유닛, 적어도 두개의 크기 조정된 부대역들 각각을 컴팬딩하도록 구성된 컴팬딩 유닛, 및 컴팬딩된, 크기 조정된 부대역들을 양자화하도록 구성된 양자화 유닛을 포함한다.
본 발명의 다른 하나의 양상에 따라, 애플리케이션은 제시된 인코더와 동일한 컴포넌트들을 포함하는 전자 장치를 제공한다.
본 발명의 다른 하나의 양상에 따라, 애플리케이션은 소프트웨어 코드를 저장하는 소프트웨어 프로그램 생성물을 제공하고, 소프트웨어 코드는 전자 장치의 프로세싱 유닛에서 실행될 때, 제시된 인코딩 방법을 실행하도록 구성된다.
본 발명의 다른 하나의 양상에 따라, 애플리케이션은 오디오 디코딩을 위한 방법을 제공하고, 상기 방법은 인코드된 오디오 데이터를 수신하는 단계, 상기 인코드된 오디오 데이터로부터 적어도 2개의 컴팬딩된 부대역들을 발생시키는 단계, 각각의 컴팬딩된 부대역을 디컴팬딩하는(decompanding) 단계, 적어도 2개의 디컴팬딩된 부대역들을 제1 인자로 크기 조정하는 단계, 및 디컴팬딩되고 크기 조정된 부대역들을 디코드된 오디오 신호로 결합하는 단계를 포함한다.
본 발명의 다른 하나의 양상에 따라, 애플리케이션은 디코더를 제공하고, 상기 디코더는 적어도 2개의 컴팬딩된 부대역들을 디컴팬딩하도록 구성되며, 상기 컴팬딩된 부대역들은 수신된 인코드된 오디오 데이터로부터 발생되는, 디컴팬딩 유닛, 적어도 2개의 디컴팬딩된 부대역들을 제1 인자로 크기 조정하도록 구성된, 크기 조정 유닛, 및 디컴팬딩되고 크기 조정된 부대역들을 디코드된 오디오 신호로 결합하도록 구성된 변환 유닛을 포함한다.
본 발명의 다른 하나의 양상에 따라, 애플리케이션은 소프트웨어 코드를 저장하는 소프트웨어 프로그램 생성물을 제공하고, 소프트웨어 코드는 전자 장치의 프로세싱 유닛에서 실행될 때, 제시된 디코딩 방법을 실행하도록 구성된다.
본 발명의 다른 하나의 양상에 따라, 애플리케이션은 제시된 디코더와 동일한 컴포넌트들을 포함하는 전자 장치를 제공한다.
본 발명의 다른 하나의 양상에 따라, 애플리케이션은 제시된 인코더 및 제시된 디코더를 포함하는 시스템을 제공한다.
애플리케이션은 스펙트럼 데이터의 벡터 양자화에 선행하여 입력 오디오 신호 부대역들의 스펙트럼 컴포넌트들을 컴팬딩하는 것을 제공한다. 하나의 양상에 따라, 컴팬딩은 크기 조정된 부대역들을 사용함으로써 입력 오디오 신호의 음향 심리학적인 현상 및 스펙트럼 계수들의 분배(distribution)를 고려하고, 이 크기 조정된 부대역들은 성능-복잡도(performance-complexity)가 효율적인 양자화를 가능하게 한다.
본 발명의 하나의 실시 예에 따라, 크기 조정(scaling)은 제1 크기 조정 인자로 적어도 2개의 부대역들을 크기 조정하는 것을 포함한다. 이 제1 인자는 인코드된 데이터 스트림을 위한 전체 이용 가능한 비트레이트, 각각의 부대역을 위한 이용 가능한 비트레이트, 및/또는 각각의 부대역의 속성(property)들에 종속할 수 있다. 제1 크기 조정 인자는 예를 들어 베이스 및 지수를 포함할 수 있다. 전체 비트레이트는 예를 들어 사용자에 의해 설정될 수 있고, 그런 이후에 적절한 방식으로 부대역들로 자동적으로 분배될 수 있다.
그런 이후에 각각의 부대역을 위한 베이스는 예를 들어 사용자에 의해 부과될 수 있는 전체 비트레이트가 더 높은 값들을 갖는다면 더 낮은 값으로 설정될 수 있고, 사용자에 의해 부과될 수 있는 비트레이트가 더 낮은 값들을 갖는다면 더 높은 값으로 설정될 수 있다.
지수는 인코드된 오디오 신호의 전체 비트레이트가 이용 가능한 비트레이트에 가능한 가깝지만, 가능하게는 이용 가능한 비트레이트보다 적도록, 그리고 모든 부대역들에서 전반적인 왜곡이 최소화도록, 각각의 부대역에 대해 결정될 수 있다. 이것은 비트레이트 왜곡 측정을 최적화하는 것을 허용한다.
지수는 다양한 방식으로 결정될 수 있다. 각각의 부대역에 대해 가장 낮게 고려되는 지수는 예를 들어 이 부대역에 대해 허용되는 왜곡에 종속하여 계산될 수 있다.
인코드된 오디오 신호의 디코딩을 위해서, 인코딩 측에서 크기 조정에 관한 정보는 디코딩 측에서도 이용 가능해야 한다. 이 때문에, 요구되는 정보가 예를 들어 엔트로피 인코드되게, 인코드될 수 있다. 제1 크기 조정 인자의 부분만 제공하고 인코드하는 것이 충분할 수 있다. 사용자에 의해 설정된 전체 비트레이트는 인코더 측에서와 디코더 측 모두에 알려져 있기 때문에 베이스가 아닌 지수만 인코드하는 것이 충분할 수 있다.
추가의 실시 예에 따라, 크기 조정은 제1 인자에 의해 크기 조정된 부대역들의 표준 편차에 종속하는 제2 인자를 포함할 수 있다. 제1 크기 조정 인자로 크기 조정하는 것은 제2 크기 조정 인자로 크기 조정하는 것과 대체할 수 있다.
추가의 실시 예에 따라, 컴팬딩을 위한 누적 분포 함수(cumulative density function)를 생성하기 위해 크기 조정된 부대역들의 확률 함수가 이용된다. 스펙트럼 데이터는 형상 인자(shape factor) 0.5를 갖는 일반화 가우시안의 확률 밀도 함수를 가지는 것으로 근사화될 수 있다. 이 관측(observation)은 종래의 방식으로 누적 분포 함수를 계산하고 컴팬딩 함수를 얻기 위해 분석적인(analytic) 일반화(generalized) 가우시안 확률 밀도 함수의 사용을 가능하게 할 수 있다. 이것은 '히스토그램 등화(histogram equalization)로 알려져 있는 고전적인 방식이다. 그 아이디어는 결과적인 변환된 데이터의 확률 밀도 함수가 일정(uniform)하도록 데이터를 변환하는 것이다. 데이터의 누적 분포 함수에 의해 주어진 변환 함수가 도시된다. 누적 분포 함수는 최대 1인 비내림차순(non-descending)의 함수이다. 이것은 오프라인 방식으로 미리 결정되고 인코딩 끝에서 저장될 수 있고 대응하는 함수는 디코딩 끝에서 각각의 부대역에 대해 미리 결정되고 저장될 수 있다.
본 발명의 다른 하나의 실시 예에 따라, 컴팬딩된 부대역들은 양자화 이전에 제3 크기 조정 인자로 크기 조정된다. 이 제3 크기 조정 인자는 하위 전체 비트레이트들보다 보다 상위 전체 비트레이트들을 위해 더 높을 수 있다. 이 제3 인자는 부대역 계수들의 표준 편차에 종속할 수 있어서, 이런 곱셈(multiplication)을 갖고, 추가의 수단이 각각의 부대역과 분리된 양자화 해상도를 조정하기 위해 제공된다.
격자 양자화기는 각각의 부대역을 위한 코드벡터가 결과로서 생기게 하는, 예를 들어 컴팬딩된, 크기 조정된 부대역들을 양자화하기 위한 직사각형의 절단 격자를 사용할 수 있다.
각각의 부대역에 대해, 전용 놈(norm)이, 양자화된 부대역을 포함하는, 격자 절단을 위해 계산될 수 있다. 각각의 부대역을 위한 직사각형의 절단된 격자를 위한 놈이 각각의 코드벡터의 놈에 대응하도록 선택될 수 있다. 이런 놈은 디코딩 끝에서 사전에 알려질 수 없기 때문에, 그것은 그것이 인코드된 오디오 신호를 위해 추가의 부가 정보로서 제공될 수 있도록, 예를 들어 엔트로피 인코드되게, 인코드될 수 있다.
양자화가 결과로 생기게 되는 코드벡터들은 예를 들어 인덱싱에 의해 인코드될 수 있다.
제시된 코딩 옵션들은 예를 들어, 비록 독점적이지는 않지만 AAC 코딩 프레임워크 내에서 적용될 수 있다.
애플리케이션의 추가의 양상들이, 가능한 실시 예들을 열거하는, 아래의 설명으로부터 명백해질 것이다.
도 1은 본 발명의 실시 예에 따라 제1 전자 장치의 인코더의 기능 블록들을 개략적으로 도시한다.
도 2는 실시 예들에 따라 인코더 컴포넌트들의 기능 블록들을 개략적으로 도시한다.
도 3은 본 발명의 실시 예에 따라 인코딩 동작을 도시하는 흐름도이다.
도 4는 본 발명의 실시 예에 따라 제2 전자 장치의 디코더의 기능 블록들을 개략적으로 도시한다.
도 5는 실시 예들에 따라 디코더 컴포넌트들의 기능 블록도들을 개략적으로 도시한다.
도 1은 본 발명의 실시 예에 따라 낮은 복잡도의 인코딩이 구현될 수 있는, 예시적인 전자 장치(1)의 다이어그램이다.
전자 장치(1)는 기능 블록들이 개략적으로 도시된, 인코더(2)를 포함한다. 인코더(2)는 MDCT(modified discrete cosine transform) 유닛(4), 크기 조정(scaling) 유닛(6), 컴팬딩(companding) 유닛(8), 양자화(quantization) 유닛(10), 인덱싱(indexing) 유닛(12) 및 엔트로피 인코딩 유닛(13)을 포함한다.
MDCT 유닛(4) 내에서 입력 오디오 신호(14)는 주파수 도메인으로 변환되는 MDCT 이다. 그런 이후에 크기 조정 유닛(6) 내에서, 주파수 도메인 신호의 복수의 주파수 부대역의 스펙트럼 컴포넌트들은 각각의 크기 조정 인자로서 크기 조정된다. 이 크기 조정은 예를 들어 제1 및/또는 제2 크기 조정 인자로서 규모축소(downscaling) 될 수 있다.
부대역들의 이런 크기 조정된 스펙트럼 컴포넌트들은 스펙트럼 컴포넌트들이 컴팬딩되는, 컴팬딩 유닛(8)에 제공된다. 컴팬딩된 스펙트럼 컴포넌트들은 컴팬딩된 스펙트럼 컴포넌트들이 제3 크기 조정 인자에 의해 곱해지고 격자 양자화기(lattice quantizer)를 사용하여 양자화 되는 양자화 유닛(10)에 제공된다. 크기 조정은 양자화 유닛(10) 밖에서 실행될 수 있다. Zn 격자가 사용된다면, 이 단계는 양자화된 스펙트럼 컴포넌트들을 얻기 위해 가장 가까운 정수로 라운딩하는(rounding) 것에 대응한다. 각각의 부대역의 양자화된 스펙트럼 컴포넌트들은 각각의 격자 벡터에 의해 표현될 수 있다.
얻어진 정수 격자 벡터는 인덱싱 유닛(12) 내 각각의 부대역을 위해 적합한 인덱싱 방법을 통해 인덱스될 수 있다.
인코더(2)는 하드웨어(HW) 및/또는 소프트웨어(SW)에서 구현될 수 있다. 소프트웨어에서 구현되는 한, 컴퓨터 판독가능 매체에 저장된 소프트웨어 코드는 장치(1)의 프로세싱 유닛에서 실행될 때 기술된 기능들을 실행한다.
오디오 신호들의 MDCT 스펙트럼 계수들의 매우 낮은 복잡도의 양자화를 위한 새로운 구조의 실시 예들이 이제 도 2를 참조하여 더 자세히 설명될 것이다. 도시된 것은 MDCT 유닛(4), 변경된 크기 조정 유닛(6) 및 컴팬딩 격자 벡터 양자화기 유닛(16)이다. 컴팬딩 격자 벡터 양자화기 유닛(16)은 도 1의 컴팬딩 유닛(8), 양자화 유닛(10) 및 인덱싱 유닛(12)을 포함한다.
MDCT 유닛(4)에 의해 제공된, i = 1 내지 N인, 각각의 부대역 SBi은 본 발명의 실시 예들에 따라, 크기 조정 인자 , 및 크기 조정된 표준 벡터의 역수로 크기 조정 유닛(6) 내에서 크기 조정된다. 표준 편차의 값이 트레이닝(training) 세트로부터 오프라인 방식으로 추정될 수만 있기 때문에, 크기 조정된 부대역 컴포넌트들의 분산 값은 1과는 다를 수 있다. 그러나 더 나은 추정이 있을수록, 분산 값이 1에 더 가까워진다.
제1 크기 조정 인자로 이미 크기 조정된 데이터에 대해 표준 분산으로 나누는 것은 크기 조정된 데이터가 1의 분산을 갖도록 한다.
크기 조정 인자들의 계산을 위해 사용되는 베이스 b는 사용자에 의해 설정될 수 있는, 이용 가능한 비트레이트에 종속한다. 48kBit/s 보다 더 높거나 같은 비트레이트들을 위해 이 베이스 b는 1.45일 수 있고, 48kBit/s 보다 더 낮은 비트레이 트들을 위해, 베이스 b는 2일 수 있다. 물론 다른 값들이 적절하다고 찾아진다면 선택될 수 있다는 것을 알아야 한다. 서로 다른 베이스 값들의 사용은 서로 다른 양자화 해상도(resolution)들이 서로 다른 비트레이트들에 있을 수 있도록 한다. 0 내지 42의 정수들일 수 있는 각각의 부대역을 위한 크기 조정 인자들의 계산을 위해 사용되는 지수들 의 결정은 아래에서 더 설명될 것이다.
각각 부대역을 위한 표준 편차 및 베이스 b는 인코더 측 및 디코더 측 모두에서 알려져 있다. 실시 예들에 따라, 사용될 수 있는 표준 편차들이 예를 들어, 트레이닝 세트 상에서 오프라인 방식으로 계산될 수 있다. 따라서 지수들 만이 디코딩 끝에서 이용가능하게 만들어져야한다.
크기 조정이 결과로서 생기게 하는 스펙트럼 컴포넌트들의 확률 밀도 함수는 종래의 방식에서 컴팬딩 함수를 발생케 하는 누적 분포 함수를 추론하기 위해 사용된다. 예시로서, 누적 분포 함수는 트레이닝 데이터 세트로부터 추출되고 700개의 2차원 점들의 테이블로서 저장된다. 'x'는 (3개의 서로 다른 기울기들을 갖는) 부분들 상에서 선형이어서 함수의 기억 장치가 1차원 점들(f (x) 만)을 사용하여 실행될 수 있다.
컴팬딩 격자 벡터 양자화기 유닛(16) 내에서, 크기 조정된 스펙트럼 컴포넌트들은 발생된 컴팬딩 함수를 사용하여 컴팬딩된다. 컴팬딩 후에, 컴팬딩된 데이터는 거의 일정한 분포이고 격자 양자화기를 사용하여 효율적으로 양자화될 수 있다.
양자화 해상도를 높이기 위해서, 컴팬딩된 데이터는 추가적으로 대응하는 부 대역의 표준 편차에 48kbits/s 보다 크거나 같은 비트레이트들에서는 3과 동일하고, 48kbits/s 보다 작은 비트레이트들에서는 2.1과 동일한 인자를 곱한 것 수 있는 다른 하나의, 제3 크기 조정 인자에 의해 양자화 이전에 곱해질 수 있다.
따라서 양자화 해상도는 즉, 제1 크기 조정 인자의 베이스 b 및 양자화 이전에 바로 적용되는 곱셈 가능한(multiplicative) 제3 크기 조정 인자의, 동일 코딩 구조 내 2개의 파라미터들에 의해 변경될 수 있다. 이것은 실례로서, 예를 들면 44.1kHz에서 16kbit/s 내지 128kbits/s인 서로 다른 비트레이트들의 도메인들을 위해 동일 코덱을 사용할 수 있게 한다.
컴팬딩된 데이터의 양자화를 위해, 컴팬딩된 격자 벡터 양자화기(16)는 예를 들어 각각 1024 길이 양자화 프레임에 있는 각각의 스펙트럼 부대역에 대해 직사각형의 절단된(truncated) Zn 격자 벡터 양자화기를 사용하도록 또한 구성된다. Zn 격자 외에, 다른 격자들도 또한 적용가능하고 본 출원의 범위 내에 있다. 각각의 Zn 격자의 차원은 각각의 부대역 내 스펙트럼 컴포넌트들의 수와 동일할 수 있다.
Zn 격자는 n 차원 공간의 모든 정수 좌표(coordinate) 점들을 포함한다. 격자의 제한된 절단(truncation)은 '코드북(codebook)'을 형성할 수 있고 하나의 점은 '코드벡터'로 지칭될 수 있다. 각각의 코드벡터는 각각의 인덱스와 연관될 수 있다. 반면에, 각각의 부대역의 양자화된 스펙트럼 컴포넌트들은 Zn 격자 양자화기의 특정 코드벡터에 대응하는, 정수들의 벡터에 의해 표현될 수 있다. 따라서 각각의 벡터 컴포넌트를 별개로 인코딩하는 대신에, 하나의 인덱스가 격자로부터 생성될 수 있고 벡터를 위해 송신될 수 있다.
절단된 격자에서, 격자점들의 수가 제한된다. 벡터가 포함된, 직사각형 절단 격자는 단순한 인덱싱 알고리즘을 위해 허용된다. 그런 이후에 격자 코드벡터들은 격자 절단으로부터의 점들이다.
절단이 직사각형이면, 이 절단에 대응하는 놈(norm)은 고려되는 벡터의 컴포넌트들의 최대 절대 값일 수 있다.
컴팬딩 격자 벡터 양자화기(16)의 출력은 격자 코드벡터들의 인덱스들 및 코드벡터들의 놈(norm)들 을 포함하고, 이것은 0 내지 141의 정수일 수 있다. 인덱스 i는 부대역을 표시하고 인덱스 j는 비트레이트 최소 알고리즘에서 사용되는 가능한 지수 값들을 열거한다.
존재하는 양자화는 그것이 오디오 신호들의 스펙트럼 양자화를 위해 것처럼 사용될 수 있고, 다른 유형의 데이터의 양자화일 수 있다.
제안된 스펙트럼 양자화 방법을 구현하는 인코더(2)에 의해 출력되는 비트스트림은 각각의 부대역에 대해 코드 벡터의 인덱스의 2진수 표현, 및 엔트로피 인코 드된 놈 및 지수로 구성된다.
코드벡터의 놈이 제로라면, 크기 조정 인자의 지수는 그것이 더 이상 문제가 되지 않기 때문에 인코드되어서는 안된다.
여기서, n은 즉 현재 부대역인, 양자화 공간의 차원이고, 은 무한을 향해 라운딩된 변수(argument rounded toward infinity)에 가장 가까운 정수 값을 표현한다.
인코더는 예를 들어 사용자에 의해 설정될 수 있는 이용 가능한 전체 비트레이트를 구비할 수 있고 인코더에 의해 출력되는 비트스트림은 그 비트레이트를 가져야 한다.
여기서 aD는 부대역 마다 허용된 왜곡이다. 허용된 왜곡은 기본적인 인지(perceptual) 모델로부터 얻어질 수 있다. 은 정수 부분, 또는 변수(argument)에 가장 가까운 더 작은 정수를 나타낸다. 왜곡 측정은 부대역 마다 양자화의 유클리드(Euclidean) 왜곡 대 고려되는 부대역을 위한 허용된 왜곡 간의 비(ratio)이다.
각각 부대역 SBi을 위해, 최대 20(예이며, 다른 값도 가능함) 지수 값들이 평가를 위해 선택된다. 초기 지수 값에 더하여 초기 값보다 큰 19개의 지수 값들을 포함한다. 초기 값보다 큰 20개의 지수 값들이 존재하지 않는다면, 이용 가능한 것들만이 고려된다. 이런 수들은 또한 변경될 수 있지만, 더 많은 값들이 고려된다면, 인코딩 시간이 증가될 것이라는 것을 주목해야 한다. 상호적으로, 인코딩 시간은 코딩 퀄러티에서 약간의 페이오프를 갖고, 더 적은 값들을 고려함으로써 감소될 수 있다.
지수들의 각각의 고려되는 값 및 각각의 부대역에 대해, 크기 조정, 컴팬딩, 곱셈 및 양자화의 위에서 기술된 프로세스가 주어진 프레임에 적용된다. 이런 경우들 각각에서, 양자화된 벡터가 부대역 마다 그리고 고려되는 지수 마다 얻어진다.
결과 벡터를 인코드하기 위해 비트들의 수 Rmax가 벡터의 최대 놈을 인코드하 기 위한 비트들의 수와 고려되는 지수를 인코드하기 위한 비트들의 수에 더하여 필요하다. 이런 3개의 수량들의 합은 소위 비트레이트 값에 대응한다.
레이트-왜곡 측정은 부대역 마다 허용된 왜곡에 대한 오류비일 수 있다. 오류비를 계산할 때, 2개의 가능한 접근 방식들이 존재한다. 즉, 하나의 접근 방식은 그것의 정의로부터 실제 오류비를 계산하는 것이고, 두 번째 접근 방식은 허용된 왜곡 측정이 고려되는 부대역 내 신호의 에너지보다 크다면 오류비를 제로로 설정하는 것이다. 첫 번째 접근 방식은 "정의(definition)"로 간주될 수 있고 두 번째 접근 방식은 "변경된 정의"로 간주될 수 있다.
따라서 각각의 부대역을 위해서와 각각의 고려되는 지수를 위해, 비트레이트 및 오류 비의 각각의 쌍이 얻어질 수 있다. 이 쌍은 또한 레이트-왜곡 측정으로 지칭될 수 있다.
레이트-왜곡 측정들은 각각의 부대역에 대해 증가되는 비트레이트 순으로 소팅(sort)된다. 일반적으로 비트레이트가 증가하면, 왜곡이 감소해야 한다. 이 규칙이 어겨지면, 더 높은 비트레이트를 갖는 왜곡 측정이 삭제된다. 이것은 모든 부대역들이 동일한 수의 레이트-왜곡 측정들을 갖고 있지 않는 이유이다.
최적화 알고리즘은 2가지 유형의 초기화들을 갖는다.
1. 가장 높은 비트레이트들과 동등한, 가장 낮은 오류비들에 대응하는 레이트-왜곡으로 시작하거나,
2. 모든 부대역들을 위해 1.0보다 작은 오류 비에 대응하는 레이트-왜곡 측정으로 시작한다.
최적화 알고리즘의 목적은 선택된 레이트-왜곡 측정들의 축척된 비트레이트가 프레임을 위해 이용 가능한 비트레이트와 동일하거나 더 적고 , 전체 오류 비가 가능한 작도록 현재 프레임의 각각의 부대역에 대해 고려되는 지수 값들로부터 지수 값을 선택하는 것이다. 이런 최적화를 위해 사용되는 기준은 최소여야 하는 오류비이고, 이때 비트레이트는 AAC와 같은 비트 풀(pool) 메커니즘에 의해 주어진 비트들의 이용가능한 수의 범위 내에 있어야 한다.
예시적인 최적화 알고리즘에 따라, 레이트-왜곡 측정들은 1 에서 까지, 부대역들 i, i=l:N에 따라 비트레이트의 증가하는 값, 결과적으로는 감소하는 오류비의 순서로 정렬된다. 알고리즘은 최소 왜곡을 갖는 레이트-왜곡 측정들로 초기화된다. 초기 비트레이트는 이다. 인덱스 k를 갖는 가장 좋은 레이트-왜곡 측정을 선택하기 위해, 아래의 의사(pseudo) 코드가 적용될 수 있다.
인덱스들 k(i), i=1:N는 레이트-왜곡 측정을 가리킬 뿐만 아니라, 레이트-왜곡 측정을 발생케 하기 위해 사용될 수 있는 것인, 각각의 부대역에 대해 선택되어야 하는 지수 값을 또한 가리킬 수 있다.
예를 들어, 48kbits/s 이상인, 높은 비트레이드들에서, 알고리즘은 라인 5에서
If k (i) > 2
로 변경되어서, 부대역 i가 그것의 비트레이트를 감소시킴으로써, 모든 계수들이 제로로 설정되고 그 부대역을 위한 비트레이트가 1이 된다면, 최대화 프로세스에서 고려되지 않도록 한다.
전체 비트레이트가 너무 높다면, 그것은 어느 정도 감소되어서 부대역들 중 일부가 더 작은 비트레이트를 가질 수 있어야 한다. 하나의 부대역에 대해 이용가 능한 레이트-왜곡 측정만이 그 부대역이 제로로 설정된 모든 계수들에 대응하는, 부대역의 비트레이트를 위한 가장 작은 가능한 값인, 1과 동일한 비트레이트를 갖는 것이라면, 그 부대역에서 비트레이트는 더 감소될 수 없다. 이것은 k(i)> 1인지 테스트하는 이유이다. 각각의 적합한 부대역에 대해, 좌측으로의 하나의 쌍의 증분에 대응하는 기울기가 계산되고, 왜곡에서 가장 낮은 증가를 갖고 비트레이트에서 최대 감소를 구비한 하나가 선택된다. 그런 다음에, 결과적인 전체 비트레이트가 체크되는 등이다.
도 3은 설명된 인코딩을 요약하는 흐름도이다.
첫 번째로 수신된 오디오 신호들이 변환되어서 i = 1 내지 N을 갖는, 복수의 부대역들 SBi로 분할된다(split)(단계(101).
각각의 부대역에 대해, 지수 Si의 초기 값은 이 부대역 내 허용된 왜곡에 기초하여 결정된다(단계(102)). 부대역 컴포넌트들이 Si의 결정된 초기 값을 사용하여 표준 편차 σ 및 일 수 있는, 제1 및/또는 제2 크기 조정 인자에 의해 나뉘고(단계(103)) 컴팬딩되고(단계(104)). 제3 크기 조정 인자로 더 크기 조정되고(단계(105)), 양자화된다(단계(106)). 동일한 동작들이 Si의 19개의 추가 값들까지 반복되고, Si는 값이 최대 42를 넘지 않는 한 1씩 각 반복마다 증가된다(단계들(107, 103-106)). 사용되는 Si 값들 각각을 위해, 결과적인 비트레이트 및 결과적인 왜곡이 결정된다(단계(108)). Si는 그런 이후에 증가되는 연관된 비트레이트 순으로 소 팅된다(단계(109)). 각각의 이전 Si 값 보다 더 높은 왜곡이 결과로서 생기게 하는 이런 Si 값들이 폐기된다.
다음에 모든 부대역들에 대해 소팅된 Si 값들이 공통으로 평가된다. 더 자세히는, 모든 부대역들에 대한 Si 값들의 세트 {Si}가 동시에 전체 왜곡을 최소화하는, 허용된 전체 비트레이트에 가능한 가까운, 전체 비트레이트가 결과로 생기도록 하나의 Si 값이 각각의 부대역에 대해 선택된다(단계(110)).
최종적으로 각각의 부대역 SBi를 위해, 선택된 Si 값으로 단계(106)의 양자화의 결과가 되는 코드벡터가 인덱스되고, 이 양자화에 사용되는 놈 뿐만 아니라 선택된 Si 값이 엔트로피 인코딩된다(단계(111)).
도 4는 본 발명의 실시 예에 따라 더 낮은 복잡도의 디코딩이 구현될 수 있는, 예시적인 전자 장치(17)의 다이어그램이다. 전자 장치들(1, 17)은 본 발명에 따라 시스템의 예시적인 실시 예를 함께 형성할 수 있다.
전자 장치(17)는 기능 블록도들이 개략적으로 도시되는, 디코더(18)를 포함한다. 디코더(18)는 엔트로피 디코더(21), 역 인덱세이션(indexation) 유닛(22), 디컴팬딩(decompanding) 유닛(24), 역 크기조정 유닛(26), 및 역 MDCT 유닛(28)을 포함한다.
인코드된 비트스트림(20)은 디코더(18) 내에서 수신된다. 첫째로, 놈, 및 크기 조정 인자의 지수가 엔트로피 디코딩 유닛(21)에 의해 추출된다. 엔트로피 디코 딩 유닛(21)과 역 인덱세이션 유닛(22) 사이에 접속기가 존재한다. 엔트로피 디코딩 유닛(21)으로부터 디코드된 놈이 얼마나 많은 비트들 상에서 인덱스가 표현되는가를 알려주는 역 인덱세이션 유닛(22)에 공급된다. 코드벡터 인덱스가 공식(2)에 따라 디코드된 놈에 의해 주어진 길이를 갖는 2진 워드(word)로부터 읽혀지고 역 인덱싱 유닛(22)으로 공급된다.
그런 이후에 코드벡터는 역 인덱세이션 유닛(22) 내에서 다시 얻어진다. 코드 벡터의 컴포넌트들이 값들의 디컴팬딩된 세트를 얻기 위해 디컴팬딩 유닛(24) 내에서 사용된다. 값들이 역 크기 조정 유닛(26) 내에서 역 크기 조정 인자들로 크기 조정된다. 크기 조정된 값들이 원하는 오디오 신호를 얻는 역 MDCT 유닛(28) 내에서 사용된다.
디코더(18)가 하드웨어(HW) 및/또는 소프트웨어(SW) 내에서 구현될 수 있다. 소프트웨어에서 구현되는 한, 컴퓨터 판독가능 매체 상에 저장된 소프트웨어 코드는 장치(17)의 프로세싱 유닛에서 실행될 때 기술된 기능을 실행한다.
도 5는 실시 예들에 따라 디코더(18)의 선택된 컴포넌트들을 도시한다. 컴포넌트들은 역 인덱세이션 유닛(22), (도 3 내에 도시되지 않은) 크기 조정 유닛(컴팬딩), 디컴팬딩 유닛(24), 및 변경된 역 크기 조정 유닛(26)을 포함한다.
인코드된 비트스트림은 각각의 부대역 SBi를 위한 코드벡터들의 인덱스, 각각의 부대역 SBi를 위한 인코드된 놈들 , 각각의 부대역 SBi를 위한 인코드된 지수 {Si}를 포함한다.
역 인덱세이션 유닛(22)은 각각의 부대역의 컴팬딩된 스펙트럼 컴포넌트들을 다시 얻기 위해서 엔트로피 디코딩 유닛(21)으로부터 수신된 코드벡터 인덱스들 및 디코드된 놈들을 이용한다. 이것들은 즉 2.1*σ 또는 3*σ 인, 컴팬딩된 데이터에 곱하기 위해 인코더(2) 내에서 사용되었던 인자에 의해 크기 조정 유닛(33) 내에서 나뉜다.
결과 데이터는 디컴팬딩 유닛(24) 내에서 디컴팬딩된다. 엔트로피 디코딩 유닛(21)로부터 수신된 디코드된 지수{Si}는 알려진 베이스 b와 함께 각각의 부대역을 위한 역 크기 조정 인자를 발생시키기 위해 사용된다. 각각의 부대역을 위한 역 크기 조정 인자 및 알려진 표준 편차 σi는 역 크기 조정 유닛(26) 내에서 각각의 부대역에 대해 디컴팬딩 유닛(24)에 의해 출력되는 스펙트럼 컴포넌트들을 재-크기 조정하기 위해 사용된다.
기술된 실시 예들이 다양한 방식으로 변경될 수 있다는 것을 주목해야 한다.
Claims (24)
- 오디오 인코딩을 위한 방법으로서,- 입력 오디오 신호를 수신하는 단계,- 상기 입력 오디오 신호를 적어도 2개의 부대역들로 분할하는 단계,- 상기 적어도 2개의 부대역들을 제1 인자로 크기 조정하는 단계,- 상기 적어도 두개의 크기 조정된 부대역들 각각을 컴팬딩(compading) 하는 단계, 및- 상기 컴팬딩된, 크기 조정된 부대역들을 양자화하는 단계를 갖는, 오디오 인코딩을 위한 방법.
- 제1항에 있어서,상기 제1 인자는,A) 인코드된 데이터 스트림을 위해 이용 가능한 전체 비트레이트,B) 각각의 부대역을 위해 이용 가능한 비트레이트, 및C) 각각의 부대역의 속성(property)들 중 적어도 하나에 종속하는, 오디오 인코딩을 위한 방법.
- 제1항에 있어서,상기 크기 조정하는 단계는 적어도 상기 각각의 크기 조정된 부대역의 표준 편차에 종속하는 제2 인자로 상기 적어도 2개의 부대역들을 크기 조정하는 것을 포함하는, 오디오 인코딩을 위한 방법.
- 제1항에 있어서,양자화는 격자 양자화기를 사용하여 양자화하는 것을 포함하는, 오디오 인코딩을 위한 방법.
- 제1항에 있어서,상기 제1 인자는 베이스(base) 및 지수를 포함하며,각각의 부대역을 위한 상기 베이스는 전체 상위 비트레이트를 위해 하위 값으로 설정되고 전체 하위 비트레이트를 위해 상위 값으로 설정된, 오디오 인코딩을 위한 방법.
- 제1항에 있어서,상기 제1 인자는 베이스 및 지수를 포함하고,상기 지수는 인코드된 오디오 신호의 전체 비트레이트가 이용 가능한 비트레이트에 가능한 가깝고, 모든 부대역들에서 전체 오류비(error ratio)가 최소화도록, 각각의 부대역을 위해 결정되는, 오디오 인코딩을 위한 방법.
- 제1항에 있어서,상기 제1 인자는 베이스 및 지수를 포함하며,상기 지수는 적어도 레이트-왜곡(rate-distortion) 측정으로부터 결정되는, 오디오 인코딩을 위한 방법.
- 제7항에 있어서,상기 레이트-왜곡 측정들은 각 부대역에 대해 증가되는 비트레이트 순으로 소팅되는, 오디오 인코딩을 위한 방법.
- 제7항에 있어서,A) 상기 가장 높은 비트레이트들과 동등한, 상기 가장 낮은 오류비들에 대응하는 상기 레이트-왜곡 측정들로 시작하고, 또는B) 모든 부대역들에 대해 1.0보다 작은 오류비들에 대응하는 상기 레이트-왜 곡 측정으로 시작하는 것,중 하나로최적화된 지수가 결과로 생기게 하는 레이트-왜곡 측정을 위한 탐색을 초기화하는 단계를 더 포함하는, 오디오 인코딩을 위한 방법.
- 제7항에 있어서,상기 레이트-왜곡 측정은 부대역 마다 상기 허용된 왜곡에 관한 오류비이고, 상기 오류비는,A) 오류비의 정의로부터 실제 오류비를 계산하는 것, 또는B) 상기 허용된 왜곡 측정이 상기 고려되는 부대역 내 신호의 에너지 보다 더 크다면 제로로 상기 오류비를 설정하는 것중 하나로 계산되는, 오디오 인코딩을 위한 방법.
- 제1항에 있어서,엔트로피 인코딩을 사용하여 상기 제1 인자의 적어도 하나의 컴포넌트를 인코딩하는 단계를 더 포함하는, 오디오 인코딩을 위한 방법.
- 제1항에 있어서,컴팬딩을 위한 누적 분포 함수를 생성하기 위해 상기 크기 조정된 부대역들의 확률 함수를 이용하는 단계를 더 포함하는, 오디오 인코딩을 위한 방법.
- 제1항에 있어서,양자화 이전에 제3 크기 조정 인자로 상기 컴팬딩된 부대역들을 크기 조정하는 단계를 더 포함하며,상기 제3 크기 조정 인자는 하위 비트레이트들 보다 상위 비트레이트를 위해 더 높은, 오디오 인코딩을 위한 방법.
- 제1항에 있어서,상기 컴팬딩된, 크기 조정된 부대역들을 양자화하기 위해 직사각형의 절단된 격자를 사용하며, 상기 양자화는 각각의 부대역을 위해 코드벡터가 결과로서 생기게 하는, 오디오 인코딩을 위한 방법.
- 제15항에 있어서,상기 양자화된 부대역을 포함하는 격자 절단을 위한 놈(norm)을 각각의 부대역에 대해 계산하는 단계, 각각의 부대역에 대해 엔트로피 인코딩을 사용하여 상기 계산된 놈을 인코딩하는 단계, 및 인덱싱을 통해 상기 코드벡터들을 인코딩하는 단계를 더 포함하는, 오디오 인코딩을 위한 방법.
- - 입력 오디오 신호를 수신하고 상기 입력 오디오 신호를 적어도 2개의 부대역들로 분할하도록 구성된 변환 유닛,- 상기 적어도 2개의 부대역들을 제1 인자로 크기 조정하도록 구성된 크기 조정 유닛,- 상기 적어도 두개의 크기 조정된 부대역들 각각을 컴팬딩하도록 구성된 컴팬딩 유닛, 및- 상기 컴팬딩된, 크기 조정된 부대역들을 양자화하도록 구성된 양자화 유닛을 포함하는, 인코더.
- - 입력 오디오 신호를 수신하고 상기 입력 오디오 신호를 적어도 2개의 부대역들로 분할하도록 구성된 변환 유닛,- 상기 적어도 2개의 부대역들을 제1 인자로 크기 조정하도록 구성된 크기 조정 유닛,- 상기 적어도 두개의 크기 조정된 부대역들 각각을 컴팬딩하도록 구성된 컴팬딩 유닛, 및- 상기 컴팬딩된, 크기 조정된 부대역들을 양자화하도록 구성된 양자화 유닛을 포함하는, 전자 장치.
- 오디오 인코딩을 위한 소프트웨어 코드가 저장되는 소프트웨어 프로그램 생성물로서, 상기 소프트웨어 코드는 전자 장치의 프로세싱 유닛에 의해 실행될 때,- 입력 오디오 신호를 수신하는 단계,- 상기 입력 오디오 신호를 적어도 2개의 부대역들로 분할하는 단계,- 상기 적어도 2개의 부대역들을 제1 인자로 크기 조정하는 단계,-상기 적어도 두개의 크기 조정된 부대역들 각각을 컴팬딩(compading) 하는 단계, 및- 상기 컴팬딩된, 크기 조정된 부대역들을 양자화하는 단계를 실행하는, 소프트웨어 프로그램 생성물.
- 오디오 디코딩을 위한 방법으로서,- 인코드된 오디오 데이터를 수신하는 단계,- 상기 인코드된 오디오 데이터로부터 적어도 2개의 컴팬딩된 부대역들을 발생시키는 단계,- 각각의 컴팬딩된 부대역을 디컴팬딩하는 단계,- 상기 적어도 2개의 디컴팬딩된 부대역들을 제1 인자로 크기 조정하는 단계, 및- 상기 디컴팬딩되고 크기 조정된 부대역들을 디코드된 오디오 신호로 결합하는 단계를 포함하는, 오디오 디코딩을 위한 방법.
- - 적어도 2개의 컴팬딩된 부대역들을 디컴팬딩하도록 구성되며, 상기 컴팬딩된 부대역들은 수신된 인코드된 오디오 데이터로부터 발생되는, 디컴팬딩 유닛,- 상기 적어도 2개의 디컴팬딩된 부대역들을 제1 인자로 크기 조정하도록 구성된, 크기 조정 유닛, 및- 상기 디컴팬딩되고 크기 조정된 부대역들을 디코드된 오디오 신호로 결합하도록 구성된 변환 유닛을 포함하는, 디코더.
- - 적어도 2개의 컴팬딩된 부대역들을 디컴팬딩하도록 구성되며, 상기 컴팬딩된 부대역들은 수신된 인코드된 오디오 데이터로부터 발생되는, 디컴팬딩 유닛,- 상기 적어도 2개의 디컴팬딩된 부대역들을 제1 인자로 크기 조정하도록 구성된, 크기 조정 유닛, 및- 상기 디컴팬딩되고 크기 조정된 부대역들을 디코드된 오디오 신호로 결합하도록 구성된 변환 유닛을 포함하는, 전자 장치.
- 오디오 디코딩을 위한 소프트웨어 코드가 저장되는 소프트웨어 프로그램 생성물로서, 상기 소프트웨어 코드는 전자 장치의 프로세싱 유닛에 의해 실행될 때,- 인코드된 오디오 데이터를 수신하는 단계,- 상기 인코드된 오디오 데이터로부터 적어도 2개의 컴팬딩된 부대역들을 발생시키는 단계,- 각각의 컴팬딩된 부대역을 디컴팬딩하는 단계,- 상기 적어도 2개의 디컴팬딩된 부대역들을 제1 인자로 크기 조정하는 단계, 및- 상기 디컴팬딩되고 크기 조정된 부대역들을 디코드된 오디오 신호로 결합하는 단계를 실행하는, 소프트웨어 프로그램 생성물.
- 오디오 데이터를 인코딩하기 위한 인코더 및 인코드된 오디오 데이터를 디코딩하기 위한 디코더를 포함하는 시스템으로서,상기 인코더는,- 입력 오디오 신호를 수신하고 상기 입력 오디오 신호를 적어도 2개의 부대역들로 분할하도록 구성된 변환 유닛,- 상기 적어도 2개의 부대역들을 제1 인자로 크기 조정하도록 구성된 크기 조정 유닛,- 상기 적어도 두개의 크기 조정된 부대역들 각각을 컴팬딩하도록 구성된 컴팬딩 유닛, 및- 상기 컴팬딩된, 크기 조정된 부대역들을 양자화하도록 구성된 양자화 유닛을 포함하고,상기 디코더는,- 적어도 2개의 컴팬딩된 부대역을 디컴팬딩하도록 구성되며, 상기 컴팬딩된 부대역은 수신된 인코드된 오디오 데이터로부터 발생되는, 디컴팬딩 유닛,- 상기 적어도 2개의 디컴팬딩된 부대역을 제1 인자로 크기 조정하도록 구성된, 크기 조정 유닛, 및- 상기 디컴팬딩되고 크기 조정된 부대역들을 디코드된 오디오 신호로 결합하도록 구성된 변환 유닛을 포함하는, 시스템.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/256,670 | 2005-10-21 | ||
US11/256,670 US20070094035A1 (en) | 2005-10-21 | 2005-10-21 | Audio coding |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20080049116A true KR20080049116A (ko) | 2008-06-03 |
Family
ID=37719330
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020087009379A KR20080049116A (ko) | 2005-10-21 | 2006-10-09 | 오디오 코딩 |
Country Status (5)
Country | Link |
---|---|
US (2) | US20070094035A1 (ko) |
EP (1) | EP1938314A1 (ko) |
KR (1) | KR20080049116A (ko) |
CN (1) | CN101292286A (ko) |
WO (1) | WO2007046027A1 (ko) |
Families Citing this family (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7240001B2 (en) | 2001-12-14 | 2007-07-03 | Microsoft Corporation | Quality improvement techniques in an audio encoder |
US7460990B2 (en) * | 2004-01-23 | 2008-12-02 | Microsoft Corporation | Efficient coding of digital media spectral data using wide-sense perceptual similarity |
US7930184B2 (en) * | 2004-08-04 | 2011-04-19 | Dts, Inc. | Multi-channel audio coding/decoding of random access points and transients |
US20070168197A1 (en) * | 2006-01-18 | 2007-07-19 | Nokia Corporation | Audio coding |
EP1869669B1 (en) * | 2006-04-24 | 2008-08-20 | Nero AG | Advanced audio coding apparatus |
KR101322392B1 (ko) * | 2006-06-16 | 2013-10-29 | 삼성전자주식회사 | 스케일러블 코덱의 부호화 및 복호화 방법 및 장치 |
US8046214B2 (en) * | 2007-06-22 | 2011-10-25 | Microsoft Corporation | Low complexity decoder for complex transform coding of multi-channel sound |
US7885819B2 (en) * | 2007-06-29 | 2011-02-08 | Microsoft Corporation | Bitstream syntax for multi-process audio decoding |
US8249883B2 (en) * | 2007-10-26 | 2012-08-21 | Microsoft Corporation | Channel extension coding for multi-channel source |
US8762141B2 (en) | 2008-02-15 | 2014-06-24 | Nokia Corporation | Reduced-complexity vector indexing and de-indexing |
EP2301157A1 (en) * | 2008-06-30 | 2011-03-30 | Nokia Corp. | Entropy-coded lattice vector quantization |
US20100106269A1 (en) * | 2008-09-26 | 2010-04-29 | Qualcomm Incorporated | Method and apparatus for signal processing using transform-domain log-companding |
US8311843B2 (en) * | 2009-08-24 | 2012-11-13 | Sling Media Pvt. Ltd. | Frequency band scale factor determination in audio encoding based upon frequency band signal energy |
WO2011048099A1 (en) | 2009-10-20 | 2011-04-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder, audio decoder, method for encoding an audio information, method for decoding an audio information and computer program using a region-dependent arithmetic coding mapping rule |
BR122021008583B1 (pt) * | 2010-01-12 | 2022-03-22 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Codificador de áudio, decodificador de áudio, método de codificação e informação de áudio, e método de decodificação de uma informação de áudio que utiliza uma tabela hash que descreve tanto valores de estado significativos como limites de intervalo |
CN103329198B (zh) | 2010-11-26 | 2015-07-08 | 诺基亚公司 | 低复杂度目标矢量识别 |
WO2012069886A1 (en) | 2010-11-26 | 2012-05-31 | Nokia Corporation | Coding of strings |
WO2012081166A1 (ja) * | 2010-12-14 | 2012-06-21 | パナソニック株式会社 | 符号化装置、復号装置およびそれらの方法 |
RU2676242C1 (ru) * | 2013-01-29 | 2018-12-26 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Декодер для формирования аудиосигнала с улучшенной частотной характеристикой, способ декодирования, кодер для формирования кодированного сигнала и способ кодирования с использованием компактной дополнительной информации для выбора |
EP3046105B1 (en) * | 2013-09-13 | 2020-01-15 | Samsung Electronics Co., Ltd. | Lossless coding method |
CN104282311B (zh) * | 2014-09-30 | 2018-04-10 | 武汉大学深圳研究院 | 一种音频编码带宽扩展中子带划分的量化方法及装置 |
SE538512C2 (sv) * | 2014-11-26 | 2016-08-30 | Kelicomp Ab | Improved compression and encryption of a file |
CA2991341A1 (en) * | 2015-07-06 | 2017-01-12 | Nokia Technologies Oy | Bit error detector for an audio signal decoder |
CN105070292B (zh) * | 2015-07-10 | 2018-11-16 | 珠海市杰理科技股份有限公司 | 音频文件数据重排序的方法和系统 |
US10586546B2 (en) | 2018-04-26 | 2020-03-10 | Qualcomm Incorporated | Inversely enumerated pyramid vector quantizers for efficient rate adaptation in audio coding |
US10573331B2 (en) | 2018-05-01 | 2020-02-25 | Qualcomm Incorporated | Cooperative pyramid vector quantizers for scalable audio coding |
US10580424B2 (en) | 2018-06-01 | 2020-03-03 | Qualcomm Incorporated | Perceptual audio coding as sequential decision-making problems |
US10734006B2 (en) | 2018-06-01 | 2020-08-04 | Qualcomm Incorporated | Audio coding based on audio pattern recognition |
US11830507B2 (en) * | 2018-08-21 | 2023-11-28 | Dolby International Ab | Coding dense transient events with companding |
US12009001B2 (en) | 2018-10-31 | 2024-06-11 | Nokia Technologies Oy | Determination of spatial audio parameter encoding and associated decoding |
CN111852463B (zh) * | 2019-04-30 | 2023-08-25 | 中国石油天然气股份有限公司 | 气井产能评价方法及设备 |
CN114566174B (zh) * | 2022-04-24 | 2022-07-19 | 北京百瑞互联技术有限公司 | 一种优化语音编码的方法、装置、系统、介质及设备 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5581653A (en) * | 1993-08-31 | 1996-12-03 | Dolby Laboratories Licensing Corporation | Low bit-rate high-resolution spectral envelope coding for audio encoder and decoder |
US5651090A (en) * | 1994-05-06 | 1997-07-22 | Nippon Telegraph And Telephone Corporation | Coding method and coder for coding input signals of plural channels using vector quantization, and decoding method and decoder therefor |
US5625743A (en) * | 1994-10-07 | 1997-04-29 | Motorola, Inc. | Determining a masking level for a subband in a subband audio encoder |
US5956674A (en) * | 1995-12-01 | 1999-09-21 | Digital Theater Systems, Inc. | Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels |
KR100261253B1 (ko) | 1997-04-02 | 2000-07-01 | 윤종용 | 비트율 조절이 가능한 오디오 부호화/복호화 방법및 장치 |
KR100335611B1 (ko) | 1997-11-20 | 2002-10-09 | 삼성전자 주식회사 | 비트율 조절이 가능한 스테레오 오디오 부호화/복호화 방법 및 장치 |
US6353808B1 (en) * | 1998-10-22 | 2002-03-05 | Sony Corporation | Apparatus and method for encoding a signal as well as apparatus and method for decoding a signal |
GB2388502A (en) | 2002-05-10 | 2003-11-12 | Chris Dunn | Compression of frequency domain audio signals |
CA2388358A1 (en) | 2002-05-31 | 2003-11-30 | Voiceage Corporation | A method and device for multi-rate lattice vector quantization |
US7499495B2 (en) * | 2003-07-18 | 2009-03-03 | Microsoft Corporation | Extended range motion vectors |
US7092576B2 (en) * | 2003-09-07 | 2006-08-15 | Microsoft Corporation | Bitplane coding for macroblock field/frame coding type information |
US7724827B2 (en) * | 2003-09-07 | 2010-05-25 | Microsoft Corporation | Multi-layer run level encoding and decoding |
US7317839B2 (en) * | 2003-09-07 | 2008-01-08 | Microsoft Corporation | Chroma motion vector derivation for interlaced forward-predicted fields |
US7548853B2 (en) * | 2005-06-17 | 2009-06-16 | Shmunk Dmitry V | Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding |
-
2005
- 2005-10-21 US US11/256,670 patent/US20070094035A1/en not_active Abandoned
-
2006
- 2006-07-11 US US11/485,076 patent/US7689427B2/en not_active Expired - Fee Related
- 2006-10-09 EP EP06809541A patent/EP1938314A1/en not_active Withdrawn
- 2006-10-09 CN CNA2006800390203A patent/CN101292286A/zh active Pending
- 2006-10-09 WO PCT/IB2006/053691 patent/WO2007046027A1/en active Application Filing
- 2006-10-09 KR KR1020087009379A patent/KR20080049116A/ko active IP Right Grant
Also Published As
Publication number | Publication date |
---|---|
US20070094035A1 (en) | 2007-04-26 |
US20070094027A1 (en) | 2007-04-26 |
WO2007046027A1 (en) | 2007-04-26 |
CN101292286A (zh) | 2008-10-22 |
US7689427B2 (en) | 2010-03-30 |
EP1938314A1 (en) | 2008-07-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR20080049116A (ko) | 오디오 코딩 | |
EP1905000B1 (en) | Selectively using multiple entropy models in adaptive coding and decoding | |
US20070168197A1 (en) | Audio coding | |
KR101343267B1 (ko) | 주파수 세그먼트화를 이용한 오디오 코딩 및 디코딩을 위한 방법 및 장치 | |
KR101330362B1 (ko) | 오디오 인코딩 방법, 오디오 디코딩 방법 및 오디오 인코더 디바이스 | |
US7684981B2 (en) | Prediction of spectral coefficients in waveform coding and decoding | |
EP2282310B1 (en) | Entropy coding by adapting coding between level and run-length/level modes | |
US7693709B2 (en) | Reordering coefficients for waveform coding or decoding | |
KR100852481B1 (ko) | 양자화 스텝 사이즈 결정 장치 및 방법 | |
US6593872B2 (en) | Signal processing apparatus and method, signal coding apparatus and method, and signal decoding apparatus and method | |
US8463615B2 (en) | Low-delay audio coder | |
JP2007525715A (ja) | 推定値を決定するための方法および装置 | |
JP2000338998A (ja) | オーディオ信号符号化方法及び復号化方法、これらの装置及びプログラム記録媒体 | |
WO2005027096A1 (en) | Method and apparatus for encoding audio | |
EP2023339B1 (en) | A low-delay audio coder | |
JP2000132194A (ja) | 信号符号化装置及び方法、並びに信号復号装置及び方法 | |
US7181079B2 (en) | Time signal analysis and derivation of scale factors | |
US8924202B2 (en) | Audio signal coding system and method using speech signal rotation prior to lattice vector quantization | |
KR20130047630A (ko) | 통신 시스템에서 신호 부호화 장치 및 방법 | |
Lois et al. | Spectral coding of speech LSF parameters using Karhunen-Loeve transform | |
Giurcaneanu et al. | Forward and backward design of predictors for lossless audio coding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
NORF | Unpaid initial registration fee |