KR101733326B1 - 개선된 확률 분포 추정을 이용한 선형 예측 기반 오디오 코딩 - Google Patents

개선된 확률 분포 추정을 이용한 선형 예측 기반 오디오 코딩 Download PDF

Info

Publication number
KR101733326B1
KR101733326B1 KR1020157001849A KR20157001849A KR101733326B1 KR 101733326 B1 KR101733326 B1 KR 101733326B1 KR 1020157001849 A KR1020157001849 A KR 1020157001849A KR 20157001849 A KR20157001849 A KR 20157001849A KR 101733326 B1 KR101733326 B1 KR 101733326B1
Authority
KR
South Korea
Prior art keywords
spectral
probability distribution
linear prediction
spectrum
determining
Prior art date
Application number
KR1020157001849A
Other languages
English (en)
Other versions
KR20150032723A (ko
Inventor
톰 배크스트로엠
크리스티안 헴리히
귈라우메 푸쉬
마르쿠스 물트루스
마틴 디에츠
Original Assignee
프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. filed Critical 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Publication of KR20150032723A publication Critical patent/KR20150032723A/ko
Application granted granted Critical
Publication of KR101733326B1 publication Critical patent/KR101733326B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0017Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/12Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

선형 예측 기반 오디오 코딩은, 선형 예측 계수 정보로부터의 복수의 스펙트럴 요소들의 각각에 대해 결정된 확률 분포 추정을 이용하여 복수의 스펙트럴 요소들로 구성된 스펙트럼을 코딩함에 의해 개선된다. 특히, 선형 예측 계수 정보는 어쨌든 사용 가능하다. 따라서, 그것은 인코딩 및 디코딩 측에서 확률 분포 추정을 결정하기 위해 사용될 수 있다. 후자의 결정은, 예를 들어, 복수의 스펙트럴 요소들에서 확률 분포 추정을 위한 적절한 파라미터화를 이용하여 계산적으로 간단한 방식으로 구현된다. 엔트로피 코딩에 의해 제공된 코딩 효율은 문맥 선택을 이용하여 달성된 확률 분포 추정들과 호환하나, 그것은 도출은 덜 복잡하다. 예를 들어, 도출은 순수하게 분석적으로 및/또는 공간적인 문맥 선택의 경우에서처럼 이웃한 스펙트럴 라인들의 이미 코딩/디코딩된 스펙트럴 값들과 같은 이웃한 스펙트럴 라인들의 속성에 대한 어떠한 정보도 요구되지 않는다.

Description

개선된 확률 분포 추정을 이용한 선형 예측 기반 오디오 코딩{LINEAR PREDICTION BASED AUDIO CODING USING IMPROVED PROBABILITY DISTRIBUTION ESTIMATION}
본 발명은 선형 예측 기반 오디오 코딩에 관한 것으로, 특히, 스펙트럼 코딩을 이용한 선형 예측 기반 오디오 코딩에 관한 것이다.
주파수 도메인에서의 양자화 및 코딩을 위한 종래 방법은 산술 코더[1]와 같은 엔트로피 코더를 가지고 신호의 윈도우들을 받아들이고(오버랩핑하고), 시간-주파수 변환을 수행하고, 지각(perceptual) 모델을 적용하며 개별 주파수를 양자화하는 것이다. 지각 모델은 기본적으로 각각의 가중된 스펙트럴 라인에서 오류들이 동일한 지각 영향을 갖도록 스펙트럴 라인들에 곱해지는 가중 함수이다. 따라서 모든 가중 라인들은 동일한 정밀도로 양자화될 수 있고, 전체적인 정밀도는 지각 품질과 비트 소모 간의 절충을 결정한다.
AAC와 USAC (non-TCX)의 주파수 도메인 모드에서, 지각 모델은 스펙트럴 라인들(스펙트럴 밴드)의 그룹이 동일한 가중을 가지도록 정의된 밴드-와이즈(band-wise)이었다. 이러한 가중치들은 밴드가 스케일링되는 팩터가 무엇인지에 의해 정의되기 때문에, 스케일 팩터로써 알려져 있다. 더 나아가, 스케일 팩터들은 차분적으로 인코딩되었다. TCX 도메인에서, 가중치는 스케일 팩터를 이용하여 인코딩되지 않으나, 스펙트럴 포락선을 정의하는 LPC 모델[2]에 의하면, 즉 스펙트럼의 전체적인 형상이다. LPC는 TCX과 ACELP 사이의 부드러운 전환을 허용하기 때문에 사용된다. 그러나, LPC는 훨씬 더 부드러워야 하고, 가중된 LPC가 요구되는 지각 모델에 대략적으로 대응되도록 가중화로 알려진 과정이 LPC에 적용되는, 지각 모델에 잘 대응되지 않는다.
USAC의 TCX-도메인에서, 스펙트럴 라인들은 산술 코더에 의해 인코딩된다. 산술 코더는 신호의 모든 가능한 구성들에 확률들을 할당함에 기반하고 있어, 높은 확률 값들이 작은 수의 비트들로 인코딩될 수 있고, 비트-소모가 최소화될 수 있다. 스펙트럴 라인들의 확률 분포를 추정하기 위하여, 코덱은 시간-주파수 공간에서 이전에, 이미 부호화된 라인들에 기반하여 신호 분포를 예측하는 확률 모델을 이용할 수 있다. 이전의 라인들은 인코딩할 최근 라인의 컨텍스트(context)로써 알려져 있다 [3].
최근에, NTT는 산술 코더의 컨텍스트를 개선하는 방법을 제안하였다([4]를 비교). 그것은 컨텍스트로부터의 크기 예측이 더욱 효과적이도록 고조파(harmonic) 라인들(comp-filter)의 대략적 위치들을 결정하는 LTP를 사용하는 것과 스펙트럴 라인들을 재배열하는 것에 기반한다.
일반적으로 말해, 확률 분포 추정이 더 좋을수록, 엔트로피 코딩에 의해 달성되는 압축은 더 효과적이다. 상기 설명된 기술들 중 어느 것을 사용하여 획득할 수 있는 것으로써 유사한 품질의 확률 분포 추정을 달성할 수 있으나 복잡도를 감소시키는 것에 가까운 개념을 갖는 것이 유리하다.
따라서, 본 발명의 목적은 개선된 특성을 가진 선형 예측 기반 오디오 코딩 기법을 제공하는데 있다. 이러한 목적은 독립 청구항들의 주제에 의해 달성된다.
선형 예측 기반 오디오 코딩이 선형 예측 계수 정보로부터 복수의 스펙트럴 요소들의 각각에 대해 결정된 확률 분포 추정을 이용하여 복수의 스펙트럴 요소들로 구성된 스펙트럼을 코딩함에 의해 개선될 수 있다는 것이 본 발명의 기본적 발견이다. 특히, 선형 예측 계수 정보는 어쨌든 이용 가능하다. 따라서, 그것은 인코딩 및 디코딩 양측에서 확률 분포 추정을 결정하기 위해 사용될 수 있다. 후자의 결정은, 예를 들면, 복수의 스펙트럴 요소들에서 확률 분포 추정을 위한 적절한 파라미터화(parameterization)를 사용함에 의해 계산적으로 간단한 방식으로 구현될 수 있다. 엔트로피 코딩에 의해 제공되어지는 것으로써 코딩 효율은 컨텍스트 선택을 사용하여 달성한 것으로써 확률 분포 추정들과 호환되나, 그것의 도출은 덜 복잡하다. 예를 들어, 그 도출은 순수하게 분석적이고, 또는 공간적 컨텍스트 선택의 경우에서처럼 이웃하는 스펙트럴 라인들의 이전에 코딩/디코딩된 스펙트럴 값들과 같은 이웃하는 스펙트럴 라인들의 속성에 대한 어떠한 정보도 요구하지 않는다. 예를 들어, 이것은, 결국, 계산 과정들의 병렬화를 더욱 쉽게 렌더링한다. 게다가, 더 적은 메모리 요구 사항과 더 적은 메모리 액세스가 필요할 수 있습니다.
본 발명의 실시예에 따르면, 스펙트럼, 설명된 것 같이 결정된 확률 분포 추정을 이용하여 엔트로피 코딩된 스펙트럴 값들은 선형 예측 계수 정보를 이용하여 획득된 변환 부호화된 여기(excitation)일 수 있다.
본 발명의 실시예에 따르면, 예를 들어, 스펙트럼은, 그러나, 지각적으로(perceptually) 가중된 도메인에서, 정의된 변환 부호화된 여기이다. 즉, 결정된 확률 분포 추정을 사용하여 엔트로피 코딩된 스펙트럼은 선형 예측 계수 정보에 의해 정의된 지각적으로(perceptually) 가중된 선형 예측 합성 필터에 대응하는 전달 함수를 사용하여 프리-필터링된(pre-filtered) 오디오 신호들 스펙트럼에 대응하고, 복수의 스펙트럴 요소들의 각각에 대하여 확률 분포 파라미터들이, 예컨대 스케일링된 버전으로, 선형 예측 합성 필터의 전달 함수와 선형 예측 합성 필터의 지각적으로 가중된 변형의 전달 함수의 역(inverse)의 곱에 의존하는 함수를 따르도록 확률 분포 파라미터가 결정된다. 복수의 스펙트럴 요소들의 각각에 대하여, 확률 분포 추정은 각각의 스펙트럴 요소의 확률 분포 파라미터를 가지고 파라미터로 나타나는 파라미터로 표현 가능한 함수이다. 다시, 선형 예측 계수 정보는 어쨌든 이용 가능하고, 확률 분포 파라미터의 도출은 순수하게 분석적 과정 및/또는 스펙트럼의 다른 스펙트럴 요소들에서 스펙트럴 값들 사이에서 어떠한 상호 의존성을 요구하지 않는 과정으로써 구현될 수 있다.
본 발명의 다른 실시예에 따르면, 확률 분포 파라미터들이 롱 텀 예측(LTP: Long Term Prediction)을 이용하여 결국 결정되는 스펙트럴 미세 구조에 배가하여(multiplicatively) 의존하는 함수에 스펙트럴하게 따르도록 확률 분포 파라미터가 대안적으로 또는 추가적으로 결정된다. 다시, 몇몇의 선형 예측 기반 코덱에서, LTP 정보는 어쨌든 이용 가능하고, 이것 뿐 아니라, 확률 분포 파라미터의 결정은 순수하게 분석적으로 및/또는 스펙트럼의 다른 스펙트럴 요소들의 스펙트럴 값들의 코딩 사이의 상호 의존성 없이 수행되기에 여전히 적합하다. 지각 변환 코딩된 여기 코딩(perceptual transform coded excitation coding)과 LTP 용법을 조합 할 때, 부호화 효율이 적당한 복잡도 증가에서 더 향상된다.
본 발명의 실시예에 따른 선형 예측 기반 오디오 코딩 방법은, 스펙트럴 라인들의 이전에 코딩/디코딩된 스펙트럴 값들과 같은 이웃하는 스펙트럴 라인들의 속성에 대한 어떠한 정보도 요구하지 않기 때문에, 계산 과정들의 병렬화를 더욱 쉽게 렌더링한다.
또한, 더 적은 메모리 요구 사항과 더 적은 메모리 액세스가 필요할 수 있습니다.
유리한 구현 예들 및 실시 예들은 종속항에서 논의된다. 본 발명의 바람직한 실시 예들은 아래의 도면들을 참조하여 보다 상세히 설명한다.
도 1은 본 발명의 실시예에 따른 선형 예측 기반 오디오 인코더를 설명하기 위한 블록도이다;
도 2는 본 발명의 실시예에 따른 도 1의 스펙트럼 결정부를 설명하기 위한 블록도이다;
도 3a는 지각적(perceptual) 코딩을 이용하여 동일하게 구현될 때 도 1 및 도 2에 나타난 요소들의 작동의 모드의 기술에서 발생하는 다른 전달 함수들을 나타낸다;
도 3b는 가중되었으나 지각적 모델의 역을 이용한 도 3a의 함수들을 나타낸다;
도 4는 지각적 코딩을 이용한 실시예에 따른 도 1의 확률 분포 추정부(14)의 내부적 작동을 설명하기 위한 블록도이다;
도 5 (a)는 프리-엠퍼시스(pre-emphasis) 필터링 후의 원본 오디오 신호 및 그것의 추정된 포락선을 나타내는 그래프이다;
도 5 (b)는 본 발명의 실시예에 따른 포락선을 더욱 면밀히 추정하기 위해 사용되는 LTP 함수의 예를 나타낸다;
도 5 (c)는 도 5 (b)의 LTP 함수를 도 5 (a)의 예에 적용함에 의한 포락선 추정의 결과를 나타내는 그래프이다;
도 6은 LTP 프로세싱 뿐 아니라 지각적 코딩을 사용한 실시예에서 확률 분포 추정부(14)의 내부적인 작동을 설명하기 위한 블록도이다;
도 7은 본 발명의 실시예에 따른 선형 예측 기반 오디오 디코더를 설명하기 위한 블록도이다;
도 8은 본 발명의 또 다른 실시예에 따른 선형 예측 기반 오디오 디코더를 설명하기 위한 블록도이다;
도 9는 본 발명의 실시예에 따라 도 8의 필터를 설명하기 위한 블록도이다;
도 10은 본 발명의 실시예에 따른 양자화 및 엔트로피 인코딩 스테이지와 확률 분포 추정부(14)에 배치된 도 1의 인코더의 부분의 보다 상세한 구조를 설명하기 위한 블록도이다;
도 11은 본 발명의 실시예에 따라, 도 10이 인코딩 측, 즉, 확률 분포 추정부(102) 및 엔트로피 디코딩 및 역양자화 스테이지(104)에 위치하는 곳의 부분에 상응하는 그 부분에 배치된 도 7 및 9의 예를 위한 선형 예측 기반 오디오 디코더 내에 부분을 설명하기 위한 블록도이다.
본 발명의 다양한 실시예들을 설명하기에 전에, 동일한 기본 아이디어는 본원의 명세서의 서두에 기재된 배경 기술에 대하여 예시적으로 논의된다. USAC과 같은 구체적인 비교 기술들과의 비교로부터 기인한 구체적 특징은 본원 및 그것의 실시예들의 범위를 제한하는 것으로 간주되지 않는다.
산술 코딩을 위한 USAC 기법에서, 컨텍스트는 다음의 라인들의 크기 분포를 기본적으로 예측한다. 즉, 스펙트럴 라인들과 스펙트럴 요소들은 코딩/디코딩하는 동안 스펙트럴 차원에서 스캐닝되고 크기 분포는 이전에 코딩/디코딩된 스펙트롤 값들에 의존하여 계속적으로 예측된다. 그러나, 예측을 위한 필요없이, LPC는 이미 동일한 정보를 명확하게 인코딩한다. 따라서, 이 컨텍스트 대신에 LPC를 이용하는 것은, 그러나 더 낮은 계산 복잡도에서 또는 적어도 더 낮은 복잡도를 달성하는 가능성을 가지고, 비슷한 결과를 가져와야 한다. 사실, 낮은 비트-률에서 스펙트럼은 본질적으로 1들 또는 0들로 구성되고, 컨텍스트는 거의 항상 매우 희박하고, 유용한 정보가 없다. 그리하여, 이론적으로 LPC은 사실상 이웃의 템플릿으로서 크기 추정들을 위해 매우 좋은 소스이어야 하고, 확률 분포 추정을 위해 사용된 이미 코딩/디코딩된 스펙트럴 값들은 단지 희박하게 유용한 정보로 채워진다. 게다가, LPC 정보는 인코더와 디코더 양측에서 이미 이용 가능하고, 그리하여 그것은 비트-소모의 관점에서 제로 소모를 제공한다.
LPC 모델은 단지 스펙트럴 포락선 형상을 정의하고, 그것은 각 라인의 절대적 크기가 아닌, 상대적 크기들이다. 단일 라인을 위한 확률 분포를 정의하기 위해, 우리는 항상 절대적인 크기가 필요하고, 즉, 그것은 단일 변화량(또는 유사한 측량)을 위한 값이다. 스펙트럴 양자화 모델들에 기반하는 대부분의 LPC의 본질적인 부분은 바람직한 변화량(그리하여 바람직한 비트-소모)이 도달되도록, 따라서 LPC 포락선의 스케일링이어야 한다. 각각의 라인에 대한 확률 분포들은 스케일링된 LPC에 의존하기 때문에, 이러한 스케일링은 디코더뿐 아니라 인코더에도 일반적으로 수행되어야 한다.
상술한 바와 같이, 지각 모델(가중된 LPC)은 지각 모델을 정의하기 위해 사용될 수 있다. 즉, 양자화는 각각의 스펙트럴 라인에서 예상되는 양자화 에러가 대략 동일한 양의 지각 왜곡을 야기하도록 지각 도메인에서 수행될 수 있다. 따라서, 만약 그렇다면, LPC 모델은 또한 하기에 정의된 가중된 LPC를 그것에 곱함에 의해 지각 도메인으로 변환된다. 아래의 실시예들에서, LPC 포락선은 지각 도메인으로 변환되는 것으로 종종 가정될 수 있다.
그리하여, 각 스펙트럴 라인에 독립된 확률 모델을 적용하는 것이 가능하다. 스펙트럴 라인들은 예측 가능한 위상 상관관계를 가지지 않는 것으로 가정되는 것이 합리적이고, 그것은 단지 모델 크기에 충분하다. LPC는 크기를 효율적으로 인코딩하는 것으로 추정되기 때문에, 컨텍스트-기반 산술 코더는 크기 추정의 효율성을 아마 개선하지 못할 것이다.
따라서, 컨텍스트가 LPC 포락선에 의존하거나, 심지어 구성하도록 컨텍스트 기반 엔트로피 코더를 적용하는 것이 가능하다.
LPC 포락선에 추가하여, LTP는 또한 포락선 정보를 추론하는데 사용될 수 다. 결국, LTP는 주파수 도메인에서 빗형-필터(comb-filter)에 대응할 수 있다. 몇몇 실제적인 세부 사항은 아래에서 더 논의된다.
아래에서 더 설명되는 실시예들의 기초가 되는 아이디어에 이르는 몇몇의 사상을 설명한 후에, 본원의 실시예에 따른 선형 예측 오디오 코더를 위한 실시예를 나타내는 도 1을 참조하여 이러한 실시예들에 대한 설명을 시작한다. 도 1의 선형 예측 기반 오디오 인코더는 일반적으로 참조 부호 10을 사용하여 나타나고, 선형 예측 분석부(12), 확률 분포 추정(14), 스펙트럼 결정부(16) 및 양자화 및 엔트로피 인코딩 스테이지(18)를 포함한다. 도 1의 선형 예측 기반 오디오 인코더(10)는, 예를 들어 입력(20)에서, 인코딩한 오디오 신호를 수신하고, 그 안에서 인코딩된 오디오 신호를 따라서 가진 데이터 스트림(22)을 출력한다. LP 분석부(12) 및 스펙트럼 결정부(16)는, 도 1에 나타난 것처럼, 직접적 또는 간접적으로 입력(20)과 커플링된다. 확률 분포 추정부(14)는 LP 분석부(12)와 양자화 및 엔트로피 인코딩 스테이지(18) 사이에서 커플링되고, 결국, 스펙트럼 결정부(16)의 출력에 커플링된다. 도 1에서 보여지는 것처럼, LP 분석부(12) 및 양자화 및 엔트로피 인코딩 스테이지(18)는 데이터 스트림(22)의 형성/생성에 기여한다. 아래에서 더욱 상세하게 설명하는 것과 같이, 인코더(10)는 입력(20)과 LP 분석부(12) 및/또는 스펙트럼 결정부(16) 사이를 커플링하는 프리-엠퍼시스 필터(24)를 선택적으로 포함할 수 있다. 더 나아가, 스펙트럼 결정부(16)는 LP 분석부(12)의 출력에 선택적으로 커플링될 수 있다.
특히, LP 분석부(12)는 입력(20)에 귀항하는(inbound) 오디오 신호에 기반한 선형 예측 계수 정보를 결정할 수 있다. 도 1에 도시된 바와 같이, LP 분석부(12)는 입력(20)에서 오디오 신호에 대해 또는 예를 들어 프리(pre)-엠퍼시스 필터(24)에 의해 획득된 것으로써 그것의 프리-엠퍼시스된 버전과 같은 그것의 몇몇 변형된 버전에 대해 선형 예측 분석을 직접적으로 수행할 수 있다. LP 분석부(12)의 작동의 모드는, 예를 들어, LP 분석될 신호의 윈도윙된 부분들의 시퀀스를 획득하기 위하여 귀항한 신호의 윈도윙과 관련될 수 있고, 각각의 윈도윙된 부분 및 렉 윈도윙의 자기 상관(autocorrelation)을 결정하기 위하여, 선택적으로, 렉 윈도우 함수(lag window function)를 자기 상관에 적용하기 위하여 자기 상관 결정과 관련될 수 있다. 선형 예측 파라미터 추정은 자기 상관들 또는 렉 윈도우 출력, 즉, 윈도윙된 자기 상관 함수들에 수행될 수 있다. 선형 예측 파라미터 추정은, 예를 들어, 각 자기 상관에 대해 즉, LP 분석될 신호의 윈도윙된 각 부분에 대해 선형 예측 계수들을 도출하기 위해서 (렉 윈도윙된) 자기 상관들에 대해 Wiener-Levinson-Durbin 또는 다른 적절한 알고리즘의 수행과 관련될 수 있다. 즉, LP 분석부(12)의 출력에서, LPC 계수들은, 후술하는 바와 같이, 확률 분포 추정부(14) 및, 선택적으로, 스펙트럼 결정부(16)의 사용에 의해, 발생한다. LP 분석부(12)는 데이터 스트림(22)안으로 삽입을 위하여 선형 예측 계수를 양자화할 수 있다. 선형 예측 계수들의 양자화는, 예를 들어, 라인 스펙트럴 쌍 또는 라인 스펙트럴 주파수 도메인에서와 같이, 선형 예측 계수 도메인보다 다른 도메인에서 수행될 수 있다. 양자화된 선형 예측 계수들은 데이터 스트림(22)으로 코딩될 수 있다. 선형 예측 계수 정보는 사실상 확률 분포 추정부(14)에 의해 사용되고, 선택적으로, 스펙트럼 결정부(16)는 양자화 손실을 고려하며, 즉, 데이터 스트림을 통해 손실 없이 전송된 양자화된 버전일 수 있다. 즉, 후자는 사실상 선형 예측 분석부(12)에 의해 획득된 것으로써 선형 예측 계수 정보, 양자화된 선형 예측 계수들로 사용한다. 단지 완전성을 위하여, 선형 예측 분석부(12)에 의한 선형 예측 계수 정보 결정을 수행하는 가능성의 거대한 양이 존재함에 유의한다. 예를 들어, Wiener-Levinson-Durbin 알고리즘과 다른 알고리즘들이 사용될 수 있다. 게다가, LP 분석될 신호의 지역 자기 상관의 추정은 LP 분석할 신호의 스펙트럴 분석에 기반하여 획득될 수 있다. 예를 들어, WO 2012/110476 A1에서, 자기 상관은 LP 분석될 신호를 윈도윙하고, 각각의 윈도윙된 부분에 MDCT를 수행하고, MDCT 스펙트럼 마다 출력 스펙트럼을 결정하며, MDCT 도메인으로부터 자기 상관의 추정으로 이행하기 위한 역 ODFT를 수행함에 의해 획득되는 것으로 설명된다. 요약하면, LP 분석부(12)는 선형 예측 계수 정보를 제공하고, 데이터 스트림(22)은 이러한 선형 예측 계수 정보를 전달하거나 포함한다. 예를 들어, 데이터 스트림(22)은 상술한 윈도윙된 부분 율(portion rate)에 의해 결정된 시간 해상도에서 선형 예측 계수 정보를 전달하고, 윈도윙된 부분들은, 알려진 바와 같이, 예를 들어, 50% 오버랩과 같이, 서로를 오버랩할 수 있다.
프리-엠퍼시스 필터(24)에 관하는 한, 예를 들어, FIR 필터링을 사용하여 구현되는 것과 동일함에 주목된다. 프리-엠퍼시스 필터(24)는, 예를 들어, 고역(high pass) 전달 함수를 가질 수 있다. 실시예에 따르면, 프리-엠퍼시스 필터(24)는, 예를 들어, 0.68로 설정된 α를 가진 H(z) = 1-αz-1 와 같은 n-차 고역 필터로써 구현될 수 있다.
스펙트럼 결정부는 다음에 설명된다. 스펙트럼 결정부(16)는 입력(20)의 오디오 신호에 기반한 복수의 스펙트럴 요소들로 구성된 스펙트럼을 결정한다. 스펙트럼은 오디오 신호를 서술하기 위한 것이다. 선형 예측 분석부(12)와 비슷하게, 스펙트럼 결정부(16)는 오디오 신호(20)에 직접적으로, 또는 예를 들어 그것의 프리-엠퍼시스 필터링된 버전과 같은, 그것의 어떤 변형된 버전에 작동될 수 있다. 스펙트럼 결정부(16)는 스펙트럼을 결정하기 위하여 랩핑된 변환(lapped transform) 또는 비록 다른 가능성 또한 존재하지만 MDCT와 같은 임계적으로 샘플링된(sampled) 랩핑된 변환과 같은 어떠한 변환을 사용할 수 있다. 즉, 스펙트럼 결정부(16)는 윈도윙된 부분들의 시퀀스를 획득하도록 신호가 윈도윙으로 스펙트럴하게 분해되도록 하고, 각각의 윈도윙된 부분에 MDCT와 같은 개별 변환을 수행한다. 상기 스펙트럼 결정부(16)의 윈도윙된 부분율은, 즉, 스펙트럴 분해의 시간 해상도, LP 분석부(12)가 선형 예측 계수 정보를 결정하는 시간 해상도와 다를 수 있다.
그리하여 스펙트럼 결정부(16)는 복수의 스펙트럴 요소들로 구성되는 스펙트럼을 출력한다. 특히, 스펙트럼 결정부(16)는 변환이 수행되는 윈도윙된 부분마다, 스펙트럴 값들의 시퀀스, 즉 예를 들어, 주파수의 스펙트럴 라인마다, 스펙트럴 요소마다 하나의 스펙트럴 값을 출력할 수 있다. 스펙트럴 값들은 복수값이거나 실수값일 수 있다. 스펙트럴 값들은, 예를 들어, MDCT를 사용할 경우 실수값일 수 있다. 특히, 스펙트럴 값들은 부호가 부가될 수 있고, 즉, 부호와 크기의 조합과 동일할 수 있다.
위에 나타난 것처럼, 선형 예측 계수 정보는 LP 분석된 신호의 스펙트럴 포락선의 숏 텀(short term) 예측을 형성하고, 그리하여, 복수의 스펙트럴 요소들의 각각에 대해, 즉, 통계적으로, 각각의 스펙트럴 요소에서 스펙트럼이 어떤 가능한 스펙트럴 값을 가정하고, 가능한 스펙트럴 값들의 도메인에서 달라지는 확률의 추정인 확률 분포 추정을 결정할 수 있다. 상기 결정은 확률 분포 추정부(14)에 의해 수행된다. 다른 가능성들은 확률 분포 추정의 상기 결정의 상세한 설명과 관련하여 존재한다. 예를 들어, 비록 스펙트럼 결정부(16)는 오디오 신호 또는 오디오 신호의 프리-엠퍼시스된 버전의 스펙트로그램(spectrogram)을 결정할 수 있고, 후술할 실시예에 따르면, 스펙트럼 결정부(16)는 스펙트럼으로써, 즉, 오디오 신호 또는 그것의 프리-엠퍼시스 필터링된 버전과 같이 어떤 변형된 버전을 LP-기반 필터링을 함에 의해 획득한 잔차 신호와 같은 여기 신호를 결정할 수 있다. 특히, 스펙트럼 결정부(16)는 예를 들어, 선형 예측 분석 필터인, 선형 예측 계수 정보에 의해 정의된 선형 예측 합성 필터의 역에 의존하거나 동일한 전달 함수를 이용하여 귀항한 신호를 필터링한 후에, 스펙트럼 결정부(16)로 귀항하는 신호의 스펙트럼을 결정한다. 그렇지 않으면, LP-기반 오디오 인코더는 지각 LP-기반 오디오 인코더일 수 있고, 선형 예측 계수 정보에 의해 정의된 선형 예측 합성 필터의 역에 의존하거나 동일한 전달 함수를 사용하여 귀항한 신호를 필터링한 후에, 스펙트럼 결정부(16)는 스펙트럼 결정부(16)로 귀항하는 신호의 스펙트럼을 결정하나, 예를 들어, 마스킹 임계치의 추정의 역에 대응하도록 변경된다. 즉, 스펙트럼 결정부(16)는 지각적으로 변형된 선형 예측 합성 필터의 역에 대응하는 전달 함수를 가지고 필터링된 귀항 신호의 스펙트럼을 결정할 수 있다. 그러한 경우에, 스펙트럼 결정부는 지각 마스킹(perceptual masking)이 더 낮은 스펙트럴 영역에 상대적으로 높은 지각 마스킹의 스펙트럴 영역에서 스펙트럼을 비교적 감소시킨다. 선형 예측 계수 정보의 사용에 의해, 확률 분포 추정부(14)는, 그러나 여전히 스펙트럼 결정부에 의해, 즉 확률 분포 추정을 결정할 때 선형 예측 합성 필터를 고려함에 의해, 결정된 스펙트럼의 포락선을 추정할 수 있다.
더 나아가, 다음에서 더욱 상세히 설명하는 바와 같이, 확률 분포 추정부(14)는 스펙트럴 요소마다 더 좋은 확률 분포 추정을 획득하여 스펙트럼 상에서 미세 구조 정보를 획득하기 위하여 롱 텀 예측을 사용할 수 있다. LTP 파라미터(들)는 예를 들어, 미세 구조 정보의 복구를 위하여 디코딩에 전달된다. 더욱 상세한 설명은 다음과 같다.
어떠한 경우에, 양자화 및 엔트로피 인코딩 스테이지(18)는 확률 분포 추정부(14)에 의한 복수의 스펙트럴 요소들의 각각에 대해 결정되는 확률 분포 추정을 이용하여 스펙트럼을 양자화하고 엔트로피 인코딩한다. 더욱 정확하게는, 양자화 및 엔트로피 인코딩 스테이지(18)는 스펙트럴 요소들(k)로 구성된 스펙트럼(26)을 스펙트럴 결정부(16)로부터 수신하고, 또는 보다 정확하게는, 변환이 수행된 윈도윙된 부분들의 상기한 윈도윙된 부분 율에 대응하는 어떤 시간 율(temporal rate)에서 스펙트럼들(26)의 시퀀스를 수신한다. 특히, 스테이지(18)는 스펙트럴(k)의 스펙트럴 값마다 부호 값(sign value) 및 스펙트럴 요소(k)마다 대응하는 크기 | xk |를 수신할 수 있다.
한편, 양자화 및 엔트로피 인코딩 스테이지(18)는, 스펙트럴 요소(k)마다, 매우 가능한 값을 가진 각각의 스펙트럴 요소(k)에서 스펙트럴 값의 확률을 결정하는 확률 값 추정을 정의하는 확률 분포 추정(치)(28)을 수신할 수 있다. 예를 들어, 확률 분산 추정부(14)에 의해 결정된 확률 분포 추정은 단지 스펙트럴 값들의 크기들에 집중되고, 따라서, 단지 0을 포함하는 양의 값들을 위한 확률 값들을 결정한다. 특히, 양자화 및 엔트로피 인코딩 스테이지(18)는, 예를 들어, 모든 스펙트럴 요소들을 위해 동일한 양자화 룰을 이용하여 스펙트럴 값들을 양자화할 수 있다. 그리하여, 획득된, 스펙트럴 요소들(k)을 위한 크기 레벨들은 따라서, 0에서, 임의로, 어떤 최대값까지 포함하는 정수들의 도메인 위에서 정의된다. 확률 분포 추정은, 스펙트럴 요소(k) 각각을 위하여, 가능한 정수들 i의 이러한 도메인 위에서 정의되고, 즉, p(k, i)는 스펙트럴 요소(k)를 위한 확률 추정치이고, 최대 스펙트럴 요소인 kmax를 가진 정수 k ∈ [0;kmax]를 가진 정수 i ∈ [0;max] 위에서 정의되며, 모든 k, i를 위해 p(k;i) ∈ [0;1]이고, 모든 k를 위해 모든 i ∈ [0;max] 위에서 p(k,i)의 합은 1이 된다.
양자화 및 엔트로피 인코딩 스테이지(18)는, 예를 들어, 모든 스펙트럴 요소들(k)을 위해 동일한 스텝 사이즈를 가진 양자화를 위한 일정한 양자화 스텝 사이즈를 이용할 수 있다. 확률 분포 추정(28)이 더 좋을수록, 양자화 및 엔트로피 인코딩 스테이지(18)에 의해 달성되는 압축 효율은 더 좋다.
사실, 확률 분포 추정부(14)는 LP 분석부(12)에 의해 제공된 선형 예측 계수 정보를 이용하여 스펙트럼(26)의 포락선(30) 또는 대략적 형태에 대한 정보를 얻을 수 있다. 포락선 또는 형태의 이러한 추정(30)을 이용하여, 추정부(14)는, 예를 들어, 모든 스펙트럴 요소들, 포락선을 위해 동일한 공통 스케일 팩터를 이용한 적절한 스케일링에 의해, 각각의 스펙트럴 요소를 위한 분산 측정(32)을 도출할 수 있다. 스펙트럴 요소들(k)에서 이러한 분산 측정들은 각각의 스펙트럴 요소를 위한 확률 분산 추정의 파라미터화하기 위한 파라미터들로 제공한다. 예를 들어, 아래에서 더욱 정확하게 설명할 것과 같이 l은 함수의 "기울기" 또는 "넓이"를 측정하는 함수 매개인 반면에, p(k,i)는 다음과 같이 정의된 것처럼, 고정된 l 의 각각을 위해, 가우시안 또는 라플라스 함수와 같이 단순 함수와 같은 변수 i의 적절한 함수인 f(i,l)를 가지고, 스펙트럴 요소(k)에서 결정된 분산 측정인 l(i)를 가진 모든 k에 대해 p(k,i)는 f(i,l(k))일 수 있다. 파라미터화된 파라미터화들을 이용하여, 양자화 및 엔트로피 인코딩 스테이지(18)는 스펙트럼의 스펙트럴 값들을 효과적으로 데이터 스트림(22)으로 엔트로피 인코딩한다. 상세한 설명이 더욱 상세하게 설명할 바와 같이, 확률 분포 추정(28)의 결정은, 그리고/또는 동일한 스펙트럼(26)의 다른 스펙트럴 요소들의 스펙트럴 값들 사이의 상호 의존성을 요구하지 않고 즉, 동일한 시간 순간에 관련된 다른 스펙트럴 요소들의 스펙트럴 값들로부터 독립하여, 순수하게 분석적으로 수행될 수 있다. 양자화 및 엔트로피 인코딩 스테이지(18)는 따라서 양자화된 스펙트럴 값들 또는 크기 레벨들 각각에 대해, 병렬적으로, 엔트로피 인코딩을 수행할 수 있다. 결국 실제적인 엔트로피 코딩은 산술적인 코딩 또는 가변 길이 부호화 또는 확률 구간 분할 엔트로피 코딩과 같은 엔트로피 코딩의 다른 형태일 수 있다. 사실상, 양자화 및 엔트로피 인코딩 스테이지(18)는 확률 분포 추정(28)에 의해 나타나는 확률이 더 높은 스펙트럴 요소(k)에서 스펙트럴 값의 가능한 값들의 도메인의 부분들내에서 각각의 스펙트럴 요소(k)를 데이터 스트림(22)으로 코딩하기 위한 비트-소모가 더욱 낮아지도록 하는 스펙트럴 요소(k)를 위한 확률 분포 추정(28)을 이용하여 어떤 스펙트럴 요소(k)에서 각각의 스펙트럴 값을 엔트로피 인코딩하고, 확률 분포 추정(28)에 의해 나타나는 확률이 더 낮은 가능한 값들의 도메인의 부분에서 비트-소모가 더 크다. 산술 코딩의 경우에, 예를 들어, 테이블-기반 산술 코딩이 사용될 수 있다. 가변 길이 코딩의 경우에, 코드워드들로 가능한 값들을 매핑한 다른 코드워크 테이블들이 각각의 스펙트럴 요소(k)를 위한 확률 분포 추정부(14)에 의해 결정된 확률 분포 추정(28)에 의존하는 양자화 및 엔트로피 인코딩 스테이지에 의해 선택되고 적용될 수 있다.
도 2는 도 1의 스펙트럼 결정부(16)의 가능한 구현을 나타낸다. 도 2에 따르면, 스펙트럼 결정부(16)는 스케일 팩터 결정부(34), 변환부(36) 및 스펙트럴 형성부(38)를 포함한다. 변환부(36) 및 스펙트럴 형성부(38)는 스펙트럴 결정부(16)가 도 1에서 입력(20)과 양자화 및 엔트로피 인코딩 스테이지(18) 사이에서 연결되는 것을 통하여 스펙트럴 결정부(16)의 입력과 출력 사이에서 서로 연속적으로 연결된다. 스케일 팩터 결정부(34)는, 결국, LP 분석부(12)와 스펙트럴 형성부(38)의 추가적 입력 상에서 연결된다 (도 1을 보라).
스케일 팩터 결정부(34)는 스케일 팩터들을 결정하도록 선형 예측 계수 정보를 사용한다. 변환부(36)는 원본 스펙트럼을 얻기 위해서, 수신한 신호를 동일하게 분해한다. 상술한 바와 같이, 귀항한 신호는 입력(20), 또는 예를 들어, 프리-엠퍼시스된 버전에서, 원본 오디오 신호일 수 있다. 위에서 이미 설명한 바와 같이, 변환부(36)는, 각각의 윈도윙된 부분을 변환하는 동안에, 오버랩핑 부분들을 이용하여, 신호가 윈도윙, 부분이 되게(portion-wise) 내부적으로 변환시킬 수 있다. 위에서 이미 나타낸 바와 같이, MDCT는 변환을 위해 사용될 수 있다. 즉, 변환부(36)는 스펙트럴 요소(k)마다 하나의 스펙트럴 값(
Figure 112015007181175-pct00001
)을 출력하고, 스펙트럴 형성부(38)는 스케일 팩터들을 사용하여 스펙트럼을 스케일링함에 의해, 즉, 스케일 팩터 결정부(34)에 의해 출력되는 스케일 팩터들(sk)을 사용하여 각각의 원본 스펙트럴 값(
Figure 112015007181175-pct00002
)을 스케일링함에 의해 이러한 원본 스펙트럼을 스펙트럴하게 형성하여 각각의 스펙트럴 값(xk)을 획득하고, 도 1의 스테이지(18)에서 양자화 및 엔트로피 인코딩이 수행되도록 한다.
스케일 팩터 결정부(34)가 스케일 팩터들을 결정하는데 있어 스펙트럴 해상도는 스펙트럴 요소(k)에 의해 정의된 해상도와 필수적으로 일치할 필요가 없다. 예를 들어, 스펙트럴 요소들을 바크 밴드들(bark bands)과 같은 스펙트럴 그룹들로 지각적으로 동기 그룹핑하는 것은 즉, 변환부(36)에 의해 출력되는 스펙트럼의 스펙트럴 값들이 가중됨에 의한 스펙트럴 가중치들이 결정되는, 스펙트럴 팩터들에서 스펙트럴 해상도를 형성할 수 있다.
스케일 팩터 결정부(34)는 선형 예측 계수 정보에 의해 정의된 선형 예측 합성 필터의 역(inverse)에 의존하는 전달 함수를, 동일하게 나타내도록, 또는 대략적으로, 스케일 팩터들을 결정한다. 예를 들어, 스케일 팩터 결정부(34)는 데이터 스트림(22)을 통해 디코딩 측에서 또한 사용가능한 그들의 양자화된 형태에서 LP 분석부(12)로부터 획득한 것으로써, 결국 ODFT에 연관된 LPC로부터 MDCT로의 변환에 기초하여, 선형 예측 계수들을 사용한다. 당연히, 대안들 또한 존재한다. 도 1의 오디오 인코더가 지각적인 선형 예측 기반 오디오 인코더라는 상술한 대안들의 경우에서, 스케일 팩터 결정부(34)는, 예를 들어, ODFT를 이용하여, 스펙트럴 팩터들로의 전환을 수행하기 전에 LPC들의 첫 번째의 지각적으로 동기화된 가중화를 수행할 수 있다. 그러나, 다른 기능성 또한 존재할 수 있다. 아래에서 더욱 상세하게 설명하는 바와 같이, 스펙트럴 형성부(38)에 의한 스펙트럴 스케일링으로부터 기인한 필터링의 전달 함수는, 스케일 팩터 결정부(34)에 의해 수행된 스케일 팩터 결정을 통하여, 선형 예측 계수 정보에 의해 정의된 선형 예측 합성 필터(1/A(z))의 역(inverse)에 의존하여 전달 함수는 1/A(k·z)의 전달 함수의 역이 되고, k는, 예를 들어, 0.92인 상수로 나타날 수 있다.
다른 한편에서 스펙트럼 결정부의 기능성과 다른 한편에서 확률 분포 추정부(14) 사이의 상호 관계 및 지각 선형 예측 기반 오디오 인코더로써 동작하는 선형 예측 기반 오디오 인코더의 경우에서 양자화 및 엔트로피 인코딩 스테이지(18)의 효과적인 작동을 이끄는 이러한 관계의 방식을 보다 잘 이해하기 위해서, 도 3a 및 3b가 참조된다. 도 3a는 원본 스펙트럼(40)을 나타낸다. 여기서, 그것은 프리-엠퍼시스 필터의 전달 함수에 의해 가중된 오디오 신호의 스펙트럼을 예시적으로 나타낸다. 보다 상세하게는, 도 3a는 스펙트럴 요소들 또는 스펙트럴 라인들(k) 위에 표시되는 스펙트럼(40)의 크기를 나타낸다. 동일한 그래프에서, 도 3a는 선형 예측 합성 필터(A(z))의 전달 함수를 프리-엠퍼시스 필터의 24 함수에 곱한 것을 나타내고, 이는 42로 결과되어 나타난다. 아는 바와 같이, 함수(42)는 스펙트럼(40)의 포락선 또는 거친 형상에 근사한다. 도 3a에서, 선형 예측 합성 필터의 지각적으로 동기화된 변형이 상술한 경우에서 A(0.92z)와 같이 나타난다. 이러한 "지각 모델"은 참조 부호 44로 나타난다. 함수(44)는 그리하여 적어도 스펙트럴 폐색들을 고려함에 의한 오디오 신호의 마스킹 임계치의 단순화된 추정을 나타낸다. 스펙트럴 팩터 결정부(34)는 지각 모델(44)의 역에 근사하도록 스케일 팩터들을 결정한다. 도 3a의 함수들(40에서 44)를 지각 모델(44)에 곱한 결과는 도 3b에 나타난다. 예를 들어, (46)은 스펙트럼(40)을 (44)의 역에 곱한 결과를 나타내고, 이리하여 상술한 지각 선형 예측 기반 인코더로써 동작하는 인코더(10)의 경우에서 스펙트럴 형성부(38)에 의해 출력되는 것으로써 지각적으로 가중된 스펙트럼에 대응한다. 함수(44)를 일정한 함수에서 동일한 결과들의 역에 곱함으로써, 도출되는 결과는 도 3b에서 50으로 도시된다.
확률 분포 추정부(14)로 돌아가서, 또한 상술한 바와 같이 선형 예측 계수 정보에 동일하게 접근한다. 추정부(14)는 그리하여 함수(42)를 함수(44)의 역에 곱함에 의해 함수(48)을 계산할 수 있다. 이러한 함수(48)는 스펙트럴 형성부(38)에 의한 출력으로써 프리(pre)-필터링된(46) 포락선 또는 거친 형상의 추정으로써 제공한다.
따라서, 확률 분포 추정부(14)는 도 4에서 도시되는 바와 같이 동작할 수 있다. 특히, 확률 분포 추정부(14)는 선형 예측 합성 필터(1/A(z))를 정의하는 선형 예측 계수를 지각 가중(64)에 수행하여 지각적으로 변형된 선형 예측 합성 필터(1/A(k·z))에 동일하게 대응하도록 한다. 모두, 가중된 것들뿐 아니라 가중되지 않은 선형 예측 계수들은 LPC를 스펙트럴 가중 전환(60, 62) 각각에 수행하게 하고, 그 결과는, 스펙트럴 요소마다, 분할된다. 결과인 몫은 스펙트럴 요소들(k)을 위한 몫들이 개별적으로, 즉, 각각의 k를 위하여, 어떤 매핑 함수에 종속되는 어떤 파라미터 도출(68)에 선택적으로 종속되어, 예를 들어, 확률 분포 추정의 분산을 위한 측정을 나타내는 확률 분포 파라미터를 산출한다. 더욱 상세하게는, 가중되지 않은 및 가중된 선형 예측 계수들에 적용되는, LPC에서 스펙트럴 가중 전환들(60, 62)은 스펙트럴 요소(k)를 위한 스펙트럴 가중치들(sk
Figure 112015007181175-pct00003
)로 결과된다. 전환들(60, 62)은, 이미 위에서 나타낸 것처럼, 스펙트럴 요소들(k) 자체에 의해 정의된 스펙트럴 해상도보다 더 낮은 스펙트럴 해상도에서 수행되나, 보간은, 예를 들어, 스펙트럴 요소(k) 상에서 결과된 몫(qk)을 부드럽게 하기 위해 사용된다. 파라미터 도출은, 예를 들어, 모든 k를 위한 공통 스케일링 팩터를 이용하여 모든 qk를 스케일링함에 의해 스펙트럴 요소마다 확률 분포 파라미터(πk)를 결과로 낸다. 양자화 및 엔트로피 인코딩 스테이지(18)는 그리하여 양자화의 스펙트럴하게 형성된 스펙트럼을 효과적으로 엔트로피 인코딩하기 위해 이러한 확률 분포 파라미터들(πk)을 사용할 수 있다. 특히, πk는 포락선 스펙트럼 값(xk) 또는 적어도 그것의 크기의 확률 분포 추정의 분산을 위한 측정치로써, 상술한 f(i,l(k))와 같은 파라미터화 가능한 함수는, 각각의 스펙트럴 요소(k)에 대해, l(k)와 같은 파라미터화 가능한 함수를 위한 설정으로써 πk를 사용함에 의해 확률 분포 추정(28)을 결정하기 위해 양자화 및 엔트로피 인코딩 스테이지(18)에 의해 사용될 수 있다. 바람직하게, 파라미터화 가능한 함수의 파라미터화는 확률 분포 파라미터, 즉, l(k)이 확률 분포 추정의 분산을 위한 실제 측정치이고, 즉, 확률 분포 파라미터는 확률 분포 파라미터화 가능한 함수의 폭을 측정한다. 다음에 설명하는 실시예에서, 라플라스 분포는 파라미터화 가능한 함수, 즉, f(i,l(k))로써 사용된다.
도 1를 참조하면, 확률 분포 추정부(14)는 LPC 정보에 기반하여 단지 제공되는 품질과 비교하여 개별 스펙트럴 요소들을 위한 확률 분포 추정(28)의 품질을 디코딩 측에서 증가시키는 정보를 데이터 스트림(22)에 추가적으로 삽입한다. 특히, 다음에서 더욱 상세하게 설명한 실시예에 따르면, 확률 분산 추정부(14)는, 지각 모델의 역 또는 선형 예측 합성 필터의 역에 상응하는 변환 함수를 가진 필터링으로부터의 스펙트럼과 같은 변환 코딩된 여기(excitation)를 나타내는 스펙트럼(26)의 경우에 있어서, 스펙트럼(26)의 포락선 또는 형상의 스펙트럴하게 더 미세한 추정(30)을 획득하기 위하여 롱 텀 예측을 사용할 수 있다.
예를 들어, 도 5 (a) 내지 5 (c)를 참조하면, 확률 분포 추정부(14)의 선택적인 기능을 설명한다. 도 3a와 같이, 도 5 (a)는 원본 오디오 신호 스펙트럼(40)과 프리-엠퍼시스를 포함하는 LPC 모델((A(z))를 나타낸다. 즉, 우리는 원본 신호(40)와 프리-엠퍼시스를 포함하는 그것의 LPC 포락선(42)을 가진다. 도 5 (b)는, 확률 분포 추정부(14)에 의해 수행된 LTP 분석의 출력의 예로써, LTP 빗형-필터(comb-filter)를 보여주고, 여기서 빗-형 필터(70)는, 예를 들어, 빗형-함수(comb-function)(70)의 피크들사이의 피치 또는 거리(즉, c)를 정의하는 파라미터 LTP 렉(lag)과 골-마루 사이(valley-to-peak)를 설명하는 LTP 이득 값에 의해 파라미터화되는 스펙트럴 요소들(k) 상의 빗형-함수이다. 확률 분포 추정부(14)는, 실제 스펙트럼(26)을 더욱 면밀하게 추정하는 스펙트럼(26)의 추정(30)에 기반한 선형 예측 계수를 LTP 빗형 함수(70)에 곱하기 위하여 상술한 LTP를 결정할 수 있다. LPC 모델(42)을 LTP 빗형 함수(70)에 곱하는 것은 도 5 (c)에 예시적으로 나타나고, 그것은 LTP 빗형 함수(70)와 LPC 모델(42)의 곱(72)이 스펙트럼(40)의 실제 형상을 더욱 면밀하게 근사하는 것을 보여준다.
확률 분포 추정부(14)의 LTP 기능성이 지각 도메인의 사용과 결합하는 경우에 있어서, 확률 분포 추정부(14)는 도 6에서 보여지는 바와 같이 동작할 수 있다. 동작의 모드는 거의 도 4에서 보여진 것과 일치한다. 선형 예측 합성 필터(1/A(z))를 정의하는 LPC 계수들은 LPC에 대해, 즉, 지각적으로 가중한 (64)후에 한번 직접적으로 그리고 다른 시간에, 스펙트럴 가중 전환(60, 62)시킨다. 결과된 스케일 팩터들은 분할(66)이 수행되고, 결과된 몫(qk)은, 확률 분포 추정부(14)에 의해 적절하게 결정되고 디코딩 측에 대한 접근을 위한 데이터 스트림(22)에 삽입된 LTP 빗형 함수(70), LTP 이득 파라미터들 및 LTP 렉을 가진 곱셈기(47)를 이용하여 곱해진다. 스펙트럴 요소(k)에서 빗형 함수를 나타내는 lk를 가진 결과 lk · qk 확률 분포 파라미터 도출(68)이 수행되어 확률 분포 파라미터(pk)를 산출한다. 디코딩 측의 다음의 설명에 주목하면, 그 중에서, 확률 분포 추정의 디코더 측의 기능에 대한 도 6에 참조한다. 이것과 관련하여, 디코딩 측은 단지 데이터 스트림으로부터 LTP 파라미터들을 읽어야 하는데 반하여, 인코더 측에서 LTP 파라미터(들)은 최적화의 방식에 의해 결정되고, 데이터 스트림(22)에 삽입된다.
도 1 내지 6과 관련하여 선형 예측 기반 오디오 인코더를 위한 다양한 실시예를 설명한 후에, 다음에서 디코딩 측에 집중한다. 도 7은 선형 예측 기반 오디오 디코더(100)를 위한 실시예를 나타낸다. 그것은 확률 분포 추정부(102)와 엔트로피 디코딩 및 역양자화 스테이지를 포함한다. 선형 예측 기반 오디오 디코더는 데이터 스트림(22)에 접근하고, 확률 분포 추정부(102)가, 복수의 스펙트럴 요소들(k) 각각에 대해, 데이터 스트림(22)에 포함된 선형 예측 계수 정보로부터 확률 분포 추정(28)을 결정하는 동안에, 엔트로피 디코딩 및 역양자화 스테이지(104)는, 확률 분포 추정부(102)에 의한 복수의 스펙트럴 요소들(k) 각각에 대해 결정된 확률 분포 추정을 이용하여 스펙트럼(26) 형태 데이터 스트림(22)을 엔트로피 디코딩 및 역양자화한다. 즉, 확률 분포 추정부(102)와 엔트로피 디코딩 및 역양자화 스테이지(104)는 데이터 스트림(22)에 접근하고, 확률 분포 추정부(102)는 엔트로피 디코딩 및 역양자화 스테이지(104)의 입력과 연결된 출력을 가진다. 후자의 출력에서, 스펙트럼(26)이 획득된다.
일반적으로, 엔트로피 디코딩 및 역양자화 스테이지(104)에 의해 출력된 스펙트럼은 본 발명에 따르면 추가적인 처리가 수행될 수 있다. 디코더 (100)의 출력은, 예를 들어, 스피커를 이용하여 재생되도록 시간 영역에서, 데이터 스트림(22)으로 인코딩된 오디오 신호로, 반드시 필요로 하지는 않는다. 오히려, 선형 예측 기반 오디오 디코더(100)는, 예를 들어, 회의 시스템의 믹서, 다중-채널 또는 다중-객체 디코더 또는 이와 이유한 것의 입력에 접속(interface)하고, 이러한 접속(interfacing)은 스펙트럴 도메인에 존재한다. 그렇지 않으면, 스펙트럼 또는 그것의 포스트(post)-프로세싱된 버전은, 다음에서 설명되는 오버랩/가산 과정을 이용한 역변환과 같은 스펙트럴 분해 전환에 의한 스펙트럼에서 시간으로의 전환이 수행된다.
확률 분포 추정부(102)는 인코딩 측에서의 확률 분포 추정부(14)로써 동일한 LPC 정보에 접근하고, 확률 분포 추정부(102)는, 예를 들어, 인코딩 측에서 추가적인 LTP 파라미터의 결정, 즉 데이터 스트림(22)을 통해 디코딩 측으로 신호화된 결정의 결과를 제외하고 인코딩 측에서의 대응하는 추정부와 동일하게 작동한다. 엔트로피 디코딩 및 역양자화 스테이지(104)는, 데이터 스트림(22)으로부터 크기 레벨들과 같은, 스펙트럼(62)의 스펙트럴 값들을 엔트로피 디코딩하는데 있어 확률 분포 추정을 이용하고, 스펙트럼(26)을 얻기 위해 모든 스펙트럴 요소들을 위해 동일하게 역양자화된다. 엔트로피 코딩을 구현하기 위한 다양한 가능성에 대해서, 엔트로피 인코딩에 대한 설명을 참조할 수 있다. 더 나아가, 동일한 양자화 룰이 인코딩 측에서 사용된 것과 역 방향으로 적용되어 엔트로피 코딩 및 양자화에 관한 상술한 설명이 디코더를 위한 실시예에 상응하게 대체될 수 있다. 즉, 예를 들어, 엔트로피 디코딩 및 역양자화 스테이지는 크기 레벨들을 위한 일정한 양자화 스텝 사이즈를 사용할 수 있고, 예를 들어, 산술 디코딩을 사용할 수 있다.
이미 상술한 바와 같이, 스펙트럼(26)은 변환 코딩 여기를 표현할 수 있고, 따라서, 도 8는 선형 예측 기반 오디오 디코더가 LPC 정보 및 데이터 스트림(22)에 접근하는 필터(106)를 추가적으로 포함하고, 그것의 출력에서 포스트-필터링되고/복원된 오디오 신호의 스펙트럼을 출력하고 스펙트럼을 수신하도록 엔트로피 디코딩 및 역양자화 스테이지(104)의 출력과 연결되는 것을 나타낸다. 특히, 필터(106)는 선형 예측 계수 정보에 의해 정의된 선형 예측 합성 필터에 의존하는 전달 함수에 따른 스펙트럼(26)을 형성하도록 한다. 보다 상세하게는, 필터(106)는, 스테이지(104)로부터 스펙트럼을 수신하고 포스트-필터링된 신호, 즉 복원된 오디오 신호를 출력하는 스펙트럴 형성부(38)와 함께, 스케일 팩터 결정부(34) 및 스펙트럴 형성부(38)의 연속에 의해 구현될 수 있다. 단지 차이점은 필터(106) 내에서 수행된 스케일링이 인코딩 측에서의 스펙트럴 형성부(38)에 의해 수행되는 스케일링의 역일 수 있으며, 즉, 인코딩 측에서의 스펙트럴 형성부(38)는, 예를 들어, 스케일 팩터들을 이용한 곱셈을 수행하고, 필터(106)에서 스케일 팩터들에 의한 나누기가 수행되거나 그 반대가 될 수 있다.
후자의 상황은 도 9에서 보여지고, 도 8의 필터(106)를 위한 실시예를 나타낸다. 보는 바와 같이, 필터(108)는, 예를 들어, 도 2에서의 스케일 팩터 결정부(34)와 같이 작동하는 스케일 팩터 결정부(110)를 포함하고, 상술한 바와 같은 스펙트럴 형성부(112)는, 스펙트럴 형성부(38)에 역으로 비례하는, 귀항한 스펙트럼에 스케일 팩터 결정부(110)를 위한 스케일 팩터들을 적용한다.
도 9는 필터(106)가 역변환부(114), 오버랩 가산부(116) 및 디-앰퍼시스 필터(118)를 더 포함하는 예시를 설명한다. 후자의 요소(114 내지 118)는, 그들이 언급 순서에서 스펙트럴 형성부(112)의 출력에 연속하여 연결될 수 있고, 여기서, 디(de)-엠퍼시스 필터(118) 또는 오버랩/가산부(116) 및 디-엠퍼서스 필터(118)가, 다른 대안에 따라, 멀리 떨어져 있을 수 있다.
디-엠퍼시스 필터(118)는 도 1에서 필터(24)의 프리-엠퍼시스 필터링의 역을 수행하고, 오버랩/가산부(116)는, 기술 분야에서 알려진 바와 같이, 임계적으로 샘플링된(sampled) 랩핑된 변환을 하는 역변환부(114)에서 사용되는 역변환의 경우에서 에일리어싱 제거의 결과를 야기할 수 있다. 예를 들어, 역변환부(114)는 이러한 스펙트럼들이 데이터 스트림(22)에서 코딩되는데 있어 시간 비율로 스펙트럴 형성부(112)로부터 수신한 각각의 스펙트럼(26)이 역변환되도록 하고, 이를 통하여 결국 시간-도메인 신호 버전을 야기하도록 오버랩/가산부(116)에 의해 오버랩-가산된 윈도윙된 부분들을 얻을 수 있다. 디-엠퍼시스 필터(118)는, 프리-엠퍼시스 필터(24)와 같이, FIR 필터로써 구현될 수 있다.
도면들에 대하여 본 발명의 실시예를 설명한 후에, 다음에서 본 발명의 실시예의 수학적 설명을 도 10 및 11에 상응한 설명과 함께 제공한다. 특히, 아래의 설명된 실시예들에서, 결과된 빈들(bins) 시퀀스의 빈들을 이진 산술 코딩과 함께 스펙트럼의 스펙트럴 값들의 단항 이진화(unary binarization)하는 것이 스펙트럼을 코딩하는데 사용하는 것으로 가정한다.
특히, 아래의 상세한 설명에서, 상술한 실시예들로 이동하는 것이 가능함이 이해되고, 프레임 길이 즉, 스펙트럼(26)이 데이터 스트림(22) 내에서 업데이트되는데 있어 프레임 길이가 320 샘플들일 때, 스펙트럼 율(spectrum rate)이 256 샘플들이고 80 밴드들일 경우에 64 밴드들에서 포락선(30) 구조를 계산하는 것으로 결정할 수 있다.
만약 LPC 모델이 A(z)이라면, 그리하여 가중된 LPC는, 예를 들어, γ = 0.92인 A(γz)이고, 필터(24)의 연관된 프리-엠퍼시스 항이 (1 - 0.68z-1)이며, 예를 들어, 여기서, 상수들이 발명에 기반하여 가변할 수 있다. 포락선(30) 및 지각 도메인은 수학식 1이다.
Figure 112015007181175-pct00004
그리하여, 수학식 1에 의해 정의된 필터의 전달 함수는 도 3b에서 함수(48)에 상응하고, 디바이더(66)의 출력에서 도 4 및 6에서 계산의 결과이다.
도 4 및 6은 도 7에서의 확률 분포 추정부(14) 및 확률 분포 추정부(102) 모두의 작동 모드를 나타낸다. 게다가, 사용되어진 프리-엠퍼시스 필터(24) 및 디-엠퍼시스 필터(118)의 경우에, LPC에서 스펙트럴 가중 전환(60)은 프리-엠퍼시스 필터를 고려하여, 마지막에, 합성 필터와 프리-엠퍼시스 필터의 전달 함수들의 결과를 나타낸다.
어떤 경우에, 수학식 1에 의해 정의된 필터의 시간-주파수 변환은, 최종 포락선이 입력 신호의 스펙트럴 표현에 주파수-조정되도록 계산될 수 있다. 게다가, 확률 분포 추정부는 포락선의 절대 크기 또는 수학식 1의 필터의 전달 함수를 계산할 수 있음에 다시 주목한다. 이러한 경우, 위상 요소는 버려질 수 있다.
개별 라인들이 아니라 스펙트럴 밴드들에 대한 포락선을 계산하는 경우에, 스펙트럴 라인들에 적용된 포락선은 스텝-와이즈(step-wise)로 계속될 것이다. 더욱 계속되는 포락선을 얻기 위하여 포락선을 보간하거나 부드럽게 하는 것이 가능하다. 그러나, 스텝-와이즈로 계속된 스펙트럴 밴드들은 계산적 복잡도에서 감소를 제공하는 것이 관찰된다. 그리하여, 이것은 정확성과 복잡도 사이의 균형이다.
전에 언급한 바와 같이, LTP는 더 상세한 포락선을 추론하기 위해 사용될 수 있다. 조화 정보(harmonic information)를 포락선 형상에 적용하는 주요한 도전들의 몇몇은 다음과 같다.
1) LTP 렉 및 LTP 이득과 같은 LTP 정보의 정확성과 그 인코딩을 선택하라. 예를 들어, ACELP에서 같이 동일한 인코딩이 사용될 수 있다.
2) LTP는 주파수 도메인에서 빗형-필터에 상응할 수 있다. 그러나, 본 발명에 따른 상술한 실시예들 또는 다른 실시예들은 LTP로써 동일한 형상의 빗형-필터의 사용을 제한하지 않는다. 다른 함수들 또한 사용될 수 있다.
3) LTP의 빗형-필터 형상에 추가적으로, 다른 주파수 영역들에서 LTP를 다르게 적용하는 것을 선택 가능하다. 예를 들어, 하모닉 피크들(harmonic peaks)은 낮은 주파수들에서 일반적으로 더 현저하다. 그리하여 높은 주파수들보다 더 높은 진폭을 가진 낮은 주파수에서 조화 모델(harmonic model)을 적용하는 것을 이해할 수 있다.
4) 상기한 바와 같이, 포락선 형상은 밴드-와이즈(band-wise)로 계산된다. 그러나, LTP에서 빗형-필터는 밴드-와이즈로 추정된 포락선 값들이 가진 것보다 훨씬 더 자세한 구조 및 주파수를 가지는 것이 확실할 것이다. 조화 모델의 구현에서, 그것은 계산적 복잡도를 감소시키는데 유리하다.
상술한 실시예들에서, 스펙트럴 요소들(k)에서 개별적 라인들 또는 더욱 상세하게는 스펙트럼(26)의 크기들이 라플라스-분포, 즉, 부호를 지닌 지수 함수에 따라 분포된다는 가정이 사용될 수 있다. 즉, 상술한 f(i,l(k))는 라플라스 함수일 수 있다. 스펙트럴 요소(k)에서 스펙트럼(26)의 부호는 항상 1비트로 인코딩될 수 있기 때문에, 부호들 모두의 확률은 안전하게 0.5로 가정될 수 있고, 그리하여 부호는 항상 분리되어 인코딩될 수 있으며, 우리는 단지 지수 함수를 고려하는 것이 필요하다.
일반적으로, 어떤 선행하는 정보없이 어떤 분포를 위한 첫 번째 선택은 정상 분포일 수 있다. 지수 함수는, 그러나, 정상 분포보다 0에 가까운 훨씬 더 큰 확률량을 가지고, 그리하여 그것은 정상 분포보다 더 희박한 신호(sparse signal)를 설명한다. 시간-주파수 변환들의 주요한 목적들 중 하나가 희박한 신호를 달성하는데 있기 때문에, 희박한 신호들은 설명하는 확률 분포는 잘 보증된다. 추가적으로, 지수 함수는 또한 산술적 형태에서 쉽게 다룰 수 있는 방정식을 제공한다. 이러한 두 개의 논의는 지수 분포의 사용의 기초를 제공한다. 다음의 도출들은 자연적으로 다른 분포들을 위해 쉽게 변형될 수 있다.
지수적으로 분포된 변수 x는 다음의 확률 밀도 함수(x ≥ 0)를 가진다.
Figure 112015007181175-pct00005
그리고, 누적 분포 함수는 다음의 수학식이다.
Figure 112015007181175-pct00006
지수적 변수의 엔트로피는 1 - ln(λ)이고, 부호를 포함하여, 그것에 의해 단일 라인의 예상되는 비트-소모는 log2(2eλ)이다. 그러나, 이것은 단지 λ가 큰 경우에 디스크리트(discreet)한 변수들을 가진 이론적인 값이다.
실제 비티-소모는 시뮬레이션들에 의해 추정될 수 있으나, 정확한 분석 공식은 이용할 수 없다. 대략적인 비트-소모는, λ > 0.08에 대해서 log2(2eλ + 0.15 + 0.035/ λ)이다.
즉, 인코딩 및 디코딩 측에서 확률 분포 추정부를 가진 상술한 실시예들은 확률 분포 추정을 결정하기 위한 파라미터화 가능한 함수로써 라플라스 분포를 사용할 수 있다. 라플라스 분포의 스케일 파라미터 λ는 상술한 확률 분포 파라미터 즉, πk로써 제공할 수 있다.
다음으로, 포락선 스케일링을 수행하기 위한 가능성이 설명된다. 하나의 기법은 원하는 레벨에 충분히 가까워질 때까지 스케일링을 위한 첫 번째 추측을 마스킹(masking)하는 것, 그것의 비트-소모를 계산하는 것 및 스케일링을 반복적으로 개선하는 것에 기반한다. 다시 말해, 인코딩 및 디코딩 측에서 상술한 확률 분포 추정부들은 다음의 단계들을 수행할 수 있다.
위치 k를 위한 포락선 값을 fk라 하자. 그리하여 평균 포락선 값은
Figure 112015007181175-pct00007
이고 여기서 N은 스펙트럴 라인들의 개수다. 만약 원하는 비트-소모가 b라면,
Figure 112015007181175-pct00008
로부터 첫 번째-추측 스케일링 g0은 쉽게 풀릴 수 있다.
반복 k를 위한 그리고 스케일링 gk를 가진 추정된 비트-소모 bk는 다음과 같다.
Figure 112015007181175-pct00009
대수 연산(logarithm operation)은 계산적으로 복잡하여, 우리는 대신 다음과 같이 계산할 수 있다.
Figure 112015007181175-pct00010
비록 결과 항이 매우 큰 숫자이고, 고정 소수점에서의 그것의 계산이 많은 어드미니스트레이션을 요구하더라도, 그것은 여전히 log2() 연산의 큰 수보다 덜 복잡하다.
복잡도를 더 줄이기 위하여, 우리는 log2(2e·λ)에 의해 비트 소모를 추정할 수 있고, 그것에 의해 전체 비트 소모는
Figure 112015007181175-pct00011
이다. 이러한 방정식으로부터, 스케일링 계수 g는 분석적으로 쉽게 풀릴 수 있고, 그것에 의해 포락선-스케일링 반복이 요구되지 않는다.
일반적으로, 분석적 형태는 수학식 5로부터 gk를 풀기 위해 존재하지 않고, 그것에 의해 반복적 방법이 사용되어야 한다. 만약 이분 검색이 사용된다면, 그리하여 b0 < b이면, 초기 스텝 사이즈는
Figure 112015007181175-pct00012
이고, 그렇지 않으면 스텝 사이즈는
Figure 112015007181175-pct00013
이다. 이러한 접근에 의해 이등 검색은 5-6 반복에 의해 일반적으로 수렴한다.
포락선은 디코더뿐 아니라 인코더에서 동일하게 스케일링되어야 한다. 확률 분포는 포락선으로부터 도출되기 때문에, 심지어 인코더 및 디코더에서 스케일링에서의 1-비트 차이는 산술적 디코더에 랜덤 출력을 생산하도록 야기할 수 있다. 그리하여, 구현들이 정확하게 동일하게 모든 플랫폼들에서 작동하는 것이 매우 중요하다. 실제로, 이것은 알고리즘이 정수 및 고정 소수점 연산을 구현하는데 필요하다.
비트-소모의 기대가 원하는 레벨과 동일하게 되도록 포락선이 이미 스케일링됨에 반하여, 실제 스펙트럴 라인들은 일반적으로 스케일링 없이 비트-예산에 매칭되지 않을 것이다. 신호의 변화가 포락선의 변화와 매칭되도록 신호가 스케일링되더라도, 그 샘플 분포는 모델 분포로부터 변함없이 다를 것이고, 그것에 의해 원하는 비트-소모에 도달하지 못한다. 그리하여 신호가 양자화되고 코딩될 때, 마지막 비트-소모가 원하는 레벨에 도달하도록 신호를 스케일링하는 것이 필수적이다. 이것은 반복적 방법(분석적 솔루션이 존재하지 않는)에서 수행되어야 하기 때문에, 그 과정은 레이트-루프(rate-loop)로써 알려져 있다.
우리는 포락선 및 스케일링된 신호의 변화가 매칭되도록 첫 번째-추측 스케일링에 의해 시작하는 것을 선택하였다. 동시에, 우리는 우리의 확률 모델에 따라 가장 작은 확률을 가진 스펙트럴 라인을 발견할 수 있다. 가장 작은 확률 값은 기계-정밀도(machine-precision) 미만이 아니라는 것에 주의해야 한다. 이것은 그리하여 레이트-루프에서 추정될 스케일링 팩터 상의 제한을 설정한다.
레이트-루프를 위해, 우리는 다시 이분 검색을 활용하고, 이리하여 스텝 사이즈는 초기 스케일 팩터의 반에서 시작한다. 그리하여 비트-소모는 모든 스펙트럴 라인들의 합으로써 각각의 반복으로 계산되고, 양자화 정확도는 우리가 비트-예산에 얼마나 가까운지에 따라 업데이트된다.
각각의 반복에서, 신호는 최근 스케일링과 함께 첫 번째 양자화된다. 두 번째로, 각각의 라인은 산술 코더를 가지고 코딩된다. 확률 모델에 따르면, 라인 xk가 0으로 양자화될 확률은 p(xk = 0) = 1 - exp(.5/fk)이고, 여기서 fk는 포락선 값(=스펙트럴 라인의 기준 도출)이다. 이와 같은 라인의 비트-소모는 자연적으로 -log2 p(xk = 0)이다. 0아닌 값 xk는 확률 p(| xk | = q) = exp((q + .5)/fk) - exp((q - .5)/fk)를 가진다. 그 크기는 log2(p(| xk | = q)) 비트로 인코딩되고, 부호를 위해 1비트가 추가된다.
이러한 방식으로, 전체 스펙트럼의 비트-소모가 계산될 수 있다. 추가적으로, 우리는 모든 라인들(k > K)이 0이 되도록 제한 K를 설명할 수 있다. 그리하여 K 첫 번째 라인들을 인코딩하기에 충분하다. 만약 K 첫 번째 라인들이 디코딩된다면, 디코더는 연역할 수 있으나, 추가적인 비트들이 활용되지 않으며, 그리하여 남은 라인들은 모두 0이 되어야 한다. 그리하여 제한 K를 전송하는 것이 필수적이지 않으나 비트스트림으로부터 연역할 수 있다. 이러한 방식에서, 우리는 0인 라인들을 인코딩하는 것을 피할 수 있고, 그것에 의해 비트들을 아낄 수 있다. 스펙트럼의 윗 부분이 0으로 양자화되는 경우가 종종 발생하는 스피치 및 오디오 신호들을 위해, 가능한 한, 낮은 주파수들로부터 시작하는 것이 유리하고, 첫 번째 K 라인들을 위해 모든 비트들을 사용하는 것이 유리하다.
포락선 값들 fk는 밴드 내에서 동일하기 때문에, 우리는 밴드 안의 모든 라인을 위해 필요한 미리-계산된 갑들에 의해 복잡도를 쉽게 줄일 수 있다. 특히, 인코딩 라인들에서 항 exp(.5/fk)는 항상 필요하고, 그것은 모든 밴드 내에서 동일하다. 게다가, 이러한 값은 레이트-루프 내에서 바뀌지 않고, 그것에 의해 그것은 레이트-루프 바깥에서 계산될 수 있고, 동일한 값이 마지막 양자화를 위해 또한 사용될 수 있다.
게다가, 라인의 비트-소모가 확률의 log2()이기 때문에, 우리는 로그의 합을 계산하는 대신에, 결과의 로그를 계산할 수 있다. 이러한 방식은 다시 복잡도를 아낀다. 추가적으로, 레이트-루프는 인코더-만의(encoder-only) 특징이고, 네이티브 부동 소수점 연산이 고정 소수점을 대신하여 사용될 수 있다.
상기를 참조하여 도 10을 참조하면, 도면들에 대해 상술한 인코더에부터 세부-부분(sub-portion)을 나타내고, 부분은 상술한 포락선 스케일링 및 실시예에 따른 레이트 루프를 수행할 수 있다. 특히, 도 10은 한편으로 양자화 및 엔트로피 인코딩 스테이지(18)를 및 다른 한편으로 확률 분포 추정부(14)를 나타낸다. 단항 이진화 이진부(130)는 스펙트럴 요소들(k)에서 스펙트럼(26)의 스펙트럴 값들(xk)의 크기들에 단항 이진화를 수행시키고, 그것에 의해, 스펙트럴 요소(k)에서 각각의 크기에 대해, 빈들(bins)의 시퀀스를 생성한다. 이진 산술 코더(132)는 빈들의 시퀀스들을 수시하고, 즉, 스펙트럴 요소(k) 마다 하나, 그리고, 이진 산술 코딩을 동일하게 수행시킨다. 단항 이진화 이진부(130) 및 이진화 산술 코더(132)는 양자화 및 엔트로피 코딩 스테이지(18)의 부분이다. 도 10은 파라미터 도출부(68)를 나타내고, 이는 그들은 fk로 또한 표시되는 것으로써, 포락선 추정 값들(qk)을 스케일링하기 위해 상술한 스케일링을 수행하여 올바르게 스케일링된 확률 분포 파라미터(πk)을 산출할 수 있고, 또는 단지 사용된 로테이션 gkfk를 사용할 수 있다. 수학식 5를 이용하여 상술한 바와 같이, 이진화 도출부(68)는 반복적으로 스케일링 값(gk)를 결정하고, 그리하여 수학식 5에 의해 표현된 예에 따른 비트-소모의 분석적 추정은 전체 스펙트럼(26)을 위하여 어떤 목표 비트율을 충족할 수 있다. 어떤 작은 주의로써, 수학식 5과 연관하여 사용된 k는 반복 스텝을 나타내고, 반면에 변수 k는 스펙트럴 라인 또는 요소 k를 나타내는 것을 의미한다. 그것 이상으로, 파라미터 도출부(68)는 도 4 및 6에 나타나 것처럼 예시적으로 도출된 원본 포락선 값들을 필수적으로 스케일링하지 않으나, 대안적으로, 예를 들어, 추가적인 변형기들을 이용하여 포락선 값들을 직접적으로 반복하여 변형할 수 있다.
어떠한 경우에, 이진 산술 코더(132)는, 각각의 스펙트럴 요소들에 대해, 확률 분포 파라미터(πk)에 의해 또는 스펙트럴 값들(xk)의 각각의 크기의 단항 이진화의 모든 빈들을 위해 상기 대안적으로 사용된 것처럼, gkfk에 의해 정의된 확률 분포 추정을 적용한다.
또한 상술한 바와 같이, 레이트 루프 확인부(134)는 첫 번째 추측으로써 파라미터 도출부(68)에 의해 결정된 확률 분포 파라미터들을 이용함에 의해 생산한 실제 비트-소모를 확인하기 위해 제공될 수 있다. 레이트 루프 확인부(134)는 이진 산술 코더(132) 및 파라미터 도출부(68) 사이에 연결됨에 의해 추측을 확인한다. 만약 실제 비트-소모가 파라미터 도출부(68)에 의해 수행된 추정 불구하고 허여된 비트-소모를 초과하면, 레이트 루프 확인부(134)는 확률 분포 파라미터(πk 또는 gkfk)의 첫 번째 추측 값을 정정하고, 단항 이진화의 실제 이진 산술 코더(132)가 다시 수행된다.
도 11은 도 8의 디코더로부터 비슷한 부분의 완성을 나타내기 위한 것이다. 특히, 파라미터 도출부(68)는 인코딩 및 디코딩 측에서 동일한 방식으로 연산하고, 따라서 도 11에서 비슷하게 나타난다. 이진 산술 코더에 따르는 단항 이진화 이진부의 연속을 사용하는 것에 대신하여, 디코딩 측에서 역 순차적인 배열이 이용되고, 즉 도 11에 따른 엔트로피 디코딩 및 역양자화 스테이지(104)는 단항 이진 장치 역이진화부(138)에 따른 이진화 산술 디코더(136)를 포함한다. 이진 산술 디코더(136)는 스펙트럼(26)을 산술적으로 인코딩한 데이터 스트림(22)의 부분을 수신한다. 이진 산술 디코더(136)의 출력은 빈 시퀀스들의 시퀀스이고, 즉 스펙트럴 요소(k)에서 스펙트럴 값의 어떤 크기의 빈들의 시퀀스들이 다음의 스펙트럴 요소(k+1) 등의 스펙트럴 값들의 크기의 빈 시퀀스를 따른다. 단항 이진화 역이진부(138)는 역이진화를 수행하고, 즉, 스펙트럴 요소(k)에서 스펙트럴 값들의 역이진화된 크기들을 출력하고, 스펙트럴 값들의 개개의 크기들의 빈 시퀀스들의 시작과 끝을 이진 산술 디코더(136)에 알린다. 이진 산술 코더(132) 처럼, 이진 산출 디코더(136)은, 이진 산술 디코딩 마다, 스펙트럴 요소(k)의 하나의 스펙트럴 값의 개개의 크기에 속하는 모든 빈들을 위해, 즉 확률 분포 파라미터 πk (gkfk)인, 확률 분포 파라미터들에 의해 정의되는 파라미터 분포 추정들을 이용한다.
또한, 상술한 바와 같이, 비트스트림(22)에서 사용 가능한 최대 비트율에 가능한 빨리 도달하도록, 인코더와 디코더는, 양측이 스펙트럼의 스펙트럴 값들의 크기들의 실제적 인코딩이 가장 낮은 주파수로부터 가장 높은 주파수로 동일하게 가로지를 때 바람직하지 않은(cheesed) 환경을 이용하는 점에서 사용 가능한 최대 비트에 대한 정보를 알린다는 사실을 이용할 수 있다. 관례적으로, 비전송된 크기는 0으로 설정될 수 있다.
가장 최근에 설명한 실시예에 관하여, 예를 들어, 확률 분포 파라미터들을 얻기 위한 포락선의 첫 번째 추측 스케일링은 예를 들어, 만약 그 준수(compliance)가 본 발명의 시나리오에 의해 요구되지 않는다면, 어떤 상수 비트율을 준수하기 위한 레이트 루프없이 사용될 수 있다.
비록 몇몇의 측면들은 장치의 문맥에서 설명되었으나, 그것은 상응하는 방법에 의 설명 또한 나타낼 수 있고, 여기서 블록 또는 장치는 방법 단계 또는 방법 단계의 특징에 상응한다. 유사하게, 방법의 문맥에서 설명된 측면들은 또한 상응하는 블록 또는 아이템 또는 상응하는 장치의 특징으로 나타낼 수 있다. 방법 단계들의 몇몇 또는 전부는 예를 들어, 마이크로프로세서, 프로그램 가능한 컴퓨터 또는 전자 회로와 같은 하드웨어 장치에 의해(또는 이용하여) 수행될 수 있다. 몇몇의 실시예에서, 가장 중요한 방법 단계들의 하나 이상은 이와 같은 장치에 의해 수행될 수 있다.
발명적인 인코딩된 오디오 신호는 디지털 저장 매체에 저장될 수 있고, 무선 전송 매체 또는 인터넷과 같은 유선 전송 매체와 같은 전송 매체 상에서 전송될 수 있다.
어떤 구현 요구들에 따르면, 본 발명의 실시예는 하드웨어 또는 소프트웨어에서 구현될 수 있다. 구현은 예를 들어, 플로피 디스크, DVD, 블루-레이, CD, ROM, PROM, EEPROM 또는 플래쉬 메모리와 같은 전자적으로 판독 가능한 제어 신호를 저장하고, 각각의 방법이 수행되도록 하는 프로그램 가능한 컴퓨터 시스템과 함께 동작(또는 함께 동작할 수 있는) 디지털 저장 매체를 이용하여 수행될 수 있다. 그리하여 디지털 저장 매체는 컴퓨터로 판독 가능할 수 있다.
본 발명의 실시예들은 프로그램 가능한 컴퓨터 시스템과 연동할 수 있고, 전자적으로 판독 가능한 제어 신호들을 가진 데이터 캐리어(data carrier)를 포함한다.
일반적으로, 본 발명의 실시예들은 프로그램 코드를 가진 컴퓨터 프로그램 제품으로써 구현될 수 있고, 프로그램 코드는 컴퓨터 프로그램 제품이 컴퓨터에서 동작할 때 방법들 중 하나를 수행하기 위한 동작을 수행할 수 있다. 프로그램 코드는 기계 판독 캐리어에 저장될 수 있다.
다른 실시예는, 여기서 설명된 방법들 중 하나를 수행하는 컴퓨터 프로그램을 포함하고, 이는 기계 판독 캐리어에 저장된다.
즉, 본 발명의 방법의 실시예는, 컴퓨터 프로그램이 컴퓨터상에서 동작할 때, 여기서 설명된 방법들 중 하나를 수행하기 위한 프로그램 코드를 가진 컴퓨터 프로그램일 수 있다.
또한, 본 발명의 방법의 실시예는, 데이터 캐리어 (또는 디지털 저장 매체, 또는 컴퓨터-판독 가능한 매체)로 기록되고, 여기서 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함한다. 데이터 캐리어, 디지털 저장 매치 또는 기록된 매체는 유형이고, 그리고/또는 일시적일 수 있다.
또한, 본 발명의 방법의 실시예는, 여기서 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 표현하는 신호들의 시퀀스 또는 데이터 스트림일 수 있다. 데이터 스트림 또는 신호들의 시퀀스는 데이터 통신을 통하여 예를 들어 인터넷을 통하여 전달될 수 있다.
또한, 실시예는, 예를 들어, 컴퓨터, 또는 프로그램 가능한 로직 장치와 같은 프로세싱 수단들을 포함하고, 여기서 설명된 방법들 중 하나를 수행하기 위해 적용될 수 있다.
또한, 실시예는 여기서 설명된 방법들 중 하나를 수행하는 컴퓨터 프로그램이 설치된 컴퓨터를 포함한다.
또한, 본 발명에 따르면 실시예는 여기서 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 수신기로 전달하기 위한 장치 또는 시스템을 포함한다. 수신기는, 예를 들어, 컴퓨터, 모바일 단말, 메모리 장치 등이 될 수 있다. 장치 또는 시스템은, 예를 들어, 컴퓨터 프로그램을 수신기로 전송하기 위한 파일 서버를 포함한다.
실시예들에서, 프로그램 가능한 로직 장치(예를 들어, 필드 프로그머블 게이트 어레이)는 여기서 설명된 방법들의 기능의 일부 또는 전부를 수행하기 위해 사용될 수 있다. 실시예들에서, 필드 프로그머블 게이트 어레이는 여기서 설명된 방법들 중 하나를 수행하기 위한 마이크로프로세서와 함께 작동할 수 있다. 일반적으로, 방법들은 어떤 하드웨어 장치에 의해 수행되는 것이 바람직하다.
상술한 실시예들은 본 발명의 원리들에 대한 예시들이다. 여기서 설명된 배치 또는 상세의 변형 및 변동들은 해당 분야의 당업자에게 자명하게 이해된다. 따라서, 단지 특허 청구 범위에 의해서 발명의 범위가 제안될 수 있으나, 본원의 설명 및 실시예의 설명에 의해 제시된 세부 사항에 의해 제한되는 것은 아니다.
참조 문헌
[1] ISO/IEC 23003-3:2012, “MPEG-D (MPEG audio technologies), Part 3: Unified speech and audio coding,” 2012.
[2] J. Makhoul, “Linear prediction: A tutorial review,” Proc. IEEE, vol. 63, no. 4, pp. 561-580, April 1975.
[3] G. Fuchs, V. Subbaraman, and M. Multrus, “Efficient context adaptive entropy coding for real-time applications,” in Acoustics, Speech and Signal Processing (ICASSP), 2011 IEEE International Conference on, May 2011, pp. 493-496.
[4] US8296134 and WO2012046685.

Claims (35)

  1. 복수의 스펙트럴 요소들의 각각에 대하여, 오디오 신호가 인코딩된 데이터 스트림(22)에 포함된 선형 예측 계수 정보로부터 확률 분포 추정(28)을 결정하는 확률 분포 추정부(102);
    상기 복수의 스펙트럴 요소들의 각각에 대해 결정된 상기 확률 분포 추정을 이용하여 상기 데이터 스트림(22)으로부터 상기 복수의 스펙트럴 요소들로 구성된 스펙트럼(26)을 엔트로피 디코드 및 역양자화하는 엔트로피 디코딩 및 역양자화 스테이지(104); 및
    상기 선형 예측 계수 정보에 의해 정의된 선형 예측 합성 필터에 의존하는 전달 함수에 따라 상기 스펙트럼(26)을 형성하는 필터를 포함하되,
    상기 확률 분포 추정부는 상기 데이터 스트림에 포함된 롱-텀 예측 파라미터들로부터 스펙트럴 미세 구조를 결정하고, 상기 복수의 스펙트럴 구조들의 각각에 대하여, 확률 분포 파라미터들이 상기 스펙트럴 미세 구조에 배가하여(multiplicatively) 의존하는 함수를 스펙트럴하게 따르도록 확률 분포 파라미터를 결정하고, 여기서, 상기 확률 분포 추정은, 상기 복수의 스펙트럴 요소들의 각각에 대하여, 각각의 스펙트럴 요소의 상기 확률 분포 파라미터를 가지고 파라미터화되는 파라미터로 표현 가능한 함수이고,
    상기 확률 분포 추정부는 상기 스펙트럴 미세 구조가 상기 롱-텀 예측 파라미터들에 의해 정의된 빗 같은 구조(comb-like structure)가 되도록 하는, 선형 예측 기반 오디오 디코더.
  2. 청구항 1에 있어서,
    상기 선형 예측 계수 정보에 기반한 스케일 팩터들을 결정하는 스케일-팩터 결정부(110); 및
    상기 스케일 팩터들을 이용하여 상기 스펙트럼을 스케일링함에 의해 상기 스펙트럼을 스펙트럴하게 형성하는 스펙트럴 형성부(112)를 더 포함하되,
    상기 스케일-팩터 결정부는 상기 선형 예측 계수 정보에 의해 정의된 선형 예측 합성 필터에 의존하는 전달 함수를 동일하게 표현하도록 상기 스케일 팩터들을 결정하는, 선형 예측 기반 오디오 디코더.
  3. 청구항 1 또는 2에 있어서,
    상기 선형 예측 계수 정보에 의해 정의된 상기 선형 예측 합성 필터의 상기 전달 함수의 의존성은 상기 전달 함수가 지각적으로(perceptually) 가중되는 것인, 선형 예측 기반 오디오 디코더.
  4. 청구항 1 또는 2에 있어서,
    상기 선형 예측에 의해 정의된 선형 예측 합성 필터 1/A(z)의 상기 전달 함수의 의존성은 상기 전달 함수가 1/A(k·z)의 전달 함수이고, k는 상수인, 선형 예측 기반 오디오 디코더.
  5. 삭제
  6. 청구항 1 또는 2에 있어서,
    상기 롱-텀 예측 파라미터들은 롱-텀 예측 게인(gain)과 롱-텀 예측 피치를 포함하는, 선형 예측 기반 오디오 디코더.
  7. 청구항 1 또는 2에 있어서,
    상기 파라미터로 표현 가능한 함수는 상기 복수의 스펙트럴 요소들의 각각에 대하여, 상기 확률 분포 파라미터가 상기 확률 분포 추정의 분산을 대한 측정값이 되도록 정의되는, 선형 예측 기반 오디오 디코더.
  8. 복수의 스펙트럴 요소들의 각각에 대하여, 오디오 신호가 인코딩된 데이터 스트림(22)에 포함된 선형 예측 계수 정보로부터 확률 분포 추정(28)을 결정하는 확률 분포 추정부(102);
    상기 복수의 스펙트럴 요소들의 각각에 대해 결정된 상기 확률 분포 추정을 이용하여 상기 데이터 스트림(22)으로부터 상기 복수의 스펙트럴 요소들로 구성된 스펙트럼(26)을 엔트로피 디코드 및 역양자화하는 엔트로피 디코딩 및 역양자화 스테이지(104); 및
    상기 선형 예측 계수 정보에 의해 정의된 선형 예측 합성 필터에 의존하는 전달 함수에 따라 상기 스펙트럼(26)을 형성하는 필터를 포함하되,
    상기 확률 분포 추정부는 상기 데이터 스트림에 포함된 롱-텀 예측 파라미터들로부터 스펙트럴 미세 구조를 결정하고, 상기 복수의 스펙트럴 구조들의 각각에 대하여, 확률 분포 파라미터들이 상기 스펙트럴 미세 구조에 배가하여(multiplicatively) 의존하는 함수를 스펙트럴하게 따르도록 확률 분포 파라미터를 결정하고, 여기서, 상기 확률 분포 추정은, 상기 복수의 스펙트럴 요소들의 각각에 대하여, 각각의 스펙트럴 요소의 상기 확률 분포 파라미터를 가지고 파라미터화되는 파라미터로 표현 가능한 함수이고,
    상기 복수의 스펙트럴 요소들의 각각에 대하여, 상기 파라미터로 표현 가능한 함수가 라플라스 분포이고, 각각의 스펙트럴 요소의 확률 분포 파라미터는 각각의 라플라스 분포의 스케일 파라미터를 형성하는, 선형 예측 기반 오디오 디코더.
  9. 복수의 스펙트럴 요소들의 각각에 대하여, 오디오 신호가 인코딩된 데이터 스트림(22)에 포함된 선형 예측 계수 정보로부터 확률 분포 추정(28)을 결정하는 확률 분포 추정부(102);
    상기 복수의 스펙트럴 요소들의 각각에 대해 결정된 상기 확률 분포 추정을 이용하여 상기 데이터 스트림(22)으로부터 상기 복수의 스펙트럴 요소들로 구성된 스펙트럼(26)을 엔트로피 디코드 및 역양자화하는 엔트로피 디코딩 및 역양자화 스테이지(104); 및
    상기 선형 예측 계수 정보에 의해 정의된 선형 예측 합성 필터에 의존하는 전달 함수에 따라 상기 스펙트럼(26)을 형성하는 필터를 포함하되,
    상기 확률 분포 추정부는 상기 데이터 스트림에 포함된 롱-텀 예측 파라미터들로부터 스펙트럴 미세 구조를 결정하고, 상기 복수의 스펙트럴 구조들의 각각에 대하여, 확률 분포 파라미터들이 상기 스펙트럴 미세 구조에 배가하여(multiplicatively) 의존하는 함수를 스펙트럴하게 따르도록 확률 분포 파라미터를 결정하고, 여기서, 상기 확률 분포 추정은, 상기 복수의 스펙트럴 요소들의 각각에 대하여, 각각의 스펙트럴 요소의 상기 확률 분포 파라미터를 가지고 파라미터화되는 파라미터로 표현 가능한 함수이고,
    상기 선형 예측 기반 오디오 디코더는 디-엠퍼시스(de-emphasis) 필터를 더 포함하는, 선형 예측 기반 오디오 디코더.
  10. 청구항 1 또는 2에 있어서,
    상기 엔트로피 디코딩 및 역양자화 스테이지(104)는, 상기 복수의 스펙트럴 요소들의 상기 스펙트럼을 역양자화하고 엔트로피 디코딩하는 데 있어, 크기에 대해 상기 복수의 스펙트럴 요소들의 각각에 대해 결정된 상기 확률 분포 추정을 사용하여 상기 복수의 스펙트럴 요소들의 각각에서 부호(sign)와 크기를 처리하는, 선형 예측 기반 오디오 디코더.
  11. 청구항 1 또는 2에 있어서,
    상기 엔트로피 디코딩 및 역양자화 스테이지(140)는 각 스펙트럴 요소에 대한 스펙트럼의 크기 레벨을 엔트로피 디코딩하는 데 있어 상기 확률 분포 추정을 사용하고, 상기 스펙트럼을 획득하도록 모든 스펙트럴 요소들에 대해 동일하게 상기 크기 레벨들을 역양자화하는, 선형 예측 기반 오디오 디코더.
  12. 청구항 11에 있어서,
    상기 엔트로피 디코딩 및 역양자화 스테이지(140)는 상기 크기 레벨들을 역양자화하기 위해 일정한 양자화 스텝 사이즈를 사용하는, 선형 예측 기반 오디오 디코더.
  13. 청구항 1 또는 청구항 2에 있어서,
    에일리어싱을 겪는(aliasing-suffering) 시간-도메인 신호 부분을 획득하도록 상기 스펙트럼에 실수치의(real-valued) 임계적 샘플링된 역변환을 수행하는 역변환부; 및
    상기 오디오 신호를 복원하도록 이전 및 이후의 시간-도메인 부분을 가지고 상기 에일리어싱을 겪는 시간-도메인 신호 부분에 오버랩-및-가산 프로세스를 수행하는 오버랩-가산부를 더 포함하는, 선형 예측 기반 오디오 디코더.
  14. 선형 예측 기반 오디오 인코더에 있어서,
    선형 예측 계수 정보를 결정하는 선형 예측 분석부(12);
    복수의 스펙트럴 요소들의 각각에 대하여, 상기 선형 예측 계수 정보로부터 확률 분포 추정을 결정하는 확률 분포 추정부(14);
    오디오 신호로부터 상기 복수의 스펙트럴 요소들을 구성하는 스펙트럼을 결정하는 스펙트럼 결정부(16); 및
    상기 복수의 스펙트럴 요소들의 각각에 대해 결정된 상기 확률 분포 추정을 사용하여 상기 스펙트럼을 양자화 및 엔트로피 인코드하는 양자화 및 엔트로피 인코딩 스테이지(18)를 포함하되,
    상기 스펙트럼 결정부(16)는 상기 선형 예측 계수 정보에 의해 정의된 선형 예측 합성 필터의 역(inverse)에 의존하는 전달 함수에 따라 상기 오디오 신호의 원본 스펙트럼을 형성하며,
    상기 선형 예측 기반 오디오 인코더는 롱-텀 예측 파라미터들을 결정하는 롱-텀 예측부를 더 포함하고, 상기 확률 분포 추정부는 상기 롱-텀 예측 파라미터들로부터 스펙트럴 미세 구조를 결정하고, 상기 복수의 스펙트럴 요소들의 각각에 대하여, 확률 분포 파라미터들이 상기 선형 예측 합성 필터의 전달 함수와 상기 선형 예측 합성 필터의 지각적으로(perceptually) 가중된 변형의 전달 함수의 역(inverse)의 곱 및 상기 스펙트럴 미세 구조에 의존하는 함수를 따르도록 상기 확률 분포 파라미터를 결정하며, 여기서, 상기 복수의 스펙트럴 요소들의 각각에 대하여, 상기 확률 분포 추정은 각각의 스펙트럴 요소의 상기 확률 분포 파라미터를 가지고 파라미터로 표현되는 파라미터로 표현 가능한 함수이고,
    상기 확률 분포 추정부는 상기 스펙트럴 미세 구조가 상기 롱-텀 예측 파라미터들에 의해 정의된 빗 같은 구조(comb-like structure)가 되도록 하는, 선형 예측 기반 오디오 인코더.
  15. 청구항 14에 있어서,
    상기 스펙트럼 결정부(16)는,
    상기 선형 예측 계수 정보에 기반한 스케일 팩터들을 결정하는 스케일-팩터 결정부(34);
    상기 원본 스펙트럼을 획득하도록 상기 오디오 신호를 스펙트럴하게(spectrally) 분해하는 변환부(36); 및
    상기 스케일 팩터들을 이용하여 상기 스펙트럼을 스케일링함에 의해 상기 원본 스펙트럼을 스펙트럴하게 형성하는 스펙트럴 형성부(38)를 포함하되,
    상기 스케일 팩터 결정부(34)는 상기 스케일 팩터들을 이용하는 상기 스펙트럴 형성부에 의한 스펙트럴 형성이 상기 선형 예측 계수 정보에 의해 정의된 선형 예측 합성 필터의 역에 의존하는 전달 함수에 상응하도록 상기 스케일 팩터들을 결정하는, 선형 예측 기반 오디오 인코더.
  16. 청구항 14 또는 15에 있어서,
    상기 선형 예측에 의해 정의된 상기 선형 예측 합성 필터의 역(inverse)의 상기 전달 함수의 의존성은 상기 전달 함수가 지각적으로(perceptually) 가중되는 것인, 선형 예측 기반 오디오 인코더.
  17. 청구항 14 또는 15에 있어서,
    상기 선형 예측 계수 정보에 의해 정의된 선형 예측 합성 필터 1/A(z)의 역의 상기 전달 함수의 의존성은 상기 전달 함수가 1/A(k·z)의 전달 함수의 역(inverse)이고, k는 상수인, 선형 예측 기반 오디오 인코더.
  18. 삭제
  19. 청구항 14 또는 15에 있어서,
    상기 롱-텀 예측 파라미터들은 롱-텀 예측 게인(gain)과 롱-텀 예측 피치를 포함하는, 선형 예측 기반 오디오 인코더.
  20. 청구항 14 또는 15에 있어서,
    상기 파라미터로 표현 가능한 함수는 상기 복수의 스펙트럴 요소들의 각각에 대하여, 상기 확률 분포 파라미터가 상기 확률 분포 추정의 분산에 대한 측정값이 되도록 정의되는, 선형 예측 기반 오디오 인코더.
  21. 선형 예측 기반 오디오 인코더에 있어서,
    선형 예측 계수 정보를 결정하는 선형 예측 분석부(12);
    복수의 스펙트럴 요소들의 각각에 대하여, 상기 선형 예측 계수 정보로부터 확률 분포 추정을 결정하는 확률 분포 추정부(14);
    오디오 신호로부터 상기 복수의 스펙트럴 요소들을 구성하는 스펙트럼을 결정하는 스펙트럼 결정부(16); 및
    상기 복수의 스펙트럴 요소들의 각각에 대해 결정된 상기 확률 분포 추정을 사용하여 상기 스펙트럼을 양자화 및 엔트로피 인코드하는 양자화 및 엔트로피 인코딩 스테이지(18)를 포함하되,
    상기 스펙트럼 결정부(16)는 상기 선형 예측 계수 정보에 의해 정의된 선형 예측 합성 필터의 역(inverse)에 의존하는 전달 함수에 따라 상기 오디오 신호의 원본 스펙트럼을 형성하며,
    상기 선형 예측 기반 오디오 인코더는 롱-텀 예측 파라미터들을 결정하는 롱-텀 예측부를 더 포함하고, 상기 확률 분포 추정부는 상기 롱-텀 예측 파라미터들로부터 스펙트럴 미세 구조를 결정하고, 상기 복수의 스펙트럴 요소들의 각각에 대하여, 확률 분포 파라미터들이 상기 선형 예측 합성 필터의 전달 함수와 상기 선형 예측 합성 필터의 지각적으로(perceptually) 가중된 변형의 전달 함수의 역(inverse)의 곱 및 상기 스펙트럴 미세 구조에 의존하는 함수를 따르도록 상기 확률 분포 파라미터를 결정하며, 여기서, 상기 복수의 스펙트럴 요소들의 각각에 대하여, 상기 확률 분포 추정은 각각의 스펙트럴 요소의 상기 확률 분포 파라미터를 가지고 파라미터로 표현되는 파라미터로 표현 가능한 함수이고,
    상기 복수의 스펙트럴 요소들의 각각에 대하여, 상기 파라미터로 표현 가능한 함수가 라플라스 분포이고, 각각의 스펙트럴 요소의 확률 분포 파라미터는 각각의 라플라스 분포의 스케일 파라미터를 형성하는, 선형 예측 기반 오디오 인코더.
  22. 선형 예측 기반 오디오 인코더에 있어서,
    선형 예측 계수 정보를 결정하는 선형 예측 분석부(12);
    복수의 스펙트럴 요소들의 각각에 대하여, 상기 선형 예측 계수 정보로부터 확률 분포 추정을 결정하는 확률 분포 추정부(14);
    오디오 신호로부터 상기 복수의 스펙트럴 요소들을 구성하는 스펙트럼을 결정하는 스펙트럼 결정부(16); 및
    상기 복수의 스펙트럴 요소들의 각각에 대해 결정된 상기 확률 분포 추정을 사용하여 상기 스펙트럼을 양자화 및 엔트로피 인코드하는 양자화 및 엔트로피 인코딩 스테이지(18)를 포함하되,
    상기 스펙트럼 결정부(16)는 상기 선형 예측 계수 정보에 의해 정의된 선형 예측 합성 필터의 역(inverse)에 의존하는 전달 함수에 따라 상기 오디오 신호의 원본 스펙트럼을 형성하며,
    상기 선형 예측 기반 오디오 인코더는 롱-텀 예측 파라미터들을 결정하는 롱-텀 예측부를 더 포함하고, 상기 확률 분포 추정부는 상기 롱-텀 예측 파라미터들로부터 스펙트럴 미세 구조를 결정하고, 상기 복수의 스펙트럴 요소들의 각각에 대하여, 확률 분포 파라미터들이 상기 선형 예측 합성 필터의 전달 함수와 상기 선형 예측 합성 필터의 지각적으로(perceptually) 가중된 변형의 전달 함수의 역(inverse)의 곱 및 상기 스펙트럴 미세 구조에 의존하는 함수를 따르도록 상기 확률 분포 파라미터를 결정하며, 여기서, 상기 복수의 스펙트럴 요소들의 각각에 대하여, 상기 확률 분포 추정은 각각의 스펙트럴 요소의 상기 확률 분포 파라미터를 가지고 파라미터로 표현되는 파라미터로 표현 가능한 함수이고,
    상기 오디오 신호에 프리-엠퍼시스(pre-emphasis)를 수행하는 프리-엠퍼시스 필터(24)를 더 포함하는, 선형 예측 기반 오디오 인코더.
  23. 청구항 14 또는 15에 있어서,
    상기 양자화 및 엔트로피 인코딩 스테이지는 상기 복수의 스펙트럴 요소들의 스펙트럼을 양자화하고 엔트로피 인코딩하는 데 있어, 크기에 대해 상기 복수의 스펙트럴 요소들의 각각에 대해 결정된 상기 확률 분포 추정을 사용하여 상기 복수의 스펙트럴 요소들의 각각에서 부호와 크기를 처리하는, 선형 예측 기반 오디오 인코더.
  24. 청구항 14 또는 15에 있어서,
    상기 양자화 및 엔트로피 인코딩 스테이지(18)는 상기 스펙트럴 요소들에 대한 크기 레벨들을 획득하도록 모든 스펙트럴 요소들에 대해 동일하게 상기 스펙트럼을 양자화하고, 각 스펙트럴 요소에 대한 상기 스펙트럼의 크기 레벨들을 엔트로피 인코딩하는 데 있어 상기 확률 분포 추정을 사용하는, 선형 예측 기반 오디오 인코더.
  25. 청구항 24에 있어서,
    상기 양자화 및 엔트로피 인코딩 스테이지는 상기 양자화를 위해 일정한 양자화 스텝 사이즈를 사용하는, 선형 예측 기반 오디오 인코더.
  26. 청구항 15에 있어서,
    상기 변환부는 실수치의(real-valued) 임계적 샘플링된 변환을 수행하는, 선형 예측 기반 오디오 인코더.
  27. 선형 예측 기반 오디오 디코딩 방법에 있어서,
    복수의 스펙트럴 요소들의 각각에 대하여, 오디오 신호가 인코딩된 데이터 스트림(22)에 포함된 선형 예측 계수 정보로부터 확률 분포 추정(28)을 결정하는 단계; 및
    상기 복수의 스펙트럴 요소들의 각각에 대해 결정된 상기 확률 분포 추정을 이용하여 상기 데이터 스트림(22)으로부터 상기 복수의 스펙트럴 요소들로 구성된 스펙트럼(26)을 엔트로피 디코드 및 역양자화하는 단계를 포함하되,
    상기 방법은 상기 선형 예측 계수 정보에 의해 정의된 선형 예측 합성 필터에 의존하는 전달 함수에 따라 상기 스펙트럼(26)을 형성하는 단계를 더 포함하며,
    상기 확률 분포 추정의 결정은 상기 데이터 스트림에 포함된 롱-텀 예측 파라미터들로부터 스펙트럴 미세 구조를 결정하는 단계; 및 상기 복수의 스펙트럴 구조들의 각각에 대하여, 확률 분포 파라미터들이 상기 스펙트럴 미세 구조에 배가하여(multiplicatively) 의존하는 함수를 스펙트럴하게 따르도록 확률 분포 파라미터를 결정하는 단계를 포함하고, 여기서, 상기 확률 분포 추정은, 상기 복수의 스펙트럴 요소들의 각각에 대하여, 각각의 스펙트럴 요소의 상기 확률 분포 파라미터를 가지고 파라미터화되는 파라미터로 표현 가능한 함수이고,
    상기 확률 분포 추정은 상기 스펙트럴 미세 구조가 상기 롱-텀 예측 파라미터들에 의해 정의된 빗 같은 구조(comb-like structure)가 되도록 수행되는, 선형 예측 기반 오디오 디코딩 방법.
  28. 선형 예측 기반 오디오 인코딩 방법에 있어서,
    선형 예측 계수 정보를 결정하는 단계;
    복수의 스펙트럴 요소들의 각각에 대하여, 상기 선형 예측 계수 정보로부터 확률 분포 추정을 결정하는 단계;
    오디오 신호로부터 상기 복수의 스펙트럴 요소들을 구성하는 스펙트럼을 결정하는 단계; 및
    상기 복수의 스펙트럴 요소들의 각각에 대해 결정된 상기 확률 분포 추정을 사용하여 상기 스펙트럼을 양자화 및 엔트로피 인코드하는 단계를 포함하되,
    상기 스펙트럼의 결정은 상기 선형 예측 계수 정보에 의해 정의된 선형 예측 합성 필터의 역(inverse)에 의존하는 전달 함수에 따라 상기 오디오 신호의 원본 스펙트럼을 형성하는 단계를 포함하며,
    상기 방법은, 롱-텀 예측 파라미터들을 결정하는 단계를 더 포함하고, 상기 확률 분포의 결정은 상기 롱-텀 예측 파라미터들로부터 스펙트럴 미세 구조를 결정하는 단계; 및 상기 복수의 스펙트럴 요소들의 각각에 대하여, 확률 분포 파라미터들이 상기 선형 예측 합성 필터의 전달 함수와 상기 선형 예측 합성 필터의 지각적으로(perceptually) 가중된 변형의 전달 함수의 역(inverse)의 곱 및 상기 스펙트럴 미세 구조에 의존하는 함수를 따르도록 상기 확률 분포 파라미터를 결정하는 단계를 포함하고, 여기서, 상기 복수의 스펙트럴 요소들의 각각에 대하여, 상기 확률 분포 추정은 각각의 스펙트럴 요소의 상기 확률 분포 파라미터를 가지고 파라미터로 표현되는 파라미터로 표현 가능한 함수이고,
    상기 확률 분포 추정은 상기 스펙트럴 미세 구조가 상기 롱-텀 예측 파라미터들에 의해 정의된 빗 같은 구조(comb-like structure)가 되도록 수행되는, 선형 예측 기반 오디오 인코딩 방법.
  29. 컴퓨터가 동작할 때, 청구항 27 또는 28에 따른 방법을 수행하기 위한 프로그램 코드를 가진 컴퓨터 프로그램을 저장한 컴퓨터로 판독 가능한 매체.
  30. 삭제
  31. 삭제
  32. 삭제
  33. 삭제
  34. 삭제
  35. 삭제
KR1020157001849A 2012-06-28 2013-06-19 개선된 확률 분포 추정을 이용한 선형 예측 기반 오디오 코딩 KR101733326B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201261665485P 2012-06-28 2012-06-28
US61/665,485 2012-06-28
PCT/EP2013/062809 WO2014001182A1 (en) 2012-06-28 2013-06-19 Linear prediction based audio coding using improved probability distribution estimation

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020177011666A Division KR101866806B1 (ko) 2012-06-28 2013-06-19 개선된 확률 분포 추정을 이용한 선형 예측 기반 오디오 코딩

Publications (2)

Publication Number Publication Date
KR20150032723A KR20150032723A (ko) 2015-03-27
KR101733326B1 true KR101733326B1 (ko) 2017-05-24

Family

ID=48669969

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020157001849A KR101733326B1 (ko) 2012-06-28 2013-06-19 개선된 확률 분포 추정을 이용한 선형 예측 기반 오디오 코딩
KR1020177011666A KR101866806B1 (ko) 2012-06-28 2013-06-19 개선된 확률 분포 추정을 이용한 선형 예측 기반 오디오 코딩

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020177011666A KR101866806B1 (ko) 2012-06-28 2013-06-19 개선된 확률 분포 추정을 이용한 선형 예측 기반 오디오 코딩

Country Status (20)

Country Link
US (1) US9536533B2 (ko)
EP (1) EP2867892B1 (ko)
JP (1) JP6113278B2 (ko)
KR (2) KR101733326B1 (ko)
CN (1) CN104584122B (ko)
AR (1) AR091631A1 (ko)
AU (1) AU2013283568B2 (ko)
BR (1) BR112014032735B1 (ko)
CA (1) CA2877161C (ko)
ES (1) ES2644131T3 (ko)
HK (1) HK1210316A1 (ko)
MX (1) MX353385B (ko)
MY (1) MY168806A (ko)
PL (1) PL2867892T3 (ko)
PT (1) PT2867892T (ko)
RU (1) RU2651187C2 (ko)
SG (1) SG11201408677YA (ko)
TW (1) TWI520129B (ko)
WO (1) WO2014001182A1 (ko)
ZA (1) ZA201500504B (ko)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6385433B2 (ja) * 2013-10-18 2018-09-05 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン オーディオ信号のスペクトルのスペクトル係数のコード化
EP2919232A1 (en) * 2014-03-14 2015-09-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and method for encoding and decoding
ES2738723T3 (es) 2014-05-01 2020-01-24 Nippon Telegraph & Telephone Dispositivo de generación de secuencia envolvente combinada periódica, método de generación de secuencia envolvente combinada periódica, programa de generación de secuencia envolvente combinada periódica y soporte de registro
BR112016025850B1 (pt) 2014-05-08 2022-08-16 Telefonaktiebolaget Lm Ericsson (Publ) Métodos para codificar um sinal de áudio e para discriminação de sinal de áudio, codificador para codificação de um sinal de áudio, discriminador de sinal de áudio, dispositivo de comunicação, e, meio de armazenamento legível por computador
EP2980793A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder, system and methods for encoding and decoding
US10057383B2 (en) 2015-01-21 2018-08-21 Microsoft Technology Licensing, Llc Sparsity estimation for data transmission
WO2016121824A1 (ja) * 2015-01-30 2016-08-04 日本電信電話株式会社 パラメータ決定装置、方法、プログラム及び記録媒体
EP3382700A1 (en) 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for post-processing an audio signal using a transient location detection
EP3382701A1 (en) * 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for post-processing an audio signal using prediction based shaping
CN114172891B (zh) * 2021-11-19 2024-02-13 湖南遥昇通信技术有限公司 基于加权概率编码的提升ftp传输安全性方法、设备及介质

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100322706B1 (ko) * 1995-09-25 2002-06-20 윤종용 선형예측부호화계수의부호화및복호화방법
US6353808B1 (en) * 1998-10-22 2002-03-05 Sony Corporation Apparatus and method for encoding a signal as well as apparatus and method for decoding a signal
US6658383B2 (en) * 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
US8515767B2 (en) * 2007-11-04 2013-08-20 Qualcomm Incorporated Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs
ATE500588T1 (de) * 2008-01-04 2011-03-15 Dolby Sweden Ab Audiokodierer und -dekodierer
CN101609680B (zh) * 2009-06-01 2012-01-04 华为技术有限公司 压缩编码和解码的方法、编码器和解码器以及编码装置
EP2309493B1 (en) * 2009-09-21 2013-08-14 Google, Inc. Coding and decoding of source signals using constrained relative entropy quantization
BR122020024243B1 (pt) * 2009-10-20 2022-02-01 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E. V. Codificador de sinal de áudio, decodificador de sinal de áudio, método para prover uma representação codificada de um conteúdo de áudio e método para prover uma representação decodificada de um conteúdo de áudio.
JP5316896B2 (ja) * 2010-03-17 2013-10-16 ソニー株式会社 符号化装置および符号化方法、復号装置および復号方法、並びにプログラム
RU2445718C1 (ru) * 2010-08-31 2012-03-20 Государственное образовательное учреждение высшего профессионального образования Академия Федеральной службы охраны Российской Федерации (Академия ФСО России) Способ выделения сегментов обработки речи на основе анализа корреляционных зависимостей в речевом сигнале
WO2012161675A1 (en) 2011-05-20 2012-11-29 Google Inc. Redundant coding unit for audio codec

Also Published As

Publication number Publication date
JP2015525893A (ja) 2015-09-07
AU2013283568A1 (en) 2015-01-29
RU2015102588A (ru) 2016-08-20
TW201405549A (zh) 2014-02-01
SG11201408677YA (en) 2015-01-29
CA2877161A1 (en) 2014-01-03
HK1210316A1 (en) 2016-04-15
MX353385B (es) 2018-01-10
CN104584122A (zh) 2015-04-29
KR20170049642A (ko) 2017-05-10
JP6113278B2 (ja) 2017-04-12
PT2867892T (pt) 2017-10-27
KR101866806B1 (ko) 2018-06-18
CA2877161C (en) 2020-01-21
US9536533B2 (en) 2017-01-03
BR112014032735A2 (pt) 2017-06-27
WO2014001182A1 (en) 2014-01-03
TWI520129B (zh) 2016-02-01
EP2867892B1 (en) 2017-08-02
CN104584122B (zh) 2017-09-15
MY168806A (en) 2018-12-04
RU2651187C2 (ru) 2018-04-18
PL2867892T3 (pl) 2018-01-31
AR091631A1 (es) 2015-02-18
AU2013283568B2 (en) 2016-05-12
ES2644131T3 (es) 2017-11-27
KR20150032723A (ko) 2015-03-27
BR112014032735B1 (pt) 2022-04-26
US20150106108A1 (en) 2015-04-16
ZA201500504B (en) 2016-01-27
EP2867892A1 (en) 2015-05-06
MX2014015742A (es) 2015-04-08

Similar Documents

Publication Publication Date Title
KR101733326B1 (ko) 개선된 확률 분포 추정을 이용한 선형 예측 기반 오디오 코딩
JP6173288B2 (ja) マルチモードオーディオコーデックおよびそれに適応されるcelp符号化
TWI488177B (zh) 使用頻譜域雜訊整形之基於線性預測的編碼方案
RU2329549C2 (ru) Устройство и способ определения величины шага квантователя
RU2762301C2 (ru) Устройство и способ для кодирования и декодирования аудиосигнала с использованием понижающей дискретизации или интерполяции масштабных параметров
RU2670384C2 (ru) Принцип кодирования информации
CN117940994A (zh) 基于长期预测和/或谐波后置滤波生成预测频谱的处理器
US9953659B2 (en) Apparatus and method for audio signal envelope encoding, processing, and decoding by modelling a cumulative sum representation employing distribution quantization and coding
CA2914418C (en) Apparatus and method for audio signal envelope encoding, processing and decoding by splitting the audio signal envelope employing distribution quantization and coding
EP4120253A1 (en) Integral band-wise parametric coder
EP4120257A1 (en) Coding and decocidng of pulse and residual parts of an audio signal

Legal Events

Date Code Title Description
AMND Amendment
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
X091 Application refused [patent]
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant