KR101251813B1 - 넓은-뜻의 지각적 유사성을 이용하는 디지털 미디어 스펙트럼 데이터의 효과적인 코딩 - Google Patents

넓은-뜻의 지각적 유사성을 이용하는 디지털 미디어 스펙트럼 데이터의 효과적인 코딩 Download PDF

Info

Publication number
KR101251813B1
KR101251813B1 KR1020117018144A KR20117018144A KR101251813B1 KR 101251813 B1 KR101251813 B1 KR 101251813B1 KR 1020117018144 A KR1020117018144 A KR 1020117018144A KR 20117018144 A KR20117018144 A KR 20117018144A KR 101251813 B1 KR101251813 B1 KR 101251813B1
Authority
KR
South Korea
Prior art keywords
band
spectral coefficients
coefficients
spectral
decoding
Prior art date
Application number
KR1020117018144A
Other languages
English (en)
Other versions
KR20110093953A (ko
Inventor
산지브 메로트라
웨이-게 첸
Original Assignee
마이크로소프트 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 마이크로소프트 코포레이션 filed Critical 마이크로소프트 코포레이션
Publication of KR20110093953A publication Critical patent/KR20110093953A/ko
Application granted granted Critical
Publication of KR101251813B1 publication Critical patent/KR101251813B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/035Scalar quantisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Lubricants (AREA)

Abstract

복원시에 흐릿한 낮은-음을-통과시키는 사운드를 산출할 수 있는, 종래의 오디오 인코더는 모든 스펙트럼 계수들보다 적은 량을 인코딩함으로써 코딩 비트율을 유지한다. 넓은-뜻의 지각적 유사성을 이용하는 오디오 인코더는, 이미 코딩된 스펙트럼의 스케일링된 버전으로서 나타나는, 제거된 스펙트럼 계수들의 지각적으로 유사한 버전을 인코딩함으로써 품질을 향상시킨다. 제거된 스펙트럼 계수들은 복수의 부대역들로 나뉜다. 부대역들은 2개의 파라미터, 즉 밴드에서의 에너지를 나타낼 수 있는 스케일 계수, 및 밴드의 형태를 나타낼 수 있는 형태 파라미터로서 인코딩된다. 형태 파라미터는 이미 코딩된 스펙트럼의 일부를 가리키는 움직임 벡터, 고정된 코드-북에서의 스펙트럼 형태로의 인덱스, 또는 무작위 잡음 벡터 형태일 수 있다. 그러므로 인코딩은 디코딩 시에 복사되어야할 스펙트럼의 유사한 형태의 부분의 스케일링된 버전을 효과적으로 나타낸다.

Description

넓은-뜻의 지각적 유사성을 이용하는 디지털 미디어 스펙트럼 데이터의 효과적인 코딩{EFFICIENT CODING OF DIGITAL MEDIA SPECTRAL DATA USING WIDE-SENSE PERCEPTUAL SIMILARITY}
본 발명은 일반적으로 넓은-뜻의 지각적 유사성에 기초하는 디지털 미디어(예를 들면, 오디오, 비디오, 정지(still) 이미지 등) 인코딩 및 디코딩에 관한 것이다.
오디오의 코딩은 사람이 듣는 것에 대한 다양한 지각적인 모델을 활용하는 코딩 기법을 이용한다. 예를 들면, 강한 톤(tone)들 주변의 많은 약한 톤들은 마스크(mask)되어 이 약한 톤들은 코딩될 필요가 없다. 통상적인 지각적 오디오 코딩에서, 이 코딩은 다른 주파수 데이터의 적응적인 양자화로서 이용된다. 지각적으로 중요한 주파수 데이터에 보다 많은 비트, 즉 정교한 양자화가 할당되며, 지각적으로 중요하지 않은 주파수 데이터에는 보다 적은 비트가 할당된다. 예를 들면, 2000년 4월에 발표된, Proceedings Of the IEEE의 Vol. 88, Issue 4의 pp.451-515에 기재된, "Painter, T."와 "Spanias, A."가 저술한 "Perceptual Coding Of Digital Audio"에서 알 수 있다.
그러나, 보다 넓은 뜻으로 지각적인 코딩을 취할 수 있다. 예를 들면, 스펙트럼의 몇몇의 부분은 적절하게 형태 지어진 잡음으로 코딩될 수 있다. 1996년 7/8월에 발표된, Journal Of The AES의 vol. 44, no. 7/8의 pp.593-598에 기재된, "schulz, D"가 저술한 "Improving Audio Codecs By Noise Substitution"에서 볼 수 있다. 이러한 접근법을 사용하면, 코딩된 신호는 정확한 또는 거의 정확한 본래의 버전을 렌더링하는 것을 목표로 하지는 않을 수 있다. 오히려 그 목적은 본래의 것에 비해 유사하고 좋은 소리를 만들어내는 데에 있다.
모든 이들 지각적 효과는 오디오 신호의 코딩에 필요한 비트율을 줄이는 데에 이용될 수 있다. 이는 몇몇의 주파수 성분이 본래 신호에 존재하는 것과 같이 정확하게 나타날 필요가 없기 때문이지만, 본래의 것에서와 동일한 지각적인 효과를 제공하는 것들로 코딩되거나 이것들로 대체되지 않을 수 있다.
본 명세서에 기술된 디지털 미디어(예를 들면, 오디오, 비디오, 정지 이미지, 등) 인코딩/디코딩 기법은 몇몇의 주파수 성분이 잘 지각될 수 있거나, 부분적으로, 형태 지어진 잡음, 또는 다른 주파수 성분의 형태 지어진 버전을 이용하여 표현될 수 있거나, 또는 이 둘의 조합일 수 있다는 사실을 이용한다. 보다 상세히는, 몇몇의 주파수 대역(band)은 이미 코딩된 다른 대역의 형태 지어진 버전으로서 지각적으로 잘 나타날 수 있다. 실제 스펙트럼이 이 종합적인 버전으로부터 벗어날 수 있더라도, 이 스펙트럼은 여전히 질을 저하하지 않고 오디오 신호 인코딩의 비트율을 현저하게 낮추는데에 이용될 수 있는 지각적으로 좋은 표현이다.
대부분의 오디오 코덱은 MDCT(Modified Discrete Cosine Transform) 또는 MLT(Modulated Lapped Transform)과 같은 오버랩(overlap)되는 직교 변환 또는 부대역(sub-band) 변환 중 하나를 이용하는 스펙트럼 분해를 이용하는데, MDCT 또는 MLT는 시간-영역 표현으로부터의 오디오 신호를 스펙트럼 계수의 블럭들 또는 집합들로 변환한다. 그 다음 이들 스펙트럼 계수가 코딩되고 디코더에게 송신된다. 이들 스펙트럼 계수의 값들의 코딩은 오디오 코덱에서 이용되는 대부분의 비트율을 구성한다. 낮은 비트율에서, 오디오 시스템은 모든 계수를 성기게 코딩하여 품질이 낮게 복원되는 결과를 얻거나, 계수 중 소량을 코딩하여 지워지거나(muffled) 낮은-음을-통과시키는(low-pass) 사운딩 신호를 산출하도록 설계될 수 있다. 본 명세서에서 기술되는 오디오 인코딩/디코딩 기법은 이들 중 후자(즉, 후향 호환성(backward compatibility) 때문에 반드시 필요하지는 않지만, 오디오 코덱이, 소량의 계수, 통상적으로 낮은 계수를 코딩하도록 선택할 때)를 행할 때 오디오 품질을 향상시키는 데에 이용될 수 있다.
계수 중 소량만이 코딩될 때, 코덱은 복원시에 흐릿한 낮은-음을-통과시키는 사운드를 산출한다. 이러한 품질을 향상시키기 위하여, 기술한 인코딩/디코딩 기법은 총 비트율 중 낮은 비율을 소비하여, 상실된 스펙트럼 계수의 지각적으로 바람직한 버전을 추가하여 완전하게 풍부한 사운드를 산출한다. 이는 실제로 상실된 계수를 코딩하는 것이 아니라, 이 계수를 이미 코딩된 계수의 스케일(scale)링된 버전으로서 지각적으로 나타냄으로써 달성된다. 한 예에서, (WMA(Microsoft Windows Media Audio)와 같이) MLT 분해를 이용하는 코덱은 대역폭(bandwidth)의 특정 비율까지 코딩한다. 그 다음, 이러한 버전의 상술한 인코딩/디코딩 기법은 남은 계수를 (각각이 통상적으로 64 또는 128개의 스펙트럼 계수로 구성된 부대역과 같이) 특정 개수의 대역들로 나눈다. 이들 대역 각각에 대해, 이러한 버전의 인코딩/디코딩 기법은 2개의 파라미터: 대역 내의 총 에너지를 나타내는 스케일 계수, 및 대역 내의 스펙트럼의 형태를 나타내는 형태 파라미터를 이용하여 대역을 인코딩한다. 이들 스케일 계수 파라미터는 단순히 대역 내의 계수들의 자승평균(root-mean-square) 값이 될 수 있다. 형태 파라미터는 단순히, 이미 코딩된 스펙트럼의 유사한 부분으로부터 스펙트럼의 정규화된 버전을 복사해 냄으로써 인코딩되는 움직임 벡터일 수 있다. 특정 경우들에서, 형태 파라미터는 대안으로 정규화된 무작위 잡음 벡터 또는 단순히 몇몇의 다른 고정된 코드북(codebook)으로부터의 벡터를 지정할 수 있다. 통상적으로 많은 음조(tonal) 신호에서 스펙트럼을 통해 반복되는 화성 성분이 존재하기 때문에, 한 부분을 스펙트럼의 다른 부분으로부터 복사하는 것은 오디오에서 유용하다. 잡음 또는 몇몇의 다른 고정된 코드북의 사용은 스펙트럼의 임의의 이미 코딩된 부분에 의해 잘 나타나지 않는 성분들을 낮은 비트율로 코딩할 수 있게 한다. 이러한 코딩 기법은 본질적으로 이들 대역의 이득-형태(gain-shape) 벡터 양자화 코딩이며, 여기에서 벡터는 스펙트럼 계수의 주파수 대역이고, 코드북은 이전에 코딩된 스펙트럼으로부터 구하며, 다른 고정된 벡터 또는 무작위 잡음 벡터도 포함할 수 있다. 또한, 스펙트럼의 이러한 복사된 부분이 동일한 부분의 종래의 코딩에 추가된다면, 이러한 추가는 잔여 코딩(residual coding)이다. 이 코딩은 통상적인 신호 코딩이 소량의 비트로 코딩하기 쉬운 기본 표현(예를 들면, 스펙트럼 층의 코딩)을 제공하고, 나머지는 새로운 알고리즘으로 코딩되는 경우에 유용할 수 있다.
그러므로 상술된 인코딩/디코딩 기법은 기존의 오디오 코덱 보다 향상되었다. 상세히 기술하자면, 이 기법은 소정의 품질에서는 비트율을 감소시키고 고정된 비트율에서는 품질을 향상시키도록 한다. 이 기법은 다양한 모드(예를 들면, 연속적인 비트율 또는 가변 비트율, 하나의 패스(pass) 또는 복수의 패스)에서 오디오 코덱을 향상시키는 데에 이용될 수 있다.
본 발명의 추가적인 특징 및 이점은 첨부된 도면을 참조하여 진행하는 실시예들의 이하의 상세한 설명에 의하여 명백하게 이루어질 것이다.
도 1 및 도 2는 본 코딩 기법이 포함될 수 있는 오디오 인코더 및 디코더의 블럭도.
도 3은 도 1의 일반적인 오디오 인코더에 포함될 수 있는 넓은-뜻의 지각적 유사성을 이용하는 효과적인 오디오 코딩을 구현하는 기저대 코더 및 확장된 밴드 코더의 블럭도.
도 4는 도 3의 확장된 밴드 코더에서 넓은-뜻의 지각적 유사성을 이용하여 효과적인 오디오 코딩으로 대역을 인코딩하는 흐름도.
도 5는 도 2의 일반적인 오디오 디코더에 포함될 수 있는 기저대 디코더 및 확장된 밴드 디코더의 블럭도.
도 6은 도 5의 확장된 밴드 디코더에서 넓은-뜻의 지각적 유사성을 이용하여 효과적인 오디오 코딩으로 대역을 디코딩하는 흐름도.
도 7은 도 1의 오디오 인코더/디코더를 구현하는 적절한 컴퓨팅 환경의 블럭도.
이하의 상세한 설명은 본 발명에 따른 넓은-뜻의 지각적 유사성을 이용하는 디지털 미디어 스펙트럼 데이터의 디지털 미디어 인코딩/디코딩을 가지는 디지털 미디어 인코더/디코더 실시예들을 제시한다. 보다 상세히는, 이하의 설명은 오디오를 위한 이들 인코딩/디코딩 기법의 적용을 상세히 설명한다. 이 기법들은 다른 디지털 미디어 유형(예를 들면, 비디오, 정지 이미지, 등)의 인코딩/디코딩에도 적용될 수 있다. 이렇게 오디오에 적용시킴에 있어서, 이 오디오 인코딩/디코딩은 형태 지어진 잡음, 또는 다른 주파수 성분의 형태 지어진 버전, 또는 이 둘의 조합을 이용하는 몇몇의 주파수 성분을 나타낸다. 보다 상세히 기술하자면, 몇몇의 주파수 대역은 이미 코딩된 다른 밴드의 형태 지어진 버전으로서 나타날 수 있다. 이는 소정의 품질에서는 비트율을 감소시키거나 고정된 비트-율에서는 품질을 향상시키도록 한다.
1. 일반적인 오디오 인코더 및 디코더
도 1 및 도 2는, 넓은-뜻의 지각적 유사성을 이용하는 오디오 스펙트럼 데이터의 오디오 인코딩/디코딩을 위한, 본 명세서에서 기술된 기법을 포함할 수 있는 일반적인 오디오 인코더(100) 및 일반적인 오디오 디코더(200)의 블럭도이다. 인코더 및 디코더 내의 모듈들 간의 도시된 관계들은 인코더 및 디코더에서의 정보의 주된 흐름을 나타내며, 다른 관계들은 간결함을 위하여 도시되지 않는다. 원하는 압축 유형 및 구현에 따라서, 인코더 또는 디코더의 모듈들이 추가되고, 제거되고, 복수의 모듈들로 분할되고, 다른 모듈들과 결합되고/거나 유사한 모듈로 대체될 수 있다. 대안적인 실시예에서, 다른 모듈들 및/또는 다른 구성의 모듈들을 구비한 인코더 또는 디코더가 지각적인 오디오 품질을 측정한다.
넓은-뜻의 지각적인 유사성 오디오 스펙트럼 데이터 인코딩/디코딩이 포함될 수 있는 오디오 인코더/디코더의 보다 상세한 사항은 이하의 미국 특허 출원에 기술되며, 이 출원의 개시물들은 본 명세서에 참조로써 포함된다; 2001년 12월 14일에 출원된, 미국 특허 출원 번호 10/020,708; 2001년 12월 14일에 출원된, 미국 특허 출원 번호 10/016,918; 2001년 12월 14일에 출원된, 미국 특허 출원 번호 10/017,702; 2001년 12월 14일에 출원된 미국 특허 출원 번호 10/017,861; 및 2001년 12월 14일에 출원된 미국 특허 출원 번호 10/017,694.
A. 일반화된 오디오 인코더
일반화된 오디오 인코더(100)는 주파수 변환기(110), 멀티-채널 변환기(120), 지각 모델링기(130), 가중기(140), 양자화기(150), 엔트로피 인코더(160), 비율/품질 컨트롤러(170), 및 비트스트림 멀티플렉서(multiplexer)["MUX"](180)를 포함한다.
인코더(100)는 표 1에 나타난 것과 같은 포맷으로 시간적인 일련의 입력 오디오 샘플(105)을 수신한다. 복수의 채널을 가지는 입력(예를 들면, 스테레오 모드)에서, 인코더(100)는 독립적으로 채널을 처리하고, 멀티-채널 변환기(120)에 따라서 협력적으로 코딩된 채널을 가지고 동작할 수 있다. 인코더(100)는 오디오 샘플(105)을 압축하고 인코더(100)의 다양한 모듈에 의해 생성된 정보를 멀티플렉싱하여 "WMA" 또는 "ASF(Advanced Streaming format)"와 같은 포맷으로 비트스트림(195)을 출력한다. 대안으로, 인코더(100)는 다른 입력 및/또는 출력 포맷을 가지고 동작한다.
주파수 변환기(110)는 오디오 샘플(105)을 수신하고 이 샘플을 주파수 도메인으로된 데이터로 변환한다. 주파수 변환기(110)는 오디오 샘플(105)을 블럭들로 분할하는데, 이 블럭들은 가변적인 임시 해상도를 가능하게 하는 가변적인 사이즈를 가질 수 있다. 작은 블럭들은 입력 오디오 샘플(105)에서 짧지만 활동적인 이동 세그먼트로 시간 상세를 보다 크게 보존할 수 있지만, 주파수 해상도를 어느 정도 희생시킨다. 이와는 다르게, 큰 블럭들은 바람직한 주파수 해상도 및 바람직하지 않은 시간 해상도를 가지며, 일반적으로 길고 보다 덜 활동적인 세그먼트에서 압축을 보다 효과적이게 할 수 있게 한다. 블럭들은 오버랩되어 다른 경우 추후의 양자화에 의해 도입될 수 있는 블럭들 간의 지각가능한 불연속성을 줄일 수 있다. 주파수 변환기(110)는 주파수 계수 데이터의 블럭들을 멀티-채널 변환기(120)에 출력하고 블럭 사이즈와 같은 그 밖의 정보를 MUX(180)에 출력한다. 주파수 변환기(110)는 주파수 계수 데이터 및 그 밖의 정보를 모두 지각 모델링기(130)에 출력한다.
주파수 변환기(110)는 오디오 입력 샘플(105)의 프레임을 시간에 따라 사이즈가 변하는 오버래핑 부-프레임 블럭들로 파니셔닝(partition)하고 시간에 따라 변하는 MLT를 부-프레임 블럭들에 적용시킨다. 가능한 부-프레임 사이즈는 128, 256, 512, 1024, 2048, 및 4096 샘플들을 포함한다. MLT는 시간 윈도우 함수에 의해 변조되는 DCT와 같이 동작하는데, 여기에서 윈도우 함수는 시간에 따라 변하며 일련의 부-프레임 사이즈에 의존한다. MLT는 샘플들
Figure 112011059965875-pat00001
의 소정의 오버래핑 블럭을 주파수 계수
Figure 112011059965875-pat00002
의 블럭으로 변환시킨다. 주파수 변환기(110)는 또한 추후의 프레임의 복잡도에 대한 추정치를 비율/품질 컨트롤러(170)에 출력할 수 있다. 대안적인 실시예는 MLT의 다른 변형물들을 이용한다. 또 다른 대안적인 실시예에서, 주파수 변환기(110)는 DCT, FFT, 또는 다른 유형의 변조되거나 변조되지 않고, 오버래핑되거나 오버래핑되지 않은 주파수 변환을 적용하거나 부대역 또는 웨이브렛(wavelet) 코딩을 이용한다.
멀티-채널 오디오 데이터에서, 주파수 변환기(110)에 의해 생성되는 주파수 계수 데이터의 복수의 채널은 종종 상호 관련된다. 이러한 상호 관련을 이용하기 위하여, 멀티-채널 변환기(120)는 복수의 본래의, 독립적으로 코딩된 채널을 협력적으로 코딩된 채널로 변환할 수 있다. 예를 들면, 입력이 스테레오 모드인 경우, 멀티-채널 변환기(120)는 좌우 채널을 합 및 차분 채널로 변환할 수 있다:
Figure 112011059965875-pat00003
Figure 112011059965875-pat00004
또는 멀티-채널 변환기(120)는 독립적으로 코딩된 채널 등을 통하여 좌우 채널을 보낼 수 있다. 보다 일반적으로, 하나 이상의 복수의 입력 채널에서, 멀티-채널 변환기(120)는 본래의, 독립적으로 코딩된 채널을 변경되지 않은 채널을 통해 보내거나 본래의 채널을 협력적으로 코딩된 채널로 변환시킨다. 독립적으로 코딩된 채널을 이용할지 협력적으로 코딩된 채널을 이용할지에 대한 판정은 미리 정해질 수 있거나, 인코딩 중에 블럭 단위로 또는 다른 근거로 이 판정이 적응적으로 이루어질 수 있다. 멀티-채널 변환기(120)는 그 밖의 정보를, 사용되는 채널 변환 모드를 나타내는 MUX(180)에 생성한다.
지각 모델링기(130)는 사람의 청각 시스템의 속성들을 모델링하여 소정의 비트율에 대한 복원된 오디오 신호의 품질을 향상시킨다. 지각 모델링기(130)는 주파수 계수의 가변-사이즈 블럭의 자극 패턴을 계산한다. 먼저, 지각 모델링기(130)는 블럭의 증폭 스케일 및 사이즈를 정규화한다. 이 과정은 후속의 일시적 스미어링(smearing)을 가능하게하고 품질 측정치에 대하여 일관적인 스케일을 구축하게 한다. 선택적으로, 지각 모델링기(130)는 특정 주파수에서의 계수들을 감소시켜 외부/중간 귀(ear) 변환 함수를 모델링한다. 지각 모델링기(130)는 블럭 내의 계수들의 에너지를 계산하고 25개의 주요 밴드에 의하여 이 에너지들을 통합한다. 대안으로, 지각 모델링기(130)는 다른 개수의 주요 밴드(예를 들면, 55 또는 109)를 이용한다. 주요 밴드에 대한 주파수 범위는 구현에 따라 의존적이며, 방대한 선택사항들이 잘 알려져있다. 예를 들면, ITU-R BS 1387 또는 이에 언급된 참조에 기재되있다. 지각 모델링기(130)는 밴드 에너지들을 처리하여 동시적이며 일시적인 마스킹을 설명한다. 대안적인 실시예에서, 지각 모델링기(130)는 ITU-R BS 1387에서 기술되고 언급된 것과 같은, 다른 청각 모델에 따라 오디오 데이터를 처리한다.
가중기(140)는 지각 모델링기(130)로부터 수신된 자극 패턴에 기초하여 가중치 계수(대안적으로 양자화 매트릭스라고도 칭함)를 생성하고 이 가중치 계수를 멀티-채널 변환기(120)로부터 수신된 데이터에 적용시킨다. 가중치 계수는 오디오 데이터 내의 복수의 양자화 밴드 각각에 대한 가중치를 포함한다. 인코더(100)에서 양자화 대역은 다른 곳에 이용되는 주요 밴드와 수 또는 위치면에서 동일하거나 다를 수 있다. 가중치 계수는, 청취가 잘 되지 않는 밴드에서는 보다 많은 잡음을 위치시키고, 청취가 잘되는 밴드에서는 보다 적은 잡음을 위치시킴으로써 잡음의 청취가능성을 최소화하려는 목적으로, 잡음이 양자화 밴드들 상에 분포되는 비율을 나타낸다. 가중치 계수는 진폭 및 블럭에서 블럭으로의 양자화 밴드의 개수면에서 달라질 수 있다. 한 구현에서, 양자화 밴드의 개수는 블럭 사이즈에 따라서 변하고, 더 작은 블럭들은 더 큰 블럭보다 더 적은 양자화 대역을 가진다. 예를 들면, 128개의 계수를 가지는 블럭은 13개의 양자화 대역을 가지고, 256개의 계수를 가지는 블럭들은 15개의 양자화 대역을 가지며, 2048개의 계수를 가지는 블럭들은 25개의 양자화 밴드까지 가진다. 가중기(140)는 독립적으로 또는 협력적으로 코딩된 채널 내의 멀티-채널 오디오 데이터의 각 채널에 대한 가중치 계수의 집합을 생성하거나, 협력적으로 코딩된 채널에 대한 가중치 계수들의 하나의 집합을 생성한다. 대안적인 실시예에서, 가중기(140)는 자극 패턴과 다르거나 자극 패턴에 추가적인 정보로부터 가중치 계수를 생성한다.
가중기(140)는 계수 데이터의 가중된 블럭들을 양자화기(150)에 출력하고 가중 계수의 집합들과 같은 그 밖의 정보를 MUX(180)에 출력한다. 가중기(140)는 또한 가중치 계수들을 비율/품질 컨트롤러(140) 또는 인코더(100) 내의 다른 모듈들에 출력할 수 있다. 가중치 계수의 집합은 보다 효과적인 표현을 위하여 압축될 수 있다. 가중치 계수가 손실 압축되는 경우, 복원된 가중치 계수는 통상적으로 계수 데이터의 블럭을 가중시키는 데에 이용된다. 블럭의 밴드 내의 오디오 정보가 몇 가지 이유(예를 들면, 잡음 치환 또는 밴드 절단)로 인해 완전히 제거되었다면, 인코더(100)는 블럭의 양자화 매트릭스의 압축을 더 향상시킬 수 있다.
양자화기(150)는 가중기(140)의 출력을 양자화하여, 양자화된 계수 데이터를 엔트로피 인코더(160)에 생성하고 양자화 스텝 사이즈를 포함하는 그 밖의 정보를 MUX(180)에 생성한다. 양자화는 되돌릴 수 없는 정보의 손실을 일으키지만, 인코더(100)가 비율/품질 컨트롤러(170)에 관련하여 출력 스트림(195)의 비트율을 조절할 수도 있게 한다. 도 1에서, 양자화기(150)는 적응성의, 고유한 스칼라 양자화기이다. 양자화기(150)는 각 주파수 계수에 동일한 양자화 스텝 사이즈를 적용시키지만, 하나의 순환에서의 양자화 스텝 사이즈 자체는 다음의 순환에서 변경되어 엔트로피 인코더(160) 출력의 비트율에 영향을 미칠 수 있다. 대안적인 실시예에서, 양자화기는 고유하지-않은 양자화기, 벡터 양자화기, 및/또는 비-적응성의 양자화기이다.
엔트로피 인코더(160)는 양자화기(150)로부터 수신된 양자화된 계수 데이터를 비손실적으로 압축한다. 예를 들면, 엔트로피 인코더(160)는 복수의-레벨 실행 길이 코딩(multi-level run length coding), 변수-대-변수 길이 코딩(variable-to-variable length coding), 실행 길이 코딩(run length coding), 허프만 코딩(Huffman coding), 사전 코딩(dictionary coding), 산술 코딩(arithmetic coding), LZ 코딩, 상기 것들의 조합, 또는 몇몇의 다른 엔트로피 인코딩 기법을 이용한다.
비율/품질 컨트롤러(170)는 양자화기(150)와 함께 동작하여 인코더(100)의 출력의 비트율 및 품질을 조절한다. 비율/품질 컨트롤러(170)는 인코더(100)의 다른 모듈들로부터 정보를 수신한다. 한 구현에서, 비율/품질 컨트롤러(170)는 주파수 변환기(110)로부터 추후의 복잡도의 추정치들, 샘플링률, 블럭 사이즈 정보, 지각 모델링기(130)로부터 본래의 오디오 데이터의 자극 패턴, 가중기(140)로부터 가중치 계수, (예를 들면, 양자화된, 복원된, 또는 인코딩된) 몇몇의 형태로된 양자화된 오디오 정보의 블럭, 및 MUX(180)로부터 버퍼 상태 정보를 수신한다. 비율/품질 컨트롤러(170)는 양자화된 형태로부터 오디오 데이터를 복원시키는, 역 양자화기, 역 가중기, 역 멀티-채널 변환기를 포함하고, 잠재적으로, 엔트로피 디코더 및 다른 모듈들을 포함할 수 있다.
비율/품질 컨트롤러(170)는 소정의 현재 조건에서 원하는 양자화 스텝 사이즈를 결정하는 정보를 처리하고 양자화 스텝 사이즈를 양자화기(150)에 출력한다. 그 다음 비트/품질 컨트롤러(170)는, 후술될 바와 같이, 양자화 스텝 사이즈로 양자화된, 복원된 오디오 데이터의 블럭의 품질을 측정한다. 측정된 품질 및 비트율 정보를 이용하여, 비율/품질 컨트롤러(170)는, 동시에 그리고 장기간, 비트율 및 품질 제약사항을 만족시킬 목적으로 양자화 스텝 사이즈를 조정한다. 대안적인 실시예에서, 비율/품질 컨트롤러(170)는 다르거나 추가적인 정보를 가지고 동작하거나, 다른 기법들을 품질 및 비트율을 조절하는 데에 적용시킨다.
비율/품질 컨트롤러(170)에 관련하여, 인코더(100)는 잡음 치환, 밴드 절단, 및/또는 멀티-채널 재매트릭스화를 오디오 데이터의 블럭에 적용시킬 수 있다. 낮은 비트율 및 중간-비트율에서, 오디오 인코더(100)는 잡음 치환을 이용하여 특정 밴드 내의 정보를 변환시킬 수 있다. 밴드 절단에서는, 블럭의 측정된 품질이 낮은 품질을 나타낸다면, 인코더(100)는 (보통 보다 높은 주파수인) 특정 밴드에서 계수를 완전히 제거하여 나머지 밴드에서의 전체 품질을 향상시킬 수 있다. 멀티-채널 재매트릭스화에서는, 비트율 낮은, 협력적으로 코딩된 채널에서의 멀티-채널 오디오 데이터에 대하여, 인코더(100)는 특정 채널(예를 들면, 차분 채널)에서 정보를 억제하여 나머지 채널(들)(예를 들면, 합 채널)의 품질을 향상시킬 수 있다.
MUX(180)는 오디오 인코더(100)의 다른 모듈들로부터 수신된 그 밖의 정보를 엔트로피 인코더(160)로부터 수신된 엔트로피 인코딩된 데이터와 함께 멀티플렉싱한다. MUX(180)는 WMA 또는 오디오 디코더가 인식하는 다른 포맷으로 정보를 출력한다.
MUX(180)는 인코더(100)에 의해 출력되어야 할 비트스트림(195)을 저장하는 가상 버퍼를 포함한다. 가상 버퍼는 오디오에서의 복잡한 변경때문에 단기간의 비트율 변동을 고르게(smooth)하기 위하여 오디오 정보의 소정의 기간(예를 들면, 스트리밍 오디오 당 5초)을 저장한다. 그 다음 가상 버퍼는 상대적으로 일정한 비트율로 데이터를 출력한다. 현재 버퍼가 찬 정도, 버퍼의 찬 정도에 대한 변화율, 및 버퍼의 다른 특징들이 비율/품질 컨트롤러(170)에 의해 사용되어, 품질 및 비트율을 조절할 수 있다.
B. 일반화된 오디오 디코더
도 2를 참조하면, 일반화된 오디오 디코더(200)는 비트스트림 디멀티플렉서(demultiplexer)["DEMUX"](210), 엔트로피 디코더(220), 역 양자화기(230), 잡음 생성기(240), 역 가중기(250), 역 멀티-채널 변환기(260), 및 역 주파수 변환기(270)를 포함한다. 디코더(200)는 비율/품질 제어를 위한 모듈을 포함하지 않기 때문에 인코더(100)보다 간단하다.
디코더(200)는 WMA 또는 다른 포맷으로 압축된 오디오 데이터의 비트스트림(205)을 수신한다. 비트스트림(205)은 엔트로피 인코딩된 데이터 및 그 밖의 정보를 포함하는데, 이 데이터 및 정보로부터 디코더(200)는 오디오 샘플을 복원한다(295). 복수의 채널을 가지는 오디오 데이터에서, 디코더(200)는 각 채널을 독립적으로 처리하고, 역 멀티-채널 변환기(260) 이전에 협력적으로 코딩된 채널을 가지고 동작할 수 있다.
DEMUX(210)는 비트스트림(205) 내의 정보를 파싱하고 디코더(200)의 모듈들에 정보를 송신한다. DEMUX(210)는 오디오의 복잡도, 네트워크 지터(jitter), 및/또는 다른 계수들의 변동에 의한 비트율에서의 단기간 변동을 보완하기 위한 하나 이상의 버퍼를 포함한다.
엔트로피 디코더(220)는 DEMUX(210)로부터 수신된 엔트로피 코드들을 비손실적으로 압축해제하여, 양자화된 주파수 계수 데이터를 산출한다. 엔트로피 디코더(220)는 통상적으로 인코더에 이용되는 엔트로피 인코딩 기법을 역으로 적용시킨다.
역 양자화기(230)는 DEMUX(210)로부터 양자화된 스텝 사이즈를 수신하고 엔트로피 디코더(220)로부터 양자화된 주파수 계수 데이터를 수신한다. 역 양자화기(230)는 양자화 스텝 사이즈를 양자화된 주파수 계수 데이터에 적용시켜 부분적으로 주파수 계수 데이터를 복원시킨다. 대안적인 실시예에서, 역 양자화기는 인코더에 이용되는 몇몇의 다른 양자화 기법을 역으로 적용시킨다.
잡음 생성기(240)는 DEMUX(210)로부터 데이터의 블럭 내의 어떤 밴드가 치환되는 잡음인지에 대한 표시 및 이 잡음의 형태에 대한 임의의 파라미터를 수신한다. 잡음 생성기(240)는 표시된 밴드에 대한 패턴을 생성하고 역 가중기(250)에 정보를 전달한다.
역 가중기(250)는 DEMUX(210)로부터 가중치 계수를, 잡음 생성기(240)로부터 임의의 잡음이-치환된 밴드에 대한 패턴을, 및 역 양자화기(230)로부터 부분적으로 복원된 주파수 계수 데이터를 수신한다. 필요하다면, 역 가중기(250)는 가중치 계수를 압축해제한다. 역 가중기(250)는 가중치 계수를 잡음이 치환되지 않았던 밴드에 대한 부분적으로 복원된 주파수 계수 데이터에 적용시킨다. 그 다음 역 가중기(250)는 잡음 생성기(240)로부터 수신된 잡음 패턴들에게 추가한다.
역 멀티-채널 변환기(260)는 역 가중기(250)로부터 복원된 주파수 계수 데이터를 수신하고 DEMUX(210)로부터 채널 변환 모드 정보를 수신한다. 멀티-채널 데이터가 독립적으로 코딩된 채널 내에 있다면, 역 멀티-채널 변환기(260)는 이 채널을 지나간다. 멀티-채널 데이터가 협력적으로 코딩된 채널 내에 있다면, 역 멀티-채널 변환기(260)는 데이터를 독립적으로 코딩된 채널로 변환시킨다. 원한다면, 디코더(200)는 이 시점에서 복원된 주파수 계수의 품질을 측정할 수 있다.
역 주파수 변환기(270)는 멀티-채널 변환기(260)에 의해 출력된 주파수 계수 데이터 및 DEMUX(210)로부터 블럭 사이즈와 같은 그 밖의 정보를 수신한다. 역 주파수 변환기(270)는 인코더에 이용된 주파수 변환을 역으로 적용시키고 복원된 오디오 샘플(295)의 블럭을 출력한다.
2. 넓은-뜻의 지각적 유사성을 가지는 인코딩/디코딩
도 3은 도 1 및 도 2의 일반화된 오디오 인코더(100) 및 디코더(200)의 전체 오디오 인코딩/디코딩 프로세스에 포함될 수 있는 넓은-뜻의 지각적 유사성을 가지는 인코딩을 이용하는 오디오 인코더(300)의 한 구현을 도시한다. 이러한 구현에서, 오디오 인코더(300)는 MDCT 또는 MLT와 같은 오버랩되는 직교 변형 또는 부대역 변형 중 하나를 이용하여, 변환(320)에서 스펙트럼 분해를 수행하여 오디오 신호의 각 입력 블럭에 대하여 스펙트럼 계수들의 집합을 생성한다. 통상적으로 알려진 바와 같이, 오디오 인코더는 디코더에게 출력 비트스트림을 송신하기 위하여 이들 스펙트럼 계수를 코딩한다. 이들 스펙트럼 계수 값의 코딩이 오디오 코덱에서 사용되는 대부분의 비트율을 구성한다. 낮은 비트율에서, 오디오 인코더(300)는, 스펙트럼의 보다 낮은 또는 기저대 부분과 같은, 기저대 코더(340)를 이용하여 보다 적은 스펙트럼 계수(즉, 주파수 변환기(110)로부터 출력된 스펙트럼 계수의 대역폭의 비율 내에서 인코딩될 수 있는 복수의 계수)를 코딩하도록 선택한다. 기저대 코더(340)는 일반화된 오디오 인코더에 관하여 상술한 바와 같이, 종래의 알려진 코딩 구문을 이용하여 이들 기저대 스펙트럼 계수를 인코딩한다. 이는 일반적으로 복원된 오디오 사운딩이 지워지거나 낮은-음을-통과시키는 필터링이 되는 결과를 일으킬 것이다.
오디오 인코더(300)는 넓은-뜻의 지각적 유사성을 이용하여 제거된 스펙트럼 계수도 코딩함으로써 지워지거나/낮은-음을-통과시키는 효과를 방지한다. (본 명세서에서 "확장된 밴드 스펙트럼 계수"라고 칭하는) 기저대 코더(340)를 이용한 코딩으로부터 제거되었던 스펙트럼 계수는 형태 지어진 잡음, 또는 다른 주파수 성분의 형태 지어진 버전 또는 이 둘의 조합으로서 확장된 밴드 코더(350)에 의해 코딩된다. 보다 상세히 기술하자면, 확장된 밴드 스펙트럼 계수는 형태 지어진 잡음 또는 다른 주파수 성분의 형태 지어진 버전으로서 코딩되는, (예를 들면, 통상적으로 64 또는 128개의 스펙트럼 계수의) 복수의 부대역으로 나뉘어진다. 이는 상실되는 스펙트럼 계수의 지각적으로 바람직한 버전을 추가하여 완전히 풍부한 사운드를 제공한다. 실질적인 스펙트럼이 이러한 인코딩으로부터의 결과인 종합적인 버전으로부터 벗어날 수 있더라도, 이러한 확장된 밴드 코딩은 본래의 것에서와 유사한 지각적 효과를 제공한다
몇몇의 구현에서, 베이스-밴드의 폭(즉, 기저대 코더(340)를 이용하여 코딩된 기저대 스펙트럼 계수의 수), 및 확장된 밴드의 사이즈 또는 개수가 변할 수 있다. 이러한 경우, 베이스 밴드의 폭 및 확장된 밴드 코더(350)를 이용하여 코딩된 확장된 밴드의 개수(또는 사이즈)는 출력 스트림(195)으로 코딩될 수 있다.
오디오 인코더(300)에서 기저대 스펙트럼 계수와 확장된 밴드 계수 간의 비트스트림의 파티셔닝이 이루어져, 기저대 코더의 코딩 구문에 기초하는 기존의 디코더와의 후향 호환성을 보장하여 이러한 기존의 디코더가 기저대 코딩된 부분을 디코딩할 수 있는 반면 확장된 부분은 무시하도록한다. 그 결과는 새로운 디코더만이 확장된 밴드 코딩된 비트스트림에 의해 수용되는 완전한 스펙트럼을 랜더링하는 기능을 가지는 반면에, 기존의 디코더는 인코더가 기존의 구문을 가지고 인코딩하도록 선택했던 부분만을 랜더링할 수 있다는 것이다. 주파수 경계는 유연하고 시간에 따라 변할 수 있다. 이 주파수 경계는 신호 특징에 기초하는 인코더에 의해 결정되어 디코더에게 명시적으로 송신될 수 있거나, 디코딩된 스펙트럼의 기능이 될 수 있어서, 송신될 필요가 없을 수 있다. 기존의 디코더가 기존의 (기저대) 코덱을 이용하여 코딩된 부분만을 디코딩할 수 있기 때문에, 이는 스펙트럼의 낮은 부분은 기존의 코덱으로 코딩되고 높은 부분은 넓은-뜻의 지각적 유사성을 이용하는 확장된 밴드 코딩을 이용하여 코딩됨을 의미한다.
이러한 후향 호환성이 필요하지 않은 다른 실시예에서는, 인코더는 주파수 위치를 고려하지 않고 인코딩 비용 및 신호 특징에만 전적으로 기초하여 종래의 기저대 코딩과 확장된 밴드(넓은-뜻의 지각적인 유사성 접근법) 중에서 자유롭게 선택할 수 있다. 예를 들면, 상당히 자연스러운 신호와 다르게 되더라도, 종래의 코덱으로 높은 주파수를 인코딩하고 확장된 코덱을 이용하여 낮은 부분을 인코딩하는 것이 더 바람직할 수 있다.
도 4는 도 3의 확장된 밴드 코더(350)에 의해 수행되어 확장된 밴드 스펙트럼 계수를 인코딩하는 오디오 인코딩 프로세스(300)를 도시하는 흐름도이다. 오디오 인코딩 프로세스(400)에서, 확장된 밴드 코더(350)는 확장된 밴드 스펙트럼 계수를 복수의 부대역들로 나눈다. 통상적인 구현에서, 이러한 부대역은 일반적으로 64 또는 128개의 스펙트럼 계수로 각각 구성될 것이다. 대안으로, 다른 사이즈의 부대역(예를 들면, 16, 32 또는 다른 개수의 스펙트럼 계수)이 이용될 수 있다. 부대역은 분리될 수 있거나 (윈도윙을 이용하여) 오버래핑될 수 있다. 오버래핑 부대역을 이용하면, 보다 많은 밴드가 코딩될 수 있다. 예를 들면, 128개의 스펙트럼 계수가 사이즈 64의 부대역을 가지는 확장된 밴드 코더를 이용하여 코딩되어야 한다면, 우리는 계수를 코딩하는 데에 2개의 분리된 대역을 이용하여 계수 0 내지 63은 한 부대역으로서 코딩하고 계수 64 내지 127은 다른 부대역으로서 코딩할 수 있다. 대안으로 우리는, 50% 오버랩을 가지는 3개의 오버래핑 대역을 이용하여 0 내지 63은 한 밴드로서, 32 내지 95는 다른 밴드로서, 및 64 내지 127은 제3 밴드로서 코딩할 수 있다.
이들 부대역 각각에서, 확장된 밴드 코더(350)는 2개의 파라미터를 이용하여 대역을 코딩한다. 한 파라미터("스케일 파라미터")는 밴드에서의 총 에너지를 표현하는 스케일 계수이다. 다른 파라미터(일반적으로 움직임 벡터 형태로 된 "형태 파라미터")는 밴드 내의 스펙트럼의 형태를 표현하는 데에 이용된다.
도 4의 흐름도에 도시된 바와 같이, 확장된 밴드 코더(350)는 확장된 밴드의 각 부대역에 대하여 프로세스(400)를 수행한다. 먼저(참조번호(420)에서), 확장된 밴드 코더(350)는 스케일 계수를 계산한다. 한 구현에서, 스케일 계수는 단순히 현재 부대역 내의 계수들의 자승평균 값이다. 이 값은 모든 계수의 평균 제곱된 값의 제곱근을 구함으로써 얻는다. 평균 제곱된 값은 부대역에서의 모든 계수의 제곱된 값을 함하고, 계수들의 개수로 나눔으로써 얻어진다.
그 다음 확장된 밴드 코더(350)는 형태 파라미터를 결정한다. 형태 파라미터는 일반적으로 이미 코딩된 스펙트럼 부분(즉, 기저대 코더로 코딩된 기저대 스펙트럼 계수들의 부분)으로부터 스펙트럼의 정규화된 버전을 단순히 복사함을 지시하는 움직임 벡터이다. 특정한 경우에서, 형태 파라미터는 대안으로 정규화된 무작위 잡음 벡터 또는 고정된 코드북으로부터 단순히 스펙트럼 형태에 대한 한 벡터를 지정할 수 있다. 통상적으로 많은 음조 신호에서 스펙트럼 전반에 반복되는 화성 성분들이 존재하기 때문에, 스펙트럼의 다른 부분으로부터 형태를 복사하는 것은 오디오에서 유용하다. 잡음 또는 몇몇의 다른 고정된 코드북의 사용은 스펙트럼의 기저대-코딩된 부분에 잘 나타나지 않는 성분들을 낮은 비트율로 코딩할 수 있게 한다. 따라서, 프로세스(400)는 본질적으로 이들 밴드의 이득-형태 벡터 양자화 코딩이 되는 코딩의 방법을 제공하는데, 여기에서 벡터는 스펙트럼 계수의 주파수 밴드이고, 코드북은 미리 코딩된 스펙트럼으로부터 구하며, 다른 고정된 벡터 또는 무작위 잡음 벡터를 포함할 수도 있다. 즉, 확장된 밴드 코더에 의해 코딩된 각각의 부대역은 a*X로서 나타나는데, 여기에서 'a'는 스케일 파라미터이고 'X'는 형태 파라미터에 의해 표현되는 벡터이며, 이전에 코딩된 스펙트럼 계수의 정규화된 버전, 고정된 코드북으로부터의 벡터, 또는 무작위 잡음 벡터일 수 있다. 또한, 스펙트럼의 이 복사된 부분이 이와 동일한 부분의 종래의 코딩에 추가된다면, 이 추가는 잔여 코딩이다. 이 코딩은 종래의 신호 코딩이 소량의 비트로 코딩하기 쉬운 기본 표현(예를 들면, 스펙트럼 층의 코딩)을 제공하고 나머지는 새로운 알고리즘으로 코딩되는 경우에 유용할 수 있다.
보다 상세히 기술하자면, 액션(430)에서, 확장된 밴드 코더(350)는 확장된 밴드의 현재 부대역과 유사한 형태를 가지는 기저대 스펙트럼 계수들 중에서 유사한 대역을 찾기 위하여 기저대 스펙트럼 계수들을 검색한다. 확장된 밴드 코더는 정규화된 버전의 기저대의 부분 각각과의 최소-평균-제곱의 비교를 이용하여 현재 부대역과 가장 유사한 기저대의 부분을 결정한다. 예를 들면, 입력 블럭으로부터 변환(320)에 의해 산출된 256개의 스펙트럼 계수가 존재하는 경우를 고려하면, 확장된 밴드 부대역들은 폭이 각각 16개의 스펙트럼 계수이고, 기저대 코더는 기저대로서 (0 내지 127로 번호가 매겨진) 처음 128개의 스펙트럼 계수를 인코딩한다. 그 다음, 검색은 각각의 확장된 밴드에서의 정규화된 16개의 스펙트럼 계수의, 정규화된 버전의 0 내지 111 까지의 계수 위치에서 시작하는 기저대의 16개의 스펙트럼 계수 부분 각각(즉, 이 경우에서는 기저대에서 코딩된 총 112개의 가능한 다른 스펙트럼 형태)과의 최소-평균-제곱 비교를 수행한다. 가장 낮은 최소-평균-제곱 값을 가지는 기저대 부분이 현재 확장된 밴드와 형태면에서 가장 근접하다고(가장 유사하다고) 고려된다. 액션(432)에서, 확장된 밴드 코더는 기저대 스펙트럼 계수 중에서 이러한 가장 유사한 밴드가 현재 확장된 밴드와 형태면에서 충분히 근접한지(예를 들면, 최소-평균-제곱 값이 소정의 임계치보다 낮은지) 여부를 검사한다. 근접하다면, 액션(434)에서 확장된 밴드 코더는 기저대 스펙트럼 계수의 이러한 가장 근접하게 일치하는 대역을 가리키는 움직임 벡터를 결정한다. 움직임 벡터는 기저대의 시작하는 계수 위치(예를 들면, 이 예에서는 0 내지 111)일 수 있다. (음조인지 음조가 아닌지를 검사하는 등의) 다른 방법이 또한 기저대 스펙트럼 계수 중 가장 유사한 밴드가 현재 확장된 밴드와 형태면에서 충분히 근접한지 여부를 알기 위하여 이용될 수 있다.
기저대의 부분이 충분히 유사하지 않다고 발견된 경우, 확장된 밴드 코더는 현재 부대역을 나타내는 스펙트럼 형태의 고정된 코드북을 탐색한다. 확장된 밴드 코더는 현재 부대역의 스펙트럼 형태와 유사한 스펙트럼 형태를 찾기 위하여 이 고정된 코드북을 검색한다. 찾아냈다면, 액션(444)에서 확장된 밴드 코더는 코드북 내의 그 찾아낸 밴드의 인덱스를 형태 파라미터로 이용한다. 그렇지 않으면, 액션(450)에서, 확장된 밴드 코더는 정규화된 무작위 잡음 벡터로서 현재 부대역의 형태를 나타내는 것을 결정한다.
대안적인 구현에서, 확장된 밴드 인코더는 기저대에서의 가장 바람직한 스펙트럼 형태를 찾기 위한 검색 이전에도 잡음을 이용하여 나타낼 수 있는 스펙트럼 계수들을 결정할 수 있다. 이 방식은 기저대에서 충분히 근접한 스펙트럼 형태가 발견되는 경우에서도 확장된 밴드 코더는 여전히 무작위 잡음을 이용하여 그 부분을 코딩할 것이다. 이 방식은 기저대에서의 부분에 대응하는 움직임 벡터를 송신하는 것에 비해 적은 비트를 산출할 수 있다.
액션(460)에서, 확장된 밴드 코더는 예측 코딩, 양자화 및/또는 엔트로피 코딩을 이용하여 스케일 및 형태 파라미터(즉, 이 구현에서는 스케일 계수 및 움직임 벡터)를 인코딩한다. 한 구현에서, 예를 들면, 스케일 파라미터는 바로 이전의 확장된 부대역에 기초하여 예측 코딩된다. (확장된 밴드의 부대역의 스케일링 계수의 값은 통상적으로 유사하여, 계승되는 부대역은 통상적으로 값이 근접한 스케일링 계수를 갖는다.) 다시 말하면, 확장된 밴드의 제1 부대역의 스케일링 계수의 전체 값이 인코딩된다. 후속의 부대역은 자신의 실제값과 자신의 예측 값(즉, 이전의 부대역의 스케일링 계수가 되는 예측값)과의 차이로서 코딩된다. 멀티-채널 오디오에서, 각 채널에서의 확장된 밴드의 제1 부대역은 자신의 전체 값으로서 인코딩되고, 후속 부대역의 스케일링 계수는 채널에서의 선행하는 부대역의 스케일링 계수로부터 예측된다. 대안적인 구현에서, 다른 변형물들 중에서, 스케일 파라미터는 채널을 통하여, 하나 이상의 다른 부대역으로부터, 기저대 스펙트럼으로부터, 또는 이전의 오디오 입력 블럭으로부터 예측될 수도 있다.
확장된 밴드 코더는 균일하거나 균일하지 않은 양자화를 이용하여 스케일 파라미터를 더 양자화한다. 한 구현에서는, 스케일 파라미터의 균일하지 않은 양자화가 이용되는데, 여기에서 스케일 계수의 로그는 균일하게 128 bins으로 양자화된다. 그 다음 양자화된 값의 결과는 허프만 코딩을 이용하여 엔트로피 코딩된다.
형태 파라미터에 대하여, 확장된 밴드 코더는 (스케일 파라미터에서와 같이 선행하는 부대역으로부터 예측될 수 있는) 예측 코딩, 64 bins으로의 양자화, 및 엔트로피 코딩(예를 들면, 허프만 코딩)도 이용한다.
몇몇의 구현에서, 확장된 밴드 부대역들은 사이즈가 변할 수 있다. 이러한 경우에서, 확장된 밴드 코더는 확장된 밴드의 구성도 인코딩한다.
보다 상세히 기술하자면, 한 예시적인 구현에서, 확장된 밴드 코더는 다음의 코드 테이블에 의사-코드 리스팅에 의해 나타난 바와 같이, 스케일 및 형태 파라미터를 인코딩한다.
Figure 112011059965875-pat00005
상기 코드 리스팅에서, 밴드 구성(즉, 밴드의 수, 및 그 사이즈)을 지정하는 코딩은 확장된 밴드 코더를 이용하여 코딩되어야 할 스펙트럼 계수의 수에 의존한다. 확장된 밴드 코더를 이용하여 코딩되는 계수의 수는 확장된 밴드의 시작 위치 및 스펙트럼 계수의 총 수(확장된 밴드 코더를 이용하여 코딩되는 스펙트럼 계수의 수 = 스펙트럼 계수의 총수 - 시작 위치)를 이용하여 얻을 수 있다. 그 다음 밴드 구성은 허용되는 모든 가능한 구성의 리스팅으로의 인덱스로서 코딩된다. 이 인덱스는 n_config=log2(구성의 개수) 비트를 가지는 고정된 길이 코드를 이용하여 코딩된다. 허용되는 구성은 이러한 방법을 이용하여 코딩되어야할 스펙트럼 계수의 수의 함수이다. 예를 들면, 128개의 계수가 코딩되어야 한다면, 디폴트 구성은 사이즈 64인 2개의 밴드이다. 예를 들면 이하의 테이블에 리스트된 것과 같은 다른 구성들이 가능할 수 있다.
128개의 스펙트럼 계수에 대한 밴드 구성의 리스팅
0: 128
1: 64 64
2: 64 32 32
3: 32 32 64
4: 32 32 32 32
그러므로, 이 예에서는, 5개의 가능한 밴드 구성이 존재한다. 이러한 구성에서, 계수들에 대한 디폴트 구성은 'n' 밴드들을 가지는 것으로 선택된다. 그 다음, (한 레벨만) 각 대역을 분할하거나 병합시키도록 함으로써, 5(n/2)개의 가능한 구성이 존재하며, 이는 코딩하는 데 (n/2)log2(5) 비트가 필요하다. 다른 구현에서, 가변적인 길이 코딩이 이 구성을 코딩하는 데에 이용될 수 있다.
상술한 바와 같이, 스케일 계수는 예측 코딩을 이용하여 코딩되는데, 여기서 예측치는 동일한 채널 내의 이전 밴드로부터의 이전에 코딩된 스케일 계수들로부터, 동일한 타일 내의 이전 채널들로부터, 또는 이전에 코딩된 타일들로부터 구할 수 있다. 소정의 구현에서, 가장 높은 상호관련성이 제공된 (동일한 확장된 밴드, 채널 또는 타일(입력 블럭) 내의) 이전 대역을 탐색함으로써 예측에 대한 선택이 이루어질 수 있다. 일 구현예에서, 대역은 다음과 같이 예측 코딩된다.
타일 내의 스케일 계수들을 x[i][j]라고 하며, i= 채널 인덱스, j=밴드 인덱스이다.
Figure 112011059965875-pat00006
상기 코드표에서, "형태 파라미터"는 이전 스펙트럼 계수들의 위치를 지정하는 움직임 벡터, 또는 고정된 코드북으로부터의 벡터, 또는 잡음이다. 이전의 스펙트럼 계수들은 동일한 채널 내로부터, 또는 이전의 채널로부터, 또는 이전의 타일들로부터 존재할 수 있다. 형태 파라미터는 예측치를 이용하여 코딩되는데, 여기서 예측치는 동일한 채널 내의 이전의 밴드에 대한 이전의 위치, 동일한 타일 내의 이전 채널, 또는 이전의 타일로부터 구할 수 있다.
도 5는 오디오 인코더(300)에 의해 산출된 비트스트림을 위한 오디오 디코더(500)를 도시한다. 이 디코더에서, 인코딩된 비트스트림(205)이 비스스트림 디멀티플렉서(210)에 의해, (예를 들면, 코딩된 기저대 폭 및 확장된 밴드 구성에 기초하여) 기저대 디코더(540) 및 확장된 밴드 디코더(550)에서 디코딩될 기저대 코드 스트림 및 확장된 밴드 코드 스트림으로 디멀티플렉싱된다. 기저대 디코더(540)는 기저대 코덱의 통상적인 디코딩을 이용하여 기저대 스펙트럼 계수들을 디코딩한다. 확장된 밴드 디코더(550)는, 형태 파라미터의 움직임 벡터가 가리키는 기저대 스펙트럼 계수의 부분들을 복사해내고 스케일 파라미터의 스케일 계수로 스케일링하는 것을 포함하는, 확장된 밴드 코드 스트림을 디코딩한다. 기저대 및 확장된 밴드 스펙트럼 계수들은 역 변환(580)에 의해 변환되어 하나의 스펙트럼으로 결합되어 오디오 신호를 복원시킨다.
도 6은 도 5의 확장된 밴드 디코더(550)에 이용되는 디코딩 프로세스(600)를 도시한다. 확장된 밴드 코드 스트림 내의 확장된 밴드의 각 코딩된 부대역에 대하여(액션(610)), 확장된 밴드 디코더는 스케일 계수(액션(620)) 및 움직임 벡터(액션(630))를 디코딩한다. 그 다음 확장된 밴드 디코더는 움직임 벡터(형태 파라미터)에 의해 식별되는 기저대 부대역, 고정된 코드북 벡터, 또는 무작위 잡음 벡터를 복사한다. 확장된 밴드 디코더는 스케일링 계수로 복사된 스펙트럼 밴드 또는 벡터를 스케일링하여 확장된 밴드의 현재 부대역에 대한 스펙트럼 계수들을 산출한다.
3. 컴퓨팅 환경
도 7은 예시적인 실시예가 구현될 수 있는 적절한 컴퓨팅 환경(700)의 일반적인 예를 도시한다. 본 발명은 다양한 범용 또는 특수-목적 컴퓨팅 환경에서 구현될 수 있기 때문에, 컴퓨팅 환경(700)은 본 발명의 사용 또는 기능의 범위에 제한을 가하도록 의도된 것은 아니다.
도 7을 참조하면, 컴퓨팅 환경(700)은 적어도 하나의 프로세싱 유닛(710) 및 메모리(720)를 포함한다. 도 7에서, 이 가장 기본적인 구성(730)은 점선 안에 포함된다. 프로세싱 유닛(710)은 컴퓨터-실행가능 명령어를 실행시키고 실제 또는 가상 프로세서일 수 있다. 다중-프로세싱 시스템에서, 다중 프로세싱 유닛이 컴퓨터-실행가능 명령어를 실행시켜 프로세싱 성능을 높인다. 메모리(720)는 휘발성 메모리(예를 들면, 레지스터, 캐쉬, RAM), 비휘발성 메모리(예를 들면, ROM, EEPROM, 플래쉬 메모리, 등), 또는 이 둘의 몇몇의 조합일 수 있다. 메모리(720)는 오디오 인코더를 구현하는 소프트웨어(780)를 저장한다.
컴퓨팅 환경은 추가적인 특징들을 가질 수 있다. 예를 들면, 컴퓨팅 환경(700)은 저장 장치(740), 하나 이상의 입력 장치(750), 하나 이상의 출력 장치(760), 및 하나 이상의 통신 접속(770)을 포함한다. 버스, 컨트롤러 또는 네트워크와 같은 (도시되지 않은) 상호접속 메카니즘이 컴퓨팅 환경(700)의 컴포넌트들을 상호접속시킨다. 통상적으로, (도시되지 않은) 오퍼레이팅 시스템 소프트웨어는 컴퓨팅 환경(700)에서 실행되는 다른 소프트웨어를 위한 오퍼레이팅 환경을 제공하고, 컴퓨팅 환경(700)의 컴포넌트의 활동들을 조정한다.
저장 장치(740)는 분리형이거나 비분리형일 수 있으며, 자기 디스크, 자기 테입 또는 카세트, CD-ROM, CD-RW, DVD, 또는 컴퓨팅 환경(700)에 의해 액세스될 수 있고 정보를 저장하는 데 사용될 수 있는 임의의 기타 매체를 포함한다. 저장 장치(740)는 오디오 인코더를 구현하는 소프트웨어(780)에 대한 명령어를 저장한다.
입력 장치(들)(750)는 컴퓨팅 환경(700)에 입력을 제공하는 키보드, 마우스, 펜, 또는 트랙볼과 같은 접촉 입력 장치, 음성 입력 장치, 스캐닝 장치, 또는 다른 장치일 수 있다. 오디오에서, 입력 장치(들)(750)는 아날로그 또는 디지털 형태로 된 오디오 입력을 수신하는 사운드 카드 또는 유사한 장치일 수 있다. 출력 장치(들)(760)는 컴퓨팅 환경(700)으로부터의 출력을 제공하는 디스플레이, 프린터, 스피커, 또는 다른 장치일 수 있다.
통신 접속(들)(770)은 통신 매체 상에서 다른 컴퓨팅 엔티티와 통신할 수 있게 한다. 통신 매체는 컴퓨터-실행가능 명령어, 압축된 오디오 또는 비디오 정보, 또는 변조된 데이터 신호로된 다른 데이터와 같은 정보를 변환한다. 변조된 데이터 신호는 신호 내에 정보를 인코딩하도록 설정되거나 변환된 특성을 하나 또는 그 이상을 갖는 신호이다. 예로서, 통신 매체는 전자, 광학, RF, 적외선, 음향 또는 반송파로 구현되는 유선 또는 무선 기법을 포함한다.
본 발명은 컴퓨터 판독가능 매체와 일반적으로 관련하여 기술될 수 있다. 컴퓨터-판독가능 매체는 컴퓨팅 환경 내에서 액세스될 수 있는 임의의 이용가능한 매체이다. 예로서, 컴퓨팅 환경(700)에서, 컴퓨터 판독가능 매체는 메모리(720), 저장 장치(740), 통신 매체, 및 상기 것들의 임의의 조합을 포함하지만, 이에 한정되지 않는다.
본 발명은 대상이되는 실제 또는 가상 프로세서 상의 컴퓨팅 환경에서 실행되는, 프로그램 모듈에 포함되는 명령어들과 같은, 컴퓨터 실행가능 명령어와 일반적으로 관련하여 기술될 수 있다. 일반적으로, 프로그램 모듈은 특정 태스크를 수행하거나 특정 추상 데이터 유형을 구현하는 루틴, 프로그램, 라이브러리, 오브젝트, 클래스, 컴포넌트, 데이터 구조 등을 포함한다. 프로그램 모듈의 기능은 다양한 실시예에서 원할 경우 프로그램 모듈들 간에 결합되거나 분할될 수 있다. 프로그램 모듈에 대한 컴퓨터-실행가능 명령어는 국부 또는 분산된 컴퓨팅 환경 내에서 실행될 수 있다.
표현을 위하여, 상세한 설명은 "판정한다", "얻는다", "조절한다", 및 "적용한다"와 같은 용어를 이용하여 컴퓨팅 환경에서의 컴퓨터 동작을 기술한다. 이들 용어는 컴퓨터에 의해 수행되는 동작에 대한 고급 추상화이며, 사람에 의해 수행되는 행위와 혼동되어서는 안된다. 이들 용어에 대응하는 실제 컴퓨터 동작은 구현에 따라 달라진다.
본 발명의 원리가 적용될 수 있는 수많은 가능한 실시예의 관점에서, 본 발명자는 특허 청구 범위와 그 동등물의 사상 및 범위 내에 수용할 수 있는 모든 실시예들을 본 발명으로서 청구한다.

Claims (40)

  1. 디코더에서, 인코딩된 오디오 비트스트림에 대한 오디오 디코딩을 수행하는 방법으로서,
    상기 인코딩된 오디오 비트스트림으로부터 하나 이상의 기저대 스펙트럼 계수를 디코딩하는 단계; 및
    형태 파라미터(shape parameter)에 따라 하나 이상의 식별된 기저대 스펙트럼 계수를 복사하고, 스케일 파라미터(scale parameter)에 따라 상기 복사된 하나 이상의 식별된 기저대 스펙트럼 계수를 스케일링(scaling)함으로써, 하나 이상의 확장된 대역 스펙트럼 계수를 디코딩하는 단계
    를 포함하는 방법.
  2. 제1항에 있어서,
    상기 형태 파라미터는 복사될 하나 이상의 기저대 스펙트럼 계수를 식별하는 움직임 벡터(motion vector)를 포함하는 방법.
  3. 제1항에 있어서,
    상기 형태 파라미터는 코드북에 스펙트럼 형태에 대한 벡터를 포함하는 방법.
  4. 제1항에 있어서,
    상기 형태 파라미터는 코드북에 스펙트럼 형태에 대한 벡터를 포함하고,
    상기 하나 이상의 확장된 대역 스펙트럼 계수를 디코딩하는 단계는 상기 코드북으로부터 상기 스펙트럼 형태를 복사하는 단계를 더 포함하는 방법.
  5. 제1항에 있어서,
    상기 형태 파라미터는 정규화된 무작위 잡음 벡터를 포함하는 방법.
  6. 제1항 내지 제5항 중 어느 한 항에 있어서,
    상기 인코딩된 오디오 비트스트림으로부터 상기 형태 파라미터 및 상기 스케일 파라미터를 디코딩하는 단계를 더 포함하는 방법.
  7. 제1항 내지 제5항 중 어느 한 항에 있어서,
    상기 스케일 파라미터는 상기 인코딩된 오디오 비트스트림이 인코딩된 스펙트럼 계수들의 대역의 총 에너지를 나타내는 스케일링 계수(scaling factor)를 포함하는 방법.
  8. 제1항 내지 제5항 중 어느 한 항에 있어서,
    상기 스케일 파라미터는 스케일링 계수를 포함하고,
    상기 스케일링 계수는 상기 인코딩된 오디오 비트스트림이 인코딩된 스펙트럼 계수들의 rms(root-mean-square) 값인 방법.
  9. 제1항 내지 제5항 중 어느 한 항에 있어서,
    상기 방법은, 상기 디코딩된 하나 이상의 기저대 스펙트럼 계수 및 상기 디코딩된 하나 이상의 확장된 대역 스펙트럼 계수를 입력 오디오 신호 블럭의 재생(reproduction)으로 변환하는 역 변환(inverse transform) 동작을 수행하는 단계를 더 포함하는 방법.
  10. 제1항 내지 제5항 중 어느 한 항에 있어서,
    상기 스케일 파라미터는 복수의 확장된 대역 스펙트럼 계수에 대한 스케일링 계수들을 주파수의 함수로서 산출하는 다항식 관계(polynomial relation)를 특징으로 하는 계수들을 포함하는 방법.
  11. 제1항 내지 제5항 중 어느 한 항에 있어서,
    상기 디코딩하는 단계는 상기 형태 파라미터가 움직임 벡터인지 여부를 결정하는 단계, 및
    상기 형태 파라미터가 움직임 벡터이면, 상기 움직임 벡터가 가리키는 상기 기저대 스펙트럼 계수들 중 일부를 복사하는 단계
    를 더 포함하는 방법.
  12. 제1항 내지 제5항 중 어느 한 항에 있어서,
    상기 디코딩하는 단계는 상기 형태 파라미터가 코드북 내의 스펙트럼 형태에 대한 벡터인지 여부를 결정하는 단계, 및
    상기 형태 파라미터가 코드북 내의 스펙트럼 형태에 대한 벡터이면, 이전에 디코딩된 기저대 스펙트럼 계수들 또는 이전에 디코딩된 확장된 대역 스펙트럼 계수들 또는 이들 모두로부터 상기 코드북의 일부를 복사하는 단계
    를 더 포함하는 방법.
  13. 제1항 내지 제5항 중 어느 한 항에 있어서,
    상기 디코딩하는 단계는 상기 형태 파라미터가 무작위 잡음 벡터인지 여부를 결정하는 단계, 및
    상기 형태 파라미터가 무작위 잡음 벡터이면, 상기 무작위 잡음 벡터가 가리키는 상기 무작위 잡음 벡터의 일부를 복사하는 단계
    를 더 포함하는 방법.
  14. 컴퓨터에 의해 실행될 때, 상기 컴퓨터로 하여금, 제1항 내지 제5항 중 어느 한 항의 방법을 수행하게 하는 컴퓨터 실행가능 명령어들을 저장하는 하나 이상의 컴퓨터 판독가능 기억 매체.
  15. 디코더에서, 인코딩된 오디오 비트스트림에 대한 오디오 디코딩을 수행하는 방법으로서,
    상기 인코딩된 오디오 비트스트림으로부터 하나 이상의 기저대 스펙트럼 계수를 디코딩하는 단계; 및
    상기 인코딩된 오디오 비트스트림으로부터 하나 이상의 확장된 대역 스펙트럼 계수를 디코딩하는 단계
    를 포함하고,
    상기 인코딩된 오디오 비트스트림은,
    입력 오디오 신호 블럭을 스펙트럼 계수들의 집합으로 변환하고,
    상기 스펙트럼 계수들을 복수의 대역으로 분할하고,
    출력 비트스트림 내의 상기 대역들 중 적어도 하나의 대역의 스펙트럼 계수들의 값들을 코딩하고,
    다른 대역들 중 적어도 하나의 대역에 대하여, 상기 출력 비트스트림 내의 적어도 하나의 다른 대역을 스펙트럼 계수 값들로서 코딩된 상기 대역들 중 적어도 하나의 대역의 일부의 형태의 스케일링된 버전으로서 코딩함으로써 인코딩되고,
    상기 적어도 하나의 다른 대역을 코딩하는 것은 스케일 파라미터 및 형태 파라미터를 사용하여 상기 다른 대역을 코딩하는 것을 포함하고,
    상기 스케일 파라미터는 상기 일부를 스케일링하는 스케일링 계수인 방법.
  16. 제15항에 있어서,
    상기 형태 파라미터는 움직임 벡터를 포함하며, 상기 스펙트럼 계수 값들로서 코딩된 대역들 중 적어도 하나의 대역의 일부를 나타내는 방법.
  17. 제16항에 있어서,
    상기 움직임 벡터는 상기 일부의 정규화된 버전을 나타내는 방법.
  18. 제16항에 있어서,
    상기 인코딩된 오디오 비트스트림은,
    상기 다른 대역들 중 적어도 하나의 대역의 정규화된 버전의 최소-평균-제곱(least-means-square) 비교를 수행함으로써 스펙트럼 계수 값들로서 코딩된 상기 대역들 중 적어도 하나의 대역의 일부를 선택하고, 상기 움직임 벡터 내의 상기 선택된 일부의 표시를 저장하는 것에 의해 인코딩되는 방법.
  19. 제15항에 있어서,
    상기 형태 파라미터는 코드북에 스펙트럼 형태에 대한 벡터를 포함하는 방법.
  20. 제19항에 있어서,
    상기 코드북은 이전에 코딩된 기저대 스펙트럼 계수들 또는 확장된 대역 스펙트럼 계수들 또는 이들 모두로부터 취해지는 방법.
  21. 제15항에 있어서,
    상기 형태 파라미터는 정규화된 무작위 잡음 벡터를 포함하는 방법.
  22. 제15항 내지 제21항 중 어느 한 항에 있어서,
    상기 스케일링 계수는 상기 다른 대역들 중 적어도 하나의 대역에 대한 총 에너지를 나타내는 방법.
  23. 제15항 내지 제21항 중 어느 한 항에 있어서,
    상기 스케일링 계수는 상기 다른 대역들 중 2 이상의 대역의 스케일링 계수들을 주파수의 함수로서 산출하는 다항식 관계를 특징으로 하는 계수들로서 코딩되는 방법.
  24. 제15항 내지 제21항 중 어느 한 항에 있어서,
    상기 스케일링 계수는 상기 다른 대역 내의 계수들의 rms(root-mean-square) 값인 방법.
  25. 제15항 내지 제21항 중 어느 한 항에 있어서,
    상기 형태 파라미터는 상기 일부의 시프트(shift)를 나타내는 값들을 더 포함하는 방법.
  26. 제15항 내지 제21항 중 어느 한 항에 있어서,
    상기 형태 파라미터는 상기 일부의 확대(stretch)를 나타내는 값들을 더 포함하는 방법.
  27. 제15항 내지 제21항 중 어느 한 항에 있어서,
    상기 다른 대역을 코딩하는 것은 상기 다른 대역을 주파수 응답 및 여기(excitation)를 갖는 필터로서 코딩하는 것을 포함하는 방법.
  28. 제15항 내지 제21항 중 어느 한 항에 있어서,
    상기 다른 대역을 코딩하는 것은 상기 다른 대역을 선형 예측 코딩 필터로서 코딩하는 것을 포함하는 방법.
  29. 제15항 내지 제21항 중 어느 한 항에 있어서,
    상기 형태 파라미터는 하나 이상의 벡터를 포함하고,
    상기 적어도 하나의 다른 대역을 코딩하는 것은 상기 벡터들 중 적어도 하나로부터 평균(mean)을 제거하는 것을 포함하는 방법.
  30. 제15항 내지 제21항 중 어느 한 항에 있어서,
    상기 스케일 파라미터는 상기 확장된 대역 스펙트럼 계수들의 스케일 파라미터들을 그 각각의 주파수의 함수로서 산출하는 다항식 함수(polynomial function)의 계수들의 집합을 코딩함으로써 표현되는 방법.
  31. 제15항 내지 제21항 중 어느 한 항에 있어서,
    상기 적어도 하나의 다른 대역을 코딩하는 것은 상기 적어도 하나의 다른 대역을 상기 적어도 하나의 다른 대역의 스케일 및 형태의 표현, 및 상기 적어도 하나의 다른 대역의 피치 및 잡음 특징(noise characteristics) 중 하나 이상의 여기 표현(excitation representation)의 형태로 코딩하는 것을 포함하는 방법.
  32. 제15항 내지 제21항 중 어느 한 항에 있어서,
    상기 코딩하는 것은,
    상기 대역들 중 적어도 하나의 대역의 유사한 부분을 검색하는 것,
    상기 기저대 중 충분히 유사한 부분이 발견되지 않으면, 상기 출력 비트스트림 내의 상기 적어도 하나의 다른 대역을 코드북 내의 스펙트럼 형태에 대한 벡터로서 코딩하는 것, 및
    상기 기저대 중 충분히 유사한 부분이 발견되면, 상기 출력 비트스트림 내의 상기 적어도 하나의 다른 대역을 정규화된 무작위 잡음 벡터로서 코딩하는 것
    을 포함하는 방법.
  33. 컴퓨터에 의해 실행될 때, 상기 컴퓨터로 하여금, 제15항 내지 제21항 중 어느 한 항의 방법을 수행하게 하는 컴퓨터 실행가능 명령어들을 저장하는 하나 이상의 컴퓨터 판독가능 기억 매체.
  34. 디코더에서, 인코딩된 오디오 비트스트림에 대해 오디오 디코딩을 수행하는 방법으로서,
    상기 오디오 디코딩 방법은,
    상기 인코딩된 오디오 비트스트림으로부터 하나 이상의 기저대 스펙트럼 계수를 디코딩하는 단계;
    상기 인코딩된 오디오 비트스트림으로부터 확장된 스펙트럼 계수들의 제1 대역을 디코딩하는 단계 - 상기 제1 대역을 디코딩하는 단계는, 상기 인코딩된 오디오 비트스트림으로부터 상기 제1 대역에 대한 스케일 계수를 디코딩하고, 제1 형태 파라미터에 따라 하나 이상의 식별된 기저대 스펙트럼 계수를 복사하고, 상기 제1 형태 파라미터는 복사될 하나 이상의 기저대 스펙트럼 계수를 식별하고, 상기 식별된 하나 이상의 기저대 스펙트럼 계수는 스펙트럼 대역의 형태를 설명하고, 상기 제1 대역에 대한 상기 디코딩된 스케일 계수에 따라 상기 복사된 하나 이상의 식별된 기저대 스펙트럼 계수를 스케일링함으로써 디코딩됨 -;
    상기 인코딩된 오디오 비트스트림으로부터 확장된 스펙트럼 계수들의 제2 대역을 디코딩하는 단계 - 상기 제2 대역을 디코딩하는 단계는, 상기 인코딩된 오디오 비트스트림으로부터 상기 제2 대역에 대한 스케일 계수를 디코딩하고, 제2 형태 파라미터에 따라 코드북으로부터 하나 이상의 벡터를 복사하고, 상기 제2 대역에 대한 상기 디코딩된 스케일 계수에 따라 상기 코드북으로부터 상기 복사된 하나 이상의 벡터를 스케일링함으로써 디코딩됨 -; 및
    복원된(reconstructed) 오디오 신호를 만들기 위하여, 상기 디코딩된 하나 이상의 기저대 스펙트럼 계수 및 상기 디코딩된 하나 이상의 확장된 대역 스펙트럼 계수에 역 변환을 수행하는 단계
    를 포함하는, 오디오 디코딩 방법.
  35. 제34항에 있어서,
    상기 제1 대역에 대한 디코딩된 스케일 계수는 상기 인코딩된 오디오 비트스트림이 인코딩된 스펙트럼 계수들의 rms(root-mean-square) 값을 포함하는, 오디오 디코딩 방법.
  36. 제34항에 있어서,
    상기 제1 형태 파라미터는 상기 스펙트럼 대역의 형태의 확대를 나타내는 값들을 더 포함하는, 오디오 디코딩 방법.
  37. 제34항에 있어서,
    상기 제1 형태 파라미터는 복사될 하나 이상의 기저대 스펙트럼 계수를 식별하는 움직임 벡터를 포함하는, 오디오 디코딩 방법.
  38. 제34항에 있어서,
    상기 제1 형태 파라미터는 코드북에 스펙트럼 형태에 대한 벡터를 포함하는, 오디오 디코딩 방법.
  39. 제34항에 있어서,
    상기 제1 형태 파라미터는 정규화된 무작위 잡음 벡터를 포함하는, 오디오 디코딩 방법.
  40. 컴퓨터에 의해 실행될 때, 상기 컴퓨터로 하여금, 제34항 내지 제39항 중 어느 한 항의 방법을 수행하게 하는 컴퓨터 실행가능 명령어들을 저장하는 컴퓨터 판독가능 기억 매체.
KR1020117018144A 2004-01-23 2004-07-29 넓은-뜻의 지각적 유사성을 이용하는 디지털 미디어 스펙트럼 데이터의 효과적인 코딩 KR101251813B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US53904604P 2004-01-23 2004-01-23
US60/539,046 2004-01-23
US10/882,801 US7460990B2 (en) 2004-01-23 2004-06-29 Efficient coding of digital media spectral data using wide-sense perceptual similarity
US10/882,801 2004-06-29
PCT/US2004/024935 WO2005076260A1 (en) 2004-01-23 2004-07-29 Efficient coding of digital media spectral data using wide-sense perceptual similarity

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020117007873A Division KR101130355B1 (ko) 2004-01-23 2004-07-29 넓은-뜻의 지각적 유사성을 이용하는 디지털 미디어 스펙트럼 데이터의 효과적인 코딩

Publications (2)

Publication Number Publication Date
KR20110093953A KR20110093953A (ko) 2011-08-18
KR101251813B1 true KR101251813B1 (ko) 2013-04-09

Family

ID=34798916

Family Applications (3)

Application Number Title Priority Date Filing Date
KR1020057011786A KR101083572B1 (ko) 2004-01-23 2004-07-29 넓은-뜻의 지각적 유사성을 이용하는 디지털 미디어스펙트럼 데이터의 효과적인 코딩
KR1020117007873A KR101130355B1 (ko) 2004-01-23 2004-07-29 넓은-뜻의 지각적 유사성을 이용하는 디지털 미디어 스펙트럼 데이터의 효과적인 코딩
KR1020117018144A KR101251813B1 (ko) 2004-01-23 2004-07-29 넓은-뜻의 지각적 유사성을 이용하는 디지털 미디어 스펙트럼 데이터의 효과적인 코딩

Family Applications Before (2)

Application Number Title Priority Date Filing Date
KR1020057011786A KR101083572B1 (ko) 2004-01-23 2004-07-29 넓은-뜻의 지각적 유사성을 이용하는 디지털 미디어스펙트럼 데이터의 효과적인 코딩
KR1020117007873A KR101130355B1 (ko) 2004-01-23 2004-07-29 넓은-뜻의 지각적 유사성을 이용하는 디지털 미디어 스펙트럼 데이터의 효과적인 코딩

Country Status (8)

Country Link
US (2) US7460990B2 (ko)
EP (1) EP1730725B1 (ko)
JP (4) JP4745986B2 (ko)
KR (3) KR101083572B1 (ko)
CN (1) CN1813286B (ko)
AT (1) ATE451684T1 (ko)
DE (1) DE602004024591D1 (ko)
WO (1) WO2005076260A1 (ko)

Families Citing this family (82)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7240001B2 (en) * 2001-12-14 2007-07-03 Microsoft Corporation Quality improvement techniques in an audio encoder
US6934677B2 (en) 2001-12-14 2005-08-23 Microsoft Corporation Quantization matrices based on critical band pattern information for digital audio wherein quantization bands differ from critical bands
US7460993B2 (en) * 2001-12-14 2008-12-02 Microsoft Corporation Adaptive window-size selection in transform coding
DK1400954T3 (da) 2002-09-04 2008-03-31 Microsoft Corp Entropi-kodning ved tilpasning af kodning mellem niveau- og runlængde/niveau-moduser
US7809579B2 (en) * 2003-12-19 2010-10-05 Telefonaktiebolaget Lm Ericsson (Publ) Fidelity-optimized variable frame length encoding
US7460990B2 (en) 2004-01-23 2008-12-02 Microsoft Corporation Efficient coding of digital media spectral data using wide-sense perceptual similarity
US7983835B2 (en) 2004-11-03 2011-07-19 Lagassey Paul J Modular intelligent transportation system
TWI231656B (en) * 2004-04-08 2005-04-21 Univ Nat Chiao Tung Fast bit allocation algorithm for audio coding
TWI275074B (en) * 2004-04-12 2007-03-01 Vivotek Inc Method for analyzing energy consistency to process data
US20050232497A1 (en) * 2004-04-15 2005-10-20 Microsoft Corporation High-fidelity transcoding
JP4168976B2 (ja) * 2004-05-28 2008-10-22 ソニー株式会社 オーディオ信号符号化装置及び方法
US8793125B2 (en) * 2004-07-14 2014-07-29 Koninklijke Philips Electronics N.V. Method and device for decorrelation and upmixing of audio channels
KR100657916B1 (ko) * 2004-12-01 2006-12-14 삼성전자주식회사 주파수 대역간의 유사도를 이용한 오디오 신호 처리 장치및 방법
JP4809370B2 (ja) * 2005-02-23 2011-11-09 テレフオンアクチーボラゲット エル エム エリクソン(パブル) マルチチャネル音声符号化における適応ビット割り当て
US9626973B2 (en) * 2005-02-23 2017-04-18 Telefonaktiebolaget L M Ericsson (Publ) Adaptive bit allocation for multi-channel audio encoding
US7562021B2 (en) * 2005-07-15 2009-07-14 Microsoft Corporation Modification of codewords in dictionary used for efficient coding of digital media spectral data
US7630882B2 (en) * 2005-07-15 2009-12-08 Microsoft Corporation Frequency segmentation to obtain bands for efficient coding of digital media
US7546240B2 (en) * 2005-07-15 2009-06-09 Microsoft Corporation Coding with improved time resolution for selected segments via adaptive block transformation of a group of samples from a subband decomposition
KR100803205B1 (ko) * 2005-07-15 2008-02-14 삼성전자주식회사 저비트율 오디오 신호 부호화/복호화 방법 및 장치
US20070118361A1 (en) * 2005-10-07 2007-05-24 Deepen Sinha Window apparatus and method
US7953605B2 (en) * 2005-10-07 2011-05-31 Deepen Sinha Method and apparatus for audio encoding and decoding using wideband psychoacoustic modeling and bandwidth extension
US7831434B2 (en) * 2006-01-20 2010-11-09 Microsoft Corporation Complex-transform channel coding with extended-band frequency coding
US8190425B2 (en) * 2006-01-20 2012-05-29 Microsoft Corporation Complex cross-correlation parameters for multi-channel audio
US7953604B2 (en) * 2006-01-20 2011-05-31 Microsoft Corporation Shape and scale parameters for extended-band frequency coding
US7966175B2 (en) 2006-10-18 2011-06-21 Polycom, Inc. Fast lattice vector quantization
US7953595B2 (en) * 2006-10-18 2011-05-31 Polycom, Inc. Dual-transform coding of audio signals
US20080243518A1 (en) * 2006-11-16 2008-10-02 Alexey Oraevsky System And Method For Compressing And Reconstructing Audio Files
CN101548316B (zh) * 2006-12-13 2012-05-23 松下电器产业株式会社 编码装置、解码装置以及其方法
JPWO2008072733A1 (ja) * 2006-12-15 2010-04-02 パナソニック株式会社 符号化装置および符号化方法
JP4871894B2 (ja) 2007-03-02 2012-02-08 パナソニック株式会社 符号化装置、復号装置、符号化方法および復号方法
US7761290B2 (en) 2007-06-15 2010-07-20 Microsoft Corporation Flexible frequency and time partitioning in perceptual transform coding of audio
US8046214B2 (en) 2007-06-22 2011-10-25 Microsoft Corporation Low complexity decoder for complex transform coding of multi-channel sound
US7885819B2 (en) 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
KR101403340B1 (ko) * 2007-08-02 2014-06-09 삼성전자주식회사 변환 부호화 방법 및 장치
US8116936B2 (en) * 2007-09-25 2012-02-14 General Electric Company Method and system for efficient data collection and storage
US8249883B2 (en) * 2007-10-26 2012-08-21 Microsoft Corporation Channel extension coding for multi-channel source
US8457958B2 (en) * 2007-11-09 2013-06-04 Microsoft Corporation Audio transcoder using encoder-generated side information to transcode to target bit-rate
US8688441B2 (en) * 2007-11-29 2014-04-01 Motorola Mobility Llc Method and apparatus to facilitate provision and use of an energy value to determine a spectral envelope shape for out-of-signal bandwidth content
US8433582B2 (en) * 2008-02-01 2013-04-30 Motorola Mobility Llc Method and apparatus for estimating high-band energy in a bandwidth extension system
US20090201983A1 (en) * 2008-02-07 2009-08-13 Motorola, Inc. Method and apparatus for estimating high-band energy in a bandwidth extension system
US8190440B2 (en) * 2008-02-29 2012-05-29 Broadcom Corporation Sub-band codec with native voice activity detection
JPWO2009125588A1 (ja) * 2008-04-09 2011-07-28 パナソニック株式会社 符号化装置および符号化方法
US8179974B2 (en) 2008-05-02 2012-05-15 Microsoft Corporation Multi-level representation of reordered transform coefficients
US8447591B2 (en) * 2008-05-30 2013-05-21 Microsoft Corporation Factorization of overlapping tranforms into two block transforms
JP5224219B2 (ja) * 2008-06-26 2013-07-03 独立行政法人科学技術振興機構 オーディオ信号圧縮装置、オーディオ信号圧縮方法、オーディオ信号復号装置及びオーディオ信号復号方法
ES2796552T3 (es) * 2008-07-11 2020-11-27 Fraunhofer Ges Forschung Sintetizador de señales de audio y codificador de señales de audio
US8463412B2 (en) * 2008-08-21 2013-06-11 Motorola Mobility Llc Method and apparatus to facilitate determining signal bounding frequencies
US8406307B2 (en) 2008-08-22 2013-03-26 Microsoft Corporation Entropy coding/decoding of hierarchically organized data
US8396114B2 (en) * 2009-01-29 2013-03-12 Microsoft Corporation Multiple bit rate video encoding using variable bit rate and dynamic resolution for adaptive video streaming
US8311115B2 (en) * 2009-01-29 2012-11-13 Microsoft Corporation Video encoding using previously calculated motion information
US8463599B2 (en) * 2009-02-04 2013-06-11 Motorola Mobility Llc Bandwidth extension method and apparatus for a modified discrete cosine transform audio coder
US20100225473A1 (en) * 2009-03-05 2010-09-09 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Postural information system and method
WO2010111841A1 (zh) * 2009-04-03 2010-10-07 华为技术有限公司 频域脉冲解码的预测方法和预测装置及解码器
US8270473B2 (en) * 2009-06-12 2012-09-18 Microsoft Corporation Motion based dynamic resolution multiple bit rate video encoding
US9245529B2 (en) * 2009-06-18 2016-01-26 Texas Instruments Incorporated Adaptive encoding of a digital signal with one or more missing values
KR20110001130A (ko) * 2009-06-29 2011-01-06 삼성전자주식회사 가중 선형 예측 변환을 이용한 오디오 신호 부호화 및 복호화 장치 및 그 방법
JP5774490B2 (ja) * 2009-11-12 2015-09-09 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 符号化装置、復号装置およびこれらの方法
WO2011058758A1 (ja) * 2009-11-13 2011-05-19 パナソニック株式会社 符号化装置、復号装置およびこれらの方法
JP5507971B2 (ja) 2009-11-16 2014-05-28 アイシン精機株式会社 衝撃吸収具及び車両用バンパ装置
US8705616B2 (en) 2010-06-11 2014-04-22 Microsoft Corporation Parallel multiple bitrate video encoding to reduce latency and dependences between groups of pictures
CN102959873A (zh) * 2010-07-05 2013-03-06 日本电信电话株式会社 编码方法、解码方法、装置、程序及记录介质
CN104347079B (zh) 2010-08-24 2017-11-28 Lg电子株式会社 处理音频信号的方法和设备
ES2938725T3 (es) 2010-09-16 2023-04-14 Dolby Int Ab Transposición armónica basada en bloque de subbanda mejorado de producto cruzado
US8924200B2 (en) * 2010-10-15 2014-12-30 Motorola Mobility Llc Audio signal bandwidth extension in CELP-based speech coder
EP2673771B1 (en) * 2011-02-09 2016-06-01 Telefonaktiebolaget LM Ericsson (publ) Efficient encoding/decoding of audio signals
MY164164A (en) 2011-05-13 2017-11-30 Samsung Electronics Co Ltd Bit allocating, audio encoding and decoding
US9591318B2 (en) * 2011-09-16 2017-03-07 Microsoft Technology Licensing, Llc Multi-layer encoding and decoding
PL397008A1 (pl) * 2011-11-17 2013-05-27 Politechnika Poznanska Sposób kodowania obrazu
US11089343B2 (en) 2012-01-11 2021-08-10 Microsoft Technology Licensing, Llc Capability advertisement, configuration and control for video coding and decoding
WO2013147709A1 (en) * 2012-03-28 2013-10-03 Agency For Science, Technology And Research Method for transmitting a digital signal, method for receiving a digital signal, transmission arrangement and communication device
EP2830055A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Context-based entropy coding of sample values of a spectral envelope
EP2830064A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding and encoding an audio signal using adaptive spectral tile selection
TWI579831B (zh) 2013-09-12 2017-04-21 杜比國際公司 用於參數量化的方法、用於量化的參數之解量化方法及其電腦可讀取的媒體、音頻編碼器、音頻解碼器及音頻系統
GB2545434B (en) * 2015-12-15 2020-01-08 Sonic Data Ltd Improved method, apparatus and system for embedding data within a data stream
US10146500B2 (en) 2016-08-31 2018-12-04 Dts, Inc. Transform-based audio codec and method with subband energy smoothing
JP6650536B2 (ja) 2016-12-27 2020-02-19 三井化学株式会社 マウスピース
EP3382701A1 (en) 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for post-processing an audio signal using prediction based shaping
EP3382700A1 (en) 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for post-processing an audio signal using a transient location detection
AU2018368589B2 (en) * 2017-11-17 2021-10-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding or decoding directional audio coding parameters using quantization and entropy coding
US10950251B2 (en) 2018-03-05 2021-03-16 Dts, Inc. Coding of harmonic signals in transform-based audio codecs
US10586546B2 (en) 2018-04-26 2020-03-10 Qualcomm Incorporated Inversely enumerated pyramid vector quantizers for efficient rate adaptation in audio coding
US10573331B2 (en) * 2018-05-01 2020-02-25 Qualcomm Incorporated Cooperative pyramid vector quantizers for scalable audio coding

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5845243A (en) 1995-10-13 1998-12-01 U.S. Robotics Mobile Communications Corp. Method and apparatus for wavelet based data compression having adaptive bit rate control for compression of audio information
US6680972B1 (en) * 1997-06-10 2004-01-20 Coding Technologies Sweden Ab Source coding enhancement using spectral-band replication
US6766293B1 (en) 1997-07-14 2004-07-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Method for signalling a noise substitution during audio signal coding

Family Cites Families (237)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3240380A (en) * 1957-08-07 1966-03-15 Mueller Co Line stopping and valve inserting apparatus and method
US3684838A (en) 1968-06-26 1972-08-15 Kahn Res Lab Single channel audio signal transmission system
US4251688A (en) 1979-01-15 1981-02-17 Ana Maria Furner Audio-digital processing system for demultiplexing stereophonic/quadriphonic input audio signals into 4-to-72 output audio signals
DE3171990D1 (en) 1981-04-30 1985-10-03 Ibm Speech coding methods and apparatus for carrying out the method
JPS5921039B2 (ja) 1981-11-04 1984-05-17 日本電信電話株式会社 適応予測符号化方式
CA1253255A (en) 1983-05-16 1989-04-25 Nec Corporation System for simultaneously coding and decoding a plurality of signals
GB8421498D0 (en) 1984-08-24 1984-09-26 British Telecomm Frequency domain speech coding
US4609686A (en) 1985-04-19 1986-09-02 The Standard Oil Company 100 percent solids epoxy, nitrile coating compositions and method of making same
US4776014A (en) 1986-09-02 1988-10-04 General Electric Company Method for pitch-aligned high-frequency regeneration in RELP vocoders
GB2205465B (en) 1987-05-13 1991-09-04 Ricoh Kk Image transmission system
US4922537A (en) 1987-06-02 1990-05-01 Frederiksen & Shu Laboratories, Inc. Method and apparatus employing audio frequency offset extraction and floating-point conversion for digitally encoding and decoding high-fidelity audio signals
US4907276A (en) 1988-04-05 1990-03-06 The Dsp Group (Israel) Ltd. Fast search method for vector quantizer communication and pattern recognition systems
US5297236A (en) 1989-01-27 1994-03-22 Dolby Laboratories Licensing Corporation Low computational-complexity digital filter bank for encoder, decoder, and encoder/decoder
US5479562A (en) 1989-01-27 1995-12-26 Dolby Laboratories Licensing Corporation Method and apparatus for encoding and decoding audio information
US5142656A (en) 1989-01-27 1992-08-25 Dolby Laboratories Licensing Corporation Low bit rate transform coder, decoder, and encoder/decoder for high-quality audio
US5222189A (en) 1989-01-27 1993-06-22 Dolby Laboratories Licensing Corporation Low time-delay transform coder, decoder, and encoder/decoder for high-quality audio
US5357594A (en) 1989-01-27 1994-10-18 Dolby Laboratories Licensing Corporation Encoding and decoding using specially designed pairs of analysis and synthesis windows
US5752225A (en) 1989-01-27 1998-05-12 Dolby Laboratories Licensing Corporation Method and apparatus for split-band encoding and split-band decoding of audio information using adaptive bit allocation to adjacent subbands
AU643677B2 (en) 1989-01-27 1993-11-25 Dolby Laboratories Licensing Corporation Low time-delay transform coder, decoder, and encoder/decoder for high-quality audio
DE59008047D1 (de) 1989-03-06 1995-02-02 Bosch Gmbh Robert Verfahren zur Datenreduktion bei digitalen Tonsignalen und zur genäherten Rückgewinnung der digitalen Tonsignale.
US5539829A (en) * 1989-06-02 1996-07-23 U.S. Philips Corporation Subband coded digital transmission system using some composite signals
US5115240A (en) 1989-09-26 1992-05-19 Sony Corporation Method and apparatus for encoding voice signals divided into a plurality of frequency bands
JP2921879B2 (ja) 1989-09-29 1999-07-19 株式会社東芝 画像データ処理装置
US5185800A (en) 1989-10-13 1993-02-09 Centre National D'etudes Des Telecommunications Bit allocation device for transformed digital audio broadcasting signals with adaptive quantization based on psychoauditive criterion
US5040217A (en) 1989-10-18 1991-08-13 At&T Bell Laboratories Perceptual coding of audio signals
JP2560873B2 (ja) 1990-02-28 1996-12-04 日本ビクター株式会社 直交変換符号化復号化方法
CN1062963C (zh) 1990-04-12 2001-03-07 多尔拜实验特许公司 用于产生高质量声音信号的解码器和编码器
US5388181A (en) 1990-05-29 1995-02-07 Anderson; David J. Digital audio compression system
JP3033156B2 (ja) 1990-08-24 2000-04-17 ソニー株式会社 ディジタル信号符号化装置
US6016468A (en) 1990-12-21 2000-01-18 British Telecommunications Public Limited Company Generating the variable control parameters of a speech signal synthesis filter
US5274740A (en) 1991-01-08 1993-12-28 Dolby Laboratories Licensing Corporation Decoder for variable number of channel presentation of multidimensional sound fields
AU653582B2 (en) 1991-01-08 1994-10-06 Dolby Laboratories Licensing Corporation Encoder/decoder for multidimensional sound fields
US5559900A (en) 1991-03-12 1996-09-24 Lucent Technologies Inc. Compression of signals for perceptual quality by selecting frequency bands having relatively high energy
US5870497A (en) 1991-03-15 1999-02-09 C-Cube Microsystems Decoder for compressed video signals
AU1996292A (en) 1991-05-17 1992-12-30 Analytic Sciences Corporation, The Continuous-tone image compression
GB2257606B (en) * 1991-06-28 1995-01-18 Sony Corp Recording and/or reproducing apparatuses and signal processing methods for compressed data
US5487086A (en) 1991-09-13 1996-01-23 Comsat Corporation Transform vector quantization for adaptive predictive coding
JP3141450B2 (ja) 1991-09-30 2001-03-05 ソニー株式会社 オーディオ信号処理方法
EP0551705A3 (en) 1992-01-15 1993-08-18 Ericsson Ge Mobile Communications Inc. Method for subbandcoding using synthetic filler signals for non transmitted subbands
US5369724A (en) 1992-01-17 1994-11-29 Massachusetts Institute Of Technology Method and apparatus for encoding, decoding and compression of audio-type data using reference coefficients located within a band of coefficients
EP0559348A3 (en) 1992-03-02 1993-11-03 AT&T Corp. Rate control loop processor for perceptual encoder/decoder
US5285498A (en) 1992-03-02 1994-02-08 At&T Bell Laboratories Method and apparatus for coding audio signals based on perceptual model
FR2688371B1 (fr) 1992-03-03 1997-05-23 France Telecom Procede et systeme de spatialisation artificielle de signaux audio-numeriques.
DE4209544A1 (de) 1992-03-24 1993-09-30 Inst Rundfunktechnik Gmbh Verfahren zum Übertragen oder Speichern digitalisierter, mehrkanaliger Tonsignale
US5295203A (en) 1992-03-26 1994-03-15 General Instrument Corporation Method and apparatus for vector coding of video transform coefficients
JP2693893B2 (ja) 1992-03-30 1997-12-24 松下電器産業株式会社 ステレオ音声符号化方法
JP2779886B2 (ja) * 1992-10-05 1998-07-23 日本電信電話株式会社 広帯域音声信号復元方法
JP3343965B2 (ja) 1992-10-31 2002-11-11 ソニー株式会社 音声符号化方法及び復号化方法
JP3343962B2 (ja) 1992-11-11 2002-11-11 ソニー株式会社 高能率符号化方法及び装置
US5455888A (en) 1992-12-04 1995-10-03 Northern Telecom Limited Speech bandwidth extension method and apparatus
JP3186307B2 (ja) * 1993-03-09 2001-07-11 ソニー株式会社 圧縮データ記録装置及び方法
SG43996A1 (en) 1993-06-22 1997-11-14 Thomson Brandt Gmbh Method for obtaining a multi-channel decoder matrix
US5632003A (en) 1993-07-16 1997-05-20 Dolby Laboratories Licensing Corporation Computationally efficient adaptive bit allocation for coding method and apparatus
TW272341B (ko) 1993-07-16 1996-03-11 Sony Co Ltd
US5623577A (en) 1993-07-16 1997-04-22 Dolby Laboratories Licensing Corporation Computationally efficient adaptive bit allocation for encoding method and apparatus with allowance for decoder spectral distortions
US5581653A (en) * 1993-08-31 1996-12-03 Dolby Laboratories Licensing Corporation Low bit-rate high-resolution spectral envelope coding for audio encoder and decoder
US5737720A (en) 1993-10-26 1998-04-07 Sony Corporation Low bit rate multichannel audio coding methods and apparatus using non-linear adaptive bit allocation
US5684920A (en) 1994-03-17 1997-11-04 Nippon Telegraph And Telephone Acoustic signal transform coding method and decoding method having a high efficiency envelope flattening method therein
DE4409368A1 (de) 1994-03-18 1995-09-21 Fraunhofer Ges Forschung Verfahren zum Codieren mehrerer Audiosignale
JP3277677B2 (ja) 1994-04-01 2002-04-22 ソニー株式会社 信号符号化方法及び装置、信号記録媒体、信号伝送方法、並びに信号復号化方法及び装置
US5574824A (en) 1994-04-11 1996-11-12 The United States Of America As Represented By The Secretary Of The Air Force Analysis/synthesis-based microphone array speech enhancer with variable signal distortion
JP3362534B2 (ja) * 1994-11-18 2003-01-07 ヤマハ株式会社 ベクトル量子化による符号化復号方式
US5635930A (en) 1994-10-03 1997-06-03 Sony Corporation Information encoding method and apparatus, information decoding method and apparatus and recording medium
ATE214524T1 (de) 1994-11-04 2002-03-15 Koninkl Philips Electronics Nv Kodierung und dekodierung eines breitbandigen digitalen informationssignals
US5654702A (en) 1994-12-16 1997-08-05 National Semiconductor Corp. Syntax-based arithmetic coding for low bit rate videophone
US5629780A (en) 1994-12-19 1997-05-13 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration Image data compression having minimum perceptual error
JP3189614B2 (ja) * 1995-03-13 2001-07-16 松下電器産業株式会社 音声帯域拡大装置
JP2956548B2 (ja) * 1995-10-05 1999-10-04 松下電器産業株式会社 音声帯域拡大装置
US6041295A (en) 1995-04-10 2000-03-21 Corporate Computer Systems Comparing CODEC input/output to adjust psycho-acoustic parameters
US6940840B2 (en) 1995-06-30 2005-09-06 Interdigital Technology Corporation Apparatus for adaptive reverse power control for spread-spectrum communications
ZA965340B (en) 1995-06-30 1997-01-27 Interdigital Tech Corp Code division multiple access (cdma) communication system
US5790759A (en) 1995-09-19 1998-08-04 Lucent Technologies Inc. Perceptual noise masking measure based on synthesis filter frequency response
US5960390A (en) 1995-10-05 1999-09-28 Sony Corporation Coding method for using multi channel audio signals
DE19549621B4 (de) * 1995-10-06 2004-07-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung zum Codieren von Audiosignalen
US5777678A (en) 1995-10-26 1998-07-07 Sony Corporation Predictive sub-band video coding and decoding using motion compensation
US5956674A (en) 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
US5686964A (en) 1995-12-04 1997-11-11 Tabatabai; Ali Bit rate control mechanism for digital image and video data compression
EP0880235A1 (en) 1996-02-08 1998-11-25 Matsushita Electric Industrial Co., Ltd. Wide band audio signal encoder, wide band audio signal decoder, wide band audio signal encoder/decoder and wide band audio signal recording medium
US5852806A (en) 1996-03-19 1998-12-22 Lucent Technologies Inc. Switched filterbank for use in audio signal coding
US5682152A (en) 1996-03-19 1997-10-28 Johnson-Grace Company Data compression using adaptive bit allocation and hybrid lossless entropy encoding
US5812971A (en) 1996-03-22 1998-09-22 Lucent Technologies Inc. Enhanced joint stereo coding method using temporal envelope shaping
SE506341C2 (sv) 1996-04-10 1997-12-08 Ericsson Telefon Ab L M Metod och anordning för rekonstruktion av en mottagen talsignal
US5822370A (en) 1996-04-16 1998-10-13 Aura Systems, Inc. Compression/decompression for preservation of high fidelity speech quality at low bandwidth
DE19628293C1 (de) * 1996-07-12 1997-12-11 Fraunhofer Ges Forschung Codieren und Decodieren von Audiosignalen unter Verwendung von Intensity-Stereo und Prädiktion
DE19628292B4 (de) 1996-07-12 2007-08-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren zum Codieren und Decodieren von Stereoaudiospektralwerten
US5870480A (en) 1996-07-19 1999-02-09 Lexicon Multichannel active matrix encoder and decoder with maximum lateral separation
US6697491B1 (en) 1996-07-19 2004-02-24 Harman International Industries, Incorporated 5-2-5 matrix encoder and decoder system
US5969750A (en) 1996-09-04 1999-10-19 Winbcnd Electronics Corporation Moving picture camera with universal serial bus interface
US5745275A (en) 1996-10-15 1998-04-28 Lucent Technologies Inc. Multi-channel stabilization of a multi-channel transmitter through correlation feedback
SG54379A1 (en) 1996-10-24 1998-11-16 Sgs Thomson Microelectronics A Audio decoder with an adaptive frequency domain downmixer
US5886276A (en) 1997-01-16 1999-03-23 The Board Of Trustees Of The Leland Stanford Junior University System and method for multiresolution scalable audio signal encoding
FI970266A (fi) 1997-01-22 1998-07-23 Nokia Telecommunications Oy Menetelmä solukkoradiojärjestelmän ohjauskanavien kantaman pidentämiseksi ja solukkoradiojärjestelmä
DE69805583T2 (de) 1997-02-08 2003-01-23 Matsushita Electric Ind Co Ltd Quantisierungsmatrix für die codierung von stand- und bewegtbildern
US20010017941A1 (en) 1997-03-14 2001-08-30 Navin Chaddha Method and apparatus for table-based compression with embedded coding
KR100265112B1 (ko) 1997-03-31 2000-10-02 윤종용 디브이디 디스크와 디브이디 디스크를 재생하는 장치 및 방법
US6064954A (en) 1997-04-03 2000-05-16 International Business Machines Corp. Digital audio signal coding
US6741965B1 (en) 1997-04-10 2004-05-25 Sony Corporation Differential stereo using two coding techniques
DE19730130C2 (de) 1997-07-14 2002-02-28 Fraunhofer Ges Forschung Verfahren zum Codieren eines Audiosignals
US5890125A (en) 1997-07-16 1999-03-30 Dolby Laboratories Licensing Corporation Method and apparatus for encoding and decoding multiple audio channels at low bit rates using adaptive selection of encoding method
EP1025743B1 (en) 1997-09-16 2013-06-19 Dolby Laboratories Licensing Corporation Utilisation of filtering effects in stereo headphone devices to enhance spatialization of source around a listener
JPH11122120A (ja) 1997-10-17 1999-04-30 Sony Corp 符号化方法及び装置、並びに復号化方法及び装置
US6959220B1 (en) * 1997-11-07 2005-10-25 Microsoft Corporation Digital audio signal filtering mechanism and method
US6253185B1 (en) 1998-02-25 2001-06-26 Lucent Technologies Inc. Multiple description transform coding of audio using optimal transforms of arbitrary dimension
US6249614B1 (en) 1998-03-06 2001-06-19 Alaris, Inc. Video compression and decompression using dynamic quantization and/or encoding
US6353807B1 (en) 1998-05-15 2002-03-05 Sony Corporation Information coding method and apparatus, code transform method and apparatus, code transform control method and apparatus, information recording method and apparatus, and program providing medium
US6029126A (en) * 1998-06-30 2000-02-22 Microsoft Corporation Scalable audio coder and decoder
US6115689A (en) 1998-05-27 2000-09-05 Microsoft Corporation Scalable audio coder and decoder
JP3998330B2 (ja) 1998-06-08 2007-10-24 沖電気工業株式会社 符号化装置
US6266003B1 (en) 1998-08-28 2001-07-24 Sigma Audio Research Limited Method and apparatus for signal processing for time-scale and/or pitch modification of audio signals
DE19840835C2 (de) 1998-09-07 2003-01-09 Fraunhofer Ges Forschung Vorrichtung und Verfahren zum Entropiecodieren von Informationswörtern und Vorrichtung und Verfahren zum Decodieren von Entropie-codierten Informationswörtern
US7272556B1 (en) 1998-09-23 2007-09-18 Lucent Technologies Inc. Scalable and embedded codec for speech and audio signals
SE519552C2 (sv) * 1998-09-30 2003-03-11 Ericsson Telefon Ab L M Flerkanalig signalkodning och -avkodning
CA2252170A1 (en) * 1998-10-27 2000-04-27 Bruno Bessette A method and device for high quality coding of wideband speech and audio signals
SE9903553D0 (sv) 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
US6498865B1 (en) 1999-02-11 2002-12-24 Packetvideo Corp,. Method and device for control and compatible delivery of digitally compressed visual data in a heterogeneous communication network
US6778709B1 (en) 1999-03-12 2004-08-17 Hewlett-Packard Development Company, L.P. Embedded block coding with optimized truncation
US6611212B1 (en) 1999-04-07 2003-08-26 Dolby Laboratories Licensing Corp. Matrix improvements to lossless encoding and decoding
US6952774B1 (en) 1999-05-22 2005-10-04 Microsoft Corporation Audio watermarking with dual watermarks
US6370502B1 (en) 1999-05-27 2002-04-09 America Online, Inc. Method and system for reduction of quantization-induced block-discontinuities and general purpose audio codec
US6226616B1 (en) 1999-06-21 2001-05-01 Digital Theater Systems, Inc. Sound quality of established low bit-rate audio coding systems without loss of decoder compatibility
US6658162B1 (en) 1999-06-26 2003-12-02 Sharp Laboratories Of America Image coding method using visual optimization
US6604070B1 (en) 1999-09-22 2003-08-05 Conexant Systems, Inc. System of encoding and decoding speech signals
US6418405B1 (en) 1999-09-30 2002-07-09 Motorola, Inc. Method and apparatus for dynamic segmentation of a low bit rate digital voice message
US6496798B1 (en) 1999-09-30 2002-12-17 Motorola, Inc. Method and apparatus for encoding and decoding frames of voice model parameters into a low bit rate digital voice message
US6836761B1 (en) 1999-10-21 2004-12-28 Yamaha Corporation Voice converter for assimilation by frame synthesis with temporal alignment
FI19992351A (fi) 1999-10-29 2001-04-30 Nokia Mobile Phones Ltd Puheentunnistus
WO2001033726A1 (en) 1999-10-30 2001-05-10 Stmicroelectronics Asia Pacific Pte Ltd. Channel coupling for an ac-3 encoder
US6738074B2 (en) 1999-12-29 2004-05-18 Texas Instruments Incorporated Image compression system and method
US6499010B1 (en) 2000-01-04 2002-12-24 Agere Systems Inc. Perceptual audio coder bit allocation scheme providing improved perceptual quality consistency
US6704711B2 (en) 2000-01-28 2004-03-09 Telefonaktiebolaget Lm Ericsson (Publ) System and method for modifying speech signals
AU2000250291A1 (en) 2000-02-10 2001-08-20 Telogy Networks, Inc. A generalized precoder for the upstream voiceband modem channel
JP3538122B2 (ja) * 2000-06-14 2004-06-14 株式会社ケンウッド 周波数補間装置、周波数補間方法及び記録媒体
DE04017341T1 (de) 2000-06-14 2005-07-14 Kabushiki Kaisha Kenwood, Hachiouji Frequenzinterpolationseinrichtung und Frequenzinterpolationsverfahren
JP3576942B2 (ja) 2000-08-29 2004-10-13 株式会社ケンウッド 周波数補間システム、周波数補間装置、周波数補間方法及び記録媒体
US6601032B1 (en) 2000-06-14 2003-07-29 Intervideo, Inc. Fast code length search method for MPEG audio encoding
EP1175030B1 (en) 2000-07-07 2008-02-20 Nokia Siemens Networks Oy Method and system for multichannel perceptual audio coding using the cascaded discrete cosine transform or modified discrete cosine transform
US6771723B1 (en) 2000-07-14 2004-08-03 Dennis W. Davis Normalized parametric adaptive matched filter receiver
JP3576936B2 (ja) * 2000-07-21 2004-10-13 株式会社ケンウッド 周波数補間装置、周波数補間方法及び記録媒体
DE10041512B4 (de) 2000-08-24 2005-05-04 Infineon Technologies Ag Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
US6760698B2 (en) * 2000-09-15 2004-07-06 Mindspeed Technologies Inc. System for coding speech information using an adaptive codebook with enhanced variable resolution scheme
US7003467B1 (en) 2000-10-06 2006-02-21 Digital Theater Systems, Inc. Method of decoding two-channel matrix encoded audio to reconstruct multichannel audio
JP3881836B2 (ja) * 2000-10-24 2007-02-14 株式会社ケンウッド 周波数補間装置、周波数補間方法及び記録媒体
SE0004187D0 (sv) 2000-11-15 2000-11-15 Coding Technologies Sweden Ab Enhancing the performance of coding systems that use high frequency reconstruction methods
US6463408B1 (en) 2000-11-22 2002-10-08 Ericsson, Inc. Systems and methods for improving power spectral estimation of speech signals
US7177808B2 (en) 2000-11-29 2007-02-13 The United States Of America As Represented By The Secretary Of The Air Force Method for improving speaker identification by determining usable speech
JP3887531B2 (ja) * 2000-12-07 2007-02-28 株式会社ケンウッド 信号補間装置、信号補間方法及び記録媒体
KR100433516B1 (ko) 2000-12-08 2004-05-31 삼성전자주식회사 트랜스코딩 방법
JP2004517538A (ja) 2000-12-22 2004-06-10 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 多チャネル・オーディオ変換器
US7062445B2 (en) 2001-01-26 2006-06-13 Microsoft Corporation Quantization loop with heuristic approach
JP3468464B2 (ja) 2001-02-01 2003-11-17 理化学研究所 形状と物性を統合したボリュームデータ生成方法
EP1231793A1 (en) 2001-02-09 2002-08-14 STMicroelectronics S.r.l. A process for changing the syntax, resolution and bitrate of MPEG bitstreams, a system and a computer program product therefor
GB0103245D0 (en) 2001-02-09 2001-03-28 Radioscape Ltd Method of inserting additional data into a compressed signal
GB0108080D0 (en) 2001-03-30 2001-05-23 Univ Bath Audio compression
SE522553C2 (sv) 2001-04-23 2004-02-17 Ericsson Telefon Ab L M Bandbreddsutsträckning av akustiska signaler
EP1386312B1 (en) 2001-05-10 2008-02-20 Dolby Laboratories Licensing Corporation Improving transient performance of low bit rate audio coding systems by reducing pre-noise
JP4506039B2 (ja) 2001-06-15 2010-07-21 ソニー株式会社 符号化装置及び方法、復号装置及び方法、並びに符号化プログラム及び復号プログラム
CN1235192C (zh) 2001-06-28 2006-01-04 皇家菲利浦电子有限公司 传输系统以及用于接收窄带音频信号的接收机和方法
US7400651B2 (en) 2001-06-29 2008-07-15 Kabushiki Kaisha Kenwood Device and method for interpolating frequency components of signal
JP3984468B2 (ja) 2001-12-14 2007-10-03 松下電器産業株式会社 符号化装置、復号化装置及び符号化方法
JP3926726B2 (ja) * 2001-11-14 2007-06-06 松下電器産業株式会社 符号化装置および復号化装置
CN100395817C (zh) * 2001-11-14 2008-06-18 松下电器产业株式会社 编码设备、解码设备和解码方法
EP1451809A1 (en) 2001-11-23 2004-09-01 Koninklijke Philips Electronics N.V. Perceptual noise substitution
US6934677B2 (en) * 2001-12-14 2005-08-23 Microsoft Corporation Quantization matrices based on critical band pattern information for digital audio wherein quantization bands differ from critical bands
US7240001B2 (en) * 2001-12-14 2007-07-03 Microsoft Corporation Quality improvement techniques in an audio encoder
US7146313B2 (en) * 2001-12-14 2006-12-05 Microsoft Corporation Techniques for measurement of perceptual audio quality
US7460993B2 (en) * 2001-12-14 2008-12-02 Microsoft Corporation Adaptive window-size selection in transform coding
US7027982B2 (en) * 2001-12-14 2006-04-11 Microsoft Corporation Quality and rate control strategy for digital audio
JP4272897B2 (ja) 2002-01-30 2009-06-03 パナソニック株式会社 符号化装置、復号化装置およびその方法
US7110941B2 (en) 2002-03-28 2006-09-19 Microsoft Corporation System and method for embedded audio coding with implicit auditory masking
US7310598B1 (en) 2002-04-12 2007-12-18 University Of Central Florida Research Foundation, Inc. Energy based split vector quantizer employing signal representation in multiple transform domains
US7158539B2 (en) 2002-04-16 2007-01-02 Microsoft Corporation Error resilient windows media audio coding
JP2003316394A (ja) 2002-04-23 2003-11-07 Nec Corp 音声復号システム、及び、音声復号方法、並びに、音声復号プログラム
US7447631B2 (en) * 2002-06-17 2008-11-04 Dolby Laboratories Licensing Corporation Audio coding system using spectral hole filling
US7072726B2 (en) * 2002-06-19 2006-07-04 Microsoft Corporation Converting M channels of digital audio data into N channels of digital audio data
US7308232B2 (en) 2002-06-21 2007-12-11 Lucent Technologies Inc. Method and apparatus for estimating a channel based on channel statistics
DE60317203T2 (de) 2002-07-12 2008-08-07 Koninklijke Philips Electronics N.V. Audio-kodierung
JP2005533271A (ja) 2002-07-16 2005-11-04 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ符号化
US7043423B2 (en) 2002-07-16 2006-05-09 Dolby Laboratories Licensing Corporation Low bit-rate audio coding systems and methods that use expanding quantizers with arithmetic coding
EP1527442B1 (en) 2002-08-01 2006-04-05 Matsushita Electric Industrial Co., Ltd. Audio decoding apparatus and audio decoding method based on spectral band replication
US7146315B2 (en) 2002-08-30 2006-12-05 Siemens Corporate Research, Inc. Multichannel voice detection in adverse environments
US7502743B2 (en) 2002-09-04 2009-03-10 Microsoft Corporation Multi-channel audio encoding and decoding with multi-channel transform selection
US7299190B2 (en) 2002-09-04 2007-11-20 Microsoft Corporation Quantization and inverse quantization for audio
EP1543307B1 (en) 2002-09-19 2006-02-22 Matsushita Electric Industrial Co., Ltd. Audio decoding apparatus and method
AU2003272037A1 (en) 2002-09-24 2004-04-19 Rad Data Communications A system and method for low bit-rate compression of combined speech and music
US7330812B2 (en) 2002-10-04 2008-02-12 National Research Council Of Canada Method and apparatus for transmitting an audio stream having additional payload in a hidden sub-channel
US7243064B2 (en) 2002-11-14 2007-07-10 Verizon Business Global Llc Signal processing of multi-channel data
JP2004198485A (ja) 2002-12-16 2004-07-15 Victor Co Of Japan Ltd 音響符号化信号復号化装置及び音響符号化信号復号化プログラム
KR100908117B1 (ko) 2002-12-16 2009-07-16 삼성전자주식회사 비트율 조절가능한 오디오 부호화 방법, 복호화 방법,부호화 장치 및 복호화 장치
US6965859B2 (en) 2003-02-28 2005-11-15 Xvd Corporation Method and apparatus for audio compression
SG135920A1 (en) * 2003-03-07 2007-10-29 St Microelectronics Asia Device and process for use in encoding audio data
KR101169596B1 (ko) 2003-04-17 2012-07-30 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 신호 합성
AU2003222397A1 (en) 2003-04-30 2004-11-23 Nokia Corporation Support of a multichannel audio extension
US7318035B2 (en) 2003-05-08 2008-01-08 Dolby Laboratories Licensing Corporation Audio coding systems and methods using spectral component coupling and spectral component regeneration
US7548852B2 (en) 2003-06-30 2009-06-16 Koninklijke Philips Electronics N.V. Quality of decoded audio by adding noise
WO2005031704A1 (en) 2003-09-29 2005-04-07 Koninklijke Philips Electronics N.V. Encoding audio signals
US7447317B2 (en) 2003-10-02 2008-11-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V Compatible multi-channel coding/decoding by weighting the downmix channel
EP2221808B1 (en) 2003-10-23 2012-07-11 Panasonic Corporation Spectrum coding apparatus, spectrum decoding apparatus, acoustic signal transmission apparatus, acoustic signal reception apparatus and methods thereof
KR101106026B1 (ko) 2003-10-30 2012-01-17 돌비 인터네셔널 에이비 오디오 신호 인코딩 또는 디코딩
US7809579B2 (en) * 2003-12-19 2010-10-05 Telefonaktiebolaget Lm Ericsson (Publ) Fidelity-optimized variable frame length encoding
US7394903B2 (en) 2004-01-20 2008-07-01 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal
US7460990B2 (en) 2004-01-23 2008-12-02 Microsoft Corporation Efficient coding of digital media spectral data using wide-sense perceptual similarity
EP1914722B1 (en) 2004-03-01 2009-04-29 Dolby Laboratories Licensing Corporation Multichannel audio decoding
US7805313B2 (en) 2004-03-04 2010-09-28 Agere Systems Inc. Frequency-based coding of channels in parametric multi-channel coding systems
EP1735774B1 (en) 2004-04-05 2008-05-14 Koninklijke Philips Electronics N.V. Multi-channel encoder
FI119533B (fi) 2004-04-15 2008-12-15 Nokia Corp Audiosignaalien koodaus
SE0400997D0 (sv) 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Efficient coding of multi-channel audio
EP1749296B1 (en) 2004-05-28 2010-07-14 Nokia Corporation Multichannel audio extension
KR100634506B1 (ko) 2004-06-25 2006-10-16 삼성전자주식회사 저비트율 부호화/복호화 방법 및 장치
US7352858B2 (en) 2004-06-30 2008-04-01 Microsoft Corporation Multi-channel echo cancellation with round robin regularization
KR100773539B1 (ko) 2004-07-14 2007-11-05 삼성전자주식회사 멀티채널 오디오 데이터 부호화/복호화 방법 및 장치
US20060025991A1 (en) 2004-07-23 2006-02-02 Lg Electronics Inc. Voice coding apparatus and method using PLP in mobile communications terminal
US7630396B2 (en) 2004-08-26 2009-12-08 Panasonic Corporation Multichannel signal coding equipment and multichannel signal decoding equipment
US7630902B2 (en) 2004-09-17 2009-12-08 Digital Rise Technology Co., Ltd. Apparatus and methods for digital audio coding using codebook application ranges
DE602004020765D1 (de) 2004-09-17 2009-06-04 Harman Becker Automotive Sys Bandbreitenerweiterung von bandbegrenzten Tonsignalen
SE0402652D0 (sv) 2004-11-02 2004-11-02 Coding Tech Ab Methods for improved performance of prediction based multi- channel reconstruction
US7508863B2 (en) 2004-12-13 2009-03-24 Alcatel-Lucent Usa Inc. Method of processing multi-path signals
US20060259303A1 (en) 2005-05-12 2006-11-16 Raimo Bakis Systems and methods for pitch smoothing for text-to-speech synthesis
US7548853B2 (en) 2005-06-17 2009-06-16 Shmunk Dmitry V Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding
US7539612B2 (en) 2005-07-15 2009-05-26 Microsoft Corporation Coding and decoding scale factor information
US7630882B2 (en) 2005-07-15 2009-12-08 Microsoft Corporation Frequency segmentation to obtain bands for efficient coding of digital media
US7562021B2 (en) 2005-07-15 2009-07-14 Microsoft Corporation Modification of codewords in dictionary used for efficient coding of digital media spectral data
US7684981B2 (en) 2005-07-15 2010-03-23 Microsoft Corporation Prediction of spectral coefficients in waveform coding and decoding
US7693709B2 (en) 2005-07-15 2010-04-06 Microsoft Corporation Reordering coefficients for waveform coding or decoding
EP1949693B1 (en) 2005-10-12 2012-04-18 Samsung Electronics Co., Ltd. Method and apparatus for processing/transmitting bit-stream, and method and apparatus for receiving/processing bit-stream
US20070094035A1 (en) * 2005-10-21 2007-04-26 Nokia Corporation Audio coding
US20070168197A1 (en) 2006-01-18 2007-07-19 Nokia Corporation Audio coding
US7953604B2 (en) 2006-01-20 2011-05-31 Microsoft Corporation Shape and scale parameters for extended-band frequency coding
US7831434B2 (en) 2006-01-20 2010-11-09 Microsoft Corporation Complex-transform channel coding with extended-band frequency coding
US8190425B2 (en) 2006-01-20 2012-05-29 Microsoft Corporation Complex cross-correlation parameters for multi-channel audio
WO2007121778A1 (en) 2006-04-24 2007-11-01 Nero Ag Advanced audio coding apparatus
US8379868B2 (en) 2006-05-17 2013-02-19 Creative Technology Ltd Spatial audio coding based on universal spatial cues
US8135047B2 (en) 2006-07-31 2012-03-13 Qualcomm Incorporated Systems and methods for including an identifier with a packet associated with a speech signal
US7774205B2 (en) 2007-06-15 2010-08-10 Microsoft Corporation Coding of sparse digital media spectral data
US7761290B2 (en) 2007-06-15 2010-07-20 Microsoft Corporation Flexible frequency and time partitioning in perceptual transform coding of audio
US8046214B2 (en) 2007-06-22 2011-10-25 Microsoft Corporation Low complexity decoder for complex transform coding of multi-channel sound
US7885819B2 (en) 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
US8249883B2 (en) 2007-10-26 2012-08-21 Microsoft Corporation Channel extension coding for multi-channel source

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5845243A (en) 1995-10-13 1998-12-01 U.S. Robotics Mobile Communications Corp. Method and apparatus for wavelet based data compression having adaptive bit rate control for compression of audio information
US6680972B1 (en) * 1997-06-10 2004-01-20 Coding Technologies Sweden Ab Source coding enhancement using spectral-band replication
US6766293B1 (en) 1997-07-14 2004-07-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Method for signalling a noise substitution during audio signal coding

Also Published As

Publication number Publication date
JP2007532934A (ja) 2007-11-15
KR20110042137A (ko) 2011-04-22
KR101130355B1 (ko) 2012-03-27
US8645127B2 (en) 2014-02-04
DE602004024591D1 (de) 2010-01-21
JP6262820B2 (ja) 2018-01-17
JP2014240963A (ja) 2014-12-25
CN1813286A (zh) 2006-08-02
US7460990B2 (en) 2008-12-02
US20050165611A1 (en) 2005-07-28
EP1730725B1 (en) 2009-12-09
WO2005076260A1 (en) 2005-08-18
JP2017037311A (ja) 2017-02-16
EP1730725A1 (en) 2006-12-13
ATE451684T1 (de) 2009-12-15
JP2011186479A (ja) 2011-09-22
EP1730725A4 (en) 2007-05-30
JP4745986B2 (ja) 2011-08-10
KR20060121655A (ko) 2006-11-29
CN1813286B (zh) 2010-11-24
KR101083572B1 (ko) 2011-11-14
US20090083046A1 (en) 2009-03-26
KR20110093953A (ko) 2011-08-18

Similar Documents

Publication Publication Date Title
KR101251813B1 (ko) 넓은-뜻의 지각적 유사성을 이용하는 디지털 미디어 스펙트럼 데이터의 효과적인 코딩
KR101343267B1 (ko) 주파수 세그먼트화를 이용한 오디오 코딩 및 디코딩을 위한 방법 및 장치
KR101330362B1 (ko) 오디오 인코딩 방법, 오디오 디코딩 방법 및 오디오 인코더 디바이스
US7774205B2 (en) Coding of sparse digital media spectral data
US7761290B2 (en) Flexible frequency and time partitioning in perceptual transform coding of audio

Legal Events

Date Code Title Description
A107 Divisional application of patent
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20160318

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20170317

Year of fee payment: 5