KR20130069756A

KR20130069756A - 오디오 신호들의 종속-모드 코딩을 위한 시스템, 방법, 장치, 및 컴퓨터 판독가능 매체

Info

Publication number: KR20130069756A
Application number: KR1020137005405A
Authority: KR
Inventors: 벤카테쉬 크리쉬난; 비베크 라젠드란; 에단 알 두니
Original assignee: 퀄컴 인코포레이티드
Priority date: 2010-07-30
Filing date: 2011-07-29
Publication date: 2013-06-26
Also published as: CN103038821A; US9236063B2; CN103038822A; WO2012016128A2; CN103052984A; US20120029926A1; KR101442997B1; JP2013539548A; WO2012016122A2; TW201214416A; BR112013002166A2; US20120029923A1; US8831933B2; JP5694532B2; KR20130037241A; WO2012016126A3; US20120029924A1; EP2599081A2; KR101445509B1; CN103052984B

Abstract

신호의 오디오-주파수 범위를 나타내는 변환 계수들의 세트를 코딩하는 스킴은 신호의 타겟 프레임에서 상당한 에너지의 영역들의 주파수-도메인 위치들을 결정하기 위해 신호의 이전의 프레임을 기술하는 기준 프레임으로부터의 정보를 사용한다.

Description

오디오 신호들의 종속-모드 코딩을 위한 시스템, 방법, 장치, 및 컴퓨터 판독가능 매체{SYSTEMS, METHODS, APPARATUS, AND COMPUTER-READABLE MEDIA FOR DEPENDENT-MODE CODING OF AUDIO SIGNALS}

본 특허 출원은 2010년 7월 30일자로 출원된, 발명의 명칭이 "SYSTEMS, METHODS, APPARATUS, AND COMPUTER-READABLE MEDIA FOR EFFICIENT TRANSFORM-DOMAIN CODING OF AUDIO SIGNALS" 인 미국 가출원 제 61/369,662 호에 대한 우선권을 주장한다. 본 특허 출원은 2010년 7월 31일자로 출원된, 발명의 명칭이 "SYSTEMS, METHODS, APPARATUS, AND COMPUTER-READABLE MEDIA FOR DYNAMIC BIT ALLOCATION" 인 미국 가출원 제 61/369,705 호에 대한 우선권을 주장한다. 본 특허 출원은 2010년 8월 1일자로 출원된, 발명의 명칭이 "SYSTEMS, METHODS, APPARATUS, AND COMPUTER-READABLE MEDIA FOR MULTI-STAGE SHAPE VECTOR QUANTIZATION" 인 미국 가출원 제 61/369,751 호에 대한 우선권을 주장한다. 본 특허 출원은 2010년 8월 17일자로 출원된, 발명의 명칭이 "SYSTEMS, METHODS, APPARATUS, AND COMPUTER-READABLE MEDIA FOR GENERALIZED AUDIO CODING" 인 미국 가출원 제 61/374,565 호에 대한 우선권을 주장한다. 본 특허 출원은 2010년 9월 17일자로 출원된, 발명의 명칭이 "SYSTEMS, METHODS, APPARATUS, AND COMPUTER-READABLE MEDIA FOR GENERALIZED AUDIO CODING" 인 미국 가출원 제 61/384,237 호에 대한 우선권을 주장한다. 본 특허 출원은 2011년 3월 31일자로 출원된, 발명의 명칭이 "SYSTEMS, METHODS, APPARATUS, AND COMPUTER-READABLE MEDIA FOR DYNAMIC BIT ALLOCATION" 인 미국 가출원 제 61/470,438 호에 대한 우선권을 주장한다.

본 개시는 오디오 신호 프로세싱의 분야에 관한 것이다.

변경된 이산 코사인 변환 (modified discrete cosine transform; MDCT) 에 기초한 코딩 스킴들이 스피치 및/또는 음악과 같은 비스피치 콘텐츠를 포함할 수도 있는 일반화된 오디오 신호들을 코딩하기 위해 통상 사용된다. MDCT 코딩을 사용하는 기존의 오디오 코덱들의 에들은 MPEG-1 오디오 레이어 3 (MP3), 돌비 디지털 (돌비 연구소, 런던, UK; AC-3 로도 지칭되며 ATSC A/52 로서 표준화됨), Vorbis (Xiph, Org Foundation, Somerville, MA), 윈도우즈 미디오 오디오 (WMA, 마이크로소프트사, 레드몬드, 워싱톤), 적응형 변환 음향 코딩 (ATRAC, 소니사, 도쿄, 일본), 및 진보된 오디오 코딩 (AAC, 가장 최근에 ISO/IEC 14496-3: 2009 에서 표준화됨) 을 포함한다. MDCT 코딩은 또한 강화된 가변 레이트 코덱 (EVRC, 제 3 세대 파트너쉽 프로젝트 2 (3GPP2) 문서 C. S0014-D v2.0, Jan. 25, 2010 에서 표준화됨) 과 같은 일부 통신 표준들의 컴포넌트이다. G.718 코덱 ("Frame error robust narrowband and wideband embedded variable bit-rate coding of speech and audio from 8-32 kbit/s," 전기 통신 표준 섹터 (ITU-T), 제너바, 스위스, June 2008, 2008년 11월 및 2009년 8월에 정정, 2009년 3월 및 2010년 3월에 보정됨) 은 MDCT 코딩을 사용하는 멀티-레이어 코덱의 일 예이다.

일반 구성 (configuration) 에 따른 오디오 신호 프로세싱의 방법은, 주파수 도메인에서, 오디오 신호의 프레임을 기술하는 기준 프레임에 복수의 에너지 집중들을 위치시키는 단계를 포함한다. 이러한 방법은 또한, 복수의 에너지 주파수 도메인 집중들의 각각에 대해, 그리고 집중의 위치에 기초하여, 타겟 프레임의 부대역들의 세트의 대응하는 것에 대해 오디오 신호의 타겟 프레임 내의 위치를 선택하는 단계를 포함하고, 여기서 타겟 프레임은 기준 프레임에 의해 기술되는 프레임에 오디오 신호에서 후속한다. 이러한 방법은 또한 인코딩된 컴포넌트를 획득하기 위해 부대역들의 세트의 임의의 것에 존재하지 않는 타겟 프레임의 샘플들과는 개별적으로 타겟 프레임의 부대역들의 세트를 인코딩하는 단계를 포함한다. 이러한 방법에서, 인코딩된 컴포넌트는 부대역들의 세트의 적어도 하나의 각각에 대해, 부대역에 대한 선택된 위치와 대응하는 집중의 위치 사이의 주파수 도메인에서의 거리의 표시를 포함한다. 피쳐들을 판독하는 머신으로 하여금 그러한 방법을 수행하게 하는 유형의 피쳐들을 갖는 컴퓨터 판독가능 저장 매체 (예를 들어, 비일시적 매체) 가 또한 개시된다.

일반적인 구성에 따른 오디오 신호의 프레임들을 프로세싱하는 장치는 주파수 도메인에서, 오디오 신호의 프레임을 기술하는 기준 프레임에 복수의 에너지 집중들을 위치시키는 수단을 포함한다. 이러한 장치는 제 1 복수의 에너지 주파수 도메인 집중들의 각각에 대해, 그리고 집중의 위치에 기초하여, 타겟 프레임의 부대역들의 세트의 대응하는 것에 대해 오디오 신호의 타겟 프레임 내의 위치를 선택하는 수단을 포함하고, 여기서 타겟 프레임은 기준 프레임에 의해 기술되는 프레임에 오디오 신호에서 후속한다. 이러한 장치는 인코딩된 컴포넌트를 획득하기 위해 부대역들의 세트의 임의의 것에 존재하지 않는 타겟 프레임의 샘플들과는 개별적으로 타겟 프레임의 부대역들의 세트를 인코딩하는 수단을 포함한다. 이러한 장치에서, 인코딩된 컴포넌트는 부대역들의 세트의 적어도 하나의 각각에 대해, 부대역에 대한 선택된 위치와 대응하는 집중의 위치 사이의 주파수 도메인에서의 거리의 표시를 포함한다.

또 다른 일반적인 구성에 따른 오디오 신호의 프레임들을 프로세싱하는 장치는 주파수 도메인에서 오디오 신호의 프레임을 기술하는 기준 프레임에 복수의 에너지 집중들을 위치시키도록 구성된 로케이터를 포함한다. 이러한 장치는 제 1 복수의 에너지 주파수 도메인 집중들의 각각에 대해, 그리고 집중의 위치에 기초하여, 타겟 프레임의 부대역들의 세트의 대응하는 것에 대해 오디오 신호의 타겟 프레임 내의 위치를 선택하도록 구성된 선택기를 포함하고, 여기서 타겟 프레임은 기준 프레임에 의해 기술되는 프레임에 오디오 신호에서 후속한다. 이러한 장치는 인코딩된 컴포넌트를 획득하기 위해 부대역들의 세트의 임의의 것에 존재하지 않는 타겟 프레임의 샘플들과는 개별적으로 타겟 프레임의 부대역들의 세트를 인코딩하도록 구성된 인코더를 포함한다. 이러한 장치에서, 인코딩된 컴포넌트는 부대역들의 세트의 적어도 하나의 각각에 대해, 부대역에 대한 선택된 위치와 대응하는 집중의 위치 사이의 주파수 도메인에서의 거리의 표시를 포함한다.

도 1a 는 일반적 구성에 따른 오디오 신호를 프로세싱하는 방법 MC100 을 위한 흐름도를 도시한다.
도 1b 는 방법 MC100 의 구현 MC110 의 흐름도를 도시한다.
도 2a 는 피크 선택 윈도우의 예를 도시한다.
도 2b 는 태스크 TC200 의 동작의 예를 도시한다.
도 2c 는 증가하는 주파의 순서로 부대역의 양 사이드에 점유되지 않는 빈들을 채우기 위해 연쇄된 레지듀얼을 사용하는 예를 도시한다.
도 3 은 MDCT-인코딩된 신호의 기준 및 타겟 프레임들의 예를 도시한다.
도 4a 는 인코딩된 타겟 프레임을 디코딩하는 방법 MD100 의 흐름도를 도시한다.
도 4b 는 방법 MD100 의 구현 MD110 의 흐름도를 도시한다.
도 5 는 부대역들과 레지듀얼의 개재 영역들이 라벨링되어 있는 타겟 프레임을 인코딩하는 예를 도시한다.
도 6 은 다수의 단위 펄스들로서 레지듀얼 신호의 일부를 인코딩하는 예를 도시한다.
도 7a 는 일반 구성에 따른 오디오 신호 프로세싱을 위한 장치 MF100 의 블록도를 도시한다.
도 7b 는 장치 MF100 의 구현 MF110 의 블록도를 도시한다.
도 8a 는 또 다른 일반 구성에 따른 오디오 신호 프로세싱을 위한 장치 A100 의 블록도를 도시한다.
도 8b 는 인코더 (300) 의 구현 (302) 의 블록도를 도시한다.
도 8c 는 장치 A100 의 구현 A110 의 블록도를 도시한다.
도 8d 는 장치 A110 의 구현 A120 의 블록도를 도시한다.
도 8e 는 장치 A120 의 구현 A130 의 블록도를 도시한다.
도 9a 는 장치 A110 의 구현 A140 의 블록도를 도시한다.
도 9b 는 장치 A120 의 구현 A150 의 블록도를 도시한다.
도 10a 는 일반 구성에 따른 오디오 신호 프로세싱을 위한 장치 MFD100 의 블록도를 도시한다.
도 10b 는 장치 MFD100 의 구현 MFD110 의 블록도를 도시한다.
도 10c 는 또 다른 일반 구성에 따른 오디오 신호 프로세싱을 위한 장치 A100D 의 블록도를 도시한다.
도 11a 는 장치 A100D 의 구현 A110D 의 블록도를 도시한다.
도 11b 는 장치 A110D 의 구현 A120D 의 블록도를 도시한다.
도 11c 는 일반 구성에 따른 장치 A200 의 블록도를 도시한다.
도 12 는 방법 MC100 과 결합하여 수행될 수도 있는 오디오 신호 프로세싱의 방법 MB110 을 위한 흐름도를 도시한다.
도 13 은 UB-MDCT 신호가 모델링되고 있는 예에 대한 크기 대 주파수의 플롯을 도시한다.
도 14a 내지 도 14e 는 장치 A120 의 여러 구현들에 대한 애플리케이션들의 범위를 도시한다.
도 15a 는 신호 분류의 방법 MZ100 의 블록도를 도시한다.
도 15b 는 통신 디바이스 D10 의 블록도를 도시한다.
도 16 은 핸드셋 H100 의 정면도, 배면도 및 측면도를 도시한다.

여기에 기술된 동적 부대역 선택 스킴은 이전의 프레임의 대응하는 지각적으로 중요한 부대역들로 인코딩될 프레임의 지각적으로 중요한 (예를 들어, 고 에너지) 부대역들을 매치하는데 사용될 수도 있다.

인코딩될 신호 내에서 상당한 에너지의 영역들을 식별하는 것은 바람직할 수도 있다. 그러한 영역들을 신호의 나머지로부터 분리하는 것은 증가된 코딩 효율을 위해 이들 영역들의 타겟팅된 코딩을 가능하게 한다. 예를 들어, 그러한 영역들을 인코딩하는데 상대적으로 더 많은 비트들을 사용하고 신호의 다른 영역들을 인코딩하는데 상대적으로 더 적은 비트들을 사용하는 (또는 심지어 비트들을 사용하지 않는) 것에 의해 코딩 효율을 증가시키는 것이 바람직할 수도 있다.

높은 하모닉 콘텐츠를 갖는 오디오 신호들 (예를 들어, 음악 신호들, 유성음 스피치 신호들) 의 경우, 주어진 시간에 주파수 도메인에 상당한 에너지의 영역들의 위치들은 시간의 경과에 따라 비교적 지속적일 수도 있다. 시간의 경과에 따른 그러한 상관을 활용함으로써 오디오 신호의 효율적인 변환-도메인 코딩을 수행하는 것이 바람직할 수도 있다.

신호의 오디오-주파수 범위를 나타내는 변환 계수들의 세트를 코딩하기 위한, 여기에 기술된 스킴은 디코딩된 신호의 예전의 프레임에서의 그러한 영역들의 위치들에 대한 주파수 도메인에서 상당한 에너지의 영역들의 위치들을 인코딩함으로써 신호 스펙트럼에 걸친 에너지 분포의 시간-지속성을 활용한다. 특정의 애플리케이션에서, 그러한 스킴은 선형 예측 모딩 (LPC) 동작의 레지듀얼과 같이, 오디오 신호의 0-4 kHz 범위 (이하, 저대역 MDCT, 또는 LB-MDCT 로 지칭됨) 에 대응하는 MDCT 변환 계수들을 인코딩하는데 사용된다.

상당한 에너지의 영역들의 위치들을 그들의 콘텐츠로부터 분리하는 것은 이들 영역들의 위치들의 표시가 최소 사이드 정보 (예를 들어, 인코딩된 신호의 이전의 프레임에서의 그들 영역들의 위치들로부터의 오프셋들) 를 사용하여 디코더로 송신되는 것을 허용한다. 그러한 효율은 셀룰러 전화와 같은 저 비트 레이트 애플리케이션들에 대해 특히 중요할 수도 있다.

문맥에 의해 명백히 제한되지 않는 한, 용어 "신호" 는 여기서 배선, 버스, 또는 다른 송신 매체 상에 표현된 메모리 위치 (또는 메모리 위치들의 세트) 의 상태를 포함하여, 그의 보통의 의미들 중 임의의 것을 나타내는데 사용된다. 문맥에 의해 명백히 제한되지 않는 한, 용어 "발생 (generating)" 은 여기서 컴퓨팅 또는 그렇지 않으면 생성 (producing) 과 같은, 그의 보통의 의미들 중 임의의 것을 나타내는데 사용된다. 문맥에 의해 명백히 제한되지 않는 한, 용어 "계산 (calculating)" 은 여기서 컴퓨팅, 평가, 평활화 및/또는 복수의 값들로부터의 선택과 같은, 그의 보통의 의미들 중 임의의 것을 나타내는데 사용된다. 문맥에 의해 명백히 제한되지 않는 한, 용어 "획득" 은 계산, 도출, (예를 들어, 외부 디바이스로부터) 수신 및/또는 (저장 엘리먼트들의 어레이로부터) 취출과 같은, 그의 보통의 의미들 중 임의의 것을 나타내는데 사용된다. 문맥에 의해 명백히 제한되지 않는 한, 용어 "선택" 은 둘 이상으로된 세트 중 적어도 하나, 및 전체 보다 적은 것을 식별, 표시, 적용, 및/또는 사용하는 것과 같은, 그의 보통의 의미들 중 임의의 것을 나타내는데 사용된다. 용어 "포함 (comprising)" 이 본 상세한 설명 및 청구범위에서 사용되는 경우, 그것은 다른 엘리먼트들 또는 동작들을 배체하지 않는다. 용어 ("A 는 B 에 기초한다" 에서와 같은) "~ 에 기초하는" 은 다음의 경우들 (i) "~ 로부터 도출되는" (예를 들어 "B 는 A 의 전신이다") (ii) "~ 에 적어도 기초하는" (예를 들어, "A 는 B 에 적어도 기초하는"), 및 특정의 문맥에서 적절한 경우 (iii) "~ 와 동일한" (예를 들어, "A 는 B 와 동일하다") 을 포함하여, 그의 보통의 의미들 중 임의의 것을 나타내는데 사용된다. 유사하게 용어 "~ 에 응답하여" 는 "~ 에 적어도 응답하여" 를 포함하여, 그의 보통의 의미들 중 임의의 것을 나타내는데 사용된다.

달리 표현되지 않는 한, 용어 "시리즈" 는 2 개 이상의 아이템들의 시퀀스를나타내는데 사용된다. 용어 "로가리듬 (logarithm)" 은 다른 베이스들에 대한 연산의 확장들이 본 개시의 범위 내에 있더라도, 베이스-10 로가리듬을 나타내는데 사용된다. 용어 "주파수 컴포넌트" 는 (예를 들어, 고속 푸리에 변환에 의해 생성된) 신호의 주파수 도메인 표현의 샘플 또는 신호의 부대역 (예를 들어, 바크 스케일 또는 멜 (mel) 스케일 부대역) 과 같은, 신호의 주파수들 또는 주파수 대역들의 세트 중의 하나를 나타내는데 사용된다.

달리 표시되지 않는 다면, 특정의 피쳐를 갖는 장치의 동작의 임의의 개시는 또한 상사성 피쳐를 갖는 방법을 개시하는 것으로 명백히 의도되고 (역도 성립), 특정의 구성에 따른 장치의 동작의 임의의 개시는 또한 상사성 구성에 따른 방법을 개시하는 것으로 명백히 의도된다 (역도 성립). 용어 "구성 (configuration)" 은 그의 특징의 문맥에 의해 표시된 방법, 장치, 및/또는 시스템을 참조하여 사용될 수도 있다. 용어들 "방법", "프로세스", "절차", 및 "기법" 은 특정의 문맥에 의해 달리 표시되지 않는 한 일반적으로 및 상호교환적으로 사용된다. 용어들 "장치" 및 "디바이스" 는 또한 특정의 문맥에 의해 달리 표시되지 않는 한 일반적으로 및 상호교환적으로 사용된다. 용어들 "엘리먼트" 및 "모듈" 은 통상적으로 더 큰 구성의 일부를 나타내는데 사용된다. 문맥에 의해 명백히 제한되지 않는 한, 용어 "시스템" 은 여기서 "공통의 목적을 서빙하기 위해 상호작용하는 엘리먼트들의 그룹" 을 포함하여, 그의 보통의 의미들 중 임의의 것을 나타내는데 사용된다. 문서의 일부의 참조에 의한 통합은 그 일부 내에서 참조되는 용어들 또는 변수들의 정의들을, 그러한 정의들이 그 통합된 부분에서 참조되는 임의의 도면들 뿐아니라 그 문서 내의 그 밖의 다른 곳에서 나타나는 곳에서 통합하는 것으로 이해되어야 한다.

여기에 기술된 시스템, 방법 및 장치는 일반적으로 주파수 도메인에서 오디오 신호들의 표현들을 코딩하는데 적용가능하다. 그러한 표현의 통상적인 예는 변환 도메인에서 변환 계수들의 시리즈이다. 적합한 변환들의 예들은 정현 유니터리 변환들과 같은 이산 직교 변환들을 포함한다. 적합한 정현 유니터리 변환들의 예들은 제한 없이 이산 코사인 변환 (DCT), 이산 사인 변환 (DST), 및 이산 푸리에 변환 (DFT) 를 포함하는 이산 삼각 변환들을 포함한다. 적합한 변환들의 다른 예들은 그러한 변환들의 랩핑된 (lapped) 버전들을 포함한다. 적합한 변환의 특정의 예는 위에서 도입된 변경된 DCT (MDCT) 이다.

본 개시의 전체에 걸쳐, 오디오 주파수 범위의 "저대역" 및 "고대역" (등가적으로, "상위 대역"), 및 0 내지 4 킬로헤르츠 (kHz) 의 저대역 및 3.5 내지 7 kHz 의 고대역의 특정의 예를 참조한다. 여기에 논의되는 원리들은 그러한 제한이 명백히 진술되지 않는다면, 이러한 특정의 예에 어떤 식으로든 제한되지 않는다. 인코딩, 디코딩, 할당, 양자화, 및/또는 다른 프로세싱의 이들 원리들의 적용이 명백히 생각되고 여기에 개시되는 주파수 범위의 다른 예들 (제한 없이) 은 0, 25, 50, 100, 150, 및 200 Hz 중 임의의 것에서 하위 경계 및 3000, 3500, 4000, 및 4500 Hz 중 임의의 것에서 상위 경계를 갖는 저대역, 및 3000, 3500, 4000, 및 4500 Hz 중 임의의 것에서 하위 경계 및 6000, 6500, 7000, 7500, 8000, 8500 및 9000 Hz 중 임의의 것에서 상위 경계를 갖는 고대역을 포함한다. 3000, 3500, 4000, 4500, 5000, 5500, 6000, 6500, 7000, 7500, 8000, 8500 및 9000 Hz 중 임의의 것에서 하위 경계 및 10, 10.5, 11, 11.5, 12, 12.5, 13, 13.5, 14, 14.5, 15, 15.5 및 16 kHz 중 임의의 것에서 상위 경계를 갖는 고대역에의 그러한 원리들의 적용이 또한 명백히 고려되고 여기에 개시된다. 고대역 신호가 (예를 들어, 리샘플링 및/또는 데시메이션을 통해) 코딩 프로세스의 초기 스테이션에서 낮은 샘플링 레이트로 통상 변환되지만, 그것은 고대역 신호로 남아있고 그것이 반송하는 정보는 고대역 오디오-주파수 범위를 계속 나타낸다.

여기에 기술된 코딩 스킴은 (예를 들어, 스피치를 포함하는) 임의의 오디오 신호를 코딩하는데 적용될 수도 있다. 대안적으로, 비스피치 오디오 (예를 들어, 음악) 에 대해서만 그러한 코딩 스킴을 사용하는 것이 바람직할 수도 있다. 그러한 경우에, 코딩 스킴은 오디오 신호의 각 프레임의 콘텐츠의 유형을 결정하고 적합한 코딩 스킴을 선택하기 위해 분류 스킴과 함께 사용될 수도 있다.

여기에 기술된 코딩 스킴은 멀티-레이어 또는 멀티-스테이지 코덱에서 1차 코덱으로서 또는 층 또는 스테이지로서 사용될 수도 있다. 그러한 한 예에서, 그러한 코딩 스킴은 오디오 신호 (예를 들어, 저대역 또는 고대역) 의 주파수 콘텐츠의 일부를 코딩하는데 사용되며, 다른 코딩 스킴은 신호의 주파수 콘텐츠의 다른 부분을 코딩하는데 사용된다. 그러한 다른 예에서, 그러한 코딩 스킴은 다른 코딩 레이어의 레지듀얼 (즉, 원래의 신호와 인코딩된 신호 간의 에러) 을 코딩하는데 사용된다.

도 1a 는 태스크 (TC100, TC200 및 TC300) 을 포함하는 일반 구성에 따른 오디오 신호를 프로세싱하는 방법 (MC100) 을 위한 흐름도를 도시한다. 방법 (MC100) 은 (예를 들어, 각 세그먼트에 대한 태스크 (TC100, TC200 및 TC300) 의 각각의 인스턴스를 수행함으로써) 세그먼트들의 시리즈로서 오디오 신호를 프로세싱하도록 구성될 수도 있다. 세그먼트 (또는 "프레임") 는 통상 약 5 또는 10 밀리초로부터 약 40 또는 50 밀리초까지의 범위의 길이를 갖는 시간-도메인 세그먼트에 대응하는 변환 계수들의 블록일 수도 있다. 시간-도메인 세그먼트들은 오버랩핑 (예를 들어, 인접한 세그먼트들이 25% 또는 50% 만큼 오버랩핑) 하거나 비오버랩핑할 수도 있다.

오디오 코더에서 높은 품질 및 낮은 지연 양자 모두를 획득하는 것은 바람직할 수도 있다. 오디오 코더는 높은 품질을 획득하기 위해 큰 프레임 사이즈를 사용할 수도 있지만, 불행하게도 큰 프레임 사이즈는 통상 더욱 긴 지연을 초래한다. 여기에 기술된 오디오 인코더의 잠재적인 이점들은 짧은 프레임 사이즈들 (예를 들어, 10-밀리초 룩어헤드를 갖는 20-밀리초 프레임 사이즈) 을 갖는 고품질 코딩을 포함한다. 하나의 특정의 예에서, 시간-도메인 신호는 20-밀리초 비오버랩핑 세그먼트들의 시리즈로 분할되며, 각 프레임에 대한 MDCT 는 10 밀리초 만큼 인접한 프레임들의 각각에 오버랩핑하는 40-밀리초 윈도우에 대해 취해진다.

방법 (MC100) 에 의해 프로세싱된 세그먼트는 또한 변환에 의해 생성된 블록의 일부 (예를 들어, 저대역 또는 고대역), 또는 그러한 블록에 대한 이전의 동작에 의해 생성된 블록의 일부일 수도 있다. 하나의 특정의 예에서, 방법 (MC100) 에 의해 프로세싱된 세그먼트들 (또는 "프레임들") 의 시리즈의 각각은 0 내지 4 kHz 의 저대역 주파수 범위를 나타내는 160 개의 MDCT 계수들의 세트를 포함한다. 또 다른 특정의 예에서, 방법 (MC100) 에 의해 프로세싱되는 프레임들의 시리즈의 각각은 3.5 내지 7 kHz 의 고대역 주파수 범위를 나타내는 140 개의 MDCT 계수들의 세트를 포함한다.

태스크 (TC100) 는 주파수 도메인에서 오디오 신호의 기준 프레임에 복수 (K) 의 에너지 집중들을 위치시키도록 구성된다. "에너지 집중" 은 샘플 (즉, 피크), 또는 프레임의 샘플당 평균 에너지에 비해 높은 샘플당 평균 에너지를 갖는 2 개 이상의 연속적인 샘플들의 스트링 (예를 들어, 부대역) 으로서 정의된다. 기준 프레임은 양자화되고 역양자화되었던 오디오 신호의 프레임이다. 예를 들어, 방법 (MC100) 이 기준 프레임을 인코딩 및 디코딩하는데 사용된 코딩 스킴에 관계없이 일반적으로 적용가능하더라도, 기준 프레임은 방법 (MC100) 의 예전의 인스턴스에 의해 양자화되었을 수도 있다.

태스크 (TC100) 가 에너지 집중들을 부대역들로서 선택하도록 구현되는 경우, 각각의 부대역을 부대역 내의 최대 샘플에 센터링하는 것이 바람직할 수도 있다. 태스크 (TC100) 의 구현 (TC110) 은 주파수 도메인에서 디코딩된 기준 프레임에서 복수 (K) 의 피크들로서 에너지 집중들을 위치시키며, 여기서 피크는 국부적 최대인 ("빈" 으로도 불리는) 주파수-도메인 신호의 샘플로서 정의된다. 그러한 동작은 또한 "피크-피킹 (peak-picking)" 으로서 지칭될 수도 있다.

인접한 에너지 집중들 간의 최소 거리를 강화하도록 태스크 (TC100) 을 구성하는 것이 바람직할 수도 있다. 예를 들어, 태스크 (TC110) 는 샘플의 양 사이드로의 일부 최소 거리 내에 최대값을 갖는 샘플로서 피크를 식별하도록 구성될 수도 있다. 그러한 경우, 태스크 (TC110) 는 샘플에서 센터링된 사이즈 (2d_min+1) 의 윈도우 내에 최대값을 갖는 샘플로서 피크를 식별하도록 구성될 수도 있으며, 여기서 d_min 은 피크들 간의 최소 허용 간격이다.

d_min의 값은 타겟 프레임에 위치될 부대역들의 최대 원하는 수에 따라 선택될 수도 있으며, 여기서 이러한 최대값은 인코딩된 타겟 프게임의 원하는 비트 레이트에 관련될 수도 있다. 위치될 피크들의 수에 대한 최대 한계 (예를 들어, 140 또는 160 개의 샘플들의 프레임 사이즈에 대해, 프레임당 18 개의 피크들) 를 세팅하는 것이 바람직할 수도 있다. 원하는 애플리케이션에 적합한 임의의 값이 사용될 수도 있지만, d_min의 예들은 4, 5, 6, 7, 8, 9, 10, 12, 및 15 개의 샘플들 (대안적으로, 100, 125, 150, 175, 200, 또는 250 Hz) 을 포함한다. 도 2a 는 d_min의 값이 8 인 경우에 대해, 기준 프레임의 잠재적인 피크 위치에 센터링된, 사이즈 (2d_min+1) 의 피크 선택 윈도우의 예를 도시한다.

태스크 (TC100) 는 위치된 에너지 집중들 상에 최소 에너지 제약을 강제하도록 구성될 수도 있다. 하나의 그러한 예에서, 태스크 (TC110) 는 기준 프레임의 에너지의 특정된 비율 (예를 들어, 2, 3, 4, 또는 5 퍼센트) 보다 큰 (대안적으로, 보다 작지 않은) 에너지를 갖는 경우에만 샘플을 피크로서 식별하도록 구성된다. 또 다른 그러한 예에서, 태스크 (TC110) 는 기준 프레임의 평균 샘플 에너지 (예를 들어, 400, 450, 500, 550, 또는 600 퍼센트) 보다 큰 (대안적으로, 보다 작지 않은) 에너지를 갖는 경우에만 샘플을 피크로서 식별하도록 구성된다. 감소하는 에너지 순서로 (대안적으로, 증가하거나 감소하는 주파수 순서로) 정렬된 위치들의 리스트로서 복수의 에너지 집중들을 생성하는 것이 바람직할 수도 있다.

태스크 (TC100) 에 의해 위치된 복수의 에너지 집중들의 적어도 일부의 각각에 대해, 그리고 에너지 집중의 주파수-도메인 위치에 기초하여, 태스크 (TC200) 는 타겟 프레임의 부대역들의 세트의 대응하는 것에 대해 타겟 프레임에서 위치를 선택한다. 타겟 프레임은 기준 프레임에 의해 인코딩된 프레임에 오디오 신호에서 후속하며, 통상 타겟 프레임은 기준 프레임에 의해 인코딩된 프레임에 시간 도메인에서 인접하다. 태스크 (TC100) 가 에너지 집중들을 부대역들로서 선택하도록 구현되는 경우에 대해, 각각의 집중의 주파수-도메인 위치를 집중의 중심 샘플의 위치로서 정의하는 것이 바람직할 수도 있다. 도 2b 는 태스크 (TC200) 의 동작의 예를 나타내며, 여기서 원들은 태스크 (TC100) 에 의해 결정된, 기준 프레임의 에너지 집중의 위치들을 나타내며, 브라켓들 (brackets) 은 타겟 프레임에서 대응하는 부대역들의 스팬 (span) 들을 나타낸다.

시간의 경과에 따른 오디오 신호의 에너지 스펙트럼에서의 변경들을 수용하도록 방법 (MC100) 을 구현하는 것이 바람직할 수도 있다. 예를 들어, 타겟 프레임에서의 부대역에 대한 선택된 위치 (예를 들어, 부대역의 중심 샘플의 위치) 가 기준 프레임에서의 대응하는 에너지 집중의 위치와 다소 상이한 것을 허용하도록 태스크 (TC200) 를 구성하는 것이 바람직할 수도 있다. 그러한 경우, 부대역들의 하나 이상의 각각에 대한 선택된 위치가 대응하는 에너지 집중에 의해 표시된 위치로부터 (시프트 또는 "지터" 로도 칭해지는) 어느 방향으로 적은 수의 빈들에 의해 벗어나는 것을 허용하도록 태스크 (TC200) 를 구현하는 것이 바람직할 수도 있다. 그러한 시프트 또는 지터의 값은 예를 들어 결과적인 부대역이 그 영역 내의 에너지의 더욱 많은 것을 캡쳐하도록 선택될 수도 있다.

부대역에 대해 허용된 지터의 양에 대한 예들은 부대역 폭의 25, 30, 40, 및 50 퍼센트를 포함한다. 주파수 축의 각 방향으로 허용된 지터의 양은 동일할 필요가 없다. 특정의 예에서, 각 부대역은 7 개의 빈들의 폭을 가지며, (예를 들어, 기준 프레임의 대응하는 에너지 집중의 위치에 의해 표시된) 주파수 축을 따라 그의 초기 위치를 최대 4 개의 주파수 빈들 더 높게 또는 최대 3 개의 주파수 빈들 더 낮게 시프트하도록 허용된다. 이러한 예에서, 부대역에 대한 선택된 지터 값은 3 개의 비트들로 표현될 수도 있다.

부대역에 대한 시트프 값은 대부분의 에너지를 캡쳐하도록 부대역을 배치시키는 값으로서 결정될 수도 있다. 대안적으로, 부대역에 대한 시프트 값은 부대역 내에서 최대 샘플 값을 센터링하는 값으로서 결정될 수도 있다. 피크-센터링 기준은 부대역들의 형상들 중의 더 작은 분산을 생성하는 경향이 있으며, 이것은 여기에 기술된 벡터 양자화 스킴에 의해 더욱 효율적인 코딩을 초래할 수도 있다. 최대-에너지 기준은 예를 들어 센터링되지 않은 형상들을 생성함으로써 형상들 중의 엔트로피를 증가시킬 수도 있다. 어느 경우든, 부대역이 타겟 프레임에 대해 그의 위치가 이미 선택된 임의의 부대역을 오버랩핑하는 것을 방지하기 위한 제약을 부여하도록 태스크 (TC200) 를 구성하는 것이 바람직할 수도 있다.

도 3 은 수직축들은 절대 샘플 값 (즉, 샘플 크기) 을 나타내고, 수평축들은 주파수 빈 값을 나타내는 MDCT-인코딩된 신호의 기준 및 타겟 프레임들 (각각, 상부 플롯 및 하부 플롯) 의 예를 도시한다. 상부 플롯에서의 타겟들은 태스크 (TC100) 에 의해 결정된 기준 프레임에서의 에너지 집중들의 위치들을 나타낸다. 상술된 바와 같이, 태스크 (TC200) 가 감소하는 에너지 순서로 (대안적으로, 증가하거나 감소하는 주파수 순서로) 정렬되는 리스트로서 기준 프레임에서의 복수의 에너지 집중들의 위치들을 수신하는 것이 바람직할 수도 있다. 그러한 리스트의 길이가 적어도 타겟 프레임에 대해 인코딩될 부대역들의 최대 허용가능한 수 (예를 들어, 140 또는 160 개의 샘플들의 프레임 사이즈에 대해, 프레임당 8, 10, 12, 14, 16, 또는 18 개의 피크들) 만큼 긴 것이 바람직할 수도 있다.

도 3 은 또한 타겟 프레임에 대한 태스크 (TC200) 의 구현 (TC202) 의 동작의 예를 나타낸다. 태스크 (TC100) 에 의해 위치된 K 개의 에너지 집중들의 적어도 일부의 주파수-도메인 위치들에 기초하여, 태스크 (TC202) 는 타겟 프레임에서 대응하는 피크들을 위치시킨다. 도 3 의 점선은 기준 프레임에서의 위치 (k) 에 대응하는 타겟 프레임에서의 주파수-도메인 위치를 나타낸다.

태스크 (TC202) 는 기준 프레임에서의 대응하는 피크의 위치에 센터링되고 각 방향에서의 지터의 허용가능한 범위에 의해 결정되는 폭을 갖는 타겟 프레임의 윈도우를 검색함으로써 타겟 프레임에서 각 피크를 위치시키도록 구현될 수도 있다. 예를 들어, 태스크 (TC202) 는 기준 프레임에서의 대응하는 피크의 위치로부터 각 방향에서의 Δ 개의 빈들의 허용가능한 편차에 따라 타겟 프레임에서 대응하는 피크를 위치시키도록 구현될 수도 있다. Δ 의 예시적인 값들은 (예를 들어, 140 또는 160 개의 빈들의 프레임 대역폭에 대해) 2, 3, 4, 5, 6, 7, 8, 9, 및 10 을 포함한다. 도 3 에 도시된 바와 같이, 이러한 피크 선택 윈도우 내에서, 태스크 (TC202) 는 윈도우 내에서 최대 에너지 (예를 들어, 최대 크기) 를 갖는 타겟 프레임의 샘플로서 피크를 위치시키도록 구성될 수도 있다.

태스크 (TC300) 는 태스크 (TC200) 에 의해 선택된 부대역 위치들에 의해 표시되는 타겟 프레임의 부대역들의 세트를 인코딩한다. 도 3에 도시된 바와 같이, 태스크 (TC300) 는 대응하는 위치에 센터링되는 폭 (2d+1) 빈들의 샘플들의 스트링으로서 각 부대역을 선택하도록 구성될 수도 있다. (Δ 보다 크거나, 작거나, 또는 같을 수도 있는) d 의 예시적인 값들은 (예를 들어, 140 또는 160 개의 빈들의 프레임 대역폭에 대해) 2, 3, 4, 5, 6, 및 7 을 포함한다.

태스크 (TC300) 는 고정되고 동일한 길이의 부대역들을 인코딩하도록 구현될 수도 있다. 특정의 예에서, 각각의 부대역은 7 개의 주파수 빈들의 폭 (예를 들어, 25 Hz 의 빈 간격에 대해, 175 Hz) 을 갖는다. 그러나, 여기에 개시된 원리들은 또한 부대역들의 길이들이 하나의 타겟 프레임으로부터 다른 것으로 변화할 수도 있는 경우, 및/또는 타겟 프레임 내의 부대역들의 세트의 2 개 이상 (가능한 경우 전부) 의 길이들이 상이할 수도 있는 경우에 적용될 수도 있다는 것이 명백히 고려되고 여기에 개시된다.

태스크 (TC300) 는 타겟 프레임에서의 다른 샘플들 (즉, 주파수 축 상의 그의 위치들이 제 1 부대역 전에, 인접한 부대역들 사이에, 또는 마지막 부대역 후에) 있는 샘플들과는 개별적으로 부대역들의 세트를 인코딩하여 인코딩된 타겟 프레임을 생성한다. 인코딩된 타겟 프레임은 부대역들의 세트의 콘텐츠를 나타내고, 또한 각 부대역에 대한 지처 값을 나타낸다.

부대역들의 콘텐츠들 (즉, 부대역들 각각 내의 값들) 를 벡터들로서 인코딩하는 벡터 양자화 (VQ) 코딩 스킴을 사용하도록 태스크 (TC300) 를 구현하는 것이 바람직할 수도 있다. VQ 스킴은 (디코더에도 알려져 있는) 하나 이상의 코드북들 각각의 엔트리에 벡터를 매치시키고 벡터를 나타내기 위해 이들 엔트리들의 인덱스 또는 인덱스들을 사용함으로써 벡터를 인코딩한다. 코드북에서의 엔트리들의 최대 수를 결정하는 코드북 인덱스의 길이는 애플리케이션에 적합한 것으로 생각되는 어떤 임의의 정수일 수도 있다.

적합합 VQ 스킴의 일 예는 이득-형상 VQ (GSVQ) 이며, 여기서 각 부대역의 콘텐츠는 (예를 들어, 주파수 축을 따른 부대역의 형상을 기술하는) 정규화된 형상 벡터와 대응하는 이득 팩터로 분해되어, 형상 벡터와 이득 팩터가 개별적으로 양자화되도록 한다. 형상 벡터들을 인코딩하는 것에 할당된 비트들의 수는 여러 부대역들의 형상 벡터들 중에 균일하게 분포될 수도 있다. 대안적으로, (대응하는 이득 팩터들에 기초하여 형상 코딩을 위해 비트들을 할당하기 위해) 다른 부대역들의 형상 벡터들의 이득 팩터들에 비해 그의 대응하는 이득 팩터들이 비교적 높은 값들을 갖는 형상 벡터들과 같이, 다른 것들보다 더 많은 에너지를 캡쳐하는 형상 벡터들을 인코딩하는데 더욱 많은 이용가능한 비트들을 할당하는 것이 바람직할 수도 있다.

부대역들의 각 세트에 대한 이득 팩터들이 서로 독립적으로 그리고 이전 프레임의 대응하는 이득 팩터에 대해 차분적으로 인코딩되도록 예측 이득 코딩을 포함하는 GSVQ 스킴을 사용하도록 태스크 (TC300) 을 구현하는 것이 바람직할 수도 있다. 부가적으로 또는 대안적으로, 변환 코드를 사용하여 GSVQ 스킴의 부대역 이득 팩터들을 인코딩하도록 태스크 (TC300) 를 구현하는 것이 바람직할 수도 있다. 방법 (MC100) 의 특정의 예는 타겟 프레임의 LB-MDCT 스펙트럼의 주파수 범위에서 상당한 에너지의 영역들을 인코딩하기 위해 그러한 GSVQ 스킴을 사용하도록 구현된다.

대안적으로, 태스크 (TC300) 는 펄스-코딩 스킴과 같은 다른 코딩 스킴을 사용하여 부대역들의 세트를 인코딩하도록 구현될 수도 있다. 펄스 코딩 스킴은 벡터를 단위 펄스들의 패턴에 매칭하고 벡터를 표현하기 위해 그 패턴을 식별하는 인덱스를 사용함으로써 벡터를 인코딩한다. 그러한 스킴은 부대역들의 연쇄에 있어서 단위 펄스들의 수, 포지션들 및 부호들을 인코딩하도록 구성될 수도 있다. 펄스 코딩 스킴들의 예들은 팩토리얼-펄스-코딩 스킴들 (FPC) 및 콤비네이토리얼-펄스-코딩 (CPC) 스킴들을 포함한다. 다른 대안에서, 태스크 (TC300) 는 부대역들의 세트의 특정된 서브셋을 인코딩하기 위해 VQ 코딩 스킴 (예를 들어, GSVQ) 을, 그리고 그 세트의 나머지 부대역들의 연쇄를 인코딩하기 위해서는 펄스-코딩 스킴 (예를 들어, FPC 또는 CPC) 을 사용하도록 구현된다.

인코딩된 타겟 프레임은 또한 부대역들의 세트의 각각에 대해 태스크 (TC300) 에 의해 계산된 지터값을 포함한다. 일 예에서, 부대역들의 세트의 각각에 대한 지터값은 인코딩된 타겟 프레임으로 태스크 (TC300) 에 의해 팩킹되기 전에 VQ 인코딩될 수도 있는 지터 벡터의 대응하는 엘리먼트에 저장된다. 지터 벡터의 엘리먼트들이 저장되는 것은 바람직할 수도 있다. 예를 들어, 지터 벡터의 엘리먼트들은 (예를 들어, 감소하는 순서로) 기준 프레임의 대응하는 에너지 집중 (예를 들어, 피크) 의 에너지에 따라, 또는 (예를 들어, 증가하거나 감소하는 순서로) 대응하는 에너지 집중의 위치의 주파수에 따라, 또는 (예를 들어, 감소하는 순서로) 대응하는 부대역 벡터와 연관된 이득 팩터에 따라 저장될 수도 있다. 지터 벡터가 고정된 길이를 갖는 것이 바람직할 수도 있으며, 이 경우 벡터는 타겟 프레임에 대해 인코딩될 부대역들의 수가 최대 허용된 부대역들의 수보다 적을 때 제로들로 패딩 (padding) 될 수도 있다. 대안적으로, 지터 벡터는 타겟 프레임에 대해 태스크 (TC200) 에 의해 선택되는 부대역 위치들의 수에 따라 변하는 길이를 가질 수도 있다.

도 1b 는 태스크 (TC50) 를 포함하는 방법 (MC100) 의 구현 (MC110) 의 흐름도를 도시한다. 태스크 (TC50) 는 인코딩 프레임 (예를 들어, 인코딩되고 있는 신호에서의 타겟 프레임을 바로 (immediately) 선행하는 프레임의 인코딩된 버전) 을 디코딩하여 기준 프레임을 획득한다. 태스크 (TC50) 는 통상 적어도 하나의 역양자화 동작을 포함한다. 여기에 기술된 바와 같이, 방법 (MC100) 은 태스크 (TC50) 에 의해 디코딩된 프레임을 생성하기 위해 사용되었던 코딩 스킴과는 관계없이 일반적으로 적용가능하다. 태스크 (TC50) 에 의해 수행될 수도 있는 디코딩 동작들의 예들은 벡터 역양자화 및 인버스 펄스 코딩을 포함한다. 태스크 (TC50) 는 상이한 프레임들에 상이한 각각의 디코딩 동작들을 수행하도록 구현될 수도 있다는 것이 주목된다.

도 4a 는 태스크 (TC100) 의 인스턴스 및 태스크들 (TD200 및 TD300) 을 포함하는 (예를 들어, 방법 (MC100) 에 의해 생성된) 인코딩된 타겟 프레임을 디코딩하는 방법 (MD100) 의 흐름도를 도시한다. 방법 (MD100) 에서 태스크 (TC100) 의 인스턴스는 여기에 기술된 대응하는 방법 (MC100) 에서의 태스크 (TC100) 의 인스턴스와 동일한 동작을 수행한다. 태스크 (TC100) 의 양 인스턴스들이 동일한 입력에 대해 동작하도록 인코딩된 기준 프레임이 디코더에서 올바르게 수신된다는 것이 가정된다.

인코딩된 타겟 프레임으로부터의 정보에 기초하여, 태스크 (TD200) 는 복수의 부대역들 각각에 대해 콘텐츠와 지터값을 획득한다. 예를 들어, 태스크 (TD200) 는 인코딩된 타겟 프레임 내의 부대역들의 세트 및 대응하는 지터 벡터에 대해 여기에 기술된 하나 이상의 양자화 동작의 인버스 (inverse) 를 수행하도록 구현될 수도 있다.

태스크 (TD300) 는 기준 프레임에서의 에너지 집중들 (예를 들어, 피크들) 의 복수의 위치들 중 대응하는 위치 및 대응하는 지터에 따라, 각 부대역의 디코딩된 콘텐츠를 배치하여, 디코딩된 타겟 프레임을 획득한다. 예를 들어, 태스크 (TD300) 는 주파수-도메인 위치 (pk+jk) 에 각 부대역 (k) 의 디코딩된 콘텐츠를 센터링함으로써 디코딩된 타겟 프레임을 구성하도록 구현될 수도 있으며, 여기서 Pk 는 기준 프레임에서의 대응하는 피크의 위치이고, jk 는 대응하는 지터값이다. 태스크 (TD300) 는 디코딩된 타겟 프레임의 점유되지 않은 빈들에 제로 값들을 할당하도록 구현될 수도 있다. 대안적으로, 태스크 (TD300) 는 임코딩된 타겟 프레임 내에서 개별적으로 인코딩되는, 여기에 기술된 레지듀얼 신호르 디코딩하고 디코딩된 신호의 점유되지 않은 빈들에 디코딩된 레지듀얼의 값들을 할당하도록 구현될 수도 있다. 도 4b 는 여기에 기술된 대응하는 방법 (MC110) 에서의 태스크 (TC50) 의 인스턴스와 동일한 동작을 수행하는 디코딩 태스크 (TC50) 의 인스턴스를 포함하는 방법 (MD100) 의 구현 (MD110) 의 흐름도를 도시한다.

일부 애플리케이션들에서, 인코딩된 타겟 프레임이 부대역들의 인코딩된 세트만을 포함하는 것이 충분하여 인코더가 이들 부대역들의 임의의 것의 밖에 있는 신호 에너지를 폐기하도록 한다. 다른 경우들에서, 인코딩된 타겟 프레임은 또한 부대역들의 인코딩된 세트에 의해 캡쳐되지 않는 신호 정보의 개별적 인코딩을 포함하는 것이 바람직할 수도 있다.

하나의 접근법에서 (레지듀얼 신호로도 불리는) 코딩되지 않은 정보의 표현은 타겟 프레임의 원래의 스펙트럼으로부터 부대역들의 재구성된 세트를 감산함으로써 인코더에서 계산된다. 그러한 방식으로 계산된 레지듀얼은 타겟 프레임과 동일한 길이를 갖는다.

대안적인 접근법은 부대역들의 세트에 포함되지 않은 타겟 프레임의 영역들 (즉, 주파수 축상의 그의 위치들이 첫번째 부대역 전에, 인접한 부대역들 사이에, 또는 마지막 부대역 후에 있는 빈들) 의 집중으로서 레지듀얼 신호를 계산하는 것이다. 이러한 방식으로 계산된 레지듀얼은 타겟 프레임의 길이보다 작고, (예를 들어, 인코딩된 타겟 프레임에서의 부대역들의 수에 따라) 프레임 마다 변할 수도 있는 길이를 갖는다. 도 5 는 부대역들과 그러한 레지듀얼의 개재하는 영역들이 라벨링되어 있는 타겟 프레임의 3.5-7 kHz 대역에 대응하는 MDCT 계수들을 인코딩하는 예를 도시한다. 여기에 기술된 바와 같이, 그러한 레지듀얼을 인코딩하기 위해 펄스-코딩 스킴 (예를 들어, 팩토리얼 펄스 코딩) 을 사용하는 것이 바람직할 수도 있다.

도 2c 는 증가하는 주파수의 순서로 부대역의 양 사이드의 점유되지 않은 빈들을 채우기 위해 연쇄된 레지듀얼을 사용하는 예를 도시한다. 이러한 예에서, 레지듀얼의 순서화된 엘리먼트들 (12-19) 은 부대역의 하나의 사이드까지 주파수의 순서로 점유되지 않은 빈들을 채우는 것 및 그 후 부대역의 가른 사이드에서 주파수의 순서로 계속하는 것을 보여주기 위해 임의로 선택된다.

레지듀얼 신호를 코딩하기 위해 펄스 코딩 스킴 (예를 들어, FPC 또는 CPC 스킴) 을 사용하는 것이 바람직할 수도 있다. 그러한 스킴은 예를 들어 레지듀얼 신호에서의 단위 펄스들의 수, 포지션들 및 부호들을 인코딩하도록 구성될 수도 있다. 도 6 은 레지듀얼 신호의 부분이 다수의 단위 펄스들로서 인코딩되는 방법의 예를 도시한다. 이러한 예에서, 각 디멘젼에서의 값이 실선으로 표시되는 30-디멘젼 벡터가 (펄스 위치들에서의) 점들 및 (제로-값 위치들에서의) 사각형들에 의해 표시된 펄스들의 패턴 (0, 0, -1, -1, +1, +2, -1, 0, 0, +1, -1, -1, +1, -1, +1, -1, -1, +2, -1, 0, 0, 0, 0, -1, +1, +1, 0, 0, 0, 0) 에 의해 표현된다. 도 6 에 도시된 펄스들의 패턴은 예를 들어 길이가 30 비트들보다 훨씬 작은 코드북 인덱스에 의해 통상 표현될 수 있다.

도 7a 는 일반 구성에 따른 오디오 신호 프로세싱을 위한 장치 (MF100) 의 블록도를 나타낸다. 장치 (MF100) 는, 주파수 도메인에서, (예를 들어, 태스크 (TC100) 를 참조하여 여기에 기술된) 기준 프레임에서 복수의 에너지 집중들을 위치시키는 수단 (FC100) 을 포함한다. 장치 (MF100) 는 또한, 복수의 에너지 집중들 각각에 대해, 그리고 집중의 위치에 기초하여, 타겟 프레임의 부대역들의 세트의 대응하는 부대역에 대해 타겟 프레임에서의 위치를 선택하는 수단 (FC200) 을 포함하며, 여기서 타겟 프레임은 (예를 들어, 태스크 (TC200) 를 참조하여 여기에 기술된) 기준 프레임에 의해 기술되는 프레임에 대한 오디오 신호에 있어서 후속한다. 장치 (MF100) 는 또한 (예를 들어, 태스크 (TC300) 을 참조하여 여기에 기술된) 부대역들의 세트의 임의의 것에 존재하지 않는 타겟 프레임의 샘플들과는 개별적으로 선택된 부대역들의 세트를 인코딩하는 수단 (FC300) 을 포함한다. 도 7b 는 (예를 들어, 태스크 (TC50) 을 참조하여 여기에 기술된) 기준 프레임을 획득하기 위해 인코딩된 프레임을 디코딩하는 수단 (FC50) 을 또한 포함하는 장치 (MF100) 의 구현 (MF110) 의 블록도를 나타낸다.

도 8a 는 또 다른 일반 구성에 따른 오디오 신호 프로세싱을 위한 장치 (A100) 의 블록도를 나타낸다. 장치 (A100) 는, 주파수 도메인에서, (예를 들어, 태스크 (TC100) 을 참조하여 여기에 기술된) 기준 프레임에서 복수의 에너지 집중들을 위치시키도록 구성된 로케이터 (100) 를 포함한다. 로케이터 (100) 는 (예를 들어, 태스크 (TC110) 를 참조하여 여기에 기술된) 예를 들어,피크-픽커로서 구현될 수도 있다. 장치 (A100) 는 또한, 복수의 에너지 집중들의 각각에 대해 그리고 집중의 위치에 기초하여, 타겟 프레임의 부대역들의 세트의 대응하는 부대역에 대해 타겟 프레임에서의 위치를 선택하도록 구성되는 선택기 (200) 를 포함하며, 여기서 타겟 프레임은 (예를 들어, 태스크 (TC200) 을 참조하여 여기에 기술된) 기준 프레임에 의해 기술되는 프레임에 대해 오디오 신호에 있어서 후속한다. 장치 (A100) 는 또한 (예를 들어, 태스크 (TC300) 를 참조하여 여기에 기술된) 부대역들의 세트의 임의의 것에 존재하지 않는 타겟 프레임의 샘플들과는 개별적으로 선택된 부대역들의 세트를 인코딩하도록 구성되는 부대역 인코더 (300) 를 포함한다.

도 8b 는 부대역 양자화기 (310) 및 지터 양자화기 (320) 을 포함하는 부대역 인코더 (300) 의 구현 (302) 의 블록도를 도시한다. 부대역 양자화기 (310) 는 여기에 기술된 GSVQ 또는 다른 VQ 스킴을 사용하여, 부대역들을 하나 이상의 벡터들로서 인코딩하도록 구성될 수도 있다. 지터 양자화기 (320) 는 또한 지터 값들을 여기에 기술된 벡터로서 양자화하도록 구성될 수도 있다.

도 8c 는 기준 프레임 디코더 (50) 를 포함하는 장치 (A100) 의 구현 (A110) 의 블록도를 도시한다. 디코더 (50) 는 (예를 들어, 태스크 (TC50) 을 참조하여 여기에 기술된) 기준 프레임을 획득하기 위해 인코딩된 프레임을 디코딩하도록 구성된다. 디코더 (50) 는 디코딩될 인코딩된 프레임을 저장하도록 구성되는 프레임 기억장치 및/또는 디코딩된 기준 프레임을 저장하도록 구성되는 프레임 기억장치를 포함하도록 구현될 수도 있다. 상술된 바와 같이, 방법 (MC100) 은 기준 프레임을 인코딩하는데 사용되었던 특정의 방법에 관계없이 일반적으로 적용가능하고, 디코더 (50) 는 특정의 애플리케이션에서 사용중에 있을 수도 있는 임의의 하나 이상의 인코딩 동작들의 인버스를 수행하도록 구현될 수도 있다.

도 8d 는 비트 팩커 (360) 를 포함하는 장치 (A110) 의 구현 (A120) 의 블록도를 나타낸다. 비트 팩커 (360) 는 인코딩된 프레임을 생성하기 위해 인코더 (300) 에 의해 생성된 인코딩된 컴포넌트 (EC10) (즉, 인코딩된 부대역들 및 대응하는 인코딩된 지터 값들) 을 팩킹하도록 구성된다.

도 8e 는 여기에 기술된 타겟 프레임의 레지듀얼을 인코딩하도록 구성된 레지듀얼 인코더 (500) 을 포함하는 장치 (A120) 의 구현 (A130) 의 블록도를 나타낸다. 이러한 예에서, 레지듀얼 인코더 (500) 는 (예를 들어, 선택기 (200) 에 의해 생성된 부대역 위치들에 의해 표시된) 부대역들의 세트에 포함되지 않은 타겟 프레임의 영역들을 연쇄시킴으로써 레지듀얼을 획득하도록 배열된다. 레지듀얼 인코더 (500) 는 FPC 와 같이, 여기에 기술된 펄스-코딩 스킴을 사용하여 레지듀얼을 인코딩하도록 구현될 수도 있다. 장치 (A130) 에서, 비트 팩커 (360) 는 부대역 인코더 (300) 에 의해 생성된 인코딩된 컴포넌트 (EC10) 를 또한 포함하는 인코딩된 프레임으로 레지듀얼 인코더 (500) 에 의해 생성된 인코딩된 레지듀얼을 팩킹하도록 배열된다.

도 9a 는 디코더 (400), 결합기 (AD10) (예를 들어, 가산기), 및 레지듀얼 인코더 (550) 을 포함하는 장치 (A110) 의 구현 (A140) 의 블록도를 나타낸다. 디코더 (400) 는 (예를 들어, 방법 (MD100) 을 참조하여 여기에 기술된) 부대역 인코더 (300) 에 의해 생성된 인코딩된 컴포넌트를 디코딩하도록 구성된다. 이러한 예에서, 디코더 (400) 는 동일한 기준 프레임에 대해 동일한 동작을 반복하기 보다는 로케이터 (100) 로부터 에너지 집중들 (예를 들어, 피크들) 의 위치들을 수신하고, 여기에 기술된 태스크들 (MD200 및 MD300) 을 수행하도록 구현된다.

결합기 (AD10) 는 타겟 프레임의 원래의 스펙트럼으로부터 부대역들의 재구성된 세트를 감산하도록 구성되고, 레지듀얼 인코더 (550) 는 결과의 레지듀얼을 인코딩하도록 배열된다. 레지듀얼 인코더 (550) 는 FPC 와 같이, 여기에 기술된 펄스-코딩 스킴을 사용하여 레지듀얼을 인코딩하도록 구현될 수도 있다. 도 9b 는 인코더 (300) 에 의해 생성된 인코딩된 컴포넌트 (EC10) 을 또한 포함하는 인코딩된 프레임으로 레지듀얼 인코더 (550) 에 의해 생성된 인코딩된 레지듀얼을 팩킹하도록 비트 팩커 (360)가 배열되는 장치 (A120) 의 대응하는 구현 (A150) 의 블록도를 나타낸다.

도 10a 는 일반 구성에 따른 오디오 신호 프로세싱을 위한 장치 (MFD100) 의 블록도를 나타낸다. 장치 (MFD100) 는, 주파수 도메인에서, 여기에 기술된 기준 프레임에서 복수의 에너지 집중들을 위치시키는 수단 (FC100) 의 인스턴스를 포함한다. 장치 (MFD100) 는 또한 (예를 들어, 태스크 (TD200) 를 참조하여 여기에 기술된) 인코딩된 타겟 프레임으로부터의 정보에 기초하여, 복수의 부대역들 각각에 대한 지터 값 및 콘텐츠들을 획득하는 수단 (FD200) 을 포함한다. 장치 (MFD100) 는 또한 (예를 들어, 태스크 (TD300) 를 참조하여 여기에 기술된) 디코딩된 타겟 프레임을 획득하기 위해, 대응하는 지터 값 및 복수의 주파수-도메인 위치들의 대응하는 위치에 따라, 복수의 부대역들 각각의 디코딩된 컨텐츠들을 배치하는 수단 (FD300) 을 포함한다. 도 10b 는 여기에 기술된 기준 프레임을 획득하기 위해 인코딩된 프레임을 디코딩하는 수단 (FC50) 의 인스턴스를 또한 포함하는 장치 (MFD100) 의 구현 (MFD110) 의 블록도를 나타낸다.

도 10c 는 또 다른 일반 구성에 따른 오디오 신호 프로세싱을 위한 장치 (A100D) 의 블록도를 나타낸다. 장치 (A100D) 는, 주파수 도메인에서, 여기에 기술된 기준 프레임에서 복수의 에너지 집중들을 위치시키도록 구성되는 로케이터 (100) 의 인스턴스를 포함한다. 장치 (A100D) 는 또한 (예를 들어, 태스크 (TD200) 를 참조하여 여기에 기술된) 복수의 부대역들 각각에 대한 디코딩된 컨텐츠 및 지터 값을 획득하기 위해 인코딩된 타겟 프레임 (예를 들어, 인코딩된 컴포넌트 (EC10)) 으로부터의 정보를 디코딩하도록 구성되는 역양자화기 (20D) 를 포함한다. (일 예에서, 역양자화기 (20D) 는 또한 부대역 역양자화기 및 지터 역양자화기를 포함한다.) 장치 (A100D) 는 또한 (예를 들어, 태스크 (TD300) 을 참조하여 여기에 기술된) 디코딩된 타겟 프레임을 획득하기 위해, 복수의 주파수-도메인 위치들 중 대응하는 위치 및 대응하는 지터 값에 따라, 복수의 부대역들 각각의 디코딩된 콘텐츠를 배치하도록 구성되는 프레임 어셈블러 (30D) 를 포함한다.

도 11a 는 여기에 기술된 기준 프레임을 획득하기 위해 인코딩된 프레임을 디코딩하도록 구성되는 기준 프레임 디코더 (500) 의 인스턴스를 또한 포함하는 장치 (A100D) 의 구현 (A110D) 의 블록도를 나타낸다. 도 11b 는 인코딩된 컴포넌트 (EC10) 및 인코딩된 레지듀얼을 생성하기 위해 인코딩된 프레임을 언팩킹하도록 구성되는 비트 언팩커 (36D) 를 포함하는 장치 (A110D) 의 구현 (A120D) 의 블록도를 나타낸다. 장치 (A120D) 는 또한 디코딩된 프레임을 획득하기 위해 부대역들의 디코딩된 콘텐츠를 따라 디코딩된 레지듀얼을 배치하도록 구성되는 프레임 역양자화기 (32D) 의 구현 (32D) 및 인코딩된 레지듀얼을 역양자화하도록 구성되는 레지듀얼 역양자화기 (50D) 를 포함한다. 레지듀얼이 타겟 프레임으로부터 디코딩된 부대역들을 감산함으로써 계산되는 경우에, 어셈블러 (32D) 는 디코딩되고 배치된 부대역들에 디코딩된 레지듀얼을 가산하도록 구현될 수도 있다. 레지듀얼이 부대역들에 포함되지 않은 샘플들의 연쇄인 경우에, 어셈블러 (32D) 는 (예를 들어, 증가하는 주파수의 순서로) 디코딩된 부대역들에 의해 점유되지 않는 프레임의 빈들을 채우도록 디코딩된 레지듀얼을 사용하도록 구현될 수도 있다.

도 11c 는 변환 도메인에서의 샘플들로서 (예를 들어, MDCT 계수들 또는 FFT 계수들과 같은 변환 계수들로서) 오디오 신호 (예를 들어, LPC 레지듀얼) 의 프레임들을 수신하도록 구성되는 일반 구성에 따른 장치 (A200) 의 블록도를 나타낸다. 장치 (A200) 는 독립-모드 인코딩된 프레임 (SI10) 을 생성하기 위해 독립 코딩 모드에 따른 변환-도메인 신호의 프레임 (SM10) 을 인코딩하도록 구성되는 독립-모드 인코더 (IM10) 을 포함한다. 예를 들어, 인코더 (IM10) 는 미리결정된 분할 스킴 (즉, 프레임이 수신되기 전에 디코더에 알려져 있는 고정된 분할 스킴) 에 따라 부대역들의 세트로 변환 계수들을 그룹핑하고 벡터 양자화 (VQ) 스킴 (예를 들어, GSVQ 스킴) 을 사용하여 각 부대역을 인코딩함으로써 프레임을 인코딩하도록 구현될 수도 있다. 또 다른 예에서, 인코더 (IM10) 는 펄스 코딩 스킴 (예를 들어, 팩토리얼 펄스 코딩 또는 콤비네이토리얼 펄스 코딩) 을 사용하여 변환 계수들의 전체 프레임을 인코딩하도록 구현된다.

장치 (A200) 는 또한 종속-모드 인코딩된 프레임 (SD10) 을 생성하기 위해, 기준 프레임으로부터의 정보에 기초하는, 여기에 기술된 동적 부대역 선택 스킴을 수행함으로써, 타겟 프레임 (SM10) 을 인코딩하도록 구성되는 장치 (A100) 의 인스턴스를 포함한다. 일 예에서, 장치 (A200) 는 부대역들의 세트를 인코딩하기 위해 VQ 스킴 (예를 들어, GSVQ) 을, 레지듀얼을 인코딩하기 위해 펄스-코딩 방법을 사용하고, (예를 들어, 코딩 모드 선택기 (SEL10) 에 의해 디코딩된) 이전의 인코딩된 프레임 (SE10) 의 디코딩된 버전을 저장하도록 구성되는 저장 엘리먼트 (예를 들어, 메모리) 을 포함하는 장치 (A100) 의 구현을 포함한다.

장치 (A200) 는 또한 평가 메트릭에 따라 종속-모드 인코딩된 프레임 (SD10) 및 독립-모드 인코딩된 프레임 (SI10) 중 하나를 선택하고 선택된 프레임을 인코딩된 프레임 (SE10) 으로 출력하도록 구성되는 코딩 모드 선택기 (SEL10) 를 포함한다. 인코딩된 프레임 (SE10) 은 선택된 코딩 모드의 표시를 포함할 수도 있거나, 그러한 표시는 인코딩된 프레임 (SE10) 으로부터 개별적으로 송신될 수도 있다.

선택기 (SEL10) 는 인코딩된 프레임들을 디코딩하고 디코딩된 프레임들을 원래의 타겟 프레임과 비교함으로써 인코딩된 프레임들 중에서 선택하도록 구성될 수도 있다. 일 예에서, 선택기 (SEL10) 는 원래의 타겟 프레임에 비해 가장 낮은 레지듀얼 에너지를 갖는 프레임을 선택하도록 구현된다. 또 다른 예에서, 선택기 (SEL10) 는 신호-대-잡음 비 (SNR) 의 측정 또는 다른 왜곡 측정과 같은 지각적 메트릭에 따라 프레임을 선택하도록 구현된다.

레지듀얼 인코더 (500 또는 550) 의 상류 및/또는 하류의 레지듀얼 신호에 대한 마스킹 및/또는 LPC-가중화 동작을 수행하도록 장치 (A100) (예를 들어, 장치 (A130, A140 또는 A150)) 를 구성하는 것이 바람직할 수도 있다. 하나의 그러한 예에서, 인코딩되고 있는 LPC 레지듀얼에 대응하는 LPC 계수들은 레지듀얼 인코더의 상류의 레지듀얼 신호를 변조하기 위해 사용된다. 그러한 동작은 또한 "사전-가중화" 로도 불리며, MDCT 도메인에서의 이러한 변조 동작은 시간 도메인에서의 LPC 합성 동작과 유사하다. 레지듀얼이 디코딩된 후, 변조는 역전된다 (또한, "사후-가중화" 로도 불림). 사전-가중화 및 사후-가중화는 함께 마스트로서 기능한다. 그러한 경우에, 코딩 모드 선택기 (SEL10) 는, SNR 동작이 상술된 사전-가중화 동작에서 사용된 동일한 LPC 합성 필터에 의해 가중화되도록, 프레임들 (SI10 및 SD10) 중에서 선택하도록 가중화된 SNR 측정을 사용하도록 구성될 수도 있다.

(장치 (A200) 을 참조하여 여기에 기술된) 코딩 모드 선택은 멀티-밴드 경우로 확장될 수도 있다. 하나의 그러한 예에서, 저대역 및 고대역의 각각은 독립 코딩 모드 (예를 들어, 고정된-분할 GSVQ 모드 및/또는 펄스-코딩 모드) 및 종속 코딩 모드 (예를 들어, 방법 (MC100) 의 구현) 양자 모두를 사용하여 인코딩되어, 4 개의 상이한 모드 조합들이 초기에 프레임에 대한 고려하에 있도록 한다. 다음에, 저대역 모드들 각각에 대해, 최선의 대응하는 고대역 모드가 (예를 들어, 고대역에 대한 지각적 메트릭을 사용하는 2 개의 옵션들 사이의 비교에 따라) 선택된다. 2 개의 남아있는 옵션들 (즉, 대응하는 최선의 고대역 모드를 갖는 저대역 독립 모두, 및 대응하는 최선의 고대역 모드를 갖는 저대역 종속 모드) 중, 이들 옵션들 간의 선택이 저대역 및 고대역 양자 모두를 커버하는 지각적 메트릭을 참조하여 행해진다. 그러한 멀티-대역 경우의 일 예에서, 저대역 독립 모드는 미리결정된 (즉, 고정된) 분할 스킴에 따라 프레임의 샘플들을 부대역들로 그룹핑하고 (예를 들어, 인코더 (IM10) 를 참조하여 여기에 기술된) GSVQ 스킴을 사용하여 부대역들을 인코딩하고, 고대역 독립 모드는 고대역 신호를 인코딩하기 위해 펄스 코딩 스킴 (예를 들어, 팩토리얼 펄스 코딩) 을 사용한다.

동일한 신호의 상이한 주파수 대역들을 개별적으로 코딩하도록 오디오 코덱을 구성하는 것이 바람직할 수도 있다. 예를 들어, 오디오 신호의 저대역 부분을 인코딩하는 제 1 인코딩된 신호 및 동일한 오디오 신호의 고대역 부분을 인코딩하는 제 2 인코딩된 신호를 생성하는 코덱을 구성하는 것이 바람직할 수도 있다. 스플릿-대역 코딩이 바람직할 수도 있는 애플리케이션들은 협대역 디코딩 시스템들과 양립가능하게 유지되어야 하는 광대역 인코딩 시스템들을 포함한다. 그러한 애플리케이션들은 또한 상이한 주파수 대역들에 대해 상이한 코딩 스킴들의 사용을 지원함으로써 오디오 신호들의 상이한 유형들의 범위 (예를 들어, 스피치 및 음악 양자 모두) 의 효율적인 코딩을 달성하는 일반화된 오디오 코딩 스킴들을 포함한다.

신호의 상이한 주파수 대역들이 개별적으로 인코딩되는 경우에, 다른 대역으로부터 인코딩된 (예를 들어, 양자화된) 정보는 디코더에 이미 알려져 있을 것이므로, 이러한 인코딩된 정보를 사용하여 하나의 대역에서의 코딩 효율을 증가시키는 것이 일부 경우들에서 가능할 수도 있다. 예를 들어, 릴랙싱된 하모닉 모델이 ("모델링될" 대역으로도 불리는) 동일한 오디오 신호 프레임의 제 2 대역의 변환 계수들을 인코딩하기 위해 ("소스" 대역으로도 불리는) 오디오 신호 프레임의 제 1 대역의 변환 계수들의 디코딩된 표현으로부터의 정보를 사용하기 위해 적용될 수도 있다. 하모닉 모델이 관련되는 그런 경우에, 코딩 효율은 제 1 대역의 디코딩된 표현이 이미 디코더에서 이용가능하기 때문에 증가될 수도 있다.

그러한 확장된 방법은 코딩된 제 1 대역과 하모닉적으로 관련되는 제 2 대역의 부대역들을 결정하는 것을 포함할 수도 있다. 오디오 신호들 (예를 들어, 복소 음악 신호들) 에 대한 낮은 비트 레이트 코딩 알고리즘들에서, 신호의프레임을 다수의 대역들 (예를 들어, 저대역 및 고대역) 로 분할하고 대역들의 변환 도메인 표현을 효율적으로 코딩하기 위해 이들 대역들 사이의 상관을 활용하는 것이 바람직할 수도 있다.

그러한 확장의 특정의 예에서, 오디오 신호 프레임의 3.5-7 kHz (이하, 상위대역 MDCT 또는 UB-MDCT 로 지칭됨) 에 대응하는 MDCT 계수들은 프레임의 양자화된 저대역 MDCT 스펙트럼 (0-4 kHz) 에 기초하여 인코딩되며, 여기서 양자화된 저대역 MDCT 스펙트럼은 여기에 기술된 방법 (MC100) 의 구현을 사용하여 인코딩되었다. 그러한 확장의 다른 예들에서, 2 개의 주파수 범위들이 중첩할 필요는 없고 심지어 분리될 수도 있다 (예를 들어, 여기에 기술된 방법 (MC100) 의 구현을 사용하여 인코딩된 0-4 kHz 대역의 디코딩된 표현으로부터의 정보에 기초하여 프레임의 7-14 kHz 대역을 코딩). 종속-모드 코딩된 저대역 MDCT 들이 UB-MDCT 들을 코딩하기 위한 기준으로서 사용되기 때문에, 고대역 코딩 모델의 많은 파라미터들은 그들의 송신을 명시적으로 요구하지 않고 디코더에서 도출될 수 있다. 하모닉 모델링의 부가적인 설명은 본 출원이 우선권을 주장하는 상술된 출원들에서 발견될 수도 있다.

도 12 는 태스크들 (TB100, TB200, TB300, TB400, TB500, TB600, 및 TB700) 을 포함하는 일반적 구성에 따른 오디오 신호 프로세싱의 방법 (MB110) 에 대한 흐름도를 도시한다. 태스크 (TB100) 는 소스 오디오 신호에서 복수의 피크들을 위치시킨다 (예를 들어, 여기에 기술된 방법 (MC100) 의 구현을 사용하여 인코딩되었던 오디오 주파수 신호의 제 1 주파수 범위의 역양자화된 표현). 그러한 동작은 또한 "피크-픽킹" 으로서 지칭될 수도 있다. 태스크 (TB100) 는 신호의 전체 주파수 범위로부터 가장 높은 피크들의 특정의 수를 선택하도록 구성될 수도 있다. 대안적으로, 태스크 (TB100) 는 신호의 특정된 주파수 범위 (예를 들어, 저 주파수 범위) 로부터 피크들을 선택하도록 구성될 수도 있고, 신호의 상이한 주파수 범위들에서의 상이한 선택 기준을 적용하도록 구성될 수도 있다. 여기에 기술된 특정의 예에서, 태스크 (TB100) 는 프레임의 저주파수 범위에서 가장 높은 피크들의 적어도 제 2 수 (Nf2) 를 포함하여, 프레임에서 가장 높은 피크들의 적어도 제 1 수 (Nd2+1) 를 위치시키도록 구성된다.

태스크 (TB100) 는 샘플의 양 사이드에 대해 일부 최소 거리 내에 최대 값을 갖는 ("빈" 으로도 불리는) 주파수-도메인 신호의 샘플로서 피크를 식별하도록 구성될 수도 있다. 하나의 그러한 예에서, 태스크 (TB100) 는 샘플에서 센터링되는 사이즈 (2d_min2+1) 의 윈도우 내에 최대 값을 갖는 샘플로서 피크를 식별하도록 구성되며, 여기서 d_min2 는 피크들 사이의 최소 허용된 간격이다. d_min2의 값은 위치될 ("부대역들" 로도 불리는) 상당한 에너지의 영역들의 최대 원하는 수에 따라 선택될 수도 있다. d_min2의 예들은, 원하는 애플리케이션에 적합한 임의의 값이 사용될 수도 있지만, 8, 9. 10, 12, 및 15 개의 샘플들 (대안적으로, 100, 125, 150, 175, 200 또는 250 Hz) 을 포함한다.

태스크 (TB100) 에 의해 위치된 피크들의 적어도 일부의 주파수-도메인 위치들에 기초하여, 태스크 (TB200) 는 소스 오디오 신호의 복수 (Nd2) 의 하모닉 간격 후보들을 계산한다. Nd2 에 대한 값들의 예들은 3, 4, 및 5 를 포함한다. 태스크 (TB200) 는 태스크 (TB100) 에 의해 위치된 (Nd2+1) 개의 가장 큰 피크들 중 인접한 것들 간의 (예를 들어, 주파수 빈들의 수에 의한) 거리들로서 이들 간격 후보들을 계산하도록 구성될 수도 있다.

태스크 (TB100) 에 의해 위치된 피크들의 적어도 일부의 주파수-도메인 위치들에 기초하여, 태스크 (TB300) 는 소스 오디오 신호에서의 복수 (Nf2) 의 F0 후보들을 식별한다. Nf2 에 대한 값들의 예들은 3, 4, 및 5 를 포함한다. 태스크 (TB300) 는 소스 오디오 신호에서 Nf2 개의 가장 높은 피크들의 위치들로서 이들 후보들을 식별하도록 구성될 수도 있다. 대안적으로, 태스크 (TB300) 는 소스 주파수 범위의 저주파수 부분 (예를 들어, 하위 30, 35, 40, 45 또는 50 퍼센트) 에서 Nf2 개의 가장 높은 피크들의 위치들로서 이들 후보들을 식별하도록 구성될 수도 있다. 하나의 그러한 예에서, 태스크 (TB300) 는 0 내지 1250 Hz 의 범위에서 태스크 (TB100) 에 의해 위치된 피크들의 위치들 중에서 복수 (Nf2) 의 F0 후보들을 식별한다. 또 다른 그러한 예에서, 태스크 (TB300) 는 0 내지 1600 Hz 의 범위에서 태스크 (TB100) 에 의해 위치된 피크들의 위치들 중에서 복수 (Nf2) 의 F0 후보들을 식별한다.

FO 및 d 후보들의 복수의 액티브 쌍들의 각각에 대해, 태스크 (TB400) 는 그의 주파수 도메인에서의 위치들이 (F0, d) 쌍에 기초하는 모델링될 오디오 신호의 부대역들의 세트 (예를 들어, 오디오-주파수 신호의 제 2 주파수 범위의 표현) 를 선택한다. 부대역들은 위치들 (F0m, F0m+d, F0m+2d 등에 대해 배치된며, 여기서 F0m 의 값은 F0 를 모델링되고 있는 오디오 신호의 주파수 범위로 맵핑함으로써 계산된다. 그러한 맵핑은 F0m = F0 + Ld 와 같은 식에 따라 수행될 수도 있으며, 여기서 L 은 F0m 이 모델링되고 있는 오디오 신호의 주파수 범위 내에 있도록 하는 가장 작은 정수이다. 그러한 경우에, 모델링되고 있는 오디오 신호의 주파수 범위 및 F0 와 d 의 값들이 이미 디코더에 알려져 있기 때문에, 디코더는 인코더로부터 추가의 정보 없이 L 의 동일한 값을 계산할 수도 있다.

일 예에서, 태스크 (TB400) 는 제 1 부대역이 대응하는 F0m 위치에 센터링되도록 각각의 세트의 부대역들을 선택하도록 구성되며, 각각의 후속하는 부대역의 중심은 대응하는 d 의 값과 동일한 거리만큼 이전의 부대역의 중심으로부터 분리된다.

F0 및 d 의 값들의 상이한 쌍들의 모두는 액티브이도록 고려될 수도 있어서, 태스크 (TB400) 는 모든 가능한 (F0, d) 쌍에 대해 대응하는 부대역들의 세트를 선택하도록 구성된다. Nf2 및 Nd2 가 모두 4 와 동일한 경우에, 예를 들어, 태스크 (TB400) 는 16 개의 가능한 쌍들의 각각을 고려하도록 구성될 수도 있다. 대안적으로, 태스크 (TB400) 는 가능한 (F0, d) 쌍들의 일부가 만족시키는데 실패할 수도 있는 액티비티에 대한 기준을 부과하도록 구성될 수도 있다. 그러한 경우에, 예를 들어, 태스크 (TB400) 는 (예를 들어, F0 및 d 의 낮은 값들의 조합들인) 부대역들의 최대 허용가능한 수보다 많은 수를 생성할 쌍들 및/또는 (예를 들어, F0 및 d 의 높은 값들의 조합들인) 부대역들의 최소 원하는 수보다 적은 수를 생성할 쌍들을 무시하도록 구성될 수도 있다.

F0 및 d 의 복수의 액티브 쌍들의 각각에 대해, 태스크 (TB500) 는 모델링되고 있는 오디오 신호의 부대역들의 대응하는 세트의 에너지를 계산한다. 하나의 그러한 예에서, 태스크 (TB500) 는 부대역들에서의 주파수-도메인 샘플 값들의 제곱된 크기들의 합으로서 부대역들의 세트의 총 에너지를 계산한다. 태스크 (TB500) 는 또한 각각의 개별 부대역에 대한 에너지를 계산하도록 및/또는 부대역들의 세트들 각각에 대해 부대역 당 평균 에너지 (예를 들어, 부대역들의 수에 대해 정규화된 총 에너지) 를 계산하도록 구성될 수도 있다.

도 12 는 시리즈로된 태스크들(TB400 및 TB500) 의 실행을 도시하지만, 태스크 (TB500) 는 또한 태스크 (TB400) 가 완료하기 전에 부대역들의 세트들에 대한 에너지들을 계산하기 시작하도록 구현될 수도 있다. 예를 들어, 태스크 (TB500) 는 태스크 (TB400) 가 부대역들의 다음 세트를 선택하기 시작하기 전에 부대역들의 세트에 대한 에너지를 계산하기 시작하도록 (또는 심지어 계산하기를 마치도록) 구현될 수도 있다. 하나의 그러한 예에서, 태스크 (TB400 및 TB500) 는 F0 및 d 후보들의 복수의 액티브 쌍들의 각각에 대해 교번하도록 구성된다. 마찬가지로, 태스크 (TB400) 은 또한 태스크 (TB200 및 TB300) 이 완료하기 전에 실행을 시작하도록 구현될 수도 있다.

부대역들의 세트들의 계산된 에너지들에 기초하여, 태스크 (TB600) 는 (F0, d) 후보 쌍들 중에서 후보 쌍을 선택한다. 일 예에서, 태스크 (TB600) 는 가장 높은 총 에너지를 갖는 부대역들의 세트에 대응하는 쌍을 선택한다. 또 다른 예에서, 태스크 (TB600) 는 부대역 당 가장 높은 평균 에너지를 갖는 부대역들의 세트에 대응하는 후보 쌍을 선택한다. 다른 예에서, 태스크 (TB600) 는 (예를 들어, 내림차순으로) 부대역들의 대응하는 세트들의 부대역 당 평균 에너지에 따라 복수의 액티브 후보 쌍들을 정렬하고, 그 후 부대역 당 가장 높은 평균 에너지들을 갖는 부대역 세트들을 생성하는 Pv 후보 쌍들 중에서 가장 많은 총 에너지를 캡쳐하는 부대역 세트와 연관된 후보 쌍을 선택하도록 구현된다. Pv 에 대한 고정된 값 (예를 들어, 4, 5, 6, 7, 8, 9, 또는 10) 을 사용하거나, 대안적으로 (예를 들어, 액티브 후보 쌍들의 총수의 10, 20, 또는 25 퍼센트 이하인) 액티브 후보 쌍들의 총 수에 관련된 Pv 의 값을 사용하는 것이 바람직할 수도 있다.

태스크 (TB700) 는 선택된 후보 쌍의 값들의 표시들을 포함하는 인코딩된 신호를 생성한다. 태스크 (TB700) 는 FO 의 선택된 값을 인코딩하도록 또는 최소 (또는 최대) 위치로부터의 F0 의 선택된 값의 오프셋을 인코딩하도록 구성될 수도 있다. 유사하게, 태스크 (TB700) 는 d 의 선택된 값을 인코딩하도록, 또는 최소 또는 최대 거리로부터의 d 의 선택된 값의 오프셋을 인코딩하도록 구성될 수도 있다. 특정의 예에서, 태스크 (TB700) 는 선택된 F0 값을 인코딩하기 위해 6 비트를, 그리고 선택된 d 값을 인코딩하기 위해 6 비트를 사용한다. 다른 예들에서, 태스크 (TB700) 는 (예를 들어, 파라미터의 이전의 값에 대한 오프셋으로서) 차분적으로 F0 및/또는 d 의 현재의 값을 인코딩하도록 구현될 수도 있다.

부대역들의 선택된 세트를 벡터들로서 인코딩하기 위해 VQ 코딩 스킴 (예를 들어, GSVQ) 를 사용하도록 태스크 (TB700) 를 구현하는 것이 바람직할 수도 있다. 부대역들의 각 세트에 대한 이득 팩터들이 서로 독립적으로 그리고 이전의 프레임의 대응하는 이득 팩터에 대해 차분적으로 인코딩되도록 예측 이득 코딩을 포함하는 GSVQ 스킴을 사용하는 것이 바람직할 수도 있다. 특정의 예에서, 방법 (MB110) 은 UB-MDCT 스펙트럼의 주파수 영역에서 상당한 에너지의 영역들을 인코딩하도록 배열된다.

소스 오디오 신호는 디코더에서 이용가능하기 때문에, 태스크 (TB100), 태스크 (TB200), 및 태스크 (TB300) 는 또한 동일한 소스 오디오 신호로부터 동일한 복수 (또는 "코드북") (Nf2) 의 F0 후보들 및 동일한 복수 ("코드북") (Nd2) 의 d 후보들을 획득하기 위해 디코더에서 수행될 수도 있다. 각 코드북에서의 값들은 예를 들어, 증가하는 값의 순서로 정렬될 수도 있다. 결과적으로, 인코더가 선택된 (F0, d) 쌍의 실제의 값들을 인코딩하는 대신에 이들 순서화된 복수들 각각으로 인덱스를 송신하는 것은 충분하다. Nf2 및 Nd2 양자 모두가 4 와 동일한 특정의 예에서, 태스크 (TB700) 는 선택된 d 값을 나타내기 위해 2-비트 코드북 인덱스를 사용하고, 선택된 F0 값을 나타내기 위해 또 따른 2-비트 코드북 인덱스를 사용하도록 구현될 수도 있다.

태스크 (TB700) 에 의해 생성된 인코딩된 모델링된 오디오 신호를 디코딩하는 방법은 또한 인덱스들에 의해 나타낸 F0 및 d 의 값들을 선택하는 단계, 부대역들의 선택되 세트를 역양자화하는 단계, 맵핑 값 (m) 을 계산하는 단계, 및 주파수-도메인 위치 (F0m+pd) 에 각 부대역 (p) 을 배치 (예를 들어, 센터링) 함으로써 디코딩된 모델링된 오디오 신호를 구성하는 단계를 포함할 수도 있으며, 여기서 0 <= p <= P 이고, P 는 선택된 세트 내의 부대역들의 수이다. 디코딩된 모델링된 신호의 점유되지 않은 빈들은 제로 값들 또는, 대안적으로 여기에 기술된 디코딩된 레지듀얼의 값들이 할당될 수도 있다.

도 13 은 모델링되고 있는 오디오 신호가 3.5-7 kHz 의 오디오-주파수 스펙트럼을 나타내는 140 개의 변환 계수들의 UB-MDCT 신호인 예에 대한 크기 대 주파수 플롯을 도시한다. 이 도면은 오디오 신호가 모델링되고 있는 것을 나타내며 (그레이 라인), 5 개의 균일하게 이격된 부대역들의 세트가 (그레이로 도시된 블록들에 의해 그리고 브라켓들에 의해 표시된) (F0, d) 후보 쌍에 따라 선택되고, 5 개의 지터를 갖는 부대역들의 세트가 (F0, d) 쌍 그리고 (블랙으로 도시된 블록들에 의해 표시된) 피크-센터링 기준에 따라 선택된다. 이러한 예에서 도시된 바와 같이, UB-MDCT 스펙트럼은 더 낮은 샘플링 레이트로 변환된 고대역 신호로부터 계산될 수도 있거나, 그렇지 않으면 주파수 빈 제로 또는 1 에서 시작하기 위해 코딩 목적으로 시프트될 수도 있다. 그러한 경우에, F0m 의 각 맵핑은 또한 시프트된 스펙트럼 내에서 적절한 주파수를 나타내는 시프트를 포함한다. 특정의 예에서, 모델링되고 있는 오디오 신호의 UB-MDCT 스펙트럼의 제 1 주파수 빈은 (예를 들어, 3.5 kHz 에서 음향 콘텐츠를 나타내는) 소스 오디오 신호의 LB-MDCT 스펙트럼의 빈 140 에 대응하여, 태스크 (TB400) 가 F0m = F0+Ld-140 과 같은 식에 따라 대응하는 F0m 에 각 F0 를 맵핑하도록 구현될 수 있도록 한다.

각 부대역에 대해, 만일 가능하다면 부대역 내에서 피크를 센터링하는 지터 값을, 또는 만일 그러한 지터 값이 이용가능하지 않다면, 피크를 부분적으로 센터링하는 지터 값을, 또는 만일 그러한 지터 값이 이용가능하지 않다면, 부대역에 의해 캡쳐되는 에너지를 최대화하는 지터 값을 선택하는 것이 바람직할 수도 있다.

일 예에서, 태스크 (TB400) 는 (예를 들어, UB-MDCT 스펙트럼인) 모델링되고 있는 신호에서의 부대역 당 최대 에너지를 압축하는 (F0, d) 쌍을 선택하도록 구성된다. 에너지 압축은 또한 센터링하거나 부분적으로 센터링하는 둘 이상의 지터 후부들 사이에서 결정하기 위한 척도로서 사용될 수도 있다.

지터 파라미터 값들 (예를 들어, 각 부대역에 대해 하나) 은 디코더에 송신될 수도 있다. 지터 값들이 디코더에 송신되지 않는 경우, 하모닉 모델 부대역들의 주파수 위치들에 에러가 발생할 수도 있다. 고대역 오디오-주파수 범위 (예를 들어, 3.5-7 kHz 범위) 를 나타내는 모델링된 신호들의 경우, 그러나, 이러한 에러는 통상 지각할 수 없어서, 선택된 지터 값들에 따라 부대역들을 인코딩하지만, 이들 지터 값들을 디코더에 전송하지 않는 것이 바람직할 수도 있으며, 부대역들은 디코더에서 (예를 들어, 선택된 (F0, d) 쌍에만 기초하여) 균일하게 이격될 수도 있다. 음악 신호들의 매우 낮은 비트 레이트 코딩 (예를 들어, 약 초당 20 킬로비트) 의 경우, 예를 들어, 지터 파라미터를 송신하지 않고 디코더에서 부대역들의 위치들에서의 에러를 허용하는 것이 바람직할 수도 있다.

선택된 부대역들의 세트가 식별된 후, 레지듀얼 신호는 (예를 들어, 원래의 신호 스펙트럼과 재구성된 하모닉-모델 부대역들 간의 차이로서) 모델링되고 있는 신호의 원래의 스펙트럼으로부터 재구성된 모델링된 신호를 감산함으로써 인코더에서 계산될 수도 있다. 대안적으로, 레지듀얼 신호는 (예를 들어, 선택된 부대역들에 포함되지 않았던 이들 빈들인), 하모닉 모델링에 의해 캡쳐되지 않았던, 모델링되고 있는 신호의 스펙트럼의 영역들의 연쇄로서 계산될 수도 있다. 모델링되고 있는 오디오 신호가 UB-MDCT 스펙트럼이고 소스 오디오 신호가 재구성된 LB-MDCT 스펙트럼인 경우에, 특히 모델링되고 있는 오디오 신호를 인코딩하는데 사용된 지터 값들이 디코더에서 이용가능하지 않을 경우에, 캡쳐되지 않은 영역들을 연쇄시킴으로써 레지듀얼을 획득하는 것이 바람직할 수도 있다. 선택된 부대역들은 벡터 양자화 스킴 (예를 들어, GSVQ 스킴) 을 사용하여 코딩될 수도 있고, 레지듀얼 신호는 팩토리얼 펄스 코딩 스킴 또는 콤비네이토리얼 펄스 코딩 스킴을 사용하여 코딩될 수도 있다.

지터 파라미터 값들이 디코더에서 이용가능한 경우, 레지듀얼 신호는 디코더에서 인코더에서와 동일한 빈들로 다시 넣어질 수도 있다. 지터 파라미터 값들이 (예를 들어, 음악 신호들의 낮은 비트-레이트 코딩을 위해) 디코더에서 이용가능하지 않은 경우, 선택된 부대역들은 상술된 선택된 (F0, d) 쌍에 기초하여 균일한 간격에 따라 디코더에서 배치될 수도 있다. 이러한 경우에, 레지듀얼 신호는 상술된 여러 상이한 방법들 (예를 들어, 지터가 없는 재구성된 신호에 그것을 가산하기 전에 레지듀얼에서의 각 지터 범위를 소거하는 것, 선택된 부대역을 오버랩핑할 레지듀얼 에너지를 이동시키면서 점유되지 않은 빈들을 채우기 위해 레지듀얼을 사용하는 것, 또는 레지듀얼을 주파수-워핑하는 것) 중 하나를 사용하여 선택된 부대역들 사이에 삽입될 수 있다.

도 14a 내지 도 14e 는 여기에 기술된 장치 (A120) 의 여러 구현들을 위한 애플리케이션들의 범위를 도시한다. 도 14a 는 변환 모듈 (MM1) (예를 들어, 고속 푸리에 변환 또는 MDCT 모듈) 및 변환 도메인에서의 샘플들로서 (즉, 변환 도메인 계수들로서) 오디오 프레임들 (SA10) 을 수신하고 대응하는 인코딩된 프레임들 (SE10) 을 생성하도록 배열되는 장치 (A120) 의 인스턴스를 포함하는 오디오 프로세싱 경로의 블록도를 도시한다.

도 14b 는 변환 모듈 (MM1) 이 MDCT 변환 모듈을 사용하여 구현되는 도 14a 의 경로의 구현의 블록도를 도시한다. 변경된 DCT 모듈 (MM10) 은 MDCT 도메인 계수들의 세트를 생성하기 위해 각 오디오 프레임에 대해 MDCT 동작을 수행한다.

도 14c 는 선형 예측 코딩 분석 모듈 (AM10) 을 포함하는 도 14a 의 경로의 구현의 블록도를 나타낸다. 선형 예측 코딩 (LPC) 분석 모듈 (AM10) 은 LPC 파라미터들 (예를 들어, 필터 계수들) 의 세트 및 LPC 레지듀얼 신호를 생성하기 위해 분류된 프레임에 대해 LPC 분석 동작을 수행한다. 일 예에서, LPC 분석 모듈 (AM10) 은 제로로부터 4000 Hz 까지의 대역폭을 갖는 프레임에 대해 10차 LPC 분석을 수행하도록 구성된다. 또 다른 예에서, LPC 분석 모듈 (AM10) 은 3500 으로부터 7000 Hz 까지의 고대역 주파수 범위를 나타내는 프레임에 대해 6차 LPC 분석을 수행하도록 구성된다. 변경된 DCT 모듈 (MM10) 은 변환 도메인 계수들의 세트를 생성하기 위해 LPC 레지듀얼 신호에 대해 MDCT 동작을 수행한다. 대응하는 디코딩 경로는 인코딩된 프레임들 (SE10) 을 디코딩하고 디코딩된 프레임들에 대해 인버스 MDCT 변환을 수행하여 LPC 분석 필터에 대한 입력에 대해 여기 신호를 획득하도록 구성될 수도 있다.

도 14d 는 신호 분류기 (SC10) 를 포함하는 프로세싱 경로의 블로도를 도시한다. 신호 분류기 (SC10) 는 오디오 신호의 프레임들 (SA10) 을 수신하고 각 프레임을 적어도 2 개의 카테고리들 중 하나로 분류한다. 예를 들어, 신호 분류기 (SC10) 는 프레임 (SA10) 을 스피치 또는 음악으로서 분류하도록 구성되어, 프레임이 음악으로서 분류되면, 도 14d 에 도시된 경로의 나머지가 그것을 인코딩하는데 사용되고, 프레임이 스피치로서 분류되면, 상이한 프로세싱 경로가 그것을 인코딩하는데 사용되도록 할 수도 있다. 그러한 분류는 신호 액티비티 검출, 노이즈 검출, 주기성 검출, 시간-도메인 희소성 검출, 및/또는 주파수-도메인 희소성 검출을 포함할 수도 있다.

도 15a 는 (예를 들어, 오디오 프레임들 (SA10) 의 각각에 대해) 신호 분류기 (SC10) 에 의해 수행될 수도 있는 신호 분류의 방법 (MZ100) 의 블록도를 나타낸다. 방법 (MC100) 은 태스크 (TZ100, TZ200, TZ300, TZ400, TZ500 및 TZ600) 를 포함한다. 태스크 (TZ100) 는 신호의 액티비티의 레벨을 양자화한다. 액티비티의 레벨이 임계값 아래이면, 태스크 (TZ200) 는 신호를 (예를 들어, 낮은 비트 레이트 노이즈 여기 선형 예측 (NELP) 스킴 및/또는 불연속 송신 (DTX) 스킴을 사용하여) 사일런스로서 인코딩한다. 액티비티의 레벨이 (예를 들어, 임계값 위로) 충분히 높다면, 태스크 (TZ300) 는 신호의 주기성의 정도를 양자화한다. 태스크 (TZ300) 가 신호가 주기성이 아니라고 결정하면, 태스크 (TZ400) 는 NELP 스킴을 사용하여 신호를 인코딩한다. 태스크 (TZ300) 가 신호가 주기성이라고 결정하면, 태스크 (TZ500) 는 시간 및/또는 주파수 도메인에서의 신호의 희소성의 정도를 양자화한다. 태스크 (TZ500) 가 신호가 시간 도메인에서 희소하다고 결정하면, 태스크 (TZ600) 는 릴랙싱된 CELP (RCELP) 또는 대수 CELP (ACELP) 와 같은 코드 여기 선형 예측 (CELP) 스킴을 사용하여 신호를 인코딩한다. 태스크 (TZ500) 가 신호가 주파수 도메인에서 희소하다고 결정하면, 태스크 (TZ700) 는 (예를 들어, 도 14d 에서의 프로세싱 경로의 나머지에 신호를 전달함으로써) 하모닉 모델을 사용하여 신호를 인코딩한다.

도 14d 에 도시된 바와 같이, 프로세싱 경로는 시간 마스킹, 주파수 마스킹, 및/또는 청취 임계값과 같은 심리음향적 기준을 적용함으로써 MDCT-도메인 신호를 단순화하도록 (예를 들어, 인코딩될 변환 도메인 계수들의 수를 감소시키도록 구성되는 지각적 프루닝 모듈 (perceptual pruning module) (PM10) 을 포함할 수도 있다. 모듈 (PM10) 은 원래의 오디오 프레임들 (SA10) 에 지각적 모델을 적용함으로써 그러한 기준에 대한 값들을 계산하도록 구현될 수도 있다. 이러한 예에서, 장치 (A120) 는 대응하는 인코딩된 프레임들 (SE10) 을 생성하기 위해 프루닝된 프레임들을 인코딩하도록 배열된다.

도 14e 는 장치 (A120) 가 LPC 레지듀얼을 인코딩하도록 배열되는 도 14c 및 도 14d 의 경로들의 양자의 구현의 블록도를 나타낸다.

도 15b 는 장치 (A100) 의 구현을 포함하는 통신 디바이스 (D10) 의 블록도를 도시한다. 디바이스 (D10) 는 장치 (A100) (또는 MF100) 또는 아마도 A100D (또는 MFD100) 이 엘리먼트들을 임베딩하는 칩 또는 칩셋 (CS10) (예를 들어, 이동국 모뎀 (MSM) 칩셋) 을 포함한다. 칩/칩셋 (CS10) 은 (예를 들어, 명령들로서) 장치 (A100 또는 MF100) 의 소프트웨어 및/또는 펌웨어 부분을 실행하도록 구성될 수도 있는 하나 이상의 프로세서들을 포함할 수도 있다.

칩/칩셋 (CS10) 은 무선 주파수 (RF) 통신 신호를 수신하고 그 RF 신호 내에 인코딩된 오디오 신호를 디코딩 및 재생성하도록 구성된 수신기, 및 (예를 들어, 태스크 (TC300) 또는 비트 팩커 (360) 에 의해 생성된) 인코딩된 오디오 신호를 기술하는 RF 통신 신호를 송신하도록 구성된 송신기를 포함한다. 그러한 디바이스는 ("코덱" 으로도 불리는) 하나 이상의 인코딩 및 디코딩 스킴들을 통해 무선으로 음성 통신 데이터를 송신 및 수신하도록 구성될 수도 있다. 그러한 코덱들의 예들은 (www-dot-3gpp-dot-org 에서 온라인으로 이용가능한) 명칭이 "Enhanced Variable Rate Codec, Speech Service Options 3, 68, and 70 for Wideband Spread Spectrum Digital Systems" (February 2007) 인 제 3 세대 파트너쉽 프로젝트 2 (3GPP2) 문서 C.S0014-C, v1.0 에 기술된 강화된 가변 레이트 코덱; (www-dot-3gpp-dot-org 에서 온라인으로 이용가능한) 명칭이 "Selectable Mode Vocoder (SMV) Service Option for Wideband Spread Spectrum Communication Systems" (January 2004) 인 3GPP2 문서 C.S0030-0, v3.0 에 기술된 선택가능 모드 보코더 스피치 코덱; 문서 ETSI TS 126 092 V6.0.0 (European Telecommunications Standards Institute (ETSI), Sophia Antipolis Cedex, FR, December 2004) 에 기술된 적응적 멀티 레이트 (AMR) 스피치 코덱; 및 문서 ETSI TS 126 192 V6.0.0 (ETSI, December 2004) 에 기술된 AMR 광대역 스피치 코덱을 포함한다. 예를 들어, 비트 팩커 (360) 는 하나 이상의 그러한 코덱들과 양립가능하도록 인코딩된 프레임들을 생성하도록 구성될 수도 있다.

디바이스 (D10) 는 안테나 (C30) 를 통해 RF 통신 신호들을 수신 및 송신하도록 구성된다. 디바이스 (D10) 는 또한 안테나 (C30) 로의 경로에 디플렉서 및 하나 이상의 전력 증폭기들을 포함할 수도 있다. 칩/칩셋 (CS10) 은 또한 키패트 (C10) 를 통해 사용자 입려을 수신하고 디스플레이 (C20) 를 통해 정보를 디스플레이하도록 구성될 수도 있다. 이러한 예에서, 디바이스 (D10) 는 또한 글로벌 포지셔닝 시스템 (GPS) 로케이션 서비스 및/또는 무선 (예를 들어, 블루투스^TM) 핸드셋과 같은 외부 디바이스와의 단거리 통신을 지원하는 하나 이상의 안테나 (C40) 를 포함한다. 다른 예에서, 그러한 통신 디바이스는 블루투스^TM 헤드셋 자체이고 키패드 (C10), 디스플레이 (C20), 및 안테나 (C30) 가 없다.

통신 디바이스 (D10) 는 스마트폰들 및 랩탑 및 태블릿 컴퓨터들을 포함하는 다양한 통신 디바이스들에서 구현될 수도 있다. 도 16 은 전면에 배열된 2 개의 음성 마이크로폰들 (MV10-1 및 MV10-3), 배면에 배열된 음성 마이크로폰 (MV10-2), 전면의 상부 코너에 위치된 에러 마이크로폰 (ME10), 및 배면에 위치된 노이즈 기준 마이크로폰 (MR10) 을 갖는 핸드셋 (H100) (예를 들어, 스마트폰) 의 전면도, 배면도, 및 측면도를 도시한다. 라우드스피커 (LS10) 는 에러 마이크로폰 (ME10) 근처의 전면의 상부 중앙에 배열되고, 2 개의 다른 라우드스피커들 (LS20L, LS20R) 이 또한 (예를 들어, 스피커폰 애플리케이션들을 위해) 제공된다. 그러한 핸드셋의 마이크로폰들 사이의 최대 거리는 통상 약 10 또는 12 센티미터이다.

여기에 개시된 방법들 및 장치들은 임의의 송수신 및/또는 오디오 센싱 애플리케이션, 특히 그러한 애플리케이션들의 모바일 또는 다르게는 휴대용 예들에서 일반적으로 적용될 수도 있다. 예를 들어, 여기에 개시된 구성들의 범위는 코드 분할 다중 접속 (CDMA) 공중 인터페이스를 사용하도록 구성된 무선 전화 통신 시스템에 상주하는 통신 디바이스들을 포함한다. 그럼에도 불구하고, 여기에 기술된 특징들을 갖는 방법 및 장치는 유선을 통한 VoIP (Voice over IP) 를 사용하는 시스템들 및/또는 무선 (예를 들어, CDMA, TDMA, FDMA, 및/또는 TD-SCDMA) 송신 채널들과 같은 당업자에게 알려진 넓은 범위의 기술들을 사용하는 여러 통신 시스템들 중 임의의 것에 상주할 수도 있다는 것이 당업자에게는 이해될 것이다.

여기에 개시된 통신 디바이스는 패킷-교환되는 네트워크 (예를 들어, VoIP 와 같은 프로토콜들에 따라 오디오 송신들을 반송하도록 배열된 유선 및/또는 무선 네트워크들) 및/또는 회로-교환되는 네트워크에서의 사용을 위해 적응될 수도 있다는 것이 명백하게 고려되고 여기에 개시된다. 여기에 개시된 통신 디바이스들은 전체-대역 광대역 코딩 시스템들 및 스플릿-대역 광대역 코딩 시스템들을 포함하여, 광대역 코딩 시스템들 (예를 들어, 5 킬로헤르츠보다 큰 오디오 주파수들을 인코딩하는 시스템들) 에서의 사용을 위해 및/또는 협대역 코딩 시스템들 (예를 들어, 약 4 또는 5 킬로헤르츠의 오디오 주파수 범위를 인코딩하는 시스템들) 에서의 사용을 위해 적응될 수도 있다는 것이 명백히 고려되며 여기에 개시된다.

기술된 구성들의 제시는 본 기술분야에서 통상 기술자가 여기에 개시된 방법들 및 다른 구조들을 실시 또는 사용하는 것을 가능하게 하도록 제공된다. 여기에 도시되고 기술된 흐름도, 블록도, 및 다른 구조들은 단지 예시일 뿐이고, 이들 구조들의 다른 변형들이 또한 본 개시의 범위 내에 있다. 이들 구성들의 여러 변경들은 가능하며, 여기에 제시된 일반 원리들은 마찬가지로 다른 구성들에 적용될 수도 있다. 따라서, 본 개시는 위에서 나타낸 구성들로 제한되도록 의되되는 것이 아니라, 원래의 개시의 일부를 형성하는, 제출된 첨부된 청구항들에서 포함하는, 여기의 임의의 방식으로 개시된 원리들 및 신규한 특징들과 일관된 가장 넓은 범위와 일치되는 것이다.

당업자는 정보 및 신호들이 다양한 상이한 기술들 및 기법들 중 임의의 것을 사용하여 표현될 수도 있다는 것을 이해할 것이다. 예를 들어, 상기 상세한 설명 전체에 걸쳐 참조될 수도 있는 데이터, 명령들, 커맨드들, 정보, 신호들, 비트들 및 심볼들은 전압들, 전류들, 전자기파들, 자기 장들 또는 입자들, 광학 장들 또는 입자들 또는 이들의 임의의 조합에 의해 표현될 수도 있다.

여기에 개시된 구성의 구현을 위한 중요한 설계 요건들은, 특별히 압축된 오디오 또는 오디오비주얼 정보 (예를 들어, 여기에서 식별된 예들 중 하나와 같은 압축 포맷에 따라 인코딩된 파일 또는 스트림) 의 플레이백과 같은 계산 집약적 애플리케이션들 또는 광대역 통신들 (예를 들어, 12, 16, 44.1, 48 또는 192 kHz 와 같이 8 킬로헤르츠를 초과하는 샘플링 레이트들에서의 음성 통신들) 에 대한 애플리케이션들에 대해, 프로세싱 지연 및/또는 계산상의 복잡성 (초당 수백만의 명령 단위 또는 MIPS 로 통상 측정됨) 을 최소화하는 것을 포함할 수도 있다.

여기에 개시된 장치 (예를 들어, 장치 A100, A110, A120, A130, A140, A150, A200, A100D, A110D, A120D, MF100, MF110, MFD100 또는 MFD110) 는 의도된 애플리케이션에 적합한 것으로 생각되는, 소프트웨어 및/또는 펌웨어와 하드웨어의 임의의 조합으로 구현될 수도 있다. 예를 들어, 그러한 엘리먼트들은 동일한 칩 상에 또는 칩셋 내의 2 개 이상의 칩들 중에 상주하는 전자 및/또는 광학 디바이스들로서 제조될 수도 있다. 그러한 디바이스의 하나의 예는 트랜지스터들 또는 로직 게이트들과 같은 로직 엘리먼트들의 고정되거나 프로그램가능한 어레이이고, 이들 엘리먼트들의 임의의 것은 하나 이상의 그러한 에레이들로서 구현될 수도 있다. 이들 엘리먼트들의 임의의 둘 이상 또는 심지어 전부가 동일한 어레이 또는 어레이들 내에서 구현될 수도 있다. 그러한 어레이 또는 어레이들은 (예를 들어, 둘 이상의 칩들을 포함하는 칩셋 내의) 하나 이상의 칩들 내에서 구현될 수도 있다.

여기에 개시된 장치 (예를 들어, 장치 A100, A110, A120, A130, A140, A150, A200, A100D, A110D, A120D, MF100, MF110, MFD100 또는 MFD110) 의 여러 구현들의 하나 이상의 엘리먼트들은 마이크로프로세서들, 임베딩된 프로세서들, IP 코어들, 디지털 신호 프로세서들, FPGA 들 (field-programmable gate arrays), ASSP 들 (application-specific standard products), 및 ASIC 들 (application-specific integrated circuits) 과 같은 로직 엘리먼트들의 하나 이상의 고정되거나 프로그램가능한 어레이들 상에서 실행하도록 배열된 명령들의 하나 이상의 세트들로서 전체적으로 또는 부분적으로 구현될 수도 있다. 여기에 개시된 장치의 구현의 여러 엘리먼트들 중 임의의 것은 또한 하나 이상의 컴퓨터들 (예를 들어, "프로세서들" 로서 불리기도 하는, 명령들의 하나 이상의 세트들 또는 시퀀스들을 실행하도록 프로그램된 하나 이상의 어레이들을 포함하는 머신들) 로서 구현될 수도 있고, 이들 엘리먼트들의 임의의 둘 이상 또는 심지어 전부는 동일한 그러한 컴퓨터 또는 컴퓨터들 내에서 구현될 수도 있다.

여기에 개시된 프로세서 또는 다른 프로세싱 수단은 예를 들어 동일한 칩 상에 또는 칩셋 내의 둘 이상의 칩들 중에 상주하는 하나 이상의 전자 및/또는 광학 디바이스들로서 제조될 수도 있다. 그러한 디바이스의 일 예는 트랜지스터들 또는 로직 게이트들과 같은 로직 엘리먼트들의 고정되거나 프로그램가능한 어레이이고, 이들 엘리먼트들의 임의의 것은 하나 이상의 그러한 에레이들로서 구현될 수도 있다. 그러한 어레이 또는 어레이들은 (예를 들어, 둘 이상의 칩들을 포함하는 칩셋 내의) 하나 이상의 칩들 내에서 구현될 수도 있다. 그러한 어레이들의 예들은 마이크로프로세서들, 임베딩된 프로세서들, IP 코어들, DSP 들, FPGA 들, ASSP 들, 및 ASIC 들과 같은 로직 엘리먼트들의 하나 이상의 고정되거나 프로그램가능한 어레이들을 포함한다. 여기에 개시된 프로세서 또는 다른 프로세싱 수단은 또한 하나 이상의 컴퓨터들 (예를 들어, 명령들의 하나 이상의 세트들 또는 시퀀스들을 실행하도록 프로그램된 하나 이상의 어레이들을 포함하는 머신들) 또는 다른 프로세서들로서 구현될 수도 있다. 여기에 기술된 프로세서가 프로세서가 임베딩되는 디바이스 또는 시스템 (예를 들어, 오디오 센싱 디바이스) 의 다른 동작에 관련된 태스크와 같이, 방법 (MC100, MC110, MD100 또는 MD110) 의 구현의 절차에 직접 관련되지 않은 명령들의 다른 세트들을 실행하거나 태스크들을 수행하는데 사용되는 것이 가능하다. 여기에 개시된 방법의 일부가 오디오 센싱 디바이스의 프로세서에 의해 수행되고 그 방법의 다른 부분은 하나 이상의 다른 프로세서들의 제어하에서 수행되는 것도 가능하다.

당업자는 여기에 개시된 구성들과 관련하여 기술된 여러 예시적인 모듈들, 로직 블록들, 회로들 및 테스트들 및 다른 동작들이 전자 하드웨어, 컴퓨터 소프트웨어 또는 이들 양자의 조합들로서 구현될 수도 있다는 것을 인정할 것이다. 그러한 모듈들, 로직 블록들, 회로들 및 동작들은 범용 프로세서, 디지털 신호 프로세서 (DSP), ASIC 또는 ASSP, FPGA 또는 다른 프로그램가능한 로직 디바이스, 이산 게이트 또는 트랜지스트 로직, 이산 하드웨어 컴포넌트들 또는 여기에 개시된 구성을 생성하도록 설계된 이들의 임의의 조합으로 구현 또는 수행될 수도 있다. 예를 들어, 그러한 구성은 하드-와이어드 회로로서, 애플리케이션 특정 집적 회로내로 제조된 회로 구성으로서, 또는 비휘발성 기억장치로 로딩된 펌웨어 프로그램 또는 머신 판독가능 코드로서 데이터 저장 매체로부터 또는 데이터 저장 매체로 로딩되는 소프트웨어 프로그램으로서 적어도 일부가 구현될 수도 있고, 그러한 코드는 범용 프로세서 또는 다른 디지털 신호 프로세싱 유닛과 같은 로직 엘리먼트들의 어레이에 의해 실행가능한 명령들이다. 범용 프로세서는 마이크로프로세서일 수도 있지만, 대안적으로 프로세서는 임의의 종래의 프로세서, 제어기, 마이크로제어기, 또는 상태 머신일 수도 있다. 프로세서는 또한 컴퓨팅 디바이스들의 조합, 예를 들어 DSP 와 마이크로프로세서의 조합, 복수의 마이크로프로세서들, DSP 코어와 결합한 하나 이상의 마이크로프로세서들, 또는 임의의 다른 그러한 구성으로서 구현될 수도 있다. 소프트웨어 모듈은 RAM (randoom-access memory), ROM (read-only memory), 플래시 RAM 과 같은 비휘발성 RAM (NVRAM), 이레이저블 프로그래머블 ROM (EPROM), 전기적으로 소거가능한 프로래머블 ROM (EEPROM), 레지스터들, 하드 디스크, 착탈가능한 디스크 또는 CD-ROM 과 같은 비일시적인 저장 매체; 또는 본 기술분야에서 공지된 저장 매체의 임의의 다른 형태에 상주할 수도 있다. 예시적인 저장 매체는 프로세서가 저장 매체로부터 정보를 판독하고, 저장 매체로 정보를 기입할 수 있도록 프로세서에 커플링된다. 대안으로, 저장 매체는 프로세서에 통합될 수도 있다. 프로세서 및 저장 매체는 ASIC 에 상주할 수도 있다. ASIC 는 사용자 단말기에 상주할 수도 있다. 대안으로, 프로세서 및 저장 매체는 사용자 단말기에서 이산 컴포넌트들로서 상주할 수도 있다.

여기에 개시된 여러 방법들 (예를 들어, 방법들 MC100, MC110, MD100, MD110및 여기에 개시된 여러 장치의 동작을 참조하여 개시된 다른 방법들) 은 프로세서와 같은 로직 엘리먼트들의 어레이에 의해 수행될 수도 있다는 것, 및 여기에 개시된 장치의 여러 엘리먼트들은 그러한 어레이 상에서 실행하도록 설계된 모듈들로서 구현될 수도 있다는 것이 주목된다. 여기에서 사용되는 바와 같이, 용어 "모듈" 또는 "서브-모듈" 은 컴퓨터 명령들 (예를 들어 로직 표현들) 을 소프트웨어, 하드웨어, 또는 펌웨어 형태로 포함하는 임의의 방법, 장치, 디바이스, 유닛 또는 컴퓨터 판독가능 데이터 저장 매체를 지칭할 수 있다. 다수의 모듈들 또는 시스템들이 하나의 모듈 또는 시스템으로 결합될 수 있고, 하나의 모듈 또는 시스템이 동일한 기능들을 수행하는 다수의 모듈들 또는 시스템들로 분리될 수 있다는 것이 이해되어야 한다. 소프트웨어 또는 다른 컴퓨터 실행가능한 명령들로 구현되는 경우, 프로세스의 엘리먼트들은 필수적으로 루틴들, 프로그램들, 오브젝트들, 컴포넌트들, 데이터 구조들 등과 관련된 태스크들을 수행하는 코드 세그먼트들이다. 용어 "소프트웨어" 는 소스 코드, 어셈블리어 코드, 머신 코드, 이진 코드, 펌웨어, 매크로코드, 마이크로코드, 로직 엘리먼트들의 어레이에 의해 실행가능한 명령들의 임의의 하나 이상의 세트들 또는 시퀀스들, 및 그러한 예들의 임의의 조합을 포함하는 것으로 이해되어야 한다. 프로그램 또는 코드 세그먼트들은 프로세서 판독가능 매체에 저장되거나 송신 매체 또는 통신 링크를 통해 반송파에서 구현되는 컴퓨터 데이터 신호에 의해 송신될 수 있다.

여기에 개시된 방법들, 스킴들, 및 기법들의 구현들은 또한 로직 엘리먼트들의 어레이 (예를 들어, 프로세서, 마이크로프로세서, 마이크로제어기, 또는 다른 유한 상태 머신) 를 포함하는 머신에 의해 실행가능한 명령들의 하나 이상의 세트들로서 (예를 들어, 여기에 리스트된 하나 이상의 컴퓨터 판독가능 저장 매체의 유형의 컴퓨터 판독가능한 피쳐들로) 유형으로 구현될 수도 있다. 용어 "컴퓨터 판독가능 매체" 는 휘발성, 비휘발성, 착탈가능, 및 비착탈가능 저장 매체를 포함하는, 정보를 저장 또는 전송할 수 있는 임의의 매체를 포함할 수도 있다. 컴퓨터 판독가능 매체의 예들은 전자 회로, 반도체 메모리 디바이스, ROM, 플래시 메모리, 소거가능 ROM (EROM), 플로피 디스켓 또는 다른 자기 기억장치, CD-ROM/DVD 또는 다른 광학 기억장치, 하드 디스크 또는 원하는 정보를 저장하는데 사용될 수 있는 임의의 다른 매체, 광섬유 매체, 무선 주파수 (RF) 링크, 또는 원하는 정보를 반송하는데 사용될 수 있고 액세스될 수 있는 임의의 다른 매체를 포함한다. 컴퓨터 데이터 신호는 전자 네트워크 채널들, 광섬유들, 에어 (air), 전자기, RF 링크들 등과 같은 송신 매체를 통해 전파할 수 있는 임의의 신호를 포함할 수도 있다. 코드 세그먼트들은 인터넷 또는 인트라넷과 같은 컴퓨터 네트워크들을 통해 다운로드될 수도 있다. 임의의 경우에, 본 개시의 범위는 그러한 실시형태들에 의해 제한되는 것으로 해석되지 않아야 한다.

여기에 기술된 방법들의 태스크들의 각각은 하드웨어로 직접, 프로세서에 의해 실행되는 소프트웨어 모듈로, 또는 이들 둘의 조합으로 구현될 수도 있다. 여기에 개시된 방법의 구현의 통상적인 애플리케이션에서, 로직 엘리먼트들 (예를 들어, 로직 게이트들) 의 어레이는 방법의 여러 태스크들 중 하나, 하나를 초과, 또는 심지어 전부를 수행하도록 구성된다. 태스크들의 하나 이상 (가능하면 전부) 이 또한 로직 엘리먼트들의 어레이 (예를 들어, 프로세서, 마이크로프로세서, 마이크로제어기, 또는 다른 유한 상태 머신) 를 포함하는 머신 (예를 들어, 컴퓨터) 에 의해 판독가능 및/또는 실행가능한 컴퓨터 프로그램 제품 (예를 들어, 디스크들, 플래시 또는 다른 비휘발성 메모리 카드들, 반도체 메모리 칩들 등과 같은 하나 이상의 데이터 저장 매체) 에서 구현된 코드 (예를 들어, 명령들의 하나 이상의 세트들) 로서 구현될 수도 있다. 여기에 개시된 방법의 구현의 태스크들은 또한 하나 보다 많은 그러한 어레이 또는 머신에 의해 수행될 수도 있다. 이들 또는 다른 구현들에서, 태스크들은 셀룰러 전화 또는 그러한 통신 능력을 갖는 다른 디바이스와 같은 무선 통신들을 위한 디바이스 내에서 수행될 수도 있다. 그러한 디바이스는 (VoIP 와 같은 하나 이상의 프로토콜들을 사용하는) 패킷-교환 네트워크 및/또는 회로-교환 네트워크와 통신하도록 구성될 수도 있다. 예를 들어, 그러한 디바이스는 인코딩된 프레임들을 수신 및/또는 송신하도록 구성된 RF 회로를 포함할 수도 있다.

여기에 개시된 여러 방법들은 핸드셋, 헤드셋 또는 휴대용 디지털 보조기 (PDA) 와 같은 휴대용 통신 디바이스에 의해 수행될 수도 있다는 것, 및 여기에 기술된 여러 장치는 그러한 디바이스 내에 포함될 수도 있다는 것이 명백히 개시된다. 통상의 실시간 (예를 들어, 온라인) 애플리케이션은 그러한 이동 디바이스를 사용하여 행해지는 전화 대화이다.

하나 이상의 예시적인 실시형태들에서, 여기에 기술된 동작들은 하드웨어, 소프트웨어, 펌웨어 또는 이들의 임의의 조합으로 구현될 수도 있다. 소프트웨어로 구현되는 경우, 그러한 동작들은 하나 이상의 명령들 또는 코드로서 컴퓨터 판독가능 매체 상에 저장 또는 컴퓨터 판독가능 매체를 통해 송신될 수도 있다. 용어 "컴퓨터 판독가능 매체" 는 컴퓨터 판독가능 저장 매체 및 통신 (예를 들어, 송신) 매체 양자 모두를 포함한다. 제한이 아닌 예로써, 컴퓨터 판독가능 저장 매체는 (제한 없이 동적 또는 정적 RAM, ROM, EEPROM, 및/또는 플래시 RAM 을 포함할 수도 있는) 반도체 메모리, 또는 강유전체, 자기저항, 오보닉, 폴리메릭, 또는 상변화 메모리와 같은 기억 엘리먼트들의 어레이; CD-ROM 또는 다른 광학 디스크 기억 장치; 및/또는 자기 디스크 기억 장치 또는 다른 자기 저장 디바이스들을 포함할 수 있다. 그러한 저장 매체는 컴퓨터에 의해 액세스될 수 있는 명령들 또는 데이터 구조들의 형태로 정보를 저장할 수도 있다. 통신 매체는 한 장소로부터 다른 장소로의 컴퓨터 프로그램의 전송을 용이하게 하는 임의의 매체를 포함하여, 명령들 또는 데이터 구조들의 형태로 원하는 프로그램 코드을 반송하는데 사용될 수 있고, 컴퓨터에 의해 액세스될 수 있는 임의의 매체를 포함할 수 있다. 또한, 임의의 연결이 컴퓨터 판독가능 매체로 적절히 일컬어진다. 예를 들어, 소프트웨어가 동축 케이블, 광섬유 케이블, 트위스티드 페어, 디지털 가입자 라인 (DSL), 또는 적외선, 무선, 및/또는 마이크로웨이브와 같은 무선 기술을 사용하여 웹사이트, 서버, 또는 다른 원격 소스로부터 송신되는 경우, 동축 케이블, 광섬유 케이블, 트위스티드 페어, 디지털 가입자 라인 (DSL), 또는 적외선, 무선, 및/또는 마이크로웨이브와 같은 무선 기술은 매체의 정의에 포함된다. 여기에서 사용된 디스크 (disk) 및 디스크 (disc) 는 CD (compact disc), 레이저 디스크, 광 디스크, DVD (digital versatile disc), 플로피 디스크 및 블루-레이 디스크^TM (블루-레이 디스크 협회, 유니버설 시티, 캘리포니아) 을 포함하며, 여기서 디스크 (disk) 는 보통 자기적으로 데이터를 재생하는 반면, 디스크 (disc) 는 레이저를 사용하여 광학적으로 데이터를 재생한다. 상술한 것의 조합들은 또한 컴퓨터 판독가능 매체 내에 포함되어야 한다.

여기에 기술된 음향 신호 프로세싱 장치는 소정의 동작들을 제어하기 위해 스피치 입력을 수락하는 전자 디바이스로 통합될 수도 있고, 또는 그렇지 않으면 통신 디바이스들과 같이 배경 노이즈들로부터 원하는 노이즈들의 분리로부터 이익들 받을 수도 있다. 다수의 애플리케이션들이 다수의 방향들로부터 기원하는 배경 사운드들로부터 원하는 사운드를 강화 또는 깨끗하게 분리하는 것으로부터 이익을 얻을 수도 있다. 그러한 애플리케이션들은 음성 인식 및 검출, 스피치 강화 및 분리, 음성-활성화 제어 등과 같은 능력들을 포함하는 전자 또는 컴퓨팅 디바이스들에서의 인간-머신 인터페이스들을 포함할 수도 있다. 그러한 음향 신호 프로세싱 장치를 단지 제한된 프로세싱 능력들만 제공하는 디바이스들에서 적합하도록 구현하는 것은 바람직할 수도 있다.

여기에 기술된 모듈들, 엘리먼트들, 및 디바이스들의 여러 구현들의 엘리먼트들은 예를 들어 동일한 칩 상에 또는 칩셋 내의 둘 이상의 칩들 중에 상주하는 전자 및/또는 광학 디바이스들로서 제조될 수도 있다. 그러한 디바이스의 하나의 예는 트랜지스터들 또는 게이트들과 같은 로직 엘리먼트들의 고정되거나 프로그램가능한 어레이이다. 여기에 기술된 장치의 여러 구현들의 하나 이상의 엘리먼트들은 또한 마이크로프로세서들, 임베딩된 프로세서들, IP 코어들, 디지털 신호 프로세서들, FPGA 들, ASSP 들, 및 ASIC 들과 같은 로직 엘리먼트들의 하나 이상의 고정되거나 프로그램가능한 어레이들 상에서 실행하도록 배열된 명령들의 하나 이상의 세트들로서 전체적으로 또는 부분적으로 구현될 수도 있다.

여기에 기술된 장치의 구현의 하나 이상의 엘리먼트들이 장치가 임베딩되는 시스템 또는 디바이스의 다른 동작과 관련된 태스크와 같이, 장치의 동작에 직접 관련되지 않는 명령들의 다른 세트들을 실행하거나 태스크들을 수행하는데 사용되는 것이 가능하다.

여기에 기술된 장치의 구현의 하나 이상의 엘리먼트들이 통상의 구조 (예를 들어, 상이한 시간들에 상이한 엘리먼트들에 대응하는 코드의 부분들을 실행하는데 사용되는 프로세서, 상이한 시간들에 상이한 엘리먼트들에 대응하는 태스크들을 수행하도록 실행되는 명령들의 세트, 또는 상이한 시간들에 상이한 엘리먼트들을 위한 동작들을 수행하는 전자 및/또는 광학 디바이스들의 배열) 를 갖는 것도 가능하다.

Claims

오디오 신호 프로세싱 방법으로서,
오디오 신호의 프레임들을 프로세싱하도록 구성되는 디바이스에서 다음의 액트들:
주파수 도메인에서, 상기 오디오 신호의 프레임을 기술하는 기준 프레임에서 복수의 에너지 집중들을 위치시키는 것;
복수의 주파수-도메인 에너지 집중들의 각각에 대해, 그리고 상기 집중의 위치에 기초하여, 타겟 프레임의 부대역들의 세트 중 대응하는 부대역에 대해 상기 오디오 신호의 상기 타겟 프레임 내에서 위치를 선택하는 것으로서, 상기 타겟 프레임은 상기 기준 프레임에 의해 기술되는 프레임에 대해 상기 오디오 신호에서 후속하는, 상기 선택하는 것; 및
인코딩된 컴포넌트를 획득하기 위해 상기 부대역들의 세트의 임의의 것에 존재하지 않는 상기 타겟 프레임의 샘플들과는 개별적으로 상기 타겟 프레임의 상기 부대역들의 세트를 인코딩하는 것
의 각각을 수행하는 단계를 포함하고,
상기 인코딩된 컴포넌트는, 상기 부대역들의 세트의 적어도 하나의 각각에 대해, 상기 부대역에 대한 상기 선택된 위치와, 대응하는 집중의 위치 사이의 상기 주파수 도메인에 있어서의 거리의 표시를 포함하는, 오디오 신호 프로세싱 방법.
제 1 항에 있어서,
상기 기준 프레임에서의 상기 복수의 에너지 집중들 중의 각각은 피크인, 오디오 신호 프로세싱 방법.
제 1 항 또는 제 2 항에 있어서,
상기 위치를 선택하는 것은 집중의 위치를 포함하는 복수의 후보들 중에서 하나를 선택하는 것을 포함하는, 오디오 신호 프로세싱 방법.
제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
상기 부대역들의 세트의 임의의 것에 존재하지 않는 상기 타겟 프레임의 상기 샘플들은 상기 부대역들의 세트의 인접한 것들 사이에 위치되는 샘플들을 포함하는, 오디오 신호 프로세싱 방법.
제 1 항 내지 제 4 항 중 어느 한 항에 있어서,
상기 방법은 상기 기준 프레임을 획득하기 위해 인코딩된 신호를 역양자화하는 단계를 포함하는, 오디오 신호 프로세싱 방법.
제 1 항 내지 제 5 항 중 어느 한 항에 있어서,
상기 인코딩하는 것은 상기 부대역들의 세트 중에서 적어도 하나에 대해 이득-형상 벡터 양자화 동작을 수행하는 것을 포함하는, 오디오 신호 프로세싱 방법.
제 1 항 내지 제 6 항 중 어느 한 항에 있어서,
상기 오디오 신호는 선형 예측 코딩 레지듀얼 (residual) 에 기초하는, 오디오 신호 프로세싱 방법.
제 1 항 내지 제 7 항 중 어느 한 항에 있어서,
상기 타겟 프레임은 복수의 변경된 이산 코사인 변환 계수들인, 오디오 신호 프로세싱 방법.
제 1 항 내지 제 8 항 중 어느 한 항에 있어서,
상기 인코딩된 컴포넌트는, 상기 부대역들의 세트의 각각에 대해, 상기 부대역에 대한 상기 선택된 위치와 대응하는 집중의 위치 사이의 상기 주파수 도메인에 있어서의 거리의 표시를 포함하는, 오디오 신호 프로세싱 방법.
제 1 항 내지 제 9 항 중 어느 한 항에 있어서,
상기 부대역들의 세트의 적어도 하나에 대해, 상기 부대역에 대한 상기 위치를 선택하는 것은 대응하는 지터 (jitter) 값을 선택하는 것을 포함하는, 오디오 신호 프로세싱 방법.
제 1 항 내지 제 10 항 중 어느 한 항에 있어서,
상기 방법은,
(A) 상기 인코딩된 컴포넌트 및
(B) 상기 부대역들의 세트의 임의의 것에 존재하지 않는 상기 타겟 프레임의 샘플들의 값들의 순서화된 시리즈의 표현
을 포함하는 인코딩된 프레임을 생성하는 단계를 포함하는, 오디오 신호 프로세싱 방법.
제 1 항 내지 제 10 항 중 어느 한 항에 있어서,
상기 방법은,
부대역들의 디코딩된 세트를 획득하기 위해 상기 인코딩된 컴포넌트를 디코딩하는 단계;
레지듀얼을 획득하기 위해 상기 타겟 프레임으로부터 상기 부대역들의 디코딩된 세트를 감산하는 단계;
인코딩된 레지듀얼을 획득하기 위해 상기 레지듀얼을 인코딩하는 단계; 및
(A) 상기 인코딩된 컴포넌트 및
(B) 상기 인코딩된 레지듀얼
을 포함하는 인코딩된 프레임을 생성하는 단계를 포함하는, 오디오 신호 프로세싱 방법.
제 1 항 내지 제 12 항 중 어느 한 항에 있어서,
상기 방법은,
제 2 인코딩된 프레임을 획득하기 위해 미리결정된 분할 스킴 (scheme) 에 따라 부대역들의 제 2 세트로 상기 프레임의 상기 샘플들을 그룹핑함으로써 상기 타겟 프레임을 인코딩하는 단계; 및
상기 인코딩된 프레임 및 상기 제 2 인코딩된 프레임 중에서 하나를 선택하기 위해 지각적 메트릭을 사용하는 단계를 포함하는, 오디오 신호 프로세싱 방법.
디코딩된 오디오 프레임을 구성하는 방법으로서,
주파수 도메인에서, 오디오 신호의 프레임을 기술하는 기준 프레임에서 복수의 에너지 집중들을 위치시키는 단계;
복수의 부대역들 각각에 대해 디코딩된 콘텐츠 및 지터 (jitter) 값을 획득하기 위해 인코딩된 타겟 프레임으로부터의 정보를 디코딩하는 단계; 및
디코딩된 타겟 프레임을 획득하기 위해, 대응하는 지터 값 및 상기 복수의 위치들 중 대응하는 위치에 따라 각 부대역의 상기 디코딩된 콘텐츠를 배치하는 단계를 포함하는, 디코딩된 오디오 프레임 구성 방법.
제 14 항에 있어서,
상기 방법은 상기 기준 프레임을 획득하기 위해 인코딩된 신호를 역양자화하는 단계를 포함하는, 디코딩된 오디오 프레임 구성 방법.
오디오 신호의 프레임들을 프로세싱하는 장치로서,
주파수 도메인에서, 상기 오디오 신호의 프레임을 기술하는 기준 프레임에서 복수의 에너지 집중들을 위치시키는 수단;
복수의 주파수-도메인 에너지 집중들의 각각에 대해, 그리고 상기 집중의 위치에 기초하여, 타겟 프레임의 부대역들의 세트 중 대응하는 부대역에 대해 상기 오디오 신호의 상기 타겟 프레임 내에서 위치를 선택하는 수단으로서, 상기 타겟 프레임은 상기 기준 프레임에 의해 기술되는 프레임에 대해 상기 오디오 신호에서 후속하는, 상기 선택하는 수단; 및
인코딩된 컴포넌트를 획득하기 위해 상기 부대역들의 세트의 임의의 것에 존재하지 않는 상기 타겟 프레임의 샘플들과는 개별적으로 상기 타겟 프레임의 상기 부대역들의 세트를 인코딩하는 수단을 포함하고,
상기 인코딩된 컴포넌트는, 상기 부대역들의 세트의 적어도 하나의 각각에 대해, 상기 부대역에 대한 상기 선택된 위치와 대응하는 집중의 위치 사이의 상기 주파수 도메인에 있어서의 거리의 표시를 포함하는, 오디오 신호 프레임 프로세싱 장치.
제 16 항에 있어서,
상기 기준 프레임에서의 상기 복수의 에너지 집중들 중의 각각은 피크인, 오디오 신호 프레임 프로세싱 장치.
제 16 항 또는 제 17 항에 있어서,
상기 위치를 선택하는 수단은 상기 집중의 위치를 포함하는 복수의 후보들 중에서 하나를 선택하는 수단을 포함하는, 오디오 신호 프레임 프로세싱 장치.
제 16 항 내지 제 18 항 중 어느 한 항에 있어서,
상기 부대역들의 세트의 임의의 것에 존재하지 않는 상기 타겟 프레임의 상기 샘플들은 상기 부대역들의 세트의 인접한 것들 사이에 위치되는 샘플들을 포함하는, 오디오 신호 프레임 프로세싱 장치.
제 16 항 내지 제 19 항 중 어느 한 항에 있어서,
상기 장치는 상기 기준 프레임을 획득하기 위해 인코딩된 신호를 역양자화하는 수단을 포함하는, 오디오 신호 프레임 프로세싱 장치.
제 16 항 내지 제 20 항 중 어느 한 항에 있어서,
상기 인코딩하는 수단은 상기 부대역들의 세트 중에서 적어도 하나에 대해 이득-형상 벡터 양자화 동작을 수행하는 수단을 포함하는, 오디오 신호 프레임 프로세싱 장치.
제 16 항 내지 제 21 항 중 어느 한 항에 있어서,
상기 오디오 신호는 선형 예측 코딩 레지듀얼에 기초하는, 오디오 신호 프레임 프로세싱 장치.
제 16 항 내지 제 22 항 중 어느 한 항에 있어서,
상기 타겟 프레임은 복수의 변경된 이산 코사인 변환 계수들인, 오디오 신호 프레임 프로세싱 장치.
제 16 항 내지 제 23 항 중 어느 한 항에 있어서,
상기 인코딩된 컴포넌트는, 상기 부대역들의 세트의 각각에 대해, 상기 부대역에 대한 상기 선택된 위치와 대응하는 집중의 위치 사이의 상기 주파수 도메인에 있어서의 거리의 표시를 포함하는, 오디오 신호 프레임 프로세싱 장치.
제 16 항 내지 제 24 항 중 어느 한 항에 있어서,
상기 선택된 위치는, 상기 부대역들의 세트의 적어도 하나에 대해, 대응하는 지터 값을 포함하는, 오디오 신호 프레임 프로세싱 장치.
제 16 항 내지 제 25 항 중 어느 한 항에 있어서,
상기 장치는,
(A) 상기 인코딩된 컴포넌트 및
(B) 상기 부대역들의 세트의 임의의 것에 존재하지 않는 상기 타겟 프레임의 샘플들의 값들의 순서화된 시리즈의 표현
을 포함하는 인코딩된 프레임을 생성하는 수단을 포함하는, 오디오 신호 프레임 프로세싱 장치.
제 16 항 내지 제 25 항 중 어느 한 항에 있어서,
상기 장치는,
부대역들의 디코딩된 세트를 획득하기 위해 상기 인코딩된 컴포넌트를 디코딩하는 수단;
레지듀얼을 획득하기 위해 상기 타겟 프레임으로부터 상기 부대역들의 디코딩된 세트를 감산하는 수단;
인코딩된 레지듀얼을 획득하기 위해 상기 레지듀얼을 인코딩하는 수단; 및
(A) 상기 인코딩된 컴포넌트 및
(B) 상기 인코딩된 레지듀얼
을 포함하는 인코딩된 프레임을 생성하는 수단을 포함하는, 오디오 신호 프레임 프로세싱 장치.
오디오 신호의 프레임들을 프로세싱하는 장치로서,
주파수 도메인에서, 상기 오디오 신호의 프레임을 기술하는 기준 프레임에서 복수의 에너지 집중들을 위치시키도록 구성된 로케이터;
제 1 복수의 주파수-도메인 에너지 집중들의 각각에 대해, 그리고 상기 집중의 위치에 기초하여, 타겟 프레임의 부대역들의 세트 중 대응하는 부대역에 대해 상기 오디오 신호의 상기 타겟 프레임 내에서 위치를 선택하도록 구성된 선택기로서, 상기 타겟 프레임은 상기 기준 프레임에 의해 기술되는 프레임에 대해 상기 오디오 신호에서 후속하는, 상기 선택기; 및
인코딩된 컴포넌트를 획득하기 위해 상기 부대역들의 세트의 임의의 것에 존재하지 않는 상기 타겟 프레임의 샘플들과는 개별적으로 상기 타겟 프레임의 상기 부대역들의 세트를 인코딩하도록 구성된 인코더를 포함하고,
상기 인코딩된 컴포넌트는, 상기 부대역들의 세트의 적어도 하나의 각각에 대해, 상기 부대역에 대한 상기 선택된 위치와, 대응하는 집중의 위치 사이의 상기 주파수 도메인에 있어서의 거리의 표시를 포함하는, 오디오 신호 프레임 프로세싱 장치.
제 28 항에 있어서,
상기 기준 프레임에서의 상기 복수의 에너지 집중들 중의 각각은 피크인, 오디오 신호 프레임 프로세싱 장치.
제 28 항 또는 제 29 항에 있어서,
상기 선택기는, 상기 부대역들의 세트의 각각에 대해, 상기 집중의 위치를 포함하는 복수의 후보들 중에서 상기 위치를 선택하도록 구성되는, 오디오 신호 프레임 프로세싱 장치.
제 28 항 내지 제 30 항 중 어느 한 항에 있어서,
상기 부대역들의 세트의 임의의 것에 존재하지 않는 상기 타겟 프레임의 상기 샘플들은 상기 부대역들의 세트의 인접한 것들 사이에 위치되는 샘플들을 포함하는, 오디오 신호 프레임 프로세싱 장치.
제 28 항 내지 제 31 항 중 어느 한 항에 있어서,
상기 장치는 상기 기준 프레임을 획득하기 위해 인코딩된 신호를 역양자화하도록 구성된 디코더를 포함하는, 오디오 신호 프레임 프로세싱 장치.
제 28 항 내지 제 32 항 중 어느 한 항에 있어서,
상기 인코더는 상기 부대역들의 세트 중에서 적어도 하나에 대해 이득-형상 벡터 양자화 동작을 수행하도록 구성되는, 오디오 신호 프레임 프로세싱 장치.
제 28 항 내지 제 33 항 중 어느 한 항에 있어서,
상기 오디오 신호는 선형 예측 코딩 레지듀얼에 기초하는, 오디오 신호 프레임 프로세싱 장치.
제 28 항 내지 제 34 항 중 어느 한 항에 있어서,
상기 타겟 프레임은 복수의 변경된 이산 코사인 변환 계수들인, 오디오 신호 프레임 프로세싱 장치.
제 28 항 내지 제 35 항 중 어느 한 항에 있어서,
상기 인코딩된 컴포넌트는, 상기 부대역들의 세트의 각각에 대해, 상기 부대역에 대한 상기 선택된 위치와 대응하는 집중의 위치 사이의 상기 주파수 도메인에 있어서의 거리의 표시를 포함하는, 오디오 신호 프레임 프로세싱 장치.
제 28 항 내지 제 36 항 중 어느 한 항에 있어서,
상기 선택된 위치는, 상기 부대역들의 세트의 적어도 하나에 대해, 대응하는 지터 값을 포함하는, 오디오 신호 프레임 프로세싱 장치.
제 28 항 내지 제 37 항 중 어느 한 항에 있어서,
상기 장치는,
(A) 상기 인코딩된 컴포넌트 및
(B) 상기 부대역들의 세트의 임의의 것에 존재하지 않는 상기 타겟 프레임의 샘플들의 값들의 순서화된 시리즈의 표현
을 포함하는 인코딩된 프레임을 생성하도록 구성된 비트 팩커 (bit packer) 를 포함하는, 오디오 신호 프레임 프로세싱 장치.
제 28 항 내지 제 38 항 중 어느 한 항에 있어서,
상기 장치는,
부대역들의 디코딩된 세트를 획득하기 위해 상기 인코딩된 컴포넌트를 디코딩하도록 구성된 디코더;
레지듀얼을 획득하기 위해 상기 타겟 프레임으로부터 상기 부대역들의 디코딩된 세트를 감산하도록 구성된 결합기;
인코딩된 레지듀얼을 획득하기 위해 상기 레지듀얼을 인코딩하도록 구성된 레지듀얼 인코더; 및
(A) 상기 인코딩된 컴포넌트 및
(B) 상기 인코딩된 레지듀얼
을 포함하는 인코딩된 프레임을 생성하도록 구성된 비트 팩커를 포함하는, 오디오 신호 프레임 프로세싱 장치.
유형의 피쳐 (feature) 들을 판독하는 머신으로 하여금 제 1 항 내지 제 15 항 중 어느 한 항에 기재된 방법을 수행하게 하는 상기 유형의 피쳐들을 갖는 컴퓨터 판독가능 저장 매체.