KR20180125475A

KR20180125475A - 멀티 채널 코딩

Info

Publication number: KR20180125475A
Application number: KR1020187026599A
Authority: KR
Inventors: 벤카타 수브라마니암 찬드라 세카르 체비얌; 벤카트라만 에스 아티
Original assignee: 퀄컴 인코포레이티드
Priority date: 2016-03-18
Filing date: 2017-03-17
Publication date: 2018-11-23
Also published as: CN108780651B; ES2783975T3; EP3430623B1; JP6768824B2; TW201737242A; BR112018068491A2; TWI640980B; JP2019512737A; CA3014784A1; EP3430623A1; US9959877B2; CA3014784C; CN108780651A; WO2017161315A1; KR102168054B1; US20170270936A1

Abstract

디바이스는 수신기 및 디코더를 포함한다. 수신기는 복수의 윈도우들 사이의 중첩 부분들의 제 1 길이를 갖는 복수의 윈도우들에 기초하여, 인코더에 의해 인코딩된 스테레오 파라미터들을 수신하도록 구성된다. 디코더는 적어도 2 개의 오디오 신호들을 생성하기 위해 스테레오 파라미터들을 사용하여 업믹스 동작을 수행하도록 구성된다. 적어도 2 개의 오디오 신호들은 업믹스 동작에서 사용되는 제 2 복수의 윈도우들에 기초하여 생성된다. 제 2 복수의 윈도우들은 제 2 복수의 윈도우들 사이의 중첩 부분들의 제 2 길이를 갖는다. 제 2 길이는 제 1 길이와 다르다.

Description

멀티 채널 코딩

우선권 주장

본 출원은 공동 소유된, 2016 년 3 월 18 일자로 출원된, 발명의 명칭이 "MULTI CHANNEL CODING" 인 미국 특허 가출원 제 62/310,635호, 및 2017 년 3 월 16 일자로 출원된, 발명의 명칭이 "MULTI CHANNEL CODING" 인 미국 특허 정규출원 제 15/461,312호로부터 우선권의 이익을 주장하며, 전술된 출원들 각각의 내용들은 그 전체가 참조로서 본원에 명백하게 포함된다.

분야

본 개시물은 일반적으로 오디오 코딩에 관한 것이다.

컴퓨팅 디바이스는 오디오 신호들을 수신하도록 다수의 마이크로폰들을 포함할 수도 있다. 다중채널 인코드-디코드 시스템에서, 코더 (예를 들어, 인코더, 디코더, 또는 양자 모두) 는 예시적인, 비한정적인 예로서 변환 도메인, 시간 도메인, 하이브리드 도메인, 또는 다른 도메인과 같은 하나 이상의 도메인에서 기능하도록 구성될 수 있다. 스테레오-인코딩에서, 마이크로폰들로부터의 오디오 신호들은 미드 채널 (mid channel) 신호 및 하나 이상의 사이드 채널 신호들을 생성하도록 인코딩될 수도 있다. 예를 들어, 스테레오 (2 채널) 신호가 코딩되는 경우, 일련의 공간 파라미터들은 이산 푸리에 변환 (DFT) 도메인과 같은 변환 도메인의 하나 이상의 대역들에서 추정될 수 있다. 추가적으로 또는 대안적으로, 또 다른 세트의 공간 파라미터들은 하나 이상의 서브프레임들에 대해 시간 도메인에서 추정될 수 있다. 다른 파형 코딩은 변환 도메인 또는 시간 도메인에서 수행될 수 있다. 미드 채널 신호는 제 1 오디오 신호 및 제 2 오디오 신호의 합에 대응할 수도 있다. 추가하여, 스테레오-디코딩에서, 미드 채널 신호 및 하나 이상의 사이드 채널 신호들은 다중 출력 신호를 생성하기 위해 디코딩될 수 있다.

다중채널 인코드-디코드 시스템들에서, DFT 변환은 오디오 신호들을 시간 도메인에서 변환 도메인으로 변환하기 위해 수행될 수 있다. DFT 변환은 윈도우 (예를 들어, 분석 윈도우) 를 사용하여 오디오 신호의 일 부분에 대해 수행될 수 있다. 윈도우는 코딩 프로세스 (예를 들어, 인코딩 및 디코딩) 에 약간의 지연을 도입하는 룩 어헤드 부분을 포함할 수 있다. 인코딩 프로세스 및 디코딩 프로세스의 룩 어헤드 부분들에 기초하여 도입된 지연들은 오디오 신호를 인코딩 및 디코딩하는 다중 채널 인코드-디코드 시스템의 전체 지연량에 기여한다.

특정 양태에서, 디바이스는 수신기 및 디코더를 포함한다. 수신기는 복수의 윈도우들 사이의 중첩 부분들의 제 1 길이를 갖는 복수의 윈도우들에 기초하여, 인코더에 의해 인코딩된 스테레오 파라미터들을 수신하도록 구성된다. 디코더는 적어도 2 개의 오디오 신호들을 생성하기 위해 스테레오 파라미터들을 사용하여 업믹스 동작을 수행하도록 구성된다. 적어도 2 개의 오디오 신호들은 업믹스 동작에서 사용되는 제 2 복수의 윈도우들에 기초하여 생성된다. 제 2 복수의 윈도우들은 제 2 복수의 윈도우들 사이의 중첩 부분들의 제 2 길이를 갖는다. 제 2 길이는 제 1 길이와 다르다.

또 다른 특정 양태에서, 방법은 복수의 윈도우들 사이의 중첩 부분들의 제 1 길이를 갖는 복수의 윈도우들에 기초하여, 인코더에 의해 인코딩된 스테레오 파라미터들을 수신하는 것을 포함한다. 방법은 적어도 2 개의 오디오 신호들을, 스테레오 파라미터들을 사용하는 업믹스 동작에 기초하여, 생성하는 것을 더 포함한다. 적어도 2 개의 오디오 신호들은 업믹스 동작에서 사용되는 제 2 복수의 윈도우들에 기초하여 생성된다. 제 2 복수의 윈도우들은 제 2 복수의 윈도우들 사이의 중첩 부분들의 제 2 길이를 갖는다. 제 2 길이는 제 1 길이와 다르다.

또 다른 특정 양태에서, 장치는 복수의 윈도우들 사이의 중첩 부분들의 제 1 길이를 갖는 복수의 윈도우들에 기초하여, 인코더에 의해 인코딩된 스테레오 파라미터들을 수신하는 수단을 포함한다. 장치는 또한 적어도 2 개의 오디오 신호들을 생성하기 위해 스테레오 파라미터들을 사용하여 업믹스 동작을 수행하는 수단을 포함한다. 적어도 2 개의 오디오 신호들은 업믹스 동작에서 사용되는 제 2 복수의 윈도우들에 기초하여 생성된다. 제 2 복수의 윈도우들은 제 2 복수의 윈도우들 사이의 중첩 부분들의 제 2 길이를 갖는다. 제 2 길이는 제 1 길이와 다르다.

또 다른 특정 양태에서, 컴퓨터 판독가능 저장 디바이스는, 프로세서에 의해 실행되는 경우, 프로세서로 하여금 복수의 윈도우들 사이의 중첩 부분들의 제 1 길이를 갖는 복수의 윈도우들에 기초하여, 인코더에 의해 인코딩된 스테레오 파라미터들을 수신하는 것을 포함하는 동작들을 수행하게 하는 명령들을 저장한다. 동작들은 또한 적어도 2 개의 오디오 신호들을, 스테레오 파라미터들을 사용하는 업믹스 동작에 기초하여, 생성하는 것을 포함한다. 적어도 2 개의 오디오 신호들은 업믹스 동작에서 사용되는 제 2 복수의 윈도우들에 기초하여 생성된다. 제 2 복수의 윈도우들은 제 2 복수의 윈도우들 사이의 중첩 부분들의 제 2 길이를 갖는다. 제 2 길이는 제 1 길이와 다르다.

본 개시물의 다른 양태들, 이점들 및 피처들은 다음 섹션들: 도면의 간단한 설명, 상세한 설명, 및 청구항들을 포함하는 출원의 검토 후에 명백해질 것이다.

도 1 은 다수의 오디오 신호들을 인코딩하도록 동작 가능한 인코더 및 다수의 오디오 신호들을 디코딩하도록 동작 가능한 디코더를 포함하는 시스템의 특정 예시의 예의 블록도이다.
도 2 는 도 1 의 인코더의 예를 예시하는 다이어그램이다.
도 3 은 도 1 의 디코더의 예를 예시하는 다이어그램이다.
도 4 는 도 1 의 시스템에 의해 수행되는 인코딩 및 디코딩을 위한 윈도우의 제 1 예시적인 예를 포함한다.
도 5 는 도 1 의 시스템에 의해 수행되는 인코딩 및 디코딩을 위한 윈도우의 제 2 예시적인 예를 포함한다.
도 6 은 도 1 의 시스템에 의해 수행되는 인코딩 및 디코딩을 위한 윈도우의 제 3 예시적인 예를 포함한다.
도 7 은 코더를 동작시키는 방법의 일례를 예시하는 흐름도이다.
도 8 은 코더를 동작시키는 방법의 일례를 예시하는 흐름도이다.
도 9 는 다수의 오디오 신호들을 인코딩하도록 동작 가능한 디바이스의 특정 예시적인 예의 블록 다이어그램이다.

본 개시물의 특정 양태들은 도면들을 참조하여 후술된다. 본 설명에서, 공통 특징은 공통 참조 번호로 표시된다. 본 명세서에서 사용되는 바와 같이, 다양한 용어는 특정 구현예들을 설명할 목적일 뿐 본 개시물을 한정하려는 것은 아니다. 예를 들어, 단수 형태들 "a", "an", 및 "the"는 문맥에서 명확하게 다르게 나타내지 않는 한 복수의 지시물도 또한 포함하는 것으로 의도된다. 또한, 용어 "포함하다 (comprise)", "포함하다 (comprises)", 및 "포함 (comprising)"은 "포함하다 (include)", "포함하다 (includes)", 또는 "포함 (including)"과 상호교환적으로 사용될 수 있음을 이해할 수 있다. 추가하여, 용어 "어디서 (wherein)"는 "어디 (where)"와 상호교환적으로 사용될 수 있음을 이해할 수 있다. 본 명세서에서 사용되는 바와 같이, 구조, 컴포넌트, 동작 등과 같은 엘리먼트를 수정하기 위해 사용되는 (예를 들어, "제 1", "제 2", "제 3" 등의) 서수 용어는 자체적으로 다른 엘리먼트와 관련하여 임의의 우선순위 또는 순서를 나타내지 않으며, 오히려 그 엘리먼트를 (서수 용어를 사용하여) 동일한 이름을 갖는 다른 엘리먼트로부터 단순히 구별한다. 명세서에서 사용되는 바와 같이, 용어 "세트"는 특정 엘리먼트의 하나 이상을 지칭하며, 용어 "복수"는 특정 엘리먼트의 다수 (예를 들어, 2 개 이상) 를 지칭한다.

본 개시물에서, "결정 (determining), "계산 (calculating)", "시프팅 (shifting)", "조정 (adjusting)" 등과 같은 용어는 하나 이상의 동작들이 수행되는 방법을 설명하기 위해 사용될 수 있다. 이러한 용어는 제한적인 것으로서 해석되지 않아야 하며, 다른 기술들이 유사한 동작들을 수행하기 위해 이용될 수 있음을 알아야 한다. 추가하여, 본 명세서에서 언급되는 바와 같이, "생성 (generating)", "계산 (calculating)", "사용 (using)", "선택 (selecting)", "액세스 (accessing)", 및 "결정 (determining)"은 상호교환적으로 사용될 수 있다. 예를 들어, 파라미터 (또는 신호) 를 "생성", "계산" 또는 "결정"하는 것은 파라미터 (또는 신호) 를 능동적으로 생성, 계산 또는 결정하는 것을 나타낼 수 있거나, 또는 다른 컴포넌트 또는 디바이스에 의해 이미 생성된 파라미터 (또는 신호) 를 사용, 선택 또는 액세스하는 것을 나타낼 수 있다.

본 개시물에는, 다수의 오디오 신호들을 코딩 (예를 들어, 인코딩, 디코딩, 또는 양자 모두) 하도록 동작가능한 시스템들 및 디바이스들이 개시되어 있다. 일부 구현예들에서, 인코더/디코더 윈도잉은 본원에 더욱 기재된 바와 같이 디코딩 지연을 감소시키기 위한 다중 채널 신호 코딩을 위해 미스매칭될 수 있다.

디바이스는 다수의 오디오 신호들을 인코딩하도록 구성된 인코더, 다수의 오디오 신호들을 디코딩하도록 구성된 디코더, 또는 양자를 포함할 수도 있다. 다수의 오디오 신호들은 다수의 레코딩 디바이스들, 예를 들어 다수의 마이크로폰들을 사용하여 시간적으로 동시에 캡처될 수도 있다. 일부 예들에서, 다수의 오디오 신호들 (또는 멀티-채널 오디오) 은 동시에 또는 상이한 시간들에 레코딩되는 여러 오디오 채널들을 멀티플렉싱함으로써 합성적으로 (예를 들어, 인공적으로) 생성될 수도 있다. 예시적인 예들로서, 오디오 채널들의 동시적 레코딩 또는 멀티플렉싱은 2-채널 구성 (즉, 스테레오: 좌측 및 우측), 5.1 채널 구성 (좌측, 우측, 센터, 좌측 서라운드, 우측 서라운드, 및 저 주파수 엠퍼시스 (the low frequency emphasis; LFE) 채널들), 7.1 채널 구성, 7.1+4 채널 구성, 22.2 채널 구성, 또는 N-채널 구성을 초래할 수도 있다.

일부 시스템에서, 인코더 및 디코더는 쌍으로 동작할 수도 있다. 인코더는 오디오 신호를 인코딩하기 위한 하나 이상의 동작들을 수행할 수 있고, 디코더는 디코딩된 오디오 출력을 생성하기 위한 (역순의) 하나 이상의 동작들을 수행할 수 있다. 예시를 위해, 인코더 및 디코더 각각은 변환 동작 (예를 들어, DFT 동작) 및 역변환 동작 (예를 들어, IDFT 동작) 을 수행하도록 구성될 수 있다. 예를 들어, 인코더는 DFT 대역과 같은 변환 도메인 대역에서 하나 이상의 파라미터들 (예를 들어, 인터 채널 스테레오 파라미터) 을 추정하기 위해 오디오 신호를 시간 도메인에서 변환 도메인으로 변환할 수 있다. 인코더는 또한 추정된 하나 이상의 파라미터들에 기초하여 하나 이상의 오디오 신호들을 웨이브폼 코딩할 수도 있다. 또 다른 예로서, 디코더는 하나 이상의 수신된 파라미터들을 수신된 오디오 신호에 적용하기 전에 합성된 오디오 신호를 시간 도메인으로부터 변환 도메인으로 변환할 수 있다.

각각의 변환 동작 이전 및 각각의 역 변환 동작 이후에, 신호 (예를 들어, 오디오 신호) 는 윈도잉된 샘플을 생성하기 위해 "윈도잉"되고, 윈도잉된 샘플은 변환 동작 또는 역 변환 동작을 수행하는데 사용된다. 일부 실시형태에서, 다중 채널 코딩 또는 스테레오 코딩에서, 스테레오 다운믹스 동작은 변환 도메인에서 수행되고, 추정된 스테레오 큐 파라미터는 사이드 및 미드 채널 코딩된 비트스트림과 함께 송신된다. 미드 채널 및 사이드 채널은 예를 들어 스테레오 다운믹스된 미드 및 사이드 신호들을 역 변환한 후에 ACELP/BWE 또는 TCX 코딩을 사용하여 인코딩된다. 디코더에서, 미드 및 사이드 채널은 렌더링을 위해 다중 채널 (또는 스테레오 채널) 을 생성하기 위해 디코딩, 윈도잉, 주파수 도메인으로 변환되고 스테레오 업믹스 프로세싱, 역 변환 및 윈도우 중첩 추가로 이어진다. 본 명세서에서 사용되는 바와 같이, 신호에 윈도우를 적용하거나 신호를 윈도잉하는 것은 신호의 샘플의 시간 범위를 생성하기 위해 신호의 일 부분을 스케일링하는 것을 포함한다. 상기 부분을 스케일링하는 것은 신호의 부분을 윈도우의 형상에 해당하는 값으로 승산하는 것을 포함할 수 있다.

일부 구현예에서, 인코더 및 디코더는 상이한 윈도잉 방식을 구현할 수 있다. 인코더 또는 디코더에 의해 구현되는 특정 윈도잉 방식은 (예를 들어, DFT 변환을 수행하기 위해) DFT 분석을 위해 사용될 수 있거나 또는 (예를 들어, 역 DFT 역 변환을 수행하기 위해) DFT 합성을 위해 사용될 수 있다. 본 명세서에서 사용되는 바와 같이, 윈도우 (또는 분석-합성 윈도우) 는 분석 윈도우, 합성 윈도우, 또는 분석 윈도우 및 상응하는 합성 윈도우 양자 모두이다. 인코더 및 디코더에 의해 구현되는 상이한 윈도잉 방식의 예로서, 인코더는 제 1 세트의 특성 (예를 들어, 제 1 세트의 파라미터) 을 갖는 제 1 윈도우를 적용할 수 있고, 디코더는 제 2 세트의 특성 (예를 들어, 제 2 세트의 파라미터) 을 갖는 제 2 윈도우를 적용할 수 있다. 제 1 세트의 특성의 하나 이상의 특성은 제 2 세트의 특성과 상이할 수 있다. 예를 들어, 제 1 세트의 특성은, 예시적이고 비제한적인 예로서, (예를 들어, 룩 헤드 양에 기초한) 윈도우의 중첩 부분 크기, 제로 패딩의 양, 윈도우의 홉 크기, 윈도우의 중심, 윈도우의 평평한 부분의 크기, 윈도우의 형상, 또는 이들의 조합 측면에서 제 2 특성 세트와 크기가 다를 수 있다. 일부 구현예에서, (예를 들어, 멀티채널 또는 스테레오 다운믹스 프로세싱에서) 인코더에서의 제 1 윈도우는 제 1 윈도잉된 샘플들을 생성하도록 구성되고 (예를 들어, 멀티채널 또는 스테레오 업믹스 프로세싱에서) 디코더에서의 제 2 윈도우는 제 2 윈도잉된 샘플들을 생성하도록 구성된다. 제 1 윈도잉된 샘플들 및 제 2 윈도잉된 샘플들은 시스템의 인코더 지연 및 디코더 지연과 연관되는 샘플들의 상이한 세트 또는 상이한 시간-프레임에 대응할 수 있다. 제 1 윈도잉된 샘플들 및 제 2 윈도잉된 샘플들은 동일한 DFT 빈 해상도를 가질 수 있거나 또는 상이한 DFT 빈 해상도를 가질 수 있다. 예를 들어, 인코더에서의 제 1 윈도우는 25ms 길이로 40 Hz DFT 빈 (주파수) 해상도가 될 수 있으며, 디코더에서의 제 2 윈도우는 20ms 길이로 50 Hz DFT 빈 (주파수) 해상도가 될 수 있다. 윈도우는 중첩 부분, 평탄 부분 및 제로 패딩 부분을 포함할 수 있다.

개시된 양태들 중 적어도 하나에 의해 제공되는 하나의 특별한 이점은 코딩 지연이 감소될 수 있다는 것이다. 또한, 코더의 계산 복잡성이 상당히 감소될 수 있다. 예를 들어, 제 1 윈도우와 제 2 윈도우가 매칭되지 않게 함으로써 (예를 들어, 디코더에서의 제 2 윈도우의 제로 패딩 부분 또는 중첩 부분이 인코더에서의 제 1 윈도우의 제로 패딩 부분 또는 중첩 부분보다 작을 수 있게 함으로써), 지연은 인코더 및 디코더 모두가 (큰 중첩 부분 또는 제로 패딩 부분을 갖는) 동일한 제 1 윈도우를 사용하고 샘플들의 동일한 시간-범위에 상응하는 샘플들에 적용되는 시스템과 비교하여 감소될 수 있다.

도 1 을 참조하면, 시스템 (100) 의 특정 예시의 예가 개시된다. 시스템 (100) 은 네트워크 (120) 를 통해 제 2 디바이스 (106) 에 통신 가능하게 커플링된 제 1 디바이스 (104) 를 포함한다. 네트워크 (120) 는 하나 이상의 무선 네트워크들, 하나 이상의 유선 네트워크들, 또는 이들의 조합을 포함할 수도 있다.

제 1 디바이스 (104) 는 인코더 (114), 송신기 (110), 하나 이상의 입력 인터페이스들 (112), 또는 이들의 조합을 포함할 수도 있다. 입력 인터페이스(들) (112) 의 제 1 입력 인터페이스는 제 1 마이크로폰 (146) 에 커플링될 수도 있다. 입력 인터페이스(들) (112) 의 제 2 입력 인터페이스는 제 2 마이크로폰 (148) 에 커플링될 수도 있다. 인코더 (114) 는 본원에 설명된 바와 같이, 샘플 생성기 (108) 및 변환 디바이스 (109) 를 포함할 수도 있고 다수의 오디오 신호들을 인코딩하도록 구성될 수도 있다.

제 1 디바이스 (104) 는 또한 제 1 윈도우 파라미터들 (152) 을 저장하도록 구성된 메모리 (153) 를 포함할 수도 있다. 제 1 윈도우 파라미터들 (152) 은 샘플 생성기 (108) 에 의해 제 1 오디오 신호 (130) 또는 제 2 오디오 신호 (132) 와 같은 오디오 신호의 적어도 일부분에 적용될 제 1 윈도우 또는 제 1 윈도잉 방식을 정의할 수 있다. 예를 들어, 샘플 생성기 (108) 는 변환 디바이스 (109) 에 제공되는 윈도잉된 샘플들 (111) 을 생성하기 위해 오디오 신호의 적어도 일 부분에 (제 1 윈도우 파라미터들 (152) 에 기초한) 제 1 윈도우를 적용할 수 있다. 변환 디바이스 (109) 는 윈도잉된 샘플들에 대해 변환 동작 (예를 들어, DFT 동작) 또는 역 변환 동작 (예를 들어, IDFT 동작) 과 같은 변환 동작을 수행하도록 구성될 수 있다.

윈도잉 방식 (190) 의 예는 제 1 윈도우 (n-1) (192), 제 2 윈도우 (n) (191), 및 제 3 윈도우 (n+1) (193) 와 같은 다수의 윈도우들을 포함하며, 여기서 n은 정수이다. 윈도잉 방식 (190) 이 3 개의 윈도우를 갖는 것으로 설명되었지만, 다른 구현예들에서, 윈도잉 방식은 3 개보다 많거나 적은 윈도우를 포함할 수 있다.

제 2 윈도우 (n) (191) 와 관련하여, 제 2 윈도우 (n) (191) 는 제로 패딩 부분 (194, 196), 윈도우 센터 (195), 및 평탄 부분 (198) 을 포함한다. 제로 패딩 부분 (194, 196) 은 예를 들어 제 2 윈도우 (n) (191) 의 전체 길이 (예를 들어, 기간) 을 제어하기 위해 제 2 윈도우 (n) (191) 에 포함될 수 있다. 평탄 부분 (198) 은 예를 들어 1의 스케일링 인자에 대응할 수 있다. 제 2 윈도우 (n) (191) 는 또한 대표적인 중첩 부분 (199) 과 같은 다수의 중첩 부분들을 포함할 수 있다. 홉 크기 (197) 는 제 1 윈도우 (n-1) (192) 에 대한 제 2 윈도우 (n) (191) 의 오프셋을 나타낼 수 있다. 윈도잉 방식 (190) 의 임의의 2 개의 연속적인 윈도우들 사이의 홉 크기는 동일할 수 있다.

제 2 디바이스 (106) 는 디코더 (118), 메모리 (175), 수신기 (178), 하나 이상의 출력 인터페이스들 (177), 또는 이들의 조합을 포함할 수 있다. 제 2 디바이스 (106) 의 수신기 (178) 는 인코딩된 오디오 신호 (예를 들어, 하나 이상의 비트 스트림들), 하나 이상의 파라미터들, 또는 양자를 제 1 디바이스(104) 로부터 네트워크 (120) 를 통해 수신할 수 있다. 디코더 (118) 는 샘플 생성기 (172) 및 변환 디바이스 (174) 를 포함할 수도 있고 다수의 채널들을 렌더링하도록 구성될 수도 있다. 제 2 디바이스 (106) 는 제 1 라우드스피커 (142), 제 2 라우드스피커 (144), 또는 양자에 커플링될 수 있다.

메모리 (175) 는 제 2 윈도우 파라미터들 (176) 을 저장하도록 구성될 수 있다. 제 2 윈도우 파라미터들 (176) 은 샘플 생성기 (172) 에 의해 인코딩된 오디오 신호 (예를 들어, 사이드 비트스트림 (164), 미드 비트스트림 (166), 또는 양자) 와 같은 오디오 신호의 적어도 일 부분에 적용될 제 2 윈도우 또는 제 2 윈도잉 방식을 정의할 수 있다. 예를 들어, 샘플 생성기 (172) 는 변환 디바이스 (174) 에 제공되는 윈도잉된 샘플들을 생성하기 위해 인코딩된 오디오 신호의 적어도 일 부분에 (제 2 윈도우 파라미터들 (176) 에 기초한) 제 2 윈도우를 적용할 수 있다. 변환 디바이스 (174) 는 윈도잉된 샘플들에 대해 변환 동작 (예를 들어, DFT 동작) 또는 역 변환 동작 (예를 들어, IDFT 동작) 과 같은 변환 동작을 수행하도록 구성될 수 있다.

인코더 (114) 에 의해 사용되는 (제 1 디바이스 (104) 의) 제 1 윈도우 파라미터들 (152) 및 디코더 (118) 에 의해 사용되는 (제 2 디바이스 (106) 의) 제 2 윈도우 파라미터들 (176) 이 매칭되지 않을 수도 있다. 예를 들어, (제 1 윈도우 파라미터들 (152) 에 의해 정의된) 제 1 윈도우는, 예시적이고 비제한적인 예로서, (예를 들어, 룩 헤드 양에 기초한) 윈도우의 중첩 부분 크기, 제로 패딩의 양, 윈도우의 홉 크기, 윈도우의 중심, 윈도우의 평평한 부분의 크기, 윈도우의 형상, 또는 이들의 조합 측면에서 (제 2 윈도우 파라미터들 (176) 에 의해 정의된) 제 2 윈도우와 다를 수 있다. 일부 구현예에서, (예를 들어, 멀티채널 또는 스테레오 다운믹스 프로세싱에서) 인코더 (114) 에서의 제 1 윈도우는 제 1 윈도잉된 샘플들을 생성하도록 구성되고 (예를 들어, 멀티채널 또는 스테레오 업믹스 프로세싱에서) 디코더 (118) 에서의 제 2 윈도우는 제 2 윈도잉된 샘플들을 생성하도록 구성된다. 일부 구현예들에서, 제 1 윈도우는 제 1 윈도잉된 샘플들을 생성하기 위해 인코더 (114) 에 의해 사용되고 제 2 윈도우는 제 2 윈도잉된 샘플들을 생성하기 위해 디코더 (118) 에 의해 사용된다. 제 1 윈도잉된 샘플들 및 제 2 윈도잉된 샘플들은 동일한 DFT 빈 (또는 주파수) 해상도를 가질 수 있거나 또는 상이한 DFT 빈 해상도들을 가질 수 있다.

동작 동안, 제 1 디바이스 (104) 는 제 1 마이크로폰 (146) 으로부터 제 1 입력 인터페이스를 통해 제 1 오디오 신호 (130) 를 수신할 수도 있고 제 2 마이크로폰 (148) 으로부터 제 2 입력 인터페이스를 통해 제 2 오디오 신호 (132) 를 수신할 수도 있다. 제 1 오디오 신호 (130) 는 우측 채널 신호 또는 좌측 채널 신호 중 하나에 대응할 수도 있다. 제 2 오디오 신호 (132) 는 우측 채널 신호 또는 좌측 채널 신호 중 다른 하나에 대응할 수도 있다. 일부 구현예들에서, 사운드 소스 (152)(예를 들어, 사용자, 스피커, 주변 잡음, 악기 등) 는 제 2 마이크로폰 (148) 보다 제 1 마이크로폰 (146) 에 더 가까울 수 있다. 이에 따라서, 사운드 소스 (152) 로부터의 오디오 신호는 제 2 마이크로폰 (148) 을 통한 것보다 더 이른 시간에 제 1 마이크로폰 (146) 을 통해 입력 인터페이스(들)(112) 에서 수신될 수도 있다. 다수의 마이크로폰들을 통한 멀티-채널 신호 포착에서 이 자연스러운 지연은 제 1 오디오 신호 (130) 와 제 2 오디오 신호 (132) 간의 시간적 시프트를 도입할 수도 있다. 일부 구현예에서, 인코더 (114) 는 제 1 오디오 신호 (130) 또는 제 2 오디오 신호 (132) 중 적어도 하나를 조정 (예를 들어, 시프트) 하여 제 1 오디오 신호 (130) 및 제 2 오디오 신호 (132) 를 시간상으로 수신하도록 구성될 수 있다. 예를 들어, 인코더 (118) 는 (제 2 오디오 신호 (132) 의) 제 2 프레임에 대하여 (제 1 오디오 신호 (130) 의) 제 1 프레임을 시프트할 수 있다.

샘플 생성기 (108) 는 변환 디바이스 (109) 에 제공되는 윈도잉된 샘플들 (111) 을 생성하기 위해 오디오 신호의 적어도 일 부분에 (제 1 윈도우 파라미터들 (152) 에 기초한) 제 1 윈도우를 적용할 수 있다. 윈도잉된 샘플들 (111) 은 시간 도메인에서 생성될 수 있다. 변환 디바이스 (109) (예를 들면, 주파수 도메인의 스테레오 코더) 는 윈도잉된 샘플들과 같은 하나 이상의 시간 도메인 신호들 (예를 들어, 제 1 오디오 신호 (130) 및 제 2 오디오 신호 (132)) 을 주파수 도메인의 신호들로 변환할 수 있다. 주파수 도메인 신호들은 스테레오 큐들 (162) 을 추정하기 위해 사용될 수도 있다. 스테레오 큐들 (162) 은 좌측 채널들 및 우측 채널들과 연관된 공간 특성들의 렌더링을 가능케 하는 파라미터들을 포함할 수도 있다. 일부 구현들에 따르면, 스테레오 큐들 (162) 은 채널간 강도 차이 (IID) 파라미터들 (예를 들어, 예시적인 비제한적인 예들로서, 채널간 레벨 차이들 (ILD들)), 채널간 시간 차이 (ITD) 파라미터들, 채널간 위상 차이 (IPD) 파라미터들, 채널간 상관 (ICC) 파라미터들, 스테레오 충전 파라미터들, 비-인과 시프트 파라미터들, 스펙트럼 틸트 파라미터들, 채널간 성음화 파라미터들, 채널간 피치 파라미터들, 채널간 이득 파라미터들 등) 과 같은 파라미터들을 포함할 수도 있다. 스테레오 큐들 (162) 은 스테레오 다운믹스 프로세싱 동안 주파수 도메인 스테레오 코더 (109) 에서 사용될 수 있다. 스테레오 큐들 (162) 은 또한 인코딩된 신호의 부분으로서 송신될 수도 있다. 스테레오 큐들 (162) 의 추정 및 이용은 도 2 와 관련하여 더 상세히 설명된다.

인코더 (114) 는 또한, 주파수 도메인 신호들에 적어도 부분적으로 기초하여 사이드 비트스트림 (164) 및 미드 비트스트림 (166) 을 생성할 수도 있다. 예시의 목적으로, 달리 노트되지 않으면, 제 1 오디오 신호 (130) 는 좌측 채널 신호 (l 또는 L) 이고 제 2 신호 (132) 는 우측 채널 신호 (r 또는 R) 임이 가정된다. 제 1 오디오 신호 (130) 의 주파수 도메인 표현은 L_fr(b) 로서 노트될 수도 있고, 제 2 오디오 신호 (132) 의 주파수 도메인 표현은 R_fr(b) 로서 노트될 수도 있으며, 여기서 b 는 주파수-빈의 주파수 대역을 표현한다. 일 구현예에 따르면, 사이드 신호 (S_fr(b)) 는 제 1 오디오 신호 (130) 및 제 2 오디오 신호 (132) 의 주파수 도메인 표현들로부터의 주파수 도메인에서 생성될 수도 있다. 예를 들어, 사이드 신호 (S_fr(b)) 는 (L_fr(b)-R_fr(b))/2 로서 표현될 수도 있다. 사이드 신호 (S_fr(b)) 는 사이드 비트스트림 (164) 을 생성하기 위해 "사이드 또는 잔차" 인코더에 제공될 수도 있다. 일 구현예에 따르면, 미드 신호 (M_fr(b)) 는 제 1 오디오 신호 (130) 및 제 2 오디오 신호 (132) 의 주파수 도메인 표현들로부터의 주파수 도메인에서 생성될 수도 있다. 일 구현예에 따르면, 미드 신호 (M_fr(b)) 는 주파수 도메인에서 생성될 수 있고 주파수 도메인으로 미드 신호 (m(t)) 로 변환될 수도 있다. 다른 구현예에 따르면, 미드 신호 (m(t)) 는 시간 도메인에서 생성될 수 있고 주파수 도메인으로 변환될 수도 있다. 예를 들어, 미드 신호 (m(t)) 는 (l(t)+r(t))/2로 표현될 수 있다. 미드 신호 및 사이드 신호를 생성하는 것은 도 2 와 관련하여 더 상세히 설명된다. 시간 도메인/주파수 도메인 미드 신호들은 미드 비트스트림 (166) 을 생성하기 위해 미드 신호 인코더에 제공될 수도 있다.

사이드 신호 (S_fr(b)) 및 미드 신호 (m(t) 또는 M_fr(b)) 은 다수의 기법들을 사용하여 인코딩될 수도 있다. 일 구현예에 따르면, 시간 도메인 미드 신호 (m(t)) 는, 상위 대역 코딩을 위한 대역폭 확장으로, 대수 코드 여기 선형 예측 (ACELP) 과 같은 시간 도메인 기법을 사용하여 인코딩될 수도 있다.

사이드 코딩의 일 구현예는 대역 (b) 에 대응하는 스테레오 큐들 (162) (예를 들어, ILD들) 및 주파수 미드 신호 (M_fr(b)) 에서의 정보를 이용하여 주파수 도메인 미드 신호 (M_fr(b)) 로부터 사이드 신호 (S_PRED(b)) 를 예측하는 것을 포함한다. 예를 들어, 예측된 사이드 신호 (S_PRED(b)) 는 M_fr(b)*(ILD(b)-1)/(ILD(b)+1) 로서 표현될 수도 있다. 대역 (b) 에서 에러 신호 (또는 잔차 신호) (e(b)) 는 사이드 신호 (S_fr(b)) 및 예측된 사이드 신호 (S_PRED(b)) 의 함수로서 계산될 수도 있다. 예를 들어, 에러 신호 (e(b)) 는 S_fr(b)-S_PRED(b) 로서 표현될 수도 있다. 에러 신호 (e(b)) 는 코딩된 에러 신호 (e_CODED(b)) 를 생성하기 위해 변환 도메인 코딩을 이용하여 코딩될 수도 있다. 상위 대역들에 대해, 에러 신호 (e(b)) 는 이전 프레임으로부터의 대역 (b) 에서의 미드 신호 (M_PAST_fr(b)) 의 스케일링된 버전으로서 표현될 수도 있다. 예를 들어, 코딩된 에러 신호 (e_CODED(b)) 는 g_PRED(b)*M_PAST_fr(b) 로서 표현될 수도 있으며, 여기서 일부 구현예들에서 g_PRED(b) 는 e(b)-g_PRED(b)* M_PAST_fr(b) 의 에너지가 실질적으로 감소 (예를 들어, 최소화) 되도록 추정될 수도 있다. g_PRED(b) 값들은 대안으로 스테레오 충전 이득들로 지칭될 수도 있다.

송신기 (110) 는 스테레오 큐들 (162), 사이드 비트스트림 (164), 미드 비트스트림 (166), 또는 이들의 조합을 네트워크 (120) 를 통해 제 2 디바이스 (106) 로 송신할 수도 있다. 대안적으로 또는 추가적으로, 송신기 (110) 는 스테레오 큐들 (162), 사이드 비트스트림 (164), 미드 비트스트림 (166), 또는 이들의 조합을, 나중의 추가 프로세싱 또는 디코딩을 위해 네트워크 (120) 의 디바이스 또는 로컬 디바이스에 저장할 수도 있다.

디코더 (118) 는 스테레오 큐들 (162), 사이드 비트스트림 (164), 및 미드 비트스트림 (166) 에 기초한 디코딩 동작들을 수행할 수도 있다. 샘플 생성기 (172) 는 변환 디바이스 (174) 에 제공되는 윈도잉된 샘플들을 생성하기 위해 (예를 들어, 사이드 비트스트림 (164), 미드 비트스트림 (166), 또는 양자에 기초한) 수신된 인코딩된 (예를 들어, 합성된 미드 신호 또는 사이드 신호) 신호의 적어도 일 부분에 (제 2 윈도우 파라미터들 (176) 에 기초한) 제 2 윈도우를 적용할 수 있다. 윈도잉된 샘플들은 시간 도메인에서 생성될 수 있다. 변환 디바이스 (174) (예를 들면, 주파수 도메인의 스테레오 코더) 는 윈도잉된 샘플들과 같은 하나 이상의 시간 도메인 신호들 (예를 들어, 사이드 비트스트림 (164), 미드 비트스트림 (166), 또는 양자) 을 주파수 도메인의 신호들로 변환할 수 있다. 스테레오 큐들 (162) 은 주파수 도메인 신호들에 적용될 수 있다.

스테레오 큐들 (162) 을 적용함으로써, 디코더 (118) 는 스테레오 업믹스 프로세스를 수행하고 제 1 출력 신호 (126) (예를 들어, 제 1 오디오 신호 (130) 에 대응), 제 2 출력 신호 (128) (예를 들어, 제 2 오디오 신호 (132) 에 대응), 또는 이들 양자를 생성할 수도 있다. 제 2 디바이스 (106) 는 제 1 라우드스피커 (142) 를 통해 제 1 출력 신호 (126) 를 출력할 수도 있다. 제 2 디바이스 (106) 는 제 2 라우드스피커 (144) 를 통해 제 2 출력 신호 (128) 를 출력할 수도 있다. 대안적인 예들에 있어서, 제 1 출력 신호 (126) 및 제 2 출력 신호 (128) 는 스테레오 신호 쌍으로서 단일의 출력 라우드스피커에 송신될 수도 있다.

제 1 디바이스 (104) 및 제 2 디바이스 (106) 가 별도의 디바이스들로 설명되었지만, 다른 구현예들에서, 제 1 디바이스 (104) 는 제 2 디바이스 (106) 와 관련하여 기재된 하나 이상의 컴포넌트들을 포함할 수 있다. 추가하여 또는 대안으로, 제 2 디바이스 (106) 는 제 1 디바이스 (104) 와 관련하여 기재된 하나 이상의 컴포넌트들을 포함할 수 있다. 예를 들어, 단일 디바이스는 인코더 (114), 디코더 (118), 송신기 (110), 수신기 (178), 하나 이상의 입력 인터페이스들 (112), 하나 이상의 출력 인터페이스들 (177), 및 메모리를 포함할 수 있다. 단일 디바이스의 메모리는 인코더 (114) 에 의해 적용되는 제 1 윈도우를 정의하는 제 1 윈도우 파라미터 (152) 및 디코더 (176) 에 의해 적용되는 제 2 윈도우를 정의하는 제 2 윈도우 파라미터 (176) 를 포함할 수 있다.

특정 구현예에서, 제 2 디바이스 (106) 는 복수의 윈도우들 사이의 중첩 부분들의 제 1 길이를 갖는 복수의 윈도우들 (예를 들어, 특정 윈도잉 방식) 에 기초하여, 인코더 (162) 에 의해 인코딩된 스테레오 파라미터들 (예를 들어, 스테레오 큐들 (162)) 을 수신하도록 구성된 수신기 (178) 를 포함한다. 수신기 (178) 는 또한 도 2를 참조하여 설명된 스테레오 파라미터들 (예를 들어, 스테레오 큐들 (162)) 을 사용하는 다운믹스 동작에 기초하여 인코더 (114) 에 의해 생성된 미드 비트스트림 (166) 과 같은 미드 신호를 수신하도록 구성될 수 있다.

제 2 디바이스 (106) 는 도 3을 참조하여 더 설명되는 바와 같이, 제 1 출력 신호 (126) 및 제 2 출력 신호 (128) 와 같은 적어도 2 개의 오디오 신호들을 생성하기 위해 스테레오 파라미터들을 사용하여, 업믹스 동작을 수행하도록 구성된 디코더 (118) 를 더 포함한다. 제 2 복수의 윈도우들은 복수의 윈도우들에 대응하는 윈도우 중첩보다 작은 디코딩 지연을 생성하도록 구성된다. 다른 말로, 디코더에서의 제 2 복수의 윈도우들의 인터-프레임 중첩은 대응하는 인코더에서의 복수의 윈도우들보다 작다. 적어도 2 개의 오디오 신호들은 제 2 복수의 윈도우들 사이의 중첩 부분들의 제 2 길이를 갖는 제 2 복수의 윈도우들에 기초하여 생성된다. 제 2 길이는 제 1 길이와 다르다. 예를 들어, 제 2 길이는 제 1 길이보다 작다. 일부 구현예들에서, 업믹스 동작은 스테레오 파라미터들 및 미드 신호를 사용하여 수행된다. 일부 구현예들에서, 수신기는 스테레오 파라미터들을 포함하는 오디오 신호를 수신하도록 구성되고, 디코더 (118) 는 윈도잉된 시간 도메인 오디오 디코딩 신호를 생성하기 위해 오디오 신호의 디코딩 동안 제 2 복수의 윈도우들을 적용하도록 구성된다.

일부 구현예들에서, 인코더 (114) 에 의해 사용되는 복수의 윈도우들의 각 윈도우의 전체 길이는 디코더 (118) 에 의해 사용되는 제 2 복수의 윈도우들의 각 윈도우의 전체 길이와 다르다. 추가적으로 또는 대안적으로, 인코더 (114) 에서의 변환 도메인의 각 주파수 빈과 연관된 제 1 주파수 폭은 디코더 (118) 에서의 변환 도메인의 각 주파수 빈과 연관된 제 2 주파수 폭과 다르다.

일부 구현예들에서, 복수의 윈도우들은 제 1 홉 길이와 연관되고 제 2 복수의 윈도우들은 제 2 홉 길이와 연관된다. 제 1 홉 길이는 제 2 홉 길이와 다르다. 추가적으로 또는 대안적으로, 복수의 윈도우들은 오디오 데이터의 각 프레임당 제 2 복수의 윈도우들과 다른 수의 윈도우들을 포함할 수 있다. 일부 구현예들에서, 복수의 윈도우들의 제 1 윈도우 및 제 2 복수의 윈도우들의 제 2 윈도우는 동일한 크기이다. 특정 구현예에서, 복수의 윈도우들의 각 윈도우는 대칭이고 제 2 복수의 윈도우들의 제 1 특정 윈도우는 (예를 들어, 개별적으로 또는 제 2 복수의 윈도우들의 제 2 특정 윈도우에 대해) 비대칭이다.

일부 구현예들에서, 제 2 복수의 윈도우들의 윈도우 중첩은 비대칭이다. 추가적으로 또는 대안적으로, 제 2 복수의 윈도우들 중 한 쌍의 연속적인 윈도우들의 제 1 윈도우는 비대칭이다. 제 1 윈도우 및 제 2 윈도우의 제 1 중첩 부분의 제 3 길이는 연속 윈도우들의 제 2 쌍의 제 3 윈도우 및 제 2 윈도우의 제 2 중첩 부분의 제 4 길이와 다르다. 다른 구현예들에서, 제 2 복수의 윈도우들의 한 쌍의 연속적인 윈도우들의 두 윈도우들은 대칭적이다.

일부 구현예들에서, 제 2 디바이스 (106) 는 윈도잉된 시간 도메인 오디오 인코딩 신호를 생성하기 위해 제 2 오디오 신호의 인코딩동안 복수의 윈도우들을 적용하도록 구성되는 인코더를 포함한다. 제 2 디바이스 (106) 는 윈도잉된 시간 도메인 오디오 인코딩 신호에 기초하여 생성된 출력 비트 스트림 (예를 들어, 출력 오디오 신호) 을 송신하도록 구성된 송신기를 더 포함할 수 있다.

따라서 시스템 (100) 은 코딩 지연을 감소시킬 수 있다. 예를 들어, (인코더 (114) 에 의해 적용된) 제 1 윈도우 및 (디코더 (118) 에 의해 적용된) 제 2 윈도우가 매칭되지 않게 함으로써 (예를 들어, 디코더의 제 2 윈도우의 중첩 부분이 인코더의 제 1 윈도우의 중첩 부분보다 작을 수 있게 함으로써), 지연은 인코더 및 디코더가 윈도우 매칭을 정확하게 변환하고 샘플들의 동일한 시간-범위에 상응하는 샘플들에 적용되는 시스템과 비교하여 감소될 수 있다.

도 2 를 참조하면, 인코더 (114) 의 특정 구현을 예시한 다이어그램이 도시된다. 제 1 신호 (290) 및 제 2 신호 (292) 는 좌측 채널 신호 및 우측 채널 신호에 대응할 수 있다. 일부 구현예들에서, 좌측 채널 신호 또는 우측 채널 신호 ("타겟" 신호) 중 하나는 좌측 채널 신호 또는 우측 채널 신호 ("기준" 신호) 중 다른 하나에 대해 시간-시프트되어 코딩 효율을 높일 수 있다 (예를 들어, 사이드 신호 에너지를 줄일 수 있다). 일부 예들에서, 제 1 신호 또는 레퍼런스 신호 (290) 는 윈도잉된 좌측 채널 신호를 포함할 수 있고, 그리고 제 2 신호 또는 타겟 신호 (292) 는 윈도잉된 우측 채널 신호를 포함할 수 있다. 윈도우는 제 1 윈도우 파라미터들 (152) 에 기초할 수 있다. 하지만, 다른 예들에 있어서, 레퍼런스 신호 (290) 는 윈도잉된 우측 채널 신호를 포함할 수도 있고, 타겟 신호 (292) 는 윈도잉된 좌측 채널 신호를 포함할 수도 있음이 이해되어야 한다. 다른 구현예들에 있어서, 레퍼런스 채널 (290) 은 프레임 단위 기반으로 선택되는 좌측 또는 우측 윈도잉된 채널 중 어느 하나일 수도 있고, 유사하게 타겟 신호 (292) 는 좌측 또는 우측 윈도잉된 채널들 중 다른 하나일 수도 있다. 하기 설명들의 목적을 위해, 레퍼런스 신호 (290) 가 윈도잉된 좌측 채널 신호 (L) 를 포함하고 타겟 채널 (292) 이 윈도잉된 우측 채널 신호 (R) 를 포함하는 특정 경우의 예를 제공한다. 다른 경우들에 대한 유사한 설명들이 통상적으로 확장될 수 있다. 도 2 에 예시된 다양한 컴포넌트들 (예를 들어, 변환들, 신호 생성기들, 인코더들, 추정기들 등) 은 하드웨어 (예를 들어, 전용 회로부), 소프트웨어 (예를 들어, 프로세서에 의해 실행된 명령들), 또는 이들의 조합을 사용하여 구현될 수도 있음이 또한 이해되어야 한다.

변환 (202) 은 레퍼런스 신호 (290) (또는 좌측 채널) 에 대해 수행될 수도 있고, 변환 (204) 은 타겟 채널 (292) (또는 우측 채널) 에 대해 수행될 수도 있다. 변환들 (202, 204) 은, 주파수 도메인 (또는 서브대역 도메인 또는 필터링된 저대역 코어 및 고대역 대역폭 확장) 신호들을 생성하는 변환 동작들에 의해 수행될 수도 있다. 비한정적인 예들로서, 변환들 (202, 204) 을 수행하는 것은 이산 푸리에 변환 (DFT) 동작들, 고속 푸리에 변환 (FFT) 동작들, 변경된 이산 코사인 변환 (MDCT) 등을 윈도잉된 좌측 채널 (290) 및 윈도잉된 우측 채널 (292) 에 대해 수행하는 것을 포함할 수도 있다. 일부 다른 구현들에서, 제 1 윈도우 파라미터들 (152) 에 기초한 윈도잉은 변환 디바이스 (109) 의 일부일 수 있고 변환 (202, 204) 의 일부일 수 있다. 일부 구현예들에 따르면, (복합 저지연 필터 뱅크와 같은 필터뱅크들을 이용하는) 쿼드러처 미러 필터뱅크 (QMF) 동작들은 입력 신호들 (예를 들어, 레퍼런스 신호 (290) 및 타겟 신호 (292)) 을 다중의 서브대역들로 분할하기 위해 사용될 수도 있고, 서브대역들은 다른 주파수 도메인 변환 동작을 사용하는 주파수 도메인으로 변환될 수도 있다. 변환 (202) 은 주파수 도메인 레퍼런스 신호 (L_fr(b)) (230) 를 생성하기 위해 레퍼런스 채널 (290) 에 적용될 수도 있고, 변환 (204) 은 주파수 도메인 타겟 신호 (R_fr(b)) (232) 를 생성하기 위해 타겟 채널 (292) 에 적용될 수도 있다. 변환 (202, 204) 동작은 제 1 윈도우 파라미터들 (152) 에 기초한 윈도잉 동작을 포함할 수 있다. 주파수 도메인 레퍼런스 신호 (230) 및 주파수 도메인 타겟 신호 (232) 는 스테레오 큐 추정기 (206) 및 사이드 신호 생성기 (208) 에 제공될 수도 있다.

스테레오 큐 추정기 (206) 는 주파수 도메인 레퍼런스 신호 (230) 및 주파수 도메인 타겟 신호 (232) 에 기초하여 스테레오 큐들 (162) 을 추출 (예를 들어, 생성) 할 수도 있다. 예시하기 위하여, IID(b) 는 대역 (b) 에서의 좌측 채널들의 에너지들 (E_L(b)) 및 대역 (b) 에서의 우측 채널들의 에너지들 (E_R(b)) 의 함수일 수도 있다. 예를 들어, IID(b) 는 20*log₁₀(E_L(b)/E_R(b)) 로서 표현될 수도 있다. 인코더에서 추정 및 송신된 IPD들은 대역 (b) 에서의 좌측 채널과 우측 채널 간의 주파수 도메인에서의 위상 차이의 추정치를 제공할 수도 있다. 스테레오 큐들 (162) 은 ICC들, ITD들 등과 같은 추가의 (또는 대안적인) 파라미터들을 포함할 수도 있다. 스테레오 큐들 (162) 은 도 1 의 제 2 디바이스 (106) 에 송신되고, 사이드 신호 생성기 (208) 에 제공되고, 사이드 신호 인코더 (210) 에 제공될 수도 있다. 일부 구현예들에서, 스테레오 파라미터들 중 적어도 하나의 파라미터는 보간된 인터-프레임이며, 적어도 하나의 보간된 파라미터 또는 (스테레오 파라미터의) 적어도 하나의 비보간된 값은 도 1의 디코더 (118) 와 같은 디코더에 전송되어 디코더에 의해 사용된다. 예를 들어, 보간은 인코더에서 수행될 수 있고, 적어도 하나의 보간된 파라미터는 디코더에 전송될 수 있다. 대안적으로, 스테레오 파라미터들은 인코더로부터 디코더로 전송되고 디코더는 인터-프레임 보간을 수행하여 적어도 하나의 보간된 파라미터를 생성한다.

사이드 신호 생성기 (208) 는 주파수 도메인 레퍼런스 신호 (230) 및 주파수 도메인 타겟 신호 (232) 에 기초하여 주파수 도메인 사이드 신호 (S_fr(b)) (234) 를 생성할 수도 있다. 주파수 도메인 사이드 신호 (234) 는 주파수 도메인 빈들/대역들에서 추정될 수도 있다. 각각의 대역에 있어서, 이득 파라미터 (g) 는 상이하고, 채널간 레벨 차이들에 기초 (예를 들어, 스테레오 큐들 (162) 에 기초) 할 수도 있다. 예를 들어, 주파수 도메인 사이드 신호 (234) 는 (L_fr(b)-c(b)*R_fr(b))/(1+c(b)) 로서 표현될 수도 있고, 여기서 c(b) 는 ILD(b) 이거나 또는 ILD(b) 의 함수일 수도 있다 (예를 들어, c(b) = 10^(ILD(b)/20)). 주파수 도메인 사이드 신호 (234) 는 역 변환 (250) 에 제공될 수도 있다. 예를 들어, 주파수 도메인의 사이드 신호 (234) 는 시간 도메인 사이드 신호 (S(t)) (235) 를 생성하기 위해 시간 도메인으로 역 변환되거나, 또는 코딩을 위해 MDCT 도메인으로 변환될 수도 있다. 시간 도메인 사이드 신호 (235) 는 사이드 신호 인코더 (210) 에 제공될 수도 있다.

주파수 도메인 레퍼런스 신호 (230) 및 주파수 도메인 타겟 신호 (232) 는 미드 신호 생성기 (212) 에 제공될 수도 있다. 일부 구현예들에 따르면, 스테레오 큐들 (162) 은 또한 미드 신호 생성기 (212) 에 제공될 수도 있다. 사이드 신호 생성기 (212) 는 주파수 도메인 레퍼런스 신호 (230) 및 주파수 도메인 타겟 신호 (232) 에 기초하여 주파수 도메인 미드 신호 (M_fr(b)) (238) 를 생성할 수도 있다. 일부 구현예들에 따르면, 주파수 도메인 미드 신호 (M_fr(b)) (238) 은 스테레오 큐들 (162) 에 또한 기초하여 생성될 수도 있다. 주파수 도메인 레퍼런스 채널 (230), 타겟 채널 (232) 및 스테레오 큐들 (162) 에 기초한 미드 신호 (238) 의 생성의 일부 방법들은 다음과 같다.

M_fr(b) = (L_fr(b) + R_fr(b))/2

M_fr(b) = c₁(b)*L_fr(b) + c₂*R_fr(b), 여기서, c₁(b) 및 c₂(b) 는 복소 값들임.

일부 구현예들에 있어서, 복수 값들 (c₁(b) 및 c₂(b)) 은 스테레오 큐들 (162) 에 기초한다. 예를 들어, IPD들이 추정되는 미드 사이드 다운믹스의 일 구현예에 있어서, c₁(b) = (cos(-γ)-i*sin(-γ))/2^0.5 이고 c₂(b) = (cos(IPD(b)-γ)+i*sin(IPD(b)-γ))/2^0.5 이며, 여기서 i 는 -1 의 제곱근을 나타내는 허수이다.

주파수 도메인 미드 신호 (238) 는 역 변환 (252) 에 제공될 수도 있다. 예를 들어, 주파수 도메인 미드 신호 (238) 는 시간 도메인 미드 신호 (236) 를 생성하기 위해 시간 도메인으로 역 변환되거나, 또는 코딩을 위해 MDCT 도메인으로 변환될 수도 있다. 역 변환 (252) 이후에, 미드 신호는 윈도잉될 수 있고 이전의 프레임의 윈도잉된 미드 신호 중첩 부분과 중첩 추가될 수 있다. 이 윈도우는 변환 (202, 204) 에서 사용된 윈도우와 유사하거나 상이할 수 있다. 시간 도메인 미드 신호 (236) 는 미드 신호 인코더 (216) 에 제공될 수 있고, 주파수 도메인 미드 신호 (238) 는 효율적인 사이드 대역 신호 인코딩을 위해 사이드 신호 인코더 (210) 에 제공될 수 있다.

사이드 신호 인코더 (210) 는 스테레오 큐들 (162) 에 기초한 사이드 비트스트림 (164), 시간 도메인 사이드 신호 (235), 및 주파수 도메인 미드 신호 (238) 를 생성할 수 있다. 미드 신호 인코더 (216) 는 시간 도메인 미드 신호 (236) 에 기초하여 미드 비트스트림 (166) 을 생성할 수도 있다. 예를 들어, 미드 신호 인코더 (216) 는 미드 비트스트림 (166) 을 생성하기 위해 시간 도메인 미드 신호 (236) 를 인코딩할 수 있다.

변환들 (202 및 204) 은 도 1 의 제 1 윈도우 파라미터들 (152) 과 연관된 분석 윈도잉 방식을 적용하도록 구성될 수 있다. 예를 들어, 스테레오 큐 파라미터 (162) 는 도 1의 윈도잉된 샘플들 (111) 에 기초하여 계산된 파라미터 값들을 포함할 수 있다. 추가하여, 역 변환 (250, 252) 은 중첩하는 윈도잉된 시간 도메인 신호들로 주파수 도메인 신호들을 리턴하기 위해 역 변환들과 이어서 (도 1 의 제 1 윈도우 파라미터들 (152) 과 연관되는 윈도잉 방식으로 사용하여 생성된) 합성 윈도잉을 수행하도록 구성될 수 있다.

일부 구현예들에서, 스테레오 큐 추정기 (206), 사이드 신호 생성기 (208), 및 미드 신호 생성기 (212) 중 하나 이상이 다운믹서에 포함될 수 있다. 추가적으로 또는 대안적으로, 인코더 (114) 가 사이드 신호 인코더 (210) 를 포함하는 것으로 기재되어 있지만, 다른 구현예들에서 인코더 (114) 는 사이드 신호 인코더 (210) 를 포함하지 않을 수도 있다.

도 3 을 참조하면, 디코더 (118) 의 특정 구현을 예시한 다이어그램이 도시된다. 인코딩된 오디오 신호는 디코더 (118) 의 디멀티플렉서 (DEMUX) (302) 에 제공된다. 인코딩된 오디오 신호는 스테레오 큐들 (162), 사이드 비트스트림 (164), 및 미드 비트스트림 (166) 을 포함할 수도 있다. 디멀티플렉서 (302) 는 인코딩된 오디오 신호로부터 미드 비트스트림 (166) 을 추출하고 미드 비트스트림 (166) 을 미드 신호 디코더 (304) 에 제공하도록 구성될 수도 있다. 디멀티플렉서 (302) 는 또한, 인코딩된 오디오 신호로부터 사이드 비트스트림 (164) 및 스테레오 큐들 (162) 을 추출하도록 구성될 수도 있다. 사이드 비트스트림 (164) 및 스테레오 큐들 (162) 은 사이드 신호 디코더 (306) 에 제공될 수도 있다.

미드 신호 디코더 (304) 는 미드 신호 (m_CODED(t)) (350) 를 생성하기 위해 미드 비트스트림 (166) 을 디코딩하도록 구성될 수 있다. 변환 (308) 은 주파수 도메인 미드 신호 (M_CODED(b)) (352) 를 생성하기 위해 미드 신호 (350) 에 적용될 수도 있다. 주파수 도메인 미드 신호 (352) 는 업-믹서 (310) 에 제공될 수도 있다.

사이드 신호 디코더 (306) 는 사이드 비트스트림 (164), 스테레오 큐들 (162), 및 주파수 도메인 미드 신호 (352) 에 기초하여 사이드 신호 (S_CODED(b)) (354) 을 생성할 수도 있다. 예를 들어, 에러 (e) 는 저대역들 및 고대역들에 대해 디코딩될 수도 있다. 사이드 신호 (354) 는 S_PRED(b) + e_CODED(b) 로서 표현될 수도 있으며, 여기서 S_PRED(b) = M_CODED(b)*(ILD(b)-1)/(ILD(b)+1) 이다. 변환 (309) 은 주파수 도메인 사이드 신호 (S_CODED(b)) (355) 를 생성하기 위해 사이드 신호 (354) 에 적용될 수도 있다. 주파수 도메인 사이드 신호 (355) 는 또한 업-믹서 (310) 에 제공될 수도 있다.

업-믹서 (310) 는 주파수 도메인 미드 신호 (352) 및 주파수 도메인 사이드 신호 (355) 에 기초하여 업-믹스 동작을 수행할 수도 있다. 예를 들어, 업-믹서 (310) 는 주파수 도메인 미드 신호 (352) 및 주파수 도메인 사이드 신호 (355) 에 기초하여 제 1 업-믹싱된 신호 (L_fr) (356) 및 제 2 업-믹싱된 신호 (R_fr) (358) 를 생성할 수도 있다. 따라서, 설명된 예에 있어서, 제 1 업-믹싱된 신호 (356) 는 좌측 채널 신호일 수도 있고, 제 2 업-믹싱된 신호 (358) 는 우측 채널 신호일 수도 있다. 제 1 업-믹싱된 신호 (356) 는 M_CODED(b)+S_CODED(b) 로서 표현될 수도 있고, 제 2 업-믹싱된 신호 (358) 는 M_CODED(b)-S_CODED(b) 로서 표현될 수도 있다. 업-믹싱된 신호들 (356, 358) 은 스테레오 큐 프로세서 (312) 에 제공될 수도 있다.

스테레오 큐 프로세서 (312) 는 신호들 (360, 362) 을 생성하기 위해 스테레오 큐들 (162) 을 업-믹싱된 신호들 (356, 358) 에 적용할 수도 있다. 예를 들어, 스테레오 큐들 (162) 은 주파수 도메인에서 업-믹싱된 좌측 및 우측 채널들에 적용될 수도 있다. 이용가능할 경우, IPD (위상 차이들) 는 채널간 위상 차이들을 유지하기 위해 좌측 및 우측 채널들 상에서 확산될 수도 있다. 역 변환 (314) 은 제 1 시간 도메인 신호 (l(t)) (364) (예를 들어, 좌측 채널 신호) 를 생성하기 위해 신호 (360) 에 적용될 수도 있고, 역 변환 (316) 은 제 2 시간 도메인 신호 (r(t)) (366) (예를 들어, 우측 채널 신호) 를 생성하기 위해 신호 (362) 에 적용될 수도 있다. 역 변환들 (314, 316) 의 비한정적인 예들은 역 이산 코사인 변환 (IDCT) 동작들, 역 고속 푸리에 변환 (IFFT) 동작들 등을 포함한다. 일 구현예에 따르면, 제 1 시간 도메인 신호 (364) 는 레퍼런스 채널 (290) 의 복원된 버전일 수도 있고, 제 2 시간 도메인 신호 (366) 는 타겟 채널 (292) 의 복원된 버전일 수도 있다.

일 구현예에 따르면, 업-믹서 (310) 에서 수행된 동작들은 스테레오 큐 프로세서 (312) 에서 수행될 수도 있다. 다른 구현예에 따르면, 스테레오 큐 프로세서 (312) 에서 수행된 동작들은 업-믹서 (310) 에서 수행될 수도 있다. 또 다른 구현예에 따르면, 업-믹서 (310) 및 스테레오 큐 프로세서 (312) 는 단일의 프로세싱 엘리먼트 (예를 들어, 단일의 프로세서) 내에서 구현될 수도 있다.

변환들 (308 및 309) 은 도 1 의 제 2 윈도우 파라미터들 (176) 과 연관된 분석 윈도잉 방식을 적용하도록 구성될 수 있다. 변환들 (308 및 309) 에 의해 사용되는 윈도잉 방식과 연관된 제 2 윈도잉 파라미터들 (176) 은 도 1의 인코더 (114) 와 같은 인코더에 의해 사용되는 윈도잉 방식과 다를 수 있다. 제 2 윈도잉 방식은 디코딩 지연을 감소시키기 위해 변환들 (308, 309) 에서 사용될 수 있다. 예를 들어, (디코더에 의해 적용된) 제 2 윈도잉 방식은 (인코더에 의해 적용된) 제 1 윈도잉 방식에서 사용되는 윈도우들과 다른 크기를 갖는 윈도우들을 포함하여, 변환이 동일한 수의 주파수 대역들 (그러나 상이한 주파수 해상도) 를 초래할 수 있고, 또한 윈도우 중첩의 양이 변환들 (308 및 309) 에 대해 감소될 수도 있다. 윈도우 중첩의 양을 감소시키는 것은 이전 윈도우로부터의 중첩된 샘플들을 프로세싱하는 디코딩 지연을 감소시킨다. 스테레오 큐들이 (인코더 (114) 에 의해 적용되는) 제 1 윈도잉에 기초하여 생성될 수 있기 때문에, 디코더 (118) 는 윈도잉 방식의 차이를 설명하기 위해 조정된 스테레오 파라미터를 생성할 수 있다. 예를 들어, 디코더 (114) (예를 들어, 스테레오 큐 프로세서 (312)) 는 수신된 스테레오 파라미터들의 보간 (예를 들어, 가중된 합계) 을 통해 조정된 스테레오 파라미터를 생성할 수 있다. 유사하게, 역 변환들 (314, 316) 은 주파수 도메인 신호들을 중첩하는 윈도잉된 시간 도메인 신호들로 리턴하는 역 변환들을 수행하도록 구성될 수 있다.

일부 구현예들에서, 스테레오 큐 프로세서 (312) 는 업-믹서 (310) 에 포함될 수 있다. 추가적으로 또는 대안적으로, 디코더 (118) 가 사이드 신호 디코더 (306) 및 변환 (309) 을 포함하는 것으로 기재되어 있지만, 다른 구현예들에서 디코더 (118) 는 사이드 신호 디코더 (306) 및 변환 (309) 을 포함하지 않을 수도 있다. 이러한 구현예들에서, 사이드 비트스트림 (164) 은 디멀티플렉서 (302) 로부터 업-믹서 (310) 로 제공될 수 있고, 스테레오 큐들 (162) 은 디멀티플렉서 (302) 로부터 업-믹서 (310) 또는 스테레오 큐 프로세서 (312) 로 제공될 수 있다.

도 2 의 인코더 및 도 3 의 디코더는 인코더 또는 디코더 프레임워크의 전부는 아니지만 일 부분을 포함할 수 있음에 유의한다. 예를 들어, 도 2 의 인코더, 도 3 의 디코더, 또는 양자는 또한 고대역 (HB) 프로세싱의 병렬 경로를 포함할 수 있다. 추가적으로 또는 대안적으로, 일부 구현예들에서, 시간 도메인 다운믹스는 도 2 의 인코더에서 수행될 수 있다. 추가적으로 또는 대안적으로, 시간 도메인 업믹스는 디코더 시프트 보상된 좌측 및 우측 채널을 획득하기 위해 도 3의 디코더를 따를 수 있다.

도 4 를 참조하면, 인코더 및 디코더에서 구현되는 윈도잉 방식의 예가 도시된다. 예를 들어, 도 1의 디코더 (118) 와 같은 디코더에 의해 구현되는 윈도잉 방식이 도시되어 있으며, 일반적으로 400 으로 표시되어 있다. 일부 구현예들에서, 윈도잉 방식 (400) 은 제 2 윈도우 파라미터들 (176) 에 기초하여 구현될 수도 있다. 도 1의 인코더 (114) 와 같은 인코더에 의해 구현되는 윈도잉 방식이 도시되어 있으며, 일반적으로 450 으로 표시되어 있다. 일부 구현예들에서, 윈도잉 방식 (450) 은 제 1 윈도우 파라미터들 (152) 에 기초하여 구현될 수도 있다. 윈도우 방식 (400) 및 윈도우 방식 (450) 을 참조하면, 각 윈도우는 동일하다. 예시를 위해, 각 윈도우는 동일한 제로 패딩 길이, 동일한 홉 크기, 동일한 중첩 및 동일한 평탄 부분 크기를 갖는다. 예를 들어, 제로 패딩 길이는 3.125 ms 이고, 윈도우 홉 크기는 10 ms 이고, 윈도우의 중첩 길이는 8.75 ms 이고, 그리고 윈도우의 평탄 부분의 크기는 1.25 ms 이다. 이에 따라서, 각 윈도우는 전체 25ms의 길이를 가질 수 있다.

오디오 신호의 프레임 크기는 20 ms 일 수 있고, DFT 동작 등의 변환 동작은 프레임 당 2 개의 윈도우들에서 추정될 수 있다. 각 프레임에 대해, 도 1 의 스테레오 큐들 (162) 과 같은 일 세트의 스테레오 큐 파라미터들 (예를 들어, DFT 스테레오 큐 파라미터들) 이 양자화 및 송신될 수 있다. 이들 스테레오 큐들은 또한 (상술된) 도 1 및 도 2를 참조하여 기술된 바와 같이 및 (아래에 포함된) 식 1 및 2를 참조하여 기술된 바와 같이 변환 도메인에서 미드 및 사이드 신호들을 생성하는데 사용된다. 예를 들어, 미드 채널은 다음에 기초할 수 있다:

M = (L+g_DR)/2, 또는 식 1

M = g₁L + g₂R 식 2

여기서 g₁ + g₂ = 1.0, 그리고 g_D 는 이득 파라미터이고, M 은 미드 채널에 대응하고, L 은 좌측 채널에 대응하고, 그리고 R 은 우측 채널에 대응한다.

코딩 이전에, 미드 및 사이드의 [0-28.75]에 대응하는 프레임은 변환 도메인 및 사이드 신호들에 역 변환들을 적용함으로써 합성된다. 역 변환 이후, 시간 도메인 신호들은 상기와 같이 유사한 윈도우와 중첩 추가된다. 일부 구현예들에서, 윈도우는 정확히 동일할 수 있고; 다른 예들에서, 이러한 변환 윈도우 및 역 변환 윈도우는 제로 패딩, 중첩 및 평탄 부분 크기의 길이들을 모두 동일하게 유지하면서 중첩 영역들에서 상이한 윈도우 값들을 가질 수 있다. 중첩 윈도우들은 중첩 부분에서 시간 샘플들의 2 세트들을 제조할 것이기 때문에 중첩-추가는 역 변환 합성에 사용된다. 예를 들어, w₀(n) (예를 들어, 프레임 n 의 제 1 윈도우) 에서의 역 변환은 [0-18.75] ms로부터 샘플들을 제조하는 한편, 역 변환은 [10-28.75] ms 로부터 샘플들을 제조한다. [10-18.75] 로부터의 샘플들은 [0-28.75] ms 의 부분에 대해 미드 및 사이드 신호들을 제조하기 위해 추가된 중첩이다. 인코더 상에 [20-38.75] ms 로부터 존재하는 중첩 윈도우 (w₀(n+1)) (예를 들어, 프레임 n+1의 제 1 윈도우) 가 없기 때문에 (28.75 후의 샘플은 향후 현재 프레임 (n) 에서 이용 불가능하기 때문에), w₁(n) (예를 들어, 프레임 n의 제 2 윈도우) 의 역 변환으로부터 생성된 샘플들은 윈도잉되고 [20-28.75] ms의 부분에서 코딩하기 위해 사용된다. 언윈도잉 (Unwindowing) 은, IDFT로부터 생성된 샘플들은 그 부분에서 w₁(n)에 의해 분할되는 것을 의미한다.

인코더 상의 [20-28.75]로부터의 샘플들은 프레임 n에서의 미드/사이드 코딩 룩 어헤드의 일부임을 유의해야 한다. 디코더 상에서, 이들 샘플들은 프레임 n+1에서 디코딩되도록 의도될 수 있다.

디코더 상에서, 우리는 비트스트림을 수신하고, 수신될 수 있는 미드 및 사이드 신호들을 ACELP 디코더와 같은 스피치 디코더가 사용되는 경우 부분 [0-20] ms로부터 그리고 TCX 디코더와 같은 넌스피치 디코더가 사용되는 경우 부분 [0-28.75] ms로부터 시간 도메인으로 먼저 디코딩한다. 넌스피치 디코더가 사용되는 경우, [20-28.75]로부터의 샘플들은 현재 프레임에서 사용되고/재생될 수 없지만, [0-20] ms로부터 샘플들의 사용할 수 없는 세트를 제조하는 효과를 갖는 다음 프레임에서 중첩 추가를 위해 저장된다. [20-28.75]로부터의 샘플들은 디코더에서 사용할 수 없으므로, 윈도우 홉 크기의 지연은 시간을 되돌아보고 윈도잉 및 스테레오 파라미터들의 적용을 위해 [-10 내지 18.75] ms 를 사용한다. 일단 이 윈도잉이 디코딩된 미드/사이드 신호에 대해 수행되면, 업믹스가 수행된 다음 스테레오 파라미터 적용이 수행되어 좌측 및 우측 채널의 디코딩된 DFT 도메인 표현을 얻게 된다. 디코딩된 좌측 및 우측 시간 도메인 신호들을 얻기 위해 역 DFT가 적용된 다음 중첩-추가 동작이 이어진다.

도 4 에 도시된 바와 같이, (윈도잉 방식 (450) 의) 인코더 윈도우와 (윈도잉 방식 (400) 의) 디코더 윈도우는 동일한 특성을 갖는다. 예를 들어, (윈도잉 방식 (450) 의) 인코더 윈도우 및 (윈도잉 방식 (400) 의) 디코더 윈도우는 동일한 크기, 동일한 양의 중첩, 동일한 제로 패딩, 동일한 크기의 평탄 부분 등을 갖는다. 인코더 윈도우 및 디코더 윈도우 매칭으로 인해, 디코더 상에 도입된 10ms의 지연은 인코더 상에 도입된 28.75 ms 지연에 추가된다.

인코더의 윈도잉 방식 (450) 및 디코더의 윈도잉 방식 (400) 은 정확한 동일한 시간 샘플들에서 적용됨에 유의한다. 예를 들어, 도 4 에 도시된 바와 같이, 디코더 윈도우들 및 인코더 윈도우들은 동일하고 동일한 시간 범위에 위치한다. 따라서, 윈도우 센터들은 인코더와 디코더 상에 정렬된다. 대안적으로, 다른 구현예들에서, 인코더에 의해 사용되는 윈도우들 및 디코더에 의해 사용되는 윈도우들은 정렬되지 않을 수 있다. 예를 들어, 인코더에 의해 사용되는 복수의 윈도우들 중 각각의 윈도우의 윈도우 위치 (예를 들어, 윈도우 센터) 는 디코더에서 사용되는 복수의 윈도우들 중 각각의 윈도우의 윈도우 위치 (예를 들어, 윈도우 센터) 와 다르다.

도 5 를 참조하면, 인코더 및 디코더에서 구현되는 윈도잉 방식의 다른 예가 도시된다. 예를 들어, 도 1의 디코더 (118) 와 같은 디코더에 의해 구현되는 윈도잉 방식이 도시되어 있으며, 일반적으로 510 으로 표시되어 있다. 일부 구현예들에서, 윈도잉 방식 (510) 은 제 2 윈도우 파라미터들 (176) 에 기초하여 구현될 수도 있다. 도 1의 인코더 (114) 와 같은 인코더에 의해 구현되는 윈도잉 방식이 도시되어 있으며, 일반적으로 520 으로 표시되어 있다. 일부 구현예들에서, 윈도잉 방식 (520) 은 제 1 윈도우 파라미터들 (152) 에 기초하여 구현될 수도 있다.

윈도잉 방식 (510) 은 프레임당 단일의 윈도우 (20 ms의 홉 크기) 및 3.25 ms의 중첩 영역을 가질 수 있다. 이에 따라, 디코더 지연은 3.25 ms이다. 윈도잉 방식 (510) 의 제로 패딩 (zp) 길이는 윈도우의 양측에서 0.875 ms 이고 평탄 부분의 길이는 16.75 ms이다. 윈도잉 방식 (510) 의 윈도우의 전체 길이 (L) 는 L = 2*zp + 2*overlap + flat_portion = 25 ms 로 결정될 수도 있다. 중첩 부분 + 평탄 부분의 길이는 함께 사용된 샘플들의 실제량을 구성한다. 제로 패딩은 윈도우를 원하는 크기로 가져오는데 사용된다. 또 다른 구현예에서, 윈도잉 방식 (510) 은 예를 들어 3.125ms의 외부 중첩을 갖는 2 개의 윈도우를 사용할 수 있는 한편, 예를 들어 10ms의 내부 중첩을 사용할 수 있다.

윈도잉 방식 (520) 은 도 4 의 윈도잉 방식 (450) 을 포함하거나 또는 이에 대응할 수 있다. 인코더 상에서 사용되는 윈도잉 방식 (520) 의 각 윈도우의 전체 길이는 디코더 상에서 사용되는 윈도잉 방식 (510) 의 전체 길이와 동일함에 유의한다. 동일한 전체 길이를 가짐으로써, 인코더 및 디코더에 의해 생성된 DFT 빈들의 크기가 매칭될 수 있다. 윈도우들의 크기의 전체 길이를 매칭하는 것은 편리함의 문제로 고려되며, 다른 구현예들에서, 동일한 길이를 가져 인코더 및 디코더에서 DFT 빈들의 동일한 크기를 갖는 이 원리는 지켜지지 않을 수도 있음에 유의해야 한다. 또한, 예시된 윈도잉 방식 (520) 은 DFT 변환 동작 이전 및 인코더에서의 DFT 역 변환 동작들 이후 모두에 대해 사용된 윈도우들을 나타낼 수 있음에 유의해야 한다. 일부 구현예에서, 인코더에서 사용된 윈도우들 (예를 들면, 분석 윈도우, 합성 윈도우 또는 모두) 은 동일한 중첩 부분의 길이, 동일한 제로 패딩, 동일한 평탄 부분의 길이, 동일한 홉 크기 등을 가짐으로써 윈도우 방식 (520) 과 실질적으로 유사할 수 있지만, 중첩 부분들에서의 윈도우 형상은 예시된 윈도우 방식 (520) 과 상이할 수 있다 (예를 들어, 변경될 수 있다).

도 6 을 참조하면, 인코더 및 디코더에서 구현되는 윈도잉 방식들의 다른 예가 도시된다. 예를 들어, 도 1 의 디코더 (118) 와 같은 디코더에 의해 구현되는 윈도잉 방식이 도시되어 있으며, 일반적으로 610 으로 표시되어 있다. 일부 구현예들에서, 윈도잉 방식 (610) 은 제 2 윈도우 파라미터들 (176) 에 기초하여 구현될 수도 있다. 도 1 의 인코더 (114) 와 같은 인코더에 의해 구현되는 윈도잉 방식이 도시되어 있으며, 일반적으로 620 으로 표시되어 있다. 일부 구현예들에서, 윈도잉 방식 (620) 은 제 1 윈도우 파라미터들 (152) 에 기초하여 구현될 수도 있다.

인코더에 의해 사용된 윈도잉 방식 (620) 은 도 4 의 윈도잉 방식 (450) 또는 도 5 의 윈도잉 방식 (520) 과 비교하여 하나의 큰 윈도우를 포함할 수 있다. 윈도잉 방식 (620) 은 8.75 ms 의 중첩 영역, 윈도우의 양측에서 3.125 의 제로 패딩 길이를 가질 수 있으며, 평탄 부분의 길이는 11.25 ms 이다. 윈도잉 방식 (620) 의 윈도우의 전체 길이 (L) 는 L = 2*zp + 2*overlap + flat_portion = 35 ms 로 결정될 수도 있다.

디코더에 의해 사용된 윈도잉 방식 (610) 은 도 4 의 윈도잉 방식 (400) 과 비교하여 하나의 윈도우를 포함할 수 있고, 도 5 의 윈도잉 방식 (520) 과 상이할 수 있다. 윈도잉 방식 (610) 은 3.25 ms 의 중첩 영역, 윈도우의 양측에서 5.875 ms 의 제로 패딩 길이를 가질 수 있으며, 평탄 부분의 길이는 16.75 ms 이다. 윈도잉 방식 (620) 의 윈도우의 전체 길이 (L) 는 L = 2*zp + 2*overlap + flat_portion = 35 ms 로 결정될 수도 있다.

도 5-6 을 참조하여 상술한 구현예들에서, 윈도우 센터들은 인코더와 디코더 상의 동일한 위치에 있지 않다. 특정 파라미터가 시간상 매우 빠르게 변화하는 상황들에서, 이러한 미스매칭은 인코딩되거나 디코딩된 오디오 신호에 아티팩트 (예를 들어, 왜곡) 을 발생시킬 수 있다. 이와 같이 빠르게 변하는 파라미터들에 대해, 가중된 윈도우간 보간은 인코더, 디코더 또는 둘 모두에서 수행될 수 있다. 가중치는 보간된 파라미터가 디코더 윈도우의 시간 범위에서 추정된 파라미터에 가까울 수 있게 할 수 있다. 예를 들어, 파라미터(b, n) 는 n 번째 인코더 윈도우에서 대역 b에 대응할 수 있으며, 여기서 n은 정수이다. 가중된 보간: α₁ * 파라미터(b, n) + α₂ * 파라미터(b, n-1) 이 사용될 수 있으며, 여기서 α₁ 과 α₂ 각각은 양이다. 일부 구현예들에서, α₁ + α₂ = 1.

도 7을 참조하면, 디코더를 동작시키는 방법의 특정 예시적인 예의 흐름도가 개시되어 있으며 일반적으로 700으로 표시되어 있다. 디코더는 도 1 또는 도 3 의 디코더 (118) 에 대응할 수 있다. 예를 들어, 방법 (700) 은 도 1 의 제 2 디바이스 (106) 에 의해 수행될 수도 있다.

방법 (700) 은 702 에서 제 1 윈도우 특성을 갖는 샘플링 윈도우들에 기초하여 인코딩된 오디오 신호를 수신하는 것을 포함한다. 예를 들어, 오디오 신호는 스테레오 큐들 (162), 사이드 비트스트림 (164), 및 미드 비트스트림 (166) 을 포함하는 도 1 의 인코딩된 오디오 신호에 대응할 수도 있다. 오디오 신호는 제 1 윈도우 파라미터들 (152) 에 기초한 샘플링 윈도우들을 사용하여 제 1 디바이스 (104) 의 인코더 (114) 에 의해 인코딩되었을 수도 있다. 예를 들어, 제 1 윈도우 파라미터들 (152) 은 윈도우 홉 길이, 윈도우 크기 중첩, 제로 패딩 양 또는 센터 위치를 포함하는 제 1 윈도우 특성을 특정할 수 있다. 다른 비한정적인 예는 윈도우 형상, 평탄 윈도우 부분 또는 윈도우 크기를 포함한다.

방법 (700) 은 또한 704 에서 제 1 윈도우 특성과 다른 제 2 윈도우 특성을 갖는 샘플링 윈도우들을 사용하여 오디오 신호를 디코딩하는 것을 포함한다. 예를 들어, 오디오 신호는 제 2 윈도우 파라미터들 (176) 에 기초한 샘플링 윈도우들을 사용하여 제 2 디바이스 (106) 의 디코더 (118) 에 의해 디코딩될 수도 있다. 제 2 윈도우 특성들을 갖는 샘플링 윈도우들을 사용하여 디코딩하는 것으로, 제 1 윈도우 특성에 대응하는 윈도우 중첩 미만인 인터-프레임 디코딩 지연을 제조할 수 있다.

일부 구현예들에서, 오디오 신호를 디코딩하는 것은 윈도잉된 시간 도메인 오디오 디코딩 신호를 생성하기 위해 제 2 윈도우 특성을 갖는 샘플링 윈도우들을 적용하는 것을 포함한다. 예를 들어, 제 2 윈도우 특성을 갖는 샘플링 윈도우는 도 1 의 샘플 생성기 (172) 에 의해 적용될 수 있다. 다른 예로서, 제 2 윈도우 특성을 갖는 샘플링 윈도우들은 도 3 의 변환들 (308, 309) 에 적용될 수 있다. 오디오 신호를 디코딩하는 것은 또한 윈도잉된 주파수 도메인 오디오 디코딩 신호를 생성하기 위해 윈도잉된 시간 도메인 오디오 디코딩 신호에 대해 변환 동작을 수행하는 것을 포함할 수 있다. 예를 들어, 변환 동작은 도 1 의 변환 디바이스 (174) 에 의해 수행될 수 있다. 예시를 위해, 변환 동작은 도 3 의 변환들 (308, 309) 에 의해 수행될 수 있다.

디코더 (118) 는 제 1 윈도우 특성을 갖는 샘플링 윈도우들에 기초하여 윈도잉된 주파수 도메인의 오디오 인코딩 신호에 대응하는 제 1 추정된 스테레오 파라미터들을 수신할 수 있다. 예를 들어, 제 1 추정된 스테레오 파라미터들은 도 1-3 의 스테레오 큐들 (162) 에 대응하거나 포함될 수 있다. 오디오 신호를 디코딩하는 것은 제 2 윈도우 특성을 갖는 샘플링 윈도우들에 기초하여 윈도잉된 주파수 도메인 오디오 디코딩 신호와 연관된 제 2 추정된 스테레오 파라미터들을 적용하는 것을 포함할 수 있다. 예를 들어, 제 2 추정된 스테레오 파라미터들은 수신된 제 1 추정된 스테레오 파라미터들의 보간에 기초하여 제 2 윈도우 특성을 갖는 샘플링 윈도우들에 대응하도록 생성될 수 있다.

따라서 방법 (700) 은, 인코딩된 오디오 신호를 인코딩하는데 사용되는 샘플링 윈도우들의 중첩 부분과 비교하여, 인코딩된 오디오 신호의 디코딩 동안 감소된 중첩 부분을 갖는 샘플링 윈도우들을 사용함으로써 디코딩 지연을 디코더가 감소시키게 할 수 있다. 제 1 특성 (예를 들어, 보다 큰 중첩 부분) 을 갖는 샘플링 윈도우를 사용하여 인코딩하는 동안 생성될 수 있는 파라미터들 (예를 들어, 스테레오 큐들 (162)) 은 디코딩 동안 보간되어 제 2 특성을 갖는 샘플링 윈도우들에서 윈도우 차이들을 적어도 부분적으로 보상할 수 있다. 결과적으로, 디코딩 지연은 재생 신호 품질에 거의 영향을 주지 않으면서 개선될 수 있다.

도 8 을 참조하면, 디코더를 동작시키는 방법의 특정 예시적인 예의 흐름도가 개시되어 있으며 일반적으로 800으로 표시되어 있다. 디코더는 도 1 또는 도 3 의 디코더 (118) 에 대응할 수 있다. 예를 들어, 방법 (800) 은 도 1 의 제 2 디바이스 (106) 에 의해 또는 기지국과 같은 다른 디바이스에서 수행될 수 있다.

방법 (800) 은 802에서 복수의 윈도우들 사이의 중첩 부분들의 제 1 길이를 갖는 복수의 윈도우들에 기초하여, 인코더에 의해 인코딩된 스테레오 파라미터들을 수신하는 것을 포함한다. 예를 들어, 스테레오 파라미터들은 스테레오 큐들 (162) 을 포함하거나 대응할 수 있다. 스테레오 파라미터들은 오디오 신호, 예컨대 스테레오 큐들 (162), 사이드 비트스트림 (164), 및 미드 비트스트림 (166) 을 포함하는 도 1 의 인코딩된 오디오 신호에 포함될 수도 있다. 스테레오 파라미터들은 제 1 윈도우 파라미터들 (152) 에 기초한 샘플링 윈도우들을 사용하여 제 1 디바이스 (104) 의 인코더 (114) 에 의해 인코딩되었을 수도 있다. 예를 들어, 제 1 윈도우 파라미터들 (152) 은 윈도우 홉 길이, 윈도우 크기 중첩, 제로 패딩 양, 또는 센터 위치와 같은 제 1 윈도우 특성을 특정할 수 있다. 윈도우 특성들의 다른 비한정적인 예들은 윈도우 형상, 평탄 윈도우 부분, 또는 윈도우 크기를 포함한다.

방법 (800) 은 또한 804에서 적어도 2 개의 오디오 신호들을, 스테레오 파라미터들을 사용하는 업믹스 동작에 기초하여, 생성하는 것을 포함한다. 적어도 2 개의 오디오 신호들은 업믹스 동작에서 사용되는 제 2 복수의 윈도우들에 기초하여 생성된다. 제 2 복수의 윈도우들은 제 2 복수의 윈도우들 사이의 중첩 부분들의 제 2 길이를 갖는다. 제 2 길이는 제 1 길이와 다르다. 예를 들어, 적어도 2 개의 오디오 신호들은 제 2 윈도우 파라미터들 (176) 에 기초한 샘플링 윈도우들을 사용하여 제 2 디바이스 (106) 의 디코더 (118) 에 의해 생성될 수도 있다.

일부 구현예들에서, 복수의 윈도우들은 제 1 홉 길이와 연관되고 제 2 복수의 윈도우들은 제 2 홉 길이와 연관된다. 제 1 홉 길이 및 제 2 홉 길이는 동일한 홉 길이일 수 있거나 상이한 홉 길이일 수 있다. 추가적으로 또는 대안적으로, 복수의 윈도우들은 제 2 복수의 윈도우들과 다른 수의 윈도우들을 포함할 수 있다. 다른 구현예들에서, 복수의 윈도우들은 제 2 복수의 윈도우들과 동일한 수의 윈도우들을 포함한다. 추가적으로 또는 대안적으로, 복수의 윈도우들의 제 1 윈도우 및 제 2 복수의 윈도우들의 제 2 윈도우는 동일한 크기이다. 다른 구현예들에서, 복수의 윈도우들의 제 1 윈도우 및 제 2 복수의 윈도우들의 제 2 윈도우는 다른 크기이다. 추가적으로 또는 대안적으로, 복수의 윈도우들의 각각의 윈도우는 대칭인 한편, 제 2 복수의 윈도우들의 제 1 특정 윈도우는 비대칭이다. 다른 구현예들에서, 모든 복수의 윈도우들은 비대칭이다.

일부 구현예들에서, 방법 (800) 은 스테레오 파라미터들을 포함하는 오디오 신호를 수신하는 것 및 윈도잉된 시간 도메인 오디오 디코딩 신호를 생성하기 위해 제 2 복수의 윈도우들을 적용하는 것을 포함할 수 있다. 방법 (800) 은 또한 윈도잉된 주파수 도메인 오디오 디코딩 신호를 생성하기 위해 윈도잉된 시간 도메인 오디오 디코딩 신호에 대해 변환 동작을 수행하는 것을 포함할 수 있다.

일부 구현예들에서, 인코더에서 프로세싱하는 스테레오 다운믹스 동안 사용되는 복수의 윈도우들의 각 윈도우의 전체 길이는 디코더에서 프로세싱하는 스테레오 업믹스 동안 사용되는 제 2 복수의 윈도우들의 각 윈도우의 전체 길이와 다르다. 복수의 윈도우들은 스테레오 다운믹스 프로세싱에 사용되는 DFT 분석 윈도우에 대응할 수도 있고 제 2 복수의 윈도우들은 스테레오 업믹스 프로세싱에서 사용되는 역 DFT 합성 윈도우에 대응할 수도 있다. 추가적으로 또는 대안적으로, 인코더에서의 변환 도메인의 각 주파수 빈과 연관된 제 1 주파수 폭은 디코더에서의 변환 도메인의 각 주파수 빈과 연관된 제 2 주파수 폭과 다르다.

다른 구현예들에서, 인코더에서 사용되는 복수의 윈도우들의 각 윈도우의 윈도우 위치는 디코더에서 사용되는 복수의 윈도우들의 각 윈도우의 윈도우 위치와 다르다. 추가적으로 또는 대안적으로, 스테레오 파라미터들 중 적어도 하나의 파라미터는 보간된 인터-프레임이며, 적어도 하나의 보간된 파라미터는 디코더에서 사용된다. 이러한 보간은 인코더에서 수행되어 디코더로 송신될 수 있거나, 또는 인코더는 비보간된 값들을 송신할 수 있고 디코더는 인터-프레임 보간을 수행할 수 있다.

따라서 방법 (800) 은, 인코딩된 오디오 신호를 인코딩하는데 사용되는 샘플링 윈도우들의 중첩 부분의 길이와 비교하여, 디코딩 동안 상이한 길이의 중첩 부분을 갖는 샘플링 윈도우들을 사용함으로써 디코딩 지연을 디코더가 감소시키게 할 수 있다. 결과적으로, 디코딩 지연은 재생된 신호 품질에 거의 영향을 주지 않으면서 상당히 감소될 수 있다.

특정 양태들에서, 도 7 의 방법 (700) 또는 도 8 의 방법 (800) 은 필드 프로그램가능 게이트 어레이 (FPGA) 디바이스, 주문형 집적 회로 (ASIC), 중앙 프로세싱 유닛 (CPU) 과 같은 프로세싱 유닛, 디지털 신호 프로세서 (DSP), 제어기, 다른 하드웨어 디바이스, 펌웨어 디바이스, 또는 이들의 임의의 조합에 의해 구현될 수도 있다. 일 예로서, 도 7 의 방법 (700) 또는 도 8 의 방법 (800) 은 도 9와 관련하여 기재된 바와 같이 명령들을 실행하는 프로세서에 의해 수행될 수 있다.

도 9를 참조하면, 디바이스 (예를 들어, 무선 통신 디바이스) 의 특정 예시적인 양태의 블록도가 도시되며 일반적으로 900으로 표시되어 있다. 다양한 구현예들에서, 디바이스 (900) 는 도 9에 예시된 것보다 작거나 많은 컴포넌트들을 가질 수 있다. 예시된 예에서, 디바이스 (900) 는 도 1의 시스템에 대응할 수도 있다. 예를 들어, 디바이스 (900) 는 도 1 의 제 1 디바이스 (104) 또는 제 2 디바이스 (106) 에 대응할 수도 있다. 예시적인 예에서, 디바이스 (900) 는 도 7 의 방법 또는 도 8 의 방법에 따라 동작할 수도 있다.

특정 구현예에서, 디바이스 (900) 는 프로세서 (906) (예를 들어, CPU) 를 포함한다. 디바이스 (900) 는 프로세서 (910) (예를 들어, DSP) 와 같은 하나 이상의 추가 프로세서들을 포함할 수 있다. 프로세서 (910) 는 CODEC (908), 예컨대 스피치 CODEC, 뮤직 CODEC, 또는 이들의 조합을 포함할 수 있다. 프로세서 (910) 는 스피치/뮤직 CODEC (908) 의 동작들을 수행하도록 구성된 하나 이상의 컴포넌트들 (예를 들어, 회로부) 을 포함할 수 있다. 또 다른 예로서, 프로세서 (910) 는 스피치/뮤직 CODEC (908) 의 동작들을 수행하기 위한 하나 이상의 컴퓨터 판독가능 명령들을 실행하도록 구성될 수 있다. 따라서, CODEC (908) 은 하드웨어 및 소프트웨어를 포함할 수 있다. 스피치/뮤직 CODEC (908) 은 프로세서의 컴포넌트로 도시되어 있지만, 다른 예들에서, 스피치/뮤직 CODEC (908) 의 하나 이상의 컴포넌트들은 프로세서 (906), CODEC (934), 다른 프로세싱 컴포넌트, 또는 이들의 조합에 포함될 수 있다.

스피치/뮤직 CODEC (908) 은 보코더 디코더와 같은 디코더 (992) 를 포함할 수도 있다. 예를 들어, 디코더 (992) 는 도 1 의 디코더 (118) 에 대응할 수 있다. 특정 양태에서, 디코더 (992) 는 신호를 인코딩하는데 사용되는 윈도우를 샘플링의 제 1 윈도우 특성과 다른 제 2 윈도우 특성을 갖는 샘플링 윈도우를 사용하여 인코딩된 신호를 디코딩하도록 구성된다. 예를 들어, 디코더 (992) 는 하나 이상의 저장된 윈도우 파라미터들 (991) (예를 들어, 도 1 의 제 2 윈도우 파라미터들 (176)) 에 기초하여 샘플링 윈도우들을 사용하도록 구성될 수도 있다. 스피치/뮤직 CODEC (908) 은 인코더 (991), 예컨대 도 1 의 인코더 (114) 를 포함할 수도 있다. 인코더 (991) 는, 제 1 윈도우 특성을 갖는 샘플링 윈도우들을 이용하여 오디오 신호들을 인코딩하도록 구성될 수도 있다.

디바이스 (900) 는 메모리 (932) 및 CODEC (934) 을 포함할 수도 있다. CODEC (934) 은 디지털 투 아날로그 변환기 (DAC) (902) 및 아날로그 투 디지털 변환기 (ADC) (904) 를 포함할 수도 있다. 스피커 (936), 마이크로폰 어레이 (938), 또는 양자는 CODEC (934) 에 커플링될 수도 있다. CODEC (934) 은 마이크로폰 어레이 (938) 으로부터 아날로그 신호들을 수신하고, 아날로그 투 디지털 변환기 (904) 를 이용하여 아날로그 신호들을 디지털 신호들로 변환하고, 그리고 디지털 신호들을 스피치/뮤직 CODEC (908) 에 제공할 수도 있다. 스피치/뮤직 CODEC (908) 은 디지털 신호들을 프로세싱할 수도 있다. 일부 구현예들에서, 스피치/뮤직 CODEC (908) 은 CODEC (934) 에 디지털 신호들을 제공할 수도 있다. CODEC (934) 은 디지털 투 아날로그 변환기 (902) 를 이용하여 디지털 신호들을 아날로그 신호들로 변환하고, 그리고 아날로그 신호들을 스피커 (936) 에 제공할 수도 있다.

디바이스 (900) 는 트랜시버 (950) (예를 들어, 송신기, 수신기, 또는 양자) 를 통해 안테나 (942) 에 커플링된 무선 제어기 (940) 를 포함할 수도 있다. 디바이스 (900) 는 컴퓨터 판독가능 저장 디바이스와 같은 메모리 (932) 를 포함할 수 있다. 메모리 (932) 는 도 1-6 과 관련하여 기재된 기술들, 도 7 의 방법, 도 8 의 방법, 또는 이들의 조합 중 하나 이상을 수행하기 위해 프로세서 (906), 프로세서 (910), 또는 이들의 조합에 의해 실행 가능한 하나 이상의 명령들과 같은 명령들 (960) 을 포함할 수 있다.

예시적인 예로서, 메모리 (932) 는, 프로세서 (906), 프로세서 (910), 또는 이들의 조합에 의해 실행될 때, 프로세서 (906), 프로세서 (910), 또는 이들의 조합으로 하여금, 제 1 윈도우 특성을 갖는 샘플링 윈도우들에 기초하여 인코딩된 오디오 신호를 수신하는 것 (예를 들어, 제 1 윈도우 파라미터들 (152) 을 사용하는 인코딩 샘플링 윈도우들에 기초하여 스테레오 큐들 (162) 을 수신하는 것), 및 (예를 들어, 제 2 윈도우 파라미터들 (176) 에 기초하여) 제 1 윈도우 특성과 다른 제 2 윈도우 특성을 갖는 샘플링 윈도우들을 사용하여 오디오 신호를 디코딩하는 것을 포함하는 동작들을 수행하게 하는, 명령들을 저장할 수 있다.

또 다른 예시적인 예로서, 메모리 (932) 는, 프로세서 (906), 프로세서 (910), 또는 이들의 조합에 의해 실행될 때, 프로세서 (906), 프로세서 (910), 또는 이들의 조합으로 하여금, 복수의 윈도우들 사이의 중첩 부분들의 제 1 길이를 갖는 복수의 윈도우들에 기초하여 인코더에 의해 인코딩된 스테레오 파라미터들을 수신하는 것 (예를 들어, 스테레오 큐들 (162) 을 수신하는 것), 및 스테레오 파라미터들을 사용하는 업믹스 동작에 기초하여 적어도 2 개의 오디오 신호들을 생성하는 것을 포함하는 동작들을 수행하게 하는, 명령들을 저장할 수 있다. 적어도 2 개의 오디오 신호들은 업믹스 동작에서 사용되는 제 2 복수의 윈도우들에 기초하여 생성되며, 제 2 복수의 윈도우들은 제 2 복수의 윈도우들 사이의 중첩 부분들의 제 2 길이를 갖는다. 제 2 길이는 제 1 길이와 다르다.

일부 구현예들에서, 메모리 (932) 는, 프로세서 (906), 프로세서 (910), 또는 이들의 조합으로 하여금 도 1 의 제 2 디바이스 (106) 또는 도 1 또는 도 3 의 디코더와 관련하여 기재된 기능들을 수행하게 하거나, 도 7 의 방법 (700) 의 적어도 일 부분을 수행하게 하거나, 도 8 의 방법 (800) 의 적어도 일 부분을 수행하게 하거나, 또는 이들을 조합하여 수행하게 하기 위해, 프로세서 (906), 프로세서 (910), 또는 이들의 조합에 의해 실행될 수 있는 코드 (예를 들어, 해석되거나 컴파일링된 프로그램 명령들) 를 포함할 수 있다.

메모리 (932) 는, 본원에 개시된 방법들 및 프로세스들을 수행하기 위해, 프로세서 (906), 프로세서 (910), CODEC (934), 디바이스 (900) 의 다른 프로세싱 유닛, 또는 이들의 조합에 의해 실행 가능한 명령들 (960) 을 포함할 수 있다. 도 1 의 시스템 (100) 의 하나 이상의 컴포넌트들은 전용 하드웨어 (예를 들어, 회로부) 를 통해, 하나 이상의 태스크들을 수행하기 위해 명령들 (예를 들어, 명령들 (960)) 을 실행하는 프로세서에 의해, 또는 이들의 조합으로 구현될 수도 있다. 일 예로서, 메모리 (932) 또는 프로세서 (906), 프로세서들 (910), 코덱 (934) 중 하나 이상의 컴포넌트들 또는 이들의 조합은 랜덤 액세스 메모리 (RAM), 자기저항 랜덤 액세스 메모리 (MRAM), 스핀-토크 전달 MRAM (STT-MRAM), 플래시 메모리, 판독 전용 메모리 (ROM), 프로그래밍가능 판독 전용 메모리 (PROM), 소거가능한 프로그래밍가능 판독 전용 메모리 (EPROM), 전기적으로 소거가능한 프로그래밍가능 판독 전용 메모리 (EEPROM), 레지스터들, 하드 디스크, 착탈가능 디스크, 또는 컴팩트 디스크 판독 전용 메모리 (CD-ROM) 와 같은 메모리 디바이스일 수도 있다. 메모리 디바이스는, 컴퓨터 (예를 들어, 코덱 (934) 에서의 프로세서, 프로세서 (906), 프로세서 (910) 또는 이들의 조합) 에 의해 실행될 때, 컴퓨터로 하여금, 도 7 의 방법의 적어도 일 부분, 도 8 의 방법의 적어도 일 부분, 또는 이들의 조합을 수행하게 할 수 있는 명령들 (예를 들어, 명령들 (960)) 을 포함할 수 있다. 일 예로서, 메모리 (932) 또는 프로세서 (906), 프로세서 (910), CODEC (934) 의 하나 이상의 컴포넌트들은, 컴퓨터 (예를 들어, CODEC (934) 에서의 프로세서, 프로세서 (906), 프로세서 (910) 또는 이들의 조합) 에 의해 실행될 때, 컴퓨터로 하여금, 도 7 의 방법의 적어도 일 부분, 도 8 의 방법의 적어도 일 부분, 또는 이들의 조합을 수행하게 하는 명령들 (예를 들어, 명령들 (960)) 을 포함하는 비일시적 컴퓨터 판독가능 매체일 수 있다.

특정 구현예에서, 디바이스 (900) 는 시스템-인-패키지 또는 시스템-온-칩 디바이스 (922) 에 포함될 수도 있다. 일부 구현예들에서, 메모리 (932), 프로세서 (906), 프로세서 (910), 디스플레이 제어기 (926), CODEC (934), 무선 제어기 (940), 및 트랜시버 (950) 는 시스템-인-패키지 또는 시스템-온-칩 디바이스 (922) 에 포함된다. 일부 구현예들에서, 입력 디바이스 (930) 및 전원 공급부 (944) 는 시스템-온 칩-디바이스 (922) 에 커플링된다. 또한, 특정 구현예에서, 도 9에 예시된 바와 같이, 디스플레이 (928), 입력 디바이스 (930), 스피커 (936), 마이크로폰 어레이 (938), 안테나 (942), 및 전원 공급부 (944) 는 시스템-온-칩 디바이스 (922) 의 외부에 있다. 다른 구현예들에서, 디스플레이 (928), 입력 디바이스 (930), 스피커 (936), 마이크로폰 어레이 (938), 안테나 (942), 및 전원 공급부 (944) 의 각각은, 시스템-온-칩 디바이스 (922) 의 인터페이스 또는 제어기와 같은 시스템-온-칩 디바이스 (922) 의 컴포넌트에 커플링될 수 있다. 예시적인 예에서, 디바이스 (900) 는 통신 디바이스, 이동 통신 디바이스, 스마트폰, 셀룰러 폰, 랩탑 컴퓨터, 컴퓨터, 태블릿 컴퓨터, 개인 정보 단말기, 세트 톱 박스, 디스플레이 디바이스, 텔레비전, 게이밍 콘솔, 뮤직 플레이어, 라디오, 디지털 비디오 플레이어, 디지털 비디오 디스크 (DVD) 플레이어, 광학 디스크 플레이어, 튜너, 카메라, 내비게이션 디바이스, 디코더 시스템, 인코더 시스템, 기지국, 차량 또는 이들의 임의의 조합에 대응한다.

기재된 양태들과 함께, 장치는 제 1 윈도우 특성을 갖는 샘플링 윈도우들에 기초하여 인코딩된 오디오 신호를 수신하는 수단을 포함할 수 있다. 예를 들어, 수신하는 수단은 도 1 의 수신기 (178), 도 9 의 트랜시버 (950), 인코딩된 오디오 신호를 수신하기 위한 하나 이상의 다른 구조들, 디바이스들, 회로들, 모듈들, 또는 명령들, 또는 이들의 조합을 포함하거나 이에 대응할 수 있다.

장치는 또한 제 1 윈도우 특성과 다른 제 2 윈도우 특성을 갖는 샘플링 윈도우들을 사용하여 오디오 신호를 디코딩하는 수단을 포함할 수 있다. 예를 들어, 디코딩하는 수단은 도 1 또는 도 3 의 디코더 (118), 도 9 의 명령들 (960) 을 실행하도록 프로그래밍된 프로세서들 (906, 910) 중 하나 이상, 오디오 신호를 디코딩하기 위한 디바이스들, 회로들, 모듈들, 또는 명령들, 또는 이들의 조합을 포함하거나 이에 대응할 수 있다.

장치는 윈도잉된 시간 도메인 오디오 디코딩 신호를 생성하기 위해 제 2 윈도우 특성을 갖는 샘플링 윈도우들을 적용하는 수단을 포함할 수 있다. 예를 들어, 적용하는 수단은 도 1 의 샘플 생성기 (172), 디코더 (902), 도 9 의 명령들 (960) 을 실행하도록 프로그래밍된 프로세서들 (906, 910) 중 하나 이상, 샘플링 윈도우들을 적용하기 위한 하나 이상의 다른 구조들, 디바이스들, 회로들, 모듈들, 또는 명령들, 또는 이들의 조합을 포함하거나 이에 대응할 수 있다.

장치는 또한 윈도잉된 주파수 도메인 오디오 디코딩 신호를 생성하기 위해 윈도잉된 시간 도메인 오디오 디코딩 신호에 대해 변환 동작을 수행하는 수단을 포함할 수 있다. 예를 들어, 변환 동작을 수행하는 수단은 도 1 의 변환 디바이스 (174), 도 3 의 변환들 (308, 309), 도 9 의 디코더 (992), 명령들 (960) 을 실행하도록 프로그래밍된 프로세서들 (906, 910) 중 하나 이상, 변환 동작을 수행하기 위한 하나 이상의 다른 구조들, 디바이스들, 회로들, 모듈들, 또는 명령들, 또는 이들의 조합을 포함하거나 이에 대응할 수 있다.

또 다른 구현예에서, 장치는 복수의 윈도우들 사이의 중첩 부분들의 제 1 길이를 갖는 복수의 윈도우들에 기초하여, 인코더에 의해 인코딩된 스테레오 파라미터들을 수신하는 수단을 포함한다. 예를 들어, 수신하는 수단은 디코더 (118), 도 1 의 수신기 (178), 디멀티플렉서 (302), 사이드 신호 디코더 (306), 도 3 의 스테레오 큐 프로세서 (312), 업믹서, 도 9 의 트랜시버 (950), 스테레오 파라미터들을 수신하기 위한 하나 이상의 다른 구조들, 디바이스들, 회로들, 모듈들, 또는 명령들, 또는 이들의 조합을 포함하거나 이에 대응할 수 있다. 일부 구현예들에서, 스테레오 파라미터들은 이산 푸리에 변환 (DFT) 스테레오 큐 파라미터들에 대응할 수 있다. 장치는 또한 적어도 2 개의 오디오 신호들을 생성하기 위해 스테레오 파라미터들을 사용하여 업믹스 동작을 수행하는 수단을 포함한다. 예를 들어, 업믹스 동작을 수행하는 수단은 도 1 의 디코더 (118), 도 3 의 업믹서 (310), 스테레오 큐 프로세서 (312), 도 9 의 디코더 (992), 명령들 (960) 을 실행하도록 프로그래밍된 프로세서들 (906, 910) 중 하나 이상, 업믹스 동작을 수행하기 위한 하나 이상의 다른 구조들, 디바이스들, 회로들, 모듈들, 또는 명령들, 또는 이들의 조합을 포함하거나 이에 대응할 수 있다. 적어도 2 개의 오디오 신호들은 업믹스 동작에서 사용되는 제 2 복수의 윈도우들에 기초하여 생성되며, 제 2 복수의 윈도우들은 제 2 복수의 윈도우들 사이의 중첩 부분들의 제 2 길이를 갖는다. 제 2 길이는 제 1 길이와 다르다. 예를 들어, 제 2 길이는 제 1 길이보다 작을 수 있다.

상술된 설명의 양태들에서, 수행된 다양한 기능들은 도 1의 시스템 (100) 의 성분들 또는 모듈과 같은 특정 컴포넌트들 또는 모듈들에 의해 수행되는 것으로 기재되어 있다. 하지만, 컴포넌트들 및 모듈들의 이러한 분할은 단지 예시하기 위한 것이다. 대안의 예들에서, 특정 컴포넌트 또는 모듈에 의해 수행된 기능은 대신에 다수의 컴포넌트 또는 모듈들 중에서 분할될 수 있다. 또한, 다른 대안의 예들에서, 도 1 의 2 이상의 컴포넌트들 또는 모듈들은 단일 컴포넌트 또는 모듈으로 통합될 수 있다. 도 1 에 예시된 각각의 컴포넌트 또는 모듈은 하드웨어 (예를 들어, ASIC, DSP, 제어기, FPGA 디바이스 등), 소프트웨어 (예를 들어, 프로세서에 의해 실행된 명령들), 또는 이들의 조합을 사용하여 구현될 수도 있다.

당업자라면, 본원에서 개시된 양태들과 연계하여 설명된 다양한 예시적인 논리 블록들, 구성들, 모듈들, 회로들, 및 알고리즘 단계들이 전자 하드웨어, 프로세서에 의해 실행가능한 컴퓨터 소프트웨어, 또는 양자 모두의 조합으로서 구현될 수도 있음을 더 알 수 있을 것이다. 다양한 예시적인 컴포넌트들, 블록들, 구성들, 모듈들, 회로들, 및 단계들은 이들의 기능성의 관점에서 일반적으로 상술되었다. 이러한 기능이 하드웨어 또는 프로세서 실행가능한 명령들로 구현되는지 여부는 특정 애플리케이션 및 전체 시스템에 부과되는 설계 제약들에 달려 있다. 당업자들은 각각의 특정 애플리케이션을 위해 다양한 방식들로 설명된 기능을 구현할 수도 있으며, 그러한 구현 결정들이 본 개시물의 범위로부터 벗어나게 하는 것으로 해석되어서는 안된다.

본 명세서에 개시된 양태들과 관련되어 설명된 방법 또는 알고리즘의 단계들은 하드웨어로, 프로세서에 의해 실행되는 소프트웨어 모듈로, 또는 이들 둘의 조합으로 직접 구현될 수도 있다. 소프트웨어 모듈은 RAM, 플래시 메모리, ROM, PROM, EPROM, EEPROM, 레지스터들, 하드 디스크, 이동식 디스크, CD-ROM, 또는 업계에 공지된 임의의 다른 형태의 비일적 저장 매체 내에 상주할 수도 있다. 특정 저장 매체는, 프로세서가 저장 매체로부터 정보를 판독하고 저장 매체에 정보를 기입할 수 있도록, 프로세서에 커플링될 수도 있다. 대안에서, 저장 매체는 프로세서와 일체형일 수도 있다. 프로세서와 저장 매체는 ASIC 내에 상주할 수도 있다. ASIC 는 컴퓨팅 디바이스 또는 사용자 단말기에 상주할 수도 있다. 대안에서, 프로세서 및 저장 매체는 컴퓨팅 디바이스 또는 사용자 단말기에서 개별 컴포넌트들로서 상주할 수도 있다.

이전의 설명은 당업자가 개시된 예들을 제조하거나 이용하는 것을 가능하게 하도록 제공된다. 이들 양태들에 대한 다양한 수정들은 당업자들에게 쉽게 명백할 것이며, 본 명세서에 정의된 원리들은 본 개시물의 범위로부터 벗어남이 없이 다른 예들에 적용될 수도 있다. 따라서, 본 개시물은 본원에 도시된 양태들로 제한되도록 의도된 것이 아니며, 다음의 청구항들에 의해 정의된 바와 같은 원리들 및 신규한 특징들과 일치하는 가능한 가장 넓은 범위를 따르도록 하기 위한 것이다.

Claims

디바이스로서,
복수의 윈도우들 사이의 중첩 부분들의 제 1 길이를 갖는 복수의 윈도우들에 기초하여, 인코더에 의해 인코딩된 스테레오 파라미터들을 수신하도록 구성된 수신기; 및
적어도 2 개의 오디오 신호들을 생성하기 위해 상기 스테레오 파라미터들을 사용하는 업믹스 동작을 수행하도록 구성된 디코더로서, 상기 적어도 2 개의 오디오 신호들은 상기 업믹스 동작에서 사용되는 제 2 복수의 윈도우들에 기초하여 생성되며, 상기 제 2 복수의 윈도우들은 상기 제 2 복수의 윈도우들 사이의 중첩 부분들의 제 2 길이를 가지며, 상기 제 2 길이는 상기 제 1 길이와 다른, 상기 디코더를 포함하는, 디바이스.
제 1 항에 있어서,
상기 인코더에서 프로세싱하는 스테레오 다운믹스 동안 사용되는 상기 복수의 윈도우들의 각 윈도우의 전체 길이는 상기 디코더에서 프로세싱하는 스테레오 업믹스 동안 사용되는 상기 제 2 복수의 윈도우들의 각 윈도우의 전체 길이와 다른, 디바이스.
제 2 항에 있어서,
상기 복수의 윈도우들은 상기 스테레오 다운믹스 프로세싱에 사용되는 DFT (discrete Fourier transform) 분석 윈도우에 대응하고 상기 제 2 복수의 윈도우들은 상기 스테레오 업믹스 프로세싱에서 사용되는 역 DFT 합성 윈도우들에 대응하는, 디바이스.
제 2 항에 있어서,
상기 인코더에서의 변환 도메인의 각 주파수 빈과 연관된 제 1 주파수 해상도는 상기 디코더에서의 변환 도메인의 각 주파수 빈과 연관된 제 2 주파수 해상도와 다른, 디바이스.
제 1 항에 있어서,
상기 인코더에서 사용되는 상기 복수의 윈도우들의 각 윈도우의 윈도우 위치는 상기 디코더에서 사용되는 상기 복수의 윈도우들의 각 윈도우의 윈도우 위치와 다른, 디바이스.
제 5 항에 있어서,
상기 스테레오 파라미터들 중 적어도 하나의 파라미터는 보간된 인터-프레임이며, 적어도 하나의 보간된 파라미터 및 적어도 하나의 비보간된 값들은 상기 디코더에서 사용되는, 디바이스.
제 1 항에 있어서,
상기 제 2 복수의 윈도우들의 윈도우 중첩은 비대칭인, 디바이스.
제 1 항에 있어서,
상기 수신기는 또한 미드 신호를 수신하도록 구성되는, 디바이스.
제 8 항에 있어서,
상기 미드 신호는 상기 스테레오 파라미터들을 사용하는 다운믹스 동작에 기초하여 상기 인코더에 의해 생성되는, 디바이스.
제 8 항에 있어서,
상기 업믹스 동작은 상기 스테레오 파라미터들 및 상기 미드 신호를 사용하여 수행되는, 디바이스.
제 1 항에 있어서,
상기 제 2 복수의 윈도우들 중 한 쌍의 연속적인 윈도우들의 양 윈도우들은 비대칭인, 디바이스.
제 1 항에 있어서,
상기 제 2 복수의 윈도우들 중 한 쌍의 연속적인 윈도우들의 제 1 윈도우는 비대칭인, 디바이스.
제 12 항에 있어서,
상기 제 1 윈도우 및 상기 제 2 윈도우의 제 1 중첩 부분의 제 3 길이는 연속 윈도우들의 제 2 쌍의 상기 제 2 윈도우 및 제 3 윈도우의 제 2 중첩 부분의 제 4 길이와 다른, 디바이스.
제 1 항에 있어서,
상기 수신기는 상기 스테레오 파라미터들을 포함하는 오디오 신호를 수신하도록 구성되고, 상기 디코더는 윈도잉된 시간 도메인 오디오 디코딩 신호를 생성하기 위해 상기 오디오 신호의 디코딩 동안 상기 제 2 복수의 윈도우들을 적용하도록 구성되는, 디바이스.
제 1 항에 있어서,
상기 수신기 및 상기 디코더는 이동 통신 디바이스 안으로 통합되는, 디바이스.
제 1 항에 있어서,
상기 수신기 및 상기 디코더는 기지국 안으로 통합되는, 디바이스.
방법으로서,
복수의 윈도우들 사이의 중첩 부분들의 제 1 길이를 갖는 상기 복수의 윈도우들에 기초하여, 인코더에 의해 인코딩된 스테레오 파라미터들을 수신하는 단계; 및
상기 스테레오 파라미터들을 사용하는 업믹스 동작에 기초하여 적어도 2 개의 오디오 신호들을 생성하는 단계로서, 상기 적어도 2 개의 오디오 신호들은 상기 업믹스 동작에서 사용되는 제 2 복수의 윈도우들에 기초하여 생성되며, 상기 제 2 복수의 윈도우들은 상기 제 2 복수의 윈도우들 사이의 중첩 부분들의 제 2 길이를 가지며, 상기 제 2 길이는 상기 제 1 길이와 다른, 상기 생성하는 단계를 포함하는, 방법.
제 17 항에 있어서,
상기 복수의 윈도우들은 제 1 홉 길이와 연관되고 상기 제 2 복수의 윈도우들은 제 2 홉 길이와 연관되는, 방법.
제 17 항에 있어서,
상기 복수의 윈도우들은 상기 제 2 복수의 윈도우들과 다른 수의 윈도우들을 포함하는, 방법.
제 17 항에 있어서,
상기 복수의 윈도우들의 제 1 윈도우 및 상기 제 2 복수의 윈도우들의 제 2 윈도우는 동일한 크기인, 방법.
제 17 항에 있어서,
상기 복수의 윈도우들의 각 윈도우는 대칭이고, 상기 제 2 복수의 윈도우들의 제 1 윈도우는 비대칭인, 방법.
제 17 항에 있어서,
상기 스테레오 파라미터들을 포함하는 오디오 신호를 수신하는 단계; 및
윈도잉된 시간 도메인 오디오 디코딩 신호를 생성하기 위해 상기 제 2 복수의 윈도우들을 적용하는 단계를 더 포함하는, 방법.
제 22 항에 있어서,
윈도잉된 주파수 도메인 오디오 디코딩 신호를 생성하기 위해 상기 윈도잉된 시간 도메인 오디오 디코딩 신호에 대해 변환 동작을 수행하는 단계를 더 포함하는, 방법.
제 17 항에 있어서,
상기 수신하는 단계 및 상기 생성하는 단계는 이동 통신 디바이스를 포함하는 디바이스에서 수행되는, 방법.
제 17 항에 있어서,
상기 수신하는 단계 및 상기 생성하는 단계는 기지국을 포함하는 디바이스에서 수행되는, 방법.
장치로서,
복수의 윈도우들 사이의 중첩 부분들의 제 1 길이를 갖는 복수의 윈도우들에 기초하여, 인코더에 의해 인코딩된 스테레오 파라미터들을 수신하는 수단; 및
적어도 2 개의 오디오 신호들을 생성하기 위해 상기 스테레오 파라미터들을 사용하는 업믹스 동작을 수행하는 수단으로서, 상기 적어도 2 개의 오디오 신호들은 상기 업믹스 동작에서 사용되는 제 2 복수의 윈도우들에 기초하여 생성되며, 상기 제 2 복수의 윈도우들은 상기 제 2 복수의 윈도우들 사이의 중첩 부분들의 제 2 길이를 가지며, 상기 제 2 길이는 상기 제 1 길이와 다른, 상기 업믹스 동작을 수행하는 수단을 포함하는, 장치.
제 26 항에 있어서,
윈도잉된 시간 도메인 오디오 디코딩 신호를 생성하기 위해 상기 제 2 복수의 윈도우들을 적용하는 수단; 및
윈도잉된 주파수 도메인 오디오 디코딩 신호를 생성하기 위해 상기 윈도잉된 시간 도메인 오디오 디코딩 신호에 대해 변환 동작을 수행하는 수단을 더 포함하는, 장치.
제 26 항에 있어서,
상기 수신하는 수단 및 상기 수행하는 수단은 이동 통신 디바이스 안으로 통합되는, 장치.
제 26 항에 있어서,
상기 수신하는 수단 및 상기 수행하는 수단은 기지국 안으로 통합되는, 장치.
명령들을 저장하는 컴퓨터 판독가능 저장 디바이스로서,
상기 명령들이, 프로세서에 의해 실행시, 상기 프로세서로 하여금:
복수의 윈도우들 사이의 중첩 부분들의 제 1 길이를 갖는 상기 복수의 윈도우들에 기초하여, 인코더에 의해 인코딩된 스테레오 파라미터들을 수신하는 동작; 및
상기 스테레오 파라미터들을 사용하는 업믹스 동작에 기초하여 적어도 2 개의 오디오 신호들을 생성하는 동작으로서, 상기 적어도 2 개의 오디오 신호들은 상기 업믹스 동작에서 사용되는 제 2 복수의 윈도우들에 기초하여 생성되며, 상기 제 2 복수의 윈도우들은 상기 제 2 복수의 윈도우들 사이의 중첩 부분들의 제 2 길이를 가지며, 상기 제 2 길이는 상기 제 1 길이와 다른, 상기 생성하는 동작을 포함하는 동작들을 수행하게 하는, 컴퓨터 판독가능 저장 디바이스.
제 30 항에 있어서,
상기 제 2 길이는 상기 제 1 길이 미만인, 컴퓨터 판독가능 저장 디바이스.
제 30 항에 있어서,
상기 스테레오 파라미터들은 이산 푸리에 변환 (DFT) 스테레오 큐 파라미터들에 대응하는, 컴퓨터 판독가능 저장 디바이스.