KR20230038777A

KR20230038777A - 멀티-채널 오디오 신호 인코딩/디코딩 방법 및 장치

Info

Publication number: KR20230038777A
Application number: KR1020237005513A
Authority: KR
Inventors: 즈 왕; 젠처 딩; 빈 왕; 저 왕
Original assignee: 후아웨이 테크놀러지 컴퍼니 리미티드
Priority date: 2020-07-17
Filing date: 2021-07-15
Publication date: 2023-03-21
Also published as: WO2022012628A1; CN113948096A; EP4174854A1; US20230145725A1; EP4174854A4

Abstract

멀티-채널 오디오 신호 인코딩 및 디코딩 방법들 및 장치들(1100, 1300)이 제공된다. 이러한 것은 멀티-채널 사이드 정보의 비트들의 수량을 감소시킬 수 있어, 저장된 비트들이 인코더의 다른 기능 모듈에 할당될 수 있어, 디코더 사이드의 재구성된 오디오 신호의 품질을 개선하고 코딩 품질을 개선한다.

Description

멀티-채널 오디오 신호 인코딩/디코딩 방법 및 장치

본 출원은 2020년 7월 17일자로 중국 특허청에 출원되고 발명의 명칭이 "MULTI-CHANNEL AUDIO SIGNAL ENCODING AND DECODING METHOD AND APPARATUS"인 중국 특허 출원 제202010699711.8호에 대한 우선권을 주장하며, 그 전체가 본 명세서에 참조로 원용된다.

<기술 분야>

본 출원은 오디오 코딩 기술들에, 특히, 멀티-채널 오디오 신호 인코딩 및 디코딩 방법들 및 장치들에 관련된다.

멀티미디어 기술들의 지속적인 발전으로, 오디오는 멀티미디어 통신, 가전 제품, 가상 현실, 및 인간-컴퓨터 상호작용과 같은 분야들에서 널리 사용되어 왔다. 오디오 코딩은 멀티미디어 기술들의 핵심 기술들 중 하나이다. 오디오 코딩에서, 저장 또는 송신을 용이하게 하기 위해, 데이터 양을 감소시키도록 원시 오디오 신호에서의 중복 정보가 제거된다.

멀티-채널 오디오 코딩은, 공통 5.1 채널들, 7.1 채널들, 7.1.4 채널들, 22.2 채널들 등을 포함하는, 적어도 2개의 채널들의 코딩이다. 채널에서의 송신 또는 디지털 매체에서의 저장을 용이하게 하기 위해, 직렬 비트스트림을 형성하도록 멀티-채널 원시 오디오 신호에 대해 멀티-채널 신호 스크리닝, 커플링, 스테레오 처리, 멀티-채널 사이드 정보 생성, 양자화 처리, 엔트로피 인코딩 처리, 및 비트스트림 멀티플렉싱이 수행된다.

디코더 사이드 상의 재구성된 신호의 품질을 개선하기 위해 멀티-채널 사이드 정보의 인코딩 비트들을 어떻게 감소시킬지는 해결되어야 할 긴급한 기술적 문제가 된다.

본 출원은, 코딩된 오디오 신호의 품질을 개선하기 위해, 멀티-채널 오디오 신호 인코딩 및 디코딩 방법들 및 장치들을 제공한다.

제1 양태에 따르면, 본 출원의 실시예는 멀티-채널 오디오 신호 인코딩 방법을 제공한다. 이러한 방법은, 멀티-채널 오디오 신호의 현재 프레임에서의 P개의 채널들의 오디오 신호들을 획득하는 단계- P는 1 초과인 양의 정수이고, P개의 채널들은 K개의 채널 쌍들을 포함하고, 각각의 채널 쌍은 2개의 채널들을 포함하고, K는 양의 정수이고, P는 K × 2 이상임 -; P개의 채널들의 오디오 신호들의 각각의 에너지/진폭들을 획득하는 단계; P개의 채널들의 오디오 신호들의 각각의 에너지/진폭들에 기초하여 K개의 채널 쌍들의 에너지/진폭 등화 사이드 정보를 생성하는 단계; 및 K개의 채널 쌍들의 에너지/진폭 등화 사이드 정보 및 P개의 채널들의 오디오 신호들을 인코딩하여, 인코딩된 비트스트림을 획득하는 단계를 포함할 수 있다.

이러한 구현에서, 채널 쌍들의 에너지/진폭 등화 사이드 정보가 생성되고, 인코딩된 비트스트림은 커플링되지 않은 채널의 에너지/진폭 등화 사이드 정보를 운반하지 않고 K개의 채널 쌍들의 에너지/진폭 등화 사이드 정보를 운반한다. 이러한 것은 인코딩된 비트스트림에서의 에너지/진폭 등화 사이드 정보의 비트들의 수량 및 멀티-채널 사이드 정보의 비트들의 수량을 감소시킬 수 있다. 또한, 디코더 사이드의 재구성된 오디오 신호의 품질을 개선하고 인코딩 품질을 개선하기 위해, 저장된 비트들이 인코더의 다른 기능 모듈에 할당될 수 있다.

예를 들어, 데이터 부분의 압축 레이트를 감소시키고 디코더 사이드의 재구성된 오디오 신호의 품질을 개선하기 위해, 저장된 비트들은 멀티-채널 오디오 신호를 인코딩하기 위해 사용될 수 있다.

다시 말해서, 인코딩된 비트스트림은 제어 정보 부분 및 데이터 부분을 포함한다. 제어 정보 부분은 전술한 에너지/진폭 등화 사이드 정보를 포함할 수 있고, 데이터 부분은 전술한 멀티-채널 오디오 신호를 포함할 수 있다. 즉, 인코딩된 비트스트림은 멀티-채널 오디오 신호 및 멀티-채널 오디오 신호를 인코딩하는 프로세스에서 생성되는 제어 정보를 포함한다. 본 출원의 이러한 실시예에서, 제어 정보 부분에 의해 점유되는 비트들의 수량은, 데이터 부분에 의해 점유되는 비트들의 수량을 증가시키고 디코더 사이드의 재구성된 오디오 신호의 품질을 추가로 개선하기 위해, 감소될 수 있다.

저장된 비트들은 다른 제어 정보의 송신을 위해 대안적으로 사용될 수 있다는 점이 주목되어야 한다. 본 출원의 이러한 실시예는 전술한 예들에 의해 제한되지 않는다.

가능한 설계에서, K개의 채널 쌍들은 현재 채널 쌍을 포함하고, 현재 채널 쌍의 에너지/진폭 등화 사이드 정보는 현재 채널 쌍의 고정-소수점 에너지/진폭 스케일링 비율들 및 에너지/진폭 스케일링 식별자들을 포함한다. 고정-소수점 에너지/진폭 스케일링 비율은 에너지/진폭 스케일링 비율 계수의 고정-소수점 값이고, 에너지/진폭 스케일링 비율 계수는 에너지/진폭 등화 전의 현재 채널 쌍의 2개의 채널들의 오디오 신호들의 각각의 에너지/진폭들 및 에너지/진폭 등화 후의 2개의 채널들의 오디오 신호들의 각각의 에너지/진폭들에 기초하여 획득되고, 에너지/진폭 스케일링 식별자는 에너지/진폭 등화 후의 현재 채널 쌍의 2개의 채널들의 오디오 신호들의 각각의 에너지/진폭들이 에너지/진폭 등화 전의 오디오 신호들의 각각의 에너지/진폭들에 비해 증가 또는 감소된다는 점을 식별하기 위해 사용된다.

이러한 구현에서, 디코더 사이드는 현재 채널 쌍의 고정-소수점 에너지/진폭 스케일링 비율들 및 에너지/진폭 스케일링 식별자들에 기초하여 에너지 등화-해제를 수행하여, 디코딩된 신호를 획득할 수 있다.

부동-소수점 에너지/진폭 스케일링 비율 계수가 고정-소수점 에너지/진폭 스케일링 비율로 변환된다. 이러한 것은 에너지/진폭 등화 사이드 정보에 의해 점유되는 비트들을 감소시키고, 송신 효율을 추가로 개선한다.

가능한 설계에서, K개의 채널 쌍들은 현재 채널 쌍을 포함하고, P개의 채널들의 오디오 신호들의 각각의 에너지/진폭들에 기초하여 K개의 채널 쌍들의 에너지/진폭 등화 사이드 정보를 생성하는 단계는, 에너지/진폭 등화 전의 현재 채널 쌍의 2개의 채널들의 오디오 신호들의 각각의 에너지/진폭들에 기초하여, 에너지/진폭 등화 후의 현재 채널 쌍의 2개의 채널들의 오디오 신호들의 각각의 에너지/진폭들을 결정하는 단계; 및 에너지/진폭 등화 전의 현재 채널 쌍의 2개의 채널들의 오디오 신호들의 각각의 에너지/진폭들 및 에너지/진폭 등화 후의 2개의 채널들의 오디오 신호들의 각각의 에너지/진폭들에 기초하여 현재 채널 쌍의 에너지/진폭 등화 사이드 정보를 생성하는 단계를 포함한다.

이러한 구현에서, 채널 쌍의 2개의 채널들에 대해 에너지/진폭 등화가 수행되어, 에너지/진폭 등화 후에 큰 에너지 차이를 갖는 채널 쌍들 사이에 큰 에너지 차이가 여전히 유지될 수 있다. 이러한 방식으로, 후속 인코딩 처리 절차에서 큰 에너지/큰 진폭을 갖는 채널 쌍의 인코딩 요건이 충족되고, 인코딩 효율 및 인코딩 효과가 개선되고, 디코더 사이드의 재구성된 오디오 신호의 품질이 추가로 개선된다.

가능한 설계에서, 현재 채널 쌍은 제1 채널 및 제2 채널을 포함하고, 현재 채널 쌍의 에너지/진폭 등화 사이드 정보는 제1 채널의 고정-소수점 에너지/진폭 스케일링 비율, 제2 채널의 고정-소수점 에너지/진폭 스케일링 비율, 제1 채널의 에너지/진폭 스케일링 식별자, 및 제2 채널의 에너지/진폭 스케일링 식별자를 포함한다.

이러한 구현에서, 디코더 사이드는 현재 채널 쌍의 2개의 채널들의 각각의 고정-소수점 에너지/진폭 스케일링 비율들 및 각각의 에너지/진폭 스케일링 식별자들에 기초하여 에너지 등화-해제를 수행하여, 디코딩된 신호를 획득하고, 현재 채널 쌍의 에너지/진폭 등화 사이드 정보에 의해 점유되는 비트들을 추가로 감소시킬 수 있다.

가능한 설계에서, 에너지/진폭 등화 전의 현재 채널 쌍의 2개의 채널들의 오디오 신호들의 각각의 에너지/진폭들 및 에너지/진폭 등화 후의 2개의 채널들의 오디오 신호들의 각각의 에너지/진폭들에 기초하여 현재 채널 쌍의 에너지/진폭 등화 사이드 정보를 생성하는 단계는, 현재 채널 쌍의 q번째 채널의 에너지/진폭 스케일링 비율 계수 및 q번째 채널의 에너지/진폭 스케일링 식별자를 에너지/진폭 등화 전의 q번째 채널의 오디오 신호의 에너지/진폭 및 에너지/진폭 등화 후의 q번째 채널의 오디오 신호의 에너지/진폭에 기초하여 결정하는 단계; 및 q번째 채널의 에너지/진폭 스케일링 비율 계수에 기초하여 q번째 채널의 고정-소수점 에너지/진폭 스케일링 비율을 결정하는 단계를 포함하고, q는 1 또는 2이다.

가능한 설계에서, 현재 채널 쌍의 2개의 채널들의 오디오 신호들의 각각의 에너지/진폭들에 기초하여, 에너지/진폭 등화 후의 현재 채널 쌍의 2개의 채널들의 오디오 신호들의 각각의 에너지/진폭들을 결정하는 단계는, 에너지/진폭 등화 전의 현재 채널 쌍의 2개의 채널들의 오디오 신호들의 각각의 에너지/진폭들에 기초하여 현재 채널 쌍의 오디오 신호들의 평균 에너지/진폭 값을 결정하는 단계; 현재 채널 쌍의 오디오 신호들의 평균 에너지/진폭 값에 기초하여, 에너지/진폭 등화 후의 현재 채널 쌍의 2개의 채널들의 오디오 신호들의 각각의 에너지/진폭들을 결정하는 단계를 포함할 수 있다.

이러한 구현에서, 채널 쌍의 2개의 채널들에 대해 에너지/진폭 등화가 수행되어, 에너지/진폭 등화 후에 큰 에너지 차이를 갖는 채널 쌍들 사이에 큰 에너지 차이가 여전히 유지될 수 있다. 이러한 방식으로, 후속 인코딩 처리 절차에서 큰 에너지/큰 진폭을 갖는 채널 쌍의 인코딩 요건이 충족되고, 디코더 사이드의 재구성된 오디오 신호의 품질이 추가로 개선된다.

가능한 설계에서, K개의 채널 쌍들의 에너지/진폭 등화 사이드 정보 및 P개의 채널들의 오디오 신호들을 인코딩하여, 인코딩된 비트스트림을 획득하는 단계는, K개의 채널 쌍들의 에너지/진폭 등화 사이드 정보, K, K개의 채널 쌍들의 각각의 채널 쌍 인덱스들, 및 P개의 채널들의 오디오 신호들을 인코딩하여, 인코딩된 비트스트림을 획득하는 단계를 포함할 수 있다.

제2 양태에 따르면, 본 출원의 실시예는 멀티-채널 오디오 신호 디코딩 방법을 제공한다. 이러한 방법은, 디코딩될 비트스트림을 획득하는 단계; 디코딩될 비트스트림을 디멀티플렉싱하여, 디코딩될 멀티-채널 오디오 신호의 현재 프레임, 현재 프레임에 포함되는 채널 쌍들의 수량 K, K개의 채널 쌍들의 각각의 채널 쌍 인덱스들, 및 K개의 채널 쌍들의 에너지/진폭 등화 사이드 정보를 획득하는 단계; K개의 채널 쌍들의 각각의 채널 쌍 인덱스들 및 K개의 채널 쌍들의 에너지/진폭 등화 사이드 정보에 기초하여 디코딩될 멀티-채널 오디오 신호의 현재 프레임을 디코딩하여, 현재 프레임의 디코딩된 신호들을 획득하는 단계- K는 양의 정수이고, 각각의 채널 쌍은 2개의 채널들을 포함함 -를 포함할 수 있다.

가능한 설계에서, K개의 채널 쌍들은 현재 채널 쌍을 포함하고, K개의 채널 쌍들의 각각의 채널 쌍 인덱스들 및 K개의 채널 쌍들의 에너지/진폭 등화 사이드 정보에 기초하여 디코딩될 멀티-채널 오디오 신호의 현재 프레임을 디코딩하여, 현재 프레임의 디코딩된 신호들을 획득하는 단계는, 현재 채널 쌍에 대응하는 채널 쌍 인덱스에 기초하여, 디코딩될 멀티-채널 오디오 신호의 현재 프레임에 대해 스테레오 디코딩 처리를 수행하여, 현재 프레임의 현재 채널 쌍의 2개의 채널들의 오디오 신호들을 획득하는 단계; 및 현재 채널 쌍의 에너지/진폭 등화 사이드 정보에 기초하여, 현재 채널 쌍의 2개의 채널들의 오디오 신호들에 대해 에너지/진폭 등화-해제 처리를 수행하여, 현재 채널 쌍의 2개의 채널들의 디코딩된 신호들을 획득하는 단계를 포함할 수 있다.

멀티-채널 오디오 신호 디코딩 방법의 기술적 효과들에 대해서는, 전술한 대응하는 인코딩 방법의 기술적 효과들을 참조한다. 상세사항들이 본 명세서에 다시 설명되지는 않는다.

제3 양태에 따르면, 본 출원의 실시예는 오디오 신호 인코딩 장치를 제공한다. 이러한 오디오 신호 인코딩 장치는 오디오 인코더, 오디오 인코딩 디바이스의 칩, 시스템 온 칩, 또는 오디오 인코더의 것인 그리고 제1 양태 또는 제1 양태의 가능한 설계들 중 어느 하나에 따른 방법을 수행하도록 구성되는 기능 모듈일 수 있다. 이러한 오디오 신호 인코딩 장치는 제1 양태 또는 제1 양태의 가능한 설계들에서 수행되는 기능들을 구현할 수 있고, 이러한 기능들은 대응하는 소프트웨어를 실행하는 하드웨어에 의해 구현될 수 있다. 이러한 하드웨어 또는 소프트웨어는 이러한 기능들에 대응하는 하나 이상의 모듈을 포함한다. 예를 들어, 가능한 설계에서, 이러한 오디오 신호 인코딩 장치는 획득 모듈, 등화 사이드 정보 생성 모듈, 및 인코딩 모듈을 포함할 수 있다.

제4 양태에 따르면, 본 출원의 실시예는 오디오 신호 디코딩 장치를 제공한다. 이러한 오디오 신호 디코딩 장치는 오디오 디코더, 오디오 디코딩 디바이스의 칩, 시스템 온 칩, 또는 오디오 디코더의 것인 그리고 제2 양태 또는 제2 양태의 가능한 설계들 중 어느 하나에 따른 방법을 수행하도록 구성되는 기능 모듈일 수 있다. 이러한 오디오 신호 디코딩 장치는 제2 양태 또는 제2 양태의 가능한 설계들에서 수행되는 기능들을 구현할 수 있고, 이러한 기능들은 대응하는 소프트웨어를 실행하는 하드웨어에 의해 구현될 수 있다. 이러한 하드웨어 또는 소프트웨어는 이러한 기능들에 대응하는 하나 이상의 모듈을 포함한다. 예를 들어, 가능한 설계에서, 이러한 오디오 신호 디코딩 장치는 획득 모듈, 디멀티플렉싱 모듈, 및 디코딩 모듈을 포함할 수 있다.

제5 양태에 따르면, 본 출원의 실시예는, 서로 커플링되는 비-휘발성 메모리 및 프로세서를 포함하는, 오디오 신호 인코딩 장치를 제공한다. 이러한 프로세서는 이러한 메모리에 저장된 프로그램 코드를 호출하여 제1 양태 또는 제1 양태의 가능한 설계들 중 어느 하나에 따른 방법을 수행한다.

제6 양태에 따르면, 본 출원의 실시예는, 서로 커플링되는 비-휘발성 메모리 및 프로세서를 포함하는, 오디오 신호 디코딩 장치를 제공한다. 이러한 프로세서는 이러한 메모리에 저장된 프로그램 코드를 호출하여 제2 양태 또는 제2 양태의 가능한 설계들 중 어느 하나에 따른 방법을 수행한다.

제7 양태에 따르면, 본 출원의 실시예는, 인코더를 포함하는, 오디오 신호 인코딩 디바이스를 제공한다. 이러한 인코더는 제1 양태 또는 제1 양태의 가능한 설계들 중 어느 하나에 따른 방법을 수행하도록 구성된다.

제8 양태에 따르면, 본 출원의 실시예는, 디코더를 포함하는, 오디오 신호 디코딩 디바이스를 제공한다. 이러한 디코더는 제2 양태 또는 제2 양태의 가능한 설계들 중 어느 하나에 따른 방법을 수행하도록 구성된다.

제9 양태에 따르면, 본 출원의 실시예는, 제1 양태 또는 제1 양태의 가능한 설계들 중 어느 하나에 따른 방법을 사용하여 획득되는 인코딩된 비트스트림을 포함하는, 컴퓨터-판독가능 저장 매체를 제공한다.

제10 양태에 따르면, 본 출원의 실시예는, 컴퓨터 프로그램을 포함하는, 컴퓨터-판독가능 저장 매체를 제공한다. 이러한 컴퓨터 프로그램이 컴퓨터 상에서 실행될 때, 이러한 컴퓨터는 제1 양태 중 어느 하나에 따른 방법 또는 제2 양태 중 어느 하나에 따른 방법을 수행하는 것이 가능하게 된다.

제11 양태에 따르면, 본 출원은 컴퓨터 프로그램 제품을 제공한다. 이러한 컴퓨터 프로그램 제품은 컴퓨터 프로그램을 포함한다. 이러한 컴퓨터 프로그램이 컴퓨터에 의해 실행될 때, 제1 양태 중 어느 하나에 따른 방법 또는 제2 양태 중 어느 하나에 따른 방법이 수행된다.

제12 양태에 따르면, 본 출원은, 프로세서 및 메모리를 포함하는, 칩을 제공한다. 이러한 메모리는 컴퓨터 프로그램을 저장하도록 구성되고, 이러한 프로세서는 메모리에 저장된 컴퓨터 프로그램을 호출하고 실행하여, 제1 양태 중 어느 하나에 따른 방법 또는 제2 양태 중 어느 하나에 따른 방법을 수행하도록 구성된다.

제13 양태에 따르면, 본 출원은 코딩 디바이스를 제공한다. 이러한 코딩 디바이스는 인코더 및 디코더를 포함한다. 이러한 인코더는 제1 양태 또는 제1 양태의 가능한 설계들 중 어느 하나에 따른 방법을 수행하도록 구성된다. 이러한 디코더는 제2 양태 또는 제2 양태의 가능한 설계들 중 어느 하나에 따른 방법을 수행하도록 구성된다.

본 출원의 실시예들에서의 멀티-채널 오디오 신호 인코딩 및 디코딩 방법들 및 장치들에 따르면, 멀티-채널 오디오 신호의 현재 프레임에서의 P개의 채널들의 오디오 신호들 및 P개의 채널들의 오디오 신호들의 각각의 에너지/진폭들이 획득되고, P개의 채널들은 K개의 채널 쌍들을 포함하고, K개의 채널 쌍들의 에너지/진폭 등화 사이드 정보는 P개의 채널들의 오디오 신호들의 각각의 에너지/진폭들에 기초하여 생성되고, K개의 채널 쌍들의 에너지/진폭 등화 사이드 정보 및 P개의 채널들의 오디오 신호들은 인코딩된 비트스트림을 획득하기 위해 인코딩된다. 채널 쌍들의 에너지/진폭 등화 사이드 정보가 생성되고, 인코딩된 비트스트림은 커플링되지 않은 채널의 에너지/진폭 등화 사이드 정보를 운반하지 않고 K개의 채널 쌍들의 에너지/진폭 등화 사이드 정보를 운반한다. 이러한 것은 인코딩된 비트스트림에서의 에너지/진폭 등화 사이드 정보의 비트들의 수량 및 멀티-채널 사이드 정보의 비트들의 수량을 감소시킬 수 있다. 또한, 디코더 사이드의 재구성된 오디오 신호의 품질을 개선하고 코딩 품질을 개선하기 위해, 저장된 비트들이 인코더의 다른 기능 모듈에 할당될 수 있다.

도 1은 본 출원의 실시예에 따른 오디오 코딩 시스템의 예의 개략도이다.
도 2는 본 출원의 실시예에 따른 멀티-채널 오디오 신호 인코딩 방법의 흐름도이다.
도 3은 본 출원의 실시예에 따른 멀티-채널 오디오 신호 인코딩 방법의 흐름도이다.
도 4는 본 출원의 실시예에 따른 인코더 사이드의 처리 절차의 개략도이다.
도 5는 본 출원의 일 실시예에 따른 멀티-채널 인코딩 처리 유닛의 처리 절차의 개략도이다.
도 6은 본 출원의 실시예에 따른 멀티-채널 사이드 정보 기입 절차의 개략도이다.
도 7은 본 출원의 실시예에 따른 멀티-채널 오디오 신호 디코딩 방법의 흐름도이다.
도 8은 본 출원의 실시예에 따른 디코더 사이드의 처리 절차의 개략도이다.
도 9는 본 출원의 일 실시예에 따른 멀티-채널 디코딩 처리 유닛의 처리 절차의 개략도이다.
도 10은 본 출원의 실시예에 따른 멀티-채널 사이드 정보를 파싱하는 흐름도이다.
도 11은 본 출원의 실시예에 따른 오디오 신호 인코딩 장치(1100)의 구조의 개략도이다.
도 12는 본 출원의 실시예에 따른 오디오 신호 인코딩 디바이스(1200)의 구조의 개략도이다.
도 13은 본 출원의 실시예에 따른 오디오 신호 디코딩 장치(1300)의 구조의 개략도이다.
도 14는 본 출원의 실시예에 따른 오디오 신호 디코딩 디바이스(1400)의 구조의 개략도이다.

본 출원의 실시예들에서의 "제1(first)" 및 "제2(second)"와 같은 용어들은 단지 설명을 구별하기 위해 사용되지만, 상대적 중요도 또는 시퀀스를 표시하거나 또는 암시하는 것으로서 이해될 수 없다. 또한, 용어들 "포함하다(include)", "포함하다(comprise)", 또는 이들의 임의의 다른 변형은 비-배타적 포함, 예를 들어, 일련의 단계들 또는 유닛들을 커버하도록 의도된다. 방법들, 시스템들, 제품들, 또는 디바이스들이 문자그대로 열거되는 단계들 또는 유닛들에 반드시 제한되지는 않지만, 문자그대로 열거되지 않은 또는 이러한 프로세스들, 방법들, 제품들, 또는 디바이스들에 고유한 다른 단계들 또는 유닛들을 포함할 수 있다.

본 출원에서, "적어도 하나의 (항목)(at least one (item))"은 하나 이상을 의미하고, "복수의(a plurality of)"는 2개 이상을 의미한다는 점이 이해되어야 한다. "및/또는(and/or)"이라는 용어는 연관된 객체들 사이의 연관 관계를 설명하기 위해 사용되고, 3개의 관계들이 존재할 수 있다는 점을 표현한다. 예를 들어, "A 및/또는 B"는 다음의 3개의 경우들: 단지 A만 존재함, 단지 B만 존재함, A 및 B 양자 모두 존재함을 표현할 수 있고, 여기서 A 및 B는 단수 또는 복수일 수 있다. 문자 "/"는 연관된 객체들 사이의 "또는(or)" 관계를 일반적으로 표시한다. "다음 항목들(부분들) 중 적어도 하나(at least one of the following items (pieces))" 또는 그것의 유사한 표현은, 단일 항목(부분) 또는 복수의 항목들(부분들)의 임의의 조합을 포함하는, 이러한 항목들의 임의의 조합을 의미한다. 예를 들어, a, b, 또는 c 중 적어도 하나는, a, b, c, "a 및 b", "a 및 c", "b 및 c" 또는 "a, b 및 c"를 표현할 수 있다. a, b 및 c 각각은 단수 또는 복수일 수 있다. 대안적으로, a, b, 및 c 중 일부는 단수일 수 있고; a, b 및 c 중 일부는 복수일 수 있다.

다음은 본 출원의 실시예들이 적용되는 시스템 아키텍처를 설명한다. 도 1을 참조한다. 도 1은 본 출원의 실시예가 적용되는 오디오 코딩 시스템(10)의 예의 개략적인 블록도를 도시한다. 도 1에 도시되는 바와 같이, 오디오 코딩 시스템(10)은 소스 디바이스(12) 및 목적지 디바이스(14)를 포함할 수 있다. 소스 디바이스(12)는 인코딩된 오디오 데이터를 생성한다. 따라서, 소스 디바이스(12)는 오디오 인코딩 장치라고 지칭될 수 있다. 목적지 디바이스(14)는 소스 디바이스(12)에 의해 생성되는 인코딩된 오디오 데이터를 디코딩할 수 있다. 따라서, 목적지 디바이스(14)는 오디오 디코딩 장치라고 지칭될 수 있다. 다양한 구현 해결책들에서, 소스 디바이스(12), 목적지 디바이스(14), 또는 소스 디바이스(12)와 목적지 디바이스(14) 양자 모두는 적어도 하나의 프로세서 및 이러한 적어도 하나의 프로세서에 커플링되는 메모리를 포함할 수 있다. 본 명세서에서 설명되는 바와 같이, 이러한 메모리는 RAM, ROM, EEPROM, 플래시 메모리, 또는 컴퓨터에 액세스가능한 명령어 또는 데이터 구조의 형태로 원하는 프로그램 코드를 저장하기 위해 사용될 수 있는 임의의 다른 매체를 포함할 수 있지만, 이에 제한되지 않는다. 소스 디바이스(12) 및 목적지 디바이스(14)는, 데스크톱 컴퓨터, 모바일 컴퓨팅 장치, 노트북(예를 들어, 랩톱) 컴퓨터, 태블릿, 셋-톱 박스, "스마트(smart)" 폰과 같은 전화 핸드셋, 텔레비전 세트, 스피커, 디지털 미디어 플레이어, 비디오 게임 콘솔, 차량-내 컴퓨터, 임의의 웨어러블 디바이스, 가상 현실(virtual reality, VR) 디바이스, VR 서비스를 제공하는 서버, 증강 현실(augmented reality, AR) 디바이스, AR 서비스를 제공하는 서버, 무선 통신 디바이스, 및 이들의 유사한 디바이스를 포함하는, 다양한 장치들을 포함할 수 있다.

비록 도 1은 소스 디바이스(12)와 목적지 디바이스(14)를 개별 디바이스들로서 묘사하고 있지만, 디바이스 실시예는, 소스 디바이스(12)와 목적지 디바이스(14) 양자 모두, 또는 소스 디바이스(12)와 목적지 디바이스(14) 양자 모두의 기능성들, 즉, 소스 디바이스(12) 또는 대응하는 기능성 및 목적지 디바이스(14) 또는 대응하는 기능성을 대안적으로 포함할 수 있다. 이러한 실시예들에서, 소스 디바이스(12) 또는 대응하는 기능성 및 목적지 디바이스(14) 또는 대응하는 기능성은 동일한 하드웨어 및/또는 소프트웨어를 사용하여 또는 개별 하드웨어 및/또는 소프트웨어 또는 이들의 임의의 조합에 의해 구현될 수 있다.

소스 디바이스(12)와 목적지 디바이스(14) 사이의 통신 접속이 링크(13)를 통해 구현될 수 있고, 목적지 디바이스(14)는 링크(13)를 통해 소스 디바이스(12)로부터 인코딩된 오디오 데이터를 수신할 수 있다. 링크(13)는 인코딩된 오디오 데이터를 소스 디바이스(12)로부터 목적지 디바이스(14)로 이동시킬 수 있는 하나 이상의 매체 또는 장치를 포함할 수 있다. 예에서, 링크(13)는 소스 디바이스(12)가 인코딩된 오디오 데이터를 실시간으로 목적지 디바이스(14)에 직접 송신하는 것을 가능하게 하는 하나 이상의 통신 매체를 포함할 수 있다. 이러한 예에서, 소스 디바이스(12)는 통신 표준(예를 들어, 무선 통신 프로토콜)에 따라 인코딩된 오디오 데이터를 변조할 수 있고, 변조된 오디오 데이터를 목적지 디바이스(14)에 송신할 수 있다. 하나 이상의 통신 매체는 무선 통신 매체 및/또는 유선 통신 매체, 예를 들어, RF(radio frequency) 스펙트럼 또는 하나 이상의 물리적 송신 라인을 포함할 수 있다. 하나 이상의 통신 매체는 패킷-기반 네트워크의 일부를 형성할 수 있고, 패킷-기반 네트워크는, 예를 들어, 로컬 영역 네트워크, 광역 네트워크, 또는 글로벌 네트워크(예를 들어, 인터넷)이다. 하나 이상의 통신 매체는 라우터, 스위치, 기지국, 또는 소스 디바이스(12)로부터 목적지 디바이스(14)로의 통신을 용이하게 하는 다른 디바이스를 포함할 수 있다.

소스 디바이스(12)는 인코더(20)를 포함한다. 선택적으로, 소스 디바이스(12)는 오디오 소스(16), 전처리기(18), 및 통신 인터페이스(22)를 추가로 포함할 수 있다. 구체적인 구현에서, 인코더(20), 오디오 소스(16), 전처리기(18), 및 통신 인터페이스(22)는 소스 디바이스(12)에서의 하드웨어 컴포넌트들일 수 있거나, 또는 소스 디바이스(12)에서의 소프트웨어 프로그램들일 수 있다. 이들은 다음과 같이 개별적으로 설명된다.

오디오 소스(16)는, 예를 들어, 현실 세계로부터의 사운드를 캡처하도록 구성되는, 임의의 타입의 사운드 캡처 디바이스, 및/또는 임의의 타입의 오디오 생성 디바이스를 포함할 수 있거나 또는 그것일 수 있다. 오디오 소스(16)는 사운드를 캡처하도록 구성되는 마이크로폰 또는 오디오 데이터를 저장하도록 구성되는 메모리일 수 있고, 오디오 소스(16)는 이전에 캡처된 또는 생성된 오디오 데이터를 저장하기 위한 및/또는 오디오 데이터를 획득 또는 수신하기 위한 임의의 타입의 (내부 또는 외부) 인터페이스를 추가로 포함할 수 있다. 오디오 소스(16)가 마이크로폰일 때, 오디오 소스(16)는, 예를 들어, 소스 디바이스 내에 집적되는 마이크로폰 또는 로컬 마이크로폰일 수 있다. 오디오 소스(16)가 메모리일 때, 오디오 소스(16)는, 예를 들어, 소스 디바이스 내에 집적되는 메모리 또는 로컬 메모리일 수 있다. 오디오 소스(16)가 인터페이스를 포함할 때, 인터페이스는, 예를 들어, 외부 오디오 소스로부터 오디오 데이터를 수신하기 위한 외부 인터페이스일 수 있다. 예를 들어, 외부 오디오 소스는 마이크로폰, 외부 스토리지, 또는 외부 오디오 생성 디바이스와 같은 외부 사운드 캡처 디바이스이다. 인터페이스는 임의의 타입의 인터페이스, 예를 들어, 임의의 독점적 또는 표준화된 인터페이스 프로토콜에 따른, 유선 또는 무선 인터페이스 또는 광학 인터페이스일 수 있다.

본 출원의 이러한 실시예에서, 오디오 소스(16)로부터 전처리기(18)로 송신되는 오디오 데이터는 원시 오디오 데이터(17)라고 또한 지칭될 수 있다.

전처리기(18)는 원시 오디오 데이터(17)를 수신하고 전처리하여, 전처리된 오디오(19) 또는 전처리된 오디오 데이터(19)를 획득하도록 구성된다. 예를 들어, 전처리기(18)에 의해 수행되는 전처리는 필터링 또는 잡음 감소를 포함할 수 있다.

인코더(20)(또는 오디오 인코더(20)라고 지칭됨)는 전처리된 오디오 데이터(19)를 수신하도록 구성되고, 아래에 설명되는 인코딩 방법 실시예들을 수행하도록 구성되어, 인코더 사이드 상의 본 출원에서 설명되는 오디오 신호 인코딩 방법의 적용을 구현한다.

통신 인터페이스(22)는 인코딩된 오디오 데이터(21)를 수신하도록, 그리고 인코딩된 오디오 데이터(21)를 저장 또는 직접 재구성하기 위해 링크(13)를 통해 목적지 디바이스(14) 또는 임의의 다른 디바이스(예를 들어, 메모리)에 송신하도록 구성될 수 있다. 다른 디바이스는 디코딩 또는 저장을 위해 사용되는 임의의 디바이스일 수 있다. 통신 인터페이스(22)는, 예를 들어, 링크(13)를 통한 송신을 위해, 인코딩된 오디오 데이터(21)를 적절한 포맷, 예를 들어, 데이터 패킷으로 캡슐화하도록 구성될 수 있다.

목적지 디바이스(14)는 디코더(30)를 포함한다. 선택적으로, 목적지 디바이스(14)는 통신 인터페이스(28), 오디오 후처리기(32), 및 스피커 디바이스(34)를 추가로 포함할 수 있다. 이들은 다음과 같이 개별적으로 설명된다.

통신 인터페이스(28)는 소스 디바이스(12) 또는 임의의 다른 소스로부터 인코딩된 오디오 데이터(21)를 수신하도록 구성될 수 있다. 임의의 다른 소스는, 예를 들어, 저장 디바이스이다. 저장 디바이스는, 예를 들어, 인코딩된 오디오 데이터를 저장하기 위한 디바이스이다. 통신 인터페이스(28)는 소스 디바이스(12)와 목적지 디바이스(14) 사이의 링크(13)를 통해 또는 임의의 타입의 네트워크를 통해 인코딩된 오디오 데이터(21)를 송신 또는 수신하도록 구성될 수 있다. 링크(13)는, 예를 들어, 직접 유선 또는 무선 접속이다. 임의의 타입의 네트워크는, 예를 들어, 유선 또는 무선 네트워크 또는 이들의 임의의 조합, 또는 임의의 타입의 사설 또는 공중 네트워크, 또는 이들의 임의의 조합이다. 통신 인터페이스(28)는, 예를 들어, 통신 인터페이스(22)를 통해 송신되는 데이터 패킷을 캡슐해제화하여, 인코딩된 오디오 데이터(21)를 획득하도록 구성될 수 있다.

통신 인터페이스(28) 및 통신 인터페이스(22) 양자 모두는 단방향 통신 인터페이스들 또는 양방향 통신 인터페이스들로서 구성될 수 있고, 예를 들어, 접속을 수립하기 위해 메시지들을 전송 및 수신하도록, 그리고 인코딩된 오디오 데이터 송신과 같은 데이터 송신 및/또는 통신 링크에 관련된 임의의 다른 정보를 확인응답 및 교환하도록 구성될 수 있다.

디코더(30)(또는 디코더(30)라고 지칭됨)는 인코딩된 오디오 데이터(21)를 수신하도록, 그리고 디코딩된 오디오 데이터(31) 또는 디코딩된 오디오(31)를 제공하도록 구성된다. 일부 실시예들에서, 디코더(30)는 아래에 설명되는 디코딩 방법 실시예들을 수행하도록 구성될 수 있어, 디코더 사이드 상의 본 출원에서 설명되는 오디오 신호 디코딩 방법의 적용을 구현한다.

오디오 후처리기(32)는 디코딩된 오디오 데이터(31)(재구성된 오디오 데이터라고 또한 지칭됨)를 후처리하여, 후처리된 오디오 데이터(33)를 획득하도록 구성된다. 오디오 후처리기(32)에 의해 수행되는 후처리는, 예를 들어, 렌더링 또는 임의의 다른 처리를 포함할 수 있고, 후처리된 오디오 데이터(33)를 스피커 디바이스(34)에 송신하도록 추가로 구성될 수 있다.

스피커 디바이스(34)는 후처리된 오디오 데이터(33)를 수신하여, 예를 들어, 사용자 또는 시청자에게 오디오를 플레이하도록 구성된다. 스피커 디바이스(34)는 재구성된 사운드를 플레이하도록 구성되는 임의의 타입의 스피커일 수 있거나 또는 이를 포함할 수 있다.

이러한 설명들에 기초하여 해당 분야에서의 기술자에게 명백해지는 바와 같이, 도 1에 도시되는 소스 디바이스(12) 및/또는 목적지 디바이스(14)의 기능성들 또는 상이한 유닛들 기능성들의 존재 및 (정확한) 분할은 실제 디바이스 및 애플리케이션에 의존하여 변할 수 있다. 소스 디바이스(12) 및 목적지 디바이스(14)는, 임의의 타입의 핸드헬드 또는 고정형 디바이스, 예를 들어, 노트북 또는 랩톱 컴퓨터, 모바일 폰, 스마트폰, 패드 또는 태블릿 컴퓨터, 비디오 카메라, 데스크톱 컴퓨터, 셋-톱 박스, 텔레비전 세트, 카메라, 차량-내 디바이스, 사운드 박스, 디지털 미디어 플레이어, 오디오 게임 콘솔, (콘텐츠 서비스 서버 또는 콘텐츠 배포 서버와 같은) 오디오 스트리밍 송신 디바이스, 방송 수신기 디바이스, 방송 송신기 디바이스, 스마트 안경, 또는 스마트 워치를 포함하는, 광범위한 디바이스들 중 어느 하나를 포함할 수 있고, 임의의 타입의 운영 체제를 사용하지 않거나 또는 사용할 수 있다.

인코더(20) 및 디코더(30) 각각은 다양한 적절한 회로들, 예를 들어, 하나 이상의 마이크로프로세서, 디지털 신호 프로세서(digital signal processor, DSP), 주문형 집적 회로(application-specific integrated circuit, ASIC), 필드-프로그램가능 게이트 어레이(field programmable gate array, FPGA), 이산 로직, 하드웨어, 또는 이들의 임의의 조합 중 어느 하나로서 구현될 수 있다. 소프트웨어를 사용하여 이러한 기술들이 부분적으로 구현되면, 디바이스는 소프트웨어 명령어들을 적절한 비-일시적 컴퓨터-판독가능 저장 매체에 저장할 수 있고, 적어도 하나의 프로세서와 같은 하드웨어를 사용하여 명령어들을 실행하여, 본 개시내용의 기술들을 수행할 수 있다. 전술한 내용(하드웨어, 소프트웨어, 하드웨어와 소프트웨어의 조합 등을 포함함) 중 어느 하나는 적어도 하나의 프로세서로서 고려될 수 있다.

일부 경우들에서, 도 1에 도시되는 오디오 코딩 시스템(10)은 단지 예이고, 본 출원의 기술들은 인코딩 디바이스와 디코딩 디바이스 사이의 임의의 데이터 통신을 반드시 포함하는 것은 아닌 오디오 코딩 설정들(예를 들어, 오디오 인코딩 또는 오디오 디코딩)에 적용가능하다. 다른 예에서, 데이터는 로컬 메모리로부터 검색되거나, 네트워크를 통해 스트리밍 방식으로 송신되거나 등일 수 있다. 오디오 인코딩 디바이스는 데이터를 인코딩하고 데이터를 메모리에 저장할 수 있고, 및/또는 오디오 디코딩 디바이스는 메모리로부터 데이터를 검색하고 디코딩할 수 있다. 일부 예들에서, 서로 통신하지 않지만, 단순히 메모리에 데이터를 인코딩하는 및/또는 메모리로부터 데이터를 검색 및 디코딩하는 디바이스들에 의해 인코딩 및 디코딩이 수행된다.

인코더는 멀티-채널 인코더, 예를 들어, 스테레오 인코더, 5.1-채널 인코더, 또는 7.1-채널 인코더일 수 있다.

오디오 데이터는 오디오 신호라고 또한 지칭될 수 있다. 본 출원의 이러한 실시예에서의 오디오 신호는 오디오 인코딩 디바이스에서의 입력 신호이다. 오디오 신호는 복수의 프레임들을 포함할 수 있다. 예를 들어, 현재 프레임은 구체적으로 오디오 신호에서의 프레임일 수 있다. 본 출원의 실시예들에서, 현재 프레임의 오디오 신호 인코딩 및 디코딩이 설명을 위한 예로서 사용된다. 현재 프레임의 오디오 신호 인코딩 및 디코딩 방식들에 기초하여 오디오 신호에서의 현재 프레임의 이전 프레임 또는 다음 프레임이 대응하여 인코딩 및 디코딩될 수 있다. 오디오 신호에서의 현재 프레임의 이전 프레임 또는 다음 프레임의 인코딩 및 디코딩 프로세스들이 하나씩 설명되지는 않는다. 또한, 본 출원의 실시예들에서의 오디오 신호는 멀티-채널 오디오 신호일 수 있다, 즉, P개의 채널들을 포함한다. 본 출원의 실시예들은 멀티-채널 오디오 신호 코딩을 수행하기 위해 사용된다.

인코더는 본 출원의 실시예들에서의 멀티-채널 오디오 신호 인코딩 방법을 수행하여, 멀티-채널 사이드 정보의 비트들의 수량을 감소시킬 수 있다. 이러한 방식으로, 저장된 비트들이 인코더의 다른 기능 모듈에 할당될 수 있어, 디코더 사이드의 재구성된 오디오 신호의 품질을 개선하고 인코딩 품질을 개선한다. 이들의 구체적인 구현에 대해서는, 다음의 실시예의 구체적인 해설 및 설명을 참조한다.

도 2는 본 출원의 실시예에 따른 멀티-채널 오디오 신호 인코딩 방법의 흐름도이다. 본 출원의 이러한 실시예는 전술한 인코더에 의해 수행될 수 있다. 도 2에 도시되는 바와 같이, 이러한 실시예에서의 방법은 다음의 단계들을 포함할 수 있다.

단계 201: 멀티-채널 오디오 신호의 현재 프레임에서의 P개의 채널들의 오디오 신호들 및 P개의 채널들의 오디오 신호들의 각각의 에너지/진폭들을 획득함- P개의 채널들은 K개의 채널 쌍들을 포함함 -. 멀티-채널 신호는 5.1 채널들의 신호들(대응하여, P는 5 + 1 = 6을 충족함), 7.1 채널들의 신호들(대응하여, P는 7 + 1 = 8을 충족함), 11.1 채널들의 신호들(대응하여, P는 11 + 1 = 12를 충족함) 등일 수 있다.

각각의 채널 쌍(channel pair)은 2개의 채널들을 포함한다. P는 1 초과인 양의 정수이고, K는 양의 정수이고, P는 K × 2 이상이다.

일부 실시예들에서, P = 2K이다. K개의 채널 쌍들을 획득하기 위해 멀티-채널 오디오 신호의 현재 프레임에 대해 멀티-채널 신호 스크리닝 및 커플링이 수행된다. P개의 채널들은 K개의 채널 쌍들을 포함한다.

일부 실시예들에서, P = 2 × K + Q이고, Q는 양의 정수이다. P개의 채널들의 오디오 신호들은 Q개의 커플링되지 않은 모노 채널들의 오디오 신호들을 추가로 포함한다. 5.1 채널들의 신호들이 예로서 사용된다. 5.1 채널들은 L(left) 채널, R(right) 채널, C(center) 채널, 저 주파수 효과(low frequency effects, LFE) 채널, LS(left surround) 채널, 및 RS(right surround) 채널을 포함한다. 멀티-채널 처리에 참여하는 채널들은 멀티-채널 처리 표시기(MultiProcFlag)에 기초하여 5.1 채널들로부터의 스크리닝을 통해 획득되고, 예를 들어, 멀티-채널 처리에 참여하는 채널들은 L 채널, R 채널, C 채널, LS 채널, 및 RS 채널을 포함한다. 멀티-채널 처리에 참여하는 채널들 사이에 커플링이 수행된다. 예를 들어, L 채널 및 R 채널은 제1 채널 쌍을 형성하도록 커플링된다. LS 채널 및 RS 채널은 제2 채널 쌍을 형성하도록 커플링된다. LFE 채널 및 C 채널은 커플링되지 않는 채널들이다. 즉, P = 6, K = 2, 및 Q = 2이다. P개의 채널들은 제1 채널 쌍, 제2 채널 쌍, 및 커플링되지 않은 LFE 채널 및 C 채널을 포함한다.

예를 들어, 멀티-채널 처리에 참여하는 채널들 사이의 커플링을 수행하는 방식은 K개의 채널 쌍들이 복수의 반복들을 통해 결정되는 것, 즉, 하나의 채널 쌍이 하나의 반복에서 결정되는 것일 수 있다. 예를 들어, 멀티-채널 처리에 참여하는 P개의 채널들 중 임의의 2개 사이의 인터-채널 상관 값들이 제1 반복에서 계산되고, 가장 높은 인터-채널 상관 값들을 갖는 2개의 채널들이 제1 반복에서 선택되어 채널 쌍을 형성한다. 나머지 채널들(커플링된 채널들 이외의 P개의 채널들에서의 채널들)에서의 가장 높은 인터-채널 상관 값들을 갖는 2개의 채널들이 제2 반복에서 선택되어 채널 쌍을 형성한다. 유추에 의해, K개의 채널 쌍들이 획득된다.

본 출원의 이러한 실시예에서, K개의 채널 쌍들을 결정하기 위해 다른 커플링 방식이 대안적으로 사용될 수 있다는 점이 주목되어야 한다. 커플링의 전술한 예시적인 설명은 본 출원의 이러한 실시예에서 제한되지 않는다.

단계 202: P개의 채널들의 오디오 신호들의 각각의 에너지/진폭들에 기초하여 K개의 채널 쌍들의 에너지/진폭 등화 사이드 정보를 생성함.

본 출원의 이러한 실시예에서의 "에너지/진폭(energy/amplitude)"은 에너지 또는 진폭을 표현한다는 점이 주목되어야 한다. 또한, 실제 처리 절차에서, 프레임의 처리를 위해, 에너지 처리가 처음에 수행되면, 에너지 처리가 모든 후속 처리에서 수행되거나; 또는, 진폭 처리가 처음에 수행되면, 진폭 처리가 모든 후속 처리에서 수행된다.

예를 들어, K개의 채널 쌍들의 에너지 등화 사이드 정보는 P개의 채널들의 오디오 신호들의 에너지에 기초하여 생성된다. 즉, P개의 채널들의 에너지를 사용하여 에너지 등화가 수행되어, 에너지 등화 사이드 정보를 획득한다. 대안적으로, K개의 채널 쌍들의 에너지 등화 사이드 정보는 P개의 채널들의 오디오 신호들의 진폭들에 기초하여 생성된다. 즉, P개의 채널들의 진폭들을 사용하여 에너지 등화가 수행되어, 에너지 등화 사이드 정보를 획득한다. 대안적으로, K개의 채널 쌍들의 진폭 등화 사이드 정보는 P개의 채널들의 오디오 신호의 진폭에 기초하여 생성된다. 즉, P개의 채널들의 진폭을 사용하여 진폭 등화가 수행되어 진폭 등화 사이드 정보를 획득한다.

구체적으로, 본 발명의 이러한 실시예에서는 채널 쌍에 대해 스테레오 인코딩 처리가 수행되어, 인코딩 효율 및 인코딩 효과를 개선한다. 예를 들어, 현재 채널 쌍에 대해 스테레오 인코딩 처리가 수행되기 전에, 에너지/진폭 등화 후에 2개의 채널들의 에너지/진폭들을 획득하기 위해, 현재 채널 쌍의 2개의 채널들의 오디오 신호들의 에너지/진폭들에 대해 에너지/진폭 등화가 먼저 수행될 수 있고, 다음으로 에너지/진폭 등화 후의 에너지/진폭들에 기초하여 후속 스테레오 인코딩 처리가 수행된다. 구현에서, 모노 채널 및/또는 현재 채널 쌍 이외의 채널 쌍에 대응하는 오디오 신호 대신에, 현재 채널 쌍의 2개의 채널들의 오디오 신호들에 기초하여 에너지/진폭 등화가 수행될 수 있다. 다른 구현에서, 현재 채널 쌍의 2개의 채널들의 오디오 신호들 외에도, 다른 채널 쌍 및/또는 모노 채널에 대응하는 오디오 신호에 기초하여 에너지/진폭 등화가 대안적으로 수행될 수 있다.

디코딩된 신호를 획득하기 위해, 에너지/진폭 등화-해제를 수행하기 위해 디코더 사이드에 의해 에너지/진폭 등화 사이드 정보가 사용된다.

구현에서, 에너지/진폭 등화 사이드 정보는 고정-소수점 에너지/진폭 스케일링 비율 및 에너지/진폭 스케일링 식별자를 포함할 수 있다. 고정-소수점 에너지/진폭 스케일링 비율은 에너지/진폭 스케일링 비율 계수의 고정-소수점 값이고, 에너지/진폭 스케일링 비율 계수는 에너지/진폭 등화 전의 에너지/진폭 및 에너지/진폭 등화 후의 에너지/진폭에 기초하여 획득되며, 에너지/진폭 스케일링 식별자는 에너지/진폭 등화 후의 에너지/진폭이 에너지/진폭 등화 전의 에너지/진폭에 비해 증가 또는 감소된다는 점을 식별하기 위해 사용된다. 에너지/진폭 스케일링 비율 계수는 에너지/진폭 스케일링 비율 계수일 수 있고, 에너지/진폭 스케일링 비율 계수는 (0, 1) 사이에 있다.

채널 쌍이 예로서 사용된다. 채널 쌍의 에너지/진폭 등화 사이드 정보는 채널 쌍의 고정-소수점 에너지/진폭 스케일링 비율들 및 에너지/진폭 스케일링 식별자들을 포함할 수 있다. 예를 들어, 채널 쌍은 제1 채널 및 제2 채널을 포함하고, 채널 쌍의 고정-소수점 에너지/진폭 스케일링 비율은 제1 채널의 고정-소수점 에너지/진폭 스케일링 비율 및 제2 채널의 고정-소수점 에너지/진폭 스케일링 비율을 포함한다. 채널 쌍의 에너지/진폭 스케일링 식별자는 제1 채널의 에너지/진폭 스케일링 식별자 및 제2 채널의 에너지/진폭 스케일링 식별자를 포함한다. 제1 채널이 예로서 사용된다. 제1 채널의 고정-소수점 에너지/진폭 스케일링 비율은 제1 채널의 에너지/진폭 스케일링 비율 계수의 고정-소수점 값이다. 제1 채널의 에너지/진폭 스케일링 비율 계수는 에너지/진폭 등화 전의 제1 채널의 오디오 신호의 에너지/진폭 및 에너지/진폭 등화 후의 제1 채널의 오디오 신호의 에너지/진폭에 기초하여 획득된다. 제1 채널의 에너지/진폭 스케일링 식별자는 에너지/진폭 등화 전의 제1 채널의 오디오 신호의 에너지/진폭 및 에너지/진폭 등화 후의 제1 채널의 오디오 신호의 에너지/진폭에 기초하여 획득된다. 예를 들어, 제1 채널의 에너지/진폭 스케일링 비율 계수는, 에너지/진폭 등화 전의 제1 채널의 오디오 신호의 에너지/진폭과 에너지/진폭 등화 후의 제1 채널의 오디오 신호의 에너지/진폭 중 더 큰 것으로, 에너지/진폭 등화 전의 제1 채널의 오디오 신호의 에너지/진폭과 에너지/진폭 등화 후의 제1 채널의 오디오 신호의 에너지/진폭 중 더 작은 것으로 나누는 것에 의해 획득되는 값이다. 예를 들어, 에너지/진폭 등화 전의 제1 채널의 오디오 신호의 에너지/진폭이 에너지/진폭 등화 후의 제1 채널의 오디오 신호의 에너지/진폭 초과이면, 제1 채널의 에너지/진폭 스케일링 비율 계수는, 에너지/진폭 등화 전의 제1 채널의 오디오 신호의 에너지/진폭으로, 에너지/진폭 등화 후의 제1 채널의 오디오 신호의 에너지/진폭을 나누는 것에 의해 획득되는 값이다. 에너지/진폭 등화 전의 제1 채널의 오디오 신호의 에너지/진폭이 에너지/진폭 등화 후의 제1 채널의 오디오 신호의 에너지/진폭 초과일 때, 제1 채널의 에너지/진폭 스케일링 식별자는 1이다. 에너지/진폭 등화 전의 제1 채널의 오디오 신호의 에너지/진폭이 에너지/진폭 등화 후의 제1 채널의 오디오 신호의 에너지/진폭 초과일 때, 제1 채널의 에너지/진폭 스케일링 식별자는 0이다. 물론, 에너지/진폭 등화 전의 제1 채널의 오디오 신호의 에너지/진폭이 에너지/진폭 등화 후의 제1 채널의 오디오 신호의 에너지/진폭 초과일 때, 제1 채널의 에너지/진폭 스케일링 식별자는 대안적으로 0으로 설정될 수 있다는 점이 이해될 수 있다. 이들의 구현 원리들은 유사하고, 본 출원의 이러한 실시예는 전술한 설명에 의해 제한되지 않는다.

본 출원의 이러한 실시예에서의 에너지/진폭 스케일링 비율 계수는 부동-소수점 에너지/진폭 스케일링 비율 계수라고 또한 지칭될 수 있다.

다른 구현에서, 에너지/진폭 등화 사이드 정보는 고정-소수점 에너지/진폭 스케일링 비율을 포함할 수 있다. 고정-소수점 에너지/진폭 스케일링 비율은 에너지/진폭 스케일링 비율 계수의 고정-소수점 값이고, 에너지/진폭 스케일링 비율 계수는 에너지/진폭 등화 후의 에너지/진폭에 대한 에너지/진폭 등화 전의 에너지/진폭의 비율이다. 즉, 에너지/진폭 스케일링 비율 계수는 에너지/진폭 등화 후의 에너지/진폭으로 에너지/진폭 등화 전의 에너지/진폭을 나누는 것에 의해 획득되는 값이다. 에너지/진폭 스케일링 비율 계수가 1 미만일 때, 디코더 사이드는 에너지/진폭 등화 후의 에너지/진폭이 에너지/진폭 등화 전의 에너지/진폭에 비해 증가된다고 결정할 수 있다. 에너지/진폭 스케일링 비율 계수가 1 초과일 때, 디코더 사이드는 에너지/진폭 등화 후의 에너지가 에너지/진폭 등화 전의 에너지/진폭에 비해 감소된다고 결정할 수 있다. 물론, 에너지/진폭 스케일링 비율 계수는 대안적으로 에너지/진폭 등화 전의 에너지/진폭으로 에너지/진폭 등화 후의 에너지/진폭을 나누는 것에 의해 획득되는 값일 수 있다는 점이 이해될 수 있다. 이들의 구현 원리들은 유사하다. 본 출원의 이러한 실시예는 전술한 설명에 의해 제한되지 않는다. 이러한 구현에서, 에너지/진폭 등화 사이드 정보는 어떠한 에너지/진폭 스케일링 식별자도 포함하지 않을 수 있다.

단계 203: K개의 채널 쌍들의 에너지/진폭 등화 사이드 정보 및 P개의 채널들의 오디오 신호들을 인코딩하여, 인코딩된 비트스트림을 획득함.

K개의 채널 쌍들의 에너지/진폭 등화 사이드 정보 및 P개의 채널들의 오디오 신호들이 인코딩되어, 인코딩된 비트스트림을 획득한다. 즉, K개의 채널 쌍들의 에너지/진폭 등화 사이드 정보가 인코딩된 비트스트림에 기입된다. 다시 말해서, 인코딩된 비트스트림은, 커플링되지 않은 채널의 에너지/진폭 등화 사이드 정보 대신에, K개의 채널 쌍들의 에너지/진폭 등화 사이드 정보를 운반한다. 이러한 것은 인코딩된 비트스트림에서의 에너지/진폭 등화 사이드 정보의 비트들의 수량을 감소시킬 수 있다.

일부 실시예들에서, 인코딩된 비트스트림은 현재 프레임에서의 채널 쌍들의 수량 및 K개의 채널 쌍 인덱스들을 추가로 운반하고, 채널 쌍들의 수량 및 K개의 채널 쌍 인덱스들은 스테레오 디코딩 및 에너지/진폭 등화-해제와 같은 처리를 수행하기 위해 디코더 사이드에 의해 사용된다. 채널 쌍 인덱스는 채널 쌍에 포함되는 2개의 채널들을 표시한다. 다시 말해서, 단계 203의 구현은 K개의 채널 쌍들의 에너지/진폭 등화 사이드 정보, 채널 쌍의 수량, K개의 채널 쌍 인덱스들, 및 P개의 채널들의 오디오 신호를 인코딩하여, 인코딩된 비트스트림을 획득하는 것이다. 채널 쌍들의 수량은 K일 수 있다. K개의 채널 쌍 인덱스들은 K개의 채널 쌍들에 대응하는 채널 쌍 인덱스들을 포함한다.

채널 쌍들의 수량, K개의 채널 쌍 인덱스들, 및 K개의 채널 쌍들의 에너지/진폭 등화 사이드 정보를 인코딩된 비트스트림에 기입하는 시퀀스는 다음과 같을 수 있다: 채널 쌍들의 수량이 먼저 기입되어, 수신된 비트스트림을 디코딩할 때 디코더 사이드가 채널 쌍들의 수량을 먼저 획득한다. 다음으로, K개의 채널 쌍 인덱스들 및 K개의 채널 쌍들의 에너지/진폭 등화 사이드 정보가 기입된다.

채널 쌍들의 수량은 0일 수 있다는, 즉, 커플링된 채널들이 없다는 점이 추가로 주목되어야 한다. 이러한 경우, 채널 쌍들의 수량 및 P개의 채널들의 오디오 신호들이 인코딩되어, 인코딩된 비트스트림을 획득한다. 디코더 사이드는 수신된 비트스트림을 디코딩하고, 채널 쌍들의 수량이 0이라는 점을 먼저 학습한다. 이러한 경우, 디코더 사이드는 에너지/진폭 등화 사이드 정보를 획득하기 위해 파싱을 수행하지 않고 디코딩될 멀티-채널 오디오 신호의 현재 프레임을 직접 디코딩할 수 있다.

인코딩된 비트스트림이 획득되기 전에, 채널의 고정-소수점 에너지/진폭 스케일링 비율 및 에너지/진폭 스케일링 식별자에 기초하여 채널의 현재 프레임에서의 계수들에 대해 에너지/진폭 등화가 추가로 수행될 수 있다.

이러한 실시예에서, 멀티-채널 오디오 신호의 현재 프레임의 P개의 채널들이 획득되고- P개의 채널들은 K개의 채널 쌍들을 포함함 -; P개의 채널들의 오디오 신호들의 에너지/진폭들에 기초하여 K개의 채널 쌍들의 에너지/진폭 등화 사이드 정보가 생성되고; K개의 채널 쌍들의 에너지/진폭 등화 사이드 정보에 기초하여 P개의 채널들의 오디오 신호들이 인코딩되어, 인코딩된 비트스트림을 획득한다. 채널 쌍들의 에너지/진폭 등화 사이드 정보가 생성되고, 인코딩된 비트스트림은 커플링되지 않은 채널의 에너지/진폭 등화 사이드 정보를 운반하지 않고 K개의 채널 쌍들의 에너지/진폭 등화 사이드 정보를 운반한다. 이러한 것은 인코딩된 비트스트림에서의 에너지/진폭 등화 사이드 정보의 비트들의 수량 및 멀티-채널 사이드 정보의 비트들의 수량을 감소시킬 수 있다. 또한, 디코더 사이드의 재구성된 오디오 신호의 품질을 개선하고 코딩 품질을 개선하기 위해, 저장된 비트들이 인코더의 다른 기능 모듈에 할당될 수 있다.

도 3은 본 출원의 실시예에 따른 멀티-채널 오디오 신호 인코딩 방법의 흐름도이다. 본 출원의 이러한 실시예는 전술한 인코더에 의해 수행될 수 있다. 이러한 실시예는 도 2에 도시되는 실시예에서의 방법의 구체적인 구현이다. 도 3에 도시되는 바와 같이, 이러한 실시예에서의 방법은 다음의 단계들을 포함할 수 있다.

단계 301: 멀티-채널 오디오 신호의 현재 프레임에서의 P개의 채널들의 오디오 신호들을 획득함.

단계 302: 멀티-채널 오디오 신호의 현재 프레임에서의 P개의 채널들에 대해 멀티-채널 신호 스크리닝 및 커플링을 수행하여, K개의 채널 쌍들 및 K개의 채널 쌍 인덱스들을 결정함.

스크리닝 및 커플링의 구체적인 구현들에 대해서는, 도 2에 도시되는 실시예에서의 단계 201의 해설 및 설명을 참조한다.

채널 쌍 인덱스는 채널 쌍에 포함되는 2개의 채널들을 표시한다. 채널 쌍 인덱스의 상이한 값들은 2개의 상이한 채널 쌍에 대응한다. 채널 쌍 인덱스의 값과 2개의 채널들 사이의 대응관계는 미리 설정될 수 있다.

5.1 채널들의 신호들이 예로서 사용된다. 예를 들어, L 채널 및 R 채널은 제1 채널 쌍을 형성하도록 필터링 및 커플링을 통해 커플링된다. LS 채널 및 RS 채널은 제2 채널 쌍을 형성하도록 커플링된다. LFE 채널 및 C 채널은 커플링되지 않는 채널들이다. 즉, K = 2이다. 제1 채널 쌍 인덱스는 L 채널 및 R 채널이 커플링된다는 점을 표시한다. 예를 들어, 제1 채널 쌍 인덱스의 값은 0이다. 제2 채널 쌍 인덱스는 LS 채널 및 RS 채널이 커플링된다는 점을 표시한다. 예를 들어, 제2 채널 쌍 인덱스의 값은 9이다.

단계 303: K개의 채널 쌍들의 각각의 오디오 신호들에 대해 에너지/진폭 등화 처리를 수행하여, 에너지/진폭 등화 후의 K개의 채널 쌍들의 각각의 오디오 신호들 및 K개의 채널 쌍들의 각각의 에너지/진폭 등화 사이드 정보를 획득함.

채널 쌍의 에너지/진폭 등화 처리가 예로서 사용된다. 구현에서, 에너지/진폭 등화 처리는 채널 쌍의 입도로 수행된다: 에너지/진폭 등화 후의 채널 쌍의 2개의 채널들의 오디오 신호들의 각각의 에너지/진폭들이 에너지/진폭 등화 전의 채널 쌍의 2개의 채널들의 오디오 신호들의 각각의 에너지/진폭들에 기초하여 결정된다. 에너지/진폭 등화 전의 채널 쌍의 2개의 채널들의 오디오 신호들의 각각의 에너지/진폭들 및 에너지/진폭 등화 후의 2개의 채널들의 오디오 신호들의 각각의 에너지/진폭들에 기초하여 현재 채널 쌍의 에너지/진폭 등화 사이드 정보가 생성되고, 에너지/진폭 등화 후의 2개의 채널들의 오디오 신호들이 획득된다.

에너지/진폭 등화 후의 채널 쌍의 2개의 채널들의 오디오 신호들의 각각의 에너지/진폭들을 결정하기 위해, 다음의 방식이 사용될 수 있다: 에너지/진폭 등화 전의 채널 쌍의 2개의 채널들의 오디오 신호들의 각각의 에너지/진폭들에 기초하여 채널 쌍의 오디오 신호들의 평균 에너지/진폭 값을 결정하고, 채널 쌍의 오디오 신호들의 평균 에너지/진폭 값에 기초하여, 에너지/진폭 등화 후의 채널 쌍의 2개의 채널들의 오디오 신호들의 각각의 에너지/진폭들을 결정함. 예를 들어, 에너지/진폭 등화 후의 채널 쌍의 2개의 채널들의 오디오 신호들의 각각의 에너지/진폭들은 동일하고, 각각은 채널 쌍의 오디오 신호들의 평균 에너지/진폭 값이다.

위에 설명된 바와 같이, 채널 쌍은 제1 채널 및 제2 채널을 포함할 수 있고, 채널 쌍의 에너지/진폭 등화 사이드 정보는 제1 채널의 고정-소수점 에너지/진폭 스케일링 비율, 제2 채널의 고정-소수점 에너지/진폭 스케일링 비율, 제1 채널의 에너지/진폭 스케일링 식별자, 및 제2 채널의 에너지/진폭 스케일링 식별자를 포함한다.

일부 실시예들에서, 에너지/진폭 등화 전의 q번째 채널의 오디오 신호의 에너지/진폭 및 에너지/진폭 등화 후의 q번째 채널의 오디오 신호의 에너지/진폭에 기초하여 채널 쌍의 q번째 채널의 에너지/진폭 스케일링 비율 계수가 결정될 수 있다. q번째 채널의 에너지/진폭 스케일링 비율 계수에 기초하여 q번째 채널의 고정-소수점 에너지/진폭 스케일링 비율이 결정된다. 에너지/진폭 등화 전의 q번째 채널의 에너지/진폭 및 에너지/진폭 등화 후의 q번째 채널의 에너지/진폭에 기초하여 q번째 채널의 에너지/진폭 스케일링 식별자가 결정된다. q는 1 또는 2이다.

예를 들어, 다음의 공식들 (1) 내지(3)에 따라 채널 쌍의 q번째 채널의 고정-소수점 에너지/진폭 스케일링 비율 및 q번째 채널의 에너지/진폭 스케일링 식별자가 결정될 수 있다.

공식들 (1) 및 (2)에 따라 q번째 채널의 고정-소수점 에너지/진폭 스케일링 비율이 계산된다.

(1)

(2)

는 q번째 채널의 고정-소수점 에너지/진폭 스케일링 비율이고,

는 q번째 채널의 부동-소수점 에너지/진폭 스케일링 비율 계수이고, M은 부동-소수점 에너지/진폭 스케일링 비율 계수로부터 고정-소수점 에너지/진폭 스케일링 비율로의 변경을 위한 비트들의 고정-소수점 수량이고, 함수 clip(x, a, b)는 [a, b] 사이에서 x를 클립핑하는 양방향 클립 함수이고,

이고, a ≤ b 이고, ceil(x)은 x를 반올림하는 함수이다. M은 임의의 정수일 수 있고, 예를 들어, M은 4이다.

energy_q가 energy_q_e 초과일 때, energyBigFlag_q는 1로 설정되거나; 또는 energy_q가 energy_q_e 이하일 때, energyBigFlag_q는 0으로 설정된다.

energy_q는 에너지/진폭 등화 전의 q번째 채널의 에너지/진폭이고, energy_q_e는 에너지/진폭 등화 후의 q번째 채널의 에너지/진폭이고, energyBigFlag_q는 q번째 채널의 에너지/진폭 스케일링 식별자이다. energy_q_e는 채널 쌍의 2개의 채널들의 평균 에너지/진폭 값일 수 있다.

전술한 공식 (1)에서

를 결정하는 방식은 다음과 같다: energy_q가 energy_q_e 초과일 때, scaleF_q는 energy_q_e/energy_q와 동일하거나; 또는 energy_q가 energy_q_e 이하일 때, scaleF_q는 energy_q/energy_q_e와 동일하다.

energy_q는 에너지/진폭 등화 전의 q번째 채널의 에너지/진폭이고, energy_q_e는 에너지/진폭 등화 후의 q번째 채널의 에너지/진폭이고, scaleF_q는 q번째 채널의 부동-소수점 에너지/진폭 스케일링 비율 계수이다.

energy_q는 다음의 공식 (3)에 따라 결정된다:

(3)

는 에너지/진폭 등화 전의 q번째 채널의 현재 프레임의 i번째 계수를 표현하고, N은 현재 프레임의 주파수 도메인 계수들의 수량이다.

에너지/진폭 등화 처리 절차에서, q번째 채널의 고정-소수점 에너지/진폭 스케일링 비율 및 q번째 채널의 에너지/진폭 스케일링 식별자에 기초하여 q번째 채널의 현재 프레임에 대해 에너지/진폭 등화가 수행되어, 에너지/진폭 등화 후의 q번째 채널의 오디오 신호를 획득할 수 있다.

예를 들어, energyBigFlag_q가 1이면, q_e(i) = q(i) × scaleInt_q/(1 << M)이거나; 또는 energyBigFlag_q가 0일 때, q_e(i) = q(i) × (1 << M)/scaleInt_q이다.

i는 현재 프레임의 계수를 식별하기 위해 사용되고, q(i)는 에너지/진폭 등화 전의 현재 프레임의 i번째 주파수 도메인 계수이고, q_e(i)는 에너지/진폭 등화 후의 현재 프레임의 i번째 주파수 도메인 계수이고, M은 부동-소수점 에너지/진폭 스케일링 비율 계수로부터 고정-소수점 에너지/진폭 스케일링 비율 계수로의 변경을 위한 고정-소수점 비트들의 수량이다.

다른 구현에서, 에너지/진폭 등화 처리는 모든 채널들, 모든 채널 쌍들, 또는 모든 채널들에서의 채널들의 일부의 입도로 수행된다. 예를 들어, P개의 채널들의 오디오 신호들의 평균 에너지/진폭 값이 에너지/진폭 등화 전에 P개의 채널들의 오디오 신호들의 각각의 에너지/진폭들에 기초하여 결정되고, 에너지/진폭 등화 후의 채널 쌍의 2개의 채널들의 오디오 신호들의 각각의 에너지 또는 진폭들이 P개의 채널들의 오디오 신호들의 평균 에너지/진폭 값에 기초하여 결정된다. 예를 들어, P개의 채널들의 오디오 신호들의 평균 에너지/진폭 값은 에너지/진폭 등화 후의 채널 쌍에서의 임의의 채널의 오디오 신호의 에너지 또는 진폭으로서 사용될 수 있다. 즉, 에너지/진폭 등화 후의 에너지 또는 진폭을 결정하는 방식은 전술한 가능한 구현에서의 것과 상이하고, 에너지/진폭 등화 사이드 정보를 결정하는 방식은 전술한 가능한 구현에서의 것과 동일할 수 있다. 이러한 방식들의 구체적인 구현들에 대해서는, 전술한 설명을 참조한다. 상세사항들이 본 명세서에 다시 설명되지는 않는다.

전술한 실시예에서, 현재 채널 쌍의 에너지/진폭 등화 사이드 정보는 제1 채널의 고정-소수점 에너지/진폭 스케일링 비율 및 에너지/진폭 스케일링 식별자, 및 제2 채널의 고정-소수점 에너지/진폭 스케일링 비율 및 에너지/진폭 스케일링 식별자를 포함한다. 즉, 현재 채널(제1 채널 또는 제2 채널)에 대해, 사이드 정보는 고정-소수점 에너지/진폭 스케일링 비율 및 에너지/진폭 스케일링 식별자 양자 모두를 포함한다. 이러한 것은 다음의 이유에 의해 야기된다: 에너지/진폭 스케일링 비율이 에너지/진폭 등화 전의 현재 채널의 에너지/진폭과 에너지/진폭 등화 후의 현재 채널의 에너지/진폭 사이의 더 큰 것 대 더 작은 것의 비율, 또는 더 작은 것 대 더 큰 것의 비율로서 획득되기 때문에, 획득된 에너지/진폭 스케일링 비율은 고정적으로 1 이상이거나 또는 획득된 에너지/진폭 스케일링 비율은 고정적으로 1 이하이다. 결과로서, 에너지/진폭 등화 후의 에너지/진폭이 에너지/진폭 등화 전의 에너지/진폭 초과인지는 에너지/진폭 스케일링 비율 또는 고정-소수점 에너지/진폭 스케일링 비율만을 단지 사용하여 결정될 수 없으며, 따라서 표시를 위해 에너지/진폭 스케일링 식별자가 요구된다.

이러한 양태의 다른 실시예에서, 에너지/진폭 등화 전의 현재 채널의 에너지/진폭 및 에너지/진폭 등화 후의 현재 채널의 에너지/진폭이 고정적으로 사용될 수 있다. 대안적으로, 에너지/진폭 등화 후의 현재 채널의 에너지/진폭 및 에너지/진폭 등화 전의 현재 채널의 에너지/진폭이 고정적으로 사용된다. 이러한 경우, 에너지/진폭 스케일링 식별자는 표시를 위해 사용될 필요가 없다. 이에 대응하여, 현재 채널의 사이드 정보는 고정-소수점 에너지/진폭 스케일링 비율을 포함할 수 있지만, 에너지/진폭 스케일링 식별자를 포함할 필요는 없다.

단계 304: 에너지/진폭 등화 후의 K개의 채널 쌍들의 각각의 오디오 신호들에 대해 스테레오 처리를 수행하여, K개의 채널 쌍들의 각각의 스테레오 처리된 오디오 신호들 및 K개의 채널 쌍들의 각각의 스테레오 사이드 정보를 획득함.

채널 쌍이 예로서 사용된다. 에너지/진폭 등화 후의 채널 쌍의 2개의 채널들의 오디오 신호들에 대해 스테레오 처리가 수행되어, 2개의 채널들의 스테레오 처리된 오디오 신호들을 획득하고 채널 쌍의 스테레오 사이드 정보를 생성한다.

단계 305: K개의 채널 쌍들의 스테레오 처리된 오디오 신호들, K개의 채널 쌍들의 에너지/진폭 등화 사이드 정보, K개의 채널 쌍들의 스테레오 사이드 정보, K, K개의 채널 쌍 인덱스들, 및 커플링되지 않는 채널의 오디오 신호를 인코딩하여, 인코딩된 비트스트림을 획득함.

K개의 채널 쌍들의 스테레오 처리된 오디오 신호들, K개의 채널 쌍들의 에너지/진폭 등화 사이드 정보, K개의 채널 쌍들의 스테레오 사이드 정보, 채널 쌍들의 수량 (K), K개의 채널 쌍 인덱스들, 및 커플링되지 않는 채널의 오디오 신호가 인코딩되어, 디코더 사이드가 디코딩을 수행하여 재구성된 오디오 신호를 획득하기 위한 인코딩된 비트스트림을 획득한다.

이러한 실시예에서, 멀티-채널 오디오 신호의 현재 프레임에서의 P개의 채널들의 오디오 신호들이 획득되고, 멀티-채널 오디오 신호의 현재 프레임에서의 P개의 채널들에 대해 멀티-채널 신호 스크리닝 및 커플링이 수행되어 K개의 채널 쌍들 및 K개의 채널 쌍 인덱스들을 결정하고, K개의 채널 쌍들의 각각의 오디오 신호들에 대해 에너지/진폭 등화 처리가 수행되어 에너지/진폭 등화 후의 K개의 채널 쌍들의 각각의 오디오 신호들 및 K개의 채널 쌍들의 각각의 에너지/진폭 등화 사이드 정보를 획득하고, 에너지/진폭 등화 후의 K개의 채널 쌍들의 각각의 오디오 신호들에 대해 스테레오 처리가 수행되어 K개의 채널 쌍들의 각각의 스테레오 처리된 오디오 신호들 및 K개의 채널 쌍들의 각각의 스테레오 사이드 정보를 획득하고, K개의 채널 쌍들의 스테레오 처리된 오디오 신호들, K개의 채널 쌍들의 에너지/진폭 등화 사이드 정보, K개의 채널 쌍들의 스테레오 사이드 정보, K개의 채널 쌍 인덱스들, 및 커플링되지 않은 채널의 오디오 신호가 인코딩되어 인코딩된 비트스트림을 획득한다. 채널 쌍들의 에너지/진폭 등화 사이드 정보가 생성되고, 인코딩된 비트스트림은 커플링되지 않은 채널의 에너지/진폭 등화 사이드 정보를 운반하지 않고 K개의 채널 쌍들의 에너지/진폭 등화 사이드 정보를 운반한다. 이러한 것은 인코딩된 비트스트림에서의 에너지/진폭 등화 사이드 정보의 비트들의 수량 및 멀티-채널 사이드 정보의 비트들의 수량을 감소시킬 수 있다. 또한, 디코더 사이드의 재구성된 오디오 신호의 품질을 개선하고 코딩 품질을 개선하기 위해, 저장된 비트들이 인코더의 다른 기능 모듈에 할당될 수 있다.

본 출원의 이러한 실시예에서의 멀티-채널 오디오 신호 인코딩 방법을 설명하기 위해 다음의 실시예에서 예로서 5.1 채널들의 신호들이 사용된다.

도 4는 본 출원의 실시예에 따른 인코더 사이드의 처리 절차의 개략도이다. 도 4에 도시되는 바와 같이, 인코더 사이드는 멀티-채널 인코딩 처리 유닛(401), 채널 인코딩 유닛(402), 및 비트스트림 멀티플렉싱 인터페이스(403)를 포함할 수 있다. 인코더 사이드는 위에 설명된 인코더일 수 있다.

멀티-채널 인코딩 처리 유닛(401)은, 입력 신호에 대해 멀티-채널 신호 스크리닝, 커플링, 및 스테레오 처리를 수행하도록; 그리고 에너지/진폭 등화 사이드 정보 및 스테레오 사이드 정보를 생성하도록 구성된다. 이러한 실시예에서, 입력 신호는 5.1 채널들(L 채널, R 채널, C 채널, LFE 채널, LS 채널, 및 RS 채널)의 신호들이다.

예에서, 멀티-채널 인코딩 처리 유닛(401)은 L 채널 신호 및 R 채널 신호를 커플링하여 제1 채널 쌍을 형성하고, 스테레오 처리를 수행하여 중간 채널 M1 채널 신호 및 사이드 채널 S1 채널 신호를 획득한다. LS 채널 신호 및 RS 채널 신호는 커플링되어 제2 채널 쌍을 형성하고, 스테레오 처리가 수행되어 중간 채널 M2 채널 신호 및 사이드 채널 S2 채널 신호를 획득한다. 멀티-채널 인코딩 처리 유닛(401)의 구체적인 설명에 대해서는, 도 5에 도시되는 실시예를 참조한다.

멀티-채널 인코딩 처리 유닛(401)은 스테레오 처리된 M1 채널 신호, 스테레오 처리된 S1 채널 신호, 스테레오 처리된 M2 채널 신호, 스테레오 처리된 S2 채널 신호, 에너지/진폭 등화 사이드 정보, 스테레오 사이드 정보, 채널 쌍 인덱스들, 및 스테레오 처리를 겪지 않은 LFE 채널 신호 및 C 채널 신호를 출력한다.

채널 인코딩 유닛(402)은 스테레오 처리된 M1 채널 신호, 스테레오 처리된 S1 채널 신호, 스테레오 처리된 M2 채널 신호, 스테레오 처리된 S2 채널 신호, 멀티-채널 사이드 정보, 및 스테레오 처리를 겪지 않은 LFE 채널 신호 및 C 채널 신호를 인코딩하여, 인코딩된 채널들 E1 내지 E6을 출력하도록 구성된다. 멀티-채널 사이드 정보는 에너지/진폭 등화 사이드 정보, 스테레오 사이드 정보, 및 채널 쌍 인덱스들을 포함할 수 있다. 물론, 멀티-채널 사이드 정보는 비트 할당 사이드 정보, 엔트로피 인코딩된 사이드 정보 등을 추가로 포함할 수 있다는 점이 이해될 수 있다. 이러한 것은 본 출원의 이러한 실시예에서 구체적으로 제한되지 않는다. 채널 인코딩 유닛(402)은 인코딩된 채널들 E1 내지 E6을 비트스트림 멀티플렉싱 인터페이스(403)에 전송한다.

비트스트림 멀티플렉싱 인터페이스(403)는 6개의 인코딩된 채널들 E1 내지 E6을 멀티플렉싱하여, 직렬 비트스트림(bitStream), 즉, 인코딩된 비트스트림을 형성하여, 채널 상의 멀티-채널 오디오 신호의 송신 또는 디지털 매체에서의 멀티-채널 오디오 신호의 저장을 용이하게 한다.

도 5는 본 출원의 일 실시예에 따른 멀티-채널 인코딩 처리 유닛의 처리 절차의 개략도이다. 도 5에 도시되는 바와 같이, 멀티-채널 인코딩 처리 유닛(401)은 멀티-채널 스크리닝 유닛(4011) 및 반복 처리 유닛(4012)을 포함할 수 있다. 반복 처리 유닛(4012)은, 커플링 결정 유닛(40121), 채널 쌍 에너지/진폭 등화 유닛(40122), 채널 쌍 에너지/진폭 등화 유닛(40123), 스테레오 처리 유닛(40124), 및 스테레오 처리 유닛(40125)을 포함할 수 있다.

멀티-채널 스크리닝 유닛(4011)은, 멀티-채널 처리 표시기(MultiProcFlag)에 기초하여 5.1 입력 채널들(L 채널, R 채널, C 채널, LS 채널, RS 채널, 및 LFE 채널)로부터의 스크리닝을 통해, 멀티-채널 처리에 참여하는 채널들: L 채널, R 채널, C 채널, LS 채널, 및 RS 채널을 획득한다.

반복 처리 유닛(4012)에서의 커플링 결정 유닛(40121)은 제1 반복 단계에서 L 채널, R 채널, C 채널, LS 채널 및 RS 채널에서의 채널들의 각각의 쌍 사이의 인터-채널 상관 값을 계산한다. 제1 반복 단계에서, 가장 높은 인터-채널 상관 값들을 갖는 채널 쌍(L 채널, R 채널)이 채널들(L 채널, R 채널, C 채널, LS 채널, 및 RS 채널)로부터 선택되어 제1 채널 쌍을 형성한다. 채널 쌍 에너지/진폭 등화 유닛(40122)은 L 채널 및 R 채널에 대해 에너지/진폭 등화를 수행하여, L_e 채널 및 R_e 채널을 획득한다. 스테레오 처리 유닛(40124)은 L_e 채널 및 R_e 채널에 대해 스테레오 처리를 수행하여, 제1 채널 쌍의 사이드 정보, 및 스테레오 처리되는 중간 채널 M1 및 사이드 채널 S1을 획득한다. 제1 채널 쌍의 사이드 정보는 제1 채널 쌍의 에너지/진폭 등화 사이드 정보, 스테레오 사이드 정보, 및 채널 인덱스들을 포함한다. 제2 반복 단계에서, 가장 높은 인터-채널 상관 값들을 갖는 채널 쌍(LS 채널, RS 채널)이 채널들(C 채널, LS 채널, 및 RS 채널)로부터 선택되어 제2 채널 쌍을 형성한다. 에너지/진폭 등화 유닛(40123)은 LS 채널 및 RS 채널에 대해 에너지/진폭 등화를 수행하여, LS_e 채널 및 RS_e 채널을 획득한다. 스테레오 처리 유닛(40125)은 LS_e 채널 및 RS_e 채널에 대해 스테레오 처리를 수행하여, 제2 채널 쌍의 사이드 정보, 및 스테레오 처리되는 중간 채널 M2 및 사이드 채널 S2를 획득한다. 제2 채널 쌍의 사이드 정보는 제2 채널 쌍의 에너지/진폭 등화 사이드 정보, 스테레오 사이드 정보, 및 채널 인덱스들을 포함한다. 제1 채널 쌍의 사이드 정보 및 제2 채널 쌍의 사이드 정보는 멀티-채널 사이드 정보를 구성한다.

채널 쌍 에너지/진폭 등화 유닛(40122) 및 채널 쌍 에너지/진폭 등화 유닛(40123) 각각은 입력 채널 쌍의 에너지/진폭들을 평균하여, 등화된 에너지/등화된 진폭을 획득한다.

예를 들어, 채널 쌍 에너지/진폭 등화 유닛(40122)은 다음의 공식 (4)에 따라 등화된 에너지/등화된 진폭을 결정할 수 있다:

energy_avg_pair1 = avg(energy_L, energy_R) (4)

2개의 파라미터들 a₁ 및 a₂의 평균 값을 출력하기 위해 함수 avg(a₁, a₂)가 사용된다. energy_L은 에너지/진폭 등화 전의 L 채널의 프레임 에너지/프레임 진폭이고, energy_R은 에너지/진폭 등화 전의 R 채널의 프레임 에너지/프레임 진폭이고, energy_avg_pair1은 에너지/진폭 등화 후의 제1 채널 쌍의 프레임 에너지/프레임 진폭이다.

energy_L 및 energy_R은 전술한 공식 (3)에 따라 결정될 수 있다.

채널 쌍 에너지/진폭 등화 유닛(40123)은 다음의 공식 (4)에 따라 등화된 에너지/등화된 진폭을 결정할 수 있다:

energy_avg_pair2 = avg(energy_LS, energy_RS) (5)

2개의 파라미터들 a₁ 및 a₂의 평균 값을 출력하기 위해 함수 avg(a₁, a₂)가 사용된다. energy_LS는 에너지/진폭 등화 전의 LS 채널의 프레임 에너지/프레임 진폭이고, energy_RS는 에너지/진폭 등화 전의 RS 채널의 프레임 에너지/프레임 진폭이고, energy_avg_pair2는 에너지/진폭 등화 후의 제2 채널 쌍의 에너지/진폭이다.

또한, 전술한 실시예에서의 제1 채널 쌍의 에너지/진폭 등화 사이드 정보 및 제2 채널 쌍의 에너지/진폭 등화 사이드 정보는 에너지/진폭 등화 프로세스에서 생성된다. 제1 채널 쌍의 에너지/진폭 등화 사이드 정보 및 제2 채널 쌍의 에너지/진폭 등화 사이드 정보는 송신을 위해 인코딩된 비트스트림에 있어, 디코더 사이드의 에너지/진폭 등화-해제를 표시한다.

제1 채널 쌍의 에너지/진폭 등화 사이드 정보를 결정하는 방식이 설명된다.

S01: 제1 채널 쌍의 채널 쌍 에너지/진폭 등화 유닛(40122)에 의해 등화되는, 에너지/진폭 energy_avg_pair1을 계산함. energy_avg_pair1은 전술한 공식 (4)에 따라 결정된다.

S02: 제1 채널 쌍의 L 채널의 부동-소수점 에너지/진폭 스케일링 비율 계수를 계산함.

예에서, L 채널의 부동-소수점 에너지/진폭 스케일링 비율 계수는 scaleF_L이다. 부동-소수점 에너지/진폭 스케일링 비율 계수는 (0, 1) 사이에 있다. energy_L > energy_L_e이면, scaleF_L = energy_L_e/energy_L이거나; 또는 energy_L ≤ energy_L_e이면, scaleF_L = energy_L/energy_L_e이다.

energy_L_e는 energy_avg_pair1과 동일하다.

S03: 제1 채널 쌍의 L 채널의 고정-소수점 에너지/진폭 스케일링 비율을 계산함.

예에서, L 채널의 고정-소수점 에너지/진폭 스케일링 비율은 scaleInt_L이다. 부동-소수점 에너지/진폭 스케일링 비율 계수 scaleF_L로부터 고정-소수점 에너지/진폭 스케일링 비율 scaleInt_L까지의 비트들의 고정-소수점 수량은 고정 값이다. 비트들의 고정-소수점 수량은 부동 소수점으로부터 고정 소수점으로의 변환의 정밀도를 결정하고, 송신 효율이 또한 고려될 필요가 있다(사이드 정보가 비트들을 점유하기 때문임). 본 명세서에서, 비트들의 고정-소수점 수량은 4(즉, M = 4)라고 가정된다. 이러한 경우, L 채널의 고정-소수점 에너지/진폭 스케일링 비율을 계산하기 위한 공식은 다음과 같다:

이고, a ≤ b이다. 함수 ceil(x)은 x를 반올림하는 함수이다. 함수 clip(x, a, b)는 [a, b] 사이에서 x를 클립핑하는 양방향 클립 함수이다.

S04: 제1 채널 쌍의 L 채널의 에너지/진폭 스케일링 식별자를 계산함.

예에서, L 채널의 에너지/진폭 스케일링 식별자는 energyBigFlag_L이다. energy_L이 energy_L_e 초과이면, energyBigFlag_L은 1로 설정되거나; 또는 energy_L이 energy_L_e 이하이면, energyBigFlag_L은 0으로 설정된다.

L 채널의 현재 프레임에서의 각각의 계수에 대해 에너지/진폭 등화를 수행하는 것에 관한 상세사항들은 다음과 같다:

energyBigFlag_L이 1이면, L_e(i) = L(i) × scaleInt_L/(1 << 4)이다. i는 현재 프레임의 계수를 식별하기 위해 사용되고, L(i)은 에너지/진폭 등화 전의 현재 프레임의 i번째 주파수 도메인 계수이고, L_e(i)는 에너지/진폭 등화 후의 현재 프레임의 i번째 주파수 도메인 계수이다. energyBigFlag_L이 0이면, L_e(i) = L(i) × (1 << 4)/scaleInt_L이다.

유사한 동작들 S01 내지 S04가 제1 채널 쌍의 R 채널에 대해 수행되어, R 채널의 부동-소수점 에너지/진폭 스케일링 비율 계수 scaleF_R, 고정-소수점 에너지/진폭 스케일링 비율 scaleInt_R, 및 에너지/진폭 스케일링 식별자 energyBigFlag_R, 및 에너지/진폭 등화 후의 현재 프레임 R_e를 획득할 수 있다. 즉, S01 내지 S04에서의 L이 R로 대체된다.

유사한 동작들 S01 내지 S04가 제2 채널 쌍의 LS 채널에 대해 수행되어, LS 채널의 부동-소수점 에너지/진폭 스케일링 비율 계수 scaleF_LS, 고정-소수점 에너지/진폭 스케일링 비율 scaleInt_LS, 에너지/진폭 스케일링 식별자 energyBigFlag_LS, 및 에너지/진폭 등화 후의 현재 프레임 LS_e를 획득할 수 있다. 즉, S01 내지 S04의 L이 LS로 대체된다.

유사한 동작들 S01 내지 S04가 제2 채널 쌍의 RS 채널에 대해 수행되어, RS 채널의 부동-소수점 에너지/진폭 스케일링 비율 계수 scaleF_RS, 고정-소수점 에너지/진폭 스케일링 비율 scaleInt_RS, 및 에너지/진폭 스케일링 식별자 energyBigFlag_RS, 및 에너지/진폭 등화 후의 현재 프레임 RS_e를 획득할 수 있다.

인코딩된 비트스트림에 멀티-채널 사이드 정보가 기입된다. 멀티-채널 사이드 정보는 채널 쌍들의 수량, 제1 채널 쌍의 에너지/진폭 등화 사이드 정보, 제1 채널 쌍 인덱스, 제2 채널 쌍의 에너지/진폭 등화 사이드 정보, 및 제2 채널 쌍 인덱스를 포함한다.

예를 들어, 채널 쌍들의 수량은 currPairCnt이고, 제1 채널 쌍의 에너지/진폭 등화 사이드 정보 및 제2 채널 쌍의 에너지/진폭 등화 사이드 정보는 2-차원 어레이이고, 제1 채널 쌍 인덱스 및 제2 채널 쌍 인덱스는 1-차원 어레이이다. 예를 들어, 제1 채널 쌍의 고정-소수점 에너지/진폭 스케일링 비율은 PairILDScale[0][0] 및 PairILDScale[0][1]이고, 제1 채널 쌍의 에너지/진폭 스케일링 식별자는 energyBigFlag[0][0] 및 energyBigFlag[0][1]이고, 제2 채널 쌍의 고정-소수점 에너지/진폭 스케일링 비율은 PairILDScale[1][0] 및 PairILDScale[1][1]이고, 제2 채널 쌍의 에너지/진폭 스케일링 식별자는 energyBigFlag[1][0] 및 energyBigFlag[1][1]이다. 제1 채널 쌍 인덱스는 PairIndex[0]이고, 제2 채널 쌍 인덱스는 PairIndex[1]이다.

채널 쌍들의 수량 currPairCnt는 고정된 비트 길이, 예를 들어, 4 비트의 것일 수 있고, 최대 16개의 스테레오 쌍들을 식별할 수 있다.

테이블 1은 채널 쌍 인덱스들 PairIndex[pair]의 값들의 정의들을 보여준다. 채널 쌍 인덱스는 길이-가변 코드일 수 있고, 비트들을 절약하기 위해, 인코딩된 비트스트림에서의 송신을 위해 사용되고, 디코더 사이드의 오디오 신호를 복원하기 위해 사용된다. 예를 들어, PairIndex[0] = 0이면, 이는 채널 쌍이 R 채널 및 L 채널을 포함한다는 점을 표시한다.

이러한 실시예에서, PairILDScale[0][0] = scaleInt_L이다. PairILDScale[0][1] = scaleInt_R이다.

PairILDScale[1][0] = scaleInt_LS이다. PairILDScale[1][1] = scaleInt_RS이다.

energyBigFlag[0][0] = energyBigFlag_L이다. energyBigFlag[0][1] = energyBigFlag_R이다.

energyBigFlag[1][0] = energyBigFlag_LS이다. energyBigFlag[1][1] = energyBigFlag_RS이다.

PairIndex[0] = 0 (L 및 R)이다. PairIndex[1] = 9 (LS 및 RS)이다.

예를 들어, 도 6은 멀티-채널 사이드 정보를 비트스트림에 기입하는 절차를 도시한다. 단계 601: 변수 쌍을 0으로 설정하고, 채널 쌍들의 수량을 비트스트림에 기입함. 예를 들어, 채널 쌍들의 수량 currPairCnt는 4 비트의 것일 수 있다. 단계 602: 쌍이 채널 쌍들의 수량 미만인지를 결정하고; 쌍이 채널 쌍들의 수량 미만이면, 단계 603을 수행하거나; 또는 쌍이 채널 쌍들의 수량 이상이면, 절차가 종료된다. 단계 603: i번째 채널 쌍의 인덱스를 비트스트림에 기입함. i = pair + 1이다. 예를 들어, PairIndex[0]이 비트스트림에 기입된다. 단계 604: i번째 채널 쌍의 고정-소수점 에너지/진폭 스케일링 비율들을 비트스트림에 기입함. 예를 들어, PairILDScale[0][0] 및 PairILDScale[0][1]이 비트스트림에 기입된다. PairILDScale[0][0] 및 PairILDScale[0][1] 각각은 4 비트를 점유할 수 있다. 단계 605: i번째 채널 쌍의 에너지/진폭 스케일링 식별자를 비트스트림에 기입함. 예를 들어, energyBigFlag[0][0] 및 energyBigFlag[0][1]이 비트스트림에 기입된다. energyBigFlag[0][0] 및 energyBigFlag[0][1] 각각은 1 비트를 점유할 수 있다. 단계 606: i번째 채널 쌍의 스테레오 사이드 정보를 비트스트림에 기입하고, pair = pair + 1로 설정하고, 단계 602로 복귀함. 단계 602가 복귀된 후, 절차가 종료될 때까지 PairIndex[1], PairILDScale[1][0], PairILDScale[1][1], energyBigFlag[1][0], 및 energyBigFlag[1][1]이 비트스트림에 기입된다.

도 7은 본 출원의 실시예에 따른 멀티-채널 오디오 신호 디코딩 방법의 흐름도이다. 본 출원의 이러한 실시예는 전술한 디코더에 의해 수행될 수 있다. 도 7에 도시되는 바와 같이, 이러한 실시예에서의 방법은 다음의 단계들을 포함할 수 있다.

단계 701: 디코딩될 비트스트림을 획득함.

디코딩될 비트스트림은 전술한 인코딩 방법 실시예에서 획득되는 인코딩된 비트스트림일 수 있다.

단계 702: 디코딩될 비트스트림을 디멀티플렉싱하여, 디코딩될 멀티-채널 오디오 신호의 현재 프레임 및 현재 프레임에 포함되는 채널 쌍들의 수량을 획득함.

5.1 채널들의 신호들이 예로서 사용된다. 디코딩될 비트스트림은 디멀티플렉싱되어 M1 채널 신호, S1 채널 신호, M2 채널 신호, S2 채널 신호, LFE 채널 신호, C 채널 신호, 및 채널 쌍들의 수량을 획득한다.

단계 703: 채널 쌍들의 수량이 0과 동일한지를 결정하고; 채널 쌍들의 수량이 0과 동일하면, 단계 704를 수행하거나; 또는 채널 쌍들의 수량이 0과 동일하지 않으면, 단계 705를 수행한다.

단계 704: 디코딩될 멀티-채널 오디오 신호의 현재 프레임을 디코딩하여 현재 프레임의 디코딩된 신호들을 획득함.

채널 쌍들의 수량이 0과 동일할 때, 즉, 채널들이 커플링되지 않을 때, 디코딩될 멀티-채널 오디오 신호의 현재 프레임이 디코딩되어 현재 프레임의 디코딩된 신호들을 획득할 수 있다.

단계 705: 현재 프레임을 파싱하여 현재 프레임에 포함되는 K개의 채널 쌍 인덱스들 및 K개의 채널 쌍들의 에너지/진폭 등화 사이드 정보를 획득함.

채널 쌍들의 수량이 K와 동일할 때, 현재 프레임은 다른 제어 정보, 예를 들어, 현재 프레임에서의 K개의 채널 쌍 인덱스들 및 K개의 채널 쌍들의 에너지/진폭 등화 사이드 정보를 획득하기 위해 추가로 파싱될 수 있어, 후속 디코딩 프로세스에서 디코딩될 멀티-채널 오디오 신호의 현재 프레임에 대해 에너지/진폭 등화-해제가 수행되어 현재 프레임의 디코딩된 신호들을 획득한다.

단계 706: K개의 채널 쌍 인덱스들 및 K개의 채널 쌍들의 에너지/진폭 등화 사이드 정보에 기초하여, 디코딩될 멀티-채널 오디오 신호의 현재 프레임을 디코딩하여, 현재 프레임의 디코딩된 신호들을 획득함.

5.1 채널들의 신호들이 예로서 사용된다. M1 채널 신호, S1 채널 신호, M2 채널 신호, S2 채널 신호, LFE 채널 신호 및 C 채널 신호가 디코딩되어 L 채널 신호, R 채널 신호, LS 채널 신호, RS 채널 신호, LFE 채널 신호 및 C 채널 신호를 획득한다. 디코딩 프로세스에서, K개의 채널 쌍들의 에너지/진폭 등화 사이드 정보에 기초하여 에너지/진폭 등화-해제가 수행된다.

일부 실시예들에서, 채널 쌍의 에너지/진폭 등화 사이드 정보는 채널 쌍의 고정-소수점 에너지/진폭 스케일링 비율들 및 에너지/진폭 스케일링 식별자들을 포함할 수 있다. 이들의 구체적인 해설에 대해서는, 전술한 인코딩 실시예에서의 해설을 참조한다. 상세사항들이 본 명세서에 다시 설명되지는 않는다.

이러한 실시예에서, 디코딩될 비트스트림이 디멀티플렉싱되어, 디코딩될 멀티-채널 오디오 신호의 현재 프레임 및 현재 프레임에 포함되는 채널 쌍들의 수량을 획득한다. 채널 쌍들의 수량이 0 초과일 때, 현재 프레임이 추가로 파싱되어 K개의 채널 쌍 인덱스들 및 K개의 채널 쌍들의 에너지/진폭 등화 사이드 정보를 획득하고, 디코딩될 멀티-채널 오디오 신호의 현재 프레임이 K개의 채널 쌍 인덱스들 및 K개의 채널 쌍들의 에너지/진폭 등화 사이드 정보에 기초하여 디코딩되어 현재 프레임의 디코딩된 신호들을 획득한다. 비트스트림은 커플링되지 않은 채널의 에너지/진폭 등화 사이드 정보를 운반하지 않기 때문에 인코더 사이드에 의해 전송되는 인코딩된 비트스트림에서의 에너지/진폭 등화 사이드 정보의 비트들의 수량 및 멀티-채널 사이드 정보의 비트들의 수량이 감소될 수 있다. 이러한 방식으로, 디코더 사이드의 재구성된 오디오 신호의 품질을 개선하기 위해, 저장된 비트들이 인코더의 다른 기능 모듈에 할당될 수 있다.

본 출원의 이러한 실시예에서의 멀티-채널 오디오 신호 디코딩 방법을 설명하기 위해 다음의 실시예에서 예로서 5.1 채널들의 신호들이 사용된다.

도 8은 본 출원의 실시예에 따른 디코더 사이드의 처리 절차의 개략도이다. 도 8에 도시되는 바와 같이, 디코더 사이드는 비트스트림 디멀티플렉싱 인터페이스(801), 채널 디코딩 유닛(802) 및 멀티-채널 디코딩 처리 유닛(803)을 포함할 수 있다. 이러한 실시예에서의 디코딩 프로세스는 도 4 및 도 5에 도시되는 실시예들에서의 인코딩 프로세스의 역 프로세스이다.

비트스트림 디멀티플렉싱 인터페이스(801)는 인코더 사이드에 의해 출력되는 비트스트림을 디멀티플렉싱하여, 6개의 인코딩된 채널들 E1 내지 E6을 획득하도록 구성된다.

채널 디코딩 유닛(802)은 인코딩된 채널들 E1 내지 E6에 대해 역 엔트로피 인코딩 및 역 양자화를 수행하여, 제1 채널 쌍의 중간 채널 M1 및 사이드 채널 S1, 제2 채널 쌍의 중간 채널 M2 및 사이드 채널 S2, 및 커플링되지 않은 C 채널 및 LFE 채널을 포함하는, 멀티-채널 신호를 획득하도록 구성된다. 채널 디코딩 유닛(802)은 디코딩을 또한 수행하여 멀티-채널 사이드 정보를 획득한다. 멀티-채널 사이드 정보는 도 4에 도시되는 실시예에서의 채널 인코딩 처리 절차에서 생성되는 사이드 정보(예를 들어, 엔트로피 인코딩된 사이드 정보), 및 멀티-채널 인코딩 처리 절차에서 생성되는 사이드 정보(예를 들어, 채널 쌍의 에너지/진폭 등화 사이드 정보)를 포함한다.

멀티-채널 디코딩 처리 유닛(803)은 제1 채널 쌍의 중간 채널 M1 및 사이드 채널 S1과 제2 채널 쌍의 중간 채널 M2 및 사이드 채널 S2에 대해 멀티-채널 디코딩 처리를 수행한다. 멀티-채널 사이드 정보는, 제1 채널 쌍의 중간 채널 M1 및 사이드 채널 S1을 L 채널 및 R 채널로 디코딩하고, 제2 채널 쌍의 중간 채널 M2 및 사이드 채널 S2를 LS 채널 및 RS 채널로 디코딩하기 위해 사용된다. L 채널, R 채널, LS 채널, RS 채널, 및 커플링되지 않은 C 채널 및 LFE 채널은 디코더 사이드의 출력을 구성한다.

도 9는 본 출원의 일 실시예에 따른 멀티-채널 디코딩 처리 유닛의 처리 절차의 개략도이다. 도 9에 도시되는 바와 같이, 멀티-채널 디코딩 처리 유닛(803)은 멀티-채널 스크리닝 유닛(8031) 및 멀티-채널 디코딩 처리 서브모듈(8032)을 포함할 수 있다. 멀티-채널 인코딩 처리 서브모듈(8032)은 2개의 스테레오 디코딩 박스들, 에너지/진폭 등화-해제 유닛(8033) 및 에너지/진폭 등화-해제 유닛(8034)을 포함한다.

멀티-채널 스크리닝 유닛(8031)은, 멀티-채널 사이드 정보에서의 채널 쌍들의 수량 및 채널 쌍 인덱스들에 기초하여 5.1 입력 채널들(M1 채널, S1 채널, C 채널, M2 채널, S2 채널, 및 LFE 채널)로부터 스크리닝을 통해, 멀티-채널 처리에 참여하는 M1 채널, S1 채널, M2 채널, 및 S2 채널을 획득한다.

멀티-채널 디코딩 처리 서브모듈(8032)의 스테레오 디코딩 박스는 다음의 단계들: 제1 채널 쌍의 스테레오 사이드 정보에 기초하여, 스테레오 디코딩 박스가 제1 채널 쌍(M1, S1)을 L_e 채널 및 R_e 채널로 디코딩한다는 점을 표시하는 단계; 제2 채널 쌍의 스테레오 사이드 정보에 기초하여, 스테레오 디코딩 박스가 제2 채널 쌍(M2, S2)을 LS_e 채널 및 RS_e 채널로 디코딩한다는 점을 표시하는 단계를 수행하도록 구성된다.

에너지/진폭 등화-해제 유닛(8033)은 다음의 단계: 제1 채널 쌍의 에너지/진폭 사이드 정보에 기초하여, 제1 채널 쌍 등화-해제 유닛이 L 채널 및 R 채널로의 복원을 위해 L_e 채널 및 R_e 채널의 에너지/진폭을 등화-해제한다는 점을 표시하는 단계를 수행하도록 구성된다. 에너지/진폭 등화-해제 유닛(8034)은 다음의 단계: 제2 채널 쌍의 에너지/진폭 등화 사이드 정보에 기초하여, 제1 채널 쌍 등화-해제 유닛이 LS_e 채널 및 RS_e 채널을 LS 채널 및 RS 채널로 복원한다는 점을 표시하는 단계를 수행하도록 구성된다.

멀티-채널 사이드 정보 디코딩 프로세스가 설명된다. 도 10은 본 출원의 실시예에 따른 멀티-채널 사이드 정보를 파싱하는 흐름도이다. 이러한 실시예는 도 6에 도시되는 실시예의 역 프로세스이다. 도 10에 도시되는 바와 같이, 이러한 방법은 다음의 단계들을 포함한다. 단계 701: 비트스트림을 파싱하여 현재 프레임에서의 채널 쌍들의 수량, 예를 들어, 채널 쌍들의 수량 currPairCnt를 획득함- 채널 쌍들의 수량 currPairCnt는 비트스트림에서 4 비트를 점유함 -. 단계 702: 현재 프레임에서의 채널 쌍들의 수량이 0인지를 결정하고; 현재 프레임에서의 채널 쌍들의 수량이 0이면, 파싱 프로세스가 종료되거나; 또는 현재 프레임에서의 채널 쌍들의 수량이 0이 아니면, 단계 703을 수행하거나- 현재 프레임에서의 채널 쌍들의 수량 currPairCnt가 0이면, 이는 현재 프레임에서 커플링이 수행되지 않는 점을 표시하고; 이러한 경우, 파싱을 통해 에너지/진폭 등화 사이드 정보를 획득할 필요가 없음 -; 또는 현재 프레임에서의 채널 쌍들의 수량 currPairCnt가 0이 아니면, 제1 채널 쌍의 에너지/진폭 등화 사이드 정보, ..., 및 (currPairCnt)번째 채널 쌍의 에너지/진폭 등화 사이드 정보에 대해 순환 파싱이 수행됨. 예를 들어, 변수 쌍은 0으로 설정된다. 또한, 후속 단계들 703 내지 707이 수행된다. 단계 703: 쌍이 채널 쌍들의 수량 미만인지를 결정하고; 쌍이 채널 쌍들의 수량 미만이면, 단계 704를 수행하거나; 또는 쌍이 채널 쌍들의 수량 이상이면, 프로세스가 종료됨. 단계 704: 비트스트림으로부터 i번째 채널 쌍의 인덱스를 파싱함- i = pair + 1임 -. 단계 705: 비트스트림으로부터 i번째 채널 쌍의 고정-소수점 에너지/진폭 스케일링 비율들, 예를 들어, PairILDScale[pair][0] 및 PairILDScale[pair][1]을 파싱함. 단계 706: 비트스트림으로부터 i번째 채널 쌍의 에너지/진폭 스케일링 식별자들, 예를 들어, energyBigFlag[pair][0] 및 energyBigFlag[pair][1]을 파싱함. 단계 707: 비트스트림으로부터 i번째 채널 쌍의 스테레오 사이드 정보를 파싱하고, pair = pair + 1로 설정하고, 모든 채널 쌍 인덱스들, 고정-소수점 에너지/진폭 스케일링 비율들, 및 에너지/진폭 스케일링 식별자들이 파싱을 통해 획득될 때까지 단계 703으로 복귀함.

제1 채널 쌍의 사이드 정보를 파싱하는 프로세스 및 제2 채널 쌍의 사이드 정보를 파싱하는 프로세스를 설명하는 예로서 인코더 사이드 상의 5.1 채널들(L, R, C, LFE, LS, RS)의 신호들이 사용된다.

제1 채널 쌍의 사이드 정보를 파싱하는 프로세스는 다음과 같다: 4-비트 채널 쌍 인덱스 PairIndex[0]가 비트스트림으로부터 파싱되고, 채널 쌍 인덱스의 정의 규칙에 따라 L 채널 및 R 채널로 맵핑된다. L 채널의 고정-소수점 에너지/진폭 스케일링 비율 PairILDScale[0][0] 및 R 채널의 고정-소수점 에너지/진폭 스케일링 비율 PairILDScale[0][1]이 비트스트림으로부터 파싱된다. L 채널의 에너지/진폭 스케일링 식별자 energyBigFlag[0][0] 및 R 채널의 에너지/진폭 스케일링 식별자 energyBigFlag[0][1]가 비트스트림으로부터 파싱된다. 제1 채널 쌍의 스테레오 사이드 정보가 비트스트림으로부터 파싱된다. 제1 채널 쌍의 사이드 정보의 파싱이 완료된다.

제2 채널 쌍의 사이드 정보를 파싱하는 프로세스는 다음과 같다: 4-비트 채널 쌍 인덱스 PairIndex[1]가 비트스트림으로부터 파싱되고, 채널 쌍 인덱스의 정의 규칙에 따라 LS 채널과 RS 채널로 맵핑된다. LS 채널의 고정-소수점 에너지/진폭 스케일링 비율 PairILDScale[1][0] 및 RS 채널의 고정-소수점 에너지/진폭 스케일링 비율 PairILDScale[1][1]이 비트스트림으로부터 파싱된다. LS 채널의 에너지/진폭 스케일링 식별자 energyBigFlag[1][0] 및 RS 채널의 에너지/진폭 스케일링 식별자 energyBigFlag[1][1이 비트스트림으로부터 파싱된다. 제2 채널 쌍의 스테레오 사이드 정보가 비트스트림으로부터 파싱된다. 제2 채널 쌍의 사이드 정보의 파싱이 완료된다.

에너지/진폭 등화-해제 유닛(8033)이 제1 채널 쌍의 L_e 채널 및 R_e 채널의 에너지/진폭을 등화-해제하도록 구성되는 프로세스는 다음과 같다:

L 채널의 부동-소수점 에너지/진폭 스케일링 비율 계수 scaleF_L이 L 채널의 고정-소수점 에너지/진폭 스케일링 비율 PairILDScale[0][0] 및 L 채널의 에너지/진폭 스케일링 식별자 energyBigFlag[0][0]에 기초하여 계산된다. L 채널의 에너지/진폭 스케일링 식별자 energyBigFlag[0][0]가 1이면, scaleF_L = (1 << 4)/PairILDScale[0][0]이거나; 또는 L 채널의 에너지/진폭 스케일링 식별자 energyBigFlag[0][0]가 0이면, scaleF_L = PairILDScale[0][0]/(1 << 4)이다.

L 채널의 부동-소수점 에너지/진폭 스케일링 비율 계수 scaleF_L에 기초하여 에너지/진폭 등화-해제 후의 L 채널의 주파수 도메인 계수가 획득된다. L(i) = L_e(i) × scaleF_L이고, 여기서 i는 현재 프레임의 계수를 식별하기 위해 사용되고, L(i)은 에너지/진폭 등화 전의 현재 프레임의 i번째 주파수 도메인 계수이고, L_e(i)는 에너지/진폭 등화 후의 현재 프레임의 i번째 주파수 도메인 계수이다.

R 채널의 부동-소수점 에너지/진폭 스케일링 비율 계수 scaleF_R이 R 채널의 고정-소수점 에너지/진폭 스케일링 비율 PairILDScale[0][1] 및 R 채널의 에너지/진폭 스케일링 식별자 energyBigFlag[0][1]에 기초하여 계산된다. R 채널의 에너지/진폭 스케일링 식별자 energyBigFlag[0][1]가 1이면, scaleF_R = (1 << 4)/PairILDScale[0][1]이거나; 또는 R 채널의 에너지/진폭 스케일링 식별자 energyBigFlag[0][1]가 0이면, scaleF_R = PairILDScale[0][1]/(1 << 4)이다.

R 채널의 부동-소수점 에너지/진폭 스케일링 비율 계수 scaleF_R에 기초하여 에너지/진폭 등화-해제 후의 R 채널의 주파수 도메인 계수가 획득된다. R(i) = R_e(i) × scaleF_R이고, 여기서 i는 현재 프레임의 계수를 식별하기 위해 사용되고, L(i)은 에너지/진폭 등화 전의 현재 프레임의 i번째 주파수 도메인 계수이고, L_e(i)는 에너지/진폭 등화 후의 현재 프레임의 i번째 주파수 도메인 계수이다.

에너지/진폭 등화-해제 유닛(8034)이 제2 채널 쌍의 LS_e 채널 및 RS_e 채널의 에너지/진폭들을 등화-해제하도록 구성되는 구체적인 구현은 제1 채널 쌍의 L_e 채널 및 R_e 채널의 에너지/진폭들을 등화-해제하는 구현과 일치한다. 상세사항들이 본 명세서에 다시 설명되지는 않는다.

멀티-채널 디코딩 처리 유닛(803)의 출력은, 디코딩된 L 채널 신호, R 채널 신호, LS 채널 신호, RS 채널 신호, C 채널 신호, 및 LFE 채널 신호이다.

이러한 실시예에서, 비트스트림은 커플링되지 않은 채널의 에너지/진폭 등화 사이드 정보를 운반하지 않기 때문에 인코더 사이드에 의해 전송되는 인코딩된 비트스트림에서의 에너지/진폭 등화 사이드 정보의 비트들의 수량 및 멀티-채널 사이드 정보의 비트들의 수량이 감소될 수 있다. 이러한 방식으로, 디코더 사이드의 재구성된 오디오 신호의 품질을 개선하기 위해, 저장된 비트들이 인코더의 다른 기능 모듈에 할당될 수 있다.

전술한 방법과 동일한 발명 아이디어에 기초하여, 본 출원의 실시예는 오디오 신호 인코딩 장치를 추가로 제공한다. 이러한 오디오 신호 인코딩 장치는 오디오 인코더에서 사용될 수 있다.

도 11은 본 출원의 실시예에 따른 오디오 신호 인코딩 장치의 구조의 개략도이다. 도 11에 도시되는 바와 같이, 오디오 신호 인코딩 장치(1100)는 획득 모듈(1101), 등화 사이드 정보 생성 모듈(1102), 및 인코딩 모듈(1103)을 포함한다.

획득 모듈(1101)은 멀티-채널 오디오 신호의 현재 프레임에서의 P개의 채널들의 오디오 신호들 및 P개의 채널들의 오디오 신호들의 각각의 에너지/진폭들을 획득하도록 구성되고, P는 1 초과인 양의 정수이고, P개의 채널들은 K개의 채널 쌍들을 포함하고, 각각의 채널 쌍은 2개의 채널들을 포함하고, K는 양의 정수이고, P는 K × 2 이상이다.

등화 사이드 정보 생성 모듈(1102)은 P개의 채널들의 오디오 신호들의 각각의 에너지/진폭들에 기초하여 K개의 채널 쌍들의 에너지/진폭 등화 사이드 정보를 생성하도록 구성된다.

인코딩 모듈(1103)은 K개의 채널 쌍들의 에너지/진폭 등화 사이드 정보 및 P개의 채널들의 오디오 신호들을 인코딩하여, 인코딩된 비트스트림을 획득하도록 구성된다.

일부 실시예들에서, K개의 채널 쌍들은 현재 채널 쌍을 포함하고, 현재 채널 쌍의 에너지/진폭 등화 사이드 정보는 현재 채널 쌍의 고정-소수점 에너지/진폭 스케일링 비율들 및 에너지/진폭 스케일링 식별자들을 포함한다. 고정-소수점 에너지/진폭 스케일링 비율은 에너지/진폭 스케일링 비율 계수의 고정-소수점 값이고, 에너지/진폭 스케일링 비율 계수는 에너지/진폭 등화 전의 현재 채널 쌍의 2개의 채널들의 오디오 신호들의 각각의 에너지/진폭들 및 에너지/진폭 등화 후의 2개의 채널들의 오디오 신호들의 각각의 에너지/진폭들에 기초하여 획득되고, 에너지/진폭 스케일링 식별자는 에너지/진폭 등화 후의 현재 채널 쌍의 2개의 채널들의 오디오 신호들의 각각의 에너지/진폭들이 에너지/진폭 등화 전의 오디오 신호들의 각각의 에너지/진폭들에 비해 증가 또는 감소된다는 점을 식별하기 위해 사용된다.

일부 실시예들에서, K개의 채널 쌍들은 현재 채널 쌍을 포함하고, 등화 사이드 정보 생성 모듈(1102)은, 에너지/진폭 등화 전의 현재 채널 쌍의 2개의 채널들의 오디오 신호들의 각각의 에너지/진폭들에 기초하여, 에너지/진폭 등화 후의 현재 채널 쌍의 2개의 채널들의 오디오 신호들의 각각의 에너지/진폭들을 결정하도록; 그리고 에너지/진폭 등화 전의 현재 채널 쌍의 2개의 채널들의 오디오 신호들의 각각의 에너지/진폭들 및 에너지/진폭 등화 후의 2개의 채널들의 오디오 신호들의 각각의 에너지/진폭들에 기초하여 현재 채널 쌍의 에너지/진폭 등화 사이드 정보를 생성하도록 구성된다.

일부 실시예들에서, 현재 채널 쌍은 제1 채널 및 제2 채널을 포함하고, 현재 채널 쌍의 에너지/진폭 등화 사이드 정보는 제1 채널의 고정-소수점 에너지/진폭 스케일링 비율, 제2 채널의 고정-소수점 에너지/진폭 스케일링 비율, 제1 채널의 에너지/진폭 스케일링 식별자, 및 제2 채널의 에너지/진폭 스케일링 식별자를 포함한다.

일부 실시예들에서, 등화 사이드 정보 생성 모듈(1102)은, 에너지/진폭 등화 전의 q번째 채널의 에너지/진폭 및 에너지/진폭 등화 후의 q번째 채널의 오디오 신호의 에너지/진폭에 기초하여 현재 채널 쌍의 q번째 채널의 오디오 신호의 에너지/진폭 스케일링 비율 계수를 결정하도록; q번째 채널의 에너지/진폭 스케일링 비율 계수에 기초하여 q번째 채널의 고정-소수점 에너지/진폭 스케일링 비율을 결정하도록; 그리고 에너지/진폭 등화 전의 q번째 채널의 에너지/진폭, 및 에너지/진폭 등화 후의 q번째 채널의 에너지/진폭에 기초하여 q번째 채널의 에너지/진폭 스케일링 식별자를 결정하도록 구성되고, q는 1 또는 2이다.

일부 실시예들에서, 등화 사이드 정보 생성 모듈(1102)은, 에너지/진폭 등화 전의 현재 채널 쌍의 2개의 채널들의 오디오 신호들의 각각의 에너지/진폭들에 기초하여 현재 채널 쌍의 오디오 신호들의 평균 에너지/진폭 값을 결정하도록; 그리고 현재 채널 쌍의 오디오 신호들의 평균 에너지/진폭 값에 기초하여, 에너지/진폭 등화 후의 현재 채널 쌍의 2개의 채널들의 오디오 신호들의 각각의 에너지/진폭들을 결정하도록 구성된다.

일부 실시예들에서, 인코딩 모듈(1103)은 K개의 채널 쌍들의 에너지/진폭 등화 사이드 정보, K, K개의 채널 쌍들의 각각의 채널 쌍 인덱스들, 및 P개의 채널들의 오디오 신호들을 인코딩하여, 인코딩된 비트스트림을 획득하도록 구성된다.

획득 모듈(1101), 등화 사이드 정보 생성 모듈(1102), 및 인코딩 모듈(1103)은 인코더 사이드 상의 오디오 신호 인코딩 프로세스에서 사용될 수 있다는 점이 주목되어야 한다.

획득 모듈(1101), 등화 사이드 정보 생성 모듈(1102), 및 인코딩 모듈(1103)의 구체적인 구현 프로세스에 대해서는, 전술한 방법 실시예에서의 인코딩 방법의 상세한 설명을 참조한다는 점이 추가로 주목되어야 한다. 본 명세서의 간결성을 위해, 상세사항들은 본 명세서에서 다시 설명되지 않는다.

전술한 방법과 동일한 발명 아이디어에 기초하여, 본 출원의 실시예는 오디오 신호 인코더를 제공한다. 이러한 오디오 신호 인코더는 오디오 신호를 인코딩하도록 구성되고, 예를 들어, 전술한 하나 이상의 실시예에서 설명되는 인코더를 포함한다. 오디오 신호 인코딩 장치는 인코딩을 수행하여 대응하는 비트스트림을 생성하도록 구성된다.

전술한 방법과 동일한 발명 아이디어에 기초하여, 본 출원의 실시예는 오디오 신호를 인코딩하기 위한 디바이스, 예를 들어, 오디오 신호 인코딩 디바이스를 제공한다. 도 12에 도시되는 바와 같이, 오디오 신호 인코딩 디바이스(1200)는,

프로세서(1201), 메모리(1202), 및 통신 인터페이스(1203)를 포함한다(오디오 신호 인코딩 디바이스(1200)에 적어도 하나의 프로세서(1201)가 있을 수 있고, 도 12는 하나의 프로세서의 예를 사용한다). 본 출원의 일부 실시예들에서, 프로세서(1201), 메모리(1202), 및 통신 인터페이스(1203)는 버스를 통해 또는 다른 방식으로 접속될 수 있다. 도 12는 버스를 통한 접속의 예를 도시한다.

메모리(1202)는 판독-전용 메모리 및 랜덤 액세스 메모리를 포함하고, 프로세서(1201)에 대한 명령어들 및 데이터를 제공할 수 있다. 메모리(1202)의 일부분은 비-휘발성 랜덤 액세스 메모리(non-volatile random access memory, NVRAM)를 추가로 포함할 수 있다. 메모리(1202)는 운영 체제 및 동작 명령어들, 실행가능 모듈 또는 데이터 구조, 또는 이들의 서브세트, 또는 이들의 확장된 세트를 저장한다. 동작 명령어들은 다양한 동작들을 수행하기 위한 다양한 동작 명령어들을 포함할 수 있다. 운영 체제는 다양한 시스템 프로그램들을 포함하여, 다양한 기본 서비스들을 구현하고 하드웨어-기반 작업들을 처리할 수 있다.

프로세서(1201)는 오디오 인코딩 디바이스의 동작을 제어하고, 프로세서(1201)는 중앙 처리 유닛(central processing unit, CPU)이라고 또한 지칭될 수 있다. 구체적인 애플리케이션에서, 오디오 인코딩 디바이스의 컴포넌트들은 버스 시스템을 사용하여 함께 커플링된다. 데이터 버스 외에도, 버스 시스템은 전력 버스, 제어 버스, 상태 신호 버스 등을 추가로 포함할 수 있다. 그러나, 명확한 설명을 위해, 도면에서의 다양한 타입의 버스들이 버스 시스템으로서 표기된다.

본 출원의 실시예들에서 개시되는 방법은 프로세서(1201)에 적용될 수 있거나, 또는 프로세서(1201)에 의해 구현될 수 있다. 프로세서(1201)는 집적 회로 칩일 수 있고, 신호 처리 능력을 갖는다. 구현 프로세스에서, 전술한 방법들에서의 각각의 단계는 프로세서(1201)에서의 하드웨어 집적 논리 회로 또는 소프트웨어 형태의 명령어를 사용하여 수행될 수 있다. 프로세서(1201)는 범용 프로세서, 디지털 신호 프로세서(digital signal processing, DSP), 주문형 집적 회로(application specific integrated circuit, ASIC), 필드-프로그램가능 게이트 어레이(field-programmable gate array, FPGA) 또는 다른 프로그램가능 논리 디바이스, 이산 게이트 또는 트랜지스터 논리 디바이스, 또는 이산 하드웨어 컴포넌트일 수 있다. 프로세서(1201)는 본 출원의 실시예들에서 개시되는 방법들, 단계들, 및 논리 블록도들을 구현하거나 또는 수행할 수 있다. 범용 프로세서는 마이크로프로세서일 수 있거나, 또는 프로세서는 임의의 종래의 프로세서 등일 수 있다. 본 출원의 실시예들을 참조하여 개시되는 방법들의 단계들은 하드웨어 디코딩 프로세서를 사용하여 직접 실행되고 달성될 수 있거나, 또는 디코딩 프로세서에서의 하드웨어 및 소프트웨어 모듈들의 조합을 사용하여 실행되고 달성될 수 있다. 랜덤 액세스 메모리, 플래시 메모리, 판독-전용 메모리, 프로그램가능 판독-전용 메모리, 전기적 소거가능한 프로그램가능 판독-전용 메모리, 또는 레지스터와 같은, 해당 분야에서의 기성의(mature) 저장 매체에 소프트웨어 모듈이 위치될 수 있다. 이러한 저장 매체는 메모리(1202)에 위치되고, 프로세서(1201)는 메모리(1202)에서의 정보를 판독하고 프로세서(1201)의 하드웨어와 조합하여 전술한 방법의 단계들을 완료한다.

통신 인터페이스(1203)는 숫자 또는 문자 정보를 수신 또는 전송하도록 구성될 수 있고, 예를 들어, 입력/출력 인터페이스, 핀, 또는 회로일 수 있다. 예를 들어, 전술한 인코딩된 비트스트림은 통신 인터페이스(1203)를 통해 전송된다.

전술한 방법과 동일한 발명 아이디어에 기초하여, 본 출원의 실시예는, 서로 커플링되는 비-휘발성 메모리 및 프로세서를 포함하는, 오디오 인코딩 디바이스를 제공한다. 프로세서는 메모리에 저장된 프로그램 코드를 호출하여, 전술한 실시예들 중 하나 이상에서의 멀티-채널 오디오 신호 인코딩 방법에서의 단계들의 일부 또는 전부를 수행한다.

전술한 방법과 동일한 발명 아이디어에 기초하여, 본 출원의 실시예는 컴퓨터-판독가능 저장 매체를 제공한다. 이러한 컴퓨터-판독가능 저장 매체는 프로그램 코드를 저장하고, 이러한 프로그램 코드는 전술한 실시예들 중 하나 이상에서의 멀티-채널 오디오 신호 인코딩 방법에서의 단계들의 일부 또는 전부를 수행하기 위한 명령어들을 포함한다.

전술한 방법과 동일한 발명 아이디어에 기초하여, 본 출원의 실시예는 컴퓨터 프로그램 제품을 제공한다. 이러한 컴퓨터 프로그램 제품이 컴퓨터 상에서 실행될 때, 이러한 컴퓨터는 전술한 실시예들 중 하나 이상에서의 멀티-채널 오디오 신호 인코딩 방법에서의 단계들의 일부 또는 전부를 수행하는 것이 가능하게 된다.

전술한 방법과 동일한 발명 아이디어에 기초하여, 본 출원의 실시예는 오디오 신호 디코딩 장치를 추가로 제공한다. 이러한 오디오 신호 디코딩 장치는 오디오 디코더에서 사용될 수 있다.

도 13은 본 출원의 실시예에 따른 오디오 신호 디코딩 장치의 구조의 개략도이다. 도 13에 도시되는 바와 같이, 오디오 신호 디코딩 장치(1300)는 획득 모듈(1301), 디멀티플렉싱 모듈(1302), 및 디코딩 모듈(1303)을 포함한다.

획득 모듈(1301)은 디코딩될 비트스트림을 획득하도록 구성된다.

디멀티플렉싱 모듈(1302)은 디코딩될 비트스트림을 디멀티플렉싱하여, 디코딩될 멀티-채널 오디오 신호의 현재 프레임, 현재 프레임에 포함되는 채널 쌍들의 수량 K, K개의 채널 쌍들의 각각의 채널 쌍 인덱스들, 및 K개의 채널 쌍들의 에너지/진폭 등화 사이드 정보를 획득하도록 구성된다.

디코딩 모듈(1303)은, K개의 채널 쌍들의 각각의 채널 쌍 인덱스들 및 K개의 채널 쌍들의 에너지/진폭 등화 사이드 정보에 기초하여, 디코딩될 멀티-채널 오디오 신호의 현재 프레임을 디코딩하여, 현재 프레임의 디코딩된 신호들을 획득하도록 구성되고, 여기서 K는 양의 정수이고, 각각의 채널 쌍은 2개의 채널들을 포함한다.

일부 실시예들에서, K개의 채널 쌍들은 현재 채널 쌍을 포함하고, 디코딩 모듈(1303)은, 현재 채널 쌍에 대응하는 채널 쌍 인덱스에 기초하여, 디코딩될 멀티-채널 오디오 신호의 현재 프레임에 대해 스테레오 디코딩 처리를 수행하여, 현재 프레임의 현재 채널 쌍의 2개의 채널들의 오디오 신호들을 획득하도록; 그리고 현재 채널 쌍의 에너지/진폭 등화 사이드 정보에 기초하여, 현재 채널 쌍의 2개의 채널들의 오디오 신호들에 대해 에너지/진폭 등화-해제 처리를 수행하여, 현재 채널 쌍의 2개의 채널들의 디코딩된 신호들을 획득하도록 구성된다.

획득 모듈(1301), 디멀티플렉싱 모듈(1302), 및 디코딩 모듈(1303)은 디코더 사이드 상의 오디오 신호 디코딩 프로세스에서 사용될 수 있다는 점이 주목되어야 한다.

획득 모듈(1301), 디멀티플렉싱 모듈(1302), 및 디코딩 모듈(1303)의 구체적인 구현 프로세스에 대해서는, 전술한 방법 실시예에서의 디코딩 방법의 상세한 설명을 참조한다는 점이 추가로 주목되어야 한다. 본 명세서의 간결성을 위해, 상세사항들은 본 명세서에서 다시 설명되지 않는다.

전술한 방법과 동일한 발명 아이디어에 기초하여, 본 출원의 실시예는 오디오 신호 디코더를 제공한다. 이러한 오디오 신호 디코더는 오디오 신호를 디코딩하도록 구성되고, 예를 들어, 전술한 실시예들 중 하나 이상에서 설명되는 디코더를 포함한다. 오디오 신호 디코딩 장치는 디코딩을 수행하여 대응하는 비트스트림을 생성하도록 구성된다.

전술한 방법과 동일한 발명 아이디어에 기초하여, 본 출원의 실시예는 오디오 신호를 디코딩하기 위한 디바이스, 예를 들어, 오디오 신호 디코딩 디바이스를 제공한다. 도 14에 도시되는 바와 같이, 오디오 신호 디코딩 디바이스(1400)는,

프로세서(1401), 메모리(1402), 및 통신 인터페이스(1403)를 포함한다(오디오 신호 디코딩 디바이스(1400)에 적어도 하나의 프로세서(1401)가 있을 수 있고, 도 14는 하나의 프로세서의 예를 사용한다). 본 출원의 일부 실시예들에서, 프로세서(1401), 메모리(1402), 및 통신 인터페이스(1403)는 버스를 통해 또는 다른 방식으로 접속될 수 있다. 도 14는 버스를 통한 접속의 예를 도시한다.

메모리(1402)는 판독-전용 메모리 및 랜덤 액세스 메모리를 포함하고, 프로세서(1401)에 대한 명령어들 및 데이터를 제공할 수 있다. 메모리(1402)의 일부분은 비-휘발성 랜덤 액세스 메모리(non-volatile random access memory, NVRAM)를 추가로 포함할 수 있다. 메모리(1402)는 운영 체제 및 동작 명령어들, 실행가능 모듈 또는 데이터 구조, 또는 이들의 서브세트, 또는 이들의 확장된 세트를 저장한다. 동작 명령어들은 다양한 동작들을 수행하기 위한 다양한 동작 명령어들을 포함할 수 있다. 운영 체제는 다양한 시스템 프로그램들을 포함하여, 다양한 기본 서비스들을 구현하고 하드웨어-기반 작업들을 처리할 수 있다.

프로세서(1401)는 오디오 디코딩 디바이스의 동작을 제어하고, 프로세서(1401)는 중앙 처리 유닛(central processing unit, CPU)이라고 또한 지칭될 수 있다. 구체적인 애플리케이션에서, 오디오 디코딩 디바이스의 컴포넌트들은 버스 시스템을 사용하여 함께 커플링된다. 데이터 버스 외에도, 버스 시스템은 전력 버스, 제어 버스, 상태 신호 버스 등을 추가로 포함할 수 있다. 그러나, 명확한 설명을 위해, 도면에서의 다양한 타입의 버스들이 버스 시스템으로서 표기된다.

본 출원의 실시예들에서 개시되는 방법은 프로세서(1401)에 적용될 수 있거나, 또는 프로세서(1401)에 의해 구현될 수 있다. 프로세서(1401)는 집적 회로 칩일 수 있고, 신호 처리 능력을 갖는다. 구현 프로세스에서, 전술한 방법들에서의 각각의 단계는 프로세서(1401)에서의 하드웨어 집적 논리 회로 또는 소프트웨어 형태의 명령어를 사용하여 수행될 수 있다. 프로세서(1401)는 범용 프로세서, 디지털 신호 프로세서(digital signal processing, DSP), 주문형 집적 회로(application specific integrated circuit, ASIC), 필드-프로그램가능 게이트 어레이(field-programmable gate array, FPGA) 또는 다른 프로그램가능 논리 디바이스, 이산 게이트 또는 트랜지스터 논리 디바이스, 또는 이산 하드웨어 컴포넌트일 수 있다. 프로세서(1401)는 본 출원의 실시예들에서 개시되는 방법들, 단계들, 및 논리 블록도들을 구현하거나 또는 수행할 수 있다. 범용 프로세서는 마이크로프로세서일 수 있거나, 또는 프로세서는 임의의 종래의 프로세서 등일 수 있다. 본 출원의 실시예들을 참조하여 개시되는 방법들의 단계들은 하드웨어 디코딩 프로세서를 사용하여 직접 실행되고 달성될 수 있거나, 또는 디코딩 프로세서에서의 하드웨어 및 소프트웨어 모듈들의 조합을 사용하여 실행되고 달성될 수 있다. 랜덤 액세스 메모리, 플래시 메모리, 판독-전용 메모리, 프로그램가능 판독-전용 메모리, 전기적 소거가능한 프로그램가능 판독-전용 메모리, 또는 레지스터와 같은, 해당 분야에서의 기성의(mature) 저장 매체에 소프트웨어 모듈이 위치될 수 있다. 이러한 저장 매체는 메모리(1402)에 위치되고, 프로세서(1401)는 메모리(1402)에서의 정보를 판독하고 프로세서(1401)의 하드웨어와 조합하여 전술한 방법의 단계들을 완료한다.

통신 인터페이스(1403)는 숫자 또는 문자 정보를 수신 또는 전송하도록 구성될 수 있고, 예를 들어, 입력/출력 인터페이스, 핀, 또는 회로일 수 있다. 예를 들어, 전술한 인코딩된 비트스트림은 통신 인터페이스(1403)를 통해 수신된다.

전술한 방법과 동일한 발명 아이디어에 기초하여, 본 출원의 실시예는, 서로 커플링되는 비-휘발성 메모리 및 프로세서를 포함하는, 오디오 디코딩 디바이스를 제공한다. 프로세서는 메모리에 저장된 프로그램 코드를 호출하여, 전술한 실시예들 중 하나 이상에서의 멀티-채널 오디오 신호 디코딩 방법에서의 단계들의 일부 또는 전부를 수행한다.

전술한 방법과 동일한 발명 아이디어에 기초하여, 본 출원의 실시예는 컴퓨터-판독가능 저장 매체를 제공한다. 이러한 컴퓨터-판독가능 저장 매체는 프로그램 코드를 저장하고, 이러한 프로그램 코드는 전술한 실시예들 중 하나 이상에서의 멀티-채널 오디오 신호 디코딩 방법에서의 단계들의 일부 또는 전부를 수행하기 위한 명령어들을 포함한다.

전술한 방법과 동일한 발명 아이디어에 기초하여, 본 출원의 실시예는 컴퓨터 프로그램 제품을 제공한다. 이러한 컴퓨터 프로그램 제품이 컴퓨터 상에서 실행될 때, 이러한 컴퓨터는 전술한 실시예들 중 하나 이상에서의 멀티-채널 오디오 신호 디코딩 방법에서의 단계들의 일부 또는 전부를 수행하는 것이 가능하게 된다.

전술한 실시예들에서 설명되는 프로세서는 집적 회로 칩일 수 있고 신호 처리 능력을 갖는다. 구현 프로세스에서, 전술한 방법 실시예들에서의 각각의 단계는 프로세서에서의 하드웨어 집적 논리 회로 또는 소프트웨어 형태의 명령어를 사용하여 수행될 수 있다. 프로세서는 범용 프로세서, 디지털 신호 프로세서(digital signal processor, DSP), 주문형 집적 회로(application-specific integrated circuit, ASIC), 필드 프로그램가능 게이트 어레이(field programmable gate array, FPGA) 또는 다른 프로그램가능 논리 디바이스, 이산 게이트 또는 트랜지스터 논리 디바이스, 또는 이산 하드웨어 컴포넌트일 수 있다. 범용 프로세서는 마이크로프로세서일 수 있거나, 또는 프로세서는 임의의 종래의 프로세서 등일 수 있다. 본 출원의 실시예들에서 개시되는 방법들의 단계들은 하드웨어 인코딩 프로세서를 사용하여 직접 실행되고 달성될 수 있거나, 또는 인코딩 프로세서에서의 하드웨어 및 소프트웨어 모듈의 조합에 의해 실행되고 달성될 수 있다. 랜덤 액세스 메모리, 플래시 메모리, 판독-전용 메모리, 프로그램가능 판독-전용 메모리, 전기적 소거가능한 프로그램가능 판독-전용 메모리, 또는 레지스터와 같은, 해당 분야에서의 기성의(mature) 저장 매체에 소프트웨어 모듈이 위치될 수 있다. 이러한 저장 매체는 메모리에 위치되고, 프로세서는 메모리에서의 정보를 판독하고 프로세서의 하드웨어와 조합하여 전술한 방법의 단계들을 완료한다.

전술한 실시예들에서의 메모리는 휘발성 메모리 또는 비-휘발성 메모리일 수 있거나, 또는 휘발성 메모리 및 비-휘발성 메모리 양자 모두를 포함할 수 있다. 비-휘발성 메모리는 판독-전용 메모리(read-only memory, ROM), 프로그램가능 판독-전용 메모리(programmable ROM, PROM), 소거가능한 프로그램가능 판독-전용 메모리(erasable PROM, EPROM), 전기적으로 소거가능한 프로그램가능 판독-전용 메모리(electrically EPROM, EEPROM), 또는 플래시 메모리일 수 있다. 휘발성 메모리는, 외부 캐시로서 사용되는, 랜덤 액세스 메모리(random access memory, RAM)일 수 있다. 제한적인 설명은 아니지만 예를 통해, 많은 형태들의 RAM들, 예를 들어, 정적 랜덤 액세스 메모리(static RAM, SRAM), 동적 랜덤 액세스 메모리(dynamic RAM, DRAM), 동기식 동적 랜덤 액세스 메모리(synchronous DRAM, SDRAM), 더블 데이터 레이트 동기식 동적 랜덤 액세스 메모리(double data rate SDRAM, DDR SDRAM), 강화된 동기식 랜덤 액세스 메모리(enhanced SDRAM, ESDRAM), 동기식 링크 동적 랜덤 액세스 메모리(synchlink DRAM, SLDRAM), 및 다이렉트 램버스 동적 랜덤 액세스 메모리(direct rambus RAM, DR RAM)가 사용될 수 있다. 본 명세서에서 설명되는 시스템들 및 방법들에서의 메모리는, 이에 제한되지 않지만, 이들 및 다른 적절한 타입의 임의의 메모리를 포함한다는 점이 주목되어야 한다.

해당 분야에서의 통상의 기술자는, 본 명세서에서 개시되는 실시예들에서 설명되는 예들과 조합하여, 전자 하드웨어에 의해 또는 컴퓨터 소프트웨어 및 전자 하드웨어의 조합에 의해 유닛들 및 알고리즘 단계들이 구현될 수 있다는 점을 인지할 수 있다. 이러한 기능들이 하드웨어 또는 소프트웨어에 의해 수행되는지는 기술적 해결책들의 특정 애플리케이션들 및 설계 제약들에 의존한다. 해당 분야에서의 기술자는 각각의 특정 애플리케이션을 위한 설명된 기능들을 구현하기 위해 상이한 방법들을 사용할 수 있지만, 이러한 구현이 본 출원의 범위를 넘어서는 것으로 고려되지 않아야 한다.

전술한 시스템, 장치 및 유닛의 상세한 작업 프로세스에 대해, 편리하고 간단한 설명의 목적을 위해, 전술한 방법 실시예들에서의 대응하는 프로세스를 참조한다는 점이 해당 분야에서의 기술자에 의해 명확하게 이해될 수 있다. 상세사항들이 본 명세서에 다시 설명되지는 않는다.

본 출원에서 제공되는 몇몇 실시예들에서, 개시된 시스템, 장치, 및 방법은 다른 방식들로 구현될 수 있다는 점이 이해되어야 한다. 예를 들어, 설명된 장치 실시예들은 단지 예들이다. 예를 들어, 유닛들로의 분할은 단지 논리적 기능 분할이며 실제 구현에서는 다른 분할일 수 있다. 예를 들어, 복수의 유닛들 또는 컴포넌트들이 조합되거나 또는 다른 시스템에 집적될 수 있거나, 또는 일부 특징들이 무시되거나 또는 수행되지 않을 수 있다. 또한, 디스플레이된 또는 논의된 상호 커플링들 또는 직접 커플링들 또는 통신 접속들은 일부 인터페이스들을 통해 구현될 수 있다. 장치들 또는 유닛들 사이의 간접 커플링들 또는 통신 접속들은 전기적, 기계적 또는 다른 형태들로 구현될 수 있다.

개별 부분들로서 설명되는 유닛들은 물리적으로 개별일 수 있거나 또는 그렇지 않을 수 있고, 유닛들로서 디스플레이되는 부분들은 물리적 유닛들일 수 있거나 또는 그렇지 않을 수 있으며, 하나의 위치에 위치될 수 있거나, 또는 복수의 네트워크 유닛들 상에 분산될 수 있다. 이러한 유닛들의 일부 또는 전부는 실시예들의 해결책들의 목적들을 달성하기 위해 실제 요건들에 기초하여 선택될 수 있다.

또한, 본 출원의 실시예들에서의 기능 유닛들이 하나의 처리 유닛으로 집적될 수 있거나, 또는 이러한 유닛들 각각이 물리적으로 단독으로 존재할 수 있거나, 또는 2개 이상의 유닛들이 하나의 유닛으로 집적될 수 있다.

이러한 기능들이 소프트웨어 기능 유닛의 형태로 구현되고 독립적인 제품으로서 판매 또는 사용될 때, 이러한 기능들은 컴퓨터-판독가능 저장 매체에 저장될 수 있다. 이러한 이해에 기초하여, 본 출원의 기술적 해결책들은 본질적으로, 또는 종래 기술에 기여하는 부분은, 또는 이러한 기술적 해결책들의 일부는 소프트웨어 제품의 형태로 구현될 수 있다. 이러한 컴퓨터 소프트웨어 제품은 저장 매체에 저장되고, 컴퓨터 디바이스(개인용 컴퓨터, 서버, 네트워크 디바이스 등일 수 있음)에게 본 출원의 실시예들에서 설명되는 방법들의 단계들의 일부 또는 전부를 수행하라고 명령하기 위한 몇몇 명령어들을 포함한다. 전술한 저장 매체는, USB 플래시 드라이브, 착탈식 하드 디스크, 판독-전용 메모리(read-only memory, ROM), 랜덤 액세스 메모리(random access memory, RAM), 자기 디스크, 또는 광 디스크와 같은, 프로그램 코드를 저장할 수 있는 임의의 매체를 포함한다.

전술한 설명들은 단지 본 출원의 구체적인 구현들이고, 본 출원의 보호 범위를 제한하려고 의도되는 것은 아니다. 본 출원에서 개시되는 기술적 범위 내에서 해당 분야에서의 기술자에 의해 용이하게 파악되는 임의의 변형 또는 대체는 본 출원의 보호 범위 내에 속할 것이다. 따라서, 본 출원의 보호 범위는 청구항들의 보호 범위에 따라 결정되어야 한다.

Claims

멀티-채널 오디오 신호 인코딩 방법으로서,
멀티-채널 오디오 신호의 현재 프레임에서의 P개의 채널들의 오디오 신호들을 획득하는 단계- P는 1 초과인 양의 정수이고, 상기 P개의 채널들은 K개의 채널 쌍들을 포함하고, 각각의 채널 쌍은 2개의 채널들을 포함하고, K는 양의 정수이고, P는 K × 2 이상임 -;
상기 P개의 채널들의 오디오 신호들의 각각의 에너지/진폭들을 획득하는 단계;
상기 P개의 채널들의 오디오 신호들의 각각의 에너지/진폭들에 기초하여 상기 K개의 채널 쌍들의 에너지/진폭 등화 사이드 정보를 생성하는 단계; 및
상기 K개의 채널 쌍들의 에너지/진폭 등화 사이드 정보 및 상기 P개의 채널들의 오디오 신호들을 인코딩하여, 인코딩된 비트스트림을 획득하는 단계를 포함하는 방법.
제1항에 있어서, 상기 K개의 채널 쌍들은 현재 채널 쌍을 포함하고, 상기 현재 채널 쌍의 에너지/진폭 등화 사이드 정보는,
상기 현재 채널 쌍의 고정-소수점 에너지/진폭 스케일링 비율들 및 에너지/진폭 스케일링 식별자들- 상기 고정-소수점 에너지/진폭 스케일링 비율은 에너지/진폭 스케일링 비율 계수의 고정-소수점 값이고, 상기 에너지/진폭 스케일링 비율 계수는 에너지/진폭 등화 전의 상기 현재 채널 쌍의 2개의 채널들의 오디오 신호들의 각각의 에너지/진폭들 및 에너지/진폭 등화 후의 상기 2개의 채널들의 오디오 신호들의 각각의 에너지/진폭들에 기초하여 획득되고, 상기 에너지/진폭 스케일링 식별자는 에너지/진폭 등화 후의 상기 현재 채널 쌍의 2개의 채널들의 오디오 신호들의 각각의 에너지/진폭들이 에너지/진폭 등화 전의 상기 오디오 신호들의 각각의 에너지/진폭들에 비해 증가 또는 감소된다는 점을 식별하기 위해 사용됨 -을 포함하는 방법.
제1항 또는 제2항에 있어서, 상기 K개의 채널 쌍들은 상기 현재 채널 쌍을 포함하고, 상기 P개의 채널들의 오디오 신호들의 각각의 에너지/진폭들에 기초하여 상기 K개의 채널 쌍들의 에너지/진폭 등화 사이드 정보를 생성하는 단계는, 에너지/진폭 등화 전의 상기 현재 채널 쌍의 2개의 채널들의 오디오 신호들의 각각의 에너지/진폭들에 기초하여 상기 현재 채널 쌍의 에너지/진폭 등화 사이드 정보를 생성하는 단계를 포함하고;
에너지/진폭 등화 전의 상기 현재 채널 쌍의 2개의 채널들의 오디오 신호들의 각각의 에너지/진폭들에 기초하여 상기 현재 채널 쌍의 에너지/진폭 등화 사이드 정보를 생성하는 단계는,
에너지/진폭 등화 전의 상기 현재 채널 쌍의 2개의 채널들의 오디오 신호들의 각각의 에너지/진폭들에 기초하여, 에너지/진폭 등화 후의 상기 현재 채널 쌍의 2개의 채널들의 오디오 신호들의 각각의 에너지/진폭들을 결정하는 단계; 및
에너지/진폭 등화 전의 상기 현재 채널 쌍의 2개의 채널들의 오디오 신호들의 각각의 에너지/진폭들 및 에너지/진폭 등화 후의 상기 2개의 채널들의 오디오 신호들의 각각의 에너지/진폭들에 기초하여 상기 현재 채널 쌍의 에너지/진폭 등화 사이드 정보를 생성하는 단계를 포함하는 방법.
제3항에 있어서, 상기 현재 채널 쌍은 제1 채널 및 제2 채널을 포함하고, 상기 현재 채널 쌍의 에너지/진폭 등화 사이드 정보는,
상기 제1 채널의 고정-소수점 에너지/진폭 스케일링 비율 및 에너지/진폭 스케일링 식별자, 및 상기 제2 채널의 고정-소수점 에너지/진폭 스케일링 비율 및 에너지/진폭 스케일링 식별자를 포함하는 방법.
제4항에 있어서, 에너지/진폭 등화 전의 상기 현재 채널 쌍의 2개의 채널들의 오디오 신호들의 각각의 에너지/진폭들 및 에너지/진폭 등화 후의 상기 2개의 채널들의 오디오 신호들의 각각의 에너지/진폭들에 기초하여 상기 현재 채널 쌍의 에너지/진폭 등화 사이드 정보를 생성하는 단계는,
상기 현재 채널 쌍의 q번째 채널의 에너지/진폭 스케일링 비율 계수 및 상기 q번째 채널의 에너지/진폭 스케일링 식별자를 에너지/진폭 등화 전의 상기 q번째 채널의 오디오 신호의 에너지/진폭 및 에너지/진폭 등화 후의 상기 q번째 채널의 오디오 신호의 에너지/진폭에 기초하여 결정하는 단계; 및
상기 q번째 채널의 에너지/진폭 스케일링 비율 계수에 기초하여 상기 q번째 채널의 고정-소수점 에너지/진폭 스케일링 비율을 결정하는 단계를 포함하고,
q는 1 또는 2인 방법.
제3항 내지 제5항 중 어느 한 항에 있어서, 에너지/진폭 등화 전의 상기 현재 채널 쌍의 2개의 채널들의 오디오 신호들의 각각의 에너지/진폭들에 기초하여, 에너지/진폭 등화 후의 상기 현재 채널 쌍의 2개의 채널들의 오디오 신호들의 각각의 에너지/진폭들을 결정하는 단계는,
에너지/진폭 등화 전의 상기 현재 채널 쌍의 2개의 채널들의 오디오 신호들의 각각의 에너지/진폭들에 기초하여 상기 현재 채널 쌍의 오디오 신호들의 평균 에너지/진폭 값을 결정하는 단계; 및 상기 현재 채널 쌍의 오디오 신호들의 평균 에너지/진폭 값에 기초하여, 에너지/진폭 등화 후의 상기 현재 채널 쌍의 2개의 채널들의 오디오 신호들의 각각의 에너지/진폭들을 결정하는 단계를 포함하는 방법.
제1항 내지 제6항 중 어느 한 항에 있어서, 상기 K개의 채널 쌍들의 에너지/진폭 등화 사이드 정보 및 상기 P개의 채널들의 오디오 신호들을 인코딩하여, 인코딩된 비트스트림을 획득하는 단계는,
상기 K개의 채널 쌍들의 에너지/진폭 등화 사이드 정보, K, 상기 K개의 채널 쌍들의 각각의 채널 쌍 인덱스들, 및 상기 P개의 채널들의 오디오 신호들을 인코딩하여, 상기 인코딩된 비트스트림을 획득하는 단계를 포함하는 방법.
멀티-채널 오디오 신호 디코딩 방법으로서,
디코딩될 비트스트림을 획득하는 단계;
상기 디코딩될 비트스트림을 디멀티플렉싱하여, 디코딩될 멀티-채널 오디오 신호의 현재 프레임, 상기 현재 프레임에 포함되는 채널 쌍들의 수량 K, 상기 K개의 채널 쌍들의 각각의 채널 쌍 인덱스들, 및 상기 K개의 채널 쌍들의 에너지/진폭 등화 사이드 정보를 획득하는 단계- K는 양의 정수이고, 각각의 채널 쌍은 2개의 채널들을 포함함 -; 및
상기 K개의 채널 쌍들의 각각의 채널 쌍 인덱스들 및 상기 K개의 채널 쌍들의 에너지/진폭 등화 사이드 정보에 기초하여 상기 디코딩될 멀티-채널 오디오 신호의 현재 프레임을 디코딩하여, 상기 현재 프레임의 디코딩된 신호들을 획득하는 단계를 포함하는 방법.
제8항에 있어서, 상기 K개의 채널 쌍들은 현재 채널 쌍을 포함하고, 상기 현재 채널 쌍의 에너지/진폭 등화 사이드 정보는 상기 현재 채널 쌍의 고정-소수점 에너지/진폭 스케일링 비율들 및 에너지/진폭 스케일링 식별자들- 상기 고정-소수점 에너지/진폭 스케일링 비율은 에너지/진폭 스케일링 비율 계수의 고정-소수점 값이고, 상기 에너지/진폭 스케일링 비율 계수는 에너지/진폭 등화 전의 상기 현재 채널 쌍의 2개의 채널들의 오디오 신호들의 각각의 에너지/진폭들 및 에너지/진폭 등화 후의 상기 2개의 채널들의 오디오 신호들의 각각의 에너지/진폭들에 기초하여 획득되고, 상기 에너지/진폭 스케일링 식별자는 에너지/진폭 등화 후의 상기 현재 채널 쌍의 2개의 채널들의 오디오 신호들의 각각의 에너지/진폭들이 에너지/진폭 등화 전의 상기 오디오 신호들의 각각의 에너지/진폭들에 비해 증가 또는 감소된다는 점을 식별하기 위해 사용됨 -을 포함하는 방법.
제9항에 있어서, 상기 현재 채널 쌍은 제1 채널 및 제2 채널을 포함하고, 상기 현재 채널 쌍의 에너지/진폭 등화 사이드 정보는 상기 제1 채널의 고정-소수점 에너지/진폭 스케일링 비율 및 에너지/진폭 스케일링 식별자, 및 상기 제2 채널의 고정-소수점 에너지/진폭 스케일링 비율 및 에너지/진폭 스케일링 식별자를 포함하는 방법.
제8항 내지 제10항 중 어느 한 항에 있어서, 상기 K개의 채널 쌍들은 상기 현재 채널 쌍을 포함하고, 상기 K개의 채널 쌍들의 각각의 채널 쌍 인덱스들 및 상기 K개의 채널 쌍들의 에너지/진폭 등화 사이드 정보에 기초하여 상기 디코딩될 멀티-채널 오디오 신호의 현재 프레임을 디코딩하여, 상기 현재 프레임의 디코딩된 신호들을 획득하는 단계는,
상기 현재 채널 쌍에 대응하는 채널 쌍 인덱스에 기초하여, 상기 디코딩될 멀티-채널 오디오 신호의 현재 프레임에 대해 스테레오 디코딩 처리를 수행하여, 상기 현재 프레임의 현재 채널 쌍의 2개의 채널들의 오디오 신호들을 획득하는 단계; 및
상기 현재 채널 쌍의 에너지/진폭 등화 사이드 정보에 기초하여, 상기 현재 채널 쌍의 2개의 채널들의 오디오 신호들에 대해 에너지/진폭 등화-해제 처리를 수행하여, 상기 현재 채널 쌍의 2개의 채널들의 디코딩된 신호들을 획득하는 단계를 포함하는 방법.
오디오 신호 인코딩 장치로서,
멀티-채널 오디오 신호의 현재 프레임에서의 P개의 채널들의 오디오 신호들 및 상기 P개의 채널들의 오디오 신호들의 각각의 에너지/진폭들을 획득하도록 구성되는 획득 모듈- P는 1 초과인 양의 정수이고, 상기 P개의 채널들은 K개의 채널 쌍들을 포함하고, 각각의 채널 쌍은 2개의 채널들을 포함하고, K는 양의 정수이고, P는 K × 2 이상임 -;
상기 P개의 채널들의 오디오 신호들의 각각의 에너지/진폭들에 기초하여 상기 K개의 채널 쌍들의 에너지/진폭 등화 사이드 정보를 생성하도록 구성되는 등화 사이드 정보 생성 모듈; 및
상기 K개의 채널 쌍들의 에너지/진폭 등화 사이드 정보 및 상기 P개의 채널들의 오디오 신호들을 인코딩하여, 인코딩된 비트스트림을 획득하도록 구성되는 인코딩 모듈을 포함하는 장치.
제12항에 있어서, 상기 K개의 채널 쌍들은 현재 채널 쌍을 포함하고, 상기 현재 채널 쌍의 에너지/진폭 등화 사이드 정보는 상기 현재 채널 쌍의 고정-소수점 에너지/진폭 스케일링 비율들 및 에너지/진폭 스케일링 식별자들- 상기 고정-소수점 에너지/진폭 스케일링 비율은 에너지/진폭 스케일링 비율 계수의 고정-소수점 값이고, 상기 에너지/진폭 스케일링 비율 계수는 에너지/진폭 등화 전의 상기 현재 채널 쌍의 2개의 채널들의 오디오 신호들의 각각의 에너지/진폭들 및 에너지/진폭 등화 후의 상기 2개의 채널들의 오디오 신호들의 각각의 에너지/진폭들에 기초하여 획득되고, 상기 에너지/진폭 스케일링 식별자는 에너지/진폭 등화 후의 상기 현재 채널 쌍의 2개의 채널들의 오디오 신호들의 각각의 에너지/진폭들이 에너지/진폭 등화 전의 상기 오디오 신호들의 각각의 에너지/진폭들에 비해 증가 또는 감소된다는 점을 식별하기 위해 사용됨 -을 포함하는 장치.
제12항 또는 제13항에 있어서, 상기 K개의 채널 쌍들은 상기 현재 채널 쌍을 포함하고, 상기 등화 사이드 정보 생성 모듈은, 에너지/진폭 등화 전의 상기 현재 채널 쌍의 2개의 채널들의 오디오 신호들의 각각의 에너지/진폭들에 기초하여, 에너지/진폭 등화 후의 상기 현재 채널 쌍의 2개의 채널들의 오디오 신호들의 각각의 에너지/진폭들을 결정하도록; 그리고 에너지/진폭 등화 전의 상기 현재 채널 쌍의 2개의 채널들의 오디오 신호들의 각각의 에너지/진폭들 및 에너지/진폭 등화 후의 상기 2개의 채널들의 오디오 신호들의 각각의 에너지/진폭들에 기초하여 상기 현재 채널 쌍의 에너지/진폭 등화 사이드 정보를 생성하도록 구성되는 장치.
제14항에 있어서, 상기 현재 채널 쌍은 제1 채널 및 제2 채널을 포함하고, 상기 현재 채널 쌍의 에너지/진폭 등화 사이드 정보는 상기 제1 채널의 고정-소수점 에너지/진폭 스케일링 비율 및 에너지/진폭 스케일링 식별자, 및 상기 제2 채널의 고정-소수점 에너지/진폭 스케일링 비율 및 에너지/진폭 스케일링 식별자를 포함하는 장치.
제15항에 있어서, 상기 등화 사이드 정보 생성 모듈은, 상기 현재 채널 쌍의 q번째 채널의 에너지/진폭 스케일링 비율 계수 및 상기 q번째 채널의 에너지/진폭 스케일링 식별자를 에너지/진폭 등화 전의 상기 q번째 채널의 오디오 신호의 에너지/진폭 및 에너지/진폭 등화 후의 상기 q번째 채널의 오디오 신호의 에너지/진폭에 기초하여 결정하도록; 그리고 상기 q번째 채널의 에너지/진폭 스케일링 비율 계수에 기초하여 상기 q번째 채널의 고정-소수점 에너지/진폭 스케일링 비율을 결정하도록 구성되고,
q는 1 또는 2인 장치.
제14항 내지 제16항 중 어느 한 항에 있어서, 상기 등화 사이드 정보 생성 모듈은, 에너지/진폭 등화 전의 상기 현재 채널 쌍의 2개의 채널들의 오디오 신호들의 각각의 에너지/진폭들에 기초하여 상기 현재 채널 쌍의 오디오 신호들의 평균 에너지/진폭 값을 결정하도록; 그리고 상기 현재 채널 쌍의 오디오 신호들의 평균 에너지/진폭 값에 기초하여, 에너지/진폭 등화 후의 상기 현재 채널 쌍의 2개의 채널들의 오디오 신호들의 각각의 에너지/진폭들을 결정하도록 구성되는 장치.
제12항 내지 제17항 중 어느 한 항에 있어서, 상기 인코딩 모듈은 상기 K개의 채널 쌍들의 에너지/진폭 등화 사이드 정보, K, 상기 K개의 채널 쌍들의 각각의 채널 쌍 인덱스들, 및 상기 P개의 채널들의 오디오 신호들을 인코딩하여, 상기 인코딩된 비트스트림을 획득하도록 구성되는 장치.
오디오 신호 디코딩 장치로서,
디코딩될 비트스트림을 획득하도록 구성되는 획득 모듈;
상기 디코딩될 비트스트림을 디멀티플렉싱하여, 디코딩될 멀티-채널 오디오 신호의 현재 프레임, 상기 현재 프레임에 포함되는 채널 쌍들의 수량 K, 상기 K개의 채널 쌍들의 각각의 채널 쌍 인덱스들, 및 상기 K개의 채널 쌍들의 에너지/진폭 등화 사이드 정보를 획득하도록 구성되는 디멀티플렉싱 모듈- K는 양의 정수이고, 각각의 채널 쌍은 2개의 채널들을 포함함 -; 및
상기 K개의 채널 쌍들의 각각의 채널 쌍 인덱스들 및 상기 K개의 채널 쌍들의 에너지/진폭 등화 사이드 정보에 기초하여 상기 디코딩될 멀티-채널 오디오 신호의 현재 프레임을 디코딩하여, 상기 현재 프레임의 디코딩된 신호들을 획득하도록 구성되는 디코딩 모듈을 포함하는 장치.
제19항에 있어서, 상기 K개의 채널 쌍들은 현재 채널 쌍을 포함하고, 상기 현재 채널 쌍의 에너지/진폭 등화 사이드 정보는 상기 현재 채널 쌍의 고정-소수점 에너지/진폭 스케일링 비율들 및 에너지/진폭 스케일링 식별자들- 상기 고정-소수점 에너지/진폭 스케일링 비율은 에너지/진폭 스케일링 비율 계수의 고정-소수점 값이고, 상기 에너지/진폭 스케일링 비율 계수는 에너지/진폭 등화 전의 상기 현재 채널 쌍의 2개의 채널들의 오디오 신호들의 각각의 에너지/진폭들 및 에너지/진폭 등화 후의 상기 2개의 채널들의 오디오 신호들의 각각의 에너지/진폭들에 기초하여 획득되고, 상기 에너지/진폭 스케일링 식별자는 에너지/진폭 등화 후의 상기 현재 채널 쌍의 2개의 채널들의 오디오 신호들의 각각의 에너지/진폭들이 에너지/진폭 등화 전의 상기 오디오 신호들의 각각의 에너지/진폭들에 비해 증가 또는 감소된다는 점을 식별하기 위해 사용됨 -을 포함하는 장치.
제20항에 있어서, 상기 현재 채널 쌍은 제1 채널 및 제2 채널을 포함하고, 상기 현재 채널 쌍의 에너지/진폭 등화 사이드 정보는 상기 제1 채널의 고정-소수점 에너지/진폭 스케일링 비율 및 에너지/진폭 스케일링 식별자, 및 상기 제2 채널의 고정-소수점 에너지/진폭 스케일링 비율 및 에너지/진폭 스케일링 식별자를 포함하는 장치.
제19항 내지 제21항 중 어느 한 항에 있어서, 상기 K개의 채널 쌍들은 상기 현재 채널 쌍을 포함하고, 상기 디코딩 모듈은,
상기 현재 채널 쌍에 대응하는 채널 쌍 인덱스에 기초하여, 상기 디코딩될 멀티-채널 오디오 신호의 현재 프레임에 대해 스테레오 디코딩 처리를 수행하여, 상기 현재 프레임의 현재 채널 쌍의 2개의 채널들의 오디오 신호들을 획득하도록; 그리고
상기 현재 채널 쌍의 에너지/진폭 등화 사이드 정보에 기초하여, 상기 현재 채널 쌍의 2개의 채널들의 오디오 신호들에 대해 에너지/진폭 등화-해제 처리를 수행하여, 상기 현재 채널 쌍의 2개의 채널들의 디코딩된 신호들을 획득하도록 구성되는 장치.
오디오 신호 인코딩 장치로서, 서로 커플링되는 비-휘발성 메모리 및 프로세서를 포함하고, 상기 프로세서는 상기 메모리에 저장된 프로그램 코드를 호출하여, 제1항 내지 제7항 중 어느 한 항에 따른 방법을 수행하는 오디오 신호 인코딩 장치.
오디오 신호 디코딩 장치로서, 서로 커플링되는 비-휘발성 메모리 및 프로세서를 포함하고, 상기 프로세서는 상기 메모리에 저장된 프로그램 코드를 호출하여, 제8항 내지 제11항 중 어느 한 항에 따른 방법을 수행하는 오디오 신호 디코딩 장치.
오디오 신호 인코딩 디바이스로서, 인코더를 포함하고, 상기 인코더는 제1항 내지 제7항 중 어느 한 항에 따른 방법을 수행하도록 구성되는 오디오 신호 인코딩 디바이스.
오디오 신호 디코딩 디바이스로서, 디코더를 포함하고, 상기 디코더는 제8항 내지 제11항 중 어느 한 항에 따른 방법을 수행하도록 구성되는 오디오 신호 디코딩 디바이스.
컴퓨터-판독가능 저장 매체로서, 제1항 내지 제7항 중 어느 한 항에 따른 방법을 사용하여 획득되는 인코딩된 비트스트림을 포함하는 컴퓨터-판독가능 저장 매체.