PT1668959E

PT1668959E - Codificação/descodificação compatível com multicanal

Info

Publication number: PT1668959E
Application number: PT04787072T
Authority: PT
Inventors: Juergen Herre; Johannes Hilpert; Stefan Geyersberger; Andreas Hoelzer; Claus Spenger
Original assignee: Fraunhofer Ges Forschung
Priority date: 2003-10-02
Filing date: 2004-09-30
Publication date: 2007-04-30
Also published as: RU2006114742A; US20190110146A1; US20050074127A1; NO344635B1; IL174286A0; ATE350879T1; AU2004306509A1; NO342804B1; NO345265B1; NO344760B1; US20130016843A1; CN1864436A; WO2005036925A2; NO20180980A1; US20180359588A1; US10425757B2; CA2540851A1; US20090003612A1; BR122018069731B1; US20190239018A1

Description

DESCRIÇÃO "CODIFICAÇÃO/DESCODIFICAÇÃO COMPATÍVEL COM MULTICANAL"

Campo da invenção A presente invenção refere-se a um equipamento e um método para o processamento de um sinal de áudio multicanal e, em particular, a um equipamento e um método para o processamento de um sinal de áudio multicanal de modo estéreo-compatível.

Antecedentes da Invenção e Técnica Anterior

Actualmente, a técnica de reprodução de áudio multicanal está a tornar-se cada vez mais importante. Isto pode ser devido ao facto de que as técnicas de compressão/codificação de áudio, tais como a bem conhecida técnica mp3, tornaram possível distribuir registos de áudio via Internet ou outros canais de transmissão tendo uma largura de banda limitada. A técnica de codificação mp3 tornou-se tão famosa devido ao facto de permitir a distribuição de todos os registos num formato estéreo, i. e., uma representação digital do registo de áudio, incluindo um primeiro canal estéreo (ou canal estéreo esquerdo) e um segundo canal estéreo (ou canal estéreo direito) . Não obstante, existem desvantagens básicas nos sistemas de som convencionais de dois canais. Portanto, foi desenvolvida a técnica surround. Uma representação multicanal surround 1 recomendada inclui, além dos dois canais estéreo L e R, um outro canal central C e dois canais surround Ls, Rs. Este formato sonoro de referência é também denominado de estéreo três/dois, que significa três canais frontais e dois canais surround. Em geral, são necessários cinco canais de transmissão. Num ambiente de reprodução, são necessários, pelo menos cinco, altifalantes nos respectivos cinco locais diferentes para se obter o melhor local de escuta a uma certa distância a partir dos cinco altifalantes bem localizados. São conhecidas várias técnicas neste campo para reduzir a quantidade de dados necessários para a transmissão de um sinal de áudio multicanal. Estas técnicas são denominadas técnicas joint stereo. Para esta finalidade, é feita referência à Fig. 10, que mostra um dispositivo 60 joint stereo. Este dispositivo pode ser um dispositivo de implementação, por exemplo, de intensity stereo (IS) ou binaural cue coding. Este dispositivo recebe, de um modo geral, - como entrada - pelo menos dois canais (CHI, CH2, ... CHn), e emite um único canal portador e dados paramétricos. Os dados paramétricos são definidos de modo a que, num descodificador, possa ser calculada uma aproximação a um canal original (CHI, CH2, ... CHn) .

Normalmente, o canal portador incluirá amostras sub-banda, coeficientes espectrais, amostra de domínio no tempo, etc., que proporcionam uma representação comparativamente fina do sinal subjacente, enquanto os dados paramétricos não incluem estas amostras de coeficientes espectrais, mas incluem parâmetros de controle para o controle de um determinado algoritmo de reconstrução, tal como ponderação por multiplicação, alteração de tempo, alteração de frequência,... Os dados paramétricos, 2 portanto, incluem somente uma representação comparativamente aproximada do sinal ou do canal associado. Explicado em números, a quantidade de dados necessária por um canal portador estará na faixa de 60 - 70 kbit/s, enquanto a quantidade de dados necessária pelas informações laterais paramétricas para um canal, estará na faixa de 1,5 - 2,5 kbit/s. Um exemplo de dados paramétricos são os bem conhecidos factores de escala, as informações de intensity stereo ou binaural cue parameters como será descrito em seguida. A codificação intensity stereo é descrita no documento preliminar AES 3799, "Intensity Stereo Coding", J. Herre, K. H. Brandenburg, D. Lederer, Fevereiro 1994, Amsterdão. Em geral, o conceito de intensity stereo baseia-se numa aplicação de transformada de eixo principal aos dados de ambos os canais estereofónicos de áudio. Se a maioria dos pontos dos dados está concentrada em torno do primeiro eixo principal, pode ser obtido um ganho de codificação pela rotação de ambos os sinais com um determinado ângulo antes da codificação. Entretanto, isto nem sempre é verdade nas técnicas reais de produção estereofónica. Portanto, esta técnica é modificada pela exclusão da segunda componente ortogonal da transmissão no fluxo de bits. Assim, os sinais reconstruídos para os canais esquerdo e direito consistem em versões diferentemente ponderadas ou medidas do mesmo sinal transmitido. Não obstante, os sinais reconstruídos diferem nas suas amplitudes, mas são idênticos em relação à sua informação de fase. As envolventes energia-tempo de ambos os canais originais de áudio, entretanto, são preservadas por meio de uma operação de escalonamento selectivo, que, tipicamente, opera de modo a seleccionar a frequência. Isto adapta-se à percepção humana de som em altas frequências, em que as indicações 3 espaciais dominantes são determinadas pelas envolventes de energia.

Além disso, em implementações práticas, o sinal transmitido, i. e., o canal portador é gerado a partir do sinal de soma do canal esquerdo e do canal direito ao invés de rodar ambos os componentes. Para além disso, este processamento, i. e., a geração de parâmetros intensity stereo para a realização da operação de escalonamento, é feito com selecção de frequência, i. e., independentemente de cada banda de factor de escala, i. e., da partição de frequência codificadora. De um modo preferido, ambos os canais são combinados para formar um canal combinado ou "portador", e, além do canal combinado, determina-se a informação intensity stereo que depende da energia do primeiro canal, da energia do segundo canal ou da energia do canal combinado ou "portador". A técnica BCC é descrita no documento da convenção da AES 5574, "Binaural cue coding applied to stereo and multi-channel audio compression", C. Faller, F. Baumgarte, Maio 2002, Munique. Na codificação BCC, vários canais de entrada de áudio são convertidos numa representação espectral utilizando uma transformada de base DTF com janelas sobrepostas. O espectro uniforme resultante divide-se em partições não sobrepostas, cada qual possuindo um índice. Cada partição tem uma largura de banda proporcional à largura de banda rectangular equivalente (ERB). As diferenças de nível intercanais (ICLD) e as diferenças de tempos intercanais (ICTD) são estimadas para cada partição para cada trama k. A ICLD e a ICTD são quantificadas e codificadas, resultando num fluxo de bits BCC. As diferenças de nível intercanais e diferenças de tempos intercanais são estabelecidas 4 para cada canal relativamente a um canal de referência. Então, os parâmetros são calculados de acordo com fórmulas indicadas, que dependem de determinadas partições do sinal a ser processado.

No lado descodificador, este recebe um sinal mono e o fluxo de bits BCC. 0 sinal mono é transformado para o domínio de frequência e entra num bloco de síntese espacial, que também recebe valores ICLD e ICTD descodificados. No bloco de síntese espacial, os valores dos parâmetros BCC (ICLD e ICTD) são utilizados para realizar uma operação de ponderação do sinal mono para sintetizar os sinais multicanal, que, após uma conversão frequência/tempo, representam uma reconstrução do sinal original de áudio multicanal.

No caso da BCC, o módulo 60 joint stereo está apto a emitir informações laterais de canal, de modo a que os dados do canal paramétrico sejam parâmetros ICLD ou ICTD quantificados e codificados, em que um dos canais originais é utilizado como canal de referência para a codificação das informações laterais de canal.

Normalmente, o canal portador é formado pela soma dos canais originais participantes.

Naturalmente, as técnicas anteriores só proporcionam uma representação mono para um descodificador, que só pode processar o canal portador, mas não consegue processar os dados paramétricos para a geração de uma ou mais aproximações de mais do que um canal de entrada. 5

Para a transmissão dos cinco canais de modo compatível, i. e., num formato de fluxo de bits, que também é compreensível para um descodificador estéreo normal, a denominada técnica de matrização foi utilizada como descrito em "MUSICAM surround: a universal multi-channel coding system compatible ivi th ISO 11172-3", G. Theile and G. Stoll, AES preprint 3403, Outubro 1992, São Francisco. Os cinco canais de entrada L, R, C, Ls, e Rs são introduzidos num dispositivo de matrização e realizam uma operação de matrização para calcular os canais estéreo compatíveis ou básicos Lo, Ro, a partir dos cinco canais de entrada. Em particular, estes canais estéreo básicos Lo/Ro são calculados como indicado abaixo:

Lo = L + xC + yLs Ro = R + xC + yRs sendo x e y constantes. Os outros três canais C, Ls, Rs são transmitidos, tal como são, numa camada de extensão, além da camada estéreo básica, que inclui uma versão codificada dos sinais estéreo básicos Lo/Ro. No que se refere ao fluxo de bits, esta camada estéreo básica Lo/Ro inclui um cabeçalho e informações, tais como factores de escala e amostras de sub-banda. A camada de extensão multicanal, i. e., o canal central e os dois canais surround estão incluídos no campo de extensão multicanal, que também é denominado canal de dados auxiliares.

No lado descodificador, é realizada uma operação de matrização inversa para formar reconstruções dos canais esquerdo e direito na representação de cinco canais utilizando os canais estéreo básicos Lo, Ro e os três canais adicionais. Além disso, os três canais adicionais são descodificados a partir das 6 informações auxiliares para obter uma representação de cinco canais descodificados ou surround do sinal de áudio multicanal original.

Outra abordagem para a codificação multicanal está descrita na publicação "Improved MPEG-2 áudio multi-channel encoding", B. Grill, J. Herre, K. H. Brandenburg, E. Eberlein, J. Koller, J. Mueller, AES preprint 3865, Fevereiro 1994, Amsterdão, na qual, para se obter uma compatibilidade de retorno são considerados os modos compatíveis de retorno. Para este fim, é utilizada uma matriz de compatibilidade para obter os dois chamados canais downmix Lc, Rc a partir dos cinco canais originais de entrada. Além disso, é possível seleccionar dinamicamente os três canais auxiliares transmitidos como dados auxiliares.

Para explorar a irrelevância do estéreo, é aplicada uma técnica joint stereo a grupos de canais, e. g., os três canais frontais, í. e., para o canal esquerdo, o canal direito e o canal central. Para isso, estes três canais são combinados para obter um canal combinado. Este canal combinado é quantificado e empacotado no fluxo de bits. Depois, este canal combinado, juntamente com as correspondentes informações joint stereo, é colocado num módulo de descodificação joint stereo para obter os canais descodificados joint stereo i. e., um canal esquerdo descodificado joint stereo, um canal direito descodificado joint stereo e um canal central descodificado joint stereo. Estes canais descodificados joint stereo, juntamente com o canal surround esquerdo e o canal surround direito, entram num bloco de matriz de compatibilidade para formar o primeiro e o segundo canais downmix Lc, Rc. Depois, versões quantificadas de ambos os canais downmix e uma versão quantificada do canal combinado são 7 empacotadas no fluxo de bits juntamente com os parâmetros de codificação joint stereo.

Utilizando codificação intensity stereo, portanto, um grupo de sinais independentes de canais originais é transmitido dentro de uma parte dos dados "portadores". 0 descodificador, depois, reconstrói os sinais envolvidos como dados idênticos, que são reescalonados de acordo com as suas envolventes energia-tempo originais. Consequentemente, uma combinação linear dos canais transmitidos conduzirá a resultados, que são bastante diferentes do downmix original. Isto aplica-se a qualquer tipo de codificação joint stereo baseada no conceito de intensity stereo. Para um sistema de codificação proporcionando canais downmix compatíveis, existe uma consequência directa: A reconstrução por matrização inversa, como descrita na publicação anterior, fica sujeita a perturbações provocadas pela reconstrução imperfeita. A utilização de um denominado esquema de pré-distorção joint stereo, no qual é feita uma codificação joint stereo dos canais da esquerda, da direita e do centro antes de se efectuar a matrização no codificador, ameniza o problema. Assim, o esquema de matrização inversa para a reconstrução introduz menos perturbações, já que no lado do codificador, os sinais descodificados joint stereo foram utilizados para gerar os canais downmix. Assim, o processo de reconstrução imperfeito é deslocado para os canais downmix compatíveis Lc e Rc, onde tem muito mais probabilidades de ser mascarado pelo próprio sinal de áudio.

Apesar deste sistema ter dado origem a menos perturbações, devido à matrização inversa no lado do descodificador, tem, ainda assim, algumas desvantagens. Uma desvantagem consiste no facto dos canais downmix estéreo-compatíveis Lc e Rc serem obtidos, não a partir dos canais originais, mas das versões codificada/descodifiçada intensity stereo dos canais originais. Portanto, as perdas de dados devidas ao sistema de codificação intensity stereo estão incluídas nos canais downmix compatíveis. Um descodificador só estéreo, que só descodifica os canais compatíveis ao invés dos canais codificados intensity stereo de ampliação, portanto, proporciona um sinal de saída que é afectado pelas perdas de dados induzidas por intensity stereo.

Além disso, um outro canal completo tem que ser transmitido além dos dois canais downmix. Este canal é o canal combinado, que é formado por meio da codificação intensity stereo do canal esquerdo, do canal direito e do canal central. Além disso, as informações intensity stereo para a reconstrução dos canais originais L, R, C do canal combinado também devem ser transmitidas ao descodificador. No descodificador, é feita uma matrização inversa, i. e., é feita uma operação de matrização inversa para obter os canais surround dos dois canais downmix. Além disso, os canais esquerdo, direito e central originais são aproximados pela descodificação intensity stereo utilizando o canal combinado transmitido e os parâmetros intensity stereo transmitidos. Deve salientar-se que os canais esquerdo, direito e central originais são obtidos pela descodificação intensity stereo do canal combinado. 0 documento EP 0688113 A2 revela um método e equipamento para codificação e descodificação de sinais áudio digitais e um equipamento para gravação de áudio digital. Um sinal multicanal original tendo um canal central, canal esquerdo, canal direito, canal surround esquerdo e canal surround direito, é introduzido 9 num analisador comum. 0 analisador comum analisa que parte dos diferentes canais pode ser gerida em comum e emite, selectivamente, apenas a parte dos dados áudio dos respectivos canais que vão ser geridas em comum. As partes dos canais originais que não podem ser geridas em comum são codificadas separadamente. Por meio de circuitos de transformação ortogonal, os canais originais são transformados para o domínio da frequência. De seguida, um selector de processamento de gestão selecciona, com base nos dados de gestão comum, uma gama de frequências para a qual se faz com que o nível absoluto de ruído de quantificação, gerado por gestão comum, se situe abaixo da curva de capacidade mínima de audição. Outros dados, no tempo ou frequência, para os quais não se satisfaça esta condição, não são geridos em comum, mas são, codificados e transmitidos separadamente. A Patente US 5701346 revela um método de codificação de vários sinais áudio. O canal esquerdo, canal direito e canal central são introduzidos num codificador joint stereo, que emite um sinal codificado conjunto. Depois de ser quantificado num bloco de quantificação, o sinal é fornecido a um empacotador de fluxo de bits. Além disso, este sinal codificado conjunto é introduzido num descodificador joint stereo para obter sinais descodificados simulados. Estes sinais descodificados simulados são introduzidos numa matriz de compatibilidade, que também recebe o canal surround esquerdo e o canal surround direito. Com base nestes cinco canais, um sinal esquerdo compatível e um sinal direito compatível são gerados e quantificados e, finalmente, enviados para o empacotador de fluxo de bits. 10 É o objectivo da presente invenção proporcionar um conceito para um processamento bit-eficiente e com redução de perturbações ou um processamento inverso de um sinal de áudio multicanal.

De acordo com um primeiro aspecto da presente invenção, este objectivo é conseguido por um equipamento para processamento de um sinal de áudio multicanal, tendo o sinal de áudio multicanal, pelo menos, três canais originais, compreendendo: um meio para proporcionar um primeiro canal downmix e um segundo canal downmix, sendo o primeiro e o segundo canais downmix obtidos a partir dos canais originais; um meio para calcular as informações laterais de canal de um canal original seleccionado a partir dos sinais originais, podendo o meio de cálculo calcular as informações laterais de canal, para que um canal downmix ou um canal downmix combinado, incluindo o primeiro e o segundo canais downmix, quando ponderados utilizando as informações laterais de canal, resultem numa aproximação do canal original seleccionado; e um meio para a geração de dados de saida, incluindo os dados de saida as informações laterais de canal, o primeiro canal downmix ou um sinal obtido a partir do primeiro canal downmix e do segundo canal downmix ou um sinal obtido a partir do segundo canal downmix.

De acordo com um segundo aspecto da presente invenção, este objectivo é conseguido por um método para o processamento de um sinal de áudio multicanal, tendo o sinal de áudio multicanal, pelo menos, três canais originais, compreendendo: proporcionar um primeiro canal downmix e um segundo canal downmix, sendo o primeiro e o segundo canais downmix obtidos a partir dos canais originais; calcular as informações laterais de canal para um 11 canal original seleccionado a partir dos sinais originais, de modo a que um canal downmíx ou um canal downmix combinado, incluindo o primeiro e o segundo canais downmix, quando ponderados utilizando as informações laterais de canal, resultem numa aproximação do canal original seleccionado; e gerar dados de saida, incluindo os dados de saída das informações laterais de canal, o primeiro canal downmíx ou o sinal obtido a partir do primeiro canal downmix e do segundo canal downmíx ou um sinal obtido a partir do segundo canal downmíx.

De acordo com um terceiro aspecto da presente invenção, este objectivo é conseguido por um equipamento para o processamento inverso dos dados de entrada, incluindo os dados de entrada as informações laterais de canal, um primeiro canal downmix ou um sinal obtido a partir do primeiro canal downmix e um segundo canal downmix ou um sinal obtido a partir do segundo canal downmix, em que o primeiro canal downmix e o segundo canal downmíx são obtidos a partir de, pelo menos, três canais originais de um sinal de áudio multicanal, e em que as informações laterais de canal são calculadas de modo a que um canal downmix ou um canal downmix combinado, incluindo o primeiro canal downmix e o segundo canal downmix, quando ponderados utilizando as informações laterais de canal, resultam numa aproximação do canal original seleccionado, o equipamento compreendendo: um leitor de dados de entrada para ler os dados de entrada de modo a obter o primeiro canal downmix ou um sinal obtido a partir do primeiro canal downmix e o segundo canal downmix ou um sinal obtido a partir do segundo canal downmix e as informações laterais de canal; e um reconstrutor de canais para a reconstrução da aproximação do canal original seleccionado utilizando as informações laterais de canal e o 12 canal downmix ou o canal downmix combinado para obter a aproximação do canal original seleccionado.

De acordo com um quarto aspecto da presente invenção, este objectivo é conseguido por um método de processamento inverso dos dados de entrada, incluindo os dados de entrada informações laterais de canal, um primeiro canal downmix ou um sinal obtido a partir de um primeiro canal downmix e um segundo canal downmix ou um sinal obtido a partir de um segundo canal downmix, em que o primeiro canal downmix e o segundo canal downmix são obtidos a partir de, pelo menos, três canais originais de um sinal de áudio multicanal, e em que as informações laterais de canal são calculadas de modo a que um canal downmix ou um canal downmix combinado, incluindo o primeiro canal downmix e o segundo canal downmix, quando ponderados utilizando as informações laterais de canal, resultam numa aproximação do canal original seleccionado, compreendendo o método: leitura dos dados de entrada para obter o primeiro canal downmix ou um sinal obtido a partir do primeiro canal downmix e um segundo canal downmix ou um sinal obtido a partir do segundo canal downmix e as informações laterais de canal; e reconstrução da aproximação do canal original seleccionado utilizando as informações laterais de canal e o canal downmix ou o canal downmix combinado para obter a aproximação do canal original seleccionado.

De acordo com um quinto aspecto e um sexto aspecto da presente invenção, este objectivo é conseguido por um programa de computador incluindo o método de processamento ou o método de processamento inverso. 13 A presente invenção é baseada na verificação de que se obtém uma codificação eficiente e com menos perturbações do sinal de áudio multicanal quando dois canais downmix, de um modo preferido representando os canais estéreo esquerdo e direito, são empacotados nos dados de saida.

De um modo inventivo, obtêm-se as informações paramétricas de descodificação do canal para um ou mais dos canais originais de modo a se relacionarem com um dos canais downmix, ao invés de, como na técnica anterior, a um canal joint stereo "combinado" adicional. Isto significa que as informações paramétricas de descodificação do canal são calculadas de modo a que, no lado do descodificador, um reconstrutor de canal utilize as informações laterais de canal e um dos canais downmix ou uma combinação dos canais downmix para reconstruir uma aproximação do canal de áudio original, para o qual as informações laterais de canal são atribuídas. 0 conceito inventivo é vantajoso pelo facto de proporcionar uma extensão multicanal bit-eficiente, de modo a que um sinal de áudio multicanal possa ser reproduzido num descodificador.

Além disso, o conceito inventivo é compatível em termos de retorno, já que um descodificador de menor escala, que só está adaptado para o processamento de dois canais, pode, simplesmente, ignorar a informação da extensão, i. e., as informações laterais de canal. 0 descodificador de menor escala só pode reproduzir os dois canais downmix para obter uma representação estéreo do sinal original de áudio multicanal. Um descodificador de maior escala, no entanto, habilitado para operações multicanal, pode utilizar as informações laterais de 14 canal transmitidas para reconstruir aproximações dos canais originais. A presente invenção é vantajosa por ser bit-eficiente, já que, ao contrário da técnica anterior, não é necessário outro canal portador além do primeiro e do segundo canais downmix Lc, Rc. Ao invés disso, as informações laterais de canal estão relacionadas com um ou ambos os canais downmix. Isto significa que os próprios canais downmix servem como canais portadores, para os quais as informações laterais de canal são combinadas para reconstruir um canal de áudio original. Isto significa que as informações laterais de canal são, de um modo preferido, informações laterais paramétricas, i. e., informações que não incluem quaisquer amostras de sub-banda ou coeficientes espectrais. Ao invés disso, as informações laterais paramétricas são informações utilizadas para ponderação (no tempo e/ou frequência) do respectivo canal downmix ou da combinação dos respectivos canais downmix para obter uma versão reconstruída de um canal original seleccionado.

Numa forma de realização preferida da presente invenção, é obtida uma codificação compatível em termos de retorno de um sinal multicanal com base num sinal estéreo compatível. De um modo preferido, o sinal estéreo compatível (sinal downmix) é gerado utilizando a matrização dos canais originais do sinal de áudio multicanal.

De um modo inventivo, as informações laterais de canal de um canal original seleccionado são obtidas com base nas técnicas joint stereo, tal como a codificação intensity stereo ou a binaural cue coding. Assim, no lado do descodificador, não devem 15 ser feitas operações de matrização inversa. Os problemas associados com matrização inversa, i. e., algumas perturbações relacionadas com uma distribuição indesejada de ruido de quantificação em operações de matrização inversa, são evitados. Isto deve-se ao facto do descodificador utilizar um reconstrutor de canais, que reconstrói um sinal original, utilizando um dos canais downmix ou uma combinação dos canais downmix e as informações laterais de canal transmitidas.

De um modo preferido, o conceito inventivo é aplicado a um sinal de áudio multicanal com cinco canais. Estes cinco canais são um canal esquerdo L, um canal direito R, um canal central C, um canal surround esquerdo Ls e um canal surround direito Rs. De um modo preferido, os canais downmix são canais downmix estéreo compatíveis Ls e Rs, que proporcionam uma representação estéreo do sinal de áudio multicanal original.

De acordo com a forma de realização preferida da presente invenção, para cada canal original, são calculadas as informações laterais de canal num lado codificador empacotadas nos dados de saida. As informações laterais de canal, do canal esquerdo original, são obtidas utilizando 0 canal downmix esquerdo. As informações laterais de canal, do canal surround esquerdo, original são obtidas utilizando 0 canal downmix esquerdo. As informações laterais de canal, do canal direito original, são obtidas a partir do canal downmix direito. As informações laterais de canal, para o canal surround direito original, são obtidas a partir do canal downmix direito.

De acordo com a forma de realização preferida da presente invenção, as informações de canal, do canal central original, 16 são obtidas utilizando o primeiro canal downmix assim como o segundo canal downmix, i. e., utilizando uma combinação dos dois canais downmix. De um modo preferido, esta combinação é uma soma.

Assim, os subgrupos, i. e., a relação entre as informações laterais de canal e o sinal portador, i. e., o canal downmix utilizado para proporcionar as informações laterais de canal para um canal original seleccionado é de tal modo que, para a qualidade ideal, é seleccionado um determinado canal downmix, que contém a maior quantidade relativa possível do respectivo sinal multicanal original que é representado por meio das informações laterais de canal. Como tal, utiliza-se um sinal portador joint stereo, e o primeiro e segundo canais downmix. De um modo preferido, também se pode utilizar a soma do primeiro e do segundo canais downmix. Naturalmente, a soma do primeiro e do segundo canais downmix pode ser utilizada para o cálculo das informações laterais de canal de cada um dos canais originais. De um modo preferido, no entanto, a soma dos canais downmix é utilizada para calcular as informações laterais de canal do canal central original num ambiente surround, tal como o surround de cinco canais, surround de sete canais, surround 5.1 ou surround 7.1. Utilizar a soma do primeiro e do segundo canais downmix é especialmente vantajoso, já que não precisa ser realizado nenhum outro cabeçalho de transmissão. Isto deve-se ao facto de ambos os canais downmix estarem presentes no descodificador, de modo a que a soma destes canais downmix possa ser facilmente feita no descodificador sem serem necessários outros bits de transmissão. 17

De um modo preferido, as informações laterais de canal que formam a extensão multicanal são inseridas no fluxo de bits dos dados de saida, de modo compatível, para que um descodificador de menor escala simplesmente ignore os dados de extensão multicanal e forneça apenas uma representação estéreo do sinal de áudio multicanal. Não obstante, um codificador de maior escala não somente utiliza dois canais downmix, mas, além disso, emprega as informações laterais de canal para reconstruir uma representação completa multicanal do sinal original de áudio.

Um descodificador inventivo está apto a, em primeiro lugar, descodificar ambos os canais downmix e ler as informações laterais de canal dos canais originais seleccionados. Depois, as informações laterais de canal e os canais downmix são utilizados para reconstruir aproximações dos canais originais. Para esta finalidade, de um modo preferido, não é feita nenhuma operação de matrização inversa. Isto significa que, nesta forma de realização, cada um dos, por exemplo, cinco canais originais de entrada são reconstruídos utilizando, por exemplo, cinco conjuntos de diferentes informações laterais de canal. No descodificador, é realizado o mesmo agrupamento que no codificador para calcular a aproximação do canal reconstruído. Num ambiente surround de cinco canais, isto significa que, para reconstruir o canal original esquerdo, são utilizados o canal downmix esquerdo e as informações laterais de canal do canal esquerdo. Para reconstruir o canal direito original, são utilizados o canal downmix direito e as informações laterais de canal do canal direito. Para reconstruir o canal surround esquerdo original, são utilizados o canal downmix esquerdo e as 18 informações laterais do canal surround esquerdo. Para reconstruir o canal surround direito original, são utilizadas as informações laterais de canal do canal surround direito e o canal downmix direito. Para reconstruir o canal central original, são utilizados um canal combinado formado a partir do primeiro canal downmix e o segundo canal downmix e as informações laterais do canal central.

Naturalmente, também é possível reproduzir o primeiro e o segundo canais downmix como os canais esquerdo e direito, de modo a que apenas três conjuntos (entre, e. g.r cinco) de parâmetros de informações laterais do canal tenham que ser transmitidos. Isto só é, no entanto, aconselhável em situações onde existam regras menos rigorosas com respeito à qualidade. Isto deve-se ao facto de, normalmente, o canal downmix esquerdo e o canal downmix direito serem diferentes do canal esquerdo original ou do canal direito original. Somente em situações em que não se possa transmitir as informações laterais do canal para cada um dos canais originais, este processo é vantajoso.

Breve Descrição dos Desenhos

As formas de realização preferidas da presente invenção são discutidas subsequentemente fazendo referência às figuras anexas, nas quais:

Fig. 1 é um diagrama de blocos de uma forma de realização preferida do descodificador do invento; 19

Fig.

Fig. 2 é um diagrama de blocos de uma forma de realização preferida do descodificador do invento; 3A é um diagrama de blocos de uma implementação preferida do meio de cálculo para obter informações laterais de canal com selecção de frequência; 3B é uma forma de realização preferida de um calculador para a implementação de um processamento joint stereo, tal como intensity coding ou binaural cue coding; 4 ilustra outra forma de realização preferida do meio de cálculo das informações laterais de canal, na qual as informações laterais de canal são factores de ganho; 5 ilustra uma forma de realização preferida de uma implementação do descodificador, quando o codificador é implementado como na Fig. 4; 6 ilustra uma implementação preferida do meio para proporcionar os canais downmix; 1 ilustra agrupamentos de canais originais e downmix para o cálculo das informações laterais de canal dos respectivos canais originais; 8 ilustra outra forma de realização preferida do codificador do invento; 9 ilustra outra implementação de um descodificador do invento; e 20

Fig. 10 ilustra um codificador joint stereo da técnica anterior.

Descrição Detalhada das Formas de Realização Preferidas A Fig. 1 mostra um equipamento para o processamento de um sinal 10 de áudio multicanal tendo, pelo menos, três canais originais, tais como R, L e C. De um modo preferido, o sinal de áudio original tem mais do que três canais, tal como cinco canais no ambiente surround, o que está ilustrado na Fig. 1. Os cinco canais são o canal esquerdo L, o canal direito R e o canal central C, o canal surround esquerdo Ls e o canal surround direito Rs. O equipamento do invento inclui um meio 12 para proporcionar um primeiro canal downmix Lc e um segundo canal downmix Rc, sendo o primeiro e o segundo canais downmix obtidos a partir dos canais originais. Para obter os canais downmix a partir dos canais originais, existem várias possibilidades. Uma possibilidade consiste em obter os canais downmix Lc e Rc por meio de matrização dos canais originais utilizando uma operação de matrização como ilustrada na Fig. 6. Esta operação de matrização é realizada no domínio do tempo.

Os parâmetros de matrização a, b e t são seleccionados de modo a que sejam menores ou iguais a 1. De um modo preferido, a e b são 0,7 ou 0,5. O parâmetro t geral de ponderação é, de um modo preferido, escolhido de modo a que seja evitado o recorte de canais. 21

Alternativamente, como indicado na Fig. 1, os canais downmix Lc e Rc podem também ser fornecidos externamente. Isto pode ser feito, quando os canais downmix Lc e Rc forem o resultado de uma operação de "mistura manual". Neste cenário, o próprio engenheiro de som faz a mistura dos canais downmix ao invés de utilizar uma operação automatizada de matrização. 0 engenheiro de som faz uma mistura criativa para obter os canais downmix optimizados Lc e Rc, que proporcionam a melhor representação estéreo possivel do sinal de áudio multicanal original.

No caso de um suprimento externo de canais downmix, o meio não efectua uma operação de matrização, mas encaminha, simplesmente, os canais downmix supridos externamente para um meio subsequente de cálculo 14. 0 meio de cálculo 14 está apto a calcular as informações laterais de canal, tais como li, lsi, ri ou rsi para os canais seleccionados originais, tais como L, Ls, R ou Rs, respectivamente. Em particular, o meio 14 de cálculo está apto a calcular as informações laterais de canal para que um canal downmix, quando ponderado utilizando as informações laterais de canal, dê origem a uma aproximação do canal seleccionado original.

Em alternativa ou adicionalmente, o meio de cálculo das informações laterais de canal está ainda apto a calcular as informações laterais de canal para um canal original seleccionado para que um canal downmix combinador, incluindo uma combinação do primeiro e do segundo canais downmix, quando ponderados utilizando as informações laterais de canal calculadas, resulte numa aproximação do canal original 22 seleccionado. Para mostrar esta característica na figura, são mostrados um somador 14a e um calculador 14b de informações laterais de canal combinado. É claro para os especialistas com experiência na técnica, que estes elementos não precisam ser implementados como elementos distintos. Ao invés disso, toda a funcionalidade dos blocos 14, 14a e 14b pode ser implementada por meio de um determinado processador que pode ser um processador genérico ou qualquer outro meio para a realização da funcionalidade necessária.

Além disso, deve salientar-se aqui, que os sinais de canal sendo amostras sub-banda ou valores no domínio de frequência estão indicados em letras maiusculas. As informações laterais do canal são, ao contrário dos próprios canais, indicadas em letras minúsculas. As informações Ci de descodificação de canal são, portanto, as informações laterais de canal do canal central original C.

As informações laterais de canal, assim como os canais downmix Lc e Rc, ou uma versão codificada Lc' e Rc', como produzidas por um codificador 16 de áudio, são inseridas num formatador 18 de dados de saída. Em geral, o formatador 18 de dados de saída serve como meio para a geração de dados de saída, incluindo os dados de saída as informações laterais de canal de, pelo menos, um canal original, o primeiro canal downmix ou um sinal obtido a partir do primeiro canal downmix (como uma versão codificada deste) e o segundo canal downmix ou um sinal obtido a partir do segundo canal downmix (como uma versão codificada deste). 23

Os dados de saída ou o fluxo 20 de bits de saída podem, então, ser transmitidos para um descodificador de fluxo de bits ou podem ser armazenados ou distribuídos. De um modo preferido, o fluxo 20 de bits de saída é um fluxo de bits compatível que também pode ser lido por um descodificador de pequena escala não tendo capacidade de extensão multicanal. Estes codificadores de pequena escala, como a maioria dos descodificadores mp3 existentes da técnica actual, ignoram simplesmente os dados de extensão multicanal, i. e., as informações laterais de canal. Só descodificam o primeiro e o segundo canais downmix para produzir uma saída estéreo. Os descodificadores de maior escala, como os descodificadores habilitados para multicanal, lerão as informações laterais de canal e, depois, gerarão uma aproximação dos canais originais de áudio, para se obter uma impressão de áudio multicanal. A Fig. 8 mostra uma forma de realização preferida da presente invenção no ambiente de cinco canais surround/mp3. Aqui, é preferível escrever os dados de ampliação surround no campo de dados auxiliares na sintaxe do fluxo de bits mp3 normalizada, para se obter um fluxo de bits "mp3 surround". A Fig. 2 mostra uma ilustração de um descodificador do invento funcionando como um equipamento para processamento inverso de dados de entrada recebidos numa porta 22 de dados de entrada. Os dados recebidos na porta 22 dos dados de entrada são os mesmos dados de saída da porta 20 dos dados de saída da Fig. 1. De modo alternativo, quando os dados não são transmitidos por canal com fios mas por canal sem fios, os dados recebidos na 24 porta 22 de entrada de dados são dados obtidos a partir dos dados originais produzidos pelo codificador.

Os dados de entrada do descodificador são inseridos num leitor 24 de fluxo de dados para ler os dados de entrada e finalmente obter as informações 26 de descodificação de canal e do canal 28 downmix esquerdo e do canal 30 downmix direito. Caso os dados de entrada incluam versões codificadas dos canais downmix, que correspondam ao caso em que o codificador de áudio 16 da Fig. 1 está presente, o leitor 24 de fluxo de dados também inclui um descodificador de áudio, adaptado ao codificador de áudio utilizado para a codificação dos canais downmix. Neste caso, o descodificador de áudio, que faz parte do leitor 24 de fluxo de dados, está apto a gerar o primeiro canal downmix Lc e o segundo canal downmix Rc, ou, melhor explicado, uma versão descodificada destes canais. Para uma descrição mais fácil, só se faz uma distinção entre sinais e as suas versões descodificadas quando explicitamente declarada.

As informações 26 de descodificação de canal e os canais 28 e 30 downmix esquerdo e direito produzidos pelo leitor 24 de fluxo de dados são introduzidos num reconstrutor 32 multicanal para proporcionar uma versão 34 reconstruída dos sinais originais de áudio, que podem ser reproduzidos por meio de um reprodutor 36 multicanal. No caso em que o reconstrutor multicanal funciona no domínio da frequência, o reprodutor 36 multicanal irá receber os dados de entrada no domínio de frequência, que devem ser, de certa forma, descodificados, tais como convertidos no domínio de tempo, antes de serem reproduzidos. Para esta finalidade, o reprodutor 36 multicanal pode também incluir funções de descodificação. 25 É para ser notado, que um descodificador de menor escala só possuirá o leitor 24 de fluxo de dados, que reproduz apenas os canais 28 e 30 downmix esquerdo e direito em saida estéreo 38. O descodificador melhorado da invenção, no entanto, extrairá as informações 26 de descodificação de canal e utilizará estas informações laterais e os canais 28 e 30 downmix para reconstruir as versões 34 reconstruídas dos canais originais utilizando o reconstrutor 32 multicanal. A Fig. 3A mostra uma forma de realização da calculadora 14 da invenção para calcular as informações laterais de canal, que um codificador de áudio por um lado, e a calculadora de informações laterais de canal pelo outro lado, funcionam com a mesma representação espectral do sinal multicanal. A Fig. 1, no entanto, mostra a outra alternativa, na qual o codificador de áudio por um lado e a calculadora de informações laterais de canal pelo outro lado funcionam com diferentes representações espectrais do sinal multicanal. Quando o cálculo de recursos não é tão importante quanto a qualidade de áudio, é preferida a alternativa da Fig.l, já que podem ser utilizados os bancos de filtros optimizados individualmente para codificação de áudio e cálculo de informações laterais. Quando, no entanto, os recursos de cálculo são um problema, é preferida a alternativa da Fig. 3A, já que esta alternativa requer menos potência de cálculo devido à utilização compartilhada dos elementos. O dispositivo mostrado na Fig. 3A está apto a receber dois canais A, B. O dispositivo mostrado na Fig. 3A está apto a calcular as informações laterais para o canal B, de modo a que, utilizando estas informações laterais de canal para o canal 26 original seleccionado B, pode ser calculada uma versão reconstruída do canal B a partir do sinal do canal A. Além disso, o dispositivo mostrado na Fig. 3A está apto a formar informações laterais de canal no domínio de frequência, tais como parâmetros para ponderação (multiplicando ou processando no tempo como na e. g. codificação BCC,) de valores espectrais ou amostras sub-banda. Para esta finalidade, a calculadora da invenção inclui um meio 140a de divisão em janelas e de conversão tempo/frequência para obter uma representação de frequência de canal A numa saída 140b ou uma representação no domínio de frequência do canal B numa saída 140c.

Na forma de realização preferida, a determinação das informações laterais (pelo meio 140f de determinação de informações laterais) é feita utilizando valores espectrais quantificados. Depois, também está presente um quantificador 140d que, de um modo preferido, é controlado utilizando um modelo psicoacústico tendo uma entrada 140e de controlo de modelo psicoacústico. Não obstante, não é necessário um quantificador quando o meio 140c de determinação de informações laterais utiliza uma representação não quantificada do canal A para determinar as informações laterais de canal do canal B.

Caso as informações laterais de canal do canal B sejam calculadas por meio de uma representação no domínio de frequência do canal A e de uma representação no domínio de frequência do canal B, o meio 140a de divisão em janelas e de conversão tempo/frequência pode ser o mesmo que o utilizado no codificador de áudio baseado no banco de filtros. Neste caso, quando é considerada a AAC (ISO/IEC 13818-3), o meio 140a é implementado como um banco de filtros MDCT (MDCT = transformada 27 co-seno discreta modificada) com 50% de funcionalidade overlap-and-add [sobrepõe e soma].

Neste caso, o quantificador 140d é um quantificador iterativo, tal como o utilizado quando são gerados sinais de áudio codificados mp3 ou AAC. A representação do domínio de frequência do canal A que, de um modo preferido, já está quantificado, pode então ser utilizada directamente para a codificação entrópica utilizando um codificador 140g de entropia, que pode ser um codificador base Huffman ou um codificador de entropia implementando codificação aritmética.

Quando comparada com a Fig. 1, a saída do dispositivo na Fig. 3A consiste nas informações laterais, tais como a li, para um canal original (correspondendo às informações laterais de B

na saída do dispositivo 140f). 0 fluxo de bits com codificação entrópica do canal A corresponde e. g. ao canal codificado downmix esquerdo Lc' na saída do bloco 16 da Fig. 1. Na Fig. 3A torna-se claro que o elemento 14 (Fig. 1), i. e., a calculadora para o cálculo das informações laterais de canal e do codificador 16 de áudio (Fig. 1) pode ser implementado como um meio separado ou pode ser implementado como uma versão compartilhada, de modo que ambos os dispositivos compartilhem vários elementos, tais como o banco 140a de filtros MDCT, o quantificador 140e e o codificador 140g de entropia. Naturalmente, caso seja necessário uma transformada diferente, etc., para determinar as informações laterais de canal, então o codificador 16 e a calculadora 14 (Fig. 1) serão implementados em diferentes dispositivos para que ambos os elementos não compartilhem o banco de filtros etc. 28

Em geral, o actual dispositivo de determinação para o cálculo das informações laterais (ou, tal como é geralmente indicado, a calculadora 14) pode ser implementado como um módulo joint stereo, como mostrado na Fig. 3B, que funciona de acordo com quaisquer das técnicas de joint stereo, tais como a codificação intensity stereo ou binaural cue coding.

Ao contrário destes codificadores intensity stereo da técnica anterior, o meio 140f de determinação da invenção não tem que calcular o canal combinado. 0 "canal combinado" ou canal portador, como se pode dizer, já existe e é o canal downmix compatível esquerdo Lc ou o canal downmix compatível direito Rc ou uma versão combinada destes canais downmix, tal como Lc + Rc. Portanto, o dispositivo 140f da invenção apenas tem que calcular as informações de escalonamento para escalonar o canal downmix respectivo, de modo a que seja obtida a envolvente energia/tempo do respectivo canal original seleccionado, quando o canal downmix é ponderado utilizando as informações de escalonamento ou, como se pode dizer, as informações direccionais de intensidade.

Portanto, o módulo 140f joint stereo da Fig. 3B está ilustrado de modo a receber, como entrada, o canal A "combinado", que é o primeiro ou o segundo canal downmix ou uma combinação dos canais downmix, e o canal original seleccionado. Este módulo, naturalmente, emite o canal A "combinado" e os parâmetros joint stereo como informações laterais de canal de modo a que, utilizando o canal A combinado e os parâmetros joint stereo, uma aproximação do canal original seleccionado possa ser calculada. 29

De modo alternativo, o módulo 140f joint stereo pode ser implementado para realizar o binaural cue coding.

No caso da BCC, o módulo 140f joint stereo está apto a emitir as informações laterais de canal de modo a que as informações laterais de canal sejam parâmetros ICLD ou ICTD quantificadas e codificados, em que o canal original seleccionado serve como o canal real a ser processado, enquanto o canal downmix respectivo utilizado para calcular as informações laterais, tal como o primeiro, o segundo ou uma combinação do primeiro e do segundo canais downmix seja utilizado como o canal de referência no sentido da técnica BCC codificação/descodificação.

No que se refere à Fig. 4, é dada uma simples implementação relacionada com energia do elemento 140f. Este dispositivo inclui um selector 44 de banda de frequências que selecciona uma banda de frequências do canal A e uma banda de frequências correspondente do canal B. Depois, em ambas as bandas de frequências, é calculada uma energia por meio de uma calculadora 42 de energia para cada ramal. A implementação pormenorizada da calculadora 42 de energia dependerá do sinal de saída do bloco 40 ser um sinal de sub-banda ou coeficientes de frequência. Noutras implementações, onde são calculados os factores de escala para bandas de factor de escala, já se podem utilizar os factores de escala do primeiro e do segundo canais A, B como valores de energia EA e EB ou, pelo menos, como estimativas de energia. Num dispositivo 44 de cálculo de factor de ganho, é determinado um factor de ganho gB para a banda de frequências seleccionada com base numa determinada regra, tal como a regra de determinação de ganho ilustrada no bloco 44 da Fig. 4. Aqui, 30 o factor de ganho gB pode ser utilizado directamente para ponderar amostras no dominio de tempo ou coeficientes de frequência, como será descrito posteriormente na Fig. 5. Para este fim, o factor de ganho gB, que é válido para a banda de frequências seleccionada, é utilizado como informações laterais de canal para o canal B enquanto canal original seleccionado. Este canal B original seleccionado não será transmitido para o descodificador, mas será representado pelas informações laterais de canal paramétrico calculadas pela calculadora 14 da Fig. 1.

Deve aqui salientar-se que não é necessário transmitir valores de ganho como informações laterais de canal. Também basta transmitir valores dependentes de frequência relacionados com a energia absoluta do canal original seleccionado. Depois, o descodificador deve calcular a energia real do canal downmix e o factor de ganho baseado na energia do canal downmix e na energia transmitida para o canal B. A Fig. 5 mostra uma possível implementação de uma montagem de descodificador em conexão com um codificador de áudio perceptual baseado em transformada. Comparado com a Fig. 2, as funcionalidades do descodificador de entropia e do quantificador 50 inverso (Fig. 5) serão incluídas no bloco 24 da Fig. 2. A funcionalidade dos elementos 52a, 52b conversores de frequência/tempo (Fig. 5) será, entretanto implementada no item 36 da Fig. 2. O elemento 50 da Fig. 5 recebe uma versão codificada do primeiro ou do segundo sinal downmix Lc' ou Rc'. Na saída do elemento 50, uma versão, pelo menos parcialmente, descodificada do primeiro e do segundo canais downmix está presente, sendo subsequentemente denominada de canal A. O canal A é introduzido num selector 54 de banda de frequências para a 31 selecção de uma determinada banda de frequências do canal A. Esta banda de frequências seleccionada é ponderada utilizando um multiplicador 56. 0 multiplicador 56 recebe, para a multiplicação, um determinado factor de ganho gB, que é atribuído à banda de frequências seleccionada pelo selector 54 de banda de frequências, que corresponde ao selector 40 de banda de frequências da Fig. 4 no lado do codificador. Na entrada do conversor 52a frequência tempo, existe, juntamente com outras bandas, uma representação de dominio de frequência do canal A. Na saida do multiplicador 56 e, em particular na entrada do meio 52b de conversão frequência/tempo, existirá uma representação reconstruída de domínio de frequência do canal B. Portanto, na saída do elemento 52a, existirá uma representação de domínio de tempo para o canal A, enquanto na saída do elemento 52b, haverá uma representação de domínio de tempo do canal B reconstruído.

Deve aqui salientar-se que, dependendo de uma determinada implementação, o canal downmix descodificado Lc ou Rc não é reproduzido num descodificador multicanal melhorado. Neste descodificador multicanal melhorado, os canais downmix descodificados só são utilizados para reconstruir os canais originais. Os canais downmix originais só são reproduzidos em descodificadores estéreo de menor escala.

Para isso, é feita referência à Fig. 9, que mostra a implementação preferida da presente invenção num ambiente surround/mp3. Um fluxo de bits surround mp3 melhorado é inserido num descodificador 24 mp3 padrão, que emite versões descodificadas dos canais downmix originais. Estes canais downmix podem, então, ser directamente reproduzidos por meio de um descodificador de baixo nível. De modo alternativo, estes 32 dois canais são inseridos no dispositivo 32 descodificador joint stereo avançado, que também recebe os dados de extensão multicanal, que são, de um modo preferido, inseridos no campo de dados auxiliares num fluxo de bits compatível com mp3.

Subsequentemente, é feita referência à Fig. 7 que mostra o agrupamento do canal original seleccionado e o respectivo canal downmix ou canal downmix combinado. A este respeito, a coluna direita da tabela da Fig. 7 corresponde ao canal A da Fig. 3A, 3B, 4 e 5, enquanto a coluna do meio corresponde ao canal B nestas figuras. Na coluna esquerda da Fig. 7, as respectivas informações laterais de canal são explicitamente apresentadas. De acordo com a tabela da Fig. 7, as informações li de descodificação de canal, do canal original esquerdo L, são calculadas utilizando o canal downmix esquerdo Lc. As informações lsi de descodificação do canal surround esquerdo são determinadas por meio do canal surround esquerdo original seleccionado Ls e o canal downmix esquerdo Lc é o portador. As informações ri de descodificação do canal direito, do canal direito original R, são determinadas utilizando o canal downmix direito Rc. Além disso, as informações laterais de canal do canal surround direito Rs são determinadas utilizando o canal downmix direito Rc como portador. Finalmente, as informações ci de descodificação de canal, do canal central C, são determinadas utilizando o canal downmix combinado, que é obtido por meio de uma combinação do primeiro e do segundo canais downmix, e podem ser facilmente calculadas tanto num codificador como num descodificador e não exigindo bits extra para transmissão.

Naturalmente, também é possivel calcular as informações laterais de canal para os canal esquerdo, e. g., com base num 33 canal downmix combinado ou mesmo num canal downmix, que é obtido por uma adição ponderada do primeiro e do segundo canais downmix, tal como 0,7 Lc e 0,3 Rc, desde que os parâmetros de ponderação sejam conhecidos por um descodificador ou transmitidos de acordo com isso. Para a maioria das aplicações, no entanto, será preferível obter informações laterais de canal apenas para o canal central a partir do canal downmix combinado, i. e., a partir de uma combinação do primeiro e do segundo canais downmix.

Para demonstrar o potencial de economia de bits da presente invenção, é dado o seguinte exemplo típico. No caso de um sinal de áudio de cinco canais, um codificador comum precisa de uma taxa de bits de 64 kbit/s para cada canal, totalizando uma taxa de bits total de 320 kbit/s para o sinal dos cinco canais. Os sinais estéreo esquerdo e direito requerem uma taxa de bits de 128 kbit/s. As informações laterais dos canais para um canal ficam entre 1,5 e 2 kbit/s. Portanto, mesmo num caso em que sejam transmitidas as informações laterais de canal dos cinco canais, estes dados adicionais perfazem apenas 7,5 a 10 kbit/s. Portanto, o conceito inventivo permite a transmissão de um sinal de áudio de cinco canais utilizando uma taxa de bits de 138 kbit/s (comparado com 320 (!) kbit/s) com boa qualidade, já que o descodificador não utiliza a problemática operação de matrização inversa. Provavelmente ainda mais importante é o facto de que o conceito inventivo é totalmente compatível em termos de retorno, já que cada um dos reprodutores mp3 pode reproduzir o primeiro canal downmix e o segundo canal downmix para produzir uma reprodução estéreo convencional. 34

Dependendo do ambiente da aplicação, o método inventivo para o processamento ou processamento inverso pode ser implementado em hardware ou software. A implementação pode ser um meio de armazenagem digital, tal como um disco ou um CD com sinais de controlo legíveis electronicamente, que pode cooperar com um sistema de computador programável de modo a que o método do invento para o processamento ou o processamento inverso seja realizado. No geral, portanto, a invenção também se relaciona com um produto de programa de computador dotado com um código de programa armazenado num portador legível por máquina, estando o código do programa adaptado para realizar o método inventivo, quando o produto de programa de computador é executado num computador. Por outras palavras, a invenção, portanto, também se refere a um programa de computador dotado com um código de programa para a realização do método, quando o programa de computador é executado num computador.

Lisboa, 2 de Abril de 2007 35

Claims

REIVINDICAÇÕES 1. Equipamento para o processamento de um sinal de áudio multicanal, tendo o sinal de áudio multicanal, pelo menos, três canais originais, compreendendo: um meio (12) para proporcionar um primeiro canal downmix, como um canal downmix esquerdo, e um segundo canal downmix, como um canal downmix direito, sendo o primeiro e o segundo canais downmix obtidos a partir dos canais originais, de modo a que os canais downmix esquerdo e direito sejam formados de modo a que o resultado, quando reproduzido, seja uma representação estéreo do sinal de áudio multicanal ; um meio (14) para o cálculo das informações laterais do canal para um canal original seleccionado dos sinais originais, estando o meio de cálculo apto a calcular as informações laterais de canal de modo a que um canal downmix ou um canal downmix combinado, incluindo o primeiro e o segundo canal downmix, quando ponderados utilizando as informações laterais de canal, resultem numa aproximação do canal original seleccionado; e um meio (18) para a geração dos dados de saida, incluindo os dados de saida as informações laterais de canal.
2. Equipamento de acordo com a reivindicação 1, em que o meio (18) de geração está apto a gerar os dados de saida, de modo 1 a que estes incluam ainda o primeiro canal downmix ou um sinal obtido a partir do primeiro canal downmix e do segundo canal downmix ou um sinal obtido a partir do segundo canal downmix.
3. Equipamento de acordo com a reivindicação 1 ou 2, em que o meio (14) de cálculo está apto a determinar as informações laterais de canal como dados paramétricos não incluindo amostras de domínio do tempo ou valores espectrais.
4. Equipamento de acordo com qualquer uma das reivindicações 1 a 3, em que o meio (14) de cálculo está apto a realizar a codificação joint stereo utilizando um canal downmix como canal portador e utilizando, como canal de entrada, o canal original seleccionado, para gerar parâmetros joint stereo como informações laterais de canal para o canal original seleccionado.
5. Equipamento de acordo com a reivindicação 3, em que o meio (14) de cálculo está apto a realizar uma codificação intensity stereo ou binaural cue coding, de modo a que as informações laterais de canal representem uma distribuição de energia ou parâmetros binaural cue para o canal original seleccionado, em que se pode utilizar um canal downmix ou um canal downmix combinado como canal portador.
6. Equipamento de acordo com qualquer uma das reivindicações 1 a 5, em que o sinal de áudio multicanal inclui um canal esquerdo, um canal esquerdo surround, um canal direito e um canal 2 direito surround, em que o meio (12) de fornecimento está apto a proporcionar o primeiro canal downmix como um canal downmix esquerdo e a proporcionar o segundo canal downmix como um canal downmix direito, sendo os canais downmix esquerdo e direito formados de modo a que um resultado, quando reproduzidos, seja uma representação estéreo do sinal de áudio multicanal, e em que o meio (14) de cálculo está apto a calcular as informações laterais de canal para o canal esquerdo como o canal original seleccionado utilizando o canal downmix esquerdo, a calcular as informações laterais de canal para o canal direito como o canal original seleccionado utilizando o canal downmix direito, a calcular as informações laterais de canal para o canal surround esquerdo como o canal original seleccionado utilizando o canal downmix esquerdo, e a calcular as informações laterais de canal para o canal surround direito como o canal original seleccionado utilizando o canal downmix direito.
7. Equipamento de acordo com qualquer uma das reivindicações 1 a 6, em que os canais originais incluem um canal central, 3 que inclui ainda um combinador (14 a) para a combinação do primeiro canal downmíx e do segundo canal downmix para obter o canal downmix combinado; e em que o meio de cálculo das informações laterais de canal do canal central como o canal original seleccionado está apto a calcular (14 b) as informações laterais de canal de modo a que o canal downmix combinado, quando ponderado utilizando as informações laterais de canal, resulte numa aproximação do canal central original.
8. Equipamento de acordo com qualquer uma das reivindicações 1 6, em que o meio (12) está apto a obter o primeiro canal downmix e o segundo canal downmix a partir dos canais originais utilizando uma primeira combinação ponderada linear predeterminada para o primeiro canal downmix, e utilizando uma segunda combinação ponderada linear predeterminada para o segundo canal downmix.
9. Equipamento de acordo com a reivindicação 7, em que a primeira combinação ponderada linear predeterminada é definida do seguinte modo: Lc = t' (L + a Ls + b'C) ; ou, em que a segunda combinação ponderada linear predeterminada é definida do seguinte modo: Rc = t‘ (R + a'Rs + b'C) , 4 em que Lc é o primeiro canal downmix, em que Rc é o sequndo canal downmix, em que t, a e b são factores de ponderação menores do que 1, em que L é um canal esquerdo original, em que C é um canal central original, em que R é um canal direito original, em que Ls é um canal surround esquerdo original, e em que Rs é um canal surround direito original.
10. Equipamento de acordo com qualquer uma das reivindicações 1 a 8, em que o meio (12) está apto a receber o primeiro e segundo canais downmix fornecidos a partir do exterior.
11. Equipamento de acordo com qualquer uma das reivindicações 1 10, em que o primeiro canal downmix e o segundo canal downmix são canais compostos, sendo compostos pelos canais originais de acordo com graus variáveis, em que o meio de cálculo está apto a utilizar, para calcular as informações laterais de canal, o canal downmix, entre ambos os canais downmix, que seja mais fortemente influenciado pelo canal original seleccionado quando comparados com o outro canal downmix.
12. Equipamento de acordo com qualquer uma das reivindicações 1 11, em que o meio (18) de geração está apto a formar os dados de saida de modo a que os dados de saida estejam de acordo com uma sintaxe de dados de saída a ser utilizada por um descodificador de baixo nível para o processamento do primeiro canal downmix, de um sinal obtido a partir do primeiro canal downmix, do segundo canal downmix ou um sinal obtido a partir do segundo canal downmix para obter uma 5 representação estéreo descodificada do sinal de áudio multicanal.
13. Equipamento de acordo com a reivindicação 12, em que a sintaxe de dados de saída está estruturada de modo a que a mesma inclua um campo de dados especial a ser ignorado pelo descodificador de baixo nível, e em que o meio de geração está apto a inserir as informações laterais de canal no campo de dados especial.
14. Equipamento de acordo com a reivindicação 13, em que a sintaxe é uma sintaxe mp3 e o campo de dados especial é um campo de dados auxiliares.
15. Equipamento de acordo com qualquer uma das reivindicações 12 a 14, em que o meio (18) de geração está apto a inserir as informações laterais de canal nos dados de saída de modo a que as informações laterais de canal sejam somente utilizadas por um descodificador de alto nível, mas sejam ignoradas pelo descodificador de baixo nível.
16. Equipamento de acordo com qualquer uma das reivindicações 2 a 15, que compreende ainda um codificador (16) para codificar o primeiro canal downmix para obter o sinal obtido a partir do primeiro canal downmix ou para codificar o segundo canal downmix para obter o sinal obtido a partir do segundo canal downmix.
17. Equipamento de acordo com a reivindicação 16, em que o codificador (16) é um codificador perceptual que inclui um meio para converter um sinal a ser codificado numa 6 representação espectral, um meio para quantificar a representação espectral utilizando um modelo psicoacústico e um meio para a codificação entrópica de uma representação espectral quantificada para obter uma representação espectral quantificada com codificação entrópica como o sinal obtido a partir do primeiro canal downmix ou o sinal obtido a partir do segundo canal downmix.
18. Equipamento de acordo com a reivindicação 17, em que o codificador (16) perceptual é um codificador de acordo com MPEG-1/2 camada III (mp3) ou MPEG-2/4 codificação áudio avançada (AAC).
19. Equipamento de acordo com qualquer uma das reivindicações 1 a 18, em que o meio (14) de cálculo está apto a calcular os valores de energia downmix para o canal downmix ou o canal downmix combinado, a calcular um valor de energia original para o canal original seleccionado, e a calcular um factor de ganho como informações laterais de canal, sendo o factor de ganho obtido a partir do valor de energia downmix e do valor de energia original.
20. Equipamento de acordo com qualquer uma das reivindicações 1 a 19, em que o meio (14) de cálculo está apto a calcular os parâmetros de informações laterais de canal dependentes da frequência, de modo a que, para uma pluralidade de bandas de frequências, seja obtida uma pluralidade de diferentes parâmetros de informações laterais de canal. 7
21. Método para o processamento de um sinal de áudio multicanal, tendo o sinal de áudio multicanal, pelo menos, três canais originais, compreendendo: proporcionar (12) um primeiro canal downmix como um canal downmix esquerdo, e um segundo canal downmix como um canal downmix direito, sendo o primeiro e o segundo canais downmix obtidos a partir dos canais originais, de modo a que o resultado dos canais downmix esquerdo e direito, quando reproduzidos, seja uma representação estéreo do sinal de áudio multicanal; calcular (14) informações laterais de canal para um canal original seleccionado a partir dos sinais originais de modo a que um canal downmix ou um canal downmix combinado, incluindo o primeiro e o segundo canais downmix, quando ponderados utilizando as informações laterais de canal, resultem numa aproximação do canal original seleccionado; e gerar (18) dados de saida, incluindo os dados de saída as informações laterais de canal.
22. Equipamento para o processamento inverso de dados de entrada, incluindo os dados de entrada informações laterais de canal, um canal downmix esquerdo ou um sinal obtido a partir do canal downmix esquerdo e um canal downmix direito ou um sinal obtido a partir do canal downmix direito, em que o canal downmix esquerdo e o canal downmix direito são obtidos a partir de, pelo menos, três canais originais de um sinal de áudio multicanal e o resultado, quando reproduzido, é uma representação estéreo do sinal de áudio multicanal, e em que as informações laterais de canal são calculadas de modo a que um canal downmix ou um canal downmix combinado, incluindo o canal downmix esquerdo e o canal downmix direito, quando ponderados utilizando as informações laterais de canal, resultem numa aproximação do canal original seleccionado, compreendendo o equipamento: um leitor (24) de dados de entrada para ler os dados de entrada para obter o canal downmix esquerdo ou um sinal obtido a partir do canal downmix esquerdo, e o canal downmix direito ou a sinal obtido a partir do canal downmix direito, e as informações laterais de canal; e um reconstrutor (32) de canais para a reconstrução da aproximação do canal original seleccionado utilizando as informações laterais de canal e o canal downmix ou o canal downmix combinado para obter a aproximação do canal original seleccionado.
23. Equipamento de acordo com a reivindicação 22, compreendendo ainda um descodificador (24) perceptual para a descodificação do sinal obtido a partir do canal downmix esquerdo para obter a versão descodificada do canal downmix esquerdo e para a descodificação do sinal obtido a partir do canal downmix direito para obter uma versão descodificada do canal downmix direito.
24. Equipamento de acordo com a reivindicação 22 ou 23, compreendendo ainda um combinador para combinar o canal 9 downmix esquerdo e o canal downmix direito para obter o canal downmix combinado.
25. Equipamento de acordo com uma das reivindicações 22 a 24, em que o sinal original de áudio inclui um canal esquerdo, um canal surround esquerdo, um canal direito, um canal surround direito e um canal central, e em que os dados de entrada incluem as informações laterais do canal para, pelo menos, três canais de entre o canal esquerdo, o canal esquerdo surround, o canal direito, o canal surround direito e o canal central, em que o reconstrutor do canal (32) está apto a reconstruir uma aproximação do canal esquerdo utilizando as informações laterais de canal para o canal esquerdo e o canal downmix esquerdo, reconstruir uma aproximação do canal surround esquerdo utilizando as informações laterais de canal para o canal esquerdo surround e o canal downmix esquerdo, reconstruir uma aproximação do canal direito utilizando as informações laterais de canal do canal direito e o canal downmix direito, e reconstruir uma aproximação do canal surround direito utilizando as informações de descodificação de canal do canal surround direito e o canal downmix direito. 10
26. Equipamento de acordo com qualquer uma das reivindicações 22 a 25, em que o reconstrutor de canais está apto a reconstruir uma aproximação para o canal central utilizando informações laterais de canal do canal central e do canal downmix combinado.
27. Método de processamento inverso de dados de entrada, incluindo os dados de entrada informações laterais de canal, o canal downmix esquerdo ou um sinal obtido a partir do canal downmix esquerdo e um canal downmix direito ou um sinal obtido a partir do canal downmix direito, em que o canal downmix esquerdo e o canal downmix direito são obtidos a partir de, pelo menos, três canais originais de um sinal de áudio multicanal, e em que as informações laterais de canal são calculadas de modo a que um canal downmix ou um canal downmix combinado incluindo o canal downmix esquerdo e o canal downmix direito, quando ponderados utilizando as informações laterais de canal, resultem numa aproximação do canal original seleccionado, compreendendo o método: leitura (24) dos dados de entrada para obter o canal downmix esquerdo ou um sinal obtido a partir do canal downmix esquerdo e do canal downmix direito ou um sinal obtido a partir do canal downmix direito e as informações laterais de canal; e reconstruir (32) a aproximação do canal original seleccionado utilizando as informações laterais de canal e o canal downmix ou o canal downmix combinado para obter a aproximação do canal original seleccionado. 11
28. Programa de computador tendo um código de programação para realizar um método de acordo com a reivindicação 21 ou a reivindicação 27, quando é executado num computador. Lisboa, 2 de Abril de 2007 12