PT910927E - Processo para codificacao e descodificacao de valores espectrais de audio-estereofonia - Google Patents

Processo para codificacao e descodificacao de valores espectrais de audio-estereofonia Download PDF

Info

Publication number
PT910927E
PT910927E PT97925036T PT97925036T PT910927E PT 910927 E PT910927 E PT 910927E PT 97925036 T PT97925036 T PT 97925036T PT 97925036 T PT97925036 T PT 97925036T PT 910927 E PT910927 E PT 910927E
Authority
PT
Portugal
Prior art keywords
stereo
spectral values
coding table
audio
coding
Prior art date
Application number
PT97925036T
Other languages
English (en)
Inventor
Jurgen Herre
Karlheinz Brandenburg
Heinz Gerhauser
Martin Dietz
Uwe Gbur
Bodo Teichmann
James Johnston
Original Assignee
Fraunhofer Ges Zur Ford Der An
At & T Lab Research
Lucent Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=7799742&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=PT910927(E) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Fraunhofer Ges Zur Ford Der An, At & T Lab Research, Lucent Technologies Inc filed Critical Fraunhofer Ges Zur Ford Der An
Publication of PT910927E publication Critical patent/PT910927E/pt

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/007Two-channel systems in which the audio signals are in digital form

Description

fJ u
DESCRIÇÃO "PROCESSO PARA CODIFICAÇÃO E DESCODIFICAÇÃO DE VALORES ESPECTRAIS DE ÁODIO-ESTEREOFONIA" A presente invenção refere-se à codificação e descodificação de valores espectrais de áudio-estereofonia e em especial à visualização do facto que se encontra activa uma codificação de intensidade de estereofonia.
Os processos modernos de codificação ou processos de .descodificação áudio, que trabalham por exemplo de acordo com a norma MPEG camada 3, são capazes de comprimir a velocidade de dados dos sinais de áudio digitais, por exemplo com um factor de doze, sem piorar de modo perceptível a qualidade dos mesmos.
Para além de um elevado ganho na codificação em cada um dos canais, tal como por exemplo o canal esquerdo L e o canal direito R, são utilizados no caso da estereofonia, também interligados, a redundância e irrelevância dos dois canais. Os processos conhecidos e já utilizados são o denominado processo estereofónico LM (Lado Médio) e o processo de intensidade de estereofonia (processo IE). 0 processo estereofónico LM conhecido pelos técnicos utiliza no essencial a. redundância interligada dos dois canais, sendo que neste caso é calculada uma soma e uma diferença dos dois canais, que . depois são transmitidas respectivamente como dados de canal modificados, para o canal esquerdo ou canal direito. A redundância. . entre os dois canais, retirada no codificador, é introduzida novamente no -descodificador. Isto quer dizer que o processo estereofónico LM pode ser reconstruído com exactidão. 1 p U, ^
Em contraste, o processo de intensidade de estereofonia utiliza nomeadamente a irrelevância estereofónica. Em relação à irrelevância estereofónica deverá ser mencionado que a percepção espacial do sistema auditivo humano depende da frequência dos sinais de áudio perceptiveis. Nas frequências mais baixas, tanto as informações do valor como da fase dos dois sinais estereofónicos, são avaliadas pelo sistema auditivo humano, sendo que a percepção dos componentes de alta frequência se deve principalmente à analise das curvas envolventes de energia-tempo dos dois canais. Deste modo, não são relevantes para a percepção espacial as informações exactas da fase dos sinais nos dois canais. Esta propriedade da audição humana é utilizada para empregar a irrelevância estereofónica para a redução adicional dos dados de sinais áudio através do processo de intensidade de estereofonia.
Dado que o processo de intensidade de estereofonia nas altas frequências não consegue decompor qualquer informação exacta do local, é daí possível a partir de uma frequência limite da intensidade, determinada no codificador, transmitir em vez de dois canais estéreo L, R, um envelope de energia comum aos dois canais. Adicionalmente a este envelope de energia comum, são transmitidas informações da direcção, quantificadas por aproximação, como informações laterais.
Dado que deste modo na utilização da codificação de intensidade de estereofonia um canal só é parcialmente transmitido, a economia de bits pode atingir 50%. Deverá ser todavia considerado que o processo de IE no descodificador não pode ser reconstruído com exactidão.
No processo de IE, que é até agora utilizado na camada 3 MPEG normalizada, é verificado através de um denominado bit de extensão de modo {mode_extension_bit) , que o processo de IE se encontra em geral activo num bloco de valores espectrais de áudio-estereofonia, apresentando cada bloco um bit de extensão de modo atribuído ao mesmo. 2 Γ
ΐ
Na figura 1 encontra-se uma representação do princípio do conhecido processo de IE. Os valores espectrais de áudio-estereofonia para um canal L 10 e para um canal R 12, são adicionados num ponto de soma 14, para obter um envelope de energia I=Lí+Rí dos dois canais. Li e Ri representam aqui os valores espectrais de áudio-estereofonia do canal L ou do canal R em qualquer banda de factor de escala. Tal como anteriormente mencionado, a utilização do processo de IE só é permitida acima de uma certa frequência limite de IE, para não introduzir qualquer perturbação de codificação nos valores .espectrais codificados de áudio-estereofonia. Por isso, numa zona de 0 Hz até à frequência limite da IE, os canais esquerdo e direito têm que ser codificados separadamente. A determinação da frequência limite da IE como tal, é executada num algoritmo separado, o que não faz parte desta invenção. A partir desta frequência limite, o codificador codifica o sinal da soma do canal esquerdo 10 e do canal direito 12, o qual é formado no ponto da soma 14.
Adicionalmente aos envelopes de energia, quer dizer ao sinal da soma do canal esquerdo e direito, que por exemplo pode ser transmitido no canal esquerdo codificado, são além disso necessários para uma descodificação, informações 16 de escalonamento para o canal L assim como informações 18 de escalonamento para o canal R. No processo de intensidade de estereofonia, tal como se encontra implementado na camada 2 MPEG, são transmitidos os factores de escala para o canal esquerdo e direito. Neste caso, deverá ser notado . que no processo da IE na camada MPEG 3, para valores espectrais de áudio-estereofonia codificados em IE, são transmitidas informações de direcção da intensidade somente no canal direito, com os quais então, tal como se encontra exposto atrás, os valores espectrais de áudio-estereofonia são novamente descodificados. 3
V
As informações 16 e 18 de escalonamento são transmitidas respectivamente como informações laterais adicionalmente aos valores espectrais codificados do canal L assim como do canal R. Um descodificador fornece a um canal L' descodificado 20 ou a um canal R’ descodificado 22, valores de sinal áudio descodificado, em que as informações 18 de escalonamento para o canal L com os valores espectrais de áudio-estereofonia descodificados dos respectivos canais, são multiplicados a um multiplicador L 24 ou um multiplicador R 26, para descodificar novamente os valores originais espectrais de áudio-estereofonia codificados.
Antes da utilização de uma codificação em IE acima de uma certa frequência limite de IE ou uma codificação LM abaixo desta frequência limite, os valores espectrais de áudio-estereofonia são agrupados para cada canal, nas denominadas bandas de factor de escala. Estas bandas encontram-se adaptadas às propriedades de percepção do ouvido. Cada uma destas bandas pode ser reforçada com um factor adicional, o denominado factor de escala, o qual é transmitido como informação lateral para o respectivo canal e o qual representa uma parte das informações 16 de escalonamento assim como das informações 18 de escalonamento da figura 1. Estes factores provocam a formação de um ruído parasita introduzido através de uma quantificação, de modo tal que o mesmo, considerando pontos de vista psico-acústicos é "mascarado" tornando-se assim inaudível. A figura 2a mostra um formato do canal direito R codificado, o qual por exemplo é utilizado num processo de codificação áudio MPEG de camada 3. Todas as realizações adicionais relacionadas com a codificação de intensidade de estereofonia referem-se também ao processo de acordo com a camada 3 MPEG normalizada. Na primeira linha da figura 2a encontram-se apresentadas esquematicamente cada uma das bandas 28 de factor de escala, nas quais os valores espectrais de áudio-estereofonia se encontram agrupados. A largura de banda igual 4 desenhada na figura 2a, das bandas de factor de escala, serve simplesmente para uma melhor visibilidade da representação, não acontecendo na prática devido às propriedades psico-acústicas do sistema auditivo.
Na segunda linha da figura 2a, encontram-se valores codificados es espectrais de áudio-estereofonia, que abaixo de uma frequência 32 limite de IE são diferentes de zero, em que os valores espectrais de áudio-estereofonia no canal direito através da frequência limite de IE, tal como anteriormente mencionado, são colocados ez (ez = espectro zero) a zero {Zero_Part) .
Na terceira linha da figura 2a encontram-se uma parte das informações 34 laterais para o canal direito. Esta parte apresentada das informações laterais 34 é constituída por um lado pelos factores de escala fe para a zona abaixo da frequência limite de IE assim como pelas informações da direcção id 36 para a zona acima da frequência limite de IE 32. Estas informações da direcção são utilizadas para, no processo de intensidade de estereofonia, garantir uma resolução local aproximada da zona de frequência codificada em IE. Estas informações da direcção id 36, que são também denominadas posições da intensidade (is_pos), são assim transmitidas no canal direito em vez dos factores de escala. Deverá ser novamente mencionado que, abaixo da frequência limite da IE no canal direito, se encontram presentes os factores de escala 34 que correspondem tal como dantes, às bandas 28 do factor de escala. As posições 36 de intensidade mostram a posição da imagem estereofónica perceptível (a relação da esquerda para a direita) da fonte do sinal dentro das respectivas bandas 28 de factor de escala. Em cada banda 28 de factor de escala acima da frequência limite de IE, os valores descodificados dos valores espectrais de áudio-estereofonia transmitidos são escalonados, de acordo com o processo MPEG camada 3, através dos seguintes factores de 5 r u
escalonamento direito: kL para o canal esquerdo e kR para o canal
(D kL = is ratio / (l+is_ratio) e kR = 1 / (l+is_ratio) (2) A equação para is_ratio é a seguinte: is_ratio = tan (is_pos.7r/12) (3) 0 valor is_pos é um valor quantificado com 3 bits, em que somente os valores de 0 a 6 é que representam valores de posição válidos. Das duas seguintes equações pode ser efectuado a partir do sinal I (I=Lí+Rí), uma correcção retrospectiva do canal esquerdo e direito:
Ri = I . is_ratio/(l+is_ratio) = I . kL (4)
Li = I . 1/ (l+is_ratio) = I . kR (5)
Ri e Li representam os valores espectrais de áudio-estereofonia descodificados de intensidade de estereofonia. Neste local deverá ser observado que o formato do canal esquerdo é semelhante ao formato do canal direito apresentado na figura 2a, em que todavia no canal esquerdo acima da frequência limite de IE 32 em lugar do espectro zero, é encontrado o espectro I=Lí+Rí, e em que, além disso, não se encontra presente qualquer informação de direcção is_pos para o canal esquerdo, mas sim valores de escala habituais. A passagem dos valores espectrais, quantificados da soma, diferentes de zero, para os valores zero no canal direito pode ser mostrado ao descodificador implicitamente pela frequência limite da IE durante a camada 3 MPEG normalizada. 6
V
L-Cj ^^
No codificador, o canal L transmitido é deste modo calculado como a soma do canal esquerdo e canal direito, em que as informações de direcção transmitidas, podem ser determinadas através da seguinte equação: is_pos ~ nint [arctan (VEl/VEr) . 12/π}; (6}
Neste caso, a função nint [x] representa a função "o próximo número inteiro", em que Et e ER são as energias nas respectivas bandas de factor de escala do canal esquerdo ou canal direito. Esta formulação do codificador/descodificador conduz a uma reconstrução aproximada de sinais no canal esquerdo e canal direito.
Tal como já foi mencionado, nos conhecidos processos de codificação de áudio, os valores espectrais de áudio-estereofonia são agrupados em bandas de factor de escala, em que estas bandas se encontram adaptadas às propriedades de percepção do ouvido. No processo de codificação áudio de acordo com a norma MPEG camada 3, estas bandas de factor de escala são subdivididas em precisamente três regiões. Deste modo devem ser entretanto agrupadas zonas com a mesma estatística de sinal. Isto é vantajoso para a redução de redundância que entretanto tem lugar por meio da conhecida codificação Huffman. Para cada uma destas regiões das bandas 28 de factor de escala é entretanto escolhida uma de várias tabelas Huffman, na qual o ganho através da redução da redundância por meio da codificação de Huffman, por meio da tabela Huffman escolhida, é maior. Esta tabela é apresentada para cada região na corrente de bits dos dados codificados por meio de um valor de 5 bits. Existem 30 tabelas diferentes, em que as tabelas 4 e 14 não se encontram ocupadas. 0 processo de codificação NBC não retrocompatível, o qual se encontra neste momento em normalização, diferencia-se do processo MPEG camada 3 de codificação áudio normalizada 7 U. ^ entretanto entre outros, por na sintaxe da corrente de bits para este processo não são somente permitidos exactamente três regiões de bandas de factor de escala, mas sim· que os denominados troços ou "sections" podem existir em qualquer número e podem apresentar qualquer número de bandas de factor de escala. A um troço é atribuída uma tabela Huffman correspondente de várias destas tabelas, de modo análogo ao anterior processo descrito MPEG camada 3 para alcançar uma redução máxima de redundância, a qual deve ser depois utilizada para descodificação. Em caso extremo, um troço é constituído por exemplo somente de uma única banda de factor de escala. Na prática isto não irá acontecer tão cedo, dado que as informações laterais necessárias seriara demasiado grandes. No processo NBC existem no total 16 números da tabela de codificação Huffman, que são transmitidos como valores de 4 bits. Deste modo, pode ser escolhido um dos doze números da tabela de codificação. 0 objectivo da presente invenção é o de proporcionar um processo para a codificação ou descodificação de valores espectrais de áudio-estereofonia, no qual as informações relevantes para a codificação ou descodificação são sinalizadas às informações laterais com um dispêndio mínimo.
Este objectivo é alcançado através de um processo para codificação de valores espectrais de áudio-estereofonia de acordo com a reivindicação 1, assim como através de um processo para descodificação de valores espectrais de áudio-estereofonia codificados· com o processo de estereofonia intensa, de acordo com a reivindicação 2. À presente invenção é do conhecimento, que números adicionais de tabela de codificação, que não são utilizados para remeter para as tabelas de codificação, podem apresentar outras informações relevantes para um troço. Os números "adicionais" da tabela de codificação, são os números da tabela de codificação que não remetem para as tabelas de codificação. 8
V
Através de uma codificação de 4 bits de doze diferentes números de tabela de codificação, os números 13, 14 e 15 encontram-se de certo modo disponíveis para uma ocupação com outras informações. Num exemplo de realização preferido da presente invenção, são utilizados dois (nr.14 e nr.15) dos três (nr.13, nr.14 e nr.15) números adicionais da tabela de codificação, para indicar por um lado para uma codificação de intensidade existente num troço e por outro lado sobre a posição reciproca da fase de valores espectrais de áudio-estereofonia codificados em EI em dois canais estéreo. 0 número 13 adicional da tabela de codificação ainda não utilizado, pode ser utilizado para indicar uma codificação Huffman adaptável.
Os exemplos de realização preferidos da presente invenção serão de seguida pormenorizadamente descritos, tomando como referencia os desenhos anexos. As figuras representam:
Figura 1 fluxo do sinal num esquema de codificação/descodificação, de acordo com o processo de estereofonia intensa,
Figura 2a formato dos dados caso exista uma codificação de intensidade de estereofonia para o canal direito para a camada 3 MPEG normalizada,
Figura 2b formato dos dados caso exista uma codificação de intensidade de estereofonia para o canal direito, para o processo MPEG-NBC,
Figura 3 esquema de um descodificador, que realiza a presente invenção.
Um processo para a codificação de valores espectrais de áudio-estereofonia assim como o processo para descodificação de valores espectrais de áudio-estereofonia codificados em 9 f~ U ^ parte era processo de estereofonia intensa de acordo com um primeiro exemplo de realização da presente invenção, utilizam um novo género de sinalização da presença da codificação de estereofonia intensa dentro de um troço. De acordo com a presente invenção, encontram-se igualmente presentes 16 números de tabela de codificação; Ao contrário do estado da técnica, correspondem todavia somente os primeiros 12 números da tabela de codificação (nr.l a nr.12) verdadeiras tabelas de codificação. Com ajuda do ultimo e do penúltimo número da tabela de codificação, é entretanto sinalizado, que dentro do troço, ao qual se encontram atribuídos estes números da tabela de codificação, é aplicado o processo de estereofonia intensa.. A figura 2b mostra o formato dos dados para o canal direito R caso exista uma codificação de intensidade de estereofonia sob utilização do processo MPEG2-NBC, A diferença para a figura 2a, ou para o processo MPEG camada 3, é constituída por um utilizador, no processo MPEG2-NBCf possuir a flexibilidade, também acima da frequência limite 32 de IE, de uma codificação de intensidade de estereofonia dos valores espectrais de áudio-estereofonia para respeotivamente um troço, quer dizer poder ligar e desligar selectivamente um agrupamento de pelo menos uma banda de factor de escala. Deste modo, a frequência limite de IE já não é mais verdadeiramente uma frequência limite em comparação com a camada MPEG3-, dado que no processo NBC também acima da frequência limite de IE, a codificação de IE pode ser desligada e ligada. Isto não era possível na camada 3, quer dizer os valores de áudio-estereofonia acima da frequência limite de IE tinham, em caso da presença de uma codificação em IE para um troço, de qualquer modo também ser codificados era. IE, totalmente até ao extremo superior da zona espectral. 0 novo processo NBC não tem que activar a codificação IE para toda a zona espectral acima do limite de IE, permitindo a mesma também o desligar da codificação de IE de modo que isto seja sinalizado. Dado que de acordo com a sintaxe da corrente 10
I y de bits mesmo assim para um troço tem que ser transmitido um número da tabela de codificação, não se propagam também as informações laterais na sinalização descrita de acordo com a invenção ("overhead").
Os factores de escala transmitidos para o canal direito num troço com a codificação de IE representam entretanto igualmente, semelhante ao estado da técnica, as informações 36 da direcção da intensidade, em que estes valores em si são sujeitos igualmente a uma codificação da diferença e Huffman. No canal direito, tal como já foi mencionado, nas bandas de factor de escala acima da frequência limite 32 de IE, nos quais a IE foi activada, não se encontram quaisquer valores espectrais de áudio-estereofonia, mas sim um espectro zero. O canal esquerdo contém nos troços codificados em ΙΕ, o sinal da soma do canal esquerdo e do canal direito. 0 sinal da soma é todavia de tal modo normalizado, que a sua energia dentro das respectivas bandas de valor de escala, após a descodificação de IE, corresponde à energia do canal esquerdo. Dai o canal esquerdo poder, em caso da utilização de uma codificação em IE, ser acolhido no dispositivo de descodificação também inalterado, não tendo que ser adicionalmente determinado através da realização da soma ou dá diferença. Os valores espectrais de áudio-estereofonia do canal direito, podem entretanto ser corrigidos retrospectivamente dos valores espectrais de áudio-estereofonia do canal esquerdo, sob utilização das informações de direccionamento da intensidade is_pos 36, que existem nas informações laterais do canal direito.
Tal como foi descrito no inicio, o processo de estereofonia intensa proporciona de acordo com o estado da técnica dois sinais coerentes para o canal esquerdo ou canal direito, que se diferenciam somente na sua amplitude, quer dizer intensidade, dependente das informações de direcção is_pos 36 (equações (4) e (5) ) . 11 V Γ u
Na presente invenção, pode entretanto ser incluída uma relação de fase dos dois canais um para o outro, dado que a presença da codificação em intensidade de estereofonia é sinalizada por meio de dois números "não verdadeiros" da tabela de codificação. Se os dois canais apresentarem a mesma posição de fase, a regra de retrocálculo de acordo com a invenção a ser executado no descodificador é a seguinte:
Ri = 0,5 Λ (0,25.is_pos (sfb)).L±, (7) enquanto que no caso de uma fase oposta, o espectro é multiplicado com -1, pelo que resulta para o calculo do canal direito, a seguinte equação:
Ri (-1).0,5 Λ (0,25.is_pos (sfb)).Li (8)
Ri indica nas duas equações anteriores, os valores espectrais de áudio-estereofonia retrocalculados, quer dizer descodificados, do canal direito. Sfb indica a banda 28 de factor de escala, ao qual se encontram atribuídas as informações de direccionamento is_pos 36. Li indica os valores espectrais de áudio-estereofonia do canal esquerdo, os quais são acolhidos sem alterações no descodificador. O número 15 da tabela de codificação mostra entretanto se deve ser utilizado a primeira regra de retrocálculo, enquanto que o número 14 da tabela de codificação indica que deve ser utilizada a segunda regra de retrocálculo, quer dizer que os dois canais se encontram em fase oposta. Para os técnicos é evidente que as expressões mesma fase, e fase oposta, no sentido desta patente, são amplamente utilizadas. Deste modo, pode por exemplo ser previsto um discriminador de fase, o qual a partir de um certo valor inicial de discriminador de fase, o qual por exemplo pode ser 90°, determina que os sinais se encontram em fase oposta, em que os mesmos, em caso de uma diferença de fase menor que 90°, são vistos como tendo a mesma fase. 12
V u
No primeiro exemplo descrito pode deste modo para um troço, que é constituído por pelo menos uma banda de factor de escala, ser determinado através dos números 14 ou 15 da tabela de codificação, a posição da fase dos dois canais um em relação ao outro. As informações laterais que surgem devido à sinalização IE e de fase, são de 8 bits para um troço, os quais são constituídos por quatro bit para o comprimento do troço e quatro bits para os números 14 ou 15 da tabela de codificação. Se entretanto um sinal de áudio tiver que ser codificado, o qual nas bandas de factor de escala dos seus valores espectrais de áudio-estereofonia apresenta frequentes alterações da posição da fase, tem assim, de acordo com o primeiro exemplo de realização em cada inversão da posição da fase de banda de factor de escala para banda de factor de escala, que ser começado um novo troço ("section"). Um sinal com uma posição de fase que muda frequentemente, produz deste modo muitos troços, dado que cada troço através dos números da tabela de codificação atribuídos ao mesmo, só pode mostrar que os valores espectrais de estereofonia intensa apresentam fases iguais ou fases opostas nos dois canais. Um sinal desvantajoso irá conduzir assim a um grande número de troços e assim a uma quantidade maior de informações laterais.
Um segundo exemplo de realização da presente invenção, permite uma codificação da posição da fase em modo de banda de factor de escala num troço no qual a codificação de intensidade se encontra activa. Através deste processo de acordo com o segundo exemplo de realização da presente invenção, torna-se possível deste modo sob utilização de uma mascara LM, que de seguida será descrita, uma codificação da posição da fase em modo de banda dé factor de escala, sem um aumento do número de troços assim como sem um dispêndio adicional. 13 V f u
Para os técnicos, é evidente que o processo de lado médio e o processo de intensidade de estereofonia numa banda de factor de escala se eliminam mutuamente. Estes dois processos são deste modo ortogonais.
Se for utilizada uma codificação LM de valores espectrais de áudio-estereofonia numa corrente de bits, estará assim um bit de sinalização ajustado de modo correspondente nas informações laterais, que liga globalmente a codificação LM. Uma colocação destes bits exprime que é transmitida uma mascara de bits LM, com a qual é possível ligar e desligar selectivamente uma codificação LM para c-ada banda de factor de escala (scfbd). Para cada banda de factor de escala, encontra-se reservado, na mascara de bits LM, um bit, motivo pelo qual o comprimento da mascara de bits corresponde ao número da banda de factor de escala.
Mas bandas de factor de escala nas quais a IE se encontra activa, não é necessária a informação de factor de escala LM, dado que a codificação LM não pode aqui estar activada. A mascara de bits LM pode nesta zona ser utilizada para outras sinalizações. É deste modo possível por meio da mascara de bits LM mostrar detalhes da codificação em IE. Em concordância com o primeiro exemplo de realização, são indicados na codificação em IE as informações em relação à posição da fase dos canais num troço por meio dos números 14 e 15 da tabela de codificação. Os números da tabela de codificação indicam além disso, que num troço a codificação de IE se encontra activa.
Divergindo do primeiro exemplo de realização, no segundo exemplo de realização da presente invenção, a mascara de bits LM é utilizada para permitir bandas de factor de escala com diferentes posições de fase num troço. A mascara de bits LM serve entretanto para mostrar, em relação ao numero da tabela de codificação que sinaliza que se encontra activa uma codificação de IE num troço, a posição da fase de cada uma 14
V
LrCj ^^ das bandas de factor de escala neste troço. Se não estiver colocado um bit na mascara de bits LM para uma banda de factor de escala (quer dizer zero), as informações apresentadas de fase através dos números da tabela de codificação para o troço, na qual a banda de factor de escala se encontra, são mantidas, enquanto que no caso de um bit colocado (quer dizer um) na mascara de LM para a banda de factor de escala a qual através do número da tabela de codificação para o troço, no qual a banda de factor de escala se encontra, a posição apresentada da fase dos dois canais é invertida. Em principio trata-se deste modo de uma combinação EXCLUSIV-OR (EOR) entre a posição da fase apresentada através do número da tabela de codificação e a mascara de bits LM.
Nos seus pormenores, as relações de fase dos dois canais de estereofonia L e R calculadas de um numero de tabela de codificação e mascara de bit LM numa banda de factor de escala, que se encontra num troço no qual é utilizada a codificação de IE, são as seguintes: Número da tabela de codificação (para um troço) 15 15 14 14 Mascara de bits LM (para uma banda de factor de escala) 0 1 0 1 Posição da fase de L e R 0o 180° 180° Λ C Regra de retrocálculo eq. 7 eq. 8 eq. 8 eq. 7
Tabela 1 0 segundo exemplo de realização descrito da presente invenção, permite deste modo o surgimento de bandas de factor de escala com valores espectrais de áudio-estereofonia com diferentes posições de fase num troço, pelo que têm que ser formados menos troços para codificação do que no primeiro exemplo de realização. Deste têm que ser também transmitidos menos informações laterais. 15
V
Divergindo do exemplo de realização acima descrito, podem ser apresentadas, com os números de tabela codificados adicionais, também outras informações relevantes para um troço.
As informações adicionais relevantes para um troço podem por exemplo ser uma indicação para a utilização de uma codificação Huffman adaptável num troço. No caso de uma codificação Huffman adaptável, pode ser gerada uma tabela Huffman adaptável ero dependência da estatística do sinal. 0 número 13 da tabela de codificação indica ao dispositivo de codificação para não utilizar nenhuma das doze tabelas Huffman fixas, mas sim utilizar uma tabela Huffman adaptada, a qual à priori não é conhecida pelo descodificador. Isto é então vantajoso, se a estatística do sinal num troço não pode ser codificada, quer dizer comprimida, de modo optimizado num troço com uma das doze tabelas de codificação fixas predefinidas. A codificação não é deste modo fixada a uma das doze tabelas Huffman fixas, mas sim pode gerar e utilizar uma tabela adaptada de modo optimizado à estatística do sinal. As informações acerca das tabelas de codificação adaptadas são transmitidas como informações laterais adicionais.
Um dispositivo de descodificação necessita destas informações laterais adicionais para, das mesmas, efectuar uma correcção retrospectiva das tabelas Huffman adaptadas utilizadas na codificação, para poder descodificar correctaxnente novamente os valores espectrais de áudio-estereofonia codificados em Huffman. A figura 3 apresenta um circuito simplificado de um descodificador, o qual pode executar o processo para descodificar de acordo com a presente invenção. Os valores espectrais de áudio-estereofonia codificados em parte por processo de intensidade de estereofonia são introduzidos respec-tivamente nos quantificadores 38 e 40 inversos, em que 16 os quantificadores inversos anulam a quantificação introduzida na codificação.
De seguida os valores espectrais de áudio-estereofonia desquantifiçados vão parar a um descodificador 42 LM. Este descodificador 42 LM anula a codificação lado médio introduzida no codificador. Um descodificador 44 de IE utiliza entretanto as regras (7) e (8) de retrocálculo anteriormente descritas, para receber novamente os valores espectrais de áudio-estereofonia também para as bandas de factor de escala codificadas em IE. Os respectivos dispositivos de retrotransformação para o canal esquerdo ou direito executam entretanto uma conversão dos valores espectrais de áudio-estereofonia em valores L(t), R (t) de período de áudio-estereofonia. Para os técnicos é evidente que os dispositivos 46 e 48 de retrotransformação por exemplo podem ser realizados através de um MDCT inverso.
Lisboa, 31 de Janeiro de 2000
AGENTE OFICIAL DA PROPRIEDADE INDUSTRIAL
17

Claims (10)

  1. r REIVINDICAÇÕES 1. Processo para a codificação de valores espectrais de áudio-estereofonia, para obter valores espectrais de áudio-estereofonia codificados, com os seguintes passos:' agrupamento dos valores espectrais de áudio-estereofonia em bandas (28) de factor de escala, aos quais se encontram atribuídos factores (34) de escala; formação de troços, que compreendem pelo menos uma banda (28) de factor de escala; codificação dos valores espectrais de áudio-estereofonia dentro de pelo menos um troço com uma tabela de codificação, atribuída pelo menos a um troço, de várias tabelas de codificação, às quais se encontra respectivamente atribuído um número de tabela de codificação, em que o número da tabela de codificação utilizada é transmitido como informação lateral para os valores codificados de áudio-estereofonia, caracterizado por se encontrar previsto um número adicional de tabela de codificação, o qual não se refere a uma tabela de codificação mas sim mostra informações relevantes para o troço, que se encontra atribuído à mesma, em que a um troço se encontra atribuído um número de tabela de codificação ou pelo menos um número adicional de tabela de codificação, sem influenciar a quantidade de informações laterais.
  2. 2. Processo para a descodificação de valores espectrais de áudio-estereofonia que apresentam informações laterais, caracterizado pelos seguintes passos: 1 L-Cj ^ determinação de cada um dos números de tabela de codificação devido às informações laterais para cada troço dos valores espectrais de áudio-estereofonia codificados; e descodificação dos valores espectrais de áudio-estereofonia de um troço, cujo número de tabela de codificação se refere a uma tabela de codificação correspondente, sob utilização desta tabela de codificação; caracterizado pelos seguintes passos: descodificação dos valores espectrais de áudio-estereofonia de um outro troço com um número de tabela de codificação, que não se refere a uma tabela de codificação, mas sim mostra informações relevantes ao troço que se encontra atribuído ao mesmo, de acordo com as informações apresentadas,
  3. 3, Processo de acordo com qualquer das reivindicações 1 ou 2, caracterizado por pelo menos um número adicional de tabela de codificação indicar uma codificação de acordo com o processo de intensidade de estereofonia do troço atribuído.
  4. 4, Processo de acordo com qualquer das reivindicações anteriores caracterizado por pelo menos um número adicional de tabela de codificação indicar uma codificação Huffman adaptável dos valores espectrais de áudio-estereofonia do troço atribuído,
  5. 5, Processo de acordo com qualquer das reivindicações anteriores, caracterizado por pelo menos um número adicional de tabela de codificação para um troço, o qual se encontra codificado de acordo com o processo de 2 f u intensidade de estereofonia, além disso indicar uma relação de fase entre dois canais de estereofonia.
  6. 6. Processo de acordo com a reivindicação 5, caracterizado por pelo menos um de dois números adicionais de tabela de codificação, indicar uma mesma posição de fase dos dois canais de estereofonia, sendo validas as seguintes regras de retrocálculo para a descodificação de intensidade: Ri = 0,5 Λ (0,25.is_pos (sfb)).Li, em que Rj são os valores espectrais de áudio-estereofonia de um canal (R) direito, is_pos representa as informações de direccionamento de intensidade para a banda de factor de escala sfb existente, e Li os valores espectrais de áudio-estereofonia de um canal (L) esquerdo.
  7. 7. Processo de acordo com a reivindicação 5 ou 6, caracterizado por um de dois números adicionais da tabela de codificação indicar uma posição de fase contrária dos dois canais estéreo, sendo que é valido a seguinte regra de retrocálculo para a descodificação de intensidade: Ri = ¢-1).0,5 Λ (0,25.is_pos (sfb)).Li, em que Ri são os valores espectrais de áudio-estereofonia de um canal (R) direito, is_pos representa as informações de direccionamento de intensidade para a banda de factor de escala sfb existente, e Li os valores espectrais de áudio-estereofonia de um canal (L) esquerdo.
  8. 8. Processo de acordo com qualquer das reivindicações anteriores, no qual o processo de estereofonia intensa forma num canal esquerdo um sinal de soma normalizado dos valores espectrais de áudio-estereofonia do canal esquerdo e direito, formando factores de escala como informações laterais, enquanto que no canal direito o 3 espectro é zero e as informações de direccionamento de intensidade são codificadas como informações laterais.
  9. 9. Processo de acordo com qualquer das reivindicações anteriores, caracterizado por ser utilizada uma mascara de bits que apresenta um bit para cada banda de factor de escala, em que um bit da mascara de bits para uma banda de factor de escala num troço, ao qual se encontra atribuído um número adicional de tabela de codificação, é acoplado ao número adicional da tabela de codificação, para determinar uma relação de fase para dois canais de estereofonia.
  10. 10. Processo de acordo com a reivindicação 9 caracterizado por a mascara de bits ser uma mascara de bits LM e os números adicionais da tabela de codificação serem acoplados com a mascara de bits LM em modo de banda de factor de escala por meio de um acoplamento EXCLUSIV-OR. Lisboa, 31 de Janeiro de 2000 AGENTE OFICIAL DA PROPRIEDADE INDUSTRIAL
    4
PT97925036T 1996-07-12 1997-06-03 Processo para codificacao e descodificacao de valores espectrais de audio-estereofonia PT910927E (pt)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE19628292A DE19628292B4 (de) 1996-07-12 1996-07-12 Verfahren zum Codieren und Decodieren von Stereoaudiospektralwerten

Publications (1)

Publication Number Publication Date
PT910927E true PT910927E (pt) 2000-04-28

Family

ID=7799742

Family Applications (1)

Application Number Title Priority Date Filing Date
PT97925036T PT910927E (pt) 1996-07-12 1997-06-03 Processo para codificacao e descodificacao de valores espectrais de audio-estereofonia

Country Status (14)

Country Link
US (1) US6771777B1 (pt)
EP (1) EP0910927B1 (pt)
JP (1) JP3622982B2 (pt)
KR (1) KR100316582B1 (pt)
AT (1) ATE188832T1 (pt)
AU (1) AU712196B2 (pt)
CA (1) CA2260090C (pt)
DE (2) DE19628292B4 (pt)
DK (1) DK0910927T3 (pt)
ES (1) ES2143868T3 (pt)
GR (1) GR3032444T3 (pt)
NO (1) NO317570B1 (pt)
PT (1) PT910927E (pt)
WO (1) WO1998003036A1 (pt)

Families Citing this family (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6539357B1 (en) * 1999-04-29 2003-03-25 Agere Systems Inc. Technique for parametric coding of a signal containing information
US6735561B1 (en) * 2000-03-29 2004-05-11 At&T Corp. Effective deployment of temporal noise shaping (TNS) filters
US7099830B1 (en) 2000-03-29 2006-08-29 At&T Corp. Effective deployment of temporal noise shaping (TNS) filters
DE60132853D1 (de) * 2000-07-07 2008-04-03 Nokia Siemens Networks Oy Verfahren und Vorrichtung für die perzeptuelle Tonkodierung von einem mehrkanal Tonsignal mit Verwendung der kaskadierten diskreten Cosinustransformation oder der modifizierten diskreten Cosinustransformation
SE0202159D0 (sv) * 2001-07-10 2002-07-09 Coding Technologies Sweden Ab Efficientand scalable parametric stereo coding for low bitrate applications
US8605911B2 (en) 2001-07-10 2013-12-10 Dolby International Ab Efficient and scalable parametric stereo coding for low bitrate audio coding applications
EP1423847B1 (en) 2001-11-29 2005-02-02 Coding Technologies AB Reconstruction of high frequency components
US6934677B2 (en) 2001-12-14 2005-08-23 Microsoft Corporation Quantization matrices based on critical band pattern information for digital audio wherein quantization bands differ from critical bands
US7240001B2 (en) * 2001-12-14 2007-07-03 Microsoft Corporation Quality improvement techniques in an audio encoder
US7016547B1 (en) 2002-06-28 2006-03-21 Microsoft Corporation Adaptive entropy encoding/decoding for screen capture content
US7299190B2 (en) 2002-09-04 2007-11-20 Microsoft Corporation Quantization and inverse quantization for audio
DE20321883U1 (de) 2002-09-04 2012-01-20 Microsoft Corp. Computervorrichtung und -system zum Entropiedecodieren quantisierter Transformationskoeffizienten eines Blockes
US7433824B2 (en) * 2002-09-04 2008-10-07 Microsoft Corporation Entropy coding by adapting coding between level and run-length/level modes
US7502743B2 (en) 2002-09-04 2009-03-10 Microsoft Corporation Multi-channel audio encoding and decoding with multi-channel transform selection
JP4676140B2 (ja) 2002-09-04 2011-04-27 マイクロソフト コーポレーション オーディオの量子化および逆量子化
SE0202770D0 (sv) 2002-09-18 2002-09-18 Coding Technologies Sweden Ab Method for reduction of aliasing introduces by spectral envelope adjustment in real-valued filterbanks
US7782954B2 (en) * 2003-09-07 2010-08-24 Microsoft Corporation Scan patterns for progressive video content
US7688894B2 (en) 2003-09-07 2010-03-30 Microsoft Corporation Scan patterns for interlaced video content
US7724827B2 (en) * 2003-09-07 2010-05-25 Microsoft Corporation Multi-layer run level encoding and decoding
KR20050027179A (ko) * 2003-09-13 2005-03-18 삼성전자주식회사 오디오 데이터 복원 방법 및 그 장치
US7460990B2 (en) 2004-01-23 2008-12-02 Microsoft Corporation Efficient coding of digital media spectral data using wide-sense perceptual similarity
CN1922655A (zh) * 2004-07-06 2007-02-28 松下电器产业株式会社 音频信号编码装置、音频信号解码装置、方法及程序
CN101151659B (zh) * 2005-03-30 2014-02-05 皇家飞利浦电子股份有限公司 多通道音频编码器、设备、方法及其解码器、设备和方法
US7684981B2 (en) 2005-07-15 2010-03-23 Microsoft Corporation Prediction of spectral coefficients in waveform coding and decoding
US7539612B2 (en) * 2005-07-15 2009-05-26 Microsoft Corporation Coding and decoding scale factor information
US7630882B2 (en) * 2005-07-15 2009-12-08 Microsoft Corporation Frequency segmentation to obtain bands for efficient coding of digital media
US7599840B2 (en) * 2005-07-15 2009-10-06 Microsoft Corporation Selectively using multiple entropy models in adaptive coding and decoding
US7562021B2 (en) * 2005-07-15 2009-07-14 Microsoft Corporation Modification of codewords in dictionary used for efficient coding of digital media spectral data
US7693709B2 (en) 2005-07-15 2010-04-06 Microsoft Corporation Reordering coefficients for waveform coding or decoding
KR100851970B1 (ko) 2005-07-15 2008-08-12 삼성전자주식회사 오디오 신호의 중요주파수 성분 추출방법 및 장치와 이를이용한 저비트율 오디오 신호 부호화/복호화 방법 및 장치
US8599925B2 (en) 2005-08-12 2013-12-03 Microsoft Corporation Efficient coding and decoding of transform blocks
US7933337B2 (en) 2005-08-12 2011-04-26 Microsoft Corporation Prediction of transform coefficients for image compression
US7565018B2 (en) * 2005-08-12 2009-07-21 Microsoft Corporation Adaptive coding and decoding of wide-range coefficients
US8190425B2 (en) 2006-01-20 2012-05-29 Microsoft Corporation Complex cross-correlation parameters for multi-channel audio
US7831434B2 (en) 2006-01-20 2010-11-09 Microsoft Corporation Complex-transform channel coding with extended-band frequency coding
US7953604B2 (en) * 2006-01-20 2011-05-31 Microsoft Corporation Shape and scale parameters for extended-band frequency coding
US8184710B2 (en) 2007-02-21 2012-05-22 Microsoft Corporation Adaptive truncation of transform coefficient data in a transform-based digital media codec
US7774205B2 (en) * 2007-06-15 2010-08-10 Microsoft Corporation Coding of sparse digital media spectral data
US7761290B2 (en) 2007-06-15 2010-07-20 Microsoft Corporation Flexible frequency and time partitioning in perceptual transform coding of audio
US8046214B2 (en) * 2007-06-22 2011-10-25 Microsoft Corporation Low complexity decoder for complex transform coding of multi-channel sound
US7885819B2 (en) 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
US8249883B2 (en) 2007-10-26 2012-08-21 Microsoft Corporation Channel extension coding for multi-channel source
KR101444102B1 (ko) 2008-02-20 2014-09-26 삼성전자주식회사 스테레오 오디오의 부호화, 복호화 방법 및 장치
US8179974B2 (en) 2008-05-02 2012-05-15 Microsoft Corporation Multi-level representation of reordered transform coefficients
US8406307B2 (en) 2008-08-22 2013-03-26 Microsoft Corporation Entropy coding/decoding of hierarchically organized data
JP6061121B2 (ja) * 2011-07-01 2017-01-18 ソニー株式会社 オーディオ符号化装置、オーディオ符号化方法、およびプログラム

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3310480C2 (de) * 1983-03-23 1986-02-13 Seitzer, Dieter, Prof. Dr.-Ing., 8520 Erlangen Digitales Codierverfahren für Audiosignale
JPS59188764A (ja) 1983-04-11 1984-10-26 Hitachi Ltd メモリ装置
DE3943879B4 (de) * 1989-04-17 2008-07-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Digitales Codierverfahren
JP3131249B2 (ja) 1991-08-23 2001-01-31 日本放送協会 混合音声信号受信装置
CA2090052C (en) 1992-03-02 1998-11-24 Anibal Joao De Sousa Ferreira Method and apparatus for the perceptual coding of audio signals
EP0559348A3 (en) * 1992-03-02 1993-11-03 AT&T Corp. Rate control loop processor for perceptual encoder/decoder
DE4236989C2 (de) * 1992-11-02 1994-11-17 Fraunhofer Ges Forschung Verfahren zur Übertragung und/oder Speicherung digitaler Signale mehrerer Kanäle
JP3292522B2 (ja) 1992-11-25 2002-06-17 京セラ株式会社 携帯電話機
JP3150475B2 (ja) 1993-02-19 2001-03-26 松下電器産業株式会社 量子化方法
US5581653A (en) 1993-08-31 1996-12-03 Dolby Laboratories Licensing Corporation Low bit-rate high-resolution spectral envelope coding for audio encoder and decoder
DE4331367C2 (de) * 1993-09-15 1996-04-18 Lewin Martin Innenmuffe zur Dichtung von Rohrstößen in Rohrleitungen
DE4331376C1 (de) 1993-09-15 1994-11-10 Fraunhofer Ges Forschung Verfahren zum Bestimmen der zu wählenden Codierungsart für die Codierung von wenigstens zwei Signalen
US5488665A (en) 1993-11-23 1996-01-30 At&T Corp. Multi-channel perceptual audio compression system with encoding mode switching among matrixed channels
JP3435674B2 (ja) 1994-05-06 2003-08-11 日本電信電話株式会社 信号の符号化方法と復号方法及びそれを使った符号器及び復号器
DE19638997B4 (de) 1995-09-22 2009-12-10 Samsung Electronics Co., Ltd., Suwon Digitales Toncodierungsverfahren und digitale Toncodierungsvorrichtung

Also Published As

Publication number Publication date
GR3032444T3 (en) 2000-05-31
DK0910927T3 (da) 2000-05-08
NO317570B1 (no) 2004-11-15
CA2260090A1 (en) 1998-01-22
AU3031897A (en) 1998-02-09
JP3622982B2 (ja) 2005-02-23
EP0910927B1 (de) 2000-01-12
DE19628292B4 (de) 2007-08-02
EP0910927A1 (de) 1999-04-28
NO990106D0 (no) 1999-01-11
NO990106L (no) 1999-03-10
CA2260090C (en) 2000-10-17
DE59701014D1 (de) 2000-02-17
US6771777B1 (en) 2004-08-03
DE19628292A1 (de) 1998-01-15
KR20000022435A (ko) 2000-04-25
AU712196B2 (en) 1999-10-28
ATE188832T1 (de) 2000-01-15
JP2000505266A (ja) 2000-04-25
ES2143868T3 (es) 2000-05-16
WO1998003036A1 (de) 1998-01-22
KR100316582B1 (ko) 2002-02-28

Similar Documents

Publication Publication Date Title
PT910927E (pt) Processo para codificacao e descodificacao de valores espectrais de audio-estereofonia
PT910928E (pt) Codificacao e descodificacao de sinais de audio utilizando intensidade de estereofonia e previsao
ES2770146T3 (es) Conformación temporal y espacial de señales de audio multicanal
PT931386E (pt) Processo para a sinalizacao de uma substituicao de ruido durante a codificacao de um sinal de audio
ES2642906T3 (es) Codificador de audio, procedimientos para proporcionar un flujo de audio y programa de ordenador
ES2297825T3 (es) Cuantificacion dependiente de energia para la codificacion eficaz de parametros de audio espaciales.
JP4547380B2 (ja) 互換性マルチチャンネル符号化/復号化
CN110495105B (zh) 多声道信号的编解码方法和编解码器
KR101139880B1 (ko) 주파수 영역 위너 필터링을 사용한 공간 오디오 코딩을 위한 시간적 엔벨로프 정형화
US20040186735A1 (en) Encoder programmed to add a data payload to a compressed digital audio frame
ES2847237T3 (es) Aparato y método de emisión de un valor estimado
US11521628B2 (en) Apparatus and method for encoding an audio signal using compensation values between three spectral bands
ES2372064T3 (es) Procedimiento y aparato para codificar y decodificar señales digitales.
US8224660B2 (en) Method of coding a source audio signal, corresponding coding device, decoding method and device, signal, computer program products
BR112015007650B1 (pt) Codificador , decodificador e métodos para transformação de zoom dependente de sinal na codificação do objeto de áudio espacial
KR20080009078A (ko) 오디오 메타데이터 검증
EP2702588B1 (en) Method for parametric spatial audio coding and decoding, parametric spatial audio coder and parametric spatial audio decoder
BRPI0517949B1 (pt) dispositivo de conversão para converter um sinal dominante, método de conversão de um sinal dominante, e meio não transitório legível por computador
KR20150138328A (ko) 멀티채널 오디오의 하이브리드 인코딩
BR112015010023B1 (pt) Codificador de áudio e método para codificar um sinal de áudio
US20170278522A1 (en) Apparatus and method for decoding an encoded audio signal with low computational resources
BR112015002794A2 (pt) aparelho e método para adaptar informações de áudio na codificação de objeto de áudio espacial
CN110462733B (zh) 多声道信号的编解码方法和编解码器
BRPI0813178B1 (pt) Processo de codificação de um sinal de áudio de entrada, processo de decodificação escalável de um sinal de áudio, codificador de sinal de áudio de entrada, e codificador de um sinal de áudio
Dimkovic Improved ISO AAC Coder