PT2301023T

PT2301023T - Esquema de codificação/descodificação áudio de baixo débito com comutadores em cascata

Info

Publication number: PT2301023T
Application number: PT97938740T
Authority: PT
Inventors: Popp Harald; Lefebvre Roch; Geyersberger Stefan; Grill Bernhard; Multrus Markus; Geiger Ralf; Hilpert Johannes; Gournay Philippe; Salami Redwan; Bessette Bruno; Bayer Stefan; Lapierre Jimmy; Fuchs Guillaume; Kraemer Ulrich; Lecomte Jeremie; Neuendorf Max; Rettelbach Nikolaus
Original assignee: Fraunhofer Ges Forschung; Voiceage Corp
Priority date: 2008-07-11
Filing date: 2009-06-26
Publication date: 2016-07-11
Also published as: US20150154967A1; RU2010154747A; WO2010003564A1; US11475902B2; TWI539443B; EP2144230A1; US20190259393A1; US20110238425A1; ES2569912T3; JP5244972B2; US11682404B2; AU2009267467A1; US20110202354A1; KR101224559B1; AU2009267467B2; JP2011527454A; EP2301023B1; RU2485606C2; US10319384B2; MY153455A

Description

DESCRIÇÃO

"ESQUEMA DE CODIFICAÇÃO/DESCODIFICAÇÃO ÁUDIO DE BAIXO DÉBITO COM COMUTADORES EM CASCATA"

Campo da invenção A presente invenção refere-se à codificação áudio e, particularmente, a esquemas de codificação áudio de baixo débito.

Antecedentes da Invenção e Estado da Técnica

Na técnica conhecem-se esquemas de codificação de domínio de frequência como MP3 ou AAC. Estes codificadores no domínio de frequência são baseados numa conversão domínio temporal/domínio de frequência, uma fase de quantificação subsequente na qual o erro de quantificação é controlado utilizando a informação de um módulo psicoacústico, e uma fase de codificação na qual os coeficientes espetrais quantificados e a informação lateral correspondente são codificados de modo entrópico utilizando tabelas de código.

Por outro lado, existem codificadores que são muito bem apropriados para o processamento de voz tal como o AMR-WB+ como descrito em 3GPP TS 26.290. Tais esquemas de codificação de voz desempenham uma filtragem de Predição Linear de um sinal no domínio temporal. Tal filtragem LP é derivada de uma análise de Predição Linear do sinal no domínio temporal de entrada. Os coeficientes de filtragem LP resultantes são então quantificados/codifiçados e transmitidos como informação lateral. O processo é conhecido como Codificação de Predição Linear (LPC) . Na saída do filtro, o sinal residual de predição ou o sinal de erro de predição, que é também conhecido como o sinal de excitação, é codificado utilizando as fases de análise por síntese do codificador ACELP ou, alternativamente, é codificado utilizando um codificador de transformada, o qual utiliza uma transformada de Fourier com uma sobreposição. A decisão entre a codificação ACELP e a excitação Codificada por transformada, que é também chamada de codificação TCX, é realizada utilizando um algoritmo de circuito fechado ou de circuito aberto.

Os esquemas de codificação áudio no domínio de frequência, tais como o esquema de codificação AAC de alta eficiência, que combina um esquema de codificação AAC e uma técnica de replicação de banda espetral, podem também ser combinados a um estéreo combinado ou uma ferramenta de codificação multicanal que é conhecida sob o termo "surround MPEG".

Por outro lado, os codificadores de voz tais como AMR-WB+ têm também uma fase de realce da alta frequência e uma funcionalidade estéreo.

Os esquemas de codificação no domínio de frequência são vantajosos na medida em que mostram uma alta qualidade a baixos débitos para sinais musicais. No entanto, é problemática a qualidade dos sinais de voz a baixos débitos.

Os esquemas de codificação de voz mostram uma alta qualidade para sinais de voz mesmo a baixos débitos, mas mostram uma má qualidade para os sinais musicais a baixos débitos.

Os documentos WO 2008/071353 A2 e RAMPRASHAD, S. A. The Multimode Transform Predictive Coding Paradigm. IEEE Transactions on Speech and Audio Processing, vol. 11, n° 2, março de 2003, páginas 117-129, divulgam exemplos de esquemas híbridos para codificação e descodificação de sinais de voz e de áudio.

Sumário da invenção 0 objeto da presente invenção é proporcionar um conceito melhorado de codificação/descodificação.

Este objeto é alcançado por um codificador áudio de acordo com a reivindicação 1, um método de codificação áudio de acordo com a reivindicação 15, um descodificador de acordo com a reivindicação 16, um método de descodificação de acordo com a reivindicação 23, um sinal codificado de acordo com a reivindicação 24 ou um programa de computador de acordo com a reivindicação 25.

As formas de realização preferidas são definidas nas reivindicações dependentes.

Breve descrição dos desenhos

As formas de realização preferidas da presente invenção são descritas a seguir com respeito aos desenhos anexos, nos quais: A Fig. la é um diagrama de blocos de um esquema de codificação de acordo com um primeiro aspeto da presente invenção; A Fig. lb é um diagrama de blocos de um esquema de descodificação de acordo com o primeiro aspeto da presente invenção; A Fig. lc é um diagrama de blocos de um esquema de codificação de acordo com um aspeto adicional da presente invenção; A Fig. 2a é um diagrama de blocos de um esquema de codificação de acordo com um segundo aspeto da presente invenção; A Fig. 2b é um diagrama esquemático de um esquema de descodificação de acordo com o segundo aspeto da presente invenção; A Fig. 2c é um diagrama de blocos de um esquema de codificação de acordo com um aspeto adicional da presente invenção; A Fig. 3a ilustra um diagrama de blocos de um esquema de codificação de acordo com um aspeto adicional da presente invenção; A Fig. 3b ilustra um diagrama de blocos de um esquema de descodificação de acordo com o aspeto adicional da presente invenção; A Fig. 3c ilustra uma representação esquemática do aparelho/método de codificação com comutadores em cascata; A Fig. 3d ilustra um diagrama esquemático de um aparelho ou método para descodificação, no qual são utilizados combinadores em cascata; A Fig. 3e ilustra uma ilustração de um sinal do domínio temporal e uma representação correspondente do sinal codificado que ilustra regiões curtas de fundo encadeado que são incluídas em ambos os sinais codificados; A Fig. 4a ilustra um diagrama de blocos com um comutador posicionado antes dos ramos de codificação; A Fig. 4b ilustra um diagrama de blocos de um esquema de codificação com o comutador posicionado depois da codificação dos ramos; A Fig. 4c ilustra um diagrama de blocos para uma forma de realização preferida de combinador; A Fig. 5a ilustra uma forma de onda de um segmento de voz do domínio temporal como um segmento de sinal quase periódico ou de tipo impulso; A Fig. 5b ilustra um espetro do segmento da Fig. 5a; A Fig. 5c ilustra um segmento de voz do domínio temporal de voz não vocalizada como um exemplo para um segmento com características de ruído; A Fig. 5d ilustra um espetro da forma de onda do domínio temporal da Fig. 5c; A Fig. 6 ilustra um diagrama de blocos de uma análise pelo codificador CELP de síntese;

As Figs. 7a a 7d ilustram sinais de excitação vocalizados/não vocalizados como um exemplo para sinais de tipo impulso; A Fig. 7e ilustra uma fase da LPC ao lado do codificador que proporciona uma informação de predição de curto prazo e o sinal de erro de predição (excitação); A Fig. 7f ilustra uma forma de realização adicional de um dispositivo LPC para gerar um sinal ponderado; A Fig. 7g ilustra uma implementação para transformar um sinal ponderado num sinal de excitação através da aplicação de uma operação de ponderação inversa e uma análise de excitação subsequente como requerido no conversor 537 da Fig. 2b; A Fig. 8 ilustra um diagrama de blocos de um algoritmo multicanal conjunto de acordo com uma forma de realização da presente invenção; A Fig. 9 ilustra uma forma de realização preferida de um algoritmo de extensão de largura de banda; A Fig. 10a ilustra uma descrição detalhada do comutador durante o desempenho de uma decisão de circuito aberto; e A Fig. 10b ilustra uma ilustração do comutador durante a operação num modo de decisão de circuito fechado.

Descrição detalhada das formas de realização preferidas A Fig. la ilustra uma forma de realização da invenção que tem dois comutadores em cascata. Um sinal mono, um sinal estéreo ou um sinal multicanal é inserido num comutador 200. O comutador 200 é controlado por uma fase de decisão 300. A fase de decisão recebe, como entrada, uma entrada de sinal no bloco 200. Alternativamente, a fase de decisão 300 pode também receber uma informação lateral que é incluída no sinal mono, no sinal estéreo ou no sinal multicanal, ou é pelo menos associada a um tal sinal, onde existe a informação que foi, por exemplo, gerada durante a produção original do sinal mono, do sinal estéreo ou do sinal multicanal. A fase de decisão 300 aciona o comutador 200 para alimentar um sinal numa porção de codificação das frequências 400 ilustrada num ramo superior na Fig. la, ou numa porção de codificação no domínio de LPC 500 ilustrada num ramo inferior na Fig. la. Um elemento chave do ramo de codificação no domínio de frequência é um bloco de conversão espetral 410 que opera para converter o sinal de saída comum da fase de pré-processamento (como discutido mais adiante) num domínio espetral. O bloco de conversão espetral pode incluir um algoritmo MDCT, um QMF, um algoritmo FFT, uma análise Wavelet ou um banco de filtros tal como um banco de filtros criticamente amostrado que tem um certo número de canais de banco de filtros, onde os sinais de sub- bandas neste banco de filtros podem ser sinais com valor real ou sinais com valor complexo. A saida do bloco de conversão espetral 410 é codificada utilizando um codificador áudio espetral 421 que pode também incluir blocos de processamento como os conhecidos do esquema de codificação AAC.

Geralmente, o processamento no ramo 400 é um processamento num modelo baseado na perceção ou num modelo de circuito de informação. Assim, este ramo modela o sistema auditivo humano que recebe o som. Ao contrário, o processamento no ramo 500 tem de gerar um sinal no domínio de excitação, residual ou no domínio da LPC. Geralmente, o processamento no ramo 500 é um processamento num modelo de voz ou num modelo de geração de informação. Para os sinais vocais, este modelo é um modelo do sistema de voz humana/de geração de som que gera um som. Se no entanto um som de uma fonte diferente que exige um modelo diferente de geração de som tiver de ser codificado, então o processamento no ramo 500 pode ser diferente.

No ramo de codificação inferior 500, um elemento chave é um dispositivo de LPC 510, o qual emite uma informação de LPC que é utilizada para controlar as características de um filtro LPC. Esta informação de LPC é transmitida para um descodificador. O sinal de saída da fase de LPC 510 é um sinal de domínio de LPC que consiste de um sinal de excitação e/ou sinal ponderado. 0 dispositivo LPC geralmente emite um sinal de domínio de LPC, que pode ser qualquer sinal no domínio de LPC, tal como o sinal de excitação na Fig. 7e ou um sinal ponderado na Fig. 7f ou qualquer outro sinal, que tenha sido gerado pela aplicação de coeficientes de filtro LPC a um sinal de áudio. Além disso, um dispositivo LPC também pode determinar esses coeficientes e também pode quantificar/codificar esses coeficientes. A decisão na fase de decisão pode ser adaptada ao sinal de modo a que a fase de decisão desempenhe uma discriminação de música/voz e controle o comutador 200 de modo que os sinais musicais sejam introduzidos no ramo superior 400, e os sinais de voz sejam introduzidos no ramo inferior 500. Numa forma de realização, a fase de decisão está a alimentar a sua informação de decisão num fluxo de bits de saida de modo que um descodificador possa usar esta informação de decisão para desempenhar as operações de descodificação corretas.

Tal descodificador é ilustrado na Fig. lb. A saída de sinal pelo codificador áudio espetral 421 é, depois da transmissão, introduzida num descodificador áudio espetral 431. A saída do descodificador áudio espetral 431 é introduzida num conversor no domínio temporal 440. De modo análogo, a saída do ramo de codificação no domínio de LPC 500 na Fig. la recebida no lado do descodificador e processada pelos elementos 531, 533, 534 e 532 para obter um sinal de excitação LPC. O sinal de excitação LPC é introduzido numa fase de síntese de LPC 540, a qual recebe, como uma entrada adicional, a informação de LPC gerada pela fase de análise de LPC correspondente 510. A saída do conversor do domínio temporal 440 e/ou a saída da fase de síntese de LPC 540 são introduzidas num comutador 600. O comutador 600 é controlado através de um sinal de controlo de comutador que foi, por exemplo, gerado pela fase de decisão 300, ou que foi proporcionado externamente, por exemplo por um criador do sinal mono original, do sinal estéreo ou do sinal multicanal. A saída do comutador 600 é um sinal mono completo, um sinal estéreo ou um sinal multicanal. O sinal de entrada no comutador 200 e na fase de decisão 300 pode ser um sinal mono, um sinal estéreo ou um sinal multicanal, ou geralmente um sinal áudio. Dependendo da decisão que pode ser derivada do sinal de entrada do comutador 200 ou de qualquer fonte externa, tal como um produtor do sinal áudio original subjacente ao sinal de entrada na fase 200, o comutador comuta entre o ramo de codificação de frequência 400 e o ramo de codificação de LPC 500. O ramo de codificação de frequência 400 compreende uma fase de conversão espetral 410 e uma fase de quantificação/codificação posteriormente ligada 421. A fase de quantificação/codificação pode incluir qualquer das funcionalidades conhecidas dos codificadores modernos no domínio de frequência modernos tais como o codificador AAC. Além disso, a operação de quantificação na fase de quantificação/codificação 421 pode ser controlada através de um módulo psicoacústico que gera informação psicoacústica tal como um limiar de mascaramento psicoacústico acima da frequência, onde esta informação é entrada na fase 421.

No ramo de codificação de LPC, o sinal de saída do comutador é processado através de uma fase de análise de LPC 510 que gera uma informação lateral de LPC e um sinal no domínio de LPC. O codificador de excitação inventivamente compreende um comutador adicional para comutar o processamento adicional do sinal no domínio de LPC entre uma operação de quantificação/codificação 522 no domínio de LPC ou uma fase de quantificação/codificação 524, que está a processar valores no domínio espetral de LPC. Com este fim, um conversor espetral 523 é proporcionado à entrada da fase de quantificação/codificação 524. O comutador 521 é controlado num modo de circuito aberto ou num modo de circuito fechado dependendo de definições específicas como descrito, por exemplo, na especificação técnica AMR-WB+.

Para o modo de controlo de circuito fechado, o codificador inclui adicionalmente um quantificador/codificador 531 para o sinal do domínio de LPC, um quantificador/codificador inverso 533 para o sinal do domínio espetral de LPC e um conversor espetral inverso 534 para a saída do artigo 533. Ambos os sinais codificados e de novo descodificados nos ramos de processamento do segundo ramo de codificação são introduzidos no dispositivo de controlo de comutador 525. No dispositivo de controlo de comutador 525, estes dois sinais de saida são comparados um ao outro e/ou a uma função de alvo ou uma função de alvo é calculada que pode ser baseada numa comparação da distorção em ambos os sinais de modo que o sinal que tem a distorção inferior seja utilizado para decidir qual a posição que o comutador 521 tem que assumir. Alternativamente, no caso de ambos os ramos proporcionarem débitos não constantes, o ramo que proporciona o débito inferior pode ser selecionado mesmo quando a relação sinal-ruido deste ramo é inferior à relação sinal-ruido do outro ramo. Alternativamente, a função alvo pode utilizar, como entrada, a relação sinal-ruido de cada sinal e um débito de cada sinal e/ou critérios adicionais para encontrar a melhor decisão para um objetivo especifico. Se, por exemplo, o objetivo for tal que o débito tenha de ser o mais baixo possivel, então a função de alvo poderia contar fortemente com o débito da saida de ambos os sinais pelos elementos 531, 534. No entanto, quando o objetivo principal é ter a melhor qualidade para um certo débito, então o controlo de comutador 525 pode, por exemplo, rejeitar cada sinal que esteja acima do débito permitido e quando ambos os sinais estão abaixo do débito permitido, o controlo do comutador poderia selecionar o sinal que tem a melhor relação sinal-ruido, isto é, que tem as menores distorções de quantificação/codificação. 0 esquema de descodificação de acordo com a presente invenção é, como mencionado acima, ilustrado na Fig. lb. Para cada um dos três tipos possíveis de sinal de entrada, existe uma fase específica de descodificação/requantificação 431, 531 ou 533. Enquanto a fase 431 emite um espetro temporal que é convertido no domínio temporal utilizando o conversor de frequência/tempo 440, a fase 531 emite um sinal no domínio de LPC, e o artigo 533 emite um espetro de LPC. De modo a assegurar que os sinais de entrada no comutador 532 estão ambos no domínio de LPC, é proporcionado o espetro de LPC/conversor de LPC 534. Os dados de saída do comutador 532 são transformados de volta para o domínio temporal utilizando uma fase de síntese de LPC 540, que é controlada através de uma informação de LPC gerada e transmitida no lado do codificador. Então, subsequente ao bloco 540, ambos os ramos têm uma informação do domínio temporal que é comutada de acordo com um sinal de controlo de comutação para obter finalmente um sinal áudio, tal como um sinal mono, um sinal estéreo ou um sinal multicanal, o que depende da entrada de sinal no esquema de codificação da Fig. la. A Fig. lc ilustra uma forma de realização adicional com uma disposição diferente do comutador 521, semelhante ao princípio da Fig. 4b. A Fig. 2a ilustra um esquema de codificação preferido de acordo com um segundo aspeto da invenção. Um esquema de pré-processamento comum ligado à entrada do comutador 200 pode compreender um bloco surround/estéreo combinado 101 que gera, como uma saída, parâmetros estéreo combinados e um sinal de saída mono, que é gerado pela mistura descendente do sinal de entrada, o qual é um sinal que tem dois ou mais canais. Geralmente, o sinal à saída do bloco 101 pode também ser um sinal que tem mais canais, mas devido à funcionalidade de mistura descendente do bloco 101, o número de canais à saída do bloco 101 será mais pequena do que o número de canais introduzidos no bloco 101. O esquema de pré-processamento comum pode compreender, alternativamente ao bloco 101 ou em adição ao bloco 101, uma fase de extensão de largura de banda 102. Na forma de realização da Fig. 2a, a saída do bloco 101 é introduzida no bloco de extensão de largura de banda 102, o qual, no codificador da Fig. 2a, emite um sinal de banda limitada tal como o sinal de baixa banda ou o sinal passa baixo na sua saida. De preferência, este sinal também é amostrado de modo descendente (por exemplo num fator de dois). Além disso, para a alta banda do sinal introduzido no bloco 102, os parâmetros de extensão de largura de banda tais como os parâmetros de envelope espetral, os parâmetros de filtragem inversa, os parâmetros de ruído de fundo etc., como conhecidos do perfil HE-AAC de MPEG-4 são gerados e encaminhados para um multiplexador de fluxo de bits 800.

Preferivelmente, a fase de decisão 300 recebe a entrada de sinal no bloco 101 ou entrada no bloco 102 para decidir entre, por exemplo, um modo musical ou um modo vocal. No modo musical, o ramo de codificação superior 400 é selecionado, enquanto que no modo vocal o ramo de codificação inferior 500 é selecionado. Preferivelmente, a fase de decisão controla adicionalmente o bloco estéreo combinado 101 e/ou o bloco de extensão de largura de banda 102 para adaptar a funcionalidade destes blocos ao sinal específico. Assim, quando a fase de decisão determina que uma certa porção de tempo do sinal de entrada é do primeiro modo tal como o modo musical, então as caracteristicas especificas do bloco 101 e/ou do bloco 102 podem ser controladas pela fase de decisão 300. Alternativamente, quando a fase de decisão 300 determina que o sinal está num modo vocal ou, geralmente, num segundo modo de domínio de LPC, então as caracteristicas específicas dos blocos 101 e 102 podem ser controladas de acordo com a saída da fase de decisão.

Preferivelmente, a conversão espetral do ramo de codificação 400 é realizada utilizando uma operação de MDCT a qual, de modo mais preferido, é a operação de MDCT com deformação do tempo, onde a intensidade, ou geralmente a intensidade de deformação, pode ser controlada entre zero e uma alta intensidade de deformação. Numa intensidade de deformação zero, a operação de MDCT no bloco 411 é uma operação de MDCT direta, conhecida na técnica. A intensidade de deformação de tempo em conjunto com a informação lateral da deformação de tempo pode ser transmitida/introduzida no multiplexador de fluxo de bits 800 como informação lateral.

No ramo de codificação de LPC, o codificador do domínio de LPC pode incluir um núcleo ACELP 526 que calcula um ganho de passo, um atraso de passo e/ou uma informação de livro de código tal como um índice de livro de código e ganho. 0 modo TCX como conhecido a partir de 3GPP TS 26.290 incorre num processamento de um sinal ponderado percetualmente no domínio da transformada. Um sinal ponderado por transformada de Fourier é quantificado usando uma quantificação de estrutura de divisão multi-taxa (VQ algébrica) com quantificação de fator de ruído. Uma transformada é calculada em 1024, 512, ou 256 janelas de amostra. O sinal de excitação é recuperado por filtragem inversa do sinal ponderado quantificado através de um filtro de ponderação inversa. No primeiro ramo de codificação 400, um conversor espetral compreende preferivelmente uma operação de MDCT especificamente adaptada que tem certas funções de janela seguidas por uma fase de codificação de quantificação/entrópica que pode ser uma fase única de quantificação de vetor, mas preferivelmente é um quantificador/codificador de entropia de escala similar ao quantificador/codificador no ramo de codificação no domínio de frequência, isto é, no número 421 da Fig. 2a.

No segundo ramo de codificação, existe o bloco LPC 510 seguido por um comutador 521, mais uma vez seguido por um bloco ACELP 526 ou um bloco TCX 527. ACELP é descrito em 3GPP TS 26.190 e TCX é descrito em 3GPP TS 26.290. Geralmente, o bloco ACELP 526 recebe um sinal de excitação LPC tal como calculado por um procedimento tal como descrito na Fig. 7e. O bloco TCX 527 recebe um sinal ponderado tal como gerado pela Fig. 7f.

Em TCX, a transformada é aplicada ao sinal ponderado calculado pela filtragem do sinal de entrada através de um filtro de ponderação à base de LPC. O filtro de ponderação utilizado em formas de realização preferidas da invenção é dado por (1-A (ζΐγ))/(l-μζ-1) . Assim, o sinal ponderado é um sinal de domínio de LPC e a sua transformada é um domínio espetral de LPC. 0 sinal processado pelo bloco ACELP 526 é o sinal de excitação e é diferente do sinal processado pelo bloco 527, mas ambos os sinais estão no domínio de LPC.

No lado do descodificador representado na Fig. 2b, após a transformada espetral inversa no bloco 537, a inversão do filtro de ponderação é aplicada, ou seja, (1 —μz_1) / (1-Δ(ζ/γ) ) . Em seguida, o sinal é filtrado através de (l-A(z)) para ir para o domínio de excitação LPC. Assim, a conversão para o bloco do domínio de LPC 534 e o bloco de TCX-1 537 inclui a transformada inversa, e então a filtração através de

para conversão a partir do domínio ponderado para o domínio de excitação.

Embora o número 510 nas Figs, la, lc, 2a, 2c ilustre um único bloco, o bloco 510 pode emitir diferentes sinais, desde que estes sinais estejam no dominio de LPC. O modo atual do bloco 510, tal como o modo de sinal de excitação ou o modo de sinal ponderado pode depender do estado de comutação atual. Em alternativa, o bloco 510 pode ter dois dispositivos de processamento paralelos, em que um dispositivo é implementado de modo semelhante à Fig. 7e e o outro dispositivo é implementado como na Fig. 7f. Assim, o dominio de LPC na sarda de 510 pode representar o sinal de excitação LPC ou o sinal ponderado LPC ou qualquer outro sinal de dominio de LPC.

No segundo ramo de codificação (ACELP/TCX) da Fig. 2a ou 2c, o sinal é, de preferência pré-enfatizado através de um filtro 1-0,68z_1 antes da codificação. No descodificador ACELP/TCX na Fig. 2b, o sinal sintetizado é desenfatizado com o filtro 1/ (Ι-ΙΟ, 68z_1) . A pré-enfatização pode fazer parte do bloco LPC 510, onde o sinal é pré-enfatizado antes da análise e quantificação LPC. Do mesmo modo, a desenfatização pode fazer parte do bloco de síntese LPC LPC-1 540. A Fig. 2c ilustra uma forma de realização adicional para a implementação da Fig. 2a, mas com uma disposição diferente do comutador 521 semelhante ao princípio da Fig. 4b.

Numa forma de realização preferida, o primeiro comutador 200 (ver Fig. la ou 2a) é controlado por meio de uma decisão de ciclo aberto (como na Fig. 4a) e o segundo comutador é controlado através de uma decisão de circuito fechado (como na Figura 4b).

Por exemplo, a Fig. 2c tem o segundo comutador colocado após os ramos ACELP e TCX como na Fig. 4b. Então, no primeiro ramo de processamento, o primeiro domínio de LPC representa a excitação LPC, e no segundo ramo de processamento, o segundo domínio de LPC representa o sinal ponderado LPC. Isto é, o primeiro sinal de domínio de LPC é obtido por filtração através de (l-A(z)) para converter para o domínio residual LPC, enquanto que o segundo sinal de domínio de LPC é obtido por filtração através do filtro (1-Α(ζ/γ))/(Ι-μζ-l) para conversão para o domínio ponderado LPC. A Fig. 2b ilustra um esquema de descodificação que corresponde ao esquema de codificação da Fig. 2a. O fluxo de bits gerado pelo multiplexador de fluxo de bits 800 da Fig. 2a é introduzido num desmultiplexador de fluxo de bits 900. Dependendo de uma informação derivada por exemplo do fluxo de bits através de um bloco de deteção de modo 601, um comutador do lado do descodificador 600 é controlado para encaminhar sinais a partir do ramo superior ou sinais do ramo inferior para o bloco de extensão de largura de banda 701. O bloco de extensão de largura de banda 701 recebe, a partir do desmultiplexador de fluxo de bits 900, uma informação lateral e, com base nessa informação lateral e na saída da decisão de modo 601, reconstrói a alta banda com base na saída de baixa banda pelo comutador 600. O sinal de banda completa gerado pelo bloco 701 é introduzido na fase de processamento de estéreo combinado/surround 702, que reconstrói dois canais estéreo ou vários multicanais. Geralmente, o bloco 702 vai emitir mais canais do que os introduzidos neste bloco. Dependendo da aplicação, a entrada no bloco 7 02 pode até mesmo incluir dois canais tais como num modo estéreo e pode até mesmo incluir mais canais desde que a saída por este bloco tenha mais canais do que a entrada neste bloco. O comutador 200 foi mostrado a comutar entre os dois ramos de modo que só um ramo recebe um sinal a processar e o outro ramo não recebe um sinal a processar. Numa forma de realização alternativa, no entanto, o comutador pode também ser disposto subsequente por exemplo ao codificador de áudio 421 e ao codificador de excitação 522, 523, 524, o que significa que os dois ramos 400, 500 processam o mesmo sinal em paralelo. Para não dobrar o débito, no entanto, só a saída de sinal por um desses ramos de codificação 400 ou 500 é selecionada para ser gravada no fluxo de bits de saída. A fase de decisão vai então operar de modo que o sinal gravado no fluxo de bits minimize uma certa função de custo, onde a função de custo pode ser o débito gerado ou a distorção percetual gerada ou uma função de custo combinada de débito/distorção. Por conseguinte, seja neste modo ou no modo ilustrado nas Figuras, a fase de decisão pode também operar num modo de circuito fechado para assegurar que, finalmente, só a saída do ramo de codificação é gravada no fluxo de bits que tem, para uma determinada distorção percetual, o menor débito ou, para um determinado débito, tem a menor distorção percetual. No modo de circuito fechado, a entrada de retorno pode ser derivada das saídas dos três blocos de quantificador/contador 421, 522 e 424 na Fig. la.

Na implementação com dois comutadores, isto é, o primeiro comutador 200 e o segundo comutador 521, é preferido que a resolução temporal para o primeiro comutador seja inferior à resolução temporal para o segundo comutador. Dito por outras palavras, os blocos do sinal de entrada no primeiro comutador, que podem ser comutados através de uma operação de comutação, são maiores do que os blocos comutados pelo segundo comutador que opera no domínio de LPC. Por exemplo, o comutador de domínio de f requência/domínio de LPC 200 pode comutar blocos de um comprimento de 1024 amostras, e o segundo comutador 521 pode comutar blocos que têm 256 amostras, cada um.

Embora algumas das Figuras la a 10b sejam ilustradas como diagramas de blocos de um aparelho, estas figuras são ao mesmo tempo uma ilustração de um método no qual as funcionalidades de bloco correspondem às etapas do método. A Figura 3a ilustra um codificador áudio para gerar um sinal áudio codificado a uma saída do primeiro ramo de codificação 400 e um segundo ramo de codificação 500. Além disso, o sinal áudio codificado inclui preferivelmente uma informação lateral tal como parâmetros de pré-processamento da fase comum de pré-processamento ou, como discutido em relação às Figuras precedentes, uma informação de controlo de comutação.

Preferivelmente, o primeiro ramo de codificação é operativo para codificar um sinal áudio intermédio 195 segundo um primeiro algoritmo de codificação, no qual o primeiro algoritmo de codificação tem um modelo de coletor de informação. O primeiro ramo de codificação 400 gera o primeiro sinal de saída de codificador que é uma representação de informação espetral codificada do sinal áudio intermédio 195.

Além disso, o segundo ramo de codificação 500 é adaptado para codificar o sinal áudio intermédio 195 segundo um segundo algoritmo de codificação, tendo o segundo algoritmo de codificação um modelo de fonte de informação e gerando, num segundo sinal de saida do codificador, parâmetros codificados para o modelo de fonte de informação que representa o sinal áudio intermédio. 0 codificador áudio compreende ainda a fase comum de pré-processamento para pré-processar um sinal áudio de entrada 99 para obter o sinal áudio intermédio 195. Especificamente, a fase comum de pré-processamento é operativa para processar o sinal áudio de entrada 99 de modo que o sinal áudio intermédio 195, isto é, a saida do algoritmo comum de pré-processamento seja uma versão comprimida do sinal áudio de entrada.

Um método preferido de codificação áudio para gerar um sinal áudio codificado compreende uma etapa de codificação 400 de um sinal áudio intermédio 195 segundo um primeiro algoritmo de codificação, tendo o primeiro algoritmo de codificação um modelo de coletor de informação e gerando, num primeiro sinal de saida, uma informação espetral codificada que representa o sinal áudio; uma etapa de codificação 500 de um sinal áudio intermédio 195 segundo um segundo algoritmo de codificação, tendo o segundo algoritmo de codificação um modelo de fonte de informação e gerando, num segundo sinal de saida, parâmetros codificados para o modelo de fonte de informação que representa o sinal intermédio 195, e uma etapa de pré-processamento comum 100 de um sinal áudio de entrada 99 para obter o sinal áudio intermédio 195, no qual, na etapa de pré-processamento comum o sinal áudio de entrada 99 é processado de modo que o sinal áudio intermédio 195 seja uma versão comprimida do sinal áudio de entrada 99, onde o sinal áudio codificado inclui, para uma certa porção do sinal áudio, o primeiro sinal de saida ou o segundo sinal de saida. O método inclui preferivelmente a etapa adicional que codifica uma certa porção do sinal áudio intermédio utilizando o primeiro algoritmo de codificação ou utilizando o segundo algoritmo de codificação, ou que codifica o sinal utilizando ambos algoritmos e que emite num sinal codificado seja o resultado do primeiro algoritmo de codificação, seja o resultado do segundo algoritmo de codificação.

Geralmente, o algoritmo de codificação áudio utilizado no primeiro ramo de codificação 400 reflete e modela a situação num coletor áudio. O coletor de uma informação áudio é normalmente o ouvido humano. O ouvido humano pode ser modelado como um analisador de frequência. Por conseguinte, o primeiro ramo de codificação emite uma informação espetral codificada. Preferivelmente, o primeiro ramo de codificação inclui ainda um modelo psicoacústico para aplicar adicionalmente um limiar de mascaramento psicoacústico. Este limiar de mascaramento psicoacústico é utilizado durante a quantificação de valores áudio espetrais onde, preferivelmente, a quantificação é realizada de modo que um ruído de quantificação seja introduzido pela quantificação dos valores áudio espetrais que são escondidos por baixo do limiar de mascaramento psicoacústico. O segundo ramo de codificação representa um modelo de fonte de informação que reflete a geração de um som áudio. Por conseguinte, os modelos de fonte de informação podem incluir um modelo de voz que é refletido por uma fase de análise LPC, isto é, pela transformação de um sinal do domínio temporal num domínio de LPC e processando subsequentemente o sinal residual de LPC, isto é, o sinal de excitação. Os modelos de fonte de som alternativos, contudo, são modelos de fonte de som para representar um certo instrumento ou quaisquer outros geradores de som tais como uma fonte de som específica existente no mundo real. Uma seleção entre diferentes modelos de fonte de som pode ser realizada quando vários modelos de fonte de som estão disponíveis, por exemplo, com base num cálculo SNR, isto é, com base num cálculo de qual dos modelos de fonte é o mais conveniente para codificar uma certa porção de tempo e/ou porção de frequência de um sinal áudio. Preferivelmente, no entanto, o comutador entre os ramos de codificação é realizado no domínio temporal, isto é, que uma certa porção de tempo é codificada utilizando um modelo e uma certa porção de tempo diferente do sinal intermédio é codificada utilizando o outro ramo de codificação.

Os modelos de fonte de informação são representados por alguns parâmetros. Em relação ao modelo de voz, os parâmetros são parâmetros LPC e parâmetros de excitação codificada, quando um codificador de voz moderno tal como um AMR-WB+ é considerado. 0 AMR-WB+ compreende um codificador ACELP e um codificador TCX. Neste caso, os parâmetros de excitação codificada podem ser um ganho global, base de ruído e códigos de comprimento variável. A Fig. 3b ilustra um descodificador que corresponde ao codificador ilustrado na Fig. 3a. Geralmente, a Fig. 3b ilustra um descodificador áudio para descodificar um sinal áudio codificado para obter um sinal áudio descodificado 799. 0 descodificador inclui o primeiro ramo de descodificação 450 para descodificar um sinal codificado segundo um primeiro algoritmo de codificação que tem um modelo de coletor de informação. O descodificador áudio inclui além disso um segundo ramo de descodificação 550 para descodificar um sinal codificado de informação, codificado segundo um segundo algoritmo de codificação que tem um modelo de fonte de informação. O descodificador áudio inclui além disso um combinador para combinar sinais de saída do primeiro ramo de descodificação 450 e o segundo ramo de descodificação 550 para obter um sinal combinado. 0 sinal combinado que é ilustrado na Figura 3b como o sinal áudio intermédio descodificado 699 é introduzido numa fase comum de pós-processamento para pós-processar o sinal áudio intermédio descodificado 699 que é o sinal combinado saído pelo combinador 600 de modo que um sinal de saída da fase comum de pós-processamento seja uma versão expandida do sinal combinado.

Assim, o sinal áudio descodificado 799 tem um conteúdo de informação melhorado em comparação com o sinal áudio intermédio descodificado 699. Esta expansão da informação é fornecida pela fase comum de pós-processamento com a ajuda de parâmetros de pré- e pós-processamento que podem ser transmitidos a partir de um codificador para um descodif icador, ou que podem ser derivados do próprio sinal áudio intermédio descodificado. Preferivelmente, no entanto, os parâmetros de pré- e pós-processamento são transmitidos a partir de um codificador para um descodificador, uma vez que este procedimento permite uma qualidade melhorada do sinal áudio descodificado. A Figura 3c ilustra um codificador áudio para codificar um sinal áudio de entrada 195 que pode ser igual ao sinal áudio intermédio 195 da Figura 3a segundo a forma de realização preferida da presente invenção. 0 sinal áudio de entrada 195 está presente num primeiro domínio que pode, por exemplo, ser o domínio temporal, mas que pode também ser qualquer outro domínio tal como um domínio de frequência, um domínio de LPC, um domínio espetral de LPC ou qualquer outro domínio. Geralmente, a conversão de um domínio para outro domínio é realizada por um algoritmo de conversão tal como qualquer um dos conhecidos algoritmos de conversão tempo/frequência ou os algoritmos de conversão frequência/tempo.

Uma transformada alternativa a partir do domínio temporal, por exemplo no domínio de LPC é o resultado da filtragem de LPC de um sinal do domínio temporal que resulta num sinal residual de LPC ou num sinal de excitação. Quaisquer outras operações de filtragem que produzam um sinal filtrado que tenha um impacto num número significativo de amostras de sinais antes da transformada podem ser utilizadas como um algoritmo de transformada, conforme o caso. Portanto, a ponderação de um sinal áudio usando um filtro de ponderação à base de LPC é uma transformada adicional, que gera um sinal no domínio de LPC.

Numa transformada tempo/frequência, a modificação de um só valor espetral terá um impacto em todos os valores do domínio temporal antes da transformada. De modo análogo, uma modificação de qualquer amostra do domínio temporal terá impacto em cada amostra do domínio de frequência. De modo semelhante, uma modificação de uma amostra do sinal de excitação numa situação do domínio de LPC terá, devido ao comprimento do filtro de LPC, um impacto num número significativo de amostras antes da filtragem de LPC. De modo semelhante, uma modificação de uma amostra antes de uma transformada de LPC terá um impacto em muitas amostras obtidas por esta transformada de LPC devido ao efeito de memória inerente do filtro de LPC. 0 codificador áudio da Figura 3c inclui um primeiro ramo de codificação 400 que gera um primeiro sinal codificado. Este primeiro sinal codificado pode ser num quarto domínio que é, na forma de realização preferida, o domínio temporal-espetral, isto é, o domínio que é obtido quando um sinal do domínio temporal é processado através de uma conversão tempo/frequência.

Por conseguinte, o primeiro ramo de codificação 400 para codificar um sinal áudio utiliza um primeiro algoritmo de codificação para obter um primeiro sinal codificado, no qual este primeiro algoritmo de codificação pode ou não incluir um algoritmo de conversão tempo/frequência. O codificador áudio compreende além disso um segundo ramo de codificação 500 para codificar um sinal áudio. O segundo ramo de codificação 500 utiliza um segundo algoritmo de codificação para obter um segundo sinal codificado, o qual é diferente do primeiro algoritmo de codificação. 0 codificador áudio inclui além disso um primeiro comutador 200 para comutar entre o primeiro ramo de codificação 400 e o segundo ramo de codificação 500 de modo que para uma porção do sinal áudio de entrada, o primeiro sinal codificado à saída do bloco 400 ou o segundo sinal codificado à saída do segundo ramo de codificação, seja incluído num sinal de saída de codificador. Assim, quando para uma certa porção do sinal áudio de entrada 195, o primeiro sinal codificado no quarto dominio é incluído no sinal de saída de codificador, o segundo sinal codificado, que é o primeiro sinal processado no segundo domínio ou o segundo sinal processado no terceiro dominio, não é incluído no sinal de saída de codificador. Isto assegura que este codificador é eficiente em termos de débito. Em formas de realização, quaisquer porções de tempo do sinal áudio que sejam incluídas em dois sinais diferentes codificados são pequenas em comparação com um comprimento de quadro de um quadro tal como será discutido em relação à Fig. 3e. Estas porções pequenas são úteis para um fundo encadeado de um sinal codificado para outro sinal codificado no caso de um evento de comutação para reduzir as perturbações que podem ocorrer sem qualquer fundo encadeado. Por conseguinte, apesar da região de fundo encadeado, cada bloco de domínio temporal é representado por um sinal codificado de apenas um só domínio.

Tal como ilustrado na Fig. 3c, o segundo ramo de codificação 500 compreende um conversor 510 para converter o sinal áudio no primeiro domínio, isto é, o sinal 195 num segundo domínio. Além disso, o segundo ramo de codificação 500 compreende um primeiro ramo de processamento 522 para processar um sinal áudio no segundo domínio para obter um primeiro sinal processado que está, preferivelmente, também no segundo domínio de modo que o primeiro ramo de processamento 522 não realize uma mudança do domínio. O segundo ramo de codificação 500 compreende além disso um segundo ramo de processamento 523, 524 o qual converte o sinal áudio no segundo domínio num terceiro domínio que é diferente do primeiro domínio e que também é diferente do segundo domínio e que processa o sinal áudio no terceiro domínio para obter um segundo sinal processado à saída do segundo ramo de processamento 523, 524.

Além disso, o segundo ramo de codificação compreende um segundo comutador 521 para comutação entre o primeiro ramo de processamento 522 e o segundo ramo de processamento 523, 524 de modo que, para uma porção do sinal áudio introduzido no segundo ramo de codificação, o primeiro sinal processado no segundo domínio ou o segundo sinal processado no terceiro domínio esteja no segundo sinal codificado. A Fig. 3d ilustra um descodificador correspondente para descodificar um sinal áudio codificado gerado pelo codificador na Fig. 3c. Geralmente, cada bloco do sinal áudio do primeiro domínio é representado por um sinal do segundo domínio, um sinal do terceiro domínio ou um sinal codificado do quarto domínio apesar de uma região de fundo encadeado opcional que é, preferivelmente, curta em comparação com o comprimento de um quadro para obter um sistema que esteja tanto quanto possível no limite crítico de amostragem. 0 sinal áudio codificado inclui o primeiro sinal codificado, um segundo sinal codificado num segundo domínio e um terceiro sinal codificado num terceiro domínio, em que o primeiro sinal codificado, o segundo sinal codificado e o terceiro sinal codificado se relacionam todos com diferentes porções de tempo do sinal áudio descodificado e em que o segundo domínio, o terceiro domínio e o primeiro domínio para um sinal áudio descodificado são diferentes uns dos outros. 0 descodificador compreende um primeiro ramo de descodificação para a descodificação com base no primeiro algoritmo de codificação. 0 primeiro ramo de descodificação é ilustrado em 431, 440 na Fig. 3d e compreende preferivelmente um conversor frequência/tempo. 0 primeiro sinal codificado está preferivelmente num quarto domínio e é convertido no primeiro domínio que é o domínio para o sinal de saída descodificado. 0 descodificador da Fig. 3d compreende além disso um segundo ramo de descodificação, o qual compreende vários elementos. Estes elementos são um primeiro ramo de processamento inverso 531 para um processamento inverso do segundo sinal codificado para obter um primeiro sinal processado inverso no segundo domínio à saída do bloco 531. 0 segundo ramo de descodificação compreende além disso um segundo ramo de processamento inverso 533, 534 para um processamento inverso de um terceiro sinal codificado para obter um segundo sinal processado inverso no segundo domínio, onde o segundo ramo de processamento inverso compreende um conversor para a conversão a partir do terceiro dominio no segundo domínio. 0 segundo ramo de descodificação compreende além disso um primeiro combinador 532 para combinar o primeiro sinal processado inverso e o segundo sinal processado inverso para obter um sinal no segundo domínio, onde este sinal combinado é, num primeiro instante no tempo, apenas influenciado pelo primeiro sinal processado inverso e é, num instante no tempo posterior, apenas influenciado pelo segundo sinal processado inverso. 0 segundo ramo de descodificação compreende além disso um conversor 540 para converter o sinal combinado no primeiro domínio.

Finalmente, o descodificador ilustrado na Fig. 3d compreende um segundo combinador 600 para combinar o primeiro sinal descodificado do bloco 431, 440 e o sinal de saída do conversor 540 para obter um sinal de saída descodificado no primeiro domínio. De novo, o sinal de saída descodificado no primeiro domínio é, num primeiro instante no tempo, apenas influenciado pela saída de sinal pelo conversor 540 e é, num instante no tempo posterior, apenas influenciado pela saída do primeiro sinal descodificado pelo bloco 431, 440.

Esta situação é ilustrada, da perspetiva de um codificador, na Fig. 3e. A porção superior na Fig. 3e ilustra, em representação esquemática, um sinal áudio do primeiro domínio, tal como um sinal áudio do domínio temporal, onde o índice de tempo aumenta da esquerda para a direita e o número 3 pode ser considerado como um fluxo de amostras áudio que representam o sinal 195 na Fig. 3c. A Fig. 3e ilustra quadros 3a, 3b, 3c, 3d, que podem ser gerados por comutação entre o primeiro sinal codificado e o primeiro sinal processado e o segundo sinal processado como ilustrado no número 4 na Fig. 3e. O primeiro sinal codificado, o primeiro sinal processado e o segundo sinal processado estão todos em diferentes domínios e para assegurar que a comutação entre os diferentes domínios não resulta numa perturbação do lado do descodif icador, os quadros 3a, 3b do sinal do domínio temporal têm uma área de sobreposição que é indicada como uma região de fundo encadeado, e tal região de fundo encadeado está nos quadros 3b e 3c. No entanto, não existe qualquer região de fundo encadeado entre os quadros 3d, 3c, o que significa que o quadro 3d é também representado por um segundo sinal processado, isto é, um sinal no terceiro domínio, e não existe qualquer mudança de domínio entre os quadros 3c e 3d. Por conseguinte, geralmente, é preferido não proporcionar uma região de fundo encadeado onde não há uma mudança de domínio e proporcionar uma região de fundo encadeado, isto é, uma porção do sinal áudio que é codificada por dois sinais codificados/processados subsequentes quando há uma mudança de domínio, isto é, uma ação de comutação de qualquer um dos dois comutadores. De preferência, os fundos encadeados são realizados para outras mudanças de domínio.

Na forma de realização, na qual o primeiro sinal codificado ou o segundo sinal processado foram gerados por um processamento de MDCT com, por exemplo, uma sobreposição de 50 por cento, cada amostra do domínio temporal é incluída em dois quadros subsequentes. Devido às características da MDCT, no entanto, isto não resulta numa sobrecarga, uma vez que a MDCT é um sistema criticamente amostrado. Neste contexto, criticamente amostrado quer dizer que o número de valores espetrais é o mesmo que o número dos valores do domínio temporal. A MDCT é vantajosa na medida em que o efeito de transição é previsto sem uma região específica de transição, de modo que uma transição de um bloco de MDCT para o bloco de MDCT seguinte é prevista sem qualquer sobrecarga que violaria o requisito de amostragem crítico.

Preferivelmente, o primeiro algoritmo de codificação no primeiro ramo de codificação é baseado num modelo de coletor de informação, e o segundo algoritmo de codificação no segundo ramo de codificação é baseado numa fonte de informação ou num modelo SNR. Um modelo SNR é um modelo que não está especif icamente relacionado com um mecanismo de geração de som específico mas que é um modo de codificação que pode ser selecionado entre uma pluralidade de modos de codificação baseados, por exemplo, numa decisão de circuito fechado. Assim, um modelo SNR é qualquer modelo de codificação disponível mas que não tem necessariamente que estar relacionado com a constituição física do gerador de som mas que é qualquer modelo de codificação com parâmetros diferente do modelo de coletor de informação, que pode ser selecionado por uma decisão de circuito fechado e, especificamente, por uma comparação de diferentes resultados SNR de diferentes modelos.

Como ilustrado na Fig. 3c, um controlador 300, 525 é previsto. Este controlador pode incluir as funcionalidades da fase de decisão 300 na Fig. la e, adicionalmente, pode incluir a funcionalidade do dispositivo de controlo de comutação 525 na Fig. la. Geralmente, o controlador é para controlar o primeiro comutador e o segundo comutador numa maneira adaptada ao sinal. O controlador é operativo para analisar uma entrada de sinal no primeiro comutador ou saída pelo primeiro ou segundo ramo de codificação ou sinais obtidos por codificação e descodificação do primeiro e do segundo ramo de codificação em relação à função alvo. Alternativamente, ou adicionalmente, o controlador é operativo para analisar a entrada de sinal no segundo comutador ou emissão pelo primeiro ramo de processamento ou segundo ramo de processamento ou obtido por processamento e processamento inverso a partir do primeiro ramo de processamento e o segundo ramo de processamento, de novo em relação à função alvo.

Numa forma de realização, o primeiro ramo de codificação ou o segundo ramo de codificação compreendem um algoritmo de conversão tempo/frequência que introduz uma distorção tal como um algoritmo MDCT ou MDST que é diferente de uma transformada FFT direta que não introduz um efeito de distorção. Além disso, um ou ambos os ramos compreendem um bloco de codificação de quantificação/entropia. Especificamente, só o segundo ramo de processamento do segundo ramo de codificação inclui o conversor tempo/frequência que introduz uma operação de distorção e o primeiro ramo de processamento do segundo ramo de codificação compreende um codificador de quantificação e/ou entropia e não introduz qualquer efeito de distorção. O conversor de tempo/frequência que introduz uma distorção compreende preferivelmente um janelador para aplicar uma janela de análise e um algoritmo de transformada MDCT. Especificamente, o janelador é operativo para aplicar a função de janela a quadros subsequentes numa maneira de sobreposição de modo que uma amostra de um sinal janelado ocorra em pelo menos dois quadros janelados subsequentes.

Numa forma de realização, o primeiro ramo de processamento compreende um codificador ACELP e um segundo ramo de processamento compreende um conversor espetral de MDCT e o quantificador para quantificar os componentes espetrais para obter componentes espetrais quantificados, onde cada componente espetral quantificado é zero ou é definido por um índice de quantificação da pluralidade de diferentes índices de quantificação possíveis.

Além disso, é preferido que o primeiro comutador 200 opere numa maneira de circuito aberto e que o segundo comutador opere numa maneira de circuito fechado.

Como mencionado acima, ambos os ramos de codificação são operativos para codificar o sinal áudio numa forma em bloco, onde o primeiro comutador ou o segundo comutador comuta numa maneira por blocos de modo que se realize uma ação de comutação, ao mínimo, depois de um bloco de um número predefinido de amostras de um sinal, o número predefinido formando um comprimento de quadro para o comutador correspondente. Assim, um grânulo para comutar pelo primeiro comutador pode ser, por exemplo, um bloco de 2048 ou 1028 amostras, e o comprimento de quadro, com base no qual o primeiro comutador 200 está a comutar pode ser variável mas está, preferivelmente, fixo a tal período bastante longo.

Ao contrário disso, o comprimento do bloco para o segundo comutador 521, isto é, quando o segundo comutador 521 comuta de um modo para o outro, é substancialmente mais pequeno do que o comprimento do bloco para o primeiro comutador. Preferivelmente, ambos os comprimentos de blocos para os comutadores são selecionados de modo que o comprimento de bloco mais longo seja um múltiplo inteiro de um comprimento de bloco mais curto. Na forma de realização preferida, o comprimento de bloco do primeiro comutador é de 2048 ou 1024 e o comprimento de bloco do segundo comutador é de 1024 ou mais preferivelmente, de 512 e ainda mais preferivelmente, de 256 e mesmo mais preferivelmente de 128 amostras de modo que, ao máximo, o segundo comutador possa comutar 16 vezes enquanto o primeiro comutador comuta apenas uma única vez. Uma proporção de comprimento de bloco máximo preferida é, no entanto, de 4:1.

Numa forma de realização adicional, o controlador 300, 525 é operativo para desempenhar uma discriminação de música vocal para o primeiro comutador de modo que uma decisão de voz seja favorecida em relação a uma decisão de música. Nesta forma de realização, uma decisão de voz é tomada mesmo quando uma porção inferior a 50% de um quadro para o primeiro comutador é de voz e a porção superior a 50% do quadro é música.

Além disso, o controlador é operativo para já comutar para o modo de voz, quando uma porção bastante pequena do primeiro quadro é voz e, especificamente, quando uma porção do primeiro quadro é voz, o que é 50% do comprimento do segundo quadro mais pequeno. Assim, uma decisão de comutação preferida que favorece a voz já comuta à voz mesmo quando, por exemplo, só 6% ou 12% de um bloco que corresponde ao comprimento de quadro do primeiro comutador é voz.

Este procedimento é preferivelmente para explorar totalmente a capacidade de salvaguardar o débito do primeiro ramo de processamento, o qual tem um núcleo de voz vocalizado numa forma de realização, e para não perder qualquer qualidade mesmo para o resto do primeiro grande quadro que não é vocal devido ao facto de o segundo ramo de processamento incluir um conversor e, por conseguinte, ser útil para sinais áudio que têm também sinais não vocais. Preferivelmente, este segundo ramo de processamento inclui uma MDCT de sobreposição que é criticamente amostrada e que prevê mesmo com dimensões pequenas de janela uma operação altamente eficiente e sem distorção devido ao processamento de anulação da distorção no domínio temporal tal como a sobreposição e a adição do lado do descodificador. Além disso, um grande comprimento de bloco para o primeiro ramo de codificação que é preferivelmente um ramo de codificação de MDCT do tipo AAC é útil, porque os sinais não vocais são normalmente bastante estacionários e uma janela longa de transformada proporciona uma resolução de alta frequência e, por conseguinte, alta qualidade e, adicionalmente, proporciona uma eficiência do débito devido a um módulo de quantificação controlado de modo psicoacústico, o qual pode também ser aplicado ao modo de codificação baseado na transformada no segundo ramo de processamento do segundo ramo de codificação.

Em relação à ilustração do descodificador na Fig. 3d, é preferido que o sinal transmitido inclua um indicador explícito como informação lateral 4a, como ilustrado na Fig. 3e. Esta informação lateral 4a é extraída por um reconhecedor de fluxo de bits não ilustrado na Fig. 3d para encaminhar o primeiro sinal codificado correspondente, o primeiro sinal processado ou o segundo sinal processado para o processador correto tal como o primeiro ramo de descodificação, o primeiro ramo de processamento inverso ou o segundo ramo de processamento inverso na Fig. 3d. Por conseguinte, um sinal codificado não só tem os sinais codificados/processados, como também inclui uma informação lateral relacionada com estes sinais. Em outras formas de realização, contudo, é possível haver uma sinalização implícita que permite a um reconhecedor de fluxo de bits do lado do descodificador distinguir entre certos sinais. Em relação à Fig. 3e, é traçado que o primeiro sinal processado ou o segundo sinal processado é a saída do segundo sinal de codificação e, por conseguinte, do segundo sinal codificado.

Preferivelmente, o primeiro ramo de descodificação e/ou o segundo ramo de processamento inverso inclui uma transformada de MDCT para converter do domínio espetral para o domínio temporal. Para este fim, um instrumento de sobreposição-adição é previsto para desempenhar uma funcionalidade de anulação de distorção do domínio temporal que, ao mesmo tempo, prevê um efeito de fundo encadeado para evitar as perturbações de bloqueio. Geralmente, o primeiro ramo de descodificação converte um sinal codificado no quarto domínio no primeiro domínio, enquanto o segundo ramo de processamento inverso desempenha uma conversão a partir do terceiro domínio para o segundo domínio e o conversor subsequentemente conectado ao primeiro combinador proporciona uma conversão a partir do segundo domínio para o primeiro domínio de modo que, à entrada do combinador 600, somente os sinais do primeiro domínio estão presentes, os quais representam na forma de realização da Fig. 3d, o sinal descodificado de saída.

As Figuras 4a e 4b ilustram duas formas de realização diferentes que diferenciam-se no posicionamento do comutador 200. Na Figura 4a, o comutador 200 está posicionado entre uma saída da fase comum de pré-processamento 100 e a entrada dos dois ramos codificados 400, 500. A forma de realização da Fig. 4a assegura que o sinal áudio seja introduzido num só ramo de codificação apenas, e o outro ramo de codificação, o qual não é conectado à saída da fase comum de pré-processamento, não opera e por conseguinte é desligado ou está em modo de repouso. Esta forma de realização é preferível na medida em que o ramo de codificação não ativo não consome energia nem recursos informáticos, o que é útil em particular para as aplicações móveis, que são alimentadas por baterias e, por conseguinte, têm uma limitação geral de consumo de energia.

Por outro lado, no entanto, a forma de realização da Fig. 4b pode ser preferível quando o consumo de energia não é um problema. Nesta forma de realização, ambos os ramos de codificação 400, 500 estão ativos o tempo inteiro, e só a saída do ramo de codificação selecionado para uma certa porção de tempo e/ou uma certa porção de frequência é encaminhada para o formatador de fluxo de bits que pode ser implementado como um multiplexador de fluxo de bits 800. Por conseguinte, na forma de realização da Figura 4b, ambos os ramos de codificação estão ativos todo o tempo, e a saída de um ramo de codificação que é selecionada pela fase de decisão 300 é introduzida no fluxo de bits de saída, enquanto a saída do outro ramo de codificação não selecionado 400 é descartada, isto é, não é introduzida no fluxo de bits de saída, isto é, o sinal áudio codificado. A Fig. 4c ilustra um aspeto adicional de uma implementação preferida do descodificador. Para evitar perturbações audiveis especificamente na situação em que o primeiro descodificador é um descodif icador que gera distorções temporais ou, dito de um modo geral, um descodificador do dominio de frequência e o segundo descodificador é um dispositivo do dominio temporal, as fronteiras entre os blocos ou os quadros emitidas pelo primeiro descodif icador 450 e o segundo descodif icador 550 não têm que ser totalmente continuas, especificamente numa situação de comutação. Assim, quando o primeiro bloco do primeiro descodif icador 450 é emitido e quando para a porção de tempo subsequente, um bloco do segundo descodificador é emitido, é preferido realizar uma operação de fundo encadeado como ilustrado pelo bloco de fundo encadeado 607. Para tal finalidade, o bloco de fundo encadeado 607 pode ser implementado como ilustrado na Fig. 4c em 607a, 607b e 607c. Cada ramo pode ter um ponderador com um fator de ponderação mi entre 0 e 1 à escala normalizada, onde o fator de ponderação pode variar como indicado no plano 609, em que tal regra de fundo encadeado assegura que se realize um fundo encadeado continuo e suave, o que adicionalmente assegura que um utilizador não se aperceba de quaisquer variações de intensidade sonora. As regras de fundo encadeado não linear tais como a regra de fundo encadeado sin2 podem ser aplicadas em vez de uma regra de fundo encadeado linear.

Em alguns casos, o último bloco do primeiro descodificador foi gerado utilizando uma janela onde a janela efetivamente desempenhou uma atenuação deste bloco. Neste caso, o fator de ponderação mi no bloco 607a é igual ale, efetivamente, nenhuma ponderação é necessária para este ramo.

Quando se realiza uma comutação do segundo descodificador para o primeiro descodificador, e quando o segundo descodificador inclui uma janela que efetivamente atenua a saida para a extremidade do bloco, então o ponderador indicado com "m2" não seria necessário ou o parâmetro de ponderação pode ser ajustado para 1 ao longo de toda a região de fundo encadeado.

Quando o primeiro bloco depois de uma comutação foi gerado utilizando uma operação de janelação, e quando esta janela desempenhou efetivamente uma atenuação em operação, então o fator de ponderação correspondente pode também ser ajustado para 1 de modo que um ponderador não seja realmente necessário. Por conseguinte, quando o último bloco é janelado para atenuação pelo descodificador e quando o primeiro bloco depois de a comutação ser janelada utilizando o descodificador para proporcionar uma atenuação, então os ponderadores 607a, 607b não absolutamente necessários e uma operação de adição pelo adicionador 607c é suficiente.

Neste caso, a porção de atenuação do último quadro e a atenuação em porção do quadro seguinte definem a região de fundo encadeado indicada no bloco 609. Além disso, é preferido em tal situação que o último bloco de um descodificador tenha uma sobreposição de tempo com o primeiro bloco do outro descodificador.

Se uma operação de fundo encadeado não for necessária ou não possivel ou não desejada, e se só se realizar uma comutação rígida de um descodificador para outro descodificador, é preferido desempenhar tal comutação em passagens silenciosas do sinal áudio ou pelo menos em passagens do sinal áudio onde haja baixa energia, isto é, que sejam percecionadas como silenciosas ou quase silenciosas. Preferivelmente, a fase de decisão 300 assegura em tal forma de realização que o comutador 200 só seja ativado quando a porção de tempo correspondente que segue o acontecimento de comutação tem uma energia que é, por exemplo, inferior à energia média do sinal áudio e é, preferivelmente, inferior a 50% da energia média do sinal áudio relacionado com, por exemplo, duas ou mesmo mais porções/quadros de tempo do sinal áudio.

Preferivelmente, a segunda regra de codificação/descodificação é um algoritmo de codificação à base de LPC. Na codificação de voz à base de LPC, é realizada uma diferenciação entre segmentos de sinal ou porções de sinal de excitação de tipo impulso quase periódicos e segmentos de sinal ou porções de sinal de excitação de tipo ruído. Isto é realizado para codificadores de voz LPC de débito muito baixo (2,4 Kbps) como mostrado na Fig. 7b. No entanto, em codificadores CELP de débito médio, a excitação é obtida para a adição de vetores escalados a partir de um livro de código adaptativo e um livro de código fixo.

Os segmentos de sinal de excitação de tipo impulso quase periódicos, isto é, segmentos de sinal que têm um passo específico são codificados com mecanismos diferentes dos sinais de excitação de tipo ruído. Enquanto os sinais de excitação de tipo impulso quase periódicos estão conectados com voz vocalizada, os sinais de tipo ruído estão relacionados com voz não vocalizada.

Por exemplo, é feita referência às Figuras 5a a 5d. Aqui são discutidos a título de exemplo os segmentos de sinal de tipo impulso quase periódicos, ou porções de sinal e segmentos de sinal de tipo ruído ou porções de sinal. Especif icamente, uma voz vocalizada como ilustrado na Figura 5a no domínio temporal e na Fig. 5b no domínio de frequência é discutida como um exemplo para uma porção de sinal de tipo impulso quase periódica, e um segmento de voz não vocalizada como um exemplo para uma porção de sinal de tipo ruído é discutida em relação com as Figs 5c e 5d. A voz pode geralmente ser classificada como vocalizada, não vocalizada ou mista. Os planos de domínio temporal-e-frequência para segmentos vocalizados e não vocalizados amostrados são mostrados nas Figs 5a a 5d. A voz vocalizada é quase periódica no domínio temporal e harmonicamente estruturada no domínio de frequência, enquanto a voz não vocalizada é do tipo aleatório e de banda larga. 0 espetro de curto prazo da voz vocalizada é caracterizado pela sua estrutura fina e formante. A estrutura fina harmónica é uma consequência da quase-periodicidade da voz e pode ser atribuída às cordas vocais vibrantes. A estrutura formante (envelope espetral) é devida à interação da fonte e dos tratos vocais. Os tratos vocais consistem na faringe e na cavidade bucal. A forma do envelope espetral que "se ajusta" ao espetro de curto prazo da voz vocalizada é associada com as características de transferência do trato vocal e da inclinação espetral (6 dB/oitava) devido ao impulso glotal. 0 envelope espetral caracteriza-se por um conjunto de picos que são chamados formantes. Os formantes são os modos ressonantes do trato vocal. Para o trato vocal médio há três a cinco formantes abaixo de 5 kHz. As amplitudes e locações dos primeiros três formantes que ocorrem normalmente abaixo de 3 kHz são muito importantes tanto para a síntese como para a perceção da voz. Os formantes mais altos são também importantes para as representações de voz de banda larga e não vocalizada. As propriedades de voz são relacionadas ao sistema físico de produção de voz como se segue. A voz vocalizada é produzida por uma excitação do trato vocal com impulsos quase periódicos de ar glotal gerados pela vibração das cordas vocais. A frequência dos impulsos periódicos refere-se como a frequência fundamental ou passo. A voz não vocalizada é produzida por uma forçagem de ar através de uma constrição no trato vocal. Os sons nasais são devidos ao acoplamento acústico do trato nasal ao trato vocal, e sons plosivos são produzidos por uma libertação brusca da pressão de ar que foi criada atrás do encerramento no trato.

Assim, uma porção de tipo ruído do sinal áudio não mostra qualquer estrutura de domínio temporal de tipo impulso nem estrutura de domínio de frequência harmónico, tal como ilustrado na Fig. 5c e na Fig. 5d, que é diferente da porção de tipo impulso quase periódica tal como ilustrada por exemplo na Fig. 5a e na Fig. 5b. Como será delineado mais tarde, contudo, a diferenciação entre as porções de tipo ruído e as porções de tipo impulso quase estacionárias pode também ser observada após uma LPC de um sinal de excitação. A LPC é um método que modela o trato vocal e extrai do sinal a excitação dos tratos vocais.

Além disso, as porções de tipo impulso quase periódicas e porções de tipo ruído podem ocorrer de uma maneira temporal, isto é, que significa que uma porção do sinal áudio no tempo é ruidosa e outra porção do sinal áudio no tempo é quase periódica, ou seja, tonal. Alternativamente ou adicionalmente a característica de um sinal pode ser diferente em diferentes bandas de frequência. Assim, a determinação se o sinal áudio é ruidoso ou tonal pode também ser realizada de modo seletivo das frequências, de modo que alguma banda de frequências ou várias bandas de frequências sejam consideradas ruidosas e outras bandas de frequências sejam consideradas tonais. Neste caso, uma dada porção de tempo do sinal áudio pode incluir componentes tonais e componentes ruidosos. A Fig. 7a ilustra um modelo linear de um sistema de produção de voz. Este sistema assume uma excitação em duas fases, isto é, um trem de impulsos para voz vocalizada como indicado na Fig. 7c, e um ruído aleatório para voz não vocalizada como indicado na Figura 7d. 0 trato vocal é modelado como um filtro de todos os pólos 70 que processa impulsos da Fig. 7c ou Fig. 7d, gerado pelo modelo glotal 72. Assim, o sistema da Fig. 7a pode ser reduzido a um modelo de polo-filtro completo da Fig. 7b, com uma fase de ganho 77, um trajeto para a frente 78, um trajeto de retorno 79, e uma fase de adição 80. No trajeto de retorno 79, existe um filtro de predição 81 e a totalidade do sistema de síntese do modelo fonte ilustrado na Fig. 7b pode ser representado utilizando funções do domínio z como se segue: S (z)=g/(l-A(z)) ·X(z), onde g representa o ganho, A(z) é o filtro de predição como determinado por uma análise de LP, X(z) é o sinal de excitação e S(z) é a saída de voz de síntese.

As Fig. 7c e 7d dão uma descrição no domínio temporal gráfico da síntese de voz vocalizada e não vocalizada utilizando o modelo de sistema de fonte linear. Este sistema e os parâmetros de excitação na equação acima são desconhecidos e têm que ser determinados a partir de um conjunto finito de amostras de voz. Os coeficientes de A(z) são obtidos utilizando uma predição linear do sinal de entrada e uma quantificação dos coeficientes de filtro. Num preditor linear de ordem de avanço, a presente amostra da sequência de voz é prevista a partir de uma combinação linear de amostras passadas p. Os coeficientes de preditor podem ser determinados por algoritmos bem conhecidos tais como o algoritmo de Levinson-Durbin, ou geralmente um método de autocorrelação ou um método de reflexão. A Fig. 7e ilustra uma implementação mais detalhada do bloco de análise de LPC 510. O sinal áudio é introduzido num bloco de determinação de filtro que determina a informação do filtro A (z) . Esta informação é emitida como a informação de predição de curto prazo necessária para um descodificador. A informação de predição de curto prazo é solicitada pelo filtro de predição atual 85. Num subtrator 86, uma amostra corrente do sinal áudio é introduzida e um valor previsto para a amostra corrente é subtraído de modo que, para esta amostra, o sinal de erro de predição é gerado na linha 84. Uma sequência de tais amostras de sinais de erro de predição é ilustrada muito esquematicamente nas Figs. 7c ou 7d. Por conseguinte, as Figs. 7a, 7b podem ser consideradas como um tipo de sinal de tipo impulso retificado.

Enquanto que a Fig. 7e ilustra um modo preferido para calcular o sinal de excitação, a Fig. 7f ilustra uma maneira preferencial para calcular o sinal ponderado. Em contraste com a Fig. 7e, o filtro 85 é diferente, quando γ é diferente de 1. Um valor menor do que 1 é preferido para γ. Além disso, o bloco 87 está presente, e μ é de preferência um número menor do que 1. De um modo geral, os elementos da Fig. 7e e 7f podem ser implementados como em 3GPP TS 26.190 ou 3GPP TS 26.290. A Fig. 7g ilustra um processamento inverso, que pode ser aplicado no lado do descodif icador, tal como no elemento 537 da Fig. 2b. Particularmente, o bloco 88 gera um sinal não ponderado do sinal ponderado e o bloco 89 calcula uma excitação a partir do sinal não ponderado. Geralmente, todos os sinais, exceto o sinal não ponderado na Fig. 7g estão no domínio de LPC, mas o sinal de excitação e o sinal ponderado são sinais diferentes no mesmo domínio. O bloco 89 emite um sinal de excitação, que pode, então, ser utilizado em conjunto com a saída do bloco 536. Em seguida, a transformada LPC inversa comum pode ser realizada no bloco 540 da Fig. 2b.

Subsequentemente, um codificador CELP de análise por síntese será discutido em relação com a Fig. 6 para ilustrar as modificações aplicadas a este algoritmo. Este codificador CELP é discutido em detalhe em "Speech Coding: A Tutorial Review", Andreas Spanias, Proceedings of the IEEE, Vol. 82, n° 10, outubro 1994, páginas 1541-1582. O codificador CELP como ilustrado na Fig. 6 inclui um componente de predição de longo prazo 60 e um componente de predição de curto prazo 62. Além disso, um livro de código é utilizado que é indicado em 64. Um filtro de ponderação percetual W(z) é implementado em 66, e um controlador de minimização de erros é previsto em 68. s(n) é o sinal de entrada do domínio temporal. Depois de ser percetualmente ponderado, o sinal ponderado é introduzido num subtrator 69 que calcula o erro entre o sinal de síntese ponderado à saída do bloco 66 e o sinal ponderado original sw(n). Geralmente, os coeficientes de filtro de predição a curto prazo A (z) são calculados por uma fase de análise de LP e os seus coeficientes são quantificados em Â(z), como indicado na Figura 7e. A informação de predição de longo prazo AL(z) incluindo o ganho g de predição de longo prazo e o índice de quantificação de vetor, isto é, as referências de livro de código são calculadas no sinal de erro de predição na saída da fase de análise LPC referida como 10a na Fig 7e. Os parâmetros LTP são o atraso e ganho de passo. Em CELP isto é normalmente implementado como um livro de código adaptativo contendo o sinal de excitação passado (não o residual). O atraso e ganho CB adaptativos são encontrados pela minimização do erro ponderado por metro quadrado (pesquisa por passo de circuito fechado). O algoritmo CELP codifica então o sinal residual após as predições de curto e longo prazo usando um livro de código, por exemplo, de sequências de Gauss. O algoritmo de ACELP, no qual "A" corresponde a "algébrico", tem um livro de código específico desenhado algebricamente.

Um livro de código pode conter mais ou menos vetores dos quais cada vetor tem o comprimento de algumas amostras. Um fator de ganho g escala o vetor de código e o código ganho é filtrado pelo filtro de síntese de predição de longo prazo e pelo filtro de síntese de predição de curto prazo. O vetor de código "ótimo" é selecionado de modo que o erro quadrado médio percetualmente ponderado na saída do subtrator 69 seja minimizado. O processo de pesquisa na CELP é feito por uma otimização de análise por síntese como ilustrado na Fig. 6.

Para casos específicos, quando um quadro é uma mistura de voz não vocalizada e vocalizada ou quando a voz sobre a música ocorre, uma codificação TCX pode ser mais apropriada para codificar a excitação no domínio de LPC. A codificação TCX processa o sinal ponderado no domínio da frequência, sem fazer qualquer suposição da produção de excitação. A TCX é, então, mais genérica que a codificação CELP e não é restrita a um modelo de uma fonte vocalizada ou não vocalizada da excitação. A TCX ainda é uma codificação de modelo de preenchimento de fonte usando um filtro de previsão linear para modelar os formantes dos sinais de tipo voz.

Na codificação de tipo AMR-WB+, uma seleção entre os diferentes modos de TCX e ACELP tem lugar, como é conhecido a partir da descrição de AMR-WB+. Os modos TCX são diferentes pelo facto de o comprimento da Transformada Discreta de Fourier em blocos ser diferente para diferentes modos e o melhor modo pode ser selecionado por uma abordagem de análise por síntese ou por um modo direto de "realimentação".

Como discutido em relação com as Figs. 2a e 2b, a fase comum de pré-processamento 100 inclui preferivelmente um multicanal conjunto (dispositivo surround/estéreo combinado) 101 e, adicionalmente, uma fase de extensão de largura de banda 102. De modo correspondente, o descodificador inclui uma fase de extensão de largura de banda 701 e uma fase multicanal combinada conectada subsequentemente 702. Preferivelmente, a fase multicanal combinada 101 é, em relação ao codificador, conectada antes da fase de extensão da largura de banda 102 e, no lado do descodificador, a fase de extensão de largura de banda 701 é conectada antes da fase multicanal combinada 702 em relação à direção de processamento do sinal. Alternativamente, no entanto, a fase comum de pré-processamento pode incluir uma fase multicanal conjunta sem a fase de extensão da largura de banda conectada subsequentemente ou uma fase de extensão da largura de banda sem uma fase multicanal combinada conectada.

Um exemplo preferido para uma fase multicanal combinada no lado do codificador 101a, 101b e no lado do descodif icador 702a e 702b é ilustrado no contexto da Fig. 8. Um número de canais de entrada originais E é introduzido no misturador descendente 101a de modo que o misturador descendente gere um número de canais transmitidos K, onde o número K é superior ou igual a um e é inferior ou igual a E.

Preferivelmente, os canais de entrada E são introduzidos num analisador de parâmetros multicanal combinado 101b que gera uma informação paramétrica. Esta informação paramétrica é preferivelmente codificada por entropia como por uma codificação de diferença e uma codificação de Huffman subsequente ou, alternativamente, uma codificação aritmética subsequente. A informação paramétrica codificada emitida pelo bloco lOld é transmitida a um descodificador de parâmetros 702b que pode fazer parte do número 702 na Fig. 2b. O descodif icador de parâmetros 702b descodifica a informação paramétrica transmitida e encaminha a informação paramétrica descodificada no misturador ascendente 702a. O misturador ascendente 702a recebe os canais transmitidos K e gera um número de canais de saida L, onde o número de L é superior ou igual a K e inferior ou igual a E. A informação paramétrica pode incluir diferenças entre os níveis dos canais, diferenças entre os tempos dos canais, diferenças entre as fases dos canais e/ou medidas de coerência entre os canais como conhecido da técnica de BCC ou como é conhecido e descrito em detalhe na norma de MPEG surround. O número de canais transmitidos pode ser um só canal mono único para aplicações de débito ultra-baixo ou pode incluir uma aplicação estéreo compatível, ou pode incluir um sinal estéreo compatível, isto é, dois canais. Tipicamente, o número de canais de entrada E pode ser de cinco ou até mesmo superior. Alternativamente, o número de canais de entrada E pode também ser objetos áudio E como conhecido no contexto da codificação de objetos áudio esnaciais ÍSAOG).

Numa implementação, o misturador descendente desempenha uma adição ponderada ou não ponderada dos canais de entrada E originais ou uma adição dos objetos áudio de entrada E. Em caso de objetos áudio como canais de entrada, o analisador de parâmetros multicanal combinados 101b vai calcular os parâmetros dos objetos áudio tais como uma matriz de correlação entre os objetos áudio preferivelmente para cada porção de tempo e mesmo mais preferivelmente para cada banda de frequências. Para tal finalidade, toda a amplitude de frequências pode ser dividida em pelo menos 10 e preferivelmente 32 ou 64 bandas de frequência. A Fig. 9 ilustra uma forma de realização preferida para a implementação da fase de extensão de largura de banda 102 na Fig. 2a e a fase de extensão de largura de banda correspondente 701 na Fig. 2b. No lado do codificador, o bloco de extensão de largura de banda 102 inclui preferivelmente um bloco de filtragem passa-baixo 102b e um bloco de amostragem descendente, que segue o passa-baixo, ou que faz parte de QMF inversa, que atua em apenas metade das bandas QMF e um analisador de alta banda 102a. A entrada de sinal áudio original no bloco de extensão de largura de banda 102 é submetida a filtragem passa-baixo para gerar o sinal de banda baixa o qual é depois introduzido nos ramos de codificação e/ou no comutador. O filtro passa-baixo tem uma frequência de corte que pode estar no intervalo de 3 kHz a 10 kHz. Além disso, o bloco de extensão de largura de banda 102 compreende também um analisador de alta banda para calcular os parâmetros de extensão de largura de banda, tais como uma informação dos parâmetros do envelope espetral, uma informação dos parâmetros do ruido de fundo, uma informação dos parâmetros de filtragem inversa, uma informação paramétrica adicional relacionada com algumas linhas harmónicas na alta banda e parâmetros adicionais como discutido em detalhe na norma MPEG-4 no capitulo relacionado com a replicação da banda espetral.

Do lado do descodif icador, o bloco de extensão de largura de banda 701 inclui um corretor 701a, um regulador 701b e um combinador 701c. O combinador 701c combina o sinal de baixa banda descodificado e o sinal de alta banda reconstruído e ajustado emitido pelo regulador 701b. A entrada no regulador 701b é proporcionada por um corretor que é operado para derivar o sinal de alta banda do sinal de baixa banda tal como por uma replicação de banda espetral ou, geralmente, por uma extensão da largura de banda. A correção realizada pelo corretor 701a pode ser uma correção realizada de uma maneira harmónica ou de uma maneira não harmónica. O sinal gerado pelo corretor 701a é, subsequentemente, ajustado pelo regulador 701b utilizando a informação da extensão de largura de banda paramétrica transmitida.

Como indicado na Fig. 8 e na Fig. 9, os blocos descritos podem ter uma entrada de controlo de modo numa forma de realização preferida. Esta entrada de controlo de modo é derivada a partir do sinal de saída da fase de decisão 300. Em tal forma de realização preferida, uma característica de um bloco correspondente pode ser adaptada à saída da fase de decisão, isto é, se numa forma de realização preferida uma decisão de voz ou uma decisão de música for feita para alguma porção de tempo do sinal áudio. Preferivelmente, o controlo de modo só é relacionado com uma ou mais das funcionalidades destes blocos, mas não com todas as funcionalidades dos blocos. Por exemplo, a decisão pode influenciar só o corretor 701a, mas pode não influenciar os outros blocos na Fig. 9, ou pode, por exemplo, influenciar só o analisador de parâmetros multicanal combinados 101b na Fig. 8, mas não os outros blocos na Fig. 8. Esta implementação é preferivelmente tal que uma flexibilidade superior e uma qualidade superior e um sinal de saída de débito inferior sejam obtidos por proporcionarem flexibilidade na fase comum de pré-processamento. Por outro lado, no entanto, a utilização de algoritmos na fase comum de pré-processamento para ambos os tipos de sinais permite implementar um esquema de codificação/descodificação eficiente. A Fig. 10a e a Fig. 10b ilustram duas implementações diferentes da fase de decisão 300. Na Fig. 10a é indicada uma decisão de circuito aberto. Aqui, o analisador de sinais 300a na fase de decisão tem algumas regras para decidir se alguma porção de tempo ou alguma porção de frequência do sinal de entrada tem uma caracteristica que requeira que esta porção de sinal seja codificada pelo primeiro ramo de codificação 400 ou pelo segundo ramo de codificação 500. Para tal efeito, o analisador de sinais 300a pode analisar o sinal áudio de entrada na fase comum de pré-processamento ou pode analisar a saída do sinal áudio pela fase comum de pré-processamento, isto é, o sinal áudio intermédio ou pode analisar um sinal intermédio na fase comum de pré-processamento tal como a saída do sinal de mistura descendente que pode ser um sinal mono ou que pode ser um sinal que tem canais k indicados na Fig. 8. Do lado da saída, o analisador de sinais 300a gera a decisão de comutação para controlar o comutador 200 no lado do codificador e o comutador correspondente 600 ou o combinador 600 no lado do descodifiçador.

Embora não discutido em detalhe para o segundo comutador 521, tem que ser enfatizado que o segundo comutador 521 pode ser posicionado de maneira semelhante ao primeiro comutador 200 como discutido em relação à Fig. 4a e à Fig. 4b. Assim, uma posição alternativa do comutador 521 na Fig. 3c é à saída de ambos os ramos de processamento 522, 523, 524 de modo que ambos os ramos de processamento operem em paralelo e só a saída de um ramo de processamento é gravada num fluxo de bits através de um formador de fluxo de bits, o qual não é ilustrado na Fig. 3c.

Além disso, o segundo combinador 600 pode ter uma funcionalidade especifica de fundo encadeado como discutido na Fig. 4c. Alternativamente ou adicionalmente, o primeiro combinador 532 pode ter a mesma funcionalidade de fundo encadeado. Além disso, ambos os combinadores podem ter a mesma funcionalidade de fundo encadeado ou podem ter diferentes funcionalidades de fundo encadeado ou podem não ter qualquer funcionalidade de fundo encadeado de modo que ambos os combinadores sejam comutadores sem qualquer funcionalidade adicional de fundo encadeado.

Como discutido acima, ambos os comutadores podem ser controlados através de uma decisão de circuito aberto ou uma decisão de circuito fechado como discutido em relação à Fig. 10a e Fig. 10b, onde o controlador 300, 525 da Fig. 3c pode ter as mesmas ou diferentes funcionalidades para ambos os comutadores.

Além disso, uma funcionalidade de distorção de tempo que é adaptativa ao sinal pode estar presente, não só no primeiro ramo de codificação ou no primeiro ramo de descodificação, mas também no segundo ramo de processamento do segundo ramo de codificação no lado do codificador assim como no lado do descodif icador. Dependendo de um sinal processado, ambas as funcionalidades de distorção de tempo podem ter a mesma informação de distorção de tempo de modo que a mesma distorção de tempo seja aplicada aos sinais no primeiro domínio e no segundo domínio. Isto poupa carga de processamento e pode ser útil em alguns casos, nos quais blocos subsequentes têm características de distorção de tempo semelhantes. Em formas de realização alternativas, no entanto, é preferido ter estimadores de distorção de tempo independentes para o primeiro ramo de codificação e o segundo ramo de processamento no segundo ramo de codificação. O sinal de áudio codificado inventivo pode ser armazenado num meio de armazenamento digital ou pode ser transmitido num meio de transmissão, tal como um meio de transmissão sem fios ou um meio de transmissão com fios, tais como a Internet.

Numa forma de realização diferente, o interruptor 200 da Fig. la ou 2a comuta entre os dois ramos de codificação 400, 500. Numa outra forma de realização, podem haver ramos de codificação adicionais, tais como um terceiro ramo de codificação ou até mesmo um quarto ramo de codificação, ou até mesmo mais ramos de codificação. No lado do descodificador, o comutador 600 da Fig. lb ou 2b comuta entre os dois ramos de descodificação 431, 440 e 531, 532, 533, 534, 540. Numa outra forma de realização, podem haver ramos de descodificação adicionais, tais como um terceiro ramo de descodificação ou até mesmo um quarto ramo de descodificação ou até mesmo mais ramos de descodificação. Da mesma forma, os outros comutadores 521 ou 532 podem comutar entre mais de dois algoritmos de codificação diferentes, quando esses ramos de codificação/descodificação adicionais são fornecidos.

As formas de realização descritas acima são apenas ilustrativas dos princípios da presente invenção. Compreende-se que modificações e variações das modalidades e dos detalhes aqui descritos serão aparentes para os peritos na arte. A intenção é, por conseguinte, ser limitado apenas pelo âmbito das reivindicações impendentes da patente e não pelos detalhes específicos apresentados como descrição e explicação das formas de realização aqui descritas. Dependendo de certos requisitos de implementação dos métodos inventivos, os métodos inventivos podem ser implementados em hardware ou software. A implementação pode ser realizada utilizando um meio de armazenagem digital, em particular, um disco, um DVD ou um CD com sinais de controlo legíveis eletronicamente armazenados no mesmo, os quais cooperam com sistemas de computador programáveis de modo que os métodos inventivos sejam desempenhados. Geralmente, a presente invenção é por conseguinte um produto de programa de computador com um código de programa armazenado num suporte legível por máquina, sendo o código do programa operado para desempenhar os métodos inventivos quando o produto de programa de computador é executado num computador. Por outras palavras, os métodos inventivos são, por conseguinte, um programa de computador que tem um código de programa para desempenhar pelo menos um dos métodos inventivos quando o programa de computador é executado num computador.

Claims

REIVINDICAÇÕES

1. Codificador áudio para codificar um sinal áudio de entrada (195), estando o sinal áudio de entrada num primeiro domínio, compreendendo: um primeiro ramo de codificação (400) para codificar um sinal áudio utilizando um primeiro algoritmo de codificação para obter um primeiro sinal codificado; um segundo ramo de codificação (500) para codificar um sinal áudio utilizando um segundo algoritmo de codificação para obter um segundo sinal codificado, em que o primeiro algoritmo de codificação é diferente do segundo algoritmo de codificação; e um primeiro comutador (200) para comutar entre o primeiro ramo de codificação e o segundo ramo de codificação de modo que, para uma porção do sinal áudio de entrada, o primeiro sinal codificado ou o segundo sinal codificado seja compreendido num sinal de saída do codificador, em que o segundo ramo de codificação compreende: um conversor (510) para converter o sinal áudio num segundo domínio diferente do primeiro domínio; um primeiro ramo de processamento (522) para processar um sinal áudio no segundo domínio para obter um primeiro sinal processado; um segundo ramo de processamento (523, 524) para converter um sinal áudio num terceiro domínio diferente do primeiro domínio e do segundo domínio e para processar o sinal no terceiro domínio para obter um segundo sinal processado; e um segundo comutador (521) para comutar entre o primeiro ramo de processamento (522) e o segundo ramo de processamento (523, 524) de modo que, para uma porção da entrada do sinal áudio no segundo ramo de codificação, o primeiro sinal processado ou o segundo sinal processado seja compreendido no segundo sinal codificado.
2. Codificador áudio de acordo com a reivindicação 1, em que o primeiro algoritmo de codificação no primeiro ramo de codificação (400) é baseado num modelo de coletor de informação, ou onde o segundo algoritmo de codificação no segundo ramo de codificação (500) é baseado numa fonte de informação ou num modelo de relação sinal/ruido (SNR).
3. Codificador áudio de acordo com a reivindicação 1 ou 2, em que o primeiro ramo de codificação compreende um conversor (410) para converter o sinal áudio de entrada num quarto domínio diferente do primeiro domínio, do segundo domínio e do terceiro domínio.
4. Codificador áudio de acordo com uma das reivindicações precedentes, em que o primeiro domínio é o domínio temporal, o segundo domínio é um domínio de LPC obtido por uma filtragem LPC do primeiro sinal de domínio, o terceiro domínio é um domínio de LPC espetral obtido por uma conversão de um sinal filtrado por LPC num domínio espetral, e o quarto domínio é um domínio espetral obtido por uma conversão do domínio de frequência do primeiro sinal de domínio.
5. Codificador áudio de acordo com uma das reivindicações precedentes, compreendendo ainda um controlador (300, 525) para controlar o primeiro comutador (200) ou o segundo comutador (521) numa maneira adaptativa ao sinal, em que o controlador é operativo para analisar uma entrada de sinal no primeiro comutador (200) ou emitido pelo primeiro ramo de codificação ou o segundo ramo de codificação ou um sinal obtido por uma descodificação de um sinal de saída do primeiro ramo de codificação ou do segundo ramo de codificação em relação a uma função alvo, ou em que o controlador (300, 525) é operativo para analisar uma entrada de sinal no segundo comutador (521) ou emitido pelo primeiro ramo de processamento ou pelo segundo ramo de processamento ou sinais obtidos por um processamento inverso de sinais de saída do primeiro ramo de processamento (522) e do segundo ramo de processamento (523, 524) em relação a uma função de alvo.
6. Codificador áudio de acordo com uma das reivindicações precedentes, em que o primeiro ramo de codificação (400) ou o segundo ramo de processamento (523, 524) do segundo ramo de codificação (500) compreende um conversor de tempo/frequência que introduz uma distorção e uma fase de codificador de quantificação/entropia (421) e em que o primeiro ramo de processamento do segundo ramo de codificação compreende uma fase de codificador de quantificação ou entropia (522) sem uma conversão que introduz uma distorção.
7. Codificador áudio de acordo com a reivindicação 6, em que o conversor de tempo/frequência que introduz uma distorção compreende um janelador para aplicar uma janela de análise e um algoritmo de transformada discreta modificada de cossenos (MDCT), sendo o janelador operativo para aplicar a função de janela a quadros subsequentes numa maneira de sobreposição de modo que uma amostra de um sinal de entrada no janelador ocorra em pelo menos dois quadros subsequentes.
8. Codificador áudio de acordo com uma das reivindicações precedentes, em que o primeiro ramo de processamento (522) compreende a codificação de excitação LPC de um codificador de predição linear excitada de código algébrico (ACELP) e o segundo ramo de processamento compreende um conversor espetral de MDCT e um quantificador para quantificar componentes espetrais para obter componentes espetrais quantificados, em que cada componente espetral quantificado é zero ou é definido por um índice de quantificação de uma pluralidade de índices de quantificação.
9. Codificador áudio de acordo com a reivindicação 5, em que o controlador é operativo para controlar o primeiro comutador (200) numa maneira de circuito aberto e para controlar o segundo comutador (521) numa maneira de circuito fechado.
10. Codificador áudio de acordo com uma das reivindicações precedentes, em que o primeiro ramo de codificação e o segundo ramo de codificação são operativos para codificar o sinal áudio numa maneira por blocos, em que o primeiro comutador ou o segundo comutador estão a comutar numa maneira por blocos de modo que se realize uma ação de comutação, no mínimo, depois de um bloco de um número predefinido de amostras de um sinal, o número predefinido de amostras formando um comprimento de quadro para o comutador correspondente (521, 200).
11. Codificador áudio de acordo com a reivindicação 10, em que o comprimento de quadro para o primeiro comutador é pelo menos duas vezes a dimensão do comprimento de quadro do segundo comutador.
12. Codificador áudio de acordo com a reivindicação 5, em que o controlador é operativo para desempenhar uma discriminação voz/música de tal modo que uma decisão de voz seja favorecida em relação a uma decisão de música, de modo que a decisão de voz seja tomada mesmo quando uma porção inferior a 50% de um quadro para o primeiro comutador seja voz e uma porção superior a 50% do quadro para o primeiro comutador seja música.
13. Codificador áudio de acordo com a reivindicação 5 ou 12, em que um quadro para o segundo comutador é mais pequeno do que um quadro para o primeiro comutador, e em que o controlador (525, 300) é operativo para tomar uma decisão de voz quando apenas uma porção do primeiro quadro que tem um comprimento superior a 50% do comprimento do segundo quadro é descoberto como incluindo música.
14. Codificador áudio de acordo com uma das reivindicações precedentes, em que o primeiro ramo de codificação (400) ou o segundo ramo de processamento do segundo ramo de codificação inclui uma funcionalidade de distorção do tempo variável.
15. Método para codificar um sinal áudio de entrada (195), estando o sinal áudio de entrada num primeiro domínio, compreendendo: a codificação (400) de um sinal áudio utilizando um primeiro algoritmo de codificação para obter um primeiro sinal codificado; a codificação (500) de um sinal áudio utilizando um segundo algoritmo de codificação para obter um segundo sinal codificado, em que o primeiro algoritmo de codificação é diferente do segundo algoritmo de codificação; e a comutação (200) entre a codificação que utiliza o primeiro algoritmo de codificação e a codificação que utiliza o segundo algoritmo de codificação de modo que, para uma porção do sinal áudio de entrada, o primeiro sinal codificado ou o segundo sinal codificado seja compreendido num sinal codificado de saída, em que a codificação (500) que utiliza o segundo algoritmo de codificação compreende: a conversão (510) do sinal áudio num segundo domínio diferente do primeiro domínio, o processamento (522) de um sinal áudio no segundo domínio para obter um primeiro sinal processado; a conversão (523) de um sinal áudio num terceiro domínio diferente do primeiro domínio e do segundo domínio e o processamento (524) do sinal no terceiro domínio para obter um segundo sinal processado; e a comutação (521) entre o processamento (522) do sinal áudio e a conversão (523) e processamento (524) de modo que, para uma porção de sinal áudio codificado utilizando o segundo algoritmo de codificação, o primeiro sinal processado ou o segundo sinal processado seja compreendido no segundo sinal codificado.
16. Descodificador para descodificar um sinal áudio codificado, compreendendo o sinal áudio codificado um primeiro sinal codificado, um primeiro sinal processado num segundo dominio, e um segundo sinal processado num terceiro domínio, em que o primeiro sinal codificado, o primeiro sinal processado, e o segundo sinal processado estão relacionados com diferentes porções de tempo de um sinal áudio descodificado, e em que um primeiro domínio, o segundo domínio e o terceiro domínio são diferentes uns dos outros, compreendendo: um primeiro ramo de descodificação (431, 440) para descodificar o primeiro sinal codificado com base num primeiro algoritmo de descodificação; um segundo ramo de descodificação para descodificar o primeiro sinal processado ou o segundo sinal processado, em que o segundo ramo de descodificação compreende um primeiro ramo de processamento inverso (531) para o processamento inverso do primeiro sinal processado para obter um primeiro sinal processado inverso no segundo domínio; um segundo ramo de processamento inverso (533, 534) para o processamento inverso do segundo sinal processado para obter um segundo sinal processado inverso no segundo domínio; um primeiro combinador (532) para combinar o primeiro sinal processado inverso e o segundo sinal processado inverso para obter um sinal combinado no segundo domínio; e um conversor (540) para converter o sinal combinado para o primeiro domínio; e um segundo combinador (600) para combinar o sinal convertido no primeiro domínio e o primeiro sinal descodificado emitido pelo primeiro ramo de descodificação para obter o sinal áudio descodificado no primeiro domínio.
17. Descodificador de acordo com a reivindicação 16, em que o primeiro combinador (532) ou o segundo combinador (600) compreende um comutador que tem uma funcionalidade de fundo encadeado.
18. Descodif icador de acordo com a reivindicação 16 ou 17, em que o primeiro domínio é um domínio temporal, o segundo domínio é um domínio de LPC, o terceiro domínio é um domínio espetral de LPC, ou o primeiro sinal codificado é codificado num quarto domínio, o qual é um domínio espetral temporal obtido por uma conversão de tempo/frequência de um sinal no primeiro domínio.
19. Descodificador de acordo com qualquer uma das reivindicações 16 a 18, em que o primeiro ramo de descodificação (431, 440) compreende um codificador inverso e um desquantificador e um conversor do domínio temporal e do domínio de frequência (440), ou o segundo ramo de descodificação compreende um codificador inverso e um desquantificador no primeiro ramo de processamento inverso ou um codificador inverso e um desquantificador e um domínio espetral de LPC para o conversor do domínio de LPC (534) no segundo ramo de processamento inverso.
20. Descodif icador de acordo com a reivindicação 19, no qual o primeiro ramo de descodificação ou o segundo ramo de processamento inverso compreende um dispositivo de sobreposição-adição para realizar uma funcionalidade de anulação da distorção no domínio temporal.
21. Descodificador de acordo com uma das reivindicações 16 a 20, em que o primeiro ramo de descodificação ou o segundo ramo de processamento inverso compreende um dispositivo anti- distorção controlado por uma característica de distorção incluída no sinal áudio codificado.
22. Descodificador de acordo com uma das reivindicações 16 a 21, em que o sinal codificado compreende, como informação lateral (4a), uma indicação se um sinal codificado tem que ser codificado por um primeiro ramo de codificação ou um segundo ramo de codificação ou um primeiro ramo de processamento do segundo ramo de codificação ou um segundo ramo de processamento do segundo ramo de codificação, e que compreende ainda um reconhecedor para reconhecer o sinal codificado para determinar, com base na informação lateral (4a) , se um sinal codificado tem que ser processado pelo primeiro ramo de descodificação, ou o segundo ramo de descodificação, ou o primeiro ramo de processamento inverso do segundo ramo de descodificação ou o segundo ramo de processamento inverso do segundo ramo de descodificação.
23. Método de descodificação de um sinal áudio codificado, compreendendo o sinal áudio codificado um primeiro sinal codificado, um primeiro sinal processado num segundo domínio, e um segundo sinal processado num terceiro domínio, em que o primeiro sinal codificado, o primeiro sinal processado e o segundo sinal processado são relacionados com diferentes porções de tempo de um sinal áudio descodificado, e em que o primeiro domínio, o segundo domínio e o terceiro domínio são diferentes uns dos outros, compreendendo: a descodificação (431, 440) do primeiro sinal codificado com base num primeiro algoritmo de codificação; a descodificação do primeiro sinal processado ou do segundo sinal processado, em que a descodificação do primeiro sinal processado ou do segundo sinal processado compreende: o processamento inverso (531) do primeiro sinal processado para obter um primeiro sinal processado inverso no segundo domínio; o processamento inverso (533, 534) do segundo sinal processado para obter um segundo sinal processado inverso no segundo domínio; a combinação (532) do primeiro sinal processado inverso e do segundo sinal processado inverso para obter um sinal combinado no segundo domínio; e a conversão (540) do sinal combinado para o primeiro domínio; e a combinação (600) do sinal convertido no primeiro domínio e o primeiro sinal descodificado para obter o sinal áudio descodificado no primeiro domínio.
24. Sinal áudio codificado compreendendo: um primeiro sinal codificado já codificado ou a ser descodificado utilizando um primeiro algoritmo de codificação ou descodificação, um primeiro sinal processado num segundo domínio, e um segundo sinal processado num terceiro domínio, em que o primeiro sinal processado e o segundo sinal processado são codificados utilizando um segundo algoritmo de codificação, em que o primeiro sinal codificado, o primeiro sinal processado e o segundo sinal processado são relacionados com diferentes porções de tempo de um sinal áudio descodificado, em que um primeiro domínio, o segundo domínio e o terceiro domínio são diferentes uns dos outros, e informação lateral (4a) que indica se uma porção do sinal áudio codificado é o primeiro sinal codificado, o primeiro sinal processado ou o segundo sinal processado.
25. Programa de computador para realizar, durante a execução no computador, o método de codificação de um sinal áudio de acordo com a reivindicação 15 ou o método de descodificação de um sinal áudio codificado de acordo com a reivindicação 23.