PT2215631E

PT2215631E - Modelação do ruído de arredondamento por transformada de inteiro baseada em codificação e descodificação

Info

Publication number: PT2215631E
Application number: PT08852258T
Authority: PT
Inventors: Peter Jax
Original assignee: Thomson Licensing
Priority date: 2007-11-23
Filing date: 2008-11-10
Publication date: 2012-06-26
Also published as: CA2705228A1; CN101868822A; MX2010005418A; CN101868822B; EP2063417A1; KR20100113065A; BRPI0820467A2; EP2215631A1; US8503535B2; WO2009065748A1; JP2011505728A; EP2215631B1; RU2530926C2; RU2010125613A; US20100309983A1; JP4961042B2

Description

ΡΕ2215631 1

DESCRIÇÃO "MODELAÇÃO DO RUÍDO DE ARREDONDAMENTO POR TRANSFORMADA DE INTEIRO BASEADA EM CODIFICAÇÃO E DESCODIFICAÇÃO" A invenção refere-se a um método e a um aparelho para melhorar a eficiência de codificação para um sinal de áudio ou de video.

Antecedentes A transformada de inteiro-reversivel, em particular a MDCT de inteiro (IntMDCT), é usada em codificação sem perdas de áudio/video ou HD (alta definição). Por exemplo, o recentemente padronizado codec MPEG-4 SLS utiliza uma IntMDCT. A abordagem pode ser aplicável, bem como em outros domínios em que as transformações sem perdas sejam usadas. Por exemplo, as transformadas de Wavelet de inteiro reversível são utilizadas para codificação sem perdas de vídeo e imagem. 0 problema de qualquer transformação de inteiro-reversível é que a transformação é dividida em etapas consecutivas, cada uma das quais introduz erros de arredondamento consideráveis no sinal. Este problema torna- 2 ΡΕ2215631 se mais significativo quanto mais baixo for o nivel do sinal útil a ser codificado. Portanto, o ruido de erro de arredondamento é um factor limitativo em sistemas de codificação residuais, em que o resíduo é o sinal de erro entre o sinal (ou sem perdas ou HD) original e a definição padrão ou com perdas da versão codificada do mesmo.

Sem a modelação do ruído o erro de arredondamento terá igualmente impacte em todos os binários de frequência do sinal transformado. Este é um problema particular para os binários de frequência em que o nível de sinal corrente é baixo. Nos binários em que o erro de arredondamento se torna dominante, para a transformação sem perdas deve ser contabilizada uma grande 'penalização' em termos de entropia aumentada fortemente (e, portanto, o débito de dados). A penalização é muito menor para binários de frequência em que os erros de arredondamento não são dominantes. A solução para este problema foi proposta por Fraunhofer em: Yoshikazu Yokotani, Ralf Geiger, Gerald D.T. Schuller, Soontorn Oraintara, K.R. Rao, "Lossless audio coding using the IntMDCT and rounding error shaping" ("Codificação de áudio sem perdas usando a IntMDCT e modelação do erro de arredondamento"), IEEE Transactions on Audio, Speech, and Language Processing, Vol.14, No.6, pp.2201-2211, Novembro de 2006. No seu seio, é proposta a adição de filtros de modelação do ruído fixo para as etapas de elevação (representando várias pequenas sub-etapas de 3 ΡΕ2215631 inteiro-reversível da transformação), com vista a trocar as contribuições de erro de arredondamento especialmente a partir das altas frequências para as baixas frequências. Os autores aplicam um critério heurístico de optimização para encontrar os coeficientes do filtro de modelação do ruído. Uma variante simples desta abordagem é parte do codec MPEG-4 SLS (filtro passa-baixo fixo de primeira ordem).

Uma transformada de inteiro com base em esquema de elevação de inteiros mapeia inteiros e é reversível. A ideia básica de tal elevação é: por exemplo, se um par de filtros (h,g) é complementar, ou seja, se ele permite uma reconstrução perfeita, então para cada filtro s o par (h',g) com h'(z) = h(z)+s(z2)*g(z) também permite a reconstrução perfeita. Isto também é verdade para o filtro t e cada par (h,g') da forma g'(z) = g(z)+t(z2)*h (z) . 0 inverso também é verdadeiro: se os bancos de filtros (h,g) e (h',g) permitem a reconstrução perfeita, então há um único filtro s com h' (z) = h (z)+s (z2) *g (z) .

Cada tal operação de transformação do banco de filtros é chamada de uma etapa de elevação. Uma sequência de etapas de elevação pode consistir em alternância de elevações, isto é, numa etapa, o filtro passa—baixo é fixado e o filtro passa-alto é mudado e na etapa seguinte o filtro passa-alto é fixado e o filtro passa-baixo é mudado, pelo que sucessivas etapas da mesma direcção podem ser 4 ΡΕ2215631 fundidas .

Uma outra abordagem para a resolução do problema foi publicada na área da codificação de video em: Min Shi, Shengli Xie, "A Lossless Image Compression Algorithm by Combining DPCM with Integer Wavelet Transform" ("Um Algoritmo de Compressão de Imagem Sem Perdas, pela combinação de DPCM com a Transformada de Wavelet de Inteiro"), IEEE 6th CAS Symp. em Tecnologias Emergentes: Mobile and Wireless Comm, Shanghai, China, 31 maio - 2 junho de 2004. Os autores aplicam um pré-filtro DPCM na frente da transformação sem perdas, através do qual o sinal é 'branqueado' e assim o (também 'branco') ruido de erro de arredondamento é efectivamente modificado em modo semelhante ao espectro do sinal. No entanto, esta abordagem também tem alguns inconvenientes: em primeiro lugar, para ser inteiro-reversivel o pré-filtro necessita de adicionar erros de arredondamento em si mesmo, o que degrada o desempenho da codificação (ver abaixo). Em segundo lugar, os autores aplicam um filtro 'normal' DPCM avançado o qual, no entanto, não é a escolha ideal para o problema abordado.

Invenção

Embora benéfico sobre a média, a modelação do ruido fixo descrito acima, pode ser altamente sub-óptima para os blocos de sinal individuais.

Um problema a ser resolvido pela invenção é 5 ΡΕ2215631 optimizar a distribuição de ruido de erro de arredondamento numa transformada de inteiro-reversível usando elevação e/ou para reduzir do débito de dados necessário para codificar exactamente os bits de um específico sinal de áudio ou de vídeo, ou seja, para melhorar a eficiência de codificação/descodificação. Este problema é resolvido pelos métodos divulgados nas reivindicações 1 e 3. Os dispositivos correspondentes que utilizam estes métodos são divulgados nas reivindicações 2 e 4. A invenção limita o impacte do ruído de erro de arredondamento vindo com, ou resultante de, cada etapa de elevação na transformação de inteiro-reversível no débito de dados de um codec sem perdas, utilizando uma adaptação bloco-a-bloco da modelação do ruído. Podem ser utilizadas duas abordagens básicas:

Em primeiro lugar, os coeficientes de filtro dos filtros de modelação do ruído para transformada ou os coeficientes no domínio de frequências são adaptados em etapas de elevação individuais de acordo com as características de sinal no domínio de tempo corrente. Foi desenvolvida uma nova regra de adaptação analítica que oferece coeficientes de filtro quase óptimos. Para além disso, um procedimento iteractivo adicional (opcional) produz localmente um conjunto de coeficientes óptimo.

Em segundo lugar, um pré-filtro auto-regressivo (isto é, recursivo) pode ser acrescentado na frente da 6 ΡΕ2215631 transformação sem perdas. Esse filtro visa explicitamente na 'elevação' o nivel de regiões com baixa potência de frequência para diminuir a predominância de erros de arredondamento nestas áreas. Este pré-filtro partilha as mesmas regras de adaptação da invenção como o processamento de modelação do ruido adaptativo para a transformada ou coeficientes no dominio da frequência.

Vantajosamente, estes dois processamentos básicos podem ser combinados para melhorar ainda mais a taxa de compressão de um codec sem perdas.

As tramas da amostra do sinal áudio ou de video a partir da qual os coeficientes de filtro são calculados, pode ter um comprimento diferente daqueles dos blocos de amostra de sinal de áudio ou de video para os blocos de coeficientes da transformada correspondente dos quais os coeficientes de filtro são aplicados.

Como uma alternativa, ou em acréscimo, as tramas de amostra podem ser temporariamente deslocadas em relação aos blocos de amostra, cujo modelo de realização tem a vantagem de que os coeficientes de filtro não necessitam de ser transmitidos para o lado do descodificador, mas podem ser correspondentemente calculados no lado do descodificador.

Em vez de cálculo dos coeficientes de filtro directamente a partir das tramas da amostra de sinal, eles 7 ΡΕ2215631 também podem ser calculados a partir de um erro ou de sinal residual que pode estar disponível no processamento de codificação, por exemplo, numa secção de banco de filtros do codificador de sinal de áudio ou de video.

Em principio, o método de codificação da invenção é adequado para melhorar a eficiência de codificação para um sinal de áudio ou de vídeo, em que o referido sinal é processado utilizando uma transformada de um inteiro-reversível para cada bloco da amostra do referido sinal, em que a transformada do inteiro é realizada utilizando etapas de elevação que constituem sub-etapas da transformada do referido inteiro e em que as etapas de elevação incluem operações de arredondamento, e em que é realizada a modelação do ruído para os erros de arredondamento resultantes a partir das referidas etapas de elevação, o referido método incluindo a etapa: - o inteiro transformando os referidos blocos da amostra usando as etapas de elevação e de modelação do ruído adaptativo para pelo menos alguma das referidas etapas de elevação, a referida transformada proporcionando blocos correspondentes de coeficientes de transformada e a referida modelação do ruído sendo realizada tal que é diminuído o ruído de arredondamento de coeficientes de transformada de magnitude de nível baixo num corrente de entre os referidos blocos transformados, enquanto que é aumentado o ruído de arredondamento de coeficientes de transformada de magnitude de nível alto no referido bloco transformado corrente, e em que os coeficientes do filtro 8 ΡΕ2215631 de um correspondente filtro de modelação do ruído são derivados a partir da referida amostra do sinal de áudio ou de vídeo numa base de trama-a-trama.

Em princípio, o dispositivo de codificação da invenção é adequado para melhorar a eficiência de codificação para um sinal de áudio ou de vídeo, em que o referido sinal é processado usando uma transformada de um inteiro-reversível para cada bloco da amostra do referido sinal, em que a transformada do inteiro é realizada utilizando etapas de elevação que constituem sub-etapas da transformada do referido inteiro e em que as etapas de elevação incluem operações de arredondamento, e em que a modelação do ruído é realizada para os erros de arredondamento resultantes a partir das referidas etapas de elevação, o referido aparelho incluindo: - meios a serem adaptados para o inteiro transformando os referidos blocos da amostra usando as etapas de elevação e de modelação do ruído adaptativo para pelo menos alguma das referidas etapas de elevação, a referida transformada proporcionando blocos correspondentes de coeficientes de transformada e a referida modelação do ruído sendo realizada tal que é diminuído o ruído de arredondamento de coeficientes de transformada de magnitude de nível baixo num corrente de entre os referidos blocos transformados, enquanto que é aumentado o ruído de arredondamento de coeficientes de transformada de magnitude de nível alto no referido bloco transformado corrente; um correspondente filtro de modelação do ruído, os 9 ΡΕ2215631 coeficientes de filtro do qual são derivados a partir das referidas amostras do sinal de áudio ou de vídeo numa base de trama-a-trama.

Em princípio, o método de descodificação da invenção é adequado para melhorar a eficiência da codificação/descodificação para um sinal de áudio ou de vídeo, em que no lado de codificador o referido sinal foi processado usando uma transformada de um inteiro-reversível para cada bloco de amostra do referido sinal, em que a transformada do inteiro é realizada utilizando etapas de elevação que constituem sub-etapas da transformada do referido inteiro e em que as etapas de elevação incluem operações de arredondamento e em que a modelação do ruído foi realizada para os erros de arredondamento resultantes a partir das referidas etapas de elevação, e em que os referidos blocos da amostra eram o inteiro transformado usando as etapas de elevação e de modelação do ruído adaptativo para pelo menos alguma das referidas etapas de elevação, a referida transformada proporcionando blocos correspondentes de coeficientes de transformada e a referida modelação do ruído sendo realizada tal que é diminuído o ruído de arredondamento de coeficientes de transformada de magnitude de nível baixo num corrente de entre os referidos blocos transformados, enquanto que é aumentado o ruído de arredondamento de coeficientes de transformada de magnitude de nível alto no referido bloco transformado corrente, e em que os coeficientes de filtro de um correspondente filtro de modelação do ruído foram 10 ΡΕ2215631 derivados a partir da referida amostra do sinal de áudio ou de video numa base de trama-a-trama, a descodificação do referido sinal de áudio ou de video codificado, incluindo a etapa: - transformação inversa do inteiro dos referidos blocos de amostra usando as etapas de elevação e modelação do ruido adaptativo para pelo menos alguma das referidas etapas de elevação, a referida transformada inversa a operar em blocos de coeficientes de transformada e fornecendo os correspondentes blocos de valores da amostra de saida e a referida modelação do ruido sendo realizada tal que é diminuido o ruido de arredondamento de coeficientes de transformada de magnitude de nivel baixo num corrente de entre os referidos blocos transformados, enquanto que é aumentado o ruido de arredondamento de coeficientes de transformada de magnitude de nivel alto no referido bloco transformado inverso corrente, e em que os coeficientes de filtro de um correspondente filtro de modelação do ruido são derivados a partir da amostra de sinal áudio ou de video inversamente transformado numa base de trama-a-trama.

Em principio, o dispositivo de descodificação da invenção é adequado para melhorar a eficiência da codificação/descodificação para um sinal de áudio ou de vídeo, em que no lado de codificador o referido sinal foi processado usando uma transformada de um inteiro-reversível para cada bloco de amostra do referido sinal, em que a transformada do inteiro é realizada utilizando etapas de elevação que constituem sub-etapas da transformada do 11 ΡΕ2215631 referido inteiro e em que as etapas de elevação incluem operações de arredondamento e em que a modelação do ruido para os erros de arredondamento resultantes a partir das referidas etapas de elevação foi realizada, e em que os referidos blocos de amostra eram o inteiro transformado usando as etapas de elevação e de modelação do ruido adaptativo para pelo menos alguma das referidas etapas de elevação, a referida transformada proporcionando blocos correspondentes de coeficientes de transformada e a referida modelação do ruido sendo realizada tal que é diminuído o ruido de arredondamento de coeficientes de transformada de magnitude de nivel baixo num corrente de entre os referidos blocos transformados, enquanto que é aumentado o ruído de arredondamento de coeficientes de transformada de magnitude de nivel alto no referido bloco transformado corrente, e em que os coeficientes de filtro de um correspondente filtro de modelação do ruido foram derivados a partir da referida amostra do sinal de áudio ou de video numa base de trama-a-trama, sendo o aparelho adequado para a descodificação do referido sinal codificado de áudio ou de video, incluindo: - meios estando adaptados para transformação inversa do inteiro dos referidos blocos de amostra usando as etapas de elevação e modelação do ruido adaptativo para pelo menos alguma das referidas etapas de elevação, a referida transformada inversa a operar em blocos de coeficientes de transformada e fornecendo os correspondentes blocos de valores da amostra de saida e a referida modelação do ruido sendo realizada tal que é diminuído o ruído de 12 ΡΕ2215631 arredondamento de coeficientes de transformada de magnitude de nivel baixo num corrente de entre os referidos blocos transformados, enquanto que é aumentado o ruido de arredondamento de coeficientes de transformada de magnitude de nivel alto no referido bloco transformado inverso corrente; - um correspondente filtro de modelação do ruido, do qual são derivados os coeficientes de filtro a partir da amostra de sinal áudio ou de video inversamente transformado numa base de trama-a-trama.

Vantajosos modelos de realização adicionais da invenção são divulgados nas reivindicações dependentes respectivas.

Por exemplo, os coeficientes de filtro do filtro de modelação do ruido podem ser derivados numa base de trama-a-trama a partir de um erro ou de sinal residual disponibilizado no processamento de descodificação do referido sinal de áudio ou de video, por exemplo numa descodificação de secção de banco de filtros do sinal de áudio ou de video. 0 filtro de modelação do ruido pode ser um pré-filtro (pós-filtro) que não está disposto dentro da transformada de inteiro (transformada de inteiro inversa), mas é disposto a montante (a jusante) da transformada de inteiro (transformada de inteiro inversa) ΡΕ2215631 0 pré-filtro (pós-filtro) de modelação do ruído a montante (a jusante) pode também ser um filtro para além do filtro de modelação do ruído disposto no interior da transformada de inteiro (transformada de inteiro inversa).

Desenhos

Os modelos de realização exemplificativos da invenção são descritos fazendo referência aos desenhos anexados, os quais mostram na:

Fig. 1 Para TDAC, a decomposição de uma rotação de Givens em três etapas de elevação consecutivas, em que cada etapa de elevação é acompanhado com uma operação de arredondamento;

Fig. 2 Esquema de elevação multi-dimensional aplicada para dois sinais de entrada paralelos (caso estéreo), em que os dois sinais de entrada x e y já foram objecto de ruído de erro de arredondamento nos blocos de TDAC;

Fig. 3 Arredondamento utilizando a modelação do ruído;

Fig. 4 Diagrama de blocos básico para um conhecido codificador e descodificador com perdas baseado em codificador e descodificador sem perdas;

Fig. 5 Decomposição por MDCT de Inteiro; 14 ΡΕ2215631

Fig. 6 Conhecida etapa de elevação multi-dimensional única sem a modelação do ruído;

Fig. 7 Conhecida modelação do ruído numa etapa de elevação multi-dimensional única;

Fig. 8 Variante independente da modelação do ruído adaptativo da invenção em IntMDCT;

Fig. 9 Variante independente da modelação do ruído adaptativo da invenção em IntMDCT inversa;

Fig. 10 Codificador de transformada de escalonamento-sem perdas, modelação do ruído adaptativo da invenção em IntMDCT;

Fig. 11 Codificador de transformada de escalonamento-sem perdas, modelação do ruído adaptativo da invenção em IntMDCT inversa;

Fig. 12 Variante independente de pré-filtro adaptativo da invenção em IntMDCT;

Fig. 13 Variante independente de pré-filtro adaptativo da invenção em IntMDCT inversa.

Modelos de Realização Exemplificativos A MDCT de Inteiro (IntMDCT) é uma aproximação do 15 ΡΕ2215631 algoritmo MDCT normal que permite a reconstrução exacta de bit das amostras de PCM originais. Esta caracteristica é conseguida pela decomposição de todas as etapas do algoritmo em etapas de elevação, as quais são, etapa-a-etapa, bits reversíveis exactamente. Mais informação pode ser encontrada por exemplo em: Ralf Geiger, Yoshikazu Yokotani, Gerald Schuller, Jurgen Herre, "Improved integer transforms using multi-dimensional lifting" ("Transformação melhorada de inteiro usando elevação multi-dimensional"), Proc. de ICASSP, volume 2, páginas 17-21, Montreal, Canadá, Maio de 2004. A propriedade de reconstrução sem perdas (ou seja, os bits exatos) vem com o custo de erro aditivo: a operação de arredondamento em cada etapa de elevação acrescenta ruído de erro de arredondamento. Constitui um objectivo da presente invenção a quantificação das variâncias destes erros de arredondamento e a avaliação do seu impacte para a taxa de compressão de um codec sem perdas. Então, os filtros e/ou os pré-filtros de modelação do ruído são utilizados para optimizar para um mínimo de entropia. São divulgadas soluções para filtros fixos e adaptativos. 16 ΡΕ2215631 A) Erros de arredondamento

Erros de arredondamento são introduzidos na maior parte das etapas de elevação na IntMDCT, ver Y. Yokotani, R. Geiger, G.D.T. Schuller, S. Oraintara, K.R. Rao, "Lossless audio coding using the IntMDCT and rounding error shaping" ("Codificação de áudio sem perdas usando o IntMDCT e modelação doerro de arredondamento"), IEEE Transactions on Audio, Speech, and Language Processing (Processamento de Linguagem), 14 (6) :2201-2211, Novembro de 2006, para detalhes e derivações. Nas subsecções seguintes, as fontes de erros de arredondamento são com brevidade resumidas e são dadas algumas definições. A.l) Cancelamento de Alisamento no Domínio de Tempo (TDAC) A decomposição do TDAC e a operação de janelas (rotação de Givens) em três etapas de elevação são mostradas na Fig. 1. Tal operação de janelas para cada bloco ou secção de entrada de sinal de áudio ou de vídeo é geralmente relacionada com a ponderação de amplitudes ou magnitudes nos blocos ou secções, por exemplo, pela utilização de uma ponderação de função de seno ou de coseno e 50% de sobreposição de janelas. A interpretação das três operações de arredondamento como correspondente a produção de valores de ruído aditivo nl, n2, n3 c'= a cos α - b sin α + nl cos α + n2 cs α + n3 (1) d'= a sin α + b cos α + nl sin α + n2 com cs α = (cos α-l) / sin α (2) (3) 17 ΡΕ2215631 e o conjunto de ângulos α definindo a função de janela.

Para uma janela de seno os ângulos são definidos por α 4 sfi·*' 1, 2, ... N/2, N = 576. em geral, 0 —

As potências dos erros de arredondamento dependem da rotação do ângulo α de uma rotação de Givens (c, d designam as saídas desejadas não-quantizadas da rotação de Givens) : E { (c' -c) 2 } = — (cos2oí+cs2oí+1 ) (4, 5) 12 E{(d'- d)2} = — (sin2 α +1) 12

Como mencionado acima, a Fig. 1 mostra a decomposição de uma rotação de Givens em três etapas de elevação consecutivas, em que cada etapa de elevação é acompanhada por uma operação de arredondamento. Os valores de entrada são a, e b, e os valores de saída são c' e d' (cf. equações (1) e (2). Ql, Q2 e Q3 designam as etapas de quantização. A primeira etapa de elevação calcula a+Ql (cs α *b) , a segunda etapa de elevação calcula b+Q2 (sin α [a+Ql(cs a *b)]), 18 ΡΕ2215631 e a terceira etapa de elevação calcula a+Ql (cs oí *b) +Q3[cs α (b+Q2 (sin a[a+Ql(cs α *b)])) ] .

Para as janelas seno a potência média do ruido de erro de arredondamento a partir da parte TDAC da MDCT de Inteiro é de cerca de 1,6/12. Este valor pode ser teoricamente derivado tomando a média da expressão ½E{(c'-c)2} + ^E{(d'-d)2} para todos os valores de α utilizados. Esse valor de potência média foi ainda verificado por meio de simulações. A.2) Esquema de elevação muiti-dimensional: versão estéreo

Os dois sinais paralelos de entrada do esquema de elevação multi-dimensional ou do esquema de elevação multi-dimensional estéreo é ilustrado na Fig. 2. Os dois sinais de entrada x e y já foram objecto de ruido de erro de arredondamento nos blocos TDAC, TDAC1 e TDAC2, cf. Fig. 1. Os vectores de saída do bloco de TDAC lado de codificador são designados por x e y para as partes inferior e superior, respectivamente. Então, os respectivos vectores de saida de codificador no domínio IntMDCT (antes do descodificador) constituem-se como: X' = DCTIV {x} + (n4} DCTIV{n4}-n5 (6) Y'= DCTIV {y} + (n5} DCTIV{n5}+n6 (7) onde 'DCTIV' significa uma DCT de tipo IV (ou seja, uma MDCT de Inteiro), n4, n5 e n6 são sinais de erro de quantização e Q4, Q5 e Q6 representam as operações de 19 ΡΕ2215631 quantização. De acordo com o diagrama de blocos, cada 'espectro' resultante é uma mistura do espectro MDCT corrente, por exemplo DCTIV {x}, e algum ruído aditivo que é constituído por erros no domínio de frequência e no domínio de tempo. No lado do descodificador, as três etapas de elevação de transformada são revertidas, seguidas por blocos TDAC correspondentes TDAC3 e TDAC4. A ambiguidade de características de tempo-frequência dos vectores resultantes intermédios e finais na codificação torna difícil a compreensão e a optimização de filtro. A.3) Pré-filtro

De preferência, um pré-processamento de sinais de entrada por um filtro digital é levada a cabo na frente do processamento TDAC. Isto pode ser realizado por um filtro auto-regressivo (AR) ou de média móvel (MA). 0 pré-filtro é para ser executado de uma forma reversível inteira. Isto significa que as características do filtro devem ser rigorosamente de fase mínima. Para além disso, as estruturas de filtro aplicadas no codificador e descodificador têm de ser perfeitamente inversas. Por conseguinte, a operação de filtragem inclui pelo menos uma operação de arredondamento dos valores intermédios (saída do predictor) para valores inteiros. Isto significa um pré-filtro virá sempre juntamente com um ruído de erro de arredondamento adicional. Há fortes semelhanças entre a optimização da 20 ΡΕ2215631 modelação do ruído dentro do IntMDCT e a optimização do pré-filtro. As diferenças são que o pré-filtro também afecta positivamente o impacte dos estágios de quantização finais (Q5/n5 e Q6/n6 na Fig. 2;. Qx é a descrição matemática para a operação de quantização não-linear, nx é o erro de quantização aditivo resultante), que a complexidade de cáculo é menor para a ordenação de filtro semelhante, e que o pré-filtro irá produzir os erros de arredondamento adicionais. B) Arredondamento com a modelação do ruído

As características de frequência de erros de arredondamento podem ser modelados usando um filtro de modelação do ruído, como é ilustrado na Fig. 3. O ruído de quantização original n(k), resultante a partir do sinal y(k) de saída do quantisador Q é determinado e filtrado por um filtro de resposta de impulso (fir) finito com a resposta de impulso a(k) e atraso T. De modo correspondente Λ o ruido filtrado w(k) é alimentado de retorno para a entrada do sinal x(k). Em sequência, assume-se que um filtro de modelação do ruído a(k) tem ordem p e é causal. Então, incluindo a operação de atraso anterior, o filtro tem a seguinte função de transferência: ÊrÇr) " (3 9) = 1Ί- 1Γ u 1=4 onde A(z) representa a transformada z de a(k) e αλ são os coeficientes de filtro. Os coeficientes de filtro αλ, λ = 1 21 ΡΕ2215631 . . . p, podem ser modificados livremente para obter caracteristicas de frequência diferentes.

Particularmente interessante é a resposta de frequência em relação às frequências centrais da MDCT discreta. Se i designa o indice de frequência discreta com i = 0,1,...,N-l, a frequência central do i-ésimo binário de frequência da MDCT é dada por Ωί = (2n (i + 0,5) )/2N em representação angular, em que N é o comprimento da MDTC. A resposta de frequência do filtro de modelação do ruido vem a ser:

F ^=1' (10, 11, 12) = Í1 + £ I 4 [ 14 £ |

Nos cálculos posteriores seguintes, é requerida a diferenciação parcial da resposta de frequência para ο γόε imo coeficiente de filtro de αγ (equações 13, 14, 15): êcír

^=1 5?

lai

3=1

ΡΕ2215631 22

Devido à filtragem de modelação do ruido, também são modificadas as caracteristicas do ruido de erro de arredondamento no domínio do tempo. Além disso para a introdução de correlação, o filtro de modelação do ruído aumenta a variância do sinal de ruído resultante n(k):

(16, 17, 18, 19)

Nesta derivação a auto-correlação do ruído de quantização original é assumida como sendo zero fora da origem, isto é, E{n (k) n (k-γ) } = 0 se γ + 0. Note-se que qualquer coeficiente não zero cx + 0 irá aumentar a potência do ruído de quantização eficaz no domínio do tempo. C) Ruído de erro de arredondamento e a entropia diferencial

Para simplificar a investigação a seguir, é assumido que o sinal de entrada é um ruído aleatório com função de densidade de probabilidade (PDF) de Gauss e que é, pelo menos, estacionária a curto prazo. No entanto, as caracteristicas de frequência do sinal de entrada não estão restringidas.

Seja x(k) a designação da representação do sinal 23 ΡΕ2215631 de entrada no domínio do tempo. Se o sinal de entrada aleatório acima mencionado é transformado através da normal (de ponto flutuante) MDCT, é obtida a curta Xi, a representação no domínio da frequência de X(i), onde i representa o índice de frequência. 0 índice de trama é omitido para uma melhor compreensão. Uma vez que o sinal de entrada é assumido como ruído aleatório estacionário, os binários de MDCT também são aleatórios com variâncias individuais . A entropia diferencial do i-ésimo binário de frequência é h(Xi) = ^log2(2ne6Xi2) (20)

Adicionando o ruído de erro de arredondamento numa operação da etapa de elevação adicionam-se componentes de ruído individuais para cada binário de frequência. A variância do ruído no i-ésimo binário é designada por 6Ni2 e é assumido que os componentes do sinal Xi e os componentes de ruído Ni em cada binário são mutuamente independentes. Então, a entropia diferencial do binário de frequência com ruído é: (21, 22, 23) 3L ^ / , £É\ i. 1- 1 II -¾.

Isto é, a entropia diferencial 'sofre' de uma penalização de hi+ que depende da relação sinal-ruído individual. 24 ΡΕ2215631

Ao longo da gama de frequências completa, estas penalizações individuais adicionam-se aumentando até à taxa de bits bruta exigida, pelo menos, para codificar cada bloco (Nota: Assumindo um mapeamento directo simplificado entre a entropia diferencial e a taxa de bits do fluxo de bits após a quantização e a codificação Na prática, podem existir perdas adicionais devido à codificação de entropia sub-óptima etc.): t-4· ** !· (24) É o objectivo das derivações seguintes para se obter uma regra de adaptação para o filtro de modelação do ruido que minimiza esta penalização bruta para cada bloco.

De acordo com as derivações da secção B) anterior, a variância dos componentes de ruido no i-ésimo binário de frequência é modelado como: (25, 26) σ#£ = IMUil / \s f = k* 114 ^ I 4 | ^ | 1=1. \ S -1 / onde Qi = (2n (i + 0,5))/2N e o factor escalar k2 é um factor arbitrário que descreve a variância do ruido de erro de arredondamento original n(k). A diferenciação parcial para o γ-ésimo coeficiente αλ é: (27; (27; 25 ΡΕ2215631 iPl: tf· ver em cima a derivação das equações 13 a 15. C.l) Solução aproximada

Agora, os coeficientes αλ deverão ser optimizados com vista a minimizar a penalização total H+. Para simplificação, o ruido de quantização baixo é o primeiro assumido, ou seja, é assumido que: / *8 r Λ* -5 I * \ “-*1/®l (28, 29) pelo que é utilizada a aproximação log(l+x) * x a qual é válida para x << 1. Em termos de processamento de sinal, é assumido assim que << é válido em todos os binários de frequência. A penalização completa H+ contabiliza-se por: (30, 31) SÉ l&l í=e A diferenciação parcial para o coeficiente αλ apresenta: Ssr Ser (32, 33)

Definindo esta diferenciação parcial como zero 26 ΡΕ2215631 leva-nos a um conjunto de equações para serem resolvidas para encontrar os coeficientes com penalização de entropia minima: m βΰίχ i = ú (34, 35)

Ã' swjI eos.Çfílj)· &ê.

Neste momento, existem para resolver p equações para p incógnitas.

Para melhor compreensão, o conjunto de equações pode ser expresso em notação matricial de vectores. Os seguintes vectores e matrizes são definidos:

(36, 37, 38) (39) onde é usada a abreviatura:

Este conjunto acima de equações traduz-se pelo sistema de equações lineares M»a = e. (40)

Isto pode ser resolvido por inversão da matriz de Toeplitz M: aopt= M-l»e. (41) 27 ΡΕ2215631

Note-se que a quantidade de R(K) é equivalente à função de auto-correlação de um sinal com o espectro inverso do sinal de entrada x(k). Consequentemente, o método de optimização assemelha-se fortemente à adaptação baseada em bloco de um filtro de predicção linear utilizando as equações normais, por exemplo, comparar P. Vary e R. Martin, "Digital Speech Transmission: Enhancement, Coding and Error Concealment" ("Transmissão de Discurso Digital Speech: Melhoramento, Codificação e Cancelamento de Erro"), John Wiley & Sons Ltd, 2006, cap. 6.2. Portanto, após o cálculo dos valores da pseudo auto-correlação R(K), a colecção completa de métodos numéricos para optimizar filtros de predicção linear pode ser utilizada, por exemplo o algoritmo de Levinson-Durbin que é computacionalmente eficiente.

Os coeficientes de filtro dos filtros de modelação do ruido adaptativo são determinados pelo cálculo do espectro de potência inversa de uma trama de amostra de sinal, em que os coeficientes de filtro são optimizados de forma a minimizar a distância espectral média entre o espectro de potência inversa e a resposta de frequência de um filtro de todos os pólos correspondente a estes coeficientes de filtro.

Ou seja, a optimização dos coeficientes de filtro é realizada por uma análise de predicção linear com base no espectro de potência inverso da trama de amostra do sinal. 28 ΡΕ2215631 0 espectro de potência inverso pode ser transformado em coeficientes de pseudo auto-correlação antes de ser executada a optimização dos coeficientes do filtro. C.2) No sentido da solução exacta

Na secção anterior, é usada uma aproximação para se obter um problema de optimização linear. Para alcançar uma solução mais exacta, o termo exacta é para ser utilizado para expressar a penalização de entropia:

H

(42) A diferenciação parcial para o coeficiente de γ-ésimo filtro dá o termo: -*S;e©í:! (43, 44) 1 I n 1' ...· v \ .Λ™-.·,L·-.. y V 2 *** Ί* +t1 * 5=-!%®^·%)) *

Infelizmente, este termo é não-linear. Uma ! M* = c solução analítica simples para não pode ser encontrada No entanto, podem ser aplicados métodos numéricos para a iteracção no sentido da solução óptima. Por exemplo, um processamento iteractivo de optimização de 29 ΡΕ2215631 gradiente descendente ou pode ser implementado um processamento iterativo de optimização do gradiente descendente mais acentuado para refinação dos coeficientes de filtro optimizados. Neste processo, o conjunto de coeficientes a = [al,a2,...,ap]T é refinado em cada etapa de iteracção, fazendo uma pequena etapa no sentido mais acentuado do gradiente (negativo) (45) onde μ representa o indice de iteração e o gradiente é definido como fraiã"

* 4¾ I

(46) 0 factor escalar Θ especifica um tamanho de etapa. Ele pode ser usado para controlar a velocidade da adaptação. As iteracções são repetidas por exemplo, até que o conjunto de coeficientes tenha convergido para uma solução estável. Um tamanho de etapa demasiado grande pode conduzir a um comportamento de convergência instável.

Este processamento vai encontrar uma solução local para o problema de optimização p-dimensional. 0 resultado final pode variar de acordo com o ponto de partida do algoritmo iteractivo, ou seja sobre o conjunto de coeficientes inicial a(0). Resultados consistentes têm sido obtidos a partir da solução aproximada, como foi indicado na secção anterior. No entanto, não é garantido 30 ΡΕ2215631 que a solução reflicta um óptimo global na minimização de H+ para o problema original.

Para além disso, não é garantido que o conjunto de coeficientes final produza uma resposta do filtro de minima fase. Isto significa que o resultado para as propriedades de fase mínima é para ser verificado antes de ser aplicada no seio de um pré-filtro. O efeito desta modelação do ruido adaptativo é de que o ruído de arredondamento a partir de amostras de amplitude de nivel baixo num corrente bloco dos blocos de sinal de entrada ou secções é diminuído, enquanto que o ruído de arredondamento a partir de amostras de magnitude de nível alto do bloco corrente ou secção é aumentado. 'Magnitude de nível baixo' e 'magnitude de nível alto' significa menor ou maior, respectivamente, do que por exemplo o nível de magnitude média do bloco, ou um nível limiar de magnitude para o bloco. A optimização acima aplica-se para a adaptação de filtros de modelação do ruído de movimento médio. Vantajosamente, as mesmas regras de adaptação podem ser aplicadas para optimizar um pré-filtro auto-regressivo (todos os pólos). C.3) Pré-filtro de média móvel (MA)

Para derivar os coeficientes óptimos para um pré- 31 ΡΕ2215631 filtro de média móvel (resposta de impulso finito), em relação à estrutura de filtro, este processamento assemelha-se muito de perto com a predicção pré-ênfase 'clássica' ou linear. No entanto, o critério de optimização para o presente problema é diferente do que para estes cenários bem investigados.

Como um resultado da pré-filtragem, é observado agora um espectro de potência diferente do sinal no dominio da MDCT: é conseguido oXi2 |G(i) |2 em vez de oXi2. É assumido que o ruido de erro de arredondamento no dominio MDCT é ruido branco, se para além do pré-filtro a modelação do ruido adaptativo não for aplicada. Então, o espectro de potência de ruido é uma constante oNi2 = k2. Por conseguinte, o critério de optimização é definido por: (47, 48) :op {=!?

Observe-se que a definição de |G(i)\2 não é alterada. Da diferenciação parcial da aproximação para o coeficiente do γ-ésimo filtro resulta o termo: (49, 50) 32 ΡΕ2215631

Novamente, o termo não é linear, e uma solução analítica para o problema de optimização é difícil de derivar. No entanto, pode ser aplicado o mesmo procedimento de optimização 'de descendente mais acentuada' iteractivo, conforme definido na secção anterior.

Se for escolhido um processamento de refinamento iteractivo, também a aproximação acima utilizada pode ser ignorada. Se o início se der com o critério exacto, o seguinte termo é o resultado da diferenciação parcial para αγ:

(51)

Para ambas as duas regras de adaptação iterativas acima descritas é possível - novamente - não ser garantido que seja obtido o óptimo global. Em vez disso, o método converge no sentido dum óptimo local, e o resultado final será fortemente dependente da solução de partida.

Simulações detalhadas sobre dados correntes de áudio do EBU-SQAM CD demonstraram a melhoria esperada quando se aplica o processamento da invenção. Há ganhos de desempenho de mais de 0,2 pontos percentuais (assumido sinais de 16 bits) em relação a outras propostas. 33 ΡΕ2215631 D) Aplicação de IntMDCT Stereo

Em geral, uma optimização separada para os canais esquerdo e direito é aplicada e, aproximadamente, todas as fontes de erro de arredondamento podem ser tratadas independentes uma da outra se for assumido que para todos os erros de arredondamento temos oNi2 << oXi2.

Portanto, a adaptação dos filtros de modelação do ruidopara nl, n2, n3 do processamento de TDAC, e para n4 a partir do primeiro estágio do esquema de elevação multi-dimensional, é simples e directa e a solução aproximada da secção Cl pode ser utilizada.

Para n6, isto é, para o estágio final do esquema de elevação multi-dimensional, não deverá ser executada qualquer modelação sobre o ruido. A questão é como encontrar uma solução para a adaptação de n5. Este ruido de quantização tem um impacte duas vezes superior: primeiro, adiciona-se directamente a X, isto é, para o canal esquerdo e, em segundo lugar, a sua transformada de frequência adiciona-se a Y, ou seja, para o canal direito. Portanto, usando a regra de adaptação aproximada 'normal' ter-se-á que encontrar uma solução de compromisso entre a ausência de modelação do ruido e a completa modelação do ruido. A penalização para o ruido de erro de arredondamento n5 consiste de duas adendas: 34

ΡΕ2215631 penalização para Y penalização para X (52, 53) v k* ίχ*\I6t O# ^14, VLx4\ 2líi 21 íLt * +2- m® < ./

Diferenciação para o γ-ésimo coeficiente resulta: (54) :® ^ ι I * “r **ϊ=s

Definindo estes termos como zero conduz a Ψ Μ,Λ

1 s: 1; í=S SSS& {?' — , M"ã. y v: 1 Y * Jtíy, / ^ r ÁS <3± iL í:s;S λ> IS® % que inspira uma regra de adaptação modificada: /%CaH%(o: ^(2) $ W1) ¢1}

SL (56) % *

Comparado com secção C.l, a única diferença é que a diagonal principal é modificada pela adição de Rx(0). Este tipo de processamento assemelha-se ao processamento de correcção de ruido branco que é por vezes aplicado na 35 ΡΕ2215631 adaptação de filtros de predicção linear, por exemplo em J.D. Markel, AH Gray, "Linear Prediction of Speech" ("Predicção Linear de Discurso", Springer-Verlag, Berlin, Heidelberg, New York, 1976. E) Aplicação da invenção em codificação/descodificação

Para facilitar a compreensão, são descritos alguns detalhes da tecnologia anterior tendo em conta a invenção. 0 principio básico conhecido de com perdas baseado em codificação sem perdas é representado na Fig. 4. Na parte de codificação do lado esquerdo da Fig. 4, um sinal SPCM de entrada de áudio PCM passa através de um codificador com perdas 81 para um descodificador com perdas 82 e como um fluxo de bits com perdas para um descodificador com perdas 85 da parte de descodificação (lado direito) .

Codificação e descodificação com perdas são utilizadas para descorrelacionar o sinal. 0 sinal de saida do descodificador 82 é removido do sinal de entrada SPCM dentro de um subtractor 83, e o sinal de diferença resultante passa através de um codificador sem perdas 84 como um fluxo de bits de extensão para um descodif icador sem perdas 87. Os sinais de saida dos descodificadores 85 e 87 são combinados 86, de modo a recuperar o sinal SPCM original. 36 ΡΕ2215631

Este princípio básico é divulgado para a codificação de áudio em EP-B-0756386 e US-B-6498811, e também é discutido em P. Craven, M. Gerzon, "Lossless Coding for Audio Discs" ("Codificação Sem Perdas de discos de Áudio"), J. Áudio Eng. Soc., Vol.44, No.9, Setembro de 1996, e em J. Koller, Th. Sporer, K.H. Brandenburg, "Robust Coding of High Quality Audio Signals" ("Codificação Robusta de Sinais de Alta Qualidade de Áudio") , AES 103rd Convention, Preprint 4621, Agosto de 1997.

No codificador com perdas o sinal SPCM de entrada de áudio PCM passa através de um banco de filtro de análise e uma quantização para as amostras de sub-bandas para um processamento de codificação. A quantização é controlada por um modelo perceptivo que recebe o sinal SPCM e pode receber informação correspondente a partir do banco de filtro de análise. No lado de descodif icador, o fluxo de bits codificado com perdas é descodificado e as amostras de sub-bandas resultantes passam através de um banco de filtro de síntese que faz sair o sinal PCM descodificado com perdas. Exemplos para codificação e descodificação com perdas são descritos em detalhe na norma ISO/IEC 11172-3 (MPEG-1 Audio).

Na decomposição conhecida da MDCT de Inteiro na Fig. 5, os sinais de entrada x(k) e y(k) passam cada um através de uma TDAC com modelação do ruído fixo NS e uma DCTIV com modelação do ruído fixo NS, fornecendo os sinais de saída X(i) e Y(i) . Como um exemplo é dada uma versão 37 ΡΕ2215631 estéreo, como no artigo acima mencionado de R. Geiger et al., Proc. de ICASSP, Maio de 2004. A TDAC é realizada por canal em três etapas de T*1 a T*3. A DCTIV é realizada utilizando os estágios descritos em que de D*1 para D*3 são etapas de elevação (cf. Fig. 2), e P é uma permutação e inversão de sinal para um canal (sem operação de arredondamento).

As etapas de elevação são marcados por e exigem operações de arredondamento.

Na tecnologia anterior, a modelação do ruído fixo é implementada de preferência em T*l, T*2, T*3 e D*1 e, opcionalmente D*2.

De acordo com a invenção, a modelação do ruído adaptativo é implementado em um ou mais dos estágios T*l, T*2, T*3 e D*l, e opcionalmente na etapa/estágio D*2. A Fig. 6 mostra uma única etapa de elevação multi-dimensional conhecida sem a modelação do ruido para um vector de sinal de entrada x(0), ..., X(N), obtendo-se um vector de sinal de saida x(N+l), ..., x(2N).

Com base na Fig. 6, a Fig. 7 mostra uma conhecida modelação do ruido numa única etapa de elevação multi-dimensional. Isto aplica-se a T*l, T*2, T*3, D*1 e, opcionalmente D*2 no algoritmo de IntMDCT da Fig. 5. 38 ΡΕ2215631

Com base Ona Fig. 5, a Fig. 8 mostra uma variante independente da invenção de modelação do ruido adaptativo de IntMDCT. A partir do sinal de entrada x(k), os parâmetros de adaptação de filtro ou coeficientes são calculados numa etapa de adaptação de filtro ou estágio 121. Os parâmetros de filtro calculados ou coeficientes de h(k) são fornecidos para a etapa de MDCT de inteiro ou estágio 123, o qual inclui uma TDAC com filtragem de modelação do ruido adaptativo e uma DCTIV com filtragem de modelação do ruido adaptativo. A etapa de adaptação de filtro ou estágio 121 também pode fornecer informação no correspondente lado 122 para o descodificador.

Com baseO na Fig. 8, a Fig. 9 mostra uma variante independente da invenção de modelação do ruido adaptativo de IntMDCT inversa. O sinal de entrada do descodificador X(i) passa através de uma etapa de MDCT de inteiro inversa ou estágio 133, o qual inclui uma TDAC inversa com modelação do ruído adaptativo e uma DCTIV inversa com modelação do ruído adaptativo. A partir do seu sinal de saída x(k), os parâmetros de adaptação de filtro ou coeficientes são calculados numa etapa de adaptação de filtro ou estágio 131. Os parâmetros de filtro calculados ou coeficientes h(k) são fornecidos para a etapa/estágio 133. A etapa dOe adaptação de filtro ou estágio 131 pode também receber informação no correspondente lado 122 a partir do codificador. Em tal caso, o sinal de saida x(k) 39 ΡΕ2215631 do descodificador pode não ser exigida para a etapa/estágio 131. 0 processamento de acordo com a Fig. 8 e Fig. 9 é aplicável a codecs sem perdas independentes, como por exemplo MPEG-4 SLS não centrais. A Fig. 10 mostra o diagrama de blocos de um codificador de transformação escalonável para sem perdas da invenção utilizando um IntMDCT com modelação do ruido adaptativo, em que 'escalonável para sem perdas' significa que o fluxo de bits compreende pelo menos duas camadas hierárquicas: uma correspondente ao codec central com perdas (por exemplo, AAC ou mp3) e um que - em combinação com a primeira camada - representa as amostras originais de PCM. Por um lado, o sinal de entrada x(k) passa através de um codificador de transformada 144 (por exemplo, um codificador AAC), uma etapa de mapeamento opcional ou estágio 146 e um arredondamento ou etapa de quantização ou estágio 147 para um dispositivo de subtração 140. Estas etapas/estágios estão incluidas no codificador com perdas 81 na Fig. 4. O codificador de transformada 144 fornece o sinal codificado 148 para o fluxo de bits do codificador com perdas.

Por outro lado, o sinal de entrada x(k) passa através de um MDCT de inteiro 143 para a outra entrada do dispositivo de subtração 140. Para a MDCT de inteiro 143 é utilizada a modelação do ruído adaptativo da invenção, ou 40 ΡΕ2215631 seja, a MDCT de inteiro 143 inclui uma TDAC com filtragem com modelação do ruido adaptativo e uma DCTIV com filtragem com modelação do ruido adaptativo. Usando a informação correspondente (por exemplo coeficientes de transformação quantizados, parâmetros dos quantizadores e possivelmente coeficientes de transformada originais) a partir do codificador 144, numa etapa de estimação residual ou estágio 145 é estimado um sinal residual (no domínio de tempo ou de frequência) que é utilizado para controlar etapa de adaptação de filtro ou estágio 141 como acima descrito. Os parâmetros de filtro calculados ou coeficientes de h(k) são fornecidos para a etapa/estágio 143.

No dispositivo de subtração 140, o sinal de saída da etapa/estágio 147 é subtraído do sinal de saída da MDCT de inteiro 143, proporcionando assim um sinal residual R(i). O Sinal R(i) é codificado como exigido, cf. codificador sem perdas 84 na Fig. 4.

De modo diferente a Fig. 8, a etapa de adaptação de filtro ou estágio 141 não necessita de fornecer informação no lado correspondente para o descodificador porque a adaptação pode ser realizada no lado do descodificador. A Fig. 11 mostra o diagrama de blocos de um descodificador de transformação escalonável para sem perdas da invenção utilizando uma IntMDCT com modelação do ruído 41 ΡΕ2215631 adaptativo inversa. 0 sinal de entrada do descodificador 158 a partir do fluxo de bits do codificador de transformação passa através de um descodificador de transformação 154 (por exemplo, um descodificador AAC ou mp3) , uma etapa de mapeamento opcional ou estágio 156 e uma etapa de arredondamento ou de quantização ou estágio 157 para um combinador 150. O combinador 150 combina o sinal de saida etapa/estágio 157 com o sinal de entrada residual descodificado R(i) a partir do fluxo de bits de extensão. O sinal combinado X(i) passa através de uma MDCT de inteiro inversa 153 que gera o sinal de saida do descodificador sem perdas x(k), o qual corresponde ao SPCM na Fig. 4. Para a MDCT de inteiro inversa 153 é utilizada a modelação do ruido adaptativo da invenção, ou seja, a MDCT de inteiro 143 inclui uma TDAC com filtragem com modelação do ruido adaptativo e uma DCTIV com filtragem com modelação do ruido adaptativo. Usando a informação correspondente (por exemplo coeficientes de transformação quantizados, parâmetros dos quantizadores, e possivelmente coeficientes de transformada originais) a partir do descodificador 154, numa etapa de estimação residual ou estágio 155 é estimado um sinal residual (no dominio de tempo ou de frequência) que é utilizado para controlar a adaptação de filtro na etapa ou estágio 151 como acima descrito. Os parâmetros de filtro calculados ou coeficientes de h(k) são fornecidos para a etapa/estágio 153. De modo diferente da Fig. 9, a etapa de adaptação de filtro ou estágio 151 não necessita de receber 42 ΡΕ2215631 informação no lado correspondente para o descodificador porque a adaptação pode ser realizada no lado do descodificador. 0 processamento de acordo com a Fig. 10 e Fig. 11 é aplicável para por exemplo MPEG-4 SLS. A Fig. 12 mostra o diagrama de blocos de uma variante independente da invenção de pré-filtro adaptativo de IntMDCT. Por um lado, o sinal de entrada x(k) é alimentado para uma etapa de adaptação de filtro ou estágio 161. O sinal de saida desta etapa/estágio fornece os parâmetros de filtro ou coeficientes de h(k) para a caracteristica de filtro etapa/estágio 168. Por outro lado, o sinal de entrada x(k) passa através de um combinador 160 para a MDCT de inteiro etapa ou estágio 163 (em que nenhuma modelação do ruido é levada a cabo), que fornece o sinal de saida X' (i) a ser codificado para transmissão no fluxo de bits. O sinal de saida do combinador 160 passa através da etapa de caracteristica de filtro ou estágio 168 e quantizador 169 para a outra entrada do combinador 160. Tal como na Fig. 8, a etapa de adaptação de filtro ou estágio 161 pode também fornecer informação no lado correspondente 162 para o descodificador. A Fig. 13 mostra o diagrama de blocos de uma variante independente da invenção de pré-filtro adaptativo seguindo a IntMDCT inversa. O sinal de entrada X(i) do descodificador descodificado a partir do fluxo de bits 43 ΡΕ2215631 passa através de uma etapa de MDCT de inteiro inversa ou estágio 173, na qual nenhuma modelação do ruido é levada a cabo. 0 sinal de saida desta etapa/estágio vai alimentar um combinador 170, que fornece o sinal de saida x(k). O sinal de saida x(k) vai alimentar uma etapa de adaptação de filtro ou estágio 171, que fornece os parâmetros de filtro ou coeficientes h(k) para uma caracteristica de filtro etapa/estágio 178. O sinal de saida da MDCT de inteiro inversa etapa ou estágio 173 passa através da etapa de caracteristica de filtro ou fase 178 e quantizador 179 para a outra entrada do combinador 170. A adaptação de filtro etapa ou fase 171 pode também receber informação no lado correspondente 162 a partir do codificador. Em tal caso, o descodificador do sinal de saida x(k) pode não ser exigido para a etapa/estágio 171. O processamento de acordo com a Fig. 12 e Fig. 13 é aplicável aos codecs sem perdas independentes, como por exemplo MPEG-4 SLS não centrais.

Vantajosamente, o processamento da modelação do ruido optimizado adaptativo produz sempre melhor desempenho do que nenhuma modelação do ruido ou o processamento de modelação do ruido passa-baixo simples implementado nos acima mencionados MPEG-4 SLS. De acordo com a invenção, é implementada uma modelação do ruido adaptativo de ordem baixa. Vantajosamente, então a adaptação dos coeficientes 44 ΡΕ2215631 de filtro é simples e directa e o aumento da complexidade de cálculo é muito moderado. A invenção ajuda a gerir e limitar o débito de dados pela modelação do espectro de ruido de erro de arredondamento. A invenção é aplicável para a codificação sem perdas, tanto quanto a decomposição em etapas de elevação consecutivas esteja envolvida.

Uma faixa de áudio digital ou sinal de video que seja codificado de acordo com a invenção pode ser armazenado ou gravada num meio de armazenamento, por exemplo um disco óptico, uma memória de estado sólido ou um disco rigido.

Lisboa, 18 de Junho de 2012

Claims

ΡΕ2215631 1 REIVINDICAÇÕES 1. Método para melhorar a eficiência de codificação para um sinal de áudio ou de video (x(k)), em que o referido sinal é processado usando uma transformada de inteiro-reversivel (DCTIV) para cada bloco da amostra do referido sinal de (x(k)), em que a transformada do inteiro é realizada utilizando etapas de elevação que constituem sub-etapas da transformada do referido inteiro de (DCTIV) e em que as etapas de elevação incluem operações de arredondamento, e em que a modelação do ruido é realizada para os erros de arredondamento resultantes a partir das referidas etapas de elevação, caracterizado pela etapa de: - transformar inteiro (123, 143, 163) nos referidos blocos da amostra usando as etapas de elevação e de modelação do ruído adaptativo para pelo menos alguma das referidas etapas de elevação, a transformada referida proporcionando blocos correspondentes de coeficientes de transformada e a referida modelação do ruído sendo realizada tal que é diminuído o ruído de arredondamento a partir de coeficientes de transformada de magnitude de nível baixo num corrente de entre os referidos blocos transformados, enquanto que é aumentado o ruído de arredondamento a partir de coeficientes de transformada de magnitude de nível alto no referido bloco transformado corrente, e em que os coeficientes de filtro (h(k)) de um correspondente filtro de modelação do ruído (168 , 169, 160) são derivados (121, 141, 161) a partir da referida amostra do sinal áudio ou 2 ΡΕ2215631 vídeo numa base de trama-a-trama.
2. Aparelho para melhorar a eficiência de codificação para um sinal de áudio ou de vídeo (x(k)), em que o referido sinal é processado usando uma transformada de inteiro-reversível (DCTIV) para cada bloco da amostra do referido sinal de (x(k)), em que a transformada do inteiro é realizada utilizando etapas de elevação que constituem sub-etapas da transformada do referido inteiro de (DCTIV) e em que as etapas de elevação incluem operações de arredondamento, e em que a modelação do ruído é realizada para os erros de arredondamento resultantes a partir das referidas etapas de elevação, o referido aparelho incluindo: - Meios (123, 143, 163) a serem adaptados para transformar o inteiro nos referidos blocos da amostra usando as etapas de elevação e de modelação do ruído adaptativo para pelo menos alguma das referidas etapas de elevação, a referida transformada proporcionando blocos correspondentes de coeficientes de transformada e a referida modelação do ruído sendo realizada tal que é diminuído o ruído de arredondamento de coeficientes de transformada de magnitude de nível baixo num corrente de entre os referidos blocos transformados, enquanto que é aumentado o ruído de arredondamento de coeficientes de transformada de magnitude de nível alto no referido bloco transformado corrente; um correspondente filtro de modelação do ruído, os coeficientes de filtro (h(k)) do qual são derivados a partir da referida amostra do sinal de áudio ou de vídeo 3 ΡΕ2215631 numa base de trama-a-trama.
3. Método para melhorar a eficiência da codificação/descodificação para um sinal de áudio ou de video (x(k)), em que no lado de codificador o referido sinal foi processado usando uma transformada de um inteiro-reversível (DCTIV) para cada bloco de amostra do referido sinal de (x(k)), em que a transformada do inteiro é realizada utilizando etapas de elevação que constituem sub-etapas da transformada do referido inteiro de (DCTIV) e em que as etapas de elevação incluem operações de arredondamento e em que a modelação do ruido foi realizada para os erros de arredondamento resultantes a partir das referidas etapas de elevação, e em que os referidos blocos da amostra eram o inteiro transformado (123, 143, 163) usando as etapas de elevação e de modelação do ruido adaptativo para pelo menos alguma das referidas etapas de elevação, a referida transformada proporcionando blocos correspondentes de coeficientes de transformada e a referida modelação do ruido sendo realizada tal que é diminuído o ruido de arredondamento de coeficientes de transformada de magnitude de nivel baixo num corrente de entre os referidos blocos transformados, enquanto que é aumentado o ruido de arredondamento de coeficientes de transformada de magnitude de nivel alto no referido bloco transformado corrente, e em que os coeficientes de filtro (h(k)) de um correspondente filtro de modelação do ruido (168 , 169, 160) foram derivados (121, 141, 161) a partir da referida amostra do sinal de áudio ou de video numa base 4 ΡΕ2215631 de trama-a-trama, a descodificação do referido sinal de áudio ou de video codificado, incluindo a etapa: - transformação inversa do inteiro (153, 173) dos referidos blocos de amostra usando as etapas de elevação e modelação do ruido adaptativo para pelo menos alguma das referidas etapas de elevação, a referida transformada inversa a operar em blocos de coeficientes de transformada e fornecendo os correspondentes blocos de valores da amostra de saida e a referida modelação do ruido sendo realizada tal que é diminuído o ruido de arredondamento de coeficientes de transformada de magnitude de nivel baixo num corrente de entre os referidos blocos transformados, enquanto que é aumentado o ruido de arredondamento de coeficientes de transformada de magnitude de nivel alto no referido bloco transformado inverso corrente, e em que os coeficientes de filtro (h(k)) de um correspondente filtro de modelação do ruido (178, 179, 170) são derivados (151, 171) a partir da amostra de sinal áudio ou de video inversamente transformado numa base de trama-a-trama.
4. Aparelho para melhorar a eficiência da codificação/descodificação para um sinal de áudio ou de video (x (k) ) , em que no lado de codificador o referido sinal foi processado usando uma transformada de um inteiro-reversível (DCTIV) para cada bloco de amostra do referido sinal de (x(k)), em que a transformada do inteiro é realizada utilizando etapas de elevação que constituem sub-etapas da transformada do referido número inteiro de (DCTIV) e em que as etapas de elevação incluem operações de 5 ΡΕ2215631 arredondamento e em que foi realizada a modelação do ruido para os erros de arredondamento resultantes a partir das referidas etapas de elevação, e em que os referidos blocos de amostra eram o inteiro transformado (123, 143, 163) usando as etapas de elevação e de modelação do ruido adaptativo para pelo menos alguma das referidas etapas de elevação, a referida transformada proporcionando blocos correspondentes de coeficientes de transformada e a referida modelação do ruido sendo realizada tal que é diminuído o ruido de arredondamento de coeficientes de transformada de magnitude de nivel baixo num corrente de entre os referidos blocos transformados, enquanto que é aumentado o ruido de arredondamento de coeficientes de transformada de magnitude de nivel alto no referido bloco transformado corrente, e em que os coeficientes de filtro (h(k)) de um correspondente filtro de modelação do ruido (168 , 169, 160) foram derivados (121, 141, 161) a partir da referida amostra do sinal de áudio ou de video numa base de trama-a-trama, sendo o aparelho adequado para a descodificação do referido sinal codificado de áudio ou de video, incluindo: - Meios (153, 173) estando adaptados para transformação inversa do inteiro dos referidos blocos de amostra usando as etapas de elevação e modelação do ruido adaptativo para pelo menos alguma das referidas etapas de elevação, a referida transformada inversa a operar em blocos de coeficientes de transformada e fornecendo os correspondentes blocos de valores da amostra de saida e a referida modelação do ruido sendo realizada tal que é 6 ΡΕ2215631 diminuído o ruído de arredondamento de coeficientes de transformada de magnitude de nível baixo num corrente de entre os referidos blocos transformados, enquanto que é aumentado o ruído de arredondamento de coeficientes de transformada de magnitude de nível alto no referido bloco transformado inverso corrente; um correspondente filtro de modelação do ruído, os coeficientes de filtro (h(k)) do qual são derivados a partir da amostra de sinal áudio ou de vídeo inversamente transformado numa base de trama-a-trama.
5. Método de acordo com a reivindicação 1 ou 3, ou aparelho de acordo com a reivindicação 2 ou 4, em que os referidos coeficientes de filtro (h(k)) do referido filtro de modelação do ruído adaptativo são determinados pelo cálculo do espectro de potência inverso de uma trama de amostra de sinal, e em que os coeficientes do filtro são optimizados tal como para minimizar a distância espectral média entre o referido espectro de potência inverso e a resposta de frequência de um filtro de todos os pólos correspondente aos referidos coeficientes de filtro.
6. Método ou aparelho de acordo com a reivindicação 5, em que a referida optimização dos referidos coeficientes de filtro (h(k)) é realizada por meio de uma análise de predicção linear com base no referido espectro de potência inverso da referida trama de amostra de sinal. 7 ΡΕ2215631
7. Método ou aparelho de acordo com a reivindicação 5 ou 6, em que o referido espectro de potência inverso é transformado em coeficientes de pseudo auto-correlação antes que a referida optimização dos referidos coeficientes de filtro (h(k)) seja executada.
8. Método ou aparelho de acordo com uma das reivindicações 5 a 7, em que os referidos coeficientes optimizados de filtro (h(k)) são ainda refinados por um procedimento de optimização iterativo de gradiente descendente.
9. Método de acordo com uma das reivindicações 1 e 5 a 8, ou aparelho de acordo com uma das reivindicações 2 e 5 a 8, em que os referidos coeficientes de filtro (h(k)) do referido filtro de modelação do ruido (168, 169, 160) são derivados (121, 141, 161) numa base de trama-a-trama a partir de um sinal de erro ou de residuo disponível no processamento de codificação do referido sinal de áudio ou de video, por exemplo numa secção de banco de filtro da codificação de sinal de áudio ou de video.
10. Método de acordo com uma das reivindicações 3 e 5 a 8, ou aparelho de acordo com uma das reivindicações 4 e 5 a 8, em que os referidos coeficientes de filtro (h(k)) do referido filtro de modelação do ruido (168, 169, 160) são derivados (121, 141, 161) numa base de trama-a-trama a partir de um sinal de erro ou de residuo disponível no processamento de descodificação do referido sinal de áudio 8 ΡΕ2215631 ou de video, por exemplo numa secção do banco de filtro da descodificação de sinal de áudio ou de video.
11. Método de acordo com uma das reivindicações 1 e 5 a 9, ou aparelho de acordo com uma das reivindicações 2 e 5 a 9, em que o referido filtro de modelação do ruido (160, 168, 169) é um pré-filtro recursivo ou de todos os pólos, que não está disposto dentro da referida transformada de inteiro, mas está disposto a montante da referida transformação do inteiro (163).
12. Método de acordo com uma das reivindicações 1 e 5 a 9, ou aparelho de acordo com uma das reivindicações 2 e 5 a 9, em que, para além disso um pré-filtro de modelação do ruido (160, 168, 169) está disposto a montante da referida transformação de inteiro (143).
13. Método de acordo com uma das reivindicações 3, 5 a 8 e 10, ou aparelho de acordo com uma das reivindicações 4, 5 a 8 e 10, em que o referido filtro de modelação do ruido (170, 178, 179) é um pós-filtro que não está disposto no interior da referida transformada inversa de inteiro, mas está disposto a jusante da referida transformação inversa de inteiro (173).
14. Método de acordo com uma das reivindicações 3, 5 a 8 e 10, ou aparelho de acordo com uma das reivindicações 4, 5 a 8 e 10, em que para além disso um pós-filtro de modelação do ruido (170, 178, 179) está 9 ΡΕ2215631 disposto a jusante da referida transformação inversa inteiro (153) . Lisboa, 18 de Junho de 2012