PT2681734T - Correção de ganho de pós quantificação em codificação de áudio - Google Patents

Correção de ganho de pós quantificação em codificação de áudio Download PDF

Info

Publication number
PT2681734T
PT2681734T PT118604206T PT11860420T PT2681734T PT 2681734 T PT2681734 T PT 2681734T PT 118604206 T PT118604206 T PT 118604206T PT 11860420 T PT11860420 T PT 11860420T PT 2681734 T PT2681734 T PT 2681734T
Authority
PT
Portugal
Prior art keywords
gain
shape
precision
correction
gain correction
Prior art date
Application number
PT118604206T
Other languages
English (en)
Inventor
Norvell Erik
Grancharov Volodya
Original Assignee
ERICSSON TELEFON AB L M (publ)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ERICSSON TELEFON AB L M (publ) filed Critical ERICSSON TELEFON AB L M (publ)
Publication of PT2681734T publication Critical patent/PT2681734T/pt

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/083Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain

Description

DESCRIÇÃO "Correção de ganho de pós quantificação em codificação de áudio"
CAMPO TÉCNICO A presente tecnologia refere-se a correção de ganho em codificação de áudio com base em esquemas de quantificação onde a quantificação é dividida numa representação de ganho e numa representação de forma, assim designada codificação de áudio ganho-forma, e, em especial, a correção de ganho de pós quantificação.
ANTECEDENTES É expetável que os serviços de telecomunicações modernos lidem com muitos tipos diferentes de sinais de áudio. Apesar do conteúdo de áudio principal ser sinais de voz, existe um desejo de lidar com sinais mais gerais tais como música e misturas de música e voz. Apesar da capacidade em redes de telecomunicação estar continuamente a aumentar, é ainda de grande interesse limitar a largura de banda necessária por canal de comunicação. Em redes móveis, larguras de banda de transmissão menores para cada chamada originam menor consumo de energia tanto no dispositivo móvel como na estação base. Isto traduz-se em economia de energia e custo para o operador móvel, enquanto o utilizador final experiencia vida de bateria prolongada e maior tempo para falar. Além disso, com menor consumo de largura de banda por utilizador a rede móvel pode servir um número maior de utilizadores em paralelo.
Atualmente, a tecnologia de compressão dominante para serviços móveis de voz é CELP (Predição linear com excitação por código), que consegue boa qualidade áudio para voz em larguras de banda baixas. É amplamente utilizada em instalações de codificadores/descodificadores tais como AMR (Multivelocidade adaptativa), AMR-WB (Largura de banda de multivelocidade adaptativa) e GSM-EFR (Sistema global para comunicações móveis - Velocidade máxima melhorada). No entanto, para sinais áudio gerais, tais como música, a tecnologia CELP tem desempenho fraco. Estes sinais podem, muitas vezes, ser melhor representados pela utilização de transformada de frequência com base em codificação, por exemplo os ITU-T codificadores/descodificadores G.722.1 [1] e G.719 [2]. No entanto, os codificadores/descodificadores de domínio de transformada, em geral, operam numa velocidade de bit maior do que os codificadores/descodificadores de voz. Existe um intervalo entre os domínios de voz e áudio geral em termos de codificação e é desejável aumentar o desempenho de codificadores/descodificadores de domínio de transformada em velocidades de bit mais baixas.
Os codificadores/descodificadores de domínio de transformada necessitam de uma representação compacta dos coeficientes de transformada de domínio de frequência. Estas representações, muitas vezes, baseiam-se em quantificação vetorial (VQ), onde os coeficientes são codificados em grupos. Entre os vários métodos para quantificação vetorial está a VQ de ganho-forma. Esta abordagem aplica normalização aos vetores antes da codificação dos coeficientes individuais. 0 fator de normalização e os coeficientes normalizados são referidos como o ganho e a forma do vetor, que podem ser codificados de forma separada. A estrutura de ganho-forma tem muitos benefícios. Ao dividir o ganho e a forma o codificador/descodificador pode facilmente ser adaptado para variação de níveis de entrada de fonte por conceção do quantificador de ganho. É também benéfico de uma perspetiva percetual onde o ganho e a forma podem assumir importância diferente em diferentes regiões de frequência. Finalmente, a divisão de ganho-forma simplifica a conceção do quantificador e torna o mesmo menos complexo em termos de memória e recursos computacionais comparado com um quantificador vetorial sem restrições. Uma vista geral funcional de um quantificador de ganho-forma pode ser vista na Fig. 1.
Se aplicada a um espetro no domínio da frequência, a estrutura de ganho-forma pode ser utilizada para formar um envelope espetral e representação de estrutura fina. A sequência de valores de ganho forma o envelope do espetro enquanto os vetores de forma dão o detalhe espetral. De uma perspetiva de perceção é benéfica a partição do espetro com utilização de uma estrutura de banda não uniforme que segue a resolução de frequência do sistema auditivo humano. Isto, em geral, significa que larguras de banda estreitas são utilizadas para frequências baixas enquanto larguras de banda maiores são utilizadas para frequências altas. A importância de perceção da estrutura fina espetral varia com a frequência, mas é também função das características do próprio sinal. Codificadores/descodificadores de transformada muitas vezes empregam um modelo auditivo para determinar as partes importantes da estrutura fina e atribuir os recursos disponíveis às partes mais importantes. 0 envelope espetral é muitas vezes utilizado como entrada para este modelo auditivo. 0 codificador de forma quantifica os vetores de forma com utilização dos bits atribuídos. Ver a Fig. 2 para um exemplo de uma transformada baseada em sistema de codificação com um modelo auditivo.
Em função da precisão do quantificador de forma, o valor de ganho utilizado para reconstruir o vetor pode ser mais ou menos adequado. Em especial quando os bits atribuídos são poucos, o valor de ganho afasta-se do valor ótimo. Uma forma de resolver isto é codificar um fator de correção que considere a discrepância de ganho depois da quantificação de forma. Outra solução é codificar a forma primeiro e então calcular o fator de ganho ótimo dada a forma quantificada. A solução para codificar um fator de correção de ganho depois da quantificação de forma pode consumir velocidade de bit considerável. Se a velocidade já for baixa, isto significa que mais bits têm de ser considerados noutro lado e pode talvez reduzir a velocidade de bit disponível para a estrutura fina.
Codificar a forma antes de codificar o ganho é uma solução melhor, mas se a velocidade de bit para o quant if icador de forma for decidida a partir do valor de ganho quantificado, então a quantificação de ganho e forma dependem uma da outra. Uma solução iterativa poderia provavelmente resolver esta co-dependência mas poderia facilmente tornar-se demasiado complexa para ser executada em tempo real num dispositivo móvel. US 2011/0002266 AI (Yang Gao) descreve um pós-processamento no domínio da frequência com base em máscara de perceção, onde um fator de ganho de modificação adaptativo é aplicado a cada coeficiente de frequência a fim de melhorar a qualidade percebida dos coeficientes espetrais descodificados.
SUMÁRIO
Um objeto é obter um ajuste de ganho em descodificação de áudio que foi codificado com representações de ganho e forma separadas.
Este objeto é conseguido de acordo com as reivindicações em anexo.
Um primeiro aspeto envolve um método de ajuste de ganho que inclui os seguintes passos: - É estimada uma medida de precisão da representação de forma. - É determinada uma correção de ganho com base na medida de precisão estimada. - A representação de ganho é ajustada com base na correção de ganho determinada.
Um segundo aspeto envolve um aparelho de ajuste de ganho que inclui: - Um dispositivo de medição de precisão configurado para estimar uma medida de precisão da representação de forma e para determinar uma correção de ganho com base na medida de precisão estimada. - Um ajustador de envelope configurado para ajustar a representação de ganho com base na correção de ganho determinada.
Um terceiro aspeto envolve um descodificador que inclui um aparelho de ajuste de ganho de acordo com o segundo aspeto.
Um quarto aspeto envolve um nó de rede que inclui um descodificador de acordo com o terceiro aspeto. 0 esquema proposto para correção de ganho melhora a qualidade percebida de um sistema de codificação de áudio ganho-forma. 0 esquema tem baixa complexidade computacional e necessita de poucos bits adicionais, se algum.
BREVE DESCRIÇÃO DOS DESENHOS A presente tecnologia, em conjunto com mais objetos e vantagens da mesma, pode ser melhor compreendida ao fazer referência à descrição seguinte considerada em conjunto com os desenhos em anexo, em que: a Fig. 1 ilustra um esquema exemplificativo de quantificação vetorial de ganho-forma; a Fig. 2 ilustra um esquema exemplificativo de descodificação e codificação de domínio de transformada; a Fig. 3A a C ilustra uma quantificação vetorial de ganho-forma num caso simplificado; a Fig. 4 ilustra um exemplo de descodificador de domínio de transformada que utiliza uma medida de precisão para determinar uma correção de envelope; a Fig. 5A a B ilustra um exemplo de resultado de escalamento da síntese com fatores de ganho quando o vetor de forma é um vetor de impulso esparso; a Fig. 6A a B ilustra como a maior altura de impulso pode indicar a precisão do vetor de forma; a Fig. 7 ilustra um exemplo de uma velocidade com base na função de atenuação para a concretização 1; a Fig. 8 ilustra um exemplo de uma altura de impulso máxima e velocidade dependente da função de ajuste de ganho para a concretização 1; a Fig. 9 ilustra outro exemplo de uma altura de impulso máxima e velocidade dependente da função de ajuste de ganho para a concretização 1; a Fig. 10 ilustra uma concretização da presente tecnologia no contexto de um sistema de codificador e descodificador de áudio baseado em MDCT; a Fig. 11 ilustra um exemplo de uma função de mapeamento da medida de estabilidade para o fator de limitação de ajuste de ganho; a Fig. 12 ilustra um exemplo de um sistema de codificador e descodificador de ADPCM com uma dimensão de passo adaptativa; a Fig. 13 ilustra um exemplo no contexto de um sistema codificador e descodificador de áudio baseado em ADPCM de sub-banda; a Fig. 14 ilustra um exemplo da presente tecnologia no contexto de um sistema codificador e descodificador de áudio baseado em ADPCM de sub-banda; a Fig. 15 ilustra um exemplo de codificador de domínio de transformada que inclui um classificador de sinal; a Fig. 16 ilustra outro exemplo de descodificador de domínio de transformada que utiliza uma medida de precisão para determinar uma correção de envelope; a Fig. 17 ilustra uma concretização de um aparelho de ajuste de ganho de acordo com a presente tecnologia; a Fig. 18 ilustra uma concretização de ajuste de ganho de acordo com a presente tecnologia em maior detalhe; a Fig. 19 é um fluxograma que ilustra o método de acordo com a presente tecnologia; a Fig. 20 é um fluxograma que ilustra uma concretização do método de acordo com a presente tecnologia; e a Fig. 21 ilustra uma concretização de uma rede de acordo com a presente tecnologia.
DESCRIÇÃO DETALHADA
Na descrição seguinte as mesmas designações de referência são utilizadas para elementos que desempenham a mesma ou função similar.
Antes da presente tecnologia ser descrita em detalhe, é ilustrada codificação ganho-forma com referência às Fig. 1 a 3. A Fig. 1 ilustra um esquema exemplificativo de quantificação vetorial de ganho-forma. A parte superior da figura ilustra o lado do codificador. Um vetor x de entrada é enviado para um calculador 10 de norma, que determina a norma de vetor (ganho) g, tipicamente a norma Euclidiana. Esta norma exata é quantificada num quantificador 12 de norma e o inverso 1/g da norma g quantificada é enviado para um multiplicador 14 para escalar o vetor x de entrada numa forma. A forma é quantificada num quantificador 16 de forma. Representações do ganho quantificado e forma são enviadas para um multiplexador (mux) 18 de sequência de bit. Estas representações são ilustradas por linhas a tracejado para indicar que as mesmas podem, por exemplo, constituir indices em tabelas (livros de código) em vez dos valores reais quantificados. A parte inferior da Fig. 1 ilustra o lado do descodificador. Um desmultiplexador (demux) 20 de sequência de bit recebe as representações de ganho e forma. A representação de forma é enviada para um desquant if icador 22 de forma e a representação de ganho é enviada para um desquantificador 24 de ganho. O ganho g obtido é enviado para um multiplicador 26, onde o mesmo escala a forma obtida, que dá o vetor x reconstruído. A Fig. 2 ilustra um esquema exemplificativo de codificação e descodificação de domínio de transformada. A parte superior da figura ilustra o lado do codificador. Um sinal de entrada é enviado para um transformador 30 de frequência, por exemplo com base na Transformada de cosseno discreta modificada (MDCT), para produzir a transformada X de frequência. A transformada X de frequência é enviada para um calculador 32 de envelope, que determina a energia E (b) de cada banda b de frequência.
Estas energias são quantificadas em energias Ê (b) num quantificador 34 de envelope. As energias Ê (b) quantificadas são enviadas para um normalizador 36 de envelope, que escala os coeficientes de banda b de frequência da transformada X com o inverso da energia Ê(b) quantificada correspondente do envelope. As formas escaladas resultantes são enviadas para um quantificador 38 de estrutura fina. As energias Ê (b) quantificadas são também enviadas para um atribuidor 40 de bit, que atribui bits para quantificação de estrutura fina para cada banda b de frequência. Como salientado acima, a atribuição R(b) de bit pode ser baseada num modelo do sistema auditivo humano. Representações dos ganhos Ê (b) quantificados e que correspondem a formas quantificadas são enviadas para o multiplexador 18 de sequência de bit. A parte inferior da Fig. 2 ilustra o lado do descodificador. O desmultiplexador 20 de sequência de bit recebe as representações de ganho e forma. As representações de ganho são enviadas para um desquantificador 42 de envelope. As energias Ê(b) de envelope geradas são enviadas para um atribuidor 44 de bit, que determina a atribuição R(b) de bit das formas recebidas. As representações de forma são enviadas para um desquantificador 46 de estrutura fina, que é controlado pela atribuição R(b) de bit. As formas descodificadas são enviadas para um conformador 48 de envelope, que escala as mesmas com as energias Ê (b) de envelope correspondentes para formar uma transformada de frequência reconstruída. Esta transformada é enviada para um transformador 50 de frequência inverso, por exemplo com base na Transformada de cosseno discreta modificada (IMDCT), que produz um sinal de saída que representa áudio sintetizado.
As Fig. 3A a C ilustram quantificação vetorial de ganho-forma descrita acima num caso simplificado onde a banda b de frequência é representada pelo vetor 2-dimensional X(b) na Fig. 3A. Este caso é suficientemente simples para ser ilustrado num desenho, mas também suficientemente genérico para ilustrar o problema com quantificação de ganho-forma (na prática os vetores tipicamente têm 8 ou mais dimensões). O lado direito da Fig. 3A ilustra uma representação de ganho-forma exata do vetor X(b) com um ganho E (b) e uma forma (vetor de comprimento unitário) N' (b) .
No entanto, como ilustrado na Fig. 3B, o ganho exato E (b) é codificado num ganho quantificado Ê (b) no lado do codificador. Uma vez que o inverso do ganho quantificado Ê (b) é utilizado para escalar o vetor X(b), o vetor escalado resultante N(b) aponta no sentido correto, mas não será necessariamente de comprimento unitário. Durante a quantificação de forma o vetor escalado N (b) é quantificado na forma quantificada N(b). Neste caso a quantificação é baseada num esquema [3] de codificação de impulso, que constrói a forma (ou sentido) de uma soma de impulsos inteiros com sinal. Os impulsos podem ser adicionados no topo de cada um para cada dimensão. Isto significa que as posições de quantificação de forma permitidas são representadas pelos pontos grandes nas grelhas retangulares ilustradas nas Fig. 3B a C. 0 resultado é que a forma quantificada JV(ò), em geral, não coincide com a forma (sentido) de N (b) (e N'(b)) . A Fig. 3C ilustra que a precisão da quantificação de forma depende dos bits R(b) atribuídos, ou, de forma equivalente, do número total de impulsos disponíveis para quantificação de forma. Na parte esquerda da Fig. 3C a quantificação de forma é baseada em 8 impulsos, visto que a quantificação de forma na parte direita utiliza apenas 3 impulsos (o exemplo na Fig. 3B utiliza 4 impulsos) .
Deste modo, é de salientar que em função da precisão do quantificador de forma, o valor de ganho Ê (b) utilizado para reconstruir o vetor X(b) no lado do descodificador pode ser mais ou menos adequado. De acordo com a presente tecnologia uma correção de ganho pode ser baseada na medida de precisão da forma quantificada. A medida de precisão utilizada para corrigir o ganho pode ser obtida de parâmetros já disponíveis no descodificador, mas a mesma também pode depender de parâmetros adicionais designados para a medida de precisão. Tipicamente, os parâmetros incluem o número de bits atribuídos para o vetor de forma e o próprio vetor de forma, mas podem também incluir o valor de ganho associado com o vetor de forma e estatísticas pré-armazenadas sobre os sinais que são típicos para o sistema de codificação e descodificação. Uma visão geral de um sistema que incorpora uma medida de precisão e correção de ganho ou ajuste é mostrada na Fig. 4. A Fig. 4 ilustra um exemplo de descodificador 300 de domínio de transformada que utiliza uma medida de precisão para determinar uma correção de envelope. A fim de evitar tornar confuso o desenho, apenas o lado do descodificador é ilustrado. O lado do codificador pode ser implementado como na Fig. 2. A nova característica é um aparelho 60 de ajuste de ganho. O aparelho 60 de ajuste de ganho inclui um dispositivo de medição 62 de precisão configurado para estimar uma medida A(b) de precisão da representação de forma N(b) e determinar uma correção de ganho gc(b) com base na medida de precisão estimada A(b). O mesmo também inclui um ajustador 64 de envelope configurado para ajustar a representação Ê(b) de ganho com base na correção de ganho determinada.
Como indicado acima, a correção de ganho pode em algumas concretizações ser executada sem despender bits adicionais. Isto é feito por estimação da correção de ganho a partir de parâmetros já disponíveis no descodificador. Este processo pode ser descrito como uma estimação da precisão da forma codificada. Tipicamente esta estimação inclui a obtenção da medida de precisão A(b) a partir de características de quantificação de forma que indicam a resolução da quantificação de forma.
Concretização 1
Numa concretização, a presente tecnologia é utilizada num sistema codificador/descodificador de áudio. O sistema é baseado em transformada e a transformada utilizada é a transformada de cosseno discreta modificada (MDCT) que utiliza janelas sinusoidais com 50% de sobreposição. No entanto, é entendido que pode ser utilizada qualquer transformada adequada para transformar codificação em conjunto com segmentação e janelas adequadas.
Codificador de concretização 1
A entrada de áudio é extraída em quadros que utilizam 50% de sobreposição e janelas com uma janela sinusoidal simétrica. Cada quadro de janelas é então transformado num espectro X MDCT. 0 espectro é particionado em sub-bandas para processamento, onde as larguras de sub-banda não são uniformes. Os coeficientes espectrais de quadro m que pertencem à banda b são designados X(b,m) e têm a largura de banda BW(b). Uma vez que os passos de codificador e descodificador podem ser descritos num quadro, omite-se o indice de quadro e utiliza-se apenas a notação X(b). As larguras de banda devem, de preferência, aumentar com o aumento de frequência para estarem conformes com a resolução de frequência do sistema auditivo humano. 0 valor de raiz quadrada médio (RMS) de cada banda é utilizado como um fator de normalização e é designado E(b):
(D onde X(b)T representa a transposta de X(b). 0 valor de RMS pode ser visto como o valor de energia por coeficiente. A sequência de fatores de normalização E (b) para b=l, 2, . . . , Λ/bandas forma o envelope do espetro MDCT, onde Nbandas representa o número de bandas. A seguir, a sequência é quantificada a fim de ser transmitida para o descodificador. Para garantir que a normalização pode ser revertida no descodificador, é obtido o envelope quantificado Ê(b). Nesta concretização exemplificativa os coeficientes de envelope são escalares quantificados no domínio logarítmico com utilização de uma dimensão de passo de 3 dB e os índices de quantificador são codificados de forma diferencial com utilização de código de Huffman. 0 envelope quantificado é utilizado para normalização das bandas de espectro, isto é:
(2) É de salientar que se o envelope E (b) não quantificado for utilizado para normalização, a forma teria RMS = 1, isto é: (3)
Ao utilizar o envelope quantificado Ê(b), o vetor de forma tem um valor de RMS próximo de 1. Esta caracterist ica é utilizada no descodificador para criar uma aproximação do valor de ganho. A união dos vetores N (b) de forma normalizados forma a estrutura fina do espetro de MDCT. 0 envelope quantificado é utilizado para produzir uma atribuição R(b) de bit para codificação dos vetores N (b) de forma normalizada. 0 algoritmo de atribuição de bit, de preferência, utiliza um modelo auditivo para distribuir os bits para as partes mais relevantes de forma percetual. Qualquer esquema de quantificação pode ser utilizado para codificar o vetor de forma. Comum a todos é que os mesmos podem ser concebidos sob a assunção de que a entrada é normalizada, o que simplifica a conceção do quantificador. Nesta concretização a quantificação de forma é feita com utilização de um esquema de codificação de impulso que constrói a forma síntese a partir de uma soma de impulsos [3] inteiros com sinal. Os impulsos podem ser adicionados no topo de cada um para formar impulsos de altura diferente. Nesta concretização a atribuição R(b) de bit representa o número de impulsos associado com a banda b.
Os índices de quantificador da quantificação de envelope e da quantificação de forma são multiplexados numa sequência de bit para serem armazenados ou transmitidos para um descodificador.
Descodificador de concretização 1 0 descodificador desmultiplica os índices da sequência de bit e envia os índices relevantes para cada módulo de descodificação. Primeiro, é obtido o envelope quantificado Ê(b). A seguir, a atribuição de bit de estrutura fina é obtida do envelope quantificado com utilização de uma atribuição de bit idêntica à utilizada no codificador. Os vetores JV(ò) de forma da estrutura fina são descodificados com utilização dos índices e da atribuição R(b) de bit obtida.
Agora, antes de escalar a estrutura fina descodificada com o envelope, são determinados fatores de correção de ganho adicional. Primeiro, a RMS que corresponde ao ganho é obtida (4) como : 0 fator gRMS{b) é um fator de escalamento que normaliza o valor de RMS para 1, isto é:
(5)
Nesta concretização procura-se minimizar o erro quadrado médio (MSE) da síntese:
(6)
com a solução (7)
Uma vez que 9mse(P) depende da forma de entrada N(b), o mesmo não é conhecido no descodificador. Nesta concretização o impacto é estimado pela utilização de uma medida de precisão. 0 rácio destes ganhos é definido como um fator de correção de ganho gc (b) : (8)
Quando a precisão da quantificação de forma é boa, o fator de correção está próximo de 1, isto é:
(9)
No entanto, quando a precisão de iV(ò) é baixa, Qmse(P) e 9rms(P) divergem. Nesta concretização, onde a forma é codificada com utilização de um esquema de codificação de impulso, uma velocidade baixa torna o vetor de forma esparso e gRMs(b) origina uma sobrestimação do ganho adequado em termos de MSE. Para este caso gc(b) é inferior a 1 para compensar a sobrelevação. Ver Fig. 5A a B para uma ilustração exemplificativa do caso de forma de impulso de baixa velocidade. As Fig. 5A a B ilustram um exemplo de escalamento da sintese com fatores de ganho gMsE (Fig. 5B) e gRMs (Fig. 5A) quando o vetor de forma é um vetor de impulso esparso. 0 escalamento gRMS origina impulsos que são demasiado elevados num sentido MSE.
Por outro lado, um sinal alvo esparso ou pontiagudo pode ser bem representado com uma forma de impulso. Enquanto que a caracteristica esparsa do sinal de entrada pode não ser conhecida no estágio de sintese, a caracteristica esparsa da forma de sintese pode servir como um indicador da precisão do vetor de forma sintetizado. Uma forma de medir a caracteristica esparsa da forma de sintese é a altura do pico máximo na forma. 0 racional por trás disto é que um sinal de entrada esparso tem maior probabilidade de gerar picos elevados na forma de sintese. Ver Fig. 7A a B para uma ilustração de como a altura de pico pode indicar a precisão de dois vetores de impulso de velocidade igual. Na Fig. 7A existem 5 impulsos disponíveis (R(b)=5) para representar a forma a tracejado. Uma vez que a forma é bastante constante, a codificação gerou 5 impulsos distribuídos de altura igual a 1, isto é, pmax= 1. Na Fig. 7B existem também 5 impulsos disponíveis para representar a forma a tracejado. No entanto, neste caso a forma é pontiaguda ou esparsa e o pico mais largo é representado por 3 impulsos no topo de cada um, isto é, pmax= 3. Isto indica que a correção de ganho gc(b) depende de uma caracteristica esparsa estimada pmax da forma quantificada.
Como salientado acima, a forma de entrada N(b) não é conhecida pelo descodif icador. Uma vez que gMSE(b) depende da forma de entrada N (b), isto significa que a correção de ganho ou compensação gc(b) pode, na prática, não ser baseada na equação ideal (8) . Nesta concretização a correção de ganho gc(b) é, em alternativa, decidida com base na velocidade de bit em termos do número de impulsos R(b), da altura do impulso mais largo no vetor de forma pmax (b) e da banda de frequência b, isto é: gc(b) = f(R(b),pmax(b),b) (10)
Foi observado que as velocidades inferiores, em geral, necessitam de uma atenuação do ganho para minimizar o MSE. A dependência de velocidade pode ser implementada como uma tabela de procura t(R(b)) que é treinada sobre dados de sinal áudio relevantes. Uma tabela de procura exemplificativa pode ser vista na Fig. 7. Uma vez que os vetores de forma nesta concretização têm larguras diferentes, a velocidade pode, de preferência, ser expressa como número de impulsos por amostra. Neste modo a mesma atenuação dependente da velocidade pode ser utilizada para todas as larguras de banda. Uma solução alternativa, que é utilizada nesta concretização, é utilizar uma dimensão de passo T na tabela em função da largura da banda. Aqui, utilizam-se 4 larguras de banda diferentes em 4 grupos diferentes e, deste modo, são necessárias 4 dimensões de passo. Um exemplo de dimensões de passo é encontrado na Tabela 1. Ao utilizar a dimensão de passo, o valor de procura é obtido pela utilização de uma operação de arredondamento t([R(b).T\) onde [J representa o arredondamento do inteiro mais próximo.
Tabela 1
Outro exemplo de tabela de procura é dado na Tabela 2.
Tabela 2
A caracteristica esparsa estimada pode ser implementada como outra tabela de procura it(i?(ò),pmíM.(ò)) com base tanto no número de impulsos R(b) como na altura do impulso máximo
Pmax(b). Uma tabela de procura exemplificativa é mostrada na Fig. 8. A tabela de procura u serve como uma medida de precisão A(b) para banda b, isto é:
(11)
Foi salientado que a aproximação de çmse foi mais adequada para o intervalo de frequência inferior a partir de uma perspetiva de perceção. Para as frequências mais altas a estrutura fina torna-se percetivamente menos importante e a correspondência da energia ou valor RMS torna-se vital. Por esta razão, a atenuação de ganho pode ser aplicada apenas abaixo de um certo número de banda bmR. Neste caso a correção de ganho gc(b) tem uma dependência explícita com a banda de frequência b. A função de correção de ganho resultante pode, neste caso, ser definida como:
(12) A descrição até este ponto também pode ser utilizada para descrever as características essenciais da concretização exemplificativa da Fig. 4. Deste modo, na concretização da Fig. 4, a síntese final X(b) é calculada como:
(13)
Como uma alternativa, a função
pode ser implementada como uma função linear da altura de impulso máxima Pmax e a velocidade de bit atribuída R(b), por exemplo como:
(14) onde o declive k é determinado por: (15)
A função depende do parâmetro de sintonia ãmin que dá o fator de atenuação inicial para R(b)= 1 e pmax(b)=l. A função é ilustrada na Fig. 9, com o parâmetro de sintonia amin = 0,41. Tipicamente
Na equação (14) u é linear na diferença entre pmax(.b) e R(.b) . Outra possibilidade é ter diferentes fatores de declive para Pmax(b) e R(b). A velocidade de bit para uma dada banda pode variar drasticamente para uma dada banda entre quadros adjacentes. Isto pode levar a variações rápidas da correção de ganho. Estas variações são especialmente criticas quando o envelope é razoavelmente estável, isto é, as variações totais entre quadros são bastante pequenas. Isto muitas vezes acontece para sinais de música que tipicamente têm mais envelopes de energia estáveis. Para evitar que a atenuação de ganho introduza instabilidade, pode ser adicionada uma adaptação adicional. Uma vista geral de uma concretização deste tipo é dada na Fig. 10, onde um dispositivo de medição 66 de estabilidade foi adicionado ao aparelho 60 de ajuste de ganho no descodificador 300 . A adaptação pode, por exemplo, ser baseada numa medida de estabilidade do envelope E{b). Um exemplo de uma medida deste tipo é calcular a distância Euclidiana quadrada entre vetores de envelope log2 adjacentes:
(16)
Aqui, AE(rn) representa a distância Euclidiana quadrada entre os vetores de envelope para o quadro me o quadro m — 1. A medida de estabilidade pode também ser filtrada passa-baixo para ter uma equação de alisamento:
(17)
Um valor adequado para o fator de esquecimento a pode ser 0,1. A medida de estabilidade alisada pode então ser utilizada para criar uma limitação da atenuação com utilização, por exemplo, de uma função sigmóide tal como:
(18) onde os parâmetros podem ser definidos como C1 = 6, C2 = 2 e C3 = 1,9. É de salientar que estes parâmetros devem ser vistos como exemplos, enquanto que os valores reais podem ser escolhidos com mais liberdade. Por exemplo:
A Fig. 11 ilustra um exemplo de uma função de mapeamento da medida de estabilidade AE(rn) para o fator gmin de limitação de ajuste de ganho. A expressão acima para gmin é, de preferência, implementada como uma tabela de procura ou com uma simples função de escalão, tal como:
(19) A variável
de limitação de atenuação pode ser utilizada para criar uma modificação de ganho adaptada de estabilidade gc(b) como:
(20)
Depois da estimação do ganho, a síntese final *00 é calculada como:
(21)
Nas variações descritas da concretização 1 a união dos vetores sintetizados X(b) forma o espetro sintetizado X, que é também processado com a utilização da transformada MDCT inversa com janela de seno simétrica e adicionada à síntese de saída com utilização da estratégia de sobreposição e adição.
Exemplo 2
Noutro exemplo, a forma é quantificada com utilização de um banco de filtros QMF (Filtro em espelho de quadratura) e um esquema de ADPCM (Modulação por código de impulso diferencial adaptativa) para quantificação de forma. Um exemplo de um esquema de ADPCM de sub-banda é o ITU-T G.722 [4] . 0 sinal áudio de entrada é, de preferência, processado em segmentos. Um esquema de ADPCM exemplificativo é mostrado na Fig. 12, com uma dimensão S de passo adaptativa. Aqui, a dimensão de passo adaptativa do quantificador de forma serve como uma medida de precisão que já está presente no descodificador e não necessita de sinalização adicional. No entanto, a dimensão de passo de quantificação necessita de ser extraída dos parâmetros utilizados pelo processo de descodificação e não da própria forma sintetizada. Uma vista geral deste exemplo é mostrada na Fig. 14. No entanto, antes deste exemplo ser descrito em detalhe, um esquema ADPCM exemplificativo baseado num banco de filtros QMF é descrito com referência às Fig. 12 e 13. A Fig. 12 ilustra um exemplo de um sistema de codificador e descodificador ADPCM com uma dimensão de passo de quantificação adaptativa. Um quantificador de ADPCM 70 inclui um elemento de adição 72, que recebe um sinal de entrada e subtrai uma estimativa do sinal de entrada anterior para formar um sinal de erro e. O sinal de erro é quantificado num quantificador 74, a saída do mesmo é enviada para o multiplexador 18 de sequência de bit e também para um calculador 76 de dimensão de passo e um desquantificador 78. O calculador 76 de dimensão de passo adapta a dimensão S de passo de quantificação para obter um erro aceitável. A dimensão S de passo de quantificação é enviada para o multiplexador 18 de sequência de bit e também controla o quantificador 74 e o desquantificador 78. O desquantificador 78 emite uma estimativa de erro ê para um elemento de adição 80. A outra entrada do elemento de adição 80 recebe uma estimativa do sinal de entrada que foi atrasado por um elemento de atraso 82. Isto forma uma estimativa atual do sinal de entrada, que é enviado para o elemento de atraso 82. 0 sinal atrasado é também enviado para o calculador 7 6 de dimensão de passo e para (com uma alteração de sinal) o elemento de adição 72 para formar o sinal de erro e.
Um desquantificador 90 de ADPCM inclui um descodificador 92 de dimensão de passo, que descodifica a dimensão S de passo de quantificação recebida e envia a mesma para um desquantificador 94. O desquantificador 94 descodifica a estimativa de erro ê, que é enviada para um elemento de adição 98, cuja outra entrada do mesmo recebe o sinal de saida do elemento de adição atrasado por um elemento de atraso 96. A Fig. 13 ilustra um exemplo no contexto de um sistema de codificador e descodificador de áudio baseado em ADPCM de sub-banda. O lado do codificador é semelhante ao lado do codificador da concretização da Fig. 2. As diferenças essenciais são que o transformador 30 de frequência foi substituído por um banco 100 de filtros de análise de QMF (Filtro em espelho de quadratura) e que o quantificador 38 de estrutura fina foi substituído por um quantificador de ADPCM, tal como o quant if icador 70 na Fig. 12. O lado do descodificador é semelhante ao lado do descodificador da concretização da Fig. 2. As diferenças essenciais são que o transformador 50 de frequência inversa foi substituído por um banco 102 de filtro de síntese QMF e que o desquantificador 46 de estrutura fina 46 foi substituído por um desquantificador de ADPCM, tal como o desquantificador 90 na Fig. 12. A Fig. 14 ilustra um exemplo da presente tecnologia no contexto de um sistema codificador e descodificador de áudio baseado em ADPCM de sub-banda. A fim de evitar confusão do desenho, apenas o lado 300 do descodificador é ilustrado. O lado do codificador pode ser implementado como na Fig. 13.
Codificador de exemplo 2 O codificador aplica o banco de filtros QMF para obter os sinais de sub-banda. Os valores de RMS de cada sinal de sub-banda são calculados e os sinais de sub-banda são normalizados. O envelope E (b), a atribuição R(b) de bit de sub-banda e os vetores N (b) de forma normalizados são obtidos como na concretização 1. Cada sub-banda normalizada é alimentada para o quantificador de ADPCM. Nesta concretização a ADPCM opera numa forma adaptativa de avanço e determina um passo de escala S (b) a utilizar para a sub-banda b. 0 passo de escala é escolhido para minimizar o MSE ao longo do quadro de sub-banda. Neste exemplo o passo é escolhido ao experimentar todos os passos possíveis e selecionar aquele que dá o MSE mínimo:
(22) onde Q(x,s) é a função de quantificação de ADPCM da variável x com utilização de uma dimensão de passo de s. A dimensão de passo selecionada pode ser utilizada para gerar a forma quantificada:
(23)
Os índices de quantificador da quantificação de envelope e da quantificação de forma são multiplexados numa sequência de bit para serem armazenados ou transmitidos para um descodificador.
Descodificador de exemplo 2 0 descodificador desmultiplica os índices da sequência de bit e envia os índices relevantes para cada módulo de descodificação. 0 envelope quantificado Ê (b) e a atribuição R(b) de bit são obtidos como na concretização 1. Os vetores N(b) de forma sintetizados são obtidos do desquantificador ou descodificador de ADPCM em conjunto com as dimensões S (b) de passo adaptativas. As dimensões de passo indicam uma precisão do vetor de forma quantificado, onde uma dimensão de passo inferior corresponde a uma precisão maior e vice-versa. Uma implementação possível é tornar a precisão A(b) inversamente proporcional à dimensão de passo com utilização de um fator de proporcionalidade γ: (24) onde γ deverá ser ajustado para se conseguir a relação desejada. Uma escolha possível é γ = Smin onde Smin é a dimensão de passo minima, que dá precisão 1 para S(b)=Smin. 0 fator de correção de ganho gc pode ser obtido com utilização de uma função de mapeamento:
(D A função h de mapeamento pode ser implementada como uma tabela de procura baseada na velocidade R(b) e na banda de frequência b. Esta tabela pode ser definida por agrupamento dos valores de correção de ganho ótimo gnsE/gRMs por estes parâmetros e cálculo da entrada de tabela pela média dos valores de correção de ganho ótimo para cada agrupamento.
Depois da estimação da correção de ganho, a síntese de sub-banda X{b) é calculada como:
(2) 0 quadro de áudio de saída é obtido por aplicação do banco de filtros QMF às sub-bandas.
No exemplo ilustrado na Fig. 14 o dispositivo de medição 62 de precisão no aparelho 60 de ajuste de ganho recebe a dimensão S(b) de passo de quantificação ainda não descodificado diretamente da sequência de bit recebida. Uma alternativa, como salientado acima, é descodificar a mesma no desquantificador 90 de ADPCM e enviar a mesma na forma descodificada para o dispositivo de medição 62 de precisão. É de salientar que o exemplo 2 descrito acima não faz parte do invento reivindicado, mas dá um exemplo útil de uma implementação alternativa para compreensão do invento.
Mais alternativas A medida de precisão pode ser complementada com um parâmetro de classe de sinal obtido no codificador. Isto pode, por exemplo, ser um discriminador de voz/música ou um estimador de nível de ruído de fundo. Uma vista geral de um sistema que incorpora um classificador de sinal é mostrada na Fig. 15 a 16. 0 lado do codificador na Fig. 15 é semelhante ao lado do codificador na Fig. 2, mas foi munido com um classificador 104 de sinal. O lado 300 do descodificador na Fig. 16 é semelhante ao lado do descodificador na Fig. 4, mas foi munido com mais uma entrada de classe de sinal para o dispositivo de medição 62 de precisão. A classe de sinal pode ser incorporada na correção de ganho por exemplo ao ter uma adaptação dependente de classe. Se for assumido que as classes de sinal são voz ou música que correspondem aos valores C = 1 e C = 0, respetivamente, pode-se restringir o ajuste de ganho a ser efetivo apenas durante voz, isto é:
(27)
Noutra concretização alternativa o sistema pode atuar como um preditor em conjunto com uma compensação ou correção de ganho parcialmente codificada. Nesta concretização a medida de precisão é utilizada para melhorar a predição da correção de ganho ou compensação de modo que o erro de ganho remanescente possa ser codificado com poucos bits.
Ao criar o fator gc de compensação ou correção de ganho pode-se querer fazer um compromisso entre a correspondência do valor de RMS ou energia e minimização do MSE. Em alguns casos a correspondência da energia torna-se mais importante do que numa forma de onda precisa. Isto é, por exemplo, verdade para frequências mais altas. Para acomodar isto, a correção de ganho final pode, noutra concretização, ser formada por utilização de uma soma ponderada dos diferentes valores de ganho:
(28) onde gc é a correção de ganho obtida de acordo com uma das abordagens descritas acima. 0 fator de ponderação β pode ser tornado adaptativo para, por exemplo, a frequência, velocidade de bit ou tipo de sinal.
Os passos, funções, procedimentos e/ou blocos descritos aqui podem ser implementados em suporte fisico com utilização de qualquer tecnologia convencional, tal como tecnologia de circuito integrado ou circuito discreto, incluindo tanto circuitos eletrónicos de objetivo geral como circuitos de aplicação especifica.
Em alternativa, pelo menos alguns dos passos, funções, procedimentos e/ou blocos descritos aqui podem ser implementados em suporte lógico para execução por um dispositivo de processamento adequado, tal como um microprocessador, processador de sinal digital (DSP) e/ou qualquer dispositivo de lógica programável adequado, tal como um dispositivo de conjunto de portas de campo programáveis (FPGA).
Deve ser também entendido que pode ser possível reutilizar as capacidades de processamento geral do descodificador. Isto pode, por exemplo, ser feito por reprogramação do suporte lógico existente ou por adição de novos componentes de suporte lógico. A Fig. 17 ilustra uma concretização de um aparelho 60 de ajuste de ganho de acordo com a presente tecnologia. Esta concretização é baseada num processador 110, por exemplo um microprocessador, que executa um componente de suporte lógico 120 para estimação da medida de precisão, um componente de suporte lógico 130 para determinação da correção de ganho e um componente 140 de suporte lógico para ajustar a representação de ganho. Estes componentes de suporte lógico são armazenados na memória 150. O processador 110 comunica com a memória através de um bus de sistema. Os parâmetros N(b),R(b),E{b) são recebidos por um controlador 160 de entrada/saída (I/O) que controla um bus de I/O, a que o processador 110 e a memória 150 estão ligados. Nesta concretização os parâmetros recebidos pelo controlador 160 de I/O são armazenados na memória 150, onde os mesmos são processados pelos componentes de suporte lógico. Os componentes de suporte lógico 120, 130 podem implementar a funcionalidade de bloco 62 nas concretizações descritas acima. 0 componente 140 de suporte lógico pode implementar a funcionalidade de bloco 64 nas concretizações descritas acima. A representação Ê(b) de ganho ajustado obtida do componente 140 de suporte lógico é emitida da memória 150 pelo controlador 160 de I/O através do bus de I/O. A Fig. 18 ilustra uma concretização de ajuste de ganho de acordo com a presente tecnologia em maior detalhe. Um estimador 200 de atenuação é configurado para utilizar a atribuição R(b) de bit recebida para determinar uma atenuação de ganho O estimador 200 de atenuação pode, por exemplo, ser implementado como uma tabela de procura ou em suporte lógico com base numa equação linear tal como a equação (14) acima. A atribuição R(b) de bit é também enviada para um estimador 202 de precisão de forma, que também recebe um elemento esparso estimado pmax(b) da forma quantificada, por exemplo representado pela altura do impulso mais alto na representação JV(ò) de forma. O estimador 202 de precisão de forma pode, por exemplo, ser implementado como uma tabela de procura. A atenuação estimada e a precisão A(b) de forma estimada são multiplicadas num multiplicador 204. Numa concretização este produto t(R(b)).A(b) forma diretamente a correção de ganho gc(b). Noutra concretização a correção de ganho gc(b) é formada de acordo com a equação (12) acima. Isto necessita de um comutador 206 controlado por um comparador 208, que determina se a banda de frequência b é inferior a um limite de frequência bTHR· Se for este o caso, então gc (b) e igual a t(R(b)).A(b). Caso contrário, gc (b) é definido como 1. A correção de ganho gc(b) é enviada para outro multiplicador 210, cuja outra entrada do mesmo recebe a RMS que corresponde ao ganho gp.m(b). A RMS que corresponde ao ganho gRm(b) é determinada por uma RMS que corresponde ao calculador 212 de ganho com base na representação N(b) de forma recebida e que corresponde à largura de banda BW(b), ver equação (4) acima. O produto resultante é enviado para outro multiplicador 214, que também recebe a representação N(b) de forma e a representação Ê (b) de ganho e forma a síntese X{b). A deteção de estabilidade descrita com referência à Fig. 10 pode ser incorporada na concretização 2 bem como as outras concretizações descritas acima. A Fig. 19 é um fluxograma que ilustra o método de acordo com a presente tecnologia. 0 passo SI estima uma medida de precisão A(b) da representação N(b) de forma. A medida de precisão pode, por exemplo, ser obtida das caracteristicas de quantificação de forma, tais como R(b), S (b), que indicam a resolução da quantificação de forma. 0 passo S2 determina uma correção de ganho, tal como gc(b), 9c(.b), g'c(p), com base na medida de precisão estimada. 0 passo S3 ajusta a representação m de ganho com base na correção de ganho determinada. A Fig. 20 é um fluxograma que ilustra uma concretização do método de acordo com a presente tecnologia, em que a forma foi codificada com a utilização de um esquema de codificação de impulso e a correção de ganho depende de um elemento esparso Pmax(b) estimado da forma quantificada. É assumido que uma medida de precisão já foi determinada num passo SI (Fig. 19). O passo S4 estima uma atenuação de ganho que depende da atribuição de velocidade de bit. O passo S5 determina uma correção de ganho com base na medida de precisão estimada e na atenuação de ganho estimada. Dai em diante o procedimento prossegue para o passo S3 (Fig. 19) para ajustar a representação de ganho. A Fig. 21 ilustra uma concretização de uma rede de acordo com a presente tecnologia. A mesma inclui um descodificador 300 munido com um aparelho de ajuste de ganho de acordo com a presente tecnologia. Esta concretização ilustra um terminal rádio, mas outros nós de rede são também exequíveis. Por exemplo, se for utilizada voz sobre IP (protocolo internet) na rede, os nós podem compreender computadores.
No nó de rede na Fig. 21 uma antena 302 recebe um sinal de áudio codificado. Uma unidade 304 de rádio transforma este sinal em parâmetros áudio, que são enviados para o descodificador 300 para geração de um sinal de áudio digital, como descrito com referência às várias concretizações acima. O sinal de áudio digital é então convertido de D/A e amplificado numa unidade 306 e finalmente enviado para um altifalante 308.
Apesar da descrição acima focar uma transformada com base em codificação de áudio, os mesmos princípios podem ser também aplicados à codificação de áudio no domínio do tempo com representações de forma e ganho separadas, por exemplo codificação CELP.
Deve ser entendido por quem for perito na especialidade que várias modificações e alterações podem ser feitas para a presente tecnologia sem afastamento do âmbito da mesma, o qual é definido pelas reivindicações em anexo.
ABREVIATURAS ADPCM Modulação por código de impulso diferencial adaptativa AMR Velocidade múltipla adaptativa AMR-WB Velocidade múltipla adaptativa de banda larga CELP Predição linear com excitação por código GSM-EFR Sistema global para comunicações móveis velocidade máxima melhorada DSP Processador de sinal digital FPGA Conjunto de portas de campo programáveis IP Protocolo de internet MDCT Transformada de cosseno discreta modificada MSE Erro quadrado médio QMF Filtro em espelho de quadratura RMS Raiz quadrada média VQ Vetor de quantificação
REFERENCIAS
[1] "ITU-T G.722.1 ANNEX C: A NEW LOW-COMPLEXITY 14 KHZ AUDIO CODING STANDARD", ICASSP 2006 [2] "ITU-T G.719: A NEW LOW-COMPLEXITY FULL-BAND (20 KHZ) AUDIO CODING STANDARD FOR HIGH-QUALITY CONVERSATIONAL APPLICATIONS", WASPA 2009 [3] U. Mittal, J. Ashley, E. Cruz-Zeno, "Low Complexity Factorial Pulse Coding of MDCT Coefficients using Approximation of Combinatorial Functions," ICASSP 2007
[4] "7 kHz Audio Coding Within 64 bit/s", [G.722], IEEE JOURNAL ON SELECTED AREAS IN COMMUNICATIONS, 1988

Claims (16)

  1. REIVINDICAÇÕES
    1 - Método de ajuste de ganho em descodificação de áudio que foi codificado com representações de forma e ganho separadas, incluindo o dito método os passos de: - estimação (Sl) de uma medida de precisão d(n) da representação de forma («(*)) para uma banda de frequência (b), compreendendo a banda de frequência (b) uma pluralidade de coeficientes, em que a forma foi codificada com a utilização de um esquema de codificação de vetor de impulsos onde impulsos podem ser adicionados no topo de cada qual para formar impulsos de altura diferente e a medida de precisão deu) é baseada num número de impulsos Ú(f>)) e numa altura de impulso máxima (Pmax(^)) r - determinação (S2) com base na medida de precisão estimada (MV) de uma correção de ganho (gc(b)); - ajuste (S3) da representação de ganho Ú(f>)) com base na correção de ganho determinada.
  2. 2 - Método de acordo com a reivindicação 1, em que a correção de ganho (gcm também depende da banda de frequência (b) .
  3. 3 - Método de acordo com qualquer das reivindicações precedentes, que inclui os passos de - estimação (S4) de uma atenuação de ganho (t(R(b))) que depende da velocidade de bit (R(b)) atribuída; - determinação (S5) da correção de ganho (PcW) com base na medida de precisão estimada G4(ò)) e na atenuação de ganho estimada
  4. 4 - Método de acordo com a reivindicação 3, em que a atenuação de ganho (t(i?(ò))) é estimada de uma tabela de procura (200) .
  5. 5 - Método de acordo com a reivindicação 3 ou 4, que inclui o passo de estimação (S5) da medida de precisão (Λ00) de uma tabela de procura (202) .
  6. 6 - Método de acordo com a reivindicação 3 ou 4, que inclui o passo de estimação da medida de precisão 04(6)) de uma função linear da altura de impulso máxima (Pmax) e da velocidade de bit atribuída W))·
  7. 7 - Método de acordo com qualquer das reivindicações precedentes, que inclui os passos de adaptação da correção de ganho Í9c (6)) para uma classe de sinal de áudio determinada.
  8. 8 - Aparelho (60) de ajuste de ganho para utilização em descodificação de áudio que foi codificado com representações de forma e ganho separadas, incluindo o dito aparelho: - um dispositivo de medição de precisão (62) configurado para estimar uma medida de precisão 04(6)) da representação de forma (S(f>)) para uma banda de frequência (b), compreendendo a banda de frequência (b) uma pluralidade de coeficientes, em que a forma foi codificada com a utilização de um esquema de codificação de vetor de impulsos onde impulsos podem ser adicionados no topo de cada qual para formar impulsos de altura diferente, e a medida de precisão 04(6)) é baseada num número de impulsos (*(*)) e numa altura de um impulso máximo (Pmax(6)) e para determinar uma correção de ganho Í9c(6)), em que o ganho de correção (,91(6)) é determinado com base na medida de precisão estimada 04(6)); - um elemento de ajuste (64) de envelope configurado para ajustar a representação de ganho (hf>)) com base na correção de ganho determinada.
  9. 9 - Aparelho de acordo com a reivindicação 8, em que a correção de ganho Í9c(6)) também depende da banda de frequência (b) .
  10. 10 - Aparelho de acordo com as reivindicações 8 ou 9, em que o dispositivo de medição de precisão inclui - um estimador (200) de atenuação configurado para estimar uma atenuação de ganho (t(RG>))) que depende da velocidade de bit atribuída (ROO); - estimador (202) de precisão de forma configurado para estimar a medida de precisão dw); - um corretor de ganho (204, 206, 208) configurado para determinar uma correção de ganho (5c 00) com base na medida de precisão estimada dm) e na atenuação de ganho estimada (t(/?00)).
  11. 11 - Aparelho de acordo com a reivindicação 10, em que o estimador de atenuação (200) está implementado como uma tabela de procura.
  12. 12 - Aparelho de acordo com a reivindicação 10 ou 11, em que o estimador (202) de precisão de forma é uma tabela de procura.
  13. 13 - Aparelho de acordo com a reivindicação 10 ou 11, em que o estimador (202) de precisão de forma está configurado para estimar a medida de precisão (/1(6)) de uma função linear da altura de impulso máxima (Pmax) e a velocidade de bit atribuída (fl(6)).
  14. 14 - Aparelho de acordo com qualquer das reivindicações 8 a 13, em que o dispositivo de medição (62) de precisão está configurado para adaptar a correção de ganho Í9c(&)) para uma classe de sinal de áudio determinada.
  15. 15 - Descodificador que inclui um aparelho (60) de ajuste de ganho de acordo com qualquer das reivindicações 8 a 14.
  16. 16 - Nó de rede que inclui um descodif icador de acordo com a reivindicação 15.
PT118604206T 2011-03-04 2011-07-04 Correção de ganho de pós quantificação em codificação de áudio PT2681734T (pt)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US201161449230P 2011-03-04 2011-03-04

Publications (1)

Publication Number Publication Date
PT2681734T true PT2681734T (pt) 2017-07-31

Family

ID=46798434

Family Applications (1)

Application Number Title Priority Date Filing Date
PT118604206T PT2681734T (pt) 2011-03-04 2011-07-04 Correção de ganho de pós quantificação em codificação de áudio

Country Status (10)

Country Link
US (4) US10121481B2 (pt)
EP (2) EP2681734B1 (pt)
CN (2) CN105225669B (pt)
BR (1) BR112013021164B1 (pt)
DK (1) DK3244405T3 (pt)
ES (2) ES2641315T3 (pt)
PL (2) PL2681734T3 (pt)
PT (1) PT2681734T (pt)
TR (1) TR201910075T4 (pt)
WO (1) WO2012121637A1 (pt)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101819180B1 (ko) * 2010-03-31 2018-01-16 한국전자통신연구원 부호화 방법 및 장치, 그리고 복호화 방법 및 장치
PL2697795T3 (pl) * 2011-04-15 2015-10-30 Ericsson Telefon Ab L M Kodowanie adaptacyjne typu kształt wzmocnienie
MX2014004797A (es) * 2011-10-21 2014-09-22 Samsung Electronics Co Ltd Método y aparato de codificación sin perdida de energia, método y aparato de codificación de audio, método y aparato de decodificación sin perdida de energia y método y aparato de decodificación de audio.
EP2933799B1 (en) * 2012-12-13 2017-07-12 Panasonic Intellectual Property Corporation of America Voice audio encoding device, voice audio decoding device, voice audio encoding method, and voice audio decoding method
WO2014181330A1 (en) * 2013-05-06 2014-11-13 Waves Audio Ltd. A method and apparatus for suppression of unwanted audio signals
CN104301064B (zh) 2013-07-16 2018-05-04 华为技术有限公司 处理丢失帧的方法和解码器
SG10201808274UA (en) 2014-03-24 2018-10-30 Samsung Electronics Co Ltd High-band encoding method and device, and high-band decoding method and device
CN105225666B (zh) 2014-06-25 2016-12-28 华为技术有限公司 处理丢失帧的方法和装置
SG11201806256SA (en) 2016-01-22 2018-08-30 Fraunhofer Ges Forschung Apparatus and method for mdct m/s stereo with global ild with improved mid/side decision
US10109284B2 (en) 2016-02-12 2018-10-23 Qualcomm Incorporated Inter-channel encoding and decoding of multiple high-band audio signals
US10950251B2 (en) * 2018-03-05 2021-03-16 Dts, Inc. Coding of harmonic signals in transform-based audio codecs

Family Cites Families (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5109417A (en) * 1989-01-27 1992-04-28 Dolby Laboratories Licensing Corporation Low bit rate transform coder, decoder, and encoder/decoder for high-quality audio
US5263119A (en) * 1989-06-29 1993-11-16 Fujitsu Limited Gain-shape vector quantization method and apparatus
KR100323487B1 (ko) * 1994-02-01 2002-07-08 러셀 비. 밀러 버스트여기선형예측
JP3707116B2 (ja) * 1995-10-26 2005-10-19 ソニー株式会社 音声復号化方法及び装置
JP3707153B2 (ja) * 1996-09-24 2005-10-19 ソニー株式会社 ベクトル量子化方法、音声符号化方法及び装置
ES2247741T3 (es) * 1998-01-22 2006-03-01 Deutsche Telekom Ag Metodo para conmutacion controlada por señales entre esquemas de codificacion de audio.
WO1999050828A1 (en) * 1998-03-30 1999-10-07 Voxware, Inc. Low-complexity, low-delay, scalable and embedded speech and audio coding with adaptive frame loss concealment
US6223157B1 (en) * 1998-05-07 2001-04-24 Dsc Telecom, L.P. Method for direct recognition of encoded speech data
US6691092B1 (en) * 1999-04-05 2004-02-10 Hughes Electronics Corporation Voicing measure as an estimate of signal periodicity for a frequency domain interpolative speech codec system
US6496798B1 (en) * 1999-09-30 2002-12-17 Motorola, Inc. Method and apparatus for encoding and decoding frames of voice model parameters into a low bit rate digital voice message
US6615169B1 (en) * 2000-10-18 2003-09-02 Nokia Corporation High frequency enhancement layer coding in wideband speech codec
JP4506039B2 (ja) * 2001-06-15 2010-07-21 ソニー株式会社 符号化装置及び方法、復号装置及び方法、並びに符号化プログラム及び復号プログラム
US6658383B2 (en) * 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
US7146313B2 (en) 2001-12-14 2006-12-05 Microsoft Corporation Techniques for measurement of perceptual audio quality
EP1484841B1 (en) * 2002-03-08 2018-12-26 Nippon Telegraph And Telephone Corporation DIGITAL SIGNAL ENCODING METHOD, DECODING METHOD, ENCODING DEVICE, DECODING DEVICE and DIGITAL SIGNAL DECODING PROGRAM
US7447631B2 (en) * 2002-06-17 2008-11-04 Dolby Laboratories Licensing Corporation Audio coding system using spectral hole filling
BRPI0311601B8 (pt) * 2002-07-19 2018-02-14 Matsushita Electric Ind Co Ltd "aparelho e método decodificador de áudio"
SE0202770D0 (sv) * 2002-09-18 2002-09-18 Coding Technologies Sweden Ab Method for reduction of aliasing introduces by spectral envelope adjustment in real-valued filterbanks
WO2004090870A1 (ja) * 2003-04-04 2004-10-21 Kabushiki Kaisha Toshiba 広帯域音声を符号化または復号化するための方法及び装置
US8218624B2 (en) * 2003-07-18 2012-07-10 Microsoft Corporation Fractional quantization step sizes for high bit rates
US20090210219A1 (en) * 2005-05-30 2009-08-20 Jong-Mo Sung Apparatus and method for coding and decoding residual signal
JP3981399B1 (ja) * 2006-03-10 2007-09-26 松下電器産業株式会社 固定符号帳探索装置および固定符号帳探索方法
US7590523B2 (en) * 2006-03-20 2009-09-15 Mindspeed Technologies, Inc. Speech post-processing using MDCT coefficients
US20080013751A1 (en) * 2006-07-17 2008-01-17 Per Hiselius Volume dependent audio frequency gain profile
WO2008072733A1 (ja) * 2006-12-15 2008-06-19 Panasonic Corporation 符号化装置および符号化方法
US8560328B2 (en) * 2006-12-15 2013-10-15 Panasonic Corporation Encoding device, decoding device, and method thereof
JP4871894B2 (ja) * 2007-03-02 2012-02-08 パナソニック株式会社 符号化装置、復号装置、符号化方法および復号方法
JP5434592B2 (ja) 2007-06-27 2014-03-05 日本電気株式会社 オーディオ符号化方法、オーディオ復号方法、オーディオ符号化装置、オーディオ復号装置、プログラム、およびオーディオ符号化・復号システム
US8085089B2 (en) * 2007-07-31 2011-12-27 Broadcom Corporation Method and system for polar modulation with discontinuous phase for RF transmitters with integrated amplitude shaping
US7853229B2 (en) * 2007-08-08 2010-12-14 Analog Devices, Inc. Methods and apparatus for calibration of automatic gain control in broadcast tuners
EP2048659B1 (en) * 2007-10-08 2011-08-17 Harman Becker Automotive Systems GmbH Gain and spectral shape adjustment in audio signal processing
US8515767B2 (en) * 2007-11-04 2013-08-20 Qualcomm Incorporated Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs
WO2009125588A1 (ja) * 2008-04-09 2009-10-15 パナソニック株式会社 符号化装置および符号化方法
US9330671B2 (en) * 2008-10-10 2016-05-03 Telefonaktiebolaget L M Ericsson (Publ) Energy conservative multi-channel audio coding
JP4439579B1 (ja) * 2008-12-24 2010-03-24 株式会社東芝 音質補正装置、音質補正方法及び音質補正用プログラム
US8391212B2 (en) * 2009-05-05 2013-03-05 Huawei Technologies Co., Ltd. System and method for frequency domain audio post-processing based on perceptual masking
ES2797525T3 (es) * 2009-10-15 2020-12-02 Voiceage Corp Conformación simultánea de ruido en el dominio del tiempo y el dominio de la frecuencia para transformaciones TDAC
CA2862715C (en) * 2009-10-20 2017-10-17 Ralf Geiger Multi-mode audio codec and celp coding adapted therefore
US9117458B2 (en) * 2009-11-12 2015-08-25 Lg Electronics Inc. Apparatus for processing an audio signal and method thereof
US9208792B2 (en) * 2010-08-17 2015-12-08 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for noise injection
JP5719941B2 (ja) * 2011-02-09 2015-05-20 テレフオンアクチーボラゲット エル エム エリクソン(パブル) オーディオ信号の効率的なエンコーディング/デコーディング

Also Published As

Publication number Publication date
ES2641315T3 (es) 2017-11-08
EP3244405A1 (en) 2017-11-15
EP2681734B1 (en) 2017-06-21
CN105225669B (zh) 2018-12-21
EP3244405B1 (en) 2019-06-19
BR112013021164B1 (pt) 2021-02-17
CN105225669A (zh) 2016-01-06
US20200005803A1 (en) 2020-01-02
US10460739B2 (en) 2019-10-29
ES2744100T3 (es) 2020-02-21
WO2012121637A1 (en) 2012-09-13
EP2681734A1 (en) 2014-01-08
CN103443856A (zh) 2013-12-11
TR201910075T4 (tr) 2019-08-21
US20130339038A1 (en) 2013-12-19
EP2681734A4 (en) 2014-11-05
US20210287688A1 (en) 2021-09-16
PL2681734T3 (pl) 2017-12-29
US11056125B2 (en) 2021-07-06
DK3244405T3 (da) 2019-07-22
CN103443856B (zh) 2015-09-09
US10121481B2 (en) 2018-11-06
US20170330573A1 (en) 2017-11-16
BR112013021164A2 (pt) 2018-06-26
RU2013144554A (ru) 2015-04-10
PL3244405T3 (pl) 2019-12-31

Similar Documents

Publication Publication Date Title
PT2681734T (pt) Correção de ganho de pós quantificação em codificação de áudio
JP7161564B2 (ja) チャネル間時間差を推定する装置及び方法
EP2357649B1 (en) Method and apparatus for decoding audio signal
AU2017201872B2 (en) Audio encoder and decoder
JP6474877B2 (ja) ハーモニックオーディオ信号の帯域幅拡張
DK2791937T3 (en) Generation of an højbåndsudvidelse of a broadband extended buzzer
BRPI0517780A2 (pt) aparelho de decodificação escalável e aparelho de codificação escalável
US10770078B2 (en) Adaptive gain-shape rate sharing
BRPI0808428A2 (pt) Dispostivo de codificação e método de codificação
KR101787497B1 (ko) 향상 신호의 성형을 이용하여 주파수 향상 신호를 발생시키는 장치 및 방법
JP2012118205A (ja) オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム
ES2637031T3 (es) Decodificador para la atenuación de regiones de señal reconstruidas con baja precisión
JP2008129250A (ja) Aacのためのウィンドウ切り替え方法およびm/s符号化の帯域決定方法
RU2575389C2 (ru) Коррекция коэффициента усиления после квантования при кодировании аудио
BR112015025009B1 (pt) Unidades de quantização e quantização inversa, codificador e decodificador, métodos para quantizar e dequantizar