PT2951820T - Aparelho e método para selecionar um de um primeiro algoritmo de codificação e um segundo algoritmo de codificação - Google Patents

Aparelho e método para selecionar um de um primeiro algoritmo de codificação e um segundo algoritmo de codificação Download PDF

Info

Publication number
PT2951820T
PT2951820T PT147025050T PT14702505T PT2951820T PT 2951820 T PT2951820 T PT 2951820T PT 147025050 T PT147025050 T PT 147025050T PT 14702505 T PT14702505 T PT 14702505T PT 2951820 T PT2951820 T PT 2951820T
Authority
PT
Portugal
Prior art keywords
audio signal
estimated
adaptive codebook
weighted
algorithm
Prior art date
Application number
PT147025050T
Other languages
English (en)
Inventor
Ravelli Emmanuel
Helmrich Christian
Döhla Stefan
Fuchs Guillaume
Fotopoulou Eleni
Original Assignee
Fraunhofer Ges Forschung
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Ges Forschung filed Critical Fraunhofer Ges Forschung
Publication of PT2951820T publication Critical patent/PT2951820T/pt

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • G10L19/125Pitch excitation, e.g. pitch synchronous innovation CELP [PSI-CELP]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Description

DESCRIÇÃO
APARELHO E MÉTODO PARA SELECIONAR UM DENTRE UM PRIMEIRO ALGORITMO DE CODIFICAÇÃO E UM SEGUNDO ALGORITMO DE CODIFICAÇÃO A presente invenção refere-se à codificação de áudio e, em particular, à codificação de áudio comutada, onde, para diferentes porções de um sinal de áudio, o sinal codificado é gerado utilizando diferentes algoritmos de codificação. Codificadores de áudio comutados que determinam diferentes algoritmos de codificação para diferentes porções do sinal de áudio são conhecidos. Geralmente, codificadores de áudio comutados fornecem a comutação entre dois modos diferentes, ou seja, algoritmos, como ACELP (Previsão Linear Excitada de Código
Algébrico | Algebraic Code Excited Linear Prediction) e TCX (Excitação Codificada por Transformada I Transform Coded
Excitation). 0 modo LPD de MPEG USAC (Codificação de Áudio de Fala Unificada por MPEG | MPEG Unified Speech Audio Coding) tem como base os dois modos diferentes ACELP e TCX. ACELP fornece melhor qualidade para fornecer melhor qualidade para os sinais do tipo fala e transiente. TCX fornece melhor qualidade para os sinais do tipo música ou ruido. 0 codificador decide qual o modo a utilizar numa base quadro por quadro. A decisão feita pelo codificador é critica para a qualidade do codec. Uma única decisão errada pode produzir uma forte perturbação, particularmente em baixas taxas de bits. A abordagem mais direta para decidir qual o modo a utilizar é uma seleção do modo de circuito fechado, ou seja, para realizar uma codificação/descodificação completa de ambos os modos, então calcula-se um critério de seleção (por exemplo, SNR segmentar) para ambos os modos com base no sinal de áudio e os sinais de áudio codificados/descodifiçados, e finalmente escolhe-se um modo com base nos critérios de seleção. Esta abordagem geralmente produz uma decisão estável e robusta. No entanto, isso ainda exige uma quantidade significativa de complexidade, pois ambos os modos devem ser executados em cada quadro.
Para reduzir a complexidade, uma abordagem alternativa é a seleção do modo de circuito aberto. A seleção de circuito aberto consiste em não realizar uma codificação/descodificação completa de ambos os modos, mas ao invés escolher um modo que utilize um critério de seleção computado com baixa complexidade. A complexidade do pior caso é então reduzida pela complexidade do modo de complexidade minima (geralmente TCX), menos a complexidade necessária para calcular os critérios de seleção. Economizar na complexidade é geralmente significativo, o que torna este tipo de abordagem atrativa quando a complexidade do pior caso do codec é restrita. A norma AMR-WB+ (definida na Norma Internacional 3GPP TS 26.290 V6.1.0 2004-12) inclui uma seleção do modo de circuito aberto, utilizado para decidir entre todas as combinações de ACELP/TCX20/TCX40/TCX80 num quadro de 80 ms. É descrito na Secção 5.2.4 de 3GPP TS 26.290. É ainda descrito no documento da conferência "Low Complex Audio Encoding for Mobile, Multimedia, VTC 2006, Makinen et al." e nos documentos US 7,747,430 B2 e US 7,739,120 B2 voltando ao autor deste documento da conferência. O documento US 7,747,430 B2 divulga uma seleção de modo de circuito aberto com base numa análise dos parâmetros de previsão de longa duração. 0 documento US 7,739,120 B2 divulga uma seleção de modo de circuito aberto com base em caracteristicas do sinal que indicam o tipo de conteúdo de áudio nas respetivas secções de um sinal de áudio, em que, se tal seleção não for viável, a seleção ainda tem como base numa avaliação estatística realizada para respetivamente as secções próximas. A seleção de modo de circuito aberto de AMR-WB+ pode ser descrita em duas etapas principais. Na primeira etapa principal, vários recursos são calculados no sinal de áudio, como desvio padrão de níveis de energia, relação da energia de baixa frequência/alta frequência, energia total, distância de ISP (immittance spectral pair | par espetral de imitância), atrasos e ganhos de tom, inclinação espetral. Esses recursos são então utilizados para fazer uma escolha entre ACELP e TCX, utilizando um simples classificador com base no limite. Se TCX for selecionada na primeira etapa principal, então a segunda etapa principal decide entre as possíveis combinações de TCX20/TCX40/TCX80 numa forma de circuito fechado. O documento WO 2012/110448 Al divulga uma abordagem para decidir entre dois algoritmos de codificação tendo diferentes caracteristicas com base num resultado de deteção transiente e um resultado de qualidade de um sinal de áudio. Além disso, a aplicação de uma histerese é divulgada, em que a histerese depende das seleções feitas no passado, ou seja, para as porções do sinal de áudio prévias.
No documento de conferência "Low Complex Audio Encoding for Mobile, Multimedia, VTC 2006, Makinen et al.", a seleção de modo de circuito aberto e fechado de AMR-WB+ são comparadas. Os testes de audição subjetiva indicam que a seleção de modo de circuito aberto tem um desempenho significantemente pior do que a seleção do modo de circuito fechado. Mas é mostrado, ainda, que a seleção de modo de circuito aberto reduz a complexidade de pior caso em 40%. É o objeto da invenção fornecer uma abordagem melhorada que permite a seleção entre um primeiro algoritmo de codificação e um segundo algoritmo de codificação com bom desempenho e complexidade reduzida.
Esse objeto é obtido por um aparelho de acordo com a reivindicação 1, um método de acordo com a reivindicação 13 e um programa de computador de acordo com a reivindicação 23.
As formas de realização da invenção têm base no reconhecimento que uma seleção de circuito aberto com desempenho melhorado pode ser implementada estimando-se uma medição de qualidade para cada primeiro e segundo algoritmos de codificação e selecionando um dos algoritmos de codificação com base numa comparação entre a primeira e segunda medições de qualidade. As medições de qualidade são estimadas, ou seja, o sinal de áudio não é realmente codificado e descodificado para obter as medições de qualidade. Assim, as medições de qualidade podem ser obtidas com complexidade reduzida. A seleção do modo pode então ser realizada utilizando as medições de qualidade estimadas comparáveis a uma seleção do modo de circuito fechado.
Nas formas de realização preferidas da invenção, uma seleção de modo de circuito aberto, em que a SNR segmentar de ACELP e a TCX são estimados pela primeira vez com baixa complexidade, é implementada. E então a seleção do modo é realizada utilizando esses valores segmentares estimados de SNR, como numa seleção do modo de circuito fechado.
As formas de realização da invenção não empregam uma abordagem clássica de recursos+classificador, como é feito na seleção de modo de circuito aberto de AMR-WB+. Ao invés disso, as formas de realização da invenção tentam estimar uma medição de qualidade de cada modo e selecionam o modo que fornece a melhor qualidade. As formas de realização da presente invenção serão agora descritas em mais detalhes com referência aos desenhos anexos, em que: A Figura 1 mostra uma vista esquemática de uma forma de realização de um aparelho para selecionar um de um primeiro algoritmo de codificação e um segundo algoritmo de codificação; A Figura 2 mostra uma vista esquemática de uma forma de realização de um aparelho para codificar um sinal de áudio; A Figura 3 mostra uma vista esquemática de uma forma de realização de um aparelho para selecionar um de um primeiro algoritmo de codificação e um segundo algoritmo de codificação;
As Figuras 4a e 4b são representações possíveis de SNR e SNR segmentar.
Na descrição a seguir, elementos/etapas semelhantes nos diferentes desenhos são referidos pelos mesmos números de referência. Deve-se observar que, nos desenhos, as características, como conexões do sinal e semelhantes, que não são necessárias para o entendimento da invenção, foram omitidas. A figura 1 mostra um aparelho 10 para selecionar um dentre um primeiro algoritmo de codificação, como um algoritmo TCX, e um segundo algoritmo de codificação, como um algoritmo ACELP, como o codificador para codificar uma porção de um sinal de áudio. O aparelho 10 compreende um primeiro estimador 12 para estimar uma primeira medição de qualidade para a porção do sinal. A primeira medição de qualidade é associada com o primeiro algoritmo de codificação. Por outras palavras, o primeiro estimador 12 estima uma primeira medição de qualidade cuja porção do sinal de áudio teria sido codificada e descodificada utilizando o primeiro algoritmo de codificação, sem codificar e descodificar realmente a porção do sinal de áudio utilizando o primeiro algoritmo de codificação. 0 aparelho 10 compreende um segundo estimador 14 para estimar uma segunda medição de qualidade para a porção do sinal. A segunda medição de qualidade está associada com o segundo algoritmo de codificação. Por outras palavras, o segundo estimador 14 estima a segunda medição de qualidade cuja porção do sinal de áudio teria sido codificada e descodificada utilizando o segundo algoritmo de codificação, sem codificar e descodificar realmente a porção do sinal de áudio utilizando o segundo algoritmo de codificação. Além disso, o aparelho 10 compreende um controlador 16 para selecionar o primeiro algoritmo de codificação ou o segundo algoritmo de codificação com base numa comparação entre a primeira medição de qualidade e a segunda medição de qualidade. O controlador pode compreender uma saída 18 indicando o algoritmo de codificação selecionado. Numa forma de realização, a primeira característica associada com o primeiro algoritmo de codificação é melhor adequada para os sinais do tipo música ou ruído, e a segunda característica de codificação associada com o segundo algoritmo de codificação é melhor adequada para sinais do tipo fala e transiente. Nas formas de realização da invenção, o primeiro algoritmo de codificação é um algoritmo de codificação de áudio, como um algoritmo de codificação por transformada, por exemplo, um algoritmo de codificação de MDCT (modified discrete cosine transform | transformada de cosseno discreta modificada), como um algoritmo de codificação de TCX (transform coding excitation I excitação de codificação por transformada). Outros algoritmos de codificação de transformada podem ter base numa transformada de FFT ou qualquer outra transformada ou banco de filtro. Nas formas de realização da invenção, o segundo algoritmo de codificação é um algoritmo de codificação de fala, como um algoritmo de codificação de CELP (code excited linear prediction I previsão linear excitada por código), como um algoritmo de codificação de ACELP (algebraic code excited linear prediction \ previsão linear excitada por código algébrico).
Nas formas de realização a medição de qualidade representa uma medição de qualidade percetual. Um único valor que é uma estimativa da qualidade subjetiva do primeiro algoritmo de codificação e um único valor que é uma estimativa da qualidade subjetiva do segundo algoritmo de codificação pode ser calculado. 0 algoritmo de codificação que fornece a melhor qualidade subjetiva estimada pode ser escolhido apenas com base na comparação destes dois valores. Isso é diferente do que é feito na norma AMR-WB+, em que muitos recursos que representam diferentes caracteristicas do sinal são calculados e, então, um classificador é aplicado para decidir qual algoritmo escolher.
Nas formas de realização, a respetiva medição de qualidade é estimada com base numa porção do sinal de áudio ponderado, ou seja, uma versão ponderada do sinal de áudio. Nas formas de realização, o sinal de áudio ponderado pode ser definido como um sinal de áudio filtrado por uma função de ponderação, em que a função de ponderação é um filtro de LPC ponderado A(z/g) com A(z) um filtro de LPC, e g uma ponderação entre 0 e 1 como 0,68. É observado que as boas medições da qualidade percetual podem ser obtidas dessa forma. Observe que o filtro de LPC A(z) e o filtro de LPC ponderado A(z/g) são determinados num estágio de pré-processamento e que eles ainda são utilizados em ambos os algoritmos de codificação. Noutras formas de realização, a função de ponderação pode ser um filtro linear, um filtro de FIR ou um filtro de previsão linear.
Nas formas de realização, a medição de qualidade é a SNR segmentar (razão de sinal para ruido) no domínio de sinal ponderado. É observado que a SNR segmentar no domínio de sinal ponderado representa uma boa medição da qualidade percetual e, assim, pode ser utilizado como a medição de qualidade numa forma benéfica. Essa ainda é a medição de qualidade utilizada, tanto no algoritmo de codificação de ACELP quanto no algoritmo de codificação de TCX para estimar os parâmetros de codificação. Outra medição de qualidade pode ser a SNR no domínio de sinal ponderado. Outras medições de qualidade podem ser a SNR segmentar, a SNR da porção do sinal de áudio correspondente no domínio de sinal não ponderado, ou seja, não filtrado pelos coeficientes de LPC (ponderados). Outras medições de qualidade podem ser a distorção espetral ou a razão ruído para máscara (NMR | noise-to-mask ratio).
Geralmente, SNR compara os sinais de áudio original e processado (como sinais de fala) amostra por amostra. 0 seu objetivo é medir a distorção dos codificadores da forma de onda que reproduzem a forma de onda de entrada. SNR pode ser calculada conforme mostrado na Figura 5a, em que x(i) e y(i) são as amostras originais e processadas indexadas por i e N é o número total de amostras. SNR segmentar, ao invés de operar em todo o sinal, calcula a média dos valores de SNR de segmentos curtos, como 1 a 10 ms, como 5 ms. SNR pode ser calculada conforme mostrado na figura 5b, em que N e M são o comprimento do segmento e o número de segmentos, respetivamente.
Nas formas de realização da invenção, a porção do sinal de áudio representa um quadro do sinal de áudio que é obtido pelo janelamento do sinal de áudio e seleção de um algoritmo de codificação apropriado é realizado para uma pluralidade de quadros sucessivos obtidos pelo janelamento de um sinal de áudio. Na seguinte especificação, em conexão com o sinal de áudio, os termos "porção" e "quadro" são utilizados numa forma permutável. Nas formas de realização, cada quadro é dividido em subquadros e SNR segmentar é estimado para cada quadro pelo cálculo de SNR para cada subquadro, convertido em dB e calculando a média das SNRs de subquadros em dB.
Assim, nas formas de realização, não é a SNR (segmentar) entre o sinal de áudio de entrada e o sinal de áudio descodificado que é estimado, mas a SNR (segmentar) entre o sinal de áudio de entrada ponderado e o sinal de áudio descodificado ponderado é estimado. Quanto a esse SNR (segmentar), referência pode ser feita ao capitulo 5.2.3 da norma AMR-WB+ (Norma internacional 3GPP TS 26.290 V6.1.0 2004-12).
Nas formas de realização da invenção, a respetiva medição de qualidade é estimada com base na energia de uma porção do sinal de áudio ponderado e com base numa distorção estimada introduzida ao codificar a porção do sinal pelo respetivo algoritmo, em que o primeiro e segundo estimador são configurados para determinar as distorções estimadas dependentes da energia de um sinal de áudio ponderado.
Nas formas de realização da invenção, uma distorção estimada do quantificador introduzida por um quantificador utilizado no primeiro algoritmo de codificação ao quantificar a porção do sinal de áudio é determinada e a primeira medição de qualidade é determinada com base na energia da porção do sinal de áudio ponderado e na distorção estimada do quantificador. Nessas formas de realização, um ganho global para a porção do sinal de áudio pode ser estimado de modo que a porção do sinal de áudio produziria uma dada taxa de bits alvo quando codificada com um quantificador e um codificador por entropia utilizado no primeiro algoritmo de codificação, em que a distorção estimada do quantificador é determinada com base no ganho global estimado. Nessas formas de realização, a distorção estimada do quantificador pode ser determinada com base numa potência do ganho estimado. Quando o quantificador utilizado no primeiro algoritmo de codificação é um quantificador em escala uniforme, o primeiro estimador pode ser configurado para determinar a distorção estimada do quantificador utilizando a fórmula D = G*G/12, em que D é a distorção estimada do quantificador e G é o ganho global estimado. No caso do primeiro algoritmo de codificação utilizar outro quantificador, a distorção do quantificador pode ser determinada do ganho global numa forma diferente.
Os inventores reconheceram que uma medição de qualidade, como uma SNR segmentar, que seria obtida ao codificar e descodificar a porção do sinal de áudio utilizando o primeiro algoritmo de codificação, como o algoritmo de TCX, pode ser estimada numa forma apropriada utilizando os recursos acima em qualquer combinação dos mesmos.
Nas formas de realização da invenção, a primeira medição de qualidade é uma SNR segmentar e a SNR segmentar é estimada pelo cálculo de uma SNR estimada associada com cada uma de uma pluralidade de subporções da porção do sinal de áudio com base numa energia da subporção do sinal de áudio ponderado correspondente e da distorção estimada do quantificador e pelo cálculo de uma média das SNRs associadas com as subporções da porção do sinal de áudio ponderado para obter a SNR estimada segmentar para a porção do sinal de áudio ponderado.
Nas formas de realização da invenção, uma distorção do codebook [livro de códigos] adaptativo estimada introduzida por um codebook adaptativo utilizado no segundo algoritmo de codificação ao utilizar o codebook adaptativo para codificar a porção do sinal de áudio é determinada, e a segunda medição de qualidade é estimada com base numa energia da porção do sinal de áudio ponderado e a distorção do codebook adaptativo estimada.
Em tais formas de realização, para cada uma de uma pluralidade de subporções da porção do sinal de áudio, o codebook adaptativo pode ser aproximado com base numa versão da subporção do sinal de áudio ponderado transferido ao passado por um atraso de tom determinado num estágio de pré-processamento, um ganho do codebook adaptativo pode ser estimado de modo que um erro entre a subporção da porção do sinal de áudio ponderado e o codebook adaptativo aproximado seja reduzido, e uma distorção do codebook adaptativo estimada pode ser determinada com base na energia de um erro entre a subporção da porção do sinal de áudio ponderado e o codebook adaptativo aproximado escalado pelo ganho do codebook adaptativo.
Nas formas de realização da invenção, a distorção do codebook adaptativo estimada determinada para cada subporção da porção do sinal de áudio pode ser reduzida por um fator constante a fim de considerar uma redução da distorção que é obtida por um codebook inovador no segundo algoritmo de codificação.
Nas formas de realização da invenção, a segunda medição de qualidade é uma SNR segmentar e a SNR segmentar é estimada pelo cálculo de uma SNR estimada associada com cada subporção com base na energia da subporção do sinal de áudio ponderado correspondente e a distorção do codebook adaptativo estimada e pelo cálculo de uma média das SNRs associadas com as subporções para obter a SNR estimada segmentar.
Nas formas de realização da invenção, o codebook adaptativo é aproximado com base numa versão da porção do sinal de áudio ponderado transferido ao passado por um atraso de tom determinado num estágio de pré-processamento, um ganho do codebook adaptativo é estimado de modo que um erro entre a porção do sinal de áudio ponderado e o codebook adaptativo aproximado seja reduzido, e a distorção do codebook adaptativo estimada é determinada com base na energia entre a porção do sinal de áudio ponderado e o codebook adaptativo aproximado escalado pelo ganho do codebook adaptativo. Assim, a distorção do codebook adaptativo estimada pode ser determinada com baixa complexidade.
Os inventores reconheceram que a medição de qualidade, como uma SNR segmentar, que seria obtida ao codificar e descodificar a porção do sinal de áudio utilizando o segundo algoritmo de codificação, como um algoritmo de ACELP, pode ser estimada numa forma apropriada utilizando os recursos acima em qualquer respetiva combinação.
Nas formas de realização da invenção, um mecanismo de histerese é utilizado ao comparar as medições de qualidade estimadas. Ele pode tomar a decisão de qual o algoritmo a ser utilizado é mais estável. 0 mecanismo de histerese pode ser dependente das medições de qualidade estimadas (como a diferença entre elas) e outros parâmetros, como estatística sobre as decisões anteriores, o número de quadros temporalmente estacionários, transientes nos quadros. Quanto a esses mecanismos de histerese, referência pode ser feita ao documento WO 2012/110448 Al, por exemplo.
Nas formas de realização da invenção, um codificador para codificar um sinal de áudio compreende o aparelho 10, um estágio para realizar o primeiro algoritmo de codificação e um estágio para realizar o segundo algoritmo de codificação, em que o codificador é configurado para codificar a porção do sinal de áudio utilizando o primeiro algoritmo de codificação ou o segundo algoritmo de codificação dependendo da seleção pelo controlador 16. Nas formas de realização da invenção, um sistema para codificar e descodificar compreende o codificador e um descodificador configurado para receber a versão codificada da porção do sinal de áudio e uma indicação do algoritmo utilizado para codificar a porção do sinal de áudio e para descodificar a versão codificada da porção do sinal de áudio utilizando o algoritmo indicado.
Antes de descrever uma formas de realização do primeiro estimador 12 e do segundo estimador 14 em detalhes com referência à figura 3, uma forma de realização de um codificador 20 é descrita com referência à figura 2. O codificador 20 compreende o primeiro estimador 12, o segundo estimador 14, o controlador 16, uma unidade de pré-processamento 22, um interruptor 24, um primeiro estágio de codificador 26 configurado para realizar um algoritmo de TCX, um segundo estágio de codificador 28 configurado para realizar um algoritmo de ACELP e uma interface de saída 30. A unidade de pré-processamento 22 pode ser parte de um codificador de USAC comum e pode ser configurada para emitir os coeficientes de LPC, os coeficientes de LPC ponderados, o sinal de áudio ponderado e um conjunto de atrasos de tom. Observa-se que todos esses parâmetros são utilizados nos dois algoritmos de codificação, ou seja, no algoritmo de TCX e no algoritmo de ACELP. Assim, tais parâmetros não devem ser calculados para a decisão do modo de circuito aberto adicionalmente. A vantagem de utilizar os parâmetros já calculados na decisão do modo de circuito aberto é economizar a complexidade.
Um sinal de áudio de entrada 4 0 é fornecido numa linha de entrada. O sinal de áudio de entrada 40 é aplicado ao primeiro estimador 12, a unidade de pré-processamento 22 e ambos os estágios de codificador 26, 28. A unidade de pré-processamento 22 processa o sinal de áudio de entrada numa forma convencional para derivar os coeficientes de LPC e os coeficientes de LPC ponderados 42 e para filtrar o sinal de áudio 40 com os coeficientes de LPC ponderados 42 para obter o sinal de áudio ponderado 44. A unidade de pré-processamento 22 emite os coeficientes de LPC ponderados 42, o sinal de áudio ponderado 44 e um conjunto de atrasos de tom 48. Conforme entendido pelos técnicos na arte, os coeficientes de LPC ponderados 42 e o sinal de áudio ponderado 44 podem ser segmentados em quadros ou subquadros. A segmentação pode ser obtida pelo janelamento do sinal de áudio numa forma apropriada.
Nas formas de realização da invenção, os coeficientes de LPC quantificados ou coeficientes de LPC quantificados ponderados podem ser utilizados. Assim, deve ser entendido que o termo "coeficientes de LPC" é direcionado para abranger os "coeficientes de LPC quantificados" também, e o termo "coeficientes de LPC ponderados" é direcionado para abranger os "coeficientes de LPC quantificados ponderados" também. Com relação a isso, vale a pena observar que o algoritmo de TCX de USAC utiliza os coeficientes de LPC quantificados ponderados para formar o espetro de MCDT. 0 primeiro estimador 12 recebe o sinal de áudio 40, os coeficientes de LPC ponderados 42 e o sinal de áudio ponderado 44, estima a primeira medição de qualidade 46 com base nele e emite a primeira medição de qualidade ao controlador 16. O segundo estimador 16 recebe o sinal de áudio ponderado 44 e o conjunto de atrasos de tom 48, estima a segunda medição de qualidade 50 com base nele e emite a segunda medição de qualidade 50 ao controlador 16. Como conhecido pelos peritos na arte, os coeficientes de LPC ponderados 42, o sinal de áudio ponderado 44 e o conjunto de atrasos de tom 48 já são calculados num módulo prévio (ou seja, a unidade de pré-processamento 22) e, assim, estão disponíveis sem custo. O controlador toma uma decisão para selecionar tanto o algoritmo de TCX quanto o algoritmo de ACELP com base numa comparação das medições de qualidade recebidas. Conforme indicado acima, o controlador pode utilizar um mecanismo de histerese ao decidir qual o algoritmo a ser utilizado. A seleção do primeiro estágio de codificador 26 ou do segundo estágio de codificador 28 é esquematicamente mostrada na figura 2 por meio do interruptor 24 que é controlado por um sinal de controlo 52 emitido pelo controlador 16. 0 sinal de controlo 52 indica se o primeiro estágio de codificador 26 ou o segundo estágio de codificador 28 deve ser utilizado. Com base no sinal de controlo 52, os sinais necessários esquematicamente indicados pela seta 54 na figura 2 e, pelo menos, incluindo os coeficientes de LPC, os coeficientes de LPC ponderados, o sinal de áudio, o sinal de áudio ponderado, o conjunto de atrasos de tom são aplicados tanto no primeiro estágio de codificador 26 quanto no segundo estágio de codificador 28. 0 estágio de codificador selecionado aplica o algoritmo de codificação associado e emite a representação codificada 56 ou 58 na interface de saída 30. A interface de saída 30 pode ser configurada para emitir um sinal de áudio codificado que pode compreender, entre outros dados, a representação codificada 56 ou 58, os coeficientes de LPC ou coeficientes de LPC ponderados, os parâmetros para o algoritmo de codificação selecionado e a informação sobre o algoritmo de codificação selecionado.
As formas de realização específicas para estimar a primeira e a segunda medições de qualidade, em que a primeira e segunda medições de qualidade são SNRs segmentares no domínio de sinal ponderado são agora descritas com referência à figura 3. A figura 3 mostra o primeiro estimador 12 e o segundo estimador 14 e as suas funcionalidades na forma de fluxogramas que mostram a respetiva estimativa etapa por etapa. ESTIMATIVA DA SNR SEGMENTAR DE TCX O primeiro estimador (TCX) recebe o sinal de áudio 40 (sinal de entrada) , os coeficientes de LPC ponderados 42 e o sinal de áudio ponderado 44 como entradas.
Na etapa 100, o sinal de áudio 40 é janelado. O janelamento pode ocorrer com uma janela de seno de baixa sobreposição de 10 ms. Quando o quadro passado for ACELP, o tamanho do bloco pode ser aumentado em 5 ms, o lado esquerdo da janela pode ser retangular e a resposta de impulso com janela zero do filtro de síntese de ACELP pode ser removida do sinal de entrada janelado. Isso é semelhante ao que é realizado no algoritmo de TCX. Um quadro do sinal de áudio 40, que representa uma porção do sinal de áudio, é emitido da etapa 100.
Na etapa 102, o sinal de áudio janelado, ou seja, o quadro resultante, é transformado com uma MDCT (transformada de cosseno discreto modificado) . Na etapa 104, a formação do espetro é realizada pela formação do espetro de MDCT com os coeficientes de LPC ponderados.
Na etapa 106, um ganho global G é estimado de modo que o espetro ponderado quantificado com o ganho G produziria um dado alvo R, quando codificado com um codificador por entropia, por exemplo, um codificador aritmético. O termo "ganho global" é utilizado desde que um ganho seja determinado para toda o quadro.
Um exemplo de uma implementação da estimativa do ganho global é agora explicado. Deve-se observar que essa estimativa do ganho global é apropriada para as formas de realização nas quais o algoritmo de TCX de codificação utiliza um quantificador em escala com um codificador aritmético. Tal quantificador em escala com um codificador aritmético é assumido na norma MPEG USAC.
INICIALIZAÇÃO
Em primeiro lugar, as variáveis utilizadas na estimativa de ganho são inicializadas por: 1. Definição de en[i] = 9,0 + 10,0*logl0(c[4*i+0] + c[4*i+l] + c[4*i+2] + c[4*i+3]), em que 0<=i<L/4, c[] é o vetor de coeficientes para quantificar e L é o comprimento de c[]. 2. Definição de fac = 128, compensação = fac e alvo = qualquer valor (por exemplo, 1000).
ITERAÇÃO
Então, o seguinte bloco de operações é realizado NITER vezes (por exemplo, aqui, NITER = 10).
O resultado da iteração é o valor de compensação. Após a iteração, o ganho global é estimado como G 10Λ(compensação/20) . A forma especifica na qual o ganho global é estimado pode variar dependendo do quantificador e do codificador por entropia utilizado. Na norma MPEG USAC, um quantificador em escala com um codificador aritmético é assumido. Outras abordagens de TCX podem utilizar um quantificador diferente e é entendido pelos peritos na arte como estimar o ganho global para tais quantificadores diferentes. Por exemplo, a norma AMR-WB+ presume que um quantificador em grade RE8 é utilizado. Para tal quantificador, a estimativa do ganho global poderia ser estimada conforme descrito no capítulo 5.3.5.7 na página 34 de 3GPP TS 26.290 V6.1.0 2004-12, em que uma taxa de bits alvo fixa ser assumida.
Após ter estimado o ganho global na etapa 106, a estimativa da distorção ocorre na etapa 108. Para ser mais específico, a distorção do quantificador é aproximada com base no ganho global estimado. Na presente forma de realização, presume-se que um quantificador em escala uniforme seja utilizado. Assim, a distorção do quantificador é determinada com a simples fórmula D=G*G/12, em que D representa a distorção do quantificador determinada e G representa o ganho global estimado. Isso corresponde à aproximação de alta taxa de uma distorção do quantificador em escala uniforme.
Com base na distorção do quantificador determinada, o cálculo de SNR segmentar é realizado na etapa 110. A SNR em cada subquadro do quadro é calculada como a razão da energia do sinal de áudio ponderado e a distorção D que é assumida como constante nos subquadros. Por exemplo, o quadro é dividido em quatro subquadros consecutivos (ver figura 4) . A SNR segmentar é então a média das SNRs dos quatro subquadros e pode ser indicada em dB.
Esta abordagem permite a estimativa da primeira SNR segmentar que seria obtida ao codificar e descodificar realmente o quadro do sujeito utilizando o algoritmo de TCX, no entanto, sem ter que realmente codificar e descodificar o sinal de áudio e, assim, com uma complexidade fortemente reduzida e tempo de cálculo reduzido. ESTIMATIVA DA SNR SEGMENTAR DE ACELP 0 segundo estimador 14 recebe o sinal de áudio ponderado 44 e o conjunto de atrasos de tom 48 que já está calculado na unidade de pré-processamento 22.
Conforme mostrado na etapa 112, em cada subquadro, o codebook adaptativo é aproximado simplesmente utilizando o sinal de áudio ponderado e o atraso de tom T. 0 codebook adaptativo é aproximado por
em que xw é o sinal de áudio ponderado, T é o atraso de tom do subquadro correspondente e N é o comprimento do subquadro. Certamente, o codebook adaptativo é aproximado utilizando uma versão do subquadro transferido ao passado por T. Assim, nas formas de realização da invenção, o codebook adaptativo é aproximado numa forma muito simples.
Na etapa 114, um ganho do codebook adaptativo para cada subquadro é determinado. Para ser mais específico, em cada subquadro, o ganho do codebook G é estimado de modo que reduz o erro entre o sinal de áudio ponderado e o codebook adaptativo aproximado. Isso pode ser realizado comparando simplesmente as diferenças entre os dois sinais para cada amostra e encontrando um ganho de modo que a soma destas diferenças seja mínima.
Na etapa 116, a distorção do codebook adaptativo para cada subquadro é determinada. Em cada subquadro, a distorção D introduzida pelo codebook adaptativo é simplesmente a energia do erro entre o sinal de áudio ponderado e o codebook adaptativo aproximado escalado pelo ganho G.
As distorções determinadas na etapa 116 podem ser ajustadas numa etapa opcional 118 a fim de levar o codebook inovador em consideração. A distorção do codebook inovador utilizado nos algoritmos de ACELP pode ser simplesmente estimada como um valor constante. Na forma de realização descrita da invenção, simplesmente presume-se que o codebook inovador reduza a distorção D por um fator constante. Assim, as distorções obtidas na etapa 116 para cada subquadro podem ser multiplicadas na etapa 118 por um fator constante, como um fator constante na ordem de 0 a 1, como 0,055.
Na etapa 120, o cálculo da SNR segmentar ocorre. Em cada subquadro, a SNR é calculada como a razão da energia do sinal de áudio ponderado e a distorção D. A SNR segmentar é então a média da SNR dos quatro subquadros e pode ser indicada em dB.
Essa abordagem permite a estimativa da segunda SNR que seria obtida ao codificar e descodificar realmente o quadro do sujeito utilizando o algoritmo de ACELP, no entanto, sem ter que realmente codificar e descodificar o sinal de áudio e, assim, com uma complexidade fortemente reduzida e tempo de cálculo reduzido. O primeiro e o segundo estimadores 12 e 14 emitem as SNRs estimadas segmentares 46, 50 ao controlador 16 e o controlador 16 toma uma decisão de qual o algoritmo a ser utilizado para a porção do sinal de áudio associada com base nas SNRs estimadas segmentares 46, 50. 0 controlador pode opcionalmente utilizar um mecanismo de histerese a fim de tomar a decisão mais estável. Por exemplo, o mesmo mecanismo de histerese que na decisão do circuito fechado pode ser utilizado com parâmetros de sintonização levemente diferentes. Tal mecanismo de histerese pode calcular um valor "dsnr" que pode depender das SNRs estimadas segmentares (como a diferença entre eles) e outros parâmetros, como estatística sobre as decisões prévias, o número de quadros temporalmente estacionários e transientes nos quadros .
Sem um mecanismo de histerese, o controlador pode selecionar o algoritmo de codificação tendo a SNR estimada mais alta, ou seja, ACELP é selecionado se a segunda SNR estimada for mais alta menor do que a primeira SNR estimado e TCX é selecionado se a primeira SNR estimada for mais alta do que a segunda SNR estimada. Com um mecanismo de histerese, o controlador pode selecionar o algoritmo de codificação de acordo com a seguinte regra de decisão, em que acelp_snr é a segunda SNR estimada e tcx_snr é a primeira SNR estimada: se acelp_snr + dsnr > tcx_snr, então, selecionar ACELP, caso contrário, selecionar TCX.
Certamente, as formas de realização da invenção permitem estimar SNRs segmentares e selecionar um algoritmo de codificação apropriado numa forma simples e precisa.
Nas formas de realização acima, as SNRs segmentares são estimadas pelo cálculo de uma média de SNRs estimadas para os respetivos subquadros. Nas formas de realização alternativas, a SNR de todo um quadro poderia ser estimada sem dividir o quadro em subquadros.
As formas de realização da invenção permitem uma forte redução ao calcular o tempo quando comparado com uma seleção de circuito fechado visto que um número de etapas necessário na seleção de circuito fechado é omitido.
Certamente, um grande número de etapas e o tempo de cálculo associado com ele pode ser economizado pela abordagem inventiva enquanto ainda permite a seleção de um algoritmo de codificação apropriado com bom desempenho.
Embora alguns aspetos tenham sido descritos no contexto de um aparelho, é evidente que esses aspetos também representam uma descrição do método correspondente, em que um bloco ou dispositivo corresponde a uma etapa do método ou um recurso de uma etapa do método. De maneira análoga, os aspetos descritos no contexto de uma etapa do método também representam uma descrição de um bloco ou item ou recurso correspondente de um aparelho correspondente.
Formas de realização dos aparelhos descritos neste documento e os seus recursos podem ser implementados por um computador, um ou mais processador(es), um ou mais microprocessador(es), arranjos de portas de campo programáveis (FPGAs | field-programmable gate arrays) , circuitos integrados específicos por aplicação (ASICs | application specific integrated circuits) e semelhantes ou combinações respetivas, que são configurados ou programados a fim de fornecer as funcionalidades descritas. Algumas ou todas as etapas do método podem ser executadas por (ou utilizando) um aparelho de hardware, como, por exemplo, um microprocessador, um computador programável ou um circuito eletrónico. Em algumas formas de realização, uma ou mais das etapas do método mais importantes podem ser executadas por tal aparelho.
Dependendo de certas exigências da implementação, as formas de realização da invenção podem ser implementadas em hardware ou em software. A implementação pode ser realizada utilizando um meio de armazenamento não transitório como um meio de armazenamento digital, por exemplo, uma disquete, um DVD, um Blu-Ray, um CD, uma ROM, uma PROM, e EPROM, uma EEPROM ou uma memória FLASH, tendo sinais de controlo eletronicamente legíveis armazenados nelas, que cooperam (ou podem cooperar) com um sistema de computador programável de modo que o respetivo método seja realizado. Assim, o meio de armazenamento digital pode ser legível por computador.
Algumas formas de realização de acordo com a invenção compreendem um suporte de dados tendo sinais de controlo eletronicamente legíveis, que podem cooperar com um sistema de computador programável, de modo que um dos métodos descritos aqui seja realizado.
Geralmente, as formas de realização da presente invenção podem ser implementadas como um produto de programa de computador com um código do programa, o código do programa sendo operativo para realizar um dos métodos quando o produto do programa de computador é executado num computador. 0 código do programa pode, por exemplo, ser armazenado num suporte legível por máquina.
Outras formas de realização compreendem o programa de computador para realizar um dos métodos descritos aqui, armazenados num suporte legível por máquina.
Por outras palavras, uma forma de realização do método inventivo é, portanto, um programa de computador tendo um código do programa para realizar um dos métodos descritos aqui, quando o programa de computador é executado num computador.
Outra forma de realização do método inventivo é, portanto, um suporte de dados (ou um meio de armazenamento digital, ou um meio legível por computador) compreendendo, gravado nele, o programa de computador para realizar um dos métodos descritos aqui. 0 suporte de dados, o meio de armazenamento digital ou o meio gravado são tipicamente tangíveis e/ou não transitórios. Outra forma de realização do método inventivo é, portanto, um fluxo de dados ou uma sequência de sinais que representam o programa de computador para realizar um dos métodos descritos aqui. 0 fluxo de dados ou a sequência de sinais pode, por exemplo, ser configurado para ser transferido por meio de uma conexão de comunicação de dados, por exemplo, via internet.
Outra forma de realização compreende um meio de processamento, por exemplo, um computador ou um dispositivo lógico programável, configurado para, ou programado, para realizar um dos métodos descritos aqui.
Outra forma de realização compreende um computador com o programa de computador instalado nele para realizar um dos métodos descritos aqui.
Outra forma de realização de acordo com a invenção compreende um aparelho ou um sistema configurado para transferir (por exemplo, eletronicamente ou oticamente) um programa de computador para realizar um dos métodos descritos aqui a um recetor. 0 recetor pode, por exemplo, ser um computador, um dispositivo móvel, um dispositivo de memória ou semelhantes. 0 aparelho ou sistema pode, por exemplo, compreender um servidor de arquivo para transferir o programa de computador ao recetor.
Em algumas formas de realização, um dispositivo lógico programável (por exemplo, um arranjo de portas de campo programáveis) pode ser utilizado para realizar algumas ou todas as funcionalidades dos métodos descritos aqui. Em algumas formas de realização, um arranjo de portas de campo programáveis pode cooperar com um microprocessador, a fim de realizar um dos métodos descritos aqui. Geralmente, os métodos são preferivelmente realizados por qualquer aparelho de hardware.
As formas de realização descritas acima são meramente ilustrativas para os princípios da presente invenção. Entende-se que as modificações e variações das disposições e detalhes descritos aqui serão evidentes aos peritos na arte. E a intenção, portanto, estar limitado apenas pelo âmbito das reivindicações de patente iminentes e não pelos detalhes específicos apresentados a título descritivo e explanatório das formas de realização deste documento.

Claims (23)

  1. REIVINDICAÇÕES
    1. Aparelho (10) para selecionar um de um primeiro algoritmo de codificação, tendo uma primeira caracteristica, e um segundo algoritmo de codificação, tendo uma segunda caracteristica, para codificar uma porção de um sinal de áudio (40) para obter uma versão codificada da porção do sinal de áudio (40), compreendendo: um primeiro estimador (12) para estimar uma primeira medição de qualidade para a porção do sinal de áudio, a primeira medição de qualidade estando associada ao primeiro algoritmo de codificação, sem codificar e descodificar realmente a porção do sinal de áudio utilizando o primeiro algoritmo de codificação; um segundo estimador (14) para estimar uma segunda medição de qualidade para a porção do sinal de áudio, a segunda medição de qualidade estando associada ao segundo algoritmo de codificação, sem codificar e descodificar realmente a porção do sinal de áudio utilizando o segundo algoritmo de codificação; e um controlador (16) para selecionar o primeiro algoritmo de codificação ou o segundo algoritmo de codificação com base numa comparação entre a primeira medição de qualidade e a segunda medição de qualidade, em que a primeira e segunda medições de qualidade são razões sinal para ruído, SNRs, ou SNRs segmentares da porção correspondente de uma versão ponderada do sinal de áudio.
  2. 2. Aparelho (10) de acordo com a reivindicação 1, em que o primeiro algoritmo de codificação é um algoritmo de codificação por transformada, um algoritmo de codificação com base em transformada de cosseno discreta modificada, MDCT, ou um algoritmo de codificação de excitação de codificação por transformada, TCX, e em que o segundo algoritmo de codificação é um algoritmo de codificação de previsão linear excitada por código, CELP, ou um algoritmo de codificação de previsão linear excitada por código algébrico, ACELP.
  3. 3. Aparelho (10) de acordo com qualquer uma das reivindicações 1 ou 2, em que o primeiro estimador (12) é configurado para determinar uma distorção estimada do quantificador, que o quantificador utilizado no primeiro algoritmo de codificação introduziria ao quantificar a porção do sinal de áudio e para estimar a primeira medição de qualidade com base numa energia de uma porção de uma versão ponderada do sinal de áudio e da distorção estimada do quantificador.
  4. 4. Aparelho (10) de acordo com a reivindicação 3, em que o primeiro estimador (12) é configurado para estimar um ganho global para a porção do sinal de áudio, de modo que a porção do sinal de áudio produza uma dada taxa de bits alvo quando codificada com um quantificador e um codificador por entropia utilizado no primeiro algoritmo de codificação, em que o primeiro estimador (12) está ainda configurado para determinar a distorção estimada do quantificador com base numa potência de ganho global estimado, em que o quantificador usado no primeiro algoritmo de codificação é um quantificador em escala uniforme, e em que o primeiro estimador (12) é configurado para determinar a distorção estimada do quantificador utilizando a fórmula D = G*G/12, em que D é a distorção estimada do quantificador e G é o ganho global estimado.
  5. 5. Aparelho (10) de acordo com qualquer uma das reivindicações 3 ou 4, em que a primeira medição de qualidade é uma SNR segmentar de uma porção do sinal de áudio ponderado e em que o primeiro estimador (12) é configurado para estimar a SNR segmentar pelo cálculo de uma SNR estimada associada com cada uma de uma pluralidade de subporções da porção do sinal de áudio ponderado com base numa energia das subporções correspondentes do sinal de áudio ponderado e da distorção estimada do quantificador e pelo cálculo de uma média das SNRs associadas com as subporções da porção do sinal de áudio ponderado para obter a SNR estimada segmentar para a porção do sinal de áudio ponderado.
  6. 6. Aparelho (10) de acordo com qualquer uma das reivindicações de 1 a 5, em que o segundo estimador (14) é configurado para determinar uma distorção do codebook adaptativo estimada, que um codebook adaptativo utilizado no segundo algoritmo de codificação introduziria ao utilizar o codebook adaptativo para codificar a porção do sinal de áudio, e em que o segundo estimador (14) é configurado para estimar a segunda medição de qualidade com base numa energia de uma porção de uma versão ponderada do sinal de áudio e da distorção do codebook adaptativo estimada, em que, para cada uma de uma pluralidade de subporções da porção do sinal de áudio, o segundo estimador (14) é configurado para aproximar o codebook adaptativo com base numa versão da subporção do sinal de áudio ponderado transferido ao passado por um atraso de tom determinado num estágio de pré-processamento, para estimar um ganho do codebook adaptativo, de modo que um erro entre a subporção da porção do sinal de áudio ponderado e o codebook adaptativo aproximado seja reduzido, e para determinar a distorção do codebook adaptativo estimada com base na energia de um erro entre a subporção da porção do sinal de áudio ponderado e o codebook adaptativo aproximado escalado pelo ganho do codebook adaptativo.
  7. 7. Aparelho (10) de acordo com a reivindicação 6, em que o segundo estimador (14) é configurado, ainda, para reduzir a distorção do codebook adaptativo estimada determinada para cada subporção da porção do sinal de áudio por um fator constante.
  8. 8. Aparelho (10) de acordo com a reivindicação 6 ou 7, em que a segunda medição de qualidade é uma SNR segmentar da porção do sinal de áudio ponderado, e em que o segundo estimador (14) é configurado para estimar a SNR segmentar pelo cálculo de uma SNR estimada associada com cada subporção com base na energia da subporção do sinal de áudio ponderado correspondente e da distorção do codebook adaptativo estimada e pelo cálculo de uma média das SNRs associadas com as subporções para obter a SNR estimada segmentar para a porção do sinal de áudio ponderado.
  9. 9. Aparelho (10) de acordo com a reivindicação 6, em que o segundo estimador (14) é configurado para aproximar o codebook adaptativo com base numa versão da porção do sinal de áudio ponderado transferido ao passado por um atraso de tom determinado num estágio de pré-processamento, para estimar um ganho do codebook adaptativo de modo que um erro entre a porção do sinal de áudio ponderado e o codebook adaptativo aproximado seja reduzido, e para determinar a distorção do codebook adaptativo estimada com base na energia de um erro entre a porção do sinal de áudio ponderado e o codebook adaptativo aproximado escalado pelo ganho do codebook adaptativo.
  10. 10. Aparelho (10) de acordo com qualquer uma das reivindicações de 1 a 9, em que o controlador (16) é configurado para utilizar uma histerese ao comparar as medições de qualidade estimadas.
  11. 11. Aparelho (20) para codificar uma porção de um sinal de áudio, compreendendo o aparelho (10), de acordo com qualquer uma das reivindicações de 1 a 10, um primeiro estágio de codificador (26) para realizar o primeiro algoritmo de codificação e um segundo estágio de codificador (28) para realizar o segundo algoritmo de codificação, em que o aparelho para codificar (20) é configurado para codificar a porção do sinal de áudio utilizando o primeiro algoritmo de codificação ou o segundo algoritmo de codificação dependendo da seleção pelo controlador (16) .
  12. 12. Sistema para codificação e descodificação, compreendendo um aparelho (20) para codificação, de acordo com a reivindicação 11, e um descodificador configurado para receber a versão codificada da porção do sinal de áudio e uma indicação do algoritmo utilizado para codificar a porção do sinal de áudio e para descodificar a versão codificada da porção do sinal de áudio utilizando o algoritmo indicado.
  13. 13. Método para selecionar um de um primeiro algoritmo de codificação, tendo uma primeira caracteristica, e um segundo algoritmo de codificação, tendo uma segunda caracteristica, para codificar uma porção de um sinal de áudio para obter uma versão codificada da porção do sinal de áudio, compreendendo: estimar uma primeira medição de qualidade para a porção do sinal de áudio, a primeira medição de qualidade estando associada ao primeiro algoritmo de codificação, sem codificar e descodificar realmente a porção do sinal de áudio utilizando o primeiro algoritmo de codificação; estimar uma segunda medição de qualidade para a porção do sinal de áudio, a segunda medição de qualidade estando associada ao segundo algoritmo de codificação, sem codificar e descodificar realmente a porção do sinal de áudio utilizando o segundo algoritmo de codificação; e selecionar o primeiro algoritmo de codificação ou o segundo algoritmo de codificação com base numa comparação entre a primeira medição de qualidade e a segunda medição de qualidade, em que a primeira e segunda medições de qualidade são razões sinal para ruído, SNRs, ou SNRs segmentares da porção correspondente de uma versão ponderada do sinal de áudio.
  14. 14. Método de acordo com a reivindicação 13, em que o primeiro algoritmo de codificação é um algoritmo de codificação por transformada, um algoritmo de codificação com base em transformada de cosseno discreta modificada, MDCT, ou um algoritmo de codificação de excitação de codificação por transformada, TCX, e em que o segundo algoritmo de codificação é um algoritmo de codificação de previsão linear excitada por código, CELP, ou um algoritmo de codificação de previsão linear excitada por código algébrico, ACELP.
  15. 15. Método de acordo com qualquer uma das reivindicações 13 ou 14, compreendendo determinar (108) uma distorção estimada do quantificador, que um quantificador utilizado no primeiro algoritmo de codificação introduziria ao quantificar a porção do sinal de áudio, e determinar a medição de qualidade com base numa energia de uma porção de uma versão ponderada do sinal de áudio e da distorção estimada do quantificador.
  16. 16. Método de acordo com a reivindicação 15, compreendendo estimar (106) um ganho global para a porção do sinal de áudio, de modo que a porção do sinal de áudio produza uma dada taxa de bits alvo quando codificada com um quantif icador e um codificador por entropia utilizado no primeiro algoritmo de codificação, e determinar (108) a distorção estimada do quantificador com base numa potência de ganho global estimado, em que o quantificador é um quantificador em escala uniforme, em que a distorção estimada do quantificador é determinada utilizando a fórmula D = G*G/12, em que D é a distorção estimada do quantificador e G é o ganho global estimado.
  17. 17. Método de acordo com qualquer uma das reivindicações 15 ou 16, em que a primeira medição de qualidade é uma SNR segmentar da codificação preditiva linear, LPC, versão filtrada de uma porção do sinal de áudio ponderado e compreendendo a estimativa da primeira SNR segmentada pelo cálculo de uma SNR estimada associada com cada uma de uma pluralidade de subporçoes da porção do sinal de áudio ponderado com base numa energia das subporçoes correspondentes do sinal de áudio ponderado e da distorção estimada do quantificador e pelo cálculo de uma média das SNRs associadas com as subporçoes da porção do sinal de áudio ponderado para obter a SNR estimada segmentar para a porção do sinal de áudio ponderado.
  18. 18. Método de acordo com qualquer uma das reivindicações de 13 a 17, compreendendo determinar uma distorção do codebook adaptativo estimada (116), que um codebook adaptativo utilizado no segundo algoritmo de codificação introduziria ao utilizar o codebook adaptativo para codificar a porção do sinal de áudio, e estimar a segunda medição de qualidade com base numa energia de uma porção de uma versão ponderada do sinal de áudio e da distorção do codebook adaptativo estimada, e compreendendo, para cada uma de uma pluralidade de subporções da porção do sinal de áudio, aproximar (112) o codebook adaptativo com base numa versão da subporção do sinal de áudio ponderado transferido ao passado por um atraso de tom determinado num estágio de pré-processamento, estimar (114) um ganho do codebook adaptativo, de modo que um erro entre a subporção da porção do sinal de áudio ponderado e o codebook adaptativo aproximado seja reduzido, e determinar (116) a distorção do codebook adaptativo estimada com base na energia de um erro entre a subporção da porção do sinal de áudio ponderado e o codebook adaptativo aproximado escalado pelo ganho do codebook adaptativo.
  19. 19. Método de acordo com a reivindicação 18, compreendendo reduzir (118) a distorção do codebook adaptativo estimada determinada para cada subporção da porção do sinal de áudio por um fator constante.
  20. 20. Método de acordo com a reivindicação 18 ou 19, em que a segunda medição de qualidade é uma SNR segmentar da porção do sinal de áudio ponderado e compreendendo estimar a SNR segmentar pelo cálculo de uma SNR estimada associada com cada subporção com base na energia da subporção do sinal de áudio ponderado correspondente e da distorção do codebook adaptativo estimada e pelo cálculo de uma média das SNRs associadas com as subporções para obter a SNR estimada segmentar para a porção do sinal de áudio ponderado.
  21. 21. Método de acordo com a reivindicação 18, compreendendo aproximar o codebook adaptativo com base numa versão da porção do sinal de áudio ponderado transferido ao passado por um atraso de tom determinado num estágio de pré-processamento, estimar um ganho do codebook adaptativo, de modo que um erro entre a porção do sinal de áudio ponderado e o codebook adaptativo aproximado seja reduzido, e determinar a distorção do codebook adaptativo estimada com base na energia de um erro entre a porção do sinal de áudio ponderado e o codebook adaptativo aproximado escalado pelo ganho do codebook adaptativo.
  22. 22. Método de acordo com qualquer uma das reivindicações de 13 a 21, compreendendo o uso de uma histerese ao comparar as medições de qualidade estimadas.
  23. 23. Programa de computador, tendo um código do programa para realizar, ao ser executado num computador, o método, de acordo com qualquer uma das reivindicações de 13 a 22.
PT147025050T 2013-01-29 2014-01-28 Aparelho e método para selecionar um de um primeiro algoritmo de codificação e um segundo algoritmo de codificação PT2951820T (pt)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US201361758100P 2013-01-29 2013-01-29

Publications (1)

Publication Number Publication Date
PT2951820T true PT2951820T (pt) 2017-03-02

Family

ID=50033499

Family Applications (1)

Application Number Title Priority Date Filing Date
PT147025050T PT2951820T (pt) 2013-01-29 2014-01-28 Aparelho e método para selecionar um de um primeiro algoritmo de codificação e um segundo algoritmo de codificação

Country Status (19)

Country Link
US (4) US20150332698A1 (pt)
EP (1) EP2951820B1 (pt)
JP (1) JP6148810B2 (pt)
KR (1) KR101701081B1 (pt)
CN (2) CN105229736B (pt)
AR (1) AR094676A1 (pt)
AU (1) AU2014211583B2 (pt)
BR (1) BR112015018021B1 (pt)
CA (1) CA2899013C (pt)
ES (1) ES2616434T3 (pt)
HK (1) HK1218461A1 (pt)
MX (1) MX347410B (pt)
MY (1) MY189267A (pt)
PL (1) PL2951820T3 (pt)
PT (1) PT2951820T (pt)
RU (1) RU2618848C2 (pt)
SG (1) SG11201505947XA (pt)
TW (1) TWI549120B (pt)
WO (1) WO2014118136A1 (pt)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2899013C (en) * 2013-01-29 2017-11-07 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method for selecting one of a first audio encoding algorithm and a second audio encoding algorithm
EP2830052A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, audio encoder, method for providing at least four audio channel signals on the basis of an encoded representation, method for providing an encoded representation on the basis of at least four audio channel signals and computer program using a bandwidth extension
CN107452391B (zh) 2014-04-29 2020-08-25 华为技术有限公司 音频编码方法及相关装置
CN110444219B (zh) * 2014-07-28 2023-06-13 弗劳恩霍夫应用研究促进协会 选择第一编码演算法或第二编码演算法的装置与方法
JP2016218345A (ja) * 2015-05-25 2016-12-22 ヤマハ株式会社 音素材処理装置および音素材処理プログラム
WO2017050398A1 (en) * 2015-09-25 2017-03-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and methods for signal-adaptive switching of the overlap ratio in audio transform coding
US10225730B2 (en) * 2016-06-24 2019-03-05 The Nielsen Company (Us), Llc Methods and apparatus to perform audio sensor selection in an audience measurement device
JP7387634B2 (ja) * 2018-04-11 2023-11-28 ドルビー ラボラトリーズ ライセンシング コーポレイション 機械学習に基づく音声符号化及び復号のための知覚に基づく損失関数

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1408146A (zh) * 2000-11-03 2003-04-02 皇家菲利浦电子有限公司 音频信号的参数编码
US6934676B2 (en) * 2001-05-11 2005-08-23 Nokia Mobile Phones Ltd. Method and system for inter-channel signal redundancy removal in perceptual audio coding
DE10124420C1 (de) * 2001-05-18 2002-11-28 Siemens Ag Verfahren zur Codierung und zur Übertragung von Sprachsignalen
DE102004007200B3 (de) * 2004-02-13 2005-08-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audiocodierung
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
FI118835B (fi) 2004-02-23 2008-03-31 Nokia Corp Koodausmallin valinta
FI119533B (fi) * 2004-04-15 2008-12-15 Nokia Corp Audiosignaalien koodaus
US7739120B2 (en) 2004-05-17 2010-06-15 Nokia Corporation Selection of coding models for encoding an audio signal
CA2566368A1 (en) 2004-05-17 2005-11-24 Nokia Corporation Audio encoding with different coding frame lengths
CN101124626B (zh) * 2004-09-17 2011-07-06 皇家飞利浦电子股份有限公司 用于最小化感知失真的组合音频编码
KR20070085788A (ko) 2004-11-05 2007-08-27 코닌클리케 필립스 일렉트로닉스 엔.브이. 신호 속성들을 사용한 효율적인 오디오 코딩
DE602006002739D1 (de) * 2006-06-30 2008-10-23 Fraunhofer Ges Forschung Audiokodierer, Audiodekodierer und Audioprozessor mit einer dynamisch variablen Warp-Charakteristik
US7873511B2 (en) * 2006-06-30 2011-01-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
US7953595B2 (en) 2006-10-18 2011-05-31 Polycom, Inc. Dual-transform coding of audio signals
JP4984983B2 (ja) * 2007-03-09 2012-07-25 富士通株式会社 符号化装置および符号化方法
US8527265B2 (en) * 2007-10-22 2013-09-03 Qualcomm Incorporated Low-complexity encoding/decoding of quantized MDCT spectrum in scalable speech and audio codecs
EP2144230A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
ES2592416T3 (es) 2008-07-17 2016-11-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Esquema de codificación/decodificación de audio que tiene una derivación conmutable
KR101649376B1 (ko) * 2008-10-13 2016-08-31 한국전자통신연구원 Mdct 기반 음성/오디오 통합 부호화기의 lpc 잔차신호 부호화/복호화 장치
BR122020024236B1 (pt) * 2009-10-20 2021-09-14 Fraunhofer - Gesellschaft Zur Förderung Der Angewandten Forschung E. V. Codificador de sinal de áudio, decodificador de sinal de áudio, método para prover uma representação codificada de um conteúdo de áudio, método para prover uma representação decodificada de um conteúdo de áudio e programa de computador para uso em aplicações de baixo retardamento
JP5679470B2 (ja) * 2010-09-10 2015-03-04 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 符号化装置及び符号化方法
KR101525185B1 (ko) * 2011-02-14 2015-06-02 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 트랜지언트 검출 및 품질 결과를 사용하여 일부분의 오디오 신호를 코딩하기 위한 장치 및 방법
CA2899013C (en) * 2013-01-29 2017-11-07 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method for selecting one of a first audio encoding algorithm and a second audio encoding algorithm
CN110444219B (zh) * 2014-07-28 2023-06-13 弗劳恩霍夫应用研究促进协会 选择第一编码演算法或第二编码演算法的装置与方法

Also Published As

Publication number Publication date
MX347410B (es) 2017-04-26
BR112015018021A2 (pt) 2017-07-11
MX2015009745A (es) 2015-11-06
HK1218461A1 (zh) 2017-02-17
US20230079574A1 (en) 2023-03-16
JP2016505902A (ja) 2016-02-25
US20190103121A1 (en) 2019-04-04
US20200227059A1 (en) 2020-07-16
US20150332698A1 (en) 2015-11-19
AU2014211583A1 (en) 2015-09-17
CA2899013C (en) 2017-11-07
BR112015018021B1 (pt) 2022-10-11
CN105229736A (zh) 2016-01-06
JP6148810B2 (ja) 2017-06-14
US11908485B2 (en) 2024-02-20
PL2951820T3 (pl) 2017-06-30
CN110517700B (zh) 2023-06-09
CN105229736B (zh) 2019-07-19
EP2951820A1 (en) 2015-12-09
RU2618848C2 (ru) 2017-05-12
AR094676A1 (es) 2015-08-19
ES2616434T3 (es) 2017-06-13
EP2951820B1 (en) 2016-12-07
RU2015136467A (ru) 2017-03-07
TW201434037A (zh) 2014-09-01
TWI549120B (zh) 2016-09-11
WO2014118136A1 (en) 2014-08-07
US10622000B2 (en) 2020-04-14
MY189267A (en) 2022-01-31
KR101701081B1 (ko) 2017-01-31
CA2899013A1 (en) 2014-08-07
KR20150108848A (ko) 2015-09-30
CN110517700A (zh) 2019-11-29
SG11201505947XA (en) 2015-09-29
AU2014211583B2 (en) 2017-01-05
US11521631B2 (en) 2022-12-06

Similar Documents

Publication Publication Date Title
PT2951820T (pt) Aparelho e método para selecionar um de um primeiro algoritmo de codificação e um segundo algoritmo de codificação
BR112015029172B1 (pt) Aparelho e método para selecionar um dentre um primeiro algoritmo de codificação e um segundo algoritmo de codificação com o uso de redução de harmônicos
JP6153661B2 (ja) 改善されたパルス再同期化を採用するacelp型封じ込めにおける適応型コードブックの改善された封じ込めのための装置および方法
JP7202161B2 (ja) 改善されたピッチラグ推定を採用するacelp型封じ込めにおける適応型コードブックの改善された封じ込めのための装置および方法
BR112013026333B1 (pt) método de classificação de sinal de áudio baseada em quadro, classificador de áudio, dispositivo de comunicação de áudio, e, disposição de codec de áudio
CA2910878C (en) Apparatus and method for selecting one of a first encoding algorithm and a second encoding algorithm using harmonics reduction