PT1697930E - Equipamento e método para o processamento de um sinal multi-canais - Google Patents

Equipamento e método para o processamento de um sinal multi-canais Download PDF

Info

Publication number
PT1697930E
PT1697930E PT05715611T PT05715611T PT1697930E PT 1697930 E PT1697930 E PT 1697930E PT 05715611 T PT05715611 T PT 05715611T PT 05715611 T PT05715611 T PT 05715611T PT 1697930 E PT1697930 E PT 1697930E
Authority
PT
Portugal
Prior art keywords
prediction
channel
similarity
block
channels
Prior art date
Application number
PT05715611T
Other languages
English (en)
Inventor
Michael Schug
Juergen Herre
Alexander Groeschl
Original Assignee
Fraunhofer Ges Forschung
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Ges Forschung filed Critical Fraunhofer Ges Forschung
Publication of PT1697930E publication Critical patent/PT1697930E/pt

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/03Spectral prediction for preventing pre-echo; Temporary noise shaping [TNS], e.g. in MPEG2 or MPEG4
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Time-Division Multiplex Systems (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Stereophonic System (AREA)
  • Stereo-Broadcasting Methods (AREA)
  • Radio Relay Systems (AREA)
  • Electrical Discharge Machining, Electrochemical Machining, And Combined Machining (AREA)
  • Detergent Compositions (AREA)
  • Color Image Communication Systems (AREA)

Description

EQUIPAMENTO E MlfODO PARA O PROCESSAMENTO DE UM SINAL
MULTI-CANAIS A presente invenção refere-se a codificadores de áudio, e particularmente a codificadores de áudio que são baseados em transformação, isto é, caracterizados pelo facto de ser realizada uma conversão de uma representação temporal em uma representação espectral no inicio do pipeline do codificador.
Está mostrado na Fig. 3 um codificador conhecido de áudio baseado em transformação. 0 codificador mostrado na Fig. 3, está ilustrado no padrão internacional ISO/IEC 14496-3: 2001 (E), sub parte 4, página 4, e também conhecido na tecnologia como codificador AAC.
Será apresentado abaixo o codificador da técnica anterior. E enviado um sinal de áudio a ser codificado para uma entrada 1000. Esse sinal de áudio é inicialmente enviado a um estágio de graduação 1002, caracterizado pelo facto de que o denominado controlo de ganho AAC é feito para estabelecer o nivel do sinal de áudio. São enviadas as informações colaterais da graduação a um formatador de sequência de bits 1004, como representado pela flecha localizada entre o bloco 1002 e o bloco 1004. O sinal de áudio graduado é então enviado a um banco de filtros MDCT 1006. Com o codificador AAC, o banco de filtros implementa uma transformada co-seno discreta modificada com 50% de janelas de sobreposição, sendo o comprimento da janela determinado por um bloco 1008.
Falando geralmente, o bloco 1008 existe com o objectivo de janelar os sinais transientes com janelas relativamente curtas, e janelar sinais que tendem a ser estacionários com janelas relativamente longas. Isto serve para atingir um maior nivel de resolução de tempo (às custas da resolução de frequência) para sinais transientes, devido às janelas relativamente curtas, considerando que para os sinais que tendem a ser estacionários, é alcançada uma maior resolução de frequência (às custas da resolução de tempo) devido às janelas mais longas, havendo uma tendência para a preferência de janelas mais longas, já que resultam em um maior ganho de codificação. Na saída do banco de filtros 1006, existem blocos de valores espectrais - os blocos sendo sucessivos no tempo - que podem ser coeficientes MDCT, coeficientes de Fourier ou sinais de sub banda, dependendo da implementação do banco de filtros, cada sinal de sub banda tendo uma largura de banda limitada especificada pelo respectivo canal de sub banda no banco de filtros 1006, e cada sinal de sub banda tendo um número específico de amostras de sub bandas.
Segue-se uma apresentação, na forma de exemplo, do caso em que o banco de filtros envia temporalmente sucessivos blocos de coeficientes espectrais MDCT que, falando geralmente, representam sucessivos espectros de curto prazo do sinal de áudio a ser codificado na entrada 1000. Um bloco de valores espectrais MDCT é então enviado ao bloco de processamento TNS 1010 (TNS = temporary noise shaping) , caracterizado pelo facto de que é realizada a formatação de ruido temporal. A técnica TNS é usada para formatar a forma temporal do ruido de quantificação dentro de cada janela da transformada. Isto é feito aplicando um processo de filtragem às partes dos dados espectrais de cada canal. A codificação é feita com base nas janelas. Em particular, são feitas as seguintes etapas para aplicar a ferramenta TNS a uma janela de dados espectrais, isto é, a um bloco de valores espectrais.
Inicialmente, é seleccionada uma faixa de frequências para a ferramenta TNS. Uma selecção adequada compreende a cobertura de uma faixa de frequências de 1,5 KHz com um filtro, até a mais alta banda de factor de escala possível. Deve ser ressaltado que essa faixa de frequências depende da taxa de frequências, como especificado no padrão AAC fSS0/X8C 14496-3:2001 (E)) .
Subsequentemente, é realizado um cálculo LPC (LPC = linear predictive coding), para ser exacto, usando os coeficientes MDCT espectrais presentes na faixa de frequência alvo seleccionada. Para maior estabilidade, os coeficientes que correspondem às frequências abaixo de 2,5 kHz estão excluídos deste processo. Os procedimentos LPC comuns como são conhecidos a partir de conhecidos processamentos de fala podem ser usados para os cálculos LPC, por exemplo, o conhecido algoritmo de Levinson-Durbin. O cálculo é feito para a ordem máxima admissível do filtro de formatação de ruído.
Como resultado do cálculo LPC, é obtido o ganho de predição esperado PG. Além disso, são obtidos os coeficientes de reflexão, ou coeficientes Parcor.
Se o ganho de predição não ultrapassar um limite específico, a ferramenta TNS não é aplicada. Nesse caso, é escrita uma peça de informações de controlo na sequência de bits, de maneira que um descodificador saiba que não foi feito o processamento TNS.
Entretanto, se o ganho de predição ultrapassa um limite, é aplicado o processamento TNS.
Em uma próxima etapa, os coeficientes de reflexão são quantificados. A ordem usada do filtro de formatação de ruídos, é determinada removendo todos os coeficientes de reflexão que têm valor absoluto menor do que um limite a partir da "cauda" do conjunto de coeficientes de reflexão. O número dos coeficientes de reflexão restantes está na ordem de magnitude do filtro de formatação de ruídos. Um limite adequado é 0,1.
Os coeficientes de reflexão restantes são tipicamente convertidos em coeficientes de predição linear, sendo essa técnica conhecida como procedimento "step-up".
Os coeficientes LPC calculados são então usados como coeficientes de filtro de formatação de ruido de codificador, isto é, como coeficientes de filtro de predição. Esse filtro FIR é usado para filtrar na faixa especificada da frequência alvo. É usado um filtro auto regressivo para a descodificação, considerando que é usado na codificação o denominado filtro médio de movimento. Eventualmente, as informações colaterais para a ferramenta TNS são fornecidas para o formatador de sequência de bits, como representado pela flecha mostrada entre o bloco de processamento TNS 1010 e o formatador de sequência de bits 1004 na Fig. 3.
Depois, são passadas várias ferramentas opcionais que não são mostradas na Fig. 3, como uma ferramenta de predição de longo prazo, uma ferramenta de intensidade/acoplamento, uma ferramenta de predição, uma ferramenta de substituição de ruídos, até se chegar eventualmente a um codificador mid/side 1012. O codificador mid/side 1012 está activo quando o sinal de áudio a ser codificado é um sinal multi-canais, isto é, um sinal estéreo tendo um canal esquerdo e um canal direito. Até agora, isto é, a montante do bloco 1012 na Fig. 3, foram processados o canal estéreo esquerdo e direito, isto é, graduados, transformados pelo banco de filtros, submetidos ou não ao processamento TNS, etc., separadamente entre si.
No codificador mid/side, verifica-se inicialmente se uma codificação mid/side faz sentido, ou seja, se produzirá algum ganho de codificação. A codificação mid/side produzirá um ganho de codificação se os canais esquerdo e direito tenderem a ser similares, já que nesse caso, o canal meio, isto é, a soma dos canais esquerdo e direito, é quase igual ao canal esquerdo ou ao canal direito, separada da graduação por um factor de 1/2, considerando que o canal lateral tem somente valores muito pequenos, já que é igual à diferença entre os canais esquerdo e direito. Como consequência, é possível ver que quando os canais esquerdo e direito são aproximadamente o mesmo, a diferença é aproximadamente zero, ou inclui somente valores muito pequenos que - e esta é a esperança - serão quantificados para zero em um quantificador subsequente 1014, e assim pode ser transmitido de maneira muito eficiente, já que um codificador de entropia 1016 está conectado à jusante do quantificador 1014. O quantificador 1014 recebe uma interferência admissível por banda de factor de escala por um modelo psico-acústico 1020. O quantificador opera de maneira interactiva, isto é, é chamado inicialmente um ioop de interacção externa, que então chamará um loop de interacção interna. Falando em geral, partindo dos valores iniciais do tamanho do passo do quantificador, é feita inicialmente uma quantificação de um bloco de valores na entrada do quantificador 1014. Em particular, o loop interno quantifica os coeficientes MDCT, sendo consumido no processo um número especifico de bits. O loop externo calcula a distorção e a energia modificada dos coeficientes que usam o factor de escala, de maneira a chamar novamente um loop interno. Esse processo tem interacção por um tempo, até que seja alcançada uma cláusula condicional especifica. Para cada interacção no loop de interacção externa, o sinal é reconstruído de maneira a calcular a interferência introduzida pela quantificação, e para compará-la com a interferência permitida fornecida pelo modelo psico-acústico 1020. Além disso, os factores de escala dessas bandas de frequência, que depois dessa comparação ainda forem considerados como interferidos, são aumentados de um ou mais estágios de interacção em interacção, para ser preciso, para cada interacção do loop de interacção externa.
Quando for alcançada uma situação onde a interferência de quantificação introduzida pela quantificação estiver abaixo de uma interferência permitida determinada pelo modelo psico-acústico, e se ao mesmo tempo forem observadas as necessidades de bits, que declaram, para ser preciso, que não pode ser ultrapassado uma taxa de bits máxima, a interacção, isto é, o método de análise por síntese está acabado, e os factores de escala obtidos são codificados como ilustrado no bloco 1014, e são enviados codificados, ao formatador de bit 1004 como indicado pela flecha desenhada entre o bloco 1014 e o bloco 1004. Os valores quantificados são então enviados a um codificador de entropia 1016, que tipicamente faz a codificação de entropia para várias bandas de factor de escala usando várias tabelas de codificação de Huffman, de maneira a traduzir os valores quantificados em um formato binário. Como é sabido, a codificação de entropia sob a forma de codificação de Huffman envolve um retorno às tabelas de códigos, que são criadas com base na estatística do sinal esperado, e onde os valores de ocorrência frequente recebem palavras de código mais curtas do que os valores de ocorrência menos frequente. Os valores com codificação de entropia são então enviados, como informações principais reais, ao formatador de sequência de bits 1004, que então envia o sinal de áudio codificado para o lado da saída, de acordo com uma sintaxe específica de sequência de bits.
Como já foi apresentado, é usada a filtragem de predição para a formatação temporal do ruído de quantificação dentro de um quadro de codificação no bloco de processamento TNS 1010.
Em particular, a formatação temporal do ruído de quantificação é feita filtrando os coeficientes espectrais da frequência no codificador antes da quantificação e seguindo a filtração inversa no descodificador. O processamento TNS faz com que o envelope do ruído de quantificação seja alterado no tempo abaixo do envelope do sinal, para evitar os problemas de pré eco. A aplicação do TNS resulta de uma estimativa do ganho de predição da filtração, como apresentado anteriormente. Os coeficientes de filtro para cada quadro de codificação são determinados por meio de uma medida de correlação. O cálculo dos coeficientes de filtro é feito em separado para cada canal. Estes também são transmitidos em separado na sequência de bits codificados. É desvantajoso na activação/desactivação do conceito TNS, que para canal estéreo a filtração TNS ocorra separadamente para cada canal, uma vez tendo o processamento TNS sido activado devido a um bom ganho de codificação antecipado. Com canais relativamente diferentes, isto ainda não apresenta problemas. Mas se os canais esquerdo e direito forem relativamente similares, isto é, se os canais esquerdo e direito tiverem exactamente as mesmas informações úteis, em um exemplo extremo, como um falante, e somente diferindo com relação ao ruido contido inevitavelmente nos canais, ainda é calculado e usado na técnica anterior para cada canal um filtro TNS próprio. Como o filtro TNS depende directamente dos canais esquerdo e/ou direito e, em particular, reage com relativa sensibilidade aos dados espectrais do canal esquerdo e do canal direito, é feito um processamento TNS com um filtro de predição próprio para cada canal também no caso de um sinal em que os canais esquerdo e direito são muito similares, isto é, no caso do denominado "quasi-mono sinal". Isto ocorre em uma diferente formatação de ruído temporal que também ocorre nos dois canais estéreo, devido aos diferentes coeficientes de filtro.
Este efeito é desvantajoso por poder conduzir a problemas audíveis, jã que, por exemplo, a impressão sonora mono-like original obtém um carácter estéreo indesejado com essas diferenças temporais.
Entretanto, o procedimento conhecido, tem uma outra desvantagem, possivelmente ainda mais grave. Com o processamento TNS, os valores de saída TNS, isto é, os valores residuais espectrais, estão sujeitos a uma codificação mid/side no codificador míd/side 1002 da Fig. 3. Apesar dos dois canais ainda serem relativamente iguais antes do processamento TNS, não mais ocorre após o processamento TNS. Pelo efeito estéreo descrito,,que foi introduzido pelo processamento TNS separado, os valores residuais espectrais dos dois canais são tornados mais dissimilares do que seriam normalmente. Isto, leva a uma queda imediata no ganho de codificação devido à codificação mid/side, que é particularmente desvantajosa para aplicações em que seja necessária particularmente uma baixa taxa de bits.
Em resumo, a conhecida activação TNS é, portanto, problemática para sinais estéreo que usam informações de sinais similares, mas não exactamente idênticas em ambos os canais, tais como sinais de voz mono-like. Enquanto diferentes coeficientes de filtro forem determinados para os dois canais na detecção TNS, haverá uma formatação temporalmente diferente do ruído de quantificação nos canais. Isto pode levar a problemas audíveis, já que a impressão sonora mono-like original, por exemplo, obtém uma característica estéreo indesejada devido a essas diferenças temporais. Além disso, como já visto, o espectro TNS modificado fica submetido a uma codificação míd/side em uma etapa subsequente. Os diferentes filtros em ambos os canais também reduzem a similaridade dos coeficientes espectrais, e assim o ganho mid/side. A DE 19829284C2 revela um método e um equipamento para o processamento de um sinal estéreo temporal e um método e um equipamento para descodificar uma sequência de bits de áudio codificada, usando uma predição sobre a frequência. Dependendo da implementação, o canal esquerdo, o direito e o canal mono podem ser submetidos a uma predição de suas próprias frequências, isto é, um processamento TNS. Assim, pode ser feita uma própria predição completa para cada canal. Alternativamente, em uma predição incompleta, pode ocorrer um cálculo dos coeficientes de predição do canal esquerdo, que são então empregados para a filtração do canal direito e do canal mono. É o objectivo da presente invenção prover um conceito para o processamento de um sinal multi-canais que produza menos problemas, mas ainda uma boa compressão das informações.
Este é o objectivo atingido por um equipamento para o processamento de um sinal multi-canais da reivindicação 1, um método para o processamento de um sinal multi-canais da reivindicação 11, ou de um programa de computador da reivindicação 12. A presente invenção baseia-se na constatação de que, se o canal esquerdo e direito são semelhantes, isto é, ultrapassam uma medida de similaridade, a mesma filtração TNS deve ser aplicada em ambos os canais. Com isso, se garante que nenhum problema pseudo estéreo é introduzido no sinal multi-canais pelo processamento TNS, já que pelo uso do mesmo filtro de predição para ambos os canais, é conseguido que a formatação temporal do ruido de quantificação também ocorra de maneira idêntica para ambos os canais, isto é, que não sejam audíveis problemas pseudo estéreo.
Além disso, é garantido que os sinais não se tornam mais dissimilares do que realmente deveriam ser. A similaridade dos sinais após a filtração TNS, isto é, a similaridade dos valores residuais espectrais, corresponde aqui à similaridade dos sinais de entrada nos filtros e não, como na técnica anterior, à similaridade dos sinais de entrada, que ainda serão reduzidos pelos diferentes filtros.
Assim, uma subsequente codificação mid/side não terá perdas de taxa de bits, já que os sinais não foram tornados mais dissimilares do que realmente são. E claro que com o uso do mesmo filtro de predição para ambos os sinais, ocorrerá uma pequena perda no ganho de predição. Entretanto, essa perda não será tão grande, já que a sincronização da filtração TNS para ambos os canais é somente empregada quando os dois canais forem similares de alguma forma entre si. Essa pequena perda no ganho de predição é, entretanto, como parece, ser facilmente balanceada pelo ganho mid/side, por não ser introduzida pelo processamento TNS nenhuma outra dissimilaridade entre os canais esquerdo e direito, o que levaria a uma redução no ganho de codificação mid/side.
As configurações preferidas da presente invenção serão explicadas em maiores detalhes a seguir, com referência aos desenhos de acompanhamento, onde:
Fig. 1 é um diagrama de circuito de bloco de um equipamento para o processamento de um sinal multi-canais de acordo com a invenção,
Fig. 2 mostra uma configuração preferida do meio para a determinação de uma similaridade e o meio para a formação de uma filtração de predição; e
Fig. 3 é um diagrama de circuito de bloco de um conhecido codificador de áudio de acordo com o padrão AAC. A Fig. 1 mostra um equipamento para o processamento de um sinal multi-canais, caracterizado pelo facto de que o sinal multi-canais é representado por um bloco de valores espectrais cada qual para pelo menos dois canais, como mostrado por L e R. Os blocos de valores espectrais são determinados a partir de amostras de domínio de tempo 1(t) e/ou r(t) para cada canal por filtração MDCT, por exemplo, por meio de um banco de filtros MDCT 10.
Em uma configuração preferida da presente invenção, os blocos de valores espectrais de cada canal são então fornecidos a um meio 12 para a determinação de uma similaridade entre os dois canais. De maneira alternativa, o meio para a determinação da similaridade entre os dois canais também pode, como mostrado na Fig. 1, ser desenvolvido usando amostras de domínio de tempo 1 (t) ou r(t) para cada canal. Entretanto, é preferido usar os blocos de valores espectrais obtidos no banco de filtros 10 para a determinação da similaridade, já que esses são igualmente influenciados por possíveis efeitos da filtração no banco de filtros 10. O meio 12 para a determinação da similaridade entre o primeiro e o segundo canais é operável para gerar, em uma linha de controlo 14, com base em uma medida de similaridade, ou de maneira alternativa uma medida de dissimilaridade, um sinal de controlo, que tem pelo menos dois estados, um dos quais expressa que os blocos de valores espectrais de dois canais são similares, ou que indica em seu outro estado que os blocos de valores espectrais de cada canal são dissimilares. A decisão da prevalência da similaridade ou da dis similar idade pode ser tomada usando uma medida de similaridade preferivelmente numérica.
Existem várias possibilidades para a determinação da similaridade entre os dois blocos de valores espectrais para cada canal, uma das possibilidades sendo um cálculo de correlação cruzada que produz um valor que pode então ser comparado a um limite predeterminado de similaridade. São conhecidos métodos alternativos de similaridade, uma das formas preferidas sendo descrita a seguir.
Tanto o bloco de valores espectrais do canal esquerdo como o bloco de valores espectrais do canal direito são fornecidos a um meio 16 para a realização de uma filtração de predição. Em particular, é feita uma filtração de predição na frequência, caracterizado pelo facto de que o meio para a realização é formado para usar um filtro de predição comum 16a para o bloco de valores espectrais do primeiro canal e para o bloco de valores espectrais do segundo canal para a realização da predição na frequência, quando a similaridade é maior do que uma similaridade limite. Se o meio 16 para a realização da filtração de predição for, entretanto, notificado pelo meio 12 para a determinação de uma similaridade em que os dois blocos de valores espectrais de cada canal são dissimilares, isto é, têm uma similaridade menor do que uma similaridade limite, o meio 16 para a realização da filtração de predição aplicará diferentes filtros 16b aos canais esquerdo e direito.
Os sinais de saida do meio 16 são, portanto, valores espectrais residuais do canal esquerdo em uma saida 18a, assim como os valores espectrais residuais do canal direito em uma saida 18b, caracterizado pelo facto de que os valores espectrais residuais dos dois canais foram gerados usando o mesmo filtro de predição (caso 16a) ou usando diferentes filtros de predição (caso 16b), dependendo da similaridade do canal esquerdo e do canal direito.
Dependendo da implementação do codificador real, os valores espectrais residuais dos canais esquerdo e direito podem ser fornecidos tanto directamente como depois de vários processamentos, como indicado no padrão AAC, a um codificador estéreo mid/sidet que produz o sinal intermediário como metade da soma do canal esquerdo e direito em uma saida 21a, enquanto o sinal lateral é produzido como metade da diferença dos canais esquerdo e direito.
Como já exposto, no caso em que tenha existido uma alta similaridade anteriormente entre os canais, o sinal lateral é agora menor do que no caso em que diferentes filtros TNS sejam usados para canais similares, devido à sincronização do processamento TNS dos dois canais, que assim oferece a perspectiva de um maior ganho de codificação devido ao facto do sinal lateral ser menor.
Depois, com referência à Fig. 2, será ilustrada uma configuração preferida da presente invenção, onde no meio 12 já está feito o cálculo TNS para a determinação de uma similaridade do primeiro estágio, isto é, o cálculo dos coeficientes Parcor e/ou de reflexão e do ganho de predição tanto para o canal esquerdo como para o canal direito, como ilustrado pelos blocos 12a, 12b.
Este processamento TNS provê, portanto, tanto os coeficientes de filtro para o filtro de predição ser usado no final e o ganho de predição, caracterizado pelo facto de que esse ganho de predição é também necessário para decidir se deve ou não ser feito um processamento TNS. 0 ganho de predição do primeiro canal esquerdo, denominado PG1 na Fig. 2, é enviado a um meio de determinação de medida de similaridade, indicado por 12c na Fig. 2, exactamente como o ganho de predição do canal direito, que é indicado por PG2 na Fig. 2. Esse meio de determinação de similaridade é operável para calcular a magnitude absoluta da diferença ou a diferença relativa dos dois ganhos de predição e ver se está abaixo de um limite de desvio predeterminado S. Se a magnitude absoluta da diferença dos ganhos de predição se situar abaixo do limite S, é suposto que os dois sinais sejam similares, e a pergunta do bloco 12c é respondida como "sim". Entretanto, se for constatado que a diferença é maior do que o limite de similaridade S, a pergunta é respondida 'não" . No caso de uma resposta afirmativa para essa pergunta, é usado um filtro comum para os dois canais L e R no meio 16, e no caso de uma resposta negativa para a pergunta do bloco 12c, são usados filtros separados, isto é, pode ser feito um processamento TNS como o da técnica anterior.
Para essa finalidade, é fornecido um conjunto de coeficientes de filtro FKL para o canal esquerdo e um conjunto de coeficientes filtro FKR para os canais direitos ao meio 16 a partir do meio 12a e/ou 12b.
Em uma configuração preferida da presente invenção, é feita uma selecção especial em um bloco 16c para filtração por meio de um filtro comum. No bloco 16c, é decidido qual dos canais tem maior energia. Se for determinado que o canal esquerdo tem maior energia, são usados os coeficientes de filtro FKL calculados para o canal esquerdo pelo meio 12a para a filtração comum. Entretanto, se for determinado no bloco 16c que o canal direito tem maior energia, é usado o conjunto de coeficientes de filtro FKR que foi calculado para o canal direito no meio 12b para a filtração comum.
Como pode ser visto na Fig. 2, tanto o sinal de tempo como o sinal espectral podem ser usados para a determinação da energia. Devido ao facto que os problemas de transformação, que tenham possivelmente ocorrido, já estejam contidos nos sinais espectrais, é preferível usar o sinal espectral dos canais esquerdo e direito para a "decisão da energia" no bloco 16c.
Em uma configuração preferida da presente invenção, uma sincronização TNS, isto é, ê empregue o uso dos mesmos coeficientes de filtro para ambos os canais, se o ganho de predição dos canais esquerdo e direito diferirem em menos do que três por cento. Se ambos os canais diferirem em mais do que três por cento, a pergunta do bloco 12c da Fig. 2 é respondida "Não".
Como já abordado, são comparados os ganhos de predição dos dois canais na filtração - no sentido de uma detecção simples ou com pequena intensidade de computação da similaridade. Se uma diferença dos ganhos de predição cair abaixo de certo limite, ambos os canais recebem a mesma filtração TNS, para serem evitados os problemas descritos.
De maneira alternativa, pode também ocorrer uma comparação dos coeficientes de reflexão dos dois filtros TNS separadamente calculados.
Novamente, de maneira alternativa, também pode ser alcançada a determinação da similaridade usando outros detalhes do sinal, de maneira que, quando a similaridade for determinada, somente deve ser calculado o coeficiente de filtro TNS estabelecido para o canal que será empregado para a filtração de predição dos dois canais estéreo. Isto tem a vantagem que, ao olhar a Fig. 2 e se os sinais forem similares, somente o bloco 12a ou o bloco 12b estará activo.
Além disso, o conceito da invenção ainda pode ser empregue para reduzir ainda mais a taxa de bits do sinal codificado. Apesar de diferentes informações colaterais TNS serem transmitidas com o uso de dois coeficientes de reflexão diferentes, as informações TNS de ambos os canais somente devem ser transmitidas ao filtrar os dois canais com o mesmo filtro de predição. Portanto, pelo conceito da invenção, também pode ser obtida uma redução na taxa de bits já que um conjunto de informações colaterais TNS é "salvo" se o canal esquerdo e direito forem similares. O conceito da invenção não é basicamente limitado a sinais estereo, mas poderia ser aplicado em um ambiente multi-canais entre vários pares de canais ou também grupos de mais do que 2 canais.
Como foi indicado, pode ocorrer separadamente para cada canal na determinação de similaridade, uma determinação da medida de correlação cruzada k entre os canais esquerdo e direito ou uma determinação do ganho de predição TNS e dos coeficientes de filtro TNS. A decisão de sincronização ocorre se k ultrapassar um limite (ex. 0,6) e a codificação estéreo MS for activada. O critério MS também pode ser omitido.
Ocorre na sincronização a determinação do canal de referência do filtro TNS que deve ser adoptado para o outro canal. Por exemplo, é usado o canal com maior energia como o canal de referência. Em particular, ocorre então a cópia do coeficiente de filtro TNS do canal de referência para o outro canal.
Finalmente, ocorre uma aplicação dos filtros TNS sincronizados ou não sincronizados ao espectro.
De maneira alternativa, ocorre separadamente para cada canal uma determinação do ganho de predição TNS e dos coeficientes de filtro TNS. Então, é tomada uma decisão. Se o ganho de predição de ambos os canais diferir em não mais do que uma determinada medida, por exemplo, 3%, ocorre a sincronização. Aqui, o canal de referência também pode ser escolhido de maneira arbitrária, caso possa ser suposta uma similaridade dos canais. Aqui, também existe a cópia dos coeficientes de filtro TNS do canal de referência para o outro canal, quando ocorre uma aplicação dos filtros TNS sincronizados ou não sincronizados ao espectro.
Seguem-se possibilidades alternativas: A activação do TNS, em principio, em um canal, depende do ganho de predição nesse canal. Se este ultrapassar um certo limite, o TNS é activado para este canal. De maneira alternativa, é feita também uma sincronização TNS para os dois canais se o TNS foi activado somente em um ou nos dois canais. Então, é uma condição que, por exemplo, o ganho de predição seja similar, isto é, um canal se situe logo acima do limite de activação, e um canal logo abaixo do limite de activação. A partir dessa comparação, deriva-se a activação do TNS para ambos os canais com os mesmos coeficientes, ou talvez também a desactivação de ambos os canais.
Dependendo das circunstâncias, o método de acordo com a invenção de processamento de um sinal multi-canais pode ser implementado em hardware ou em software. A implementação pode ser feita em meio de armazenamento digital, em particular em disquete ou CD, com sinais de controlo de leitura electrónica capazes de cooperar com um sistema de computador programável, de maneira a executar o método. Em geral, a invenção, portanto, também consiste de um produto de programa de computador com código de programa armazenado em portador com leitura por máquina para a realização do método da invenção, quando o produto de programa de computador é processado em um computador. Em outras palavras, a invenção pode, portanto, ser realizada como um programa de computador com código de programa para a realização do método, quando o programa de computador é processado em um computador.
Lisboa, 12 de Setembro de 2007.

Claims (12)

1. Equipamento para o processamento de um sinal multi-canais, caracterizado por o sinal multi-canais ser representado por um bloco de valores espectrais, cada qual para pelo menos dois canais, compreendendo: meio (12) para a determinação de uma similaridade entre um primeiro de dois canais e um segundo de dois canais, caracterizado pelo facto de que o meio (12) para determinação é formado para calcular um primeiro ganho de predição de uma predição do bloco do primeiro canal e um segundo ganho de predição de uma predição do bloco do segundo canal, ou os primeiros coeficientes de reflexão para um primeiro filtro de predição para o primeiro canal e os segundos coeficientes de reflexão para o segundo filtro de predição do segundo canal, e para obter (12c) a similaridade usando o primeiro ganho de predição e o segundo ganho de predição ou usando os primeiros coeficientes de reflexão e os segundos coeficientes de reflexão; meio (16) para a realização de uma filtração de predição caracterizado pelo facto de que o meio para a realização é formado para usar um filtro de predição comum para o bloco de valores espectrais do primeiro canal e o bloco de valores espectrais do segundo canal para a realização da filtração de predição, caso uma similaridade seja maior do que um limite de similaridade, ou usar dois diferentes filtros de predição para a realização da filtração de predição, caso uma similaridade seja menor do que um limite de similaridade.
2. Equipamento, de acordo com a reivindicação 1, caracterizado por o meio (16) para a realização ser formado para produzir valores espectrais residuais como resultado da predição, e onde o equipamento ainda compreende: meio (12) para codificar em conjunto valores espectrais residuais ou valores do primeiro canal derivados dos valores residuais, e valores espectrais residuais ou valores do segundo canal derivados dos valores espectrais residuais, se a similaridade for maior do que uma similaridade limite.
3. Equipamento, de acordo com a reivindicação 2, caracterizado por a codificação conjunta ser uma codificação mid/side.
4. Equipamento, de acordo com a reivindicação 3, caracterizado por o meio (20) para codificação conjunta ser formado para calcular um sinal intermediário com base na soma do primeiro e do segundo canais, e calcular um sinal lateral com base na diferença do primeiro e do segundo canais. 1
5. Equipamento, de acordo com qualquer uma das reivindicações anteriores, caracterizado por o bloco de valores espectrais de um canal representar um espectro de periodo curto desse canal, ou onde o bloco de valores espectrais inclui uma pluralidade de sinais de passagem de banda para uma pluralidade de sub-bandas.
6. Equipamento, de acordo com qualquer uma das reivindicações anteriores, caracterizado por o meio (16) para a realização ser formado para realizar um processamento TNS.
7. Equipamento, de acordo com qualquer uma das reivindicações anteriores, caracterizado por o meio (12) para a determinação ser formado para calcular uma correlação cruzada do primeiro e do segundo canais.
8. Equipamento, de acordo com a reivindicação 8, caracterizado por o meio (16) para realização ser formado para usar um filtro de predição simples se o primeiro ganho de predição e o segundo ganho de predição diferirem de menos ou igual a três por cento.
9. Equipamento, de acordo com qualquer uma das reivindicações anteriores, caracterizado por o meio (16) para realização ser formado para usar, como filtro comum de predição, um filtro de predição cujos coeficientes se derivam do bloco de valores espectrais que contêm mais energia do que o outro bloco de valores espectrais.
10. Equipamento, de acordo com qualquer uma das reivindicações anteriores, caracterizado por o meio (16) para a realização ser formado para realizar um cálculo de auto correlação e um cálculo LPC usando o algoritmo Levinson-Durbin no bloco de valores espectrais para a predição na frequência, de maneira a obter coeficientes Parcor ou coeficientes de reflexão, assim como um ganho de predição, e para filtrar o bloco de valores espectrais com os coeficientes Parcor para obter valores espectrais residuais.
11. Método para o processamento de um sinal multi-canais, caracterizado por o sinal multi-canais ser representado por um bloco de valores espectrais, cada qual para pelo menos dois canais, compreendendo as etapas de: determinar (12) uma similaridade entre um primeiro de dois canais e um segundo de dois canais calculando um primeiro ganho de predição de uma predição do bloco do primeiro canal e um segundo ganho de predição de uma predição do bloco do segundo canal, de maneira a obter (12c) a similaridade do primeiro ganho de predição e o segundo ganho de predição, ou calculando os primeiros coeficientes de reflexão para um primeiro filtro de predição para o primeiro canal e os segundos coeficientes de reflexão para um segundo filtro de predição do segundo canal, de maneira a obter a similaridade usando os primeiros coeficientes de reflexão e os segundos coeficientes de reflexão; realizar uma filtração de predição com um filtro comum de predição para o bloco de valores espectrais do primeiro canal e o bloco de valores espectrais do segundo canal se uma similaridade for maior do que uma similaridade limite, ou realizar uma filtração de predição com dois filtros de predição diferentes para o bloco de valores espectrais do primeiro canal e o bloco de valores espectrais do segundo canal se uma similaridade for menor do que uma similaridade limite.
12. Programa de computador com código de programa para realizar o método de processamento de um sinal multi-canais da reivindicação 11, caracterizado por ser utilizado quando o programa é rodado em um computador. Lisboa, 12 de Setembro de 2007.
PT05715611T 2004-03-01 2005-02-28 Equipamento e método para o processamento de um sinal multi-canais PT1697930E (pt)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102004009954A DE102004009954B4 (de) 2004-03-01 2004-03-01 Vorrichtung und Verfahren zum Verarbeiten eines Multikanalsignals

Publications (1)

Publication Number Publication Date
PT1697930E true PT1697930E (pt) 2007-09-25

Family

ID=34894904

Family Applications (1)

Application Number Title Priority Date Filing Date
PT05715611T PT1697930E (pt) 2004-03-01 2005-02-28 Equipamento e método para o processamento de um sinal multi-canais

Country Status (18)

Country Link
US (1) US7340391B2 (pt)
EP (1) EP1697930B1 (pt)
JP (1) JP4413257B2 (pt)
KR (1) KR100823097B1 (pt)
CN (1) CN1926608B (pt)
AT (1) ATE364882T1 (pt)
AU (1) AU2005217517B2 (pt)
BR (1) BRPI0507207B1 (pt)
CA (1) CA2558161C (pt)
DE (2) DE102004009954B4 (pt)
DK (1) DK1697930T3 (pt)
ES (1) ES2286798T3 (pt)
HK (1) HK1095194A1 (pt)
IL (1) IL177213A (pt)
NO (1) NO339114B1 (pt)
PT (1) PT1697930E (pt)
RU (1) RU2332727C2 (pt)
WO (1) WO2005083678A1 (pt)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7809579B2 (en) * 2003-12-19 2010-10-05 Telefonaktiebolaget Lm Ericsson (Publ) Fidelity-optimized variable frame length encoding
US7725324B2 (en) * 2003-12-19 2010-05-25 Telefonaktiebolaget Lm Ericsson (Publ) Constrained filter encoding of polyphonic signals
US9626973B2 (en) * 2005-02-23 2017-04-18 Telefonaktiebolaget L M Ericsson (Publ) Adaptive bit allocation for multi-channel audio encoding
KR100718416B1 (ko) 2006-06-28 2007-05-14 주식회사 대우일렉트로닉스 예측필터를 이용한 채널간 스테레오 오디오 코딩 방법
JP4940888B2 (ja) * 2006-10-23 2012-05-30 ソニー株式会社 オーディオ信号伸張圧縮装置及び方法
KR20080053739A (ko) * 2006-12-11 2008-06-16 삼성전자주식회사 적응적으로 윈도우 크기를 적용하는 부호화 장치 및 방법
JPWO2008090970A1 (ja) * 2007-01-26 2010-05-20 パナソニック株式会社 ステレオ符号化装置、ステレオ復号装置、およびこれらの方法
US8086465B2 (en) 2007-03-20 2011-12-27 Microsoft Corporation Transform domain transcoding and decoding of audio data using integer-reversible modulated lapped transforms
US7991622B2 (en) * 2007-03-20 2011-08-02 Microsoft Corporation Audio compression and decompression using integer-reversible modulated lapped transforms
WO2008126382A1 (ja) * 2007-03-30 2008-10-23 Panasonic Corporation 符号化装置および符号化方法
CN101067931B (zh) * 2007-05-10 2011-04-20 芯晟(北京)科技有限公司 一种高效可配置的频域参数立体声及多声道编解码方法与系统
US20110019829A1 (en) * 2008-04-04 2011-01-27 Panasonic Corporation Stereo signal converter, stereo signal reverse converter, and methods for both
CN101770776B (zh) 2008-12-29 2011-06-08 华为技术有限公司 瞬态信号的编码方法和装置、解码方法和装置及处理系统
ES2400661T3 (es) * 2009-06-29 2013-04-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificación y decodificación de extensión de ancho de banda
BR112012026324B1 (pt) * 2010-04-13 2021-08-17 Fraunhofer - Gesellschaft Zur Förderung Der Angewandten Forschung E. V Codificador de aúdio ou vídeo, decodificador de aúdio ou vídeo e métodos relacionados para o processamento do sinal de aúdio ou vídeo de múltiplos canais usando uma direção de previsão variável
WO2012152764A1 (en) 2011-05-09 2012-11-15 Dolby International Ab Method and encoder for processing a digital stereo audio signal
CN104269173B (zh) * 2014-09-30 2018-03-13 武汉大学深圳研究院 切换模式的音频带宽扩展装置与方法
ES2955962T3 (es) 2015-09-25 2023-12-11 Voiceage Corp Método y sistema que utiliza una diferencia de correlación a largo plazo entre los canales izquierdo y derecho para mezcla descendente en el dominio del tiempo de una señal de sonido estéreo en canales primarios y secundarios
CN107659888A (zh) * 2017-08-21 2018-02-02 广州酷狗计算机科技有限公司 识别伪立体声音频的方法、装置及存储介质
WO2019091573A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
EP3483883A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding and decoding with selective postfiltering
EP3483882A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
EP3483884A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
WO2019091576A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
EP3483878A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
EP3483886A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
EP3483880A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Temporal noise shaping
CN108962268B (zh) * 2018-07-26 2020-11-03 广州酷狗计算机科技有限公司 确定单声道的音频的方法和装置
WO2021000724A1 (zh) * 2019-06-29 2021-01-07 华为技术有限公司 一种立体声编码方法、立体声解码方法和装置
CN111654745B (zh) * 2020-06-08 2022-10-14 海信视像科技股份有限公司 多声道的信号处理方法及显示设备
CN112053669B (zh) * 2020-08-27 2023-10-27 海信视像科技股份有限公司 一种人声消除方法、装置、设备及介质

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5488665A (en) * 1993-11-23 1996-01-30 At&T Corp. Multi-channel perceptual audio compression system with encoding mode switching among matrixed channels
US5812971A (en) * 1996-03-22 1998-09-22 Lucent Technologies Inc. Enhanced joint stereo coding method using temporal envelope shaping
US5913187A (en) * 1997-08-29 1999-06-15 Nortel Networks Corporation Nonlinear filter for noise suppression in linear prediction speech processing devices
DE19747132C2 (de) * 1997-10-24 2002-11-28 Fraunhofer Ges Forschung Verfahren und Vorrichtungen zum Codieren von Audiosignalen sowie Verfahren und Vorrichtungen zum Decodieren eines Bitstroms
DE19829284C2 (de) * 1998-05-15 2000-03-16 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Verarbeiten eines zeitlichen Stereosignals und Verfahren und Vorrichtung zum Decodieren eines unter Verwendung einer Prädiktion über der Frequenz codierten Audiobitstroms
US6771723B1 (en) * 2000-07-14 2004-08-03 Dennis W. Davis Normalized parametric adaptive matched filter receiver
US6622117B2 (en) * 2001-05-14 2003-09-16 International Business Machines Corporation EM algorithm for convolutive independent component analysis (CICA)
KR100443405B1 (ko) * 2001-07-05 2004-08-09 주식회사 이머시스 멀티채널 스피커용 오디오 신호를 멀티 채널 헤드폰용 오디오 신호로 변환하여 재분배 하는 장치
GB0124352D0 (en) * 2001-10-11 2001-11-28 1 Ltd Signal processing device for acoustic transducer array
CN1311426C (zh) * 2002-04-10 2007-04-18 皇家飞利浦电子股份有限公司 立体声信号的编码、解码方法和装置及其传输设备
JP2007009804A (ja) * 2005-06-30 2007-01-18 Tohoku Electric Power Co Inc 風力発電施設の出力電力制御スケジュールシステム
JP2007095002A (ja) * 2005-09-30 2007-04-12 Noritsu Koki Co Ltd 写真処理装置

Also Published As

Publication number Publication date
NO339114B1 (no) 2016-11-14
JP2007525718A (ja) 2007-09-06
AU2005217517B2 (en) 2008-06-26
EP1697930A1 (de) 2006-09-06
NO20064431L (no) 2006-09-29
ES2286798T3 (es) 2007-12-01
DE102004009954A1 (de) 2005-09-29
CA2558161C (en) 2010-05-11
IL177213A (en) 2011-10-31
JP4413257B2 (ja) 2010-02-10
CN1926608B (zh) 2010-05-05
US7340391B2 (en) 2008-03-04
BRPI0507207A (pt) 2007-06-12
EP1697930B1 (de) 2007-06-13
CA2558161A1 (en) 2005-09-09
HK1095194A1 (en) 2007-04-27
RU2006134641A (ru) 2008-04-10
AU2005217517A1 (en) 2005-09-09
CN1926608A (zh) 2007-03-07
BRPI0507207B1 (pt) 2018-12-26
KR100823097B1 (ko) 2008-04-18
DE502005000864D1 (de) 2007-07-26
DK1697930T3 (da) 2007-10-08
DE102004009954B4 (de) 2005-12-15
RU2332727C2 (ru) 2008-08-27
WO2005083678A1 (de) 2005-09-09
KR20060121982A (ko) 2006-11-29
IL177213A0 (en) 2006-12-10
US20070033056A1 (en) 2007-02-08
ATE364882T1 (de) 2007-07-15
BRPI0507207A8 (pt) 2018-06-12

Similar Documents

Publication Publication Date Title
PT1697930E (pt) Equipamento e método para o processamento de um sinal multi-canais
JP7122076B2 (ja) マルチチャネル符号化におけるステレオ充填装置及び方法
CA2576739C (en) Multichannel decorrelation in spatial audio coding
EP2941771B1 (en) Decoder, encoder and method for informed loudness estimation employing by-pass audio object signals in object-based audio coding systems
KR101139880B1 (ko) 주파수 영역 위너 필터링을 사용한 공간 오디오 코딩을 위한 시간적 엔벨로프 정형화
CA2705968C (en) A method and an apparatus for processing a signal
KR100878371B1 (ko) 공간적 오디오 파라미터들의 효율적인 부호화를 위한에너지 종속 양자화
EP3025336B1 (en) Reduction of comb filter artifacts in multi-channel downmix with adaptive phase alignment
KR101798117B1 (ko) 후방 호환성 다중 해상도 공간적 오디오 오브젝트 코딩을 위한 인코더, 디코더 및 방법
KR20180016417A (ko) 과도 프로세싱을 향상시키기 위한 사후 프로세서, 사전 프로세서, 오디오 인코더, 오디오 디코더, 및 관련 방법
KR102033985B1 (ko) 공간적 오디오 객체 코딩에 오디오 정보를 적응시키기 위한 장치 및 방법
KR20170087529A (ko) 오디오 인코더 및 디코더
JP4625709B2 (ja) ステレオオーディオ信号符号化装置
KR20140037118A (ko) 오디오 신호 처리방법, 오디오 부호화장치, 오디오 복호화장치, 및 이를 채용하는 단말기