PT3011556T - Para um frame de substituição de um sinal de áudio, descodificador de áudio, receptor de áudio e sistema para transmissão de sinais de áudio - Google Patents
Para um frame de substituição de um sinal de áudio, descodificador de áudio, receptor de áudio e sistema para transmissão de sinais de áudio Download PDFInfo
- Publication number
- PT3011556T PT3011556T PT147319610T PT14731961T PT3011556T PT 3011556 T PT3011556 T PT 3011556T PT 147319610 T PT147319610 T PT 147319610T PT 14731961 T PT14731961 T PT 14731961T PT 3011556 T PT3011556 T PT 3011556T
- Authority
- PT
- Portugal
- Prior art keywords
- frame
- spectrum
- peak
- replacement
- phase
- Prior art date
Links
- 238000001228 spectrum Methods 0.000 title claims description 189
- 238000000034 method Methods 0.000 title claims description 101
- 230000005236 sound signal Effects 0.000 title claims description 57
- 230000003595 spectral effect Effects 0.000 claims description 57
- 230000010363 phase shift Effects 0.000 claims description 28
- 238000006467 substitution reaction Methods 0.000 claims description 25
- 238000001514 detection method Methods 0.000 claims description 19
- 230000000873 masking effect Effects 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 11
- 230000003044 adaptive effect Effects 0.000 claims description 9
- 230000005540 biological transmission Effects 0.000 claims description 8
- 230000002123 temporal effect Effects 0.000 claims description 7
- 238000004458 analytical method Methods 0.000 claims description 4
- 238000006073 displacement reaction Methods 0.000 claims description 4
- 230000001052 transient effect Effects 0.000 claims description 3
- 230000006978 adaptation Effects 0.000 claims 3
- 238000013459 approach Methods 0.000 description 37
- 238000012937 correction Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 238000013213 extrapolation Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 239000000203 mixture Substances 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 230000004044 response Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000003780 insertion Methods 0.000 description 3
- 230000037431 insertion Effects 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 239000002131 composite material Substances 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000009795 derivation Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 241001025261 Neoraja caerulea Species 0.000 description 1
- 108010076504 Protein Sorting Signals Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000005352 clarification Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000005562 fading Methods 0.000 description 1
- 230000003071 parasitic effect Effects 0.000 description 1
- 238000010791 quenching Methods 0.000 description 1
- 230000000171 quenching effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Description
DESCRIÇÃO
MÉTODO E EQUIPAMENTO PARA A OBTENÇÃO DE COEFICIENTES DO ESPECTRO PARA UM FRAME DE SUBSTITUIÇÃO DE UM SINAL DE ÁUDIO, DESCODIFICADOR DE ÁUDIO, RECEPTOR DE ÁUDIO E SISTEMA PARA TRANSMISSÃO DE SINAIS DE ÁUDIO
Esta invenção diz respeito à área de transmissão de sinais de áudio codificados, mais especificamente a um método e um aparelho para obtenção de coeficientes do espectro para um frame de substituição de um sinal de áudio, para um descodificador áudio, para um recetor de áudio e para um sistema para transmissão de sinais de áudio. As formas de realização dizem respeito a uma abordagem para a construção de um espectro para um frame de substituição baseado em frames anteriormente recebidos.
Na técnica anterior, várias abordagens são descritas tratando de uma perda de frames num recetor de áudio. Por exemplo, quando um frame se perde no lado do recetor de um codec de áudio ou de discurso, métodos simples para a ocultação da perda de frames tal como descrito na referência [1] podem ser utilizados, tais como: • repetição do último frame recebido, • silenciamento do frame perdido, ou • mistura de sinais.
Adicionalmente, na referência [1] uma técnica avançada utilizando preditores em sub-bandas é apresentada. A técnica de predição é então combinada com a mistura de sinais, e o ganho da predição é utilizado como um critério de decisão da informação sub-banda para determinar qual o método que deverá ser utilizado para os coeficientes espectrais desta sub-banda.
Na referência [2], uma extrapolação do sinal em forma de onda no domínio temporal é utilizada para um domínio codec MDCT (Transformada Discreta de Cossenos Modificada). Este tipo de abordagem pode ser boa para sinais monofónicos incluindo discurso.
Se um atraso de um frame for permitido, uma interpolação dos frames adjacentes pode ser utilizada para a construção do frame perdido. Tal abordagem é descrita na referência [3], em que as magnitudes dos componentes tonais no frame perdido com um índice m são interpoladas utilizando os frames vizinhos indexados m-1 e m+1. A informação lateral que define os sinais de coeficiente MDCT para componentes tonais é transmitida na sequência de bits. A mistura de sinais é utilizada para outros coeficientes não-tonais MDCT. Os componentes tonais são determinados como um número fixo pré-determinado de coeficientes espectrais com as magnitudes mais elevadas. Esta abordagem seleciona n coeficientes espectrais com as magnitudes mais elevadas como os componentes tonais.
A Fig. 7 ilustra um diagrama de blocos que representa uma abordagem de interpolação sem informação lateral transmitida tal como é por exemplo descrita na referência [4] . A abordagem de interpolação opera com base nos frames de áudio codificados no domínio de frequências utilizando MDCT (Transformada Discreta de Cossenos Modificada). Um bloco de interpolação de frames 700 recebe os coeficientes MDCT de um frame anterior ao frame perdido e um frame a seguir ao frame perdido, mais especificamente na abordagem descrita em relação à Fig. 7, os coeficientes MDCT C^m_1 (/c) do frame anterior e os coeficientes MDCT Cm+1 (k) dos frames seguintes são recebidos no bloco de interpolação de frames 700. O bloco de interpolação de frames 700 gera um coeficiente interpolado MDCT para o frame atual que se perdeu no recetor ou que não pôde ser processado no recetor por outros motivos, por exemplo devido a erros nos dados recebidos ou desse género. O coeficiente interpolado MDCT Cm(Ji) à saída pelo bloco de interpolação de frames 700 é aplicado ao bloco 702 originando uma magnitude de escala na banda do fator de escala e ao bloco 704 originando uma magnitude de escala com o estabelecimento de um índice, e os respetivos blocos 702 e 704 de saída do coeficiente MDCT Cm (k) escalados pelos fatores a(k) e ã(k), respetivamente. O sinal de saída do bloco 702 é introduzido no pseudo bloco espectro 706 gerando com base no sinal de entrada recebido o pseudo espectro PmW introduzido no bloco de deteção de pico 708 um sinal indicador de picos detetados. O sinal fornecido pelo bloco 702 é também aplicado ao bloco de falha aleatória do sinal 712 que, recetivo ao sinal de deteção do pico produzido pelo bloco 708, origina uma falha de sinal do sinal recebido e produz um coeficiente MDCT Cm (/c) modificado ao bloco de composição do espectro 710. O sinal escalado fornecido pelo bloco 704 é aplicado a um bloco de correção do sinal 714 originando, em resposta ao sinal de deteção do pico originado pelo bloco 708 uma correção do sinal do sinal escalado fornecido pelo bloco 704 e produzindo um coeficiente MDCT Cm (k) modificado ao bloco de composição do espectro 710 que, com base nos sinais recebidos, gera o coeficiente MDCT Cm (/c) interpolado produzido pelo bloco de composição do espectro 710. Tal como ilustrado na Fig. 7, o sinal de deteção de picos pelo bloco 708 é também fornecido ao bloco 704 gerando o coeficiente MDCT escalado. A Fig. 7 produz à saida do bloco 714 os coeficientes espectrais Cm 00 para o frame perdido associado aos componente tonais, e à saida do bloco 712 os coeficientes espectrais CmQi) para componentes não-tonais são fornecidos de modo que no bloco de composição do espectro 710 com base nos coeficientes espetrais recebidos para os componentes tonais e não-tonais os coeficientes espetrais para o espectro associado ao frame perdido sejam fornecidos. A operação da técnica FLC (Ocultação de Perda do Frame) descrita no diagrama de blocos da Fig. 7 será em seguida ser descrita com maior detalhe.
Na Fig. 7, basicamente quatro módulos podem ser distinguidos: um módulo de inserção da modulação do ruido (incluindo a interpolação do frame 700, a magnitude de escala na banda do fator de escala 702 e a falha aleatória do sinal 712), um módulo de classificação bin MDCT (incluindo o pseudo espectro 706 e a deteção do pico 708), um módulo de operações de ocultação tonal (incluindo a magnitude de escala no índice 704 e a correção do sinal 714), e a composição do espectro 710. A abordagem tem como base a seguinte fórmula geral:
CínOO é derivada de uma interpolação binária (ver bloco 700 "Interpolação do Frame")
α* 00 derivada por uma interpolação de energia utilizando a média geométrica: banda do fator de escala para todos os componentes (ver bloco 702 "Magnitude de Escala na Banda do Fator de Escala") e índice subconjunto para componentes tonais (ver bloco 704 "Magnitude de Escala no índice"):
para componentes tonais pode-se ilustrar que a = cos(nfi), com fa sendo a frequência do componente tonal.
As energias E são derivadas com base num pseudo espectro de energia, derivado por uma simples operação de amaciamento:
s\k) é estabelecido aleatoriamente em ±1 para componentes não-tonais (ver bloco 712 "Falha de Sinal Aleatório") , e em +1 ou -1 para componentes tonais (ver bloco 714 "Correção do Sinal"). A deteção do pico é efetuada como busca dos máximos locais no pseudo espectro de energia para detetar as posições exatas dos picos espectrais correspondentes às sinusoides subjacentes. Encontra-se baseado no processo de identificação sonora adotado no modelo psico-acústico MPEG-1 descrito na referência [5]. Destas um índice encontra-se definido dotado da largura de banda de um lóbulo principal de uma janela de análise em termos de binários MDCT e o pico detetado no seu centro. Esses binários são tratados como binários MDCT de sons dominantes de uma sinusoide, e o subconjunto do índice é tratado como um componente tonal individual. A correlação do sinal sXk) muda os sinais de todos os binários de certo componente tonal, ou nenhum. A determinação é executada utilizando uma análise por síntese, isto é, o SFM é derivado para ambas as versões e a versão com o SFM mais baixo é escolhida. Para a derivação SFM, o espectro de energia é necessário, que por seu lado exige os coeficientes MDST (Transformada Discreta de Cossenos Modificada). Para manter a complexidade viável, apenas os coeficientes MDST para o componente tonal são derivados, utilizando também apenas os coeficientes MDCT deste componente tonal. A Fig. 8 ilustra um diagrama de blocos de uma técnica FLC global que, quando comparada à abordagem da Fig. 7, é refinada e descrita na referência [6] . Na Fig. 8, os coeficientes MDCT Cm_1 e Cm+1 de um último frame anterior ao frame perdido e um primeiro frame a seguir ao frame perdido são recebidos num bloco de classificação do binário MDCT 800. Estes coeficientes são também fornecidos ao bloco de inserção da modulação do ruido 802 e à estimativa MDCT para um bloco de componentes tonais 804. No bloco 804 também o sinal de saida fornecido pelo bloco de classificação 800 é recebido também como os coeficientes MDCT Cm_2 e Cm+2 da segunda ao último frame anterior ao frame perdido e o segundo frame anterior ao frame perdido, respetivamente, são recebidos. O bloco 804 gera os coeficientes MDCT Cm do frame perdido para os componentes tonais, e o bloco de inserção da modulação de ruido 802 gera os coeficientes espectrais MDCT para o frame perdido para Cm componentes não tonais. Estes coeficientes são fornecidos ao bloco de composição do espectro 806 gerados na saida dos coeficientes espectrais l para o frame perdido. O bloco de inserção da modulação de ruido 802 opera em resposta ao sistema IT gerado pelo bloco de estimativa 804.
As modificações seguintes são de interesse relevante em relação à referência [4] : O pseudo espectro de energia utilizado para a deteção do pico é derivado como
Para eliminar picos perceptualmente irrelevantes ou parasitas, a deteção do pico é apenas aplicada a uma gama espectral limitada e apenas máximos local que exceda um limiar relativo ao máximo absoluto do pseudo espectro de energia são considerados. Os restantes picos são escolhidos por ordem descendente da sua magnitude, e um número pré-especifiçado de máximas de topo são classificadas como picos tonais. A abordagem é baseada na seguinte fórmula geral (com a desta atribuída):
cw é derivada como em cima, mas a derivação de a torna-se mais avançada, seguindo a abordagem
substituindo Em, Em_1 e Em+1 com em que
resulta numa expressão que é quadrática em a. Assim, para uma dada estimativa MDCT existem dois candidatos (com sinais opostos) para o fator de correção multiplicativo (A1,A2,A3 são as matrizes de transformação). A seleção da melhor estimativa é executada de modo idêntico ao descrito na referência [4].
Esta abordagem avançada exige dois frames antes e após a perda do frame de modo a derivar os coeficientes MDST do frame anterior e posterior.
Uma versão com menos atraso desta abordagem é sugerida na referência [ 7] :
Como um ponto de partida, a fórmula de interpolação C^Qi) =
é reutilizada, mas é aplicada para o frame m- 1, resultando em:
Depois, o resultado da interpolação C^-i é substituído pela verdadeira estimativa (aqui, o fator 2 torna-se parte do fator de correção: a = 2 cosÇnfi)) , o que conduz a
0 fator de correção é determinado pela observação de enerqias de dois frames anteriores. Do cálculo de enerqia, os coeficientes MDST do frame anterior são aproximados como
Depois, a enerqia sinusoidal é calculada como
Do mesmo modo, a enerqia sinusoidal para o frame m-2 é calculada e denotada por Em_2 independente de a.
Empreqo do requisito de enerqia
resultando novamente numa expressão que é quadrática em a. 0 processo de seleção para os candidatos calculados é executado como anteriormente, mas a regra de decisão considera apenas o espectro de energia do frame anterior.
Outra ocultação de perda do frame de menos atraso no domínio de frequências é descrita na referência [8]. Os ensinamentos da referência [8] podem ser simplificados, sem perda de generalidade, como:
Predição utilizando um DFT de um sinal de tempo: (a) Obter o espectro DFT do sinal de domínio temporal descodificado que corresponde aos coeficientes do domínio de frequências codificadas recebidos Cm. (b) Modular as maqnitudes DFT, presumindo uma qama de fase linear, para predizer os coeficientes do domínio de frequências em falta no próximo frame Cm+1
Predição utilizando uma magnitude de estimativa dos espectros de frequência recebidos: (a) Encontrar C^,e S^, utilizando Cm como entrada, tal que
em que Qm(k) é a magnitude do coeficiente DFT que corresponde a Cm(k). (b) Calcular:
(c) Executar uma extrapolação linear da magnitude e da fase:
Utilizar filtros para calcular C,^ e S,^ de Cm e depois prosseguir como em cima para obter Cm+1(k)
Utilizar um filtro adaptativo para calcular Cm+1(k):
A seleção de coeficientes do espectro a serem preditos é mencionada na referência [8] mas não se encontra descrita em detalhe.
Na referência [9] foi reconhecido que, para sinais quase- estacionários, a diferença de fase entre frames sucessivos é quase constante e depende apenas da frequência fracionada. Contudo, apenas uma extrapolação linear dos dois últimos espectros complexos é utilizada.
Em AMR+WB+ (ver referência [10]) um método descrito na referência [11] é utilizado. O método na referência [11] é uma extensão do método descrito na referência [8] num sentido em que também utiliza os coeficientes espectrais disponíveis do frame atual, assumindo que apenas uma parte do frame atual é perdida. Contudo, a situação de uma perda total de um frame não é considerada na referência [11] .
Outra ocultação da perda do frame de menos atraso no domínio MDCT é descrita na referência [12] . Na referência [12] é em primeiro lugar determinado se o frame perdido Pth é um frame de harmónica múltipla. O frame perdido Pth é um frame de harmónica múltipla se mais do que Ko frames entre frames K antes do frame Pth forem dotados de uma planicidade do espectro menor do que um valor limiar. Se o frame perdido Pth for um frame de harmónica múltipla então os frames (P - K) th a (P - 2)nd no domínio MDST são utilizados para predizer o frame perdido Pth. Um coeficiente espectral é um pico se o seu espectro de energia for superior a dois coeficientes de espectro de energia adjacentes. Um pseudo espectro tal como descrito na referência [13] é utilizado para o frame (P - l)st.
Um conjunto de coeficientes Sc é construído dos frames de espectro de energia Li do seguinte modo:
Obtendo Li conjuntos Si, SLi composto por picos em cada um dos frames Li, um número de picos em cada conjunto sendo Ni,
Nli respetivamente. Selecionando um conjunto Si dos Li conjuntos Si, SLi. Para cada coeficiente de pico rrq, j = l...Ni no conjunto S, levando em consideração se existe algum coeficiente de frequências entre m-j, m-j+i , mj±k pertencendo a todos os outros conjuntos de picos. Se existir algum, colocando todas as frequências rrq, m-j+i, ..., mj±k no conjunto de frequência Sc. Se não existir qualquer coeficiente de frequência pertencente a todos os outros conjuntos de picos, colocando diretamente todos os coeficientes de frequências num frame no conjunto de frames Sc. A dita k é um inteiro não negativo. Para todos os coeficientes espectrais no conjunto Sc a fase é predita utilizando os frames L2 de entre os frames MDCT-MDST (P - K) th a (P - 2) nd. A predição é feita utilizando uma extrapolação linear (quando L2=2) ou um ajuste linear (quando L2>2). Para a extrapolação linear:
em que p, tl e t2 são índices de frames.
Os coeficientes espectrais não existentes no conjunto Sc são obtidos utilizando uma série de frames anteriores ao frame (P - l)st, sem especificamente explicar como. É um objetivo da presente invenção fornecer uma abordagem melhorada para obter coeficientes do espectro para um frame de substituição de um sinal de áudio.
Este objetivo é obtido através do método da reivindicação 1, de um produto do programa de computador não-transitório da reivindicação 34, de um aparelho da reivindicação 35 ou da reivindicação 36, de um codificador áudio da reivindicação 37, de um recetor de áudio da reivindicação 38 e de um sistema para a transmissão de sinais de áudio da reivindicação 39.
Outras formas de realização de acordo com a presente invenção estão definidas nas reivindicações dependentes. A presente invenção fornece um método para a obtenção de coeficientes do espectro para um frame de substituição de um sinal de áudio, sendo que o método compreende: a deteção de um componente tonal de um espectro de um sinal de áudio baseado num pico existente nos espectros dos frames anteriores a um frame de substituição; para o componente tonal do espectro, predizer coeficientes do espectro para o pico e o seu envolvente no espectro do frame de substituição; e para o componente não-tonal do espectro, utilizando um coeficiente do espectro não-predito para o frame de substituição ou um coeficiente do espectro correspondente de um frame anterior ao frame de substituição. A presente invenção fornece um aparelho para a obtenção de coeficientes do espectro para um frame de substituição de um sinal de áudio, sendo que o aparelho compreende: um detetor configurado para detetar um componente tonal de um espectro de um sinal de áudio baseado num pico existente nos espectros de frames anteriores a um frame de substituição; e um preditor configurado para predizer para o componente tonal do espectro dos coeficientes do espectro para o pico e o seu envolvente no espectro do frame de substituição; em que para o componente não-tonal do espectro um coeficiente do espectro não-predito para o frame de substituição ou um coeficiente do espectro correspondente de um frame anterior ao frame de substituição é utilizado. A presente invenção fornece um aparelho para a obtenção de coeficientes do espectro para um frame de substituição de um sinal de áudio, o aparelho estando configurado para operar de acordo com o método inovador para obter coeficientes do espectro para um frame de substituição de um sinal de áudio. A presente invenção fornece um descodificador áudio, compreendendo a inovação um aparelho para a obtenção de coeficientes do espectro para um frame de substituição de um sinal de áudio. A presente invenção fornece um recetor de áudio, compreendendo o descodificador áudio inovador. A presente invenção fornece um sistema para a transmissão de sinais de áudio, sendo que o sistema compreende: um codificador configurado para gerar um sinal de áudio codificado; e o descodificador inovador configurado para receber o sinal de áudio codificado, e para descodificar o sinal de áudio codificado. A presente invenção fornece um produto de programa de computador não-transitório compreendendo um meio lido por computador que armazena instruções que, quando executadas num computador, executam o método inovador para a obtenção de coeficientes para um frame de substituição de um sinal de áudio. A abordagem inovadora é vantajosa pois fornece uma boa ocultação de perda de frames de sinais tonais com uma boa qualidade e sem a introdução de qualquer atraso adicional. 0 codec inovador de baixo atraso é vantajoso pois atua bem em ambos os sinais de discurso e de áudio e benefícios, por exemplo num ambiente propício a erros, da boa ocultação da perda de frames obtida especialmente para sinais tonais estacionários. Uma ocultação de perda de frames de baixo atraso de sinais monofónicos e polifónicos é proposta, fornecendo bons resultados para sinais tonais sem degradação dos sinais não-tonais.
De acordo com as formas de realização desta invenção, uma ocultação de componentes tonais melhorada no domínio MDCT é fornecida. As formas de realização dizem respeito à codificação áudio e de discurso que inclui um codec do domínio de frequências ou um codec no domínio da troca discurso/frequência, em especial para uma ocultação de perda de frames no domínio MDCT (Transformação Discreta de Cossenos Modificada). A invenção, de acordo com formas de realização, propõe um método sem atraso para a construção de um espectro MDCT para um frame perdido com base nos frames anteriormente recebidos, em que o último frame recebido é codificado no domínio de frequências utilizando MDCT.
De acordo com formas de realização preferidas, a abordagem inovadora inclui a deteção das partes do espectro que são tonais, por exemplo utilizando o penúltimo espectro complexo para obter a localização correta ou posição do pico, utilizando o último espectro real para refinar a decisão se um binário é tonal, e utilizando a informação do tom para uma melhor deteção de uma inserção ou desvio do tom, em que a informação de tom já existe no fluxo de bits ou é derivada no lado do descodificador. Para além disso, a abordagem inovadora inclui uma disposição de uma largura do sinal adaptativo de uma harmónica a ser ocultada. 0 cálculo da deslocação de fase ou da diferença de fase entre frames de cada coeficiente espectral que faz parte de uma harmónica é também fornecida, sendo que este cálculo tem como base o último espectro disponível, por exemplo o espectro CMDCT, sem necessidade do penúltimo CMDCT. De acordo com as formas de realização, a diferença de fase é refinada utilizando os últimos espectros MDCT recebidos, e o refinamento pode ser adaptativo, dependendo do número de frames perdidos consecutivamente. 0 espectro CMDCT pode ser construído a partir do sinal de domínio temporal descodificado que é vantajoso pois evita a necessidade de qualquer alinhamento com a estrutura codec, e permite que a construção do espectro complexo esteja o mais próxima possível do frame perdido através da exploração das propriedades de janelas de baixa sobreposição. Formas de realização da invenção fornecem uma decisão por frame para utilizar uma ocultação do domínio temporal ou do domínio de frequências. A abordagem inovadora é vantajosa, pois opera totalmente com base na informação já disponível no lado do recetor quando determina que um frame foi perdido ou precisa de ser substituído e não há necessidade de informação lateral adicional que precisa ser recebida de modo que não existe fonte para atrasos adicionais que ocorrem em abordagens da técnica anterior dada a necessidade de receber a informação lateral adicional ou derivar a informação lateral adicional da informação concreta disponível. A abordagem inovadora é vantajosa quando comparada com as abordagens da técnica anterior acima descritas dado que os inconvenientes subsequentemente descritos de tais abordagens, reconhecidos pelos inventores da presente invenção, são evitados quando se aplica a abordagem inovadora.
Os métodos para a ocultação da perda de frames descrita na referência [1] não são suficientemente robustos e não produzem resultados suficientemente bons para sinais tonais. A extrapolação do sinal em forma de onda no domínio temporal, tal como descrito na referência [2], não pode conter sinais polifónicos e necessita de uma complexidade aumentada para ocultação de todos os sinais estacionários, tonais, dado que o desvio tonal exato deverá ser determinado.
Na referência [3] um atraso adicional é introduzido e é necessária informação lateral significativa. A seleção do componente tonal é muito simples e irá escolher muitos picos de entre os componentes não-tonais. 0 método descrito na referência [4] exige uma antecipação no lado descodificador e por isso introduz um atraso adicional de um frame. Utilizando o pseudo espectro de energia amaciado para a deteção de picos reduz a precisão da localização dos picos. Reduz também a fiabilidade da deteção pois irá detetar picos a partir do ruido que surge num frame apenas. 0 método descrito na referência [6] exige uma antecipação no lado descodificador e por isso introduz um atraso adicional de dois frames. A seleção do componente tonal não corresponde a componentes tonais nos dois frames em separado, mas baseia-se num espectro médio, e assim será dotada de demasiados falsos positivos ou falsos negativos tornando possível ajustar os limiares de deteção dos picos. A localização dos picos não será precisa pois o pseudo espectro de energia é utilizado. A gama espectral limitada para a busca de picos parece uma alternativa válida aos problemas descritos que surgem devido à utilização do pseudo espectro de energia. 0 método descrito na referência [7] tem como base o método descrito na referência [6] e por isso tem os mesmos inconvenientes. Apenas ultrapassa o atraso adicional.
Na referência [8] não existe descrição detalhada da decisão se um coeficiente espectral pertence à parte tonal do sinal. Contudo, a sinergia entre a deteção dos coeficientes espectrais tonais e a ocultação é importante e assim uma boa deteção de componentes tonais é importante. Para além disso, não foi reconhecida a utilização de filtros dependentes de ambos Cm e Cm_í (ou seja Cm, Cm_í e Sm_í, tal como Sm_í podem ser calculados quando Cm e está disponível) para calcular Cή e S'm. Também, não foi reconhecida a utilização da possibilidade em calcular um espectro complexo que não se encontra alinhado com o enquadramento do sinal codificado, dada com janelas de baixa sobreposição. Além disso, não foi reconhecida a utilização da possibilidade de calcular a diferença de fase entre frames baseado apenas no antepenúltimo espectro complexo.
Na referência [12] pelo menos três frames anteriores deverão ser armazenados na memória, aumentando assim significativamente os requisitos de memória. A decisão se deverá utilizar-se a ocultação tonal pode estar errada e um frame com uma ou mais harmónicas pode ser classificado como um frame sem harmónicas múltiplas. 0 frame MDCT recebido em último luqar não é diretamente utilizado para melhorar a predição do espectro MDCT perdido, mas apenas na busca pelos componentes tonais. 0 número de coeficientes MDCT a serem ocultados para uma harmónica é fixo. Contudo, dependendo do nível de ruído, é desejável ter um número variável de coeficientes MDCT que constituam uma harmónica. A sequir, formas de realização desta invenção serão descritos com maior detalhe com referência aos desenhos que os acompanham, os quais: A Fiq. 1 ilustra um diaqrama de blocos simplificado de um sistema para transmissão de sinais de áudio que implementa a abordaqem inovadora do lado descodificador, A Fiq. 2 ilustra um fluxoqrama da abordaqem inovadora de acordo com uma forma de realização, A Fiq. 3 é uma representação esquemática das janelas de sobreposição MDCT para frames adjacentes, A Fig. 4 ilustra um fluxograma que representa etapas para identificar um pico de acordo com uma forma de realização, A Fig. 5 é uma representação esquemática de um espectro de energia de um frame a partir do qual um ou mais picos são detetados, A Fig. 6 ilustra um exemplo para um "entre frames", A Fig. 7 ilustra um diagrama de blocos que representa uma abordagem de interpolação sem informação lateral transmitida, e A Fig. 8 ilustra um diagrama de blocos de uma técnica FLC total refinada quando comparada com a Fig. 7. A seguir as formas de realização da abordagem inovadora serão descritos com maior detalhe e pode-se observar que nos desenhos que acompanham elementos dotados da mesma ou idêntica funcionalidade são indicados pela mesma sinalização de referência. Nas formas de realização seguintes da abordagem inovadora serão descritos, de acordo com qual ocultação é executada no domínio de frequências, apenas se os dois últimos frames recebidos são codificados utilizando MDCT. Detalhes relativos à decisão se se deverá utilizar a ocultação do domínio temporal ou de frequências numa perda de frames após a receção de dois frames MDCT serão também descritos. Relativamente às formas de realização descritas a seguir dever-se-á ter em atenção que o requisito de que os dois últimos frames são codificados no domínio de frequências não reduz a aplicabilidade da abordagem inovadora dado que num codec trocado o domínio de frequências será utilizado para sinais tonais estacionários. A Fig. 1 ilustra um diagrama de blocos simplificado de um sistema para transmissão de sinais de áudio que implementa a abordagem inovadora no lado do descodificador. 0 sistema compreende um codificador 100 que recebe uma entrada 102 de um sinal de áudio 104. O codificador é configurado para gerar, com base no sinal de áudio recebido 104, um sinal de áudio codificado fornecido numa saida 106 do codificador 100. O codificador pode fornecer o sinal de áudio codificado de tal forma que frames do sinal de áudio são codificados utilizando MDCT. De acordo com uma forma de realização o codificador 100 compreende uma antena 108 para permitir uma transmissão sem fios do sinal de áudio, tal como indicado no sinal de referência 110. Noutras formas de realização, o codificador pode fazer sair o sinal de áudio codificado fornecido na saida 106 através de uma ligação com fios, tal como se encontra por exemplo indicado no sinal de referência 112. O sistema compreende ainda um descodificador 120 dotado de uma entrada 122 na qual o sinal de áudio codificado fornecido pelo codificador 106 é recebido. O codificador 120 pode compreender, de acordo com uma forma de realização, uma antena 124 para receber uma transmissão sem fios 110 do codificador 100. Noutra forma de realização, a entrada 122 pode fornecer uma ligação à transmissão com fios 112 para receber o sinal de áudio codificado. O sinal de áudio recebido na entrada 122 do descodificador 120 é aplicado a um detetor 126 que determina se um segundo frame do sinal de áudio recebido que vai ser descodificado pelo descodificador 120 precisa ser substituído. Por exemplo, de acordo com uma forma de realização, este pode ser o caso quando o detetor 12 6 determina que um frame que se deverá sequir a um frame anterior não é recebido no descodificador ou quando é determinado que o frame recebido possui erros que impedem a descodificação no lado descodificador 120. Se for determinado no detetor 126 que um frame apresentado para descodificação se encontra disponível, o frame será encaminhado ao bloco de descodificação 128 onde uma descodificação do frame codificado é executada de modo que na saída do descodificador 130 um fluxo de frames de áudio descodificados ou um sinal de áudio descodificado 132 pode sair. No caso em que for determinado no bloco 126 que o frame atualmente processado precisa de substituição, os frames anteriores ao frame atual que precisa de uma substituição e que pode ser temporariamente quardado nos circuitos de deteção 126 são fornecidos a um detetor tonal 134 que determina se o espectro da substituição inclui componentes tonais ou não. No caso de nenhuns componentes tonais serem fornecidos, tal é indicado ao bloco qerador de ruído/de memória 136 que qera coeficientes espectrais que são coeficientes não preditivos e que podem ser qerados utilizando um qerador de ruído ou outro método de qeração de ruído convencional, por exemplo mistura de sinais ou idêntico. Em alternativa, coeficientes do espectro também pré-definidos para componentes tonais do espectro podem ser obtidos a partir de uma memória, por exemplo uma tabela de consulta. Em alternativa, quando é determinado que o espectro não inclui componentes tonais, em vez de qerar coeficientes do espectro não preditivos, características espectrais correspondentes de um dos frames anteriores à substituição podem ser selecionadas.
No caso do detetor tonal 134 detetar que o espectro inclui componentes tonais, um sinal respetivo é indicado ao preditor 138, de acordo com formas de realização desta invenção mais tarde descritos, os coeficientes do espectro para o frame de substituição. Os respetivos coeficientes determinados para o frame de substituição são fornecidos ao bloco de descodificação 128 onde, com base nestes coeficientes do espectro, uma descodificação do frame perdido ou de substituição é executada. Tal como ilustrado na Fig. 1, o detetor tonal 134, o gerador de ruido 136 e o preditor 138 definem um equipamento 140 para a obtenção de coeficientes do espectro para um frame de substituição num descodificador 120. Os elementos representados podem ser implementados utilizando componentes de hardware e/ou de software, por exemplo unidades de processamento adequadamente programadas. A Fig. 2 ilustra um fluxograma da abordagem inovadora de acordo com uma forma de realização. Na primeira etapa S200 um sinal de áudio codificado é recebido, por exemplo no descodificador 120 tal como representado na Fig. 1. O sinal de áudio recebido pode ser na forma dos respetivos frames de áudio que são codificados utilizando MDCT.
Na etapa S202 é determinado se um frame atual a ser processado pelo descodificador 120 precisa ou não ser substituído. Um frame de substituição pode ser necessário no lado descodificador, por exemplo no caso de o frame não puder ser processado devido a um erro nos dados recebidos ou idêntico, ou no caso de o frame se ter perdido durante a transmissão ao recetor/descodificador 120, ou no caso de o frame não ter sido recebido a tempo no recetor do sinal de áudio 120, por exemplo devido a um atraso durante a transmissão do frame do lado do codificador na direção do lado do descodificador.
No caso de ser determinado na etapa S202, por exemplo pelo detetor 126 no descodif icador 120, que o frame a ser atualmente processado pelo descodificador 120 precisa de ser substituído, o método prossegue para a etapa S204 na qual é feita uma determinação posterior se uma ocultação do domínio de frequências é ou não necessária. De acordo com uma forma de realização, se a informação de tom estiver disponível para os dois últimos frames e se o tom não tiver mudado, é determinado na etapa S204 que uma ocultação do domínio de frequências é desejada. De outro modo, é determinado que uma ocultação do domínio temporal deverá ser aplicada. Numa forma de realização alternativa, o tom pode ser calculada numa base de sub-frame utilizando o sinal descodificado, e mais uma vez utilizando a decisão que no caso de o tom estar presente e no caso de ser constante nos sub-frames, a ocultação do domínio de frequências é utilizada, caso contrário a ocultação do domínio temporal é aplicada.
Ainda noutra forma de realização desta invenção, um detetor, por exemplo o detetor 126 no descodificador 120, pode estar previsto e pode ser configurado de tal modo que analise adicionalmente o espectro do penúltimo frame ou o último frame ou ambos destes frames anteriores ao frame de substituição e para decidir, com base nos picos encontrados, se o sinal é monofónico ou polifónico. No caso de o sinal ser polifónico, a ocultação do domínio de frequências deverá ser utilizada, independentemente da presença de informação de tom. Em alternativa, o detetor 126 no descodif icador 120, pode ser configurado de tal modo que analise adicionalmente o um ou mais frames anteriores ao frame de substituição de modo a indicar se um número de componentes tonais no sinal ultrapassa ou não um limiar pré-definido. No caso de o número de componentes tonais no sinal ultrapassar o limiar a ocultação do domínio de frequências será utilizada.
No caso de ser determinado na etapa S204 que uma ocultação do domínio de frequências deverá ser utilizada, por exemplo aplicando os critérios anteriormente referidos, o método prossegue para a etapa S206, onde uma parte tonal ou um componente tonal de um espectro do sinal de áudio é detetado com base num ou mais picos existentes nos espectros dos frames anteriores, em especial um ou mais picos estão presentes substancialmente na mesma localização no espectro do penúltimo frame e o espectro do último frame anterior ao frame de substituição. Na etapa S208 é determinado se existe uma parte tonal do espectro. No caso de existir uma parte tonal do espectro, o método prossegue para a etapa S210, onde um ou mais coeficientes do espectro para o um ou mais picos e as suas adjacências no espectro do frame de substituição são preditos, por exemplo com base na informação derivável dos frames anteriores, em especial o penúltimo frame e o último frame. O coeficiente (s) do espectro predito na etapa S210 é (são) encaminhado, por exemplo para o bloco descodificador 128 ilustrado na Fig. 1, de modo que, tal como ilustrado na etapa 212, a descodificação do frame do sinal de áudio codificado com base nos coeficientes do espectro da etapa 210 possa ser executada.
No caso de ser determinado na etapa S208 que não existe parte tonal do espectro, o método prossegue para a etapa S214, utilizando um coeficiente do espectro não predito para o frame de substituição ou um coeficiente do espectro correspondente de um frame anterior ao frame de substituição, existentes na etapa S212, para a descodificação do frame.
No caso de ser determinado na etapa S204 que nenhuma ocultação do domínio de frequências é desejável, o método prossegue para a etapa S216 onde uma ocultação do domínio temporal convencional do frame a ser substituído é executada e com base no coeficiente do espectro gerado pelo processo na etapa S216 o frame do sinal codificado é descodificado na etapa S212.
No caso de ser determinado na etapa S202 que não existe um frame de substituição no sinal de áudio atualmente processado, isto é, o frame atualmente processado pode ser totalmente descodificado utilizando as abordagens convencionais, o método prossegue diretamente para a etapa S212 para descodificar o frame do sinal de áudio codificado.
Segue-se uma descrição de detalhes adicionais de acordo com formas de realização desta invenção. Cálculo do espectro de energia
Para o penúltimo frame, indexado m — 2, os coeficientes MDST Sm_2 são calculados diretamente do sinal do domínio temporal descodificado.
Para o último frame é utilizado um espectro MDST estimado, calculado a partir dos coeficientes MDCT Cm_x do último frame recebido (ver por ex.: referência [13]):
Os espectros de energia para os frames m-2 e m-1 são calculados do seguinte modo:
com:
SmA{k) coeficiente MDST no frame m-1, cúú coeficiente MDCT no frame m-1,
Sm_2(k) coeficiente MDST no frame m-2, e cúú coeficiente MDCT no frame m-2.
Os espectros de energia obtidos são amaciados do seguinte modo:
Deteção de componentes tonais
Os picos existentes nos últimos dois frames (m-2 e m — 1) são considerados como representantes de componentes tonais. A existência contínua dos picos permite uma distinção entre componentes tonais e picos aleatórios nos sinais ruidosos. Informação de tom
Pressupõe-se que a informação de tom está disponível: • calculada no lado codificador e disponível no fluxo de bits, ou • calculada no lado descodificador. A informação de tom é utilizada apenas se todas as seguintes condições forem cumpridas: • o ganho do tom é superior a zero, • o retardamento do tom é constante nos últimos dois frames • a frequência fundamental é superior a 100 Hz A frequência fundamental é calculada a partir do retardamento do tom:
Se existir F0=n-F0 para a qual as harmónicas N>5 são as mais fortes no espectro, então FQ é definida em F0 . FQ não é fiável se não existirem picos suficientes nas posições das harmónicas n'F0. De acordo com uma forma de realização, a informação de tom é calculada no alinhamento da estrutura da fronteira direita da janela MDCT ilustrada na Fig. 3. Este alinhamento é benéfico para a extrapolação das partes tonais de um sinal à medida que a área de sobreposição 300, sendo a parte que necessita de ocultação, é também utilizada para o cálculo do desvio do tom. Noutra forma de realização, a informação de tom pode ser transferida no fluxo de bits e utilizada pelo codec no canal livre e assim não tem quaisquer custos adicionais para a ocultação.
Envelope
Segue-se a descrição de um procedimento para a obtenção de um envelope do espectro, necessário para a determinação de picos mais tarde descrita. 0 envelope de cada espectro de energia nos últimos dois frames é calculado utilizando um filtro de média móvel de comprimento L:
0 comprimento do filtro depende da frequência fundamental (e pode ser limitada à gama [7,23]):
Esta ligação entre L e F0 é idêntica ao procedimento descrito na referência [14], contudo, nesta invenção a informação de tom do frame atual é utilizada incluindo uma antecipação, ao passo que a referência [14] utiliza um tom médio especifico para um orador. Se a frequência fundamental não estiver disponível ou não for fiável, o comprimento do filtro L é 15.
Selecionar um Pico
Os picos são em primeiro lugar procurados no espectro de energia do frame m - 1 baseado nos limiares pré-definidos. Com base na localização dos picos no frame m - 1, os limiares para a busca no espectro de energia do frame m - 2 são adaptados. Assim os picos existentes em ambos os frames (m - 1 e m - 2) são encontrados, mas a localização exata é baseada no espectro de energia no frame m - 2 . Esta instrução é importante porque o espectro de energia no frame m - 1 é calculado apenas numa estimativa MDST e assim a localização de um pico não é exata. É também importante que o MDCT do frame m - 1 seja utilizado, tal como é indesejável continuar com tons que existem apenas no frame m - 2 e não no frame m - 1. A Fig. 4 ilustra um fluxograma que representa as etapas anteriores para apanhar um pico de acordo com uma forma de realização. Na etapa S400 os picos são procurados no espectro de energia do último frame m - 1 anterior ao frame de substituição baseado num ou mais limiares pré-definidos. Na etapa S402, o um ou mais limiares são adaptados. Na etapa S404 são procurados picos no espectro de energia do penúltimo frame m - 2 anterior ao frame de substituição baseado num ou mais limiares adaptados. A Fig. 5 é uma representação esquemática de um espectro de energia de um frame a partir do qual um ou mais picos são detetados. Na Fig. 5, o envelope 500 é ilustrado podendo ser determinado como anteriormente descrito ou podendo ser determinado por outras abordagens conhecidas. Um número de picos candidatos ilustrados é representado pelos círculos na Fig. 5. Descobrir, de entre os picos candidatos, um pico, será em baixo descrito com maior detalhe. A Fig. 5 ilustra um pico 502 encontrado bem como um falso pico 504 e um pico 506 representando ruído. Para além disso, um pé esquerdo 508 e um pé direito 510 de um coeficiente do espectro são ilustrados.
De acordo com uma forma de realização, encontrar picos no espectro de energia Pm_x do último frame m - 1 anterior ao frame de substituição é feito utilizando as seguintes etapas (etapa S400 na Fig. 4) : • um coeficiente espectral é classificado como um pico tonal candidato se todos os seguintes critérios forem cumpridos: a razão entre o espectro de energia amaciado e o envelope 500 é superior a certo limiar:
a razão entre o espectro de energia amaciado e o envelope 500 é superior às suas adjacentes, significando que se trata de um máximo local, • os máximos locais são determinados ao encontrar o pé esquerdo 508 e o pé direito 510 de um coeficiente do espectro k e por encontrar um máximo entre o pé esquerdo 508 e o pé direito 510. Esta etapa é necessária tal como pode ser observado na Fig. 4, em que o falso pico 504 pode ser provocado por um lóbulo lateral ou por ruido de quantificação.
Os limiares para a busca do pico no espectro de energia Pm_2 do penúltimo frame m - 2 são determinados do seguinte modo (etapa S402 na Fig. 4): • nos coeficientes do espectro ke[i-l,i + l] em redor de um pico no índice i em P^ :
• se F0 estiver disponível e for fiável então para cada ne id determina k = \_n-F0J e frac = n-F0—k :
se k e[i-l,i + l] em redor de um pico no índice i em Pm_x então os limiares determinados na primeira etapa são reescritos, • para todos os outros índices:
Picos tonais são encontrados no espectro de energia Pm_2 do penúltimo frame m - 2 pelas seguintes etapas (etapa S404 na Fig. 4) : • um coeficiente espectral é classificado como um pico tonal se: a razão do espectro de energia e do envelope for superior ao limiar:
a razão do espectro de energia e do envelope superior às suas envolventes vizinhas, significando que se trata de um máximo local, • máximos locais são determinados por encontrar o pé esquerdo 508 e o pé direito 510 de um coeficiente espectral k e por encontrar um máximo entre o pé esquerdo 508 e o pé direito 510, • o pé esquerdo 508 e o pé direito 510 definem também a envolvente de um pico tonal 502, isto é, os binários espectrais do componente tonal em que o método de ocultação tonal será utilizado.
Utilizando o método anteriormente descrito, revela que o pico direito 506 na Fig. 4 apenas existe num dos frames, isto é, não existe em ambos os frames m - 1 ou m - 2. Por isso, este pico é marcado como ruído e não é selecionado como um componente tonal. Extração de parâmetros sinusoidais
Para um sinal sinusoidal
uma deslocação para N/2 (a dimensão do salto MDCT) resulta no sinal
Assim, existe a deslocação de fase
em que 1 é o índice de um pico. Por isso, a deslocação de fase depende da parte fracionai da frequência de entrada mais uma adição adicional de π para coeficientes espectrais ímpares. A parte fracionai da frequência Δ/ pode ser derivada utilizando um método descrito, por exemplo, na referência [15]: • dado que a magnitude do sinal em sub-banda k = 1 é um máximo local, Δ/pode ser determinada através do cálculo da razão das magnitudes do sinal nas sub-bandas k = l- lek = l + l, isto é, por avaliação:
em que a aproximação da resposta da magnitude de uma janela é utilizada :
em que b é a largura do lóbulo principal. A constante G nesta expressão tem sido ajustada para 27.4/20.0 de modo a minimizar o erro máximo absoluto da estimativa, • substituindo a resposta da frequência aproximada e conduz a:
Predição MDCT
Para todos os picos do espectro encontrados e seus adjacentes, a predição MDCT é utilizada. Para todos os outros coeficientes do espectro, a mistura de sinais ou um método de geração de ruido idêntico pode ser utilizado.
Todos os coeficientes do espectro pertencentes aos picos encontrados e seus adjacentes pertencem ao conjunto que é designado como K. Por exemplo, na Fig. 5 o pico 502 foi identificado como um pico representando um componente tonal. O adjacente do pico 502 pode ser representado por um número pré-definido de coeficientes espectrais vizinhos, por exemplo pelos coeficientes espectrais entre os do pé esquerdo 508 e os do pé direito 510, mais os coeficientes dos pés 508, 510.
De acordo com as formas de realização, o envolvente do pico é definido por um número pré-definido de coeficientes em redor do pico 502. O envolvente do pico pode compreender um primeiro número de coeficientes à esquerda do pico 502 e um segundo número de coeficientes à direita do pico 502. O primeiro número de coeficientes à esquerda do pico 502 e o segundo número de coeficientes à direita do pico 502 podem ser iguais ou diferentes.
De acordo com formas de realização que aplicam o padrão EVS, o número pré-definido de coeficientes vizinhos pode ser determinado ou fixado numa primeira etapa, por ex.: antes de detetar o componente tonal. No padrão EVS três coeficientes à esquerda do pico 502, três coeficientes à direita e o pico 502 podem ser utilizados, isto é, ao todo sete coeficientes (este número foi escolhido por motivos de complexidade, contudo, qualquer outro número irá obter resultados igualmente).
De acordo com formas de realização, a dimensão do envolvente do pico é adaptativa. O envolvente dos picos identificados como representando um componente tonal pode ser modificado de modo que os envolventes em redor de dois picos não se sobreponham. De acordo com formas de realização, um pico é sempre considerado apenas com os seus envolventes e juntos definem um componente tonal.
Para a predição dos coeficientes MDCT num frame perdido, é utilizado o espectro de energia (a magnitude do espectro complexo) do penúltimo frame:
0 coeficiente MDCT perdido no frame de substituição é estimado como:
Segue-se a descrição de um método para o cálculo da fase (pm{k) de acordo com uma forma de realização.
Predição da fase
Para todos os picos do espectro encontrados, a frequência fracionai Δ/é calculada tal como descrito em cima e a deslocação de fase é:
Αφ é a deslocação de fase entre os frames. É igual para os coeficientes num pico e seus envolventes. A fase para cada coeficiente do espectro na posição do pico e os envolventes (k £ K) é calculada no penúltimo frame recebido utilizando a expressão:
A fase no frame perdido é predita como:
De acordo com uma forma de realização, uma deslocação de fase refinada pode ser utilizada. Utilizando a fase calculada <pm_2{k) para cada coeficiente do espectro na posição do pico e os envolventes permite uma estimativa do MDST no frame m - 1 que pode ser derivado como: com:
&,-*(*) espectro de energia (magnitude do espectro complexo) no frame m-2. A partir desta estimativa MDST e do MDCT recebido uma estimativa da fase no frame m - 1 é derivado:
A fase estimada é utilizada para refinar a deslocação de fase:
com: <pm-i(k) ~ fase do espectro complexo no frame m-1, e ^ 2(i) - fase do espectro complexo no frame m-2. A fase no frame perdido é predita como:
0 refinamento da deslocação de fase de acordo com esta forma de realização melhora a predição da sinusoide na presença de um ruido de fundo ou se a frequência da sinusoide mudar. Para sinusoides não sobrepostas com frequência constante e sem ruido de fundo, a deslocação de fase é a mesma para todos os coeficientes MDCT que circundam o pico. A ocultação utilizada pode ser dotada de diferentes velocidades de fade-out para a parte tonal e para a parte do ruido. Se a velocidade fade-out para a parte tonal do sinal for mais lenta, após múltiplos frames perdidos, a parte tonal torna-se dominante. As flutuações na sinusoide, devidas às diferentes deslocações de fase dos componentes sinusoides, produzem artefactos desagradáveis.
De modo a ultrapassar este problema, de acordo com as formas de realização, começando a partir do terceiro frame perdido, a diferença de fase do pico (com índice k) é utilizada para todos os coeficientes espectrais que o circundam (k - 1 é o índice do pé esquerdo e k + u é o índice do pé direito) :
De acordo com formas de realização adicionais, está prevista uma transição. Os coeficientes espectrais no segundo frame perdido com uma elevada atenuação utilizam a diferença de fase do pico, e os coeficientes com pequena atenuação utilizam a diferença de fase corrigida:
Refinamento da magnitude
De acordo com outras formas de realização, em vez de aplicar o refinamento da deslocação de fase descrito, outra abordagem pode ser aplicada utilizando um refinamento da magnitude:
em que 1 é o índice de um pico, a frequência fracionai AI é calculada tal como descrito em cima. A deslocação de fase é:
Para evitar um aumento da enerqia, a maqnitude refinada, de acordo com formas de realização adicionais, pode ser limitada pela maqnitude do penúltimo frame:
Ainda, de acordo com ainda formas de realização adicionais, a diminuição da maqnitude pode ser utilizada para o seu desvanecimento:
Predição da fase utilizando o "entre frames"
Em vez de basear a predição dos coeficientes espectrais nos frames anteriores ao frame de substituição, de acordo com outras formas de realização, a predição de fase pode utilizar um "entre frames" (também referido como frame "intermédio") . A Fiq. 6 ilustra um exemplo para um "entre frames". Na Fig. 6 o último frame 600 (m - 1) anterior ao frame de substituição, o penúltimo frame 602 (m - 2) anterior ao frame de substituição, e o entre frames 604 (m - 1,5) são ilustrados conjuntamente com as janelas MDCT 606 a 610 associadas.
Se a sobreposição da janela MDCT for inferior a 50% é possível obter o espectro CMDCT mais próximo do frame perdido. Na Fig. 6 um exemplo com uma sobreposição da janela MDCT de 24% é obtida.
Isto permite obter o espectro CMDCT para o entre frames 604 (m -1,5) utilizando a janela a tracejado 610, igual à janela MDCT 606 ou 608 mas com a deslocação para metade do comprimento do frame da estrutura codec. Visto que o entre frames 604 (m - 1,5) está mais próximo do frame perdido (m) , as suas caracteristicas do espectro serão mais semelhantes às caracteristicas do espectro do frame perdido (m) do que as caracteristicas do espectro entre o penúltimo frame (m - 2) e o frame perdido (m). Nesta forma de realização, o cálculo de ambos os coeficientes MDST Sm_l5 e os coeficientes MDCT Cm_l5 é feito diretamente do sinal do domínio temporal descodificado, com o MDST e o MDCT constituindo o CMDCT. Em alternativa, o CMDCT pode ser derivado utilizando operações de matrizes dos coeficientes MDCT vizinhos existentes. O cálculo do espectro de energia é feito tal como descrito em cima, e a deteção de componentes tonais é feita tal como descrito em cima com o frame m-2nd substituído pelo frame m-l,5th.
Para um sinal sinusoidal
um deslocamento para N/4 (dimensão do salto MDCT) resulta no sinal
Isto resulta na deslocação de fase
Por isso, o deslocação de fase depende da parte fracionai da frequência de entrada mais a adição adicional de
r em que 1 é o índice de um pico. A deteção da frequência fracionai é feita tal como descrita em cima.
Para a predição dos coeficientes MDCT num frame perdido, a magnitude do frame m-1,5 é utilizada:
0 coeficiente MDCT perdido é estimado como:
A fase pode ser calculada utilizando:
Ainda, de acordo com formas de realização, o refinamento da deslocação de fase descrito em cima pode ser aplicado:
Além disso, a convergência da deslocação de fase para todos os coeficientes espectrais envolventes de um pico com a deslocação de fase do pico pode ser utilizada tal como descrita em cima. Apesar de alguns aspetos do conceito descrito terem sido descritos no contexto de um aparelho, está claro que estes aspetos representam também uma descrição do método correspondente, em que um bloco ou dispositivo corresponde a uma etapa do método ou uma caracteristica de uma etapa do método. Do mesmo modo, aspetos descritos no contexto de uma etapa do método representam também uma descrição de um bloco correspondente ou item ou caracteristica de um equipamento correspondente. Dependendo de certos requisitos de implementação, formas de realização da invenção podem ser implementadas em hardware ou software. A implementação pode ser executada utilizando um meio de armazenamento digital, por exemplo uma disquete, um DVD, Blue-Ray, CD, ROM, PROM, EPROM, EEPROM ou uma memória FLASH dotado de sinais de controlo lidos eletronicamente neles, cooperando (ou que sejam capazes de cooperarem) com um sistema de computador proqramável de modo a que o respetivo método seja executado. Deste modo, o meio de armazenamento digital pode ser lido por computador.
Algumas formas de realização de acordo com a invenção compreendem um suporte de dados dotado de sinais de controlo lidos eletronicamente, capaz de cooperar com um sistema de computador programável, de modo que um dos métodos aqui descritos seja executado.
Regra geral, formas de realização desta invenção podem ser implementados como um produto de programa de computador com um código de programa, sendo que o código do programa é operativo para executar um dos métodos quando o produto do programa de computador corre num computador. 0 código do programa pode por exemplo ser armazenado num suporte legível por máquina.
Outras formas de realização compreendem o programa de computador para executar um dos métodos aqui descritos, armazenados num suporte legível por máquina.
Por outras palavras, uma forma de realização do método inovador é, desse modo, um programa de computador dotado de um código de programa para a execução de um dos métodos aqui descritos, quando o programa de computador corre num computador.
Uma forma de realização adicional dos métodos inovadores é, desse modo, um suporte de dados (ou um meio de armazenamento digital, ou um meio lido por computador) compreendendo, neles registados, o programa de computador para a execução de um dos métodos aqui descritos.
Uma forma de realização adicional do método inovador é, desse modo, um fluxo de dados ou uma sequência de sinais que representam o programa de computador para executar um dos métodos aqui descritos. 0 fluxo de dados ou a sequência de sinais pode por exemplo ser configurado para ser transferido através de uma ligação de comunicação de dados, por exemplo através da Internet.
Uma forma de realização adicional compreende um meio de processamento, por exemplo um computador, ou um dispositivo de lógica programável, configurado ou adaptado para executar um dos métodos aqui descritos.
Uma forma de realização adicional compreende um computador tendo nele instalado o programa de computador para a execução de um dos métodos aqui descritos.
Nalgumas formas de realização, um dispositivo de lógica programável (por exemplo uma rede de portas lógicas programáveis) pode ser utilizado para executar algumas ou todas as funcionalidades dos métodos aqui descritos. Nalgumas formas de realização, uma rede de portas lógicas programáveis pode cooperar com um microprocessador de modo a executar um dos métodos aqui descritos. Regra geral, os métodos são de preferência executados por qualquer equipamento de hardware.
As formas de realização descritas acima são meramente ilustrativas para os princípios desta invenção. Dever-se-á entender que modificações e variações das disposições e os detalhes aqui descritos serão evidentes para técnicos versados na arte. É pois a sua finalidade, serem limitados apenas pelo âmbito das reivindicações da patente pendente e não pelos detalhes específicos aqui apresentados como descrição e esclarecimento das formas de realização.
Referências da Técnica Anterior [1] P. Lauber and R. Sperschneider, "Error Concealment for
Compressed Digital Audio," in AES 111th Convention, New York, USA, 2001.
[2] C. J. Hwey, "Low-complexity, low-delay, scalable and embedded speech and audio coding with adaptive frame loss concealment". Patent US 6,351,730 B2, 2002.
[3] S. K. Gupta, E. Choy and S.-U. Ryu, "Encoder-assisted frame loss concealment techniques for audio coding". Patent US 2007/094009 Al.
[4] S.-U. Ryu and K. Rose, "A Frame Loss Concealment
Technique for MPEG-AAC," in 120th AES Convention, Paris, France, 2006.
[5] ISO/IEC JTC1/SC29/WG11, Information technology -- Coding of moving pictures and associated, International Organization for Standardization, 1993.
[6] S.-U. Ryu and R. Kenneth, An MDCT domain frame-loss concealment technique for MPEG Advanced Audio Coding, Department of Electrical and Computer Engineering, University of California, 2007.
[7] S.-U. Ryu, Source Modeling Approaches to Enhanced Decoding in Lossy Audio Compression and Communication, UNIVERSITY of CALIFORNIA Santa Barbara, 2006.
[8] M. Yannick, "Method and apparatus for transmission error concealment of frequency transform coded digital audio signals". Patent EP 0574288 Bl, 1993.
[9] Y. Mahieux, J.-P. Petit and A. Charbonnier, "Transform coding of audio signals using correlation between successive transform blocks," in Acoustics, Speech, and Signal Processing, 1989. ICASSP-89. , 1989.
[10] 3GPP; Technical Specification Group Services and System
Aspects, Extended Adaptive Multi-Rate - Wideband (AMR-WB+) codec, 2009.
[11] A. Taleb, "Partial Spectral Loss Concealment in Transform Codecs". Patent US 7,356,748 B2.
[12] C. Guoming, D. Zheng, H. Yuan, J. Li, J. Lu, K. Liu, K.
Peng, L. Zhibin, M. Wu and Q. Xiaojun, "Compensator and Compensation Method for Audio Frame Loss in Modified Discrete Cosine Transform Domain". Patent US 2012/109659 Al.
[13] L. S. M. Dauder, "MDCT Analysis of Sinusoids: Exact Results and Applications to Coding Artifacts Reduction, " IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING, pp . 302-312, 2004.
[14] D. B. Paul, "The Spectral Envelope Estimation Vocoder," IEEE Transactions on Acoustics, Speech, and Signal Processing, pp. 786-794, 1981.
[15] A. Ferreira, "Accurate estimation in the ODFT domain of the frequency, phase and magnitude of stationary sinusoids," 2001 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, pp. 47-50, 2001.
Referências citadas na descrição: A lista de referências citada pelo proponente é somente para conveniência do leitor. Não é parte do documento europeu de patente. Apesar de todo o cuidado que foi tido na compilação das referências, erros ou omissões não podem ser excluídas e o EPO recusa quaisquer responsabilidades nesse sentido.
Documentos de Patente Citados na Descrição • US 6351730 B2, C. J. Hwey [0132] • US 2007094009 Al, S. K. Gupta, E. Choy and S.-U.
Ryu [0132] • EP 0574288 Bl, M. Yannick [0132] • US 7356748 B2, A. Taleb [0132] • US 2012109659 Al, C. Guoming, D. Zheng, H. Yuan, J. Li, J. Lu, K. Liu, K. Peng, L. Zhibin, M. Wu and Q. Xiaojun [0132]
Literatura, que não patentes, citada na descrição • P. LAUBER ; R. SPERSCHNEIDER. Error Concealment for Compressed Digital Audio. AES 111th Convention, New York, USA, 2001 [0132] • S.-U. RYU ; K. ROSE. A Frame Loss Concealment Technique for MPEG-AAC. 120th AES Convention, Paris, France, 2006 [0132] • Information technology -- Coding of moving pictures and associated. International Organization for Standardization, 1993 [0132] • S.-U. RYU ; R. KENNETH. An MDCT domain frame-loss concealment technique for MPEG Advanced Audio Coding, 2007 [0132] • S.-U. RYU. Source Modeling Approaches to Enhanced Decoding in Lossy Audio Compression and Communication, 2006 [0132] • Y. MAHIEUX ; J.-P. PETIT ; A. CHARBONNIER. Transform coding of audio signals using correlation between successive transform blocks. Acoustics, Speech, and Signal Processing, 1989. ICASSP-89, 1989 [0132] • Technical Specification Group Services and System Aspects, Extended Adaptive Multi-Rate - Wideband (AMR-WB+) codec. 3GPP, 2009 [0132] • L. S. M. DAUDER. MDCT Analysis of Sinusoids: Exact Results and Applications to Coding Artifacts Reduction. IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING, 2004, 302-312 [0132] • D. B. PAUL. The Spectral Envelope Estimation Vocoder. IEEE Transactions on Acoustics, Speech, and Signal Processing, 1981, 786-794 [0132] • A. FERREIRA. Accurate estimation in the ODFT domain of the frequency, phase and magnitude of stationary sinusoids. 2001 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 2001, 47-50 [0132]
Claims (39)
- REIVINDICAÇÕES1. Método para a obtenção de coeficientes do espectro para um frame de substituição de um sinal de áudio, caracterizado por o método compreender: a deteção (S206) de um componente tonal de um espectro de um sinal de áudio baseado num pico (502) que existe no espectro de frames (m-1, m-2) anteriores a um frame de substituição (m); para o componente tonal do espectro, usar predição (S210) para determinar os coeficientes do espectro para o pico (502) e seus envolventes no espectro do frame de substituição (m); e para o componente não tonal do espectro, utilizando (S214) um coeficiente do espectro não predito para o frame de substituição (m) ou um coeficiente do espectro correspondente de um frame anterior ao frame de substituição (m).
- 2. Método de acordo com a reivindicação 1, caracterizado por os coeficientes do espectro para o pico (502) e seus envolventes no espectro do frame de substituição (m) serem preditos com base numa magnitude do espectro complexo de um frame (m-2) anterior ao frame de substituição (m) e uma fase predita do espectro complexo do frame de substituição (m), e a fase do espectro complexo do frame de substituição (m) ser predita com base na fase do espectro complexo de um frame (m-2) anterior ao frame de substituição (m) e um deslocação de fase entre os frames (m-1, m-2) anterior ao frame de substituição (m).
- 3. Método de acordo com a reivindicação 2, caracterizado por os coeficientes do espectro para o pico (502) e os seus envolventes no espectro do frame de substituição (m) serem preditos com base na magnitude do espectro complexo do penúltimo frame (m-2) anterior ao frame de substituição (m) e à fase predita do espectro complexo do frame de substituição (m), e a fase do espectro complexo do frame de substituição (m) ser predita com base no espectro complexo do penúltimo frame (m- 2) anterior ao frame de substituição (m).
- 4. Método de acordo com as reivindicações 2 ou 3, caracterizado por a fase do espectro complexo do frame de substituição (m) ser predita com base numa fase para cada coeficiente do espectro no pico e seus envolventes no frame (m-2) anterior ao frame de substituição (m).
- 5. Método de acordo com qualquer uma das reivindicações 2 a 4, caracterizado por a deslocação de fase entre os frames (m-1, m-2) anteriores ao frame de substituição (m) ser igual para cada coeficiente do espectro no pico e seus envolventes nos respetivos frames.
- 6. Método de acordo com qualquer uma das reivindicações 1 a 5, caracterizado por o componente tonal ser definido pelo pico e seus envolventes.
- 7. Método de acordo com qualquer uma das reivindicações 1 a 6, caracterizado por o envolvente do pico ser definido por um número pré-definido de coeficientes em redor do pico (502).
- 8. Método de acordo com qualquer uma das reivindicações 1 a 7, caracterizado por o envolvente do pico compreender um primeiro número de coeficientes à esquerda do pico (502) e um segundo número de coeficientes à direita do pico (502) .
- 9. Método de acordo com a reivindicação 8, caracterizado por o primeiro número de coeficientes compreender coeficientes entre um pé esquerdo (508) e o pico (502) mais o coeficiente do pé esquerdo (508), e em que o segundo número de coeficientes compreender coeficientes entre um pé direito (510) e o pico (502) mais o coeficiente do pé direito (510) .
- 10. Método de acordo com a reivindicação 8 ou 9, caracterizado por o primeiro número de coeficientes no pé esquerdo do pico (502) e o segundo número de coeficientes à direita do pico (502) serem iguais ou diferentes.
- 11. Método de acordo com a reivindicação 10, caracterizado por o primeiro número de coeficientes à esquerda do pico (502) ser três e o segundo número de coeficientes à direita do pico (502) ser três.
- 12. Método de acordo com qualquer uma das reivindicações 6 a 11, caracterizado por o número pré-definido de coeficientes em redor do pico (502) ser determinado antes da etapa de deteção do componente tonal.
- 13. Método de acordo com qualquer uma das reivindicações 1 a 12, caracterizado por a dimensão do envolvente do pico ser adaptativo.
- 14. Método de acordo com a reivindicação 13, caracterizado por o envolvente do pico ser selecionado de modo que os envolventes em redor de dois picos não se sobreponham.
- 15. Método de acordo com a reivindicação 2, caracterizado por o coeficiente do espectro para o pico (502) e seus envolventes no espectro do frame de substituição (m) ser predito com base na magnitude do espectro complexo do penúltimo frame (m-2) anterior ao frame de substituição (m) e a fase predita do espectro complexo do frame de substituição (m), a fase do espectro complexo do frame de substituição (m) ser predita com base na fase do espectro complexo do último frame (m-1) anterior ao frame de substituição (m) e uma deslocação de fase refinada entre o último frame (m-1) e o penúltimo frame (m-2) anterior ao frame de substituição (m), a fase do espectro complexo do último frame (m-1) anterior ao frame de substituição (m) ser determinada com base na magnitude do espectro complexo do penúltimo frame (m-2) anterior ao frame de substituição (m) , na fase do espectro complexo do penúltimo frame (m-2) anterior ao frame de substituição (m), na deslocação de fase entre o último frame (m-1) e o penúltimo frame (m-2) anterior ao frame de substituição (m) e o espectro real do último frame (m-1), e a deslocação de fase refinada ser determinada com base na fase do espectro complexo do último frame (m-1) anterior ao frame de substituição (m) e na fase do espectro complexo do penúltimo frame (m-2) anterior ao frame de substituição (m).
- 16. Método de acordo com a reivindicação 15, caracterizado por o refinamento da deslocação de fase ser adaptativo com base no número de frames consecutivamente perdidos.
- 17. Método de acordo com a reivindicação 16, caracterizado por a partir de um terceiro frame perdido, uma deslocação de fase determinada para um pico ser utilizada para predizer os coeficientes espectrais envolventes ao pico (502).
- 18. Método de acordo com a reivindicação 17, caracterizado por para a predição dos coeficientes espectrais num segundo frame perdido, uma deslocação de fase determinada para o pico (502) ser utilizada para predizer os coeficientes espectrais para os coeficientes espectrais envolventes quando a deslocação de fase no último frame (m-1) anterior ao frame de substituição (m) for igual ou inferior a um limiar pré-determinado, e uma deslocação de fase determinada para os respetivos coeficientes espectrais envolventes ser utilizada para predizer os coeficientes espectrais dos coeficientes espectrais envolventes quando a deslocação de fase no último frame (m-1) anterior ao frame de substituição (m) é superior ao limiar pré-definido.
- 19. Método de acordo com a reivindicação 2, caracterizado por o coeficiente do espectro para o pico (502) e seus envolventes no espectro do frame de substituição (m) ser predito com base numa magnitude refinada do espectro complexo do último frame (m-1) anterior ao frame de substituição (m) e a fase predita do espectro complexo do frame de substituição (m), e a fase do espectro complexo do frame de substituição (m) ser predita com base na fase do espectro complexo do penúltimo frame (m-2) anterior ao frame de substituição (m) e no dobro da deslocação de fase entre o último frame (m-1) e o penúltimo frame (m-2) anterior ao frame de substituição (m).
- 20. Método de acordo com a reivindicação 19, caracterizado por a magnitude refinada do espectro complexo do último frame (m-1) anterior ao frame de substituição (m) ser determinada com base num coeficiente do espectro real do espectro real do último frame (m-1) anterior ao frame de substituição (m) , na fase do espectro complexo do penúltimo frame (m-2) anterior ao frame de substituição (m) e na deslocação de fase entre o último frame (m-1) e o penúltimo frame (m-2) anterior ao frame de substituição (m).
- 21. Método de acordo com a reivindicação 19 ou 20, caracterizado por a magnitude refinada do espectro complexo do último frame (m-1) anterior ao frame de substituição (m) ser limitada pela magnitude do espectro complexo do penúltimo frame (m-2) anterior ao frame de substituição (m).
- 22. Método de acordo com a reivindicação 2, caracterizado por o coeficiente do espectro para o pico (502) e seus envolventes no espectro do frame de substituição (m) ser predito com base na magnitude do espectro complexo de urn frame intermédio entre o último frame (m-1) e o penúltimo frame (m-2) anteriores ao frame de substituição (m) e a fase predita do espectro complexo do frame de substituição (m).
- 23. Método de acordo com a reivindicação 22, caracterizado por a fase do espectro complexo do frame de substituição (m) ser predita com base na fase do espectro complexo do frame intermédio anterior ao frame de substituição (m) e numa deslocação de fase entre frames intermédios anteriores ao frame de substituição (m), ou a fase do espectro complexo do frame de substituição (m) ser predita com base na fase do espectro complexo do último frame (m-1) anterior ao frame de substituição (m) e numa deslocação de fase refinada entre os frames intermédios anteriores ao frame de substituição (m) , em que a deslocação de fase refinada é determinado com base na fase do espectro complexo do último frame (m-1) anterior ao frame de substituição (m) e na fase do espectro complexo do frame intermédio anterior ao frame de substituição (m).
- 24. Método de acordo com qualquer uma das reivindicações 1 a 23, caracterizado por a deteção de um componente tonal do espectro do sinal de áudio compreender: a procura (S400) de picos no espectro do último frame (m- 1) anterior ao frame de substituição (m) baseado num ou mais limiares pré-definidos; a adaptação (S402) de um ou mais limiares; e a procura (S404) de picos no espectro do penúltimo frame (m-2) anterior ao frame de substituição (m) com base num ou mais limiares adaptados.
- 25. Método de acordo com a reivindicação 24, caracterizado por a adaptação do um ou mais limiares compreender a determinação do um ou mais limiares para procurar um pico no penúltimo frame (m- 2) anterior ao frame de substituição (m) numa reqião em redor de um pico encontrado no último frame (m-1) anterior ao frame de substituição (m) com base no espectro e num envelope de espectro do último frame (m-1) anterior ao frame de substituição (m) , ou baseado na frequência fundamental.
- 26. Método de acordo com a reivindicação 25, caracterizado por a frequência fundamental ser para o sinal incluindo o último frame (m-1) anterior ao frame de substituição (m) e a antecipação do último frame (m-1) anterior ao frame de substituição (m) .
- 27. Método de acordo com a reivindicação 26, caracterizado por a antecipação do último frame (m-1) anterior ao frame de substituição (m) ser calculada no lado do codificador utilizando a antecipação.
- 28. Método de acordo com qualquer uma das reivindicações 24 a 27, caracterizado por a adaptação (S402) do um ou mais limiares compreender a determinação de um ou mais limiares para a procura de um pico no penúltimo frame (m-2) anterior ao frame de substituição (m) numa região não em torno a um pico encontrado no último frame (m-1) anterior ao frame de substituição (m) para um valor limiar pré-definido.
- 29. Método de acordo com qualquer uma das reivindicações 1 a 28, caracterizado por compreender: a determinação (S204), para o frame de substituição (m), se se deverá aplicar uma ocultação no domínio temporal ou uma ocultação no domínio de frequências utilizando a predição de coeficientes espectrais para componentes tonais do sinal de áudio.
- 30. Método de acordo com a reivindicação 29, caracterizado por a ocultação no domínio de frequências ser aplicada no caso de o último frame (m-1) anterior ao frame de substituição (m) e o penúltimo frame (m-2) anterior ao frame de substituição (m) serem dotados de um tom constante, ou uma análise de um ou mais frames anteriores ao frame de substituição (m) indicar que um número de componentes tonais no sinal ultrapassa um limiar pré-definido .
- 31. Método de acordo com qualquer uma das reivindicações 1 a 30, caracterizado por os frames do sinal de áudio serem codificados utilizando MDCT.
- 32. Método de acordo com qualquer uma das reivindicações 1 a 31, caracterizado por um frame de substituição (m) compreender um frame que não pode ser processado num recetor do sinal de áudio, por exemplo devido a um erro nos dados recebidos, ou um frame que foi perdido durante a transmissão para o recetor do sinal de áudio, ou um frame que não foi recebido a tempo no recetor do sinal de áudio.
- 33. Método de acordo com qualquer uma das reivindicações 1 a 32, caracterizado por um coeficiente do espectro não predito ser qerado utilizando um método qerador de ruido, por exemplo, interferência de sinais, ou utilizando um coeficiente do espectro pré-definido de uma memória, por exemplo, uma tabela de consulta.
- 34. Produto de proqrama de computador não transitório, caracterizado por compreender instruções de armazenamento num suporte leqível por computador que, quando executadas num computador, executarem o método tal como descrito em qualquer uma das reivindicações 1 a 33.
- 35. Um aparelho para a obtenção de coeficientes do espectro para um frame de substituição (m) de um sinal de áudio, sendo que o equipamento compreende: um detetor (134) confiqurado para detetar um componente tonal de um espectro de um sinal de áudio baseado num pico que existe nos espectros de frames anteriores a um frame de substituição (m); e um preditor (138) configurado para predizer para o componente tonal do espectro os coeficientes do espectro para o pico (502) e seus envolventes no espectro do frame de substituição (m); caracterizado por ser utilizado para o componente não tonal do espectro, um coeficiente do espectro não predito para o frame de substituição (m) ou um coeficiente do espectro correspondente de um frame anterior ao frame de substituição (m) .
- 36. Equipamento para a obtenção de coeficientes do espectro para um frame de substituição (m) de um sinal de áudio, caracterizado por o equipamento estar configurado para operar de acordo com o método tal como descrito em qualquer uma das reivindicações 1 a 33.
- 37. Descodificador de áudio, caracterizado por compreender um aparelho tal como descrito numa das reivindicações 35 ou 36.
- 38. Recetor de áudio, caracterizado por compreender um descodificador de áudio tal como descrito na reivindicação 37.
- 39. Sistema para a transmissão de sinais de áudio, caracterizado por o sistema compreender: um codificador (100) configurado para gerar o sinal de áudio codificado; e um descodificador (120) tal como descrito na reivindicação 37 configurado para receber o sinal de áudio codificado, e para descodificar o sinal de áudio codificado.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP13173161 | 2013-06-21 | ||
EP14167072 | 2014-05-05 |
Publications (1)
Publication Number | Publication Date |
---|---|
PT3011556T true PT3011556T (pt) | 2017-07-13 |
Family
ID=50980298
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PT147319610T PT3011556T (pt) | 2013-06-21 | 2014-06-20 | Para um frame de substituição de um sinal de áudio, descodificador de áudio, receptor de áudio e sistema para transmissão de sinais de áudio |
Country Status (18)
Country | Link |
---|---|
US (3) | US9916834B2 (pt) |
EP (1) | EP3011556B1 (pt) |
JP (1) | JP6248190B2 (pt) |
KR (1) | KR101757338B1 (pt) |
CN (2) | CN105408956B (pt) |
AU (1) | AU2014283180B2 (pt) |
BR (1) | BR112015032013B1 (pt) |
CA (1) | CA2915437C (pt) |
ES (1) | ES2633968T3 (pt) |
HK (1) | HK1224075A1 (pt) |
MX (1) | MX352099B (pt) |
MY (1) | MY169132A (pt) |
PL (1) | PL3011556T3 (pt) |
PT (1) | PT3011556T (pt) |
RU (1) | RU2632585C2 (pt) |
SG (1) | SG11201510513WA (pt) |
TW (1) | TWI562135B (pt) |
WO (1) | WO2014202770A1 (pt) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
MX352099B (es) * | 2013-06-21 | 2017-11-08 | Fraunhofer Ges Forschung | Método y aparato para obtener coeficientes de espectro para un cuadro de reemplazo de una señal de audio, decodificador de audio, receptor de audio y sistema para transmitir señales de audio. |
CN112967727A (zh) | 2014-12-09 | 2021-06-15 | 杜比国际公司 | Mdct域错误掩盖 |
TWI576834B (zh) * | 2015-03-02 | 2017-04-01 | 聯詠科技股份有限公司 | 聲頻訊號的雜訊偵測方法與裝置 |
WO2016142002A1 (en) | 2015-03-09 | 2016-09-15 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal |
US10504525B2 (en) | 2015-10-10 | 2019-12-10 | Dolby Laboratories Licensing Corporation | Adaptive forward error correction redundant payload generation |
JP6611042B2 (ja) * | 2015-12-02 | 2019-11-27 | パナソニックIpマネジメント株式会社 | 音声信号復号装置及び音声信号復号方法 |
EP3246923A1 (en) * | 2016-05-20 | 2017-11-22 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for processing a multichannel audio signal |
CN106101925B (zh) * | 2016-06-27 | 2020-02-21 | 联想(北京)有限公司 | 一种控制方法及电子设备 |
KR102569784B1 (ko) * | 2016-09-09 | 2023-08-22 | 디티에스, 인코포레이티드 | 오디오 코덱의 장기 예측을 위한 시스템 및 방법 |
RU2652434C2 (ru) * | 2016-10-03 | 2018-04-26 | Виктор Петрович Шилов | Способ приемопередачи дискретных информационных сигналов |
CN106533394B (zh) * | 2016-11-11 | 2019-01-04 | 江西师范大学 | 一种基于自适应滤波器幅频响应的高精度频率估计方法 |
EP3800636B1 (en) * | 2017-09-12 | 2023-03-08 | Dolby Laboratories Licensing Corporation | Packet loss concealment for critically-sampled filter bank-based codecs using multi-sinusoidal detection |
JP6907859B2 (ja) * | 2017-09-25 | 2021-07-21 | 富士通株式会社 | 音声処理プログラム、音声処理方法および音声処理装置 |
CN108055087B (zh) * | 2017-12-30 | 2024-04-02 | 天津大学 | 利用长肢领航鲸叫声谐波数量进行编码的通信方法及装置 |
US10186247B1 (en) * | 2018-03-13 | 2019-01-22 | The Nielsen Company (Us), Llc | Methods and apparatus to extract a pitch-independent timbre attribute from a media signal |
MX2021009635A (es) | 2019-02-21 | 2021-09-08 | Ericsson Telefon Ab L M | Estimacion de la forma espectral a partir de coeficientes de mdct. |
CN113129910B (zh) * | 2019-12-31 | 2024-07-30 | 华为技术有限公司 | 音频信号的编解码方法和编解码装置 |
CN113111618B (zh) * | 2021-03-09 | 2022-10-18 | 电子科技大学 | 一种基于改进的经验小波变换的模拟电路故障诊断方法 |
CN113655529B (zh) * | 2021-08-17 | 2022-11-29 | 南京航空航天大学 | 一种针对高采样率的被动磁信号优化提取和检测方法 |
Family Cites Families (43)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2130952A5 (pt) * | 1971-03-26 | 1972-11-10 | Thomson Csf | |
US4771465A (en) * | 1986-09-11 | 1988-09-13 | American Telephone And Telegraph Company, At&T Bell Laboratories | Digital speech sinusoidal vocoder with transmission of only subset of harmonics |
FR2692091B1 (fr) | 1992-06-03 | 1995-04-14 | France Telecom | Procédé et dispositif de dissimulation d'erreurs de transmission de signaux audio-numériques codés par transformée fréquentielle. |
JP3328532B2 (ja) * | 1997-01-22 | 2002-09-24 | シャープ株式会社 | デジタルデータの符号化方法 |
US6351730B2 (en) * | 1998-03-30 | 2002-02-26 | Lucent Technologies Inc. | Low-complexity, low-delay, scalable and embedded speech and audio coding with adaptive frame loss concealment |
US6496797B1 (en) * | 1999-04-01 | 2002-12-17 | Lg Electronics Inc. | Apparatus and method of speech coding and decoding using multiple frames |
WO2000060575A1 (en) * | 1999-04-05 | 2000-10-12 | Hughes Electronics Corporation | A voicing measure as an estimate of signal periodicity for a frequency domain interpolative speech codec system |
US6636829B1 (en) * | 1999-09-22 | 2003-10-21 | Mindspeed Technologies, Inc. | Speech communication system and method for handling lost frames |
SE0004187D0 (sv) * | 2000-11-15 | 2000-11-15 | Coding Technologies Sweden Ab | Enhancing the performance of coding systems that use high frequency reconstruction methods |
SE0004818D0 (sv) * | 2000-12-22 | 2000-12-22 | Coding Technologies Sweden Ab | Enhancing source coding systems by adaptive transposition |
US7447639B2 (en) * | 2001-01-24 | 2008-11-04 | Nokia Corporation | System and method for error concealment in digital audio transmission |
US6879955B2 (en) * | 2001-06-29 | 2005-04-12 | Microsoft Corporation | Signal modification based on continuous time warping for low bit rate CELP coding |
CA2388439A1 (en) * | 2002-05-31 | 2003-11-30 | Voiceage Corporation | A method and device for efficient frame erasure concealment in linear predictive based speech codecs |
US7356748B2 (en) | 2003-12-19 | 2008-04-08 | Telefonaktiebolaget Lm Ericsson (Publ) | Partial spectral loss concealment in transform codecs |
CN1930607B (zh) * | 2004-03-05 | 2010-11-10 | 松下电器产业株式会社 | 差错隐藏装置以及差错隐藏方法 |
CN1989548B (zh) * | 2004-07-20 | 2010-12-08 | 松下电器产业株式会社 | 语音解码装置及补偿帧生成方法 |
US8620644B2 (en) | 2005-10-26 | 2013-12-31 | Qualcomm Incorporated | Encoder-assisted frame loss concealment techniques for audio coding |
US8255207B2 (en) * | 2005-12-28 | 2012-08-28 | Voiceage Corporation | Method and device for efficient frame erasure concealment in speech codecs |
KR100770839B1 (ko) * | 2006-04-04 | 2007-10-26 | 삼성전자주식회사 | 음성 신호의 하모닉 정보 및 스펙트럼 포락선 정보,유성음화 비율 추정 방법 및 장치 |
EP2054876B1 (en) * | 2006-08-15 | 2011-10-26 | Broadcom Corporation | Packet loss concealment for sub-band predictive coding based on extrapolation of full-band audio waveform |
KR100788706B1 (ko) * | 2006-11-28 | 2007-12-26 | 삼성전자주식회사 | 광대역 음성 신호의 부호화/복호화 방법 |
KR101291193B1 (ko) * | 2006-11-30 | 2013-07-31 | 삼성전자주식회사 | 프레임 오류은닉방법 |
US8935158B2 (en) * | 2006-12-13 | 2015-01-13 | Samsung Electronics Co., Ltd. | Apparatus and method for comparing frames using spectral information of audio signal |
US8990073B2 (en) * | 2007-06-22 | 2015-03-24 | Voiceage Corporation | Method and device for sound activity detection and sound signal classification |
US7885819B2 (en) * | 2007-06-29 | 2011-02-08 | Microsoft Corporation | Bitstream syntax for multi-process audio decoding |
US8489396B2 (en) * | 2007-07-25 | 2013-07-16 | Qnx Software Systems Limited | Noise reduction with integrated tonal noise reduction |
US8428957B2 (en) * | 2007-08-24 | 2013-04-23 | Qualcomm Incorporated | Spectral noise shaping in audio coding based on spectral dynamics in frequency sub-bands |
CA2871268C (en) * | 2008-07-11 | 2015-11-03 | Nikolaus Rettelbach | Audio encoder, audio decoder, methods for encoding and decoding an audio signal, audio stream and computer program |
EP4407610A1 (en) * | 2008-07-11 | 2024-07-31 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder, audio decoder, methods for encoding and decoding an audio signal, audio stream and computer program |
US8532983B2 (en) * | 2008-09-06 | 2013-09-10 | Huawei Technologies Co., Ltd. | Adaptive frequency prediction for encoding or decoding an audio signal |
CN101521012B (zh) * | 2009-04-08 | 2011-12-28 | 武汉大学 | Mdct域信号能量与相位补偿方法及其装置 |
CN101958119B (zh) * | 2009-07-16 | 2012-02-29 | 中兴通讯股份有限公司 | 一种改进的离散余弦变换域音频丢帧补偿器和补偿方法 |
CA2777073C (en) * | 2009-10-08 | 2015-11-24 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Multi-mode audio signal decoder, multi-mode audio signal encoder, methods and computer program using a linear-prediction-coding based noise shaping |
WO2011048117A1 (en) * | 2009-10-20 | 2011-04-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio signal encoder, audio signal decoder, method for encoding or decoding an audio signal using an aliasing-cancellation |
US9117458B2 (en) * | 2009-11-12 | 2015-08-25 | Lg Electronics Inc. | Apparatus for processing an audio signal and method thereof |
US20130006644A1 (en) * | 2011-06-30 | 2013-01-03 | Zte Corporation | Method and device for spectral band replication, and method and system for audio decoding |
BR112013026452B1 (pt) * | 2012-01-20 | 2021-02-17 | Fraunhofer-Gellschaft Zur Förderung Der Angewandten Forschung E.V. | aparelho e método para codificação e decodificação de áudio empregando substituição sinusoidal |
CN104718571B (zh) * | 2012-06-08 | 2018-09-18 | 三星电子株式会社 | 用于隐藏帧错误的方法和设备以及用于音频解码的方法和设备 |
KR20150056770A (ko) * | 2012-09-13 | 2015-05-27 | 엘지전자 주식회사 | 손실 프레임 복원 방법 및 오디오 복호화 방법과 이를 이용하는 장치 |
US9401153B2 (en) * | 2012-10-15 | 2016-07-26 | Digimarc Corporation | Multi-mode audio recognition and auxiliary data encoding and decoding |
WO2014123469A1 (en) * | 2013-02-05 | 2014-08-14 | Telefonaktiebolaget L M Ericsson (Publ) | Enhanced audio frame loss concealment |
HUE030163T2 (en) * | 2013-02-13 | 2017-04-28 | ERICSSON TELEFON AB L M (publ) | Hide frame failure |
MX352099B (es) * | 2013-06-21 | 2017-11-08 | Fraunhofer Ges Forschung | Método y aparato para obtener coeficientes de espectro para un cuadro de reemplazo de una señal de audio, decodificador de audio, receptor de audio y sistema para transmitir señales de audio. |
-
2014
- 2014-06-20 MX MX2015017369A patent/MX352099B/es active IP Right Grant
- 2014-06-20 EP EP14731961.0A patent/EP3011556B1/en active Active
- 2014-06-20 JP JP2016520514A patent/JP6248190B2/ja active Active
- 2014-06-20 CA CA2915437A patent/CA2915437C/en active Active
- 2014-06-20 CN CN201480035489.4A patent/CN105408956B/zh active Active
- 2014-06-20 PL PL14731961T patent/PL3011556T3/pl unknown
- 2014-06-20 SG SG11201510513WA patent/SG11201510513WA/en unknown
- 2014-06-20 MY MYPI2015002991A patent/MY169132A/en unknown
- 2014-06-20 PT PT147319610T patent/PT3011556T/pt unknown
- 2014-06-20 ES ES14731961.0T patent/ES2633968T3/es active Active
- 2014-06-20 WO PCT/EP2014/063058 patent/WO2014202770A1/en active Application Filing
- 2014-06-20 KR KR1020167001006A patent/KR101757338B1/ko active IP Right Grant
- 2014-06-20 BR BR112015032013-9A patent/BR112015032013B1/pt active IP Right Grant
- 2014-06-20 CN CN202010135748.8A patent/CN111627451B/zh active Active
- 2014-06-20 RU RU2016101336A patent/RU2632585C2/ru active
- 2014-06-20 AU AU2014283180A patent/AU2014283180B2/en active Active
- 2014-06-23 TW TW103121600A patent/TWI562135B/zh active
-
2015
- 2015-12-21 US US14/977,207 patent/US9916834B2/en active Active
-
2016
- 2016-10-26 HK HK16112303.9A patent/HK1224075A1/zh unknown
-
2017
- 2017-12-15 US US15/844,004 patent/US10475455B2/en active Active
-
2019
- 2019-09-26 US US16/584,645 patent/US11282529B2/en active Active
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
PT3011556T (pt) | Para um frame de substituição de um sinal de áudio, descodificador de áudio, receptor de áudio e sistema para transmissão de sinais de áudio | |
CN105793924B (zh) | 使用错误隐藏提供经解码的音频信息的音频解码器及方法 | |
ES2967508T3 (es) | Aparato y procedimiento de codificación de extensión de ancho de banda de alta frecuencia | |
ES2685574T3 (es) | Control dependiente de la armonicidad de una herramienta de filtro de armónicos | |
ES2665599T3 (es) | Codificador y descodificador de audio | |
BR112016030149B1 (pt) | Processador de áudio e método para processamento de um sinal de áudio utilizando correção de fase horizontal | |
BR112016009819B1 (pt) | Decodificador áudio e método para fornecer uma informação de áudio decodificada utilizando uma dissimulação de erro baseada em um sinal de excitação de domínio de tempo | |
PT2888737T (pt) | Aparelho e método para reproduzir um sinal de áudio, aparelho e método para gerar um sinal de áudio codificado, programa de computador e sinal de áudio codificado | |
PT2301023T (pt) | Esquema de codificação/descodificação áudio de baixo débito com comutadores em cascata | |
BR112016005111B1 (pt) | Método e decodificador para decodificar um fluxo de bits de áudio codificado e para gerar extensão de largura de banda de frequência, e um decodificador para processamento de fala | |
BR112015031343B1 (pt) | Aparelho e método que realizam conceitos aperfeiçoados para tcx ltp | |
Lecomte et al. | Packet-loss concealment technology advances in EVS | |
BR112013026452B1 (pt) | aparelho e método para codificação e decodificação de áudio empregando substituição sinusoidal | |
BR112012016370B1 (pt) | Método para a codificação de um sinal de áudio | |
PT2676270T (pt) | Codificação de uma parte de um sinal de áudio utilizando uma deteção de transiente e um resultado de qualidade | |
BR112015025009B1 (pt) | Unidades de quantização e quantização inversa, codificador e decodificador, métodos para quantizar e dequantizar | |
US9984696B2 (en) | Transition from a transform coding/decoding to a predictive coding/decoding | |
JP5544370B2 (ja) | 符号化装置、復号装置およびこれらの方法 | |
BR112020009114A2 (pt) | aparelho para codificar um sinal de informações que inclui uma pluralidade de quadros, sistema que compreende um lado do codificador e um lado do decodificador, método para determinar um atraso de pitch e programa que compreende instruções | |
Yoon et al. | An efficient transcoding algorithm for G. 723.1 and G. 729A speech coders |