PT3011557T - Aparelho e método para desvanecimento de sinal aperfeiçoado para sistemas de codificação de áudio comutado durante a ocultação de erros - Google Patents

Aparelho e método para desvanecimento de sinal aperfeiçoado para sistemas de codificação de áudio comutado durante a ocultação de erros Download PDF

Info

Publication number
PT3011557T
PT3011557T PT147321939T PT14732193T PT3011557T PT 3011557 T PT3011557 T PT 3011557T PT 147321939 T PT147321939 T PT 147321939T PT 14732193 T PT14732193 T PT 14732193T PT 3011557 T PT3011557 T PT 3011557T
Authority
PT
Portugal
Prior art keywords
domain
audio signal
frame
signal
tracking
Prior art date
Application number
PT147321939T
Other languages
English (en)
Inventor
Schnabel Michael
Markovic Goran
Sperschneider Ralph
Lecomte Jérémie
Helmrich Christian
Original Assignee
Fraunhofer Ges Forschung
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Ges Forschung filed Critical Fraunhofer Ges Forschung
Publication of PT3011557T publication Critical patent/PT3011557T/pt

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • G10L19/07Line spectrum pair [LSP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/083Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0002Codebook adaptations
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0011Long term prediction filters, i.e. pitch estimation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0016Codebook for LPC parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Noise Elimination (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Circuits Of Receivers In General (AREA)
  • Detection And Prevention Of Errors In Transmission (AREA)
  • Mathematical Physics (AREA)

Description

DESCRIÇÃO
APARELHO E MÉTODO PARA DESVANECIMENTO DE SINAL APERFEIÇOADO PARA SISTEMAS DE CODIFICAÇÃO DE ÁUDIO COMUTADO DURANTE A OCULTAÇÃO DE
ERROS A presente invenção está relacionada com a codificação, o processamento e a descodificação de sinal de áudio e, em particular, com um aparelho e um método para um melhor desvanecimento de sinal para sistemas de codificação de áudio comutado durante a ocultação de erros. A seguir, o estado da técnica é descrito quanto a desvanecimento de codecs de áudio e voz durante ocultação de perda de pacote (PLC) . As explicações referentes ao estado da técnica iniciam-se com os codecs de ITU-T da série G (G.718, G.719, G.722, G.722.1, G.729, G.729.1), são sucedidas pelos codecs de 3GPP (AMR, AMR-WB, AMR-WB+) e um codec de IETF (OPUS) , e são concluídas com dois codecs de MPEG (HE-AAC, HILN) (ITU = União Internacional de Telecomunicações; 3GPP = Projeto de Parceria de Terceira Geração; AMR = Muititaxa Adaptativa; WB = Banda Larga; IETF = Força-Tarefa de Engenharia de Internet). Subsequentemente, o estado da técnica referente ao rastreio do nível de ruído de fundo é analisado, sucedido por um sumário que fornece uma visão geral.
Em primeiro lugar, G.718 é considerado. 0 G.718 é um codec de voz de banda larga e banda estreita, que suporta DTX/CNG (DTX = Sistemas de Teatro Digital; CNG = Geração de Ruído de Conforto). Já que as formas de realização referem-se particularmente a código de baixo atraso, o modo de versão de baixo atraso será descrito com mais detalhes no presente documento.
Considerando-se a ACELP (Camada 1) (ACELP = Predição Linear Excitada por Código Algébrico), a ITU-T recomenda para o G.718 [ITU08a, seção 7.11] um desvanecimento adaptativo no domínio preditivo linear para controlar a velocidade de desvanecimento. Em geral, a ocultação segue este princípio:
De acordo com G.718, no caso de rasuras de frame, a estratégia de ocultação pode ser resumida como uma convergência da energia do sinal e do envelope espectral em relação aos parâmetros estimados do ruído de fundo. A periodicidade do sinal é convergida para zero. A velocidade da convergência é dependente dos parâmetros do último frame recebido corretamente e do número de frames consecutivos rasurados, e é controlada por um fator de atenuação, a. 0 fator de atenuação α é dependente, ainda, da estabilidade, Θ, do filtro de LP (LP = Predição Linear) para frames do tipo NÃO VOCAL. Em geral, a convergência é lenta se o último frame bom recebido estiver num segmento estável e é rápida se o frame estiver num segmento de transição. 0 fator de atenuação α depende da classe do sinal de discurso, a qual é derivada pela classificação de sinal descrita em [ITU08a, seção 6.8.1.3.1 e 7.11.1.1]. 0 fator de estabilidade Θ é computado com base numa medida de distância entre os filtros adjacentes de ISF (Frequência Espectral de Imitância) [ITU08a, seção 7.1.2.4.2] . A Tabela 1 mostra o esquema de cálculo de a:
Tabela 1: Valores do fator de atenuação α, o valor Θ é um fator de estabilidade computado a partir de uma medida de distância entre os filtros de LP adjacentes. [ITU08a, seção 7.1.2.4.2].
Para além disto, o G.718 fornece um método de desvanecimento com o propósito de modificar o envelope espectral. A ideia geral é convergir os últimos parâmetros de ISF em direção a um vetor médio de ISF adaptativa. Em primeiro lugar, um vetor médio de ISF é calculado a partir dos últimos 3 vetores de ISF conhecidos. Então, obtém-se novamente a média do vetor médio de ISF com um vetor de ISF de longo prazo treinado off-line (o qual é um vetor constante) [ITU08a, seção 7.11.1.2].
Para além disto, o G.718 fornece um método de desvanecimento para controlar o comportamento de longo prazo e, então, a interação com o ruido de fundo, em que a energia de excitação de tom (e, então, a periodicidade de excitação) está a convergir para 0, ao passo que a energia de excitação aleatória está a convergir para a Energia de excitação de CNG [ITU08a, seção 7.11.1.6]. A atenuação de ganho de inovação é calculada como
(D em que gg1 é o ganho inovador no inicio do próximo frame, gs° é o ganho inovador no inicio do frame atual, gn é o ganho da excitação usada durante a geração de ruido de conforto e o fator de atenuação a.
De modo similar à atenuação de excitação periódica, o ganho é atenuado linearmente através do frame numa base de amostra a amostra, tendo inicio com gs° , e alcança gj no inicio do próximo frame. A Fig. 2 mostra a estrutura de descodificador de G.718. Em particular, a Fig. 2 ilustra uma estrutura de descodificador de G.718 de alto nivel para PLC, apresentando um filtro passa-alta. Através da abordagem descrita acima de G.718, o ganho inovador gs converge para o ganho usado durante a geração de ruido de conforto gn para longas rajadas de perdas de pacote. Como descrito em [ITU08a, seção 6.12.3], o ganho de ruido de conforto gn é determinado como a raiz quadrada da energia E . As condições da atualização de E não são descritas em detalhe. Após a implementação de referência (código C de ponto de flutuação, stat_noise_uv_mod.c), E é derivada como a seguir: if (unvoiced__vad == 0) { if( unv_cnt >20 ) { ftmp = lp_gainc * lp_gainc; lp ener = 0.7f * lp_ener + 0.3f * ftmp; } else { unv_cnt++; } } else { unv_cnt = 0; } em que unvoiced_vad representa a deteção de atividade de voz, em que unv cnt representa o número de frames do tipo não vocal numa sequência, em que lp_gainc representa os ganhos passados em filtro passa-baixa do livro de código fixo, e em que lp_ener representa a estimativa de energia de CNG passada em filtro passa-baixa E, é inicializada com 0.
Para além disto, o G.718 fornece um filtro passa-alta, introduzido no caminho do sinal da excitação do tipo não vocal, se o sinal do último frame bom tiver sido classificado de modo diferente do NÃO VOCAL, consultar Fig. 2, consultar também [ITU08a, seção 7.11.1.6]. Esse filtro tem uma caracteristica de baixo patamar com uma resposta de frequência em DC de cerca de 5 dB a menos do que numa frequência de Nyquist.
Além disso, o G.718 propõe um laço de retroalimentação de LTP desemparelhado (LTP = Predição de Longo Prazo): Enquanto, durante a operação normal, o laço de retroalimentação para o livro de código adaptativo é atualizado ao nível do sub-frame ([ITU08a, seção 7.1.2.1.4]) com base na excitação total. Durante a ocultação, esse laço de retroalimentação é atualizado ao nível do frame (consultar [ITU08a, seções 7.11.1.4, 7.11.2.4, 7.11.1.6, 7.11.2.6; dec_GV_exc0dec_gen_voic.c e syn_bfi_post@syn_bfi_pre_post.c]) com base somente na excitação do tipo vocal. Com esta abordagem, o livro de código adaptativo não é "poluído" com um ruído originado na excitação de inovação escolhida aleatoriamente.
Quanto às camadas de aperfeiçoamento codificadas por transformada (3 a 5) de G.718, durante a ocultação, o comportamento do descodificador é referente à descodificação de camada alta similar à operação normal, exceto pelo facto de que o espectro de MDCT é ajustado para zero. Nenhum comportamento de desvanecimento especial é aplicado durante a ocultação.
Em relação à CNG, em G.718, a síntese de CNG é realizada na seguinte ordem. Em primeiro lugar, os parâmetros de um frame de ruído de conforto são descodificados. Então, um frame de ruído de conforto é sintetizado. Posteriormente, o armazenamento temporário de tom é redefinido. Então, a síntese para a classificação de FER (Recuperação de Erro de Frame) é salva. Posteriormente, a de-ênfase de espectro é conduzida. Então, a pós-filtragem de baixa frequência é conduzida. Então, as variáveis de CNG são atualizadas.
No caso de ocultação, exatamente o mesmo é realizado, exceto o facto de que os parâmetros de CNG não são descodificados a partir do fluxo de bits. Isso significa que os parâmetros não são atualizados durante a perda de frame, mas são usados os parâmetros descodificados do último frame bom de SID (Descritor de Inserção de Silêncio).
Agora, o G.719 é considerado. 0 G.719, o qual é baseado em Siren 22, é um codec de áudio de banda completa com base em transformada. A ITU-T recomenda para o G.719 um desvanecimento com repetição de frame no domínio espectral [ITU08b, seção 8.6]. De acordo com G.719, um mecanismo de ocultação de rasuras de frame é incorporado no descodificador. Quando um frame é recebido corretamente, os coeficientes de transformada reconstruídos são armazenados num armazenamento temporário. Se o descodif icador é informado que um frame foi perdido ou que um frame foi corrompido, os coeficientes de transformada reconstruídos no frame recebido mais recentemente são escalonados de modo decrescente com um fator 0,5 e, então, usados como os coeficientes de transformada reconstruídos para o frame atual. O descodificador prossegue transformando-os em domínio de tempo e realizando a operação de sobreposição e adição de funções de janela. A seguir, o G.722 é descrito. O G.722 é um sistema de codificação de 50 a 7000 Hz que usa modulação de código de pulso diferencial adaptativo de sub-banda (SB-ADPCM) numa taxa de bits de até 64 kbit/s. 0 sinal é dividido numa sub-banda superior e numa sub-banda inferior, com o uso de uma análise de QMF (QMF = Filtro de Espelho em Quadratura). As duas bandas resultantes são codificadas por ADPCM (ADPCM = Modulação de Código de Pulso Diferencial Adaptativo).
Para G.722, um algoritmo de alta complexidade para ocultação de perda de pacote é especificado no Apêndice III [ITU06a] e um algoritmo de baixa complexidade para ocultação de perda de pacote é especificado no Apêndice IV [ITU07]. 0 G.722 - Apêndice III ([ITU06a, seção III.5]) - propõe um silenciamento realizado gradualmente, tendo inicio 20 ms após a perda do frame, sendo concluído 60 ms após a perda do frame. Para além disto, o G.722 - Apêndice IV - propõe uma técnica de desvanecimento que aplica, "a cada amostra, um fator de ganho que é computado e adaptado amostra a amostra" [ITU07, seção IV.6.1.2.7].
Em G.722, o processo de silenciamento ocorre no domínio da sub-banda imediatamente antes da Síntese de QMF e como a última etapa do módulo de PLC. O cálculo do fator de silenciamento é realizado com o uso de informações de classe do classificador de sinal que também faz parte do módulo de PLC. A distinção é realizada entre classes TRANSIENT, UV_TRANSITION e outras. Para além disso, a distinção é realizada entre perdas únicas de frames de 10 ms e outros casos (múltiplas perdas de frames de 10 ms e perdas únicas/múltiplas de frames de 20 ms).
Tal é ilustrado pela Fig. 3. Em particular, a Fig. 3 mostra uma situação em que o fator de desvanecimento de G.722 depende da informações de classe e em que as 80 amostras são equivalentes a 10 ms .
De acordo com G.722, o módulo de PLC cria o sinal para o frame em falta e algum sinal adicional (10 ms) que é deve ser submetido a desvanecimento cruzado com o próximo frame bom. O silenciamento para esse sinal adicional segue as mesmas regras. Em ocultação de alta banda de G.722, o desvanecimento cruzado não ocorre. A seguir, o G.722.1 é considerado. O G.722.1, o qual é baseado em Siren 7, é um codec de áudio de banda larga baseado em transformada com um modo de extensão de banda super larga, denominado como G.722.1C. O próprio G. 722.1C é baseado em Siren 14. A ITU-T recomenda para o G.722.1 uma repetição de frame com silenciamento subsequente [ITU05, seção 4.7]. Se o descodificador for informado, por meio de um mecanismo de sinalização externo não definido nessa recomendação, que um frame foi perdido ou corrompido, este repete os coeficientes da MLT (Transformada Superposta Modulada) descodifiçada pelo frame anterior. Prossegue transformando-os no domínio de tempo e realizando a operação de sobreposição e adição com as informações descodificadas do próximo frame. Se o frame anterior também foi perdido ou corrompido, então, o descodificador define todos os coeficientes e MLT dos frames atuais como zero.
Agora, o G.729 é considerado. O G.729 é um algoritmo de compressão de dados de áudio para voz que comprime voz digital em pacotes com duração de 10 milissegundos. É descrito oficialmente como Codificação de voz a 8 kbit/s com o uso de codificação de voz por predição linear excitada por código (CS- ACELP) [ITU12].
Como salientado em [CPK08], o G.729 recomenda um desvanecimento no domínio de LP. 0 algoritmo de PLC empregue no padrão G.72 9 reconstrói o sinal de voz para o frame atual com base nas informações de voz recebidas anteriormente. Por outras palavras, o algoritmo de PLC substitui a excitação em falta por uma característica equivalente de um frame recebido anteriormente, apesar de a energia de excitação decaia gradualmente por fim, os ganhos do livro de código adaptativo fixo são atenuados por um fator constante. 0 ganho de livro de código atenuado fixo é determinado por: <£n)^Q M-^l) sendo que m é o índice do sub-frame. 0 ganho de livro de código adaptativo é baseado numa versão atenuada do ganho de livro de código adaptativo anterior:
. ífgado por < 0,$
Nam in Park et al. sugerem, para G.729, um controlo de amplitude de sinal com o uso de predição por meio de regressão linear [CPK08, PKJ+11]. É direcionada para a perda de pacote em rajadas e usa a regressão linear como uma técnica principal. A regressão linear é baseada no modelo linear como (2) em que g\ é a amplitude atual recém-prevista, a e b são coeficientes para a primeira função linear de primeira ordem, e í é o índice do frame. Com o propósito de encontrar os coeficientes otimizados a* e b* , a soma dos quadrados do erro de predição é minimizado: (3) ε é quadrado do erro, gj é a amplitude original após j-ésima amplitude. Para minimizar esse erro, a derivação simplesmente referente a a e b é definida como zero. Com o uso dos parâmetros otimizados a* e b*, uma estimativa de cada g* é indicada por (4) A Fig. 4 mostra a predição de amplitude, em particular, a predição da amplitudeg*, com o uso de regressão linear.
Para obter a amplitude A[ do pacote perdido i, uma razão σ; (5) é multiplicada por um fator de escala S± : (6) em que o fator de escala S± depende do número de frames ocultados consecutivos I(i):
(7)
Em [PKJ+11], um escalonamento ligeiramente diferente é proposto. De acordo com G.729, no que se segue, A\ será suavizada para impedir a atenuação discreta nos limites do frame. A amplitude suavizada final At{n) é multiplicada pela excitação, obtida a partir dos componentes de PLC anteriores.
No que se segue, o G. 729.1 é considerado. 0 G. 729.1 é um codificador de taxa de bits de variável incorporada com base em G.72 9: Um fluxo de bits de codificador de banda larga escalonável de 8 a 32 kbit/s inter-operável com G.729 [ITU06b].
De acordo com G.729.1, como no G.718 (consultar acima), um desvanecimento adaptativo é proposto, o qual depende da estabilidade das caracteristicas do sinal ([ITU06b, seção 7.6.1]). Durante a ocultação, o sinal é usualmente atenuado com base num fator de atenuação α que depende dos parâmetros da classe do último frame bom recebido e do número de frames rasurados consecutivamente. 0 fator de atenuação α é dependente, ainda, da estabilidade do filtro de LP para frames do tipo NÃO VOCAL. Em geral, a atenuação é lenta se o último frame bom recebido estiver num segmento estável e é rápida se o frame estiver num segmento de transição.
Para além disso, o fator de atenuação α depende do ganho médio de tom por sub-frame gp ([ITU06b, eq. 163, 164]):
Sp = 0,1# + 0,24« + 0,3# + 0.4# (8) em que g,* é o ganho de tom em sub-frame i. A Tabela 2 mostra o esquema de cálculo de a, em que
com: 0,85 >β> S}88 (9)
Durante o processo de ocultação, α é usado nas seguintes ferramentas de ocultação:
Tabela 2: Valores do fator de atenuação a, o valor Θ é um fator de estabilidade computado a partir de uma medida de distância entre os filtros de LP adjacentes. [ITU06b, seção 7.6.1].
De acordo com G.729.1, no que
respeita à re-sincronização de pulso glotal, dado que o último pulso da excitação do frame anterior é usado para a construção da parte periódica, o seu ganho é aproximadamente correto no inicio do frame ocultado e pode ser definido como 1. 0 ganho é, então, atenuado linearmente através do frame numa base de amostra a amostra para alcançar o valor de α no final do frame. A evolução de energia de segmentos vocais é extrapolada com o uso dos valores de ganho de excitação de tom de cada sub-frame do último frame bom. Em geral, se esses ganhos forem maiores do que 1, a energia do sinal é crescente, se forem menores do que 1, a energia é decrescente, α é, então, definido como
, como descrito acima, consultar [ITU06b, eq. 163, 164]. 0 valor de β é limitado entre 0,98 e 0,85 para evitar grandes aumentos e diminuições de energia, consultar [ITU06b, seção 7.6.4].
Quanto à construção da parte aleatória da excitação, de acordo com G.729.1, no início de um bloco rasurado, o ganho de inovação gs é inicializado com o uso dos ganhos de excitação de inovação de cada sub-frame do último frame bom: gs = 0.1 gm -f Q2gil} -r 02g{2) -f 0s4j{3) em que g(0), g(1), g(2) e g(3) são os ganhos de livro de código fixo ou de inovação, ganhos dos quatro sub-frames do último frame recebido corretamente. A atenuação de ganho de inovação é realizada como: em que g^ é o ganho de inovação no início do próximo frame, é o ganho de inovação no início do frame atual, e α é como definido na Tabela 2 acima. De modo similar à atenuação de excitação periódica, o ganho é, então, linearmente atenuado através do frame numa base de amostra por amostra, tendo início com e indo até o valor de que seria alcançado no início do próximo frame.
De acordo com G. 729.1, se o último frame bom for do tipo NÃO VOCAL, somente a excitação de inovação é usada e é adicionalmente atenuada por um fator de 0,8. Nesse caso, o armazenamento temporário de excitação anterior é atualizado com a excitação de inovação já que nenhuma parte periódica da excitação está disponível, consultar [ITU06b, seção 7.6.6]. A seguir, a AMR é considerada. 3GPP AMR [3GPl2b] é um codec de voz que utiliza o algoritmo de ACELP. A AMR é capaz de codificar voz com uma taxa de amostragem de 8000 amostras/s e uma taxa de bits entre 4,75 e 12,2 kbit/s e suporta frames de descritor de silêncio de sinalização (DTX/CNG).
Na AMR, durante a ocultação de erros (consultar [3GPl2a]), é distinguida entre frames que são suscetíveis a erro (erros de bit) e frames que estão completamente perdidos (não há quaisquer dados).
Para ocultação de ACELP, a AMR introduz uma máquina de estado que estima a qualidade do canal: Quanto maior o valor do contador de estado, pior será a qualidade do canal. O sistema é iniciado no estado 0. Cada vez que um frame mau é detetado, o contador de estado é aumentado em um e é saturado quando alcança 6. Cada vez que um frame de voz bom é detetado, o contador de estado é redefinido para zero, exceto quando o estado for 6, em que o contador de estado é definido para 5. O fluxo de controlo da máquina de estado pode ser descrito pelo código C a seguir (BFI é um indicador de frame mau, State é um estado variável): if(BFI != 0 ) {
State = State + 1; } else if(State == 6) {
State = 5; } else {
State = 0; } if(State > 6 ) {
State = 6; }
Além desta máquina de estado, em AMR, os sinalizadores de frame mau do frame atual e dos frames anteriores são verificados (prevBFI).
Três diferentes combinações são possíveis: A primeira de entre as três combinações é BFI = 0, prevBFI = 0, Estado = 0: Nenhum erro é detetado no frame de voz recebido ou no frame de voz recebido anterior. Os parâmetros de voz recebidos são usados no modo normal na síntese de voz. O frame atual de parâmetros de voz é salvo. A segunda de entre as três combinações é BFI = 0, prevBFI = 1, Estado = 0 ou 5: Nenhum erro é detetado no frame de voz recebido, mas o frame de voz recebido anterior era mau. O ganho de LTP e o ganho de livro de código fixo são limitados abaixo dos valores usados para o último sub-frame bom recebido: (10) em que gp = ganho de LTP descodificado atual, gp(-l) = ganho de LTP usado para o último sub-frame bom (BFI =0), e (11) em que gc = ganho de livro de código fixo descodificado atual, e gc(—1) = ganho de livro de código fixo usado para o último sub-frame bom (BFI = 0).
Os restante parâmetros de voz recebidos são usado normalmente na síntese de voz. O frame atual de parâmetros de voz é salvo. A terceira de entre as três combinações é BFI = 1, prevBFI = 0 ou 1, Estado = 1...6: Um erro é detetado no frame de voz recebido e o procedimento de substituição e silenciamento é iniciado. O ganho de LTP e o ganho de livro de código fixo são substituídos por valores atenuados dos sub-frames anteriores: (12) em que gp indica o ganho de LTP descodificado atual e gp(-l), . . . , gp(-n) indicam os ganhos de LTP usados para os últimos n sub-frames e median5() indica uma operação de mediana de 5 pontos e P(state) = fator de atenuação, em que (P (1) = 0,98, P(2) = 0,98, P(3) = 0,8, P (4) = 0,3, P (5) = 0,2, P(6) =0,2) e state = número do estado, e (13) em que gc indica o ganho de livro de código fixo descodificado atual e gc(-l), ... , gc (-n) indicam os ganhos de livro de código fixo usados para os últimos n sub-frames e median5() indica uma operação de mediana de 5 pontos e C(state) = fator de atenuação, em que (C (1) = 0,98, C (2) = 0,98, C (3) = 0,98, C (4) = 0,98, C(5) = 0,98, C(6) = 0,7) e state = número do estado.
Em AMR, os valores de LTP-lag (LTP = Predição de Longo Prazo) são substituídos pelo valor anterior a partir do 4o sub-frame do frame anterior (modo 12.2) ou valores ligeiramente modificados com base no último valor corretamente recebido (todos os outros modos).
De acordo com AMR, os pulsos de inovação de livro de código fixo recebido do frame erróneo são usados no estado em que são recebidos quando dados corrompidos são recebidos. No caso em que nenhum dado foi recebido, índices aleatórios de livro de código fixo devem ser empregues.
No que respeita à CNG na AMR, de acordo com [3GPl2a, seção 6.4], cada primeiro frame de SID perdido é substituído com o uso das informações de SID dos frames de SID válidos recebidos anteriormente e o procedimento para frames de SID válidos é aplicado. Para frames de SID perdidos subsequentes, uma técnica de atenuação é aplicada ao ruído de conforto que irá diminuir gradualmente no nível de saída. Portanto, é verificado se a última atualização de SID ocorreu há mais do que 50 frames ( = 1 s) , se sim, a saída será silenciada (atenuação de nível em -6/8 dB por frame [3GPl2d, dtx_dec{}0sp_dec.c] que produz 37,5 dB por segundo). Deve observar-se que o desvanecimento aplicado à CNG é realizado no domínio de LP.
A seguir, a AMR-WB é considerada. A Multitaxa Adaptativa - WB [ITU03, 3GP0 9c] é um codec de voz, ACELP, baseado em AMR (consultar seção 1.8). Usa extensão de largura de banda paramétrica e também suporta DTX/CNG. Na descrição do padrão [3GP12g], há exemplos de soluções de ocultação dadas que são iguais às de AMR [3GPl2a] com desvios menores. Portanto, somente as diferenças de AMR são descritas no presente documento. Para a descrição padrão, consultar a descrição acima.
Quanto à ACELP, em AMR-WB, o desvanecimento da ACELP é realizado com base no código de fonte de referência [3GPl2c] modificando-se o ganho de tom gp (para AMR citado acima como ganho de LTP) e modificando-se o ganho de código gc.
No caso de frame perdido, o ganho de tom gp para o primeiro sub-frame é o mesmo que o do último frame bom, exceto pelo facto de que é limitado entre 0,95 e 0,5. Para o segundo, o terceiro e os próximos sub-frames, o ganho de tom gp é diminuído por um fator de 0,95 e é limitado novamente. AMR-WB propõe que, num frame ocultado, gc seja baseado no último 9c·
Ut-xnrrtíit = l W íJpguxn) (15)
(16) (IV)
Para ocultar as LTP-lags, em AMR-WB, o histórico das cinco últimas LTP-lags boas e os ganhos de LTP são usados para encontrar o melhor método de atualização, no caso de uma perda de frame. Caso o frame seja recebido com erros de bit, uma predição é realizada, sendo a LTP-lag recebida utilizável ou não [ 3GPl2g] .
Quanto à CNG, em AMR-WB, se o último frame recebido corretamente era um frame de SID e um frame é classificado como perdido, deve ser substituído pelas informações do último frame de SID válido e o procedimento para os frames de SID válidos devem ser aplicados.
Para frames de SID perdidos subsequentemente, a AMR-WB propõe a aplicação de uma técnica de atenuação ao ruído de conforto que irá diminuindo gradualmente no nivel de salda. Portanto, é verificado se a última atualização de SID havia sido há mais do que 50 frames ( = 1 s), se sim, a saída será silenciada (atenuação de nível em -3/8 dB por frame [3GPl2f, dtx_dec {} @dtx. c] que produz 18,75 dB por segundo). Deve observar-se que o desvanecimento aplicado à CNG é realizado no domínio de LP.
Agora, a AMR-WB+ é considerada. A Multitaxa Adaptativa - WB+ [3GP0 9a] é um codec comutado com o uso de ACELP e TCX (TCX = Excitação Codificada por Transformada) como codecs de núcleo. Usa a extensão de largura de banda paramétrica e também suporta DTX/CNG.
Em AMR-WB+, uma lógica de extrapolação de modo é aplicada para extrapolar os modos dos frames perdidos num super-frame distorcido. Essa extrapolação de modo é baseada no facto de que há uma redundância na definição de indicadores de modo. A lógica de decisão (dada em [3GP09a, figura 18]) proposta por AMR-WB+ é como a seguir:
Um modo de vetor, (m_i, mo, mi, m2, m3) , é definido, em que m-i indica o modo do último frame do super-frame anterior e mo, mi, m2, m3 indicam os modos dos frames no super-frame atual (descodificado a partir do fluxo de bits), em que mk = -1, 0, 1, 2 ou 3 (-1: perdido, 0: ACELP, 1: TCX20, 2: TCX40, 3: TCX80), e em que o número de frames perdidos nloss pode estar entre 0 e 4.
Se m_i = 3 e dois dos indicadores de modo dos frames 0 - 3 forem iguais a três, todos os indicadores serão definidos como três porque assim é garantido que um frame de TCX80 foi indicado no super-frame.
Se somente um indicador dos frames 0-3 for três (e o número de frames perdidos nloss for três), o modo será definido como (1, 1, 1, 1), devido ao facto de que, então, 3/4 do espectro-alvo de TCX80 esteja perdido e é muito provável que o ganho de TCX global esteja perdido.
Se o modo estiver indicando (x, 2,-1, x, x) ou (x,-l, 2, x, x) , será extrapolado para (x, 2, 2, x, x) , o que indica um frame de TCX40. Se o modo indicar (x, x, x, 2,-1) ou (x, x,-l, 2), será extrapolado para (x, x, x, 2, 2), o que também indica um frame de TCX40. Deve-se notar que (x, [0, 1], 2, 2, [0, 1]) são configurações inválidas.
Posteriormente, para cada frame que for perdido (mode = -1), o modo é definido como ACELP (mode =0) se o frame anterior for ACELP e o modo é definido como TCX20 (mode = 1) para todos os outros casos.
Quanto à ACELP, de acordo com AMR-WB+, se um modo de frames perdidos resulta em mk = 0 após a extrapolação de modo, a mesma abordagem de [3GPl2g] é aplicada para esse frame (consultar acima).
Em AMR-WB+, dependendo do número de frames perdidos e do modo extrapolado, as seguintes abordagens de ocultação relacionada à TCX são distinguidas (TCX = Excitação Codificada por Transformada):
Se um frame total é perdido, então, uma ACELP similar à ocultação é aplicada: A última excitação é repetida e coeficientes de ISF ocultados (ligeiramente desviados em direção à sua média adaptativa) são usados para sintetizar o sinal de domínio de tempo. Adicionalmente, um fator de desvanecimento de 0,7 por frame (20 ms) [3GP09b, dec_tcx.c] é multiplicado no domínio preditivo linear, imediatamente antes da síntese da LPC (Codificação Preditiva Linear).
Se o último modo era TCX80, bem como o modo extrapolado do super-frame (parcialmente perdido) for TCX80 (nloss = [1, 2], mode = (3, 3, 3, 3, 3)), a ocultação é realizado no domínio de FFT, utilizando extrapolação de fase e amplitude, considerando-se o último frame recebido corretamente. A abordagem de extrapolação das informações de fase não é de qualquer interesse no presente documento (nenhuma relação com a estratégia de desvanecimento) e, desse modo, não foi descrita. Para mais detalhes, consultar [3GP09a, seção 6.5.1.2.4]. em relação à modificação de amplitude de AMR-WB+, a abordagem realizada para ocultação de TCX consiste nas seguintes etapas [3GP09a, seção 6.5.1.2.3] : O espectro de magnitude do frame anterior é computado: 0 espectro de magnitude do frame atual é computado: A diferença de ganho de energia de coeficientes espectrais não perdidos entre o frame anterior e o frame atual é computado: A amplitude dos coeficientes espectrais em falta é extrapolada com o uso de:
Em qualquer outro caso de um frame perdido com mk = [2, 3], o alvo de TCX (FFT inversa de espectro descodificado mais preenchimento de ruído (com o uso de um nível de ruído descodifiçado a partir do fluxo de bits)) é sintetizado com o uso de todas as informações disponíveis (incluindo o ganho de TCX global). Nenhum desvanecimento é aplicado nesse caso.
Quanto à CNG em AMR-WB+, a mesma abordagem que AMR-WB é usada (consultar acima). A seguir, o OPUS é considerado. 0 OPUS [IET12] incorpora a tecnologia de dois codecs: o SILK orientado por voz (conhecido como codec de Skype) e a CELT de baixa latência (CELT = Transformada Sobreposta de Energia Restrita). 0 Opus pode ser ajustado de modo ininterrupto entre taxas de bits baixas e altas, e, internamente, é comutado entre um codec de predição linear a taxas de bits mais baixas (SILK) e um codec de transformada a taxas de bits mais altas (CELT) , bem como um híbrido para uma sobreposição curta.
Quanto à compressão e à descompressão de dados de áudio de SILK, em OPUS, há diversos parâmetros que são atenuados durante a ocultação na rotina de descodificador de SILK. 0 parâmetro de ganho de LTP é atenuado multiplicando-se todos os coeficientes de LPC por 0,99, 0,95 ou 0,90 por frame, dependendo do número de frames perdidos consecutivos, em que a excitação é desenvolvida com o uso do último ciclo de tom a partir da excitação do frame anterior. O parâmetro de atraso de tom é aumentado muito lentamente durante as perdas consecutivas. Para perdas únicas, é mantido constante em comparação ao último frame. Para além disto, o parâmetro de ganho de excitação é exponencialmente atenuado com ^ por frame, para que o parâmetro de ganho de excitação seja 0,99 para o primeiro parâmetro de ganho de excitação, para que o parâmetro de ganho de excitação seja 0,992 para o segundo parâmetro de ganho de excitação, e assim por diante. A excitação é gerada com o uso de um gerador de números aleatórios que está a gerar ruído branco por sobrecarga variável. Para além disto, os coeficientes de LPC são extrapolados/têm sua média calculada com base no último coeficiente definido recebido corretamente de entre os coeficientes. Após gerar o vetor de excitação atenuado, os coeficientes de LPC ocultados são usados em OPUS para sintetizar o sinal de saída de domínio de tempo.
Agora, no contexto de OPUS, a CELT é considerada. A CELT é um codec baseado em transformada. A ocultação da CELT apresenta uma abordagem de PLC baseada em tom, a qual é aplicada para até cinco frames perdidos de modo consecutivo. Tendo o seu inicio no frame 6, uma abordagem de ocultação similar a ruído é aplicada, a qual gera ruído de fundo, cuja característica deve soar como o ruído de fundo anterior. A Fig. 5 ilustra o comportamento de perda em rajada de CELT. Em particular, a Fig. 5 mostra um espectrograma (eixo geométrico x: tempo; eixo geométrico y: frequência) de um segmento de voz ocultado por CELT. A caixa cinza claro indica os primeiros 5 frames perdidos de modo consecutivo, em que a abordagem de PLC baseada em tom é aplicada. Para além disto, a ocultação similar a ruído é mostrada. Deve-se notar que a comutação é realizada imediatamente, não transita suavemente.
Quanto à ocultação baseada em tom, em OPUS, a ocultação baseada em tom consiste em encontrar a periodicidade no sinal descodificado por auto-correlação e repetição da forma de onda em janelas (no domínio de excitação com o uso de análise e síntese de LPC) com o uso de desvio de tom (atraso de tom) . A forma de onda em janelas é sobreposta de tal modo a preservar o cancelamento de suavização de tempo-domínio com o frame anterior e o próximo frame [IET12]. Adicionalmente, um fator de desvanecimento é derivado e aplicado pelo seguinte código: opus_val32 El=l, E2=l; int period; if (tom_index<= MAX_PERI0D/2) { period = tom_index; } else { period = MAX_PERI0D/2; } for (i=0;i<period;i++) {
El += exc[MAX_PERIOD- period+i] * exc[MAX_PERIOD- period+i]; E2 += exc[MAX_PERI0D-2*period+i] * exc[MAX_PERIOD-2*period+i]; } if (El > E2) {
El = E2; } decay = sqrt(E1/E2)); attenuation = decay;
Nesse código, exc contém o sinal de excitação até às amostras de MAX_PERIOD recolhidas antes da perda. 0 sinal de excitação é posteriormente multiplicado pela atenuação, então, sintetizado e emitido por meio de síntese de LPC. 0 algoritmo de desvanecimento para a abordagem de domínio de tempo pode ser resumida do seguinte modo:
Encontrar a energia síncrona de tom do último ciclo de tom antes da perda.
Encontrar a energia síncrona de tom do penúltimo ciclo de tom antes da perda.
Se a energia estiver a aumentar, limitá-la para que permaneça constante: attenuation = 1
Se a energia estiver a diminuir, continuar com a mesma atenuação durante a ocultação.
Quanto à ocultação similar a ruído, de acordo com OPUS, para o 6o e próximos frames perdidos consecutivos, uma abordagem de substituição de ruído no domínio de MDCT é realizada, de forma a simular o ruído de conforto de fundo.
Quanto ao rastreio do formato e nível de ruído de fundo, em OPUS, a estimativa de ruído de fundo é realizada como a seguir: Após a análise de MDCT, a raiz quadrada das energias de banda de MDCT é calculada por banda de frequência, em que o agrupamento dos compartimentos de MDCT segue a escala Bark de acordo com [IET12, Tabela 55]. Então, a raiz quadrada das energias é transformada no domínio de log2 por: (18) em que e é o número de Euler, bandE é a raiz quadrada da banda de MDCT e eMeans é um vetor de constantes (necessário para obter o resultado de média zero, a que resulta num ganho de codificação melhorado).
Em OPUS, o ruído de fundo é registado no lado do descodificador desse modo [IET12, amp2Log2 e log2Amp Θ quant_bands.c]: h(i< jk<ji?>dLt>§!£[ϊ\ ™ nnnilxichyfrountlLdtfEU] H-S * (UKU „ bítitríLdtflSiil) sendo que í = 0...21 (19) A energia mínima rastreada é basicamente determinada pela raiz quadrada da energia da banda do frame atual, mas o aumento de um frame para o seguinte é limitado em 0,05 dB.
Quanto à aplicação do formato e do nivel de ruído de fundo, de acordo com OPUS, se a PLC similar a ruído é aplicada, backgroundLogE como derivado no último frame bom é usado e convertido novamente para o domínio linear:
UmdEii' ^ í íbn?v>itmíLogjea«*j[ φ) sefwtoque v’ -- (J. . .21 em que e é o número de Euler e eMeans é o mesmo vetor de constantes da transformada de "linear para log". O procedimento de ocultação atual é para preencher o frame de MDCT com ruído branco produzido por um gerador de números aleatórios e escalonar esse ruído branco de modo que seja compatível, no sentido da banda, com a energia de bandE. Subsequentemente, a MDCT inversa é aplicada, a qual resulta num sinal de domínio de tempo. Após a sobreposição, adição e de-ênfase (como em descodificação regular), é emitido. A seguir, o MPEG-4 HE-AAC é considerado (MPEG = Grupo de Especialistas em Imagens com Movimento; HE-AAC = Codificação Avançada de Áudio de Alta Eficiência). A Codificação Avançada de Áudio de Alta Eficiência consiste num codec de áudio baseado em transformada (AAC), suplementado por uma extensão de largura de banda paramétrica (SBR).
Quanto à AAC (AAC = Codificação Avançada de Áudio) , o consórcio de DAB especifica, para AAC em DAB+, um desvanecimento de zero no domínio de frequência [EBU10, seção Al.2] (DAB = Difusão de Áudio Digital,) . O comportamento de desvanecimento, por exemplo, a rampa de atenuação, pode ser fixo ou ajustável pelo usuário.
Os coeficientes espectrais da última AU (AU = Unidade de Acesso) são atenuados por um fator correspondente às caracteristicas de desvanecimento e, então, transferidos para o mapeamento de frequência-para-tempo. Dependendo da rampa de atenuação, a ocultação é comutada para silenciamento após um número de AUs inválidas consecutivas, o que significa que o espectro completo será definido como 0. O consórcio de DRM (DRM = Gestão de Direitos Digitais) especifica para AAC em DRM um desvanecimento no domínio de frequência [EBU12, seção 5.3.3]. A ocultação funciona nos dados espectrais imediatamente antes da conversão final de frequência para tempo. Se múltiplos frames estão corrompidos, a ocultação implementa, em primeiro lugar, um desvanecimento baseado em valores espectrais ligeiramente modificados a partir do último frame válido. Para além disto, similar à DAB+, o comportamento de desvanecimento, por exemplo, a rampa de atenuação, pode ser fixo ou ajustável pelo usuário. Os coeficientes espectrais do último frame são atenuados por um fator correspondente às caracteristicas de desvanecimento e, então, são transferidos para o mapeamento de frequência-para-tempo. Dependendo da rampa de atenuação, a ocultação é comutada para silenciamento após diversos frames inválidos consecutivos, o que significa que o espectro completo será definido como 0. O 3GPP introduz, para AAC em aacPlus Melhorado, o desvanecimento no domínio de frequência similar a DRM [3GPl2e, seção 5.1] . A ocultação funciona nos dados espectrais imediatamente antes da frequência final para conversão de tempo. Se múltiplos frames forem corrompidos, a ocultação implementa, em primeiro lugar, um desvanecimento baseado em valores espectrais ligeiramente modificados a partir do último frame bom. Um desvanecimento completo dura 5 frames. Os coeficientes espectrais do último frame bom são copiados e atenuados por um fator de: sendo que nFadeOutFrame é o contador de frame desde o último frame bom. Após cinco frames de desvanecimento, a ocultação é comutada para silenciamento, o que significa que o espectro completo será definido como 0.
Lauber e Sperschneider introduzem para AAC um desvanecimento no sentido do frame do espectro de MDCT, com base na extrapolação de energia [LS01, seção 4.4]. Formatos de energia de um espectro precedente podem ser usados para extrapolar o formato de um espectro estimado. A extrapolação de energia pode ser realizado independentemente das técnicas de ocultação como uma espécie de pós-ocultação.
Quanto à AAC, o cálculo de energia é realizado numa base de banda de fator de escala a fim de permanecer próximo das bandas criticas do sistema auditivo humano. Os valores de energia individuais são diminuídos numa base de frame a frame a fim de reduzir o volume suavemente, por exemplo, para desvanecer o sinal. Isso torna-se necessário já que a probabilidade de que os valores estimados representem o sinal atual diminui rapidamente ao longo do tempo.
Para que a geração do espectro fosse desvanecida, foi sugerida a repetição de frame ou a substituição de ruido [LS01, seções 3.2 e 3.3] .
Quackenbusch e Driesen sugerem, para AAC, um desvanecimento exponencial no sentido do frame para zero [QD03]. Uma repetição de conjuntos adjacentes de coeficientes de tempo/frequência é proposta, em que cada repetição tem uma atenuação exponencialmente crescente, pelo o que se desvanece gradualmente até ao silenciamento no caso de interrupções extensas.
Quanto à SBR (SBR = Replicação de Banda Espectral) em MPEG-4 HE-AAC, 3GPP sugere, para SBR em aacPlus Melhorado, um armazenamento temporário dos dados de envelope descodificados e, no caso de uma perda de frame, uma reutilização das energias armazenadas de modo temporário dos dados de envelope transmitidos e uma diminuição desses por uma razão constante de 3 dB para cada frame ocultado. 0 resultado é alimentado para o processo de descodificação normal em que o ajustador de envelope o usa para calcular os ganhos, usados para ajustar as bandas altas corrigidas criadas pelo gerador de HF. A descodificação de SBR ocorre, então, como de costume. Para além disto, os valores de nivel de base de ruido e de seno codificados por delta estão a ser apagados. Dado que nenhuma diferença em relação às informações anteriores permanece disponível, os níveis de base de ruído e seno permanecem proporcionais à energia do sinal gerado por HF [3GPl2e, seção 5.2]. 0 consórcio de DRM especificou, para SBR em conjunto com AAC, a mesma técnica que 3GPP [EBU12, seção 5.6.3.1] . Para além disto, o consórcio de DAB especifica para SBR em DAB+ a mesma técnica que 3GPP [EBU10, seção A2]. A seguir, a MPEG-4 CELP e a MPEG-4 HVXC (HVXC = Codificação de Excitação de Vetor harmónico) são consideradas. 0 consórcio de DRM especifica para SBR em conjunto com CELP e HVXC [EBU12, seção 5.6.3.2] que a ocultação minima exigida para SBR para os codecs de voz seja aplicar valores de dados definidos predeterminados, sempre que um frame de SBR corrompido for detetado. Estes valores produzem um envelope espectral de banda alta estática a um baixo nível de reprodução relativo, exibindo um decaimento (roll-off) em direção às frequências mais altas. 0 objetivo é simplesmente garantir que nenhuma rajada de áudio potencialmente alta e com comportamento insatisfatório alcance os ouvidos do ouvinte, por meio da inserção de "ruído de conforto" (em oposição a um silenciamento rigoroso) . Isso não representa, de facto, nenhum desvanecimento real, mas, isso sim, um salto para um certo nível de energia de modo a inserir algum tipo de ruido de conforto.
Subsequentemente, uma alternativa é mencionada [EBU12, seção 5.6.3.2] , a qual reutiliza os últimos dados corretamente descodifiçados e o desvanecimento lento dos níveis (L) em direção a 0, de modo análogo, ao caso de AAC + SBR.
Agora, o MPEG-4 HILN é considerado (HILN = Linhas Individuais e harmónicas mais Ruído). Meine et al. introduzem um desvanecimento para o codec paramétrico de MPEG-4 HILN [ISO09] num domínio paramétrico [MEP01]. Para componentes harmónicos continuados, um bom comportamento padrão para substituir parâmetros codificados corrompidos de modo diferente consiste em manter a frequência constante, para reduzir a amplitude num fator de atenuação (por exemplo, -6 dB) , e para deixar que o envelope espectral convirja em direção àquele da caracteristica de passa-baixa do qual se obtém a média. Uma alternativa para o envelope espectral seria mantê-lo inalterado. Em relação a amplitudes e envelopes espectrais, os componentes de ruído podem ser tratados do mesmo modo que os componentes harmónicos.
No que se seque, o rastreio do nível de ruído de fundo na técnica anterior é considerado. Ranqachari e Loizou [RL06] fornecem uma boa visão qeral de diversos métodos e discutem algumas das suas limitações. Os métodos para o rastreio do nível de ruído de fundo são, por exemplo, procedimento de rastreio mínimo [RL06] [Coh03] [SFBOO] [Dob95], baseado em VAD (VAD = Deteção de Atividade de Voz); filtragem de Kalman [Gan05] [BJH06], decomposições de subespaço [BP06] [HJH08]; Decisão Suave [SS98] [MPC89] [HE95] e estatística mínima. A abordagem de estatística mínima foi escolhida para ser usada no âmbito de USAC-2, (USAC = Codificação Unificada de Áudio e Voz) e é subsequentemente mostrada com mais detalhes. A estimativa de densidade espectral de potência de ruído baseada na suavização ideal e estatística mínima [MarOl] introduz um estimador de ruído, o qual é capaz de funcionar independentemente do sinal, sendo este discurso ativo ou ruído de fundo. Em contraste a outros métodos, o algoritmo de estatística mínima não usa qualquer limiar explícito para distinguir entre atividade de discurso e pausa de discurso e é, portanto, mais intimamente relacionado a métodos de decisão suave do que os métodos tradicionais de deteção de discurso ativo. De modo similar a métodos de decisão suave, também é possível atualizar a PSD (Densidade Espectral de Potência) de ruído estimado durante a atividade de discurso. 0 método de estatística mínima assenta em duas observações nomeadamente que o discurso e o ruído são usualmente estatisticamente independentes e que a potência de um sinal de voz ruidoso decai frequentemente para o nível de potência do ruído. É possível, portanto, derivar uma estimativa precisa de PSD (PSD = Densidade Espectral de Potência) de ruído através do rastreio do mínimo do PSD de sinal ruidoso. Dado que o mínimo é menor do que o (ou, noutros casos, igual ao) valor médio, o método de rastreio mínimo exige uma compensação de desvio. 0 desvio é uma função da variância da PSD de sinal suavizada e, como tal, depende do parâmetro de suavização do estimador de PSD. Em contraste com o trabalho anterior em rastreio mínimo, o qual utiliza um parâmetro de suavização constante e uma correção de desvio mínimo constante, uma suavização de PSD dependente de tempo e de frequência é usada, a qual também exige uma compensação de desvio dependente de tempo e de frequência. 0 uso de rastreio mínimo fornece uma estimativa aproximada da potência de ruído. No entanto, há algumas desvantagens. A suavização com um parâmetro fixo de suavização amplia os picos de atividade de discurso da estimativa de PSD suavizada. Isso irá resultar em estimativas de ruído imprecisas, já que a janela deslizante para uma busca mínima pode deslizar para picos amplos. Desse modo, parâmetros de suavização próximos de um não podem ser usados, e, como consequência, a estimativa de ruido terá uma variância relativamente grande. Para além disto, a estimativa de ruido é desviada para valores menores. Além disso, no caso do aumento de potência de ruido, o rastreio minimo fica atrasado. 0 rastreio de PSD de ruido baseado em MMSE com baixa complexidade [HHJ10] introduz uma abordagem de PSD de ruido de fundo utilizando uma busca de MMSE usada num espectro de DFT (Transformada Discreta de Fourier) . 0 algoritmo consiste nestas etapas de processamento: 0 estimador de probabilidade máxima é computado com base na PSD de ruido do frame anterior. 0 estimador de média quadrática minima é computado. 0 estimador de probabilidade máxima é estimado com o uso da abordagem direcionada para decisão [EM84]. 0 fator de desvio inverso é computado, presumindo-se que os coeficientes de DFT de voz e ruido têm uma distribuição gaussiana. A Densidade Espectral de Potência de ruído estimada é suavizada.
Também há uma abordagem de rede de segurança aplicada a fim de evitar um completo bloqueio perpétuo (dead lock) do algoritmo. 0 rastreio de ruido não estacionário com base em estimativa de potência de ruído recursivo conduzida por dados [EH08] introduz um método para a estimativa da variância de espectral de ruído dos sinais de voz contaminados por fontes de ruído altamente não estacionárias. Esse método usa também suavização na direção de tempo/frequência.
Um algoritmo de estimativa de ruido de baixa complexidade baseado na suavização da estimativa de potência de ruido e da correção de desvio de estimativa [Yu09] aperfeiçoa a abordagem introduzida em [EH08]. A principal diferença é que a função de ganho espectral para estimativa de potência de ruido é encontrada por um método iterativo conduzido por dados.
Os métodos estatísticos para a melhoria de voz ruidosa [Mar03] combinam a abordagem de estatística mínima dada em [MarOl] por modificação de ganho de decisão suave [MCA99], através de uma estimativa de SNR a priori [MCA99], através de uma limitação de ganho adaptativo [MC99] e através de um estimador de amplitude espectral de log de MMSE [EM85]. 0 desvanecimento é de particular interesse para uma pluralidade de codecs de voz e áudio, em particular, AMR (consultar [3GPl2b]) (incluindo ACELP e CNG), AMR-WB (consultar [3GP09c]) (incluindo ACELP e CNG), AMR-WB+ (consultar [3GP09a]) (incluindo ACELP, TCX e CNG), G.718 (consultar [ITU08a]), G.719 (consultar [ITU08b]), G.722 (consultar [ITU07]), G.722.1 (consultar [ ITU05]), G.729 (consultar [ITU12, CPK08, PKJ+11]), MPEG-4 HE- AAC / aacPlus Melhorado (consultar [EBU10, EBU12, 3GPl2e, LS01, QD03]) (incluindo AAC e SBR), MPEG-4 HILN (consultar [ISO09, MEPO1]) e OPUS (consultar [IET12]) (incluindo SILK e CELT). Dependendo do codec, o desvanecimento é realizado em diferentes domínios:
Para codecs que utilizam LPC, o desvanecimento é realizado no domínio preditivo linear (também conhecido como domínio de excitação) . Isso é verdadeiro para codecs que são baseados em ACELP, por exemplo, AMR, AMR-WB, o núcleo de ACELP de AMR-WB+, G.718, G.729, G.729.1, o núcleo de SILK em OPUS; codecs que processam, ainda, o sinal de excitação com o uso de uma transformação de tempo-frequência, por exemplo, o núcleo de TCX de AMR-WB+, o núcleo de CELT em OPUS; e para esquemas de Geração de Ruído de Conforto (CNG), que operam no domínio preditivo linear, por exemplo, CNG em AMR, CNG em AMR-WB, CNG em AMR-WB+. Para codecs que transformam diretamente o sinal de tempo no domínio de frequência, o desvanecimento é realizado no domínio espectral / de sub-banda. Isso é verdadeiro para codecs que são baseados em MDCT ou uma transformação similar, como AAC em MPEG-4 HE-AAC, G.719, G.722 (domínio da sub-banda) e G.722.1.
Para codecs paramétricos, o desvanecimento é aplicado no domínio paramétrico. Isso é verdadeiro para MPEG-4 HILN.
Quanto à velocidade de desvanecimento e à curva de desvanecimento, é comum realizar um desvanecimento pela aplicação de um fator de atenuação, o qual é aplicado à representação de sinal no domínio adequado. 0 tamanho do fator de atenuação controla a velocidade do desvanecimento e a curva do desvanecimento. Na maioria dos casos, o fator de atenuação é aplicado ao nível do frame, mas também é utilizada uma aplicação ao nível da amostra; consultar, por exemplo, G.718 e G.722. 0 fator de atenuação para um certo segmento de sinal pode ser realizado de duas maneiras, absoluta e relativa.
No caso em que um fator de atenuação é fornecido absolutamente, o nível de referência é sempre aquele do último frame recebido.
Os fatores absolutos de atenuação têm o seu início usualmente com um valor próximo de 1 para o segmento de sinal imediatamente após o último frame bom e, posteriormente degradam-se mais rápida ou lentamente em direção a 0. A curva de desvanecimento depende diretamente desses fatores. Esse é, por exemplo, o caso da ocultação descrita no Apêndice IV de G.722 (consultar, em particular, [ITU07, figura IV.7]), em que as curvas de desvanecimento possíveis são lineares ou gradualmente lineares. Considerando-se um fator de ganho g(n), em que g (0) representa o fator de ganho do último frame bom, um fator absoluto de atenuação aabs(n), o fator de ganho de qualquer frame perdido subsequente pode ser derivado como (21)
No caso em que um fator de atenuação ser fornecido relativamente, o nível de referência é aquele do frame anterior. Isso tem vantagens no caso de um procedimento de ocultação recursivo, por exemplo, se o sinal já atenuado é adicionalmente processado e atenuado novamente.
Se um fator de atenuação for aplicado recursivamente, então, esse pode ser um valor fixo independentemente do número de frames perdidos de modo consecutivo, por exemplo, 0,5 para G.719 (consultar acima); um valor fixo relativo ao número de frames perdidos de modo consecutivo, por exemplo, como proposto para G.729 em [CPK08]: 1,0 para os primeiros dois frames, 0,9 para os próximos dois frames, 0,8 para os frames 5 e 6, e 0 para todos os frames subsequentes (consultar acima); ou um valor que é relativo ao número de frames perdidos de modo consecutivo e que depende de caracteristicas de sinal, por exemplo, um desvanecimento mais rápido para um sinal instável e um desvanecimento mais lento para um sinal estável, por exemplo, G.718 (consultar seção acima e [ITU08a, tabela 44]);
Presumindo-se um fator de desvanecimento relativo 0 < arel(n) < 1, em que n é o número do frame perdido {n > 1) ; o fator de ganho de qualquer frame subsequente pode ser derivado como (22) (23) (24) resultando num desvanecimento exponencial.
Quanto ao procedimento de desvanecimento, usualmente, o fator de atenuação é especificado, mas em alguns padrões de aplicação (DRM, DAB+), o último é deixado para o fabricante.
Se diferentes partes de sinal são desvanecidas separadamente, diferentes fatores de atenuação podem ser aplicados, por exemplo, para desvanecer componentes tonais com uma certa velocidade e os componentes semelhantes a ruido com outra velocidade (por exemplo, AMR, SILK).
Usualmente, certo ganho é aplicado a todo o frame. Quando o desvanecimento é realizado no domínio espectral, essa é a única maneira possível. No entanto, se o desvanecimento é realizado no domínio de tempo ou no domínio preditivo linear, um desvanecimento mais granular é possível. Tal desvanecimento mais granular é aplicado em G.718, em que fatores de ganho individuais são derivados para cada amostra através de interpolação linear entre o fator de ganho do último frame e o fator de ganho do frame atual.
Para codecs com uma duração de frame variável, um fator de atenuação relativo constante resulta numa velocidade de desvanecimento diferente dependendo da duração do frame. Esse é, por exemplo, o caso de AAC, em que a duração do frame depende da taxa de amostragem.
Para adotar a curva de desvanecimento aplicada ao formato temporal do último sinal recebido, os fatores de desvanecimento (estático) podem ser adicionalmente ajustados. Tal ajuste dinâmico adicional é, por exemplo, aplicado para AMR em que a média dos cinco fatores de ganho anteriores é considerada (consultar [3GPl2b] e seção 1.8.1). Antes que qualquer atenuação seja realizada, o ganho atual é definido para a média, se a média for menor do que o último ganho, de outro modo, o último ganho é usado. Para além disto, tal ajuste dinâmico adicional é, por exemplo, aplicado para G729, em que a amplitude é prevista com o uso de regressão linear dos fatores de ganho anteriores (consultar [CPK08, PKJ+11] e seção 1.6). Neste caso, o fator de ganho resultante para os primeiros frames ocultados pode exceder o fator de ganho do último frame recebido.
Quanto ao nível-alvo do desvanecimento, com a exceção de G.718 e CELT, o nível-alvo é 0 para todos os codecs analisados, incluindo o daqueles codecs de Geração de Ruído de Conforto (CNG).
Em G.718, o desvanecimento da excitação de tom (representando componentes tonais) e o desvanecimento da excitação aleatória (representando componentes semelhantes a ruido) são realizados separadamente. Enquanto o fator de ganho de tom é desvanecido para zero, o fator de ganho de inovação é desvanecido para a Energia de Excitação de CNG.
Presumindo-se que fatores de atenuação relativos são dados, isso resulta - com base na fórmula (23) - no seguinte fator absoluto de atenuação: (25) sendo que gn é o ganho da excitação usada durante a Geração de Ruído de Conforto. Esta fórmula corresponde à fórmula (23), quando gn = 0. 0 G.718 não realiza nenhum desvanecimento no caso de DTX/CNG.
Em CELT, não existe nenhum desvanecimento em direção ao nível-alvo, mas após 5 frames de ocultação tonal (incluindo um desvanecimento), o nível é imediatamente comutado para o nível-alvo no 6o frame consecutivamente perdido. 0 nível é derivado ao nível da banda com o uso da fórmula (19).
Quanto ao formato-alvo espectral do desvanecimento, todos os codecs baseados em transformada puros analisados (AAC, G.719, G.722, G.722.1), bem como SBR, simplesmente prolongam o formato espectral do último frame bom durante o desvanecimento. Vários codecs de voz desvanecem o formato espectral até uma média com o uso da síntese de LPC. A média pode ser estática (AMR) ou adaptativa (AMR-WB, AMR-WB+, G.718), sendo que a última é derivada de uma média estática e uma média de curto prazo (derivada obtendo-se a média dos últimos n conjuntos de coeficiente de LP) (LP = Predição Linear).
Todos os módulos de CNG nos codecs discutidos AMR, AMR-WB, AMR-WB+, G.718 prolongam o formato espectral do último frame bom durante o desvanecimento.
Quanto ao rastreio do nivel de ruído de fundo, há cinco abordagens diferentes conhecidas na literatura:
Detetor de Atividade de Voz: baseada em SNR/VAD, mas muito difícil de sintonizar e difícil de usar para discurso de baixa SNR.
Esquema de decisão suave: A abordagem de decisão suave tem em consideração a probabilidade da presença de voz [SS98] [MPC89] [HE95].
Estatística mínima: 0 mínimo da PSD é rastreado retendo certa quantidade de valores ao longo do tempo num armazenamento temporário, permitindo, desse modo, que se encontre o ruído mínimo das amostras anteriores [MarOl] [HHJ10] [EH08] [Yu09].
Filtragem de Kalman: 0 algoritmo usa uma série de medições observadas ao longo do tempo, contendo ruído (variações aleatórias), e produz estimativas da PSD de ruído que tende a ser mais precisa do que aquelas baseadas numa única medição. 0 filtro de Kalman opera recursivamente em fluxos de dados de entrada ruidosa para produzir uma estimativa estatisticamente ideal do estado do sistema [Gan05] [BJH06].
Decomposição de Subespaço: Essa abordagem tenta decompor um sinal similar a ruído num sinal de voz limpo e uma parte de ruído, utilizando, por exemplo, a KLT (transformada de Karhunen-Loève, também conhecida como análise de componente principal) e/ou a DFT (Transformada de Fourier de Tempo Discreto) . Após o que, os eigenvectors/eigenvalues podem ser rastreados com o uso de um algoritmo de suavização arbitrário [BP06] [HJH08]. WO 2007/073604 apresenta um método e um dispositivo para ocultação de frames rasurados devido a frames de um sinal de áudio codificado serem apagados durante a transmissão de um codificador para um descodificador e a recuperação do descodificador após a rasura do frame compreende, no codificador, determinar os parâmetros de ocultação/recuperação incluindo pelo menos a informação de fase relativa aos frames do sinal sonoro codificado. Os parâmetros de ocultação/recuperação são determinados no codificador e são transmitidos ao descodificador e, no descodificador, a ocultação de frames rasurados é conduzida em resposta aos parâmetros de ocultação/recuperação. A ocultação de frames rasurados compreende a re-sincronização, em resposta à informação de fase recebida, dos frames rasurados-ocultados com os correspondentes frames do sinal sonoro codificados no codificador. Quando não são transmitidos para o descodificador os parâmetros de ocultação/recuperação, a informação de fase de cada um dos frames do sinal sonoro codificado que foram rasurados durante a transmissão do codificador para o descodificador são estimados no descodificador. Igualmente, a ocultação de frames rasurados é conduzida no descodificador em resposta à informação de fase estimada, em que a ocultação de frames rasurados compreende a re-sincronização, em resposta à informação de fase estimada, de cada frame rasurado-ocultado com o correspondente frame do sinal sonoro codificado no codificador. 0 objetivo da presente invenção consiste em fornecer conceitos aperfeiçoados para sistemas de codificação de áudio. 0 objetivo da presente invenção é solucionado por um aparelho, de acordo com a reivindicação 1, por um método, de acordo com reivindicação 21, e por um programa de computador, de acordo com a reivindicação 22.
Um aparelho para descodificar um sinal de áudio é fornecido. 0 aparelho compreende uma interface de receção. A interface de receção está configurada para receber uma pluralidade de frames, em que a interface de receção está configurada para receber um primeiro frame de entre a pluralidade de frames, sendo que o dito primeiro frame compreende uma primeira porção de sinal de áudio do sinal de áudio, em que a dita primeira porção de sinal de áudio é representada num primeiro domínio, e em que a interface de receção está configurada para receber um segundo frame de entre a pluralidade de frames, em que o segundo frame compreende uma segunda porção de sinal de áudio do sinal de áudio.
Além disto, o aparelho compreende uma unidade de transformada para transformar a segunda porção de sinal de áudio ou um valor ou sinal derivado da segunda porção de sinal de áudio de um segundo domínio para um domínio de rastreio para obter informação da segunda porção de sinal, em que o segundo domínio é diferente do primeiro domínio, em que o domínio de rastreio é diferente do segundo domínio, e em que o domínio de rastreio é igual ao ou diferente do primeiro domínio.
Mais ainda, o aparelho compreende uma unidade de rastreio de nível de ruído, em que a unidade de rastreio de nível de ruído está configurada para receber informações da primeira porção de sinal que são representadas no domínio de rastreio, sendo que as informações da primeira porção de sinal dependem da primeira porção de sinal de áudio. A unidade de rastreio de nível de ruído está configurada para receber a segunda porção de sinal que é representada no domínio de rastreio, e em que a unidade de rastreio de nível de ruído está configurada para determinar informações de nível de ruído dependendo das informações da primeira porção de sinal que são representadas no domínio de rastreio e dependendo das informações da segunda porção de sinal que são representadas no domínio de rastreio.
Para além disso, o aparelho compreende uma unidade de reconstrução para reconstruir uma terceira porção de sinal de áudio do sinal de áudio dependendo das informações de nível de ruído, se um terceiro frame de entre a pluralidade de frames não for recebido pela interface de receção ou estiver corrompido.
Um sinal de áudio pode ser, por exemplo, um sinal de discurso ou um sinal de música ou um sinal compreende discurso e música, etc. A declaração de que as informações da primeira porção de sinal dependem da primeira porção de sinal de áudio significa que as informações da primeira porção de sinal dizem respeito à primeira porção de sinal de áudio ou que as informações da primeira porção de sinal foram obtidas/geradas dependendo da primeira porção de sinal de áudio ou, de algum outro modo, depende da primeira porção de sinal de áudio. Por exemplo, a primeira porção de sinal de áudio pode ter sido transformada de um domínio para outro domínio para obter as informações da primeira porção de sinal.
De igual modo, a declaração de que as informações da segunda porção de sinal dependem de uma segunda porção de sinal de áudio significa que as informações da segunda porção de sinal dizem respeito à segunda porção de sinal de áudio ou que as informações da segunda porção de sinal foram obtidas/geradas dependendo da segunda porção de sinal de áudio ou, de algum outro modo, depende da segunda porção de sinal de áudio. Por exemplo, a segunda porção de sinal de áudio pode ter sido transformada de um domínio para outro domínio para obter informações da segunda porção de sinal.
Numa forma de realização, a primeira porção de sinal de áudio pode ser, por exemplo, representada num domínio de tempo como o primeiro domínio. Para além disto, a unidade de transformada pode ser, por exemplo, configurada para transformar a segunda porção de sinal de áudio ou o valor derivado da segunda porção de sinal de áudio de um domínio de excitação que é o segundo domínio para o domínio de tempo que é o domínio de rastreio. Mais ainda, a unidade de rastreio de nível de ruído pode ser, por exemplo, configurada para receber as informações da primeira porção de sinal que são representadas no domínio de tempo como o domínio de rastreio. Além disto, a unidade de rastreio de nível de ruído pode ser, por exemplo, configurada para receber a segunda porção de sinal que é representada no domínio de tempo como o domínio de rastreio.
De acordo com uma forma de realização, a primeira porção de sinal de áudio pode ser, por exemplo, representada num domínio de excitação como o primeiro domínio. Para além disto, a unidade de transformada pode ser, por exemplo, configurada para transformar a segunda porção de sinal de áudio ou o valor derivado da segunda porção de sinal de áudio de um domínio de tempo que é o segundo domínio para o domínio de excitação que é o domínio de rastreio. Mais ainda, a unidade de rastreio de nível de ruído pode ser, por exemplo, configurada para receber as informações da primeira porção de sinal que são representadas no domínio de excitação como o domínio de rastreio. Além disto, a unidade de rastreio de nível de ruído pode ser, por exemplo, configurada para receber a segunda porção de sinal que é representada no domínio de excitação como o domínio de rastreio. Numa forma de realização, a primeira porção de sinal de áudio pode ser, por exemplo, representada num domínio de excitação como o primeiro domínio, em que a unidade de rastreio de nível de ruído pode ser, por exemplo, configurada para receber as informações da primeira porção de sinal, em que as ditas informações da primeira porção de sinal são representadas no domínio de FFT que é o domínio de rastreio, e em que as ditas informações da primeira porção de sinal dependem da dita primeira porção de sinal de áudio que é representada no domínio de excitação, sendo que a unidade de transformada pode ser, por exemplo, configurada para transformar a segunda porção de sinal de áudio ou o valor derivado da segunda porção de sinal de áudio de um domínio de tempo que é o segundo domínio para um domínio de FFT que é o domínio de rastreio, e em que a unidade de rastreio de nível de ruído pode ser, por exemplo, configurada para receber a segunda porção de sinal de áudio que é representada no domínio de FFT.
Numa forma de realização, o aparelho pode compreender ainda, por exemplo, uma primeira unidade de agregação para determinar um primeiro valor agregado dependendo da primeira porção de sinal de áudio. Além disso, o aparelho pode compreender ainda, por exemplo, uma segunda unidade de agregação para determinar, dependendo da segunda porção de sinal de áudio, um segundo valor agregado como o valor derivado da segunda porção de sinal de áudio. Além disso, a unidade de rastreio de nível de ruído pode ser, por exemplo, configurada para receber o primeiro valor agregado como as informações da primeira porção de sinal que são representadas no domínio de rastreio, em que a unidade de rastreio de nível de ruído pode ser, por exemplo, configurada para receber o segundo valor agregado como as informações da segunda porção de sinal que são representadas no domínio de rastreio, e em que a unidade de rastreio de nível de ruído pode ser, por exemplo, configurada para determinar informações de nível de ruído dependendo do primeiro valor agregado que é representado no domínio de rastreio e dependendo do segundo valor agregado que é representado no domínio de rastreio.
De acordo com uma forma de realização, a primeira unidade de agregação pode ser, por exemplo, configurada para determinar o primeiro valor agregado de tal modo que o primeiro valor agregado indique uma média quadrática da primeira porção de sinal de áudio ou de um sinal derivado da primeira porção de sinal de áudio. Além disso, a segunda unidade de agregação pode ser, por exemplo, configurada para determinar o segundo valor agregado de tal modo que o segundo valor agregado indique uma média quadrática da segunda porção de sinal de áudio ou de um sinal derivado da segunda porção de sinal de áudio.
Numa forma de realização, a unidade de transformada pode ser, por exemplo, configurada para transformar o valor derivado da segunda porção de sinal de áudio do segundo domínio para o domínio de rastreio pela aplicação de um valor de ganho no valor derivado da segunda porção de sinal de áudio.
De acordo com formas de realização, o valor de ganho pode indicar, por exemplo, um ganho introduzido por Síntese de codificação preditiva linear, ou o valor de ganho pode indicar, por exemplo, um ganho introduzido por síntese de codificação preditiva linear e de-ênfase.
Numa forma de realização, a unidade de rastreio de nível de ruído pode ser, por exemplo, configurada para determinar informações de nível de ruído pela aplicação de uma abordagem de estatística mínima.
De acordo com uma forma de realização, a unidade de rastreio de nível de ruído pode ser, por exemplo, configurada para determinar um nível de ruído de conforto como as informações de nível de ruído. A unidade de reconstrução pode ser, por exemplo, configurada para reconstruir a terceira porção de sinal de áudio dependendo das informações de nivel de ruído, se o dito terceiro frame de entre a pluralidade de frames não for recebido pela interface de receção ou se o dito terceiro frame for recebido pela interface de receção mas estiver corrompido.
Numa forma de realização, a unidade de rastreio de nível de ruído pode ser, por exemplo, configurada para determinar um nível de ruído de conforto como as informações de nível de ruído derivadas de um espectro de nível de ruído, em que o dito espectro de nível de ruído é obtido pela aplicação de uma abordagem de estatística mínima. A unidade de reconstrução pode ser, por exemplo, configurada para reconstruir a terceira porção de sinal de áudio dependendo de uma pluralidade de coeficientes preditivos lineares, se o dito terceiro frame de entre a pluralidade de frames não for recebido pela interface de receção ou se o dito terceiro frame for recebido pela interface de receção mas estiver corrompido.
De acordo com outra forma de realização, a unidade de rastreio de nível de ruído pode ser, por exemplo, configurada para determinar uma pluralidade de coeficientes preditivos lineares que indicam um nível de ruído de conforto como as informações de nível de ruído, e a unidade de reconstrução pode ser, por exemplo, configurada para reconstruir a terceira porção de sinal de áudio dependendo da pluralidade de coeficientes preditivos lineares.
Numa forma de realização, a unidade de rastreio de nível de ruído está configurada para determinar uma pluralidade de coeficientes de FFT que indicam um nível de ruído de conforto como as informações de nível de ruído, e a primeira unidade de reconstrução está configurada para reconstruir a terceira porção de sinal de áudio dependendo de um nível de ruído de conforto derivado dos ditos coeficientes de FFT, se o dito terceiro frame de entre a pluralidade de frames não for recebido pela interface de receção ou se o dito terceiro frame for recebido pela interface de receção mas estiver corrompido.
Numa forma de realização, a unidade de reconstrução pode ser, por exemplo, configurada para reconstruir a terceira porção de sinal de áudio dependendo das informações de nível de ruído e dependendo da primeira porção de sinal de áudio, se o dito terceiro frame de entre a pluralidade de frames não for recebido pela interface de receção ou se o dito terceiro frame for recebido pela interface de receção mas estiver corrompido.
De acordo com uma forma de realização, a unidade de reconstrução pode ser, por exemplo, configurada para reconstruir a terceira porção de sinal de áudio pela atenuação ou amplificação de um sinal derivado da primeira ou da segunda porção de sinal de áudio.
Numa forma de realização, o aparelho pode compreender ainda, por exemplo, uma unidade de predição de longo prazo que compreende um armazenamento temporário de atraso. Para além disto, a unidade de predição de longo prazo pode ser, por exemplo, configurada para gerar um sinal processado dependendo da primeira ou da segunda porção de sinal de áudio, dependendo de uma entrada de armazenamento temporário de atraso que é armazenada no armazenamento temporário de atraso e dependendo de um ganho de predição de longo prazo. Para além disto, a unidade de predição de longo prazo pode ser, por exemplo, configurada para desvanecer o ganho de predição de longo prazo em direção a zero, se o dito terceiro frame de entre a pluralidade de frames não for recebido pela interface de receção ou se o dito terceiro frame for recebido pela interface de receção mas estiver corrompido.
De acordo com uma forma de realização, a unidade de predição de longo prazo pode ser, por exemplo, configurada para desvanecer o ganho de predição de longo prazo em direção a zero, em que uma velocidade com a qual o ganho de predição de longo prazo é desvanecido para zero depende de um fator de desvanecimento.
Numa forma de realização, a unidade de predição de longo prazo pode ser, por exemplo, configurada para atualizar a entrada de armazenamento temporário de atraso armazenando-se o sinal processado gerado no armazenamento temporário de atraso, se o dito terceiro frame de entre a pluralidade de frames não for recebido pela interface de receção ou se o dito terceiro frame for recebido pela interface de receção mas estiver corrompido.
De acordo com uma forma de realização, a unidade de transformada pode ser, por exemplo, uma primeira unidade de transformada, e a unidade de reconstrução é uma primeira unidade de reconstrução. 0 aparelho compreende, ainda, uma segunda unidade de transformada e uma segunda unidade de reconstrução. A segunda unidade de transformada pode ser, por exemplo, configurada para transformar as informações de nivel de ruido do domínio de rastreio para o segundo domínio, se um quarto frame de entre a pluralidade de frames não for recebido pela interface de receção ou se o dito quarto frame for recebido pela interface de receção mas estiver corrompido. Para além disto, a segunda unidade de reconstrução pode ser, por exemplo, configurada para reconstruir uma quarta porção de sinal de áudio do sinal de áudio dependendo das informações de nível de ruído que são representadas no segundo domínio se o dito quarto frame de entre a pluralidade de frames não for recebido pela interface de receção ou se o dito quarto frame for recebido pela interface de receção mas estiver corrompido.
Numa forma de realização, a segunda unidade de reconstrução pode ser, por exemplo, configurada para reconstruir a quarta porção de sinal de áudio dependendo das informações de nivel de ruído e dependendo da segunda porção de sinal de áudio.
De acordo com uma forma de realização, a segunda unidade de reconstrução pode ser, por exemplo, configurada para reconstruir a quarta porção de sinal de áudio pela atenuação ou amplificação de um sinal derivado da primeira ou da segunda porção de sinal de áudio.
Para além disto, um método para descodificar um sinal de áudio é fornecido. 0 método compreende:
Receber um primeiro frame de entre uma pluralidade de frames, sendo que o dito primeiro frame compreende uma primeira porção de sinal de áudio do sinal de áudio, em que a dita primeira porção de sinal de áudio é representada num primeiro domínio .
Receber um segundo frame de entre a pluralidade de frames, sendo que o dito segundo frame compreende uma segunda porção de sinal de áudio do sinal de áudio.
Transformar a segunda porção de sinal de áudio ou um valor ou sinal derivado da segunda porção de sinal de áudio de um segundo domínio para um domínio de rastreio para obter informações da segunda porção de sinal, em que o segundo domínio é diferente do primeiro domínio, sendo que o domínio de rastreio é diferente do segundo domínio, e em que o domínio de rastreio é igual ou diferente do primeiro domínio.
Determinar informações de nível de ruído dependendo das informações da primeira porção de sinal que são representadas no domínio de rastreio, e dependendo das informações da segunda porção de sinal que são representadas no domínio de rastreio, em que as informações da primeira porção de sinal dependem da primeira porção de sinal de áudio. E:
Reconstruir uma terceira porção de sinal de áudio do sinal de áudio dependendo das informações de nível de ruído que são representadas no domínio de rastreio, se um terceiro frame de entre a pluralidade de frames não for recebido ou se o dito terceiro frame for recebido mas estiver corrompido.
Para além disto, um programa de computador para implementar o método descrito acima, quando é executado num computador ou processador de sinal, é fornecido.
Exemplos fornecem um parâmetro de suavização variante no tempo de tal modo que as capacidades de rastreio do periodograma suavizado e sua variância sejam melhor equilibradas, para desenvolver um algoritmo para ajuste de compensação e para acelerar o rastreio de ruido em geral.
No que respeita ao desvanecimento, os seguintes parâmetros são de interesse: 0 domínio de desvanecimento; a velocidade de desvanecimento ou, de modo mais geral, a curva de desvanecimento; o nível-alvo do desvanecimento; o formato-alvo espectral do desvanecimento; e/ou o rastreio de nível de ruído de fundo. Nesse contexto, a técnica anterior tem desvantagens significativas.
Um aparelho e um método para um desvanecimento de sinal aperfeiçoado para sistemas de codificação de áudio comutado durante a ocultação de erros são fornecidos.
Mais ainda, um programa de computador para implementar o método descrito acima, quando é executado num computador ou processador de sinal, é fornecido.
As formas de realização concretizam um desvanecimento até o nível de ruído de conforto. De acordo com formas de realização, um rastreio de nível de ruído de conforto comum no domínio de excitação é realizado. 0 nível de ruído de conforto alvo durante a perda de pacote em rajadas será o mesmo, independentemente do codificador de núcleo (ACELP/TCX) em uso, e sempre estará atualizado. Não há nenhuma técnica anterior conhecida em que um rastreio de nível de ruído comum seja necessário. As formas de realização fornecem o desvanecimento de um codec comutado para um sinal similar a ruído de conforto durante as perdas de pacote em rajada.
Para além disto, as formas de realização realizam que a complexidade geral será menor em comparação a dois módulos de rastreio de nivel de ruido independentes, já que as funções (PROM) e a memória podem ser compartilhadas.
Nas formas de realização, a derivação de nivel no domínio de excitação (em comparação à derivação de nível no domínio de tempo) fornece mais mínimos durante a voz ativa, já que parte das informações de voz é coberta pelos coeficientes de LP.
No caso de ACELP, de acordo com formas de realização, a derivação de nível ocorre no domínio de excitação. No caso de TCX, nas formas de realização, o nível é derivado no domínio de tempo, e o ganho da síntese de LPC e da de-ênfase é aplicado como um fator de correção a fim de modelar o nível de energia no domínio de excitação. Rastrear o nível no domínio de excitação, por exemplo, antes da FDNS, também seria possível teoricamente mas a compensação de nível entre o domínio de excitação de TCX e o domínio de excitação de ACELP é considerada muito complexa. Nenhuma técnica anterior incorpora tal rastreio de nível de fundo comum em diferentes domínios. As técnicas da técnica anterior não têm tal rastreio de nível de ruído de conforto comum, por exemplo, no domínio de excitação, num sistema de codec comutado. Desse modo, as formas de realização são vantajosas sobre a técnica anterior, já que, para as técnicas da técnica anterior, o nível de ruído de conforto alvo durante as perdas de pacote em rajada pode ser diferente, dependendo do modo de codificação anterior (ACELP/TCX) , em que o nível foi rastreado; já que, na técnica anterior, o rastreio que é separado para cada modo de codificação irá causar uma sobrecarga desnecessária e uma complexidade computacional adicional; e já que, na técnica anterior, nenhum nivel de ruido de conforto atualizado pode estar disponível em qualquer núcleo devido à comutação recente para esse núcleo.
De acordo com algumas formas de realização, o rastreio de nível é conduzido no domínio de excitação mas o desvanecimento de TCX é conduzido no domínio de tempo. Através do desvanecimento no domínio de tempo, falhas do TDAC são evitadas, as quais causariam aliasing (serrilhamento) . Isto torna-se de particular interesse quando componentes de sinal tonal são ocultados. Para além disto, a conversão de nível entre o domínio de excitação de ACELP e o domínio espectral de MDCT é evitada e, desse modo, por exemplo, os recursos de computação são salvos. Devido à comutação entre o domínio de excitação e o domínio de tempo, um ajuste de nível é exigido entre o domínio de excitação e o domínio de tempo. Isso é solucionado pela derivação do ganho que seria introduzido pela síntese de LPC e pela pré-ênfase, e pelo uso deste ganho como um fator de correção para converter o nível entre os dois dominios.
Em contraste, as técnicas da técnica anterior não conduzem o rastreio de nível no domínio de excitação e o Desvanecimento de TCX no Domínio de tempo. Quanto aos codecs baseados em transformada do estado da técnica, o fator de atenuação é aplicado no domínio de excitação (para abordagens de ocultação similares a tempo-domínio/ACELP, consultar [3GP09a]) ou no domínio de frequência (para abordagens de domínio de frequência abordagens, como repetição de frame ou substituição de ruido, consultar [LS01]). Uma desvantagem da abordagem da técnica anterior para aplicar o fator de atenuação no dominio de frequência é que a suavização será causada na região de sobreposição-adição no dominio de tempo. Esse será o caso de frames adjacentes aos quais diferentes fatores de atenuação são aplicados, devido ao fato de que o procedimento de desvanecimento faz com que o TDAC (cancelamento de suavização de dominio de tempo) falhe. Isso é particularmente relevante quando os componentes de sinal tonal são ocultados. As formas de realização mencionadas acima são, então, vantajosas sobre a técnica anterior.
As formas de realização compensam a influência do filtro passa-alta no ganho de síntese de LPC. De acordo com formas de realização, para compensar a alteração indesejada de ganho da análise de LPC e da ênfase causada pela excitação do tipo não vocal passada em filtro passa-alta, um fator de correção é derivado. Esse fator de correção considera essa alteração indesejada de ganho e modifica o nível-alvo de ruído de conforto no domínio de excitação de tal modo que o nível-alvo correto seja alcançado no domínio de tempo.
Em contraste, a técnica anterior, por exemplo, o G.718 [ITU08a] introduz um filtro passa-alta no caminho do sinal da excitação do tipo não vocal, como mostrado na Fig. 2, se o sinal do último frame bom não for classificado como NÃO VOCAL. Deste modo, as técnicas da técnica anterior causam efeitos colaterais indesejados, já que o ganho da síntese de LPC subsequente depende das características de sinal, as quais são alteradas por esse filtro passa-alta. Já que o nível de fundo é rastreado e aplicado no domínio de excitação, o algoritmo depende do ganho de síntese de LPC, o qual, por sua vez, depende novamente das características do sinal de excitação. Por outras palavras: a modificação das características do sinal da excitação devido à passagem no filtro passa-alta, como conduzida pela técnica anterior, pode resultar num ganho modificado (usualmente reduzido) da síntese de LPC. Isto resulta num nível de saída erróneo, muito embora o nível de excitação esteja correto.
As formas de realização superam essas desvantagens da técnica anterior.
Em particular, as modalidades concretizam um formato espectral adaptativo de ruído de conforto. Em contraste ao G.718, através de rastreio do formato espectral do ruído de fundo e aplicando-se (desvanecendo-se para) esse formato durante perdas de pacote em rajada, a característica de ruído do ruído de fundo anterior será compatível, resultando numa característica de ruído agradável do ruído de conforto. Isso impede incompatibilidades indesejadas do formato espectral que pode ser introduzido com o uso de um envelope espectral que foi derivado por treino offline e/ou do formato espectral dos últimos frames recebidos.
Para além disto, um aparelho para decodificar um sinal de áudio é fornecido. 0 aparelho compreende uma interface de receção, em que a interface de receção está configurada para receber um primeiro frame que compreende uma primeira porção de sinal de áudio do sinal de áudio, e em que a interface de receção está configurada para receber um segundo frame que compreende uma segunda porção de sinal de áudio do sinal de áudio.
Para além disto, o aparelho compreende uma unidade de rastreio de nivel de ruído, em que a unidade de rastreio de nível de ruído está configurada para determinar informações de nível de ruído dependendo de pelo menos uma de entre a primeira porção de sinal de áudio e a segunda porção de sinal de áudio (isso significa: dependendo da primeira porção de sinal de áudio e/ou da segunda porção de sinal de áudio), sendo que as informações de nível de ruído são representadas num domínio de rastreio.
Para além disto, o aparelho compreende uma primeira unidade de reconstrução para reconstruir, num primeiro domínio de reconstrução, uma terceira porção de sinal de áudio do sinal de áudio dependendo das informações de nível de ruído, se um terceiro frame de entre a pluralidade de frames não for recebido pela interface de receção ou se o dito terceiro frame for recebido pela interface de receção mas estiver corrompido, sendo que o primeiro domínio de reconstrução é diferente de ou igual ao domínio de rastreio.
Mais ainda, o aparelho compreende uma unidade de transformada para transformar as informações de nível de ruído do domínio de rastreio para um segundo domínio de reconstrução, se um quarto frame de entre a pluralidade de frames não for recebido pela interface de receção ou se o dito quarto frame for recebido pela interface de receção mas estiver corrompido, em que o segundo domínio de reconstrução é diferente do domínio de rastreio, e em que o segundo domínio de reconstrução é diferente do primeiro domínio de reconstrução, e
Para além disso, o aparelho compreende uma segunda unidade de reconstrução para reconstruir, no segundo domínio de reconstrução, uma quarta porção de sinal de áudio do sinal de áudio dependendo das informações de nível de ruído que são representadas no segundo domínio de reconstrução, se o dito quarto frame de entre a pluralidade de frames não for recebido pela interface de receção ou se o dito quarto frame for recebido pela interface de receção mas estiver corrompido.
De acordo com algumas formas de realização, o domínio de rastreio pode ser, por exemplo, quando o domínio de rastreio é um domínio de tempo, um domínio espectral, um domínio de FFT, um domínio de MDCT ou um domínio de excitação. 0 primeiro domínio de reconstrução pode ser, por exemplo, o domínio de tempo. 0 segundo domínio de reconstrução pode ser, por exemplo, o domínio de tempo, o domínio espectral, o domínio de FFT, o domínio de MDCT ou o domínio de excitação.
Numa forma de realização, o domínio de rastreio pode ser, por exemplo, o domínio de FFT, o primeiro domínio de reconstrução pode ser, por exemplo, o domínio de tempo e o segundo domínio de reconstrução pode ser, por exemplo, o domínio de excitação.
Numa outra forma de realização, o domínio de rastreio pode ser, por exemplo, o domínio de tempo, o primeiro domínio de reconstrução pode ser, por exemplo, o domínio de tempo, e o segundo domínio de reconstrução pode ser, por exemplo, o domínio de excitação.
De acordo com uma forma de realização, a dita primeira porção de sinal de áudio pode ser, por exemplo, representada num primeiro domínio de entrada, e a dita segunda porção de sinal de áudio pode ser, por exemplo, representada num segundo domínio de entrada. A unidade de transformada pode ser, por exemplo, uma segunda unidade de transformada. 0 aparelho pode compreender, por exemplo, ainda, uma primeira unidade de transformada para transformar a segunda porção de sinal de áudio ou um valor ou sinal derivado da segunda porção de sinal de áudio do segundo domínio de entrada para o domínio de rastreio para obter informações da segunda porção de sinal. A unidade de rastreio de nível de ruído pode estar, por exemplo, configurado para receber informações da primeira porção de sinal que são representadas no domínio de rastreio, em que as informações da primeira porção de sinal dependem da primeira porção de sinal de áudio, em que a unidade de rastreio de nível de ruído está configurada para receber a segunda porção de sinal que é representada no domínio de rastreio, e em que a unidade de rastreio de nível de ruído está configurada para determinar as informações de nível de ruído dependendo das informações da primeira porção de sinal que são representadas no domínio de rastreio e dependendo das informações da segunda porção de sinal que são representadas no domínio de rastreio.
De acordo com uma forma de realização, o primeiro domínio de entrada pode ser, por exemplo, o domínio de excitação, e o segundo domínio de entrada pode ser, por exemplo, o domínio de MDCT.
Numa outra forma de realização, o primeiro domínio de entrada pode ser, por exemplo, o domínio de MDCT, e em que o segundo domínio de entrada pode ser, por exemplo, o domínio de MDCT.
De acordo com uma forma de realização, a primeira unidade de reconstrução pode estar, por exemplo, configurada para reconstruir a terceira porção de sinal de áudio conduzindo-se um primeiro desvanecimento para um espectro similar a ruído. A segunda unidade de reconstrução pode estar, por exemplo, configurada para reconstruir a quarta porção de sinal de áudio conduzindo-se um segundo desvanecimento para um espectro similar a ruído e/ou um segundo desvanecimento de um ganho de LTP. Para além disto, a primeira unidade de reconstrução e a segunda unidade de reconstrução podem estar, por exemplo, configuradas para conduzir o primeiro desvanecimento e o segundo desvanecimento para um espectro similar a ruído e/ou um segundo desvanecimento de um ganho de LTP com a mesma velocidade de desvanecimento.
Numa forma de realização, o aparelho pode compreender, por exemplo, ainda, uma primeira unidade de agregação para determinar um primeiro valor agregado dependendo da primeira porção de sinal de áudio. Para além disto, o aparelho pode compreender, por exemplo, ainda, uma segunda unidade de agregação para determinar, dependendo da segunda porção de sinal de áudio, um segundo valor agregado como o valor derivado da segunda porção de sinal de áudio. A unidade de rastreio de nível de ruído pode estar, por exemplo, configurado para receber o primeiro valor agregado como as informações da primeira porção de sinal que são representadas no domínio de rastreio, em que a unidade de rastreio de nível de ruído pode estar, por exemplo, configurada para receber o segundo valor agregado como as informações da segunda porção de sinal gue são representadas no domínio de rastreio, e em que a unidade de rastreio de nível de ruído está configurada para determinar as informações de nível de ruído dependendo do primeiro valor agregado que é representado no domínio de rastreio e dependendo do segundo valor agregado que é representado no domínio de rastreio.
De acordo com uma forma de realização, a primeira unidade de agregação pode estar, por exemplo, configurada para determinar o primeiro valor agregado de tal modo que o primeiro valor agregado indica que uma média quadrática da primeira porção de sinal de áudio ou de um sinal derivado da primeira porção de sinal de áudio. A segunda unidade de agregação está configurada para determinar o segundo valor agregado de tal modo que o segundo valor agregado indica que uma média quadrática da segunda porção de sinal de áudio ou de um sinal derivado da segunda porção de sinal de áudio.
Numa forma de realização, a primeira unidade de transformada pode estar, por exemplo, configurada para transformar o valor derivado da segunda porção de sinal de áudio do segundo domínio de entrada para o domínio de rastreio aplicando-se um valor de ganho no valor derivado da segunda porção de sinal de áudio.
De acordo com uma forma de realização, o valor de ganho pode indicar, por exemplo, um ganho introduzido por síntese de codificação preditiva linear, ou em que o valor de ganho indica um ganho introduzido por síntese de codificação preditiva linear e de-ênfase.
Numa forma de realização, a unidade de rastreio de nível de ruído pode estar, por exemplo, configurada para determinar as informações de nível de ruído aplicando-se uma abordagem de estatística mínima.
De acordo com uma forma de realização, a unidade de rastreio de nível de ruído pode estar, por exemplo, configurada para determinar um nível de ruído de conforto como informação de nível de ruído. A unidade de reconstrução pode estar, por exemplo, configurada para reconstruir a terceira porção de sinal de áudio dependendo das informações de nível de ruído, se o dito terceiro frame de entre a pluralidade de frames não for recebido pela interface de receção ou se o dito terceiro frame for recebido pela interface de receção mas estiver corrompido.
Numa forma de realização, a unidade de rastreio de nível de ruído pode estar, por exemplo, configurada para determinar um nível de ruído de conforto como informação de nível de ruído derivada de um espectro de nível de ruído, em que o dito espectro de nível de ruído é obtido pela aplicação da abordagem de estatística mínima. A unidade de reconstrução pode estar, por exemplo, configurada para reconstruir a terceira porção de sinal de áudio dependendo de uma pluralidade de coeficientes preditivos lineares, se o dito terceiro frame de entre a pluralidade de frames não for recebido pela interface de receção ou se o dito terceiro frame for recebido pela interface de receção mas estiver corrompido.
De acordo com uma forma de realização, a primeira unidade de reconstrução pode estar, por exemplo, configurada para reconstruir a terceira porção de sinal de áudio dependendo das informações de nivel de ruido e dependendo da primeira porção de sinal de áudio, se o dito terceiro frame de entre a pluralidade de frames não for recebido pela interface de receção ou se o dito terceiro frame for recebido pela interface de receção mas estiver corrompido.
Numa forma de realização, a primeira unidade de reconstrução pode estar, por exemplo, configurada para reconstruir a terceira porção de sinal de áudio pela atenuação ou amplificação de a primeira porção de sinal de áudio.
De acordo com uma forma de realização, a segunda unidade de reconstrução pode estar, por exemplo, configurada para reconstruir a quarta porção de sinal de áudio dependendo das informações de nivel de ruido e dependendo da segunda porção de sinal de áudio.
Numa forma de realização, a segunda unidade de reconstrução pode estar, por exemplo, configurada para reconstruir a quarta porção de sinal de áudio pela atenuação ou amplificação de a segunda porção de sinal de áudio.
De acordo com uma forma de realização, o aparelho pode compreender, por exemplo, ainda, uma unidade de predição de longo prazo que compreende um armazenamento temporário de atraso, em que a unidade de predição de longo prazo pode estar, por exemplo, configurada para gerar um sinal processado dependendo da primeira ou da segunda porção de sinal de áudio, dependendo de uma entrada de armazenamento temporário de atraso que é armazenada no armazenamento temporário de atraso e dependendo de um ganho de predição de longo prazo, e em que a unidade de predição de longo prazo está configurada para desvanecer o ganho de predição de longo prazo em direção a zero, se o dito terceiro frame de entre a pluralidade de frames não for recebido pela interface de receção ou se o dito terceiro frame for recebido pela interface de receção mas estiver corrompido.
Numa forma de realização, a unidade de predição de longo prazo pode estar, por exemplo, configurada para desvanecer o ganho de predição de longo prazo em direção a zero, em que uma velocidade com a qual o ganho de predição de longo prazo é desvanecido para zero depende de um fator de desvanecimento.
Numa forma de realização, a unidade de predição de longo prazo pode estar, por exemplo, configurada para atualizar a entrada de armazenamento temporário de atraso armazenando-se o sinal processado gerado no armazenamento temporário de atraso, se o dito terceiro frame de entre a pluralidade de frames não for recebido pela interface de receção ou se o dito terceiro frame for recebido pela interface de receção mas estiver corrompido. Para além disto, um método para descodificar um sinal de áudio é fornecido. 0 método compreende:
Receber um primeiro frame que compreende uma primeira porção de sinal de áudio do sinal de áudio, e receber um segundo frame que compreende uma segunda porção de sinal de áudio do sinal de áudio.
Determinar informações de nivel de ruido dependendo de pelo menos uma de entre a primeira porção de sinal de áudio e a segunda porção de sinal de áudio, em que as informações de nivel de ruido são representadas num domínio de rastreio.
Reconstruir, num primeiro domínio de reconstrução, uma terceira porção de sinal de áudio do sinal de áudio dependendo das informações de nível de ruído, se um terceiro frame de entre a pluralidade de frames não for recebido ou se o dito terceiro frame for recebido mas estiver corrompido, em que o primeiro domínio de reconstrução é diferente de ou igual ao domínio de rastreio.
Transformar as informações de nível de ruído do domínio de rastreio para um segundo domínio de reconstrução, se um quarto frame de entre a pluralidade de frames não for recebido ou se o dito quarto frame for recebido mas estiver corrompido, em que o segundo domínio de reconstrução é diferente do domínio de rastreio, e em que o segundo domínio de reconstrução é diferente do primeiro domínio de reconstrução. E:
Reconstruir, no segundo domínio de reconstrução, uma quarta porção de sinal de áudio do sinal de áudio dependendo das informações de nível de ruído que são representadas no segundo domínio de reconstrução, se o dito quarto frame de entre a pluralidade de frames não for recebido ou se o dito quarto frame for recebido mas estiver corrompido.
Para além disto, um programa de computador para implementar o método descrito acima, quando estiver a ser executado num computador ou processador de sinal é fornecido.
Para além disto, um aparelho para descodificar um sinal de áudio codificado para obter um sinal de áudio reconstruído é fornecido. 0 aparelho compreende uma interface de receção para receber um ou mais frames, um gerador de coeficiente e um reconstrutor de sinal. 0 gerador de coeficiente é configurado para determinar, se um frame atual de entre os um ou mais frames for recebido pela interface de receção e se o frame atual que é recebido pela interface de receção não estiver corrompido, um ou mais coeficientes do primeiro sinal de áudio que são compostos pelo frame atual, em que os ditos um ou mais coeficientes do primeiro sinal de áudio indicam uma característica do sinal de áudio codificado, e um ou mais coeficientes de ruído que indicam um ruído de fundo do sinal de áudio codificado. Para além disto, o gerador de coeficiente é configurado para gerar um ou mais coeficientes do segundo sinal de áudio, dependendo dos um ou mais coeficientes do primeiro sinal de áudio e dependendo dos um ou mais coeficientes de ruído, se o frame atual não for recebido pela interface de receção ou se o frame atual que é recebido pela interface de receção estiver corrompido. 0 reconstrutor de sinal de áudio é configurado para reconstruir uma primeira porção do sinal de áudio reconstruído dependendo dos um ou mais coeficientes do primeiro sinal de áudio, se o frame atual for recebido pela interface de receção e se o frame atual que é recebido pela interface de receção não estiver corrompido. Para além disto, o reconstrutor de sinal de áudio é configurado para reconstruir uma segunda porção do sinal de áudio reconstruído dependendo dos um ou mais coeficientes do segundo sinal de áudio, se o frame atual não for recebido pela interface de receção ou se o frame atual que é recebido pela interface de receção estiver corrompido.
Em algumas formas de realização, os um ou mais coeficientes do primeiro sinal de áudio podem ser, por exemplo, um ou mais coeficientes de filtro preditivo linear do sinal de áudio codificado. Nalgumas formas de realização, os um ou mais coeficientes do primeiro sinal de áudio podem ser, por exemplo, um ou mais coeficientes de filtro preditivo linear do sinal de áudio codificado.
De acordo com uma forma de realização, os um ou mais coeficientes de ruido podem ser, por exemplo, um ou mais coeficientes de filtro preditivo linear que indicam o ruido de fundo do sinal de áudio codificado. Numa forma de realização, os um ou mais coeficientes de filtro preditivo linear podem representar, por exemplo, um formato espectral do ruido de fundo.
Numa forma de realização, o gerador de coeficiente pode estar, por exemplo, configurado para determinar as uma ou mais segundas porções de sinal de áudio de tal modo que as uma ou mais segundas porções de sinal de áudio sejam um ou mais coeficientes de filtro preditivo linear do sinal de áudio reconstruído, ou de tal modo que os um ou mais coeficientes de primeiro sinal de áudio sejam um ou mais pares espectrais de imitância do sinal de áudio reconstruído.
De acordo com uma forma de realização, o gerador de coeficiente pode estar, por exemplo, configurado para gerar os um ou mais coeficientes do segundo sinal de áudio pela aplicação da fórmula: em que fcurrent [i] indica um dos um ou mais coeficientes do segundo sinal de áudio, em que fiastíi] indica um dos um ou mais coeficientes do primeiro sinal de áudio, em que ptmean[i] é um dos um ou mais coeficientes de ruído, em que α é um número real com 0 < α < 1, e em que i é um índice. Numa forma de realização, 0 < α < 1.
De acordo com uma forma de realização, fiastíi] indica um coeficiente de filtro preditivo linear do sinal de áudio codificado, e em que fcurrently] indica um coeficiente de filtro preditivo linear do sinal de áudio reconstruído.
Numa forma de realização, ptmean[i] pode indicar, por exemplo, o ruído de fundo do sinal de áudio codificado.
Numa forma de realização, o gerador de coeficiente pode estar, por exemplo, configurado para determinar, se o frame atual dos um ou mais frames for recebido pela interface de receção e se o frame atual que é recebido pela interface de receção não estiver corrompido, os um ou mais coeficientes de ruído determinando-se um espectro de ruído do sinal de áudio codificado.
De acordo com uma forma de realização, o gerador de coeficiente pode estar, por exemplo, configurado para determinar coeficientes de LPC que representam ruído de fundo com o uso de uma abordagem de estatística mínima no espectro de sinal para determinar um espectro de ruído de fundo e calculando-se os coeficientes de LPC que representam o formato de ruído de fundo do espectro de ruído de fundo.
Para além disto, um método para descodificar um sinal de áudio codificado para obter um sinal de áudio reconstruído é fornecido. 0 método compreende:
Receber um ou mais frames.
Determinar, se um frame atual de entre os um ou mais frames é recebido e se o frame atual que é recebido não estiver corrompido, um ou mais coeficientes do primeiro sinal de áudio que são compostos pelo frame atual, em que os ditos um ou mais coeficientes do primeiro sinal de áudio indicam uma característica do sinal de áudio codificado, e um ou mais coeficientes de ruído indicam um ruído de fundo do sinal de áudio codificado.
Gerar um ou mais coeficientes do segundo sinal de áudio, dependendo dos um ou mais coeficientes do primeiro sinal de áudio e dependendo dos um ou mais coeficientes de ruído, se o frame atual não for recebido ou se o frame atual que é recebido estiver corrompido.
Reconstruir uma primeira porção do sinal de áudio reconstruído dependendo dos um ou mais coeficientes do primeiro sinal de áudio, se o frame atual for recebido e se o frame atual que é recebido não estiver corrompido. E:
Reconstruir uma segunda porção do sinal de áudio reconstruído dependendo dos um ou mais coeficientes do segundo sinal de áudio, se o frame atual não for recebido ou se o frame atual que é recebido estiver corrompido.
Para além disto, um programa de computador para implementar o método descrito acima, quando executado num computador ou processador de sinal, é fornecido.
Utilizar meios comuns para rastrear e aplicar o formato espectral de ruido de conforto durante o desvanecimento tem diversas vantagens. 0 rastreio e a aplicação do formato espectral de tal modo que possam ser realizados de modo similar para ambos os codecs de núcleo permitem uma abordagem comum simples. A CELT ensina somente o rastreio no sentido da banda de energias no domínio espectral e a formação no sentido da banda do formato espectral no domínio espectral, o que não é possível para o núcleo do CELP.
Em contraste, na técnica anterior, o formato espectral do ruído de conforto introduzido durante as perdas em rajada é totalmente estático ou parcialmente estático e parcialmente adaptativo à média a curto prazo do formato espectral (como definido em G.718 [ITU08a]), e não será semelhante usualmente com o ruído de fundo no sinal antes da perda de pacote. Essa dissemelhança das características de ruído de conforto pode ser inconveniente. De acordo com a técnica anterior, um formato de ruído de fundo (estático) treinado off-line pode ser empregue, o qual pode ser um som agradável para sinais particulares, mas menos agradável para outros, por exemplo, os sons de ruído de carros soam totalmente diferente do ruído de um escritório.
Para além disto, na técnica anterior, uma adaptação à média a curto prazo do formato espectral dos frames recebidos anteriormente pode ser empregue, o que pode aproximar as características de sinal ao sinal recebido antes, mas não necessariamente às características de ruído de fundo. Na técnica anterior, o rastreio do formato espectral no sentido da banda no domínio espectral (como definido em CELT [IET12]) não é aplicável para um codec comutado com o uso não somente de um núcleo baseado em domínio de MDCT (TCX), mas também de um núcleo baseado em ACELP. As formas de realização mencionadas acima são portanto vantajosas sobre a técnica anterior.
Para além disto, um aparelho para descodificar um sinal de áudio codificado para obter um sinal de áudio reconstruído é fornecido. 0 aparelho compreende uma interface de receção para receber um ou mais frames que compreendem informações sobre uma pluralidade de amostras de sinal de áudio de um espectro de sinal de áudio do sinal de áudio codificado, e um processador para gerar o sinal de áudio reconstruído. 0 processador está configurado para gerar o sinal de áudio reconstruído através do desvanecimento de um espectro modificado para um espectro-alvo, se um frame atual não for recebido pela interface de receção ou se o frame atual for recebido pela interface de receção mas estiver corrompido, em que o espectro modificado compreende uma pluralidade de amostras de sinal modificado, em que, para cada uma das amostras de sinal modificado do espectro modificado, um valor absoluto da dita amostra de sinal modificado é igual a um valor absoluto de uma das amostras de sinal de áudio do espectro de sinal de áudio. Para além disto, o processador está configurado para não desvanecer o espectro modificado para o espectro-alvo, se o frame atual de entre os um ou mais frames for recebido pela interface de receção e se o frame atual que é recebido pela interface de receção não estiver corrompido.
De acordo com uma forma de realização, o espectro-alvo pode ser, por exemplo, um espectro similar a ruido.
Numa forma de realização, o espectro similar a ruido pode representar, por exemplo, ruido branco.
De acordo com uma forma de realização, o espectro similar a ruido pode ser, por exemplo, modelado.
Numa forma de realização, o formato do espectro similar a ruido pode depender, por exemplo, de um espectro de sinal de áudio de um sinal recebido anteriormente.
De acordo com uma forma de realização, o espectro similar a ruido pode ser, por exemplo, modelado dependendo do formato do espectro de sinal de áudio.
Numa forma de realização, o processador pode empregar, por exemplo, um fator de inclinação para modelar o espectro similar a ruido.
De acordo com uma forma de realização, o processador pode empregar, por exemplo, a fórmula shaped_noise[i] = noise * power(tilt_factor,i/N) em que N indica o número de amostras, em que i é um índice, em que 0<= i < N, com tilt_factor >0, e em que power é uma função de energia. y power(x,y) índica x i
f , . /ΛΤ> . tilt factorN power(tilt_factor,i/N) indica —
Se o tilt_factor for menor do que 1, isso significa uma atenuação com i crescente. Se o tilt_factor for maior do que 1, isso significa uma amplificação com i crescente.
De acordo com outra forma de realização, o processador pode empregar, por exemplo, a fórmula shaped_noise[i] = noise * (1 + i / (N-l) * (tilt_factor-l)) em que N indica o número de amostras, em que i é um índice, em que 0<= i < N, com tilt_factor > 0.
Se o tilt_factor for menor do que 1, isso significa uma atenuação com i crescente. Se o tilt_factor for maior do que 1, isso significa uma amplificação com i crescente.
De acordo com uma forma de realização, o processador pode estar, por exemplo, configurado para gerar o espectro modificado, alterando-se um símbolo de uma ou mais das amostras de sinal de áudio do espectro de sinal de áudio, se o frame atual não for recebido pela interface de receção ou se o frame atual que é recebido pela interface de receção estiver corrompido.
Numa forma de realização, cada uma das amostras de sinal de áudio do espectro de sinal de áudio pode ser, por exemplo, representada por um número real, mas não por um número imaginário.
De acordo com uma forma de realização, as amostras de sinal de áudio do espectro de sinal de áudio podem ser, por exemplo, representadas num domínio de Transformada Discreta Modificada de Cosseno.
Numa outra forma de realização, as amostras de sinal de áudio do espectro de sinal de áudio podem ser, por exemplo, representadas num domínio de Transformada Discreta Modificada de Seno.
De acordo com uma forma de realização, o processador pode estar, por exemplo, configurado para gerar o espectro modificado empregando uma função de símbolo aleatório que emite aleatória ou pseudo-aleatoriamente um primeiro ou um segundo valor.
Numa forma de realização, o processador pode estar, por exemplo, configurado para desvanecer o espectro modificado para o espectro-alvo pela diminuição subsequente de um fator de atenuação.
De acordo com uma forma de realização, o processador pode estar, por exemplo, configurado para desvanecer o espectro modificado para o espectro-alvo pelo aumento subsequente de um fator de atenuação.
Numa forma de realização, se o frame atual não for recebido pela interface de receção ou se o frame atual que é recebido pela interface de receção estiver corrompido, o processador pode estar, por exemplo, configurado para gerar o sinal de áudio reconstruído empregando-se a fórmula: x[i] = (l-cum_damping) * noise[i] + cum_damping * random_sign() * x_old[i] em que i é um índice, em que x[i] indica uma amostra do sinal de áudio reconstruído, em que cum_damping é um fator de atenuação, em que x_old[i] indica uma das amostras de sinal de áudio do espectro de sinal de áudio do sinal de áudio codificado, em que random_sign () retorna para 1 ou -1, e em que noise é um vetor aleatório que indica o espectro-alvo.
Numa forma de realização, o dito vetor aleatório noise pode ser, por exemplo, escalonado de tal modo que sua média quadrática seja similar à média quadrática do espectro do sinal de áudio codificado que é composto por um dos frames que são recebidos por último pela interface de receção.
De acordo com uma forma de realização qeral, o processador pode estar, por exemplo, confiqurado para qerar o sinal de áudio reconstruído, empregando um vetor aleatório que é escalonado de tal modo que sua média quadrática seja similar à média quadrática do espectro do sinal de áudio codificado que é composto por um dos frames que é recebido por último pela interface de receção.
Para além disto, um método para descodificar um sinal de áudio codificado para obter um sinal de áudio reconstruído é fornecido. 0 método compreende:
Receber um ou mars frames que compreendem informações sobre uma pluralidade de amostras de sinal de áudio de um espectro de sinal de áudio do sinal de áudio codificado. E:
Gerar o sinal de áudio reconstruído. A geração do sinal de áudio reconstruído é conduzida desvanecendo-se um espectro modificado para um espectro-alvo, se um frame atual não for recebido ou se o frame atual for recebido mas estiver corrompido, em que o espectro modificado compreende uma pluralidade de amostras de sinal modificado, em que, para cada uma das amostras de sinal modificado do espectro modificado, um valor absoluto da dita amostra de sinal modificado é igual a um valor absoluto de uma das amostras de sinal de áudio do espectro de sinal de áudio. 0 espectro modificado não é desvanecido para um espectro de ruído branco, se o frame atual de entre os um ou mais frames for recebido e se o frame atual que é recebido não estiver corrompido.
Para além disto, um programa de computador para implementar o método, quando executado num computado ou processador de sinal, é fornecido.
As formas de realização concretizam um espectro de MDCT de desvanecimento para ruido branco anterior à Aplicação de FDNS (FDNS = Substituição de Ruido de Domínio de Frequência).
De acordo com a técnica anterior, em codecs baseados em ACELP, o livro de código inovador é substituído por um vetor aleatório (por exemplo, com ruído). Nas formas de realização, a abordagem de ACELP, a qual consiste em substituir o livro de código inovador por um vetor aleatório (por exemplo, com ruído), é adotada para a estrutura de descodificador de TCX. No presente documento, o equivalente do livro de código inovador é o espectro de MDCT usualmente recebido no fluxo de bits e é alimentado para a FDNS. A abordagem clássica de ocultação de MDCT consistiria simplesmente em repetir esse espectro como tal ou aplicar um determinado processo de randomização que basicamente prolonga o formato espectral do último frame recebido [LS01] . Isso resulta na desvantagem de que o formato espectral de curto prazo é prolongado, resultando frequentemente num som metálico repetitivo que não é similar a ruído de fundo e, desse modo, não pode ser usado como ruído de conforto.
Com o uso do método proposto, a modelação espectral de curto prazo é realizada pela FDNS e pela TCX LTP, a modelação espectral a longo prazo é realizada pela FDNS apenas. A modelação pela FDNS é desvanecida do formato espectral de curto prazo para o formato espectral de longo prazo rastreado do ruído de fundo, e a TCX LTP é desvanecida para zero. 0 desvanecimento dos coeficientes de FDNS para coeficientes de ruido de fundo rastreados resulta numa transição suave entre o último envelope espectral bom e o envelope espectral de fundo que deve ser direcionado a longo prazo, a fim de alcançar um ruído de fundo agradável no caso de longas perdas de frame em raj ada.
Em contraste, de acordo com o estado da técnica, para codecs baseados em transformada, a ocultação similar a ruído é conduzida por repetição de frame ou substituição de ruído no domínio de frequência [LS01]. Na técnica anterior, a substituição de ruído é usualmente realizada por cruzamento de símbolos dos compartimentos espectrais. Se, na técnica anterior, o cruzamento de símbolos de TCX (domínio de frequência) é usado durante a ocultação, os últimos coeficientes de MDCT recebidos são reutilizados e cada símbolo é aleatoriamente determinado antes do espectro ser inversamente transformado para o domínio de tempo. A desvantagem desse procedimento da técnica anterior é que, para frames perdidos de modo consecutivo, o mesmo espectro é usado diversas vezes, apenas com diferentes escolhas aleatórias de símbolos e atenuação global. Observando-se o envelope espectral ao longo do tempo num grande intervalo de tempo, é possível observar que o envelope é aproximadamente constante durante a perda de frame consecutiva devido ao facto de que as energias de banda são mantidas constantes entre si num frame e são apenas globalmente atenuadas. No sistema de codificação usado, de acordo com a técnica anterior, os valores espectrais são processados com o uso de FDNS, a fim de recuperar o espectro original. Isso significa que, se for desejado desvanecer o espectro de MDCT para certo envelope espectral (com o uso de coeficientes de FDNS, por exemplo, descrevendo o ruido de fundo atual), o resultado não é apenas dependente dos coeficientes de FDNS, mas também é dependente do espectro descodifiçado anteriormente que foi submetido ao cruzamento de símbolos. As formas de realização mencionadas acima superam essas desvantagens da técnica anterior.
As formas de realização são baseadas na constatação de que é necessário desvanecer o espectro usado no cruzamento de símbolos para ruído branco, antes de alimentá-lo para o processamento de FDNS. De outro modo, o espectro emitido nunca será compatível com o envelope alvo usado para processamento de FDNS.
Nas formas de realização, a mesma velocidade de desvanecimento é usada para desvanecimento de ganho de LTP e para o desvanecimento de ruído branco.
Para além disto, um aparelho para descodificar um sinal de áudio codificado para obter um sinal de áudio reconstruído é fornecido. 0 aparelho compreende uma interface de receção para receber uma pluralidade de frames, um armazenamento temporário de atraso para armazenar amostras de sinal de áudio do sinal de áudio descodificado, um seletor de amostra para selecionar uma pluralidade de amostras de sinal de áudio selecionadas a partir das amostras de sinal de áudio que são armazenadas no armazenamento temporário de atraso, e um processador de amostra para processar as amostras de sinal de áudio selecionadas para obter amostras de sinal de áudio reconstruído do sinal de áudio reconstruído. 0 seletor de amostra é configurado para selecionar, se um frame atual for recebido pela interface de receção e se o frame atual que é recebido pela interface de receção não estiver corrompido, a pluralidade de amostras de sinal de áudio selecionadas a partir das amostras de sinal de áudio que são armazenadas no armazenamento temporário de atraso dependendo de informações de atraso de tom que são compreendidas no frame atual. Mais ainda, o seletor de amostra é configurado para selecionar, se o frame atual não for recebido pela interface de receção ou se o frame atual que é recebido pela interface de receção estiver corrompido, a pluralidade de amostras de sinal de áudio selecionadas a partir das amostras de sinal de áudio que são armazenadas no armazenamento temporário de atraso dependendo de informações de atraso de tom que são compostas por outro frame que é recebido anteriormente pela interface de receção.
De acordo com uma forma de realização, o processador de amostra pode estar, por exemplo, configurado para obter as amostras de sinal de áudio reconstruído, se o frame atual for recebido pela interface de receção e se o frame atual que é recebido pela interface de receção não estiver corrompido, reescalonando as amostras de sinal de áudio selecionadas dependendo das informações de ganho que são compreendidas no frame atual. Para além disto, o seletor de amostra pode estar, por exemplo, configurado para obter as amostras de sinal de áudio reconstruído, se o frame atual não for recebido pela interface de receção ou se o frame atual que é recebido pela interface de receção estiver corrompido, reescalonando as amostras de sinal de áudio selecionadas dependendo das informações de ganho que são compostas pelo dito outro frame que é recebido anteriormente pela interface de receção.
Em exemplos, o processador de amostra pode estar, por exemplo, configurado para obter as amostras de sinal de áudio reconstruído, se o frame atual for recebido pela interface de receção e se o frame atual que é recebido pela interface de receção não estiver corrompido, multiplicando-se as amostras de sinal de áudio selecionadas e um valor dependendo das informações de ganho que são compreendidas no frame atual. Para além disto, o seletor de amostra é configurado para obter as amostras de sinal de áudio reconstruído, se o frame atual não for recebido pela interface de receção ou se o frame atual que é recebido pela interface de receção estiver corrompido, multiplicando-se as amostras de sinal de áudio selecionadas e um valor dependendo das informações de ganho que são compostas pelo dito outro frame que é recebido anteriormente pela interface de receção.
Num exemplo, o processador de amostra pode estar, por exemplo, configurado para armazenar as amostras de sinal de áudio reconstruído no armazenamento temporário de atraso.
Num exemplo, o processador de amostra pode estar, por exemplo, configurado para armazenar as amostras de sinal de áudio reconstruído no armazenamento temporário de atraso antes de um frame adicional ser recebido pela interface de receção.
Num exemplo, o processador de amostra pode estar, por exemplo, configurado para armazenar as amostras de sinal de áudio reconstruído no armazenamento temporário de atraso depois de um frame adicional ser recebido pela interface de receção.
Num exemplo, o processador de amostra pode estar, por exemplo, configurado para reescalonar as amostras de sinal de áudio selecionadas dependendo das informações de ganho para obter amostras de sinal de áudio reescalonadas e combinando as amostras de sinal de áudio reescalonadas com amostras de sinal de áudio de entrada para obter as amostras de sinal de áudio processadas.
Num exemplo, o processador de amostra pode estar, por exemplo, configurado para armazenar as amostras de sinal de áudio processadas, indicando a combinação das amostras de sinal de áudio reescalonadas e as amostras de sinal de áudio de entrada, no armazenamento temporário de atraso, e para não armazenar as amostras de sinal de áudio reescalonadas no armazenamento temporário de atraso, se o frame atual for recebido pela interface de receção e se o frame atual que é recebido pela interface de receção não estiver corrompido. Para além disto, o processador de amostra é configurado para armazenar as amostras de sinal de áudio reescalonadas no armazenamento temporário de atraso e para não armazenar as amostras de sinal de áudio processadas no armazenamento temporário de atraso, se o frame atual não for recebido pela interface de receção ou se o frame atual que é recebido pela interface de receção estiver corrompido.
Num outro exemplo, o processador de amostra pode estar, por exemplo, configurado para armazenar as amostras de sinal de áudio processadas no armazenamento temporário de atraso, se o frame atual não for recebido pela interface de receção ou se o frame atual que é recebido pela interface de receção estiver corrompido.
Num exemplo, o seletor de amostra pode estar, por exemplo, configurado para obter as amostras de sinal de áudio reconstruído reescalonando as amostras de sinal de áudio selecionadas dependendo de um ganho modificado, em que o ganho modificado é definido de acordo com a fórmula: gain = gain_past * damping; em que gain é o ganho modificado, em que o seletor de amostra pode estar, por exemplo, configurado para definir gain_past para gain após gain e foi calculado, e em que damping é um valor real.
Num exemplo, o seletor de amostra pode estar, por exemplo, configurado para calcular o ganho modificado.
Num exemplo, damping pode ser, por exemplo, definido de acordo com: 0 á damping < 1.
Num exemplo, o ganho modificado gain pode ser, por exemplo, definido como zero, se pelo menos um número predefinido de frames não forem recebidos pela interface de receção desde que um último frame foi recebido pela interface de receção.
Para além disto, um método para descodificar um sinal de áudio codificado para obter um sinal de áudio reconstruído é fornecido. 0 método compreende:
Receber uma pluralidade de frames.
Armazenar amostras de sinal de áudio do sinal de áudio descodificado.
Selecionar uma pluralidade de amostras de sinal de áudio selecionadas a partir das amostras de sinal de áudio que são armazenadas no armazenamento temporário de atraso. E:
Processar as amostras de sinal de áudio selecionadas para obter amostras de sinal de áudio reconstruído do sinal de áudio reconstruído.
Se um frame atual for recebido e se o frame atual que é recebido não estiver corrompido, a etapa de selecionar a pluralidade de amostras de sinal de áudio selecionadas a partir das amostras de sinal de áudio que são armazenadas no armazenamento temporário de atraso é conduzida dependendo de informações de atraso de tom que são compreendidas no frame atual. Para além disto, se o frame atual não for recebido ou se o frame atual que é recebido estiver corrompido, a etapa de selecionar a pluralidade de amostras de sinal de áudio selecionadas a partir das amostras de sinal de áudio que são armazenadas no armazenamento temporário de atraso é conduzida dependendo de informações de atraso de tom que são compostas por outro frame que é recebido anteriormente pela interface de receção.
Para além disto, um programa de computador para implementar o método descrito acima, quando executado num computador ou processador de sinal, é fornecido.
As formas de realização empregam TCX LTP (TXC LTP = Excitação Codificada por Transformada Predição de Longo Prazo). Durante a operação normal, a memória de TCX LTP é atualizada com o sinal sintetizado que contém ruído e componentes tonais reconstruídos. Em vez de desabilitar a TCX LTP durante a ocultação, a sua operação normal pode ser continuada durante a ocultação com os parâmetros recebidos no último frame bom. Isso conserva o formato espectral do sinal, particularmente aqueles componentes tonais que são reproduzidos pelo filtro de LTP.
Para além disto, as formas de realização dissociam o laço de retroalimentação de TCX LTP. Uma continuação simples da operação normal de TCX LTP introduz um ruído adicional, já que, com cada etapa de atualização adicional, um ruído gerado de modo aleatório a partir da excitação de LTP é introduzido. Os componentes tonais tornam-se, deste modo, cada vez mais distorcidos ao longo do tempo devido ao ruído adicionado.
Para superar isto, somente o armazenamento temporário de TCX LTP atualizado pode ser retroalimentado (sem adicionar ruído), a fim de não poluir as informações tonais com ruído aleatório indesej ado.
Para além disto, de acordo com formas de realização, o ganho de TCX LTP é desvanecido para zero.
Estas formas de realização são baseadas na constatação de que continuar a TCX LTP auxilia a preservar as características do sinal a curto prazo, mas tem desvantagens a longo prazo: 0 sinal reproduzido durante a ocultação irá incluir a informação de voz /tonal que estava presente antes da perda. Especialmente para voz clara ou voz sobre ruído de fundo, é extremamente improvável que um tom ou harmónico decaia muito lentamente ao longo de um período de tempo muito grande. Dando continuidade à operação de TCX LTP durante a ocultação, particularmente se a atualização de memória de LTP for dissociada (somente componentes tonais são retroalimentados e não a parte submetida ao cruzamento de símbolos), as informações tonais/de voz permanecerão presentes no sinal ocultado por toda a perda, sendo atenuadas apenas pelo desvanecimento geral para o nível de ruído de conforto. Para além disto, é impossível alcançar o envelope de ruído de conforto durante as perdas de pacote em rajada, se a TCX LTP for aplicada durante a perda em rajada sem ser atenuada ao longo do tempo, devido ao facto de que o sinal irá então incorporar sempre as informações de voz da LTP.
Portanto, o ganho de TCX LTP é desvanecido em direção a zero, de tal modo que componentes tonais representados pela LTP sejam desvanecidos para zero, ao mesmo tempo em que o sinal é desvanecido para o nível de sinal de fundo e formato, e de tal modo que o desvanecimento alcance o envelope de fundo espectral desejado (ruído de conforto) sem incorporar componentes tonais indesej ados.
Nas formas de realização, a mesma velocidade de desvanecimento é usada para o desvanecimento de ganho de LTP e para o desvanecimento de ruído branco.
Em contraste, na técnica anterior, não há nenhum codec de transformada conhecido que use LTP durante a ocultação. Para a MPEG-4 LTP [ISO09], não existe nenhuma abordagem de ocultação na técnica anterior. Outro codec baseado em MDCT da técnica anterior que faz uso de uma LTP é a CELT, mas esse codec usa uma ocultação similar a ACELP para os primeiros cinco frames e, para todos os frames subsequentes, o ruído de fundo é gerado, o qual não faz uso da LTP. Uma desvantagem da técnica anterior por não usar a TCX LTP é que todos os componentes tonais são reproduzidos com o desaparecimento abrupto de LTP. Para além disto, em codecs baseados em ACELP da técnica anterior, a operação de LTP é prolongada durante a ocultação, e o ganho do livro de código adaptativo é desvanecido em direção a zero. Em relação à operação de laço de retroalimentação, a técnica anterior emprega duas abordagens: toda a excitação, por exemplo, a soma da excitação inovadora e da excitação adaptativa, é retroalimentada (AMR-WB); ou somente a excitação adaptativa atualizado, por exemplo, as partes tonais do sinal, é retroalimentada (G.718). As formas de realização mencionadas acima superam as desvantagens da técnica anterior. A seguir, as formas de realização da presente invenção são descritas com mais detalhes com referência às figuras, nas quais:
Fig. la ilustra um aparelho para descodificar um sinal de áudio de acordo com uma forma de realização,
Fig. lb ilustra um aparelho para descodificar um sinal de áudio de acordo com outra forma de realização,
Fig. lc ilustra um aparelho para descodificar um sinal de áudio de acordo com outra forma de realização, em que o aparelho compreende, ainda, uma primeira e uma segunda unidade de agregação,
Fig. Id ilustra um aparelho para descodificar um sinal de áudio de acordo com uma forma de realização adicional, em que o aparelho compreende, para além disto, uma unidade de predição de longo prazo que compreende um armazenamento temporário de atraso,
Fig. 2 ilustra a estrutura de descodificador de G.718,
Fig. 3 mostra uma situação em que o fator de desvanecimento de G.722 depende de informações de classe,
Fig. 4 mostra uma abordagem para predição de amplitude com o uso de regressão linear,
Fig. 5 ilustra o comportamento de perda em rajada da
Transformada Sobreposta de Energia Restrita (CELT),
Fig. 6 mostra um rastreio de nível de ruido de fundo de acordo com uma forma de realização do descodificador durante um modo de operação isento de erro,
Fig. 7 ilustra uma derivação de ganho de síntese de LPC e de-ênfase de acordo com uma forma de realização,
Fig. 8 mostra uma aplicação de nível de ruído de conforto durante a perda de pacote de acordo com uma forma de realização, Fig. 9 ilustra compensação de ganho de passa-alta avançada durante a ocultação de ACELP de acordo com uma forma de realização,
Fig. 10 mostra a dissociação do laço de retroalimentação de LTP durante a ocultação de acordo com uma forma de realização,
Fig. 11 ilustra um aparelho para descodificar um sinal de áudio codificado para obter um sinal de áudio reconstruído de acordo com uma forma de realização,
Fig. 12 mostra um aparelho para descodificar um sinal de áudio codificado para obter um sinal de áudio reconstruído de acordo com outra forma de realização, e
Fig. 13 ilustra um aparelho para descodificar um sinal de áudio codificado para obter um sinal de áudio reconstruído numa forma de realização adicional, e
Fig. 14 ilustra um aparelho para descodificar um sinal de áudio codificado para obter um sinal de áudio reconstruído de acordo com outra forma de realização.
Fig. la ilustra um aparelho para descodificar um sinal de áudio de acordo com uma forma de realização. 0 aparelho compreende uma interface de receção 110. A interface de receção é configurada para receber uma pluralidade de frames, em que a interface de receção 110 é configurada para receber um primeiro frame de entre a pluralidade de frames, sendo que o dito primeiro frame compreende uma primeira porção de sinal de áudio do sinal de áudio, em que a dita primeira porção de sinal de áudio é representada num primeiro domínio. Para além disto, a interface de receção 110 é configurada para receber um segundo frame de entre a pluralidade de frames, em que o dito segundo frame compreende uma segunda porção de sinal de áudio do sinal de áudio.
Para além disto, o aparelho compreende uma unidade de transformada 120 para transformar a segunda porção de sinal de áudio ou um valor ou sinal derivado da segunda porção de sinal de áudio de um segundo domínio para um domínio de rastreio para obter informações da segunda porção de sinal, em que o segundo dominio é diferente do primeiro dominio, sendo que o domínio de rastreio é diferente do segundo domínio, e em que o domínio de rastreio é igual ao ou diferente do primeiro domínio.
Para além disto, o aparelho compreende uma unidade de rastreio de nível de ruído 130, em que a unidade de rastreio de nível de ruído é configurada para receber informações da primeira porção de sinal que são representadas no domínio de rastreio, em que as informações da primeira porção de sinal dependem da primeira porção de sinal de áudio, em que a unidade de rastreio de nível de ruído é configurada para receber a segunda porção de sinal que é representada no domínio de rastreio, e em que a unidade de rastreio de nível de ruído é configurada para determinar informações de nível de ruído dependendo das informações da primeira porção de sinal que são representadas no domínio de rastreio e dependendo das informações da segunda porção de sinal que são representadas no domínio de rastreio.
Para além disto, o aparelho compreende uma unidade de reconstrução para reconstruir uma terceira porção de sinal de áudio do sinal de áudio dependendo das informações de nível de ruído, se um terceiro frame de entre a pluralidade de frames não for recebido pela interface de receção mas estiver corrompido. Quanto à primeira e/ou à segunda porção de sinal de áudio, por exemplo, a primeiro e/ou a segunda porção de sinal de áudio pode ser, por exemplo, alimentada numa ou mais unidades de processamento (não mostradas) para gerar um ou mais sinais de alto-falante para um ou mais alto-falantes, para que as informações de som recebidas compostas pelo primeiro e/ou a segunda porção de sinal de áudio possam ser reproduzidas.
Para além disto, no entanto, a primeira e a segunda porção de sinal de áudio também são usadas para ocultação, por exemplo, no caso em que frames subsequentes não chegam ao recetor ou no caso em que os frames subsequentes são erróneos.
Entre outros, a presente invenção é baseada na constatação de que o rastreio de nivel de ruido deveria ser conduzido num domínio comum, denominado no presente documento como "domínio de rastreio". 0 domínio de rastreio, pode ser, por exemplo, um domínio de excitação, por exemplo, o domínio em que o sinal é representado por LPCs (LPC = Coeficiente Preditivo Linear) ou por ISPs (ISP = Par Espectral de Imitância) , como descrito em AMR-WB e AMR-WB+ (consultar [3GPl2a], [3GPl2b], [3GP09a], [3GP09b], [3GP09c]). 0 rastreio do nível de ruído num único domínio tem, entre outras, a vantagem de que efeitos de aliasing (serrilhado) são evitados quando o sinal é comutado entre uma primeira representação num primeiro domínio e uma segunda representação num segundo domínio (por exemplo, quando a representação de sinal é comutada de ACELP para TCX ou vice- versa).
Quanto à unidade de transformada 120, o que é transformado é a própria segunda porção de sinal de áudio ou um sinal derivado da segunda porção de sinal de áudio (por exemplo, a segunda porção de sinal de áudio foi processada para obter o sinal derivado) , ou um valor derivado da segunda porção de sinal de áudio (por exemplo, a segunda porção de sinal de áudio foi processada para obter o valor derivado).
Quanto à primeira porção de sinal de áudio, nalgumas formas de realização, a primeira porção de sinal de áudio pode ser processada e/ou transformada para o domínio de rastreio.
Noutras formas de realização, no entanto, a primeira porção de sinal de áudio pode já estar representada no domínio de rastreio.
Em algumas formas de realização, as informações da primeira porção de sinal são idênticas à primeira porção de sinal de áudio. Noutras formas de realização, as informações da primeira porção de sinal são, por exemplo, um valor agregado dependendo da primeira porção de sinal de áudio.
Agora, em primeiro lugar, o desvanecimento para um nível de ruído de conforto é considerado com mais detalhes. A abordagem de desvanecimento descrita pode ser, por exemplo, implementada numa versão de baixo atraso de xHE-AAC [NMR+12] (xHE-AAC = AAC Estendida de Alta Eficiência) , a qual é capaz de realizar comutação de modo ininterrupto entre codificação de ACELP (voz) e de MDCT (música / ruído) numa base por frame.
Quanto ao rastreio de nível comum num domínio de rastreio, por exemplo, um domínio de excitação, como para aplicar um desvanecimento suave para um nível de ruído de conforto adequado durante a perda de pacote, tal nível de ruído de conforto precisa ser identificado durante o processo de descodificação normal. Pode presumir-se, por exemplo, que um nível de ruído similar ao ruído de fundo é mais confortável. Desse modo, o nível de ruído de fundo pode ser derivado e atualizado constantemente durante a descodificação normal. A presente invenção é baseada na constatação de que, quando se tem um codec de núcleo comutado (por exemplo, ACELP e TCX) , considerar um nivel de ruido de fundo comum independente do codificador de núcleo escolhido é particularmente adequado. A Fig. 6 mostra um rastreio de nivel de ruido de fundo de acordo com uma forma de realização preferencial no descodificador durante o modo de operação isento de erros, por exemplo, durante a descodificação normal. 0 próprio rastreio pode ser, por exemplo, realizado com o uso da abordagem de estatística mínima (consultar [MarOl]).
Esse nível de ruído de fundo rastreado pode ser, por exemplo, considerado como as informações de nível de ruído mencionadas acima.
Por exemplo, a estimativa de ruído de estatística mínima apresentada no documento "Rainer Martin, Noise power spectral density estimation based on optimal smoothing and minimum statistics, IEEE Transactions on Speech and Audio Processing 9 (2001), no. 5, 504 a 512" [MarOl] pode ser empregue para rastreio de nível de ruído de fundo.
De modo correspondente, em algumas formas de realização, a unidade de rastreio de nivel de ruido 130 é configurada para determinar informações de nível de ruído aplicando-se uma abordagem de estatística mínima, por exemplo, empregando-se a estimativa de ruído de estatística mínima de [MarOl]. Subsequentemente, algumas considerações e detalhes acerca desta abordagem de rastreio são descritos.
Quanto ao rastreio de nível, o plano de fundo é suposto ser similar a ruído. Deste modo, é preferível realizar o rastreio de nível no domínio de excitação para evitar o rastreio de componentes tonais de primeiro plano que são excluídos pela LPC. Por exemplo, o preenchimento de ruído de ACELP pode também empregar o nível de ruído de fundo no domínio de excitação. Com o rastreio no domínio de excitação, somente um único rastreio do nível de ruído de fundo pode atender a dois propósitos, o que diminui a complexidade computacional. Numa forma de realização preferencial, o rastreio é realizado no domínio de excitação de ACELP. A Fig. 7 ilustra uma derivação de ganho de síntese de LPC e de-ênfase de acordo com uma forma de realização.
Quanto à derivação de nível, a derivação de nível pode ser, por exemplo, conduzida em domínio de tempo ou em domínio de excitação, ou em qualquer outro domínio adequado. Se os domínios para a derivação de nível e para o rastreio de nível forem diferentes, uma compensação de ganho pode ser, por exemplo, necessária.
Na forma de realização preferencial, a derivação de nível para ACELP é realizada no domínio de excitação. Desse modo, nenhuma compensação de ganho é exigida.
Para TCX, uma compensação de ganho pode ser, por exemplo, necessária para ajustar o nível derivado para o domínio de excitação de ACELP.
Na forma de realização preferencial, a derivação de nível para TCX ocorre no domínio de tempo. Uma compensação de ganho ajustável foi encontrada para essa abordagem: 0 ganho introduzido por síntese de LPC e de-ênfase é derivado como mostrado na Fig. 7 e o nível derivado é dividido por esse ganho. De modo alternativo, a derivação de nível para TCX poderia ser realizada no domínio de excitação de TCX. No entanto, a compensação de ganho entre o domínio de excitação de TCX e o domínio de excitação de ACELP foi considerada demasiado complicada.
Deste modo, voltando à Fig. la, nalgumas formas de realização, a primeira porção de sinal de áudio é representada num domínio de tempo como o primeiro domínio. A unidade de transformada 120 é configurada para transformar a segunda porção de sinal de áudio ou o valor derivado da segunda porção de sinal de áudio de um domínio de excitação que é o segundo domínio para o domínio de tempo que é o domínio de rastreio. Em tais formas de realização, a unidade de rastreio de nível de ruído 130 é configurada para receber as informações da primeira porção de sinal que são representadas no domínio de tempo como o domínio de rastreio. Para além disto, a unidade de rastreio de nível de ruído 130 é configurada para receber uma segunda porção de sinal que é representada no domínio de tempo como o domínio de rastreio. Noutras formas de realização, a primeira porção de sinal de áudio é representada num domínio de excitação como o primeiro domínio. A unidade de transformada 120 é configurada para transformar a segunda porção de sinal de áudio ou o valor derivado da segunda porção de sinal de áudio de um domínio de tempo que é o segundo domínio para o domínio de excitação que é o domínio de rastreio. Em tais formas de realização, a unidade de rastreio de nível de ruído 130 é configurada para receber as informações da primeira porção de sinal que são representadas no domínio de excitação como o domínio de rastreio. Para além disto, a unidade de rastreio de nível de ruído 130 é configurada para receber uma segunda porção de sinal que é representada no domínio de excitação como o domínio de rastreio.
Numa forma de realização, a primeira porção de sinal de áudio pode ser, por exemplo, representada num domínio de excitação como o primeiro domínio, em que a unidade de rastreio de nível de ruído 130 pode ser, por exemplo, configurada para receber as informações da primeira porção de sinal, em que as ditas informações da primeira porção de sinal são representadas no domínio de FFT que é o domínio de rastreio, e em que as ditas informações da primeira porção de sinal dependem da dita primeira porção de sinal de áudio que é representada no domínio de excitação, em que a unidade de transformada 120 pode ser, por exemplo, configurada para transformar a segunda porção de sinal de áudio ou o valor derivado da segunda porção de sinal de áudio de um domínio de tempo que é o segundo domínio para um domínio de FFT que é o domínio de rastreio, e em que a unidade de rastreio de nível de ruído 130 pode ser, por exemplo, configurada para receber a segunda porção de sinal de áudio que é representada no domínio de FFT. A Fig. lb ilustra um aparelho de acordo com outra forma de realização. Na Fig. lb, a unidade de transformada 120 da Fig. la é uma primeira unidade de transformada 120, e a unidade de reconstrução 140 da Fig. la é uma primeira unidade de reconstrução 140. 0 aparelho compreende, ainda, uma segunda unidade de transformada 121 e uma segunda unidade de reconstrução 141. A segunda unidade de transformada 121 é configurada para transformar as informações de nível de ruído do domínio de rastreio para o segundo domínio, se um quarto frame de entre a pluralidade de frames não for recebido pela interface de receção ou se o dito quarto frame for recebido pela interface de receção mas estiver corrompido.
Para além disto, a segunda unidade de reconstrução 141 é configurada para reconstruir uma quarta porção de sinal de áudio do sinal de áudio dependendo das informações de nível de ruído que são representadas no segundo domínio se o dito quarto frame de entre a pluralidade de frames não for recebido pela interface de receção ou se o dito quarto frame for recebido pela interface de receção mas estiver corrompido. A Fig. lc ilustra um aparelho para descodificar um sinal de áudio de acordo com outra forma de realização. O aparelho compreende, ainda, uma primeira unidade de agregação 150 para determinar um primeiro valor agregado dependendo da primeira porção de sinal de áudio. Para além disto, o aparelho da Fig. lc compreende, ainda, uma segunda unidade de agregação 160 para determinar um segundo valor agregado como o valor derivado da segunda porção de sinal de áudio dependendo da segunda porção de sinal de áudio. Na forma de realização da Fig. lc, a unidade de rastreio de nível de ruído 130 é configurada para receber o primeiro valor agregado como as informações da primeira porção de sinal que são representadas no domínio de rastreio, em que a unidade de rastreio de nível de ruído 130 é configurada para receber o segundo valor agregado como as informações da segunda porção de sinal que são representadas no domínio de rastreio. A unidade de rastreio de nível de ruído 130 é configurada para determinar informações de nível de ruído dependendo do primeiro valor agregado que é representado no domínio de rastreio e dependendo do segundo valor agregado que é representado no domínio de rastreio.
Numa forma de realização, a primeira unidade de agregação 150 é configurada para determinar o primeiro valor agregado de tal modo que o primeiro valor agregado indique uma média quadrática da primeira porção de sinal de áudio ou de um sinal derivado da primeira porção de sinal de áudio. Para além disto, a segunda unidade de agregação 160 é configurada para determinar o segundo valor agregado de tal modo que o segundo valor agregado indique uma média quadrática da segunda porção de sinal de áudio ou de um sinal derivado da segunda porção de sinal de áudio. A Fig. 6 ilustra um aparelho para descodificar um sinal de áudio de acordo com uma forma de realização adicional.
Na Fig. 6, a unidade de rastreio de nível de fundo 630 implementa uma unidade de rastreio de nível de ruído 130 de acordo com a Fig. la.
Para além disto, na Fig. 6, a unidade de RMS 650 (RMS = média quadrática) é uma primeira unidade de agregação e a unidade de RMS 660 é uma segunda unidade de agregação.
De acordo com algumas formas de realização, a (primeira) unidade de transformada 120 da Fig. la, da Fig. lb e da Fig. lc é configurada para transformar o valor derivado da segunda porção de sinal de áudio do segundo domínio para o domínio de rastreio aplicando-se um valor de ganho (x) no valor derivado da segunda porção de sinal de áudio, por exemplo, dividindo-se o valor derivado da segunda porção de sinal de áudio por um valor de ganho (x) . Noutras formas de realização, um valor de ganho pode ser, por exemplo, multiplicado.
Em algumas formas de realização, o valor de ganho (x) pode indicar, por exemplo, um ganho introduzido por síntese de codificação preditiva linear, ou o valor de ganho (x) pode indicar, por exemplo, um ganho introduzido por síntese de codificação preditiva linear e de-ênfase.
Na Fig. 6, a unidade 622 fornece o valor (x) que indica o ganho introduzido por síntese de codificação preditiva linear e de-ênfase. A unidade 622 divide, então, o valor fornecido pela segunda unidade de agregação 660, o qual é um valor derivado da segunda porção de sinal de áudio, pelo valor de ganho (x) fornecido (por exemplo, dividindo-se por x ou multiplicando-se o valor 1/x) . Desse modo, a unidade 620 da Fig. 6 que compreende as unidades 621 e 622 implementa a primeira unidade de transformada da Fig. la, Fig. lb ou Fig. lc. O aparelho da Fig. 6 recebe um primeiro frame com uma primeira porção de sinal de áudio que é uma excitação do tipo vocal e/ou uma excitação do tipo não vocal e que é representado no domínio de rastreio, na Fig. 6, um domínio de LPC (ACELP) . A primeira porção de sinal de áudio é alimentada numa unidade de Síntese de LPC e De-ênfase 671 para processamento para obter uma saída da primeira porção de sinal de áudio de tempo-domínio. Para além disto, a primeira porção de sinal de áudio é alimentada em módulo de RMS 650 para obter um primeiro valor que indica uma média quadrática da primeira porção de sinal de áudio. Esse primeiro valor (primeiro valor de RMS) é representado no domínio de rastreio. O primeiro valor de RMS, que é representado no domínio de rastreio, é, então, alimentado para a unidade de rastreio de nível de ruído 630.
Para além disto, o aparelho da Fig. 6 recebe um segundo frame com uma segunda porção de sinal de áudio que compreende um espectro de MDCT e que é representado num domínio de MDCT. O preenchimento de ruído é conduzido por um módulo de preenchimento de ruído 681, a modelação de ruído de frequência-domínio é conduzida por um módulo de modelação de ruído de frequência-domínio 682, a transformação para o domínio de tempo é conduzida por um módulo de iMDCT/OLA 683 (OLA = sobreposição-adição) e a predição de longo prazo é conduzida por uma unidade de predição de longo prazo 684. A unidade de predição de longo prazo pode compreender, por exemplo, um armazenamento temporário de atraso (não mostrado na Fig. 6). O sinal derivado da segunda porção de sinal de áudio é, então, alimentado para o módulo de RMS 660 para obter um segundo valor que indica que uma média quadrática daquele sinal derivado da segunda porção de sinal de áudio foi obtida. Esse segundo valor (segundo valor de RMS) é ainda representado no domínio de tempo. A unidade 620 transforma, então, o segundo valor de RMS do domínio de tempo para o domínio de rastreio, no presente documento, o domínio de LPC (ACELP) . O segundo valor de RMS que é representado no domínio de rastreio é, então, alimentado na unidade de rastreio de nível de ruído 630.
Nas formas de realização, o rastreio de nível é conduzido no domínio de excitação, mas o desvanecimento de TCX é conduzido no domínio de tempo.
Enquanto, durante a descodificação normal, o nível de ruído de fundo é rastreado, este pode ser, por exemplo, usado durante a perda de pacote como um indicador de um nível de ruído de conforto adequado, para o qual o último sinal recebido é suavemente desvanecido em termos de nível. A derivação do nível para rastreio e a aplicação do desvanecimento de nível são, em geral, independentes uma da outra e poderiam ser realizadas em diferentes domínios. Na forma de realização preferencial, a aplicação de nível é realizada nos mesmos domínios que a derivação de nível, resultando nos mesmos benefícios que para a ACELP, nenhuma compensação de ganho é necessária, e que para TCX, a compensação de ganho inversa como para a derivação de nível (consultar a Fig. 6) é necessária e, desse modo, a mesma derivação de ganho pode ser usada, como ilustrado pela Fig. 7. A seguir, a compensação de uma influência do filtro passa-alta na síntese de LPC ganho, de acordo com formas de realização, é descrita. A Fig. 8 mostra essa abordagem. Em particular, a Fig. 8 ilustra a aplicação de nível de ruído de conforto durante a perda de pacote.
Na Fig. 8, a unidade de filtro passa-alta de ganho 643, a unidade de multiplicação 644, a unidade de desvanecimento 645, a unidade de filtro passa-alta 646, a unidade de desvanecimento 647 e a unidade de combinação 648 juntas formam uma primeira unidade de reconstrução.
Para além disto, na Fig. 8, a unidade de provisão de nível de fundo 631 fornece as informações de nível de ruído. Por exemplo, a unidade de provisão de nível de fundo 631 pode ser igualmente implementada como a unidade de rastreio de nível de fundo 630 da Fig. 6.
Para além disto, na Fig. 8, a Unidade de Ganho de Síntese de LPC &amp; De-ênfase 649 e a unidade de multiplicação 641 juntas formam uma segunda unidade de transformada 640.
Para além disto, na Fig. 8, a unidade de desvanecimento 642 representa uma segunda unidade de reconstrução.
Na forma de realização da Fig. 8, a excitação do tipo vocal e a excitação do tipo não vocal são desvanecidas separadamente: A excitação do tipo vocal é desvanecida para zero, mas a excitação do tipo não vocal é desvanecida em direção ao nível de ruído de conforto. A Fig. 8, para além disto, mostra um filtro passa-alta gue é introduzido na cadeia de sinal da excitação do tipo não vocal para suprimir componentes de baixa freguência para todos os casos, exceto quando o sinal foi classificado como não vocal. Para modelar a influência do filtro passa-alta, o nível após a síntese de LPC e de-ênfase é computado uma vez com e uma vez sem o filtro passa-alta. Subsequentemente, a razão desses dois níveis é derivada e usada para alterar o nível de fundo aplicado.
Isso é ilustrado pela Fig. 9. Em particular, a Fig. 9 mostra a compensação de ganho de passa-alta avançada durante a ocultação de ACELP de acordo com uma forma de realização.
Em vez do sinal de excitação atual, apenas um simples impulso é usado como entrada para essa computação. Isso permite uma complexidade reduzida, já que a resposta do impulso decai rapidamente e, portanto, a derivação de RMS pode ser realizada num intervalo de tempo mais curto. Na prática, somente um sub-frame é usado em vez de todo o frame.
De acordo com uma forma de realização, a unidade de rastreio de nível de ruído 130 é configurada para determinar um nível de
ruído de conforto como as informações de nível de ruído. A unidade de reconstrução 140 é configurada para reconstruir a terceira porção de sinal de áudio dependendo das informações de nível de ruído, se o dito terceiro frame de entre a pluralidade de frames não for recebido pela interface de receção 110 ou se o dito terceiro frame for recebido pela interface de receção 110 mas estiver corrompido.
Numa forma de realização, a unidade de rastreio de nível de ruído 130 é configurada para determinar um nível de ruído de conforto como as informações de nível de ruído. A unidade de reconstrução 140 é configurada para reconstruir a terceira porção de sinal de áudio dependendo das informações de nível de ruído, se o dito terceiro frame de entre a pluralidade de frames não for recebido pela interface de receção 110 ou se o dito terceiro frame for recebido pela interface de receção 110 mas estiver corrompido.
Numa forma de realização, a (primeira e/ou segunda) unidade de reconstrução 140, 141 pode ser, por exemplo, configurada para reconstruir a terceira porção de sinal de áudio dependendo das informações de nivel de ruído e dependendo da primeira porção de sinal de áudio, se o dito terceiro (quarto) frame de entre a pluralidade de frames não for recebido pela interface de receção 110 ou se o dito terceiro (quarto) frame for recebido pela interface de receção 110 mas estiver corrompido.
De acordo com uma forma de realização, a (primeira e/ou segunda) unidade de reconstrução 140, 141 pode ser, por exemplo, configurada para reconstruir a terceira (ou quarta) porção de sinal de áudio pela atenuação ou amplificação de a primeira porção de sinal de áudio. A Fig. 14 ilustra um aparelho para descodificar um sinal de áudio. 0 aparelho compreende uma interface de receção 110, em que a interface de receção 110 é configurada para receber um primeiro frame que compreende uma primeira porção de sinal de áudio do sinal de áudio, e em que a interface de receção 110 é configurada para receber um segundo frame que compreende uma segunda porção de sinal de áudio do sinal de áudio.
Para além disto, o aparelho compreende uma unidade de rastreio de nível de ruído 130, em que a unidade de rastreio de nível de ruído 130 é configurada para determinar informações de nível de ruído dependendo de pelo menos uma de entre a primeira porção de sinal de áudio e a segunda porção de sinal de áudio (isso significa: dependendo da primeira porção de sinal de áudio e/ou da segunda porção de sinal de áudio) , em que as informações de nível de ruído são representadas num domínio de rastreio.
Para além disto, o aparelho compreende uma primeira unidade de reconstrução 140 para reconstruir, num primeiro domínio de reconstrução, uma terceira porção de sinal de áudio do sinal de áudio dependendo das informações de nível de ruído, se um terceiro frame de entre a pluralidade de frames não for recebido pela interface de receção 110 ou se o dito terceiro frame for recebido pela interface de receção 110 mas estiver corrompido, em que o primeiro domínio de reconstrução é diferente de ou igual ao domínio de rastreio.
Para além disto, o aparelho compreende uma unidade de transformada 121 para transformar as informações de nível de ruído do domínio de rastreio para um segundo domínio de reconstrução, se um quarto frame de entre a pluralidade de frames não for recebido pela interface de receção 110 ou se o dito quarto frame for recebido pela interface de receção 110 mas estiver corrompido, em que o segundo domínio de reconstrução é diferente do domínio de rastreio, e em que o segundo domínio de reconstrução é diferente do primeiro domínio de reconstrução.
Para além disto, o aparelho compreende uma segunda unidade de reconstrução 141 para reconstruir, no segundo domínio de reconstrução, uma quarta porção de sinal de áudio do sinal de áudio dependendo das informações de nível de ruído que são representadas no segundo domínio de reconstrução, se o dito quarto frame de entre a pluralidade de frames não for recebido pela interface de receção 110 ou se o dito quarto frame for recebido pela interface de receção 110 mas estiver corrompido.
De acordo com algumas formas de realização, o domínio de rastreio pode ser, por exemplo, aquele em que o domínio de rastreio é um domínio de tempo, um domínio espectral, um domínio de FFT, um domínio de MDCT ou um domínio de excitação. O primeiro domínio de reconstrução pode ser, por exemplo, o domínio de tempo, o domínio espectral, o domínio de FFT, o domínio de MDCT ou o domínio de excitação. O segundo domínio de reconstrução pode ser, por exemplo, o domínio de tempo, o domínio espectral, o domínio de FFT, o domínio de MDCT ou o domínio de excitação.
Numa forma de realização, o domínio de rastreio pode ser, por exemplo, o domínio de FFT, o primeiro domínio de reconstrução pode ser, por exemplo, o domínio de tempo, e o segundo domínio de reconstrução pode ser, por exemplo, o domínio de excitação. Numa outra forma de realização, o domínio de rastreio pode ser, por exemplo, o domínio de tempo, o primeiro domínio de reconstrução pode ser, por exemplo, o domínio de tempo, e o segundo domínio de reconstrução pode ser, por exemplo, o domínio de excitação.
De acordo com uma forma de realização, a dita primeira porção de sinal de áudio pode ser, por exemplo, representada num primeiro domínio de entrada, e a dita segunda porção de sinal de áudio pode ser, por exemplo, representada num segundo domínio de entrada. A unidade de transformada pode ser, por exemplo, uma segunda unidade de transformada. 0 aparelho pode compreender, ainda, por exemplo, uma primeira unidade de transformada para transformar a segunda porção de sinal de áudio ou um valor ou sinal derivado da segunda porção de sinal de áudio do segundo domínio de entrada para o domínio de rastreio para obter informações da segunda porção de sinal. A unidade de rastreio de nível de ruído pode ser, por exemplo, configurada para receber informações da primeira porção de sinal que são representadas no domínio de rastreio, em que as informações da primeira porção de sinal dependem da primeira porção de sinal de áudio, em que a unidade de rastreio de nível de ruído é configurada para receber a segunda porção de sinal que é representada no domínio de rastreio, e em que a unidade de rastreio de nível de ruído é configurada para determinar as informações de nível de ruído dependendo das informações da primeira porção de sinal que são representadas no domínio de rastreio e dependendo das informações da segunda porção de sinal que são representadas no domínio de rastreio.
De acordo com uma forma de realização, o primeiro domínio de entrada pode ser, por exemplo, o domínio de excitação, e o segundo domínio de entrada pode ser, por exemplo, o domínio de MDCT.
Numa outra forma de realização, o primeiro domínio de entrada pode ser, por exemplo, o domínio de MDCT, e em que o segundo domínio de entrada pode ser, por exemplo, o domínio de MDCT.
Se, por exemplo, um sinal for representado num domínio de tempo, esse pode ser, por exemplo, representado por amostras de domínio de tempo do sinal. Ou, por exemplo, se um sinal for representado num domínio espectral, esse pode ser, por exemplo, representado por amostras espectrais de um espectro do sinal.
Numa forma de realização, o domínio de rastreio pode ser, por exemplo, o domínio de FFT, o primeiro domínio de reconstrução pode ser, por exemplo, o domínio de tempo, e o segundo domínio de reconstrução pode ser, por exemplo, o domínio de excitação. Numa outra forma de realização, o domínio de rastreio pode ser, por exemplo, o domínio de tempo, o primeiro domínio de reconstrução pode ser, por exemplo, o domínio de tempo, e o segundo domínio de reconstrução pode ser, por exemplo, o domínio de excitação.
Em algumas formas de realização, as unidades ilustradas na Fig. 14, podem ser, por exemplo, configuradas como descrito para as Fig. la, lb, lc e ld.
Quanto a formas de realização particulares, em, por exemplo, um modo de taxa baixa, um aparelho, de acordo com uma forma de realização pode receber, por exemplo, frames de ACELP como uma entrada, os quais são representados num domínio de excitação e são, então, transformados num domínio de tempo por meio de síntese de LPC. Para além disto, no modo de taxa baixa, o aparelho, de acordo com uma forma de realização, pode receber, por exemplo, frames de TCX como uma entrada, os quais são representados num domínio de MDCT e são, então, transformados num domínio de tempo por meio de MDCT inversa. 0 rastreio é, então, conduzido num Domínio de FFT, em que o sinal de FFT é derivado do sinal de domínio de tempo conduzindo- se uma FFT (Transformada Rápida de Fourier) . 0 rastreio pode ser, por exemplo, conduzido com uma abordagem de estatística minima, separada para todas as linhas espectrais para obter um espectro de ruido de conforto. A ocultação é, então, conduzida com a derivação de nivel baseada no espectro de ruido de conforto. A derivação de nivel é conduzida com base no espectro de ruido de conforto. A conversão de nivel no domínio de tempo é conduzida para FD TCX PLC. Um desvanecimento no domínio de tempo é conduzido. Uma derivação de nível no domínio de excitação é conduzida para ACELP PLC e para TD TCX PLC (similar à ACELP) . Um desvanecimento no domínio de excitação é, então, conduzido. A lista a seguir resume isso: taxa baixa: • entrada: ACELP (domínio de excitação -> domínio de tempo, por meio de síntese de LPC) TCX (domínio de MDCT -> domínio de tempo, por meio de MDCT inversa) • rastreio:
domínio de FFT, derivado do domínio de tempo por meio de FFT estatística mínima, separada para todas as linhas espectrais -> espectro de ruído de conforto • ocultação: derivação de nível com base no espectro de ruído de conforto
conversão de nível em domínio de tempo para FD TCX PLC
-> desvanecimento no domínio de tempo conversão de nível em domínio de excitação para ACELP PLC TD TCX PLC (similar à ACELP) -> desvanecimento no domínio de excitação Por exemplo, um modo de taxa alta pode receber, por exemplo, frames de TCX como uma entrada, os quais são representados no domínio de MDCT e são, então, transformados para o domínio de tempo por meio de uma MDCT inversa. 0 rastreio pode ser, então, conduzido no domínio de tempo. 0 rastreio pode ser, por exemplo, conduzida com uma abordagem de estatística mínima com base no nível de energia para obter um nível de ruído de conforto.
Para a ocultação, para FD TCX PLC, o nível pode ser usado como tal e apenas um desvanecimento no domínio de tempo pode ser conduzido. Para TD TCX PLC (similar à ACELP), a conversão de nível no domínio de excitação e o desvanecimento no domínio de excitação são conduzidos. A lista a seguir resume isso: taxa alta: • entrada: TCX (domínio de MDCT -> domínio de tempo, por meio de MDCT inversa) • rastreio: tempo-domínio estatística mínima na nível de energia -> nível de ruído de conforto • ocultação: uso de nível "como tal"
FD TCX PLC -> desvanecimento no domínio de tempo conversão de nível no domínio de excitação para TD TCX PLC (similar à ACELP) -> desvanecimento no domínio de excitação 0 domínio de FFT e o domínio de MDCT são ambos os domínios espectrais, enquanto o domínio de excitação é um tipo de domínio de tempo.
De acordo com uma forma de realização, a primeira unidade de reconstrução 140 pode ser, por exemplo, configurada para reconstruir a terceira porção de sinal de áudio conduzindo-se um primeiro desvanecimento para um espectro similar a ruído. A segunda unidade de reconstrução 141 pode ser, por exemplo, configurada para reconstruir a quarta porção de sinal de áudio conduzindo-se um segundo desvanecimento para um espectro similar a ruído e/ou um segundo desvanecimento de um ganho de LTP. Para além disto, a primeira unidade de reconstrução 140 e a segunda unidade de reconstrução 141 podem ser, por exemplo, configuradas para conduzir o primeiro desvanecimento e o segundo desvanecimento para um espectro similar a ruído e/ou um segundo desvanecimento de um ganho de LTP com a mesma velocidade de desvanecimento.
Agora, a modelação espectral adaptativa de ruído de conforto é considerada .
Para alcançar a modelação adaptativa para ruído de conforto durante a perda de pacote em rajadas, como uma primeira etapa, a busca por coeficientes de LPC adequados que representam o ruído de fundo pode ser conduzida. Esses coeficientes de LPC podem ser derivados durante a voz ativa com o uso de uma abordagem de estatística mínima para encontrar o espectro de ruído de fundo e, então, calculando-se coeficientes de LPC deste com o uso de um algoritmo arbitrário para derivação de LPC conhecida na literatura. Algumas formas de realização, por exemplo, podem converter diretamente o espectro de ruído de fundo numa representação que pode ser usada diretamente para FDNS no domínio de MDCT. 0 desvanecimento para ruído de conforto pode ser realizado no domínio de ISF (também aplicável em domínio de LSF; frequência espectral de Linha de LSF): (26) definindo ptmean para coeficientes de LP adequados que descrevem o ruído de conforto.
Quanto à modelação espectral adaptativa do ruído de conforto descrita acima, uma forma de realização mais geral é ilustrada na Fig. 11. A Fig. 11 ilustra um aparelho para descodificar um sinal de áudio codificado para obter um sinal de áudio reconstruído de acordo com uma forma de realização. 0 aparelho compreende uma interface de receção 1110 para receber um ou mais frames, um gerador de coeficiente 1120 e um reconstrutor de sinal 1130. 0 gerador de coeficiente 1120 é configurado para determinar, se um frame atual dos um ou mais frames for recebido pela interface de receção 1110 e se o frame atual que é recebido pela interface de receção 1110 não estiver corrompido/errôneo, um ou mais coeficientes de primeiro sinal de áudio que são compostos pelo frame atual, em que os ditos um ou mais coeficientes de primeiro sinal de áudio indicam uma caracteristica do sinal de áudio codificado, e um ou mais coeficientes de ruído que indicam um ruído de fundo do sinal de áudio codificado. Para além disto, o gerador de coeficiente 1120 é configurado para gerar um ou mais coeficientes de segundo sinal de áudio, dependendo dos um ou mais coeficientes de primeiro sinal de áudio e dependendo dos um ou mais coeficientes de ruído, se o frame atual não for recebido pela interface de receção 1110 ou se o frame atual que é recebido pela interface de receção 1110 estiver corrompido/erróneo. O reconstrutor de sinal de áudio 1130 é configurado para reconstruir uma primeira porção do sinal de áudio reconstruído dependendo dos um ou mais coeficientes de primeiro sinal de áudio, se o frame atual for recebido pela interface de receção 1110 e se o frame atual que é recebido pela interface de receção 1110 não estiver corrompido. Para além disto, o reconstrutor de sinal de áudio 1130 é configurado para reconstruir uma segunda porção do sinal de áudio reconstruído dependendo dos um ou mais coeficientes de segundo sinal de áudio, se o frame atual não for recebido pela interface de receção 1110 ou se o frame atual que é recebido pela interface de receção 1110 estiver corrompido. A determinação de um ruido de fundo é bem conhecida na técnica (consultar, por exemplo, [MarOl]: Rainer Martin, Noise power spectral density estimation based on optimal smoothing and minimum statistics, IEEE Transactions on Speech and Audio Processing 9 (2001), no. 5, 504 a 512) e, numa forma de realização, o aparelho procede em conformidade.
Em algumas formas de realização, os um ou mais coeficientes de primeiro sinal de áudio podem ser, por exemplo, um ou mais coeficientes de filtro preditivo linear do sinal de áudio codificado. Nalgumas formas de realização, os um ou mais coeficientes de primeiro sinal de áudio podem ser, por exemplo, um ou mais coeficientes de filtro preditivo linear do sinal de áudio codificado. É bem conhecido na técnica como reconstruir um sinal de áudio, por exemplo, um sinal de voz, a partir de coeficientes de filtro preditivo linear ou de pares espectrais de imitância (consultar, por exemplo, [3GP09c]: Speech codec speech processing functions; adaptive multi-rate - wideband (AMRWB) speech codec; transcoding functions, 3GPP TS 26.190, Projeto de Parceria de Terceira Geração, 2009) e, numa forma de realização, o reconstrutor de sinal procede em conformidade.
De acordo com uma forma de realização, os um ou mais coeficientes de ruido podem ser, por exemplo, um ou mais coeficientes de filtro preditivo linear que indicam o ruido de fundo do sinal de áudio codificado. Numa forma de realização, os um ou mais coeficientes de filtro preditivo linear podem representar, por exemplo, um formato espectral do ruido de fundo.
Numa forma de realização, o gerador de coeficiente 1120 pode estar, por exemplo, configurado para determinar as uma ou mais segundas porções de sinal de áudio de tal modo gue as uma ou mais segundas porções de sinal de áudio sejam um ou mais coeficientes de filtro preditivo linear do sinal de áudio reconstruído, ou de tal modo gue os um ou mais coeficientes de primeiro sinal de áudio sejam um ou mais pares espectrais de imitância do sinal de áudio reconstruído.
De acordo com uma forma de realização, o gerador de coeficiente 1120 pode estar, por exemplo, configurado para gerar os um ou mais coeficientes de segundo sinal de áudio pela aplicação da fórmula: em que f currently] indica um dos um ou mais coeficientes de segundo sinal de áudio, em que flast[i] indica um dos um ou mais coeficientes de primeiro sinal de áudio, em que ptmeanlí] é um dos um ou mais coeficientes de ruído, em que α é um número real com 0 < a f 1, e em que i é um índice.
De acordo com uma forma de realização, fiastíi] indica um coeficiente de filtro preditivo linear do sinal de áudio codificado, e em que fcurrent [i] indica um coeficiente de filtro preditivo linear do sinal de áudio reconstruído.
Numa forma de realização, ptmean[i] pode ser, por exemplo, um coeficiente de filtro preditivo linear que indica o ruido de fundo do sinal de áudio codificado.
De acordo com uma forma de realização, o gerador de coeficiente 1120 pode estar, por exemplo, configurado para gerar pelo menos 10 coeficientes de segundo sinal de áudio como os um ou mais coeficientes de segundo sinal de áudio.
Numa forma de realização, o gerador de coeficiente 1120 pode estar, por exemplo, configurado para determinar, se o frame atual dos um ou mais frames for recebido pela interface de receção 1110 e se o frame atual que é recebido pela interface de receção 1110 não estiver corrompido, os um ou mais coeficientes de ruido determinando-se um ruido espectro do sinal de áudio codificado. A seguir, o desvanecimento do espectro de MDCT para Ruido Branco antes da aplicação de FDNS é considerado.
Em vez de modificar de modo aleatório o símbolo de um compartimento de MDCT (cruzamento de símbolos), o espectro completo é preenchido por ruído branco, o qual é modelado com o uso da FDNS. Para evitar uma alteração instantânea nas características de espectro, um desvanecimento cruzado entre o cruzamento de símbolos e o preenchimento de ruído é aplicado. O desvanecimento cruzado pode ser realizado como a seguir: for(i=0; i<L_frame; i++) { if (old_x[i] != 0) { a. x[i] = (1 - cum_damping)*noise[i] + cum_damping * random_sign() * x_old[i]; } } em que: cum_damping é o fator de atenuação (absoluto) - diminui de frame para frame, tendo início em 1 e diminuindo em direção a 0 x_old é o espectro do último frame recebido random_sign retorna como 1 ou -1 noise contém um vetor aleatório (ruído branco) que é escalonado de tal modo que sua média quadrática (RMS) seja similar ao último espectro bom. 0 termo random_sign()*old_x[i] caracteriza o processo de cruzamento de símbolos para escolher aleatoriamente as fases e, desse modo, evitar repetições harmónicas.
Subsequentemente, outra normalização do nivel de energia pode ser realizada após o desvanecimento cruzado para garantir que a energia de soma não se desvie devido à correlação dos dois vetores.
De acordo com formas de realização, a primeira unidade de reconstrução 140 pode ser, por exemplo, configurada para reconstruir a terceira porção de sinal de áudio dependendo das informações de nível de ruído e dependendo da primeira porção de sinal de áudio. Numa forma de realização particular, a primeira unidade de reconstrução 140 pode ser, por exemplo, configurada para reconstruir a terceira porção de sinal de áudio pela atenuação ou amplificação de a primeira porção de sinal de áudio.
Em algumas formas de realização, a segunda unidade de reconstrução 141 pode ser, por exemplo, configurada para reconstruir a quarta porção de sinal de áudio dependendo das informações de nivel de ruido e dependendo da segunda porção de sinal de áudio. Numa forma de realização particular, a segunda unidade de reconstrução 141 pode ser, por exemplo, configurada para reconstruir a quarta porção de sinal de áudio pela atenuação ou amplificação de a segunda porção de sinal de áudio. Quanto ao desvanecimento descrito acima do espectro de MDCT para ruido branco antes da aplicação de FDNS, uma forma de realização mais geral é ilustrada na Fig. 12. A Fig. 12 ilustra um aparelho para descodificar um sinal de áudio codificado para obter um sinal de áudio reconstruído de acordo com uma forma de realização. 0 aparelho compreende uma interface de receção 1210 para receber um ou mais frames que compreendem informações sobre uma pluralidade de amostras de sinal de áudio de um espectro de sinal de áudio do sinal de áudio codificado, e um processador 1220 para gerar o sinal de áudio reconstruído. O processador 1220 é configurado para gerar o sinal de áudio reconstruído por desvanecimento de um espectro modificado para um espectro-alvo, se um frame atual não for recebido pela interface de receção 1210 ou se o frame atual for recebido pela interface de receção 1210 mas estiver corrompido, em que o espectro modificado compreende uma pluralidade de amostras de sinal modificado, em que, para cada uma das amostras de sinal modificado do espectro modificado, um valor absoluto das ditas amostras de sinal modificado é igual a um valor absoluto de uma das amostras de sinal de áudio do espectro de sinal de áudio.
Para além disto, o processador 1220 é configurado para não desvanecer o espectro modificado para o espectro-alvo, se o frame atual dos um ou mais frames for recebido pela interface de receção 1210 e se o frame atual que é recebido pela interface de receção 1210 não estiver corrompido.
De acordo com uma forma de realização, o espectro-alvo é um espectro similar a ruido.
Numa forma de realização, o espectro similar a ruido representa ruido branco.
De acordo com uma forma de realização, o espectro similar a ruido é modelado.
Numa forma de realização, o formato do espectro similar a ruido depende de um espectro de sinal de áudio de um sinal recebido anteriormente.
De acordo com uma forma de realização, o espectro similar a ruido é modelado dependendo do formato do espectro de sinal de áudio.
Numa forma de realização, o processador 1220 emprega um fator de inclinação para modelar o espectro similar a ruido.
De acordo com uma forma de realização, o processador 1220 emprega a fórmula shaped_noise[i] = noise * power(tilt_factor,i/N) em que N indica o número de amostras, em que i é um índice, em que 0<= i < N, com tilt_factor > 0, em que power é uma função de potência.
Se o tilt_factor for menor do que 1, isso significa uma atenuação com i crescente. Se o tilt_factor for maior do que 1, isso significa uma ampliação com i crescente.
De acordo com outra forma de realização, o processador 1220 pode empregar a fórmula shaped_noise[i] = noise * (1 + i / (N-l) * (tilt_factor-l)) em que N indica o número de amostras, em que i é um índice, em que 0<= i < N, com tilt_factor > 0.
De acordo com uma forma de realização, o processador 1220 é configurado para gerar o espectro modificado, alterando-se um símbolo de uma ou mais das amostras de sinal de áudio do espectro de sinal de áudio, se o frame atual não for recebido pela interface de receção 1210 ou se o frame atual que é recebido pela interface de receção 1210 estiver corrompido.
Numa forma de realização, cada uma das amostras de sinal de áudio do espectro de sinal de áudio é representada por um número real, mas não por um número imaginário.
De acordo com uma forma de realização, as amostras de sinal de áudio do espectro de sinal de áudio são representadas num domínio de Transformada Discreta Modificada de Cosseno.
Numa outra forma de realização, as amostras de sinal de áudio do espectro de sinal de áudio são representadas num domínio de
Transformada Discreta Modificada de Seno.
De acordo com uma forma de realização, o processador 1220 é configurado para gerar o espectro modificado empregando-se uma função de símbolo aleatório que emite de modo aleatório ou de modo pseudo-aleatório um primeiro ou um segundo valor.
Numa forma de realização, o processador 1220 é configurado para desvanecer o espectro modificado para o espectro-alvo através da diminuição subsequentemente de um fator de atenuação.
De acordo com uma forma de realização, o processador 1220 é configurado para desvanecer o espectro modificado para o espectro-alvo através do aumento subsequentemente de um fator de atenuação.
Numa forma de realização, se o frame atual não for recebido pela interface de receção 1210 ou se o frame atual que é recebido pela interface de receção 1210 estiver corrompido, o processador 1220 é configurado para gerar o sinal de áudio reconstruído empregando-se a fórmula: x[i] = (l-cum_damping) * noise[i] + cum_damping * random_sign() * x_old[i] em que i é um índice, em que x[i] indica uma amostra do sinal de áudio reconstruído, em que cum_damping é um fator de atenuação, em que x_old[i] indica uma das amostras de sinal de áudio do espectro de sinal de áudio do sinal de áudio codificado, em que random sign() retorna como 1 ou -1, e em que noise é um vetor aleatório que indica o espectro-alvo.
Algumas formas de realização continuam uma operação de TCX LTP. Nessas formas de realização, a operação de TCX LTP é continuada durante a ocultação com os parâmetros de LTP (atraso de LTP e ganho de LTP) derivados do último frame bom.
As operações de LTP podem ser resumidas como:
Alimentar o armazenamento temporário de atraso de LTP com base na saída derivada anteriormente.
Com base no atraso de LTP: escolher a porção de sinal adequada no armazenamento temporário de atraso de LTP que é usado como contribuição de LTP para modelar o sinal atual.
Reescalonar esta contribuição de LTP com o uso do ganho de LTP.
Adicionar esta contribuição de LTP reescalonada ao sinal de entrada de LTP para gerar o sinal de saída de LTP.
Diferentes abordagens poderiam ser consideradas em relação ao tempo, quando a atualização de armazenamento temporário de atraso de LTP é realizada:
Como a primeira operação de LTP no frame n com o uso da saída do último frame n-1. Essas atualizações do armazenamento temporário de atraso de LTP no frame n a ser usado durante o processamento de LTP no frame n.
Como a última operação de LTP no frame n com o uso da saída do frame atual n. Essas atualizações do armazenamento temporário de atraso de LTP no frame n a ser usado durante o processamento de LTP no frame n + 1. A seguir, a dissociação do laço de retroalimentação de TCX LTP é considerada. A dissociação do laço de retroalimentação de TCX LTP impede a introdução de ruído adicional (resultante da substituição de ruído aplicada ao sinal de entrada de LPT) durante cada laço de retroalimentação do descodificador de LTP quando em modo de ocultação. A Fig. 10 ilustra essa dissociação. Em particular, a Fig. 10 mostra a dissociação do laço de retroalimentação de LTP durante a ocultação (bfi=l). A Fig. 10 ilustra um armazenamento temporário de atraso 1020, um seletor de amostra 1030 e um processador de amostra 1040 (o processador de amostra 1040 é indicado pela linha a tracejado).
Em relação ao tempo, quando a atualização do armazenamento temporário de atraso de LTP 1020 é realizada, algumas formas de realização prosseguem como a seguir:
Para a operação normal: atualizar o armazenamento temporário de atraso de LTP 1020 como a primeira operação de LTP pode ser preferencial, já que o sinal de saida somado é usualmente armazenado de modo persistente. Com essa abordagem, um armazenamento temporário dedicado pode ser omitido.
Para a operação dissociada: atualizar o armazenamento temporário de atraso de LTP 1020 como a última operação de LTP pode ser preferencial, já que a contribuição de LTP para o sinal é usualmente armazenada apenas temporariamente. Com essa abordagem, o sinal transitório de contribuição de LTP é preservado. Em termos da sua implementação, este armazenamento temporário de contribuição de LTP poderia ser tornado apenas persistente.
Presumindo-se que esta última abordagem é usada em qualquer caso (operação normal e ocultação), as formas de realização podem implementar, por exemplo, o seguinte:
Durante a operação normal: A saida do sinal de domínio de tempo do descodif icador de LTP após sua adição ao sinal de entrada de LTP é usada para alimentar o armazenamento temporário de atraso de LTP.
Durante a ocultação: A saída do sinal de domínio de tempo do descodificador de LTP antes de sua adição ao sinal de entrada de LTP é usada para alimentar o armazenamento temporário de atraso de LTP.
Algumas formas de realização desvanecem o ganho de TCX LTP em direção a zero. Em tais formas de realização, o ganho de TCX LTP pode ser, por exemplo, desvanecido em direção a zero com um certo fator de desvanecimento adaptativo de sinal. Isso pode ser feito, por exemplo, iterativamente, por exemplo, de acordo com o seguinte pseudocódigo: gain = gain_past * damping; [. · .] gain_past = gain; em que: gain é o ganho de descodif icador de TCX LTP aplicado no frame atual; gain past é o ganho de descodif icador de TCX LTP aplicado no frame anterior; damping é o fator de desvanecimento (relativo). A Fig. ld ilustra um aparelho de acordo com uma forma de realização adicional, em que o aparelho compreende ainda uma unidade de predição de longo prazo 170 que compreende um armazenamento temporário de atraso 180. A unidade de predição de longo prazo 170 é configurada para gerar um sinal processado dependendo da segunda porção de sinal de áudio, dependendo de uma entrada de armazenamento temporário de atraso que é armazenada no armazenamento temporário de atraso 180 e dependendo de um ganho de predição de longo prazo. Para além disto, a unidade de predição de longo prazo é configurada para desvanecer o ganho de predição de longo prazo em direção a zero, se o dito terceiro frame de entre a pluralidade de frames não for recebido pela interface de receção 110 ou se o dito terceiro frame for recebido pela interface de receção 110 mas estiver corrompido.
Noutras formas de realização (não mostradas), a unidade de predição de longo prazo pode ser, por exemplo, configurada para gerar um sinal processado dependendo da primeira porção de sinal de áudio, dependendo de uma entrada de armazenamento temporário de atraso gue é armazenada no armazenamento temporário de atraso e dependendo de um ganho de predição de longo prazo.
Na Fig. Id, a primeira unidade de reconstrução 140 pode gerar, por exemplo, a terceira porção de sinal de áudio dependendo, para além disso, do sinal processado.
Numa forma de realização, a unidade de predição de longo prazo 170 pode ser, por exemplo, configurada para desvanecer o ganho de predição de longo prazo em direção a zero, em que uma velocidade com a qual o ganho de predição de longo prazo é desvanecido para zero depende de um fator de desvanecimento. Alternativa ou adicionalmente, a unidade de predição de longo prazo 170 pode ser, por exemplo, configurada para atualizar a entrada do armazenamento temporário de atraso 180 pelo armazenamento do sinal processado gerado no armazenamento temporário de atraso 180 se o dito terceiro frame de entre a pluralidade de frames não for recebido pela interface de receção 110 ou se o dito terceiro frame for recebido pela interface de receção 110 mas estiver corrompido.
Quanto ao uso descrito acima de TCX LTP, uma forma de realização mais geral é ilustrada na Fig. 13. A Fig. 13 ilustra um aparelho para descodificar um sinal de áudio codificado para obter um sinal de áudio reconstruído. 0 aparelho compreende uma interface de receção 1310 para receber uma pluralidade de frames, um armazenamento temporário de atraso 1320 para armazenar amostras de sinal de áudio do sinal de áudio descodificado, um seletor de amostra 1330 para selecionar uma pluralidade de amostras de sinal de áudio selecionadas a partir das amostras de sinal de áudio que são armazenadas no armazenamento temporário de atraso 1320 e um processador de amostra 1340 para processar as amostras de sinal de áudio selecionadas para obter amostras de sinal de áudio reconstruído do sinal de áudio reconstruído. O seletor de amostra 1330 é configurado para selecionar, se um frame atual for recebido pela interface de receção 1310 e se o frame atual que é recebido pela interface de receção 1310 não estiver corrompido, a pluralidade de amostras de sinal de áudio selecionadas a partir das amostras de sinal de áudio que são armazenadas no armazenamento temporário de atraso 1320 dependendo de informações de atraso de tom que são compreendidas no frame atual. Para além disto, o seletor de amostra 1330 é configurado para selecionar, se o frame atual não for recebido pela interface de receção 1310 ou se o frame atual que é recebido pela interface de receção 1310 estiver corrompido, a pluralidade de amostras de sinal de áudio selecionadas a partir das amostras de sinal de áudio que são armazenadas no armazenamento temporário de atraso 1320 dependendo de informações de atraso de tom que são compostas por outro frame que é recebido anteriormente pela interface de receção 1310.
De acordo com uma forma de realização, o processador de amostra 1340 pode estar, por exemplo, configurado para obter as amostras de sinal de áudio reconstruído, se o frame atual for recebido pela interface de receção 1310 e se o frame atual que é recebido pela interface de receção 1310 não estiver corrompido, reescalonando as amostras de sinal de áudio selecionadas dependendo das informações de ganho que são compreendidas no frame atual. Para além disto, o seletor de amostra 1330 pode estar, por exemplo, configurado para obter as amostras de sinal de áudio reconstruído, se o frame atual não for recebido pela interface de receção 1310 ou se o frame atual que é recebido pela interface de receção 1310 estiver corrompido, reescalonando as amostras de sinal de áudio selecionadas dependendo das informações de ganho que são compostas pelo dito outro frame que é recebido anteriormente pela interface de receção 1310.
Numa forma de realização, o processador de amostra 1340 pode estar, por exemplo, configurado para obter as amostras de sinal de áudio reconstruído, se o frame atual for recebido pela interface de receção 1310 e se o frame atual que é recebido pela interface de receção 1310 não estiver corrompido, multiplicando-se as amostras de sinal de áudio selecionadas e um valor dependendo das informações de ganho que são compreendidas no frame atual. Para além disto, o seletor de amostra 1330 é configurado para obter as amostras de sinal de áudio reconstruído, se o frame atual não for recebido pela interface de receção 1310 ou se o frame atual que é recebido pela interface de receção 1310 estiver corrompido, multiplicando-se as amostras de sinal de áudio selecionadas e um valor dependendo das informações de ganho que são compostas pelo dito outro frame que é recebido anteriormente pela interface de receção 1310.
De acordo com uma forma de realização, o processador de amostra 1340 pode estar, por exemplo, configurado para armazenar as amostras de sinal de áudio reconstruído no armazenamento temporário de atraso 1320.
Numa forma de realização, o processador de amostra 1340 pode estar, por exemplo, configurado para armazenar as amostras de sinal de áudio reconstruído no armazenamento temporário de atraso 1320 antes que um frame adicional seja recebido pela interface de receção 1310.
De acordo com uma forma de realização, o processador de amostra 1340 pode estar, por exemplo, configurado para armazenar as amostras de sinal de áudio reconstruído no armazenamento temporário de atraso 1320 após um frame adicional ser recebido pela interface de receção 1310.
Numa forma de realização, o processador de amostra 1340 pode estar, por exemplo, configurado para reescalonar as amostras de sinal de áudio selecionadas dependendo das informações de ganho para obter amostras de sinal de áudio reescalonadas e combinando-se as amostras de sinal de áudio reescalonadas com amostras de sinal de áudio de entrada para obter as amostras de sinal de áudio processadas.
De acordo com uma forma de realização, o processador de amostra 1340 pode estar, por exemplo, configurado para armazenar as amostras de sinal de áudio processadas, que indicam a combinação das amostras de sinal de áudio reescalonadas e as amostras de sinal de áudio de entrada, no armazenamento temporário de atraso 1320, e para não armazenar as amostras de sinal de áudio reescalonadas no armazenamento temporário de atraso 1320, se o frame atual for recebido pela interface de receção 1310 e se o frame atual que é recebido pela interface de receção 1310 não estiver corrompido. Para além disto, o processador de amostra 1340 é configurado para armazenar as amostras de sinal de áudio reescalonadas no armazenamento temporário de atraso 1320 e para não armazenar as amostras de sinal de áudio processadas no armazenamento temporário de atraso 1320, se o frame atual não for recebido pela interface de receção 1310 ou se o frame atual que é recebido pela interface de receção 1310 estiver corrompido.
De acordo com outra forma de realização, o processador de amostra 1340 pode estar, por exemplo, configurado para armazenar as amostras de sinal de áudio processadas no armazenamento temporário de atraso 1320, se o frame atual não for recebido pela interface de receção 1310 ou se o frame atual que é recebido pela interface de receção 1310 estiver corrompido.
Numa forma de realização, o seletor de amostra 1330 pode estar, por exemplo, configurado para obter as amostras de sinal de áudio reconstruído reescalonando as amostras de sinal de áudio selecionadas dependendo de um ganho modificado, em que o ganho modificado é definido de acordo com a fórmula: gain = gain_past * damping; em que gain é o ganho modificado, em que o seletor de amostra 1330 pode estar, por exemplo, configurado para definir gain_past para gain após gain e foi calculado, e em que damping é um número real.
De acordo com uma forma de realização, o seletor de amostra 1330 pode estar, por exemplo, configurado para calcular o ganho modificado.
Numa forma de realização, damping pode ser, por exemplo, definido de acordo com: 0 < damping < 1.
De acordo com uma forma de realização, o ganho modificado gain pode ser, por exemplo, definido como zero, se pelo menos um número predefinido de frames não tiver sido recebido pela interface de receção 1310 já que um último frame foi recebido pela interface de receção 1310. A seguir, a velocidade do desvanecimento é considerada. Há diversos módulos de ocultação que se aplicam a um determinado tipo de desvanecimento. Embora a velocidade desse desvanecimento possa ser escolhida de modo diferente por esses módulos, é benéfico usar a mesma velocidade de desvanecimento para todos os módulos de ocultação para um núcleo (ACELP ou TCX). Por exemplo: Para ACELP, a mesma velocidade de desvanecimento deveria ser usada, em particular, para o livro de código adaptativo (pela alteração do ganho), e/ou para o sinal de livro de código inovador (pela alteração do ganho).
Ainda, para TCX, a mesma velocidade de desvanecimento deveria ser usada, em particular, para sinal de domínio de tempo, e/ou para o ganho de LTP (desvanecimento para zero) , e/ou para a ponderação de LPC (desvanecimento para um), e/ou para os coeficientes de LP (desvanecimento para formato espectral de fundo), e/ou para o desvanecimento cruzado para ruído branco.
Pode ser adicionalmente preferencial usar, também, a mesma velocidade de desvanecimento para ACELP e TCX, mas devido à natureza diferente dos núcleos, também é possível escolher o uso de diferentes velocidades de desvanecimento.
Essa velocidade de desvanecimento pode ser estatística, mas é de preferência adaptativa para as características de sinal. Por exemplo, a velocidade de desvanecimento pode depender, por exemplo, do fator de estabilidade de LPC (TCX) e/ou de uma classificação, e/ou de diversos frames perdidos de modo consecutivo. A velocidade de desvanecimento pode ser, por exemplo, determinada dependendo do fator de atenuação, o gual pode ser dado absoluta ou relativamente, e também pode ser alterada ao longo do tempo durante um certo desvanecimento.
Nas formas de realização, a mesma velocidade de desvanecimento é usada para ganho de desvanecimento LTP como para o desvanecimento de ruído branco.
Um aparelho, um método e um programa de computador para gerar um sinal de ruído de conforto como descrito acima foram fornecidos. Embora alguns aspetos tenham sido descritos no contexto de um aparelho, fica evidente que esses aspetos também representam uma descrição do método correspondente, em que um bloco ou dispositivo correspondem a uma etapa do método ou um recurso de uma etapa do método. De modo análogo, os aspetos descritos no contexto de uma etapa do método também representam uma descrição de um bloco ou item ou recurso correspondente de um aparelho correspondente. 0 sinal decomposto da invenção pode ser armazenado num meio de armazenamento ou pode ser transmitido num meio de transmissão, como um meio de transmissão sem fios ou um meio de transmissão com fios, como a Internet.
Dependendo de certas exigências de implementação, as formas de realização da invenção podem ser implementadas em hardware ou em software. A implementação pode ser realizado com o uso de um meio de armazenamento digital, por exemplo, um disquete, um DVD, um CD, um ROM, um PROM, um EPROM, um EEPROM ou uma memória FLASH, que tem sinais de controlo eletronicamente legíveis armazenados nesta que cooperam (ou são capazes de cooperar) com um sistema de computador programável de tal modo que o método respetivo seja realizado.
Algumas formas de realização de acordo com a invenção compreendem um portador de dados não transitório que têm sinais de controlo legíveis eletronicamente, os quais são capazes de cooperar com um sistema de computador programável, de tal modo que um dos métodos aqui descritos é realizado.
Em geral, as formas de realização da presente invenção podem ser implementadas como um produto de programa de computador com um código de programa, sendo que o código de programa é operativo para realizar um dos métodos quando o produto de programa de computador é executado num computador. 0 código de programa pode ser, por exemplo, armazenado num meio portador legível por máquina.
Outras formas de realização compreendem o programa de computador para realizar um dos métodos aqui descritos, armazenados num meio portador legível por máquina.
Por outras palavras, uma forma de realização do método da invenção é, portanto, um programa de computador que tem um código de programa para realizar um dos métodos aqui descritos, quando o programa de computador é executado num computador.
Uma forma de realização adicional dos métodos da invenção é, portanto, um portador de dados (ou um meio de armazenamento digital ou um meio legível por computador) que compreende, gravado neste, o programa de computador para realizar um dos métodos aqui descritos.
Uma forma de realização adicional do método da invenção é, portanto, um fluxo de dados ou uma sequência de sinais que representam o programa de computador para realizar um dos métodos aqui descritos. 0 fluxo de dados ou a sequência de sinais pode estar, por exemplo, configurado para ser transferido por meio de uma conexão de comunicação de dados, por exemplo, por meio da Internet.
Uma forma de realização adicional compreende um meio de processamento, por exemplo, um computador, ou um dispositivo lógico programável, configurado para ou adaptado para realizar um dos aqui métodos descritos.
Uma forma de realização adicional compreende um computador que tem, instalado nele, o programa de computador para realizar um dos métodos aqui descritos.
Em algumas formas de realização, um dispositivo lógico programável (por exemplo, uma matriz de portas lógicas programável) pode ser usado para realizar algumas ou todas as funcionalidades dos métodos aqui descritos. Nalgumas formas de realização, uma matriz de portas lógicas programável pode cooperar com um microprocessador a fim de realizar um dos métodos aqui descritos. Em geral, os métodos são, de preferência, realizados por qualquer aparelho de hardware.
As formas de realização descritas acima são meramente ilustrativas para os princípios da presente invenção. Compreende-se que as modificações e as variações das disposições e dos detalhes aqui descritos ficarão evidentes para os elementos versados na técnica. Pretende-se, portanto, que este seja limitado somente pelo âmbito das reivindicações iminentes da patente e não pelos detalhes específicos apresentados por meio de descrição e explicação das formas de realização aqui constantes.
Referências [3GP09a] 3GPP; Technical Specification Group Services and System Aspects, Extended adaptive multi-rate - wideband (AMR-WB+) codec, 3GPP TS 26.290, Projeto de Parceria de Terceira Geração, 2009.
[3GP09b] Extended adaptive multi-rate - wideband (AMR-WB+) codec; floating-point ANSI-C code, 3GPP TS 26.304, Projeto de Parceria de Terceira Geração, 2009.
[3GP09c] Speech codec speech processing functions; adaptive multi-rate - wideband (AMRWB) speech codec; transcoding functions, 3GPP TS 26.190, Projeto de Parceria de Terceira Geração, 2009.
[3GPl2a] Adaptive multi-rate (AMR) speech codec; error concealment of lost frames (release 11), 3GPP TS 26.091, Projeto de Parceria de Terceira Geração, setembro de 2012.
[3GPl2b] Adaptive multi-rate (AMR) speech codec; transcoding functions (release 11), 3GPP TS 26.090, Projeto de Parceria de Terceira Geração, setembro de 2012. [3GPl2c] , ANSI-C code for the adaptive multi-rate - wideband (AMR-WB) speech codec, 3GPP TS 26.173, Projeto de Parceria de Terceira Geração, setembro de 2012 .
[3GPl2d] ANSI-C code for the floating-point adaptive multi-rate (AMR) speech codec (releasell), 3GPP TS 26.104, Projeto de Parceria de Terceira Geração, setembro de 2012.
[3GPl2e] General audio codec audio processing functions; Enhanced aacPlus general audio codec; additional decoder tools (release 11), 3GPP TS 26.402, Projeto de Parceria de Terceira Geração, setembro de 2012.
[3GP12f] Speech codec speech processing functions; adaptive multi-rate - wideband (amr-wb) speech codec; ansi-c code, 3GPP TS 26.204, Projeto de Parceria de Terceira Geração, 2012.
[3GPl2g] Speech codec speech processing functions; adaptive multi-rate - wideband (AMR-WB) speech codec; error concealment of erroneous or lost frames, 3GPP TS 26.191, Projeto de Parceria de Terceira Geração, setembro de 2012.
[BJH06] I. Batina, J. Jensen e R. Heusdens, Noise power spectrum estimation for speech enhancement using an autoregressive model for speech power spectrum dynamics, in Proc. IEEE Int. Conf. Acoust., Speech, Signal Process. 3 (2006), 1064 a 1067.
[BP06] A. Borowicz e A. Petrovsky, Minima controlled noise estimation for klt-based speech enhancement, CD-ROM, 2006, Itália, Florença.
[Coh03] I. Cohen, Noise spectrum estimation in adverse environments: Improved minima controlled recursive averaging, IEEE Trans. Speech Audio Process. 11 (2003), n° 5, 466 a 475. [CPK08] Choong Sang Cho, Nam In Park e Hong Kook Kim, A packet loss concealment algorithm robust to burst packet loss for celp-type speech coders, Tech, report, Korea Enectronics Technology Institute, Gwang Institute of Science and Technology, 2008, The 23rd International Technical Conference on Circuits/Systems, Computers and Communications (ITC-CSCC 2008).
[Dob95] G. Doblinger, Computationally efficient speech enhancement by spectral minima tracking in subbands, em Proc. Eurospeech (1995), 1513 a 1516.
[EBU10] EBU/ETSI JTC Broadcast, Digital audio broadcasting (DAB); transport of advanced audio coding (AAC) audio, ETSI TS 102 563, European Broadcasting Union, Maio 2010.
[EBU12] Digital radio mondiale (DRM); system specification, ETSI ES 201 980, ETSI, Jun 2012.
[EH08] Jan S. Erkelens e Richards Heusdens, Tracking of Nonstationary Noise Based on Data-Driven Recursive Noise Power Estimation, Audio, Speech, and Language Processing, IEEE Transactions em 16 (2008), n° 6, 1112 a 1123.
[EM84] Y. Ephraim e D. Malah, Speech enhancement using a minimum mean-square error short-time spectral amplitude estimator, IEEE Trans. Acoustics, Speech and Signal Processing 32 (1984), n° 6, 1109 a 1121.
[EM85] Speech enhancement using a minimum mean-square error log-spectral amplitude estimator, IEEE Trans. Acoustics, Speech and Signal Processing 33 (1985), 443 a 445.
[Gan05] S. Gannot, Speech enhancement: Application of the kalman filter in the estimate-maximize (em framework), Springer, 2005.
[HE95] H. G. Hirsch e C. Ehrlicher, Noise estimation techniques for robust speech recognition, Proc. IEEE Int. Conf. Acoustics, Speech, Signal Processing, n° pp. 153 a 156, IEEE, 1995.
[HHJ10] Richard C. Hendriks, Richard Heusdens e Jesper Jensen, MMSE based noise PSD tracking with low complexity, Acoustics Speech and Signal Processing (ICASSP), 2010 IEEE International Conference em março de 2010, pp. 4266 a 4269.
[HJH08] Richard C. Hendriks, Jesper Jensen e Richard Heusdens, Noise tracking using dft domain subspace decompositions, IEEE Trans. Audio, Speech, Lang. Process. 16 (2008), n° 3, 541 a 553. [IET12] IETF, Definition of the Opus Audio Codec, Tech. Report RFC 6716, Internet Engineering Task Force, setembro de 2012.
[ISO09] ISO/lEC JTC1/SC29/WGl1, Information technology - coding of audio-visual objects - part 3: Audio, ISO/IEC IS 14496-3, International Organization for Standardization, 2009.
[ITU03] ITU-T, Wideband coding of speech at around 16 kbit/s using adaptive multi-rate wideband (amr-wb), Recommendation ITU-T G.722.2, Telecommunication Standardization Sector of ITU, julho de 2003.
[ITU05] Low-complexity coding at 24 and 32 kbit/s for handsfree operation in systems with low frame loss, Recommendation ITU-T G.722.1, Telecommunication Standardization Sector of ITU, maio de 2005.
[ITU06a] G.722 Appendix III: A high-complexity algorithm for packet loss concealment for G. 722, ITU-T Recommendation, ITU-T, novembro de 2006.
[ITU06b] G. 729.1: G.729-based embedded variable bit-rate coder: An 8-32 kbit/s scalable wideband coder bitstream interoperable with g. 729, Recommendation ITU-T G.729.1, Telecommunication Standardization Sector of ITU, maio de 2006.
[ITU07] G.722 Appendix IV: A low-complexity algorithm for packet loss concealment with G. 722, ITU-T Recommendation, ITU-T, agosto de 2007.
[ITU08a] G.718: Frame error robust narrow-band and wideband embedded variable bit-rate coding of speech and audio from 8-32 kbit/s, Recommendation ITU-T G.718, Telecommunication Standardization Sector of ITU, junho de 2008.
[ITU08b] G.719: Low-complexity, full-band audio coding for high-quality, conversational applications, Recommendation ITU-T G.719, Telecommunication Standardization Sector of ITU, junho de 2008.
[ITU12] G.129: Coding of speech at 8 kbit/s using conjugate-structure algebraic-code-excited linear prediction (cs-acelp), Recommendation ITU-T G.729, Telecommunication Standardization Sector of ITU, junho de 2012.
[LS01] Pierre Lauber e Ralph Sperschneider, Error concealment for compressed digital audio, Audio Engineering Society Convention 111, n° 5460, setembro de 2001.
[MarOl] Rainer Martin, Noise power spectral density estimation based on optimal smoothing and minimum statistics, IEEE Transactions on Speech and Audio Processing 9 (2001), n° 5, 504 a 512.
[Mar03] Statistical methods for the enhancement of noisy speech, International Workshop on Acoustic Echo and Noise Control (IWAENC2003), Technical University of Braunschweig, setembro de 2003.
[MC99] R. Martin e R. Cox, New speech enhancement techniques for low bit rate speech coding, in Proc. IEEE Workshop on Speech Coding (1999), 165 a 167.
[MCA99] D. Malah, R. V. Cox e A. J. Accardi, Tracking speech-presence uncertainty to improve speech enhancement in nonstationary noise environments, Proc. IEEE Int. Conf. on Acoustics Speech and Signal Processing (1999), 789 a 792.
[MEP01] Nikolaus Meine, Bernd Edler, and Heiko Purnhagen, Error protection and concealment for HILN MPEG-4 parametric audio coding, Audio Engineering Society Convention 110, n° 5300, maio de 2001.
[MPC89] Y. Mahieux, J.-P. Petit e A. Charbonnier, Transform coding of audio signals using correlation between successive transform blocks, Acoustics, Speech, and Signal Processing, 1989. ICASSP-89., 1989 International Conference on, 1989, pp. 2021 a 2024 volume 3.
[NMR+12] Max Neuendorf, Markus Multrus, Nikolaus Rettelbach, Guillaume Fuchs, Julien Robilliard, Jérémie Lecomte, Stephan Wilde, Stefan Bayer, Sascha Disch, Christian Helmrich, Roch Lefebvre, Philippe Gournay, Bruno Bessette, Jimmy Lapierre, Kristopfer Kjõrling, Heiko Purnhagen, Lars Villemoes, Werner Oomen, Erik Schuijers, Kei Kikuiri, Toru Chinen, Takeshi Norimatsu, Chong Kok Seng, Eunmi Oh, Miyoung Kim, Schuyler Quackenbush e Berndhard Grill, MPEG Unified Speech and Audio Coding - The ISO / MPEG Standard for High-Efficiency Audio Coding of all Content Types, Convention Paper 8654, AES, April 2012, Apresentado na 132a Convenção de Budapeste, Hungria.
[PKJ+11] Nam In Park, Hong Kook Kim, Min A Jung, Seong Ro Lee e Seung Ho Choi, Burst packet loss concealment using multiple codebooks and comfort noise for celp-type speech coders in wireless sensor networks, Sensors 11 (2011), 5323 a 5336.
[QD 0 3 ] Schuyler Quackenbush e Peter F. Driessen, Error mitigation in MPEG-4 audio packet communication systems, Audio Engineering Society Convention 115, n° 5981, outubro de 2003. [RL06] S. Rangachari e P. C. Loizou, A noise-estimation algorithm for highly non-stationary environments, Speech Commun. 48 (2006), 220 a 231.
[SFBOO] V. Stahl, A. Fischer e R. Bippus, Quantile based noise estimation for spectral subtraction and wiener filtering, in Proc. IEEE Int. Conf. Acoust., Speech and Signal Process. (2000), 1875 a 1878.
[SS98] J. Sohn e W. Sung, A voice activity detector employing soft decision based noise spectrum adaptation, Proc. IEEE Int. Conf. Acoustics, Speech, Signal Processing, no. pp. 365-368, IEEE, 1998.
[Yu09] Rongshan Yu, A low-complexity noise estimation algorithm based on smoothing of noise power estimation and estimation bias correction, Acoustics, Speech and Signal Processing, 2009. ICASSP 2009. IEEE International Conference, abril de 2009, pp. 4421 a 4424.
Referências citadas na descrição A lista de referências citada pelo proponente é somente para conveniência do leitor. Não é parte do documento europeu de patente. Apesar de todo o cuidado que foi tido na compilação das referências, erros ou omissões não podem ser excluídas e o EPO recusa quaisquer responsabilidades nesse sentido.
Documentos de Patente Citados na Descrição • WO 2007073604 Al [0125]
Literatura, que não patentes, citada na descrição • RAINER MARTIN. Noise power spectral density estimation based on optimal smoothing and minimum statistics. IEEE Transactions on Speech and Audio Processing, 2001, vol. 9 (5), 504-512 [0292] [0369] [0458] • Speech codec speech processing functions; adaptive multi-rate - wideband (AMRWB) speech codec; transcoding functions. 3GPP TS 26.190, 3rd Generation Partnership Project, 2009 [0371] [0458] • Technical Specification Group Services and System Aspects, Extended adaptive multi-rate - wideband (AMR-WB+) codec. 3GPP TS 26.290, 3rd Generation
Partnership Project, 2009 [0458] • Extended adaptive multi-rate - wideband (AMR-WB+) codec; floating-point ANSI-C code, 3GPP TS 26.304. 3rd Generation Partnership Project, 2009 [0458] • Adaptive multi-rate (AMR) speech codec; error concealment of lost frames (release 11), 3GPP TS 26.091. 3rd Generation Partnership Project, September 2012 [0458] • Adaptive multi-rate (AMR) speech codec; transcoding functions (release 11), 3GPP TS 26.090. 3rd Generation Partnership Project, September 2012 [0458] • ANSI-C code for the adaptive multi-rate - wideband (AMR-WB) speech codec, 3GPP TS 26.173. 3rd Generation Partnership Project, September 2012 [0458] • ANSI-C code for the floating-point adaptive multi-rate (AMR) speech codec (releasell), 3GPP TS 26.104. 3rd Generation Partnership Project, September 2012 [0458] • General audio codec audio processing functions; Enhanced aacPlus general audio codec; additional decoder tools (release 11). 3GPP TS 26.402, 3rd Generation Partnership Project,
September 2012 [0458] • Speech codec speech processing functions; adaptive multi-rate - wideband (amr-wb) speech codec; ansi-c code, 3GPP TS 26.204. 3rd Generation Partnership
Project, 2012 [0458] • Speech codec speech processing functions; adaptive multi-rate - wideband (AMR-WB) speech codec; error concealment of erroneous or lost frames, 3GPP TS 26.191. 3rd Generation Partnership Project, September 2012 [0458] • I. BATINA ; J. JENSEN ; R. HEUSDENS. Noise power spectrum estimation for speech enhancement using an autoregressive model for speech power spectrum dynamics. Proc. IEEE Int. Conf. Acoust., Speech, Signal Process, 2006, vol. 3, 1064-1067 [0458] • A. BOROWICZ ; A. PETROVSKY. Minima controlled noise estimation for klt-based speech enhancement. CD-ROM, 2006 [0458] • I. COHEN. Noise spectrum estimation in adverse environments: Improved minima controlled recursive averaging. IEEE Trans. Speech Audio Process, 2003, vol. 11 (5), 466-475 [0458] • A packet loss concealment algorithm robust to burst packet loss for celp- type speech coders. CHOONG SANG CHO ; NAM IN PARK ; HONG KOOK KIM. The 23rd International Technical Conference on Circuits/ Systems, Computers and Communications (ITC-CSCC 2008). Korea Enectronics Technology Institute, Gwang Institute of Science and Technology, 2008 [0458] • G. DOBLINGER. Computationally efficient speech enhancement by spectral minima tracking in subbands. Proc. Eurospeech, 1995, 1513-1516 [0458] • EBU/ETSI JTC Broadcast, Digital audio broadcasting (DAB); transport of advanced audio coding (AAC) audio. ETSI TS 102 563. European Broadcasting Union, May 2010 [0458] • Digital radio mondiale (DRM); system specification. ETSI ES 201 980. ETSI, June 2012 [0458] • JAN S. ERKELENS ; RICHARDS HEUSDENS. Tracking of Nonstationary Noise Based on Data-Driven Recursive Noise Power Estimation. Audio, Speech, and Language Processing, IEEE Transactionson, 2008, vol. 16 (6), 1112-1123 [0458] • Y. EPHRAIM ; D. MALAH. Speech enhancement usinga minimum mean-square error short-time spectral amplitude estimator. IEEE Trans. Acoustics, Speech and Signal Processing, 1984, vol. 32 (6), 1109-1121 [0458] • Speech enhancement using a minimum mean-square error log-spectral amplitude estimator. IEEE Trans. Acoustics, Speech and Signal Processing, 1985, vol. 33, 443-445 [0458] • S. GANNOT. Speech enhancement: Application of the kalman filter in the estimate-maximize (em framework). Springer, 2005 [0458] • Noise estimation techniques for robust speech recognition. H. G. HIRSCH ; C. EHRLICHER. Proc. IEEE Int. Conf. Acoustics, Speech, Signal Processing. IEEE, 1995, 153-156 [0458] • RICHARD C. HENDRIKS ; RICHARD HEUSDENS ; JESPER JENSEN. MMSE based noise PSD tracking with low complexity. Acoustics Speech and Signal Processing (ICASSP), 2010 IEEE International Conference on, March 2010, 4266-4269 [0458] • RICHARD C. HENDRIKS ; JESPER JENSEN ; RICHARD HEUSDENS. Noise tracking using dft domain subspace decompositions. IEEE Trans. Audio, Speech, Lang. Process, 2008, vol. 16 (3), 541-553 [0458]
• IETF, Definition of the Opus Audio Codec. Tech. Report RFC 6716, Internet Engineering Task Force, September 2012 [0458] • Information technology - coding of audio-visual objects - part 3: Audio. International Organization for Standardization, 2009 [0458] • ITU-T, Wideband coding of speech at around 16 kbit/s using adaptive multi-rate wideband (amr-wb). Recommendation ITU-T G.722.2, Telecommunication Standardization Sector of ITU, July 2003 [0458] • Low-complexity coding at 24 and 32 kbit/s for hands-free operation in systems with low frame loss. Recommendation ITU-T G.722.1, Telecommunication Standardization Sector of ITU, May 2005 [0458] • G.722 Appendix III: A high-complexity algorithm for packet loss concealment for G. 722. ITU-T Recommendation, ITU-T, November 2006 [0458] • G.729.1: G.729-based embedded variable bit-rate coder: An 8-32 kbit/s scalable wideband coder bitstream interoperable with g.729. Recommendation ITU-T G.729.1, Telecommunication Standardization Sector of ITU, May 2006 [0458] • G.722 Appendix IV: A low-complexity algorithm for packet loss concealment with G.722. ITU-T Recommendation, ITU-T, August 2007 [0458] • G.718: Frame error robust narrow-band and wideband embedded variable bit-rate coding of speech and audio from 8-32 kbit/s. Recommendation ITU-T G.718, Telecommunication Standardization Sector of ITU, June 2008 [0458] • G.719: Low-complexity, full-band audio coding for high-quality, conversational applications. Recommendation ITU-T G.719, Telecommunication Standardization
Sector of ITU, June 2008 [0458] • G.729: Coding of speech at 8 kbit/s using conjugate- structure algebraic-code-excited linear prediction (cs-acelp). Recommendation ITU-T G.729, Telecommunication Standardization Sector of ITU, June 2012 [0458] • Pierre Lauber and Ralph Sperschneider, Error concealment for compressed digital audio. Audio Engineering Society Convention, September 2001, vol. Ill (5460 [0458] • Statistical methods for the enhancement of noisy speech,. International Workshop on Acoustic Echo and Noise Control (IWAENC2003), Technical University of Braunschweig, September 2003 [0458] • R. MARTIN ; R. COX. New speech enhancement techniques for low bit rate speech coding. Proc. IEEE Workshop on Speech Coding, 1999, 165-167 [0458] • D. MALAH; R. V. COX ; A. J. ACCARDI. Tracking speech-presence uncertainty to improve speech enhancement in nonstationary noise environments. Proc. IEEE Int. Conf. on Acoustics Speech and Signal Processing, 1999, 789-792 [0458] • NIKOLAUS ΜΕΙΝΕ ; BERND EDLER ; HEIKO PURNHAGEN. Error protection and concealment for HILN MPEG-4 parametric audio coding. Audio Engineering Society Convention, May 2001, vol. 110 (5300 [0458] • Y. MAHIEUX ; J.-P. PETIT ; A. CHARBONNIER. Transform coding of audio signals using correlation between successive transform blocks. Acoustics, Speech, and Signal Processing, 1989. ICASSP-89., 1989 International Conference on, 1989, vol. 3, 2021-2024 [0458]
• MAX NEUENDORF ; MARKUS MULTRUS ; NIKOLAUS RETTELBACH ; GUILLAUME FUCHS ; JULIEN ROBILLIARD ; JÉRÉMIE LECOMTE ; STEPHAN WILDE ; STEFAN BAYER ; SASCHA DISCH ; CHRISTIAN HELMRICH. MPEG Unified Speech and Audio Coding - The ISO / MPEG Standard for High-Efficiency Audio Coding of all Content Types. Convention Paper 8654, AES, April 2012, Presented at the 132nd Convention Budapest, Hungary [0458] • NAM IN PARK ; HONG KOOK KIM ; MIN A JUNG ; SEONG RO LEE ; SEUNG HO CHOI. Burst packet loss concealment using multiple codebooks and comfort noise for celp-type speech coders in wireless sensor networks. Sensors, 2011, vol. 11, 5323-5336 [0458] • SCHUYLER QUACKENBUSH ; PETER F. DRIESSEN. Error mitigation in MPEG-4 audio packet communication systems. Audio Engineering Society Convention,October 2003, vol. 115 (5981 [0458] • S. RANGACHARI ; P. C. LOIZOU. A noise-estimation algorithm for highly non-stationary environments. Speech Commun, 2006, vol. 48, 220-231 [0458] • V. STAHL ; A. FISCHER ; R. BIPPUS. Quantile based noise estimation for spectral subtraction and wiener filtering. Proc. IEEE Int. Conf. Acoust., Speech and Signal Process, 2000, 1875-1878 [0458] • A voice activity detector employing soft decision based noise spectrum adaptation. J. SOHN ; W. SUNG. Proc. IEEE Int. Conf. Acoustics, Speech, Signal
Processing. IEEE, 1998, 365-368 [0458] • RONGSHAN YU. A low-complexity noise estimation algorithm based on smoothing of noise power estimation and estimation bias correction. Acoustics, Speech and Signal Processing, 2009. ICASSP 2009. IEEE International Conference on, April 2009, 4421-4424 [0458]

Claims (22)

  1. REIVINDICAÇÕES
    1. Aparelho para descodificar um sinal de áudio caracterizado por compreender: uma interface de receção (110) para receber uma pluralidade de frames, em que a interface de receção (110) está configurada para receber um primeiro frame de entre a pluralidade de frames, sendo que o dito primeiro frame compreende uma primeira porção de sinal de áudio do sinal de áudio, sendo que a dita primeira porção de sinal de áudio é representada num primeiro domínio, e em que a interface de receção (110) está configurada para receber um segundo frame de entre a pluralidade de frames, sendo que o dito segundo frame compreende uma segunda porção de sinal de áudio do sinal de áudio, uma unidade de transformada (120) para transformar a segunda porção de sinal de áudio ou um valor ou sinal derivado da segunda porção de sinal de áudio de um segundo domínio para um domínio de rastreio para obter informações da segunda porção de sinal, em que o segundo domínio é diferente do primeiro domínio, em que o domínio de rastreio é diferente do segundo domínio, e em que o domínio de rastreio é igual ao ou diferente do primeiro domínio, uma unidade de rastreio de nível de ruído (130), em que a unidade de rastreio de nível de ruído (130) está configurada para receber informações da primeira porção de sinal que são representadas no domínio de rastreio, em que as informações da primeira porção de sinal dependem da primeira porção de sinal de áudio, em que a unidade de rastreio de nível de ruído (130) está configurada para receber a segunda porção de sinal que é representada no domínio de rastreio, e em que a unidade de rastreio de nível de ruído (130) está configurada para determinar informações de nível de ruído dependendo das informações da primeira porção de sinal que são representadas no domínio de rastreio e dependendo das informações da segunda porção de sinal que são representadas no domínio de rastreio, em que as informações de nível de ruído são representadas no domínio de rastreio, e uma unidade de reconstrução (140) para reconstruir uma terceira porção de sinal de áudio do sinal de áudio dependendo das informações de nível de ruído, se um terceiro frame de entre a pluralidade de frames não for recebido pela interface de receção (110) ou se o dito terceiro frame for recebido pela interface de receção (110) mas estiver corrompido.
  2. 2. Aparelho, de acordo com a reivindicação 1, caracterizado por a primeira porção de sinal de áudio ser representada num domínio de tempo como o primeiro domínio, em que a unidade de transformada (120) está configurada para transformar uma segunda porção de sinal de áudio ou o valor derivado da segunda porção de sinal de áudio de um domínio de excitação que é o segundo domínio para o domínio de tempo que é o domínio de rastreio, em que a unidade de rastreio de nível de ruído (130) está configurada para receber as informações da primeira porção de sinal que são representadas no domínio de tempo como o domínio de rastreio, e em que a unidade de rastreio de nível de ruído (130) está configurada para receber a segunda porção de sinal que é representada no domínio de tempo como o domínio de rastreio.
  3. 3. Aparelho, de acordo com a reivindicação 1, caracterizado por a primeira porção de sinal de áudio ser representada num domínio de excitação como o primeiro domínio, em que a unidade de transformada (120) está configurada para transformar a segunda porção de sinal de áudio ou o valor derivado da segunda porção de sinal de áudio de um domínio de tempo que é o segundo domínio para o domínio de excitação que é domínio de rastreio, em que a unidade de rastreio de nível de ruído (130) está configurada para receber as informações da primeira porção de sinal que são representadas no domínio de excitação como o domínio de rastreio, e em que a unidade de rastreio de nível de ruído (130) está configurada para receber a segunda porção de sinal que está representada no domínio de excitação como o domínio de rastreio.
  4. 4. Aparelho, de acordo com a reivindicação 1, caracterizado por a primeira porção de sinal de áudio ser representada num domínio de excitação como o primeiro domínio, em que a unidade de rastreio de nível de ruído (130) está configurada para receber as informações da primeira porção de sinal, em que as ditas informações da primeira porção de sinal são representadas no domínio de FFT que é o domínio de rastreio, e em que as ditas informações da primeira porção de sinal dependem da dita primeira porção de sinal de áudio ser representada no domínio de excitação, em que a unidade de transformada (120) está configurada para transformar a segunda porção de sinal de áudio ou o valor derivado da segunda porção de sinal de áudio de um domínio de tempo que é o segundo domínio para um domínio de FFT que é o domínio de rastreio, e em que a unidade de rastreio de nível de ruído (130) está configurada para receber a segunda porção de sinal de áudio que é representada no domínio de FFT.
  5. 5. Aparelho, de acordo com qualquer uma das reivindicações de 1 a 4, caracterizado por o aparelho compreender ainda uma primeira unidade de agregação (150) para determinar um primeiro valor agregado dependendo da primeira porção de sinal de áudio, em que o aparelho compreende ainda uma segunda unidade de agregação (160) para determinar, dependendo da segunda porção de sinal de áudio, um segundo valor agregado como o valor derivado da segunda porção de sinal de áudio, em que a unidade de rastreio de nível de ruído (130) está configurada para receber o primeiro valor agregado como as informações da primeira porção de sinal que são representadas no domínio de rastreio, em que a unidade de rastreio de nível de ruído (130) está configurada para receber o segundo valor agregado como as informações da segunda porção de sinal que são representadas no domínio de rastreio, e em que a unidade de rastreio de nível de ruído (130) está configurado para determinar informações de nível de ruído dependendo do primeiro valor agregado que é representado no domínio de rastreio e dependendo do segundo valor agregado que é representado no domínio de rastreio.
  6. 6. Aparelho, de acordo com a reivindicação 5, caracterizado por a primeira unidade de agregação (150) estar configurada para determinar o primeiro valor agregado de tal modo o primeiro valor agregado indica uma média quadrática da primeira porção de sinal de áudio ou de um sinal derivado da primeira porção de sinal de áudio, e em que a segunda unidade de agregação (160) está configurada para determinar o segundo valor agregado de tal modo que o segundo valor agregado indica uma média quadrática da segunda porção de sinal de áudio ou de um sinal derivado da segunda porção de sinal de áudio.
  7. 7. Aparelho, de acordo com qualquer uma das reivindicações de 1 a 6, caracterizado por a unidade de transformada (120) estar configurado para transformar o valor derivado da segunda porção de sinal de áudio do segundo domínio para o domínio de rastreio pela aplicação de um valor de ganho ao valor derivado da segunda porção de sinal de áudio.
  8. 8. Aparelho, de acordo com a reivindicação 7, caracterizado por o valor de ganho indicar um ganho introduzido por síntese de codificação preditiva linear, ou em que o valor de ganho indica um ganho introduzido por síntese de codificação preditiva linear e de-ênfase.
  9. 9. Aparelho, de acordo com qualquer uma das reivindicações de 1 a 8, caracterizado por a unidade de rastreio de nível de ruído (130) estar configurada para determinar informações de nível de ruído pela aplicação de uma abordagem de estatística mínima.
  10. 10. Aparelho, de acordo com qualquer uma das reivindicações de 1 a 9, caracterizado por a unidade de rastreio de nível de ruído (130) estar configurada para determinar um nível de ruído de conforto como as informações de nível de ruído, e em que a unidade de reconstrução (140) está configurado para reconstruir a terceira porção de sinal de áudio dependendo das informações de nível de ruído, se o dito terceiro frame de entre a pluralidade de frames não for recebido pela interface de receção (110) ou se o dito terceiro frame for recebido pela interface de receção (110) mas estiver corrompido.
  11. 11. Um aparelho, de acordo com a reivindicação 9, caracterizado por a unidade de rastreio de nível de ruído (130) estar configurada para determinar um nível de ruído de conforto como as informações de nível de ruído derivadas de um espectro de nível de ruído, em que o dito espectro de nível de ruído é obtido pela aplicação da abordagem de estatística mínima, e em que a unidade de reconstrução (140) está configurado para reconstruir a terceira porção de sinal de áudio dependendo de uma pluralidade de coeficientes preditivos lineares, se o dito terceiro frame de entre a pluralidade de frames não for recebido pela interface de receção (110) ou se o dito terceiro frame for recebido pela interface de receção (110) mas estiver corrompido.
  12. 12. Aparelho, de acordo com qualquer uma das reivindicações 1 a 9, caracterizado por a unidade de rastreio de nivel de ruido (130) estar configurada para determinar uma pluralidade de coeficientes de FFT que indicam um nivel de ruido de conforto como as informações de nivel de ruido, e em que a primeira unidade de reconstrução (140) está configurada para reconstruir a terceira porção de sinal de áudio dependendo de um nivel de ruido de conforto derivado dos ditos coeficientes de FFT, se o dito terceiro frame de entre a pluralidade de frames não for recebido pela interface de receção (140) ou se o dito terceiro frame for recebido pela interface de receção (110) mas estiver corrompido.
  13. 13. Aparelho, de acordo com qualquer uma das reivindicações de 1 a 12, caracterizado por a unidade de reconstrução (140) estar configurada para reconstruir a terceira porção de sinal de áudio dependendo das informações de nivel de ruido e dependendo da primeira ou da segunda porção de sinal de áudio, se o dito terceiro frame de entre a pluralidade de frames não for recebido pela interface de receção (110) ou se o dito terceiro frame for recebido pela interface de receção (110) mas estiver corrompido.
  14. 14. Aparelho, de acordo com a reivindicação 13, caracterizado por a unidade de reconstrução (140) estar configurada para reconstruir a terceira porção de sinal de áudio pela atenuação ou amplificação de um sinal derivado da primeira porção de sinal de áudio ou da segunda porção de sinal.
  15. 15. Aparelho, de acordo com qualquer uma das reivindicações de 1 a 14, caracterizado por o aparelho compreender ainda uma unidade de predição de longo prazo (170) que compreende um armazenamento temporário de atraso (180), em que a unidade de predição de longo prazo (17 0) está configurada para gerar um sinal processado dependendo da primeira ou da segunda porção de sinal de áudio, dependendo de uma entrada de armazenamento temporário de atraso (180) que é armazenada no armazenamento temporário de atraso (180) e dependendo de um ganho de predição de longo prazo, e em que a unidade de predição de longo prazo (17 0) está configurada para desvanecer o ganho de predição de longo prazo em direção a zero, se o dito terceiro frame de entre a pluralidade de frames não for recebido pela interface de receção (110) ou se o dito terceiro frame for recebido pela interface de receção (110) mas estiver corrompido.
  16. 16. Aparelho, de acordo com a reivindicação 15, caracterizado por a unidade de predição de longo prazo (170) estar configurada para desvanecer o ganho de predição de longo prazo em direção a zero, em que uma velocidade com a qual o ganho de predição de longo prazo é desvanecido em direção a zero depende de um fator de desvanecimento.
  17. 17. Aparelho, de acordo com a reivindicação 15 ou 16, caracterizado por a unidade de predição de longo prazo (170) estar configurada para atualizar a entrada de armazenamento temporário de atraso (180) armazenando-se o sinal processado gerado no armazenamento temporário de atraso (180), se o dito terceiro frame de entre a pluralidade de frames não for recebido pela interface de receção (110) ou se o dito terceiro frame for recebido pela interface de receção (110) mas estiver corrompido.
  18. 18. Aparelho, de acordo com qualquer uma das reivindicações de 1 a 17, caracterizado por a unidade de transformada (120) ser uma primeira unidade de transformada (120), em que a unidade de reconstrução (140) é uma primeira unidade de reconstrução (140), em que o aparelho compreende ainda uma segunda unidade de transformada (121) e uma segunda unidade de reconstrução (141), em que a segunda unidade de transformada (121) está configurada para transformar as informações de nivel de ruido do domínio de rastreio para o segundo domínio, se um quarto frame de entre a pluralidade de frames não for recebido pela interface de receção (110) ou se o dito quarto frame for recebido pela interface de receção (110) mas estiver corrompido, e em que a segunda unidade de reconstrução (141) está configurada para reconstruir uma quarta porção de sinal de áudio do sinal de áudio dependendo das informações de nível de ruído que são representadas no segundo domínio se o dito quarto frame de entre a pluralidade de frames não for recebido pela interface de receção (110) ou se o dito quarto frame for recebido pela interface de receção (110) mas estiver corrompido.
  19. 19. Aparelho, de acordo com a reivindicação 18, caracterizado por a segunda unidade de reconstrução (141) estar configurada para reconstruir a quarta porção de sinal de áudio dependendo das informações de nivel de ruido e dependendo da segunda porção de sinal de áudio.
  20. 20. Aparelho, de acordo com a reivindicação 19, caracterizado por a segunda unidade de reconstrução (141) estar configurada para reconstruir a quarta porção de sinal de áudio pela atenuação ou amplificação de a segunda porção de sinal de áudio.
  21. 21. Método para descodificar um sinal de áudio caracterizado por compreender: receber um primeiro frame de uma pluralidade de frames, sendo que o dito primeiro frame compreende uma primeira porção de sinal de áudio do sinal de áudio, sendo que a dita primeira porção de sinal de áudio é representada num primeiro domínio, receber um segundo frame de entre a pluralidade de frames, sendo que o dito segundo frame compreende uma segunda porção de sinal de áudio do sinal de áudio, transformar a segunda porção de sinal de áudio ou um valor ou sinal derivado da segunda porção de sinal de áudio de um segundo domínio para um domínio de rastreio para obter informações da segunda porção de sinal, em que o segundo domínio é diferente do primeiro domínio, em que o domínio de rastreio é diferente do segundo domínio, e em que o domínio de rastreio é igual ao ou diferente do primeiro domínio, determinar informações de nível de ruído dependendo de informações da primeira porção de sinal que são representadas no domínio de rastreio e dependendo das informações da segunda porção de sinal que são representadas no domínio de rastreio, em que as informações da primeira porção de sinal dependem da primeira porção de sinal de áudio, reconstruir uma terceira porção de sinal de áudio do sinal de áudio dependendo das informações de nível de ruído, se um terceiro frame de entre a pluralidade de frames não for recebido ou se o dito terceiro frame for recebido mas estiver corrompido.
  22. 22. Programa de computador caracterizado por estar adaptado para implementar o método, de acordo com a reivindicação 21, quando executado num computador ou processador de sinal.
PT147321939T 2013-06-21 2014-06-23 Aparelho e método para desvanecimento de sinal aperfeiçoado para sistemas de codificação de áudio comutado durante a ocultação de erros PT3011557T (pt)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP13173154 2013-06-21
EP14166998 2014-05-05

Publications (1)

Publication Number Publication Date
PT3011557T true PT3011557T (pt) 2017-07-25

Family

ID=50981527

Family Applications (5)

Application Number Title Priority Date Filing Date
PT147390702T PT3011561T (pt) 2013-06-21 2014-06-23 Aparelho e método para desvanecimento de sinal aperfeiçoado em diferentes domínios durante ocultação de erros
PT147321954T PT3011559T (pt) 2013-06-21 2014-06-23 Aparelho e método para realizar um desvanecimento de um espectro de mdct para ruído branco antes da aplicação de fdns
PT147321962T PT3011563T (pt) 2013-06-21 2014-06-23 Descodificação de áudio com reconstrução de quadros corrompidos ou não recebidos usando tcx ltp
PT147321947T PT3011558T (pt) 2013-06-21 2014-06-23 Aparelho e método para gerar um formato espectral adaptativo de ruído de conforto
PT147321939T PT3011557T (pt) 2013-06-21 2014-06-23 Aparelho e método para desvanecimento de sinal aperfeiçoado para sistemas de codificação de áudio comutado durante a ocultação de erros

Family Applications Before (4)

Application Number Title Priority Date Filing Date
PT147390702T PT3011561T (pt) 2013-06-21 2014-06-23 Aparelho e método para desvanecimento de sinal aperfeiçoado em diferentes domínios durante ocultação de erros
PT147321954T PT3011559T (pt) 2013-06-21 2014-06-23 Aparelho e método para realizar um desvanecimento de um espectro de mdct para ruído branco antes da aplicação de fdns
PT147321962T PT3011563T (pt) 2013-06-21 2014-06-23 Descodificação de áudio com reconstrução de quadros corrompidos ou não recebidos usando tcx ltp
PT147321947T PT3011558T (pt) 2013-06-21 2014-06-23 Aparelho e método para gerar um formato espectral adaptativo de ruído de conforto

Country Status (19)

Country Link
US (14) US9916833B2 (pt)
EP (5) EP3011561B1 (pt)
JP (5) JP6201043B2 (pt)
KR (5) KR101790901B1 (pt)
CN (9) CN105359209B (pt)
AU (5) AU2014283124B2 (pt)
BR (5) BR112015031177B1 (pt)
CA (5) CA2914869C (pt)
ES (5) ES2635555T3 (pt)
HK (5) HK1224009A1 (pt)
MX (5) MX351363B (pt)
MY (5) MY187034A (pt)
PL (5) PL3011563T3 (pt)
PT (5) PT3011561T (pt)
RU (5) RU2675777C2 (pt)
SG (5) SG11201510519RA (pt)
TW (5) TWI569262B (pt)
WO (5) WO2014202786A1 (pt)
ZA (1) ZA201600310B (pt)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6201043B2 (ja) 2013-06-21 2017-09-20 フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. エラー封じ込め中の切替音声符号化システムについての向上した信号フェードアウトのための装置及び方法
FR3024582A1 (fr) 2014-07-29 2016-02-05 Orange Gestion de la perte de trame dans un contexte de transition fd/lpd
US10008214B2 (en) * 2015-09-11 2018-06-26 Electronics And Telecommunications Research Institute USAC audio signal encoding/decoding apparatus and method for digital radio services
CN108352166B (zh) * 2015-09-25 2022-10-28 弗劳恩霍夫应用研究促进协会 使用线性预测编码对音频信号进行编码的编码器和方法
WO2017153300A1 (en) 2016-03-07 2017-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Error concealment unit, audio decoder, and related method and computer program using characteristics of a decoded representation of a properly decoded audio frame
EP3427257B1 (en) * 2016-03-07 2021-05-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Error concealment unit, audio decoder, and related method and computer program fading out a concealed audio frame out according to different damping factors for different frequency bands
KR102158743B1 (ko) * 2016-03-15 2020-09-22 한국전자통신연구원 자연어 음성인식의 성능향상을 위한 데이터 증강장치 및 방법
TWI602173B (zh) * 2016-10-21 2017-10-11 盛微先進科技股份有限公司 音訊處理方法與非暫時性電腦可讀媒體
CN108074586B (zh) * 2016-11-15 2021-02-12 电信科学技术研究院 一种语音问题的定位方法和装置
US10354667B2 (en) * 2017-03-22 2019-07-16 Immersion Networks, Inc. System and method for processing audio data
CN107123419A (zh) * 2017-05-18 2017-09-01 北京大生在线科技有限公司 Sphinx语速识别中背景降噪的优化方法
CN109427337B (zh) 2017-08-23 2021-03-30 华为技术有限公司 立体声信号编码时重建信号的方法和装置
EP3483884A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
EP3483886A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
US10650834B2 (en) 2018-01-10 2020-05-12 Savitech Corp. Audio processing method and non-transitory computer readable medium
EP3553777B1 (en) * 2018-04-09 2022-07-20 Dolby Laboratories Licensing Corporation Low-complexity packet loss concealment for transcoded audio signals
TWI657437B (zh) * 2018-05-25 2019-04-21 英屬開曼群島商睿能創意公司 電動載具以及播放、產生與其相關音頻訊號之方法
EP3821430A1 (en) * 2018-07-12 2021-05-19 Dolby International AB Dynamic eq
CN109117807B (zh) * 2018-08-24 2020-07-21 广东石油化工学院 一种plc通信信号自适应时频峰值滤波方法及系统
US10763885B2 (en) 2018-11-06 2020-09-01 Stmicroelectronics S.R.L. Method of error concealment, and associated device
CN111402905B (zh) * 2018-12-28 2023-05-26 南京中感微电子有限公司 音频数据恢复方法、装置及蓝牙设备
KR102603621B1 (ko) * 2019-01-08 2023-11-16 엘지전자 주식회사 신호 처리 장치 및 이를 구비하는 영상표시장치
WO2020164751A1 (en) 2019-02-13 2020-08-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder and decoding method for lc3 concealment including full frame loss concealment and partial frame loss concealment
WO2020165262A2 (en) 2019-02-13 2020-08-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio transmitter processor, audio receiver processor and related methods and computer programs
CN110265046B (zh) * 2019-07-25 2024-05-17 腾讯科技(深圳)有限公司 一种编码参数调控方法、装置、设备及存储介质
KR102653938B1 (ko) 2019-12-02 2024-04-03 구글 엘엘씨 끊김없는 오디오 혼합을 위한 방법들, 시스템들 및 매체들
TWI789577B (zh) * 2020-04-01 2023-01-11 同響科技股份有限公司 音訊資料重建方法及系統
CN113747304B (zh) * 2021-08-25 2024-04-26 深圳市爱特康科技有限公司 一种新型的低音回放方法和装置
CN114582361B (zh) * 2022-04-29 2022-07-08 北京百瑞互联技术有限公司 基于生成对抗网络的高解析度音频编解码方法及系统

Family Cites Families (173)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4933973A (en) * 1988-02-29 1990-06-12 Itt Corporation Apparatus and methods for the selective addition of noise to templates employed in automatic speech recognition systems
US5097507A (en) 1989-12-22 1992-03-17 General Electric Company Fading bit error protection for digital cellular multi-pulse speech coder
CA2010830C (en) 1990-02-23 1996-06-25 Jean-Pierre Adoul Dynamic codebook for efficient speech coding based on algebraic codes
US5148487A (en) * 1990-02-26 1992-09-15 Matsushita Electric Industrial Co., Ltd. Audio subband encoded signal decoder
TW224191B (pt) 1992-01-28 1994-05-21 Qualcomm Inc
US5271011A (en) 1992-03-16 1993-12-14 Scientific-Atlanta, Inc. Digital audio data muting system and method
SE501340C2 (sv) 1993-06-11 1995-01-23 Ericsson Telefon Ab L M Döljande av transmissionsfel i en talavkodare
US5615298A (en) 1994-03-14 1997-03-25 Lucent Technologies Inc. Excitation signal synthesis during frame erasure or packet loss
JP3328080B2 (ja) 1994-11-22 2002-09-24 沖電気工業株式会社 コード励振線形予測復号器
KR970011728B1 (ko) 1994-12-21 1997-07-14 김광호 음향신호의 에러은닉방법 및 그 장치
FR2729246A1 (fr) * 1995-01-06 1996-07-12 Matra Communication Procede de codage de parole a analyse par synthese
SE9500858L (sv) * 1995-03-10 1996-09-11 Ericsson Telefon Ab L M Anordning och förfarande vid talöverföring och ett telekommunikationssystem omfattande dylik anordning
US5699485A (en) * 1995-06-07 1997-12-16 Lucent Technologies Inc. Pitch delay modification during frame erasures
JP3522012B2 (ja) * 1995-08-23 2004-04-26 沖電気工業株式会社 コード励振線形予測符号化装置
JP3157116B2 (ja) 1996-03-29 2001-04-16 三菱電機株式会社 音声符号化伝送システム
US6075974A (en) * 1996-11-20 2000-06-13 Qualcomm Inc. Method and apparatus for adjusting thresholds and measurements of received signals by anticipating power control commands yet to be executed
JP3649854B2 (ja) * 1997-05-09 2005-05-18 松下電器産業株式会社 音声符号化装置
CN1243621A (zh) * 1997-09-12 2000-02-02 皇家菲利浦电子有限公司 具有改进的丢失部分重构功能的传输系统
KR100335611B1 (ko) 1997-11-20 2002-10-09 삼성전자 주식회사 비트율 조절이 가능한 스테레오 오디오 부호화/복호화 방법 및 장치
ATE302991T1 (de) 1998-01-22 2005-09-15 Deutsche Telekom Ag Verfahren zur signalgesteuerten schaltung zwischen verschiedenen audiokodierungssystemen
US6351730B2 (en) * 1998-03-30 2002-02-26 Lucent Technologies Inc. Low-complexity, low-delay, scalable and embedded speech and audio coding with adaptive frame loss concealment
US20010014857A1 (en) * 1998-08-14 2001-08-16 Zifei Peter Wang A voice activity detector for packet voice network
US6480822B2 (en) * 1998-08-24 2002-11-12 Conexant Systems, Inc. Low complexity random codebook structure
FR2784218B1 (fr) * 1998-10-06 2000-12-08 Thomson Csf Procede de codage de la parole a bas debit
US6424938B1 (en) 1998-11-23 2002-07-23 Telefonaktiebolaget L M Ericsson Complex signal activity detection for improved speech/noise classification of an audio signal
US6289309B1 (en) 1998-12-16 2001-09-11 Sarnoff Corporation Noise spectrum tracking for speech enhancement
US6661793B1 (en) * 1999-01-19 2003-12-09 Vocaltec Communications Ltd. Method and apparatus for reconstructing media
US6640209B1 (en) * 1999-02-26 2003-10-28 Qualcomm Incorporated Closed-loop multimode mixed-domain linear prediction (MDLP) speech coder
US6377915B1 (en) 1999-03-17 2002-04-23 Yrp Advanced Mobile Communication Systems Research Laboratories Co., Ltd. Speech decoding using mix ratio table
CN1129114C (zh) 1999-03-19 2003-11-26 索尼公司 附加信息嵌入方法和设备,以及附加信息解调方法和设备
WO2000063885A1 (en) * 1999-04-19 2000-10-26 At & T Corp. Method and apparatus for performing packet loss or frame erasure concealment
US7117156B1 (en) * 1999-04-19 2006-10-03 At&T Corp. Method and apparatus for performing packet loss or frame erasure concealment
DE19921122C1 (de) 1999-05-07 2001-01-25 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Verschleiern eines Fehlers in einem codierten Audiosignal und Verfahren und Vorrichtung zum Decodieren eines codierten Audiosignals
US6284551B1 (en) * 1999-06-14 2001-09-04 Hyundai Electronics Industries Co., Ltd. Capacitor and method for fabricating the same
US6636829B1 (en) 1999-09-22 2003-10-21 Mindspeed Technologies, Inc. Speech communication system and method for handling lost frames
US6604070B1 (en) 1999-09-22 2003-08-05 Conexant Systems, Inc. System of encoding and decoding speech signals
FI116643B (fi) 1999-11-15 2006-01-13 Nokia Corp Kohinan vaimennus
US6826527B1 (en) 1999-11-23 2004-11-30 Texas Instruments Incorporated Concealment of frame erasures and method
ATE388542T1 (de) * 1999-12-13 2008-03-15 Broadcom Corp Sprach-durchgangsvorrichtung mit sprachsynchronisierung in abwärtsrichtung
GB2358558B (en) * 2000-01-18 2003-10-15 Mitel Corp Packet loss compensation method using injection of spectrally shaped noise
US6584438B1 (en) 2000-04-24 2003-06-24 Qualcomm Incorporated Frame erasure compensation method in a variable rate speech coder
FI115329B (fi) * 2000-05-08 2005-04-15 Nokia Corp Menetelmä ja järjestely lähdesignaalin kaistanleveyden vaihtamiseksi tietoliikenneyhteydessä, jossa on valmiudet useisiin kaistanleveyksiin
US6757654B1 (en) * 2000-05-11 2004-06-29 Telefonaktiebolaget Lm Ericsson Forward error correction in speech coding
EP1199709A1 (en) * 2000-10-20 2002-04-24 Telefonaktiebolaget Lm Ericsson Error Concealment in relation to decoding of encoded acoustic signals
US7031926B2 (en) * 2000-10-23 2006-04-18 Nokia Corporation Spectral parameter substitution for the frame error concealment in a speech decoder
US7171355B1 (en) 2000-10-25 2007-01-30 Broadcom Corporation Method and apparatus for one-stage and two-stage noise feedback coding of speech and audio signals
US7069208B2 (en) * 2001-01-24 2006-06-27 Nokia, Corp. System and method for concealment of data loss in digital audio transmission
US7113522B2 (en) 2001-01-24 2006-09-26 Qualcomm, Incorporated Enhanced conversion of wideband signals to narrowband signals
FR2820227B1 (fr) * 2001-01-30 2003-04-18 France Telecom Procede et dispositif de reduction de bruit
US20040204935A1 (en) * 2001-02-21 2004-10-14 Krishnasamy Anandakumar Adaptive voice playout in VOP
US6520762B2 (en) 2001-02-23 2003-02-18 Husky Injection Molding Systems, Ltd Injection unit
DE60233283D1 (de) * 2001-02-27 2009-09-24 Texas Instruments Inc Verschleierungsverfahren bei Verlust von Sprachrahmen und Dekoder dafer
US7590525B2 (en) * 2001-08-17 2009-09-15 Broadcom Corporation Frame erasure concealment for predictive speech coding based on extrapolation of speech waveform
US7379865B2 (en) 2001-10-26 2008-05-27 At&T Corp. System and methods for concealing errors in data transmission
DE60214027T2 (de) * 2001-11-14 2007-02-15 Matsushita Electric Industrial Co., Ltd., Kadoma Kodiervorrichtung und dekodiervorrichtung
CA2365203A1 (en) 2001-12-14 2003-06-14 Voiceage Corporation A signal modification method for efficient coding of speech signals
WO2003058407A2 (en) 2002-01-08 2003-07-17 Dilithium Networks Pty Limited A transcoding scheme between celp-based speech codes
US20030162518A1 (en) 2002-02-22 2003-08-28 Baldwin Keith R. Rapid acquisition and tracking system for a wireless packet-based communication device
US7492703B2 (en) 2002-02-28 2009-02-17 Texas Instruments Incorporated Noise analysis in a communication system
JP2005520206A (ja) * 2002-03-12 2005-07-07 ディリチウム ネットワークス ピーティーワイ リミテッド オーディオ・トランスコーダにおける適応コードブック・ピッチ・ラグ計算方法
US20030187663A1 (en) * 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
US7174292B2 (en) * 2002-05-20 2007-02-06 Microsoft Corporation Method of determining uncertainty associated with acoustic distortion-based noise reduction
CA2388439A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
JP2004120619A (ja) * 2002-09-27 2004-04-15 Kddi Corp オーディオ情報復号装置
KR100486732B1 (ko) * 2003-02-19 2005-05-03 삼성전자주식회사 블럭제한된 트렐리스 부호화 양자화방법과 음성부호화시스템에있어서 이를 채용한 라인스펙트럼주파수 계수양자화방법 및 장치
US20040202935A1 (en) * 2003-04-08 2004-10-14 Jeremy Barker Cathode active material with increased alkali/metal content and method of making same
CN100546233C (zh) 2003-04-30 2009-09-30 诺基亚公司 用于支持多声道音频扩展的方法和设备
US7433815B2 (en) 2003-09-10 2008-10-07 Dilithium Networks Pty Ltd. Method and apparatus for voice transcoding between variable rate coders
US7224810B2 (en) 2003-09-12 2007-05-29 Spatializer Audio Laboratories, Inc. Noise reduction system
JP4497911B2 (ja) 2003-12-16 2010-07-07 キヤノン株式会社 信号検出装置および方法、ならびにプログラム
CA2457988A1 (en) 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
CN1930607B (zh) * 2004-03-05 2010-11-10 松下电器产业株式会社 差错隐藏装置以及差错隐藏方法
US7620546B2 (en) 2004-03-23 2009-11-17 Qnx Software Systems (Wavemakers), Inc. Isolating speech signals utilizing neural networks
US7454332B2 (en) 2004-06-15 2008-11-18 Microsoft Corporation Gain constrained noise suppression
CN1989548B (zh) * 2004-07-20 2010-12-08 松下电器产业株式会社 语音解码装置及补偿帧生成方法
WO2006032760A1 (fr) 2004-09-16 2006-03-30 France Telecom Procede de traitement d'un signal sonore bruite et dispositif pour la mise en œuvre du procede
SG124307A1 (en) * 2005-01-20 2006-08-30 St Microelectronics Asia Method and system for lost packet concealment in high quality audio streaming applications
KR100612889B1 (ko) 2005-02-05 2006-08-14 삼성전자주식회사 선스펙트럼 쌍 파라미터 복원 방법 및 장치와 그 음성복호화 장치
US7930176B2 (en) * 2005-05-20 2011-04-19 Broadcom Corporation Packet loss concealment for block-independent speech codecs
US8315857B2 (en) 2005-05-27 2012-11-20 Audience, Inc. Systems and methods for audio signal analysis and modification
KR100686174B1 (ko) * 2005-05-31 2007-02-26 엘지전자 주식회사 오디오 에러 은닉 방법
US7831421B2 (en) * 2005-05-31 2010-11-09 Microsoft Corporation Robust decoder
JP4536621B2 (ja) * 2005-08-10 2010-09-01 株式会社エヌ・ティ・ティ・ドコモ 復号装置、および復号方法
US7610197B2 (en) 2005-08-31 2009-10-27 Motorola, Inc. Method and apparatus for comfort noise generation in speech communication systems
DE602005018274D1 (de) * 2005-09-01 2010-01-21 Ericsson Telefon Ab L M Verarbeitung von codierten echtzeitdaten
US8620644B2 (en) 2005-10-26 2013-12-31 Qualcomm Incorporated Encoder-assisted frame loss concealment techniques for audio coding
KR100717058B1 (ko) * 2005-11-28 2007-05-14 삼성전자주식회사 고주파 성분 복원 방법 및 그 장치
US8255207B2 (en) * 2005-12-28 2012-08-28 Voiceage Corporation Method and device for efficient frame erasure concealment in speech codecs
US7457746B2 (en) 2006-03-20 2008-11-25 Mindspeed Technologies, Inc. Pitch prediction for packet loss concealment
US8798172B2 (en) * 2006-05-16 2014-08-05 Samsung Electronics Co., Ltd. Method and apparatus to conceal error in decoded audio signal
US7610195B2 (en) 2006-06-01 2009-10-27 Nokia Corporation Decoding of predictively coded data using buffer adaptation
CN1983909B (zh) * 2006-06-08 2010-07-28 华为技术有限公司 一种丢帧隐藏装置和方法
WO2008007700A1 (fr) * 2006-07-12 2008-01-17 Panasonic Corporation Dispositif de décodage de son, dispositif de codage de son, et procédé de compensation de trame perdue
US7987089B2 (en) * 2006-07-31 2011-07-26 Qualcomm Incorporated Systems and methods for modifying a zero pad region of a windowed frame of an audio signal
US8015000B2 (en) * 2006-08-03 2011-09-06 Broadcom Corporation Classification-based frame loss concealment for audio signals
EP2054876B1 (en) * 2006-08-15 2011-10-26 Broadcom Corporation Packet loss concealment for sub-band predictive coding based on extrapolation of full-band audio waveform
CN101361112B (zh) * 2006-08-15 2012-02-15 美国博通公司 隐藏丢包后解码器状态的更新
CN101155140A (zh) * 2006-10-01 2008-04-02 华为技术有限公司 音频流错误隐藏的方法、装置和系统
US7877253B2 (en) * 2006-10-06 2011-01-25 Qualcomm Incorporated Systems, methods, and apparatus for frame erasure recovery
JP5289319B2 (ja) 2006-10-20 2013-09-11 フランス・テレコム 隠蔽フレーム(パケット)を生成するための方法、プログラムおよび装置
KR101292771B1 (ko) 2006-11-24 2013-08-16 삼성전자주식회사 오디오 신호의 오류은폐방법 및 장치
CN100578618C (zh) * 2006-12-04 2010-01-06 华为技术有限公司 一种解码方法及装置
KR100964402B1 (ko) * 2006-12-14 2010-06-17 삼성전자주식회사 오디오 신호의 부호화 모드 결정 방법 및 장치와 이를 이용한 오디오 신호의 부호화/복호화 방법 및 장치
US8688437B2 (en) * 2006-12-26 2014-04-01 Huawei Technologies Co., Ltd. Packet loss concealment for speech coding
US8275611B2 (en) 2007-01-18 2012-09-25 Stmicroelectronics Asia Pacific Pte., Ltd. Adaptive noise suppression for digital speech signals
KR20080075050A (ko) * 2007-02-10 2008-08-14 삼성전자주식회사 오류 프레임의 파라미터 갱신 방법 및 장치
GB0703275D0 (en) * 2007-02-20 2007-03-28 Skype Ltd Method of estimating noise levels in a communication system
JP4708446B2 (ja) * 2007-03-02 2011-06-22 パナソニック株式会社 符号化装置、復号装置およびそれらの方法
WO2008108721A1 (en) * 2007-03-05 2008-09-12 Telefonaktiebolaget Lm Ericsson (Publ) Method and arrangement for controlling smoothing of stationary background noise
DE102007018484B4 (de) * 2007-03-20 2009-06-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Senden einer Folge von Datenpaketen und Decodierer und Vorrichtung zum Decodieren einer Folge von Datenpaketen
DE602007001576D1 (de) * 2007-03-22 2009-08-27 Research In Motion Ltd Vorrichtung und Verfahren zur verbesserten Maskierung von Rahmenverlusten
US8014519B2 (en) 2007-04-02 2011-09-06 Microsoft Corporation Cross-correlation based echo canceller controllers
JP5023780B2 (ja) * 2007-04-13 2012-09-12 ソニー株式会社 画像処理装置および画像処理方法、並びにプログラム
EP2381580A1 (en) * 2007-04-13 2011-10-26 Global IP Solutions (GIPS) AB Adaptive, scalable packet loss recovery
US8005023B2 (en) 2007-06-14 2011-08-23 Microsoft Corporation Client-side echo cancellation for multi-party audio conferencing
CN101325537B (zh) 2007-06-15 2012-04-04 华为技术有限公司 一种丢帧隐藏的方法和设备
US8489396B2 (en) 2007-07-25 2013-07-16 Qnx Software Systems Limited Noise reduction with integrated tonal noise reduction
US20090055171A1 (en) * 2007-08-20 2009-02-26 Broadcom Corporation Buzz reduction for low-complexity frame erasure concealment
US20090154726A1 (en) 2007-08-22 2009-06-18 Step Labs Inc. System and Method for Noise Activity Detection
CN100524462C (zh) * 2007-09-15 2009-08-05 华为技术有限公司 对高带信号进行帧错误隐藏的方法及装置
CN101141644B (zh) * 2007-10-17 2010-12-08 清华大学 编码集成系统和方法与解码集成系统和方法
BRPI0818927A2 (pt) 2007-11-02 2015-06-16 Huawei Tech Co Ltd Método e aparelho para a decodificação de áudio
CN100585699C (zh) * 2007-11-02 2010-01-27 华为技术有限公司 一种音频解码的方法和装置
CN101430880A (zh) * 2007-11-07 2009-05-13 华为技术有限公司 一种背景噪声的编解码方法和装置
DE102008009719A1 (de) * 2008-02-19 2009-08-20 Siemens Enterprise Communications Gmbh & Co. Kg Verfahren und Mittel zur Enkodierung von Hintergrundrauschinformationen
JP5266341B2 (ja) * 2008-03-03 2013-08-21 エルジー エレクトロニクス インコーポレイティド オーディオ信号処理方法及び装置
FR2929466A1 (fr) 2008-03-28 2009-10-02 France Telecom Dissimulation d'erreur de transmission dans un signal numerique dans une structure de decodage hierarchique
EP2120412A1 (en) * 2008-05-14 2009-11-18 SIDSA (Semiconductores Investigación) Y Diseño SA System and transceiver for DSL communications based on single carrier modulation, with efficient vectoring, capacity approaching channel coding structure and preamble insertion for agile channel adaption
US20090312043A1 (en) 2008-06-13 2009-12-17 Silvus Technologies, Inc. Interference mitigation for devices with multiple receivers
EP2144230A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
MY181231A (en) * 2008-07-11 2020-12-21 Fraunhofer Ges Zur Forderung Der Angenwandten Forschung E V Audio encoder and decoder for encoding and decoding audio samples
CA2836871C (en) * 2008-07-11 2017-07-18 Stefan Bayer Time warp activation signal provider, audio signal encoder, method for providing a time warp activation signal, method for encoding an audio signal and computer programs
EP2144231A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme with common preprocessing
EP2144171B1 (en) * 2008-07-11 2018-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder for encoding and decoding frames of a sampled audio signal
EP2311034B1 (en) * 2008-07-11 2015-11-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder for encoding frames of sampled audio signals
ES2592416T3 (es) 2008-07-17 2016-11-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Esquema de codificación/decodificación de audio que tiene una derivación conmutable
CN102216982A (zh) 2008-09-18 2011-10-12 韩国电子通信研究院 在基于修正离散余弦变换的译码器与异质译码器间转换的编码设备和解码设备
KR101622950B1 (ko) * 2009-01-28 2016-05-23 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 그 장치
US8676573B2 (en) 2009-03-30 2014-03-18 Cambridge Silicon Radio Limited Error concealment
US8718804B2 (en) 2009-05-05 2014-05-06 Huawei Technologies Co., Ltd. System and method for correcting for lost data in a digital audio signal
US8908882B2 (en) * 2009-06-29 2014-12-09 Audience, Inc. Reparation of corrupted audio signals
EP3474279A1 (en) * 2009-07-27 2019-04-24 Unified Sound Systems, Inc. Methods and apparatus for processing an audio signal
CA2777073C (en) 2009-10-08 2015-11-24 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Multi-mode audio signal decoder, multi-mode audio signal encoder, methods and computer program using a linear-prediction-coding based noise shaping
CN102044241B (zh) 2009-10-15 2012-04-04 华为技术有限公司 一种实现通信系统中背景噪声的跟踪的方法和装置
ES2797525T3 (es) * 2009-10-15 2020-12-02 Voiceage Corp Conformación simultánea de ruido en el dominio del tiempo y el dominio de la frecuencia para transformaciones TDAC
US9076439B2 (en) * 2009-10-23 2015-07-07 Broadcom Corporation Bit error management and mitigation for sub-band coding
WO2011065741A2 (ko) 2009-11-24 2011-06-03 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
CN102081926B (zh) * 2009-11-27 2013-06-05 中兴通讯股份有限公司 格型矢量量化音频编解码方法和系统
CN101763859A (zh) * 2009-12-16 2010-06-30 深圳华为通信技术有限公司 音频数据处理方法、装置和多点控制单元
US9008329B1 (en) * 2010-01-26 2015-04-14 Audience, Inc. Noise reduction using multi-feature cluster tracker
US8428959B2 (en) * 2010-01-29 2013-04-23 Polycom, Inc. Audio packet loss concealment by transform interpolation
US8000968B1 (en) * 2011-04-26 2011-08-16 Huawei Technologies Co., Ltd. Method and apparatus for switching speech or audio signals
CN101937679B (zh) * 2010-07-05 2012-01-11 展讯通信(上海)有限公司 音频数据帧的错误掩盖方法及音频解码装置
CN101894558A (zh) * 2010-08-04 2010-11-24 华为技术有限公司 丢帧恢复方法、设备以及语音增强方法、设备和系统
EP2458585B1 (en) * 2010-11-29 2013-07-17 Nxp B.V. Error concealment for sub-band coded audio signals
KR20120080409A (ko) 2011-01-07 2012-07-17 삼성전자주식회사 잡음 구간 판별에 의한 잡음 추정 장치 및 방법
US8983833B2 (en) 2011-01-24 2015-03-17 Continental Automotive Systems, Inc. Method and apparatus for masking wind noise
KR101551046B1 (ko) * 2011-02-14 2015-09-07 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 저-지연 통합 스피치 및 오디오 코딩에서 에러 은닉을 위한 장치 및 방법
DK3067888T3 (en) * 2011-04-15 2017-07-10 ERICSSON TELEFON AB L M (publ) DECODES FOR DIMAGE OF SIGNAL AREAS RECONSTRUCTED WITH LOW ACCURACY
TWI435138B (zh) 2011-06-20 2014-04-21 Largan Precision Co 影像拾取光學系統
JP5817366B2 (ja) 2011-09-12 2015-11-18 沖電気工業株式会社 音声信号処理装置、方法及びプログラム
CN107068156B (zh) * 2011-10-21 2021-03-30 三星电子株式会社 帧错误隐藏方法和设备以及音频解码方法和设备
CN102750955B (zh) * 2012-07-20 2014-06-18 中国科学院自动化研究所 基于残差信号频谱重构的声码器
US9532139B1 (en) 2012-09-14 2016-12-27 Cirrus Logic, Inc. Dual-microphone frequency amplitude response self-calibration
TWI606440B (zh) 2012-09-24 2017-11-21 三星電子股份有限公司 訊框錯誤隱藏裝置
CN103714821A (zh) 2012-09-28 2014-04-09 杜比实验室特许公司 基于位置的混合域数据包丢失隐藏
EP2757559A1 (en) 2013-01-22 2014-07-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for spatial audio object coding employing hidden objects for signal mixture manipulation
CA2899542C (en) 2013-01-29 2020-08-04 Guillaume Fuchs Noise filling without side information for celp-like coders
FR3004876A1 (fr) 2013-04-18 2014-10-24 France Telecom Correction de perte de trame par injection de bruit pondere.
JP6201043B2 (ja) 2013-06-21 2017-09-20 フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. エラー封じ込め中の切替音声符号化システムについての向上した信号フェードアウトのための装置及び方法
US20150024355A1 (en) 2013-07-18 2015-01-22 Quitbit, Inc. Lighter and method for monitoring smoking behavior
US10210871B2 (en) * 2016-03-18 2019-02-19 Qualcomm Incorporated Audio processing for temporally mismatched signals
CN110556116B (zh) * 2018-05-31 2021-10-22 华为技术有限公司 计算下混信号和残差信号的方法和装置

Also Published As

Publication number Publication date
AU2014283123B2 (en) 2016-10-20
SG11201510508QA (en) 2016-01-28
EP3011561B1 (en) 2017-05-03
AU2014283196A1 (en) 2016-02-11
TW201508737A (zh) 2015-03-01
CA2914869C (en) 2018-06-05
KR20160022363A (ko) 2016-02-29
PT3011559T (pt) 2017-10-30
JP6190052B2 (ja) 2017-08-30
MX351363B (es) 2017-10-11
JP6196375B2 (ja) 2017-09-13
PL3011559T3 (pl) 2017-12-29
TWI569262B (zh) 2017-02-01
CN105359210B (zh) 2019-06-14
US20160111095A1 (en) 2016-04-21
CA2914895C (en) 2018-06-12
CN110164459A (zh) 2019-08-23
RU2016101605A (ru) 2017-07-26
US11501783B2 (en) 2022-11-15
EP3011559A1 (en) 2016-04-27
HK1224423A1 (zh) 2017-08-18
ES2780696T3 (es) 2020-08-26
ES2639127T3 (es) 2017-10-25
BR112015031180A2 (pt) 2017-07-25
CN105378831A (zh) 2016-03-02
MX347233B (es) 2017-04-19
US20180268825A1 (en) 2018-09-20
ZA201600310B (en) 2018-05-30
HK1224076A1 (zh) 2017-08-11
EP3011558B1 (en) 2017-07-26
US20200312338A1 (en) 2020-10-01
KR20160022364A (ko) 2016-02-29
US11462221B2 (en) 2022-10-04
EP3011558A1 (en) 2016-04-27
RU2016101604A (ru) 2017-07-26
CN110299147B (zh) 2023-09-19
BR112015031606B1 (pt) 2021-12-14
KR101787296B1 (ko) 2017-10-18
US9978376B2 (en) 2018-05-22
BR112015031177B1 (pt) 2021-12-14
CA2913578C (en) 2018-05-22
MY187034A (en) 2021-08-27
JP6201043B2 (ja) 2017-09-20
US10672404B2 (en) 2020-06-02
KR101785227B1 (ko) 2017-10-12
US20160104489A1 (en) 2016-04-14
US9916833B2 (en) 2018-03-13
SG11201510353RA (en) 2016-01-28
EP3011557A1 (en) 2016-04-27
US10607614B2 (en) 2020-03-31
JP2016532143A (ja) 2016-10-13
MX355257B (es) 2018-04-11
KR101790902B1 (ko) 2017-10-26
KR101790901B1 (ko) 2017-10-26
AU2014283124B2 (en) 2016-10-20
MY190900A (en) 2022-05-18
PT3011561T (pt) 2017-07-25
RU2665279C2 (ru) 2018-08-28
AU2014283198A1 (en) 2016-02-11
CN105359210A (zh) 2016-02-24
CN105378831B (zh) 2019-05-31
US20180233153A1 (en) 2018-08-16
US20180261230A1 (en) 2018-09-13
PL3011563T3 (pl) 2020-06-29
CA2916150A1 (en) 2014-12-24
MX351577B (es) 2017-10-18
RU2016101469A (ru) 2017-07-24
CN105431903A (zh) 2016-03-23
EP3011561A1 (en) 2016-04-27
MY182209A (en) 2021-01-18
PL3011561T3 (pl) 2017-10-31
RU2016101521A (ru) 2017-07-26
JP6214071B2 (ja) 2017-10-18
CN105340007A (zh) 2016-02-17
JP2016522453A (ja) 2016-07-28
TW201508736A (zh) 2015-03-01
TW201508740A (zh) 2015-03-01
RU2016101600A (ru) 2017-07-26
US11776551B2 (en) 2023-10-03
WO2014202786A1 (en) 2014-12-24
US20180151184A1 (en) 2018-05-31
TW201508738A (zh) 2015-03-01
AU2014283123A1 (en) 2016-02-04
CN105359209A (zh) 2016-02-24
CA2914869A1 (en) 2014-12-24
MY181026A (en) 2020-12-16
BR112015031343B1 (pt) 2021-12-14
SG11201510352YA (en) 2016-01-28
US10679632B2 (en) 2020-06-09
MX351576B (es) 2017-10-18
MX2015017126A (es) 2016-04-11
AU2014283194B2 (en) 2016-10-20
CA2915014A1 (en) 2014-12-24
SG11201510519RA (en) 2016-01-28
MX2015018024A (es) 2016-06-24
HK1224424A1 (zh) 2017-08-18
TWI564884B (zh) 2017-01-01
US20160104497A1 (en) 2016-04-14
JP6360165B2 (ja) 2018-07-18
RU2666250C2 (ru) 2018-09-06
US11869514B2 (en) 2024-01-09
AU2014283198B2 (en) 2016-10-20
CA2914895A1 (en) 2014-12-24
AU2014283194A1 (en) 2016-02-04
BR112015031178A2 (pt) 2017-07-25
AU2014283196B2 (en) 2016-10-20
KR20160021295A (ko) 2016-02-24
TW201508739A (zh) 2015-03-01
TWI587290B (zh) 2017-06-11
US20200258530A1 (en) 2020-08-13
CN110265044A (zh) 2019-09-20
US20160104487A1 (en) 2016-04-14
EP3011559B1 (en) 2017-07-26
EP3011563B1 (en) 2019-12-25
AU2014283124A1 (en) 2016-02-11
BR112015031178B1 (pt) 2022-03-22
BR112015031343A2 (pt) 2017-07-25
BR112015031606A2 (pt) 2017-07-25
HK1224425A1 (zh) 2017-08-18
US10867613B2 (en) 2020-12-15
CN110289005B (zh) 2024-02-09
ES2635027T3 (es) 2017-10-02
US20210142809A1 (en) 2021-05-13
SG11201510510PA (en) 2016-01-28
US20200258529A1 (en) 2020-08-13
US9978377B2 (en) 2018-05-22
JP2016523381A (ja) 2016-08-08
CN110164459B (zh) 2024-03-26
PL3011557T3 (pl) 2017-10-31
US20180308495A1 (en) 2018-10-25
RU2658128C2 (ru) 2018-06-19
WO2014202790A1 (en) 2014-12-24
ES2635555T3 (es) 2017-10-04
CN110289005A (zh) 2019-09-27
CN105340007B (zh) 2019-05-31
CN105431903B (zh) 2019-08-23
CA2913578A1 (en) 2014-12-24
WO2014202789A1 (en) 2014-12-24
EP3011563A1 (en) 2016-04-27
CN110265044B (zh) 2023-09-12
KR20160022886A (ko) 2016-03-02
CA2916150C (en) 2019-06-18
HK1224009A1 (zh) 2017-08-11
US20160104488A1 (en) 2016-04-14
WO2014202784A1 (en) 2014-12-24
CN110299147A (zh) 2019-10-01
PT3011558T (pt) 2017-10-05
KR20160022365A (ko) 2016-02-29
CN105359209B (zh) 2019-06-14
TWI553631B (zh) 2016-10-11
ES2644693T3 (es) 2017-11-30
MX2015016892A (es) 2016-04-07
BR112015031177A2 (pt) 2017-07-25
PL3011558T3 (pl) 2017-12-29
RU2676453C2 (ru) 2018-12-28
MX2015017261A (es) 2016-09-22
MY170023A (en) 2019-06-25
WO2014202788A1 (en) 2014-12-24
US9978378B2 (en) 2018-05-22
PT3011563T (pt) 2020-03-31
BR112015031180B1 (pt) 2022-04-05
KR101788484B1 (ko) 2017-10-19
JP2016526704A (ja) 2016-09-05
CA2915014C (en) 2020-03-31
JP2016527541A (ja) 2016-09-08
US10854208B2 (en) 2020-12-01
RU2675777C2 (ru) 2018-12-24
TWI575513B (zh) 2017-03-21
US9997163B2 (en) 2018-06-12
US20210098003A1 (en) 2021-04-01
EP3011557B1 (en) 2017-05-03

Similar Documents

Publication Publication Date Title
US11462221B2 (en) Apparatus and method for generating an adaptive spectral shape of comfort noise