PT2951821T - Conceito para codificar a compensação de comutação de modo - Google Patents

Conceito para codificar a compensação de comutação de modo Download PDF

Info

Publication number
PT2951821T
PT2951821T PT147019780T PT14701978T PT2951821T PT 2951821 T PT2951821 T PT 2951821T PT 147019780 T PT147019780 T PT 147019780T PT 14701978 T PT14701978 T PT 14701978T PT 2951821 T PT2951821 T PT 2951821T
Authority
PT
Portugal
Prior art keywords
switching
information signal
coding mode
decoder
spectral band
Prior art date
Application number
PT147019780T
Other languages
English (en)
Inventor
Dietz Martin
Multrus Markus
schubert Benjamin
Fotopoulou Eleni
Lecomte Jérémie
Original Assignee
Fraunhofer Ges Forschung
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Ges Forschung filed Critical Fraunhofer Ges Forschung
Publication of PT2951821T publication Critical patent/PT2951821T/pt

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques

Description

DESCRIÇÃO
CONCEITO PARA CODIFICAR A COMPENSAÇÃO DE COMUTAÇÃO DE MODO 0 presente pedido está relacionado com a codificação do sinal de informação utilizando diferentes modos de codificação diferindo, por exemplo, na largura de banda codificada efetiva e/ou propriedade de preservação de energia.
Em [1], [2] e [3] é proposto lidar com restrições curtas da largura de banda extrapolando o conteúdo ausente através de uma BWE cega de uma forma preditiva. Contudo, esta abordagem não abrange casos, nos quais a largura de banda muda numa base de longa duração. Também, não há consideração de diferentes propriedades de preservação de energia (por exemplo, BWE cegas geralmente têm atenuações de energia significativas para as altas frequências comparadas com um núcleo de banda total).
Codecs utilizando modos para variar a largura de banda são descritos em [4] e [5].
Em formas de realização de comunicação móvel, as variações da taxa de dados disponível que também afetam a taxa de bit do codec utilizado poderão não ser raras. Portanto, deve ser favorável poder comutar o codec entre diferentes definições dependendo da taxa de bits e/ou de melhorias. Ao comutar entre diferentes BWEs e, por exemplo, um núcleo de banda total é direcionado, descontinuidades podem ocorrer devido a diferentes larguras de banda de saída efetivas ou propriedades de preservação de energia variáveis. Mais precisamente, diferentes BWEs ou definições de BWE podem ser utilizadas dependentes do ponto operacional e taxa de bit (veja a figura 1) . Tipicamente, para taxas de bit muito baixas um esquema de extensão da largura de banda cega é preferido, para focar a taxa de bit disponível no codificador central mais importante. A extensão da largura de banda cega tipicamente sintetiza uma largura de banda extra pequena no topo do codificador central sem qualquer informação adicional. Para evitar a introdução de artefactos (por exemplo, por ultrapassagens de energia ou amplificação de componentes deslocados) pela BWE cega, a largura de banda extra é geralmente muito limitada em termos de energia. Para taxas de bit médias, é no geral recomendável substituir a BWE cega por uma abordagem da BWE guiada. Esta abordagem guiada utiliza informação adicional paramétrica para energia e modelação da largura de banda extra sintetizada. Por esta abordagem e comparado à BWE cega, uma largura de banda mais ampla na energia mais alta pode ser sintetizada. Para as taxas de bit altas, é recomendável codificar a largura de banda completa no domínio do codificador central, ou seja, sem extensão da largura de banda. Isso tipicamente fornece uma preservação quase perfeita da largura de banda e energia. LEI MI AO HUAWEI TECNOLOGIES CHINA JONGMO SUNG ETRI KOREA ET AL, "G.722-SWB: Proposed draft specification for the superwideband embedded extension for ITU-T G.722;C 463, ITU-T DRAFT; Study Period 2009-2012, INTERNATIONAL TELECOMUNICATION UNION, GENEVA; CH, (20100707), vol. 10/16 página 1-89 XP017452452 representa uma contribuição para a extensão embebida da superlargura de banda para ITU-TG.722. De acordo com esta proposta, a largura de banda completa é dividida em duas porções, em que a porção da largura de banda alta é codificada utilizando larguras de banda guiadas somente, ao passo que a porção de mais baixas frequências é codificada utilizando AMR WB. Neste documento Dl, possíveis medidas são discutidas de forma a apresentar contramedidas contra o distúrbio perceptual resultante da comutação de largura de banda, isto é, ligar e desligar a extensão SWB na porção de alta frequência devido às variações na alocação de taxa de bits. O documento distingue comutações entre banda superlarga e banda larga e comutações entre banda larga e banda superlarga. No primeiro caso, extensão de largura de banda cega é utilizada para preliminarmente preencher a porção de alta frequência com energia decrescente. No último caso, a porção de alta frequência preenchida de acordo com o modo de super largura de banda é preliminarmente atenuado. Sem ter em consideração as contramedidas contra o distúrbio perceptual induzido pela comutação de largura de banda, o documento descreve a possibilidade de executar um amaciamento temporal utilizando um filtro FIR de 4 batidas aplicado ao sinal no domínio de tempo para a porção de alta frequência. US20110153336 Al está relacionada com um esquema melhorado para a codificação de áudio. Em particular, o esquema compreende a forma de realização de um primeiro modo ao sinal de entrada para qerar um primeiro sinal de saída e aplicar um sequndo modo ao sinal de entrada para qerar um sequndo sinal de saída. Um primeiro sinal de saída processado é então gerado utilizando pelo menos uma parte do primeiro sinal de saída, e um sequndo sinal de saída processado é qerado utilizando pelo menos uma parte do segundo sinal de saída. Gerar um segundo sinal de saída compreende estimar uma parte do sinal de entrada a partir de pelo menos uma parte do segundo sinal de saída. Então, um modo ótimo é determinado com base no primeiro sinal de saída processado e no segundo sinal de saída processado, e o sinal de saída de acordo com o modo ótimo é selecionado.
Desta forma, é um objeto da presente invenção fornecer um conceito para melhorar a qualidade de codecs que suportam a comutação entre os diferentes modos de codificação, especialmente nas transições entre os diferentes modos de codificação.
Este objeto é obtido pelo assunto das reivindicações independentes pendentes, em que os aspetos acessórios mais vantajosos são o assunto das reivindicações dependentes. É uma constatação na qual o presente pedido é baseado em que um codec permitindo a comutação entre diferentes modos de codificação pode ser melhorado, ter responsividade a uma instância de comutação, realizando o um amaciamento temporal e/ou misturando-se na respetiva transição.
De acordo com uma forma de realização, a comutação ocorre entre um modo de codificação de áudio da largura de banda total por um lado e um modo de codificação de áudio da largura de sub-banda ou de BWE, por outro lado. De acordo com uma outra forma de realização, de forma adicional ou alternativa, o amaciamento temporal e/ou a mistura é realizada nas instâncias de comutação que comutam entre os modos de codificação por BWE cega e de BWE guiada.
Para além da constatação descrita acima, de acordo com um outro aspeto do presente pedido, os inventores do presente pedido observaram que o amaciamento temporal e/ou a mistura pode ser utilizada para a melhoria da codificação multimodos ainda nas instâncias de comutação entre os modos de codificação, a largura de banda codificada efetiva que realmente sobrepõe com uma banda espectral de alta frequência dentro da qual o amaciamento temporal e/ou a mistura é espectralmente realizado. Para ser mais preciso, de acordo com uma forma de realização do presente pedido, a banda espectral de alta frequência dentro da qual o amaciamento temporal e/ou a mistura nas transições é realizado, espectralmente sobrepõe com a largura de banda codificada efetiva de ambos os modos de codificação entre os quais a comutação na instância de comutação ocorre. Por exemplo, a banda espectral de alta frequência pode sobrepor a parte de extensão da largura de banda de um dos dois modos de codificação, ou seja, a porção de alta frequência na qual, de acordo com um dos dois modos de codificação, o espectro é estendido utilizando BWE. Desde que outro para além dos dois modos de codificação seja referido, a banda espectral de alta frequência pode, por exemplo, sobrepor um espectro de transformada ou um espectro codificado linearmente previsto ou uma parte de extensão da largura de banda deste modo de codificação. A melhoria resultante então resulta do facto que diferentes modos de codificação podem, ainda nas partes espectrais onde suas larguras de banda codificada efetivas se sobrepõem, ter diferentes propriedades de preservação de energia de modo que ao codificar um sinal de informação, limites/pulos temporais artificiais podem resultar no espectrograma do sinal de informação. 0 amaciamento temporal e/ou a mistura reduz os efeitos negativos.
De acordo com uma forma de realização do presente pedido, o amaciamento temporal e/ou a mistura é realizado adicionalmente dependendo de uma análise do sinal de informação numa banda espectral de análise disposta espectralmente abaixo da banda espectral de alta frequência. Por esta medida, é viável suprimir, ou adaptar um grau de, amaciamento temporal e/ou mistura, dependente de uma medição do flutuação da energia do sinal de informação na banda espectral de análise. Se a flutuação for alta, o amaciamento e/ou mistura pode não remover intencionalmente, ou desvantajosamente, as flutuações de energia na banda espectral de alta frequência do sinal original, assim levando potencialmente a uma degradação da qualidade do sinal de informação.
Embora a forma de realização ainda descrita abaixo seja direcionada à codificação de áudio, deve estar claro que a presente invenção é ainda vantajosa, e também pode ser vantajosamente utilizada, com relação a outros tipos de sinais de informação, como sinais de medição, sinais de transmissão de dados ou semelhantes. Todas as formas de realização devem, certamente, ainda ser tratadas como apresentando uma forma de realização para estes outros tipos de sinais de informação.
As formas de realização preferidas do presente pedido são descritas mais abaixo com relação às figuras, entre elas A Figura 1 mostra esquematicamente, utilizando uma distribuição em escala de cinza espectro-temporal, exemplificativamente BWEs e núcleo de banda total com diferentes larguras de banda efetivas e propriedades de preservação de energia; A Figura 2 mostra esquematicamente um gráfico que mostra um exemplo para a diferença em núcleos espectrais da propriedade de preservação de energia de diferentes modos de codificação da figura 1; A Figura 3 mostra esquematicamente um codificador que suporta diferentes modos de codificação em conexão com as formas de realização do presente pedido que podem ser utilizadas; A Figura 4 mostra esquematicamente um descodificador que suporta diferentes modos de codificação com adicionalmente esquematicamente ilustrando funcionalidades exemplificativos na comutação, numa banda espectral de alta frequência, de propriedades de preservação de energia mais altas a mais baixas; A Figura 5 mostra esquematicamente um descodificador que suporta diferentes modos de codificação com adicionalmente esquematicamente ilustrando exemplificativamente as funcionalidades na comutação, numa banda espectral de alta frequência, de propriedades de preservação de energia mais baixas a mais altas;
As Figuras 6a-6d esquematicamente mostram diferentes exemplos para modos de codificação, os dados transportados dentro do fluxo de dados para estes modos de codificação, e funcionalidades dentro do descodificador para manusear os respetivos modos de codificação;
As Figuras 7a-7c mostram esquematicamente diferentes formas de como um descodificador pode realizar o amaciamento temporal temporário/misturas das figuras 4 e 5 nas instâncias de comutação; A Figura 8 mostra esquematicamente um gráfico que mostra os exemplos para os espectros de períodos de tempo consecutivos mutualmente encostando entre si através de uma instância de comutação, ao longo com a variação espectral de propriedade de preservação de energia dos modos de codificação associados destas porções temporais de acordo com um exemplo a fim de ilustrar o controlo adaptativo por sinal do amaciamento/mistura temporal da figura 9; A Figura 9 mostra esquematicamente um controlo adaptativo por sinal do amaciamento/mistura temporal de acordo com uma forma de realização; A Figura 10 mostra as posições dos mosaicos espectro-temporais nos quais as energias são avaliadas e utilizadas de acordo com uma forma de realização do amaciamento adaptativo por sinal específico; A Figura 11 mostra um diagrama de fluxo realizado de acordo com uma forma de realização de amaciamento adaptativo por sinal dentro de um descodificador; A Figura 12 mostra um diagrama de fluxo de uma mistura da largura de banda realizado dentro de um descodificador de acordo com uma forma de realização; A Figura 13a mostra uma porção espectro-temporal ao redor da instância de comutação a fim de ilustrar o mosaico espectro-temporal dentro da qual a mistura é realizada de acordo com a figura 12; A Figura 13b mostra a variação temporal do fator de mistura de acordo com a forma de realização da figura 12; A Figura 14a mostra esquematicamente uma variação da forma de realização da figura 12 a fim de considerar as instâncias de comutação que ocorrem durante a mistura; e A Figura 14b mostra a variação resultante da variação temporal do fator de mistura no caso da variante da figura 14a.
Antes de descrever as formas de realização do presente pedido mais abaixo, uma referência é brevemente feita novamente à figura 1 a fim de motivar e esclarecer o ensinamento e pensamentos subjacentes às seguintes formas de realização. A figura 1 mostra, de forma exemplificativa, uma parte fora de um sinal de áudio que é, de forma exemplificativa, consecutivamente codificado utilizando três diferentes modos de codificação, a saber BWE cega numa primeira porção temporal 10, BWE guiada numa segunda porção temporal 12 e núcleo de banda total codificando numa terceira porção temporal 14. Em particular, a figura 1 mostra uma representação codificada em escala de cinza bidimensional que mostra a variação da propriedade de preservação de energia com a qual o sinal de áudio é codificado, espectro-temporalmente, ou seja, adicionando um eixo espectral 16 ao eixo temporal 18. Os detalhes mostrados e descritos com relação aos três diferentes modos de codificação mostrados na figura 1 devem ser tratados meramente como sendo ilustrativos para as seguintes formas de realização, mas estes detalhes auxiliam o entendimento das seguintes formas de realização e suas vantagens resultantes delas, de modo que estes detalhes são descritos a seguir.
Em particular, conforme mostrado pelo uso da representação em escala de cinza da figura 1, o modo de codificação do núcleo de banda total, preserva substancialmente a energia do sinal de áudio sobre a largura de banda total que se estende de 0 a fstop,core2 · Na figura 2, o curso espectral da propriedade de preservação de energia do núcleo de banda total Ê é graficamente mostrado sobre frequência f em 20. Aqui, a codificação de transformada é, de forma exemplificativa, utilizada com o intervalo de transformada continuamente se estendendo de 0 a fstop,core2 · Por exemplo, de acordo com o modo 20, uma transformada revestida criticamente amostrada pode ser utilizada para decompor o sinal de áudio, assim, com a codificação das linhas espectrais resultantes desta utilizando, por exemplo, quantização e codificação por entropia. De modo alternativo, o modo do núcleo de banda total pode ser do tipo preditivo linear tal como CELP ou ACELP.
Os dois modos de codificação de BWE, de forma exemplificativa, ilustrados nas figuras 1 e 2 ainda codificam uma parte de baixa frequência utilizando um modo de codificação central como o modo de codificação de transformada ou modo de codificação preditiva linear já descritos, mas neste momento a codificação central relaciona-se meramente a uma parte de baixa frequência da largura de banda total que varia de 0 a fstop,corei < fstop,core2· Os componentes espectrais do sinal de áudio acima fstop,corei são parametricamente codificados no caso da extensão da largura de banda guiada até uma frequência fstop,BWE2/ e sem informação adicional no fluxo de dados, ou seja, cegamente, no caso cego da extensão do modo da largura de banda entre fstop,corei e fstop,BWEi em que nO caso da figura 2, fstop,Corel ^ fstop,BWE1 ^ fstop,BWE2 ^ fstop,Core2·
De acordo com a extensão da largura de banda cega, por exemplo, um descodificador estima de acordo com este modo de codificação de BWE cega, a parte de extensão da largura de banda fstop,corei a f stop, bwe i da parte de codificação central estendendo-se de 0 a fst0p, corei sem qualquer informação adicional contida no fluxo de dados para além da codificação da parte do sinal de áudio espectro da codificação central. Devido à forma não guiada em que o espectro do sinal de áudio codificado até a frequência de paragem da codificação central fstop,corem a largura da parte de extensão da largura de banda da BWE cega é geralmente, mas não necessariamente, menor do que a largura da parte de extensão da largura de banda do modo de BWE guiada que se estende de fstop,corei a fstop,bwe2 · Na BWE guiada, o sinal de áudio é codificado utilizando o modo de codificação central desde que a parte de codificação central espectral se estendendo de 0 a fstoP,corei é referida, mas os dados da informação adicional paramétrica são fornecidos para permitir que o lado de descodificação estime o sinal de áudio espectro para além da frequência de cruzamento fstop,corei dentro da parte de extensão da largura de banda que se estende de fstop,corei a fstop,bwe2· Por exemplo, esta informação adicional paramétrica compreende dados de envelope que descrevem o envelope do sinal de áudio numa resolução espectro-temporal que é mais grosseira do que a resolução espectro-temporal na qual, ao utilizar a codificação de transformada, o sinal de áudio é codificado na parte de codificação central utilizando a codificação central. Por exemplo, o descodificador pode replicar o espectro dentro da parte de codificação central para preliminarmente preencher a parte vazia do sinal de áudio entre fstop,corei s fstop,bwe2 assim, modelando depois este estado pré- preenchido com a utilização dos dados de envelope transmitidos.
As figuras 1 e 2 revelam que a comutação entre os modos de codificação exemplificativos podem causar artefactos desagradáveis, ou seja, perceptíveis nas instâncias de comutação entre estes modos de codificação. Por exemplo, ao comutar entre BWE guiada por um lado e modo de codificação da largura de banda total por outro lado, é claro que enquanto o modo de codificação da largura de banda total reconstrói corretamente, ou seja, codifica efetivamente, os componentes espectrais dentro da parte espectral fstop,BWE2 e fstop,core2, o modo de BWE guiada ainda não pode codificar qualquer coisa do sinal de áudio dentro desta parte espectral. Certamente, a comutação de BWE guiada para codificação FB pode causar um surgimento repentino desvantajoso de componentes espectrais do sinal de áudio dentro desta parte espectral, e comutar na direção oposta, ou seja, da codificação FB central a BWE guiada, que pode por sua vez causar um fade-out repentino destes componentes espectrais. Isso pode, contudo, causar artefactos na reprodução do sinal de áudio. A área espectral onde, comparado ao modo de codificação central de largura de banda total, nada da energia do sinal de áudio original é preservado, é ainda elevado no caso de BWE cega e certamente, a área espectral do surgimento repentino e/ou fade-out repentino já descrito com relação a BWE guiada ainda ocorre com BWE cega e comutação entre este modo e o modo de codificação central FB, com a parte espectral, contudo, sendo aumentada e estendendo — se de fstop,BWEi 3- fstop,core2·
Contudo, as partes espectrais onde os artefactos irritantes podem resultar da comutação entre diferentes modos de codificação não são restritas às partes espectrais onde um dos modos de codificação em que a instância de comutação ocorre é completamente desprovido de codificação, ou seja, não é restrito às partes espectrais fora de um dos modos de codificação com largura de banda com codificação efetiva. Por outro lado, como é mostrado nas figuras 1 e 2, há partes uniformes onde realmente ambos os modos de codificação da instância de comutação ocorrem são realmente efetivos, mas onde a propriedade de preservação de energia destes modos de codificação difere de tal modo que os artefactos irritantes podem ainda resultar dela. Por exemplo, na instância de comutação entre codificação FB central e BWE guiada, ambos os modos de codificação são efetivos dentro da parte espectral fstop,corei e fstop,BWE2, mas enquanto o modo de codificação central FB 20 conserva substancialmente a energia do sinal de áudio dentro desta parte espectral, a propriedade de preservação de energia de BWE guiada dentro desta parte espectral é substancialmente reduzida, e certamente o aumento/redução repentino ao comutar entre estes dois modos de codificação pode ainda causar artefactos perceptiveis.
Os cenários de comutação descritos acima são meramente direcionados para serem representativos. Há outros pares de modos de codificação, em que a comutação entre os quais causa, ou pode causar, artefactos irritantes. Isso é verdadeiro, por exemplo, para uma comutação entre BWE cega por um lado e BWE guiada por outro lado, ou comutação entre qualquer codificação de BWE cega, BWE guiada e codificação FB por um lado e a codificação subjacente à BWE cega e BWE guiada por outro lado ou ainda entre diferentes codificadores de núcleo de banda total com propriedades de preservação de energia desiguais.
As formas de realização descritas mais abaixo superam os efeitos negativos resultantes das circunstâncias descritas acima ao comutar entre diferentes modos de codificação.
Antes de descrever estas formas de realização, contudo, é brevemente explicado com relação à figura 3, que mostra um codificador exemplificativo que suporta diferentes modos de codificação, como o codificador pode, por exemplo, decidir sobre o modo de codificação atualmente utilizado entre os vários modos de codificação suportados a fim de melhor entender porque a comutação entre eles pode resultar nas artefactos perceptíveis descritas acima. 0 codificador mostrado na figura 3 é geralmente indicado utilizando o sinal de referência 30, que recebe um sinal de informação, ou seja, aqui um sinal de áudio, 32 na sua entrada e saida de um fluxo de dados 34 representando/codifiçando o sinal de áudio 32, na sua saida. Conforme já descrito, o codificador 30 suporta uma pluralidade de modos de codificação de diferentes propriedades de preservação de energia como, de forma exemplificativa, descrito em relação ás figuras 1 e 2. O sinal de áudio 32 pode ser visto como sendo não distorcido, como tendo uma largura de banda representada de 0 até alguma frequência máxima como metade da taxa de amostragem do sinal de áudio 32. O espectro do sinal de áudio original ou espectrograma é mostrado na figura 3 em 36. O codificador de áudio 30 comuta, durante a codificação do sinal de áudio 32, entre diferentes modos de codificação como os descritos acima com relação às figuras 1 e 2, num fluxo de dados 34. Desta forma, o sinal de áudio pode ser reconstruído do fluxo de dados 34, contudo, com a preservação de energia na região de frequência mais alta de acordo com a comutação entre os diferentes modos de codificação. Observe, por exemplo, o espectro do sinal de áudio/espectrograma como reconstruído do fluxo de dados 34 na figura 3 em 38, em que três instâncias de comutação A, B e C são, de forma exemplificativa, mostrados. Na frente da comutação A, o codificador 30 utiliza um modo de codificação que codifica o sinal de áudio 32 até alguma frequência máxima fmax,coci ^ fmax com substancialmente, por exemplo, preservação da energia pela largura de banda completa 0 a fmax,cod· Entre as instâncias de comutação A e B, por exemplo, o codificador 30 utiliza um modo de codificação que, conforme mostrado em 40, tem uma largura de banda codificada efetiva que meramente se estende até a frequência fi < fmax,cod com, por exemplo, substancialmente propriedade de preservação de energia constante por esta largura de banda, e entre as instâncias de comutação B e C, o codificador 30 utiliza, de forma exemplificativa, um modo de codificação que ainda tem uma largura de banda codificada efetiva estendendo-se até fmax,cocn mas com propriedade de preservação de energia reduzida em relação ao modo de codificação da largura de banda total antes do caso A desde que a faixa espectral entre fi a fmax,cocn seja referida, conforme é mostrado em 42.
Certamente, nas instâncias de comutação, problemas em relação a artefactos perceptíveis podem ocorrer conforme eles foram discutidos acima em relação às figuras 1 e 2. O codificador 30 pode, contudo, para além dos problemas, decidir comutar entre os modos de codificação nas instâncias de comutação de A a C, recetivos a sinais de controlo externos 44. Estes sinais de controlo externos 44 podem, por exemplo, originar de um sistema de transmissão responsável pela transmissão do fluxo de dados 34. Por exemplo, os sinais de controlo 44 podem indicar ao codificador 30 uma largura de banda de transmissão disponível de modo que o codificador 30 possa adaptar a taxa de bit do fluxo de dados 34 para atender, ou seja, para estar abaixo ou igual a, à taxa de bit disponível indicada. Dependendo desta taxa de bit disponível, contudo, o ótimo modo de codificação entre os modos de codificação disponíveis do codificador 30 pode mudar. O "ótimo modo de codificação" pode ser um com a ótima/melhor taxa para o índice de distorção na respetiva taxa de bit. Conforme a taxa de bit disponível muda, contudo, numa forma completamente ou substancialmente não correlacionada com o conteúdo do sinal de áudio 32, estas instâncias de comutação de A a C podem ocorrer em momentos onde o conteúdo do sinal de áudio tem, desvantajosamente, energia substancial dentro desta porção de alta frequência fi a fmax,cocn onde devido à comutação entre os modos de codificação, a propriedade de preservação de energia do codificador 30 varia no tempo. Assim, o codificador 30 não pode ser capaz de ajudá-lo, mas pode comutar entre os modos de codificação conforme ditado de fora pelos sinais de controlo 44 mesmo em momentos onde a comutação é desvantajosa.
As formas de realização descritas a seguir referem-se às formas de realização para um descodificador configurado para reduzir corretamente os efeitos negativos resultantes da comutação entre os modos de codificação no lado do codificador. A figura 4 mostra um descodificador 50 que suporta, e sendo comutável entre, pelo menos, dois modos de codificação para descodificar um sinal de informação 52 de um fluxo de dados de entrada 34, em que o descodificador é configurado para, recetivo a certo casos de comutação, realizar o amaciamento temporal ou mistura conforme descrito mais abaixo.
Com relação aos exemplos para os modos de codificação suportados pelo descodificador 50, a referência é feita à descrição acima com relação às figuras 1 e 2, por exemplo. Isto é, o descodificador 50 pode, por exemplo, suportar um ou mais modos de codificação central utilizando um sinal de áudio que foi codificado num fluxo de dados 34 até uma certa frequência máxima utilizando a codificação de transformada, por exemplo, com o fluxo de dados 34 compreendendo, para as porções do sinal de áudio codificado com tal modo de codificação central, uma representação por linha espectral de uma transformada do sinal de áudio, espectralmente decompondo o sinal de áudio de 0 até à respetiva frequência máxima. De modo alternativo, o modo de codificação central pode envolver a codificação preditiva como codificação da previsão linear. No primeiro caso, o fluxo de dados 34 pode compreender as partes do sinal de áudio codificado central, uma codificação de uma representação por linha espectral do sinal de áudio, e o descodificador 50 é configurado para realizar uma transformada inversa nesta representação por linha espectral, com a transformada inversa resultando numa transformada inversa que se estende de 0 frequência à frequência máxima de modo que o sinal de áudio 52 reconstruído substancialmente coincide, na energia, com o sinal de áudio original que foi codificado num fluxo de dados 34 sobre toda a banda de frequência de 0 até à respetiva frequência máxima. No caso de um modo de codificação central preditivo, o descodificador 50 pode ser configurado para usar coeficientes da previsão linear contidos no fluxo de dados 30 para partes temporais do sinal de áudio original que foi codificado ao fluxo de dados 34 utilizando o respetivo modo de codificação central preditivo, para, utilizando um filtro de síntese definido de acordo com o coeficiente de previsão linear, ou utilizando a modelação do ruido de domínio de frequência (FDNS) pela utilização dos coeficientes da previsão linear, reconstruir o sinal de áudio 52 utilizando uma sinal de excitação também codificado para estas porções temporais. No caso de utilizar um filtro de síntese, o filtro de síntese pode operar numa mesma taxa de amostra de modo que o sinal de áudio 52 seja reconstruído até à respetiva frequência máxima, ou seja, duas vezes a frequência máxima como a taxa de amostra, e no caso de utilizar a modelação do ruído de domínio de frequência, o descodificador 50 pode ser configurado para obter uma excitação sinal do fluxo de dados 34 e um domínio de transformada, a forma de uma representação por linha espectral, por exemplo, com modelação deste sinal de excitação FDNS (Formação do Ruído de Domínio de Frequência | Frequency Domain Noise Shaping) pelo uso dos coeficientes da previsão linear e realizando uma transformada inversa na versão do espectro espectralmente formada representada pelos coeficientes transformados, e representando, por sua vez, a excitação. Um ou dois ou mais destes modos de codificação central com diferente frequência máxima pode ser disponível ou ser suportados pelo descodificador 50. Outros modos de codificação podem utilizar a BWE a fim de estender a largura de banda suportada por qualquer um dos modos de codificação central para além da respetiva frequência máxima, como BWE cega ou guiada. BWE guiada pode, por exemplo, envolver SBR (réplica de banda espectral | spectral band replication) de acordo com a qual o descodificador 50 obtém um frame fina de uma porção de extensão da largura de banda, estendendo uma largura de banda de codificação central em direção às frequências mais baixas, do sinal de áudio conforme reconstruído do modo de codificação central, utilizando a informação adicional paramétrica para formar o frame fina de acordo com esta informação adicional paramétrica. Outros modos de codificação de BWE guiada também são viáveis. No caso de BWE cega, o descodificador 50 pode reconstruir uma parte de extensão da largura de banda estendendo-se de uma largura de banda de codificação central para além de seu máximo em direção às frequências mais baixas sem qualquer informação adicional explícita referente à parte de extensão da largura de banda.
Pode ser observado que as unidades nas quais os modos de codificação podem mudar no tempo dentro do fluxo de dados podem ser "frames" de comprimento constante ou até variável. Onde quer que o termo "frame" a seguir ocorra, é então direcionado para denotar tal unidade na qual o modo de codificação varia no fluxo contínuo de dados, ou seja, unidades entre as quais os modos de codificação podem variar e dentro deste modo de codificação não variam. Por exemplo, para cada frame, o fluxo de dados 34 pode compreender um elemento de sintaxe que revela o modo de codificação utilizando o respetivo frame que é codificado. As instâncias de comutação podem então ser dispostas nos limites do frame que separam os frames de diferentes modos de codificação. Às vezes o termo subframes pode ocorrer. Subframes podem representar uma divisão temporal de frames em subunidades temporais nas quais o sinal de áudio é, de acordo com o modo de codificação, associado com o respetivo frame, codificado utilizando os parâmetros de codificação específicos do subframe para o respetivo modo de codificação. A figura 4 refere-se especialmente à comutação de um modo de codificação tendo propriedade de preservação de energia mais alta em alguma das bandas espectrais de alta frequência, para um modo de codificação tendo menos, ou nenhuma, propriedade de preservação de energia dentro desta banda espectral de alta frequência. Pode ser observado que a figura 4 se concentra nestas instâncias de comutação meramente para facilitar o entendimento e um descodificador de acordo com uma forma de realização do presente pedido não deve ser restrito a esta possibilidade. Ainda, deve ser claro que um descodificador de acordo com as formas de realização do presente pedido poderia ser implementado para incorporar todo, ou qualquer subconjunto, das funcionalidades especificas descritas com relação à figura 4 e as seguintes figuras em conexão com as instâncias de comutação específicos para os pares específicos de modos de codificação entre os quais a respetiva instância de comutação ocorre. A figura 4 de forma exemplificativa mostra um caso de comutação A no período tA onde o modo de codificação, utilizando o sinal de áudio que é codificado num fluxo de dados 34, comuta de um primeiro modo de codificação a um segundo modo de codificação, em que o primeiro modo de codificação é, de forma exemplificativa, um modo de codificação tendo uma largura de banda codificada efetiva de 0 a fmax/ a um modo de codificação que coincide com a propriedade de preservação de energia de 0 frequência até a frequência fi < fmax, mas tendo menor propriedade de preservação de energia ou nenhuma propriedade de preservação de energia para além dessa frequência, ou seja, entre fi a fmax. As duas possibilidades são, de forma exemplificativa, ilustradas em 54 e 56 na figura 4 para uma frequência exemplificativa entre fi e fmax indicada com uma linha a tracejado dentro da representação espectro-temporal esquemática da propriedade de preservação de energia utilizando o sinal de áudio que é codificado num fluxo de dados 34 em 58. No caso de 54, o segundo modo de codificação, a versão descodificada da porção temporal do sinal de áudio 52, sucessiva à instância de comutação A, tem uma largura de banda codificada efetiva que meramente se estende até fi de modo a que a propriedade de preservação de energia é 0 para além dessa frequência conforme mostrado em 54.
Por exemplo, o primeiro modo de codificação bem como o segundo modo de codificação pode ser modos de codificação central tendo diferentes frequências máximas fi e fmax· De modo alternativo, um ou ambos destes modos de codificação pode envolver a extensão da largura de banda com diferentes larguras de banda codificadas efetivas, uma estendendo-se até fi e a outra a fmax. 0 caso de 56 ilustra a possibilidade de ambos os modos de codificação ter uma largura de banda codificada efetiva se estendendo até fmax, com a propriedade de preservação de energia do segundo modo de codificação, contudo, sendo reduzida em relação a um dos primeiros modos de codificação referentes à porção temporal precedente ao período tA. A instância de comutação A, ou seja, o facto de que a porção temporal 60 imediatamente precedente à instância de comutação A, é codificada utilizando o primeiro modo de codificação, e a porção temporal 62 imediatamente sucessiva à instância de comutação A é codificada utilizando o segundo modo de codificação, pode ser sinalizado dentro do fluxo de dados 34, ou pode ser, de outro modo, sinalizado ao descodificador 50 de modo que as instâncias de comutação neste descodificador 50 mudam os modos de codificação para descodificar o sinal de áudio 52 de fluxo de dados 34 seja sincronizado com a comutação dos respetivos modos de codificação no lado de descodificação. Por exemplo, o modo sinalização por frame descrito brevemente acima pode ser utilizado pelo descodificador 50 para reconhecer e identificar, ou discriminar entre diferentes tipos de casos de comutação.
Em qualquer caso, o descodificador da figura 4 é configurado para realizar o amaciamento temporal ou a mistura na transição entre as versões descodificadas das porções temporais 60 e 62 do sinal de áudio 52 como é esquematicamente ilustrado em 64 que busca ilustrar o efeito de realizar o amaciamento temporal ou a mistura que mostra a propriedade de preservação de energia dentro da banda espectral de alta frequência 66 entre as frequências fi a fmax é temporalmente amaciado para evitar os efeitos da descontinuidade temporal na instância de comutação A. Semelhante a 54 e 56, em 68, 70, 72 e 74, um conjunto de exemplos não exaustivos mostra como o descodificador 50 atinge o amaciamento/mistura temporal pelo qual mostra o curso resultante da propriedade de preservação de energia, traçado sobre o tempo t, para uma frequência exemplificativa indicada com linhas tracejadas em 64 dentro da banda espectral de alta frequência 66. Enquanto os exemplos 68 e 72 representam possíveis exemplos da funcionalidade do descodificador 50 para lidar com um caso de comutação exemplificativo mostrado em 54, os exemplos mostrados em 70 e 74 mostram possíveis funcionalidades do descodificador 50 no caso de um cenário de comutação ilustrado em 56.
Novamente, no cenário de comutação ilustrado em 54, o segundo modo de codificação não reconstrói totalmente o sinal de áudio 52 acima da frequência fi. A fim de realizar o amaciamento temporal ou a mistura na transição entre as versões descodificadas do sinal de áudio 52 antes e após a instância de comutação A, de acordo com o exemplo de 68, o descodif icador 50 temporariamente, para um período de tempo temporário 76 imediatamente sucessivo à instância de comutação A, realiza a BWE cega para estimar e preencher o espectro do sinal de áudio acima da frequência fi até fmax· Conforme mostrado no exemplo 72, o descodificador 50 pode para esta finalidade submeter o espectro estimado dentro da banda espectral de alta frequência 66 numa modelação temporal utilizando alguma função de fade-out 78 de modo que a transição pela instância de comutação A é ainda mais amaciada desde que a propriedade de preservação de energia dentro da banda espectral de alta frequência 66 é referida.
Um exemplo específico para o caso do exemplo 72 é descrito mais abaixo. É enfatizado que o fluxo de dados 34 não precisa sinalizar qualquer aspeto referente ao desempenho temporário de BWE cega dentro do fluxo de dados 34. Ainda, o próprio descodificador 50 é configurado para ser recetivo à instância de comutação A para temporariamente aplicar a BWE cega - com ou sem fade-out. A extensão da largura de banda codificada efetiva de um dos modos de codificação adjacente a outra instância de comutação para além do seu limite superior em direção às frequências mais baixas utilizando BWE cega é chamada mistura temporal no que vem a seguir. Conforme será claro da descrição da figura 5, seria viável deslocar/mudar temporalmente o período de mistura 76 pela instância de comutação para começar ainda mais cedo do que a instância de comutação real. Desde que a parte do período de mistura tempo 76 seja referida, que precederia à instância de comutação A, a mistura resultaria na redução da energia do sinal de áudio 52 dentro da banda espectral de alta frequência 66 e uma forma gradual, ou seja, por um fator entre 0 e 1, ambos exclusivamente, ou numa forma variável variando num intervalo ou sub-intervalo entre 0 e 1, para resultar no amaciamento temporal da propriedade de preservação de energia dentro da banda espectral de alta frequência 66. A situação de 56 difere da situação em 54 em que a propriedade de preservação de energia de ambos os modos de codificação adjacentes entre si pela instância de comutação A é, no caso de 56, desigual a 0 dentro da banda espectral de alta frequência 66 em ambos os modos de codificação. No caso de 56, a propriedade de preservação de energia cai repentinamente na instância de comutação A. A fim de compensar os efeitos negativos substanciais desta repentina redução na propriedade de preservação de energia na banda 66, o descodificador 50 da figura 4 é, de acordo com o exemplo de 70, configurado para realizar o amaciamento temporal ou a mistura na transição entre as porções temporais 60 e 62 imediatamente precedentes e sucessivas ao caso da comutação A preliminarmente, para um período de tempo preliminar 80, seguindo imediatamente o caso da comutação A, definindo a energia do sinal de áudio 52 dentro da banda espectral de alta frequência 66 para estar entre a energia do sinal de áudio 52 imediatamente precedente à instância de comutação A e a energia do sinal de áudio dentro da banda espectral de alta frequência 66 como obtida apenas utilizando o segundo modo de codificação. Por outras palavras, o descodificador 50, durante o período de tempo preliminar 80, aumenta preliminarmente a energia do sinal de áudio 52 para preliminarmente renderizar a propriedade de preservação de energia após a instância de comutação A mais semelhante à propriedade de preservação de energia do modo de uma codificação aplicada imediatamente precedente à instância de comutação A. Enguanto o fator utilizado para este aumento pode ser mantido constante durante o período de tempo preliminar 80 conforme ilustrado em 70, é ilustrado em 74 na figura 4 que este fator também pode ser gradualmente reduzido dentro deste período de tempo 80, para obter uma transição mais amaciada da propriedade de preservação de energia pela instância de comutação A dentro da banda espectral de alta frequência 64.
Posteriormente, um exemplo para a alternativa mostrada/ilustrada em 70 será ainda descrito abaixo. A mudança preliminar do nível do sinal de áudio, ou seja, aumento no caso de 70 e 74, para compensar a propriedade de preservação de energia elevada/reduzida com a qual o sinal de áudio é codificado antes e após do respetiva instância de comutação A, é chamada amaciamento temporal no que se descreve a seguir. Por outras palavras, amaciamento temporal dentro da banda espectral de alta frequência durante o período de tempo preliminar 80, deve denotar um aumento do nível/energia do sinal de áudio 52 na porção temporal ao redor da instância de comutação A onde o sinal de áudio é codificado utilizando o modo de codificação tendo propriedade de preservação de energia mais fraca dentro desta banda espectral de alta frequência com relação ao nível/energia do sinal de áudio 52 diretamente resultando da descodificação utilizando o respetivo modo de codificação, e/ou uma redução do nível/energia do sinal de áudio 52 durante o período temporário 80 dentro de uma porção temporal ao redor da instância de comutação A onde o sinal de áudio é codificado utilizando o modo de codificação tendo propriedade de preservação de energia mais alta dentro da banda espectral de alta frequência, com relação à energia diretamente resultando da codificação do sinal de áudio com este modo de codificação. Por outras palavras, a forma que o descodificador trata as instâncias de comutação como 56 não é restrita à colocação do período temporário 80 para diretamente seguir a instância de comutação A. Ao invés, o período temporário 80 pode cruzar a instância de comutação A ou pode ainda precede-lo. Neste caso, a energia do sinal de áudio 52 é, durante o período temporário 80, desde que a porção temporal precedente à instância de comutação A seja referida, reduzida a fim de renderizar a propriedade de preservação de energia resultante mais semelhante à propriedade de preservação de energia do modo de codificação com que o sinal de áudio é codificado subsequente à instância de comutação A, ou seja, de modo que a propriedade de preservação de energia resultante dentro da banda espectral de alta frequência fique entre a propriedade de preservação de energia do modo de codificação antes da instância de comutação A e a propriedade de preservação de energia do modo de codificação subsequente à instância de comutação A, ambos dentro da banda espectral de alta frequência 66.
Antes de avançar com a descrição do descodificador da figura 5, observa-se que os conceitos de amaciamento temporal e mistura temporal podem ser misturados: Imagine, por exemplo, que a BWE cega é utilizada como uma base para realizar a mistura temporal. Esta BWE cega pode ter, por exemplo, uma propriedade de preservação de energia inferior, cujo "defeito" pode adicionalmente ser compensado aplicando adicionalmente o amaciamento temporal a seguir. Ainda, a figura 4 deve ser entendida como descrevendo as formas de realização para os descodificadores que incorporam/caracterizam uma das funcionalidades descritas acima com relação de 68 a 74 ou uma mistura destas, a saber, recetivas a respetivos casos 55 e/ou 56. O mesmo se aplica à seguinte figura que descreve um descodificador 50 que é recetivo às instâncias de comutação de um modo de codificação tendo propriedade de preservação de energia inferior dentro de uma banda espectral de alta frequência 66 com relação ao modo de codificação válido após a instância de comutação. A fim de destacar a diferença, a instância de comutação é denotado B na figura 5. Onde possível, o mesmo sinal de referência conforme utilizado na figura 4 é reutilizado a fim de evitar uma repetição desnecessária da descrição.
Na figura 5, a propriedade de preservação de energia na qual o sinal de áudio é codificado no fluxo 34 é descrita espectro-temporalmente numa forma esquemática como foi o caso em 58 na figura 4, e como é mostrado, a porção temporal 60 imediatamente precedente à instância de comutação B pertence a um modo de codificação tendo propriedade de preservação de energia reduzida dentro da banda espectral de alta frequência em relação ao modo de codificação selecionado imediatamente após a instância de comutação B para codificar a porção temporal 62 do sinal de áudio comutação do caso B. Novamente, em 92 e 94 na figura 5, casos exemplificativos para o curso temporal da propriedade de preservação de energia pela instância de comutação B no período tB são mostrados: 92 mostra o caso onde o modo de codificação para a porção temporal 60 associou com uma largura de banda codificada efetiva que não abrange ainda a banda espectral de alta frequência 66 e certamente tem uma propriedade de preservação de energia de 0, enquanto que 94 mostra o caso onde o modo de codificação para a porção temporal 60 tem uma largura de banda codificada efetiva que abrange a banda espectral de alta frequência 66 e tem uma propriedade de preservação de energia não zero dentro da banda espectral de alta frequência, mas reduzida em relação à propriedade de preservação de energia na mesmo frequência do modo de codificação associada à porção temporal 62 subsequente à instância de comutação B. O descodificador da figura 5 é recetivo à instância de comutação B para de alguma forma amaciar temporalmente a propriedade de preservação de energia efetiva pela instância de comutação B desde que a banda espectral de alta frequência 66 seja referida, conforme ilustrado na figura 5. Como a figura 4, a figura 5 apresenta quatro exemplos em 98, 100, 102 e 104 para como a funcionalidade do descodificador 50 recetivo à instância de comutação B poderia ser, mas é novamente observado que outros exemplos são viáveis bem como será evidenciado com mais detalhes abaixo.
De entre os exemplos de 98 a 104, exemplos 98 e 100 referem-se ao tipo de instância de comutação 92, enquanto os outros se referem ao tipo de instância de comutação 94. Como os gráficos 92 e 94, os gráficos mostrados de 98 a 104 mostram o curso temporal da propriedade de preservação de energia para uma linha de frequência exemplificativo na parte interna da banda espectral de alta frequência 66. Contudo, 92 e 94 mostram a propriedade de preservação de energia original conforme definido pelos respetivos modos de codificação precedentes e sucessivas à instância de comutação B, enquanto os gráficos mostrados de 98 a 104 mostram a propriedade de preservação de energia efetiva incluindo, ou seja, considerando, as medições do descodificador 50 realizadas recetivas à instância de comutação conforme descrito abaixo. 98 mostra um exemplo onde o descodificador 50 é configurado para realizar a mistura temporal ao realizar a instância de comutação B: como a propriedade de preservação de energia do modo de codificação válida até a instância de comutação B é 0, o descodificador 50 preliminarmente, para um período temporário 106, reduz a energia/nível da versão descodificada do sinal de áudio 52 imediatamente subsequente à instância de comutação B como resultando da descodificação utilizando o respetivo modo de codificação válido da instância de comutação B em diante, de modo a que dentro deste período temporário 106 a propriedade de preservação de energia efetiva fique entre a propriedade de preservação de energia do modo de codificação precedente à instância de comutação B, e a propriedade de preservação de energia original/não modificada do modo de codificação sucessiva à instância de comutação B, desde que a banda espectral de alta frequência 66 seja considerada. O exemplo 68 utiliza uma alternativa de acordo com que uma função de fade-in é utilizado para gradualmente/continuamente aumentar o fator pelo qual a energia do sinal de áudio 52 é escalada durante o período de tempo temporário 106 da instância de comutação B ao final do período 106. Conforme explicado acima, contudo, com relação à figura 4 utilizando exemplos 72 e 68, seria contudo mais viável deixar o fator de escala durante o período temporário 106 constante, assim reduzindo, temporariamente, a energia do sinal de áudio durante o período 106 para chegar na propriedade de preservação de energia resultante dentro da banda 66 mais próxima a 0 preservando a propriedade do modo de codificação precedente à instância de comutação B. 100 mostra um exemplo para uma alternativa da funcionalidade do descodificador 50 após a realização da instância de comutação B, gue já foi discutido com relação à figura 4 ao descrever 68 e 72: de acordo com a alternativa mostrada em 100, o período de tempo temporário 106 é alternado ao longo de uma direção temporal do fluxo para trás para cruzar o período de tempo tB. O descodificador 50, recetivo à instância de comutação B, de alguma forma preenche a banda espectral de alta frequência 66 vazia, ou seja, com zero energia, do sinal de áudio 52 imediatamente precedente à instância de comutação B utilizando BWE cega, por exemplo, a fim de obter uma estimativa do sinal de áudio 52 dentro da banda 66 dentro desta parte da porção 106 que temporalmente precede a instância de comutação B, e então aplica uma função de fade-in para gradualmente/continuamente escalar, de 0 a 1, por exemplo, a energia do sinal de áudio 52 do começo ao final do período 106, assim reduzindo continuamente o grau de redução da energia do sinal de áudio dentro da banda 66 conforme obtido pela BWE cega antes da instância de comutação B, e utilizando o modo de codificação selecionado/válido após a instância de comutação B desde que a parte 106 sucessiva à instância de comutação B seja referida.
Na instância de comutação entre modos de codificação como em 94, a propriedade de preservação de energia dentro da banda 66 é desigual a 0, ambos precedentes bem como sucessivos à instância de comutação B. A diferença ao caso mostrado em 56 na figura 4 é meramente que a propriedade de preservação de energia dentro da banda 66 é mais alta dentro da porção temporal 62 sucessiva à instância de comutação B, comparada á propriedade de preservação de energia do modo de codificação que aplica dentro da porção temporal precedente à instância de comutação B. Efetivamente, o descodificador 50 da figura 5 se comporta, de acordo com o exemplo mostrado em 102, semelhante ao caso discutido acima com relação a 70 e a figura 4: o descodif icador 50 escala em leve atenuação, durante um período temporário 108 imediatamente sucessivo à instância de comutação B, a energia do sinal de áudio como descodificado utilizando o modo de codificação válido após a instância de comutação B, para definir a propriedade de preservação de energia efetiva para ficar entre a propriedade de preservação de energia original do modo de codificação válido antes da instância de comutação B e a propriedade de preservação de energia original/não modificada do modo de codificação válido após a instância de comutação B. Enquanto um fator de escala constante é ilustrado na figura 5 em 102, ele já foi discutido na figura 4 com relação ao caso 74 que uma função de fade-in temporariamente que muda continuamente pode ser utilizada também.
Para conclusão, 104 mostra uma alternativa de acordo com o descodificador 50 que enfrenta/muda o período temporário 108 numa direção do fluxo para cima temporal para imediatamente preceder a instância de comutação B certamente aumentando a energia do sinal de áudio 52 durante este período 108 utilizando um fator de escala para definir a propriedade de preservação de energia resultante para ficar entre as propriedades de preservação de energia originais/não modificadas do modo de codificação entre a instância de comutação B que ocorre. Ainda aqui, alguma função de escala para aparecer pode ser utilizada ao invés de um fator de escala constante.
Assim, exemplos 102 e 104 mostram dois exemplos para realizar o amaciamento temporal recetivo a um caso de comutação B e como já foi discutido com relação à figura 4, o facto que o período temporário pode ser mudado para cruzar, ou ainda preceder, a instância de comutação B também pode ser transferido nos exemplos 70 e 74 da figura 4.
Após ter descrito a figura 5, observa-se que o facto que um descodificador 50 poder incorporar meramente um ou um subconjunto das funcionalidades descritas acima com relação aos exemplos de 98 a 104 recetivos às instâncias de comutação 90 e/ou 94, cuja declaração foi fornecida, de forma semelhante, com relação à figura 4. É ainda válido desde que todo o conjunto de funcionalidades 68, 70, 72, 74, 98, 100, 102 e 104 seja referido: um descodificador pode implementar um ou subconjunto do mesmo recetivo às instâncias de comutação 54, 56, 92 e/ou 94. As figuras 4 e 5 geralmente utilizaram fmax para denotar o máximo dos limites de frequência superior das largura de banda codificada efetivas dos modos de codificação entre a instância de comutação A ou B, e fi para denotar a frequência mais alta até que ambos os modos de codificação entre a instância de comutação que ocorre, ter substancialmente a mesma - ou comparável propriedade de preservação de energia de modo que abaixo de fi no amaciamento temporal é necessária e a banda espectral de alta frequência é colocada para ter fi como um limite espectral inferior, com fx < fmax. Embora os modos de codificação tenham sido discutidos brevemente acima, a referência é feita à figura 6a-d para ilustrar certas possibilidades com mais detalhes. A figura 6a mostra um modo de codificação ou modo de descodificação do descodificador 50, representando uma possibilidade de um "modo de codificação central". De acordo com este modo de codificação, um sinal de áudio é codificado ao fluxo de dados na forma de uma representação de transformada por linha espectral 110 como uma transformada revestida tendo linhas espectrais 112 para 0 frequência até a frequência máxima fCOre em que a transformada revestida pode, por exemplo, ser uma MDCT ou semelhante. Os valores espectrais das linhas espectrais 112 podem ser transmitidos quantizados de forma diferenciada utilizando fatores de escala. Para esta finalidade, as linhas espectrais 112 podem ser agrupadas/divididas em bandas do fator de escala 114 e o fluxo de dados pode compreender fatores de escala 116 associados com as bandas do fator de escala 114. O descodificador, de acordo com um modo da figura 6a, re-escala os valores espectrais das linhas espectrais 112 associadas ás várias bandas do fator de escala 114 de acordo com os fatores de escala associados 116 em 118 e submete a representação por linha espectral re-escalada numa transformada inversa 120 como uma transformada revestida inversa como uma IMDCT - opcionalmente incluindo a sobreposição/processamento por adição para compensação de aliasing temporal - para recuperar/reproduzir o sinal de áudio na parte associada ao modo de codificação da figura 6a. A figura 6b ilustra uma possibilidade do modo de codificação que pode ainda representar um modo de codificação central. O fluxo de dados compreende as partes codificadas com o modo de codificação associado com a figura 6b, informação 122 sobre os coeficientes da previsão linear e informação 124 sobre uma sinal de excitação. Aqui, a informação 124 representa o sinal de excitação utilizando uma representação por linha espectral como o mostrado em 110, ou seja, utilizando uma decomposição por linha espectral até uma frequência mais alta de fcore · A informação 124 pode ainda compreender fatores de escala, embora não mostrado na figura 6b. Em qualquer caso, o descodificador submete o sinal de excitação conforme obtido pela informação 124 no domínio de frequência numa modelação espectral, chamada modelação do ruído de domínio de frequência 126, com a função da modelação espectral derivada com base nos coeficientes da previsão linear 122, assim derivando a reprodução do espectro do sinal de áudio que pode então, por exemplo, ser submetida a uma transformada inversa como já foi explicado com relação a 120. A figura 6c ainda exemplifica um modo de codificação central potencial. Este período, o fluxo de dados compreende respetivamente as partes do sinal de áudio codificado, a informação 128 dos coeficientes da previsão linear e a informação sobre o sinal de excitação, a saber 130, em que o descodificador utiliza a informação 128 e 130 para submeter o sinal de excitação 130 a um filtro de síntese 138 ajustado de acordo com os coeficientes da previsão linear 128. O filtro de síntese 132 utiliza uma certa taxa do filtro de amostra que determina, através do critério de Nyquist, uma frequência máxima f core até que o sinal de áudio seja reconstruído pelo uso do filtro de síntese 132, ou seja, no lado de salda deste.
Os modos de codificação central ilustrados em relação às figuras de 6a a 6c tendem a codificar o sinal de áudio com propriedade de preservação de energia constante espectralmente substancial indo de 0 frequência à frequência máxima da codificação central fcore · Contudo, o modo de codificação ilustrado com relação à figura 6d é diferente nesse sentido. A figura 6d ilustra um modo da extensão da largura de banda guiada como SBR ou semelhante. Neste caso, o fluxo de dados compreende respetivamente as partes do sinal de áudio codificado, dados da codificação central 134 e, para além disso, dados paramétricos 136. Os dados da codificação central 134 descrevem o espectro do sinal de áudio de até fCOre e podem compreender 112 e 116, ou 122 e 124, ou 128 e 130. Os dados paramétricos 136 descrevem parametricamente o espectro do sinal de áudio numa parte de extensão da largura de banda espectralmente posicionada num lado da frequência mais alta da largura de banda de codificação central se estendendo de 0 a fcore· O descodif icador submete os dados da codificação central 134 a descodificação central 138 para recuperar o espectro do sinal de áudio dentro da largura de banda de codificação central, ou seja, até fcore/ e submete os dados paramétricos a uma estimativa de alta-frequência 140 para recuperar/estimar o espectro do sinal de áudio acima de fCOre até íBwe representando a largura de banda codificada efetiva do modo de codificação da figura 6d. Conforme mostrado pela linha tracejada 142, o descodificador pode utilizar a reconstrução do espectro do sinal de áudio até fCore conforme obtido pela descodificação central 138, tanto no domínio espectral quanto no domínio temporal, para obter uma estrutura fina da estimativa do sinal de áudio dentro da parte de extensão da largura de banda entre fCOre e fBWE, e espectralmente modelar este estrutura fina utilizando os dados paramétricos 136, que para o caso descreve o envelope espectral dentro da parte de extensão da largura de banda. Este seria o caso, por exemplo, em SBR. Isso resultaria numa reconstrução do sinal de áudio na saída da estimativa de alta-frequência 140.
Um modo de BWE cega compreenderia meramente os dados da codificação central, e estimaria o espectro do sinal de áudio acima da largura de banda de codificação central utilizando a extrapolação do envelope do sinal de áudio na região de frequência mais alta acima de fcore/ por exemplo, e utilizando a geração artificial de ruído e/ou replicação espectral da parte de codificação central à região de frequência mais alta (parte de extensão da largura de banda) a fim de determinar a estrutura fina nesta região.
De volta a fi e fmax das figuras 4 e 5, estas frequências podem representar as frequências de limite superior de um modo de codificação central, ou seja, fCOre/ ambos ou um deles, ou podem representar a frequência de limite superior de uma parte de extensão da largura de banda, ou seja, Íbwe, quer sejam ambos ou um deles.
Para fins de completitude, as figuras de 7a a 7c ilustram três diferentes formas para realizar as opções de amaciamento temporal e de mistura temporal descritas acima com relação as figuras 4 e 5. A figura 7a, por exemplo, ilustra o caso onde o descodificador 50, recetivo a um caso de comutação, utiliza BWE cega 150 para, preliminarmente durante o respetivo período de tempo temporário, adicionar à respetiva largura de banda efetivamente codificada do modo de codificação 152 uma estimativa do espectro do sinal de áudio dentro de uma parte de extensão da largura de banda que coincide com a banda espectral de alta frequência 66. Este foi o caso em todos os exemplos de 68 a 74 e de 98 a 104 das figuras 4 e 5. Um preenchimento pontilhado foi utilizado para indicar a BEW cega na propriedade de preservação de energia resultante. Conforme mostrado nestes exemplos, o descodificador pode adicionalmente escalar/modelar o resultado da estimativa da extensão da largura de banda cega num escalador 154, como, por exemplo, utilizando uma função de fade-in ou fade-out. A figura 7b mostra a funcionalidade do descodificador 50 no caso de, respetivo a um caso de comutação, escalar num escalador 156 o espectro do sinal de áudio 158 conforme obtido por um dos modos de codificação entre o respetiva instância de comutação que ocorre, dentro da banda espectral de alta frequência 66 e preliminarmente durante o respetivo período de tempo temporário, para resultar num espectro do sinal de áudio modificado 160. A escala do escalador 156 pode ser realizada no domínio espectral, mas outra possibilidade existiria também. A alternativa da fiqura 7b ocorre, por exemplo, nos exemplos 70, 74, 100, 102 e 104 das figuras 4 e 5.
Uma variante específica da fiqura 7b é mostrada na fiqura 7c. A fiqura 7c mostra uma forma para realizar qualquer um dos amaciamentos temporais exemplificados em 70, 74, 102 e 104 das fiquras 4 e 5. Aqui, o fator de escala utilizado para escala na banda espectral de alta frequência 66 é determinado com base nas enerqias determinadas do espectro do sinal de áudio conforme obtido utilizando os respetivos modos de codificação, precedentes e sucessivos à instância de comutação. 162, por exemplo, mostra o espectro do sinal de áudio do sinal de áudio numa porção temporal precedente ou sucessiva à instância de comutação, onde a larqura de banda codificada efetiva deste modo de codificação atinqe de 0 a fmax. Em 164, o espectro do sinal de áudio desta porção temporal é mostrado, que fica no outro lado temporal da instância de comutação, codificado utilizando um modo codificado, a larqura de banda codificada efetiva que atinqe de 0 a fmax também. Um dos modos de codificação, contudo, tem uma propriedade de preservação de enerqia reduzida dentro da banda espectral de alta frequência 66. Pela determinação de enerqia 166 e 168, a enerqia do espectro do sinal de áudio dentro da banda espectral de alta frequência 66 é determinada, uma vez do espectro 162, uma vez do espectro 164. A energia determinada do espectro 164 é indicada, por exemplo, como Εχ, e a energia determinada do espectro 162 é indicada, por exemplo, utilizando E2. Um determinador do fator de escala então determina um fator de escala para escalar o espectro 162 e/ou espectro 164 através do escalador 156 dentro da banda espectral de alta frequência 66 durante o período de tempo temporário mencionado nas figuras 4 e 5, caracterizado pelo fator de escala utilizado para o espectro 164 ficar, por exemplo, entre 1 e E2/E1, ambos inclusivamente, e o fator de escala para a escala realizada no espectro 162 entre 1 e Εχ/Ε2, ambos inclusivamente, ou é definido constantemente entre ambos os limites, ambos exclusivamente. Uma definição constante do fator de escala por um determinador do fator de escala 170 foi utilizado, por exemplo, nos exemplos 102, 104 e 70, enquanto que uma variação continua com um fator de escala que muda temporalmente foi apresentada / é exemplificada em 74 na figura 4.
Isto é, as figuras de 7a a 7c mostram funcionalidades do descodificador 50, que são realizadas pelo descodificador 50 recetivo a um caso de comutação dentro de um período de tempo temporário na instância de comutação, como sucessivo à instância de comutação, cruzando a instância de comutação ou ainda precedente à mesma conforme descrito acima com relação às figuras 4 e 5.
Com relação à figura 7c, observa-se que a descrição da figura 7c preliminarmente ignorou uma associação do espectro 162 como pertencendo à porção temporal precedente ao respetiva instância de comutação e/ou como a porção temporal codificada utilizando o modo codificado tendo a propriedade de preservação de energia mais alta na banda espectral de alta frequência, ou não. Contudo, o determinador do fator de escala 170 poderia, de fato, considerar que os espectros 162 e 164 são codificados utilizando o modo de codificação tendo propriedade de preservação de energia mais alta dentro da banda 66. O determinador do fator de escala 170 poderia tratar as transições pelas comutações do modo de codificação diferentemente dependendo da direção de comutação, ou seja, de um modo de codificação com propriedade de preservação de energia mais alta num modo de codificação com propriedade de preservação de energia inferior desde que a banda espectral de alta frequência seja referida e vice versa, e/ou dependente de uma análise de um curso temporal de energia do sinal de áudio numa banda espectral de análise como será descrito com mais detalhes abaixo. Com esta medida, o determinador do fator de escala 170 poderia definir o grau de "filtragem passa-baixo" da energia do sinal de áudio dentro da banda espectral de alta freguência temporalmente, de forma a evitar "dispersões" desagradáveis. Por exemplo, o determinador do fator de escala 170 poderia reduzir o grau de filtragem passa-baixo em áreas onde uma avaliação do curso da energia do sinal de áudio dentro da banda espectral de análise sugere gue na instância de comutação gue ocorre num caso temporal onde uma fase tonal do conteúdo do sinal de áudio está adjacente a um atague ou vice versa de modo gue a filtragem passa-baixo reduziria ainda mais a gualidade do sinal de áudio resultando na salda do descodificador ao invés de melhorar o mesmo. Da mesma forma, o tipo de "corte" dos componentes de energia na extremidade de um atague no conteúdo do sinal de áudio, na banda espectral de alta freguência, tende a degradar a qualidade do sinal de áudio mais do que os cortes na banda espectral de alta frequência no começo destes ataques, e certamente determinador do fator de escala 170 podem preferir reduzir o grau da filtragem passa-baixo nas transições de um modo de codificação tendo propriedade de preservação de energia inferior na banda espectral de alta frequência num modo de codificação tendo propriedade de preservação de energia mais alta nesta banda espectral.
Vale a pena observar que no caso da figura 7c, o amaciamento da propriedade de preservação de energia num sentido temporal dentro da banda espectral de alta frequência é realmente realizado na energia do sinal de áudio domínio, ou seja, é realizado indiretamente por temporalmente amaciamento a energia do sinal de áudio dentro desta banda espectral de alta frequência. Desde que o conteúdo do sinal de áudio seja do mesmo tipo ao redor das instâncias de comutação, como de um tipo tonal ou de um ataque ou semelhante, o amaciamento então realizado resulta efetivamente num amaciamento da propriedade de preservação de energia dentro da banda espectral de alta frequência. Contudo, esta suposição não pode ser mantida, conforme descrito acima com relação à figura 3, como, por exemplo, casos os de comutação que são forçados no codificador externamente, ou seja, de fora, e certamente podem ocorrer ainda simultaneamente às transições de um tipo de conteúdo do sinal de áudio para outro. As formas de realização descritas abaixo com relação às figuras 8 e 9 procura portanto identificar tais situações para suprimir o amaciamento temporal do descodificador recetivo a uma instância de comutação nestes casos, ou para reduzir o grau de amaciamento temporal realizado nestas situações. Embora a forma de realização descrita mais abaixo foca na funcionalidade do amaciamento temporal na comutação do modo de codificação, a análise realizada mais abaixo poderia ainda ser utilizada a fim de controlar o grau de mistura temporal descrito acima como, por exemplo, mistura temporal seja desvantajosa nos casos em que a BWE cega deve ser utilizada a fim de realizar a mistura temporal, pelo menos, de acordo com algumas das funcionalidades exemplificativas descritas com relação à figura 4 e 5, e a fim de confinar o desempenho especulativo da BWE cega recetivo às instâncias de comutação para tal fração onde as vantagens de qualidade resultantes excedem a degradação potencial de toda a qualidade de áudio devido a uma porção de extensão da largura de banda estimada de forma má, a análise descrita abaixo pode ainda ser utilizada a fim de suprimir, ou reduzir a quantidade de mistura temporal. A figura 8 mostra num gráfico o espectro do sinal de áudio conforme codificado ao fluxo de dados e então disponível no descodificador, bem como a propriedade de preservação de energia do respetivo modo de codificação, para dois períodos de tempo consecutivos, como frames, do fluxo de dados num caso de comutação de um modo de codificação tendo propriedade de preservação de energia mais alta num modo de codificação tendo propriedade de preservação inferior, ambos na banda espectral de alta frequência interessante. A instância de comutação da figura 8 é então do tipo ilustrado em 56 e a figura 4 onde "t - 1" deve denotar o período de tempo precedente à instância de comutação, e "t" deve indiciar as porções temporais sucessivas à instância de comutação.
Como é visível na figura 8, a energia do sinal de áudio dentro da banda espectral de alta frequência 66 é de longe inferior na porção temporal t sucessiva do que comparado na porção temporal t precedente - 1. Contudo, a questão é se esta redução de energia deveria ser completamente atribuída à redução da propriedade de preservação de energia na banda espectral de alta frequência 66 ao transacionar do modo de codificação na porção temporal t - 1 ao modo de codificação na porção temporal t.
Na forma de realização descrita mais abaixo com relação à figura 9, a questão é respondida em forma de avaliação da energia do sinal de áudio dentro de uma banda espectral de análise 190 que é disposta num lado com frequência mais baixa da banda espectral de alta frequência 66, como numa forma que encosta imediatamente na banda espectral de alta frequência 66 conforme mostrado na figura 8. Se a avaliação mostra que a flutuação da energia do sinal de áudio dentro da banda espectral de análise 190 é alta, é provável que qualquer flutuação de energia na banda espectral de alta frequência 66 provavelmente seja atribuía a uma propriedade inerente do sinal de áudio original ao invés de uma perturbação causada pela comutação do modo de codificação de modo que, neste caso, qualquer amaciamento temporal e/ou mistura recetivo à instância de comutação pelo descodificador deveria ser suprimida, ou reduzida gradualmente. A figura 9 mostra esquematicamente numa forma similar à figura 7c a funcionalidade do descodif icador 50 no caso da forma de realização da figura 8. A figura 9 mostra o espectro como derivável da porção temporal do sinal de áudio 60 precedente à instância de comutação atual, indicado utilizando Et_i analogamente à figura 8, e o espectro como derivável do fluxo de dados referente à porção temporal 62 sucessiva à instância de comutação atual, indicado utilizando "Et" analogamente à figura 8. Utilizando o sinal de referência 192, a figura 9 mostra a ferramenta de amaciamento/mistura temporal do descodificador que é recetiva a um caso de comutação como 56 ou qualquer outra instância de comutação discutido acima e pode ser implementado de acordo com qualquer uma das funcionalidades acima como, por exemplo, implementado de acordo com a figura 7c. Ainda, um avaliador é fornecido no descodificador com o avaliador sendo indicado utilizando o sinal de referência 194. 0 avaliador avalia ou investiga o sinal de áudio dentro da banda espectral de análise 190. Por exemplo, o avaliador 194 utiliza, para esta finalidade, as energias do sinal de áudio derivado da parte 60 bem como parte 62, respetivamente. Por exemplo, o avaliador 194 determina um grau de flutuação na energia do sinal de áudio na banda espectral de análise 190 e deriva dele uma decisão de acordo com o qual a capacidade de resposta da ferramenta 190 à instância de comutação deveria ser suprimida ou o grau de amaciamento/mistura temporal da ferramenta 190 ser reduzido. Desta forma, o avaliador 194 controla a ferramenta 190 desta forma. Uma possível implementação para o avaliador 194 é discutida com mais detalhes a seguir. A seguir, as formas de realização específicas são descritas numa forma mais detalhada. Conforme descrito acima, as formas de realização descritas mais abaixo com mais detalhes busca obter as transições contínuas entre as diferentes BWEs e um núcleo de banda total, utilizando duas etapas de processamento que são realizadas dentro do descodificador. O processamento é, conforme descrito acima, aplicado no lado do descodificador no domínio de frequência, como FFT, MDCT ou domínio de QMF, na forma de um estágio de pós-processamento. Após o que, é descrito como algumas etapas poderiam ser ainda realizadas já dentro do codificador, como a forma de realização de mistura de fade-in numa largura de banda efetiva mais ampla tal como núcleo de banda total.
Em particular, com relação à figura 10, uma forma de realização mais detalhada é descrita como para implementar o amaciamento adaptativo ao sinal. A forma de realização descrita a seguir será na extensão de uma possibilidade de implementar a forma de realização acima de acordo com 70, 102 das figuras 4 e 5 utilizando a alternativa mostrada na figura 7c para definir o respetivo fator de escala para a escala durante o período temporário 80 e 108, respetivamente, e utilizando a capacidade de adaptação do sinal conforme descrito acima com relação à figura 9 para restringir o amaciamento temporal às instâncias onde o amaciamento produz vantagens. A finalidade do amaciamento adaptativo ao sinal é obter
transições continuas impedindo os pulos de energia não intencionados. Ao contrário, as variações de energia gue estão presentes no sinal original precisam de ser preservadas. A última circunstância já foi discutida com relação à figura 8. Assim, de acordo com uma função de amaciamento adaptativo por sinal no lado do descodificador descrita agora, as seguintes etapas são realizadas em gue a referência é feita à figura 10 para esclarecimento e dependências dos valores/variáveis utilizados ao explicar esta forma de realização.
Conforme mostrado no diagrama de fluxo da figura 11, o descodificador deteta continuamente se há atualmente um caso de comutação ou não em 200. Se o descodif icador cruzar um caso de comutação, o descodificador realiza uma avaliação de energias na banda espectral de análise. A avaliação 202 pode, por exemplo, compreender um cálculo das diferenças de energia do intra-frame e inter-frame õintra/ õinter da banda espectral de análise, agui definida como a faixa de freguência de análise entre fanalysis,start e fanalysis,stop· Os seguintes cálculos podem ser envolvidos:
Isto é, o cálculo poderia, por exemplo, calcular a diferença de energia entre as energias do sinal de áudio conforme codificado e o fluxo de dados na banda espectral de análise, uma vez amostrado nas porções temporais, ou seja, subframe 1 e subframe 2 na figura 10, ambos ficam adjacentes à instância de comutação 204 e as amostras das porções temporais gue ficam nos lados temporais opostos ao da instância de comutação 204. Um máximo do absoluto de ambas as diferenças também pode ser derivado, a saber õmax. A determinação da energia pode ser feita utilizando uma soma sobre os quadrados dos valores da linha espectral dentro de um mosaico espectro-temporal temporalmente estendendo-se sobre a respetiva porção temporal, e espectralmente estendendo-se sobre a banda espectral de análise. Embora a figura 10 sugira que o comprimento temporal das porções temporais em que o minuendo da energia e subtraendo de energia são determinados, seja igual um ao outro, este não é necessariamente o caso. Os mosaicos espectro-temporais sobre os minuendos/subtraendos da energia que são determinados são mostradas na figura 10 em 206, 208 e 210, respetivamente. A seguir, em 214, os parâmetros de energia calculados resultantes da avaliação na etapa 202 são utilizados para determinar o fator de amaciamento 0ísmOoth· De acordo com uma forma de realização, asm0oth é definido dependente da diferença de energia máxima õmax, a nomeadamente que aSmooth seja maior quanto menor for õmax. asmooth está dentro do intervalo [ 0... 1 ] , por exemplo. Enquanto a avaliação em 202 é realizada, por exemplo, pelo avaliador 194 da figura 9, a determinação de 214 é, por exemplo, realizado pelo determinador do fator de escala 170. A determinação na etapa 214 do fator de amaciamento 0ísmOoth pode, contudo, ainda considerar o sinal do valor máximo de um dos valores de diferença õintra e õinter, ou seja, sinal de õintra se o absoluto de õintra for mais alto do que o valor absoluto de õinter, e o sinal de õinter se o valor absoluto de õinter for maior do que o valor absoluto de õintra·
Em particular, para as quedas de energia que estão presentes no sinal de áudio original, menos amaciamento precisa ser aplicado para impedir a dispersão de energia de regiões originalmente com baixa energia, e certamente asm0oth poderia ser determinado na etapa 214 ser menor no valor no caso que o sinal da diferença máxima de energia indica uma queda de energia no espectro do sinal de áudio dentro da banda espectral de análise 190.
Na etapa 216, o fator de amaciamento aSmooth determinado na etapa 214, é então aplicado ao valor de energia prévio determinado do mosaico espectro-temporal precedente à instância de comutação, na banda espectral de alta frequência 66, ou seja, Eactuai,prev/ e a energia determinada real e atual de um mosaico espectro-temporal na banda espectral de alta frequência 66 após a instância de comutação 204, ou seja, Eactuai, curr, para obter a energia alvo Etarget,curr do frame atual ou porção temporal que forma o período temporário no qual o amaciamento temporal irá ser realizado. De acordo com a forma de realização 216, a energia alvo é calculada como
A aplicação em 216 seria realizada pelo determinador do fator de escala 170 também. O cálculo do fator de escala a ser aplicado no mosaico espectro-temporal 220 que se estende sobre o período temporário 222 ao longo do eixo temporal t, e que se estende sobre a banda espectral de alta frequência 66 ao longo do eixo espectral f, a fim de escalar as amostras espectrais x dentro desta faixa de frequência alvo definida f target, start a ftarget,stop em direção à energia alvo atual pode então envolver
Enquanto o cálculo de oçcaie seria, por exemplo, realizado pelo fator de escala determinado 170, a multiplicação utilizando ascaie como um fator, seria realizada pelo escalador anteriormente mencionado 156 dentro do mosaico espectro-temporal 220.
Para fins de completitude, observa-se que as energias Eactuai,prev e Eactuai,curr podem ser determinadas da mesma forma conforme descrito acima com relação aos mosaicos espectro-temporais de 206 a 210: uma soma sobre os quadrados dos valores espectrais dentro do mosaico espectro-temporal 224 temporalmente precedente à instância de comutação 204 e que se estende sobre a banda espectral de alta frequência 66 pode ser utilizada para determinar Eactuai,prev e uma soma sobre os quadrados dos valores espectrais dentro dos mosaicos espectro-temporais 220 pode ser utilizada para determinar Eactuai,curr.
Observa-se que no exemplo da figura 10, a largura temporal do mosaico espectro-temporal 220 era, de forma exemplificativa, duas vezes a largura temporal das porções espectro-temporais de 206 a 210, mas esta circunstância é não crítica mas pode ser definida diferentemente.
No que se segue, de um modo concreto, uma forma de realização mais detalhada para realizar a mistura temporal é descrita. Esta mistura da largura de banda tem, conforme descrito acima, a finalidade de suprimir as flutuações irritantes da largura de banda por um lado, e permitir que cada modo de codificação próximo a uma respetiva instância de comutação possa ser executado na sua largura de banda codificada efetiva. Por exemplo, a adaptação macia pode ser aplicada para permitir que cada BWE possa ser executada na sua largura de banda ótima.
As seguintes etapas são realizadas pelo descodificador: conforme mostrado na figura 12, num caso de comutação, o descodificador determina o tipo da instância de comutação em 230, para discriminar entre as instâncias de comutação do tipo 54 e tipo 92. Conforme descrito nas figuras 4 e 5, a mistura de fade-out é realizada no caso do tipo 54, e a mistura de fade-in é realizada no caso do tipo de comutação 92. A mistura de fade-out é descrita primeiro adicionalmente com referência âs figuras 13a e 13b. Isto é, se o tipo de comutação 54 for determinado em 230, um tempo máximo de mistura tbiend,max é definido bem como a região da mistura é determinada espectralmente, ou seja, a banda espectral de alta frequência 66 na qual a largura de banda codificada efetiva do modo da largura de banda de codificação mais alta excede a largura de banda codificada efetiva do modo da largura de banda de codificação mais baixa na instância de comutação do tipo 54 que ocorre. Esta definição 232 pode envolver o cálculo de uma diferença da largura de banda fBwi - fBw2 com fBWi denotando a frequência máxima da largura de banda codificada efetiva do modo da largura de banda de codificação mais alta e fBw2 indicando a frequência máxima da largura de banda codificada efetiva do modo da largura de banda de codificação mais baixa cuja diferença define a região da mistura, bem como um cálculo de um tempo de mistura máximo tbiend, max · 0 último valor de tempo pode ser definido num valor padrão ou pode ser determinado diferentemente como é explicado posteriormente em conexão com as instâncias de comutação que ocorrem durante um procedimento de mistura atual.
Seguidamente, na etapa 234 uma melhoria do modo de codificação após a instância de comutação 204 é realizada para resultar numa extensão auxiliar 234 da largura de banda do modo de codificação após a instância de comutação 204 na região da mistura ou banda espectral de alta frequência 66 de modo a preencher esta região da mistura 66 sem descontinuidades durante tbiend,max/ ou seja, para preencher o mosaico espectro-temporal 236 na figura 13a. Como esta operação 234 pode ser realizada sem controlo através da informação adicional no fluxo de dados, a extensão auxiliar 234 pode ser realizada utilizando BWE cega.
Seguidamente, em 238 um fator de mistura wbiend é calculado, onde tbiend,act denota o tempo esgotado real desde a comutação, aqui de forma exemplificativa definido em to:
O curso temporal do fator de mistura assim determinado é ilustrado na figura 13b. Embora a fórmula ilustre um exemplo para mistura linear, outras caracteristicas de mistura são possíveis também como quadrático, logarítmico, etc. Nesta ocasião deve ser genericamente observado que a característica de mistura/amaciamento poderá não ser uniforme/linear ou até monótona. Todo o aumento/redução aqui mencionado não é necessariamente monótono.
Após o que, em 240, a ponderação das amostras espectrais x dentro do mosaico espectro-temporal 236, ou seja, dentro da região da mistura 66 durante o período temporário definido, ou limitado, ao tempo máximo de mistura é realizada utilizando o fator de mistura wbiend de acordo com
Isso é, na etapa de escala 240, os valores espectrais dentro do mosaico espectro-temporal 236 são escalados de acordo com wbiencn para ser mais preciso a saber os valores espectrais temporalmente sucessivos à instância de comutação 204 por tbiend,act sao escalados acordo com wbbend (tbbericbacb) .
No caso de um tipo de comutação 92, a definição da tempo máximo de mistura e região da mistura é realizada em 242 numa forma similar a 232. O tempo máximo de mistura tbiend,max para os tipos de comutação 92 pode ser diferente em tbiend,max definido em 232 no caso de um tipo de comutação 54. A referência é feita ainda à descrição subseguente da comutação durante a mistura.
Então, o fator de mistura é calculado, denominado wbiend· O cálculo 244 pode calcular o fator de mistura dependendo do tempo esgotado desde a comutação em t0, isto é, dependendo de tbiend,act de acordo com o parágrafo
Assim a escala real em 246 ocorre utilizando o fator de mistura de uma forma similar a 240.
Comutação durante a mistura
Todavia, a abordagem mencionada acima apenas funciona, se durante o processo de mistura nenhuma outra comutação ocorrer, conforme mostrado na figura 14a em ti. Neste caso, o cálculo do fator de mistura é comutado de um fade-out para um fade-in e o valor do tempo esgotado é atualizado por
resultando num processo de mistura reverso concluído em tal como mostrado na figura 14b.
Assim, esta atualização modificada seria realizada nas etapas 232 e 242 de forma a acompanhar o processo de fade-in ou fade-out interrompido, interrompido pela nova, atualmente a ocorrer instância de comutação, aqui de forma exemplificativa, em ti. Por outras palavras, o descodificador realizaria o amaciamento temporal ou mistura numa primeira instância de comutação to aplicando uma função de escala de fade-out (ou fade-in) 240 e, se uma segunda instância de comutação ti ocorrer durante a função de escala de fade-out (ou fade-in) 240, aplicar, novamente, uma função de escala de fade-in (ou fade-out) 242 numa banda espectral de alta frequência 66 para realizar o amaciamento temporal ou mistura na segunda instância de comutação ti, com definição de um ponto inicial para aplicar a função de escala de fade-in (ou fade-out) 242 da segunda instância de comutação t2 de modo que a função de escala de fade-in (ou fade-out) 242 aplicada na segunda instância de comutação t2 tenha, no ponto inicial, um valor de função mais próximo a - ou igual a um valor de função assumido pela função de escala de fade-out (ou fade-in) 240 conforme aplicado na primeira instância de comutação, no tempo t2 de ocorrência da segunda instância de comutação.
As formas de realização descritas acima referem-se à codificação de áudio de fala e particularmente às técnicas de codificação utilizando os diferentes métodos de extensão da largura de banda (BWE) ou BWE(s) de preservação sem energia e um codificador do núcleo de banda total sem a BWE numa forma de realização comutada. Foi proposto melhorar a qualidade perceptual pelo amaciamento das transições entre diferentes larguras de banda de saída efetivas. Em particular, uma técnica de amaciamento adaptativo ao sinal é utilizada para obter transições contínuas, e possivelmente, mas não necessariamente uma técnica de mistura uniforme entre as diferentes larguras de banda para atingir a ótima largura de banda de saída para cada BWE enquanto flutuações perturbadoras da largura de banda são evitadas.
Pulos de energia não intencionados na comutação entre diferentes BWEs ou núcleo de banda total são evitados na forma das formas de realização acima enquanto que aumentos e reduções que estão presentes no sinal original (por exemplo, devido à antecipação ou atraso de sibilantes) podem ser preservadas. Para além disso, adaptações uniformes de diferentes larguras de banda são, de forma exemplificativa, realizadas para permitir que cada BWE seja executada na sua intencionada largura de banda ótima se precisar ser estar ativa por um período de tempo mais longo. Exceto para as funcionalidades do descodificador nas instâncias de comutação que necessitam da BWE cega, as mesmas funcionalidades também podem ser consideradas pelo codificador. 0 codificador como 30 da figura 3, então, aplica as funcionalidades descritas acima, no espectro do sinal de áudio original como se segue.
Por exemplo, se o codificador 30 da figura 3 é capaz de prever, ou experimentar com um pouco de antecedência, que um caso de comutação do tipo 54 acontecerá, o codificador pode, por exemplo, preliminarmente, durante um período de tempo temporário diretamente precedente a instância de comutação, codificar o sinal de áudio numa versão modificada de acordo com a qual, durante o período de tempo temporário, a banda espectral de alta frequência do sinal de áudio espectro é temporalmente formada utilizando uma função de fade-out, começando, por exemplo, com 1 no começo do período de tempo temporário e chegando a 0 no final do período de tempo temporário, o final coincidindo com a instância de comutação. A codificação da versão modificada poderia, por exemplo, incluir a primeira codificação do sinal de áudio na porção temporal precedente à instância de comutação na sua versão original até um nível de sintaxe, por exemplo, para então escalar os valores da linha espectral e/ou fatores de escala referentes à banda espectral de alta frequência 66 durante o período de tempo temporário com a função de fade-out. De modo alternativo, o codificador 30 pode de modo alternativo primeiro modificar o sinal de áudio e o domínio espectral para aplicar a escala da função de fade-out no mosaico espectro-temporal na banda espectral de alta frequência 66, estendendo-se sobre o período de tempo temporário, e depois então secundariamente codificar o sinal de áudio respetivamente modificado.
Ao encontrar uma instância de comutação do tipo 56, o codificador 30 poderia agir como segue. O codificador 30 poderia, preliminarmente por um período de tempo temporário diretamente começando na instância de comutação, amplificar, ou seja, aumentar, o sinal de áudio dentro da banda espectral de alta frequência 66, com ou sem uma função de escala para fade-out, e poderia então codificar o sinal de áudio assim modificado. De modo alternativo, o codificador 30 poderia primeiro codificar todo o sinal de áudio original utilizando o modo de codificação válido diretamente após a instância de comutação até algum nível de elemento de sintaxe, então aí corrigindo o último para amplificar o sinal de áudio dentro da banda espectral de alta frequência durante o período de tempo temporário. Por exemplo, se o modo de codificação no qual a instância de comutação ocorre envolver uma extensão da largura de banda guiada na banda espectral de alta frequência 66, o codificador 30 poderia aumentar corretamente a informação sobre o envelope espectral referente a esta banda espectral de alta frequência durante o período de tempo temporário.
Contudo, se o codificador 30 encontrar um caso de comutação do tipo 92, o codificador 30 poderia tanto codificar a porção temporal do sinal de áudio após a instância de comutação não modificado até algum nível de elemento de sintaxe e para então corrigir, por exemplo, o mesmo a fim de submeter a banda espectral de alta frequência do sinal de áudio durante este período de tempo temporário numa função de fade-in, como escalando corretamente os fatores de escala e/ou valores da linha espectral dentro do respetivo mosaico espectro-temporal, ou o codificador 30 primeiro modifica o sinal de áudio dentro da banda espectral de alta frequência 66 durante o período de tempo temporário a começar imediatamente na instância de comutação, para então codificar o sinal de áudio então modificado.
Ao encontrar um caso de comutação do tipo 94, o codificador 30 poderia, por exemplo, agir como segue: o codificador poderia, para um período de tempo temporário imediatamente a começar na instância de comutação, reduzir o espectro do sinal de áudio dentro da banda espectral de alta frequência 66 - aplicando uma função de fade-in ou não. De modo alternativo, o codificador poderia codificar a porção do sinal de áudio no tempo seguinte à instância de comutação utilizando o modo de codificação em que a instância de comutação ocorre, sem qualquer modificação até algum nível dos elementos de sintaxe, então mudando os elementos de sintaxe apropriados para provocar a respetiva redução do espectro do sinal de áudio dentro da banda espectral de alta frequência durante o período de tempo temporário. 0 codificador pode reduzir apropriadamente os respetivos valores de fatores de escala e/ou linha espectral.
Embora alguns aspetos tenham sido descritos no contexto de um aparelho, é claro que estes aspetos ainda representam uma descrição do método correspondente, onde um bloco ou dispositivo corresponde a uma etapa do método ou uma característica de uma etapa do método. Analogamente, aspetos descritos no contexto de uma etapa do método ainda representam uma descrição de um bloco ou item ou característica correspondente de um aparelho correspondente. Algumas ou todas as etapas do método podem ser executadas (ou utilizando) por um aparelho de hardware, como, por exemplo, um microprocessador, um computador programável ou um circuito eletrónico. Nalgumas formas de realização, alguma ou mais das etapas do método mais importantes podem ser executadas por tal aparelho.
Dependendo de certas exigências de implementação, as formas de realização da invenção podem ser implementadas em hardware ou em software. A implementação pode ser realizada utilizando um meio de armazenamento digital, por exemplo, um disquete, um DVD, um Blu-Ray, um CD, uma memória ROM, uma PROM, uma EPROM, uma EEPROM ou a memória flash, tendo sinais de controlo eletronicamente legíveis armazenados nele, que cooperam (ou podem cooperar) com um sistema de computador programável de modo que o respetivo método seja realizado. Assim, o meio de armazenamento digital pode ser legível por computador.
Algumas formas de realização de acordo com a invenção compreendem um transportador de dados tendo sinais de controlo eletronicamente legíveis, que podem cooperar com um sistema de computador programável, de modo que um dos métodos descritos aqui seja realizado.
Geralmente, as formas de realização da presente invenção podem ser implementadas como um produto do programa de computador com um código de programa, o código de programa sendo operativo para realizar um dos métodos quando o produto do programa de computador é executado num computador. 0 código de programa pode, por exemplo, ser armazenado num transportador legível por máquina.
Outras formas de realização compreendem o programa de computador para realizar um do métodos descritos aqui, armazenados num transportador legível por máquina.
Por outras palavras, uma forma de realização do método inventivo é, então, um programa de computador tendo um código de programa para realizar um dos métodos descritos aqui, quando o programa de computador é executado num computador.
Uma outra forma de realização do método inventivo é, então, um transportador de dados (ou um meio de armazenamento digital, ou um meio legível por computador) compreendendo, gravado nele, o programa de computador para realizar um dos métodos descritos aqui. 0 transportador de dados, o meio de armazenamento digital ou o meio gravado são tipicamente tangíveis e/ou não transitórios.
Uma outra forma de realização do método inventivo é, então, um fluxo de dados ou uma sequência de sinais representando o programa de computador para realizar um dos métodos descritos aqui. 0 fluxo de dados ou a sequência de sinais pode, por exemplo, ser configurado para ser transferido através de uma conexão de comunicação de dados, por exemplo, através da Internet.
Uma outra forma de realização compreende um meio de processamento, por exemplo, um computador, ou um dispositivo de lógica programável, configurado para ou adaptado para realizar um dos métodos aqui descritos.
Uma outra forma de realização compreende um computador tendo instalado nele o programa de computador para realizar um dos métodos descrito aqui.
Uma outra forma de realização de acordo com a invenção compreende um aparelho ou um sistema configurado para transferir (por exemplo, eletronicamente ou opticamente) um programa de computador para realizar um dos métodos descritos aqui num recetor. 0 recetor pode, por exemplo, ser um computador, um dispositivo móvel, um dispositivo de memória ou semelhante. 0 aparelho ou sistema pode, por exemplo, compreender um servidor de arquivo para transferir o programa de computador para o recetor.
Nalgumas formas de realização, um dispositivo de lógica programável (por exemplo, uma matriz de portas programáveis) pode ser utilizado para realizar algumas ou todas as funcionalidades dos métodos descritos aqui. Nalgumas formas de realização, uma matriz de portas programáveis pode cooperar com um microprocessador a fim de realizar um dos métodos descritos aqui. Geralmente, os métodos são preferivelmente realizados por qualquer aparelho de hardware. 0 aparelho aqui descrito pode ser implementado utilizando um aparelho de hardware, ou utilizando um computador, ou utilizando uma mistura de um aparelho de hardware e um computador.
Os métodos descritos aqui podem ser realizados utilizando um aparelho de hardware, ou utilizando um computador, ou utilizando uma mistura de um aparelho de hardware e um computador.
As formas de realização descritas acima são meramente ilustrativas para os princípios da presente invenção. Entende-se que as modificações e variações das disposições e os detalhes descritos serão evidentes a outros elementos versados na arte. É a intenção, então, ser limitado apenas pelo âmbito das reivindicações das patentes iminentes e não pelos detalhes específicos apresentados em forma de descrição e explicação das formas de realização aqui constantes.
REFERÊNCIAS
[1] Recommendation ITU-T G.718 - Amendment 2: "Frame error robust narrow-band and wideband embedded variable bit-rate coding of speech and audio from 8-32 kbit/s - Amendment 2: New Annex B on superwideband scalable extension for ITU-T G.718 and corrections to main body fixed-point C-code and description text" [2] Recommendation ITU-T G.729.1 - Amendment 6: "G.729-based embedded variable bit-rate coder: An 8-32 kbit/s scalable wideband coder bitstream interoperable with G.729 - Amendment 6: New Annex E on superwideband scalable extension" [3] B. Geiser, P. Jax, P. Vary, H. Taddei, S. Schandl, M.
Gartner, C. Guillaumé, S. Ragot: "Bandwidth Extension for Hierarchical Speech and Audio Coding in ITU-T Rec. G.729.1", IEEE Transactions on Audio, Speech, and Language Processing, Vol.15, No.8, 2007, pp.2496-2509 [4] M. Tammi, L. Laaksonen, A. Rãmõ, H. Toukomaa: "Scalable Superwideband Extension for Wideband Coding", IEEE ICASSP 2009, pp.161-164 [5] B. Geiser, P. Jax, P. Vary, H. Taddei, M. Gartner, S.
Schandl: "A Qualified ITU-T G.729 EV Codec Candidate for Hierarchical Speech and Audio Coding", 2006 IEEE 8th Workshop on Multimedia Signal Processing, pp.114-118
REFERÊNCIAS CITADAS NA DESCRIÇÃO A lista de referências citada pelo proponente é somente para conveniência do leitor. Não é parte do documento europeu de patente. Apesar de todo o cuidado que foi tido na compilação das referências, erros ou omissões não podem ser excluídas e o EPO recusa quaisquer responsabilidades nesse sentido.
Documentos de Patente Citados na Descrição US 20110153336 Al
Literatura, que não patentes, citada na descrição B. Geiser, P. Jax, P. Vary, H. Taddei, S. Schandl, M. Gartner, C. Guillaumé, S. Ragot: "Bandwidth Extension for Hierarchical Speech and Audio Coding in ITU-T Rec. G.729.1", IEEE Transactions on Audio, Speech, and Language Processing, Vol.15, No.8, 2007, pp.2496-2509 M. Tammi, L. Laaksonen, A. Rãmõ, H. Toukomaa: "Scalable
Superwideband Extension for Wideband Coding", IEEE ICASSP 2009, pp.161-164

Claims (16)

  1. REIVINDICAÇÕES
    1. Descodificador que suporta, e sendo comutável entre, pelo menos dois modos de forma a descodificar um sinal de informação, em que o sinal de informação é um sinal de áudio, em que o descodificador é recetivo a uma comutação de um ou mais modos de codificação desde o modo de codificação de áudio de largura de banda total até ao modo de codificação de áudio BWE, e desde o modo de codificação de áudio BWE até ao modo de codificação de áudio de largura de banda total, caracterizado por o descodificador ser confiqurado para, recetivo a uma instância de comutação, realizar o amaciamento temporal e/ou mistura numa transição entre uma primeira porção temporal (60) do sinal de informação, precedente à instância de comutação, e uma sequnda porção temporal (62) do sinal de informação, subsequente à instância de comutação, de uma forma confinada a uma banda espectral de alta frequência (66), em que a banda espectral de alta frequência (66) se sobrepõe com a larqura de banda codificada efetiva de ambos os modos de codificação entre os quais a comutação na instância de comutação ocorre, e a banda espectral de alta frequência (66) se sobrepõe com uma porção da extensão espectral de BWE do modo de codificação áudio BWE e uma porção do espectro de transformada ou porção espectral linear predictivamente codificada do modo de codificação de áudio de larqura de banda total, em que o descodificador está confiqurado para realizar o amaciamento temporal e/ou mistura na transição por, dentro de uma porção temporária (80; 108) diretamente subsequente à transição, atravessando a transição ou precedendo a transição, diminuir a energia do sinal de informação durante a porção temporária (80) em que o sinal de informação está codificado utilizando o modo de codificação de áudio de largura de banda total e/ou aumentar a energia do sinal de informação durante a porção temporária (80) em que o sinal de informação está codificado utilizando o modo de codificação de áudio BWE por forma a compensar um aumento da propriedade de preservação de energia do modo de codificação de áudio de largura de banda total relativamente ao modo de codificação de áudio BWE.
  2. 2. Descodificador, de acordo com a reivindicação 1, caracterizado por o descodificador ser configurado para realizar o amaciamento temporal e/ou mistura dependendo adicionalmente de uma análise (194) do sinal de informação numa banda espectral de análise (190) disposta espectralmente abaixo da banda espectral de alta frequência (66).
  3. 3. Descodificador que suporta, e sendo comutável entre, pelo menos, dois modos para descodificar um sinal de informação, em que o sinal de informação é um sinal de áudio, em que o descodificador está configurado para, recetivo a uma instância de comutação, realizar o amaciamento temporal e/ou mistura numa transição entre uma primeira porção temporal (60) do sinal de informação, precedente à instância de comutação, e uma segunda porção temporal (62) do sinal de informação, subsequente à instância de comutação, de uma forma confinada a uma banda espectral de alta frequência (66), caracterizado por o descodificador ser configurado para realizar o amaciamento temporal e/ou mistura dependendo adicionalmente de uma análise (194) do sinal de informação numa banda espectral de análise (190) disposta espectralmente abaixo da banda espectral de alta frequência (66) caracterizado por o descodificador ser configurado para determinar uma medição para uma flutuação da energia do sinal de informação na banda espectral de análise (190) e definir um grau para o amaciamento temporal e/ou da mistura dependente da medição.
  4. 4. Descodificador, de acordo com a reivindicação 3, caracterizado por o descodificador ser configurado para calcular a medição como o máximo de uma primeira diferença absoluta entre energias do sinal de informação na banda espectral de análise (190) entre as porções temporais que ficam nos lados temporais opostos da transição (204) e uma segunda diferença absoluta entre energias do sinal de informação na banda espectral de análise (190) entre as porções temporais consecutivas, ambas subsequentes à transição (204).
  5. 5. Descodificador, de acordo com qualquer uma das reivindicações de 3 e 4, caracterizado por a banda espectral de análise (190) encostar na banda espectral de alta frequência (66) num lado espectral inferior da banda espectral de alta frequência (66).
  6. 6. Descodificador, de acordo com qualquer uma das reivindicações 1 a 5, caracterizado por o descodificador ser confiqurado para escalar a enerqia dos sinais de informação na banda espectral de alta frequência (66) na sequnda porção temporal (62) com um fator de escala que varia entre 1 e
    de acordo com a medição.
  7. 7. O descodif icador, de acordo com qualquer uma das reivindicações 1 a 6, caracterizado por o descodificador ser configurado para realizar a comutação e/ou a mistura aplicando BWE cega a uma das primeira e segunda porções temporais, descodificada utilizando um primeiro modo de codificação que tem uma largura de banda codificada efetiva menor do que uma largura de banda codificada efetiva do segundo modo de codificação utilizando um ou outro modo contrário ao que a primeira e segunda porções temporais foram descodificadas, para espectralmente estender a largura de banda codificada efetiva de uma de entre a primeira e a segunda porção temporal à banda espectral de alta frequência (66) e temporalmente modelar a energia do sinal de informação na banda espectral de alta frequência numa de entre a primeira e a segunda porções temporais, conforme espectralmente estendida, de acordo com a função de escala de fade in/fade out decrescendo desde a transição até mais longe da transição até 0.
  8. 8. Descodificador, de acordo com qualquer uma das reivindicações 1 a 7, caracterizado por a comutação comutar de um primeiro modo de codificação para um segundo modo de codificação com o primeiro modo de codificação tendo uma largura de banda codificada efetiva maior do que uma largura de banda codificada efetiva do segundo modo de codificação, em que o descodificador é configurado para espectralmente estender, utilizando BWE cega, a largura de banda codificada efetiva da segunda porção temporal à banda espectral de alta frequência (66) e temporalmente modelar a energia do sinal de informação na banda espectral de alta frequência na segunda parte temporal, conforme espectralmente estendido utilizando a BWE cega, de acordo com uma função de escala de fade-out decrescendo desde a transição até mais longe da transição até 0.
  9. 9. Descodificador, de acordo com qualquer uma das reivindicações 1 a 8, caracterizado por a comutação comutar de um primeiro modo de codificação a um segundo modo de codificação em que uma largura de banda codificada efetiva do primeiro modo de codificação é menor do que uma largura de banda codificada efetiva do segundo modo de codificação, em que o descodificador é configurado para temporalmente modelar uma energia do sinal de informação na banda espectral de alta frequência (66) na segunda porção temporal de acordo com uma função de escala de fade-in crescendo desde a transição até mais longe da transição até 1.
  10. 10. Descodificador, de acordo com qualquer uma das reivindicações 1 a 9, caracterizado por o descodificador ser configurado para realizar o amaciamento temporal e/ou mistura na instância de comutação pela aplicação de uma função de escala de fade-in ou de fade-out e para, se uma instância de comutação subsequente ocorrer durante a função de escala de fade-in ou de fade-out, aplicar, novamente, uma função de escala de fade-in ou de fade-out numa banda espectral de alta frequência (66) para realizar o amaciamento temporal e/ou a mistura na instância de comutação subsequente, com a definição de um ponto inicial para aplicar a função de escala de fade-in ou de fade-out da instância de comutação subsequente de modo que a função de escala de fade-in ou de fade-out aplicada na instância de comutação subsequente seja, no ponto inicial, um valor de função mais próximo a um valor de função assumido pela função de escala de fade-in ou de fade-out quando aplicada na instância de comutação, no tempo de ocorrência da instância de comutação subsequente.
  11. 11. Método para descodificar que suporta, e sendo comutável entre, pelo menos dois modos para descodificar um sinal de informação, em que o sinal de informação é um sinal de áudio, em que o descodificador é recetivo a uma comutação de um ou mais modos de codificação desde o modo de codificação de áudio de largura de banda total até ao modo de codificação de áudio BWE, e desde o modo de codificação de áudio BWE até ao modo de codificação de áudio de largura de banda total, caracterizado por o método compreender, recetivo a uma instância de comutação, realizar o amaciamento temporal e/ou mistura numa transição entre uma primeira porção temporal (60) do sinal de informação, precedente à instância de comutação, e uma segunda porção temporal (62) do sinal de informação, subsequente a instância de comutação, de uma forma confinada a uma banda espectral de alta frequência (66) , em que a banda espectral de alta frequência (66) se sobrepõe com a largura de banda codificada efetiva de ambos os modos de codificação entre os quais a comutação na instância de comutação ocorre, e a banda espectral de alta frequência (66) se sobrepõe com uma porção da extensão espectral de BWE do modo de codificação áudio BWE e uma porção do espectro de transformada ou porção espectral linear predictivamente codificada do modo de codificação de áudio de largura de banda total, em que o amaciamento temporal e/ou mistura na transição é realizado por, dentro de uma porção temporária (80; 108) diretamente subsequente à transição, atravessando a transição ou precedendo a transição, diminuir a energia do sinal de informação durante a porção temporária (80) em que o sinal de informação está codificado utilizando o modo de codificação de áudio de largura de banda total e/ou aumentar a energia do sinal de informação durante a porção temporária (80) em que o sinal de informação está codificado utilizando o modo de codificação de áudio BWE por forma a compensar um aumento da propriedade de preservação de energia do modo de codificação de áudio de largura de banda total relativamente ao modo de codificação de áudio BWE.
  12. 12. Programa de computador tendo um código de programa para realizar, ao ser executado num computador, um método de acordo com a reivindicação 11.
  13. 13. Codificador que suporta, e sendo comutável entre, pelo menos, dois modos de variação de sinal da propriedade de conservação de energia numa banda espectral de alta frequência, de forma a codificar um sinal de informação, em que a informação é um sinal de áudio, caracterizado por o codificador ser configurado para, recetivo a uma instância de comutação, codificar o sinal de informação temporariamente amaciado e/ou misturado numa transição entre uma primeira porção temporal (60) do sinal de informação, precedente à instância de comutação e uma segunda porção temporal (62) do sinal de informação, subsequente à instância de comutação, de uma forma confinada a uma banda espectral de alta frequência (66).
  14. 14. Codificador, de acordo com a reivindicação 13, caracterizado pelo codificador ser configurado para, recetivo a uma instância de comutação de um primeiro modo de codificação tendo uma primeira propriedade de conservação do sinal na banda espectral de alta frequência a um segundo modo de codificação tendo uma segunda propriedade de conservação do sinal na banda espectral de alta frequência, codificar temporariamente uma versão modificada do sinal de informação que é modificada comparada ao sinal de informação em que uma energia do sinal de informação na banda espectral de alta frequência numa porção temporal subsequente à instância de comutação é temporalmente modelada de acordo com uma função de escala de fade-in monotonamente crescendo desde a transição até mais longe da transição até 1.
  15. 15. Método para o codificador que suporta, e sendo comutável entre, pelo menos, dois modos para variar a propriedade de conservação do sinal numa banda espectral de alta frequência, por forma a codificar um sinal de informação, em que o sinal de informação é um sinal áudio, caracterizado por o método compreender, recetivo a uma instância de comutação, a codificação do sinal de informação temporalmente amaciado e/ou misturado numa transição entre uma primeira porção temporal (60) do sinal de informação, precedente à instância de comutação e uma segunda porção temporal (62) do sinal de informação, subsequente à instância de comutação, de uma forma confinada a uma banda espectral de alta frequência (66).
  16. 16. Programa de computador tendo um código de programa para realizar, ao ser executado num computador, um método de acordo com a reivindicação 15.
PT147019780T 2013-01-29 2014-01-28 Conceito para codificar a compensação de comutação de modo PT2951821T (pt)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US201361758086P 2013-01-29 2013-01-29

Publications (1)

Publication Number Publication Date
PT2951821T true PT2951821T (pt) 2017-06-06

Family

ID=50030276

Family Applications (1)

Application Number Title Priority Date Filing Date
PT147019780T PT2951821T (pt) 2013-01-29 2014-01-28 Conceito para codificar a compensação de comutação de modo

Country Status (19)

Country Link
US (4) US9934787B2 (pt)
EP (1) EP2951821B1 (pt)
JP (2) JP6297596B2 (pt)
KR (1) KR101766802B1 (pt)
CN (1) CN105229735B (pt)
AR (1) AR094675A1 (pt)
AU (1) AU2014211586B2 (pt)
CA (3) CA2979260C (pt)
ES (1) ES2626809T3 (pt)
HK (1) HK1218588A1 (pt)
MX (1) MX351361B (pt)
MY (1) MY177336A (pt)
PL (1) PL2951821T3 (pt)
PT (1) PT2951821T (pt)
RU (1) RU2625561C2 (pt)
SG (1) SG11201505898XA (pt)
TW (1) TWI541798B (pt)
WO (1) WO2014118139A1 (pt)
ZA (1) ZA201506321B (pt)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3288031A1 (en) 2016-08-23 2018-02-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding an audio signal using a compensation value
US20190051286A1 (en) * 2017-08-14 2019-02-14 Microsoft Technology Licensing, Llc Normalization of high band signals in network telephony communications
WO2019081070A1 (en) * 2017-10-27 2019-05-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. APPARATUS, METHOD, OR COMPUTER PROGRAM PRODUCT FOR GENERATING ENHANCED BANDWIDTH AUDIO SIGNAL USING NEURAL NETWORK PROCESSOR

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3638091B2 (ja) * 1999-03-25 2005-04-13 松下電器産業株式会社 マルチバンドデータ通信装置、マルチバンドデータ通信装置の通信方法および記録媒体
JP3467469B2 (ja) * 2000-10-31 2003-11-17 Necエレクトロニクス株式会社 音声復号装置および音声復号プログラムを記録した記録媒体
US7006636B2 (en) 2002-05-24 2006-02-28 Agere Systems Inc. Coherence-based audio coding and synthesis
US6658383B2 (en) * 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
US7406096B2 (en) * 2002-12-06 2008-07-29 Qualcomm Incorporated Tandem-free intersystem voice communication
FI119533B (fi) * 2004-04-15 2008-12-15 Nokia Corp Audiosignaalien koodaus
GB0408856D0 (en) * 2004-04-21 2004-05-26 Nokia Corp Signal encoding
CN1954364B (zh) * 2004-05-17 2011-06-01 诺基亚公司 带有不同编码帧长度的音频编码
KR100608062B1 (ko) * 2004-08-04 2006-08-02 삼성전자주식회사 오디오 데이터의 고주파수 복원 방법 및 그 장치
JP5420175B2 (ja) * 2005-01-31 2014-02-19 スカイプ 通信システムにおける隠蔽フレームの生成方法
KR100647336B1 (ko) * 2005-11-08 2006-11-23 삼성전자주식회사 적응적 시간/주파수 기반 오디오 부호화/복호화 장치 및방법
KR100715949B1 (ko) * 2005-11-11 2007-05-08 삼성전자주식회사 고속 음악 무드 분류 방법 및 그 장치
KR100749045B1 (ko) * 2006-01-26 2007-08-13 삼성전자주식회사 음악 내용 요약본을 이용한 유사곡 검색 방법 및 그 장치
US7873511B2 (en) * 2006-06-30 2011-01-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
CN101025918B (zh) * 2007-01-19 2011-06-29 清华大学 一种语音/音乐双模编解码无缝切换方法
CN101231850B (zh) * 2007-01-23 2012-02-29 华为技术有限公司 编解码方法及装置
KR101441896B1 (ko) * 2008-01-29 2014-09-23 삼성전자주식회사 적응적 lpc 계수 보간을 이용한 오디오 신호의 부호화,복호화 방법 및 장치
WO2009157824A1 (en) 2008-06-24 2009-12-30 Telefonaktiebolaget L M Ericsson (Publ) Multi-mode scheme for improved coding of audio
KR101224560B1 (ko) * 2008-07-11 2013-01-22 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 인코드된 오디오 신호를 디코딩하는 장치 및 방법
EP2144231A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme with common preprocessing
EP2146343A1 (en) * 2008-07-16 2010-01-20 Deutsche Thomson OHG Method and apparatus for synchronizing highly compressed enhancement layer data
PT2146344T (pt) * 2008-07-17 2016-10-13 Fraunhofer Ges Forschung Esquema de codificação/descodificação de áudio com uma derivação comutável
FR2936898A1 (fr) * 2008-10-08 2010-04-09 France Telecom Codage a echantillonnage critique avec codeur predictif
US8724829B2 (en) 2008-10-24 2014-05-13 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for coherence detection
US8532211B2 (en) * 2009-02-20 2013-09-10 Qualcomm Incorporated Methods and apparatus for power control based antenna switching
CN102369569B (zh) * 2009-05-13 2013-04-24 华为技术有限公司 编码处理方法、编码处理装置与发射机
WO2011048820A1 (ja) * 2009-10-23 2011-04-28 パナソニック株式会社 符号化装置、復号装置およびこれらの方法
US8442837B2 (en) * 2009-12-31 2013-05-14 Motorola Mobility Llc Embedded speech and audio coding using a switchable model core
EP2590164B1 (en) * 2010-07-01 2016-12-21 LG Electronics Inc. Audio signal processing
US9047875B2 (en) * 2010-07-19 2015-06-02 Futurewei Technologies, Inc. Spectrum flatness control for bandwidth extension
CN102737636B (zh) * 2011-04-13 2014-06-04 华为技术有限公司 一种音频编码方法及装置

Also Published As

Publication number Publication date
US10734007B2 (en) 2020-08-04
EP2951821A1 (en) 2015-12-09
JP6297596B2 (ja) 2018-03-20
US20200335116A1 (en) 2020-10-22
SG11201505898XA (en) 2015-09-29
ZA201506321B (en) 2017-04-26
CA2979260A1 (en) 2014-08-07
AU2014211586A1 (en) 2015-08-20
KR101766802B1 (ko) 2017-08-09
US20150332693A1 (en) 2015-11-19
TW201443882A (zh) 2014-11-16
WO2014118139A1 (en) 2014-08-07
EP2951821B1 (en) 2017-03-01
RU2625561C2 (ru) 2017-07-14
US11600283B2 (en) 2023-03-07
PL2951821T3 (pl) 2017-08-31
MX351361B (es) 2017-10-11
CA2979245C (en) 2019-10-15
US20180144756A1 (en) 2018-05-24
MY177336A (en) 2020-09-12
CA2898572C (en) 2019-07-02
AU2014211586B2 (en) 2017-02-16
CA2979245A1 (en) 2014-08-07
KR20150109481A (ko) 2015-10-01
US20230206931A1 (en) 2023-06-29
JP2016505170A (ja) 2016-02-18
CA2979260C (en) 2020-07-07
TWI541798B (zh) 2016-07-11
CA2898572A1 (en) 2014-08-07
RU2015136797A (ru) 2017-03-10
ES2626809T3 (es) 2017-07-26
JP6549673B2 (ja) 2019-07-24
JP2018055105A (ja) 2018-04-05
MX2015009535A (es) 2015-10-30
CN105229735B (zh) 2019-11-01
HK1218588A1 (zh) 2017-02-24
AR094675A1 (es) 2015-08-19
US9934787B2 (en) 2018-04-03
CN105229735A (zh) 2016-01-06

Similar Documents

Publication Publication Date Title
RU2696292C2 (ru) Аудиокодер и декодер
EP2054877B1 (en) Updating of decoder states after packet loss concealment
RU2631988C2 (ru) Заполнение шумом при аудиокодировании с перцепционным преобразованием
US9218817B2 (en) Low-delay sound-encoding alternating between predictive encoding and transform encoding
US20230206931A1 (en) Concept for coding mode switching compensation
KR101853352B1 (ko) 정렬된 예견 부를 사용하여 오디오 신호를 인코딩하고 디코딩하기 위한 장치 및 방법
BRPI0718738B1 (pt) Codificador, decodificador e métodos para codificação e decodificação de segmentos de dados representando uma corrente de dados de domínio de tempo
BR122021009252B1 (pt) Codificador e decodificador de áudio para estruturas de codificação de sinais de áudio amostrados
BR112013020587B1 (pt) esquema de codificação com base em previsão linear utilizando modelagem de ruído de domínio espectral
BR122020017853B1 (pt) Sistema e aparelho para codificar um sinal de voz em um fluxo de bits, e método e aparelho para decodificar sinal de áudio
BR112015025009B1 (pt) Unidades de quantização e quantização inversa, codificador e decodificador, métodos para quantizar e dequantizar
US20200160874A1 (en) Audio decoder, method and computer program using a zero-input-response to obtain a smooth transition
CN106605263B (zh) 确定用于编码lpd/fd过渡帧的预算
BR112015017874B1 (pt) Conceito para codificar a compensação de comutação de modo