PT2941771T

PT2941771T - Descodificador, codificador e método de estimativa informada da percepção sonora empregando sinais de objetos de áudio de bypass em sistemas de codificação de áudio baseada em objetos

Info

Publication number: PT2941771T
Application number: PT148029143T
Authority: PT
Inventors: Paulus Jouni; Disch Sascha; Fuchs Harald; Grill Bernhard; Hellmuth Oliver; Murtaza Adrian; Ridderbusch Falko; Terentiv Leon
Original assignee: Fraunhofer Ges Forschung
Priority date: 2013-11-27
Filing date: 2014-11-27
Publication date: 2017-06-30
Also published as: JP2016520865A; US20210118454A1; JP2017502324A; CN112151049A; PL3074971T3; EP2879131A1; JP6218928B2; CN112151049B; US10891963B2; TW201535353A; CA2931558C; MX358306B; ES2666127T3; US20160254001A1; BR112015019958A2; CA2900473C; US20220351736A1; MX2015013580A; US11423914B2; AU2014356467A1

Description

DESCRIÇÃO

DESCODIFICADOR, CODIFICADOR E MÉTODO DE ESTIMATIVA INFORMADA DA PERCEPÇÃO SONORA EMPREGANDO SINAIS DE OBJETOS DE ÁUDIO DE BYPASS EM SISTEMAS DE CODIFICAÇÃO DE ÁUDIO BASEADA EM OBJETOS A presente invenção refere-se à codificação, processamento e descodificação de sinais de áudio e em particular a um descodificador e codificador e método de estimativa informada da perceção sonora em sistemas de codificação de áudio baseada em obj etos.

Recentemente têm sido propostas técnicas paramétricas de transmissão de taxa de bit eficiente/armazenamento de cenas áudio compreendendo múltiplos sinais de objetos de áudio no domínio da codificação áudio [BCC, JSC, SAOC, SA0C1, SA0C2] e separação informada de fontes [ISS1, ISS2, ISS3, ISS4, ISS5, ISS6] . Estas técnicas procuram reconstruir uma cena áudio ou objeto fonte áudio com base na informação lateral adicional que descreve a cena áudio transmitida/armazenada e/ou os objetos fonte na cena áudio. Esta reconstrução decorre no descodificador, utilizando um esquema de separação informada da fonte. Os objetos reconstruídos podem ser combinados para produzir a cena áudio de saída. Dependendo da forma como os objetos são combinados, a sonoridade perceptual da cena de saída pode variar.

Nas emissões de TV e rádio, os níveis de volume das faixas áudio dos vários programas podem ser normalizados com base em vários aspetos, tais como o nivel de sinal de pico ou o nivel de sonoridade. Dependendo das propriedades dinâmicas dos sinais, dois sinais com o mesmo nivel de pico podem ter um nivel completamente diferente de sonoridade perceptível. Nas trocas entre programas ou canais, as diferenças entre a percepção sonora do sinal são muito incómodas e têm vindo a ser uma fonte substancial de gueixas da parte do utilizador final no âmbito das emissões.

Na técnica anterior, foi proposto normalizar todos os programas em todos os canais de forma similar para um nivel de referência comum, utilizando uma escala baseada na sonoridade perceptual do sinal. Uma recomendação neste sentido, na Europa, é a recomendação R128 [EBU] (adiante designada por R128). A recomendação diz gue a "percepção sonora do programa", por exemplo, a percepção sonora média durante um programa (ou publicidade ou outra entidade significativa) deve corresponder a um nivel especificado (com peguenos desvios admissíveis). Quando cada vez mais emissoras respeitarem esta recomendação e a normalização requerida, as diferenças de percepção sonora média entre programas e canais deverão ser minimizadas. A estimativa da percepção sonora pode ser executada de várias formas. Existem vários modelos matemáticos para estimar a percepção sonora de um sinal áudio. A recomendação EBU R128 baseia-se no modelo apresentado em ITU-R BS.1770 (posteriormente designado BS.1770) (vide [ITU]) para a estimativa da sonoridade.

Como indicado anteriormente, por exemplo, de acordo com a recomendação EBU R128, a percepção sonora de um programa, por exemplo, a percepção sonora média ao longo de um programa deve corresponde a um nivel especificado com pequenos desvios admissíveis. No entanto, este especto levanta problemas significativos quando se executa a representação na técnica anterior e que até hoje ainda não tiveram solução. A execução de uma representação áudio do lado do descodificador tem um efeito significativo na percepção sonora global/total do sinal de entrada de áudio recebido. No entanto, apesar de ser executada a representação da cena, a percepção sonora total do sinal de áudio recebido deverá permanecer igual.

Atualmente não existe uma solução específica do lado do descodificador para este problema. A EP 2 146 522 Al ( [EP]) refere-se a conceitos para a geração de sinais de saída de áudio utilizando meta-dados baseados em objetos. É gerado pelo menos um sinal de saída de áudio representando uma sobreposição de pelo menos dois sinais de objetos de áudio diferentes, mas não proporciona uma solução para este problema. A WO 2008/035275 A2 ( [BRE]) descreve um sistema áudio compreendendo um codificador que codifica objetos de áudio numa unidade codificadora que gera um downmix do sinal de áudio e dados paramétricos que representa os vários objetos de áudio. O downmix de sinal de áudio e dados paramétricos são transmitidos para um descodificador que compreende uma unidade descodificadora, a qual gera réplicas aproximadas dos objetos de áudio e uma unidade de representação que gera um sinal de saída a partir dos objetos de áudio. 0 descodificador contém ainda um processador para a geração de dados de modificação codificadores, que é enviado para o codificador. 0 codificador depois modifica a codificação dos objetos de áudio e, em particular, modifica os dados paramétricos em resposta aos dados de modificação da codificação. A abordagem permite a manipulação dos objetos de áudio controlada pelo descodificador, mas executada na totalidade ou em parte pelo codificador. Assim, a manipulação pode ser executada nos objetos de áudio independentes reais em vez de em réplicas aproximadas, proporcionando assim um melhor desempenho. A EP 2 146 522 Al ( [SCH] ) apresenta um aparelho para a geração de pelo menos um sinal de saida de áudio, representando uma sobreposição de pelo menos dois objetos de áudio diferentes, compreende um processador para o processamento de um sinal de entrada de áudio para proporcionar uma representação do objeto do sinal de entrada de áudio, podendo esta representação do objeto ser gerada por uma aproximação com orientação paramétrica dos objetos originais, utilizando um sinal downmix do objeto. Um manipulador do objeto manipula individualmente objetos, utilizando meta-dados baseados em objetos de áudio, remetendo para os objetos de áudio individuais para obter objetos de áudio manipulados. Os objetos de áudio manipulados são misturados utilizando um misturador de objetos para se obter finalmente um sinal de saída de áudio com um ou vários sinais do canal, dependendo de uma configuração de representação específica. A WO 2008/046531 Al ([ENG]) descreve um codificador de objetos de áudio para a geração de um objeto codificado utilizando vários objetos de áudio, incluindo um gerador de informação downmix para a geração de informação downmix, indicando uma distribuição de vários objetos de áudio em pelo menos dois canais downmix, um gerador de parâmetros do objeto de áudio para a geração de parâmetros de objeto para os objetos de áudio e uma interface de saída para a geração do sinal de saída de áudio importado utilizando a informação downmix e os parâmetros de objeto. Um sintetizador de áudio utiliza a informação downmix para a geração de dados de saída utilizáveis para a criação de vários canais de saída da configuração de saída de áudio predefinida.

Mais ainda, WO2012/125855 relaciona-se com a criação, codificação, transmissão, descodificação e reprodução de faixas sonoras de áudio espacial. Desta forma, o formato de codificação é compatível com os precedentes formatos de codificação de som surround.

Seria desejável possuir uma estimativa precisa da percepção sonora média de saída ou da alteração da percepção sonora média sem atraso e, quando o programa não se altera ou a cena de representação não é alterada, a percepção sonora média deve também permanecer estática. O objeto da presente invenção consiste em proporcionar conceitos melhorados de codificação, processamento e descodificação do sinal de áudio. 0 objeto da presente invenção é solucionado com um descodificador de acordo com a reivindicação 1, por um codificador de acordo com a reivindicação 9, com um sistema de acordo com a reivindicação 11, com um método de acordo com a reivindicação 12, com um método de acordo com a reivindicação 13 e com um programa de computador de acordo com a reivindicação 15. É apresentada uma forma informada de estimativa da percepção sonora da saída num sistema de codificação áudio baseada em objetos. Os conceitos fornecidos baseiam-se na informação da percepção sonora dos objetos na mistura áudio a ser fornecida ao descodificador. 0 descodificador utiliza esta informação conjuntamente com a informação de representação para a estimativa da percepção sonora do sinal de saída. Assim é possível, por exemplo, estimar a diferença de percepção sonora entre o downmix predefinido e a saída representada. É então possível compensar esta diferença de forma a obter aproximadamente uma percepção sonora constante à saída, independentemente da informação de representação. A estimativa da percepção sonora no descodificador decorre de forma totalmente paramétrica e, em termos informáticos, é muito leve e precisa em comparação com os conceitos de estimativa da percepção sonora baseados em sinais. São apresentados conceitos de obtenção de informação sobre a percepção sonora da cena de saída específica utilizando conceitos puramente paramétricos, o que permite o processamento da percepção sonora sem estimativa explicita da percepção sonora baseada em sinais no descodificador. Para além disso, é descrita a tecnologia especifica da Codificação de Objeto de Áudio Espacial (em inglês, Spatial Audio Object Coding - SAOC) normalizada por MPEG [SAOC], mas os conceitos apresentados podem ser utilizados também em conjunto com outras tecnologias de codificação de objetos áudio. É apresentado um descodificador para gerar um sinal de saida de áudio que compreende um ou mais canais de saida de áudio. 0 descodificador compreende uma interface recetor para receber um sinal de entrada de áudio, que compreende uma pluralidade de sinais de objetos de áudio, para receber informação de percepção sonora nos sinais de objetos de áudio e para receber informação de representação indicadora se um ou mais sinais de objetos de áudio deverão ser amplificados ou atenuados. Para além disso, o descodificador compreende um processador de sinal para gerar um ou mais canais de saida de áudio do sinal de saida de áudio. 0 processador de sinal está configurado para determinar um valor de compensação de percepção sonora dependendo da informação de percepção sonora e dependendo da informação de representação. Para além disso, o processador de sinal está configurado para gerar um ou mais canais de saida de áudio do sinal de saida de áudio a partir do sinal de entrada de áudio, dependendo da informação de representação e dependendo do valor de compensação de percepção sonora.

De acordo com uma forma de realização, o processador de sinal pode ser configurado para gerar um ou mais canais de saída de áudio do sinal de saída de áudio a partir do sinal de entrada de áudio dependendo da informação de representação e dependendo do valor de compensação da percepção sonora, de tal modo que uma percepção sonora do sinal de saída de áudio é igual a uma percepção sonora do sinal de entrada de áudio ou de tal modo que a percepção sonora do sinal de saída é mais próxima da percepção sonora do sinal de entrada de áudio comparativamente a uma percepção sonora de um sinal de áudio modificado que resultaria da modificação de um sinal de entrada de áudio ao amplificar ou atenuar os sinais de objetos de áudio de acordo com a informação de representação.

De acordo com uma outra forma de realização, cada sinal de objetos de áudio do sinal de entrada de áudio pode ser atribuído a exatamente um grupo de dois ou mais grupos, em que cada dos dois ou mais grupos pode compreender um ou mais sinais de objetos de áudio do sinal de entrada de áudio. Nesta forma de realização, a interface recetora pode ser configurada para receber um valor de percepção sonora para cada grupo dos dois ou mais grupos da informação de percepção sonora, indicando o referido valor de percepção sonora uma percepção sonora total original de um ou mais sinais de objetos de áudio do referido grupo. Para além disso, a interface recetora pode ser configurada para receber a informação de representação indicando quanto a pelo menos um grupo dos dois ou mais grupos se o um ou mais sinais de objetos de áudio do referido grupo serão amplificados ou atenuados através da indicação de uma percepção sonora total modificada do um ou mais sinais de objetos de áudio do referido grupo. Para além disso, numa tal forma de realização, o processador de sinal pode ser configurado para determinar o valor de compensação de percepção sonora dependendo da percepção sonora total modificada de cada um do referido pelo menos um grupo dos dois ou mais grupos e dependendo da percepção sonora total original de cada um dos dois ou mais grupos. Para além disso, o processador de sinal pode ser configurado para gerar um ou mais canais de saida de áudio do sinal de saida de áudio a partir do sinal de entrada de áudio dependendo da percepção sonora total modificada de cada um do referido pelo menos um grupo dos dois ou mais grupos e dependendo do valor de compensação da percepção sonora.

Em formas de realização particulares, pelo menos um grupo dos dois ou mais grupos pode compreender dois ou mais dos sinais de objetos de áudio.

Para além disso é apresentado um codificador. 0 codificador compreende uma unidade de codificação baseada em objetos para codificar uma pluralidade de sinais de objetos de áudio para obter um sinal de áudio codificado que compreende a pluralidade de sinais de objetos de áudio. Para além disso, o codificador compreende uma unidade de codificação da percepção sonora do objeto para codificar a informação da percepção sonora nos sinais de objetos de áudio. A informação da percepção sonora compreende um ou mais valores de percepção sonora, em que cada do ou de mais valores de percepção sonora dependem de um ou mais dos sinais de objetos de áudio.

De acordo com uma forma de realização, cada um dos sinais de objetos de áudio do sinal de áudio codificado pode ser atribuído a exatamente um grupo de dois ou mais grupos, em que cada dos dois ou mais grupos compreende um ou mais dos sinais de objetos de áudio do sinal de áudio codificado. A unidade codificadora da percepção sonora do objeto pode ser configurada para determinar o um ou mais valores de percepção sonora da informação de percepção sonora através da determinação de um valor de percepção sonora para cada grupo dos dois ou mais grupos, em que o referido valor de percepção sonora do referido grupo indica uma percepção sonora total original do um ou mais sinais de objetos de áudio do referido grupo.

Para além disso, é apresentado um sistema. 0 sistema compreende um codificador de acordo com uma das formas de realização já descritas para a codificação de uma pluralidade de sinais de objetos de áudio para obter um sinal áudio codificado compreendendo a pluralidade de sinais de objetos de áudio e para codificação da informação de percepção sonora nos sinais de objetos de áudio. Para além disso, o sistema compreende um descodificador de acordo com uma das formas de realização já descritas para gerar um sinal de saida de áudio que compreenda um ou mais canais de saida de áudio. 0 descodif icador está configurado para receber o sinal de áudio codificado como um sinal de entrada de áudio e a informação da percepção sonora. Para além disso, o descodificador está configurado para receber ainda a informação de representação. 0 descodificador está ainda configurado para determinar um valor de compensação de percepção sonora dependendo da informação de percepção sonora e dependendo da informação de representação. Para além disso, o descodificador está configurado para gerar um ou mais canais de saida de áudio do sinal de saida de áudio a partir do sinal de entrada de áudio dependendo da informação de representação e dependendo do valor de compensação da percepção sonora.

Para além disso, é apresentado método para gerar um sinal de saida de áudio que compreende um ou mais canais de saida de áudio. 0 método inclui:

Receber um sinal de entrada de áudio compreendendo uma pluralidade de sinais de objetos de áudio.

Receber informação da percepção sonora sobre os sinais de objetos de áudio.

Receber informação de representação indicando se um ou mais dos sinais de objetos de áudios deverão ser amplificados ou atenuados.

Determinar um valor de compensação de percepção sonora dependendo da informação de percepção sonora e dependendo da informação de representação e:

Gerar um ou mais canais de saida de áudio do sinal de saida áudio a partir do sinal de entrada de áudio, dependendo da informação de representação e dependendo do valor de compensação da percepção sonora.

Para além disso, é apresentado um método de descodificação. 0 método compreende:

Codificar um sinal de entrada de áudio compreendendo uma pluralidade de sinais de objetos de áudio. E:

Codificar informação da percepção sonora sobre os sinais de objetos de áudio, em que a informação da percepção sonora compreende um ou mais valores da percepção sonora, em que cada do ou de mais valores da percepção sonora dependem de um ou mais dos sinais de objetos de áudio.

Para além disso, é apresentado um programa de computador para implementar o método descrito acima quando executado num computador ou processador de sinal.

As formas de realização preferidas são apresentadas nas reivindicações dependentes.

Sequidamente passa-se à descrição mais detalhada das formas de realização da presente invenção com referência às fiquras, nas quais:

Fiq. 1 ilustra um descodificador para qerar um sinal de saída de áudio que compreende um ou mais canais de saída de áudio de acordo com uma forma de realização,

Fig. 2 ilustra um codificador de acordo com uma forma de realização,

Fig. 3 ilustra um sistema de acordo com uma forma de realização, Fig. 4 ilustra um sistema de Codificação de Objeto Áudio Espacial compreendendo um codificador SAOC e um descodificador SAOC,

Fig. 5 ilustra um descodificador SAOC compreendendo urn descodificador de informação lateral, um separador de objetos e urn renderizador,

Fig. 6 ilustra um comportamento das estimativas da percepção sonora do sinal de saida numa alteração da percepção sonora,

Fig. 7 descreve a estimativa informada da percepção sonora de acordo com uma forma de realização, ilustrando os componentes de um codificador e de um descodificador de acordo com uma forma de realização,

Fig. 8 ilustra um codificador de acordo com outra forma de realização,

Fig. 9 ilustra um codificador e um descodificador de acordo com uma forma de realização relacionada com o Melhoramento de

Diálogo SAOC, que compreende canais de bypass,

Fig. 10 descreve uma primeira ilustração de uma alteração da percepção sonora medida e o resultado da utilização dos conceitos fornecidos para estimar a alteração na percepção sonora de forma paramétrica,

Fig. 11 descreve uma segunda ilustração de uma alteração da percepção sonora medida e o resultado da utilização dos conceitos fornecidos para estimar a alteração na percepção sonora de forma paramétrica, e

Fig. 12 ilustra outra forma de realização para gerir a compensação da percepção sonora.

Antes de serem descritas as formas de realização preferidas de forma detalhada, são descritos a estimativa da percepção sonora, Codificação de Objeto Áudio Espacial (abreviatura em inglês SAOC) e Melhoramento do Diálogo (abreviatura do inglês DE). Descreve-se primeiro a estimativa da percepção sonora.

Como já foi referido anteriormente, a recomendação R128 EBU baseia-se no modelo apresentado em ITU-R BS.1770 para a estimativa da percepção sonora. Esta escala será empregue como um exemplo, mas os conceitos descritos abaixo podem também ser aplicados para outras medições da percepção sonora. A operação da estimativa da percepção sonora de acordo com a norma BS.1770 é relativamente simples e baseia-se nos seguintes passos principais [ITU]: o sinal de entrada xt (ou sinais no caso do sinal multicanal) é filtrado com um filtro K (uma combinação de um filtro shelving e um filtro passa alta) para se obter o(s) sinal/sinais yt . é calculada a energia média quadrática zt do sinal yt . no caso do sinal multicanal, é aplicada a ponderação do canal Gt e são somados os sinais ponderados. A percepção sonora do sinal é então definida como sendo

com o valor constante c = -0.691. A saída é então expressa nas unidades de "LKFS" (em inglês, Loudness, K-weighted, relative to Full Scale, isto é Percepção sonora, Ponderação-K, relativa à escala total) que é similar à escala de decibéis.

Na fórmula acima, Gj pode ser, por exemplo, igual a 1 para alguns dos canais, enquanto G± pode, por exemplo, ser 1,41 para outros canais. Por exemplo, se forem considerados um canal esquerdo, um canal direito, um canal central, um canal surround esquerdo e um canal surround direito, as despectivas ponderações G± podem ser, por exemplo, 1 para o canal esquerdo, direito e central e pode ser, por exemplo, 1,41 para o canal surround esquerdo e para o canal surround direito, ver [ITU].

Como se pode ver, o valor da percepção sonora L está intimamente relacionado com o logaritmo da energia do sinal.

Seguidamente descreve-se a Codificação de Objeto Áudio Espacial. Os conceitos de codificação de áudio baseada em objetos permitem uma considerável flexibilidade do lado do descodificador da cadeia. Um exemplo de um conceito de codificação de áudio baseada em objetos é a Codificação de Objeto Áudio Espacial (SAOC) . A fig. 4 ilustra um sistema de Codificação de Objeto Áudio Espacial (SAOC) compreendendo um codificador SAOC 410 e um descodificador SAOC 420. O codificador SAOC 410 recebe N sinais de objetos de áudio S±,

SN como entrada. Para além disso, o codificador SAOC 410 recebe ainda instruções "informação de mistura D" sobre como estes objetos devem ser combinados para se obter um sinal downmix compreendendo os canais downmix M X\, , ΧΜ· O codificador SAOC 410 extrai alguma informação lateral dos objetos e do processo de downmix e esta informação lateral é transmitira e/ou guardada juntamente com os sinais de downmix.

Uma propriedade substancial do sistema SAOC consiste no facto de o sinal downmix X que compreende os canais downmix X\, ..., XM formar um sinal significativo em termos semânticos. Por outras palavras, é possível ouvir o sinal downmix. Se, por exemplo, o recetor não possuir a funcionalidade do descodificador SAOC, o recetor pode, ainda assim, fornecer o sinal downmix como saída. A fig. 5 ilustra um descodificador SAOC compreendendo um descodificador de informação lateral 510, um separador de objetos 520 e um renderizador 530. O descodificador SAOC ilustrado pela fig. 5 recebe, por exemplo a partir de um codificador SAOC, o sinal downmix e a informação lateral. O sinal downmix pode ser considerado como um sinal de entrada de áudio que compreende os sinais de objetos de áudio, já que os sinais de objetos de áudio são misturados com o sinal downmix (os sinais de objetos de áudio são misturados dentro de um ou mais canais downmix do sinal downmix). O descodificador SAOC pode, por exemplo, tentar então reconstruir (virtualmente) os objetos originais, por exemplo, empregando o separador de objetos 520, por ex, utilizando a informação lateral descodificada. Estas reconstruções (virtuais) de objetos S1,...,SN, por exemplo, os sinais de objetos de áudio reconstruídos, são então combinadas com base na informação de representação, por exemplo, uma matriz de representação R para produzir canais de saída de áudio K Ylf ..., YK de um sinal de saída de áudio Y.

Em SAOC, é frequente os sinais de objetos de áudio serem, por exemplo, reconstruídos, por exemplo, através do emprego de

informação de covariância, por exemplo, uma matriz de covariância do sinal E, que é transmitida do codificador SAOC para o descodificador SAOC.

Por exemplo, a fórmula seguinte pode ser empregue para reconstruir os sinais de objetos de áudio no lado do descodificador:

em que N número de sinais de objetos de áudio,

Nsamples número de amostras consideradas de um sinal de objetos de áudio M número de canais downmix, X sinal de áudio downmix, tamanho M x NSampies/·

D matriz de downmix, tamanho Μ x N E matriz de covariância do sinal, tamanho N x N definido

como E = X XH S sinais de objetos de áudio N com reconstrução paramétrica, tamanho N x NSampies (•)H operador (Hermitiano) auto-adjunto que representa a transposição do conjugado de (·)

Depois, a matriz de representação R pode ser aplicada nos sinais de objetos de áudio reconstruídos S para obter os canais de saída de áudio do sinal de saída de áudio Y, por exemplo, de acordo com a fórmula:

Y = RS em que K número dos canais de saída de áudio Y\, YK do sinal de saída de áudio Y.

R matriz de representação de tamanho K x N Y sinal de saída de áudio compreendendo os canais de saída de áudio K, de tamanho K x NSampies

Na fig. 5, o processo de reconstrução do objeto, por exemplo, conduzido pelo separador de objetos 520, é referido com a noção "virtual" ou "opcional", dado que não tem necessariamente de ocorrer, mas a funcionalidade desejada pode ser obtida mediante combinação da reconstrução e as fases de representação no domínio paramétrico (isto é, combinando as equações).

Por outras palavras, em vez de reconstruir os sinais de objetos de áudio utilizando a informação de mistura D e a informação de covariância E primeiro e depois aplicando a informação de representação R nos sinais de objetos de áudio reconstruídos para obter os canais de saída de áudio Y\r ..., YK, ambos os passos podem ser conduzidos num único passo, de forma que os canais de saída de áudio Y\, ..., YK são gerados diretamente a partir dos canais downmix.

Por exemplo, pode ser empregue a seguinte fórmula:

Em princípio, a informação de representação R pode solicitar qualquer combinação dos sinais de objetos de áudio originais. Na prática, contudo, as reconstruções de objetos podem compreender erros de reconstrução e a cena de saída solicitada não tem necessariamente de ser alcançada. Segundo uma regra geral que abrange muitos casos práticos, quanto mais a cena de saída solicitada difere do sinal de downmix, mais serão os erros de reconstrução audíveis.

Segue-se uma descrição do melhoramento do diálogo (abreviatura do inglês DE). A tecnologia SAOC pode, por exemplo, ser empregue para concretizar o cenário. Deve-se ter em atenção que muito embora o nome "Melhoramento de diálogo" sugira uma concentração em sinais orientados para diálogo, o mesmo princípio é aplicado também a outros tipos de sinais.

No cenário DE, os graus de liberdade no sistema são limitados a partir do caso geral.

Por exemplo, os sinais de objetos de áudio

são agrupados (e possivelmente misturados) em dois meta-objetos de um objeto em primeiro plano (abreviatura do inglês, FGO) SFG0 e um objeto em fundo (abreviatura do inglês, BGO) SBG0 .

Para além disso, a cena de saída

assemelha-se ao sinal downmix

Mais especificamente, ambos os sinais têm as mesmas dimensionalidades, isto é K = M e o utilizador final só pode controlar os níveis de mistura relativos dos dois meta-objetos FGO e BGO. Para ser mais exato, o sinal downmix é obtido através da mistura de FGO e BGO com os mesmos pesos escalares

e a cena de saída é obtida de forma similar com alguma ponderação escalar do FGO e BGO:

Dependendo dos valores relativos dos pesos de mistura, o equilíbrio entre FGO e BGO pode variar. Por exemplo, com a configuração

é possível aumentar o nível relativo do FGO na mistura. Se o FGO for o diálogo, esta configuração proporciona uma funcionalidade de melhoramento do diálogo.

Como exemplo de caso de uso, o BGO pode ser os ruídos de um estádio e outros sons de fundo durante um evento desportivo e o FGO é a voz do comentador. A funcionalidade DE permite ao utilizador final amplificar ou atenuar o nível do comentador em relação ao fundo.

As formas de realização são baseadas na descoberta de que a utilização da tecnologia SAOC (ou similar) num cenário de emissão permite proporcionar ao utilizador final funcionalidades de manipulação do sinal ampliadas. São fornecidas mais funcionalidades para além da alteração do canal e ajuste do volume de reprodução.

Acima apresenta-se uma descrição breve de uma possibilidade de emprego da tecnologia DE. Se o sinal de emissão, sendo o sinal downmix para SAOC, é normalizado em termos de nível, por exemplo, de acordo com a norma R128, os diferentes programas possuem uma percepção sonora média similar quando não é aplicado o processamento (SAOC-) (ou a descrição de representação for igual à descrição de downmix). No entanto, quando é aplicado algum processamento (SAOC-), o sinal de saida difere do sinal downmix predefinido e a percepção sonora do sinal de saida pode ser diferente da percepção sonora do sinal downmix predefinido. Do ponto de vista do utilizador final, esta situação pode levar a que a percepção sonora do sinal de saida entre canais ou programas possa apresentar novamente os saltos ou diferenças indesejados. Por outras palavras, as vantagens da normalização aplicadas pela emissora perdem-se em parte.

Este problema não é especifico apenas do cenário SAOC ou DE, mas pode ocorrer também com outros conceitos de codificação de áudio que permitem ao utilizador final interagir com o conteúdo. No entanto, em muitos casos, não causa problema algum se o sinal de saida possuir uma percepção sonora diferente do que o downmix predefinido.

Como foi dito anteriormente, uma percepção sonora total de um programa de sinal de entrada de áudio deve corresponder a um nivel especificado com pequenos desvios admissíveis. No entanto, como já foi enfatizado, esta situação levanta problemas significativos quando a representação de áudio é conduzida, dado que a representação tem um efeito significativo na percepção sonora global/total do sinal de entrada de áudio recebido. No entanto, apesar de ser executada a representação da cena, a percepção sonora total do sinal de áudio recebido permanece igual.

Uma abordagem consistiria em estimar a percepção sonora de um sinal enquanto este está a ser reproduzido e com um conceito de integração temporal apropriado, devendo a estimativa convergir para a verdadeira percepção sonora média ao fim de algum tempo. 0 tempo necessário para a convergência, porém, é problemático do ponto de vista do utilizador final. Quando a estimativa da percepção sonora se altera, mesmo sem que sejam aplicadas alterações ao sinal, a compensação de alteração da percepção sonora deve também reagir e alterar o seu comportamento. Este facto iria conduzir a um sinal de saida com percepção sonora média variável no tempo, o que pode dar uma sensação bastante incómoda. A fig. 6 ilustra um comportamento das estimativas da percepção sonora do sinal de saida numa alteração da percepção sonora. Entre outros aspetos, é descrita uma estimativa da percepção sonora do sinal de saida com base no sinal, que ilustra o efeito de uma solução como a descrita. A estimativa aborda a estimativa correta com certa lentidão. Em vez de uma estimativa da percepção sonora do sinal de saida baseada no sinal, uma estimativa informada da percepção sonora do sinal de saida que determina de imediato e corretamente a percepção sonora do sinal de saida seria preferível.

Em particular, na fig. 6 o utilizador introduz, por exemplo, o nível do objeto de diálogo, altera no instante temporal T pelo aumento do valor. 0 verdadeiro nível do sinal de saída, e de forma correspondente a percepção sonora, altera no mesmo instante. Quando a estimativa da percepção sonora do sinal de saida é executada a partir do sinal de saida com algum tempo de integração temporal, a estimativa irá alterar-se gradualmente e atingir o valor correto ao fim de um certo atraso. Durante este atraso, os valores de estimativa estão em alteração e não podem ser empregues com fiabilidade para continuar o processamento do sinal de saida, por exemplo, para a correção do nivel de percepção sonora.

Como já foi referido, seria desejável possuir uma estimativa precisa da percepção sonora média de saida ou da alteração da percepção sonora média sem atraso e, quando o programa não se altera ou a cena de representação não é alterada, a percepção sonora média deve também permanecer estática. Por outras palavras, quando é aplicada alguma compensação da alteração da percepção sonora, o parâmetro de compensação só deve alterar-se quando ou o programa se altera ou existe alguma interação com o utilizador. 0 comportamento desejado encontra-se ilustrado na ilustração inferior da fig. 6 (estimativa informada da percepção sonora do sinal de saida). A estimativa da percepção sonora do sinal de saida altera-se imediatamente quando é alterada a entrada do utilizador. A fig. 2 ilustra um codificador de acordo com uma forma de realização. 0 codificador compreende uma unidade de codificação 210 baseada em objetos para codificar uma pluralidade de sinais de objetos de áudio para obter um sinal de áudio codificado que compreende a pluralidade de sinais de objetos de áudio.

Para além disso, o codificador compreende uma unidade de codificação da percepção sonora do objeto 220 para codificar a informação da percepção sonora nos sinais de objetos de áudio. A informação da percepção sonora compreende um ou mais valores de percepção sonora, em que cada do ou de mais valores de percepção sonora dependem de um ou mais dos sinais de objetos de áudio.

De acordo com uma forma de realização, cada um dos sinais de objetos de áudio do sinal de áudio codificado é atribuído a exatamente um grupo de dois ou mais grupos, em que cada dos dois ou mais grupos compreende um ou mais dos sinais de objetos de áudio do sinal de áudio codificado. A unidade codificadora da percepção sonora do objeto 220 está configurada para determinar o um ou mais valores de percepção sonora da informação de percepção sonora através da determinação de um valor de percepção sonora para cada grupo dos dois ou mais grupos, em que o referido valor de percepção sonora do referido grupo indica uma percepção sonora total original do um ou mais sinais de objetos de áudio do referido grupo. A fig. 1 ilustra um descodificador para gerar um sinal de saída de áudio que compreende um ou mais canais de saída de áudio de acordo com uma forma de realização. O descodificador compreende uma interface recetor 110 para receber um sinal de entrada de áudio, que compreende uma pluralidade de sinais de objetos de áudio, para receber informação de percepção sonora nos sinais de objetos de áudio e para receber informação de representação indicadora se um ou mais sinais de objetos de áudio deverão ser amplificados ou atenuados.

Para além disso, o descodificador compreende um processador de sinal 120 para gerar um ou mais canais de saida de áudio do sinal de saida de áudio. O processador de sinal 120 está configurado para determinar um valor de compensação de percepção sonora dependendo da informação de percepção sonora e dependendo da informação de representação. Para além disso, o processador de sinal 120 está configurado para gerar um ou mais canais de saida de áudio do sinal de saida de áudio a partir do sinal de entrada de áudio, dependendo da informação de representação e dependendo do valor de compensação de percepção sonora.

De acordo com uma forma de realização, o processador de sinal 110 está configurado para gerar um ou mais canais de saida de áudio do sinal de saida de áudio a partir do sinal de entrada de áudio dependendo da informação de representação e dependendo do valor de compensação da percepção sonora, de tal modo que uma percepção sonora do sinal de saida de áudio é igual a uma percepção sonora do sinal de entrada de áudio ou de tal modo que a percepção sonora do sinal de saida é mais próxima da percepção sonora do sinal de entrada de áudio comparativamente a uma percepção sonora de um sinal de áudio modificado que resultaria da modificação de um sinal de entrada de áudio ao amplificar ou atenuar os sinais de objetos de áudio de acordo com a informação de representação.

De acordo com outra forma de realização, cada sinal de objetos de áudio do sinal de entrada de áudio é atribuído a exatamente um grupo de dois ou mais grupos, em que cada dos dois ou mais grupos pode compreender um ou mais sinais de objetos de áudio do sinal de entrada de áudio,

Nesta forma de realização, a interface recetora 110 é configurada para receber um valor de percepção sonora para cada grupo dos dois ou mais grupos da informação de percepção sonora, indicando o referido valor de percepção sonora uma percepção sonora total original de um ou mais sinais de objetos de áudio do referido grupo. Para além disso, a interface recetora 110 é configurada para receber a informação de representação indicando quanto a pelo menos um grupo dos dois ou mais grupos se o um ou mais sinais de objetos de áudio do referido grupo serão amplificados ou atenuados através da indicação de uma percepção sonora total modificada do um ou mais sinais de objetos de áudio do referido grupo. Para além disso, numa forma de realização assim, o processador de sinal 120 é configurado para determinar o valor de compensação de percepção sonora dependendo da percepção sonora total modificada de cada um do referido pelo menos um grupo dos dois ou mais grupos e dependendo da percepção sonora total original de cada um dos dois ou mais grupos. Para além disso, o processador de sinal 120 é configurado para gerar um ou mais canais de saída de áudio do sinal de saída de áudio a partir do sinal de entrada de áudio dependendo da percepção sonora total modificada de cada um do referido pelo menos um grupo dos dois ou mais grupos e dependendo do valor de compensação da percepção sonora.

Em formas de realização particulares, pelo menos um grupo dos dois ou mais grupos compreende dois ou mais dos sinais de objetos áudio.

Existe uma relação direta entre a energia e± de um sinal de objeto de áudio i e a percepção sonora L± do sinal de objeto de áudio i de acordo com as fórmulas:

em que c é um valor constante.

As formas de realização baseiam-se nas seguintes descobertas: Sinais de objetos de áudio diferentes do sinal de entrada de áudio podem ter uma percepção sonora diferente e, portanto, uma energia diferente. Se, por exemplo, um utilizador desejar aumentar a percepção sonora de um dos sinais de objetos de áudio, a informação de representação pode ser ajustada de forma correspondente e o aumento da percepção sonora deste sinal de objeto de áudio aumenta a energia deste objeto de áudio. Deste modo alcançar-se-ia uma percepção sonora aumentada do sinal de saída de áudio. Para manter constante a percepção sonora total, tem de ser executada uma compensação da percepção sonora. Por outras palavras, o sinal de áudio modificado que resultaria da aplicação da informação de representação no sinal de entrada de áudio teria de ser ajustado. No entanto, o efeito exato da amplificação de um dos sinais de objetos áudio na percepção sonora total do sinal de áudio modificado depende da percepção sonora original do sinal de objeto de áudio amplificado, por exemplo, do sinal de objeto de áudio, cuja percepção sonora é aumentada. Se a percepção sonora original deste objeto corresponde a uma energia que era consideravelmente baixa, o efeito na percepção sonora total do sinal de entrada de áudio será menor. Se, no entanto, a percepção sonora original deste objeto corresponde a uma energia que era consideravelmente elevada, o efeito na percepção sonora total do sinal de entrada de áudio será considerável.

Podem ser considerados dois exemplos. Em ambos os exemplos, um sinal de entrada de áudio compreende dois sinais de objetos de áudio e em ambos os exemplos, a aplicação da informação de representação aumenta a energia de um primeiro dos sinais de objetos de áudio em 50 %.

No primeiro exemplo, o primeiro sinal de objeto de áudio contribui 20 % e o segundo sinal de objeto de áudio contribui 80 % para a energia total do sinal de entrada de áudio. No entanto, no segundo exemplo, o primeiro objeto de áudio, o primeiro sinal de objeto de áudio contribui 40 % e o segundo sinal de objeto de áudio contribui 60 % para a energia total do sinal de entrada de áudio. Em ambos os exemplos, estas contribuições podem ser derivadas da informação de percepção sonora nos sinais de objetos de áudio, dado que existe uma relação direta entre a percepção sonora e a energia.

No primeiro exemplo, um aumento de 50 % da energia do primeiro objeto de áudio tem como resultado um sinal de áudio modificado que é gerado através da aplicação da informação de representação no sinal de entrada de áudio com uma energia total de 1,5 x 20 % + 80 % = 110 % da energia do sinal de entrada de áudio.

No segundo exemplo, um aumento de 50 % da energia do primeiro objeto de áudio tem como resultado o sinal de áudio modificado que é gerado através da aplicação da informação de representação no sinal de entrada de áudio com uma energia total de 1,5 x 40 % + 60 % = 120 % da energia do sinal de entrada de áudio.

Assim, após aplicar a informação de representação no sinal de entrada de áudio, no primeiro exemplo, a energia total do sinal de áudio modificado tem de ser reduzida apenas 9 % (10/110) para obter energia igual tanto no sinal de entrada de áudio e no sinal de saida de áudio, enquanto no segundo exemplo, a energia total do sinal de áudio modificado tem de ser reduzida 17 % (20/120) . Para este fim, o valor de compensação da percepção sonora pode ser calculado.

Por exemplo, o valor de compensação da percepção sonora pode ser um valor escalar que é aplicado a todos os canais de saida de áudio do sinal de saida de áudio.

De acordo com uma forma de realização, o processador de sinal é configurado para gerar o sinal de áudio modificado, modificando o sinal de entrada de áudio ao amplificar ou atenuar os sinais de objetos de áudio do sinal de entrada de áudio, de acordo com a informação de representação. Para além disso, o processador de sinal é configurado para gerar o sinal de saida de áudio, aplicando o valor de compensação de percepção sonora ao sinal de áudio modificado, de modo a que a percepção sonora do sinal de saída de áudio é igual à percepção sonora do sinal de entrada de áudio ou de modo a que a percepção sonora do sinal de saída de áudio é mais próxima da percepção sonora do sinal de entrada de áudio comparativamente ao sinal de áudio modificado.

Por exemplo, no primeiro exemplo acima, o valor de compensação da percepção sonora lev, pode, por exemplo, ser definido para um valor lev = 10/11 e um fator de multiplicação de 10/11 pode ser aplicado a todos os canais que resultam da representação dos canais de entrada de áudio, de acordo com a informação de representação.

Assim, por exemplo, no segundo exemplo acima, o valor de compensação da percepção sonora lev, pode, por exemplo, ser definido para um valor lev = 10/12= 5/6, e um fator de multiplicação de 5/6 pode ser aplicado a todos os canais que resultam da representação dos canais de entrada de áudio, de acordo com a informação de representação.

Noutras formas de realização, cada um dos sinais de objetos de áudio pode ser atribuído a um de entre vários grupos e um valor de percepção sonora pode ser transmitido para cada um dos grupos, indicando um valor de percepção sonora total dos sinais de objetos de áudio do referido grupo. Se a informação de representação especificar que a energia de um dos grupos é atenuada ou amplificada, por exemplo, amplificada em 50 %, como acima, pode ser calculado um aumento de energia total e pode ser determinado um valor de compensação de percepção sonora, como anteriormente descrito.

Por exemplo, de acordo com uma forma de realização, cada dos sinais de objetos de áudio do sinal de entrada de áudio ser atribuído a exatamente um grupo de exatamente dois grupos como os dois ou mais grupos. Cada um dos sinais de objetos de áudio do sinal de entrada de áudio ser atribuído a um grupo de objetos de primeiro plano dos dois grupos exatamente ou a um grupo de objetos de segundo plano dos dois grupos exatamente. A interface recetora 110 é configurada para receber a percepção sonora total original de um ou mais sinais de objetos de áudio do grupo de objetos em primeiro plano. Para além disso, a interface recetora 110 é configurada para receber a percepção sonora total original de um ou mais sinais de objetos de áudio do grupo de objetos de fundo. Para além disso, a interface recetora 110 é configurada para receber a informação de representação indicando quanto a pelo menos um grupo dos exatamente dois grupos se o um ou mais sinais de objetos de áudio de cada um do referido pelo menos um grupo serão amplificados ou atenuados através da indicação de uma percepção sonora total modificada do um ou mais sinais de objetos de áudio do referido grupo.

Numa tal forma de realização, o processador de sinal 120 é configurado para determinar o valor de compensação de percepção sonora dependendo da percepção sonora total modificada de cada um do referido pelo menos um grupo, dependendo da percepção sonora total original do um ou mais sinais de objetos de áudio do grupo de objetos em primeiro plano e dependendo da percepção sonora total original de um ou mais sinais de objetos áudio do grupo de objetos de fundo. Para além disso, o processador de sinal 120 é configurado para gerar um ou mais canais de saida de áudio do sinal de saida de áudio a partir do sinal de entrada de áudio dependendo da percepção sonora total modificada de cada um do referido pelo menos um grupo e dependendo do valor de compensação da percepção sonora.

De acordo com algumas formas de realização, cada um dos sinais de objetos de áudio é atribuído a um de três ou mais grupos e a interface recetora pode ser configurada para receber um valor de percepção sonora para cada um dos três ou mais grupos, indicando a percepção sonora total dos sinais de objetos de áudio do referido grupo.

De acordo com uma forma de realização, para determinar o valor de percepção sonora total de dois ou mais sinais de objetos de áudio, por exemplo, o valor de energia correspondente ao valor da percepção sonora é determinado para cada sinal de objeto de áudio, os valores de energia de todos os valores de percepção sonora são somados para obter uma soma de energia e o valor de percepção sonora correspondente à soma de energia é determinado como o valor de percepção sonora total de dois ou mais sinais de objetos de áudio. Por exemplo, as seguintes fórmulas

podem ser empregues.

Nalgumas formas de realização, os valores da percepção sonora são transmitidos para cada um dos sinais de objetos de áudio ou cada um dos sinais de objetos de áudio é atribuído a um ou dois ou mais grupos, em que para cada um dos grupos, é transmitido um valor da percepção sonora.

No entanto, nalgumas formas de realização, para um ou mais sinais de objetos de áudio ou para um ou mais dos grupos que compreendem sinais de objetos de áudio, não é transmitido qualquer valor de percepção sonora. Ao invés, o descodificador pode, por exemplo, assumir que estes sinais de objetos de áudio ou grupos de sinais de objetos de áudio, para os quais não é transmitido qualquer valor de percepção sonora, possuem um valor de percepção sonora predefinido. 0 descodificador, por exemplo, pode basear todas as outras determinações neste valor da percepção sonora pré-definido.

De acordo com uma forma de realização, a interface recetora 110 está configurada para receber um sinal downmix que compreende um ou mais canais downmix como o sinal de entrada de áudio, em que um ou mais canais downmix compreendem os sinais de objetos de áudio e em que o número dos sinais de objetos de áudio é inferior ao número de um ou mais canais downmix. A interface recetora 110 está configurada para receber informação downmix indicando como os sinais de objetos de áudio são misturados num ou mais canais downmix. Mais ainda, o processador de sinal 120 está configurado para gerar um ou mais canais de saída de áudio do sinal de saída de áudio a partir do sinal de entrada de áudio dependendo da informação downmix, dependendo da informação de reconstrução do sinal e dependendo do valor de compensação da percepção sonora. Numa forma de realização particular, o processador de sinal 120 pode, por exemplo, ser configurado para calcular o valor de compensação da percepção sonora dependendo da informação downmix.

Por exemplo, a informação downmix pode ser uma matriz downmix. Em formas de realização, o descodificador pode ser um descodificador SAOC. Em formas de realização como estas, a interface recetora 110 pode, por exemplo, ser configurada para receber informação de covariância, por exemplo, uma matriz de covariância tal como acima descrito.

No que respeita à informação de representação que indica se um ou mais sinais de objetos de áudio devem ser amplificados ou atenuados, deverá ter-se em conta, por exemplo, que a informação que indica como um ou mais sinais de objetos de áudio devem ser amplificados ou atenuados, é informação de representação. Por exemplo, uma matriz de rendering R, por exemplo, uma matriz de rendering de SAOC, é informação de representação. A fig. 3 ilustra um sistema de acordo com uma forma de realização. O sistema compreende um codificador 310 de acordo com uma das formas de realização acima descritas para codificar uma pluralidade de sinais de objetos de áudio para obter um sinal de áudio codificado que compreenda uma pluralidade de sinais de objetos de áudio.

Mais ainda, o sistema compreende um descodificador 320 de acordo com uma das formas de realização acima descritas para gerar um sinal de saída de áudio que compreenda um ou mais canais de saída de áudio. 0 descodificador 320 é configurado para receber o sinal de áudio codificado como um sinal de entrada áudio e para receber a informação da percepção sonora. Mais ainda, o descodificador 320 é configurado para receber ainda informação de representação. Para além disso, o descodificador 320 é configurado para determinar um valor de compensação de percepção sonora, dependendo da informação da percepção sonora e dependendo da informação de representação. Mais ainda, o descodificador 320 é configurado para gerar um ou mais canais de saída de áudio do sinal de saída de áudio a partir do sinal de entrada de áudio dependendo da informação de representação e dependendo do valor de compensação da percepção sonora. A fig. 7 ilustra a estimativa de percepção sonora informada de acordo com uma forma de realização. À esquerda da corrente de transporte 730, são ilustrados componentes de um codificador de codificação de áudio baseado em objetos. Em particular, uma unidade codificadora baseada em objetos 710 ("codificador áudio baseado em objetos") e uma unidade codificadora da percepção de sonoridade do objeto 720 é ilustrada ("estimativa da percepção sonora do objeto") . A própria corrente de transporte 730 compreende informação da percepção sonora L, informação downmix D e a saída do codificador de áudio baseado em objetos 710 B. À direita da corrente de transporte 730, são ilustrados componentes de um processador de sinal de um descodificador de codificação de áudio baseado em objetos. A interface recetora do descodificador não se encontra ilustrada. São representados um estimador da percepção sonora de saida 740 e uma unidade descodificadora de áudio baseada em objetos 750. O estimador da percepção sonora de saida 740 pode ser configurado para determinar o valor de compensação da percepção sonora. A unidade descodificadora de áudio baseada em objetos 750 pode ser configurada para determinar um sinal de áudio modificado a partir de um sinal de áudio, ao ser introduzido no descodificador, aplicando a informação de representação R. A aplicação do valor de compensação da percepção sonora no sinal de áudio modificado para compensar uma alteração total da percepção sonora causada pela representação não é apresentada na Fig. 7. A entrada para o codificador consiste nos objetos de entrada S no mínimo. O sistema estima a percepção sonora de cada objeto (ou outra informação relacionada com a percepção sonora, tais como as energias do objeto), por exemplo, pela unidade codificadora da percepção sonora do objeto 720 e esta informação L é transmitida e/ou armazenada. (É igualmente possível que a percepção sonora dos objetos seja facultada como uma entrada para o sistema e a fase de estimativa dentro do sistema pode ser omitida).

Na forma de realização da Fig. 7, o descodificador recebe, pelo menos, a informação da percepção sonora do objeto, por exemplo, a informação de representação R descrevendo a mistura dos objetos para o sinal de saida. Com base nisto, por exemplo, o estimador da percepção sonora de saida 740 estima a percepção sonora do sinal de saida e faculta esta informação como a sua saida. A informação downmix D pode ser facultada como a informação de representação, em cujo caso a estimativa da percepção sonora apresenta uma estimativa da percepção sonora do sinal downmix. É igualmente possível apresentar a informação downmix como uma entrada para a estimativa da percepção sonora do objeto e para transmitir e/ou armazenar a mesma ao longo da informação da percepção sonora do objeto. A estimativa da percepção sonora do objeto pode então estimar simultaneamente a percepção sonora do sinal downmix e a saída de representação e facultar estes dois valores ou suas diferenças como a informação da percepção sonora de saída. O valor de diferença (ou seu inverso) descreve a compensação necessária que deverá ser aplicada no sinal de saída de representação para tornar a sua percepção sonora semelhante à percepção sonora do sinal downmix. A informação da percepção sonora do objeto pode adicionalmente incluir informação relativa aos coeficientes de correlação entre vários objetos e esta informação de correlação pode ser utilizada na estimativa da percepção sonora de saída para uma estimativa mais exata. Seguidamente, é descrita uma forma de realização preferida para a aplicação de reforço do diálogo.

Na aplicação de reforço do diálogo, tal como acima descrito, os sinais de objeto de áudio de entrada são agrupados e parcialmente submetidos a downmix para formar dois meta-objetos, FGO e BGO, os quais podem ser então trivialmente somados para se obter o sinal downmix final.

No seguimento da descrição de SAOC [SAOC], sinais de objeto de entrada N são representados como uma matriz S do tamanho N x Nsamplesr e a informação downmix como uma matriz D do tamanho M x N. Os sinais downmix podem então ser obtidos como X = DS. A informação downmix D pode agora ser dividida em duas partes

para os meta-objetos.

Considerando que cada coluna da matriz D corresponde a um sinal de objeto de áudio original, as duas matrizes downmix componentes podem ser obtidas definindo as colunas, as quais correspondem ao outro meta-objeto em zero (assumindo que não se encontra presente qualquer objeto original em ambos os meta-objetos). Por outras palavras, as colunas que correspondem ao meta-objeto BGO são definidas para zero DFG0, e vice-versa.

Estas matrizes downmixing descrevem a forma como os dois meta-objetos podem ser obtidos a partir de objetos de entrada, nomeadamente:

e o downmix atual é simplificado para

Pode igualmente ser considerado que o descodificador do objeto (por exemplo, SAOC) tente reconstruir os meta-objetos:

e a representação específica de DE pode ser escrita como uma combinação destas duas reconstruções de meta-objetos:

A estimativa da percepção sonora do objeto recebe os dois meta-obj etos SFG0 e SBGO como a entrada e estima a percepção sonora de cada um deles: LFGO sendo a percepção sonora (total/geral) de SFG0 e ABGOsendo a percepção sonora (total/geral) de SBG0 . Estes valores da percepção sonora são transmitidos e/ou armazenados. Como uma alternativa, utilizando um dos meta-objetos, por exemplo, o FGO, como referência, é possível calcular a diferença da percepção sonora destes dois objetos, por exemplo, como

Este valor único é depois transmitido e/ou armazenado. A fig. 8 ilustra um codificador de acordo com outra forma de realização. 0 codificador da fig. 8 compreende um downmixer de um objeto 811 e um estimador de informação lateral do objeto 812. Para além disso, o codificador da fig. 9 compreende ainda uma unidade codificadora da percepção sonora do objeto 820. Mais ainda, o codificador da fig. 8 compreende um misturador de meta-objeto de áudio 805. O codificador da fig. 8 utiliza meta-objetos de áudio intermediários como uma entrada para a estimativa da percepção sonora do objeto. Em formas de realização, o codificador da fig. 8 pode ser configurado para gerar dois meta-objetos de áudio. Noutras formas de realização, o codificador da fig. 8 pode ser configurado para gerar três ou mais meta-objetos de áudio.

Entre outros aspetos, os conceitos apresentados proporcionam a nova funcionalidade gue consiste na possibilidade de o codificador, por exemplo, estimar a percepção sonora média de todos os objetos de entrada. Os objetos podem, por exemplo, ser misturados num sinal downmix gue é transmitido. Os conceitos apresentados proporcionam ainda a nova funcionalidade gue consiste na possibilidade de a percepção sonora do objeto e a informação downmix ser, por exemplo, incluída na informação lateral de codificação do objeto gue é transmitida. 0 descodificador pode, por exemplo, utilizar a informação lateral codificadora do objeto para separação (virtual) dos objetos e recombina os objetos utilizando a informação de representação.

Para além disso, os conceitos apresentados proporcionam a nova funcionalidade segundo a gual a informação downmix pode ser utilizada para estimar a percepção sonora do sinal downmix predefinida, a informação de representação e a percepção sonora do objeto recebido podem ser utilizados para estimar a percepção sonora média do sinal de saída e/ou a alteração da percepção sonora pode ser estimada a partir destes dois valores. Ou, a informação downmix e de representação pode ser utilizada para estimar a alteração da percepção sonora a partir do downmix predefinido, outra nova funcionalidade dos conceitos apresentados .

Para além disso, os conceitos apresentados proporcionam a nova funcionalidade segundo a qual a saída do descodificador pode ser modificada para compensar a alteração na percepção sonora de modo a que a percepção sonora média do sinal modificado corresponda à percepção sonora média do downmix predefinido. É ilustrado, na Fig. 9, uma forma de realização específica relacionada com SAOC-DE. 0 sistema recebe os sinais do objeto de áudio de entrada, a informação downmix e a informação do agrupamento de objetos para meta-objetos. Com base nestes, o misturador de meta-objeto de áudio 905 forma os dois meta-objetos SFG0 e SSG0 . É possível que a porção do sinal que é processado com SAOC não constitua o sinal inteiro. Por exemplo, numa configuração de canal 5.1, SAOC pode ser implantado num sub-grupo de canais, como no canal posterior (esquerda, direita e centro) enquanto os outros canais (som à esquerda, som à direita e efeitos de baixa frequência) são enviados, passando o SAOC e entregues como tal. Estes canais não processados por SAOC são assinalados com XBYpASS · Os canais de bypass possíveis precisam de ser fornecidos para o codificador para uma estimativa mais precisa da informação da percepção sonora.

Os canais de bypass podem ser manuseados de várias formas.

Por exemplo, os canais de bypass podem, por exemplo, formar um meta-objeto independente. Isto permite definir a representação de modo a que todos os três meta-objetos sejam representados em escala de forma independente.

Ou, por exemplo, os canais de bypass podem, por exemplo, ser combinados com um dos outros dois meta-objetos. As definições de representação desse meta-objeto controlam igualmente a porção do canal de bypass. Por exemplo, no cenário de reforço de diálogo, pode ser significativo combinar os canais de bypass com o meta-objeto de segundo plano.

Ou, por exemplo, os canais de bypass podem, por exemplo, ser ignorados.

De acordo com formas de realização, a unidade de codificação baseada em objetos 210 do codificador é configurada para receber os sinais de objetos de áudio, em que cada um dos sinais de objetos de áudio é atribuído a exatamente um de exatamente dois grupos, em que cada dos exatamente dois grupos compreende um ou mais dos sinais de objetos de áudio. Mais ainda, em que a unidade de codificação baseada em objetos 210 está configurada para downmix os sinais de objetos de áudio, sendo compreendida pelos exatamente dois grupos, para obter um sinal downmix que compreenda um ou mais canais de áudio downmix como o sinal de áudio codificado, em que o número de um ou mais canais downmix é inferior ao número dos sinais de objetos de áudio sendo compreendido pelos exatamente dois grupos. A unidade de codificação da percepção sonora do objeto 220 é designada para receber um ou mais sinais de objetos de áudio de bypass adicionais, em que cada um ou mais dos sinais de objetos de áudio de bypass adicionais é atribuído a um terceiro grupo, em que cada de um ou mais dos sinais de objetos de áudio de bypass adicionais não é compreendido pelo primeiro grupo e não é compreendido pelo segundo grupo, em que a unidade de codificação baseada em objetos 210 é configurada para não downmix um ou mais dos sinais de objetos de áudio de bypass adicionais com o sinal downmix.

Numa forma de realização, a unidade de codificação da percepção sonora do objeto 220 é configurada para determinar um primeiro valor de percepção sonora, um segundo valor de percepção sonora e um terceiro valor de percepção sonora da informação de percepção sonora, o primeiro valor da percepção sonora indicando uma percepção sonora total de um ou mais sinais de objetos de áudio do primeiro grupo, o segundo valor da percepção sonora indicando uma percepção sonora total de um ou mais sinais de objetos de áudio do segundo grupo e o terceiro valor da percepção sonora indicando uma percepção sonora total de um ou mais sinais de objetos de áudio de bypass adicionais do terceiro grupo. Noutra forma de realização, a unidade de codificação da percepção sonora do objeto 220 é configurada para determinar um primeiro valor de percepção sonora e um segundo valor da percepção sonora da informação da percepção sonora, o primeiro valor da percepção sonora indicando uma percepção sonora total de um ou mais sinais de objetos de áudio do primeiro grupo, o segundo valor da percepção sonora indicando uma percepção sonora total de um ou mais sinais de objetos de áudio do segundo grupo e de um ou mais sinais de objetos de áudio de bypass adicionais do terceiro grupo.

De acordo com uma forma de realização, a interface recetora 110 do descodificador é configurada para receber o sinal downmix. Mais ainda, a interface recetora 110 é configurada para receber um ou mais sinais de objetos de áudio de bypass adicionais, em que um ou mais sinais de objetos de áudio de bypass adicionais não se encontram misturados com o sinal downmix. Para além disso, a interface recetora 110 está configurada para receber a informação da percepção sonora que indica informação sobre a percepção sonora dos sinais de objetos de áudio, os quais se encontram misturados com o sinal downmix e indicam informação sobre a percepção sonora de um ou mais sinais de objetos de áudio de bypass adicionais que não se encontram misturados com o sinal downmix. Mais ainda, o processador de sinal 120 é configurado para determinar o valor de compensação da percepção sonora dependendo da informação sobre a percepção sonora dos sinais de objetos de áudio, os quais se encontram misturados com o sinal downmix e que dependem da informação sobre a percepção sonora de um ou mais sinais de objetos de áudio de bypass adicionais que não se encontram misturados com o sinal downmix. A fig. 9 ilustra um codificador e um descodificador de acordo com uma forma de realização relacionada com o SAOC-DE, o qual compreende canais de bypass. Entre outros aspetos, o codificador da fig. 9 inclui um codificador SAOC 902.

Na forma de realização da fig. 9, a combinação possível dos canais bypass com os outros meta-objetos ocorre nos dois blocos de "inclusão de bypass" 913, 914, produzindo os meta-objetos XFG0 e XBG0 com as partes definidas dos canais de bypass incluídas. A percepção sonora LBYPASS, LFG0, e LBG0 de ambos estes meta-objetos são estimadas nas unidades de estimativa de percepção sonora 921, 922, 923. Esta informação da percepção sonora é depois transformada numa codificação apropriada num estimador de informação da percepção sonora de um meta-objeto 925 e depois transmitida e/ou armazenada. 0 atual codificador e descodificador operam como esperado, extraindo a informação lateral do objeto dos objetos, criando o sinal downmix X, e transmitindo e/ou armazenando a informação para o descodificador. Os canais de bypass possíveis são transmitidos e/ou armazenados na restante informação para o descodificador. 0 descodificador SAOC-DE 945 recebe um valor de ganho "Ganho de Diálogo" como uma entrada do utilizador. Com base nesta entrada e informação downmix recebida, o descodificador SAOC 945 determina a informação de representação. 0 descodificador SAOC 945 produz depois a cena de saída de representação como o sinal Y . Adicionalmente, produz um fator de ganho (e um valor de atraso) que deveria ser aplicado nos possíveis sinais de bypass

V ΛBYPASS · A unidade de "inclusão de bypass" 955 recebe esta informação juntamente com a cena de saída de representação e os sinais de bypass e cria o sinal de cena de saída completo. 0 descodificador SAOC 945 produz igualmente um grupo de valores de ganhos de meta-objetos, sendo que a quantidades destes depende do agrupamento de meta-objetos e forma de informação da percepção sonora desejada.

Os valores de ganho são fornecidos para o estimador da percepção sonora de mistura 960, o gual recebe igualmente a informação da percepção sonora do meta-objeto a partir do descodificador. O estimador da percepção sonora de mistura 960 tem depois capacidade para determinar a informação da percepção sonora desejada, a gual pode incluir, mas sem gue tal constitua gualguer limitação, a percepção sonora do sinal downmix, a percepção sonora da cena de saida de representação e/ou a diferença na percepção sonora entre o sinal downmix e a cena de saida de representação.

Nalgumas formas de realização, a própria informação da percepção sonora é suficiente, ao passo gue noutras formas de realização, é desejável processar a saida completa dependendo da informação de percepção sonora determinada. Este processamento pode, por exemplo, ser a compensação de gualguer diferença possível na percepção sonora entre o sinal downmix e a cena de saída de reprodução. Um processamento deste tipo, por exemplo, por uma unidade de processamento de percepção sonora 970, faria sentido no cenário de transmissão, uma vez que reduziria as alterações na percepção sonora do sinal independentemente da interação do utilizador (definição do "ganho de diálogo" de entrada). O processamento relacionado com a percepção sonora nesta forma de realização específica compreende uma pluralidade de novas funcionalidades. Entre outros aspetos, o FGO, BGO e os possíveis canais de bypass são pré-misturados na configuração do canal final de modo a que o downmix possa ser realizado com a simples adição dos dois sinais pré-misturados conjuntamente (por exemplo, coeficiente da matriz downmix de 1), a qual constitui uma nova funcionalidade. Mais ainda, como uma nova funcionalidade adicional, é estimada a percepção sonora média do FGO e BGO e é calculada a diferença. Para além disso, os objetos são misturados num sinal downmix que é transmitido. Mais ainda, como uma nova funcionalidade adicional, a informação da diferença da percepção sonora é incluída na informação lateral que é transmitida. (nova) Para além disso, o descodificador utiliza a informação lateral para separação (virtual) dos objetos e recombina os objetos utilizando a informação de representação, a qual é baseada na informação downmix e no ganho de modificação de entrada do utilizador. Mais ainda, como outra nova funcionalidade, o descodificador utiliza o ganho de modificação e a informação da percepção sonora transmitida para estimar a alteração na percepção sonora média da saída do sistema comparativamente ao downmix pré-definido.

Seguidamente, é facultada uma descrição formal das formas de realização.

[1] Assumindo que os valores da percepção sonora dos objetos têm um comportamento semelhante aos valores de energia quando se somam os objetos, i.e., os valores da percepção sonora devem ser transformados em domínio linear, aí adicionados, e finalmente transformados de novo para o domínio logarítmico. A motivação desta situação através da definição da medida de percepção sonora BS.1770 irá ser agora apresentada (para efeitos de simplicidade, o número de canais é definido para um, mas o mesmo principio pode ser aplicado a sinais multicanal com cálculos apropriados sobre os canais). A percepção sonora do i-ésimo sinal filtrado por K z(. com a energia quadrática média et é definida como

em que c e uma constante de deslocamento. Por exemplo, c pode ser -0.691. Deste modo, a energia do sinal pode ser determinada a partir da percepção sonora com

A energia da soma de N sinais não correlacionados

é então

e a percepção sonora deste sinal de soma é então

Se os sinais não estão não-correlacionados, os coeficientes de correlação C,deverão ser considerados quando se aproxima a energia do sinal de soma como

em que a energia cruzada e. . entre i-ésimos objetos e j-ésimos objetos é definida como

em que

é o coeficiente de correlação entre os dois objetos i e j . Quando dois objetos estão não-correlacionados, o coeficiente de correlação é igual a 0 e quando os dois objetos são idênticos, o coeficiente de correlação é igual a 1.

Alargando mais o modelo com pesos misturados gt a serem aplicados aos sinais no processo de mistura, i.e.,

, a energia do sinal de soma será

e a percepção do sinal de mistura pode ser obtido a partir daqui, tal como anteriormente, com

A diferença entre a percepção sonora de dois sinais pode ser estimada como

Se a definição de percepção sonora é agora utilizada como anteriormente, tal pode ser escrito como

o que pode ser observado como uma função de energias de sinal. Deseja-se agora estimar a diferença de percepção sonora entre duas misturas

com pesos de mistura possivelmente diferentes gt e ht, tal pode ser estimado com

No caso de os objetos serem não-correlacionados

e

, a estimativa de diferença torna-se

Seguidamente, a codificação diferencial será considerada. É possível codificar os valores de percepção sonora por objeto como diferenças da percepção sonora de um objeto de referência selecionado.

em que LREF é a percepção sonora do objeto de referência. Esta codificação é benéfica se como resultado não forem necessários valores absolutos de percepção sonora, porque é agora necessário transmitir um valor a menos e a estimativa da diferença da percepção sonora pode ser escrita como

ou no caso de objetos não correlacionados

Seguidamente é considerado um cenário de melhoramento de diálogo.

Considerando uma vez mais o cenário de aplicação do melhoramento de diálogo. A liberdade de definir a informação de representação no descodificador é apenas limitada na mudança de níveis dos meta-objetos. Vamos ainda assumir que os dois meta-objetos são não correlacionados, i.e.,

Se os pesos downmix dos meta-objetos são

e forem representados com os ganhos

a percepção sonora da saída relativa ao downmix pré definido é

Esta é então a compensação necessária caso se deseje ter a mesma percepção sonora tanto na saída como no downmix pré definido. ΔL(A, B) pode ser considerado como um valor de compensação de percepção sonora que pode ser transmitido pelo processador de sinal 120 do descodificador. ΔL(A, B) pode igualmente ser denominado como um valor de mudança de percepção sonora e, assim, o valor de compensação atual pode ser um valor inverso. Deste modo, o valor de compensação de percepção sonora lev mencionado anteriormente neste documento corresponderia ao valor gDeita abaixo.

Por exemplo,

pode ser aplicado como um fator de multiplicação em cada canal de um sinal de áudio modificado que resulta da aplicação da informação de representação no sinal de entrada de áudio. Esta equação para ÇDeita funciona no domínio linear. No domínio logarítmico, a equação seria diferente tal como 1 / AL{A, B) e aplicada em concordância.

Se o processo downmix é simplificado de modo a que os meta-objetos possam ser misturados com pesos de unidade para se obter o sinal downmix, i.e.,

e neste momento os ganhos de representação para estes dois objetos são assinalados com gFG0 e gBG0 . Isto simplifica a equação para a alteração de percepção sonora para

Mais uma vez, AL(A, B) pode ser considerado como um valor de compensação de percepção sonora que é determinado pelo processador de sinal 120.

De um modo geral, gFG0 pode ser considerado como um ganho de representação para o objeto de primeiro plano FGO (grupo de objeto de primeiro plano) e gBGo pode ser considerado como um ganho de representação para o objeto de segundo plano BGO (grupo de objeto de segundo plano).

Tal como anteriormente mencionado, é possível transmitir diferenças de percepção sonora em vez de percepção sonora absoluta. Permitam-nos definir a percepção sonora de referência como a percepção sonora do meta-objeto FGO

Agora, a alteração da percepção sonora é

Também pode ser, tal como no caso do SAOC-DE, que dois meta-objetos não possuam fatores de escala individuais, mas um dos objetos é deixado não modificado enquanto o outro é atenuado para obter o rácio de mistura correta entre os objetos. Nesta definição de representação, a saída será mais baixa em percepção sonora comparativamente à mistura pré definida e a mudança na percepção sonora é

com

Esta forma é já mais simples a mais aqnóstica relativamente à medida de percepção sonora utilizada. 0 único requisito real é, que os valores de percepção sonora deverão somar no domínio exponencial. É possível transmitir/armazenar valores de enerqias de sinal em vez de valores de percepção sonora, uma vez que os dois têm uma relação próxima.

Em cada uma das fórmulas acima, AL(A, B) pode ser considerado como um valor de compensação de percepção sonora que pode ser transmitido pelo processador de sinal 120 do descodificador. Seguidamente, serão considerados casos de exemplo. A precisão dos conceitos facultados é ilustrada através de dois sinais de exemplo. Ambos os sinais têm um downmix 5.1 com o surround e canais LFE contornados pelo processamento SAOC. São utilizadas duas abordagens principais: uma ("3-periodos") com três meta-objetos: FGO, BGO e canais bypass, por exemplo,

E outra ("2-periodos") com dois meta-objetos, por exemplo:

Na abordagem de 2-periodos, os canais bypass podem, por exemplo, ser misturados conjuntamente com o BGO para a estimativa de percepção sonora do meta-objeto. A percepção sonora de ambos (ou todos os três) objetos assim como a percepção sonora do sinal downmix são estimadas e os valores são armazenados.

As instruções de representação são da forma

para as duas abordagens prospectivamente.

Os valores de ganho são, por exemplo, determinados de acordo com:

em que o ganho FGO gFG0 é variado entre -2 4 e +2 4 dB. 0 cenário de saida é representado, a percepção sonora é medida e a atenuação da percepção sonora do sinal downmix é calculada.

Este resultado é exibido na fig. 10 e fig. 11 com a linha azul com marcadores circulares. A fig. 10 representa uma primeira ilustração e a fig. 11 representa uma segunda ilustração de uma alteração de percepção sonora medida e o resultado de utilizar os conceitos facultados para estimar a alteração na percepção sonora de uma maneira puramente paramétrica.

De seguida, a atenuação do downmix é estimada parametricamente empregando valores de percepção sonora de meta-objetos armazenados e o downmix e informação de representação. A estimativa utilizando percepção sonora de três meta-objetos é ilustrada com a linha verde com marcadores guadrados e a estimativa utilizando a percepção sonora de dois meta-objetos é ilustrada com a linha vermelha com marcadores em estrela.

Pode observar-se nas figuras gue as abordagens de 2 períodos e 3-períodos apresentam resultados praticamente idênticos e ambas se aproximam bastante bem do valor medido.

Os conceitos facultados exibem uma pluralidade de vantagens. Por exemplo, os conceitos facultados permitem estimar a percepção sonora de um sinal de mistura a partir da percepção dos sinais de componentes gue formam a mistura. 0 benefício daí resultante é gue a percepção sonora do sinal de componente pode ser estimado de uma vez e a estimativa da percepção sonora do sinal de mistura pode ser obtido parametricamente para qualquer mistura sem necessidade da estimativa de percepção sonora baseada no sinal atual. Isto oferece uma melhoria considerável na eficácia computacional de todo o sistema no qual a estimativa da percepção sonora de várias misturas é necessária. Por exemplo, quando o utilizador final altera as definições de representação, a estimativa da percepção sonora da saída fica imediatamente disponível.

Em algumas aplicações, tal como quando da adaptação à recomendação EBU R128, a percepção sonora média de todo o programa é importante. Se a estimativa da percepção sonora no recetor, por exemplo, num cenário de transmissão, é realizada com base no sinal recebido, a estimativa converge para a percepção sonora média apenas depois de se receber o programa completo. Consequentemente, qualquer compensação da percepção sonora irá ter erros ou exibir variações temporais. Ao estimar-se a percepção sonora de objetos de componente como proposto e ao transmitir-se a informação da percepção sonora, é possível estimar a percepção sonora de mistura média no recetor sem qualquer atraso.

Caso se pretenda que a percepção sonora média do sinal de saída permaneça (aproximadamente) constante independentemente das alterações na informação de representação, os conceitos facultados permitem determinar um fator de compensação para esta razão. Os cálculos necessários para tal no descodificador são, na sua complexidade computacional, negligenciáveis e a funcionalidade é, deste modo, possível de ser adicionada a qualquer descodificador.

Existem casos nos quais o nível de percepção sonora absoluta da saída não é importante, mas a importância assenta em determinar a alteração na percepção sonora a partir de uma cena de referência. Em tais casos, os níveis absolutos dos objetos não são importantes, mas os seus níveis relativos são importantes. Tal permite definir um dos objetos como o objeto de referência e representar a percepção sonora dos restantes objetos em relação à percepção sonora deste objeto de referência. Tal oferece alguns benefícios considerando o transporte e/ou armazenamento da informação de percepção sonora.

Primeiro que tudo, não é necessário transportar o nível de percepção sonora de referência. No caso da aplicação dos dois meta-objetos, isto reduz para metade a quantidade de dados a transmitir. 0 segundo benefício refere-se com a quantização possível e a representação dos valores de percepção sonora.

Considerando que os níveis absolutos dos objetos podem ser qualquer coisa, os valores de percepção sonora absoluta podem igualmente ser qualquer coisa. Os valores de percepção sonora relativa, por outro lado, são assumidos por ter uma média de 0 e uma distribuição bastante agradável formada em torno da média. A diferença entre as representações permite definir a grelha de quantização da representação relativa numa forma com uma precisão potencialmente maior com o mesmo número de bits utilizado para a representação quantificada. A fig. 12 ilustra outra forma de realização para conduzir compensação de percepção sonora. Na fig. 12, a compensação de percepção sonora pode ser conduzida, por exemplo, para compensar a perda em percepção sonora. Para este efeito, por exemplo, os valores DE_loudness_diff_dialogue (= KFG0) e DE_loudness_diff_background (= KBG0) de DE_control_info podem ser utilizados. Aqui, DE_control_info pode especificar informação de controlo de "Melhoramento de Diálogo" (DE) de Áudio Limpo Avançado. A compensação de percepção sonora é conseguida ao aplicar-se um valor de ganho "g" no sinal de saida SAOC-DE e os canais submetidos a bypass (no caso de um sinal multicanal).

Na forma de realização da fig. 12, tal é realizado como segue:

Um valor de ganho de modificação de diálogo limitado mG é utilizado para determinar os ganhos efetivos para o objeto de primeiro plano (FGO, por exemplo, diálogo) e para o objeto de segundo plano (BGO, por exemplo, ambiente). Tal é realizado pelo bloco "Mapa de ganhos" 1220, o qual produz os valores de ganho mFGO θ mBGO- O bloco "Estimador de percepção sonora de saida" 1230 utiliza a informação de percepção sonora K e KBGQ, e os valores de ganho efetivos tnFG0 e tnBG0 para estimar esta alteração possível na percepção sonora comparativamente ao caso downmix pré definido. A alteração é depois mapeada para o "fator de compensação de percepção sonora", o qual é aplicado nos canais de saída para produzir os "Sinais de Saída" finais.

Os seguintes passos são aplicados para compensação de percepção sonora:

Receber o valor de ganho limitado mG do descodificador

SAOC-DE (tal como definido na cláusula 12.8 "Controlo da gama de modificação para SAOC-DE" [DE]), e determinar os ganhos FGO/BGO aplicados :

Obter a informação de percepção sonora do meta-objeto

Calcular a alteração na percepção sonora de saída comparativamente ao downmix predefinido com

Calcular o ganho de compensação da percepção sonora

Calcular os fatores de escala

em que

é o número total de canais de saída. Na Fig. 12, o ajuste do ganho é dividido em duas fases: o ganho dos possíveis "canais bypass" é ajustado com mBGO antes de combinar os mesmos com os "canais de saída SAOC-DE " e depois um ganho comum gA é então aplicado a todos os canais combinados. Isto é apenas uma possível reordenação das operações de ajuste de ganho, enquanto g aqui combina ambas as fases de ajuste de ganho num ajuste de ganho.

Aplicar os valores de escala g nos canais áudio YpuLL consistindo nos "canais de saída SAOC- DE" YSA0C e os possíveis "canais bypass" alinhados no tempo

Aplicar os valores de escala g nos canais áudio Y’ é conduzido pela unidade de ajuste de ganho 1240. ΔL como acima calculada pode ser considerada como um valor de compensação de percepção sonora. De modo geral, mFG0 indica um ganho de representação para o objeto de primeiro plano FGO (grupo de objeto de primeiro plano) e mBGo indica um ganho de representação para o objeto de segundo plano BGO (grupo de objeto de segundo plano).

Embora tenham sido descritos alguns aspetos no contexto de um aparelho, torna-se claro que estes aspetos representam igualmente uma descrição do método correspondente, em que um bloco ou dispositivo corresponde a uma fase do método ou uma funcionalidade de uma fase do método. Analogamente, aspetos descritos no contexto de uma fase do método representam igualmente uma descrição de um bloco correspondente ou item ou funcionalidade de um aparelho correspondente. O sinal decomposto inventivo pode ser armazenado num meio de armazenamento digital ou pode ser transmitido num meio de transmissão, tal como um meio de transmissão sem fios ou um meio de transmissão com fios, tal como a Internet.

Dependendo de determinados requisitos de implementação, as formas de realização da invenção podem ser implementadas em hardware ou em software. A implementação pode se realizada utilizando um meio de armazenamento digital, por exemplo uma disquete, um DVD, um CD, ROM, PROM, EPROM, EEPROM ou uma memória FLASH, com sinais de controlo eletronicamente legíveis armazenados nos mesmos, os quais cooperam (ou têm capacidade de cooperar) com um sistema informático programável de modo a que o método respetivo seja executado.

Algumas formas de realização, de acordo com a invenção, compreendem um veículo de dados não transitórios com sinais de controlo eletronicamente legíveis, os quais têm capacidade de cooperar com um sistema informático programável, de modo a que um dos métodos presentemente descrito seja executado.

De modo geral, as formas de realização da presente invenção podem ser implementadas como um produto de programa informático com um código de programa, sendo o código de programa operativo para realizar um dos métodos quando o produto do programa informático correr num computador. 0 código de programa pode, por exemplo, ser armazenado num veículo legível por máquinas. Outras formas de realização compreendem o programa informático para realizar um dos métodos presentemente descritos, armazenado num veículo legível por máquinas.

Por outras palavras, uma forma de realização do método inventivo é, por conseguinte, um programa informático com um código de programa para realizar um dos métodos presentemente descritos, quando o programa informático correr num computador.

Outra forma de realização dos métodos inventivos é, por conseguinte, um veículo de dados (ou um meio de armazenamento digital, ou um meio legível por computador) gue compreende, gravados no mesmo, o programa informático para realizar um dos métodos presentemente descritos.

Outra forma de realização do método da invenção é, por conseguinte, uma corrente de dados ou uma seguência de sinais gue representam o programa informático para realizar um dos métodos presentemente descritos. A corrente de dados ou a seguência de sinais pode, por exemplo, ser configurada para ser transferida via uma conexão de comunicação de dados, por exemplo, através da Internet.

Outra forma de realização compreende um meio de processamento, por exemplo, um computador ou um dispositivo lógico programável, configurado para ou adaptado para realizar um dos métodos presentemente descritos.

Outra forma de realização compreende um computador gue tenha instalado nele o programa informático para realizar um dos métodos presentemente descritos.

Nalgumas formas de realização, um dispositivo lógico programáveis (por exemplo, uma matriz de portas de campo programável) pode ser utilizado para realizar algumas das ou todas as funcionalidades dos métodos presentemente descritos. Nalgumas formas de realização, uma matriz de portas de campo programáveis pode cooperar com um microprocessador de modo a realizar um dos métodos presentemente descritos. De modo geral, os métodos são preferencialmente realizados por gualguer aparelho de hardware.

As formas de realização acima descritas são meramente ilustrativas para os princípios da presente invenção.

Compreende-se que modificações e variações das disposições e dos detalhes presentemente descritos serão evidentes para os especialistas versados na técnica. A intenção é, por conseguinte, limitarmo-nos apenas ao âmbito das reivindicações da patente iminente e não aos detalhes específicos apresentados em forma de descrição e explicação das formas de realização aqui compreendidas.

Referências: [BCC] C. Faller and F. Baumgarte, "Binaural Cue Coding - Part II: Schemes and applications," IEEE Trans. On Speech and Audio Proc., vol. 11, no. 6, Nov. 2003.

[EBU] EBU Recommendation R 128 "Loudness normalization and permitted maximum level of audio signals", Geneva, 2011.

[JSC] C. Faller, "Parametric Joint-Coding of Audio Sources", 120th AES Convention, Paris, 2006.

[1551] M. Parvaix and L. Girin: "Informed Source Separation of underdetermined instantaneous Stereo Mixtures using Source Index Embedding", IEEE ICASSP, 2010.

[1552] M. Parvaix, L. Girin, J.-M. Brossier: "A watermarking-based method for informed source separation of áudio signals with a single sensor", IEEE Transactions on Audio, Speech and Language Processing, 2010.

[1553] A. Liutkus and J. Pinel and R. Badeau and L. Girin and G. Richard: "Informed source separation through spectrogram coding and data embedding", Signal Processing Journal, 2011.

[1554] A. Ozerov, A. Liutkus, R. Badeau, G. Richard: "Informed source separation: source coding meets source separation", IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 2011.

[1555] S. Zhang and L. Girin: "An Informed Source Separation System for Speech Signals", INTERSPEECH, 2011.

[1556] L. Girin and J. Pinel: "Informed Audio Source Separation from Compressed Linear Stereo Mixtures", AES 42nd International Conference: Semantic Audio, 2011.

[ITU] International Telecommunication Union: "Recommendation ITU-R BS.1770-3 - Algorithms to measure áudio programme loudness and true-peak audio level", Geneva, 2012.

[SAOC1] J. Herre, S. Disch, J. Hilpert, 0. Hellmuth: "From SAC To SAOC - Recent Developments in Parametric Coding of Spatial Audio", 22nd Regional UK AES Conference, Cambridge, UK, April 2007 .

[SAOC2] J. Engdegârd, B. Resch, C. Falch, 0. Hellmuth, J. Hilpert, A. Hõlzer, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers and W. Oomen: "Spatial Audio Object Coding (SAOC) -The Upcoming MPEG Standard on Parametric

Object Based Audio Coding", 124th AES Convention, Amsterdam 2008 .

[SAOC] ISO/IEC, "MPEG audio technologies - Part 2: Spatial Audio

Object Coding (SAOC)," ISO/IEC JTC1/SC29/WG11 (MPEG) International Standard 23003-2.

[EP] EP 2146522 Al: S. Schreiner, W. Fiesel, M. Neusinger, 0. Helimuth, R. Sperschneider, "Apparatus and method for generating audio output signals using object based metadata", 2010.

[DE] ISO/IEC, "MPEG audio technologies - Part 2: Spatial Audio Object Coding (SAOC) - Amendment 3, Dialogue Enhancement," ISO/IEC 23003-2:2010/DAM 3, Dialogue Enhancement.

[BRE] WO 2008/035275 A2.

[SCH] EP 2 146 522 Al.

[ENG] WO 2008/046531 Al.

Referências citadas na descrição: A lista de referências citada pelo proponente é somente para conveniência do leitor. Não é parte do documento europeu de patente. Apesar de todo o cuidado gue foi tido na compilação das referências, erros ou omissões não podem ser excluídas e o EPO recusa guaisguer responsabilidades nesse sentido.

Documentos de Patente Citados na Descrição: • EP 2146522 Al • WO 2008035275 A2 • WO 2008046531 Al

• WO 2012125855 A

Literatura, que não patentes, citada na descrição: C. FALLER; F. BAUMGARTE. Binaural Cue Coding- Part II: Schemes and applications. IEEE Trans. On Speech and Audio Proc., November 2003, vol. 11 (6)

Loudness normalization and permitted maximum level of audio signals. EBU Recommendation R 128, 2011 C. FALLER. Parametric Joint-Coding of Audio Sources. AES Convention, 2006 M. PARVAIX; L. GIRIN. Informed Source Separation of underdetermined instantaneous Stereo Mixtures using Source Index Embedding. IEEE ICASSP, 2010 M. PARVAIX; L. GIRIN; J.-M. BROSSIER. A watermarking- based method for informed source separation of audio signals with a single sensor. IEEE Transactions on Audio, Speech and Language Processing, 2010 A. LIUTKUS; J. PINEL; R. BADEAU; L. GIRIN; G. RICHARD. Informed source separation through spectrogram coding and data embedding. Signal Processing Journal, 2011 A. OZEROV; A. LIUTKUS; R. BADEAU; G. RICHARD. Informed source separation: source coding meets source separation. IEEE Workshop on Applications of Signal Processing to Audio and Acoustics,2011 S. ZHANG; L. GIRIN. An Informed Source Separation System for Speech Signals. INTERSPEECH, 2011 L. GIRIN; J. PINEL. Informed Audio Source Separation from Compressed Linear Stereo Mixtures. AES 42nd International Conference: Semantic Audio, 2011

Recommendation ITU-R BS.1770-3 - Algorithms to measure audio programme loudness and true-peak audio level. International Telecommunication Union, 2012 J. HERRE; S. DISCH; J. HILPERT; 0. HELLMUTH. From SAC To SAOC Recent Developments in Parametric Coding of Spatial Audio. Regional UK AES Conference, April 2007 J. ENGDEGÀRD; B. RESCH; C. FALCH; 0. HELLMUTH; J. HILPERT; A. HÕLZER; L. TERENTIEV; J. BREEBAART; J. KOPPENS; E. SCHUIJERS. Spatial Audio Object Coding (SAOC)- The Upcoming MPEG Standard on Parametric ObjectBased Audio Coding. AES Convention, 2008 MPEG audio technologies - Part 2: Spatial Audio Object Coding (SAOC) - Amendment 3, Dialogue Enhancement. Dialogue Enhancement

Claims

REIVINDICAÇÕES

1. Descodificador para gerar um sinal de saída de áudio que compreende um ou mais canais de saída de áudio, caracterizado por o descodificador compreender: um interface recetor (110) para receber um sinal de entrada de áudio que compreende uma pluralidade de sinais de objetos de áudio, para receber informação de percepção sonora nos sinais de objetos de áudio e para receber informação de representação que indica se um ou mais sinais de objetos de áudio deverão ser amplificados ou atenuados, e um processador de sinal (120) para gerar um ou mais canais de saída de áudio do sinal de saída de áudio, em que a interface recetora (110) está configurada para receber um sinal downmix, que compreende um ou mais canais downmix como o sinal de entrada de áudio, em que um ou mais canais downmix compreendem os sinais de objetos de áudio e em que o número de um ou mais canais downmix é menor que o número dos sinais de objetos de áudio, em que a interface recetora (110) está configurada para receber informação downmix indicando como os sinais de objetos de áudio são misturados num ou mais canais downmix, em que a interface recetora (110) está configurada para receber um ou mais sinais de objetos de áudio de bypass adicionais, em que receber um ou mais sinais de objetos de áudio de bypass adicionais não são misturados com o sinal downmix, em que a interface recetora (110) está configurada para receber a informação de percepção sonora que indica informação sobre a percepção sonora dos sinais de objetos de áudio, os quais se encontram misturados com o sinal downmix e indicam informação sobre a percepção sonora de um ou mais sinais de objetos de áudio de bypass adicionais que não se encontram misturados com o sinal downmix, em que o processador de sinal (120) está configurado para determinar um valor de compensação da percepção sonora, dependendo da informação sobre a percepção sonora dos sinais de objetos de áudio que se encontram misturados com o sinal downmix e dependendo da informação sobre a percepção sonora de um ou mais sinais de objetos de áudio de bypass adicionais os quais não se encontram misturados com o sinal, e em que o processador de sinal (120) está configurado para gerar um ou mais canais de saida e áudio do sinal de saida de áudio a partir do sinal de entrada de áudio dependendo da informação downmix, dependendo da informação de representação e dependendo do valor de compensação da percepção sonora.
2. Descodificador de acordo com a reivindicação 1, caracterizado por o processador de sinal (120) estar configurado para gerar um ou mais canais de saida de áudio do sinal de saida de áudio a partir do sinal de entrada de áudio dependendo da informação de representação e dependendo do valor de compensação da percepção sonora, de tal modo que uma percepção sonora do sinal de saida de áudio é igual a uma percepção sonora do sinal de entrada de áudio ou de tal modo que a percepção sonora do sinal de saida é mais próxima da percepção sonora do sinal de entrada de áudio comparativamente a uma percepção sonora de um sinal de áudio modificado que resultaria da modificação de um sinal de entrada de áudio ao amplificar ou atenuar os sinais de objetos de áudio de acordo com a informação de representação.
3. Descodificador de acordo com a reivindicação 2, caracterizado por o processador de sinal (120) estar configurado para gerar o sinal de áudio modificado, modificando o sinal de entrada de áudio ao amplificar ou atenuar os sinais de objetos de áudio do sinal de entrada de áudio, de acordo com a informação de representação, e em que o processador de sinal (120) está configurado para gerar o sinal de saida de áudio, aplicando o valor de compensação de percepção sonora ao sinal de áudio modificado, de modo a que a percepção sonora do sinal de saida de áudio é igual à percepção sonora do sinal de entrada de áudio ou de modo a que a percepção sonora do sinal de saida de áudio seja mais próxima da percepção sonora do sinal de entrada de áudio comparativamente ao sinal de áudio modificado.
4. Descodificador de acordo com qualquer uma das reivindicações 1 a 3, caracterizado por cada sinal de objetos de áudio do sinal de entrada de áudio ser atribuído a exatamente um grupo de dois ou mais grupos, em que cada dos dois ou mais grupos compreende um ou mais sinais de objetos de áudio do sinal de entrada de áudio, em que a interface recetora (110) está configurada para receber um valor de percepção sonora para cada grupo dos dois ou mais grupos como informação de percepção sonora, em que o processador de sinal (120) está configurado para determinar o valor de compensação de percepção sonora dependendo do valor de percepção sonora de cada dos dois ou mais grupos, e em que o processador de sinal (120) está configurado para gerar o ou mais canais de saida de áudio do sinal de saida de áudio a partir do sinal de entrada de áudio dependendo do valor de compensação de percepção sonora.
5. Descodificador de acordo com qualquer uma das reivindicações 1 a 4, caracterizado por, pelo menos, um grupo dos dois ou mais grupos compreender dois ou mais dos sinais de objetos áudio.
6. Descodificador de acordo com qualquer uma das reivindicações 1 a 5, caracterizado por cada dos sinais de objetos de áudio do sinal de entrada de áudio ser atribuído a exatamente um grupo de exatamente dois grupos como os dois ou mais grupos, em que a cada um dos sinais de objetos de áudio do sinal de entrada de áudio será atribuído a um grupo de objetos de primeiro plano dos dois grupos exatamente ou a um grupo de objetos de segundo plano dos dois grupos exatamente, em que a interface recetora (110) está configurada para receber o valor da percepção sonora do grupo de objetos de primeiro plano, em que a interface recetora (110) está configurada para receber o valor da percepção sonora do grupo de objetos de segundo plano, em que o processador de sinal (120) está configurado para determinar o valor de compensação de percepção sonora dependendo do valor da percepção sonora do grupo de objetos de primeiro plano e dependendo do valor da percepção sonora do grupo de objetos de segundo plano, e em que o processador de sinal (120) está configurado para gerar o ou mais canais de saída de áudio do sinal de saída de áudio a partir do sinal de entrada de áudio dependendo do valor de compensação de percepção sonora.
7. Descodificador de acordo com a reivindicação 6, caracterizado por o processador de sinal (120) estar configurado para determinar um valor de compensação de percepção sonora AL de acordo com a fórmula

em que KFG0 indica o valor da percepção sonora do grupo de objetos de primeiro plano, em que KBgo indica o valor da percepção sonora do grupo de objetos de segundo plano, em que mFGo indica um ganho de representação do grupo de objetos de primeiro plano, e em que mBGo indica um ganho de representação do grupo de objetos de segundo plano.
8. Descodificador de acordo com a reivindicação 6, caracterizado por o processador de sinal (120) estar configurado para determinar um valor de compensação de percepção sonora AL de acordo com a fórmula

em que LFG0 indica o valor da percepção sonora do grupo de objetos de primeiro plano, em que LBgo indica o valor da percepção sonora do grupo de objetos de segundo plano, em que gFGo indica um ganho de representação do grupo de objetos de primeiro plano, e em que gBGo indica um ganho de representação do grupo de objetos de segundo plano.
9. Codificador, caracterizado por compreender: uma unidade de codificação baseada em objetos (210; 710) para codificar uma pluralidade de sinais de objetos de áudio para obter um sinal de áudio codificado que compreende a pluralidade de sinais de objetos de áudio e uma unidade de codificação da percepção sonora do objeto (220; 720; 820) para codificar informação da percepção sonora nos sinais de objetos de áudio, em que a informação da percepção sonora compreende um ou mais valores de percepção sonora, em que cada do ou de mais valores de percepção sonora dependem de um ou mais dos sinais de objetos de áudio, em que unidade de codificação baseada em objetos (210; 710) é configurada para receber os sinais de objetos de áudio, em que cada dos sinais de objetos de áudio é atribuído a exatamente um de dois ou mais grupos, em que cada dos dois ou mais grupos compreende um ou mais sinais de objetos de áudio, em que a unidade de codificação baseada em objetos (210; 710) está configurada para downmix dos sinais de objetos de áudio, sendo compreendida pelos dois ou mais grupos, para obter um sinal downmix que compreenda um ou mais canais de áudio downmix como o sinal de áudio codificado, em que o número de um ou mais canais downmix é inferior ao número de sinais de objetos de áudio que é compreendido por dois ou mais grupos, em que a unidade de codificação da percepção sonora do objeto (220; 720; 820) é designada para receber um ou mais sinais de objetos de áudio de bypass adicionais, em que cada de um ou mais sinais de objetos de áudio de bypass adicionais é atribuído a um terceiro grupo, em que cada de um ou mais sinais de objetos de áudio de bypass adicionais não é compreendido pelo primeiro grupo e não é compreendido pelo segundo grupo, em que a unidade de codificação com base no objeto (210; 710) é configurada para não proceder ao downmix do um ou mais sinais de objetos de áudio de bypass adicionais com o sinal downmix, e em que a unidade de codificação da percepção sonora do objeto (220; 720; 820) está configurada para determinar um primeiro valor da percepção sonora, um segundo valor da percepção sonora e um terceiro valor da percepção sonora da informação da percepção sonora, o primeiro valor da percepção sonora indica uma percepção sonora total de um ou mais sinais de objetos de áudio do primeiro grupo, o segundo valor da percepção sonora indica uma percepção sonora total de um ou mais sinais de objetos de áudio do segundo grupo e o terceiro valor da percepção sonora indica uma percepção sonora total de um ou mais sinais de objetos de áudio de bypass adicionais do terceiro grupo, ou está configurado para determinar um primeiro valor da percepção sonora e um segundo valor da percepção sonora da informação da percepção sonora, o primeiro valor da percepção sonora indicando uma percepção sonora total de um ou mais sinais de objetos de áudio do primeiro grupo e o segundo valor da percepção sonora indicando um total da percepção sonora de um ou mais sinais de objetos e áudio do segundo grupo e um ou mais sinais de objetos de áudio de bypass adicionais do terceiro grupo.
10. Codificador de acordo com a reivindicação 9, caracterizado por os dois ou mais grupos serem exatamente dois grupos, em gue cada dos sinais de objetos de áudio é atribuído a exatamente um dos exatamente dois grupos, em gue cada dos exatamente dois grupos compreende um ou mais dos sinais de objetos de áudio, em que a unidade de codificação com base no objeto (210; 710) está configurada para downmix os sinais de objetos de áudio, sendo compreendida pelos exatamente dois grupos, para obter um sinal downmix que compreenda um ou mais canais de áudio downmix como o sinal de áudio codificado, em que o número de um ou mais canais downmix é inferior ao número dos sinais de objetos de áudio sendo compreendido pelos exatamente dois grupos.
11. Sistema caracterizado por compreender: um codificador (310) tal como descrito na reivindicação 9 ou 10 para codificar uma pluralidade de sinais de objetos de áudio para obter um sinal de áudio codificado que compreenda uma pluralidade de sinais de objetos de áudio, e um descodif icador (320) de acordo com uma das reivindicações 1 a 8 para gerar um sinal de saida de áudio que compreenda um ou mais canais de saida de áudio, em que o descodificador (320) está configurado para receber o sinal de áudio codificado como um sinal de entrada de áudio e para receber a informação da percepção sonora em que o descodificador (320) está configurado para receber ainda a informação de representação, em que o descodificador (320) está configurado para determinar um valor de compensação da percepção sonora dependendo da informação da percepção sonora e dependendo da informação de representação, e em que o descodificador (320) está configurado para gerar um ou mais canais de saida de áudio do sinal de saida e áudio a partir do sinal de entrada de áudio dependendo da informação de representação e dependendo do valor de compensação da percepção sonora.
12. Método para gerar um sinal de saida e áudio que caracterizado por compreender um ou mais canais de saida de áudio, em que o método inclui: receção de um sinal de entrada de áudio compreendendo uma pluralidade de sinais de objetos de áudio, receber a informação da percepção sonora que indica informação sobre a percepção sonora dos sinais de objetos de áudio, os quais se encontram misturados com o sinal downmix e indicam informação sobre a percepção sonora de um ou mais sinais de objetos de áudio de bypass adicionais que não se encontram misturados com o sinal downmix, e receber informação de representação indicando se um ou mais dos sinais de objetos de áudios deverão ser amplificados ou atenuados, receber um sinal downmix que compreende um ou mais canais downmix como o sinal de entrada de áudio, em que um ou mais canais downmix compreendem os sinais de objetos de áudio e em que o número de um ou mais canais downmix é menor que o número dos sinais de objetos de áudio, receber informação downmix indicando como os sinais de objetos de áudio são misturados num ou mais canais downmix, receber um ou mais sinais de objetos de áudio de bypass adicionais, em que um ou mais sinais de objetos de áudio de bypass adicionais não são misturados com o sinal downmix, determinar um valor de compensação da percepção sonora dependendo da informação sobre a percepção sonora dos sinais de objetos de áudio os quais se encontram misturados com o sinal downmix e dependendo da informação sobre a percepção sonora de um ou mais sinais de objetos de áudio de bypass adicionais os quais não se encontram misturados com o sinal, e gerar um ou mais canais de saida áudio do sinal de saida áudio a partir do sinal de entrada áudio dependendo da informação downmix, dependendo da informação de representação e dependendo do valor de compensação da percepção sonora.
13. Método de codificação que caracterizado por compreender: codificação de um sinal de entrada de áudio compreendendo uma pluralidade de sinais de objetos de áudio, e codificação de informação da percepção sonora sobre os sinais de objetos de áudio, em que a informação da percepção sonora compreende um ou mais valores da percepção sonora, em que cada do ou de mais valores da percepção sonora dependem de um ou mais dos sinais de objetos de áudio, em que cada dos sinais de objetos de áudio é atribuído a exatamente um de dois ou mais grupos, em que cada dos dois ou mais grupos compreende um ou mais dos sinais de objetos de áudio, em que a codificação da informação da percepção sonora sobre os sinais de objetos de áudio é realizada por downmix dos sinais de objetos de áudio, sendo compreendida pelos dois ou mais grupos, para obter um sinal downmix compreendendo um ou mais canais de áudio downmix como o sinal de áudio codificado, em que o número de um ou mais canais downmix é inferior ao número dos sinais de objetos de áudio sendo compreendido pelos dois ou mais grupos, em que cada de um ou mais sinais de objetos de áudio de bypass adicionais é atribuído a um terceiro grupo, em que cada de um ou mais sinais de objetos de áudio de bypass adicionais não é compreendida pelo primeiro grupo e não é compreendida pelo segundo grupo, em que a codificação da informação de percepção sonora sobre os sinais de objetos de áudio é realizada por não downmix um ou mais sinais de objetos de áudio de bypass adicionais com o sinal downmix, e em que a codificação da informação da percepção sonora sobre os sinais de objetos de áudio é realizada, determinando um primeiro valor da percepção sonora, um segundo valor da percepção sonora e um terceiro valor da percepção sonora da informação da percepção sonora, o primeiro valor da percepção sonora indica uma percepção sonora total de um ou mais sinais de objetos de áudio do primeiro grupo, o segundo valor da percepção sonora indica uma percepção sonora total de um ou mais sinais de objetos de áudio do segundo grupo e o terceiro valor da percepção sonora indica uma percepção sonora total de um ou mais sinais de objetos de áudio de bypass adicionais do terceiro grupo, ou está configurado para determinar um primeiro valor da percepção sonora e um segundo valor da percepção sonora da informação da percepção sonora, indicando o primeiro valor da percepção sonora uma percepção sonora total de um ou mais sinais de objetos de áudio do primeiro grupo e o segundo valor de percepção sonora indicando um total de percepção sonora de um ou mais sinais de objetos de áudio do segundo grupo e um ou mais sinais de objetos de áudio de bypass adicionais do terceiro grupo.
14. Método de acordo com a reivindicação 13, caracterizado por os dois ou mais grupos serem exatamente dois grupos, em gue cada dos sinais de objetos de áudio é atribuído a exatamente um dos exatamente dois grupos, em gue cada dos exatamente dois grupos compreende um ou mais dos sinais de objetos de áudio, em gue a codificação da informação da percepção sonora nos sinais de objetos de áudio é realizada ao downmix os sinais de objetos de áudio, sendo compreendidos pelos exatamente dois grupos, para obter um sinal downmix gue compreenda um ou mais canais de áudio downmix como o sinal de áudio codificado, em gue o número de um ou mais canais downmix é inferior ao número dos sinais de objetos de áudio sendo compreendido pelos exatamente dois grupos.
15. Programa de computador caracterizado por ser para implementar o método tal como descrito em gualguer uma das reivindicações 12 a 14 quando executado num computador ou processador de sinal.