MX2011000383A

MX2011000383A - Esquema de codificacion/decodificacion de audio a baja tasa de bits con pre-procesamiento comun.

Info

Publication number: MX2011000383A
Application number: MX2011000383A
Authority: MX
Inventors: Sascha Disch; Juergen Herre; Johannes Hilpert; Harald Popp; Stefan Geyersberger; Bernhard Grill; Markus Multrus; Gerald Schuller; Ralf Geiger; Jens Hirschfeld; Stefan Wabnik; Stefan Bayer; Ulrich Kraemer; Max Neuendorf; Nikolaus Rettelbach; Guillaume Fuchs; Frederik Nagel; Yoshikazu Yokotani; Jeremie Lecomte
Original assignee: Ten Forschung Ev Fraunhofer
Priority date: 2008-07-11
Filing date: 2009-07-06
Publication date: 2011-02-25
Also published as: CA2730237C; ES2380307T3; BR122020025711B1; BR122020025776B1; RU2011100133A; CN102124517A; KR20110040899A; JP2011527457A; AU2009267432A1; ATE540401T1; ZA201009209B; AR072423A1; TWI463486B; TW201007702A; HK1156723A1; US20110200198A1; BR122021017287B1; CA2730237A1; EP2311035B1; PL2311035T3

Abstract

Un codificador de audio que comprende una etapa común de preprocesamiento, una ramificación de codificación basada en un sumidero de información como la ramificación de codificación en dominio espectral, una ramificación de codificación basada en fuente de información como la ramificación de codificación en domino LPC y un conmutador para conmutar entre estas ramificaciones en entradas en estas ramificaciones o salidas de estas ramificaciones controladas por la etapa de decisión. Un decodificador de audio comprende una ramificación de decodificación en dominio espectral, una ramificación de decodificación en dominio LPC, uno o más conmutadores para conmutar entre las ramificaciones y una etapa de post-procesamiento común para post-procesar una señal de audio en dominio de tiempo para obtener una señal de audio post-procesada.

Description

QUEMA DE CODIFICACIÓN/DECODIFICACIÓN DE AUDIO A B DE BITS CON PRE-PROCESAMIENTO COMÚN po de la Invención La presente invención se relaciona con la codificación de ticular, con esquemas de codificación de audio a baja tasa de bits. ecedentes de la Invención y Técnica Previa En la técnica, se conocen los esquemas de codificación e uencia como MP3 o AAC (sigla en inglés correspondiente a I ificación de audio avanzada). Estos codificadores en dominio de an en una conversión en dominio del tiempo/dominio de frecuenci cuantización subsecuente, en la cual el error de cuantización dominio del tiempo. Dicho filtrado PL deriva de un análisis Predict eñal en dominio del tiempo de entrada. Los coeficientes del filtra al resultantes son luego cuantizados/codificados transm rmación lateral. El proceso se conoce como Codificación de Pre C, por su sigla en inglés). En la salida del filtro, la señal residual eñal de error de predicción también conocida como señal de ificada utilizando las etapas de análisis-por-síntesis del codific la en inglés que corresponde a la traducción predicción lineal c código algebraico) o, en forma alternativa, es codificada ificador de transformación, que utiliza una transformada de pamiento. La decisión entre la codificación ACELP y la co itación Codificada de Transformación también llamada codificaci sigla en inglés) se realiza utilizando un algoritmo en bucle cer erto.

Los esquemas de codificación de audio en dominio de frecue uema de codificación de alta eficiencia AAC, que combina un Los esquemas de codificación en dominio de frecuencia son v muestran una alta calidad en a baja tasa de bits para señales m argo, resulta problemática la calidad de señales de voz a bajas rias.

Los esquemas de codificación de voz muestran una alta calidad voz aún a bajas velocidades binarias, pero muestran una seña ales musicales a bajas velocidades binarias. tesis de la Invención Un objetivo de la presente invención consiste en proporcionar orado de codificación.

Este objetivo se logra por medio de un codificador de audio de reivindicación 1 , un método de codificación de audio de acu indicación 13, un decodificador de acuerdo con la reivindica por un modelo de sumidero y/o un modelo psico-acústico, es ascaramiento auditivo. Por ejemplo, una ramificación posee un c inio de frecuencia y la otra ramificación posee un codificador en near Predictive Coding" en inglés - Codificación Predictiva Line ificador de voz. El modelo fuente es usualmente el procesamiento anto LPC se utiliza comúnmente. En consecuencia, las etapas tí procesamiento como una etapa de codificación de estéreo iticanal y/o etapa de extensión de ancho de banda son comúnme a ambos algoritmos de codificación, que ahorra una cantidad co acenamiento, área de chip, consumo de energía, etc. en compa ación, donde un codificador de audio completo y un codific pleto se utilizan para el mismo propósito.

En una forma de realización preferida, un codificador de audi etapa común de preprocesamiento para dos ramificaciones era ramificación es principalmente motivada por un modelo de modelo psico-acústico, es decir, por enmascaramiento auditivo, En una forma de realización preferida, un decodificador de audi ramificación de decodificación basada en el modelo de rmación como la ramificación de decodificación en dominio e ificación de decodificación basada en fuente de informaci ificación de decodificación en dominio LPC, un conmutador p re las ramificaciones y una etapa común de post-procesamien cesar una señal de audio en dominio de tiempo para obtener u io post-procesada.

Una señal de audio codificada de acuerdo con otro aspecto de prende una primera señal de salida de ramificación de cod resenta una primera porción de una señal de audio codificada de primer algoritmo de codificación, el primer algoritmo de codificac delo de información de sumidero la primera señal de salida de la codificación posee información espectral codificada que represen io; una segunda señal de salida de la ramificación de cod resenta una segunda porción de una señal de audio, diferente ve Descripción de los Dibujos A continuación se describen formas de realización preferidas d nción con respecto a los dibujos adjuntos, en los cuales: Fig. 1a es un diagrama en bloque de un esquema de codificació con un primer aspecto de la presente invención; Fig. 1b es un diagrama en bloque de un esquema de co acuerdo con un primer aspecto de la presente invención; Fig. 2a es un diagrama en bloque de un esquema de co acuerdo con un segundo aspecto de la presente invenci Fig. 4a ilustra un diagrama en bloque con un conmutador sitú las ramificaciones de codificación; Fig. 4b ilustra un diagrama en bloque de un esquema de codifi conmutador situado en forma subsecuente a las rami codificación; Fig. 4c ilustra un diagrama en bloque para un combinador en realización preferida; Fig. 5a ilustra una forma de onda de un segmento de voz en tiempo como un segmento cuasi-periódico o señal del ti Fig. 5b ilustra un espectro del segmento de la Fig. 5a; Fig. 5c ilustra un segmento de voz en dominio del tiempo de un Figs. 7a 7d ¡lustran señales de excitación vocalizadas/no vocal ejemplo para señales del tipo impulso y señales estació ruido; Fig. 7e ilustra una etapa del lado del codificador LPC información de predicción de corto plazo y la señal predicción; Fig. 8 ilustra un diagrama en bloque de un algoritmo multi-c de acuerdo con una forma de realización de la presente Fig. 9 ilustra una forma de realización preferida de un extensión de ancho de banda; Fig. 10a ilustra una descripción detallada del conmutador al llev decisión de bucle abierto; y ún de preprocesamiento puede tener una funcionalidad de esté funcionalidad envolvente, y/o una funcionalidad de extensión da. En la salida del bloque 100 se encuentra un canal monoau éreo o múltiples canales que ingresan a un conmutador 200 mutadores del tipo 200.

El conmutador 200 puede existir para cada salida de la etapa tapa 100 posee dos o más salidas, es decir, cuando la etapa 1 al estéreo o señal multi-canal. Por ejemplo, el primer canal d éreo podrá ser un canal de voz y el segundo canal de señal estér canal de música. En esta situación, la decisión en la etapa de d diferente entre los dos canales para el mismo instante.

El conmutador 200 es controlado por la etapa de decisión 300 isión recibe, como entrada, una entrada de señal en el bloque 10 señal por el bloque 100. En forma alternativa, la etapa de decisi bién recibir una información lateral incluida en la señal monoa ámetros en el bloque 100 basados en la decisión. Sin embargo, es el algoritmo general del bloque 100 para que la principal funció que 100 se encuentre activa irrespectivamente de la decisión en la La etapa de decisión 300 activa el conmutador 200 con el fin d alida de la etapa común de preprocesamiento en la porción de a uencia 400 ilustrada en una ramificación superior de la Fig. 1a codificación en dominio LPC- 500 ilustrada en una ramificación . 1a.

En una forma de realización, el conmutador 200 altern ificaciones de codificación 400, 500. En otra forma de realización, ificaciones de codificación adicionales como una tercera ra ificación o hasta una cuarta ramificación de codificación o ificaciones de codificación. En una forma de realizació ificaciones de codificación, la tercera ramificación de codificaci ilar a la segunda ramificación de codificación, pero podría incluir Un elemento clave de la ramificación de codificación en uencia consiste en un bloque de conversión espectral 410 el cual a convertir una señal de salida en dominio espectral. La convers de incluir un algoritmo MDCT (sigla en inglés correspondiente a sformada de coseno discreta modificada), un algoritmo QMF (si respondiente a la traducción filtro espejo en cuadratura), un a la en inglés correspondiente a la traducción protocolo de Transfor Fourier), un análisis Wavelet o un banco de filtro como un b ado por muestreo en forma crítica con una cierta cantidad d eo de filtro, donde las señales de sub-bandas en este banco de señales de valor real o valor complejo. La salida del bloque d ectral 410 se codifica utilizando un codificador de audio espectra de incluir bloques de procesamiento como se conocen del ificación AAC (Advanced Audio Coding - Codificación Avanzada d En la ramificación de codificación inferior 500, un elemento e un analizador de modelo fuente como el LPC 510, que emite Otra implementación preferida de un codificador de excitació codificación de la señal de excitación. En esta forma de realiza excitación no se codifica utilizando un mecanismo de libro de ELP, sino que la señal de excitación se convierte en una re ectral y los valores de representación espectral como señales d caso de un banco de filtro o coeficientes de frecuencia en c sformación como una FFT se encuentre codificada para presión de datos. Una implementación de este tipo de c itación es el modo de codificación TCX conocido de AMR-WB+.

La decisión en la etapa de decisión puede ser una señal-ad la etapa de decisión realice una discriminación de música/voz mutador 200 de modo que las señales de música ingresen en la erior 400, y las señales de voz en la ramificación inferior 500. En lización, la etapa de decisión suministra su información de decisi uencia de bits de salida, para que un decodificador pueda rmación de decisión con el fin de realizar las operaciones de d . La señal de dominio LPC es ingresada en una etapa de sínte recibe, como entrada adicional, la información LPC generada po lisis LPC correspondiente 510. La salida del conversor de tiempo la salida de la etapa de síntesis LPC 540 son ingresadas en un . El conmutador 600 es controlado a través de una señal d mutador que fue, por ejemplo, generada por la etapa de decisió proporcionada en forma externa por medio de un creador oaural, señal estéreo o señal multi-canal original.

La salida del conmutador 600 es una señal monoaural c secuentemente, es ingresada en una etapa común de post-proces puede realizar un procesamiento estéreo conjunto o proce nsión de ancho de banda. En forma alternativa, la salida del ría ser también una señal estéreo o hasta una señal multi-can reo, significa que el preprocesamiento incluye una reducción del ales. Puede ser también una señal multi-canal, cuando existe u canal a tres canales o no hay reducción de canal pero sólo s En una forma de realización, el conmutador 600 alterna e ificaciones de decodificación 430, 440 y 530, 540. En ot lización, pueden existir ramificaciones de decodificación adiciónal era ramificación de decodificación o una cuarta ramificación de d más ramificaciones de decodificación. En una forma de realiza ificaciones de decodificación, la tercera ramificación de decodifi similar a la segunda ramificación de decodificación, pero pod odificador de excitación diferente del decodificador de excitaci unda ramificación 530, 540. En esta forma de realización, ificación comprende la etapa LPC 540 y un libro de codificación odificador de excitación como en ACELP, y la tercera ramificació etapa LPC y un decodificador de excitación que opera en una re ectral de la señal de salida de la etapa LPC 540.

Como se estableció anteriormente, 2a ilustra un esquema d erido de acuerdo con un segundo aspecto de la invención. Un procesamiento común en 100 de la Fig. 1a comprender un bl La salida del bloque 101 es ingresada al bloque de de ancho ual, en el codificador de la Fig. 2a, emite una señal de banda limi al de banda baja o señal de paso bajo en su salida. Asimismo, p de la entrada de la señal en el bloque 102, los parámetros de ho de banda como los parámetros de envolvente espectral, p ado inverso, parámetros de piso de ruido etc. como se conocen C de MPEG-4 son generados y emitidos a un multiplexor de secu .

Preferentemente, la etapa de decisión 300 recibe la entrada d loque 101 o entrada en el bloque 102 con el fin de decidir entre, modo de música o modo de voz. En el modo de música, se ificación de codificación superior 400, mientras que en el mod cciona la ramificación de codificación más baja 500. Preferentem decisión además controlas el bloque de estéreo conjunto 101 y/o ensión de ancho de banda 102 para adaptar la funcionalidad de señal específica. Por lo tanto, cuando la etapa de decisión d Dependiendo de la decisión del conmutador, que puede deriv entrada del conmutador 200 de una fuente externa como un pr al de audio original subyacente a la entrada de señal en la mutador alterna entre la ramificación de codificación de frecue ificación de codificación LPC 500. La ramificación de co uencia 400 comprende una etapa de conversión espectral 410 secuentemente conectada de cuantización/codificación 421 (com la Fig. 2a). La etapa de cuantización/codificación puede incluir cua cionalidades conocidas de los codificadores de frecuencia-domi o el codificador AAC. Asimismo, la operación de cuantización e ntización/codificación 421 puede ser controlada a través de coacústico que genera información psicoacústica como un val ascaramiento psicoacústico sobre la frecuencia, donde esta in resada en la etapa, 421.

Preferentemente, la conversión espectral se realiza úti ración MDCT, la cual, con mayor preferencia, consiste en 424 de la Fig. 2a, y - del lado del decodificador la informad rcalado en el tiempo debería ser recibida de la secuencia de tra en el ítem 434 de la Fig. 2b.

En la ramificación de codificación LPC, el codificador de de incluir un núcleo ACELP que calcula una ganancia de tono, y/o información del libro de información como un índice rmación y ganancia del código. la primera ramificación de codificación 400, un convers ferentemente comprende una operación MDCT específicamente ías funciones de ventana seguidas por una etapa de co ntización/entropía que puede consistir en una etapa de cuantizaci tor, pero preferentemente consiste en un codificador de cuantiza alar combinado similar a el cuantizador/codificador en la ra ificación de dominio de frecuencia, es decir, en el ítem 421 de la F be, desde el desmultiplexor de secuencia de bits 900, informac ado en esta información lateral y la emisión de la decisión d nstruye la banda alta basado en la salida de banda baja por el La señal de banda completa generada por el bloque 701 es in pa de procesamiento conjunta estéreo/envolvente 702, la cual rec ales estéreo o varios multi-canales. Generalmente, el bloque 70 ales que fueron ingresados en este bloque. Dependiendo de la eso en el bloque 702 puede aún incluir dos canales como en el m de aún incluir más canales siempre que la emisión por este bloq ales que el ingreso en este bloque Generalmente, existe un decodificador de excitación 530. lementado en el bloque 530 es adaptado al algoritmo correspondi el bloque 520 del lado del codificador. Mientras que la etapa ectro derivado de de una señal en dominio de tiempo convertida e Se ha observado que el conmutador 200 alterna e iificaciones para que sólo una ramificación reciba una señal para ramificación no reciba una señal para procesar. En una forma d rnativa, sin embargo, el conmutador puede también estar dispue secuente a por ejemplo el codificador de audio 420 y el c itación 520, lo que significa que ambas ramificaciones 400, 500 ma señal en paralelo. Con el fin de no duplicar la tasa de bits, la salida de señal por una de esas ramificaciones de codificad seleccionada para ser escrita en la secuencia de bits de salida, isión operará para que la señal escrita en la secuencia de bits r a función de costo, donde la función de costo puede ser la secu erada o la distorsión perceptual generada o una función de cost velocidad/distorsión. En consecuencia, ya sea en este modo o trado en las Figuras, la etapa de decisión puede también operar e le cerrado con el fin de asegurarse que, finalmente, sólo ificación de codificación es escrita en la secuencia de bits el cu . Generalmente, el procesamiento en la ramificación 500 es un p un modelo de voz o un modelo generador de información. Para se modelo es un modelo del sistema generador de voz/sonido era sonido. Si, sin embargo, un sonido de una fuente diferente qu delo generador de sonido debe ser codificado, el procesa iificación 500 puede ser diferente.

Aunque algunas Figs. 1a a través de 2b se ilustran como ue de un aparato, estas figuras en forma simultánea con tración de un método, donde las funcionalidades del bloque corres os del método.

La Fig. 3a ilustra un codificador de audio para generar una se ificada como salida de la primera ramificación de codificación unda ramificación de codificación 500. Asimismo, la señal de aud ferentemente incluye información lateral como parámetro cesamiento desde la etapa de pre-procesamiento común o, com Asimismo, la segunda ramificación de codificación 500 se ificar la señal intermedia de audio 195 de acuerdo con un segun codificación, el segundo algoritmo de codificación con un modelo rmación y genera, en una primera señal de salida del codificador, ificados para el modelo de fuente de información que represe rmedia de audio.

El codificador de audio además comprende la etapa de pre-pr ún para pre-procesar una señal de entrada de audio 99 para obt rmedia de audio 95. Específicamente, la etapa de pre-procesam operativa para procesar la señal de entrada de audio 99 para rmedia de audio 195, es decir, la emisión del algoritmo de pre-pr ún es una versión comprimida de la señal de entrada de audio.

Un método de codificación de audio preferido para generar io codificada, comprende un paso de codificación 400, una señal i una señal de entrada de audio 99 para obtener la señal interm , donde, en el paso de pre-procesamiento común la señal de entr es procesada para que la señal intermedia de audio 195 sea primida de la señal de entrada de audio 99, donde la señal de au uye, para una cierta porción de la señal de audio la primera señal unda señal de salida. El método preferentemente incluye el paso ificación de una cierta porción de la señal intermedia de audio ya primer algoritmo de codificación o utilizando el segundo ificación o codificando la señal utilizando ambos algoritmos y emit al codificada ya sea el resultado del primer algoritmo de codi ultado del segundo algoritmo de codificación.

Generalmente, el algoritmo de codificación de audio utilizado ificación de codificación 400 refleja y modela la situación en un io. El sumidero de una información de audio es normalmente el oí ído humano puede ser modelado como un analizador de frecu to, la primera ramificación de codificación emite informaci La segunda ramificación de codificación representa un modelo rmación, que refleja la generación de sonido de audio. En cons elo de fuente de información puede incluir un modelo de voz etapa de análisis LPC, es decir, transformando una señal en ??? en un dominio LPC y procesando en forma subsecuente la s , es decir, la señal de excitación. Sin embargo los modelos d ido alternativos, son modelos de fuente de sonido para represen rumento u otros generadores de sonido como una fuente de sonid existe en el mundo real. Una selección entre diferentes modelos ido puede llevarse a cabo cando varios modelos de fuente de s onibles, por ejemplo teniendo en cuenta un cálculo de SNR, es de cuenta un cálculo, el cual de los modelos de fuente es el más ad odificación de una cierta porción de tiempo y/o porción de frecu ial de audio. Preferentemente, sin embargo, la conmutaci ificación de codificaciones se realiza en el dominio de tiempo, e ta porción de tiempo es codificada utilizando un modelo y una ci tiempo diferente de la señal intermedia es codificada utiliza itación codificados pueden ser ganancia global, piso de ruido, y itud variable.

Generalmente, toda fuente de modelo de informaci erminar un parámetro que refleja la señal de audio original de m íente. Por lo tanto, la salida de la segunda ramificación de codifi ámetros codificados para la fuente de modelo de información qu eñal de audio intermedia.

La Fig. 3b ilustra un decodificador correspondiente al codifica la Fig. 3a. Generalmente, la Fig. 3b ilustra un decodificador d odificar una señal de audio codificada y obtener una señ odificada 799. El decodificador incluye la primera rami codificación 450 para decodificar una señal codificada de acu er algoritmo de codificación con un modelo sumidero de inf odificador de audio además incluye una segunda rami odificación 550 para decodificar una señal de información c pre-procesamiento común sea una versión expandida de la señal consecuencia, la señal de audio decodificada 799 posee un c rmación ampliado en comparación con la señal intermedi odificada 699. Esta expansión de información es proporcionada post procesamiento común con ayuda de parámetros cesamiento que pueden ser transmitidos de un codificador a un d erivados de la señal intermedia de audio decodificada en sí. Pref embrago, los parámetros de pre/post procesamiento se trans ificador a un decodificador, ya que este procedimiento permit dad de la señal de audio decodificada.

Las Fig. 4a y 4b ilustran dos formas de realización diferentes, la posición del conmutador 200. En la Fig. 4a, el conmutador 200 re una salida de la etapa de pre-procesamiento común 100 y la e ramificaciones codificadas 400, 500. La forma de realización d gura que la señal de audio es ingresada en una simple ra ificación solamente, y la otra ramificación de codificación, no co Por otro lado, la forma de realización de la Fig. 4b pu erencia cuando el consumo de energía no es un problema. En e lización, ambas ramificaciones de codificaciones 400, 500 se vas todo el tiempo, y sólo la salida de la ramificación de ccionada para una cierta porción de tiempo y/o una cierta uencia es enviada al formatizador de secuencia de bits el lementarse como multiplexor de secuencia de bits 800. Por lo a de realización de la Fig. 4b, ambas ramificaciones de codifi uentran activas todo el tiempo, y la salida de una ramificación de ccionada por la etapa de decisión 300 es ingresada en la secuen da, mientras que la salida de la otra ramificación de cod ccionada 400 es descartada, es decir, no ingresada en a secuen da es decir, la señal de audio codificada.

La Fig. 4c ilustra otro aspecto de una implementación de ccionada. Con el fin de evitar artefactos auditivos especifica lación, en la cual el primer decodificador es un decodificador g bloque de transición gradual 607. Para tal fin, el bloque de transi podría implementarse como se ilustra en la Fig. 4c en 607a, 6 a ramificación podría tener una ponderación con un factor de pon re 0 y 1 en la escala normalizada, donde el factor de ponderación o se indica en el diagrama 609, dicha regla de transición gradu tinua y uniforme transición gradual, la cual, además, asegura al US percibir variaciones de sonido.

En ciertas instancias, el último bloque del primer deco erado utilizando una ventana donde la ventana en realidad d vanecimiento de este bloque. En ese caso, el factor de ponderaci que 607a es igual a 1 y, en realidad, no se necesita ponderació a ramificación.

Cuando ocurre una conmutación del segundo decodificad odificador, y cuando el segundo decodificador incluye una ven lidad desvanece la salida hasta el final del bloque, entonces la ue después que la conmutación es partida en ventanas odificador para proporcionar un desvanecimiento, los pondera b no son del todo necesarios y una operación de suma por parte c es suficiente.

En este caso, la porción de desvanecimiento del último cuadro aumento gradual del próximo cuadro definen la región de transi icada en el bloque 609. Asimismo, es preferible en dicha situación que de un decodificador posea una cierta superposición de tí er bloque del otro decodificador.

Si una operación de transición gradual no es necesaria o no eada, y si sólo una brusca conmutación de un decodifica odificador se encuentra allí, es preferible realizar dicha con ajes silenciosos de la señal de audio o al menos en pasajes de io donde haya baja energía, es decir, percibidos como silenci nciosos. Preferentemente, la etapa de decisión 300 asegura en di ada en LPC, se establece una diferencia entre segmentos o p al de excitación del tipo impulso cuasi-periódico, y segmentos o al de excitación del tipo ruido.

Los segmentos de señal de excitación del tipo impulso cuasi- ir, segmentos de señal con tonos específicos son codificados c anismos de las señales de excitación del tipo ruido. Mientras qu excitación del tipo impulso cuasi-periódico están conectadas co alizado, las señales del tipo ruido están relacionadas con el alizado.

Como ejemplo se hace referencia a las Figs. 5a a 5d. En e mentos o porciones de señal de excitación del tipo impulso cua mentos o porciones de señal de excitación del tipo ruido se anal ejemplo. Específicamente, un discurso vocalizado como se ilustra el dominio de tiempo y en la Fig. 5b en el dominio de frecuenc o ejemplo para una porción de señal de excitación del tipo i su estructura de formante armónica fina. La estructura de forma es consecuencia de la cuasi-periodicidad de la voz y puede at rdas vocales vibratorias. La estructura de formante (envolvente e a la interacción de la fuente y tractos vocales. Los tra prenden la faringe y la cavidad bucal. La forma de la envolvente adecúa" al espectro de tiempo corto del discurso vocalizado se a acterísticas de transferencia del tracto vocal y la inclinación es tavos) debido al pulso glotal. La envolvente espectral se carac po de picos llamados formantes. Los formantes son modos re to vocal. Para el tracto vocal promedio existen de tres a cin ajo de 5 kHz. Las amplitudes y locaciones de los primeros tr almente ocurren por debajo de 3 kHz, son ambas muy impor esis y percepción de la voz. Los formantes mayores son tambié a representaciones de banda ancha y discurso no vocalizado. Las la voz se relacionan con el sistema de producción del discurs uiente manera. El discurso vocalizado se produce excitando el tra sos de aire glotales cuasi-periódicos generados por las cue En consecuencia, una porción del tipo ruido de la señal estra una estructura en dominio de tiempo del tipo impulso ni una inio de frecuencia armónica como se ilustra en la Fig. 5c y Fig. rente de la porción tipo impulso cuasi-periódica como se ilustra p ig. 5a y Fig.5b. Como se describe más adelante, sin embargo, re las porciones del tipo ruido y las porciones del tipo impulso CU dén también observase después de un LPC para la señal de es un método que modela el tracto vocal y extrae de la señal la tractos vocales.

Asimismo, las porciones del tipo impulso cuasi-periódico y las ruido pueden ocurrir de manera oportuna, es decir, una porción d io en el tiempo es ruidosa y otra porción de la señal de audio en si-periódica, es decir tonal. De manera alternativa, o acterísticas de una señal pueden ser diferentes en diferente uencia. De esta manera, la determinación, acerca de si la señal osa o tonal, puede también realizarse seleccionando la frecuen urso no vocalizado como se indica en la Fig. 7d. El tracto voc o un filtro omni polar 70 el cual procesa pulsos de la Fig. 7 erados por el modelo glotal 72. Por lo tanto, el sistema de la F ucirse a un modelo de filtro omni polar de la Fig. 7b con una etapa una vía de ida 78, una vía de realimentación 79, y una etapa de a ía de realimentación 79, existe un filtro de predicción 81 , y todo esis del modelo fuente ilustrado en la Fig. 7b puede estar zando funciones de dominio z de la siguiente manera: )=g/(1-A(z)) X(z), de g representa la ganancia, A(z) es el filtro de predicción como análisis LP, X(z) es la señal de excitación, y S(z) es la salida de l .

Las Figs. 7c y 7d otorgan una descripción en dominio de tiemp síntesis del discurso vocalizado y no vocalizado utilizando el mode étodo de reflección. La cuantization de los coeficientes de filt almente realizada por una cuantizacion de vector multi-etapa e (Linear Spectral Frequency - Frecuencia Espectral Lineal) o ISP.

La Fig. 7e ilustra una implementación más detallada del bloqu LPC 510. La señal de audio es ingresada en un bloque de deter que determina la información del filtro A(z). Esta información es e rmación de predicción a corto plazo necesaria para un deco rmación de predicción a corto plazo es requerida por el filtro de pr En un subtractor 86, una muestra corriente de la señal de audio n valor predecible para la muestra corriente es substraído para q estra, la señal de error de predicción es generada en la lín uencia de dichas muestras de señal de error de predicción se ilus y esquemática ilustrada en las Fig. 7c o 7d. En consecuencia, la dén considerarse como un tipo de señal del tipo impulso rectificad En forma subsecuente, un codificador CELP de análisis por 68. s(n) es la señal de entrada en dominio de tiempo. Después d ceptualmente ponderada, la señal ponderada es ingresada en un calcula el error entre la señal de síntesis ponderada en la salida señal ponderada original Sw(n). Generalmente, los coeficientes dicción a corto plazo A(z) se calculan mediante una etapa de anál ficientes son cuantizados en Á(z) como se indica en la Fig. 7e. L predicción a largo plazo AL(z) incluyendo la ganancia de predi o g y el índice de cuantización del vector, es decir, referencia ificación se calculan sobre la señal de error de predicción en la pa de análisis LPC referida como 10a en al Fig. 7e. El algoritmo eñal residual señal obtenida después de las predicciones a lar o plazo utilizando un libro de codificación de por ejempl ussian. El algoritmo ACELP, donde la "A" significa "Algebraico" p codificación específico algebraicamente diseñado.

Un libro de codificación puede contener más o menos vectores tor es en algunas muestras largo. Un factor de ganancia g adapta Para casos específicos, cuando un cuadro es una mezcla alizado y no vocalizado o cuando ocurre voz sobre música, una puede ser más apropiada para codificar la excitación en el dom ificación TCX procesa la señal a ponderada en el dominio de fr suponer producciones de excitación. TCX es más genérica que la P y no está restringida a un modelo de fuente vocalizada o no v xcitación. TCX es aún una codificación con modelo filtro-fuente q de predicción lineal para modelar los formantes de las señale .

En la codificación tipo AMR-WB+-, se lleva a cabo una selecc rentes modos TCX y ACELP como se conoce de la describió AM dos TCX son diferentes ya que la longitud de la Transformada rier en sentido del bloque es diferente para diferentes modos y el de seleccionarse mediante un enfoque de análisis por síntesis alimentación" directa. nsión de ancho de banda 701 está conectada antes de la etapa junto 702 con respecto a la dirección de procesamiento de señal rnativa, sin embargo, la etapa de pre-procesamiento común pued pa de multicanal conjunto sin la extensión de ancho secuentemente conectada o etapa de extensión de ancho de b pa de multicanal conjunto conectada.

Un ejemplo preferido para una etapa de multicanal conjunto ificador 101a, 101 b y del lado del decodificador 702a y 702b se texto de la Fig. 8. Un número de canales de entrada originales E el mezclador descendente 101a para que el mezclador descenden ero de canales K transmitidos, donde el número K es mayor a o nor a o igual a E.

Preferentemente, los canales de entrada E son ingres lizador de parámetros de multicanal conjunto 101 b que genera amétrica. Esta información paramétrica tiene preferentemente co smitidos y genera un número de canales de salida L, donde el núr or a o igual a K y menor a o igual a E. información paramétrica puede incluir diferencias de nivel de rencias de tiempo de ínter canal, diferencias de fase de int diciones de coherencia de ínter canal como se conoce en la técnic omo se conoce y describe en detalle en el estándar con sonid EG. La cantidad de canales transmitidos puede ser un solo can a aplicaciones con tasa de bits ultra bajas o puede incluir uñ reo compatible o puede incluir un señal estéreo compatible, e ales. Típicamente, el número de canales de entrada E puede ser yor. En forma alternativa, el número de canales de entrada bién objetos de audio E como se conoce en el contexto de co eto de audio espacial (SAOC, por su sigla en inglés).

En una implementación, el mezclador descendente desarrolla derada o no ponderada de los canales de entrada originales E audio de entrada E. En caso de objetos de audio como canales d nsión de ancho de banda correspondiente 701 en la Fig. 2b. ificador, el bloque de extensión de ancho de banda 102 pref uye un bloque de filtro de paso bajo 102b y un analizador de ban entrada de señal de audio original en el bloque de extensión da 102 es filtrada con paso bajo para generar la señal de banda ingresada en las ramificaciones de codificación y/o el conmutado o bajo posee una frecuencia recortada que puede estar en el ran Hz. Utilizando SBR, se puede exceder este rango. Asimismo, nsión de ancho de banda 102 además incluye un analizador d a calcular los parámetros de extensión de ancho de ban rmación de parámetros de envolvente espectral, una info ámetros de piso de ruido, una información de parámetros de filtro rmación paramétrica relacionada con ciertas líneas armónicas en l arámetros adicionales como se analizan en detalle en el estándar apítulo relacionado con la replicación de banda espectral. (ISO 005, Parte 3, Capítulo 4.6.18). lizado de modo armónico o no armónico. La señal generada por parches 701a es, subsecuentemente, ajustada por el ajustador 70 formación de extensión de ancho de banda paramétrica.

Como se indica en la Fig. 8 y Fig. 9, los bloques descriptos entrada de control de modo en una forma de realización pr rada de control de modo deriva de la señal de salida de la etapa . En dicha forma de realización preferida, una característica d respondiente puede ser adaptada a la salida de la etapa de decisi en una forma de realización preferida, se lleva a cabo una decis decisión de música para una cierta porción de tiempo de la se ferentemente, el control de modo sólo se relaciona con una o cionalidades de estos bloques pero no con todas las funcionali ques. Por ejemplo, la decisión puede influenciar sólo el generado a pero no puede influenciar los otros bloques en la Fig. 9, o mplo, influenciar sólo el analizador de parámetro multicanal conj Fig. 8 pero no los demás bloques en la Fig. 8. Esta impler o, el analizador de señal 300a en la etapa de decisión posee cierta n de decidir si la porción cierta de tiempo o una cierta porción de f eñal de entrada posee una característica que requiere que est al es codificada por la primera ramificación de codificación 4 unda ramificación de codificación 500. Para este fin, el analiza a puede analizar la señal de entrada de audio en la eta esamiento común o puede analizar la emisión de señal de audio pre-procesamiento común, es decir, la señal intermedia de au lizar una señal intermedia dentro de la etapa de pre-procesami o la emisión de la señal de mezcla descendente que puede s noaural o una señal con canales k indicados en la Fig. 8. Del lado nalizador de señal 300a genera la decisión de conmutación par mutador 200 del lado del codificador y el conmutador correspondi binador 600 del lado del decodificador.

De manera alternativa, la etapa de decisión 300 puede isión de bucle cerrado, lo que significa que ambas ramifi rto, pero su complejidad sólo existe del lado del codific odificador no tiene desventajas de este proceso, ya que el d de de manera ventajosa utilizar la salida de la decisión de codific o, se prefiere el modo de bucle cerrado por las conside plejidad y calidad en las aplicaciones, en las cuales la co odificador no resulta un problema como en las aplicaciones de de sólo existe una cantidad menor de codificadores pero una gran odificadores que, además, deben ser inteligentes y económicos.

La función de costo aplicada por el comparador 300b pu ción de costo accionada por aspectos de calidad o puede ser un to accionada por aspectos de ruido o puede ser una funci ionada por aspectos de tasa de bits o puede ser una funci binada accionada por una combinación de tasa de bits, c raducida por artefactos de codificación, específicamente, por c ropía para convertir un resultado de la 'conversión en po/frecuencia en la representación codificada. La característica d iable se incluye en la señal de audio codificada. Esta información ramificación de decodificación de intercalado en el tiempo cesada para finalmente obtener una señal de salida en una esca no intercalado. Por ejemplo, la ramificación de decodificación odificación de entropía, descuantización y una conversión del uencia nuevamente en el dominio de tiempo. En el dominio de ti rcalado puede aplicarse y seguirse por medio de una operación d respondiente para finalmente obtener una señal de audio disc ala de tiempo de no intercalado.

Dependiendo de ciertos requisitos de implementación de los nción, los métodos de la invención pueden implementarse en ware. La implementación puede realizarse utilizando un acenamiento digital, en particular, un disco, DVD o CD con señal ceptibles de ser leídas en forma electrónica almacenadas en los os uno de los métodos de la invención cuando el programa de co rado en una computadora.

La señal de audio codificada inventiva puede almacenarse en acenamiento digital o transmitirse en un medio de transmisión co ransmisión inalámbrico o un medio de transmisión por cable como Las formas de realización descriptas anteriormente son trativas para los principios de la presente invención. Se entie ificaciones y variaciones de las disposiciones y los detalles des sente resultarán evidentes para los expertos en la técnica. Por nta limitar sólo por el alcance de las reivindicaciones de la patent 0 por los detalle específicos presentados a modo de descripción las formas de realización de la presente

Claims

REIVINDICACIONES iendo así especialmente descripto y determinado la naturaleza d nción y la forma como la misma ha de ser llevada a la práctic indicar como de propiedad y derecho exclusivo Un codificador de audio para generar una señal de audio co comprende: una primera ramificación de codificación (400) para codificar audio intermedia (195) de acuerdo con un primer algoritmo de c primer algoritmo de codificación posee un modelo de información y genera, en una primera señal de salida de ra codificación, información espectral codificada que representa audio; una segunda ramificación de codificación (500) para codificar donde la etapa de pre-procesamiento común (100) es op procesar la entrada de la señal de audio (99) para que la se intermedia (195) sea una versión comprimida de la entrada de s (99). Un codificador de audio de acuerdo con la reivindicación 1 , comprende una etapa de conmutación (200) conectada entr ramificación de codificación (400) y la segunda ramificación d (500) en entradas en las ramificaciones o salidas de las rami etapa de conmutación es controlada por una señal de conmutación. Un codificador de audio de acuerdo con la reivindicación 2, comprende a etapa de decisión (300, 300a, 300b) para analiza entrada de audio (99) o la señal de audio intermedia (195) intermedia en la etapa de pre-procesamiento común (100) frecuencia con el fin de hallar una porción de tiempo o frecu porción diferente a la señal intermedia de audio (195) y para i representación codificada de los parámetros de pre-procesamie la señal de salida codificada, donde la señal de salida codific comprende una señal de salida de la primera ramificación de para representar una primera porción de la señal intermedia d señal de salida de la segunda ramificación de codificación para r segunda porción de la señal intermedia de audio. Un codificador de audio de acuerdo con cualquiera de las rei precedentes, donde la etapa de de pre-procesamiento comprende un módulo multicanal conjunto (101 ), el modul conjunto comprende: un mezclador descendente (101 a) para generar un númer mezclados en forma descendente mayor o igual 1 y menor a u entradas de canales en el mezclador descendente (101 a); y diferencia de fase intercanal, parámetros con diferencia de tiem parámetros con objeto de audio o parámetros de dirección o dif Un codificador de audio de acuerdo con cualquiera de las rei precedentes, donde la etapa de de pre-procesamiento c comprende una etapa de análisis de extensión de ancho de ban comprende: un dispositivo limitador de banda (102b) para rechazar una band señal entrada y para generar una señal de banda baja; y un calculador de parámetro (102a) para calcular parámetros de ancho de banda para la banda alta rechazada por el dispositiv banda, donde el calculador de parámetro (102a) es tal que parámetros calculados y la señal de banda baja, se puede reconstrucción de la señal de entrada extendida del ancho de ba etapa de extensión de ancho de banda sé conecta a una conmutador (200), una primera salida del conmutador se co entrada de la primera ramificación de codificación y una segun conmutador se conecta con una entrada de la segunda ra codificación (500), y las salidas de las ramificaciones co conectan con un formador de secuencia de bits (800). Un codificador de audio de acuerdo con la reivindicación 3, dond decisión (300) es operativa para analizar una señal de entrada decisión para buscar las porciones a codificar por la primera ra codificación (400) con una mejor relación de señal-ruido a una bits en comparación con la segunda ramificación de codificación la etapa de decisión (300) es operativa para analizar teniendo algoritmo de bucle abierto sin una señal codificada y decodificada o teniendo en cuenta un algoritmo de bucle cerra una señal codificada y nuevamente decodificada. Un codificador de audio de acuerdo con cualquiera de las rei precedentes, donde la primera ramificación de codificación comprende u intercalado en el tiempo para calcular una característica d variable que depende de una porción de la señal de audio, donde la primera ramificación de codificación comprende un r para el remuestreo de acuerdo con una característica d determinada, y donde la primera ramificación de codificación comprende un dominio de tiempo/dominio de frecuencia y un codificador de convertir un resultado de la conversión en dominio de tiemp frecuencia en una representación codificada, donde la característica de intercalado variable se incluye en la s Un método codificador de audio para generar una señal de audi que comprende: la codificación (400) de una señal intermedia de audio (195) de un primera algoritmo de codificación, el primer algoritmo de posee un modelo de información de sumidero y genera, en una de salida, información espectral codificada que representa la señ la codificación (500) de una señal intermedia de audio (195) de un segundo algoritmo de codificación, el segundo algoritmo d posee un modelo de fuente de información y genera, en una s de salida, parámetros codificados para el modelo de fuente d que representa la señal intermedia (195); y el pre-procesamiento común (100) de una señal de entrada para obtener la señal intermedia de audio (195), donde, en el procesamiento común la señal de entrada de audio (99) es pr una primera ramificación de codificación (430, 440) para de señal codificada de acuerdo con un primer algoritmo de cod modelo de sumidero de información; una segunda ramificación de decodificación (530, 540) para de señal codificada de acuerdo con un segundo algoritmo de co modelo fuente de información; un combinador (600) para combinar señale de salida de ramificación de decodificación (430, 440) y la segunda rar decodificación (530, 540) para obtener una señal combinada (6 una etapa de post-procesamiento común (700) para proce combinada (699) para que una señal de salida decodificada (79 de post-procesamiento común sea una versión expandida combinada (699). Un decodificador de audio de acuerdo con la reivindicación 14 o combinador (600) comprende un componente de transición g para realizar una transición gradual, en caso que un evento de entre una salida de ramificación de decodificación (450, 550) y otra ramificación de decodificación (450, 550) dentro de u transición gradual en dominio de tiempo. Un decodificador de áudio de acuerdo con la reivindicación componente de transición gradual (607) es operativo para pond una de las ramificaciones de decodificación de las señales de de la región de transición gradual y para agregar al meno ponderada a una señal ponderada o no ponderada desde la otr de codificación(607c), donde las ponderaciones utilizadas par menos una señal (607a, 607b) son variables en la región gradual. ' donde el decodificador multicanal conjunto (702) co decodificador de parámetro (702b) y un mezclador ascen controlado por la salida de un decodificador de parámetro (702b) Un decodificador de audio de acuerdo con la reivindicación 19, donde el procesador de extensión de ancho de banda (702) c parche (701a) para crea una señal de banda alta, un ajustado ajusfar señal de banda alta, y un combinador (701c) para com de banda alta ajustada y una señal de banda baja para obten extendida de ancho de banda. Un decodificador de audio de acuerdo con una de las reivindic 20, donde la primera ramificación de decodificación (450 decodificador de audio en dominio de frecuencia, y la segunda de decodificación (550) incluye un decodificador de voz en tiempo. Donde la etapa de post-procesamiento común posee un núme de funcionalidades (700, 701 , 702) y donde al menos una fun adaptable por una función de detección de modo (601 ) y donde funcionalidad es no-adaptable. Un método de decodificación de audio de una señal de audio c comprende: la decodificación (450) de una señal codificada de acuerdo c algoritmo de codificación con modelo de infoimación de sumider la decodificación (550) de una señal codificada de acuerdo con algoritmo de codificación con modelo fuente de información; la combinación (600) de salida de señales desde la primera ra decodificación (430, 440) y la segunda ramificación de decodifi Un programa de computación para desarrollar, cuando se u computadora, el método de la reivindicación 14 o reivindicación Una señal de audio codificada que comprende: Una señal de salida de la primera ramificación de codificación q una primera porción de una señal de audio codificada de ac primer algoritmo de codificación, el primer algoritmo de codificac modelo de información de sumidero, la señal de salida d ramificación de codificación con información espectral co representa la señal de audio; una señal de salida de la segunda ramificación de codi representa una segunda porción de una señal de audio, dif primera porción de la señal de salida, la segunda porción acuerdo con un segundo algoritmo de codificación, el segundo codificación con un modelo fuente de información, la señal de