MXPA04012540A - Sistema de codificacion de audio que usa caracteristicas de una senal descodificada para adaptar componentes espectrales sintetizados. - Google Patents

Sistema de codificacion de audio que usa caracteristicas de una senal descodificada para adaptar componentes espectrales sintetizados.

Info

Publication number
MXPA04012540A
MXPA04012540A MXPA04012540A MXPA04012540A MXPA04012540A MX PA04012540 A MXPA04012540 A MX PA04012540A MX PA04012540 A MXPA04012540 A MX PA04012540A MX PA04012540 A MXPA04012540 A MX PA04012540A MX PA04012540 A MXPA04012540 A MX PA04012540A
Authority
MX
Mexico
Prior art keywords
subband signals
synthesized
components
spectral components
spectral
Prior art date
Application number
MXPA04012540A
Other languages
English (en)
Inventor
Matthew Conrad Fellers
Original Assignee
Dolby Lab Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US10/174,493 external-priority patent/US7447631B2/en
Application filed by Dolby Lab Licensing Corp filed Critical Dolby Lab Licensing Corp
Publication of MXPA04012540A publication Critical patent/MXPA04012540A/es

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

Un receptor de un sistema de codificacion de audio recibe una senal que porta senales de subbanda de frecuencia, que representan una senal de audio. Las senales de subbanda son examinadas para evaluar una o mas caracteristicas de la senal de audio. Se sintetizan componentes espectrales que tienen caracteristicas evaluadas. Los componentes espectrales sintetizados son integrados con las senales de subbanda y se pasan a traves de un banco de filtros de sintesis, para generar una senal de salida. En una implementacion la caracteristica evaluada es la forma temporal y se sintetizan componentes espectrales similares al ruido, que tienen la forma temporal de la senal de audio. La figura mas representativa de la invencion es la numero 2.

Description

SISTEMA DE CODIFICACIÓN DE AUDIO QUE USA CARACTERÍSTICAS DE UNA SEÑAL DESCODIFICADA PARA ADAPTAR COMPONENTES ESPECTRALES SINTETIZADOS CAMPO DE LA INVENCIÓN La presente invención se refiere, en general, a sistemas de codificación de audio, y está relacionada más específicamente a mejorar la calidad percibida de las señales de audio obtenidas de sistemas de codificación de audio.
ANTECEDENTES DE LA INVENCIÓN Los sistemas de codificación de audio se usan para codificar una señal de audio en una señal codificada que sea apropiada para la transmisión o almacenamiento, y luego subsecuentemente recibir o recuperar la señal codificada y descodificarla para obtener una versión de la señal de audio original para su reproducción. Los sistemas de codificación de audio perceptual intentan codificar una señal de audio en una señal codificada que tenga menores requerimientos de capacidad de información en comparación con la señal de audio original, y luego descodificar subsecuentemente la señal codificada para proporcionar una salida que sea perceptualmente indistinguible de la señal de audio original. Un ejemplo de un sistema de codificación de audio perceptual se describe en el documento A/52A del Comité de Sistemas de Televisión Avanzada (ATSC) , titulado "Revisión A al Estándard de Compresión de Audio Digital" publicado el 20 de Agosto del 2001, al cual se hace referencia como Dolby Digital. Otro ejemplo se describe en Bosi et al., "ISO/IEC MPEG-2 Advanced Audio Coding" J. AES, vol. 45, no. 10, Octubre 1997, pp . 789-814, al cual se hace referencia como Codificación de Audio Avanzada (AAC) . En estos dos sistemas de codificación, así como en muchos otros sistemas de codificación perceptual, un transmisor de banda dividida aplica un banco de filtros de análisis a una señal de audio para obtener componentes espectrales que se encuentren dispuestos en grupos o en bandas de frecuencia y codifica los componentes espectrales de acuerdo con principios psicoacústicos para generar una señal codificada. Los anchos de banda varían típicamente y son generalmente conmensurables a los anchos de banda conocidos como bandas críticas del sistema auditivo humano. Un receptor de banda dividida complementario recibe y descodifica la señal codificada para recuperar componentes espectrales y aplica un banco de filtros de síntesis a fin de que los componentes espectrales descodificados obtengan una réplica de la señal de audio original. Los sistemas de codificación perceptual se pueden usar para reducir los requerimientos de capacidad de información de una señal de audio y conservar a la vez una medida de calidad de audio, subjetiva o percibida, de manera tal que una representación codificada de la señal de audio pueda ser transportada a través de un canal de comunicación usando menor ancho de banda o almacenado en un medio de registro usando menos espacio. Los requerimientos de capacidad de información se reducen cuantificando los componentes espectrales. La cuantificación inyecta ruido a la señal cuantificada, pero los sistemas de codificación de audio perceptual generalmente usan modelos psicoacústicos como un intento para controlar la amplitud del ruido de cuantificación, de manera tal que sea enmascarado o se haga inaudible debido a los componentes espectrales en la señal. Las técnicas tradicionales de codificación perceptual funcionan razonablemente bien en sistemas de codificación que permiten transmitir o registrar señales codificadas que tengan velocidades de transferencia de bitios de medias a altas, pero estas técnicas por si mismas no proporcionan una calidad de audio muy buena cuando las señales codificadas estén restringidas a bajas velocidades de transferencia de bitios. Se han usado otras técnicas junto con técnicas de codificación perceptual como un intento para proporcionar señales de alta calidad a velocidades de transferencia de bitios muy bajas. Una técnica llamada "Regeneración de Alta Frecuencia" (HFR) se describe en la solicitud de patente de los Estados Unidos de América número 10/113,858 titulada "Traslación de Frecuencia de Banda Ancha para Regeneración de Alta Frecuencia" por Truraan, et al., presentada el 28 de Marzo del 2002, la cual se incorpora en la presente como referencia en su totalidad. En un sistema de codificación de audio que usa HFR, un transmisor excluye componentes de alta frecuencia de la señal codificada y un receptor regenera o sintetiza componentes substitutos similares a ruido, para los componentes de alta frecuencia faltantes. La señal resultante proporcionada en la salida del receptor generalmente no es perceptualmente idéntica a la señal original proporcionada en la entrada al transmisor, pero técnicas de regeneración sofisticadas pueden proporcionar una señal de salida que es una aproximación bastante buena de la señal de entrada original, que tiene una calidad percibida mucho mayor que la que seria posible de otra manera a bajas velocidades de transferencia de bitios. En este contexto, alta calidad usualmente significa un ancho de banda amplio y un bajo nivel de ruido percibido. Otra técnica de síntesis, llamada "Llenado de Huecos Espectrales" (SFH) se describe en la solicitud de patente de los Estados Unidos de Norteamérica número 10/174,493 titulada Sistema de Codificación de Audio Mejorado que usa Llenado de Huecos Espectrales" por Truman, et al., presentada el 17 de Junio del 2002, la cual se incorpora en la presente como referencia en su totalidad. De acuerdo con esta técnica, un transmisor cuantifica y codifica componentes espectrales de una señal de entrada en una manera tal que bandas de componentes espectrales son omitidas de la señal codificada. A las bandas de los componentes espectrales faltantes se hace referencia como huecos espectrales. Un receptor sintetiza componentes espectrales para llenar los huecos espectrales. La técnica SHF generalmente no proporciona una señal de salida que sea perceptualmente idéntica a la señal de entrada original, pero puede mejorar la calidad percibida de la señal de salida en sistemas que estén restringidos para funcionar con señales codificadas a bajas velocidades de transferencia de bitios. Técnicas como la HFR y la SHF pueden proporcionar una ventaja en muchas situaciones pero no funcionan bien en todas las situaciones. Una situación que es particularmente problemática surge cuando una señal de audio que tiene una amplitud de cambio rápido, es codificada por un sistema que usa transformaciones de bloques para implementar los bancos de filtros de análisis y síntesis. En esta situación, componentes similares a ruido, audibles, pueden ser aplicados a través de un periodo que corresponda a un bloque de transformación . Una técnica que puede ser usada para reducir los efectos audibles del ruido aplicado en el tiempo, es reducir la longitud del bloque, de las transformaciones de análisis ? síntesis, para intervalos de la señal de entrada, que sean altamente no estacionarios. Esta técnica funciona bien en sistemas de codificación de audio que permitan transmitir o registrar señales que tengan velocidades de transferencia de bitios, de medias a altas, pero no funciona tan bien en sistemas con velocidades de transferencia de bitios, menores, porque el uso de bloques más cortos reduce la ganancia de codificación conseguida por la transformación. En otra técnica, un transmisor modifica la señal de entrada, de manera tal que los cambios rápidos en la amplitud sean eliminados o reducidos antes de la aplicación de la transformación de análisis. El receptor invierte los efectos de las modificaciones después de la aplicación de la transformación de síntesis. Desafortunadamente, esta técnica obscurece las características espectrales verdaderas de la señal de entrada, distorsionando entonces la información necesaria para la codificación perceptual efectiva, y porque el transmisor debe usar parte de la señal transmitida para portar parámetros que necesita el receptor para invertir los efectos de las modificaciones. En una tercera técnica conocida como formación de ruido temporal, un transmisor aplica un filtro de predicción a los componentes espectrales obtenidos del banco de filtros de análisis, porta los errores de predicción y los coeficientes del filtro predictivo en la señal transmitida, y el receptor aplica un filtro de predicción inverso a los errores de predicción, para recuperar los componentes espectrales. Esta técnica es indeseable en sistemas con velocidades de transferencia de bitios, bajas, debido a la información adicional excesiva de la señal, que se necesita para transportar los coeficientes de los filtros predictivos.
DESCRIPCIÓN DE LA INVENCIÓN Un objeto de la presente invención es proporcionar técnicas que puedan ser usadas en sistemas de codificación de audio con baja tasa de transferencia de bitios, para mejorar la calidad percibida de las señales de audio generadas por esos sistemas. De conformidad con la presente invención, la información de audio codificada es procesada recibiendo la información de audio codificada y obteniendo señales de subbanda que representen una parte y no todo el contenido espectral de una señal de audio, examinando las señales de subbanda para obtener una característica de la señal de audio, generando componentes espectrales sintetizados que tengan la característica de la señal de audio, integrando los componentes espectrales sintetizados con las señales de subbanda para generar un conjunto de señales de subbanda modificadas, y generar la información de audio aplicando un banco de filtros de síntesis al conjunto de señales de subbanda modificadas. Las varias características de la presente invención y sus modalidades preferidas pueden ser comprendidas mejor haciendo referencia al siguiente análisis y a los dibujos acompañantes. El contenido del siguiente análisis y los dibujos se presentan como ejemplos únicamente y no deberá comprenderse que representen limitaciones del alcance de la presente invención.
BREVE DESCRIPCIÓN DE LOS DIBUJOS La figura 1 es un diagrama de bloques esquemático de un transmisor en un sistema de codificación de audio. La figura 2 es un diagrama de bloques esquemático de un receptor en un sistema de codificación de audio. La figura 3 es un diagrama de bloques esquemático de un aparato que puede ser usado para implementar varios aspectos de la presente invención.
MODOS PARA LLEVAR A CABO LA INVENCIÓN A. Revisión General Varios aspectos de la presente invención pueden ser incorporados en una variedad de métodos de procesamiento de señales y dispositivos que incluyen dispositivos tales como aquellos ilustrados en las figuras 1 y 2. Algunos aspectos pueden llevarse a cabo mediante el procesamiento realizado únicamente en un receptor. Otros aspectos requieren del procesamiento cooperativo realizado tanto en un receptor como en un transmisor. Una descripción de procesos que pueden ser usados para llevar a cabo varios aspectos de la presente invención, se proporciona posteriormente después de una revisión general de los dispositivos típicos que pueden ser usados para llevar a cabo estos procesos. La figura 1 ilustra una implementación de un transmisor de audio de banda dividida en el que el banco de filtros de análisis 12 recibe de la ruta 11 información de audio que representa una señal de audio y, en respuesta, proporciona señales de subbanda de frecuencia, que representan contenido espectral de la señal de audio. Cada señal de subbanda se pasa al codificador 14, el cual genera una representación codificada de las señales de subbanda y pasa la representación codificada al formateador 16. El formateador 16 ensambla la representación codificada en una señal de salida apropiada para la transmisión o almacenamiento, y pasa la señal de salida a lo largo de la ruta 17. La figura 2 ilustra una implementación de un receptor de audio de banda dividida, en el que el desformateador 22 recibe desde la ruta 21 una señal de entrada que conduce una representación codificada de señales de subbanda de frecuencia, que representan contenido espectral de una señal de audio. El desformateador 22 obtiene la representación codificada de la señal de entrada y la pasa hacia el descodificador 24. El descodificador 24 descodifica la representación codificada en las señales de subbanda de frecuencia. El analizador 25 examina las señales de subbanda para obtener una o más características de la señal de audio que representen las señales de subbanda. Una indicación de las características se pasa al sintetizador de componentes 26, el cual genera componentes espectrales sintetizados, usando un proceso que se adapta en respuesta a las características. El integrador 27 genera un conjunto de señales de subbanda modificada, integrando las señales de subbanda proporcionadas por el descodificador 24 con los componentes espectrales sintetizados, generados por el sintetizador de componentes 26. En respuesta al conjunto de señales de subbanda modificada, el banco de filtros de síntesis 28 genera a lo largo de la ruta 29 información de audio que representa una señal de audio. En la implementación particular mostrada en la figura, ni el analizador 25 ni el sintetizador de componentes 26 adaptan el procesamiento en respuesta a cualquier información de control obtenida de la señal de entrada por el desformateador 22. En otras implementaciones , el analizador 25 y/o el sintetizador de componentes 26 puede ser sensible a información de control obtenida de la señal de entrada. Los dispositivos ilustrados en las figuras 1 y 2 muestran bancos de filtros para las tes subbandas de frecuencia. Muchas más subbandas se usan en una implementación típica, pero únicamente se muestran tres por claridad de la ilustración. Ningún número particular es importante para la presente invención. Los bancos de filtros de análisis y síntesis pueden ser implementados esencialmente a través de cualquier transformación de bloques, incluyendo una Transformación de Fourier Discreta o una Transformación Cosenoidal Discreta (DTC) . En un sistema de codificación de audio que tiene un transmisor y un receptor como los analizados anteriormente, el banco de filtros de análisis 12 y el banco de filtros de síntesis 28 son implementados por la DCT modificada, conocidas como Transformaciones por Cancelación de Nombre Alterno en el Dominio del Tiempo (TDAC) , las cuales se describen en Princen et al., "Codificación de Subbanda/Transformación Usando Diseños de Bancos de Filtros en Base a la Cancelación de Nombre Alterno en el Dominio del Tiempo", JCASSP 1987 Conf. Proc, Mayo de 1987, pp . 2161-64. Los bancos de filtros de análisis que son implementados por transformaciones de bloques, convierten un bloque o intervalo de una señal de entrada en un conjunto de coeficientes de transformación que representan el contenido espectral de ese intervalo de la señal. Un grupo de uno o más coeficientes de transformación adyacentes representa el contenido espectral dentro de una subbanda de frecuencia particular, que tiene un ancho de banda igual al número de coeficientes en el grupo. El término "señal de subbanda" se refiere a grupos de uno o más coeficientes de transformación adyacentes, y el término "componentes espectrales" se refiere a los coeficientes de transformación. Los términos "codificador" y "codificación" usados en esta descripción se refieren a los dispositivos y métodos de procesamiento de información, que pueden ser usados para representar una señal de audio con información codificada que tiene menores requerimientos de capacidad de información que la señal de audio misma. Los términos "descodificador" y "descodificación" se refieren a dispositivos y métodos de procesamiento de información que pueden ser usados para recuperar una señal de audio a partir de la representación codificada. Dos ejemplos que pertenecen a los requerimientos reducidos de capacidad de información, son la codificación necesaria para procesar flujos de bitios compatibles con los estándares de codificación Dolby Digital y AAC, mencionados anteriormente. Ningún tipo particular de codificación o descodificación es importante para la presente invención .
B . Receptor Varios aspectos de la presente invención pueden ser llevados a cabo en un receptor que no requiera de procesamiento o información especial de un transmisor. Estos aspectos se describen primero. 1. Análisis de Características de las Señales La presente invención puede ser usada en sistemas de codificación que representen señales de audio con señales codificadas con tasas de transferencia de bitios muy bajas. La información codificada en sistemas con tasas de transferencia de bitios muy bajas típicamente conduce señales de subbanda que representan únicamente una porción de los componentes espectrales de la señal de audio. El analizador 25 examina estas señales de subbanda para obtener una o más características de la porción de la señal de audio, que esté representada por las señales de subbanda. Representaciones de la una o más características se hacen pasar al sintetizador de componentes 26 y se usan para adaptar la generación de componentes espectrales sintetizados. Varios ejemplos de características que pueden ser usadas se describen a continuación . a) Amplitud La información codificada, generada por muchos sistemas de codificación, representa componentes espectrales que han sido cuantificados en cierta longitud de bitio o resolución de cuantificación, deseada. Los componentes espectrales pequeños, que tienen magnitudes menores que el nivel representado por el bitio menos significativo (LSB) , de los componentes cuantificados , pueden ser omitidos de la información codificada o, alternativamente, representados en alguna forma que indique que el valor cuantificado es cero o que se considera como cero. El nivel correspondiente al LSB de los componentes espectrales cuantificados, que son conducidos por la información codificada, puede ser considerado una frontera superior en la magnitud de los componentes espectrales pequeños que son omitidos de la información codificada. El sintetizador de componentes 26 puede usar este nivel para limitar la amplitud de cualquier componente que sea sintetizado para reemplazar un componente espectral faltante . b) Forma Espectral La forma espectral de las señales de subbanda conducida por la información codificada se encuentra inmediatamente disponible de las señales de subbanda mismas; sin embargo, otra información acerca de la forma espectral puede ser derivada aplicando un filtro a las señales de subbanda en el dominio de la frecuencia. El filtro puede ser un filtro de predicción, un filtro de paso bajo, o esencialmente cualquier otro tipo de filtro que pueda ser deseado . Una indicación de la forma espectral o de la salida del filtro se hace pasar al sintetizador de componentes 26, según sea apropiado. Si es necesario también deberá pasarse una indicación de qué filtro se usa. c) Enmascaramiento Un modelo perceptual puede ser aplicado para estimar los efectos del enmascaramiento psicoacústico, de los componentes espectrales en las señales de subbanda. Debido a que estos efectos de enmascaramiento varían con la frecuencia, el enmascaramiento proporcionado por un primer componente espectral a una frecuencia, no proporcionará necesariamente el mismo nivel de enmascaramiento como el proporcionado por un segundo componente espectral a otra frecuencia, aun cuando el primer y segundo componentes espectrales tengan la misma amplitud. Una indicación de efectos de enmascaramiento estimados, se hace pasar al sintetizador de componentes 26, el cual controla la síntesis de componentes espectrales, de manera tal que los efectos de enmascaramiento estimados, de los componentes sintetizados, tengan una relación deseada con los efectos de enmascaramiento estimados, de los componentes espectrales, en las señales de subbanda. d) Tonalidad La tonalidad de las señales de subbanda puede ser evaluada en una variedad de formas, incluyendo el cálculo de una Medida de lo Plano del Espectro, la cual es un cociente normalizado de la media aritmética de muestras de señales de subbanda, dividida entre la media geométrica de las muestras de señales de subbanda. La tonalidad puede ser evaluada también analizando el arreglo o distribución de componentes espectrales dentro de las señales de subbanda. Por ejemplo, una señal de subbanda puede ser considerada más tonal que otra más similar a ruido si unos pocos componentes espectrales grandes están separados por intervalos largos de componentes mucho más pequeños. Todavía otra forma aplica un filtro de predicción a las señales de subbanda, para determinar la ganancia de la predicción. Una ganancia de predicción grande tiende a indicar que una señal es más tonal .
Una indicación de tonalidad se hace pasar hacia el sintetizador de componentes 26, el cual controla la síntesis de manera tal que el componente espectral sintetizado tiene un nivel de tonalidad apropiado. Esto puede hacerse formando una combinación ponderada de componentes sintetizados similares a tono y similares a ruido, a fin de conseguir el nivel de tonalidad deseado. e) Forma Temporal La forma temporal de una señal representada por señales de subbanda puede ser estimada directamente de las señales de subbanda. La base técnica para una implementación de un estimador de forma temporal puede ser explicada en términos de un sistema lineal representado por la ecuación 1. y(t) = h(t) ¦ x(t) (1) en donde y(t) = una señal que tiene una forma temporal que va a ser estimada; h(t) = la forma temporal de la señal y(t); el símbolo punto (· ) denota multiplicación; y x(t) = una versión temporalmente plana de la señal y (t) . Esta ecuación puede ser rescrita como: Y[k] = H[k] * X[k] (2) en donde Y[k] = una representación en el dominio de la frecuencia, de la señal y(t); H[k] - una representación en el dominio de la frecuencia, de h(t); el símbolo asterisco (*) denota convolución; y X[k] = una representación en el dominio de la frecuencia de la señal x(t). La representación en el dominio de la frecuencia Y[k] corresponde a una o más de las señales de subbanda obtenidas por el descodificador 24. El analizador 25 puede obtener un estimado de la representación en el dominio de la frecuencia H[k] de la forma temporal h(t) resolviendo un conjunto de ecuaciones derivado de un modelo de promedio móvil autoregresivo (ARMA), de Y[k] y X[k], Información adicional acerca del uso de modelos ARMA puede ser obtenida de Proakis y Manolakis, "Digital Signal Processing Principies, Algorithms and Applications," MacMillan Publishing Co . , New York, 1988. Ver especialmente las pp. 818-821. La representación en el dominio de la frecuencia Y[k] es arreglada en bloques de los coeficientes de transformación. Cada bloque de coeficientes de transformación expresa un espectro de corto tiempo de la señal y (t) . La representación en el dominio de la frecuencia X[k] se encuentra arreglada también en bloques. Cada bloque de coeficientes en la representación en el dominio de la frecuencia X[k] representa un bloque de muestras para la señal temporalmente plana x(t) que se asume en un amplio sentido estacionaria. También se asume que los coeficientes en cada bloque de la representación X[k] se encuentran distribuidos independientemente. Dadas estas suposiciones, las señales pueden ser expresadas por un modelo ARMA como sigue: en donde L = longitud de la porción autoregresiva del modelo ARMA; y Q = la longitud de la porción promedio móvil del modelo ARMA. La ecuación 3 puede ser resuelta para a.1 y bq resolviendo para la autocorrelación de Y[k]: en donde E{} denota la función del valor esperado. La ecuación 4 puede ser rescrita como: Rn [m] = a¡Rn [m -/]+ bgR„ [m - q] (5) en donde RYY[n] denota la autocorrelación de Y[n]; y KY[k] denota la correlación cruzada de Y[k] y X[k). Si se asume además que el sistema lineal representado por H[k] es únicamente autoregresivo, entonces el segundo término en el lado derecho de la ecuación 5 puede ser ignorado. La ecuación 5 puede ser rescrita entonces como: L RYY ['"] = -?a?&?? ["' ~ t] par m > 0 (6) la cual representa un conjunto de L ecuaciones lineales que pueden ser resueltas para obtener los L coeficientes a±. Con esta explicación, ahora es posible describir una implementación de un estimador de la forma temporal, que usa técnicas del dominio de la frecuencia. En esta implementación, el estimador de la forma temporal recibe la representación del dominio de la frecuencia Y[k] de una o más señales de subbanda y(t) y calcula la secuencia de autocorrelación RYY[m] para -L m = L. Estos valores se usan para establecer un conjunto de ecuaciones lineales que son resueltas para obtener los coeficientes ai, que representan los polos de un filtro de todos los polos lineales FR mostrado abajo en la ecuación 7.
Este filtro puede ser aplicado a la representación en el dominio de la frecuencia, de una señal temporalmente plana, arbitraria, tal como una señal de tipo ruido, para obtener una representación en el dominio de la frecuencia, de una versión de esa señal temporalmente plana, que tiene una forma temporal substancialmente igual a la forma temporal de la señal y (t) . Una descripción de los polos del filtro FR puede hacerse pasar al sintetizador de componentes 26, que puede usar el filtro para generar componentes espectrales sintetizados, que representen una señal que tenga la forma temporal deseada. 2. Generación de Componentes Sintetizados El sintetizador de componentes 26 puede generar los componentes espectrales sintetizados en una variedad de formas. A continuación se describen dos formas. Se pueden usar múltiples formas. Por ejemplo, se pueden seleccionar diferentes formas en respuesta a características derivadas de las señales de subbanda o como una función de la frecuencia. üna primera forma genera una señal similar a ruido. Por ejemplo, esencialmente cualquiera de una amplia variedad de técnicas en el dominio del tiempo y en el dominio de la frecuencia, pueden ser usadas para generar señales similares a ruido. Una segunda forma usa una técnica en el dominio de la frecuencia, llamada traslación espectral o replicación espectral, que copia componentes espectrales de una o más bandas secundarias de frecuencia. Los componentes espectrales de menor frecuencia son copiados usualmente a mayores frecuencias porque los componentes de mayor frecuencia están relacionados a menudo, en alguna manera, con los componentes de menor frecuencia. En principio, no obstante, los componentes espectrales pueden ser copiados a mayores o menores frecuencias. Si se desea, se puede adicionar o mezclar ruido con los componentes trasladados y la amplitud puede ser modificada según se desee. Preferentemente se realizan ajustes, según sea necesario, para eliminar o al menos reducir discontinuidades en la fase de los componentes sintetizados . La síntesis de componentes espectrales es controlada por información recibida del analizador 25, de manera tal que los componentes sintetizados tengan una o más características obtenidas de las señales de subbanda. 3. Integración de Componentes de Señales Los componentes espectrales sintetizados pueden ser integrados con los componentes espectrales de la señal de subbanda en una variedad de formas. Una forma usa los componentes sintetizados como una forma combinando componentes de subbanda y sintetizados, respectivos, que representan frecuencias correspondientes. Otra forma substituye uno o más componentes sintetizados para componentes espectrales seleccionados, que estén presentes en las señales de subbanda. Todavía otra forma combina componentes sintetizados con componentes de las señales de subbanda, para representar componentes espectrales que no estén presentes en las señales de subbanda. Estas y otras formas pueden ser usadas en varias combinaciones.
C . Transmisor Aspectos de la presente invención descritos anteriormente pueden ser llevados a cabo en un receptor, sin requerir que el transmisor proporcione alguna información de control más allá de la que sea necesaria para que un receptor reciba y descodifique las señales de subbanda sin características de la presente invención. Estos aspectos de la presente invención pueden ser mejorados si se proporciona información de control adicional. A continuación se analiza un ejemplo. El grado en el cual se aplique la formación temporal, a los componentes sintetizados, puede ser adaptado por la información de control proporcionada en la información codificada. Una forma en la que se puede hacer esto es mediante el uso de un parámetro ß como se muestra en la siguiente ecuación.
FR() = -J para o = p = i . .
El filtro no proporciona formación temporal cuando ß = 0. Cuando ß = 1, el filtro proporciona un grado de formación temporal, de manera tal que la correlación entre la forma temporal de los componentes sintetizados y la forma temporal de las señales de subbanda sea máxima. Otros valores para ß proporcionan niveles intermedios de formación temporal. En una implementación, el transmisor proporciona información de control que permite al receptor fijar ß en uno de ocho valores. El transmisor puede proporcionar otra información de control que puede usar el receptor para adaptar el proceso de síntesis de componentes en cualquier forma que pueda desearse .
D . Implementación Varios aspectos de la presente invención pueden ser implementados en una amplia variedad de formas, incluyendo software en un sistema de computadora de propósito general o en algún otro aparato que incluya componentes más especializados tales como circuitos de procesador de señales digitales (DSP) conectados a componentes similares a aquellos encontrados en un sistema de computadora de propósito general. La figura 3 es un diagrama de bloques del dispositivo 70, que puede ser usado para implementar varios aspectos de la presente invención en un transmisor o receptor. El DSP 72 proporciona recursos de cómputo. La RAM 73 es la memoria de acceso aleatorio (RAM) del sistema, usada por el DSP 72 para el procesamiento de señales. La ROM 74 representa alguna forma de almacenamiento persistente tal como una memoria únicamente de lectura (ROM) para almacenar programas necesarios para hacer funcionar el dispositivo 70 y para llevar a cabo varios aspectos de la presente invención. Control I/O 75 representa circuitos de inferíase para recibir y transmitir señales mediante canales de comunicación 76, 77. Los convertidores de analógico a digital y de digital a analógico pueden estar incluidos en el control 1/0 75 según se desee, para recibir y/o transmitir señales de audio analógicas. En la modalidad mostrada todos los componentes principales del sistema se conectan al bus 71, el cual puede representar más de un bus físico; sin embargo no se requiere de una arquitectura de bus para implementar la presente invención. En modalidades implementadas en un sistema de computadora de propósito general, componentes adicionales pueden ser incluidos para la interconexión con dispositivos tales como un teclado o ratón y una pantalla, y para controlar un dispositivo de almacenamiento que tenga un medio de almacenamiento tal como una cinta o disco magnético, o un medio óptico. El medio de almacenamiento puede ser usado para registrar programas de instrucciones para sistemas operativos, utilidades y aplicaciones, y puede incluir modalidades de programas que implementen varios aspectos de la presente invención. Las funciones requeridas para llevar a la práctica varios aspectos de la presente invención pueden ser llevadas a cabo por componentes que sean implementados en una amplia variedad de formas que incluyen componentes lógicos discretos, uno o más ASICs y/o procesadores controlados por programas. La manera en la que se implementen estos componentes no es importante para la presente invención. Implementaciones en software de la presente invención pueden ser portadas por una variedad de medios legibles en máquinas, tales como rutas de comunicaciones de banda de base o modulada, a través del espectro, que incluyan frecuencias desde supersónicas hasta ultravioletas, o medios de almacenamiento que incluyan aquellos que porten información usando esencialmente cualquier tecnología de registro magnésica y óptica, incluyendo cinta magnética, disco magnético, y disco óptico. Varios aspectos pueden ser implementados en varios componentes del sistema de computadoras 70 por circuitos de procesamiento tales como ASICs, circuitos integrados de propósito general, microprocesadores controlados por programas incorporados en varias formas de ROM o RAM, y otras técnicas.

Claims (30)

  1. REIVINDICACIONES 1. Un método para procesar información de audio codificada, caracterizado porque el método comprende: recibir la información de audio codificada y obtener de la misma señales de subbanda que representen parte, pero no todo, el contenido espectral de una señal de audio; examinar las señales de subbanda para obtener una característica de la señal de audio; generar componentes espectrales sintetizados que tengan la característica de la señal de audio; integrar los componentes espectrales sintetizados con las señales de subbanda para generar un conjunto de señales de subbanda modificadas; y, generar la información de audio aplicando un banco de filtros de síntesis para fijar las señales de subbanda modificadas.
  2. 2. El método de conformidad con la reivindicación 1, caracterizado porque la característica es la forma temporal y el método genera los componentes espectrales sintetizados para tener la forma temporal generando componentes espectrales y convolucionando los componentes espectrales generados con una representación en el dominio de la frecuencia de la forma temporal.
  3. 3. El método de conformidad con la reivindicación 1, caracterizado porque obtiene la forma temporal calculando una función de autocorrelación de al menos algunos de los componentes de las señales de subbanda.
  4. 4. El método de conformidad con la reivindicación 1, caracterizado porque la característica es la forma temporal y el método genera los componentes espectrales sintetizados para que tengan la forma temporal, generando componentes espectrales y aplicando un filtro a al menos algunos de los componentes espectrales generados.
  5. 5. El método de conformidad con la reivindicación 4, caracterizado porque obtiene información de control a partir de la información codificada y adapta el filtro en respuesta a la información de control.
  6. 6. El método de conformidad con la reivindicación 1, caracterizado porque genera el conjunto de señales de subbanda modificadas, combinando los componentes espectrales sintetizados, con componentes de las señales de subbanda.
  7. 7. El método de conformidad con la reivindicación 1, caracterizado porque genera el conjunto de señales de subbanda modificadas, combinando los componentes espectrales sintetizados, con componentes respectivos de las señales de subbanda .
  8. 8. El método de conformidad con la reivindicación 1, caracterizado porque genera el conjunto de señales de subbanda modificadas, substituyendo los componentes espectrales sintetizados por componentes respectivos de las señales de subbanda.
  9. 9. El método de conformidad con la reivindicación 1, caracterizado porque obtiene las características de la señal de audio, examinando componentes de una o más señales de subbanda en una primera porción del espectro; genera los componentes espectrales sintetizados copiando uno o más componentes de las señales de subbanda en la primera porción del espectro, a una segunda porción del espectro, para formar señales de subbanda sintetizadas y modificar los componentes copiados, de manera tal que las señales de subbanda sintetizadas tengan las características de la señal de audio; e integra los componentes espectrales sintetizados, con las señales de subbanda, combinando las señales de subbanda sintetizadas con las señales de subbanda.
  10. 10. El método de conformidad con la reivindicación 1, caracterizado porque la característica es cualquiera del conjunto de la amplitud, forma espectral, efectos de enmascaramiento psicoacústico, tonalidad y forma temporal .
  11. 11. Un medio que es legible por un dispositivo y que porta un programa de instrucciones que pueden ser ejecutadas por el dispositivo, para ejecutar un método para procesar información de audio codificada, caracterizado porque el método comprende pasos que realizan lo siguiente: recibir la información de audio codificada y obtener de la misma señales de subbanda que representen parte, pero no todo, el contenido espectral de una señal de audio; examinar las señales de subbanda para obtener una característica de la señal de audio; generar componentes espectrales sintetizados que tengan la característica de la señal de audio; integrar los componentes espectrales sintetizados con las señales de subbanda para generar un conjunto de señales de subbanda modificadas; y generar la información de audio aplicando un banco de filtros de síntesis al conjunto de señales de subbanda modificadas.
  12. 12. El medio de conformidad con la reivindicación 11, caracterizado porque la característica es la forma temporal y el método genera los componentes espectrales sintetizados para que tengan la forma temporal generando componentes espectrales y convolucionando los componentes espectrales generados con una representación en el dominio de la frecuencia de la forma temporal.
  13. 13. El medio de conformidad con la reivindicación 11, caracterizado porque el método obtiene la forma temporal calculando una función de correlación de al menos algunos componentes de las señales de subbanda.
  14. 14. El medio de conformidad con la reivindicación 11, caracterizado porque la característica es la forma temporal y el método genera los componentes espectrales sintetizados para que tengan la forma temporal, generando componentes espectrales y aplicando un filtro a al menos algunos de los componentes espectrales generados.
  15. 15. El medio de conformidad con la reivindicación 14, caracterizado porque el método obtiene información de control de la información codificada y adapta el filtro en respuesta a la información de control.
  16. 16. El medio de conformidad con la reivindicación 11, caracterizado porque el método genera el conjunto de señales de subbanda modificadas, combinando los componentes espectrales sintetizados, con componentes de las señales de subbanda .
  17. 17. El medio de conformidad con la reivindicación 11, caracterizado porque el método genera el conjunto de señales de subbanda modificadas, combinando los componentes espectrales sintetizados, con componentes de las señales de subbanda, respectivos.
  18. 18. El medio de conformidad con la reivindicación 11, caracterizado porque el método genera el conjunto de señales de subbanda modificadas, substituyendo los componentes espectrales sintetizados, por componentes de las señales de subbanda, respectivos.
  19. 19. El medio de conformidad con la reivindicación 11, caracterizado porque el método: obtiene las características de la señal de audio examinando componentes de una o más señales de subbanda en una primera porción del espectro; genera los componentes espectrales sintetizados, copiando uno o más componentes de las señales de subbanda en la primera porción del espectro, en una segunda porción del espectro, para formar señales de subbanda sintetizadas y modificar los componentes copiados, de manera tal que las señales de subbanda sintetizadas tengan la característica de la señal de audio; e integra los componentes espectrales sintetizados con las señales de subbanda, combinando las señales de subbanda sintetizadas, con las señales de subbanda .
  20. 20. El medio de conformidad con la reivindicación 11, caracterizado porque la característica es cualesquiera del conjunto de la amplitud, forma espectral, efectos de enmascaramiento psicoacústico, tonalidad y forma temporal.
  21. 21. Un aparato para procesar información de audio codificada, caracterizado porque el aparato comprende: una terminal de entrada que recibe la información de audio codificada; una memoria; y circuitos de procesamiento conectados a la terminal de entrada y a la memoria; en donde los circuitos de procesamiento están adaptados para: recibir la información de audio codificada y obtener de la misma señales de subbanda que representen parte, pero no todo, el contenido espectral de una señal de audio; examinar las señales de subbanda para obtener una característica de la señal de audio; generar componentes espectrales sintetizados que tengan la característica de la señal de audio; integrar los componentes espectrales sintetizados con las señales de subbanda para generar un conjunto de señales de subbanda modificadas; y, generar la información de audio aplicando un banco de filtros de síntesis para fijar las señales de subbanda modificadas.
  22. 22. El aparato de conformidad con la reivindicación 21, caracterizado porque la característica es la forma temporal y los circuitos de procesamiento están adaptados para generar los componentes espectrales sintetizados para que tengan la forma temporal, generando componentes espectrales y convolucionando los componentes espectrales generados, con una representación en el dominio de la frecuencia, de la forma temporal.
  23. 23. El aparato de conformidad con la reivindicación 21, caracterizado porque los circuitos de procesamiento están adaptados para obtener la forma temporal calculando una función de autocorrelacion de al menos algunos de los componentes de las señales de subbanda.
  24. 24. El aparato de conformidad con la reivindicación 21, caracterizado porque la característica es la forma temporal y los circuitos de procesamiento están adaptados para generar los componentes espectrales sintetizados, para que tengan la forma temporal generando componentes espectrales y aplicando un filtro al menos a algunos de los componentes espectrales generados.
  25. 25. El aparato de conformidad con la reivindicación 24, caracterizado porque los circuitos de procesamiento están adaptados para obtener información de control de la información codificada y adaptar el filtro en respuesta a la información de control.
  26. 26. El aparato de conformidad con la reivindicación 21, caracterizado porque los circuitos de procesamiento están adaptados para generar el conjunto de señales de subbanda, modificadas, combinando los componentes espectrales sintetizados, con componentes de las señales de subbanda .
  27. 27. El aparato de conformidad con la reivindicación 21, caracterizado porque ios circuitos de porcesamiento están adaptados para generar el conjunto de señales de subbanda modificadas, combinando los componentes espectrales sintetizados, con componentes respectivos de las señales de subbanda.
  28. 28. El aparato de conformidad con la reivindicación 21, caracterizado porque los circuitos de procesamiento están adaptados para generar el conjunto de señales de subbanda modificadas, substituyendo los componentes espectrales sintetizados, por componentes de señales de subbanda, respectivos.
  29. 29. El aparato de conformidad con la reivindicación 21, caracterizado porque los circuitos de procesamiento están adaptados para obtener las características de la señal de audio, examinando componentes de una o más señales de subbanda, en una primera porción del espectro; generar los componentes espectrales sintetizados copiando uno o más componentes de las señales de subbanda en la primera porción del espectro, a una segunda porción del espectro, para formar señales de subbanda sintetizadas y modificar los componentes copiados, de manera tal que las señales de subbanda sintetizadas tengan las características de la señal de audio; e integrar los componentes espectrales sintetizados, con las señales de subbanda, combinando las señales de subbanda sintetizadas, con las señales de subbanda .
  30. 30. El aparato de conformidad con la reivindicación 21, caracterizado porque la característica es cualesquiera del conjunto de la amplitud, forma espectral, efectos de enmascaramiento psicoacústico, tonalidad y forma temporal .
MXPA04012540A 2002-06-17 2003-06-09 Sistema de codificacion de audio que usa caracteristicas de una senal descodificada para adaptar componentes espectrales sintetizados. MXPA04012540A (es)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US10/174,493 US7447631B2 (en) 2002-06-17 2002-06-17 Audio coding system using spectral hole filling
US10/238,047 US7337118B2 (en) 2002-06-17 2002-09-06 Audio coding system using characteristics of a decoded signal to adapt synthesized spectral components
PCT/US2003/018065 WO2003107329A1 (en) 2002-06-01 2003-06-09 Audio coding system using characteristics of a decoded signal to adapt synthesized spectral components

Publications (1)

Publication Number Publication Date
MXPA04012540A true MXPA04012540A (es) 2005-04-28

Family

ID=29738991

Family Applications (1)

Application Number Title Priority Date Filing Date
MXPA04012540A MXPA04012540A (es) 2002-06-17 2003-06-09 Sistema de codificacion de audio que usa caracteristicas de una senal descodificada para adaptar componentes espectrales sintetizados.

Country Status (10)

Country Link
US (1) US20080140405A1 (es)
EP (1) EP1514263B1 (es)
JP (1) JP2005530206A (es)
CN (1) CN1310210C (es)
AU (1) AU2003243441C1 (es)
CA (1) CA2489443C (es)
MX (1) MXPA04012540A (es)
PL (1) PL207861B1 (es)
TW (1) TWI288915B (es)
WO (1) WO2003107329A1 (es)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7555434B2 (en) 2002-07-19 2009-06-30 Nec Corporation Audio decoding device, decoding method, and program
US7774707B2 (en) * 2004-12-01 2010-08-10 Creative Technology Ltd Method and apparatus for enabling a user to amend an audio file
US8392176B2 (en) * 2006-04-10 2013-03-05 Qualcomm Incorporated Processing of excitation in audio coding and decoding
US8060363B2 (en) * 2007-02-13 2011-11-15 Nokia Corporation Audio signal encoding
US8428957B2 (en) 2007-08-24 2013-04-23 Qualcomm Incorporated Spectral noise shaping in audio coding based on spectral dynamics in frequency sub-bands
ES2858423T3 (es) * 2007-08-27 2021-09-30 Ericsson Telefon Ab L M Método y dispositivo para el llenado de huecos espectrales
MY154452A (en) 2008-07-11 2015-06-15 Fraunhofer Ges Forschung An apparatus and a method for decoding an encoded audio signal
KR101400535B1 (ko) 2008-07-11 2014-05-28 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 시간 워프 활성 신호의 제공 및 이를 이용한 오디오 신호의 인코딩
EP2239732A1 (en) * 2009-04-09 2010-10-13 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for generating a synthesis audio signal and for encoding an audio signal
RU2452044C1 (ru) 2009-04-02 2012-05-27 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Устройство, способ и носитель с программным кодом для генерирования представления сигнала с расширенным диапазоном частот на основе представления входного сигнала с использованием сочетания гармонического расширения диапазона частот и негармонического расширения диапазона частот
CO6440537A2 (es) 2009-04-09 2012-05-15 Fraunhofer Ges Forschung Aparato y metodo para generar una señal de audio de sintesis y para codificar una señal de audio
CN101556799B (zh) 2009-05-14 2013-08-28 华为技术有限公司 一种音频解码方法和音频解码器
EP2489036B1 (en) 2009-10-12 2015-04-15 Nokia Technologies OY Method, apparatus and computer program for processing multi-channel audio signals
MY164396A (en) 2010-01-19 2017-12-15 Dolby Int Ab Subband block based harmonic transposition
US8924222B2 (en) 2010-07-30 2014-12-30 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for coding of harmonic signals
US9208792B2 (en) * 2010-08-17 2015-12-08 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for noise injection
EP3288033B1 (en) * 2012-02-23 2019-04-10 Dolby International AB Methods and systems for efficient recovery of high frequency audio content
JP6200034B2 (ja) * 2012-04-27 2017-09-20 株式会社Nttドコモ 音声復号装置
US9607602B2 (en) 2013-09-06 2017-03-28 Apple Inc. ANC system with SPL-controlled output
US10090005B2 (en) * 2016-03-10 2018-10-02 Aspinity, Inc. Analog voice activity detection
CN113053351B (zh) * 2021-03-14 2024-01-30 西北工业大学 一种基于听觉感知的飞机舱内噪声合成方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0551705A3 (en) * 1992-01-15 1993-08-18 Ericsson Ge Mobile Communications Inc. Method for subbandcoding using synthetic filler signals for non transmitted subbands
JP2563719B2 (ja) * 1992-03-11 1996-12-18 技術研究組合医療福祉機器研究所 音声加工装置と補聴器
US5623577A (en) * 1993-07-16 1997-04-22 Dolby Laboratories Licensing Corporation Computationally efficient adaptive bit allocation for encoding method and apparatus with allowance for decoder spectral distortions
JPH07225598A (ja) * 1993-09-22 1995-08-22 Massachusetts Inst Of Technol <Mit> 動的に決定された臨界帯域を用いる音響コード化の方法および装置
JP3254953B2 (ja) * 1995-02-17 2002-02-12 日本ビクター株式会社 音声高能率符号化装置
EP0878790A1 (en) * 1997-05-15 1998-11-18 Hewlett-Packard Company Voice coding system and method
SE512719C2 (sv) * 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
SE9903553D0 (sv) * 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
SE0001926D0 (sv) * 2000-05-23 2000-05-23 Lars Liljeryd Improved spectral translation/folding in the subband domain
JP3538122B2 (ja) * 2000-06-14 2004-06-14 株式会社ケンウッド 周波数補間装置、周波数補間方法及び記録媒体

Also Published As

Publication number Publication date
AU2003243441C1 (en) 2009-07-30
WO2003107329A1 (en) 2003-12-24
EP1514263B1 (en) 2010-06-02
CN1662960A (zh) 2005-08-31
PL207861B1 (pl) 2011-02-28
EP1514263A1 (en) 2005-03-16
CN1310210C (zh) 2007-04-11
TWI288915B (en) 2007-10-21
CA2489443A1 (en) 2003-12-24
JP2005530206A (ja) 2005-10-06
US20080140405A1 (en) 2008-06-12
TW200400487A (en) 2004-01-01
CA2489443C (en) 2012-04-10
AU2003243441B2 (en) 2008-12-11
AU2003243441A1 (en) 2003-12-31
PL371898A1 (en) 2005-07-11

Similar Documents

Publication Publication Date Title
CA2736065C (en) Audio coding system using characteristics of a decoded signal to adapt synthesized spectral components
US20080140405A1 (en) Audio coding system using characteristics of a decoded signal to adapt synthesized spectral components
US7194407B2 (en) Audio coding method and apparatus
MXPA05000653A (es) Codificacion de audio de baja tasa de transferencia de bitios.
WO2009029035A1 (en) Improved transform coding of speech and audio signals
US20090319278A1 (en) Efficient coding of overcomplete representations of audio using the modulated complex lapped transform (mclt)
US6995699B2 (en) Encoding method, and encoding apparatus, and decoding method and decoding apparatus
Singh et al. Audio watermarking based on quantization index modulation using combined perceptual masking
Spanias et al. Analysis of the MPEG-1 Layer III (MP3) Algorithm using MATLAB
IL165648A (en) An audio coding system that uses decoded signal properties to coordinate synthesized spectral components
IL216068A (en) An audio broadcast system that uses decoded signal properties to coordinate synthesized spectral components

Legal Events

Date Code Title Description
FG Grant or registration