MX2008013500A - Mejoramiento de audio con capacidad de remezclado. - Google Patents

Mejoramiento de audio con capacidad de remezclado.

Info

Publication number
MX2008013500A
MX2008013500A MX2008013500A MX2008013500A MX2008013500A MX 2008013500 A MX2008013500 A MX 2008013500A MX 2008013500 A MX2008013500 A MX 2008013500A MX 2008013500 A MX2008013500 A MX 2008013500A MX 2008013500 A MX2008013500 A MX 2008013500A
Authority
MX
Mexico
Prior art keywords
audio signal
subband
secondary information
signal
signals
Prior art date
Application number
MX2008013500A
Other languages
English (en)
Inventor
Christof Faller
Hyen O Oh
Yang Won Jung
Original Assignee
Lg Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=36609240&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=MX2008013500(A) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Lg Electronics Inc filed Critical Lg Electronics Inc
Publication of MX2008013500A publication Critical patent/MX2008013500A/es

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0018Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Abstract

Uno o más atributos (por ejemplo, panorámica, ganancia, etc.) asociados con uno o más objetos (por ejemplo, un instrumento) de una señal de audio de canal múltiple o estereofónico pueden modificarse para proporcionar capacidad de remezclado.

Description

MEJORAMIENTO DE AUDIO CON CAPACIDAD DE REMEZCLADO SOLICITUDES RELACIONADAS Esta solicitud reclama el beneficio de prioridad de la Solicitud de Patente Europea No. EP06113521, para "Mejoramiento de Audio estereofónico con Capacidad de Remezclado" , presentada el 4 de mayo de 2006, cuya solicitud se incorpora en su totalidad en la presente para referencia. Esta solicitud reclama el beneficio de prioridad de la Solicitud de Patente Provisional Norteamericana No. 60/829,350, para "Mejoramiento de Audio estereofónico con Capacidad de Remezclado" , presentada el 13 de octubre de 2006, cuya solicitud se incorpora en su totalidad en la presente para referencia. Esta solicitud reclama el beneficio de prioridad de la Solicitud de Patente Provisional Norteamericana No. 60/884,594, para "Volumen de Diálogo Separado", presentada el 11 de enero de 2007, cuya solicitud se incorpora en su totalidad en la presente para referencia. Esta solicitud reclama el beneficio de prioridad de la Solicitud de Patente Provisional Norteamericana No. 60/885,742, para "Mejoramiento de Audio Estereofónico con Capacidad de Remezclado", presentada el 19 de enero de 2007, cuya solicitud se incorpora en su totalidad en la presente para referencia. Esta solicitud reclama el beneficio de prioridad de la Solicitud de Patente Provisional Norteamericana No. 60/888,413, para "Reproducción de Señal Basada en Objeto", presentada el 6 de febrero de 2007, cuya solicitud se incorpora en su totalidad en la presente para referencia. Esta solicitud reclama el beneficio de prioridad de la Solicitud de Patente Provisional Norteamericana No. 60/894,162, para "Secuencia de bits e Información Secundaria para SAOC/Remezclado" , presentada el 9 de marzo de 2007, cuya solicitud se incorpora en su totalidad en la presente para referencia.
CAMPO TÉCNICO El asunto de esta solicitud en general se refiere al procesamiento de señales de audio .
ANTECEDENTES Muchos dispositivos de audio de consumo (por ejemplo, estereofónicos , reproductores de medios, teléfonos móviles, consolas de juegos, etc.) permiten que los usuarios modifiquen las señales de audio estereofónico mediante el uso de controles para ecualización (por ejemplo, graves, agudos) , volumen, efectos de acústica de sala, etc. Sin embargo, estas modificaciones se aplican a toda la señal de audio y no a los objetos de audio individuales (por ejemplo, instrumentos) que producen la señal de audio. Por ejemplo, un usuario no puede modificar en forma individual la panorámica estereofónica o amplificación de guitarras, baterías o vocales en una canción sin afectar toda la canción. Se han propuesto técnicas que proporcionan flexibilidad de mezclado en un descodificador . Estas técnicas dependen de una Codificación Binaural de la Señal (BCC) , descodificador de audio espacial o paramétrico para generar una señal de salida del descodificador mezclada. Sin embargo, ninguna de estas técnicas codifica directamente mezclas estereofónicas (por ejemplo, música mezclada en forma profesional) para permitir la compatibilidad hacia atrás sin comprometer la calidad del sonido. Se han propuesto técnicas espaciales de codificación de audio para representar canales de audio de canal múltiple o estereofónico mediante el uso de señales de intercanal (por ejemplo, diferencia de nivel, diferencia de tiempo, diferencia de fase, coherencia) . Las señales de intercanal se transmiten como "información secundaria" a un descodificador para su uso al generar una señal de salida de canal múltiple. Sin embargo, estas técnicas espaciales de codificación de audio convencionales tienen varias deficiencias. Por ejemplo, por lo menos algunas de estas técnicas requieren una señal separada para cada objeto de audio que se transmitirá al descodificador, aun si el objeto de audio no se modifica en el descodificador . Tal requerimiento da como resultado un procesamiento innecesario en el codificador y en el descodificador . Otra deficiencia es la limitación de la entrada del codificador ya sea a una señal de audio estereofónico (o de canal múltiple) o a una señal fuente de audio, dando como resultado la flexibilidad reducida para el remezclado en el descodificador . Finalmente, por lo menos algunas de estas técnicas convencionales requieren un procesamiento complejo de descorrelación en el descodificador, haciendo que tales técnicas sean poco adecuadas para algunas aplicaciones o dispositivos.
COMPENDIO DE LA INVENCIÓN Uno o más atributos (por ejemplo, panorámica, amplificación, etc.) asociados con uno o más objetos (por ejemplo, un instrumento) de una señal de audio de canal múltiple o estereofónico pueden modificarse para proporcionar una capacidad de remezclado. En algunas aplicaciones, un método incluye: obtener una primera señal de audio de canal múltiple que tiene un conjunto de objetos; obtener información secundaria, por lo menos parte de la cual representa una relación entre la primera señal de audio de canal múltiple y una o más señales fuente que representan los objetos que se volverán a mezclar; obtener un conjunto de parámetros de mezclado; y generar una segunda señal de audio de canal múltiple mediante el uso de la información secundaria y el conjunto de parámetros de mezclado . En algunas aplicaciones, un método incluye: obtener una señal de audio que tiene un conjunto de objetos; obtener un subconjunto de señales fuente que representan un subconjunto de los objetos; y generar información secundaria a partir del subconjunto de señales fuente, por lo menos parte de la información secundaria representa una relación entre la señal de audio y el subconjunto de las señales fuente. En algunas aplicaciones, un método incluye: obtener una señal de audio de canal múltiple; determinar factores de ganancia para un conjunto de señales fuente mediante el uso de diferentes niveles fuente deseada que representen direcciones de sonido deseadas del conjunto de señales fuente en una etapa de sonido; estimar una energía de sub-banda para una dirección de sonido directo del conjunto de señales fuente mediante el uso de la señal de audio de canal múltiple; y estimar energías de sub-banda para por lo menos algunas de las señales fuente en el conjunto de señales fuente al modificar la energía de sub-banda para la dirección de sonido directo como una función de la dirección de sonido directo y una dirección de sonido deseada. En algunas aplicaciones, un método incluye: obtener una señal de audio mezclada; obtener un conjunto de parámetros de mezclado para volver a mezclar la señal de audio mezclada; si la información secundaria se encuentra disponible, volver a mezclar la señal de audio mezclada mediante el uso de la información secundaria y el conjunto de parámetros de mezclado; si la información secundaria no se encuentra disponible, generar un conjunto de parámetros sin salida a partir de la señal de audio mezclada; y generar una señal de audio remezclada mediante el uso de los parámetros sin salida y del conjunto de parámetros de mezclado. En algunas aplicaciones, un método incluye: obtener una señal de audio mezclada que incluya señales fuente vocales; obtener parámetros de mezclado que especifiquen un mejoramiento deseado para una o más de las señales fuente vocales; generar un conjunto de parámetros sin salida a partir de la señal de audio mezclada; generar parámetros a partir de los parámetros sin salida y de los parámetros de mezclado; y aplicar los parámetros a la señal mezclada para mejorar una o más de las señales fuente vocales de acuerdo con los parámetros de mezclado. En algunas aplicaciones, un método incluye: generar una interfaz de usuario para recibir parámetros de mezclado que especifican la entrada; obtener un parámetro de mezclado a través de la interfaz de usuario; obtener una primera señal de audio que incluya señales fuente; obtener información secundaria por lo menos parte de la cual representa una relación entre la primera señal de audio y una o más señales fuente; y volver a mezclar una o más de las señales fuente mediante el uso de la información secundaria y el parámetro de mezclado para generar una segunda señal de audio. En algunas aplicaciones, un método incluye: obtener una primera señal de audio de canal múltiple que tiene un conjunto de objetos; obtener información secundaria, por lo menos parte de la cual representa una relación entre la primera señal de audio de canal múltiple y una o más señales fuente que representan un subconjunto de objetos que se volverán a mezclar; obtener un conjunto de parámetros de mezclado; y generar una segunda señal de audio de canal múltiple mediante el uso de la información secundaria y el conjunto de parámetros de mezclado. En algunas aplicaciones, un método incluye: Obtener una señal de audio mezclada; obtener un conjunto de parámetros de mezclado para volver a mezclar la señal de audio mezclada; generar parámetros de remezclado mediante el uso de la señal de audio mezclada y el conjunto de parámetros de mezclado; y generar una señal de audio remezclada al aplicar los parámetros de remezclado a la señal de audio mezclada mediante el uso de una matriz de n por n. Otras aplicaciones se describen para el mejoramiento de audio con capacidad de remezclado, incluyendo aplicaciones dirigidas a sistemas, métodos, aparatos, medios legibles por computadora e interfaces de usuario.
DESCRIPCIÓN DE LOS DIBUJOS La FIGURA 1A es un diagrama de bloques de una aplicación de un sistema de codificación para codificar una señal estereofónica más M señales fuente que corresponden con objetos que se volverán a mezclar en un descodificador . La FIGURA IB es un diagrama de flujo de una aplicación de un proceso para codificar una señal estereofónica más M señales fuente que corresponden con objetos que se volverán a mezclar en un descodificador . La FIGURA 2 ilustra una representación gráfica de tiempo- frecuencia para analizar y procesar una señal estereofónica y M señales fuente. La FIGURA 3A es un diagrama de bloques de una aplicación de un sistema de remezclado para estimar una señal estereofónica remezclada mediante el uso de una señal estereofónica original más información secundaria. La FIGURA 3B es un diagrama de flujo de una aplicación de un proceso para estimar una señal estereofónica remezclada mediante el uso del sistema de remezclado de la FIGURA 3A. La FIGURA 4 ilustra índices i de coeficientes de la Transformada de Fourier de tiempo corto (STFT) que pertenecen a una división con índice b.
La FIGURA 5 ilustra el agrupamiento de coeficientes espectrales de un espectro de la STFT uniforme para copiar una resolución de frecuencia no uniforme de un sistema auditivo humano. La FIGURA 6A es un diagrama de bloques de una aplicación del sistema de codificación de la FIGURA 1 combinado con un codificador de audio estereofónico convencional . La FIGURA 6B es un diagrama de flujo de una aplicación de un proceso de codificación que utiliza el sistema de codificación de la FIGURA 1A combinado con un codificador de audio estereofónico convencional. La FIGURA 7A es un diagrama de bloques de una aplicación del sistema de remezclado de la FIGURA 3A combinado con un descodificador de audio estereofónico convencional . La FIGURA 7B es un diagrama de flujo de una aplicación de un proceso de remezclado que utiliza el sistema de remezclado de la FIGURA 7A combinado con un descodificador de audio estereofónico . La FIGURA 8A es un diagrama de bloques de una aplicación de un sistema de codificación que pone en práctica la generación de información secundaria totalmente sin salida . La FIGURA 8B es un diagrama de flujo de una aplicación de un proceso de codificación que utiliza el sistema de codificación de la FIGURA 8A. La FIGURA 9 ilustra una función de ganancia ejemplar, f (M) , para una diferencia de nivel fuente deseada, Li=LdB . La FIGURA 10 es un diagrama de una aplicación de un proceso de generación de información secundaria que utiliza una técnica de generación parcialmente sin salida. La FIGURA 11 es un diagrama de bloques de una aplicación de una arquitectura de cliente/servidor para proporcionar señales estereofónicas y M señales fuente y/o información secundaria a dispositivos de audio con capacidad de remezclado. La FIGURA 12 ilustra una aplicación de una interfaz de usuario para un reproductor de medios con capacidad de remezclado . La FIGURA 13 ilustra una aplicación de un sistema de descodificación que combina la descodificación de objeto de audio espacial (SAOC) y la descodificación de remezclado. La FIGURA 14A ilustra un modelo de mezclado general para Volumen de Diálogo Separado (SDV) . La FIGURA 14B ilustra una aplicación de un sistema que combina SDV y tecnología de remezclado. La FIGURA 15 ilustra una aplicación del dispositivo de presentación de mezclado de ec mostrado en la FIGURA 14B.
La FIGURA 16 ilustra una aplicación de un sistema de distribución para la tecnología de remezclado descrita en referencia a las FIGURAS 1-15. La FIGURA 17A ilustra elementos de diversas aplicaciones de secuencias de bits para proporcionar información de remezclado. La FIGURA 17B ilustra una aplicación de una interfaz de codificación de remezclado para generar las secuencias de bits ilustradas en la FIGURA 17A. La FIGURA 17C ilustra una aplicación de una interfaz de descodificación de remezclado para recibir las secuencias de bits generadas mediante la interfaz del codificador ilustrado en la FIGURA 17B. La FIGURA 18 es un diagrama de bloques de una aplicación de un sistema, incluyendo extensiones para generar información secundaria adicional para ciertas señales de objeto para proporcionar un rendimiento de remezclado mej orado . La FIGURA 19 es un diagrama de bloques de una aplicación del dispositivo de presentación de remezclado mostrado en la FIGURA 18.
DESCRIPCIÓN DETALLADA I. REMEZCLADO DE SEÑALES ESTEREOFONICAS La FIGURA 1A es un diagrama de bloques de una aplicación de un sistema 100 de codificación para codificar una señal estereofónica más M señales fuente que corresponden con objetos que se volverán a mezclar en un descodificador . En algunas aplicaciones, el sistema 100 de codificación en general incluye una disposición 102 de banco de filtros, un generador 104 de información secundaria y un codificador 106.
A. Señal Remezclada Original y Deseada Se designan los dos canales de una señal de audio estereofónico discreta en el tiempo y x\(n) xi(n) donde n es un índice de tiempo. Se asume que la señal estereofónica puede representarse como *2(")= donde I es el número de señales fuente (por ejemplo, instrumentos) que están contenidas en la señal estereofónica por ejemplo, MP3 ) y S~(n) son las señales fuente. Los factores ot± y bi determinan la ganancia y panorámica de amplitud para cada señal fuente. Se asume que todas las señales fuente son mutuamente independientes . Puede ser que no todas las señales fuente sean señales fuente puras. En cambio, algunas de las señales fuente pueden contener reverberación y/u otros componentes de señal de efecto de sonido. En algunas aplicaciones pueden introducirse retardos, dír en la señal de audio de mezclado original en [1] para facilitar la alineación en el tiempo con parámetros de remezclado: 1=1 En algunas aplicaciones, el sistema 100 de codificación proporciona o genera información (en lo sucesivo referida también como "información secundaria") para modificar una señal de audio estereofónico original (en lo sucesivo referida también como "señal estereofónica" ) , de tal manera que M señales fuente se "vuelvan a mezclar" en la señal estereofónica con diferentes factores de ganancia. La señal estereofónica modificada, deseada, puede representarse como M i r,(«) = ?c,S»+ ?a,5 ) (¾ i«l i=M*\ donde C y di son nuevos factores de ganancia (en lo sucesivo referidos también como "ganancias de mezclado" o "parámetros de mezclado") para las M señales fuente que se volverán a mezclar (es decir, señales fuente con índices 1, 2, M) . Un objetivo del sistema 100 de codificación es proporcionar o generar información para volver a mezclar una señal estereofónica dadas sólo la señal estereofónica original y una pequeña cantidad de información secundaria (por ejemplo, pequeña comparada con la información contenida en la forma de onda de la señal estereofónica) . La información secundaria proporcionada o generada mediante el sistema 100 de codificación puede utilizarse en un descodificador para copiar en forma perceptual la señal estereofónica modificada, deseada, de [2] dada la señal estereofónica original de [1] . Con el sistema 100 de codificación, el generador 104 de información secundaria genera información secundaria para volver a mezclar la señal estereofónica original y un sistema 300 descodificador (FIGURA 3A) genera la señal de audio estereofónico remezclada deseada mediante el uso de la información secundaria y de la señal estereofónica original .
B. Procesamiento del Codificador Con referencia nuevamente a la FIGURA 1A, la señal estereofónica original y las M señales fuente se proporcionan como ingresadas en la disposición 102 de banco de filtros. La señal estereofónica original también se origina directamente desde el codificador 102. En algunas aplicaciones, la señal estereofónica originada directamente desde el codificador 12 puede retardarse para sincronizarse con la secuencia de bits de la información secundaria. En otras aplicaciones, la señal estereofónica originada puede sincronizarse con la información secundaria en el descodificador . En algunas aplicaciones, el sistema 100 de codificación se adapta a estadísticas de señal como una función de tiempo y frecuencia. De este modo, para análisis y síntesis, la señal estereofónica y las M señales fuente se procesan en una representación de tiempo-frecuencia, como se describe en referencia a las FIGURAS 4 y 5. La FIGURA IB es un diagrama de flujo de una aplicación de un proceso 108 para codificar una señal estereofónica más M señales fuente que corresponden con objetos que se volverán a mezclar en un descodificador . Una señal estereofónica de entrada y M señales fuente se descomponen en sub-bandas (110) . En algunas aplicaciones, la descomposición se pone en práctica con una disposición de banco de filtros. Para cada sub-banda, los factores de ganancia se estiman para las M señales fuente (112) , como se describe más a fondo en lo siguiente. Para cada sub-banda, las estimaciones de energía de tiempo corto se calculan para las M señales fuente (114) , como se describe en lo siguiente. Los factores de ganancia estimados y energías de sub-banda pueden cuantif icarse y codificarse para generar información secundaria (116) . La FIGURA 2 ilustra una representación gráfica de tiempo- frecuencia para analizar y procesar una señal estereofónica y M señales fuente. El eje y de la gráfica representa la frecuencia y se divide en múltiples sub-bandas 202 no uniformes. El eje x representa el tiempo y se divide en intervalos 204 de tiempo. Cada uno de los cuadros punteados en la FIGURA 2 representa una sub-banda respectiva y un par de intervalos de tiempo. De este modo, para un intervalo 204 de tiempo dado, una o más sub-bandas 202 que corresponden con un intervalo 204 de tiempo pueden procesarse como un grupo 206. En algunas aplicaciones, los anchos de las sub-bandas 202 se eligen con base en limitaciones de percepción asociadas con un sistema auditivo humano, como se describe en referencia a las FIGURAS 4 y 5. En algunas aplicaciones, una señal estereofónica de entrada y M señales fuente se descomponen mediante la disposición 102 de banco de filtros en un número de sub-bandas 202. Las sub-bandas 202 en cada frecuencia central pueden procesar en forma similar. Un par de sub-bandas de las señales de audio estereofónico de entrada, en una frecuencia específica, se designa x (k) y x2(k) , donde k es el índice de tiempo muestreado en forma descendente de las señales de sub-banda. De manera similar, las señales de sub-banda correspondientes de las M señales fuente de entrada se designan sx{k) , s2(k) , sM{k) . Obsérvese que para simplicidad de notación, los índices para las sub-bandas se han omitido en este ejemplo. Con respecto al muestreo descendente, se puede utilizar las señales de sub-banda con una frecuencia de muestreo más baja para eficacia. Por lo general, los bancos de filtros y la STFT tienen, en efecto, señales submuestreadas (o coeficientes espectrales) . En algunas aplicaciones, la información secundaria necesaria para volver a mezclar una señal fuente con el índice i incluye los factores or¿ y jb¿ de ganancia en cada sub-banda, un estimado de la energía de la señal de sub-banda como una función de tiempo, E{SI2(A:) } . LOS factores <x¿ y b de ganancia pueden proporcionarse (si se conoce esta información de la señal estereofónica) o estimarse. Para muchas señales estereofónicas , CCÍ y b± son estáticas. Si ± o b± varían como una función de tiempo k, estos factores de ganancia pueden estimarse como una función de tiempo. No es necesario utilizar un promedio o estimado de la energía de sub-banda para generar información secundaria. En cambio, en algunas aplicaciones, la energía de sub-banda real Si2 puede utilizarse como un estimado de energía. En algunas aplicaciones, una energía de sub-banda de tiempo corto puede estimarse mediante el uso de un promediado unipolar, donde E{s±2 (k) } puede calcularse como E{s (*)} = as (k) + (1 - a)E{s (k - 1)} (3) donde «£[0,1] determina una constante de tiempo de una ventana de estimación exponencialmente en decadencia, y fs designa una frecuencia de muestreo de sub-banda. Un valor adecuado para T puede ser, por ejemplo, 40 milisegundos . En las siguientes ecuaciones, E{ . } por lo general designa el promediado de tiempo corto. En algunas aplicaciones, parte o toda la información secundaria <¾ y bi y E{SÍ2 (k) } pueden proporcionarse en el mismo medio que la señal estereofónica . Por ejemplo, un editor de música, estudio de grabación, músico o similares, puede proporcionar la información secundaria con la señal estereofónica correspondiente en un disco compacto (CD) , Disco de Video Digital (DVD) , unidad de memoria flash, etc. En algunas aplicaciones, parte o toda la información secundaria puede proporcionarse a través de una red (por ejemplo, Internet, Ethernet, red inalámbrica) al incorporar la información secundaria en la secuencia de bits de la señal estereofónica o al transmitir la información secundaria en una secuencia de bits separada. Si ai y bi no se proporcionan, entonces estos factores pueden estimarse. Puesto que E{s¡(n)xl(n)) = a¡E{si2(n)} i puede calcularse como a ^ £{?»*, (*)} (5) a> E{s,7(r,)} De manera similar, bi puede calcularse como b _?{ ?)?2{p)} (6) ' £{?, (?} Si < ¿ y bi son adaptables en tiempo, el operador E{ . } representa una operación de promediado de tiempo corto. Por otro lado, si los factores a y bi de ganancia son estáticos, los factores de ganancia pueden calcularse al considerar las señales de audio estereofónico en su totalidad. En algunas aplicaciones, los factores ± y bi de ganancia pueden estimarse en forma independiente para cada sub-banda. Obsérvese que en [5] y [6] las señales s± fuente son independientes; sin embargo, en general, ninguna señal s fuente y canales x1 y x2 estereofónico puesto que si está contenida en los canales ?? y x2 estereofónico . En algunas aplicaciones, los estimados de energía de tiempo corto y factores de ganancia para cada sub-banda se cuantifican y codifican mediante el codificador 106 para formar la información secundaria (por ejemplo, una secuencia de bits con velocidad binaria baja) . Obsérvese que estos valores no pueden cuantificarse y codificarse directamente, sino que, primero, pueden convertirse a otros valores más adecuados para su cuantificación y codificación, como se describe en referencia a las FIGURAS 4 y 5. En algunas aplicaciones E{si2(k)} puede normalizarse en relación con la energía de sub-banda de la señal de audio estereofónico ingresada, volviendo al sistema 100 de codificación robusto en relación con cambios cuando se utiliza un codificador de audio convencional para codificar en forma eficaz la señal de audio estereofónico, como se describe en referencia a las FIGURAS 6-1.
C. Procesamiento del Descodificador La FIGURA 3A es un diagrama de bloques de una aplicación de un sistema 300 de remezclado para estimar una señal estereofónica remezclada mediante el uso de una señal estereofónica original más información secundaria. En algunas aplicaciones, el sistema 300 de remezclado por lo general incluye una disposición 302 de banco de filtros, un descodificador 304, un módulo 306 de remezclado y una disposición 308 de banco de filtros inversa. La estimación de la señal de audio estereofónico remezclada puede realizarse en forma independiente en un número de sub-bandas. La información secundaria incluye la energía de sub-banda, E{SÍ2 {k) } y los factores de ganancia < ¿ y b± con los que las M señales fuente se contienen en la señal estereofónica . Los nuevos factores de ganancia o ganancias de mezclado de la señal estereofónica remezclada deseada se representan por c± y di. Las ganancias c¿ y di de mezclado pueden especificarse por un usuario a través de una interfaz de usuario de un dispositivo de audio tal como se describe en referencia a la FIGURA 12. En algunas aplicaciones, la señal estereofónica ingresada se descompone en sub-bandas mediante la disposición 302 de banco de filtros, en donde un par de sub-bandas en una frecuencia específica se designa Xxik) y x2(k) . Como se ilustra en la FIGURA 3A, la información secundaria se descodifica mediante el descodificador 304, produciendo para cada una de las M señales fuente que se volverán a mezclar los factores < ¿ y b± de ganancia que se encuentran contenidos en la señal estereofónica ingresada, y para cada sub-banda, un estimado de energía, E{si2(k) } . La descodificación de la información secundaria se describe en mayor detalle en referencia a las FIGURAS 4 y 5. Dada la información secundaria, se puede calcular el par de sub-bandas correspondiente de la señal de audio estereofónico remezclada mediante el módulo 306 de remezclado como una función de las ganancias C y <¾ de mezclado de la señal estereofónica remezclada. La disposición 308 de banco de filtros inversa se aplica a los pares de sub-bandas estimados para proporcionar una señal estereofónica de dominio de tiempo remezclada. La FIGURA 3B es un diagrama de flujo de una aplicación de un proceso 310 de remezclado para estimar una señal estereofónica remezclada mediante el uso del sistema de remezclado de la FIGURA 3A. Una señal estereofónica ingresada se descompone en pares de sub-bandas (312) . La información secundaria se descodifica para los pares de sub-bandas (314) . Los pares de sub-bandas se vuelven a mezclar mediante el uso de la información secundaria y de las ganancias de mezclado (318) . En algunas aplicaciones, las ganancias de mezclado se proporcionan por un usuario, como se describe en referencia a la FIGURA 12. De manera alterna, las ganancias de mezclado pueden proporcionarse en forma programática mediante una aplicación, sistema operativo o similar. Las ganancias de mezclado también pueden proporcionarse a través de una red (por ejemplo, la Internet, Ethernet, red inalámbrica) , como se describe en referencia a la FIGURA 11.
D. El Proceso de Re ezclado En algunas aplicaciones, se puede hacer una aproximación de la señal estereofónica remezclada en un sentido matemático mediante el uso de una estimación de mínimos cuadrados. De manera opcional, se pueden utilizar consideraciones de percepción para modificar la estimación. Las ecuaciones [1] y [2] también se aplican para los pares de sub-bandas xi(k) y x2(k) , e yiik) e y2(k) , respectivamente. En este caso, las señales fuente se sustituyen con las señales fuente de sub-banda, Si(k) . Un par de sub-bandas de la señal estereofónica está dado por x, (*) = ? ,*,(*) (7) x2(*) = ?V(*) y un par de sub-bandas de la señal de audio estereofónico remezclada es (8) Dado un par de sub-bandas de la señal estereofónica original, Xxik) y x2(k) , el par de sub-bandas de la señal estereofónica con diferentes ganancias se estima como una combinación lineal del par original de sub-bandas estereofónico izquierda y derecha, ?,(*) = w„(*)*,(*) + wI2(*)x2(*) (9) y2 (*) = ^21 (*)*! (*) + W22 (*)*J (*)» donde o)n(Jc) , ú)12{k) , cú2i(k) y ú)22(k) son factores reales de ponderación valorados. El error de estimación se calcula como e, = (*)- ,(*) = yt(*)-w,,(*)*,(*)- W12JC2 (*), (10) = 2(*) - w21(*)x,(*) - wnx2 (*). ß2(*) = ^(*)-?(*) Las ponderaciones O)JI (/), ??2(?:) , ?21 (k) y (ú22(k) pueden calcularse, en cada tiempo k para las sub-bandas en cada frecuencia, de tal manera que los errores cuadráticos medios, E{e12(k) } y E{e22 ik) } , se reducen al mínimo. Para calcular cú (k) y a>i2(k) , se observa que E{e!2(k) } se reduce al mínimo cuando el error ei(Jc) es ortogonal para x2{k) y x2(k) , es decir £{0? - W„ X, -w12x2)x,} = 0 (?) Obsérvese que para conveniencia de notación, se omitió el índice de tiempo k. La nueva redacción de estas ecuaciones producen E{x^}wu+E{xx2}wn = £{x,y,}, (12) E{x¡x7}w +E{x¡}wu =E{x2yl).
Los factores de ganancia son la solución de este sistema de ecuación lineal: _E{x¡}E{xiyl)-E{xlx1}E{x2yl) Aunque E{x2} , E{x22} y ?{???2) pueden estimarse directamente dado el par de sub-bandas de señal estereofónica ingresadas del descodificador , E(xiyi) y E{x2y2} pueden estimarse mediante el uso de la información secundaria {E{si2} , i,bi) y las ganancias c¿ y <¾ de la señal estereofónica remezclada, deseada: M E{X)yx } = } + ?a, (c. - o, )E{s- ), (14) E{xyx) = E{xix1) + ?bXc, i De manera similar, ?21 y ?22 se calculan, dando como resultado E{Xlx2}E{xiy2}-E{x )E{x2y2} E2{Xlx2}E{xl}-E{xt}E{x22} con M E{x2y2 } = E{x¡ } + ?/>,{d, - b, )E{sf ). (16) M E{x,y } = E{x,x2 } + ?a,(¿, - b, )E{s? }, Cuando las señales de sub-banda izquierda y derecha son coherentes o casi coherentes, es decir, cuando se acerca a uno, entonces la solución para las ponderaciones es no única o incorrecta. De este modo, si ø es mayor que un cierto umbral (por ejemplo 0.95), entonces se calculan las ponderaciones mediante, por ejemplo, w12 = w = 0, « (18) El*l) En el supuesto que 0=1, la ecuación [18] es una de las soluciones no únicas que satisfacen a [12] y el mismo sistema de ecuación de ortogonalidad similar para las otras dos ponderaciones. Obsérvese que la coherencia en [17] se utiliza para juzgar qué tan similares son ?? y x2 entre si. Si la coherencia es cero, entonces x y x2 son independientes. Si la coherencia es uno, entonces x± y x2 son similares (pero pueden tener diferentes niveles) . Si xx y x2 son muy similares (coherencia cercana a uno) , entonces el cálculo de Wiener para dos canales (cálculo de cuatro ponderaciones) es incorrecto. Un margen ejemplar para el umbral es de aproximadamente 0.4 a aproximadamente 1.0. La señal estereofónica remezclada resultante, obtenida al convertir las señales de sub-bandas calculadas en el dominio de tiempo, suena del mismo modo que una señal estereofónica que en realidad se mezclaría con ganancias c± y di de mezclado diferentes (en lo siguiente esta señal se designa "señal deseada") . Por un lado, matemáticamente, esto requiere que las señales de sub-banda calculadas sean similares a las señales reales de sub-banda mezcladas en forma diferente. Este es el caso en cierta medida. Puesto que la estimación se realiza en un dominio de sub-banda motivado en forma perceptual, el requerimiento para la similitud es menos riguroso. Siempre y cuando las señales de ubicación perceptualmente relevantes (por ejemplo, diferencia de nivel y señales de coherencia) sean lo suficientemente similares, la señal estereofónica remezclada calculada sonará igual a la señal deseada.
E. Opcional: Ajuste de Señales con Diferencia de Nivel En algunas aplicaciones, si se utiliza el procesamiento descrito en la presente, se pueden obtener buenos resultados. Sin embargo, para asegurarse que las señales de ubicación con una diferencia de nivel importante se aproximen estrechamente a las señales con diferencia de nivel de la señal deseada, se puede aplicar un ajuste de escala posterior de las sub-bandas para "ajustar" las señales con diferencia de nivel para asegurarse que correspondan con las señales de diferencia de nivel de la señal deseada. Para la modificación de las estimaciones de señal de sub-banda de mínimos cuadrados en [9] , se considera la energía de sub-banda. Si la energía de sub-banda es correcta, entonces la diferencia de nivel importante de la señal espacial también será correcta. La energía de sub-banda izquierda de la señal [8] deseada es (19) (=1 y la energía de sub-banda de la estimación a partir de [9] es E{y?} = E{(w x +wt2x1):i} = w2, E{xf } + 2w wuE{Xix2 } + De este modo, para que i(O tenga la misma energía que yi(k) debe multiplicarse con £{^} + ?(^-?·)£{5,2} 8\ = (21) De manera similar, }/2(k) se multiplica con E{x¡} + ?(d?-b?)E{sf} (22) w¡.E{x?} + 2 21W„£{J:. ,} + W\£{J:2J } para tener la misma energía que la señal y2(k) de sub-banda deseada .
II. CUANTIFICACIÓN y CODIFICACIÓN DE LA INFORMACIÓN SECUNDARIA A. Codificación Como se describe en la sección anterior, la información secundaria necesaria para volver a mezclar una señal fuente con el índice i son los factores a± y j¿ y en cada sub-banda la energía como una función de tiempo E{SI2 (k) } . En algunas aplicaciones, la ganancia correspondiente y los valores de diferencia de nivel para los factores < ¿ y b de ganancia pueden calcularse en dB como sigue : g, =101og10(a,2+6,2), (23) /,=201og10½- En algunas aplicaciones, la ganancia y los valores de diferencia de nivel se cuantifican y se les aplica la codificación de Huffman. Por ejemplo, se puede utilizar un cuantificador uniforme con un tamaño de etapa del cuantificador de 2 dB y un codificador de Huffman dimensional para la cuantificación y descodificación, respectivamente. También se pueden utilizar otros cuantificadores y codificadores conocidos (por ejemplo, cuantificador de vector) . Si o¿ y bi son invariables en el tiempo y se asume que la información secundaria llega al descodificador en forma confiable, los valores codificados correspondientes sólo necesitan transmitirse una vez. De otro modo, ± y b pueden transmitirse en intervalos de tiempo regulares o en respuesta a un evento de activación (por ejemplo, siempre que cambien los valores codificados) . Para que sea robusto contra el ajuste de escala de la señal estereofónica y la pérdida/ganancia de energía debido a la codificación de la señal estereofónica, en algunas aplicaciones la energía de sub-banda E{si2(k) } no se codifica directamente como información secundaria. En cambio, se puede utilizar una medición definida en relación con la señal estereofónica : Puede ser favorable utilizar las mismas ventanas de estimación/constantes de tiempo para calcular E{ . } para las diversas señales. Una ventaja de definir la información secundaria como un valor [24] de energía relativo es que en el descodificador se puede utilizar, si se desea, una ventana de estimación/constante de tiempo diferente que en el codificador. Asimismo, el efecto de desalineación de tiempo entre la información secundaria y la señal estereofónica se reduce en comparación con el caso en el que la energía fuente puede transmitirse como un valor absoluto. Para la cuantificación y codificación Ai(k) , en algunas aplicaciones, se utiliza un cuantificador uniforme con un tamaño de etapa de, por ejemplo, 2 dB y un codificador de Huffman dimensional. La velocidad binaria resultante puede ser tan sólo de aproximadamente 3 k /s (Tcilobit por segundo) por objeto de audio que se volverá a mezclar. En algunas aplicaciones, la velocidad binaria puede reducirse cuando una señal fuente ingresada que corresponde con un objeto que se volverá a mezclar en el descodif icador se encuentra en silencio. Un modo de codificación del codificador puede detectar el objeto en silencio y después transmitirlo a la información del descodificador (por ejemplo, un solo bit por trama) para indicar que el objeto se encuentra en silencio.
B. Descodificación Dados los valores [23] y [24] descodificados (cuantificados) de Huffman, los valores necesarios para el remezclado pueden calcularse como sigue: 4U) (*)} = 10 10 (E{x¡ {k)} + E{x¡ (k)})- III. DETALLES DE APLICACION A. Procesamiento Tiempo-Frecuencia En algunas aplicaciones se utiliza el procesamiento basado en la STFT (transformada de Fourier de tiempo corto para los sistemas de codificación y de descodificación descritos en referencia a las FIGURAS 1-3. Se pueden utilizar otras transformadas de tiempo- frecuencia para obtener un resultado deseado, incluyendo, sin limitación, un banco de filtros con filtro espejo en cuadratura (QMF) , una transformada de coseno discreta modificada (MDCT) , un banco de filtros de wavelet, etc. Para procesamiento de análisis (por ejemplo, una operación directa de banco de filtros) , en algunas aplicaciones, una trama de N muestras puede multiplicarse con una ventana antes de que se aplique una transformada discreta de Fourier o transformada rápida de Fourier (FFT) de N puntos. En algunas aplicaciones se puede utilizar la siguiente ventana sinusoidal: Si el tamaño del bloque de procesamiento es diferente que el tamaño de la DFT/FFT, entonces, en algunas aplicaciones se puede utilizar una compensación de cero para en efecto tener una ventana más pequeña que N. El procesamiento de análisis descrito puede, por ejemplo, repetirse cada N/2 muestras (iguala el tamaño de salto de ventana) , dando como resultado un traslape de ventana del 50 por ciento. Se pueden utilizar otras funciones de ventana y traslape de porcentaje para obtener un resultado deseado. Para transformar del dominio espectral de la STFT al dominio de tiempo, se puede aplicar una DFT o FFT inversa al espectro. La señal resultante se multiplica nuevamente con la ventana descrita en [26] , y los bloques de señal adyacente que resultan de la multiplicación con la ventana se combinan con el traslape agregado para obtener una señal de dominio de tiempo continuo. En algunos casos, puede ser que la resolución espectral uniforme de la STFT no se adapte bien a la percepción humana. En tales casos, a diferencia del procesamiento en cada coeficiente de frecuencia de la STFT en forma individual, los coeficientes de la, STFT pueden "agruparse" , de tal manera que un grupo tenga un ancho de banda de aproximadamente dos veces el ancho de banda rectangular equivalente (ERB) , el cual es una resolución de frecuencia adecuada para el procesamiento de audio espacial. La FIGURA 4 ilustra índices i de coeficientes de la STFT que pertenecen a una división con índice b. En algunas aplicaciones, sólo se consideran los primeros N/2+1 coeficientes espectrales del espectro debido a que el espectro es simétrico. Los índices de los coeficientes de la STFT que pertenecen a la división con índice ¿>(1 = b = B) son i£ {Ab-1, Ab-i +1, .. · , Ab} con A0 = 0, como se ilustra en la FIGURA 4. Las señales representadas mediante los coeficientes espectrales de las divisiones corresponden con la descomposición de sub-banda perceptualmente motivada, utilizada mediante el sistema de descodificación. De este modo, en cada división tal el procesamiento descrito se aplica en forma conjunta a los coeficientes de la STFT dentro de la división. La FIGURA 5 ilustra en forma ejemplar el agrupamiento de coeficientes espectrales de un espectro de la STFT uniforme para copiar una resolución de frecuencia no uniforme de un sistema auditivo humano. En la FIGURA 5, iV=1024 para una frecuencia de muestreo de 44.1 A:Hz y el número de divisiones, B = 20, con cada división teniendo un ancho de banda de aproximadamente 2 ERB . Obsérvese que la última división es menor que dos ERB debido al recorte en la frecuencia de Nyquist.
B. Estimación de Datos Estadísticos Dados dos coeficientes de la STFT, Xi(k) y j (Je) , los valores E{XÍ {k) Xj (k) } , necesarios para calcular la señal de audio estereofónico remezclada pueden estimarse en forma iterativa. En este caso, la frecuencia f3 de muestreo de sub-banda es la frecuencia temporal a la cual se calcula el especto de la STFT. Para obtener estimaciones para cada división porcentual (no para cada coeficiente de la STFT) , los valore estimados pueden promediarse dentro de las divisiones antes de que se utilicen posteriormente. El procesamiento descrito en las secciones anteriores puede aplicarse a cada división como si fueran una sub-banda. El suavizado entre las divisiones puede llevare a cabo mediante el uso de, por ejemplo, ventanas espectrales de traslape para evitar cambios de procesamiento abruptos en la frecuencia, reduciendo así los artefactos. C. Combinación con Codificadores de Audio Convencionales La FIGURA 6A es un diagrama de bloques de una aplicación del sistema 100 de codificación de la FIGURA 1A combinado con un codificador de audio estereofónico convencional. En algunas aplicaciones, un sistema 600 de codificación combinado incluye un codificador 602 de audio convencional, un codificador 604 propuesto (por ejemplo, sistema 100 de codificación) y un combinador 606 de secuencia de bits. En el ejemplo mostrado, las señales de audio estereofónico ingresadas se codifican mediante el codificador 602 de audio convencional (por ejemplo, MP3 , AAC, campo periférico de MPEG, etc.) y se analizan mediante el codificador 604 propuesto para proporcionar información secundaria, como se describe en lo anterior con referencia a las FIGURAS 1-5. Las dos secuencias de bits resultantes se combinan mediante el combinador 606 de secuencias de bits para proporcionar una secuencia de bits compatible hacia atrás. En algunas aplicaciones, la combinación de las secuencias de bits resultantes incluye incorporar información secundaria de velocidad binaria baja (por ejemplo, factores «i, jbi de ganancia y energía de sub-banda E{sí2{k) }) en la secuencia de bits compatible hacia atrás. La FIGURA 6B es un diagrama de flujo de una aplicación de un proceso 608 de codificación que utiliza el sistema 100 de codificación de la FIGURA 1A combinado con un codificador de audio estereofónico convencional. Una señal estereofónica ingresada se codifica mediante el uso de un codificador de audio estereofónico convencional (610) . La información secundaria se genera a partir de la señal estereofónica y de las M señales fuente mediante el uso del sistema 100 de codificación de la FIGURA 1A (612) . Se genera una o más secuencias de bits compatibles hacia atrás que incluyen la señal estereofónica codificada y la información secundaria (614) . La FIGURA 7A es un diagrama de bloques de una aplicación del sistema 300 de remezclado de la FIGURA 3A combinado con un descodificador de audio estereofónico convencional para proporcionar un sistema 700 combinado. En algunas aplicaciones, el sistema 700 combinado por lo general incluye un analizador sintáctico 702 de secuencias de bits, un descodificador 704 de audio convencional (por ejemplo, MP3 , AAC) y un descodificador 706 propuesto. En algunas aplicaciones, el descodificador 706 propuesto es el sistema 300 de remezclado de la FIGURA 3A. En el ejemplo mostrado, la secuencia de bits se separa en una secuencia de bits de audio estereofónico y en una secuencia de bits que contiene información secundaria que el descodificador 706 propuesto necesita para proporcionar la capacidad de remezclado. La señal estereofónica se descodifica mediante el descodificador 704 de audio convencional y se alimenta al descodificador 706 propuesto, el cual modifica la señal estereofónica como una función de la información secundaria obtenida a partir de la secuencia de bits y entradas del usuario (por ejemplo, ganancias c¿ y d de mezclado) . La FIGURA 7B es un diagrama de flujo de una aplicación de un proceso 708 de remezclado que utiliza el sistema 700 combinado de la FIGURA 7A. Una secuencia de bits recibida de un codificador se analiza sintácticamente para proporcionar una secuencia de bits de señal estereofónica codificada y secuencia de bits de información secundaria (710) . La señal estereofónica codificada se descodifica mediante el uso de un descodificador de audio convencional (712) . Descodificadores ejemplares incluyen MP3 , AAC (incluyendo los diversos perfiles estandarizados de AAC) , estereofónico paramétrico, replicación de la banda espectral (SBR) , campo periférico de MPEG o cualquier combinación de los mismos. La señal estereofónica descodificada se vuelve a mezclar mediante el uso de información secundaria y entradas del usuario (por ejemplo, c± y d±) .
IV. REME CLADO DE SEÑALES DE AUDIO DE CANAL MÚLTIPLE En algunas aplicaciones, los sistemas 100, 300 de codificación y de remezclado descritos en secciones anteriores pueden ampliarse para volver a mezclar señales de audio de canal múltiple (por ejemplo, señales periféricas de 5.1) . En lo sucesivo, una señal estereofónica y señal de canal múltiple también son referidas como señales de "canal plural" . Aquellos con experiencia ordinaria en la técnica entenderán cómo volver a redactar [7] a [22] para un esquema de codificación/descodificación de canal múltiple, es decir, para más de dos señales Xi( c) , x2(k) , x3(k) , xc{k) , donde C es el número de canales de audio de la señal mezclada. La ecuación [9] para caso de canal múltiple se vuelve *,(*) = ?*>.(*)*.(*), ,(*) = ?»:«(¾(*). (27) •·· Una ecuación como la [11] con C ecuaciones puede derivarse y resolverse para determinar las ponderaciones, como se describe en lo anterior. En algunas aplicaciones, ciertos canales pueden dejarse sin procesar. Por ejemplo, para campo periférico de 5.1 los dos canales posteriores pueden dejarse sin procesar y aplicarse el remezclado sólo a los canales frontal izquierdo, derecho y central. En este caso, se puede aplicar un algoritmo de remezclado de tres canales a los canales frontales . La calidad de audio resultante del esquema de remezclado descrito depende de la naturaleza de la modificación que se lleve a cabo. Para modificaciones relativamente débiles, por ejemplo, cambio de panorámica de 0 dB a 15 dB o modificación de ganancia de 10 dB, la calidad de audio resultante puede ser mayor de la que se obtiene mediante técnicas convencionales. Asimismo, la calidad del esquema de remezclado descrito que se propone puede ser mayor que los esquemas de remezclado convencionales debido a que la señal estereofónica se modifica sólo cuando es necesario para obtener el remezclado deseado. El esquema de remezclado descrito en la presente proporciona varias ventajas sobre técnicas convencionales. Primero, permite el remezclado de menos del número total de objetos en una señal de audio de canal múltiple o estereofónico . Esto se lleva a cabo al estimar la información secundaria como una función de la señal de audio estereofónico dada más M señales fuente que representan M objetos en la señal de audio estereofónico que se permitirán volver a mezclarse en un descodificador . El sistema de remezclado descrito procesa la señal estereofónica dada como una función de la información secundaria y como una función de la entrada de usuario (el remezclado deseado) para generar una señal estereofónica que sea perceptualmente similar a la señal estereofónica en realidad mezclada en forma diferente. V. MEJORAS AL ESQUEMA DE REMEZCLADO BÁSICO A. Preprocesamiento de Información Secundaria Cuando una sub-banda se atenúa demasiado en relación con sub-bandas próximas, los artefactos de audio pueden ocurrir. De este modo, es conveniente restringir la atenuación máxima. Además, puesto que se miden en forma independiente la señal estereofónica y las estadísticas de señal fuente de objeto en el codificador y en el descodificador, respectivamente, la relación entre la energía de sub-banda de la señal estereofónica medida y la energía de sub-banda de la señal de objeto (como se representa mediante la información secundaria) puede desviarse de la realidad. Debido a esto, la información secundaria puede ser tal que es físicamente imposible, por ejemplo, la energía de señal de la señal remezclada [19] puede volverse negativa. Ambos aspectos anteriores pueden atenderse como se describe en lo siguiente. La energía de sub-banda de la señal remezclada izquierda y derecha es E{yl) = E{xl} + ?(cl-al)P¡it donde Ps± es igual a la estimación de energía de sub-banda cuantificada y codificada dada en [25] , la cual se calcula como una función de la información secundaria. La energía de sub-banda de la señal remezclada puede limitarse de tal modo que ésta nunca sea menor que L dB por debajo de la energía de sub-banda de la señal estereofónica original E{x12} . De manera similar, E{y22} se limita para que no sea menor que L dB por debajo de E{x22} . Este resultado puede obtenerse con las siguientes operaciones: 1. Calcular la energía de sub-banda de la señal remezclada izquierda y derecha de acuerdo con [28] . 2. Si E{y2} < QE{xi2}, entonces ajustar los valores Psi calculados de la información secundaria de tal modo que se mantenga E{y12}=QE{x12} . Limitar la energía de E{y2) para que nunca sea menor que A dB por debajo de la energía de ?{??2} , Q puede establecerse en Q=10"A 1°. Después, Psí puede ajustarse al multiplicarla con O-0£{*,') (29) 3. Si E{y22} < QE{x22} , entonces ajustar los valores PSi calculados de la información secundaria de tal modo que se mantenga E{y22} =QE{x22} . Esto puede llevarse a cabo al multiplicar Psi con (!-0£{*} ~ · (30) 4. El valor de E{sf(k)} se establece para el Ps ajustado, y las ponderaciones cn, ?12, ?21 y ?22 se calculan. B. Decisión Entre Utilizar Cuatro o Dos Ponderaciones Para muchos casos, dos ponderaciones [18] son adecuadas para calcular las sub-bandas de señal remezclada derecha e izquierda [9] . En algunos casos, se pueden obtener mejores resultados al utilizar cuatro ponderaciones [13] y [15] . El uso de dos ponderaciones significa que para generar la señal de salida izquierda sólo se utiliza la señal izquierda original y lo mismo para la señal de salida derecha. De este modo, un escenario en el que son convenientes cuatro ponderaciones es cuando un objeto en un lado se vuelve a mezclar para estar en el otro lado. En este caso, puede esperarse que el uso de cuatro ponderaciones sea favorable debido a que la señal que originalmente sólo estaba en un lado (por ejemplo, en el canal izquierdo) estará, en su mayor parte, en el otro lado (por ejemplo, en el canal derecho) después del remezclado. Por lo tanto, pueden utilizarse cuatro ponderaciones para permitir que la señal fluya de un canal izquierdo original a un canal derecho remezclado y viceversa. Cuando el problema de mínimos cuadrados para calcular las cuatro ponderaciones es incorrecto, la magnitud de las ponderaciones puede ser grande. De manera similar, cuando se utiliza el remezclado de un lado al otro lado descrito en lo anterior, la magnitud de las ponderaciones puede ser grande cuando se utilizan sólo dos ponderaciones. Motivado por esta observación, en algunas aplicaciones se pueden utilizar los siguientes criterios para decidir si se utilizan cuatro o dos ponderaciones. Si A < B, entonces utilizar cuatro ponderaciones, de lo contrario utilizar dos ponderaciones. A y B son una medición de la magnitud de las ponderaciones para las cuatro y dos ponderaciones, respectivamente. En algunas aplicaciones, A y B se calculan como sigue. Para calcular A, primero calcular las cuatro ponderaciones de acuerdo con [13] y [15] y después establecer ?=?1?2+??2 +?2?2+?222 · Para calcular B, las ponderaciones pueden calcularse de acuerdo con [18] y después se calcula B=wn2+w222.
C. Mejorar Grado de Atenuación Cuando se Desee Cuando una fuente va a removerse por completo, por ejemplo, remover la pista vocal delantera para una aplicación de Karao£:e, sus ganancias de mezclado son c±=0 , y d±=0. Sin embargo, cuando un usuario elige ganancias de mezclado cero, el grado de atenuación obtenida puede limitarse. De este modo, para una atenuación mejorada, los valores de energía de sub-banda fuente de las señales fuente correspondientes, obtenidas a partir de la información secundaria, É{si2(A:)}, pueden ajustarse en escala mediante un valor mayor que uno (por ejemplo, 2) antes de utilizarse para calcular las ponderaciones ?1? ?12? ?2? y ?22· D. Mejorar Calidad de Audio Mediante Suavizado de Ponderación Se ha observado que el esquema de remezclado descrito puede introducir artefactos en la señal deseada, en especial cuando una señal de audio es tonal o estacionaria.
Para mejorar la calidad de audio, en cada sub-banda, se puede calcular una medición de tonalidad/capacidad estacionaria. Si la medición de tonalidad/capacidad estacionaria excede un cierto umbral, TON0, entonces las ponderaciones de estimación se suavizan con el tiempo. La operación de suavizado se describe como sigue: Para cada sub-banda, en cada índice k de tiempo, las ponderaciones que se aplican para calcular las sub-bandas de salida se obtienen como sigue: • Si TON (Je) > TON0, entonces ñ (k) = arw (k)+(\-a)Z (k-\), wn (k) = aw2i (k) + (1 - c¡r)vv12 (k - 1), ív21 (k) = ccwn (k) + (1 - cr) 2 l (k - 1), (31) w12(k) = cn j2(k) + (1 - a)w12 (k - 1), donde (k),w (k),w2i(k) and ív-2 (fc) SOn las ponderaciones suavizadas y cún(k) , cú12(k) , ?2? ( ?:) y cú22(k) son las ponderaciones no suavizadas, calculadas como se describe en lo anterior. • de lo contrario w (k) = wi2(k), (32) w2i (*) = w2, (*), ív22 (*) = w22 (Ar).
E. Control de tonalidad del local/Reverberación La técnica de remezclado descrita en la presente proporciona control de usuario en términos de ganancias c¿ y di de mezclado. Esto corresponde con la determinación, para cada objeto, de la ganancia, Gi, y panorámica de amplitud, L¿ (dirección) , donde la ganancia y la panorámica de determinan por completo mediante c± y d¿, G,=101ogI0(c,J +d?), En algunas aplicaciones puede ser conveniente controlar otras características de la mezcla estereofónica distintas a la ganancia y panorámica de amplitud de las señales fuente. En la siguiente descripción se describe una técnica para modificar un grado de tonalidad del local de una señal de audio estereofónico . No se utiliza información secundaria para esta tarea del descodif icador . En algunas aplicaciones, el modelo de señal dado en [44] puede utilizarse para modificar un grado de tonalidad del local de una señal estereofónica, en donde se asume que la energía de sub-banda de nz y n2 es igual, es decir, Nuevamente, puede asumirse que s, n± y n2 son mutuamente independientes. Dadas estas suposiciones, la coherencia [17] puede escribirse como V(£{x,2 (*)} - P„ {k) E{x¡ (*)) - P„ (*)) ^E{x^k)}E ¡(k)¡ Esto corresponde con una ecuación cuadrática con variable PN{k) , P2 (k) - (£{x2 (k)} + E{x¡(k)})P„ (*) + E{xf(k)}E{x2(A)}(1 - 2) = 0. (36) Las soluciones de esta cuadrática son ^ (£{*2(*)} + £{s22(*)} ± V(£{*,2(*)} + £{*22(fc)})2 - 4£{*,2(*)}£{*2(*)}(! - (*)2) (37> W · La solución físicamente posible es la que tiene el signo negativo antes de la raíz cuadrada, debido a que PN(k) tiene que ser menor o igual que E{x12(k) }+E{x22(k) } . En algunas aplicaciones, para controlar la tonalidad del local izquierda y derecha, la técnica de remezclado puede aplicarse en relación con dos objetos: Un objeto es una fuente con índice ?? con energía de sub-banda E{ Su2 (k) } = PN{k) del lado izquierdo, es decir, El otro objeto es una fuente con índice i2 con energía de sub-banda E{si22(k) } = PN(k) del lado derecho, es decir, ai2=0 y Para cambiar la cantidad de tonalidad del local, un usuario puede elegir y ci2=dii=0, donde ga es la ganancia de tonalidad del local en dB.
Diferente Información Secundaria En algunas aplicaciones se puede utilizar información secundaria diferente o modificada en el esquema de remezclado descrito que sea más eficaz en términos de velocidad binaria. Por ejemplo, en [24] Ai (J ) puede tener valores arbitrarios. También existe una dependencia en el nivel de la señal Si{n) fuente original. Por lo tanto, para obtener información secundaria en un margen deseado, puede ser que el nivel de la señal de entrada fuente necesite ajustarse. Para evitar este ajuste, y para remover la dependencia de la información secundaria en el nivel de señal fuente original, en algunas aplicaciones la energía de sub-banda fuente puede normalizarse no sólo en relación con la energía de sub-banda de la señal estereofónica como en [24] , sino que también pueden considerarse las ganancias de mezclado : E{xf(k)} + E{x¡(k)}' (39) Esto corresponde con el uso, como información secundaria, de la energía fuente contenida en la señal estereofónica (no la energía fuente directamente) , normalizada con la señal estereofónica . De manera alterna, se puede utilizar una normalización como esta: Esta información secundaria también es más eficaz puesto que Ai (7c) sólo puede adoptar valores menores o iguales a 0 dB . Obsérvese que [39] y [40] pueden solucionarse para la energía de sub-banda E{si2{k)}.
G. Señales/Objetos Fuente Estereofónicas El esquema de remezclado descrito en la presente puede ampliarse fácilmente para manejar señales fuente estereofónicas. Desde una perspectiva de la información secundaria, las señales fuente estereofónicas se tratan como dos señales fuente mono: una se mezcla sólo hacia la izquierda y la otra se mezcla sólo hacia la derecha. Es decir, el canal i izquierdo fuente tiene un factor ¾ de ganancia izquierda diferente de cero y un factor bí+1 de ganancia derecha de cero. Los factores de ganancia, ot± y bi+ll pueden estimarse con [6] . La información secundaria puede transmitirse como si la fuente estereofónica fuera dos fuentes mono. Alguna información necesita transmitirse al descodificador para indicar al descodificador cuáles fuentes son fuentes mono y cuáles son fuentes estereofónicas. Con respecto al procesamiento del descodificador y una interfaz gráfica de usuario (GUI) , una posibilidad es presentar en el descodificador una señal fuente estereofónica de manera similar que una señal fuente mono. Es decir, la señal fuente estereofónica tiene un control de ganancia y de panorámica similares a la señal fuente mono. En algunas aplicaciones se puede elegir que la relación entre el control de ganancia y de panorámica de la GUI de la señal estereofónica no remezclada y los factores de ganancia sea: GAIN0 = 0 dB, (41) PAIM0 =201ogl0-^-.
Es decir, la GUI puede establecerse inicialmente en estos valores. Se puede elegir que la relación entre la GANANCIA y la PANORÁMICA elegida por el usuario y los nuevos factores de ganancia sea: GAIN = 10 log 10 ( í + d '* 1 ^ (42) PAN = 20 log Las ecuaciones [42] pueden resolverse para c¿ y di+i, los cuales pueden utilizarse como ganancias de remezclado (con ci+1 = 0 y d± = 0 ) . La funcionalidad descrita es similar a un control de "equilibrio" en un amplificador estereofónico . Las ganancias de los canales izquierdo y derecho de la señal fuente se modifican sin introducir diafonía .
VI. GENERACIÓN SIN SALIDA DE INFORMACIÓN SECUNDARIA ?. Generación Totalmente Sin Salida de Información Secundaria En el esquema de remezclado descrito, el codificador recibe una señal estereofónica y un número de señales fuente que representan objetos que se volverán a mezclar en el descodificador . La información secundaria necesaria para volver a mezclar una señal fuente con índice i en el descodificador se determina a partir de los factores de ganancia, a y bi, y de la energía de sub-banda E{si2(k) }. La determinación de la información secundaria se describió en secciones anteriores en el caso en el que se proporcionan las señales fuente. Aunque la señal estereofónica se obtiene con facilidad (puesto que esto corresponde con el producto que existe actualmente) , puede ser difícil obtener las señales fuente que corresponden con los objetos que se volverán a mezclar en el descodificador . Por lo tanto, es conveniente generar información secundaria para el remezclado aun si las señales fuente del objeto no se encuentran disponibles. En la siguiente descripción se describe una técnica de generación totalmente sin salida para generar información secundaria sólo a partir de la señal estereofónica . La FIGURA 8 A es un diagrama de bloques de una aplicación de un sistema 800 de codificación que pone en práctica la generación de información secundaria totalmente sin salida. El sistema 800 de codificación en general incluye una disposición 802 de banco de filtros, un generador 804 de información secundaria y un codificador 806. La señal estereofónica se recibe por la disposición 802 de banco de filtros que descompone la señal estereofónica (por ejemplo, canales derecho e izquierdo) en pares de sub-bandas . El procesador 804 de información secundaria recibe los pares de sub-bandas, el cual genera información secundaria a partir de los pares de sub-bandas mediante el uso de una diferencia L¿ de nivel fuente deseada y una función f (M) de ganancia. Obsérvese que ni la disposición 804 de banco de filtros ni el procesador 804 de información secundaria operan en señales fuentes. La información secundaria se deriva por completo de la señal estereofónica ingresada, diferencia de nivel fuente deseada, L¿ y función /( ) de ganancia. La FIGURA 8B es un diagrama de flujo de una aplicación de un proceso 808 de codificación que utiliza el sistema 800 de codificación de la FIGURA 8A. La señal estereofónica ingresada se descompone en pares de sub-bandas (810) . Para cada sub-banda, los factores de ganancia, a± y bit se determinan para cada señal fuente deseada mediante el uso de un valor de diferencia de nivel fuente deseada, L± (812) . Para una señal fuente de sonido directo (por ejemplo, una señal fuente con panorámica central en la etapa de sonido) , la diferencia de nivel fuente deseada es L¿ = 0 dB . Dada L , se calculan los factores de ganancia: 1 a, = , ?+? donde A=10 1 . Obsérvese que a± y b se han calculado de tal modo que a±2+bi2 = l.Esta condición no es necesaria; en cambio, en una opción arbitraria para evitar que ot± o b± sean grandes cuando la magnitud de L2 es grande . Después, la energía de sub-banda del sonido directo se estima mediante el uso del par de sub-bandas y de las ganancias de mezclado (814) . Para calcular la energía de sub-banda de sonido directo, puede asumirse que cada sub-banda izquierda y derecha de la señal ingresada en cada tiempo puede escribirse x, = as + n , x =bs + n, í44) donde y b son ganancias de mezclado, s representa el sonido directo de todas las señales fuente y ? y n2 representan el sonido de ambiente independiente . Puede asumirse que a y b son 1 a = (45) donde B=E{x22 {k) } /E{x2 {k) } . Obsérvese que a y b pueden calcularse de tal modo que la diferencia de nivel con la cual se obtiene s en x2 y Xi es la misma que la diferencia de nivel entre x2 y i. La diferencia de nivel en dB del sonido directo Se puede calcular la energía de sub-banda de sonido directo, E{s2{k) }, de acuerdo con el modelo de señal dado en [44] . En algunas aplicaciones se utiliza el siguiente sistema de ecuaciones : E{x2(k)}=a E{s2(k)} + E{n2(k)), (46) E{x¡(k)) = b2E{s2(k)} + E{n1(k)}, E[Xl(k)x2(k)} = abE{s2{k)}.
Se ha asumido en [46] que s, n± y n2 en [34] son mutuamente independientes, que las cantidades del lado izquierdo en [46] pueden medirse y que a y b están disponibles. De este modo, las tres incógnitas en [46] son E{s2{k) }, E{nx2{k) } y E{n22(k) }. La energía de sub-banda de sonido directo, E{s2(k) }, puede estar dada por E{s2(k)} = £Mk)x2(k)) (47) ab La energía de sub-banda de sonido directo también puede escribirse como una función de la coherencia [17] , En algunas aplicaciones, el cálculo de la energía de sub-banda fuente deseada, E{s±2 {k) } , puede realizarse en dos etapas : Primero se calcula la energía de sub-banda de sonido directo, E{s2{k) }, donde s representa el sonido directo de todas las fuentes (por ejemplo, con panorámica central) en [44] . Después se calculan las energías de sub- banda fuente deseada (816), E{SÍ2 {k) } , al modificar la energía de sub-banda de sonido directo, E{s2{k)}, como una función de la dirección de sonido directo (representado por M) y una dirección de sonido deseada (representada por la diferencia L de nivel fuente deseada) : donde /(.) es una función de ganancia que, como una función de dirección, regresa un factor de ganancia que se acerca a uno sólo para la dirección de la fuente deseada. Como una etapa final, los factores de ganancia y energías de sub-banda E{SI2(J)} pueden cuantificarse y codificarse para generar información secundaria (818) . La FIGURA 9 ilustra una función _ (M) de ganancia ejemplar para una diferencia Li=LdB de nivel fuente deseada. Obsérvese que el grado de capacidad de dirección puede controlarse en términos de elegir que / (M) tenga un pico más o menos angosto alrededor de la dirección L0 deseada. Para una fuente deseada en el centro, puede utilizarse un ancho de pico de L0=6 dB . Obsérvese que con la técnica totalmente sin salida descrita en lo anterior, puede determinarse la información secundaria (a , b±, E{ Si2 (J) } ) para una señal s fuente dada.
B. Combinación Entre Generación sin salida y con salida de Información secundaria La técnica de generación totalmente sin salida descrita en lo anterior puede limitarse en ciertas circunstancias. Por ejemplo, si dos objetos tienen la misma posición (dirección) en una etapa de sonido estereofónico, entonces puede ser que no sea posible generar sin salida la información secundaria relacionada con uno o ambos objetos. Una alternativa a la generación totalmente sin salida de información secundaria es la generación parcialmente sin salida de información secundaria. La técnica parcialmente sin salida genera una forma de onda de objeto que corresponde aproximadamente con la forma de onda del objeto original. Esto puede realizarse, por ejemplo, cuando cantantes o músicos tocan/reproducen la señal de objeto específico. O alguien puede utilizar datos MIDI para este propósito y permitir que un sintetizador genere la señal de objeto. En algunas aplicaciones, la forma de onda "aproximada" de objeto se alinea en tiempo con la señal estereofónica en relación con cuál información secundaria se va a generar. Después, la información secundaria puede generarse mediante el uso de un proceso que es una combinación de generación de información secundaria sin salida y con salida. La FIGURA 10 es un diagrama de una aplicación de un proceso 1000 de generación de información secundaria que utiliza una técnica de generación parcialmente sin salida. El proceso 1000 inicia al obtener una señal estereofónica de entrada y M señales "aproximadas" fuente (1002) . Después se determinan los factores a y bi de ganancia para las M señales "aproximadas" fuente (1004) . En cada intervalo de tiempo, en cada sub-banda, se determina una primera estimación de tiempo corto de energía de sub-banda, E{SÍ2 (k) } , para cada señal "aproximada" fuente (1006) . Se determina una segunda estimación de tiempo corto de energía de sub-banda, Ehat { si2 (7c) } , para cada señal "aproximada" fuente mediante el uso de una técnica de generación totalmente sin salida, aplicada a la señal estereofónica de entrada (1008) . Finalmente, la función se aplica a las energías de sub-banda estimadas, la cual combina la primera y segunda estimaciones de energía de sub-banda y regresa una estimación final, la cual en efecto puede utilizarse para el cálculo de información secundaria (1010) . En algunas aplicaciones, la función F() está dada por (50) F(E{s-(.k)},É{s {k)}) = in(E{sJ(k)},É{sJ(k)}).
VI. ARQUITECTURAS, INTERFACES DE USUARIO, SINTAXIS DE SECUENCIAS DE BITS A. Arquitectura de Cliente/Servidor La FIGURA 11 es un diagrama de bloques de una aplicación de una arquitectura 100 de cliente/servidor para proporcionar señales estereofónicas y M señales fuente y/o información secundaria a dispositivos 1110 de audio con capacidad de remezclado. La arquitectura 1100 es únicamente un ejemplo. Otras arquitecturas son posibles, incluyendo arquitecturas con más o menos componentes . La arquitectura 1100 por lo general incluye un servicio 1102 de descarga que tiene un diccionario de datos 1104 (por ejemplo, MySQL™) y un servidor 1106 (por ejemplo, Windows™ NT, Linux server) . El diccionario de datos 1104 puede almacenar contenido de diversos tipos, incluyendo señales estereofónicas mezcladas en forma profesional y señales fuentes asociadas que corresponden con objetos en las señales estereofónicas y diversos efectos (por ejemplo, reverberación) . Las señales estereofónicas pueden almacenarse en una diversidad de formatos estandarizados, incluyendo MP3 , PCM, AAC, etc. En algunas aplicaciones, las señales fuente se almacenan en el diccionario de datos 1104 y se vuelven disponibles para su descarga en dispositivos 1110 de audio. En algunas aplicaciones, la información secundaria preprocesada se almacena en el diccionario de datos 1104 y se vuelve disponible para su descarga en dispositivos 1110 de audio. El servidor 1106 puede genera la información secundaria preprocesada mediante el uso de uno o más esquemas de codificación descritos en referencia a las FIGURAS 1A, 6A y 8A. En algunas aplicaciones, el servicio 1102 de descarga (por ejemplo, un sitio web, tienda de música) se comunica con los dispositivos 1110 de audio a través de una red 1108 (por ejemplo, Internet, intranet, Ethernet, red inalámbrica, red unida a unidad) . Los dispositivos 110 de audio pueden ser cualquier dispositivo capaz de aplicar los esquemas de remezclado descritos (por ejemplo, reproductores de medios/grabadoras, teléfonos móviles, asistentes digitales personales (PDAs) consolas de juegos, descodificadores , receptores de televisión, centros de medios, etc.) .
B. Arquitectura de Dispositivo de Audio En algunas aplicaciones, un dispositivo 1110 de audio incluye uno o más procesadores o núcleos 1112 de procesador, dispositivos 1114 de entrada (por ejemplo, rueda-clic, ratón, palanca de mando, pantalla táctil), dispositivos 1120 de salida (por ejemplo, LCD) , interfaces 1118 de red (por ejemplo, USB, FireWire, Ethernet, tarjeta de interfaz de red, transceptor inalámbrico) y un medio 1116 legible por computadora (por ejemplo, memoria, disco duro, unidad de memoria flash) . Algunos o todos estos componentes pueden enviar y/o recibir información a través de canales 1122 de comunicación (por ejemplo, un bus, puente) . En algunas aplicaciones, el medio 1116 legible por computadora incluye un sistema operativo, administrador de música, procesador de audio, módulo de remezclado y biblioteca de música. El sistema operativo es responsable de realizar tareas básicas de administrativas y de comunicación del dispositivo 1110 de audio, incluyendo administración de archivos, acceso a la memoria, contención de bus, controlar componentes periféricos, gestión de interfaz de usuario, gestión de energía, etc. El administrador de música puede ser una aplicación que administre la biblioteca de música. El procesador de audio puede ser un procesador de audio convencional para reproducir archivos de música (por ejemplo, MP3 , audio de CD, etc.) . El módulo de remezclado puede ser uno o más componentes de software que aplican la funcionalidad de los esquemas de remezclado descritos en referencia a las FIGURAS 1-10. En algunas aplicaciones, el servidor 1106 codifica una señal estereofónica y genera información secundaria, como se describe en referencia a las FIGURAS 1A, 6A y 8A. La señal estereofónica y la información secundaria se descargan en el dispositivo 1110 de audio a través de la red 1108. El módulo de remezclado descodifica las señales y la información secundaria y proporciona capacidad de remezclado con base en las entradas del usuario recibidas a través de un dispositivo 1114 de entrada (por ejemplo, teclado, rueda-clic, pantalla táctil) .
C. Interfaz de Usuario Para Recibir Entradas del Usuario La FIGURA 12 ilustra una aplicación de una interfaz 1202 de usuario para un reproductor 1200 de medios con capacidad de remezclado. La interfaz 1202 de usuario también puede adaptarse a otros dispositivos (por ejemplo, teléfonos móviles, computadoras, etc.). La interfaz de usuario no se limita a la configuración o formato mostrados y puede incluir diferentes tipos de elementos de interfaz de usuario (por ejemplo, controles de navegación, superficies táctiles) . Un usuario puede ingresar un modo de "remezclado" para el dispositivo 1200 al resaltar el elemento adecuado en la interfaz 1202 de usuario. En este ejemplo se asume que el usuario ha seleccionado una canción de la biblioteca de música y le gustaría cambiar la configuración panorámica de la pista vocal delantera. Por ejemplo, puede ser que el usuario quiera escuchar más la vocal delantera en el canal de audio izquierdo. Para acceder al control de panorámica deseada, el usuario puede navegar en una serie de submenús 1204, 1206 y 1208. Por ejemplo, el usuario puede desplazarse a través de los elementos en los submenús 1204, 1206 y 1208 mediante el uso de una rueda 1210. El usuario puede seleccionar un elemento de menú resaltado al presionar un botón 1212. El submenú 1208 proporciona acceso al control de panorámica deseada para la pista vocal delantera. El usuario puede entonces manipular el dispositivo deslizante (por ejemplo, utilizar la rueda 1210) para ajustar la panorámica de la vocal delantera como se desee mientras la canción se reproduce .
D. Sintaxis de Secuencia de Bits En algunas aplicaciones los esquemas de remezclado descritos en referencia a las FIGURAS 1-10 pueden incluirse en estándares de codificación de audio existentes o futuros (por ejemplo, MPEG-4) . La sintaxis de secuencia de bits para el estándar de codificación existente o futuro puede incluir información que puede utilizarse por un descodificador con capacidad de remezclado para determinar cómo procesar la secuencia de bits para permitir el remezclado por parte de un usuario. Tal sintaxis puede diseñarse para proporcionar compatibilidad hacia atrás con esquemas de codificación convencionales. Por ejemplo, una estructura de datos (por ejemplo, una cabecera de paquete) incluida en la secuencia de bits puede incluir información (por ejemplo, uno o más bits o banderas) que indica la disponibilidad de información secundaria (por ejemplo, factores de ganancia, energías de sub-banda) para el remezclado. Las modalidades descritas y otras y las operaciones funcionales descritas en esta especificación pueden aplicarse en circuitería electrónica digital o en software de computadora, firmware o hardware, incluyendo las estructuras descritas en esta especificación y sus equivalentes estructurales o en combinaciones de una o más de las mismas. Las modalidades descritas y otras pueden aplicarse como uno o más productos de programa informático, es decir, uno o más módulos de instrucciones de programa informático codificadas en un medio legible por computadora para su ejecución mediante, o para controlar la operación de, el aparato de procesamiento de datos. El medio legible por computadora puede ser un dispositivo de almacenamiento legible por máquina, un sustrato de almacenamiento legible por máquina, un dispositivo de memoria, una composición de temas que efectúan una señal propagada legible por máquina, o una combinación de uno o más de los mismos. El término "aparato de procesamiento de datos" abarca todos los aparatos, dispositivos y máquinas para el procesamiento de datos, incluyendo, a modo de ejemplo, un procesador programable, una computadora o múltiples procesadores o computadoras. El aparato puede incluir, además del hardware, un código que produzca un ambiente de ejecución para el programa informático en cuestión, por ejemplo, un código que constituya el firmware del procesador, una pila de protocolos, un sistema de gestión de bases de datos, un sistema operativo o una combinación de uno o más de los mismos . Una señal propagada es una señal generada en forma artificial, por ejemplo, una señal eléctrica, óptica o electromagnética generada por máquina que se genera para codificar información para su transmisión a un aparato receptor adecuado. Un programa informático (también conocido como programa, software, aplicación de software, programa de ejecución o código) puede escribirse en cualquier forma de lenguaje de programación, incluyendo lenguajes compilados o interpretados, y puede emplearse en cualquier forma, incluyendo como un programa independiente o como un módulo, componente, subrutina u otra unidad adecuada para su uso en un ambiente informático. Un programa informático no necesariamente corresponde con un archivo en un sistema de archivos. Un programa puede almacenarse en una parte de un archivo que contiene otros programas o datos (por ejemplo, uno o más programas de ejecución almacenados en un documento de lenguaje de marcado), en un solo archivo dedicado al programa en cuestión o en múltiples archivos coordinados (por ejemplo, archivos que almacenan uno o más módulos, subprogramas o porciones de código) . Un programa informático puede utilizarse para que se ejecute en una computadora o en múltiples computadoras que se ubican en un sitio o que se distribuyen en múltiples sitios y que se interconectan mediante una red de comunicación.
El proceso y flujos de lógica descritos en esta especificación pueden realizarse mediante uno o más procesadores programables que ejecutan uno o más programas informáticos para realizar funciones al operar en dados ingresados y generar resultados. Los procesos y flujos de lógica también pueden realizarse por, y pueden implementarse aparatos como, circuitería lógica de aplicación específica, por ejemplo, una FPGA (disposición de puerta programable de campo) o un ASIC (circuito integrado de aplicación específica) . Procesadores adecuados para la ejecución de un programa informático incluyen, a modo de ejemplo, microprocesadores de aplicación tanto general como específica y cualquiera o más procesadores de cualquier tipo de computadora digital. En general, un procesador recibirá instrucciones y datos de una memoria de sólo lectura o de una memoria de acceso aleatorio o de ambas . Los elementos esenciales de una computadora son un procesador para ejecutar instrucciones y uno o más dispositivos para almacenar instrucciones y datos. En general, una computadora también incluirá, o se acoplará en forma operativa para recibir datos o transferir datos, o ambos, uno o más dispositivos de almacenamiento masivo para almacenar datos, por ejemplo, discos magnéticos, discos magnéticos-ópticos o discos ópticos. Sin embargo, no es necesario que una computadora tenga tales dispositivos. Los medios legibles por computadora, adecuados para almacenar instrucciones de programa informático y datos, incluyen todas las formas de memoria no volátil, medios y dispositivos de memoria, incluyendo, a modo de ejemplo, dispositivos de memoria semiconductores, por ejemplo, EPRO , EEPROM y dispositivos de memoria flash; discos magnéticos, por ejemplo, discos duros internos o discos extraíbles; discos magnético-ópticos ; y discos de CD-ROM y de DVD-ROM. El procesador y la memoria pueden complementarse por, o incorporarse en, circuitería lógica de aplicación específica. Para permitir la interacción con un usuario, las modalidades descritas pueden aplicarse en una computadora que tenga un dispositivo de visualización, por ejemplo, un monitor de CRT (tubo de rayo catódico) o de LCD (pantalla de cristal líquido) para mostrar la información al usuario y un teclado y un dispositivo de indicación, por ejemplo, un ratón o bola de mando, mediante el cual el usuario pueda proporcionar entradas en la computadora. También pueden utilizarse otros tipos de dispositivos para permitir la interacción con un usuario; por ejemplo, la realimentación proporcionada al usuario puede ser cualquier forma de realimentación sensorial, por ejemplo, realimentación visual, realimentación auditiva o realimentación táctil; y las entradas del usuario pueden recibirse en cualquier forma, incluyendo entradas acústicas, vocales o táctiles. Las modalidades descritas pueden aplicarse en un sistema informático que incluye un componentes principales, por ejemplo, como un servidor de datos, o que incluye un componente de soporte intermedio, por ejemplo, un servidor de aplicación, o que incluye un componente de entrada, por ejemplo, una computadora cliente que tiene una interfaz gráfica de usuario o un buscador Web a través del cual un usuario puede interactuar con una aplicación de lo que se describe aquí, o cualquier combinación de uno o más de tales componentes principales, de soporte intermedio o de entrada. Los componentes del sistema pueden interconectarse mediante cualquier forma o medio de comunicación de datos sitial, por ejemplo, una red de comunicación. Ejemplos de redes de comunicación incluyen una red de área local ("LAN") y una red de área amplia ("WAN"), por ejemplo, la Internet. El sistema informático puede incluir clientes y servidores. Un cliente y un servidor por lo general se encuentran alejados uno del otro y típicamente interactúan a través de una red de comunicación. La relación de cliente y servidor surge en virtud de los programas informáticos que se ejecutan en las computadoras respectivas y que tienen una relación cliente-servidor uno con el otro.
VII. EJEMPLOS DE SISTEMAS QUE UTILIZAN TECNOLOGÍA DE REMEZCLADO La FIGURA 13 ilustra una aplicación de un sistema 1300 de descodificación que combina la descodificación de objeto de audio espacial (SAOC) y la descodificación de remezclado. El SAOC es una tecnología para tratamiento de audio de canal múltiple, la cual permite la manipulación interactiva de objetos de sonido codificados. En algunas aplicaciones, el sistema 1300 incluye un descodificador 1301 de señal de mezclado, un generador 1302 de parámetros y un dispositivo de presentación 1304 de remezclado. El generador 1302 de parámetros incluye un estimador 1308 sin salida, generador 1310 de parámetros de mezclado por el usuario y un generador 1306 de parámetros de remezclado. El generador 1306 de parámetros de remezclado incluye un generador 1312 de parámetros de mezclado y un generador 1314 de parámetros de mezclado ascendente. En algunas aplicaciones, el sistema 1300 proporciona dos procesos de audio. En un primer proceso, la información secundaria proporcionada por un sistema de codificación se utiliza por el generador 1306 de parámetros de remezclado para generar parámetros de remezclado. En un segundo proceso, los parámetros sin salida se generar mediante el estimador 1308 sin salida y se utilizan por el generador 1306 de parámetros de remezclado para generar parámetros de remezclado. Los parámetros sin salida y procesos de generación total o parcialmente sin salida pueden realizarse mediante el estimador 1308 sin salida como se describe en referencia a las FIGURAS 8A y 8B. En algunas aplicaciones, el generador 1306 de parámetros de remezclado recibe información secundaria o parámetros sin salida, y un conjunto de parámetros de mezclado del usuario del generador 1310 de parámetros de mezclado del usuario. El generador 1310 de parámetros de mezclado del usuario recibe parámetros de mezclado especificados por usuarios finales (por ejemplo, GANANCIA, PANORÁMICA) y convierte los parámetros de mezclado en un formato adecuado para el procesamiento de remezclado mediante el generador 1306 de parámetros de remezclado (por ejemplo, convierte en ganancias c±, Ci+1) . En algunas aplicaciones, el generador 1310 de parámetros de mezclado del usuario proporciona una interfaz de usuario para permitir que los usuarios especifiquen parámetros de mezclado deseados tales como, por ejemplo, la interfaz 1200 de usuario del reproductor de medios, como se describe en referencia a la FIGURA 12. En algunas aplicaciones, el generador 1306 de parámetros de remezclado puede procesar señales de audio estereofónico y de canal múltiple. Por ejemplo, el generador 1312 de parámetros de mezclado de ec puede generar parámetros de remezclado para un objetivo de canal estereofónico, y el generador 1314 de parámetros de mezclado ascendente puede generar parámetros de remezclado para un objetivo de canal múltiple. La generación de parámetros de remezclado con base en las señales de audio de canal múltiple se describió en referencia a la Sección IV. En algunas aplicaciones, el dispositivo de presentación 1304 de remezclado recibe parámetros de remezclado para una señal objetivo estereofónico o una señal objetivo de canal múltiple. El dispositivo de presentación 1316 de mezclado de ec aplica parámetros de remezclado estereofónico a la señal estereofónica original recibida directamente desde el descodificador 1301 de señal de mezclado para proporcionar una señal estereofónica remezclada deseada, proporcionada por el generador 1310 de parámetros de mezclado del usuario. En algunas aplicaciones, los parámetros de remezclado estereofónico pueden aplicarse a la señal estereofónica original mediante el uso de una matriz de n x n (por ejemplo una matriz de 2x2) de parámetros de remezclado estereofónico . El dispositivo de presentación 1318 de mezclado ascendente aplica parámetros de remezclado de canal múltiple a una señal de canal múltiple original recibida directamente desde el descodificador 1301 de señal de mezclado para proporcionar una señal de canal múltiple remezclada deseada con base en los parámetros formateados de mezclado de canal múltiple especificados por el usuario, proporcionados por el generador 1310 de parámetros de mezclado del usuario. En algunas aplicaciones, un generador 1320 de efectos genera señales de efectos (por ejemplo, reverberación) para que se apliquen a las señales originales de canal múltiple o estereofónico mediante el dispositivo de presentación 1316 de mezclado de ec o dispositivo de presentación de mezclado ascendente, respectivamente. En algunas aplicaciones, el dispositivo de presentación 1318 de mezclado ascendente recibe la señal estereofónica original y convierte (o mezcla en forma ascendente) la señal estereofónica en una señal de canal múltiple además de aplicar los parámetros de remezclado para generar una señal de canal múltiple remezclada. El sistema 1300 puede procesar señales de audio que tienen una diversidad de configuraciones de canal, permitiendo que el sistema 1300 se integre en sistemas de codificación de audio existentes (por ejemplo, SAOC, MPEG, AAAC, estereofónico paramétrico) al mismo tiempo que se mantiene la compatibilidad hacia atrás con tales esquemas de codificación de audio. La FIGURA 14A ilustra un modelo de mezclado general para Volumen de Diálogo Separado (SDV) . SDV es una técnica mejorada de mejoramiento de diálogo descrita en la Solicitud de Patente Provisional Norteamericana No. 60/884,594, para "volumen de Diálogo Separado" . En una aplicación de SDV, las señales estereofónicas se graban y mezclan de tal modo que para fuente la señal se dirige en forma coherente hacia los canales de señal izquierdo y derecho con señales direccionales especificas (por ejemplo, diferencia de nivel, diferencia de tiempo) y las señales independientes reflejadas/reverberadas se dirigen hacia canales que determinan el ancho de evento auditivo y señales de capacidad envolvente del oyente. Con referencia a la FIGURA 14A, el factor a determina la dirección en la que aparece un evento auditivo, donde s es el sonido directo y nx y n2 son reflexiones laterales. La señal s copia un sonido localizado de una dirección determinada mediante el factor a. Las señales independientes, nx y n2l corresponden con el sonido reflejado/reverberado, por lo general denotado sonido ambiente o tonalidad del local. El escenario descrito es una descomposición motivada para señales estereofónicas con una fuente de audio, x2 (n) = as (n) + n2, (51) que captura la ubicación de la fuente de audio y la tonalidad del local. La FIGURA 14B ilustra una aplicación de un sistema 1400 que combina el SDV con tecnología de remezclado. En algunas aplicaciones, el sistema 1400 incluye un banco de filtros 1402 (por ejemplo, STFT) , un estimador 1404 sin salida, un dispositivo de presentación 1406 de mezclado, un generador 1408 de parámetros y un banco de filtros 1410 inverso (por ejemplo, STFT inverso) . En algunas aplicaciones, una señal de mezclado descendente de SDV se recibe y descompone mediante el banco de filtros 1402 en señales de sub-banda. La señal de mezclado descendente puede ser una señal estereofónica, x l x2, dada por [51] . Las señales X1{ ,k), X2(i,k) de sub-banda se ingresan ya sea directamente en el dispositivo de presentación 1406 de mezclado de ec o en el estimador 1404 sin salida, lo cual produce parámetros sin salida, A, Ps, PN. El cálculo de estos parámetros se describe en la Solicitud de Patente Provisional Norteamericana No. 60/884,594, para "volumen de Diálogo Separado" . Los parámetros sin salida se ingresan en el generador 1408 de parámetros, el cual genera parámetros de mezclado de ec, ??11-?22, a partir de los parámetros sin salida y de los parámetros de mezclado especificados por el usuario g(i,J) (por ejemplo, ganancia central, ancho central, frecuencia de corte, sequedad) . El cálculo de los parámetros de mezclado de ec se describe en la Sección I. Los parámetros de mezclado de ec se aplican a las señales de sub-banda mediante el dispositivo de presentación 1406 para proporcionar señales de salida presentadas yI( y2. Las señales de salida presentadas del dispositivo de presentación 1406 de mezclado de ec se ingresan en el banco de filtros 1410 inverso, el cual convierte las señales de salida presentadas en la señal estereofónica de SDV deseada con base en los parámetros de mezclado especificados por el usuario. En algunas aplicaciones, el sistema 1400 también procesa señales de audio mediante el uso de tecnología de remezclado, como se describe en referencia a las FIGURAS 1-12. En un modo de remezclado, el banco 1402 de filtros recibe señales de canal múltiple o estereofónico, tal como las señales descritas en [1] y [27] . Las señales se descomponen en señales ¾(i, :), X2(í,k) de sub-banda mediante el banco de filtros 1402 y se ingresan directamente en el dispositivo de presentación 1406 de ec y en el estimador 1404 sin salida para estimar los parámetros sin salida. Los parámetros sin salida se ingresan en el generador 1408 de parámetros junto con la información secundaria ait jbi( Psi, recibida en una secuencia de bits. El generador 1408 de parámetros aplica los parámetros sin salida e información secundaria a las señales de sub-banda para generar señales de salida presentadas. Las señales de salida presentadas se ingresan en el banco de filtros 1410 inverso, el cual genera la señal de remezclado deseada . La FIGURA 15 ilustra una aplicación del dispositivo de presentación 1406 de mezclado de ec mostrado en la FIGURA 14B. En algunas aplicaciones, una señal X1 de mezclado descendente se ajusta en escala mediante módulos 1502 y 1504 de escala, y una señal X2 de mezclado descendente se ajusta en escala mediante módulos 1506 y 1508 de escala. El módulo 1502 de escala ajusta en escala la señal 2 de mezclado descendente mediante el parámetro ??1 de mezclado de ec, el módulo 1504 de escala ajusta en escala la señal X2 de mezclado descendente mediante el parámetro ?21 de mezclado de ec, el módulo 1506 de escala ajusta en escala la señal X2 de mezclado descendente mediante el parámetro ?12 de mezclado de ec y el módulo 1508 de escala ajusta en escala la señal X2 de mezclado descendente mediante el parámetro ?22 de mezclado de ec . Los resultados de los módulos 1502 y 1506 de escala se suman para proporcionar una primera señal y2 de salida presentada, y los de los módulos 1504 y 1508 de escala se suman para proporcionar una segunda señal y2 de salida presentada . La FIGURA 16 ilustra un sistema 1600 de distribución para la tecnología de remezclado descrita en referencia a las FIGURAS 1-15. En algunas aplicaciones, un proveedor 162 de contenido utiliza una herramienta 1604 de autoedición que incluye un codificador 1606 de remezclado para generar información secundaria, como se describe en lo anterior en referencia a la FIGURA 1A. La información secundaria puede ser parte de uno o más archivos y/o incluirse en una secuencia de bits para un servicio de transmisión continúa de bits. Los archivos de remezclado pueden tener una extensión de archivo única (por ejemplo, filename . rmx) . Un solo archivo puede incluir la señal de audio mezclada original y la información secundaria. De manera alterna, la señal de audio mezclada original y la información secundaria pueden distribuirse como archivos separados en un paquete, grupo de enlace, lote u otro contenedor adecuado. En algunas aplicaciones, los archivos de remezclado pueden distribuirse con parámetros de mezclado preestablecidos para ayudar a los usuarios a aprender la tecnología y/o para propósitos de mercadotecnia. En algunas aplicaciones, el contenido original (por ejemplo, el archivo de audio mezclado original) , la información secundaria y los parámetros de mezclado preestablecidos originales ("información de remezclado") pueden proporcionarse a un proveedor 1608 del servicio (por ejemplo, un portal de música) o colocarse en un medio físico (por ejemplo, un CD-ROM, DVD, reproductor de medios, unidad de memoria flash) . El proveedor 1608 del servicio puede operar uno o más servidores 1610 para atender toda o parte de la información de remezclado y/o una secuencia de bits que contiene toda o parte de la información de remezclado. La información de remezclado puede almacenarse en un diccionario de datos 1612. El proveedor 1608 del servicio también puede proporcionar un ambiente virtual (por ejemplo, una comunidad social, portal, cartel de anuncios) para compartir parámetros de mezclado generados por el usuario. Por ejemplo, los parámetros de mezclado generados por un usuario en un dispositivo 1616 listo para el remezclado (por ejemplo, un reproductor de medios, teléfono móvil) pueden almacenarse en un archivo de parámetros de mezclado que pueda transmitirse al proveedor 1608 del servicio para compartirlo con otros usuarios. El archivo de parámetros de mezclado puede tener una extensión única (por ejemplo, filename . rms ) . En el ejemplo mostrado, un usuario generó un archivo de parámetros de mezclado mediante el uso del reproductor A de remezclado y transmitió el archivo de parámetros al proveedor 1608 del servicio, en donde el archivo se descargó después por un usuario que opera un reproductor B de remezclado. El sistema 1600 puede aplicarse mediante el uso de cualquier esquema de gestión de derechos digital conocido y/u otros métodos de seguridad conocidos para proteger el contenido original y la información de remezclado. Por ejemplo, puede ser que el usuario que opera el reproductor B de remezclado necesite descargar el contenido original en forma separada y adquirir una licencia antes de que el usuario pueda acceder o el usuario remezclar las características proporcionadas por el reproductor B de remezclado.
La FIGURA 17A ilustra elementos básicos de una secuencia de bits para proporcionar información de remezclado. En algunas aplicaciones, una sola secuencia de bits 1702 integrada puede enviarse a dispositivos activados por remezclado que incluye una señal de audio mezclada (Mixed_Obj BS) , factores de ganancia y energías de sub-banda (Ref_Mix_Para BS) y parámetros de mezclado especificados por el usuario (User_Mix_Para BS) . En algunas aplicaciones, múltiples secuencias de bits para la información de remezclado pueden enviarse en forma independiente a dispositivos activos por remezclado. Por ejemplo, la señal de audio mezclada puede enviarse en una primera secuencia de bits 1704 y los factores de ganancia, energías de sub-banda y parámetros de mezclado especificados por el usuario pueden enviarse en una segunda secuencia de bits 1706. En algunas aplicaciones, la señal de audio mezclada, los factores de ganancia y energías de sub-banda, y los parámetros de mezclado especificados por el usuario pueden enviarse en tres secuencias de bits 1708, 1710 y 1712 separadas. Estas secuencias de bits separadas pueden enviarse en velocidades binarias iguales o diferentes. Las secuencias de bits pueden procesase según se requiera mediante el uso de una diversidad de técnicas conocidas para conservar el ancho de banda y garantizar la robustez, incluyendo la intercalación de bits, codificación por entropía (por ejemplo, codificación de Huffman), corrección de errores, etc. La FIGURA 17B ilustra una interfaz de secuencias de bits para un codificador 1714 de remezclado. En algunas aplicaciones, las entradas en la interfaz de 1714 de remezclado del codificador pueden incluir una señal de objeto mezclada, señales individuales de objeto o fuente y opciones del codificador. Las salidas de la interfaz 1714 del codificador pueden incluir una secuencia de bits de señal de audio mezclada, una secuencia de bits que incluye factores de ganancia y energías de sub-banda, y una secuencia de bits que incluye parámetros de mezclado preestablecidos. La FIGURA 17C ilustra una interfaz de secuencias de bits para un codificador 1716 de remezclado. En algunas aplicaciones, las entradas en la interfaz 1716 del codificador pueden incluir una secuencia de bits de señal de audio mezclada, una secuencia de bits que incluye factores de ganancia y energías de sub-banda, y una secuencia de bits que incluye parámetros de mezclado preestablecidos. Las salidas de la interfaz 1716 del descodificador pueden incluir una señal de audio remezclada, una secuencia de bits del dispositivo de presentación de mezclado ascendente (por ejemplo, una señal de canal múltiple) , parámetros de remezclado sin salida y parámetros de remezclado del usuario. Otras configuraciones para las interfaces del codificador y del descodificador son posibles. Las configuraciones de interfaz ilustradas en las FIGURAS 17B y 17C pueden utilizarse para definir una Interfaz de Programación de Aplicación (API) para permitir que los dispositivos activados por remezclado procesen la información de remezclado. Las interfaces que se muestran ilustradas en las FIGURAS 17B y 17C son ejemplos y otras configuraciones son posibles, incluyendo configuraciones con diferentes números y tipos de entradas y salidas, las cuales pueden basarse en parte del dispositivo. La FIGURA 18 es un diagrama de bloques que muestra un sistema 1800 ejemplar, incluyendo extensiones para generar información secundaria adicional para ciertas señales de objeto para proporcionar una calidad percibida mejorada de la señal remezclada. En algunas aplicaciones, el sistema 1800 incluye (del lado de la codificación) un codificador 1808 de señal de mezclado y un codificador 1802 de remezclado mejorado, el cual incluye un codificador 1804 de remezclado y codificador 1806 de señales. En algunas aplicaciones, el sistema 1800 incluye (del lado de la descodificación) un descodificador 1810 de señal de mezclado, un dispositivo de presentación 1814 de remezclado y un generador 1816 de parámetros . Del lado del codificador, el codificador 1808 de señal de mezclado codifica una señal de audio mezclada (por ejemplo, codificador de mp3) y la envía hacia el lado de la descodificación. Las señales de objeto (por ejemplo, vocal delantera, guitarra, baterías u otros instrumentos) se ingresan en el codificador 1804 de remezclado, el cual genera información secundaria (por ejemplo, factores de ganancia y energías de sub-banda) , como se describe en lo anterior en referencia a las FIGURAS 1A y 3A, por ejemplo. Además, una o más señales de objeto de interés se ingresan en el codificador 1806 de señales (por ejemplo codificador de mp3) para producir información secundaria adicional. En algunas aplicaciones, la información de alineación se ingresa en el codificador 1806 de señales para alinear las señales de entrada del codificador 1808 de señal de mezclado y el codificador 1806 de señales, respectivamente. La información de alineación puede incluir información de alineación por tiempo, tipo de codificador/descodificador utilizado, velocidad binaria objetivo, información de asignación de bits o estrategia, etc. Del lado del descodificador, el resultado del codificador de señales se ingresa en el descodificador 1810 de señal de mezclado (por ejemplo, descodificador de mp3 ) . El resultado del descodificador 1810 de señal de mezclado y la información secundaria del codificador (por ejemplo, factores de ganancia generados del codificador, energías de sub-banda, información secundaria adicional) se ingresan en el generador 1816 de parámetros, el cual utiliza estos parámetros, junto con los parámetros de control (por ejemplo, parámetros de mezclado especificados por el usuario) , para generar parámetros de remezclado y datos de remezclado adicionales. El dispositivo de presentación 1814 de remezclado puede utilizar los parámetros de remezclado y datos de remezclado adicionales para presentar la señal de audio remezclada. El dispositivo de presentación 1814 de remezclado utiliza los datos de remezclado adicionales (por ejemplo, una señal de objeto) para volver a mezclar un objeto particular en la señal de audio de mezclado original. Por ejemplo, en una aplicación de KaraoA:e, el codificador 1802 de remezclado mejorado puede utilizar una señal de objeto que representa una vocal delantera para generar información secundaria adicional (por ejemplo, una señal de objeto codificada) . El generador 1816 de parámetros puede utilizar esta señal para generar datos de remezclado adicionales que el dispositivo de presentación 1814 de remezclado puede utilizar para volver a mezclar la vocal delantera en la señal de audio de mezclado original (por ejemplo, suprimir o atenuar la vocal delantera) . La FIGURA 19 es un diagrama de bloques que muestra un ejemplo del dispositivo de presentación 1814 de remezclado mostrado en la FIGURA 18. En algunas aplicaciones, las señales Xlt X2 de mezclado descendente se ingresan en combinadores 1904, 1906, respectivamente. Las señales Xlt X2 de mezclado descendente pueden ser, por ejemplo, canales izquierdo y derecho de la señal de audio de mezclado original. Los combinadores 1904, 1906 combinan las señales Xi, X2 de mezclado descendente con datos de remezclado adicionales proporcionados mediante el generador 1816 de parámetros. En el ejemplo con KaraoTce, la combinación puede incluir eliminar la señal de objeto de vocal delante de las señales Xlt X2 de mezclado descendente antes del remezclado para atenuar o suprimir la vocal delantera en la señal de audio remezclada. En algunas aplicaciones, la señal Xx de mezclado descendente (por ejemplo, canal izquierdo de la señal de audio de mezclado original) se combina con datos de remezclado adicionales (por ejemplo, canal izquierdo de la señal de objeto de vocal delantera) y ajustarse en escala mediante los módulos 1906a y 1906b de escala, y la señal X2 de mezclado descendente (por ejemplo, canal derecho de la señal de audio de mezclado original) se combina con datos de remezclado adicionales (por ejemplo, canal derecho de la señal de objeto de vocal delantera) y se ajusta en escala mediante los módulos 1906c y 1906d de escala. El módulo 1906a de escala ajusta en escala la señal X± de mezclado descendente mediante el parámetro de mezclado de ec, el módulo 1906b de escala ajusta en escala la señal X de mezclado descendente mediante el parámetro ?2? de mezclado de ec, el módulo 1906C de escala ajusta en escala la señal X2 de mezclado descendente mediante el parámetro ?12 de mezclado de ec y el módulo 1906d de escala ajusta en escala la señal X2 de mezclado descendente mediante el parámetro ?22 de mezclado de ec . El ajuste en escala puede aplicarse mediante el uso de algebra lineal, tal como el uso de una matriz de n por n (por ejemplo, 2x2) . Los resultados de los módulos 1906a y 1906c de escala se suman para proporcionar una primera señal Y2 de salida presentada, y los de los módulos 1906b y 1906d de escala se suman para proporcionar una segunda señal Y2 de salida presentada. En algunas aplicaciones se puede implantar un control (por ejemplo, conmutador, dispositivo deslizante, botón) en una interfaz de usuario para moverse entre una mezcla estereofónica origina, modo de "KaraoJe" y/o modo "a cápela". Como una función de esta posición del control, el combinador 1902 controla la combinación lineal entre la señal estereofónica original y la o las señales obtenidas de la información secundaria adicional. Por ejemplo, para el modo de KaraoTce, la señal obtenida de la información secundaria adicional puede sustraerse de la señal estereofónica . El procesamiento de remezclado puede aplicarse después de eliminar el ruido por cuantificación (en caso de que la señal estereofónica y/u otra se codificaran con pérdidas) . Para eliminar vocales en forma parcial, sólo se necesita sustraer parte de la señal obtenida de la información secundaria adicional. Para reproducir sólo vocales, el combinador 1902 selecciona la señal obtenida de la información secundaria adicional. Para reproducir las vocales con algo de música de fondo, el combinador 1902 agrega una versión a escala de la señal estereofónica a la señal obtenida de la información secundaria adicional. Aunque esta especificación contiene muchas especificaciones, éstas no deben considerarse como limitaciones en el alcance de lo que son las reivindicaciones o de lo que puede reclamarse, sino que, en cambio, como descripciones de características específicas para modalidades particulares . Ciertas características que se describen en esta especificación en el contexto de modalidades separadas también pueden aplicarse en combinación en una sola modalidad. Por otra parte, diversas características que se describen el contexto de una sola modalidad también pueden aplicarse en múltiples modalidades en forma separada o en cualquier subcombinación adecuada. Además, aunque en lo anterior se puede describir que las características actúan en ciertas combinaciones e incluso se reclaman inicialmente como tales, una o más características de una combinación reclamada puede, en algunos casos, eliminarse de la combinación, y la combinación reclamada puede dirigirse a una subcombinación o variación de una subcombinación.
De manera similar, aunque las operaciones se representan en los dibujos en un orden particular, no debe entenderse que esto requiere que tales operaciones se realicen en el orden particular mostrado o en orden secuencial o que se realicen todas las operaciones ilustradas para obtener los resultados deseados. En ciertas circunstancias, el procesamiento de múltiples tareas y paralelo puede ser favorable. Además, no debe entenderse que la separación de diversos componentes del sistema en las modalidades descritas en lo anterior requiere tal separación en todas las modalidades, y debe entenderse que los sistemas y componentes del programa descritos por lo general pueden integrarse juntos en un solo producto de software o presentarse en múltiples productos de software. Se han descrito modalidades particulares del tema descrito en esta especificación. Otras modalidades se encuentran dentro del alcance de las siguientes reivindicaciones. Por ejemplo, las acciones citadas en las reivindicaciones pueden realizarse en un orden diferente y aún asi obtener los resultados deseados. Como un ejemplo, el proceso representado en las figuras anexas no necesariamente requiere el orden particular mostrado, u orden secuencial, para obtener los resultados deseados . Como otro ejemplo, el preprocesamiento de información secundaria descrito en la Sección 5A proporciona un valor límite menor en la energía de sub-banda de la señal remezclada para evitar valores negativos, lo cual contradice al modelo de señal dado en [2] . Sin embargo, este modelo de señal no sólo implica energía positiva de la señal remezclada, sino también productos vectoriales positivos entre las señales estereofónicas originales y las señales estereofónicas remezcladas, es decir, E iyj}, E{x!y2} , E{x2yi) y E{x2y2) ¦ Iniciando con el caso de dos ponderaciones, para evitar que los productos vectoriales E xiyi} y E{x2y2) se vuelvan negativos, las ponderaciones definidas en [18] se limitan a un cierto umbral, de tal manera que nunca sean menores que A dB . Por lo tanto, los productos vectoriales se limitan al considerar las siguientes condiciones, donde sqrt designa la raíz cuadrada y Q se define como Q=10A-A/10: • Si ?? ???) < Q*E{x2} , entonces el producto vectorial se limita a E x2 i} = Q*E{x22}. • Si E{x1,y2) < Q*sqrt {E{X2}E{X22} , entonces el producto vectorial se limita a = E{x±y2} = Q*sqrt{E{x2}E{x22}. • Si < Q*sqrt {?{?2}?{?22} , entonces el producto vectorial se limita a E x2 i} = Q*sqrt {E{xx2} E{x22} . • Si E{x2y2} < Q*E{x22} , entonces el producto vectorial se limita a E{x2y2] = Q*E{x22} .

Claims (145)

  1. REIVINDICACIONES 1. Un método que comprende : obtener una primera señal de audio de canal múltiple que tiene un conjunto de objetos ; obtener información secundaria, por lo menos parte de la cual representa una relación entre la primera señal de audio de canal múltiple y una o más señales fuente que representan los objetos que se volverán a mezclar; obtener un conjunto de parámetros de mezclado; y generar una segunda señal de audio de canal múltiple mediante el uso de la información secundaria y el conjunto de parámetros de mezclado.
  2. 2. El método de la reivindicación 1, en donde obtener el conjunto de parámetros de mezclado además comprende: recibir entradas del usuario que especifican el conjunto de parámetros de mezclado.
  3. 3. El método de la reivindicación 1, en donde generar una segunda señal de audio de canal plural comprende : descomponer la primera señal de audio de canal plural en un primer conjunto de señales de sub-banda; estimar un segundo conjunto de señales de sub-banda que corresponden con la segunda señal de audio de canal plural mediante el uso de la información secundaria y del conjunto de parámetros de mezclado; y convertir el segundo conjunto de señales de sub-banda en la segunda señal de audio de canal plural .
  4. 4. El método de la reivindicación 3, en donde estimar un segundo conjunto de señales de sub-banda además comprende : descodificar la información secundaria para proporcionar factores de ganancia y estimaciones de energía de sub-banda asociadas con los objetos que se volverán a mezclar; determinar uno o más conjuntos de ponderaciones con base en los factores de ganancia, estimaciones de energía de sub-banda y en el conjunto de parámetros de mezclado; y estimar el segundo conjunto de señales de sub-banda mediante el uso de por lo menos un conjunto de ponderaciones.
  5. 5. El método de la reivindicación 4 , en donde determinar uno o más conjuntos de ponderaciones además comprende : determinar una magnitud de un primer conjunto de ponderaciones; y determinar una magnitud de un segundo conjunto de ponderaciones, en donde el segundo conjunto de ponderaciones incluye un número diferente de ponderaciones que el primer conjunto de ponderaciones.
  6. 6. El método de la reivindicación 5, además comprende: comparar las magnitudes del primer y segundo conjuntos de ponderaciones; y seleccionar uno del primer y segundo conjuntos de ponderaciones para su uso al estimar el segundo conjunto de señales de sub-banda con base en los resultados de la comparación.
  7. 7. El método de la reivindicación 4, en donde determinar uno o más conjuntos de ponderaciones además comprende : determinar un conjunto de ponderaciones que reduzca al mínimo una diferencia entre la primera señal de audio de canal plural y la segunda señal de audio de canal plural .
  8. 8. El método de la reivindicación 4, en donde determinar uno o más conjuntos de ponderaciones además comprende: formar un sistema de ecuaciones lineales, en donde cada ecuación en el sistema es una suma de productos, y cada producto se forma al multiplicar una señal de sub-banda con una ponderación; y determinar la ponderación al resolver el sistema de ecuaciones lineales.
  9. 9. El método de la reivindicación 8, en donde el sistema de ecuaciones lineales se resuelve mediante el uso de una estimación de mínimos cuadrados.
  10. 10. El método de la reivindicación 9, en donde una solución al sistema de ecuaciones lineales proporciona una primera ponderación ?1 ? dada por donde E{.) designa un promediado de tiempo corto, ?? y x2 son canales de la primera señal de audio de canal plural e ?? es un canal de la segunda señal de audio de canal plural .
  11. 11. El método de la reivindicación 10, en donde una solución al sistema de ecuaciones lineales proporciona una segunda ponderación ?12, dada por donde E{ . } designa un promediado de tiempo corto, ? y x2 son canales de la primera señal de audio de canal plural e yx es un canal de la segunda señal de audio de canal plural .
  12. 12. El método de la reivindicación 11, en donde una solución al sistema de ecuaciones lineales proporciona una tercera ponderación ?2?, dada por donde E{ . } designa un promediado de tiempo corto, ? y x2 son canales de la primera señal de audio de canal plural e y2 es un canal de la segunda señal de audio de canal plural .
  13. 13. El método de la reivindicación 12, en donde una solución al sistema de ecuaciones lineales proporciona una cuarta ponderación ?22, dada por w = E{xlx2)E{x]y2} - E{x2}E{x2y1) donde E{ . } designa un promediado de tiempo corto, xi y x2 son canales de la primera señal de audio de canal plural e y2 es un canal de la segunda señal de audio de canal plural .
  14. 14. El método de la reivindicación 4 además comprende : ajustar una o más señales de diferencia de nivel asociadas con el segundo conjunto de señales de sub-banda para corresponder con una o más señales de diferencia de nivel asociadas con el primer conjunto de señales de sub-banda .
  15. 15. El método de la reivindicación 4, además comprende : limitar una estimación de energía de sub-banda de la segunda señal de audio de canal plural para que sea mayor o igual a un valor de umbral inferior a una estimación de energía de sub-banda de la primera señal de audio de canal plural.
  16. 16. El método de la reivindicación 4, además comprende : ajustar en escala las estimaciones de energía de sub-banda mediante un valor mayor que uno antes de utilizar las estimaciones de energía de sub-banda para determinar uno o más conjuntos de ponderaciones.
  17. 17. El método de la reivindicación 1, en donde obtener la primera señal de audio de canal plural además comprende : recibir una secuencia de bits que incluye una señal de audio de canal plural codificada; y descodificar la señal de audio de canal plural codificada para obtener la primera señal de audio de canal plural .
  18. 18. El método de la reivindicación 4, además comprende : suavizar uno o más conjuntos de ponderaciones con el tiempo.
  19. 19. El método de la reivindicación 18, además comprende: controlar el suavizado de uno o más conjuntos de ponderaciones con el tiempo para reducir las distorsiones de audio .
  20. 20. El método de la reivindicación 18, además comprende: suavizar uno o más conjuntos de ponderaciones con el tiempo con base en una medición tonal o estacionaria.
  21. 21. El método de la reivindicación 18, además comprende : determinar si una medición tonal o estacionaria de la primera señal de audio de canal plural excede un umbral; y suavizar uno o más conjuntos de ponderaciones con el tiempo si la medición excede el umbral.
  22. 22. El método de la reivindicación 1, además comprende : sincronizar la primera señal de audio de canal plural con la información secundaria.
  23. 23. El método de la reivindicación 1, en donde generar la segunda señal de audio de canal plural además comprende : volver a mezclar objetos para un subconjunto de canales de audio de la primera señal de audio de canal plural .
  24. 24. El método de la reivindicación 1, además comprende : modificar un grado de tonalidad del local de la primera señal de audio de canal plural mediante el uso de las estimaciones de energía de sub-banda y del conjunto de parámetros de mezclado.
  25. 25. El método de la reivindicación 1, en donde obtener un conjunto de parámetros de mezclado además comprende : Obtener valores de panorámica y de ganancia especificados por el usuario; y determinar el conjunto de parámetros de mezclado a partir de los valores de panorámica y de ganancia y de la información secundaria.
  26. 26. Un método que comprende: obtener una señal de audio que tiene un conjunto de objetos; obtener señales fuente que representan los objetos; y generar información secundaria a partir de las señales fuente, por lo menos parte de la información secundaria representa una relación entre la señal de audio y las señales fuente .
  27. 27. El método de la reivindicación 26, en donde generar información secundaria además comprende: obtener uno o más factores de ganancia; descomponer la señal de audio y el subconjunto de señales fuente en un primer conjunto de señales de sub-banda y en un segundo conjunto de señales de sub-banda, respectivamente ; para cada señal de sub-banda en el segundo conjunto de señales de sub-banda: estimar una energía de sub-banda para la señal de sub-banda; y generar información secundaria a partir de uno o más factores de ganancia y de la energía de sub-banda.
  28. 28. El método de la reivindicación 26, en donde generar información secundaria además comprende: descomponer la señal de audio y el subconjunto de señales fuente en un primer conjunto de señales de sub-banda y en un segundo conjunto de señales de sub-banda, respectivamente; para cada señal de sub-banda en el segundo conjunto de señales de sub-banda: estimar una energía de sub-banda para la señal de sub-banda; obtener uno o más factores de ganancia; y generar información secundaria a partir de uno o más factores de ganancia y de la energía de sub-banda.
  29. 29. El método de la reivindicación 27 ó 28, en donde obtener uno o más factores de ganancia además comprende: estimar uno o más factores de ganancia mediante el uso de la energía de sub-banda y de una señal de sub-banda correspondiente del primer conjunto de señales de sub-banda.
  30. 30. El método de la reivindicación 27 ó 28, en donde generar información secundaria a partir de uno o más factores de ganancia y energía de sub-banda además comprende: cuantificar y codificar la energía de sub-banda para generar información secundaria.
  31. 31. El método de la reivindicación 27 ó 28, en donde un ancho de una sub-banda se basa en la percepción auditiva humana.
  32. 32. El método de la reivindicación 27 ó 28, en donde descomponer la señal de audio y el subconjunto de señales fuente además comprende: multiplicar muestras de la señal de audio y del subconjunto de señales fuente con una función de ventana; y aplicar una transformada de tiempo- frecuencia a las muestras con función de ventana para generar el primer y segundo conjunto de señales de sub-banda.
  33. 33. El método de la reivindicación 27 ó 28, en donde descomponer la señal de audio y el subconjunto de señales fuente además comprende: procesar la señal de audio y el subconjunto de señales fuente mediante el uso de una transformada de tiempo-frecuencia para producir coeficientes espectrales; y agrupar los coeficientes espectrales en un número de divisiones que representan una resolución de frecuencia no uniforme de un sistema auditivo humano.
  34. 34. El método de la reivindicación 33, en donde por lo menos un grupo tiene un ancho de banda de aproximadamente dos veces un ancho de banda rectangular equivalente (ERB) .
  35. 35. El método de la reivindicación 33, en donde la transformada de tiempo- frecuencia es una transformada del grupo de transformadas que se conforma de: una transformada de Fourier de tiempo corto (STFT) , un banco de filtros espejo en cuadratura (QMF) , una transformada de coseno discreta modificada (MDCT) y un banco de filtros de Wavelet.
  36. 36. El método de la reivindicación 27 ó 28, en donde estimar una energía de sub-banda para una señal de sub-banda además comprende : promediar por tiempo corte la señal fuente correspondiente.
  37. 37. El método de la reivindicación 36, en donde promediar por tiempo corto la señal fuente correspondiente además comprende: un promediado unipolar de la señal fuente correspondiente mediante el uso de una ventana de estimación exponencialmente en decadencia.
  38. 38. El método de la reivindicación 27 ó 28, además comprende: normalizar la energía de sub-banda relacionada con una energía de señal de sub-banda de la señal de audio.
  39. 39. El método de la reivindicación 27 ó 28, en donde estimar una energía de sub-banda además comprende: utilizar una medición de la energía de sub-banda como la estimación.
  40. 40. El método de la reivindicación 27, además comprende : estimar uno o más factores de ganancia como una función de tiempo.
  41. 41. El método de la reivindicación 27 ó 28, en donde la cuantificación y codificación además comprende: determinar una diferencia de nivel y de ganancia a partir de uno o más factores de ganancia; cuantificar la diferencia de nivel y de ganancia; y codificar la diferencia cuantificada de nivel y de ganancia .
  42. 42. El método de la reivindicación 27 ó 28, en donde la cuantificación y codificación además comprende: calcular un factor que define la energía de sub-banda en relación con una energía de sub-banda de la señal de audio y con uno o más factores de ganancia; cuantificar el factor; y codificar el factor cuantificado .
  43. 43. Un método que comprende: obtener una señal de audio que tiene un conjunto de obj etos ; obtener un subconjunto de señales fuente que representa un subconjunto de los objetos; y generar información secundaria a partir del subconjunto de señales fuente.
  44. 44. Un método que comprende: obtener una señal de audio de canal plural; determinar factores de ganancia para un conjunto de señales fuente mediante el uso de diferencias de nivel fuente deseada que representan direcciones de sonido deseadas del conjunto de señales fuente en una etapa de sonido; estimar una energía de sub-banda para una dirección de sonido directo del conjunto de señales fuente mediante el uso de la señal de audio de canal plural ; y estimar energías de sub-banda para por lo menos parte de las señales fuente en el conjunto de señales fuente al modificar la energía de sub-banda para la dirección de sonido directo como una función de la dirección de sonido directo y una dirección de sonido deseada.
  45. 45. El método de la reivindicación 44, en donde la función es una función de dirección de sonido que regresa un factor de ganancia de aproximadamente uno sólo para la dirección de sonido deseada.
  46. 46. Un método que comprende: obtener una señal de audio mezclada; obtener un conjunto de parámetros de mezclado para volver a mezclar la señal de audio mezclada; si la información secundaria está disponible, volver a mezclar la señal de audio mezclada mediante el uso de la información secundaria y del conjunto de parámetros de mezclado; si la información secundaria no está disponible, generar un conjunto de parámetros sin salida a partir de la señal de audio mezclada; y generar una señal de audio remezclada mediante el uso de los parámetros sin salida y del conjunto de parámetros de mezclado.
  47. 47. El método de la reivindicación 46, además comprende : generar parámetros de remezclado a partir de los parámetros sin salida o de la información secundaria; y si se generan los parámetros de remezclado a partir de la información secundaria, generar la señal de audio remezclada a partir de los parámetros de remezclado y de la señal mezclada.
  48. 48. El método de la reivindicación 46, además comprende : mezclar en forma ascendente la señal de audio mezclada a fin de que la señal de audio remezclada tenga más canales que la señal de audio mezclada.
  49. 49. El método de la reivindicación 46, además comprende : agregar uno o más efectos a la señal de audio remezclada.
  50. 50. Un método que comprende: obtener una señal de audio mezclada que incluye señales fuente vocal; obtener parámetros de mezclado que especifican una mejora deseada a una o más de las señales fuente vocal; generar un conjunto de parámetros sin salida a partir de la señal de audio mezclada; generar parámetros de remezclado a partir de los parámetros sin salida y de los parámetros de mezclado; y aplicar los parámetros de remezclado a la señal mezclada para mejorar uno o más señales fuente vocal de acuerdo con los parámetros de mezclado.
  51. 51. Un método que comprende: generar una interfaz de usuario para recibir parámetros de mezclado de especificación de entrada; obtener un parámetro de mezclado a través de la interfaz de usuario; obtener una primera señal de audio que incluye señales fuente; obtener información secundaria, por lo menos parte de la cual representa una relación entre la primera señal de audio y una o más señales fuente; y volver a mezclar una o más señales fuente mediante el uso de la información secundaria y del parámetro de mezclado para generar una segunda señal de audio.
  52. 52. El método de la reivindicación 51, además comprende : recibir la primera señal de audio o la información secundaria a partir de un recurso de red.
  53. 53. El método de la reivindicación 51, además comprende : recibir la primera señal de audio o la información secundaria a partir de un medio legible por computadora.
  54. 54. Un método que comprende: obtener una primera señal de audio de canal plural que tiene un conjunto de objetos; obtener información secundaria, por lo menos parte de la cual representa una relación entre la primera señal de audio de canal plural y una o más señales fuente que representan un subconjunto de objetos que se volverán a mezclar; obtener un conjunto de parámetros de mezclado; y generar una segunda señal de audio de canal plural mediante el uso de la información secundaria y del conjunto de parámetros de mezclado.
  55. 55. El método de la reivindicación 54, en donde obtener el conjunto de parámetros de mezclado además comprende : recibir entradas del usuario que especifican el conjunto de parámetros de mezclado.
  56. 56. El método de la reivindicación 54, en donde generar una segunda señal de audio de canal plural comprende: descomponer la primera señal de audio de canal plural en un primer conjunto de señales de sub-banda; estimar un segundo conjunto de señales de sub-banda que corresponde con la segunda señal de audio de canal plural mediante el uso de la información secundaria y del conjunto de parámetros de mezclado; y convertir el segundo conjunto de señales de sub-banda en la segunda señal de audio de canal plural .
  57. 57. El método de la reivindicación 56, en donde estimar un segundo conjunto de señales de sub-banda además comprende : descodificar la información secundaria para proporcionar factores de ganancia y estimaciones de energía de sub-banda asociadas con los objetos que se volverán a mezclar; determinar uno o más conjuntos de ponderaciones con base en los factores de ganancia, en las estimaciones de energía de sub-banda y en el conjunto de parámetros de mezclado; y estimar el segundo conjunto de señales de sub-banda mediante el uso de por lo menos un conjunto de ponderaciones.
  58. 58. El método de la reivindicación 57, en donde determinar uno o más conjuntos de ponderaciones además comprende : determinar una magnitud de un primer conjunto de ponderaciones; y determinar una magnitud de un segundo conjunto de ponderaciones, en donde el segundo conjunto de ponderaciones incluye un número diferente de ponderaciones que el primer conjunto de ponderaciones.
  59. 59. El método de la reivindicación 58, además comprende : comparar las magnitudes del primer y segundo conjuntos de ponderaciones; y Seleccionar uno del primer y segundo conjuntos de ponderaciones para su uso al estimar el segundo conjunto de señales de sub-banda con base en los resultados de la comparación .
  60. 60. Un método que comprende: obtener una señal de audio mezclada; obtener un conjunto de parámetros de mezclado para volver a mezclar la señal de audio mezclada; generar parámetros de remezclado mediante el uso de la señal de audio mezclada y del conjunto de parámetros de mezclado; y generar una señal de audio remezclada al aplicar los parámetros de remezclado a la señal de audio mezclada mediante el uso de una matriz de n por n.
  61. 61. Un método que comprende: obtener una señal de audio que tiene un conjunto de obj etos ; obtener señales fuente que representan los objetos; generar información secundaria a partir de las señales fuente, por lo menos parte de la información secundaria representa una relación entre la señal de audio y las señales fuente; codificar por lo menos una señal que incluye por lo menos una señal fuente; y proporcionar a un descodificador la señal de audio, la información secundaria y la señal fuente codificada.
  62. 62. Un método que comprende: obtener una señal de audio mezclada; obtener una señal fuente codificada, asociada con un objeto en la señal de audio mezclada; obtener un conjunto de parámetros de mezclado para volver a mezclar la señal de audio mezclada; generar parámetros de remezclado mediante el uso de la señal fuente codificada, de la señal de audio mezclada y del conjunto de parámetros de mezclado; y generar una señal de audio remezclada al aplicar los parámetros de remezclado y de la señal mezclada.
  63. 63. Un aparato que comprende: un descodificador que se configura para recibir información secundaria y para obtener parámetros de remezclado a partir de la información secundaria, en donde por lo menos parte de la información secundaria representa una relación entre una primera señal de audio de canal plural y uno o más señales fuente utilizadas para generar la primera señal de audio de canal plural; una interfaz que se configura para obtener un conjunto de parámetros de mezclado; y un módulo de remezclado acoplado al descodificador y a la interfaz, el módulo de remezclado se configura para volver a mezclar las señales fuente mediante el uso de la información secundaria y del conjunto de parámetros de mezclado para generar una segunda señal de audio de canal plural .
  64. 64. El aparato de la reivindicación 63, en donde el conjunto de parámetros de mezclado se especifican por un usuario a través de la interfaz .
  65. 65. El aparato de la reivindicación 63, además comprende : por lo menos un banco de filtros que se configura para descomponer la primera señal de audio de canal plural en un primer conjunto de señales de sub-banda.
  66. 66. El aparato de la reivindicación 65, en donde el módulo de remezclado estima un segundo conjunto de señales de sub-banda que corresponde con la segunda señal de audio de canal plural mediante el uso de la información secundaria y del conjunto de parámetros de mezclado y convierte el segundo conjunto de señales de sub-banda en la segunda señal de audio de canal plural .
  67. 67. El aparato de la reivindicación 66, en donde el descodificador descodifica la información secundaria para proporcionar factores de ganancia y estimaciones de energía de sub-banda asociadas con las señales fuente que se volverán a mezclar, y el módulo de remezclado determina uno o más conjuntos de ponderaciones con base en los factores de ganancia, estimaciones de energía de sub-banda y en el conjunto de parámetros de mezclado y estima el segundo conjunto de señales de sub-banda mediante el uso de por lo menos un conjunto de ponderaciones.
  68. 68. El aparato de la reivindicación 67, en donde el módulo de remezclado determina uno o más conjuntos de ponderaciones al determinar una magnitud de un primer conjunto de ponderaciones y al determinar una magnitud de un segundo conjunto de ponderaciones, el segundo conjunto de ponderaciones incluye un número diferente de ponderaciones que el primer conjunto de ponderaciones.
  69. 69. El aparato de la reivindicación 68, en donde el módulo de remezclado compara las magnitudes del primer y segundo conjuntos de ponderaciones y selecciona uno del primer y segundo conjuntos de ponderaciones para su uso al estimar el segundo conjunto de señales de sub-banda con base en los resultados de la comparación.
  70. 70. El aparato de la reivindicación 67, en donde el módulo de remezclado determina uno o más conjuntos de ponderaciones al determinar un conjunto de ponderaciones que reduce al mínimo una diferencia entre la primera señal de audio de canal plural y la segunda señal de audio de canal plural .
  71. 71. El aparato de la reivindicación 67, en donde el módulo de remezclado determina uno o más conjuntos de ponderaciones al resolver un sistema de ecuaciones lineales, en donde cada ecuación en el sistema es una suma de productos y cada producto se forma al multiplicar una señal de sub-banda con una ponderación.
  72. 72. El aparato de la reivindicación 71, en donde el sistema de ecuaciones lineales se resuelve mediante el uso de una estimación de mínimos cuadrados .
  73. 73. El aparato de la reivindicación 72, en donde una solución al sistema de ecuaciones lineales proporciona una primera ponderación ?1?? dada por w _E{x¡}E{xxyl}-E{xx1)E{x2yi} "~ E{xl)E{x]}-E2{Xlx2} ' donde E{ . } designa un promediado de tiempo corto, x y x2 son canales de la primera señal de audio de canal plural e ? es un canal de la segunda señal de audio de canal plural.
  74. 74. El aparato de la reivindicación 73, en donde una solución al sistema de ecuaciones lineales proporciona una segunda ponderación ?12, dada por donde E{ . } designa un promediado de tiempo corto, x2 y x2 son canales de la primera señal de audio de canal plural e y es un canal de la segunda señal de audio de canal plural .
  75. 75. El aparato de la reivindicación 74, en donde una solución al sistema de ecuaciones lineales proporciona una tercera ponderación ?21, dada por donde E{ . } designa un promediado de tiempo corto, xx y x2 son canales de la primera señal de audio de canal plural e y2 es un canal de la segunda señal de audio de canal plural .
  76. 76. El aparato de la reivindicación 75, en donde una solución al sistema de ecuaciones lineales proporciona una cuarta ponderación ?22? dada por _E{x,x2}E{x,y2)-E{x}E{x2y2} 21 ?2{?,?2}?{??}-?{?2}?{??} ' donde E{ . } designa un promediado de tiempo corto, x2 y x2 son canales de la primera señal de audio de canal plural e y2 es un canal de la segunda señal de audio de canal plural .
  77. 77. El aparato de la reivindicación 67, en donde el módulo de remezclado ajusta una o más señales de diferencia de nivel asociadas con el segundo conjunto de señales de sub-banda para corresponder con una o más señales de diferencia de nivel asociadas con el primer conjunto de señales de sub-banda .
  78. 78. El aparato de la reivindicación 67, en donde el módulo de remezclado limita una estimación de energía de sub-banda de la segunda señal de audio de canal plural para que sea mayor o igual a un valor de umbral inferior a una estimación de energía de sub-banda de la primera señal de audio de canal plural .
  79. 79. El aparato de la reivindicación 67, en donde el módulo de remezclado ajusta en escala las estimaciones de energía de sub-banda mediante un valor mayor que uno antes de utilizar las estimaciones de energía de sub-banda para determinar uno o más conjuntos de ponderaciones.
  80. 80. El aparato de la reivindicación 63, en donde el descodificador recibe una secuencia de bits que incluye una señal de audio de canal plural codificada; y descodifica la señal de audio de canal plural codificada para obtener la primera señal de audio de canal plural .
  81. 81. El aparato de la reivindicación 67, en donde el módulo de remezclado suaviza uno o más conjuntos de ponderaciones con el tiempo.
  82. 82. El aparato de la reivindicación 81, en donde el módulo de remezclado controla el suavizado de uno o más conjuntos de ponderaciones con el tiempo para reducir distorsiones de audio.
  83. 83. El aparato de la reivindicación 81, en donde el módulo de remezclado suaviza uno o más conjuntos de ponderaciones con el tiempo con base en una medición tonal o estacionaria .
  84. 84. El aparato de la reivindicación 81, en donde el módulo de remezclado determina si una medición tonal o estacionaria de la primera señal de audio de canal plural excede un umbral; y suaviza uno o más conjuntos de ponderaciones con el tiempo si la medición excede el umbral.
  85. 85. El aparato de la reivindicación 63, en donde el descodificador sincroniza la primera señal de audio de canal plural con la información secundaria.
  86. 86. El aparato de la reivindicación 63, en donde el módulo de remezclado vuelve a mezclar las señales fuente para un subconjunto de canales de audio de la primera señal de audio de canal plural .
  87. 87. El aparato de la reivindicación 63, en donde el módulo de remezclado modifica un grado de tonalidad del local de la primera señal de audio de canal plural mediante el uso de las estimaciones de energía de sub-banda y del conjunto de parámetros de mezclado.
  88. 88. El aparato de la reivindicación 63, en donde la interfaz obtiene valores de panorámica y de ganancia especificados por el usuario; y determina el conjunto de parámetros de mezclado a partir de los valores de panorámica y de ganancia y de la información secundaria.
  89. 89. Un aparato que comprende: una interfaz que se configura para obtener una señal de audio que tiene un conjunto de objetos y señales fuente que representa los objetos; y un generador de información secundaria acoplado a la interfaz y que se configura para generar información secundaria a partir de las señales fuente, por lo menos parte de la información secundaria representa una relación entre la señal de audio y las señales fuente.
  90. 90. El aparato de la reivindicación 89, además comprende : por lo menos un banco de filtros que se configura para descomponer la señal de audio y el subconjunto de señales fuente en un primer conjunto de señales de sub-banda y en un segundo conjunto de señales de sub-banda, respectivamente .
  91. 91. El aparato de la reivindicación 90, en donde para cada señal de sub-banda en el segundo conjunto de señales de sub-banda, el generador de información secundaria estima una energía de sub-banda para la señal de sub-banda y genera la información secundaria a partir de uno o más factores de ganancia y energía de sub-banda.
  92. 92. El aparato de la reivindicación 90, para cada señal de sub-banda en el segundo conjunto de señales de sub-banda, el generador de información secundaria estima una energía de sub-banda para la señal de sub-banda, obtiene uno o más factores de ganancia y genera la información secundaria a partir de uno o más factores de ganancia y energía de sub-banda .
  93. 93. El aparato de la reivindicación 92, en donde el generador de información secundaria estima uno o más factores de ganancia mediante el uso de la energía de sub-banda y de una señal de sub-banda correspondiente del primer conjunto de señales de sub-banda.
  94. 94. El aparato de la reivindicación 93, además comprende : un codificador acoplado al generador de información secundaria y que se configura para cuantificar y codificar la energía de sub-banda para generar la información secundaria.
  95. 95. El aparato de la reivindicación 90, en donde un ancho de una sub-banda se basa en la percepción auditiva humana .
  96. 96. El aparato de la reivindicación 90, en donde por lo menos un banco de filtros descompone la señal de audio y el subconjunto de señales fuente incluye multiplicar muestras de la señal de audio y del subconjunto de señales fuente con una función de ventana y aplica una transformada de tiempo- frecuencia a las muestras con ventana para generar el primer y segundo conjuntos de señales de sub-banda.
  97. 97. El aparato de la reivindicación 90, en donde por lo menos un banco de filtros procesa la señal de audio y el subconjunto de señales fuente utiliza una transformada de tiempo- frecuencia para producir coeficientes espectrales, y agrupa los coeficientes espectrales en un número de divisiones que representan una resolución de frecuencia no uniforme de un sistema auditivo humano.
  98. 98. El aparato de la reivindicación 97, en donde por lo menos un grupo tiene un ancho de banda de aproximadamente dos veces un ancho de banda rectangular equivalente (ERB) .
  99. 99. El aparato de la reivindicación 97, en donde la transformada de tiempo- frecuencia es una transformada del grupo de transformadas que se conforma de: una transformada de Fourier de tiempo corto (STFT) , un banco de filtros espejo en cuadratura (QMF) , una transformada de coseno discreta modificada (MDCT) y un banco de filtros de Wavelet.
  100. 100. El aparato de la reivindicación 93, en donde el generador de información secundaria calcula un promedio de tiempo corto de la señal fuente correspondiente.
  101. 101. El aparato de la reivindicación 100, en donde el promedio de tiempo corto es un promedio unipolar de la señal fuente correspondiente y se calcula mediante el uso de una ventana de estimación exponencialmente en decadencia.
  102. 102. El aparato de la reivindicación 92, en donde la energía de sub-banda se normaliza en relación con una energía de señal de sub-banda de la señal de audio.
  103. 103. El aparato de la reivindicación 92, en donde estimar una energía de sub-banda además comprende: utilizar una medición de la energía de sub-banda como la estimación.
  104. 104. El aparato de la reivindicación 92, en donde uno o más factores de ganancia se estiman como una función de tiempo .
  105. 105. El aparato de la reivindicación 94, en donde el codificador determina una diferencia de nivel y de ganancia a partir de uno o más factores de ganancia, cuantifica la diferencia de nivel y de ganancia y codifica la diferencia cuantificada de nivel y de ganancia.
  106. 106. El aparato de la reivindicación 94, en donde el codificador calcula un factor que define la energía de sub-banda en relación con una energía de sub-banda de la señal de audio y con uno o más factores de ganancia, cuantifica el factor y codifica el factor cuantificado .
  107. 107. Un aparato que comprende: una interfaz que se configura para obtener una señal de audio que tiene un conjunto de objetos y un subconjunto de señales fuente que representa un subconjunto de los objetos; y un generador de información secundaria que se configura para generar información secundaria a partir del subconjunto de señales fuente.
  108. 108. Un aparato que comprende: una ínterfaz que se configura para obtener una señal de audio de canal plural; y un generador de información secundaria que se configura para determinar factores de ganancia para un conjunto de señales fuente mediante el uso de diferentes niveles fuente deseada que representen direcciones de sonido deseadas del conjunto de señales fuente en una etapa de sonido, estimar una energía de sub-banda para una dirección de sonido directo del conjunto de señales fuente mediante el uso de la señal de audio de canal plural y estimar energías de sub-banda para por lo menos algunas de las señales fuente en el conjunto de señales fuente al modificar la energía de sub-banda para la dirección de sonido directo como una función de la dirección de sonido directo y una dirección de sonido deseada.
  109. 109. El aparato de la reivindicación 108, en donde la función es una función de dirección de sonido que regresa un factor de ganancia de aproximadamente uno sólo para la dirección de sonido deseada.
  110. 110. Un aparato que comprende: un generador de parámetros que se configura para obtener una señal de audio mezclada y un conjunto de parámetros de mezclado para volver a mezclar la señal de audio mezclada, y para determinar si la información secundaria se encuentra disponible; y un dispositivo de presentación de remezclado acoplado al generador de parámetros y que se configura para volver a mezclar la señal de audio mezclada mediante el uso de la información secundaria y el conjunto de parámetros de mezclado si la información secundaria se encuentra disponible, y si la información secundaria no se encuentra disponible, recibir un conjunto de parámetros sin salida y generar una señal de audio remezclada mediante el uso de los parámetros sin salida y del conjunto de parámetros de mezclado .
  111. 111. El aparato de la reivindicación 110, en donde el generador de parámetros de remezclado genera parámetros de remezclado a partir de los parámetros sin salida o de la información secundaria y, si se generan los parámetros de remezclado a partir de la información secundaria, el dispositivo de presentación de remezclado genera la señal de audio remezclada a partir de los parámetros de remezclado y de la señal mezclada.
  112. 112. El aparato de la reivindicación 110, en donde el dispositivo de presentación de remezclado además comprende : un dispositivo de presentación de mezclado ascendente para mezclar en forma ascendente la señal de audio mezclada a fin de que la señal de audio remezclada tenga más canales que la señal de audio mezclada.
  113. 113. El aparato de la reivindicación 110, además comprende : un procesador de efectos acoplado al dispositivo de presentación de remezclado y que se configura para agregar uno o más efectos a la señal de audio remezclada.
  114. 114. Un aparato que comprende: una interfaz que se configura para obtener una señal de audio mezclada que incluye señales fuente vocal y parámetros de mezclado que especifican una mejora deseada a una o más de las señales fuente vocal; un generador de parámetros de remezclado acoplado a la interfaz y que se configura para generar un conjunto de parámetros sin salida a partir de la señal de audio mezclada y para generar parámetros a partir de los parámetros sin salida y de los parámetros de mezclado; y un dispositivo de presentación de remezclado para aplicar los parámetros de remezclado a la señal mezclada para mejorar uno o más señales fuente vocal de acuerdo con los parámetros de mezclado.
  115. 115. Un aparato que comprende: una interfaz de usuario que se configura para recibir entradas que especifican por lo menos un parámetro de mezclado; y un módulo de remezclado que se configura para volver a mezclar una o más señales fuente mediante el uso de la información secundaria y de por lo menos un parámetro de mezclado para generar una segunda señal de audio.
  116. 116. El aparato de la reivindicación 115, además comprende : una interfaz de red que se configura para recibir la primera señal de audio o la información secundaria a partir de un recurso de red.
  117. 117. El aparato de la reivindicación 115, además comprende : una interfaz que se configura para recibir la primera señal de audio o la información secundaria a partir de un medio legible por computadora.
  118. 118. Un aparato que comprende: una interfaz que se configura para obtener una primera señal de audio de canal plural que tiene un conjunto de objetos, obtener información secundaria, por lo menos parte de la cual representa una relación entre la primera señal de audio de canal plural y una o más señales fuente que representan un subconjunto de objetos que se volverán a mezclar; y un módulo de remezclado acoplado a la interfaz y que se configura para generar una segunda señal de audio de canal plural mediante el uso de la información secundaria y del conjunto de parámetros de mezclado.
  119. 119. El aparato de la reivindicación 118, en donde el conjunto de parámetros de mezclado se especifican por un usuario.
  120. 120. El aparato de la reivindicación 118, además comprende : por lo menos un banco de filtros que se configura para descomponer la primera señal de audio de canal plural en un primer conjunto de señales de sub-banda, en donde el módulo de remezclado se acopla a por lo menos un banco de filtros y se configura para estimar un segundo conjunto de señales de sub-banda que corresponden con la segunda señal de audio de canal plural mediante el uso de la información secundaria y del conjunto de parámetros de mezclado y para convertir el segundo conjunto de señales de sub-banda en la segunda señal de audio de canal plural .
  121. 121. El aparato de la reivindicación 120, además comprende : un descodificador que se configura para descodificar la información secundaria para proporcionar factores de ganancia y estimaciones de energía de sub-banda asociadas con los objetos que volverán a mezclarse, en donde el módulo de remezclado determina uno o más conjuntos de ponderaciones con base en los factores de ganancia, estimaciones de energía de sub-banda y en el conjunto de parámetros de mezclado, y estima el segundo conjunto de señales de sub-banda mediante el uso de por lo menos un conjunto de ponderaciones.
  122. 122. El aparato de la reivindicación 121, en donde el módulo de remezclado determina uno o más conjuntos de ponderaciones al determinar una magnitud de un primer conjunto de ponderaciones; y determina una magnitud de un segundo conjunto de ponderaciones, en donde el segundo conjunto de ponderaciones incluye un número diferente de ponderaciones que el primer conjunto de ponderaciones.
  123. 123. El aparato de la reivindicación 122, en donde el módulo de remezclado compara las magnitudes del primer y segundo conjuntos de ponderaciones y selecciona uno del primer y segundo conjuntos de ponderaciones para su uso al estimar el segundo conjunto de señales de sub-banda con base en los resultados de la comparación.
  124. 124. Un aparato que comprende: una interfaz que se configura para obtener un conjunto de parámetros de mezclado para volver a mezclar la señal de audio mezclada; y un módulo de remezclado acoplado a la interfaz y que se configura para generar parámetros de remezclado mediante el uso de la señal de audio mezclada y del conjunto de parámetros de mezclado, y para generar una señal de audio remezclada al aplicar los parámetros de remezclado a la señal de audio mezclada mediante el uso de una matriz de n por n.
  125. 125. Un aparato que comprende: una interfaz que se configura para obtener una señal de audio que tiene un conjunto de objetos y para obtener señales fuente que representan los objetos; un generador de información secundaria acoplado a la interfaz y que se configura para generar información secundaria a partir del subconjunto de señales fuente, por lo menos parte de la información secundaria representa una relación entre la señal de audio y el subconjunto de señales fuente; y un codificador acoplado al generador de información secundaria y que se configura para codificar por lo menos una señal que incluye por lo menos una señal de objeto y para proporcionar a un descodificador la señal de audio, la información secundaria y la señal de objeto codificada.
  126. 126. Un aparato que comprende: una interfaz que se configura para obtener una señal de audio mezclada y obtener una señal fuente codificada asociada con un objeto en la señal de audio mezclada; y un módulo de remezclado acoplado a la interfaz y que se configura para generar parámetros de remezclado mediante el uso de la señal fuente codificada, la señal de audio mezclada y el conjunto de parámetros de mezclado, y para generar una señal de audio remezclada al aplicar los parámetros de remezclado a la señal de audio mezclada.
  127. 127. Un medio legible por computadora que tiene instrucciones almacenadas en el mismo que, cuando se ejecutan mediante un procesador, ocasionan que el procesador realice operaciones, que comprende: obtener una primera señal de audio de canal plural que tiene un conjunto de objetos; obtener información secundaria, por lo menos parte de la cual representa una relación entre la primera señal de audio de canal plural y una o más señales fuente que representan los objetos que se volverán a mezclar; obtener un conjunto de parámetros de mezclado; y generar una segunda señal de audio de canal plural mediante el uso de la información secundaria y del conjunto de parámetros de mezclado.
  128. 128. El medio legible por computadora de la reivindicación 127, en donde generar una segunda señal de audio de canal plural comprende: descomponer la primera señal de audio de canal plural en un primer conjunto de señales de sub-banda; estimar un segundo conjunto de señales de sub-banda que corresponde con la segunda señal de audio de canal plural mediante el uso de la información secundaria y del conjunto de parámetros de mezclado; y convertir el segundo conjunto de señales de sub-banda en la segunda señal de audio de canal plural .
  129. 129. El medio legible por computadora de la reivindicación 128, en donde estimar un segundo conjunto de señales de sub-banda además comprende: descodificar la información secundaria para proporcionar factores de ganancia y estimaciones de energía de sub-banda asociadas con los objetos que se volverán a mezclar; determinar uno o más conjuntos de ponderaciones con base en los factores de ganancia, en las estimaciones de energía de sub-banda y en el conjunto de parámetros de mezclado; y estimar el segundo conjunto de señales de sub-banda mediante el uso de por lo menos un conjunto de ponderaciones.
  130. 130. Un medio legible por computadora que tiene instrucciones almacenadas en el mismo que, cuando se ejecutan mediante un procesador, ocasionan que el procesador realice operaciones, que comprende: obtener una señal de audio que tiene un conjunto de obj etos ; obtener señales fuente que representan los objetos; y generar información secundaria a partir de las señales fuente, por lo menos parte de la información secundaria representa una relación entre la señal de audio y las señales fuente .
  131. 131. El medio legible por computadora de la reivindicación 130, en donde generar información secundaria además comprende : Obtener uno o más factores de ganancia; descomponer la señal de audio y el subconjunto de señales fuente en un primer conjunto de señales de sub-banda y en un segundo conjunto de señales de sub-banda, respectivamente ; para cada señal de sub-banda en el segundo conjunto de señales de sub-banda: estimar una energía de sub-banda para la señal de sub-banda; y generar información secundaria a partir de uno o más factores de ganancia y de la energía de sub-banda.
  132. 132. El medio legible por computadora de la reivindicación 131, en donde generar información secundaria además comprende: descomponer la señal de audio y el subconjunto de señales fuente en un primer conjunto de señales de sub-banda y en un segundo conjunto de señales de sub-banda, respectivamente ; para cada señal de sub-banda en el segundo conjunto de señales de sub-banda: estimar una energía de sub-banda para la señal de sub-banda ; obtener uno o más factores de ganancia; y generar información secundaria a partir de uno o más factores de ganancia y de la energía de sub-banda.
  133. 133. Un medio legible por computadora que tiene instrucciones almacenadas en el mismo que, cuando se ejecutan mediante un procesador, ocasionan que el procesador realice operaciones, que comprende: obtener una señal de audio que tiene un conjunto de obj etos ; obtener un subconjunto de señales fuente que representa un subconjunto de los objetos; y generar información secundaria a partir del subconjunto de señales fuente.
  134. 134. Un medio legible por computadora que tiene instrucciones almacenadas en el mismo que, cuando se ejecutan mediante un procesador, ocasionan que el procesador realice operaciones, que comprende: obtener una señal de audio de canal plural; determinar factores de ganancia para un conjunto de señales fuente mediante el uso de diferencias de nivel fuente deseada que representan direcciones de sonido deseadas del conjunto de señales fuente en una etapa de sonido; estimar una energía de sub-banda para una dirección de sonido directo del conjunto de señales fuente mediante el uso de la señal de audio de canal plural; y estimar energías de sub-banda para por lo menos parte de las señales fuente en el conjunto de señales fuente al modificar la energía de sub-banda para la dirección de sonido directo como una función de la dirección de sonido directo y una dirección de sonido deseada.
  135. 135. El medio legible por computadora de la reivindicación 134, en donde la función es una función de dirección de sonido que regresa un factor de ganancia de aproximadamente uno sólo para la dirección de sonido deseada.
  136. 136. Un sistema que comprende: un procesador; y un medio legible por computadora acoplado al procesador y que incluye instrucciones que, cuando se ejecutan mediante el procesador, ocasionan que el procesador realice operaciones que comprenden: obtener una primera señal de audio de canal plural que tiene un conjunto de objetos; obtener información secundaria, por lo menos parte de la cual representa una relación entre la primera señal de audio de canal plural y una o más señales fuente que representan los objetos que se volverán a mezclar; obtener un conjunto de parámetros de mezclado; y generar una segunda señal de audio de canal plural mediante el uso de la información secundaria y del conjunto de parámetros de mezclado.
  137. 137. El sistema de la reivindicación 136, en donde generar una segunda señal de audio de canal plural comprende : descomponer la primera señal de audio de canal plural en un primer conjunto de señales de sub-banda; estimar un segundo conjunto de señales de sub-banda que corresponde con la segunda señal de audio de canal plural mediante el uso de la información secundaria y del conjunto de parámetros de mezclado; y convertir el segundo conjunto de señales de sub-banda en la segunda señal de audio de canal plural .
  138. 138. El sistema de la reivindicación 137, en donde estimar un segundo conjunto de señales de sub-banda además comprende : descodificar la información secundaria para proporcionar factores de ganancia y estimaciones de energía de sub-banda asociadas con los objetos que se volverán a mezclar; determinar uno o más conjuntos de ponderaciones con base en los factores de ganancia, en las estimaciones de energía de sub-banda y en el conjunto de parámetros de mezclado; y estimar el segundo conjunto de señales de sub-banda mediante el uso de por lo menos un conjunto de ponderaciones.
  139. 139. Un sistema que comprende: un procesador; y un medio legible por computadora acoplado al procesador y que incluye instrucciones que, cuando se ejecutan mediante el procesador, ocasionan que el procesador realice operaciones que comprenden: obtener una señal de audio que tiene un conjunto de obj etos ; obtener señales fuente que representan los objetos; y generar información secundaria a partir de las señales fuente, por lo menos parte de la información secundaria representa una relación entre la señal de audio y las señales fuente.
  140. 140. El sistema de la reivindicación 139, en donde generar información secundaria además comprende: obtener uno o más factores de ganancia; descomponer la señal de audio y el subconjunto de señales fuente en un primer conjunto de señales de sub-banda y en un segundo conjunto de señales de sub-banda, respectivamente ; para cada señal de sub-banda en el segundo conjunto de señales de sub-banda: estimar una energía de sub-banda para la señal de sub-banda; y generar información secundaria a partir de uno o más factores de ganancia y de la energía de sub-banda.
  141. 141. El sistema de la reivindicación 140, en donde generar información secundaria además comprende: descomponer la señal de audio y el subconjunto de señales fuente en un primer conjunto de señales de sub-banda y en un segundo conjunto de señales de sub-banda, respectivamente ; para cada señal de sub-banda en el segundo conjunto de señales de sub-banda: estimar una energía de sub-banda para la señal de sub-banda ; obtener uno o más factores de ganancia; y generar información secundaria a partir de uno o más factores de ganancia y de la energía de sub-banda.
  142. 142. Un sistema que comprende: un procesador; y un medio legible por computadora acoplado al procesador y que incluye instrucciones que, cuando se ejecutan mediante el procesador, ocasionan que el procesador realice operaciones que comprenden: obtener una señal de audio que tiene un conjunto de obj etos ; obtener un subconjunto de señales fuente que representa un subconjunto de los objetos; y generar información secundaria a partir del subconjunto de señales fuente.
  143. 143. Un sistema que comprende: un procesador; y un medio legible por computadora acoplado al procesador y que incluye instrucciones que, cuando se ejecutan mediante el procesador, ocasionan que el procesador realice operaciones, que comprenden: obtener una señal de audio de canal plural; determinar factores de ganancia para un conjunto de señales fuente mediante el uso de diferencias de nivel fuente deseada que representan direcciones de sonido deseadas del conjunto de señales fuente en una etapa de sonido; estimar una energía de sub-banda para una dirección de sonido directo del conjunto de señales fuente mediante el uso de la señal de audio de canal plural; y estimar energías de sub-banda para por lo menos parte de las señales fuente en el conjunto de señales fuente al modificar la energía de sub-banda para la dirección de sonido directo como una función de la dirección de sonido directo y una dirección de sonido deseada.
  144. 144. El sistema de la reivindicación 143, en donde la función es una función de dirección de sonido que regresa un factor de ganancia de aproximadamente uno sólo para la dirección de sonido deseada.
  145. 145. Un sistema que comprende: medios para obtener una primera señal de audio de canal plural que tiene un conjunto de objetos; medios para obtener información secundaria, por lo menos parte de la cual representa una relación entre la primera señal de audio de canal plural y una o más señales fuente que representan los objetos que se volverán a mezclar; medios para obtener un conjunto de parámetros de mezclado; y medios para generar una segunda señal de audio de canal plural mediante el uso de la información secundaria y el conjunto de parámetros de mezclado.
MX2008013500A 2006-05-04 2007-05-04 Mejoramiento de audio con capacidad de remezclado. MX2008013500A (es)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
EP06113521A EP1853092B1 (en) 2006-05-04 2006-05-04 Enhancing stereo audio with remix capability
US82935006P 2006-10-13 2006-10-13
US88459407P 2007-01-11 2007-01-11
US88574207P 2007-01-19 2007-01-19
US88841307P 2007-02-06 2007-02-06
US89416207P 2007-03-09 2007-03-09
PCT/EP2007/003963 WO2007128523A1 (en) 2006-05-04 2007-05-04 Enhancing audio with remixing capability

Publications (1)

Publication Number Publication Date
MX2008013500A true MX2008013500A (es) 2008-10-29

Family

ID=36609240

Family Applications (1)

Application Number Title Priority Date Filing Date
MX2008013500A MX2008013500A (es) 2006-05-04 2007-05-04 Mejoramiento de audio con capacidad de remezclado.

Country Status (12)

Country Link
US (1) US8213641B2 (es)
EP (4) EP1853092B1 (es)
JP (1) JP4902734B2 (es)
KR (2) KR20110002498A (es)
CN (1) CN101690270B (es)
AT (3) ATE527833T1 (es)
AU (1) AU2007247423B2 (es)
BR (1) BRPI0711192A2 (es)
CA (1) CA2649911C (es)
MX (1) MX2008013500A (es)
RU (1) RU2414095C2 (es)
WO (1) WO2007128523A1 (es)

Families Citing this family (94)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1853092B1 (en) 2006-05-04 2011-10-05 LG Electronics, Inc. Enhancing stereo audio with remix capability
BRPI0716854B1 (pt) * 2006-09-18 2020-09-15 Koninklijke Philips N.V. Codificador para codificar objetos de áudio, decodificador para decodificar objetos de áudio, centro distribuidor de teleconferência, e método para decodificar sinais de áudio
US20100040135A1 (en) * 2006-09-29 2010-02-18 Lg Electronics Inc. Apparatus for processing mix signal and method thereof
JP5232791B2 (ja) 2006-10-12 2013-07-10 エルジー エレクトロニクス インコーポレイティド ミックス信号処理装置及びその方法
BRPI0715312B1 (pt) 2006-10-16 2021-05-04 Koninklijke Philips Electrnics N. V. Aparelhagem e método para transformação de parâmetros multicanais
MY145497A (en) 2006-10-16 2012-02-29 Dolby Sweden Ab Enhanced coding and parameter representation of multichannel downmixed object coding
EP2095365A4 (en) * 2006-11-24 2009-11-18 Lg Electronics Inc METHOD FOR ENCODING AND DECODING AUDIO SIGNALS BASED ON OBJECTS AND APPARATUS THEREOF
EP2595152A3 (en) * 2006-12-27 2013-11-13 Electronics and Telecommunications Research Institute Transkoding apparatus
US9338399B1 (en) * 2006-12-29 2016-05-10 Aol Inc. Configuring output controls on a per-online identity and/or a per-online resource basis
EP2115739A4 (en) * 2007-02-14 2010-01-20 Lg Electronics Inc METHODS AND APPARATUSES FOR ENCODING AND DECODING AUDIO SIGNALS BASED ON OBJECTS
JP5530720B2 (ja) 2007-02-26 2014-06-25 ドルビー ラボラトリーズ ライセンシング コーポレイション エンターテイメントオーディオにおける音声強調方法、装置、およびコンピュータ読取り可能な記録媒体
US8295494B2 (en) * 2007-08-13 2012-10-23 Lg Electronics Inc. Enhancing audio with remixing capability
BRPI0816557B1 (pt) * 2007-10-17 2020-02-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Codificação de áudio usando upmix
US8527282B2 (en) 2007-11-21 2013-09-03 Lg Electronics Inc. Method and an apparatus for processing a signal
US8548615B2 (en) * 2007-11-27 2013-10-01 Nokia Corporation Encoder
CA2710560C (en) 2008-01-01 2015-10-27 Lg Electronics Inc. A method and an apparatus for processing an audio signal
CN101911732A (zh) * 2008-01-01 2010-12-08 Lg电子株式会社 用于处理音频信号的方法和装置
WO2009093866A2 (en) 2008-01-23 2009-07-30 Lg Electronics Inc. A method and an apparatus for processing an audio signal
KR100998913B1 (ko) * 2008-01-23 2010-12-08 엘지전자 주식회사 오디오 신호의 처리 방법 및 이의 장치
EP2083585B1 (en) 2008-01-23 2010-09-15 LG Electronics Inc. A method and an apparatus for processing an audio signal
KR101461685B1 (ko) * 2008-03-31 2014-11-19 한국전자통신연구원 다객체 오디오 신호의 부가정보 비트스트림 생성 방법 및 장치
KR101061128B1 (ko) * 2008-04-16 2011-08-31 엘지전자 주식회사 오디오 신호 처리 방법 및 이의 장치
US8326446B2 (en) 2008-04-16 2012-12-04 Lg Electronics Inc. Method and an apparatus for processing an audio signal
WO2009128663A2 (en) * 2008-04-16 2009-10-22 Lg Electronics Inc. A method and an apparatus for processing an audio signal
WO2010008198A2 (en) * 2008-07-15 2010-01-21 Lg Electronics Inc. A method and an apparatus for processing an audio signal
CN102100009B (zh) 2008-07-15 2015-04-01 Lg电子株式会社 处理音频信号的方法和装置
US8705749B2 (en) * 2008-08-14 2014-04-22 Dolby Laboratories Licensing Corporation Audio signal transformatting
MX2011011399A (es) * 2008-10-17 2012-06-27 Univ Friedrich Alexander Er Aparato para suministrar uno o más parámetros ajustados para un suministro de una representación de señal de mezcla ascendente sobre la base de una representación de señal de mezcla descendete, decodificador de señal de audio, transcodificador de señal de audio, codificador de señal de audio, flujo de bits de audio, método y programa de computación que utiliza información paramétrica relacionada con el objeto.
KR101545875B1 (ko) * 2009-01-23 2015-08-20 삼성전자주식회사 멀티미디어 아이템 조작 장치 및 방법
US20110069934A1 (en) * 2009-09-24 2011-03-24 Electronics And Telecommunications Research Institute Apparatus and method for providing object based audio file, and apparatus and method for playing back object based audio file
CA2779388C (en) * 2009-12-16 2015-11-10 Dolby International Ab Sbr bitstream parameter downmix
AU2013242852B2 (en) * 2009-12-16 2015-11-12 Dolby International Ab Sbr bitstream parameter downmix
CN102792378B (zh) * 2010-01-06 2015-04-29 Lg电子株式会社 处理音频信号的设备及其方法
CN102884570B (zh) 2010-04-09 2015-06-17 杜比国际公司 基于mdct的复数预测立体声编码
CN101894561B (zh) * 2010-07-01 2015-04-08 西北工业大学 一种基于小波变换和变步长最小均方算法的语音降噪方法
US8675881B2 (en) 2010-10-21 2014-03-18 Bose Corporation Estimation of synthetic audio prototypes
US9078077B2 (en) 2010-10-21 2015-07-07 Bose Corporation Estimation of synthetic audio prototypes with frequency-based input signal decomposition
US9978379B2 (en) * 2011-01-05 2018-05-22 Nokia Technologies Oy Multi-channel encoding and/or decoding using non-negative tensor factorization
KR20120132342A (ko) * 2011-05-25 2012-12-05 삼성전자주식회사 보컬 신호 제거 장치 및 방법
AU2012279349B2 (en) 2011-07-01 2016-02-18 Dolby Laboratories Licensing Corporation System and tools for enhanced 3D audio authoring and rendering
JP5057535B1 (ja) * 2011-08-31 2012-10-24 国立大学法人電気通信大学 ミキシング装置、ミキシング信号処理装置、ミキシングプログラム及びミキシング方法
CN103050124B (zh) 2011-10-13 2016-03-30 华为终端有限公司 混音方法、装置及系统
WO2013120510A1 (en) 2012-02-14 2013-08-22 Huawei Technologies Co., Ltd. A method and apparatus for performing an adaptive down- and up-mixing of a multi-channel audio signal
US9696884B2 (en) * 2012-04-25 2017-07-04 Nokia Technologies Oy Method and apparatus for generating personalized media streams
EP2665208A1 (en) * 2012-05-14 2013-11-20 Thomson Licensing Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation
KR101647576B1 (ko) * 2012-05-29 2016-08-10 노키아 테크놀로지스 오와이 스테레오 오디오 신호 인코더
EP2690621A1 (en) * 2012-07-26 2014-01-29 Thomson Licensing Method and Apparatus for downmixing MPEG SAOC-like encoded audio signals at receiver side in a manner different from the manner of downmixing at encoder side
CN110223701B (zh) 2012-08-03 2024-04-09 弗劳恩霍夫应用研究促进协会 用于从缩混信号产生音频输出信号的解码器和方法
CN104520924B (zh) * 2012-08-07 2017-06-23 杜比实验室特许公司 指示游戏音频内容的基于对象的音频的编码和呈现
US9489954B2 (en) 2012-08-07 2016-11-08 Dolby Laboratories Licensing Corporation Encoding and rendering of object based audio indicative of game audio content
KR102033985B1 (ko) * 2012-08-10 2019-10-18 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 공간적 오디오 객체 코딩에 오디오 정보를 적응시키기 위한 장치 및 방법
JP5591423B1 (ja) 2013-03-13 2014-09-17 パナソニック株式会社 オーディオ再生装置およびオーディオ再生方法
TWI530941B (zh) * 2013-04-03 2016-04-21 杜比實驗室特許公司 用於基於物件音頻之互動成像的方法與系統
TWI546799B (zh) 2013-04-05 2016-08-21 杜比國際公司 音頻編碼器及解碼器
CN108806704B (zh) * 2013-04-19 2023-06-06 韩国电子通信研究院 多信道音频信号处理装置及方法
KR102150955B1 (ko) 2013-04-19 2020-09-02 한국전자통신연구원 다채널 오디오 신호 처리 장치 및 방법
WO2014175668A1 (ko) 2013-04-27 2014-10-30 인텔렉추얼디스커버리 주식회사 오디오 신호 처리 방법
US9854377B2 (en) 2013-05-29 2017-12-26 Qualcomm Incorporated Interpolation for decomposed representations of a sound field
CN104240711B (zh) 2013-06-18 2019-10-11 杜比实验室特许公司 用于生成自适应音频内容的方法、系统和装置
US9319819B2 (en) 2013-07-25 2016-04-19 Etri Binaural rendering method and apparatus for decoding multi channel audio
US9373320B1 (en) 2013-08-21 2016-06-21 Google Inc. Systems and methods facilitating selective removal of content from a mixed audio recording
CN105493182B (zh) * 2013-08-28 2020-01-21 杜比实验室特许公司 混合波形编码和参数编码语音增强
US9380383B2 (en) 2013-09-06 2016-06-28 Gracenote, Inc. Modifying playback of content using pre-processed profile information
EP3806498B1 (en) * 2013-09-17 2023-08-30 Wilus Institute of Standards and Technology Inc. Method and apparatus for processing audio signal
JP5981408B2 (ja) * 2013-10-29 2016-08-31 株式会社Nttドコモ 音声信号処理装置、音声信号処理方法、及び音声信号処理プログラム
JP2015132695A (ja) 2014-01-10 2015-07-23 ヤマハ株式会社 演奏情報伝達方法、演奏情報伝達システム
JP6326822B2 (ja) * 2014-01-14 2018-05-23 ヤマハ株式会社 録音方法
US10770087B2 (en) 2014-05-16 2020-09-08 Qualcomm Incorporated Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals
CN110992964B (zh) * 2014-07-01 2023-10-13 韩国电子通信研究院 处理多信道音频信号的方法和装置
CN105657633A (zh) 2014-09-04 2016-06-08 杜比实验室特许公司 生成针对音频对象的元数据
US9774974B2 (en) 2014-09-24 2017-09-26 Electronics And Telecommunications Research Institute Audio metadata providing apparatus and method, and multichannel audio data playback apparatus and method to support dynamic format conversion
US10163446B2 (en) * 2014-10-01 2018-12-25 Dolby International Ab Audio encoder and decoder
MY179448A (en) * 2014-10-02 2020-11-06 Dolby Int Ab Decoding method and decoder for dialog enhancement
CN105989851B (zh) 2015-02-15 2021-05-07 杜比实验室特许公司 音频源分离
US9747923B2 (en) * 2015-04-17 2017-08-29 Zvox Audio, LLC Voice audio rendering augmentation
CN107787584B (zh) * 2015-06-17 2020-07-24 三星电子株式会社 处理低复杂度格式转换的内部声道的方法和装置
GB2543275A (en) * 2015-10-12 2017-04-19 Nokia Technologies Oy Distributed audio capture and mixing
CN108293165A (zh) * 2015-10-27 2018-07-17 无比的优声音科技公司 增强音场的装置和方法
US10152977B2 (en) * 2015-11-20 2018-12-11 Qualcomm Incorporated Encoding of multiple audio signals
CN105389089A (zh) * 2015-12-08 2016-03-09 上海斐讯数据通信技术有限公司 一种移动终端音量调控系统及方法
US10375496B2 (en) 2016-01-29 2019-08-06 Dolby Laboratories Licensing Corporation Binaural dialogue enhancement
US10037750B2 (en) * 2016-02-17 2018-07-31 RMXHTZ, Inc. Systems and methods for analyzing components of audio tracks
US10349196B2 (en) * 2016-10-03 2019-07-09 Nokia Technologies Oy Method of editing audio signals using separated objects and associated apparatus
US10224042B2 (en) * 2016-10-31 2019-03-05 Qualcomm Incorporated Encoding of multiple audio signals
US10565572B2 (en) 2017-04-09 2020-02-18 Microsoft Technology Licensing, Llc Securing customized third-party content within a computing environment configured to enable third-party hosting
CN107204191A (zh) * 2017-05-17 2017-09-26 维沃移动通信有限公司 一种混音方法、装置及移动终端
CN109427337B (zh) * 2017-08-23 2021-03-30 华为技术有限公司 立体声信号编码时重建信号的方法和装置
CN110097888B (zh) * 2018-01-30 2021-08-20 华为技术有限公司 人声增强方法、装置及设备
US10567878B2 (en) 2018-03-29 2020-02-18 Dts, Inc. Center protection dynamic range control
GB2580360A (en) * 2019-01-04 2020-07-22 Nokia Technologies Oy An audio capturing arrangement
CN112637627B (zh) * 2020-12-18 2023-09-05 咪咕互动娱乐有限公司 直播中用户交互方法、系统、终端、服务器及存储介质
CN115472177A (zh) * 2021-06-11 2022-12-13 瑞昱半导体股份有限公司 用于梅尔频率倒谱系数的实现的优化方法
CN114285830A (zh) * 2021-12-21 2022-04-05 北京百度网讯科技有限公司 语音信号处理方法、装置、电子设备及可读存储介质
JP2024006206A (ja) * 2022-07-01 2024-01-17 ヤマハ株式会社 音信号処理方法及び音信号処理装置

Family Cites Families (65)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58500606A (ja) 1981-05-29 1983-04-21 インタ−ナシヨナル・ビジネス・マシ−ンズ・コ−ポレ−シヨン インクジエツト・プリンタ用アスピレ−タ−
EP0520068B1 (en) 1991-01-08 1996-05-15 Dolby Laboratories Licensing Corporation Encoder/decoder for multidimensional sound fields
US5458404A (en) 1991-11-12 1995-10-17 Itt Automotive Europe Gmbh Redundant wheel sensor signal processing in both controller and monitoring circuits
DE4236989C2 (de) 1992-11-02 1994-11-17 Fraunhofer Ges Forschung Verfahren zur Übertragung und/oder Speicherung digitaler Signale mehrerer Kanäle
JP3397001B2 (ja) 1994-06-13 2003-04-14 ソニー株式会社 符号化方法及び装置、復号化装置、並びに記録媒体
US6141446A (en) * 1994-09-21 2000-10-31 Ricoh Company, Ltd. Compression and decompression system with reversible wavelets and lossy reconstruction
US5838664A (en) * 1997-07-17 1998-11-17 Videoserver, Inc. Video teleconferencing system with digital transcoding
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
US6128597A (en) * 1996-05-03 2000-10-03 Lsi Logic Corporation Audio decoder with a reconfigurable downmixing/windowing pipeline and method therefor
US5912976A (en) 1996-11-07 1999-06-15 Srs Labs, Inc. Multi-channel audio enhancement system for use in recording and playback and methods for providing same
AU740617C (en) 1997-06-18 2002-08-08 Clarity, L.L.C. Methods and apparatus for blind signal separation
US6026168A (en) * 1997-11-14 2000-02-15 Microtek Lab, Inc. Methods and apparatus for automatically synchronizing and regulating volume in audio component systems
KR100335609B1 (ko) 1997-11-20 2002-10-04 삼성전자 주식회사 비트율조절이가능한오디오부호화/복호화방법및장치
US6952677B1 (en) * 1998-04-15 2005-10-04 Stmicroelectronics Asia Pacific Pte Limited Fast frame optimization in an audio encoder
JP3770293B2 (ja) 1998-06-08 2006-04-26 ヤマハ株式会社 演奏状態の視覚的表示方法および演奏状態の視覚的表示プログラムが記録された記録媒体
US6122619A (en) * 1998-06-17 2000-09-19 Lsi Logic Corporation Audio decoder with programmable downmixing of MPEG/AC-3 and method therefor
US7103187B1 (en) * 1999-03-30 2006-09-05 Lsi Logic Corporation Audio calibration system
JP3775156B2 (ja) 2000-03-02 2006-05-17 ヤマハ株式会社 携帯電話機
WO2001066008A1 (en) * 2000-03-03 2001-09-13 Cardiac M.R.I., Inc. Magnetic resonance specimen analysis apparatus
EP1277938B1 (en) * 2000-04-27 2007-06-13 Mitsubishi Fuso Truck and Bus Corporation Engine operation controller of hybrid electric vehicle
EP2299735B1 (en) * 2000-07-19 2014-04-23 Koninklijke Philips N.V. Multi-channel stereo-converter for deriving a stereo surround and/or audio center signal
JP4304845B2 (ja) 2000-08-03 2009-07-29 ソニー株式会社 音声信号処理方法及び音声信号処理装置
JP2002058100A (ja) 2000-08-08 2002-02-22 Yamaha Corp 音像定位制御装置および音像定位制御プログラムが記録された記録媒体
JP2002125010A (ja) 2000-10-18 2002-04-26 Casio Comput Co Ltd 移動体通信装置及びメロディ着信音出力方法
US7583805B2 (en) 2004-02-12 2009-09-01 Agere Systems Inc. Late reverberation-based synthesis of auditory scenes
US7292901B2 (en) 2002-06-24 2007-11-06 Agere Systems Inc. Hybrid multi-channel/cue coding/decoding of audio signals
JP3726712B2 (ja) 2001-06-13 2005-12-14 ヤマハ株式会社 演奏設定情報の授受が可能な電子音楽装置及びサーバ装置、並びに、演奏設定情報授受方法及びプログラム
SE0202159D0 (sv) 2001-07-10 2002-07-09 Coding Technologies Sweden Ab Efficientand scalable parametric stereo coding for low bitrate applications
US7032116B2 (en) * 2001-12-21 2006-04-18 Intel Corporation Thermal management for computer systems running legacy or thermal management operating systems
BRPI0304542B1 (pt) 2002-04-22 2018-05-08 Koninklijke Philips Nv “Método e codificador para codificar um sinal de áudio de multicanal, sinal de áudio multicanal codificado, e, método e decodificador para decodificar um sinal de áudio de multicanal codificado”
ATE354161T1 (de) 2002-04-22 2007-03-15 Koninkl Philips Electronics Nv Signalsynthese
EP1500084B1 (en) 2002-04-22 2008-01-23 Koninklijke Philips Electronics N.V. Parametric representation of spatial audio
JP4013822B2 (ja) 2002-06-17 2007-11-28 ヤマハ株式会社 ミキサ装置およびミキサプログラム
KR100981699B1 (ko) 2002-07-12 2010-09-13 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 코딩
EP1394772A1 (en) 2002-08-28 2004-03-03 Deutsche Thomson-Brandt Gmbh Signaling of window switchings in a MPEG layer 3 audio data stream
JP4084990B2 (ja) 2002-11-19 2008-04-30 株式会社ケンウッド エンコード装置、デコード装置、エンコード方法およびデコード方法
EP1600984B1 (en) * 2003-03-03 2012-08-08 Mitsubishi Heavy Industries, Ltd. Cask, composition for neutron shielding body, and method of manufacturing the neutron shielding body
SE0301273D0 (sv) 2003-04-30 2003-04-30 Coding Technologies Sweden Ab Advanced processing based on a complex-exponential-modulated filterbank and adaptive time signalling methods
JP4496379B2 (ja) 2003-09-17 2010-07-07 財団法人北九州産業学術推進機構 分割スペクトル系列の振幅頻度分布の形状に基づく目的音声の復元方法
US6937737B2 (en) * 2003-10-27 2005-08-30 Britannia Investment Corporation Multi-channel audio surround sound from front located loudspeakers
US7394903B2 (en) * 2004-01-20 2008-07-01 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal
ATE390683T1 (de) 2004-03-01 2008-04-15 Dolby Lab Licensing Corp Mehrkanalige audiocodierung
US7805313B2 (en) * 2004-03-04 2010-09-28 Agere Systems Inc. Frequency-based coding of channels in parametric multi-channel coding systems
US8843378B2 (en) 2004-06-30 2014-09-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Multi-channel synthesizer and method for generating a multi-channel output signal
US7391870B2 (en) * 2004-07-09 2008-06-24 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E V Apparatus and method for generating a multi-channel output signal
KR100745688B1 (ko) 2004-07-09 2007-08-03 한국전자통신연구원 다채널 오디오 신호 부호화/복호화 방법 및 장치
KR100663729B1 (ko) 2004-07-09 2007-01-02 한국전자통신연구원 가상 음원 위치 정보를 이용한 멀티채널 오디오 신호부호화 및 복호화 방법 및 장치
US8150042B2 (en) 2004-07-14 2012-04-03 Koninklijke Philips Electronics N.V. Method, device, encoder apparatus, decoder apparatus and audio system
DE102004042819A1 (de) 2004-09-03 2006-03-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines codierten Multikanalsignals und Vorrichtung und Verfahren zum Decodieren eines codierten Multikanalsignals
DE102004043521A1 (de) 2004-09-08 2006-03-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals oder eines Parameterdatensatzes
US8204261B2 (en) 2004-10-20 2012-06-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Diffuse sound shaping for BCC schemes and the like
SE0402650D0 (sv) 2004-11-02 2004-11-02 Coding Tech Ab Improved parametric stereo compatible coding of spatial audio
US7787631B2 (en) * 2004-11-30 2010-08-31 Agere Systems Inc. Parametric coding of spatial audio with cues based on transmitted channels
JP5017121B2 (ja) 2004-11-30 2012-09-05 アギア システムズ インコーポレーテッド 外部的に供給されるダウンミックスとの空間オーディオのパラメトリック・コーディングの同期化
KR100682904B1 (ko) 2004-12-01 2007-02-15 삼성전자주식회사 공간 정보를 이용한 다채널 오디오 신호 처리 장치 및 방법
US7903824B2 (en) 2005-01-10 2011-03-08 Agere Systems Inc. Compact side information for parametric coding of spatial audio
EP1691348A1 (en) 2005-02-14 2006-08-16 Ecole Polytechnique Federale De Lausanne Parametric joint-coding of audio sources
US7983922B2 (en) * 2005-04-15 2011-07-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating multi-channel synthesizer control signal and apparatus and method for multi-channel synthesizing
WO2006132857A2 (en) 2005-06-03 2006-12-14 Dolby Laboratories Licensing Corporation Apparatus and method for encoding audio signals with decoding instructions
KR100841332B1 (ko) 2005-07-29 2008-06-25 엘지전자 주식회사 분할 정보를 시그널링 하는 방법
US20070083365A1 (en) * 2005-10-06 2007-04-12 Dts, Inc. Neural network classifier for separating audio sources from a monophonic audio signal
EP1640972A1 (en) 2005-12-23 2006-03-29 Phonak AG System and method for separation of a users voice from ambient sound
EP1971978B1 (en) 2006-01-09 2010-08-04 Nokia Corporation Controlling the decoding of binaural audio signals
EP1853092B1 (en) 2006-05-04 2011-10-05 LG Electronics, Inc. Enhancing stereo audio with remix capability
JP4399835B2 (ja) 2006-07-07 2010-01-20 日本ビクター株式会社 音声符号化方法及び音声復号化方法

Also Published As

Publication number Publication date
AU2007247423B2 (en) 2010-02-18
ATE524939T1 (de) 2011-09-15
CN101690270B (zh) 2013-03-13
RU2414095C2 (ru) 2011-03-10
WO2007128523A1 (en) 2007-11-15
AU2007247423A1 (en) 2007-11-15
EP2291007A1 (en) 2011-03-02
BRPI0711192A2 (pt) 2011-08-23
EP2291008B1 (en) 2013-07-10
CA2649911C (en) 2013-12-17
EP1853093B1 (en) 2011-09-14
CN101690270A (zh) 2010-03-31
US8213641B2 (en) 2012-07-03
KR20110002498A (ko) 2011-01-07
ATE527833T1 (de) 2011-10-15
EP1853093A1 (en) 2007-11-07
EP2291007B1 (en) 2011-10-12
EP1853092A1 (en) 2007-11-07
CA2649911A1 (en) 2007-11-15
KR101122093B1 (ko) 2012-03-19
EP1853092B1 (en) 2011-10-05
JP4902734B2 (ja) 2012-03-21
RU2008147719A (ru) 2010-06-10
ATE528932T1 (de) 2011-10-15
EP2291008A1 (en) 2011-03-02
JP2010507927A (ja) 2010-03-11
US20080049943A1 (en) 2008-02-28
KR20090018804A (ko) 2009-02-23
WO2007128523A8 (en) 2008-05-22

Similar Documents

Publication Publication Date Title
EP1853093B1 (en) Enhancing audio with remixing capability
US8295494B2 (en) Enhancing audio with remixing capability
US11682407B2 (en) Parametric joint-coding of audio sources
EP1803117B1 (en) Individual channel temporal envelope shaping for binaural cue coding schemes and the like
EP1997102B1 (en) Apparatus and method for generating an ambient signal from an audio signal, apparatus and method for deriving a multi-channel audio signal from an audio signal and computer program
JP2010507927A6 (ja) リミキシング性能を持つ改善したオーディオ
RU2497204C2 (ru) Устройство параметрического стереофонического повышающего микширования, параметрический стереофонический декодер, устройство параметрического стереофонического понижающего микширования, параметрический стереофонический кодер
US8433583B2 (en) Audio decoding
KR101016982B1 (ko) 디코딩 장치
EP2467850B1 (en) Method and apparatus for decoding multi-channel audio signals
US20110206223A1 (en) Apparatus for Binaural Audio Coding

Legal Events

Date Code Title Description
FA Abandonment or withdrawal