MX2008009088A - Aparato y metodo para codificar y descodificar señal. - Google Patents
Aparato y metodo para codificar y descodificar señal.Info
- Publication number
- MX2008009088A MX2008009088A MX2008009088A MX2008009088A MX2008009088A MX 2008009088 A MX2008009088 A MX 2008009088A MX 2008009088 A MX2008009088 A MX 2008009088A MX 2008009088 A MX2008009088 A MX 2008009088A MX 2008009088 A MX2008009088 A MX 2008009088A
- Authority
- MX
- Mexico
- Prior art keywords
- signals
- decoding
- signal
- divided
- coding
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 78
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 13
- 239000000284 extract Substances 0.000 claims description 14
- 230000008447 perception Effects 0.000 description 28
- 238000010586 diagram Methods 0.000 description 27
- 230000000873 masking effect Effects 0.000 description 23
- 238000004458 analytical method Methods 0.000 description 20
- 230000006870 function Effects 0.000 description 12
- 230000005236 sound signal Effects 0.000 description 12
- 238000007781 pre-processing Methods 0.000 description 11
- 238000013139 quantization Methods 0.000 description 11
- 238000004364 calculation method Methods 0.000 description 10
- 238000003786 synthesis reaction Methods 0.000 description 9
- 230000009466 transformation Effects 0.000 description 9
- 230000015572 biosynthetic process Effects 0.000 description 8
- 238000000605 extraction Methods 0.000 description 7
- 230000004927 fusion Effects 0.000 description 7
- 230000005284 excitation Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000012546 transfer Methods 0.000 description 6
- 230000006978 adaptation Effects 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 230000007613 environmental effect Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000013213 extrapolation Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000003534 oscillatory effect Effects 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/233—Processing of audio elementary streams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Se proporcionan aparatos de codificación y descodificación y métodos de codificación y descodificación. El método de descodificación incluye extraer una pluralidad de señales codificadas de una corriente de bits de entrada, determinar cual de una pluralidad de métodos de descodificación se va a usar para descodificar cada una de las señales codificadas, descodificar las señales codificadas usando los métodos de descodificación determinados, y sintetizar las señales de descodificadas. Consecuentemente, es posible codificar señales que tienen características diferentes a un régimen de bits óptimo clasificando las señales en una o más clases de acuerdo con las características de las señales y codificar cada una de las señales usando una unidad de codificación que puede servir mejor la clase en donde pertenece una señal correspondiente. Además, es posible codificar eficientemente diversas señales incluyendo señales de audio y habla.
Description
APARATO Y MÉTODO PARA CODIFICAR Y DESCODIFICAR SEÑAL Campo Técnico La presente invención se relaciona con aparatos de codificación y descodificación y métodos de codificación y descodificación, y más particularmente, con aparato de codificación y descodificación y métodos de codificación y descodificación que pueden codificar y descodificar señales a un régimen de bits óptimo de conformidad con las características de las señales. Ramo Anterior Los codificadores de audio convencionales pueden proporcionar señales de audio de alta calidad a un régimen de bits elevado de 48 kpbs o mayor, pero son ineficientes para procesar señales de habla. Por otra parte, los codificadores de habla convencionales pueden codificar efectivamente señales a un régimen de bits bajo de 12 kbps y menos, pero son insuficientes para codificar diversas señales de audio. Exposición de la Invención Problema Técnico La presente invención proporciona aparatos de codificación y descodificación y métodos de codificación y descodificación que pueden codificar o descodificar señales (v.gr., señales de habla y audio) que tienen diferentes
características a un régimen de bits óptimo. Solución Técnica De conformidad con un aspecto de la presente invención, se proporciona un método de descodificación, que incluye extraer una pluralidad de señales codificadas de una corriente de bits de entrada, determinar cual de la pluralidad de métodos de descodificación se va a usar para descodificar cada una de las señales codificadas, descodificar las señales codificadas usando los métodos de descodificación determinados, y sintetizar las señales descodificadas . De conformidad con otro aspecto de la presente invención, se proporciona un aparato de descodificación, que incluye un módulo de desempaquetado de bits que extrae una pluralidad de señales codificados desde una corriente de bits de entrada, un módulo de determinación de descodificador que determina cual de una pluralidad de unidades de descodificación se va a usar para descodificar cada una de las señales codificadas determinadas, y un módulo de sintetización que sintetiza las señales codificadas. De conformidad con otro aspecto de la presente invención, se proporciona un método de codificación, que incluye dividir una señal de entrada en una pluralidad de
señales divididas, determinar cual de una pluralidad de métodos de codificación se va a usar para codificar cada una de las señales divididas basado en características de cada una de las señales divididas, codificar las señales divididas usando los métodos de codificación determinados, y generar una corriente de bits basada en las señales divididas codificadas. De conformidad con otro aspecto de la presente invención, se proporciona un aparato de codificación, que incluye un módulo de división de señal que divide una señal de entrada en una pluralidad de señales divididas, un módulo de determinación de codificador que determina cual de una pluralidad de unidades de codificación se va a usar para codificar cada una de las señales divididas basado en características de cada una de las señales divididas, un módulo de codificación que incluye las unidades de codificación y codifica las señales divididas usando las unidades de codificación determinadas, y un módulo de empaque de bit que genera una corriente de bits basada en las señales divididas codificadas. Efectos Ventajosos Consecuentemente, es posible codificar señales que tienen diferentes características a un régimen de bits óptimo
clasificándolas señales en una o más clases de acuerdo con las características de las señales y codificar cada una de las señales usando una unidad de codificación que puede servir mejor la clase en donde pertenece la señal correspondiente. Además, es posible codificar eficientemente diversas señales incluyendo señales de audio y habla. Breve Descripción de los Dibujos La Figura 1 es un diagrama de bloque de un aparato de codificación de conformidad con una modalidad de la presente invención; La Figura 2 es un diagrama de bloque de una modalidad de un módulo de clasificación ilustrado en la Figura 1; La Figura 3 es un diagrama de bloque de una modalidad de una unidad de procesamiento previo ilustrada en la Figura 2; La Figura 4 es un diagrama de bloque de un aparato para calcular la entropía de percepción de una señal de entrada de conformidad con una modalidad de la presente invención; La Figura 5 es un diagrama de bloque de otra modalidad del módulo de clasificación ilustrado en la Figura 1;
La Figura 6 es un diagrama de bloque de una modalidad de una unidad de división de señal ilustrada en la Figura 5; Las Figuras 7 y 8 son diagramas para explicar métodos para unir una pluralidad de señales divididas de conformidad con modalidades de la presente invención; La Figura 9 es un diagrama de bloque de otra modalidad de la unidad de división de señal ilustrada en la Figura 5; La Figura 10 es un diagrama para explicar un método para dividir una señal de entrada en una pluralidad de señales divididas de conformidad con una modalidad de la presente invención; La Figura 11 es un diagrama de bloque de una modalidad de una unidad de determinación ilustrada en la Figura 5; La Figura 12 es un diagrama de bloque de una modalidad de una unidad de codificación ilustrada en la Figura 1; La Figura 13 es un diagrama de bloque de otra modalidad de la unidad de codificación ilustrada en la Figura 1; La Figura 14 es un diagrama de bloque de un aparato
de codificación de conformidad con otra modalidad de la presente invención; La Figura 15 es un diagrama de bloque de un aparato de descodificación de conformidad con una modalidad de la presente invención; y La Figura 16 es un diagrama de bloque de una modalidad de una unidad de sintetización ilustrada en la Figura 15. Mejor Modo para Llevar a Cabo la Invención La presente invención se describirá a continuación más completamente con referencia a los dibujos que se acompañan, en los que las modalidades de ejemplo de la invención se muestran. La Figura 1 es un diagrama de bloque de un aparato de codificación de conformidad con una modalidad de la presente invención. Haciendo referencia a la Figura 1, el aparato de codificación incluye un módulo 100 de clasificación, un módulo 200 de codificación, y un módulo 300 de empaque de bits . El módulo 200 de codificación incluye una pluralidad de unidades de codificación primera a m 210 y 220 que realizan diferentes métodos de codificación. El módulo 100 de clasificación divide una señal de
entrada en una pluralidad de señales divididas y hace coincidir cada una de las señales divididas con una de las unidades de codificación 210 y 220 primera a m. Alguna de las unidades 210 y 220 de codificación primera a m se pueden coincidir con dos o más señales divididas o ninguna señal dividida en absoluto. El módulo 100 de clasificación puede distribuir una cantidad de bits para codificar cada una de las señales divididas o determinar el orden en el que las señales divididas se van a codificar. El módulo 200 de codificación codifica cada una de las señales divididas usando cualquiera de las unidades 210 y 220 de codificación primera a m se coincide a una señal dividida correspondiente. El módulo 100 de clasificación analiza las características de cada una de las señales divididas y selecciona una de las unidades 210 y 220 de codificación primera a m que puede codificar cada una de las señales divididas de conformidad con los resultados del análisis más eficientemente. Una unidad de codificación que puede codificar una señal dividida más eficientemente se puede considerar como que es capaz de lograr la eficiencia de compresión más elevada.
Por ejemplo, una señal dividida que se puede modelar fácilmente como un coeficiente y un residuo se pueden codificar eficientemente mediante un codificador de habla, y una señal dividida que no se puede modelar fácilmente como un coeficiente y un residuo se puede codificar eficientemente por codificador de audio. Si la relación de la energía de un residuo obtenido modelando una señal dividida a la energía de la señal dividida es menor que un umbral predefinido, la señal dividida puede considerarse como siendo una señal que se puede modelar fácilmente. Puesto que una señal dividida que exhibe una redundancia elevada en un eje de tiempo puede modelarse bien usando un método predicho lineal en el que una señal de corriente se predice basado en una señal anterior, se puede codificar más eficientemente por un codificador de habla que usa un método de codificación de predicción lineal. El módulo 300 de empaque de bits genera una corriente de bits que se va a transmitir basada en las señales divididas codificadas provistas por el módulo 200 de codificación e información de codificación adicional respecto a las señales divididas codificadas. El módulo 300 de empaque de bits puede generar una corriente de bits que tiene un
régimen de bits variable usando un método de bit sencillo o un método de codificación aritmética de bit rebanado. Las señales divididas o anchuras de banda que no se codifican debido a restricciones de régimen de bits se pueden restaurar de las señales descodificadas o anchuras de banda provistas por un descodificador usando un método de interpolación, extrapolación o réplica. Asimismo, la información de compensación respecto a las señales divididas que no se codifican se puede incluirán una corriente de bits que se va a transmitir. Haciendo referencia a la Figura 1, el módulo 110 de clasificación puede incluir una pluralidad de unidades 110 y 120 de clasificación primera a n. Cada una de las unidades 110 y 120 de clasificación primera a n pueden dividir la señal de entrada en una pluralidad de señales divididas, convertir un dominio de la señal de entrada, extraer las características de la señal de entrada, clasificar la señal de entrada de conformidad con las características de la señal de entrada, o hacer coincidir la señal de entrada con una de las unidades 210 y 220 de codificación primera a n. Una de las unidades 110 y 120 de clasificación primera a n puede ser una unidad de procesamiento previo que realiza una operación de procesamiento previo en la señal de
entrada de manera que la señal de entrada se pueda convertir en una señal que se puede codificar eficientemente. La unidad de procesamiento previo puede dividir la señal de entrada en una pluralidad de componentes, por ejemplo, un componente de coeficiente y un componente de señal, y puede realizar una operación de procesamiento previo en la señal de entrada antes de que las otras unidades de clasificación realicen sus operaciones . La señal de entrada se puede procesar previamente selectivamente de conformidad con las caracteristicas de la señal de entrada, factores ambientales externos, y un régimen de bits de meta, y solamente algunas de una pluralidad de señales divididas obtenidas de la señal de entrada se pueden procesar selectivamente de manera previa. El módulo 100 de clasificación puede clasificar la señal de entrada de conformidad con información característica de percepción de la señal de entrada proporcionada por un módulo 400 de modelado psicoacústico. Los ejemplos de la información característica de percepción incluyen un umbral de enmascaramiento, una relación de señal a máscara (S R) , y entropía de percepción. En otras palabras, el módulo 100 de clasificación puede dividir la señal de entrada en una pluralidad de
señales divididas o puede hacer coincidir cada una de las señales divididas con una o más de las unidades 320 a 220 de codificación primera a m de conformidad con la información característica de percepción de la señal de entrada, por ejemplo, un umbral de enmascaramiento y una SMR de la señal de entrada. Además, el módulo 100 de clasificación puede recibir información tal como la tonalidad, el régimen de cruzamiento de cero (ZCR) , y un coeficiente de predicción lineal de la señal de entrada, e información de clasificación de cuadros anteriores, y puede clasificar la señal de entrada de conformidad con la información recibida. Haciendo referencia a la Figura 1, la salida .de información de resultado codificada' por el módulo 200 de codificación se puede retroalimentar al módulo 100 de clasificación . Una vez que la señal de entrada se divide en una pluralidad de señales divididas por el módulo 100 de clasificación y se determina mediante cual de las unidades 210 y 220 de codificación prima a m, con qué cantidad de bits, y en qué orden las señales divididas se van a codificar, las señales divididas se codifican de conformidad con los resultados de la determinación. Una cantidad de bits
en realidad usada para codificar cada una de las señales divididas puede no ser necesariamente la misma que una cantidad de bits distribuidos por el módulo 100 de clasificación. La información que especifica la diferencia entre la cantidad de bits realmente usada y la cantidad de bits distribuida se puede retroalimentar al módulo 100 de clasificación de manera que el módulo 100 de clasificación puede aumentar la cantidad de bits distribuida para otras señales divididas. Si la cantidad de bits usada realmente es mayor que la cantidad de bits distribuida, el módulo 100 de clasificación puede reducir la cantidad de bits distribuida para otras señales divididas. Una unidad de codificación que en realidad codifica una señal dividida puede no ser necesariamente la misma que una unidad de codificación que se coincide con la señal dividida por el módulo 100 de clasificación. En este caso, la información se puede retroalimentar al módulo 100 de clasificación, indicando que una unidad de codificación que en realidad codifica una señal dividida es diferente a una unidad de codificación coincidida con la señal dividida por el módulo 100 de clasificación. Entonces, el módulo 100 de clasificación puede coincidir la señal dividida a una unidad
de codificación diferente a la unidad de codificación previamente coincidida con la señal dividida. El módulo 100 de clasificación puede dividir la señal de entrada nuevamente en una pluralidad de señales divididas de conformidad con la información de resultado codificado retroalimentada al mismo. En este caso, el módulo 100 de clasificación puede obtener una pluralidad de señales divididas que tienen una estructura diferente a aquella de las señales divididas previamente obtenidas. Si una operación de codificación seleccionada por el módulo 100 de clasificación difiere de una operación de codificación que en realidad se realiza, la información respecto a las diferencias entre las mismas se puede retroalimentar al módulo 100 de clasificación de modo que el módulo 100 de clasificación pueda determinar nuevamente información relacionada con operación de codificación. La Figura 2 es un diagrama de bloque de una modalidad del módulo 100 de clasificación ilustrado en la Figura 1. Haciendo referencia a la Figura 2, la primera unidad de clasificación puede ser una unidad de procesamiento previo que realiza una operación de procesamiento previo en una señal de entrada de modo que la señal de entrada se pueda codificar efectivamente.
Haciendo referencia a la Figura 2, la primera unidad 110 de clasificación puede incluir una pluralidad de procesadores previos 111 y 112 primero a n que realizan diferentes métodos de procesamiento previo. La primera unidad 110 de clasificación puede usar uno de los procesadores previos 111 y 112 primero a n para realizar el procesamiento previo en una señal de entrada de conformidad con las características de la señal de entrada, factores ambientales externos, y un régimen de bits de meta. Asimismo, la primera unidad 110 de clasificación puede realizar dos o más operaciones de procesamiento previo en la señal de entrada usando los procesadores previos 111 y 112 primero a n. La Figura 3 es un diagrama de bloque de una modalidad de los procesadores previos 111 y 112 primero a n ilustrados en la Figura 2. Haciendo referencia a la Figura 3, un procesador previo incluye un extractor 113 de coeficiente y un extractor 114 de residuo. El extractor 113 de coeficiente analiza una señal de entrada y extrae de la señal de entrada un coeficiente que representa las características de la señal de entrada. El extractor 114 de residuo extrae de la señal de entrada un residuo con componentes redundantes eliminados del mismo usando el coeficiente extraído.
El procesador previo puede realizar una operación de codificación de predicción lineal en la señal de entrada. En este caso, el extractor 113 de coeficiente extrae un coeficiente de predicción lineal de la señal de entrada realizando análisis de predicción lineal en la señal de entrada, y el extractor 114 de residuo extrae un residuo de la señal de entrada usando el coeficiente de predicción lineal proporcionado por el extractor 113 de coeficiente. El residuo con redundancia eliminada del mismo puede tener el mismo formato ue ruido blanco. Un método de análisis de predicción lineal de conformidad con una modalidad de la presente invención se describirá más adelante con detalle. Una señal predicha obtenida mediante análisis de predicción lineal puede estar comprendida de una combinación lineal de señales de entrada previas, como se indica por la Ecuación (1) : Figura Matemática 1
en donde p indica una orden de predicción lineal, i a p indican coeficientes de predicción lineal que se obtienen reduciendo al mínimo un error cuadrado medio (MSE) entre una
señal de entrada y una señal calculada. Una función de transferencia P(z) para análisis de predicción lineal se puede representar mediante la Ecuación
(2) : Figura Matemática 2
Haciendo referencia as la Figura 3, el procesador previo puede extraer un coeficiente de predicción lineal y un residuo de una señal de entrada usando un método de codificación de predicción lineal oblicuo (WLPC) , que es otro tipo de análisis de predicción lineal. El método WLPC se puede realizar substituyendo un filtro de paso completo que tiene una función de transferencia A(z) para un retraso unitario Z'1. La función de transferencia A(z) se puede representar mediante la Ecuación (3) : Figura Matemática 3
en donde indica un coeficiente de paso completo. Variando el coeficiente de paso completo, es posible variar la resolución de una señal que se va a analizar. Por ejemplo, si una señal
que se va a analizar está altamente concentrada en una cierta banda de frecuencia, v.gr., si la señal a analizar es una señal de audio que está altamente concentrada en una banda de baja frecuencia, la señal a analizar se puede codificar eficientemente ajustando el coeficiente de paso completo de modo que la resolución de las señales de banda de baja frecuencia se pueda aumentar. En el método WLPC, las señales de baja frecuencia se analizan con resolución superior que las señales de alta frecuencia. De esta manera, el método WLPC puede lograr funcionamiento de predicción elevado para señales de baja frecuencia y pueden moldear mejor las señales de baja frecuencia . El coeficiente de paso completo se puede variar a lo largo de un eje de tiempo de conformidad con las características de una señal de entrada, factores ambientales externos, y un régimen de bits de meta. Si el coeficiente de paso completo varía con el tiempo, una señal de audio obtenida descodificando se puede distorsionar considerablemente. De esta manera, cuando el coeficiente de paso completo varía, se puede aplicar un método de suavización al coeficiente de paso completo de modo que el coeficiente de paso completo pueda variar gradualmente, y esa
distorsión de señal se puede reducir al mínimo. La escala de valores se puede determinar como un valor de coeficiente de paso completo actual mediante valores de coeficiente de paso completo previos. Un umbral de enmascaramiento, en lugar de una señal original, se puede usar como una entrada para el cálculo de un coeficiente de predicción lineal. Más específicamente, un umbral de enmascaramiento se puede convertir en una señal de dominio de tiempo, y WLPC se puede realizar usando la señal de dominio de tiempo como una entrada. La predicción de un coeficiente de predicción lineal se puede realizar además usando un residuo como una entrada. En otras palabras, el análisis de predicción lineal se puede realizar más de una vez, obteniendo de esta manera un residuo blanqueado adicional. Haciendo referencia a la Figura 2, la primera unidad 110 de clasificación puede incluir un primer procesador previo 111 que realiza el análisis de predicción lineal arriba descrito con referencia a las Ecuaciones (1) y (2), y un segundo procesador previo (no mostrado) que realiza WLPC. La primera unidad 100 de clasificación puede seleccionar uno del primer procesador 111 y el segundo procesador previo o puede decidir no realizar análisis de
predicción lineal en una señal de entrada de conformidad con las características de la señal de entrada, factores ambientales externos, y el régimen de bits de meta. Si el coeficiente de paso completo tiene un valor de 0, el segundo procesador previo puede ser el mismo que el primer procesador previo 111. En este caso, la primera unidad 110 de clasificación puede incluir solamente el segundo procesador previo, y seleccionar uno del método de análisis de predicción lineal y el método WLPC de conformidad con el valor del coeficiente de paso completo. Asimismo, la primera unidad 110 de clasificación puede realizar análisis de predicción lineal o cualquiera del método de análisis de predicción lineal y el método WLPC se selecciona en las unidades de cuadros. La información que indica si realizar análisis de predicción lineal e información que indica cual del método de análisis de predicción lineal y los métodos WLPC se selecciona se puede incluir en una corriente de bits que se va a transmitir. El módulo 300 de empaque de bits recibe de la primera unidad 110 de clasificación un coeficiente de predicción lineal, información indicando si realizar codificación de predicción lineal, e información que
identifica un codificador de predicción lineal que se usa en realidad. Luego, el módulo 300 de empaque de bits inserta toda la información recibida hacia una corriente de bits que se va a transmitir. Una cantidad de bits necesaria para codificar una señal de entrada en una señal que tiene una calidad de sonido casi indistinguible de aquella de la señal de entrada original se puede determinar calculando la entropía de percepción de la señal de entrada. La Figura 4 es un diagrama de bloque de un aparato para calcular la entropía de percepción de conformidad con una modalidad de la presente invención. Haciendo referencia a la Figura 4, el aparato incluye un banco 115 de filtro, una unidad 116 de predicción lineal, una unidad 117 de modelado psicoacústico, una primera unidad 118 de cálculo de bit, y una segunda unidad 119 de cálculo de bit. La entropía de percepción PE de una señal de entrada se puede calcular utilizando la Ecuación (4) : Figura Matemática 4
{bit Imuestra)
en donde X(ej2) indica el nivel de energía de la señal de entrada original, y T(ejw) indica un umbral de enmascarado.
En un método WLPC que involúcrale uso de un filtro de paso completo, la entropía de percepción dee una señal de entrada se puede calcular usando la relación de la energía de un residuo de la señal de entrada y un umbral de enmascaramiento del residuo. Más específicamente, un aparato de codificación que utiliza el método WLPC puede calcular la entropía de percepción PE de una señal de entrada usando la Ecuación 85) : Figura Matemática 5
|???' (bitImuestra)
en donde R(eJW) indica la energía de un residuo de la señal de entrada y T(ej2) indica un umbral de enmascaramiento del residuo. El umbral de enmascaramiento Tíe*") se puede representar mediante la Ecuación (6) : Figura Matemática 6
en donde T(e?w) indica un umbral de enmascaramiento de una señal original y H{e^w) indica una función de transferencia para WLPC. La unidad 320 de modelado psicoacústico puede calcular el umbral de enmascaramiento T(ejw) usando el umbral
de enmascaramiento T(ejw) en un dominio de banda de factor de escala y usando la función de transferencia /¿"(e^") . Haciendo referencia a la Figura 4, la primera unidad 118 de cálculo de bit recibe un residuo obtenido por WLPD realizado por la unidad 116 de predicción lineal y una salida de umbral de enmascaramiento por la unidad 117 de modelado psicoacústico. El banco 116 de filtro puede realizar conversión de frecuencia en una señal original, y el resultado de la conversión de frecuencia puede ser entrada a la unidad 117 de modelado psicoacústico, y la segunda unidad 119 de cálculo de bit. El banco 115 de filtro puede realizar transformación Fourier en la señal original. La primera unidad 118 de cálculo de bit puede calcular la entropía de percepción usando la relación del umbral de enmascaramiento de la señal original dividida mediante un espectro de una función de transferencia de un filtro de síntesis de WLPC y la energía del residuo. La entropía de percepción oblicua SPE de una señal que se divide en 60 o más bandas de división no uniformes son diferentes anchuras de banda se puede calcular usando WLPC, como se indica mediante la Ecuación (7) : Figura Matemática 7
en donde b indica un índice de una banda de división obtenida usando un modelo psicoacústico, e res(J) indica la suma de las energías de residuos en la banda de división b, w_low(b) y w-high(b) respectivamente indican las frecuencias más baja y más elevada en la banda de división b, nbnneai (w) indica un umbral de enmascaramiento de la banda de división linealmente mapeada, h(w)2 indica un espectro de energía de codificación de predicción lineal (LPC) de un cuadro, y nbres (w) indica un umbral de enmascaramiento lineal correspondiente a un residuo. Por otra parte, la entropía de percepción oblicua WPEsub de una señal que se divide en 60 o más bandas de división uniformes con la misma anchura de banda se puede calcular usando WLPC, como se indica mediante la Ecuación
(8) : Figura Matemática 8
<
en donde s indica un índice de una sub-banda linealmente dividida, s iow(w) y s high(w) respectivamente indican las frecuencias más baja y más elevada en la sub-banda linealmente dividida s, nb SUb(s) indica un umbral de enmascaramiento de la sub-banda s linealmente dividida, es decir, la suma de las frecuencias en la sub-banda s linealmente dividida. El umbral de enmascaramiento nb Sub(s) es un mínimo de una pluralidad de umbrales de enmascaramiento en la sub-banda s linealmente dividida. La entropía de percepción no se puede calcular para bandas con la misma anchura de banda y con umbrales superiores a la suma de espectros de entrada. De esta manera, la entropía de percepción oblicua WPEsub de la Ecuación (8) puede ser inferior a la entropía de percepción oblicua WPE de la Ecuación (7), que proporciona resolución elevada para bandas de baja frecuencia. La entropía de percepción oblicua WPE sf se puede calcular para bandas de factor de escala con diferentes anchuras de banda usando WLPC, como se indica por la Ecuación (9) : Figura Matemática 9
«-( ) ·„(·»)= ?
en donde f indica un índice de una banda de factor de escala, nb Sf(f) indica un umbral de enmascaramiento mínimo de una banda de factor de escala f, WPE 3f indica la relación de una señal de entrada de la banda de factor de escala f y un umbral de enmascaramiento de la banda de factor de escala f, y e Sf(s) indica la suma de todas las frecuencias en la banda de factor de escala f, es decir, la energía de la banda de factor de escala f. La Figura 5 es un diagrama de bloque de otra modalidad del módulo 100 de clasificación ilustrado en la Figura 1. Haciendo referencia a la Figura 5, un módulo de clasificación incluye una unidad 121 de división de señal y una unidad 122 de determinación. Más específicamente, la unidad 121 de división de señal divide una señal de entrada en una pluralidad de señales divididas. Por ejemplo, la unidad 121 de división de señal puede dividir la señal de entrada en una pluralidad de bandas de frecuencia usando un filtro de sub-banda. Las bandas de frecuencia pueden tener la misma anchura de banda o diferentes anchuras de banda. Como se describe arriba, una
señal dividida se puede codificar separadamente de otras señales divididas mediante una unidad de codificación que puede servir mejor las características de la señal dividida. La unidad 121 de división de señal puede dividir la señal de entrada en una pluralidad de señales divididas, por ejemplo, una pluralidad de señales de banda, de modo que la interferencia entre las señales de banda se puede minimizar. La unidad 121 de división de señal puede tener una estructura de banco de filtro doble. En este caso, la unidad 121 de división de señal puede dividir además cada una de las señales divididas. La información de división respecto a las señales divididas obtenidas por la unidad 121 de división de señal, por ejemplo, el número total de señales divididas e información de banda de cada una de las señales divididas, puede incluirse en una corriente de bits que se va a transmitir. Un aparato de descodificación puede descodificar las señales divididas separadamente y sintetizar las señales descodificadas con referencia a la información dedivisión, restaurando de esta manera la señal de entrada original. La información de división se puede almacenar como un cuadro. Una corriente de bits puede incluir información de identificación de un cuadro usado para dividir la señal de
entrada original. La importancia de cada una de las señales divididas (v.gr., una pluralidad de señales de banda de frecuencia9 a la calidad de sonido se puede determinar, y el régimen de bits se puede ajustar para cada una de las señales divididas de conformidad con los resultados de la determinación. Más especifacámente, la importancia de una señal dividida se puede definir como un valor fijo o como un valor no fijo que varia de conformidad con las características de una señal de entrada para cada cuadro. Si señales de habla y audio se mezclan en la señal de entrada, la unidad 121 de división de señal puyede dividir la señal de entrada en una señal de habla y una señal de audio de conformidad con las características de señales de habla y las características de señales de audio. La unidad 122 de determinación puede determinar cual que las unidades 210 y 220 de codificación primaera a m en el módulo 200 decodificación puede codificar cada una de las señales divididas más eficientemente. La unidad 122 de determinación clasifica las señales divididas en un número de grupos. Por ejemplo, la unidad 122 de determinación puede clasificar las señales divididas en N clases, y determinar cual de las unidades de
codificación 210 y 220 primera a m se va a usar para codificar cada una de las señales divididas coincidiendo cada una de las N clases a una de las unidades de codificación 210 y 220 primera a m. Más específicamente, dado que el módulo 200 de codificación incluye las unidades de codificación 210 y 220 prima a m, la unidad 122 de determinación puede clasificar las señales divididas en clases prima a m, que se pueden codificar más eficientemente por las unidades 210 y 220 de codificación primera a m, respectivamente. Para esto, las características de señales que se pueden codificar más eficientemente por cada una de las unidades de codificación 210 y 220 primera a m se puede determinar con anticipación, y las características de las clases primera a m se pueden definir de conformidad con los resultados de la determinación. A continuación, la unidad 122 de determinación puede extraer las características de cada una de las señales divididas y clasificar cada una de las señales divididas hacia una de las clases primera a m que comparte las mismas características como una señal dividida correspondiente de conformidad con los resultados de la extracción. Ejemplos de las primera a m clases incluyen una
clase de habla, una clase de habla sin voz, una clase de ruido de fondo, una clase de silencio, una clase de audio tonal, una clase de audio no tonal, y una clase de mezcla de habla con voz/audio. La unidad 122 de determinación puede determinar cual de las unidades 210 y 220 de codificación primera a m se va a usar para codificar cada una de las señales divididas haciendo referencia a información característica de percepción respecto a las señales divididas proporcionadas por el módulo 400 de modelado psicoacústico, por ejemplo, los umbrales de enmascaramiento, SMRs, o niveles de entropía de percepción de las señales divididas. La unidad 122 de determinación puede determinar una cantidad de bits para codificar cada una de las señales divididas o determinar el orden en el que las señales divididas se van a codificar haciendo referencia a la información característica de percepción respecto a las señales divididas. La información obtenida por la determinación realizada por la unidad 122 de determinación, por ejemplo, informad ' von que indica por cual de las unidades de codificación 210 y 220 primera a m y con cual cantidad de bits cada una de las señales divididas se va a codificar e
información indicando el orden en el que las señales divididas se van a codificar, se pueden incluir en una corriente de bits que se va a transmitir. La Figura 6 es un diagrama de bloque de una modalidad de la unidad 121 de división de señal ilustrada en la figura 5. Haciendo referencia a la figura 6, una unidad de división dé señal incluye un divisor 123 y un aparato de fusión 124. El divisor 123 puede dividir una señal de entrada en una pluralidad de señales divididas. El aparato de fusión 124 puede fusionar señales divididas que tienen características similares en una sola señal. Para esto, el dispositivo 124 de fusión puede incluir un banco de filtro de síntesis . Por ejemplo, el divisor 123 puede dividir una señal de entrada en 256 bandas. De las 256 bandas, aquellas que tienen características similares se pueden fusionar en una sola banda mediante el dispositivo de fusión 124. Haciendo referencia a la Figura 7, el dispositivo 124 de fusión unirá una pluralidad de señales divididas que están adyacentes entre sí hacia una sola señal fusionada. En este caso, el aparato 124 de fusión puede fusionar una pluralidad de señales divididas adyacentes en una sola señal
fusionada de conformidad con una regle predefinida sin consideración a las características de las señales divididas adyacentes . Alternativamente, haciendo referencia a la Figura 8, el aparato 124 de fusión puede fusionar una pluralidad de señales divididas que tienen características similares en una señal fusionada, independientemente de si las señales divididas están adyacentes entre si. En este caso, el aparato 124 de fusión puede fusionar una pluralidad de señales divididas que se pueden codificar eficientemente mediante la misma unidad de codificación en una sola señal fusionada. La Figura 9 es un diagrama de bloque de otra modalidad de la unidad 121 de división de señal ilustrada en la Figura 5. Haciendo referencia a la Figura 9, una unidad de división de señal incluye un primer divisor 125, un segundo divisor 126, y un tercer divisor 127. Más específicamente, la unidad 121 de división de señal se puede dividir jerárquicamente una señal de entrada. Por ejemplo, la señal de entrada se puede dividir en dos señales divididas mediante el primer divisor 125, una de las dos señales divididas se pueden dividir en dos señales divididas mediante el primer divisor 125, una de las dos señales divididas se pueden dividir en tres señales divididas
por el segundo divisor 126, y una de las tres señales divididas se puede dividir en tres señales divididas por el tercer divisor 127. De esta manera, la señal de entrada se puede dividir en un total de 6 señales divididas. La unidad 121 de división de señal puede dividir jerárquicamente la señal de entrada hacia una pluralidad de bandas con diferentes anchuras de banda. En la modalidad ilustrada en la Figura 9, una señal de entrada está dividida de conformidad con una jerarquía de 3 niveles, pero la presente invención no está restringida a la misma. En otras palabras, una señal de entrada se puede dividir en una pluralidad de señales divididas de conformidad con una jerarquía de 2 niveles o 4 o más niveles. Uno de los primero a tercer divisores 125 a 127 en la unidad 121 de división de señal puede dividir una señal de entrada en una pluralidad de señales de dominio de tiempo. La Figura 10 explica una modalidad de la visión de una señal de entrada en una pluralidad de señales divididas mediante la unidad 121 de división de señal. Las señales de habla o audio generalmente son estacionarias durante un período de longitud de cuadro corto. Sin embargo, las señales de habla o audio pueden no tener en ocasiones características no estacionarias, por ejemplo
durante un periodo de transición. A fin de analizar efectivamente señales no estacionarias y mejorar la eficiencia de codicación de dichas señales no estacionarias, el aparato de codificación de conformidad con la presente modalidad puede usar un método de descomposición de modo de onda o empírica (EMD) . En otras palabras, el aparato de codificación de conformidad con la presente modalidad puede analizar las características de una señal de entrada usando una función de transformación no fija. Por ejemplo, la unidad 121 de división de señal puede dividir una señal de entrada en una pluralidad de bandas con anchuras de banda variables usando un método de filtración de sub-banda de banda de frecuencia no fija. Un método para dividir una señal de entrada en una pluralidad de señales divididas a través de EMD se describirá con detalle más adelante. En el método EMD, una señal de entrada se puede descomponer en una o más funciones de modo intrínseco (IMFs) . Una IMF debe satisfacer las siguientes condiciones: el número de extremos y el número de cruzamientos cero debe ser ya sea igual o diferir en cuando menos por uno; y el valor medio de un envolvente determinado mediante máximas locales y un envolvente determinado mediante mínimas locales es cero.
Una IMF representa un modo oscilatorio sencillo similar a un componente en una simple función armónica, haciendo de esta manera posible descomponer efectivamente una señal de entrada usando el método EMD. Más específicamente, a fin de extraer una IMF de una señal de entrada s (t) , un envolvente superior se puede producir conectando los extremos locales determinados por las máximas locales de la señal de entrada s(t) usando un método de interpolación de ranura cúbica, y un envolvente inferior se puede producir conectando todos los extremos locales determinados por los mínimos locales de la señal de entrada s(t) usando el método de interpolación de ranura cúbica. Todos los valores que la señal de entrada s(t) puede tener pueden estar entre el envolvente superior y el envolvente inferior. A continuación, el valor medio m(t) del envolvente superior y el envolvente inferior se pueden calcular. A continuación, un primer componente h i(t) se puede calcular restando el valor medio m(t) de la señal de entrada s(t), como se indica mediante la Ecuación (10) : Figura Matemática 10
Si el primer componente hi(t) no satisface las
condiciones de IMF arriba mencionadas, el primer componente hi(t) se puede determinar como siendo el mismo que la señal de entrada s(t), y la operación arriba mencionada se puede realizar nuevamente hasta que se obtiene una primera IMF Ci (f) que satisface las condiciones de IMF arriba mencionadas . Una vez que se obtiene la primera IMF Ci(t), un residuo ri(t) se obtiene restando la primera IMF Ci(t), como se indica mediante la Ecuación (11) : Figura Matemática 11 s (t) - Cl(t) = r^t) > A continuación, la operación de extracción de IMF arriba mencionada se puede realizar nuevamente usando el residuo rx(t) como una nueva señal de entrada, obteniendo de esta manera una segunda IMF C2(t) y un residuo r2(t). Si un residuo r„(t) obtenido durante la operación de extracción de IMF arriba mencionada tiene un valor constante o si una función que aumenta de manera monótonal o una función de periodo sencillo con solamente un extremo o sin extremo en absoluto, toda la operación de extracción de IMF arriba mencionada se puede terminar. Como resultado de la operación de extracción de IMF arriba mencionada, la señal de entrada s(t) se puede
representar por la suma de una pluralidad de IMFs C0(t) a
CM(t) y un residuo final rm(t) , como se indica mediante la Ecuación (12) : Figura Matemática 12
en donde M indica el número total de IMFs extraídas. El residuo final rm(t) puede reflejar las características generales de la señal de entrada s (t) . La Figura 10 ilustra once IMFs y un residuo final obtenido descomponiendo una señal de entrada original usando el método EMD. Haciendo referencia a la Figura 10, la frecuencia de una IMF obtenida de la señal de entrada original en una etapa temprana de extracción de IMF es superior a la frecuencia de una IMF obtenida de la señal de entrada original en una etapa posterior de la extracción IMF. La extracción de IMF se puede simplificar usando una desviación convencional SD entre un residuo previo hi(k-i) y un residuo actual h i como se indi9ca por la Ecuación (13) : Figura Matemática 13
Si la desviación convencional SD es menor que un valor de referencia, por ejemplo, 0.3, el residuo actual h 2 kse puede considerar como una IMF. Entre tanto, una señal x(t) se puede transformar en una señal analítica mediante Transformación de Hilbert, como se indica por la Ecuación (14) : Figura Matemática 14
z(t) = x(t)+ jH{x(t)} =a(t)e*K en donde (t) indica una amplitud instantánea, (t) indica una fase instantánea, y H[] indica Transformación de Hilbert. Como resultado de Transformación de Hilbert, una señal de entrada se puede convertir en una señal analítica que consiste de un componente real y un componente imaginario. Aplicando la Transformación de Hilbert a una señal con un promedio de 0, los componentes de frecuencia que pueden proporcionar resolución elevada para ambos dominios de tiempo y frecuencia se pueden obtener. A continuación se describirá con detalle como la unidad 122 de determinación ilustrada en la Figura 4 determina cual de una pluralidad de unidades de codificación se va a usar para codificar cada una de una pluralidad de
señales divididas obtenidas descomponiendo una señal de entrada. La unidad 122 de determinación puede determinar cual de un codificador de habla y un codificador de audio puede codificar cualquiera de las señales divididas más eficientemente. En otras palabras, la unidad 122 de determinación puede deciri codificar señales divididas que se pueden codificar eficientemente mediante un codificador de habla utilizando cualquiera de las unidades 210 y 220 de codificación primera a m es un codificador de habla y decidir codificar las señales divididas que se pueden codificar eficientemente mediante un codificador de audio usando cualquiera de las unidades de codificación 210 y 220 prima a m es un codificador de audio. A continuación se describirá con detalle como la unidad 122 de determinación determina cual de un codificador de habla y un codificador de audio puede codificar una señal dividida más eficientemente. La unidad 122 de determinación puede medir la variación en una señal dividida y determinar que la señal dividida se puede codificar más eficientemente por un codificador de habla que por un codificador de audio si el resultado de la medición es mayor que un valor de referencia
predefinido. Alternativamente, la unidad 122 de determinación puede medir un componente tonal incluido en una cierta parte de una señal dividida y determinar que la señal dividida se puede codificar más eficientemente por un codificador de audio que por un codificador de habla si el resultado de la medición es mayor que un valor de referencia predefinido. La Figura 11 es un diagrama de bloque de una modalidad de la unidad 122 de determinación ilustrada en la Figura 5. Haciendo referencia a la Figura 11, una unidad de determinación incluye una unidad 500 de codificación/descodificación de habla, un primer banco 510 de filtro, un segundo banco 520 de filtro, una unidad 530 de determinación, y una unidad 540 de modelado psicoacústico. La unidad de determinación ilustrada en la Figura
11 puede determinar cual de un codificador de habla y un codificador de audio puede codificar cada señal dividida más eficientemente . Haciendo referencia a la Figura 11, una señal de entrada se codifica mediante la unidad 500 de codificación/descodificación de habla, y la señal codificada se descodifica mediante la unidad 500 de codificación/descodificación de habla, restaurando de esta
manera la señal de entrada original. La unidad 500 de codificación/idescodificación de habla puede incluir un codificador/descodificador de habla de banda ancha de múltiples regímenes adaptable (A R-WB), y el codificador/descodificador de habla AMR-WB puede tener una estructura de predicción lineal excitada por código (CELP) . La señal de entrada se puede muestrear abajo antes de entrar a la unidad 500 de codificación/descodificación de habla. Una salida de señal por la unidad 500 de codificación/descodificación de habla se puede muestrear hacia arriba, restaurando de esta manera la señal de entrada. La señal de entrada se puede someter a conversión de frecuencia por el primer banco 510 de filtro. La salida de señal por la unidad 500 de codificación/descodificación de habla se convierte en una señal de dominio de frecuencia por el segundo banco 520 de filtro. El primer banco 510 de filtro o el segundo banco 520 de filtro puede realizar transformación de coseno, por ejemplo, transformación discreta modificada (MDCT) , en una entrada de señal al mismo. Un componente de frecuencia de la salida de señal de entrada original por el primer banco 510 de filtro y un componente de frecuencia de la señal de entrada restaurada
salida por el segundo banco 520 de filtro son ambas introducidas a la unidad 530 de determinación. La unidad 530 de determinación puede determinal cual de un codificador de habla y un codificador de udio puede codificar la señal de entrada más eficientemente basada en los componentes de frecuenta entradas al mismo. Más específicamente, la unidad 530 de determinación puede determinar cual de un codificador de habla y un codificador de audio puede codificar la señal de entrada más eficientemente basada en los componentes de frecuencia entrados a la misma calculando la entropía de percepción PE de cada uno de los componentes de frecuencia, usando la Ecuación ( 15) ; Figura Matemática 15
PE," ? NU) en donde
en donde x(j) indica un coeficiente de un componente de frecuencia, j indica un índice del componente de frecuencia, indica tamaño de paso de cuantificación," nint ( ) es una función que regresa el entero más cercano a su argumento, y jiosd) y jhighd) son un índice de frecuencia de principio y un
índice de frecuencia de final, respectivamente, de una banda de factor de escala. La unidad 530 de determinación puede calcular la entropía de percepción del componente de frecuencia de la señal de entrada original y la entropía de percepción del componente de frecuencia de la señal de entrada restaurada usando la Ecuación (15), y determinar cual del codificador de audio y un codificador de habla es más eficiente para uso al codificar la señal de entrada basada en los resultados del cálculo. Por ejemplo, si la entropía de percepción del componente de frecuencia de la señal de entrada original es menor que la entropía de percepción del componente de frecuencia de la señal de entrada restaurada, la unidad 530 de determinación puede determinar que la señal de entrada puede ser más eficientemente codificada por un codificador de audio que por un codificador de habla. Por otra parte, si la entropía de percepción del componente de frecuencia de la señal de entrada restaurada es menor que la entropía de percepción del componente de frecuencia de la señal de entrada original, la unidad 530 de determinación puede determinar que la señal de entrada se puede codificar más eficientemente por un codificador de habla que por un
codificador de audio. La Figura 12 es un diagrama de bloque de una modalidad de una de las unidades de codificación 210 y 220 primera a n ilustradas en la Figura 1. La unidad de codificación ilustrada en la Figura 12 puede ser un codificador de habla. En general, los codificadores de habla pueden realizar LPC en una señal de entrada en unidades de cuadros y extraer un coeficiente de LPC, v.gr., un coeficiente de LPC de décimo sexto orden, desde cada cuadro de la señal de entrada usando el algoritmo de Levinson-Durbin. Una señal de excitación se puede cuantificar a través de una búsqueda de libro de código de adaptación o una búsqueda de libro de código fijo. La señal de excitación se puede cuantificar usando un método de prédicción lineal excitado por código algebraico usando un cuadro de cuantificación ue tiene una estructura de conjugado. El codificador de habla ilustrado en la Figura 12 incluye una unidad 600 de análisis de predicción lineal, una unidad 610 de cálculo de paso, una unidad 620 de búsqueda de libro de código, una unidad 630 de par de espectro de linea (LSP) , y una unidad 640 de cuantificación. La unidad 600 de análisis de predicción lineal
realiza análisis de predicción lineal en una señal de entrada usando un coeficiente de autocorrelación que se obtiene usando una ventana asimétrica. Si un periodo de ver adelante, es decir, la ventana asimétrica, tiene una longitud de 30 ms, la unidad 600 de análisis de predicción lineal puede realizar análisis de predicción lineal usando un periodo de ver delante de 5 ms. El coeficiente de autocorrelación se convierte en un coeficiente de predicción lineal usando el algoritmo de Levinson-Durbin. Para cuantificación e interpolación lineal, la unidad 630 de LSP convierte el coeficiente de predicción lineal en un LSP. La unidad 640 de cuantificación cuantifica el LSP. La unidad 610 de cálculo de paso calcula el paso de circuito abierto a fin de reducir la complejidad de una búsqueda de libro de código de adaptación. Más específicamente, la unidad 610 de cálculo de paso calcula un período de paso de circuito abierto usando un dominio de señal de habla pesado de cada cuadro. A continuación, un filtro de configuración dé ruido armónico se configura usando el paso de circuito abierto calculado. A continuación, una respuesta de impulso se calcula usando el filtro de configuración de ruido armónico, un filtro de síntesis de
predicción lineal, y un filtro de pesado de percepción de formación. La respuesta de impulso se puede usar para generar una señal de meta para la cuantificación de una señal de excitación. La unidad 620 de búsqueda de libro de código realiza una búsqueda de libro de código de adaptación y una búsqueda de libro de código fijo. La búsqueda de libro de código de adaptación se puede realizar en unidades de sub-cuadros calculando un vector de libro de código de adaptación a través de una búsqueda de paso de circuito cerrado y a través de la interpolación de señales de excitación pasadas. Los parámetros de libro de código de adaptación pueden incluir el periodo de paso y ganancia de un filtro de paso. La señal de excitación se puede generar mediante un filtro de síntesis de predicción lineal a fin de simplificar una búsqueda de circuito cerrado. Una estructura de libro de código fija se establece basada en un diseño de permutación de impulso sencillo intercalado (ISSP) . Un vector de libro de código que comprende 64 posiciones en donde 64 impulsos están colocados respectivamente se divide en cuatro pistas, cada pista comprendiendo 16 posiciones. Un número predeterminado de impulsos se puede colocar en cada una de las cuatro pistas de
conformidad con el régimen de transmisión. Puesto que un índice de libro de código indica la ubicación de pista y señala un impulso, no hay necesidad de almacenar un libro de código, y una señal de excitación se puede generar sencillamente usando el índice de libro de código. El codificador de habla ilustrado en la Figura 12 puede realizar los procesos de codificación arriba mencionados en un dominio de tiempo. Asimismo, si una señal de entrada se codifica usando un método de codificación de predicción lineal mediante el módulo 100 de clasificación ilustrado en la Figura 1, la unidad 600 de análisis de predicción lineal puede ser opcional. La presente invención no está restringida al codificador de habla ilustrado en la Figura 12. En otras palabras, diversos codificadores de habla, distintos al codificador de habla ilustrado en la Figura 12, que pueden codificar eficientemente señales de habla, se pueden usar dentro del alcance de la presente invención. La Figura 13 es un diagrama de bloque de otra modalidad de una de las unidades de codificación 210 y 220 primera a n ilustradas en la Figura 1. La unidad de codificación ilustrada en la Figura 13 puede ser un codificador de audio.
Haciendo referencia a la Figura 13, el codificador de audio incluye un banco 700 de filtro, una unidad 710 de modelado psicoacústico, y una unidad 720 de cuantificación. El bando 700 de filtro convierte una señal de entrada hacia una señal de dominio de frecuencia. El banco 700 de filtro puede realizar transformación de coseno, v.gr., transformación discreta modificada (MDCT) , en la señal de entrada . La unidad 710 de modelado psicoacústico calcula un umbral de enmascaramiento en la señal de entrada o el SMR de la señal de entrada. La unidad 720 de cuantificación cuantifica coeficientes de MDCT salidos por el banco 700 de filtro usando el umbral de enmascaramiento calculado por la unidad 710 de modelado psicoacústico. Alternativamente, a fin de reducir al mínimo la distorsión audible dentro de una escala de régimen de bits determinada, la unidad 720 de cuantificación puede usar el SMR de la señal de entrada. El codificador de audio ilustrado en la figura 13 puede realizar los procesos de codificación arriba mencionados en un dominio de frecuencia. La presente invención no está restringida al codificador de audio ilustrado en la Figura 13. En otras palabras, diversos codificadores de audio (v.gr.,
codificadores de audio avanzados), distintos al codificador de audio ilustrado en la Figura 13, que pueden codificar eficientemente señales de audio, se pueden usar dentro del alcance de la presente invención. Los codificadores de audio avanzados realizan configuración de ruido temporal (TNS), intensidad/acoplamiento, predicción y codificación de estéreo, medio/lateral (M/S) . TNS es una operación de distribuir apropiadamente ruido de cuantificación de dominio de tiempo en una ventana de banco de filtro de manera que el ruido de cuanti icación se pueda hacer inaudible. La intensidad/acoplamiento es una operación que es capaz de reducir la cantidad de información espacial que se va a transmitir mediante codificación de una señal de audio y transmitir la energía de la señal de audio solamente basado en el hecho de que la percepción de la dirección de sonido en una banda elevada depende principalmente de la escala de tiempo de energía. La predicción es una operación de eliminar redundancia de una señal cuyas características estadísticas no varían usando la correlación entre componentes de espectro de cuadros. La codificación de estéreo M/S es una operación de transmitir la suma normalizada (es decir, media) y la
diferencia (es decir, lateral) de una señal de estéreo en lugar de señales de canal izquierdo y derecho. Una señal que se somete a TNS, intensidad/acoplamiento, predicción y codificación de estéreo M/S se cuantifica mediante un cuantificador que realiza Análisis-mediante-Sintesis (AbS) usando un SMR obtenido de un modelo psicoacústico. Como se describe arriba, puesto que el codificador de audio codifica una señal de entrada usando un método de modelado tal como un método de codificación de predicción lineal, la unidad 122 de determinación ilustrada en la Figura 5 puede determinar si la señal de entrada se puede modelar fácilmente de conformidad con un juego de reglas predeterminadas. A continuación, si se determina que la señal de entrada se puede modelar fácilmente, la unidad 122 de determinación puede decidir codificar la señal de entrada usando un codificador de habla. Por otra parte, si se determina que la señal de entrada no se puede modelar fácilmente, la unidad 122 de determinación puede decidir codificar la señal de entrada usando un codificador de audio. La Figura 14 es un diagrama de bloque de un aparato de codificación de conformidad con otra modalidad de la presente invención. En las Figuras 1 a 14, los números de
referencia iguales representan elementos semejantes, y de esta manera, la descripción detallada de los mismos se omitirá. Haciendo referencia a la Figura 14, un módulo 100 de clasificación divide una señal de entrada en una pluralidad de señales divididas primera a n y determina cual de una pluralidad de unidades 230, 240, 250, 260 y 270 de codificación se va a usar para codificar cada una de las señales divididas primera a n. Haciendo referencia .a la Figura 14, las unidades 230, 240, 250, 260, y 270 de codificación pueden codificar en secuencia las señales divididas primera a n, respectivamente. Asimismo, si la señal de entrada está dividida en una pluralidad de señales de banda de frecuencia, las señales de banda de frecuencia se pueden codificar en el orden desde la señal de banda de frecuencia más baja a la señal de banda de frecuencia más elevada. En un caso en donde las señales divididas se codifican en secuencia, un error de codificación de una señal previa se puede usar para codificar una señal actual. Como resultado, es posible codificar las señales divididas usando métodos de codificación diferentes y asi prevenir distorsión de señal y proporcionar capacidad de llevar a escala la
anchura de banda. Haciendo referencia a la Figura 14, la unidad 230 de codificación codifica la primera señal dividida, descodifica la primera señal dividida codificada, y da salida a un error entre la señal descodificada y la primera señal dividida a la unidad 240 de codificación. La unidad 240 de codificación codifica la segunda señal dividida usando el error salido por la unidad 230 de codificación. De esta manera, las señales segunda a m se codifican en consideración de errores de codificación de sus señales divididas previas respectivas. Por lo tanto, es posible realizar codificación sin error y mejorar la calidad de sonido. El aparato de codificación ilustrado en la Figura 14 puede restaurar una señal de una corriente de bits de entrada realizando de manera inversa las operaciones realizadas por el aparato de codificación ilustrados en las Figuras 1 a 14. La Figura 15 es un diagrama de bloque de un aparato de descodificación de conformidad con una modalidad de la presente invención. Haciendo referencia a la Figura 15, el aparato de descodificación incluye un módulo 800 de desempaque de bits, un módulo 810 de determinación de descodificador, un módulo 802 de descodificación, .y un módulo
830 de sintetización. El módulo 800 de desempaque de bits extrae, desde una corriente de bits de entrada, una o más señales codificadas e información adicional que se necesita para descodificar las señales codificadas. El m'lodulo 820 de descodificación incluye una pluralidad de unidades de descodificación primera a m 821 y 822 que realizan diferentes métodos de descodificación. El módulo 810 de determinación de descodificador determina cual de las unidades de descodificación 821 y 822 primera a m pueden descodificar cada una de las señales codificadas más eficientemente. El módulo 810 de determinación de descodificador puede usar un método similar a aquel del módulo 100 de clasificación ilustrado en la Figura 1 para determinar cual de las unidades 821 y 822 de descodificación primera a m puede descodificar cada una de las señales codificadas más eficientemente. En otras palabras, el módulo 810 de determinación de descodificador puede determinar cual de las unidades de descodificación 821 y 822 prima a m puede descodificar cada una de las señales codificadas más eficientemente basadas en las características de cada una de las señales codificadas. De preferencia, el módulo 810 de determinación de descodificador puede
determinar cual de las unidades 821 y 822 de descodificación primera a m puede descodificar cada una de las señales codificadas más eficientemente basada en la información adicional extraída de la corriente de bits de entrada. La información adicional puede incluir información de clase que identifica una clase a la que una señal codificada se clasifica como perteneciente por un aparato de codificación, la unidad de codificación la información que identifica una unidad de codificación usada para producir la señal codificada, e información de unidad de descodificación que identifica una unidad de descodificación que se va a usar para descodificar la señal codificada. Por ejemplo, el módulo 810 de determinación de descodificador puede determinar a cual clase pertenece una señal codificada basada en la información adicional y seleccionar, para la señal codificada, cualquiera de las unidades de descodificación 821 y 822 primera a m correspondiente a la clase de la señal codificada. En este caso, la unidad de descodificación seleccionada puede tener una estructura tal que puede descodificar señales pertenecientes a la misma clase que la señal codificada más eficientemente . Alternativamente, el módulo 810 de determinación de
descodificador puede identificar una unidad de codificación usada para producir una señal codificada basada en la información adicional y seleccionar, para la señal codificada, cualquiera de las unidades 821 y 822 de descodificación primera a m corresponde a la unidad de codificación identificada. Por ejemplo, si la señal codificada se ha producido por un codificador de habla, el módulo 810 de determinación de descodificador puede seleccionar, para la señal codificada, cualquiera de las unidades de descodificación 821 y 822 primera a m es un descodificador de habla. Alternativamente, el módulo 810 de determinación de descodificador puede identificar una unidad de descodificación que puede descodificar una señal codificada basada en la información adicional y seleccionar, para la señal codificada, cualquiera de las unidades de descodificación 821 y 822 primera a m correspondiente a la unidad de descodificación identificada. Alternativamente, el módulo 810 de determinación de descodificador puede obtener las características de una señal codificada de la información adicional y seleccionar cualquier de las unidades de descodificación 821 y 822 primera a m puede descodificar señales que tiene las mismas
características que la señal codificada más eficientemente. De esta manera, cada una de las señales codificadas extraída de la corriente de bits de entrada se codifica mediante cualquiera de las unidades 821 y 822 de descodificación primera a m se determina que sea capaz de descodificar una señal codificada correspondiente más eficientemente. Las señales descodificadas se sintetizan mediante el módulo 830 de sintetización, restaurando de esta manera una señal original. El módulo 800 de desempaque de bits extrae información de división respecto a las señales codificadas, v.gr., el número de señales codificadas e información de banda de cada una de las señales codificadas, y el módulo 830 de sintetización puede sintetizar las señales descodificadas provistas mediante el módulo 820 de descodificación con referencia a la información de división. El módulo 830 de sintetización puede incluir una pluralidad de unidades de sintetización 831 y 832 primera a n. Cada una de las unidades de sintetización 831 y 832 primera a n puede sintetizar las señales descodificadas provistas por el módulo 820 de descodificación o realizar conversión de dominio o descodificación adicional en algunas o todas las señales descodificadas.
Una de las unidades 831 y 832 de sintetización primera a n puede realizar una operación de procesamiento posterior, que es el inverso de una operación de procesamiento previo realizada por un aparato de codificación, en una señal sintetizada. La información que indica si realizar una operación de procesamiento posterior y descodificar información usada para realizar la operación de procesamiento posterior puede extraerse de la corriente de bits de entrada. Haciendo referencia a la Figura 16, una de las unidades 831 y 832 de sintetización primera a n particularmente, una segunda unidad 833 desintetización, puede incluir una pluralidad de procesadoresposteriores 834 y 835 primero a n. La primera unidad 831 desintetización sintetiza una pluralidad de señales descodificadas en una sola señal, y uno de los procesadores posteriores 834 y 835 primero a n realiza una operación de procesamiento posterior en una sola señal obtenida mediante la sintetización. La información que indica cual de los procesadores posteriores 834 y 834 primero a n va a realizar una operación de procesamiento posterior en, la única señal obtenida mediante la sintetización se puede incluir en la corriente de bits de entrada.
Uno de los sintetizadores 831 y 832 primero a n puede realizar descodificación de predicción lineal en la señal única obtenida por la sintetización usando un coeficiente de predicción lineal extraido de la corriente de bits de entrada, restaurando de esta manera una señal original . La presente invención se puede realizar como un código legible por computadora escrito en un medio de registro legible por computadora. El medio de registro legible por computadora puede ser cualquier tipo de dispositivo de registro en el que el dato se almacena de una manera legible por computadora. Ejemplos de medio de registro legible por computador incluyen un ROM, un RAM, un CD-ROMN, una cinta magnética, un disco suave, un almacenamiento de datos ópticos, y una onda portadora (v.gr., transmisión de datos a través del Internet) . El medio de registro legible por computadora se puede distribuir a través de una pluralidad de sistemas de computadora conectados a una red de manera que el código legible por computadora sea escrito en la misma y ejecutado de la misma en una manera descentralizada. Los programas funcionales, código, y segmentos de código necesarios para realizar la presente invención se pueden construir fácilmente por uno de
experiencia ordinaria en el ramo. Mientras que la presente invención se ha mostrado y descrito particularmente con referencia a modalidades de ejemplo de la misma, se entenderá por aquellos de experiencia ordinaria en el ramo que varios cambios en forma y detalles se pueden hacer en la misma sin abandonar el espíritu y alcance de la presente invención como se define mediante las siguientes reivindicaciones. Aplicabilidad Industrial Como se describe arriba, de conformidad con la presente invención, es posible codificar señales que tienen características diferentes en un régimen de bits óptimo clasificando las señales en una o más clases de conformidad con las características de las señales y codificando cada una de las señales utilizando una unidad de codificación que puede servir mejor la clase en donde pertenece la señal correspondiente. Por lo tanto, es posible codificar eficientemente diversas señales incluyendo señales de audio y habla .
Claims (20)
- REIVINDICACIONES 1. - Un método de descodificación que comprende: extraer una pluralidad de señales codificadas de una corriente de bits de entrada, determinar cual de una pluralidad de métodos de descodificación se va a usar para descodificar cada una de las señales codificadas; descodificar las señales codificadas utilizando los métodos de descodificación determinados; y sintetizar las señales descodificadas.
- 2. - El método de descodificación de conformidad con la reivindicación 1, que comprende además extraer información de método de descodificación respecto a como descodificar cada una de las señales codificadas, en donde la determinación comprende determinar mediante cual de la pluralidad de métodos de descodificación las señales codificadas se van a descodificar usando la información de método de descodificación.
- 3. - El método de descodificación de conformidad con la reivindicación 1, en donde la información de método de descodificación comprende, cuando menos una de información de unidad de codificación que identifica una unidad de codificación que ha producido una señal codificada, información de unidad de descodificación que identifica una unidad de descodificación que va a descodificar la señal codificada, e información que indica una característica de la señal codificada.
- 4.- El método de descodificación de conformidad con la reivindicación 1, en donde la determinación comprende seleccionar cualquiera de los métodos de descodificación que pueden descodificar cada una de las señales codificadas más eficientemente .
- 5.- El método de descodificación de conformidad con la reivindicación 1, que comprende además extraer información de división de las señales codificadas de la corriente de bits de entrada, en donde la sintetización comprende sintetizar las señales descodificadas en una sola señal con referencia a la información de división.
- 6.- El método de descodificación de conformidad con la reivindicación 5, en donde la información de división comprende un número de señales codificadas o información de banda de frecuencia de las señales codificadas.
- 7.- El método de descodificación de conformidad con la reivindicación 1, que comprende además extraer información de cantidad de bits de las señales codificadas de la corriente de bits de entrada, en donde la descodificación comprende descodificar señales de conformidad con la información de cantidad de bits.
- 8.- El método de descodificación de conformidad con la reivindicación 1, que comprende además extraer información de orden de descodificación de las señales codificadas de la corriente de bits de entrada, en donde la descodificación comprende descodificar las señales codificadas de conformidad con la información de orden de descodificación.
- 9.- Un aparato de descodificación, que comprend : un módulo de desempaque de bits que extrae una pluralidad de señales codificadas de una corriente de bits de entrada; un módulo de determinación de descodificador que determina cual de una pluralidad de unidades de descodificación se va a usar para descodificar cada una de las señales codificadas, un módulo de descodificación que comprenden las unidades de descodificación y descodifica cada una de las señales codificadas usando las unidades de descodificación determinadas; y un módulo de sintetización que sintetiza las señales descodificadas.
- 10. - El aparato de descodificación de conformidad con la reivindicación 9, en donde el módulo de desempaque de bits extrae información de unidad de descodificación de cada una de las señales codificadas de la corriente de bits de entrada, en donde el módulo de determinación de descodificador determina mediante cual de la pluralidad de unidades de descodificación las señales codificadas se van a descodificar usando la información de unidad de descodificación .
- 11. - El aparato de descodificación de conformidad con la reivindicación 9, en donde el módulo de determinación de descodificador selecciona cualquiera de las unidades de descodificación que puede descodificar las señales codificadas más eficientemente.
- 12. — El aparato de descodificación de conformidad con la reivindicación 9, en donde el módulo de desempaque de bits extrae información de división de las señales codificadas de la corriente de bits de entrada, en donde el módulo de sintetización sintetiza las señales descodificadas en una sola señal con referencia a la información de división.
- 13. - Un método de codificación, que comprende: dividir una señal de entrada en una pluralidad de señales divididas; determinar cual de una pluralidad de métodos de codificación se va a usar para codificar cada una de las señales divididas basado en las características de cada una de las señales divididas; codificar las señales divididas usando los métodos de codificación; y generar una corriente de bits usando las señales divididas codificadas.
- 14.- El método de codificación de conformidad con la reivindicación 13, en donde la determinación comprende selecciona cualquiera de los métodos de codificación que puede codificar las señales divididas más eficientemente.
- 15.- El método de codificación de conformidad con la reivindicación 13, que comprende además distribuir una cantidad de bits para codificar cada una de las señales divididas .
- 16. - El método de codificación de conformidad con la reivindicación 13, que comprende además determinar un orden en el que las señales divididas se van a codificar.
- 17. - El método de codificación de conformidad con la reivindicación 13, que comprende además dividir la señal de entrada nuevamente en una pluralidad de señales divididas, determinando nuevamente cual de los métodos de codificación se va a usar para codificar cada una de las señales divididas, determinar nuevamente una cantidad de bits para codificar las señales divididas o un orden en el que las señales divididas se van a codificar.
- 18. - Un aparato de codificación, que comprende: un módulo de división de señal que divide una señal de entrada en una pluralidad de señales divididas, un módulo de determinación de codificador que determina cual de una pluralidad de unidades de codificación se va a usar para codificar cada una de las señales divididas un módulo de codificación que comprende las unidades de codificación y codifica las señales divididas usando las unidades de codificación determinadas; y un módulo de empaque de bits que genera una corriente de bits que usa las señales divididas codificadas.
- 19. - El aparato de codificación de conformidad con la reivindicación 18, en donde el módulo de determinación de codificador selecciona cualquiera de las unidades de codificación que puede codificar las señales divididas más eficientemente .
- 20. - Un medio de registro legible por computadora que tiene un programa para ejecutar el método de descodificación de conformidad con cualquiera de las reivindicaciones 1 a 8 o el método de codificación de conformidad con cualquiera de las reivindicaciones 13 a 17.
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US75962206P | 2006-01-18 | 2006-01-18 | |
US79778206P | 2006-05-03 | 2006-05-03 | |
US81792606P | 2006-06-29 | 2006-06-29 | |
US84451006P | 2006-09-13 | 2006-09-13 | |
US84821706P | 2006-09-29 | 2006-09-29 | |
US86082206P | 2006-11-24 | 2006-11-24 | |
PCT/KR2007/000302 WO2007083931A1 (en) | 2006-01-18 | 2007-01-18 | Apparatus and method for encoding and decoding signal |
Publications (1)
Publication Number | Publication Date |
---|---|
MX2008009088A true MX2008009088A (es) | 2009-01-27 |
Family
ID=38287837
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
MX2008009088A MX2008009088A (es) | 2006-01-18 | 2007-01-18 | Aparato y metodo para codificar y descodificar señal. |
Country Status (10)
Country | Link |
---|---|
US (3) | US20090222261A1 (es) |
EP (3) | EP1989702A4 (es) |
JP (3) | JP2009524100A (es) |
KR (3) | KR20080097178A (es) |
AU (1) | AU2007206167B8 (es) |
BR (1) | BRPI0707135A2 (es) |
CA (1) | CA2636493A1 (es) |
MX (1) | MX2008009088A (es) |
TW (3) | TWI318397B (es) |
WO (3) | WO2007083931A1 (es) |
Families Citing this family (53)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102007003187A1 (de) * | 2007-01-22 | 2008-10-02 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Erzeugen eines zu sendenden Signals oder eines decodierten Signals |
US7908103B2 (en) * | 2007-05-21 | 2011-03-15 | Nilanjan Senroy | System and methods for determining masking signals for applying empirical mode decomposition (EMD) and for demodulating intrinsic mode functions obtained from application of EMD |
GB2454208A (en) * | 2007-10-31 | 2009-05-06 | Cambridge Silicon Radio Ltd | Compression using a perceptual model and a signal-to-mask ratio (SMR) parameter tuned based on target bitrate and previously encoded data |
CN101868821B (zh) | 2007-11-21 | 2015-09-23 | Lg电子株式会社 | 用于处理信号的方法和装置 |
EP2258111A4 (en) * | 2008-03-28 | 2014-01-22 | Thomson Licensing | APPARATUS AND METHOD FOR DECODING SIGNALS |
EP2144230A1 (en) | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme having cascaded switches |
KR101261677B1 (ko) * | 2008-07-14 | 2013-05-06 | 광운대학교 산학협력단 | 음성/음악 통합 신호의 부호화/복호화 장치 |
KR101381513B1 (ko) | 2008-07-14 | 2014-04-07 | 광운대학교 산학협력단 | 음성/음악 통합 신호의 부호화/복호화 장치 |
KR20100007738A (ko) * | 2008-07-14 | 2010-01-22 | 한국전자통신연구원 | 음성/오디오 통합 신호의 부호화/복호화 장치 |
CN102177426B (zh) * | 2008-10-08 | 2014-11-05 | 弗兰霍菲尔运输应用研究公司 | 多分辨率切换音频编码/解码方案 |
CN101763856B (zh) | 2008-12-23 | 2011-11-02 | 华为技术有限公司 | 信号分类处理方法、分类处理装置及编码系统 |
CN101604525B (zh) * | 2008-12-31 | 2011-04-06 | 华为技术有限公司 | 基音增益获取方法、装置及编码器、解码器 |
JP5358270B2 (ja) * | 2009-04-28 | 2013-12-04 | パナソニック株式会社 | デジタル信号再生装置及びデジタル信号圧縮装置 |
KR20110001130A (ko) * | 2009-06-29 | 2011-01-06 | 삼성전자주식회사 | 가중 선형 예측 변환을 이용한 오디오 신호 부호화 및 복호화 장치 및 그 방법 |
ES2797525T3 (es) * | 2009-10-15 | 2020-12-02 | Voiceage Corp | Conformación simultánea de ruido en el dominio del tiempo y el dominio de la frecuencia para transformaciones TDAC |
US8886523B2 (en) | 2010-04-14 | 2014-11-11 | Huawei Technologies Co., Ltd. | Audio decoding based on audio class with control code for post-processing modes |
WO2012000882A1 (en) | 2010-07-02 | 2012-01-05 | Dolby International Ab | Selective bass post filter |
US9047875B2 (en) * | 2010-07-19 | 2015-06-02 | Futurewei Technologies, Inc. | Spectrum flatness control for bandwidth extension |
US8660848B1 (en) * | 2010-08-20 | 2014-02-25 | Worcester Polytechnic Institute | Methods and systems for detection from and analysis of physical signals |
US20120095729A1 (en) * | 2010-10-14 | 2012-04-19 | Electronics And Telecommunications Research Institute | Known information compression apparatus and method for separating sound source |
KR101551046B1 (ko) | 2011-02-14 | 2015-09-07 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 저-지연 통합 스피치 및 오디오 코딩에서 에러 은닉을 위한 장치 및 방법 |
MY166394A (en) | 2011-02-14 | 2018-06-25 | Fraunhofer Ges Forschung | Information signal representation using lapped transform |
TWI488176B (zh) | 2011-02-14 | 2015-06-11 | Fraunhofer Ges Forschung | 音訊信號音軌脈衝位置之編碼與解碼技術 |
CN103477387B (zh) * | 2011-02-14 | 2015-11-25 | 弗兰霍菲尔运输应用研究公司 | 使用频谱域噪声整形的基于线性预测的编码方案 |
BR112013020482B1 (pt) | 2011-02-14 | 2021-02-23 | Fraunhofer Ges Forschung | aparelho e método para processar um sinal de áudio decodificado em um domínio espectral |
PL2676264T3 (pl) | 2011-02-14 | 2015-06-30 | Fraunhofer Ges Forschung | Koder audio estymujący szum tła podczas faz aktywnych |
KR101525185B1 (ko) | 2011-02-14 | 2015-06-02 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 트랜지언트 검출 및 품질 결과를 사용하여 일부분의 오디오 신호를 코딩하기 위한 장치 및 방법 |
PL2676265T3 (pl) | 2011-02-14 | 2019-09-30 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Urządzenie i sposób do kodowania sygnału audio z stosowaniem zrównanej części antycypacji |
TWI492615B (zh) * | 2011-05-23 | 2015-07-11 | Nat Univ Chung Hsing | 改良向量量化編碼還原影像品質與快速編碼簿訓練方法、壓縮方法、解壓縮方法及其程式產品 |
US9070361B2 (en) * | 2011-06-10 | 2015-06-30 | Google Technology Holdings LLC | Method and apparatus for encoding a wideband speech signal utilizing downmixing of a highband component |
EP2724340B1 (en) * | 2011-07-07 | 2019-05-15 | Nuance Communications, Inc. | Single channel suppression of impulsive interferences in noisy speech signals |
CN104040624B (zh) * | 2011-11-03 | 2017-03-01 | 沃伊斯亚吉公司 | 改善低速率码激励线性预测解码器的非语音内容 |
KR20130093783A (ko) * | 2011-12-30 | 2013-08-23 | 한국전자통신연구원 | 오디오 객체 전송 장치 및 방법 |
BR112013026452B1 (pt) * | 2012-01-20 | 2021-02-17 | Fraunhofer-Gellschaft Zur Förderung Der Angewandten Forschung E.V. | aparelho e método para codificação e decodificação de áudio empregando substituição sinusoidal |
GB201201230D0 (en) * | 2012-01-25 | 2012-03-07 | Univ Delft Tech | Adaptive multi-dimensional data decomposition |
CN105469805B (zh) | 2012-03-01 | 2018-01-12 | 华为技术有限公司 | 一种语音频信号处理方法和装置 |
EP2830062B1 (en) * | 2012-03-21 | 2019-11-20 | Samsung Electronics Co., Ltd. | Method and apparatus for high-frequency encoding/decoding for bandwidth extension |
CN110706715B (zh) * | 2012-03-29 | 2022-05-24 | 华为技术有限公司 | 信号编码和解码的方法和设备 |
CN103839551A (zh) * | 2012-11-22 | 2014-06-04 | 鸿富锦精密工业(深圳)有限公司 | 音频处理系统与音频处理方法 |
CN104112451B (zh) * | 2013-04-18 | 2017-07-28 | 华为技术有限公司 | 一种选择编码模式的方法及装置 |
CN106448688B (zh) | 2014-07-28 | 2019-11-05 | 华为技术有限公司 | 音频编码方法及相关装置 |
EP2980801A1 (en) | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method for estimating noise in an audio signal, noise estimator, audio encoder, audio decoder, and system for transmitting audio signals |
US20170201356A1 (en) * | 2016-01-08 | 2017-07-13 | Rohde & Schwarz Gmbh & Co. Kg | Method and apparatus for expanding a message coverage |
CN107316649B (zh) * | 2017-05-15 | 2020-11-20 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音识别方法及装置 |
BR112020004909A2 (pt) * | 2017-09-20 | 2020-09-15 | Voiceage Corporation | método e dispositivo para distribuir, de forma eficiente, um bit-budget em um codec celp |
EP3723372A4 (en) * | 2018-09-05 | 2021-03-31 | LG Electronics Inc. | VIDEO SIGNAL CODING / DECODING PROCESS AND ASSOCIATED EQUIPMENT |
US20220232255A1 (en) * | 2019-05-30 | 2022-07-21 | Sharp Kabushiki Kaisha | Image decoding apparatus |
EP3751567B1 (en) * | 2019-06-10 | 2022-01-26 | Axis AB | A method, a computer program, an encoder and a monitoring device |
KR20210003507A (ko) | 2019-07-02 | 2021-01-12 | 한국전자통신연구원 | 오디오 코딩을 위한 잔차 신호 처리 방법 및 오디오 처리 장치 |
CN110489606B (zh) * | 2019-07-31 | 2023-06-06 | 云南师范大学 | 一种分组Hilbert编码和解码方法 |
CN112155523B (zh) * | 2020-09-27 | 2022-09-16 | 太原理工大学 | 一种基于模态能量主成分比量化的脉搏信号特征提取与分类方法 |
TWI768674B (zh) * | 2021-01-22 | 2022-06-21 | 宏碁股份有限公司 | 諧振峰強化的語音編碼裝置及語音編碼方法 |
EP4327324A1 (en) | 2021-07-08 | 2024-02-28 | Boomcloud 360, Inc. | Colorless generation of elevation perceptual cues using all-pass filter networks |
Family Cites Families (66)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US714559A (en) * | 1902-06-10 | 1902-11-25 | John Byrne | Railway-tie. |
US5235623A (en) * | 1989-11-14 | 1993-08-10 | Nec Corporation | Adaptive transform coding by selecting optimum block lengths according to variatons between successive blocks |
FR2674710B1 (fr) * | 1991-03-27 | 1994-11-04 | France Telecom | Procede et systeme de traitement des preechos d'un signal audio-numerique code par transformee frequentielle. |
JPH05158495A (ja) * | 1991-05-07 | 1993-06-25 | Fujitsu Ltd | 音声符号化伝送装置 |
US5734789A (en) * | 1992-06-01 | 1998-03-31 | Hughes Electronics | Voiced, unvoiced or noise modes in a CELP vocoder |
KR100287494B1 (ko) * | 1993-06-30 | 2001-04-16 | 이데이 노부유끼 | 디지탈신호의부호화방법및장치,복호화방법및장치와부호화시킨신호의기록매체 |
JP3277677B2 (ja) * | 1994-04-01 | 2002-04-22 | ソニー株式会社 | 信号符号化方法及び装置、信号記録媒体、信号伝送方法、並びに信号復号化方法及び装置 |
US5742734A (en) * | 1994-08-10 | 1998-04-21 | Qualcomm Incorporated | Encoding rate selection in a variable rate vocoder |
US5751903A (en) * | 1994-12-19 | 1998-05-12 | Hughes Electronics | Low rate multi-mode CELP codec that encodes line SPECTRAL frequencies utilizing an offset |
JP3977426B2 (ja) * | 1996-04-18 | 2007-09-19 | ノキア コーポレイション | ビデオデータ用エンコーダ及びデコーダ |
US5881053A (en) * | 1996-09-13 | 1999-03-09 | Qualcomm Incorporated | Method for a wireless communications channel |
JP3849210B2 (ja) * | 1996-09-24 | 2006-11-22 | ヤマハ株式会社 | 音声符号化復号方式 |
US6148282A (en) * | 1997-01-02 | 2000-11-14 | Texas Instruments Incorporated | Multimodal code-excited linear prediction (CELP) coder and method using peakiness measure |
US6134518A (en) * | 1997-03-04 | 2000-10-17 | International Business Machines Corporation | Digital audio signal coding using a CELP coder and a transform coder |
CN1145925C (zh) * | 1997-07-11 | 2004-04-14 | 皇家菲利浦电子有限公司 | 具有改进语音编码器和解码器的发射机 |
WO1999010719A1 (en) * | 1997-08-29 | 1999-03-04 | The Regents Of The University Of California | Method and apparatus for hybrid coding of speech at 4kbps |
EP0907258B1 (en) * | 1997-10-03 | 2007-01-03 | Matsushita Electric Industrial Co., Ltd. | Audio signal compression, speech signal compression and speech recognition |
US6263312B1 (en) * | 1997-10-03 | 2001-07-17 | Alaris, Inc. | Audio compression and decompression employing subband decomposition of residual signal and distortion reduction |
US6493385B1 (en) * | 1997-10-23 | 2002-12-10 | Mitsubishi Denki Kabushiki Kaisha | Image encoding method, image encoder, image decoding method, and image decoder |
US6418147B1 (en) * | 1998-01-21 | 2002-07-09 | Globalstar Lp | Multiple vocoder mobile satellite telephone system |
ATE302991T1 (de) * | 1998-01-22 | 2005-09-15 | Deutsche Telekom Ag | Verfahren zur signalgesteuerten schaltung zwischen verschiedenen audiokodierungssystemen |
US6029126A (en) * | 1998-06-30 | 2000-02-22 | Microsoft Corporation | Scalable audio coder and decoder |
JP4618823B2 (ja) * | 1998-10-22 | 2011-01-26 | ソニー株式会社 | 信号符号化装置及び方法 |
US6300888B1 (en) * | 1998-12-14 | 2001-10-09 | Microsoft Corporation | Entrophy code mode switching for frequency-domain audio coding |
US6278972B1 (en) * | 1999-01-04 | 2001-08-21 | Qualcomm Incorporated | System and method for segmentation and recognition of speech signals |
US6278982B1 (en) * | 1999-04-21 | 2001-08-21 | Lava Trading Inc. | Securities trading system for consolidation of trading on multiple ECNS and electronic exchanges |
US6549147B1 (en) * | 1999-05-21 | 2003-04-15 | Nippon Telegraph And Telephone Corporation | Methods, apparatuses and recorded medium for reversible encoding and decoding |
JP4438127B2 (ja) * | 1999-06-18 | 2010-03-24 | ソニー株式会社 | 音声符号化装置及び方法、音声復号装置及び方法、並びに記録媒体 |
KR20010080476A (ko) * | 1999-09-20 | 2001-08-22 | 요트.게.아. 롤페즈 | 오디오 신호를 정정하기 위한 처리 회로, 수신기, 통신시스템, 이동 장치 및 이에 관련된 방법 |
US7054809B1 (en) * | 1999-09-22 | 2006-05-30 | Mindspeed Technologies, Inc. | Rate selection method for selectable mode vocoder |
US6697776B1 (en) * | 2000-07-31 | 2004-02-24 | Mindspeed Technologies, Inc. | Dynamic signal detector system and method |
US6373411B1 (en) * | 2000-08-31 | 2002-04-16 | Agere Systems Guardian Corp. | Method and apparatus for performing variable-size vector entropy coding |
US6760698B2 (en) * | 2000-09-15 | 2004-07-06 | Mindspeed Technologies Inc. | System for coding speech information using an adaptive codebook with enhanced variable resolution scheme |
JP3557164B2 (ja) * | 2000-09-18 | 2004-08-25 | 日本電信電話株式会社 | オーディオ信号符号化方法及びその方法を実行するプログラム記憶媒体 |
SE0004163D0 (sv) * | 2000-11-14 | 2000-11-14 | Coding Technologies Sweden Ab | Enhancing perceptual performance of high frequency reconstruction coding methods by adaptive filtering |
US6862558B2 (en) * | 2001-02-14 | 2005-03-01 | The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration | Empirical mode decomposition for analyzing acoustical signals |
US6996522B2 (en) * | 2001-03-13 | 2006-02-07 | Industrial Technology Research Institute | Celp-Based speech coding for fine grain scalability by altering sub-frame pitch-pulse |
ES2266481T3 (es) * | 2001-04-18 | 2007-03-01 | Koninklijke Philips Electronics N.V. | Codificacion de audio con encriptacion parcial. |
US6820054B2 (en) * | 2001-05-07 | 2004-11-16 | Intel Corporation | Audio signal processing for speech communication |
US6658383B2 (en) * | 2001-06-26 | 2003-12-02 | Microsoft Corporation | Method for coding speech and music signals |
KR100434275B1 (ko) * | 2001-07-23 | 2004-06-05 | 엘지전자 주식회사 | 패킷 변환 장치 및 그를 이용한 패킷 변환 방법 |
KR100460109B1 (ko) * | 2001-09-19 | 2004-12-03 | 엘지전자 주식회사 | 음성패킷 변환을 위한 lsp 파라미터 변환장치 및 방법 |
US6785645B2 (en) * | 2001-11-29 | 2004-08-31 | Microsoft Corporation | Real-time speech and music classifier |
EP1466320B1 (en) * | 2001-11-30 | 2007-02-07 | Koninklijke Philips Electronics N.V. | Signal coding |
TW564400B (en) * | 2001-12-25 | 2003-12-01 | Univ Nat Cheng Kung | Speech coding/decoding method and speech coder/decoder |
US6647366B2 (en) * | 2001-12-28 | 2003-11-11 | Microsoft Corporation | Rate control strategies for speech and music coding |
US20030135374A1 (en) * | 2002-01-16 | 2003-07-17 | Hardwick John C. | Speech synthesizer |
WO2004008437A2 (en) * | 2002-07-16 | 2004-01-22 | Koninklijke Philips Electronics N.V. | Audio coding |
US7970606B2 (en) * | 2002-11-13 | 2011-06-28 | Digital Voice Systems, Inc. | Interoperable vocoder |
KR100604032B1 (ko) * | 2003-01-08 | 2006-07-24 | 엘지전자 주식회사 | 복수 코덱을 지원하는 장치와 방법 |
KR100621076B1 (ko) * | 2003-05-02 | 2006-09-08 | 삼성전자주식회사 | 마이크로폰 어레이 방법 및 시스템 및 이를 이용한 음성인식 방법 및 장치 |
WO2004107318A1 (en) * | 2003-05-27 | 2004-12-09 | Koninklijke Philips Electronics N.V. | Audio coding |
US20050159942A1 (en) * | 2004-01-15 | 2005-07-21 | Manoj Singhal | Classification of speech and music using linear predictive coding coefficients |
CA2457988A1 (en) * | 2004-02-18 | 2005-08-18 | Voiceage Corporation | Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization |
FI118835B (fi) * | 2004-02-23 | 2008-03-31 | Nokia Corp | Koodausmallin valinta |
FI118834B (fi) * | 2004-02-23 | 2008-03-31 | Nokia Corp | Audiosignaalien luokittelu |
JP5032977B2 (ja) * | 2004-04-05 | 2012-09-26 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | マルチチャンネル・エンコーダ |
WO2005099243A1 (ja) * | 2004-04-09 | 2005-10-20 | Nec Corporation | 音声通信方法及び装置 |
GB0408856D0 (en) * | 2004-04-21 | 2004-05-26 | Nokia Corp | Signal encoding |
CA2566368A1 (en) * | 2004-05-17 | 2005-11-24 | Nokia Corporation | Audio encoding with different coding frame lengths |
US7739120B2 (en) * | 2004-05-17 | 2010-06-15 | Nokia Corporation | Selection of coding models for encoding an audio signal |
ATE371926T1 (de) * | 2004-05-17 | 2007-09-15 | Nokia Corp | Audiocodierung mit verschiedenen codierungsmodellen |
US7596486B2 (en) * | 2004-05-19 | 2009-09-29 | Nokia Corporation | Encoding an audio signal using different audio coder modes |
US7873515B2 (en) * | 2004-11-23 | 2011-01-18 | Stmicroelectronics Asia Pacific Pte. Ltd. | System and method for error reconstruction of streaming audio information |
KR100657916B1 (ko) * | 2004-12-01 | 2006-12-14 | 삼성전자주식회사 | 주파수 대역간의 유사도를 이용한 오디오 신호 처리 장치및 방법 |
US7196641B2 (en) * | 2005-04-26 | 2007-03-27 | Gen Dow Huang | System and method for audio data compression and decompression using discrete wavelet transform (DWT) |
-
2007
- 2007-01-18 WO PCT/KR2007/000302 patent/WO2007083931A1/en active Application Filing
- 2007-01-18 KR KR1020087016358A patent/KR20080097178A/ko not_active Application Discontinuation
- 2007-01-18 KR KR1020087016356A patent/KR20080101872A/ko not_active Application Discontinuation
- 2007-01-18 TW TW096102004A patent/TWI318397B/zh not_active IP Right Cessation
- 2007-01-18 JP JP2008551188A patent/JP2009524100A/ja active Pending
- 2007-01-18 CA CA002636493A patent/CA2636493A1/en not_active Abandoned
- 2007-01-18 JP JP2008551189A patent/JP2009524101A/ja active Pending
- 2007-01-18 BR BRPI0707135-3A patent/BRPI0707135A2/pt not_active IP Right Cessation
- 2007-01-18 MX MX2008009088A patent/MX2008009088A/es active IP Right Grant
- 2007-01-18 JP JP2008551187A patent/JP2009524099A/ja active Pending
- 2007-01-18 US US12/161,163 patent/US20090222261A1/en not_active Abandoned
- 2007-01-18 WO PCT/KR2007/000305 patent/WO2007083934A1/en active Application Filing
- 2007-01-18 EP EP07708510A patent/EP1989702A4/en not_active Withdrawn
- 2007-01-18 EP EP07708513A patent/EP1984911A4/en not_active Withdrawn
- 2007-01-18 US US12/161,165 patent/US20090281812A1/en not_active Abandoned
- 2007-01-18 EP EP07708512A patent/EP1989703A4/en not_active Withdrawn
- 2007-01-18 WO PCT/KR2007/000304 patent/WO2007083933A1/en active Application Filing
- 2007-01-18 TW TW096102002A patent/TW200737738A/zh unknown
- 2007-01-18 US US12/161,162 patent/US20110057818A1/en not_active Abandoned
- 2007-01-18 KR KR1020087016357A patent/KR20080101873A/ko not_active Application Discontinuation
- 2007-01-18 TW TW096102003A patent/TWI333643B/zh not_active IP Right Cessation
- 2007-01-18 AU AU2007206167A patent/AU2007206167B8/en active Active
Also Published As
Publication number | Publication date |
---|---|
AU2007206167B2 (en) | 2010-06-10 |
EP1984911A4 (en) | 2012-03-14 |
WO2007083931A1 (en) | 2007-07-26 |
EP1989703A1 (en) | 2008-11-12 |
KR20080101873A (ko) | 2008-11-21 |
EP1989702A4 (en) | 2012-03-14 |
TWI318397B (en) | 2009-12-11 |
KR20080101872A (ko) | 2008-11-21 |
EP1989703A4 (en) | 2012-03-14 |
US20090281812A1 (en) | 2009-11-12 |
TWI333643B (en) | 2010-11-21 |
EP1984911A1 (en) | 2008-10-29 |
EP1989702A1 (en) | 2008-11-12 |
AU2007206167A1 (en) | 2007-07-26 |
US20090222261A1 (en) | 2009-09-03 |
JP2009524100A (ja) | 2009-06-25 |
WO2007083933A1 (en) | 2007-07-26 |
US20110057818A1 (en) | 2011-03-10 |
KR20080097178A (ko) | 2008-11-04 |
WO2007083934A1 (en) | 2007-07-26 |
CA2636493A1 (en) | 2007-07-26 |
JP2009524099A (ja) | 2009-06-25 |
TW200737738A (en) | 2007-10-01 |
JP2009524101A (ja) | 2009-06-25 |
BRPI0707135A2 (pt) | 2011-04-19 |
TW200746051A (en) | 2007-12-16 |
AU2007206167B8 (en) | 2010-06-24 |
TW200746052A (en) | 2007-12-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
MX2008009088A (es) | Aparato y metodo para codificar y descodificar señal. | |
US8374853B2 (en) | Hierarchical encoding/decoding device | |
KR101139172B1 (ko) | 스케일러블 음성 및 오디오 코덱들에서 양자화된 mdct 스펙트럼에 대한 코드북 인덱스들의 인코딩/디코딩을 위한 기술 | |
KR101171098B1 (ko) | 혼합 구조의 스케일러블 음성 부호화 방법 및 장치 | |
CN102394066B (zh) | 语音编码装置、解码装置和语音编码方法、解码方法 | |
CN101903945B (zh) | 编码装置、解码装置以及编码方法 | |
CN102177426B (zh) | 多分辨率切换音频编码/解码方案 | |
CN101371296B (zh) | 用于编码和解码信号的设备和方法 | |
WO2009055493A1 (en) | Scalable speech and audio encoding using combinatorial encoding of mdct spectrum | |
MX2013009303A (es) | Codec de audio utilizando sintesis de ruido durante fases inactivas. | |
Ramprashad | A two stage hybrid embedded speech/audio coding structure | |
Fuchs et al. | MDCT-based coder for highly adaptive speech and audio coding | |
RU2414009C2 (ru) | Устройство и способ для кодирования и декодирования сигнала | |
Dong et al. | Structures for SNR scalable speech coding | |
Ju et al. | Complexity reduction in Karhunen-Loeve transform based speech coder for voice transmission | |
EP4046155A1 (en) | Methods and system for waveform coding of audio signals with a generative model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FG | Grant or registration |