MXPA06009369A - Clasificacion de señales de audio - Google Patents

Clasificacion de señales de audio

Info

Publication number
MXPA06009369A
MXPA06009369A MXPA/A/2006/009369A MXPA06009369A MXPA06009369A MX PA06009369 A MXPA06009369 A MX PA06009369A MX PA06009369 A MXPA06009369 A MX PA06009369A MX PA06009369 A MXPA06009369 A MX PA06009369A
Authority
MX
Mexico
Prior art keywords
excitation
block
signal
audio signal
frames
Prior art date
Application number
MXPA/A/2006/009369A
Other languages
English (en)
Inventor
Ojala Pasi
Vainio Janne
Mikkola Hannu
Makinen Jari
Original Assignee
Nokia Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Corporation filed Critical Nokia Corporation
Publication of MXPA06009369A publication Critical patent/MXPA06009369A/es

Links

Abstract

La invención se refiere a un codificador (200) que comprende una entrada (201) para ingresar cuadros de una señal de audio en una banda de frecuencias, por lo menos un primer bloque de excitación (206) para llevar a cabo una primera excitación para una señal de audio tipo voz, y un segundo bloque de excitación (207) para llevar a cabo una segunda excitación para una señal de audio no tipo voz. El codificador (200) comprende además un filtro (300) para dividir la banda de frecuencias en una pluralidad de sub-bandas que tienen cada una un ancho de banda más estrecho que la banda de frecuencias. El codificador (200) comprende también un bloque de selección de excitación (203) para seleccionar un bloque de excitación entre el por lo menos un primer bloque de excitación (206) y el segundo bloque de excitación (207) para llevar a cabo la excitación para un cuadro de la señal de audio con base en las propiedades de la señal de audio por lo menos en una de las sub-bandas. La invención se refiere también a un dispositivo, un sistema, un método y un medio de almacenamiento para un programa de computadora.

Description

before lite expiration of the time limit for amending the For two-letler codes and other abbreviations, referto the "Guid-claifns and to be republished in the evenl of receipt of anee Noles on Codes and Abbrevialions" appearing at the begin-amendments . ning ofeach regular issue ofthe PCT Gazette.
CLASIFICACIÓN DE SE ALES DE AUDIO Campo de la invención La invención se refiere- a codificación de voz y audio en la cual el modo de codificación es cambiado dependiendo de si una señal de entrada es una señal tipo voz o tipo música. La presente invención se refiere a un codificador que comprende una entrada para ingresar cuadros de una señal de audio en una banda de frecuencias, por lo menos un primer bloque de excitación para llevar a cabo una primera excitación para una señal de audio tipo voz, y un segundo bloque de excitación para llevar a cabo una segunda excitación para una señal de audio no tipo voz . La invención se refiere también a un dispositivo que comprende un codificador que comprende una ' entrada para ingresar cuadros de una señal de audio en una banda de frecuencias, por lo menos un primer bloque de excitación para llevar a cabo una primera excitación para una señal de audio tipo voz, y un segundo bloque de excitación para llevar a cabo una segunda excitación para una señal de audio no tipo voz. La invención se refiere también a un sistema que comprende un codificador que contiene una entrada para ingresar cuadros de una señal de audio en una banda de frecuencias, al menos un primer bloque de excitación para llevar a cabo una primera excitación para una señal de audio tipo voz y un segundo bloque de excitación para llevar a cabo una segunda excitación para REF.: 174854 una señal de audio no tipo voz . La invención se refiere además a un método para comprimir señales de audio en una banda de frecuencias, en la cual una primera excitación se usa para una señal de audio tipo voz y una segunda excitación se usa para una señal de audio no tipo voz. La invención se refiere a un módulo para clasificar cuadros de una señal de audio en una banda de frecuencias para la selección de una excitación entre al menos una primera excitación para una señal de audio tipo voz y una segunda excitación para una señal de audio no tipo voz. La invención se refiere a un programa de computadora que comprende etapas ejecutables por máquina para comprimir señales de audio en una banda de frecuencias, en el cual se usa una primera excitación para una señal de audio tipo voz y una segunda excitación se usa para una señal de audio no tipo voz. Antecedentes de la invención En muchas aplicaciones de procesamiento de señales de audio las señales de audio se comprimen para reducir los requerimientos de energía de procesamiento cuando se procese la señal de audio. Por ejemplo, en sistemas de comunicación digital la señal de audio es típicamente capturada como una señal análoga, digitalizada en un convertidor análogo a digital (A/D) y luego codificada antes de su transmisión sobre una interfaz aérea inalámbrica entre un equipo de usuario, tal como una estación móvil, y una estación de base. El propósito de la codificación es comprimir la señal digitalizada y transmitirla sobre la interfaz de aire con la mínima cantidad de datos mientras se mantiene un nivel de calidad de señal aceptable. Esto es particularmente importante ya que la capacidad de canales de radio sobre la interfaz aérea inalámbrica es limitada en una red de comunicación celular. También hay aplicaciones en las cuales una señal de audio digitalizada se almacena en un medio de almacenamiento para la posterior reproducción de la señal de audio. La compresión puede ser con pérdidas o sin pérdidas . En la compresión con pérdidas alguna información se pierde - durante la compresión cuando no es posible reconstruir completamente la señal original a partir de la señal comprimida. En la compresión sin pérdidas ninguna información se pierde normalmente. Por consiguiente, la señal original puede normalmente reconstruirse completamente a partir de la señal comprimida. El término señal de audio normalmente se entiende como una señal que contiene voz, música (no voz) o ambas. La naturaleza diferente de la voz y música hace bastante difícil diseñar un algoritmo de compresión que trabaje lo suficientemente bien tanto para voz como para música. Por lo tanto, el problema es comúnmente disuelto al diseñar diferentes algoritmos tanto para audio como para voz y usando cierto tipo de método de reconocimiento para reconocer si la señal de audio es tipo voz o tipo música y seleccionar el algoritmo adecuado de acuerdo con el reconocimiento . En general, la clasificación pura entre señales de voz y de música o no de voz es una tarea difícil. La precisión que se requiere depende en gran parte de la aplicación. En algunas aplicaciones la precisión es más crítica tal como en el reconocimiento de voz o en el archivado preciso para propósitos de almacenamiento y retiro. Sin embargo, la situación es un poco diferente si la clasificación se usa para seleccionar un - método de compresión óptimo para la señal de entrada. En este caso, puede ocurrir que no exista un método de compresión que - siempre sea óptimo para voz y que otro método que siempre sea óptimo para señales de música y no de voz. En la práctica, puede ocurrir que un método de compresión para transitorios de voz también sea muy eficiente para transitorios de música. También es posible que una compresión de música para componentes tonales fuertes pueda ser adecuada para segmentos de voz hablada. Así, en estos casos, los métodos para clasificar sólo puramente para de música y voz no crean el algoritmo más óptimo para seleccionar el mejor método de compresión. Comúnmente la voz puede considerarse como limitada en banda a entre aproximadamente 200 Hz y 3400 Hz . La velocidad de muestreo típica usada por un convertidor A/D para convertir una señal de voz análoga en una señal de voz digital es ya sea de 8 kHz o 16 kHz. Las señales de música o que no son de voz pueden contener componentes de frecuencia muy por arriba del ancho de banda de voz normal. En algunas aplicaciones el sistema de audio debe ser capaz de manejar una banda de frecuencias entre alrededor de 20 Hz a 20,000 kHz. La velocidad de muestra para ese tipo de señales debe ser de por lo menos 40,000 kHz para evitar problemas . Se . debe notar aquí que los valores mencionados arriba sólo son ejemplos no limitativos. Por ejemplo, en algunos sistemas el límite más alto para señales de música puede ser de alrededor de 10,000 kHz o todavía menos que eso. La señal digital muestreada es luego codificada, normalmente sobre una base de cuadro por cuadro, dando como resultado una corriente de datos digitales con velocidad de bits que se determina por un codee usado para la codificación. Entre más alta sea la velocidad de bits, mayores datos se codifican, lo cual da como resultado una representación más precisa del cuadro de entrada. La señal de audio codificada puede ser después decodificada y pasada a través de un convertidor digital a análogo (D/A) para reconstruir una señal que esté más cerca de la señal original como sea posible. Un codee ideal codificará la señal de audio con tan pocos bits como sea posible optimizando de esta manera la capacidad de canales, produciendo al mismo tiempo una señal de audio decodificada que suena tan cerca como la señal de audio original posible. En la práctica existe normalmente una desventaja en la velocidad de bits del codee y la calidad del audio decodificado. Actualmente existen numerosos codees . diferentes, tales como el codee de velocidad múltiple adaptivo (AMR) y el codee de banda ancha de velocidad múltiple adaptivo (AMR-WB) , los cuales se desarrollan para comprimir y codificar señales de audio. AMR fue desarrollado por el 3er Proyecto de Sociedad de- Generación (3GPP) para las redes de comunicación GSM/EDGE y WCDMA. Además, también se ha contemplado que el AMR será usado en redes, conmutadas por paquetes. AMR se basa en Codificación por Predicción Lineal Excitada de Código Algebraico (ACELP) .
Los codees AMR y AMR WB consisten en 8 y 9 velocidades de bits activos respectivamente y también incluyen detección de actividad de voz (VAD) y funcionalidad de transmisión discontinua • (DTX) . Actualmente, la velocidad de muestreo en el codee AMR es de 8 kHz y en el codee AMR WB la velocidad de muestreo es de 16 kHz. Es obvio que los codees y velocidades de muestreo mencionados arriba sólo son ejemplos no limitativos. La codificación ACELP opera usando un modelo de cómo la fuente de señal se genera, y extrae de la señal los parámetros del modelo. Más específicamente, la codificación ACELP se basa en un modelo del sistema vocal humano, en donde la garganta y boca se modelan como un filtro lineal y se genera voz por una vibración periódica de aire que excita el filtro . La voz es analizada sobre una base de cuadro por cuadro por el codificador y para cada cuadro un conjunto de parámetros que representan la voz modelada se genera y se emite por el codificador. El conjunto de parámetros puede incluir parámetros de excitación y los coeficientes para el filtro así como otros parámetros . La salida que proviene de un codificador de voz comúnmente es conocida como una representación paramétrica de la señal de voz ingresada. El conjunto de parámetros se usa después por un decodificador configurado adecuadamente para regenerar la señal de voz de entrada. Para algunas señales de entrada, la excitación ACELP tipo pulsos produce calidad. ás alta y para algunas señales de entrada la excitación codificada por transformación (TCX) es más óptima. Se asume aquí que la excitación ACELP es la más usada para contenido de voz típico como una señal de entrada y la excitación TCX se usa más ampliamente para música típica como una señal de entrada. Sin embargo, esto no siempre es el caso, es decir, algunas veces las señales de voz tienen partes que son tipo música, y las señales de música tienen partes que son tipo voz. La definición de una señal tipo voz en esta aplicación es que la mayoría de la voz pertenece a esta categoría y algo de la música también pueden pertenecer a esta categoría. Para las señales tipo música la definición es al revés. Además, existen ciertas partes de la señal de voz y partes de la señal de música que son neutras en el sentido de que pueden pertenecer a ambas clases .
La selección de la excitación puede llevarse a cabo de varias maneras: el método más complejo y bastante adecuado es el de codificar tanto la excitación ACELP como TCX y luego seleccionar la mejor excitación con base en la señal de voz sintetizada. Este tipo de análisis por síntesis proporcionará buenos resultados pero en algunas aplicaciones no es práctico debido a su alta complejidad. En este método por ejemplo un algoritmo tipo SNR puede usarse para medir la calidad producida por ambas excitaciones. Este método puede llamarse un método de "fuerza bruta" toda vez que intenta todas las combinaciones de excitaciones diferentes y selecciona posteriormente la mejor. El método menos complejo llevaría a cabo la síntesis sólo una vez al analizar las propiedades de la señal de antemano y luego seleccionando la mejor excitación. El método también puede ser una combinación de preselección y "fuerza bruta" para establecer un compromiso entre calidad y complejidad. La figura 1 presenta un codificador 100 simplificado con clasificación de complejidad alta de la técnica anterior. Una señal de audio es ingresada al bloque de señales de entrada 101 en el cual la señal es digitalizada y filtrada. El bloque de señales de entrada 101 también forma cuadros a partir de la señal digitalizada y filtrada. Los cuadros son ingresados a un bloque de análisis de codificación por predicción lineal (LPC) 102. Lleva a cabo un análisis LPC en la señal de entrada digitalizada sobre una base de cuadro por cuadro para encontrar el conjunto de parámetros que coincida mejor con la señal ingresada. Los- parámetros determinados (parámetros LPC) son cuantificados y emitidos 109 desde el codificador 100. El codificador 100 genera también dos señales de salida con bloques de síntesis LPC 103, 104. El primer bloque de síntesis LPC 103 usa una señal generada por el bloque de excitación TCX 105 para sintetizar la señal de audio y encontrar el vector de código que produzca el mejor resultado para la excitación TCX. El segundo bloque de síntesis LPC 104 usa una señal generada por el bloque de excitación ACELP 106 para sintetizar la señal de audio y encontrar el vector de código que produzca el mejor resultado para la excitación ACELP. En el bloque de selección de excitación 107 las señales generadas por los bloques de síntesis LPC 103, 104 son comparadas para determinar cuál de los métodos de excitación da la mejor excitación (óptima) . La información acerca de el método de excitación seleccionado y los parámetros de la señal de excitación seleccionada son, por ejemplo, cuantificados y codificados por canal 108 antes de la emisión 109 de las señales desde el codificador 100 para su transmisión. Breve descripción de la invención Un propósito de la presente invención es proporcionar un método mejorado para clasificar señales tipo voz y tipo música utilizando información de frecuencia de la señal. Hay segmentos de señal de voz tipo música y viceversa y hay segmentos de señal en voz y en música que pueden pertenecer a cualquier clase. En otras palabras, la invención no clasifica puramente entre voz y música. Sin embargo, define medios para categorizar una señal de entrada en componentes tipo música y tipo voz de acuerdo con algunos criterios . La información de clasificación se puede usar por ejemplo en un codificador de varios modos para seleccionar un modo de codificación. La invención se basa en la idea de que la señal de entrada se divide en varias bandas de frecuencia y las relaciones entre las bandas de frecuencia inferiores y superiores se analiza junto con las variaciones en niveles de energía en esas bandas y la señal se clasifica en tipo música o tipo voz con base tanto en las mediciones calculadas como en varias combinaciones diferentes de esas mediciones usando diferentes ventanas de análisis y valores umbral de decisión. Esta información puede utilizarse después por ejemplo en la selección del método de compresión para la señal analizada. El codificador de acuerdo con la presente invención se caracteriza principalmente además porque el codificador comprende además un filtro para dividir la banda de frecuencias en una pluralidad de sub-bandas que tienen cada una un ancho de banda más estrecho que la banda de frecuencias, y un bloque de selección de excitación para seleccionar un bloque de excitación entre el por lo menos un primer bloque de excitación y el segundo bloque de excitación para llevar a cabo la excitación para un cuadro de la señal de audio con base en las propiedades de la señal de audio por lo menos en una de las sub-bandas . El dispositivo de acuerdo con la presente invención se caracteriza principalmente además porque el codificador comprende un filtro para dividir la banda de frecuencia en una pluralidad de sub-bandas que tienen cada una un ancho de banda más estrecho que el de la banda de frecuencias, y porque el dispositivo comprende también un bloque de selección de excitación para seleccionar un bloque de excitación de entre él por lo menos un primer bloque de excitación y el segundo bloque de excitación para llevar a cabo la excitación para un cuadro de la señal de audio con base en las propiedades de la señal de audio al menos en una de las sub-bandas . El sistema de acuerdo con la presente invención se caracteriza principalmente además porque el codificador comprende además un filtro para dividir la banda de frecuencias en una pluralidad de sub-bandas cada una teniendo un ancho de banda más estrecho que la banda de frecuencias, porque el sistema también comprende un bloque selección de excitación para seleccionar un bloque de excitación de entre por lo menos un primer bloque de excitación y el segundo bloque de excitación para llevar a cabo la excitación para un cuadro de la señal de audio con base en las propiedades de la señal de audio por lo menos en una de las sub-bandas . El método de acuerdo con la presente invención se caracteriza principalmente porque la banda de frecuencias se divide en una pluralidad de sub-bandas que tienen cada una un ancho de banda más estrecho que la banda de frecuencias, porque una excitación entre la por lo menos primera excitación y la segunda excitación se selecciona para llevar a. cabo la excitación para un cuadro de la señal de audio con base en las propiedades de la señal de audio al menos en una de las sub-bandas . El módulo de acuerdo con la presente invención se caracteriza principalmente además porque el módulo comprende además la entrada para ingresar información indicadora de la banda de frecuencias dividida en una pluralidad de sub-bandas que tienen cada una un ancho de banda más estrecho que la banda de frecuencias, y por un bloque de selección de excitación para seleccionar un bloque de excitación entre el por lo menos un primer bloque de excitación y el segundo bloque de excitación para llevar a cabo la excitación para un cuadro de la señal de audio con base en las propiedades de la señal de audio al menos en una de las sub-bandas . El producto del programa de computadora de acuerdo con la presente invención se caracteriza principalmente porque el producto de programa de computadora comprende además etapas ejecutables por máquina para dividir la banda de frecuencias en una pluralidad de sub-bandas que tengan cada una un ancho de banda más estrecho que la banda de frecuencias, etapas ejecutables por máquina para seleccionar una excitación de entre la por lo menos primera excitación y la segunda excitación con base en las propiedades de la señal de audio y por lo menos una de las sub-bandas para llevar a cabo la excitación para un cuadro de la señal de audio . En esta aplicación, los términos "tipo voz" y "tipo música" se definen para separar la invención de las clasificaciones de voz y música típicas. Incluso si alrededor de 90% de la voz se categoriza como tipo voz en un sistema de acuerdo con la presente invención, el resto de la señal de voz puede definirse como una señal tipo música, lo cual puede mejorar la calidad de audio si la selección del algoritmo de compresión se basa en esta clasificación. También las señales de música típicas pueden entrar en el 80-90% de los casos en señales tipo música pero clasificar parte de la señal de música en una categoría tipo voz mejorará la calidad de la señal de sonido para el sistema de compresión. Por lo tanto, la presente invención proporciona ventajas cuando se le compara con los métodos y sistemas de la técnica anterior. Mediante el uso del método de clasificación de acuerdo con la presente invención, es posible mejorar la calidad de sonido reproducido sin afectar ampliamente la eficiencia de compresión. En comparación con el enfoque de fuerza bruta presentado arriba, la invención proporciona un enfoque tipo preselección mucho menos complejo para hacer la selección entre dos tipos de excitación. La . invención divide una señal de entrada en bandas de frecuencia y analiza las relaciones entre bandas de frecuencia superiores e inferiores juntas y también puede usar, por ejemplo, las variaciones en el nivel de energía en las bandas y clasifica la señal en tipo música o tipo voz . Breve Descripción de las figuras La figura 1 presenta un codificador simplificado con clasificación de complejidad alta de la técnica anterior. La figura 2 presenta una modalidad ejemplar de un codificador con clasificación de acuerdo con la invención. La figura 3 ilustra un ejemplo de una estructura de banco de filtros VAD -en el algoritmo VAD de AMR-WB. La figura 4 muestra un ejemplo de una graficación de la desviación estándar de niveles de energía en bancos de filtros VAD como una función de la relación entre componentes de baja y alta energía en una señal de música. La figura 5 muestra un ejemplo de una gráfica para la desviación estándar de niveles de energía en bancos de filtros VAD como una función de la relación entre componentes de baja y alta energía en una señal de voz. La figura 6 muestra un ejemplo de una gráfica combinada tanto para señales de música como de voz y La figura 7 muestra un ejemplo de un sistema de acuerdo con la presente invención.
Descripción detallada de la invención A continuación se describirá en más detalle con referencia a la figura 2 un codificador 200 de acuerdo con una modalidad ejemplar de la presente invención. El codificador 200 comprende un bloque de entrada 201 para digitalizar, filtrar y encuadrar la señal de entrada cuando sea necesario. Se debe notar aquí que la señal de entrada puede estar ya en una forma adecuada para el proceso de codificación. Por ejemplo, la señal de entrada puede haber sido digitalizada en una etapa anterior y almacenada en un medio de memoria (no mostrado) . Los cuadros de la señal de entrada se ingresan en un bloque de detección de actividad de voz 202. El bloque de detección de actividad de voz 202 emite una multiplicidad de señales de banda más estrecha que son ingresadas a un bloque de selección de excitación 203. El bloque de selección de excitación 203 analiza las señales para determinar qué método de excitación es el más adecuado para la codificación de la señal de entrada. El bloque de selección de excitación 203 produce una señal de control 204 para controlar un medio de selección 205 de acuerdo con la determinación del método de excitación. Si se determinó que el mejor método de excitación para codificar el cuadro actual de la señal de entrada es un primer método de excitación, el medio de selección 205 se controla para seleccionar la señal de un primer bloque de excitación 206. Si se determinó que el mejor método de excitación para codificar el cuadro actual de la señal de entrada es un segundo método de excitación, los segundos medios de selección 205 son controlados para seleccionar la señal de un segundo bloque de excitación 207. Aunque el codificador de la figura 2 sólo tiene el primero 206 y el segundo 207 bloques de excitación para el proceso de codificación, es obvio que también pueden haber más de dos bloques de excitación diferentes para diferentes métodos de excitación disponibles en el codificador 200 que se usará en la codificación de la señal de entrada. El primer bloque de excitación 206 produce, por ejemplo, una señal de excitación TCX y el segundo bloque de excitación 207 produce, por ejemplo, una señal de excitación ACELP. El bloque de análisis LPC 208 lleva a cabo un análisis LPC en la señal de entrada digitalizada sobre una base de cuadro por cuadro para encontrar un conjunto de parámetros que mejor coincida con la señal de entrada. Los parámetros LPC 210 y parámetros de excitación 211 son, por ejemplo, cuantificados y codificados en un bloque de cuantificación y codificación 212 antes de su transmisión por ejemplo a una red de comunicación .704 (figura 7) . Sin embargo, no es necesario transmitir los parámetros sino que pueden, por ejemplo, ser almacenados en un medio de almacenamiento y retirarse en una etapa posterior para su transmisión y/o decodificación.
La figura 3 ilustra un ejemplo de un filtro 300 que puede usarse en el codificador 200 para el análisis de señales. El filtro 300 es, por ejemplo, un banco de filtros del bloque de detección de actividad de voz del codee AMR-WB, en el que un filtro separado no se requiere sino que también es posible usar otros filtros para este propósito. El filtro 300 comprende dos o más bloques de filtro 301 para dividir la señal de entrada en dos o más señales de sub-banda en frecuencias diferentes . En otras palabras, cada señal de salida del filtro 300 representa cierta banda de frecuencias de la señal de entrada. Las señales de salida del filtro 300 pueden usarse en el bloque de selección de excitación 203 para determinar el contenido de frecuencia de la señal de entrada. El bloque de selección de excitación 203 evalúa niveles de energía de cada salida del banco de filtros 300 y analiza las relaciones entre sub-bandas de frecuencia más baja y más alta junto con las variaciones en el nivel de energía en aquellas sub-bandas, y clasifica la señal en tipo música o tipo voz. La invención se basa en examinar el contenido de frecuencia de la señal de entrada para seleccionar el método de excitación para cuadros de la señal de entrada. A continuación, la extensión AMR-WB (AMR-WB+) se usa como un ejemplo práctico usado para clasificar una señal de entrada en señales tipo voz o tipo música y para seleccionar ya sea una excitación ACELP o TCX para aquellas señales respectivamente. Sin embargo, la invención no está limitada a codees AMR-WB o a métodos de excitación tipo ACELP y TCX. En el codee AMR-WB (AMR-WB+) extendido, hay dos tipos de excitación para la síntesis LP: la excitación tipo pulsos ACELP y la excitación codificada por transformación (TCX) . La excitación ACELP es la misma que la usada ya en la norma AMR-WB del 3GPP (3GPP TS 26.190) y TCX es una mejora implementada en la AMR-WB extendida. La extensión AMR-WB es un ejemplo y se basa en los bancos de filtros VAD de AMR-WB, los cuales por cada 20 ms de cuadro de entrada, producen una energía de señal (E(n) en las 12 sub-bandas sobre la escala de frecuencias de 0 a 6,400 Hz como se muestra en la figura 3. Los • anchos de banda de los bancos de filtros normalmente no son iguales pero pueden variar en bandas diferentes como se puede observar en la figura 3. Asimismo, el número de sub-bandas puede variar y las sub-bandas pueden sobreponerse parcialmente. Luego los niveles de energía de cada sub-banda se normalizan al dividir el nivel de energía E(n). de cada sub-banda entre el ancho de esa sub-banda (en Hz) produciendo niveles de energía EN(n) normalizados de cada banda en donde n es el número de bandas de 0 a 11. El índice 0 se refiere a la sub-banda más baja mostrada en la figura 3. En el bloque de selección de excitación 203 la desviación estándar de los niveles de energía se calcula para cada una de las 12 sub-bandas usando por ejemplo dos ventanas: una ventana corta stdshort(n) y una ventana larga stdlong(n) . Para el caso AMR-WB+, la longitud de la ventana corta es de 4 cuadros y la ventana larga es de 16 cuadros. En estos cálculos, los 12 niveles de energía a partir del cuadro actual junto con los 3 ó 15 cuadros pasados se usan para derivar estos dos valores de desviación estándar. La característica especial de este cálculo es que sólo se lleva a cabo cuando un bloque de detección de actividad de voz 202 indica voz activa en 213. Esto hará que el algoritmo reaccione más rápido especialmente después de largas pausas de voz . Luego, para cada cuadro, la desviación estándar promedio sobre todos los bancos de 12 filtros se toma tanto para la ventana larga como corta y los valores de desviación estándar promedio stdashort y stdalong se crean. Para cuadros de señal de audio, también una relación entre bandas de frecuencia más bajas y bandas de frecuencia más altas se calcula. En la energía AMR-WB+ de sub-bandas de frecuencia más baja LevL de 1 a 7 se toman y se normalizan al dividirlos entre la longitud (ancho de banda) de estas subbandas (en Hz) . Para bandas de frecuencia más altas de 8 a 11 energía de ellas se toman y se normalizan respectivamente para crear LevH. Nótese que en esta modalidad ejemplar la sub-banda más baja 0 no se usa en estos cálculos porque contiene normalmente tanta energía que distorsionará los cálculos y hará las contribuciones de otras sub-bandas demasiado pequeñas . A partir de- estas mediciones se define la relación LPH = LevL/LevH. Además, para cada cuadro un promedio de movimiento LPHa se calcula usando los valores LPH actuales y los 3 pasados. Después de estos cálculos una medición de la relación de baja y alta frecuencia LPHaF para el cuadro actual se calcula usando la suma ponderada de los valores LPHa promedio de movimiento actuales y los 7 pasados al establecer ligeramente más ponderación para los valores más recientes . También es posible implementar la presente invención de tal manera que sólo una o pocas de las sub-bandas disponibles sean analizadas. También el nivel de promedio AVL de los bloques de filtro 301 paira el bloque actual se calcula al restar el nivel estimado de ruido de fondo de cada salida de bloque de filtro, y sumando estos niveles multiplicados por la frecuencia más alta del bloque de filtro correspondiente 301, para equilibrar las sub-bandas de alta frecuencia que contengan energía relativamente menor que las sub-bandas de frecuencia más baja. Igualmente, se calcula la energía total del cuadro actual TotEO que proviene de todos los bloques de filtro 301 restada por el cálculo de ruido de fondo de cada banco de filtro 301. Después de calcular estas mediciones, se hace una medición entre la excitación ACELP y TCX usando, 'por ejemplo, el siguiente método. A continuación se asume que cuando se establece un indicador, se borran otros indicadores para evitar conflictos. Primero, el valor de desviación estándar promedio para la ventana larga stdalong se compara con un primer valor 5 umbral THl, por ejemplo 0.4. Si el valor de la desviación estándar stdalong es más pequeño que el primer valor umbral THl, se establece un indicador MODO TCX. De otra manera, la medición calculada de la relación de alta y baja frecuencia LPHaF se compara con un segundo valor umbral TH2, por ejemplo 10 280. Si la medición calculada de la relación de frecuencia baja y alta LPHaF es mayor que el segundo valor umbral TH2, se establece el indicador MODO TCX. De otra manera, una inversa i» del valor de desviación estándar stdalong restado por el primer 15 valor umbral THl se calcula y una primera constante Cl, por ejemplo 5, se suma al valor inverso calculado. La suma se compara con la medición calculada de la medición de alta y baja frecuencia en la relación LPHaF: Cl+(l/(stdalong-THl))>LPHaF (1) 0 " Si el resultado de la comparación es verdadero, se establece el indicador MODO TCX. Si el resultado de la comparación no es verdadero, el valor de desviación estándar stdalong se multiplica por un primer multiplicando Ml (por ejemplo -90) y una segunda constante C2 (por ejemplo 120) se 5 añade al resultado de la multiplicación. La suma se compara con la medición calculada de la relación de frecuencia baja y alta LPHaF : Ml* stdalong+C2<LPHaF (2) Si la suma es más pequeña que la medición calculada de la relación de frecuencia baja y alta LPHaF, se establece un indicador MODO ACELP. De otra manera, se establece un indicador MODO INCIERTO indicando que el método de excitación aún no puede ser seleccionado para el cuadro actual. Un examen adicional se lleva a cabo después de las etapas descritas arriba antes de que se seleccione el método de excitación para el cuadro actual. Primero, se examina si ya sea el indicador MODO ACELP o el indicador MODO INCIERTO está establecido y si el nivel promedio calculado AVL de los bancos de filtros 301 para el cuadro actual es mayor que un tercer valor umbral TH3 (por ejemplo 2000) , entonces el indicador MODO TCX se establece y el indicador MODO ACELP y el indicador MODO INCIERTO se eliminan. Después, si- se establece el indicador MODO INCIERTO, se llevan a cabo evaluaciones similares para el valor de desviación estándar promedio stdashort para la ventana corta que las llevadas a cabo arriba para el valor de desviación estándar promedio stdalong para la ventana larga, pero usando valores ligeramente diferentes para las constantes y umbrales en las comparaciones . Si el valor de desviación estándar promedio stdashort para la ventana corta es más pequeño que un cuarto valor umbral TH4 (por ejemplo 0.2), se establece el indicador MODO TCX. De otra manera, una inversa del valor de desviación estándar- stdashort para la ventana corta restado por el cuarto valor umbral TH4 se calcula y una tercera constante C3 (por ejemplo 2.5) se suma al valor inverso calculado. La suma se compara con la medición calculada de. la relación de baja y alta frecuencia LPHaF: C3+(1/(stdashort-TH4) )>LPHaF (3) Si el resultado de la comparación es verdadero, se establece el indicador MODO TCX. Si el resultado de la comparación no es verdadero, se multiplica el valor de -desviación estándar stdashort por un segundo multiplicando M2 (por ejemplo -90) y una cuarta constante C4 (por ejemplo 140) se añade al resultado de la multiplicación. La suma se compara con la medición calculada de la relación de baja y alta frecuencia LPHaF: M2* stdashort+c4<LPHaF (4) Si la suma es más pequeña que la medición calculada de la medición de baja y alta frecuencia LPHaF, se establece el indicador MODO ACELP. De otra manera, el indicador MODO INCIERTO se establece indicando que el método de excitación no pudo ser seleccionado para el cuadro actual. En la siguiente etapa se examinan los niveles de energía del cuadro actual y del cuadro anterior. Si la velocidad entre la energía total del cuadro actual TotEO y la energía total del cuadro anterior TotE-1 es mayor que un quinto valor umbral TH5 (por ejemplo 25) se establece el indicador MODO ACELP y el indicador MODO TCX y MODO INCIERTO se eliminan. Finalmente, si el indicador MODO TCX o el indicador MODO INCIERTO se establece y si el nivel de valor promedio calculado AVL de los bancos de filtros 301 para el cuadro actual es mayor que el tercer valor umbral TH3 y la energía total del cuadro actual TotEO es menor que un sexto valor umbral TH6 (por ejemplo 60) , se establece el indicador MODO ACELP. Cuando se lleva a cabo el método de evaluación descrito arriba, el primer método de excitación y el primer bloque de excitación 206 se seleccionan si se establece el indicador MODO TCX o el segundo método de excitación y el segundo bloque de excitación 207 se seleccionan si se establece el indicador MODO ACELP. Sin embargo, si se establece el indicador MODO INCIERTO, el método de evaluación no puede llevar a cabo la selección. En ese caso se selecciona ya sea ACELP o TCX, o algún análisis' adicional tiene que llevarse a cabo para hacer la diferenciación. El método también puede ilustrarse como el siguiente seudo-código : si (stdalong < THl) ESTABLECER MODO_TCX si no, si (LPHaF > TH2) ESTABLECER MODO TCX , si ( (C1+ (1/ (stdalong-THl) ) ) >LPHaF) ESTABLECER MODO TCX si no, si ( (Ml*stdalong+C2)<LPHaF) ESTABLECER MODO_ACELP si no ESTABLECER MODO_INCIERTO ODO_ACELP o MODO_INCIERTO) y (AVL>TH3) ESTABLECER MODO TCX • ODO_INICERTO) si (stdashort < TH4) ESTABLECER MODO_TCX si no, si ( (C3+(l/(stdashort-TH4) ) )>LPHaF) ESTABLECER MODO_TCX si no, si ( (M2*stdashort+C4)<LPHaF) ESTABLECER MODO_ACELP si no ESTABLECER MODO_INCIERTO DO_INCIERTO) Si ( (TotEO/T?tE-l)>TH5) ESTABLECER MODO_ACELP DO_TCX ¡ | MODO_INCIERTO) ) si (AV>TH3 and TotEO < TH6) ESTABLECER MODO ACELP La idea básica detrás de la clasificación se ilustra en las figuras 4, 5 y 6. La figura 4 muestra un ejemplo de una gráfica de la desviación estándar para niveles de energía en bancos de filtros VAD como una función de la relación entre componentes de baja y alta energía en una señal de música. Cada punto corresponde a un cuadro de 20 ms tomado de la señal de música larga que contiene diferentes variaciones de música. La línea A se ajusta aproximadamente . para corresponder al borde superior del área de señal de música, es decir, los puntos al lado derecho de la línea no se consideran como señales tipo música en el método de acuerdo con la presente, invención. Respectivamente, la figura 5 muestra un ejemplo de una gráfica de desviación estándar de altos niveles de energía en bancos de filtros VAD como una función de la relación entre componentes de baja y alta energía en una señal de voz. Cada punto corresponde a un cuadro de 20 ms tomado a partir de la señal de voz larga que contiene variaciones diferentes de voz y diferentes hablantes. La curva B se ajusta para indicar aproximadamente el borde inferior de el área de ' señal de voz, es decir, los puntos hacia el lado izquierdo de la curva B no se consideran como tipo voz en el método de acuerdo con la presente invención. Como se puede observar en la figura 4, la mayoría de la señal de música tiene una desviación bastante estándar y una distribución de frecuencia relativamente uniforme sobre las frecuencias analizadas. Para la señal de voz graficada en la figura 5, la tendencia es al revés, desviaciones estándar más altas y más componentes de baja frecuencia. Poniendo ambas señales en la misma gráfica, en la figura 6 y ajustando las curvas A, B para que coincidan con los bordes de las regiones para señales tanto de música como de voz, es bastante fácil dividir la mayoría de las señales de música y la mayoría de las señales de voz en categorías diferentes . Las curvas ajustadas A, B en las figuras son las mismas que las presentadas también en el seudo-código adjunto anterior. Las imágenes demuestran únicamente una sola desviación estándar y valores de baja por alta frecuencia calculados por la formación de ventanas largas .
El seudo-código contiene un algoritmo, el cual usa dos diferentes formaciones de ventana, usando entonces dos versiones diferentes del algoritmo de mapeo presentado en las figuras 4 , 5 y 6. El área C limitada por las curvas A, B en la figura 6 indica el área de superposición en donde medios adicionales para clasificar señales tipo música y tipo voz pueden requerirse normalmente. El área C puede hacerse más pequeña usando diferente longitud de las ventanas de análisis para la variación de señal y combinando estas diferentes mediciones como se lleva a cabo e4n el ejemplo de seudo-código de la presente. Cierta suposición puede permitirse toda vez que algunas de las señales de música pueden codificarse suficientemente con la compresión optimizada para señales de voz y algunas señales de voz pueden codificarse eficientemente con la compresión optimizada para música. En el ejemplo presentado arriba la excitación ACELP más óptima se selecciona usando el análisis por síntesis y la selección entre la mejor excitación ACELP y la mejor excitación TCX' se lleva a cabo mediante preselección. Aunque la invención se presentó arriba usando dos diferentes métodos de excitación, es posible usar más de dos métodos de excitación diferentes y hacer la selección entre ellos para comprimir señales de audio. También es obvio que el filtro 300 puede dividir la señal de entrada en diferentes bandas de frecuencia que las presentadas arriba y también el número de bandas de frecuencia puede ser diferente a 12. La figura 7 ilustra un ejemplo de un sistema en el cual la presente invención puede aplicarse. El sistema comprende una o más fuentes de audio 701 que producen señales de audio de voz y/o no voz. Las señales de audio se convierten en señales digitales por un convertidor A/D 702 cuando es necesario. Las señales digitalizadas son ingresadas a un codificador 200 de un dispositivo de transmisión 700 en el cual la compresión se lleva a cabo de acuerdo con la presente invención. Las señales comprimidas también son cuantificadas y codificadas para su transmisión en el codificador 200 cuando sea necesario. Un transmisor 703, por ejemplo un transmisor de un dispositivo de comunicaciones, móviles 700, transmite las señales comprimidas y codificadas a una red de codificación 704. Las señales son recibidas de la red de comunicación 704 por un receptor 705 de un dispositivo de recepción 706. Las señales recibidas son transferidas del receptor 705 a un decodificador 707 para su decodificación, descuantificación y decompresión. El decodificador 707 comprende medios de detección 708 para determinar el método de compresión usado en el codificador 200 para un cuadro actual. El decodificador 707 selecciona con base en la determinación un primer medio de descompresión 709 o un segundo medio de descompresión 710 para descomprimir el cuadro actual. Las señales descomprimidas son conectadas del medio de descompresión 709, 710 a un filtro 7110 y un convertidor D/A 712- para convertir la señal digital en una señal análoga. La señal análoga puede ser después transferida a audio, por ejemplo, en un altavoz 713. La presente invención puede implementarse en diferentes tipos de sistemas, especialmente en la transmisión de baja velocidad para lograr una compresión más eficiente que ~^x en los sistemas de la técnica anterior1. El codificador 200 de acuerdo con la presente invención puede implementarse en diferentes partes de sistemas de comunicación. Por ejemplo, el codificador 200 puede implementarse en un dispositivo de comunicación móvil que tenga capacidades de procesamiento limitadas.
Es obvio que la presente invención no está limitada únicamente a las modalidades descritas arriba, sino que puede modificarse dentro del alcance de las reivindicaciones anexas . Se hace constar que con relación a esta fecha, el mejor método conocido por la solicitante para llevar a la práctica la citada invención, es el que resulta claro de la presente descripción de la invención.

Claims (50)

  1. REIVINDICACIONES
  2. Habiéndose descrito la invención como antecede, se reclama como propiedad lo contenido en las siguientes reivindicaciones : 1. Un codificador que comprende una entrada para ingresar cuadros de una señal de audio en una banda de frecuencias, por lo menos un primer bloque de excitación para llevar "a cabo una primera excitación para una señal de audio tipo voz, y un segundo bloque de excitación para llevar a cabo una segunda excitación para una señal de audio no tipo voz, caracterizado porque el codificador comprende además un filtro para dividir la banda de frecuencias en una pluralidad de subbandas que tienen cada una un ancho de banda más estrecho que la banda de frecuencias, y un bloque de selección de excitación para seleccionar un bloque de excitación entre el por lo menos un primer bloque de excitación y el segundo bloque de excitación para llevar a cabo la excitación para un cuadro de la señal de audio con base en las propiedades de la señal de audio por lo menos en una de las sub-bandas . 2. El codificador de conformidad con la reivindicación 1, caracterizado porque el filtro comprende un bloque de filtro para producir información que indique las energías de señal de un cuadro actual de la señal de audio al menos en una sub-banda, y porque el bloque de selección de excitación comprende medios de determinación de energía para determinar la información de energía de señal de al menos una sub-banda.
  3. 3. El codificador de conformidad con la reivindicación 2, caracterizado porque se definen por lo menos un primero y un segundo grupos' de sub-bandas, el segundo grupo conteniendo subbandas de frecuencias más altas que el primer grupo, porque una relación entre -la energía de señal normalizada del primer grupo de sub-bandas y la energía de señal normalizada del segundo grupo de sub-bandas se define ._para los cuadros de la señal de audio, y porque la relación es dispuesta para ser usada en la selección del bloque de excitación.
  4. 4. El codificador de conformidad con la reivindicación 3 , caracterizado porque una o más sub-bandas de las sub-bandas disponibles se deja fuera del primero y segundo grupos de sub-bandas .
  5. 5. El codificador de conformidad con la reivindicación 4, caracterizado porque la sub-banda de frecuencias más bajas se deja fuera del primero y segundo grupos de sub-bandas.
  6. 6. El codificador de conformidad con la reivindicación 3, 4 ó 5, caracterizado porque se definen un primer número de cuadros y un segundo número de cuadros, el segundo número de cuadros siendo mayor que el primer número, porque el bloque de selección de excitación comprende medios de cálculo para calcular un primer valor de desviación estándar promedio usando energías de señal del primer número de cuadros incluyendo el cuadro actual en cada sub-banda y para calcular un segundo valor de desviación estándar promedio usando energías de señal del segundo número de cuadros incluyendo el cuadro actual en cada sub-banda.
  7. 7. El codificador de confo.rmidad con cualquiera de las reivindicaciones 1 a 6, caracterizado porque el filtro es un banco de filtros de un detector de actividad de voz.
  8. 8. El codificador de conformidad con cualquiera de las reivindicaciones 1 a 7, caracterizado porque el codificador es un codee de banda ancha- de velocidades múltiples adaptivo.
  9. 9. El codificador de conformidad con cualquiera de las reivindicaciones 1 a 8, caracterizado porque la primera excitación es excitación por Predicción Lineal Excitada de Código Algebraico (ACELP) y la segunda excitación es excitación codificada por transformación (TCX) .
  10. 10. Un dispositivo que comprende un codificador que contiene una entrada para ingresar cuadros de una señal de audio en una banda de frecuencias, por lo menos un primer bloque de excitación para llevar a cabo una primera excitación para una señal de audio tipo voz, y un segundo bloque de excitación para llevar a cabo una segunda excitación para una señal de audio no tipo voz, caracterizado porque el codificador comprende además un filtro para dividir la banda de frecuencias en una pluralidad de sub-bandas que tienen cada una un ancho de banda más estrecho que la banda de frecuencias, porque el dispositivo comprende también un bloque de selección de excitación para seleccionar un bloque de excitación entre el por lo menos un primer bloque de excitación y el segundo bloque de excitación para llevar a cabo la excitación para un cuadro de la señal de audio con base en las propiedades de la señal de audio por lo menos en una de las sub-bandas .
  11. 11. El dispositivo de conformidad con la reivindicación 10, caracterizado porque el filtro comprende un bloque de filtro para producir información que indique las energías de señal de un cuadro actual de la señal de audio al menos en una sub-banda, y porque el bloque de selección de excitación comprende medios de determinación de energía para determinar la información de energía de señal de al menos una sub-banda.
  12. 12. El dispositivo de conformidad con la reivindicación 11, caracterizado porque se definen por lo menos un primero y un segundo grupos de sub-bandas, el segundo grupo conteniendo sub-bandas de frecuencias más altas que el primer grupo, porque una relación entre la energía de señal normalizada del primer grupo de sub-bandas y la energía de señal normalizada del segundo grupo de sub-bandas se define para los cuadros de la señal de audio, y porque la relación es dispuesta para ser usada en la selección del bloque de excitación. .
  13. 13. El dispositivo de conformidad con la reivindicación 12, caracterizado porque una o- más sub-bandas de las sub-bandas disponibles se dejan fuera del primero y segundo grupos de sub-bandas.
  14. 14. El dispositivo de conformidad con la reivindicación 13, caracterizado porque la sub-banda de frecuencias más bajas se deja fuera del primero y segundo grupos de sub-bandas .
  15. 15. El dispositivo de conformidad con la reivindicación 12, 13 ó 14, caracterizado porque se definen un .primer número de cuadros y un segundo número de cuadros, el segundo número de cuadros siendo mayor que el primer número, porque el bloque de selección de excitación comprende medios de cálculo 'para calcular un primer valor de desviación estándar promedio usando energías de señal del primer número de cuadros incluyendo el cuadro actual en cada sub-banda y para calcular un segundo valor de desviación estándar promedio usando energías de señal del segundo número de cuadros incluyendo el cuadro actual en cada sub-banda .
  16. 16. El dispositivo de conformidad con cualquiera de las reivindicaciones 10 a 15, caracterizado porque el filtro es un banco de filtros de un detector de actividad de voz.
  17. 17. El dispositivo de conformidad con cualquiera de 'las reivindicaciones 10 a 16, caracterizado porque el codificador es un codee de banda ancha de velocidades múltiples adaptivo .
  18. 18. El dispositivo' de conformidad con cualquiera de las reivindicaciones 10 a 17, caracterizado porque la primera excitación es excitación por Predicción Lineal Excitada de Código Algebraico (ACELP) y la segunda excitación es excitación codificada por transformación (TCX) .
  19. 19. El dispositivo de conformidad con cualquiera de las reivindicaciones 10 a' 18, caracterizado porque es un dispositivo de comunicación móvil .
  20. 20. El dispositivo de conformidad con cualquiera de las reivindicaciones 10 a 19, caracterizado porque comprende un transmisor para transmitir cuadros que incluyan parámetros producidos por el bloque de excitación seleccionado a través de un canal de baja velocidad de bits.
  21. 21. Un sistema que comprende un codificador que contiene una entrada para ingresar cuadros de una señal de audio en una banda de frecuencias, por lo menos un primer bloque de excitación para llevar a cabo una primera excitación para una señal de audio tipo voz, y un segundo bloque de excitación para llevar a cabo una segunda excitación para una señal de audio no tipo voz, caracterizado porque el codificador comprende además un filtro para dividir la banda de frecuencias en una pluralidad de sub-bandas que tienen cada una un ancho de banda más estrecho que la banda de frecuencias, porque el sistema comprende también un bloque de selección de excitación para seleccionar un bloque de excitación ' entre el por lo menos un primer bloque de excitación y el segundo bloque de excitación para llevar a cabo la excitación para un cuadro de la señal de audio con base en las propiedades de la señal de audio por lo menos en una de las sub-bandas .
  22. 22. El sistema de conformidad con la reivindicación 21, caracterizado porque el filtro comprende un bloque de filtro para producir información que indique las energías de señal de un cuadro actual de la señal de audio al menos en una sub-banda, y porque el bloque de selección de excitación comprende medios de determinación de energía para determinar la información de energía de señal de al menos una sub-banda.
  23. 23. El sistema de conformidad con la reivindicación 22, caracterizado porque se definen por lo menos un primero y un segundo grupos de sub-bandas, el segundo grupo conteniendo subbandas de frecuencias más altas que el primer grupo, porque una relación entre la energía de señal normalizada del primer grupo de sub-bandas y la energía de señal normalizada del segundo grupo de sub-bandas se define para los cuadros de la señal de audio, y porque la relación es dispuesta para ser usada en la selección del bloque de excitación.
  24. 24. El sistema de conformidad con la reivindicación 23 , caracterizado porque una o más sub-bandas de las sub-bandas disponibles se dejan fuera del primero y segundo grupos de subbandas .
  25. 25. El sistema de conformidad con la reivindicación 24, caracterizado porque la sub-banda de frecuencias más bajas se deja fuera del primero y segundo grupos de sub-bandas.
  26. 26. El sistema de conformidad co la reivindicación 23, 24 ó 25, caracterizado porque se definen un primer número de cuadros y un segundo número de cuadros, el segundo número de cuadros siendo mayor que el primer número, porque el bloque de selección de excitación comprende medios de cálculo para calcular un primer valor de desviación - estándar promedio usando energías de señal del primer número de cuadros incluyendo el cuadro actual en cada sub-banda y para calcular un segundo valor de desviación estándar promedio usando energías de señal del segundo número de cuadros incluyendo el cuadro actual en cada sub-banda.
  27. 27. El sistema de conformidad con cualquiera de las reivindicaciones 21 a 26, caracterizado porque el filtro es un banco de filtros de un detector de actividad de voz.
  28. 28. El sistema de conformidad con cualquiera de las reivindicaciones 21 a 27, caracterizado porque el codificador es un codee de banda ancha de velocidades múltiples adaptivo.
  29. 29. El sistema de conformidad con cualquiera de las reivindicaciones 21 a 28, caracterizado porque la primera excitación es excitación por Predicción Lineal Excitada de Código Algebraico (ACELP) y la segunda excitación es excitación codificada por transformación (TCX) .
  30. 30. El sistema de conformidad con cualquiera de las reivindicaciones 21 a 29, caracterizado porque es un dispositivo de comunicación móvil .
  31. 31. El sistema de conformidad con cualquiera de las reivindicaciones '21 a 30, caracterizado porque comprende un transmisor para transmitir cuadros que incluyan parámetros producidos por el bloque de excitación seleccionado a través de un canal de baja velocidad de bits.
  32. 32. Un método para comprimir señales de audio en una banda de frecuencias, en la cual una primera excitación se usa para una señal de audio tipo voz, y una segunda excitación se usa para una señal de audio no tipo voz, caracterizado porque la banda de frecuencias se divide en una pluralidad de sub-bandas que tienen cada una un ancho de banda más estrecho que la banda de frecuencias, porque una excitación entre la por lo menos primera excitación y la segunda excitación se selecciona para llevar a cabo la excitación para un cuadro de la señal de audio con base en las propiedades de la señal de audio al menos en una de las sub-bandas .
  33. 33. El método de conformidad con la reivindicación 32, caracterizado porque el filtro comprende un bloque de filtro para producir información que indique las energías de señal de un cuadro actual de la señal de audio al menos en una sub-banda, y porque el bloque de selección de excitación comprende medios de determinación de energía para determinar la información de energía de señal de al menos una sub-banda.
  34. 34. El método de conformidad con la reivindicación 33, caracterizado porque se definen por lo menos un primero y un segundo grupos de sub-bandas, el segundo grupo conteniendo subbandas de frecuencias más altas que el primer grupo, porque una relación entre la energía de señal normalizada del primer grupo de sub-bandas y la energía de señal normalizada del segundo grupo de sub-bandas se define para los cuadros de la señal de audio, y porque la relación es dispuesta para ser usada en la selección del bloque de excitación.
  35. 35. El método de conformidad con la reivindicación 34, caracterizado porque una o más sub-bandas de las sub-bandas disponibles se dejan fuera del primero y segundo grupos de subbandas .
  36. 36. El método de conformidad con la reivindicación 35, caracterizado porque la sub-banda de frecuencias más bajas se deja fuera del primero y segundo grupos de sub-bandas.
  37. 37. El método de conformidad con la reivindicación 34, 35 ó 36, caracterizado porque se definen un primer número de cuadros y un segundo número de cuadros, el segundo número de cuadros siendo mayor que el primer número, porque el bloque de selección de excitación comprende medios de cálculo para calcular un primer valor de desviación estándar promedio usando energías de señal del primer número de cuadros incluyendo el cuadro actual en cada sub-banda y para calcular un segundo valor de desviación estándar promedio usando energías de señal del segundo número de cuadros incluyendo el cuadro actual en cada sub-banda.
  38. 38. El método de conformidad con cualquiera de las reivindicaciones 32 a 37, caracterizado porque el filtro es un banco de filtros de un detector de actividad de voz.
  39. 39. El método de conformidad con cualquiera de las reivindicaciones 32 a 38, caracterizado porque el codificador es un codee de banda ancha de velocidades múltiples adaptivo.
  40. 40. El método de conformidad con cualquiera de las reivindicaciones 32 a 39, caracterizado porque la primera excitación es excitación por Predicción Lineal Excitada de Código Algebraico (ACELP) y la segunda excitación es excitación codificada por transformación (TCX) .
  41. 41. El método de conformidad con cualquiera de las reivindicaciones 32 a 40, caracterizado porque cuadros que incluyen parámetros producidos por la excitación seleccionada son transmitidos a través de un canal de baja velocidad de bits.
  42. 42. Un módulo para clasificar cuadros de una señal de audio en una banda de frecuencias para la selección de una excitación entre al menos una primera excitación para una señal de audio tipo voz, y una segunda excitación para una señal de audio no tipo voz, caracterizado porque el módulo comprende además una entrada para ingresar información indicadora de la banda de frecuencias dividida en una pluralidad de sub-bandas que tienen cada una un ancho de banda más estrecho que la banda de frecuencias, y un bloque de selección de excitación para seleccionar un bloque de excitación entre el por lo menos un primer bloque de excitación y el segundo bloque de excitación para llevar a cabo la excitación para un cuadro de la señal de audio con base en las propiedades de la señal de audio al menos en una de las sub-bandas .
  43. 43. El módulo de conformidad con la reivindicación 42 , caracterizado' porque se definen por lo menos un primero y un segundo grupos de sub-bandas, el segundo grupo conteniendo subbandas de frecuencias más altas que el primer grupo, porque una relación entre la energía de señal normalizada del primer grupo de sub-bandas y la energía de señal normalizada . del segundo grupo de sub-bandas se define para los cuadros de la señal de audio, y porque la relación es dispuesta para ser usada en la selección del bloque de excitación.
  44. 44. El módulo de conformidad con la reivindicación 43, caracterizado porque una o más sub-bandas de las sub-bandas disponibles se dejan fuera del primero y segundo grupos de subbandas .
  45. 45. El módulo de conformidad con la reivindicación 44, caracterizado porque la sub-banda de frecuencias más bajas se deja fuera del primero y segundo grupos de sub-bandas.
  46. 46. El módulo de conformidad con la reivindicación 43, 44 ó 45, caracterizado porque se definen un primer número de cuadros y un segundo número de cuadros, el segundo número de cuadros siendo mayor ue el primer número, porque el bloque de selección de excitación comprende medios de cálculo para calcular un primer valor de desviación estándar promedio usando energías de señal del primer número de cuadros incluyendo el cuadro actual en cada sub-banda y para calcular un segundo valor de desviación estándar promedio usando energías de señal del segundo número de cuadros incluyendo el cuadro actual en cada sub-banda. .
  47. 47. Un producto de programa de computadora que comprende etapas ejecutables por máquina para comprimir señales de audio en una banda de frecuencias, en el cual se usa una primera excitación para una señal de audio tipo voz y una segunda excitación se usa para una señal de audio no tipo voz, caracterizado porque el producto de programa de computadora comprende además etapas ejecutables por máquina para dividir la banda de frecuencias en una pluralidad de sub-bandas que tienen cada una un ancho de banda más estrecho que la banda de frecuencias, etapas ejecutables por máquina para seleccionar una excitación entre la por lo menos primera excitación y la segunda excitación con base en las propiedades de la señal de audio por lo menos en una de las sub-bandas para llevar a cabo la excitación para un cuadro de la señal de audio .
  48. 48. El producto de programa de computadora de conformidad con la reivindicación 47, caracterizado porque comprende además etapas ejecutables por máquina para producir información que indique las energías de señal de un cuadro actual de la señal de audio al menos en una sub-banda, y etapas ejecutables por máquina para determinar la información de energía de señal de al menos una sub-banda.
  49. 49. El producto de programa de computadora de conformidad con la reivindicación 48, caracterizado porque se definen un primer número de cuadros y un segundo número de cuadros, el segundo número de cuadros siendo mayor que el primer número, porque el producto de programa de computadora comprende además etapas ejecutables por máquina para medios de cálculo para calcular un primer valor de desviación estándar promedio usando energías de señal del primer número de cuadros incluyendo el cuadro actual en cada sub-banda y para calcular un segundo valor de desviación estándar promedio usando energías de señal del segundo número de cuadros incluyendo el cuadro actual en cada sub-banda.
  50. 50. El producto de programa de computadora de conformidad con cualquiera de las reivindicaciones 47 a 49, caracterizado porque comprende además etapas ejecutables por máquina para llevar a cabo una excitación por Predicción Lineal Excitada de Código Algebraico (ACELP) como la primera excitación, y etapas ejecutables por máquina para llevar a cabo excitación codificada por transformación (TCX) como la segunda excitación.
MXPA/A/2006/009369A 2004-02-23 2006-08-17 Clasificacion de señales de audio MXPA06009369A (es)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FI20045051 2004-02-23

Publications (1)

Publication Number Publication Date
MXPA06009369A true MXPA06009369A (es) 2006-12-13

Family

ID=

Similar Documents

Publication Publication Date Title
US8438019B2 (en) Classification of audio signals
US7747430B2 (en) Coding model selection
EP1738355B1 (en) Signal encoding
US7613606B2 (en) Speech codecs
US20050246164A1 (en) Coding of audio signals
JP3259759B2 (ja) 音声信号伝送方法及び音声符号復号化システム
KR20130107257A (ko) 대역폭 확장을 위한 고주파수 부호화/복호화 방법 및 장치
MXPA06009369A (es) Clasificacion de señales de audio
MXPA06009370A (es) Seleccion de modelos de codificacion
Babich et al. The new generation of coding techniques for wireless multimedia: a performance analysis and evaluation
KR20070063729A (ko) 음성 부호화장치, 음성 부호화 방법, 이를 이용한 이동통신단말기