MX2007011102A

MX2007011102A - Tramas que distorsionan el tiempo dentro del vocoder modificando el residuo.

Info

Publication number: MX2007011102A
Application number: MX2007011102A
Authority: MX
Inventors: Rohit Kapoor; Serafin Diaz Spindola
Original assignee: Qualcomm Inc
Priority date: 2005-03-11
Filing date: 2006-03-13
Publication date: 2007-11-22
Also published as: BRPI0607624A2; SG160380A1; BRPI0607624B1; KR100956623B1; RU2371784C2; CA2600713C; AU2006222963B2; TW200638336A; RU2007137643A; EP1856689A1; US8155965B2; KR100957265B1; JP2008533529A; US20060206334A1; AU2006222963C1; KR20070112832A; CA2600713A1; JP5203923B2; IL185935A; TWI389099B

Abstract

En una modalidad, la presente invencion comprende un vocoder que tiene al menos una entrada y al menos una salida de un codificador que comprende un filtro que tiene al menos una entrada conectada operativamente a la entrada del vocoder y al menos salida del descodificador que comprende un sintetizador que tiene al menos una entrada conectada operativamente a al menos una salida del codificador y al menos una salida conectada operativamente a al menos una salida del vocoder, donde el codificador comprende una memoria y el codificador esta adaptado para ejecutar instrucciones almacenadas en la memoria que comprende clasificar segmentos de frecuencia vocal y codificar segmentos de frecuencia vocal, y el descodificador comprende una memoria y el descodificador esta adaptado para ejecutar instrucciones almacenadas en la memoria que comprende la distorsion del tiempo de una senal de frecuencia vocal residual a una version expandida comprimida de la sena de frecuencia vocal residual.

Description

TRAMAS QUE DISTORSIONAN EL TIEMPO DENTRO DEL VOCODER MODIFICANDO EL RESIDUO CAMPO DE LA INVENCIÓN La presente invención se relaciona de manera general con un método para tramas de vocoder de desviación (expansión o compresión) de tiempo en el vocoder. La desviación de tiempo tiene un número de aplicaciones en redes conmutadas por paquetes donde los paquetes de vocoder pueden arribar de manera asincrónica. Aunque la desviación de tiempo puede ser efectuada ya sea dentro del vocoder o fuera del vocoder, hacer esto en el vocoder ofrece un número de ventajas con una mejor calidad de las tramas desviadas y una carga computacional reducida. Los métodos presentados en este documento pueden ser aplicados a cualquier vocoder que use técnicas similares como las referidas en esta solicitud de patente para la vocodificación de datos de voz.

ANTECEDENTES DE LA INVENCIÓN La presente invención comprende un aparato y un método para la desviación de tiempo de tramas de frecuencia vocal manipulando la señal de frecuencia vocal. En una modalidad, el método y aparato de la presente es usado en, pero sin limitarse a, el Vocoder de la Cuarta Generación (4GV) . Las modalidades descritas comprenden métodos y aparatos para expandir/comprimir diferentes tipos de segmentos de frecuencia vocal.

SUMARIO DE LA INVENCIÓN En vista de lo anterior, las características descritas de la presente invención, generalmente se relacionan con uno o más sistemas, métodos y/o aparatos mejorados para comunicar la frecuencia vocal. En una modalidad, la presente invención comprende un método para comunicar frecuencia vocal que comprende los pasos de clasificar segmentos de frecuencia vocal, codificar los segmentos de frecuencia vocal usando la predicción lineal excitada de código, y desviar el tiempo de una señal de frecuencia vocal residual a una versión expandida o comprimida de la señal de frecuencia vocal residual. En otra modalidad, el método de comunicación de frecuencia vocal comprende además enviar la señal de frecuencia vocal a través de un filtro de codificación predictiva lineal, por lo que las correlaciones a corto plazo en la señal de frecuencia vocal son filtradas, y produciendo coeficientes de codificación predictiva lineal y una señal residual. En otra modalidad, la codificación es la codificación de predicción lineal excitada de código y el paso de desviación de tiempo comprende estimar el retraso de separación, dividir una trama de frecuencia vocal en periodos de separación, donde los límites de los periodos de separación son determinados usando el retraso de separación en varios puntos en la trama de frecuencia vocal, superponer los periodos de separación si la señal residual de frecuencia vocal es comprimida, y agregar los periodos de separación si la señal residual de frecuencia vocal se expande. En otra modalidad, la codificación es la codificación de periodo de separación de un prototipo y el paso de desviar el tiempo comprende estimar al menos un periodo de separación, interpolar, al menos un periodo de separación, agregar al menos un periodo de separación cuando se expanda la señal de frecuencia vocal residual, y sustraer al menos un periodo de separación cuando se comprima la señal de frecuencia vocal residual. En otra modalidad, la codificación es la codificación de predicción lineal excitada por ruido, y el paso de desviación de tiempo comprende aplicar posiblemente diferentes ganancias a diferentes partes del segmento de frecuencia vocal antes de sintetizar éste. En otra modalidad, la presente invención comprende un vocoder que tiene al menos una entrada y al menos una salida, un codificador que incluye un filtro que tiene al menos una entrada conectada operativamente a una entrada del vocoder y al menos una salida, un descodificador que incluye un sintetizador que tiene al menos una entrada conectada operativamente a al menos una salida del codificador y al menos una salida conectada operativamente a al menos una salida del vocoder. En otra modalidad, el codificador comprende una memoria, donde el codificador está adaptado para ejecutar instrucciones almacenadas a la memoria que comprenden clasificar los segmentos de frecuencia vocal como 1/8 de trama, periodo de separación prototipo, predicción lineal excitada por código o predicción lineal excitada por ruido. En otra modalidad, el descodificador comprende una memoria y el descodificador está adaptado para ejecutar instrucciones almacenadas en la memoria que comprende desviar el tiempo de una señal residual a una versión expandida o comprimida de la señal residual. El alcance adicional de la aplicabilidad de la presente invención se volverá evidente a partir de la siguiente descripción detallada, las reivindicaciones y los dibujos. Sin embargo, deberá comprenderse que la descripción detallada y los ejemplos específicos, aunque indican modalidades preferidas de la invención, serán dados a manera de ilustración únicamente, puesto que los diferentes cambios y modificaciones dentro del espíritu y alcance de la invención se volverán evidentes a aquellos expertos en la técnica.

BREVE DESCRIPCIÓN DE LAS FIGURAS La presente invención será comprendida de manera más completa a partir de la descripción detallada aquí a continuación, las reivindicaciones anexas y las figuras acompañantes en las cuales: La FIGURA 1 es un diagrama de bloques de un vocoder de Codificación Predictiva Lineal (LPC) ; La FIGURA 2A es una señal de frecuencia vocal que contiene frecuencia vocal hablada; La FIGURA 2B es una señal de frecuencia vocal que contiene frecuencia vocal no hablada; La FIGURA 2C es una señal de frecuencia vocal que contiene frecuencia vocal transitoria; La FIGURA 3 es un diagrama de bloques que ilustra la Filtración LPC de la Frecuencia Vocal seguida por la Codificación de un Residuo; La FIGURA 4A es una gráfica de la Frecuencia Vocal Original; La FIGURA 4B es una gráfica de una Señal de Frecuencia Vocal Residual después de la Filtración LPC; La FIGURA 5 ilustra la generación de Formas de Onda usando la Interpolación entre los Periodos de Separación Prototipo Previos y Actuales; La FIGURA 6A describe la determinación de los Retrasos de Separación a través de la Interpolación; La FIGURA 6B describe la identificación de los periodos de separación; La FIGURA 7A representa una señal de frecuencia vocal original en forma de periodos de separación; La FIGURA 7B representa una señal de frecuencia vocal expandida usando superposición adicional; La FIGURA 7C representa una señal de frecuencia vocal comprimida usando superposición adicional; La FIGURA 7D representa como es usada la ponderación para comprimir la señal residual; La FIGURA 7E representa una señal de frecuencia vocal comprimida sin usar superposición adicional; La FIGURA 7F representa como sucede la ponderación para expandir la señal residual; y La FIGURA 8 contiene dos ecuaciones usadas en el método de superposición adicional.

DESCRIPCIÓN DETALLADA La palabra "ilustrativa" se usa aquí con el significado "servir como un ejemplo, caso o ilustración". Cualquier modalidad descrita aquí como "ilustrativa" no necesariamente debe constituirse en una modalidad preferida o ventajosa sobre otras.

Características de Uso de la Desviación de Tiempo en un Vocoder Las voces humanas consisten de dos componentes. Un componente comprende ondas fundamentales que son sensibles a la separación y otras son armónicas fijas las cuales no son sensibles a la separación. La separación percibida de un sonido es la respuesta del oído a la frecuencia, es decir, para la mayoría de los propósitos prácticos la separación es la frecuencia. Los componentes armónicos agregan características distintivas a la voz de una persona. Ellos cambian junto con las cuerdas vocales y con la forma física del tracto vocal y se conocen como formantes. La voz humana puede ser representada por una señal digital s(n) 10. Asúmase que s (n) 10 es una señal de frecuencia vocal digital obtenida durante una conversación típica, incluyendo diferentes sonidos vocales y periodos de silencio. La señal de frecuencia vocal s (n) 10 es preferiblemente dividida en porciones de tramas 20. En una modalidad, s(n) 10 es muestreada digitalmente a 8 kHz. Los esquemas de codificación actuales comprenden una señal de frecuencia vocal digitalizada 10 en una señal de baja velocidad de bits removiendo todas las redundancias naturales (es decir, elementos correlacionados) inherentes a la frecuencia vocal. La frecuencia vocal típicamente exhibe redundancias a corto plazo resultante de la acción mecánica de los labios y la lengua, y redundancias a largo plazo resultantes de la vibración de las cuerdas vocales. La Codificación Predictiva - Lineal (LPC) filtra la señal de frecuencia vocal 10 removiendo las redundancias produciendo una señal de frecuencia vocal residual 30. Entonces modela la señal residual resultante 30 como un ruido Gaussiano blanco. Un valor muestreado de una forma de onda de frecuencia vocal puede ser predicho ponderando una suma de un número de muestras pasadas 40, cada una de las cuales es multiplicada por un coeficiente predictivo lineal 50. Los codificadores predictivos lineales, por lo tanto, logran una velocidad de bits reducida transmitiendo coeficientes de filtración 50 y ruido cuantizado en lugar de la señal de frecuencia vocal de ancho de banda completo 10. La señal residual 30 es codificada extrayendo un periodo prototipo 100 de un trama actual 20 de la señal residual 30. Un diagrama de bloques de una modalidad de un vocoder LPC 70 usado por el método y aparato de la presente puede observarse en la FIGURA 1. La función del LPC es minimizar la suma de las diferencias de los cuadrados entre la señal de frecuencia vocal original y la señal de frecuencia vocal estimada durante un periodo de tiempo finito. Esto puede producir un conjunto único de coeficientes de predicción 50 los cuales normalmente son estimados cada 20 tramas. Una trama 20 es típicamente de 20 ms de longitud. La función de transferencia del filtro digital que varía con el tiempo 75 está dada por: donde los coeficientes de predicción 50 son representados por ak y la ganancia por G. La suma es calculada de k=l a k=p. Si es usado el método LPC-10, entonces p=10. Esto significa que únicamente los primeros 10 coeficientes 50 son transmitidos al sintetizador de LPC 80. Los dos métodos más comúnmente usados para calcular los coeficientes son, pero no se limitan a, el método de covarianza y el método de autocorrelación. Es común para diferentes locutores hablar a diferentes velocidades. La compresión del tiempo es un método para reducir el efecto de la variación de la velocidad de locutores individuales. Las diferencias de sincronización entre dos patrones de frecuencia vocal pueden ser reducidas desviando el eje del tiempo de uno de modo que se alcance la coincidencia máxima con el otro. Esta técnica de compresión de tiempo es conocida como desviación de tiempo. Además, la desviación de tiempo comprime o expande señales de voz sin cambiar su separación. Los vocoders típicos producen tramas 20 de 20 mseg de duración, incluyendo 160 muestras 90 a una velocidad preferida de 8 kHz. Una versión comprimida desviada en el tiempo de esta trama 20 tiene una duración menor de 20 mseg, mientras que la versión expandida desviada en el tiempo tiene una duración mayor de 20 mseg. La desviación del tiempo de los datos de voz tiene ventajas significativas cuando se envían datos de voz sobre redes conmutadas por paquetes, lo cual introduce oscilación de retraso en la transmisión de paquetes de voz. En esas redes, la desviación de tiempo puede ser usada para mitigar los efectos de esa oscilación de retraso y producir un flujo de voz que se vea "sincrónico". Las modalidades de la invención se relacionan con un aparato y un método para la desviación del tiempo de tramas 20 dentro del vocoder 70 manipulando la frecuencia vocal residual 30. En una modalidad, el método y aparato de la presente es usado en 4GV. Las modalidades descritas comprenden métodos y aparatos o sistemas para expandir/comprimir diferentes tipos de segmentos de frecuencia vocal 4GV 110 codificados usando un Periodo de Separación Prototipo (PPP) , Predicción Lineal Excitada por Código (CELP) o codificación de Predicción Lineal Excitada por Ruido (NELP) . El término "vocoder" 70 típicamente se refiere a dispositivos que comprenden frecuencia vocal hablada extrayendo parámetros sobre la base de un modelo de generación de frecuencia vocal humana. Los vocoders 70 incluyen un codificador 204 y un descodificador 206. El codificador 204 analiza la frecuencia vocal entrante y extrae los parámetros relevantes. En una modalidad, el codificador comprende un filtro 75. El descodificador 206 sintetiza la frecuencia vocal usando los parámetros que recibe del codificador 204 vía un canal de transmisión 208. En una modalidad, el descodificador comprende un sintetizador 80. La señal de frecuencia vocal 10 es con frecuencia dividida en tramas 20 de datos y bloques procesados por el vocoder 70. Aquellos expertos en la técnica reconocerán que la frecuencia vocal humana puede ser clasificada en muchas formas diferentes. Tres clasificaciones convencionales de la frecuencia vocal son los sonidos hablados, no hablados y frecuencia vocal transitoria. La FIGURA 2A es una señal de frecuencia vocal hablada s(n) 402. La FIGURA 2A muestra una propiedad medible, común de la frecuencia vocal hablada conocida como el periodo de separación 100. La FIGURA 2B es una señal de frecuencia vocal no hablada s(n) 404. Una señal de frecuencia vocal no hablada 404 se asemeja al ruido coloreado. La FIGURA 2C describe una señal de frecuencia vocal transitoria s (n) 406 (es decir, la frecuencia vocal la cual ni es hablada y no hablada) . El ejemplo de frecuencia vocal transitoria 406 mostrado en la FIGURA 2C puede representar s(n) transitando entre frecuencia vocal no hablada y frecuencia vocal hablada. Esas tres clasificaciones son todas no incluyentes. Existen muchas clasificaciones diferentes de frecuencia vocal que pueden ser empleadas de acuerdo a los métodos descritos aquí para lograr resultados comparables.

El Vocoder 4GV Usa 4 Diferentes Tipos de Trama El vocoder de la cuarta generación (4GV) 70 usado en una modalidad de la invención proporciona características atractivas para usarse sobre redes inalámbricas. Algunas de esas características incluyen la capacidad de negociar la calidad contra la velocidad de bits, la vocodificación más flexible de cara al porcentaje de error de paquete (PER) incrementado, mejor ocultamiento de eliminaciones, etc. El vocoder 4GV 70 puede usar cualquiera de cuatro codificadores 204 y descodificadores 206 diferentes. Los diferentes codificadores 204 y descodificadores 206 operan de acuerdo a diferentes esquemas de codificación. Algunos codificadores 204 son más efectivos en porciones de codificación de la señal de frecuencia vocal s(n) 10 que exhibe ciertas propiedades. Por lo tanto, en una modalidad el modo de los codificadores 204 y los descodificadores 206 puede ser seleccionado sobre la base de la clasificación de la trama actual 20. El codificador 4GV 204 codifica cada trama 20 de datos de voz en uno de cuatro tipos de tramas diferentes 20: Interpolación de Forma de Onda de Periodo de Separación Prototipo (PPP I), Predicción Lineal Excitada por Código (CELP) , Predicción Lineal Excitada por Ruido (NELP) , o trama de 1/8 de velocidad de silencio. La CELP es usada para codificar frecuencia de voz con una pobre periodicidad o frecuencia de voz que implica cambio de un segmento periódico 110 a otro. Así, el modo CELP es elegido típicamente para codificar tramas clasificadas como frecuencia vocal transitoria. Puesto que esos segmentos 110 no pueden ser reconstruidos exactamente de solo un periodo de separación prototipo, la CELP codifica las características de un segmento de frecuencia vocal completo 110. El modo CELP excita un modelo de tracto vocal predictivo lineal con una versión cuantizada de la señal residual de predicción lineal 30. De todos los codificadores 204 y los descodificadores 206 descritos aquí. La CELP generalmente produce una reproducción de frecuencia vocal más exacta, pero requiere una velocidad de bits más alta. Un modo de Periodo de Separación Prototipo (PPP) puede ser elegido para codificar tramas 20 clasificadas como frecuencia vocal hablada. La frecuencia vocal hablada contiene componentes periódicos que varían lentamente con el tiempo los cuales son explotados por el modo PPP. El modo PPP codifica un subconjunto de los periodos de separación 100 dentro de cada trama 20. Los periodos restantes 100 de la señal de frecuencia vocal 10 son reconstruidos interpolando entre esos periodos prototipo 100. Explotando la periodicidad de la frecuencia vocal hablada, el PPP es capaz de lograr una velocidad de bits más baja que la CELP y reproducir aún la señal de frecuencia vocal 10 en una manera perceptualmente exacta. La PPPWI es usada para codificar datos de frecuencia vocal que son de naturaleza periódica. Esa frecuencia vocal se caracteriza por diferentes periodos de separación 100 que son similares a un periodo de separación "prototipo" (PPP) . Este PPP es la única información de voz que el codificador 204 necesita codificar. El descodificador puede usar este PPP para reconstruir otros periodos de separación 100 en el segmento de frecuencia vocal 110. Un codificador "Predictivo Lineal Excitado por Ruido" (NELP) 204 es elegido para codificar tramas 20 codificados como frecuencia vocal no hablada. La codificación NELP opera efectivamente, en términos de reproducción de la señal, donde la señal de frecuencia vocal 10 tiene poca o ninguna estructura de separación. De manera más específica, la NELP es usada para codificar frecuencia vocal que es de carácter similar al ruido, como la frecuencia vocal no hablada o ruido de fondo. La NELP usa una señal de ruido pseudoaleatoria filtrada para modelar la frecuencia vocal no hablada. El carácter similar al ruido de esos segmentos de frecuencia vocal 110 puede ser reconstruido generando señales aleatorias en el descodificador 206 y aplicando ganancias apropiadas a ellas. La NELP usa el modelo más simple para la frecuencia vocal codificada, y por lo tanto logra una velocidad de bits más baja. Las tramas de l/8vo de velocidad son usadas para codificar silencio, por ejemplo, periodos donde el usuario no está hablando.

Todos los cuatro esquemas de vocodificación descritos anteriormente comparten el procedimiento de filtración LPC inicial como se muestra en la FIGURA 3. Después de caracterizar la frecuencia vocal en una de las 4 categorías, la señal de frecuencia vocal 10 es enviada a través de un filtro de codificación predictiva lineal (LPC) 80 el cual filtra correlaciones a corto plazo en la frecuencia vocal usando la predicción lineal. Las salidas de este bloque son los coeficientes de LPC 50 y la señal "residual" 30, la cual es básicamente la señal de frecuencia vocal original 10 con las correlaciones a corto plazo removidas de ésta. La señal residual 30 es entonces codificada usando los métodos específicos usados por el método de vocodificación seleccionado por la trama 20. Las FIGURAS 4A-4B muestran un ejemplo de la señal de frecuencia vocal original 10, y la señal residual 30 después del bloque de LPC 80. Puede observase que la señal residual 30 muestra periodos de separación 100 más distintivos que la frecuencia vocal original 10. Es por esta razón que la señal residual 30 puede ser usada para determinar el periodo de separación 100 de la señal de frecuencia vocal de manera más exacta que la señal de frecuencia vocal original 10 (la cual también contiene correlaciones a corto plazo) .

Desviación de Tiempo Residual Como se estableció anteriormente, la desviación de tiempo puede ser usada para la expansión o compresión de la señal de frecuencia vocal 10. Aunque puede ser usado un número de métodos para lograr esto, la mayoría de esos se basan en agregar o suprimir periodos de separación 100 de la señal 10. La adición o sustracción de periodos de separación 100 puede ser efectuada en el descodificador 206 después de recibir la señal residual 30, pero antes de que sea sintetizada la señal 30. Para los datos de frecuencia vocal que sean codificados usando CELP o PPP (no NELP) , la señal incluye un número de periodos de separación 100. De este modo, la unidad más pequeña que puede ser agregada o suprimida de la señal de frecuencia vocal 10 es un periodo de separación 100 puesto que cualquier unidad más pequeña que esta conducirá a una discontinuidad de fase dando como resultado la introducción de un artefacto de frecuencia vocal notable. De este modo, un paso en los métodos de desviación de tiempo aplicado a la frecuencia vocal CELP o PPP es la estimación del periodo de separación 100. Este periodo de separación 100 es ya conocido por el descodificador 206 para tramas de frecuencia vocal CELP/ PPP 20. En el caso de ambos del PPP y CELP, la información de separación es calculada por el codificador 204 usando métodos de autocorrelación y es transmitida al descodificador 206. De este modo, el descodificador 206 tiene conocimiento exacto del periodo de separación 100. Esto hace más simple aplicar el método de desviación de tiempo de la presente invención en el descodificador 206. Además, como se estableció anteriormente, es más simple la desviación del tiempo de la señal 10 antes de sintetizar la señal 10. Si esos métodos de desviación de tiempo fueran a ser aplicados después de la descodificación de la señal 10, sería necesario estimar el periodo de separación 100 de la señal 10. Esto requiere no solo cálculos adicionales, sino que también la estimación del periodo de separación 100 puede no ser muy exacta puesto que la señal residual 30 también contiene información de LPC 170. Por otro lado, si la estimación de periodo de separación adicional 100 no es demasiado compleja, entonces la realización de la variación de tiempo después de la descodificación no requiere cambios al descodificador 206, y de este modo puede ser implementada solo una vez por todos los vocoders 80. Otra razón para efectuar la desviación de tiempo en el descodificador 206 antes de sintetizar la señal usando la síntesis de codificación LPC es que la compresión/expansión puede ser aplicada a la señal residual 30. Esto permite que la síntesis de codificación predictiva lineal (LPC) sea aplicada a la señal residual desviada en el tiempo 30. Los coeficientes de LPC 50 juegan un papel en como suena la frecuencia vocal y la aplicación de la síntesis después de la desviación asegura que la información de LPC correcta 170 se mantenga en la señal 10. Si, por otro lado, la desviación de tiempo se efectúa después de la descodificación de la señal residual 30, la síntesis de LPC ya ha sido efectuada antes de la desviación de tiempo. De este modo, el procedimiento de desviación puede cambiar la información de LPC 170 de la señal 10, especialmente si la predicción del periodo de separación 100 posterior a la descodificación no ha sido muy exacta. En una modalidad, los pasos efectuados por los métodos de desviación de tiempo descritos en la presente solicitud se almacenan como instrucciones localizadas en programas y sistemas de programación o software o instrucciones fijas o firmware 81 localizadas en la memoria 82. En la FIGURA 1, la memoria se muestra localizada dentro del descodificador 206. La memoria 82 también puede localizarse fuera del descodificador 206. El codificador 204 (como el 4GV) puede categorizar las tramas de frecuencia vocal 20 como PPP (periódicos) , CELP (ligeramente periódicos) , o NELP (ruidosos) dependiendo de si las tramas 20 representan frecuencia vocal hablada, no hablada o transitoria. Usando información acerca del tipo de trama de frecuencia vocal 20, el descodificador 206 puede desviar en el tiempo diferentes tipos de tramas 20 usando diferentes métodos. Por ejemplo, una trama de frecuencia vocal NELP 20 no tiene noción de los periodos de separación y su señal residual 30 es generada en el descodificador 206 usando la información "aleatoria". De este modo, la estimación del periodo de separación 100 de CELP/PPP no se aplica a NELP y, en general, las tramas de NELP 20 pueden ser desviadas (expandidas/comprimidas) en menos de un periodo de separación 100. Esa información no está disponible si la desviación de tiempo es efectuada después de descodificar la señal residual 30 en el descodificador 206. En general, la desviación de tiempo de tramas 20 como NELP después de la descodificación conduce a artefactos de frecuencia vocal. La desviación de tramas de NELP 20 en el descodificador 206, por otro lado, produce una mucha mejor calidad. De este modo, existen dos ventajas para efectuar la desviación de tiempo en el descodificador 206 (es decir, antes de de la síntesis de la señal residual 30) en oposición al postcodificador (es decir, después de que sea sintetizada la señal residual 30) : (i) reducción de la carga computacional (por ejemplo, se evita la búsqueda de un periodo de separación 100), y (ii) se mejora la calidad de desviación debido a (a) el conocimiento del tipo de trama 20, b) realización de la síntesis de LPC sobre la señal desviada y c) estimación/ conocimiento más exacto del periodo de separación.

Métodos de Desviación de Tiempo Residual Lo siguiente describe modalidades en las cuales el método y aparato de la presente desvían en el tiempo la frecuencia vocal residual 30 dentro de descodificadores PPP, CELP y NELP. Los siguientes dos pasos se efectúan en cada descodificador 206: (i) desviación en el tiempo de la señal residual 30 a una versión expandida o comprimida; y (ii) envío del residuo desviado en el tiempo 30 a través del filtro LPC 80. Además, el paso (i) se efectúa de manera diferente a los segmentos de frecuencia vocal PPP, CELP y NELP 110. Las modalidades serán descritas más adelante.

Desviación en el Tiempo de la Señal Residual cuando el segmento de frecuencia vocal 110 es PPP: Como se estableció anteriormente, cuando el segmento de frecuencia vocal 110 es PPP, la unidad más pequeña que puede ser agregada o eliminada de la señal es un periodo de separación 100. Antes de que la señal 10 pueda ser descodificada (y reconstruido el residuo 30) del periodo de separación prototipo 100, el descodificador 206 interpola la señal 10 del periodo de separación prototipo previo 100 (el cual está almacenado) al periodo de separación prototipo 100 en la trama actual 20, agregando los periodos de separación ausentes 100 en el proceso. Este proceso es descrito en la FIGURA 5. Esa interpolación conduce en si misma de manera más fácil a la desviación en el tiempo produciendo menos o más periodos de separación interpolados 100. Esto conducirá a señales residuales comprimidas o expandidas 30, las cuales son entonces enviadas a través de la síntesis LPC.

Desviación en el tiempo de la Señal Residual cuando el segmento de frecuencia vocal 110 es CELP: Como se estableció al principio, cuando el segmento de frecuencia vocal 110 es PPP, la unidad más pequeña que pueda ser agregada o suprimida de la señal es un periodo de separación 100. Por otro lado, en el caso de CELP, la desviación no es tan fácil como para PPP. Para desviar el residuo 30, el descodificador 206 utiliza la información de retraso de separación 180 contenida en la trama codificada 20. Este retraso de separación 180 es en realidad el retraso de separación 180 al final de la trama 20. Deberá notarse aquí que aún en una trama periódica 20, el retraso de separación 180 puede cambiar ligeramente. Los retrasos de separación 180, en cualquier punto en la trama pueden ser estimados interpolando entre el retraso de separación 180 al final de la última trama 20 y al final de la trama actual 20. Esto se muestra en la FIGURA 6. Una vez que los retrasos de separación 180, en todos los puntos en la trama 20 son conocidos, la trama 20 puede ser dividida en periodos de separación 100. Los límites de los periodos de separación 100 son determinados usando los retrasos de separación 180 en varios puntos en la trama 20. La FIGURA 6A muestra un ejemplo de cómo dividir la trama 20 en sus periodos de separación 100. Por ejemplo, el número de muestras 70 tiene un retraso de separación 180 igual a aproximadamente 70 y un número de muestras 142 tiene un retraso de separación 180 de aproximadamente 72. De este modo, los periodos de separación 100 son de los números de muestra [1-70] y de los números de muestras [71-142] . Véase la FIGURA 6B. Una vez que la trama 20 ha sido dividida en periodos de separación 100, esos periodos de separación 100 pueden entonces ser agregados por superposición para incrementar y/o hacer disminuir el tamaño del residuo 30. Véanse las FIGURAS 7B hasta 7F. En la superposición y síntesis adicional, la señal modificada se obtiene escindiendo segmentos 110 de la señal de entrada 10, reubicándolos a lo largo del eje del tiempo y efectuando una adición superpuesta ponderada para construir la señal sintetizada 150. En una modalidad, el segmento 110 puede ser igual a un periodo de separación 100. El método de adición superpuesta reemplaza dos segmentos de frecuencia vocal diferente 110 con un segmento de frecuencia vocal 110 "fusionando" los segmentos 110 de frecuencia vocal. La fusión de la frecuencia vocal se efectúa de tal manera que se preserve tanta calidad de la frecuencia vocal como sea posible. La preservación de la calidad de la frecuencia vocal y la minimización de la introducción de artefactos en la frecuencia vocal se logran seleccionando cuidadosamente los segmentos 110 a fusionar. (Los artefactos son elementos indeseables como chasquidos, crujidos, etc.). La selección de los segmentos de frecuencia vocal 110 se basa en la "similitud" del segmento. A más cercana la "similitud" de los segmentos de frecuencia vocal 110, mejor la calidad de la frecuencia vocal resultante y menor la probabilidad de introducir un artefacto de frecuencia vocal cuando dos segmentos 110 de frecuencia vocal se superpongan para reducir/incrementar el tamaño de la frecuencia vocal residual 30. Una regla útil para determinar si los periodos de separación deberán adicionarse por superposición es si los retrasos de separación de los dos son similares (como un ejemplo, si los retrasos de separación difieren en menos de 15 muestras, lo cual corresponde a aproximadamente 1.8 mseg). La FIGURA 7C muestra como es usada la adición superpuesta para comprimir el residuo 30. El primer paso del método de superposición/adición es segmentar la secuencia de la muestra de entrada s[n] 10 en sus periodos de separación como se explicó anteriormente. En la FIGURA 7A, se muestra la señal de frecuencia vocal original 10 que incluye cuatro periodos de separación 100 (PP) . El siguiente paso incluye remover los periodos de separación 100 de la señal 10 mostrada en la FIGURA 7A y reemplazar esos periodos de separación 100 con un periodo de separación fusionado 100. Por ejemplo en la FIGURA 7C, los periodos de separación PP2 y PP3 son removidos y entonces reemplazados con un periodo de separación 100 en el cual PP2 y PP3 se adicionan por superposición. De manera más específica, en la FIGURA 7C, los periodos de separación 100 PP2 y PP3 son adicionados por superposición de modo que la contribución del segundo periodo de separación 100 (PP2) disminuya y que PP3 se incremente. El método de superposición por suma produce un segmento de frecuencia vocal 110 a partir de dos segmentos de frecuencia vocal diferente 110. En una modalidad, la superposición por adición se efectúa usando muestras ponderadas. Esto se ilustra en las ecuaciones a) y b) como se muestra en la FIGURA 8. La ponderación es usada para proporcionar una transición uniforme entre la primera muestra de PCM (Modulación Codificada por Impulso) del Segmento 1 (110) y la última muestra PCM del Segmento 2 (110) . La FIGURA 7D es otra ilustración gráfica de PP2 y PP3 adicionados por superposición. Este desvanecimiento cruzado mejora la calidad percibida de una señal 10 comprimida en el tiempo por este método cuando se compara con la simple remoción de un segmento 110 y el empalme de segmentos adyacentes restantes 110 (como se muestra en la FIGURA 7E) . En casos cuando el periodo de separación 100 está cambiando, el método de adición por superposición puede fusionar dos periodos de separación 110 de longitud desigual. En este caso, puede lograrse una mejor fusión alineando los picos de los dos periodos de separación 100 antes de ser adicionados por superposición. El residuo expandido/comprimido es entonces enviado a través de la síntesis LPC.

Expansión de la Frecuencia Vocal Un método simple para expandir la frecuencia vocal es efectuar múltiples repeticiones de las mismas muestras de PCM. Sin embargo, repetir las mismas muestras de PCM más de una vez puede crear áreas con separaciones planas lo cual es un artefacto fácilmente detectado por los humanos (por ejemplo, la frecuencia vocal humana puede sonar un poco "robótica") . Para preservar la calidad de la frecuencia vocal, puede ser usado un método de superposición por adición. La FIGURA 7B muestra como esta señal de frecuencia vocal 10 puede ser expandida usando el método de adición por superposición de la presente invención. En la FIGURA 7B, un periodo de separación adicional 100 creado a partir de los periodos de separación 100 PPl y PP2 es agregado. En el periodo de separación adicional 100, los periodos de separación 100 PP2 y PPl son adicionados por superposición de modo que la contribución 100 del segundo periodo de separación (PP2) disminuya y que la de PPl se incremente. La FIGURA 7F es otra ilustración gráfica de PP2 y PP3 siendo adicionados por superposición.

Desviación del Tiempo de la Señal Residual cuando el segmento de frecuencia vocal es NELP: Para segmentos de frecuencia vocal NELP, el codificador codifica la información de LPC así como las ganancias de las diferentes partes del segmento de frecuencia vQocal 110. No es necesario codificar ninguna otra información puesto que la frecuencia vocal es de naturaleza muy similar al ruido. En una modalidad, las ganancias son codificadas en conjuntos de 16 muestras de PCM. De este modo, por ejemplo, una trama de 160 muestras puede ser representada por 10 valores de ganancia codificados, uno por cada 16 muestras de frecuencia vocal. El descodificador 206 genera la señal residual 30 generando valores aleatorios y aplicando entonces las ganancias respectivas sobre ellas. En este caso, puede no existir un concepto de periodo de separación 100, y por lo tanto, la expansión/compresión no tiene que ser de granularidad de un periodo de separación 100. Para expandir o comprimir un segmento de NELP, el decodificador 206 genera un número más grande o más pequeño de segmentos (110) de 160, dependiendo de si el segmento 110 está siendo expandido o comprimido. Las 10 ganancias descodificadas son entonces aplicadas a las muestras para generar un residuo expandido o comprimido 30. Puesto que esas 10 ganancias descodificadas corresponden a las 160 muestras originales, esas no son aplicadas directamente a las muestras expandidas/ comprimidas. Pueden ser usados varios métodos para aplicar esas ganancias. Algunos de esos métodos son descritos más adelante. Si el número de muestras a ser generadas es menor de 160, entonces no necesitan ser aplicadas las 10 ganancias en su totalidad. Por ejemplo, si el número de muestras es de 144, pueden ser aplicadas las primeras 9 ganancias. En este caso, la primera ganancia es aplicada a las primeras 16 muestras, las muestras 1-16, la segunda ganancia es aplicada a las siguientes 16 muestras, las muestras 17-32, etc. De manera similar, si las muestras son más de 160, entonces la lOma ganancia puede ser aplicada más de una vez. Por ejemplo, si el número de muestras es de 192, la lOma ganancia puede ser aplicada a las muestras 145-160, 161-176, y 177-192. De manera alternativa, las muestras pueden ser divididas en 10 conjuntos de números iguales, teniendo cada conjunto un número igual de muestras, y las 10 ganancias pueden ser aplicadas a los 10 conjuntos. Por ejemplo, si el número de muestras es de 140, las 10 ganancias pueden ser aplicadas a conjuntos de 14 muestras cada uno. En este caso, la primer ganancia es aplicada a las primeras 14 muestras, las muestras 1-14, la segunda ganancia es aplicada a las siguientes 14 muestras, las muestras 15-28, etc. Si el número de muestras no es perfectamente divisible por 10, entonces la lOma ganancia puede ser aplicada a las muestras restantes obtenidas después de dividir por 10. Por ejemplo, si el número de muestras es 145, las 10 ganancias pueden ser aplicadas a conjuntos de 14 muestras cada uno. Adicionalmente, la lOma ganancia es aplicada a las muestras 141-145. Después de la desviación en el tiempo, el residuo expandido/comprimido 30 es enviado a través de la síntesis de LPC cuando se use cualquiera de los métodos de codificación expuestos anteriormente. Aquellos expertos en la técnica comprenderán que la información y las señales pueden ser representadas usando cualquiera de una variedad de diferentes tecnologías y técnicas. Por ejemplo, los datos, instrucciones, órdenes, información, señales, bits, símbolos y segmentos que puedan ser referidos a través de la descripción anterior, pueden ser representados por voltajes, corrientes, ondas electromagnéticas, campos o partículas magnéticas, campos o partículas ópticas, o cualquier combinación de las mismas. Aquellos expertos en la técnica apreciarán que los diferentes bloques, módulos, circuitos y pasos de algoritmo lógicos ilustrados descritos en relación con las modalidades descritas aquí pueden ser implementados como componentes electrónicos, programas y sistemas de programación o software de computadora, o combinaciones de ambos. Para ilustrar claramente esta intercambiabilidad de los componentes físicos de computación o hardware y programas y sistemas de programación o software, los diferentes componentes, bloques, módulos, circuitos y pasos ilustrativos han sido descritos anteriormente de manera general en términos de su funcionalidad. Si esa funcionalidad es implementada como componentes físicos de computación o hardware o programas y sistemas de programación o software depende de la aplicación particular y las restricciones de diseño impuestas sobre el sistema en su totalidad. Los expertos pueden implementar la funcionalidad descrita de varias maneras para cada aplicación particular, pero esas decisiones de implementación no deberán ser interpretadas como si se apartaran del alcance de la presente invención. Los diferentes bloques lógicos, módulos y circuitos ilustrativos descritos en relación con las modalidades descritas aquí pueden ser implementados o efectuados con un procesador para propósitos generales, un Procesador de Señales Digitales (DSP) , un Circuito Integrado Específico de la Aplicación (ASIC) , un Arreglo de Compuertas Programable en el Campo (FPGA) u otro dispositivo lógico, compuerta o entrada discreta o lógica de transistores, componentes físicos de computación o hardware discretos programables, o cualquier combinación de los mismos diseñada para efectuar las funciones descritas aquí. Un procesador para propósitos generales puede ser un microprocesador pero de manera alternativa, el procesador puede ser cualquier procesador, controlador, microcontrolador o máquina de estado convencional. Un procesador también puede ser implementado como una combinación de dispositivos de cómputo, por ejemplo, una combinación de un DSP y un microprocesador, una pluralidad de microprocesadores, uno o más microprocesadores en conjunto con núcleos de DSP, o cualquier otra configuración. Los pasos de un método o algoritmo descritos aquí en relación con las modalidades descritas aquí pueden ser incorporados directamente en componentes físicos de computación o hardware, en un módulo de programas y sistemas de programación o software ejecutado por un procesador, o en una combinación de los dos. Un módulo de programas y sistemas de programación o software puede residir en una Memoria de Acceso Aleatorio (RAM) , memoria instantánea, Memoria de Solo Lectura (ROM) , ROM Programable Eléctricamente (EPROM) , ROM Programable y Borrable Eléctricamente (EEPROM) , registros, disco duro, disco removible, un CD-ROM, o cualquier otra forma de medio de almacenamiento conocida en la técnica. Un medio de almacenamiento ilustrativo se acopla al procesador, de modo que el procesador pueda leer información de, y escribir información a, el medio de almacenamiento. De manera alternativa, el medio de almacenamiento puede estar integrado al procesador. El procesador y el medio de almacenamiento pueden residir en un ASIC. El ASIC puede residir en una terminal de usuario. De manera alternativa, el procesador y el medio de almacenamiento pueden residir como componentes discretos en una terminal de usuario. La descripción anterior de las modalidades descritas se proporcionó para permitir a cualquier experto en la técnica hacer o usar la presente invención. Varias modificaciones a esas modalidades serán fácilmente evidentes a aquellos expertos en la técnica, y los principios genéricos definidos aquí pueden ser aplicados a otras modalidades sin apartarse del espíritu o alcance de la invención. De este modo, la presente invención no pretende ser limitada a las modalidades mostradas aquí, sino de acuerdo al más amplio alcance consistente con los principios y características novedosas descritas aquí.

Claims

NOVEDAD DE LA INVENCIÓN Habiéndose descrito la invención como antecede, se reclama como propiedad lo contenido en las siguientes:
REIVINDICACIONES 1. Un método para comunicar frecuencia vocal, caracterizado porque comprende: desviar en el tiempo una señal de frecuencia vocal residual a una versión expandida o comprimida de la señal de frecuencia vocal residual; y sintetizar la señal de frecuencia vocal residual desviada en el tiempo. 2. El método de comunicación de frecuencia vocal de conformidad con la reivindicación 1, caracterizado porque comprende además los pasos de: clasificar segmentos de frecuencia vocal; y codificar segmentos de frecuencia vocal.
3. El método de comunicación de frecuencia vocal de conformidad con la reivindicación 2, caracterizado porque el paso de codificar segmentos de frecuencia vocal comprende usar el periodo de separación prototipo, predicción lineal excitada por código, predicción lineal excitada por ruido o codificación de 1/8 de trama.
4. El método de comunicación de frecuencia vocal de conformidad con la reivindicación 2, caracterizado porque comprende los pasos de: enviar la señal de frecuencia vocal a través de un filtro de codificación predictiva lineal, por lo que la correlación a corto plazo en la señal de frecuencia vocal es filtrada; y producir coeficientes de codificación predictiva lineal y una señal residual.
5. El método de comunicación de frecuencia vocal de conformidad con la reivindicación 2, caracterizado porque el paso de clasificar los segmentos de frecuencia vocal comprende categorizar tramas de frecuencia vocal como periódicas, ligeramente periódicas o ruidosas, dependiendo si las tramas representan frecuencia vocal hablada, no hablada o transitoria.
6. El método de comunicación de frecuencia vocal de conformidad con la reivindicación 2, caracterizado porque la codificación es codificación de predicción lineal excitada por código.
7. El método de comunicación de frecuencia vocal de conformidad con la reivindicación 2, caracterizado porque la codificación es la codificación de periodo de separación prototipo.
8. El método de comunicación de frecuencia vocal de conformidad con la reivindicación 2, caracterizado porque la codificación es la codificación de predicción lineal excitada por ruido.
9. El método de conformidad con la reivindicación 6, caracterizado porque el paso de desviación en el tiempo comprende: estimar un periodo de separación; y sumar o sustraer al menos uno del periodo de separación después de recibir la señal residual.
10. El > método de conformidad con la reivindicación 6, caracterizado porque el paso de desviación en el tiempo comprende: estimar el retraso de separación; dividir una trama de frecuencia vocal en periodos de separación, donde los límites de los periodos de separación son determinados usando el retraso de separación en varios puntos en la trama de frecuencia vocal; superponer los periodos de separación si la señal de frecuencia vocal residual disminuyó; y sumar los periodos de separación si la señal de frecuencia residual se incrementó.
11. El método de conformidad con la reivindicación 7, caracterizado porque el paso de desviación en el tiempo comprende los pasos de: estimar al menos un periodo de separación; interpolar al menos un periodo de separación; sumar al menos un periodo de separación cuando se expanda la señal de frecuencia vocal residual; y sustraer al menos un periodo de separación cuando se comprima la señal de frecuencia vocal residual.
12. El método de conformidad con la reivindicación 8, caracterizado porque el paso de codificación comprende codificar la información de codificación predictiva lineal como ganancias de diferentes partes de un segmento de frecuencia vocal.
13. El método de conformidad con la reivindicación 10, caracterizado porque el paso de superponer los periodos de separación si la señal residual de frecuencia vocal disminuyó comprenden: segmentar una secuencia de muestra de entrada en bloques de muestras; remover segmentos de la señal residual en intervalos de tiempo regulares; fusionar los segmentos removidos; y reemplazar los segmentos removidos con un segmento fusionado.
14. El método de conformidad con la reivindicación 10, caracterizado porque el paso de estimación del retraso de separación comprende interpolar entre un retraso de separación de un extremo de un último trama y un extremo de una trama actual.
15. El método de conformidad con la reivindicación 10, caracterizado porque el paso de sumar los periodos de separación comprende fusionar segmentos de frecuencia vocal.
16. El método de conformidad con la reivindicación 10, caracterizado porque el paso de sumar los periodos de separación si la señal de frecuencia vocal residual se incrementó comprende sumar un periodo de separación adicional creado a partir de un primer segmento de separación y un segundo segmento de periodo de separación.
17. El método de conformidad con la reivindicación 12, caracterizado porque las ganancias son codificadas por conjuntos de muestras de frecuencia vocal .
18. El método de conformidad con la reivindicación 13, caracterizado porque el paso de fusión de los segmentos removidos comprende incrementar la contribución de un primer segmento de periodo de separación y hacer disminuir la contribución de un segundo segmento de periodo de separación.
19. El método de conformidad con la reivindicación 15, caracterizado porque comprende además el paso de seleccionar segmentos de frecuencia vocal similares, donde los segmentos de frecuencia vocal similares son fusionados.
20. El método de conformidad con la reivindicación 15, caracterizado porque comprende además el paso de correlacionar segmentos de frecuencia vocal, por lo que son seleccionados segmentos de frecuencia vocal similares.
21. El método de conformidad con la reivindicación 16, caracterizado porque el paso de sumar un periodo de separación adicional creado a partir de un primer segmento de separación y un segundo segmento de periodo de separación comprende agregar el primer y segundo segmentos de separación de modo que la contribución del segmento del primer periodo de separación se incremente y la contribución del segmento del segundo periodo de separación disminuya.
22. El método de conformidad con la reivindicación 17, caracterizado porque comprende además el paso de generar una señal residual generando valores aleatorios y aplicar entonces ganancias a los valores aleatorios .
23. El método de conformidad con la reivindicación 17, caracterizado porque comprende además el paso de representar la información de codificación predictiva lineal como 10 valores de ganancia codificados, donde cada valor de ganancia codificado representa 16 muestras de frecuencia vocal.
24. Un vocoder que tiene al menos una entrada y al menos una salida, caracterizado porque comprende: un codificador que comprende un filtro que tiene al menos una entrada conectada operativamente a la entrada del vocoder y al menos una salida; y un descodificador que comprende un sintetizador que tiene al menos una entrada conectada operativamente a al menos una salida del codificador y al menos una salida conectada operativamente a al menos una salida del vocoder.
25. El vocoder de conformidad con la reivindicación 24, caracterizado porque el descodificador comprende: una memoria, donde el descodificador está adaptado para ejecutar instrucciones de programas y sistemas de programación o software almacenadas en la memoria que comprende la desviación en el tiempo de una señal de frecuencia vocal residual a una versión expandida o comprimida de la señal residual.
26. El vocoder de conformidad con la reivindicación 24, caracterizado porque el codificador comprende : una memoria y el codificador está adaptado para ejecutar instrucciones de programas y sistemas de programación o software almacenadas en la memoria que comprende clasificar segmentos de frecuencia vocal como l/8vo de trama, periodo de separación prototipo, predicción lineal excitada por el código o predicción lineal excitada por ruido.
27. El vocoder de conformidad con la reivindicación 26, caracterizado porque el descodificador comprende: una memoria y el descodificador está adaptado para ejecutar instrucciones de programas y sistemas de programación o software almacenadas en la memoria que comprende la desviación en el tiempo de una señal residual a una versión expandida o comprimida de la señal de frecuencia vocal residual.
28. El vocoder de conformidad con la reivindicación 27, caracterizado porque el filtro es un filtro de codificación predictiva lineal el cual está adaptado para: filtrar correlaciones a corto plazo en una señal de frecuencia vocal; y producir coeficientes de codificación predictiva lineal y una señal residual.
29. El vocoder de conformidad con la reivindicación 27, caracterizado porque el codificador comprende : una memoria y el codificador está adaptado para ejecutar instrucciones de programas y sistemas de programación o software almacenadas en la memoria que comprende codificar los segmentos de frecuencia vocal usando la codificación de predicción lineal excitada por código.
30. El vocoder de conformidad con la reivindicación 27, caracterizado porque el codificador comprende : una memoria y el codificador está adaptado para ejecutar instrucciones de programas y sistemas de programación o software almacenadas en la memoria que comprende codificar los segmentos de frecuencia vocal usando la codificación de periodo de separación prototipo.
31. El vocoder de conformidad con la reivindicación 27, caracterizado porque el codificador comprende : una memoria y el codificador está adaptado para ejecutar instrucciones de programas y sistemas de programación o software almacenadas en la memoria que comprende codificar los segmentos de frecuencia vocal usando codificación de predicción lineal excitada por ruido .
32. El vocoder de conformidad con la reivindicación 29, caracterizado porque la instrucción de programas y sistemas de programación o software de desviación de tiempo comprende estimar al menos un periodo de separación; y sumar o sustraer al menos un periodo de separación después de recibir la señal residual.
33. El vocoder de conformidad con la reivindicación 29, caracterizado porque las instrucciones de programas y sistemas de programación o software de desviación de tiempo comprenden estimar el retraso de separación; dividir una trama de frecuencia vocal en periodos de separación, donde los límites de los periodos de separación son determinados usando el retraso de separación en varios puntos en la trama de frecuencia vocal; superponer los periodos de separación si la señal de frecuencia vocal residual disminuyó; y sumar los periodos de separación si la señal de frecuencia vocal residual se incrementó.
34. El vocoder de conformidad con la reivindicación 30, caracterizado porque la instrucción de programas y sistemas de programación o software de desviación de tiempo comprende estimar al menos un periodo de separación; interpolar al menos un periodo de separación; sumar al menos un periodo de separación cuando se expanda la señal de frecuencia vocal residual; y sustraer al menos un periodo de separación cuando se comprima la señal de frecuencia vocal residual.
35. El vocoder de conformidad con la reivindicación 31, caracterizado porque la codificación de los segmentos de frecuencia vocal usando la instrucción de los programas y sistemas de programación o software de codificación de predicción lineal excitada por ruido comprende codificar la información de codificación predictiva lineal como ganancia de diferentes partes de un segmento de frecuencia vocal.
36. El vocoder de conformidad con la reivindicación 33, caracterizado porque la superposición de los periodos de separación si la señal residual de frecuencia vocal disminuyó la instrucción comprende segmentar una secuencia de muestras de entrada en bloques de muestras; remover segmentos de la señal residual a intervalos de tiempo regulares; fusionar los segmentos removidos; y reemplazar los segmentos removidos con un segmento fusionado.
37. El vocoder de conformidad con la reivindicación 33, caracterizado porque la estimación de la instrucción de retraso de separación comprende interpolar entre un retraso de separación de un extremo de un último cuadro y un extremo de un cuadro actual.
38. El vocoder de conformidad con la reivindicación 33, caracterizado porque la adición de la instrucción de periodos de separación comprende fusionar segmentos de frecuencia vocal.
39. El vocoder de conformidad con la reivindicación 33, caracterizado porque la adición de los periodos de separación si la señal residual de frecuencia vocal se incrementó la instrucción comprende sumar un periodo de separación adicional creado a partir de un primer segmento de separación y un segundo segmento de periodo de separación.
40. El vocoder de conformidad con la reivindicación 35, caracterizado porque las ganancias son codificadas por conjuntos de muestras de frecuencia vocal.
41. El vocoder de conformidad con la reivindicación 36, caracterizado porque la fusión de la instrucción de segmentos removidos comprende incrementar la contribución del segmento de un primer periodo de separación y hacer disminuir la contribución del segmento de un segundo periodo de separación.
42. El vocoder de conformidad con la reivindicación 38, caracterizado porque comprende además de paso de seleccionar segmentos de frecuencia vocal similares, donde los segmentos de frecuencia vocal similares son fusionados.
43. El vocoder de conformidad con la reivindicación 38, caracterizado porque la instrucción de desviación del tiempo comprende además correlacionar segmentos de frecuencia vocal, por lo que son seleccionados segmentos de frecuencia vocal similares.
44. El vocoder de conformidad con la reivindicación 39, caracterizado porque la adición de un periodo de separación adicional creado a partir de un primer segmento de separación y la instrucción de un segundo segmento de periodo de separación comprende sumar el primer y segundo periodos de separación de modo que la contribución del segmento del primer periodo de separación se incremente en la contribución del segmento del segundo periodo de separación disminuye.
45. El vocoder de conformidad con la reivindicación 40, caracterizado porque la instrucción de desviación en el tiempo comprende además generar una señal de frecuencia vocal residual generando valores aleatorios y aplicando entonces las ganancias a los valores aleatorios.
46. El vocoder de conformidad con la reivindicación 40, caracterizado porque la instrucción de desviación en el tiempo comprende además representar la información de codificación predictiva lineal como 10 valores de ganancia codificados, donde cada valor de ganancia codificado representa 16 muestras de frecuencia vocal.