MXPA04009077A

MXPA04009077A - Metodo para el reconocimiento de voz fuerte analizando caracteristicas redundantes de la senal de origen.

Info

Publication number: MXPA04009077A
Application number: MXPA04009077A
Authority: MX
Inventors: Malayath Narendranath
Original assignee: Qualcomm Inc
Priority date: 2002-03-20
Filing date: 2003-03-19
Publication date: 2004-12-13
Also published as: TWI300214B; CN1653519A; WO2003081576A1; US20030182115A1; TW200306526A; AU2003225928A1; US6957183B2; CN1653519B

Abstract

Un metodo para procesar senales vocales digitalizadas analizando caracteristicas redundantes para proporcionar mas reconocimiento de voz fuerte. Se aplica una transformacion primaria a una senal vocal de origen para extraer caracteristicas primarias de la misma. Cada una de al menos una transformacion secundaria se aplica a la senal vocal de origen o a las caracteristicas primarias extraidas para producir al menos un conjunto de caracteristicas secundarias estaticamente dependientes de las caracteristicas primarias. Al menos una funcion predeterminada se aplica entonces para combinar las caracteristicas primarias con las caracteristicas secundarias. Se genera una respuesta de reconocimiento comparando el patron de esta combinacion contra las plantillas de reconocimiento de voz predeterminadas.

Description

MÉTODO PARA EL RECONOCIMIENTO DE VOZ FUERTE ANALIZANDO CARACTERÍSTICAS REDUNDANTES DE LA SEÑAL DE ORIGEN. 1. Campo de la Invención La presente invención se refiere a técnicas y circuitos de reconocimiento de voz y más particularmente a un sistema para el reconocimiento de voz fuerte más preciso y tolerante al ruido al analizar características redundantes de una señal de origen. 2. Antecedentes de la Invención Varias técnicas de procesamiento de señales se han desarrollado para analizar señales vocales digitalizadas para poder reconocer el contenido subyacente de tal palabra. Una vez reconocido, este contenido entonces puede utilizarse para controlar un teléfono portátil, computadora, electrodoméstico u otro dispositivo. Algunas técnicas conocidas emplean espectros o "espectrograma" de Fourier de corto tiempo de una señal vocal, los cuales se calculan utilizando transformadas de Fourier en ventanas como se explica más completamente en Rabiner et al . , Fundamentos de Reconocimiento de la Palabra, la totalidad de la cual se incorpora en la presente para referencia. La FIGURA 1 muestra un extractor 100 conocido de características espectrales para el análisis espectral, el cual incluye etapas de división en ventanas 102, FFT 104, filtración 106 de EL/BARK, Log 108, y filtración 110 de RASTA. La señal 101 vocal de entrada digitalizada se alimenta en la etapa 102 de división en ventanas, la cual divide la señal de entrada en segmentos de tamaño más pequeño de duración apropiada tal como 20 milisegundos . La etapa 104 de FFT realiza una Transformada de Fourier Rápida para los segmentos en ventanas salen por la etapa 102. La etapa 106 de MEL/BARK realiza la distorsión de la escala de frecuencia lineal a una escala diferente, de manera que la resolución para frecuencias más bajas es mayor que para frecuencias más altas. La resolución en la escala de frecuencia se vuelve progresivamente más gruesa de las frecuencias bajas a las frecuencias altas en el margen de escucha. La escala de NIEL y la escala de BARK son dos transformaciones conocidas que resultan en la distorsión de frecuencia anterior. Estas dos (y algunas variaciones) se utilizan comúnmente en el reconocimiento de la palabra. La etapa 108 de Log toma el logaritmo del número de entrada, y más particularmente, el log de cada valor espectral transformado de MEL/BARK que se ha calculado. Las etapas 102-108 anteriores se describen en varias publicaciones conocidas, con un ejemplo siendo el texto citado anteriormente de Rabiner et al . , Fundamentos de Reconocimiento de la Palabra . La etapa 110 de RASTA sirve para filtrar la salida de la etapa 108 de Log mediante un filtro de pasa-banda predefinido. Por ejemplo, si existen 16 números de BARK, existirán 16 filtros que operan en cada una de las bandas de bark. La etapa 110 de RASTA puede implementarse por cualquier técnica de procesamiento de RASTA conocida, con un ejemplo siendo descrito en la Patente Norteamericana No. 5,450,522 titulada "Modelo de Auditorio para la Parametrización de la Palabra" para Hermansky et al., de la cual toda se incorpora en la presente . La salida del extractor 100 de características espectrales comprende señales 111 de salida espectrales que se procesan después de esto mediante varias técnicas subsecuentes (no mostradas) para proporcionar una "respuesta de reconocimiento" que proporciona el contenido pronosticado de la señal vocal de entrada. Las respuestas de reconocimiento basadas en las señales 111 de salida espectrales proporcionan precisión razonable en ambientes de bajo ruido. Venta osamente, la degradación de su precisión se presenta lentamente con la disminución de las relaciones de señal a ruido. Las señales de salida espectrales pueden procesarse además en varias formas.

Por ejemplo, un procedimiento además procesa las señales 111 de salida espectrales mediante una transformación 112 de cepstral para proporcionar señales 114 de salida cepstrales. Un tipo de transformación 112 cepstral, por ejemplo, utiliza una transformada de coseno discreto (DCT) seguida por una reducción de dimensional idad . Ampliamente, "cepstrum" se explica como la transformada de Fourier inversa del logaritmo del espectro de potencia de una señal, como se discute además en las siguientes referencias, incorporadas en la presente para referencia en su totalidad. A.V. Oppenheim y R. W. Schafer, Procesamiento de Señales de Tiempo Discreto, J. R. Deller,. Jr . , J. G. Proakis y J. H. L. Hansen, Procesamiento de Tiempo Discreto de Señales Vocales, y L . R. Rabiner y R. W. Schafer, Procesamiento Digital de Señales Vocales. En sistemas donde el cepstrum 114 se calcula, el cepstrum (en lugar del espectro 111) se procesa por técnicas de modelaje estadísticas para proporcionar una respuesta de reconocimiento. Un beneficio de basar las respuestas de reconocimiento en señales 114 de salidas cepstrales es que proporcionan reconocimiento de voz más preciso en bajos niveles de ruido. Sin embargo, conforme incrementa el ruido, la proporción de error incrementa rápidamente para estos sistemas. Por lo tanto, ni los sistemas de reconocimiento de voz espectrales ni los cepstrales son completamente adecuados para aplicaciones que pueden encontrar potencialmente un amplio margen de niveles de ruido.

SUMARIO DE LA INVENCIÓN Ampliamente, la presente invención tiene que ver con un método para procesar señales vocales digitalizadas para reconocimiento de voz. A diferencia de los procedimientos convencionales, los cuales buscan la calidad de compacto y la simplicidad de operación al remover características redundantes de la palabra de entrada antes del reconocimiento, la presente invención retiene determinadamente y analiza las características redundantes de una señal de origen para poder realizar el reconocimiento de voz precisamente en una variedad de ambientes acústicos. Una transformación primaria se aplica a una señal vocal de origen digitalizada para extraer las características primarias de la misma. Un ejemplo es una transformación espectral aplicada para extraer características espectrales. Cada una de por lo menos una transformación secundaria se aplica a la señal vocal de origen o características espectrales extraídas para proporcionar por lo menos un conjunto de características secundarias. Cada transformación secundaria se diseña para proporcionar datos que contienen cierta información que ya está presente en las características primarias extraídas. Por lo menos una función predeterminada entonces se utiliza para combinar las características primarias con las características secundarias. Una respuesta de reconocimiento se genera al comparar patrones de esta combinación con un conjunto predeterminado de plantillas de reconocimiento de voz. La invención ofrece a sus usuarios con un número de distintas ventajas. Principalmente, la invención proporciona reconocimiento de voz preciso con niveles incrementados de ruidos sin sacrificar el rendimiento de los ambientes de bajo ruido. Esto difiere de los sistemas de reconocimiento de voz cepstrales convencionales donde el rendimiento cae rápidamente con el incremento de ruido, y también difiere de los sistemas de reconocimiento de voz espectrales convencionales, donde el rendimiento se degrada más lentamente con el incremento de ruido con el intercambio de cierto rendimiento en ambientes de bajo ruido. La invención también proporciona el número de otras ventajas y beneficios que deben ser aparentes a partir de la siguiente descripción de la invención.

BREVE DESCRIPCIÓN DE LOS DIBUJOS La FIGURA 1 es un diagrama de bloque de los componentes de hardware y las interconexiones de sistemas de procesamiento espectrales y ceptrales conocidos. La FIGURA 2 es un diagrama de bloque de los componentes de hardware y las interconexiones de una modalidad del sistema de reconocimiento de voz. La FIGURA 3 es un diagrama de bloque de una máquina de procesamiento de datos digital . La FIGURA 4 muestra un medio de soporte de señal ejemplar. La FIGURA 5 muestra un teléfono inalámbrico ej emplar . La FIGURA 6 es un diagrama de flujo de una secuencia operacional para el reconocimiento de voz utilizando características redundantes de la palabra.

DESCRIPCIÓN DETALLADA DE LA INVENCIÓN La naturaleza, objetivos y ventajas de la invención se volverán más aparentes para aquellos con experiencia en la técnica después de considerar la siguiente descripción detallada junto con los dibujos anexos . COMPONENTES DE HARDWARE E INTERCONEXIONES Estructura General Un aspecto de la invención tiene que ver con un sistema de reconocimiento de voz, el cual puede representarse por varios componentes de hardware e interconexiones, con un ejemplo siendo descrito por el sistema 200 de reconocimiento de voz como se muestra en la FIGURA 2. El sistema 200 sirve para procesar una señal 201 vocal de entrada, la cual comprende una señal vocal digitalizada . Opcionalmente , el sistema 200 puede incluir un convertidor de digital a análogo (DAC) para digitalizar las señales vocales de entrada análogas. La señal 201 vocal de entrada se alimenta a un extractor 202 de características espectrales el cual comprende circuitería para extraer características espectrales de la señal 201 vocal de entrada. Como un ejemplo, el extractor 202 puede representarse por componentes similares al extractor 100 de características espectrales mostrado en la FIGURA 1. La salida 202a del extractor 202 comprende una o más señales de salida espectrales, tal como un vector de características espectral. La salida 202a se dirige a un módulo 204 de transformación secundaria. El módulo 204 de transformación secundaria aplica una función predeterminada para poder proporcionar una salida 204a secundaria. En el ejemplo ilustrado, el módulo 204 aplica una transformación cepstral en cuyo caso la salida 204a secundaria comprende un conjunto de vectores cepstrales. Las señales 204a de característica secundaria del módulo 204 se dirigen a un módulo 206 de combinación de características. Como una alternativa a la modalidad anterior, donde el módulo 204 de transformación secundaria recibe la salida 202a del extractor 202, el módulo 204 puede recibir de hecho la señal 201 vocal de entrada original. En aún otra modalidad, pueden existir múltiples módulos 204 de transformación secundaria, cada uno aplicando una función diferente a la señal 201 vocal de entrada o la salida 202a espectral. En cualquier caso, la descripción anterior de las características espectrales y cepstrales es solamente ejemplar, y el alcance de la presente descripción contempla no obstante una variedad de diferentes transformaciones primarias y secundarias (no necesariamente espectro y cepstrum) . Como un ejemplo, el extractor 202 de características espectrales y sus características 202a espectrales pueden representarse por cualquier extractor 202 de características primarias apropiadas realizando una primera transformación o de orden más alto para crear una representación de frecuencia de tiempo de la señal vocal de entrada. Algunos ejemplos incluyen una transformación espectral, transformación de onda diminuta, espectro de modulación, acumulantes, etc. Cada transformación secundaria puede implementarse mediante una transformada de coseno discreto (que produce cepstrum) , transformada de componente principal u otra proyección de las características primarias en otro espacio conocido o definido por el usuario. Las características secundarias pueden producirse matemática y empíricamente o mediante otro medio. En cualquier caso, cada conjunto de características secundarias es "estadísticamente dependiente" de las características primarias, significando que las características secundarias se refieren a las características primarias mediante la función matemática. En otras palabras, es posible derivar las características secundarias al aplicar una función matemática a las características primarias. Las características secundarias, por ejemplo, pueden relacionarse de las características primarias por correlación (incluyendo pero no limitándose a adición, sustracción, multiplicación por coeficientes y suma, u otra combinación) , procesamiento no lineal u otra técnica. Las características primarias pueden o no pueden ser matemáticamente reproducibles a partir de las características secundarias. Como un ejemplo, entonces las características cepstrales del módulo 204 son estadísticamente dependientes de las características espectrales del extractor 202, y de hecho, los vectores cepstrales ilustrados se derivan por la transformación matemática de los vectores espectrales utilizando cepstrum. Por lo tanto, las salidas 202a, 204a contienen información redundante con respecto a la señal 201 vocal de entrada . A diferencia de los sistemas de reconocimiento de voz convencionales, donde las señales de salida espectrales u otra salida primaria no se utilizan excepto para el procesamiento corriente abajo adicional (en serie) , las señales 202a de salida espectral se analizan separadamente de su uso en la transformación 204 secundaria. Particularmente, las señales 202a de salida se alimentan directamente al módulo 206 de combinación de características para el análisis. El módulo 206 combina las señales 202a de salida espectrales y las señales 204a de salida secundarias. Esta combinación puede presentarse en varias formas. Como un ejemplo, las señales 202a, 204a pueden combinarse mediante la concatenación, análisis de discriminación lineal (LDA) , transformado de componente principal (PCT) , u otra función aplicada a las salidas 202a, 204a juntas. En una modalidad diferente, el módulo 206 puede incluir subcomponentes 206a, 206b de procesamiento que modifican separadamente una o ambas de las señales 202a, 204a después de que el módulo 206 combina las señales 202a, 204a como modificadas. Si más de una transformación 204 secundaria se realiza, el módulo 206 puede incluir un número igual de componentes 206b. Cada subcomponente 206a, 206b puede realizar varias funciones tal como escalado (es decir, multiplicando) su señal de entrada mediante un coeficiente fijo o variable, cambiando el exponente de la señal de entrada, multiplicando la señal de entrada por sí misma una o más veces (automultiplicado) , u otros procesos o más lineales o no lineales. En esta modalidad, las señales modificadas entonces se combinan utilizando una de las técnicas anteriores, por ejemplo, concatenación, LDA, PCT, etc. Como se menciona en lo anterior, pueden existir múltiples módulos 204 de transformación secundario, cada uno de los cuales recibe una señal de entrada tal como la señal 201 de entrada o la salida 202a del extractor 202. En tal modalidad, el módulo 206 de combinación de características aún opera para combinar las señales de características espectrales con las señales de salida de la transformación secundaria, aunque las señales de salida de la transformación secundaria vienen de múltiples módulos 204 diferentes. El módulo 206 de combinación de características alimenta su salida a un motor 208 de modelaje estadístico, también referido como un "reconocedor" o una unidad de "comparación de patrones". El motor 208, el cual puede implementarse por un número de técnicas conocidas, produce una salida que comprende una respuesta 210 de reconocimiento. La respuesta 210 de reconocimiento constituye la estimación del sistema 200 del significado de la señal 201 vocal de entrada. El motor 208 incluye una entrada 208a de instrucción para recibir la entrada que instruye al motor 208 para reconocer cierto modelo o muestras de patrones de la palabra. Como un ejemplo particular, el motor 208 puede interferirse a la salida del módulo 206 en una tabla de consulta para obtener el significado representado de la señal 201 vocal de entrada, es decir, su "respuesta" .

Aparato de Procesamiento de Datos Digital Ejemplar Como se menciona en lo anterior, las entidades de procesamiento de datos, tales como el extractor 202, el módulo o módulos 204 de transformación secundaria, el módulo 206 de combinación de características, el motor 208 de modelaje estadístico y similares pueden implementarse en varias formas. Como un ejemplo, cada uno de estos componentes (o dos o más componentes colectivamente) pueden implementarse mediante un aparato de procesamiento de datos digital, como se ejemplifica por los componentes de hardware e interconexiones del aparato 200 de procesamiento de datos digital de la FIGURA 3. El aparato 300 incluye un procesador 302, tal como un microprocesador, computadora personal, estación de trabajo, u otra máquina de procesamiento, acoplado a un almacenaje 304. En el ejemplo actual, el almacenaje 304 incluye el almacenaje 306 de acceso rápido, así como almacenaje 308 no volátil. En un ejemplo del almacenaje 306 de acceso rápido es la memoria de acceso aleatorio ("RAM"), utilizada para almacenar las instrucciones de programación ejecutadas por el procesador 302. El almacenaje 308 no volátil puede comprender, por ejemplo, RAM de respaldo de batería, EEPROM, uno o más discos de almacenaje de datos magnéticos tales como una "unidad de disco duro", una unidad de cinta, o cualquier otro dispositivo de almacenaje adecuado. El aparato 300 también incluye una entrada/salida 310, tal como una línea, bus, cable, enlace electromagnético, u otro medio para que el procesador 302 intercambie datos con otro hardware externo al aparato 300. A pesar de la descripción anterior específica, personas con experiencia ordinaria en la técnica (teniendo el beneficio de esta descripción) reconocerán que el aparato discutido en lo anterior puede implementarse en una máquina de diferente construcción, sin apartarse del alcance de la invención. Como un ejemplo especifico, uno de los componentes 306, 308 puede eliminarse; además, el almacenaje 304, 306 y/o 308 pueden proporcionarse en la tarjeta del procesador 302, o aún proporcionarse externamente al aparato 300.

Circuitería Lógica En contraste al aparato de procesamiento de datos digital, discutido en lo anterior, una modalidad diferente de la invención utiliza circuitería lógica en lugar de instrucciones ejecutadas por computadora para implementar uno o todos los componentes del sistema 200. Dependiendo de los requerimientos particulares de la aplicación en las áreas de velocidad, gasto, costos de herramientas, y similares, esta lógica puede implementarse al construir un circuito integrado de aplicación específica ("ASIC") que tiene miles de transistores integrados diminutos. Tal ASIC puede implementarse con CMOS, TTL, VLSI, u otra construcción adecuada. Otras alternativas incluyen un chip de procesamiento de señal digital ("DSP"), circuitería discreta (tal como resistencias, condensadores, diodos, inductores, y transistores) , disposición de puerta programable de campo ("FPGA"), disposición lógica programable ( "PLA" ) , y similares.

Aplicación Telefónica Inalámbrica En una aplicación ejemplar, el sistema 200 de reconocimiento de voz puede implementarse en un teléfono 500 inalámbrico (FIGURA 5) , junto con otra circuitería conocida en la técnica o telefonía inalámbrica. El teléfono 500 incluye un altavoz 508, interfaz 510 de usuario, micrófono 514, transceptor 504, antena 506 y administrador 502. El administrador 502, el cual puede implementarse por la circuitería tal como aquella discutida en lo anterior junto con las FIGURAS 3-4, maneja la operación y el enrutamiento de señales entre los componentes 504, 508, 510 y 514. El administrador 502 incluye un módulo 502a de reconocimiento de voz, representado por el sistema 200, y que sirve para realizar una función tal como una decodificación de los comandos de la palabra de un operador humano del teléfono 500 con respecto a la marcación, manejo de llamadas, etc.

OPERACIÓN Habiendo descrito las características estructurales de la presente invención, el aspecto operacional de la presente invención ahora se describirá.

A diferencia de procedimientos convencionales que buscan la calidad de compacto y la simplicidad de la operación al remover características redundantes de la palabra de entrada antes del análisis, la presente invención analiza predeterminadamente las características redundantes de una señal de origen para poder realizar el reconocimiento de voz precisamente en una variedad de ambientes acústicos .

Medios de Soporte de Señales Donde quiera que la funcionalidad de la invención se implementa utilizando una o más secuencias de programas ejecutados por máquina, estas secuencias pueden representarse en varias formas de medios de soporte de señales. En el contexto de la FIGURA 3, tal medio de soporte de señales puede comprender, por ejemplo, el almacenaje 304, u otro medio de soporte de señales, tal como un disquete 400 de almacenaje de datos magnético (FIGURA 4) , directa o indirectamente accesible por un procesador 302. Si se contiene en el almacenaje 306, el disquete 400 o en otro sitio, las instrucciones pueden almacenarse en una variedad de medios de almacenaje de datos que se pueden leer por máquina. Algunos ejemplos incluyen almacenaje de acceso directo (por ejemplo, una "unidad de disco duro" convencional, una disposición redundante de discos económicos ("RAID"), u otro dispositivo de almacenaje de acceso directo ( "DASD" ) ) , almacenaje de acceso en serie tal como cinta magnética u óptica, memoria no volátil electrónica (por ejemplo ROM, EPROM, o EEPROM) , RAM de respaldo de batería, almacenaje óptico (por ejemplo, CD-ROM, WORM, DVD, cinta óptica digital) , tarjetas de papel "perforadas" , u otros medios de soporte de señales adecuados que incluyen medios de transmisión análogos o digitales y enlaces análogos y de comunicación y comunicaciones inalámbricas. En una modalidad ilustrativa de la invención, las instrucciones que se pueden leer por máquina pueden comprender códigos de objeto de software, compilado de un lenguaje tal como lenguaje de ensamblaje, C, etc.

Circuitería Lógica En contraste al medio de soporte de señales discutido en lo anterior parte o toda la funcionalidad de la invención puede implementarse utilizando circuitería lógica, en lugar de utilizar máquinas de procesamiento de instrucciones. Tal circuitería lógica por lo tanto se configura para realizar operaciones para llevar a cabo el método de la invención. La circuitería lógica puede implementarse utilizando muchos diferentes tipos de circuitería, como se discute en lo anterior.

Secuencia General de Operación La FIGURA 6 muestra una secuencia 600 para ilustrar un proceso de reconocimiento de voz ejemplar. Ampliamente, esta secuencia sirve para procesar señales vocales digitalizadas al analizar características redundantes para proporcionar reconocimiento de voz fuerte con más ruido. Para facilidad de explicación, pero sin ninguna limitación pretendida, el ejemplo de la FIGURA 6 se describe en el contexto del sistema 200 de reconocimiento de voz descrito en lo anterior. La secuencia se inicia en la etapa 602, donde la instrucción del sistema 200 se lleva a cabo. En la etapa 602 de instrucción, una señal 201 vocal de entrada ("palabra de instrucción") de características deseadas se alimenta al extractor 202 de características espectrales, y las etapas 604, 606, 608 (discutidas en lo siguiente) se realizan utilizando esta señal vocal de entrada. Por ejemplo, la palabra de instrucción puede comprender palabra modelo (para un sistema independiente de altavoz) o una palabra de muestra de persona particular (para un sistema dependiente del altavoz) . La salida del módulo 206 de combinación de características forma una plantilla de reconocimiento de voz, la cual se asocia con la palabra de instrucción al preparar una entrada 208a de instrucción (que significa el contenido de la palabra de instrucción) , proporcionando la entrada 208a a la máquina 208 de modelaje estadístico, e instruyendo a la máquina 208 para generar la respuesta de reconocimiento deseada en el futuro siempre que el sistema 200 encuentra palabra similar a la palabra de instrucción. Por ejemplo, si la señal 201 vocal de instrucción comprende la "lección" de palabra, entonces el texto "lección" se alimenta a la máquina 208 en asociación con la señal 201 vocal de instrucción. La discusión adicional de instrucción está disponible de muchas fuentes, ya que muchas diferentes técnicas para instruir sistemas de reconocimiento de voz se conocen bien en la técnica. Algunos esquemas de instrucción ejemplares se discuten en los siguientes materiales, cada uno incorporado en la presente para referencia en su totalidad: (1) Solicitud de Patente Norteamericana 09/248,513 titulada "Esquema de Rechazo de Reconocimiento de Voz" , presentada el 8 de febrero de 1999, (2) Solicitud de Patente Norteamericana 09/225,891 titulada "Sistema y Método para Segmentación y Reconocimiento de Señales Vocales" , presentada el 4 de enero de 1999, y (3) Solicitud de Patente Norteamericana 09/615,572 titulada "Método y Aparato para Construir Plantillas de Voz para un Sistema de Reconocimiento de Voz Independiente del Altavoz", presentada el 13 de julio del 2000. La instrucción adicional puede llevarse a cabo en momentos posteriores (no mostrado) cuando se requiera o se desee . i Después de que se concluye cierta instrucción 602, una señal 201 vocal de entrada de no instrucción se ingresa al extractor 202 de características espectrales (etapa 604) . Esta señal 201 es para lo que se desea el reconocimiento de voz. También, en la etapa 604, el extractor 202 realiza una transformación espectral con la señal 201 vocal de entrada, que extrae las características espectrales de la señal 201 vocal de entrada y proporciona las características espectrales extraídas como la salida 202a. Una técnica de extracción espectral ejemplar incluye codificación profética lineal (LPC) , la cual se describe en la Patente Norteamericana No. 5,414,796, titulada "Codificador de Velocidad Variable" es completamente incorporado en la presente para referencia, y la referencia antes citada de Rabiner et al., Procesamiento Digital de Señales Vocales. En la etapa 606, el módulo 204 de transformación secundaria aplica la transformación secundaria a la salida 202a espectral. En el ejemplo ilustrado, el módulo 204 aplica una transformación cepstral a la salida 202a. Opcionalmente , la etapa 606 también puede realizar una o más transformaciones secundarias adicionales (cepstral u otros tipos) en paralelo con la transformación 204 ilustrada. Como se menciona en lo anterior, todas las transformaciones secundarias son estadísticamente dependientes de la transformación espectral de la etapa 604, significando que existe cierta información común llevada por las salidas 202a y 204b. En la etapa 608, el módulo 206 combina la salida 202a espectral con la salida o salidas 204a secundarias del módulo 204 y cualesquier otros módulos de la transformación secundaria, si se implementa. Para facilidad de discusión, el presente ejemplo se limita al caso donde se utiliza una transformación secundaria sencilla. Como se menciona en lo anterior, la combinación de la etapa 608 puede presentarse en varias formas. Por ejemplo, el módulo 206 puede combinar las señales 202a, 204a mediante concatenación, LDA, PCT, u otra función. En una modalidad diferente, los subcomponentes 206a, 206b de procesamiento primero modifican una o más de las señales 202a, 204a separadamente, después de que el módulo 206 combina las señales modificadas. Cada subcomponente 206a, 206b puede realizar una función tal como escalado (es decir multiplicado) , de la señal de entrada mediante un coeficiente fijo o variable, cambiando el exponente de la señal de entrada, multiplicando la señal de entrada por sí misma, una o más veces, u otros procesos más no lineales o lineales. En esta modalidad, las señales como se modifican por 206a, 206b entonces se combinan por una de las técnicas anteriores, por ejemplo, concatenación, LDA, PCT, etc. En la etapa 610, el motor 208 de modelaje estadístico genera una respuesta de reconocimiento, que representa el contenido estimado de la señal 201 vocal de entrada. La etapa 610 se realiza por la comparación de patrones de la señal del módulo 206 contra el conjunto predeterminado de plantillas de reconocimiento de voz que se prepararon en la etapa 602.

OTRAS MODALIDADES Aunque la descripción anterior muestra un número de modalidades ilustrativas de la invención, será aparente para aquellos con experiencia en al técnica que varios cambios y modificaciones pueden hacerse en la presente sin apartarse del alcance de la invención como se define por las reivindicaciones anexas. Además, aunque elementos de la invención pueden describirse o reclamarse en singular, el plural se contempla a menos que se establezca explícitamente la limitación al singular. Adicionalmente, las personas con experiencia en la técnica reconocerán que secuencias de operaciones deben establecerse en algún orden específico para el propósito de explicación y reclamación, pero la presente invención contempla varios cambios más allá del orden específico.

Claims

NOVEDAD DE LA INVENCIÓN Habiendo descrito la presente invención se considera como novedad y por lo tanto se reclama como propiedad lo descrito en las siguientes reivindicaciones.
REIVINDICACIONES 1. Un método para procesar señales vocales, caracterizado porque comprende las operaciones de: aplicar una transformación primaria a una señal vocal de entrada digital para extraer características primarias de la misma; aplicar cada una de por lo menos una transformación secundaria a una de la señal vocal de entrada y las características primarias para proporcionar características secundarias estadísticamente dependientes de las características primarias; aplicar por lo menos una función predeterminada para formar una señal combinada que comprende una combinación de las características primarias con las características secundarias; generar una respuesta de reconocimiento al comparar los patrones de la señal combinada contra las plantillas de reconocimiento de voz predeterminadas. 2. El método de conformidad con la reivindicación 1, caracterizado porque la transformación primaria comprende una transformación espectral .
3. El método de conformidad con la reivindicación 1, caracterizado porque la transformación primaria comprende producción de una representación de frecuencias de tiempo de la señal vocal de entrada.
4. El método de conformidad con la reivindicación 1, caracterizado porque la transformación primaria comprende una transformación espectral y la transformación secundaria comprende una transformación cepstral .
5. El método de conformidad con la reivindicación 1, caracterizado porque la función predeterminada comprende : utilizar por lo menos uno de lo siguiente para combinar las características primarias y las características secundarias: análisis discriminativo lineal, transferencia de componente principal, concatenación.
6. El método de conformidad con la reivindicación 1, caracterizado porque la función predeterminada comprende : modificar separadamente uno o más de lo siguiente: las características primarias, las características secundarias; aplicar por lo menos una función predeterminada para formar una señal combinada que comprende una combinación de las características primarias que incluyen cualquiera de las modificaciones con las características secundarias que incluyen cualquiera de las modificaciones.
7. El método de conformidad con la reivindicación 6, caracterizado porque cada una de las operaciones que se modifican separadamente comprende por lo menos uno de lo siguiente : escalado, cambio de potencia, automultiplicado, exponenciación.
8. El método de conformidad con la reivindicación 1, caracterizado porque además comprende: formar las plantillas de reconocimiento de voz al realizar cada una de las operaciones de aplicación y generación a las señales de instrucción predeterminadas .
9. Un medio de soporte de señales que representa tangiblemente un programa de instrucciones que se pueden leer por máquina que se pueden ejecutar por un aparato de procesamiento digital para realizar operaciones para procesar señales vocales, las operaciones están caracterizadas porque comprenden: aplicar una transformación primaria a una señal vocal de entrada digital para extraer características primarias de la misma; aplicar cada una de por lo menos una transformación secundaria a una de la señal vocal de entrada y las características primarias para proporcionar características secundarias estadísticamente dependientes de las características primarias; aplicar por lo menos a una función predeterminada para formar una señal combinada que comprende una combinación de las características primarias con las características secundarias ; generar una respuesta de reconocimiento al comparar los patrones de la señal combinada contra las plantillas de reconocimiento de voz predeterminadas.
10. El medio de conformidad con la reivindicación 9, caracterizado porque la transformación primaria comprende una transformación espectral .
11. El medio de conformidad con la reivindicación 9, caracterizado porque la transformación primaria comprende la producción de una representación de frecuencia de tiempo de la señal vocal de entrada.
12. El medio de conformidad con la reivindicación 9, caracterizado porque la transformación primaria comprende una transformación espectral y la transformaci n secundaria comprende una la transformación cepstral .
13. El medio de conformidad con la reivindicación 9, caracterizado porque la función predeterminada comprende : utilizar por lo menos uno de lo siguiente para combinar las características primarias y las características secundarias: análisis discriminativo lineal, transferencia de componente principal, concatenación .
14. El medio de conformidad con la reivindicación 9, caracterizado porque la función predeterminada comprende: modificar separadamente uno o más de lo siguiente: las características primarias, las características secundarias; aplicar por lo menos una función predeterminada para formar una señal combinada que comprende una combinación de las características primarias que incluyen cualquiera de las modificaciones con las características secundarias que incluyen cualquiera de las modificaciones .
15. El medio de conformidad con la reivindicación 14, caracterizado porque cada una de las operaciones de modificación separadamente comprende por lo menos uno de lo siguiente : escalado, cambio de potencia, automultiplicación, exponenciación .
16. El medio de conformidad con la reivindicación 9, caracterizado porque además comprende: formar las plantillas de reconocimiento de voz al realizar cada una de las operaciones de aplicación y generación a las señales de instrucción predeterminadas .
17. Una circuitería de múltiples elementos eléctricamente conductivos interconectados configurados para realizar operaciones para procesar señales vocales, las operaciones están caracterizadas porque comprenden: aplicar una transformación primaria a una señal vocal de entrada digital para extraer características primarias de la misma; aplicar cada una de por lo menos una transformación secundaria a una de la señal vocal de entrada y las características primarias para proporcionar características secundarias estadísticamente dependientes de las características primarias; aplicar por lo menos una función predeterminada para formar una señal combinada que comprende una combinación de las características primarias con las características secundarias; generar una respuesta de reconocimiento al comparar los patrones de la señal combinada contra las plantillas de reconocimiento de voz predeterminadas.
18. La circuitería de conformidad con la reivindicación 17, caracterizada porque la transformación primaria comprende una transformación espectral .
19. La circuitería de conformidad con la reivindicación 17, caracterizada porque la transformación primaria comprende la producción de una representación de frecuencia de tiempo de la señal vocal de entrada.
20. La circuitería de conformidad con la reivindicación 17, caracterizada porque la transformación primaria comprende una transformación espectral y la transformación secundaria comprende una transformación cepstral .
21. La circuitería de conformidad con la reivindicación 17, caracterizada porque la función predeterminada comprende : utilizar por lo menos uno de lo siguiente para combinar las características primarias y las características secundarias: análisis discriminativo lineal, transferencia del componente principal, concatenación .
22. La circuitería de conformidad con la reivindicación 17, caracterizada porque la función predeterminada comprende: modificar separadamente uno o más de lo siguiente: las características primarias, las características secundarias; aplicar por lo menos una función predeterminada para formar una señal combinada que comprende una combinación de las características primarias que incluyen cualquiera de las modificaciones con las características secundarias que incluyen cualquiera de las modificaciones .
23. La circuitería de conformidad con la reivindicación 22, caracterizada porque cada una de las operaciones que se modifican separadamente comprende por lo menos uno de lo siguiente: escalado, cambio de potencia, automultiplicación, exponenciación .
24. La circuitería de conformidad con la reivindicación 17, caracterizada porque además comprende: formar las plantillas de reconocimiento de voz al realizar cada una de las operaciones de aplicación y generación a las señales de instrucción predeterminadas .
25. Un sistema de reconocimiento de voz, caracterizado porque comprende: un extractor de características primarias que aplican una función primaria para extraer características primarias de una señal vocal de entrada digital; por lo menos un módulo de transformación secundaria que produce cada uno características secundarias que dependen estadísticamente de las características primarias al aplicar una función secundaria a una entrada que comprende uno de lo siguiente : la señal vocal de entrada, las características primarias ; un módulo de combinación de características acoplado al extractor de características primarias y cada uno de los módulos de transformación secundaria para aplicar una o más funciones predeterminadas para combinar las características primarias con las características secundarias que forman una señal combinada; un motor de modelaje estadístico, acoplado al módulo de combinación de características para generar una respuesta de reconocimiento al comparar los patrones de la señal combinada contra las plantillas de reconocimiento de voz predeterminadas .
26. Un sistema de reconocimiento de voz, caracterizado porque comprende: medio extractor de características primarias para aplicar una función primaria para extraer características primarias de una señal vocal de entrada digital ; medio de transformación secundaria para producir características secundarias que dependen estadísticamente de las características primarias al aplicar por lo menos una función secundaria a una entrada que comprende uno de lo siguiente : la señal vocal de entrada, las características primarias ; medio de combinación de características para aplicar una o más funciones predeterminadas para combinar las características primarias con las características secundarias que forman una señal combinada; medio de modelaje estadístico para generar una respuesta de reconocimiento al comparar los patrones de las características combinadas con las plantillas de reconocimiento de voz predeterminadas .
27. Un dispositivo de comunicación inalámbrico, caracterizado porque comprende: un transceptor acoplado a una antena; un altavoz; un micrófono; una interfaz de usuario; un administrador acoplado a los componentes que incluyen en transceptor, el altavoz, el micrófono, la interfaz de usuario para manejar la operación de los componentes, el administrador incluye un sistema de reconocimiento de voz configurado para realizar operaciones que comprenden: aplicar una transformación primaria a una señal vocal de entrada digital para extraer las características primarias de la misma; aplicar cada una de por lo menos una transformación secundaria a una de la señal vocal de entrada y las características primarias para proporcionar características secundarias estadísticamente dependientes de las características primarias; aplicar por lo menos una función predeterminada para formar una señal combinada que comprende una combinación de las características primarias con las características secundarias; generar una respuesta de reconocimiento al comparar los patrones de la señal combinada contra las plantillas de reconocimiento de voz predeterminadas.
28. Un dispositivo de comunicación inalámbrico, caracterizado porque comprende: un transceptor acoplado a una antena; un altavoz; un micrófono; una interfaz de usuario; medios para generar la operación del transceptor, altavoz, micrófono e interfaz de usuario; el medio para manejar además incluye medios para realizar reconocimiento de voz al: aplicar una transformación primaria a una señal vocal de entrada digital para extraer las características primarias de la misma; aplicar cada una de por lo menos una transformación secundaria a una de la señal vocal de entrada y las características primarias para proporcionar características secundarias estadísticamente dependientes de las características primarias; aplicar por lo menos una función predeterminada para formar una señal combinada que comprende una combinación de las características primarias con las características secundarias; generar una respuesta de reconocimiento al comparar los patrones de la señal combinada contra las plantillas de reconocimiento de voz predeterminadas.