MXPA04009077A - Metodo para el reconocimiento de voz fuerte analizando caracteristicas redundantes de la senal de origen. - Google Patents

Metodo para el reconocimiento de voz fuerte analizando caracteristicas redundantes de la senal de origen.

Info

Publication number
MXPA04009077A
MXPA04009077A MXPA04009077A MXPA04009077A MXPA04009077A MX PA04009077 A MXPA04009077 A MX PA04009077A MX PA04009077 A MXPA04009077 A MX PA04009077A MX PA04009077 A MXPA04009077 A MX PA04009077A MX PA04009077 A MXPA04009077 A MX PA04009077A
Authority
MX
Mexico
Prior art keywords
primary
transformation
signal
applying
predetermined
Prior art date
Application number
MXPA04009077A
Other languages
English (en)
Inventor
Malayath Narendranath
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of MXPA04009077A publication Critical patent/MXPA04009077A/es

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

Un metodo para procesar senales vocales digitalizadas analizando caracteristicas redundantes para proporcionar mas reconocimiento de voz fuerte. Se aplica una transformacion primaria a una senal vocal de origen para extraer caracteristicas primarias de la misma. Cada una de al menos una transformacion secundaria se aplica a la senal vocal de origen o a las caracteristicas primarias extraidas para producir al menos un conjunto de caracteristicas secundarias estaticamente dependientes de las caracteristicas primarias. Al menos una funcion predeterminada se aplica entonces para combinar las caracteristicas primarias con las caracteristicas secundarias. Se genera una respuesta de reconocimiento comparando el patron de esta combinacion contra las plantillas de reconocimiento de voz predeterminadas.

Description

MÉTODO PARA EL RECONOCIMIENTO DE VOZ FUERTE ANALIZANDO CARACTERÍSTICAS REDUNDANTES DE LA SEÑAL DE ORIGEN. 1. Campo de la Invención La presente invención se refiere a técnicas y circuitos de reconocimiento de voz y más particularmente a un sistema para el reconocimiento de voz fuerte más preciso y tolerante al ruido al analizar características redundantes de una señal de origen. 2. Antecedentes de la Invención Varias técnicas de procesamiento de señales se han desarrollado para analizar señales vocales digitalizadas para poder reconocer el contenido subyacente de tal palabra. Una vez reconocido, este contenido entonces puede utilizarse para controlar un teléfono portátil, computadora, electrodoméstico u otro dispositivo. Algunas técnicas conocidas emplean espectros o "espectrograma" de Fourier de corto tiempo de una señal vocal, los cuales se calculan utilizando transformadas de Fourier en ventanas como se explica más completamente en Rabiner et al . , Fundamentos de Reconocimiento de la Palabra, la totalidad de la cual se incorpora en la presente para referencia. La FIGURA 1 muestra un extractor 100 conocido de características espectrales para el análisis espectral, el cual incluye etapas de división en ventanas 102, FFT 104, filtración 106 de EL/BARK, Log 108, y filtración 110 de RASTA. La señal 101 vocal de entrada digitalizada se alimenta en la etapa 102 de división en ventanas, la cual divide la señal de entrada en segmentos de tamaño más pequeño de duración apropiada tal como 20 milisegundos . La etapa 104 de FFT realiza una Transformada de Fourier Rápida para los segmentos en ventanas salen por la etapa 102. La etapa 106 de MEL/BARK realiza la distorsión de la escala de frecuencia lineal a una escala diferente, de manera que la resolución para frecuencias más bajas es mayor que para frecuencias más altas. La resolución en la escala de frecuencia se vuelve progresivamente más gruesa de las frecuencias bajas a las frecuencias altas en el margen de escucha. La escala de NIEL y la escala de BARK son dos transformaciones conocidas que resultan en la distorsión de frecuencia anterior. Estas dos (y algunas variaciones) se utilizan comúnmente en el reconocimiento de la palabra. La etapa 108 de Log toma el logaritmo del número de entrada, y más particularmente, el log de cada valor espectral transformado de MEL/BARK que se ha calculado. Las etapas 102-108 anteriores se describen en varias publicaciones conocidas, con un ejemplo siendo el texto citado anteriormente de Rabiner et al . , Fundamentos de Reconocimiento de la Palabra . La etapa 110 de RASTA sirve para filtrar la salida de la etapa 108 de Log mediante un filtro de pasa-banda predefinido. Por ejemplo, si existen 16 números de BARK, existirán 16 filtros que operan en cada una de las bandas de bark. La etapa 110 de RASTA puede implementarse por cualquier técnica de procesamiento de RASTA conocida, con un ejemplo siendo descrito en la Patente Norteamericana No. 5,450,522 titulada "Modelo de Auditorio para la Parametrización de la Palabra" para Hermansky et al., de la cual toda se incorpora en la presente . La salida del extractor 100 de características espectrales comprende señales 111 de salida espectrales que se procesan después de esto mediante varias técnicas subsecuentes (no mostradas) para proporcionar una "respuesta de reconocimiento" que proporciona el contenido pronosticado de la señal vocal de entrada. Las respuestas de reconocimiento basadas en las señales 111 de salida espectrales proporcionan precisión razonable en ambientes de bajo ruido. Venta osamente, la degradación de su precisión se presenta lentamente con la disminución de las relaciones de señal a ruido. Las señales de salida espectrales pueden procesarse además en varias formas.
Por ejemplo, un procedimiento además procesa las señales 111 de salida espectrales mediante una transformación 112 de cepstral para proporcionar señales 114 de salida cepstrales. Un tipo de transformación 112 cepstral, por ejemplo, utiliza una transformada de coseno discreto (DCT) seguida por una reducción de dimensional idad . Ampliamente, "cepstrum" se explica como la transformada de Fourier inversa del logaritmo del espectro de potencia de una señal, como se discute además en las siguientes referencias, incorporadas en la presente para referencia en su totalidad. A.V. Oppenheim y R. W. Schafer, Procesamiento de Señales de Tiempo Discreto, J. R. Deller,. Jr . , J. G. Proakis y J. H. L. Hansen, Procesamiento de Tiempo Discreto de Señales Vocales, y L . R. Rabiner y R. W. Schafer, Procesamiento Digital de Señales Vocales. En sistemas donde el cepstrum 114 se calcula, el cepstrum (en lugar del espectro 111) se procesa por técnicas de modelaje estadísticas para proporcionar una respuesta de reconocimiento. Un beneficio de basar las respuestas de reconocimiento en señales 114 de salidas cepstrales es que proporcionan reconocimiento de voz más preciso en bajos niveles de ruido. Sin embargo, conforme incrementa el ruido, la proporción de error incrementa rápidamente para estos sistemas. Por lo tanto, ni los sistemas de reconocimiento de voz espectrales ni los cepstrales son completamente adecuados para aplicaciones que pueden encontrar potencialmente un amplio margen de niveles de ruido.
SUMARIO DE LA INVENCIÓN Ampliamente, la presente invención tiene que ver con un método para procesar señales vocales digitalizadas para reconocimiento de voz. A diferencia de los procedimientos convencionales, los cuales buscan la calidad de compacto y la simplicidad de operación al remover características redundantes de la palabra de entrada antes del reconocimiento, la presente invención retiene determinadamente y analiza las características redundantes de una señal de origen para poder realizar el reconocimiento de voz precisamente en una variedad de ambientes acústicos. Una transformación primaria se aplica a una señal vocal de origen digitalizada para extraer las características primarias de la misma. Un ejemplo es una transformación espectral aplicada para extraer características espectrales. Cada una de por lo menos una transformación secundaria se aplica a la señal vocal de origen o características espectrales extraídas para proporcionar por lo menos un conjunto de características secundarias. Cada transformación secundaria se diseña para proporcionar datos que contienen cierta información que ya está presente en las características primarias extraídas. Por lo menos una función predeterminada entonces se utiliza para combinar las características primarias con las características secundarias. Una respuesta de reconocimiento se genera al comparar patrones de esta combinación con un conjunto predeterminado de plantillas de reconocimiento de voz. La invención ofrece a sus usuarios con un número de distintas ventajas. Principalmente, la invención proporciona reconocimiento de voz preciso con niveles incrementados de ruidos sin sacrificar el rendimiento de los ambientes de bajo ruido. Esto difiere de los sistemas de reconocimiento de voz cepstrales convencionales donde el rendimiento cae rápidamente con el incremento de ruido, y también difiere de los sistemas de reconocimiento de voz espectrales convencionales, donde el rendimiento se degrada más lentamente con el incremento de ruido con el intercambio de cierto rendimiento en ambientes de bajo ruido. La invención también proporciona el número de otras ventajas y beneficios que deben ser aparentes a partir de la siguiente descripción de la invención.
BREVE DESCRIPCIÓN DE LOS DIBUJOS La FIGURA 1 es un diagrama de bloque de los componentes de hardware y las interconexiones de sistemas de procesamiento espectrales y ceptrales conocidos. La FIGURA 2 es un diagrama de bloque de los componentes de hardware y las interconexiones de una modalidad del sistema de reconocimiento de voz. La FIGURA 3 es un diagrama de bloque de una máquina de procesamiento de datos digital . La FIGURA 4 muestra un medio de soporte de señal ejemplar. La FIGURA 5 muestra un teléfono inalámbrico ej emplar . La FIGURA 6 es un diagrama de flujo de una secuencia operacional para el reconocimiento de voz utilizando características redundantes de la palabra.
DESCRIPCIÓN DETALLADA DE LA INVENCIÓN La naturaleza, objetivos y ventajas de la invención se volverán más aparentes para aquellos con experiencia en la técnica después de considerar la siguiente descripción detallada junto con los dibujos anexos . COMPONENTES DE HARDWARE E INTERCONEXIONES Estructura General Un aspecto de la invención tiene que ver con un sistema de reconocimiento de voz, el cual puede representarse por varios componentes de hardware e interconexiones, con un ejemplo siendo descrito por el sistema 200 de reconocimiento de voz como se muestra en la FIGURA 2. El sistema 200 sirve para procesar una señal 201 vocal de entrada, la cual comprende una señal vocal digitalizada . Opcionalmente , el sistema 200 puede incluir un convertidor de digital a análogo (DAC) para digitalizar las señales vocales de entrada análogas. La señal 201 vocal de entrada se alimenta a un extractor 202 de características espectrales el cual comprende circuitería para extraer características espectrales de la señal 201 vocal de entrada. Como un ejemplo, el extractor 202 puede representarse por componentes similares al extractor 100 de características espectrales mostrado en la FIGURA 1. La salida 202a del extractor 202 comprende una o más señales de salida espectrales, tal como un vector de características espectral. La salida 202a se dirige a un módulo 204 de transformación secundaria. El módulo 204 de transformación secundaria aplica una función predeterminada para poder proporcionar una salida 204a secundaria. En el ejemplo ilustrado, el módulo 204 aplica una transformación cepstral en cuyo caso la salida 204a secundaria comprende un conjunto de vectores cepstrales. Las señales 204a de característica secundaria del módulo 204 se dirigen a un módulo 206 de combinación de características. Como una alternativa a la modalidad anterior, donde el módulo 204 de transformación secundaria recibe la salida 202a del extractor 202, el módulo 204 puede recibir de hecho la señal 201 vocal de entrada original. En aún otra modalidad, pueden existir múltiples módulos 204 de transformación secundaria, cada uno aplicando una función diferente a la señal 201 vocal de entrada o la salida 202a espectral. En cualquier caso, la descripción anterior de las características espectrales y cepstrales es solamente ejemplar, y el alcance de la presente descripción contempla no obstante una variedad de diferentes transformaciones primarias y secundarias (no necesariamente espectro y cepstrum) . Como un ejemplo, el extractor 202 de características espectrales y sus características 202a espectrales pueden representarse por cualquier extractor 202 de características primarias apropiadas realizando una primera transformación o de orden más alto para crear una representación de frecuencia de tiempo de la señal vocal de entrada. Algunos ejemplos incluyen una transformación espectral, transformación de onda diminuta, espectro de modulación, acumulantes, etc. Cada transformación secundaria puede implementarse mediante una transformada de coseno discreto (que produce cepstrum) , transformada de componente principal u otra proyección de las características primarias en otro espacio conocido o definido por el usuario. Las características secundarias pueden producirse matemática y empíricamente o mediante otro medio. En cualquier caso, cada conjunto de características secundarias es "estadísticamente dependiente" de las características primarias, significando que las características secundarias se refieren a las características primarias mediante la función matemática. En otras palabras, es posible derivar las características secundarias al aplicar una función matemática a las características primarias. Las características secundarias, por ejemplo, pueden relacionarse de las características primarias por correlación (incluyendo pero no limitándose a adición, sustracción, multiplicación por coeficientes y suma, u otra combinación) , procesamiento no lineal u otra técnica. Las características primarias pueden o no pueden ser matemáticamente reproducibles a partir de las características secundarias. Como un ejemplo, entonces las características cepstrales del módulo 204 son estadísticamente dependientes de las características espectrales del extractor 202, y de hecho, los vectores cepstrales ilustrados se derivan por la transformación matemática de los vectores espectrales utilizando cepstrum. Por lo tanto, las salidas 202a, 204a contienen información redundante con respecto a la señal 201 vocal de entrada . A diferencia de los sistemas de reconocimiento de voz convencionales, donde las señales de salida espectrales u otra salida primaria no se utilizan excepto para el procesamiento corriente abajo adicional (en serie) , las señales 202a de salida espectral se analizan separadamente de su uso en la transformación 204 secundaria. Particularmente, las señales 202a de salida se alimentan directamente al módulo 206 de combinación de características para el análisis. El módulo 206 combina las señales 202a de salida espectrales y las señales 204a de salida secundarias. Esta combinación puede presentarse en varias formas. Como un ejemplo, las señales 202a, 204a pueden combinarse mediante la concatenación, análisis de discriminación lineal (LDA) , transformado de componente principal (PCT) , u otra función aplicada a las salidas 202a, 204a juntas. En una modalidad diferente, el módulo 206 puede incluir subcomponentes 206a, 206b de procesamiento que modifican separadamente una o ambas de las señales 202a, 204a después de que el módulo 206 combina las señales 202a, 204a como modificadas. Si más de una transformación 204 secundaria se realiza, el módulo 206 puede incluir un número igual de componentes 206b. Cada subcomponente 206a, 206b puede realizar varias funciones tal como escalado (es decir, multiplicando) su señal de entrada mediante un coeficiente fijo o variable, cambiando el exponente de la señal de entrada, multiplicando la señal de entrada por sí misma una o más veces (automultiplicado) , u otros procesos o más lineales o no lineales. En esta modalidad, las señales modificadas entonces se combinan utilizando una de las técnicas anteriores, por ejemplo, concatenación, LDA, PCT, etc. Como se menciona en lo anterior, pueden existir múltiples módulos 204 de transformación secundario, cada uno de los cuales recibe una señal de entrada tal como la señal 201 de entrada o la salida 202a del extractor 202. En tal modalidad, el módulo 206 de combinación de características aún opera para combinar las señales de características espectrales con las señales de salida de la transformación secundaria, aunque las señales de salida de la transformación secundaria vienen de múltiples módulos 204 diferentes. El módulo 206 de combinación de características alimenta su salida a un motor 208 de modelaje estadístico, también referido como un "reconocedor" o una unidad de "comparación de patrones". El motor 208, el cual puede implementarse por un número de técnicas conocidas, produce una salida que comprende una respuesta 210 de reconocimiento. La respuesta 210 de reconocimiento constituye la estimación del sistema 200 del significado de la señal 201 vocal de entrada. El motor 208 incluye una entrada 208a de instrucción para recibir la entrada que instruye al motor 208 para reconocer cierto modelo o muestras de patrones de la palabra. Como un ejemplo particular, el motor 208 puede interferirse a la salida del módulo 206 en una tabla de consulta para obtener el significado representado de la señal 201 vocal de entrada, es decir, su "respuesta" .
Aparato de Procesamiento de Datos Digital Ejemplar Como se menciona en lo anterior, las entidades de procesamiento de datos, tales como el extractor 202, el módulo o módulos 204 de transformación secundaria, el módulo 206 de combinación de características, el motor 208 de modelaje estadístico y similares pueden implementarse en varias formas. Como un ejemplo, cada uno de estos componentes (o dos o más componentes colectivamente) pueden implementarse mediante un aparato de procesamiento de datos digital, como se ejemplifica por los componentes de hardware e interconexiones del aparato 200 de procesamiento de datos digital de la FIGURA 3. El aparato 300 incluye un procesador 302, tal como un microprocesador, computadora personal, estación de trabajo, u otra máquina de procesamiento, acoplado a un almacenaje 304. En el ejemplo actual, el almacenaje 304 incluye el almacenaje 306 de acceso rápido, así como almacenaje 308 no volátil. En un ejemplo del almacenaje 306 de acceso rápido es la memoria de acceso aleatorio ("RAM"), utilizada para almacenar las instrucciones de programación ejecutadas por el procesador 302. El almacenaje 308 no volátil puede comprender, por ejemplo, RAM de respaldo de batería, EEPROM, uno o más discos de almacenaje de datos magnéticos tales como una "unidad de disco duro", una unidad de cinta, o cualquier otro dispositivo de almacenaje adecuado. El aparato 300 también incluye una entrada/salida 310, tal como una línea, bus, cable, enlace electromagnético, u otro medio para que el procesador 302 intercambie datos con otro hardware externo al aparato 300. A pesar de la descripción anterior específica, personas con experiencia ordinaria en la técnica (teniendo el beneficio de esta descripción) reconocerán que el aparato discutido en lo anterior puede implementarse en una máquina de diferente construcción, sin apartarse del alcance de la invención. Como un ejemplo especifico, uno de los componentes 306, 308 puede eliminarse; además, el almacenaje 304, 306 y/o 308 pueden proporcionarse en la tarjeta del procesador 302, o aún proporcionarse externamente al aparato 300.
Circuitería Lógica En contraste al aparato de procesamiento de datos digital, discutido en lo anterior, una modalidad diferente de la invención utiliza circuitería lógica en lugar de instrucciones ejecutadas por computadora para implementar uno o todos los componentes del sistema 200. Dependiendo de los requerimientos particulares de la aplicación en las áreas de velocidad, gasto, costos de herramientas, y similares, esta lógica puede implementarse al construir un circuito integrado de aplicación específica ("ASIC") que tiene miles de transistores integrados diminutos. Tal ASIC puede implementarse con CMOS, TTL, VLSI, u otra construcción adecuada. Otras alternativas incluyen un chip de procesamiento de señal digital ("DSP"), circuitería discreta (tal como resistencias, condensadores, diodos, inductores, y transistores) , disposición de puerta programable de campo ("FPGA"), disposición lógica programable ( "PLA" ) , y similares.
Aplicación Telefónica Inalámbrica En una aplicación ejemplar, el sistema 200 de reconocimiento de voz puede implementarse en un teléfono 500 inalámbrico (FIGURA 5) , junto con otra circuitería conocida en la técnica o telefonía inalámbrica. El teléfono 500 incluye un altavoz 508, interfaz 510 de usuario, micrófono 514, transceptor 504, antena 506 y administrador 502. El administrador 502, el cual puede implementarse por la circuitería tal como aquella discutida en lo anterior junto con las FIGURAS 3-4, maneja la operación y el enrutamiento de señales entre los componentes 504, 508, 510 y 514. El administrador 502 incluye un módulo 502a de reconocimiento de voz, representado por el sistema 200, y que sirve para realizar una función tal como una decodificación de los comandos de la palabra de un operador humano del teléfono 500 con respecto a la marcación, manejo de llamadas, etc.
OPERACIÓN Habiendo descrito las características estructurales de la presente invención, el aspecto operacional de la presente invención ahora se describirá.
A diferencia de procedimientos convencionales que buscan la calidad de compacto y la simplicidad de la operación al remover características redundantes de la palabra de entrada antes del análisis, la presente invención analiza predeterminadamente las características redundantes de una señal de origen para poder realizar el reconocimiento de voz precisamente en una variedad de ambientes acústicos .
Medios de Soporte de Señales Donde quiera que la funcionalidad de la invención se implementa utilizando una o más secuencias de programas ejecutados por máquina, estas secuencias pueden representarse en varias formas de medios de soporte de señales. En el contexto de la FIGURA 3, tal medio de soporte de señales puede comprender, por ejemplo, el almacenaje 304, u otro medio de soporte de señales, tal como un disquete 400 de almacenaje de datos magnético (FIGURA 4) , directa o indirectamente accesible por un procesador 302. Si se contiene en el almacenaje 306, el disquete 400 o en otro sitio, las instrucciones pueden almacenarse en una variedad de medios de almacenaje de datos que se pueden leer por máquina. Algunos ejemplos incluyen almacenaje de acceso directo (por ejemplo, una "unidad de disco duro" convencional, una disposición redundante de discos económicos ("RAID"), u otro dispositivo de almacenaje de acceso directo ( "DASD" ) ) , almacenaje de acceso en serie tal como cinta magnética u óptica, memoria no volátil electrónica (por ejemplo ROM, EPROM, o EEPROM) , RAM de respaldo de batería, almacenaje óptico (por ejemplo, CD-ROM, WORM, DVD, cinta óptica digital) , tarjetas de papel "perforadas" , u otros medios de soporte de señales adecuados que incluyen medios de transmisión análogos o digitales y enlaces análogos y de comunicación y comunicaciones inalámbricas. En una modalidad ilustrativa de la invención, las instrucciones que se pueden leer por máquina pueden comprender códigos de objeto de software, compilado de un lenguaje tal como lenguaje de ensamblaje, C, etc.
Circuitería Lógica En contraste al medio de soporte de señales discutido en lo anterior parte o toda la funcionalidad de la invención puede implementarse utilizando circuitería lógica, en lugar de utilizar máquinas de procesamiento de instrucciones. Tal circuitería lógica por lo tanto se configura para realizar operaciones para llevar a cabo el método de la invención. La circuitería lógica puede implementarse utilizando muchos diferentes tipos de circuitería, como se discute en lo anterior.
Secuencia General de Operación La FIGURA 6 muestra una secuencia 600 para ilustrar un proceso de reconocimiento de voz ejemplar. Ampliamente, esta secuencia sirve para procesar señales vocales digitalizadas al analizar características redundantes para proporcionar reconocimiento de voz fuerte con más ruido. Para facilidad de explicación, pero sin ninguna limitación pretendida, el ejemplo de la FIGURA 6 se describe en el contexto del sistema 200 de reconocimiento de voz descrito en lo anterior. La secuencia se inicia en la etapa 602, donde la instrucción del sistema 200 se lleva a cabo. En la etapa 602 de instrucción, una señal 201 vocal de entrada ("palabra de instrucción") de características deseadas se alimenta al extractor 202 de características espectrales, y las etapas 604, 606, 608 (discutidas en lo siguiente) se realizan utilizando esta señal vocal de entrada. Por ejemplo, la palabra de instrucción puede comprender palabra modelo (para un sistema independiente de altavoz) o una palabra de muestra de persona particular (para un sistema dependiente del altavoz) . La salida del módulo 206 de combinación de características forma una plantilla de reconocimiento de voz, la cual se asocia con la palabra de instrucción al preparar una entrada 208a de instrucción (que significa el contenido de la palabra de instrucción) , proporcionando la entrada 208a a la máquina 208 de modelaje estadístico, e instruyendo a la máquina 208 para generar la respuesta de reconocimiento deseada en el futuro siempre que el sistema 200 encuentra palabra similar a la palabra de instrucción. Por ejemplo, si la señal 201 vocal de instrucción comprende la "lección" de palabra, entonces el texto "lección" se alimenta a la máquina 208 en asociación con la señal 201 vocal de instrucción. La discusión adicional de instrucción está disponible de muchas fuentes, ya que muchas diferentes técnicas para instruir sistemas de reconocimiento de voz se conocen bien en la técnica. Algunos esquemas de instrucción ejemplares se discuten en los siguientes materiales, cada uno incorporado en la presente para referencia en su totalidad: (1) Solicitud de Patente Norteamericana 09/248,513 titulada "Esquema de Rechazo de Reconocimiento de Voz" , presentada el 8 de febrero de 1999, (2) Solicitud de Patente Norteamericana 09/225,891 titulada "Sistema y Método para Segmentación y Reconocimiento de Señales Vocales" , presentada el 4 de enero de 1999, y (3) Solicitud de Patente Norteamericana 09/615,572 titulada "Método y Aparato para Construir Plantillas de Voz para un Sistema de Reconocimiento de Voz Independiente del Altavoz", presentada el 13 de julio del 2000. La instrucción adicional puede llevarse a cabo en momentos posteriores (no mostrado) cuando se requiera o se desee . i Después de que se concluye cierta instrucción 602, una señal 201 vocal de entrada de no instrucción se ingresa al extractor 202 de características espectrales (etapa 604) . Esta señal 201 es para lo que se desea el reconocimiento de voz. También, en la etapa 604, el extractor 202 realiza una transformación espectral con la señal 201 vocal de entrada, que extrae las características espectrales de la señal 201 vocal de entrada y proporciona las características espectrales extraídas como la salida 202a. Una técnica de extracción espectral ejemplar incluye codificación profética lineal (LPC) , la cual se describe en la Patente Norteamericana No. 5,414,796, titulada "Codificador de Velocidad Variable" es completamente incorporado en la presente para referencia, y la referencia antes citada de Rabiner et al., Procesamiento Digital de Señales Vocales. En la etapa 606, el módulo 204 de transformación secundaria aplica la transformación secundaria a la salida 202a espectral. En el ejemplo ilustrado, el módulo 204 aplica una transformación cepstral a la salida 202a. Opcionalmente , la etapa 606 también puede realizar una o más transformaciones secundarias adicionales (cepstral u otros tipos) en paralelo con la transformación 204 ilustrada. Como se menciona en lo anterior, todas las transformaciones secundarias son estadísticamente dependientes de la transformación espectral de la etapa 604, significando que existe cierta información común llevada por las salidas 202a y 204b. En la etapa 608, el módulo 206 combina la salida 202a espectral con la salida o salidas 204a secundarias del módulo 204 y cualesquier otros módulos de la transformación secundaria, si se implementa. Para facilidad de discusión, el presente ejemplo se limita al caso donde se utiliza una transformación secundaria sencilla. Como se menciona en lo anterior, la combinación de la etapa 608 puede presentarse en varias formas. Por ejemplo, el módulo 206 puede combinar las señales 202a, 204a mediante concatenación, LDA, PCT, u otra función. En una modalidad diferente, los subcomponentes 206a, 206b de procesamiento primero modifican una o más de las señales 202a, 204a separadamente, después de que el módulo 206 combina las señales modificadas. Cada subcomponente 206a, 206b puede realizar una función tal como escalado (es decir multiplicado) , de la señal de entrada mediante un coeficiente fijo o variable, cambiando el exponente de la señal de entrada, multiplicando la señal de entrada por sí misma, una o más veces, u otros procesos más no lineales o lineales. En esta modalidad, las señales como se modifican por 206a, 206b entonces se combinan por una de las técnicas anteriores, por ejemplo, concatenación, LDA, PCT, etc. En la etapa 610, el motor 208 de modelaje estadístico genera una respuesta de reconocimiento, que representa el contenido estimado de la señal 201 vocal de entrada. La etapa 610 se realiza por la comparación de patrones de la señal del módulo 206 contra el conjunto predeterminado de plantillas de reconocimiento de voz que se prepararon en la etapa 602.
OTRAS MODALIDADES Aunque la descripción anterior muestra un número de modalidades ilustrativas de la invención, será aparente para aquellos con experiencia en al técnica que varios cambios y modificaciones pueden hacerse en la presente sin apartarse del alcance de la invención como se define por las reivindicaciones anexas. Además, aunque elementos de la invención pueden describirse o reclamarse en singular, el plural se contempla a menos que se establezca explícitamente la limitación al singular. Adicionalmente, las personas con experiencia en la técnica reconocerán que secuencias de operaciones deben establecerse en algún orden específico para el propósito de explicación y reclamación, pero la presente invención contempla varios cambios más allá del orden específico.

Claims (28)

  1. NOVEDAD DE LA INVENCIÓN Habiendo descrito la presente invención se considera como novedad y por lo tanto se reclama como propiedad lo descrito en las siguientes reivindicaciones.
  2. REIVINDICACIONES 1. Un método para procesar señales vocales, caracterizado porque comprende las operaciones de: aplicar una transformación primaria a una señal vocal de entrada digital para extraer características primarias de la misma; aplicar cada una de por lo menos una transformación secundaria a una de la señal vocal de entrada y las características primarias para proporcionar características secundarias estadísticamente dependientes de las características primarias; aplicar por lo menos una función predeterminada para formar una señal combinada que comprende una combinación de las características primarias con las características secundarias; generar una respuesta de reconocimiento al comparar los patrones de la señal combinada contra las plantillas de reconocimiento de voz predeterminadas. 2. El método de conformidad con la reivindicación 1, caracterizado porque la transformación primaria comprende una transformación espectral .
  3. 3. El método de conformidad con la reivindicación 1, caracterizado porque la transformación primaria comprende producción de una representación de frecuencias de tiempo de la señal vocal de entrada.
  4. 4. El método de conformidad con la reivindicación 1, caracterizado porque la transformación primaria comprende una transformación espectral y la transformación secundaria comprende una transformación cepstral .
  5. 5. El método de conformidad con la reivindicación 1, caracterizado porque la función predeterminada comprende : utilizar por lo menos uno de lo siguiente para combinar las características primarias y las características secundarias: análisis discriminativo lineal, transferencia de componente principal, concatenación.
  6. 6. El método de conformidad con la reivindicación 1, caracterizado porque la función predeterminada comprende : modificar separadamente uno o más de lo siguiente: las características primarias, las características secundarias; aplicar por lo menos una función predeterminada para formar una señal combinada que comprende una combinación de las características primarias que incluyen cualquiera de las modificaciones con las características secundarias que incluyen cualquiera de las modificaciones.
  7. 7. El método de conformidad con la reivindicación 6, caracterizado porque cada una de las operaciones que se modifican separadamente comprende por lo menos uno de lo siguiente : escalado, cambio de potencia, automultiplicado, exponenciación.
  8. 8. El método de conformidad con la reivindicación 1, caracterizado porque además comprende: formar las plantillas de reconocimiento de voz al realizar cada una de las operaciones de aplicación y generación a las señales de instrucción predeterminadas .
  9. 9. Un medio de soporte de señales que representa tangiblemente un programa de instrucciones que se pueden leer por máquina que se pueden ejecutar por un aparato de procesamiento digital para realizar operaciones para procesar señales vocales, las operaciones están caracterizadas porque comprenden: aplicar una transformación primaria a una señal vocal de entrada digital para extraer características primarias de la misma; aplicar cada una de por lo menos una transformación secundaria a una de la señal vocal de entrada y las características primarias para proporcionar características secundarias estadísticamente dependientes de las características primarias; aplicar por lo menos a una función predeterminada para formar una señal combinada que comprende una combinación de las características primarias con las características secundarias ; generar una respuesta de reconocimiento al comparar los patrones de la señal combinada contra las plantillas de reconocimiento de voz predeterminadas.
  10. 10. El medio de conformidad con la reivindicación 9, caracterizado porque la transformación primaria comprende una transformación espectral .
  11. 11. El medio de conformidad con la reivindicación 9, caracterizado porque la transformación primaria comprende la producción de una representación de frecuencia de tiempo de la señal vocal de entrada.
  12. 12. El medio de conformidad con la reivindicación 9, caracterizado porque la transformación primaria comprende una transformación espectral y la transformaci n secundaria comprende una la transformación cepstral .
  13. 13. El medio de conformidad con la reivindicación 9, caracterizado porque la función predeterminada comprende : utilizar por lo menos uno de lo siguiente para combinar las características primarias y las características secundarias: análisis discriminativo lineal, transferencia de componente principal, concatenación .
  14. 14. El medio de conformidad con la reivindicación 9, caracterizado porque la función predeterminada comprende: modificar separadamente uno o más de lo siguiente: las características primarias, las características secundarias; aplicar por lo menos una función predeterminada para formar una señal combinada que comprende una combinación de las características primarias que incluyen cualquiera de las modificaciones con las características secundarias que incluyen cualquiera de las modificaciones .
  15. 15. El medio de conformidad con la reivindicación 14, caracterizado porque cada una de las operaciones de modificación separadamente comprende por lo menos uno de lo siguiente : escalado, cambio de potencia, automultiplicación, exponenciación .
  16. 16. El medio de conformidad con la reivindicación 9, caracterizado porque además comprende: formar las plantillas de reconocimiento de voz al realizar cada una de las operaciones de aplicación y generación a las señales de instrucción predeterminadas .
  17. 17. Una circuitería de múltiples elementos eléctricamente conductivos interconectados configurados para realizar operaciones para procesar señales vocales, las operaciones están caracterizadas porque comprenden: aplicar una transformación primaria a una señal vocal de entrada digital para extraer características primarias de la misma; aplicar cada una de por lo menos una transformación secundaria a una de la señal vocal de entrada y las características primarias para proporcionar características secundarias estadísticamente dependientes de las características primarias; aplicar por lo menos una función predeterminada para formar una señal combinada que comprende una combinación de las características primarias con las características secundarias; generar una respuesta de reconocimiento al comparar los patrones de la señal combinada contra las plantillas de reconocimiento de voz predeterminadas.
  18. 18. La circuitería de conformidad con la reivindicación 17, caracterizada porque la transformación primaria comprende una transformación espectral .
  19. 19. La circuitería de conformidad con la reivindicación 17, caracterizada porque la transformación primaria comprende la producción de una representación de frecuencia de tiempo de la señal vocal de entrada.
  20. 20. La circuitería de conformidad con la reivindicación 17, caracterizada porque la transformación primaria comprende una transformación espectral y la transformación secundaria comprende una transformación cepstral .
  21. 21. La circuitería de conformidad con la reivindicación 17, caracterizada porque la función predeterminada comprende : utilizar por lo menos uno de lo siguiente para combinar las características primarias y las características secundarias: análisis discriminativo lineal, transferencia del componente principal, concatenación .
  22. 22. La circuitería de conformidad con la reivindicación 17, caracterizada porque la función predeterminada comprende: modificar separadamente uno o más de lo siguiente: las características primarias, las características secundarias; aplicar por lo menos una función predeterminada para formar una señal combinada que comprende una combinación de las características primarias que incluyen cualquiera de las modificaciones con las características secundarias que incluyen cualquiera de las modificaciones .
  23. 23. La circuitería de conformidad con la reivindicación 22, caracterizada porque cada una de las operaciones que se modifican separadamente comprende por lo menos uno de lo siguiente: escalado, cambio de potencia, automultiplicación, exponenciación .
  24. 24. La circuitería de conformidad con la reivindicación 17, caracterizada porque además comprende: formar las plantillas de reconocimiento de voz al realizar cada una de las operaciones de aplicación y generación a las señales de instrucción predeterminadas .
  25. 25. Un sistema de reconocimiento de voz, caracterizado porque comprende: un extractor de características primarias que aplican una función primaria para extraer características primarias de una señal vocal de entrada digital; por lo menos un módulo de transformación secundaria que produce cada uno características secundarias que dependen estadísticamente de las características primarias al aplicar una función secundaria a una entrada que comprende uno de lo siguiente : la señal vocal de entrada, las características primarias ; un módulo de combinación de características acoplado al extractor de características primarias y cada uno de los módulos de transformación secundaria para aplicar una o más funciones predeterminadas para combinar las características primarias con las características secundarias que forman una señal combinada; un motor de modelaje estadístico, acoplado al módulo de combinación de características para generar una respuesta de reconocimiento al comparar los patrones de la señal combinada contra las plantillas de reconocimiento de voz predeterminadas .
  26. 26. Un sistema de reconocimiento de voz, caracterizado porque comprende: medio extractor de características primarias para aplicar una función primaria para extraer características primarias de una señal vocal de entrada digital ; medio de transformación secundaria para producir características secundarias que dependen estadísticamente de las características primarias al aplicar por lo menos una función secundaria a una entrada que comprende uno de lo siguiente : la señal vocal de entrada, las características primarias ; medio de combinación de características para aplicar una o más funciones predeterminadas para combinar las características primarias con las características secundarias que forman una señal combinada; medio de modelaje estadístico para generar una respuesta de reconocimiento al comparar los patrones de las características combinadas con las plantillas de reconocimiento de voz predeterminadas .
  27. 27. Un dispositivo de comunicación inalámbrico, caracterizado porque comprende: un transceptor acoplado a una antena; un altavoz; un micrófono; una interfaz de usuario; un administrador acoplado a los componentes que incluyen en transceptor, el altavoz, el micrófono, la interfaz de usuario para manejar la operación de los componentes, el administrador incluye un sistema de reconocimiento de voz configurado para realizar operaciones que comprenden: aplicar una transformación primaria a una señal vocal de entrada digital para extraer las características primarias de la misma; aplicar cada una de por lo menos una transformación secundaria a una de la señal vocal de entrada y las características primarias para proporcionar características secundarias estadísticamente dependientes de las características primarias; aplicar por lo menos una función predeterminada para formar una señal combinada que comprende una combinación de las características primarias con las características secundarias; generar una respuesta de reconocimiento al comparar los patrones de la señal combinada contra las plantillas de reconocimiento de voz predeterminadas.
  28. 28. Un dispositivo de comunicación inalámbrico, caracterizado porque comprende: un transceptor acoplado a una antena; un altavoz; un micrófono; una interfaz de usuario; medios para generar la operación del transceptor, altavoz, micrófono e interfaz de usuario; el medio para manejar además incluye medios para realizar reconocimiento de voz al: aplicar una transformación primaria a una señal vocal de entrada digital para extraer las características primarias de la misma; aplicar cada una de por lo menos una transformación secundaria a una de la señal vocal de entrada y las características primarias para proporcionar características secundarias estadísticamente dependientes de las características primarias; aplicar por lo menos una función predeterminada para formar una señal combinada que comprende una combinación de las características primarias con las características secundarias; generar una respuesta de reconocimiento al comparar los patrones de la señal combinada contra las plantillas de reconocimiento de voz predeterminadas.
MXPA04009077A 2002-03-20 2003-03-19 Metodo para el reconocimiento de voz fuerte analizando caracteristicas redundantes de la senal de origen. MXPA04009077A (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/104,178 US6957183B2 (en) 2002-03-20 2002-03-20 Method for robust voice recognition by analyzing redundant features of source signal
PCT/US2003/008806 WO2003081576A1 (en) 2002-03-20 2003-03-19 Method for robust voice recognition by analyzing redundant features of source signal

Publications (1)

Publication Number Publication Date
MXPA04009077A true MXPA04009077A (es) 2004-12-13

Family

ID=28040524

Family Applications (1)

Application Number Title Priority Date Filing Date
MXPA04009077A MXPA04009077A (es) 2002-03-20 2003-03-19 Metodo para el reconocimiento de voz fuerte analizando caracteristicas redundantes de la senal de origen.

Country Status (6)

Country Link
US (1) US6957183B2 (es)
CN (1) CN1653519B (es)
AU (1) AU2003225928A1 (es)
MX (1) MXPA04009077A (es)
TW (1) TWI300214B (es)
WO (1) WO2003081576A1 (es)

Families Citing this family (117)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
JP2005043666A (ja) * 2003-07-22 2005-02-17 Renesas Technology Corp 音声認識装置
US6995622B2 (en) * 2004-01-09 2006-02-07 Robert Bosh Gmbh Frequency and/or phase compensated microelectromechanical oscillator
KR100571574B1 (ko) * 2004-07-26 2006-04-17 한양대학교 산학협력단 비선형 분석을 이용한 유사화자 인식방법 및 그 시스템
US8219391B2 (en) * 2005-02-15 2012-07-10 Raytheon Bbn Technologies Corp. Speech analyzing system with speech codebook
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
CN101292280B (zh) * 2005-10-17 2015-04-22 皇家飞利浦电子股份有限公司 导出音频输入信号的一个特征集的方法
US20070239444A1 (en) * 2006-03-29 2007-10-11 Motorola, Inc. Voice signal perturbation for speech recognition
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
WO2011089450A2 (en) 2010-01-25 2011-07-28 Andrew Peter Nelson Jerram Apparatuses, methods and systems for a digital conversation management platform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
TWI412019B (zh) 2010-12-03 2013-10-11 Ind Tech Res Inst 聲音事件偵測模組及其方法
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
CN102290047B (zh) * 2011-09-22 2012-12-12 哈尔滨工业大学 基于稀疏分解与重构的鲁棒语音特征提取方法
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
CN102646415B (zh) * 2012-04-10 2014-07-23 苏州大学 一种语音识别中的特征参数提取方法
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
WO2014018004A1 (en) * 2012-07-24 2014-01-30 Nuance Communications, Inc. Feature normalization inputs to front end processing for automatic speech recognition
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8935167B2 (en) * 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144949A2 (en) 2013-03-15 2014-09-18 Apple Inc. Training an at least partial voice command system
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101772152B1 (ko) 2013-06-09 2017-08-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
CN105265005B (zh) 2013-06-13 2019-09-17 苹果公司 用于由语音命令发起的紧急呼叫的系统和方法
CN103811020B (zh) * 2014-03-05 2016-06-22 东北大学 一种智能语音处理方法
CN105139855A (zh) * 2014-05-29 2015-12-09 哈尔滨理工大学 一种两阶段稀疏分解的说话人识别方法与装置
WO2015184186A1 (en) 2014-05-30 2015-12-03 Apple Inc. Multi-command single utterance input method
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA1232686A (en) 1985-01-30 1988-02-09 Northern Telecom Limited Speech recognition
US5517558A (en) * 1990-05-15 1996-05-14 Voice Control Systems, Inc. Voice-controlled account access over a telephone network
AU671952B2 (en) * 1991-06-11 1996-09-19 Qualcomm Incorporated Variable rate vocoder
US5450522A (en) * 1991-08-19 1995-09-12 U S West Advanced Technologies, Inc. Auditory model for parametrization of speech
US5381512A (en) * 1992-06-24 1995-01-10 Moscom Corporation Method and apparatus for speech feature recognition based on models of auditory signal processing
JP2737624B2 (ja) * 1993-12-27 1998-04-08 日本電気株式会社 音声認識装置
JPH08123462A (ja) * 1994-10-27 1996-05-17 Sony Corp 音声認識装置
US6671404B1 (en) * 1997-02-14 2003-12-30 Hewlett-Packard Development Company, L.P. Method and apparatus for recognizing patterns

Also Published As

Publication number Publication date
AU2003225928A1 (en) 2003-10-08
CN1653519A (zh) 2005-08-10
TWI300214B (en) 2008-08-21
US20030182115A1 (en) 2003-09-25
TW200306526A (en) 2003-11-16
CN1653519B (zh) 2012-04-04
US6957183B2 (en) 2005-10-18
WO2003081576A1 (en) 2003-10-02

Similar Documents

Publication Publication Date Title
US6957183B2 (en) Method for robust voice recognition by analyzing redundant features of source signal
US7035797B2 (en) Data-driven filtering of cepstral time trajectories for robust speech recognition
AU656787B2 (en) Auditory model for parametrization of speech
US8438026B2 (en) Method and system for generating training data for an automatic speech recognizer
US7133826B2 (en) Method and apparatus using spectral addition for speaker recognition
Xiao et al. Normalization of the speech modulation spectra for robust speech recognition
EP1500087B1 (en) On-line parametric histogram normalization for noise robust speech recognition
US20060206321A1 (en) Noise reduction using correction vectors based on dynamic aspects of speech and noise normalization
EP1250699B1 (en) Speech recognition
US6182036B1 (en) Method of extracting features in a voice recognition system
EP1913591B1 (en) Enhancement of speech intelligibility in a mobile communication device by controlling the operation of a vibrator in dependance of the background noise
WO2007041789A1 (en) Front-end processing of speech signals
Ziółko et al. Wavelet method of speech segmentation
CN116229987B (zh) 一种校园语音识别的方法、装置及存储介质
CN115938364A (zh) 一种智能识别控制方法、终端设备及可读存储介质
Uhle et al. Speech enhancement of movie sound
EP1353322A2 (en) Method for extracting voice signal features and related voice recognition system
JP3531342B2 (ja) 音声処理装置および音声処理方法
US7225124B2 (en) Methods and apparatus for multiple source signal separation
Mallidi et al. Robust speaker recognition using spectro-temporal autoregressive models.
Shareef et al. Comparison between features extraction techniques for impairments arabic speech
CN114694672A (zh) 语音增强方法、装置及设备
JP3346200B2 (ja) 音声認識装置
Kalamani et al. Comparison Of Cepstral And Mel Frequency Cepstral Coefficients For Various Clean And Noisy Speech Signals
CN116913296A (zh) 音频处理方法和装置

Legal Events

Date Code Title Description
FG Grant or registration