MXPA04009077A - Metodo para el reconocimiento de voz fuerte analizando caracteristicas redundantes de la senal de origen. - Google Patents
Metodo para el reconocimiento de voz fuerte analizando caracteristicas redundantes de la senal de origen.Info
- Publication number
- MXPA04009077A MXPA04009077A MXPA04009077A MXPA04009077A MXPA04009077A MX PA04009077 A MXPA04009077 A MX PA04009077A MX PA04009077 A MXPA04009077 A MX PA04009077A MX PA04009077 A MXPA04009077 A MX PA04009077A MX PA04009077 A MXPA04009077 A MX PA04009077A
- Authority
- MX
- Mexico
- Prior art keywords
- primary
- transformation
- signal
- applying
- predetermined
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 230000009466 transformation Effects 0.000 claims abstract description 70
- 238000012545 processing Methods 0.000 claims abstract description 23
- 230000003595 spectral effect Effects 0.000 claims description 44
- 230000006870 function Effects 0.000 claims description 28
- 230000004044 response Effects 0.000 claims description 17
- 230000001419 dependent effect Effects 0.000 claims description 9
- 230000001755 vocal effect Effects 0.000 claims description 9
- 230000004048 modification Effects 0.000 claims description 8
- 238000012986 modification Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 8
- 238000004891 communication Methods 0.000 claims description 4
- 230000008859 change Effects 0.000 claims 3
- 238000012546 transfer Methods 0.000 claims 3
- 230000008901 benefit Effects 0.000 description 6
- 238000001228 spectrum Methods 0.000 description 5
- 241001014642 Rasta Species 0.000 description 4
- 238000000844 transformation Methods 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 238000013500 data storage Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000007620 mathematical function Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 239000003990 capacitor Substances 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000011143 downstream manufacturing Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Un metodo para procesar senales vocales digitalizadas analizando caracteristicas redundantes para proporcionar mas reconocimiento de voz fuerte. Se aplica una transformacion primaria a una senal vocal de origen para extraer caracteristicas primarias de la misma. Cada una de al menos una transformacion secundaria se aplica a la senal vocal de origen o a las caracteristicas primarias extraidas para producir al menos un conjunto de caracteristicas secundarias estaticamente dependientes de las caracteristicas primarias. Al menos una funcion predeterminada se aplica entonces para combinar las caracteristicas primarias con las caracteristicas secundarias. Se genera una respuesta de reconocimiento comparando el patron de esta combinacion contra las plantillas de reconocimiento de voz predeterminadas.
Description
MÉTODO PARA EL RECONOCIMIENTO DE VOZ FUERTE ANALIZANDO CARACTERÍSTICAS REDUNDANTES DE LA SEÑAL DE ORIGEN.
1. Campo de la Invención La presente invención se refiere a técnicas y circuitos de reconocimiento de voz y más particularmente a un sistema para el reconocimiento de voz fuerte más preciso y tolerante al ruido al analizar características redundantes de una señal de origen.
2. Antecedentes de la Invención Varias técnicas de procesamiento de señales se han desarrollado para analizar señales vocales digitalizadas para poder reconocer el contenido subyacente de tal palabra. Una vez reconocido, este contenido entonces puede utilizarse para controlar un teléfono portátil, computadora, electrodoméstico u otro dispositivo. Algunas técnicas conocidas emplean espectros o "espectrograma" de Fourier de corto tiempo de una señal vocal, los cuales se calculan utilizando transformadas de Fourier en ventanas como se explica más completamente en Rabiner et al . , Fundamentos de Reconocimiento de la Palabra, la totalidad de la cual se incorpora en la presente para referencia. La FIGURA 1 muestra un extractor 100 conocido de características espectrales para el análisis espectral, el cual incluye etapas de división en ventanas 102, FFT 104, filtración 106 de EL/BARK, Log 108, y filtración 110 de RASTA. La señal 101 vocal de entrada digitalizada se alimenta en la etapa 102 de división en ventanas, la cual divide la señal de entrada en segmentos de tamaño más pequeño de duración apropiada tal como 20 milisegundos . La etapa 104 de FFT realiza una Transformada de Fourier Rápida para los segmentos en ventanas salen por la etapa 102. La etapa 106 de MEL/BARK realiza la distorsión de la escala de frecuencia lineal a una escala diferente, de manera que la resolución para frecuencias más bajas es mayor que para frecuencias más altas. La resolución en la escala de frecuencia se vuelve progresivamente más gruesa de las frecuencias bajas a las frecuencias altas en el margen de escucha. La escala de NIEL y la escala de BARK son dos transformaciones conocidas que resultan en la distorsión de frecuencia anterior. Estas dos (y algunas variaciones) se utilizan comúnmente en el reconocimiento de la palabra. La etapa 108 de Log toma el logaritmo del número de entrada, y más particularmente, el log de cada valor espectral transformado de MEL/BARK que se ha calculado. Las etapas 102-108 anteriores se describen en varias publicaciones conocidas, con un ejemplo siendo el texto citado anteriormente de Rabiner et al . , Fundamentos de Reconocimiento de la Palabra . La etapa 110 de RASTA sirve para filtrar la salida de la etapa 108 de Log mediante un filtro de pasa-banda predefinido. Por ejemplo, si existen 16 números de BARK, existirán 16 filtros que operan en cada una de las bandas de bark. La etapa 110 de RASTA puede implementarse por cualquier técnica de procesamiento de RASTA conocida, con un ejemplo siendo descrito en la Patente Norteamericana No. 5,450,522 titulada "Modelo de Auditorio para la Parametrización de la Palabra" para Hermansky et al., de la cual toda se incorpora en la presente . La salida del extractor 100 de características espectrales comprende señales 111 de salida espectrales que se procesan después de esto mediante varias técnicas subsecuentes (no mostradas) para proporcionar una "respuesta de reconocimiento" que proporciona el contenido pronosticado de la señal vocal de entrada. Las respuestas de reconocimiento basadas en las señales 111 de salida espectrales proporcionan precisión razonable en ambientes de bajo ruido. Venta osamente, la degradación de su precisión se presenta lentamente con la disminución de las relaciones de señal a ruido. Las señales de salida espectrales pueden procesarse además en varias formas.
Por ejemplo, un procedimiento además procesa las señales 111 de salida espectrales mediante una transformación 112 de cepstral para proporcionar señales 114 de salida cepstrales. Un tipo de transformación 112 cepstral, por ejemplo, utiliza una transformada de coseno discreto (DCT) seguida por una reducción de dimensional idad . Ampliamente, "cepstrum" se explica como la transformada de Fourier inversa del logaritmo del espectro de potencia de una señal, como se discute además en las siguientes referencias, incorporadas en la presente para referencia en su totalidad. A.V. Oppenheim y R. W. Schafer, Procesamiento de Señales de Tiempo Discreto, J. R. Deller,. Jr . , J. G. Proakis y J. H. L. Hansen, Procesamiento de Tiempo Discreto de Señales Vocales, y L . R. Rabiner y R. W. Schafer, Procesamiento Digital de Señales Vocales. En sistemas donde el cepstrum 114 se calcula, el cepstrum (en lugar del espectro 111) se procesa por técnicas de modelaje estadísticas para proporcionar una respuesta de reconocimiento. Un beneficio de basar las respuestas de reconocimiento en señales 114 de salidas cepstrales es que proporcionan reconocimiento de voz más preciso en bajos niveles de ruido. Sin embargo, conforme incrementa el ruido, la proporción de error incrementa rápidamente para estos sistemas. Por lo tanto, ni los sistemas de reconocimiento de voz espectrales ni los cepstrales son completamente adecuados para aplicaciones que pueden encontrar potencialmente un amplio margen de niveles de ruido.
SUMARIO DE LA INVENCIÓN Ampliamente, la presente invención tiene que ver con un método para procesar señales vocales digitalizadas para reconocimiento de voz. A diferencia de los procedimientos convencionales, los cuales buscan la calidad de compacto y la simplicidad de operación al remover características redundantes de la palabra de entrada antes del reconocimiento, la presente invención retiene determinadamente y analiza las características redundantes de una señal de origen para poder realizar el reconocimiento de voz precisamente en una variedad de ambientes acústicos. Una transformación primaria se aplica a una señal vocal de origen digitalizada para extraer las características primarias de la misma. Un ejemplo es una transformación espectral aplicada para extraer características espectrales. Cada una de por lo menos una transformación secundaria se aplica a la señal vocal de origen o características espectrales extraídas para proporcionar por lo menos un conjunto de características secundarias. Cada transformación secundaria se diseña para proporcionar datos que contienen cierta información que ya está presente en las características primarias extraídas. Por lo menos una función predeterminada entonces se utiliza para combinar las características primarias con las características secundarias. Una respuesta de reconocimiento se genera al comparar patrones de esta combinación con un conjunto predeterminado de plantillas de reconocimiento de voz. La invención ofrece a sus usuarios con un número de distintas ventajas. Principalmente, la invención proporciona reconocimiento de voz preciso con niveles incrementados de ruidos sin sacrificar el rendimiento de los ambientes de bajo ruido. Esto difiere de los sistemas de reconocimiento de voz cepstrales convencionales donde el rendimiento cae rápidamente con el incremento de ruido, y también difiere de los sistemas de reconocimiento de voz espectrales convencionales, donde el rendimiento se degrada más lentamente con el incremento de ruido con el intercambio de cierto rendimiento en ambientes de bajo ruido. La invención también proporciona el número de otras ventajas y beneficios que deben ser aparentes a partir de la siguiente descripción de la invención.
BREVE DESCRIPCIÓN DE LOS DIBUJOS La FIGURA 1 es un diagrama de bloque de los componentes de hardware y las interconexiones de sistemas de procesamiento espectrales y ceptrales conocidos. La FIGURA 2 es un diagrama de bloque de los componentes de hardware y las interconexiones de una modalidad del sistema de reconocimiento de voz. La FIGURA 3 es un diagrama de bloque de una máquina de procesamiento de datos digital . La FIGURA 4 muestra un medio de soporte de señal ejemplar. La FIGURA 5 muestra un teléfono inalámbrico ej emplar . La FIGURA 6 es un diagrama de flujo de una secuencia operacional para el reconocimiento de voz utilizando características redundantes de la palabra.
DESCRIPCIÓN DETALLADA DE LA INVENCIÓN La naturaleza, objetivos y ventajas de la invención se volverán más aparentes para aquellos con experiencia en la técnica después de considerar la siguiente descripción detallada junto con los dibujos anexos . COMPONENTES DE HARDWARE E INTERCONEXIONES Estructura General Un aspecto de la invención tiene que ver con un sistema de reconocimiento de voz, el cual puede representarse por varios componentes de hardware e interconexiones, con un ejemplo siendo descrito por el sistema 200 de reconocimiento de voz como se muestra en la FIGURA 2. El sistema 200 sirve para procesar una señal 201 vocal de entrada, la cual comprende una señal vocal digitalizada . Opcionalmente , el sistema 200 puede incluir un convertidor de digital a análogo (DAC) para digitalizar las señales vocales de entrada análogas. La señal 201 vocal de entrada se alimenta a un extractor 202 de características espectrales el cual comprende circuitería para extraer características espectrales de la señal 201 vocal de entrada. Como un ejemplo, el extractor 202 puede representarse por componentes similares al extractor 100 de características espectrales mostrado en la FIGURA 1. La salida 202a del extractor 202 comprende una o más señales de salida espectrales, tal como un vector de características espectral. La salida 202a se dirige a un módulo 204 de transformación secundaria. El módulo 204 de transformación secundaria aplica una función predeterminada para poder proporcionar una salida 204a secundaria. En el ejemplo ilustrado, el módulo 204 aplica una transformación cepstral en cuyo caso la salida 204a secundaria comprende un conjunto de vectores cepstrales. Las señales 204a de característica secundaria del módulo 204 se dirigen a un módulo 206 de combinación de características. Como una alternativa a la modalidad anterior, donde el módulo 204 de transformación secundaria recibe la salida 202a del extractor 202, el módulo 204 puede recibir de hecho la señal 201 vocal de entrada original. En aún otra modalidad, pueden existir múltiples módulos 204 de transformación secundaria, cada uno aplicando una función diferente a la señal 201 vocal de entrada o la salida 202a espectral. En cualquier caso, la descripción anterior de las características espectrales y cepstrales es solamente ejemplar, y el alcance de la presente descripción contempla no obstante una variedad de diferentes transformaciones primarias y secundarias (no necesariamente espectro y cepstrum) . Como un ejemplo, el extractor 202 de características espectrales y sus características 202a espectrales pueden representarse por cualquier extractor 202 de características primarias apropiadas realizando una primera transformación o de orden más alto para crear una representación de frecuencia de tiempo de la señal vocal de entrada. Algunos ejemplos incluyen una transformación espectral, transformación de onda diminuta, espectro de modulación, acumulantes, etc. Cada transformación secundaria puede implementarse mediante una transformada de coseno discreto (que produce cepstrum) , transformada de componente principal u otra proyección de las características primarias en otro espacio conocido o definido por el usuario. Las características secundarias pueden producirse matemática y empíricamente o mediante otro medio. En cualquier caso, cada conjunto de características secundarias es "estadísticamente dependiente" de las características primarias, significando que las características secundarias se refieren a las características primarias mediante la función matemática. En otras palabras, es posible derivar las características secundarias al aplicar una función matemática a las características primarias. Las características secundarias, por ejemplo, pueden relacionarse de las características primarias por correlación (incluyendo pero no limitándose a adición, sustracción, multiplicación por coeficientes y suma, u otra combinación) , procesamiento no lineal u otra técnica. Las características primarias pueden o no pueden ser matemáticamente reproducibles a partir de las características secundarias. Como un ejemplo, entonces las características cepstrales del módulo 204 son estadísticamente dependientes de las características espectrales del extractor 202, y de hecho, los vectores cepstrales ilustrados se derivan por la transformación matemática de los vectores espectrales utilizando cepstrum. Por lo tanto, las salidas 202a, 204a contienen información redundante con respecto a la señal 201 vocal de entrada . A diferencia de los sistemas de reconocimiento de voz convencionales, donde las señales de salida espectrales u otra salida primaria no se utilizan excepto para el procesamiento corriente abajo adicional (en serie) , las señales 202a de salida espectral se analizan separadamente de su uso en la transformación 204 secundaria. Particularmente, las señales 202a de salida se alimentan directamente al módulo 206 de combinación de características para el análisis. El módulo 206 combina las señales 202a de salida espectrales y las señales 204a de salida secundarias. Esta combinación puede presentarse en varias formas. Como un ejemplo, las señales 202a, 204a pueden combinarse mediante la concatenación, análisis de discriminación lineal (LDA) , transformado de componente principal (PCT) , u otra función aplicada a las salidas 202a, 204a juntas. En una modalidad diferente, el módulo 206 puede incluir subcomponentes 206a, 206b de procesamiento que modifican separadamente una o ambas de las señales 202a, 204a después de que el módulo 206 combina las señales 202a, 204a como modificadas. Si más de una transformación 204 secundaria se realiza, el módulo 206 puede incluir un número igual de componentes 206b. Cada subcomponente 206a, 206b puede realizar varias funciones tal como escalado (es decir, multiplicando) su señal de entrada mediante un coeficiente fijo o variable, cambiando el exponente de la señal de entrada, multiplicando la señal de entrada por sí misma una o más veces (automultiplicado) , u otros procesos o más lineales o no lineales. En esta modalidad, las señales modificadas entonces se combinan utilizando una de las técnicas anteriores, por ejemplo, concatenación, LDA, PCT, etc. Como se menciona en lo anterior, pueden existir múltiples módulos 204 de transformación secundario, cada uno de los cuales recibe una señal de entrada tal como la señal 201 de entrada o la salida 202a del extractor 202. En tal modalidad, el módulo 206 de combinación de características aún opera para combinar las señales de características espectrales con las señales de salida de la transformación secundaria, aunque las señales de salida de la transformación secundaria vienen de múltiples módulos 204 diferentes. El módulo 206 de combinación de características alimenta su salida a un motor 208 de modelaje estadístico, también referido como un "reconocedor" o una unidad de "comparación de patrones". El motor 208, el cual puede implementarse por un número de técnicas conocidas, produce una salida que comprende una respuesta 210 de reconocimiento. La respuesta 210 de reconocimiento constituye la estimación del sistema 200 del significado de la señal 201 vocal de entrada. El motor 208 incluye una entrada 208a de instrucción para recibir la entrada que instruye al motor 208 para reconocer cierto modelo o muestras de patrones de la palabra. Como un ejemplo particular, el motor 208 puede interferirse a la salida del módulo 206 en una tabla de consulta para obtener el significado representado de la señal 201 vocal de entrada, es decir, su "respuesta" .
Aparato de Procesamiento de Datos Digital Ejemplar Como se menciona en lo anterior, las entidades de procesamiento de datos, tales como el extractor 202, el módulo o módulos 204 de transformación secundaria, el módulo 206 de combinación de características, el motor 208 de modelaje estadístico y similares pueden implementarse en varias formas. Como un ejemplo, cada uno de estos componentes (o dos o más componentes colectivamente) pueden implementarse mediante un aparato de procesamiento de datos digital, como se ejemplifica por los componentes de hardware e interconexiones del aparato 200 de procesamiento de datos digital de la FIGURA 3. El aparato 300 incluye un procesador 302, tal como un microprocesador, computadora personal, estación de trabajo, u otra máquina de procesamiento, acoplado a un almacenaje 304. En el ejemplo actual, el almacenaje 304 incluye el almacenaje 306 de acceso rápido, así como almacenaje 308 no volátil. En un ejemplo del almacenaje 306 de acceso rápido es la memoria de acceso aleatorio ("RAM"), utilizada para almacenar las instrucciones de programación ejecutadas por el procesador 302. El almacenaje 308 no volátil puede comprender, por ejemplo, RAM de respaldo de batería, EEPROM, uno o más discos de almacenaje de datos magnéticos tales como una "unidad de disco duro", una unidad de cinta, o cualquier otro dispositivo de almacenaje adecuado. El aparato 300 también incluye una entrada/salida 310, tal como una línea, bus, cable, enlace electromagnético, u otro medio para que el procesador 302 intercambie datos con otro hardware externo al aparato 300. A pesar de la descripción anterior específica, personas con experiencia ordinaria en la técnica (teniendo el beneficio de esta descripción) reconocerán que el aparato discutido en lo anterior puede implementarse en una máquina de diferente construcción, sin apartarse del alcance de la invención. Como un ejemplo especifico, uno de los componentes 306, 308 puede eliminarse; además, el almacenaje 304, 306 y/o 308 pueden proporcionarse en la tarjeta del procesador 302, o aún proporcionarse externamente al aparato 300.
Circuitería Lógica En contraste al aparato de procesamiento de datos digital, discutido en lo anterior, una modalidad diferente de la invención utiliza circuitería lógica en lugar de instrucciones ejecutadas por computadora para implementar uno o todos los componentes del sistema 200. Dependiendo de los requerimientos particulares de la aplicación en las áreas de velocidad, gasto, costos de herramientas, y similares, esta lógica puede implementarse al construir un circuito integrado de aplicación específica ("ASIC") que tiene miles de transistores integrados diminutos. Tal ASIC puede implementarse con CMOS, TTL, VLSI, u otra construcción adecuada. Otras alternativas incluyen un chip de procesamiento de señal digital ("DSP"), circuitería discreta (tal como resistencias, condensadores, diodos, inductores, y transistores) , disposición de puerta programable de campo ("FPGA"), disposición lógica programable ( "PLA" ) , y similares.
Aplicación Telefónica Inalámbrica En una aplicación ejemplar, el sistema 200 de reconocimiento de voz puede implementarse en un teléfono 500 inalámbrico (FIGURA 5) , junto con otra circuitería conocida en la técnica o telefonía inalámbrica. El teléfono 500 incluye un altavoz 508, interfaz 510 de usuario, micrófono 514, transceptor 504, antena 506 y administrador 502. El administrador 502, el cual puede implementarse por la circuitería tal como aquella discutida en lo anterior junto con las FIGURAS 3-4, maneja la operación y el enrutamiento de señales entre los componentes 504, 508, 510 y 514. El administrador 502 incluye un módulo 502a de reconocimiento de voz, representado por el sistema 200, y que sirve para realizar una función tal como una decodificación de los comandos de la palabra de un operador humano del teléfono 500 con respecto a la marcación, manejo de llamadas, etc.
OPERACIÓN Habiendo descrito las características estructurales de la presente invención, el aspecto operacional de la presente invención ahora se describirá.
A diferencia de procedimientos convencionales que buscan la calidad de compacto y la simplicidad de la operación al remover características redundantes de la palabra de entrada antes del análisis, la presente invención analiza predeterminadamente las características redundantes de una señal de origen para poder realizar el reconocimiento de voz precisamente en una variedad de ambientes acústicos .
Medios de Soporte de Señales Donde quiera que la funcionalidad de la invención se implementa utilizando una o más secuencias de programas ejecutados por máquina, estas secuencias pueden representarse en varias formas de medios de soporte de señales. En el contexto de la FIGURA 3, tal medio de soporte de señales puede comprender, por ejemplo, el almacenaje 304, u otro medio de soporte de señales, tal como un disquete 400 de almacenaje de datos magnético (FIGURA 4) , directa o indirectamente accesible por un procesador 302. Si se contiene en el almacenaje 306, el disquete 400 o en otro sitio, las instrucciones pueden almacenarse en una variedad de medios de almacenaje de datos que se pueden leer por máquina. Algunos ejemplos incluyen almacenaje de acceso directo (por ejemplo, una "unidad de disco duro" convencional, una disposición redundante de discos económicos ("RAID"), u otro dispositivo de almacenaje de acceso directo ( "DASD" ) ) , almacenaje de acceso en serie tal como cinta magnética u óptica, memoria no volátil electrónica (por ejemplo ROM, EPROM, o EEPROM) , RAM de respaldo de batería, almacenaje óptico (por ejemplo, CD-ROM, WORM, DVD, cinta óptica digital) , tarjetas de papel "perforadas" , u otros medios de soporte de señales adecuados que incluyen medios de transmisión análogos o digitales y enlaces análogos y de comunicación y comunicaciones inalámbricas. En una modalidad ilustrativa de la invención, las instrucciones que se pueden leer por máquina pueden comprender códigos de objeto de software, compilado de un lenguaje tal como lenguaje de ensamblaje, C, etc.
Circuitería Lógica En contraste al medio de soporte de señales discutido en lo anterior parte o toda la funcionalidad de la invención puede implementarse utilizando circuitería lógica, en lugar de utilizar máquinas de procesamiento de instrucciones. Tal circuitería lógica por lo tanto se configura para realizar operaciones para llevar a cabo el método de la invención. La circuitería lógica puede implementarse utilizando muchos diferentes tipos de circuitería, como se discute en lo anterior.
Secuencia General de Operación La FIGURA 6 muestra una secuencia 600 para ilustrar un proceso de reconocimiento de voz ejemplar. Ampliamente, esta secuencia sirve para procesar señales vocales digitalizadas al analizar características redundantes para proporcionar reconocimiento de voz fuerte con más ruido. Para facilidad de explicación, pero sin ninguna limitación pretendida, el ejemplo de la FIGURA 6 se describe en el contexto del sistema 200 de reconocimiento de voz descrito en lo anterior. La secuencia se inicia en la etapa 602, donde la instrucción del sistema 200 se lleva a cabo. En la etapa 602 de instrucción, una señal 201 vocal de entrada ("palabra de instrucción") de características deseadas se alimenta al extractor 202 de características espectrales, y las etapas 604, 606, 608 (discutidas en lo siguiente) se realizan utilizando esta señal vocal de entrada. Por ejemplo, la palabra de instrucción puede comprender palabra modelo (para un sistema independiente de altavoz) o una palabra de muestra de persona particular (para un sistema dependiente del altavoz) . La salida del módulo 206 de combinación de características forma una plantilla de reconocimiento de voz, la cual se asocia con la palabra de instrucción al preparar una entrada 208a de instrucción (que significa el contenido de la palabra de instrucción) , proporcionando la entrada 208a a la máquina 208 de modelaje estadístico, e instruyendo a la máquina 208 para generar la respuesta de reconocimiento deseada en el futuro siempre que el sistema 200 encuentra palabra similar a la palabra de instrucción. Por ejemplo, si la señal 201 vocal de instrucción comprende la "lección" de palabra, entonces el texto "lección" se alimenta a la máquina 208 en asociación con la señal 201 vocal de instrucción. La discusión adicional de instrucción está disponible de muchas fuentes, ya que muchas diferentes técnicas para instruir sistemas de reconocimiento de voz se conocen bien en la técnica. Algunos esquemas de instrucción ejemplares se discuten en los siguientes materiales, cada uno incorporado en la presente para referencia en su totalidad: (1) Solicitud de Patente Norteamericana 09/248,513 titulada "Esquema de Rechazo de Reconocimiento de Voz" , presentada el 8 de febrero de 1999, (2) Solicitud de Patente Norteamericana 09/225,891 titulada "Sistema y Método para Segmentación y Reconocimiento de Señales Vocales" , presentada el 4 de enero de 1999, y (3) Solicitud de Patente Norteamericana 09/615,572 titulada "Método y Aparato para Construir Plantillas de Voz para un Sistema de Reconocimiento de Voz Independiente del Altavoz", presentada el 13 de julio del 2000. La instrucción adicional puede llevarse a cabo en momentos posteriores (no mostrado) cuando se requiera o se desee . i Después de que se concluye cierta instrucción
602, una señal 201 vocal de entrada de no instrucción se ingresa al extractor 202 de características espectrales (etapa 604) . Esta señal 201 es para lo que se desea el reconocimiento de voz. También, en la etapa 604, el extractor 202 realiza una transformación espectral con la señal 201 vocal de entrada, que extrae las características espectrales de la señal 201 vocal de entrada y proporciona las características espectrales extraídas como la salida 202a. Una técnica de extracción espectral ejemplar incluye codificación profética lineal (LPC) , la cual se describe en la Patente Norteamericana No. 5,414,796, titulada "Codificador de Velocidad Variable" es completamente incorporado en la presente para referencia, y la referencia antes citada de Rabiner et al., Procesamiento Digital de Señales Vocales. En la etapa 606, el módulo 204 de transformación secundaria aplica la transformación secundaria a la salida 202a espectral. En el ejemplo ilustrado, el módulo 204 aplica una transformación cepstral a la salida 202a. Opcionalmente , la etapa 606 también puede realizar una o más transformaciones secundarias adicionales (cepstral u otros tipos) en paralelo con la transformación 204 ilustrada. Como se menciona en lo anterior, todas las transformaciones secundarias son estadísticamente dependientes de la transformación espectral de la etapa 604, significando que existe cierta información común llevada por las salidas 202a y 204b. En la etapa 608, el módulo 206 combina la salida 202a espectral con la salida o salidas 204a secundarias del módulo 204 y cualesquier otros módulos de la transformación secundaria, si se implementa. Para facilidad de discusión, el presente ejemplo se limita al caso donde se utiliza una transformación secundaria sencilla. Como se menciona en lo anterior, la combinación de la etapa 608 puede presentarse en varias formas. Por ejemplo, el módulo 206 puede combinar las señales 202a, 204a mediante concatenación, LDA, PCT, u otra función. En una modalidad diferente, los subcomponentes 206a, 206b de procesamiento primero modifican una o más de las señales 202a, 204a separadamente, después de que el módulo 206 combina las señales modificadas. Cada subcomponente 206a, 206b puede realizar una función tal como escalado (es decir multiplicado) , de la señal de entrada mediante un coeficiente fijo o variable, cambiando el exponente de la señal de entrada, multiplicando la señal de entrada por sí misma, una o más veces, u otros procesos más no lineales o lineales. En esta modalidad, las señales como se modifican por 206a, 206b entonces se combinan por una de las técnicas anteriores, por ejemplo, concatenación, LDA, PCT, etc. En la etapa 610, el motor 208 de modelaje estadístico genera una respuesta de reconocimiento, que representa el contenido estimado de la señal 201 vocal de entrada. La etapa 610 se realiza por la comparación de patrones de la señal del módulo 206 contra el conjunto predeterminado de plantillas de reconocimiento de voz que se prepararon en la etapa 602.
OTRAS MODALIDADES Aunque la descripción anterior muestra un número de modalidades ilustrativas de la invención, será aparente para aquellos con experiencia en al técnica que varios cambios y modificaciones pueden hacerse en la presente sin apartarse del alcance de la invención como se define por las reivindicaciones anexas. Además, aunque elementos de la invención pueden describirse o reclamarse en singular, el plural se contempla a menos que se establezca explícitamente la limitación al singular. Adicionalmente, las personas con experiencia en la técnica reconocerán que secuencias de operaciones deben establecerse en algún orden específico para el propósito de explicación y reclamación, pero la presente invención contempla varios cambios más allá del orden específico.
Claims (28)
- NOVEDAD DE LA INVENCIÓN Habiendo descrito la presente invención se considera como novedad y por lo tanto se reclama como propiedad lo descrito en las siguientes reivindicaciones.
- REIVINDICACIONES 1. Un método para procesar señales vocales, caracterizado porque comprende las operaciones de: aplicar una transformación primaria a una señal vocal de entrada digital para extraer características primarias de la misma; aplicar cada una de por lo menos una transformación secundaria a una de la señal vocal de entrada y las características primarias para proporcionar características secundarias estadísticamente dependientes de las características primarias; aplicar por lo menos una función predeterminada para formar una señal combinada que comprende una combinación de las características primarias con las características secundarias; generar una respuesta de reconocimiento al comparar los patrones de la señal combinada contra las plantillas de reconocimiento de voz predeterminadas. 2. El método de conformidad con la reivindicación 1, caracterizado porque la transformación primaria comprende una transformación espectral .
- 3. El método de conformidad con la reivindicación 1, caracterizado porque la transformación primaria comprende producción de una representación de frecuencias de tiempo de la señal vocal de entrada.
- 4. El método de conformidad con la reivindicación 1, caracterizado porque la transformación primaria comprende una transformación espectral y la transformación secundaria comprende una transformación cepstral .
- 5. El método de conformidad con la reivindicación 1, caracterizado porque la función predeterminada comprende : utilizar por lo menos uno de lo siguiente para combinar las características primarias y las características secundarias: análisis discriminativo lineal, transferencia de componente principal, concatenación.
- 6. El método de conformidad con la reivindicación 1, caracterizado porque la función predeterminada comprende : modificar separadamente uno o más de lo siguiente: las características primarias, las características secundarias; aplicar por lo menos una función predeterminada para formar una señal combinada que comprende una combinación de las características primarias que incluyen cualquiera de las modificaciones con las características secundarias que incluyen cualquiera de las modificaciones.
- 7. El método de conformidad con la reivindicación 6, caracterizado porque cada una de las operaciones que se modifican separadamente comprende por lo menos uno de lo siguiente : escalado, cambio de potencia, automultiplicado, exponenciación.
- 8. El método de conformidad con la reivindicación 1, caracterizado porque además comprende: formar las plantillas de reconocimiento de voz al realizar cada una de las operaciones de aplicación y generación a las señales de instrucción predeterminadas .
- 9. Un medio de soporte de señales que representa tangiblemente un programa de instrucciones que se pueden leer por máquina que se pueden ejecutar por un aparato de procesamiento digital para realizar operaciones para procesar señales vocales, las operaciones están caracterizadas porque comprenden: aplicar una transformación primaria a una señal vocal de entrada digital para extraer características primarias de la misma; aplicar cada una de por lo menos una transformación secundaria a una de la señal vocal de entrada y las características primarias para proporcionar características secundarias estadísticamente dependientes de las características primarias; aplicar por lo menos a una función predeterminada para formar una señal combinada que comprende una combinación de las características primarias con las características secundarias ; generar una respuesta de reconocimiento al comparar los patrones de la señal combinada contra las plantillas de reconocimiento de voz predeterminadas.
- 10. El medio de conformidad con la reivindicación 9, caracterizado porque la transformación primaria comprende una transformación espectral .
- 11. El medio de conformidad con la reivindicación 9, caracterizado porque la transformación primaria comprende la producción de una representación de frecuencia de tiempo de la señal vocal de entrada.
- 12. El medio de conformidad con la reivindicación 9, caracterizado porque la transformación primaria comprende una transformación espectral y la transformaci n secundaria comprende una la transformación cepstral .
- 13. El medio de conformidad con la reivindicación 9, caracterizado porque la función predeterminada comprende : utilizar por lo menos uno de lo siguiente para combinar las características primarias y las características secundarias: análisis discriminativo lineal, transferencia de componente principal, concatenación .
- 14. El medio de conformidad con la reivindicación 9, caracterizado porque la función predeterminada comprende: modificar separadamente uno o más de lo siguiente: las características primarias, las características secundarias; aplicar por lo menos una función predeterminada para formar una señal combinada que comprende una combinación de las características primarias que incluyen cualquiera de las modificaciones con las características secundarias que incluyen cualquiera de las modificaciones .
- 15. El medio de conformidad con la reivindicación 14, caracterizado porque cada una de las operaciones de modificación separadamente comprende por lo menos uno de lo siguiente : escalado, cambio de potencia, automultiplicación, exponenciación .
- 16. El medio de conformidad con la reivindicación 9, caracterizado porque además comprende: formar las plantillas de reconocimiento de voz al realizar cada una de las operaciones de aplicación y generación a las señales de instrucción predeterminadas .
- 17. Una circuitería de múltiples elementos eléctricamente conductivos interconectados configurados para realizar operaciones para procesar señales vocales, las operaciones están caracterizadas porque comprenden: aplicar una transformación primaria a una señal vocal de entrada digital para extraer características primarias de la misma; aplicar cada una de por lo menos una transformación secundaria a una de la señal vocal de entrada y las características primarias para proporcionar características secundarias estadísticamente dependientes de las características primarias; aplicar por lo menos una función predeterminada para formar una señal combinada que comprende una combinación de las características primarias con las características secundarias; generar una respuesta de reconocimiento al comparar los patrones de la señal combinada contra las plantillas de reconocimiento de voz predeterminadas.
- 18. La circuitería de conformidad con la reivindicación 17, caracterizada porque la transformación primaria comprende una transformación espectral .
- 19. La circuitería de conformidad con la reivindicación 17, caracterizada porque la transformación primaria comprende la producción de una representación de frecuencia de tiempo de la señal vocal de entrada.
- 20. La circuitería de conformidad con la reivindicación 17, caracterizada porque la transformación primaria comprende una transformación espectral y la transformación secundaria comprende una transformación cepstral .
- 21. La circuitería de conformidad con la reivindicación 17, caracterizada porque la función predeterminada comprende : utilizar por lo menos uno de lo siguiente para combinar las características primarias y las características secundarias: análisis discriminativo lineal, transferencia del componente principal, concatenación .
- 22. La circuitería de conformidad con la reivindicación 17, caracterizada porque la función predeterminada comprende: modificar separadamente uno o más de lo siguiente: las características primarias, las características secundarias; aplicar por lo menos una función predeterminada para formar una señal combinada que comprende una combinación de las características primarias que incluyen cualquiera de las modificaciones con las características secundarias que incluyen cualquiera de las modificaciones .
- 23. La circuitería de conformidad con la reivindicación 22, caracterizada porque cada una de las operaciones que se modifican separadamente comprende por lo menos uno de lo siguiente: escalado, cambio de potencia, automultiplicación, exponenciación .
- 24. La circuitería de conformidad con la reivindicación 17, caracterizada porque además comprende: formar las plantillas de reconocimiento de voz al realizar cada una de las operaciones de aplicación y generación a las señales de instrucción predeterminadas .
- 25. Un sistema de reconocimiento de voz, caracterizado porque comprende: un extractor de características primarias que aplican una función primaria para extraer características primarias de una señal vocal de entrada digital; por lo menos un módulo de transformación secundaria que produce cada uno características secundarias que dependen estadísticamente de las características primarias al aplicar una función secundaria a una entrada que comprende uno de lo siguiente : la señal vocal de entrada, las características primarias ; un módulo de combinación de características acoplado al extractor de características primarias y cada uno de los módulos de transformación secundaria para aplicar una o más funciones predeterminadas para combinar las características primarias con las características secundarias que forman una señal combinada; un motor de modelaje estadístico, acoplado al módulo de combinación de características para generar una respuesta de reconocimiento al comparar los patrones de la señal combinada contra las plantillas de reconocimiento de voz predeterminadas .
- 26. Un sistema de reconocimiento de voz, caracterizado porque comprende: medio extractor de características primarias para aplicar una función primaria para extraer características primarias de una señal vocal de entrada digital ; medio de transformación secundaria para producir características secundarias que dependen estadísticamente de las características primarias al aplicar por lo menos una función secundaria a una entrada que comprende uno de lo siguiente : la señal vocal de entrada, las características primarias ; medio de combinación de características para aplicar una o más funciones predeterminadas para combinar las características primarias con las características secundarias que forman una señal combinada; medio de modelaje estadístico para generar una respuesta de reconocimiento al comparar los patrones de las características combinadas con las plantillas de reconocimiento de voz predeterminadas .
- 27. Un dispositivo de comunicación inalámbrico, caracterizado porque comprende: un transceptor acoplado a una antena; un altavoz; un micrófono; una interfaz de usuario; un administrador acoplado a los componentes que incluyen en transceptor, el altavoz, el micrófono, la interfaz de usuario para manejar la operación de los componentes, el administrador incluye un sistema de reconocimiento de voz configurado para realizar operaciones que comprenden: aplicar una transformación primaria a una señal vocal de entrada digital para extraer las características primarias de la misma; aplicar cada una de por lo menos una transformación secundaria a una de la señal vocal de entrada y las características primarias para proporcionar características secundarias estadísticamente dependientes de las características primarias; aplicar por lo menos una función predeterminada para formar una señal combinada que comprende una combinación de las características primarias con las características secundarias; generar una respuesta de reconocimiento al comparar los patrones de la señal combinada contra las plantillas de reconocimiento de voz predeterminadas.
- 28. Un dispositivo de comunicación inalámbrico, caracterizado porque comprende: un transceptor acoplado a una antena; un altavoz; un micrófono; una interfaz de usuario; medios para generar la operación del transceptor, altavoz, micrófono e interfaz de usuario; el medio para manejar además incluye medios para realizar reconocimiento de voz al: aplicar una transformación primaria a una señal vocal de entrada digital para extraer las características primarias de la misma; aplicar cada una de por lo menos una transformación secundaria a una de la señal vocal de entrada y las características primarias para proporcionar características secundarias estadísticamente dependientes de las características primarias; aplicar por lo menos una función predeterminada para formar una señal combinada que comprende una combinación de las características primarias con las características secundarias; generar una respuesta de reconocimiento al comparar los patrones de la señal combinada contra las plantillas de reconocimiento de voz predeterminadas.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/104,178 US6957183B2 (en) | 2002-03-20 | 2002-03-20 | Method for robust voice recognition by analyzing redundant features of source signal |
PCT/US2003/008806 WO2003081576A1 (en) | 2002-03-20 | 2003-03-19 | Method for robust voice recognition by analyzing redundant features of source signal |
Publications (1)
Publication Number | Publication Date |
---|---|
MXPA04009077A true MXPA04009077A (es) | 2004-12-13 |
Family
ID=28040524
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
MXPA04009077A MXPA04009077A (es) | 2002-03-20 | 2003-03-19 | Metodo para el reconocimiento de voz fuerte analizando caracteristicas redundantes de la senal de origen. |
Country Status (6)
Country | Link |
---|---|
US (1) | US6957183B2 (es) |
CN (1) | CN1653519B (es) |
AU (1) | AU2003225928A1 (es) |
MX (1) | MXPA04009077A (es) |
TW (1) | TWI300214B (es) |
WO (1) | WO2003081576A1 (es) |
Families Citing this family (117)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
JP2005043666A (ja) * | 2003-07-22 | 2005-02-17 | Renesas Technology Corp | 音声認識装置 |
US6995622B2 (en) * | 2004-01-09 | 2006-02-07 | Robert Bosh Gmbh | Frequency and/or phase compensated microelectromechanical oscillator |
KR100571574B1 (ko) * | 2004-07-26 | 2006-04-17 | 한양대학교 산학협력단 | 비선형 분석을 이용한 유사화자 인식방법 및 그 시스템 |
US8219391B2 (en) * | 2005-02-15 | 2012-07-10 | Raytheon Bbn Technologies Corp. | Speech analyzing system with speech codebook |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
CN101292280B (zh) * | 2005-10-17 | 2015-04-22 | 皇家飞利浦电子股份有限公司 | 导出音频输入信号的一个特征集的方法 |
US20070239444A1 (en) * | 2006-03-29 | 2007-10-11 | Motorola, Inc. | Voice signal perturbation for speech recognition |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
WO2011089450A2 (en) | 2010-01-25 | 2011-07-28 | Andrew Peter Nelson Jerram | Apparatuses, methods and systems for a digital conversation management platform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
TWI412019B (zh) | 2010-12-03 | 2013-10-11 | Ind Tech Res Inst | 聲音事件偵測模組及其方法 |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
CN102290047B (zh) * | 2011-09-22 | 2012-12-12 | 哈尔滨工业大学 | 基于稀疏分解与重构的鲁棒语音特征提取方法 |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
CN102646415B (zh) * | 2012-04-10 | 2014-07-23 | 苏州大学 | 一种语音识别中的特征参数提取方法 |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
WO2014018004A1 (en) * | 2012-07-24 | 2014-01-30 | Nuance Communications, Inc. | Feature normalization inputs to front end processing for automatic speech recognition |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US8935167B2 (en) * | 2012-09-25 | 2015-01-13 | Apple Inc. | Exemplar-based latent perceptual modeling for automatic speech recognition |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
WO2014144949A2 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | Training an at least partial voice command system |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
KR101772152B1 (ko) | 2013-06-09 | 2017-08-28 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
CN105265005B (zh) | 2013-06-13 | 2019-09-17 | 苹果公司 | 用于由语音命令发起的紧急呼叫的系统和方法 |
CN103811020B (zh) * | 2014-03-05 | 2016-06-22 | 东北大学 | 一种智能语音处理方法 |
CN105139855A (zh) * | 2014-05-29 | 2015-12-09 | 哈尔滨理工大学 | 一种两阶段稀疏分解的说话人识别方法与装置 |
WO2015184186A1 (en) | 2014-05-30 | 2015-12-03 | Apple Inc. | Multi-command single utterance input method |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA1232686A (en) | 1985-01-30 | 1988-02-09 | Northern Telecom Limited | Speech recognition |
US5517558A (en) * | 1990-05-15 | 1996-05-14 | Voice Control Systems, Inc. | Voice-controlled account access over a telephone network |
AU671952B2 (en) * | 1991-06-11 | 1996-09-19 | Qualcomm Incorporated | Variable rate vocoder |
US5450522A (en) * | 1991-08-19 | 1995-09-12 | U S West Advanced Technologies, Inc. | Auditory model for parametrization of speech |
US5381512A (en) * | 1992-06-24 | 1995-01-10 | Moscom Corporation | Method and apparatus for speech feature recognition based on models of auditory signal processing |
JP2737624B2 (ja) * | 1993-12-27 | 1998-04-08 | 日本電気株式会社 | 音声認識装置 |
JPH08123462A (ja) * | 1994-10-27 | 1996-05-17 | Sony Corp | 音声認識装置 |
US6671404B1 (en) * | 1997-02-14 | 2003-12-30 | Hewlett-Packard Development Company, L.P. | Method and apparatus for recognizing patterns |
-
2002
- 2002-03-20 US US10/104,178 patent/US6957183B2/en not_active Expired - Lifetime
-
2003
- 2003-03-19 WO PCT/US2003/008806 patent/WO2003081576A1/en not_active Application Discontinuation
- 2003-03-19 MX MXPA04009077A patent/MXPA04009077A/es active IP Right Grant
- 2003-03-19 CN CN038106914A patent/CN1653519B/zh not_active Expired - Fee Related
- 2003-03-19 AU AU2003225928A patent/AU2003225928A1/en not_active Abandoned
- 2003-03-20 TW TW092106184A patent/TWI300214B/zh active
Also Published As
Publication number | Publication date |
---|---|
AU2003225928A1 (en) | 2003-10-08 |
CN1653519A (zh) | 2005-08-10 |
TWI300214B (en) | 2008-08-21 |
US20030182115A1 (en) | 2003-09-25 |
TW200306526A (en) | 2003-11-16 |
CN1653519B (zh) | 2012-04-04 |
US6957183B2 (en) | 2005-10-18 |
WO2003081576A1 (en) | 2003-10-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6957183B2 (en) | Method for robust voice recognition by analyzing redundant features of source signal | |
US7035797B2 (en) | Data-driven filtering of cepstral time trajectories for robust speech recognition | |
AU656787B2 (en) | Auditory model for parametrization of speech | |
US8438026B2 (en) | Method and system for generating training data for an automatic speech recognizer | |
US7133826B2 (en) | Method and apparatus using spectral addition for speaker recognition | |
Xiao et al. | Normalization of the speech modulation spectra for robust speech recognition | |
EP1500087B1 (en) | On-line parametric histogram normalization for noise robust speech recognition | |
US20060206321A1 (en) | Noise reduction using correction vectors based on dynamic aspects of speech and noise normalization | |
EP1250699B1 (en) | Speech recognition | |
US6182036B1 (en) | Method of extracting features in a voice recognition system | |
EP1913591B1 (en) | Enhancement of speech intelligibility in a mobile communication device by controlling the operation of a vibrator in dependance of the background noise | |
WO2007041789A1 (en) | Front-end processing of speech signals | |
Ziółko et al. | Wavelet method of speech segmentation | |
CN116229987B (zh) | 一种校园语音识别的方法、装置及存储介质 | |
CN115938364A (zh) | 一种智能识别控制方法、终端设备及可读存储介质 | |
Uhle et al. | Speech enhancement of movie sound | |
EP1353322A2 (en) | Method for extracting voice signal features and related voice recognition system | |
JP3531342B2 (ja) | 音声処理装置および音声処理方法 | |
US7225124B2 (en) | Methods and apparatus for multiple source signal separation | |
Mallidi et al. | Robust speaker recognition using spectro-temporal autoregressive models. | |
Shareef et al. | Comparison between features extraction techniques for impairments arabic speech | |
CN114694672A (zh) | 语音增强方法、装置及设备 | |
JP3346200B2 (ja) | 音声認識装置 | |
Kalamani et al. | Comparison Of Cepstral And Mel Frequency Cepstral Coefficients For Various Clean And Noisy Speech Signals | |
CN116913296A (zh) | 音频处理方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FG | Grant or registration |