MXPA98003964A - Integracion de modelos multiples para el reconocimiento del habla en ambientes multiples - Google Patents

Integracion de modelos multiples para el reconocimiento del habla en ambientes multiples

Info

Publication number
MXPA98003964A
MXPA98003964A MXPA/A/1998/003964A MX9803964A MXPA98003964A MX PA98003964 A MXPA98003964 A MX PA98003964A MX 9803964 A MX9803964 A MX 9803964A MX PA98003964 A MXPA98003964 A MX PA98003964A
Authority
MX
Mexico
Prior art keywords
models
recognition
acoustic environment
regulation
speech
Prior art date
Application number
MXPA/A/1998/003964A
Other languages
English (en)
Inventor
G Rahim Mazin
Original Assignee
At&T Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by At&T Corp filed Critical At&T Corp
Publication of MXPA98003964A publication Critical patent/MXPA98003964A/es

Links

Abstract

Un sistema de reconocimiento del habla que reconoce de manera efectiva el habla desconocida de los ambientes acústicos múltiples, incluye un conjunto de modelos secundarios, cada uno asociado con uno o más ambientes acústicos, particulares, integrados con un conjunto base de modelos de reconocimiento. El sistema de reconocimiento del habla se regula al crear un conjunto de modelos secundarios en una primera etapa de regulación a integrar el conjunto de modelos secundarios con un conjunto base de modelos de reconocimiento en una segunda etapa de regulación.

Description

INTEGRACIÓN DE MODELOS MÚLTIPLES PARA EL RECONOCIMIENTO DEL HABLA EN AMBIENTES MÚLTIPLES CAMPO DE LA INVENCIÓN Esta invención se refiere, en general, a sistemas de reconocimiento del habla, y más particularmente a un sistema que integra un conjunto de modelos "paralelos" y un conjunto base de modelos de reconocimiento para reducir el desajuste acústico.
ANTECEDENTES DE LA INVENCIÓN El reconocimiento del habla es un proceso mediante el cual se identifica una pronunciación del habla, desconocida (usualmente en la forma de una señal PCM, ' digital). En general, el reconocimiento del habla se realiza al comparar las características de una pronunciación desconocida a las características de palabras o series de palabras conocidas. Las características de palabras o series de palabras conocidas se determinan con un proceso conocido como "regulación c adaptación". A través REF: 027072 de la regulación o adaptación, se examinan una o más muestras de palabras o series de palabras conocidas (regulación del habla) y sus características (o rasgos distintivos) registradas como patrones de referencia (o modelos de reconocimiento) en una base de datos de un dispositivo reconocedor del habla. Típicamente, cada modelo de reconocimiento representa una palabra conocida, individual. Sin embargo, los modelos de reconocimiento pueden representar el habla de otras longitudes tales como subpalabras (por ejemplo, sonidos del habla, los cuales son la manifestación acústica de fonemas basados lingüísticamente) . Los modelos de reconocimiento se pueden considerar como bloques de construcción para las palabras y series de palabras, tales como frases u oraciones. Para reconocer una pronunciación en un proceso conocido como "prueba", un dispositivo reconocedor del habla extrae- las características de la pronunciación para caracterizarla. Las características de la pronunciación desconocida se refieren como un patrón de prueba. El dispositivo reconocedor luego compara las combinaciones de uno o más modelos de reconocimiento en la base de datos al patrón de prueba de la pronunciación desconocida. Una técnica de registro se utiliza para proporcionar una medida relativa de que tan bien cada combinación de los modelos de reconocimiento iguala el patrón de prueba. La pronunciación desconocida se reconoce como las palabras asociadas con la combinación de uno o más modelos de reconocimiento los cuales igualan más estrechamente la pronunciación desconocida. Los dispositivos reconocedores, regulados que utilizan tanto la primera y segunda estadísticas de ordenamiento (es decir, medios y variaciones espectrales) de muestras del habla conocidas se conocen como dispositivos reconocedores del modelo Markov oculto o secreto (HMM) . Cada modelo de reconocimiento en este tipo de dispositivo reconocedor es un modelo estadístico de estado N (un HMM) que refleja estas estadísticas. Cada estado de un HMM corresponde en algún sentido a las estadísticas asociadas con los casos temporales de muestras de una palabra o subpalabra conocida. Un HMM se caracteriza por una matriz de transición de estado, A (que proporciona una descripción estadística de como los nuevos estados se pueden alcanzar desde los estados viejos), y una matriz de probabilidad de observación, B (que proporciona una descripción de la cual las características espectrales que se deben observar probablemente en un estado dado) . El registro de un patrón de prueba refleja la probabilidad de la ocurrencia de la secuencia de características del patrón de prueba dadas de un modelo particular. El registro a través de todos los modelos se puede proporcionar mediante técnicas de programación dinámica, eficientes, tales como el registro de Viterbi. El HMM o secuencia del mismo que indica la probabilidad más alta de la secuencia de características en la ocurrencia del patrón de prueba identifica el patrón de prueba. Las pronunciaciones de prueba y/o de regulación pueden venir de varios tipos de ambientes acústicos. Cada ambiente acústico (por ejemplo, una edad, un sexo, un tipo de micrófono, una configuración del cuarto, etc.) produce la distorsión y artefactos acústicos que son característicos del ambiente acústico. Una señal de habia transmitida a través de un teléfono (u otro tipo de) canal frecuentemente encuentra condiciones variables desconocidas que degradan significantemente el desempeño de les sistemas de reconocimiento del habla en base al HMM. Los componentes indeseables se adicionan a la porción comunicativa de la señal debido al ruido ambiental e interferencia del canal, así como también del equipo de captación de sonido, diferente y efectos articulatorios. El ruido se considera que es aditivo a una señal del habla. El espectro de una señal de ruido real, tal como aquel producido de ventiladores y motores, en general no es plano y puede degradar el desempeño del sistema de reconocimiento del habla. La interferencia del canal, que puede ser lineal o no lineal, también puede degradar el desempeño de reconocimiento del habla . Un canal de teléfono convencional, típico, efectivamente filtra el paso de banda de una señal transmitida entre 200 Hz y 3200 Hz, con atenuaciones variables a través de diferentes bandas espectrales. El uso de diferentes micrófonos, en diferentes condiciones ambientales, para los diferentes .tablantes de diferentes regiones geográficas, ::r. acentos diferentes, que hablan diferentes día -.•= _-r cs puede crear un desajuste acústico entre las .señales del habla encontradas en la prueba y los modelos de reconocimiento regulados a partir de otras señales del habla. Los esfuerzos anteriores se han dirigido a resolver el problema de mantener la robustez en el reconocimiento del habla, automático para una variedad de condiciones acústicas "desajustadas" que existen entre los ambientes acústicos de regulación y prueba. Por ejemplo, al asumir un modelo sin afectación o natural del desajuste, es posible aplicar alguna forma de ecualización ciega para minimizar la distorsión del canal y efectos transductores acústicos. También, al asumir el conocimiento anterior de las estadísticas de la señal de interferencia, es posible combinar esta información durante el proceso de reconocimiento para simular un ambiente de prueba "igualado". Claramente, las suposiciones inherentes en tales métodos limitan su capacidad de generalización cuando se extienden a ios ambientes acústicos múltiples, aplicaciones, condiciones de red, etc. Para crear un sistema de reconocimiento del habla, en general, más aplicable a ambientes acústicos, diferentes, múltiples, ha habido intentos para reunir enormes cantidades de datos de regulación acústicamente diversos, de muchos tipos de ambientes acústicos, para a partir de los cuales regular los modelos de reconocimiento del sistema de reconocimiento. Esto requiere una base de datos del modelo de reconocimiento, 'grande con tamaño de memoria concomitante y tiempo de procesamiento incrementado. Frecuentemente, una amplia variedad de datos de regulación no es fácilmente disponible, o es costoso obtenerla. Los conjuntos separados, múltiples de modelos de reconocimiento se han regulado en un intento para crear sistemas de reconocimiento del habla más robustos, cada conjunto que está asociado con un ambiente acústico, particular, tal como por ejemplo uno para los hombres y otro para las mujeres. Los conjuntos separados de modelos de reconocimiento se operan de manera simultánea. En la prueba, se reconoce un patrón de prueba utilizando todos los (por ejemplo ambos) conjuntos de modelos de reconocimiento y luego se selecciona el más alto de los registros múltiples (por ejemplo, dos) para generar la pronunciación reconocida. Este arreglo implica una necesidad por dos veces el tamaño de memoria y dos veces el tiempo de procesamiento.
BREVE DESCRIPCIÓN DE LA INVENCIÓN La presente invención proporciona un sistema de reconocimiento del habla en el cual un conjunto de modelos "paralelos" (o "secundarios"), cada uno asociado con uno o más ambientes acústicos, particulares, se integra con un conjunto base de modelos de reconocimiento y que reconoce efectivamente el habla desconocida que viene de ambientes acústicos, múltiples. En una modalidad ilustrativa de la invención, el sistema de reconocimiento del habla se regula al crear un conjunto de modelos paralelos en una primera etapa de regulación; e integrar el conjunto de modelos paralelos con un conjunto base de modelos de- reconocimiento en una segunda etapa de regulación. Más específicamente, en la primera etapa de regulación del sistema de reconocimiento del habla, un conjunto base de modelos de reconocimiento se almacena en una base de datos de reconocimiento. El conjunto base se divide en conjuntos N de modelos actuales, con lo cual se definen los ambientes acústicos N que corresponden a los conjuntos N de modelos actuales. Los conjuntos N de modelos actuales se almacenan en una base de datos de clasificación. Las pronunciaciones de regulación conocidas se registran contra cada uno de los conjuntos N de modelos actuales. Cada una de las pronunciaciones de regulación conocidas se asignan a uno de los ambientes acústicos definidos N en base al registro más alto de la pronunciación de regulación conocida para los conjuntos N de modelos actuales. Cada uno de los conjuntos N de los modelos asociados con los ambientes acústicos, particulares N se regula aplicando discriminación en las pronunciaciones de regulación conocidas, asignadas a ese ambiente acústico, particular, con lo cual se crean los conjuntos N de los nuevos modelos. Los conjuntos N de los nuevos modelos se almacenan en la base de datos de clasificación en lugar de los conjuntos N de los modelos actuales. Los pasos de registro de las pronunciaciones de regulación conocidas contra cada uno de los conjuntos N de los modelos, que asignan cada una de las pronunciaciones de regulación conocidas a uno de los ambientes acústicos definidos N, y que regulan aplicando discriminación los conjuntos N de los nuevos modelos en las pronunciaciones de regulación conocidas, asignadas a ese ambiente acústico, particular, se repiten hasta que las pronunciaciones de regulación conocidas no se reasignan más a los ambientes acústicos, particulares como resultado del proceso iterativo. Los conjuntos N de nuevos los modelos nuevamente pueden ser divididos en conjuntos N' de modelos y los pasos del proceso iterativo, antes mencionados repetidos hasta que no se desee más definir ambientes acústicos adicionales. Entonces, en la segunda etapa de regulación del sistema de reconocimiento del habla, para cada uno de los ambientes acústicos, particulares, definidos en la etapa de regulación uno, el conjunto base de modelos de reconocimiento se regula aplicando discr minación utilizando las pronunciaciones de regulación conocidas, asignadas a ese ambiente acústico, particular para proyectar el conjunto base de modelos de reconocimiento a un nuevo espacio del modelo que iguala ese ambiente acústico, particular. El conjunto de diferencias entre el estado de los parámetros del modelo del conjunto base de los rr- elcs de reconocimiento antes de la regulación dis iminatoria y el estado de los parámetros del r celo después de ia regulación discriminatoria corresponde a la distorsión debido al ambiente acústico, particular. Las diferencias se agrupan para ahorrar memoria, y tal conjunto limitado de diferencias se salva como el proyector para ajustar el conjunto base de los modelos de reconocimiento para reflejar ese ambiente acústico, particular. Como resultado, cada modelo paralelo incluye un clasificador y un proyector, en donde el proyector es el conjunto limitado de diferencias para ese ambiente acústico, particular que se puede aplicar para transformar el conjunto base de los modelos de reconocimiento para reflejar ese ambiente acústico. En una modalidad ilustrativa, el sistema de reconocimiento del habla incluye un transductor acústico y recibe el habla desconocida en la forma de ondas sonoras. El transductor acústico convierte las ondas sonoras en una señal del habla desconocida, eléctrica. Un extractor de características genera una secuencia de vectores de características que caracteriza la señal del habla desconocida. Un procesador clasificador identifica un ambiente acústico del habla desconocida en base a la secuencia de vectores de características utilizando el conjunto de modelos paralelos, cada uno asociado con un ambiente acústico, particular, almacenado en la base de datos de clasificación. El procesador clasificador selecciona un proyector de uno del conjunto de modelos paralelos que corresponde al ambiente acústico identificado. El proyector seleccionado se aplica al conjunto base de modelos de reconocimiento almacenados en la base de datos de reconocimiento, con lo cual se ajusta el conjunto de modelos de reconocimiento para igualar de manera adecuada el ambiente acústico identificado del habla desconocida. Una pluralidad de los modelos de reconocimiento ajustados se compara con la secuencia de vectores de características para determinar un registro de comparación para cada uno de tales modelos. El registro de comparación más alto se selecciona y el habla desconocida se reconoce en base al registro más alto. Otros aspectos y ventajas de la invención llegarán a ser aparentes a partir de la siguiente descripción detallada y dioujos que la acompañan, que ilustran a manera de ejemplo las características de la invención.
BREVE DESCRIPCIÓN DE LOS DIBUJOS En el dibujo: la FIGURA 1 es una vista esquemática que ilustra un sistema de reconocimiento del habla de acuerdo con los principios de la invención; la FIGURA 2 es un diagrama de flujo del proceso que ilustra una primera etapa de regulación de acuerdo con los principios de la invención; la FIGURA 3 es un diagrama de flujo del proceso que ilustra una segunda etapa de regulación de acuerdo con los principios de la invención; y la FIGURA 4 es un diagrama que ilustra la exactitud de la palabra contra el número de diferencias en el proyector para un ambiente acústico, alámbrico de acuerdo con los principios de la invención.
DESCRIPCIÓN DETALLADA Para un mejor entendimiento de la invención, conjuntamente con otros objetivos, ventajas y capacidades adicionales de la misma, se hace referencia a la siguiente descripción y las figuras del dibujo, donde los caracteres de referencia similares designan elementos iguales o similares . Por claridad de explicación, las modalidades ilustrativas de la presente invención se presentan como que comprenden bloques funcionales, individuales (inclusive bloques funcionales marcados como "procesadores") . Las funciones que estos bloques representan se pueden proporcionar a través del uso de ya sea componentes físicos compartidos o especializados, inclusive, pero no limitados a, componentes físicos capaces de ejecutar el equipo lógico. Por ejemplo, las funciones de los procesado es, presentadas en la FIGURA 1, se pueden proporcionar por un procesador compartido, individual. ?l uso del término "procesador" no se debe interpretar que se refiere exclusivamente a los componentes físicos capaces de ejecutar el equipo lógico .
Las modalidades ilustrativas pueden comprender componentes físicos del procesador de señales digitales (SDP) , tal como AT&T DSP16 o DSP32C, memoria solo de lectura (ROM) para almacenar componentes físicos que realizan las operaciones discutidas posteriormente, y memoria de acceso aleatorio (RAM) para almacenar los resultados del DSP. También se pueden proporcionar modalidades de los componentes físicos de integración a muy grande escala (VLSI), así como también el sistema de circuitos de VLSI especializado en combinación con un circuito del DSP de propósito general. El uso de los DSPs es ventajoso puesto que las señales procesadas representan señales, procesos y actividades físicas reales, tales como señales del habla, ruido de fondo del cuarto, etc. La presente invención mejora el desempeño de los dispositivos reconocedores del habla en ambientes acústicos, múltiples, es decir, en ambientes donde existe diversidad acústica en las señales del habla procaces y/o a partir de las cuales los modelos de rer :r.r cimiento se regularon y se proporciona una forma eficiente de la distorsión de manipulación de les ambientes acústicos, múltiples. Un conjunto de modelos "paralelos" (es decir "secundarios") , cada uno que corresponde a un ambiente acústico, particular, se integra con un conjunto base de modelos de reconocimiento de acuerdo con los principios de la invención. Cada modelo "paralelo" incluye un modelo de clasificación (es decir, un clasificador) , el cual se utiliza para identificar el ambiente acústico del habla desconocida, y un proyector de transformación de modelo (es decir, un proyector) para la transformación del conjunto base de los modelos de reconocimiento para igualar ese ambiente acústico, particular. El clasificador incluido dentro del 'modelo paralelo para un ambiente acústico, particular puede, por ejemplo, ser un Modelo de Mezcla Gaussian (GMM), un modelo Markov secreto (HMM), un código cifrado de cuantificación de vectores ( VQ ; , o un sistema de aprendizaje de la máquina tal cerno una red neutral. Los clasificadores se aplican en un sentido de probabilidad máxima a la secuencia de vectores de características que caracterizan la pronunciación de prueba en el proceso ce determinación del ambiente acústico más adecuado "para cada pronunciación de prueba. El proyector para el ambiente acústico, particular es un conjunto limitado de diferencias alcanzadas en la regulación aplicando discriminación del conjunto base de modelos de reconocimiento utilizando las pronunciaciones de regulación conocidas, asociadas con ese ambiente acústico, particular. Durante la prueba, se identifica el ambiente acústico del habla desconocida. Se selecciona un proyector que corresponde al ambiente acústico identificado. El proyector se aplica para transformar el conjunto base de modelos de reconocimiento, con lo cual se ajusta el conjunto base de modelos de reconocimiento para ser más adecuados para el ambiente acústico identificado. Luego el habla desconocida se reconoce utilizando el conjunto base, ajustado de los modelos de reconocimiento. Con referencia a la FIGURA 1, un sistema de reconocimiento del habia de acuerdo con una modalidad ilustrativa de la invención incluye un transductor acústico 12 , a como un micrófono en el micrófono de un tel •-. :, para recibir el habla desconocida en la forma : ; olas sonoras audibles causadas por la expansión rarif icación de las moléculas del aire con -.-purezas asociadas. El transductor acústico 10 convierte las ondas sonoras en señales del habla desconocida, eléctricas 12. Un extractor de características 14 está en conexión eléctrica con la salida de señales eléctricas del transductor acústico 10. El extractor de características 14 genera una secuencia de vectores de características 16 que caracterizan la señal del habla desconocida, eléctrica 12. Un procesador de clasificación 18 se acopla al extractor de características 14. Una base de datos de reconocimiento 20 se acopla al procesador de clasificación 18. Una base de datos de clasificación 22 se acopla al procesador de clasificación 18. La base de datos de reconocimiento 20 almacena un conjunto base convencional de los modelos de reconocimiento. El conjunto base de los modelos de reconocimiento comprende uno o más HMMs y parámetros de los HMM asociados. Cada uno de los HMMs incluye una o más (por ejemplo, ocho) distribuciones de Gaussian por estado, cada distribución de Gaussian que tiene un promedio y una variación (los cuales se refieren como parámetros del modelo) . La base de datos de clasificación 22 almacena un conjunto de modelos paralelos (es decir, secundarios), cada modelo paralelo que corresponde a un ambiente acústi particular. Cada modelo paralelo incluye un mode de clasificación (es decir, un clasificador) y • proyector de transformación de modelos (es deci un proyector). El grupo de clasificadores, en don. cada clasificador está asociado con uno d-conjunto de modelos paralelos, se utiliza pa identificar el ambiente acústico del hab desconocida. El proyector es un conjunto limita de diferencias utilizadas para la transformaci del conjunto base de modelos de reconocimiento pa igualarlo de manera más adecuada a ese a bien acústico, particular. El conjunto limitado diferencias para cada ambiente particular se log al regular aplicando disc minación el conjun base de modelos de reconocimiento en 1. pronunciaciones de regulación conocidas asociadas con ese ambiente acústico, particular. El procesador de clasificación 18 cpe para (i) identificar ur. a-cíente acústico del hab desconocida en base a -.n ...reamiento basado en probabilidad de la se;-- :.- de los vectores características 16 que. o a r a ote rizan la señal d habla desconocida 12 -. , esta manera el hab desconocida) con los o 1 a ¿ - : - : aoo es en el conjun de modelos paralelos, (ii) seleccionar el proyector de uno del conjunto de modelos paralelos que corresponde al ambiente acústico identificado, y (iii) aplicar una transformación en base al proyector seleccionado al conjunto base de modelos de reconocimiento, con lo cual el ajuste de los parámetros de los HMMs (es decir, los promedios y/o variaciones de las distribuciones de Gaussian) almacenados en la base de datos de reconocimiento 20 para reflejar más adecuadamente el ambiente acústico identificado del habla desconocida. Un dispositivo reconocedor, convencional 24, que puede realizar una búsqueda de ondas dirigidas Viterbi, normal, se acopla al extractor de características 14 y la base de datos de reconocimiento 20. El dispositivo reconocedor 24 compara una pluralidad ae los HMMs ajustados, almacenados en la base ce datos de reconocimiento 20 con la secuencia de vectores de caracterís icas 16 para determinar un registro de comparación para cada uno de tales modelos, selecciona el registro de comparación más alto y enera una señal del habla reconocida en base a. registro más alto. El sistema c re : o ccimiento del habia mostrado en la FIGURA 1 -: •? regula ai (i) crear el conjunto de modelos paralelos en una primera etapa de regulación e (ii) integrar el conjunto de modelos paralelos con el conjunto base convencional de modelos de reconocimiento en una segunda etapa de regulación.
ETAPA DE REGULACIÓN I La primera etapa de creación del conjunto de modelos paralelos (es decir, secundarios) es definir los ambientes acústicos múltiples al dividir los datos de regulación. Los datos de regulación se dividen en ambientes acústicos N utilizando una técnica de probabilidad máxima, que asigna las pronunciaciones de regulación a uno de los ambientes acústicos, particulares N, donde N es un número entero positivo, por ejemplo dos. Ccn referencia a la FIGURA 2, los datos de regulación en la forma de pronunc ac ones del habla de regulación conocidas se proporcionan en el paso 23. Se proporciona o se reguía un modelo ce reconocimiento convencional, inicial de las pronunciaciones de regulación conocidas en el paso 30. El modelo de reconoc i- tentó convencional podría ser un código cifrado o -.n conjunto de modelos ce reconocimiento en la forma de HMMs o GMMs . En la modalidad ilustrativa de la invención, este modelo de reconocimiento convencional, inicial será utilizado como el conjunto base de modelos de reconocimiento almacenados en la memoria de base de datos de reconocimiento 20 (FIGURA 1) . El modelo convencional, inicial, el conjunto de datos de modelos de reconocimiento, se divide en N, por ejemplo, dos, conjuntos de modelos en el paso 32. La división podría ser una división "ciega", esto es, sin un principio de guía. Los datos de regulación se dividen en base a la división. Cada pronunciación de regulación conocida se registra contra ambos conjuntos de los modelos / se asigna al "mejor" con] unto de modelos para esa pronunciación de regulación particular en base al registro más alto de la pronunciación de regulación para ambos conjuntos de los modelos en el paso 34. ?l principio de la invención aplicada es que si los datos de regulación tienen - probabilidades diferentes (o los registros están dentro de las gamas diferentes de proear caces) entonces éstos llegan de ambientes _:__t?ces diferentes. los conjuntos N (por ejerció, -iosv, de modelos, los cuales se pueden observar oo-o conjuntos actuales de los modelos, se regulan sobre sus datos asociados (es decir, sobre las pronunciaciones de regulación conocidas que se asignaron a éstos) para crear nuevos conjuntos N de modelos en el paso 36. Se pueden utilizar numerosos métodos de regulación para crear los nuevos conjuntos N de modelos. Se prefiere una forma discriminatoria de regulación. Los nuevos conjuntos N de modelos (por ejemplo dos) se escriben sobre los conjuntos actuales N (es decir, los viejos) de modelos en la memoria de la base de datos de clasificación 22 (FIGURA 1) . Luego, en el paso 38, se crea una decisión si se completan los pasos del proceso iterativo mencionado anteriormente de definir los ambientes acústicos, .particulares N, asignar las pronunciaciones de regulación conocidas a ios ambientes acústicos, particulares y regular ios nuevos conjuntos ce modelos con las pronunciaciones de regulación conocidas, asignadas a éstos. El proceso iterativo puede llegar a ser completo, por ejempio, .--.a o una señal de error que recorre el p:::.-: de asignación de pronunciación converge . -. n lo prede erminado, cuando el proceso ter-'-. o a sido realizado número preseleccionado de veces (o "ciclos") , o cuando las pronunciaciones de regulación conocidas no están siendo más reasignadas a nuevos conjuntos de modelos como resultado del proceso iterativo. Si no, el proceso iterativo no se completa, los pasos del proceso iterativo se repiten: asignando cada una de las pronunciaciones de regulación conocidas al mejor de los conjuntos N de modelos en base al registro de la pronunciación de regulación conocidas para ambos de los conjuntos actuales N (anteriormente nuevos) de modelos, luego los nuevos conjuntos de modelos de regulación (es decir, de preparación) de las pronunciaciones de regulación conocidas asignadas a cada uno de los conjuntos actuales N de modelos, y luego almacenar los nuevos conjuntos N de modelos en la memoria de la base de datos de clasificación en lugar de los conjuntos actuales N de modelos. Nuevamente, se orea una decisión en ei paso 38 si se termina la asignación de pronunciaciones de regulación. Si es si, el procese iterativo se completa, s crea una decisión en el paso 40 si debe ser carciace el número N, esto es si debe existir una división adicional de las pronunciaciones de regulación conocidas para definir los ambiente acústicos adicionales. Si es si, los ambientes acústicos adicionales se deben definir, N es cambia a N' en eí paso 42 y ios conjuntos actuales N de modelos se dividen en conjuntos N' de modelos, donde N' es un número diferente a N (por ejemplo, cambio de dos ambientes acústicos /modeles particulares, definidos, a cuatro ambientes acústicos /modelos par iculares, definidos) en el paso 44. Esta puede ser una división ciega, esto es, sin un principio de guía. Los pasos en el ciclo iterativo se realizan nuevamente y nuevamente hasta que existe una razón para detenerse, l'r.a razón tai puede ser, por ejemplo, que una señal ue error converge a _n valor predeterminado o d-e la iteración ha realizada un número predet minado de veces. Si ningún arreier.te acústico, adición será definido, entonces .as asignaciones ce pronunciaciones de regulación conocidas a ambientes acústicos, pa: .:-..:es N y los conjunt N ae modelos que c ; : : -.. o : - oen a ios an.bier.t-acústicos, particulares • i-, salvan en la me.-.cr de ia base de datos ce :..i.:::a:;op 22 ^FIG' A en el paso 46.
De esta manera, como se describe previamente, el proceso de definición de los ambientes acústicos N produce el mejor conjunto de modelos para cada uno de los ambientes acústicos N y asigna las pronunciaciones de regulación conocidas a cada uno de los conjuntos N de modelos. Esto se utiliza subsecuentemente en la etapa dos del procedimiento para regular el sistema de reconocimiento del habla mostrado en la FIGURA 1. La primera etapa de regulación del sistema de reconocimiento del habla, que crea el conjunto de modelos paralelos se completa.
ETAPA DE REGULACIÓN II La segunda etapa de regulación del sistema de reconocimiento del habla mostrado en la FIGURA 1 integra el conjunto de modelos paralelos con ei conjunto base de modelos ae reconocimiento tal que el sistema de reccpc imiento del habla puede identificar un ambiente acústico del habla desconocida y proyectar es decir, transformar) ei conjunto base de model---. d reconocimiento a un nuevo espacio de rooelo que iguala más adecuadamente el ambiente acústico identificado.
Como resultado de la etapa de regulación uno, se definen los ambientes acústicos, particulares N y un conjunto de modelos de clasificación (es decir, clasificadores) asociados con los ambientes acústicos N; los clasificadores son los "mejores" modelos creados durante el proceso iterativo de la etapa de regulación uno. Los clasificadores para cada ambiente acústico, particular que resultan del proceso iterativo de la primera etapa de regulación llegan a ser parte del conjunto de modelos paralelos almacenados en la base de datos de clasificación 22 (FIGURA 1). Los clasificadores en el conjunto de modelos paralelos se utilizan para identificar el ambiente acústico apropiado para una pronunciación de prueba desconocida. Cada uno de los conjuntos de modelos paralelos también incluye un proyector, el cual es el promedio para transformar (es decir, proyectar) el conjunto base de modelos de reconocimiento, que se almacenan en la base de datos de reconocimiento 20 (FIGURA 1), que es más adecuados para el ambiente acústico identificado . En la segunda etapa de regulación dei sistema de reconocimiento del habla, un conjunto base de modelos de reconocimiento se define de manera convencional. En la modalidad ilustrativa de la invención, el mismo modelo de reconocimiento convencional utilizado en la etapa de regulación 1 se utiliza como el conjunto base de modelos de reconocimiento. Los proyectores, que se utilizan para ajustar el conjunto base de modelos de reconocimiento para igualar el ambiente acústico identificado, se definen de modo que cuando una pronunciación de prueba desconocida (es decir, "el habla desconocida") se recibe durante la prueba, el proyector seleccionado se puede aplicar para transformar el conjunto base de modelos de reconocimiento para igualar el ambiente acústico de la pronunciación de prueba. Los proyectores se calculan en la segunda etapa de regulación del sistema de reconocimiento del habla mediante la regulación discriminatoria, por ejemplo, mediante la regulación de error de clasificación mínimo, que es una clase de regulación discriminatoria. El planteamiento de error de clasificación minimo (MCE) para la regulación discriminato ia se basa en el principio de minimización de la proporción de error. La regulación de MCE de un dispositivo reconocedor encuentra el mejor conjunto de parámetros de HMM para la función discriminante para minimizar el error, que se define como la probabilidad que el dispositivo reconocedor regulado reconocerá de manera errónea el conjunto de pronunciaciones en el conjunto de regulación conocido. El modelo estadístico de cada unidad del habla de reconocimiento, básica se obtiene a través del análisis discriminatorio. El objetivo de tal regulación de MCE es para minimizar la proporción de error de reconocimiento y se logra al calcular una medida de reconocimiento erróneo gue indica la probabilidad que un dispositivo reconocedor que tiene una regulación dada cometerá un error de reconocimiento en base a su presente estado de regulación. En la regulación de MCE, la medida de reconocimiento erróneo refleja la diferencia entre (i) un registro del dispositivo reconocedor para una pronunciación de regulación conocida en base al modelo de reconocimiento correcto para la pronunciación de regulación conocida, y (ii) un promedio de uno o más registros del dispositivo reconocedor para la pronunciación de regulación conocida en base a uno o más de otros modelos de reconocimiento de manera confusa similares. Un sistema de regulación discriminatorio de error de clasificación mínimo (MCE) se describe en detalle en la patente norteamericana No. 5,579,436 presentada el 26 de Noviembre de 1996 expedida a Chou y colaboradores, titulada "RECONOGNITION UNIT MODEL TRAINING BASED ON COMPETING WORD AND WORD STRING MODELS", la cual se incorpora por referencia como si se expusiera completamente en la presente. El regulación de MCE, u otro tipo de regulación discriminatoria, se utiliza para calcular el proyector que transformará más efectivamente el conjunto base de modelos de reconocimiento en base a un ambiente acústico, particular identificado durante la prueba. Cada proyector es una transformación que se puede aplicar a los parámetros de los modelos, almacenados en la base ce datos de reconocimiento 20 (FIGURA 1) . Con referencia a la FIGURA 3, para cada uno de los ambientes acústicos, particulares N, definidos en la etapa c regulación uno, el conjunto base, conven;. mal de modelos de reconocimiento se regula .p. cando discriminación en el paso 50 con las r ".- --aciones de regulación conocidas que se asignar;-. . ese ambiente acústico, particular durante el cr ;;-=•_; de división de la etapa de regulación uno. El regulación de MCE de los parámetros de los modelo del conjunto base de modelos de reconocimiento, que utiliza las pronunciaciones de regulación conocidas asignadas a ese ambiente acústico, particular, proyecta los parámetros del modelo a un espacio del modelo más adecuado para el ambiente acústico, particular. Los parámetros del conjunto base de modelos de reconocimiento tienen un cierto estado antes de la regulación discriminatoria y se transforman por la regulación discriminatoria a un estado diferente. No todos los parámetros de modelos se cambian necesariamente. Algo, todo o nada puede ser cambiado . Para cada parámetro de modelo, la diferencia entre su estado antes de la regulación discriminatoria y su estado después de la regulación discriminatoria representa ese ambiente acústico, particular, o más específicamente, un cambio al parámetro de modelo en base a ese ambiente acústico, particular. Este cambio a les parámetros de modelo del conjunto base de modelos de reconocimiento causado por tal regulación discriminatoria representa la distorsión debido a ese ambiente acústico, particular.
Las diferencias entre los parámetros de modelo del conjunto base de los modelo de reconocimiento en su estado original y los parámetros del nuevo modelo del conjunto base proyectado de los modelos de reconocimiento, logradas a partir de la regulación discriminatoria utilizando las pronunciaciones de regulación conocidas asignadas a ese ambiente acústico, particular, se salvan en el paso 52. El proyector de transformación del modelo para ese ambiente acústico, particular se crea a partir de las diferencias salvadas en el paso 52. El proyector para ese ambiente acústico, particular puede ser todas las diferencias, para cada parámetro de modelo, entre el estado del parámetro de modelo original y el estado del parámetro del nuevo modelo. Sin embargo, el conjunto base de modelos de reconocimiento puede tener, por ejemplo, 3500 parámetros y ésta es potencialmente una cantidad abultada de datos. Las diferencias que reflejan la distorsión debido a ese ambiente acústico, particular son cambios usualmente pequeños a ios parámetros de modelo (por ejemplo, un cambio relativamente pequeño al promedio de una distribución de Gaussian) ; y, la diferencia para cada uno de los parámetros de modelo de la regulación discriminatoria con las pronunciaciones de regulación conocidas asignadas a ese ambiente acústico, particular es similar a muchas de las otras diferencias, puesto que las diferencias son causadas por el mismo ambiente acústico . Debido a que cada diferencia del parámetro de modelo es pequeña, y debido a que las diferencias de parámetro de modelo, similares se agrupan todas las diferencias (es decir, para cada parámetro de modelo) no necesitan ser salvadas para lograr el desempeño óptimo. En lugar de salvar 3500 diferencias para 3500 parámetros de modelo, se salva un conjunto reducido de diferencias de acuerdo con los principios de la invención. Para reducir la cantidad de diferencias salvadas en la memoria, las diferencias de parámetro de modelo logradas por la regulación discriminatoria para cada uno de los ambientes acústicos, particulares N se agrupan utilizando técnicas de agrupación convencionales en el paso 54. La técnica de agrupación convencional decide que cantidad de transformaciones representadas por las diferencias son similares. La agrupación de diferencias particulares se salvan en el paso 56 y se utiliza en lugar de todas las diferencias para todos los parámetros de modelo por ambiente acústico, particular . El conjunto reducido de diferencias almacenado en la base de datos de clasificación 22 como el proyector para cada ambiente acústico/modelo paralelo particular es el medio para ajustar el conjunto base de modelos de reconocimiento para igualar ese ambiente acústico, particular para minimizar el desajuste acústico entre la pronunciación de prueba desconocida y el conjunto base de modelos de reconocimiento almacenado en la base de datos de reconocimiento 20. El agrupamiento puede reducir el número de diferencias salvadas como el proyector para un ambiente acústico, particular para un conjunto base de 3500 parámetros de modelos de reconocimiento a, por ejemplo, 400 diferencias sin degradación en el desempeño de reconocimiento del habla como se ilustra para un ambiente acústico "Alámbrico", particular por la gráfica de la FIGURA 4. Un modelo paralelo para cada ambiente acústico se integra con el conjunto base de modelos de reconocimiento como resultado de la segunda etapa de regulación. Cada modelo paralelo, almacenado en la base de datos de clasificación 22 incluye un clasificador y un proyector, en donde el proyector es el conjunto limitado de diferencias para ese ambiente acústico que se puede aplicar a transformar el conjunto base de los modelos de reconocimiento que son más adecuados para ese ambiente acústico. El proceso de regulación anterior no requiere una gran cantidad de datos de regulación, ahorra memoria, ahorra tiempo de procesamiento y mejora el desempeño de reconocimiento del habla. En la prueba, las ondas sonoras que representan una pronunciación de prueba desconocida ("habla desconocida") se reciben por el transductor acústico 10. El transductor acústico 10 cambia las ondas sonoras en una señal del habla desconocida, eléctrica 12. El extractor de características 14 genera una secuencia de vectores de características 16 que caracterizan la señal del habla desconocida 12. La secuencia de los vectores de características 16 se registra por el alineamiento en base a la probabilidad contra cada * -.no de los modelos de clasificación en el con;-:.:; de modelos paralelos almacenados en la base de datos de clasificación 22 para generar un registro de la pronunciación de prueba desconocida para cada modelo de clasificación. El procesador de clasificación 18 identifica el ambiente acústico, particular asociado con el modelo de clasificación de registro, más alto como el mejor ambiente acústico, igualado a esa pronunciación de prueba desconocida. El procesador de clasificación 18 luego emula o imita el ambiente acústico igualado al transformar el conjunto base de los modelos de reconocimiento. En la modalidad ilustrativa, el proyector es el conjunto limitado de diferencias en el modelo paralelo que contiene el modelo de clasificación que el más alto registrado para la pronunciación de prueba desconocida. El procesador de clasificación 18 aplica el proyector de modelo paralelo particular al conjunto base de modelos de reconocimiento almacenado en la base de datos ae reconocimiento 20, con lo cual se proyecta ei conjunto base de modelos de reconocimiento para igualar el ambiente acústico identificado. Finalmente, la pronunciación de prueba desconocida se reconoce convenc ona Imente en base a un alineamiento en base a ia probabilidad de la secuencia de vectores de ca acterísticas 16 con el conjunto base proyectado de los modelos de reconocimiento. El sistema de reconocimiento del habla genera una señal del habla reconocida. La técnica de integración de modelos paralelos (PMI), enseñada en la presente, es complementaria a otras técnicas para mejorar y aumentar la robustez en el reconocimiento del habla, tal como remoción de polarización de la señal, que se puede utilizar además de la PMI . La remoción de polarización de la señal se describe en detalle en la patente norteamericana No. 5,590,242 presentada el 31 de Diciembre de 1996 expedida a Juang y colaboradores, titulada "SIGNAL BIAS REMOVAL FOR ROBUST TELEPHONE SPEECH RECOGNITION" , la cual se incorpora por referencia como si se expusiera completamente en la presente. La adaptación es el proceso para mejorar los modelos de reconocimiento durante la prueba. En las técnicas de adaptación de modelo convencional, los modelos de reconocimiento cambian una y otra vez, y pueden llegar a ser muy removidos de su estado original. La presente invención hace posible la adaptación del modelo eficiente durante la prueba, si la adaptación se supervisa o no se supervisa.
De acuerdo con la presente invención, el conjunto base de modelos de reconocimiento no se altera permanentemente durante la prueba. Preferiblemente que la adaptación del modelo completo durante el reconocimiento del habla, la adaptación de modelo durante la prueba de acuerdo con la presente invención cambia únicamente los proyectores para los ambientes acústicos identificados, particulares. Los proyectores para un ambiente acústico, particular se pueden optimizar dado un conjunto de datos de adaptación para ese ambiente acústico, particular. El desempeño de reconocimiento del habla puede continuar para mejorar durante la adaptación sin degradar el desempeño del sistema en otros ambientes acústicos, particulares. Se realizaron experimentos en el reconocimiento de dígitos continuos con tres ambientes acústicos, particulares: una red alámbrica, una red celular y abonados menores de trece años. Los experimentos mostraron que el sistema de reconocimiento del habla integrado, de modelos paralelos de acuerdo con los principios de la invención, es capaz de lograr el desempeño de reconocimiento casi igualado para cada ambiente acústico y exceder el de un sistema de reconocimiento del habla en base al HMM de propósito general. Además, el sistema de reconocimiento del habla, integrado, de modelos paralelos es únicamente 6% más lento que tal sistema de reconocimiento del habla en base al HMM de propósito general, en donde cada modelo paralelo incluye un conjunto de menos que 400 diferencias para lograr el desempeño igualado.
Tres conjuntos de base de datos, de dígitos conectados, de hablantes independientes se evaluaron en este estudio. Los resultados se describen como sigue con referencia a la TABLA I.
TABLA El primer conjunto de la base de datos, "menores de trece años", incluyó abonados menores de trece años entre 8 y 16 años de edad que repitieron 1 a 10 serie de dígitos sobre una red de teléfono alámbrica. El conjunto de la base de datos de "menores de trece años" se dividió en 1700 pronunciaciones para la regulación y 915 pronunciaciones para la prueba. El segundo conjunto de la base de datos, "Alámbrico", incluyó hablantes adultos de una variedad de colecciones de prueba de campo. El conjunto de la base de datos "Alámbrico" se dividió en 9600 pronunciaciones para la regulación y 516 pronunciaciones para la prueba. El tercer conjunto de la base de datos, "Inalámbrico", incluyó un hablante adulto que se colectó de una red de teléfono celular. El conjunto de la base de datos "Inalámbrico" se dividió en 15500 pronunciaciones para la regulación y 4800 pronunciaciones para la prueba. El conjunto base de los modelos de reconocimiento incluyó un conjunto de HMMs ae densidad continua de izquierda a derecha que se regularon previamente por la estimación de probabilidad máxima (ML? en una colección de habia de teléfono normal. Hubo un total de 274 modelos de subpalabras dependiente del contexto, cada una que tiene 3 a 4 estados, con 4 componentes de mezcla por estado. El desempeño de la línea de referencia del sistema de reconocimiento del habla, integrado, de modelos paralelos en términos de la precisión de la palabra se muestra en la TABLA I en la "Línea de referencia". Estos resultados se obtuvieron con características basadas en cepstral seguidas por la remoción de polarización de la señal y gramática de longitud desconocida. El desempeño del sistema de reconocimiento del habla, integrado, de modelos paralelos después de la remoción de polarización de la señal, integrada y la regulación discriminatoria se muestra en la TABLA I en "Global". Estos resultados corresponden a un sistema de reconocimiento del habla basado en el HMM de propósito general regulado en los tres conjuntos de la base de datos, completos . Si se conoce el ambiente acústico, para cada pronunciación de prueba, uno podría regular y probar cada conjunto de la base de datos individualmente. Los resultados de este experimento se muestra en la TABLA I en "Igualado", y representan el límite superior para el desempeño del sistema de reconocimiento del habla, integrado, de modelos paralelos. La regulación del sistema de reconocimiento del habla, integrado, de modelos paralelos se condujo como sigue. Cada conjunto de' la base de datos se consideró como un ambiente acústico separado. Para la clasificación del ambiente acústico, los GMMs con 64 componentes de la mezcla se regularon por MLE como los modelos de clasificación (es decir, clasificadores) que resultan en solo sobre 90% de clasificación del ambiente acústico. Para crear los proyectores para transformar el conjunto base de los modelos de reconocimiento, un conjunto de diferencias reguladas aplicando discriminación se calcularon después de la remoción de polarización de la señal. Cada conjunto varió de 200 a 400 diferencias por ambiente acústico. Esto corresponde a 6% a 12% el número de componentes de la mezcla en el conjunto base de modelos de reconocimiento. La precisión de ia palabra del sistema de reconocimiento del hacia, integrado, de modelos paralelos se muestra en "PMI" en la TABLA I. Es claro que estos resultados son mejores, en términos de precisión de la palabra, que los resultados de "Global" especialmente para el conjunto de la base de datos "menores de trece años" y casi los mismos como aquellos representados por la condición "Igualado". El tamaño de memoria total del conjunto de modelos paralelos ascendió a 35% del conjunto base de modelos de reconocimiento. Mientras que han sido ilustrada y descritas varias formas particulares de la invención, también será aparente que se pueden hacer diversas modificaciones sin apartarse del espíritu y alcance de la invención.
Se hace constar que con relación a esta fecha, el mejor método conocido por la solicitante para llevar a la práctica la citada invención, es el que resulta claro de la presente descripción de la invención.
Habiéndose descrito la invención como antecede, se reclama como propiedad lo contenido en las siguientes reivindicaciones.

Claims (13)

REIVINDICACIONES
1. Un método de procesamiento de señales para reconocer señales del habla desconocidas,. caracterizado porque comprende los siguientes pasos : (a) recibir una señal del habla desconocida que representa el habla desconocida; (b) generar un conjunto de vectores de características que caracterizan la señal del habla desconocida ; (c) identificar un ambiente acústico del habla desconocida en base a la secuencia de vectores de carácter i s z oas y un conjunto de clasificadores; (d) ajustar un conjunto base de modelos de reconocimiento para reflejar el ambiente acústico identificado; y (e) reconocer la señal del habla desconocida en base a -a secuencia de vectores ce características y e. • ."; ..to de modelos ae reconocimiento ajustao : .
2. Un métoo; :-. conformidad con la reivindicación 1, ca r 2 : - - : . : , o o porque: el conjunto base de modelos de reconocimiento comprende uno o más modelos Markov secretos.
3. Un método de conformidad con la reivindicación 1, caracterizado porque: el conjunto de clasificadores comprende uno o más modelos de mezcla Gaussian.
4. Un método de conformidad con la reivindicación 1, caracterizado porque el paso (d) incluye los pasos de: proporcionar un proyector que corresponde al ambiente acústico identificado, y aplicar una transformación en base al proyector al conjunto base de modelos de reconocimiento .
5. Un método de conformidad con la reivindicación 1, caracterizado porque además comprende los pasos de: proporcionar un proyector que corresponde al ambiente acústico iden i icado, y adaptar el proyer or en base a un ajuste hecho al conjunto ae base de modelos de reconocimiento.
6. Un sistema de reconocimiento del habla, caracterizado porque comprende: un extractor de características que genera una secuencia de vectores de características que caracterizan el habla desconocida; una primera memoria para almacenar un conjunto base de modelos de reconocimiento; una segunda memoria para almacenar un conjunto de modelos secundarios, cada modelo secundario que incluye un clasificador y un proyector que corresponde a un ambiente acústico, particular; un procesador clasificador acoplado al extractor de características, la primera memoria, y la segunda memoria, en donde el procesador clasificador es operativo para (i) identificar el ambiente acústico del habla desconocida en base a la secuencia de los vectores de características y el conjunto de modelos secundarios, (ii) seleccionar ei proyector de la memoria secundaria que corresponde al ambiente acústico identificado, y (iii) aplicar una ransformación en base al proyector al conjunto Dase de modelos de reconocimiento almacenados en la primera memoria, con lo cual se ajusta el conjunto base de modelos de reconocimiento para reflejar el ambiente acústico identificado; y un dispositivo reconocedor acoplado al extractor de características y la primera memoria, en donde el dispositivo reconocedor que reconoce el habla desconocida en base a la secuencia de los vectores de características y el conjunto base de modelos de reconocimiento ajustados.
7. Un sistema de conformidad con la reivindicación 6, caracterizado porque además comprende : un transductor acústico capaz de recibir ondas sonoras que representan el habla desconocida y convertir las ondas sonoras en una señal eléctrica .
8. Un sistema de conformidad con la reivindicación 6, caracterizado porque: el conjunto base de modelos de reconocimiento comprende uno o más modelos Markov secretos .
9. Un sistema de conformidad con la reivindicación 6, caracterizado porque: el conjunto de modelos secundarios comprende uno o más modelos de mezcla Gaussian.
10. Un método de regulación de un sistema de reconocimiento del habla, caracterizado porque comprende los siguientes pasos: (a) proporcionar un conjunto base de modelos de reconocimiento y parámetros de modelos asociados con los mismos que se almacenan en una base de datos de reconocimiento; (b) dividir el conjunto base de modelos de reconocimiento en conjuntos N de modelos actuales, con lo cual se definen los ambientes acústicos, particulares N que corresponden a los conjuntos N de modelos actuales; (c) almacenar los conjuntos N de modelos actuales en una base de datos de clasificación; (d) registrar una o más pronunciaciones de regulación conocidas contra cada uno de los conjuntos N de modelos actuales; (e) asignar cada una de las pronunciaciones de regulación conocidas a uno de los ambientes acústicos, particulares N en base al registro más alto de la pronunciación de regulación desconocida para los conjuntos N de modelos actuales ; (f) regular cada uno de los conjuntos N de modelos actuales asociados con los ambientes acústicos, particulares N utilizando las pronunciaciones de regulación conocidas asignadas a ese ambiente acústico, particular, con lo cual se crean los conjuntos N de modelos nuevos; (g) almacenar los conjuntos N de modelos nuevos en la base de datos de clasificación en lugar de los conjuntos N de modelos actuales; y (h) para cada ambiente acústico, particular, (i) regular aplicando discriminación el conjunto base de modelos de reconocimiento al utilizar las pronunciaciones de regulación conocidas asignadas a ese ambiente acústico, particular para proyectar el conjunto base de modelos de reconocimiento para reflejar ese ambiente acústico, particular, (ii) salvar en conjunto de las diferencias entre el est-io ae los parámetros de modelos del conjunto case de modelos de reconocimiento antes de la regulación discriminatoria y después de la regulación discriminatoria que corresponde a la distorsión causada por el ambiente acústico, particular, (iii) agrupar las diferencias logradas por la regulación discriminatoria, y (iv) salvar el conjunto agrupado de diferencias como un proyector gue se puede utilizar para ajustar el conjunto base de los modelos de reconocimiento para reflejar ese ambiente acústico, particular.
11. Un método de conformidad con la reivindicación 10, caracterizado porque además comprende el paso de: repetir los pasos (d) - (g) un número preseleccionado de veces .
12. Un método de procesamiento de señales para el reconocimien o del habla desconocida, caracterizado porque cor-prende los siguientes pasos : (a) identificar _n ambiente acústico, asociado con una pronunc ac ón de prueba; 1 (b) modificar uno o más modelos de reconocimiento para reflejar el ambiente acústico identificado; y (c) reconocer la pronunciación de prueba al utilizar uno o más modelos de reconocimiento modificados .
13. Un método de regulación de un sistema de reconocimiento del habla, el sistema de reconocimiento del habla que tiene un conjunto base de modelos de reconocimiento que se almacenan en una base de datos de reconocimiento, el método está caracterizado porque comprende los pasos de: (a) definir los ambiente acústicos particulares N; (b) crear los conjuntos N de modelos asociados con los ambientes acústicos, particulares N; (c) asignar cada una de una pluralidad de pronunciaciones de regulación conocidas a uno de los ambientes acústicos, particulares N; y (d) para cada ambiente acústico, particular, determinar un proyector que se puede utilizar para ajustar el conjunto base de modelos de reconocimiento para reflejar ese ambiente acústico, particular.
MXPA/A/1998/003964A 1997-05-27 1998-05-19 Integracion de modelos multiples para el reconocimiento del habla en ambientes multiples MXPA98003964A (es)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US08863927 1997-05-27

Publications (1)

Publication Number Publication Date
MXPA98003964A true MXPA98003964A (es) 1999-06-01

Family

ID=

Similar Documents

Publication Publication Date Title
CA2233728C (en) Multiple models integration for multi-environment speech recognition
EP1374223B1 (en) Voice recognition system using implicit speaker adaptation
US7024359B2 (en) Distributed voice recognition system using acoustic feature vector modification
US4926488A (en) Normalization of speech by adaptive labelling
EP0846318B1 (en) Pattern recognition
JPH05341797A (ja) 文脈依存型音声認識装置および方法
US5890113A (en) Speech adaptation system and speech recognizer
Cheung et al. Feature selection via dynamic programming for text-independent speaker identification
US5943647A (en) Speech recognition based on HMMs
Yuan et al. Binary quantization of feature vectors for robust text-independent speaker identification
Anastasakos et al. Adaptation to new microphones using tied-mixture normalization
Yanagisawa et al. Noise robustness in HMM-TTS speaker adaptation
JP2700143B2 (ja) 音声コーディング装置および方法
JP2009116278A (ja) 話者認証の登録及び評価のための方法及び装置
MXPA98003964A (es) Integracion de modelos multiples para el reconocimiento del habla en ambientes multiples
JPH01202798A (ja) 音声認識方法
Erell et al. Recognition of noisy speech: Using minimum-mean log-spectral distance estimation
JPH07160287A (ja) 標準パターン作成装置
JPH08123465A (ja) 音響モデルの適応化法
Beritelli et al. A speech recognition system based on dynamic characterization of background noise
Ming et al. Robust speaker recognition in unknown noisy conditions
JP2002041079A (ja) 音声認識装置および音声認識方法、並びに、プログラム記録媒体
JPH04293097A (ja) 話者識別装置