MXPA06013573A

MXPA06013573A - Sistema y metodo para generar subtitulacion.

Info

Publication number: MXPA06013573A
Application number: MXPA06013573A
Authority: MX
Inventors: Gerald Bowden Wise; Louis John Hoebel; John Michael Lizzi; Helena Goldfarb; Wei Chai; Anil Abraham
Original assignee: Gen Electric
Priority date: 2005-11-23
Filing date: 2006-11-23
Publication date: 2008-10-16
Also published as: US20070118372A1; CA2568572A1; US20070118373A1; US20070118374A1

Abstract

Se proporciona un sistema para generar subtitulaciones; el sistema incluye un motor de reconocimiento del habla configurado para generar una o más transcripciones de texto que corresponden con uno o más segmentos del habla a partir de una señal de audio; el sistema además incluye un motor de procesamiento, uno o más modelos a base de contexto y un codificador; el motor de procesamiento se confitura para procesar las transcripciones de texto; los modelos a base de contexto se configuran para identificar un contexto apropiado relacionado con las transcripciones de texto; el codificador se configura para transmitir las transcripciones de texto que corresponden con los segmentos del habla como subtitulaciones.

Description

SISTEMA Y METODO PARA GENERAR SUBTITULACION ANTECEDENTES DE LA INVENCION La invención se refiere en general a generar subtitulaciones y más particularmente a un sistema y método para generar automáticamente subtitulaciones utilizando reconocimiento del habla. La subtitulación es el procedimiento por medio del cual una señal de audio es traducida en datos textuales visibles. Los datos textuales visibles entonces pueden hacerse disponibles para utilizarse mediante una audiencia con discapacidad auditiva en lugar de una señal de audio. Un decodificador de subtitulación empotrado en televisiones o grabadoras de video generalmente separa el texto de subtitulación de la señal de audio y despliega el texto de subtitulación como parte de la señal de video. El reconocimiento del habla es el procedimiento de analizar una señal acústica para producir una secuencia de palabras. El reconocimiento del habla generalmente se utiliza en situaciones en donde las manos están ocupadas o los ojos están ocupados tal como cuando se maneja un carro o cuando se utilizan pequeños dispositivos como asistentes digitales personales. Algunas aplicaciones comunes que utilizan el reconocimiento del habla incluyen interacciones humano-computadora, interfaces multimodal, telefonía, dictado e indexacion y recuperación multimedia. Los requerimientos de reconocimiento del habla para las aplicaciones anteriores, en general, varían y tienen diferentes requerimientos de calidad. Por ejemplo, una aplicación de dictado puede requerir procesamiento casi en tiempo real y una trascripción de texto de baja tasa de error de palabras del habla, mientras que una aplicación de indexacion y recuperación multimedia puede requerir independencia del parlante y vocabularios mucho más grande, pero puede aceptar tasas de error de palabras superiores.

BREVE DESCRIPCION DE LA INVENCION Las modalidades de la invención proporcionan un sistema para generar subtitulaciones. El sistema incluye un motor de reconocimiento del habla configurado para generar uno o más transcripciones de texto que corresponden con uno o más segmentos del habla a partir de una señal de audio. El sistema además incluye un motor de procesamiento, uno o más modelos a base de contexto y un codificador. El motor de procesamiento se configura para procesar las transcripciones de texto. Los modelos a base de contexto se configuran para identificar un contexto apropiado relacionado con las transcripciones de texto. El codificador se configura para transmitir las transcripciones de texto que corresponden con los segmentos del habla como subtitulaciones. En otra modalidad, se proporciona un método para generar automáticamente texto de subtitulación. El método incluye obtener uno o más segmentos del habla a partir de una de señal de audio. Posteriormente, el método incluye generar una o más transcripciones de texto que corresponden con uno o más segmentos del habla e identificar un contexto apropiado relacionado con las transcripciones de texto. El método entonces incluye procesar una o más transcripciones de texto y transmitir las transcripciones de texto que corresponden con los segmentos del habla como texto de subtitulación.

BREVE DESCRIPCION DE LOS DIBUJOS Estas y otras características, aspectos, y ventajas de la presente invención se entenderán mejor cuando se lea la siguiente descripción detallada con referencia a los dibujos anexos en donde los caracteres similares representan partes similares a través de los dibujos, en donde: la figura 1 ilustra un sistema para generar subtitulaciones de conformidad con una modalidad de la invención: la figura 2 ilustra un sistema para identificar un contexto apropiado relacionado con las transcripciones de texto, utilizando modelos a base de contexto y bases de datos de tópicos específicos de conformidad con una modalidad de la invención; y la figura 3 ilustra un procedimiento para generar automáticamente texto de subtitulación de conformidad con modalidades de la presente invención.

DESCRIPCION DETALLADA DE MODALIDADES PREFERIDAS La figura 1 es una ilustración de un sistema 10 para generar subtitulaciones de conformidad con una modalidad de la invención. Como se muestra en la figura 1 , el sistema 10 generalmente incluye un motor de reconocimiento del habla 12, un motor de procesamiento 14 y uno o más modelos a base de contexto 16. El motor de reconocimiento del habla 12 recibe una señal de audio 18 y genera transcripciones de texto 22 que corresponden con uno o más segmentos del habla a partir de la señal de audio 18. La señal de audio puede incluir una señal que transporta el habla desde una transmisión de noticias, una cobertura en vivo o grabada de una junta o una asamblea, o de un entretenimiento por red o cable programado (en vivo o grabado). En ciertas modalidades, el motor de reconocimiento del habla 12 puede además incluir un módulo de segmentación del parlante 24, un módulo de reconocimiento del habla 26 y un módulo de agrupamiento del parlante 28. El módulo de segmentación del parlante 24 convierte la señal de audio entrante 18 en segmentos de habla y de no habla. El módulo de reconocimiento del habla 26 analiza el habla en los segmentos del habla e identifica las palabras habladas. El módulo de agrupamiento del parlante 28 analiza las características acústicas de cada segmento del habla para identificar diferentes voces, tal como, voces de hombre y mujer y marca los segmentos en un modo apropiado.

Los modelos a base de contexto 16 se configuran para identificar un contexto apropiado 17 relacionado con las transcripciones de texto 22 generadas mediante el motor de reconocimiento del habla 12. En una modalidad particular, y como se describirá con mayor detalle a continuación, los modelos a base de contexto 16 incluyen una o más bases de datos de tópicos específicos para identificar un contexto apropiado 17 relacionado con las transcripciones de texto. En una modalidad particular, un motor de identificación de voz 30 puede acoplarse con los modelos a base de contexto 16 para identificar un contexto apropiado del habla y facilitar la selección del texto para emisión como subtitulación. Como se utiliza en la presente, el "contexto" se refiere al parlante como también al tópico que se discute. Conocer quien está hablando puede ayudar a determinar el conjunto de tópicos posibles (por ejemplo, si el punto de referencia del clima está hablando, los tópicos probablemente se limitarán a pronósticos del clima, tormentas, etc.). Además de identificar a los parlantes, el motor de identificación de voz 30 puede también aumentar con los modelos de no habla para ayudar a identificar sonidos del entorno o escenario (explosión, música, etc.). Esta información también puede utilizarse para ayudar a identificar tópicos. Por ejemplo, si se identifica un sonido de explosión, entonces el tópico puede relacionarse con guerra o crimen. El motor de identificación de voz 30 puede además analizar la característica acústica de cada segmento del habla e identificar el parlante específico relacionado con ese segmento al comparar la característica acústica con uno o más modelos estadísticos que corresponden con un conjunto de parlantes posibles y determinar la correspondencia más cercana con base en la comparación. Los modelos del parlante pueden entrenarse fuera de linea y cargarse mediante el motor de identificación de voz 30 para identificación del parlante en tiempo real. Para propósitos de exactitud, un paso de uniformidad/de filtración puede realizarse antes de presentar los parlantes identificados para evitar inestabilidad (generalmente provocada por alta frecuencia poco realista de parlantes cambiantes) en el sistema. El motor de procesamiento 14 procesa las transcripciones de texto 22 generadas por el motor de reconocimiento del habla 12. El motor de procesamiento 14 incluye un módulo de lenguaje natural 15 para analizar las transcripciones de texto 22 a partir del motor de reconocimiento del habla 12 para errores de palabra. En particular, el módulo de lenguaje natural 15 realiza corrección de error de palabra, extracción de entidad nombrada, y formateo de salida en las transcripciones de texto 22. Una corrección de error de palabra de las transcripciones de texto generalmente se realiza al determinar una tasa de error de palabra que corresponde con las transcripciones de texto. La tasa de error de palabra se define como una medida de la diferencia entre la transcripción generada por el reconocedor del habla y la transcripción de referencia correcta. En algunas modalidades, la tasa de error de palabra se determina al calcular la distancia de edición mínima en palabras entre las secuencias reconocidas y las correctas. La extracción de entidad nombrada procesa las transcripciones de texto 22 para nombres, compañías y lugares en las transcripciones de texto 22. Los nombres y entidades extraídas pueden utilizarse para relacionar metadatos con las transcripciones de texto 22, que pueden subsecuentemente utilizarse durante la indexación y recuperación. El formateo de salida de las transcripciones de texto 22 pueden incluir, pero no se limitan a, capitalización, puntuación, reemplazos de palabras, inserciones y deleciones, e inserciones de nombres de parlantes. La figura 2 ilustra un sistema para identificar un contexto apropiado relacionado con las transcripciones de texto, utilizando modelos a base de contexto y bases de datos de tópicos específicos de conformidad con una modalidad de la invención. Como se muestra en la figura 2, el sistema 32 incluye una base de datos de tópico específico 34. La base de datos de tópico específico 34 puede incluir un cuerpo de texto, que comprende una gran colección de documentos de texto. El sistema 32 además incluye un módulo de detección de tópico 36 y un módulo de rastreo de tópico 38. El módulo de detección de tópico 36 identifica un tópico o un conjunto de tópicos incluidos dentro de las transcripciones de texto 22. El módulo de rastreo de tópicos 38 identifica transcripciones de texto particulares 22 que tienen el(los) mismo(s) tópico(s) y categoriza las historias en el mismo tópico en una o más bandejas de tópicos 40. Con relación a la figura 1 , el contexto 17 relacionado con las transcripciones de texto 22 identificadas por los modelos a base de contexto 16 además se utiliza mediante el motor de procesamiento 16 para identificar palabras incorrectamente reconocidas e identificar correcciones en las transcripciones de texto, que puedan incluir el uso de técnicas de lenguaje natural. En un ejemplo particular, si las transcripciones de texto 22 incluyen una frase, "ella localizó una venta desde lejos" y el módulo de detección de tópico 16 identifica el tópico como una "playa" entonces los modelos a base de contexto 16 corregirán la frase a "ella localizó una velero desde lejos". En algunas modalidades, los modelos a base de contexto 16 analizan las transcripciones de texto 22 con base en un conteo de probabilidad de palabra de tópico específico en las transcripciones de texto. Como se utiliza en la presente, el "conteo de probabilidad de palabra de tópico específico" se refiere a la probabilidad de suceso de palabras específicas en un tópico particular en donde altas probabilidades se asignan a palabras particulares relacionadas con un tópico que con otras palabras. Por ejemplo, como se apreciará por los expertos en la técnica, las palabras tales como "precio de acciones" e "industrial DOW" generalmente son comunes en un reporte en el mercado de acciones pero no tan común durante un reporte en el tsunami de Asia de diciembre del 2004, en donde las palabras como "víctimas" y "terremoto" son más probables que ocurran. De igual manera, un reporte en el mercado de acciones puede mencionar "Wall Street" o "Alan Greenspan" mientras un reporte en el tsunami de Asia puede mencionar "Indonesia "o "sureste asiático". El uso de los modelos a base de contexto 6 en conjunto con la base de datos de tópicos específicos 34 mejora la exactitud del motor de reconocimiento del habla 12. Además, los modelos a base de contexto 16 y las bases de datos de tópicos específicos 34 permiten la selección de candidatos de palabras más probables mediante el motor de reconocimientos del habla 12 al asignar probabilidades superiores a palabras relacionadas con un tópico particular que otras palabras. Con relación a la figura 1 , el sistema 10 además incluye un módulo de entrenamiento 42. De acuerdo con una modalidad, el módulo de entrenamiento 42 maneja modelos acústicos y modelos de lenguaje 45 utilizados mediante el motor de reconocimiento del habla 12. El módulo de entrenamiento 42 aumenta los diccionarios y modelos de lenguaje para parlantes y construye nuevos modelos de reconocimiento del habla y de identificación de voz para nuevos parlantes. El módulo de entrenamiento 42 utiliza transcripciones actuales 43 para identificar nuevas palabras que resultan de la señal de audio con base en un análisis de una pluralidad de transcripciones de texto y actualiza los modelos acústicos y modelos de lenguaje 45 con base en el análisis. Como los apreciarán los expertos en la técnica, los modelos acústicos se construyen al analizar muchas muestras de audio para identificar palabras y sub-palabras (fonemas) para llegar a un modelo probabilístico que relaciona los fonemas con las palabras. En una modalidad particular, el modelo acústico utilizado es un modelo Hidden Markov (HMM). De igual manera, los modelos de lenguaje pueden construirse a partir de muchas muestras de transcripciones de texto para determinar frecuencias de palabras individuales y secuencias de palabras para construir un modelo estadístico. En una modalidad particular, el modelo de lenguaje utilizado es un modelo N-grams. Como lo apreciarán los expertos en la técnica, el modelo N-grams utiliza una secuencia de palabras N en una secuencia para predecir la palabra siguiente, utilizando un modelo estadístico. Un codificador 44 transmite las transcripciones de texto 22 que corresponden con los segmentos del habla como texto de subtitulación 46. El codificador 44 acepta una señal de video de entrada, que puede ser análoga o digital. El codificador 44 además recibe las transcripciones corregidas y formateadas 23 a partir del motor de procesamiento 14 y codifica las transcripciones corregidas y formateadas 23 como texto de subtitulación 46. La codificación puede realizarse utilizando un método estándar tal como, por ejemplo, utilizando la línea 21 de una señal de televisión. La señal de video de emisión codificada puede enviarse subsecuentemente a una televisión que codifica el texto de subtitulación 46 por medio de un decodificador de subtitulación. Una vez decodificado, el texto de subtitulación 46 puede superponerse y desplegarse en la pantalla de televisión. La figura 3 ilustra un procedimiento para generar automáticamente texto de subtitulación, de conformidad con modalidades de la presente invención. En el paso 50, se obtienen uno o más segmentos del habla de una señal de audio. La señal de audio 18 (figura 1 ) puede incluir una señal que transporta el habla desde una transmisión de noticias, una cobertura en vivo o grabada de una junta o una asamblea, o un entretenimiento por cable o red programado (en vivo o grabada). Además, características acústicas que corresponden con los segmentos del habla pueden analizarse para identificar parlantes específicos relacionados con los segmentos del habla. En una modalidad, una operación de unificación/de filtrado puede aplicarse a los segmentos del habla para identificar parlantes particulares con segmentos del habla particulares. En el paso 52, se generan una o más transcripciones de texto que corresponden con uno o más segmentos del habla. En el paso 54, se identifica un contexto apropiado relacionado con las transcripciones de texto 22. Como se describió anteriormente, el contexto 17 ayuda a identificar palabras incorrectamente reconocidas en las transcripciones de texto 22 y ayuda a la selección de palabras corregidas. También, como se mencionó anteriormente, el contexto apropiado 17 se identifica con base en un conteo de probabilidad de palabra de tópico específico en las transcripciones de texto. En el paso 56, se procesan las transcripciones de texto 22. Este paso incluye analizar las transcripciones de texto 22 para errores de palabra y realizar correcciones. En una modalidad, las transcripciones de texto 22 se analizan utilizando una técnica de lenguaje natural. En el paso 58, las transcripciones de texto se transmiten como texto de subtitulación. Aunque la invención se ha descrito a detalle en conexión con únicamente un número limitado de modalidades, debe entenderse fácilmente que la invención no se limita a dichas modalidades descritas. En consecuencia, la invención puede modificarse para incorporar cualquier número de variaciones, alteraciones, sustituciones o disposiciones equivalentes no descritas en la presente, pero que están en proporción con el espíritu y alcance de la invención. Adicionalmente, aunque varias modalidades de la invención se han descrito, debe entenderse que los aspectos de la invención pueden incluir únicamente algunas de las modalidades descritas. Asimismo, la invención no debe verse como limitada por la descripción anterior sino únicamente limitada por el alcance de las reivindicaciones anexas.

Claims

NOVEDAD DE LA INVENCION REIVINDICACIONES

1.- Un sistema (10) para generar subtitulación (46), el sistema (10) comprende: un motor de reconocimiento del habla (12) configurado para generar a partir de una señal de audio (18) una o más transcripciones de texto (22) que corresponden con uno o más segmentos del habla; uno o más modelos a base de contexto (16) configurados para identificar un contexto apropiado (17) relacionado con las transcripciones de texto (22); un motor de procesamiento (14) configurado para procesar las transcripciones de texto (22); y un codificador (44) configurado para transmitir las transcripciones de texto (22) que corresponden con los segmentos del habla como subtitulaciones (46).

2.- El sistema (10) de conformidad con la reivindicación 1 , caracterizado además porque comprende un motor de identificación de voz (30) acoplado con uno o más modelos a base de contexto (16), en donde le motor de identificación de voz (30) se configura para analizar características acústicas que corresponden con los segmentos del habla para identificar parlantes específicos relacionados con los segmentos del habla.

3.- El sistema (10) de conformidad con la reivindicación 1 , caracterizado además porque el motor de procesamiento (14) se adapta para analizar las transcripciones de texto (22) que corresponden con los segmentos del habla para errores de palabras, y en donde el motor de procesamiento (14) incluye un módulo de lenguaje natural (15) para analizar las transcripciones de texto (22).

4. - El sistema (10) de conformidad con la reivindicación 1 , caracterizado además porque los modelos a base de contexto (16) incluyen una o mas bases de datos de tópicos específicos (34) para identificar un contexto apropiado (17) relacionado con las transcripciones de texto (22).

5. - El sistema (10) de conformidad con la reivindicación 4, caracterizado además porque los modelos a base de contexto (16) se adaptan para identificar el contexto apropiado (17) con base en un conteo de probabilidad de palabra de tópico específico en las transcripciones de texto (22) que corresponden con los segmentos del habla.

6. - El sistema (10) de conformidad con la reivindicación 1 , caracterizado además porque el motor de reconocimiento del habla (12) se acopla con un módulo de entrenamiento (42), en donde el módulo de entrenamiento (42) se configura para aumentar los diccionarios y modelos de lenguaje para parlantes al analizar transcripciones actuales y construir nuevos modelos de identificación de voz y de reconocimiento del habla para nuevos parlantes.

7.- Un método para generar automáticamente texto de subtitulacion (46), el método comprende: obtener uno o más segmentos del habla a partir de una señal de audio (18); generar una o más transcripciones de texto (22) que corresponden con uno o más segmentos del habla; identificar un contexto apropiado (17) relacionado con las transcripciones de texto (22), procesar una o más transcripciones de texto (22); y transmitir las transcripciones de texto (22) que corresponden con los segmentos del habla como texto de subtitulación (46).

8.- El método de conformidad con la reivindicación 7, caracterizado además porque comprende analizar características acústicas que corresponden con los segmentos del habla para identificar parlantes específicos relacionados con los segmentos del habla.

9. - El método de conformidad con la reivindicación 7, caracterizado además porque identificar un contexto apropiado (17) comprende utilizar una o más bases de datos de tópicos específicos (34) con base en un conteo de probabilidad de palabra de tópico específico en las transcripciones de texto (22) que corresponden con los segmentos del habla.

10. - Un método para generar subtitulaciones (46), el método comprende: obtener una o más transcripciones de texto (22) que corresponden con uno o más segmentos del habla a partir de una señal de audio (18); identificar un contexto apropiado (17) relacionado con una o más transcripciones de texto (22) con base en un conteo de probabilidad de palabra de tópico específico en las transcripciones de texto (22); procesar una o más transcripciones de texto (22) para errores de palabra; y transmitir una o más transcripciones de texto (22) como subtitulaciones (46) en conjunto con la señal de audio (18).