MXPA06013573A - Sistema y metodo para generar subtitulacion. - Google Patents

Sistema y metodo para generar subtitulacion.

Info

Publication number
MXPA06013573A
MXPA06013573A MXPA06013573A MXPA06013573A MXPA06013573A MX PA06013573 A MXPA06013573 A MX PA06013573A MX PA06013573 A MXPA06013573 A MX PA06013573A MX PA06013573 A MXPA06013573 A MX PA06013573A MX PA06013573 A MXPA06013573 A MX PA06013573A
Authority
MX
Mexico
Prior art keywords
text
transcripts
context
speech segments
speech
Prior art date
Application number
MXPA06013573A
Other languages
English (en)
Inventor
Gerald Bowden Wise
Louis John Hoebel
John Michael Lizzi
Helena Goldfarb
Wei Chai
Anil Abraham
Original Assignee
Gen Electric
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Gen Electric filed Critical Gen Electric
Publication of MXPA06013573A publication Critical patent/MXPA06013573A/es

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

Se proporciona un sistema para generar subtitulaciones; el sistema incluye un motor de reconocimiento del habla configurado para generar una o más transcripciones de texto que corresponden con uno o más segmentos del habla a partir de una señal de audio; el sistema además incluye un motor de procesamiento, uno o más modelos a base de contexto y un codificador; el motor de procesamiento se confitura para procesar las transcripciones de texto; los modelos a base de contexto se configuran para identificar un contexto apropiado relacionado con las transcripciones de texto; el codificador se configura para transmitir las transcripciones de texto que corresponden con los segmentos del habla como subtitulaciones.

Description

SISTEMA Y METODO PARA GENERAR SUBTITULACION ANTECEDENTES DE LA INVENCION La invención se refiere en general a generar subtitulaciones y más particularmente a un sistema y método para generar automáticamente subtitulaciones utilizando reconocimiento del habla. La subtitulación es el procedimiento por medio del cual una señal de audio es traducida en datos textuales visibles. Los datos textuales visibles entonces pueden hacerse disponibles para utilizarse mediante una audiencia con discapacidad auditiva en lugar de una señal de audio. Un decodificador de subtitulación empotrado en televisiones o grabadoras de video generalmente separa el texto de subtitulación de la señal de audio y despliega el texto de subtitulación como parte de la señal de video. El reconocimiento del habla es el procedimiento de analizar una señal acústica para producir una secuencia de palabras. El reconocimiento del habla generalmente se utiliza en situaciones en donde las manos están ocupadas o los ojos están ocupados tal como cuando se maneja un carro o cuando se utilizan pequeños dispositivos como asistentes digitales personales. Algunas aplicaciones comunes que utilizan el reconocimiento del habla incluyen interacciones humano-computadora, interfaces multimodal, telefonía, dictado e indexacion y recuperación multimedia. Los requerimientos de reconocimiento del habla para las aplicaciones anteriores, en general, varían y tienen diferentes requerimientos de calidad. Por ejemplo, una aplicación de dictado puede requerir procesamiento casi en tiempo real y una trascripción de texto de baja tasa de error de palabras del habla, mientras que una aplicación de indexacion y recuperación multimedia puede requerir independencia del parlante y vocabularios mucho más grande, pero puede aceptar tasas de error de palabras superiores.
BREVE DESCRIPCION DE LA INVENCION Las modalidades de la invención proporcionan un sistema para generar subtitulaciones. El sistema incluye un motor de reconocimiento del habla configurado para generar uno o más transcripciones de texto que corresponden con uno o más segmentos del habla a partir de una señal de audio. El sistema además incluye un motor de procesamiento, uno o más modelos a base de contexto y un codificador. El motor de procesamiento se configura para procesar las transcripciones de texto. Los modelos a base de contexto se configuran para identificar un contexto apropiado relacionado con las transcripciones de texto. El codificador se configura para transmitir las transcripciones de texto que corresponden con los segmentos del habla como subtitulaciones. En otra modalidad, se proporciona un método para generar automáticamente texto de subtitulación. El método incluye obtener uno o más segmentos del habla a partir de una de señal de audio. Posteriormente, el método incluye generar una o más transcripciones de texto que corresponden con uno o más segmentos del habla e identificar un contexto apropiado relacionado con las transcripciones de texto. El método entonces incluye procesar una o más transcripciones de texto y transmitir las transcripciones de texto que corresponden con los segmentos del habla como texto de subtitulación.
BREVE DESCRIPCION DE LOS DIBUJOS Estas y otras características, aspectos, y ventajas de la presente invención se entenderán mejor cuando se lea la siguiente descripción detallada con referencia a los dibujos anexos en donde los caracteres similares representan partes similares a través de los dibujos, en donde: la figura 1 ilustra un sistema para generar subtitulaciones de conformidad con una modalidad de la invención: la figura 2 ilustra un sistema para identificar un contexto apropiado relacionado con las transcripciones de texto, utilizando modelos a base de contexto y bases de datos de tópicos específicos de conformidad con una modalidad de la invención; y la figura 3 ilustra un procedimiento para generar automáticamente texto de subtitulación de conformidad con modalidades de la presente invención.
DESCRIPCION DETALLADA DE MODALIDADES PREFERIDAS La figura 1 es una ilustración de un sistema 10 para generar subtitulaciones de conformidad con una modalidad de la invención. Como se muestra en la figura 1 , el sistema 10 generalmente incluye un motor de reconocimiento del habla 12, un motor de procesamiento 14 y uno o más modelos a base de contexto 16. El motor de reconocimiento del habla 12 recibe una señal de audio 18 y genera transcripciones de texto 22 que corresponden con uno o más segmentos del habla a partir de la señal de audio 18. La señal de audio puede incluir una señal que transporta el habla desde una transmisión de noticias, una cobertura en vivo o grabada de una junta o una asamblea, o de un entretenimiento por red o cable programado (en vivo o grabado). En ciertas modalidades, el motor de reconocimiento del habla 12 puede además incluir un módulo de segmentación del parlante 24, un módulo de reconocimiento del habla 26 y un módulo de agrupamiento del parlante 28. El módulo de segmentación del parlante 24 convierte la señal de audio entrante 18 en segmentos de habla y de no habla. El módulo de reconocimiento del habla 26 analiza el habla en los segmentos del habla e identifica las palabras habladas. El módulo de agrupamiento del parlante 28 analiza las características acústicas de cada segmento del habla para identificar diferentes voces, tal como, voces de hombre y mujer y marca los segmentos en un modo apropiado.
Los modelos a base de contexto 16 se configuran para identificar un contexto apropiado 17 relacionado con las transcripciones de texto 22 generadas mediante el motor de reconocimiento del habla 12. En una modalidad particular, y como se describirá con mayor detalle a continuación, los modelos a base de contexto 16 incluyen una o más bases de datos de tópicos específicos para identificar un contexto apropiado 17 relacionado con las transcripciones de texto. En una modalidad particular, un motor de identificación de voz 30 puede acoplarse con los modelos a base de contexto 16 para identificar un contexto apropiado del habla y facilitar la selección del texto para emisión como subtitulación. Como se utiliza en la presente, el "contexto" se refiere al parlante como también al tópico que se discute. Conocer quien está hablando puede ayudar a determinar el conjunto de tópicos posibles (por ejemplo, si el punto de referencia del clima está hablando, los tópicos probablemente se limitarán a pronósticos del clima, tormentas, etc.). Además de identificar a los parlantes, el motor de identificación de voz 30 puede también aumentar con los modelos de no habla para ayudar a identificar sonidos del entorno o escenario (explosión, música, etc.). Esta información también puede utilizarse para ayudar a identificar tópicos. Por ejemplo, si se identifica un sonido de explosión, entonces el tópico puede relacionarse con guerra o crimen. El motor de identificación de voz 30 puede además analizar la característica acústica de cada segmento del habla e identificar el parlante específico relacionado con ese segmento al comparar la característica acústica con uno o más modelos estadísticos que corresponden con un conjunto de parlantes posibles y determinar la correspondencia más cercana con base en la comparación. Los modelos del parlante pueden entrenarse fuera de linea y cargarse mediante el motor de identificación de voz 30 para identificación del parlante en tiempo real. Para propósitos de exactitud, un paso de uniformidad/de filtración puede realizarse antes de presentar los parlantes identificados para evitar inestabilidad (generalmente provocada por alta frecuencia poco realista de parlantes cambiantes) en el sistema. El motor de procesamiento 14 procesa las transcripciones de texto 22 generadas por el motor de reconocimiento del habla 12. El motor de procesamiento 14 incluye un módulo de lenguaje natural 15 para analizar las transcripciones de texto 22 a partir del motor de reconocimiento del habla 12 para errores de palabra. En particular, el módulo de lenguaje natural 15 realiza corrección de error de palabra, extracción de entidad nombrada, y formateo de salida en las transcripciones de texto 22. Una corrección de error de palabra de las transcripciones de texto generalmente se realiza al determinar una tasa de error de palabra que corresponde con las transcripciones de texto. La tasa de error de palabra se define como una medida de la diferencia entre la transcripción generada por el reconocedor del habla y la transcripción de referencia correcta. En algunas modalidades, la tasa de error de palabra se determina al calcular la distancia de edición mínima en palabras entre las secuencias reconocidas y las correctas. La extracción de entidad nombrada procesa las transcripciones de texto 22 para nombres, compañías y lugares en las transcripciones de texto 22. Los nombres y entidades extraídas pueden utilizarse para relacionar metadatos con las transcripciones de texto 22, que pueden subsecuentemente utilizarse durante la indexación y recuperación. El formateo de salida de las transcripciones de texto 22 pueden incluir, pero no se limitan a, capitalización, puntuación, reemplazos de palabras, inserciones y deleciones, e inserciones de nombres de parlantes. La figura 2 ilustra un sistema para identificar un contexto apropiado relacionado con las transcripciones de texto, utilizando modelos a base de contexto y bases de datos de tópicos específicos de conformidad con una modalidad de la invención. Como se muestra en la figura 2, el sistema 32 incluye una base de datos de tópico específico 34. La base de datos de tópico específico 34 puede incluir un cuerpo de texto, que comprende una gran colección de documentos de texto. El sistema 32 además incluye un módulo de detección de tópico 36 y un módulo de rastreo de tópico 38. El módulo de detección de tópico 36 identifica un tópico o un conjunto de tópicos incluidos dentro de las transcripciones de texto 22. El módulo de rastreo de tópicos 38 identifica transcripciones de texto particulares 22 que tienen el(los) mismo(s) tópico(s) y categoriza las historias en el mismo tópico en una o más bandejas de tópicos 40. Con relación a la figura 1 , el contexto 17 relacionado con las transcripciones de texto 22 identificadas por los modelos a base de contexto 16 además se utiliza mediante el motor de procesamiento 16 para identificar palabras incorrectamente reconocidas e identificar correcciones en las transcripciones de texto, que puedan incluir el uso de técnicas de lenguaje natural. En un ejemplo particular, si las transcripciones de texto 22 incluyen una frase, "ella localizó una venta desde lejos" y el módulo de detección de tópico 16 identifica el tópico como una "playa" entonces los modelos a base de contexto 16 corregirán la frase a "ella localizó una velero desde lejos". En algunas modalidades, los modelos a base de contexto 16 analizan las transcripciones de texto 22 con base en un conteo de probabilidad de palabra de tópico específico en las transcripciones de texto. Como se utiliza en la presente, el "conteo de probabilidad de palabra de tópico específico" se refiere a la probabilidad de suceso de palabras específicas en un tópico particular en donde altas probabilidades se asignan a palabras particulares relacionadas con un tópico que con otras palabras. Por ejemplo, como se apreciará por los expertos en la técnica, las palabras tales como "precio de acciones" e "industrial DOW" generalmente son comunes en un reporte en el mercado de acciones pero no tan común durante un reporte en el tsunami de Asia de diciembre del 2004, en donde las palabras como "víctimas" y "terremoto" son más probables que ocurran. De igual manera, un reporte en el mercado de acciones puede mencionar "Wall Street" o "Alan Greenspan" mientras un reporte en el tsunami de Asia puede mencionar "Indonesia "o "sureste asiático". El uso de los modelos a base de contexto 6 en conjunto con la base de datos de tópicos específicos 34 mejora la exactitud del motor de reconocimiento del habla 12. Además, los modelos a base de contexto 16 y las bases de datos de tópicos específicos 34 permiten la selección de candidatos de palabras más probables mediante el motor de reconocimientos del habla 12 al asignar probabilidades superiores a palabras relacionadas con un tópico particular que otras palabras. Con relación a la figura 1 , el sistema 10 además incluye un módulo de entrenamiento 42. De acuerdo con una modalidad, el módulo de entrenamiento 42 maneja modelos acústicos y modelos de lenguaje 45 utilizados mediante el motor de reconocimiento del habla 12. El módulo de entrenamiento 42 aumenta los diccionarios y modelos de lenguaje para parlantes y construye nuevos modelos de reconocimiento del habla y de identificación de voz para nuevos parlantes. El módulo de entrenamiento 42 utiliza transcripciones actuales 43 para identificar nuevas palabras que resultan de la señal de audio con base en un análisis de una pluralidad de transcripciones de texto y actualiza los modelos acústicos y modelos de lenguaje 45 con base en el análisis. Como los apreciarán los expertos en la técnica, los modelos acústicos se construyen al analizar muchas muestras de audio para identificar palabras y sub-palabras (fonemas) para llegar a un modelo probabilístico que relaciona los fonemas con las palabras. En una modalidad particular, el modelo acústico utilizado es un modelo Hidden Markov (HMM). De igual manera, los modelos de lenguaje pueden construirse a partir de muchas muestras de transcripciones de texto para determinar frecuencias de palabras individuales y secuencias de palabras para construir un modelo estadístico. En una modalidad particular, el modelo de lenguaje utilizado es un modelo N-grams. Como lo apreciarán los expertos en la técnica, el modelo N-grams utiliza una secuencia de palabras N en una secuencia para predecir la palabra siguiente, utilizando un modelo estadístico. Un codificador 44 transmite las transcripciones de texto 22 que corresponden con los segmentos del habla como texto de subtitulación 46. El codificador 44 acepta una señal de video de entrada, que puede ser análoga o digital. El codificador 44 además recibe las transcripciones corregidas y formateadas 23 a partir del motor de procesamiento 14 y codifica las transcripciones corregidas y formateadas 23 como texto de subtitulación 46. La codificación puede realizarse utilizando un método estándar tal como, por ejemplo, utilizando la línea 21 de una señal de televisión. La señal de video de emisión codificada puede enviarse subsecuentemente a una televisión que codifica el texto de subtitulación 46 por medio de un decodificador de subtitulación. Una vez decodificado, el texto de subtitulación 46 puede superponerse y desplegarse en la pantalla de televisión. La figura 3 ilustra un procedimiento para generar automáticamente texto de subtitulación, de conformidad con modalidades de la presente invención. En el paso 50, se obtienen uno o más segmentos del habla de una señal de audio. La señal de audio 18 (figura 1 ) puede incluir una señal que transporta el habla desde una transmisión de noticias, una cobertura en vivo o grabada de una junta o una asamblea, o un entretenimiento por cable o red programado (en vivo o grabada). Además, características acústicas que corresponden con los segmentos del habla pueden analizarse para identificar parlantes específicos relacionados con los segmentos del habla. En una modalidad, una operación de unificación/de filtrado puede aplicarse a los segmentos del habla para identificar parlantes particulares con segmentos del habla particulares. En el paso 52, se generan una o más transcripciones de texto que corresponden con uno o más segmentos del habla. En el paso 54, se identifica un contexto apropiado relacionado con las transcripciones de texto 22. Como se describió anteriormente, el contexto 17 ayuda a identificar palabras incorrectamente reconocidas en las transcripciones de texto 22 y ayuda a la selección de palabras corregidas. También, como se mencionó anteriormente, el contexto apropiado 17 se identifica con base en un conteo de probabilidad de palabra de tópico específico en las transcripciones de texto. En el paso 56, se procesan las transcripciones de texto 22. Este paso incluye analizar las transcripciones de texto 22 para errores de palabra y realizar correcciones. En una modalidad, las transcripciones de texto 22 se analizan utilizando una técnica de lenguaje natural. En el paso 58, las transcripciones de texto se transmiten como texto de subtitulación. Aunque la invención se ha descrito a detalle en conexión con únicamente un número limitado de modalidades, debe entenderse fácilmente que la invención no se limita a dichas modalidades descritas. En consecuencia, la invención puede modificarse para incorporar cualquier número de variaciones, alteraciones, sustituciones o disposiciones equivalentes no descritas en la presente, pero que están en proporción con el espíritu y alcance de la invención. Adicionalmente, aunque varias modalidades de la invención se han descrito, debe entenderse que los aspectos de la invención pueden incluir únicamente algunas de las modalidades descritas. Asimismo, la invención no debe verse como limitada por la descripción anterior sino únicamente limitada por el alcance de las reivindicaciones anexas.

Claims (10)

NOVEDAD DE LA INVENCION REIVINDICACIONES
1.- Un sistema (10) para generar subtitulación (46), el sistema (10) comprende: un motor de reconocimiento del habla (12) configurado para generar a partir de una señal de audio (18) una o más transcripciones de texto (22) que corresponden con uno o más segmentos del habla; uno o más modelos a base de contexto (16) configurados para identificar un contexto apropiado (17) relacionado con las transcripciones de texto (22); un motor de procesamiento (14) configurado para procesar las transcripciones de texto (22); y un codificador (44) configurado para transmitir las transcripciones de texto (22) que corresponden con los segmentos del habla como subtitulaciones (46).
2.- El sistema (10) de conformidad con la reivindicación 1 , caracterizado además porque comprende un motor de identificación de voz (30) acoplado con uno o más modelos a base de contexto (16), en donde le motor de identificación de voz (30) se configura para analizar características acústicas que corresponden con los segmentos del habla para identificar parlantes específicos relacionados con los segmentos del habla.
3.- El sistema (10) de conformidad con la reivindicación 1 , caracterizado además porque el motor de procesamiento (14) se adapta para analizar las transcripciones de texto (22) que corresponden con los segmentos del habla para errores de palabras, y en donde el motor de procesamiento (14) incluye un módulo de lenguaje natural (15) para analizar las transcripciones de texto (22).
4. - El sistema (10) de conformidad con la reivindicación 1 , caracterizado además porque los modelos a base de contexto (16) incluyen una o mas bases de datos de tópicos específicos (34) para identificar un contexto apropiado (17) relacionado con las transcripciones de texto (22).
5. - El sistema (10) de conformidad con la reivindicación 4, caracterizado además porque los modelos a base de contexto (16) se adaptan para identificar el contexto apropiado (17) con base en un conteo de probabilidad de palabra de tópico específico en las transcripciones de texto (22) que corresponden con los segmentos del habla.
6. - El sistema (10) de conformidad con la reivindicación 1 , caracterizado además porque el motor de reconocimiento del habla (12) se acopla con un módulo de entrenamiento (42), en donde el módulo de entrenamiento (42) se configura para aumentar los diccionarios y modelos de lenguaje para parlantes al analizar transcripciones actuales y construir nuevos modelos de identificación de voz y de reconocimiento del habla para nuevos parlantes.
7.- Un método para generar automáticamente texto de subtitulacion (46), el método comprende: obtener uno o más segmentos del habla a partir de una señal de audio (18); generar una o más transcripciones de texto (22) que corresponden con uno o más segmentos del habla; identificar un contexto apropiado (17) relacionado con las transcripciones de texto (22), procesar una o más transcripciones de texto (22); y transmitir las transcripciones de texto (22) que corresponden con los segmentos del habla como texto de subtitulación (46).
8.- El método de conformidad con la reivindicación 7, caracterizado además porque comprende analizar características acústicas que corresponden con los segmentos del habla para identificar parlantes específicos relacionados con los segmentos del habla.
9. - El método de conformidad con la reivindicación 7, caracterizado además porque identificar un contexto apropiado (17) comprende utilizar una o más bases de datos de tópicos específicos (34) con base en un conteo de probabilidad de palabra de tópico específico en las transcripciones de texto (22) que corresponden con los segmentos del habla.
10. - Un método para generar subtitulaciones (46), el método comprende: obtener una o más transcripciones de texto (22) que corresponden con uno o más segmentos del habla a partir de una señal de audio (18); identificar un contexto apropiado (17) relacionado con una o más transcripciones de texto (22) con base en un conteo de probabilidad de palabra de tópico específico en las transcripciones de texto (22); procesar una o más transcripciones de texto (22) para errores de palabra; y transmitir una o más transcripciones de texto (22) como subtitulaciones (46) en conjunto con la señal de audio (18).
MXPA06013573A 2005-11-23 2006-11-23 Sistema y metodo para generar subtitulacion. MXPA06013573A (es)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US11/287,556 US20070118372A1 (en) 2005-11-23 2005-11-23 System and method for generating closed captions

Publications (1)

Publication Number Publication Date
MXPA06013573A true MXPA06013573A (es) 2008-10-16

Family

ID=38054605

Family Applications (1)

Application Number Title Priority Date Filing Date
MXPA06013573A MXPA06013573A (es) 2005-11-23 2006-11-23 Sistema y metodo para generar subtitulacion.

Country Status (3)

Country Link
US (3) US20070118372A1 (es)
CA (1) CA2568572A1 (es)
MX (1) MXPA06013573A (es)

Families Citing this family (73)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8510109B2 (en) 2007-08-22 2013-08-13 Canyon Ip Holdings Llc Continuous speech transcription performance indication
EP1959449A1 (en) * 2007-02-13 2008-08-20 British Telecommunications Public Limited Company Analysing video material
US9973450B2 (en) 2007-09-17 2018-05-15 Amazon Technologies, Inc. Methods and systems for dynamically updating web service profile information by parsing transcribed message strings
US7881930B2 (en) * 2007-06-25 2011-02-01 Nuance Communications, Inc. ASR-aided transcription with segmented feedback training
US9164995B2 (en) * 2008-01-03 2015-10-20 International Business Machines Corporation Establishing usage policies for recorded events in digital life recording
US9105298B2 (en) * 2008-01-03 2015-08-11 International Business Machines Corporation Digital life recorder with selective playback of digital video
US7894639B2 (en) * 2008-01-03 2011-02-22 International Business Machines Corporation Digital life recorder implementing enhanced facial recognition subsystem for acquiring a face glossary data
US9270950B2 (en) * 2008-01-03 2016-02-23 International Business Machines Corporation Identifying a locale for controlling capture of data by a digital life recorder based on location
US8005272B2 (en) * 2008-01-03 2011-08-23 International Business Machines Corporation Digital life recorder implementing enhanced facial recognition subsystem for acquiring face glossary data
US8014573B2 (en) * 2008-01-03 2011-09-06 International Business Machines Corporation Digital life recording and playback
EP2106121A1 (en) * 2008-03-27 2009-09-30 Mundovision MGI 2000, S.A. Subtitle generation methods for live programming
US8676577B2 (en) * 2008-03-31 2014-03-18 Canyon IP Holdings, LLC Use of metadata to post process speech recognition output
JPWO2009122779A1 (ja) * 2008-04-03 2011-07-28 日本電気株式会社 テキストデータ処理装置、方法、プログラム
US9478218B2 (en) * 2008-10-24 2016-10-25 Adacel, Inc. Using word confidence score, insertion and substitution thresholds for selected words in speech recognition
US9245017B2 (en) 2009-04-06 2016-01-26 Caption Colorado L.L.C. Metatagging of captions
US20100268534A1 (en) * 2009-04-17 2010-10-21 Microsoft Corporation Transcription, archiving and threading of voice communications
US20110125497A1 (en) * 2009-11-20 2011-05-26 Takahiro Unno Method and System for Voice Activity Detection
US8379801B2 (en) 2009-11-24 2013-02-19 Sorenson Communications, Inc. Methods and systems related to text caption error correction
US8296130B2 (en) * 2010-01-29 2012-10-23 Ipar, Llc Systems and methods for word offensiveness detection and processing using weighted dictionaries and normalization
US8949125B1 (en) 2010-06-16 2015-02-03 Google Inc. Annotating maps with user-contributed pronunciations
WO2011160741A1 (en) * 2010-06-23 2011-12-29 Telefonica, S.A. A method for indexing multimedia information
US9332319B2 (en) * 2010-09-27 2016-05-03 Unisys Corporation Amalgamating multimedia transcripts for closed captioning from a plurality of text to speech conversions
US8812321B2 (en) * 2010-09-30 2014-08-19 At&T Intellectual Property I, L.P. System and method for combining speech recognition outputs from a plurality of domain-specific speech recognizers via machine learning
US20120084435A1 (en) * 2010-10-04 2012-04-05 International Business Machines Corporation Smart Real-time Content Delivery
US8688453B1 (en) * 2011-02-28 2014-04-01 Nuance Communications, Inc. Intent mining via analysis of utterances
CN102332269A (zh) * 2011-06-03 2012-01-25 陈威 呼吸面具中呼吸噪声的消除方法
US8676580B2 (en) * 2011-08-16 2014-03-18 International Business Machines Corporation Automatic speech and concept recognition
US20130144414A1 (en) * 2011-12-06 2013-06-06 Cisco Technology, Inc. Method and apparatus for discovering and labeling speakers in a large and growing collection of videos with minimal user effort
US9324323B1 (en) 2012-01-13 2016-04-26 Google Inc. Speech recognition using topic-specific language models
US8775177B1 (en) 2012-03-08 2014-07-08 Google Inc. Speech recognition process
WO2014025282A1 (en) * 2012-08-10 2014-02-13 Khitrov Mikhail Vasilevich Method for recognition of speech messages and device for carrying out the method
US20140067394A1 (en) * 2012-08-28 2014-03-06 King Abdulaziz City For Science And Technology System and method for decoding speech
US9124856B2 (en) 2012-08-31 2015-09-01 Disney Enterprises, Inc. Method and system for video event detection for contextual annotation and synchronization
WO2014069120A1 (ja) * 2012-10-31 2014-05-08 日本電気株式会社 分析対象決定装置及び分析対象決定方法
JP6172770B2 (ja) * 2013-03-19 2017-08-02 Necソリューションイノベータ株式会社 要約筆記支援システム、情報配信装置、要約筆記支援方法、及びプログラム
US9558749B1 (en) * 2013-08-01 2017-01-31 Amazon Technologies, Inc. Automatic speaker identification using speech recognition features
US20150098018A1 (en) * 2013-10-04 2015-04-09 National Public Radio Techniques for live-writing and editing closed captions
US20180270350A1 (en) 2014-02-28 2018-09-20 Ultratec, Inc. Semiautomated relay method and apparatus
US20180034961A1 (en) 2014-02-28 2018-02-01 Ultratec, Inc. Semiautomated Relay Method and Apparatus
US10389876B2 (en) 2014-02-28 2019-08-20 Ultratec, Inc. Semiautomated relay method and apparatus
US10304458B1 (en) * 2014-03-06 2019-05-28 Board of Trustees of the University of Alabama and the University of Alabama in Huntsville Systems and methods for transcribing videos using speaker identification
US9858922B2 (en) 2014-06-23 2018-01-02 Google Inc. Caching speech recognition scores
KR102187195B1 (ko) 2014-07-28 2020-12-04 삼성전자주식회사 주변 소음에 기초하여 자막을 생성하는 동영상 디스플레이 방법 및 사용자 단말
US9299347B1 (en) * 2014-10-22 2016-03-29 Google Inc. Speech recognition using associative mapping
KR20160055337A (ko) * 2014-11-07 2016-05-18 삼성전자주식회사 텍스트 표시 방법 및 그 전자 장치
US10152298B1 (en) * 2015-06-29 2018-12-11 Amazon Technologies, Inc. Confidence estimation based on frequency
US9786270B2 (en) 2015-07-09 2017-10-10 Google Inc. Generating acoustic models
US10229672B1 (en) 2015-12-31 2019-03-12 Google Llc Training acoustic models using connectionist temporal classification
EP3270374A1 (en) * 2016-07-13 2018-01-17 Tata Consultancy Services Limited Systems and methods for automatic repair of speech recognition engine output
US20180018973A1 (en) 2016-07-15 2018-01-18 Google Inc. Speaker verification
US10650621B1 (en) 2016-09-13 2020-05-12 Iocurrents, Inc. Interfacing with a vehicular controller area network
CN106409296A (zh) * 2016-09-14 2017-02-15 安徽声讯信息技术有限公司 基于分核处理技术的语音快速转写校正系统
JP6936318B2 (ja) * 2016-09-30 2021-09-15 ロヴィ ガイズ, インコーポレイテッド キャプションテキストにおける間違いを訂正するためのシステムおよび方法
US10810995B2 (en) * 2017-04-27 2020-10-20 Marchex, Inc. Automatic speech recognition (ASR) model training
US11100943B1 (en) 2017-07-09 2021-08-24 Otter.ai, Inc. Systems and methods for processing and presenting conversations
US10978073B1 (en) 2017-07-09 2021-04-13 Otter.ai, Inc. Systems and methods for processing and presenting conversations
US11024316B1 (en) * 2017-07-09 2021-06-01 Otter.ai, Inc. Systems and methods for capturing, processing, and rendering one or more context-aware moment-associating elements
US20190043487A1 (en) * 2017-08-02 2019-02-07 Veritone, Inc. Methods and systems for optimizing engine selection using machine learning modeling
US10706840B2 (en) 2017-08-18 2020-07-07 Google Llc Encoder-decoder models for sequence to sequence mapping
KR102518543B1 (ko) * 2017-12-07 2023-04-07 현대자동차주식회사 사용자의 발화 에러 보정 장치 및 그 방법
US11087766B2 (en) * 2018-01-05 2021-08-10 Uniphore Software Systems System and method for dynamic speech recognition selection based on speech rate or business domain
RU2691603C1 (ru) * 2018-08-22 2019-06-14 Акционерное общество "Концерн "Созвездие" Способ разделения речи и пауз путем анализа значений корреляционной функции помехи и смеси сигнала и помехи
US11423911B1 (en) * 2018-10-17 2022-08-23 Otter.ai, Inc. Systems and methods for live broadcasting of context-aware transcription and/or other elements related to conversations and/or speeches
US11527265B2 (en) * 2018-11-02 2022-12-13 BriefCam Ltd. Method and system for automatic object-aware video or audio redaction
US11342002B1 (en) * 2018-12-05 2022-05-24 Amazon Technologies, Inc. Caption timestamp predictor
GB2583117B (en) * 2019-04-17 2021-06-30 Sonocent Ltd Processing and visualising audio signals
CN110362065B (zh) * 2019-07-17 2022-07-19 东北大学 一种航空发动机防喘控制系统的状态诊断方法
WO2021112840A1 (en) * 2019-12-04 2021-06-10 Google Llc Speaker awareness using speaker dependent speech model(s)
US11539900B2 (en) * 2020-02-21 2022-12-27 Ultratec, Inc. Caption modification and augmentation systems and methods for use by hearing assisted user
US11562731B2 (en) 2020-08-19 2023-01-24 Sorenson Ip Holdings, Llc Word replacement in transcriptions
US11335324B2 (en) 2020-08-31 2022-05-17 Google Llc Synthesized data augmentation using voice conversion and speech recognition models
US11676623B1 (en) 2021-02-26 2023-06-13 Otter.ai, Inc. Systems and methods for automatic joining as a virtual meeting participant for transcription
US11705125B2 (en) * 2021-03-26 2023-07-18 International Business Machines Corporation Dynamic voice input detection for conversation assistants

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4649505A (en) * 1984-07-02 1987-03-10 General Electric Company Two-input crosstalk-resistant adaptive noise canceller
JPH07113840B2 (ja) * 1989-06-29 1995-12-06 三菱電機株式会社 音声検出器
CA2040025A1 (en) * 1990-04-09 1991-10-10 Hideki Satoh Speech detection apparatus with influence of input level and noise reduced
US5459814A (en) * 1993-03-26 1995-10-17 Hughes Aircraft Company Voice activity detector for speech signals in variable background noise
US5835667A (en) * 1994-10-14 1998-11-10 Carnegie Mellon University Method and apparatus for creating a searchable digital video library and a system and method of using such a library
JPH0916602A (ja) * 1995-06-27 1997-01-17 Sony Corp 翻訳装置および翻訳方法
US6185531B1 (en) * 1997-01-09 2001-02-06 Gte Internetworking Incorporated Topic indexing method
GB2330961B (en) * 1997-11-04 2002-04-24 Nokia Mobile Phones Ltd Automatic Gain Control
US6381569B1 (en) * 1998-02-04 2002-04-30 Qualcomm Incorporated Noise-compensated speech recognition templates
US6240381B1 (en) * 1998-02-17 2001-05-29 Fonix Corporation Apparatus and methods for detecting onset of a signal
US6490557B1 (en) * 1998-03-05 2002-12-03 John C. Jeppesen Method and apparatus for training an ultra-large vocabulary, continuous speech, speaker independent, automatic speech recognition system and consequential database
US6453287B1 (en) * 1999-02-04 2002-09-17 Georgia-Tech Research Corporation Apparatus and quality enhancement algorithm for mixed excitation linear predictive (MELP) and other speech coders
US6249757B1 (en) * 1999-02-16 2001-06-19 3Com Corporation System for detecting voice activity
US6766295B1 (en) * 1999-05-10 2004-07-20 Nuance Communications Adaptation of a speech recognition system across multiple remote sessions with a speaker
US6304842B1 (en) * 1999-06-30 2001-10-16 Glenayre Electronics, Inc. Location and coding of unvoiced plosives in linear predictive coding of speech
US6757866B1 (en) * 1999-10-29 2004-06-29 Verizon Laboratories Inc. Hyper video: information retrieval using text from multimedia
US6490580B1 (en) * 1999-10-29 2002-12-03 Verizon Laboratories Inc. Hypervideo information retrieval usingmultimedia
US6816468B1 (en) * 1999-12-16 2004-11-09 Nortel Networks Limited Captioning for tele-conferences
US7047191B2 (en) * 2000-03-06 2006-05-16 Rochester Institute Of Technology Method and system for providing automated captioning for AV signals
US6816858B1 (en) * 2000-03-31 2004-11-09 International Business Machines Corporation System, method and apparatus providing collateral information for a video/audio stream
US20020051077A1 (en) * 2000-07-19 2002-05-02 Shih-Ping Liou Videoabstracts: a system for generating video summaries
NZ506981A (en) * 2000-09-15 2003-08-29 Univ Otago Computer based system for the recognition of speech characteristics using hidden markov method(s)
US6832189B1 (en) * 2000-11-15 2004-12-14 International Business Machines Corporation Integration of speech recognition and stenographic services for improved ASR training
US20020169604A1 (en) * 2001-03-09 2002-11-14 Damiba Bertrand A. System, method and computer program product for genre-based grammars and acoustic models in a speech recognition framework
US7013273B2 (en) * 2001-03-29 2006-03-14 Matsushita Electric Industrial Co., Ltd. Speech recognition based captioning system
US7035804B2 (en) * 2001-04-26 2006-04-25 Stenograph, L.L.C. Systems and methods for automated audio transcription, translation, and transfer
US20030120484A1 (en) * 2001-06-12 2003-06-26 David Wong Method and system for generating colored comfort noise in the absence of silence insertion description packets
US6493668B1 (en) * 2001-06-15 2002-12-10 Yigal Brandman Speech feature extraction system
US20030065503A1 (en) * 2001-09-28 2003-04-03 Philips Electronics North America Corp. Multi-lingual transcription system
US7139701B2 (en) * 2004-06-30 2006-11-21 Motorola, Inc. Method for detecting and attenuating inhalation noise in a communication system
US20070011012A1 (en) * 2005-07-11 2007-01-11 Steve Yurick Method, system, and apparatus for facilitating captioning of multi-media content

Also Published As

Publication number Publication date
US20070118372A1 (en) 2007-05-24
CA2568572A1 (en) 2007-05-23
US20070118373A1 (en) 2007-05-24
US20070118374A1 (en) 2007-05-24

Similar Documents

Publication Publication Date Title
MXPA06013573A (es) Sistema y metodo para generar subtitulacion.
US10878824B2 (en) Speech-to-text generation using video-speech matching from a primary speaker
CN1655235B (zh) 基于话音特征自动标识电话呼叫者
US7337115B2 (en) Systems and methods for providing acoustic classification
US6718303B2 (en) Apparatus and method for automatically generating punctuation marks in continuous speech recognition
US20070118364A1 (en) System for generating closed captions
JP4241376B2 (ja) 認識されたテキスト中の音声シーケンスと手動入力される補正ワードの音声転写との比較を通した音声認識により認識されたテキストの補正
US20160133251A1 (en) Processing of audio data
US20080130699A1 (en) Content selection using speech recognition
Palaskar et al. End-to-end multimodal speech recognition
CN110870004B (zh) 基于音节的自动语音识别
US7181395B1 (en) Methods and apparatus for automatic generation of multiple pronunciations from acoustic data
KR19980070329A (ko) 사용자 정의 문구의 화자 독립 인식을 위한 방법 및 시스템
WO2006083020A1 (ja) 抽出された音声データを用いて応答音声を生成する音声認識システム
JP2015212731A (ja) 音響イベント認識装置、及びプログラム
Moreno et al. A factor automaton approach for the forced alignment of long speech recordings
JP4934090B2 (ja) 番組登場人物抽出装置及び番組登場人物抽出プログラム
CN110992984B (zh) 音频处理方法及装置、存储介质
US20070129945A1 (en) Voice quality control for high quality speech reconstruction
US20050125224A1 (en) Method and apparatus for fusion of recognition results from multiple types of data sources
US7752045B2 (en) Systems and methods for comparing speech elements
KR101598950B1 (ko) 발음 평가 장치 및 이를 이용한 발음 평가 방법에 대한 프로그램이 기록된 컴퓨터 판독 가능한 기록 매체
Furui Robust methods in automatic speech recognition and understanding.
JP5243886B2 (ja) 字幕出力装置、字幕出力方法及びプログラム
KR102299269B1 (ko) 음성 및 스크립트를 정렬하여 음성 데이터베이스를 구축하는 방법 및 장치

Legal Events

Date Code Title Description
FG Grant or registration