MXPA06013573A - Sistema y metodo para generar subtitulacion. - Google Patents
Sistema y metodo para generar subtitulacion.Info
- Publication number
- MXPA06013573A MXPA06013573A MXPA06013573A MXPA06013573A MXPA06013573A MX PA06013573 A MXPA06013573 A MX PA06013573A MX PA06013573 A MXPA06013573 A MX PA06013573A MX PA06013573 A MXPA06013573 A MX PA06013573A MX PA06013573 A MXPA06013573 A MX PA06013573A
- Authority
- MX
- Mexico
- Prior art keywords
- text
- transcripts
- context
- speech segments
- speech
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Data Mining & Analysis (AREA)
- Machine Translation (AREA)
- Electrically Operated Instructional Devices (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
Se proporciona un sistema para generar subtitulaciones; el sistema incluye un motor de reconocimiento del habla configurado para generar una o más transcripciones de texto que corresponden con uno o más segmentos del habla a partir de una señal de audio; el sistema además incluye un motor de procesamiento, uno o más modelos a base de contexto y un codificador; el motor de procesamiento se confitura para procesar las transcripciones de texto; los modelos a base de contexto se configuran para identificar un contexto apropiado relacionado con las transcripciones de texto; el codificador se configura para transmitir las transcripciones de texto que corresponden con los segmentos del habla como subtitulaciones.
Description
SISTEMA Y METODO PARA GENERAR SUBTITULACION
ANTECEDENTES DE LA INVENCION
La invención se refiere en general a generar subtitulaciones y más particularmente a un sistema y método para generar automáticamente subtitulaciones utilizando reconocimiento del habla. La subtitulación es el procedimiento por medio del cual una señal de audio es traducida en datos textuales visibles. Los datos textuales visibles entonces pueden hacerse disponibles para utilizarse mediante una audiencia con discapacidad auditiva en lugar de una señal de audio. Un decodificador de subtitulación empotrado en televisiones o grabadoras de video generalmente separa el texto de subtitulación de la señal de audio y despliega el texto de subtitulación como parte de la señal de video. El reconocimiento del habla es el procedimiento de analizar una señal acústica para producir una secuencia de palabras. El reconocimiento del habla generalmente se utiliza en situaciones en donde las manos están ocupadas o los ojos están ocupados tal como cuando se maneja un carro o cuando se utilizan pequeños dispositivos como asistentes digitales personales. Algunas aplicaciones comunes que utilizan el reconocimiento del habla incluyen interacciones humano-computadora, interfaces multimodal, telefonía, dictado e indexacion y recuperación multimedia. Los requerimientos de reconocimiento del habla para las aplicaciones anteriores, en general,
varían y tienen diferentes requerimientos de calidad. Por ejemplo, una aplicación de dictado puede requerir procesamiento casi en tiempo real y una trascripción de texto de baja tasa de error de palabras del habla, mientras que una aplicación de indexacion y recuperación multimedia puede requerir independencia del parlante y vocabularios mucho más grande, pero puede aceptar tasas de error de palabras superiores.
BREVE DESCRIPCION DE LA INVENCION
Las modalidades de la invención proporcionan un sistema para generar subtitulaciones. El sistema incluye un motor de reconocimiento del habla configurado para generar uno o más transcripciones de texto que corresponden con uno o más segmentos del habla a partir de una señal de audio. El sistema además incluye un motor de procesamiento, uno o más modelos a base de contexto y un codificador. El motor de procesamiento se configura para procesar las transcripciones de texto. Los modelos a base de contexto se configuran para identificar un contexto apropiado relacionado con las transcripciones de texto. El codificador se configura para transmitir las transcripciones de texto que corresponden con los segmentos del habla como subtitulaciones. En otra modalidad, se proporciona un método para generar automáticamente texto de subtitulación. El método incluye obtener uno o más segmentos del habla a partir de una de señal de audio. Posteriormente, el
método incluye generar una o más transcripciones de texto que corresponden con uno o más segmentos del habla e identificar un contexto apropiado relacionado con las transcripciones de texto. El método entonces incluye procesar una o más transcripciones de texto y transmitir las transcripciones de texto que corresponden con los segmentos del habla como texto de subtitulación.
BREVE DESCRIPCION DE LOS DIBUJOS
Estas y otras características, aspectos, y ventajas de la presente invención se entenderán mejor cuando se lea la siguiente descripción detallada con referencia a los dibujos anexos en donde los caracteres similares representan partes similares a través de los dibujos, en donde: la figura 1 ilustra un sistema para generar subtitulaciones de conformidad con una modalidad de la invención: la figura 2 ilustra un sistema para identificar un contexto apropiado relacionado con las transcripciones de texto, utilizando modelos a base de contexto y bases de datos de tópicos específicos de conformidad con una modalidad de la invención; y la figura 3 ilustra un procedimiento para generar automáticamente texto de subtitulación de conformidad con modalidades de la presente invención.
DESCRIPCION DETALLADA DE MODALIDADES PREFERIDAS
La figura 1 es una ilustración de un sistema 10 para generar subtitulaciones de conformidad con una modalidad de la invención. Como se muestra en la figura 1 , el sistema 10 generalmente incluye un motor de reconocimiento del habla 12, un motor de procesamiento 14 y uno o más modelos a base de contexto 16. El motor de reconocimiento del habla 12 recibe una señal de audio 18 y genera transcripciones de texto 22 que corresponden con uno o más segmentos del habla a partir de la señal de audio 18. La señal de audio puede incluir una señal que transporta el habla desde una transmisión de noticias, una cobertura en vivo o grabada de una junta o una asamblea, o de un entretenimiento por red o cable programado (en vivo o grabado). En ciertas modalidades, el motor de reconocimiento del habla 12 puede además incluir un módulo de segmentación del parlante 24, un módulo de reconocimiento del habla 26 y un módulo de agrupamiento del parlante 28. El módulo de segmentación del parlante 24 convierte la señal de audio entrante 18 en segmentos de habla y de no habla. El módulo de reconocimiento del habla 26 analiza el habla en los segmentos del habla e identifica las palabras habladas. El módulo de agrupamiento del parlante 28 analiza las características acústicas de cada segmento del habla para identificar diferentes voces, tal como, voces de hombre y mujer y marca los segmentos en un modo apropiado.
Los modelos a base de contexto 16 se configuran para identificar un contexto apropiado 17 relacionado con las transcripciones de texto 22 generadas mediante el motor de reconocimiento del habla 12. En una modalidad particular, y como se describirá con mayor detalle a continuación, los modelos a base de contexto 16 incluyen una o más bases de datos de tópicos específicos para identificar un contexto apropiado 17 relacionado con las transcripciones de texto. En una modalidad particular, un motor de identificación de voz 30 puede acoplarse con los modelos a base de contexto 16 para identificar un contexto apropiado del habla y facilitar la selección del texto para emisión como subtitulación. Como se utiliza en la presente, el "contexto" se refiere al parlante como también al tópico que se discute. Conocer quien está hablando puede ayudar a determinar el conjunto de tópicos posibles (por ejemplo, si el punto de referencia del clima está hablando, los tópicos probablemente se limitarán a pronósticos del clima, tormentas, etc.). Además de identificar a los parlantes, el motor de identificación de voz 30 puede también aumentar con los modelos de no habla para ayudar a identificar sonidos del entorno o escenario (explosión, música, etc.). Esta información también puede utilizarse para ayudar a identificar tópicos. Por ejemplo, si se identifica un sonido de explosión, entonces el tópico puede relacionarse con guerra o crimen. El motor de identificación de voz 30 puede además analizar la característica acústica de cada segmento del habla e identificar el parlante específico relacionado con ese segmento al comparar la característica
acústica con uno o más modelos estadísticos que corresponden con un conjunto de parlantes posibles y determinar la correspondencia más cercana con base en la comparación. Los modelos del parlante pueden entrenarse fuera de linea y cargarse mediante el motor de identificación de voz 30 para identificación del parlante en tiempo real. Para propósitos de exactitud, un paso de uniformidad/de filtración puede realizarse antes de presentar los parlantes identificados para evitar inestabilidad (generalmente provocada por alta frecuencia poco realista de parlantes cambiantes) en el sistema. El motor de procesamiento 14 procesa las transcripciones de texto 22 generadas por el motor de reconocimiento del habla 12. El motor de procesamiento 14 incluye un módulo de lenguaje natural 15 para analizar las transcripciones de texto 22 a partir del motor de reconocimiento del habla 12 para errores de palabra. En particular, el módulo de lenguaje natural 15 realiza corrección de error de palabra, extracción de entidad nombrada, y formateo de salida en las transcripciones de texto 22. Una corrección de error de palabra de las transcripciones de texto generalmente se realiza al determinar una tasa de error de palabra que corresponde con las transcripciones de texto. La tasa de error de palabra se define como una medida de la diferencia entre la transcripción generada por el reconocedor del habla y la transcripción de referencia correcta. En algunas modalidades, la tasa de error de palabra se determina al calcular la distancia de edición mínima en palabras entre las secuencias reconocidas y las correctas. La extracción de entidad nombrada procesa las transcripciones de texto 22 para nombres, compañías y lugares
en las transcripciones de texto 22. Los nombres y entidades extraídas pueden utilizarse para relacionar metadatos con las transcripciones de texto 22, que pueden subsecuentemente utilizarse durante la indexación y recuperación. El formateo de salida de las transcripciones de texto 22 pueden incluir, pero no se limitan a, capitalización, puntuación, reemplazos de palabras, inserciones y deleciones, e inserciones de nombres de parlantes. La figura 2 ilustra un sistema para identificar un contexto apropiado relacionado con las transcripciones de texto, utilizando modelos a base de contexto y bases de datos de tópicos específicos de conformidad con una modalidad de la invención. Como se muestra en la figura 2, el sistema 32 incluye una base de datos de tópico específico 34. La base de datos de tópico específico 34 puede incluir un cuerpo de texto, que comprende una gran colección de documentos de texto. El sistema 32 además incluye un módulo de detección de tópico 36 y un módulo de rastreo de tópico 38. El módulo de detección de tópico 36 identifica un tópico o un conjunto de tópicos incluidos dentro de las transcripciones de texto 22. El módulo de rastreo de tópicos 38 identifica transcripciones de texto particulares 22 que tienen el(los) mismo(s) tópico(s) y categoriza las historias en el mismo tópico en una o más bandejas de tópicos 40. Con relación a la figura 1 , el contexto 17 relacionado con las transcripciones de texto 22 identificadas por los modelos a base de contexto 16 además se utiliza mediante el motor de procesamiento 16 para identificar palabras incorrectamente reconocidas e identificar correcciones en las
transcripciones de texto, que puedan incluir el uso de técnicas de lenguaje natural. En un ejemplo particular, si las transcripciones de texto 22 incluyen una frase, "ella localizó una venta desde lejos" y el módulo de detección de tópico 16 identifica el tópico como una "playa" entonces los modelos a base de contexto 16 corregirán la frase a "ella localizó una velero desde lejos". En algunas modalidades, los modelos a base de contexto 16 analizan las transcripciones de texto 22 con base en un conteo de probabilidad de palabra de tópico específico en las transcripciones de texto. Como se utiliza en la presente, el "conteo de probabilidad de palabra de tópico específico" se refiere a la probabilidad de suceso de palabras específicas en un tópico particular en donde altas probabilidades se asignan a palabras particulares relacionadas con un tópico que con otras palabras. Por ejemplo, como se apreciará por los expertos en la técnica, las palabras tales como "precio de acciones" e "industrial DOW" generalmente son comunes en un reporte en el mercado de acciones pero no tan común durante un reporte en el tsunami de Asia de diciembre del 2004, en donde las palabras como "víctimas" y "terremoto" son más probables que ocurran. De igual manera, un reporte en el mercado de acciones puede mencionar "Wall Street" o "Alan Greenspan" mientras un reporte en el tsunami de Asia puede mencionar "Indonesia "o "sureste asiático". El uso de los modelos a base de contexto 6 en conjunto con la base de datos de tópicos específicos 34 mejora la exactitud del motor de reconocimiento del habla 12. Además, los modelos a base de contexto 16 y las bases de datos de tópicos específicos 34 permiten la
selección de candidatos de palabras más probables mediante el motor de reconocimientos del habla 12 al asignar probabilidades superiores a palabras relacionadas con un tópico particular que otras palabras. Con relación a la figura 1 , el sistema 10 además incluye un módulo de entrenamiento 42. De acuerdo con una modalidad, el módulo de entrenamiento 42 maneja modelos acústicos y modelos de lenguaje 45 utilizados mediante el motor de reconocimiento del habla 12. El módulo de entrenamiento 42 aumenta los diccionarios y modelos de lenguaje para parlantes y construye nuevos modelos de reconocimiento del habla y de identificación de voz para nuevos parlantes. El módulo de entrenamiento 42 utiliza transcripciones actuales 43 para identificar nuevas palabras que resultan de la señal de audio con base en un análisis de una pluralidad de transcripciones de texto y actualiza los modelos acústicos y modelos de lenguaje 45 con base en el análisis. Como los apreciarán los expertos en la técnica, los modelos acústicos se construyen al analizar muchas muestras de audio para identificar palabras y sub-palabras (fonemas) para llegar a un modelo probabilístico que relaciona los fonemas con las palabras. En una modalidad particular, el modelo acústico utilizado es un modelo Hidden Markov (HMM). De igual manera, los modelos de lenguaje pueden construirse a partir de muchas muestras de transcripciones de texto para determinar frecuencias de palabras individuales y secuencias de palabras para construir un modelo estadístico. En una modalidad particular, el modelo de lenguaje utilizado es un modelo N-grams. Como lo apreciarán los expertos en la
técnica, el modelo N-grams utiliza una secuencia de palabras N en una secuencia para predecir la palabra siguiente, utilizando un modelo estadístico. Un codificador 44 transmite las transcripciones de texto 22 que corresponden con los segmentos del habla como texto de subtitulación 46. El codificador 44 acepta una señal de video de entrada, que puede ser análoga o digital. El codificador 44 además recibe las transcripciones corregidas y formateadas 23 a partir del motor de procesamiento 14 y codifica las transcripciones corregidas y formateadas 23 como texto de subtitulación 46. La codificación puede realizarse utilizando un método estándar tal como, por ejemplo, utilizando la línea 21 de una señal de televisión. La señal de video de emisión codificada puede enviarse subsecuentemente a una televisión que codifica el texto de subtitulación 46 por medio de un decodificador de subtitulación. Una vez decodificado, el texto de subtitulación 46 puede superponerse y desplegarse en la pantalla de televisión. La figura 3 ilustra un procedimiento para generar automáticamente texto de subtitulación, de conformidad con modalidades de la presente invención. En el paso 50, se obtienen uno o más segmentos del habla de una señal de audio. La señal de audio 18 (figura 1 ) puede incluir una señal que transporta el habla desde una transmisión de noticias, una cobertura en vivo o grabada de una junta o una asamblea, o un entretenimiento por cable o red programado (en vivo o grabada). Además, características acústicas que corresponden con los segmentos del habla pueden analizarse para identificar parlantes específicos relacionados con los
segmentos del habla. En una modalidad, una operación de unificación/de filtrado puede aplicarse a los segmentos del habla para identificar parlantes particulares con segmentos del habla particulares. En el paso 52, se generan una o más transcripciones de texto que corresponden con uno o más segmentos del habla. En el paso 54, se identifica un contexto apropiado relacionado con las transcripciones de texto 22. Como se describió anteriormente, el contexto 17 ayuda a identificar palabras incorrectamente reconocidas en las transcripciones de texto 22 y ayuda a la selección de palabras corregidas. También, como se mencionó anteriormente, el contexto apropiado 17 se identifica con base en un conteo de probabilidad de palabra de tópico específico en las transcripciones de texto. En el paso 56, se procesan las transcripciones de texto 22. Este paso incluye analizar las transcripciones de texto 22 para errores de palabra y realizar correcciones. En una modalidad, las transcripciones de texto 22 se analizan utilizando una técnica de lenguaje natural. En el paso 58, las transcripciones de texto se transmiten como texto de subtitulación. Aunque la invención se ha descrito a detalle en conexión con únicamente un número limitado de modalidades, debe entenderse fácilmente que la invención no se limita a dichas modalidades descritas. En consecuencia, la invención puede modificarse para incorporar cualquier número de variaciones, alteraciones, sustituciones o disposiciones equivalentes no descritas en la presente, pero que están en proporción con el espíritu y alcance de la invención. Adicionalmente, aunque varias modalidades
de la invención se han descrito, debe entenderse que los aspectos de la invención pueden incluir únicamente algunas de las modalidades descritas. Asimismo, la invención no debe verse como limitada por la descripción anterior sino únicamente limitada por el alcance de las reivindicaciones anexas.
Claims (10)
1.- Un sistema (10) para generar subtitulación (46), el sistema (10) comprende: un motor de reconocimiento del habla (12) configurado para generar a partir de una señal de audio (18) una o más transcripciones de texto (22) que corresponden con uno o más segmentos del habla; uno o más modelos a base de contexto (16) configurados para identificar un contexto apropiado (17) relacionado con las transcripciones de texto (22); un motor de procesamiento (14) configurado para procesar las transcripciones de texto (22); y un codificador (44) configurado para transmitir las transcripciones de texto (22) que corresponden con los segmentos del habla como subtitulaciones (46).
2.- El sistema (10) de conformidad con la reivindicación 1 , caracterizado además porque comprende un motor de identificación de voz (30) acoplado con uno o más modelos a base de contexto (16), en donde le motor de identificación de voz (30) se configura para analizar características acústicas que corresponden con los segmentos del habla para identificar parlantes específicos relacionados con los segmentos del habla.
3.- El sistema (10) de conformidad con la reivindicación 1 , caracterizado además porque el motor de procesamiento (14) se adapta para analizar las transcripciones de texto (22) que corresponden con los segmentos del habla para errores de palabras, y en donde el motor de procesamiento (14) incluye un módulo de lenguaje natural (15) para analizar las transcripciones de texto (22).
4. - El sistema (10) de conformidad con la reivindicación 1 , caracterizado además porque los modelos a base de contexto (16) incluyen una o mas bases de datos de tópicos específicos (34) para identificar un contexto apropiado (17) relacionado con las transcripciones de texto (22).
5. - El sistema (10) de conformidad con la reivindicación 4, caracterizado además porque los modelos a base de contexto (16) se adaptan para identificar el contexto apropiado (17) con base en un conteo de probabilidad de palabra de tópico específico en las transcripciones de texto (22) que corresponden con los segmentos del habla.
6. - El sistema (10) de conformidad con la reivindicación 1 , caracterizado además porque el motor de reconocimiento del habla (12) se acopla con un módulo de entrenamiento (42), en donde el módulo de entrenamiento (42) se configura para aumentar los diccionarios y modelos de lenguaje para parlantes al analizar transcripciones actuales y construir nuevos modelos de identificación de voz y de reconocimiento del habla para nuevos parlantes.
7.- Un método para generar automáticamente texto de subtitulacion (46), el método comprende: obtener uno o más segmentos del habla a partir de una señal de audio (18); generar una o más transcripciones de texto (22) que corresponden con uno o más segmentos del habla; identificar un contexto apropiado (17) relacionado con las transcripciones de texto (22), procesar una o más transcripciones de texto (22); y transmitir las transcripciones de texto (22) que corresponden con los segmentos del habla como texto de subtitulación (46).
8.- El método de conformidad con la reivindicación 7, caracterizado además porque comprende analizar características acústicas que corresponden con los segmentos del habla para identificar parlantes específicos relacionados con los segmentos del habla.
9. - El método de conformidad con la reivindicación 7, caracterizado además porque identificar un contexto apropiado (17) comprende utilizar una o más bases de datos de tópicos específicos (34) con base en un conteo de probabilidad de palabra de tópico específico en las transcripciones de texto (22) que corresponden con los segmentos del habla.
10. - Un método para generar subtitulaciones (46), el método comprende: obtener una o más transcripciones de texto (22) que corresponden con uno o más segmentos del habla a partir de una señal de audio (18); identificar un contexto apropiado (17) relacionado con una o más transcripciones de texto (22) con base en un conteo de probabilidad de palabra de tópico específico en las transcripciones de texto (22); procesar una o más transcripciones de texto (22) para errores de palabra; y transmitir una o más transcripciones de texto (22) como subtitulaciones (46) en conjunto con la señal de audio (18).
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/287,556 US20070118372A1 (en) | 2005-11-23 | 2005-11-23 | System and method for generating closed captions |
Publications (1)
Publication Number | Publication Date |
---|---|
MXPA06013573A true MXPA06013573A (es) | 2008-10-16 |
Family
ID=38054605
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
MXPA06013573A MXPA06013573A (es) | 2005-11-23 | 2006-11-23 | Sistema y metodo para generar subtitulacion. |
Country Status (3)
Country | Link |
---|---|
US (3) | US20070118372A1 (es) |
CA (1) | CA2568572A1 (es) |
MX (1) | MXPA06013573A (es) |
Families Citing this family (73)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8510109B2 (en) | 2007-08-22 | 2013-08-13 | Canyon Ip Holdings Llc | Continuous speech transcription performance indication |
EP1959449A1 (en) * | 2007-02-13 | 2008-08-20 | British Telecommunications Public Limited Company | Analysing video material |
US9973450B2 (en) | 2007-09-17 | 2018-05-15 | Amazon Technologies, Inc. | Methods and systems for dynamically updating web service profile information by parsing transcribed message strings |
US7881930B2 (en) * | 2007-06-25 | 2011-02-01 | Nuance Communications, Inc. | ASR-aided transcription with segmented feedback training |
US9164995B2 (en) * | 2008-01-03 | 2015-10-20 | International Business Machines Corporation | Establishing usage policies for recorded events in digital life recording |
US9105298B2 (en) * | 2008-01-03 | 2015-08-11 | International Business Machines Corporation | Digital life recorder with selective playback of digital video |
US7894639B2 (en) * | 2008-01-03 | 2011-02-22 | International Business Machines Corporation | Digital life recorder implementing enhanced facial recognition subsystem for acquiring a face glossary data |
US9270950B2 (en) * | 2008-01-03 | 2016-02-23 | International Business Machines Corporation | Identifying a locale for controlling capture of data by a digital life recorder based on location |
US8005272B2 (en) * | 2008-01-03 | 2011-08-23 | International Business Machines Corporation | Digital life recorder implementing enhanced facial recognition subsystem for acquiring face glossary data |
US8014573B2 (en) * | 2008-01-03 | 2011-09-06 | International Business Machines Corporation | Digital life recording and playback |
EP2106121A1 (en) * | 2008-03-27 | 2009-09-30 | Mundovision MGI 2000, S.A. | Subtitle generation methods for live programming |
US8676577B2 (en) * | 2008-03-31 | 2014-03-18 | Canyon IP Holdings, LLC | Use of metadata to post process speech recognition output |
JPWO2009122779A1 (ja) * | 2008-04-03 | 2011-07-28 | 日本電気株式会社 | テキストデータ処理装置、方法、プログラム |
US9478218B2 (en) * | 2008-10-24 | 2016-10-25 | Adacel, Inc. | Using word confidence score, insertion and substitution thresholds for selected words in speech recognition |
US9245017B2 (en) | 2009-04-06 | 2016-01-26 | Caption Colorado L.L.C. | Metatagging of captions |
US20100268534A1 (en) * | 2009-04-17 | 2010-10-21 | Microsoft Corporation | Transcription, archiving and threading of voice communications |
US20110125497A1 (en) * | 2009-11-20 | 2011-05-26 | Takahiro Unno | Method and System for Voice Activity Detection |
US8379801B2 (en) | 2009-11-24 | 2013-02-19 | Sorenson Communications, Inc. | Methods and systems related to text caption error correction |
US8296130B2 (en) * | 2010-01-29 | 2012-10-23 | Ipar, Llc | Systems and methods for word offensiveness detection and processing using weighted dictionaries and normalization |
US8949125B1 (en) | 2010-06-16 | 2015-02-03 | Google Inc. | Annotating maps with user-contributed pronunciations |
WO2011160741A1 (en) * | 2010-06-23 | 2011-12-29 | Telefonica, S.A. | A method for indexing multimedia information |
US9332319B2 (en) * | 2010-09-27 | 2016-05-03 | Unisys Corporation | Amalgamating multimedia transcripts for closed captioning from a plurality of text to speech conversions |
US8812321B2 (en) * | 2010-09-30 | 2014-08-19 | At&T Intellectual Property I, L.P. | System and method for combining speech recognition outputs from a plurality of domain-specific speech recognizers via machine learning |
US20120084435A1 (en) * | 2010-10-04 | 2012-04-05 | International Business Machines Corporation | Smart Real-time Content Delivery |
US8688453B1 (en) * | 2011-02-28 | 2014-04-01 | Nuance Communications, Inc. | Intent mining via analysis of utterances |
CN102332269A (zh) * | 2011-06-03 | 2012-01-25 | 陈威 | 呼吸面具中呼吸噪声的消除方法 |
US8676580B2 (en) * | 2011-08-16 | 2014-03-18 | International Business Machines Corporation | Automatic speech and concept recognition |
US20130144414A1 (en) * | 2011-12-06 | 2013-06-06 | Cisco Technology, Inc. | Method and apparatus for discovering and labeling speakers in a large and growing collection of videos with minimal user effort |
US9324323B1 (en) | 2012-01-13 | 2016-04-26 | Google Inc. | Speech recognition using topic-specific language models |
US8775177B1 (en) | 2012-03-08 | 2014-07-08 | Google Inc. | Speech recognition process |
WO2014025282A1 (en) * | 2012-08-10 | 2014-02-13 | Khitrov Mikhail Vasilevich | Method for recognition of speech messages and device for carrying out the method |
US20140067394A1 (en) * | 2012-08-28 | 2014-03-06 | King Abdulaziz City For Science And Technology | System and method for decoding speech |
US9124856B2 (en) | 2012-08-31 | 2015-09-01 | Disney Enterprises, Inc. | Method and system for video event detection for contextual annotation and synchronization |
WO2014069120A1 (ja) * | 2012-10-31 | 2014-05-08 | 日本電気株式会社 | 分析対象決定装置及び分析対象決定方法 |
JP6172770B2 (ja) * | 2013-03-19 | 2017-08-02 | Necソリューションイノベータ株式会社 | 要約筆記支援システム、情報配信装置、要約筆記支援方法、及びプログラム |
US9558749B1 (en) * | 2013-08-01 | 2017-01-31 | Amazon Technologies, Inc. | Automatic speaker identification using speech recognition features |
US20150098018A1 (en) * | 2013-10-04 | 2015-04-09 | National Public Radio | Techniques for live-writing and editing closed captions |
US20180270350A1 (en) | 2014-02-28 | 2018-09-20 | Ultratec, Inc. | Semiautomated relay method and apparatus |
US20180034961A1 (en) | 2014-02-28 | 2018-02-01 | Ultratec, Inc. | Semiautomated Relay Method and Apparatus |
US10389876B2 (en) | 2014-02-28 | 2019-08-20 | Ultratec, Inc. | Semiautomated relay method and apparatus |
US10304458B1 (en) * | 2014-03-06 | 2019-05-28 | Board of Trustees of the University of Alabama and the University of Alabama in Huntsville | Systems and methods for transcribing videos using speaker identification |
US9858922B2 (en) | 2014-06-23 | 2018-01-02 | Google Inc. | Caching speech recognition scores |
KR102187195B1 (ko) | 2014-07-28 | 2020-12-04 | 삼성전자주식회사 | 주변 소음에 기초하여 자막을 생성하는 동영상 디스플레이 방법 및 사용자 단말 |
US9299347B1 (en) * | 2014-10-22 | 2016-03-29 | Google Inc. | Speech recognition using associative mapping |
KR20160055337A (ko) * | 2014-11-07 | 2016-05-18 | 삼성전자주식회사 | 텍스트 표시 방법 및 그 전자 장치 |
US10152298B1 (en) * | 2015-06-29 | 2018-12-11 | Amazon Technologies, Inc. | Confidence estimation based on frequency |
US9786270B2 (en) | 2015-07-09 | 2017-10-10 | Google Inc. | Generating acoustic models |
US10229672B1 (en) | 2015-12-31 | 2019-03-12 | Google Llc | Training acoustic models using connectionist temporal classification |
EP3270374A1 (en) * | 2016-07-13 | 2018-01-17 | Tata Consultancy Services Limited | Systems and methods for automatic repair of speech recognition engine output |
US20180018973A1 (en) | 2016-07-15 | 2018-01-18 | Google Inc. | Speaker verification |
US10650621B1 (en) | 2016-09-13 | 2020-05-12 | Iocurrents, Inc. | Interfacing with a vehicular controller area network |
CN106409296A (zh) * | 2016-09-14 | 2017-02-15 | 安徽声讯信息技术有限公司 | 基于分核处理技术的语音快速转写校正系统 |
JP6936318B2 (ja) * | 2016-09-30 | 2021-09-15 | ロヴィ ガイズ, インコーポレイテッド | キャプションテキストにおける間違いを訂正するためのシステムおよび方法 |
US10810995B2 (en) * | 2017-04-27 | 2020-10-20 | Marchex, Inc. | Automatic speech recognition (ASR) model training |
US11100943B1 (en) | 2017-07-09 | 2021-08-24 | Otter.ai, Inc. | Systems and methods for processing and presenting conversations |
US10978073B1 (en) | 2017-07-09 | 2021-04-13 | Otter.ai, Inc. | Systems and methods for processing and presenting conversations |
US11024316B1 (en) * | 2017-07-09 | 2021-06-01 | Otter.ai, Inc. | Systems and methods for capturing, processing, and rendering one or more context-aware moment-associating elements |
US20190043487A1 (en) * | 2017-08-02 | 2019-02-07 | Veritone, Inc. | Methods and systems for optimizing engine selection using machine learning modeling |
US10706840B2 (en) | 2017-08-18 | 2020-07-07 | Google Llc | Encoder-decoder models for sequence to sequence mapping |
KR102518543B1 (ko) * | 2017-12-07 | 2023-04-07 | 현대자동차주식회사 | 사용자의 발화 에러 보정 장치 및 그 방법 |
US11087766B2 (en) * | 2018-01-05 | 2021-08-10 | Uniphore Software Systems | System and method for dynamic speech recognition selection based on speech rate or business domain |
RU2691603C1 (ru) * | 2018-08-22 | 2019-06-14 | Акционерное общество "Концерн "Созвездие" | Способ разделения речи и пауз путем анализа значений корреляционной функции помехи и смеси сигнала и помехи |
US11423911B1 (en) * | 2018-10-17 | 2022-08-23 | Otter.ai, Inc. | Systems and methods for live broadcasting of context-aware transcription and/or other elements related to conversations and/or speeches |
US11527265B2 (en) * | 2018-11-02 | 2022-12-13 | BriefCam Ltd. | Method and system for automatic object-aware video or audio redaction |
US11342002B1 (en) * | 2018-12-05 | 2022-05-24 | Amazon Technologies, Inc. | Caption timestamp predictor |
GB2583117B (en) * | 2019-04-17 | 2021-06-30 | Sonocent Ltd | Processing and visualising audio signals |
CN110362065B (zh) * | 2019-07-17 | 2022-07-19 | 东北大学 | 一种航空发动机防喘控制系统的状态诊断方法 |
WO2021112840A1 (en) * | 2019-12-04 | 2021-06-10 | Google Llc | Speaker awareness using speaker dependent speech model(s) |
US11539900B2 (en) * | 2020-02-21 | 2022-12-27 | Ultratec, Inc. | Caption modification and augmentation systems and methods for use by hearing assisted user |
US11562731B2 (en) | 2020-08-19 | 2023-01-24 | Sorenson Ip Holdings, Llc | Word replacement in transcriptions |
US11335324B2 (en) | 2020-08-31 | 2022-05-17 | Google Llc | Synthesized data augmentation using voice conversion and speech recognition models |
US11676623B1 (en) | 2021-02-26 | 2023-06-13 | Otter.ai, Inc. | Systems and methods for automatic joining as a virtual meeting participant for transcription |
US11705125B2 (en) * | 2021-03-26 | 2023-07-18 | International Business Machines Corporation | Dynamic voice input detection for conversation assistants |
Family Cites Families (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4649505A (en) * | 1984-07-02 | 1987-03-10 | General Electric Company | Two-input crosstalk-resistant adaptive noise canceller |
JPH07113840B2 (ja) * | 1989-06-29 | 1995-12-06 | 三菱電機株式会社 | 音声検出器 |
CA2040025A1 (en) * | 1990-04-09 | 1991-10-10 | Hideki Satoh | Speech detection apparatus with influence of input level and noise reduced |
US5459814A (en) * | 1993-03-26 | 1995-10-17 | Hughes Aircraft Company | Voice activity detector for speech signals in variable background noise |
US5835667A (en) * | 1994-10-14 | 1998-11-10 | Carnegie Mellon University | Method and apparatus for creating a searchable digital video library and a system and method of using such a library |
JPH0916602A (ja) * | 1995-06-27 | 1997-01-17 | Sony Corp | 翻訳装置および翻訳方法 |
US6185531B1 (en) * | 1997-01-09 | 2001-02-06 | Gte Internetworking Incorporated | Topic indexing method |
GB2330961B (en) * | 1997-11-04 | 2002-04-24 | Nokia Mobile Phones Ltd | Automatic Gain Control |
US6381569B1 (en) * | 1998-02-04 | 2002-04-30 | Qualcomm Incorporated | Noise-compensated speech recognition templates |
US6240381B1 (en) * | 1998-02-17 | 2001-05-29 | Fonix Corporation | Apparatus and methods for detecting onset of a signal |
US6490557B1 (en) * | 1998-03-05 | 2002-12-03 | John C. Jeppesen | Method and apparatus for training an ultra-large vocabulary, continuous speech, speaker independent, automatic speech recognition system and consequential database |
US6453287B1 (en) * | 1999-02-04 | 2002-09-17 | Georgia-Tech Research Corporation | Apparatus and quality enhancement algorithm for mixed excitation linear predictive (MELP) and other speech coders |
US6249757B1 (en) * | 1999-02-16 | 2001-06-19 | 3Com Corporation | System for detecting voice activity |
US6766295B1 (en) * | 1999-05-10 | 2004-07-20 | Nuance Communications | Adaptation of a speech recognition system across multiple remote sessions with a speaker |
US6304842B1 (en) * | 1999-06-30 | 2001-10-16 | Glenayre Electronics, Inc. | Location and coding of unvoiced plosives in linear predictive coding of speech |
US6757866B1 (en) * | 1999-10-29 | 2004-06-29 | Verizon Laboratories Inc. | Hyper video: information retrieval using text from multimedia |
US6490580B1 (en) * | 1999-10-29 | 2002-12-03 | Verizon Laboratories Inc. | Hypervideo information retrieval usingmultimedia |
US6816468B1 (en) * | 1999-12-16 | 2004-11-09 | Nortel Networks Limited | Captioning for tele-conferences |
US7047191B2 (en) * | 2000-03-06 | 2006-05-16 | Rochester Institute Of Technology | Method and system for providing automated captioning for AV signals |
US6816858B1 (en) * | 2000-03-31 | 2004-11-09 | International Business Machines Corporation | System, method and apparatus providing collateral information for a video/audio stream |
US20020051077A1 (en) * | 2000-07-19 | 2002-05-02 | Shih-Ping Liou | Videoabstracts: a system for generating video summaries |
NZ506981A (en) * | 2000-09-15 | 2003-08-29 | Univ Otago | Computer based system for the recognition of speech characteristics using hidden markov method(s) |
US6832189B1 (en) * | 2000-11-15 | 2004-12-14 | International Business Machines Corporation | Integration of speech recognition and stenographic services for improved ASR training |
US20020169604A1 (en) * | 2001-03-09 | 2002-11-14 | Damiba Bertrand A. | System, method and computer program product for genre-based grammars and acoustic models in a speech recognition framework |
US7013273B2 (en) * | 2001-03-29 | 2006-03-14 | Matsushita Electric Industrial Co., Ltd. | Speech recognition based captioning system |
US7035804B2 (en) * | 2001-04-26 | 2006-04-25 | Stenograph, L.L.C. | Systems and methods for automated audio transcription, translation, and transfer |
US20030120484A1 (en) * | 2001-06-12 | 2003-06-26 | David Wong | Method and system for generating colored comfort noise in the absence of silence insertion description packets |
US6493668B1 (en) * | 2001-06-15 | 2002-12-10 | Yigal Brandman | Speech feature extraction system |
US20030065503A1 (en) * | 2001-09-28 | 2003-04-03 | Philips Electronics North America Corp. | Multi-lingual transcription system |
US7139701B2 (en) * | 2004-06-30 | 2006-11-21 | Motorola, Inc. | Method for detecting and attenuating inhalation noise in a communication system |
US20070011012A1 (en) * | 2005-07-11 | 2007-01-11 | Steve Yurick | Method, system, and apparatus for facilitating captioning of multi-media content |
-
2005
- 2005-11-23 US US11/287,556 patent/US20070118372A1/en not_active Abandoned
-
2006
- 2006-10-05 US US11/538,936 patent/US20070118373A1/en not_active Abandoned
- 2006-10-25 US US11/552,533 patent/US20070118374A1/en not_active Abandoned
- 2006-11-22 CA CA002568572A patent/CA2568572A1/en not_active Abandoned
- 2006-11-23 MX MXPA06013573A patent/MXPA06013573A/es active IP Right Grant
Also Published As
Publication number | Publication date |
---|---|
US20070118372A1 (en) | 2007-05-24 |
CA2568572A1 (en) | 2007-05-23 |
US20070118373A1 (en) | 2007-05-24 |
US20070118374A1 (en) | 2007-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
MXPA06013573A (es) | Sistema y metodo para generar subtitulacion. | |
US10878824B2 (en) | Speech-to-text generation using video-speech matching from a primary speaker | |
CN1655235B (zh) | 基于话音特征自动标识电话呼叫者 | |
US7337115B2 (en) | Systems and methods for providing acoustic classification | |
US6718303B2 (en) | Apparatus and method for automatically generating punctuation marks in continuous speech recognition | |
US20070118364A1 (en) | System for generating closed captions | |
JP4241376B2 (ja) | 認識されたテキスト中の音声シーケンスと手動入力される補正ワードの音声転写との比較を通した音声認識により認識されたテキストの補正 | |
US20160133251A1 (en) | Processing of audio data | |
US20080130699A1 (en) | Content selection using speech recognition | |
Palaskar et al. | End-to-end multimodal speech recognition | |
CN110870004B (zh) | 基于音节的自动语音识别 | |
US7181395B1 (en) | Methods and apparatus for automatic generation of multiple pronunciations from acoustic data | |
KR19980070329A (ko) | 사용자 정의 문구의 화자 독립 인식을 위한 방법 및 시스템 | |
WO2006083020A1 (ja) | 抽出された音声データを用いて応答音声を生成する音声認識システム | |
JP2015212731A (ja) | 音響イベント認識装置、及びプログラム | |
Moreno et al. | A factor automaton approach for the forced alignment of long speech recordings | |
JP4934090B2 (ja) | 番組登場人物抽出装置及び番組登場人物抽出プログラム | |
CN110992984B (zh) | 音频处理方法及装置、存储介质 | |
US20070129945A1 (en) | Voice quality control for high quality speech reconstruction | |
US20050125224A1 (en) | Method and apparatus for fusion of recognition results from multiple types of data sources | |
US7752045B2 (en) | Systems and methods for comparing speech elements | |
KR101598950B1 (ko) | 발음 평가 장치 및 이를 이용한 발음 평가 방법에 대한 프로그램이 기록된 컴퓨터 판독 가능한 기록 매체 | |
Furui | Robust methods in automatic speech recognition and understanding. | |
JP5243886B2 (ja) | 字幕出力装置、字幕出力方法及びプログラム | |
KR102299269B1 (ko) | 음성 및 스크립트를 정렬하여 음성 데이터베이스를 구축하는 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FG | Grant or registration |