MX2007015438A - Traduccion de colocacion a partir de cuerpos monolingue y bilingue disponibles. - Google Patents

Traduccion de colocacion a partir de cuerpos monolingue y bilingue disponibles.

Info

Publication number
MX2007015438A
MX2007015438A MX2007015438A MX2007015438A MX2007015438A MX 2007015438 A MX2007015438 A MX 2007015438A MX 2007015438 A MX2007015438 A MX 2007015438A MX 2007015438 A MX2007015438 A MX 2007015438A MX 2007015438 A MX2007015438 A MX 2007015438A
Authority
MX
Mexico
Prior art keywords
translation
placement
language
source
placements
Prior art date
Application number
MX2007015438A
Other languages
English (en)
Inventor
Yajuan Lu
Jianfeng Gao
Ming Zhou
John T Chen
Mu Li
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of MX2007015438A publication Critical patent/MX2007015438A/es

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

Se presenten un sistema y metodo para extraer traducciones de colocacion. Los metodos incluyen construir un modelo de traduccion de colocacion utilizando una fuente monolingue y cuerpos de lenguaje objetivo asi como tambien un cuerpo bilingue, si esta disponible. El modelo de traduccion de colocacion emplea un algoritmo de maximizacion de expectacion con respecto a palabras contextuales que rodean las colocaciones. El modelo de traduccion de colocacion puede ser utilizado despues para extraer un diccionario de traduccion de colocacion. Se puede utilizar filtros opcionales que se basan en redundancia de contexto y/o restriccion de traduccion bidireccional para asegurar que solamente traducciones de colocacion altamente confiables son incluidas en el diccionario. El modelo de traduccion de colocacion construido y el diccionario de traduccion de colocacion extraido pueden ser utilizados despues para procesar adicionalmente lenguaje natural, tal como traduccion de oracion.

Description

TRADUCCIÓN DE COLOCACIÓN A PARTIR DE CUERPOS MONOLINGUE Y BILINGÜE DISPONIBLES ANTECEDENTES DE LA INVENCIÓN La presente invención generalmente se refiere a procesamiento de lenguaje natural. Más particularmente, la presente invención se refiere a traducción de colocación. Un plan triple de dependencia es un par de palabras léxicamente restringido con una relación sintáctica o dependencia particular y tiene una forma general: <W, r, W2> en donde Wi y W2 son palabras, y r es la relación de dependencia. Por ejemplo, un triple de dependencia tal como <encender, OBJ, luz> es un triple de dependencia verbo-objeto. Existen muchos tipos de relaciones de dependencia entre palabras encontradas en una oración, y a partir de aquí, muchos tipos de triples de dependencia. Una colocación es un tipo de triple de dependencia en donde las palabras individuales Wi y W2, frecuentemente se denominan como la "cabeza" y "dependiente", respectivamente, satisfacen o exceden un umbral de relación seleccionado. Los tipos comunes de colocaciones incluyen colocación en el sujeto-verbo, verbo-objeto, sustantivo-adjetivo, verbo-adverbio. Se ha observado que aunque pueden existir grandes diferencias entre un lenguaje fuente y objetivo, pueden existir correspondencias fuertes entre algunos tipos de colocaciones en un lenguaje fuente particular y objetivo. Por ejemplo, chino e inglés son idiomas muy diferentes sin embargo puede existir una fuerte correspondencia entre colocaciones de sujeto-verbo, verbo-objeto, sustantivo-adjetivo, y verbo-adverbio. La correspondencia fuerte en estos tipos de colocaciones puede ser deseable utilizar traducciones de colocación para traducir frases y oraciones de la fuente al idioma objetivo. De esta forma, las traducciones de colocación son importantes para la traducción de máquina, recuperación de información de idioma de cruce, segundo aprendizaje de idioma, y otras aplicaciones de procesamiento de idioma naturales bilingües. Los errores de traducción de colocación frecuentemente ocurren debido a que las colocaciones pueden ser idiosincráticas, y de esa forma, tener traducciones impredecibles. En otras palabras, las colocaciones en un idioma de fuente pueden tener estructura similar y semántica relativa una con otra pero traducciones muy diferentes tanto en estructura como en semántica en el lenguaje objetivo. Por ejemplo, suponer que el verbo chino "kan4" se considera la cabeza de una colocación de verbo-objeto de chino. La palabra "kan4" puede traducirse en inglés como "ver", "observar", "mirar", o "leer" dependiendo del objeto o dependiente con el cual se coloca "kan4". Por ejemplo, "kan4" puede colocarse con la palabra china "dian4ying3", (que significa película o cinta en inglés) o "dian4shi4," que usualmente significa "televisión" en inglés. Sin embargo, las colocaciones de chino "kan4 dian4ying3" y "kan4 dian4shi4," dependiendo de la oración, puede traducirse mejor en inglés como "ver película", y "mirar televisión", respectivamente. De esa forma, la palabra "kan4" se traduce de forma diferente en inglés incluso aunque las colocaciones "kan4 dian4ying3," y "kan4 dian4sh¡4," tienen estructura y semántica similar. En otra situación, "kan4" puede colocarse con la palabra "shul," que usualmente significa "libro" en inglés. Sin embargo, la colocación "kan4 shul" en muchas oraciones puede traducirse mejor simplemente como "leer" en inglés, y a partir de ahí, el objeto "libro" se deja caer junto con la traducción de colocación. Se nota que las palabras chinas se expresan aquí en "Pinyin", con tocos expresados como dígitos que siguen a la pronunciación aleatoria. Pinyin es un sistema comúnmente reconocido de pronunciación de chino mandarín. En el pasado, los métodos de traducción de colocación usualmente se presentaron en cuerpos paralelos o bilingües de una fuente y el idioma objetivo. Sin embrago, grandes cuerpos bilingües alineados generalmente son difíciles de obtener y costosos de construir. En contraste, los cuerpos monolingües mayores pueden obtenerse más facialmente tanto para idiomas fuente como objetivo. Más recientemente, los métodos de traducción de colocación que utilizan cuerpos monolingües se desarrollaron. Sin embargo, estos métodos generalmente tampoco se incluyen al utilizar cuerpos bilingües que pueden estar disponibles o posibles en cantidad des limitada. Además, estos métodos que utilizan cuerpos monolingües generalmente no toman en consideración palabras contextúales que rodean las colocaciones que se traducen. Por consiguiente, existe una necesidad continúa de métodos mejorados para traducción de colocación y extracción para varias aplicaciones de procesamiento de idioma natural.
BREVE DESCRIPCIÓN DE LA INVENCIÓN La presente invención incluye construir un modelo de traducción de colocación que utiliza cuerpos monolingües y cuerpos bilingües disponibles. El modelo de traducción de colocación emplea un algoritmo de maximización de expectación con respecto a palabras contextúales que rodean las colocaciones que se traducen. En otras modalidades, el modelo de traducción de colocación se utiliza para identificar y extraer traducciones de colocación. En modalidades adicionales, el modelo de traducción construido y las traducciones de colocación extraídas utilizan para traducción de oración.
BREVE DESCRIPCIÓN DE LOS DIBUJOS La Figura 1 es un diagrama de bloques de un ambiente de cómputo en el cual puede practicarse la présente invención. La Figura 2 es un diagrama de flujo de revisión que ilustra tres aspectos de la presente invención. La Figura 3 es un diagrama de bloques de un sistema para aumentar una base de conocimiento léxico con información de probabilidad útil para traducción de colocación. La Figura 4 es un diagrama de bloques de un sistema para además aumentar la base de conocimiento léxico con traducciones de colocación extraídas. La Figura 5 es un diagrama de bloques de un sistema para realizar traducción de oración que utiliza base de conocimiento léxico aumentada. La Figura 6 es un diagrama de flujo que ilustra aumento de la base de conocimiento léxico con información de probabilidad utilizada para traducción de colocación. La Figura 7 es un diagrama de flujo que ilustra además el aumento de la base de conocimiento léxico con traducciones de colocación extraídas. La Figura 8 es un diagrama de flujo que ilustra utilizar la base de conocimiento de léxico aumentada para traducción de oración.
DESCRIPCIÓN DETALLADA DE MODALIDADES ILUSTRATIVAS La traducción de colocación automática es una técnica importante para procesamiento de idioma natural que incluye traducción de máquina y recuperación de información de idioma de crucero. Un aspecto de la presente invención proporciona aumentar una base de conocimiento léxico con información de probabilidad útil en colocaciones de traducción. En otro aspecto, la presente invención incluye extraer traducciones de colocación que utilizan la información de probabilidad almacenada para además aumentar la base de conocimiento léxico. En otro aspecto, la información de probabilidad de léxico obtenido y las traducciones de colocación extraídas se utilizan posteriormente para traducción de oración. Antes de dirigir aspectos adicionales de la presente invención, puede ser útil describir generalmente dispositivos de cómputo que pueden utilizarse para practicar la invención. La Figura 1 ilustra un ejemplo de un ambiente de sistema de cómputo adecuado 100 en el cual puede implementarse la invención. El ambiente de sistema de cómputo 100 es solo un ejemplo de un ambiente de cómputo adecuado y no pretende sugerir ninguna limitación del alcance de usos de funcionalidad de la invención. El ambiente de cómputo 100 tampoco debe interpretarse como teniendo ninguna dependencia o requerimiento que se relaciona con cualquiera o una combinación de componentes ilustrados en la modalidad operativa ilustrativa 100. La invención es operacional con numerosos otros ambientes o configuraciones de sistema de cómputo de propósito general o de propósito especial. Los ejemplos de sistemas de cómputo bien conocidos, ambientes, y/o configuraciones que pueden ser adecuados para uso con la invención incluyen, pero no se limitan a las computadoras personales, computadoras de servidor, dispositivos móviles o portátiles, sistemas de multiprocesador, sistemas a base de micro procesador, cajas de TV por cable, electrónica de consumidor programable, PCs de red, mini computadoras, macro computadoras, sistemas de telefonía, ambientes de cómputo distribuido que incluyen cualquiera de los sistemas anteriores o dispositivos, y similares. La invención puede describirse en el contexto general de instrucciones ejecutables por computadora, tal como módulos de programa, que se ejecutan por una computadora. Generalmente, los módulos de programa incluyen rutinas, programas, objetos, componentes, estructuras de datos, etc. que realizan tareas particulares o implementan tipos de datos abstractos particulares. Aquellos expertos en la técnica pueden implementar la descripción y figuras proporcionadas aquí como instrucciones ejecutables por procesador, que pueden escribirse en cualquier forma de un medio legible por computadora. La invención también puede practicarse en ambientes de cómputo distribuidos en donde las tareas se realizan por dispositivos de procesamiento remotos que se enlazan a través de una red de comunicaciones. En un ambiente de cómputo distribuido, los módulos de programa pueden localizarse tanto en medios de almacenamiento de computadora locales como remotos que incluyen dispositivos de almacenamiento de memoria. Con referencia a la Figura 1, un sistema ilustrativo para implementar la invención incluye un dispositivo de cómputo de propósito general en la forma de una computadora 110. Los componentes de la computadora 110 pueden incluir, pero no se limita a, una unidad de procesamiento 120, una memoria de sistema 130, y un conductor común de sistema 121 que acopla varios componentes de sistema que incluyen a la memoria de sistema la unidad de procesamiento 120. El conductor común de sistema 121 puede ser cualquiera de varios tipos de estructuras de conductor común que incluyen un conductor común de memoria o controlador de memoria, un conductor común periférico, y un conductor común local que utiliza cualquiera de una variedad de arquitecturas de conductor común. A manera de ejemplo, y no de limitación, tales arquitecturas incluyen conductor común de Arquitectura de Estándar de Industria (ISA), Conductor común de Arquitectura de Micro Canal (MCA), conductor común de ISA mejorado (EISA), conductor común local de Asociación de Estándares de Electrónica de Video (VESA), y un Conductor Común de Interconexión de Componente Periférico (PCI) también conocido como conductor común de Mezanine. La computadora 110 típicamente ¡ncluye una variedad de medios legibles por computadora. Los medios legibles por computadora pueden ser cualquier medio disponible que pueda accederse por la computadora 110 e incluye tanto medios volátiles como no volátiles, medios removibles y no removibles. A manera de ejemplo, y no de limitación, los medios legibles por computadora pueden comprender medios de almacenamiento de computadora y medios de comunicación. Los medios de almacenamiento de computadora incluyen tanto medios volátiles como no volátiles, removibles y no removibles implementados en cualquier método o tecnología para almacenamiento de información tal como instrucciones legibles por computadora, estructuras de datos, módulos de programa u otros datos. Los medios de almacenamiento de computadora incluyen, pero no se limita a, RAM, ROM, EEPROM, memoria flash u otra tecnología de memoria, CD-ROM, discos versátiles digitales (DVD) u otro almacenamiento de disco óptico, cassettes magnéticos, cinta magnética, almacenamiento de disco magnético u otros dispositivos de almacenamiento magnético, o cualquier otro medio que puede utilizarse para almacenar la información deseada y que pueda accederse por la computadora 110. Los medios de comunicación típicamente representan instrucciones legibles por computadora, estructuras de datos, módulos de programa u otros datos en una señal de datos modulada tal como una onda portadora u otro mecanismo de transporte e ¡ncluye cualquier medio de entrega de información. El término "señal de datos modulada" significa una señal que tiene una o más de sus características establecidas o cambiadas de tal forma para codificar información en la señal. A manera de ejemplo, y no limitación, los medios de comunicación incluyen medios por cables tal como red por cable o conexión por cable directa, y medios inalámbricos tal como medios acústicos, RF, infrarrojos y otros inalámbricos. Las combinaciones de cualquiera de los anteriores también deben incluirse dentro del alcance de medios legibles por computadora. La memoria de sistema 130 incluye medios de almacenamiento por computadora en la forma de memoria volátil y/o no volátil tal como memorias sólo de lectura (ROM) 131 y memoria de acceso aleatorio (RAM) 132. El sistema de entrada/salida básico 133 (BIOS), que contiene las rutinas básicas que ayudan a transferir información entre elementos dentro de la computadora 110, tal como durante el arranque, típicamente se almacena en ROM 131. La RAM 132 típicamente contiene datos y/o módulos de programa que son inmediatamente accesibles a y/o actualmente están siendo operados por una unidad de procesamiento 120. A manera de ejemplo, y no de limitación, la Figura 1 ilustra el sistema operativo 134, programas de aplicación 135, otros módulos de programa 136, y datos de programa 137. La computadora 110 también puede incluir otros medios de almacenamiento de computadora removibles/no removibles, volátiles/no volátiles. A manera de ejemplo solamente, la Figura 1 ilustra una unidad de disco duro 141 que lee de o escribe a medios magnéticos no removibles, no volátiles, una unidad de disco magnético 151 que lee de o escribe a un disco magnético removible, no volátil 152, y una unidad de disco óptico 155 que lee de o escribe a un disco óptico removible, no volátil 156, tal como un CD ROM u otro medio óptico. Otros medios de almacenamiento de computadora removibles/no removibles, volátiles/no volátiles que pueden utilizarse en el ambiente operativo ilustrativo incluyen, pero no se limitan a, cassettes de cinta magnética, tarjeta de memoria flash, discos versátiles digitales, cinta de video digital, RAM de estado sólido, ROM de estado sólido, y similares. La unidad de disco duro 141 típicamente se conecta al conductor común de sistema 121 a través de una interfase de memoria no removible tal como interfase 140, y unidad de disco magnético 151 y unidad de disco óptico 155 que típicamente se conectan al conductor común de sistema 121 a través de una interfase de memoria removible, tal como interfase 150. Las unidades y sus medios de almacenamiento de computadora asociados discutidos anteriormente e ¡lustrados en la Figura 1 proporcionan almacenamiento de instrucciones legibles por computadora, estructuras de datos, módulos de programa y otros datos para la computadora 110. En la Figura 1, por ejemplo, la unidad de disco duro 141 se ¡lustra como almacenando el sistema operativo 144, programas de aplicación 145, otros módulos de programas 146, y datos de programa 147. Se debe notar que estos componentes pueden ser los mismos que o diferentes al sistema operativo 134, programas de aplicación 135, otros módulos de programa 136, y datos de programa 137. El sistema operativo 144, programas de aplicación 145, otros módulos de programa 146 y datos de programa 147 se les proporcionan números diferentes aquí para ilustrar que, en un mínimo, son copias diferentes. Un usuario puede ingresar comandos de información en la computadora 110 a través de dispositivos de entrada tal como un teclado 162, micrófono 163, y dispositivo de señalamiento 161, tal como un ratón, seguibola o almohadilla sensible al tacto. Otros dispositivos de entrada (no mostrado) pueden incluir una palanca de mandos, almohadilla de juegos, antena parabólica, escáner, o similares. Estos y otros dispositivos de entrada frecuentemente se conectan a la unidad de procesamiento 120 a través de una interfase de entrada de usuario 160 que se acople al conductor común de sistema, pero pueden conectarse a través de la interfase y estructuras de conductor común, tal como un puerto paralelo, puerto de juegos o un conductor común en serie universal (USB). Un monitor 191 u otro tipo de dispositivo de presentación también se conecta al conductor común de sistema 121 a través de una interfase, tal como una interfase de video 190. Además del monitor, las computadoras también pueden incluir otros dispositivos de salida periféricos, tal como bocinas 197 de impresoras 196, que pueden conectarse a través de una interfase periférica de salida 190. La computadora 110 puede operar en un ambiente en red que utiliza conexiones lógicas a una o más computadoras remotas, tal como una computadora remota 180. La computadora remota 180 puede ser una computadora personal, un dispositivo móvil, un servidor, un enrutador, una PC de red, un dispositivo par, u otro nodo de red común, y típicamente incluye muchos o todos los elementos descritos anteriormente en relación a la computadora 110. Las conexiones lógicas ilustradas en la Figura 1 incluyen una red de área local (LAN) 171 y una red de área ancha (WAN) 173, pero también pueden incluir otras redes. Tales ambientes en red comúnmente están ubicados en oficinas, redes de computadora extendidos en empresa, intranets e Internet. Cuando se utiliza en un ambiente en red LAN, la computadora 110 se conecta a la LAN 171 a través de una interfase en red o adaptador 170. Cuando se utiliza un ambiente en red WAN, la computadora 110 típicamente incluye un módem 172 u otros medios para establecer comunicaciones en la WAN 173, tal como Internet. El módem 172 que puede ser interno o externo, puede conectarse al conductor común de sistema 121 a través de interfase de entrada de usuario 160, u otro mecanismo apropiado. En un ambiente en red, los módulos de programa ilustrados relativos a la computadora 110, o porciones de la misma, pueden almacenarse en el dispositivo de almacenamiento de memoria remotos. A manera de ejemplo, y no de limitación, la Figura 1 ilustra programas de aplicación remotos 185 como residentes en la computadora remota 180. Se apreciará que las conexiones en red mostradas son ilustrativas y pueden utilizarse otros medios para establecer un enlace de comunicación entre las computadoras.
Modelos de traducción de colocación de antecedente Los modelos de traducción de colocación se construirán de acuerdo con el teorema de Baye's. Dado una colocación de idioma de fuente (por ejemplo, chino) o triple ctr? = (c1,rc,c2), y el grupo de sus traducciones triples de idioma objetivo candidato (por ejemplo, inglés) etr? = el mejor triple de inglés étr? = (é1,rc,é2) es el que maximiza la siguiente ecuación. Ecuación (1): étr? = arg max p(etn|ctn) ßtp = arg max p(etr?)p(c,r?|e,r?)/p(ctr?) Ec.1 S t r? = arg max p(e,p)p(c,r?|etr? = ) 6tr? en donde p(e?p) se llamó el idioma o molde medio no objetivo y p(Ctr?|etp) se llamó la traducción o módulo de traducción de colocación. Se notó que para conveniencia, la colocación y el triple se utilizan intercambiablemente. En la práctica, las colocaciones frecuentemente se utilizan más que todos los triples de dependencia para limitar el tamaño de cuerpos de entrenamiento. El modelo de idioma objetivo p(etr?) puede calcularse con colocaciones de inglés o bases de datos triples. La suavización tal como interpolación puede utilizarse para mitigar problemas asociados con necesidad datos como se describe en más detalle posteriormente. La probabilidad de colocación de inglés dada o triple que ocurre en el cuerpo puede calcularse como sigue: p(etp)= frec(e1.rr.e?) Ec.2 N en donde frec(e1,rc,e2) representa la frecuencia de etr, triple y N representa las cuentas totales de todos los triples de inglés es el cuerpo de entrenamiento. Para un triple de inglés e,p = (e1,rc,e2), si se asume que dos palabras e y e2 son condicionalmente independientes dada la relación de re, la ecuación (2) puede reescribirse como sigue: p(etp) = p(re)p(e1|re)p(e2|re) Ec.3 en donde p(rn)= frecr.r. N El símbolo de comodín * simboliza cualquier palabra relación.
Con las ecuaciones (2) y (3), el modelo de idioma interpolado es como sigue: p(etr,) = afrecie_lnl+(1-a)p(re)p(e1|re)p(e2|re) Ec. 4 N en donde 0<a<1. Factor de suavización a puede calcularse como sigue: a = 1- 1 Ec. 5 1 +frec (etr?) El modelo de traducción p(ctn l©tp) de la Ecuación 1 se estimo al utilizar las siguientes dos suposiciones. Suposición 1: dado un triple en inglés etr?, y la relación de dependencia en chino correspondiente rc, c^ y c2 son condicionalmente independientes, que pueden expresarse como sigue: p(Ctrl|etr,) = p(c1,rc,c2)| etr, Ec. 6 = p(C?|rc,etr?)?(c2|rc,etr?)p(rc|etn) Suposición 2: para un triple de inglés elp, se asume que c, solo depende de e, (¡€{1,2}, y rc solo depende de re. La ecuación (6) en todos puede reescribirse como sigue: P(ctp|etr?) = p(c1|rc,etp)p(c2|rc,e,r?)p(rc|e,r?) Ec. 7 = p(c1|e1)p(c2|e2) p(rc|re) Se nota que p(c? |ß? ) y p(c2|e2) son probabilidades de traducción dentro de triples; y de esa forma, no son probabilidades no restringidas. Posteriormente, la traducción entre la cabeza (p(c? |ß?)) y dependiente (p(c2|e2)) se expresan como pcabeza(c|e) y pdep(c|e), respectivamente. Mientras la correspondencia entre la misma relación de dependencia entre inglés y chino es fuerte, para conveniencia, puede asumirse que p(rc|re) = 1 para re y rc correspondiente, y p(rc|re) = 0 para otros casos. En otras modalidades p(rc|re) varía de 0.8 y 1.0 y p(rc|re) varia correspondientemente entre 0.2 a 0.0. Los valores de probabilidad Pcabezaícilßi) y PdeP(c2|e2) se estimaron interactivamente al utilizar el algoritmo de maximización de expectación (EM) descrito en "adquisición de traducción de colocación que utiliza cuerpos monolingües), por Yajuan Lü y Ming Zhou, la 42da reunión anual de la Asociación de Lingüísticas computacionales, páginas 295-302, 2004, en Lü y Zhou (2004), el algoritmo de EM se presentó como sigue: E-paso: p(ew|cw)< =— - — • * — - — -; M-paso: pc?aa(c | ß) = '"-¡g-*> '*+M en donde ETri representa el grupo de triple en inglés y CTri representa el grupo de triple en chino.
Las probabilidades de traducción pCabeza(c|e) y Poep(c|e) se establecen inicialmente a una distribución uniforma como sigue: en donde 1% representa el grupo de traducción de la palabra en ingles e. Las probabilidades de traducción de palabras se estiman interactivamente al utilizar el algoritmo EM anterior.
Modelo de traducción de colocación presente La estructura presente incluye el molde de logaritmo para modelo de traducción de colocación. Incluido en el modelo presente están los aspectos del modelo de traducción de colocación descritos en Lü y Zhou. Sin embargo, un modelo presente también explota información contextual de las palabras contextúales que rodean las colocaciones que se traducen. Adicionalmente, la estructura presente integra ambos cuerpos bilingües basados en características y cuerpos mono lingos basados en características, cuando están disponibles o se desean. Dada una colocación china cCO?= (c1lrc,c2), ye I grupo de sus traducciones en inglés candidato eCO?= (e1,re,e2), la probabilidad de traducción puede estimarse como: Ec. 9 en donde, hm(eCO?,cCO?),m = 1 ,...M es un grupo de funciones de características. Se nota que el presente modelo de traducción puede construirse al utilizar colocaciones más que solo triples de dependencia. Para cada función hm, existe un parámetro de modelo ?m,m = 1 ,...,M. Tipos de características, el parámetro ?m puede estimarse al utilizar el algoritmo de US y GIS descrito en "entrenamiento discriminativo y modelo de entropía máxima para traducción de máquina estadística", por Franz Josef Osch y Hermann Ney, la 40da reunión de la Asociación para lingüísticas computacionales, páginas 295-302 (2002). La regla de decisión para elegir la traducción en inglés más probable: e8l ^argmaxíp^ | c„,)} = argmax{ ,v {e^ \ C8l)} u = ß?gm8{??ahm(ecal,ca>l)} Ec. 10 ««/ m-l En el presente modelo de traducción, al menos tres clases de funciones de característica o marca se consideran: marca de idioma objetivo, marca de traducción de colocación de marca interior y, marcas de traducción de palabra contextual como se describe en más detalle posteriormente.
Función de característica atribuida a marca de idioma objetivo En las presentes invenciones, la función de característica de idioma objetivo se define como: h?(eCO?,cCO?) = logp(eCO?) Ec. 11 en donde, p(eCO?) como anterior se llama usualmente el modelo de idioma objetivo. El modelo de idioma objetivo puede estimarse al utilizar el cuerpo objetivo o de idioma en inglés como se describió con respecto al modelo de traducción de colocación de antecedente.
Funciones de característica atribuidas a las marcas de traducción de colocación interior Las marcas de traducción de colocación inferior pueden expresarse como las siguientes probabilidades de traducción de palabra: h2(eCoi,Cc0?) = logp(e1|c1) Ec. 12 eCoi,cCO|) = logp(e2|c2) Ec. 13 h4(eCO?,cCO?) = logp(c1|e1) Ec. 14 5(ßcoi,Ccoi) = logp(C2|e2) Ec. 15 Se nota que en modalidades alternativas las funciones de característica h y h5 pueden omitirse. Las probabilidades de traducción de palabra invertida p(c,|e,), ¡ = 1, 2 se llamaron el modelo de traducción en el modelo de canal de fuente para la traducción de máquina. Los experimentos indicaron que las probabilidades directas p(e¡|c,), i = 1, 2 generalmente generan mejores resultados en la traducción de colocación. En las presentes invenciones, las probabilidades directas p(e¡|c¡) se incluyen como funciones de característica ene I modelo de traducción de colocación. Siguiendo los métodos descritos en Lü y Zhou (2004), las probabilidades de traducción de palabra de colocación pueden estimarse al utilizar dos cuerpos monolingües. Se asume que existe una fuerte correspondencia de las tres relaciones de dependencia principales entre inglés y chino: verbo-objeto, sustantivo-objetivo, verbo-adverbio. El algoritmo de EM, junto con un diccionario de traducción abreviado de traducción bilingüe, entonces se utiliza para estimar las cuatro probabilidades de traducción de colocación interna, h2 a h5 en las ecuaciones 12 a 15. Se nota que h y h5 pueden derivarse directamente de Lü y Zhou (2004) y que h2 y h3 pueden derivarse similarmente al utilizar inglés como el idioma fuente y chino como el idioma objetivo y entonces aplicar el algoritmo de EM descrito aquí. Además, una marca de traducción de relación también puede considerarse como una función de característica en el modelo actual como se presenta posteriormente: hß(eCoi.Ccoi) = log?(re|rc) Ec. 16 Similar a Lü y Zhou (2004), puede asumirse que p(re|rc) = 0.9 para el re y rc correspondiente y p(re|rc) = 0.1 para otros casos. En otras modalidades p(re|rc) varía de 0.8 y 1.0 para el re correspondiente, y rc, y p(re|rc) correspondientemente varía de 0.2 a 0.0 de otra forma. Incluso en otras modalidades, la función característica h6 también se omite.
Funciones de características atribuidas a marcas de traducción de palabra contextual En el presente modelo de traducción de colocación, las palabras contextúales fuera de una colocación también son útiles para desambiguación de traducción de colocación. Por ejemplo, en la oración (Vi una película interesante en el cine)", para traducir la colocación " íff (vi) ~ ^?ff (película)" las palabras contextúales " WR (cine)" e " JKJSW (interesante)" también son útiles en traducción. Las funciones de característica de palabra contextual pueden expresarse como sigue: h7(eCoi,cCoi) = logpci(e1|D1) Ec. 17 h (eCoi,cCO|) = logpc2(e2|D2) Ec. 18 en donde, Di es el grupo de palabra contextual de c-^ y D2 es el grupo de palabra contextual de c2. Aquí, c2 se considera un contexto de Ci, y c, como un texto de c2. Es decir: D?={C?\m,...C?'-?,C?'?...,C?'m}Uc2 D2 = {C2'.m,...C2'-?,C2'?...,C2'm}UC? en donde, m es el tamaño de ventana. Para brevedad, la palabra para traducirse se denota como cic-c^, o c = c2), es la traducción candidato de c, y D = (c'?,...,c'n) es el contexto de c. Con la suposición de Naive Bayes, puede simplificarse como sigue: p(e,D) = p(e,c ,...&„) p{é)p(c ....c \é) Los valores de p(e) pueden esquemarse fácilmente con un cuerpo de inglés. Ya que la probabilidad previa pc(e) = p(e|c) se consideró en las funciones de característica de traducción de colección interior, aquí solo el segundo componente en el cálculo de marca de traducción de palabra contextual se considera. Es decir: *,(•-,*.„)- ?togrfßH) Ec' 20 c'eD* Ahora, el problema es como estimar la probabilidad de traducción p(c'|e). Tradicionalmente, puede estimarse al utilizar un cuerpo bilingüe. En las presentes invenciones se proporciona un método para estimar la probabilidad al utilizar cuerpos monolingües.
Estimar la probabilidad de traducción de palabra contextual a. utilizar cuerpos monolinqües La idea básica es que el contexto chino c' se delinee en el contexto en inglés correspondiente e' con la suposición que todos los casos (e',e) en inglés se generan independientemente de acuerdo con la distribuciónp(e'|e) = ?/7(c'|e)p(e,|c,,e).De esta forma, la probabilidad de traducción p(c'|e) puede estimarse de un cuerpo monolingue de inglés con el algoritmo EM como posteriormente: Inicialmente, p(c<\e) = c'e C Ec. 22 \C \' en donde, C denota el grupo de palabra china, E denota el grupo de palabra en inglés, Tc denota el grupo de traducción de la palabra china c. el uso del algoritmo EM puede ayudar a transformar de forma exacta el contexto de un idioma a otro. En algunas modalidades, para evitar la probabilidad cero, p(c'|e) puede suavizarse con una probabilidad previa p(c') tal como p(c'|e) = ap'(c,|e) + (1-a)p(c') Ec. 23 en donde p'(c'|e) es la probabilidad estimada por el algoritmo de EM descrito anteriormente, parámetro a puede establecerse a 0.8 por experimentos, pero también pueden utilizarse valores similares.
Características derivadas de cuerpo bilingüe de integración en modelo de traducción de colocación Para ciertos pares de fuente de idioma objetivo (por ejemplo inglés y español), algunos cuerpos bilingües están disponibles. La estructura de traducción de colocación actual puede integrar estos recursos bilingües valiosos en el mismo modelo de traducción de colocación. Ya que todas las características en el presente modelo de traducción de colocación también pueden estimarse al utilizar un cuerpo bilingüe, las características derivadas de cuerpo bilingüe correspondientes pueden derivarse relativamente de forma fácil. Por ejemplo, las probabilidades de traducción bilingüe pueden definirse como sigue: h9(eCoi,Ccoi) = logpbi(e1|c1) Ec. 24 h?o(eCoi,cCoi) = logpbl(e2|c2) Ec. 25 h??(eco,,cCO?) = logp l(c1|e1) Ec. 26 h?2(eCO?,cCO?) = logpb¡(c2|e21) Ec. 27 h?3(ecoi>cCO?) = logpbl(e1|D1) Ec. 28 h?4(eCO?,cCO?) = logpb,(e2|D2) Ec. 29 Estos valores de probabilidad o información pueden estimarse de cuerpos bilingües que utilizan métodos previos tal como el modelo de IBM descrito en, "las matemáticas de traducción de máquina: estimación de parámetros", por Brown y otros, Lingüísticas Computacionales 19(2): páginas 263-313 (1993). Generalmente, es útil utilizar recursos bilingües cuando estén disponibles. Los cuerpos bilingües pueden mejorar el estimado de probabilidad de traducción, y a partir de aquí, la exactitud de la traducción de colocación. La estructura de moldeo presente es ventajosa al menos debido a que integra uniformemente tanto recursos monolingües como bilingües disponibles. Se nota en muchas modalidades, que algunas funciones de características aquí descritas se omiten como no necesarias para construir apropiadamente un modelo de traducción de colocación apropiada. Por ejemplo, en algunas modalidades, las funciones de característica p y h?2 se omiten cuando no son necesarias. En otras modalidades, h y h5 se omiten. Incluso en otras modalidades, la función de característica h6 basada en relación de dependencia se omite. Finalmente, en otras funciones de características de modalidades h4, h5, h6, h(1, y h12 se omiten en la construcción de modelo de traducción de colocación. La Figura 2 es un diagrama de flujo de revisión que muestra al menos tres aspectos generales de la presente invención representados como un método individual 200. Las Figuras 3, 4 y 5 son diagramas de bloques que ilustran módulos para realizar cada uno de los aspectos. Las Figuras 6, 7, y 8 ilustran métodos generalmente que corresponden a los diagramas de bloques ilustrados en las Figuras 3, 4, y 5. Se debe entender que los diagramas de bloques, cuadros de flujo, métodos aquí descritos son ilustrativos para propósitos de entendimiento y deben considerarse limitantes. Por ejemplo, los módulos o pasos pueden combinarse, separarse, u omitirse además en aspectos de práctica de la presente invención. Haciendo referencia a la Figura 2, el paso 201 del método 200 incluye aumentar una base de conocimiento léxico con información utilizada posteriormente para otro procesamiento de idioma natural, en particular, texto o traducción de oración. El paso 201 comprende el paso 202 para construir un modelo de traducción de colocación de acuerdo con las presentes invenciones y el paso 204 de utilizar el modelo de traducción de colocación de las presentes invenciones para extraer y/o adquirir traducciones de colocación. El método 200 además comprende el paso 208 de utilizar tanto un modelo de traducción de colocación construido como las traducciones de colocación extraídas para realizar traducción de oración de una oración recibida indicada en 206. Traducir la oración puede ser interactivo como se indica en 210. La Figura 3 ilustra un diagrama de bloques de un sistema que comprende módulo de construcción de base de conocimiento léxico 300. El módulo de construcción de base de conocimiento léxico 300 comprende módulos de construcción de modelo de traducción de colocación 303, que construye el modelo de traducción de colocación 305 de acuerdo con las presentes invenciones. El modelo de traducción de colocación 305 aumenta la base de conocimiento léxico 301, que se utiliza posteriormente al realizar extracción de traducción de colocación y traducción de oración, tal como se ilustra en la Figura 4 y Figura 5. La Figura 6 es un diagrama de flujo que ilustra aumento de base de conocimiento léxico 301 de acuerdo con las presentes invenciones y corresponde generalmente con la Figura 3. El módulo de construcción de base de conocimiento léxico 300 puede ser un programa de aplicación 135 ejecutado en la computadora 110 o almacenado y ejecutado en cualquiera de las computadoras remotas en las conexiones de LAN 171 o WAN 173. De forma similar, la base de conocimiento léxico 301 puede recibir en la computadora 110 en cualquiera de los dispositivos de almacenamiento local, tal como unidad de disco duro 141, o en CD óptico, o remotamente en los dispositivos de memoria de LAN 171 o WAN 173. El módulo de construcción de conocimiento léxico 300 comprende el módulo de construcción de un modelo de traducción de colocación 303. En el paso 602, el cuerpo de idioma de fuente chino o cuerpos 302 se reciben por el módulo de construcción de modelo de traducción de colocación 303. Los cuerpos de idioma de fuente 302 pueden comprender texto en cualquier idioma natural. Sin embargo, el chino frecuentemente se utilizó aquí como el idioma de fuente ilustrativo. En la mayoría de las modalidades, los cuerpos de idioma de fuente 302 comprenden gatos o texto no procesado o pre-procesado, tal como texto obtenido de periódicos, libros, publicaciones y diarios, fuentes web, máquinas de diálogo a texto, y similares. Los cuerpos de idioma de fuente 302 pueden recibirse desde cualquiera de los dispositivos de entrada descritos anteriormente así como desde cualquiera de los dispositivos de almacenamiento de datos descritos anteriormente. En el paso 604, el módulo de extracción de colocación de idioma de fuente 304 analiza los cuerpos de idioma de chino 302 en triples de dependencia que utilizan el analizador 306 para generar colocaciones de chino o base de datos de colocación 308. En muchas modalidades, el módulo de extracción de colocación 304 genera el idioma de fuente o colocaciones de chino 308 utilizando por ejemplo un sistema de marca basando en la métrica de Relación de Probabilidad de logaritmo (LLR), que pueden utilizarse para extraer colocaciones de triple de dependencia. Tal marca de LLR se describe en "métodos exactos para las estadísticas de sorpresa y coincidencias" por Ted Dunning, Lingüísticas computacionales, 10(1), páginas 61-74 (1993). En otras modalidades, el módulo de extracción de colocación de idioma de fuente 304 genera un grupo mayor de triples de dependencia. En otras modalidades, otros métodos para extraer colocaciones de los triples de dependencia pueden utilizarse, tal como un método basado en información de palabra mutua (WMI).
En el paso 606, el módulo de construcción de modelo de traducción de colocación 303 recibe el cuerpo o cuerpos de idioma objetivo o inglés 310 de cualquiera de los dispositivos de entrada como se describió anteriormente así como desde cualquiera de los dispositivos de almacenamiento de datos descritos anteriormente. También se debe notar que el uso de ingleses ilustrativos solamente y que pueden utilizarse otros idiomas objetivo. En el paso 608, el modulo de extracción de colocación de idioma objetivo 312 analiza cuerpos de inglés 310 en triples de dependencia que utilizan el analizador 314. Como anteriormente con el módulo 304, el módulo de extracción de colocación 312 puede generar colocaciones objetivo o de inglés 316 que utilizan cualquier método para extraer colocaciones desde triples de dependencia. En otras modalidades, el módulo de extracción de colocación 312 puede generar triples de dependencia sin filtrado adicional. Las colocaciones de inglés o triples de independencia 316 pueden almacenarse en una base de datos para procesamiento adicional. En el paso 310, el módulo de estimado de parámetro 320 recibe colocaciones de inglés 316 y estima el modelo de dialogo p(eCO?) con entrenador de probabilidad de colocación objetivo o en inglés 322 que utiliza cualquier método conocido para estimar modelos de idioma de colocación. El entrenador de probabilidad de colocación objetivo 322 estima las probabilidades de varias colocaciones generalmente basándose en la cuenta de cada colocación en el número total de colocaciones en cuerpos de idioma objetivo 310, que se describe en mayor detalle anteriormente. En muchas modalidades, el entrenador 322 estima solamente los tipos seleccionados de colocaciones. Como se describió anteriormente, las colocaciones de verbo-objeto, sustantivo-adjetivo, y verbo-adverbio particularmente tienen correspondencia superior en el par de idioma de chino-inglés. Por esta razón, las modalidades de la presente invención pueden limitar los tipos de colocaciones entrenados para aquellos que tienen correspondencia de relación superior. Los valores de probabilidad 324 pueden utilizarse para estimar la función de característica ^ como se describió anteriormente. En el paso 612, el módulo de estimado de parámetro 320 recibe colocaciones de china 308, colocaciones de inglés 316, y diccionario bilingüe (por ejemplo chino a inglés) y estima probabilidad de traducción de palabra 334 utilizando el entrenador de probabilidad de traducción de palabra 332. En la mayoría de las modalidades, el entrenador de probabilidad de traducción de palabra 332 utiliza el algoritmo de EM descrito en Lü y Zhou (2004) para estimar el modelo de probabilidad de traducción de palabra que utiliza cuerpos de chino e inglés monolingües. Tales valores de probabilidad Pm0n(elc) se utilizan para estimar funciones de característica h4 y h5 descritos anteriormente. En el paso 614, los idiomas de fuente original y objetivos se invierten para que, por ejemplo, el inglés se considere el idioma de fuente y el chino el idioma objetivo. El módulo destinado de parámetro 320 recibe la fuente invertida y las colocaciones de idioma objetivo y estima el modelo de probabilidad de traducción de palabra de inglés-chino con la ayuda de un diccionario de inglés-chino. Tales valores de probabilidad Pmon(cle) se utilizan para estimar funciones de característica h2 y h3 descritas anteriormente. En el paso 616, el módulo de estimado de parámetro 320 recibe colocaciones de chino 308, cuerpos de inglés 310 y diccionario bilingüe 336 y construye el modelo de probabilidad de traducción de contexto 342 que utiliza un algoritmo de EM de acuerdo con las presentes invenciones descritas anteriormente. Los valores de probabilidad p(c'|e-?) y p(c'|e2) se estiman con el algoritmo de EM y se utilizan para estimar las funciones de características h7 y h8 descritas anteriormente. En el paso 618, una marca de traducción relacional o probabilidad p(re|rc) indicada en 347 se estima. Generalmente, puede asumirse que existe una fuerte correspondencia entre la misma relación de dependencia en chino e inglés. Por lo tanto, en la mayoría de las modalidades se asume que p(re|rc) = 0.9 si re corresponde con re, o de otra forma, p(re|rc) = 0.1. El valor asumido de P(re|rc) puede utilizarse para estimar la función de característica h6. Sin embargo, en otras modalidades los valores de p(re|rc) pueden variar de 0.8 a 1.0 si re corresponde con re, de otra forma, 0.2 a 0, respectivamente. En el paso 620, el modelo de construcción de modelo de traducción de colocación 303 recibe cuarto bilingüe 350. El cuerpo bilingüe 350 generalmente es una fuente alineada paralela o de enunciado y cuerpo de idioma objetivo. En el paso 622, el entrenador de probabilidad de traducción de palabra bilingüe estima valores de probabilidad pbl(c|e) indicados en 364. Se nota que los idiomas objetivo y de fuente pueden invertirse a valores de probabilidad de modelo pbl(e|c). Los valores de p l(c|e) y pb¡(e|c) pueden utilizarse para funciones de característica h9 a h12 como se describió anteriormente. En el paso 624, el entrenador de probabilidad de traducción de contexto bilingüe 352 estima valores de p^íe^D^ y Pb¡(e2|D2) tales valores de probabilidad pueden utilizarse para estimar funciones de característica h13 y h14 descritas anteriormente. Después que se estiman todos los parámetros, el modelo de traducción de colocación 305 puede utilizarse para traducción de colocación en línea. También puede utilizarse para adquisición de diccionario de traducción de colocación fuera de línea. Se hacer referencia ahora a las Figuras 2, 4, y 7, la Figura 4 ilustra un sistema, que realiza el paso 204 de extraer traducciones de colocación para además aumentar la base de conocimiento léxico 201 como un diccionario de traducción de colocación de un par de idioma particular fuente y objetivo. La Figura 7 corresponde generalmente con la Figura 4 se ilustra al utilizar el modelo de traducción de colocación de léxico 305 para extraer y/o adquirir traducciones de colocación. En el paso 702, el módulo de extracción de colocación 304 recibe cuerpo de idioma de fuente. En el paso 704, el módulo de extracción de colocación 304 extrae colocaciones de idioma de fuente 308 de cuerpo de idioma de fuente 302 que utiliza cualquier método conocido para extraer colocaciones del texto de idioma natural. En muchas modalidades, el módulo de extracción de colocación 304 comprende el marcador de Relación de Probabilidad de Logaritmo (LLR) 306. El marcador de LLR 306 marca los triples de dependencia ctri = (c1 ,rc,c2) para identificar las colocaciones de idioma de fuente cCO?= (c1,rc,c2) indicadas en 308. En muchas modalidades, el marcador de Relación de Probabilidad de Logaritmo (LLR) 306 calcula las marcas LLR como sigue: Log1=aloga + blogb + + clogc+dlogd -(a + b)log(a + b)-(a + c)log(a + c) -(b + d)log(b + d)-(c + d)log(c + d) + NlogN en donde, N son las cuentas totales de todos los triples en chino, y b = /(c1,rc,*)-/(c1,rc,c2), c = /(*,rc,c2)-/(c1,rc,c2), d = N-a-b-c. Se nota que / indica cuentas o frecuencia de un triple particular y* es un "comodín" que indica cualquier palabra en chino.
Estos triples de dependencia cuya frecuencia y valores de LLR son mayores que los umbrales seleccionados e identifican y toman como colocación de idioma de fuente 308. Como se describió anteriormente, en muchas modalidades, solo ciertos tipos de colocaciones se extraen dependiendo de la fuente y par de idioma objetivo que se procesa. Por ejemplo, las colocaciones de verbo-objeto (VO), sustantivo-adjetivo (AN), verbo-adverbio (AV) pueden extraerse para el par de idioma de chino-inglés. En una modalidad, también se agrega la colocación de sujeto-verbo (SV). Una consideración importante al seleccionar el tipo particular de colocación es la fuerte correspondencia entre el idioma de fuente y uno o más idiomas objetivos. Además se nota que la marca de LLR solo es un método para determinar colocaciones y no pretende ser limitantes. Cualquier método conocido para identificar colocaciones de entre triples de dependencia también puede utilizarse (por ejemplo, información mutua pesada (WMI)). En el paso 706, el modulo de extracción de traducción de colocación 400 recibe el modelo de traducción de colocación 305, que puede comprender valores de probabilidad Pmon(c'|e), Pmon(e|c), Pmon(c|e), Pm0n(eCO?), Pb?(c'|e), P ?(e|c), Pb?(c|e) y P(re|rc), como se describió anteriormente. En el paso 7018, el módulo de traducción de colocación 402 traduce colocaciones de chino 308 en colocaciones de idioma objetivo o inglés. Primero, 403 calcula funciones de característica que utilizan las probabilidades en el modelo de traducción. En la mayoría de las modalidades, las funciones de características tienen una relación lineal de logaritmo con funciones de probabilidad asociadas como se describió anteriormente. Después, 404, utilizando la colocación de las funciones de características calculadas para que cada colocación de chino CC0| entre colocaciones de chino 308, se traduce en la colocación de inglés más probable éCO? como se indicó en 404 y posteriormente: En muchas modalidades, el filtrado adicional se realiza que solo traducciones de colocaciones altamente confiables se extraigan. Hasta este punto, el módulo de extracción de traducción de colocación 400 puede comprender filtro de redundancia de contexto 406 y/o filtro de limitación de traducción bidireccional 410. Se debe notar que una colocación puede traducirse en diferentes traducciones en diferentes contextos. Por ejemplo," §~^|^ " "kan4 dianlying3" (pinyin) pueden recibir varias traducciones dependiendo de diferentes contextos, por ejemplo "ver película", "observar película", y "mirar película". En el paso 710, el filtro de redundancia de contexto 406 filtra los pares de colocación de chino-ingleses extraídos. La mayoría de las modalidades, el filtro de redundancia de contexto 406 calcula la relación de la cuenta de traducción de frecuencia superior a todas las cuentas de traducción. Si la relación satisface un umbral seleccionado, la colocación y la traducción correspondiente se toma como una traducción de colocación de chino o candidato como se indica en 408. En el paso 712, el filtro de limitación de traducción bidireccional 410 filtra candidatos de traducción 408 para generar traducciones de colocación extraídas 416 que pueden utilizarse en un diccionario de traducción de colocación para procesamiento posterior. El paso 712 ¡ncluye extraer candidatos de traducción de colocación en inglés como se indicó en 412 con modelo de traducción de colocación de inglés-chino. Tal modelo de traducción de inglés-chino puede construirse de varios pasos tal como pasos 614 (ilustrado en la Figura 6) en donde el chino se considera el idioma objetivo y el inglés se considera el idioma de fuente. Tales traducciones de colocación que aparecen en grupos de candidato de traducción 408, 414 se extraen como traducciones de colocación final 416. La Figura 5 es un diagrama de bloques de un sistema para realizar la traducción de oración que utiliza diccionario de traducción de colocación y modelo de traducción y colocación construido de acuerdo con las presentes invenciones. La Figura 8 corresponde generalmente con la Figura 5 y ilustra traducción de oración que utiliza el diccionario de traducción de colocación y modelo de traducción de colocación de las presentes invenciones. En el paso 802, el módulo de traducción de oración 500 recibe oración en idioma fuente o chino a través de cualquiera de los dispositivos de entrada o dispositivos de almacenamiento descritos con respecto a la Figura 1. En el paso 804, el módulo de traducción de oración 500 recibe o accede al diccionario de traducción de colocación 416. En el paso 805, el módulo de traducción de oración 500 recibe o acede al modelo de colocación 305. En paso 806, el analizador(es) 504, que comprende al menos un analizador de dependencia, analiza la oración de idioma de fuente 502 en oración de chino analizada 506. En el paso 808, el módulo de traducción de colocación 500 selecciona colocaciones de chino basadas en tipo de colocaciones que tienen alta correspondencia entre chino y el idioma objetivo o inglés. En algunas modalidades, tales tipos de colocaciones comprenden colocaciones de verbo-objeto, sustantivo-adjetivo, y verbo-adverbio como se indica en 511. En el paso 810, el módulo de traducción de colocación 500 utiliza el diccionario de traducción de colocación 316 para traducir colocaciones de chino 511 a colocaciones de idioma objetivo o inglés 514 como se indica en el bloque 513. En el paso 810, para esas colocaciones de 511 que pueden no encontrarse traducciones que utilizan el diccionario de traducción de colocación, el módulo de traducción de colocación 500 utiliza el modelo de traducción de colocación 305 para traducir estas colocaciones de chino a colocaciones de idioma objetivo o inglés 514. En el paso 312, el módulo de gramática de inglés 516 recibe colocaciones de inglés 514 y construye la oración en inglés 518 basándose en reglas de gramática de inglés apropiadas 517. La oración en inglés 518 después puede regresarse a una capa de aplicación o procesarse además como se indica en 520. Aunque la presente ¡nvención se describió con referencia a modalidades particulares, los expertos en la técnica reconocerán que pueden hacerse cambios en la forma y detalles sin apartarse del espíritu y alcance de la invención.

Claims (20)

REIVINDICACIONES
1.- Un medio legible por computadora que ¡ncluye instrucciones legibles por una computadora que, cuando se implementan, causan que la computadora construya un modelo de traducción de colocación que comprende los pasos de: extraer colecciones de idioma de fuente de cuerpos de idioma de fuente monolingüe; extraer colocaciones de idioma de fuente de cuerpo de idioma objetivo monolingüe; construir un modelo de traducción de colocación utilizando al menos la fuente y colocaciones de idioma objetivo, en donde el modelo de idioma de colocación se basa en un grupo de funciones de característica, y en donde una de las funciones de característica comprende información de probabilidad de palabras contextúales que rodean la colocación de idioma de fuente extraída.
2.- El medio legible por computadora de acuerdo con la reivindicación 1, en donde el modelo de traducción de colocación se basa en una relación lineal de logaritmo con al menos algunas de las funciones de característica.
3.- El medio legible por computadora de acuerdo con la reivindicación 1, en donde la función de característica contextual estima valores de probabilidad utilizando un algoritmo de maximización de expectación.
4.- El medio legible por computadora de acuerdo con la reivindicación 3, en donde el algoritmo de maximización de expectación estima parámetros utilizando cuerpos de idioma fuente y objetivo monolingües.
5.- El medio legible por computadora de acuerdo con la reivindicación 1, en donde una de las funciones de característica comprende un modelo de idioma de colocación de idioma objetivo.
6.- El medio legible por computadora de acuerdo con la reivindicación 1, en donde una de las funciones de característica comprende un modelo de traducción de palabra de fuente a la información de probabilidad de traducción de palabra de idioma objetivo.
7.- El medio legible por computadora de acuerdo con la reivindicación 1, en donde una de las funciones de característica comprende un modelo de traducción de palabra de información de probabilidad de traducción de palabra de idioma objetivo a fuente.
8.- El medio legible por computadora de acuerdo con la reivindicación 1, y que además comprende recibir cuerpos bilingües del par de idioma fuente y objetivo.
9.- El medio legible por computadora de acuerdo con la reivindicación 8, en donde una de las funciones de característica comprende un modelo de idioma de traducción de palabra entrenado al utilizar cuerpo bilingüe.
10.- El medio legible por computadora de acuerdo con la reivindicación 8, en donde una de las funciones de característica comprende un modelo de traducción de contexto entrenado al utilizar cuerpos bilingües.
11.- El medio legible por computadora de acuerdo con la reivindicación 1, y que además comprende los pasos de: recibir cuerpos de idioma de fuente analizar los cuerpos de idioma de fuente en triples de dependencia de idioma de fuente, extraer las colocaciones de idioma de fuente de los triples de dependencia de idioma de fuente analizados; acceder al modelo de traducción de colocación para extraer traducciones de colocación que corresponden a algunas de las colocaciones de idioma de fuente extraídas.
12.- El medio legible por computadora de acuerdo con la reivindicación 11, en donde algunas de las colocaciones de idioma de fuente extraídas se seleccionan basándose en tipos de colocaciones que tienen alta correspondencia entre los idiomas de fuente y objetivo.
13.- Un método para extraer traducciones de colocación que comprende los pasos de: recibir cuerpos de idioma de fuente; recibir cuerpos de idioma de objetivo; extraer colocaciones de idioma de fuente de los cuerpos de idioma de fuente. moldear información de probabilidad de traducción de colocación al estimar valores de probabilidad de traducción de palabra contextual para palabras de contexto que rodean las colocaciones de idioma de fuente extraídos al utilizar algoritmo de maximización de expectación.
14.- El método de acuerdo con la reivindicación 13, en donde estimar valores de probabilidad de palabra contextual comprende seleccionar palabras contextúales en un tamaño de ventana seleccionado.
15.- El método de acuerdo con la reivindicación 13, y que además comprende los pasos de: recibir cuerpo bilingüe en el par de idioma fuente y objetivo. estimar valores de probabilidad de traducción de palabra al utilizar cuerpo bilingüe recibido.
16.- El método de acuerdo con la reivindicación 13, y que además comprende extraer un diccionario de traducción de colocación utilizando la información de probabilidad de traducción de colocación moldeada.
17.- El método de acuerdo con la reivindicación 16, en donde extraer el diccionario de traducción de colocación además comprende filtrar basándose al menos en redundancia de contexto y limitaciones de traducción bidireccional.
18.- El sistema para extraer traducciones de colocación que comprende: un módulo adaptado para construir una fuente al modelo de traducción de colocación de idioma objetivo, en donde el modelo de traducción de colocación comprende valores de probabilidad para un contexto de idioma de fuente seleccionado que se estiman al utilizar iteración basándose en un algoritmo de maximización de expectación.
19.- El sistema de acuerdo con la reivindicación 18, y que además comprende: un segundo módulo adaptado para extraer un diccionario de traducción de colocación utilizando el modelo de traducción de colocación, en donde el segundo módulo comprende un sub-módulo adaptado para filtrar traducciones de colocación basándose en redundancia de contexto para generar candidatos de traducción de colocación.
20.- El sistema de acuerdo con la reivindicación 19, en donde el segundo módulo además comprende un sub-módulo para filtrar candidatos de traducción de colocación basándose en limitaciones bidireccionales para generar un diccionario de traducción de colocación.
MX2007015438A 2005-06-14 2006-06-14 Traduccion de colocacion a partir de cuerpos monolingue y bilingue disponibles. MX2007015438A (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/152,540 US20060282255A1 (en) 2005-06-14 2005-06-14 Collocation translation from monolingual and available bilingual corpora
PCT/US2006/023182 WO2006138386A2 (en) 2005-06-14 2006-06-14 Collocation translation from monolingual and available bilingual corpora

Publications (1)

Publication Number Publication Date
MX2007015438A true MX2007015438A (es) 2008-02-21

Family

ID=37525132

Family Applications (1)

Application Number Title Priority Date Filing Date
MX2007015438A MX2007015438A (es) 2005-06-14 2006-06-14 Traduccion de colocacion a partir de cuerpos monolingue y bilingue disponibles.

Country Status (8)

Country Link
US (1) US20060282255A1 (es)
EP (1) EP1889180A2 (es)
JP (1) JP2008547093A (es)
KR (1) KR20080014845A (es)
CN (1) CN101194253B (es)
BR (1) BRPI0611592A2 (es)
MX (1) MX2007015438A (es)
WO (1) WO2006138386A2 (es)

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060116865A1 (en) 1999-09-17 2006-06-01 Www.Uniscape.Com E-services translation utilizing machine translation and translation memory
US7904595B2 (en) 2001-01-18 2011-03-08 Sdl International America Incorporated Globalization management system and method therefor
US7574348B2 (en) * 2005-07-08 2009-08-11 Microsoft Corporation Processing collocation mistakes in documents
US20070016397A1 (en) * 2005-07-18 2007-01-18 Microsoft Corporation Collocation translation using monolingual corpora
US10319252B2 (en) 2005-11-09 2019-06-11 Sdl Inc. Language capability assessment and training apparatus and techniques
US8209163B2 (en) * 2006-06-02 2012-06-26 Microsoft Corporation Grammatical element generation in machine translation
US7865352B2 (en) * 2006-06-02 2011-01-04 Microsoft Corporation Generating grammatical elements in natural language sentences
US7774193B2 (en) * 2006-12-05 2010-08-10 Microsoft Corporation Proofing of word collocation errors based on a comparison with collocations in a corpus
US20080168049A1 (en) * 2007-01-08 2008-07-10 Microsoft Corporation Automatic acquisition of a parallel corpus from a network
JP5342760B2 (ja) * 2007-09-03 2013-11-13 株式会社東芝 訳語学習のためのデータを作成する装置、方法、およびプログラム
KR100911619B1 (ko) 2007-12-11 2009-08-12 한국전자통신연구원 자동번역 시스템에서의 영어 어휘 패턴 구축 방법 및 장치
TWI403911B (zh) * 2008-11-28 2013-08-01 Inst Information Industry 中文辭典建置裝置和方法,以及儲存媒體
CN102117284A (zh) * 2009-12-30 2011-07-06 安世亚太科技(北京)有限公司 一种跨语言知识检索的方法
US10417646B2 (en) 2010-03-09 2019-09-17 Sdl Inc. Predicting the cost associated with translating textual content
KR101762866B1 (ko) * 2010-11-05 2017-08-16 에스케이플래닛 주식회사 구문 구조 변환 모델과 어휘 변환 모델을 결합한 기계 번역 장치 및 기계 번역 방법
US9547626B2 (en) 2011-01-29 2017-01-17 Sdl Plc Systems, methods, and media for managing ambient adaptability of web applications and web services
US10657540B2 (en) 2011-01-29 2020-05-19 Sdl Netherlands B.V. Systems, methods, and media for web content management
US8838433B2 (en) 2011-02-08 2014-09-16 Microsoft Corporation Selection of domain-adapted translation subcorpora
US10580015B2 (en) 2011-02-25 2020-03-03 Sdl Netherlands B.V. Systems, methods, and media for executing and optimizing online marketing initiatives
US8527259B1 (en) * 2011-02-28 2013-09-03 Google Inc. Contextual translation of digital content
US10140320B2 (en) 2011-02-28 2018-11-27 Sdl Inc. Systems, methods, and media for generating analytical data
US9984054B2 (en) 2011-08-24 2018-05-29 Sdl Inc. Web interface including the review and manipulation of a web document and utilizing permission based control
US9773270B2 (en) 2012-05-11 2017-09-26 Fredhopper B.V. Method and system for recommending products based on a ranking cocktail
US10261994B2 (en) 2012-05-25 2019-04-16 Sdl Inc. Method and system for automatic management of reputation of translators
US10452740B2 (en) 2012-09-14 2019-10-22 Sdl Netherlands B.V. External content libraries
US11386186B2 (en) 2012-09-14 2022-07-12 Sdl Netherlands B.V. External content library connector systems and methods
US11308528B2 (en) 2012-09-14 2022-04-19 Sdl Netherlands B.V. Blueprinting of multimedia assets
US9916306B2 (en) 2012-10-19 2018-03-13 Sdl Inc. Statistical linguistic analysis of source content
CN102930031B (zh) * 2012-11-08 2015-10-07 哈尔滨工业大学 由网页中提取双语平行正文的方法和系统
CN103577399B (zh) * 2013-11-05 2018-01-23 北京百度网讯科技有限公司 双语语料库的数据扩充方法和装置
CN103714055B (zh) * 2013-12-30 2017-03-15 北京百度网讯科技有限公司 从图片中自动提取双语词典的方法及装置
CN103678714B (zh) * 2013-12-31 2017-05-10 北京百度网讯科技有限公司 实体知识库的构建方法和装置
CN105068998B (zh) * 2015-07-29 2017-12-15 百度在线网络技术(北京)有限公司 基于神经网络模型的翻译方法及装置
US10614167B2 (en) 2015-10-30 2020-04-07 Sdl Plc Translation review workflow systems and methods
JP6705318B2 (ja) * 2016-07-14 2020-06-03 富士通株式会社 対訳辞書作成装置、対訳辞書作成方法、及び対訳辞書作成プログラム
US10635863B2 (en) 2017-10-30 2020-04-28 Sdl Inc. Fragment recall and adaptive automated translation
US10817676B2 (en) 2017-12-27 2020-10-27 Sdl Inc. Intelligent routing services and systems
US10984196B2 (en) * 2018-01-11 2021-04-20 International Business Machines Corporation Distributed system for evaluation and feedback of digital text-based content
CN108549637A (zh) * 2018-04-19 2018-09-18 京东方科技集团股份有限公司 基于拼音的语义识别方法、装置以及人机对话系统
US11256867B2 (en) 2018-10-09 2022-02-22 Sdl Inc. Systems and methods of machine learning for digital assets and message creation
CN111428518B (zh) * 2019-01-09 2023-11-21 科大讯飞股份有限公司 一种低频词翻译方法及装置
CN110728154B (zh) * 2019-08-28 2023-05-26 云知声智能科技股份有限公司 一种半监督式通用神经机器翻译模型的构建方法
WO2023128170A1 (ko) * 2021-12-28 2023-07-06 삼성전자 주식회사 전자 장치, 전자 장치의 제어 방법 및 프로그램이 기록된 기록매체

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4868750A (en) * 1987-10-07 1989-09-19 Houghton Mifflin Company Collocational grammar system
US5850561A (en) * 1994-09-23 1998-12-15 Lucent Technologies Inc. Glossary construction tool
GB2334115A (en) * 1998-01-30 1999-08-11 Sharp Kk Processing text eg for approximate translation
US6092034A (en) * 1998-07-27 2000-07-18 International Business Machines Corporation Statistical translation system and method for fast sense disambiguation and translation of large corpora using fertility models and sense models
GB9821787D0 (en) * 1998-10-06 1998-12-02 Data Limited Apparatus for classifying or processing data
US6885985B2 (en) * 2000-12-18 2005-04-26 Xerox Corporation Terminology translation for unaligned comparable corpora using category based translation probabilities
US7734459B2 (en) * 2001-06-01 2010-06-08 Microsoft Corporation Automatic extraction of transfer mappings from bilingual corpora
EP1655674A2 (en) * 2001-08-10 2006-05-10 National Institute of Information and Communications Technology, Independent Administrative Institution THIRD LANGUAGE TEXT GENERATING ALGORITHM BY MULTI&minus;LINGUAL TEXT INPUTTING AND DEVICE AND PROGRAM THEREFOR
US20030154071A1 (en) * 2002-02-11 2003-08-14 Shreve Gregory M. Process for the document management and computer-assisted translation of documents utilizing document corpora constructed by intelligent agents
WO2003100659A1 (fr) * 2002-05-28 2003-12-04 Vladimir Vladimirovich Nasypny Procede de synthese d'un systeme a auto-apprentissage d'extraction de connaissances a partir de documents textuels pour moteurs de recherche
KR100530154B1 (ko) * 2002-06-07 2005-11-21 인터내셔널 비지네스 머신즈 코포레이션 변환방식 기계번역시스템에서 사용되는 변환사전을생성하는 방법 및 장치
US7031911B2 (en) * 2002-06-28 2006-04-18 Microsoft Corporation System and method for automatic detection of collocation mistakes in documents
US7349839B2 (en) * 2002-08-27 2008-03-25 Microsoft Corporation Method and apparatus for aligning bilingual corpora
US7194455B2 (en) * 2002-09-19 2007-03-20 Microsoft Corporation Method and system for retrieving confirming sentences
US7249012B2 (en) * 2002-11-20 2007-07-24 Microsoft Corporation Statistical method and apparatus for learning translation relationships among phrases
JP2004326584A (ja) * 2003-04-25 2004-11-18 Nippon Telegr & Teleph Corp <Ntt> 対訳固有表現抽出装置及び方法、対訳固有表現抽出プログラム
US7346487B2 (en) * 2003-07-23 2008-03-18 Microsoft Corporation Method and apparatus for identifying translations
US7454393B2 (en) * 2003-08-06 2008-11-18 Microsoft Corporation Cost-benefit approach to automatically composing answers to questions by extracting information from large unstructured corpora
US7689412B2 (en) * 2003-12-05 2010-03-30 Microsoft Corporation Synonymous collocation extraction using translation information
US20070016397A1 (en) * 2005-07-18 2007-01-18 Microsoft Corporation Collocation translation using monolingual corpora

Also Published As

Publication number Publication date
JP2008547093A (ja) 2008-12-25
WO2006138386A3 (en) 2007-12-27
CN101194253A (zh) 2008-06-04
WO2006138386A2 (en) 2006-12-28
KR20080014845A (ko) 2008-02-14
US20060282255A1 (en) 2006-12-14
CN101194253B (zh) 2012-08-29
BRPI0611592A2 (pt) 2010-09-21
EP1889180A2 (en) 2008-02-20

Similar Documents

Publication Publication Date Title
MX2007015438A (es) Traduccion de colocacion a partir de cuerpos monolingue y bilingue disponibles.
JP4237001B2 (ja) 文書のコロケーション誤りを自動的に検出するシステムおよび方法
US9552355B2 (en) Dynamic bi-phrases for statistical machine translation
US7319949B2 (en) Unilingual translator
US7689412B2 (en) Synonymous collocation extraction using translation information
US8219382B2 (en) Domain-adaptive portable machine translation device for translating closed captions using dynamic translation resources and method thereof
JP4945086B2 (ja) 論理形式のための統計的言語モデル
US9798720B2 (en) Hybrid machine translation
JP4694121B2 (ja) 句の間の翻訳関係を学習するための統計的な方法および装置
US6990439B2 (en) Method and apparatus for performing machine translation using a unified language model and translation model
JP4173774B2 (ja) 重み付き編集距離に基づく例文の自動検索用システムおよび方法
US20130191108A1 (en) Translation of a Selected Text Fragment of a Screen
KR20040076213A (ko) 언어 번역용 방법 및 시스템
US9311299B1 (en) Weakly supervised part-of-speech tagging with coupled token and type constraints
US11288460B2 (en) Translation support system, etc
US20070016397A1 (en) Collocation translation using monolingual corpora
CN103678270B (zh) 语义单元抽取方法和语义单元抽取设备
Chung et al. Sentence‐Chain Based Seq2seq Model for Corpus Expansion
CN111709431B (zh) 即时翻译方法、装置、计算机设备和存储介质
Paul et al. Integration of multiple bilingually-trained segmentation schemes into statistical machine translation
US20210263915A1 (en) Search Text Generation System and Search Text Generation Method
CN109346060A (zh) 语音识别方法、装置、设备及存储介质
Virga et al. Systematic evaluation of machine translation methods for image and video annotation
CN115983292A (zh) 数据处理方法、模型优化方法及设备
CN118194884A (zh) 语言翻译的实现方法及装置、电子设备、存储介质

Legal Events

Date Code Title Description
FA Abandonment or withdrawal