MX2007013357A

MX2007013357A - Metodo y sistema para generar sugerencias ortograficas.

Info

Publication number: MX2007013357A
Application number: MX2007013357A
Authority: MX
Inventors: Douglas W Potter; Edward C Hart Jr; Hisakazu Igarashi; Patricia M Schmid; William D Ramsey
Original assignee: Microsoft Corp
Priority date: 2005-04-25
Filing date: 2006-03-14
Publication date: 2008-01-11
Also published as: WO2006115598A2; JP2008539476A; US7584093B2; CN101371253A; KR101292404B1; EP1875462A2; RU2007139510A; KR20080003364A; EP1875462A4; US20060241944A1; CN101371253B; WO2006115598A3; BRPI0609108A2

Abstract

Un metodo implementado por computadora para sugerir la sustitucion de palabras para palabras de una cadena. En el metodo, se recibe una cadena ingresada de palabras ingresadas. Las palabras ingresadas se hacen coincidir entonces con palabras tematicas de una tabla candidata. Despues, se extraen las palabras de sustitucion candidatas y las puntuaciones de la tabla candidata correspondiente con las palabras tematicas coincididas. Cada puntuacion es indicativa de una probabilidad de que la palabra ingresada deba sustituirse por la palabra de sustitucion candidata correspondiente. Finalmente, la sustitucion de las palabras ingresadas por sus palabras de sustitucion candidatas correspondientes se sugiere selectivamente con base en las puntuaciones para las palabras de sustitucion. Otro aspecto de la presente invencion se dirige a un sistema de correccion ortografica que se configura para implementar el metodo.

Description

ETODO Y SISTEMA PARA GENERAR SUGERENCI. ORTOGRÁFICAS CAMPO DE LA INVENCIÓN La presente invención en general se refiere a métodos y sistemas! de corrección ortográfica y, más particularmente, a métodos y sistemas de corrección ortográfica que se configuran para sugerir palabras! de sustitución para aquéllas de una cadena ingresada que se basan en las palabras en la cadena ingresada.

ANTEDEDENTES DE LA -NVENC.QN Entradas de texto, tales como aquéllas en documentos generados al utilizar una aplicación para procesamiento de palabras, pueden ¡contener muchos diferentes tipos de errores, incluyendo errores ortográficos. Los errores ortográficos que dan como resultado palabras no válidas por lo general se pueden manejar mediante un corrector ortográfico basado en un diccionario. Tales errores ¡ortográficos pueden ocurrir debido a un error tipográfico o por ignorancia de la ortografía de la palabra. Los correctores ortográficos basados en un diccionario comparajn las palabras en la entrada de texto con un diccionario de palabras e identifican las palabras en la entrada de texto que no se encuentrtan en el diccionario. Por lo general se sugieren una o más palabras de sustitución para la palabra con error ortográfico. Por ejemplo.j en la entrada de texto " f I y frm Boston", el corrector ortográfico identificaría "frm" como un error ortográfico. i Ojros tipos de errores ortográficos dan como resultado palabras, válidas que por lo general no se pueden detectar utilizando aplicaciones de corrección ortográfica tradicionales. Por ejemplo, el usuario jde la aplicación para procesamiento de palabras puede ingresan una palabra válida accidental como resultado de un error tipográfico o por ignorancia de la ortografía de la palabra deseada. Por ejen plo, en una entrada de texto "f I y form Boston", la palabra "form" e|s una palabra válida que las aplicaciones de corrección ortog ráfi|ca convencionales no indicarían, aunque la palabra es un error ortográfico de la palabra "from". La corrección de estos tipos de errofes ortográficos por lo general requiere un análisis del contexto en el que se utiliza la palabra. Aplicaciones de corrección ortográfica tradicionales por lo general basan las palabras de sustitución sugeridas para las palabras no válidas identificadas en una distancia de edición. La distancia de edición representa el cambio que se requiere para i formar una palabra alternativa válida. La palabra en el diccionario que tie?e la distancia de edición más corta a partir de la palabra i inválida' escrita a máquina es la primera palabra de sustitución que se sugiere al usuario. Por ejemplo, en la frase "f I y frm Boston", la mayoría de las aplicaciones de corrección ortográfica sugerirían "form" como la palabra de sustitución antes de que se sugiera la palabra correcta "from", debido a que el contexto de la palabra no se toma en' cuenta cuando se realiza la sugerencia. Para sugerir la palabra de sustitución más apropiada para el error ortográfico, se debe realizar un análisis del contexto en el que se encuentra el error ortográfico. En consecuencia, existe una necesidad de métodos y sistemas de corrección ortográfica mejorados que puedan analizar el contexto en el que se utilizan las palabras para proporcionar mejores sugerencias para las palabras con errores ortográficos y una deteccióp mejorada de palabras válidas que se utilizan de manera I incorrectia. Las modalidades de la presente invención proporcionan solucion s a estos y otros problemas, y ofrecen otras ventajas sobre la técnica anterior BREVE DESCRIPCIÓN DE LA INVENCIÓN Lá presente invención en general se refiere a métodos y sistema^ de corrección ortográfica que utilizan una tabla candidata que inciuye palabra temática y pares de palabras de sustitución candidatas y una puntuación para cada par, en el que están basadas las sugerencias de sustitución de palabras. U,n aspecto de la presente invención se relaciona con un método ' ¡mplementado por computadora para la sugerencia de palabras1 de sustitución para palabras de una cadena. En el método, se recibe una cadena ingresada de palabras ingresadas. Las palabras; ingresadas se hacen coincidir entonces con las palabras temáticas de una tabla candidata. Después, se extraen las palabras de sustitución candidatas y las puntuaciones candídatas de la tabla candidatá que corresponde con las palabras temáticas coincididas. Cada puntuación candidata es indicativa de una probabilidad de que la palabra ingresada debe sustituirse por la palabra de sustitución candidato correspondiente. Finalmente, la sustitución de las palabras ingresadas por sus palabras de sustitución candidatas correspondientes se sugiere selectivamente con base en las i puntuaciones candidatas para las palabras de sustitución. Otro aspecto de la presente invención se dirige a un sistema de corrección ortográfica para la sugerencia de palabras de sustitución para palabras ingresadas de una cadena ingresada. El sistema ¡ncluye un generador candidato y un procesador ortográfico contextual candidato. El generador candidato incluye un resultado de una palabra de sustitución candidata y una puntuación candidata correspondiente para cada una de las palabras ingresadas que coincide? con una palabra temática de una tabla candidata. Cada puntuación candídata es indicativa de una probabilidad de que la palabra ingresada debe sustituirse por la palabra de sustitución candidata correspondiente. El procesador ortográfico contextual ¡ncluye lin resultado selectivo de palabras de sustitución candidatas para la? palabras ingresadas con base en las puntuaciones candidatás correspondientes.

Aún otro aspecto de la presente invención se dirige a un método par la formación de una tabla candidata para su uso en un sistema ! de corrección ortográfica para sugerir palabras de sustitución para palabras ingresadas de una cada ingresada. En el método, 'se proporciona un diccionario de palabras. Después, se comparan las palabras temáticas del diccionario con las otras palabras del diccionario. Se identifican entonces palabras de sustitución candidatas para las palabras temáticas con base en la comparación. Se forma entonces una tabla candidata que incluye pares dq las palabras temáticas identificadas y de sus palabras de ¡ sustitución candidatas correspondientes. Finalmente, se hace una puntuación de la tabla candidata en un medio que se puede leer por computadora. Otras características y beneficios que caracterizan las modalidades de la presente invención serán aparentes a partir de la lectura de la siguiente descripción detallada y de la revisión de los dibujos asociados.

BREVE DESCRIPCIÓN DE LOS DIBUJOS La Figura 1 es un diagrama de bloques de un entorno informático en el que se puede practicar la presente invención. Lá Figura 2 es un diagrama de flujo que ilustra un método para la sugerencia de palabras de sustitución para palabras de una cadena, de acuerdo con las modalidades de la invención.

Lá Figura 3 es un diagrama de bloques de un sistema de corrección ortográfica, de acuerdo con las modalidades de la i n ve nció ifi . La Figura 4 es un diagrama de flujo que ilustra un método para la generación de una tabla candidata para su uso en un sistema de correjcción ortográfica para sugerir palabras de sustitución para palabras! ingresadas de una cadena ingresada, de acuerdo con las modalidades de la invención.

DESCRIPCIÓN DETALLADA DE LAS MOD LIDADES ILUSTRATIVAS La presente invención en general se refiere a un método y sistema ¡ de corrección ortográfica para proporcionar sugerencias precisas de palabras de sustitución para palabras ingresadas de una cada ingresada que no son válidas. Adicionalmente, el método y sistema ¡de corrección ortográfica de la presente invención puede proporcionar sugerencias de palabras de sustitución para palabras ingresadas válidas de una cadena ingresada que se utilizan de manera ¡incorrecta. Las Modalidades de la presente invención basan las sugerencias de palabras de sustitución en el contexto en el que se utilizan las palabras ingresadas. Ajntes de describir en detalle la presente invención, se proporcionará una discusión de los entornos informáticos ejemplares en los que se puede utilizar la presente invención.

Entorno Ir-foprmá-ico Ejemplar La Figura 1 ilustra un ejemplo de un entorno 100 de sistema ?nformát?¡co adecuado en el que se puede implementar la invención I El entorno 100 de sistema informático sólo es un ejemplo de un entorno informático adecuado y no pretende sugerir ninguna limitacióh en lo que se refiere al alcance de uso o funcionalidad de la invención El entorno 100 informático tampoco debe interpretarse como que tiene alguna dependencia o requerimiento en relación con alguno o combinación de los componentes ilustrados en el entorno I 100 opetjativo ejemplar Lá invención se puede operar con otros numerosos entornos o configuraciones de sistema informáticos de aplicación especial o de aplicación general Ejemplos de sistemas, entornos y/o configuraciones informáticas que pueden ser adecuadas para su uso con la invención incluyen, pero no se limitan a, computadoras personales, servidores, dispositivos de computadoras portátiles o de mano, sistemas de multiprocesadores, sistemas basados en microprocesadores, descodificadores de señales, electrónica de consumidor programable, PCs en red, minicomputadoras, i computajdoras centrales, entornos informáticos distribuidos que incluyan cualquiera de los sistemas o dispositivos anteriores, y similares Lá invención puede describirse en el contexto general de las instrucciones ejecutables por computadora, tales como módulos de program'a, que se ejecutan mediante una computadora En general, los módulos de programa incluyen rutinas, programas, objetos, componentes, estructuras de datos, etc. que realizan tareas particulares o que implantan tipos de datos abstractos particulares.

La ¡nven'ción también puede practicarse en entornos informáticos distribuidos donde las tareas se realizan mediante dispositivos de procesamiento remotos que se enlazan a través de una red de comunicaciones En un ambiente informático distribuido, los módulos de programa pueden localizarse tanto un medio de almacenamiento informátibo tanto remoto como local que incluya dispositivos de almacenamiento de memoria Có^n referencia a la Figura 1, un sistema ejemplar para implantar la invención incluye un dispositivo informático de aplicacióin general en forma de una computadora 110. Los componentes de la computadora 110 pueden incluir, pero no se limitan a¡ , una unidad 120 de procesamiento, una memoria 130 de sistema y un conductor común 121 del sistema que acople varios compon ejn tes de sistema que incluyan la memoría de sistema hasta la unidad 1 '20 de procesamiento. El conductor común 121 del sistema puede ser de varios tipos de estructuras de conductor común, incluyendo un conductor común de memoria o un controlador de memoria,! un conductor común periférico y un conductor común local que utilice cualquiera de una variedad de arquitecturas del conductor común. A modo de ejemplo, y no de limitación, tales arquitecturas incluyen ' conductor común de Arquitectura Industrial Normalizada (ISA), conductor común de Arquitectura de Microcanal (MCA), conductor común de Arquitectura Normalizada Industrial Avanzada (EISA), Conductor común local de la Asociación para estándares Electrónicos y de Video (VESA), y conductor común para Interconexión de Componentes Periféricos (PCI), también conocido como conductor común de mézanme. La. computadora 110 típicamente incluye una variedad de medios que se pueden leer por computadora. Los medios que se pueden l¡eer por computadora pueden ser cualquier medio disponible al que se pueda tener acceso medíante la computadora 110 e ¡ncluye medios tanto volátiles y no volátiles como medios extraíbles y no extraíblejs A modo de ejemplo, y no de limitación, los medios que se pueden leer por computadora pueden comprender medios de almacenamiento por computadora y medios de comunicación. El medio die almacenamiento por computadora incluye tanto medios volátiles' y no volátiles como extraíbles y no extraíbles implantados en cualquier método o tecnología para el almacenamiento de informac¡?ón, tal como instrucciones ejecutables por computadora, estructuras de datos, módulos de programa u otros datos. El medio de almacenamiento de computadora incluye, pero no se limita a, memorias RAM, ROM, EEPROM, memoria flash u otra tecnología de memoria, CD-ROM, discos digitales de video (DVD) u otro almacenamiento de disco óptico, casetes magnéticos, cinta magnética, almacenamiento de disco magnético u otros dispositivos de almacenamiento, o cualquier otro medio que pueda utilizarse para almacenar la información deseada y al que se pueda tener acceso mediante' la computadora 110 El medio de comunicación típicamente representa instrucciones ejecutables por computadora, estructuras I de datosj, módulos de programa u otros datos en una señal de datos modulada, tal como un WAV portador u otro mecanismo de trasporte I e incluye cualquier medio de entrega de información El término "señal de datos modulada" significa una señal que tiene una o más de sus características ajustadas o cambiadas de tal manera que codifique información en la señal A modo de ejemplo, y no de hmitació'n, el medio de comunicación incluye medios alámbricos, tal como unía red alámbrica o una conexión alámbrica directa, y medios inalámbpicos, tales como acústicos, RF, infrarrojos y otros medios inalámbricos También deben incluirse combinaciones de cualquiera de los anteriores dentro del alcance de los medios que se pueden leer por ¡computadora La memoria 130 de sistema incluye medios de almacenamiento I por computadora en forma de memoria volátil y/o no volátil, tal como la memoria 131 sólo de lectura (ROM) y la memoria 132 de acceso aleatopf (RAM) Un sistema 133 básico de entrada/salida (BIOS), que contiene las rutinas básicas que ayudan a transferir información entre lo elementos dentro de la computadora 110, tal como durante el inicio, se almacena típicamente en la ROM 131 La RAM 132 i típicamente contiene datos y/o módulos de programa a los que se tiene acceso inmediatamente y/o sobre los que se opera en ese momentp mediante la unidad 120 de procesamiento A modo de ejemplo', y no de limitación, la Figura 1 ilustra el sistema 134 operativo, los programas 135 de aplicación, otros módulos 136 de programa y datos 137 de programa. L computadora 110 también puede incluir otros medios de almacenamiento por computadora volátiles y no volátiles, extraíbles y no extraíbles A modo de ejemplo solamente, la Figura 1 ilustra una unidad 1 ¡41 de disco duro que lee de o escribe a un medio magnético no volatíjl, no extraíble, una unidad 151 de disco magnético que lee de o escribe a un disco 152 magnético no volátil, extraíble, y una unidad 155 de disco óptico que lee de o escribe a un disco 156 óptico n© volátil, extraíble, tal como un CD ROM u otro medio óptico. Otros rriedios de almacenamiento por computadora volátiles/no volátiles, extraíbles/no extraíbles que se pueden utilizar en el entorno ¡operativo ejemplar incluyen, pero no se limitan a, casetes de cinta m¡agnética, tarjetas de memoria flash, discos versátiles digitales,, cintas de video digitales, RAM de estado sólido, ROM de estado ¿olido y similares. La unidad 141 de disco duro se conecta típicame|nte al conductor común 121 del sistema a través de una interfase de memoria no extraíble, tal como la interfase 140, y la unidad ¡151 de disco magnético y unidad 155 de disco óptico se conectan típicamente al conductor común 121 del sistema mediante una interfase de memoria extraíble, tal como la interfase 150. Las unidades y sus medios de almacenamiento por computa|dora, discutidos en lo anterior e ilustrados en la Figura 1, proporcionan un almacenamiento de instrucciones ejecutables de computajdora, estructuras de datos, módulos de programa y otros datos para la computadora 110 En la Figura 1, por ejemplo, la i unidad 141 de disco duro se ilustra como sistema 144 operativo de almacenamiento, programas 145 de aplicación, otros módulos 146 de programa y datos 147 de programa Observe que estos componentes pueden ser ya sea los mismos o diferentes del sistema 134 operativo, programa 135 de aplicación, otros módulos 136 de programa y datos 137 de programa Se les da números diferentes aquí al sistema 144 operativo, a los programas 145 de aplicación, a otros mo dulos 146 de programa y a los datos 147 de programa para ilustrar que, como mínimo son copias diferentes I Ur¡? usuario puede ingresar comandos e información en la computadora 110 a través de dispositivos de entrada, tales como un ! teclado 162, un micrófono 163 y un dispositivo 161 de indicación, tal como urji ratón, bola de mando o tablero gráfico táctil Otros ¡ dispositivos de entrada (no mostrados) pueden incluir una palanca de i mando, ijnando para juegos, antena parabólica, escaner o similares Estos y otros dispositivos de entrada por lo general se conectan a la i unidad i 20 de procesamiento a través de una interfase 160 de entrada de usuario que se acopla al conductor común del sistema, I pero pueden conectarse mediante otras interfaces y estructuras de conductor común, tal como un puerto paralelo, puerto para juegos o ¡ un conductor común de serie universal (USB) Un monitor 191 u otro tipo de dispositivo de despliegue también se conecta al conductor común i 21 del sistema mediante una interfase, tal como una i interfasej 190 de video Ademas del monitor, las computadoras también pueden incluir otros dispositivos de salida periféricos, tales como bocinas 197 e impresora 196, los cuales pueden conectarse a través dé una interfase 190 periférica de salida. La computadora 110 puede operar en un entorno conectado a la red, tilizando conexiones lógicas a una o más computadoras remotas,1 tal como una computadora 180 remota. La computadora 180 remota puede ser una computadora personal, un dispositivo portátil, un servidor, un enrutador, una PC en red, un dispositivo de extremo u otro nédo de red común, y típicamente incluye muchos o todos los elementos descritos en lo anterior en relación con la computadora 110. Las conexiones lógicas representadas en la Figura 1 incluyen una red de área local (LAN) 171 y una red de área ancha (WAN) 173, pero también pueden incluir otras redes. Tales entornos de conexiones de redes son comunes en oficinas, redes informáticas para todja la empresa, redes internas y la Internet. Cuando se utiliza en un entorno de conexión de red LAN, la computadora 110 se conecta a la LAN 171 a través de una interfase de red b adaptador 170. Cuando se utiliza en un entorno de red WAN, la computadora 110 típicamente incluye un módem 172 u otros medios para establecer comunicaciones en la WAM 173, tal como la Internet.; El módem 172, el cual puede ser interno o externo, puede conectarse al conductor común 121 del sistema mediante la interfase 160 de entrada de usuario, u otro mecanismo apropiado. En un entorno 'conectado a la red, los módulos de programa representados I en relaóión con la computadora 110, o porciones de los mismos, pueden almacenarse en el dispositivo de almacenamiento de memoria remota ¡A modo de ejemplo, y no de limitación, la Figura 1 ilustra I programas 185 de aplicación remotos que residen en la computadora i 180 remota Se apreciará que las conexiones de red mostradas son i ejemplares y que se pueden utilizar otros medios para establecer un enlace de comunicaciones entre las computadoras Debe observarse que la presente invención puede llevarse a cabo en un sistema de computadora tal como aquél descrito con respecto! a la Figura 1 Sin embargo, la presente invención puede llevársela cabo en un servidor, una computadora dedicada al manejo de mensajes, o en un sistema distribuido en el que porciones diferentes de la presente invención se lleven a cabo en partes diferentes del sistema informático distribuido Método y Sistema de Corrección Ortográfica C¡omo se menciono en lo anterior, la presente invención en general ¡se refiere a un método y sistema de corrección ortográfica i para proporcionar sugerencias precisas de palabras de sustitución para palabras ingresadas de una cadena ingresada que no son válidas Adicionalmente, el método y sistema de corrección ortográfica de la presente invención pueden proporcionar I sugerencias de palabras de sustitución para palabras ingresadas válidas ¡ de una cadena ingresada que se utilizan de manera incorrecita Las sugerencias de palabras de sustitución proporcionadas por la presente invención por lo general se basan en el contento en el cual se utilizan las palabras ingresadas. I Adicionalmente, la presente invención proporciona un método basado én datos para corrección ortográfica. Como resultado, las modalidades del método y sistema de corrección ortográfica no requieren el mismo tipo de especializaron lingüística teórica que los I correctoifes gramaticales basados en reglas o sintaxis. La implantabíón también es mucho más simple que aquélla de los sistemas; basados en reglas, con costos de seguridad y de mantenimiento más bajos. Adicionalmente, el mecanismo para I generar ¡sugerencias por lo general es independiente del lenguaje y puede adaptarse a múltiples idiomas. Las modalidades de la presente invención se discutirán con referencia a las Figuras 2 y 3. La Figura 2 es un diagrama de flujo que i I u s|t r a un método para sugerir palabras de sustitución para palabras! de una cadena, de acuerdo con las modalidades de la invención La Figura 3 es un diagrama de bloques de un sistema 200 de corrección ortográfica, de acuerdo con las modalidades de la I invención, que se configura para implantar el método. I Eh la etapa 202 del método, el sistema 200 de corrección ortográfica recibe una cadena 204 ingresada de palabras ingresadas. La cadena 204 ingresada puede ingresarse inicialmente por un usuario ¡ de la aplicación 206 para procesamiento de palabras medíant un teclado, un micrófono (es decir, dictado), u otro método convencional. De manera alterna, la cadena 204 ingresada puede recuperarse de un documento existente, un página web o de otra fuente ! De preferencia, la aplicación 206 proporciona la cadena 204 ingresada al sistema 200 en oraciones completas Adicionalmente, la cadena 204 ingresada se puede proporcionar al sistema 200 de corrección ortográfica en una forma de señal u otro formato reconocible, o cambiarse de otro modo en el formato mediante el sistema 200 I La cadena ingresada se proporciona a un generador 208 i candidato desde un procesador 210 ortográfico contextual del i sistema £00 De preferencia, la cadena 204 ingresada solo contiene I palabras|vál?das (es decir, escritas correctamente). De acuerdo con una modalidad del método, las palabras ingresadas con errores ortográficos de la cadena 204 ingresada se corrigen ! utilizando un corrector 212 ortográfico basado en un diccionario El corrector 212 ortográfico compara cada palabra ingresada de la cadena 204 ingresada con las palabras de un diccionaiiio 214 Las sustituciones sugeridas par las palabras ingresadas que se encuentran contenidas en el diccionario 214 se i generan i mediante el corrector 212 ortográfico de acuerdo con métodos¡ convencionales Las sustituciones sugeridas generadas mediante' el corrector 212 ortográfico pueden presentarse al usuario para la jselección de una sustitución para palabras con errores ortográficos identificadas mediante el corrector 212 ortográfico y en consecuencia la cadena ingresada se modifica De manera alterna, las correcciones sugeridas generadas mediante el corrector 212 ortográfico para palabras ingresadas con errores ortográficos se proporcionan al generador 208 candidato, el cual forma una cada ingresada que contiene sólo palabras válidas La cadena ingresada que contliene sólo palabras válidas se analiza entonces mediante el generador 208 candidato El! propósito del generador 208 candidato es identificar las palabras! de sustitución candidatas que sean similares, o que se relacionen de otro modo, con las palabras ingresadas de la cadena 204 ingresada Las palabras de sustitución candidatas pueden proporcionarse después a la aplicación 206 como palabras de sustitución sugeridas para las palabras ingresadas Los pares de palabra ' de sustitución candidata y la palabra ingresada se encuentran contenidos en una tabla 216 candidata. La tabla 1 es un ejemplo de una porción de una tabla 216 cand?dat|a, de acuerdo con las modalidades de la invención La tabla 216 can idata incluye palabras temáticas que se asocian, cada una, con una palabra de sustitución candidata, y una puntuación i cand?dat!a es indicativa de una probabilidad de que la palabra I temática' debe sustituirse por la palabra de sustitución candidata Tabla 1: Tabla Candida-a llus-ratova ! Pa ab ra de Sustitución Puntuación Palabra Tem át ca Candidata Candidata Edición Aback alack 0 543 b:1 Aback back 0 023 a: A b a 1 o n e s abalone's 0 870 A Abandonad abandoner 0 765 d:r Break break 0 689 H Una modalidad de la Tabla 216 candidata incluye una entrada editada bara cada par de palabra de sustitución candidata y temática que describe el cambio que debe realizarse en la palabra temática para formar la palabra de sustitución candidata. Por ejemplo, para cambiar "aback" a "alack", la "b" de "aback" debe cambiarse a una "I", lo cual se denota como "b:l". De manera similar, la eliminación de ! la primqra "a" en "aback" para formar la palabra de sustitución candidata "back" puede denotarse como "a:" La adición de las "" para abalone's puede denotarse simplemente como "A". Palabras de sustitución candidatas homónimas, tal como "brake" para la palabra temática "break", se denotan como "H". También se pueden utilizar otros m todos para identificar varias ediciones que deben realizarse ! para cambiar la palabra temática a la palabra de sustitución candidata correspondiente. Eil procesador ortográfico contextual puede utilizar la entrada editada én la tabla candidata para modificar la puntuación para la palabra ¡de sustitución candidata durante un análisis de la cadena ingresada. Las entradas editadas pueden agruparse en clases y asignárseles valores diferentes que reflejen tales cosas como la frecuencia de una clase de tipos de edición. Entre más elevado sea el valor, ¡mayor es el efecto del tipo de edición en una puntuación de i palabra la palabra de sustitución candidata. Estas puntuaciones de clases o tipos de edición pueden ser además de o incluirse en la puntuación candidata. Por ejemplo, una edición para eliminar un carácter i inicial de la palabra temática para formar la palabra de sustitución capdidata puede dar como resultado un aumento en la puntuación para la palabra de sustitución candidata. D acuerdo con una modalidad de la invención, la tabla 216 candidata se almacena en un medio que se puede leer por computadora como un archivo binario, el cual se carga en la memoria del entorno informático para su acceso rápido por el sistema 200 de corrección ortográfica De acuerdo con una modalidad de la invención, la tabla 216 candidata se almacena como una tabla hash en el arcjhivo binario. Dé acuerdo con otra modalidad de la tabla 216 candidata, los identifícádores de diccionario se utilizan para identificar las palabras de sustitución candidata y temática. Los identificadores de diccionario proporcionan un enlace a las palabras correspondientes en un diccionario, tal como el diccionario 214 mostrado en la Figura 3. Esta modalidad de la invención opera para reducir la cantidad de memoria' que se requiere para almacenar la extensa tabla 216 candidata Erji la etapa 218 del método, el generador 208 candidato hace co?nc?d?r¡ las palabras ingresadas de la cadena 204 ingresada con las palabras temáticas de la tabla 216 candidata Las palabras 222 de sustitución candidatas y las puntuaciones 224 candidatas ! correspo'ndientes se extraen entonces de la tabla 216 candidata para cada palabra ingresada de la cadena 204 ingresada con base en la palabra t|emát?ca coincidida correspondiente, en la etapa 220 Debido a que pjueden existir muchas palabras de sustitución candidatas asociadals con la misma palabra ingresada o temática, el generador 208 candidato puede producir más de un par de puntuación y palabra de sustitución candidata para cada palabra ingresada coincidida Los pares de puntuación 224 y palabra 222 de sustitución candidata se transmiten al procesador 210 ortográfico contextual para su procesamiento adicional La puntuación 224 candidata en la tabla 216 candidata por lo general es indicativa de una probabilidad de que la palabra ingresad^ debe sustituirse por la palabra de sustitución candidata i correspondiente Adicionalmente, la puntuación 224 candidata puede reflejar la cantidad de error entre la palabra temática y la palabra 222 de s stitución candidata correspondiente i De acuerdo con una modalidad de la invención, la puntuación 224 candidata se base en uno o más factores, cada uno de los cuales de preferencia se multiplica en conjunto para formar la puntuación candidatá para el par de palabra de sustitución candidata y palabra temática; en la tabla 216 candidata. Tales factores incluyen una edición o distancia de escritura entre la palabra temática y la palabra de sustitución candidata, la heurística, una diferencia fonética entre la palabra temática y la palabra de sustitución candidata, y otros factores que pueden relacionarse con una probabilidad de que la palabra de sustitución candidata debe sustituir la palabra temática. Las puntuaciones 224 candídatas basadas en un tipo de edición heurística variarán dependiendo de la diferencia entre la palabra ¡temática y la palabra de sustitución candidata. Por ejemplo, la probabilidad de que una palabra temática en singular deba cambiarle por una palabra de sustitución candidata en plural puede ser poco común. Como resultado, a tales palabras de sustitución candidatos se les debe dar una puntuación candidata baja. Por otro lado, cµando el cambio de la palabra temática a la palabra de sustitución candidata implica una modificación del primer carácter solamenjte, lo cual se relaciona con un error ortográfico encontrado con más frecuencia, tales pares de palabras de sustitución candidatas y temáticas reciben una puntuación candidata alta. Relacionadas también con la distancia de edición se encuentran las puntuaciones que están basadas en la separación de la palabra temática en dos palabras al agregar un espacio a la palabra ¡temática. A tales ediciones se les asigna generalmente una puntuación candídata alta debido a su frecuencia relativamente alta. Cuando la palabra de sustitución candidata es una homófona o casi homófona de la palabra temática, al par de palabras se le asigna u¡na puntuación más alta que cuando la palabra de sustitución candidato no tiene semejanza sustancialmente en forma fonética con la palabija temática. I Eh la etapa 226 del método, el procesador 210 ortográfico contextujal produce selectivamente un resultado 230 de las palabras 222 de sustitución candidatas para las palabras ingresadas de la cadena i ' 204 ingresada, basándose en las puntuaciones 224 correspondientes de las palabras 222 de sustitución candidatas. De acuerdo con una modalidad de la invención, el sistema 200 ¡ncluye un modelo 240 de lenguaje que recibe cadenas 242 de sustitución candidatas del procesador 210 ortográfico contextual. Las cadenas i 242 de! sustitución candidatas son cadenas 204 ingresadas modifica¡das, cada una de las cuales incluye una palabra 222 de sustitución candidata en lugar de la palabra ingresada correspondiente. i E¡l modelo 240 de lenguaje opera para producir puntuaciones 244 de ?robabilidad para cada una de las cadenas 242 de sustitución candidatas. Las puntuaciones 244 de probabilidad proporcionan una I medida ¡ de probabilidad de ver la cadena 242 de sustitución candidata particular basada en datos 246 estadísticos (es decir, ¡ datos dé frecuencia de ocurrencia de palabra en relación con otras palabra^) para un bloque grande de oraciones. En general, se asume que ent^e más probable sea ver una cadena particular de palabras, j es más probable que las palabras contenidas en la cadena se utilicen de manera correcta De este modo, la puntuación 244 de probabilidad para cada cadena 242 de sustitución candidata refleja la exactitud de la combinación de las palabras ingresadas con la palabra de sustitución candidata en esa cadena ¡ Lá puntuación 244 de probabilidad (denotada como P (contexto)) para una cadena de palabras dada (es decir, W?,w2,w3.. wN) puede calcularse de acuerdo con la Ecuación 1, utilizando los datos 246 estadísticos. En general, la probabilidad de la cadena es igual a la probabilidad de cada palabra en la cadena asignada a las otras. De este modo, la probabilidad de la cadena es igual a lá probabilidad de la primera palabra (P(w ) multiplicada por ! la probabilidad de la segunda palabra asignada a la primera palabra (P(w2| wr)), multiplicada por la probabilidad de la tercera palabra asignada a la primera y segunda palabras (P(w31 w2,W!)), y así sucesivamente. P(contex^o) = P(|W!)*P(w21 Wi)*P(w31 w2,w1)*..JP(wN | wN-? ,wN-2... w2,Wt) Ec. 1 De acuerdo con una modalidad de la invención, se utiliza una aproximación de tpgrama de la Ecuación 1, la cual se proporciona en la Ecuación 2 Para cada palabra de la cadena, la aproximación de trigrama utiliza las dos palabras anteriores (si existen), en lugar de todas las¡ N palabras de la cadena. P(contexto)~ P(¡W?)*P(w21 W?)*P(w31 w2lw1)*..JP(wN | wN.?1wN.2...w2,W?) Ec. 2 De acuerdo con una modalidad de la invención, el procesador 210 ortográfico contextual selecciona las palabras o cadenas 230 de sustitución candidatas sugeridas para transferirlas a la aplicación 206, coh base en una puntación final para cada cadena de sustitución candidata Cada una de las puntuaciones finales (denotadlas como P(candidate I imput word, context)) se calculan de acuerdo con la Ecuación 3 al multiplicar la puntuación de probabilidad para la cadena de sustitución candidata (denotada como P(contex¡to, candidata) por la puntuación 224 candidata que corresponda con la palabra 222 de sustitución candidata (candídata) que sustituya a la palabra ingresada para formar la cadena 242 de sustitución candidata Digamos, por ejemplo, que las palabras 22 de sustitución candidatas de "too", " t o t " , y "two" se generan junto con sus puntuaciones 224 correspondientes mediante el generador 208 candidato para la palabra ingresada "to" de la cadena 204 ingresada de "I sbe you to". Las cadenas 242 de sustitución candidatas correspondientes se convierten entonces en "I see you too", "\ see you tot",? y "I see you two". El procesador 210 ortográfico contextual ¡ realiza entonces varias llamadas al modelo 240 de lenguaje, el cual calcula las puntuaciones de probabilidad para cada una de las cadenas¡242 de sustitución candidatas. Las puntuaciones finales para las cadenas 242 de sustitución candidatos se calculan mediante el procesador 210 ortográfico contextual al multiplicar sus puntuaciones 244 de probabilidad por sus puntuaciones 224 candidatas correspondientes. De este modo, la puntuacipn final para la cadena 242 de sustitución candídata "I see you too"! es igual a la probabilidad de la cadena "I see you too" multiplicada por la puntuación 244 que corresponda con la palabra de sustitución candidata "too" para la palabra ingresada "to" obtenida de la tab¡la 216 candidata. I D acuerdo con una modalidad de la invención, la palabra 222 candidata de la cadena de sustitución candidata que tiene la puntuación final más alta es sugerida a la aplicación 206 mediante el procesador 210 ortográfico contextual como el resultado 230. De manera alterna, el procesador 210 ortográfico contextual puede sugerir ?ólo la palabra 222 de sustitución que corresponda con la cadena 242 de sustitución candidata que tenga la puntuación final más alta;, siempre y cuando ésta exceda de un límite. De acuerdo con otra modalidad de la invención, múltiples palabras 222 de sustitución candidatjas que tengan puntuaciones finales que excedan de un límite se sugieren mediante el procesador 210 ortográfico contextual a la aplicación 206 como el resultado 230. El límite puede predeterminarse o calcularse dinámicamente como una función de la probabilidad de las palabras temáticas y de las pala'bras candidatas. En una modalidad, el límite se determina dinámic mente a partir de Límite = aP(palabras temát¡ca!s)¡? = ) + ßP(palabras candidatas)+? | P(palabras ingresadas)-P(palabras candidatas).

Generac ón de tabla candidata La Figura 4 es un diagrama de flujo que ilustra un método para generar la tabla 216 candidata para su uso en el sistema 200 de corrección ortográfica, de acuerdo con las modalidades de la invención En la etapa 250 del método, se proporciona un diccionario I de palabras De preferencia, el diccionario es muy extenso (por ejemplo, alrededor de 100,000 palabras) Después, en la etapa 252, se comp¡aran las palabras temáticas del diccionario con las otras I palabras; del diccionario De preferencia, cada palabra del diccionaijio, o por lo menos las palabras utilizadas con más I I frecuencja del diccionario, cada una se convierte en palabras temáticas que se comparan con las otras palabras del diccionario En i la etapa|254, las palabras de sustitución candidatas se identifican para las palabras temáticas con base en la comparación de la etapa 252 De acuerdo con una modalidad de la invención, la i comparación de las palabras temáticas con las otras palabras del diccionario (etapa 252) implica el cálculo una distancia de escritura i o de edibión entre cada una de las palabras del diccionario con la palabra ¡temática y comparar la distancia de edición con una distancia) de edición límite Las palabras de sustitución candidatas que tengl an una distancia de edición que alcance la distancia de edición límite se identifican como palabras de sustitución candidatas para las ¡palabras temáticas Debe entenderse que el "alcance" del límite pretende satisfacerse alcanzando el límite, excediendo el límite, o colocándose bajo el límite, dependiendo de cómo se calculeni ,las distancias de edición. D acuerdo con otra modalidad de la etapa 252 de comparación, un significado de cada una de las palabras del diccionario se compara con las palabras temáticas. La etapa 254 de identificación incluye entonces identificar las palabras del diccionario cuyo significado es similar a aquél de la palabra temáticaí, como palabras de sustitución candidatas. Por ejemplo, sinónimos de las palabras temáticas se identificarían como palabras de sustitución candidatas. De acuerdo con una modalidad de la invención, las palabras temáticas del diccionario se revisan contra los datos de un tesauro, a partir del cual las palabras de sustitución candidatias que tienen un significado similar se identifican como palabras de sustitución candidatas en la etapa 254 del método. Dé acuerdo con otra modalidad de la etapa 252 de comparajción, las representaciones fonéticas de las palabras en el diccionario se comparan con las palabras temáticas del diccionario. Las representaciones fonéticas de las palabras del diccionario de preferenlcia se generan automáticamente a través de un envío de las palabras a un procesador de conversión de texto a diálogo convencional. Las palabras del diccionario que tienen representaciones fonéticas que coincidan con la representación fonética! de la palabra temática se identifican como palabras de sustitución candidatas para la palabra temática en la etapa 254 de identifi c|ación Ejemplos de estos pares incluyen "bear" y "bare", y "which" y "witch". De este modo, las homófonas de la palabra temática se identifican como palabras de sustitución candidatas. De acuerdo ¡con otra modalidad de la invención, las palabras de del diccionario que sean casi homófonas (es decir, aquellas que alcance? un límite) también se identifican como palabras de sustitución candidatas. Otra modalidad de la invención ¡ncluye un análisis de bigramas (es decir, pares de palabras) encontrados en un bloque grande de oraciones. El análisis implica determinar si cambiar o elíminarjel espacio localizado entre la primera y la segunda palabras del bigrama daría como resultado la generación de por lo menos una palabra válida. Una modalidad de la etapa 252 de comparación incluye comparar las palabras temáticas con las palabras válidas que se formgn a partir del análisis de espaciado-cambio. De preferencia, sólo las palabras válidas que se forman al cambiar el espacio, ya sea antes d l carácter terminal de la palabra o después del primer carácter' de la segunda palabra, o al eliminar el espacio, se utilizan en la etapa 252 de comparación, debido a que éstas corresponden con err¡ores tipográficos más comunes. Las palabras válidas i formadas recientemente que coincidan con las palabras temáticas se identifican entonces como palabras de sustitución candidatas para las palabras temáticas en la etapa 254. Por ejemplo, las palabras de sustitución candidatas para el par de palabras "use swords" sería "uses wórds" y las palabras de sustitución candidatas para el par de palabras "dog sand" sería "dogs and". De manera similar, una palabra de sustitución candidata par el par de palabras "any one" sería "anyone", y" por el contrario, una palabra de sustitución candidatá par el par de palabras "anyone" sería "any one". Eh la etapa 256 del método, la lista 216 candidata que se forma incluye las palabras temáticas emparejadas con sus palabras de sustitución candidatas identificadas correspondientes.

Finalmente, en la etapa 258, la tabla 216 candidata se almacena en un medip que se puede leer por computadora, tal como aquél descrito én lo anterior con respecto a la Figura 1. i D^ acuerdo con otra modalidad de la invención, la puntuación 224 candidata se genera para cada uno de los pares de palabras de sustitución candidatas y temáticas en la etapa 256 con base en una probabilidad de que la palabra de sustitución candidata deba sustituir la palabra temática correspondiente, como se explica en lo anterior. Las puntuaciones candídatas de preferencia se basan en uno o más de los factores analizados en la etapa 252 de comparación y aquellos discutidos en lo anterior. La puntuación candidato se incluye en la tabla 216 candidata que se almacena en el medio q e se puede leer por computadora en la etapa 258.

Tabla de¡ Exclusión Candidata D acuerdo con otra modalidad de la invención, se genera una i tabla 26f de exclusión candídata que identifica ciertas palabras de sustitución candidatas que el generador 208 candidato debe enviar al procesadior 210 ortográfico contextual como palabras 222 de sustitución candidatas De este modo, la tabla 260 de exclusión candidata evita que se sugieran palabras de sustitución candidatas no apropiadas o deseadas a la aplicación 206 mediante el I procesador 210 ortográfico contextual De preferencia, la tabla 260 de exclusión candidata incluye palabras de sustitución candidatas que son ¡ofensivas Adicionalmente, las palabras cuya ambigüedad es difícil de¡ eliminar y que por lo general ocurre en contextos similares pueden incluirse en la tabla de exclusión candidata, tal como "rough" y "tough" Se pueden eliminar variantes ortográficas aceptables de la i misma palabra temática, tal como "color" y "colour", o "goodbye" y "good-byle", al incluirlas en la tabla 260 de exclusión candidata También, debido a que los errores tipográficos que dan como resultado una forma plural de una palabra ingresada en singular son poco comunes, las palabras temáticas en singular sus equivalentes de preferencia se incluyen en la tabla 260 de exclusión candidata Dé acuerdo con una modalidad de la invención, la tabla 216 i candidato se actualiza periódicamente par eliminar los pares de palabras de sustitución candidatas y palabra temáticas que tengan pares de palabras coincidentes en la tabla 260 de exclusión candidatá Adicionalmente, los pares de palabras de sustitución candidatas y palabras temáticas en la tabla 216 candidata que tengan palabras de sustitución candidatas que coincidan con aquéllas; en la tabla 260 de exclusión candidata también puede eliminarse La reducción resultante al tamaño de la tabla 216 candidatá permite que el sistema 200 de corrección ortográfica opere con mayor eficacia. Aunque la presente invención se ha descrito con referencia a modalida|des particulares, trabajadores con experiencia en la técnica reconocerán que se pueden realizar cambios en forma y detalle sin apartars del espíritu y alcance de la invención.

Claims

REIVINDICACIONES

1.¡ Un método implementado por computadora para sugerir palabras¡de sustitución para palabras de una cadena, que comprende las etapas de: a) recibir una cadena ingresada de palabras ingresadas; b) hacer coincidir las palabras ingresadas con las palabras temáticas de una tabla candidata; c)¡extraer palabras de sustitución candidatas y puntuaciones candidatas de la tabla candidata que correspondan con las palabras temáticas coincididas, en donde cada puntuación candidata es indicativa de una probabilidad de que la palabra ingresada debe sustituirse por la palabra candidata correspondiente; y d)' sugerir selectivamente la sustitución de las palabras ingresadas por sus palabras de sustitución candidatas correspondientes con base en las puntuaciones candídatas para las I palabras ide sustitución.

2. El método de acuerdo con la reivindicación 1, que incluye corregir palabras ingresadas con errores ortográficos antes de la etapa b) ide coincidencia, por lo cual la cadena ingresada contiene sólo palabras ingresadas escritas correctamente. 3JEI método de acuerdo con la reivindicación 1, que incluye formar cadenas de sustitución candidatas utilizando las palabras de sustitución candidatas, incluyendo la sustitución de las palabras ingresadas de la cadena ingresada con las palabras de sustitución candidatas correspondientes 4 El método de acuerdo con la reivindicación 3, que incluye calcular , las puntuaciones de probabilidad para las cadenas de sustitución candidatas, cada puntuación de probabilidad basada en las palabras ingresadas y en la palabra de sustitución candidata contenida en la cadena de sustitución candidata, en donde la etapa d) de sugerencia incluye sugerir la sustitución de la palabra ingresada por la palabra de sustitución candidata correspondiente de la cadena de sustitución candidata basada en la puntuación de probabilidad 5 El método de acuerdo con la reivindicación 4, en donde la etapa d) de sugerencia incluye multiplicar las puntuaciones de probabilidad con la puntuación candidata correspondiente para obtener puntuaciones finales para cada una de las cadenas de sustitución candidatas en donde la etapa d) de sugerencia incluye sugerir la sustitución de la palabra ingresada con la palabra de sustitución candidata de la cadena de sustitución candidata que tenga la puntuación final mas alta 6 El método de la reivindicación 1, en donde las palabras temáticas y las palabras de sustitución candidatas correspondientes de la tabla candidata se encuentran, cada una, en forma de un identificador de diccionario que identifica las palabras en un diccionario 7 El método de acuerdo con la reivindicación 1, en donde las palabras de sustitución candidatas de la tabla candidata incluyen palabras que tienen una distancia de edición a partir de sus palabras temáticas correspondientes que satisfacen un límite. 8. i El método de acuerdo con la reivindicación 1, en donde las palabras; de sustitución candidatas de la tabla candidata incluyen palabras que tienen un significado similar con sus palabras temáticas correspo|ndientes. 9.¡ El método de acuerdo con la reivindicación 1, en donde las palabras de sustitución candidatas de la tabla candidata incluyen palabras! que tienen una coincidencia fonética con sus palabras temáticals correspondientes. 10. El método de acuerdo con la reivindicación 1, en donde las palabras de sustitución candidatas de la tabla candidafa incluyen palabras] que son correcciones comunes a sus palabras temáticas correspondientes 11 Un método implementado por computadora para generar una tabila candidata para su uso por un sistema de corrección ortográfica para sugerir la sustitución de palabras para palabras ingresadas de una cadena ingresada, el método comprende las etapas de: i aj proporcionar un diccionario de palabras; b) comparar palabras temáticas en el diccionario con las palabras en el diccionario; i c) identificar palabras de sustitución candidatas para las palabras temáticas con base en la etapa b) de comparación; d) formar una tabla candidata las palabras temáticas emparejadas con sus palabras de sustitución candidatas identificadas correspondientes; y e)| almacenar la tabla candidata en un medio que se pueda leer por bomputadora. 12,. El método de acuerdo con la reivindicación 11, en donde la etapa e) de comparación incluye comparar distancias de edición medidasja partir de las palabras en el diccionario con las palabras temática para una distancia de edición límite, en donde la etapa c) de identificación incluye identificar palabras de sustitución candida tjas para cada una de las palabras temáticas cuya distancia de edición a partir de la palabra temática satisfaga una distancia de edición ijímite. 1

3. El método de acuerdo con la reivindicación 11, en donde la etapa¡ b) de comparación incluye comparar un significado de cada una de las otras palabras en el diccionario con cada una de las palabras! temáticas, en donde la etapa c) de identificación incluye identificar las palabras de sustitución candidatas para cada una de las palabras temáticas cuyo significado sea similar al de la palabra temática. 14- El método de acuerdo con la reivindicación 11, en donde la etapa b) de comparación incluye comparar una representación fonéticaí de cada una de las palabras en el diccionario con una represerjitación fonética de cada una de las palabras temáticas, en donde lá etapa c) de identificación incluye identificar las palabras de ! sustitución candidatas para cada una de las palabras temáticas cuya representación fonética coincida con la representación fonética de la palabra temática. 1 Ó I. El método de acuerdo con la reivindicación 11, en donde la etapaj d) de formación incluye generar una puntuación candidata para cada uno de los pares de palabras de sustitución candidatas y temáticas con base en una probabilidad de que la palabra de sustitución candidata deba sustituir la palabra temática correspondiente, y formar la tabla candidata para incluir las puntuaciones candídatas. 1(5. El método de acuerdo con la reivindicación 15, en donde la puntuación candidata se base en una distancia de edición entre la palabra de sustitución candidata y la palabra temática correspqndiente 17. El método de acuerdo con la reivindicación 11, que incluye: ahalizar pares de palabras que tengan una primera palabra y una segjunda palabra separadas por un espacio en un bloque de i oracioneis, incluyendo la identificación de una nueva palabra válida que se forma por uno de eliminar el espacio, mover el espacio antes de un carácter terminal de una primera palabra, y mover el espacio después! de un carácter inicial de la segunda palabra; y agregar la nueva palabra válida a la tabla candidata como una I palabra Ide sustitución candidata para alguna correspondiente de la primera ¡y segunda palabras en la etapa d) de formación. 1¡B. Un sistema de corrección ortográfica para sugerir la sustitucipn de palabras para palabras ingresadas de una cadena ingresadla, el sistema comprende: uñ generador candidato que incluye un resultado de una palabra ' de sustitución candidata y una puntuación candidata correspondiente para cada una de las palabras ingresadas que coinciden con una palabra temática de una tabla candidata, en donde cada puntuación candidata es indicativa de una probabilidad de que la palabra ingresada deba sustituirse con la palabra de sustitución candidata correspondiente; y , u? procesador ortográfico contextual que incluye un resultado selectivo de palabras de sustitución candidatas para las palabras ingresadlas con base en las puntuaciones candidatas correspondientes 19. El sistema de la reivindicación 18, que incluye un modelo de lengulaje que tiene una puntuación de probabilidad producido para una cadena de sustitución candidata que corresponde con la cadena ¡ngresadja con por lo menos una de las palabras ingresadas sustituidas por la palabra de sustitución candidata correspondiente producidja por el generador candidato, en donde la puntuación de probabilidad producida es una medida de una exactitud de la cadena de sustitución candidata, y en donde el resultado selectivo de palabras; de sustitución candidatas producidas por el procesador ortográfico contextual se basa en el resultado de la puntuación de probabilidad y la puntuación candidata que corresponde con la palabra de sustitución candidata contenida en la cadena de sustitución candidata. 20. El sistema de acuerdo con la reivindicación 18, que incluye una tabla de exclusión candidata que incluye una lista de palabras' de sustitución candidatas que se excluyen de uno del resultado del generador candidato y el resultado del procesador ortográfico contextual.