MXPA06012760A - Aparato y metodo para reconocimiento de manuscritos. - Google Patents

Aparato y metodo para reconocimiento de manuscritos.

Info

Publication number
MXPA06012760A
MXPA06012760A MXPA06012760A MXPA06012760A MXPA06012760A MX PA06012760 A MXPA06012760 A MX PA06012760A MX PA06012760 A MXPA06012760 A MX PA06012760A MX PA06012760 A MXPA06012760 A MX PA06012760A MX PA06012760 A MXPA06012760 A MX PA06012760A
Authority
MX
Mexico
Prior art keywords
character
series
characters
sub
unrecognized
Prior art date
Application number
MXPA06012760A
Other languages
English (en)
Inventor
John Rieman
Original Assignee
Nokia Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Corp filed Critical Nokia Corp
Publication of MXPA06012760A publication Critical patent/MXPA06012760A/es

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/768Arrangements for image or video recognition or understanding using pattern recognition or machine learning using context analysis, e.g. recognition aided by known co-occurring patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/22Character recognition characterised by the type of writing
    • G06V30/226Character recognition characterised by the type of writing of cursive writing
    • G06V30/2268Character recognition characterised by the type of writing of cursive writing using stroke segmentation
    • G06V30/2272Character recognition characterised by the type of writing of cursive writing using stroke segmentation with lexical matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/033Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
    • G06F3/0354Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor with detection of 2D relative movements between the device, or an operating part thereof, and a plane or surface, e.g. 2D mice, trackballs, pens or pucks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/22Character recognition characterised by the type of writing
    • G06V30/226Character recognition characterised by the type of writing of cursive writing
    • G06V30/2268Character recognition characterised by the type of writing of cursive writing using stroke segmentation
    • G06V30/2276Character recognition characterised by the type of writing of cursive writing using stroke segmentation with probabilistic networks, e.g. hidden Markov models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/268Lexical context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Character Discrimination (AREA)
  • Preparation Of Clay, And Manufacture Of Mixtures Containing Clay Or Cement (AREA)

Abstract

Se provee un metodo y dispositivo para el reconocimiento de caracteres en un ingreso de datos con manuscritos que representan una serie de caracteres de ingreso; se determina una sub-serie de caracteres que precede a un caracter no reconocido en la serie de caracteres de ingreso; se utiliza el reconocimiento de manuscritos para proveer uno o mas caracteres candidatos para el caracter reconocido; entonces se selecciona uno del uno o mas caracteres candidato; el caracter candidato seleccionado, es aquel que mas probablemente sera un reconocimiento correcto del caracter no reconocido con base en la sub-serie del caracter determinado.

Description

El reconocimiento de manuscritos también debe tomar en consideración la información con respecto al contexto en el cual ocurren los caracteres. La solicitud de Patente de E.U.A. con número de publicación 2004/0017946 describe un método y sistema de ingreso de caracteres manuscritos en Chino que incluye una lista de los caracteres en Chino probables, la cual se basa en el ingreso de golpes clave. A medida que se ingresan más golpes clave, la lista de caracteres de Chino es ajustada y cuando el carácter Chico deseado aparece en la lista, el usuario puede elegir el carácter por medio de un movimiento de selección, tal como el toque de un ratón o estilete o dedo. La Patente Europea EP 0 686 291 describe un método para el reconocimiento de manuscritos, el cual utiliza un diccionario para reconocer un ingreso de palabra manuscrita. Los caracteres candidatos son identificados para cada uno de los caracteres de ingreso de palabras manuscritas y las combinaciones de los caracteres candidato son comparadas con los ingresos del diccionario para proveer palabras candidato que pueden representar el ingreso. Adicionalmente, una serie de caracteres más probable es identificada como una combinación de los caracteres candidato que tiene la probabilidad combinada más alta de ser correctos sin tomar en cuenta el diccionario. Una lista es provista comprendiendo las palabras candidato y la serie de caracteres más probables si ésta no es una de las palabras candidato.
El reconocimiento de palabras por medio de la combinación de caracteres candidato diferentes requiere una gran cantidad de procesamiento y un diccionario muy grande. Por lo tanto, existe la necesidad del reconocimiento de manuscritos, la cual modere estas desventajas mientras que aún mantiene una precisión de reconocimiento buena.
BREVE DESCRIPCION DE LA INVENCION Se provee un método para reconocimiento de caracteres en un ingreso de manuscritos que representa un ingreso de una serie de caracteres. De acuerdo con el método, se determina una sub-serie del carácter que precede a un carácter no reconocido en el ingreso de una serie de caracteres. El reconocimiento de manuscritos se utiliza para proveer uno o más caracteres candidato para el carácter no reconocido. Uno del uno o más caracteres candidato son entonces seleccionados. El carácter candidato seleccionado es uno, el cual más probablemente será un reconocimiento correcto del carácter no reconocido con base en la sub-serie del carácter determinado. Por consiguiente, de acuerdo con el método, los caracteres son reconocidos uno a la vez. El reconocimiento de un carácter se basa en el reconocimiento de manuscritos para proveer los caracteres candidato en una sub-serie de carácter ya reconocido que precede al carácter a ser reconocido.
Limitando el reconocimiento a un carácter a la vez, es decir, sin tomar en cuenta las combinaciones diferentes de caracteres candidato de más de un carácter a la vez, la cantidad de procesamiento es reducida. Al mismo tiempo, se logra la precisión tomando en consideración la sub-serie de carácter determinado que precede al carácter no reconocido. Una forma de utilizar la sub-serie de carácter determinado para seleccionar uno del uno o más caracteres candidato es incluir adicionalmente el uso de series de caracteres almacenadas. Una o más de las series de caracteres candidato puede entonces ser identificadas entre las series de caracteres almacenadas, en donde las series de carácter candidato comprenden cada una, una sub-serie de caracteres inicial idéntica a la sub-serie de carácter determinado. La selección se puede basar en la una o más series de caracteres candidato. La selección puede basarse más específicamente en el siguiente carácter que sigue a la sub-serie de carácter inicial de cada una de la una o más series de caracteres candidato. El método puede ser realizado para un carácter único, utilizando solamente otros métodos para reconocimiento de manuscritos para otros caracteres de una serie de caracteres. El método también puede ser realizado en forma secuencial para un carácter a la vez para una serie de caracteres. Se provee un dispositivo para el reconocimiento de caracteres en un ingreso de manuscritos que representa un ingreso de serie de caracteres. En el dispositivo está dispuesto un procesador para determinar una sub-serie de caracteres que precede a un carácter no reconocido en la ingreso de serie de caracteres. El procesador está dispuesto adicionalmente para utilizar reconocimiento de manuscritos para proveer uno o más caracteres candidato para el carácter no reconocido. El procesador también está dispuesto para seleccionar uno del uno o más caracteres candidato, en donde el carácter candidato seleccionado es uno, el cual es el que más probablemente será un reconocimiento correcto del carácter no reconocido con base en la sub-serie de carácter determinado BREVE DESCRIPCION DE LOS DIBUJOS A continuación, la presente invención es ilustrada por medio de ejemplos y sin limitación, haciendo referencia a los dibujos que la acompañan, en donde: La Figura 1 , muestra un diagrama de bloque esquemático de un dispositivo en el cual se ¡mplementa una modalidad de un dispositivo de acuerdo con la presente invención; La Figura 2, muestra un diagrama de flujo de una modalidad de un método de acuerdo con la presente invención; y Las Figuras 3A a 3C, ilustran el reconocimiento de una palabra manuscrita de acuerdo con la presente invención.
DESCRIPCION DETALLADA DE LA INVENCION La Figura 1 , muestra un diagrama de bloque esquemático de un dispositivo 100, en el cual se implemento una modalidad de un dispositivo de acuerdo con la presente invención. El dispositivo 100 puede, por ejemplo, puede ser un dispositivo portátil, tal como un teléfono móvil, un asistente digital personal, etc., o cualquier dispositivo en donde la ingreso de manuscritos es o debe facilitarse. El dispositivo 100, incluye medios de ingreso de manuscritos 110. Se debe observar que cualquier forma y los medios para permitir un ingreso de manuscritos se pueden utilizar de acuerdo con la presente invención, tal como una pantalla sensible a la presión sobre la cual, el usuario pueda colocar un ingreso de manuscritos por medio de un estilete. Dichas formas y medios son bien conocidos en la materia y por lo tanto, no se proveer descripción adicional en la presente. El dispositivo 100 incluye adicionalmente un procesador 120, el cual está conectado en forma operativa al medio de ingreso de manuscritos 110. Los dispositivos en los cuales se puede implementar la presente invención, generalmente comprenden uno o más procesadores u otros dispositivos para el procesamiento digital. Adicionalmente, los dispositivos en los cuales se pueden implementar las modalidades de la presente invención generalmente comprenden una plataforma para implementar métodos de cómputo diferentes a ser ejecutados por los dispositivos existentes para procesamiento digital. Por lo tanto, uno de los procesadores existentes, preferentemente es, aunque no de manera necesaria, utilizado como el procesador 120 y los pasos de las modalidades del método de acuerdo con la presente invención a ser realizados por el procesador 120, son implementados fácilmente por un experto en la materia debido al conocimiento de los dispositivos de la técnica anterior y la enseñanzas de la presente. El dispositivo 100, comprende adicionalmente una memoria 130 para almacenar series de caracteres. La memoria está conectada en forma operativa al procesador 120, los dispositivos en los cuales puede ser implementada la presente invención, comprenden de manera general una o más memorias u otros dispositivos para almacenamiento digital. Adicionalmente, algunos dispositivos incluso pueden incluir un diccionario. Por lo tanto, dicha memoria existente es, preferentemente aunque no de manera necesaria, utilizada como la memoria 130. Los pasos del método de la presente invención para que el procesador tenga acceso a la memoria con respecto a las series de caracteres almacenadas, son implementados fácilmente por una persona experta debido al conocimiento de los dispositivos de la técnica anterior y las enseñanzas en la presente. El dispositivo en el cual será implementada una modalidad de la presente invención no debe comprender dicho dispositivo, plataforma, memoria de procesamiento, etc., éstos ya están incluidos como es bien sabido en la materia.
Aunque el dispositivo 100 descrito anteriormente se refiere al ingreso de series de caracteres manuscritos directamente a un dispositivo electrónico por medio de una pantalla sensible a la presión y los similares, se debe observar que las modalidades de la presente invención también se puede utilizar en otras aplicaciones en donde se utiliza el reconocimiento de caracteres, tales como en métodos de reconocimiento de caracteres ópticos para mensajes manuscritos en papel y los similares. La Figura 2, muestra un diagrama de flujo de una modalidad de un método de acuerdo con la presente invención. Un ingreso de datos de manuscritos se ha presentado a un dispositivo electrónico, por ejemplo, a un dispositivo del tipo ilustrado en la Figura 1 y descrito haciendo referencia a ésta. El ingreso de datos de manuscritos representa un ingreso de serie de caracteres, es decir, una serie de letras del alfabeto, números, signos, etc., o una combinación de los mismos. Los caracteres del ingreso de datos de manuscritos precedente (es decir, de hasta y que incluye sólo el carácter anterior) un carácter a ser reconocido (el carácter no reconocido a continuación), ha sido reconocido por medio de un método de reconocimiento de manuscritos que incluye, aunque no está limitado al método de acuerdo con la presente invención. En un paso 210, una sub-serie de caracteres de la serie de caracteres de ingreso es determinada. El sub-grupo de caracteres, puede consistir de todos los caracteres precedentes a los caracteres no reconocidos en el ingreso de datos del carácter representados por el ingreso de datos de manuscritos, o éste puede consistir de un sub-grupo de carácter terminal de los caracteres que preceden al carácter no reconocido. Un sub-grupo de carácter terminal de una serie de caracteres es, en este sentido, una serie de caracteres que inicia desde un carácter sucesivo al primer carácter de la serie de caracteres o un último carácter y que termina el último carácter de la serie de caracteres. La determinación de la sub-serie de caracteres a ser utilizada puede realizarse con base en las series de caracteres almacenadas. Las series de caracteres almacenadas incluyen por lo menos un grupo de palabras de ocurrencia frecuente, aunque preferentemente incluyen también frases, y bosquejos de palabras y secuencias de caracteres de frecuencia común en el idioma de interés, tal como "tion", "ly", etc. En algunos casos en donde la serie de caracteres completa que precede al carácter no reconocido en la serie de ingreso de datos de carácter es idéntica a una de las series de caracteres almacenada o una sub-serie inicial de una o más series de caracteres almacenados, la sub-serie de caracteres determinada será la serie de caracteres completa que precede al carácter no reconocido. En otras palabras, siempre que los caracteres reconocidos hasta el momento de un ingreso de serie de caracteres, indica que una frase, palabra o serie de caracteres están presentes entre las series de caracteres almacenados ha sido ingresada, todos los caracteres anteriores son utilizados como la base para reconocer un carácter subsiguiente. Una sub-serie del carácter inicial de una serie de caracteres es, en este sentido, una serie de caracteres que inicia desde el primer carácter de una serie de caracteres y termina antes del último carácter de la serie de caracteres. En otros casos en donde la serie de caracteres completa precede al carácter no reconocido en el ingreso de la serie de caracteres no es idéntica a ninguna de las series de caracteres almacenadas o una sub-serie inicial de la serie de caracteres almacenados, la sub-serie de carácter determinada no será la serie de caracteres completa. En dichos casos, el primer carácter de los caracteres reconocidos hasta el momento en un ingreso de datos de serie del carácter, el cual indica que una frase, palabra o secuencia de caracteres ha sido ingresada, será utilizada como el primer carácter de la sub-serie de caracteres determinada. Más específicamente, cualquier sub-serie de caracteres iniciales del ingreso de datos de la serie de caracteres precedente, el carácter no reconocido será identificado, el cual es idéntico a una de las series de caracteres almacenadas o a una sub-serie de caracteres iniciales de una de las series de caracteres almacenadas o a una sub-serie de caracteres inicial de cualquiera de las series de caracteres almacenadas. La sub-serie de caracteres determinada, iniciará entonces con el carácter sucesivo y termina con el carácter que precede al carácter no reconocido. Cuando se aplica la presente invención a idiomas específicos, la determinación de una sub-serie de caracteres puede ser especificada de manera adicional, por ejemplo, con el objeto de reducir la complejidad de cómputo. En una alternativa, permitir al método que tome en cuenta todos los caracteres precedentes cuando se reconoce un carácter no reconocido, la determinación puede ser especificada para tomar en cuenta únicamente los caracteres anteriores de una palabra a la cual pertenece el carácter no reconocido. En dicha alternativa, la determinación de la sub-serie de caracteres incluye la palabra de identificación que separa los caracteres o indicaciones, tales como los caracteres de espacio. Los caracteres anteriores de la palabra a la cual pertenece del carácter no reconocido son entonces identificados fácilmente a medida que los caracteres del ingreso de serie de caracteres siguen por lo menos a un carácter de espacio u otras indicaciones de separación antes del carácter no reconocido. Si la palabra es la primera palabra en el ingreso de datos de la serie de caracteres después de todos los caracteres precedentes al carácter no reconocido que será identificado como el sub-grupo de caracteres. Otras alternativas para determinar que las sub-series son posibles, tal como la determinación de una sub-serie que consiste de los caracteres anteriores de una palabra a la cual pertenece el carácter no reconocido y los caracteres de las palabras completas que preceden al carácter no reconocido. Las palabras son identificadas fácilmente por medio de los caracteres de separación de palabra o las indicaciones, tales como los caracteres de espacio. Después de determinar la sub-serie de caracteres en el paso 210, una o más series de caracteres candidatos son identificadas en el paso 220. Las series de caracteres candidato son identificadas entre las series de caracteres almacenadas como cualquier serie de caracteres almacenada que comprende una sub-serie de carácter inicial idéntica a la sub-serie de caracteres determinadas. Cualesquiera métodos para hacer coincidir las series de caracteres con las series de caracteres almacenadas, y los medios para implementar dichos métodos se pueden utilizar incluyendo aquellos bien conocidos en la materia. Se debe observar que aunque el uso de búsquedas entre la serie de caracteres almacenados ha sido descrito anteriormente, se puede utilizar cualquier otra forma de predecir un carácter siguiente con base en una serie de caracteres determinada, tal como la búsqueda entre las probabilidades almacenadas de la probabilidad para un carácter determinado que sigue a una serie de caracteres determinada. En el paso 230, se provee uno o más caracteres candidato para un carácter no reconocido. Los caracteres candidato son provistos por medio de reconocimiento de manuscritos. Cualquier tipo de reconocimiento de manuscritos puede utilizarse para proveer los caracteres candidato, tales como el reconocimiento de manuscritos conocido en la materia. Finalmente, en el paso 240 uno del uno o más caracteres candidato es seleccionado, el cual será más probablemente un reconocimiento correcto del carácter no reconocido. La probabilidad de un carácter candidato se basa en un siguiente carácter que sigue a la sub-serie del carácter inicial de cada uno del uno o más series de caracteres candidato.
En la alternativa para utilizar el siguiente carácter que sigue a la sub-serie de carácter inicial de cada una de la una o más series de carácter candidato, se puede utilizar cualquier método para proveer probabilidades de que un carácter determinado seguirá a una serie de caracteres determinada. Se deberá observar que incluso si la modalidad de la presente invención descrita anteriormente haciendo referencia a la Figura 2 es aplicada para un carácter único debido al hecho de que los caracteres precedentes han sido reconocidos, el método puede ser utilizado en forma secuencial para reconocer todos los caracteres, uno a la vez, con base en los caracteres reconocidos con anterioridad. En este caso, todos los pasos para determinar el carácter del sub-serie no tienen que ser repetidos para cada carácter, aunque la información de la determinación de un sub-serie de caracteres para el carácter anterior se puede utilizar en la determinación de la sub-serie de caracteres relevante para que el carácter actual sea reconocido. Esto será más evidente a partir de la descripción que se encuentra a continuación al hacer referencia a las Figuras 3A a 3C. Las Figuras 3A-3C, ilustran el reconocimiento de una palabra manuscrita de acuerdo con la presente invención. Los cuadros 310a-c incluyen el ingreso de datos de la palabra manuscrita, los cuadros 320a-c incluyen los caracteres candidatos para los caracteres de manuscritos de los cuadros 310a-c, y los cuadros 330a-c incluyen las series candidato en orden alfabético identificados entre las series de caracteres almacenadas.
Aún si en los siguientes caracteres del ingreso de datos en manuscritos son reconocidos uno a la vez a medida que son ingresados al dispositivo, el reconocimiento puede ser también realizado en forma secuencial en el momento después de que todos los caracteres han sido ingresados. En la Figura 3A, un carácter no reconocido en manuscrito ha sido ingresado como se indicó en el cuadro 310a, y los únicos caracteres candidatos provistos por medio de reconocimiento de manuscritos es "t" como está indicado en el cuadro 320a. Por lo tanto, el carácter "t" es seleccionado como el reconocimiento más probable del carácter de manuscritos en el cuadro 310a. En la Figura 3B, un segundo carácter no reconocido de manuscrito ha sido ingresado como se indicó en el cuadro 310B. Tanto el carácter "h" como el carácter "n" son provistos como caracteres candidato en el cuadro 320b por medio del reconocimiento de manuscritos. La sub-serie de carácter determinada es "t" en este caso. Con base en la sub-serie de caracteres determinados, un número de series de caracteres candidato son identificadas en el cuadro 330b, tal como "than", "that", "the", ... , "title" y "to". Cualquier serie de carácter candidato que empieza con "th" podría haber aparecido entre "title" y "to" debido a que las series de caracteres candidato aparecen en orden alfabético. Ya que no existen series de carácter candidato que tiene una "n" como el siguiente carácter después de la sub-serie "t" entre las series de carácter candidato y por lo menos tres series de carácter candidato que tienen una "h" como el siguiente carácter después de que la sub-serie "t" entre las series de carácter candidato, "h" es seleccionada como el reconocimiento más probable del segundo carácter en manuscritos en el cuadro 310b. En la Figura 3C, un tercer carácter no reconocido de manuscritos ha sido ingresado como se indicó en el cuadro 310c. Tanto el carácter "e" como el carácter ?" son provistos como caracteres candidato en el cuadro 320c por medio del reconocimiento de manuscrito. La sub-serie de caracteres determinada es "th" en este caso. Con base en la sub-serie de carácter determinada, un número de series de carácter candidato son identificadas en el cuadro 330c, tal como "th", "theatre", "thett", "this", y "thorn". Cualquier serie de carácter candidato que empieza con "thl" podría haber aparecedlo entre "this" y "thorn" a medida que las series de caracteres candidato aparecen en orden alfabético. Ya que no existen series de carácter candidato que tienen una "I" como un siguiente carácter después de que la sub-serie "th" entre las series de carácter candidato y por lo menos tres series de carácter candidato tienen una "e" como el siguiente carácter después de que las series de caracteres "th" entre las series de carácter candidato, "e" es seleccionado como el reconocimiento más probable del carácter de manuscritos en el cuadro 310c. En el ejemplo descrito haciendo referencia a la Figura 3A-3C, la serie de caracteres determinada es siempre la corriente de carácter completa que precede al carácter no reconocido, debido a que las series de caracteres siempre son idénticas a una de las series de caracteres almacenadas o a una sub-serie de carácter inicial de la una o más series de caracteres almacenadas. Si la palabra en manuscritos en su lugar haber sido "salsa" esta palabra o cualquier palabra que tiene "sais" como la sub-serie de caracteres inicial no está entre las series de caracteres almacenadas, mientras que fue la palabra "sale", la que se puede utilizar el siguiente método. Hasta que e incluyendo la segunda "s" como el carácter no reconocido, la serie de caracteres candidatos será identificada y la selección de uno de la serie de uno o más caracteres candidatos se basará en el reconocimiento de manuscritos. De manera alternativa, se pueden utilizar otros métodos, en donde la selección también se basa en el carácter único anterior en esta situación. Para el carácter "a" como el carácter no reconocido, "sal" es idéntico a la sub-serie de caracteres iniciales "sal" de la serie de caracteres almacenadas "sale", y es junto con el carácter siguiente "s" que no es idéntico a cualquiera de las series de caracteres almacenados o a una sub-serie de caracteres inicial de cualquiera de las series de caracteres almacenadas. La sub-serie de caracteres determinada de cualquiera de las series de caracteres almacenadas. La sub-serie de caracteres determinada iniciará entonces con el carácter siguiente "s" y terminará con el carácter precedente al carácter no reconocido, el cual, en este caso es "s" también. Por ejemplo, los caracteres candidato en este caso, han sido "a" y "d" del reconocimiento de manuscritos, un número de series de caracteres candidato serán identificadas teniendo "sa" como la sub-serie de caracteres iniciales, tales como "sale", aunque probablemente ninguno que tiene "sd" como la sub-serie de carácter inicial. Por lo tanto, el carácter "a" podría ser seleccionado como el reconocimiento más probable del carácter manuscrito. Se puede utilizar un método similar para palabras tales como "schoolboy" en la búsqueda, en donde la palabra "schoolboy" no es una de las series de caracteres almacenadas, en donde "schooi" y "boy" es otra serie de caracteres que tienen una sub-serie de caracteres iniciales que empieza con "schooi" y "boy" Aunque los ejemplos anteriores son proporcionados para el idioma inglés, la presente invención será fácilmente evidente para una persona experta en la materia que aplique la presente invención al reconocimiento de manuscritos en otros idiomas que utilizan el alfabeto en Latín, el alfabeto cirílico, etc. La presente invención también puede ser aplicada para reconocimiento de manuscritos para idiomas, tales como Chino, en donde los caracteres representan una sílaba y cada palabra consiste de uno o más caracteres. En el Chino escrito, las palabras pueden ser un carácter único o pueden ser dos o más caracteres. Por ejemplo, la palabra para "Beijing" tiene dos caracteres, uno que representa a cada sílaba de la palabra. Las frases comunes pueden estar compuestas de varios caracteres. Los diccionarios relacionan caracteres, palabras y frases. Las versiones de estos diccionarios pueden ser almacenadas en forma electrónica en computadoras y otros dispositivos móviles. El texto en Chino puede ser ingresado en una computadora o dispositivo móvil dibujando cada carácter en una superficie sensible al tacto. Algunos caracteres son distinguidos únicamente por diferencias pequeñas y en algunos casos puede ser difícil para el sistema determinar cuál de los dos o más caracteres similares es el pretendido. La invención propuesta puede mejorar el reconocimiento de los caracteres en Chino ambiguos en una forma similar a aquella descrita para otros idiomas. Cuando el sistema no puede distinguir un carácter, éste pude identificar una sub-serie que consiste de uno o todos los caracteres que han sido ingresados que preceden al carácter no reconocido actual. Este puede utilizar la información almacenada sobre las palabras y frases comunes para determinar los candidatos probables que podrían seguir a la sub-serie. Esta puede utilizar ese resultado para seleccionar entre los candidatos propuestos por el sistema de reconocimiento de manuscritos. Como el texto escrito en idiomas tales como Chino, no indican separación entre las palabras por medio de caracteres de espacio como se realiza en el texto escrito en idiomas como el Inglés, la determinación de una sub-serie de caracteres en el reconocimiento de caracteres de espacio únicamente tiene el objeto de identificar la separación de palabras. En su lugar, el uso de caracteres anteriores y la comparación con la información almacenada sobre las palabras y frases comunes como se describió anteriormente haciendo referencia a la Figura 2, pueden ser aplicadas para determinar una sub-serie de caracteres. La determinación de una sub-serie de caracteres también puede ser iterativa, por ejemplo, una sub-serie que consiste de un carácter se utiliza primero, entonces una sub-serie que consiste de dos caracteres, etc. De manera alternativa, el usuario puede indicar de alguna manera la separación entre las palabras cuando ingresa los caracteres manuscritos, y dicha indicación puede ser utilizada en una forma, la cual es análoga a la forma en que son utilizados los caracteres de espacio discutidos anteriormente haciendo referencia a la Figura 2.

Claims (25)

NOVEDAD DE LA INVENCION REIVINDICACIONES
1.- Un método para el reconocimiento de caracteres en un ingreso de datos en manuscrito que representa una serie de caracteres de ingreso, caracterizado porque comprende: determinar una sub-serie de caracteres que precede a un carácter no reconocido en la serie de datos de ingreso de carácter; proveer, por medio de reconocimiento en manuscrito, uno o más caracteres candidato para el carácter no reconocido; y seleccionar con base en la sub-serie de carácter determinado uno del uno o más caracteres candidato, los cuales más probablemente serán un reconocimiento correcto del carácter no reconocido.
2. - El método de conformidad con la Reivindicación 1 , caracterizado además porque el carácter candidato es seleccionado, el cual tiene una probabilidad más alta se seguir a la sub-serie de carácter.
3. - El método de conformidad con la Reivindicación 1 , caracterizado además porque comprende adicionalmente: identificar, entre las series de caracteres almacenadas, una o más series de carácter candidato que comprenden una sub-serie de carácter inicial idéntica a la sub-serie de carácter determinada, en donde la selección se basa en la una o más series de carácter candidato.
4.- El método de conformidad con la Reivindicación 3, caracterizado además porque la selección se basa en el siguiente carácter que sigue a la sub-serie de carácter inicial de cada una de la una o más series de carácter candidato.
5.- El método de conformidad con la Reivindicación 1 , caracterizado además porque la determinación de una sub-serie de caracteres comprende: la determinación de una sub-serie de caracteres que consiste en todos los caracteres de la serie de caracteres de ingreso que preceden al carácter no reconocido.
6.- El método de conformidad con la Reivindicación 1 , caracterizado además porque la determinación de una sub-serie de caracteres comprende: determinar una sub-serie de carácter que consiste de una sub-serie de carácter terminal de la serie de carácter de ingreso que precede al carácter no reconocido.
7.- El método de conformidad con la Reivindicación 1 , caracterizado además porque la determinación de una sub-serie de carácter comprende: identificar los caracteres de espacio en la serie de caracteres de ingreso; y determinar una sub-serie de carácter que consiste de una sub-serie de carácter terminal de la serie de carácter de ingreso que precede al carácter no reconocido y que sigue a un carácter de espacio identificado.
8.- El método de conformidad con la Reivindicación 7, caracterizado además porque una sub-serie de carácter es determinada consistiendo de una sub-serie de carácter terminal de la serie de carácter de ingreso que precede al carácter no reconocido y que sigue a un último carácter de espacio identificado antes del carácter no reconocido.
9.- El método de conformidad con la Reivindicación 3, caracterizado además porque la determinación de una sub-serie de carácter comprende: identificar cualquier sub-serie de carácter inicial de la serie de carácter de ingreso que precede al carácter no reconocido, la cual es idéntica a una de las series de caracteres almacenados o a una sub-serie de caracteres inicial de una o más de las series de caracteres almacenadas, y la cual, junto con un carácter siguiente, no es idéntica a cualquiera de las series de caracteres almacenadas o a una sub-serie de caracteres inicial de cualquiera de las series de caracteres almacenadas; y determinar una sub-serie de carácter que consiste de una sub-serie de carácter terminal de la serie de caracteres de ingreso que precede al carácter no reconocido y que sigue a cualquier sub-serie de carácter inicial identificada.
10.- El método de conformidad con la Reivindicación 3, caracterizado además porque la determinación de una sub-serie de caracteres comprende: identificar caracteres de espacio en la serie de caracteres de ingreso; identificar cualquier sub-serie de carácter inicial de palabra de la serie de caracteres de ingreso que preceden al carácter no reconocido y que siguen a un último carácter de espacio identificado antes del carácter no reconocido, el cual es idéntico a una de las series de caracteres almacenadas o a una sub-serie del carácter inicial de la uno o más de las series de caracteres almacenadas, y las cuales, junto con un carácter siguiente no son idénticas a ninguna de las series de caracteres almacenadas o a una sub-serie de caracteres iniciales de cualquiera de las series de caracteres almacenadas; y determinar que una sub-serie de caracteres consiste de una sub-serie de carácter terminal de la serie de caracteres de ingreso que preceden al carácter no reconocido y que siguen a cualquier sub-serie de carácter inicial de palabra identificado.
11. - El método de conformidad con la Reivindicación 3, caracterizado además porque las series de caracteres almacenadas son elegidas del siguiente tipo de series de caracteres: frases, palabras, bosquejos de palabras y secuencias de caracteres utilizadas frecuentemente.
12. - El método de conformidad con la Reivindicación 1 , caracterizado además porque comprende adicionalmente: para cada carácter en la secuencia de la serie de carácter de ingreso que precede al carácter no reconocido: proveer, por medio de reconocimiento de manuscritos, uno o más caracteres candidato para el carácter; y seleccionar, con base en los caracteres que preceden al carácter en la serie de caracteres de ingreso, uno del uno o más caracteres candidato, los cuales más probablemente serán un reconocimiento correcto del carácter.
13. - Un dispositivo para el reconocimiento de caracteres en un ingreso de datos de manuscritos que representa una serie de caracteres de ingreso, caracterizado porque comprende: un procesador dispuesto para: determinar una sub-serie de caracteres que preceden a un carácter no reconocido en la serie de caracteres de ingreso; proveer por medio de reconocimiento de manuscritos, uno o más caracteres candidato para el carácter no reconocido; y seleccionar con base en la sub-serie de carácter determinada, uno del uno o más caracteres candidato, el cual más probablemente será un reconocimiento correcto del carácter no reconocido.
14.- El dispositivo de conformidad con la Reivindicación 13, caracterizado además porque el procesador está dispuesto para seleccionar el carácter candidato, el cual tiene la probabilidad más alta de seguir a la sub-serie de caracteres.
15. - El dispositivo de conformidad con la Reivindicación 13, caracterizado además porque comprende adicionalmente una memoria para almacenar las series de caracteres, y en donde el procesador está dispuesto adicionalmente para: identificar, entre las series de caracteres almacenadas, una o más series de caracteres candidatos que comprenden una sub-serie de carácter idéntica a la sub-serie de carácter determinada; y seleccionar, con base en la una o más series de carácter candidato, uno del uno o más caracteres candidatos, los cual más probablemente serán un reconocimiento correcto del carácter no reconocido.
16. - El dispositivo de conformidad con la Reivindicación 15, caracterizado además porque el procesador está dispuesto para seleccionar, con base en un siguiente carácter que sigue a la sub-serie de carácter inicial de cada una de la una o más series de caracteres candidato, uno del uno o más caracteres candidato, los cuales más probablemente serán un reconocimiento correcto del carácter no reconocido.
17. - El dispositivo de conformidad con la Reivindicación 13, caracterizado además porque el procesador está dispuesto adicionalmente para: identificar caracteres de espacio en la serie de caracteres de ingreso, y determinar una sub-serie de caracteres que consiste de una sub-serie de caracteres terminales de la serie de caracteres de ingreso que preceden al carácter no reconocido y que siguen a un último carácter de espacio identificado antes del carácter no reconocido.
18. - El dispositivo de conformidad con la Reivindicación 13, caracterizado además porque las series de caracteres almacenadas son elegidas del siguiente tipo de series de caracteres: frases, palabras, bosquejos de palabras y secuencias de caracteres utilizadas frecuentemente.
19. - El dispositivo de conformidad con la Reivindicación 13, caracterizado además porque el dispositivo es una terminal móvil.
20. - Un método para el reconocimiento de caracteres en un ingreso de datos de manuscritos que representan una serie de caracteres de ingreso, caracterizado porque comprende: determinar una sub-serie de caracteres que preceden a un carácter no reconocido en la serie de caracteres de ingreso; identificar entre las series de caracteres almacenados, una o más series de caracteres candidatos que comprenden una sub-serie de caracteres inicial idéntica a la sub-serie de caracteres determinados, proveer, por medio de un reconocimiento de manuscritos, uno o más caracteres candidatos para el carácter no reconocido, y seleccionar, con base en un siguiente carácter que sigue a la sub-serie de carácter inicial de cada una de la una o más series de carácter candidato, uno del uno o más caracteres candidato, el cual más probablemente será un reconocimiento correcto del carácter no reconocido.
21. - El método de conformidad con la Reivindicación 20, caracterizado además porque la determinación de una sub-serie de carácter comprende: identificar los caracteres de espacio en la serie de caracteres de ingreso; y determinar una sub-serie de carácter que consiste de una sub-serie de carácter terminal de la serie de carácter de ingreso que precede al carácter no reconocido y que sigue a un carácter de espacio último identificado antes del carácter no reconocido.
22. - El método de conformidad con la Reivindicación 20, caracterizado además porque la determinación de una sub-serie de caracteres comprende: identificar los caracteres de espacio en la serie de caracteres de ingreso; identificar cualquier sub-serie de carácter inicial de palabra de la serie de carácter de ingreso que precede al carácter no reconocido y que sigue a un carácter de espacio último identificado antes del carácter no reconocido, el cual es idéntico a una de la serie de caracteres almacenados o a una sub-serie de carácter inicial de una o más de las series de caracteres almacenadas, y las cuales, junto con un carácter que sigue, no es idéntica a cualquiera de las series de caracteres almacenadas; y determinar una sub-serie de caracteres que consiste de una sub-serie de carácter terminal de la serie de carácter de ingreso que precede al carácter no reconocido y que sigue a cualquier sub-serie de carácter inicial de palabra identificada.
23.- Una terminal móvil, caracterizada porque comprende: una interfase para recuperar un ingreso de datos de manuscritos que representan una serie de caracteres de ingreso; una memoria para almacenar las series de caracteres que ocurren con frecuencia; un procesador dispuesto para: determinar una sub-serie de caracteres que precede a un carácter no reconocido en la serie de caracteres de ingreso; identificar, entre las series de caracteres almacenadas, una o más series de caracteres candidato que comprenden una sub-serie de caracteres inicial idéntica a la sub-serie de carácter determinada, proveer, por medio de un reconocimiento de manuscritos, uno o más caracteres candidato para el carácter no reconocido, y seleccionar, con base en un siguiente carácter que sigue a la sub-serie de carácter inicial de cada una de la una o más series de caracteres candidato, uno del uno o más caracteres candidato, los cuales más probablemente serán un reconocimiento correcto del carácter no reconocido.
24.- La terminal móvil de conformidad con la Reivindicación 23, caracterizada además porque el procesador adicionalmente está dispuesto para: identificar caracteres de espacio en la serie de caracteres de ingreso, y determinar una sub-serie de caracteres que consiste de una sub-serie de caracteres terminales de la serie de carácter de ingreso que preceden al carácter no reconocido y que siguen a un carácter de espacio último identificado antes del carácter no reconocido.
25.- La terminal móvil de conformidad con la Reivindicación 23, caracterizada además porque el procesador está dispuesto para determinar una sub-serie de carácter: identificando los caracteres de espacio en la serie de caracteres de ingreso; identificar cualquier sub-serie de carácter inicial de palabra de la serie de caracteres de ingreso que preceden al carácter no reconocido y que siguen a un carácter de espacio último identificado antes del carácter no reconocido, los cuales son idénticos a una de las series de caracteres almacenada o a un sub-serie de carácter inicial de la una o más series de caracteres almacenadas, y las cuales junto con un carácter que sigue no es idéntica a ninguna de las series de caracteres almacenadas o a una sub-serie de caracteres inicial de cualquiera de las series de caracteres almacenadas; y determinar una sub-serie de caracteres que consiste de una sub-serie de carácter terminal de la serie de carácter de ingreso que precede al carácter no reconocido y que siguen a cualquier sub-serie de carácter inicial de palabra identificado.
MXPA06012760A 2004-05-04 2005-04-26 Aparato y metodo para reconocimiento de manuscritos. MXPA06012760A (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/838,388 US8411958B2 (en) 2004-05-04 2004-05-04 Apparatus and method for handwriting recognition
PCT/IB2005/001116 WO2005106771A1 (en) 2004-05-04 2005-04-26 Apparatus and method for handwriting recognition

Publications (1)

Publication Number Publication Date
MXPA06012760A true MXPA06012760A (es) 2007-01-16

Family

ID=34967445

Family Applications (1)

Application Number Title Priority Date Filing Date
MXPA06012760A MXPA06012760A (es) 2004-05-04 2005-04-26 Aparato y metodo para reconocimiento de manuscritos.

Country Status (9)

Country Link
US (1) US8411958B2 (es)
EP (1) EP1743275B1 (es)
KR (1) KR100858545B1 (es)
CN (1) CN100416593C (es)
AT (1) ATE454676T1 (es)
DE (1) DE602005018764D1 (es)
HK (1) HK1100586A1 (es)
MX (1) MXPA06012760A (es)
WO (1) WO2005106771A1 (es)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7461059B2 (en) 2005-02-23 2008-12-02 Microsoft Corporation Dynamically updated search results based upon continuously-evolving search query that is based at least in part upon phrase suggestion, search engine uses previous result sets performing additional search tasks
US7734094B2 (en) * 2006-06-28 2010-06-08 Microsoft Corporation Techniques for filtering handwriting recognition results
US8438489B2 (en) * 2008-01-24 2013-05-07 Paulo Barthelmess System and method for document markup
US8229225B2 (en) * 2008-05-06 2012-07-24 Wu Yingchao Candidate selection method for handwriting input
US8285049B2 (en) * 2008-06-06 2012-10-09 Microsoft Corporation Corrections for recognizers
KR101238292B1 (ko) * 2008-09-22 2013-03-04 글로리 가부시키가이샤 지엽류관리장치, 지엽류관리방법, 및 지엽류관리프로그램을 기록한 컴퓨터로 판독 가능한 기록매체
CN102549529A (zh) * 2009-07-10 2012-07-04 皇家飞利浦电子股份有限公司 文本项目的用户友好的输入
US9898186B2 (en) 2012-07-13 2018-02-20 Samsung Electronics Co., Ltd. Portable terminal using touch pen and handwriting input method using the same
US10254952B2 (en) * 2012-09-26 2019-04-09 Google Llc Progress display of handwriting input
JP5813780B2 (ja) 2013-08-02 2015-11-17 株式会社東芝 電子機器、方法及びプログラム
US9201592B2 (en) 2013-08-09 2015-12-01 Blackberry Limited Methods and devices for providing intelligent predictive input for handwritten text
JP2015094977A (ja) 2013-11-08 2015-05-18 株式会社東芝 電子機器及び方法
JP2015114976A (ja) * 2013-12-13 2015-06-22 株式会社東芝 電子機器及び方法
JP6342194B2 (ja) * 2014-03-28 2018-06-13 株式会社東芝 電子機器、方法及びプログラム
US9916300B2 (en) * 2015-11-16 2018-03-13 Lenovo (Singapore) Pte. Ltd. Updating hint list based on number of strokes
KR20200103236A (ko) * 2019-02-22 2020-09-02 삼성전자주식회사 수기에 기반한 입력을 디스플레이하기 위한 방법 및 장치

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5347295A (en) 1990-10-31 1994-09-13 Go Corporation Control of a computer through a position-sensed stylus
US5151950A (en) 1990-10-31 1992-09-29 Go Corporation Method for recognizing handwritten characters using shape and context analysis
US5343537A (en) * 1991-10-31 1994-08-30 International Business Machines Corporation Statistical mixture approach to automatic handwriting recognition
JP3560289B2 (ja) 1993-12-01 2004-09-02 モトローラ・インコーポレイテッド 統合辞書ベースで、ありそうな文字列の手書き認識方法
JP2741575B2 (ja) 1994-09-22 1998-04-22 日本アイ・ビー・エム株式会社 文字認識文字補完方法及びコンピュータ・システム
CA2247359A1 (en) 1996-03-08 1997-09-12 Farzad Ehsani Method and device for handwritten character recognition
US6970599B2 (en) 2002-07-25 2005-11-29 America Online, Inc. Chinese character handwriting recognition system
CN1372186A (zh) * 2001-02-23 2002-10-02 无敌科技(西安)有限公司 具智能联想中文输入方法
US7158678B2 (en) * 2001-07-19 2007-01-02 Motorola, Inc. Text input method for personal digital assistants and the like
US7106905B2 (en) 2002-08-23 2006-09-12 Hewlett-Packard Development Company, L.P. Systems and methods for processing text-based electronic documents

Also Published As

Publication number Publication date
DE602005018764D1 (de) 2010-02-25
ATE454676T1 (de) 2010-01-15
EP1743275B1 (en) 2010-01-06
WO2005106771A1 (en) 2005-11-10
CN1950831A (zh) 2007-04-18
KR20070010163A (ko) 2007-01-22
KR100858545B1 (ko) 2008-09-12
US8411958B2 (en) 2013-04-02
US20050249419A1 (en) 2005-11-10
EP1743275A1 (en) 2007-01-17
CN100416593C (zh) 2008-09-03
HK1100586A1 (en) 2007-09-21

Similar Documents

Publication Publication Date Title
MXPA06012760A (es) Aparato y metodo para reconocimiento de manuscritos.
CN107045496B (zh) 语音识别后文本的纠错方法及纠错装置
US8660834B2 (en) User input classification
US8594999B2 (en) Typing candidate generating method for enhancing typing efficiency
JP3141015B2 (ja) 手書き漢字認識方法および装置
EP1564675B1 (en) Apparatus and method for searching for digital ink query
JPH08506444A (ja) 統合辞書ベースで、ありそうな文字列の手書き認識方法
TW200538969A (en) Handwriting and voice input with automatic correction
US20120109633A1 (en) Method and system for diacritizing arabic language text
Chen et al. Integrating natural language processing with image document analysis: what we learned from two real-world applications
Jain et al. BLSTM neural network based word retrieval for Hindi documents
CN109074355A (zh) 用于表意字符分析的方法和系统
Ma et al. A new database for online handwritten Mongolian word recognition
JP3975825B2 (ja) 文字認識誤り訂正方法、装置及びプログラム
CN110457695B (zh) 一种在线文字纠错方法及系统
Mon Spell checker for Myanmar language
JP2014164260A (ja) 情報処理装置およびその方法
JP2001051996A (ja) 形態素解析方法及び装置及び形態素解析プログラムを格納した記憶媒体
JP2006343932A (ja) 情報検索システム及び検索方法
Varol et al. Application of the Near Miss Strategy and Edit Distance to Handle Dirty Data
JP2000036008A (ja) 文字認識装置及び記憶媒体
Huang Word Segmentation and Ambiguity in English and Chinese NLP & IR
JP2006085739A (ja) 文書校正装置およびプログラム記憶媒体
GELBUKH et al. Error Detection and Correction in Toponym Recognition in Cartographic Maps
JPH1091387A (ja) 語意検索システムの単語入力方法

Legal Events

Date Code Title Description
FG Grant or registration