WO2012069483A1 - Procede d'obtention de caracteres au moyen d'un terminal comprenant un ecran tactile, produit programme d'ordinateur, moyen de stockage et terminal correspondants - Google Patents

Procede d'obtention de caracteres au moyen d'un terminal comprenant un ecran tactile, produit programme d'ordinateur, moyen de stockage et terminal correspondants Download PDF

Info

Publication number
WO2012069483A1
WO2012069483A1 PCT/EP2011/070698 EP2011070698W WO2012069483A1 WO 2012069483 A1 WO2012069483 A1 WO 2012069483A1 EP 2011070698 W EP2011070698 W EP 2011070698W WO 2012069483 A1 WO2012069483 A1 WO 2012069483A1
Authority
WO
WIPO (PCT)
Prior art keywords
character
image
touch screen
processed
terminal
Prior art date
Application number
PCT/EP2011/070698
Other languages
English (en)
Inventor
Michel Nizon
Original Assignee
Nomad
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nomad filed Critical Nomad
Publication of WO2012069483A1 publication Critical patent/WO2012069483A1/fr

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • G06F3/04886Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures by partitioning the display area of the touch-screen or the surface of the digitising tablet into independently controllable areas, e.g. virtual keyboards or menus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/142Image acquisition using hand-held instruments; Constructional details of the instruments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • G06V30/1456Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields based on user interactions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Definitions

  • a method of obtaining characters by means of a terminal comprising a touch screen, computer program product, storage means and corresponding terminal.
  • the field of the invention is that of devices (or terminals) comprising a touch screen and a camera (or optical cell). More specifically, the invention relates to a technique for obtaining a character or character string text (non-handwritten) by means of such devices.
  • the invention applies in particular, but not exclusively, to obtaining characters (forming a word or a group of words) by means of a portable device comprising such a touch screen and such a camera, for example, a telephone smart ("smartphone" in English).
  • a touch screen and a camera such as mobile phones, personal digital assistants (PDAs) or even laptops.
  • PDAs personal digital assistants
  • Figure 1 shows an example of a first known ergonomic adjuvant.
  • the ergonomic adjuvant is a selection frame 10 whose positon of a first end 11 and the position of a second end 12 are defined according to the movements of the finger of the user on the touch screen 13.
  • Figure 2 shows an example of a second known ergonomic adjuvant.
  • the ergonomic adjuvant is a selection frame 20 placed in the center of the touch screen 21. The user moves the digital image displayed on the touch screen 21, so as to place the word (or group word) that he wishes to have processed (for example, to obtain translation) in the selection framework 20.
  • OCR Optical Character Recognition
  • the invention in at least one embodiment, is intended in particular to overcome these various disadvantages of the state of the art.
  • an objective is to provide a technique that allows a user to select and obtain easily and easily one or more characters to be processed, without having to manipulate ergonomic adjuvant.
  • At least one particular embodiment of the invention aims to provide such a technique that is ergonomic and limits the manual operations to be performed by the user.
  • At least one particular embodiment of the invention aims to provide such a technique that allows the user to quickly return the character or characters he has selected.
  • Another objective of at least one embodiment of the invention is to provide such a technique that is compatible with all existing mobile terminals including a touch screen and a camera.
  • Another objective of at least one embodiment of the invention is to provide such a technique which is particularly well suited to novices in new technologies, children and people with a hand handicap.
  • Another objective is to provide such a technique that is simple to implement and inexpensive.
  • a method for obtaining at least one character to be processed by means of a terminal comprising a touch screen and a camera, said terminal being placed in a preview mode wherein the touch screen displays in real time an image of an area of interest containing said at least one character to be processed, targeted by the camera.
  • the terminal is such that it performs steps of:
  • Selecting the word to be processed causes the coordinates of the affected screen area to be determined. In other words, the coordinates of the point of contact of the user's finger (or the tip of a stylus) on the touch screen are determined.
  • an automatic screenshot Indeed, it is proposed to condition the obtaining (and in this sense the capture) of the image displayed on the touch screen by the detection of a touch of the touch screen. The image of the area of interest is therefore automatically performed after the actual selection of the word to be processed. The user is released from this task.
  • the invention is based on a completely new and inventive approach to obtaining character. Indeed, and contrary to the techniques of the prior art mentioned above, ergonomic adjuvant is not used to obtain a word from a captured image before the actual selection of the word by the user, but coordinates of a touched point on the touch screen to obtain a word from a captured image after the actual selection of the word by the user.
  • the step of determining a frame window comprises steps of:
  • the step of converting said digital image into a first binary image comprises:
  • the method is such that it comprises the steps of: applying said frame window to said image defined by gray levels, so as to obtain a gray scale image of said at least one character to be treated ;
  • the image of the character (s) obtained by the terminal is returned to the user via the touch screen.
  • the user can control that the character (s) obtained by the terminal correspond to the one or those he has touched (that is to say selected) on the touch screen.
  • the step consisting in determining at least one zone of potential character (s) comprises a step of applying to said first binary image a morphological operation ensuring a dilation, followed by a morphological operation ensuring erosion.
  • the step of obtaining said at least one character to be processed further comprises a step of applying optical character recognition to said binary image of said at least one character to be processed.
  • the terminal comprises a module (or software) optical character recognition.
  • the recognition processing of a text in an image is therefore performed locally on the terminal.
  • the processing is fast (no network latency).
  • the step of obtaining said at least one character to be processed further comprises the steps of:
  • the processing of recognition of a text in a server-side image is deported. This makes it possible to reduce the computing resources used (and therefore the energy consumption) by the terminal. This also allows for additional and heavier server-side processing, for example, noise reduction processing in the image.
  • the terminal After processing the binary image by the server, the terminal receives (and in this sense obtains) the character or characters to be processed.
  • said terminal is a mobile radio terminal.
  • the invention relates to a computer program product which comprises program code instructions for implementing the aforesaid method (in any one of its various embodiments), when said program is running on a computer.
  • the invention in another embodiment, relates to a computer readable storage means, storing a computer program comprising a game. instructions executable by a computer for implementing the aforesaid method (in any one of its various embodiments).
  • the invention in another embodiment, relates to a terminal comprising means for obtaining at least one character to be processed, a touch screen and a camera, said terminal being placed in a preview mode in which the touch screen displays in real time an image of an area of interest containing said at least one character to be processed, targeted by the camera.
  • the means of obtaining are such that they comprise:
  • the terminal comprises means for implementing the steps of the obtaining method as described above, in any one of its various embodiments.
  • Figure 2 described above in relation to the prior art, shows an example of a second known ergonomic adjuvant
  • FIG. 3a illustrates a step of selecting a word by a user of a terminal according to a particular embodiment of the invention
  • FIG. 3b illustrates a step of displaying a selected word according to a particular embodiment
  • FIG. 4 shows an example of a communication network in which the present invention can be implemented according to a particular embodiment
  • FIG. 5 shows an exemplary terminal in which the present invention can be implemented according to a particular embodiment
  • Figure 6 shows the simplified structure of a smartphone according to a particular embodiment of the invention.
  • FIG. 7 presents the main steps of an image processing algorithm implemented by a terminal, according to a particular embodiment of the invention.
  • FIG. 8a illustrates a contact point according to a particular embodiment
  • FIG. 8b illustrates a grayscale digital image obtained at the end of a conversion operation according to a particular embodiment
  • FIG. 8c illustrates a binary image obtained at the end of a thresholding operation according to a particular embodiment
  • FIG. 8d illustrates a binary image obtained at the end of a dilation operation according to a particular embodiment
  • FIG. 8e illustrates a binary image obtained at the end of an erosion operation according to a particular embodiment
  • FIG. 8f illustrates a step of selecting a task according to a particular embodiment of the invention
  • Figure 8g illustrates a frame window according to a particular embodiment
  • FIG. 8h illustrates a digital image in grizzly levels of a selected word according to a particular embodiment.
  • the invention proposes to use a terminal (mobile or not) comprising a touch screen and a camera to obtain a character, a word or a group of words contained or displayed on any type of medium (paper document, screen, sign, . . . ). More specifically, the invention consists in targeting a word using the camera of the terminal and touching the image of this word displayed in real time on the touch screen of the terminal.
  • the terminal according to the invention is a smartphone comprising a touch screen and a camera.
  • any other type of terminal comprising a touch screen and a camera PDA, electronic tablet, etc. can be envisaged.
  • FIG. 4 shows an example of a communication network in which the present invention can be implemented according to a particular embodiment.
  • the communication network 400 comprises a smartphone 41 and a remote server 42.
  • the smartphone 41 communicates with the server 42 via, for example, the Internet network 43.
  • the server 42 comprises an optical character recognition module (no shown) and a lexical database 421, for example, of the WordNet type (free software).
  • Figure 6 shows the simplified structure of the smartphone 41 according to a particular embodiment of the invention.
  • the smartphone 41 comprises a touch screen 61 and a camera 62 connected to a computing module or microcontroller 63 (denoted " ⁇ ").
  • the microcontroller 63 cooperates with a random access memory 64, or RAM, and a read-only memory 65, or ROM.
  • the microcontroller 63 is capable of executing instructions when the smartphone is powered on from the ROM 65. After powering on, the microcontroller 63 is able to execute instructions from the RAM 64 relating to a programming program. computer (possibly downloadable from a network), once these instructions loaded from ROM 65 or external memory (not shown in this figure).
  • Such a computer program if it is executed by the microcontroller 63, causes the execution of all or part of the steps of an image processing algorithm described below in relation with FIG. 7.
  • the smartphone 41 comprises a transmission / reception module 66 in charge of transmitting to and from the server 42 data.
  • the user first positions his smartphone 41 opposite the written document 44 containing the word to be processed 45.
  • the word to be treated is the word "elementum”.
  • the smartphone 41 is placed in a preview mode (or "camera” mode) in which it displays in real time on its touch screen 411 an image targeted by its camera. Then the user touches with his finger (or the tip of a stylus) the word "elementum” displayed on the touch screen 411.
  • the smartphone 41 detects a support on the touch screen 411 and executes an image processing algorithm (detailed below in connection with FIG. 7), so as to obtain an image of the word affected (that is, the selected word) by the user.
  • the general principle of the invention relies on the use of coordinates of a touch screen area touched by a user to determine a frame (also called a frame window) allowing to automatically extract a word from an image taken at the instant at which the touch screen area has been touched by the user.
  • the image of the word to be processed (that is to say the word selected by the user) is then displayed on the touch screen 41 1.
  • the displayed image is a digital image in levels of gray.
  • the image of the word to be processed is displayed in the foreground in an area 46 situated at the top left of the touch screen 41 1.
  • the image of the word to be processed is displayed according to the display parameters configured in such a way that it is easy to distinguish the word "elementum” from the words displayed in the background.
  • icons each corresponding to a toy-learning application around the word "elementum” are displayed at the bottom of the touch screen 411.
  • the icon 471 corresponds to a definition-based application
  • the icon 472 corresponds to a translation-based application
  • the icon 473 corresponds to a text-to-speech application.
  • step E32 the user who wishes to obtain the definition of the word "elementum” presses the icon 471.
  • the smartphone 41 then builds a request comprising a binary image of the word to be processed, then transmits this request to the user. server 42, via the Internet 43.
  • the server 42 uses its optical character recognition module (not shown) to recover the word to be processed present in the received binary image.
  • the server 42 searches for the word "elementum” in the lexical database 421 and retrieves data relating to the definition of the word "elementum”.
  • the server 42 constructs a response comprising the data relating to the definition of the word "elementum".
  • This data is, for example, encapsulated in an XML document.
  • the server 42 transmits this response to the smartphone 41 via the Internet 43.
  • the smartphone 41 receives and processes the response, then renders the definition of the word "elementum” to the user via, for example, the touch screen 411.
  • Figure 7 shows the main steps of an image processing algorithm implemented by the smartphone 41, according to a particular embodiment of the invention.
  • the smartphone 41 determines (step 701) the coordinates associated with the touch screen area touched by the user, in a predefined frame on the screen touch.
  • the coordinates determined correspond to coordinates (x, y) of a point of contact in the reference of the touch screen.
  • the determination of these coordinates is conventional, and is therefore not described in this document.
  • the coordinates of the contact point are then recorded, for example, in the RAM 64 ( Figure 6) of the smartphone.
  • the smartphone controls the capture of the image displayed on the touch screen at the instant at which the touch screen area has been touched by the user.
  • the captured image (digital image) is then recorded, for example, in the RAM 64 ( Figure 6) of the smartphone.
  • Figure 8a illustrates the contact point 801 whose coordinates are determined by the smartphone and the image 800 captured by the smartphone in step 701.
  • step 702 the smartphone transforms the digital image captured in step 701 into a grayscale digital image.
  • the digital image in grayscale is then recorded, for example, in the RAM 64 ( Figure 6) of the smartphone.
  • This conversion step 702 can be performed by conventional techniques. It consists of a simple conversion of a digital color image, generally represented by three matrices in the color space, for example RGB, into a grayscale matrix. This step is necessary for the binarization step which will be detailed below.
  • Step 702 may also optionally be accompanied by a linearization step for the purpose of accentuating the values of black and white.
  • FIG. 8b illustrates the grayscale digital image obtained at the end of step 702.
  • step 703 the smartphone proceeds to a binarization of the grayscale digital image obtained at the end of step 702.
  • the conversion of the digital image into grayscale into a binary image is done by thresholding.
  • the binary image has a value of 0 (corresponding to black) for all the pixels of the grayscale digital image which have a value less than a predetermined local threshold and a value of 1 (corresponding to white) for all the other pixels.
  • the smartphone proceeds to the exhaustive implementation of the Sauvola algorithm.
  • the Sauvola algorithm is well known to those skilled in the art. One can refer to the article by J. Sauvola, M. PietikaKinen entitled "Adaptive document image binarization" published in Pattern Recognition 33 (2), pp. 225-236, 2000.
  • the calculation of the local threshold takes into account the local variance around the point considered. It is therefore certain that the thresholding will be perfectly suited to the affected area.
  • the implementation of the thresholding algorithm is based on an integral image calculation.
  • This has the advantage of reducing resources and computation time.
  • This type of integral image calculation is notably described in the article by F. Shafaita, D. Keysersa, T. M. Breuel entitled "EDcient Implementation of Local Adaptive Thresholding Techniques Using Integral Images”.
  • FIG. 8c illustrates the binary image obtained at the end of step 703.
  • the smartphone applies a series of morphological operations on the binary image.
  • step 704 the smartphone performs a morphological operation ensuring a dilation.
  • This operation is intended to form black spots (also hereinafter referred to as potential text boxes) representing the words in the image.
  • the size of the convolution window (that is, the parameter determining the size of the tasks) depends on the spacing between the characters and the size of the letters in the image.
  • the size of the convolution window is predefined by the user.
  • the size of the convolution window is determined dynamically by the smartphone, so as to optimize the result of the dynamic selection.
  • Fig. 8d illustrates the binary image obtained after the dilation operation performed in step 704.
  • step 705 the smartphone performs a morphological operation ensuring erosion.
  • This erosion operation is carried out to limit the risk of superposition of the tasks (obtained after the dilation operation performed at step 704). In other words, we separate the tasks between them. This reduces the risk that two tasks form only one, from one line to another, for example.
  • the size of the convolution window used for the erosion is different from that used for the dilation.
  • the size of the convolution window used for erosion is such as to reduce by 1 to 2 pixels the size of the spots formed in step 704, in case two spots are unintentionally joined.
  • Figure 8e illustrates the binary image obtained after the erosion operation performed in step 705.
  • step 706 the smartphone uses the coordinates of the contact point recorded, for example, in the RAM 64 (FIG. 6) of the smartphone to search for a task among the tasks present in the binary image obtained after the operation of the smartphone. erosion carried out at step 705.
  • the smartphone verifies whether the coordinates of the contact point correspond to a pixel that is part of a task in the eroded binary image. If this is the case, then the smartphone determines the coordinates of a pixel belonging to this task. In a particular embodiment, the smartphone determines the coordinates of the corresponding pixel, for example, in the center of the task found.
  • the smartphone determines the task closest to the pixel pointed by the coordinates of the point of contact. Then, the smartphone determines the coordinates of the corresponding pixel, for example, in the center of the determined task.
  • Figure 8f illustrates the selected task 802 by the smartphone and the pixel 803 (corresponding to the center of the selected task) whose coordinates are determined by the smartphone in step 706.
  • the smartphone determines all the pixels constituting the selected task, from the coordinates of the pixel 803 determined by the smartphone in step 706. More specifically, the smartphone performs a scanning sequence predetermined in starting pixel 803. In a particular embodiment, the pixels are scanned vertically and horizontally successively in both directions until the entire task is isolated.
  • the smartphone determines the coordinates of a frame window (a rectangle) delimiting the selected task. This determination is classic in itself.
  • Figure 8g illustrates the framing window 804 determined in step 707.
  • step 708 the smartphone applies the frame window 804 to the grayscale digital image recorded, for example, in the RAM 64 (FIG. 6) of the smartphone, to obtain the digital image in levels of gray. gray of the affected word (that is, the selected word) by the user. Finally, and as illustrated in FIG. 8h, the smartphone displays on the touch screen the digital image in grayscale 805 of the word "substrings" touched by the user.
  • FIG. 5 shows an exemplary terminal in which the present invention can be implemented according to a particular embodiment.
  • the terminal 51 is, for example, a smartphone comprising a touch screen and a camera.
  • the smartphone 51 comprises an optical character recognition module and a lexical database.
  • the optical character recognition module and the lexical database are installed on an SD type memory card which is intended to be inserted into the smartphone 51.
  • the steps E50 and E51 of FIG. 5 are identical to the steps E30 and E31 described above in relation to FIG. 4, and are therefore not described again below.
  • step E51 the smartphone 51 displays on its touch screen the image of the word to be processed.
  • a step E52 the user who wishes to obtain the definition of the word to be processed presses the icon of a definition-based application displayed on the touch screen of the smartphone 51.
  • the smartphone 51 obtains a binary image of the word to be processed, then uses its optical character recognition module to recover the word to be processed present in the binary image obtained.
  • the smartphone 51 searches for the word to be processed in the lexical database and retrieves data relating to the definition of the word to be processed.
  • the smartphone 51 processes the recovered data and returns to the user the definition of the word he selected in step E50 (identical to step E30 of FIG. 4).

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

Il est proposé un procédé d'obtention de caractère au moyen d'un terminal comprenant un écran tactile et une caméra, le terminal étant placé dans un mode de prévisualisation dans lequel l'écran tactile affiche en temps réel une image d'une zone d'intérêt contenant le caractère à traiter, visée par la caméra. Le terminal est tel qu'il effectue des étapes consistant à : - détecter (700) qu'une zone de l'écran tactile a été touchée par un utilisateur du terminal, le caractère à traiter étant présent dans la zone d'écran touchée; - sur détection qu'une zone de l'écran tactile a été touchée, déterminer (701) des coordonnées associées à la zone d'écran touchée, dans un repère préalablement défini sur l'écran tactile; - obtenir (701) une image numérique correspondant à l'image affichée sur l'écran tactile à l'instant auquel la zone de l'écran tactile a été touchée; - obtenir le caractère à traiter, à partir de l'image numérique et des coordonnées déterminées.

Description

Procédé d'obtention de caractères au moyen d'un terminal comprenant un écran tactile, produit programme d'ordinateur, moyen de stockage et terminal correspondants.
1. DOMAINE DE L'INVENTION
Le domaine de l'invention est celui des dispositifs (ou terminaux) comprenant un écran tactile et une caméra (ou cellule optique). Plus précisément, l'invention concerne une technique permettant d'obtenir un caractère ou une chaîne de caractères texte (non manuscrit) au moyen de tels dispositifs. L'invention s'applique notamment, mais non exclusivement, à l'obtention de caractères (formant un mot ou un groupe de mots) au moyen d'un dispositif portable comprenant un tel écran tactile et une telle caméra, par exemple, un téléphone intelligent (« smartphone » en anglais).
2. ARRIÈRE-PLAN TECHNOLOGIQUE
On connaît à ce jour de plus en plus de dispositifs comprenant un écran tactile et une caméra, comme les téléphones mobiles, les assistants numériques personnels (dits PDAs) ou encore les ordinateurs portables.
De nombreux outils d'apprentissage et d'entraînement de langue ont été développés. Ces outils consistent en des applications ludoéducatives (applications de traduction, de recherche de définition, de synonyme, ... ) en rapport avec un mot ou un groupe de mot obtenu, par exemple, au moyen d'un téléphone mobile comprenant un écran tactile et une caméra.
Les techniques classiques d'obtention de caractères repose sur l'utilisation d'adjuvant ergonomique (cadre, glissières, poignées de sélection, etc.).
Il est donc traditionnellement proposé d'obtenir au préalable une image numérique d'une zone d'intérêt (par exemple, une zone d'un document écrit, d'une page d'un livre, d'un écran, d'un panneau de signalétique en pays étranger, ...) contenant le mot à traiter, puis de piloter manuellement, via l'écran tactile du téléphone mobile, un adjuvant ergonomique pour sélectionner dans l'image numérique préalablement obtenue le mot à traiter.
La figure 1 présente un exemple d'un premier adjuvant ergonomique connu. Dans ce premier exemple, l'adjuvant ergonomique est un cadre de sélection 10 dont la positon d'une première extrémité 11 et la position d'une deuxième extrémité 12 sont définies en fonction des déplacements du doigt de l'utilisateur sur l'écran tactile 13.
La figure 2 présente un exemple d'un deuxième adjuvant ergonomique connu. Dans ce deuxième exemple, l'adjuvant ergonomique est un cadre de sélection 20 placé au centre de l'écran tactile 21. L'utilisateur déplace l'image numérique affichée sur l'écran tactile 21, de manière à placer le mot (ou groupe de mot) qu'il souhaite faire traiter (par exemple, pour en obtenir la traduction) dans le cadre de sélection 20.
Une fois le mot à traiter sélectionné, une technique de reconnaissance optique de caractères (« OCR » pour « Optical Character Récognition » en anglais) est utilisée pour extraire le mot à traiter de l'image numérique. Le mot extrait est ensuite transmis vers un serveur hébergeant, par exemple, une application de traduction de mot de langue anglaise en langue française.
Ces techniques classiques d'obtention de caractères présentent un certain nombre d'inconvénients. En effet, l'ergonomie de ces techniques connues est limitée par le fait que l'utilisateur doit tout d'abord prendre une photo de la zone d'intérêt contenant le mot à traiter, puis manipuler un adjuvant ergonomique (cadre, glissières, poignées de sélection, etc.) pour sélectionner le mot à traiter, et le cas échéant naviguer dans un menu pour valider la sélection du mot à traiter. Ainsi, l'utilisation d'un tel adjuvant se traduit par l'exécution par l'utilisateur d'une pluralité d'opérations manuelles. Ce qui est contraignant et long.
En outre, et en particulier pour la raison exposée ci-dessus, ces techniques classiques d'obtention de caractères sont mal adaptées pour les novices en nouvelles technologies, les enfants et les personnes souffrant d'un handicap de la main.
3. OBJECTIFS DE L'INVENTION
L'invention, dans au moins un mode de réalisation, a notamment pour objectif de pallier ces différents inconvénients de l'état de la technique.
Plus précisément, dans au moins un mode de réalisation de l'invention, un objectif est de fournir une technique qui permette à un utilisateur de sélectionner et d'obtenir facilement et efficacement un ou des caractères à traiter, sans devoir manipuler d'adjuvant ergonomique. Au moins un mode de réalisation particulier de l'invention a pour objectif de fournir une telle technique qui soit ergonomique et limite les opérations manuelles devant être effectuées par l'utilisateur.
Au moins un mode de réalisation particulier de l'invention a pour objectif de fournir une telle technique qui permette de restituer rapidement à l'utilisateur le ou les caractères qu'il a sélectionné.
Un autre objectif d'au moins un mode de réalisation de l'invention est de fournir une telle technique qui soit compatible avec tous les terminaux mobiles existants comprenant un écran tactile et une caméra.
Un autre objectif d'au moins un mode de réalisation de l'invention est de fournir une telle technique qui soit notamment bien adaptée aux novices en nouvelles technologies, aux enfants et aux personnes souffrant d'un handicap de la main.
Enfin, dans au moins un mode de réalisation de l'invention, un autre objectif est de fournir une telle technique qui soit simple à mettre en œuvre et peu coûteuse.
4. EXPOSÉ DE L'INVENTION
Dans un mode de réalisation particulier de l'invention, il est proposé un procédé d'obtention d'au moins un caractère à traiter au moyen d'un terminal comprenant un écran tactile et une caméra, ledit terminal étant placé dans un mode de prévisualisation dans lequel l'écran tactile affiche en temps réel une image d'une zone d'intérêt contenant ledit au moins un caractère à traiter, visée par la caméra.
Le terminal est tel qu'il effectue des étapes consistant à :
détecter qu'une zone de l'écran tactile a été touchée par un utilisateur dudit terminal, ledit au moins un caractère à traiter étant présent dans la zone d'écran touchée ; sur détection qu'une zone de l'écran tactile a été touchée :
o déterminer des coordonnées associées à la zone d'écran touchée, dans un repère préalablement défini sur l'écran tactile ;
o obtenir une image numérique correspondant à l'image affichée sur l'écran tactile à l'instant auquel ladite zone de l'écran tactile a été touchée ; o déterminer une fenêtre d'encadrement à appliquer sur ladite image numérique, en fonction des coordonnées associées à la zone d'écran touchée, ladite fenêtre d'encadrement étant configurée pour délimiter une portion de l'image numérique correspondant à l'image binaire dudit au moins un caractère à traiter ;
o appliquer ladite fenêtre d'encadrement sur ladite image numérique, de manière à obtenir l'image binaire dudit au moins un caractère à traiter ;
obtenir ledit au moins un caractère à traiter, par application d'une reconnaissance optique de caractères sur l'image binaire dudit au moins un caractère à traiter.
Ainsi, il est proposé de pointer la caméra du terminal sur un mot (ou un groupe de mot) (c'est-à-dire une chaîne de caractères) et de le sélectionner simplement en le touchant sur l'écran tactile du terminal. La sélection du mot à traiter se résume donc à un seul toucher de l'écran tactile. Ce qui est particulièrement simple et intuitif pour l'utilisateur. La sélection du mot à traiter s'effectue de manière dynamique, c'est-à-dire à partir d'une image affichée en temps réel sur l'écran tactile.
La sélection du mot à traiter entraîne la détermination des coordonnées de la zone d'écran touchée. En d'autres termes, on détermine les coordonnées du point de contact du doigt de l'utilisateur (ou de la pointe d'un stylet) sur l'écran tactile.
Par ailleurs, il est proposé une capture d'écran automatique. En effet, il est proposé de conditionner l'obtention (et en ce sens la capture) de l'image affichée sur l'écran tactile par la détection d'un toucher de l'écran tactile. La prise d'image de la zone d'intérêt est donc effectuée automatiquement après la sélection effective du mot à traiter. L'utilisateur est donc libéré de cette tâche.
Ainsi, l'invention repose sur une approche tout à fait nouvelle et inventive pour l'obtention de caractère. En effet, et contrairement aux techniques de l'art antérieur précitées, on n'utilise pas d'adjuvant ergonomique pour obtenir un mot depuis une image capturée avant la sélection effective du mot par l'utilisateur, mais des coordonnées d'un point touché sur l'écran tactile pour obtenir un mot depuis une image capturée après la sélection effective du mot par l'utilisateur.
De façon avantageuse, l'étape consistant à déterminer une fenêtre d'encadrement comprend des étapes consistant à :
convertir ladite image numérique en une première image binaire ;
déterminer au moins une zone de caractère(s) potentielle, par application d'au moins une opération morphologique sur ladite première image binaire ; sélectionner une zone parmi la ou les zone(s) de caractère(s) potentielle(s), en fonction desdites coordonnées déterminées ;
déterminer ladite fenêtre d'encadrement de ladite zone sélectionnée, par application d'une séquence de balayage prédéterminée de ladite zone sélectionnée.
Ainsi, on réalise un traitement d'image simple et efficace pour obtenir l'image binaire (image en noir et blanc) du caractère (ou de la chaîne de caractères) à traiter.
Avantageusement, l'étape consistant à convertir ladite image numérique en une première image binaire comprend :
- une étape de conversion de l'image numérique en une image définie par des niveaux de gris ; et
- une étape de binarisation utilisant un procédé de seuillage prédéterminé pour convertir l'image définie par des niveaux de gris en ladite première image binaire, chaque pixel de l'image définie par des niveaux de gris ayant une valeur inférieure à un seuil prédéfini étant converti dans ladite première image binaire en une valeur 0 correspondant au noir, et chaque pixel de l'image définie par des niveaux de gris ayant une valeur supérieure ou égale audit seuil prédéfini étant converti dans ladite première image binaire en une valeur 1 correspondant au blanc.
De façon avantageuse, le procédé est tel qu'il comprend des étapes consistant à : appliquer ladite fenêtre d'encadrement sur ladite image définie par des niveaux de gris, de manière à obtenir une image en niveaux de gris dudit au moins un caractère à traiter ;
afficher sur l'écran tactile l'image en niveaux de gris dudit au moins un caractère à traiter.
L'image du ou des caractère(s) obtenu(s) par le terminal est restituée à l'utilisateur via l'écran tactile. Ainsi, l'utilisateur peut contrôler que le ou les caractère(s) obtenu(s) par le terminal correspondent à celui ou ceux qu'il a touché (c' est-à-dire sélectionné) sur l'écran tactile.
Avantageusement, l'étape consistant à déterminer au moins une zone de caractère(s) potentielle comprend une étape d'application sur ladite première image binaire d'une opération morphologique assurant une dilatation, suivie d'une opération morphologique assurant une érosion. En isolant les mots entre eux, on renforce la fiabilité de capture des mots, dans le sens où l'on réduit les risques de fausse détection lorsque les mots sont proches les uns des autres.
Dans un premier mode de réalisation avantageux, l'étape consistant à obtenir ledit au moins un caractère à traiter comprend en outre une étape consistant à appliquer une reconnaissance optique de caractères sur ladite image binaire dudit au moins un caractère à traiter.
Dans ce premier cas particulier, le terminal comprend un module (ou logiciel) de reconnaissance optique de caractères. Le traitement de reconnaissance d'un texte dans une image est donc effectué en local sur le terminal. Le traitement est donc rapide (pas de latence réseau).
Dans un second mode de réalisation avantageux, l'étape consistant à obtenir ledit au moins un caractère à traiter comprend en outre des étapes consistant à :
- transmettre, via une liaison de communication prédéterminée, une requête comprenant ladite image binaire dudit au moins un caractère à traiter vers un serveur distant comprenant un module de reconnaissance optique de caractères ;
recevoir en provenance dudit serveur distant une réponse comprenant ledit au moins un caractère à traiter.
Dans ce second cas particulier, on déporte le traitement de reconnaissance d'un texte dans une image côté serveur. Ce qui permet de réduire les ressources de calcul utilisées (et donc la consommation d'énergie) par le terminal. Cela permet également de réaliser des traitements supplémentaires et plus lourds côté serveur, par exemple, un traitement de réduction de bruit dans l'image. Après traitement de l'image binaire par le serveur, le terminal reçoit (et dans ce sens obtient) le ou les caractères à traiter.
Avantageusement, ledit terminal est un terminal mobile de radiocommunication.
Dans un autre mode de réalisation, l'invention concerne un produit programme d'ordinateur qui comprend des instructions de code de programme pour la mise en œuvre du procédé précité (dans l'un quelconque de ses différents modes de réalisation), lorsque ledit programme est exécuté sur un ordinateur.
Dans un autre mode de réalisation, l'invention concerne un moyen de stockage lisible par ordinateur, stockant un programme d'ordinateur comprenant un jeu d'instructions exécutables par un ordinateur pour mettre en œuvre le procédé précité (dans l'un quelconque de ses différents modes de réalisation).
Dans un autre mode de réalisation, l'invention concerne un terminal comprenant des moyens d'obtention d'au moins un caractère à traiter, un écran tactile et une caméra, ledit terminal étant placé dans un mode de prévisualisation dans lequel l'écran tactile affiche en temps réel une image d'une zone d'intérêt contenant ledit au moins un caractère à traiter, visée par la caméra.
Les moyens d'obtention sont tels qu'ils comprennent :
des moyens pour détecter qu'une zone de l' écran tactile a été touchée par un utilisateur dudit terminal, ledit au moins un caractère à traiter étant présent dans la zone d'écran touchée ;
des moyens pour déterminer des coordonnées associées à la zone d'écran touchée, dans un repère préalablement défini sur l'écran tactile ;
des moyens pour obtenir une image numérique correspondant à l'image affichée sur l'écran tactile à l'instant auquel ladite zone de l'écran tactile a été touchée ;
des moyens pour déterminer une fenêtre d'encadrement à appliquer sur ladite image numérique, en fonction des coordonnées associées à la zone d'écran touchée, ladite fenêtre d'encadrement étant configurée pour délimiter une portion de l 'image numérique correspondant à l'image binaire dudit au moins un caractère à traiter ; des moyens pour appliquer ladite fenêtre d'encadrement sur ladite image numérique, de manière à obtenir l'image binaire dudit au moins un caractère à traiter ;
des moyens pour obtenir ledit au moins un caractère à traiter, par application d'une reconnaissance optique de caractères sur l'image binaire dudit au moins un caractère à traiter.
Avantageusement, le terminal comprend des moyens de mise en œuvre des étapes du procédé d'obtention tel que décrit précédemment, dans l'un quelconque de ses différents modes de réalisation.
5. LISTE DES FIGURES
D'autres caractéristiques et avantages de l'invention apparaîtront à la lecture de la description suivante, donnée à titre d'exemple indicatif et non limitatif, et des dessins annexés, dans lesquels : la figure 1, décrit ci-dessus en relation avec l'art antérieur, présente un exemple d'un premier adjuvant ergonomique connu ;
la figure 2, décrit ci-dessus en relation avec l'art antérieur, présente un exemple d'un deuxième adjuvant ergonomique connu ;
la figure 3a illustre une étape de sélection d'un mot par un utilisateur d'un terminal selon un mode de réalisation particulier de l'invention ;
la figure 3b illustre une étape d'affichage d'un mot sélectionné selon un mode de réalisation particulier ;
la figure 4 présente un exemple de réseau de communication dans lequel peut être mise en œuvre la présente invention selon un mode de réali sation particulier ;
la figure 5 présente un exemple de terminal dans lequel peut être mise en œuvre la présente invention selon un mode de réalisation particulier ;
la figure 6 présente la structure simplifiée d'un smartphone selon un mode de réalisation particulier de l'invention ;
la figure 7 présente les étapes principales d'un algorithme de traitement d'image mis en œuvre par un terminal, selon un mode de réalisation particulier de l'invention ;
la figure 8a illustre un point de contact selon un mode de réalisation particulier ; la figure 8b illustre une image numérique en niveaux de gris obtenue à l'issue d'une opération de conversion selon un mode de réalisation particulier ;
la figure 8c illustre une image binaire obtenue à l'issue d'une opération de seuillage selon un mode de réalisation particulier ;
la figure 8d illustre une image binaire obtenue à l'issue d'une opération de dilatation selon un mode de réalisation particulier ;
la figure 8e illustre une image binaire obtenue à l'issue d'une opération d'érosion selon un mode de réalisation particulier ;
la figure 8f illustre une étape de sélection d'une tâche selon un mode de réalisation particulier de l'invention ;
la figure 8g illustre une fenêtre d'encadrement selon un mode de réalisation particulier ; et la figure 8h illustre une image numérique en niveaux de gri s d ' un mot sélectionné selon un mode de réalisation particulier.
6. DESCRIPTION D'UN MODE DE REALISATION
L'invention propose d'utiliser un terminal (mobile ou non) comprenant un écran tactile et une caméra pour obtenir un caractère, un mot ou un groupe de mots contenu ou affiché sur n'importe quel type de support (document papier, écran, panneau, . . . ). Plus précisément, l'invention consiste à viser un mot à l'aide de la caméra du terminal et toucher l'image de ce mot affichée en temps réel sur l'écran tactile du terminal.
Dans la suite de la description, on suppose à titre d'exemple que le terminal selon l'invention est un smartphone comprenant un écran tactile et une caméra. Bien entendu, tout autre type de terminal comprenant un écran tactile et une caméra (PDA, tablette électronique, etc.) peut être envisagé.
On décrit ci-dessous, un exemple d'application du procédé selon l'invention, dans lequel un utilisateur d'un smartphone souhaite capturer un mot contenu dans un document écrit pour en obtenir la définition.
La figure 4 présente un exemple de réseau de communication dans lequel peut être mise en œuvre la présente invention selon un mode de réalisation particulier.
Le réseau de communication 400 comprend un smartphone 41 et un serveur distant 42. Le smartphone 41 communique avec le serveur 42 via, par exemple, le réseau Internet 43. Dans cet exemple, le serveur 42 comprend un module de reconnaissance optique de caractères (non représenté) et une base de données lexicale 421, par exemple, du type WordNet (logiciel libre).
La figure 6 présente la structure simplifiée du smartphone 41 selon un mode de réalisation particulier de l'invention.
Le smartphone 41 comprend un écran tactile 61 et une caméra 62 connectés à un module de calcul ou microcontrôleur 63 (noté « μο »). Le microcontrôleur 63 coopère avec une mémoire vive 64, ou RAM, et une mémoire morte 65, ou ROM. Le microcontrôleur 63 est capable d'exécuter des instructions lors de la mise sous tension du smartphone à partir de la ROM 65. Après la mise sous tension, le microcontrôleur 63 est capable d'exécuter des instructions de la RAM 64 relatives à un programme d'ordinateur (éventuellement téléchargeable depuis un réseau), une fois ces instructions chargées à partir de la ROM 65 ou d'une mémoire externe (non illustrée sur la présente figure). Un tel programme d'ordinateur, s'il est exécuté par le microcontrôleur 63, provoque l'exécution de toute ou partie des étapes d'un algorithme de traitement d'image décrit ci-après en relation avec la figure 7.
Le smartphone 41 comprend un module d'émission/réception 66 en charge d'émettre vers et recevoir en provenance du serveur 42 des données.
De nouveau en référence à la figure 4, lors d'une première étape E30, et comme illustré sur la figure 3a, l'utilisateur positionne d'abord son smartphone 41 en regard du document écrit 44 contenant le mot à traiter 45. Dans l'exemple de la figure 3a, le mot à traiter est le mot « elementum ». Lors de cette étape E30, le smartphone 41 est placé dans un mode de prévisualisation (ou mode « appareil photo ») dans lequel il affiche en temps réel sur son écran tactile 411 une image visée par sa caméra. Ensuite, l'utilisateur touche avec son doigt (ou le bout d'un stylet) le mot « elementum » affiché sur l'écran tactile 411.
Lors d'une étape E31, le smartphone 41 détecte un appui sur l'écran tactile 411 et exécute un algorithme de traitement d'image (détaillé ci-dessous en relation avec la figure 7), de façon à obtenir une image du mot touché (c'est-à-dire du mot sélectionné) par l'utilisateur.
Comme on le verra dans la suite de ce document, le principe général de l'invention repose sur l'utilisation de coordonnées d'une zone d'écran tactile touchée par un utilisateur pour déterminer un cadre (aussi appelé fenêtre d'encadrement) permettant d'extraire de manière automatique un mot depuis une image prise à l'instant auquel la zone d'écran tactile a été touchée par l'utilisateur.
L'image du mot à traiter (c'est-à-dire du mot sélectionné par l'utilisateur) est ensuite affichée sur l'écran tactile 41 1. Comme décrit ci-après, l'image affichée est une image numérique en niveaux de gris. Dans l'exemple de la figure 3b, l'image du mot à traiter est affichée en avant-plan dans une zone 46 située en haut à gauche de l'écran tactile 41 1. Avantageusement, l 'image du mot à traiter est affichée suivant des paramètres d'affichage configurés de telle manière qu'il est aisé de distinguer le mot « elementum » par rapport aux mots affichés en fond d'écran. Dans l'exemple illustré sur la figure 3b, des icônes correspondant chacune à une application ludoéducative autour du mot « elementum » sont affichées en bas de l'écran tactile 411. Par exemple, l'icône 471 correspond à une application à base de définition, l'icône 472 correspond à une application à base de traduction, et l'icône 473 correspond à une application de synthèse vocale.
Lors d'une étape E32, l'utilisateur qui souhaite obtenir la définition du mot « elementum » appuie sur l'icône 471. Le smartphone 41 construit alors une requête comprenant une image binaire du mot à traiter, puis il transmet cette requête vers le serveur 42, via le réseau Internet 43.
Lors d'une étape E33, le serveur 42 utilise son module de reconnaissance optique de caractères (non représenté) pour récupérer le mot à traiter présent dans l'image binaire reçue.
Lors d'une étape E34, le serveur 42 recherche le mot à traiter « elementum » dans la base de données lexicale 421 et récupère des données relatives à la définition du mot « elementum ».
Ensuite, lors d'une étape E35, le serveur 42 construit une réponse comprenant les données relatives à la définition du mot « elementum ». Ces données sont, par exemple, encapsulées dans un document XML. Le serveur 42 transmet cette réponse vers le smartphone 41, via le réseau Internet 43.
Enfin, le smartphone 41 reçoit et traite la réponse, puis restitue la définition du mot « elementum » à l'utilisateur via, par exemple, l'écran tactile 411.
La figure 7 présente les étapes principales d'un algorithme de traitement d'image mis en œuvre par le smartphone 41, selon un mode de réalisation particulier de l'invention.
Sur détection d'un appui sur l'écran tactile 41 1 (étape 700), le smartphone 41 détermine (étape 701) les coordonnées associées à la zone d'écran tactile touchée par l'utilisateur, dans un repère prédéfini sur l'écran tactile.
Les coordonnées déterminées correspondent à des coordonnées (x, y) d'un point de contact dans le repère de l'écran tactile.
La détermination de ces coordonnées est classique, et n'est donc pas décrite dans le présent document. Les coordonnées du point de contact sont ensuite enregistrées, par exemple, dans la mémoire RAM 64 (figure 6) du smartphone.
A cette même étape 701, le smartphone commande la capture de l'image affichée sur l'écran tactile à l'instant auquel la zone d'écran tactile a été touchée par l'utilisateur.
L'image capturée (image numérique) est ensuite enregistrée, par exemple, dans la mémoire RAM 64 (figure 6) du smartphone.
La figure 8a illustre le point de contact 801 dont les coordonnées sont déterminées par le smartphone et l'image 800 capturée par le smartphone à l'étape 701.
Dans l'exemple de la figure 8a, le mot à traiter, c'est-à-dire le mot qui a été touché par l'utilisateur à l'étape 701, et le mot anglais « substrings ».
A l'étape 702, le smartphone procède à une transformation de l'image numérique capturée à l'étape 701 en une image numérique en niveaux de gris.
L'image numérique en niveaux de gris est ensuite enregistrée, par exemple, dans la mémoire RAM 64 (figure 6) du smartphone.
Cette étape 702 de conversion peut être réalisée par des techniques classiques. Elle consiste en une simple conversion d'une image couleur numérique, généralement représentée par trois matrices dans l'espace couleur, par exemple RVB, en une matrice en niveaux de gris. Cette étape est nécessaire pour l'étape de binarisation qui sera détaillée ci-après.
L' étape 702 peut également le cas échéant s' accompagner d'une étape de linéarisation ayant pour but d'accentuer les valeurs de noir et de blanc.
La figure 8b illustre l'image numérique en niveaux de gris obtenue à l'issue de l'étape 702.
A l'étape 703, le smartphone procède à une binarisation de l'image numérique en niveaux de gris obtenue à l'issue de l'étape 702.
La conversion de l'image numérique en niveaux de gris en une image binaire s'opère par seuillage. Ainsi, l'image binaire présente une valeur de 0 (correspondant au noir) pour tous les pixels de l'image numérique en niveaux de gris qui ont une valeur inférieure à un seuil local prédéterminé et une valeur de 1 (correspondant au blanc) pour tous les autres pixels. Dans un mode de réalisation particulier, à cette étape 703 le smartphone procède à l'implémentation exhaustive de l'algorithme de Sauvola. L'algorithme de Sauvola est bien connu de l'homme du métier. On peut notamment se référer à l'article de J. Sauvola, M. PietikaKinen intitulé « Adaptive document image binarization » paru dans Pattern Récognition 33(2), pp. 225-236, 2000.
Avantageusement, le calcul du seuil local tient compte de la variance locale autour du point considéré. On est donc certain que le seuillage conviendra parfaitement à la zone touchée.
Avantageusement, l'implémentation de l'algorithme de seuillage est basée sur un calcul par image intégrale. Ceci présente l'avantage de réduire les ressources et les temps de calculs. Ce type de calcul par image intégrale est notamment décrit dans l'article de F. Shafaita , D. Keysersa , T. M. Breuel intitulé « EDcient Implementation of Local Adaptive Thresholding Techniques Using Intégral Images ».
La figure 8c illustre l'image binaire obtenue à l'issue de l'étape 703.
Pour mettre en évidence chaque mot et isoler les mots entre eux, le smartphone applique une série d'opérations morphologiques sur l'image binaire.
Ainsi à l'étape 704, le smartphone procède à une opération morphologique assurant une dilatation. Cette opération a pour but de former des taches noires (aussi appelées par la suite zones de texte potentielles) représentant les mots dans l'image.
La taille de la fenêtre de convolution (c'est-à-dire le paramètre déterminant la grosseur des tâches) dépend de l'espacement entre les caractères et la grosseur des lettres dans l'image.
Dans un premier mode de réalisation, la taille de la fenêtre de convolution est prédéfinie par l'utilisateur.
Dans un second mode de réalisation, la taille de la fenêtre de convolution est déterminée de manière dynamique par le smartphone, de façon à optimiser le résultat de la sélection dynamique.
La figure 8d illustre l'image binaire obtenue après l'opération de dilatation effectuée à l'étape 704.
A l'étape 705, le smartphone procède à une opération morphologique assurant une érosion. Cette opération d' érosion est effectuée pour limiter le risque de superposition des tâches (obtenues après l'opération de dilatation effectuée à l'étape 704). En d'autres termes, on sépare les tâches entre elles. On réduit ainsi le risque que deux tâches n'en forment qu'une seule, d'une ligne à l'autre par exemple.
Avantageusement, la taille de la fenêtre de convolution utilisée pour l'érosion est différente de celle utilisée pour la dilatation. Dans un mode de réalisation particulier, la taille de la fenêtre de convolution utilisée pour l'érosion est telle qu'elle permet de réduire de 1 à 2 pixels la taille des taches formées à l'étape 704, au cas où deux taches se seraient malencontreusement rejointes.
La figure 8e illustre l'image binaire obtenue après l' opération d'érosion effectuée à l'étape 705.
A l'étape 706, le smartphone utilise les coordonnées du point de contact enregistrées, par exemple, dans la mémoire RAM 64 (figure 6) du smartphone pour rechercher une tâche parmi les tâches présentent dans l'image binaire obtenue après l'opération d'érosion effectuée à l'étape 705.
Plus précisément, le smartphone vérifie si les coordonnées du point de contact correspondent à un pixel faisant partie d'une tâche dans l'image binaire érodée. Si tel est le cas, alors le smartphone détermine les coordonnées d'un pixel appartenant à cette tâche. Dans un mode de réalisation particulier, le smartphone détermine les coordonnées du pixel correspondant, par exemple, au centre de la tâche trouvée.
En revanche, si les coordonnées du point de contact ne correspondent à aucun pixel faisant partie d'une tâche, en d'autres termes, par exemple si les coordonnées du point de contact correspondent à un pixel (blanc) de l'image situé entre deux tâches, alors le smartphone détermine la tâche la plus proche du pixel pointé par les coordonnées du point de contact. Ensuite, le smartphone détermine les coordonnées du pixel correspondant, par exemple, au centre de la tâche déterminée.
La figure 8f illustre la tâche sélectionnée 802 par le smartphone et le pixel 803 (correspondant au centre de la tâche sélectionnée) dont les coordonnées sont déterminées par le smartphone à l'étape 706.
A l'étape 707, le smartphone détermine l'ensemble des pixels constituant la tâche sélectionnée, à partir des coordonnées du pixel 803 déterminées par le smartphone à l'étape 706. Plus précisément, le smartphone effectue une séquence de balayage prédéterminée en partant du pixel 803. Dans un mode de réalisation particulier, les pixels sont balayés verticalement et horizontalement successivement dans les deux sens jusqu'à ce que la totalité de la tâche soit isolée.
Ensuite, le smartphone détermine les coordonnées d'une fenêtre d'encadrement (un rectangle) délimitant la tâche sélectionnée. Cette détermination est classique en soi.
La figure 8g illustre la fenêtre d'encadrement 804 déterminée à l'étape 707.
A l'étape 708, le smartphone applique la fenêtre d'encadrement 804 sur l'image numérique en niveaux de gris enregistrée, par exemple, dans la mémoire RAM 64 (figure 6) du smartphone, pour obtenir l'image numérique en niveaux de gris du mot touché (c'est-à-dire du mot sélectionné) par l'utilisateur. Enfin, et comme illustré sur la figure 8h, le smartphone affiche sur l'écran tactile l'image numérique en niveaux de gris 805 du mot « substrings » touché par l'utilisateur.
La figure 5 présente un exemple de terminal dans lequel peut être mise en œuvre la présente invention selon un mode de réalisation particulier.
Le terminal 51 est, par exemple, un smartphone comprenant un écran tactile et une caméra. Dans ce deuxième mode de réalisation particulier, le smartphone 51 comprend un module de reconnaissance optique de caractères et une base de données lexicale. Par exemple, le module de reconnaissance optique de caractères et la base de données lexicale sont installés sur une carte mémoire de type SD qui est destinée à être insérée dans le smartphone 51.
Les étapes E50 et E51 de la figure 5 sont identiques aux étapes E30 et E31 décrites précédemment en relation avec la figure 4, et ne sont donc pas décrites de nouveau ci-après.
A l'issue de l'étape E51 (identique à l'étape E31 de la figure 4), le smartphone 51 affiche sur son écran tactile l'image du mot à traiter.
Lors d'une étape E52, l'utilisateur qui souhaite obtenir la définition du mot à traiter appuie sur l'icône d'une application à base de définition affichée sur l'écran tactile du smartphone 51. Le smartphone 51 obtient une image binaire du mot à traiter, puis utilise son module de reconnaissance optique de caractères pour récupérer le mot à traiter présent dans l'image binaire obtenue. Lors d'une étape E53, le smartphone 51 recherche le mot à traiter dans la base de données lexicale et récupère des données relatives à la définition du mot à traiter.
Enfin, le smartphone 51 traite les données récupérées et restitue à l'utilisateur la définition du mot qu'il a sélectionné à l'étape E50 (identique à l'étape E30 de la figure 4).
Ainsi, selon ce deuxième mode de réalisation particulier, aucune connexion réseau n'est requise. En d'autres termes, le smartphone effectue en local l'ensemble des traitements. Ce qui est plus simple et plus rapide (pas de latence réseau).

Claims

REVENDICATIONS
1. Procédé d'obtention d'au moins un caractère à traiter au moyen d'un terminal comprenant un écran tactile et une caméra, ledit terminal étant placé dans un mode de prévisualisation dans lequel l'écran tactile affiche en temps réel une image d'une zone d'intérêt contenant ledit au moins un caractère à traiter, visée par la caméra,
caractérisé en ce que ledit terminal effectue des étapes consistant à :
détecter (700) qu'une zone de l'écran tactile a été touchée par un utilisateur dudit terminal, ledit au moins un caractère à traiter étant présent dans la zone d'écran touchée ;
sur détection qu'une zone de l'écran tactile a été touchée :
o déterminer (701) des coordonnées associées à la zone d'écran touchée, dans un repère préalablement défini sur l'écran tactile ;
o obtenir (701) une image numérique correspondant à l'image affichée sur l'écran tactile à l'instant auquel ladite zone de l'écran tactile a été touchée ; o déterminer (707) une fenêtre d'encadrement à appliquer sur ladite image numérique, en fonction des coordonnées associées à la zone d'écran touchée, ladite fenêtre d'encadrement étant configurée pour délimiter une portion de l'image numérique correspondant à l'image binaire dudit au moins un caractère à traiter ;
o appliquer (708) ladite fenêtre d'encadrement sur ladite image numérique, de manière à obtenir l'image binaire dudit au moins un caractère à traiter ;
obtenir ledit au moins un caractère à traiter, par application d'une reconnaissance optique de caractères sur l'image binaire dudit au moins un caractère à traiter.
2. Procédé selon la revendication 1 , caractérisé en ce que l'étape consistant à déterminer une fenêtre d'encadrement comprend des étapes consistant à :
convertir (702, 703) ladite image numérique en une première image binaire ;
déterminer (704, 705) au moins une zone de caractère(s) potentielle, par application d'au moins une opération morphologique sur ladite première image binaire ;
sélectionner (706) une zone parmi la ou les zone(s) de caractère(s) potentielle(s), en fonction desdites coordonnées déterminées ; déterminer (707) ladite fenêtre d' encadrement de ladite zone sélectionnée, par application d'une séquence de balayage prédéterminée de ladite zone sélectionnée.
3. Procédé selon la revendication 2, caractérisé en ce que l'étape consistant à convertir ladite image numérique en une première image binaire comprend :
- une étape de conversion de l'image numérique en une image définie par des niveaux de gris ; et
- une étape de binarisation utilisant un procédé de seuillage prédéterminé pour convertir l'image définie par des niveaux de gris en ladite première image binaire, chaque pixel de l'image définie par des niveaux de gris ayant une valeur inférieure à un seuil prédéfini étant converti dans ladite première image binaire en une valeur 0 correspondant au noir, et chaque pixel de l'image définie par des niveaux de gris ayant une valeur supérieure ou égale audit seuil prédéfini étant converti dans ladite première image binaire en une valeur 1 correspondant au blanc.
4. Procédé selon la revendication 3, caractérisé en ce qu'il comprend des étapes consistant à :
appliquer ladite fenêtre d'encadrement sur ladite image définie par des niveaux de gris, de manière à obtenir une image en niveaux de gris dudit au moins un caractère à traiter ;
afficher sur l'écran tactile l'image en niveaux de gris dudit au moins un caractère à traiter.
5. Procédé selon l'une quelconque des revendications 2 à 4, caractérisé en ce que l'étape consistant à déterminer au moins une zone de caractère(s) potentielle comprend une étape d'application sur ladite première image binaire d'une opération morphologique assurant une dilatation, suivie d'une opération morphologique assurant une érosion.
6. Procédé selon l'une quelconque des revendications 1 à 5, caractérisé en ce que l'étape consistant à obtenir ledit au moins un caractère à traiter comprend des étapes consistant à :
- transmettre, via une liaison de communication prédéterminée, une requête comprenant ladite image binaire dudit au moins un caractère à traiter vers un serveur distant comprenant un module de reconnaissance optique de caractères ; recevoir en provenance dudit serveur distant une réponse comprenant ledit au moins un caractère à traiter.
7. Procédé selon l'une quelconque des revendications 1 à 6, caractérisé en ce que ledit terminal est un terminal mobile de radiocommunication.
8. Produit programme d'ordinateur, caractérisé en ce qu ' il comprend de s instructions de code de programme pour la mise en oeuvre du procédé d'obtention selon au moins une des revendications 1 à 7, lorsque ledit programme est exécuté sur un ordinateur.
9. Moyen de stockage lisible par ordinateur, stockant un programme d'ordinateur comprenant un jeu d'instructions exécutables par un ordinateur pour mettre en œuvre le procédé d'obtention selon au moins une des revendications 1 à 7.
10. Terminal comprenant des moyens d'obtention d'au moins un caractère à traiter, un écran tactile et une caméra, ledit terminal étant placé dans un mode de prévisualisation dans lequel l'écran tactile affiche en temps réel une image d'une zone d'intérêt contenant ledit au moins un caractère à traiter, visée par la caméra,
caractérisé en ce que lesdits moyens d'obtention comprennent :
des moyens pour détecter qu'une zone de l' écran tactile a été touchée par un utilisateur dudit terminal, ledit au moins un caractère à traiter étant présent dans la zone d'écran touchée ;
- des moyens pour déterminer des coordonnées associées à la zone d'écran touchée, dans un repère préalablement défini sur l'écran tactile ;
des moyens pour obtenir une image numérique correspondant à l'image affichée sur l'écran tactile à l'instant auquel ladite zone de l'écran tactile a été touchée ;
des moyens pour déterminer une fenêtre d'encadrement à appliquer sur ladite image numérique, en fonction des coordonnées associées à la zone d'écran touchée, ladite fenêtre d'encadrement étant configurée pour délimiter une portion de l'image numérique correspondant à l'image binaire dudit au moins un caractère à traiter ; des moyens pour appliquer ladite fenêtre d'encadrement sur ladite image numérique, de manière à obtenir l'image binaire dudit au moins un caractère à traiter ; des moyens pour obtenir ledit au moins un caractère à traiter, par application d'une reconnaissance optique de caractères sur l'image binaire dudit au moins un caractère à traiter.
PCT/EP2011/070698 2010-11-26 2011-11-22 Procede d'obtention de caracteres au moyen d'un terminal comprenant un ecran tactile, produit programme d'ordinateur, moyen de stockage et terminal correspondants WO2012069483A1 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1059812A FR2968105A1 (fr) 2010-11-26 2010-11-26 Procede d'obtention de caracteres au moyen d'un terminal comprenant un ecran tactile, produit programme d'ordinateur, moyen de stockage et terminal correspondants
FR1059812 2010-11-26

Publications (1)

Publication Number Publication Date
WO2012069483A1 true WO2012069483A1 (fr) 2012-05-31

Family

ID=43844625

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2011/070698 WO2012069483A1 (fr) 2010-11-26 2011-11-22 Procede d'obtention de caracteres au moyen d'un terminal comprenant un ecran tactile, produit programme d'ordinateur, moyen de stockage et terminal correspondants

Country Status (2)

Country Link
FR (1) FR2968105A1 (fr)
WO (1) WO2012069483A1 (fr)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020028027A1 (en) * 2000-09-07 2002-03-07 Fuji Xerox Co., Ltd. Image processing device, image processing method, and recording medium storing image processing program
US20080119236A1 (en) * 2006-11-22 2008-05-22 Industrial Technology Research Institute Method and system of using mobile communication apparatus for translating image text
EP2144189A2 (fr) * 2008-07-10 2010-01-13 Samsung Electronics Co., Ltd. Procédé de reconnaissance et de traduction de caractères dans une image à base de caméra
US20100289757A1 (en) * 2009-05-14 2010-11-18 Budelli Joey G Scanner with gesture-based text selection capability

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020028027A1 (en) * 2000-09-07 2002-03-07 Fuji Xerox Co., Ltd. Image processing device, image processing method, and recording medium storing image processing program
US20080119236A1 (en) * 2006-11-22 2008-05-22 Industrial Technology Research Institute Method and system of using mobile communication apparatus for translating image text
EP2144189A2 (fr) * 2008-07-10 2010-01-13 Samsung Electronics Co., Ltd. Procédé de reconnaissance et de traduction de caractères dans une image à base de caméra
US20100289757A1 (en) * 2009-05-14 2010-11-18 Budelli Joey G Scanner with gesture-based text selection capability

Non-Patent Citations (11)

* Cited by examiner, † Cited by third party
Title
ALESSANDRO BISSACCO AND AVI FLAMHOLZ: "Translate the real world with Google Goggles", 6 May 2010 (2010-05-06), XP002632793, Retrieved from the Internet <URL:http://googlemobile.blogspot.com/2010/05/translate-real-world-with-google.html> [retrieved on 20110414] *
BRAD LINDER: "Google Goggles Android app now translates text", 6 May 2010 (2010-05-06), XP002632932, Retrieved from the Internet <URL:http://www.youtube.com/watch?v=tXcaKPTxQHg> [retrieved on 20110414] *
GOOGLEVIDEOS: "Translation in Google Goggles Prototype", 17 February 2010 (2010-02-17), XP002632931, Retrieved from the Internet <URL:http://www.youtube.com/watch?v=ae01yz5z99E> [retrieved on 20110414] *
HARTMUT NEVEN: "Integrating translation into Google Goggles", 17 February 2010 (2010-02-17), XP002632814, Retrieved from the Internet <URL:http://googlemobile.blogspot.com/2010/02/integrating-translation-into-google.html> [retrieved on 20110414] *
J. SAUVOLA; M. PIETIKAKINEN: "Adaptive document image binarization", PATTERN RECOGNITION, vol. 33, no. 2, 2000, pages 225 - 236, XP004243839, DOI: doi:10.1016/S0031-3203(99)00055-2
S. MORI, H. NISHIDA, H. YAMADA: "Optical Character Recognition", 1999, WILEY, article "6. Theory of preprocessing; 6.1 Binary Morphology", pages: 167 - 180, XP002632955 *
SPIROS PAPADIMITRIOU (SPAPADIM): "Changes between Version 42 and Version 43 of Android/OCR", 3 April 2010 (2010-04-03), XP002632727, Retrieved from the Internet <URL:http://www.bitquill.net/trac/wiki/Android/OCR?action=diff&version=43> [retrieved on 20110405] *
SPIROS PAPADIMITRIOU (SPAPADIM): "Mobile OCR input: "Fully automatic" and reality", September 2009 (2009-09-01), XP002632730, Retrieved from the Internet <URL:http://www.bitquill.net/blog/?m=200909> [retrieved on 20110405] *
SPIROS PAPADIMITRIOU (SPAPADIM): "WordSnap OCR - Live capture", 28 August 2009 (2009-08-28), XP002632729, Retrieved from the Internet <URL:http://www.youtube.com/watch?v=GhUOWbOmn6s> [retrieved on 20110405] *
SPIROS PAPADIMITRIOU (SPAPADIM): "WordSnap OCR (Version 43)", 3 April 2010 (2010-04-03), XP002632734, Retrieved from the Internet <URL:http://www.bitquill.net/trac/wiki/Android/OCR?version=43> [retrieved on 20110405] *
SPIROS PAPADIMITRIOU (SPAPADIM): "WordSnap OCR", 22 August 2009 (2009-08-22), XP002632728, Retrieved from the Internet <URL:http://www.youtube.com/watch?v=-73jqb0EMA4&feature=player_embedded> [retrieved on 20110405] *

Also Published As

Publication number Publication date
FR2968105A1 (fr) 2012-06-01

Similar Documents

Publication Publication Date Title
US11574470B2 (en) Suggested actions for images
US9911239B2 (en) Augmenting a live view
TWI771645B (zh) 文本識別方法及裝置、電子設備、儲存介質
JP6502923B2 (ja) コンピューティングデバイスのための認識インターフェース
FR2980605A1 (fr) Procede de restitution d&#39;une representation d&#39;un document web annote, programme d&#39;ordinateur et dispositif electronique associes
WO2012028817A1 (fr) Procède de recueil de données a caractères événementiel de formulaires électroniques
CN110442879A (zh) 一种内容翻译的方法和终端
FR3079048A1 (fr) Procede d’interaction entre d’une part au moins un utilisateur et/ou un premier dispositif electronique et d’autre part un second dispositif electronique
WO2017194777A1 (fr) Système permettant la création et le déploiement d&#39;applications multiplateformes
WO2017098111A1 (fr) Navigation directe dans un extrait vidéo
WO2012069483A1 (fr) Procede d&#39;obtention de caracteres au moyen d&#39;un terminal comprenant un ecran tactile, produit programme d&#39;ordinateur, moyen de stockage et terminal correspondants
EP2851891A1 (fr) Terminal mobile utilisateur et procédé de commande d&#39;un tel terminal
US10223607B2 (en) Physical and digital bookmark syncing
EP2960774B1 (fr) Procédé de masquage d&#39;un élément parmi une pluralité d&#39;éléments
FR3078180A1 (fr) Procede de visualisation d&#39;un document structure par un navigateur web et programme associe
US20230152946A1 (en) Methods and apparatus for search of an area rendered within a browser
FR3103041A1 (fr) Procédé et dispositif de traitement d’image
WO2015121303A1 (fr) Procede de saisie sur un clavier numerique, interface homme machine et appareil mettant en oeuvre un tel procede
WO2024033192A1 (fr) Procédé et dispositif de construction d&#39;une base de connaissance dans le but d&#39;utiliser de manière transverse des fonctions applicatives d&#39;une pluralité de logiciels
EP2634683B1 (fr) Procédé de navigation au sein d&#39;un contenu affichable à l&#39;aide de commandes de navigation, dispositif de navigation et programme associé
CN118265974A (en) Method and apparatus for searching for rendered regions within a browser
FR3102869A1 (fr) Procédé d’affichage d’un document textuel enrichi en associant des expressions d’un texte avec des informations explicatives, et dispositifs associés
FR2927751A1 (fr) Procede d&#39;acces a un contenu numerique depuis un terminal mobile.
WO2024022898A1 (fr) Execution d´une commande generee par un utilisateur sur un dispositif
FR2903796A1 (fr) Systeme et procede de gestion d&#39;informations.

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11785683

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: CONSTATATION DE LA PERTE D UN DROIT CONFORMEMENT A LA REGLE 112(1) CBE (OEB FORM 1205A EN DATE DU 20/09/2013)

122 Ep: pct application non-entry in european phase

Ref document number: 11785683

Country of ref document: EP

Kind code of ref document: A1