WO2012069483A1

WO2012069483A1 - Procede d'obtention de caracteres au moyen d'un terminal comprenant un ecran tactile, produit programme d'ordinateur, moyen de stockage et terminal correspondants

Info

Publication number: WO2012069483A1
Application number: PCT/EP2011/070698
Authority: WO
Inventors: Michel Nizon
Original assignee: Nomad
Priority date: 2010-11-26
Filing date: 2011-11-22
Publication date: 2012-05-31
Also published as: FR2968105A1

Abstract

Il est proposé un procédé d'obtention de caractère au moyen d'un terminal comprenant un écran tactile et une caméra, le terminal étant placé dans un mode de prévisualisation dans lequel l'écran tactile affiche en temps réel une image d'une zone d'intérêt contenant le caractère à traiter, visée par la caméra. Le terminal est tel qu'il effectue des étapes consistant à : - détecter (700) qu'une zone de l'écran tactile a été touchée par un utilisateur du terminal, le caractère à traiter étant présent dans la zone d'écran touchée; - sur détection qu'une zone de l'écran tactile a été touchée, déterminer (701) des coordonnées associées à la zone d'écran touchée, dans un repère préalablement défini sur l'écran tactile; - obtenir (701) une image numérique correspondant à l'image affichée sur l'écran tactile à l'instant auquel la zone de l'écran tactile a été touchée; - obtenir le caractère à traiter, à partir de l'image numérique et des coordonnées déterminées.

Description

Procédé d'obtention de caractères au moyen d'un terminal comprenant un écran tactile, produit programme d'ordinateur, moyen de stockage et terminal correspondants.

1. DOMAINE DE L'INVENTION

Le domaine de l'invention est celui des dispositifs (ou terminaux) comprenant un écran tactile et une caméra (ou cellule optique). Plus précisément, l'invention concerne une technique permettant d'obtenir un caractère ou une chaîne de caractères texte (non manuscrit) au moyen de tels dispositifs. L'invention s'applique notamment, mais non exclusivement, à l'obtention de caractères (formant un mot ou un groupe de mots) au moyen d'un dispositif portable comprenant un tel écran tactile et une telle caméra, par exemple, un téléphone intelligent (« smartphone » en anglais).

2. ARRIÈRE-PLAN TECHNOLOGIQUE

On connaît à ce jour de plus en plus de dispositifs comprenant un écran tactile et une caméra, comme les téléphones mobiles, les assistants numériques personnels (dits PDAs) ou encore les ordinateurs portables.

De nombreux outils d'apprentissage et d'entraînement de langue ont été développés. Ces outils consistent en des applications ludoéducatives (applications de traduction, de recherche de définition, de synonyme, ... ) en rapport avec un mot ou un groupe de mot obtenu, par exemple, au moyen d'un téléphone mobile comprenant un écran tactile et une caméra.

Les techniques classiques d'obtention de caractères repose sur l'utilisation d'adjuvant ergonomique (cadre, glissières, poignées de sélection, etc.).

Il est donc traditionnellement proposé d'obtenir au préalable une image numérique d'une zone d'intérêt (par exemple, une zone d'un document écrit, d'une page d'un livre, d'un écran, d'un panneau de signalétique en pays étranger, ...) contenant le mot à traiter, puis de piloter manuellement, via l'écran tactile du téléphone mobile, un adjuvant ergonomique pour sélectionner dans l'image numérique préalablement obtenue le mot à traiter.

La figure 1 présente un exemple d'un premier adjuvant ergonomique connu. Dans ce premier exemple, l'adjuvant ergonomique est un cadre de sélection 10 dont la positon d'une première extrémité 11 et la position d'une deuxième extrémité 12 sont définies en fonction des déplacements du doigt de l'utilisateur sur l'écran tactile 13.

La figure 2 présente un exemple d'un deuxième adjuvant ergonomique connu. Dans ce deuxième exemple, l'adjuvant ergonomique est un cadre de sélection 20 placé au centre de l'écran tactile 21. L'utilisateur déplace l'image numérique affichée sur l'écran tactile 21, de manière à placer le mot (ou groupe de mot) qu'il souhaite faire traiter (par exemple, pour en obtenir la traduction) dans le cadre de sélection 20.

Une fois le mot à traiter sélectionné, une technique de reconnaissance optique de caractères (« OCR » pour « Optical Character Récognition » en anglais) est utilisée pour extraire le mot à traiter de l'image numérique. Le mot extrait est ensuite transmis vers un serveur hébergeant, par exemple, une application de traduction de mot de langue anglaise en langue française.

Ces techniques classiques d'obtention de caractères présentent un certain nombre d'inconvénients. En effet, l'ergonomie de ces techniques connues est limitée par le fait que l'utilisateur doit tout d'abord prendre une photo de la zone d'intérêt contenant le mot à traiter, puis manipuler un adjuvant ergonomique (cadre, glissières, poignées de sélection, etc.) pour sélectionner le mot à traiter, et le cas échéant naviguer dans un menu pour valider la sélection du mot à traiter. Ainsi, l'utilisation d'un tel adjuvant se traduit par l'exécution par l'utilisateur d'une pluralité d'opérations manuelles. Ce qui est contraignant et long.

En outre, et en particulier pour la raison exposée ci-dessus, ces techniques classiques d'obtention de caractères sont mal adaptées pour les novices en nouvelles technologies, les enfants et les personnes souffrant d'un handicap de la main.

3. OBJECTIFS DE L'INVENTION

L'invention, dans au moins un mode de réalisation, a notamment pour objectif de pallier ces différents inconvénients de l'état de la technique.

Plus précisément, dans au moins un mode de réalisation de l'invention, un objectif est de fournir une technique qui permette à un utilisateur de sélectionner et d'obtenir facilement et efficacement un ou des caractères à traiter, sans devoir manipuler d'adjuvant ergonomique. Au moins un mode de réalisation particulier de l'invention a pour objectif de fournir une telle technique qui soit ergonomique et limite les opérations manuelles devant être effectuées par l'utilisateur.

Au moins un mode de réalisation particulier de l'invention a pour objectif de fournir une telle technique qui permette de restituer rapidement à l'utilisateur le ou les caractères qu'il a sélectionné.

Un autre objectif d'au moins un mode de réalisation de l'invention est de fournir une telle technique qui soit compatible avec tous les terminaux mobiles existants comprenant un écran tactile et une caméra.

Un autre objectif d'au moins un mode de réalisation de l'invention est de fournir une telle technique qui soit notamment bien adaptée aux novices en nouvelles technologies, aux enfants et aux personnes souffrant d'un handicap de la main.

Enfin, dans au moins un mode de réalisation de l'invention, un autre objectif est de fournir une telle technique qui soit simple à mettre en œuvre et peu coûteuse.

4. EXPOSÉ DE L'INVENTION

Dans un mode de réalisation particulier de l'invention, il est proposé un procédé d'obtention d'au moins un caractère à traiter au moyen d'un terminal comprenant un écran tactile et une caméra, ledit terminal étant placé dans un mode de prévisualisation dans lequel l'écran tactile affiche en temps réel une image d'une zone d'intérêt contenant ledit au moins un caractère à traiter, visée par la caméra.

Le terminal est tel qu'il effectue des étapes consistant à :

détecter qu'une zone de l'écran tactile a été touchée par un utilisateur dudit terminal, ledit au moins un caractère à traiter étant présent dans la zone d'écran touchée ; sur détection qu'une zone de l'écran tactile a été touchée :

o déterminer des coordonnées associées à la zone d'écran touchée, dans un repère préalablement défini sur l'écran tactile ;

o obtenir une image numérique correspondant à l'image affichée sur l'écran tactile à l'instant auquel ladite zone de l'écran tactile a été touchée ; o déterminer une fenêtre d'encadrement à appliquer sur ladite image numérique, en fonction des coordonnées associées à la zone d'écran touchée, ladite fenêtre d'encadrement étant configurée pour délimiter une portion de l'image numérique correspondant à l'image binaire dudit au moins un caractère à traiter ;

o appliquer ladite fenêtre d'encadrement sur ladite image numérique, de manière à obtenir l'image binaire dudit au moins un caractère à traiter ;

obtenir ledit au moins un caractère à traiter, par application d'une reconnaissance optique de caractères sur l'image binaire dudit au moins un caractère à traiter.

Ainsi, il est proposé de pointer la caméra du terminal sur un mot (ou un groupe de mot) (c'est-à-dire une chaîne de caractères) et de le sélectionner simplement en le touchant sur l'écran tactile du terminal. La sélection du mot à traiter se résume donc à un seul toucher de l'écran tactile. Ce qui est particulièrement simple et intuitif pour l'utilisateur. La sélection du mot à traiter s'effectue de manière dynamique, c'est-à-dire à partir d'une image affichée en temps réel sur l'écran tactile.

La sélection du mot à traiter entraîne la détermination des coordonnées de la zone d'écran touchée. En d'autres termes, on détermine les coordonnées du point de contact du doigt de l'utilisateur (ou de la pointe d'un stylet) sur l'écran tactile.

Par ailleurs, il est proposé une capture d'écran automatique. En effet, il est proposé de conditionner l'obtention (et en ce sens la capture) de l'image affichée sur l'écran tactile par la détection d'un toucher de l'écran tactile. La prise d'image de la zone d'intérêt est donc effectuée automatiquement après la sélection effective du mot à traiter. L'utilisateur est donc libéré de cette tâche.

Ainsi, l'invention repose sur une approche tout à fait nouvelle et inventive pour l'obtention de caractère. En effet, et contrairement aux techniques de l'art antérieur précitées, on n'utilise pas d'adjuvant ergonomique pour obtenir un mot depuis une image capturée avant la sélection effective du mot par l'utilisateur, mais des coordonnées d'un point touché sur l'écran tactile pour obtenir un mot depuis une image capturée après la sélection effective du mot par l'utilisateur.

De façon avantageuse, l'étape consistant à déterminer une fenêtre d'encadrement comprend des étapes consistant à :

convertir ladite image numérique en une première image binaire ;

déterminer au moins une zone de caractère(s) potentielle, par application d'au moins une opération morphologique sur ladite première image binaire ; sélectionner une zone parmi la ou les zone(s) de caractère(s) potentielle(s), en fonction desdites coordonnées déterminées ;

déterminer ladite fenêtre d'encadrement de ladite zone sélectionnée, par application d'une séquence de balayage prédéterminée de ladite zone sélectionnée.

Ainsi, on réalise un traitement d'image simple et efficace pour obtenir l'image binaire (image en noir et blanc) du caractère (ou de la chaîne de caractères) à traiter.

Avantageusement, l'étape consistant à convertir ladite image numérique en une première image binaire comprend :

- une étape de conversion de l'image numérique en une image définie par des niveaux de gris ; et

- une étape de binarisation utilisant un procédé de seuillage prédéterminé pour convertir l'image définie par des niveaux de gris en ladite première image binaire, chaque pixel de l'image définie par des niveaux de gris ayant une valeur inférieure à un seuil prédéfini étant converti dans ladite première image binaire en une valeur 0 correspondant au noir, et chaque pixel de l'image définie par des niveaux de gris ayant une valeur supérieure ou égale audit seuil prédéfini étant converti dans ladite première image binaire en une valeur 1 correspondant au blanc.

De façon avantageuse, le procédé est tel qu'il comprend des étapes consistant à : appliquer ladite fenêtre d'encadrement sur ladite image définie par des niveaux de gris, de manière à obtenir une image en niveaux de gris dudit au moins un caractère à traiter ;

afficher sur l'écran tactile l'image en niveaux de gris dudit au moins un caractère à traiter.

L'image du ou des caractère(s) obtenu(s) par le terminal est restituée à l'utilisateur via l'écran tactile. Ainsi, l'utilisateur peut contrôler que le ou les caractère(s) obtenu(s) par le terminal correspondent à celui ou ceux qu'il a touché (c' est-à-dire sélectionné) sur l'écran tactile.

Avantageusement, l'étape consistant à déterminer au moins une zone de caractère(s) potentielle comprend une étape d'application sur ladite première image binaire d'une opération morphologique assurant une dilatation, suivie d'une opération morphologique assurant une érosion. En isolant les mots entre eux, on renforce la fiabilité de capture des mots, dans le sens où l'on réduit les risques de fausse détection lorsque les mots sont proches les uns des autres.

Dans un premier mode de réalisation avantageux, l'étape consistant à obtenir ledit au moins un caractère à traiter comprend en outre une étape consistant à appliquer une reconnaissance optique de caractères sur ladite image binaire dudit au moins un caractère à traiter.

Dans ce premier cas particulier, le terminal comprend un module (ou logiciel) de reconnaissance optique de caractères. Le traitement de reconnaissance d'un texte dans une image est donc effectué en local sur le terminal. Le traitement est donc rapide (pas de latence réseau).

Dans un second mode de réalisation avantageux, l'étape consistant à obtenir ledit au moins un caractère à traiter comprend en outre des étapes consistant à :

- transmettre, via une liaison de communication prédéterminée, une requête comprenant ladite image binaire dudit au moins un caractère à traiter vers un serveur distant comprenant un module de reconnaissance optique de caractères ;

recevoir en provenance dudit serveur distant une réponse comprenant ledit au moins un caractère à traiter.

Dans ce second cas particulier, on déporte le traitement de reconnaissance d'un texte dans une image côté serveur. Ce qui permet de réduire les ressources de calcul utilisées (et donc la consommation d'énergie) par le terminal. Cela permet également de réaliser des traitements supplémentaires et plus lourds côté serveur, par exemple, un traitement de réduction de bruit dans l'image. Après traitement de l'image binaire par le serveur, le terminal reçoit (et dans ce sens obtient) le ou les caractères à traiter.

Avantageusement, ledit terminal est un terminal mobile de radiocommunication.

Dans un autre mode de réalisation, l'invention concerne un produit programme d'ordinateur qui comprend des instructions de code de programme pour la mise en œuvre du procédé précité (dans l'un quelconque de ses différents modes de réalisation), lorsque ledit programme est exécuté sur un ordinateur.

Dans un autre mode de réalisation, l'invention concerne un moyen de stockage lisible par ordinateur, stockant un programme d'ordinateur comprenant un jeu d'instructions exécutables par un ordinateur pour mettre en œuvre le procédé précité (dans l'un quelconque de ses différents modes de réalisation).

Dans un autre mode de réalisation, l'invention concerne un terminal comprenant des moyens d'obtention d'au moins un caractère à traiter, un écran tactile et une caméra, ledit terminal étant placé dans un mode de prévisualisation dans lequel l'écran tactile affiche en temps réel une image d'une zone d'intérêt contenant ledit au moins un caractère à traiter, visée par la caméra.

Les moyens d'obtention sont tels qu'ils comprennent :

des moyens pour détecter qu'une zone de l' écran tactile a été touchée par un utilisateur dudit terminal, ledit au moins un caractère à traiter étant présent dans la zone d'écran touchée ;

des moyens pour déterminer des coordonnées associées à la zone d'écran touchée, dans un repère préalablement défini sur l'écran tactile ;

des moyens pour obtenir une image numérique correspondant à l'image affichée sur l'écran tactile à l'instant auquel ladite zone de l'écran tactile a été touchée ;

des moyens pour déterminer une fenêtre d'encadrement à appliquer sur ladite image numérique, en fonction des coordonnées associées à la zone d'écran touchée, ladite fenêtre d'encadrement étant configurée pour délimiter une portion de l 'image numérique correspondant à l'image binaire dudit au moins un caractère à traiter ; des moyens pour appliquer ladite fenêtre d'encadrement sur ladite image numérique, de manière à obtenir l'image binaire dudit au moins un caractère à traiter ;

des moyens pour obtenir ledit au moins un caractère à traiter, par application d'une reconnaissance optique de caractères sur l'image binaire dudit au moins un caractère à traiter.

Avantageusement, le terminal comprend des moyens de mise en œuvre des étapes du procédé d'obtention tel que décrit précédemment, dans l'un quelconque de ses différents modes de réalisation.

5. LISTE DES FIGURES

D'autres caractéristiques et avantages de l'invention apparaîtront à la lecture de la description suivante, donnée à titre d'exemple indicatif et non limitatif, et des dessins annexés, dans lesquels : la figure 1, décrit ci-dessus en relation avec l'art antérieur, présente un exemple d'un premier adjuvant ergonomique connu ;

la figure 2, décrit ci-dessus en relation avec l'art antérieur, présente un exemple d'un deuxième adjuvant ergonomique connu ;

la figure 3a illustre une étape de sélection d'un mot par un utilisateur d'un terminal selon un mode de réalisation particulier de l'invention ;

la figure 3b illustre une étape d'affichage d'un mot sélectionné selon un mode de réalisation particulier ;

la figure 4 présente un exemple de réseau de communication dans lequel peut être mise en œuvre la présente invention selon un mode de réali sation particulier ;

la figure 5 présente un exemple de terminal dans lequel peut être mise en œuvre la présente invention selon un mode de réalisation particulier ;

la figure 6 présente la structure simplifiée d'un smartphone selon un mode de réalisation particulier de l'invention ;

la figure 7 présente les étapes principales d'un algorithme de traitement d'image mis en œuvre par un terminal, selon un mode de réalisation particulier de l'invention ;

la figure 8a illustre un point de contact selon un mode de réalisation particulier ; la figure 8b illustre une image numérique en niveaux de gris obtenue à l'issue d'une opération de conversion selon un mode de réalisation particulier ;

la figure 8c illustre une image binaire obtenue à l'issue d'une opération de seuillage selon un mode de réalisation particulier ;

la figure 8d illustre une image binaire obtenue à l'issue d'une opération de dilatation selon un mode de réalisation particulier ;

la figure 8e illustre une image binaire obtenue à l'issue d'une opération d'érosion selon un mode de réalisation particulier ;

la figure 8f illustre une étape de sélection d'une tâche selon un mode de réalisation particulier de l'invention ;

la figure 8g illustre une fenêtre d'encadrement selon un mode de réalisation particulier ; et la figure 8h illustre une image numérique en niveaux de gri s d ' un mot sélectionné selon un mode de réalisation particulier.

6. DESCRIPTION D'UN MODE DE REALISATION

L'invention propose d'utiliser un terminal (mobile ou non) comprenant un écran tactile et une caméra pour obtenir un caractère, un mot ou un groupe de mots contenu ou affiché sur n'importe quel type de support (document papier, écran, panneau, . . . ). Plus précisément, l'invention consiste à viser un mot à l'aide de la caméra du terminal et toucher l'image de ce mot affichée en temps réel sur l'écran tactile du terminal.

Dans la suite de la description, on suppose à titre d'exemple que le terminal selon l'invention est un smartphone comprenant un écran tactile et une caméra. Bien entendu, tout autre type de terminal comprenant un écran tactile et une caméra (PDA, tablette électronique, etc.) peut être envisagé.

On décrit ci-dessous, un exemple d'application du procédé selon l'invention, dans lequel un utilisateur d'un smartphone souhaite capturer un mot contenu dans un document écrit pour en obtenir la définition.

La figure 4 présente un exemple de réseau de communication dans lequel peut être mise en œuvre la présente invention selon un mode de réalisation particulier.

Le réseau de communication 400 comprend un smartphone 41 et un serveur distant 42. Le smartphone 41 communique avec le serveur 42 via, par exemple, le réseau Internet 43. Dans cet exemple, le serveur 42 comprend un module de reconnaissance optique de caractères (non représenté) et une base de données lexicale 421, par exemple, du type WordNet (logiciel libre).

La figure 6 présente la structure simplifiée du smartphone 41 selon un mode de réalisation particulier de l'invention.

Le smartphone 41 comprend un écran tactile 61 et une caméra 62 connectés à un module de calcul ou microcontrôleur 63 (noté « μο »). Le microcontrôleur 63 coopère avec une mémoire vive 64, ou RAM, et une mémoire morte 65, ou ROM. Le microcontrôleur 63 est capable d'exécuter des instructions lors de la mise sous tension du smartphone à partir de la ROM 65. Après la mise sous tension, le microcontrôleur 63 est capable d'exécuter des instructions de la RAM 64 relatives à un programme d'ordinateur (éventuellement téléchargeable depuis un réseau), une fois ces instructions chargées à partir de la ROM 65 ou d'une mémoire externe (non illustrée sur la présente figure). Un tel programme d'ordinateur, s'il est exécuté par le microcontrôleur 63, provoque l'exécution de toute ou partie des étapes d'un algorithme de traitement d'image décrit ci-après en relation avec la figure 7.

Le smartphone 41 comprend un module d'émission/réception 66 en charge d'émettre vers et recevoir en provenance du serveur 42 des données.

De nouveau en référence à la figure 4, lors d'une première étape E30, et comme illustré sur la figure 3a, l'utilisateur positionne d'abord son smartphone 41 en regard du document écrit 44 contenant le mot à traiter 45. Dans l'exemple de la figure 3a, le mot à traiter est le mot « elementum ». Lors de cette étape E30, le smartphone 41 est placé dans un mode de prévisualisation (ou mode « appareil photo ») dans lequel il affiche en temps réel sur son écran tactile 411 une image visée par sa caméra. Ensuite, l'utilisateur touche avec son doigt (ou le bout d'un stylet) le mot « elementum » affiché sur l'écran tactile 411.

Lors d'une étape E31, le smartphone 41 détecte un appui sur l'écran tactile 411 et exécute un algorithme de traitement d'image (détaillé ci-dessous en relation avec la figure 7), de façon à obtenir une image du mot touché (c'est-à-dire du mot sélectionné) par l'utilisateur.

Comme on le verra dans la suite de ce document, le principe général de l'invention repose sur l'utilisation de coordonnées d'une zone d'écran tactile touchée par un utilisateur pour déterminer un cadre (aussi appelé fenêtre d'encadrement) permettant d'extraire de manière automatique un mot depuis une image prise à l'instant auquel la zone d'écran tactile a été touchée par l'utilisateur.

L'image du mot à traiter (c'est-à-dire du mot sélectionné par l'utilisateur) est ensuite affichée sur l'écran tactile 41 1. Comme décrit ci-après, l'image affichée est une image numérique en niveaux de gris. Dans l'exemple de la figure 3b, l'image du mot à traiter est affichée en avant-plan dans une zone 46 située en haut à gauche de l'écran tactile 41 1. Avantageusement, l 'image du mot à traiter est affichée suivant des paramètres d'affichage configurés de telle manière qu'il est aisé de distinguer le mot « elementum » par rapport aux mots affichés en fond d'écran. Dans l'exemple illustré sur la figure 3b, des icônes correspondant chacune à une application ludoéducative autour du mot « elementum » sont affichées en bas de l'écran tactile 411. Par exemple, l'icône 471 correspond à une application à base de définition, l'icône 472 correspond à une application à base de traduction, et l'icône 473 correspond à une application de synthèse vocale.

Lors d'une étape E32, l'utilisateur qui souhaite obtenir la définition du mot « elementum » appuie sur l'icône 471. Le smartphone 41 construit alors une requête comprenant une image binaire du mot à traiter, puis il transmet cette requête vers le serveur 42, via le réseau Internet 43.

Lors d'une étape E33, le serveur 42 utilise son module de reconnaissance optique de caractères (non représenté) pour récupérer le mot à traiter présent dans l'image binaire reçue.

Lors d'une étape E34, le serveur 42 recherche le mot à traiter « elementum » dans la base de données lexicale 421 et récupère des données relatives à la définition du mot « elementum ».

Ensuite, lors d'une étape E35, le serveur 42 construit une réponse comprenant les données relatives à la définition du mot « elementum ». Ces données sont, par exemple, encapsulées dans un document XML. Le serveur 42 transmet cette réponse vers le smartphone 41, via le réseau Internet 43.

Enfin, le smartphone 41 reçoit et traite la réponse, puis restitue la définition du mot « elementum » à l'utilisateur via, par exemple, l'écran tactile 411.

La figure 7 présente les étapes principales d'un algorithme de traitement d'image mis en œuvre par le smartphone 41, selon un mode de réalisation particulier de l'invention.

Sur détection d'un appui sur l'écran tactile 41 1 (étape 700), le smartphone 41 détermine (étape 701) les coordonnées associées à la zone d'écran tactile touchée par l'utilisateur, dans un repère prédéfini sur l'écran tactile.

Les coordonnées déterminées correspondent à des coordonnées (x, y) d'un point de contact dans le repère de l'écran tactile.

La détermination de ces coordonnées est classique, et n'est donc pas décrite dans le présent document. Les coordonnées du point de contact sont ensuite enregistrées, par exemple, dans la mémoire RAM 64 (figure 6) du smartphone.

A cette même étape 701, le smartphone commande la capture de l'image affichée sur l'écran tactile à l'instant auquel la zone d'écran tactile a été touchée par l'utilisateur.

L'image capturée (image numérique) est ensuite enregistrée, par exemple, dans la mémoire RAM 64 (figure 6) du smartphone.

La figure 8a illustre le point de contact 801 dont les coordonnées sont déterminées par le smartphone et l'image 800 capturée par le smartphone à l'étape 701.

Dans l'exemple de la figure 8a, le mot à traiter, c'est-à-dire le mot qui a été touché par l'utilisateur à l'étape 701, et le mot anglais « substrings ».

A l'étape 702, le smartphone procède à une transformation de l'image numérique capturée à l'étape 701 en une image numérique en niveaux de gris.

L'image numérique en niveaux de gris est ensuite enregistrée, par exemple, dans la mémoire RAM 64 (figure 6) du smartphone.

Cette étape 702 de conversion peut être réalisée par des techniques classiques. Elle consiste en une simple conversion d'une image couleur numérique, généralement représentée par trois matrices dans l'espace couleur, par exemple RVB, en une matrice en niveaux de gris. Cette étape est nécessaire pour l'étape de binarisation qui sera détaillée ci-après.

L' étape 702 peut également le cas échéant s' accompagner d'une étape de linéarisation ayant pour but d'accentuer les valeurs de noir et de blanc.

La figure 8b illustre l'image numérique en niveaux de gris obtenue à l'issue de l'étape 702.

A l'étape 703, le smartphone procède à une binarisation de l'image numérique en niveaux de gris obtenue à l'issue de l'étape 702.

La conversion de l'image numérique en niveaux de gris en une image binaire s'opère par seuillage. Ainsi, l'image binaire présente une valeur de 0 (correspondant au noir) pour tous les pixels de l'image numérique en niveaux de gris qui ont une valeur inférieure à un seuil local prédéterminé et une valeur de 1 (correspondant au blanc) pour tous les autres pixels. Dans un mode de réalisation particulier, à cette étape 703 le smartphone procède à l'implémentation exhaustive de l'algorithme de Sauvola. L'algorithme de Sauvola est bien connu de l'homme du métier. On peut notamment se référer à l'article de J. Sauvola, M. PietikaKinen intitulé « Adaptive document image binarization » paru dans Pattern Récognition 33(2), pp. 225-236, 2000.

Avantageusement, le calcul du seuil local tient compte de la variance locale autour du point considéré. On est donc certain que le seuillage conviendra parfaitement à la zone touchée.

Avantageusement, l'implémentation de l'algorithme de seuillage est basée sur un calcul par image intégrale. Ceci présente l'avantage de réduire les ressources et les temps de calculs. Ce type de calcul par image intégrale est notamment décrit dans l'article de F. Shafaita , D. Keysersa , T. M. Breuel intitulé « EDcient Implementation of Local Adaptive Thresholding Techniques Using Intégral Images ».

La figure 8c illustre l'image binaire obtenue à l'issue de l'étape 703.

Pour mettre en évidence chaque mot et isoler les mots entre eux, le smartphone applique une série d'opérations morphologiques sur l'image binaire.

Ainsi à l'étape 704, le smartphone procède à une opération morphologique assurant une dilatation. Cette opération a pour but de former des taches noires (aussi appelées par la suite zones de texte potentielles) représentant les mots dans l'image.

La taille de la fenêtre de convolution (c'est-à-dire le paramètre déterminant la grosseur des tâches) dépend de l'espacement entre les caractères et la grosseur des lettres dans l'image.

Dans un premier mode de réalisation, la taille de la fenêtre de convolution est prédéfinie par l'utilisateur.

Dans un second mode de réalisation, la taille de la fenêtre de convolution est déterminée de manière dynamique par le smartphone, de façon à optimiser le résultat de la sélection dynamique.

La figure 8d illustre l'image binaire obtenue après l'opération de dilatation effectuée à l'étape 704.

A l'étape 705, le smartphone procède à une opération morphologique assurant une érosion. Cette opération d' érosion est effectuée pour limiter le risque de superposition des tâches (obtenues après l'opération de dilatation effectuée à l'étape 704). En d'autres termes, on sépare les tâches entre elles. On réduit ainsi le risque que deux tâches n'en forment qu'une seule, d'une ligne à l'autre par exemple.

Avantageusement, la taille de la fenêtre de convolution utilisée pour l'érosion est différente de celle utilisée pour la dilatation. Dans un mode de réalisation particulier, la taille de la fenêtre de convolution utilisée pour l'érosion est telle qu'elle permet de réduire de 1 à 2 pixels la taille des taches formées à l'étape 704, au cas où deux taches se seraient malencontreusement rejointes.

La figure 8e illustre l'image binaire obtenue après l' opération d'érosion effectuée à l'étape 705.

A l'étape 706, le smartphone utilise les coordonnées du point de contact enregistrées, par exemple, dans la mémoire RAM 64 (figure 6) du smartphone pour rechercher une tâche parmi les tâches présentent dans l'image binaire obtenue après l'opération d'érosion effectuée à l'étape 705.

Plus précisément, le smartphone vérifie si les coordonnées du point de contact correspondent à un pixel faisant partie d'une tâche dans l'image binaire érodée. Si tel est le cas, alors le smartphone détermine les coordonnées d'un pixel appartenant à cette tâche. Dans un mode de réalisation particulier, le smartphone détermine les coordonnées du pixel correspondant, par exemple, au centre de la tâche trouvée.

En revanche, si les coordonnées du point de contact ne correspondent à aucun pixel faisant partie d'une tâche, en d'autres termes, par exemple si les coordonnées du point de contact correspondent à un pixel (blanc) de l'image situé entre deux tâches, alors le smartphone détermine la tâche la plus proche du pixel pointé par les coordonnées du point de contact. Ensuite, le smartphone détermine les coordonnées du pixel correspondant, par exemple, au centre de la tâche déterminée.

La figure 8f illustre la tâche sélectionnée 802 par le smartphone et le pixel 803 (correspondant au centre de la tâche sélectionnée) dont les coordonnées sont déterminées par le smartphone à l'étape 706.

A l'étape 707, le smartphone détermine l'ensemble des pixels constituant la tâche sélectionnée, à partir des coordonnées du pixel 803 déterminées par le smartphone à l'étape 706. Plus précisément, le smartphone effectue une séquence de balayage prédéterminée en partant du pixel 803. Dans un mode de réalisation particulier, les pixels sont balayés verticalement et horizontalement successivement dans les deux sens jusqu'à ce que la totalité de la tâche soit isolée.

Ensuite, le smartphone détermine les coordonnées d'une fenêtre d'encadrement (un rectangle) délimitant la tâche sélectionnée. Cette détermination est classique en soi.

La figure 8g illustre la fenêtre d'encadrement 804 déterminée à l'étape 707.

A l'étape 708, le smartphone applique la fenêtre d'encadrement 804 sur l'image numérique en niveaux de gris enregistrée, par exemple, dans la mémoire RAM 64 (figure 6) du smartphone, pour obtenir l'image numérique en niveaux de gris du mot touché (c'est-à-dire du mot sélectionné) par l'utilisateur. Enfin, et comme illustré sur la figure 8h, le smartphone affiche sur l'écran tactile l'image numérique en niveaux de gris 805 du mot « substrings » touché par l'utilisateur.

La figure 5 présente un exemple de terminal dans lequel peut être mise en œuvre la présente invention selon un mode de réalisation particulier.

Le terminal 51 est, par exemple, un smartphone comprenant un écran tactile et une caméra. Dans ce deuxième mode de réalisation particulier, le smartphone 51 comprend un module de reconnaissance optique de caractères et une base de données lexicale. Par exemple, le module de reconnaissance optique de caractères et la base de données lexicale sont installés sur une carte mémoire de type SD qui est destinée à être insérée dans le smartphone 51.

Les étapes E50 et E51 de la figure 5 sont identiques aux étapes E30 et E31 décrites précédemment en relation avec la figure 4, et ne sont donc pas décrites de nouveau ci-après.

A l'issue de l'étape E51 (identique à l'étape E31 de la figure 4), le smartphone 51 affiche sur son écran tactile l'image du mot à traiter.

Lors d'une étape E52, l'utilisateur qui souhaite obtenir la définition du mot à traiter appuie sur l'icône d'une application à base de définition affichée sur l'écran tactile du smartphone 51. Le smartphone 51 obtient une image binaire du mot à traiter, puis utilise son module de reconnaissance optique de caractères pour récupérer le mot à traiter présent dans l'image binaire obtenue. Lors d'une étape E53, le smartphone 51 recherche le mot à traiter dans la base de données lexicale et récupère des données relatives à la définition du mot à traiter.

Enfin, le smartphone 51 traite les données récupérées et restitue à l'utilisateur la définition du mot qu'il a sélectionné à l'étape E50 (identique à l'étape E30 de la figure 4).

Ainsi, selon ce deuxième mode de réalisation particulier, aucune connexion réseau n'est requise. En d'autres termes, le smartphone effectue en local l'ensemble des traitements. Ce qui est plus simple et plus rapide (pas de latence réseau).

Claims

REVENDICATIONS

1. Procédé d'obtention d'au moins un caractère à traiter au moyen d'un terminal comprenant un écran tactile et une caméra, ledit terminal étant placé dans un mode de prévisualisation dans lequel l'écran tactile affiche en temps réel une image d'une zone d'intérêt contenant ledit au moins un caractère à traiter, visée par la caméra,

caractérisé en ce que ledit terminal effectue des étapes consistant à :

détecter (700) qu'une zone de l'écran tactile a été touchée par un utilisateur dudit terminal, ledit au moins un caractère à traiter étant présent dans la zone d'écran touchée ;

sur détection qu'une zone de l'écran tactile a été touchée :

o déterminer (701) des coordonnées associées à la zone d'écran touchée, dans un repère préalablement défini sur l'écran tactile ;

o obtenir (701) une image numérique correspondant à l'image affichée sur l'écran tactile à l'instant auquel ladite zone de l'écran tactile a été touchée ; o déterminer (707) une fenêtre d'encadrement à appliquer sur ladite image numérique, en fonction des coordonnées associées à la zone d'écran touchée, ladite fenêtre d'encadrement étant configurée pour délimiter une portion de l'image numérique correspondant à l'image binaire dudit au moins un caractère à traiter ;

o appliquer (708) ladite fenêtre d'encadrement sur ladite image numérique, de manière à obtenir l'image binaire dudit au moins un caractère à traiter ;

2. Procédé selon la revendication 1 , caractérisé en ce que l'étape consistant à déterminer une fenêtre d'encadrement comprend des étapes consistant à :

convertir (702, 703) ladite image numérique en une première image binaire ;

déterminer (704, 705) au moins une zone de caractère(s) potentielle, par application d'au moins une opération morphologique sur ladite première image binaire ;

sélectionner (706) une zone parmi la ou les zone(s) de caractère(s) potentielle(s), en fonction desdites coordonnées déterminées ; déterminer (707) ladite fenêtre d' encadrement de ladite zone sélectionnée, par application d'une séquence de balayage prédéterminée de ladite zone sélectionnée.

3. Procédé selon la revendication 2, caractérisé en ce que l'étape consistant à convertir ladite image numérique en une première image binaire comprend :

4. Procédé selon la revendication 3, caractérisé en ce qu'il comprend des étapes consistant à :

appliquer ladite fenêtre d'encadrement sur ladite image définie par des niveaux de gris, de manière à obtenir une image en niveaux de gris dudit au moins un caractère à traiter ;

5. Procédé selon l'une quelconque des revendications 2 à 4, caractérisé en ce que l'étape consistant à déterminer au moins une zone de caractère(s) potentielle comprend une étape d'application sur ladite première image binaire d'une opération morphologique assurant une dilatation, suivie d'une opération morphologique assurant une érosion.

6. Procédé selon l'une quelconque des revendications 1 à 5, caractérisé en ce que l'étape consistant à obtenir ledit au moins un caractère à traiter comprend des étapes consistant à :

- transmettre, via une liaison de communication prédéterminée, une requête comprenant ladite image binaire dudit au moins un caractère à traiter vers un serveur distant comprenant un module de reconnaissance optique de caractères ; recevoir en provenance dudit serveur distant une réponse comprenant ledit au moins un caractère à traiter.

7. Procédé selon l'une quelconque des revendications 1 à 6, caractérisé en ce que ledit terminal est un terminal mobile de radiocommunication.

8. Produit programme d'ordinateur, caractérisé en ce qu ' il comprend de s instructions de code de programme pour la mise en oeuvre du procédé d'obtention selon au moins une des revendications 1 à 7, lorsque ledit programme est exécuté sur un ordinateur.

9. Moyen de stockage lisible par ordinateur, stockant un programme d'ordinateur comprenant un jeu d'instructions exécutables par un ordinateur pour mettre en œuvre le procédé d'obtention selon au moins une des revendications 1 à 7.

10. Terminal comprenant des moyens d'obtention d'au moins un caractère à traiter, un écran tactile et une caméra, ledit terminal étant placé dans un mode de prévisualisation dans lequel l'écran tactile affiche en temps réel une image d'une zone d'intérêt contenant ledit au moins un caractère à traiter, visée par la caméra,

caractérisé en ce que lesdits moyens d'obtention comprennent :

- des moyens pour déterminer des coordonnées associées à la zone d'écran touchée, dans un repère préalablement défini sur l'écran tactile ;

des moyens pour déterminer une fenêtre d'encadrement à appliquer sur ladite image numérique, en fonction des coordonnées associées à la zone d'écran touchée, ladite fenêtre d'encadrement étant configurée pour délimiter une portion de l'image numérique correspondant à l'image binaire dudit au moins un caractère à traiter ; des moyens pour appliquer ladite fenêtre d'encadrement sur ladite image numérique, de manière à obtenir l'image binaire dudit au moins un caractère à traiter ; des moyens pour obtenir ledit au moins un caractère à traiter, par application d'une reconnaissance optique de caractères sur l'image binaire dudit au moins un caractère à traiter.