WO2006000660A2 - Dynamic method for automatically putting on-line extracts from paper document holdings - Google Patents

Dynamic method for automatically putting on-line extracts from paper document holdings Download PDF

Info

Publication number
WO2006000660A2
WO2006000660A2 PCT/FR2005/001092 FR2005001092W WO2006000660A2 WO 2006000660 A2 WO2006000660 A2 WO 2006000660A2 FR 2005001092 W FR2005001092 W FR 2005001092W WO 2006000660 A2 WO2006000660 A2 WO 2006000660A2
Authority
WO
WIPO (PCT)
Prior art keywords
documents
dynamic method
user
image
search
Prior art date
Application number
PCT/FR2005/001092
Other languages
French (fr)
Other versions
WO2006000660A3 (en
Inventor
Philippe Belin
Original Assignee
Immanens Sas
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Immanens Sas filed Critical Immanens Sas
Publication of WO2006000660A2 publication Critical patent/WO2006000660A2/en
Publication of WO2006000660A3 publication Critical patent/WO2006000660A3/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems

Definitions

  • the invention relates to a dynamic process for automatically placing on line wired user stations a selection of extracts from a collection of documents available on paper.
  • the invention relates to the field of placing large paper stocks online or, in general, documents for which a source file is not available.
  • the invention is more particularly the consultation on public networks of documents "heavy" in terms of file size, for example greater than the megabyte. These documents, such as: printed documents or press, catalogs, communication documents, photographs, plans, maps, etc., are usually difficult to transfer over the networks.
  • Another object of the invention is to allow secure consultation of documents.
  • the search engines of the state of the art essentially operate on information provided in the form of office documents or "PDF Text" format generated from these same office tools.
  • character recognition products for example optical recognition or "OCR" hide the text information behind the image. It is then possible to index this text in an engine, then to produce the entire image when it meets the search criterion.
  • OCR optical recognition
  • the image is always presented as a whole: it is then necessary to open the document in its entirety to validate if this one is indeed interesting, from where a very laborious stripping of the Result of the research.
  • WAN response times are very slow because they manipulate the image, which requires heavy files.
  • only limited intranet applications on very fast networks were able to emerge. It therefore appears difficult, if not impossible, to display the result of character recognition to the user over wide area networks for qualitative reasons, especially on color documents.
  • the search result lists are not really usable because the context of the searched word is not provided.
  • the access time to documents is prohibitive on WAN networks.
  • the invention proposes an operating kinematics which overcomes these shortcomings in order to allow, in particular, a consultation of documents under optimized conditions in terms of access time, selectivity and quality of this access.
  • the approach taken by the invention consists in constructing a search engine capable of correctly exploiting, that is to say without destructuring, the text in the image on documents provided in their final form, namely on a medium of paper, by direct extraction as a thumbnail.
  • the subject of the invention is a dynamic method of automatically placing, on wired networked user stations, a collection of documents available on paper, consisting of (i) developing an industrial production line realizing , on pages coming from digitized or digital documents, treatments for improving the quality of the document and extracting information relating to the text, their geolocation then their indexing and compression of these pages, (ii) presenting to the user who has requested at least one word from the search engine for full text information and associated metadata, a result list in the form of dynamically generated thumbnails centered on the word (s) search (s) thus isolating a context of use of the page according to a given mode, and (iii) make by a plug-in an accelerated presentation of the page to the user for reading , whatever its resolution.
  • the plug-in is a document viewing plug-in of any kind, for example an image or a composite document.
  • the operating kinematics of the invention thus makes it possible to avoid the need to systematically open any document proposed by the search engine and to respect the waiting time tolerated by a user, which does not exceed statistically 5 seconds, at the same time. access to documents especially large documents.
  • the chain is fed from files from paper scanning and / or from PDF or office digital files; the sorting of the search result is carried out from the font of at least one searched keyword to propose a function which is equivalent to a search by title; a filtering is carried out from types of descriptive fields of metadata such as dates, document titles, themes, headings, advertising messages, etc., defined and previously informed; the image compression is of progressive pyramidal type; - The mode of presentation of the thumbnails being selected from short thumbnails, long thumbnails, and the mixed presentation mode of the thumbnail associated with a thumbnail representation of the page in its entirety; an encryption function of the image is performed; interactivity functions in the plug-in make it possible to make sensitive areas of the image to refer to hyperlinks, or to graphically select an area of the image; - search engine documentary tools allow a better appropriation of the detected documentary collection, such as "my documents” to build thematic files, "my alerts" to notify the user as soon as a new document is recognized by the request of research.
  • FIG. 1 a document search by the introduction of a word - Key, - Figures 2 to 4, different modes of presentation of this result of the search, - Figure 5, the visualization of the page chosen by the plug-in, and - Figures 6 and 7, two documentary tools. appropriation of the documentary background.
  • the search engine is similar to a "Google" type of engine, in that it takes up again the simplicity of use and, for each element of the result list, a presentation contextual of the word found.
  • the fundamental difference lies, as indicated in the introduction above, in the principle of a direct materialization of this context by extracting the document as thumbnails.
  • the engine is powered by an industrial production line that makes, from files from scanning paper documents: - a qualitative treatment to improve the image (straightening, trimming, gamma correction, deflouage, association pages right & left , etc.), - the extraction of text by OCR with an OCR tool - the geolocation of text information, namely the geographical location in the page of each character - the selective analysis of the information contained in the text pages of the document by recognition of characters in order to extract identification metadata, in the example the headings (date, title, theme, topic, advertising messages, etc.), - indexing full text of the document and document metadata being performed by a known indexing engine, - compression and encryption of documents, as detailed below.
  • This chain is powered in particular from files from the scanning paper by high speed scanner.
  • This background chain, or "back office” has a high degree of automation, thus achieving a very low cost price.
  • the full text search is performed from the introduction of the searched keyword 20, for example the word "Porsche" as illustrated in Figure 1.
  • the presentation is "dynamic” in that it is performed, using a thumbnail display tool called “Image Context”, as shown below: - the search is for full text information, as extracted from the document by the production line; the search result is then presented to the user in the form of successive thumbnails generated dynamically by means of the geolocation information of the word in each page containing this word, taking into account the zoom factor adapted to be applied, the thumbnails being centered on the most relevant word 20 of the page; - The user can then quickly exploit a result list without the need to open each document, which represents a saving of time and significant comfort. Moreover, to the extent that a glance makes it possible to instantly reject responses that are clearly unrelated to the real subject of the search, the user does not need to be an expert in documentary research.
  • the dynamic search engine is based on different text search engines market, which it exploits the possibilities: relevance, fuzzy search, taking into account dates, ...
  • two additional features are advantageously integrated into the search engine dynamic: - the sorting of the search result from the font of the searched and found keyword; this feature also makes it possible to search titles; - Filtering from types of topics defined and filled in beforehand.
  • the invention uses an access activation program, or visualization "plug-in", by a progressive pyramidal image compression.
  • the image document is made accessible from the user's computer through the plug-in ( Figure 5).
  • This consultation tool exploits the images previously compressed by the production line. These are first cut into hierarchical tiles of different definitions by the compression software, the plug-in then ensuring the management of requests to the image server and the display of the only portion of image 50 necessary for the realization of the screen display. So, concretely, the plug-in will only look on the server for the information needed for the display and does not wait to have retrieved all the information to start displaying.
  • the added value of the plug-in resides mainly: (i) in its activation in network layer which makes it possible to implement different strategies of request to the server to adapt to the bandwidth of the used network (RTC, ADSL, very broadband) , and (ii) in the technical implementation of the compression mechanisms that only use the CPU power of the user station, thus making it possible to serve a large number of user stations from the same server.
  • the plug-in offers simplified ergonomics and works entirely in memory: no file filing, temporary or permanent, is performed on the user's computer.
  • Interactivity functions in the plug-in make it possible: to highlight zones 39 of the image 50 by highlighting, to make areas 51 sensitive to which the user can perform an action; the preprocessing of the production line thus makes it possible to generate hypertext links, for example a link with addresses of the network, such as www.societe.com, - to graphically select an area of the image to perform a correction of the OCR , or more generally any type of action.
  • an encryption function is applied to the header of the image by polynomial algorithms of the 128-bit type. Encrypted header images provide a better defense against hacking.
  • the built-in mechanisms match the documents to their server. Thus, documents unloaded fraudulently from their operating server on another machine are unusable.
  • the engine offers documentary tools to the user to facilitate the appropriation of the detected documentary collection: - "My documents" 60 ( Figure 6): allows the user to build thematic files, which he can eventually share ; - "My Alerts” 70 ( Figure 7): allows the user to be notified when a new document is recognized by the search query he has previously defined with the engine.
  • the invention is not limited to the example described and claimed.
  • the image compression plug-in may use a different compression technique, through the use of other algorithms such as for example CCITT4, JBIG.
  • the text search engine can integrate different functionalities, for example, different linguistic techniques or fuzzy logic.
  • the presentation of the thumbnails can vary by generalizing the mode function.

Abstract

The invention relates to a method for consulting heavy documents on public networks and digitalised paper documents, using a system for the operation of conditions which are optimised in terms of access, selectivity and quality of said access. To this end, the invention relates to a dynamic method for automatically putting on-line holdings of documents available on paper support, on user stations which are wired-up in a network. Said method consists of (i) elaborating an industrial production chain, for pages from digitalised or digital documents, for processing the documents for the qualitative improvement thereof and extracting information relating to the text, for the geolocalisation of said documents, the indexing thereof and the compression of the pages, (ii) presenting a results list in the form of pictures (31) which are dynamically generated and centred on the desired word(s), thus isolating a context of use of the page according to a given mode, to the user who has formulated a request of at least one word (20) to the search engine, relating to the full text information and to associated metadata, and (iii) performing an accelerated presentation of the page to the user for reading, by means of a plug-in, for any resolution.

Description

PROCEDE DYNAMIQUE DE MISE EN LIGNE AUTOMATIQUE D'EXTRAITS DE FONDS DE DOCUMENTS PAPIERS DYNAMIC METHOD FOR AUTOMATICALLY SETTING EXTRACTS OF PAPER DOCUMENT FUNDS
L'invention concerne un procédé dynamique de mise en ligne automatique sur postes d'utilisateurs câblés en réseau d'une sélection d'extraits provenant d'un fonds de documents disponibles sur support papiers. L'invention se rapporte au domaine de la mise en ligne de fonds papier importants ou, d'une façon générale, de documents pour lesquels on ne dispose pas d'un fichier source. L'invention vise plus particulièrement la consultation sur des réseaux publics de documents « lourds » en termes de taille de fichiers, par exemple supérieur au Mégaoctet. Ces documents, tels que : documents imprimés ou presse, catalogues, documents de communication, photographies, plans, cartes, etc., sont habituellement difficiles à transférer sur les réseaux. Un autre but de l'invention est de permettre une consultation sécurisée des documents. Les moteurs de recherche de l'état de la technique fonctionnent essentiellement sur de l'information fournie sous forme de documents bureautiques ou bien de format « PDF Texte » générés à partir de ces mêmes outils bureautiques. Concernant les documents papiers, les produits de reconnaissance de caractères, par exemple de reconnaissance optique ou « OCR », permettent de cacher l'information texte derrière l'image. Il est alors possible d'indexer ce texte dans un moteur, puis de produire l'image entière lorsque celle-ci répond au critère de recherche. Cependant, à l'aide de ces outils, l'image est toujours présentée dans son ensemble : il est alors nécessaire d'ouvrir le document dans sa totalité pour valider si celui-ci est effectivement intéressant, d'où un dépouillement très laborieux du résultat de la recherche. De plus, les temps de réponse sur les réseaux étendus, de type «WAN », sont très lents du fait qu'ils manipulent de l'image, ce qui nécessite des fichiers lourds. Aussi, seules des applications limitées en intranet sur des réseaux très rapides ont pu voir le jour. Il apparaît donc difficile, voire impossible, d'afficher le résultat de la reconnaissance de caractères à l'utilisateur sur des réseaux étendus pour des raisons qualitatives, particulièrement sur des documents couleurs. Les listes résultats de recherche ne sont pas véritablement exploitables car le contexte du mot recherché n'est pas fourni. De plus, le temps d'accès aux documents est rédhibitoire sur des réseaux WAN. L'invention propose une cinématique de fonctionnement qui pallie ces insuffisances afin de permettre, en particulier, une consultation de documents dans des conditions optimisées en termes de temps d'accès, de sélectivité et de qualité de cet accès. La démarche empruntée par l'invention consiste à construire un moteur de recherche capable d'exploiter correctement, c'est-à-dire sans déstructuration, le texte dans l'image sur des documents fournis sous leur forme finale, à savoir sur support de papier, par extraction directe sous forme d'imagette. Plus précisément, l'invention a pour objet un procédé dynamique de mise en ligne automatique, sur postes d'utilisateurs câblés en réseau, d'un fonds de documents disponibles sur support papiers, consistant à (i) élaborer une chaîne de production industrielle réalisant, sur des pages provenant de documents numérisés ou numériques, des traitements d'amélioration qualitative du document et d'extraction d'informations relatives au texte, leur géolocalisation puis leur indexation et la compression de ces pages, (ii) présenter à l'utilisateur qui a formulé une requête d'au moins un mot au moteur de recherche, portant sur l'information plein texte et sur des métadonnées associées, une liste résultat sous forme d'imagettes générées dynamiquement et centrées sur le(s) mot(s) recherché(s) en isolant ainsi un contexte d'utilisation de la page selon un mode donné, et (iii) réaliser par un plug-in une présentation accélérée de la page à l'utilisateur pour lecture, quelle que soit sa résolution. Le plug-in est un plug-in de visualisation de document de toute nature, par exemple d'une image ou un document composite. La cinématique de fonctionnement de l'invention permet ainsi d'éviter la nécessité d'ouvrir systématiquement tout document proposé par le moteur de recherche et de respecter le délai d'attente toléré par un utilisateur, qui ne dépasse pas statistiquement 5 secondes, à l'accès aux documents en particulier aux documents de grande taille. Selon des modes particuliers de mise en oeuvre : - la chaîne est alimentée à partir de fichiers provenant de numérisation du papier et/ou à partir de fichiers numériques PDF ou bureautiques ; - le tri du résultat de recherche est effectué à partir de la police de caractère d'au moins un mot clé recherché pour proposer une fonction qui équivaut à une recherche par titre ; - un filtrage est réalisé à partir de types de champs descriptifs de métadonnées telles que dates, titres de document, thèmes, rubriques, messages publicitaires, etc, définies et renseignées au préalable ; - la compression d'image est de type pyramidale progressive ; - le mode de présentation des imagettes étant choisi parmi le mode imagettes courtes, imagettes longues, et le mode de présentation mixte de l'imagette associée à une représentation vignette de la page dans son entier ; - une fonction de cryptage de l'image est réalisée ; - des fonctions d'interactivité dans le plug-in permettent de rendre sensibles des zones de l'image pour renvoyer vers des hyperliens, ou de sélectionner graphiquement une zone de l'image ; - des outils documentaires du moteur de recherche permettent une meilleure appropriation du fonds documentaire détecté, tels que « mes documents » pour se constituer des dossiers thématiques, « mes alertes » pour notifier l'utilisateur dès qu'un nouveau document est reconnu par la requête de recherche. D'autres avantages et caractéristiques de l'invention apparaîtront à la lecture de l'exemple de réalisation détaillé qui suit, en référence aux figures annexées qui représentent respectivement : - la figure 1 , une recherche sur document par l'introduction d'un mot- clé, - les figures 2 à 4, différents modes de présentation de ce résultat de la recherche, - la figure 5, la visualisation de la page choisie par le plug-in, et - les figures 6 et 7, deux outils documentaires d'appropriation du fond documentaire. Dans l'exemple détaillé ci-après, le moteur de recherche s'apparente à un moteur de type « Google », en ce sens qu'il en reprend la simplicité d'utilisation et, pour chaque élément de la liste résultat, une présentation contextuelle du mot trouvé. La différence fondamentale réside, comme indiqué dans l'introduction ci-dessus, dans le principe d'une matérialisation directe de ce contexte par extraction du document sous forme d'imagettes. Le moteur est alimenté par une chaîne de production industrielle qui réalise, à partir de fichiers provenant de numérisation de documents papier : - un traitement qualitatif en vue d'améliorer l'image (redressement, détourage, correction de gamma, déflouage, association pages droite&gauche, etc), - l'extraction de texte par reconnaissance de caractères avec un outil d'OCR - la géolocalisation de l'information texte, à savoir le repérage géographique dans la page de chaque caractère - l'analyse sélective des informations contenues dans les pages texte du document par reconnaissance de caractères afin d'en extraire des métadonnées d'identification, dans l'exemple les rubriques (date, titre, thème, rubrique, messages publicitaires, etc), - l'indexation on plein texte du document et des métadonnées des documents étant réalisée par un moteur d'indexation connu, - la compression et le cryptage des documents, tels que détaillés ci- après. Cette chaîne est alimentée en particulier à partir de fichiers provenant de la numérisation du papier par scanner haut débit. Cette chaîne d'arrière- plan, ou « back-office », dispose d'un haut degré d'automatisation, permettant ainsi d'atteindre un prix de revient très bas. Avec ce moteur de recherche, la recherche en plein texte est effectuée à partir de l'introduction du mot clé recherché 20, par exemple le mot « Porsche » comme illustré en figure 1. La présentation est « dynamique » en ce qu'elle est réalisée, au moyen d'un outil de visualisation d'imagettes dit « Image Context », comme indiqué ci- après : - la recherche porte sur l'information plein texte, telle qu'extraite du document par la chaîne de production ; - le résultat de recherche est alors présenté à l'utilisateur sous la forme d'imagettes 31 successives générées dynamiquement grâce aux informations de géolocalisation du mot dans chaque page contenant ce mot en tenant compte du facteur de zoom adapté à appliquer, les imagettes étant centrées sur le mot le plus pertinent 20 de la page ; - l'utilisateur peut alors exploiter très rapidement une liste résultat sans qu'il lui soit nécessaire d'ouvrir chaque document, ce qui représente un gain de temps et de confort important. Par ailleurs, dans la mesure où un coup d'œil permet d'écarter instantanément des réponses manifestement sans rapport avec le sujet véritable de la recherche, l'utilisateur n'a pas besoin d'être un expert de la recherche documentaire. Plusieurs modes de présentation sont proposés: - imagettes courtes 31 (figure 2) - imagettes longues 32 (figure 3), - présentation mixte de l'imagette 30 associée à une représentation vignette de la page dans son entier 40 (figure 4). Le moteur de recherche dynamique s'appuie sur différents moteurs de recherche texte du marché, dont il exploite les possibilités : pertinence, recherche floue, prise en compte de dates,... En option, deux caractéristiques supplémentaires sont avantageusement intégrées au moteur de recherche dynamique : - le tri du résultat de recherche à partir de la police de caractère du mot clé recherché et trouvé ; cette fonctionnalité permet en outre d'effectuer des recherches dans les titres ; - le filtrage à partir de types de rubriques définies et renseignées au préalable. Afin de garantir des temps de réponse de consultation à distance inférieurs à 5 secondes, l'invention utilise un programme d'activation d'accès, ou « plug-in » de visualisation, par une compression d'image pyramidale progressive. Le document image est rendu accessible à partir du poste de l'utilisateur grâce au plug-in (figure 5). Cet outil de consultation exploite les images préalablement comprimées par la chaîne de production. Celles-ci sont d'abord découpées en tuiles hiérarchiques de différentes définitions par le logiciel de compression, le plug-in assurant ensuite la gestion des requêtes au serveur d'image et l'affichage de la seule portion d'image 50 nécessaire à la réalisation de l'affichage écran. Ainsi, concrètement, le plug-in ne va chercher sur le serveur que les informations nécessaires à l'affichage et n'attend pas d'avoir récupéré toute l'information pour commencer à afficher. La valeur ajoutée du plug-in réside principalement : (i) dans son activation en couche réseau qui permet d'implémenter différentes stratégies de requête au serveur pour s'adapter à la bande passante du réseau utilisé (RTC, ADSL, très haut débit), et (ii) dans l'implémentation technique des mécanismes de compression qui ne fait appel qu'à la puissance CPU du poste utilisateur, permettant ainsi de servir un grand nombre de postes utilisateurs à partir d'un même serveur. Le plug-in propose une ergonomie simplifiée et fonctionne entièrement en mémoire : aucun dépôt de fichier, temporaire ou permanent, n'est effectué sur le poste de l'utilisateur. Des fonctions d'interactivité dans le plug-in permettent de : - mettre en évidence des zones 39 de l'image 50 par surlignage, - rendre sensible des zones 51 lesquelles l'utilisateur pourra effectuer une action ; le prétraitement de la chaîne de production permet ainsi de générer des liens hypertextes, par exemple un lien avec des adresses du réseau, telle que www.societe.com, - sélectionner graphiquement une zone de l'image pour effectuer une correction de l'OCR, ou plus généralement tout type d'action. Avantageusement, une fonction de cryptage est appliquée sur l'en-tête de l'image par des algorithmes polynomiaux de type 128 bits. Les images avec entête cryptée permettent une meilleure défense contre le piratage. Enfin, les mécanismes intégrés appairent les documents à leur serveur. Ainsi, les documents déchargés de façon frauduleuse à partir de leur serveur d'exploitation sur une autre machine sont inexploitables. Le moteur offre des outils documentaires à l'utilisateur pour lui faciliter l'appropriation du fonds documentaire détecté: - « Mes documents » 60 (figure 6) : permet à l'utilisateur de se constituer des dossiers thématiques, qu'il pourra éventuellement partager ; - « Mes alertes » 70 (figure 7) : permet à l'utilisateur d'être notifié dès lors qu'un nouveau document est reconnu par la requête de recherche qu'il a au préalable définie auprès du moteur. L'invention n'est pas limitée à l'exemple décrit et revendiqué. Par exemple, le plug-in de compression d'images peut faire appel à une technique de compression différente, par l'utilisation d'autres algorithmes tels que par exemple CCITT4, JBIG. Par ailleurs, le moteur de recherche texte peut intégrer des fonctionnalités différentes, par exemple, des techniques linguistiques différentes ou de logique floue. La présentation des imagettes peut varier en généralisant la fonction de modes. Il est également possible de limiter le fonctionnement à un accès à des fichiers en format PDF ou autre format, ou d'unifier l'ergonomie d'accès à des fonds mixtes, PDF et images numérisées. Enfin, il est possible de généraliser les langues de reconnaissance pour localiser la détection, non seulement aux langues d'alphabet latin (français, anglais, italien, ...) pour des textes rédigés dans ces langues, mais également pour des langues présentant des caractères particuliers (russe, grec,...) ou des idéogrammes (japonais, chinois). The invention relates to a dynamic process for automatically placing on line wired user stations a selection of extracts from a collection of documents available on paper. The invention relates to the field of placing large paper stocks online or, in general, documents for which a source file is not available. The invention is more particularly the consultation on public networks of documents "heavy" in terms of file size, for example greater than the megabyte. These documents, such as: printed documents or press, catalogs, communication documents, photographs, plans, maps, etc., are usually difficult to transfer over the networks. Another object of the invention is to allow secure consultation of documents. The search engines of the state of the art essentially operate on information provided in the form of office documents or "PDF Text" format generated from these same office tools. Regarding paper documents, character recognition products, for example optical recognition or "OCR", hide the text information behind the image. It is then possible to index this text in an engine, then to produce the entire image when it meets the search criterion. However, using these tools, the image is always presented as a whole: it is then necessary to open the document in its entirety to validate if this one is indeed interesting, from where a very laborious stripping of the Result of the research. In addition, WAN response times are very slow because they manipulate the image, which requires heavy files. Also, only limited intranet applications on very fast networks were able to emerge. It therefore appears difficult, if not impossible, to display the result of character recognition to the user over wide area networks for qualitative reasons, especially on color documents. The search result lists are not really usable because the context of the searched word is not provided. In addition, the access time to documents is prohibitive on WAN networks. The invention proposes an operating kinematics which overcomes these shortcomings in order to allow, in particular, a consultation of documents under optimized conditions in terms of access time, selectivity and quality of this access. The approach taken by the invention consists in constructing a search engine capable of correctly exploiting, that is to say without destructuring, the text in the image on documents provided in their final form, namely on a medium of paper, by direct extraction as a thumbnail. More specifically, the subject of the invention is a dynamic method of automatically placing, on wired networked user stations, a collection of documents available on paper, consisting of (i) developing an industrial production line realizing , on pages coming from digitized or digital documents, treatments for improving the quality of the document and extracting information relating to the text, their geolocation then their indexing and compression of these pages, (ii) presenting to the user who has requested at least one word from the search engine for full text information and associated metadata, a result list in the form of dynamically generated thumbnails centered on the word (s) search (s) thus isolating a context of use of the page according to a given mode, and (iii) make by a plug-in an accelerated presentation of the page to the user for reading , whatever its resolution. The plug-in is a document viewing plug-in of any kind, for example an image or a composite document. The operating kinematics of the invention thus makes it possible to avoid the need to systematically open any document proposed by the search engine and to respect the waiting time tolerated by a user, which does not exceed statistically 5 seconds, at the same time. access to documents especially large documents. According to particular modes of implementation: - the chain is fed from files from paper scanning and / or from PDF or office digital files; the sorting of the search result is carried out from the font of at least one searched keyword to propose a function which is equivalent to a search by title; a filtering is carried out from types of descriptive fields of metadata such as dates, document titles, themes, headings, advertising messages, etc., defined and previously informed; the image compression is of progressive pyramidal type; - The mode of presentation of the thumbnails being selected from short thumbnails, long thumbnails, and the mixed presentation mode of the thumbnail associated with a thumbnail representation of the page in its entirety; an encryption function of the image is performed; interactivity functions in the plug-in make it possible to make sensitive areas of the image to refer to hyperlinks, or to graphically select an area of the image; - search engine documentary tools allow a better appropriation of the detected documentary collection, such as "my documents" to build thematic files, "my alerts" to notify the user as soon as a new document is recognized by the request of research. Other advantages and characteristics of the invention will appear on reading the following detailed example of embodiment, with reference to the appended figures which represent respectively: FIG. 1, a document search by the introduction of a word - Key, - Figures 2 to 4, different modes of presentation of this result of the search, - Figure 5, the visualization of the page chosen by the plug-in, and - Figures 6 and 7, two documentary tools. appropriation of the documentary background. In the detailed example below, the search engine is similar to a "Google" type of engine, in that it takes up again the simplicity of use and, for each element of the result list, a presentation contextual of the word found. The fundamental difference lies, as indicated in the introduction above, in the principle of a direct materialization of this context by extracting the document as thumbnails. The engine is powered by an industrial production line that makes, from files from scanning paper documents: - a qualitative treatment to improve the image (straightening, trimming, gamma correction, deflouage, association pages right & left , etc.), - the extraction of text by OCR with an OCR tool - the geolocation of text information, namely the geographical location in the page of each character - the selective analysis of the information contained in the text pages of the document by recognition of characters in order to extract identification metadata, in the example the headings (date, title, theme, topic, advertising messages, etc.), - indexing full text of the document and document metadata being performed by a known indexing engine, - compression and encryption of documents, as detailed below. This chain is powered in particular from files from the scanning paper by high speed scanner. This background chain, or "back office", has a high degree of automation, thus achieving a very low cost price. With this search engine, the full text search is performed from the introduction of the searched keyword 20, for example the word "Porsche" as illustrated in Figure 1. The presentation is "dynamic" in that it is performed, using a thumbnail display tool called "Image Context", as shown below: - the search is for full text information, as extracted from the document by the production line; the search result is then presented to the user in the form of successive thumbnails generated dynamically by means of the geolocation information of the word in each page containing this word, taking into account the zoom factor adapted to be applied, the thumbnails being centered on the most relevant word 20 of the page; - The user can then quickly exploit a result list without the need to open each document, which represents a saving of time and significant comfort. Moreover, to the extent that a glance makes it possible to instantly reject responses that are clearly unrelated to the real subject of the search, the user does not need to be an expert in documentary research. Several modes of presentation are proposed: - short thumbnails 31 (Figure 2) - long thumbnails 32 (Figure 3), - mixed presentation of the thumbnail 30 associated with a thumbnail representation of the entire page 40 (Figure 4). The dynamic search engine is based on different text search engines market, which it exploits the possibilities: relevance, fuzzy search, taking into account dates, ... Optionally, two additional features are advantageously integrated into the search engine dynamic: - the sorting of the search result from the font of the searched and found keyword; this feature also makes it possible to search titles; - Filtering from types of topics defined and filled in beforehand. In order to guarantee remote consultation response times of less than 5 seconds, the invention uses an access activation program, or visualization "plug-in", by a progressive pyramidal image compression. The image document is made accessible from the user's computer through the plug-in (Figure 5). This consultation tool exploits the images previously compressed by the production line. These are first cut into hierarchical tiles of different definitions by the compression software, the plug-in then ensuring the management of requests to the image server and the display of the only portion of image 50 necessary for the realization of the screen display. So, concretely, the plug-in will only look on the server for the information needed for the display and does not wait to have retrieved all the information to start displaying. The added value of the plug-in resides mainly: (i) in its activation in network layer which makes it possible to implement different strategies of request to the server to adapt to the bandwidth of the used network (RTC, ADSL, very broadband) , and (ii) in the technical implementation of the compression mechanisms that only use the CPU power of the user station, thus making it possible to serve a large number of user stations from the same server. The plug-in offers simplified ergonomics and works entirely in memory: no file filing, temporary or permanent, is performed on the user's computer. Interactivity functions in the plug-in make it possible: to highlight zones 39 of the image 50 by highlighting, to make areas 51 sensitive to which the user can perform an action; the preprocessing of the production line thus makes it possible to generate hypertext links, for example a link with addresses of the network, such as www.societe.com, - to graphically select an area of the image to perform a correction of the OCR , or more generally any type of action. Advantageously, an encryption function is applied to the header of the image by polynomial algorithms of the 128-bit type. Encrypted header images provide a better defense against hacking. Finally, the built-in mechanisms match the documents to their server. Thus, documents unloaded fraudulently from their operating server on another machine are unusable. The engine offers documentary tools to the user to facilitate the appropriation of the detected documentary collection: - "My documents" 60 (Figure 6): allows the user to build thematic files, which he can eventually share ; - "My Alerts" 70 (Figure 7): allows the user to be notified when a new document is recognized by the search query he has previously defined with the engine. The invention is not limited to the example described and claimed. For example, the image compression plug-in may use a different compression technique, through the use of other algorithms such as for example CCITT4, JBIG. In addition, the text search engine can integrate different functionalities, for example, different linguistic techniques or fuzzy logic. The presentation of the thumbnails can vary by generalizing the mode function. It is also possible to limit the operation to access files in PDF or other format, or to unify the ergonomics of access to mixed media, PDF and scanned images. Finally, it is possible to generalize the recognition languages to locate the detection, not only to the Latin alphabet languages (French, English, Italian, ...) for texts written in these languages, but also for languages with different languages. special characters (Russian, Greek, ...) or ideograms (Japanese, Chinese).

Claims

REVENDICATIONS
1. Procédé dynamique de mise en ligne automatique, sur postes d'utilisateurs câblés en réseau, d'un fonds de documents disponibles sur support papiers, caractérisé en qu'il consiste à (i) élaborer une chaîne de production industrielle réalisant, sur des pages (40) provenant de documents numérisés ou numériques, des traitements d'amélioration qualitative du document et d'extraction d'informations relatives au texte, leur géolocalisation puis leur indexation et la compression de ces pages pour constituer un moteur de recherche, (ii) présenter à l'utilisateur qui a formulé une requête d'au moins un mot (20) au moteur de recherche, portant sur l'information plein texte et sur des métadonnées associées à une liste résultat sous forme d'imagettes (31 , 32) générées dynamiquement et centrées sur le(s) mot(s) recherché(s) (20) en isolant ainsi un contexte d'utilisation de la page selon un mode donné de présentation, et (ii) réaliser par un plug-in une présentation accélérée de la page (40) à l'utilisateur pour lecture, quelle que soit sa résolution. 1. A dynamic method for automatically placing a database of paper-based documents on wired network user stations, characterized in that it consists in (i) developing an industrial production line carrying out, on pages (40) from digitized or digital documents, document quality enhancement processing and extraction of text information, geolocation and indexing thereof and compression of these pages to form a search engine, (ii) ) present to the user who has made a request for at least one word (20) to the search engine, full text information and metadata associated with a result list in the form of thumbnails (31, 32) ) dynamically generated and centered on the searched word (s) (20) thus isolating a context of use of the page according to a given mode of presentation, and (ii) making by a plug-in a presented accelerated page (40) to the user for reading, regardless of its resolution.
2. Procédé dynamique selon la revendication 1 , dans lequel la chaîne est alimentée à partir de fichiers provenant de numérisation du papier et/ou à partir de fichiers numériques PDF ou bureautiques. The dynamic method according to claim 1, wherein the chain is fed from files from paper scanning and / or from digital PDF or office files.
3. Procédé dynamique selon la revendication 2, dans lequel le tri du résultat de recherche est effectué à partir de la police de caractère d'au moins un mot clé recherché (20) et trouvé pour reconstruire la notion de titre. 3. Dynamic method according to claim 2, wherein the sorting of the search result is performed from the font of at least one searched keyword (20) and found to reconstruct the notion of title.
4. Procédé dynamique selon l'une quelconque des revendications précédentes, dans lequel une fonction de cryptage de l'image (50) est réalisée. The dynamic method according to any one of the preceding claims, wherein an image encryption function (50) is performed.
5. Procédé dynamique selon l'une quelconque des revendications précédentes, dans lequel un filtrage est réalisé à partir de types de champs descriptifs de métadonnées définies et renseignées au préalable. 5. Dynamic method according to any one of the preceding claims, wherein a filtering is performed from types of metadata descriptive fields defined and previously filled.
6. Procédé dynamique selon la revendication 1 , dans lequel la compression d'image est de type pyramidale progressive. The dynamic method of claim 1, wherein the image compression is of progressive pyramidal type.
7. Procédé dynamique selon la revendication 1 , dans lequel le mode de présentation des imagettes est choisi parmi le mode imagettes courtes (31 ), imagettes longues (32), et le mode de présentation mixte (30) de l'imagette associée à une représentation vignette de type page de document dans son entier. The dynamic method according to claim 1, wherein the mode of presentation of the thumbnails is selected from the short (31), long thumb (32) and the mixed (30) presentation mode of the thumbnail associated with a thumbnail representation of the document page type as a whole.
8. Procédé dynamique selon l'une quelconque des revendications précédentes, dans lequel des fonctions d'interactivité dans le plug-in permettent de rendre sensibles des zones (51) de l'image (50) pour renvoyer vers des hyperliens ou de sélectionner graphiquement une zone de l'image. A dynamic method according to any one of the preceding claims, wherein interactivity functions in the plug-in enable to render sensitive areas (51) of the image (50) to refer to hyperlinks or to select graphically an area of the image.
9. Procédé dynamique selon l'une quelconque des revendications précédentes, dans lequel des outils documentaires du moteur de recherche permettent une appropriation du fonds documentaire détecté, à savoir « mes documents » (60) pour se constituer des dossiers thématiques et « mes alertes » (70) pour notifier l'utilisateur dès qu'un nouveau document est reconnu par la requête de recherche. 9. Dynamic method according to any one of the preceding claims, wherein the search engine's documentary tools allow an appropriation of the detected documentary collection, namely "my documents" (60) to constitute thematic files and "my alerts" (70) to notify the user as soon as a new document is recognized by the search request.
PCT/FR2005/001092 2004-05-24 2005-05-02 Dynamic method for automatically putting on-line extracts from paper document holdings WO2006000660A2 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0405588A FR2870616B1 (en) 2004-05-24 2004-05-24 DYNAMIC METHOD FOR AUTOMATICALLY SETTING EXTRACTS OF PAPER DOCUMENT FUNDS
FR0405588 2004-05-24

Publications (2)

Publication Number Publication Date
WO2006000660A2 true WO2006000660A2 (en) 2006-01-05
WO2006000660A3 WO2006000660A3 (en) 2006-05-18

Family

ID=34944869

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR2005/001092 WO2006000660A2 (en) 2004-05-24 2005-05-02 Dynamic method for automatically putting on-line extracts from paper document holdings

Country Status (2)

Country Link
FR (1) FR2870616B1 (en)
WO (1) WO2006000660A2 (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0596247A2 (en) * 1992-11-02 1994-05-11 Motorola, Inc. A full-text index creation, search, retrieval and display method
WO1999018523A1 (en) * 1997-10-08 1999-04-15 Caere Corporation Computer-based document management system

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0596247A2 (en) * 1992-11-02 1994-05-11 Motorola, Inc. A full-text index creation, search, retrieval and display method
WO1999018523A1 (en) * 1997-10-08 1999-04-15 Caere Corporation Computer-based document management system

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
GOTTESMAN B ET AL: "Ending the Paper Chase" PC MAGAZINE, A PC COMMUNICATION CORP. NEW YORK, US, 24 octobre 1995 (1995-10-24), pages 129,131,134,13-,154, XP002091671 ISSN: 0888-8507 *
LU Y ET AL: "Document retrieval from compressed images" PATTERN RECOGNITION, ELSEVIER, KIDLINGTON, GB, vol. 36, no. 4, avril 2002 (2002-04), pages 987-996, XP004398637 ISSN: 0031-3203 *
MARINAI S ET AL: "A general system for the retrieval of document images from digital libraries" DOCUMENT IMAGE ANALYSIS FOR LIBRARIES, 2004. PROCEEDINGS. FIRST INTERNATIONAL WORKSHOP ON PALO ALTO, CA, USA 23-24 JAN. 2004, LOS ALAMITOS, CA, USA,IEEE COMPUT. SOC, US, 23 janvier 2004 (2004-01-23), pages 150-173, XP010681126 ISBN: 0-7695-2088-X *
SHENGJIN WANG ET AL: "Adaptive data transmission on browsing of scanned documents using JPEG2000" CONFERENCE PROCEEDINGS ARTICLE, 10 juillet 2002 (2002-07-10), pages 78-83, XP010620992 *
YUE LU ET AL: "Retrieving imaged documents in digital libraries based on word image coding" DOCUMENT IMAGE ANALYSIS FOR LIBRARIES, 2004. PROCEEDINGS. FIRST INTERNATIONAL WORKSHOP ON PALO ALTO, CA, USA 23-24 JAN. 2004, LOS ALAMITOS, CA, USA,IEEE COMPUT. SOC, US, 23 janvier 2004 (2004-01-23), pages 174-187, XP010681127 ISBN: 0-7695-2088-X *

Also Published As

Publication number Publication date
FR2870616B1 (en) 2006-09-15
FR2870616A1 (en) 2005-11-25
WO2006000660A3 (en) 2006-05-18

Similar Documents

Publication Publication Date Title
KR100972241B1 (en) Document retrieving apparatus and document retrieving method
CN101201840B (en) Document indexing equipment and method
US9224004B2 (en) Variable user interface based on document access privileges
JP5372369B2 (en) Digital asset management, targeted search, and desktop search using digital watermark
US20080115057A1 (en) High precision data extraction
US20100114991A1 (en) Managing the content of shared slide presentations
US20090216734A1 (en) Search based on document associations
US20110060739A1 (en) System and method to research documents in online libraries
FR2681454A1 (en) METHOD AND DEVICE FOR PROCESSING ALPHANUMERIC AND GRAPHICAL INFORMATION FOR THE CONSTITUTION OF A DATA BANK.
FR2973134A1 (en) METHOD FOR REFINING THE RESULTS OF A SEARCH IN A DATABASE
FR2845236A1 (en) SYSTEMS AND METHODS FOR INSERTING A METADATA LABEL INTO A DOCUMENT
WO2000049526A1 (en) Similarity searching by combination of different data-types
US20070150163A1 (en) Web-based method of rendering indecipherable selected parts of a document and creating a searchable database from the text
KR20060101803A (en) Creating and active viewing method for an electronic document
WO2001088749A1 (en) Method for constituting a database concerning data contained in a document
US20110255113A1 (en) Document Tag Based Destination Prompting and Auto Routing for Document Management System Connectors
EP3005171A1 (en) Method for searching a database
Hoffman et al. The RightPages™ Service: An image‐based electronic library
US11295124B2 (en) Methods and systems for automatically detecting the source of the content of a scanned document
US8131752B2 (en) Breaking documents
WO2006000660A2 (en) Dynamic method for automatically putting on-line extracts from paper document holdings
JP5318233B2 (en) Document search apparatus, document search method, program, and storage medium
Ruocco et al. Event clusters detection on flickr images using a suffix-tree structure
Jones et al. Abstract images have different levels of retrievability per reverse image search engine
FR2790846A1 (en) DOCUMENT IDENTIFICATION PROCESS

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A2

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KM KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SM SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A2

Designated state(s): BW GH GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LT LU MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

NENP Non-entry into the national phase

Ref country code: DE

WWW Wipo information: withdrawn in national office

Country of ref document: DE

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 05763711

Country of ref document: EP

Kind code of ref document: A2

122 Ep: pct application non-entry in european phase

Ref document number: 05763711

Country of ref document: EP

Kind code of ref document: A2