WO1992009960A1

WO1992009960A1 - Dispositif d'extraction de donnees

Info

Publication number: WO1992009960A1
Application number: PCT/JP1991/000011
Authority: WO
Inventors: Cyuichi Kikuchi
Original assignee: Telematique International Laboratories
Priority date: 1990-11-30
Filing date: 1991-01-10
Publication date: 1992-06-11

Abstract

Dispositif d'extraction de données permettant l'extraction rapide et l'interclassement arbitraire de chaînes de caractères d'une base de données dans un mode d'extraction de phrases entières ou dans un mode utilisant une pluralité de mots clés. Une chaîne de caractères comprenant des mots clés à extraire est divisée en caractères ou jeux de caractères respectifs constitués d'une pluralité de caractères. Pour chaque caractère ou jeu de caractères, on génère des informations de position de caractère comportant un code d'identification de l'unité de chaîne de caractères à extraire à laquelle appartient ledit caractère ou jeu de caractères, un code de séquence pour la position des caractères indiquant la position du caractère dans la chaîne de caractères, ainsi qu'un code de caractéristiques indiquant le découpage logique de la chaîne de caractères. Ainsi, on prépare à l'avance un fichier d'extraction dans lequel les informations de position de caractère sont groupées selon chaque type de caractère ou de jeu de caractères. Pour une demande d'extraction, on extrait du fichier d'extraction les informations de position de caractère des caractères ou jeux de caractères comportant la demande d'extraction, pour interclasser avec ceux-ci la demande d'extraction, et l'on extrait du fichier d'extraction la chaîne de caractères de l'objet de l'extraction qui est continu et dont le code de caractéristiques coïncide avec ladite demande d'extraction. Ainsi, on peut diminuer le nombre d'interclassements des chaînes de caractères et assurer une extraction rapide à coïncidence partielle ou une extraction rapide de phrases entières.