WO2001039038A1

WO2001039038A1 - Procede et systeme de prelevement d'information

Info

Publication number: WO2001039038A1
Application number: PCT/BE2000/000140
Authority: WO
Inventors: Nicolas Poncelet
Original assignee: Datastat
Priority date: 1999-11-25
Filing date: 2000-11-24
Publication date: 2001-05-31
Also published as: BE1013153A3; AU1682301A

Abstract

L'invention concerne un procédé de prélèvement d'information d'une base de données, comprenant les étapes de: a) lecture d'au moins un mot clef choisi par l'utilisateur; b) comparaison du mot clef avec les données de la base de données; c) génération d'une liste d'éléments descriptifs, le mot clef choisi étant associé à chacun des éléments descriptifs; et d) représentation de la liste d'éléments descriptifs. Le procédé comprend en outre l'étape de: e) génération d'une liste de mots clefs, chaque mot clef de la liste de mots clefs étant associé à au moins un élément decriptif de la liste d'éléments descriptifs; et f) représentation de la liste de mots clefs en indiquant une fréquence d'attribution du mot clef dans la liste d'éléments descriptifs. L'invention concerne également un système pour la mise en oeuvre du procédé.

Description

"Procédé et système de prélèvement d'information."

La présente invention se rapporte à un procédé de prélèvement d'information d'une base de données, comprenant les étapes de : lecture d'au moins un mot clef choisi par l'utilisateur; comparaison du mot clef avec les données de la base de données; génération d'une liste d'éléments descriptifs, le mot clef choisi étant associé à chacun des éléments descriptifs; et représentation de la liste d'éléments descriptifs.

Un tel procédé est bien connu dans des moteurs de recherche sur Internet, tels que Yahoo ®, Alta Vista ®, .... Lorsque l'utilisateur souhaite obtenir des informations sur un certain sujet, il introduit un mot clef ou sélectionne un mot clef correspondant à une catégorie de recherche. On présente alors les résultats à l'utilisateur sous forme d'une liste d'éléments descriptifs ayant trait au sujet demandé, chaque élément descriptif indiquant des informations tels que le nom du site, l'adresse URL, une brève description de la page du site, la dernière date de modification

Le problème des procédés connus utilisés dans des bases de données importantes, telles que celles accessibles sur Internet, est que le nombre de résultats sur un sujet demandé peut être considérable. Prenons l'exemple du mot "brevet" dans le moteur de recherche d'Alta Vista ®. En introduisant ce mot comme mot clef, l'on obtient plusieurs dizaines de millier de pages web. L'utilisateur peut alors soit parcourir les résultats, soit affiner sa recherche en ajoutant un ou plusieurs mots clefs dans sa requête en combinaison avec le mot clef initialement choisi. Ceci peut rendre la recherche longue pour parvenir à un résultat qui ne correspond pas forcément à l'information souhaitée.

Un but de la présente invention est de présenter une alternative aux procédés et systèmes connus, qui permet à l'utilisateur d'obtenir l'information de manière plus efficace.

Ce but est atteint dans le procédé suivant l'invention, en prévoyant les étapes supplémentaires de génération d'une liste de mots clefs, chaque mot clef de la liste de mots clefs étant associé à au moins un élément descriptif de la liste d'éléments descriptifs; et représentation de la liste de mots clefs en indiquant une fréquence d'attribution du mot clef dans la liste d'éléments descriptifs.

En produisant et représentant une liste de mots clefs, l'utilisateur a une meilleure vue d'ensemble sur le sujet en question. En particulier, s'il souhaite affiner sa recherche, il est mieux guidé pour sélectionner des nouveaux mots clefs, et ainsi il augmente les chances d'obtenir les résultats escomptés. En indiquant la fréquence des mots clefs, l'utilisateur peut estimer à l'avance le nombre de résultats qu'il va obtenir.

Dans un mode de réalisation préférentiel, le procédé comprend en outre les étapes de génération d'une nouvelle liste d'éléments descriptifs, chaque élément descriptif de la nouvelle liste d'éléments descriptifs étant associé au mot clef choisi et un autre mot clef sélectionné par l'utilisateur dans la liste de mots clefs; représentation de la nouvelle liste d'éléments descriptifs; génération d'une nouvelle liste de mots clefs, chaque mot clef de la nouvelle liste étant associé à au moins un élément descriptif de la nouvelle liste d'éléments descriptifs; et représentation de la nouvelle liste de mots clefs. En particulier, ces étapes sont appliquées à plusieurs reprises. L'utilisateur affine ainsi, étape par étape, sa recherche en combinant les mots clefs choisis à chaque étape. Avantageusement, on représente la liste, respectivement la nouvelle liste de mots clefs par ordre de fréquence, de préférence par ordre de fréquence décroissant. Dans de nombreux cas, il s'avère que les mots clefs ayant la fréquence la plus importante sont les plus pertinents.

Selon une alternative, on représente la liste, respectivement la nouvelle liste de mots clefs par ordre alphabétique. Cette solution est pratique lorsque l'utilisateur est à la recherche de mots spécifiques. Afin de grouper des éléments descriptifs ayant la même signification dans une base de données, on classifie un certain nombre d'éléments descriptifs de la liste sous une seule catégorie.

L'invention est également relative à un système de prélèvement d'information d'une base de données, comprenant : des moyens agencés à lire au moins un mot clef choisi par l'utilisateur; des moyens agencés à comparer le mot clef avec les données de la base de données; et des moyens agencés à produire une liste d'éléments descriptifs, le mot clef choisi étant associé à chacun des éléments descriptifs. Le système selon l'invention est caractérisé en ce qu'il comprend en outre : des moyens agencés à produire une liste de mots clefs, chaque mot clef étant associé à au moins un élément descriptif de la liste d'éléments descriptifs.

En particulier, le système comprend un filtre agencé à supprimer des mots clefs prédéterminé de la liste de mots clefs. Ceci permet d'éliminer des mots clefs non pertinents, tels que "le", "la", "un", "une", "à", etc. de la liste de mots clefs. Avantageusement, le filtre est en outre agencé à supprimer des mots clefs ayant un nombre de caractères inférieur à une certaine limite. On peut par exemple ne pas afficher les mots clefs de 1 , 2 ou 3 caractères, car il seront plus que probablement non pertinents. Des détails concernant l'invention sont décrits ci-après faisant référence aux dessins illustrant un exemple opérationnel du procédé suivant l'invention.

La figure 1 illustre l'étape de sélection d'une banque de données.

La figure 2 illustre les éléments descriptifs de la banque de données sélectionnée dans la liste de la figure 1.

La figure 3 illustre la liste de mots clefs associés aux éléments descriptifs de la figure 2. La figure 4 illustre une nouvelle liste d'éléments descriptifs associé au mot clef choisi dans la liste de la figure 3.

La figure 5 illustre une nouvelle liste de mots clefs associé à la nouvelle liste d'éléments descriptifs de la figure 4.

La figure 6 illustre une nouvelle liste d'éléments descriptifs associé aux mots clefs choisis dans les étapes précédentes.

L'invention à pour but de proposer un procédé et système efficaces pour le prélèvement d'information dans une base de données. Le principe de fonctionnement sera expliqué ci-après à l'aide de quelques exemples. Prenons une base de données comportant les quatre éléments descriptifs suivant :

• "I like the taste"

• "It is too expensive"

• "It is very nice" • "The taste is excellent"

Suivant l'invention, l'utilisateur peut demander une liste de mots clefs associés à ces phrases ou éléments descriptifs. Dans ce cas, les mots clefs consistent en mots qui apparaissent dans les éléments descriptifs. De manière générale, à chaque élément descriptif peut être associé un certain nombre de mots clefs. La liste de mots clefs est composé dans le cas présent comme suit :

• "is" 3

• "taste" 2

• "it" 2

• "the" 2

Lorsque l'utilisateur sélectionne un des mots clefs, par exemple "taste", il obtient une nouvelle liste d'éléments descriptifs, chacun de ces éléments descriptifs étant associé au mot clef "taste" :

• "Nike the TASTE"

• "The TASTE is excellent"

A la lecture de ces deux phrases, on constate qu'elles ont la même signification. Par conséquent, elles seront classifiées, dans une prochaine étape, sous une même catégorie appelée par exemple "Like the taste". Le procédé permet donc d'assister l'utilisateur à filtrer des éléments descriptifs et ainsi plus facilement déterminer quels éléments descriptifs, ayant la même signification, devraient être groupés sous une seule et même catégorie. Les éléments descriptifs groupés sont prélevés de la liste.

Le procédé est ensuite répété jusqu'à ce qu'il n'y ait plus deux éléments descriptifs ayant la même signification.

Un autre exemple est expliqué ci-après faisant référence aux figures 1 à 6. Dans une première étape, illustrée à la figure 1 , on sélectionne une des banques de données disponibles : Q15, Q20 ou Q6A. L'utilisateur sélectionne par exemple la banque de données Q15. Cette étape peut être considérée comme étape de sélection d'un premier mot clef. Les éléments descriptifs de la banque de données sélectionnée sont affichées à l'écran, comme illustré à la figure 2. Dans l'exemple illustré, chaque élément descriptif consiste en une série de mots. Dans une application de moteur de recherche sur Internet, chaque élément descriptif comporte par exemple plusieurs séries de mots, tels que le titre du site, une brève description (de par exemple maximum 60 caractères), une description plus élaborée (jusqu'à 256 caractères), l'adresse URL, ...

L'utilisateur peut ensuite appeler un écran indiquant les mots clefs associés aux éléments descriptifs. De préférence, les mots clefs sont affichés par ordre décroissant de fréquence, comme illustré à la figure 3. Ainsi, l'utilisateur découvre que le mot "lack" est associé à 28 reprises aux éléments descriptifs. On voit également dans la liste des mots non pertinents tels que "and", "in", "on" et "to". Ceux-ci peuvent être éliminés de la liste de mots clefs en les indiquant dans un filtre de mot exclu ("excluded words").

Si l'utilisateur sélectionne le mot clef "lack", il obtient une nouvelle liste d'éléments descriptifs (figure 4). Cette liste contient les éléments descriptifs de la figure 2 auquel le mot "lack" est associé. Dans ce cas, le mot "lack" est associé lorsqu'il apparaît tel quel dans l'élément descriptif. Selon une alternative, il suffit que le mot clef soit associé à l'élément descriptif. Dans une application de moteur de recherche sur Internet, cela pourrait être mis en oeuvre en prévoyant que chaque site enregistré sur le site où est hébergé le moteur de recherche comprend un certain nombre de mots clefs, qui ne sont pas nécessairement affichés à l'écran de l'utilisateur.

Dans une prochaine étape, l'utilisateur peut requérir une nouvelle liste de mots clefs (figure 5), apparaissant cette fois ci dans la nouvelle liste d'éléments descriptifs. Dans cette liste, le mot clef sélectionné auparavant ("lack") est exclu. L'utilisateur peut ainsi affiner sa recherche en sélectionnant un nouveau mot clef, par exemple "confidence". Après avoir sélectionné ce mot clef, une nouvelle liste d'éléments descriptifs apparaît à l'écran (figure 6). Les mots clefs "taste" et "confidence" sont associés à chaque élément descriptif de la liste. Le procédé suivant l'invention peut être appliqué dans tout type de base de données. En particulier, il peut être utilisé pour faciliter les recherches sur Internet. Dans cette application, on pourrait en outre associer une bande publicitaire ("banner") à un mot clef. Ainsi, lorsque l'utilisateur choisit un mot clef particulier, on affiche à l'écran la bande publicitaire associé au mot clef.

Claims

REVENDICATIONS

1. Procédé de prélèvement d'information d'une base de données, comprenant les étapes de : a) lecture d'au moins un mot clef choisi par l'utilisateur; b) comparaison du mot clef avec les données de la base de données; c) génération d'une liste d'éléments descriptifs, le mot clef choisi étant associé à chacun des éléments descriptifs; et d) représentation de la liste d'éléments descriptifs; caractérisé en ce qu'il comprend en outre l'étape de : e) génération d'une liste de mots clefs, chaque mot clef de la liste de mots clefs étant associé à au moins un élément descriptif de la liste d'éléments descriptifs; et f) représentation de la liste de mots clefs en indiquant une fréquence d'attribution du mot clef dans la liste d'éléments descriptifs.

2. Procédé suivant la revendication 1 , comprenant en outre les étapes de : g) génération d'une nouvelle liste d'éléments descriptifs, chaque élément descriptif de la nouvelle liste d'éléments descriptifs étant associé au mot clef choisi et un autre mot clef sélectionné par l'utilisateur dans la liste de mots clefs; h) représentation de la nouvelle liste d'éléments descriptifs; i) génération d'une nouvelle liste de mots clefs, chaque mot clef de la nouvelle liste étant associé à au moins un élément descriptif de la nouvelle liste d'éléments descriptifs; et j) représentation de la nouvelle liste de mots clefs.

3. Procédé suivant la revendication 2, dans lequel les étapes g) à j) sont appliquées à plusieurs reprises.

4. Procédé suivant l'une des revendications 1 à 3, dans lequel on représente la liste, respectivement la nouvelle liste de mots clefs par ordre de fréquence.

5. Procédé suivant la revendication 4, dans lequel la liste, respectivement la nouvelle liste de mots clefs est représentée par ordre de fréquence décroissant.

6. Procédé suivant l'une des revendications 1 à 3, dans lequel on représente la liste, respectivement la nouvelle liste de mots clefs par ordre alphabétique.

7. Procédé suivant l'une des revendication précédentes, dans lequel on classifie un certain nombre d'éléments descriptifs de la liste sous une seule catégorie.

8. Système de prélèvement d'information d'une base de données, comprenant : a) des moyens agencés à lire au moins un mot clef choisi par l'utilisateur; b) des moyens agencés à comparer le mot clef avec les données de la base de données; et c) des moyens agencés à produire une liste d'éléments descriptifs, le mot clef choisi étant associé à chacun des éléments descriptifs; caractérisé en ce qu'il comprend en outre : d) des moyens agencés à produire une liste de mots clefs, chaque mot clef étant associé à au moins un élément descriptif de la liste d'éléments descriptifs.

9. Système suivant la revendication 8, comprenant un filtre agencé à supprimer des mots clefs prédéterminé de la liste de mots clefs.

10. Système suivant la revendication 9, dans lequel le filtre est en outre agencé à supprimer des mots clefs ayant un nombre de caractères inférieur à une certaine limite.