"Procédé et système de prélèvement d'information." "Method and system for collecting information."
La présente invention se rapporte à un procédé de prélèvement d'information d'une base de données, comprenant les étapes de : lecture d'au moins un mot clef choisi par l'utilisateur; comparaison du mot clef avec les données de la base de données; génération d'une liste d'éléments descriptifs, le mot clef choisi étant associé à chacun des éléments descriptifs; et représentation de la liste d'éléments descriptifs.The present invention relates to a method for extracting information from a database, comprising the steps of: reading at least one keyword chosen by the user; comparison of the keyword with the data in the database; generation of a list of descriptive elements, the chosen keyword being associated with each of the descriptive elements; and representation of the list of descriptive elements.
Un tel procédé est bien connu dans des moteurs de recherche sur Internet, tels que Yahoo ®, Alta Vista ®, .... Lorsque l'utilisateur souhaite obtenir des informations sur un certain sujet, il introduit un mot clef ou sélectionne un mot clef correspondant à une catégorie de recherche. On présente alors les résultats à l'utilisateur sous forme d'une liste d'éléments descriptifs ayant trait au sujet demandé, chaque élément descriptif indiquant des informations tels que le nom du site, l'adresse URL, une brève description de la page du site, la dernière date de modificationSuch a process is well known in Internet search engines, such as Yahoo ®, Alta Vista ®, .... When the user wishes to obtain information on a certain subject, he introduces a keyword or selects a keyword corresponding to a search category. The results are then presented to the user in the form of a list of descriptive elements relating to the subject requested, each descriptive element indicating information such as the name of the site, the URL address, a brief description of the page of the site, last modification date
Le problème des procédés connus utilisés dans des bases de données importantes, telles que celles accessibles sur Internet, est que le nombre de résultats sur un sujet demandé peut être considérable. Prenons l'exemple du mot "brevet" dans le moteur de recherche d'Alta Vista ®. En introduisant ce mot comme mot clef, l'on obtient plusieurs dizaines de millier de pages web. L'utilisateur peut alors soit parcourir les résultats, soit affiner sa recherche en ajoutant un ou plusieurs mots clefs dans sa requête en combinaison avec le mot clef initialement
choisi. Ceci peut rendre la recherche longue pour parvenir à un résultat qui ne correspond pas forcément à l'information souhaitée.The problem with the known methods used in large databases, such as those accessible on the Internet, is that the number of results on a requested subject can be considerable. Take the example of the word "patent" in the search engine of Alta Vista ®. By introducing this word as a keyword, we obtain several tens of thousands of web pages. The user can then either browse the results or refine his search by adding one or more keywords in his request in combination with the keyword initially. selected. This can make the search long to reach a result which does not necessarily correspond to the desired information.
Un but de la présente invention est de présenter une alternative aux procédés et systèmes connus, qui permet à l'utilisateur d'obtenir l'information de manière plus efficace.An object of the present invention is to present an alternative to known methods and systems, which allows the user to obtain information more efficiently.
Ce but est atteint dans le procédé suivant l'invention, en prévoyant les étapes supplémentaires de génération d'une liste de mots clefs, chaque mot clef de la liste de mots clefs étant associé à au moins un élément descriptif de la liste d'éléments descriptifs; et représentation de la liste de mots clefs en indiquant une fréquence d'attribution du mot clef dans la liste d'éléments descriptifs.This object is achieved in the method according to the invention, by providing the additional steps of generating a list of keywords, each keyword in the list of keywords being associated with at least one descriptive element of the list of elements. descriptive; and representation of the list of keywords by indicating a frequency of allocation of the keyword in the list of descriptive elements.
En produisant et représentant une liste de mots clefs, l'utilisateur a une meilleure vue d'ensemble sur le sujet en question. En particulier, s'il souhaite affiner sa recherche, il est mieux guidé pour sélectionner des nouveaux mots clefs, et ainsi il augmente les chances d'obtenir les résultats escomptés. En indiquant la fréquence des mots clefs, l'utilisateur peut estimer à l'avance le nombre de résultats qu'il va obtenir.By producing and representing a list of keywords, the user has a better overview of the subject in question. In particular, if he wishes to refine his search, he is better guided to select new keywords, and thus he increases the chances of obtaining the expected results. By indicating the frequency of the keywords, the user can estimate in advance the number of results he will obtain.
Dans un mode de réalisation préférentiel, le procédé comprend en outre les étapes de génération d'une nouvelle liste d'éléments descriptifs, chaque élément descriptif de la nouvelle liste d'éléments descriptifs étant associé au mot clef choisi et un autre mot clef sélectionné par l'utilisateur dans la liste de mots clefs; représentation de la nouvelle liste d'éléments descriptifs; génération d'une nouvelle liste de mots clefs, chaque mot clef de la nouvelle liste étant associé à au moins un élément descriptif de la nouvelle liste d'éléments descriptifs; et représentation de la nouvelle liste de mots clefs. En particulier, ces étapes sont appliquées à plusieurs reprises. L'utilisateur affine ainsi, étape par étape, sa recherche en combinant les mots clefs choisis à chaque étape.
Avantageusement, on représente la liste, respectivement la nouvelle liste de mots clefs par ordre de fréquence, de préférence par ordre de fréquence décroissant. Dans de nombreux cas, il s'avère que les mots clefs ayant la fréquence la plus importante sont les plus pertinents.In a preferred embodiment, the method further comprises the steps of generating a new list of descriptive elements, each descriptive element of the new list of descriptive elements being associated with the chosen keyword and another keyword selected by the user in the keyword list; representation of the new list of descriptive elements; generation of a new list of keywords, each keyword of the new list being associated with at least one descriptive element of the new list of descriptive elements; and representation of the new list of keywords. In particular, these steps are applied repeatedly. The user thus refines, step by step, his search by combining the keywords chosen at each step. Advantageously, the list is represented, respectively the new list of keywords by order of frequency, preferably by order of decreasing frequency. In many cases, it turns out that the keywords with the highest frequency are the most relevant.
Selon une alternative, on représente la liste, respectivement la nouvelle liste de mots clefs par ordre alphabétique. Cette solution est pratique lorsque l'utilisateur est à la recherche de mots spécifiques. Afin de grouper des éléments descriptifs ayant la même signification dans une base de données, on classifie un certain nombre d'éléments descriptifs de la liste sous une seule catégorie.According to an alternative, the list is represented, respectively the new list of keywords in alphabetical order. This solution is practical when the user is looking for specific words. In order to group descriptive elements having the same meaning in a database, a number of descriptive elements from the list are classified under a single category.
L'invention est également relative à un système de prélèvement d'information d'une base de données, comprenant : des moyens agencés à lire au moins un mot clef choisi par l'utilisateur; des moyens agencés à comparer le mot clef avec les données de la base de données; et des moyens agencés à produire une liste d'éléments descriptifs, le mot clef choisi étant associé à chacun des éléments descriptifs. Le système selon l'invention est caractérisé en ce qu'il comprend en outre : des moyens agencés à produire une liste de mots clefs, chaque mot clef étant associé à au moins un élément descriptif de la liste d'éléments descriptifs.The invention also relates to a system for extracting information from a database, comprising: means arranged to read at least one keyword chosen by the user; means arranged to compare the keyword with the data in the database; and means arranged to produce a list of descriptive elements, the chosen keyword being associated with each of the descriptive elements. The system according to the invention is characterized in that it further comprises: means arranged to produce a list of keywords, each keyword being associated with at least one descriptive element from the list of descriptive elements.
En particulier, le système comprend un filtre agencé à supprimer des mots clefs prédéterminé de la liste de mots clefs. Ceci permet d'éliminer des mots clefs non pertinents, tels que "le", "la", "un", "une", "à", etc. de la liste de mots clefs. Avantageusement, le filtre est en outre agencé à supprimer des mots clefs ayant un nombre de caractères inférieur à une certaine limite. On peut par exemple ne pas afficher les mots clefs de 1 , 2 ou 3 caractères, car il seront plus que probablement non pertinents.
Des détails concernant l'invention sont décrits ci-après faisant référence aux dessins illustrant un exemple opérationnel du procédé suivant l'invention.In particular, the system includes a filter arranged to remove predetermined keywords from the list of keywords. This eliminates irrelevant keywords, such as "le", "la", "un", "une", "à", etc. from the keyword list. Advantageously, the filter is further arranged to delete keywords having a number of characters less than a certain limit. One can for example not display the keywords of 1, 2 or 3 characters, because they will more than likely be irrelevant. Details concerning the invention are described below with reference to the drawings illustrating an operational example of the method according to the invention.
La figure 1 illustre l'étape de sélection d'une banque de données.Figure 1 illustrates the step of selecting a database.
La figure 2 illustre les éléments descriptifs de la banque de données sélectionnée dans la liste de la figure 1.FIG. 2 illustrates the descriptive elements of the database selected from the list in FIG. 1.
La figure 3 illustre la liste de mots clefs associés aux éléments descriptifs de la figure 2. La figure 4 illustre une nouvelle liste d'éléments descriptifs associé au mot clef choisi dans la liste de la figure 3.FIG. 3 illustrates the list of keywords associated with the descriptive elements of FIG. 2. FIG. 4 illustrates a new list of descriptive elements associated with the keyword chosen from the list of FIG. 3.
La figure 5 illustre une nouvelle liste de mots clefs associé à la nouvelle liste d'éléments descriptifs de la figure 4.FIG. 5 illustrates a new list of keywords associated with the new list of descriptive elements in FIG. 4.
La figure 6 illustre une nouvelle liste d'éléments descriptifs associé aux mots clefs choisis dans les étapes précédentes.FIG. 6 illustrates a new list of descriptive elements associated with the keywords chosen in the preceding steps.
L'invention à pour but de proposer un procédé et système efficaces pour le prélèvement d'information dans une base de données. Le principe de fonctionnement sera expliqué ci-après à l'aide de quelques exemples. Prenons une base de données comportant les quatre éléments descriptifs suivant :The invention aims to provide an efficient method and system for retrieving information from a database. The operating principle will be explained below using a few examples. Consider a database with the following four descriptive elements:
• "I like the taste"• "I like the taste"
• "It is too expensive"• "It is too expensive"
• "It is very nice" • "The taste is excellent"• "It is very nice" • "The taste is excellent"
Suivant l'invention, l'utilisateur peut demander une liste de mots clefs associés à ces phrases ou éléments descriptifs. Dans ce cas, les mots clefs consistent en mots qui apparaissent dans les éléments descriptifs. De manière générale, à chaque élément descriptif peut être associé un certain nombre de mots clefs.
La liste de mots clefs est composé dans le cas présent comme suit :According to the invention, the user can request a list of keywords associated with these sentences or descriptive elements. In this case, the key words consist of words which appear in the descriptive elements. In general, each descriptive element can be associated with a certain number of keywords. The list of keywords is composed in the present case as follows:
• "is" 3• "is" 3
• "taste" 2• "taste" 2
• "it" 2• "it" 2
• "the" 2• "the" 2
Lorsque l'utilisateur sélectionne un des mots clefs, par exemple "taste", il obtient une nouvelle liste d'éléments descriptifs, chacun de ces éléments descriptifs étant associé au mot clef "taste" :When the user selects one of the key words, for example "taste", he obtains a new list of descriptive elements, each of these descriptive elements being associated with the key word "taste":
• "Nike the TASTE"• "Nike the TASTE"
• "The TASTE is excellent"• "The TASTE is excellent"
A la lecture de ces deux phrases, on constate qu'elles ont la même signification. Par conséquent, elles seront classifiées, dans une prochaine étape, sous une même catégorie appelée par exemple "Like the taste". Le procédé permet donc d'assister l'utilisateur à filtrer des éléments descriptifs et ainsi plus facilement déterminer quels éléments descriptifs, ayant la même signification, devraient être groupés sous une seule et même catégorie. Les éléments descriptifs groupés sont prélevés de la liste.On reading these two sentences, we see that they have the same meaning. Consequently, they will be classified, in a next step, under the same category called for example "Like the taste". The method therefore makes it possible to assist the user in filtering descriptive elements and thus more easily determine which descriptive elements, having the same meaning, should be grouped under one and the same category. The grouped descriptive elements are taken from the list.
Le procédé est ensuite répété jusqu'à ce qu'il n'y ait plus deux éléments descriptifs ayant la même signification.The process is then repeated until there are no longer two descriptive elements having the same meaning.
Un autre exemple est expliqué ci-après faisant référence aux figures 1 à 6. Dans une première étape, illustrée à la figure 1 , on sélectionne une des banques de données disponibles : Q15, Q20 ou Q6A. L'utilisateur sélectionne par exemple la banque de données Q15. Cette étape peut être considérée comme étape de sélection d'un premier mot clef.
Les éléments descriptifs de la banque de données sélectionnée sont affichées à l'écran, comme illustré à la figure 2. Dans l'exemple illustré, chaque élément descriptif consiste en une série de mots. Dans une application de moteur de recherche sur Internet, chaque élément descriptif comporte par exemple plusieurs séries de mots, tels que le titre du site, une brève description (de par exemple maximum 60 caractères), une description plus élaborée (jusqu'à 256 caractères), l'adresse URL, ...Another example is explained below with reference to FIGS. 1 to 6. In a first step, illustrated in FIG. 1, one of the available databases is selected: Q15, Q20 or Q6A. For example, the user selects the Q15 database. This step can be considered as the step of selecting a first keyword. The descriptive elements of the selected database are displayed on the screen, as illustrated in FIG. 2. In the example illustrated, each descriptive element consists of a series of words. In a search engine application on the Internet, each descriptive element comprises for example several series of words, such as the site title, a brief description (of for example maximum 60 characters), a more elaborate description (up to 256 characters ), URL address, ...
L'utilisateur peut ensuite appeler un écran indiquant les mots clefs associés aux éléments descriptifs. De préférence, les mots clefs sont affichés par ordre décroissant de fréquence, comme illustré à la figure 3. Ainsi, l'utilisateur découvre que le mot "lack" est associé à 28 reprises aux éléments descriptifs. On voit également dans la liste des mots non pertinents tels que "and", "in", "on" et "to". Ceux-ci peuvent être éliminés de la liste de mots clefs en les indiquant dans un filtre de mot exclu ("excluded words").The user can then call up a screen indicating the keywords associated with the descriptive elements. Preferably, the keywords are displayed in decreasing order of frequency, as illustrated in FIG. 3. Thus, the user discovers that the word "lack" is associated 28 times with the descriptive elements. We also see in the list of irrelevant words such as "and", "in", "on" and "to". These can be eliminated from the list of keywords by indicating them in an excluded word filter.
Si l'utilisateur sélectionne le mot clef "lack", il obtient une nouvelle liste d'éléments descriptifs (figure 4). Cette liste contient les éléments descriptifs de la figure 2 auquel le mot "lack" est associé. Dans ce cas, le mot "lack" est associé lorsqu'il apparaît tel quel dans l'élément descriptif. Selon une alternative, il suffit que le mot clef soit associé à l'élément descriptif. Dans une application de moteur de recherche sur Internet, cela pourrait être mis en oeuvre en prévoyant que chaque site enregistré sur le site où est hébergé le moteur de recherche comprend un certain nombre de mots clefs, qui ne sont pas nécessairement affichés à l'écran de l'utilisateur.If the user selects the keyword "lack", he obtains a new list of descriptive elements (Figure 4). This list contains the descriptive elements of Figure 2 with which the word "lack" is associated. In this case, the word "lack" is associated when it appears as it is in the descriptive element. According to an alternative, it suffices that the keyword is associated with the descriptive element. In a search engine application on the Internet, this could be implemented by providing that each site registered on the site where the search engine is hosted includes a certain number of keywords, which are not necessarily displayed on the screen. of the user.
Dans une prochaine étape, l'utilisateur peut requérir une nouvelle liste de mots clefs (figure 5), apparaissant cette fois ci dans la nouvelle liste d'éléments descriptifs. Dans cette liste, le mot clef sélectionné auparavant ("lack") est exclu. L'utilisateur peut ainsi affiner
sa recherche en sélectionnant un nouveau mot clef, par exemple "confidence". Après avoir sélectionné ce mot clef, une nouvelle liste d'éléments descriptifs apparaît à l'écran (figure 6). Les mots clefs "taste" et "confidence" sont associés à chaque élément descriptif de la liste. Le procédé suivant l'invention peut être appliqué dans tout type de base de données. En particulier, il peut être utilisé pour faciliter les recherches sur Internet. Dans cette application, on pourrait en outre associer une bande publicitaire ("banner") à un mot clef. Ainsi, lorsque l'utilisateur choisit un mot clef particulier, on affiche à l'écran la bande publicitaire associé au mot clef.
In a next step, the user can request a new list of keywords (Figure 5), this time appearing in the new list of descriptive elements. In this list, the previously selected keyword ("lack") is excluded. The user can thus refine its search by selecting a new keyword, for example "confidence". After selecting this keyword, a new list of descriptive elements appears on the screen (Figure 6). The keywords "taste" and "confidence" are associated with each descriptive element of the list. The method according to the invention can be applied in any type of database. In particular, it can be used to facilitate research on the Internet. In this application, we could also associate an advertising band ("banner") with a keyword. Thus, when the user chooses a particular keyword, the advertising strip associated with the keyword is displayed on the screen.