WO2007034096A1

WO2007034096A1 - Procede de tri d'un ensemble de documents electroniques

Info

Publication number: WO2007034096A1
Application number: PCT/FR2006/050856
Authority: WO
Inventors: Jérôme GALTIER
Original assignee: France Telecom
Priority date: 2005-09-20
Filing date: 2006-09-07
Publication date: 2007-03-29
Also published as: US7827173B2; US20080208860A1; JP2009509259A; CN101268465B; CN101268465A; EP1938219A1

Abstract

Procédé de tri d'un ensemble de documents électroniques, comprenant les étapes consistant à, - déterminer (S1 10) pour chaque couple de documents {u,v} de l'ensemble le degré de corrélation ω{u,v) entre les documents u et v, - déterminer (S120, S125, S130, S135) une fonction X de projection entre l'ensemble de documents et une sphère de l'ensemble Rd où d est un entier positif, la fonction X étant telle que, pour au moins un document u, la distance dans Rd entre deux points X (u) et x (v) où v est un document pour il y a corrélation entre les documents u et v, est d'autant plus petite que le degré de corrélation est élevé, - effectuer une opération de tri (S140) sur au moins une partie de l'ensemble des documents en fonction des valeurs prises par la fonction X .

Description

Procédé de tri d'un ensemble de documents électroniques

L'invention se rapporte aux domaines des télécommunications et en particulier au domaine des moteurs de recherche pour la recherche de documents électroniques.

Plus précisément l'invention concerne un procédé de tri d'un ensemble de documents électroniques. Un tel ensemble résulte par exemple d'une recherche effectuée par un utilisateur au moyen d'un moteur de recherche sur un réseau de type Internet, les documents électroniques étant dans ce cas des pages Web (abréviation de "World Wide Web"), qui sont accessibles localement via un support local de stockage ou à distance via le réseau.

Les moteurs de recherches utilisent plusieurs techniques pour le classement ou le tri de pages issues d'une recherche. Parmi les techniques connues d'exploration d'un ensemble de pages Web, certaines reposent sur la sémantique, une page étant classée comme étant d'autant plus pertinente qu'elle comporte un grand nombre d'occurrences du ou des mots recherchés. Ces techniques sont sensibles à une pratique, connue sous la dénomination anglo-saxonne de

"spamming", visant à faire figurer dans une page donnée un très grand nombre de fois les mots utilisés couramment par les internautes dans leur requête de recherche, ce qui a pour effet de faire apparaître fréquemment la page comme pertinente.

D'autres techniques se basent sur la structure topologique du Web. Ces techniques tiennent compte à la fois des liens existants entre les pages considérées et des propriétés des pages elles mêmes, telles que l'appartenance d'une page à un domaine ou à un sous domaine réseau du Web. Ces techniques sont généralement basées sur une représentation par graphe des pages à traiter. Elles sont appropriées à la classification de pages répondant à des propriétés topologiques données dans le graphe. Ces techniques sont sensibles à une variante de la pratique de "spamming" visant à référencer un grand nombre de fois une page donnée, ce qui a pour effet de fausser localement les caractéristiques topologiques du graphe du Web.

Certaines des techniques exploitant la structure topologique du Web consistent à opérer une classification des pages Web par attribution aux différentes pages d'un rang qui est fonction des relations d'une page avec les autres.

Un exemple d'une telle méthode, connu sous le terme anglais "PageRank", est utilisé dans la mise en œuvre du moteur de recherche Google™ et est décrit dans le document : "The PageRank Citation Ranking : Bringing Order on the Web", de L. Page, S. Brin, R. Motwani et T. Winograd ; Technical Report, Computer Science Département, Stanford University, 1998.

La méthode PageRank ordonne les pages en fonction de leur visibilité sur le Web. Dans cette méthode, une navigation aléatoire de page en page sur le Web en suivant les liens hypertextes, est simulée. Cette navigation correspond à celle provoquée par un utilisateur accédant au Web lorsque ce dernier active aléatoirement un des liens hypertextes se trouvant dans une page visualisée, afin d'accéder à une autre page. Cette méthode procède à une analyse probabiliste de cette navigation simulée afin de déterminer la probabilité pour l'utilisateur de se retrouver sur une page donnée lors d'une telle navigation aléatoire de page en page. Le rang d'une page est d'autant plus élevé que le nombre de fois que cette page est citée par d'autres pages est élevé.

Une telle méthode fournit un rang de classement qui n'est pas forcément pertinent vis-à-vis de la recherche effectuée par un utilisateur, les pages les mieux classées (de rang le plus élevé) n'étant pas forcément les pages correspondant le mieux à l'attente de l'utilisateur.

En outre, cette méthode ne permet pas d'identifier dans l'ensemble des documents des communautés thématiques ou communautés d'intérêt, susceptibles d'aiguiller l'utilisateur plus rapidement vers une page intéressante.

Enfin, dans le cas où un utilisateur identifie dans l'ensemble des documents présentés un document qui l'intéresse particulièrement, il n'est pas possible en utilisant une liste de documents ordonnés en fonction simplement de leur rang, de déterminer aisément si d'autres documents, proches du document intéressant ou liés à celui-ci d'une manière ou d'une autre, sont présents dans l'ensemble des documents.

L'invention a ainsi pour objectif notamment de résoudre les inconvénients susmentionnés de l'état de technique en proposant une technique de tri de documents électroniques, par exemples des pages Web, qui permette en particulier, de détecter des problèmes de spamming, qui soit applicable à un grand ensemble de documents tout en étant rapide dans sa mise en œuvre, et qui permette d'obtenir simplement un tri des documents, non pas par attribution de rang, mais par constitution de communautés de documents ou de sous-ensemble de documents proches les uns des autres, que cette notion de proximité soit définie en fonction du contenu sémantique des documents, des liens hypertextes entre ces documents ou d'une toute autre manière.

Dans ce but, l'invention a pour objet, selon un premier aspect, un procédé de tri d'un ensemble de documents électroniques, comprenant:

- une étape de comptage de liens hypertexte ou de cocitations présents entre chaque couple de documents {u,v} dudit ensemble,

- une étape de détermination, pour chaque couple de documents {u,v} dudit ensemble, d'un degré de corrélation ω(u,v) entre les documents u et v, ledit degré de corrélation étant fonction du nombre de liens obtenu à l'issue de l'étape de comptage, - une étape de détermination, pour chaque document u dudit ensemble, d'un point X (M) associé situé sur une sphère de l'ensemble C^d où C est l'ensemble des réels et d est un entier positif, pour au moins un document u1 dudit ensemble la distance dans _D^d entre les points x(ul) et x{ul) associés, où u2 est un document pour lequel il y a corrélation entre les documents u1 et u2, étant d'autant plus petite que le degré de corrélation entre les documents u1 et u2 est élevé,

- une étape de tri d'au moins une partie dudit ensemble de documents en fonction des points déterminés sur ladite sphère.

Le fait d'utiliser une sphère pour déterminer la position des points est original en ce que cela permet de définir simplement pour les points obtenus - et donc pour les documents associés - des positions relatives de ces points les uns par rapport aux autres. En effet, dans ce mode de représentation aucun point n'est favorisé par rapport à un autre. En conséquence, la position relative entre deux points, et donc la distance entre ces deux points, peut être utilisée pour représenter un degré de corrélation entre les deux documents associés à ces deux points. La représentation ainsi obtenue reflète les corrélations ou liens entre les documents concernés.

Le fait de disposer d'une représentation de l'ensemble des documents sur une sphère, par exemple une sphère dans un espace à trois dimensions, permet en outre d'envisager tout type d'opérations de tri : par sélection, classement, filtrage, classification, et ce, très simplement, puisque chaque document est désormais représenté par un simple n-uplet de coordonnées dans un espace à N dimensions (par exemple par un triplet de coordonnées dans un espace à trois dimensions).

Les applications du procédé sont multiples: constitution de clusters de documents, classement ou sélection de documents. Ces opérations sont effectuées dans l'espace R/ en fonction de la position spatiale des projections des documents ou sur la base de mesure de distance, c'est-à-dire en prenant en compte leur degré de corrélation ou de proximité tel que déterminé.

Le procédé selon l'invention peut par exemple être utilisé pour effectuer toute sorte d'opérations de tri, classement, classification des pages WEB résultant d'une recherche effectuée au moyen d'un moteur de recherche, les pages les plus originales, c'est-à-dire celles qui sont les plus éloignées des autres, étant par exemple classées en premier.

En alternative ou en combinaison, les pages sont triées par groupe, chaque groupe correspondant à un ensemble de pages dont les projections par la fonction X se trouvent dans une zone spatiale prédéfinie de la sphère de l'espace R/ . De préférence, dans cette variante, une partition de cette sphère en zones spatiales est définie, et les documents sont classés selon l'appartenance de leur projection à une des zones spatiales de la partition. Le procédé selon l'invention peut aussi être utilisé pour détecter la présence de "Spam", c'est-à-dire de pages qui pointent les unes sur les autres, car les projections de toutes ces pages sur la sphère S vont se retrouver sensiblement proches les unes des autres.

Le procédé selon l'invention peut également être utilisé pour générer une représentation visuelle des pages WEB résultant d'une recherche effectuée au moyen d'un moteur de recherche.

Selon une première variante du procédé, dans lequel au moins un des documents présente au moins un lien hypertexte vers au moins un autre document, le degré de corrélation entre deux documents u et v est déterminé en fonction du nombre de liens hypertextes et/ou du nombre de liens de cocitation, présents entre les documents u et v, le degré de corrélation étant d'autant plus élevé que ce nombre est élevé, l'absence de corrélation correspondant à l'absence de liens.

Cette première variante permet avantageusement la réalisation d'opérations de tri prenant en compte les liens hypertextes ou de cocitation entre documents. Selon une deuxième variante du procédé, le degré de corrélation entre deux documents u et v est déterminé en fonction d'une mesure de proximité des contenus sémantiques des documents u et v, le degré de corrélation étant d'autant plus élevé que cette mesure est faible, l'absence de corrélation correspondant à une mesure inférieure à un seuil prédéfini. Cette deuxième variante permet avantageusement la réalisation d'opérations de tri prenant en compte le contenu sémantique des documents.

Selon une troisième variante, le degré de corrélation est déterminé en fonction des pages favorites définies par une pluralité d'utilisateurs. Dans ce cas, à chaque utilisateur est associé un ensemble de documents (ses pages favorites), le degré de corrélation entre deux documents u et v étant déterminé comme étant le nombre de tels ensembles auxquels appartiennent les documents u et v.

Cette troisième variante permet avantageusement de tenir compte de profils utilisateur dans la détermination du degré de corrélation entre pages.

Les trois variantes peuvent en outre être combinées en elles afin de déterminer un degré de corrélation qui tienne compte à la fois des liens hypertexte, du contenu sémantique et/ou de préférence utilisateurs. Tout autre type de lien entre deux documents est également utilisable pour la définition d'un degré de corrélation.

Selon un mode de réalisation particulier, le procédé comprenant en outre:

- une étape de définition d'une fonction initiale Z₀ de projection dudit ensemble sur ladite sphère,

- une étape de détermination d'une fonction Z de projection dudit l'ensemble sur ladite sphère, ladite fonction Z de projection étant obtenue à partir de la fonction initiale Z₀ en au moins une itération, chaque itération consistant à déterminer une fonction Z₁ à partir de la fonction Z_1-1 obtenue à l'itération précédente en remplaçant, pour au moins un document u dudit l'ensemble, la valeur de Z_1-1 (w) par la valeur X₁ (w) permettant d'optimiser un critère prédéfini qui est fonction de la valeur de Z_^1 (W) ainsi que des valeurs de Z_1-1 (V) et des degrés de corrélation ω{u,v) entre les documents u et v pour tout document v appartenant audit l'ensemble. Le procédé selon l'invention se prête à une détermination itérative de la fonction X, ce qui simplifie sa mise en œuvre et permet de contrôler avec précision la convergence du procédé.

De préférence la fonction Z₀ est définie de manière aléatoire. Le fait de partir d'une fonction aléatoire améliore statistiquement la vitesse de convergence vers la fonction X souhaitée, et ce sans avoir besoin d'une connaissance a priori sur la fonction à obtenir.

Dans ce mode de réalisation, l'optimisation du critère prédéfini consiste à maximiser pour le document u la valeur d'une quantité Δ(w) égale à :

A(u) = 2 ^(^M'^V)|U;__I (M)-^;__I (V)|| -

{».v}_e£ ^M ' ^{X l l} " avec δ(u,v) = \-ω(u,v) , 0 ≤ ω(u,v) ≤ l , ω(u,v) =O en l'absence de corrélation entre les documents u et v, la valeur X₁ (u) étant égale à X₁ Qt) = -Y(U)

avec

Y(U) = ∑ ^,V)X_1-1(V) si Y(U) ≠ O , veV-{»} la valeur X₁ (w) étant égale à X_1-1 (M) si F(CZ) = O .

L'invention a également pour objet un programme d'ordinateur sur un support d'informations lisible par un système informatique, ledit programme comprenant des instructions pour mettre en œuvre un procédé selon l'invention tel que brièvement défini supra, lorsque ce programme est chargé puis exécuté par un système informatique.

L'invention a également pour objet un dispositif de traitement de données, comprenant des moyens de traitement de données pour l'exécution des étapes d'un procédé selon l'invention. Un tel dispositif est par exemple un serveur informatique mettant en œuvre un moteur de recherche de documents.

L'invention a également pour objet un support d'enregistrement, lisible par un système informatique, comprenant un programme comprenant des instructions de code de programme pour la mise en œuvre d'un procédé selon l'invention lorsque ledit programme est exécuté par un système informatique.

D'autres buts, caractéristiques et avantages de l'invention apparaîtront à travers la description qui va suivre, donnée uniquement à titre d'exemple non limitatif, et faite par référence aux dessins annexés sur lesquels la figure 1 est un organigramme d'un mode de réalisation du procédé selon l'invention.

Le procédé selon l'invention est appliqué à un ensemble de documents électroniques, notamment un ensemble de pages WEB, comportant pour certaines un ou plusieurs liens hypertextes vers une ou plusieurs autres pages.

Dans le mode de réalisation choisi et illustré, le degré de corrélation entre deux documents u et v de l'ensemble de documents V est déterminé en fonction du nombre de liens hypertextes et de liens de cocitation existant entre les documents u et v. Pour la détermination du nombre de liens hypertextes entre deux documents, il n'est pas tenu compte du sens des liens hypertextes et on considère des liens hypertextes "symétrisés", c'est-à-dire que l'on traite de la même façon le cas où le document u comporte un lien vers le document v et le cas où le document v comporte un lien vers le document u.

Deux documents u et v possèdent un lien de cocitation s'il existe au moins un autre document w tel que:

- il existe au moins un lien hypertexte pointant de w vers u, et

- il existe au moins un lien hypertexte pointant de w vers v, Les étapes du procédé selon l'invention sont maintenant décrites plus en détail par référence à la figure 1.

L'étape S100 consiste à déterminer pour tout couple (u,v) de documents de l'ensemble V un poids a\ {u,v) qui est fonction du nombre de liens hypertextes entre les documents u et v. De préférence, la fonction ω_λ {u,v) est une fonction croissante du nombre de liens hypertextes entre les documents u et v.

De préférence, la valeur de a\ {u,v) est comprise entre une valeur minimale prédéfinie (typiquement 0) et une valeur maximale prédéfinie (typiquement 1 ). Dans ce cas, la valeur minimale correspond à l'absence de lien hypertexte entre les documents u et v, et la valeur maximale correspond par exemple à la présence d'un nombre minimal prédéfini de liens hypertextes entre les documents u et v.

Selon un premier exemple, la valeur de a\ (u,v) est choisie égale à 0 en l'absence de lien hypertexte et égale à 1 en présence d'au moins un lien hypertexte entre les documents u et v.

Selon un deuxième exemple, la valeur de o\ (u,v) est choisie égale à 0 en l'absence de lien hypertexte, égale à 0,5 en présence d'un lien hypertexte unique entre les documents u et v et égale à 1 en présence de deux liens hypertextes ou plus entre les documents u et v.

Selon un troisième exemple, la valeur de a\ (u,v) est définie comme une fonction continûment croissante du nombre N_h de liens hypertextes entre les documents u et v, par exemple:

où N_hma_x est un seuil plafonnant le nombre N_h de liens hypertextes. L'étape S105 consiste à déterminer pour tout couple (u,v) de documents de l'ensemble V un poids ω₂ (u,v) qui est fonction du nombre de liens de cocitation entre les documents u et v. De préférence, la fonction ω₂ (u,v) est une fonction croissante du nombre de liens de cocitation entre les documents u et v. Les exemples de définition de fonction donnés pour a\ (u,v) sont transposables à ω₂ (u,v) . Par exemple, la valeur de ω₂ (u,v) est choisie égale à 0 en l'absence de lien de cocitation et égale à 1 en présence d'au moins un lien de cocitation entre les documents u et v.

L'étape S1 10 consiste à déterminer pour tout couple (u,v) de documents le degré de corrélation ω{u,v) associé à un couple {w,v} par la relation ω(u,v} = ^u)₁(U, v) + k₂ω₂(u,v) , k1 et k2 étant des coefficients réels tels que, 0 < Ic₁ ≤ 1 , 0 ≤ *₂ ≤ l , Jk₁ -I- Jt₂ = I .

Le degré de corrélation ω(u,v) prend ainsi des valeurs réelles comprises entre 0 et 1 , la valeur 0 correspondant à l'absence de liens.

La valeur donnée au coefficient k1 sera choisie d'autant plus élevée qu'on souhaite donner de l'importance à la présence de liens hypertextes. A contrario, la valeur donnée au coefficient k2 sera choisie d'autant plus élevée qu'on souhaite donner de l'importance à la présence de liens de cocitation.

Cette méthode de détermination du degré de corrélation entre les documents permet de prendre en compte, dans le procédé de classification de documents selon l'invention, deux types de liens entre documents: les liens hypertextes et les liens de cocitation.

Cette méthode se généralise à d'autres types de liens. Par exemple, on peut définir que deux documents u et v sont liés entre eux par un lien hypertexte indirect s'il existe un ou plusieurs liens hypertextes permettant de passer de u à v, le nombre de liens hypertextes étant dans ce cas supérieur ou égal à 2. Selon un autre exemple, on peut considérer les liens de type sémantique entre les documents. Dans ce cas, la détermination du degré de corrélation entre deux documents est effectuée sur la base d'une analyse et d'une comparaison du contenu sémantique des deux documents. Dans ce but, des méthodes connues de comparaison de contenu sémantique sont applicables. Le degré de corrélation représente alors une mesure de la proximité sémantique entre les deux documents. Le degré de corrélation sémantique peut être déterminé par exemple sur la base d'une analyse et comparaison statistique des mots contenus dans chacun des documents. En variante, il est possible de définir une distance entre deux documents et de définir le degré de corrélation comme une fonction décroissante de la distance définie, de manière à ce que plus la distance entre deux documents est faible et plus le degré de corrélation entre ces documents est élevé. La méthode est généralisable enfin à un nombre quelconque de liens, quel que soit leur type. Le degré de corrélation entre deux documents est alors déterminé comme une somme pondérée de degrés de corrélation élémentaires, par exemple une somme d'un degré de corrélation fonction du nombre de liens de cocitation entre les deux documents et d'un degré de corrélation fonction des contenus sémantiques des deux documents. La méthode permet la prise en compte simultanée des informations apportées par les liens hypertextes entre documents et par le contenu sémantique des documents.

De retour à la figure 1 , les étapes S120 à S135 suivantes consistent à déterminer une fonction X de projection entre l'ensemble V de documents et une sphère S de l'ensemble R/ (puissance cartésienne d-ième de R où R désigne l'ensemble des nombres réels et d est un entier positif). De préférence d est choisi égal à 2 ou à 3.

La fonction X déterminée est telle que, pour au moins un document u, la distance dans R ^ entre deux points X (u) et X (v) où v est un document pour il y a corrélation entre les documents u et v, est d'autant plus petite que le degré de corrélation est élevé.

Selon un mode de réalisation particulier, on utilise un processus itératif pour la détermination de la fonction X. Chaque itération de ce processus itératif consiste à déterminer une fonction X₁ à partir de la fonction X_1-1 obtenue à l'étape précédente, en remplaçant, pour au moins un document u de l'ensemble V, la valeur de X_1-1 [U) par la valeur de X₁ (w) permettant d'optimiser un critère prédéfini ; ce critère est d'une part fonction de la valeur de X_1-1 (U) obtenue pour le document u considéré et des valeurs des -X^",_i (v) obtenues pour tout document v de l'ensemble V, et d'autre part, fonction des degrés de corrélation ω(u,v) entre le document u et n'importe quel document v de l'ensemble V. Le critère est choisi de manière à faire converger la suite des fonctions X₁ vers une fonction X présentant les propriétés énoncées plus haut. De préférence, l'optimisation dudit critère prédéfini consiste à maximiser pour un document u donné la valeur d'une quantité Δ(w) égale à,

|2

A(u) = ∑ δ(u,v) X(κ)-X(i

{w.vje£ avec δ(u,v) = \-ω(u,v) , 0 ≤ ω(u,v) ≤ l , et ω(u,v) =0 en l'absence de corrélation entre les documents u et v. A l'étape S120, la fonction initiale Z₀ de projection est déterminée. De préférence, la fonction initiale Z₀ prend des valeurs aléatoires sur la sphère S. Le processus itératif est ensuite appliqué à la fonction courante X₁ = X₀ .

A partir de l'étape S125 commence le processus itératif de détermination de la fonction de projection X. Une itération correspond à l'exécution des étapes S125, S130 et S135. Les itérations sont indexées par l'indice i. A la fin de l'étape S120 l'indice i prend sa valeur initiale et vaut 0.

A l'étape S125 cet indice est incrémenté : i= i+1.

A l'étape S130, les opérations suivantes sont effectuées pour au moins un document u: - on détermine la valeur de Y(U) = ∑ S(^v)X_1-1(V) véV-iu}

- si Y(U) ≠ O , on calcule X, (u) à partir de Y(U) par Z» = -y(£/)/|y(£/)| ,

- si Y(U) = 0 , on prend X₁ (u) égal à Z_1-1 (u) .

A l'étape S135, on détermine si le processus itératif prend fin. De préférence, le processus est itéré un nombre suffisant de fois pour que la fonction X soit modifiée au moins une fois pour chaque document u de l'ensemble V.

La suite des fonctions Z₁ convergeant rapidement, même avec une fonction de départ aléatoire, il est possible d'itérer un nombre limité de fois sur l'ensemble des documents.

La décision d'arrêter les itérations peut également être basée sur: - le nombre d'itérations déjà effectuées, - une mesure de la convergence de la fonction, effectuée après chaque itération.

Cette mesure de la convergence peut s'effectuer en calculant après chaque itération la somme Δ₍ de la manière suivante : Δ, = ∑|X, (_M)- X,^)!

et en fixant une valeur de seuil, éventuellement fonction du nombre de documents u de l'ensemble V, en dessous de laquelle le processus itératif s'arrête.

Si, à l'étape S135, la décision d'arrêter le processus itératif est prise, on exécute ensuite l'étape S140; sinon on exécute l'itération suivante, à partir de l'étape S125.

A l'étape S140, on effectue une opération de tri sur au moins une partie de l'ensemble V des documents en fonction des valeurs prises par la fonction X obtenu à la dernière itération.

Grâce à la fonction X de projection déterminée, la position d'un points X(u) sur la sphère S est fonction des liens du document u avec les autres documents. En particulier la distance entre deux points est représentative de degré de corrélation entre les documents correspondant à ces deux points.

Il est envisageable d'utiliser d'autres critères mathématiques pour faire converger la fonction aléatoire initiale vers une telle fonction. Dans le cas où l'ensemble V est un ensemble de pages WEB résultant d'une recherche effectuée au moyen d'un moteur de recherche, cette opération de tri peut viser à:

- sélectionner les pages les plus originales, en détectant les pages ayant les projections les plus éloignées des autres projections; - filtrer les pages contenant des "Spam" (pages qui pointent les unes sur les autres) en détectant les pages dont les projections sont sensiblement proches des projections d'un groupe de pages;

- sélectionner les pages dont les projections répondent à un critère déterminé. Selon une première variante, l'opération de tri comprend les opérations suivantes:

- calcul pour tout couple {w,v} de l'ensemble V de la valeur de la distance d(u,v) = \\x (u)-X (v)\\ ,

- détermination d'au moins un sous-ensemble V₁ de l'ensemble V sur lequel la valeur d (u,v) répond à un critère prédéfini, par exemple en étant supérieure ou inférieure à un seuil prédéfini.

Cette première variante permet de détecter des clusters de points sur la sphère et donc de déterminer les clusters correspondants de documents. Selon une deuxième variante l'opération de tri comprend l'opération consistant à déterminer un sous-ensemble V₁ pour lequel tout point X(u) appartient à un ensemble déterminé, par exemple à une zone prédéfinie de l'espace dans R/ .

Cette zone peut être par exemple le volume intérieur d'une sphère, d'un cube, ou encore une surface définie sur la sphère S de R^d . En répétant cette opération pour plusieurs zones prédéfinies, il est possible de constituer des partitions ou une segmentation de l'ensemble des documents.

Le procédé selon l'invention permet ainsi d'effectuer toute sorte d'opérations de tri sur un ensemble de documents, sur la base des valeurs prises par la fonction X déterminée. En outre, on peut démontrer que le processus de détermination de la fonction

X converge rapidement.

De plus, le temps de calcul d'une itération de ce processus est proportionnel au nombre de liens hypertextes lorsque le degré de corrélation est déterminé en fonction de ce nombre de liens hypertextes. Le procédé de l'invention peut donc être utilisé sur un grand nombre de pages.

Enfin, en cas de modification de l'ensemble des documents électroniques, (par ajout de document, suppression de document ou modification de liens entre documents), il suffit de partir de la fonction X obtenue pour l'ensemble non modifié, puis de procéder à l'exécution de l'étape 130 pour quelques documents choisis (de préférence au moins pour les documents ayant fait l'objet de modification ou ayant été rajoutés) pour déterminer une fonction X corrigée et qui prend en compte l'ensemble modifié des documents électroniques. L'invention est donc particulièrement adaptée au traitement d'ensembles contenant un grand nombre de documents, dont une partie est régulièrement mise à jour. Dans une variante du procédé selon l'invention, il est généré une représentation graphique de la fonction X, c'est-à-dire une représentation de ladite sphère et des points X(u) situés sur ladite sphère. Le fait de générer une telle représentation graphique permet de faciliter la sélection par l'utilisateur d'ensembles de documents pertinents. Cette représentation peut se faire par exemple sous forme d'une représentation cartographique en deux dimensions, dans laquelle chaque document est matérialisé par un symbole graphique correspondant à la valeur de la fonction X déterminée pour ce document.

L'invention se prête ainsi à un mode de réalisation dans lequel cette représentation graphique est affichée sur un terminal informatique d'utilisateur, comprenant un écran d'affichage et un outil de sélection graphique (par exemple une souris utilisée en combinaison avec un pointeur permettant de définir des zones graphiques sur l'écran), cet outil étant approprié pour la sélection d'au moins une partie de la représentation graphique.

L'utilisateur est alors en mesure d'effectuer une sélection d'une ou de plusieurs parties de la représentation graphique correspondant à un ou plusieurs ensembles, choisis par lui, de documents. Le terminal obtient via l'outil de sélection graphique des données définissant les parties sélectionnées. En fonction de ces données, le terminal trie l'ensemble V des documents. Il génère par exemple une liste réduite de documents, correspondant aux documents dont la projection se situe dans les parties sélectionnées par l'utilisateur. En alternative, les documents dont la projection se situe dans les parties sélectionnées sont au contraire éliminés. A partir de la liste de documents retenus par l'utilisateur, peut s'effectuer des opérations supplémentaires de tri, ces opérations étant soient effectuées automatiquement sur la base des propriétés de documents ou de leur degré de corrélation, soient effectuées manuellement, sur la base de nouvelles parties sélectionnées à l'intérieur des parties initialement sélectionnées.

Ce mode de visualisation des résultats d'une recherche effectuée par un moteur de recherche est particulièrement ergonomique pour l'utilisateur. Elle fait apparaître des communautés de documents, sous forme d'ensemble de points proches les uns des autres,

La représentation par projection telle que définie dans l'invention permet donc d'effectuer un tri ou une classification, soit visuellement et manuellement au moyen d'un outil de sélection graphique, soit automatiquement, selon des critères prédéfinis liés à la position de ces documents dans la représentation générée. Selon une implémentation préférée, les étapes du procédé de tri de documents électroniques, selon l'invention, sont déterminées par des instructions d'un programme d'ordinateur.

On entend ici par "programme d'ordinateur" un ou plusieurs programmes d'ordinateur formant un ensemble (logiciel) dont la finalité est la mise en œuvre de l'invention lorsqu'il est exécuté par un système informatique approprié. Le procédé selon l'invention est alors mis en œuvre lorsque le programme précité est chargé dans des moyens informatiques incorporés, par exemple, dans un terminal utilisateur relié le cas échéant à un réseau de type Internet et équipé d'un logiciel de navigation Internet. En conséquence, l'invention a également pour objet un tel programme d'ordinateur, en particulier sous la forme d'un logiciel stocké sur un support d'informations. Un tel support d'informations peut être constitué par n'importe quelle entité ou dispositif capable de stocker un programme selon l'invention.

Par exemple, le support en question peut comporter un moyen de stockage matériel, tel qu'une ROM, par exemple un CD ROM ou une ROM de circuit microélectronique, ou encore un moyen d'enregistrement magnétique, par exemple un disque dur. En variante, le support d'informations peut être un circuit intégré dans lequel le programme est incorporé, le circuit étant adapté pour exécuter ou pour être utilisé dans l'exécution du procédé en question. D'autre part, le support d'informations peut être aussi un support immatériel transmissible, tel qu'un signal électrique ou optique pouvant être acheminé via un câble électrique ou optique, par radio ou par d'autres moyens. Un programme selon l'invention peut être en particulier téléchargé sur un réseau de type Internet.

D'un point de vue conception, un programme d'ordinateur selon l'invention peut utiliser n'importe quel langage de programmation et être sous la forme de code source, code objet, ou de code intermédiaire entre code source et code objet (par ex., une forme partiellement compilée), ou dans n'importe quelle autre forme souhaitable pour implémenter un procédé selon l'invention.

Claims

REVENDICATIONS

1. Procédé de tri d'un ensemble de documents électroniques, comprenant:

- une étape de détermination (S110), pour chaque couple de documents {u,v) dudit ensemble, d'un degré de corrélation ω(u,v) entre les documents u et v, ledit degré de corrélation étant fonction du nombre de liens obtenu à l'issue de l'étape de comptage,

- une étape de détermination (S120, S125, S130, S135), pour chaque document u dudit ensemble, d'un point X (u) associé situé sur une sphère de l'ensemble E^d où C est l'ensemble des réels et d est un entier positif, pour au moins

un document u1 dudit ensemble la distance dans C^d entre les points x(ul) et x(u2) associés, où u2 est un document pour lequel il y a corrélation entre les documents u1 et u2, étant d'autant plus petite que le degré de corrélation entre les documents u1 et u2 est élevé, - une étape de tri (S140) d'au moins une partie dudit ensemble de documents en fonction des points déterminés sur ladite sphère.

2. Procédé selon la revendication 1 , dans lequel au moins un desdits documents présente au moins un lien hypertexte vers au moins un autre document, le degré de corrélation entre deux documents u et v étant déterminé en fonction du nombre de liens hypertextes, et/ou du nombre de liens de cocitation, présents entre les documents u et v, le degré de corrélation étant d'autant plus élevé que ce nombre de liens est élevé, l'absence de corrélation correspondant à l'absence de liens.

3. Procédé selon la revendication 1 ou 2, dans lequel le degré de corrélation entre deux documents u et v est fonction d'une mesure de proximité des contenus sémantiques des documents u et v, le degré de corrélation étant d'autant plus élevé que ladite mesure est faible, l'absence de corrélation correspondant à une mesure inférieure à un seuil prédéfini.

4. Procédé selon la revendication 1 ou 2, comprenant

- une étape de définition d'une (S120) fonction initiale Z₀ de projection dudit ensemble sur ladite sphère,

- une étape de détermination (S125, S130, S135) d'une fonction Z de projection dudit l'ensemble sur ladite sphère, ladite fonction Z de projection étant obtenue à partir de la fonction initiale Z₀ en au moins une itération, chaque itération consistant à déterminer une fonction Z₁ à partir de la fonction Z_1-1 obtenue à l'itération précédente en remplaçant, pour au moins un document u dudit l'ensemble, la valeur de Z_1-1 (^) par la valeur X_t (u) permettant d'optimiser un critère prédéfini qui est fonction de la valeur de Z_1-1 (^) ainsi que des valeurs de Z_1-1 (V) et des degrés de corrélation ω{u,v) entre les documents u et v pour tout document v appartenant audit l'ensemble.

5. Procédé selon la revendication 3 ou 4, dans lequel l'optimisation dudit critère prédéfini consiste à maximiser pour le document u la valeur d'une quantité Δ(M) égale à,

Δ(M) = 2 £(«>v) *._. (« )- Y. _. (_v) -

{«.v}_e£ " ' ^{A ι ι} u avec δ(u,v) - l-ω(u,v) , 0 ≤ ω(u,v) ≤ l , ω(u,v) =0 en l'absence de corrélation entre les documents u et v, la valeur X₁ (u) étant égale à X, (u) = -Y(U)/\Y(U)\\ avec

Y(U) = ∑ 5(M₅V)X_1-1(V) si Y(U) ≠ O , veV-{»} la valeur X₁ (u) étant égale à Z_1-1 (u) si Y(U) = 0.

6. Procédé selon l'une quelconque des revendications précédentes, comportant en outre une étape consistant à générer une représentation graphique de ladite sphère et des points X(u) situés sur ladite sphère.

7. Procédé selon la revendication 6, comportant en outre les étapes consistant à:

- afficher ladite représentation graphique sur un terminal,

- fournir à un utilisateur du terminal un outil de sélection graphique approprié pour la sélection graphique d'au moins une partie de ladite représentation graphique, - obtenir des données définissant ladite au moins une partie sélectionnée par ledit utilisateur,

- effectuer un tri sur ledit ensemble de documents en fonction desdites données.

8. Programme comprenant des instructions de code de programme enregistrées sur un support lisible par un système informatique pour mettre en œuvre un procédé selon l'une quelconque des revendications 1 à 7 lorsque ledit programme est exécuté par un système informatique.

9. Dispositif de traitement de données, comprenant des moyens de traitement de données pour l'exécution des étapes d'un procédé selon l'une quelconque des revendications 1 à 7.

10. Support d'enregistrement, lisible par un système informatique, comprenant un programme comprenant des instructions de code de programme pour la mise en œuvre d'un procédé selon l'une quelconque des revendications 1 à 7 lorsque ledit programme est exécuté par un système informatique.