WO2014173882A1

WO2014173882A1 - Procédé et dispositif d'extraction automatique de thèmes à partir d'au moins un document contenant du texte

Info

Publication number: WO2014173882A1
Application number: PCT/EP2014/058110
Authority: WO
Inventors: Bertrand DUQUEROIE; Bénédicte GOUJON
Original assignee: Thales
Priority date: 2013-04-23
Filing date: 2014-04-22
Publication date: 2014-10-30
Also published as: FR3004828A1

Abstract

L'invention concerne un procédé d'extraction automatique de thèmes à partir d'au moins un document contenant du texte, sous forme d'un graphe représentatif hiérarchisé, un nœud dudit graphe étant représentatif d'un thème abordé dans ledit texte, et correspondant à une catégorie extraite d'une base de connaissances hiérarchisée comprenant des descriptions de thèmes par catégories liées par des liens de parenté sur une pluralité de niveaux hiérarchiques. Le procédé comporte une extraction (60,62) d'un ensemble de mots clés dudit au moins un texte, suivi de l'obtention (66, 68, 72) d'un graphe complet hiérarchisé représentatif dudit au moins un texte par extraction de la totalité des catégories de la base de connaissances hiérarchisée correspondant à l'ensemble des mots clés extrait, ledit graphe complet hiérarchisé comprenant des nœuds parents ayant au moins un descendant et des nœuds sans descendant dits nœuds feuilles, lesdits nœuds feuilles correspondant auxdits mots clés. Ensuite, une simplification (74) du graphe complet est appliquée, comprenant un traitement de simplification basé sur la structure du graphe à simplifier, pour obtenir un graphe représentatif hiérarchisé.

Description

Procédé et dispositif d'extraction automatique de thèmes à partir d'au moins un document contenant du texte

La présente invention concerne un procédé d'extraction automatique de thèmes à partir d'au moins un document contenant du texte et un dispositif associé.

L'invention se situe dans le domaine du traitement automatique des connaissances et de l'extraction automatique d'informations à partir de documents contenant du texte, et trouve des applications notamment dans les systèmes d'aide à la décision multicritères et dans les systèmes de classification automatique de textes.

De nos jours, une très grande quantité d'informations est disponible sous forme de documents électroniques de divers types, en particulier des documents contenant du texte. Il apparaît très difficile pour un être humain d'analyser, catégoriser et extraire des connaissances à partir d'un large corpus de textes. A cet effet, des méthodes d'extraction automatiques d'informations à partir d'un ou plusieurs documents électroniques contenant du texte ont été proposées.

La plupart des méthodes connues pour l'extraction automatique de thèmes à partir de textes utilisent un corpus d'apprentissage ou une description générique des thèmes attendus sous forme de liste de mots clés. Ce type de méthode présente l'inconvénient de nécessiter un nouvel apprentissage ou l'introduction d'une nouvelle liste de mots clés, potentiellement à fournir par un expert, à chaque changement de contexte ou de domaine à traiter.

On connaît également une méthode d'extraction de thèmes abordés dans un document contenant du texte décrite dans l'article « Document Topic Extraction based on Wikipedia Category » de Yun et al, publié en 201 1 , lors de la conférence «Fourth International Joint Conférence on Sciences and Optimization ». La méthode décrite s'affranchit de la nécessité d'apprentissage ou de liste de mots clés préalable, en proposant l'extraction des thèmes d'un texte, sous forme d'un graphe représentatif du texte traité, chaque nœud du graphe, représentatif d'un thème abordé dans le texte, étant associé à une catégorie de la base de données Wikipédia ®, qui est une base de connaissances hiérarchisées à plusieurs niveaux de profondeur. Dans la méthode proposée dans cet article, les catégories extraites de la base de données comprennent la catégorie correspondant à un mot ou groupement de mots extrait du texte, ainsi que les catégories directement liées à cette catégorie, par une relation directe parent/enfant, afin de limiter la taille du graphe représentatif du texte traité et d'éviter l'introduction de catégories distantes apportant du bruit pour un traitement ultérieur. Cependant, il a été constaté par les inventeurs que la méthode proposée dans cet article de Yun et al fournit des résultats qui ne sont pas suffisamment pertinents. L'invention a pour objectif de fournir une méthode d'extraction de thèmes à partir de texte sans apprentissage préalable, et améliorant la pertinence des thèmes extraits par rapport aux méthodes connues.

A cet effet, l'invention propose, selon un premier aspect, un procédé d'extraction automatique de thèmes à partir d'au moins un document contenant du texte, sous forme d'un graphe représentatif hiérarchisé, un nœud dudit graphe étant représentatif d'un thème abordé dans ledit texte, et correspondant à une catégorie extraite d'une base de connaissances hiérarchisée, une dite base de connaissance hiérarchisée comprenant des descriptions de thèmes par catégories liées par des liens de parenté sur une pluralité de niveaux hiérarchiques.

Le procédé comporte les étapes suivantes, mises en œuvre par un processeur d'un dispositif de calcul :

- extraction d'un ensemble de mots clés dudit au moins un texte,

- obtention d'un graphe complet hiérarchisé représentatif dudit au moins un texte par extraction de la totalité des catégories de la base de connaissances hiérarchisée correspondant à l'ensemble des mots clés extrait, ledit graphe complet hiérarchisé comprenant des nœuds parents ayant au moins un descendant et des nœuds sans descendant dits nœuds feuilles, lesdits nœuds feuilles correspondant auxdits mots clés,

-simplification du graphe complet, comprenant au moins un traitement de simplification d'un graphe à simplifier, un dit graphe à simplifier étant soit ledit graphe complet hiérarchisé, soit un graphe résultant d'un traitement de simplification préalable, un dit traitement de simplification étant basé sur la structure du graphe à simplifier, pour obtenir un graphe représentatif hiérarchisé.

Avantageusement, le procédé de l'invention comporte l'extraction de la totalité des catégories de la base de connaissances hiérarchisée correspondant à l'ensemble des mots clés extrait, quelque soit le niveau de parenté avec la catégorie de la base de connaissances correspondant à un mot clé du texte, suivie d'une simplification basée sur la structure du graphe complet, sans aucune connaissance externe supplémentaire relative à la pertinence des catégories contenues dans les nœuds. Ainsi, cette méthode permet de retenir, automatiquement et sans connaissance externe supplémentaire, des catégories pertinentes de la base de connaissances, différentes des catégories qui sont directement parentes des catégories correspondant aux mots clés.

Le procédé d'extraction automatique de thèmes à partir d'au moins un document contenant du texte peut également présenter une ou plusieurs des caractéristiques ci- dessous, prises indépendamment ou en combinaison : Il comporte en outre une étape d'affectation d'un score à chaque nœud du graphe à simplifier et lesdits scores sont pris en compte dans au moins un traitement de simplification.

Dans l'étape d'affectation d'un score, le score affecté à chaque nœud feuille dudit graphe à simplifier est directement lié au nombre d'occurrences du mot clé correspondant audit nœud feuille dans ledit au moins un texte.

Dans l'étape d'affectation d'un score, le score affecté à un nœud parent est dépendant des scores affectés aux nœuds feuilles descendants dudit nœud parent et d'une hauteur dudit nœud parent égale à une distance dudit nœud parent par rapport auxdits nœuds feuilles.

Un traitement de simplification est une suppression de nœuds parents du graphe à simplifier dont le score est inférieur à une valeur seuil prédéterminée.

Un traitement de simplification comporte une suppression du lien entre un nœud parent du graphe à simplifier et un nœud descendant directement dudit nœud parent si ledit nœud parent a un score associé inférieur au score associé audit nœud descendant directement dudit nœud parent.

Un traitement de simplification comporte une classification non supervisée permettant de regrouper des nœuds intermédiaires du graphe à simplifier, un nœud intermédiaire étant un nœud ayant au moins un nœud parent et au moins un nœud descendant direct.

Un traitement de simplification est une suppression de tous les nœuds du graphe à simplifier ayant un seul nœud descendant direct.

Un traitement de simplification comporte une suppression du lien entre un nœud parent et un nœud descendant direct si l'ensemble de nœuds feuilles descendants dudit nœud descendant direct est identique à l'ensemble des nœuds feuilles descendants dudit nœud parent, et un ajout d'un lien entre ledit nœud descendant direct et au moins un nœud parent dudit nœud parent.

Un traitement de simplification comporte une suppression de nœuds parents du graphe à simplifier n'ayant plus aucun lien vers un nœud descendant direct.

Selon un deuxième aspect, l'invention concerne un dispositif d'extraction automatique de thèmes à partir d'au moins un document contenant du texte, sous forme d'un graphe représentatif hiérarchisé, un nœud dudit graphe étant représentatif d'un thème abordé dans ledit texte, et correspondant à une catégorie extraite d'une base de connaissances hiérarchisée, une dite base de connaissance hiérarchisée comprenant des descriptions de thèmes par catégories liées par des liens de parenté sur une pluralité de niveaux hiérarchiques. Le dispositif selon l'invention comporte:

- un module d'extraction d'un ensemble de mots clés dudit au moins un texte,

-un module d'obtention d'un graphe complet hiérarchisé représentatif dudit au moins un texte par extraction de la totalité des catégories de la base de connaissances hiérarchisée correspondant à l'ensemble des mots clés extrait, ledit graphe complet hiérarchisé comprenant des nœuds parents ayant au moins un descendant et des nœuds sans descendant dits nœuds feuilles, lesdits nœuds feuilles correspondant auxdits mots clés, et

-un module de simplification du graphe complet, comprenant au moins un module traitement de simplification d'un graphe à simplifier, un dit graphe à simplifier étant soit ledit graphe complet hiérarchisé, soit un graphe résultant d'un traitement de simplification préalable, un dit traitement de simplification étant basé sur la structure du graphe à simplifier, pour obtenir un graphe représentatif hiérarchisé.

Le dispositif présente les mêmes avantages que le procédé selon l'invention brièvement décrit ci-dessus, et comporte des moyens de mise en œuvre de l'ensemble des caractéristiques du procédé selon l'invention.

Selon un troisième aspect, l'invention concerne un programme d'ordinateur comportant des instructions pour mettre en œuvre les étapes d'un procédé d'extraction automatique de thèmes à partir d'au moins un document contenant du texte tel que brièvement décrit ci-dessus lors de l'exécution du programme par un processeur d'un dispositif programmable.

D'autres caractéristiques et avantages de l'invention ressortiront de la description qui en est donnée ci-dessous, à titre indicatif et nullement limitatif, en référence aux figures annexées, parmi lesquelles :

-la figure 1 est un schéma représentant les blocs fonctionnels d'un dispositif programmable apte à mettre en œuvre l'invention ;

- la figure 2 est un schéma bloc des principaux modules permettant la mise en œuvre de l'invention ;

-la figure 3 est un exemple schématique de graphe hiérarchisé ;

-la figure 4 est un organigramme représentant les principales étapes d'un procédé d'extraction automatique de thèmes d'un texte selon un mode de réalisation de l'invention ;

-la figure 5 est un organigramme illustrant la simplification structurelle d'un graphe utilisant les scores associés aux nœuds du graphe selon un mode de réalisation, et

-la figure 6 est un organigramme illustrant la simplification structurelle d'un graphe sans utilisation de scores selon un mode de réalisation. La figure 1 illustre les principaux modules d'un dispositif apte à mettre en œuvre le procédé d'extraction automatique de thèmes à partir d'au moins un document contenant du texte selon l'invention.

Un dispositif 10 apte à mettre en œuvre l'invention, typiquement un dispositif programmable de type ordinateur, comprend un écran 12, un module 14 de saisie des commandes d'un utilisateur, par exemple un clavier, optionnellement un moyen supplémentaire de pointage 16, tel une souris, permettant de sélectionner des éléments graphiques affichés sur l'écran 12, une unité centrale de traitement 18, ou processeur, apte à exécuter des instructions de programme de commande lorsque le dispositif 10 est mis sous tension. Le dispositif 10 comporte également un module de stockage d'informations 20, apte à stocker des instructions de code exécutable permettant la mise en œuvre de programmes d'ordinateur aptes à mettre en œuvre le procédé selon l'invention. En outre, de manière optionnelle, le dispositif 10 comporte un module de communication 22, apte à assurer la communication du dispositif 10 avec des dispositifs serveurs connectés via un réseau de communication, par exemple Internet, selon un protocole de communication adapté.

Les divers blocs fonctionnels du dispositif 10 décrits ci-dessus sont connectés via un bus de communication 24.

La figure 2 représente plus en détail des modules contenus dans le module de stockage d'informations 20 selon un mode de réalisation, permettant la mise en œuvre d'un procédé d'extraction automatique de thèmes à partir d'au moins un document contenant du texte.

Ainsi, dans un espace de mémorisation 26 sont stockés le ou les documents T contenant du texte à traiter. Par exemple, l'ensemble de documents T comporte une pluralité d'articles stockés sous formes de fichiers informatiques, dans un ou plusieurs format(s) donné(s), contenant du texte et des images.

L'espace de mémorisation 28 comporte une base de connaissances B, qui est semi-structurée ou structurée en catégories liées entre elles par des liens hiérarchiques. En variante, la base de connaissances B est stockée à l'extérieur du dispositif 10, sur un ou plusieurs serveurs du réseau de communication non représenté, et est accessible au moyen de requêtes/réponses échangées par l'intermédiaire du module de communication

22.

Le module de stockage 20 d'un dispositif 10 apte à mettre en œuvre l'invention comporte également un module 30 d'extraction de mots clés, apte à mettre en œuvre une extraction de mots clés à partir des documents T à traiter. Les mots clés obtenus sont fournis à un module 32 d'obtention de graphe complet représentatif des documents T traités, obtenu, comme expliqué plus en détail ci-après en référence à la figure 4, par mise en œuvre des mots clés extraits et extraction de l'arborescence complète des catégories liées à ces mots clés à partir de la base de connaissances B. Le graphe complet comporte des nœuds et un score est affecté à chaque nœud, le score étant calculé pour être représentatif de la pertinence de la catégorie associée au nœud en fonction de l'ensemble des documents T. Un module de simplification 34 applique au moins un traitement de simplification du graphe complet, basé sur la structure du graphe complet, et, selon un mode de réalisation, sur les scores associés aux nœuds, comme expliqué plus en détail ci-après en référence aux figures 5 et 6.

Dans la suite, sans perte de généralité, l'invention est expliquée pour le traitement d'un document T comprenant du texte, appelé simplement texte T.

La figure 3 illustre schématiquement un extrait d'un graphe 38 hiérarchisé ou directionnel représentatif d'un texte. Le graphe 38 est de type arborescent, et comporte un nœud racine 40, ayant une catégorie associée, qui est la catégorie la plus générique associée au texte, obtenue à partir de la base de connaissances B. Le nœud racine est un nœud qui n'a pas d'ascendants ou nœuds parents. Les nœuds intermédiaires 42, 44, 46 et 48 sont des nœuds ayant des ascendants et des descendants, et qui ont une catégorie extraite de la base de connaissances associée. Les nœuds intermédiaires et le(s) nœud(s) racine(s) sont des nœuds parents, ayant au moins un descendant dans le graphe.

Les nœuds 50, 52, 54, 56 et 58, dits nœuds feuilles, sont associés directement à des mots clés extraits du texte traité. Les nœuds feuilles sont les nœuds qui n'ont pas de descendants. Par exemple, lorsque la base de connaissances utilisée est la base Wikipédia®, chaque nœud feuille a pour catégorie associée le titre de l'article obtenu directement par une requête sur la base de connaissances avec un mot clé d'un texte. Certains nœuds du graphe sont liés, définissant des relations de parenté de type parent- enfant dans le graphe. Ainsi, le nœud 40 a pour enfants directs les nœuds 42 et 44, et pour enfants indirects tous les autres nœuds 46-58 du graphe 38. Le nœud 48 a les nœuds 56 et 58 comme nœuds enfants, ou nœuds fils, et comme parent le nœud 42.

Le graphe 38 a une structure hiérarchique arborescente, avec quatre niveaux de profondeur, les nœuds feuilles 54, 56 et 58 étant au niveau de profondeur le plus bas, appelé niveau zéro. Le nœud 46 et le nœud 48 sont au niveau de profondeur 1 , et ainsi de suite. Les nœuds racines sont au niveau de profondeur le plus élevé. Il est très fréquent qu'il existe plusieurs chemins entre un nœud feuille et un de ses parents indirects. Par conséquent, les nœuds ont simultanément plusieurs hauteurs ou niveaux de profondeur associés.

Comme déjà expliqué, chaque nœud du graphe 38 a également un score associé. Par exemple, les nœuds feuilles 54, 56 et 58 ont les scores respectifs S1 , S2 et S3 associés, le nœud 46 a un score S4 associé, le nœud 48 un score S5 et le nœud 42 un score S6. Le score d'un nœud feuille dépend du nombre d'occurrences du mot clé associé dans le texte T traité. Les scores des nœuds parents sont calculés de proche en proche, à partir des scores associés aux nœuds enfants, directement ou indirectement liés, et de la distance du lien les unissant.

Dans un mode de réalisation, un graphe représentatif d'un texte T calculé par le procédé de l'invention est affiché sur une interface graphique pour exploitation par un utilisateur, et la taille de représentation des nœuds est variable et proportionnelle à leur score, de manière à permettre une évaluation immédiate de l'importance des nœuds et donc des thèmes abordés dans le texte, les thèmes étant définis par les catégories associées aux nœuds.

La figure 4 illustre les principales étapes mises en œuvre dans un procédé selon un mode de réalisation de l'invention, typiquement mises en œuvre par le processeur 18 d'un dispositif 10.

En entrée, le procédé reçoit un document comprenant du texte T à traiter, sous forme de document électronique, par exemple en format HTML, ou tout autre format de document électronique approprié, moyennant une extraction du texte au format texte brut.

Lors d'une première étape 60, le texte est découpé en mots ou groupes de mots, en appliquant des techniques connues utilisant les espaces et les ponctuations. Des groupes de mots ayant plusieurs occurrences ou des particularités, par exemple une succession de mots commençant par des majuscules, comme « Etats-Unis », sont conservés.

Ensuite, une étape de filtrage grammatical 62 est appliquée, permettant d'annoter les mots ou groupes de mots retenus en fonction de leur rôle grammatical dans une phrase et de ne conserver que les types les plus informatifs : verbes, noms, adjectifs.

A l'issue de l'étape 62, un ensemble de mots ou groupes de mots, appelé ensemble de mots clés 64 est obtenu. Cet ensemble est mémorisé dans un espace mémoire du dispositif 10, ainsi que, pour chaque mot clé le constituant, son nombre d'occurrences dans le texte T.

Les mots/groupes de mots, appelés ci-après mots clés de l'ensemble 64, sont utilisés ensuite, un par un, comme argument d'une requête 66 sur la base de connaissances B utilisée. Par exemple, la base Wikipédia® est utilisée. En variante, toute autre base de données comportant des connaissances structurées ou semi-structurées est utilisable. Pour chaque mot clé, l'étape de requête 66 avec le mot clé comme argument permet de trouver un article correspondant dans la base de connaissances B. L'ensemble des catégories parentes, liées à la ou aux catégories de l'article trouvé sont extraites de la base de connaissances à l'étape 68. L'extraction ne se limite pas aux catégories directement parentes, toutes les catégories parentes, quelque soit la profondeur du lien, sont extraites. Un graphe complet 70 pour le mot clé traité est ainsi obtenu et mémorisé.

Les étapes 66 et 68 sont répétées pour chacun des mots clés de l'ensemble 64, et les graphes complets par mots clés sont fusionnés à l'étape 72 en un graphe complet G_c représentatif du texte T. En variante, les graphes extraits par mot clé sont fusionnés au fur et à mesure de leur extraction pour obtenir un graphe complet G_c lorsque l'ensemble des mots clés a été traité. A l'étape de fusion 72, une résolution de cycle est également appliquée, de manière à éliminer tous les cycles du graphe G_c. De préférence, le nœud de niveau le plus bas de l'arborescence est choisi comme représentant d'un groupe de nœuds appartenant à un cycle. S'il existe plusieurs nœuds au niveau le plus bas, un des nœuds est choisi sur un critère donné, par exemple celui dont le nom de catégorie est le plus court. Un nœud déconnecté après ré-affectation des liens pour pointer vers le nœud choisi comme représentant est supprimé.

En utilisant la base de connaissances Wikipédia®, il a été constaté pour un texte de 500 mots, un graphe complet G_c d'environ 8000 nœuds liés par l'intermédiaire de 20000 liens est obtenu. Il est clair qu'un tel graphe n'est pas exploitable par un être humain.

Un traitement de simplification structurelle du graphe complet G_c est appliqué à l'étape 74 et permet d'obtenir un graphe représentatif des thèmes du texte T.

La simplification structurelle du graphe comporte plusieurs traitements de simplification, qui peuvent être séparés en simplifications basées sur la structure du graphe uniquement d'une part et simplifications basées sur la structure du graphe et sur les scores associés aux nœuds d'autre part.

La figure 5 illustre un procédé de simplification basé sur la structure d'un graphe G à simplifier et sur des scores associés aux nœuds du graphe. Le graphe G à simplifier est soit le graphe complet G_c, soit un graphe G'_c déjà partiellement simplifié.

Dans un premier temps, un score est affecté à chaque nœud du graphe G traité. L'affectation de score s'effectue en deux étapes. Lors d'une première étape 80, un score est affecté aux nœuds feuilles du graphe G, en fonction du nombre d'occurrences des mots clés correspondants dans le texte T. Dans un mode de réalisation, le score associé à un nœud feuille est égal au nombre d'occurrences du mot clé associé dans le texte.

Dans un mode de réalisation alternatif, le nombre d'occurrences est pondéré par un coefficient c, qui prend une valeur donnée, par exemple c=1 , lorsque le titre d'article de la base de connaissances B est identique au mot clé pour un nœud feuille et une valeur inférieure lorsqu'il y a une différence entre le mot clé du texte et l'intitulé de l'article trouvé dans la base de connaissances B. Dans le cas où la base de connaissance contient des catégories spéciales, on peut également utiliser cette information pour modifier la pondération. Dans le cas de Wikipedia®, on peut utiliser les pages « portails ».

Ensuite, un score est affecté, de proche en proche, à chaque nœud parent du graphe G, à l'étape 82. Le calcul du score d'un nœud parent prend en compte les scores des nœuds-feuilles enfants du nœud parent, directs ou indirects, pondéré par une distance dans le graphe G par rapports aux nœuds-enfants. Les scores obtenus pour les nœuds parents sont des scores normalisés par rapport au niveau de profondeur des nœuds dans le graphe, afin d'éviter une sur-évaluation du score des nœuds de bas niveau, qui représentent des catégories conceptuelles larges. Pour cela on affecte également un score aux arcs reliant les nœuds, le score d'un nœud étant la somme des scores des arcs entrants, éventuellement divisé par le nombre d'arcs entrants.

Prenons l'exemple de la figure 3 avec S1 =1 , S2=3 et S3=2. Notons L le lien entre les nœuds 54, de score S1 , et 56, de score S2, L₂₅ le lien entre les nœuds 56 et 48 comme montré sur la figure 3. Prenons comme facteur de décroissance la fonction h qui associe une valeur à une hauteur telle que :

• à la hauteur 1 , h associe 1 ;

• à la hauteur 2, h associe ½ ;

· aux hauteurs supérieures à 2, h associe 0.

Alors le score du lien L₁₄, noté s(L₁₄), est s(L₁₄)=S1 ^*h(1 )=1 ^*1 =1 . Le score du lien L₂₅ est s(L₂₅)=S2^*h(1 )=3^*1 =3. Le score du lien L₃₅ est s(L₃₅)=S3^*h(1 )=2^*1 =2.

Les scores des nœuds non feuilles étant la somme des scores des arcs entrants, on a S4= s(L₁₄)=1 , S5= s(L₂5)+s(L₃5)=5. Le score du lien L₄₆ vaut quand à lui s(L₄₆)=S1 ^*h(2)=1 ^*1 /2=1/2 . En outre on a s(L₅₆)=S2^*h(2)+ S3^*h(2)= 3^*1/2+2^*1/2=5/2. Le score S6 est S6= s(L₄₆)+s(L₅₆)=3. Enfin le score de L₆₇ vaut s(L₆₇)= s(S1 )^*h(3)+ s(S2)^*h(3)+ s(S3)^*h(3)=0 car h(3)=0.

Empiriquement, on constate que la fonction h qui à n associe 1/n pour n compris entre 0 et 5, et associe 0 à n supérieur à 5 donne les meilleurs résultats pour la base de connaissance Wikipedia®. On remarque que chaque chemin liant une feuille de l'arbre à un nœud apporte une contribution au score du nœud. Néanmoins, avec la fonction h nulle à partir d'un rang R faible, par exemple R=5 et plus généralement R inférieur à 10, seuls les chemins de longueurs au plus R contribuent au score du nœud. Une approche de type « branch & bound », connue dans le domaine d'optimisation combinatoire, évite donc la combinatoire induite par le nombre de chemins possibles.

Ainsi, tous les nœuds du graphe ont un score associé à l'issue de l'étape 82.

Suite à ces étapes, une ou plusieurs des étapes suivantes de simplification du graphe G en utilisant les scores associés aux nœuds sont mises en œuvre.

Une suppression des nœuds parents de faible score est appliquée à l'étape 86. Dans un mode de réalisation, un score seuil S est fixé, et les nœuds parents dont le score est inférieur à S sont supprimés.

Dans un mode de réalisation alternatif, lorsqu'un nœud parent a un score inférieur au score d'un de ses fils, le lien entre ce nœud parent et ce nœud fils est supprimé.

Lors de la suppression d'un nœud intermédiaire, les nœuds enfants sont liés aux nœuds grands-parents. Par exemple, dans l'exemple de la figure 3, si le nœud 46 est supprimé, le nœud 54 est lié au nœud 42, parent du nœud 46.

Dans un mode de réalisation alternatif, une simplification supplémentaire par troncation est mise en œuvre à l'étape 90 : il s'agit de la suppression des nœuds dont la distance minimale par rapport aux nœuds feuilles est supérieure à un seuil donné.

Afin de réduire le nombre de parents des nœuds du graphe en cours de simplification, une étape 92 applique une classification non supervisée, permettant de regrouper des catégories associées à des nœuds intermédiaires du graphe. De préférence, un algorithme de classification connu sous le nom de « mean shift classification » est appliqué. Pour appliquer cet algorithme, l'ensemble des catégories associées aux nœuds parents du graphe est ordonné de manière arbitraire, et un indice i est associé à chaque catégorie. Ainsi, si le graphe contient N catégories, les nœuds feuilles peuvent être représentés dans un espace à N dimensions. Un vecteur Vf à N dimensions est associé à chaque nœud feuille Nf, un 1 à la position j dans le vecteur Vf indiquant que le nœud associé à la catégorie Ci est parent du nœud Nf, un 0 indiquant que ce nœud n'est pas parent. L'algorithme de classification utilise une distance, par exemple la distance de Manhattan, pour les calculs. Alternativement, d'autres distances connues pour la classification non supervisée sont utilisées.

Par exemple, on peut utiliser comme distance entre deux vecteurs la distance suivante : d(Vl,V2) = l - 2 *— ^—

nb_l + nb₂ Avec nb₁₂ le nombre de dimensions sur lesquelles V1 et V2 ont une coordonnée égale à 1 , nb_l le nombre de dimensions sur lesquelles V1 a une coordonnée non nulle, et, nb₂ le nombre de dimensions sur lesquelles V2 a une coordonnée non nulle.

Les hauteurs associées aux nœuds peuvent également être utilisés dans la classification en prenant par exemple la distance suivante: d(Vl,V2) = l - 2 * ^nbl2 ,

nb_l + nb₂

Avec nb, = — , nb₇ = Y— ,

= Y — , et H1 les hauteurs des

Me Hl ⁿ h^li Me H 2 ⁿ h^li Me H 12 ⁿ h^li

catégories sur lesquelles V1 a une coordonnée non nulle, H2 les hauteurs des catégories sur lesquelles V2 a une coordonnée non nulle, H12 les hauteurs des catégories sur lesquelles V1 ou V2 a une coordonnée non nulle. Avec cette distance, l'algorithme de classification va donner moins d'importance aux axes qui correspondent à des catégories plus hautes dans l'arbre, c'est-à-dire plus générales, plus abstraites et ayant tendance à regrouper indirectement un grand nombre de nœuds feuilles.

En complément, avant ou après les étapes de simplification structurelle fonction des scores associés aux nœuds décrite ci-dessus, des traitements de simplification structurelle sont appliqués, soit directement au graphe complet G_c, soit au graphe obtenu après divers traitements de simplification comme expliqué ci-dessus en référence à la figure 5.

La figure 6 illustre un procédé de simplification structurelle mis en œuvre par le processeur 18 d'un dispositif 10.

Lors d'une première étape 100 de simplification structurelle, les nœuds parents qui n'ont qu'un seul nœud enfant, dit nœuds parents simples, sont supprimés.

Ensuite, une étape de simplification 102 par support est appliquée, le support d'un nœud parent étant défini comme tous les nœuds feuilles, qui sont des enfants directs ou indirects de ce nœud parent. Si un nœud parent a un même support qu'un de ses nœuds enfants, alors ce nœud enfant est directement lié au(x) nœud(s) parent(s) du nœud parent, c'est-à-dire le nœud parent est court-circuité.

Enfin, lors d'une étape 104, les nœuds parents qui n'ont plus de nœuds enfants sont supprimés. En effet, les divers traitements de simplification successifs, en particulier les modifications de liens, rendent certains nœuds sans nœud enfant. Ces nœuds sont supprimés itérativement. Avantageusement, le procédé de l'invention permet une extraction automatique de thèmes à partir d'un ou plusieurs textes, permettant d'obtenir un graphe représentatif hiérarchisé de catégories de thèmes pertinents. Cette extraction automatique emploie une base de connaissances hiérarchisée. Ce procédé permet de traiter automatiquement des larges ensembles de textes, sans nécessité d'intervention d'un expert.

Claims

REVENDICATIONS

1 . - Procédé d'extraction automatique de thèmes à partir d'au moins un document contenant du texte, sous forme d'un graphe représentatif hiérarchisé, un nœud dudit graphe étant représentatif d'un thème abordé dans ledit texte, et correspondant à une catégorie extraite d'une base de connaissances hiérarchisée, une dite base de connaissance hiérarchisée comprenant des descriptions de thèmes par catégories liées par des liens de parenté sur une pluralité de niveaux hiérarchiques,

caractérisé en ce qu'il comporte les étapes suivantes, mises en œuvre par un processeur d'un dispositif de calcul :

- extraction (60,62) d'un ensemble de mots clés dudit au moins un texte,

- obtention (66, 68, 72) d'un graphe complet hiérarchisé (Gc) représentatif dudit au moins un texte par extraction de la totalité des catégories de la base de connaissances hiérarchisée correspondant à l'ensemble des mots clés extrait, ledit graphe complet hiérarchisé (Gc) comprenant des nœuds parents ayant au moins un descendant et des nœuds sans descendant dits nœuds feuilles, lesdits nœuds feuilles correspondant auxdits mots clés,

-simplification (74) du graphe complet, comprenant au moins un traitement de simplification d'un graphe à simplifier, un dit graphe à simplifier étant soit ledit graphe complet hiérarchisé (Gc), soit un graphe résultant d'un traitement de simplification préalable, un dit traitement de simplification étant basé sur la structure du graphe à simplifier, pour obtenir un graphe représentatif hiérarchisé.

2. - Procédé selon la revendication 1 , caractérisé en ce qu'il comporte en outre une étape d'affectation (80, 82) d'un score à chaque nœud du graphe à simplifier et en ce que lesdits scores sont pris en compte dans au moins un traitement de simplification.

3. - Procédé selon la revendication 2, caractérisé en ce que, dans l'étape d'affectation (80) d'un score, le score affecté à chaque nœud feuille dudit graphe à simplifier est directement lié au nombre d'occurrences du mot clé correspondant audit nœud feuille dans ledit au moins un texte.

4. - Procédé selon la revendication 3, caractérisé en ce que dans l'étape d'affectation (82) d'un score, le score affecté à un nœud parent est dépendant des scores affectés aux nœuds feuilles descendants dudit nœud parent et d'une hauteur dudit nœud parent égale à une distance dudit nœud parent par rapport auxdits nœuds feuilles.

5.- Procédé selon l'une des revendications 2 à 4, caractérisé en ce qu'un dit traitement de simplification est une suppression (86) de nœuds parents du graphe à simplifier dont le score est inférieur à une valeur seuil prédéterminée.

6.- Procédé selon l'une des revendications 2 à 5, caractérisé en ce qu'un dit traitement de simplification comporte une suppression du lien entre un nœud parent du graphe à simplifier et un nœud descendant directement dudit nœud parent si ledit nœud parent a un score associé inférieur au score associé audit nœud descendant directement dudit nœud parent.

7. - Procédé selon l'une des revendications 2 à 6, caractérisé en ce qu'un dit traitement de simplification comporte une classification non supervisée permettant de regrouper des nœuds intermédiaires du graphe à simplifier, un nœud intermédiaire étant un nœud ayant au moins un nœud parent et au moins un nœud descendant direct.

8. - Procédé selon l'une des revendications 1 à 7, caractérisé en ce qu'un dit traitement de simplification est une suppression (100) de tous les nœuds du graphe à simplifier ayant un seul nœud descendant direct.

9.- Procédé selon l'une des revendications 1 à 8, caractérisé en ce qu'un dit traitement de simplification comporte une suppression (102) du lien entre un nœud parent et un nœud descendant direct si l'ensemble de nœuds feuilles descendants dudit nœud descendant direct est identique à l'ensemble des nœuds feuilles descendants dudit nœud parent, et un ajout d'un lien entre ledit nœud descendant direct et au moins un nœud parent dudit nœud parent.

10. - Procédé selon la revendication 9, caractérisé en ce qu'un dit traitement de simplification comporte une suppression (104) de nœuds parents du graphe à simplifier n'ayant plus aucun lien vers un nœud descendant direct.

1 1 . - Dispositif d'extraction automatique de thèmes à partir d'au moins un document contenant du texte, sous forme d'un graphe représentatif hiérarchisé, un nœud dudit graphe étant représentatif d'un thème abordé dans ledit texte, et correspondant à une catégorie extraite d'une base de connaissances hiérarchisée, une dite base de connaissance hiérarchisée comprenant des descriptions de thèmes par catégories liées par des liens de parenté sur une pluralité de niveaux hiérarchiques, caractérisé en ce qu'il comporte:

- un module (30) d'extraction d'un ensemble de mots clés dudit au moins un texte, -un module (32) d'obtention d'un graphe complet hiérarchisé représentatif dudit au moins un texte par extraction de la totalité des catégories de la base de connaissances hiérarchisée correspondant à l'ensemble des mots clés extrait, ledit graphe complet hiérarchisé comprenant des nœuds parents ayant au moins un descendant et des nœuds sans descendant dits nœuds feuilles, lesdits nœuds feuilles correspondant auxdits mots clés, et

-un module (34) de simplification du graphe complet, comprenant au moins un module traitement de simplification d'un graphe à simplifier, un dit graphe à simplifier étant soit ledit graphe complet hiérarchisé, soit un graphe résultant d'un traitement de simplification préalable, un dit traitement de simplification étant basé sur la structure du graphe à simplifier, pour obtenir un graphe représentatif hiérarchisé.

12. Programme d'ordinateur comportant des instructions pour mettre en œuvre les étapes d'un procédé d'extraction automatique de thèmes à partir d'au moins un document contenant du texte selon l'une des revendications 1 à 10 lors de l'exécution du programme par un processeur d'un dispositif programmable.