WO2014173882A1 - Procédé et dispositif d'extraction automatique de thèmes à partir d'au moins un document contenant du texte - Google Patents

Procédé et dispositif d'extraction automatique de thèmes à partir d'au moins un document contenant du texte Download PDF

Info

Publication number
WO2014173882A1
WO2014173882A1 PCT/EP2014/058110 EP2014058110W WO2014173882A1 WO 2014173882 A1 WO2014173882 A1 WO 2014173882A1 EP 2014058110 W EP2014058110 W EP 2014058110W WO 2014173882 A1 WO2014173882 A1 WO 2014173882A1
Authority
WO
WIPO (PCT)
Prior art keywords
graph
node
nodes
hierarchical
text
Prior art date
Application number
PCT/EP2014/058110
Other languages
English (en)
Inventor
Bertrand DUQUEROIE
Bénédicte GOUJON
Original Assignee
Thales
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thales filed Critical Thales
Publication of WO2014173882A1 publication Critical patent/WO2014173882A1/fr

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound

Definitions

  • the present invention relates to a method of automatically extracting themes from at least one document containing text and an associated device.
  • the invention lies in the field of the automatic processing of knowledge and the automatic extraction of information from documents containing text, and finds applications in particular in multi-criteria decision support systems and in data communication systems. automatic classification of texts.
  • the categories extracted from the database include the category corresponding to a word or group of words extracted from the text, as well as the categories directly related to this category, by a direct relation parent / child, in order to to limit the size of the graph representative of the text treated and to avoid the introduction of distant categories bringing noise for further processing.
  • Yun et al provides results that are not sufficiently relevant.
  • the invention aims to provide a method of extracting themes from text without prior learning, and improving the relevance of extracted themes compared to known methods.
  • the invention proposes, according to a first aspect, a method for automatically extracting themes from at least one document containing text, in the form of a hierarchical representative graph, a node of said graph being representative of a theme addressed in said text, and corresponding to a category extracted from a hierarchical knowledge base, a so-called hierarchical knowledge base comprising descriptions of categories themes linked by kinship links over a plurality of hierarchical levels.
  • the method comprises the following steps, implemented by a processor of a computing device:
  • -simplification of the complete graph comprising at least one simplification processing of a graph to be simplified, a said graph to be simplified being either said hierarchical complete graph, or a graph resulting from a prior simplification process, a said simplification process being based on the structure of the graph to be simplified, to obtain a hierarchical representative graph.
  • the method of the invention comprises the extraction of all the categories of the hierarchical knowledge base corresponding to the set of extracted key words, whatever the level of relationship with the category of the knowledge base corresponding to a keyword of the text, followed by a simplification based on the structure of the complete graph, without any additional external knowledge relating to the relevance of the categories contained in the nodes.
  • this method makes it possible to retain, automatically and without additional external knowledge, relevant categories of the knowledge base, different from the categories that are directly related to the categories corresponding to the keywords.
  • the method of automatically extracting themes from at least one document containing text may also have one or more of the features below, taken independently or in combination: It further comprises a step of assigning a score to each node of the graph to be simplified and said scores are taken into account in at least one simplification process.
  • the score assigned to each leaf node of said graph to be simplified is directly related to the number of occurrences of the keyword corresponding to said leaf node in said at least one text.
  • the score assigned to a parent node is dependent on the scores assigned to the falling leaf nodes of said parent node and a height of said parent node equal to a distance from said parent node relative to said nodes. leaves.
  • a simplification process is a deletion of parent nodes of the graph to be simplified whose score is less than a predetermined threshold value.
  • a simplification process includes removing the link between a parent node of the graph to be simplified and a descendant node directly from said parent node if said parent node has an associated score lower than the score associated with said downward node directly from said parent node.
  • a simplification process includes an unsupervised classification for grouping intermediate nodes of the graph to be simplified, an intermediate node being a node having at least one parent node and at least one direct descendant node.
  • a simplification process is a deletion of all the nodes of the graph to be simplified having a single direct descendant node.
  • a simplification process includes removing the link between a parent node and a direct downlink node if the falling leaf node set of said forward downward node is the same as the set of falling leaf nodes of said parent node, and adding an link between said direct downlink node and at least one parent node of said parent node.
  • a simplification process includes a deletion of parent nodes of the graph to simplify having no longer any link to a direct descendant node.
  • the invention relates to a device for automatically extracting themes from at least one document containing text, in the form of a hierarchical representative graph, a node of said graph being representative of a theme addressed in said text, and corresponding to a category extracted from a hierarchical knowledge base, a so-called hierarchical knowledge base comprising descriptions of themes by categories linked by kinship links over a plurality of hierarchical levels.
  • the device according to the invention comprises:
  • a module for simplification of the complete graph comprising at least one simplification processing module of a graph to be simplified, a said graph to be simplified being either said hierarchical complete graph, or a graph resulting from a prior simplification process, a said simplification processing being based on the structure of the graph to be simplified, to obtain a hierarchical representative graph.
  • the device has the same advantages as the method according to the invention briefly described above, and comprises means for implementing all the characteristics of the method according to the invention.
  • the invention relates to a computer program comprising instructions for implementing the steps of a method for automatically extracting themes from at least one document containing text as briefly described below. above when running the program by a processor of a programmable device.
  • FIG 1 is a diagram showing the functional blocks of a programmable device capable of implementing the invention
  • FIG. 2 is a block diagram of the main modules for implementing the invention.
  • FIG. 3 is a schematic example of a hierarchical graph
  • FIG. 4 is a flowchart representing the main steps of a method for automatically extracting themes from a text according to one embodiment of the invention
  • FIG. 5 is a flowchart illustrating the structural simplification of a graph using the scores associated with the nodes of the graph according to one embodiment
  • FIG. 6 is a flowchart illustrating the structural simplification of a graph without the use of scores according to one embodiment.
  • FIG. 1 illustrates the main modules of a device able to implement the method of automatic extraction of themes from at least one document containing text according to the invention.
  • a device 10 capable of implementing the invention typically a computer-type programmable device, comprises a screen 12, a module 14 for inputting commands from a user, for example a keyboard, optionally an additional pointing means 16, such as a mouse, for selecting graphic elements displayed on the screen 12, a central processing unit 18, or processor, able to execute control program instructions when the device 10 is turned on.
  • the device 10 also comprises an information storage module 20, able to store executable code instructions for the implementation of computer programs capable of implementing the method according to the invention.
  • the device 10 comprises a communication module 22, able to ensure the communication of the device 10 with server devices connected via a communication network, for example the Internet, according to a suitable communication protocol.
  • the various functional blocks of the device 10 described above are connected via a communication bus 24.
  • FIG. 2 shows in more detail the modules contained in the information storage module 20 according to one embodiment, allowing the implementation of a method for automatically extracting themes from at least one document containing text.
  • the document or documents T containing text to be processed are stored.
  • the set of documents T comprises a plurality of articles stored as computer files, in one or more given format (s), containing text and images.
  • the storage space 28 comprises a knowledge base B, which is semi-structured or structured in categories linked together by hierarchical links.
  • the knowledge base B is stored outside the device 10, on one or more servers of the communication network not shown, and is accessible by means of requests / responses exchanged via the communication module
  • the storage module 20 of a device 10 adapted to implement the invention also comprises a keyword extraction module 30, able to implement a keyword extraction from the documents T to be processed.
  • the keywords obtained are provided to a module 32 for obtaining a complete graph representative of the processed documents T, obtained, as explained in more detail below with reference to FIG. 4, by implementing the key words extracted and extracting the complete tree of the documents. categories related to these keywords from the knowledge base B.
  • the complete graph has nodes and a score is assigned to each node, the score being calculated to be representative of the relevance of the category associated with the node based on the set of documents T.
  • a simplification module 34 applies at least one simplification process of the complete graph, based on the structure of the complete graph, and, according to one embodiment, on the scores associated with the nodes, as explained in more detail. hereinafter with reference to Figures 5 and 6.
  • FIG. 3 schematically illustrates an extract of a hierarchical or directional graph 38 representative of a text.
  • the graph 38 is of tree type, and has a root node 40, having an associated category, which is the most generic category associated with the text, obtained from the knowledge base B.
  • the root node is a node that does not has no ancestors or parent nodes.
  • the intermediate nodes 42, 44, 46 and 48 are nodes having ancestors and descendants, and which have a category extracted from the associated knowledge base.
  • the intermediate nodes and the root node (s) are parent nodes, having at least one descendant in the graph.
  • Nodes 50, 52, 54, 56 and 58 are associated directly with key words extracted from the processed text.
  • Leaf nodes are nodes that have no descendants. For example, when the knowledge base used is the Wikifugdia® database, each leaf node has the associated title of the article obtained directly from a query on the knowledge base with a keyword of a text.
  • Some nodes of the graph are linked, defining parent-child relationships in the graph.
  • the node 40 has for direct children the nodes 42 and 44, and for indirect children all the other nodes 46-58 of the graph 38.
  • the node 48 has the nodes 56 and 58 like nodes children, or nodes son, and like parent the node 42.
  • the graph 38 has a hierarchical tree structure, with four levels of depth, the leaf nodes 54, 56 and 58 being at the lowest level of depth, called zero level.
  • Node 46 and node 48 are at depth level 1, and so on.
  • the root nodes are at the deepest level. It is very common that there are several paths between a leaf node and one of its parents indirect. As a result, the nodes simultaneously have several associated heights or depth levels.
  • each node of the graph 38 also has an associated score.
  • the leaf nodes 54, 56 and 58 have the respective scores S1, S2 and S3 associated
  • the node 46 has an associated score S4
  • the node 48 a score S5
  • the node 42 a score S6.
  • the score of a leaf node depends on the number of occurrences of the associated keyword in the processed text T.
  • the scores of the parent nodes are computed gradually, from the scores associated with the child nodes, directly or indirectly related, and the distance of the link uniting them.
  • a representative graph of a text T calculated by the method of the invention is displayed on a graphical interface for exploitation by a user, and the representation size of the nodes is variable and proportional to their score, from in order to allow an immediate evaluation of the importance of the nodes and thus of the topics addressed in the text, the themes being defined by the categories associated with the nodes.
  • FIG. 4 illustrates the main steps implemented in a method according to one embodiment of the invention, typically implemented by the processor 18 of a device 10.
  • the method receives a document comprising text T to be processed, in the form of an electronic document, for example in HTML format, or any other appropriate electronic document format, by extracting the text in plain text format.
  • a first step 60 the text is divided into words or groups of words, by applying known techniques using spaces and punctuations. Groups of words having several occurrences or particularities, for example a succession of words beginning with capital letters, such as "United States", are preserved.
  • a grammar filtering step 62 is applied, making it possible to annotate the words or groups of words selected according to their grammatical role in a sentence and to keep only the most informative types: verbs, nouns, adjectives.
  • step 62 a set of words or groups of words, called set of keywords 64 is obtained.
  • This set is stored in a memory space of the device 10, and for each key word constituting it, its number of occurrences in the text T.
  • the words / groups of words, hereinafter called the keywords of the set 64 are then used, one by one, as argument of a request 66 on the knowledge base B used.
  • the knowledge base B used for example, the Wikipedia database is used. Alternatively, any Another database with structured or semi-structured knowledge can be used.
  • the query step 66 with the keyword as argument makes it possible to find a corresponding article in the knowledge base B.
  • the set of parent categories, related to the category or categories of the article found are extracted of the knowledge base at step 68. The extraction is not limited to the directly related categories, all the parent categories, whatever the depth of the link, are extracted.
  • a complete graph 70 for the processed keyword is thus obtained and stored.
  • Steps 66 and 68 are repeated for each of the key words of set 64, and the complete keyword graphs are merged in step 72 into a full graph G c representative of the text T.
  • the graphs extracted by keywords are merged as and their extraction to obtain a complete graph G c when all the keyword has been processed.
  • a cycle resolution is also applied, so as to eliminate all the cycles of the graph G c .
  • the lowest level node of the tree is chosen to represent a group of nodes belonging to a cycle. If there are several nodes at the lowest level, one of the nodes is chosen on a given criterion, for example the one whose category name is the shortest. A disconnected node after re-assignment of links to point to the node chosen as representative is deleted.
  • a structural simplification process of the complete graph G c is applied in step 74 and makes it possible to obtain a graph representative of the themes of the text T.
  • the structural simplification of the graph includes several simplification processes, which can be separated into simplifications based on the structure of the graph only on the one hand and simplifications based on the structure of the graph and the scores associated with the nodes on the other hand.
  • FIG. 5 illustrates a simplification method based on the structure of a graph G to be simplified and on scores associated with the nodes of the graph.
  • the graph G to be simplified is either the complete graph G c , or a graph G ' c already partially simplified.
  • a score is assigned to each node of the graph G processed. Scoring is done in two steps. In a first step 80, a score is assigned to the leaf nodes of the graph G, as a function of the number of occurrences of the corresponding keywords in the text T. In one embodiment, the score associated with a leaf node is equal to the number of occurrences of the associated keyword in the text.
  • c takes a given value
  • the knowledge base contains special categories, we can also use this information to change the weighting.
  • a score is assigned, step by step, to each parent node of the graph G, in step 82.
  • the calculation of the score of a parent node takes into account the scores of the child parent node leaves, direct or indirect, weighted by a distance in the graph G relative to the child nodes.
  • the scores obtained for the parent nodes are standardized scores relative to the depth level of the nodes in the graph, in order to avoid an over-evaluation of the score of the low level nodes, which represent broad conceptual categories. For this we also assign a score to the arcs connecting the nodes, the score of a node being the sum of the scores of the incoming arcs, possibly divided by the number of incoming arcs.
  • all the nodes of the graph have a score associated with the outcome of step 82.
  • a deletion of the low score parent nodes is applied in step 86.
  • a threshold score S is set, and the parent nodes whose score is less than S are deleted.
  • the child nodes are linked to the grandparent nodes. For example, in the example of FIG. 3, if the node 46 is deleted, the node 54 is linked to the node 42, the parent of the node 46.
  • an additional simplification by truncation is implemented in step 90: it is the deletion of the nodes whose minimum distance from the leaf nodes is greater than a given threshold.
  • a step 92 applies an unsupervised classification, making it possible to group categories associated with intermediate nodes of the graph.
  • a classification algorithm known as "mean shift classification” is applied.
  • all the categories associated with the parent nodes of the graph are ordered arbitrarily, and an index i is associated with each category.
  • the leaf nodes can be represented in an N-dimensional space.
  • a vector Vf with N dimensions is associated with each leaf node Nf, a 1 with the position j in the vector Vf indicating that the node associated with the category Ci is parent of the node Nf, a 0 indicating that this node is not parent .
  • the classification algorithm uses a distance, for example the Manhattan distance, for calculations. Alternatively, other known distances for unsupervised classification are used.
  • nb l + nb 2 With nb 12 the number of dimensions on which V1 and V2 have a coordinate equal to 1, nb1 the number of dimensions on which V1 has a non-zero coordinate, and, nb 2 the number of dimensions on which V2 has a non-zero coordinate .
  • the classification algorithm will give less importance to the axes that correspond to higher categories in the tree, that is to say, more general, more abstract and tend to group indirectly a large number leaf nodes.
  • structural simplification processes are applied, either directly to the complete graph G c , or to the graph obtained after various simplification processes as explained above. above with reference to FIG.
  • FIG. 6 illustrates a method of structural simplification implemented by the processor 18 of a device 10.
  • a first structural simplification step 100 parent nodes that have only one child node, called single parent nodes, are deleted.
  • a simplification step 102 per medium is applied, the support of a parent node being defined as all the leaf nodes, which are direct or indirect children of this parent node. If a parent node has the same support as one of its child nodes, then that child node is directly linked to the parent node (s) of the parent node, ie the parent node is shorted.
  • the parent nodes that no longer have child nodes are deleted.
  • the various successive simplification processes, in particular link modifications make certain nodes without a child node. These nodes are deleted iteratively.
  • the method of the invention allows automatic extraction of themes from one or more texts, to obtain a hierarchical representative graph of categories of relevant themes. This automatic extraction uses a hierarchical knowledge base. This process makes it possible to automatically process large sets of texts, without the need for expert intervention.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

L'invention concerne un procédé d'extraction automatique de thèmes à partir d'au moins un document contenant du texte, sous forme d'un graphe représentatif hiérarchisé, un nœud dudit graphe étant représentatif d'un thème abordé dans ledit texte, et correspondant à une catégorie extraite d'une base de connaissances hiérarchisée comprenant des descriptions de thèmes par catégories liées par des liens de parenté sur une pluralité de niveaux hiérarchiques. Le procédé comporte une extraction (60,62) d'un ensemble de mots clés dudit au moins un texte, suivi de l'obtention (66, 68, 72) d'un graphe complet hiérarchisé représentatif dudit au moins un texte par extraction de la totalité des catégories de la base de connaissances hiérarchisée correspondant à l'ensemble des mots clés extrait, ledit graphe complet hiérarchisé comprenant des nœuds parents ayant au moins un descendant et des nœuds sans descendant dits nœuds feuilles, lesdits nœuds feuilles correspondant auxdits mots clés. Ensuite, une simplification (74) du graphe complet est appliquée, comprenant un traitement de simplification basé sur la structure du graphe à simplifier, pour obtenir un graphe représentatif hiérarchisé.

Description

Procédé et dispositif d'extraction automatique de thèmes à partir d'au moins un document contenant du texte
La présente invention concerne un procédé d'extraction automatique de thèmes à partir d'au moins un document contenant du texte et un dispositif associé.
L'invention se situe dans le domaine du traitement automatique des connaissances et de l'extraction automatique d'informations à partir de documents contenant du texte, et trouve des applications notamment dans les systèmes d'aide à la décision multicritères et dans les systèmes de classification automatique de textes.
De nos jours, une très grande quantité d'informations est disponible sous forme de documents électroniques de divers types, en particulier des documents contenant du texte. Il apparaît très difficile pour un être humain d'analyser, catégoriser et extraire des connaissances à partir d'un large corpus de textes. A cet effet, des méthodes d'extraction automatiques d'informations à partir d'un ou plusieurs documents électroniques contenant du texte ont été proposées.
La plupart des méthodes connues pour l'extraction automatique de thèmes à partir de textes utilisent un corpus d'apprentissage ou une description générique des thèmes attendus sous forme de liste de mots clés. Ce type de méthode présente l'inconvénient de nécessiter un nouvel apprentissage ou l'introduction d'une nouvelle liste de mots clés, potentiellement à fournir par un expert, à chaque changement de contexte ou de domaine à traiter.
On connaît également une méthode d'extraction de thèmes abordés dans un document contenant du texte décrite dans l'article « Document Topic Extraction based on Wikipedia Category » de Yun et al, publié en 201 1 , lors de la conférence «Fourth International Joint Conférence on Sciences and Optimization ». La méthode décrite s'affranchit de la nécessité d'apprentissage ou de liste de mots clés préalable, en proposant l'extraction des thèmes d'un texte, sous forme d'un graphe représentatif du texte traité, chaque nœud du graphe, représentatif d'un thème abordé dans le texte, étant associé à une catégorie de la base de données Wikipédia ®, qui est une base de connaissances hiérarchisées à plusieurs niveaux de profondeur. Dans la méthode proposée dans cet article, les catégories extraites de la base de données comprennent la catégorie correspondant à un mot ou groupement de mots extrait du texte, ainsi que les catégories directement liées à cette catégorie, par une relation directe parent/enfant, afin de limiter la taille du graphe représentatif du texte traité et d'éviter l'introduction de catégories distantes apportant du bruit pour un traitement ultérieur. Cependant, il a été constaté par les inventeurs que la méthode proposée dans cet article de Yun et al fournit des résultats qui ne sont pas suffisamment pertinents. L'invention a pour objectif de fournir une méthode d'extraction de thèmes à partir de texte sans apprentissage préalable, et améliorant la pertinence des thèmes extraits par rapport aux méthodes connues.
A cet effet, l'invention propose, selon un premier aspect, un procédé d'extraction automatique de thèmes à partir d'au moins un document contenant du texte, sous forme d'un graphe représentatif hiérarchisé, un nœud dudit graphe étant représentatif d'un thème abordé dans ledit texte, et correspondant à une catégorie extraite d'une base de connaissances hiérarchisée, une dite base de connaissance hiérarchisée comprenant des descriptions de thèmes par catégories liées par des liens de parenté sur une pluralité de niveaux hiérarchiques.
Le procédé comporte les étapes suivantes, mises en œuvre par un processeur d'un dispositif de calcul :
- extraction d'un ensemble de mots clés dudit au moins un texte,
- obtention d'un graphe complet hiérarchisé représentatif dudit au moins un texte par extraction de la totalité des catégories de la base de connaissances hiérarchisée correspondant à l'ensemble des mots clés extrait, ledit graphe complet hiérarchisé comprenant des nœuds parents ayant au moins un descendant et des nœuds sans descendant dits nœuds feuilles, lesdits nœuds feuilles correspondant auxdits mots clés,
-simplification du graphe complet, comprenant au moins un traitement de simplification d'un graphe à simplifier, un dit graphe à simplifier étant soit ledit graphe complet hiérarchisé, soit un graphe résultant d'un traitement de simplification préalable, un dit traitement de simplification étant basé sur la structure du graphe à simplifier, pour obtenir un graphe représentatif hiérarchisé.
Avantageusement, le procédé de l'invention comporte l'extraction de la totalité des catégories de la base de connaissances hiérarchisée correspondant à l'ensemble des mots clés extrait, quelque soit le niveau de parenté avec la catégorie de la base de connaissances correspondant à un mot clé du texte, suivie d'une simplification basée sur la structure du graphe complet, sans aucune connaissance externe supplémentaire relative à la pertinence des catégories contenues dans les nœuds. Ainsi, cette méthode permet de retenir, automatiquement et sans connaissance externe supplémentaire, des catégories pertinentes de la base de connaissances, différentes des catégories qui sont directement parentes des catégories correspondant aux mots clés.
Le procédé d'extraction automatique de thèmes à partir d'au moins un document contenant du texte peut également présenter une ou plusieurs des caractéristiques ci- dessous, prises indépendamment ou en combinaison : Il comporte en outre une étape d'affectation d'un score à chaque nœud du graphe à simplifier et lesdits scores sont pris en compte dans au moins un traitement de simplification.
Dans l'étape d'affectation d'un score, le score affecté à chaque nœud feuille dudit graphe à simplifier est directement lié au nombre d'occurrences du mot clé correspondant audit nœud feuille dans ledit au moins un texte.
Dans l'étape d'affectation d'un score, le score affecté à un nœud parent est dépendant des scores affectés aux nœuds feuilles descendants dudit nœud parent et d'une hauteur dudit nœud parent égale à une distance dudit nœud parent par rapport auxdits nœuds feuilles.
Un traitement de simplification est une suppression de nœuds parents du graphe à simplifier dont le score est inférieur à une valeur seuil prédéterminée.
Un traitement de simplification comporte une suppression du lien entre un nœud parent du graphe à simplifier et un nœud descendant directement dudit nœud parent si ledit nœud parent a un score associé inférieur au score associé audit nœud descendant directement dudit nœud parent.
Un traitement de simplification comporte une classification non supervisée permettant de regrouper des nœuds intermédiaires du graphe à simplifier, un nœud intermédiaire étant un nœud ayant au moins un nœud parent et au moins un nœud descendant direct.
Un traitement de simplification est une suppression de tous les nœuds du graphe à simplifier ayant un seul nœud descendant direct.
Un traitement de simplification comporte une suppression du lien entre un nœud parent et un nœud descendant direct si l'ensemble de nœuds feuilles descendants dudit nœud descendant direct est identique à l'ensemble des nœuds feuilles descendants dudit nœud parent, et un ajout d'un lien entre ledit nœud descendant direct et au moins un nœud parent dudit nœud parent.
Un traitement de simplification comporte une suppression de nœuds parents du graphe à simplifier n'ayant plus aucun lien vers un nœud descendant direct.
Selon un deuxième aspect, l'invention concerne un dispositif d'extraction automatique de thèmes à partir d'au moins un document contenant du texte, sous forme d'un graphe représentatif hiérarchisé, un nœud dudit graphe étant représentatif d'un thème abordé dans ledit texte, et correspondant à une catégorie extraite d'une base de connaissances hiérarchisée, une dite base de connaissance hiérarchisée comprenant des descriptions de thèmes par catégories liées par des liens de parenté sur une pluralité de niveaux hiérarchiques. Le dispositif selon l'invention comporte:
- un module d'extraction d'un ensemble de mots clés dudit au moins un texte,
-un module d'obtention d'un graphe complet hiérarchisé représentatif dudit au moins un texte par extraction de la totalité des catégories de la base de connaissances hiérarchisée correspondant à l'ensemble des mots clés extrait, ledit graphe complet hiérarchisé comprenant des nœuds parents ayant au moins un descendant et des nœuds sans descendant dits nœuds feuilles, lesdits nœuds feuilles correspondant auxdits mots clés, et
-un module de simplification du graphe complet, comprenant au moins un module traitement de simplification d'un graphe à simplifier, un dit graphe à simplifier étant soit ledit graphe complet hiérarchisé, soit un graphe résultant d'un traitement de simplification préalable, un dit traitement de simplification étant basé sur la structure du graphe à simplifier, pour obtenir un graphe représentatif hiérarchisé.
Le dispositif présente les mêmes avantages que le procédé selon l'invention brièvement décrit ci-dessus, et comporte des moyens de mise en œuvre de l'ensemble des caractéristiques du procédé selon l'invention.
Selon un troisième aspect, l'invention concerne un programme d'ordinateur comportant des instructions pour mettre en œuvre les étapes d'un procédé d'extraction automatique de thèmes à partir d'au moins un document contenant du texte tel que brièvement décrit ci-dessus lors de l'exécution du programme par un processeur d'un dispositif programmable.
D'autres caractéristiques et avantages de l'invention ressortiront de la description qui en est donnée ci-dessous, à titre indicatif et nullement limitatif, en référence aux figures annexées, parmi lesquelles :
-la figure 1 est un schéma représentant les blocs fonctionnels d'un dispositif programmable apte à mettre en œuvre l'invention ;
- la figure 2 est un schéma bloc des principaux modules permettant la mise en œuvre de l'invention ;
-la figure 3 est un exemple schématique de graphe hiérarchisé ;
-la figure 4 est un organigramme représentant les principales étapes d'un procédé d'extraction automatique de thèmes d'un texte selon un mode de réalisation de l'invention ;
-la figure 5 est un organigramme illustrant la simplification structurelle d'un graphe utilisant les scores associés aux nœuds du graphe selon un mode de réalisation, et
-la figure 6 est un organigramme illustrant la simplification structurelle d'un graphe sans utilisation de scores selon un mode de réalisation. La figure 1 illustre les principaux modules d'un dispositif apte à mettre en œuvre le procédé d'extraction automatique de thèmes à partir d'au moins un document contenant du texte selon l'invention.
Un dispositif 10 apte à mettre en œuvre l'invention, typiquement un dispositif programmable de type ordinateur, comprend un écran 12, un module 14 de saisie des commandes d'un utilisateur, par exemple un clavier, optionnellement un moyen supplémentaire de pointage 16, tel une souris, permettant de sélectionner des éléments graphiques affichés sur l'écran 12, une unité centrale de traitement 18, ou processeur, apte à exécuter des instructions de programme de commande lorsque le dispositif 10 est mis sous tension. Le dispositif 10 comporte également un module de stockage d'informations 20, apte à stocker des instructions de code exécutable permettant la mise en œuvre de programmes d'ordinateur aptes à mettre en œuvre le procédé selon l'invention. En outre, de manière optionnelle, le dispositif 10 comporte un module de communication 22, apte à assurer la communication du dispositif 10 avec des dispositifs serveurs connectés via un réseau de communication, par exemple Internet, selon un protocole de communication adapté.
Les divers blocs fonctionnels du dispositif 10 décrits ci-dessus sont connectés via un bus de communication 24.
La figure 2 représente plus en détail des modules contenus dans le module de stockage d'informations 20 selon un mode de réalisation, permettant la mise en œuvre d'un procédé d'extraction automatique de thèmes à partir d'au moins un document contenant du texte.
Ainsi, dans un espace de mémorisation 26 sont stockés le ou les documents T contenant du texte à traiter. Par exemple, l'ensemble de documents T comporte une pluralité d'articles stockés sous formes de fichiers informatiques, dans un ou plusieurs format(s) donné(s), contenant du texte et des images.
L'espace de mémorisation 28 comporte une base de connaissances B, qui est semi-structurée ou structurée en catégories liées entre elles par des liens hiérarchiques. En variante, la base de connaissances B est stockée à l'extérieur du dispositif 10, sur un ou plusieurs serveurs du réseau de communication non représenté, et est accessible au moyen de requêtes/réponses échangées par l'intermédiaire du module de communication
22.
Le module de stockage 20 d'un dispositif 10 apte à mettre en œuvre l'invention comporte également un module 30 d'extraction de mots clés, apte à mettre en œuvre une extraction de mots clés à partir des documents T à traiter. Les mots clés obtenus sont fournis à un module 32 d'obtention de graphe complet représentatif des documents T traités, obtenu, comme expliqué plus en détail ci-après en référence à la figure 4, par mise en œuvre des mots clés extraits et extraction de l'arborescence complète des catégories liées à ces mots clés à partir de la base de connaissances B. Le graphe complet comporte des nœuds et un score est affecté à chaque nœud, le score étant calculé pour être représentatif de la pertinence de la catégorie associée au nœud en fonction de l'ensemble des documents T. Un module de simplification 34 applique au moins un traitement de simplification du graphe complet, basé sur la structure du graphe complet, et, selon un mode de réalisation, sur les scores associés aux nœuds, comme expliqué plus en détail ci-après en référence aux figures 5 et 6.
Dans la suite, sans perte de généralité, l'invention est expliquée pour le traitement d'un document T comprenant du texte, appelé simplement texte T.
La figure 3 illustre schématiquement un extrait d'un graphe 38 hiérarchisé ou directionnel représentatif d'un texte. Le graphe 38 est de type arborescent, et comporte un nœud racine 40, ayant une catégorie associée, qui est la catégorie la plus générique associée au texte, obtenue à partir de la base de connaissances B. Le nœud racine est un nœud qui n'a pas d'ascendants ou nœuds parents. Les nœuds intermédiaires 42, 44, 46 et 48 sont des nœuds ayant des ascendants et des descendants, et qui ont une catégorie extraite de la base de connaissances associée. Les nœuds intermédiaires et le(s) nœud(s) racine(s) sont des nœuds parents, ayant au moins un descendant dans le graphe.
Les nœuds 50, 52, 54, 56 et 58, dits nœuds feuilles, sont associés directement à des mots clés extraits du texte traité. Les nœuds feuilles sont les nœuds qui n'ont pas de descendants. Par exemple, lorsque la base de connaissances utilisée est la base Wikipédia®, chaque nœud feuille a pour catégorie associée le titre de l'article obtenu directement par une requête sur la base de connaissances avec un mot clé d'un texte. Certains nœuds du graphe sont liés, définissant des relations de parenté de type parent- enfant dans le graphe. Ainsi, le nœud 40 a pour enfants directs les nœuds 42 et 44, et pour enfants indirects tous les autres nœuds 46-58 du graphe 38. Le nœud 48 a les nœuds 56 et 58 comme nœuds enfants, ou nœuds fils, et comme parent le nœud 42.
Le graphe 38 a une structure hiérarchique arborescente, avec quatre niveaux de profondeur, les nœuds feuilles 54, 56 et 58 étant au niveau de profondeur le plus bas, appelé niveau zéro. Le nœud 46 et le nœud 48 sont au niveau de profondeur 1 , et ainsi de suite. Les nœuds racines sont au niveau de profondeur le plus élevé. Il est très fréquent qu'il existe plusieurs chemins entre un nœud feuille et un de ses parents indirects. Par conséquent, les nœuds ont simultanément plusieurs hauteurs ou niveaux de profondeur associés.
Comme déjà expliqué, chaque nœud du graphe 38 a également un score associé. Par exemple, les nœuds feuilles 54, 56 et 58 ont les scores respectifs S1 , S2 et S3 associés, le nœud 46 a un score S4 associé, le nœud 48 un score S5 et le nœud 42 un score S6. Le score d'un nœud feuille dépend du nombre d'occurrences du mot clé associé dans le texte T traité. Les scores des nœuds parents sont calculés de proche en proche, à partir des scores associés aux nœuds enfants, directement ou indirectement liés, et de la distance du lien les unissant.
Dans un mode de réalisation, un graphe représentatif d'un texte T calculé par le procédé de l'invention est affiché sur une interface graphique pour exploitation par un utilisateur, et la taille de représentation des nœuds est variable et proportionnelle à leur score, de manière à permettre une évaluation immédiate de l'importance des nœuds et donc des thèmes abordés dans le texte, les thèmes étant définis par les catégories associées aux nœuds.
La figure 4 illustre les principales étapes mises en œuvre dans un procédé selon un mode de réalisation de l'invention, typiquement mises en œuvre par le processeur 18 d'un dispositif 10.
En entrée, le procédé reçoit un document comprenant du texte T à traiter, sous forme de document électronique, par exemple en format HTML, ou tout autre format de document électronique approprié, moyennant une extraction du texte au format texte brut.
Lors d'une première étape 60, le texte est découpé en mots ou groupes de mots, en appliquant des techniques connues utilisant les espaces et les ponctuations. Des groupes de mots ayant plusieurs occurrences ou des particularités, par exemple une succession de mots commençant par des majuscules, comme « Etats-Unis », sont conservés.
Ensuite, une étape de filtrage grammatical 62 est appliquée, permettant d'annoter les mots ou groupes de mots retenus en fonction de leur rôle grammatical dans une phrase et de ne conserver que les types les plus informatifs : verbes, noms, adjectifs.
A l'issue de l'étape 62, un ensemble de mots ou groupes de mots, appelé ensemble de mots clés 64 est obtenu. Cet ensemble est mémorisé dans un espace mémoire du dispositif 10, ainsi que, pour chaque mot clé le constituant, son nombre d'occurrences dans le texte T.
Les mots/groupes de mots, appelés ci-après mots clés de l'ensemble 64, sont utilisés ensuite, un par un, comme argument d'une requête 66 sur la base de connaissances B utilisée. Par exemple, la base Wikipédia® est utilisée. En variante, toute autre base de données comportant des connaissances structurées ou semi-structurées est utilisable. Pour chaque mot clé, l'étape de requête 66 avec le mot clé comme argument permet de trouver un article correspondant dans la base de connaissances B. L'ensemble des catégories parentes, liées à la ou aux catégories de l'article trouvé sont extraites de la base de connaissances à l'étape 68. L'extraction ne se limite pas aux catégories directement parentes, toutes les catégories parentes, quelque soit la profondeur du lien, sont extraites. Un graphe complet 70 pour le mot clé traité est ainsi obtenu et mémorisé.
Les étapes 66 et 68 sont répétées pour chacun des mots clés de l'ensemble 64, et les graphes complets par mots clés sont fusionnés à l'étape 72 en un graphe complet Gc représentatif du texte T. En variante, les graphes extraits par mot clé sont fusionnés au fur et à mesure de leur extraction pour obtenir un graphe complet Gc lorsque l'ensemble des mots clés a été traité. A l'étape de fusion 72, une résolution de cycle est également appliquée, de manière à éliminer tous les cycles du graphe Gc. De préférence, le nœud de niveau le plus bas de l'arborescence est choisi comme représentant d'un groupe de nœuds appartenant à un cycle. S'il existe plusieurs nœuds au niveau le plus bas, un des nœuds est choisi sur un critère donné, par exemple celui dont le nom de catégorie est le plus court. Un nœud déconnecté après ré-affectation des liens pour pointer vers le nœud choisi comme représentant est supprimé.
En utilisant la base de connaissances Wikipédia®, il a été constaté pour un texte de 500 mots, un graphe complet Gc d'environ 8000 nœuds liés par l'intermédiaire de 20000 liens est obtenu. Il est clair qu'un tel graphe n'est pas exploitable par un être humain.
Un traitement de simplification structurelle du graphe complet Gc est appliqué à l'étape 74 et permet d'obtenir un graphe représentatif des thèmes du texte T.
La simplification structurelle du graphe comporte plusieurs traitements de simplification, qui peuvent être séparés en simplifications basées sur la structure du graphe uniquement d'une part et simplifications basées sur la structure du graphe et sur les scores associés aux nœuds d'autre part.
La figure 5 illustre un procédé de simplification basé sur la structure d'un graphe G à simplifier et sur des scores associés aux nœuds du graphe. Le graphe G à simplifier est soit le graphe complet Gc, soit un graphe G'c déjà partiellement simplifié.
Dans un premier temps, un score est affecté à chaque nœud du graphe G traité. L'affectation de score s'effectue en deux étapes. Lors d'une première étape 80, un score est affecté aux nœuds feuilles du graphe G, en fonction du nombre d'occurrences des mots clés correspondants dans le texte T. Dans un mode de réalisation, le score associé à un nœud feuille est égal au nombre d'occurrences du mot clé associé dans le texte.
Dans un mode de réalisation alternatif, le nombre d'occurrences est pondéré par un coefficient c, qui prend une valeur donnée, par exemple c=1 , lorsque le titre d'article de la base de connaissances B est identique au mot clé pour un nœud feuille et une valeur inférieure lorsqu'il y a une différence entre le mot clé du texte et l'intitulé de l'article trouvé dans la base de connaissances B. Dans le cas où la base de connaissance contient des catégories spéciales, on peut également utiliser cette information pour modifier la pondération. Dans le cas de Wikipedia®, on peut utiliser les pages « portails ».
Ensuite, un score est affecté, de proche en proche, à chaque nœud parent du graphe G, à l'étape 82. Le calcul du score d'un nœud parent prend en compte les scores des nœuds-feuilles enfants du nœud parent, directs ou indirects, pondéré par une distance dans le graphe G par rapports aux nœuds-enfants. Les scores obtenus pour les nœuds parents sont des scores normalisés par rapport au niveau de profondeur des nœuds dans le graphe, afin d'éviter une sur-évaluation du score des nœuds de bas niveau, qui représentent des catégories conceptuelles larges. Pour cela on affecte également un score aux arcs reliant les nœuds, le score d'un nœud étant la somme des scores des arcs entrants, éventuellement divisé par le nombre d'arcs entrants.
Prenons l'exemple de la figure 3 avec S1 =1 , S2=3 et S3=2. Notons L le lien entre les nœuds 54, de score S1 , et 56, de score S2, L25 le lien entre les nœuds 56 et 48 comme montré sur la figure 3. Prenons comme facteur de décroissance la fonction h qui associe une valeur à une hauteur telle que :
• à la hauteur 1 , h associe 1 ;
• à la hauteur 2, h associe ½ ;
· aux hauteurs supérieures à 2, h associe 0.
Alors le score du lien L14, noté s(L14), est s(L14)=S1 *h(1 )=1 *1 =1 . Le score du lien L25 est s(L25)=S2*h(1 )=3*1 =3. Le score du lien L35 est s(L35)=S3*h(1 )=2*1 =2.
Les scores des nœuds non feuilles étant la somme des scores des arcs entrants, on a S4= s(L14)=1 , S5= s(L25)+s(L35)=5. Le score du lien L46 vaut quand à lui s(L46)=S1 *h(2)=1 *1 /2=1/2 . En outre on a s(L56)=S2*h(2)+ S3*h(2)= 3*1/2+2*1/2=5/2. Le score S6 est S6= s(L46)+s(L56)=3. Enfin le score de L67 vaut s(L67)= s(S1 )*h(3)+ s(S2)*h(3)+ s(S3)*h(3)=0 car h(3)=0.
Empiriquement, on constate que la fonction h qui à n associe 1/n pour n compris entre 0 et 5, et associe 0 à n supérieur à 5 donne les meilleurs résultats pour la base de connaissance Wikipedia®. On remarque que chaque chemin liant une feuille de l'arbre à un nœud apporte une contribution au score du nœud. Néanmoins, avec la fonction h nulle à partir d'un rang R faible, par exemple R=5 et plus généralement R inférieur à 10, seuls les chemins de longueurs au plus R contribuent au score du nœud. Une approche de type « branch & bound », connue dans le domaine d'optimisation combinatoire, évite donc la combinatoire induite par le nombre de chemins possibles.
Ainsi, tous les nœuds du graphe ont un score associé à l'issue de l'étape 82.
Suite à ces étapes, une ou plusieurs des étapes suivantes de simplification du graphe G en utilisant les scores associés aux nœuds sont mises en œuvre.
Une suppression des nœuds parents de faible score est appliquée à l'étape 86. Dans un mode de réalisation, un score seuil S est fixé, et les nœuds parents dont le score est inférieur à S sont supprimés.
Dans un mode de réalisation alternatif, lorsqu'un nœud parent a un score inférieur au score d'un de ses fils, le lien entre ce nœud parent et ce nœud fils est supprimé.
Lors de la suppression d'un nœud intermédiaire, les nœuds enfants sont liés aux nœuds grands-parents. Par exemple, dans l'exemple de la figure 3, si le nœud 46 est supprimé, le nœud 54 est lié au nœud 42, parent du nœud 46.
Dans un mode de réalisation alternatif, une simplification supplémentaire par troncation est mise en œuvre à l'étape 90 : il s'agit de la suppression des nœuds dont la distance minimale par rapport aux nœuds feuilles est supérieure à un seuil donné.
Afin de réduire le nombre de parents des nœuds du graphe en cours de simplification, une étape 92 applique une classification non supervisée, permettant de regrouper des catégories associées à des nœuds intermédiaires du graphe. De préférence, un algorithme de classification connu sous le nom de « mean shift classification » est appliqué. Pour appliquer cet algorithme, l'ensemble des catégories associées aux nœuds parents du graphe est ordonné de manière arbitraire, et un indice i est associé à chaque catégorie. Ainsi, si le graphe contient N catégories, les nœuds feuilles peuvent être représentés dans un espace à N dimensions. Un vecteur Vf à N dimensions est associé à chaque nœud feuille Nf, un 1 à la position j dans le vecteur Vf indiquant que le nœud associé à la catégorie Ci est parent du nœud Nf, un 0 indiquant que ce nœud n'est pas parent. L'algorithme de classification utilise une distance, par exemple la distance de Manhattan, pour les calculs. Alternativement, d'autres distances connues pour la classification non supervisée sont utilisées.
Par exemple, on peut utiliser comme distance entre deux vecteurs la distance suivante : d(Vl,V2) = l - 2 *— ^—
nbl + nb2 Avec nb12 le nombre de dimensions sur lesquelles V1 et V2 ont une coordonnée égale à 1 , nbl le nombre de dimensions sur lesquelles V1 a une coordonnée non nulle, et, nb2 le nombre de dimensions sur lesquelles V2 a une coordonnée non nulle.
Les hauteurs associées aux nœuds peuvent également être utilisés dans la classification en prenant par exemple la distance suivante: d(Vl,V2) = l - 2 * nbl2 ,
nbl + nb2
Avec nb, = — , nb7 = Y— ,
Figure imgf000013_0001
= Y — , et H1 les hauteurs des
Me Hl n hli Me H 2 n hli Me H 12 n hli
catégories sur lesquelles V1 a une coordonnée non nulle, H2 les hauteurs des catégories sur lesquelles V2 a une coordonnée non nulle, H12 les hauteurs des catégories sur lesquelles V1 ou V2 a une coordonnée non nulle. Avec cette distance, l'algorithme de classification va donner moins d'importance aux axes qui correspondent à des catégories plus hautes dans l'arbre, c'est-à-dire plus générales, plus abstraites et ayant tendance à regrouper indirectement un grand nombre de nœuds feuilles.
En complément, avant ou après les étapes de simplification structurelle fonction des scores associés aux nœuds décrite ci-dessus, des traitements de simplification structurelle sont appliqués, soit directement au graphe complet Gc, soit au graphe obtenu après divers traitements de simplification comme expliqué ci-dessus en référence à la figure 5.
La figure 6 illustre un procédé de simplification structurelle mis en œuvre par le processeur 18 d'un dispositif 10.
Lors d'une première étape 100 de simplification structurelle, les nœuds parents qui n'ont qu'un seul nœud enfant, dit nœuds parents simples, sont supprimés.
Ensuite, une étape de simplification 102 par support est appliquée, le support d'un nœud parent étant défini comme tous les nœuds feuilles, qui sont des enfants directs ou indirects de ce nœud parent. Si un nœud parent a un même support qu'un de ses nœuds enfants, alors ce nœud enfant est directement lié au(x) nœud(s) parent(s) du nœud parent, c'est-à-dire le nœud parent est court-circuité.
Enfin, lors d'une étape 104, les nœuds parents qui n'ont plus de nœuds enfants sont supprimés. En effet, les divers traitements de simplification successifs, en particulier les modifications de liens, rendent certains nœuds sans nœud enfant. Ces nœuds sont supprimés itérativement. Avantageusement, le procédé de l'invention permet une extraction automatique de thèmes à partir d'un ou plusieurs textes, permettant d'obtenir un graphe représentatif hiérarchisé de catégories de thèmes pertinents. Cette extraction automatique emploie une base de connaissances hiérarchisée. Ce procédé permet de traiter automatiquement des larges ensembles de textes, sans nécessité d'intervention d'un expert.

Claims

REVENDICATIONS
1 . - Procédé d'extraction automatique de thèmes à partir d'au moins un document contenant du texte, sous forme d'un graphe représentatif hiérarchisé, un nœud dudit graphe étant représentatif d'un thème abordé dans ledit texte, et correspondant à une catégorie extraite d'une base de connaissances hiérarchisée, une dite base de connaissance hiérarchisée comprenant des descriptions de thèmes par catégories liées par des liens de parenté sur une pluralité de niveaux hiérarchiques,
caractérisé en ce qu'il comporte les étapes suivantes, mises en œuvre par un processeur d'un dispositif de calcul :
- extraction (60,62) d'un ensemble de mots clés dudit au moins un texte,
- obtention (66, 68, 72) d'un graphe complet hiérarchisé (Gc) représentatif dudit au moins un texte par extraction de la totalité des catégories de la base de connaissances hiérarchisée correspondant à l'ensemble des mots clés extrait, ledit graphe complet hiérarchisé (Gc) comprenant des nœuds parents ayant au moins un descendant et des nœuds sans descendant dits nœuds feuilles, lesdits nœuds feuilles correspondant auxdits mots clés,
-simplification (74) du graphe complet, comprenant au moins un traitement de simplification d'un graphe à simplifier, un dit graphe à simplifier étant soit ledit graphe complet hiérarchisé (Gc), soit un graphe résultant d'un traitement de simplification préalable, un dit traitement de simplification étant basé sur la structure du graphe à simplifier, pour obtenir un graphe représentatif hiérarchisé.
2. - Procédé selon la revendication 1 , caractérisé en ce qu'il comporte en outre une étape d'affectation (80, 82) d'un score à chaque nœud du graphe à simplifier et en ce que lesdits scores sont pris en compte dans au moins un traitement de simplification.
3. - Procédé selon la revendication 2, caractérisé en ce que, dans l'étape d'affectation (80) d'un score, le score affecté à chaque nœud feuille dudit graphe à simplifier est directement lié au nombre d'occurrences du mot clé correspondant audit nœud feuille dans ledit au moins un texte.
4. - Procédé selon la revendication 3, caractérisé en ce que dans l'étape d'affectation (82) d'un score, le score affecté à un nœud parent est dépendant des scores affectés aux nœuds feuilles descendants dudit nœud parent et d'une hauteur dudit nœud parent égale à une distance dudit nœud parent par rapport auxdits nœuds feuilles.
5.- Procédé selon l'une des revendications 2 à 4, caractérisé en ce qu'un dit traitement de simplification est une suppression (86) de nœuds parents du graphe à simplifier dont le score est inférieur à une valeur seuil prédéterminée.
6.- Procédé selon l'une des revendications 2 à 5, caractérisé en ce qu'un dit traitement de simplification comporte une suppression du lien entre un nœud parent du graphe à simplifier et un nœud descendant directement dudit nœud parent si ledit nœud parent a un score associé inférieur au score associé audit nœud descendant directement dudit nœud parent.
7. - Procédé selon l'une des revendications 2 à 6, caractérisé en ce qu'un dit traitement de simplification comporte une classification non supervisée permettant de regrouper des nœuds intermédiaires du graphe à simplifier, un nœud intermédiaire étant un nœud ayant au moins un nœud parent et au moins un nœud descendant direct.
8. - Procédé selon l'une des revendications 1 à 7, caractérisé en ce qu'un dit traitement de simplification est une suppression (100) de tous les nœuds du graphe à simplifier ayant un seul nœud descendant direct.
9.- Procédé selon l'une des revendications 1 à 8, caractérisé en ce qu'un dit traitement de simplification comporte une suppression (102) du lien entre un nœud parent et un nœud descendant direct si l'ensemble de nœuds feuilles descendants dudit nœud descendant direct est identique à l'ensemble des nœuds feuilles descendants dudit nœud parent, et un ajout d'un lien entre ledit nœud descendant direct et au moins un nœud parent dudit nœud parent.
10. - Procédé selon la revendication 9, caractérisé en ce qu'un dit traitement de simplification comporte une suppression (104) de nœuds parents du graphe à simplifier n'ayant plus aucun lien vers un nœud descendant direct.
1 1 . - Dispositif d'extraction automatique de thèmes à partir d'au moins un document contenant du texte, sous forme d'un graphe représentatif hiérarchisé, un nœud dudit graphe étant représentatif d'un thème abordé dans ledit texte, et correspondant à une catégorie extraite d'une base de connaissances hiérarchisée, une dite base de connaissance hiérarchisée comprenant des descriptions de thèmes par catégories liées par des liens de parenté sur une pluralité de niveaux hiérarchiques, caractérisé en ce qu'il comporte:
- un module (30) d'extraction d'un ensemble de mots clés dudit au moins un texte, -un module (32) d'obtention d'un graphe complet hiérarchisé représentatif dudit au moins un texte par extraction de la totalité des catégories de la base de connaissances hiérarchisée correspondant à l'ensemble des mots clés extrait, ledit graphe complet hiérarchisé comprenant des nœuds parents ayant au moins un descendant et des nœuds sans descendant dits nœuds feuilles, lesdits nœuds feuilles correspondant auxdits mots clés, et
-un module (34) de simplification du graphe complet, comprenant au moins un module traitement de simplification d'un graphe à simplifier, un dit graphe à simplifier étant soit ledit graphe complet hiérarchisé, soit un graphe résultant d'un traitement de simplification préalable, un dit traitement de simplification étant basé sur la structure du graphe à simplifier, pour obtenir un graphe représentatif hiérarchisé.
12. Programme d'ordinateur comportant des instructions pour mettre en œuvre les étapes d'un procédé d'extraction automatique de thèmes à partir d'au moins un document contenant du texte selon l'une des revendications 1 à 10 lors de l'exécution du programme par un processeur d'un dispositif programmable.
PCT/EP2014/058110 2013-04-23 2014-04-22 Procédé et dispositif d'extraction automatique de thèmes à partir d'au moins un document contenant du texte WO2014173882A1 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1300948 2013-04-23
FR1300948A FR3004828A1 (fr) 2013-04-23 2013-04-23 Procede et dispositif d'extraction automatique de themes a partir d'au moins un document contenant du texte

Publications (1)

Publication Number Publication Date
WO2014173882A1 true WO2014173882A1 (fr) 2014-10-30

Family

ID=49209420

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2014/058110 WO2014173882A1 (fr) 2013-04-23 2014-04-22 Procédé et dispositif d'extraction automatique de thèmes à partir d'au moins un document contenant du texte

Country Status (2)

Country Link
FR (1) FR3004828A1 (fr)
WO (1) WO2014173882A1 (fr)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110309316A (zh) * 2018-06-08 2019-10-08 腾讯科技(深圳)有限公司 一种知识图谱向量的确定方法、装置、终端设备和介质
CN114219876A (zh) * 2022-02-18 2022-03-22 阿里巴巴达摩院(杭州)科技有限公司 文本合并方法、装置、设备及存储介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112329824A (zh) * 2020-10-23 2021-02-05 北京中科智加科技有限公司 多模型融合训练方法、文本分类方法以及装置
CN113239669B (zh) * 2021-05-21 2024-04-09 合肥工业大学 试题难度预测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
IOANA HULPUS ET AL: "Unsupervised graph-based topic labelling using dbpedia", PROCEEDINGS OF THE SIXTH ACM INTERNATIONAL CONFERENCE ON WEB SEARCH AND DATA MINING, WSDM '13, 4 February 2013 (2013-02-04), New York, New York, USA, pages 465 - 474, XP055094990, ISBN: 978-1-45-031869-3, DOI: 10.1145/2433396.2433454 *
JIALI YUN ET AL: "Document Topic Extraction Based on Wikipedia Category", COMPUTATIONAL SCIENCES AND OPTIMIZATION (CSO), 2011 FOURTH INTERNATIONAL JOINT CONFERENCE ON, IEEE, 15 April 2011 (2011-04-15), pages 852 - 856, XP031897803, ISBN: 978-1-4244-9712-6, DOI: 10.1109/CSO.2011.119 *
YUN ET AL.: "Document Topic Extraction based on Wikipedia Category", FOURTH INTERNATIONAL JOINT CONFÉRENCE ON SCIENCES AND OPTIMIZATION, 2011

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110309316A (zh) * 2018-06-08 2019-10-08 腾讯科技(深圳)有限公司 一种知识图谱向量的确定方法、装置、终端设备和介质
CN110309316B (zh) * 2018-06-08 2022-10-25 腾讯科技(深圳)有限公司 一种知识图谱向量的确定方法、装置、终端设备和介质
CN114219876A (zh) * 2022-02-18 2022-03-22 阿里巴巴达摩院(杭州)科技有限公司 文本合并方法、装置、设备及存储介质

Also Published As

Publication number Publication date
FR3004828A1 (fr) 2014-10-24

Similar Documents

Publication Publication Date Title
JP7421604B2 (ja) モデル事前訓練方法および装置、テキスト生成方法および装置、電子機器、記憶媒体並びにコンピュータプログラム
EP1470501A2 (fr) Procedes et systemes de recherche et d'association de ressources d'information telles que des pages web
US20140201203A1 (en) System, method and device for providing an automated electronic researcher
WO2014173882A1 (fr) Procédé et dispositif d'extraction automatique de thèmes à partir d'au moins un document contenant du texte
US20110040767A1 (en) Method for building taxonomy of topics and categorizing videos
US9684726B2 (en) Realtime ingestion via multi-corpus knowledge base with weighting
FR3043816B1 (fr) Procede de suggestion de contenus extraits d’un ensemble de sources d’information
EP3008635A1 (fr) Procede de classification thematique automatique d'un fichier de texte numerique
EP1828941A2 (fr) Dispositif de traitement de données à définition formelle
FR2902913A1 (fr) Procede et dispositif de codage d'une note de similarite semantique et spatiale entre concepts d'une ontologie memorisee sous forme de treillis numerote hierarchiquement
FR3031823A1 (fr) Lemmatisateur semantique base sur des dictionnaires ontologiques.
WO1995008154A1 (fr) Procede de demonstration automatique
FR2939537A1 (fr) Systeme de recherche d'information visuelle
CN105528414B (zh) 一种搜集深网数据全集的爬虫方法和系统
CN111078886B (zh) 基于dmcnn的特殊事件提取系统
FR3060800A1 (fr) Procede et dispositif d'indexation automatique d'un document textuel
FR2880715A1 (fr) Procede et systeme de codage d'un treillis representatif d'une hierarchie d'elements
US10713241B2 (en) Weighting and expanding query terms based on language model favoring surprising words
FR3066630A1 (fr) Procede d'analyse de textes sur un reseau de communication
FR3045857A1 (fr) Procede et dispositif de classement d'un ensemble d'elements informatiques
Agrawal et al. Auto complete using graph mining: A different approach
US20190171761A1 (en) Using Hierarchical Correlation Information To Signify Hierarchical Structure In A Single-Dimensional Stream
WO2019155168A1 (fr) Procédé de transformation d'une séquence pour la rendre exécutable par une machine
FR3018410A1 (fr) Procede d'analyse d'une pluralite de messages, produit programme d'ordinateur et dispositif associes
FR3096157A1 (fr) procédé d’indexation multidimensionnelle de contenus textuels

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14718613

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 14718613

Country of ref document: EP

Kind code of ref document: A1