WO2020229760A1 - Method for multidimensional indexing of textual content - Google Patents

Method for multidimensional indexing of textual content Download PDF

Info

Publication number
WO2020229760A1
WO2020229760A1 PCT/FR2020/050766 FR2020050766W WO2020229760A1 WO 2020229760 A1 WO2020229760 A1 WO 2020229760A1 FR 2020050766 W FR2020050766 W FR 2020050766W WO 2020229760 A1 WO2020229760 A1 WO 2020229760A1
Authority
WO
WIPO (PCT)
Prior art keywords
vectors
vector
textual content
digital
aipha
Prior art date
Application number
PCT/FR2020/050766
Other languages
French (fr)
Inventor
Mirisaee HAMID
Cédric LAGNIER
Eric Gaussier
Agnès GUERRAZ
Guillaume EMERY
Original Assignee
Skopai
Universite Grenoble Alpes
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Skopai, Universite Grenoble Alpes filed Critical Skopai
Publication of WO2020229760A1 publication Critical patent/WO2020229760A1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing

Definitions

  • the present invention relates to a method for automatic multidimensional indexing of digital textual content. Indexing leads to the recording of the concepts contained in a document, in an organized and easily accessible form, allowing the search of the information recorded from these documentary research tools and the automatic processing of analysis of large volumes of documents for. carry out classifications, groupings by similarity of content, scheduling and more generally all types of automatic processing making it possible to use large volumes of writings in an efficient and relevant manner.
  • Indexing dates from the 16th century and initially consisted of establishing a "table” of the significant terms of a work or a collection of works to facilitate access. Very quickly, the limits of such an approach, carried out empirically by documentalists, appeared: At the head of volume V of his Diversities (1610), Jean-Pierre Camus, the bishop of Belley, said his hostility to the practice of indexing, then designated by the “tabular representation", and the mode of reading that it induces. “Indexing is a popular mistake, which infects only weak brains, who call it the soul of the book, and it is the instrument of their harmlessity. These people can be called Doctores tabularii, which sapiunt tantum per Indices. Will you ask them what they know?
  • a new step was taken by the development of vector indexing techniques, paving the way for automatic processing to allow similarity searches, closer neighbors, and to accelerate access to a large collection of data by their positions in a multidimensional space.
  • Such a method is known for example from document EP3118751. It includes obtaining raw text, for example HTML source code extracted from a website, and preparing this raw text to form usable textual content (formatting, lemmatization). Keywords are then extracted from the actionable textual content.
  • EP1828933 describing a document indexing method comprising steps of storing these documents in at least one tree structure of directories nested one inside the other from a root directory, a storage space, characterized in that it further comprises the steps of:
  • the problem to be solved concerns the calculation of a vector representation of a document with textual content not being limited to the use of this textual content only, to allow positioning in a homogeneous multidimensional space with respect to the positioning of other documents. with textual content.
  • each document is processed on the basis of its own content, in order to calculate a vector representation which is then the object of comparison with the vector representation of other documents, by Euclidean distance calculations in a common multidimensional space.
  • the present invention based on the word embedding formalism, therefore seeks, by arithmetic calculation on vectors, to establish at least one vector representative of a textual content, this vector not necessarily forming part of the vectors associated with a keyword of the lexical field of the document.
  • the present invention proposes to automatically index, by vectors which may be representative of keywords, a document or a collection of documents. These vectors and these keywords are representative of the content of the documents without precisely corresponding to the words they contain.
  • the object of the invention provides, in its most general sense, a method for multidimensional indexing of digital textual content comprising:
  • a second filtering step consisting in removing the non-significant words from said digital word table;
  • a third step consisting in vectorizing each of the words in order to construct a vector table from a vector model;
  • the following is also carried out: the constitution of a table of neighboring digital vectors of said single vector;
  • the table of neighboring digital vectors of said single vector is established by:
  • the method comprises an additional step of selecting at least one vector, from among the new unique vectors, having the highest occurrence to form a table of neighboring digital vectors.
  • said table of vectors further comprises an indicator Oi depending on the number of occurrences of the word Mi associated with the vector Vi, in said textual content.
  • said table of vectors further comprises an indicator Fi depending on the number of appearances of the word Mi associated with the vector Vi, in said vector model.
  • said fourth step of calculating a single vector which is a function of the vectors of said table of vectors consists in calculating the average of said vectors.
  • said fourth step of calculating a single vector as a function of the vectors of said vector table consists in calculating the weighted barycenter as a function of said indicators Oi and / or Fi of said vectors.
  • said second filtering step consists of removing from said digital word table the words of the plain text not included in the input dictionary of the vector model to form the textual content.
  • the method further comprises the following steps:
  • the list of key vectors also includes vectors resulting from a graph analysis of the textual content.
  • the key vectors of the list of key vectors are associated with a degree of relevance.
  • the degree of relevance is a cosine similarity between the key vector and the single vector or the second vector representation.
  • the invention also relates to a method of grouping textual contents, characterized in that one proceeds for each one. of said textual contents with a above-mentioned multidimensional indexing and in that a grouping indicator is associated with the textual contents whose second vector representations have between them a Euclidean distance less than a threshold value.
  • the invention also relates to a method for searching for contents similar to a reference document, characterized in that for a collection of textual contents as well as for said reference document, the aforementioned multidimensional indexing is carried out and in that one proceeds. searches for the textual contents whose second associated vector representation is closest to the second vector representation associated with said reference document.
  • the invention also relates to a method of graphically representing the positioning of documents with textual content, characterized in that for a collection of textual content, the aforementioned multidimensional indexing is carried out and in that a symbol is displayed for each of said documents.
  • graphic the distance between the graphic symbols of two documents on the graphic interface being a function of the Euclidean distance between the second vector representations of each of said documents.
  • FIG. 1 represents a computer environment making it possible to implement a method for extracting keywords in accordance with the invention
  • FIG. 2 represents the flowchart of an indexing method in accordance with the invention.
  • Figure 1 a computer environment for implementing a method according to the invention.
  • a computer processing unit 1 is configured to execute a computer program. It is connected to data storage means 2 and connected to a computer network 3, for example the Internet network.
  • the computer processing unit 1 also has all the conventional input-output interfaces (screen, keyboard, communication ports, etc.).
  • These computer resources provide in particular access to documentary resources 4, such as websites accessible via the network 3 or text files recorded in the storage means 2.
  • documentary resources 4 constitute raw texts which can form data of entry of the process which is the subject of the present description.
  • the vector model aims to represent documents and queries as vectors in an n-dimensional space.
  • this linguistic model which can be in the form of a simple data table words - vectors, associates linguistically close words with equally close vectors in the multidimensional space in which these vectors are defined.
  • the dimension of the vector space for defining vectors can be very large, typically several hundred.
  • the measure of proximity of two vectors in this space can be determined by a measure of similarity of these two vectors, for example the measure of cosine similarity.
  • the vector linguistic model 5 may be a pre-existing model which is publicly accessible. But advantageously, when the method of extracting keywords targets a specific field of application, the vector linguistic model 5 has been previously developed from a corpus of documents of this field of application. Reference may be made to the document of the literature cited in the introduction to this application to obtain the details of the implementation making it possible to constitute, by learning, such a vector linguistic model from a corpus of selected documents.
  • a raw text 4 is provided which is prepared to form an exploitable textual content 6 of the digital word table type [Mi; M2; ...; Mi], the format and content of which are suitable for its future processing.
  • This supply step can be implemented by an extraction software module recorded in the storage means 2 and executed on the processing unit 1.
  • This module accesses the plain text 4 from for example a Web address or access paths to the storage means 2 which are provided to it.
  • This module can consist or include an indexing robot ("web crawler", according to the English terminology usual in this field) which automatically explores the network to collect documentary resources 4 of interest.
  • the plain text 4 is prepared, during a filtering step operated by the extraction software module, by conventional operations of eliminating non-significant words such as coordination conjunctions, by lemmatization, or by any other operation making it possible to establish textual content comprising only words known to the linguistic model 5.
  • the dictionary of words forming the entry of the linguistic model 5 is established in a determined language, which does not make it possible to process raw texts expressed in other languages.
  • the invention provides for a translation step.
  • This translation step is based on a plurality of vector translation models, one for each language that is to be processed.
  • Each translation model is similar to the vector linguistic model 5, and associates a word with a vector in a multidimensional space, for example by means of a mapping table.
  • the translation models and the linguistic model are consistent with each other, that is to say that two identical words in different languages are respectively linked to identical or very close vectors. There are many pre-existing and freely available translation templates.
  • usable data 6 designated by “textual content” in the remainder of this description, which may be in the form of a string or digital table of unique words Mi recorded in the storage means 2, and whose format and content are regular.
  • the textual content 6 associated with a plain text 4 can be composed of a large number of words, several hundred or even several thousand.
  • the textual content 6 associated with an original plain text can therefore be systematically processed by the following steps of the method.
  • the preliminary step implemented by the extraction module can perform other operations on the original plain text 4, such as for example determining the numerical coefficient of TF-IDF ("term frequency-inverse document frequency" or of a Term - Reverse document frequency) of the words composing the textual content.
  • This coefficient the calculation of which is well known in the field, aims to numerically measure the importance of a word in a document.
  • These coefficients can be recorded together with the words extracted from the processed raw text 4, in the form of an adequate data structure constituting the textual content 6.
  • the factors TF and IDF make it possible to consider the local and global weights of a term.
  • the TF * IDF measure makes it possible to approximate the representativeness of a term in a document, especially in corpus of documents of homogeneous sizes.
  • the extraction step results in a table of words Mi optionally associated with an occurrence indicator Oi as a function of the number of occurrences of the word Mi considered in the original document, as well as a frequency indicator Fi as a function of the frequency appearance of the word Mi considered in the corpus constituting the vector model 5.
  • an attempt is made to establish a first representation VU of the textual content 6.
  • the vector V ⁇ corresponding to each unique word Mi composing the textual content 6 is determined using the linguistic model vector 5.
  • the word vectors V ⁇ are combined together numerically to form this first vector representation VU of the textual content 6.
  • the combination can correspond to a simple average, but preferably this numerical combination is a barycenter calculation for which each vector V ⁇ of word Mi is weighted by a measure of importance of the corresponding word, for example Cy and / or Fi, c 'ie the digital coefficients of TF and / or IDF of this word Mi in the plain text 4, which could be established by the extraction software module during the preliminary step of the method.
  • a measure of importance of the corresponding word for example Cy and / or Fi, c 'ie the digital coefficients of TF and / or IDF of this word Mi in the plain text 4, which could be established by the extraction software module during the preliminary step of the method.
  • this first unique vector VU does not necessarily correspond to an existing word in the linguistic model, but it nevertheless follows very directly from the words of the textual content 6.
  • this similarity coefficient can be calculated practically as a measure of cosine similarity. This makes it possible to very easily determine the list of vectors of this model 5 located in a neighborhood of the first representative vector VU, that is to say whose degree of similarity is less than a predetermined threshold.
  • this list of vectors can have a predetermined size, and in this case the neighboring vectors VV j are chosen as the vectors of the model 5 whose degrees of similarity with the first representative vector VU are the lowest.
  • a first list of N vectors of the linguistic model 5 closest to the first representative vector VU is formed first.
  • M can for example be between 5 and 20, typically 10
  • N and M can for example be between 5 and 20, typically 10.
  • the vectors present in the neighborhood of the neighborhood of the first representative vector VU and we make sure to capture a large variety vectors and therefore to be detached from the textual content 6 or from the original plain text 4. It could moreover be provided to continue this recurrence a greater number of times in order to further diversify the second list of vectors or to apply other approaches, in addition to the replacement of that which are proposed, to further increase this diversity.
  • the second list of vectors may have a particularly large size, and include insignificant vectors.
  • the list of neighboring vectors VV j of the first vector representation VU which is established during this example does not correspond exactly, in a preferred mode of implementation of the method, to the second list.
  • the list of neighboring vectors VV j of the first vector representation VU is preferably established by choosing from the second list the group of vectors having the greatest occurrence. It is thus possible to choose, and by way of example, 5 to 10 vectors to form the list of neighboring vectors VV j of the first representative vector VU of a textual content 6.
  • a first table of vectors of the linguistic model 5 closest to the first representative vector VU is formed first, and just like in the previous example.
  • K the number of determined N-tuples and therefore of determined new unique vectors VN aiPha .
  • the list of neighboring vectors VV j of the first vector representation VU is preferably established by choosing from the second list the group of vectors having the largest occurrence. It is thus possible to choose, and by way of example, 5 to 10 vectors to form the list of neighboring vectors VV j of the first representative vector VU of a textual content 6.
  • the vectors forming this list can then be combined numerically with each other, for example using a simple average, to establish a second vector representation in the form of a second unique vector representative VU aiPha of the textual content.
  • This vector VU aiPha does not necessarily correspond to a word from the input dictionary of the vector linguistic model 5. Also, in an example application, to establish at least one keyword from of these representative vectors VU, VU aiPha , it is therefore necessary to project them into the frame of reference defined by the vector linguistic model 5 in order to obtain at least one representative vector associated in this model with at least one word from the input dictionary . This or these words will form the keyword extracted from the textual content 6, which is representative thereof and which can make it possible, for example, to index it.
  • the method can comprise an additional step aimed at forming a list of key vectors, contained in the vector linguistic model 5, this list of key vectors comprising vectors close to the first and second representations VU, VU aiPha
  • this list of key vectors can be transformed into a list of key words, by relying on the vector linguistic model 5.
  • This list can thus form the words -keys indexing the textual content which has just been processed.
  • the method then comprises a step of selecting at least one key vector from the list.
  • the key vectors can be ordered in decreasing order of proximity to the first and second representative vectors VU and VU aiPha .
  • the selection then consists in taking first of all the key vectors having the closest proximity. This ensures the relevance of the keywords chosen.
  • the list of key vectors can be completed by other methods, so that the selection is as rich as possible.
  • the list of keywords can be increased by keywords resulting from a graphical analysis of the textual content 6, as was presented at the introduction of the request.
  • a method in accordance with the present description can find many other applications.
  • the multidimensional indexing method which has just been presented is applied to available textual contents, and a grouping indicator R is associated with the contents of which the second vector representations VU aiP ha have a Euclidean distance between them less than a threshold value D, which can be predetermined.
  • a graphic representation of the positioning of documents with textual content For a collection of documents with textual content, the above-mentioned multidimensional indexing is carried out and a graphic symbol is displayed for each of said documents, the distance between the graphic symbols of two documents on the graphic interface being a function of the distance, for example Euclidean, or the similarity between the second vector representations VU aiP ha of each of said documents.

Abstract

The invention relates to a method for multidimensional indexing of digital textual content, comprising: - a first step of extracting the words from the textual content (6) to build a digital word table; - a second step of filtering consisting in deleting the non-significant words from the digital word table; - a third step consisting in vectorising each of the words to build a vector table from a vector model (5); - a fourth step of calculating a single vector according to the vectors of the vector table. According to the invention, there is also a step of: - building a table from the digital vectors neighbouring the single vector; - calculating a second vector representation of the textual content by combining the neighbouring vectors.

Description

DESCRIPTION DESCRIPTION
TITRE : PROCEDE D'INDEXATION MULTIDIMENSIONNELLE DE CONTENUS TITLE: MULTIDIMENSIONAL CONTENT INDEXING PROCESS
TEXTUELS TEXT
DOMAINE DE L' INVENTION FIELD OF THE INVENTION
La présente invention concerne un procédé d' indexation multidimensionnelle automatique d'un contenu textuel numérique. L'indexation conduit à l'enregistrement des concepts contenus dans un document, sous une forme organisée et facilement accessible, permettant la recherche des informations enregistrées à partir de ces outils de recherche documentaire et les traitements automatiques d' analyse de grands volumes de documents pour procéder à des classifications, des regroupements par similarité de contenu, des ordonnancements et plus généralement tous types de traitements automatiques permettant d'exploiter de manière efficace et pertinente de grands volumes d' écrits . The present invention relates to a method for automatic multidimensional indexing of digital textual content. Indexing leads to the recording of the concepts contained in a document, in an organized and easily accessible form, allowing the search of the information recorded from these documentary research tools and the automatic processing of analysis of large volumes of documents for. carry out classifications, groupings by similarity of content, scheduling and more generally all types of automatic processing making it possible to use large volumes of writings in an efficient and relevant manner.
L' indexation date du XVIème siècle et consistait initialement à établir une « table » des termes signifiants d'un ouvrage ou d'une collection d'ouvrages pour en faciliter l'accès. Très vite, les limites d'une telle démarche, menée de manière empirique par des documentalistes, sont apparues : En tête du tome V de ses Diversités (1610), Jean-Pierre Camus, l'évêque de Belley, dit son hostilité à la pratique de l'indexation, désignée alors par la « représentation tabulaire », et au mode de lecture qu'elle induit. « L'indexation est une erreur populaire, qui n'infecte que les faibles cerveaux, qui appellent cela l'âme du livre, et c'est l'instrument de leur stupidité. Ces gens peuvent être appelés Doctores tabularii, lesquels sapiunt tantum per Indices. Les enquerrez-vous de ce qu'ils savent? Ils vous demandent un livre pour le montrer, et aussitôt à la Table pour trouver ce qu'ils cherchent, les habiles appellent cela le pont aux ânes . » Jean-Pierre Camus : « Les tables des tomes précédents de l'auteur, faites par je ne sais qui, et à son insu, lui déplaisent, sachant qu'il faut retrancher tant que l'on peut ce qui fomente la paresse, paresse mère de l'ignorance. » Indexing dates from the 16th century and initially consisted of establishing a "table" of the significant terms of a work or a collection of works to facilitate access. Very quickly, the limits of such an approach, carried out empirically by documentalists, appeared: At the head of volume V of his Diversities (1610), Jean-Pierre Camus, the bishop of Belley, said his hostility to the practice of indexing, then designated by the "tabular representation", and the mode of reading that it induces. “Indexing is a popular mistake, which infects only weak brains, who call it the soul of the book, and it is the instrument of their stupidity. These people can be called Doctores tabularii, which sapiunt tantum per Indices. Will you ask them what they know? They ask you for a book to show it, and immediately at the Table to find what they are looking for, the skilled call it the Donkey Bridge. " Jean-Pierre Camus: "The tables of the author's previous volumes, made by I do not know who, and without his knowing it, displease him, knowing that it is necessary to remove as much as possible what foments laziness, laziness mother of ignorance. "
Le développement de l'informatique a permis de palier partiellement au problème du biais cognitif induite par la culture personnelle des documentalistes humains, en automatisant les traitements par des approches totalement objectives. L' introduction de formats numériques de type XML a également conduit à l'enrichissement de textes avec des métadonnées facilitant l'indexation automatique de documents numériques. The development of information technology has made it possible to partially overcome the problem of cognitive bias induced by the personal culture of human documentalists, by automating processing using totally objective approaches. The introduction of digital XML-type formats has also led to the enrichment of texts with metadata facilitating the automatic indexing of digital documents.
Une nouvelle étape a été franchie par le développement des techniques d'indexation vectorielle, ouvrant la voie à des traitements automatiques pour permettre des recherches de similarité, de plus proches voisins, et d'accélérer l'accès à une grande collection de données par leurs positions dans un espace multidimensionnel. A new step was taken by the development of vector indexing techniques, paving the way for automatic processing to allow similarity searches, closer neighbors, and to accelerate access to a large collection of data by their positions in a multidimensional space.
A titre d' illustration, la thèse de Thierry Urruty « Optimisation de l'indexation multidimensionnelle : application aux descripteurs multimédia » soutenue en 2007 à l'université de Lille 1 présente les principes généraux des traitements de contenus multimédias ayant fait l'objet d'une indexation multidimensionnelle. La pertinence de ces approches est fortement dépendante de la qualité des traitements numériques de construction des représentations numériques d'un document textuel, et la présente invention concerne plus particulièrement cette étape essentielle du traitement automatique de contenus. By way of illustration, the thesis of Thierry Urruty "Optimization of multidimensional indexing: application to multimedia descriptors" defended in 2007 at the University of Lille 1 presents the general principles of the processing of multimedia contents which have been the subject of multidimensional indexing. The relevance of these approaches is strongly dependent on the quality of the digital processing operations for constructing the digital representations of a textual document, and the present invention relates more particularly to this essential step in the automatic processing of content.
Plusieurs techniques d'indexation multidimensionnelle ont été développées. Elles reposent sur le même principe : regrouper a priori les données de la base de telle sorte que les données proches dans l'espace soient dans le même groupe, puis développer des algorithmes qui exploitent a posteriori la structure mise en place pour effectuer des recherches efficaces dans la base. Several multidimensional indexing techniques have been developed. They are based on the same principle: a priori regroup the data of the database so that the data close in space are in the same group, then develop algorithms which exploit a posteriori the structure put in place to carry out efficient searches in the database.
Ces techniques peuvent être classées en trois familles : les techniques basées sur le partitionnement des données, connues sous les appellations anglaises R*-tree, SR-tree, X-tree, etc., les techniques basées sur le partitionnement de l'espace, k-d- b-tree, LSD h-tree, PyramidTree, etc., et les techniques basées sur la compression, le VA-File et ses variantes. These techniques can be classified into three families: techniques based on the partitioning of data, known under the English names R * -tree, SR-tree, X-tree, etc., techniques based on the partitioning of space, kd-b-tree, LSD h-tree, PyramidTree, etc., and techniques based on compression, VA-File and its variants.
Plusieurs travaux ont montré que ces techniques sont inefficaces dans les espaces de grande dimension pour diverses raisons. D'une part, les groupes de données sont généralement mal formés, car les procédures de structuration des données sont très sensibles à l'ordre d'insertion des vecteurs et à la distribution des données, et d'autre part, les procédures de recherche sont incapables de confiner la recherche à un petit sous-ensemble des données auquel il suffit d'accéder pour construire l'ensemble résultat. Ce dernier problème est dû principalement à la complexité de l'organisation, généralement arborescente, des groupes de données. Several works have shown that these techniques are inefficient in large spaces for various reasons. On the one hand, data groups are generally poorly formed, because the data structuring procedures are very sensitive to the order of insertion of the vectors and the distribution of the data, and on the other hand, the search procedures are unable to confine the search to a small subset of the data which it suffices to access to construct the result set. This last problem is mainly due to the complexity of the organization, generally tree structure, of the groups of data.
L'article intitulé "When is "nearest neighbor" meaningful ?" dans la revue Proceedings of the 7th International Conférence on Database Theory, 217-235, Jérusalem, Israël, January 1999, de K. Beyer, J. Goldstein, R. Ramakrishnan and U. Shaft ou l'article "A quantitative analysis and performance study for similarity search methods in high-dimensional spaces" dans la revue Proceedings of the 24th International Conférence on Very Large Data Bases, 194-205, New York City, New York, USA, August 1998, de R. Weber, H. -J. Schek and S. Blott, ont même montré que, dans certains cas, les performances des techniques connues en indexation multidimensionnelle sont inférieures à celles d'une simple recherche séquentielle. ARRIERE PLAN TECHNOLOGIQUE DE L' INVENTION The article titled "When is" nearest neighbor "meaningful?" in the journal Proceedings of the 7th International Conférence on Database Theory, 217-235, Jerusalem, Israel, January 1999, by K. Beyer, J. Goldstein, R. Ramakrishnan and U. Shaft or the article "A quantitative analysis and performance study for similarity search methods in high-dimensional spaces "in the journal Proceedings of the 24th International Conférence on Very Large Data Bases, 194-205, New York City, New York, USA, August 1998, by R. Weber, H. - J. Schek and S. Blott, have even shown that, in certain cases, the performances of the techniques known in multidimensional indexing are lower than those of a simple sequential search. TECHNOLOGICAL BACKGROUND OF THE INVENTION
On connaît par exemple du document EP3118751 une telle méthode. Elle comprend l'obtention d'un texte brut, par exemple du code source HTML extrait d'un site Web, et la préparation de ce texte brut pour former un contenu textuel exploitable (formatage, lemmatisation) . Des mots-clés sont ensuite extraits du contenu textuel exploitable. Such a method is known for example from document EP3118751. It includes obtaining raw text, for example HTML source code extracted from a website, and preparing this raw text to form usable textual content (formatting, lemmatization). Keywords are then extracted from the actionable textual content.
On connaît aussi le brevet européen délivré sous le numéro EP1828933 décrivant un procédé d'indexation de documents comprenant des étapes de stockage de ces documents dans au moins une arborescence de répertoires imbriqués les uns dans les autres à partir d'un répertoire racine, d'un espace de stockage, caractérisé en ce qu'il comprend en outre les étapes consistant à : Also known is the European patent issued under the number EP1828933 describing a document indexing method comprising steps of storing these documents in at least one tree structure of directories nested one inside the other from a root directory, a storage space, characterized in that it further comprises the steps of:
- pour chaque document mémorisé dans l'espace de stockage, indexer par un ordinateur le contenu sémantique du document et les noms des répertoires imbriqués dans lesquels le document est stocké, - for each document stored in the storage space, index by a computer the semantic content of the document and the names of the nested directories in which the document is stored,
mémoriser le résultat de l'indexation dans une base d'indexation multidimensionnelle en association avec le document présent dans l'espace de stockage. storing the result of the indexing in a multidimensional indexing base in association with the document present in the storage space.
On connaît aussi le brevet français délivré sous le numéro FR2835940 qui a pour objet un procédé de recherche des k plus proches voisins d'un vecteur requête q dans une base de données multidimensionnelle de N vecteurs comprenant une phase de structuration de la base en clusters pour le regroupement des vecteurs et une phase de recherche, caractérisé en ce qu'il comprend les étapes suivantes : Also known is the French patent issued under the number FR2835940 which relates to a method of searching for the k nearest neighbors of a query vector q in a multidimensional database of N vectors comprising a phase of structuring the base into clusters for the grouping of vectors and a search phase, characterized in that it comprises the following steps:
- calcul de la distance Dppc (C, p) du centre de gravité d'un cluster C de la base au pième plus proche vecteur voisin parmi les vecteurs du cluster, p étant un entier naturel supérieur ou égal à k, - calculation of the distance Dppc (C, p) of the center of gravity of a cluster C from the base to the nearest neighbor vector among the vectors of the cluster, p being a natural number greater than or equal to k,
- calcul de la distance distc (C, q) du vecteur requête q au centre de gravité du cluster C, - calculation of the distance distc (C, q) of the request vector q to the center of gravity of the cluster C,
- calcul de la somme distPc (C, q, p) des distances distc (C, q) et Dppc (C, p) , - calculation of the sum distPc (C, q, p) of the distances distc (C, q) and Dppc (C, p),
- calcul, sur l'ensemble des clusters C de la base, de la plus petite valeur distPc (C, q, p) , - calculation, on all the clusters C of the base, of the smallest value distPc (C, q, p),
- élimination des clusters C de la base dont la distance mindist (C, q) , qui est la plus petite distance entre le vecteur requête q et la sphère englobante du cluster C, est supérieure à la plus petite valeur distPc. - elimination of the clusters C from the base whose mindist distance (C, q), which is the smallest distance between the request vector q and the enclosing sphere of the cluster C, is greater than the smallest value distPc.
Inconvénients de l ' art antérieur Disadvantages of the Prior Art
Le problème à résoudre concerne le calcul d'une représentation vectorielle d'un document à contenu textuel ne se limitant pas à l'exploitation de ce contenu textuel uniquement, pour permettre un positionnement dans un espace multidimensionnel homogène par rapport au positionnement d'autre documents à contenu textuel. The problem to be solved concerns the calculation of a vector representation of a document with textual content not being limited to the use of this textual content only, to allow positioning in a homogeneous multidimensional space with respect to the positioning of other documents. with textual content.
Dans les solutions de l'art antérieur, chaque document fait l'objet d'un traitement sur la base de son propre contenu, pour calculer une représentation vectorielle qui fait ensuite l'objet de comparaison avec la représentation vectorielle d'autres documents, par des calculs de distance euclidienne dans un espace multidimensionnel commun. In the solutions of the prior art, each document is processed on the basis of its own content, in order to calculate a vector representation which is then the object of comparison with the vector representation of other documents, by Euclidean distance calculations in a common multidimensional space.
La plupart des documents analysés sont élaborés de manière indépendante, chaque rédacteur d'un document ayant son propre vocabulaire, ses propres biais cognitifs et son propre contexte thématique, ce qui se traduit par des contenus dont les termes constitutifs et la structuration ne sont pas harmonisés. Les traitements automatiques appliqués sur la base des indexations multidimensionnelles de l'art antérieur sont donc peu fiables et conduisent à des résultats très approximatifs voire erronés. Most of the documents analyzed are developed independently, each writer of a document having their own vocabulary, their own cognitive biases and their own thematic context, which results in content whose constituent terms and structure are not harmonized. . The automatic processing applied on the basis of the multidimensional indexations of the prior art are therefore unreliable and lead to very approximate or even erroneous results.
OBJET DE L' INVENTION OBJECT OF THE INVENTION
La présente invention, en s'appuyant sur le formalisme du plongement de mot, cherche donc, par calcul arithmétique sur des vecteurs, à établir au moins un vecteur représentatif d'un contenu textuel, ce vecteur ne faisant pas nécessairement partie des vecteurs associés à un mot-clé du champ lexical du document. Autrement dit, la présente invention propose d'indexer automatiquement, par des vecteurs qui peuvent être représentatifs de mots-clés, un document ou une collection de documents. Ces vecteurs et ces mots-clés sont représentatifs du contenu des documents sans correspondre précisément aux mots qu'ils contiennent. The present invention, based on the word embedding formalism, therefore seeks, by arithmetic calculation on vectors, to establish at least one vector representative of a textual content, this vector not necessarily forming part of the vectors associated with a keyword of the lexical field of the document. In other words, the present invention proposes to automatically index, by vectors which may be representative of keywords, a document or a collection of documents. These vectors and these keywords are representative of the content of the documents without precisely corresponding to the words they contain.
BREVE DESCRIPTION DE L' INVENTION BRIEF DESCRIPTION OF THE INVENTION
En vue de la réalisation de ce but, l'objet de l'invention propose selon son acception la plus générale un procédé d'indexation multidimensionnelle d'un contenu textuel numérique comportant : With a view to achieving this aim, the object of the invention provides, in its most general sense, a method for multidimensional indexing of digital textual content comprising:
Une première étape d'extraction des mots dudit contenu textuel pour constituer une table numérique de mots ; A first step of extracting words from said textual content to constitute a digital word table;
Une deuxième étape de filtrage consistant à supprimer de ladite table numérique de mots les mots non signifiants ; Une troisième étape consistant à vectoriser chacun des mots pour construire une table de vecteurs à partir d'un modèle vectoriel ; A second filtering step consisting in removing the non-significant words from said digital word table; A third step consisting in vectorizing each of the words in order to construct a vector table from a vector model;
Une quatrième étape de calcul d'un vecteur unique fonction des vecteurs de ladite table de vecteurs. A fourth step of calculating a single vector which is a function of the vectors of said vector table.
Selon l'invention, on procède en outre : à la constitution d'une table de vecteurs numériques voisins dudit vecteur unique ; According to the invention, the following is also carried out: the constitution of a table of neighboring digital vectors of said single vector;
au calcul d'une seconde représentation vectorielle du contenu textuel par combinaison des vecteurs voisins. the calculation of a second vector representation of the textual content by combining the neighboring vectors.
De manière préférée, la table de vecteurs numériques voisins dudit vecteur unique est établie par : Preferably, the table of neighboring digital vectors of said single vector is established by:
la constitution d'une première table de vecteurs numériques voisins dudit vecteur unique ; the constitution of a first table of digital vectors neighboring said single vector;
le calcul d'un ensemble de N-uplets de vecteurs par combinaisons desdits vecteurs de la première table ; calculating a set of N-tuples of vectors by combinations of said vectors from the first table;
au calcul, pour chacun desdits N-uplets de vecteurs, d'un vecteur nouveau unique pour former la table de vecteurs numériques voisins. calculating, for each of said N-tuples of vectors, a unique new vector to form the table of neighboring digital vectors.
Selon une variante de ce mode préféré, le procédé comporte une étape additionnelle de sélection d'au moins un vecteur, parmi les vecteurs nouveaux uniques, présentant la plus forte occurrence pour former une table de vecteurs numériques voisins. According to a variant of this preferred embodiment, the method comprises an additional step of selecting at least one vector, from among the new unique vectors, having the highest occurrence to form a table of neighboring digital vectors.
Selon une première variante, ladite table de vecteurs comporte en outre un indicateur Oi fonction du nombre d' occurrence du mot Mi associé au vecteur Vi, dans ledit contenu textuel. According to a first variant, said table of vectors further comprises an indicator Oi depending on the number of occurrences of the word Mi associated with the vector Vi, in said textual content.
Selon une deuxième variante, non exclusive de la précédente, ladite table de vecteurs comporte en outre un indicateur Fi fonction du nombre d'apparition du mot Mi associé au vecteur Vi, dans ledit modèle vectoriel. According to a second variant, not exclusive of the previous one, said table of vectors further comprises an indicator Fi depending on the number of appearances of the word Mi associated with the vector Vi, in said vector model.
Avantageusement, ladite quatrième étape de calcul d'un vecteur unique fonction des vecteurs de ladite table de vecteurs consiste à calculer la moyenne desdits vecteurs. De préférence, ladite quatrième étape de calcul d'un vecteur unique fonction des vecteurs de ladite table de vecteurs consiste à calculer le barycentre pondéré en fonction desdits indicateurs Oi et/ou Fi desdits vecteurs. Advantageously, said fourth step of calculating a single vector which is a function of the vectors of said table of vectors consists in calculating the average of said vectors. Preferably, said fourth step of calculating a single vector as a function of the vectors of said vector table consists in calculating the weighted barycenter as a function of said indicators Oi and / or Fi of said vectors.
Selon un mode de réalisation particulier, ladite deuxième étape de filtrage consiste supprimer de ladite table numérique de mots les mots du texte brut non compris dans le dictionnaire d'entrée du modèle vectoriel pour former le contenu textuel. According to a particular embodiment, said second filtering step consists of removing from said digital word table the words of the plain text not included in the input dictionary of the vector model to form the textual content.
Dans un exemple d'application particulier, le procédé comprend de plus les étapes suivantes : In a particular example of application, the method further comprises the following steps:
- identifier dans le modèle linguistique un premier nombre de vecteurs les plus proches du vecteur unique ; - identify in the linguistic model a first number of vectors closest to the single vector;
- identifier dans le modèle linguistique un second nombre de vecteurs les plus proches de la deuxième représentation vectorielle ; - identify in the linguistic model a second number of vectors closest to the second vector representation;
- retenir les vecteurs communs au premier et au deuxième nombre de vecteurs pour former au moins en partie une liste des vecteurs clés . - retain the vectors common to the first and to the second number of vectors to form at least in part a list of key vectors.
Avantageusement, la liste des vecteurs clés comprend également des vecteurs issus d'une analyse par graphe du contenu textuel. Advantageously, the list of key vectors also includes vectors resulting from a graph analysis of the textual content.
Selon un mode de réalisation particulier, les vecteurs clés de la liste des vecteurs clés sont associés à un degré de pertinence . According to a particular embodiment, the key vectors of the list of key vectors are associated with a degree of relevance.
Avantageusement, le degré de pertinence est une similarité cosinus entre le vecteur clé et le vecteur unique ou la deuxième représentation vectorielle. Advantageously, the degree of relevance is a cosine similarity between the key vector and the single vector or the second vector representation.
L' invention concerne aussi un procédé de regroupement de contenus textuels caractérisé en ce que l'on procède pour chacun desdits contenus textuels à une indexation multidimensionnelle susvisée et en ce que l'on associe un indicateur de regroupement aux contenus textuels dont les secondes représentations vectorielles présentent entre eux une distance euclidienne inférieure à une valeur seuil. The invention also relates to a method of grouping textual contents, characterized in that one proceeds for each one. of said textual contents with a above-mentioned multidimensional indexing and in that a grouping indicator is associated with the textual contents whose second vector representations have between them a Euclidean distance less than a threshold value.
L' invention concerne encore un procédé de recherche de contenus similaires à un document de référence caractérisé en ce que l'on procède pour une collection de contenus textuels ainsi que pour ledit document de référence à une indexation multidimensionnelle précitée et en ce que l'on recherche les contenus textuels dont la seconde représentation vectorielle associée est la plus proche de la seconde représentation vectorielle associée audit document de référence. The invention also relates to a method for searching for contents similar to a reference document, characterized in that for a collection of textual contents as well as for said reference document, the aforementioned multidimensional indexing is carried out and in that one proceeds. searches for the textual contents whose second associated vector representation is closest to the second vector representation associated with said reference document.
L' invention concerne aussi un procédé de représentation graphique du positionnement de documents à contenu textuel caractérisé en ce que l'on procède pour une collection de contenus textuels à une indexation multidimensionnelle susvisée et en ce que l'on affiche pour chacun desdits documents un symbole graphique, la distance entre les symboles graphiques de deux documents sur l'interface graphique étant une fonction de la distance euclidienne entre les secondes représentations vectorielles de chacun desdits documents. The invention also relates to a method of graphically representing the positioning of documents with textual content, characterized in that for a collection of textual content, the aforementioned multidimensional indexing is carried out and in that a symbol is displayed for each of said documents. graphic, the distance between the graphic symbols of two documents on the graphic interface being a function of the Euclidean distance between the second vector representations of each of said documents.
BREVE DESCRIPTION DES FIGURES BRIEF DESCRIPTION OF THE FIGURES
D'autres caractéristiques et avantages de l'invention ressortiront de la description détaillée de l'invention qui va suivre en référence aux figures annexées sur lesquels : Other characteristics and advantages of the invention will emerge from the detailed description of the invention which will follow with reference to the appended figures in which:
La figure 1 représente un environnement informatique permettant de mettre en œuvre un procédé d'extraction de mots-clés conforme à 1 ' invention ; La figure 2 représente le logigramme d'un procédé d'indexation conforme à l'invention. FIG. 1 represents a computer environment making it possible to implement a method for extracting keywords in accordance with the invention; FIG. 2 represents the flowchart of an indexing method in accordance with the invention.
DESCRIPTION DETAILLEE DE L'INVENTION DETAILED DESCRIPTION OF THE INVENTION
On a représenté sur la figure 1, un environnement informatique permettant de mettre en œuvre un procédé conforme à l'invention. There is shown in Figure 1, a computer environment for implementing a method according to the invention.
Une unité de traitement informatique 1 est configurée pour exécuter un programme informatique. Elle est reliée à des moyens de stockage de données 2 et connectée à un réseau informatique 3, par exemple le réseau Internet. L'unité de traitement informatique 1 dispose par ailleurs de toutes les interfaces d'entrée-sortie conventionnelles (écran, clavier, ports de communication,...) . A computer processing unit 1 is configured to execute a computer program. It is connected to data storage means 2 and connected to a computer network 3, for example the Internet network. The computer processing unit 1 also has all the conventional input-output interfaces (screen, keyboard, communication ports, etc.).
Ces moyens informatiques donnent notamment accès à des ressources documentaires 4, tels que des sites Web accessibles via le réseau 3 ou des fichiers de texte enregistrés dans les moyens de stockage 2. Ces ressources documentaires 4 constituent des textes bruts qui peuvent former des données d'entrée du procédé qui fait l'objet de la présente description. These computer resources provide in particular access to documentary resources 4, such as websites accessible via the network 3 or text files recorded in the storage means 2. These documentary resources 4 constitute raw texts which can form data of entry of the process which is the subject of the present description.
Modèle linguistique multidimensionnel Multidimensional linguistic model
On dispose également, par exemple enregistré dans les moyens de stockage 2 de l'environnement informatique de la figure 1, d'un modèle linguistique vectoriel 5 mettant respectivement en correspondance les mots d'un dictionnaire avec des vecteurs.There is also available, for example recorded in the storage means 2 of the computer environment of FIG. 1, of a vector linguistic model 5 corresponding respectively to the words of a dictionary with vectors.
Le modèle vectoriel vise à représenter documents et requêtes comme des vecteurs dans un espace à n dimensions. The vector model aims to represent documents and queries as vectors in an n-dimensional space.
Comme cela a été précisé en introduction, ce modèle linguistique qui peut se présenter sous la forme d'une simple table de donnée mots - vecteurs, associe des mots linguistiquement proches à des vecteurs également proches dans l'espace multidimensionnel dans lequel ces vecteurs sont définis. La dimension de l'espace vectoriel de définition des vecteurs peut être très importante, typiquement de plusieurs centaines. La mesure de proximité de deux vecteurs dans cet espace peut être déterminée par une mesure de similarité de ces deux vecteurs, par exemple la mesure de similarité cosinus. As was specified in the introduction, this linguistic model, which can be in the form of a simple data table words - vectors, associates linguistically close words with equally close vectors in the multidimensional space in which these vectors are defined. The dimension of the vector space for defining vectors can be very large, typically several hundred. The measure of proximity of two vectors in this space can be determined by a measure of similarity of these two vectors, for example the measure of cosine similarity.
Le modèle linguistique vectoriel 5 peut être un modèle préexistant et accessible publiquement. Mais avantageusement, lorsque le procédé d'extraction de mots-clés vise un domaine d'application spécifique, le modèle linguistique vectoriel 5 a été préalablement élaboré à partir d'un corpus de documents de ce domaine d'application. On pourra se référer au document de la littérature citée en introduction de cette demande pour obtenir le détail d'implémentation permettant de constituer, par apprentissage, un tel modèle linguistique vectoriel à partir d'un corpus de documents choisis. The vector linguistic model 5 may be a pre-existing model which is publicly accessible. But advantageously, when the method of extracting keywords targets a specific field of application, the vector linguistic model 5 has been previously developed from a corpus of documents of this field of application. Reference may be made to the document of the literature cited in the introduction to this application to obtain the details of the implementation making it possible to constitute, by learning, such a vector linguistic model from a corpus of selected documents.
Extraction des mots Word extraction
Dans une étape préliminaire du procédé d'extraction, on fournit un texte brut 4 que l'on prépare pour former un contenu textuel 6 exploitable de type table numérique de mots [Mi ; M2 ; ... ; Mi] , dont le format et le contenu sont adaptés à son futur traitement. Cette étape de fourniture peut être mise en œuvre par un module logiciel d'extraction enregistré dans les moyens de stockage 2 et s'exécutant sur l'unité de traitement 1. Ce module accède au texte brut 4 à partir par exemple d'adresse Web ou de chemins d'accès aux moyens de stockages 2 qui lui sont fournis. Ce module peut consister ou comprendre un robot d' indexation (« web crawler », selon la terminologie anglo-saxonne usuelle dans ce domaine) qui explore automatiquement le réseau pour collecter des ressources documentaires 4 d'intérêt. Le texte brut 4 est préparé, au cours d'une étape de filtrage opérée par le module logiciel d'extraction, par des opérations classiques d'élimination de mots non signifiants tels que les conjonctions de coordination, par lemmatisation, ou par toute autre opération permettant d'établir un contenu textuel ne comportant que des mots connus du modèle linguistique 5. In a preliminary step of the extraction process, a raw text 4 is provided which is prepared to form an exploitable textual content 6 of the digital word table type [Mi; M2; ...; Mi], the format and content of which are suitable for its future processing. This supply step can be implemented by an extraction software module recorded in the storage means 2 and executed on the processing unit 1. This module accesses the plain text 4 from for example a Web address or access paths to the storage means 2 which are provided to it. This module can consist or include an indexing robot ("web crawler", according to the English terminology usual in this field) which automatically explores the network to collect documentary resources 4 of interest. The plain text 4 is prepared, during a filtering step operated by the extraction software module, by conventional operations of eliminating non-significant words such as coordination conjunctions, by lemmatization, or by any other operation making it possible to establish textual content comprising only words known to the linguistic model 5.
Généralement, le dictionnaire de mots formant l'entrée du modèle linguistique 5 est établi dans une langue déterminée, ce qui ne permet pas de traiter des textes bruts exprimés dans d' autres langues. Pour traiter cette situation de textes bruts en langue étrangère, l'invention prévoit une étape de traduction. Cette étape de traduction s'appuie sur une pluralité de modèles de traduction vectoriels, un par langue que l'on souhaite traiter. Chaque modèle de traduction est similaire au modèle linguistique vectoriel 5, et associe un mot à un vecteur dans un espace multidimensionnel, par exemple par l'intermédiaire d'une table de mise en correspondance. Les modèles de traduction et le modèle linguistique sont cohérents entre eux, c'est-à-dire que deux mots identiques dans des langues différents sont respectivement reliés à des vecteurs identiques ou très proches. Il existe de nombreux modèles de traduction préexistants et librement disponibles. Pour traiter un texte brut en langue étrangère, on emploie le modèle de traduction correspondant à cette langue pour transformer tous les mots en vecteurs, puis on applique le modèle linguistique pour effectuer la transformation inverse, i.e. transformer les vecteurs en mots. On peut de la sorte revenir à un texte brut qui s'exprime dans la langue du modèle linguistique, et on peut y appliquer les traitements préliminaires permettant de fournir le contenu textuel. Generally, the dictionary of words forming the entry of the linguistic model 5 is established in a determined language, which does not make it possible to process raw texts expressed in other languages. To deal with this situation of raw texts in a foreign language, the invention provides for a translation step. This translation step is based on a plurality of vector translation models, one for each language that is to be processed. Each translation model is similar to the vector linguistic model 5, and associates a word with a vector in a multidimensional space, for example by means of a mapping table. The translation models and the linguistic model are consistent with each other, that is to say that two identical words in different languages are respectively linked to identical or very close vectors. There are many pre-existing and freely available translation templates. To process a plain text in a foreign language, we use the translation model corresponding to this language to transform all the words into vectors, then we apply the linguistic model to perform the inverse transformation, i.e. transforming the vectors into words. We can in this way return to a plain text which is expressed in the language of the linguistic model, and we can apply to it the preliminary processing making it possible to provide the textual content.
On dispose donc, à l'issue de cette étape préliminaire, de données exploitables 6, désignées par « contenu textuel » dans la suite de cette description, qui peut se présenter sous la forme d'une chaine ou table numérique de mots uniques Mi enregistrés dans les moyens de stockage 2, et dont le format et le contenu sont réguliers. Le contenu textuel 6 associé à un texte brut 4 peut être composé d'un grand nombre de mots, plusieurs centaines, voire plusieurs milliers. Le contenu textuel 6 associé à un texte brut d'origine peut donc être traité de manière systématique par les étapes suivantes du procédé. We therefore have, at the end of this preliminary step, usable data 6, designated by “textual content” in the remainder of this description, which may be in the form of a string or digital table of unique words Mi recorded in the storage means 2, and whose format and content are regular. The textual content 6 associated with a plain text 4 can be composed of a large number of words, several hundred or even several thousand. The textual content 6 associated with an original plain text can therefore be systematically processed by the following steps of the method.
L'étape préliminaire mise en œuvre par le module d'extraction peut effectuer d'autres opérations sur le texte brut 4 d'origine, comme par exemple déterminer le coefficient numérique de TF-IDF (« term frequency-inverse document frequency » ou Fréquence d'un Terme - Fréquence inverse de document) des mots composant le contenu textuel. Ce coefficient, dont le calcul est bien connu dans le domaine, vise à mesurer numériquement l'importance d'un mot dans un document. Ces coefficients peuvent être enregistrés conjointement avec les mots extraits du texte brut 4 traité, sous la forme d'une structure de données adéquate constituant le contenu textuel 6. The preliminary step implemented by the extraction module can perform other operations on the original plain text 4, such as for example determining the numerical coefficient of TF-IDF ("term frequency-inverse document frequency" or of a Term - Reverse document frequency) of the words composing the textual content. This coefficient, the calculation of which is well known in the field, aims to numerically measure the importance of a word in a document. These coefficients can be recorded together with the words extracted from the processed raw text 4, in the form of an adequate data structure constituting the textual content 6.
Les facteurs TF et IDF permettent de considérer les pondérations locales et globales d'un terme. On distingue la fréquence d'apparition d'un terme dans un document (term frequency, TF) et la fréquence d' apparition de ce même terme dans toute la collection considérée (inverse document frequency, IDF) . La mesure TF*IDF permet d' approximer la représentativité d'un terme dans un document, surtout dans les corpus de documents de tailles homogènes . The factors TF and IDF make it possible to consider the local and global weights of a term. A distinction is made between the frequency of occurrence of a term in a document (term frequency, TF) and the frequency of occurrence of this same term in the entire collection considered (inverse document frequency, IDF). The TF * IDF measure makes it possible to approximate the representativeness of a term in a document, especially in corpus of documents of homogeneous sizes.
L'étape d'extraction aboutit à une table de mots Mi associés optionnellement à un indicateur d'occurrence Oi fonction du nombre d'occurrences du mot Mi considéré dans le document origine ainsi qu'à un indicateur de fréquence Fi fonction de la fréquence d'apparition du mot Mi considéré dans le corpus constituant le modèle vectoriel 5. The extraction step results in a table of words Mi optionally associated with an occurrence indicator Oi as a function of the number of occurrences of the word Mi considered in the original document, as well as a frequency indicator Fi as a function of the frequency appearance of the word Mi considered in the corpus constituting the vector model 5.
Dans une étape suivante du procédé d'extraction, on cherche à établir une première représentation VU du contenu textuel 6. Pour cela, on détermine le vecteur V± correspondant à chaque mot unique Mi composant le contenu textuel 6 à l'aide du modèle linguistique vectoriel 5. Puis, on combine ensemble numériquement les vecteurs V± de mots pour former cette première représentation vectorielle VU du contenu textuel 6. In a following step of the extraction method, an attempt is made to establish a first representation VU of the textual content 6. For this, the vector V ± corresponding to each unique word Mi composing the textual content 6 is determined using the linguistic model vector 5. Then, the word vectors V ± are combined together numerically to form this first vector representation VU of the textual content 6.
La combinaison peut correspondre à une simple moyenne, mais préférablement cette combinaison numérique est un calcul de barycentre pour lequel on pondère chaque vecteur V± de mot Mi d'une mesure d'importance du mot correspondant, par exemple Cy et/ou Fi, c'est à dire les coefficients numériques de TF et/ou IDF de ce mot Mi dans le texte brut 4, qui a pu être établi par le module logiciel d'extraction au cours de l'étape préliminaire du procédé. The combination can correspond to a simple average, but preferably this numerical combination is a barycenter calculation for which each vector V ± of word Mi is weighted by a measure of importance of the corresponding word, for example Cy and / or Fi, c 'ie the digital coefficients of TF and / or IDF of this word Mi in the plain text 4, which could be established by the extraction software module during the preliminary step of the method.
À l'issue de cette étape, on dispose donc d'un premier vecteur unique VU représentatif du contenu textuel 6 traité. At the end of this step, there is therefore a first single vector VU representative of the textual content 6 processed.
On note que ce premier vecteur unique VU, calculé numériquement, ne correspond pas nécessairement à un mot existant dans le modèle linguistique, mais il découle toutefois très directement des mots du contenu textuel 6. It is noted that this first unique vector VU, calculated numerically, does not necessarily correspond to an existing word in the linguistic model, but it nevertheless follows very directly from the words of the textual content 6.
Pour tenter de se détacher du champ lexical précisément employé dans le texte brut 4 et qui se retrouve dans le contenu textuel 6, un procédé conforme à la présente description prévoit plusieurs étapes complémentaires cherchant à fournir une seconde représentation vectorielle VUaiPha du contenu textuel, qui s'affranchisse justement des mots extraits du contenu textuel 6. Enrichissement de la représentation vectorielle In order to try to break away from the lexical field precisely used in the plain text 4 and which is found in the textual content 6, a method conforming to the present description provides several additional steps seeking to provide a second vector representation VU aiP ha of the textual content, which is precisely freed from words extracted from textual content 6. Enrichment of the vector representation
Ainsi, au cours d'une nouvelle étape du procédé, on établit une liste de vecteurs voisins VVj de la première représentation vectorielle VU. Thus, during a new step of the method, a list of neighboring vectors VV j of the first vector representation VU is established.
On peut s'appuyer pour cela sur le modèle linguistique vectoriel 5, en établissant par exemple un coefficient de similarité entre le premier vecteur unique représentatif VU et chaque vecteur composant ce modèle 5. Comme on l'a vu, ce coefficient de similarité peut être calculé pratiquement comme une mesure de similarité cosinus. Cela permet de déterminer très aisément la liste de vecteurs de ce modèle 5 situés dans un voisinage du premier vecteur représentatif VU, c'est-à-dire dont le degré de similarité est inférieur à un seuil prédéterminé. Alternativement cette liste de vecteurs peut présenter une taille prédéterminée, et dans ce cas on choisit les vecteurs voisins VVj comme les vecteurs du modèle 5 dont les degrés de similarité avec le premier vecteur représentatif VU sont les plus faibles. For this, we can rely on the vector linguistic model 5, for example by establishing a similarity coefficient between the first unique representative vector VU and each vector composing this model 5. As we have seen, this similarity coefficient can be calculated practically as a measure of cosine similarity. This makes it possible to very easily determine the list of vectors of this model 5 located in a neighborhood of the first representative vector VU, that is to say whose degree of similarity is less than a predetermined threshold. Alternatively, this list of vectors can have a predetermined size, and in this case the neighboring vectors VV j are chosen as the vectors of the model 5 whose degrees of similarity with the first representative vector VU are the lowest.
Il existe de nombreuses autres manières permettant d'établir cette liste. Dans un exemple avantageux, on forme dans un premier temps une première liste de N vecteurs du modèle linguistique 5 les plus proches du premier vecteur représentatif VU. Pour chacun des vecteurs de la première liste, on recherche à nouveau les M vecteurs les plus proches dans le modèle linguistique 5, et on forme une seconde liste qui réunisse ces N*M vecteurs. N et M peuvent par exemple être compris entre 5 et 20, typiquement 10 On collecte de la sorte, dans la seconde liste, les vecteurs présents dans le voisinage du voisinage du premier vecteur représentatif VU, et on s'assure de capturer une grande variété de vecteurs et donc de se détacher du contenu textuel 6 ou du texte brut 4 d'origine. On pourrait d'ailleurs prévoir de poursuivre un plus grand nombre de fois cette récurrence pour diversifier encore plus la seconde liste des vecteurs ou d'appliquer d'autres approches, en complément au remplacement de celle qui sont proposées, pour accroître encore cette diversité. There are many other ways to build this list. In an advantageous example, a first list of N vectors of the linguistic model 5 closest to the first representative vector VU is formed first. For each of the vectors of the first list, we search again for the M closest vectors in the linguistic model 5, and we form a second list which brings together these N * M vectors. N and M can for example be between 5 and 20, typically 10 We collect in this way, in the second list, the vectors present in the neighborhood of the neighborhood of the first representative vector VU, and we make sure to capture a large variety vectors and therefore to be detached from the textual content 6 or from the original plain text 4. It could moreover be provided to continue this recurrence a greater number of times in order to further diversify the second list of vectors or to apply other approaches, in addition to the replacement of that which are proposed, to further increase this diversity.
La seconde liste de vecteurs peut présenter une taille particulièrement importante, et comporter des vecteurs insignifiants. Aussi, la liste des vecteurs voisins VVj de la première représentation vectorielle VU qui est établie au cours de cet exemple ne correspond pas exactement, dans un mode préféré de mise en œuvre du procédé, à la seconde liste. La liste des vecteurs voisins VVj de la première représentation vectorielle VU est préférentiellement établie en choisissant dans la seconde liste le groupe de vecteurs ayant la plus grande occurrence. On peut ainsi choisir, et à titre d'exemple, 5 à 10 vecteurs pour former la liste des vecteurs voisins VVj du premier vecteur représentatif VU d'un contenu textuel 6. The second list of vectors may have a particularly large size, and include insignificant vectors. Also, the list of neighboring vectors VV j of the first vector representation VU which is established during this example does not correspond exactly, in a preferred mode of implementation of the method, to the second list. The list of neighboring vectors VV j of the first vector representation VU is preferably established by choosing from the second list the group of vectors having the greatest occurrence. It is thus possible to choose, and by way of example, 5 to 10 vectors to form the list of neighboring vectors VV j of the first representative vector VU of a textual content 6.
Dans un autre exemple avantageux pour former une table de vecteurs voisins VVj, on forme dans un premier temps, et tout comme dans l'exemple précédent, une première table de vecteurs du modèle linguistique 5 les plus proches du premier vecteur représentatif VU. On calcule ensuite des combinaisons de vecteurs de la première table pour former des N-uplets de N vecteurs VVjaiPha de la première table, dont on calcule, pour chaque N-uplet, la moyenne ou barycentre sous la forme d'un vecteur nouveau unique VNaiPha. Il peut ainsi s'agir de déterminer tous les N-uplets possibles dans cette première liste ou une partie de ceux-ci uniquement. On désigne par K le nombre de N- uplets déterminés et donc de vecteurs nouveaux uniques VNaiPha déterminés. Pour chacun des vecteurs VNaiPha, on recherche à nouveau les M vecteurs les plus proches dans le modèle linguistique 5, et on forme une seconde liste qui réunisse ces K*M vecteurs. On collecte de la sorte une grande variété de vecteurs. Tout comme dans l'exemple précédent, la liste des vecteurs voisins VVj de la première représentation vectorielle VU est préférentiellement établie en choisissant dans la seconde liste le groupe de vecteurs ayant la plus grande occurrence. On peut ainsi choisir, et à titre d'exemple, 5 à 10 vecteurs pour former la liste des vecteurs voisins VVj du premier vecteur représentatif VU d'un contenu textuel 6. In another advantageous example for forming a table of neighboring vectors VV j , a first table of vectors of the linguistic model 5 closest to the first representative vector VU is formed first, and just like in the previous example. We then calculate combinations of vectors from the first table to form N-tuples of N vectors VV jaiPha from the first table, of which we calculate, for each N-tuple, the mean or barycenter in the form of a unique new vector VN aiPha. It may thus be a matter of determining all the possible N-tuples in this first list or only part of them. We denote by K the number of determined N-tuples and therefore of determined new unique vectors VN aiPha . For each of the vectors VN aiPha , we search again for the M closest vectors in linguistic model 5, and we form a second list which brings together these K * M vectors. A large variety of vectors are thus collected. As in the previous example, the list of neighboring vectors VV j of the first vector representation VU is preferably established by choosing from the second list the group of vectors having the largest occurrence. It is thus possible to choose, and by way of example, 5 to 10 vectors to form the list of neighboring vectors VV j of the first representative vector VU of a textual content 6.
Quelle que soit la méthode choisie pour élaborer la liste des vecteurs voisins VVj, on peut alors combiner numériquement entre eux les vecteurs formant cette liste, par exemple à l'aide d'une simple moyenne, pour établir une seconde représentation vectorielle sous la forme d'un second vecteur unique représentatif VUaiPha du contenu textuel. Whatever method is chosen to develop the list of neighboring vectors VV j , the vectors forming this list can then be combined numerically with each other, for example using a simple average, to establish a second vector representation in the form of a second unique vector representative VU aiPha of the textual content.
Ce vecteur VUaiPha, tout comme la première représentation vectorielle VU, ne correspond pas nécessairement à un mot du dictionnaire d'entrée du modèle linguistique vectoriel 5. Aussi, dans un exemple d'application, pour établir au moins un mot-clé à partir de ces vecteurs représentatifs VU, VUaiPha, il est donc nécessaire de les projeter dans le référentiel défini par le modèle linguistique vectoriel 5 en vue d'obtenir au moins un vecteur représentatif associé dans ce modèle à au moins un mot du dictionnaire d'entrée. Ce ou ces mots formera le mot-clé extrait du contenu textuel 6, qui en est représentatif et qui peut permettre, par exemple, de l'indexer. This vector VU aiPha , just like the first vector representation VU, does not necessarily correspond to a word from the input dictionary of the vector linguistic model 5. Also, in an example application, to establish at least one keyword from of these representative vectors VU, VU aiPha , it is therefore necessary to project them into the frame of reference defined by the vector linguistic model 5 in order to obtain at least one representative vector associated in this model with at least one word from the input dictionary . This or these words will form the keyword extracted from the textual content 6, which is representative thereof and which can make it possible, for example, to index it.
Extraction de vecteurs et mots clés Vector and keyword extraction
A cet effet, le procédé peut comprendre une étape additionnelle visant à former une liste de vecteurs-clés, contenue dans le modèle linguistique vectoriel 5, cette liste de vecteurs-clés comprenant des vecteurs proches de la première et de la deuxième représentation VU, VUaiPha· To this end, the method can comprise an additional step aimed at forming a list of key vectors, contained in the vector linguistic model 5, this list of key vectors comprising vectors close to the first and second representations VU, VU aiPha
Pour cela, on peut par exemple identifier respectivement dans le modèle linguistique vectoriel 5, un premier nombre et un deuxième nombre de vecteurs les plus proches de la première représentation VU et de la deuxième représentation VUaiPha· À nouveau, on pourra faire usage dans ce traitement du calcul de proximité par similarité cosinus. Puis on retient les vecteurs communs à ce premier et second nombre de vecteurs, c'est-à-dire que l'on prend 1 ' intersection de ces deux ensembles pour former au moins en partie la liste des vecteurs-clés. Le premier et le deuxième nombre de vecteurs peuvent être choisis assez librement, par exemple entre 10 et 200. For this, we can for example identify respectively in the vector linguistic model 5, a first number and a second number of vectors closest to the first representation VU and the second representation VU aiPha Again, we can make use in this processing of proximity calculation by cosine similarity. Then the vectors common to this first and second number of vectors are retained, that is to say that the intersection of these two sets is taken to form at least in part the list of key vectors. The first and second number of vectors can be chosen quite freely, for example between 10 and 200.
Dans une étape suivante du procédé, on peut transformer cette liste de vecteurs clés, ou une partie de celle-ci, en une liste de mots-clés, en s'appuyant sur le modèle linguistique vectoriel 5. Cette liste peut ainsi former les mots-clés indexant le contenu textuel qui vient d'être traité. In a following step of the method, this list of key vectors, or part of it, can be transformed into a list of key words, by relying on the vector linguistic model 5. This list can thus form the words -keys indexing the textual content which has just been processed.
De préférence toutefois, on préférera fournir un nombre plus limité de mots-clés que le nombre de vecteurs composant la liste de vecteurs-clés. Le procédé comprend alors une étape de sélection d'au moins un vecteur-clé dans la liste. Pour opérer cette sélection, on peut ordonner les vecteurs-clés par ordre décroissant de proximité avec les premier et deuxième vecteurs représentatifs VU et VUaiPha. La sélection consiste alors à prendre en tout premier lieu les vecteurs-clés présentant la plus grande proximité. On s'assure de la sorte de la pertinence des mots-clés choisis. En d'autres termes, on choisit au moins un vecteur clé dans la liste des vecteurs clés et on établit au moins un mot-clé représentatif du contenu textuel 6 en déterminant, à l'aide du modèle linguistique, le (s) mot (s) - clé (s) correspondant au (x) vecteur ( s ) -clé ( s ) choisi (s) . Preferably, however, it will be preferable to provide a more limited number of keywords than the number of vectors making up the list of key vectors. The method then comprises a step of selecting at least one key vector from the list. In order to carry out this selection, the key vectors can be ordered in decreasing order of proximity to the first and second representative vectors VU and VU aiPha . The selection then consists in taking first of all the key vectors having the closest proximity. This ensures the relevance of the keywords chosen. In other words, we choose at least one key vector from the list of key vectors and we establish at least one key word representative of the textual content 6 in determining, using the linguistic model, the key word (s) corresponding to the chosen key vector (s).
La liste de vecteurs-clés peut être complétée par d'autres méthodes, de manière à ce que la sélection soit le plus riche possible. Par exemple, la liste des mots-clés peut être augmentée des mots-clés issus d'une analyse par graphe du contenu textuel 6, comme cela a été présenté en introduction de la demande. The list of key vectors can be completed by other methods, so that the selection is as rich as possible. For example, the list of keywords can be increased by keywords resulting from a graphical analysis of the textual content 6, as was presented at the introduction of the request.
Un procédé conforme à la présente description peut trouver de nombreuses autres applications. A method in accordance with the present description can find many other applications.
Il peut par exemple s'appliquer au regroupement de contenus textuel. Dans cet exemple, on applique le procédé d'indexation multidimensionnelle qui vient d'être présenté à des contenus textuels disponibles, et l'on associe un indicateur de regroupement R aux contenus dont les secondes représentations vectorielles VUaiPha présentent entre elles une distance euclidienne inférieure à une valeur seuil D, qui peut être prédéterminée . It can for example be applied to the grouping of textual content. In this example, the multidimensional indexing method which has just been presented is applied to available textual contents, and a grouping indicator R is associated with the contents of which the second vector representations VU aiP ha have a Euclidean distance between them less than a threshold value D, which can be predetermined.
Il peut également s'appliquer à la recherche de contenus similaires à un document de référence. On procède alors pour une collection de contenus textuels ainsi que pour ledit document de référence à l'indexation multidimensionnelle précitée et l'on recherche les contenus textuels dont la seconde représentation vectorielle VUaiPha associée est la plus proche du vecteur unique associé audit document de référence. It can also be applied to the search for content similar to a reference document. For a collection of textual contents as well as for said reference document, the aforementioned multidimensional indexing is then carried out and the textual contents of which the associated second vector representation VU aiP ha is closest to the single vector associated with said reference document is sought. reference.
Dans un autre exemple d'application, on peut former une représentation graphique du positionnement de documents à contenu textuel. On procède pour une collection de documents à contenus textuels à l'indexation multidimensionnelle susvisée et l'on affiche pour chacun desdits documents un symbole graphique, la distance entre les symboles graphiques de deux documents sur l'interface graphique étant une fonction de la distance, par exemple euclidienne, ou la similarité entre les secondes représentations vectorielles VUaiPha de chacun desdits documents. In another example application, it is possible to form a graphic representation of the positioning of documents with textual content. For a collection of documents with textual content, the above-mentioned multidimensional indexing is carried out and a graphic symbol is displayed for each of said documents, the distance between the graphic symbols of two documents on the graphic interface being a function of the distance, for example Euclidean, or the similarity between the second vector representations VU aiP ha of each of said documents.
Bien entendu l'invention n'est pas limitée au mode de mise en œuvre décrit et on peut y apporter des variantes de réalisation sans sortir du cadre de l'invention tel que défini par les revendications . Of course, the invention is not limited to the embodiment described and variant embodiments can be provided without departing from the scope of the invention as defined by the claims.
Il est à noter que les procédés décrits ici ont vocation à être mis en œuvre par des instructions, stockées sur un support lisible par ordinateur, et exécutées par une machine, un appareil ou un dispositif d'exécution d'instructions, tel qu'un ordinateur, une machine basée sur ordinateur ou contenant un processeur . It should be noted that the methods described here are intended to be implemented by instructions, stored on a computer readable medium, and executed by a machine, an apparatus or a device for executing instructions, such as a computer. computer, a machine based on or containing a processor.

Claims

REVENDICATIONS
1. Procédé d'indexation multidimensionnelle d'un contenu textuel numérique, le procédé étant mis en œuvre par un dispositif d'exécution d'instructions, et comportant : 1. Method for multidimensional indexing of digital textual content, the method being implemented by a device for executing instructions, and comprising:
Une première étape d'extraction des mots dudit contenu textuel (6) pour constituer une table numérique de mots (M,) ; A first step of extracting words from said textual content (6) to constitute a digital table of words (M,);
Une deuxième étape de filtrage consistant à supprimer de ladite table numérique de mots (M±) les mots non signifiants ; A second filtering step consisting in deleting the non-significant words from said digital word table (M ±);
Une troisième étape consistant à vectoriser chacun des mots (Mi) pour construire une table de vecteurs (V±) à partir d'un modèle linguistique vectoriel (5) ; A third step consisting in vectorizing each of the words (Mi) to construct a table of vectors (V ±) from a vector linguistic model (5);
Une quatrième étape de calcul d'un vecteur unique (VU) fonction des vecteurs de ladite table de vecteurs (V±) , le vecteur unique formant une première représentation vectorielle VU du contenu textuel ; A fourth step of calculating a single vector (VU) as a function of the vectors of said vector table (V ±), the single vector forming a first vector representation VU of the textual content;
caractérisé en ce que l'on procède en outre : characterized in that one further proceeds:
à la constitution d'une table de vecteurs numériques voisins (VVj) dudit vecteur unique (VU) ; in the constitution of a table of neighboring digital vectors (VV j ) of said single vector (VU);
au calcul d'une seconde représentation vectorielle (VUaiPha) du contenu textuel par combinaison des vecteurs voisinsthe calculation of a second vector representation (VU aiPha ) of the textual content by combination of neighboring vectors
(Wj) . (Wj).
2. Procédé d'indexation multidimensionnelle d'un contenu textuel numérique selon la revendication 1 dans lequel la table de vecteurs numériques voisins (VVj) dudit vecteur unique (VU) est établie par : 2. A method of multidimensional indexing of a digital textual content according to claim 1, in which the table of neighboring digital vectors (VV j ) of said single vector (VU) is established by:
la constitution d'une première table de vecteurs numériques voisins dudit vecteur unique (VU) ; the constitution of a first table of digital vectors neighboring said single vector (VU);
le calcul d'un ensemble de N-uplets de vecteurs (VVjaiPha) par combinaisons desdits vecteurs de la première table ; au calcul, pour chacun desdits N-uplets de vecteurs (VV alpha) , d'un vecteur nouveau unique (VNaiPha) pour former la table de vecteurs numériques voisins (VVj) . calculating a set of N-vector tuple (VVj aiPha ) by combinations of said vectors from the first table; the calculation, for each of said N-vector tuple (VV alpha ), of a unique new vector (VN aiPha ) to form the table of neighboring digital vectors (VV j ).
3. Procédé d'indexation multidimensionnelle d'un contenu textuel numérique selon la revendication précédente caractérisé en ce qu'il comporte une étape additionnelle de sélection d'au moins un vecteur, parmi les vecteurs nouveaux uniques (VNaiPha) , présentant la plus forte occurrence pour former une table de vecteurs numériques voisins (VVj). 3. Method for multidimensional indexing of digital textual content according to the preceding claim, characterized in that it comprises an additional step of selecting at least one vector, from among the new unique vectors (VN aiPha ), exhibiting the strongest. occurrence to form a table of neighboring digital vectors (VV j ).
4. Procédé d'indexation multidimensionnelle d'un contenu textuel numérique selon l'une des revendications précédentes caractérisé en ce que ladite table de vecteurs (Vi) comporte en outre un indicateur d'occurrence (Cy) fonction du nombre d'occurrences du mot M± associé au vecteur Vi, dans ledit contenu textuel. 4. Method for multidimensional indexing of a digital textual content according to one of the preceding claims, characterized in that said vector table (Vi) further comprises an occurrence indicator (Cy) depending on the number of occurrences of the word. M ± associated with the vector Vi, in said textual content.
5. Procédé d'indexation multidimensionnelle d'un contenu textuel numérique selon l'une des revendications précédentes caractérisé en ce que ladite table de vecteurs (Vi) comporte en outre un indicateur de fréquence (Fi) fonction du nombre d'apparitions du mot Mi associé au vecteur Vi, dans le corpus constituant ledit modèle vectoriel (5) . 5. Method for multidimensional indexing of a digital textual content according to one of the preceding claims, characterized in that said vector table (Vi) further comprises a frequency indicator (Fi) depending on the number of appearances of the word Mi associated with the vector Vi, in the corpus constituting said vector model (5).
6. Procédé d'indexation multidimensionnelle d'un contenu textuel numérique selon l'une des revendications 1 à 3 caractérisé en ce que ladite quatrième étape de calcul d'un vecteur unique (VU) fonction des vecteurs de ladite table de vecteurs (Vi) consiste à calculer la moyenne desdits vecteurs (Vi) . 6. Method for multidimensional indexing of a digital textual content according to one of claims 1 to 3, characterized in that said fourth step of calculating a single vector (VU) depending on the vectors of said table of vectors (Vi) consists in calculating the average of said vectors (Vi).
7. Procédé d'indexation multidimensionnelle d'un contenu textuel numérique selon la revendication 4 ou 5 caractérisé en ce que ladite quatrième étape de calcul d'un vecteur unique (VU) fonction des vecteurs de ladite table de vecteurs (Vi) consiste à calculer le barycentre pondéré en fonction desdits indicateurs d'occurrence (Oi) et/ou de fréquence (Fi) desdits vecteurs (Vi) . 7. Method for multidimensional indexing of a digital textual content according to claim 4 or 5, characterized in that said fourth step of calculating a single vector (VU) as a function of the vectors of said table of vectors (Vi) consists in calculating the barycenter weighted according to said indicators of occurrence (Oi) and / or frequency (Fi) of said vectors (Vi).
8. Procédé d'indexation multidimensionnelle d'un contenu textuel numérique selon l'une des revendications précédentes dans lequel ladite deuxième étape de filtrage consiste à supprimer de ladite table numérique de mots (Mi) les mots du texte brut non compris dans le dictionnaire d'entrée du modèle vectoriel8. Method for multidimensional indexing of a digital textual content according to one of the preceding claims, in which said second filtering step consists in deleting from said digital word table (Mi) the words of the plain text not included in the dictionary d. input of the vector model
(5) pour former le contenu textuel (6) . (5) to form the textual content (6).
9. Procédé d'indexation multidimensionnelle d'un contenu textuel numérique selon l'une des revendications précédentes9. Method for multidimensional indexing of digital textual content according to one of the preceding claims.
.comprenant les étapes suivantes : .comprising the following steps:
- identifier dans le modèle linguistique (5) un premier nombre de vecteurs les plus proches du vecteur unique (VU) ; - identifying in the linguistic model (5) a first number of vectors closest to the single vector (VU);
- identifier dans le modèle linguistique un second nombre de vecteurs les plus proches de la seconde représentation vectorielle (VUaiPha) ; - identify in the linguistic model a second number of vectors closest to the second vector representation (VU aiPha );
- retenir les vecteurs communs au premier et au deuxième nombre de vecteurs pour former au moins en partie une liste des vecteurs clés. - retain the vectors common to the first and to the second number of vectors to form at least in part a list of key vectors.
10. Procédé d'indexation multidimensionnelle d'un contenu textuel numérique selon la revendication précédente dans lequel la liste des vecteurs clés comprend également des vecteurs issus d'une analyse par graphe du contenu textuel10. Method for multidimensional indexing of a digital textual content according to the preceding claim, in which the list of key vectors also comprises vectors resulting from a graph analysis of the textual content.
(6) . (6).
11. Procédé d'indexation multidimensionnelle d'un contenu textuel numérique selon l'une des deux revendications précédentes dans lequel les vecteurs clés de la liste des vecteurs clés sont associés à un degré de pertinence. 11. Method for multidimensional indexing of digital textual content according to one of the two preceding claims, in which the key vectors of the list of key vectors are associated with a degree of relevance.
12. Procédé d'indexation multidimensionnelle d'un contenu textuel numérique selon la revendication précédente, dans lequel le degré de pertinence est une similarité cosinus entre le vecteur clé et le vecteur unique (VU) ou la deuxième représentation vectorielle (VUaiPha) · 12. Method for multidimensional indexing of digital textual content according to the preceding claim, in which the degree of relevance is a cosine similarity between the key vector and the unique vector (VU) or the second vector representation (VU aiPha)
13. Procédé de regroupement de contenus textuels caractérisé en ce que l'on procède pour chacun desdits contenus textuels à une indexation multidimensionnelle selon l'une au moins des revendications 1 à 11 et en ce que l'on associe un indicateur de regroupement (R) aux contenus textuels dont les secondes représentations vectorielles (VUaiPha) présentent entre eux une distance euclidienne inférieure à une valeur seuil (D) . 13. A method of grouping textual contents characterized in that one proceeds for each of said textual contents to a multidimensional indexing according to at least one of claims 1 to 11 and in that one associates a grouping indicator (R ) to textual contents whose second vector representations (VU aiPha) have a Euclidean distance between them less than a threshold value (D).
14. Procédé de recherche de contenus similaires à un document de référence caractérisé en ce que l'on procède pour une collection de contenus textuels ainsi que pour ledit document de référence à une indexation multidimensionnelle selon l'une au moins des revendications 1 à 11 et en ce que l'on recherche les contenus textuels dont la seconde représentation vectorielle (VUaiPha) associée est la plus proche de la seconde représentation vectorielle (VUaiPha) associée audit document de référence . 14. Method of searching for content similar to a reference document, characterized in that for a collection of textual content as well as for said reference document, a multidimensional indexing according to at least one of claims 1 to 11 is carried out and in that a search is made for the textual contents of which the associated second vector representation (VU aiPha) is closest to the second vector representation (VU aiPha) associated with said reference document.
15. Procédé de représentation graphique du positionnement de documents à contenu textuel caractérisé en ce que l'on procède pour une collection de contenus textuels à une indexation multidimensionnelle selon l'une au moins des revendications 1 à 11 et en ce que l'on affiche pour chacun desdits documents un symbole graphique, la distance entre les symboles graphiques de deux documents sur l'interface graphique étant une fonction de la distance euclidienne entre les secondes représentations vectorielles (VUaiPha) de chacun desdits documents . 15. A method of graphically representing the positioning of documents with textual content, characterized in that, for a collection of textual content, one proceeds to a multidimensional indexing according to at least one of claims 1 to 11 and in that one displays for each of said documents a graphic symbol, the distance between the graphic symbols of two documents on the graphic interface being a function of the Euclidean distance between the second vector representations (VU aiPha) of each of said documents.
PCT/FR2020/050766 2019-05-15 2020-05-11 Method for multidimensional indexing of textual content WO2020229760A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FRFR1905077 2019-05-15
FR1905077A FR3096157A1 (en) 2019-05-15 2019-05-15 multidimensional textual content indexing process

Publications (1)

Publication Number Publication Date
WO2020229760A1 true WO2020229760A1 (en) 2020-11-19

Family

ID=67957046

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR2020/050766 WO2020229760A1 (en) 2019-05-15 2020-05-11 Method for multidimensional indexing of textual content

Country Status (2)

Country Link
FR (1) FR3096157A1 (en)
WO (1) WO2020229760A1 (en)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2835940A1 (en) 2002-02-08 2003-08-15 Thomson Licensing Sa Method for execution of nearest neighbor queries in database applications using a vector request of use in indexing of video sequences and images within a multimedia database
EP1828933A1 (en) 2004-12-02 2007-09-05 France Telecom Method and system for dynamic management of knowledge
EP2624149A2 (en) * 2012-02-02 2013-08-07 Xerox Corporation Document processing employing probabilistic topic modeling of documents represented as text words transformed to a continuous space
EP3118751A1 (en) 2015-07-13 2017-01-18 Pixalione Method of extracting keywords, device and corresponding computer program
US20180300295A1 (en) * 2017-04-14 2018-10-18 Digital Genius Limited Automated tagging of text

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2835940A1 (en) 2002-02-08 2003-08-15 Thomson Licensing Sa Method for execution of nearest neighbor queries in database applications using a vector request of use in indexing of video sequences and images within a multimedia database
EP1828933A1 (en) 2004-12-02 2007-09-05 France Telecom Method and system for dynamic management of knowledge
EP2624149A2 (en) * 2012-02-02 2013-08-07 Xerox Corporation Document processing employing probabilistic topic modeling of documents represented as text words transformed to a continuous space
EP3118751A1 (en) 2015-07-13 2017-01-18 Pixalione Method of extracting keywords, device and corresponding computer program
US20180300295A1 (en) * 2017-04-14 2018-10-18 Digital Genius Limited Automated tagging of text

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
JON EZEIZA ALVAREZ: "A review of word embedding and document similarity algorithms applied to academic text", 22 October 2017 (2017-10-22), XP055634328, Retrieved from the Internet <URL:https://pdfs.semanticscholar.org/0502/05c30069de7df8164f2e4a368e6fa2b804d9.pdf> [retrieved on 20191021] *
JULIAN BRENDL: "Keyword Based Document Retrieval via Document Embeddings", 15 June 2018 (2018-06-15), XP055634324, Retrieved from the Internet <URL:http://isl.anthropomatik.kit.edu/cmu-kit/downloads/julianbrendl_bachelorarbeit.pdf> [retrieved on 20191021] *
K. BEYERJ. GOLDSTEINR. RAMAKRISHNANU. SHAFT: "When is ''nearest neighbor'' meaningful ?", PROCEEDINGS OF THE 7TH INTERNATIONAL CONFÉRENCE ON DATABASE THEORY, January 1999 (1999-01-01), pages 217 - 235
R. WEBERH.-J. SCHEKS. BLOTT: "A quantitative analysis and performance study for similarity search methods in high-dimensional spaces", PROCEEDINGS OF THE 24TH INTERNATIONAL CONFÉRENCE ON VERY LARGE DATA BASES, August 1998 (1998-08-01), pages 194 - 205

Also Published As

Publication number Publication date
FR3096157A1 (en) 2020-11-20

Similar Documents

Publication Publication Date Title
CN104537116B (en) A kind of books searching method based on label
US10140366B2 (en) Finding data in connected corpuses using examples
Rui et al. Bipartite graph reinforcement model for web image annotation
US8280721B2 (en) Efficiently representing word sense probabilities
EP1364316A2 (en) Device for retrieving data from a knowledge-based text
US20120162244A1 (en) Image search color sketch filtering
EP2188744B1 (en) Installation for managing a database
EP3627353A1 (en) Method for refining the results of a search within a database
EP1733324A1 (en) Method for finding data, research engine and microprocessor therefor
FR2933793A1 (en) METHODS OF ENCODING AND DECODING, BY REFERENCING, VALUES IN A STRUCTURED DOCUMENT, AND ASSOCIATED SYSTEMS.
FR3043816B1 (en) METHOD FOR SUGGESTION OF CONTENT EXTRACTED FROM A SET OF INFORMATION SOURCES
Barbaresi Ad hoc and general-purpose corpus construction from web sources
EP3005171A1 (en) Method for searching a database
US20090132521A1 (en) Efficient Storage and Retrieval of Posting Lists
WO2020229760A1 (en) Method for multidimensional indexing of textual content
EP1334444A1 (en) Method for searching, selecting and mapping web pages
WO2013117872A1 (en) Method for identifying a set of sentences in a digital document, method for generating a digital document, and associated device
JP2011159100A (en) Successive similar document retrieval apparatus, successive similar document retrieval method and program
Ibekwe‐SanJuan Constructing and maintaining knowledge organization tools: a symbolic approach
Molková Indexing very large text data
FR2975553A1 (en) HELP IN SEARCHING VIDEOS CONTENT ON A COMMUNICATION NETWORK
Smits et al. Personal semantic indexation of images using textual annotations
FR3041125A1 (en) AUTOMATIC SYNTHESIS DOCUMENT GENERATOR AND SEARCH ENGINE USING THE SAME
Moscato et al. Mowis: A system for building multimedia ontologies from web information sources
Wu et al. Computational Social Science: Application in China Studies

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20740690

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: CONSTATATION DE LA PERTE D'UN DROIT CONFORMEMENT A LA REGLE 112(1) CBE (OEB FORM 1205A EN DATE DU 18/02/2022)

122 Ep: pct application non-entry in european phase

Ref document number: 20740690

Country of ref document: EP

Kind code of ref document: A1