WO2006035144A2 - Systeme et procede de construction automatique de bases de connaissance - Google Patents

Systeme et procede de construction automatique de bases de connaissance Download PDF

Info

Publication number
WO2006035144A2
WO2006035144A2 PCT/FR2005/002359 FR2005002359W WO2006035144A2 WO 2006035144 A2 WO2006035144 A2 WO 2006035144A2 FR 2005002359 W FR2005002359 W FR 2005002359W WO 2006035144 A2 WO2006035144 A2 WO 2006035144A2
Authority
WO
WIPO (PCT)
Prior art keywords
pattern
relevance
sentence
candidate
patterns
Prior art date
Application number
PCT/FR2005/002359
Other languages
English (en)
Other versions
WO2006035144A8 (fr
Inventor
Florence Duclaye
David Sadek
Franck Panaget
Original Assignee
France Telecom
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom filed Critical France Telecom
Publication of WO2006035144A2 publication Critical patent/WO2006035144A2/fr
Publication of WO2006035144A8 publication Critical patent/WO2006035144A8/fr

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis

Definitions

  • the present invention relates to a system and a method for automatically constructing a knowledge base relating to a focus determined from a body of documents.
  • a knowledge base is a structure and a set of data composed mainly of semantic relations between entities or concepts.
  • the triplet reads as the entity q of type "human being” is linked to the entity q ⁇ of type "date” by the relation ⁇ "is born”.
  • the knowledge base is used by an inference engine that traverses its relationships to answer questions about the domain covered by this knowledge base.
  • the object of the invention is therefore to propose a system and a method which makes it possible to simplify the creation of these knowledge bases.
  • the object of the invention is therefore a system of automatic construction, from a body of documents, of a knowledge base relating to a specific focus, characterized in that it comprises:
  • each class being associated with a knowledge model and each knowledge model with a set of extraction patterns
  • the set of classes has a base class from which the other classes are deduced by successive inheritance; a given class having at most one parent class from which it inherits the knowledge model and the extraction patterns and that it completes by an extension of the model and additional patterns that are specific to it;
  • each knowledge model comprises a set of relations, and each relation is linked to at least one extraction pattern making it possible to instantiate this relation;
  • the means for applying the extraction patterns to the document corpus comprise means for selecting the candidate sentences in these documents such that only the sentences containing the focus and the names and verbs of the pattern are selected;
  • the means for selecting the candidate sentences comprise means of preliminary selection of the documents by searching for keywords;
  • the means for applying the extraction patterns on the documents are able to apply each pattern to each candidate phase so that a term of a candidate sentence becomes a candidate for the extraction if the terms and categories specified in the pattern is present in the sentence and the terms to be extracted are from the syntactic category and, possibly, semantics required in the pattern;
  • the means for applying the extraction patterns furthermore comprise means for calculating the relevance of each candidate based on a measure of the relevance of the sentence and a measure of the relevance of the candidate term;
  • the measure of the relevance of the sentence takes into account the lexical relevance measured as the distance between the pattern and the sentence and the lexico-syntactical relevance such as the logarithm of the length of the longest subset of the pattern in the sentence;
  • the distance between the pattern and the sentence is measured as the cosine of the angle between the sentence and pattern vectors
  • the measure of the relevance of the term candidate takes into account the syntactic relevance measured by its syntactic category and its position in the sentence with respect to these same values in the pattern; the measure of the relevance of the term candidate further comprises a measure of its semantic category with respect to this same value in the pattern;
  • the term candidate used to instantiate the relation related to the extraction patterns considered is the one whose average of relevance is the highest.
  • Another object of the invention is also a method of automatic construction, from a body of documents, of a knowledge base relating to a determined focus characterized in that it comprises the steps of: - storage of a set of classes, each class being associated with a knowledge model and each knowledge model with a set of extraction patterns, then
  • the set of classes comprises a base class from which the other classes are deduced by successive inheritance; a given class having at most one parent class from which it inherits the model of knowledge and patterns of extraction and that it supplements with an extension of the model and additional patterns that are specific to it;
  • each knowledge model comprises a set of relations, and each relation is linked to at least one extraction pattern making it possible to instantiate this relation;
  • the step of applying the extraction patterns to the document corpus comprises a step of selecting the candidate sentences in these documents such that only the sentences containing the focus are selected;
  • the step of selecting the candidate sentences comprises a step of preliminary selection of the documents by searching for keywords;
  • the step of applying the extraction patterns applies each pattern to each candidate phase so that a term of a candidate sentence becomes a candidate for the extraction if the terms and categories specified in the pattern are present in the sentence and the terms to extract are from the syntactic category, and possibly semantics required in the pattern;
  • the step of applying the extraction patterns further includes a step of calculating the relevance of each candidate based on a measure of the relevance of the sentence and a measure of the relevance of the candidate term;
  • the measure of the relevance of the sentence takes into account the lexical relevance measured as the distance between the pattern and the sentence and the lexico-syntactical relevance such as the logarithm of the length of the longest subset of the pattern in the sentence;
  • the distance between the pattern and the sentence is measured as the cosine of the angle between the sentence and pattern vectors
  • the measure of the relevance of the term candidate takes into account the syntactic relevance measured by its syntactic category and its position in the sentence with respect to these same values in the pattern;
  • the measure of the relevance of the term candidate further comprises a measure of its semantic category with respect to this same value in the pattern
  • Another object of the invention is a software product recorded on a storage medium for the implementation by a computer acting as a dedicated equipment of the system and the method of automatic construction of a knowledge base.
  • FIG. 1 is a diagram of the system according to the invention.
  • FIG. 2 is a diagram of the organization of classes;
  • FIG. 3 is a diagram of the means for applying the extraction patterns.
  • FIG. 1 System 1 for automatic construction of a knowledge base is shown in FIG.
  • the knowledge base to build focuses on a focus 2, that is to say on a specific theme. For example, one may wish to build a knowledge base of a known personality, such as a singer. The focus of the knowledge base is then this singer. The focus is concretely as a word or a lexical expression representing a theme of knowledge. Since this person is a public figure, a lot of information exists and is available, for example on the Web.
  • So called document corpus all documents to which the system has access and which are used by it to extract and structure the information into a knowledge base.
  • This body of documents which can therefore be external or internal to the system, is represented in FIG. 1 in the form of a storage area 3.
  • the documents are of varied format but that, as part of the description which will follow, they are accessible by the system in a textual form.
  • the potential multimedia documents include a text field informative content as is well known from the state of the art.
  • the system further comprises storage means 4 of a set of classes, each class being associated with a knowledge model and each knowledge model being associated with a set of extraction patterns.
  • Classes are the elements of a typology grouping together individuals with common characteristics: we thus obtain a typology of classes of individuals.
  • Subclasses inherit the knowledge model from their parent class in the sense that the relations of the parent class knowledge model apply to the instances of the subclasses considered.
  • the subclasses have characteristics / relationships that are unique to them and thus enrich the knowledge model. This is illustrated in FIG. 2 with the knowledge model 16 of the "artist" class 12, which breaks down into a model 16A identical to the knowledge model 15 of the parent class 10 and a 16B extension specific to this class 12.
  • an "artist” class artist is a “human being” and therefore has a “born on” relationship, but he also has particular characteristics such as, for example, "created” relationships. With his artistic work.
  • Each knowledge model in each class also has extraction patterns or, more exactly, each relationship of each knowledge model has at least one extraction pattern whose structure and role are explained below.
  • T (Cn, ij, Cj2) corresponds a set of extraction patterns in which CM OR c i2 is instantiated by the focus and ⁇ is instantiated.
  • An extraction pattern is then a regular expression which, applied to a sentence in natural language, makes it possible to extract one or more terms of this sentence by anchoring one or more terms and / or their syntactic or even semantic category, defined explicitly.
  • the term (s) to be extracted is (are) identified by a specific marker.
  • the automatic system for creating knowledge bases therefore comprises at 4 this set of classes, each class being associated with a knowledge model and each knowledge model with a set of extraction patterns. .
  • the automatic system 1 also comprises selection means 5 able to select the membership classes of the focus. This selection is made by means of symbolic processing tools and statistics of the language.
  • a search algorithm for hyperonyms is applied.
  • a hyperonym is a word representing a general category of objects or classes (generic term) in relation to another word that is subordinate to it because it designates a particular object or class of that category (specific term) and this, in the context a hierarchical relationship oriented from the generic to the specific.
  • This algorithm for searching for hyperonyms consists first of all in using a search engine, for example on the Web, to find documents containing the focus used in expressions that can provide hyperonyms of the focus. Then, in a second step, each document is processed by a parser and a set of extraction patterns, previously manually designed and stored in the storage means 4, is applied. We thus obtain a set of candidates hyperonyms which are then filtered on the basis of statistical criteria. The selected candidates thus make it possible to assign to the focus one of the classes of the typology.
  • the automatic system 1 also comprises means 6 for loading in memory the knowledge model corresponding to the class identified.
  • this knowledge model includes the model (s) of the mother-classes completed by the characteristics
  • These loading means 6 also load the extraction patterns associated with this knowledge model in order to enable the instantiation of the knowledge model into a knowledge base relating to the focus.
  • the automatic system 1 then comprises application means 7 extraction patterns loaded on the body of documents able to instantiate the knowledge models loaded to generate the knowledge base.
  • FIG. 3 They comprise four modules which are linked together.
  • means 20 for selecting candidate sentences in the corpus are used.
  • the thematic corpus consists of a set of often voluminous sentences. This set has been constituted for example by requests from a search engine on the Web. Attempting to apply each extraction pattern on each sentence can become an extremely long process and the proportion of sentences on which the extraction fails is, in most cases, very large. That is why it is better to select beforehand a subset of sentences on which the patterns are likely to apply successfully.
  • the application means 21 of the extraction patterns on the candidate sentences make it possible to identify the candidate terms.
  • a term in a sentence becomes a candidate for extraction if:
  • This method of identifying candidates for extraction is a flexible method allowing insertions, omissions and inversions of terms in sentences. It makes it possible to obtain a set of extraction candidates for each of the extraction patterns.
  • a measure of relevance of the sentence taking into account: a) its lexical relevance by measuring the distance between the pattern and the sentence using the cosine of the angle between the sentence and pattern vectors.
  • a measure of relevance of the candidate taking into account: a) its syntactic relevance established according to its syntactic category and its position in the sentence with respect to these same values in the pattern; b) its semantic (optional) relevance established according to its semantic category with respect to this same value in the pattern.
  • a relevance is associated with each candidate for the extraction.
  • the means of choice 23 calculate the average of the relevance of each candidate extracted for the set of patterns associated with a semantic rule.
  • the best candidate is the one with the best average relevance.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

Ce système de construction automatique, à partir d'un corpus de documents, d'une base de connaissances portant sur un focus déterminé, est caractérisé en ce qu'il comporte des moyens (4) de stockage d'un ensemble de classes, chaque classe étant associée à un modèle de connaissances et chaque modèle de reconnaissance à un ensemble de patrons d'extraction, des moyens (5) de sélection d'au moins une classe d'appartenance du focus, connectés à des moyens (6) de chargement de la au moins une classe d'appartenance et des modèles et patrons associés, connectés à des moyens (7) d'application des patrons d'extraction chargés sur le corpus (3) de documents apte à instancier les modèles de connaissance chargés pour générer la base de connaissances.

Description

Système et procédé de construction automatique de bases de connaissance.
La présente invention concerne un système et un procédé de construction automatique d'une base de connaissances portant sur un focus déterminé à partir d'un corpus de documents.
On rappelle qu'une base de connaissances est une structure et un ensemble de données composées principalement de relations sémantiques entre des entités ou des concepts. Ces relations logiques peuvent s'écrire sous forme d'un triplet T = (Cj,η,cι<) dans lequel η qualifie la relation entre les entités q et Ck. A titre d'exemple, le triplet se lit comme l'entité q de type « être humain » est liée à l'entité q<de type « date » par la relation η « est né ».
Une fois construite, la base de connaissances est utilisée par un moteur d'inférence qui parcourt ses relations pour répondre à des questions portant sur le domaine couvert par cette base de connaissances.
Une des grandes difficultés actuelle rencontrée par les utilisateurs et développeurs de ces outils est la complexité et la lourdeur de la tâche de création de ces bases de connaissances.
Le but de l'invention est donc de proposer un système et un procédé qui permettent de simplifier la création de ces bases de connaissances.
L'objet de l'invention est donc un système de construction automatique, à partir d'un corpus de documents, d'une base de connaissances portant sur un focus déterminé, caractérisé en ce qu'il comporte :
- des moyens de stockage d'un ensemble de classes, chaque classe étant associée à un modèle de connaissances et chaque modèle de connaissances à un ensemble de patrons d'extraction, et
- des moyens de sélection d'au moins une classe d'appartenance du focus, connectés à
- des moyens de chargement de la au moins une classe d'appartenance et des modèles et patrons associés, connectés à
- des moyens d'application des patrons d'extraction chargés sur le corpus de documents apte à instancier les modèles de connaissance chargés pour générer la base de connaissances.
D'autres caractéristiques de l'invention sont : - l'ensemble des classes comporte une classe de base à partir de laquelle les autres classes sont déduites par héritage successif ; une classe donnée ayant au plus une classe mère dont elle hérite le modèle de connaissances et les patrons d'extraction et qu'elle complète par une extension du modèle et des patrons supplémentaires qui lui sont spécifiques ;
- chaque modèle de connaissances comporte un ensemble de relations, et chaque relation est reliée à au moins un patron d'extraction permettant d'instancier cette relation ;
- les moyens d'application des patrons d'extraction sur le corpus des documents comportent des moyens de sélection des phrases candidates dans ces documents tels que seules les phrases contenant le focus et les noms et verbes du patron sont sélectionnées ;
- les moyens de sélection des phrases candidates comportent des moyens de sélection préalables des documents par recherche de mots-clés ; - les moyens d'application des patrons d'extraction sur les documents sont aptes à appliquer chaque patron à chaque phase candidate de telle sorte qu'un terme d'une phrase candidate devient un candidat à l'extraction si les termes et catégories spécifiées dans le patron sont présents dans la phrase et les termes à extraire sont de la catégorie syntaxique et, éventuellement, sémantique requise dans le patron ;
- les moyens d'application des patrons d'extraction comportent en outre des moyens de calcul de la pertinence de chaque candidat basés sur une mesure de la pertinence de la phrase et une mesure de la pertinence du terme candidat ; - la mesure de la pertinence de Ia phrase prend en compte la pertinence lexicale mesurée comme la distance entre le patron et la phrase et la pertinence lexico-syntaxique comme le logarithme de la longueur du sous ensemble le plus long du patron dans la phrase ;
- la distance entre le patron et Ia phrase est mesurée comme le cosinus de l'angle entre les vecteurs phrase et patron ;
- la mesure de la pertinence du terme candidat prend en compte la pertinence syntaxique mesurée par sa catégorie syntaxique et sa position dans la phrase par rapport à ces mêmes valeurs dans le patron ; - la mesure de la pertinence du terme candidat comporte en outre une mesure de sa catégorie sémantique par rapport à cette même valeur dans le patron ; et
- le terme candidat utilisé pour instancier la relation reliée aux patrons d'extraction considérés est celui dont la moyenne des pertinences est la plus élevée.
Un autre objet de l'invention est également un procédé de construction automatique, à partir d'un corpus de documents, d'une base de connaissances portant sur un focus déterminé caractérisé en ce qu'il comporte les étapes de : - stockage d'un ensemble de classes, chaque classe étant associée à un modèle de connaissances et chaque modèle de connaissance à un ensemble de patrons d'extraction, puis
- sélection d'au moins une classe d'appartenance du focus,
- chargement de la au moins une classe d'appartenance et des modèles et patrons associés,
- application des patrons d'extraction chargés sur le corpus de documents apte à instancier les modèles de connaissance chargés pour générer la base de connaissances.
D'autres caractéristiques du procédé sont : - construction automatique à partir d'un corpus de documents, d'une base de connaissances portant sur un focus déterminé, comportant les étapes de :
- stockage d'un ensemble de classes, chaque classe étant associée à un modèle de connaissances et chaque modèle de connaissances à un ensemble de patrons d'extraction, puis
- sélection d'au moins une classe d'appartenance du focus,
- chargement de la au moins une classe d'appartenance et des modèles et patrons associés,
- application des patrons d'extraction chargés sur le corpus de documents apte à instancier les modèles de connaissance chargés pour générer la base de connaissances ;
- l'ensemble des classes comportent une classe de base à partir de laquelle les autres classes sont déduites par héritage successif ; une classe donnée ayant au plus une classe mère dont elle hérite le modèle de connaissances et les patrons d'extraction et qu'elle complète par une extension du modèle et des patrons supplémentaires qui lui sont spécifiques ;
- chaque modèle de connaissances comporte un ensemble de relations, et chaque relation est reliée à au moins un patron d'extraction permettant d'instancier cette relation ;
- l'étape d'application des patrons d'extraction sur le corpus de documents comporte une étape de sélection des phrases candidates dans ces documents tels que seules les phrases contenant le focus sont sélectionnées ; - l'étape de sélection des phrases candidates comporte une étape de sélection préalable des documents par recherche de mots-clés ;
- l'étape d'application des patrons d'extraction applique chaque patron à chaque phase candidate de telle sorte qu'un terme d'une phrase candidate devient un candidat à l'extraction si les termes et catégories spécifiées dans le patron sont présents dans la phrase et les termes à extraire sont de la catégorie syntaxique, et éventuellement, sémantique requise dans le patron ;
- l'étape d'application des patrons d'extraction comporte en outre une étape de calcul de la pertinence de chaque candidat basée sur une mesure de la pertinence de la phrase et une mesure de la pertinence du terme candidat ; - la mesure de la pertinence de la phrase prend en compte la pertinence lexicale mesurée comme la distance entre le patron et Ia phrase et la pertinence lexico-syntaxique comme le logarithme de la longueur du sous ensemble le plus long du patron dans la phrase ;
- la distance entre le patron et la phrase est mesurée comme le cosinus de l'angle entre les vecteurs phrase et patron ;
- la mesure de la pertinence du terme candidat prend en compte la pertinence syntaxique mesurée par sa catégorie syntaxique et sa position dans la phrase par rapport à ces mêmes valeurs dans le patron ;
- la mesure de la pertinence du terme candidat comporte en outre une mesure de sa catégorie sémantique par rapport à cette même valeur dans le patron ;
- le terme candidat utilisé pour instancier la relation reliée aux patrons d'extraction considérés est celui dont la moyenne des pertinences est la plus élevée ; et Un autre objet de l'invention est un produit logiciel enregistré sur un support de mémorisation pour la mise en oeuvre par un ordinateur faisant office d'équipement dédié du système et du procédé de construction automatique d'une base de connaissances. L'invention sera mieux comprise à la lumière de la description qui va suivre, donnée uniquement à titre d'exemple, et faisant référence aux dessins annexés dans lesquels :
- la figure 1 est un schéma du système selon l'invention ;
- la figure 2 est un schéma de l'organisation des classes ; - la figure 3 est un schéma des moyens d'application des patrons d'extraction.
Le système 1 de construction automatique d'une base de connaissances est représenté figure 1.
La base de connaissances à construire porte sur un focus 2, c'est-à- dire sur un thème déterminé. Par exemple, on peut souhaiter construire une base de connaissances portant sur une personnalité connue, comme un chanteur. Le focus de la base de connaissances est alors ce chanteur. Le focus se présente concrètement comme un mot ou une expression lexicale représentant un thème de connaissances. Cette personne étant un personnage public, un grand nombre d'informations existent et sont disponibles, par exemple sur le Web.
On appelle donc corpus de documents, l'ensemble des documents auxquels le système a accès et qui sont utilisés par celui-ci pour extraire et structurer l'information en une base de connaissances. Ce corpus de documents, qui peut donc être externe ou interne au système, est représenté figure 1 sous forme d'une zone de stockage 3. Il doit être noté que les documents sont de format varié mais que, au titre de la description qui va suivre, ils sont accessibles par le système sous une forme textuelle. Ainsi, les documents multimédias éventuels comportent un champ textuel informatif sur le contenu comme il est bien connu de l'état de la technique.
Le système comporte en outre des moyens de stockage 4 d'un ensemble de classes, chaque classe étant associée à un modèle de connaissances et chaque modèle de connaissances étant associé à un ensemble de patrons d'extraction. On appelle classes, les éléments d'une typologie regroupant des individus ayant des caractéristiques communes : on obtient ainsi une typologie de classes d'individus.
Cette notion s'appuie sur la constatation, aujourd'hui classique, qu'il est possible de créer des classifications d'éléments individuels en fonction de diverses caractéristiques. Cette taxinomie permet ainsi de définir une arborescence ou typologie, figure 2. Au niveau le plus général I, une classe de base est définie. Suivant les domaines, il est ainsi possible de créer une classe 10 « être humain », « monument » ou autre. Au niveau II suivant, les sous- classes définissent des sous-ensembles d'individus plus précis. Par exemple, dépendant de la classe « être humain » 10, une classe « artiste » 12 et une classe « scientifique » 13 sont définies. De même, à partir des classes définies au niveau II, il est possible de définir des sous-classes de niveau III et ainsi de suite. Dans notre exemple, la sous-classe 14, dépendant de la classe 12 « artiste », représente, par exemple, les « chanteurs ».
Comme indiqué ci-dessus, ce qui caractérise une classe donnée, outre son nom, c'est l'ensemble des propriétés de cette classe qui sont ici regroupées sous forme d'un modèle de connaissances, c'est-à-dire d'un ensemble de relations entre concepts communes à tous les individus appartenant à cette classe. Par exemple, pour la classe 10 « être humain », il existe une relation « né le » pour tous les individus de cette classe mettant en relation cet individu avec un concept « date ».
Les sous-classes héritent du modèle de connaissances de leur classe- mère dans le sens où les relations du modèle de connaissances de la classe- mère s'appliquent aux instances des sous-classes considérées. De plus, les sous-classes possèdent des caractéristiques / relations qui leur sont propres et qui enrichissent donc le modèle de connaissances. Ceci est illustré sur la figure 2 avec le modèle de connaissances 16 de la classe 12 « artiste » qui se décompose en un modèle 16A identique au modèle de connaissances 15 de la classe-mère 10 et une extension 16B spécifique à cette classe 12.
Pour reprendre l'exemple ci-dessus, un artiste de classe « artiste » est un « être humain » et possède donc une relation « né le », mais il a de plus des caractéristiques particulières comme, par exemple, des relations « a créé » avec son œuvre artistique. Chaque modèle de connaissances de chaque classe possède également des patrons d'extraction ou, plus exactement, chaque relation de chaque modèle de connaissances possède au moins un patron d'extraction dont la structure et le rôle sont explicités ci-après. On rappelle que dans le modèle de connaissances associé à une classe, on dispose d'un ensemble d'entités c-, et de relations sémantiques η entre ces entités. A chaque triplet T=(Cn, ij,Cj2) correspond un ensemble de patrons d'extraction dans lesquels CM OU ci2 est instancié par le focus et η est instanciée.
Un patron d'extraction est alors une expression régulière qui, appliquée à une phrase en langage naturel, permet d'extraire un ou plusieurs termes de cette phrase par ancrage d'un ou plusieurs termes et/ou leur catégorie syntaxique, voire sémantique, définis explicitement. Le(s) terme(s) à extraire est(sont) identifié(s) par un marqueur spécifique.
En se référant de nouveau à Ia figure 1 , le système automatique de création de bases de connaissances comporte donc en 4 cet ensemble de classes, chaque classe étant associée à un modèle de connaissances et chaque modèle de connaissances à un ensemble de patrons d'extractions.
Le système automatique 1 comporte également des moyens de sélection 5 aptes à sélectionner les classes d'appartenance du focus. Cette sélection est effectuée au moyen d'outils de traitement symboliques et statistiques de la langue. Afin de découvrir à quelle classe de la typologie le focus appartient, un algorithme de recherche d'hyperonymes est appliqué. On appelle hyperonyme un mot représentant une catégorie générale d'objets ou de classes (terme générique) par rapport à un autre mot qui lui est subordonné car désignant un objet ou une classe particulière de cette catégorie (terme spécifique) et cela, dans le cadre d'une relation hiérarchique orientée du générique vers le spécifique.
Cet algorithme de recherche d'hyperonymes consiste dans un premier temps à utiliser un moteur de recherche, par exemple sur le Web, pour trouver des documents contenant le focus employé dans des expressions susceptibles de fournir des hyperonymes du focus. Puis, dans un second temps, chaque document est traité par un analyseur syntaxique et un ensemble de patrons d'extraction, conçus manuellement au préalable et stockés dans les moyens de stockage 4, est appliqué. On obtient ainsi un ensemble de candidats hyperonymes qui sont alors filtrés sur la base de critères statistiques. Les candidats retenus permettent ainsi d'affecter au focus l'une des classes de la typologie.
Le système automatique 1 comporte également des moyens 6 de chargement en mémoire du modèle de connaissances qui correspond à la classe identifiée. Pour mémoire, il est rappelé que ce modèle de connaissances comporte le(s) modèle(s) des classes-mères complété(s) par les caractéristiques
/ relations spécifiques de cette classe.
Ces moyens 6 de chargement chargent également les patrons d'extraction associés à ce modèle de connaissances afin de permettre l'instanciation du modèle de connaissances en une base de connaissances portant sur le focus.
Le système automatique 1 comporte alors des moyens d'application 7 des patrons d'extraction chargés sur le corpus de documents aptes à instancier les modèles de connaissances chargés pour générer la base de connaissances.
Autrement dit, ces moyens 7 permettent d'obtenir, pour chaque triplet T=(Cji,rj,Cj2) du modèle de connaissances, un ensemble d'instances de Cii,η,Ci2.
Les moyens 7 d'application des patrons d'extraction vont maintenant être explicités, figure 3. Ils comportent quatre modules qui s'enchaînent.
Dans un premier temps, des moyens de sélection 20 de phrases candidates dans le corpus sont utilisés.
En effet, le corpus thématique est constitué d'un ensemble souvent volumineux de phrases. Cet ensemble a été constitué par exemple par requêtes d'un moteur de recherche sur le Web. La tentative d'application de chaque patron d'extraction sur chaque phrase peut devenir un processus extrêmement long et la proportion de phrases sur lesquelles l'extraction échoue est, dans la plupart des cas, très grande. C'est pourquoi il est préférable de sélectionner au préalable un sous-ensemble de phrases sur lesquelles les patrons sont susceptibles de pouvoir s'appliquer avec succès.
Dans notre cas, tous les patrons d'extraction possèdent, dans les termes qu'ils ancrent, le focus, c'est-à-dire l'individu autour duquel une base de connaissances va être construite. Seules les phrases contenant ce focus, ainsi que le(s) nom(s) et le(s) verbe(s) du patron d'extraction, sont donc à conserver pour l'application des patrons d'extraction. Cette technique permet d'augmenter le taux de précision des phrases utilisées (c'est-à-dire le rapport du nombre de phrases pertinentes utilisées sur le nombre de phrases utilisées pour l'application des patrons). On peut envisager d'augmenter le taux de rappel de ce sous- ensemble de phrases (c'est-à-dire le rapport du nombre de phrases pertinentes utilisées sur le nombre de phrases pertinentes dans le corpus initial) par application de techniques de résolution d'anaphores bien connues de l'homme du métier. Les moyens de sélection permettent ainsi d'obtenir en sortie un sous- ensemble de phrases, contenant le focus de recherche ainsi que le(s) nom(s) et le(s) verbe(s) du patron d'extraction, sur lequel vont être appliqués les patrons d'extraction.
Les moyens d'application 21 des patrons d'extraction sur les phrases candidates permettent d'identifier les termes candidats.
Sur chaque phrase du corpus ainsi sélectionnée, on tente d'appliquer chaque patron d'extraction.
Un terme d'une phrase devient un candidat à l'extraction si :
- les termes et catégories spécifiés dans le patron peuvent être ancrés (c'est-à-dire sont présents) dans la phrase ;
- les termes marqués comme extractions dans le patron sont de la catégorie syntaxique (voire sémantique) requise dans le patron.
Cette méthode d'identification de candidats à l'extraction est une méthode souple autorisant les insertions, omissions et inversions de termes dans les phrases. Elle permet d'obtenir un ensemble de candidats à l'extraction pour chacun des patrons d'extraction.
Ces termes candidats sont alors transférés à des moyens de calcul 22 de la pertinence, c'est-à-dire de la détermination du poids associé à chaque terme donnant une indication de la qualité du candidat à l'instanciation. Cette méthode de calcul de pertinence tient compte de plusieurs critères :
- une mesure de pertinence de la phrase prenant en compte : a) sa pertinence lexicale par la mesure de la distance entre le patron et la phrase à l'aide du cosinus de l'angle entre les vecteurs phrase et patron.
(Les techniques de calcul ainsi utilisées sont bien connues de l'homme du métier. Une description détaillée en est donnée dans "Recherche d'informations dans un mélange de documents écrits et parlés", Benoît Fabre,
Jean-François Bonastre, Patrick Bellot, Actes des Journées d'Etude de la Parole,
2004.) b) sa pertinence lexico-syntaxique par le calcul du logarithme de la longueur du sous-ensemble le plus long du patron dans la phrase (avec autorisation des insertions et omissions), c'est-à-dire du logarithme du nombre maximal de termes, pas obligatoirement juxtaposés, d'une chaîne, ou liste, de termes du patron qu'on retrouve dans le même ordre dans la phrase ;
- une mesure de pertinence du candidat prenant en compte : a) sa pertinence syntaxique établie en fonction de sa catégorie syntaxique et de sa position dans la phrase par rapport à ces mêmes valeurs dans le patron ; b) sa pertinence sémantique (optionnelle) établie en fonction de sa catégorie sémantique par rapport à cette même valeur dans le patron. Ainsi, une pertinence est associée à chaque candidat à l'extraction.
Comme expliqué précédemment, chaque triplet T = (Cj,η,ck) est mis en correspondance avec un ensemble de patrons d'extraction. Le but est de sélectionner le meilleur candidat qui va permettre d'instancier l'élément manquant dans un triplet T = (Ci,rj,ck). Pour cela, les moyens de choix 23 calculent la moyenne des pertinences de chaque candidat extrait pour l'ensemble de patrons associés à une règle sémantique. Le meilleur candidat est celui qui possède la meilleure pertinence moyenne.
Cela permet de déterminer pour chaque règle sémantique le meilleur candidat à l'extraction parmi l'ensemble des candidats extraits par l'ensemble des patrons d'extraction correspondants à cette règle.
Il est ainsi possible d'instancier l'élément manquant de chaque relation et de construire ainsi une base de connaissances portant sur le focus prédéterminé. Le procédé et le système ainsi décrit permettent donc, avantageusement, de simplifier la création des bases de connaissances en remplaçant la construction manuelle de chaque base par une construction automatique s'appuyant sur une modélisation plus générique.

Claims

REVENDICATIONS
1. Système de construction automatique à partir d'un corpus de documents, d'une base de connaissances portant sur un focus déterminé, caractérisé en ce qu'il comporte : - des moyens (4) de stockage d'un ensemble de classes, chaque classe étant associée à un modèle de connaissances et chaque modèle de connaissances étant associé à un ensemble de patrons d'extraction, et
- des moyens (5) de sélection d'au moins une classe d'appartenance du focus, connectés à - des moyens (6) de chargement de la au moins une classe d'appartenance et des modèles et patrons associés, connectés à
- des moyens (7) d'application des patrons d'extraction chargés sur le corpus (3) de documents apte à instancier les modèles de connaissances chargés pour générer la base de connaissances.
2. Système de construction automatique d'une base de connaissances selon la revendication 1 , caractérisé en ce que l'ensemble des classes comporte une classe de base à partir de laquelle les autres classes sont déduites par héritage successif ; une classe donnée ayant au plus une classe mère dont elle hérite le modèle de connaissances et les patrons d'extraction et qu'elle complète par une extension du modèle et des patrons supplémentaires qui lui sont spécifiques.
3. Système de construction automatique d'une base de connaissances selon la revendication 1 ou 2, caractérisé en ce que chaque modèle de connaissances comporte un ensemble de relations, et chaque relation est reliée à au moins un patron d'extraction permettant d'instancier cette relation.
4. Système de construction automatique d'une base de connaissances selon l'une quelconque des revendications précédentes, caractérisé en ce que les moyens d'application des patrons d'extraction sur le corpus des documents comportent des moyens de sélection des phrases candidates dans ces documents tels que seules les phrases contenant le focus et les noms et verbes du patron sont sélectionnées.
5. Système de construction automatique d'une base de connaissances selon la revendication 4, caractérisé en ce que les moyens de sélection des phrases candidates comportent des moyens de sélection préalables des documents par recherche de mots-clés.
6. Système de construction automatique d'une base de connaissances selon la revendication 4 ou 5, caractérisé en ce que les moyens d'application des patrons d'extraction sur les documents sont aptes à appliquer chaque patron à chaque phase candidate de telle sorte qu'un terme d'une phrase candidate devient un candidat à l'extraction si les termes et catégories spécifiées dans le patron sont présents dans la phrase et les termes à extraire sont de la catégorie syntaxique et, éventuellement, sémantique requise dans le patron.
7. Système de construction automatique d'une base de connaissances selon la revendication 6, caractérisé en ce que les moyens d'application des patrons d'extraction comportent en outre des moyens de calcul de la pertinence de chaque candidat basés sur une mesure de la pertinence de la phrase et une mesure de la pertinence du terme candidat.
8. Système de construction automatique d'une base de connaissances selon la revendication 7, caractérisé en ce que la mesure de la pertinence de la phrase prend en compte la pertinence lexicale mesurée comme la distance entre le patron et la phrase et la pertinence lexico-syntaxique comme le logarithme de la longueur du sous ensemble le plus long du patron dans la phrase.
9. Système de construction automatique d'une base de connaissances selon la revendication 8, caractérisé en ce que la distance entre le patron et la phrase est mesurée comme le cosinus de l'angle entre les vecteurs phrase et patron.
10. Système de construction automatique d'une base de connaissances selon la revendication 7, 8 ou 9, caractérisé en ce que la mesure de la pertinence du terme candidat prend en compte la pertinence syntaxique mesurée par sa catégorie syntaxique et sa position dans la phrase par rapport à ces mêmes valeurs dans le patron.
11. Système de construction automatique d'une base de connaissances selon la revendication 10, caractérisé en ce que la mesure de la pertinence du terme candidat comporte en outre une mesure de sa catégorie sémantique par rapport à cette même valeur dans le patron.
12. Système de construction automatique d'une base de connaissances selon la revendication 7 à 11 , caractérisé en ce que le terme candidat utilisé pour instancier la relation reliée aux patrons d'extraction considérés est celui dont la moyenne des pertinences est la plus élevée.
13. Procédé de construction automatique à partir d'un corpus de documents, d'une base de connaissances portant sur un focus déterminé, caractérisé en ce qu'il comporte les étapes de :
- stockage d'un ensemble de classes, chaque classe étant associée à un modèle de connaissances et chaque modèle de connaissances à un ensemble de patrons d'extraction, puis
- sélection d'au moins une classe d'appartenance du focus, - chargement de la au moins une classe d'appartenance et des modèles et patrons associés,
- application des patrons d'extraction chargés sur le corpus de documents apte à instancier les modèles de connaissance chargés pour générer la base de connaissances.
14. Procédé de construction selon la revendication 13, caractérisé en ce que l'ensemble des classes comportent une classe de base à partir de laquelle les autres classes sont déduites par héritage successif ; une classe donnée ayant au plus une classe mère dont elle hérite le modèle de connaissances et les patrons d'extraction et qu'elle complète par une extension du modèle et des patrons supplémentaires qui lui sont spécifiques.
15. Procédé de construction selon la revendication 13 ou 14, caractérisé en ce que chaque modèle de connaissances comporte un ensemble de relations, et chaque relation est reliée à au moins un patron d'extraction permettant d'instancier cette relation.
16. Procédé de construction selon la revendication 13, 14 ou 15 caractérisé en ce que l'étape d'application des patrons d'extraction sur le corpus de documents comporte une étape de sélection des phrases candidates dans ces documents tels que seules les phrases contenant le focus et les noms et verbes du patron sont sélectionnées.
17. Procédé de construction selon la revendication 16, caractérisé en ce que l'étape de sélection des phrases candidates comporte une étape de sélection préalable des documents par recherche de mots-clés.
18. Procédé de construction selon la revendication 16 ou 17, caractérisé en ce que l'étape d'application des patrons d'extraction applique chaque patron à chaque phase candidate de telle sorte qu'un terme d'une phrase candidate devient un candidat à l'extraction si les termes et catégories spécifiées dans le patron sont présents dans la phrase et les termes à extraire sont de la catégorie syntaxique, et éventuellement, sémantique requise dans le patron.
19. Procédé de construction selon la revendication 18, caractérisé en ce que l'étape d'application des patrons d'extraction comporte en outre une étape de calcul de la pertinence de chaque candidat basée sur une mesure de la pertinence de la phrase et une mesure de la pertinence du terme candidat.
20. Procédé de construction selon la revendication 19, caractérisé en ce que la mesure de la pertinence de la phrase prend en compte la pertinence lexicale mesurée comme la distance entre le patron et la phrase et la pertinence lexico-syntaxique comme le logarithme de la longueur du sous ensemble le plus long du patron dans la phrase.
21. Procédé de construction selon la revendication 20, caractérisé en ce que la distance entre le patron et la phrase est mesurée comme le cosinus de l'angle entre les vecteurs phrase et patron.
22. Procédé de construction selon la revendication 19, 20 ou 21 , caractérisé en ce que la mesure de la pertinence du terme candidat prend en compte la pertinence syntaxique mesurée par sa catégorie syntaxique et sa position dans la phrase par rapport à ces mêmes valeurs dans le patron.
23. Procédé de construction selon la revendication 22, caractérisé en ce que la mesure de la pertinence du terme candidat comporte en outre une mesure de sa catégorie sémantique par rapport à cette même valeur dans le patron.
24. Procédé de construction selon l'une des revendications 19 à 23, caractérisé en ce que le terme candidat utilisé pour instancier la relation reliée aux patrons d'extraction considérés est celui dont la moyenne des pertinences est la plus élevée.
25. Produit logiciel enregistré sur un support de mémorisation pour la mise en oeuvre par un ordinateur faisant office d'équipement dédié du système et du procédé de construction automatique d'une base de connaissances selon les revendications 1 à 12, respectivement les revendications 13 à 24.
PCT/FR2005/002359 2004-09-28 2005-09-22 Systeme et procede de construction automatique de bases de connaissance WO2006035144A2 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0410280A FR2875925A1 (fr) 2004-09-28 2004-09-28 Systeme et procede de construction automatique de bases de connaissance
FR0410280 2004-09-28

Publications (2)

Publication Number Publication Date
WO2006035144A2 true WO2006035144A2 (fr) 2006-04-06
WO2006035144A8 WO2006035144A8 (fr) 2006-11-16

Family

ID=34948843

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR2005/002359 WO2006035144A2 (fr) 2004-09-28 2005-09-22 Systeme et procede de construction automatique de bases de connaissance

Country Status (2)

Country Link
FR (1) FR2875925A1 (fr)
WO (1) WO2006035144A2 (fr)

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Sans recherche *

Also Published As

Publication number Publication date
WO2006035144A8 (fr) 2006-11-16
FR2875925A1 (fr) 2006-03-31

Similar Documents

Publication Publication Date Title
FR2698977A1 (fr) Système d&#39;information multimédia.
EP1184796A1 (fr) Procédé de navigation associative dans des bases de données multimédia
WO2001077889A9 (fr) Systeme de recherche et d&#39;aide au choix
US7627588B1 (en) System and method for concept based analysis of unstructured data
WO2018138423A1 (fr) Detection automatique de fraudes dans un flux de transactions de paiement par reseaux de neurones integrant des informations contextuelles
Taipalus Vector database management systems: Fundamental concepts, use-cases, and current challenges
CA2937930A1 (fr) Procede d&#39;analyse semantique d&#39;un texte
WO2005026984A1 (fr) Procede de traitement de donnees sur la base de structures dynamiques d&#39;elements simples
JP2004219714A (ja) 人間からの指示に基づいてそれぞれ予め定めた特定のシーンに属する対話のシーンを識別し、シーンに即した自然対話を構成する応答文を作成して、それを音声合成することにより、音声対話を行うコンピュータによる音声対話方法及び音声対話システム
WO2006035144A2 (fr) Systeme et procede de construction automatique de bases de connaissance
EP3752948A1 (fr) Procédé de traitement automatique pour l&#39;anonymisation d&#39;un jeu de données numériques
EP1960916A1 (fr) Procede de classification non supervisee lineaire et stable sur l&#39;ordre des objets
Jitendra et al. An ensemble model of CNN with Bi-LSTM for automatic singer identification
FR2878050A1 (fr) Systeme et procede de dialogue pour la recherche d&#39;informations dans un ensemble de ressources textuelles
WO2013117872A1 (fr) Procede d&#39;identification d&#39;un ensemble de phrases d&#39;un document numerique, procede de generation d&#39;un document numerique, dispositif associe
FR2803928A1 (fr) Systeme de traitement de donnees pour l&#39;evaluation d&#39;un texte
FR3137472A1 (fr) Procédé d’appariement d’un ensemble à évaluer et d’une liste de référence, moteur d’appariement et programme d’ordinateur correspondants.
Xiao Recognition of emotions in audio signals
Sterckx Topic detection in a million songs
Jaya Application of Deep Learning in Cloud Security
EP1554687A2 (fr) SystEme associatif flou de description d objets multimEdia
EP1435055B1 (fr) Procede et systeme de gestion de bases de donnees multimedia.
WO2016124851A1 (fr) Procédé de production automatique d&#39;une base de données a partir d&#39;un modèle de données générique et d&#39;une taxinomie
FR3103937A1 (fr) Identification et compréhension de questions pilotées par ordinateur dans un dossier d’appel d’offres commercial pour le traitement automatisé d’offres
Poulter House vs. Home: What does home mean to New Zealand?

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A2

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KM KP KR KZ LC LK LR LS LT LU LV LY MA MD MG MK MN MW MX MZ NA NG NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SM SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A2

Designated state(s): BW GH GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LT LU LV MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase