WO2010050844A1

WO2010050844A1 - Procédé d’indexation sémantique informatisée de texte en langage naturel, procédé d’indexation sémantique informatisée de collection de textes en langage naturel, et supports lisibles par machine

Info

Publication number: WO2010050844A1
Application number: PCT/RU2009/000111
Authority: WO
Inventors: Vladimir Fyodorovich Khoroshevsky; Victor Petrovich Klintsov
Original assignee: Zakrytoe Aktsionernoe Obschestvo "Avicomp Services"
Priority date: 2008-10-29
Filing date: 2009-03-06
Publication date: 2010-05-06
Also published as: RU2399959C2; EP2350871A1; RU2008142648A

Abstract

La présente invention concerne le domaine des technologies de l’information, notamment, des procédés d’indexation sémantique informatisée de textes en langage naturel. L’utilisation de la présente invention permet l’extension de l’ensemble de procédés d’indexation de textes en langage naturel grâce à l’utilisation de techniques d’analyse linguistiques informatisée et l’utilisation également des résultats obtenus pour construire des index, qui assure la navigation sémantique à travers des documents et des collections de documents pertinents aux besoins d’information de l’utilisateur, en particulier, en référence aux textes en langues hautement inflexionnelles. Le procédé d’indexation sémantique informatisée de textes en langage naturel comprend les étapes suivantes : la segmentation du texte dans la forme électronique en symboles ; l’identification de locutions stables ; la formation de phrases ; par l’observation des règles linguistiques et heuristiques formées dans la base de données dans l’environnement linguistique prédéterminé, l’identification d’objets sémantiquement signifiants (entités nommées) et les relations sémantiquement signifiantes entre eux (relations nommées) ; pour chaque relation nommée, la formation d’un ensemble de triplets, où un triplet unique d’un premier type correspondant à la relation établie par la relation nommée entre deux entités nommées, chacun de l’ensemble de triplets d’un second type correspondant à une valeur d’attribut particulier d’une de ces entités, et chacun de l’ensemble de triplets d’un troisième type correspondant à une valeur d’attribut particulier de la relation nommée elle-même ; au niveau de l’ensemble des triplets formés, l’indexation de toutes les entités nommées associées par les relation nommées séparément, toutes les paires du type « entité nommée/relation nommée », et tous les triplets du type « entité nommée/relation nommée/entité nommée », en prenant en compte les attributs des entités nommées et/ou des relations nommées respectives ; et le stockage dans la base de données des triplets formés et des index obtenus avec la référence au texte de départ à partir duquel ces triplets ont été formés.