WO2011155736A2

WO2011155736A2 - Procédé de production dynamique de termes supplémentaires pour chaque sens de chaque expression en langage naturel ; gestionnaire de dictionnaire, dispositif de production de documents, annotateur de termes, système de recherche et dispositif de construction d'un système d'informations sur des documents basé sur le procédé

Info

Publication number: WO2011155736A2
Application number: PCT/KR2011/004113
Authority: WO
Inventors: 박동민
Original assignee: Park Dong Min
Priority date: 2010-06-07
Filing date: 2011-06-06
Publication date: 2011-12-15
Also published as: WO2011155736A3; KR20110133909A; WO2011155736A9

Abstract

La présente invention concerne la modification d'un système d'informations comprenant des expressions en langage naturel en un système d'informations basé sur des expressions de sens individuelles, qui s'accompagne de modifications fonctionnelles d'un système de recherche d'informations, d'un dictionnaire des termes, d'un dispositif de production de documents et d'un convertisseur de termes. La précision des systèmes de recherche actuels est très faible. Cela s'explique par le fait qu'un langage naturel exprime de nombreuses significations avec peu de mots. Les expressions devenant plus longues et plus difficiles à mémoriser à mesure que le nombre de termes augmente, les gens utilisent moins de termes mais ils les emploient d'une manière répétitive. Lorsqu'on introduit des expressions de sens individuelles dans lesquelles un terme correspond à un sens, la précision d'un système de recherche peut approcher 100 %. La présente invention concerne également un procédé permettant de produire facilement des expressions de sens individuelles et un procédé permettant d'appliquer efficacement les expressions de sens individuelles produites à des documents provenant du monde entier. Le procédé de création d'expressions de sens individuelles est en fait une technique qui consiste à décomposer chaque terme d'un langage naturel jusqu'à obtenir le nombre de ses significations respectives. Puisqu'il s'agit d'une simple décomposition des termes, n'importe qui peut produire des expressions. La tâche consistant à appliquer des termes produits à des documents provenant du monde entier est considérable. Pour cette tâche, d'après la présente invention, au lieu de modifier chaque mot qui est utilisé répétitivement, un alignement est exécuté pour chaque mot et certains groupes de mots alignés sont traités simultanément. Même si un mot a été utilisé plusieurs centaines de milliards de fois dans des documents du monde entier, il n'est pas nécessaire de procéder plusieurs centaines de milliards de fois à des conversions des termes. Si le mot en question a plusieurs sens, la tâche de conversion peut être exécutée simplement au moyen de plusieurs commandes de tri. Même si l'utilisation répétitive de termes ne représente pas une grande charge lors d'une conversion des termes, puisque le nombre d'expressions de sens individuelles est en lui-même gigantesque, la conversion des termes est difficile. La tâche consistant à traiter près de 10 milliards d'expressions de sens individuelles est immense. Un procédé permettant de résoudre cette difficulté consiste à répartir uniformément la tâche sur un certain nombre d'utilisateurs. Le principal facteur d'ambiguïté d'un langage naturel réside dans la présence d'un nombre incalculable de noms propres. Ils ont une influence sur les domaines des noms, des adjectifs, des verbes et de toutes les autres parties du discours, ce qui provoque une confusion sémantique. Dans la mesure où la population mondiale compte plus de 6 milliards d'individus, les noms propres qui se rapportent à des personnes, et ils ne sont pas limités à cet usage, représentent à eux seuls plus de 10 milliards de termes. La présente invention concerne une configuration dans laquelle cette immense tâche est confiée de manière uniforme à un nombre incalculable d'utilisateurs. Pour répondre à leurs besoins, les utilisateurs peuvent exécuter des tâches leur permettant de répondre à leurs exigences et de bénéficier des fruits de leur travail. Si les utilisateurs considèrent qu'une conversion de termes est nécessaire, ils peuvent effectuer des tâches de production et de conversion de termes de manière à pouvoir entretenir en permanence un état satisfaisant pour les utilisateurs. La présente invention concerne : 1) un gestionnaire de dictionnaire d'expressions de sens individuelles qui peut facilement produire des expressions de sens individuelles ; et 2) un annotateur de recherche, autrement dit un moyen permettant de catégoriser et de convertir (annoter) des mots appartenant à un groupe de mots dans des expressions de sens individuelles. L'annotateur fonctionne comme une partie d'un système de recherche. L'alignement et la recherche de mots utilisent des fonctions existantes du système de recherche. La présente invention concerne en outre 3) un convertisseur (annotateur) des expressions de sens individuelles mettant en œuvre une fonction similaire à celle de l'annotateur de recherche. La tâche consistant à construire un système d'informations d'envergure mondiale basé sur des expressions de sens individuelles est une entreprise de grande ampleur. Pourtant, le manque de clarté des significations dans le langage naturel constitue un obstacle majeur au développement de nombreux domaines. La présente invention propose une base permettant de réaliser des progrès considérables dans les domaines du Web sémantique, des systèmes de recherche, de la traduction des langues et de l'intelligence artificielle en les faisant bénéficier d'un langage clair.