WO2001065416A2

WO2001065416A2 - Moteur d'appariement probabiliste

Info

Publication number: WO2001065416A2
Application number: PCT/US2001/006447
Authority: WO
Inventors: Matthew A. Jaro
Original assignee: Vality Technology Incorporated
Priority date: 2000-02-28
Filing date: 2001-02-28
Publication date: 2001-09-07
Also published as: AU2001243337A1; JP2004506960A; WO2001065416A3; CA2401170A1

Abstract

L'invention concerne un procédé et un appareil permettant l'extraction d'informations d'une base de données électronique sur la base d'une approche probabiliste et de d'un traitement de requête. Selon un aspect, les documents d'une base de données sont analysés sous forme de jetons au moyen d'un langage de modèle d'action avant qu'un indice des documents ne soit créé. Selon un autre aspect, une table de jetons de l'indice est créée, laquelle table comprend une fréquence d'occurrence dans la base de données de chaque jeton de l'indice et chaque jeton de l'indice comprend un équivalent phonétique pour un jeton de l'indice respectif. Selon un aspect, une demande est analysée sous forme de jetons de demande au moyen d'un langage de modèle d'action, un jeton de recherche est généré à partir d'un jeton de demande, lequel jeton de recherche permet d'accéder aux documents de la base de données. Selon un autre aspect, un jeton de recherche comprend un équivalent phonétique pour un jeton de demande ou un jeton qualifié comme étant similaire à un jeton de demande et un jeton de recherche permet d'accéder aux documents de la base de données. La qualification d'un jeton comme étant similaire à un jeton de demande se base sur une comparaison du jeton de demande avec un dictionnaire de base de données au moyen d'un algorithme théorique d'information. Dans un aspect supplémentaire, un jeton choisi permet d'accéder aux documents de la base de données, une probabilité de pertinence par rapport à la demande est calculée pour chaque document et la plus élevée de ces probabilités est comparée à un seuil de continuation. Si ce seuil est dépassé, il n'est plus possible d'accéder à aucun document et les documents auxquels on a déjà accédé sont sortis. En revanche, si ce seuil n'est pas dépassé, le jeton de recherche choisi est éliminé de l'ensemble de jetons de recherches disponibles et un nouveau jeton est choisi afin d'accéder aux documents de la base de données.