WO1992012493A1

WO1992012493A1 - Algorithmes tres rapides servant a determiner une correspondance approximative de chaines pour la correction de multiples fautes d'orthographe

Info

Publication number: WO1992012493A1
Application number: PCT/US1991/009756
Authority: WO
Inventors: Min-Wen Du; Shih-Chio Chang
Original assignee: Gte Laboratories Incorporated
Priority date: 1990-12-31
Filing date: 1991-12-30
Publication date: 1992-07-23
Also published as: EP0519062A4; JPH05505270A; CA2076526A1; EP0519062A1

Abstract

Système de traitement de chaînes de données utilisant des algorithmes rapides pour déterminer une correspondance approximative avec des chaînes de caractères dans un dictionnaire (23). Pour l'exemple de faute décrit, on a prévu des opérations sur les chaînes de caractères comprenant de multiples fautes d'orthographe. L'exemple de faute, ''S-trace'', est utilisé pour élaborer les algorithmes, et un processus de réduction à quatre étapes améliore l'efficacité d'un algorithme de correspondance approximative de chaînes. Cette façon d'aborder la correction orthographique (consistant à utiliser la borne supérieure, le critère de cloisonnement de la longueur des chaînes et le critère de sectionnement) représente trois améliorations par rapport à celle qui consiste à effectuer une comparaison minutieuse. Chacune s'incorpore aisément à l'étape suivante. Lors de la quatrième étape, un procédé d'adressage calculé évite la comparaison d'une chaîne donnée avec des mots très éloignés lorsque la recherche s'effectue au voisinage sur une petite distance. On obtient ainsi un algorithme sous-linéaire au nombre de mots dans le dictionnaire (23). L'application des algorithmes à un système d'information de bibliothèque consiste à utiliser des fichiers de texte originel (21), des fichiers de description des informations (22) et un dictionnaire négatif (23) stockés sur disques (12).