WO2014206241A1

WO2014206241A1 - Procédé de calcul de similarité de documents, et procédé et dispositif de détection de documents approximativement dupliqués

Info

Publication number: WO2014206241A1
Application number: PCT/CN2014/080318
Authority: WO
Inventors: 李国良; 冯建华; 魏建生
Original assignee: 华为技术有限公司
Priority date: 2013-06-26
Filing date: 2014-06-19
Publication date: 2014-12-31
Also published as: CN104252445B; CN104252445A

Abstract

La présente invention concerne un procédé de calcul de similarité de documents, et un procédé et un dispositif de détection de documents approximativement dupliqués. Le procédé de calcul consiste à : exécuter respectivement un traitement de segmentation de mots sur deux documents à détecter en vue d'obtenir des ensembles de segmentation de mots respectifs des documents à détecter ; calculer la similarité d'édition de l'ensemble des paires de segmentation de mots des deux ensembles de segmentation de mots, deux éléments de segmentation de mots de chacune des paires de segmentation de mots provenant respectivement de deux des ensembles de segmentation de mots ; établir un contour entre les paires de segmentation de mots dont la similarité d'édition satisfait aux exigences dans l'ensemble des paires de segmentation de mots, la similarité d'édition consistant en une pondération du contour correspondant aux paires de segmentation de mots, et obtenir ensuite un graphe biparti pondéré ; calculer la valeur de correspondance pondérée maximale du graphe biparti pondéré ; et utiliser la valeur de correspondance pondérée maximale pour calculer la similarité entre les documents à détecter. Le procédé de calcul de similarité de documents, et le procédé et le dispositif de détection de documents approximativement dupliqués selon la présente invention présentent un taux de précision élevé et permettent d'identifier efficacement des documents approximativement dupliqués contenant des ensembles de segmentation de mots édités de manière incorrecte, ce qui permet d'améliorer la précision de détection des documents approximativement dupliqués, de réduire la complexité de calcul et d'optimiser l'efficacité de calcul.