WO2022126944A1

WO2022126944A1 - Procédé de regroupement de textes, dispositif électronique et support de stockage

Info

Publication number: WO2022126944A1
Application number: PCT/CN2021/087169
Authority: WO
Inventors: 尹扬; 郭鹏华
Original assignee: 上海朝阳永续信息技术股份有限公司
Priority date: 2020-12-17
Filing date: 2021-04-14
Publication date: 2022-06-23
Also published as: CN112256842B; CN112256842A

Abstract

Les modes de réalisation de la présente divulgation concernent un procédé de regroupement de textes, un dispositif et un support de stockage, lesquels concernent le domaine du traitement d'informations. Le procédé consiste à : déterminer un produit fréquence de mot-fréquence inverse de document (TF-IDF) de chaque mot d'une pluralité de premiers textes ; éliminer des identifiants d'entités d'une pluralité de titres de textes de la pluralité de premiers textes, afin de générer une pluralité de non-titres d'entités ; selon un produit TF-IDF, déterminer une pluralité de premières représentations de caractéristiques associées à la pluralité de non-titres d'entités ; selon la pluralité de premières représentations de caractéristiques et selon un premier rayon de densité, effectuer un regroupement de densités sur la pluralité de premiers textes, afin de générer une pluralité de premiers groupes de textes et une pluralité de seconds textes non regroupés ; selon un produit TF-IDF, déterminer une pluralité de secondes représentations de caractéristiques associées à la pluralité de seconds textes ; et selon la pluralité de secondes représentations de caractéristiques et selon un second rayon de densité, effectuer un regroupement de densités sur la pluralité de seconds textes, afin de générer une pluralité de seconds groupes de textes, le second rayon de densité étant supérieur au premier rayon de densité. On peut ainsi réaliser un regroupement de textes à niveaux multiples.