WO2020199591A1

WO2020199591A1 - Procédé, appareil, dispositif informatique, et support d'informations d'entraînement de modèles de catégorisation de textes

Info

Publication number: WO2020199591A1
Application number: PCT/CN2019/117095
Authority: WO
Inventors: 金戈; 徐亮
Original assignee: 平安科技（深圳）有限公司
Priority date: 2019-03-29
Filing date: 2019-11-11
Publication date: 2020-10-08
Also published as: CN110110080A

Abstract

La présente invention concerne un procédé, un appareil, un dispositif informatique, et un support d'informations d'entraînement de modèles de catégorisation de textes, ledit procédé consistant : à obtenir, à partir d'une bibliothèque d'échantillons prédéfinis, des premières données d'échantillons ayant une étiquette de catégorie et des deuxièmes données d'échantillons n'ayant pas d'étiquette de catégorie ; à établir un modèle de catégorisation primaire en fonction des premières données d'échantillons ; en même temps, à calculer une valeur d'entropie d'informations et une valeur de corrélation des deuxièmes données d'échantillons ; en fonction d'un procédé d'étiquetage de catégories prédéfini, à étiqueter les deuxièmes données d'échantillons dont la valeur d'entropie d'informations et la valeur de corrélation satisfont à des conditions prédéfinies pour obtenir des troisièmes données d'échantillons ; à utiliser les troisièmes données d'échantillons pour entraîner le modèle de catégorisation primaire pour obtenir un modèle de catégorisation intermédiaire ; à utiliser les premières données d'échantillons et les troisièmes données d'échantillons pour entraîner le modèle de catégorisation intermédiaire pour obtenir un modèle de catégorisation de textes. La solution technique selon la présente invention résout le problème, durant l'entraînement de modèles de catégorisation de textes, lié au fait que la taille d'échantillons d'entraînement est énorme et que le temps d'entraînement est long.