LU504829B1

LU504829B1 - Text classification method, computer readable storage medium and system

Info

Publication number: LU504829B1
Application number: LU504829A
Authority: LU
Inventors: Biqing Zeng
Original assignee: Univ South China Normal
Priority date: 2023-07-28
Filing date: 2023-07-28
Publication date: 2024-01-29

Claims

REVENDICATIONS

1. Méthode de classification de fichiers, caractérisée en ce qu’elle comprend les étapes suivantes : obtenir un texte à classer effectuer une coupe de mots et une coupe de mots sur le texte à classer pour obtenir une pluralité de mots et une pluralité de mots caractérisant le texte à classer vectoriser la pluralité desdits mots et la pluralité desdits mots respectivement pour obtenir une pluralité de vecteurs de mots et une pluralité de vecteurs de mots construire un réseau neuronal récurrent bidirectionnel empilé basé sur les vecteurs de mots et un réseau neuronal récurrent bidirectionnel empilé basé sur les vecteurs de mots, et introduire une pluralité desdits vecteurs de mots dans le réseau neuronal récurrent bidirectionnel empilé basé sur les vecteurs de mots pour obtenir des résultats de classification basés sur les vecteurs de mots, et introduire une pluralité desdits vecteurs de mots dans le réseau neuronal récurrent bidirectionnel empilé basé sur les vecteurs de mots pour obtenir des résultats de classification basés sur les vecteurs de mots ; dans lequel ledit réseau neuronal récurrent bidirectionnel empilé comprend trois BLSTM et un réseau neuronal récurrent bidirectionnel empilé pour obtenir des résultats de classification basés sur les vecteurs de mots ; le réseau neuronal comprend trois couches BLSTM et une couche Sigmod ; chaque couche BLSTM est empilée avec une pluralité d'unités LSTM, la pluralité d'unités LSTM dans chaque couche sont distribuées dans une hiérarchie, et la pluralité d'unités LSTM dans chaque couche sont définies avec des paramètres de poids correspondants ; chaque unité LSTM prend comme entrée l'unité LSTM du niveau précédent de la même couche et/ou la sortie de l'unité LSTM du niveau précédent, et - la sortie finale est obtenue dans la couche Sigmod ; la sortie finale est obtenue dans la couche Sigmod ; compter le nombre de mots et le nombre de mots qui caractérisent le texte à classer, et si le nombre de mots est inférieur ou égal à la moitié du nombre de mots, choisir un résultat de classification basé sur les vecteurs de mots ; sinon, choisir un résultat de classification basé sur les vecteurs de mots.

2. Méthode de classification de fichiers selon la revendication 1, caractérisée en ce que, ladik&/504829 etape comprend les sous-etapes suivantes : obtenir plusieurs textes de formation et les etiquettes de sélection correspondant a chaque texte de formation ; découper chaque texte d'apprentissage séparément pour obtenir une pluralité de mots caractérisant chaque texte d'apprentissage ; vectoriser la pluralité desdits mots caractérisant chaque texte d'apprentissage pour obtenir une pluralité de vecteurs de mots ; introduire la pluralité desdits vecteurs de mots correspondant à chaque texte d'apprentissage, et les étiquettes de sélection correspondant à chaque texte d'apprentissage, dans un réseau neuronal récurrent bidirectionnel empilé basé sur les vecteurs de mots pour l'apprentissage, et optimiser chaque paramètre du réseau neuronal récurrent bidirectionnel empilé pour obtenir un réseau neuronal récurrent bidirectionnel empilé basé sur les vecteurs de mots.

3. Méthode de classification de fichiers selon la revendication 2, caractérisée en ce que, ladite étape comprend les sous-étapes suivantes : obtenir plusieurs textes de formation et les étiquettes de sélection correspondant à chaque texte de formation ; appliquer une coupe de mots à chaque texte d'apprentissage afin d'obtenir une pluralité de mots caractérisant chaque texte d'apprentissage vectoriser la pluralité desdits mots caractérisant chaque texte d'apprentissage afin d'obtenir une pluralité de vecteurs de mots introduire la pluralité desdits vecteurs de mots correspondant à chaque texte d'apprentissage, et les étiquettes de sélection correspondant à chaque texte d'apprentissage, dans un réseau neuronal récurrent bidirectionnel empilé basé sur les vecteurs de mots, et optimiser chaque paramètre du réseau neuronal récurrent bidirectionnel empilé pour obtenir un réseau neuronal récurrent bidirectionnel empilé basé sur les vecteurs de mots.

4. Méthode de classification de fichiers selon la revendication 3, caractérisée en ce que, une pluralité de mots et une pluralité de mots sont obtenues en effectuant des coupes de mots et ab4/504829 coupes de mots sur le texte a classifier et/ou le texte d'apprentissage au moyen d'un modele de Markov invisible.

5. Méthode de classification de fichiers selon la revendication 3, caractérisée en ce que, une pluralité desdits mots et une pluralité desdits mots du texte a classifier et/ou du texte d'entrainement sont vectorisés par word2vec pour obtenir une pluralité de vecteurs de mots et une pluralité de vecteurs de mots, respectivement.

6. Méthode de classification de fichiers selon la revendication 2, caractérisée en ce que, la pluralité desdits textes d'entraînement sont des textes d'entraînement avec des étiquettes de sélection provenant du corpus d'analyse des sentiments chinois de ChnSentiCorp, et/ou des textes provenant d'un ensemble de données de réseau avec des étiquettes de sélection.

7. Support de stockage lisible par ordinateur, qui stocke un programme informatique, caractérisé en ce que, ladite méthode de classification de fichiers selon l'une quelconque des revendications 1 à 6 est réalisée lorsque ledit programme informatique est exécuté par le processeur.

8. Système de classification de fichiers, caractérisé en ce que, il comprend une mémoire et un dispositif de commande, ladite mémoire stockant un programme informatique, caractérisé en ce que, ledit procédé selon l'une quelconque des revendications 1 à 6 est réalisé lorsque ledit dispositif de commande exécute ledit programme informatique.