LU504829B1 - Text classification method, computer readable storage medium and system - Google Patents

Text classification method, computer readable storage medium and system Download PDF

Info

Publication number
LU504829B1
LU504829B1 LU504829A LU504829A LU504829B1 LU 504829 B1 LU504829 B1 LU 504829B1 LU 504829 A LU504829 A LU 504829A LU 504829 A LU504829 A LU 504829A LU 504829 B1 LU504829 B1 LU 504829B1
Authority
LU
Luxembourg
Prior art keywords
text
training
neural network
character
recurrent neural
Prior art date
Application number
LU504829A
Other languages
English (en)
Inventor
Biqing Zeng
Original Assignee
Univ South China Normal
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Univ South China Normal filed Critical Univ South China Normal
Priority to LU504829A priority Critical patent/LU504829B1/en
Application granted granted Critical
Publication of LU504829B1 publication Critical patent/LU504829B1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/1801Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
    • G06V30/18019Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by matching or filtering
    • G06V30/18038Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters
    • G06V30/18048Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters with interaction between the responses of different filters, e.g. cortical complex cells
    • G06V30/18057Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/274Syntactic or semantic context, e.g. balancing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Claims (8)

REVENDICATIONS
1. Méthode de classification de fichiers, caractérisée en ce qu’elle comprend les étapes suivantes : obtenir un texte à classer effectuer une coupe de mots et une coupe de mots sur le texte à classer pour obtenir une pluralité de mots et une pluralité de mots caractérisant le texte à classer vectoriser la pluralité desdits mots et la pluralité desdits mots respectivement pour obtenir une pluralité de vecteurs de mots et une pluralité de vecteurs de mots construire un réseau neuronal récurrent bidirectionnel empilé basé sur les vecteurs de mots et un réseau neuronal récurrent bidirectionnel empilé basé sur les vecteurs de mots, et introduire une pluralité desdits vecteurs de mots dans le réseau neuronal récurrent bidirectionnel empilé basé sur les vecteurs de mots pour obtenir des résultats de classification basés sur les vecteurs de mots, et introduire une pluralité desdits vecteurs de mots dans le réseau neuronal récurrent bidirectionnel empilé basé sur les vecteurs de mots pour obtenir des résultats de classification basés sur les vecteurs de mots ; dans lequel ledit réseau neuronal récurrent bidirectionnel empilé comprend trois BLSTM et un réseau neuronal récurrent bidirectionnel empilé pour obtenir des résultats de classification basés sur les vecteurs de mots ; le réseau neuronal comprend trois couches BLSTM et une couche Sigmod ; chaque couche BLSTM est empilée avec une pluralité d'unités LSTM, la pluralité d'unités LSTM dans chaque couche sont distribuées dans une hiérarchie, et la pluralité d'unités LSTM dans chaque couche sont définies avec des paramètres de poids correspondants ; chaque unité LSTM prend comme entrée l'unité LSTM du niveau précédent de la même couche et/ou la sortie de l'unité LSTM du niveau précédent, et - la sortie finale est obtenue dans la couche Sigmod ; la sortie finale est obtenue dans la couche Sigmod ; compter le nombre de mots et le nombre de mots qui caractérisent le texte à classer, et si le nombre de mots est inférieur ou égal à la moitié du nombre de mots, choisir un résultat de classification basé sur les vecteurs de mots ; sinon, choisir un résultat de classification basé sur les vecteurs de mots.
2. Méthode de classification de fichiers selon la revendication 1, caractérisée en ce que, ladik&/504829 etape comprend les sous-etapes suivantes : obtenir plusieurs textes de formation et les etiquettes de sélection correspondant a chaque texte de formation ; découper chaque texte d'apprentissage séparément pour obtenir une pluralité de mots caractérisant chaque texte d'apprentissage ; vectoriser la pluralité desdits mots caractérisant chaque texte d'apprentissage pour obtenir une pluralité de vecteurs de mots ; introduire la pluralité desdits vecteurs de mots correspondant à chaque texte d'apprentissage, et les étiquettes de sélection correspondant à chaque texte d'apprentissage, dans un réseau neuronal récurrent bidirectionnel empilé basé sur les vecteurs de mots pour l'apprentissage, et optimiser chaque paramètre du réseau neuronal récurrent bidirectionnel empilé pour obtenir un réseau neuronal récurrent bidirectionnel empilé basé sur les vecteurs de mots.
3. Méthode de classification de fichiers selon la revendication 2, caractérisée en ce que, ladite étape comprend les sous-étapes suivantes : obtenir plusieurs textes de formation et les étiquettes de sélection correspondant à chaque texte de formation ; appliquer une coupe de mots à chaque texte d'apprentissage afin d'obtenir une pluralité de mots caractérisant chaque texte d'apprentissage vectoriser la pluralité desdits mots caractérisant chaque texte d'apprentissage afin d'obtenir une pluralité de vecteurs de mots introduire la pluralité desdits vecteurs de mots correspondant à chaque texte d'apprentissage, et les étiquettes de sélection correspondant à chaque texte d'apprentissage, dans un réseau neuronal récurrent bidirectionnel empilé basé sur les vecteurs de mots, et optimiser chaque paramètre du réseau neuronal récurrent bidirectionnel empilé pour obtenir un réseau neuronal récurrent bidirectionnel empilé basé sur les vecteurs de mots.
4. Méthode de classification de fichiers selon la revendication 3, caractérisée en ce que, une pluralité de mots et une pluralité de mots sont obtenues en effectuant des coupes de mots et ab4/504829 coupes de mots sur le texte a classifier et/ou le texte d'apprentissage au moyen d'un modele de Markov invisible.
5. Méthode de classification de fichiers selon la revendication 3, caractérisée en ce que, une pluralité desdits mots et une pluralité desdits mots du texte a classifier et/ou du texte d'entrainement sont vectorisés par word2vec pour obtenir une pluralité de vecteurs de mots et une pluralité de vecteurs de mots, respectivement.
6. Méthode de classification de fichiers selon la revendication 2, caractérisée en ce que, la pluralité desdits textes d'entraînement sont des textes d'entraînement avec des étiquettes de sélection provenant du corpus d'analyse des sentiments chinois de ChnSentiCorp, et/ou des textes provenant d'un ensemble de données de réseau avec des étiquettes de sélection.
7. Support de stockage lisible par ordinateur, qui stocke un programme informatique, caractérisé en ce que, ladite méthode de classification de fichiers selon l'une quelconque des revendications 1 à 6 est réalisée lorsque ledit programme informatique est exécuté par le processeur.
8. Système de classification de fichiers, caractérisé en ce que, il comprend une mémoire et un dispositif de commande, ladite mémoire stockant un programme informatique, caractérisé en ce que, ledit procédé selon l'une quelconque des revendications 1 à 6 est réalisé lorsque ledit dispositif de commande exécute ledit programme informatique.
LU504829A 2023-07-28 2023-07-28 Text classification method, computer readable storage medium and system LU504829B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
LU504829A LU504829B1 (en) 2023-07-28 2023-07-28 Text classification method, computer readable storage medium and system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
LU504829A LU504829B1 (en) 2023-07-28 2023-07-28 Text classification method, computer readable storage medium and system

Publications (1)

Publication Number Publication Date
LU504829B1 true LU504829B1 (en) 2024-01-29

Family

ID=89808356

Family Applications (1)

Application Number Title Priority Date Filing Date
LU504829A LU504829B1 (en) 2023-07-28 2023-07-28 Text classification method, computer readable storage medium and system

Country Status (1)

Country Link
LU (1) LU504829B1 (fr)

Similar Documents

Publication Publication Date Title
CN110245229B (zh) 一种基于数据增强的深度学习主题情感分类方法
CN108391446B (zh) 基于机器学习算法对针对数据分类器的训练语料库的自动提取
CN109271513B (zh) 一种文本分类方法、计算机可读储存介质及系统
CN109492105B (zh) 一种基于多特征集成学习的文本情感分类方法
KR102403330B1 (ko) 텍스트 데이터를 표현하는 가상 핑거프린트를 생성 및 활용하기 위한 기법
CN111858878B (zh) 从自然语言文本中自动提取答案的方法、系统及存储介质
CN111339260A (zh) 一种基于bert和qa思想的细粒度情感分析方法
CN113987187A (zh) 基于多标签嵌入的舆情文本分类方法、系统、终端及介质
CN114722805B (zh) 基于大小导师知识蒸馏的少样本情感分类方法
CN111506732A (zh) 一种文本多层次标签分类方法
CN110827797A (zh) 语音应答事件分类处理方法和装置
CN111859909B (zh) 一种语义场景一致性识别阅读机器人
CN113849653A (zh) 一种文本分类方法及装置
Jishan et al. Natural language description of images using hybrid recurrent neural network
CN112364743A (zh) 一种基于半监督学习和弹幕分析的视频分类方法
CN112101029A (zh) 一种基于bert模型的高校导师推荐管理方法
Perera et al. Personality Classification of text through Machine learning and Deep learning: A Review (2023)
CN117150436B (zh) 多模态自适应融合的主题识别方法及系统
CN112489689B (zh) 基于多尺度差异对抗的跨数据库语音情感识别方法及装置
CN116757195A (zh) 一种基于提示学习的隐性情感识别方法
LU504829B1 (en) Text classification method, computer readable storage medium and system
CN114818711B (zh) 基于神经网络的多信息融合命名实体识别方法
Nouhaila et al. Arabic sentiment analysis based on 1-D convolutional neural network
CN115906824A (zh) 一种文本细粒度情感分析方法、系统、介质和计算设备
CN114840680A (zh) 一种实体关系联合抽取方法、装置、存储介质及终端