LU504829B1 - Text classification method, computer readable storage medium and system - Google Patents
Text classification method, computer readable storage medium and system Download PDFInfo
- Publication number
- LU504829B1 LU504829B1 LU504829A LU504829A LU504829B1 LU 504829 B1 LU504829 B1 LU 504829B1 LU 504829 A LU504829 A LU 504829A LU 504829 A LU504829 A LU 504829A LU 504829 B1 LU504829 B1 LU 504829B1
- Authority
- LU
- Luxembourg
- Prior art keywords
- text
- training
- neural network
- character
- recurrent neural
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 239000013598 vector Substances 0.000 claims abstract description 111
- 238000013528 artificial neural network Methods 0.000 claims abstract description 57
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 55
- 230000000306 recurrent effect Effects 0.000 claims abstract description 55
- 238000012549 training Methods 0.000 claims description 74
- 238000004590 computer program Methods 0.000 claims description 12
- 230000011218 segmentation Effects 0.000 claims description 8
- 230000008451 emotion Effects 0.000 description 8
- 238000010801 machine learning Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
- G06V30/1801—Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
- G06V30/18019—Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by matching or filtering
- G06V30/18038—Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters
- G06V30/18048—Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters with interaction between the responses of different filters, e.g. cortical complex cells
- G06V30/18057—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19147—Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/26—Techniques for post-processing, e.g. correcting the recognition result
- G06V30/262—Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
- G06V30/274—Syntactic or semantic context, e.g. balancing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Biodiversity & Conservation Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Claims (8)
1. Méthode de classification de fichiers, caractérisée en ce qu’elle comprend les étapes suivantes : obtenir un texte à classer effectuer une coupe de mots et une coupe de mots sur le texte à classer pour obtenir une pluralité de mots et une pluralité de mots caractérisant le texte à classer vectoriser la pluralité desdits mots et la pluralité desdits mots respectivement pour obtenir une pluralité de vecteurs de mots et une pluralité de vecteurs de mots construire un réseau neuronal récurrent bidirectionnel empilé basé sur les vecteurs de mots et un réseau neuronal récurrent bidirectionnel empilé basé sur les vecteurs de mots, et introduire une pluralité desdits vecteurs de mots dans le réseau neuronal récurrent bidirectionnel empilé basé sur les vecteurs de mots pour obtenir des résultats de classification basés sur les vecteurs de mots, et introduire une pluralité desdits vecteurs de mots dans le réseau neuronal récurrent bidirectionnel empilé basé sur les vecteurs de mots pour obtenir des résultats de classification basés sur les vecteurs de mots ; dans lequel ledit réseau neuronal récurrent bidirectionnel empilé comprend trois BLSTM et un réseau neuronal récurrent bidirectionnel empilé pour obtenir des résultats de classification basés sur les vecteurs de mots ; le réseau neuronal comprend trois couches BLSTM et une couche Sigmod ; chaque couche BLSTM est empilée avec une pluralité d'unités LSTM, la pluralité d'unités LSTM dans chaque couche sont distribuées dans une hiérarchie, et la pluralité d'unités LSTM dans chaque couche sont définies avec des paramètres de poids correspondants ; chaque unité LSTM prend comme entrée l'unité LSTM du niveau précédent de la même couche et/ou la sortie de l'unité LSTM du niveau précédent, et - la sortie finale est obtenue dans la couche Sigmod ; la sortie finale est obtenue dans la couche Sigmod ; compter le nombre de mots et le nombre de mots qui caractérisent le texte à classer, et si le nombre de mots est inférieur ou égal à la moitié du nombre de mots, choisir un résultat de classification basé sur les vecteurs de mots ; sinon, choisir un résultat de classification basé sur les vecteurs de mots.
2. Méthode de classification de fichiers selon la revendication 1, caractérisée en ce que, ladik&/504829 etape comprend les sous-etapes suivantes : obtenir plusieurs textes de formation et les etiquettes de sélection correspondant a chaque texte de formation ; découper chaque texte d'apprentissage séparément pour obtenir une pluralité de mots caractérisant chaque texte d'apprentissage ; vectoriser la pluralité desdits mots caractérisant chaque texte d'apprentissage pour obtenir une pluralité de vecteurs de mots ; introduire la pluralité desdits vecteurs de mots correspondant à chaque texte d'apprentissage, et les étiquettes de sélection correspondant à chaque texte d'apprentissage, dans un réseau neuronal récurrent bidirectionnel empilé basé sur les vecteurs de mots pour l'apprentissage, et optimiser chaque paramètre du réseau neuronal récurrent bidirectionnel empilé pour obtenir un réseau neuronal récurrent bidirectionnel empilé basé sur les vecteurs de mots.
3. Méthode de classification de fichiers selon la revendication 2, caractérisée en ce que, ladite étape comprend les sous-étapes suivantes : obtenir plusieurs textes de formation et les étiquettes de sélection correspondant à chaque texte de formation ; appliquer une coupe de mots à chaque texte d'apprentissage afin d'obtenir une pluralité de mots caractérisant chaque texte d'apprentissage vectoriser la pluralité desdits mots caractérisant chaque texte d'apprentissage afin d'obtenir une pluralité de vecteurs de mots introduire la pluralité desdits vecteurs de mots correspondant à chaque texte d'apprentissage, et les étiquettes de sélection correspondant à chaque texte d'apprentissage, dans un réseau neuronal récurrent bidirectionnel empilé basé sur les vecteurs de mots, et optimiser chaque paramètre du réseau neuronal récurrent bidirectionnel empilé pour obtenir un réseau neuronal récurrent bidirectionnel empilé basé sur les vecteurs de mots.
4. Méthode de classification de fichiers selon la revendication 3, caractérisée en ce que, une pluralité de mots et une pluralité de mots sont obtenues en effectuant des coupes de mots et ab4/504829 coupes de mots sur le texte a classifier et/ou le texte d'apprentissage au moyen d'un modele de Markov invisible.
5. Méthode de classification de fichiers selon la revendication 3, caractérisée en ce que, une pluralité desdits mots et une pluralité desdits mots du texte a classifier et/ou du texte d'entrainement sont vectorisés par word2vec pour obtenir une pluralité de vecteurs de mots et une pluralité de vecteurs de mots, respectivement.
6. Méthode de classification de fichiers selon la revendication 2, caractérisée en ce que, la pluralité desdits textes d'entraînement sont des textes d'entraînement avec des étiquettes de sélection provenant du corpus d'analyse des sentiments chinois de ChnSentiCorp, et/ou des textes provenant d'un ensemble de données de réseau avec des étiquettes de sélection.
7. Support de stockage lisible par ordinateur, qui stocke un programme informatique, caractérisé en ce que, ladite méthode de classification de fichiers selon l'une quelconque des revendications 1 à 6 est réalisée lorsque ledit programme informatique est exécuté par le processeur.
8. Système de classification de fichiers, caractérisé en ce que, il comprend une mémoire et un dispositif de commande, ladite mémoire stockant un programme informatique, caractérisé en ce que, ledit procédé selon l'une quelconque des revendications 1 à 6 est réalisé lorsque ledit dispositif de commande exécute ledit programme informatique.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
LU504829A LU504829B1 (en) | 2023-07-28 | 2023-07-28 | Text classification method, computer readable storage medium and system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
LU504829A LU504829B1 (en) | 2023-07-28 | 2023-07-28 | Text classification method, computer readable storage medium and system |
Publications (1)
Publication Number | Publication Date |
---|---|
LU504829B1 true LU504829B1 (en) | 2024-01-29 |
Family
ID=89808356
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
LU504829A LU504829B1 (en) | 2023-07-28 | 2023-07-28 | Text classification method, computer readable storage medium and system |
Country Status (1)
Country | Link |
---|---|
LU (1) | LU504829B1 (fr) |
-
2023
- 2023-07-28 LU LU504829A patent/LU504829B1/en active
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110245229B (zh) | 一种基于数据增强的深度学习主题情感分类方法 | |
CN108391446B (zh) | 基于机器学习算法对针对数据分类器的训练语料库的自动提取 | |
CN109271513B (zh) | 一种文本分类方法、计算机可读储存介质及系统 | |
CN109492105B (zh) | 一种基于多特征集成学习的文本情感分类方法 | |
KR102403330B1 (ko) | 텍스트 데이터를 표현하는 가상 핑거프린트를 생성 및 활용하기 위한 기법 | |
CN111858878B (zh) | 从自然语言文本中自动提取答案的方法、系统及存储介质 | |
CN111339260A (zh) | 一种基于bert和qa思想的细粒度情感分析方法 | |
CN113987187A (zh) | 基于多标签嵌入的舆情文本分类方法、系统、终端及介质 | |
CN114722805B (zh) | 基于大小导师知识蒸馏的少样本情感分类方法 | |
CN111506732A (zh) | 一种文本多层次标签分类方法 | |
CN110827797A (zh) | 语音应答事件分类处理方法和装置 | |
CN111859909B (zh) | 一种语义场景一致性识别阅读机器人 | |
CN113849653A (zh) | 一种文本分类方法及装置 | |
Jishan et al. | Natural language description of images using hybrid recurrent neural network | |
CN112364743A (zh) | 一种基于半监督学习和弹幕分析的视频分类方法 | |
CN112101029A (zh) | 一种基于bert模型的高校导师推荐管理方法 | |
Perera et al. | Personality Classification of text through Machine learning and Deep learning: A Review (2023) | |
CN117150436B (zh) | 多模态自适应融合的主题识别方法及系统 | |
CN112489689B (zh) | 基于多尺度差异对抗的跨数据库语音情感识别方法及装置 | |
CN116757195A (zh) | 一种基于提示学习的隐性情感识别方法 | |
LU504829B1 (en) | Text classification method, computer readable storage medium and system | |
CN114818711B (zh) | 基于神经网络的多信息融合命名实体识别方法 | |
Nouhaila et al. | Arabic sentiment analysis based on 1-D convolutional neural network | |
CN115906824A (zh) | 一种文本细粒度情感分析方法、系统、介质和计算设备 | |
CN114840680A (zh) | 一种实体关系联合抽取方法、装置、存储介质及终端 |