WO2023173537A1 - 文本情感分析方法、装置、设备及存储介质 - Google Patents
文本情感分析方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- WO2023173537A1 WO2023173537A1 PCT/CN2022/089530 CN2022089530W WO2023173537A1 WO 2023173537 A1 WO2023173537 A1 WO 2023173537A1 CN 2022089530 W CN2022089530 W CN 2022089530W WO 2023173537 A1 WO2023173537 A1 WO 2023173537A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- data
- sentiment analysis
- text
- information
- sentiment
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
Definitions
- the present application relates to the field of semantic recognition technology, and in particular to a text sentiment analysis method, device, equipment and storage medium.
- Sentiment analysis refers to the use of machine learning and natural language processing technology to automatically judge the emotional tendency of texts containing subjective information.
- a common task of sentiment analysis is sentiment classification, which generally labels subjective text with sentiment.
- the commonly used three-category sentiment labels are positive, negative, and neutral.
- Sentiment analysis can provide basic technical support in application scenarios such as public opinion analysis, product evaluation analysis, and news evaluation tendency analysis.
- the main purpose of this application is to provide a text sentiment analysis method, device, equipment and storage medium to solve the problem that the existing interceptive analysis method will destroy the integrity of the text when analyzing the sentiment of the text, resulting in the loss of emotional information. Misleading identification and reducing identification accuracy.
- the first aspect of this application provides a text sentiment analysis method.
- the text sentiment analysis method includes: obtaining data to be analyzed, preprocessing the data to be analyzed, and obtaining text information; and determining whether the length of the text information is Greater than the preset length threshold; if so, call the preset text summary extraction algorithm to streamline the text information to obtain summary data of the text information; input the summary data into the pre-trained sentiment analysis model for analysis Sentiment analysis to obtain the emotional information in the data to be analyzed.
- a second aspect of this application provides a text sentiment analysis device, including: an acquisition module, used to acquire data to be analyzed, and preprocess the data to be analyzed to obtain text information; and a judgment module, used to judge the text Whether the length of the information is greater than the preset length threshold; the summary extraction module is used to call the preset text summary extraction algorithm to streamline the text information to obtain a summary of the text information when it is judged that the length is greater than the preset length threshold Data; an emotion analysis module, used to input the summary data into a pre-trained emotion analysis model for emotion analysis, and obtain the emotion information in the data to be analyzed.
- a third aspect of the present application provides a computer device, including: a memory and at least one processor, instructions stored in the memory; the at least one processor calls the instructions in the memory, so that the computer
- the device performs the following steps: obtains the data to be analyzed, preprocesses the data to be analyzed, and obtains text information; determines whether the length of the text information is greater than the preset length threshold; if so, calls the preset text summary extraction algorithm
- the text information is streamlined to obtain summary data of the text information; the summary data is input into a pre-trained sentiment analysis model for sentiment analysis to obtain the sentiment information in the data to be analyzed. .
- the fourth aspect of the present application provides a computer-readable storage medium. Instructions are stored in the computer-readable storage medium. When run on a computer, the computer is caused to perform the following steps: obtain the data to be analyzed, and analyze the data. Preprocess the data to be analyzed to obtain text information; determine whether the length of the text information is greater than the preset length threshold; if so, call the preset text summary extraction algorithm to streamline the text information to obtain the text Summary data of the information; input the summary data into the pre-trained sentiment analysis model to perform sentiment analysis, and obtain the sentiment information in the data to be analyzed. .
- the method specifically obtains text information through preprocessing of the data to be analyzed, and determines whether the length of the text information is greater than a preset length threshold. If so, the preset text summary extraction algorithm is called to extract the text information.
- the text information is streamlined to obtain the summary data of the text information, thereby avoiding the truncation of the long text and retaining the more comprehensive emotional information in the long text; inputting the summary data into the sentiment analysis obtained by pre-training
- the model performs sentiment analysis to obtain the sentiment information in the data to be analyzed, thereby improving the accuracy of sentiment analysis.
- Figure 1 is a schematic diagram of the first embodiment of the text sentiment analysis method in the embodiment of the present application.
- Figure 2 is a schematic diagram of the second embodiment of the text sentiment analysis method in the embodiment of the present application.
- Figure 3 is a schematic diagram of the third embodiment of the text sentiment analysis method in the embodiment of the present application.
- Figure 4 is a schematic diagram of an embodiment of the text sentiment analysis device in the embodiment of the present application.
- Figure 5 is a schematic diagram of another embodiment of the text sentiment analysis device in the embodiment of the present application.
- Figure 6 is a schematic diagram of an embodiment of a computer device in an embodiment of the present application.
- this application provides a text sentiment analysis method.
- the text information is obtained by preprocessing the data to be analyzed, and it is judged whether the length of the text information is greater than the preset length threshold. If so, the preset text summary extraction algorithm is called to streamline the text information, and the summary data of the text information is obtained.
- the summary data is input into the pre-trained sentiment analysis model for sentiment analysis, and the sentiment information in the data to be analyzed is obtained, thereby avoiding the truncation of long text, retaining the more comprehensive sentiment information in the long text, and improving the efficiency of sentiment analysis. Accuracy.
- the text information in the text information sequence list is filtered according to the set ratio to obtain text information whose length falls within the set ratio of the text information sequence list.
- the length threshold includes at least two levels of length thresholds. In practical applications, which level of length threshold is specifically selected for judgment is specifically determined by the length level of the text, for example, the length level of the text to be processed. If the length is less than 1024, select the one with the length threshold of 512. If it is greater than 1024, select the one with the length threshold of 1024.
- the model can process multiple texts at the same time, select the one with a smaller length threshold, and vice versa.
- the specific model is based on the actual model algorithm. to make sure.
- the length threshold includes more than three levels, for example, three length thresholds are included, then the length thresholds are recorded as the first threshold, the second threshold and the third threshold in order from small to large, and the length of the text information is determined in which two levels. between adjacent length thresholds, and select the smaller length threshold among them. For example, when the length of the text information is greater than the first threshold and less than the second threshold, it is determined that the length of the text information is between the first threshold and the second threshold, and the smaller first threshold is selected.
- the preset text summary extraction algorithm is called to streamline the text information and obtain summary data of the text information;
- undirected weighted edges between nodes are constructed to obtain the node connection graph of text information
- feature information in each sentence is extracted to form corresponding nodes, including:
- Extracting sentences from text information is achieved by processing the input text information using a sentiment analysis model.
- the sentiment analysis model can use a semantic recognition model, such as the Bert model or the Gpt2 model.
- the sentiment analysis model adopts the Bert model
- the text information is encoded by the Bert model into an identifier combination that can be recognized by the model, where the identifier There is a correspondence relationship with the sentences, words, punctuation and the relationship between words in the text information.
- the Bert model is used to traverse the representative identifiers in text information to extract sentences.
- text information can also be split based on identifiers representing periods to extract sentences in text information.
- the input text information is processed by the sentiment analysis model.
- the sentiment analysis model adopts the Bert model
- the feature information in each sentence is obtained by traversing the vector values corresponding to the feature information contained in each sentence.
- the feature information in each sentence can also be extracted by obtaining the identifier representing each word in the sentence and summarizing all identifiers contained in the same sentence.
- the input text information is processed by the sentiment analysis model.
- the identifier corresponding to each sentence and the identifiers of all the feature information contained in it are constructed into nodes according to the data structure compatible with the model, thereby forming corresponding nodes, where each node represents For a sentence, the feature information contained on the node represents the feature information contained in the sentence.
- iteratively calculating the similarity between the feature information corresponding to each node and the feature information corresponding to other nodes includes using the following formula to calculate the similarity between nodes:
- Similarity represents the similarity between two nodes
- Si and Sj represent two nodes respectively
- the subscripts i and j represent the number of the node
- ⁇ k represents the characteristic information corresponding to the node
- the subscript k in ⁇ k refers to any one such that ⁇ k is a value that meets the conditions.
- the subscript k in ⁇ k makes ⁇ k satisfy the condition that ⁇ k belongs to the feature information contained in nodes Si and Sj at the same time.
- each node corresponds to a sentence
- the feature information corresponding to the node is the feature information in the sentence.
- the denominator part on the right side of the equal sign in the formula is a logarithmic sum of the modulus of the two nodes, indicating the total amount of feature information contained in each node.
- the logarithmic summation method is adopted to solve the problem corresponding to a long sentence.
- the molecule part on the right side of the equal sign in the formula represents the feature information that appears in both nodes Si and Sj.
- undirected weighted edges between nodes are constructed to obtain a node connection graph of text information, including:
- calculating the weight of each sentence based on the node connection graph includes using the following formula to calculate the weight of each sentence based on the node connection graph:
- WS(Vi) on the left side of the equal sign of the formula represents the weight of sentence i, and the sum on the right side represents the contribution of each adjacent sentence to this sentence.
- d represents the damping coefficient, which is 0.85 in this embodiment, WS(Vi) represents the weight of sentence i, WS(Vj) represents the weight of sentence j, Wji represents the weight of sentence j calculated in the last iteration, Wjk represents the weight of sentence k calculated in the last iteration, V j ⁇ In(V i ) represents the number of identical feature information in sentence j and sentence i, V k ⁇ Out(V j ) represents the sum of sentences in sentence k and The number of different feature information between j.
- V ⁇ In(V i ) represents the number of identical feature information in sentence j and sentence i
- V k ⁇ Out(V j ) represents the sum of sentences in sentence k and The number of different feature information between j.
- a sentence weight table including:
- the sentence weight table is arranged in descending order of weight to facilitate the extraction of sentences with high weights.
- a method of arranging in ascending order of weights may also be adopted.
- parameters such as the length of the sentence, the amount of feature information contained in the sentence, and the position of the sentence in the original document can be calculated simultaneously during the sorting process of the sentence weight table, and the sorting can be performed comprehensively .
- the number of sentences is calculated, including:
- the summary data of the text information is constructed according to the sentence order in the text, including:
- Filter the selected sentences according to the preset filtering method for example, filter according to the preset threshold for sentence length in the abstract, and remove sentences whose length is not within the preset threshold;
- This step specifically includes:
- the vector set is mapped and normalized according to the operation rules of the sentiment analysis model to obtain the probability distribution result in the sentiment analysis dimension;
- each emotion analysis dimension corresponding to the emotion analysis model the probability distribution interval corresponding to the statistical probability distribution result is obtained. According to the correspondence between each probability distribution interval in the emotion analysis model and the emotional information represented, the data to be analyzed is obtained. Emotional information.
- the vector set is mapped and normalized according to the operation rules of the sentiment analysis model to obtain a probability distribution result in the sentiment analysis dimension, including :
- the softmax algorithm is used to normalize the mapping value to obtain a probability value in the probability interval from 0 to 1.
- the probability distribution interval corresponding to the statistical probability distribution result is determined based on the relationship between each probability distribution interval in the emotion analysis model and the expressed emotion information. Correspondence relationship to obtain the emotional information in the data to be analyzed, including:
- the sentiment analysis dimensions corresponding to the sentiment analysis model include at least two dimensions, for example, the two sentiment analysis dimensions of positive and negative. In practical applications, according to the application scenarios of sentiment analysis, more sentiment analysis dimensions can be set, for example, the three sentiment analysis dimensions of positive, neutral and negative.
- the probability distribution result at least includes the probability value obtained by analyzing the data to be analyzed through the sentiment analysis model and the probability distribution corresponding to different data.
- the presentation method of the probability value is determined according to the selected sentiment analysis model, for example, it is presented by a probability value between 0 and 1.
- the presentation method of probability distributions corresponding to different data is determined according to the selected sentiment analysis model. For example, it is presented through a probability distribution list, which contains different data identification numbers and their corresponding probability distributions in each sentiment analysis dimension.
- the correspondence between each probability distribution interval and the emotional information represented is determined based on the selected emotional analysis model. For example, according to the selected emotional analysis model, in the "positive" emotional analysis dimension, the probability distribution is 0.6
- the emotional information of the above corresponding data is judged as "positive”.
- the presentation method of emotional information is determined according to the selected emotional analysis model. For example, it is presented through an emotional information list. The list contains emotional analysis results represented by different data identification numbers and their corresponding probability distribution intervals.
- the pre-trained sentiment analysis model is trained in the following way:
- the emotional information in the training data calculate the loss value through the cross entropy function, record the loss value and the parameter characteristics of the emotional analysis model to be trained;
- the training data and verification data are respectively input into the sentiment analysis model to be trained in a preset manner for sentiment analysis, and based on the sentiment information in the training data, the loss value is calculated through the cross entropy function, and the loss value and the sentiment analysis to be trained are recorded.
- the parameter characteristics of the model are used until the corresponding loss value and the parameter characteristics of the sentiment analysis model to be trained meet the preset standards, and the sentiment analysis model is obtained.
- the text data is marked according to the preset label marking method, so that the text data is marked with corresponding label information, and a set of text data and corresponding label information is obtained, which is recorded as sentiment analysis corpus set, including:
- the preset sentiment analysis dimensions select the corresponding label marking method and label the text data so that the text data is marked with the corresponding label information, and a collection of text data and corresponding label information is obtained.
- the text data is marked according to the emotional label labeling method of text sentiment analysis as "positive”, “negative” and "neutral" sentiment analysis dimensions.
- the data in the sentiment analysis corpus is classified according to the preset proportion and classification method to obtain training data, verification data and test data, including:
- the default ratio of training data, validation data and test data is 8:1:1.
- the preset proportions of training data, validation data, and test data are determined based on the selected sentiment analysis model.
- the sentiment analysis model to be trained includes:
- text information is obtained through preprocessing of the data to be analyzed, and it is judged whether the length of the text information is greater than the preset length threshold. If so, the preset text summary extraction algorithm is called to streamline the text information, and we get For the summary data of text information, the summary data is input into the pre-trained sentiment analysis model for sentiment analysis, and the sentiment information in the data to be analyzed is obtained, thus avoiding the truncation of long texts and retaining the more comprehensive sentiments in long texts. information, improving the accuracy of sentiment analysis.
- noise in the text data is removed to obtain noise-removed text data; the text form of the noise-removed text data is converted into a preset text form to obtain the converted text data; the converted format is The resulting text data is classified and filtered according to preset categories and features to obtain text information.
- the length threshold includes at least two levels of length thresholds. In practical applications, which level of length threshold is specifically selected for judgment is specifically determined by the length level of the text, for example, the length level of the text to be processed. If the length is less than 1024, select the one with the length threshold of 512. If it is greater than 1024, select the one with the length threshold of 1024.
- the sentences in the text information are extracted through processing of the input text information by the sentiment analysis model.
- the sentiment analysis model can use a semantic recognition model, such as the Bert model or the Gpt2 model.
- the sentiment analysis model adopts the Bert model
- the text information is encoded by the Bert model into an identifier combination that can be recognized by the model, where the identifier There is a correspondence relationship with the sentences, words, punctuation and the relationship between words in the text information.
- the Bert model is used to traverse the representative identifiers in text information to extract sentences.
- text information can also be split based on identifiers representing periods to extract sentences in text information. Integrate the feature information in each sentence into the corresponding nodes.
- the summary extraction algorithm includes a calculation extraction algorithm based on sentence weight, such as the TextRank algorithm, and a calculation extraction algorithm based on boundary values, such as the maximum boundary correlation algorithm MMR (Maximal Marginal Relevance).
- keyword extraction refers to the process of determining some terms from the text that can describe the meaning of the document.
- extracting keywords in the text includes constructing a vertex set. Specifically, one or more words in the sentence are used as text units, and the TextRank algorithm is used based on the text unit. Build a vertex set.
- edges can also be constructed based on the relationships between these words, for example, relationships that appear in the same semantic box.
- syntactic filters can be used to optimize the vertex set according to the needs of the task.
- the function of the grammar filter is to filter out words of a certain type or several types of parts of speech as vertex sets.
- the key phrase is constructed based on the adjacent relationship
- the similarity between the sentences is calculated based on the degree of content duplication between the two sentences, and the weight corresponding to each sentence is obtained by iteratively calculating the similarity of each sentence to extract the highest weight.
- the degree of content duplication is mainly calculated based on the degree of overlap between the aforementioned keywords and key phrases, including using the cosine similarity formula to calculate the similarity between nodes:
- N(u) represent the feature information set of node u that has had positive feedback
- N(v) be the feature information set of node v that has had positive feedback
- Wuv represents node u. and the similarity between node v.
- the softmax algorithm is used to normalize the mapping value. Specifically, the softmax value is calculated in the following way:
- Vi represents the i-th element in V
- the Softmax value of this element is:
- e represents the natural logarithm
- j represents the number of elements
- the Softmax value of the i-th element is the ratio of the index of the element to the sum of the indices of all elements.
- the Softmax algorithm is used to convert the mapping value to the probability interval of 0 to 1 to achieve normalization of the mapping value;
- the probability values in the probability interval from 0 to 1 are statistically calculated to obtain the probability distribution result in the sentiment analysis dimension.
- each emotion analysis dimension corresponding to the emotion analysis model the probability distribution interval corresponding to the statistical probability distribution result is obtained. According to the correspondence between each probability distribution interval in the emotion analysis model and the emotional information represented, the data to be analyzed is obtained. emotional information in.
- the sentiment analysis dimensions corresponding to the sentiment analysis model include at least two dimensions, for example, the two sentiment analysis dimensions of positive and negative. In practical applications, according to the application scenarios of sentiment analysis, more sentiment analysis dimensions can be set, for example, the three sentiment analysis dimensions of positive, neutral and negative.
- the probability distribution result at least includes the probability value obtained by analyzing the data to be analyzed through the sentiment analysis model and the probability distribution corresponding to different data.
- the presentation method of the probability value is determined according to the selected sentiment analysis model, for example, it is presented by a probability value between 0 and 1.
- the presentation method of probability distributions corresponding to different data is determined according to the selected sentiment analysis model. For example, it is presented through a probability distribution list, which contains different data identification numbers and their corresponding probability distributions in each sentiment analysis dimension.
- the correspondence between each probability distribution interval and the emotional information represented is determined based on the selected emotional analysis model. For example, according to the selected emotional analysis model, in the "positive" emotional analysis dimension, the probability distribution is 0.6
- the emotional information of the above corresponding data is judged as "positive”.
- the presentation method of emotional information is determined according to the selected emotional analysis model. For example, it is presented through an emotional information list. The list contains emotional analysis results represented by different data identification numbers and their corresponding probability distribution intervals.
- text information is obtained through preprocessing of the data to be analyzed, and it is judged whether the length of the text information is greater than the preset length threshold. If so, the preset text summary extraction algorithm is called to streamline the text information, and we get Summary data of text information.
- the preset text summary extraction algorithm is called to streamline the text information, and we get Summary data of text information.
- keywords, key phrases and key sentences are selected based on similarity to form summary data, which can retain the information of important sentences in the text; the summary data is input into the sentiment analysis obtained by pre-training.
- the model performs sentiment analysis to obtain the sentiment information in the data to be analyzed, thus avoiding the truncation of long text, retaining the more comprehensive sentiment information in the long text, and improving the accuracy of sentiment analysis.
- the text information in the text information sequence list is filtered according to the set ratio to obtain text information whose length falls within the set ratio of the text information sequence list.
- the length threshold includes at least two levels of length thresholds. In practical applications, which level of length threshold is specifically selected for judgment is specifically determined by the length level of the text, for example, the length level of the text to be processed. If the length is less than 1024, select the one with the length threshold of 512. If it is greater than 1024, select the one with the length threshold of 1024.
- Extracting sentences from text information is achieved by processing the input text information using a sentiment analysis model.
- the sentiment analysis model can use a semantic recognition model, such as the Bert model or the Gpt2 model.
- the sentiment analysis model adopts the Bert model
- the text information is encoded by the Bert model into an identifier combination that can be recognized by the model, where the identifier There is a correspondence relationship with the sentences, words, punctuation and the relationship between words in the text information.
- the Bert model is used to traverse the representative identifiers in text information to extract sentences.
- text information can also be split based on identifiers representing periods to extract sentences in text information.
- the input text information is processed by the sentiment analysis model.
- the sentiment analysis model adopts the Bert model
- the feature information in each sentence is obtained by traversing the vector values corresponding to the feature information contained in each sentence.
- the feature information in each sentence can also be extracted by obtaining the identifier representing each word in the sentence and summarizing all identifiers contained in the same sentence.
- the input text information is processed by the sentiment analysis model.
- the identifier corresponding to each sentence and the identifiers of all the feature information contained in it are constructed into nodes according to the data structure compatible with the model, thereby forming corresponding nodes, where each node represents For a sentence, the feature information contained on the node represents the feature information contained in the sentence.
- Similarity represents the similarity between two nodes
- Si and Sj represent two nodes respectively
- the subscripts i and j represent the number of the node
- ⁇ k represents the characteristic information corresponding to the node
- the subscript k in ⁇ k refers to any one such that ⁇ k is a value that meets the conditions.
- the subscript k in ⁇ k makes ⁇ k satisfy the condition that ⁇ k belongs to the feature information contained in nodes Si and Sj at the same time.
- each node corresponds to a sentence
- the feature information corresponding to the node is the feature information in the sentence.
- the denominator part on the right side of the equal sign in the formula is a logarithmic sum of the modulus of the two nodes, indicating the total amount of feature information contained in each node.
- the logarithmic summation method is adopted to solve the problem corresponding to a long sentence.
- the molecule part on the right side of the equal sign in the formula represents the feature information that appears in both nodes Si and Sj.
- the denominator part on the right side of the equal sign in the formula can also be used to calculate the denominator of the two nodes.
- the total amount of feature information is processed by taking the arithmetic square root and summing it up. At this time, the formula is as follows:
- the weight is the similarity between the vertices, and the used to the graph.
- the weighted graph can include an undirected weighted graph and a directed weighted graph.
- step in this embodiment, specifically, it includes using the following formula to calculate the weight of each sentence according to the node connection graph:
- WS(Vi) on the left side of the equal sign of the formula represents the weight of sentence i, and the sum on the right side represents the contribution of each adjacent sentence to this sentence.
- d represents the damping coefficient, which is 0.85 in this embodiment, WS(Vi) represents the weight of sentence i, WS(Vj) represents the weight of sentence j, Wji represents the weight of sentence j calculated in the last iteration, Wjk represents the weight of sentence k calculated in the last iteration, V j ⁇ In(V i ) represents the number of identical feature information in sentence j and sentence i, V k ⁇ Out(V j ) represents the sum of sentences in sentence k and The number of different feature information between j.
- V ⁇ In(V i ) represents the number of identical feature information in sentence j and sentence i
- V k ⁇ Out(V j ) represents the sum of sentences in sentence k and The number of different feature information between j.
- a single document can be generated and extracted using a method similar to that of multiple documents, that is, the aforementioned formula is used to calculate in each corresponding document window to achieve the key phrases in a single document. Generation and extraction.
- the sentence weight table is arranged in descending order of weight to facilitate the extraction of sentences with high weights.
- a method of arranging in ascending order of weights may also be adopted.
- parameters such as the length of the sentence, the amount of feature information contained in the sentence, and the position of the sentence in the original document can be calculated simultaneously during the sorting process of the sentence weight table, and the sorting can be performed comprehensively .
- the median sentence length can also be used, or other statistical methods can be used based on other preset calculation methods.
- the number of sentences can also be calculated by first multiplying or reducing the set threshold of the text length and then performing division operation.
- Filter the selected sentences according to the preset filtering method for example, filter according to the preset threshold for sentence length in the abstract, and remove sentences whose length is not within the preset threshold;
- This step specifically includes:
- the vector set is mapped and normalized according to the operation rules of the sentiment analysis model to obtain the probability distribution result in the sentiment analysis dimension;
- each emotion analysis dimension corresponding to the emotion analysis model the probability distribution interval corresponding to the statistical probability distribution result is obtained. According to the correspondence between each probability distribution interval in the emotion analysis model and the emotional information represented, the data to be analyzed is obtained. Emotional information.
- the vector set is mapped and normalized according to the operation rules of the sentiment analysis model to obtain a probability distribution result in the sentiment analysis dimension, including :
- the softmax algorithm is used to normalize the mapping values.
- text information is obtained through preprocessing of the data to be analyzed, and it is judged whether the length of the text information is greater than the preset length threshold. If so, the preset text summary extraction algorithm is called to streamline the text information, and we get Summary data of text information.
- sentences in the summary can be selected mainly based on the weight of the sentences, and the information of important sentences can be retained; the summary data is input into the pre-trained sentiment analysis model for sentiment analysis to obtain the data to be analyzed.
- the emotional information in the long text is avoided, thereby avoiding the truncation of long text, retaining the more comprehensive emotional information in the long text, and improving the accuracy of emotional analysis.
- One embodiment of the text sentiment analysis device in the embodiment of the present application includes:
- the acquisition module 501 is used to obtain the data to be analyzed, and preprocess the data to be analyzed to obtain text information;
- Determination module 502 used to determine whether the length of text information is greater than a preset length threshold
- the summary extraction module 503 is used to call a preset text summary extraction algorithm to streamline the text information and obtain summary data of the text information when the length is judged to be greater than the preset length threshold;
- the sentiment analysis module 504 is used to input summary data into a pre-trained sentiment analysis model to perform sentiment analysis and obtain sentiment information in the data to be analyzed.
- text information is obtained through preprocessing of the data to be analyzed, and it is judged whether the length of the text information is greater than the preset length threshold; if so, the preset text summary extraction algorithm is called to streamline the text information, and we get
- the summary data of the text information is input into the pre-trained sentiment analysis model for sentiment analysis, and the sentiment information in the data to be analyzed is obtained, thereby solving the problem of inconsistency in information after truncation of long text in the existing technology. Complete problems affecting emotion recognition.
- Another embodiment of the text sentiment analysis device in the embodiment of the present application includes:
- the acquisition module 501 is used to obtain the data to be analyzed, and preprocess the data to be analyzed to obtain text information;
- Determination module 502 used to determine whether the length of text information is greater than a preset length threshold
- the summary extraction module 503 is used to call a preset text summary extraction algorithm to streamline the text information and obtain summary data of the text information when the length is judged to be greater than the preset length threshold;
- the sentiment analysis module 504 is used to input summary data into a pre-trained sentiment analysis model to perform sentiment analysis and obtain sentiment information in the data to be analyzed.
- the acquisition module 501 includes:
- Data acquisition unit 5011 used to acquire data to be analyzed
- the preprocessing unit 5012 is used to preprocess the data to be analyzed to obtain text information
- the preprocessing unit 5012 is specifically used to:
- the text information in the text information sequence list is filtered according to the set ratio to obtain text information whose length falls within the set ratio of the text information sequence list.
- the summary extraction module 503 includes:
- the extraction unit 5031 is used to obtain each sentence in the text information, extract the feature information in each sentence, and form corresponding nodes;
- the first calculation unit 5032 is used to iteratively calculate the similarity between the feature information corresponding to each node and the feature information corresponding to other nodes;
- the construction unit 5033 is used to construct undirected weighted edges between nodes based on similarity to obtain a node connection graph of text information
- the second calculation unit 5034 is used to calculate the weight of each sentence according to the node connection graph
- the sorting unit 5035 is used to sort sentences according to weights to obtain a sentence weight table
- the third calculation unit 5036 is used to calculate the number of sentences according to the set threshold of text length
- the summary extraction unit 5037 is used to select sentences equal to the number of sentences from the sentence weight table in descending order of weight, and construct summary data of the text information according to the order of sentences in the text.
- the sentiment analysis module 504 includes:
- the vectorization unit 5041 is used to input summary data into the pre-trained sentiment analysis model, extract all feature information of the summary data, and convert each feature information into corresponding vectors to obtain a vector set;
- the normalization processing unit 5042 is used to map and normalize the vector set according to the sentiment analysis model and the operation rules of the sentiment analysis model to obtain a probability distribution result in the sentiment analysis dimension;
- the statistical analysis unit 5043 is used to calculate the probability distribution interval corresponding to the statistical probability distribution result in each emotion analysis dimension corresponding to the emotion analysis model, based on the corresponding relationship between each probability distribution interval in the emotion analysis model and the emotional information represented. , to obtain the emotional information in the data to be analyzed.
- the text information is obtained through preprocessing of the data to be analyzed, and it is judged whether the length of the text information is greater than the preset length threshold; if so, the preset text summary extraction algorithm is called to streamline the text information.
- the preset text summary extraction algorithm is called to streamline the text information.
- FIG. 6 an embodiment of the computer device in the embodiment of the present application is described in detail below from the perspective of hardware processing.
- FIG. 6 is a schematic structural diagram of a computer device provided by an embodiment of the present application.
- the computer device 600 may vary greatly due to different configurations or performance, and may include one or more processors (central processing units, CPU) 610 (eg, one or more processors) and memory 620, one or more storage media 630 (eg, one or more mass storage devices) storing applications 633 or data 632.
- the memory 620 and the storage medium 630 may be short-term storage or persistent storage.
- the program stored in the storage medium 630 may include one or more modules (not shown in the figure), and each module may include a series of instruction operations on the computer device 600 .
- the processor 610 may be configured to communicate with the storage medium 630 and execute a series of instruction operations in the storage medium 630 on the computer device 600 .
- Computer device 600 may also include one or more power supplies 640, one or more wired or wireless network interfaces 650, one or more input and output interfaces 660, and/or, one or more operating systems 631, such as Windows Serve, Mac OS X, Unix, Linux, FreeBSD and more.
- operating systems 631 such as Windows Serve, Mac OS X, Unix, Linux, FreeBSD and more.
- the computer-readable storage medium can be a non-volatile computer-readable storage medium.
- the computer-readable storage medium can also be a volatile computer-readable storage medium.
- the computer-readable storage medium can be a non-volatile computer-readable storage medium. There are instructions stored in the read storage medium.
- the computer When the instructions are run on the computer, the computer performs the following steps: obtain the data to be analyzed, preprocess the data to be analyzed, and obtain text information; determine whether the length of the text information is Greater than the preset length threshold; if so, call the preset text summary extraction algorithm to streamline the text information to obtain summary data of the text information; input the summary data into the pre-trained sentiment analysis model for analysis Sentiment analysis to obtain the emotional information in the data to be analyzed. .
- Artificial intelligence is the use of digital computers or machines controlled by digital computers to simulate, extend and expand human intelligence, perceive the environment, acquire Knowledge and use of knowledge to achieve optimal results in theories, methods, techniques and application systems. Specifically, it can be executed based on a server.
- the server can be an independent server, or it can provide cloud services, cloud databases, cloud computing, cloud functions, cloud storage, network services, cloud communications, middleware services, domain name services, and security services. , Content Delivery Network (CDN), and cloud servers for basic cloud computing services such as big data and artificial intelligence platforms.
- CDN Content Delivery Network
- Integrated units may be stored in a computer-readable storage medium if they are implemented in the form of software functional units and sold or used as independent products.
- the technical solution of the present application is essentially or contributes to the existing technology, or all or part of the technical solution can be embodied in the form of a software product, and the computer software product is stored in a storage medium , including several instructions to cause a computer device (which may be a personal computer, a server, or a network device, etc.) to execute all or part of the steps of the methods of various embodiments of the present application.
- the aforementioned storage media include: U disk, mobile hard disk, read-only memory (ROM), random access memory (RAM), magnetic disk or optical disk and other media that can store program code. .
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种文本情感分析方法、装置、设备及存储介质,涉及语义识别技术领域。通过对于待分析数据的预处理得到文本信息(101),判断文本信息的长度是否大于预设长度阈值(102);若是,则调用预设的文本摘要提取算法对文本信息进行精简处理,得到文本信息的摘要数据(103),将摘要数据输入至预先训练得到的情感分析模型进行情感分析,得到待分析数据中的情感信息(104),从而解决了现有技术中对长文本进行截断处理后,由于信息的不完整,影响情感识别的问题。
Description
本申请要求于2022年03月17日提交中国专利局、申请号为202210263353.5、发明名称为“文本情感分析方法、装置、设备及存储介质”的中国专利申请的优先权,其全部内容通过引用结合在申请中。
本申请涉及语义识别技术领域,尤其涉及一种文本情感分析方法、装置、设备及存储介质。
情感分析指的是利用机器学习与自然语言处理技术自动对包含主观信息的文本进行情感倾向性判断。情感分析常见的任务是情感分类,一般会给主观文本打上情感标签,常用的情感三分类标签分为正面、负面、中性。情感分析可在舆情分析、产品评价分析以及新闻评价倾向分析等应用场景下提供基础技术支持。
现有的文本情感分析技术通常采用基于深度学习的算法,因为该算法需要非常庞大的计算能力,所以采用该算法的模型对于要分析的文本具有长度的限制,如果长度超过其限制,一般都是做截断处理。像新闻这类文章的字数常常能达到几千甚至有些上万字,对其进行截断处理很可能导致保留的文章代表不了文章的情感,基于截断处理后的文本进行的情感分析容易误判原文章的情感,导致其对于长文本进行情感分析的准确度较低。
发明内容
本申请的主要目的是提供一种文本情感分析方法、装置、设备及存储介质,以解决现有的截取式分析方法在对文本的情感分析时,会破坏文本的完整性,而导致情感信息的误导识别,降低识别准确性的问题。
本申请第一方面提供了一种文本情感分析方法,所述文本情感分析方法包括:获取待分析数据,并对所述待分析数据进行预处理,得到文本信息;判断所述文本信息的长度是否大于预设长度阈值;若是,则调用预设的文本摘要提取算法对所述文本信息进行精简处理,得到所述文本信息的摘要数据;将所述摘要数据输入至预先训练得到的情感分析模型进行情感分析,得到所述待分析数据中的情感信息。
本申请第二方面提供了一种文本情感分析装置,包括:获取模块,用于获取待分析数据,并对所述待分析数据进行预处理,得到文本信息;判断模块,用于判断所述文本信息的长度是否大于预设长度阈值;摘要提取模块,用于在判断长度大于预设长度阈值时,调用预设的文本摘要提取算法对所述文本信息进行精简处理,得到所述文本信息的摘要数据;情感分析模块,用于将所述摘要数据输入至预先训练得到的情感分析模型进行情感分析,得到所述待分析数据中的情感信息。
本申请第三方面提供了一种计算机设备,包括:存储器和至少一个处理器,所述存储器中存储有指令;所述至少一个处理器调用所述存储器中的所述指令,以使得所述计算机设备执行以下步骤:获取待分析数据,并对所述待分析数据进行预处理,得到文本信息;判断所述文本信息的长度是否大于预设长度阈值;若是,则调用预设的文本摘要提取算法对所述文本信息进行精简处理,得到所述文本信息的摘要数据;将所述摘要数据输入至预先训练得到的情感分析模型进行情感分析,得到所述待分析数据中的情感信息。。
本申请的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行以下步骤:获取待分析数据,并对所述待分析数据进行预处理,得到文本信息;判断所述文本信息的长度是否大于预设长度阈值;若是,则调用预设的文本摘要提取算法对所述文本信息进行精简处理,得到所述文本信息的摘要数据;将所述摘要数据输入至预先训练得到的情感分析模型进行情感分析,得到所述待分析数据中的情感信息。。
本申请的技术方案中,该方法具体是通过对于待分析数据的预处理得到文本信息,判 断所述文本信息的长度是否大于预设长度阈值,若是,则调用预设的文本摘要提取算法对所述文本信息进行精简处理,得到所述文本信息的摘要数据,从而避免了对长文本的截断处理,保留了长文本中较为全面的情感信息;将所述摘要数据输入至预先训练得到的情感分析模型进行情感分析,得到所述待分析数据中的情感信息,提高了情感分析的准确度。
图1为本申请实施例中为文本情感分析方法的第一个实施例示意图;
图2为本申请实施例中为文本情感分析方法的第二个实施例示意图;
图3为本申请实施例中为文本情感分析方法的第三个实施例示意图;
图4为本申请实施例中文本情感分析装置的一个实施例示意图;
图5为本申请实施例中文本情感分析装置的另一个实施例示意图;
图6为本申请实施例中计算机设备的一个实施例示意图。
为了现有技术对于文本进行文本情感分析时存在的准确度较低的问题,本申请提供了一种文本情感分析方法。通过对于待分析数据的预处理得到文本信息,判断文本信息的长度是否大于预设长度阈值,若是,则调用预设的文本摘要提取算法对文本信息进行精简处理,得到文本信息的摘要数据,将摘要数据输入至预先训练得到的情感分析模型进行情感分析,得到待分析数据中的情感信息,从而避免了对长文本的截断处理,保留了长文本中较为全面的情感信息,提高了情感分析的准确度。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于理解,下面对本申请实施例的具体流程进行描述,请参阅图1,本申请实施例中文本情感分析方法的第一个实施例,该方法的实现步骤如下:
101、获取待分析数据,并对待分析数据进行预处理,得到文本信息;
在本实施例中,具体地,包括:
对获取待分析数据进行数据清洗,得到经过数据清洗后的文本数据;
对经过数据清洗后的文本数据按照预设的文本类别进行分类,得到被归类于文本类别的文本信息;
统计文本信息的长度,得到按照长度排列的文本信息序列表,其中,文本信息序列表包含文本信息序列号和对应长度;
按照设定比例对文本信息序列表中的文本信息进行筛选,得到长度落入文本信息序列表设定比例内的文本信息。
102、判断文本信息的长度是否大于预设长度阈值;
在本实施例中,该长度阈值包括至少两个等级的长度阈值,在实际应用中,具体选择哪个等级的长度阈值进行判断,具体是通过文本的长度等级来确定,例如,待处理的文本的长度在1024以下的,则选择长度阈值为512的,若是大于1024的,则选择长度阈值为1024的。
当然,也可以根据后续的情感分析模型对数据处理的能力来确定,例如该模型可以同时处理多个文本时,则选择长度阈值较小的,反之则选较大的,具体根据实际的模型算法来确定。
若长度阈值包括三个等级以上时,例如,包括三个长度阈值,则按照长度阈值从小到大的顺序分别记为第一阈值、第二阈值和第三阈值,判断文本信息的长度位于哪两个相邻 的长度阈值之间,并选取其中较小的长度阈值。例如,当文本信息的长度大于第一阈值且小于第二阈值时,则判定文本信息的长度位于第一阈值和第二阈值之间,此时选取其中较小的第一阈值。
103、若文本信息的长度大于预设长度阈值,则调用预设的文本摘要提取算法对文本信息进行精简处理,得到文本信息的摘要数据;
在该步骤中,具体地,包括:
获取文本信息中的每个句子,提取每个句子中的特征信息,形成对应的节点;
迭代计算各节点对应的特征信息与其他节点对应的特征信息的相似度;
根据相似度,构造各节点之间的无向有权边,得到文本信息的节点连接图;
根据节点连接图计算每个句子的权重;
将句子按照权重排序,得到句子权重表;
根据文本长度的设定阈值,计算句子数目;
按照权重降序顺序从句子权重表中选取数目为句子数目的句子,按照文本中的语句顺序构建文本信息的摘要数据。
在本实施例中,进一步地,对于获取文本信息中的每个句子,提取每个句子中的特征信息,形成对应的节点,包括:
对于提取文本信息中的句子,通过情感分析模型对于输入的文本信息的处理来实现,其中,情感分析模型可以采用语义识别模型,例如采用Bert模型或者Gpt2模型。在本实施例中,具体地,当情感分析模型采用Bert模型时,在文本信息被输入至Bert模型后,通过Bert模型将文本信息编码成该模型所能识别的标识符组合,其中,标识符与文本信息中的句子、词语、标点以及词语之间的关系存在对应关系。通过Bert模型遍历文本信息中代表标识符来提取句子。在实际应用中,也可以根据代表句号的标识符来进行文本信息的拆分,从而提取文本信息中的句子。
对于提取每个句子中的特征信息,通过情感分析模型对于输入的文本信息的处理来实现。在本实施例中,具体地,当情感分析模型采用Bert模型时,则通过遍历每个句子中包含的特征信息对应向量值来每个句子中的特征信息。在实际应用中,也可以通过获取代表句子中每个词语的标识符,并将包含于同一个句子的所有标识符进行汇总,从而提取每个句子中的特征信息。
对于形成对应的节点,通过情感分析模型对于输入的文本信息的处理来实现。在本实施例中,具体地,将每个句子对应的标识符和其包含的所有特征信息的标识符按照模型所能兼容的数据结构构建节点,从而形成对应的节点,其中,每个节点代表一个句子,节点上包含的特征信息代表着该句子所包含的特征信息。
在本实施例中,进一步地,对于迭代计算各节点对应的特征信息与其他节点对应的特征信息的相似度,包括使用如下公式计算节点之间的相似度:
其中,Similarity表示两个节点间的相似度,Si、Sj分别表示两个节点,下标i和j表示节点的编号,ωk表示节点对应的特征信息,ωk中的下标k指代任意一个使得ωk符合条件的值,在上述公式中,ωk中的下标k使得ωk满足的条件为:使得ωk同时属于节点Si和Sj所包含的特征信息。在本实施例中,每个节点对应一个句子,节点对应的特征信息即为句子中的特征信息。公式中等号右侧的分母部分对于两个节点的模取对数相加,表示各自节点所包含的特征信息总量,采取分别取对数求和的处理方式,用于解决当长句子对应的节点包含的特征信息较多时,其中一部分特征信息对于计算相似度缺少贡献的问题;公式中等号右侧的分子部分表示同时出现于Si和Sj两个节点中的特征信息。
在本实施例中,进一步地,对于根据相似度,构造各节点之间的无向有权边,得到文 本信息的节点连接图,包括:
连接具有相似度的节点,构造无向无权边;
获取各节点与其他节点间的相似度,将该相似度标注为无向无权边的权值,构造无向有权边,得到节点连接图。
在本实施例中,进一步地,对于根据节点连接图计算每个句子的权重,包括采用如下公式根据节点连接图计算每个句子的权重:
在本实施例中,公式等号左侧的WS(Vi)表示句子i的权重,右侧的求和表示每个相邻句子对本句子的贡献程度。d表示阻尼系数,在本实施例中该系数为0.85,WS(Vi)表示句子i的权重,WS(Vj)表示句子j的权重,Wji表示上次迭代计算得出的句子j的权重,Wjk表示上次迭代计算得出的句子k的权重,V
j∈In(V
i)表示句子j中和句子i之间相同的特征信息数量,V
k∈Out(V
j)表示句子k中和句子j之间不同的特征信息数量。在本实施例中,对于文本信息中的单个文档所形成的节点连接图,我们可以粗略地认为该文档中所有句子都是相邻的,可以在采用前述公式迭代计算句子的权重时减少计算量。
在本实施例中,进一步地,对于将句子按照权重排序,得到句子权重表,包括:
获取所有句子节点的序列号与其对应的权重值,得到未排序的句子权重表;
将未排序的句子权重表的每一项按照权重进行排序。
在本实施例中,对于句子权重表按照权重降序排列,便于对权重高的句子的抽取,当然,根据所采取的对权重高的句子的抽取方式不同,也可以采用按照权重升序排列的方式。在实际应用中,根据采用的重要句子抽取方式的不同,可以在句子权重表的排序过程中同时计算诸如句子长度、句子包含的特征信息的多少以及句子在原文档中的位置等参数,综合进行排序。
在本实施例中,进一步地,对于根据文本长度的设定阈值,计算句子数目,包括:
统计待分析文本信息中的句子平均长度;
计算文本长度的设定阈值除以句子平均长度所得值,所得值的整数位即为句子数目。
根据文本长度的设定阈值在本实施例中,进一步地,对于按照权重降序顺序从句子权重表中选取数目为句子数目的句子,按照文本中的语句顺序构建文本信息的摘要数据,包括:
按照权重降序顺序从句子权重表中选取数目为句子数目的句子;
对于所选取的句子按照预设的筛选方式进行筛选,例如,根据摘要中对于句子长度的预设阈值进行筛选,去除长度不在预设阈值范围内的句子;
按照文本中的语句顺序排列所选取的句子,构建文本信息的摘要数据。
104、将摘要数据输入至预先训练得到的情感分析模型进行情感分析,得到待分析数据中的情感信息。
该步骤中,具体地,包括:
将摘要数据输入至预先训练得到的情感分析模型,提取摘要数据的所有特征信息,并将各特征信息转换成对应的向量,得到向量集;
根据情感分析模型对应的情感分析维度,按照情感分析模型的运算规则对向量集进行映射和归一化处理,得到在情感分析维度上的概率分布结果;
在情感分析模型对应的每一个情感分析维度上,统计概率分布结果对应的概率分布区间,根据情感分析模型中各概率分布区间与所表示的情感信息之间的对应关系,得到待分析数据中的情感信息。
在本实施例中,进一步地,对于将摘要数据输入至预先训练得到的情感分析模型,提 取摘要数据的所有特征信息,并将各特征信息转换成对应的向量,得到向量集,包括:
利用情感分析模型提取摘要数据的特征信息,形成对应的特征向量;
对特征向量采用点积函数进行相似度计算得到对应权重;
将权重和相应的键值(Value)进行加权求和得到注意力值(Attention);
将注意力值(Attention)输入至Sigmoid层,在Sigmoid层上进行注意力(Attention)值与特征向量的相乘运算,得到对应的编码向量;
获取所有编码向量,得到向量集。
在本实施例中,进一步地,对于根据情感分析模型对应的情感分析维度,按照情感分析模型的运算规则对向量集进行映射和归一化处理,得到在情感分析维度上的概率分布结果,包括:
将向量集与权重矩阵进行相乘和偏置处理,得到在全连接层上的映射值;
采用Softmax算法对映射值进行归一化处理,得到处于0至1这一概率区间的概率值。
在本实施例中,进一步地,对于在情感分析模型对应的每一个情感分析维度上,统计概率分布结果对应的概率分布区间,根据情感分析模型中各概率分布区间与所表示的情感信息之间的对应关系,得到待分析数据中的情感信息,包括:
情感分析模型对应的情感分析维度包括至少两个维度,例如,正面和负面这两个情感分析维度。在实际运用中,根据情感分析的应用场景,可以设置更多的情感分析维度,例如,正面、中性和负面这三个情感分析维度。
概率分布结果至少包括待分析数据经过情感分析模型分析得到的概率值和不同数据对应的概率分布。概率值的呈现方式根据所选取的情感分析模型而确定,例如,通过0到1之间的概率值来呈现。不同数据对应的概率分布的呈现方式根据所选取的情感分析模型而确定,例如,通过概率分布列表呈现,该列表包含不同数据标识号和其对应在每一个情感分析维度上的概率分布。各概率分布区间与所表示的情感信息之间的对应关系根据所选取的情感分析模型而确定,例如,根据所选取的情感分析模型,在“正面”这一情感分析维度上,概率分布在0.6以上的对应数据的情感信息被判定为“正面”。情感信息的呈现方式根据所选取的情感分析模型而确定,例如,通过情感信息列表呈现,该列表包含不同数据标识号和其对应的概率分布区间所代表的情感分析结果。
在本实施例中,进一步地,对于预先训练得到的情感分析模型,通过如下方式训练得到:
采集文本数据;
按照预设的标签标记方法对文本数据进行标记,使得文本数据都被标记上对应的标签信息,得到文本数据与对应标签信息的集合,记为情感分析语料集;
对情感分析语料集中的数据按照预设的比例和分类方法进行分类,得到训练数据、验证数据和测试数据;
将训练数据输入至待训练的情感分析模型进行情感分析,得到训练数据中的情感信息;
根据训练数据中的情感信息,通过交叉熵函数计算损失值,记录损失值和待训练的情感分析模型的参数特征;
将训练数据和验证数据按照预设的方式分别循环输入待训练的情感分析模型进行情感分析,并根据训练数据中的情感信息,通过交叉熵函数计算损失值,记录损失值和待训练的情感分析模型的参数特征,直到对应的损失值和待训练的情感分析模型的参数特征符合预设标准,得到情感分析模型。
在本实施例中,具体地,对于按照预设的标签标记方法对文本数据进行标记,使得文本数据都被标记上对应的标签信息,得到文本数据与对应标签信息的集合,记为情感分析语料集,包括:
根据预设的情感分析维度,选取对应的标签标记方法,并对文本数据进行标记,使得文本数据都被标记上对应的标签信息,得到文本数据与对应标签信息的集合,例如:根据 预设的“正面”、“负面”和“中性”的情感分析维度,按照文本情感分析为“正面”、“负面”和“中性”的情感标签标签标记方法对文本数据进行标记。
在本实施例中,具体地,对于对情感分析语料集中的数据按照预设的比例和分类方法进行分类,得到训练数据、验证数据和测试数据,包括:
预设的训练数据、验证数据和测试数据比例为8比1比1。在实际应用中,预设的训练数据、验证数据和测试数据比例根据所选取的情感分析模型来确定。
在本实施例中,具体地,对于待训练的情感分析模型,包括:
可以选取基于深度学习的算法的待训练的情感分析模型,例如Bert模型和Gpt2模型。
通过对上述方法的实施,通过对于待分析数据的预处理得到文本信息,判断文本信息的长度是否大于预设长度阈值,若是,则调用预设的文本摘要提取算法对文本信息进行精简处理,得到文本信息的摘要数据,将摘要数据输入至预先训练得到的情感分析模型进行情感分析,得到待分析数据中的情感信息,从而避免了对长文本的截断处理,保留了长文本中较为全面的情感信息,提高了情感分析的准确度。
为便于理解,下面对本申请实施例的具体流程进行描述,请参阅图2,本申请实施例中文本情感分析方法的第二个实施例,该方法的实现步骤如下:
201、获取待分析数据,并对待分析数据进行预处理,得到文本信息;
对于该步骤,具体通过去除文本数据中的噪声,得到去除噪声后的文本数据;将去除噪声后的文本数据的文本形式转换成预设的文本形式,得到转换格式后的文本数据;对转换格式后的文本数据按照预设的类别和特征进行分类和筛选,得到文本信息。
202、判断文本信息的长度是否大于预设长度阈值;
在本实施例中,该长度阈值包括至少两个等级的长度阈值,在实际应用中,具体选择哪个等级的长度阈值进行判断,具体是通过文本的长度等级来确定,例如,待处理的文本的长度在1024以下的,则选择长度阈值为512的,若是大于1024的,则选择长度阈值为1024的。
203、若文本信息的长度大于预设长度阈值,则获取文本信息中的每个句子,提取每个句子中的特征信息,形成对应的节点;
在该步骤中,对于提取文本信息中的句子,通过情感分析模型对于输入的文本信息的处理来实现,其中,情感分析模型可以采用语义识别模型,例如采用Bert模型或者Gpt2模型。在本实施例中,具体地,当情感分析模型采用Bert模型时,在文本信息被输入至Bert模型后,通过Bert模型将文本信息编码成该模型所能识别的标识符组合,其中,标识符与文本信息中的句子、词语、标点以及词语之间的关系存在对应关系。通过Bert模型遍历文本信息中代表标识符来提取句子。在实际应用中,也可以根据代表句号的标识符来进行文本信息的拆分,从而提取文本信息中的句子。将每个句子中的特征信息整合至对应的节点上。
204、采用摘要提取算法提取文本中的关键词。
在本实施例中,摘要提取算法包括基于句子权重的计算提取算法,例如TextRank算法,也包括基于边界值的计算提取算法,例如最大边界相关算法MMR(Maximal Marginal Relevance)。在本实施例中,关键词抽取是指从文本中确定一些能够描述文档含义的术语的过程。
在本实施例中,当采用TextRank算法时,提取文本中的关键词包括通过构建顶点集的方式实现,具体地,以句子中的一个或多个字作为文本单元,并通过TextRank算法基于文本单元构建顶点集。
在实际应用中,也可以根据这些字之间的关系构建边,例如,在同一个语义框中出现的关系。在实际应用中,根据任务的需要,可以使用语法过滤器(syntactic filters)对顶点集进行优化。语法过滤器的作用是将某一类或者某几类词性的字过滤出来作为顶点集。
205、采用摘要提取算法提取文本中的关键短语。
在本实施例中,具体地,在关键词抽取结束后,用提取到的N个关键词,在原始文本中相邻的关键词构成关键短语,可选地,当采用TextRank算法时,包括以下步骤:
通过TextRank算法判断关键词是否存在相邻关系;
若存在,则基于该相邻关系构建关键短语;
若不存在,则按照关键词的排列顺序继续判断关键词是否存在相邻关系。
206、采用摘要提取算法提取文本中的关键句,并将关键句按照文本中的语句顺序构建文本信息的摘要数据。
在本实施例中,具体地,是根据两个句子之间的内容重复程度计算句子之间的相似度,并通过对各句子相似度的迭代计算得到每个句子对应的权重,以提取权重高于设定阈值的关键句。
进一步地,内容重复程度主要是依据前述关键词和关键短语的重合程度来计算,包括采用余弦相似度公式计算节点之间的相似度:
其中,给定节点u和节点v,令N(u)表示节点u曾经有过正反馈的特征信息集合,令N(v)为节点v曾经有过正反馈的特征信息集合,Wuv表示节点u和节点v之间的相似度。
207、将摘要数据输入至预先训练得到的情感分析模型,提取摘要数据的所有特征信息,并将各特征信息转换成对应的向量,得到向量集;
对于该步骤,在本实施例中,具体地,包括:
利用情感分析模型提取摘要数据的特征信息,形成对应的特征向量;
对特征向量采用点积函数进行相似度计算得到对应权重;
将权重和相应的键值(Value)进行加权求和得到注意力值(Attention);
将注意力值(Attention)输入至Sigmoid层,在Sigmoid层上进行注意力(Attention)值与特征向量的相乘运算,得到对应的编码向量;
获取所有编码向量,得到向量集。
208、根据情感分析模型对应的情感分析维度,按照情感分析模型的运算规则对向量集进行映射和归一化处理,得到在情感分析维度上的概率分布结果;
对于该步骤,在本实施例中,具体地,包括:
将向量集与权重矩阵进行相乘和偏置处理,得到在全连接层上的映射值;
采用Softmax算法对映射值进行归一化处理,具体地,采用以下方式计算Softmax值:
假设有一个数组V,Vi表示V中的第i个元素,那么这个元素的Softmax值为:
在本实施例中,e表示自然对数,j表示元素个数,第i个元素的Softmax值,就是该元素的指数与所有元素指数和的比值。在本实施例中,使用Softmax算法将映射值转换到0至1这一概率区间,实现对映射值的归一化处理;
根据情感分析模型对应的情感分析维度,对处于0至1这一概率区间的概率值进行统计,得到在情感分析维度上的概率分布结果。
209、在情感分析模型对应的每一个情感分析维度上,统计概率分布结果对应的概率分布区间,根据情感分析模型中各概率分布区间与所表示的情感信息之间的对应关系,得到待分析数据中的情感信息。
对于该步骤,在本实施例中,具体地,包括:
情感分析模型对应的情感分析维度包括至少两个维度,例如,正面和负面这两个情感分析维度。在实际运用中,根据情感分析的应用场景,可以设置更多的情感分析维度,例 如,正面、中性和负面这三个情感分析维度。
概率分布结果至少包括待分析数据经过情感分析模型分析得到的概率值和不同数据对应的概率分布。概率值的呈现方式根据所选取的情感分析模型而确定,例如,通过0到1之间的概率值来呈现。不同数据对应的概率分布的呈现方式根据所选取的情感分析模型而确定,例如,通过概率分布列表呈现,该列表包含不同数据标识号和其对应在每一个情感分析维度上的概率分布。各概率分布区间与所表示的情感信息之间的对应关系根据所选取的情感分析模型而确定,例如,根据所选取的情感分析模型,在“正面”这一情感分析维度上,概率分布在0.6以上的对应数据的情感信息被判定为“正面”。情感信息的呈现方式根据所选取的情感分析模型而确定,例如,通过情感信息列表呈现,该列表包含不同数据标识号和其对应的概率分布区间所代表的情感分析结果。
通过对上述方法的实施,通过对于待分析数据的预处理得到文本信息,判断文本信息的长度是否大于预设长度阈值,若是,则调用预设的文本摘要提取算法对文本信息进行精简处理,得到文本信息的摘要数据,在此过程中以相似度为基础选取关键词、关键短语和关键句,从而形成摘要数据,能够保留文本中重要句子的信息;将摘要数据输入至预先训练得到的情感分析模型进行情感分析,得到待分析数据中的情感信息,从而避免了对长文本的截断处理,保留了长文本中较为全面的情感信息,提高了情感分析的准确度。
为便于理解,下面对本申请实施例的具体流程进行描述,请参阅图3,本申请实施例中文本情感分析方法的第三个实施例,该方法的实现步骤如下:
301、获取待分析数据,并对待分析数据进行预处理,得到文本信息;
对于该步骤,在本实施例中,具体地,包括:
对获取待分析数据进行数据清洗,得到经过数据清洗后的文本数据;
对经过数据清洗后的文本数据按照预设的文本类别进行分类,得到被归类于文本类别的文本信息;
统计文本信息的长度,得到按照长度排列的文本信息序列表,其中,文本信息序列表包含文本信息序列号和对应长度;
按照设定比例对文本信息序列表中的文本信息进行筛选,得到长度落入文本信息序列表设定比例内的文本信息。
302、判断文本信息的长度是否大于预设长度阈值;
对于该步骤,在本实施例中,具体地,包括:
在本实施例中,该长度阈值包括至少两个等级的长度阈值,在实际应用中,具体选择哪个等级的长度阈值进行判断,具体是通过文本的长度等级来确定,例如,待处理的文本的长度在1024以下的,则选择长度阈值为512的,若是大于1024的,则选择长度阈值为1024的。
303、若文本信息的长度大于预设长度阈值,则获取文本信息中的每个句子,提取每个句子中的特征信息,形成对应的节点;
对于该步骤,在本实施例中,具体地,包括:
对于提取文本信息中的句子,通过情感分析模型对于输入的文本信息的处理来实现,其中,情感分析模型可以采用语义识别模型,例如采用Bert模型或者Gpt2模型。在本实施例中,具体地,当情感分析模型采用Bert模型时,在文本信息被输入至Bert模型后,通过Bert模型将文本信息编码成该模型所能识别的标识符组合,其中,标识符与文本信息中的句子、词语、标点以及词语之间的关系存在对应关系。通过Bert模型遍历文本信息中代表标识符来提取句子。在实际应用中,也可以根据代表句号的标识符来进行文本信息的拆分,从而提取文本信息中的句子。
对于提取每个句子中的特征信息,通过情感分析模型对于输入的文本信息的处理来实现。在本实施例中,具体地,当情感分析模型采用Bert模型时,则通过遍历每个句子中包含的特征信息对应向量值来每个句子中的特征信息。在实际应用中,也可以通过获取代表 句子中每个词语的标识符,并将包含于同一个句子的所有标识符进行汇总,从而提取每个句子中的特征信息。
对于形成对应的节点,通过情感分析模型对于输入的文本信息的处理来实现。在本实施例中,具体地,将每个句子对应的标识符和其包含的所有特征信息的标识符按照模型所能兼容的数据结构构建节点,从而形成对应的节点,其中,每个节点代表一个句子,节点上包含的特征信息代表着该句子所包含的特征信息。
304、迭代计算各节点对应的特征信息与其他节点对应的特征信息的相似度;
对于该步骤,在本实施例中,具体地,包括使用如下公式计算节点之间的相似度:
其中,Similarity表示两个节点间的相似度,Si、Sj分别表示两个节点,下标i和j表示节点的编号,ωk表示节点对应的特征信息,ωk中的下标k指代任意一个使得ωk符合条件的值,在上述公式中,ωk中的下标k使得ωk满足的条件为:使得ωk同时属于节点Si和Sj所包含的特征信息。在本实施例中,每个节点对应一个句子,节点对应的特征信息即为句子中的特征信息。公式中等号右侧的分母部分对于两个节点的模取对数相加,表示各自节点所包含的特征信息总量,采取分别取对数求和的处理方式,用于解决当长句子对应的节点包含的特征信息较多时,其中一部分特征信息对于计算相似度缺少贡献的问题;公式中等号右侧的分子部分表示同时出现于Si和Sj两个节点中的特征信息。
当然,为了解决当长句子对应的节点包含的特征信息较多时,其中一部分特征信息对于计算相似度缺少贡献的问题,也可以在公式中等号右侧的分母部分对于两个节点各自节点所包含的特征信息总量进行分别取算术平方根求和处理,此时,公式如下:
305、根据相似度,构造各节点之间的无向有权边,得到文本信息的节点连接图;
对于该步骤,在本实施例中,具体地,包括:
连接具有相似度的节点,构造无向无权边;
获取各节点与其他节点间的相似度,将该相似度标注为无向无权边的权值,构造无向有权边,得到节点连接图。
在本实施例中,节点连接图是由顶点集V(Vertices)和边集E(Edges)组成,表示为G=(V,E),顶点包含于顶点集V(v∈V),即为句子对应的节点,连接一对顶点的边(v
i,v
j)∈E具有权重W(v
i,v
j),在本实施例中,权重为顶点之间的相似度,所用的是无向图。在实际应用中,由于选取的摘要提取算法不同,有权图可以包括无向有权图和有向有权图。
306、根据节点连接图计算每个句子的权重;
对于该步骤,在本实施例中,具体地,包括采用如下公式根据节点连接图计算每个句子的权重:
在本实施例中,公式等号左侧的WS(Vi)表示句子i的权重,右侧的求和表示每个相邻句子对本句子的贡献程度。d表示阻尼系数,在本实施例中该系数为0.85,WS(Vi)表示句子i的权重,WS(Vj)表示句子j的权重,Wji表示上次迭代计算得出的句子j的权重,Wjk表示上次迭代计算得出的句子k的权重,V
j∈In(V
i)表示句子j中和句子i之间相同的特征 信息数量,V
k∈Out(V
j)表示句子k中和句子j之间不同的特征信息数量。在本实施例中,对于文本信息中的单个文档所形成的节点连接图,我们可以粗略地认为该文档中所有句子都是相邻的,可以在采用前述公式迭代计算句子的权重时减少计算量。
在实际应用中,在计算能力能够支持的情况下,可以对单个文档采取类似多文档的生成和抽取方法,即在每一个对应的文档窗口采用前述公式进行计算,实现对单文档中关键词句的生成和抽取。
307、将句子按照权重排序,得到句子权重表;
对于该步骤,在本实施例中,具体地,包括:
获取所有句子节点的序列号与其对应的权重值,得到未排序的句子权重表;
将未排序的句子权重表的每一项按照权重进行排序。
在本实施例中,对于句子权重表按照权重降序排列,便于对权重高的句子的抽取,当然,根据所采取的对权重高的句子的抽取方式不同,也可以采用按照权重升序排列的方式。在实际应用中,根据采用的重要句子抽取方式的不同,可以在句子权重表的排序过程中同时计算诸如句子长度、句子包含的特征信息的多少以及句子在原文档中的位置等参数,综合进行排序。
308、根据文本长度的设定阈值,计算句子数目;
对于该步骤,在本实施例中,具体地,包括:
统计待分析文本信息中的句子平均长度;
计算文本长度的设定阈值除以句子平均长度所得值,所得值的整数位即为句子数目。
在实际应用中,除了对句子平均长度的统计处理,当然也可以采取对句子长度取中位数的处理,或者根据预设的其他计算方式采用其他的统计手段。
在实际应用中,除了采用直接除法的计算方式来计算句子数目,当然也可以采取先对文本长度的设定阈值进行乘性放大或者缩小再进行除法运算的方式来计算句子数目。
309、按照权重降序顺序从句子权重表中选取数目为句子数目的句子,按照文本中的语句顺序构建文本信息的摘要数据。
对于该步骤,在本实施例中,具体地,包括:
按照权重降序顺序从句子权重表中选取数目为句子数目的句子;
对于所选取的句子按照预设的筛选方式进行筛选,例如,根据摘要中对于句子长度的预设阈值进行筛选,去除长度不在预设阈值范围内的句子;
按照文本中的语句顺序排列所选取的句子,构建文本信息的摘要数据。
310、将摘要数据输入至预先训练得到的情感分析模型进行情感分析,得到待分析数据中的情感信息。
该步骤中,具体地,包括:
将摘要数据输入至预先训练得到的情感分析模型,提取摘要数据的所有特征信息,并将各特征信息转换成对应的向量,得到向量集;
根据情感分析模型对应的情感分析维度,按照情感分析模型的运算规则对向量集进行映射和归一化处理,得到在情感分析维度上的概率分布结果;
在情感分析模型对应的每一个情感分析维度上,统计概率分布结果对应的概率分布区间,根据情感分析模型中各概率分布区间与所表示的情感信息之间的对应关系,得到待分析数据中的情感信息。
在本实施例中,进一步地,对于将摘要数据输入至预先训练得到的情感分析模型,提取摘要数据的所有特征信息,并将各特征信息转换成对应的向量,得到向量集,包括:
利用情感分析模型提取摘要数据的特征信息,形成对应的特征向量;
对特征向量采用点积函数进行相似度计算得到对应权重;
将权重和相应的键值(Value)进行加权求和得到注意力值(Attention);
将注意力值(Attention)输入至Sigmoid层,在Sigmoid层上进行注意力(Attention) 值与特征向量的相乘运算,得到对应的编码向量;
获取所有编码向量,得到向量集。
在本实施例中,进一步地,对于根据情感分析模型对应的情感分析维度,按照情感分析模型的运算规则对向量集进行映射和归一化处理,得到在情感分析维度上的概率分布结果,包括:
将向量集与权重矩阵进行相乘和偏置处理,得到在全连接层上的映射值;
采用Softmax算法对映射值进行归一化处理。
通过对上述方法的实施,通过对于待分析数据的预处理得到文本信息,判断文本信息的长度是否大于预设长度阈值,若是,则调用预设的文本摘要提取算法对文本信息进行精简处理,得到文本信息的摘要数据,在此过程中能够主要依据句子的权重来选取摘要中的句子,能够保留重要句子的信息;将摘要数据输入至预先训练得到的情感分析模型进行情感分析,得到待分析数据中的情感信息,从而避免了对长文本的截断处理,保留了长文本中较为全面的情感信息,提高了情感分析的准确度。
上面对本申请实施例中的文本情感分析方法进行了描述,下面对本申请实施例中的文本情感分析装置进行描述,请参照图4,本申请实施例中的文本情感分析装置的一个实施例包括:
获取模块501,用于获取待分析数据,并对待分析数据进行预处理,得到文本信息;
判断模块502,用于判断文本信息的长度是否大于预设长度阈值;
摘要提取模块503,用于在判断长度大于预设长度阈值时,调用预设的文本摘要提取算法对文本信息进行精简处理,得到文本信息的摘要数据;
情感分析模块504,用于将摘要数据输入至预先训练得到的情感分析模型进行情感分析,得到待分析数据中的情感信息。
通过对上述方法的实施,通过对于待分析数据的预处理得到文本信息,判断文本信息的长度是否大于预设长度阈值;若是,则调用预设的文本摘要提取算法对文本信息进行精简处理,得到文本信息的摘要数据,将摘要数据输入至预先训练得到的情感分析模型进行情感分析,得到待分析数据中的情感信息,从而解决了现有技术中对长文本进行截断处理后,由于信息的不完整而影响情感识别的问题。
请参阅图5,本申请实施例中的文本情感分析装置的另一个实施例包括:
获取模块501,用于获取待分析数据,并对待分析数据进行预处理,得到文本信息;
判断模块502,用于判断文本信息的长度是否大于预设长度阈值;
摘要提取模块503,用于在判断长度大于预设长度阈值时,调用预设的文本摘要提取算法对文本信息进行精简处理,得到文本信息的摘要数据;
情感分析模块504,用于将摘要数据输入至预先训练得到的情感分析模型进行情感分析,得到待分析数据中的情感信息。
其中,获取模块501,包括:
数据获取单元5011,用于获取待分析的数据;
预处理单元5012,用于对待分析的数据进行预处理,得到文本信息;
在本实施例中,预处理单元5012具体用于:
对获取待分析数据进行数据清洗,得到经过数据清洗后的文本数据;
对经过数据清洗后的文本数据按照预设的文本类别进行分类,得到被归类于文本类别的文本信息;
统计文本信息的长度,得到按照长度排列的文本信息序列表,其中,文本信息序列表包含文本信息序列号和对应长度;
按照设定比例对文本信息序列表中的文本信息进行筛选,得到长度落入文本信息序列表设定比例内的文本信息。
其中,摘要提取模块503包括:
提取单元5031,用于获取文本信息中的每个句子,提取每个句子中的特征信息,形成对应的节点;
第一计算单元5032,用于迭代计算各节点对应的特征信息与其他节点对应的特征信息的相似度;
构造单元5033,用于根据相似度,构造各节点之间的无向有权边,得到文本信息的节点连接图;
第二计算单元5034,用于根据节点连接图计算每个句子的权重;
排序单元5035,用于将句子按照权重排序,得到句子权重表;
第三计算单元5036,用于根据文本长度的设定阈值,计算句子数目;
摘要提取单元5037,用于按照权重降序顺序从句子权重表中选取数目为句子数目的句子,按照文本中的语句顺序构建文本信息的摘要数据。
其中,情感分析模块504包括:
向量化单元5041,用于将摘要数据输入至预先训练得到的情感分析模型,提取摘要数据的所有特征信息,并将各特征信息转换成对应的向量,得到向量集;
归一化处理单元5042,用于根据情感分析模型,按照情感分析模型的运算规则对向量集进行映射和归一化处理,得到在情感分析维度上的概率分布结果;
统计分析单元5043,用于在情感分析模型对应的每一个情感分析维度上,统计概率分布结果对应的概率分布区间,根据情感分析模型中各概率分布区间与所表示的情感信息之间的对应关系,得到待分析数据中的情感信息。
综上,通过对上述方法的实施,通过对于待分析数据的预处理得到文本信息,判断文本信息的长度是否大于预设长度阈值;若是,则调用预设的文本摘要提取算法对文本信息进行精简处理,得到文本信息的摘要数据,将摘要数据输入至预先训练得到的情感分析模型进行情感分析,得到待分析数据中的情感信息,从而解决了现有技术中对长文本进行截断处理后,由于信息的不完整而影响情感识别的问题。
请参阅图6,下面从硬件处理的角度对本申请实施例中的计算机设备的一个实施例进行详细描述。
图6是本申请实施例提供的一种计算机设备的结构示意图,该计算机设备600可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)610(例如,一个或一个以上处理器)和存储器620,一个或一个以上存储应用程序633或数据632的存储介质630(例如一个或一个以上海量存储设备)。其中,存储器620和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对计算机设备600中的一系列指令操作。更进一步地,处理器610可以设置为与存储介质630通信,在计算机设备600上执行存储介质630中的一系列指令操作。
计算机设备600还可以包括一个或一个以上电源640,一个或一个以上有线或无线网络接口650,一个或一个以上输入输出接口660,和/或,一个或一个以上操作系统631,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图6示出的计算机设备结构并不构成对本申请提供的计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本申请还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,计算机可读存储介质中存储有指令,当指令在计算机上运行时,使得计算机执行以下步骤:获取待分析数据,并对所述待分析数据进行预处理,得到文本信息;判断所述文本信息的长度是否大于预设长度阈值;若是,则调用预设的文本摘要提取算法对所述文本信息进行精简处理,得到所述文本信息的摘要数据;将所述摘要数据输入至预先训练得到的情感分析模型进行情感分析,得到所述待分析数据中的情感信息。。
在实际应用中,上述提供的方法可以基于人工智能技术来实现,其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。其具体可以是基于服务器来执行,服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (20)
- 一种文本情感分析方法,其中,所述文本情感分析方法包括:获取待分析数据,并对所述待分析数据进行预处理,得到文本信息;判断所述文本信息的长度是否大于预设长度阈值;若是,则调用预设的文本摘要提取算法对所述文本信息进行精简处理,得到所述文本信息的摘要数据;将所述摘要数据输入至预先训练得到的情感分析模型进行情感分析,得到所述待分析数据中的情感信息。
- 根据权利要求1所述的文本情感分析方法,其中,所述调用预设的文本摘要提取算法对所述文本信息进行精简处理,得到所述文本信息的摘要数据,包括:获取所述文本信息中的每个句子,提取每个句子中的特征信息,形成对应的节点;迭代计算各节点对应的特征信息与其他节点对应的特征信息的相似度;根据所述相似度,构造各节点之间的无向有权边,得到所述文本信息的节点连接图;根据所述节点连接图计算每个句子的权重;将句子按照权重排序,得到句子权重表;根据所述文本长度的设定阈值,计算句子数目;按照权重降序顺序从句子权重表中选取数目为所述句子数目的句子,按照文本中的语句顺序构建所述文本信息的摘要数据。
- 根据权利要求1所述的文本情感分析方法,其中,所述将所述摘要数据输入至预先训练得到的情感分析模型进行情感分析,得到所述待分析数据中的情感信息,包括:将所述摘要数据输入至预先训练得到的情感分析模型,提取所述摘要数据的所有特征信息,并将各特征信息转换成对应的向量,得到向量集;根据所述情感分析模型对应的情感分析维度,按照所述情感分析模型的运算规则对所述向量集进行映射和归一化处理,得到在所述情感分析维度上的概率分布结果;在所述情感分析模型对应的每一个情感分析维度上,统计所述概率分布结果对应的概率分布区间,根据所述情感分析模型中各概率分布区间与所表示的情感信息之间的对应关系,得到所述待分析数据中的情感信息。
- 根据权利要求3所述的文本情感分析方法,其中,所述将所述摘要数据输入至预先训练得到的情感分析模型,提取所述摘要数据的所有特征信息,并将各特征信息转换成对应的向量,得到向量集,包括:利用所述情感分析模型提取所述摘要数据的特征信息,形成对应的特征向量;利用所述情感分析模型对所述特征向量进行循环自注意力运算,得到对应的编码向量;获取所有所述编码向量,得到所述向量集。
- 根据权利要求3所述的文本情感分析方法,其中,所述根据所述情感分析模型对应的情感分析维度,按照所述情感分析模型的运算规则对所述向量集进行映射和归一化处理,得到在所述情感分析维度上的概率分布结果,包括:选取所述向量集中与分类标识对应的编码向量,对所述编码向量进行面向全连接层的映射运算,得到所述编码向量在所述全连接层上对应的映射值;在每一个所述情感分析维度上,利用Softmax算法对所述映射值进行归一化处理,得到所述情感分析维度上的概率分布结果。
- 根据权利要求1-5中任一项所述的文本情感分析方法,其中,在所述获取待分析数据,并对所述待分析数据进行预处理,得到文本信息之前,还包括:采集文本数据;按照预设的标签标记方法对所述文本数据进行标记,使得所述文本数据都被标记上对应的标签信息,得到所述文本数据与对应标签信息的集合,记为情感分析语料集;对所述情感分析语料集中的数据按照预设的比例和分类方法进行分类,得到训练数据 和验证数据;将所述训练数据输入至Bert模型进行情感分析,得到所述训练数据中的情感信息;根据所述训练数据中的情感信息,通过交叉熵函数计算损失值,记录所述损失值和所述Bert模型的参数特征;将训练数据和验证数据按照预设的方式分别循环输入所述Bert模型进行情感分析,并根据所述训练数据中的情感信息,通过交叉熵函数计算损失值,记录所述损失值和所述Bert模型的参数特征,直到对应的所述损失值和对应的所述Bert模型的参数特征符合预设标准,得到所述情感分析模型。
- 根据权利要求6所述的文本情感分析方法,其中,所述将训练数据和验证数据按照预设的方式分别循环输入所述Bert模型进行情感分析,并根据所述训练数据中的情感信息,通过交叉熵函数计算损失值,记录所述损失值和所述Bert模型的参数特征,直到对应的所述损失值和对应的所述Bert模型的参数特征符合预设标准,得到所述情感分析模型,包括:将所述训练数据输入至所述Bert模型进行情感分析,得到所述训练数据中的情感信息;判断所述情感分析的次数是否达到预设次数;若情感分析次数未达到预设次数,则将所述训练数据数据输入至所述Bert模型进行情感分析,得到所述训练数据中的情感信息;若情感分析次数达到预设次数,则将所述验证数据输入至Bert模型进行情感分析,得到所述验证数据中的情感信息;根据所述验证数据中的情感信息,通过交叉熵函数计算损失值,记录所述损失值和所述Bert模型的参数特征;判断所述损失值以及Bert模型的参数特征是否符合预设标准;若不满足,则继续将训练数据和验证数据按照所述预设的方式分别循环输入所述Bert模型进行情感分析;若满足,则输出所述情感分析模型。
- 一种计算机设备,其中,包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;所述至少一个处理器调用所述存储器中的所述指令,以使得所述计算机设备执行以下步骤:获取待分析数据,并对所述待分析数据进行预处理,得到文本信息;判断所述文本信息的长度是否大于预设长度阈值;若是,则调用预设的文本摘要提取算法对所述文本信息进行精简处理,得到所述文本信息的摘要数据;将所述摘要数据输入至预先训练得到的情感分析模型进行情感分析,得到所述待分析数据中的情感信息。
- 根据权利要求8所述的计算机设备,其中,所述指令被所述处理器执行实现调用预设的文本摘要提取算法对所述文本信息进行精简处理,得到所述文本信息的摘要数据时,包括:获取所述文本信息中的每个句子,提取每个句子中的特征信息,形成对应的节点;迭代计算各节点对应的特征信息与其他节点对应的特征信息的相似度;根据所述相似度,构造各节点之间的无向有权边,得到所述文本信息的节点连接图;根据所述节点连接图计算每个句子的权重;将句子按照权重排序,得到句子权重表;根据所述文本长度的设定阈值,计算句子数目;按照权重降序顺序从句子权重表中选取数目为所述句子数目的句子,按照文本中的语 句顺序构建所述文本信息的摘要数据。
- 根据权利要求8所述的计算机设备,其中,所述指令被所述处理器执行实现将所述摘要数据输入至预先训练得到的情感分析模型进行情感分析,得到所述待分析数据中的情感信息时,包括:将所述摘要数据输入至预先训练得到的情感分析模型,提取所述摘要数据的所有特征信息,并将各特征信息转换成对应的向量,得到向量集;根据所述情感分析模型对应的情感分析维度,按照所述情感分析模型的运算规则对所述向量集进行映射和归一化处理,得到在所述情感分析维度上的概率分布结果;在所述情感分析模型对应的每一个情感分析维度上,统计所述概率分布结果对应的概率分布区间,根据所述情感分析模型中各概率分布区间与所表示的情感信息之间的对应关系,得到所述待分析数据中的情感信息。
- 根据权利要求10所述的计算机设备,其中,所述指令被所述处理器执行实现将所述摘要数据输入至预先训练得到的情感分析模型,提取所述摘要数据的所有特征信息,并将各特征信息转换成对应的向量,得到向量集时,包括:利用所述情感分析模型提取所述摘要数据的特征信息,形成对应的特征向量;利用所述情感分析模型对所述特征向量进行循环自注意力运算,得到对应的编码向量;获取所有所述编码向量,得到所述向量集。
- 根据权利要求10所述的计算机设备,其中,所述指令被所述处理器执行实现根据所述情感分析模型对应的情感分析维度,按照所述情感分析模型的运算规则对所述向量集进行映射和归一化处理,得到在所述情感分析维度上的概率分布结果时,包括:选取所述向量集中与分类标识对应的编码向量,对所述编码向量进行面向全连接层的映射运算,得到所述编码向量在所述全连接层上对应的映射值;在每一个所述情感分析维度上,利用Softmax算法对所述映射值进行归一化处理,得到所述情感分析维度上的概率分布结果。
- 根据权利要求8-12中任一项所述的计算机设备,其中,所述指令被所述处理器执行实现在所述获取待分析数据,并对所述待分析数据进行预处理,得到文本信息之前,还包括:采集文本数据;按照预设的标签标记方法对所述文本数据进行标记,使得所述文本数据都被标记上对应的标签信息,得到所述文本数据与对应标签信息的集合,记为情感分析语料集;对所述情感分析语料集中的数据按照预设的比例和分类方法进行分类,得到训练数据和验证数据;将所述训练数据输入至Bert模型进行情感分析,得到所述训练数据中的情感信息;根据所述训练数据中的情感信息,通过交叉熵函数计算损失值,记录所述损失值和所述Bert模型的参数特征;将训练数据和验证数据按照预设的方式分别循环输入所述Bert模型进行情感分析,并根据所述训练数据中的情感信息,通过交叉熵函数计算损失值,记录所述损失值和所述Bert模型的参数特征,直到对应的所述损失值和对应的所述Bert模型的参数特征符合预设标准,得到所述情感分析模型。
- 根据权利要求13所述的计算机设备,其中,所述指令被所述处理器执行实现将训练数据和验证数据按照预设的方式分别循环输入所述Bert模型进行情感分析,并根据所述训练数据中的情感信息,通过交叉熵函数计算损失值,记录所述损失值和所述Bert模型的参数特征,直到对应的所述损失值和对应的所述Bert模型的参数特征符合预设标准,得到所述情感分析模型时,包括:将所述训练数据输入至所述Bert模型进行情感分析,得到所述训练数据中的情感信息;判断所述情感分析的次数是否达到预设次数;若情感分析次数未达到预设次数,则将所述训练数据数据输入至所述Bert模型进行情感分析,得到所述训练数据中的情感信息;若情感分析次数达到预设次数,则将所述验证数据输入至Bert模型进行情感分析,得到所述验证数据中的情感信息;根据所述验证数据中的情感信息,通过交叉熵函数计算损失值,记录所述损失值和所述Bert模型的参数特征;判断所述损失值以及Bert模型的参数特征是否符合预设标准;若不满足,则继续将训练数据和验证数据按照所述预设的方式分别循环输入所述Bert模型进行情感分析;若满足,则输出所述情感分析模型。
- 一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其中,所述计算机程序被处理器执行时实现以下步骤:获取待分析数据,并对所述待分析数据进行预处理,得到文本信息;判断所述文本信息的长度是否大于预设长度阈值;若是,则调用预设的文本摘要提取算法对所述文本信息进行精简处理,得到所述文本信息的摘要数据;将所述摘要数据输入至预先训练得到的情感分析模型进行情感分析,得到所述待分析数据中的情感信息。
- 根据权利要求15所述的计算机可读存储介质,其中,所述计算机程序被所述处理器执行实现调用预设的文本摘要提取算法对所述文本信息进行精简处理,得到所述文本信息的摘要数据时,包括:获取所述文本信息中的每个句子,提取每个句子中的特征信息,形成对应的节点;迭代计算各节点对应的特征信息与其他节点对应的特征信息的相似度;根据所述相似度,构造各节点之间的无向有权边,得到所述文本信息的节点连接图;根据所述节点连接图计算每个句子的权重;将句子按照权重排序,得到句子权重表;根据所述文本长度的设定阈值,计算句子数目;按照权重降序顺序从句子权重表中选取数目为所述句子数目的句子,按照文本中的语句顺序构建所述文本信息的摘要数据。
- 根据权利要求15所述的计算机可读存储介质,其中,所述计算机程序被所述处理器执行实现将所述摘要数据输入至预先训练得到的情感分析模型进行情感分析,得到所述待分析数据中的情感信息时,包括:将所述摘要数据输入至预先训练得到的情感分析模型,提取所述摘要数据的所有特征信息,并将各特征信息转换成对应的向量,得到向量集;根据所述情感分析模型对应的情感分析维度,按照所述情感分析模型的运算规则对所述向量集进行映射和归一化处理,得到在所述情感分析维度上的概率分布结果;在所述情感分析模型对应的每一个情感分析维度上,统计所述概率分布结果对应的概率分布区间,根据所述情感分析模型中各概率分布区间与所表示的情感信息之间的对应关系,得到所述待分析数据中的情感信息。
- 根据权利要求17所述的计算机可读存储介质,其中,所述计算机程序被所述处理器执行实现将所述摘要数据输入至预先训练得到的情感分析模型,提取所述摘要数据的所有特征信息,并将各特征信息转换成对应的向量,得到向量集时,包括:利用所述情感分析模型提取所述摘要数据的特征信息,形成对应的特征向量;利用所述情感分析模型对所述特征向量进行循环自注意力运算,得到对应的编码向量;获取所有所述编码向量,得到所述向量集。
- 根据权利要求17所述的计算机可读存储介质,其中,所述计算机程序被所述处理器执行实现根据所述情感分析模型对应的情感分析维度,按照所述情感分析模型的运算规则对所述向量集进行映射和归一化处理,得到在所述情感分析维度上的概率分布结果时,包括:选取所述向量集中与分类标识对应的编码向量,对所述编码向量进行面向全连接层的映射运算,得到所述编码向量在所述全连接层上对应的映射值;在每一个所述情感分析维度上,利用Softmax算法对所述映射值进行归一化处理,得到所述情感分析维度上的概率分布结果。
- 一种文本情感分析装置,其中,所述文本情感分析装置包括:获取模块,用于获取待分析数据,并对所述待分析数据进行预处理,得到文本信息;判断模块,用于判断所述文本信息的长度是否大于预设长度阈值;摘要提取模块,用于在判断长度大于预设长度阈值时,调用预设的文本摘要提取算法对所述文本信息进行精简处理,得到所述文本信息的摘要数据;情感分析模块,用于将所述摘要数据输入至预先训练得到的情感分析模型进行情感分析,得到所述待分析数据中的情感信息。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210263353.5 | 2022-03-17 | ||
CN202210263353.5A CN114610838A (zh) | 2022-03-17 | 2022-03-17 | 文本情感分析方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2023173537A1 true WO2023173537A1 (zh) | 2023-09-21 |
Family
ID=81865484
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/CN2022/089530 WO2023173537A1 (zh) | 2022-03-17 | 2022-04-27 | 文本情感分析方法、装置、设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN114610838A (zh) |
WO (1) | WO2023173537A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117743581A (zh) * | 2023-12-26 | 2024-03-22 | 中国农业科学院农业信息研究所 | 一种农产品质量安全网络谣言的干预方法 |
CN118569612A (zh) * | 2024-08-02 | 2024-08-30 | 国泰新点软件股份有限公司 | 一种工单查重方法、系统、设备及存储介质 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116562714B (zh) * | 2023-07-07 | 2023-12-08 | 南通汤姆瑞斯工业智能科技有限公司 | 一种应用于机械加工的工件信息追溯系统及方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110929030A (zh) * | 2019-11-07 | 2020-03-27 | 电子科技大学 | 一种文本摘要和情感分类联合训练方法 |
CN111984793A (zh) * | 2020-09-03 | 2020-11-24 | 平安国际智慧城市科技股份有限公司 | 文本情感分类模型训练方法、装置、计算机设备及介质 |
CN113420122A (zh) * | 2021-06-24 | 2021-09-21 | 平安科技(深圳)有限公司 | 分析文本的方法、装置、设备及存储介质 |
CN113590763A (zh) * | 2021-09-27 | 2021-11-02 | 湖南大学 | 一种基于深度学习的相似文本检索方法、装置及存储介质 |
WO2022037256A1 (zh) * | 2020-08-21 | 2022-02-24 | 腾讯科技(深圳)有限公司 | 文本语句处理方法、装置、计算机设备和存储介质 |
-
2022
- 2022-03-17 CN CN202210263353.5A patent/CN114610838A/zh active Pending
- 2022-04-27 WO PCT/CN2022/089530 patent/WO2023173537A1/zh unknown
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110929030A (zh) * | 2019-11-07 | 2020-03-27 | 电子科技大学 | 一种文本摘要和情感分类联合训练方法 |
WO2022037256A1 (zh) * | 2020-08-21 | 2022-02-24 | 腾讯科技(深圳)有限公司 | 文本语句处理方法、装置、计算机设备和存储介质 |
CN111984793A (zh) * | 2020-09-03 | 2020-11-24 | 平安国际智慧城市科技股份有限公司 | 文本情感分类模型训练方法、装置、计算机设备及介质 |
CN113420122A (zh) * | 2021-06-24 | 2021-09-21 | 平安科技(深圳)有限公司 | 分析文本的方法、装置、设备及存储介质 |
CN113590763A (zh) * | 2021-09-27 | 2021-11-02 | 湖南大学 | 一种基于深度学习的相似文本检索方法、装置及存储介质 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117743581A (zh) * | 2023-12-26 | 2024-03-22 | 中国农业科学院农业信息研究所 | 一种农产品质量安全网络谣言的干预方法 |
CN117743581B (zh) * | 2023-12-26 | 2024-06-11 | 中国农业科学院农业信息研究所 | 一种农产品质量安全网络谣言的干预方法 |
CN118569612A (zh) * | 2024-08-02 | 2024-08-30 | 国泰新点软件股份有限公司 | 一种工单查重方法、系统、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114610838A (zh) | 2022-06-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2023173537A1 (zh) | 文本情感分析方法、装置、设备及存储介质 | |
WO2021164199A1 (zh) | 基于多粒度融合模型的中文句子语义智能匹配方法及装置 | |
CN107229610B (zh) | 一种情感数据的分析方法及装置 | |
CN113011533A (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN111325029B (zh) | 一种基于深度学习集成模型的文本相似度计算方法 | |
WO2022121163A1 (zh) | 用户行为倾向识别方法、装置、设备及存储介质 | |
CN110619051B (zh) | 问题语句分类方法、装置、电子设备及存储介质 | |
CN113011194B (zh) | 融合关键词特征和多粒度语义特征的文本相似度计算方法 | |
CN104967558B (zh) | 一种垃圾邮件的检测方法及装置 | |
CN110362678A (zh) | 一种自动提取中文文本关键词的方法与装置 | |
CN110543564A (zh) | 基于主题模型的领域标签获取方法 | |
CN109086355B (zh) | 基于新闻主题词的热点关联关系分析方法及系统 | |
WO2017091985A1 (zh) | 停用词识别方法与装置 | |
CN110858217A (zh) | 微博敏感话题的检测方法、装置及可读存储介质 | |
CN112562736B (zh) | 一种语音数据集质量评估方法和装置 | |
CN110347796A (zh) | 向量语义张量空间下的短文本相似度计算方法 | |
CN112860898B (zh) | 一种短文本框聚类方法、系统、设备及存储介质 | |
CN111489030A (zh) | 一种基于文本分词的离职预测方法及系统 | |
CN116362243A (zh) | 一种融入句子间关联关系的文本关键短语提取方法、存储介质及装置 | |
CN113051886B (zh) | 一种试题查重方法、装置、存储介质及设备 | |
CN109960730A (zh) | 一种基于特征扩展的短文本分类方法、装置以及设备 | |
CN113743079A (zh) | 一种基于共现实体交互图的文本相似度计算方法及装置 | |
CN112632272A (zh) | 基于句法分析的微博情感分类方法和系统 | |
CN111400495A (zh) | 一种基于模板特征的视频弹幕消费意图识别方法 | |
CN114943285B (zh) | 互联网新闻内容数据智能审核系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 22931564 Country of ref document: EP Kind code of ref document: A1 |