WO2010078792A1 - 一种识别垃圾文本的方法和系统 - Google Patents
一种识别垃圾文本的方法和系统 Download PDFInfo
- Publication number
- WO2010078792A1 WO2010078792A1 PCT/CN2009/075498 CN2009075498W WO2010078792A1 WO 2010078792 A1 WO2010078792 A1 WO 2010078792A1 CN 2009075498 W CN2009075498 W CN 2009075498W WO 2010078792 A1 WO2010078792 A1 WO 2010078792A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- garbage
- text
- feature
- weight
- features
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/21—Monitoring or handling of messages
- H04L51/212—Monitoring or handling of messages using filtering or selective blocking
Definitions
- the present invention relates to the field of Internet information processing and pattern recognition technologies, and in particular, to a method and system for identifying junk text. Background of the invention
- Information filtering means that the computer identifies information that satisfies the user's needs from the dynamically changing information flow based on the template information reflecting the user's needs, and eliminates information that is not related to the user's needs or harmful to the user's needs.
- a typical application of information filtering is to filter junk text from texts in the Internet, questions in the Q&A interactive platform, or answer texts, so that the news text, question text and answer text provided to the user can meet the user's needs. text.
- FIG. 1 is a flow chart of a method for identifying junk text according to sensitive words in the prior art. As shown in FIG. 1, the method includes:
- Step 101 Manually create a sensitive vocabulary.
- the sensitive vocabulary is determined by the garbage text recognition program or the designer of the device according to the current social needs. For example, the words related to the current national security, the common words in the online advertisement are set as sensitive words, and are stored in the sensitive vocabulary.
- Step 102 Determine whether the sensitive text in the sensitive word list is included in the to-be-processed text. If yes, go to step 103. Otherwise, go to step 104.
- Step 103 Identify the to-be-processed text as junk text, and end the process.
- Step 104 Identify the to-be-processed text as non-spam text, and end the process.
- Fig. 1 in the existing method for identifying junk text, as long as the text to be processed contains sensitive words, it is recognized as junk text, and in fact, the sensitive words contained in the text to be processed are different or sensitive. When the number of words is different, the probability that it belongs to junk text is also different. The method shown in Fig. 1 has a higher probability of identifying non-spam text as junk text. Summary of the invention
- an object of embodiments of the present invention is to provide a method and system for identifying junk text to improve the accuracy of identifying junk text.
- a method for identifying a garbage text comprising:
- Extracting the characteristics of the garbage sample determining the garbage characteristics from all the characteristics of the garbage sample according to the probability that the text containing the feature belongs to the garbage text, and assigning the garbage weight to each garbage feature, and forming the garbage by all the garbage features that are given the garbage weight Feature Library;
- the text to be processed is matched with the garbage feature in the garbage feature library, and whether the text to be processed is garbage text is determined according to the garbage weight of all the garbage features matched.
- a system for identifying junk text comprising a junk feature library and a junk text recognition device;
- the garbage feature library stores a garbage feature that gives a garbage weight
- the spam text recognition device receives the text to be processed, matches the to-be-processed text with the garbage feature in the garbage feature library, and determines whether the to-be-processed text is junk text according to the garbage weight of all the garbage features matched.
- the garbage feature library is pre-established before the garbage text is identified, and each of the garbage features is given a garbage weight according to the probability that the text containing the garbage feature belongs to the garbage text, and the garbage is identified.
- text first extract the place to be The characteristics of the text are determined, whether each feature of the to-be-processed text is in the garbage feature database, and whether the text to be processed is a junk text is determined according to the garbage weight of all the garbage features that are matched, and the prior art only matches the garbage feature.
- the embodiment of the present invention considers all the garbage features that are matched, and determines whether the text to be processed is garbage text according to the garbage weight of all garbage features, thereby improving the accuracy of identifying the garbage text.
- FIG. 1 is a flow chart of a method for identifying junk text according to sensitive words in the prior art.
- FIG. 2 is a flow chart of a method for identifying junk text according to an embodiment of the present invention.
- FIG. 3 is a flow chart of a method for identifying junk text from the perspective of an embodiment of the present invention.
- FIG. 4 is a flow chart of a method for identifying a spam text according to a semantic association of a context by establishing a context feature library of sensitive words according to an embodiment of the present invention.
- FIG. 5 is a flow chart of a method for identifying junk text from the perspective of the second embodiment of the present invention.
- FIG. 6 is a structural diagram of a system for identifying junk text according to an embodiment of the present invention. Mode for carrying out the invention
- the method for identifying the garbage text in the embodiment of the present invention is mainly divided into two major steps, as shown in the figure.
- FIG. 2 is a flowchart of a method for identifying junk text according to an embodiment of the present invention. As shown in FIG. 2, the method includes:
- Step 201 Establish a garbage feature library.
- the feature of the garbage sample is extracted, and the text containing the feature belongs to the garbage.
- the probability of the text determines the garbage characteristics from all the features of the garbage sample, and assigns the garbage weight to each garbage feature, and the garbage feature library is composed of all the garbage features that have been given the garbage weight.
- the garbage samples are usually manually filtered by the editor from all the texts and then manually labeled.
- Step 202 Determine whether the to-be-processed text is junk text according to all the garbage features matched.
- the feature of the text to be processed is first extracted, whether each feature of the text to be processed is determined to be in the garbage feature library, and then whether the text to be processed is a junk text is determined according to the garbage weight of all the garbage features that are matched.
- the text of the Q&A interactive platform is shorter than the news type text.
- the scope of the rubbish text in different processing objects is also different.
- the junk text of the Q&A interactive platform includes information that threatens the specific content of reaction or pornography such as national or social stability, which is contrary to the knowledge of the Q&A interactive platform.
- Non-Q&A information such as advertisements, confession, malicious irrigation, malicious insults, etc.
- the particularity of the text of the Q&A interactive platform has made it difficult to filter the junk text of the Q&A interactive platform.
- the text of the interactive question and answer platform is generally short, for example, the question text generally does not exceed 100 Chinese characters, and the average length is 20 Chinese characters, which makes it more difficult to mine the information of such texts.
- the text of the Q&A interactive platform is also very poorly regulated.
- there are unconventional Chinese characters such as spoken language, dialect, typo, Martian, and brain remains; in expression, punctuation is very irregular, and some question texts do not even have punctuation.
- the characteristics of the text of the question and answer interactive platform, extracting the garbage features and establishing a garbage feature library, and then identifying whether the text to be processed is garbage text according to the garbage feature database. From the arbitrary angle provided by the embodiment of the present invention, the accuracy of identifying the garbage text can be improved, when considering comprehensively When the garbage feature is triggered from various angles to identify the spam text from various angles, the accuracy of identifying the spam text is further improved.
- the garbage sample and the text to be processed can be pre-processed before the feature is extracted from the garbage sample and the feature is extracted from the text to be processed, and the garbage feature library is reduced on the one hand.
- the size on the other hand, also improves the speed of identifying junk text.
- the features of the text of the Q&A interactive platform extracted from multiple angles described above mainly include three angles.
- the text of the Q&A interactive platform may include information that threatens the specific content of reaction or pornography that is stable to the state or society.
- the editors manually create sensitive vocabularies and write sensitive words indicating the specific content.
- Angle 2 the text from the Q&A interactive platform may include non-Q&A information such as advertisements, confession, malicious irrigation, malicious abusiveness, etc., which deviate from the knowledge of the Q&A interactive platform, and use the supervised machine learning mechanism to obtain these non-Q&A information.
- the garbage feature is learned, and the garbage weight is given to each garbage feature according to the probability that the text containing the garbage feature belongs to the garbage text.
- Angle 2 can cover other garbage features that are not covered by the angle.
- the junk texts such as friends, malicious watering, malicious insults, etc. have different format information from non-spam texts, and extract corresponding format features.
- two or more features having a probability of being simultaneously present in the same garbage sample greater than the first predetermined threshold may be combined into a combined garbage feature, and the combined garbage feature is determined. Used to compose the features of the garbage feature library and write to the garbage feature library. Since in general, when certain features appear in the text to be processed at the same time, the probability that the text to be processed is junk text is large, and when only one of the features appears in the text to be processed, it is garbage.
- the probability of text is greatly reduced, therefore, by combining the combined garbage features and writing them into the garbage feature library, according to the garbage feature library in the future It is possible to identify whether the to-be-processed text contains the combined garbage feature, thereby identifying whether the to-be-processed text is junk text, and improving the accuracy of identifying the junk text.
- 3 is a flow chart of a method for identifying junk text from the perspective of an embodiment of the present invention. As shown in FIG. 3, the method includes:
- Step 301 establishing a sensitive vocabulary.
- a sensitive word capable of expressing the specific content is edited into a sensitive vocabulary.
- the sensitive word may be a single word, a combination of two or more words, or a phrase or a sentence.
- a sensitive word is a combination of two or more words (hereinafter referred to as a combined sensitive word)
- the combined sensitive word can express a semantic connection of the context, and if the combined text contains the combined sensitive word, the pending text is The probability of spam text is large, so it is possible to assign a garbage weight to a combination sensitive word no less than other non-combination sensitive words.
- the text to be processed contains the sensitive word "dynamite”
- the text to be processed may be "when the explosive is invented” or “how to make explosives”
- "manufacturing” and "dynamite” are to be used
- the word combination is a combination of sensitive words “manufacturing explosives”, because the combination sensitive word “manufacturing explosives” embodies the semantic connection of the context, therefore, when the pending text contains the combination of "manufacturing explosives", it belongs to the garbage text. The probability is greater, therefore, it is possible to give a higher garbage weight to the "manufacturing explosives", which, when it is “how to make explosives", also contains the combined sensitive word "making explosives”.
- the combination of sensitive words can express the semantic connection of the context, it can reduce the false positive rate of identifying non-spam text as junk text. For example, if the sensitive word "explosive" appears in the pending text, it will be identified. For the rubbish text, then the non-spam text of "When will the explosive be invented” will be misjudged as a junk text, and accordingly, if a "manufacturing explosive” combination is required When a word is recognized as a junk text, the non-spam text of "when is the invention of the explosive” is not misidentified as junk text.
- Step 302 Match the processed text with the sensitive words in the sensitive word list.
- a data structure such as a search tree in the prior art or a string matching algorithm may be used to match the processed words with the sensitive words in the sensitive vocabulary to match all the sensitive words in the text to be processed.
- the combined sensitive words may be identified according to the identification of the combined sensitive words, for example, if the pending text contains the words “manufacturing” and “dynamite”, and the sensitive vocabulary Contains “manufacturing & explosives", where the character "&” is a combination of sensitive word identifiers, which can match the sensitive words of the combination of "manufacturing explosives" in the text to be processed.
- Step 303 Determine, according to the garbage weight of all the sensitive words that are matched, whether the text to be processed is a junk text.
- the first garbage weight of the to-be-processed text is calculated according to the garbage weight of all the sensitive words that are matched.
- This step may also use the first garbage weight of the text to be processed as a factor for determining whether the text to be processed is a spam text.
- the specific method for identifying the garbage text can be found in the following related description.
- the combined sensitive word is actually a combined garbage feature, that is, a combination of two or more features.
- This combined garbage feature can reflect the semantic association of the context, thereby increasing the probability of identifying spam text.
- Contact to identify spam text to improve the accuracy of identifying spam text The following is established by The method is described in detail.
- FIG. 4 is a flowchart of a method for identifying a spam text according to a contextual semantic association by establishing a context feature library of a sensitive word according to an embodiment of the present invention.
- the method includes two stages of training and recognition, wherein the training phase is
- the training phase is
- the identification stage is the stage of processing the text to be processed according to the garbage signature database obtained by training.
- steps 403 ⁇ 406 please refer to steps 403 ⁇ 406:
- Step 401 establishing a sensitive vocabulary.
- step 301 The method for establishing a sensitive vocabulary in this step is the same as step 301.
- Step 402 Establish a context feature library for each sensitive word in the sensitive vocabulary.
- the first garbage sample training library and the first non-garb sample training library are first established.
- the garbage sample containing the sensitive word in the first garbage sample training library is counted, and each garbage sample is subjected to word segmentation processing, and other features other than the sensitive word in each garbage sample containing the sensitive word are extracted, and judged. Whether each of the other features has a probability of occurrence in all of the junk samples containing the sensitive word is greater than a predetermined value, and the other features having an occurrence probability greater than a predetermined value constitute a forward context feature library of the junk feature.
- the non-garbage sample containing the sensitive word in the first non-junk sample training library is counted, and the non-junk samples are subjected to word segmentation processing, and each non-junk sample containing the sensitive word is extracted except the sensitive word.
- the other features are usually extracted from characters in the garbage sample and the non-spam sample with a distance from the sensitive word within a certain range, so that the extracted other features have a contextual semantic relationship with the sensitive word. For example, when the words are within 3 words from before and after the sensitive words This article extracts other features besides the sensitive word, for example, for the non-garb sample of the garbage sample "Where is the store where Haidian District sells", where " ⁇ " represents a sensitive word, if from the distance sensitive words Extracting features other than the sensitive word from the text within 3 words requires extracting other features from "Where", “Yes", “Sell” and "", "Store”.
- Step 403 Match the processed text with the sensitive words in the sensitive vocabulary.
- This step is the same as step 302.
- Step 404 Calculate a current garbage weight of each sensitive word according to the context feature database corresponding to each matched sensitive word.
- the value of the forward weight factor and the negative weight factor need to be determined in advance. For each sensitive word in the text to be processed, matching other features of the to-be-processed text other than the sensitive word with the positive context feature library and the negative context feature database corresponding to the sensitive word, according to the positive weight factor The value, the negative weight factor value, and the matching positive context feature and the negative context feature get the current garbage weight of the sensitive word.
- the positive weighting factor value and the negative weighting factor are determined in advance; the value of the ⁇ can include:
- a weighting factor training set is pre-established, which consists of a garbage sample and a non-garb sample, wherein the garbage sample and the non-garb sample can be manually labeled by an editor.
- the current value of the factor is taken as a predetermined positive weight factor value and a negative weight factor.
- Obtaining the current garbage weight of the garbage feature according to the positive weight factor value, the negative weight factor value, and the matched forward context feature and the negative context feature may include:
- a negative weight update value is obtained, the garbage feature is added to the initial garbage weight value of the garbage feature database, and the positive weight update value is added, and the negative weight update value is subtracted from the obtained sum. Normalize the difference, that is, when the difference is less than or equal to 0, the minimum garbage weight threshold is used as the current garbage weight of the garbage feature. When the difference is greater than or equal to 1, the garbage weight maximum threshold is used. As the current garbage weight of the garbage feature, when the difference is between 0 and 1, the difference is used as the current garbage weight of the garbage feature.
- the garbage weight of the sensitive word ⁇ is ⁇ %(0 ⁇ :. re,. ⁇ 1). If the sensitive word ⁇ is matched in the pending text, the sensitive word is indexed to its corresponding forward context feature.
- the set of features matched in the forward context signature database is ⁇ 0 ⁇ , 03 ⁇ 4,..., 03 ⁇ 4 ⁇
- Score ⁇ Score , Score > 1 , (0 ⁇ Score min ⁇ 1, 0 ⁇ Score max ⁇ 1, )
- Score .,0 ⁇ Score . ⁇ 1 Where &ore m nu in n is the minimum threshold for garbage weight, Score Is the maximum threshold for garbage weight, and Score normi is the current garbage weight of the garbage feature.
- Score newi Score, + ( ⁇ ⁇ — calculation. re
- the specific values of the forward score gradient ⁇ and the negative score gradient v w can be obtained by pre-establishing a score gradient training set and then training using a neural network training method.
- Step 405 Calculate a first garbage weight of the to-be-processed text according to the current garbage weight of all the sensitive words that are matched.
- the calculating the first garbage weight of the to-be-processed text according to the current garbage weight of all the sensitive words that are matched includes:
- the value is multiplied to obtain a forward weight value, and the negative weight value is divided by the sum of the forward weight value and the negative weight value, and the obtained quotient is used as the first garbage weight value of the to-be-processed text.
- Step 406 Determine whether the to-be-processed text is junk text according to the first garbage weight of the to-be-processed text.
- the first garbage weight of the to-be-processed text may also be used as a factor for determining whether the to-be-processed text is a junk text.
- FIG. 5 is a flow chart of a method for identifying junk text from the perspective of the second embodiment of the present invention.
- the garbage feature is learned from a large number of garbage samples through a supervised machine learning mechanism, and the learned garbage feature can reflect the relationship between the contextual semantics of the text to be processed, thereby improving the identification of the junk text. accuracy.
- a second garbage sample training library and a second non-spam sample training library need to be established in advance, and the garbage samples and non-garb samples can be manually labeled by an editor.
- the method includes two stages of training and recognition, wherein the training phase is pre-completed.
- the identification phase is a stage for processing the text to be processed according to the garbage feature database obtained by the training.
- steps 503 ⁇ 506 please refer to steps 503 ⁇ 506:
- Step 501 Extract the candidate combination garbage features to be selected from the second garbage sample training library.
- the garbage sample in the second garbage sample training library is subjected to word segmentation processing, and two or more words appearing in the same garbage sample according to the order in which the two or more words appear in the same garbage sample Combine the garbage features in the order in which they are selected.
- Step 502 Combine the occurrence probabilities of the garbage features in the second garbage sample training library and the second non-garb sample training library according to the candidate order, and determine the sequential combination garbage features from the selected sequential combination garbage features. Write sequential garbage features to the garbage feature library.
- the document frequency DF value of the garbage component in the second garbage sample library is counted in the order of the candidate to be selected, and the selected DF value in the preset interval is extracted, according to the photo.
- the number of garbage samples is the number of non-garbage samples containing the sequential combination garbage features/to be selected in the second non-garbage sample library
- C is the number of garbage samples in the second garbage sample library that do not contain the sequential combination garbage features/to be selected.
- Step 503 Extract sequential combination features from the to-be-processed text.
- the method of extracting the candidate combination garbage features in the second garbage sample training library is the same.
- Step 504 Combine the garbage features according to all the matched sequences to obtain the garbage feature vector F of the to-be-processed text, and calculate the probability value P(F /c:) of the garbage feature vector F belonging to the garbage category.
- the garbage weight values of each sequence combination garbage feature are multiplied, and the obtained product is the probability value corpse (F / c ) of the garbage feature vector F belonging to the garbage category.
- Step 505 Calculate a second garbage weight of the to-be-processed text belonging to the garbage text according to the probability value corpse (F /c) of the garbage feature vector F belonging to the garbage category.
- the maximum likelihood probability (C) of the garbage category and the maximum likelihood probability of the non-spam category are calculated according to the second garbage sample library and the second non-garbage sample library, according to
- Step 506 Determine whether the to-be-processed text is junk text according to the second garbage weight of the to-be-processed text.
- the second garbage weight of the to-be-processed text may also be used as a factor for determining whether the to-be-processed text is a junk text.
- the method shown in Figure 5 actually uses the Bayes probability statistical method, which needs to satisfy the conditional independence assumption.
- the probability probability P( 7c ) of the garbage feature vector F belonging to the garbage category is calculated by using the independence probability formula in the Bayes probability statistical method. It will cause the garbage level of the same starting point of each ⁇ to be amplified multiple times, which makes the distribution of the two ends of the classified data more serious and affects the accuracy rate.
- the garbage feature vector F is ⁇ _;, _ ,
- the sequential combination features of the composition, each element in the vector ⁇ ' is a sequential combination feature consisting of non-adjacent words.
- the probability that each element in the sub-vector belongs to the garbage category is multiplied, and the obtained product is the corpse (F'/i).
- each sequence group j garbage feature has the same starting point w k .
- the probability that the pending text containing the subvector belongs to the garbage category (C7F') is:
- the probability that the pending text containing the subvector r' belongs to the garbage category (c/r') is:
- This smooth processing method can comprehensively consider the conditional independence premise when Bayesian probabilistic method is applied and the probabilistic process of combining the garbage features with the starting point with the same starting point.
- the specific values of the weighting factors and 6> can be obtained by testing in advance.
- a weighting factor test set is established in advance, which consists of a garbage sample and a non-garb sample. Randomly or according to a predetermined rule to initialize the weighting factor and 6>, according to the weighting factor and the current value of 6> to determine whether each sample in the weighting factor test set is a junk sample, according to the judgment result to obtain the false positive rate and the missed detection rate, when the false positive rate And when the missed detection rate is not within the preset range, the weighting factor and the value of (the value are updated until the missed detection rate and the false positive rate are within the preset range, and the weighting factor and the current value of 6> are used as the predetermined weighting factor and 6> Value.
- Figure 5 shows a method for identifying junk text using Bayes probability statistics, which combines junk features in the order of supervised words, and combines junk features according to the order of adjacent words and can be called Bayes classifier.
- the device can divide all the to-be-processed text into two types of texts, junk text and non-spam text, and can combine the garbage features in the order of the adjacent words and the garbage features in the order of non-adjacent words. Improve the accuracy of the classification.
- the combination sensitive words, the context feature library and the sequential combination garbage feature can all reflect the contextual semantic relationship of the junk text, thereby making the combination sensitive words, the context feature library and The accuracy of sequentially combining garbage features to identify junk text is better.
- the junk texts according to advertisements, friends, malicious watering, malicious insults and the like have different from non-spam texts.
- the format information is extracted as a garbage format feature, and the garbage format feature is written into the garbage feature library.
- the garbage format feature may be that the text length is shorter than a predetermined length (for example, the text length is 2 characters), and/or the text contains contact information, and/or the text contains uncommon words, and/or text. Contains repeated string information, and/or text with meaningless answer information (eg "don't know").
- the third garbage weight can be the product of the garbage weights of the various garbage pattern features that are matched.
- the embodiment of the present invention can synthesize the garbage weights obtained from a plurality of angles, calculate the comprehensive garbage weight, and determine whether the to-be-processed text is a junk text according to the comprehensive garbage weight, for example, in the integrated garbage. When the weight is greater than the second predetermined threshold, it is determined that the text to be processed is a junk text.
- the garbage feature database When comprehensively considering the first garbage weight, the second garbage weight and the third garbage weight obtained from the angle one, the angle two and the angle three, the garbage feature database includes a sensitive word list and a sequence group. Combined with the garbage feature and the garbage format feature, the integrated garbage weight is calculated based on the first garbage weight, the second garbage weight, and the third garbage weight. For example, the maximum value of the first garbage weight, the second garbage weight, and the third garbage weight is used as the comprehensive garbage weight, or the average of the three is used as the comprehensive garbage weight.
- the text to be processed may be pre-processed before the feature of the text to be processed is extracted, that is, to be processed.
- the text is converted into a unified representation.
- the full-width characters and half-width characters are unified into half-width characters or full-width characters
- uppercase characters and lowercase characters are unified into lowercase characters or uppercase characters
- spaces in the text to be processed are removed, and the pending characters are extracted.
- the ad core string in the text, and the URL with the jump character is processed into a normal URL form.
- the first predetermined threshold, the second predetermined threshold, and the predetermined value used to establish the forward context feature library, the predetermined value used to establish the negative context feature library, and the predetermined value used to determine the combined garbage feature All can be determined by those skilled in the art based on experience, or by establishing a corresponding parameter test sample library.
- the test sample bank consists of a predetermined number of garbage samples and a predetermined number of non-garb samples. How to get the best parameter value according to the parameter test sample library test is a prior art.
- FIG. 6 is a structural diagram of a system for identifying junk text according to an embodiment of the present invention. As shown in FIG. 6, the system includes a junk feature library 601 and a junk text recognition device 602.
- the garbage feature library 601 stores the garbage features that give the garbage weight.
- the garbage text recognition device 602 receives the to-be-processed text, matches the to-be-processed text with the garbage feature in the garbage feature library 601, and determines whether the to-be-processed text is junk text according to the garbage weight of all the garbage features matched.
- the garbage features stored in the garbage signature database include sensitive words and/or sequential combination garbage features and/or garbage format features.
- the garbage feature library may further store a forward context feature library and a negative context feature library for each sensitive word.
- the forward context feature library of each sensitive word is obtained by counting the pre-established garbage sample containing the sensitive word in the first garbage sample training library, and extracting each garbage sample containing the sensitive word from the sensitive word. In other features, it is determined whether the probability of occurrence of each of the other features in all of the junk samples containing the sensitive word is greater than a predetermined value, and is obtained by the other features having an occurrence probability greater than a predetermined value.
- the negative contextual feature database of each sensitive word by counting the non-junk samples containing the sensitive words in the pre-established first non-junk sample training library, extracting the non-spam samples including the sensitive words except the sensitive words In addition to other features, it is determined whether the probability of occurrence of each of the other features in all non-junk samples containing the sensitive word is greater than a predetermined value, and is obtained by the other features having an occurrence probability greater than a predetermined value.
- the junk text identification device 602 is configured to: when the sensitive word is matched, match the forward context feature library and the negative context feature database of the sensitive word with the to-be-processed text, according to the matched forward context feature and The negative context feature calculates the current garbage weight of the sensitive word, and determines whether the to-be-processed text is junk text according to the current garbage weight of the matched sensitive word.
- the junk text identification device may be further configured to convert the to-be-processed text into a unified representation manner before matching the to-be-processed text with the junk feature in the junk feature library 601.
- the garbage feature database is pre-established before the garbage text is recognized.
- the feature of the text to be processed is first extracted, and the garbage weight of all the garbage features matched is determined to be processed.
- the embodiment of the present invention considers all the junk features matched, and judges according to the garbage weight of all junk features. Whether the text to be processed is junk text, therefore, can improve the identification of garbage The accuracy of the text.
- Propose a solution to identify various junk texts From the arbitrary point of view of the embodiment of the present invention, the accuracy of identifying the junk text can be improved.
- the contextual semantic relationship of the junk text can be reflected by the combination sensitive word and the context feature library in the angle one and the sequential combination garbage feature in the angle two. That is, it shows the probability that the certain texts in the to-be-processed text are junk text at the same time, thus further improving the accuracy of identifying the junk text.
- the embodiment of the present invention integrates the garbage weights obtained from a plurality of angles, and calculates the comprehensive garbage weight, and determines whether the to-be-processed text is a garbage text according to the comprehensive garbage weight, the accuracy of identifying the garbage text can be further improved.
- the text to be processed is preprocessed, that is, when the text to be processed is converted into a unified expression mode, the storage space occupied by the garbage feature library may be reduced, and the storage space may be improved. Identify the speed of spam text.
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
一种识别垃圾文本的方法和系统
技术领域
本发明涉及互联网信息处理和模式识别技术领域, 尤其涉及一种识 别垃圾文本的方法和系统。 发明背景
在互联网领域中, 为了能够为互联网用户提供其所需要的信息, 需 要进行信息过滤。信息过滤是指,计算机根据反映用户需求的模板信息, 从动态变化的信息流中识别出满足用户需求的信息, 并剔除与用户需求 无关或者对用户需求有害的信息。
信息过滤的一个典型应用是, 从互联网中的新闻文本、 问答互动平 台中的提问或回答文本等文本中过滤垃圾文本, 使得提供给用户的新闻 文本、 提问文本和回答文本是能够满足用户需求的文本。
过滤垃圾文本的过程中, 首先要识别出垃圾文本。 目前, 现有技术 中存在一种根据敏感词识别垃圾文本的方法, 具体参见图 1。
图 1是现有技术中根据敏感词识别垃圾文本的方法流程图, 如图 1 所示, 该方法包括:
步骤 101: 手动方式建立敏感词表。
该敏感词表由垃圾文本识别程序或者装置的设计人员根据当前的社 会需求来确定, 例如, 将涉及当前国家安全的词、 网络广告中的常用词 设置为敏感词, 存入敏感词表中。
步骤 102: 判断待处理文本中是否包含敏感词表中的敏感词, 如果 是, 执行步骤 103 , 否则, 执行步骤 104。
步骤 103, 将该待处理文本识别为垃圾文本, 结束本流程。
步骤 104, 将该待处理文本识别为非垃圾文本, 结束本流程。
由图 1可见, 现有这种识别垃圾文本的方法中, 只要待处理文本中 含有敏感词, 就将其识别为垃圾文本, 而实际上, 待处理文本中含有的 敏感词不同、 或者含有敏感词的数目不同时, 其属于垃圾文本的概率也 是不同的, 图 1所示方法将非垃圾文本识别为垃圾文本的概率较大。 发明内容
有鉴于此, 本发明实施例的目的在于提供一种识别垃圾文本的方法 和系统, 以提高识别垃圾文本的准确性。
为达到上述目的, 本发明实施例的技术方案具体是这样实现的: 一种识别垃圾文本的方法, 该方法包括:
提取垃圾样本的特征, 按照包含该特征的文本属于垃圾文本的概率 从垃圾样本的所有特征中确定出垃圾特征, 并为每个垃圾特征赋予垃圾 权重, 由所有赋予了垃圾权重的垃圾特征组成垃圾特征库;
将待处理文本与垃圾特征库中的垃圾特征进行匹配, 根据匹配到的 所有垃圾特征的垃圾权重判断待处理文本是否是垃圾文本。
一种识别垃圾文本的系统, 该系统包括垃圾特征库和垃圾文本识别 装置;
所述垃圾特征库, 存储有赋予了垃圾权重的垃圾特征;
所述垃圾文本识别装置, 接收待处理文本, 将待处理文本与垃圾特 征库中的垃圾特征进行匹配, 根据匹配到的所有垃圾特征的垃圾权重判 断待处理文本是否是垃圾文本。
由上述技术方案可见, 本发明实施例在识别垃圾文本之前, 预先建 立垃圾特征库, 其中的每个垃圾特征都按照包含该垃圾特征的文本属于 垃圾文本的概率被赋予了垃圾权重, 在识别垃圾文本时, 首先提取待处
理文本的特征, 判断待处理文本的各个特征是否在垃圾特征库中, 根据 匹配到的所有垃圾特征的垃圾权重判断待处理文本是否是垃圾文本, 与 现有技术中只要匹配到垃圾特征, 就将其判定为垃圾文本相比, 由于本 发明实施例考虑了匹配到的所有垃圾特征, 并根据所有垃圾特征的垃圾 权重判断待处理文本是否是垃圾文本, 因此, 能够提高识别垃圾文本的 准确性。 附图简要说明
图 1是现有技术中根据敏感词识别垃圾文本的方法流程图。
图 2是本发明实施例识别垃圾文本的方法流程图。
图 3是从本发明实施例角度一出发识别垃圾文本的方法流程图。 图 4是本发明实施例通过建立敏感词的上下文特征库来实现根据上 下文的语义联系识别垃圾文本的方法流程图。
图 5是从本发明实施例角度二出发识别垃圾文本的方法流程图。 图 6是本发明实施例识别垃圾文本的系统结构图。 实施本发明的方式
为使本发明实施例的目的、 技术方案及优点更加清楚明白, 以下参 照附图并举实施例, 对本发明实施例进一步详细说明。
本发明实施例识别垃圾文本的方法主要分为两大步骤, 具体请见图
2。
图 2是本发明实施例识别垃圾文本的方法流程图, 如图 2所示, 该 方法包括:
步骤 201 , 建立垃圾特征库。
本步骤中, 提取垃圾样本的特征, 按照包含该特征的文本属于垃圾
文本的概率从垃圾样本的所有特征中确定出垃圾特征, 并为每个垃圾特 征赋予垃圾权重, 由所有赋予了垃圾权重的垃圾特征组成垃圾特征库。
其中的垃圾样本一般由编辑人员从所有文本中进行人工筛选, 然后 手动标注得到。
步骤 202, 根据匹配到的所有垃圾特征判断待处理文本是否是垃圾 文本。
本步骤中, 首先提取待处理文本的特征, 判断待处理文本的各个特 征是否在垃圾特征库中, 然后根据匹配到的所有垃圾特征的垃圾权重判 断待处理文本是否是垃圾文本。
一般来说, 不同的处理对象表现出的特征不相同。 例如, 与新闻类 型的文本相比, 问答互动平台的文本的长度较短。 不同的处理对象中的 垃圾文本涵盖的范围也不相同, 例如, 问答互动平台的垃圾文本中包括 威胁国家或社会稳定的反动、 色情等特定内容的信息, 与问答互动平台 的知识性相背离的广告、 征友、 恶意灌水、 恶意辱骂等非问答信息。
问答互动平台的文本的特殊性, 给问答互动平台的垃圾文本过滤带 来了困难。 例如, 由于互动问答平台的文本一般较短, 比如提问文本一 般不超过 100个汉字, 平均长度是 20个汉字, 这使得挖掘这类文本的 信息的难度加大。
另外, 问答互动平台的文本的规范性也很差。 例如, 在词法上, 存 在口语、 方言、 错字、 火星文、 脑残体等非常规汉字; 在表达上, 标点 符号使用很不规范, 有的提问文本甚至没有标点符号。 问答互动平台的文本的特征, 从中提取出垃圾特征并建立垃圾特征库, 然后根据垃圾特征库识别待处理文本是否是垃圾文本。 从本发明实施例 提供的任意角度出发, 均能够提高识别垃圾文本的准确性, 当综合考虑
垃圾特征库中从各个角度触发提取的垃圾特征来识别垃圾文本时, 识别 垃圾文本的准确性会进一步得到提高。 另外, 针对问答互动平台的文本 的不规范性, 还可以在从垃圾样本中提取特征和从待处理文本中提取特 征之前, 对垃圾样本和待处理文本进行预处理, 一方面减小垃圾特征库 的大小, 另一方面也提高识别垃圾文本的速度。
上文所述从多个角度提取问答互动平台的文本的特征主要包括三 个角度。 角度一, 从问答互动平台的文本中可能包括威胁国家或社会稳 定的反动、 色情等特定内容的信息出发, 由编辑人员以手动方式建立敏 感词表, 将表示该特定内容的敏感词写入敏感词表, 并根据当前的社会 需求即根据包含该敏感词的文本属于垃圾文本的概率为每个敏感词赋 予垃圾权重。 角度二, 从问答互动平台的文本中可能包括与问答互动平 台的知识性相背离的广告、 征友、 恶意灌水、 恶意辱骂等非问答信息出 发, 利用有监督的机器学习机制从这些非问答信息中学习出垃圾特征, 并根据包含该垃圾特征的文本属于垃圾文本的概率为每个垃圾特征赋 予垃圾权重。 通过角度二可以涵盖角度一所未能涵盖的其他垃圾特征。 友、 恶意灌水、 恶意辱骂等垃圾文本所具有的区别于非垃圾文本的格式 信息, 提取相应的格式特征。
其中, 在从角度一或角度二出发识别垃圾文本时, 还可以将同时出 现在同一垃圾样本中的概率大于第一预定阈值的两个以上的特征组合 为组合垃圾特征, 将该组合垃圾特征确定为用于组成垃圾特征库的特征 并写入垃圾特征库。 由于通常情况下, 当某些特征同时出现在待处理文 本中时, 待处理文本是垃圾文本的概率较大, 而当该某些特征中只有一 个特征出现在待处理文本中时,其是垃圾文本的概率则大大减小, 因此, 通过组合出组合垃圾特征并将其写入垃圾特征库, 日后根据垃圾特征库
识别待处理文本是否含有所述组合垃圾特征, 从而识别待处理文本是否 是垃圾文本, 能够提高识别垃圾文本的准确性。
下面对从上述三个角度出发识别垃圾文本的方法分别予以说明。 图 3是从本发明实施例角度一出发识别垃圾文本的方法流程图, 如 图 3所示, 该方法包括:
步骤 301 , 建立敏感词表。 等特定内容的信息中, 将能够表达该特定内容的敏感词编辑进敏感词 表。 其中, 该敏感词可以是单个词, 也可以是两个以上的词的组合, 还 可以是短语或者句子。
当敏感词是两个以上的词的组合(下文筒称组合敏感词) 时, 该组 合敏感词能够表达出上下文的语义联系, 如果待处理文本中含有该组合 敏感词, 则该待处理文本是垃圾文本的概率较大, 因此, 可以为组合敏 感词赋予不低于其他非组合敏感词的垃圾权重。 例如, 当待处理文本中 包含敏感词"炸药"时, 待处理文本可能是"炸药在何时发明", 也可能是 "如何制造炸药", 而如果将 "制造"和"炸药 "这两个词组合为组合敏感词 "制造炸药", 由于组合敏感词"制造炸药"体现了上下文的语义联系, 因 此, 当待处理文本中包含 "制造炸药"这一组合敏感词时, 其属于垃圾文 本的概率较大, 因此, 可以为 "制造炸药"赋予较高的垃圾权重, 其中, 本为"炸药如何制造 "时, 其也包含组合敏感词"制造炸药"。 由于组合敏 感词能够表达出上下文的语义联系, 因此, 能够降低把非垃圾文本识别 为垃圾文本的误判率, 例如, 如果只要待处理文本中出现"炸药"这一敏 感词, 则将其识别为垃圾文本, 那么, "炸药在何时发明"这一非垃圾文 本将被误判为垃圾文本, 相应地, 如果需要出现 "制造炸药"这个组合敏
感词, 才将其识别为垃圾文本时, 就不会将"炸药在何时发明"这一非垃 圾文本误判为垃圾文本。
步骤 302 , 对待处理文本与敏感词表中的敏感词进行匹配。
本步骤中, 可以利用现有技术中的搜索树等数据结构或者字符串匹 配算法来对待处理文本与敏感词表中的敏感词进行匹配, 从而匹配出待 处理文本中的所有敏感词。
其中, 对于组合敏感词, 可以根据组合敏感词的标识识别待处理文 本中是否包含组合敏感词,例如,如果待处理文本中含有"制造"和"炸药" 这两个词, 而敏感词表中含有"制造&炸药", 其中的字符" &"是组合敏感 词标识, 则可以匹配出待处理文本中包含"制造炸药 "这一组合敏感词。
步骤 303 , 根据匹配到的所有敏感词的垃圾权重判断待处理文本是 否是垃圾文本。
本步骤中, 根据匹配到的所有敏感词的垃圾权重计算待处理文本的 第一垃圾权重。 本步骤可以在第一垃圾权重大于第二预定阈值时, 判定 待处理文本是垃圾文本, 例如, 当组合敏感词的垃圾权重大于所述第二 预定阈值时, 如果待处理文本中包含组合敏感词, 则将待处理文本直接 判定为垃圾文本。 本步骤还可以将待处理文本的第一垃圾权重作为判定 待处理文本是否是垃圾文本的一个因素。
将待处理文本的第一垃圾权重作为判定待处理文本是否是垃圾文 本的一个因素时, 识别垃圾文本的具体方法请见后文相关叙述。
图 3所示方法中, 组合敏感词实际上是一种组合垃圾特征, 即由两 个以上的特征组合而成。 这种组合垃圾特征能够体现出上下文的语义联 系, 从而提高识别出垃圾文本的概率。 联系识别垃圾文本, 从而提高识别垃圾文本的准确性。 下面对通过建立
方法进行详细介绍。
图 4是本发明实施例通过建立敏感词的上下文特征库来实现根据上 下文的语义联系识别垃圾文本的方法流程图, 如图 4所示, 该方法包括 训练和识别两个阶段, 其中训练阶段是预先完成的, 具体请见步骤 401-402, 识别阶段是根据训练得到的垃圾特征库对待处理文本进行处 理的阶段, 具体请见步骤 403~406:
步骤 401 , 建立敏感词表。
本步骤建立敏感词表的方法与步骤 301相同。
步骤 402, 建立敏感词表中每个敏感词的上下文特征库。
本步骤中, 首先建立第一垃圾样本训练库和第一非垃圾样本训练 库。
对于每个敏感词, 统计第一垃圾样本训练库中包含该敏感词的垃圾 样本, 对各个垃圾样本进行分词处理, 提取包含该敏感词的各个垃圾样 本中除该敏感词外的其他特征, 判断每个所述其他特征在包含该敏感词 的所有垃圾样本中的出现概率是否大于预定值, 由出现概率大于预定值 的所述其他特征组成该垃圾特征的正向上下文特征库。
对于每个敏感词, 统计第一非垃圾样本训练库中包含该敏感词的非 垃圾样本, 对各个非垃圾样本进行分词处理, 提取包含该敏感词的各个 非垃圾样本中除该敏感词外的其他特征, 判断每个所述其他特征在包含 该敏感词的所有非垃圾样本中的出现概率是否大于预定值, 由出现概率 大于预定值的所述其他特征组成该垃圾特征的负向上下文特征库。
其中, 通常从垃圾样本和非垃圾样本中与敏感词的距离在一定范围 内的字符中提取所述其他特征, 这样可以保证提取的该其他特征与该敏 感词有上下文语义联系。 例如, 当从距离敏感词前后各 3个词以内的文
本中提取除该敏感词以外的其他特征,例如,对于垃圾样本 "海淀区哪里 有卖 的商店 "这一非垃圾样本, 其中的" ~~~ "代表敏感词, 如果从距 离敏感词前后各 3个词以内的文本中提取除该敏感词以外的其他特征, 则需要从"哪里"、 "有"、 "卖"和"的"、 "商店 "中提取其他特征。
步骤 403 , 对待处理文本与敏感词表中的敏感词进行匹配。
本步骤同步骤 302。
步骤 404, 根据匹配到的各个敏感词对应的上下文特征库, 计算该 各个敏感词的当前垃圾权重。
本步骤中, 需要预先确定正向权重因子取值和负向权重因子取值。 对于待处理文本中的每个敏感词, 将待处理文本中除该敏感词以外 的其他特征与该敏感词对应的正向上下文特征库和负向上下文特征库 进行匹配, 根据正向权重因子取值、 负向权重因子取值以及匹配到的正 向上下文特征和负向上下文特征得到敏感词的当前垃圾权重。
本步骤中预先确定正向权重因子 取值和负向权重因子;^取值可 以包括:
预先建立权重因子训练集, 其由垃圾样本和非垃圾样本组成, 其中 的垃圾样本和非垃圾样本可以由编辑人员手工标注得到。
随机或者按照预定规则初始化正向权重因子 和负向权重因子 , 其中 + = 1。根据正向权重因子 和负向权重因子 的当前值判断权 重因子训练集中的各个样本是否是垃圾样本, 根据判断结果得到误判率 和漏检率, 当误判率和漏检率不在预设范围内时, 更新正向权重因子 的取值和负向权重因子^的取值并保证 + β = \ ,直至漏检率和误判率 在预设范围内, 将正向权重因子 和负向权重因子 的当前值作为预先 确定的正向权重因子 取值和负向权重因子 取值。
根据正向权重因子 取值、 负向权重因子 取值以及匹配到的正向 上下文特征和负向上下文特征得到该垃圾特征的当前垃圾权重可以包 括:
将预先确定的正向权重因子《取值与所述正向上下文特征的数目 相乘得到正向权重更新值, 将预先确定的负向权重因子 取值与所述负 向上下文特征的数目相乘得到负向权重更新值, 将该垃圾特征在垃圾特 征库的初始垃圾权重值加上所述正向权重更新值, 将所得和减去所述负 向权重更新值。对所得差进行归一化处理, 即, 当所得差小于等于 0时, 将垃圾权重最小门限值作为该垃圾特征的当前垃圾权重, 当所得差大于 等于 1时, 将垃圾权重最大门限值作为该垃圾特征的当前垃圾权重, 当 所得差在 0和 1之间时, 将该所得差作为该垃圾特征的当前垃圾权重。
假设,敏感词 ^的垃圾权重为 Λ^%(0<Λ:。 re,. <1), 如果在待处 理文本中匹配到敏感词 ^ , 根据敏感词 ^索引到其对应的正向上下文 特征库和负向上下文特征库,与待处理文本中与敏感词 ^的距离在一定 范围内的字符中提取其他特征与该正向上下文特征库和负向上下文特 征库中的特征进行匹配, H殳在正向上下文特征库中匹配到的特征组成 的集合是{0^,0¾,...,0¾}, 在负向上下文特征库中匹配到的特征组 成的集合是 { Cn , Cnj2 ,...,Cnjt}, 则 ^未经归一化的当前垃圾权重为 Scorenewi = Score, +
对 5^re ,.进行归一化处理, 即令
Scoremia,Scorenewi <=0
Score^ Score , Score >=1 , (0 < Scoremin < 1, 0 < Scoremax < 1, )
其中,在计算 ^未经归一化的当前垃圾权重&。 rewe ^时,还可以考 虑区分正向上下文特征库和负向上下文特征库中不同的上下文特征对 ^的影响程度的不同, 具体地, 为每个正向上下文特征设置正向分值梯 度 V。, 为每个负向上下文特征设置负向分值梯度 Vw , 其中 0 < V < 1 , o<yw <i , 分别用于表示各个上下文特征的权重更新程度。 根据
Scorenewi = Score, + (^βνη— 计算 。 re
j i
正向分值梯度 ^和负向分值梯度 vw的具体取值可以通过预先建立 分值梯度训练集 然后利用神经网络训练方法进行训练得到。
步骤 405 , 根据匹配到的所有敏感词的当前垃圾权重计算待处理文 本的第一垃圾权重。
本步骤中, 所述根据匹配到的所有敏感词的当前垃圾权重计算待处 理文本的第一垃圾权重包括:
将匹配到的所有垃圾特征的当前垃圾权重相乘得到负向权重值, 用 1 减去每一垃圾特征的当前权重得到每一垃圾特征的当前非垃圾权重, 将所有垃圾特征的当前非垃圾权重值相乘得到正向权重值, 将负向权重 值除以正向权重值与负向权重值的和, 将所得商作为该待处理文本的第 一垃圾权重值。
{^,^2,...,^ } , 则待处理文本的第一绝对垃圾权重值为
P(Neg) = f[Scorenormi , 第 一 绝 对 非 垃 圾 权 重 值 为
P(Post) = l(l - Scorenormi ) , 则待处理文本的第一垃圾权重值为
Wgt = ) 。
P(Neg) + P(Post) 步骤 406, 根据待处理文本的第一垃圾权重判断待处理文本是否是 垃圾文本。
本步骤可以在第一垃圾权重大于第二预定阈值时, 判定待处理文本 是垃圾文本, 还可以将待处理文本的第一垃圾权重作为判定待处理文本 是否是垃圾文本的一个因素。
图 5是从本发明实施例角度二出发识别垃圾文本的方法流程图。 图 5所示方法中, 通过有监督的机器学习机制从大量的垃圾样本中 学习出垃圾特征, 并且学习出的垃圾特征能够体现出待处理文本上下文 语义之间的联系, 从而提高识别垃圾文本的准确性。
在图 5所示方法中, 需要预先建立第二垃圾样本训练库和第二非垃 圾样本训练库, 其中的垃圾样本和非垃圾样本可以由编辑人员手工标注 得到。 如图 5所示, 该方法包括训练和识别两个阶段, 其中训练阶段是 预先完成的, 具体请见步骤 501~502, 识别阶段是根据训练得到的垃圾 特征库对待处理文本进行处理的阶段, 具体请见步骤 503~506:
步骤 501 ,从第二垃圾样本训练库中提取待选的顺序组合垃圾特征。 本步骤中, 对第二垃圾样本训练库中的垃圾样本进行分词处理, 将 同时出现在同一垃圾样本中的两个以上的词按照该两个以上的词在该 同一垃圾样本中出现的先后顺序组合为待选的顺序组合垃圾特征。
在所述同一垃圾样本中相邻时, 待选的顺序组合垃圾特征 _;为 fi = {Wj,...,wj+k},0< ^<φ (如表二所示 ), 当用于组成待选的顺序组 合垃圾特征的两个以上的词在所述同一垃圾样本中不相邻时, 待选的顺 序组合垃圾特征 为 tt = {Wj,wj+k},l <k<0 (如表三所示其中, φ θ 是上下文窗口大小, 即是用于组成待选的顺序组合垃圾特征的词之间间 隔的最大距离。
例如, 表二中, φ二 1, 以词 ¼ 开始的待选的顺序组合垃圾特征为 _ ; ={M,w2}、 f2 = {wl,w2,w3} , 以词 w2开始的待选的顺序组合垃圾 特征为 /3 ={¼;2,Ηβ}、 f4 = {w2,w3,w4} , 以此类推。
表三, Θ二? > , 以词 ¼ 开始的待选的顺序组合垃圾特征为 tx ={wl,w3}. t2 ={ wl, w3, w4} , t3 ={ wl, w4} , 词 w2开始的待选的 顺序组合垃圾特征为 t4 = {w2, w4]、 t5 = {w2, w4, w5] , t6 = {w2, w5] , 以此类推。
表三
步骤 502, 根据待选的顺序组合垃圾特征在第二垃圾样本训练库和 第二非垃圾样本训练库中的出现概率, 从待选的顺序组合垃圾特征中确 定出顺序组合垃圾特征。 将顺序组合垃圾特征写入垃圾特征库。
本步骤中, 统计待选的顺序组合垃圾特征在第二垃圾样本库的所有 垃圾样本中出现的文档频度 DF值, 提取 DF值在预设区间内的待选的 顺 序 组 合 垃 圾 特 征 , 按 照
Nx(AD-CB)
•计算该 DF值在预设
圾特征。
其中, 是第二垃圾样本库和第二非垃圾样本库中所有样本的数 目, A是第二垃圾样本库中包含待选的顺序组合垃圾特征/ ( /可以是 f 也可以是 ί,. ) 的垃圾样本数, 是第二非垃圾样本库中包含待选的 顺序组合垃圾特征/的非垃圾样本数, C是第二垃圾样本库中不包含待 选的顺序组合垃圾特征/的垃圾样本数, 是第二非垃圾样本库中不包 含待选的顺序组合垃圾特征/的非垃圾样本数。
每个顺序组合垃圾特征的垃圾权重值可以设置为每个顺序组合垃 圾特征属于垃圾类别的最大似然统计值尸 (/ lc) , 该最大似然统计值 P(f /c)可以根据第二垃圾样本库和第二非垃圾样本库计算得到。 具体
地, P(f lc) = j ' 其中, r(c)表示第二垃圾样本库中的样本数, T(c)
步骤 503 , 从待处理文本中提取顺序组合特征。 二垃圾样本训练库中提取待选的顺序组合垃圾特征的方法相同。
步骤 504, 根据匹配到的所有顺序组合垃圾特征得到该待处理文本 的垃圾特征向量 F , 计算垃圾特征向量 F属于垃圾类别的概率值 P(F /c:)。
本步骤中, 垃圾特征向量 F的元素包括/;和^ 其中, 如果待处理 文本中包含多个具有相同起点的 ft , 则只将该多个具有相同起点的 ft中 长度最长的/;作为垃圾特征向量 F的元素, 例如, 如果待处理文本中包 括 /; ={W1, W2}和 /2 = {Μ, 2, κβ} , 则只将 /2 ={M, w2,¼e}作为垃 圾特征向量 F的元素, 因此, 在垃圾特征向量 F的元素中, 其所包含的 各个 ;元素的起点不同。 而对于 ί,., 无论待处理文本中包含的各个 ί,.是 否具有相同的起点, 均将其作为垃圾特征向量 F的元素。
本步骤中, 将各个顺序组合垃圾特征/的垃圾权重值相乘, 所得乘 积是垃圾特征向量 F属于垃圾类别的概率值尸 (F /c )。
步骤 505 , 根据垃圾特征向量 F属于垃圾类别的概率值尸 (F /c )计 算待处理文本属于垃圾文本的第二垃圾权重。
P(C / F) = -1— 计算包含垃圾特征向量 F的待处理样本属于垃圾文
-log
1 + e P(-c/F)
本的概率/5 , 将/5 作为待处理文本的第二垃圾权重。
步骤 506, 根据待处理文本的第二垃圾权重判断待处理文本是否是 垃圾文本。
本步骤可以在第二垃圾权重大于第二预定阈值时, 判定待处理文本 是垃圾文本, 还可以将待处理文本的第二垃圾权重作为判定待处理文本 是否是垃圾文本的一个因素。
图 5所示方法实际上利用的是 Bayes概率统计方法, 其需要满足条 件独立性假设前提。当垃圾特征向量 F包含的各个 具有相同的起点时, 各个 之间不满足独立性假设前提, 则采用 Bayes概率统计方法中的独 立性概率公式计算垃圾特征向量 F属于垃圾类别的概率 P( 7c )会导 致各个 ^的相同起点的垃圾程度被多次放大, 使得分类后的数据两端分 布比较严重, 影响准确率。 例如, 垃圾特征向量 F为 {_;, _ ,
计算垃圾特征向量 F属于垃圾类别的概率 ),会导致顺序组合垃 圾特征 、 2和 ^共同的起点 的垃圾程度被多次放大。
对此, 本发明实施例提出一种平滑式处理方法, 具体为: 预设加权 因子 和 6> , 和 6>满足 1 + 6^ = 1 , 将待处理样本 X的垃圾特征向量 F 划分为 和 Γ'两个子向量,其中的子向量 中的各个元素是由相邻词
组成的顺序组合特征,向量 Γ' 中的各个元素是由不相邻词组成的顺序组 合特征。
分别计算这两个子向量属于垃圾类别的概率 P{F'I c )和 P(f/c ), 进而计算包含子向量 的待处理文本属于垃圾类别的概率 P(C/F )和包含子向量 Γ'的待处理文本属于垃圾类别的概率 P(C/T ),根据尸( /0 = 尸(67/0 + 6>尸(670计算待处理样本 的第二垃圾权重尸 (x/c)。
具体地, 在计算子向量 属于垃圾类别的概率尸 (F'/c )时, 将子 向量 中各个元素属于垃圾类别的概率相乘, 所得乘积是尸 (F'/i )。
在计算子向量 Γ'属于垃圾类别的概率尸 (Γ'/c )时,先计算起始于相 同起点 wk的所有顺序组合垃圾特征同时在垃圾类别中出现的概率 n
P(Wk/c ), 然后根据尸 (Γ'/c ) = ]^[P(Wfc/c )计算尸 (Γ'/c ), 是子 k=l 向量 Γ'中的起点个数。
起始于相同起点 wk的所有顺序组合垃圾特征同时在垃圾类别中出 现的概率尸 )的计算公式为:
P(C/F) =
P(C/F )
1 + e
其中,
包含子向量 r' 的待处理文本属于垃圾类别的概率尸 (c/r')为:
1
P(C/T ) =
, P(C/T )
— log
l + e P{-CIT ) 其中, log
这种平滑式处理方法能够综合考虑应用 Bayes概率统计方法时的条 件独立性前提和各个具有相同起点的顺序组合垃圾特征对起点词的概 率加强过程。
其中加权因子 和 6>的具体取值可以预先通过测试得到。 具体地, 预先建立加权因子测试集, 其由垃圾样本和非垃圾样本组成。 随机或者 按照预定规则初始化加权因子 和 6> , 根据加权因子 和 6>的当前值判 断加权因子测试集中的各个样本是否是垃圾样本, 根据判断结果得到误 判率和漏检率,当误判率和漏检率不在预设范围内时,更新加权因子 和 ( 的取值, 直至漏检率和误判率在预设范围内, 将加权因子 和 6>的当 前值作为预先确定的加权因子 和 6>取值。
图 5所示利用 Bayes概率统计识别垃圾文本的方法, 其通过有监督 词组成的顺序组合垃圾特征, 根据由相邻词组成的顺序组合垃圾特征和 可以称之为 Bayes分类器, 这种 Bayes分类器能够将所有的待处理文本 分为垃圾文本和非垃圾文本两类文本, 并且由于利用了由相邻词组成的 顺序组合垃圾特征和由非相邻词组成的顺序组合垃圾特征, 因此, 能够
提高分类的准确性。
在图 3、 图 4和图 5所示方法中, 其中的组合敏感词、 上下文特征 库以及顺序组合垃圾特征均可以体现出垃圾文本的上下文语义联系, 从 而使得根据组合敏感词、 上下文特征库以及顺序组合垃圾特征识别垃圾 文本的准确性较好。
本发明实施例从角度三出发识别垃圾文本的方法中, 从问答互动平 台中的垃圾文本的格式角度出发, 根据广告、 征友、 恶意灌水、 恶意辱 骂等垃圾文本所具有的区别于非垃圾文本的格式信息, 提取相应的格式 特征作为垃圾格式特征, 将该垃圾格式特征写入垃圾特征库中。 提取待 处理文本的格式信息, 将提取的格式信息与垃圾特征库中的垃圾格式特 征进行匹配, 根据匹配到的所有垃圾特征的垃圾权重计算待处理文本的 第三垃圾权重, 根据第三垃圾权重判断待处理文本是否是垃圾文本, 例 如, 在第三垃圾权重大于第二预定阈值时, 将待处理文本判定为垃圾文 本,或者,将第三垃圾权重作为待处理文本是否是垃圾文本的因素之一。
其中, 所述的垃圾格式特征可以是文本长度短于预定长度(例如, 文本长度为 2个字符)、 和 /或文本中含有联系方式信息、 和 /或文本中含 有生僻字、 和 /或文本中含有重复字符串信息、 和 /或文本中含有无意义 的回答信息(例如"不知道")。第三垃圾权重可以是匹配到的各个垃圾格 式特征的垃圾权重的乘积。
为了进一步提高识别垃圾文本的准确性, 本发明实施例可以综合从 多个角度出发得到的垃圾权重, 计算出综合垃圾权重, 根据综合垃圾权 重判断待处理文本是否是垃圾文本, 例如, 在综合垃圾权重大于第二预 定阈值时, 判定待处理文本是垃圾文本。
当综合考虑从角度一、 角度二和角度三触发得到的第一垃圾权重、 第二垃圾权重和第三垃圾权重时, 垃圾特征库中包括敏感词表、 顺序组
合垃圾特征和垃圾格式特征, 综合垃圾权重根据第一垃圾权重、 第二垃 圾权重和第三垃圾权重计算得到。 例如, 将第一垃圾权重、 第二垃圾权 重和第三垃圾权重这三者中的最大值作为综合垃圾权重, 或者, 将这三 者的平均值作为综合垃圾权重。
为了减小垃圾特征库占用的存储空间, 同时提高识别垃圾文本的速 度,在上述识别垃圾文本的方法中,可以在提取待处理文本的特征之前, 对待处理文本进行预处理, 即, 将待处理文本转化为统一的表述方式, 例如, 将全角字符和半角字符统一为半角字符或全角字符, 将大写字符 和小写字符统一为小写字符或大写字符, 去除待处理文本中的空格, 提 取出待处理文本中的广告核心串, 和将带有跳转字符的网址处理成正常 的网址形式。
上文提到的第一预定阈值、 第二预定阈值以及建立正向上下文特征 库用到的预定值、 建立负向上下文特征库用到的预定值、 确定顺序组合 垃圾特征用到的预定值,均可以由本领域技术人员依据经验而定,或者, 通过建立相应的参数测试样本库进行测试得到。 所述测试样本库由预定 数目的垃圾样本和预定数目的非垃圾样本组成。 具体如何根据参数测试 样本库测试得到最佳参数取值属于现有技术。
图 6是本发明实施例提供的识别垃圾文本的系统结构图, 如图 6所 示, 该系统包括垃圾特征库 601和垃圾文本识别装置 602。
垃圾特征库 601 , 存储有赋予了垃圾权重的垃圾特征。
垃圾文本识别装置 602, 接收待处理文本, 将待处理文本与垃圾特 征库 601中的垃圾特征进行匹配, 根据匹配到的所有垃圾特征的垃圾权 重判断待处理文本是否是垃圾文本。
垃圾特征库中存储的垃圾特征包括有敏感词和 /或顺序组合垃圾特 征和 /或垃圾格式特征。
当垃圾特征库中存储的垃圾特征包括敏感词时, 垃圾特征库还可以 进一步存储有每个敏感词的正向上下文特征库和负向上下文特征库。
其中, 每个敏感词的所述正向上下文特征库, 通过统计预先建立的 第一垃圾样本训练库中包含该敏感词的垃圾样本, 提取包含该敏感词的 各个垃圾样本中除该敏感词外的其他特征, 判断每个所述其他特征在包 含该敏感词的所有垃圾样本中的出现概率是否大于预定值, 由出现概率 大于预定值的所述其他特征组成得到。
每个敏感词的所述负向上下文特征库, 通过统计预先建立的第一非 垃圾样本训练库中包含该敏感词的非垃圾样本, 提取包含该敏感词的各 个非垃圾样本中除该敏感词外的其他特征, 判断每个所述其他特征在包 含该敏感词的所有非垃圾样本中的出现概率是否大于预定值, 由出现概 率大于预定值的所述其他特征组成得到。
相应地, 垃圾文本识别装置 602用于, 在匹配到敏感词时, 将该敏 感词的正向上下文特征库和负向上下文特征库与待处理文本进行匹配, 根据匹配到的正向上下文特征和负向上下文特征计算该敏感词的当前 垃圾权重, 根据匹配到的敏感词的当前垃圾权重判断待处理文本是否是 垃圾文本。
垃圾文本识别装置还可以进一步用于, 在将待处理文本与垃圾特征 库 601中的垃圾特征进行匹配之前,将待处理文本转化为统一表述方式。
由上述技术方案可见, 由于本发明实施例在识别垃圾文本之前, 预 先建立垃圾特征库, 在识别垃圾文本时, 首先提取待处理文本的特征, 根据匹配到的所有垃圾特征的垃圾权重判断待处理文本是否是垃圾文 本, 与现有技术中只要匹配到垃圾特征, 就将其判定为垃圾文本相比, 由于本发明实施例考虑了匹配到的所有垃圾特征, 并根据所有垃圾特征 的垃圾权重判断待处理文本是否是垃圾文本, 因此, 能够提高识别垃圾
文本的准确性。 提出识别各种垃圾文本的方案。 从本发明实施例的任意角度出发, 都能 够提高识别垃圾文本的准确性。
当本发明实施例从角度一和 /或角度二出发识别垃圾文本时,由于角 度一中的组合敏感词和上下文特征库以及角度二中的顺序组合垃圾特 征均可以体现出垃圾文本的上下文语义联系, 即体现出待处理文本中同 时出现某些特征时是垃圾文本的概率, 因而使得识别垃圾文本的准确性 进一步提高。
当本发明实施例综合从多个角度出发得到的垃圾权重, 计算出综合 垃圾权重, 根据综合垃圾权重判断待处理文本是否是垃圾文本时, 提高 识别垃圾文本的准确性可以得到进一步提高。
当本发明实施例在提取待处理文本的特征之前, 对待处理文本进行 预处理, 即, 将待处理文本转化为统一的表述方式时, 还可以为了减小 垃圾特征库占用的存储空间, 同时提高识别垃圾文本的速度。
以上所述仅为本发明的较佳实施例而已, 并不用以限制本发明, 凡 在本发明的精神和原则之内, 所做的任何修改、 等同替换、 改进等, 均 应包含在本发明的保护范围之内。
Claims
1、 一种识别垃圾文本的方法, 其特征在于, 该方法包括: 提取垃圾样本的特征, 按照包含该特征的文本属于垃圾文本的概率 从垃圾样本的所有特征中确定出垃圾特征, 并为每个垃圾特征赋予垃圾 权重, 由所有赋予了垃圾权重的垃圾特征组成垃圾特征库;
将待处理文本与垃圾特征库中的垃圾特征进行匹配, 根据匹配到的 所有垃圾特征的垃圾权重判断待处理文本是否是垃圾文本。
2、如权利要求 1所述的方法, 其特征在于, 所述按照包含该特征的 文本属于垃圾文本的概率从垃圾样本的所有特征中确定出垃圾特征包 括:
将同时出现在同一垃圾样本中的概率大于第一预定阈值的两个以上 的特征组合为组合垃圾特征, 将该组合垃圾特征确定为用于组成垃圾特 征库的垃圾特征。
3、如权利要求 2所述的方法, 其特征在于, 所述组合垃圾特征包括 组合敏感词;
所述组成垃圾特征库包括:
建立组合敏感词的词表。
4、 如权利要求 3所述的方法, 其特征在于, 该方法进一步包括: 为组合敏感词赋予组合敏感词标识;
所述为每个垃圾特征赋予垃圾权重包括: 为组合敏感词赋予的垃圾 权重不低于其他垃圾特征的垃圾权重;
所述将待处理文本与垃圾特征库中的垃圾特征进行匹配包括: 根据垃圾特征库中组合敏感词的标识, 判断待处理文本中是否包含 能够组合成该组合敏感词的特征, 若是, 则判定匹配到组合敏感词。
5、如权利要求 4所述的方法, 其特征在于, 所述根据匹配到的所有 垃圾特征的垃圾权重判断待处理文本是否是垃圾文本包括:
当匹配到的所有垃圾特征各自的垃圾权重有大于第二预定阈值的垃 圾权重时, 判定待处理文本是垃圾文本;
所述第二预定阈值小于组合敏感词的垃圾权重。
6、 如权利要求 2所述的方法, 其特征在于,
所述垃圾特征包括敏感词;
所述垃圾特征库包括敏感词表、 正向上下文特征库和负向上下文特 征库;
所述组成垃圾特征库包括:
建立敏感词表;
建立第一垃圾样本训练库和第一非垃圾样本训练库;
对于敏感词表中的每个敏感词, 统计第一垃圾样本训练库中包含该 敏感词的垃圾样本, 提取包含该敏感词的各个垃圾样本中除该敏感词外 的其他特征, 判断每个所述其他特征在包含该敏感词的所有垃圾样本中 的出现概率是否大于预定值, 由出现概率大于预定值的所述其他特征组 成该敏感词的正向上下文特征库;
对于敏感词表中的每个敏感词, 统计第一非垃圾样本训练库中包含 该敏感词的非垃圾样本, 提取包含该敏感词的各个非垃圾样本中除该敏 感词外的其他特征, 判断每个所述其他特征在包含该敏感词的所有非垃 圾样本中的出现概率是否大于预定值, 由出现概率大于预定值的所述其 他特征组成该敏感词的负向上下文特征库;
所述根据匹配到的所有垃圾特征的垃圾权重判断待处理文本是否是 垃圾文本包括:
预先确定正向权重因子取值和负向权重因子取值;
对于待处理文本中的每个敏感词, 将待处理文本中除该敏感词以外 的其他特征与该敏感词对应的正向上下文特征库和负向上下文特征库 进行匹配, 根据正向权重因子取值、 负向权重因子取值以及匹配到的正 向上下文特征和负向上下文特征得到敏感词的当前垃圾权重;
根据匹配到的所有敏感词的当前垃圾权重计算待处理文本的第一垃 圾权重, 根据待处理文本的第一垃圾权重判断待处理文本是否是垃圾文 本。
7、如权利要求 6所述的方法, 其特征在于, 所述组合垃圾特征包括 顺序组合垃圾特征;
所述将同时出现在同一垃圾样本中的概率大于预定值的两个以上的 特征组合为组合垃圾特征包括:
建立第二垃圾样本训练库和第二非垃圾样本训练库;
对第二垃圾样本训练库中的垃圾样本进行分词处理, 将同时出现在 同一垃圾样本中的两个以上的词按照该两个以上的词在该同一垃圾样 本中出现的先后顺序组合为待选的顺序组合垃圾特征;
根据待选的顺序组合垃圾特征在第二垃圾样本训练库和第二非垃圾 样本训练库中的出现概率, 从待选的顺序组合垃圾特征中确定出顺序组 合垃圾特征;
所述待处理文本的特征包括顺序组合特征, 所述提取待处理文本的 特征包括:
对待处理文本进行分词处理, 将该待处理文本的两个以上的词按照 该两以上的词在待处理文本中的出现顺序组合为顺序组合特征;
所述根据匹配到的所有垃圾特征的垃圾权重判断待处理文本是否是 垃圾文本包括:
根据匹配到的所有顺序组合垃圾特征计算待处理文本的第二垃圾权
重, 根据待处理文本的第二垃圾权重判断待处理文本是否是垃圾文本。
8、如权利要求 7所述的方法, 其特征在于, 所述垃圾特征包括垃圾 格式特征;
所述提取垃圾样本的特征, 按照包含该特征的文本属于垃圾文本的 概率从垃圾样本的所有特征中确定出垃圾特征包括:
将垃圾样本区别于非垃圾样本的格式信息作为垃圾格式特征; 所述提取待处理文本的特征包括: 提取待处理文本的格式信息; 所述根据匹配到的所有垃圾特征的垃圾权重判断待处理文本是否是 垃圾文本包括:
根据匹配到的所有垃圾格式特征计算待处理文本的第三垃圾权重, 根据待处理文本的第三垃圾权重判断待处理文本是否是垃圾文本。
9、如权利要求 8所述的方法, 其特征在于, 所述判断是否是垃圾文 本包括:
根据待处理文本的第一垃圾权重、 第二垃圾权重和第三垃圾权重计 算待处理文本的综合垃圾权重, 在待处理文本的综合垃圾权重大于预定 值时, 判定待处理文本是垃圾文本。
10、 如权利要求 9所述的方法, 其特征在于, 所述计算待处理文本 的综合垃圾权重包括:
将第一垃圾权重、 第二垃圾权重和第三垃圾权重三者的最大值作为 综合垃圾权重,
或者, 将第一垃圾权重、 第二垃圾权重和第三垃圾权重的平均值作 为综合垃圾权重。
11、 如权利要求 2所述的方法, 其特征在于, 所述组合垃圾特征包 括顺序组合垃圾特征;
所述将同时出现在同一垃圾样本中的概率大于预定值的两个以上的
特征组合为组合垃圾特征包括:
建立第二垃圾样本训练库和第二非垃圾样本训练库;
对第二垃圾样本训练库中的垃圾样本进行分词处理, 将同时出现在 同一垃圾样本中的两个以上的词按照该两个以上的词在该同一垃圾样 本中出现的先后顺序组合为待选的顺序组合垃圾特征;
根据待选的顺序组合垃圾特征在第二垃圾样本训练库和第二非垃圾 样本训练库中的出现概率, 从待选的顺序组合垃圾特征中确定出顺序组 合垃圾特征;
所述待处理文本的特征包括顺序组合特征, 所述提取待处理文本的 特征包括:
对待处理文本进行分词处理, 将该待处理文本的两个以上的词按照 所述根据匹配到的所有垃圾特征的垃圾权重判断待处理文本是否是 垃圾文本包括:
根据匹配到的所有顺序组合垃圾特征计算待处理文本的第二垃圾权 重, 根据待处理文本的第二垃圾权重判断待处理文本是否是垃圾文本。
12、 如权利要求 6或 11所述的方法, 其特征在于, 所述判断待处理 文本是否是垃圾文本包括:
判断第一垃圾权重或第二垃圾权重是否大于第三预定阈值, 若是, 判定待处理文本是垃圾文本, 否则, 判定待处理文本不是垃圾文本。
13、 如权利要求 6所述的方法, 其特征在于,
提取包含该敏感词的各个垃圾样本中除该敏感词外的其他特征包 括: 在距离敏感词预定范围内提取所述其他特征;
所述提取包含该敏感词的各个非垃圾样本中除该敏感词外的其他特 征包括: 在距离敏感词预定范围内提取所述其他特征。
14、 如权利要求 6所述的方法, 其特征在于, 所述预先确定正向权 重因子和负向权重因子包括:
建立权重因子训练集, 其由垃圾样本和非垃圾样本组成;
随机或者按照预定规则初始化正向权重因子和负向权重因子, 根据 正向权重因子和负向权重因子的当前值判断权重因子训练集中的各个 样本是否是垃圾样本, 根据判断结果得到误判率和漏检率, 当误判率和 漏检率不在预设范围内时, 更新正向权重因子的取值和负向权重因子的 取值, 直至漏检率和误判率在预设范围内, 将正向权重因子和负向权重 因子的当前值作为预先确定的正向权重因子取值和负向权重因子取值。
15、 如权利要求 6所述的方法, 其特征在于, 所述根据正向权重因 子取值、 负向权重因子取值以及匹配到的正向上下文特征和负向上下文 特征得到敏感词的当前垃圾权重包括:
将预先确定的正向权重因子取值与所述正向上下文特征的数目相乘 得到正向权重更新值, 将预先确定的负向权重因子取值与所述负向上下 文特征的数目相乘得到负向权重更新值;
将该垃圾特征在垃圾特征库的初始垃圾权重值加上所述正向权重更 新值, 将所得和减去所述负向权重更新值, 当所得差小于等于 0时, 将 第一门限值作为该垃圾特征的当前垃圾权重; 当所得差大于等于 1时, 将第二门限值作为该垃圾特征的当前垃圾权重, 当所得差在 0和 1之间 时, 将该所得差作为该垃圾特征的当前垃圾权重。
16、 如权利要求 6所述的方法, 其特征在于,
该方法进一步包括: 预先设置正向上下文特征库中各个正向上下文 特征的正向分值梯度 和负向上下文特征库中各个负向上下文特征的 负向分值梯度 Vw ;
所述根据正向权重因子取值、 负向权重因子取值以及匹配到的正向 上下文特征和负向上下文特征得到该垃圾特征的当前垃圾权重包括: 将预先确定的正向权重因子取值与各个正向上下文特征的正向分值 梯度^相乘, 将所得的各个乘积累加, 所得和是正向权重更新值, 将预
相乘, 将所得的各个乘积累加, 所得和是负向权重更新值;
将该垃圾特征在垃圾特征库的初始垃圾权重值加上所述正向权重更 新值, 将所得和减去所述负向权重更新值, 当所得差小于等于 0时, 将 第一门限值作为该垃圾特征的当前垃圾权重; 当所得差大于等于 1时, 将第二门限值作为该垃圾特征的当前垃圾权重, 当所得差在 0和 1之间 时, 将该所得差作为该垃圾特征的当前垃圾权重。
17、 如权利要求 6所述的方法, 其特征在于, 所述根据匹配到的所 有敏感词的当前垃圾权重计算待处理文本的第一垃圾权重包括:
将匹配到的所有垃圾特征的当前垃圾权重相乘得到负向权重值, 用 1 减去每一垃圾特征的当前权重得到每一垃圾特征的当前非垃圾权重, 将所有垃圾特征的当前非垃圾权重值相乘得到正向权重值, 将负向权重 值除以正向权重值与负向权重值的和, 将所得商作为该待处理文本的第 一垃圾权重值。
18、 如权利要求 7或 11所述的方法, 其特征在于, 所述两个以上的 词相邻或者至少有两个词之间存在间隔。
19、 如权利要求 7或 11所述的方法, 其特征在于, 根据待选的顺序 组合垃圾特征在第二垃圾样本训练库和第二非垃圾样本训练库中的出 统计待选的顺序组合垃圾特征在第二垃圾样本库的所有垃圾样本中
出现的文档频度 DF值, 提取 DF值在预设区间内的待选的顺序组合垃
Nx(AD-CB)
圾特征,按照 )= •计算该
(A + C)x(B + D)x(A+B)x(C + D)
DF值在预设区间内的待选的顺序组合垃圾特征属于垃圾类别的相关度 Z2(f,c )值, 将 2(/,c )值大于预定值的待选的顺序组合垃圾特征确 定为顺序组合垃圾特征;
其中, 是第二垃圾样本库和第二非垃圾样本库中所有样本的数 目, A是第
样本数, C是第二垃
圾样本数, D是第二非垃圾样本库中不包含待选的顺序组合垃圾特征 f 的非垃圾样本数。
20、 如权利要求 7或 11所述的方法, 其特征在于, 所述为每个垃圾 特征赋予垃圾权重包括:
根据第二垃圾样本库和第二非垃圾样本库计算每个顺序组合垃圾特 征属于垃圾类别的最大似然统计值, 将该最大似然统计值作为顺序组合 垃圾特征的垃圾权重值。
21、 如权利要求 7或 11所述的方法, 其特征在于, 所述根据匹配到 的所有顺序组合垃圾特征计算待处理文本的第二垃圾权重包括:
由匹配到的所有顺序组合垃圾特征 /组成垃圾特征向量 F , 将各个 顺序组合垃圾特征/的垃圾权重值相乘, 所得乘积是垃圾特征向量 F属 于垃圾类别的概率值尸 (F/c ); 根据第二垃圾样本库和第二非垃圾样本库计算垃圾类别的最大似然 概率 尸 (C) 和非垃圾类别 的最大似然概率 , 按照
P(C/F) -计算包含垃圾特征向量 F的待处理样本属于垃圾文
-log P<C>F)
1 + e
本的概率/5 , 将/5 作为待处理文本的第二垃圾权重。
22、 如权利要求 7或 11所述的方法, 其特征在于,
该方法进一步包括, 预先设置加权因子 和 6>;
所述根据匹配到的所有顺序组合垃圾特征计算待处理文本的第二垃 圾权重包括:
由匹配到的具有相同起点且由相邻词构成
中长度最长的顺序组合特征构成垃圾特征向量 F的子向量 , 所有由 不相邻词构成的顺序组合特征构成垃圾特征向量 F的子向量 Γ'; 将子向量 中各个元素属于垃圾类别的概率相乘, 所得乘积是子 向量 属于垃圾类别的概率尸 (F'/c ); 按照尸 (W c )= ]^ [尸 ) + 6>max(P(i.'/c ))计算具有相同
1
按照 P(C7F) = 一计算包含子向量 F 的待处理文本 log p(c/F)
于垃圾类别的概率尸 (c/r') ;
P(C)和 z ^c)是根据第二垃圾样本库和第二非垃圾样本库计算 得到的垃圾类别最大似然概率和非垃圾类别最大似然概率。
23、 如权利要求 8所述的方法, 其特征在于, 所述格式信息包括: 文本长度信息、 和 /或文本中含有联系方式信息、 和 /或文本中含有生僻 字、 和 /或文本中含有重复字符串信息、 和 /或文本中含有无意义的回答 信息。
24、 如权利要求 1至 11任一权项所述的方法, 其特征在于, 在提取 待处理文本的特征之前, 该方法进一步包括:
将待处理文本转化为统一表述方式的预处理步骤。
25、如权利要求 24所述的方法,其特征在于,所述预处理步骤包括: 将全角字符和半角字符统一为半角字符或全角字符, 将大写字符和 小写字符统一为小写字符或大写字符, 去除待处理文本中的空格, 提取 出待处理文本中的广告核心串, 和将带有跳转字符的网址处理成正常的 网址形式。
26、 一种识别垃圾文本的系统, 其特征在于, 该系统包括垃圾特征 库和垃圾文本识别装置;
所述垃圾特征库, 存储有赋予了垃圾权重的垃圾特征;
所述垃圾文本识别装置, 接收待处理文本, 将待处理文本与垃圾特 征库中的垃圾特征进行匹配, 根据匹配到的所有垃圾特征的垃圾权重判 断待处理文本是否是垃圾文本。
27、 如权利要求 26所述的系统, 其特征在于,
所述垃圾特征库, 存储有敏感词和 /或顺序组合垃圾特征和 /或垃圾 格式特征。
28、 如权利要求 26所述的系统, 其特征在于,
所述垃圾特征库中存储的垃圾特征包括敏感词,
所述垃圾特征库进一步存储有每个敏感词的正向上下文特征库和负 向上下文特征库;
所述垃圾文本识别装置, 在匹配到敏感词时, 将该敏感词的正向上 下文特征库和负向上下文特征库与待处理文本进行匹配, 根据匹配到的 正向上下文特征和负向上下文特征计算该敏感词的当前垃圾权重, 根据 匹配到的敏感词的当前垃圾权重判断待处理文本是否是垃圾文本; 其中, 每个敏感词的所述正向上下文特征库, 通过统计预先建立的 第一垃圾样本训练库中包含该敏感词的垃圾样本, 提取包含该敏感词的 各个垃圾样本中除该敏感词外的其他特征, 判断每个所述其他特征在包 含该敏感词的所有垃圾样本中的出现概率是否大于预定值, 由出现概率 大于预定值的所述其他特征组成得到;
每个敏感词的所述负向上下文特征库, 通过统计预先建立的第一非 垃圾样本训练库中包含该敏感词的非垃圾样本, 提取包含该敏感词的各 个非垃圾样本中除该敏感词外的其他特征, 判断每个所述其他特征在包 含该敏感词的所有非垃圾样本中的出现概率是否大于预定值, 由出现概 率大于预定值的所述其他特征组成得到。
29、 如权利要求 26至 28任一权项所述系统, 其特征在于, 所述垃圾文本识别装置进一步用于, 在将待处理文本与垃圾特征库 中的垃圾特征进行匹配之前, 将待处理文本转化为统一表述方式。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009100015773A CN101477544B (zh) | 2009-01-12 | 2009-01-12 | 一种识别垃圾文本的方法和系统 |
CN200910001577.3 | 2009-01-12 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2010078792A1 true WO2010078792A1 (zh) | 2010-07-15 |
Family
ID=40838260
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/CN2009/075498 WO2010078792A1 (zh) | 2009-01-12 | 2009-12-11 | 一种识别垃圾文本的方法和系统 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN101477544B (zh) |
WO (1) | WO2010078792A1 (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110019681A (zh) * | 2017-12-19 | 2019-07-16 | 优酷网络技术(北京)有限公司 | 一种评论内容过滤方法及系统 |
CN110472234A (zh) * | 2019-07-19 | 2019-11-19 | 平安科技(深圳)有限公司 | 敏感文本识别方法、装置、介质和计算机设备 |
CN110941959A (zh) * | 2018-09-21 | 2020-03-31 | 阿里巴巴集团控股有限公司 | 文本违规检测、文本还原方法、数据处理方法及设备 |
CN111581956A (zh) * | 2020-04-08 | 2020-08-25 | 国家计算机网络与信息安全管理中心 | 基于bert模型和k近邻的敏感信息识别方法及系统 |
CN111695353A (zh) * | 2020-06-12 | 2020-09-22 | 百度在线网络技术(北京)有限公司 | 时效性文本的识别方法、装置、设备及存储介质 |
CN111753539A (zh) * | 2020-06-30 | 2020-10-09 | 北京搜狗科技发展有限公司 | 一种识别敏感文本的方法及装置 |
CN112597770A (zh) * | 2020-12-16 | 2021-04-02 | 盐城数智科技有限公司 | 基于深度学习的敏感信息查询方法 |
CN112926301A (zh) * | 2020-12-28 | 2021-06-08 | 广州坚和网络科技有限公司 | 基于敏感词库构建的敏感词监控方法及装置 |
CN113177408A (zh) * | 2021-04-26 | 2021-07-27 | 北京搜狗科技发展有限公司 | 一种文本检测方法、装置及设备 |
CN114662486A (zh) * | 2022-04-01 | 2022-06-24 | 辽宁工程技术大学 | 一种基于机器学习的突发事件敏感词检测方法 |
CN118228720A (zh) * | 2024-05-27 | 2024-06-21 | 青岛大数据科技发展有限公司 | 基于机器学习的数据质量管理方法及系统、电子设备 |
Families Citing this family (42)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101477544B (zh) * | 2009-01-12 | 2011-09-21 | 腾讯科技(深圳)有限公司 | 一种识别垃圾文本的方法和系统 |
CN102567304B (zh) * | 2010-12-24 | 2014-02-26 | 北大方正集团有限公司 | 一种网络不良信息的过滤方法及装置 |
CN102147711B (zh) * | 2010-12-31 | 2014-04-02 | 华为数字技术(成都)有限公司 | 一种基于数据内容识别的存储方法及装置 |
CN102279875B (zh) * | 2011-06-24 | 2013-04-24 | 华为数字技术(成都)有限公司 | 钓鱼网站的识别方法和装置 |
CN103389995B (zh) * | 2012-05-10 | 2016-11-23 | 阿里巴巴集团控股有限公司 | 一种垃圾内容识别方法及装置 |
CN102946400B (zh) * | 2012-11-29 | 2016-03-09 | 广东全通教育股份有限公司 | 一种基于行为分析的海量短信内容安全过滤方法和系统 |
CN103902570B (zh) * | 2012-12-27 | 2018-11-09 | 腾讯科技(深圳)有限公司 | 一种文本分类特征提取方法、分类方法及装置 |
CN103092975A (zh) * | 2013-01-25 | 2013-05-08 | 武汉大学 | 基于主题共识覆盖率的网络社区垃圾信息检测与过滤方法 |
CN103116572B (zh) * | 2013-02-02 | 2015-10-21 | 深圳先进技术研究院 | 文学作品出品时期识别方法及装置 |
CN104050191B (zh) * | 2013-03-14 | 2019-04-12 | 北京百度网讯科技有限公司 | 对推广信息进行监控的方法和设备 |
CN103324745B (zh) * | 2013-07-04 | 2017-04-05 | 微梦创科网络科技(中国)有限公司 | 基于贝叶斯模型的文本垃圾识别方法和系统 |
CN103605692A (zh) * | 2013-11-04 | 2014-02-26 | 北京奇虎科技有限公司 | 用于问答社区中屏蔽广告内容的装置和方法 |
CN104699717B (zh) * | 2013-12-10 | 2019-01-18 | 中国银联股份有限公司 | 数据挖掘方法 |
CN103744802B (zh) * | 2013-12-20 | 2017-05-24 | 北京奇安信科技有限公司 | Sql注入攻击的识别方法及装置 |
CN104750665B (zh) * | 2013-12-30 | 2019-05-14 | 腾讯科技(深圳)有限公司 | 文本信息的处理方法和装置 |
CN103795612B (zh) * | 2014-01-15 | 2017-09-12 | 五八同城信息技术有限公司 | 即时通讯中的垃圾和违法信息检测方法 |
CN104866465B (zh) * | 2014-02-25 | 2017-11-03 | 腾讯科技(深圳)有限公司 | 敏感文本检测方法及装置 |
CN104866510B (zh) * | 2014-02-26 | 2019-02-19 | 北京金山安全软件有限公司 | 残留文件的清除方法、装置及其特征库的建立方法、装置 |
CN104008186B (zh) * | 2014-06-11 | 2018-10-16 | 北京京东尚科信息技术有限公司 | 从目标文本中确定关键词的方法和装置 |
CN105516941A (zh) * | 2014-10-13 | 2016-04-20 | 中兴通讯股份有限公司 | 一种垃圾短信的拦截方法及装置 |
CN104375984A (zh) * | 2014-11-21 | 2015-02-25 | 无锡科思电子科技有限公司 | 一种检测网络上传文件中敏感轨迹的方法 |
CN104375983A (zh) * | 2014-11-21 | 2015-02-25 | 无锡科思电子科技有限公司 | 网络上传文件中敏感轨迹的检测系统 |
CN104331396A (zh) * | 2014-11-26 | 2015-02-04 | 深圳市英威诺科技有限公司 | 一种智能识别广告的方法 |
CN105119910A (zh) * | 2015-07-23 | 2015-12-02 | 浙江大学 | 基于模板的在线社交网络垃圾信息实时检测方法 |
CN106445908B (zh) * | 2015-08-07 | 2019-11-15 | 阿里巴巴集团控股有限公司 | 文本识别方法和装置 |
CN106909534A (zh) * | 2015-12-23 | 2017-06-30 | 中国移动通信集团公司 | 一种判别文本安全性的方法及装置 |
CN107180022A (zh) * | 2016-03-09 | 2017-09-19 | 阿里巴巴集团控股有限公司 | 对象分类方法及装置 |
CN107688576B (zh) * | 2016-08-04 | 2020-06-16 | 中国科学院声学研究所 | 一种cnn-svm模型的构建及倾向性分类方法 |
CN106446032A (zh) * | 2016-08-30 | 2017-02-22 | 江苏博智软件科技有限公司 | 一种垃圾信息的处理方法和装置 |
CN106535003A (zh) * | 2016-09-28 | 2017-03-22 | 乐视控股(北京)有限公司 | 处理弹幕信息的方法、装置及系统 |
CN107229605B (zh) * | 2017-04-07 | 2020-05-29 | 阿里巴巴集团控股有限公司 | 文本相似度的计算方法及装置 |
CN107239440B (zh) * | 2017-04-21 | 2021-05-25 | 同盾控股有限公司 | 一种垃圾文本识别方法和装置 |
CN107679075B (zh) * | 2017-08-25 | 2020-06-02 | 北京德塔精要信息技术有限公司 | 网络监控方法和设备 |
CN107943941B (zh) * | 2017-11-23 | 2021-10-15 | 珠海金山网络游戏科技有限公司 | 一种可迭代更新的垃圾文本识别方法和系统 |
CN108038190A (zh) * | 2017-12-11 | 2018-05-15 | 杭州有赞科技有限公司 | 基于多层字典树的敏感词过滤方法及系统 |
CN109325123B (zh) * | 2018-09-29 | 2020-10-16 | 武汉斗鱼网络科技有限公司 | 基于补集特征的贝叶斯文档分类方法、装置、设备及介质 |
CN109766441B (zh) * | 2018-12-28 | 2021-07-09 | 奇安信科技集团股份有限公司 | 文本分类方法、装置及系统 |
CN110222182B (zh) * | 2019-06-06 | 2022-12-27 | 腾讯科技(深圳)有限公司 | 一种语句分类方法及相关设备 |
CN110502624A (zh) * | 2019-08-13 | 2019-11-26 | 出门问问(武汉)信息科技有限公司 | 一种对话处理方法及电子设备 |
CN111507350B (zh) * | 2020-04-16 | 2024-01-05 | 腾讯科技(深圳)有限公司 | 一种文本识别方法和装置 |
CN111783427B (zh) * | 2020-06-30 | 2024-04-02 | 北京百度网讯科技有限公司 | 用于训练模型与输出信息的方法、装置、设备及存储介质 |
CN115221891B (zh) * | 2022-06-16 | 2023-05-05 | 深圳市八方通科技开发有限公司 | 基于上下文语义分析的目标信息检测方法、装置、系统及介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060031306A1 (en) * | 2004-04-29 | 2006-02-09 | International Business Machines Corporation | Method and apparatus for scoring unsolicited e-mail |
CN101304589A (zh) * | 2008-04-14 | 2008-11-12 | 中国联合通信有限公司 | 利用短信网关发送垃圾短信的监控与过滤方法及系统 |
CN101477544A (zh) * | 2009-01-12 | 2009-07-08 | 腾讯科技(深圳)有限公司 | 一种识别垃圾文本的方法和系统 |
-
2009
- 2009-01-12 CN CN2009100015773A patent/CN101477544B/zh active Active
- 2009-12-11 WO PCT/CN2009/075498 patent/WO2010078792A1/zh active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060031306A1 (en) * | 2004-04-29 | 2006-02-09 | International Business Machines Corporation | Method and apparatus for scoring unsolicited e-mail |
CN101304589A (zh) * | 2008-04-14 | 2008-11-12 | 中国联合通信有限公司 | 利用短信网关发送垃圾短信的监控与过滤方法及系统 |
CN101477544A (zh) * | 2009-01-12 | 2009-07-08 | 腾讯科技(深圳)有限公司 | 一种识别垃圾文本的方法和系统 |
Non-Patent Citations (2)
Title |
---|
LIU HUI ET AL.: "Application of Weight Calculation Based on Term Frequency for E-mail Filtering", COMPUTER ENGINEERING, vol. 32, no. 17, 30 September 2006 (2006-09-30) * |
LIU HUI ET AL.: "Research on E-mail Filtering by the Frequency of the Terms in Character Fields", JOURNAL OF SHANDONG UNIVERSITY(NATURAL SCIENCE), vol. 41, no. 3, 30 June 2006 (2006-06-30) * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110019681A (zh) * | 2017-12-19 | 2019-07-16 | 优酷网络技术(北京)有限公司 | 一种评论内容过滤方法及系统 |
CN110941959A (zh) * | 2018-09-21 | 2020-03-31 | 阿里巴巴集团控股有限公司 | 文本违规检测、文本还原方法、数据处理方法及设备 |
CN110941959B (zh) * | 2018-09-21 | 2023-05-26 | 阿里巴巴集团控股有限公司 | 文本违规检测、文本还原方法、数据处理方法及设备 |
CN110472234A (zh) * | 2019-07-19 | 2019-11-19 | 平安科技(深圳)有限公司 | 敏感文本识别方法、装置、介质和计算机设备 |
CN111581956B (zh) * | 2020-04-08 | 2022-09-13 | 国家计算机网络与信息安全管理中心 | 基于bert模型和k近邻的敏感信息识别方法及系统 |
CN111581956A (zh) * | 2020-04-08 | 2020-08-25 | 国家计算机网络与信息安全管理中心 | 基于bert模型和k近邻的敏感信息识别方法及系统 |
CN111695353A (zh) * | 2020-06-12 | 2020-09-22 | 百度在线网络技术(北京)有限公司 | 时效性文本的识别方法、装置、设备及存储介质 |
CN111753539A (zh) * | 2020-06-30 | 2020-10-09 | 北京搜狗科技发展有限公司 | 一种识别敏感文本的方法及装置 |
CN111753539B (zh) * | 2020-06-30 | 2023-12-26 | 北京搜狗科技发展有限公司 | 一种识别敏感文本的方法及装置 |
CN112597770A (zh) * | 2020-12-16 | 2021-04-02 | 盐城数智科技有限公司 | 基于深度学习的敏感信息查询方法 |
CN112597770B (zh) * | 2020-12-16 | 2024-06-11 | 盐城数智科技有限公司 | 基于深度学习的敏感信息查询方法 |
CN112926301A (zh) * | 2020-12-28 | 2021-06-08 | 广州坚和网络科技有限公司 | 基于敏感词库构建的敏感词监控方法及装置 |
CN113177408A (zh) * | 2021-04-26 | 2021-07-27 | 北京搜狗科技发展有限公司 | 一种文本检测方法、装置及设备 |
CN114662486A (zh) * | 2022-04-01 | 2022-06-24 | 辽宁工程技术大学 | 一种基于机器学习的突发事件敏感词检测方法 |
CN118228720A (zh) * | 2024-05-27 | 2024-06-21 | 青岛大数据科技发展有限公司 | 基于机器学习的数据质量管理方法及系统、电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN101477544B (zh) | 2011-09-21 |
CN101477544A (zh) | 2009-07-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2010078792A1 (zh) | 一种识别垃圾文本的方法和系统 | |
Bellegarda | Latent semantic mapping: Principles and applications | |
US8335683B2 (en) | System for using statistical classifiers for spoken language understanding | |
CN110334110A (zh) | 自然语言分类方法、装置、计算机设备以及存储介质 | |
US20160210962A1 (en) | Methods and systems for analyzing communication situation based on dialogue act information | |
CN107180084B (zh) | 词库更新方法及装置 | |
CN107229627B (zh) | 一种文本处理方法、装置及计算设备 | |
WO1998044484A1 (en) | Text normalization using a context-free grammar | |
CN112287684A (zh) | 融合变体词识别的短文本审核方法及装置 | |
Richardson et al. | Language recognition with discriminative keyword selection | |
CN110858217A (zh) | 微博敏感话题的检测方法、装置及可读存储介质 | |
Boishakhi et al. | Multi-modal hate speech detection using machine learning | |
CN113094478B (zh) | 表情回复方法、装置、设备及存储介质 | |
CN114756675A (zh) | 文本分类方法、相关设备及可读存储介质 | |
US11947909B2 (en) | Training a language detection model for language autodetection from non-character sub-token signals | |
CN111858894A (zh) | 语义缺失的识别方法及装置、电子设备、存储介质 | |
CN111209373A (zh) | 基于自然语义的敏感文本识别方法和装置 | |
Ceballos Delgado et al. | Deception detection using machine learning | |
Sharma et al. | An investigation of supervised learning methods for authorship attribution in short hinglish texts using char & word n-grams | |
CN118152570A (zh) | 一种智能化的文本分类方法 | |
CN113935307A (zh) | 广告文案的特征提取方法及装置 | |
CN110348497B (zh) | 一种基于WT-GloVe词向量构建的文本表示方法 | |
CN113987172A (zh) | 恶意评论识别方法、装置、系统及计算机可读存储介质 | |
CN115269846A (zh) | 文本处理方法、装置、电子设备及存储介质 | |
Hong et al. | Scam calls detection using machine learning approaches |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 09837349 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
32PN | Ep: public notification in the ep bulletin as address of the adressee cannot be established |
Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 30/11/2011) |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 09837349 Country of ref document: EP Kind code of ref document: A1 |