WO2012083892A1 - 一种网络不良信息的过滤方法及装置 - Google Patents

一种网络不良信息的过滤方法及装置 Download PDF

Info

Publication number
WO2012083892A1
WO2012083892A1 PCT/CN2011/084699 CN2011084699W WO2012083892A1 WO 2012083892 A1 WO2012083892 A1 WO 2012083892A1 CN 2011084699 W CN2011084699 W CN 2011084699W WO 2012083892 A1 WO2012083892 A1 WO 2012083892A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
filtered
user feedback
corpus
filtering
Prior art date
Application number
PCT/CN2011/084699
Other languages
English (en)
French (fr)
Inventor
郑妍
于晓明
杨建武
Original Assignee
北大方正集团有限公司
北京大学
北京北大方正电子有限公司
北京北大方正技术研究院有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 北大方正集团有限公司, 北京大学, 北京北大方正电子有限公司, 北京北大方正技术研究院有限公司 filed Critical 北大方正集团有限公司
Priority to US13/997,666 priority Critical patent/US20140013221A1/en
Priority to EP11850052.9A priority patent/EP2657852A4/en
Priority to JP2013545039A priority patent/JP5744228B2/ja
Publication of WO2012083892A1 publication Critical patent/WO2012083892A1/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Definitions

  • SJJt is located in the city
  • the present invention relates to the field of computer information processing and information filtering technologies, and in particular, to a filtering method and device for network bad information based on statistics and rules.
  • the automatic filtering technology for bad information based on Internet content usually adopts the following two methods:
  • a filtering method based on keyword matching in the judging process, the method adopts an exact matching strategy to filter out the text of the keyword. Using this method to filter bad information on Internet content is fast and easy to operate.
  • the positive and negative corpora are not balanced. Among them, the forward corpus contains only a few categories, such as: advertising, pornography, violence, reaction, and bad information that users care about. Negative corpus contains a large number of categories, for example: According to the text content can be divided into: economic, sports, politics, medicine, art, history, politics, culture, environment, transportation, computer, education, military and so on.
  • Some traditional Chinese information processing practices do not apply to text-based classification of bad information filtering. If a certain scale of prohibited words is used; for example, the feature items only include words with more than double words.
  • the embodiment of the present invention provides a filtering method and device for network bad information. To achieve the above objective, the embodiment of the present invention adopts the following technical solutions:
  • a method for filtering network bad information including:
  • a filtering device for network bad information comprising:
  • An information acquiring unit configured to acquire text information to be filtered, system pre-study model information, and user feedback model information
  • a preprocessing unit configured to preprocess the text information to be filtered
  • a first matching unit configured to: perform the pre-processed text information to be filtered and the system pre-study The type information is matched by the feature information, and the first matching result is given;
  • a second matching unit configured to match the pre-processed text information to be filtered with the user feedback model information to obtain a second matching result
  • a filtering unit configured to filter the to-be-filtered text information according to the first matching result and the second matching result.
  • the method and device for filtering network bad information provided by the embodiment of the present invention, by acquiring text information to be filtered, system pre-study model information, and user feedback model information; preprocessing the text information to be filtered; The to-be-filtered text information is matched with the system pre-study model information for feature information, and the first matching result is given; the pre-processed text information to be filtered and the user feedback model information are matched with the feature information, and given The second matching result is: performing filtering processing on the to-be-filtered text information according to the first matching result and the second matching result. Since the system uses two matching for system filtering, the system automatically filters the bad information with high accuracy, thereby improving the performance of the system. Also, the embodiment of the present invention uses the user feedback model information to filter the bad information. The user feedback information can be applied to the system to automatically filter the bad information in time, thereby realizing the function of automatically updating the system model information. Attached field description
  • FIG. 1 is a flowchart of a method for filtering network bad information according to an embodiment of the present invention
  • FIG. 1 is a flowchart of another method for filtering network bad information according to an embodiment of the present invention
  • FIG. 4 is a schematic structural diagram of another filtering device for network bad information according to an embodiment of the present invention.
  • a method for filtering network bad information includes:
  • 101 Acquire text information to be filtered, system pre-study model information, and user feedback model information; 102: pre-process the text information to be filtered; 103: Match the pre-processed text information to be filtered with the system pre-study model information to obtain a first matching result;
  • another method for filtering network bad information includes:
  • the corpus of the user feedback model information may include: a user feedback corpus and/or a filtered corpus.
  • the selection of the training corpus of the system pre-research model and the user feedback model is divided into a positive corpus and a negative corpus; for example: the preparation of the positive corpus of the bad corpus content may include: advertising, pornography, Violent, reactionary and other content texts, a total of 10,000 articles; the collection of non-bad information content of negative corpus preparation mainly includes the main text categories of tasks, such as economics, politics, sports, culture, medicine, transportation, environment, military, literature and art. History, computer, education, law, real estate, technology, automotive, talent, entertainment, etc., a total of 30,000 articles.
  • the positive and negative corpus are often unbalanced; the corpus of one category is wide, and the corpus of the other category is relatively small.
  • the solution in the present invention is to allow such an unbalanced corpus distribution, and the preparation strategy for a category with a large corpus is to seek nothing.
  • the step specifically includes: performing segmentation processing on the text information to be filtered; for example: performing sentence segmentation on the corpus according to punctuation and common words, and the common words are words that are commonly used and meaningless to the judgment, such as "", “ ⁇ ” Etc., but “you” is more common in the positive corpus, "I” is more common in negative corpus, not suitable as a common word.
  • the banned vocabulary commonly used in natural language processing is not suitable as a common vocabulary.
  • the correctness of the corpus and the part-of-speech tagging work can be used.
  • the segmentation unit is the smallest processing unit for subsequent work.
  • Counting the number of candidate feature items after the segmentation process For example: counting the number of non-Chinese characters in the segmentation unit after the segmentation process; for example, the total number of the segmentation units is N1, and the non-Chinese character portion is N2, and if the N2/N1 is greater than the threshold value, the candidate feature is determined.
  • the text information to be filtered corresponding to the item is bad information.
  • the information is that the information contains a large number of noise characters, which may be spam texts such as advertisements; or, the number of contact information such as the URL, telephone, email, QQ, etc. in the segmentation unit is counted as num (ad), and such information is often used for advertisements. , and give the default weight.
  • the step may specifically include:
  • Step S1 Keyword analysis
  • the keyword analysis method is: First, indexing Chinese pinyin of common words, according to keywords The Chinese Pinyin index of each word generates an index of the overall keyword; then, each word in the keyword is structurally split, and the keyword is recursively reorganized according to the split result; finally, the keyword index and split are The collection forms a key-value pair, and all the parsing results are saved to generate a user keyword index library. For example, after the "Falungong" keyword is parsed, an index value will be generated, and there are a variety of split results, which may include, "three go to the car work force", "fare car work” and so on.
  • Step S2 Grammar parsing; the computer parses the rule syntax into a form that can be processed.
  • the rule syntax includes: AND, 0R, NEAR, N0T. For example, "A ANDB", where A and B are the key words to be resolved, and the AND syntax indicates that in the context, when A and B appear at the same time, the rule matches successfully.
  • Form key-value pairs for keywords and rule grammars save all parsing results and generate user rule index libraries.
  • index library rules described above may be user-configured rules, and may also be preset by the system; the above steps are to parse the user configuration rules to generate a corresponding index library process, and the index library may optimize the following matching. process.
  • the system pre-study model information includes: a rule index library and the system pre-study model feature item information; the step of obtaining the system pre-study model feature item information may be: Step S1, The segmentation unit is formed into a word string as a candidate feature item; for example:
  • the Chinese Pinyin index is calculated for the generated word string in (1), and the matching is performed according to the user keyword index library generated in step S1 of the 2041. If there is a successful matching set, the number of matching successes is num (user); then, according to the user rule index database generated in step S2 of the 2041, the matching is performed, and if the matching is successful, one is generated for the non-contiguous segmentation unit.
  • Word string For example, if there are 9 word strings in (1), if two word strings A and D are successfully matched in the user keyword index library. There is a rule "A NEAR2 D" in the user rule index library, and a new feature item AD is generated. Here 2 represents A and! The distance does not exceed 2.
  • the accumulated statistics match the success number num (user), giving the default weight score user .
  • Step S2 performing frequency filtering on the candidate feature items; specifically speaking, counting the number of occurrences of the candidate feature items in the training corpus, filtering by frequency as an index, and retaining candidate feature items whose frequency is greater than or equal to the reading value, less than The candidate feature of the threshold is eliminated, and the threshold can be adjusted to control the reserved range.
  • Step S3 performing frequency re-filtering on the candidate feature items; the specific filtering process includes: First, re-estimating the unreasonable frequency, for example, if all B occurrences are in the case of AB, the frequency of B becomes zero.
  • the frequency re-estimation formula is:
  • a denotes a feature term
  • f (a) denotes the word frequency of a
  • b denotes a long string feature containing a
  • T a denotes a set of b
  • P(T a ) denotes a set size.
  • the frequency after re-evaluation is used as an indicator to filter again, and the frequency is greater than or equal to the threshold replacement page (Article 26)
  • the candidate feature items are retained, and the candidate feature items smaller than the threshold are eliminated, and the threshold can be adjusted to control the reserved range.
  • Step S4 automatically selecting the candidate feature item to extract the feature item. Specifically, in this step, the candidate feature items obtained from the step S3 and the negative corpus are merged from the candidate feature items acquired in the step S3, so that the candidate feature items are merged. Two word frequencies, corresponding to the forward frequency and the negative frequency respectively.
  • the statistical chi-square statistic is used to automatically select feature items, and the top N candidate feature items with the largest chi-square value are retained as the final feature item information.
  • the chi-square statistic formula is: ⁇ ( ⁇ , , C k )
  • k only takes 0 or 1 and represents two categories, positive and negative.
  • the feature items include single words and multiple words.
  • Single words have a greater impact on the judgment of negative text.
  • the content of the text information of the forum the division unit of the word is more common. If the word is not considered, the negative text is likely to cause misjudgment.
  • the generated feature items and their weights are obtained according to the two types of corpus training prepared by the system in advance, the generated results are saved as feature items of the system pre-study model.
  • Score pos (doc) og( cw coffee,.) po ) Calculate the negative score of the feature item information, which is calculated as:
  • step 205 Matching the pre-processed text information to be filtered with the user feedback model information to obtain a second matching result; the step may specifically include the same process as that described in step 204.
  • the process of acquiring the user feedback model information and the process of acquiring the system pre-study model information are mainly different in the selection of the training corpus in step 201.
  • the source of the training corpus of the user feedback model information may further include the following two aspects: Replacement page (Article 26) (1) User feedback mechanism.
  • the user finds the information that determines the problem, mainly the case that the bad information is determined as the normal information, and the system reports the error, and the system receives the user standard answer as the feedback corpus.
  • the to-be-processed text proceeds to the bad information determination flow of step 206, and the determination result of the text is output.
  • the results include two cases, bad text or normal text. Determine whether the pending text participates in feedback training based on the judgment credibility.
  • the judgment result is highly credible and can be used for feedback training; if the judgment is different, the judgment result has a loss of credibility, but if a stricter filtering strategy is adopted, , then filter this text, but not for feedback training; if one of the models fails, the result is based on the judgment result of the remaining model, and it is considered that there is certain credibility, which can be used for feedback training; if both models are invalid, then return The failure flag cannot be used for feedback training.
  • the method may further include:
  • the user feedback model information is updated according to the number of corpus of the user feedback model information and its corresponding threshold. If the number of corpora is greater than the threshold, the feedback corpus is retrained to update the user feedback model information. Adjust the threshold size to adjust the update period.
  • a filtering device for network bad information As shown in FIG. 3, a filtering device for network bad information according to an embodiment of the present invention; the device includes:
  • the information obtaining unit 301 is configured to obtain text information to be filtered, system pre-study model information, and user feedback model information;
  • the pre-processing unit 302 is configured to perform pre-processing on the text information to be filtered.
  • the first matching unit 303 is configured to match the pre-processed text information to be filtered with the system pre-study model information to obtain a first matching result
  • the second matching unit 304 is configured to match the pre-processed text information to be filtered with the user feedback model information to obtain a second matching result
  • the filtering unit 305 is configured to filter the to-be-filtered text according to the first matching result and the second matching result.
  • a filtering device for network bad information As shown in FIG. 4, a filtering device for network bad information according to an embodiment of the present invention; the device includes:
  • the information obtaining unit 401 is configured to obtain the text to be filtered, the system pre-study model information, and the user feedback model information; and the training corpus for acquiring the user feedback model information.
  • the corpus of the user feedback model information includes: a user feedback corpus and/or a filtered corpus.
  • the pre-processing unit 402 is configured to perform pre-processing on the to-be-filtered text information.
  • the unit includes: a singulation unit 4021, configured to perform sharding processing on the to-be-filtered text information;
  • the statistics subunit 4022 is configured to count the number of candidate feature items after the segmentation process.
  • the first matching unit 403 is configured to match the pre-processed text information to be filtered with the system pre-study model information to obtain a first matching result; the unit may specifically include:
  • the information acquisition sub-unit 4031 is configured to obtain the pre-processed text information to be filtered and the system pre-study model information.
  • the system pre-study model information includes: a rule index library and the system pre-study model feature Item information
  • the matching sub-unit 4032 is configured to match the pre-processed text information to be filtered with the system pre-study model information to obtain a feature item;
  • a statistical sub-unit 4033 configured to collect a corpus information score of the feature item
  • the determining sub-unit 4034 is configured to determine, according to the corpus information score, whether the text information to be filtered corresponding to the feature item is bad information;
  • the result output sub-unit 4035 is configured to give the first matching result according to the judgment result.
  • the second matching unit 404 is configured to match the pre-processed text information to be filtered with the user feedback model information to obtain a second matching result.
  • the unit may specifically include:
  • the information acquisition sub-unit 4041 is configured to obtain the pre-processed text information to be filtered and the user feedback model information.
  • the user feedback model information includes: a rule index library and the user feedback model feature item information; a matching sub-unit 4042, configured to match the pre-processed text information to be filtered with the user feedback model information to obtain a feature item;
  • a statistic subunit 4043 configured to count corpus information scores of the feature items
  • a determining sub-unit 4044 configured to determine, according to the corpus information score, whether the text information to be filtered corresponding to the feature item is bad information
  • the result output subunit 4045 is configured to give the second matching result according to the judgment result.
  • the filtering unit 405 is configured to perform filtering processing on the to-be-filtered text information according to the first matching result and the second matching result.
  • the device also includes:
  • the threshold obtaining unit 406 is configured to acquire the corpus of the user feedback model information and a corresponding threshold thereof;
  • the updating unit 407 is configured to update the user feedback model information according to the corpus of the user feedback model information and the corresponding threshold.
  • the updating unit compares the user feedback model according to the corpus quantity of the user feedback model information and the corresponding threshold value thereof. The information is updated.
  • the method and device for filtering network bad information provided by the embodiment of the present invention, by acquiring text information to be filtered, system pre-study model information, and user feedback model information; preprocessing the text information to be filtered; The to-be-filtered text information is matched with the system pre-study model information for feature information, and the first matching result is given; the pre-processed text information to be filtered and the user feedback model information are matched with the feature information, and given
  • the second matching result is: performing filtering processing on the to-be-filtered text information according to the first matching result and the second matching result. Since the system uses two matching for system filtering, the system automatically filters the bad information with high accuracy, thereby improving the performance of the system. Also, the embodiment of the present invention uses the user feedback model information to filter the bad information. The user feedback information can be applied to the system to automatically filter the bad information in time, thereby realizing the function of automatically updating the matching information of the system.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)
  • Machine Translation (AREA)

Description

一种网络不良信息的 it¾方法; SJJt置 城
本发明涉及计算机信息处理及信息过滤技术领域, 尤其涉及一种基于统计 与规则的网络不良信息的过滤方法及装置。 背 "^1^^
随着互联网的迅速发展, 信息传播速度也随之加快。 由于互联网上的内容 良莠不齐, 例如: 广告、 色情、 暴力以及反动为主的不良信息都难以杜绝, 并 渐渐以更为隐蔽的方式扩散, 因此, 抑制不良信息的扩散以及净化互联网络空 间就显得十分重要。 对于互联网中海量的数据信息, 如果釆用人工的方法去过 滤互联网上的不良信息, 则需要耗费巨大的人力物力。 因此, 基于互联网内容 的不良信息的自动过滤技术成为近年来研究的热点。
目前, 基于互联网内容的不良信息自动过滤技术通常采用如下两种方式:
( 1 )基于关键字匹配的过滤方法; 该方法在判定过程中, 采取精确匹配的 策略, 过滤掉出现关键字的文本。 采用该方法过滤互联网内容的不良信息速度 快, 简单易操作。
( 2 )基于统计的文本分类模型的过滤方法; 该方法中基于统计的不良文本 过滤模型本质上是一个两类的文本分类问题, 文本分类是自然语言处理领域的 研究重点方向, 有大量经典模型可供参考。 基于统计的文本分类模型从理论角 度来看应该是效果不错的方法, 但在实际应用中性能却不理想, 误判情况十分 突出, 主要原因分析如下:
( 1 )正向与负向语料不均衡。 其中, 正向语料只包含了少量类别, 例如: 广告、 色情、 暴力、 反动以及用户所关心的不良信息为主。 负向语料则包含了 大量类别, 例如: 按照文本内容可划分为: 经济、 体育、 政治、 医药、 艺术、 历史、 政治、 文化、 环境、 交通、 计算机、 教育、 军事等等。
( 2 )不良信息的内容表现具有 ί艮大的多变性和隐蔽性。 发布者经常有意避 开常用词, 取而代之, 如: 同音字, 拆分字, 非汉字噪音, 缩略现象, 新词等。 ( 3 )用户词典只提供关键词精确匹配方式,造成判定方法的机械与不灵活。 且单一关键词的语义倾向性不具有代表性, 误判率高。 比如, 当 "免费" 和 "发 票" 同时出现在上下文环境中要比单一的 "发票" 更具有说服性。
( 4 )一些传统的中文信息处理做法并不适用于基于文本分类的不良信息过 滤。 如使用一定规模的禁用词; 如特征项只包括双字以上的词汇等。
( 5 )缺少统一的模型, 对包括广告、 色情、 暴力、 反动等不良信息进行综 合过滤。
在实现上述基于互联网内容的不良信息自动过滤技术的过程中, 发明人发 现现有技术中, 不良信息自动过滤性能无法满足当前互联网的过滤需求, 且无 法实现自动更新。 发明内容
本发明实施例提供一种网络不良信息的过滤方法及装置, 为达到上述目的, 本发明的实施例采用如下技术方案:
一种网络不良信息的过滤方法, 包括:
获取待过滤文本信息、 系统预研模型信息以及用户反馈模型信息; 对所述待过滤文本信息进行预处理;
将所述预处理后的待过滤文本信息与所述系统预研模型信息进行特征信息 匹配, 给出第一匹配结果;
将所述预处理后的待过滤文本信息与所述用户反馈模型信息进行特征信息 匹配, 给出第二匹配结果;
根据所述第一匹配结果与所述第二匹配结果, 对所述待过滤文本信息进行 过滤处理。
一种网络不良信息的过滤装置, 包括:
信息获取单元, 用于获取待过滤文本信息、 系统预研模型信息以及用户反 馈模型信息;
预处理单元, 用于对所述待过滤文本信息进行预处理;
第一匹配单元, 用于将所述预处理后的待过滤文本信息与所述系统预研模 型信息进行特征信息匹配, 给出第一匹配结果;
第二匹配单元, 用于将所述预处理后的待过滤文本信息与所述用户反馈模 型信息进行特征信息匹配, 给出第二匹配结果;
过滤单元, 用于根据所述第一匹配结果与所述第二匹配结果, 对所述待过 滤文本信息进行过滤处理。
本发明实施例提供的网络不良信息的过滤方法以及装置, 通过获取待过滤 文本信息、 系统预研模型信息以及用户反馈模型信息; 对所述待过滤文本信息 进行预处理; 将所述预处理后的待过滤文本信息与所述系统预研模型信息进行 特征信息匹配, 给出第一匹配结果; 将所述预处理后的待过滤文本信息与所述 用户反馈模型信息进行特征信息匹配, 给出第二匹配结果; 根据所述第一匹配 结果与所述第二匹配结果, 对所述待过滤文本信息进行过滤处理。 由于本发明 中采用了两次匹配进行系统过滤, 所以系统自动过滤不良信息的准确性较高, 从而提高了系统的性能; 还由于本发明实施例采用了用户反馈模型信息进行不 良信息的过滤, 使得用户反馈信息能够及时的应用于系统自动过滤不良信息的 过程中, 从而实现了系统模型信息自动更新的功能。 附田说明
图 1为本发明实施例提供的一种网络不良信息的过滤方法流程图; 图 1为本发明实施例提供的另一种网络不良信息的过滤方法流程图; 图 3为本发明实施例提供的一种网络不良信息的过滤装置结构示意图; 图 4为本发明实施例提供的另一种网络不良信息的过滤装置结构示意图。 实旄方式
下面结合附图对本发明实施例提供的一种网络不良信息的过滤方法以及装 置进行详细描述。
如图 1 所述, 为本发明实施例提供的一种网络不良信息的过滤方法; 该方 法包括:
101: 获取待过滤文本信息、 系统预研模型信息以及用户反馈模型信息; 102: 对所述待过滤文本信息进行预处理; 103: 将所述预处理后的待过滤文本信息与所述系统预研模型信息进行特征 信息匹配, 给出第一匹配结果;
104: 将所述预处理后的待过滤文本信息与所述用户反馈模型信息进行特征 信息匹配, 给出第二匹配结果;
105: 根据所述第一匹配结果与所述第二匹配结果, 对所述待过滤文本信息 进行过滤处理。
如图 2 所述, 为本发明实施例提供的另一种网络不良信息的过滤方法, 该 方法包括:
201: 获取所述系统预研模型信息的语料与所述用户反馈模型信息的语料。 其中,所述用户反馈模型信息的语料可以包括:用户反馈语料和 /或被过滤语料。 通常所述系统预研模型与所述用户反馈模型的训练语料的选择分为正向语料与 负向语料; 例如: 正向语料的准备的不良信息内容文本的收集可以主要包括: 广告、 色情、 暴力、 反动等内容文本, 共 10000篇; 负向语料的准备的非不良 信息内容文本的收集主要包含任务主要的文本类别, 如经济、 政治、 体育、 文 化、 医药、 交通、 环境、 军事、 文艺、 历史、 计算机、 教育、 法律、 房产、 科 技、 汽车、 人才、 娱乐等, 共 30000篇。
需要说明的是, 所述训练语料的收集过程中, 经常出现正负语料不均衡; 一个类别的语料范围很广, 另一个类别语料范围则相对较少。 本发明中的解决 方案是允许这种不均衡的语料分布, 对于语料范围很大的类别的准备策略是求 全不求量。
202: 获取待过滤文本信息、 系统预研模型信息以及用户反馈模型信息; 203: 对所述待过滤文本信息进行预处理;
该步骤具体包括: 对所述待过滤文本信息进行切分处理; 例如: 根据标点 和常见词对语料进行断句, 常见词是指常用且对判定无意义的词汇, 如 "的"、 "了" 等, 但 "您" 较常见于正向语料, "我" 较常见于负向语料, 不适合作为 常用词。
需要注意的是, 自然语言处理中常用的禁用词表不适合作为常用词表。 通 常可采用方正智思分词 4. 0对语料进行分词及词性标注工作。 所述切分处理后 的切分单元是后续工作最小的处理单元。
统计所述切分处理后的候选特征项数量。 例如: 对所述切分处理后的切分 单元统计其中非汉字部分数量; 如: 所述切分单元总数为 N1 , 非汉字部分为 N2 , 若 N2/N1 大于阔值, 则判定此候选特征项所对应的待滤文本信息为不良信息。 依据是此信息中含有大量噪音字符, 可能是广告等垃圾文本; 或者, 统计所述 切分单元中的网址、 电话、 邮箱、 QQ 等联系方式出现数量 num (ad) , 此类信息 常用于广告中, 并赋予默认权重 。
204: 将所述预处理后的待过滤文本信息与所述系统预研模型信息进行特征 信息匹配, 给出第一匹配结果; 该步骤具体可以包括:
2041: 获取所述预处理后的待过滤文本信息以及所述系统预研模型信息; 所述系统预研模型信息包括: 规则索 I库和所述系统预研模型特征项信息; 其 中, 所述规则索引库中的用户规则索引库和用户关键词索引库的生成过程如下: 步骤 S1 : 关键词解析; 所述关键词解析方法为: 首先, 对常用字的汉语拼 音建索引, 依据关键词中每个字的汉语拼音索引生成整体关键词的索引; 然后, 再对关键词中的每个字进行结构上的拆分, 依据拆分结果递归重组关键词; 最 后, 将关键词索引及拆分集合形成键值对, 保存所有解析结果生成用户关键词 索引库。 如 "法轮功" 关键词解析后, 会生成一个索引值, 且有多种拆分结果, 具体可以包括, "三去车仑工力", "法车仑功" 等等。
步骤 S2 : 语法解析; 计算机将规则语法解析为能够处理的形式。 所述规则 语法包括: AND, 0R、 NEAR , N0T。 如 "A ANDB" , 其中 A与 B都是待解析的关键 词, AND语法表示在上下文环境中, 当 A与 B同时出现时, 该条规则匹配成功。 对关键词及规则语法形成键值对, 保存所有解析结果生成用户规则索引库。
需要注意的是, 以上所述索引库规则可以是用户配置的规则, 还可以系统 预置规则; 以上所述步骤是对用户配置规则进行解析生成相应的索引库过程, 该索引库可以优化以下匹配过程。
2042: 将所述预处理后的待过滤文本信息与所述系统预研模型信息进行匹 配, 获取特征项; 其中, 所述系统预研模型信息包括: 规则索引库和所述系统 预研模型特征项信息; 该步骤获取系统预研模型特征项信息的过程具体可以为: 步骤 S1 , 将所述切分单元组成词串作为候选特征项; 例如:
( 1 )对连续的切分单元组合成词串。 对于每句中的切分单元, 从第 1个切 分单元开始, 组合窗口最大为 N, 进行组合。 如有序切分单元 "ABCD" , 最大窗 口为 3 , 则生成词串的組合共有 9种: ABC, BCD. AB、 BC、 CD、 A、 B、 C、 D。
( 2 )对非连续的切分单元组合成词串。 对 (1 ) 中的生成的词串计算汉语 拼音索引, 依据所述 2041 中的步骤 S1生成的用户关键词索引库中进行匹配。 若有匹配成功的集合, 统计匹配成功数量 num (user) ; 然后, 再依据所述 2041 中的步骤 S2生成的用户规则索引库中进行匹配, 若匹配成功, 对于非连续的切 分单元生成一个词串。 如(1 ) 中 9个词串, 若在用户关键词索引库中匹配成功 两个词串 A、 D。 在用户规则索引库中有规则 "A NEAR2 D" , 则生成新的特征项 AD。 这里的 2代表 A与!)的距离不超过 2。 累加统计匹配成功数量 num (user), 赋予默认权重 scoreuser
步骤 S2 , 对所述候选特征项进行频次过滤; 具体的讲, 就是在训练语料中 统计候选特征项的出现次数, 以频次作为指标进行过滤, 对频次大于等于阅值 的候选特征项保留, 小于阈值的候选特征项剔除, 可以调整阔值对保留的范围 进行控制。
步骤 S3 , 对所述候选特征项进行频次再过滤; 具体的过滤过程包括: 首先, 对不合理的频次进行重新估计, 比如, 若所有出现 B时都是 AB的情 况, 则 B的频次变为零。 频次重新估计公式为:
「 log2|fl| * /(a) 当 a没有被包含现象; 其它;
Figure imgf000008_0001
其中, a表示特征项; f (a)表示 a的词频; b表示包含了 a的长串特征项; Ta表示 b的集合; P(Ta)表示集合大小。
然后, 以重新评估后的频次作为指标进行再次过滤, 对频次大于等于阈值 替换页 (细则第 26条) 的候选特征项保留, 小于阈值的候选特征项剔除, 可以调整阈值, 对保留的范 围进行控制。
步骤 S4: 对所述候选特征项进行自动选择, 从而提取特征项。 具体的讲, 就是该步骤将正向语料从所述步骤 S3中获取到的候选特征项与负向语料从所述 步骤 S 3中获取的候选特征项进行合并,因此合并后这些候选特征项有两个词频, 分别对应正向频次和负向频次。 采用统计学的卡方统计量来进行特征项的自动 选择, 保留卡方值最大的前 N 个候选特征项作为最终特征项信息。 卡方统计量 公式为: χ (ω, , Ck )
κ ' * {Α + C)(A + B)(B + D)(C + D) 其中 A、 B、 C、 D、 N的含义如下:
Figure imgf000009_0001
表中 k只取 0或 1 , 代表两种类别, 即正向类别和负向类别。
需要说明的是, 所述特征项包括单字词和多字词。 单字词对负向文本的判 定影响较大。 特别是论坛文本信息的内容, 单字的切分单元较常见, 如果不考 虑单字, 对负向文本 容易造成误判。
2043: 统计所述特征项的语料信息得分; 在步骤 S4中已保存了所述特征项 的频次,且每个特征项都有两个频次,分别代表正向频次和负向频次,比如, "发 票" 的正向频次要远远大于负向频次, 因为 "发票" 更常见于广告的不良信息 中。 将每个特征项的正向频次看作是特征项的正向权重, 将每个特征项的负向 替换页 (细则第 26条) 频次看作是特征项的负向权重。 对于所有特征项, 分别对正负向权重进行归一 化, 这样, 权重值才有比较意义。 归一化的公式为:
score{ i )
Figure imgf000010_0001
由于生成的特征项及其权重是根据系统预先准备的标准两类语料训练得到 的, 保存生成结果作为系统预研模型特征项信息。
将所述预处理后的待过滤文本信息与所述系统预研模型特征项信息进行特 征信息匹配, 获得待过滤文本特征项信息, 计算所述特征项信息正向得分, 其 计算公式为:
score pos (doc) = og( cw咖 ,.)po ) 计算所述特征项信息负向得分, 其计算公式为:
score neg doc) = log ( r« g) 同时, 考虑到 num (ad)与 num (user),上述计算公式右侧变化为:
^ \og(sco e(ωj )neg )) + num{ad) * score ad + num{user) * score
2044: 才艮据所述语料信息得分, 判断所述特征项所对应的待过滤文本信息 是否为不良信息; 若 scoreps(doc) > scoreneg(doc), 则系统预研模型信息判定此 待处理文本为不良文本; 若 scoreps(doc) == scoreneg(doc), 则此模型失效, 判定 失败; 若 scoreps(doc) < scoreneg(doc), 则系统预研模型信息判定此待处理文本为 正常文本。
2045 : 根据判断结果, 给出所述第一匹配结果。
205 : 将所述预处理后的待过滤文本信息与所述用户反馈模型信息进行特征 信息匹配, 给出第二匹配结果; 该步骤具体可以包括的流程与步骤 204 所述流 程大致相同。
需要说明的是, 所述获取用户反馈模型信息的过程与获取系统预研模型信 息的过程主要不同的地方是步驟 201 中训练语料的选择。 所述用户反馈模型信 息的训练语料的来源还可以包括如下两方面: 替换页(细则第 2 6条) ( 1 )用户反馈机制。 用户在实际体验过程中发现判定出现问题的信息, 主 要是将不良信息判定为正常信息的情况, 对系统进行报错, 系统接收用户标准 答案作为反馈语料。
( 2 )判定模型机制。 待处理文本进入步骤 206的不良信息判定流程, 输出 对该文本的判定结果。 结果包括的两种情况, 即不良文本或者正常文本。 根据 判定可信度情况决定待处理文本是否参与反馈训练。
206: 根据所述第一匹配结果与所述第二匹配结果, 对所述待过滤文本信息 进行过滤处理。 具体的讲, 就是判断所述第一匹配结果与所述第二匹配结果的 判定结果是否一致, 即系统预研模型信息与用户反馈模型信息的判定结果。 若 判定相同, 同为不良信息文本或正常信息文本, 则判定结果可信度较大, 可用 于反馈训练; 若判定不同, 则判定结果可信度有损失, 但若釆取较为严格的过 滤策略, 则过滤此文本, 但不可用于反馈训练; 若其中有一模型失效, 则结果 依据剩余模型的判定结果, 且认为有一定可信度, 可用于反馈训练; 若两个模 型皆失效, 则返回失效标志, 不可用于反馈训练。
需要注意的是, 每完成一个待过滤文本信息的判定过程后, 该方法还可以 包括:
获取所述用户反馈模型信息的语料数量以及其对应的阈值; 具体的讲, 就 是统计可以用于反馈训练的语料数量, 判断所述语料数量是否超出其对应阈值。
根据所述用户反馈模型信息的语料数量以及其对应的阈值, 对所述用户反 馈模型信息进行更新。 若语料数量大于阈值, 则对反馈语料进行重新训练, 更 新用户反馈模型信息。 调整阈值的大小, 可以调整更新周期。
如图 3 所示, 为本发明实施例提供的一种网络不良信息的过滤装置; 该装 置包括:
信息获取单元 301 , 用于获取待过滤文本信息、 系统预研模型信息以及用户 反馈模型信息;
预处理单元 302 , 用于对所述待过滤文本信息进行预处理;
第一匹配单元 303 ,用于将所述预处理后的待过滤文本信息与所述系统预研 模型信息进行特征信息匹配, 给出第一匹配结果; 第二匹配单元 304 ,用于将所述预处理后的待过滤文本信息与所述用户反馈 模型信息进行特征信息匹配, 给出第二匹配结果;
过滤单元 305 , 用于根据所述第一匹配结果与所述第二匹配结果, 对所述待 过滤文本进行过滤处理。
如图 4所示, 为本发明实施例提供的一种网络不良信息的过滤装置; 该装 置包括:
信息获取单元 401 , 用于获取待过滤文本、 系统预研模型信息以及用户反馈 模型信息; 还用于获取所述用户反馈模型信息的训练语料。 其中, 所述用户反 馈模型信息的语料包括: 用户反馈语料和 /或被过滤语料。
预处理单元 402 ,用于对所述待过滤文本信息进行预处理;该单元具体包括: 切分子单元 4021, 用于对所述待过滤文本信息进行切分处理;
统计子单元 4022 , 用于统计所述切分处理后的候选特征项数量。
第一匹配单元 403 ,用于将所述预处理后的待过滤文本信息与所述系统预研 模型信息进行特征信息匹配, 给出第一匹配结果; 该单元具体可以包括:
信息获取子单元 4031 , 用于获取所述预处理后的待过滤文本信息以及所述 系统预研模型信息; 其中, 所述系统预研模型信息包括: 规则索引库和所述系 统预研模型特征项信息;
匹配子单元 4032 , 用于将所述预处理后的待过滤文本信息与所述系统预研 模型信息进行匹配, 获取特征项;
统计子单元 4033, 用于统计所述特征项的语料信息得分;
判断子单元 4034, 用于根据所述语料信息得分, 判断所述特征项所对应的 待过滤文本信息是否为不良信息;
结果输出子单元 4035 , 用于根据判断结果, 给出所述第一匹配结果。
第二匹配单元 404 ,用于将所述预处理后的待过滤文本信息与所述用户反馈 模型信息进行特征信息匹配, 给出第二匹配结果; 该单元具体可以包括:
信息获取子单元 4041 , 用于获取所述预处理后的待过滤文本信息以及所述 用户反馈模型信息; 其中, 所述用户反馈模型信息包括: 规则索引库和所述用 户反馈模型特征项信息; 匹配子单元 4042 , 用于将所述预处理后的待过滤文本信息与所述用户反馈 模型信息进行匹配, 获取特征项;
统计子单元 4043 , 用于统计所述特征项的语料信息得分;
判断子单元 4044 , 用于根据所述语料信息得分, 判断所述特征项所对应的 待过滤文本信息是否为不良信息;
结果输出子单元 4045 , 用于根据判断结果, 给出所述第二匹配结果。
过滤单元 405 , 用于根据所述第一匹配结果与所述第二匹配结果, 对所述待 过滤文本信息进行过滤处理。
需要注意的是, 该装置还包括:
阈值获取单元 406,用于获取所述用户反馈模型信息的语料数量以及其对应 的阈值;
更新单元 407 ,用于根据所述用户反馈模型信息的语料数量以及其对应的阈 值, 对所述用户反馈模型信息进行更新。 当所述阈值获取单元获取到的用户反 馈模型信息的语料数量达到其对应的阈值时, 所述更新单元根据所述用户反馈 模型信息的语料数量以及其对应的阔值, 对所述用户反馈模型信息进行更新。
本发明实施例提供的网络不良信息的过滤方法以及装置, 通过获取待过滤 文本信息、 系统预研模型信息以及用户反馈模型信息; 对所述待过滤文本信息 进行预处理; 将所述预处理后的待过滤文本信息与所述系统预研模型信息进行 特征信息匹配, 给出第一匹配结果; 将所述预处理后的待过滤文本信息与所述 用户反馈模型信息进行特征信息匹配, 给出第二匹配结果; 根据所述第一匹配 结果与所述第二匹配结果, 对所述待过滤文本信息进行过滤处理。 由于本发明 中采用了两次匹配进行系统过滤, 所以系统自动过滤不良信息的准确性较高, 从而提高了系统的性能; 还由于本发明实施例采用了用户反馈模型信息进行不 良信息的过滤, 使得用户反馈信息能够及时的应用于系统自动过滤不良信息的 过程中, 从而实现了系统的匹配信息自动更新的功能。
通过以上的实施方式的描述, 本领域普通技术人员可以理解: 实现上述实 施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成, 所述 的程序可以存储于一计算机可读取存储介质中, 该程序在执行时, 包括如上述 方法实施例的步骤, 所述的存储介质, 如: ROM/RAM、 磁碟、 光盘等。
以上所述, 仅为本发明的具体实施方式, 但本发明的保护范围并不局限于 此, 任何熟悉本技术领域的技术人员在本发明揭露的技术范围内, 可轻易想到 变化或替换, 都应涵盖在本发明的保护范围之内。 因此, 本发明的保护范围应 以权利要求的保护范围为准。

Claims

权利要求书:
1、 一种网络不良信息的过滤方法, 其特征在于, 包括: 获取待过滤文本信息、 系统预研模型信息以及用户反馈模型信息; 对所述待过滤文本信息进行预处理;
将所述预处理后的待过滤文本信息与所述系统预研模型信息进行特征信息 匹配, 给出第一匹配结果;
将所述预处理后的待过滤文本信息与所述用户反馈模型信息进行特征信息 匹配, 给出第二匹配结果;
根据所述第一匹配结果与所述第二匹配结果, 对所述待过滤文本信息进行 过滤处理。
2、 根据权利要求 1所述的网络不良信息的过滤方法, 其特征在于, 该方法 还包括:
获取所述系统预研模型信息的语料与所述用户反馈模型信息的语料。
3、 根据权利要求 2所述的网络不良信息的过滤方法, 其特征在于, 所述用 户反馈模型信息的语料包括: 用户反馈语料和 /或被过滤语料。
4、 根据权利要求 3所述的网络不良信息的过滤方法, 其特征在于, 该方法 还包括:
获取所述用户反馈模型信息的语料数量以及其对应的阈值;
根据所述用户反馈模型信息的语料数量以及其对应的闹值, 对所述用户反 馈模型信息进行更新。
5、根据权利要求 2或 3或 4所述的网络不良信息的过滤方法,其特征在于, 所述对所述待过滤文本信息进行预处理的步骤, 包括:
对所述待过滤文本信息进行切分处理;
统计所述切分处理后的候选特征项数量。
6、 根据权利要求 5所述的网络不良信息的过滤方法, 其特征在于, 所述将 所述预处理后的待过滤文本信息与所述系统预研模型信息进行特征信息匹配, 给出第一匹配结果步骤, 包括:
获取所述预处理后的待过滤文本信息以及所述系统预研模型信息; 将所述预处理后的待过滤文本信息与所述系统预研模型信息进行匹配, 获 取特征项;
统计所述特征项的语料信息得分;
根据所述语料信息得分, 判断所述特征项所对应的待过滤文本信息是否为 不良信息;
根据判断结果, 给出所述第一匹配结果。
7、 根据权利要求 6所述的网络不良信息的过滤方法, 其特征在于, 所述将 所述预处理后的待过滤文本信息与所述用户反馈模型信息进行特征信息匹配, 给出第二匹配结果步骤, 包括:
获取所述预处理后的待过滤文本信息以及所述用户反馈模型信息; 将所述预处理后的待过滤文本信息与所述用户反馈模型信息进行匹配, 获 取特征项;
统计所述特征项的语料信息得分;
根据所述语料信息得分, 判断所述特征项所对应的待过滤文本信息是否为 不良信息;
根据判断结果, 给出所述第二匹配结果。
8、 根据权利要求 6或 7所述的网络不良信息的过滤方法, 其特征在于, 所 述系统预研模型信息包括: 规则索引库和系统预研模型特征项信息; 所述用户 反馈模型信息包括:规则索引库和用户反馈模型特征项信息。
9、 根据权利要求 8所述的网络不良信息的过滤方法, 其特征在于, 所述系 统预研模型信息的规则索引库包括: 系统预置规则; 所述用户反馈模型信息的 规则索引库包括: 用户配置规则。
10、 一种网络不良信息的过滤装置, 其特征在于, 包括: 信息获取单元, 用于获取待过滤文本信息、 系统预研模型信息以及用户反 馈模型信息; 预处理单元, 用于对所述待过滤文本信息进行预处理;
第一匹配单元, 用于将所述预处理后的待过滤文本信息与所述系统预研模 型信息进行特征信息匹配, 给出第一匹配结果;
第二匹配单元, 用于将所述预处理后的待过滤文本信息与所述用户反馈模 型信息进行特征信息匹配, 给出第二匹配结果;
过滤单元, 用于根据所述第一匹配结果与所述第二匹配结果, 对所述待过 滤文本信息进行过滤处理。
11、 根据权利要求 10所述的网络不良信息的过滤装置, 其特征在于, 所述 信息获取单元, 还用于获取所述用户反馈模型信息的语料。
12、 根据权利要求 11所述的网络不良信息的过滤装置, 其特征在于, 所述 用户反馈模型信息的语料包括: 用户反馈语料和 /或被过滤语料。
13、 根据权利要求 12所述的网络不良信息的过滤装置, 其特征在于, 该方 装置还包括:
阈值获取单元, 用于获取所述用户反馈模型信息的语料数量以及其对应的 阈值;
更新单元, 用于根据所述用户反馈模型信息的语料数量以及其对应的阈值, 对所述用户反馈模型信息进行更新。
14、 根据权利要求 11或 12或 1 3所述的网络不良信息的过滤装置, 其特征 在于, 所述预处理单元, 包括:
切分子单元, 用于对所述待过滤文本信息进行切分处理;
统计子单元, 用于统计所述切分处理后的候选特征项数量。
15、 根据权利要求 14所述的网络不良信息的过滤装置, 其特征在于, 所述 第一匹配单元, 包括:
信息获取子单元, 用于获取所述预处理后的待过滤文本信息以及所述系统 预研模型信息;
匹配子单元, 用于将所述预处理后的待过滤文本信息与所述系统预研模型 信息进行匹配, 获取特征项;
统计子单元, 用于统计所述特征项的语料信息得分; 判断子单元, 用于根据所述语料信息得分, 判断所述特征项所对应的待过 滤文本信息是否为不良信息;
结果输出子单元, 用于根据判断结果, 给出所述第一匹配结果。
16、 根据权利要求 15所述的网络不良信息的过滤装置, 其特征在于, 所述 第二匹配单元, 包括:
信息获取子单元, 用于获取所述预处理后的待过滤文本信息以及所述用户 反馈模型信息;
匹配子单元, 用于将所述预处理后的待过滤文本信息与所述用户反馈模型 信息进行匹配, 获取特征项;
统计子单元, 用于统计所述特征项的语料信息得分;
判断子单元, 用于根据所述语料信息得分, 判断所述特征项所对应的待过 滤文本信息是否为不良信息;
结果输出子单元, 用于根据判断结果, 给出所述第二匹配结果。
PCT/CN2011/084699 2010-12-24 2011-12-26 一种网络不良信息的过滤方法及装置 WO2012083892A1 (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US13/997,666 US20140013221A1 (en) 2010-12-24 2011-12-26 Method and device for filtering harmful information
EP11850052.9A EP2657852A4 (en) 2010-12-24 2011-12-26 METHOD AND DEVICE FOR FILTERING HARMFUL INFORMATION
JP2013545039A JP5744228B2 (ja) 2010-12-24 2011-12-26 インターネットにおける有害情報の遮断方法と装置

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201010621142.1A CN102567304B (zh) 2010-12-24 2010-12-24 一种网络不良信息的过滤方法及装置
CN201010621142.1 2010-12-24

Publications (1)

Publication Number Publication Date
WO2012083892A1 true WO2012083892A1 (zh) 2012-06-28

Family

ID=46313198

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2011/084699 WO2012083892A1 (zh) 2010-12-24 2011-12-26 一种网络不良信息的过滤方法及装置

Country Status (5)

Country Link
US (1) US20140013221A1 (zh)
EP (1) EP2657852A4 (zh)
JP (1) JP5744228B2 (zh)
CN (1) CN102567304B (zh)
WO (1) WO2012083892A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103514227A (zh) * 2012-06-29 2014-01-15 阿里巴巴集团控股有限公司 一种更新数据库的方法及装置
CN105183894A (zh) * 2015-09-29 2015-12-23 百度在线网络技术(北京)有限公司 过滤网站内链的方法及装置

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140025113A (ko) * 2012-08-21 2014-03-04 한국전자통신연구원 유해 컨텐츠 고속 판단 장치 및 방법
US9773182B1 (en) 2012-09-13 2017-09-26 Amazon Technologies, Inc. Document data classification using a noise-to-content ratio
CN103729384B (zh) * 2012-10-16 2017-02-22 中国移动通信集团公司 信息过滤方法、系统与装置
CN103246641A (zh) * 2013-05-16 2013-08-14 李营 一种文本语义信息分析系统和方法
WO2015062377A1 (zh) * 2013-11-04 2015-05-07 北京奇虎科技有限公司 一种相似文本检测装置、方法以及应用
CN103886026B (zh) * 2014-02-25 2017-09-05 厦门客来点信息科技有限公司 基于个体特征的服装匹配方法
CN104281696B (zh) * 2014-10-16 2017-09-15 江西师范大学 一种主动的空间信息个性化分发方法
CN105528404A (zh) * 2015-12-03 2016-04-27 北京锐安科技有限公司 种子关键字字典建立方法和装置及关键词提取方法和装置
CN106874253A (zh) * 2015-12-11 2017-06-20 腾讯科技(深圳)有限公司 识别敏感信息的方法及装置
CN105653649B (zh) * 2015-12-28 2019-05-21 福建亿榕信息技术有限公司 海量文本中低占比信息识别方法及装置
US10498752B2 (en) 2016-03-28 2019-12-03 Cisco Technology, Inc. Adaptive capture of packet traces based on user feedback learning
CN106339429A (zh) * 2016-08-17 2017-01-18 浪潮电子信息产业股份有限公司 一种实现智能客服的方法、装置和系统
CN107239447B (zh) * 2017-06-05 2020-12-18 厦门美柚股份有限公司 垃圾信息识别方法及装置、系统
CN108038245A (zh) * 2017-12-28 2018-05-15 中译语通科技(青岛)有限公司 一种基于多语言的数据挖掘方法
CN109597987A (zh) * 2018-10-25 2019-04-09 阿里巴巴集团控股有限公司 一种文本还原方法、装置及电子设备
CN110633466B (zh) * 2019-08-26 2021-01-19 深圳安巽科技有限公司 基于语义分析的短信犯罪识别方法、系统和可读存储介质
CN112749565A (zh) * 2019-10-31 2021-05-04 华为终端有限公司 基于人工智能的语义识别方法、装置和语义识别设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5987457A (en) * 1997-11-25 1999-11-16 Acceleration Software International Corporation Query refinement method for searching documents
CN101477544A (zh) * 2009-01-12 2009-07-08 腾讯科技(深圳)有限公司 一种识别垃圾文本的方法和系统
CN101639824A (zh) * 2009-08-27 2010-02-03 北京理工大学 一种针对不良信息的基于情感倾向性分析的文本过滤方法
CN101702167A (zh) * 2009-11-03 2010-05-05 上海第二工业大学 一种基于互联网的模板抽取属性和评论词的方法
CN101877704A (zh) * 2010-06-02 2010-11-03 中兴通讯股份有限公司 一种进行网络访问控制的方法及服务网关

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5867799A (en) * 1996-04-04 1999-02-02 Lang; Andrew K. Information system and method for filtering a massive flow of information entities to meet user information classification needs
AU2000233633A1 (en) * 2000-02-15 2001-08-27 Thinalike, Inc. Neural network system and method for controlling information output based on user feedback
US7249162B2 (en) * 2003-02-25 2007-07-24 Microsoft Corporation Adaptive junk message filtering system
US7543053B2 (en) * 2003-03-03 2009-06-02 Microsoft Corporation Intelligent quarantining for spam prevention
US7813482B2 (en) * 2005-12-12 2010-10-12 International Business Machines Corporation Internet telephone voice mail management
US7827125B1 (en) * 2006-06-01 2010-11-02 Trovix, Inc. Learning based on feedback for contextual personalized information retrieval
US8020206B2 (en) * 2006-07-10 2011-09-13 Websense, Inc. System and method of analyzing web content
US20100205123A1 (en) * 2006-08-10 2010-08-12 Trustees Of Tufts College Systems and methods for identifying unwanted or harmful electronic text
CN101166159B (zh) * 2006-10-18 2010-07-28 阿里巴巴集团控股有限公司 一种确定垃圾信息的方法及系统
KR100815530B1 (ko) * 2007-07-20 2008-04-15 (주)올라웍스 유해성 컨텐츠 필터링 방법 및 시스템
US8965888B2 (en) * 2007-10-08 2015-02-24 Sony Computer Entertainment America Llc Evaluating appropriateness of content
JP5032286B2 (ja) * 2007-12-10 2012-09-26 株式会社ジャストシステム フィルタリング処理方法、フィルタリング処理プログラムおよびフィルタリング装置
EP2071339A3 (en) * 2007-12-12 2015-05-20 Sysmex Corporation System for providing animal test information and method of providing animal test information
US8850571B2 (en) * 2008-11-03 2014-09-30 Fireeye, Inc. Systems and methods for detecting malicious network content
US20140108156A1 (en) * 2009-04-02 2014-04-17 Talk3, Inc. Methods and systems for extracting and managing latent social networks for use in commercial activities
US8849725B2 (en) * 2009-08-10 2014-09-30 Yahoo! Inc. Automatic classification of segmented portions of web pages
CN101794303A (zh) * 2010-02-11 2010-08-04 重庆邮电大学 采用特征扩展分类文本及构造文本分类器的方法和装置
CN101908055B (zh) * 2010-03-05 2013-02-13 黑龙江工程学院 一种信息过滤系统
CN101894102A (zh) * 2010-07-16 2010-11-24 浙江工商大学 一种主观性文本情感倾向性分析方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5987457A (en) * 1997-11-25 1999-11-16 Acceleration Software International Corporation Query refinement method for searching documents
CN101477544A (zh) * 2009-01-12 2009-07-08 腾讯科技(深圳)有限公司 一种识别垃圾文本的方法和系统
CN101639824A (zh) * 2009-08-27 2010-02-03 北京理工大学 一种针对不良信息的基于情感倾向性分析的文本过滤方法
CN101702167A (zh) * 2009-11-03 2010-05-05 上海第二工业大学 一种基于互联网的模板抽取属性和评论词的方法
CN101877704A (zh) * 2010-06-02 2010-11-03 中兴通讯股份有限公司 一种进行网络访问控制的方法及服务网关

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP2657852A4 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103514227A (zh) * 2012-06-29 2014-01-15 阿里巴巴集团控股有限公司 一种更新数据库的方法及装置
CN105183894A (zh) * 2015-09-29 2015-12-23 百度在线网络技术(北京)有限公司 过滤网站内链的方法及装置
CN105183894B (zh) * 2015-09-29 2020-03-10 百度在线网络技术(北京)有限公司 过滤网站内链的方法及装置

Also Published As

Publication number Publication date
CN102567304A (zh) 2012-07-11
JP2014502754A (ja) 2014-02-03
CN102567304B (zh) 2014-02-26
US20140013221A1 (en) 2014-01-09
EP2657852A1 (en) 2013-10-30
JP5744228B2 (ja) 2015-07-08
EP2657852A4 (en) 2014-08-20

Similar Documents

Publication Publication Date Title
WO2012083892A1 (zh) 一种网络不良信息的过滤方法及装置
US10635750B1 (en) Classification of offensive words
WO2021051521A1 (zh) 获取应答信息的方法、装置、计算机设备及存储介质
US10496928B2 (en) Non-factoid question-answering system and method
US8402036B2 (en) Phrase based snippet generation
WO2016051551A1 (ja) 文章生成システム
US20130006611A1 (en) Method and system for extracting shadow entities from emails
Brahimi et al. Data and Text Mining Techniques for Classifying Arabic Tweet Polarity.
CN103324621B (zh) 一种泰语文本拼写纠正方法及装置
CN109858034A (zh) 一种基于注意力模型和情感词典的文本情感分类方法
Yoshino et al. Spoken dialogue system based on information extraction using similarity of predicate argument structures
Ahmed et al. Revised n-gram based automatic spelling correction tool to improve retrieval effectiveness
CN108287848B (zh) 用于语义解析的方法和系统
JP5718405B2 (ja) 発話選択装置、方法、及びプログラム、対話装置及び方法
CN111651559B (zh) 一种基于事件抽取的社交网络用户关系抽取方法
CN114756675A (zh) 文本分类方法、相关设备及可读存储介质
Nezhad et al. Sarcasm detection in Persian
JP5426292B2 (ja) 意見分類装置およびプログラム
Malandrakis et al. Sail: Sentiment analysis using semantic similarity and contrast features
Tam et al. Age detection in chat
Silessi et al. Identifying gender from SMS text messages
Magarreiro et al. Using subtitles to deal with out-of-domain interactions
JP2003167898A (ja) 情報検索システム
Sonbhadra et al. Email classification via intention-based segmentation
Koto et al. The use of semantic and acoustic features for open-domain TED talk summarization

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11850052

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2013545039

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

REEP Request for entry into the european phase

Ref document number: 2011850052

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2011850052

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 13997666

Country of ref document: US