WO2015165408A1

WO2015165408A1 - 一种商品评价信息过滤方法及系统

Info

Publication number: WO2015165408A1
Application number: PCT/CN2015/077848
Authority: WO
Inventors: 周东
Original assignee: 北京京东尚科信息技术有限公司; 北京京东世纪贸易有限公司
Priority date: 2014-04-29
Filing date: 2015-04-29
Publication date: 2015-11-05
Also published as: CN103996130B; US10963912B2; AU2015252513A1; CN103996130A; US20170053213A1; AU2015252513B2

Abstract

一种商品评价信息过滤方法及系统，方法包括：获取多个预先确定的广告垃圾样本，所述广告垃圾样本包括评价文本和用户标识（S101）；建立包括多个所述广告垃圾样本的用户标识的广告垃圾用户标识库（S102）；获取包含用户标识和评价文本的新评价，如果所述新评价的用户标识包含在所述广告垃圾用户标识库中，则确定所述新评价为广告垃圾评价（S103）。利用发表评价的用户标识，来识别广告垃圾评价。为广告垃圾评价识别的技术领域，提供了一个全新的方法，解决了杂乱无章的垃圾评价难以识别的问题。

Description

一种商品评价信息过滤方法及系统

技术领域

本发明涉及商品评价相关技术领域，特别是一种商品评价信息过滤方法及系统。

背景技术

随着电子商务的高速发展，越来越多的人选择在网上购买商品，然后进行评价，产生大量的商品评价信息。一个商品的全部评价信息会展示出来，供其他用户购买前参考，而有一些评价信息是用户基于其他目的或者随意评价而生成的，主要表现为广告评价和杂乱无章的垃圾评价，举例如下：

一、广告类评价，例如：

样例1：宝贝不错，描述一致，质量上乘，性价比很高的一款宝贝，物超所值了！很喜欢，是我想要的！买完后才知道，原来这款产品有内部秒杀地址，秒杀的价格要便宜好多好多哦，还是这家店，这款产品(复制下面的链接在浏览器中打开，时间有限)url.cn/XXXXX。

样例2：转让一双全新匡威，尺码38码，有需要请联系QQ XXXXXXXXX。

样例3：帮忙宣传一下，在这个群买可以打折，电商优惠群：XXXXXXXX，各种200-10 100-5优惠免费得，网购达人可以关注一下，蚊子腿也是肉啊。

二、垃圾类评价，例如：

样例1：我吐兔兔继续找我下咯我。

样例2：真屎啊啊啊啊啊啊啊啊啊轻轻轻轻轻轻轻轻啊啊啊啊啊啊啊轻轻啊啊啊啊啊啊企鹅啊啊啊啊啊瓦啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊娿啊去啊啊。

样例3：佛书店就是了空间的快速拉低斯卡拉迪欧但是的角度讲哦回看守所看看四i类到拉萨卡死哦奇偶的几岁偶加快速度拉萨的空间爱哦老大色欧赔抖擞说了宽度搜谱搜批评交付是滴哦开了德律风收到了渐叟的开发恐怕死艘平底那死都及深咖啡搜哎哈维企鹅王王企鹅我去额健康王企鹅逻辑气温死啊对期望企鹅啊风路记录卡附属的方式来开到付搜带我那看来是数量大赛。

上述这二类评价，都不是对一个商品自身相关的评价，并且，这些评价对其他购买该商品的用户起着噪音的作用，所以这类的评价展示是没有意义的，需要做识别过滤。

现有的广告与垃圾识别技术方案，主要有两种，分别为基于人工建立词典的识别过滤方法和基于统计的机器学习分类识别过滤方法，这两种方法如下：

(1)基于人工建立词典的识别方法：先抽取一部分样本评价数据，然后通过人工查看判断，总结提炼出一系列的具有广告评价代表性的关键词，组成词典。然后利用这些词典，对新的评价文本进行布尔型包含检查，如果一个评价同时包含字典中的一个或者多个关键词，就断定这个评价为广告评价。如上述示例中，可以提炼出关键词为：秒杀地址、QQ、请联系、优惠群，由这些关键词组成词典。这种方法主要用于广告评价的识别过滤。

(2)基于统计的机器学习分类识别方法：同样先由人工抽取一部分评价样本数据，并以这些样本数据为语料进行标注，如果一条评价信息属于广告或者垃圾评价，就标记为1，否则标记为0。待这些样本全部标记完成之后，将这些数据用作文本分类的训练集，然后选择一个文本分类算法，如朴素贝叶斯分类算法、Libsvm分类算法等，构造分类器，然后对一个新的评价文本进行自动分类，如果分到1这一类，就代表这条评价属于广告或者垃圾，反之，属于正常评价。这种方法的过滤准确率是和样本标注量成正比的，也就是样本集的标注量越大越好。

现有的二种技术方案，虽然对广告或者垃圾类评价识别过滤有较为明显的效果，但是都存在一定的缺陷。

对于第一种基于人工建立词典的过滤方法，该方法对广告类评价识别效果较好，但是主要存在如下缺陷：1)词典的建立完全依赖人工，需要人工观察到大量的广告评价，并且提取代表性广告关键词具有较强的主观性，这就会导致词典的建立不准确、不完整、不科学，从而导致准确率与召回率不可控。如果建立的词典包含了一些不够具有广告代表性的关键词，将会导致识别的准确率较低；如果建立的词典包含的代表性关键词数量不是，那将会导致召回率较低，也就是本来有很多新的广告评价，却识别出来的数量较少。2)无法对垃圾评价识别过滤，因为垃圾评价表现形式主要为变化多端的无语言规律文本，如上述垃圾评价的三个样例，代表性特征关键词不明显，所以很难建立一套词典专门用于识别垃圾评价。

对于第二种基于统计的机器学习分类过滤方法，该方法将广告与垃圾评价的识别过滤转为一个二类分类的问题，相比第一种方法，该方法不仅对广告类评价识别有较明显的效果，而且对垃圾类评价识别也有一定的效果，但是该方法主要存在如下缺陷：1)用作训练集的样本语料标注要是够多，需要大量的人力。2)对于垃圾类评价的识别，虽然有一定的效果，但是准确率较低。因为垃圾类评价，不仅文本语言本身没有规律，而且在预处理阶段，分词之后的词语特征比较常规，不具有代表性，同时这些词语的产生都是随机的，本身语言也没有明确的含义。所以，垃圾类评价识别率比较低。

发明内容

基于此，有必要针对现有技术对广告和垃圾评价的分类不准确的技术问题，提供一种商品评价信息过滤方法及系统。

一种商品评价信息过滤方法，包括：

获取多个预先确定的广告垃圾样本，所述广告垃圾样本包括评价文本和用户标识；

建立包括多个所述广告垃圾样本的用户标识的广告垃圾用户标识库；

获取包含用户标识和评价文本的新评价，如果所述新评价的用户标识包含在所述广告垃圾用户标识库中，则确定所述新评价为广告垃圾评价。

一种商品评价信息过滤系统，包括：

样本获取模块，用于获取多个预先确定的广告垃圾样本，所述广告垃圾样本包括评价文本和用户标识；

标识库建立模块，用于建立包括多个所述广告垃圾样本的用户标识的广告垃圾用户标识库；

新评价判断模块，用于获取包含用户标识和评价文本的新评价，如果所述新评价的用户标识包含在所述广告垃圾用户标识库中，则确定所述新评价为广告垃圾评价。

本发明利用发表评价的用户标识，来识别广告垃圾评价。为广告垃圾评价识别的技术领域，提供了一个全新的方法，解决了杂乱无章的垃圾评价难以识别的问题，并且，使得广告垃圾识别的准确率与召回率明显提高。这些对电子商务领域的广告与垃圾商品评价的准确有效的识别、过滤，起着关键的促进作用。

附图说明

图1为本发明一种商品评价信息过滤方法的工作流程图；

图2为本发明一个例子的工作流程图；

图3为本发明一种商品评价信息过滤系统的结构模块图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步详细的说明。

如图1所示为本发明一种商品评价信息过滤方法的工作流程图，包括：

步骤S101，获取多个预先确定的广告垃圾样本，所述广告垃圾样本包括评价文本和用户标识；

步骤S102，建立包括多个所述广告垃圾样本的用户标识的广告垃圾用户标识库；

步骤S103，获取包含用户标识和评价文本的新评价，如果所述新评价的用户标识包含在所述广告垃圾用户标识库中，则确定所述新评价为广告垃圾评价。

本发明利用用户与评价的关系识别广告评价与垃圾评价。一个商品评价的出现，一定属于一个用户，通过用户标识就可以识别不同的用户。一个用户如果曾经发过广告评价或垃圾评价，则其再次发广告评价或垃圾评价的可能性会比未发过广告评价或垃圾评价的用户的可能性要大。因此，本发明在步骤S101中，将广告垃圾样本的用户标识组成一个广告垃圾用户标识库，从而使得当该库中的用户标识再次发表评价时，能迅速将其确定为广告垃圾评价。

在其中一个实施例中，还包括：

建立包括多个所述广告垃圾样本的评价文本的广告垃圾评价集合，将所述广告垃圾评价集合作为文本分类器的训练集对文本分类器进行训练，所述文本分类器对输入的评价文本进行分类确定为广告垃圾评价文本或者非广告垃圾评价文本；

获取到新评价后，如果所述新评价的用户标识不包含在所述广告垃圾用户标识库中，则文本分类器对所述新评价的评价文本进行分类，如果文本分类器将所述新评价的评价文本分类为广告垃圾评价文本，则所述新评价为广告垃圾评价，将所述新评价的用户标识加入所述广告垃圾用户标识库，将所述新评价的评价文本加入所述广告垃圾评价集合，并对所述文本分类器重新训练。

本实施例增加文本分类器，将广告垃圾样本的评价文本，作为文本分类器的训练集，则当新评价的用户标识不包含在所述广告垃圾用户标识库中，采用文本分类器进行分类判断，以避免漏检。

在其中一个实施例中，还包括：

从所述广告垃圾评价集合中抽取广告关键词组成广告词典；

如果文本分类器将所述新评价分类为非广告垃圾评价文本，则通过所述广告词典对所述新评价的评价文本进行过滤，如果所述新评价的评价文本包含所述广告词典中的广告关键词的数量大于或等于预设广告阈值，则判断所述新评价为广告垃圾评价，将所述新评价的用户标识加入所述广告垃圾用户标识库，将所述新评价的评价文本加入所述广告垃圾评价集合，并对所述文本分类器重新训练。

本实施例增加从所述广告垃圾评价集合中抽取广告关键词组成广告词典，如果文本分类器将所述新评价分类为非广告垃圾评价文本，则通过所述广告词典对所述新评价的评价文本进行过滤，以避免漏检。

在其中一个实施例中，还包括：

如果所述新评价的评价文本包含所述广告词典中的广告关键词的数量小于预设广告阈值，则对所述评价文本进行垃圾评价文本分析，如果所述评价文本进行垃圾评价文本分析的结果为垃圾评价文本，则判断所述新评价为广告垃圾评价，将所述新评价的用户标识加入所述广告垃圾用户标识库，将所述新评价的评价文本加入所述广告垃圾评价集合，并对所述文本分类器重新训练。

本实施例增加对垃圾评价文本的进一步分析。

优选地，所述垃圾评价文本分析包括：

计算所述评价文本分词后的单字占比率，如果所述单字占比率大于或等于预设的占比率阈值，则判断所述评价文本为垃圾评价文本。

如图2所示为本发明一个例子的工作流程图，包括：

步骤S201，从数据库中获取一部分商品评价作为样本，该样本数据由用户ID与评价文本两列组成；

步骤S202，对样本数据进行人工标注，属于广告垃圾评价标记为1，否则标记为0，同时建立广告词典；

步骤S203，将评价文本这一列用作文本分类器的训练集；

步骤S204，将标记为1的全部样本用户ID保存下来形成一个ID库作为广告垃圾用户标识库；

步骤205，对于一个新的评价，如果广告垃圾用户标识库包含这个评价的用户ID，将这个评价作为广告垃圾评价的候选集，并初步判断，这个评价属于广告垃圾评价，交付人工处理，执行步骤S209；

步骤S206，利用步骤S203标注的语料用作训练集，通过文件分类器进行文本分类识别，如果属于1类，将这个评价作为广告垃圾评价的候选集，并初步判断，这个评价属于广告垃圾评价，交付人工处理，执行标准S209，如果属于0类，执行步骤S207；

步骤S207，利用建立的词典进行识别。对于识别为广告垃圾评价，将这个评价作为广告垃圾评价的候选集，交付人工处理，执行步骤S209，否则，执行步骤S208；

步骤S208，执行垃圾评价文本分析，如果识别为广告垃圾评价，将这个评价作为广告垃圾评价的候选集，交付人工处理；

步骤S209，将候选集加入样本，转到步骤S204进行标识。

其中，垃圾评价文本分析具体如下：

利用计算评价文本分词后单字占比率，来识别垃圾评价。一个垃圾评价通常是用户随意敲击键盘乱写的评价，如前文提到的垃圾类评价示例“我吐兔兔继续找我下咯我”。可以发现，组成这种评价文本的词多数是单字词，例如示例分词之后为“我\吐\兔\兔\继续\找我\下\咯\我”，一共有9个词，其中单字词有7个，计算出占比为77.78％。假设一个评价文本分词之后，总词数数学描述为n，单字词数为m，那么单字词占比率为f，计算公式如下：

f＝m/n(m≤n)，

假定满是垃圾评价的条件阈值为t(0≤t≤1)，如果f≥t，系统将判定该条评价为垃圾评价，其中t的值可以由人工做实验并灵活设定。

如图3所示为本发明一种商品评价信息过滤系统的结构模块图，包括：

样本获取模块301，用于获取多个预先确定的广告垃圾样本，所述广告垃圾样本包括评价文本和用户标识；

标识库建立模块302，用于建立包括多个所述广告垃圾样本的用户标识的广告垃圾用户标识库；

新评价判断模块303，用于获取包含用户标识和评价文本的新评价，如果所述新评价的用户标识包含在所述广告垃圾用户标识库中，则确定所述新评价为广告垃圾评价。

在其中一个实施例中，还包括：

从所述广告垃圾评价集合中抽取广告关键词组成广告词典；

在其中一个实施例中，还包括：

在其中一个实施例中，所述垃圾评价文本分析包括：

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

一种商品评价信息过滤方法，其特征在于，包括：

获取多个预先确定的广告垃圾样本，所述广告垃圾样本包括评价文本和用户标识；

建立包括多个所述广告垃圾样本的用户标识的广告垃圾用户标识库；

获取包含用户标识和评价文本的新评价，如果所述新评价的用户标识包含在所述广告垃圾用户标识库中，则确定所述新评价为广告垃圾评价。
根据权利要求1所述的商品评价信息过滤方法，其特征在于，还包括：

建立包括多个所述广告垃圾样本的评价文本的广告垃圾评价集合，将所述广告垃圾评价集合作为文本分类器的训练集对文本分类器进行训练，所述文本分类器对输入的评价文本进行分类确定为广告垃圾评价文本或者非广告垃圾评价文本；

获取到新评价后，如果所述新评价的用户标识不包含在所述广告垃圾用户标识库中，则文本分类器对所述新评价的评价文本进行分类，如果文本分类器将所述新评价的评价文本分类为广告垃圾评价文本，则所述新评价为广告垃圾评价，将所述新评价的用户标识加入所述广告垃圾用户标识库，将所述新评价的评价文本加入所述广告垃圾评价集合，并对所述文本分类器重新训练。
根据权利要求2所述的商品评价信息过滤方法，其特征在于，还包括：

从所述广告垃圾评价集合中抽取广告关键词组成广告词典；

如果文本分类器将所述新评价分类为非广告垃圾评价文本，则通过所述广告词典对所述新评价的评价文本进行过滤，如果所述新评价的评价文本包含所述广告词典中的广告关键词的数量大于或等于预设广告阈值，则判断所述新评价为广告垃圾评价，将所述新评价的用户标识加入所述广告垃圾用户标识库，将所述新评价的评价文本加入所述广告垃圾评价集合，并对所述文本分类器重新训练。
根据权利要求3所述的商品评价信息过滤方法，其特征在于，还包括：

如果所述新评价的评价文本包含所述广告词典中的广告关键词的数量小于预设广告阈值，则对所述评价文本进行垃圾评价文本分析，如果所述评价文本进行垃圾评价文本分析的结果为垃圾评价文本，则判断所述新评价为广告垃圾评价，将所述新评价的用户标识加入所述广告垃圾用户标识库，将所述新评价的评价文本加入所述广告垃圾评价集合，并对所述文本分类器重新训练。
根据权利要求4所述的商品评价信息过滤方法，其特征在于，所述垃圾评价文本分析包括：

计算所述评价文本分词后的单字占比率，如果所述单字占比率大于或等于预设的占比率阈值，则判断所述评价文本为垃圾评价文本。
一种商品评价信息过滤系统，其特征在于，包括：

样本获取模块，用于获取多个预先确定的广告垃圾样本，所述广告垃圾样本包括评价文本和用户标识；

标识库建立模块，用于建立包括多个所述广告垃圾样本的用户标识的广告垃圾用户标识库；

新评价判断模块，用于获取包含用户标识和评价文本的新评价，如果所述新评价的用户标识包含在所述广告垃圾用户标识库中，则确定所述新评价为广告垃圾评价。
根据权利要求6所述的商品评价信息过滤系统，其特征在于，还包括：

建立包括多个所述广告垃圾样本的评价文本的广告垃圾评价集合，将所述广告垃圾评价集合作为文本分类器的训练集对文本分类器进行训练，所述文本分类器对输入的评价文本进行分类确定为广告垃圾评价文本或者非广告垃圾评价文本；

获取到新评价后，如果所述新评价的用户标识不包含在所述广告垃圾用户标识库中，则文本分类器对所述新评价的评价文本进行分类，如果文本分类器将所述新评价的评价文本分类为广告垃圾评价文本，则所述新评价为广告垃圾评价，将所述新评价的用户标识加入所述广告垃圾用户标识库，将所述新评价的评价文本加入所述广告垃圾评价集合，并对所述文本分类器重新训练。
根据权利要求7所述的商品评价信息过滤系统，其特征在于，还包括：

从所述广告垃圾评价集合中抽取广告关键词组成广告词典；

如果文本分类器将所述新评价分类为非广告垃圾评价文本，则通过所述广告词典对所述新评价的评价文本进行过滤，如果所述新评价的评价文本包含所述广告词典中的广告关键词的数量大于或等于预设广告阈值，则判断所述新评价为广告垃圾评价，将所述新评价的用户标识加入所述广告垃圾用户标识库，将所述新评价的评价文本加入所述广告垃圾评价集合，并对所述文本分类器重新训练。
根据权利要求8所述的商品评价信息过滤系统，其特征在于，还包括：

如果所述新评价的评价文本包含所述广告词典中的广告关键词的数量小于预设广告阈值，则对所述评价文本进行垃圾评价文本分析，如果所述评价文本进行垃圾评价文本分析的结果为垃圾评价文本，则判断所述新评价为广告垃圾评价，将所述新评价的用户标识加入所述广告垃圾用户标识库，将所述新评价的评价文本加入所述广告垃圾评价集合，并对所述文本分类器重新训练。
根据权利要求9所述的商品评价信息过滤系统，其特征在于，所述垃圾评价文本分析包括：

计算所述评价文本分词后的单字占比率，如果所述单字占比率大于或等于预设的占比率阈值，则判断所述评价文本为垃圾评价文本。