WO2017202336A1

WO2017202336A1 - 广告反作弊方法，装置及存储介质

Info

Publication number: WO2017202336A1
Application number: PCT/CN2017/085687
Authority: WO
Inventors: 程权; 李益群; 王春辉
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2016-05-24
Filing date: 2017-05-24
Publication date: 2017-11-30
Also published as: JP6878450B2; US20180253755A1; JP2018536956A; CN106022834B; US10929879B2; CN106022834A

Abstract

一种广告反作弊方法及装置，方法包括：获取样本集合，其中样本集合中的至少一个样本包括作弊用户、以及作弊用户点击广告的点击日志；从样本集合的样本中提取与作弊用户的层级对应的至少一个维度的特征，不同层级待识别的作弊用户所对应的特征不同；将作弊用户、作弊用户点击广告的点击日志对应至少一个维度的特征形成正样本，至少基于正样本对与待识别的作弊用户的层级对应的作弊用户识别模型进行训练；确定待识别的样本对应至少一个维度的特征；将待识别样本对应至少一个维度的特征输入训练后的作弊用户识别模型，识别出待识别的样本中的作弊用户。本方法能够准确识别互联网中进行广告作弊的作弊用户。

Description

广告反作弊方法，装置及存储介质

本申请要求于2016年5月24日提交中国专利局、申请号201610349338.7，发明名称为“广告反作弊方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及通信领域的互联网广告技术，尤其涉及一种广告反作弊方法，装置及存储介质。

背景技术

目前，广告主存在向用户推送广告以对产品或服务进行宣传的需求，伴随互联网用户尤其是移动互联网用户的快速增长，互联网广告成为广告投放的新的形式，互联网广告的投放量也呈现快速增长的趋势。

在互联网广告的生态系统中，流量方基于用户提供各种形式的基于互联网的服务(如提供新闻、媒体播放、在线游戏等各种形式)，在用户使用服务的过程中广告系统向用户使用的服务中(如用户使用的应用，或用户访问的网页)投放广告，如果用户点击广告则使广告的点击量(也称为广告流量)增加，可见流量方基于自身所拥有的广告资源(如应用中的广告、网页中的广告位等)对广告的点击量进行消耗。

上述互联网广告的系统中存在以下问题：

流量方为了提高用户在拥有的广告资源上投放的广告的点击量，以获取更多的收入，会采用作弊的方式对广告资源上投放的广告进行点击，从而形成广告的虚假的点击量(也成为虚假广告流量)，而对于准确识别作弊用户以从广告的点击量中过滤虚假的点击量，相关技术尚无有效解决方案。

发明内容

本申请实施例提供一种广告反作弊方法及装置，能够准确识别互联网中进行广告作弊的作弊用户。

本申请实施例的技术方案是这样实现的：

第一方面，本申请实施例提供一种广告反作弊方法，所述方法包括：

广告反作弊装置获取样本集合，其中，所述样本集合中的至少一个样本包括作弊用户、以及所述作弊用户点击广告的点击日志；

广告反作弊装置从所述样本集合的样本中提取与作弊用户层级对应的至少一个维度的特征，其中，每一个作弊用户对应一个层级，不同层级作弊用户所对应的特征不同；

广告反作弊装置基于所述作弊用户、所述作弊用户点击广告的点击日志在所述至少一个维度的特征形成正样本，至少基于所述正样本对与作弊用户的层级对应的作弊用户识别模型进行训练；

广告反作弊装置确定待识别的样本对应所述至少一个维度的特征；

广告反作弊装置将所述待识别样本对应所述至少一个维度的特征输入训练后的所述作弊用户识别模型，基于输出结果识别出所述待识别的样本中的作弊用户。

第二方面，本申请实施例提供一种广告反作弊装置，所述装置包括：

样本模块，用于获取样本集合，其中，所述样本集合中的至少一个样本包括作弊用户、以及所述作弊用户点击广告的点击日志；

提取模块，用于从所述样本集合的样本中提取与作弊用户的层级对应的至少一个维度的特征，其中，每一个作弊用户对应一个层级，不同层级的作弊用户所对应的特征不同；

模型训练模块，用于基于所述作弊用户、所述作弊用户点击广告的点击日志在所述至少一个维度的特征形成正样本，至少基于所述正样本对与待识别的作弊用户的层级对应的作弊用户识别模型进行训练；

模型应用模块，用于确定待识别的样本对应所述至少一个维度的特征；将所述待识别样本对应所述至少一个维度的特征输入训练后的所述作弊用户识别模型，基于输出结果识别出所述待识别的样本中的作弊用户。

第三方面，本申请实施例提供了一种计算机存储介质，用于储存为上述广告反作弊装置所用的计算机软件指令，其包含用于执行上述广告反作弊方法的步骤。

本申请实施例中，基于待识别的作弊用户的不同层级，从样本中提取相应的特征对相应层级作弊用户识别模型进行训练，从而可以利用训练后的模型对不同层级的作弊用户进行有针对性的全面的识别。

附图说明

图1-1为本申请实施例中广告反作弊装置的一个可选的架构示意图；

图1-2为本申请实施例中广告反作弊装置的一个可选的架构示意图；

图2为本申请实施例中广告反作弊装置识别低层级作弊用户的一个可选的实现示意图；

图3-1为本申请实施例中识别低层级作弊用户的一个可选的流程示意图；

图3-2为本申请实施例中识别低层级作弊用户的一个可选的流程示意图；

图4为本申请实施例中训练中层级作弊用户识别模型、以及利用中层级作弊用户识别模型识别中层级作弊用户的一个可选的实现示意图；

图5为本申请实施例中识别高层级作弊用户的一个可选的流程示意图；

图6为本申请实施例中训练高层级作弊用户识别模型、以及利用高层级作弊用户识别模型识别高层级作弊用户的一个可选的实现示意图；

图7为本申请实施例中示广告反作弊系统进行作弊用户识别的一个可选的示意图；

图8为本申请实施例中广告反作弊系统的一个可选的功能架构示意图；

图9为本申请实施例中示广告反作弊系统进行作弊用户识别的一个可选的示意图；

图10为本申请实施例提供的广告反作弊系统的结构示意图。

具体实施方式

以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所提供的实施例仅仅用以解释本申请，并不用于限定本申请。另外，以下所提供的实施例是用于实施本申请的部分实施例，而非提供实施本申请的全部实施例，在本领域技术人员不付出创造性劳动的前提下，对以下实施例的技术方案进行重组所得的实施例、以及基于对申请所实施的其他实施例均属于本申请的保护范围。

需要说明的是，在本申请实施例中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的方法或者装置不仅包括所明确记载的要素，而且还包括没有明确列出的其他要素，或者是还包括为实施方法或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的方法或者装置中还存在另外的相关要素(例如方法中的步骤或者装置中的单元)。

本申请实施例中涉及的名词和术语适用于如下的解释。

广告曝光：广告在用户侧的广告位(如用户访问的页面中的广告位、用户使用的应用中的广告位)展示，广告在用户侧展示一次称为一次广告曝光。

广告点击：用户在终端(如智能手机、平板电脑)通过点击广告而访问广告主的页面，用户点击一次广告而访问广告主的页面，称为广告点击。

广告效果：广告在被曝光后，用户点击广告从而在广告主的网页下单购买商品或下载应用，称为广告效果。

点击率：广告点击量与广告曝光次数的比值。

水军：受雇于网络公司通过点击广告、下载应用或发帖回帖等手段达到盈利或营造舆论等目的的网络人员，本申请实施例中也称为作弊用户。

广告作弊：在广告曝光、点击、效果等环节，用户出于某种恶意的目的，存在可以提升广告曝光次数、广告点击量、广告效果的行为，这种作弊用户的恶意的行为称为广告作弊。

广告反作弊：对广告曝光、点击和效果等环节进行检查，判断广告曝光、广告点击、广告效果等是由于用户侧的正常访问触发，还是由于作弊用户通过广告作弊手段实现。

广告反作弊系统：对广告曝光、广告点击和广告效果等环节进行反作弊检查的系统。

广告反作弊策略：广告反作弊系统为打击作弊行为所使用的一系列规则，每种规则称为一种策略。

广告任务平台：仅提供广告浏览、广告点击或应用下载等有偿任务的平台，平台用户通过完成有偿任务获取积分来兑换钱或奖品，平台用户的广告点击行为与作弊用户的广告点击行为类似。

高(第一)层级作弊用户：专业的作弊用户群体，对反作弊系统了解透彻，一群高层级的作弊用户共同点击一批应用(APP)，高层级作弊用户使用的应用是带壳的虚假APP，专用于供高层级作弊用户进行广告作弊，保证单个作弊用户的行为与正常用户无异，多为作弊软件伪造的用户群体。

中(第二)层级作弊用户：专业的作弊用户、对反作弊系统有所了解，长期分散地、有间歇地点击广告，多为广告任务平台的用户或职业水军。

低(第三)层级作弊用户：无组织的作弊用户、对反作弊系统了解较少，短时间内点击大量广告，多为流量方内部或周边人员。

在互联网广告的生态系统中，部分流量方为了获取更高的点击率和收入，会短期或长期自己内部或雇佣水军或诱导用户来点击自己流量上的广告。反作弊系统(本申请实施例中以反作弊装置实施为反作弊系统为例进行说明)需要识别出作弊用户并过滤作弊用户针对广告的点击量。

相关技术提供的反作弊系统能够识别比较明显的作弊用的广告作弊行为，但随着作弊用户的作弊手段的变化和深入，一些隐藏更深的作弊用户难以识别。

针对这种情况，本申请实施例提供一种广告反作弊方法、以及应用广告反作弊方法的广告反作弊装置，广告反作弊装置可以采用各种方式来实施，以下对广告反作弊装置的实施方式进行说明。

在一个示例中，参见图1-1示出的广告反作弊装置的一个可选的架构示意图，广告反作弊装置实施为广告反作弊系统(实际应用中可以服务器或服务器集群的形式实现，可选地，以云服务的形式提供广告反作弊业务)，广告反作弊系统与广告系统连接，下面对广告系统进行说明。

广告系统根据广告主设定的投放广告的定向条件(如广告受众的年龄、地域、群体、消费能力等信息)向相应的用户的终端的广告位投放广告，并根据用户对广告的点击情况，对应形成每个统计时段(如一周)的点击日志，点击日志用于记录用户针对广告的点击的各种信息如点击量、点击时间等。

另外，对于每个统计时段，广告系统还统计形成曝光日志，示例性地，曝光日志包括用户所点击的广告所曝光的对象如应用、商品等。

此外，对于每个统计时段，广告系统对应每个应用还统计形成效果日志，示例性地，效果日志包括用户点击广告后所达到的针对广告的曝光对象实现的效果。

除此之外，对于每个统计时段，广告系统对应统计用户点击广告所使用的设备的信息，如设备的硬件信息和软件信息等。

广告反作弊系统从广告系统获取用户点击广告的点击日志、效果日志、曝光日志、以及用户的设备信息等，基于上述至少一种信息进行处理形成用于识别不同层级的作弊用户的模型，进而利用不同的模型识别出不同层级的作弊用户，还可对作弊用户点击广告的点击量进行过滤处理，以确保统计到的用户侧的广告点击量的准确性。

在另一个示例中，参见图1-2，广告反作弊装置作为图1-1示出的广告系统的一个功能模块耦合入广告系统中，广告反作弊装置从广告系统获取用户点击广告的点击日志、效果日志、曝光日志、以及用户的设备信息等，基于上述至少一种信息进行处理形成用于识别不同层级的作弊用户的模型，进而利用不同的模型识别出对应层级的作弊用户，还可对作弊用户点击广告的点击量进行过滤处理，以确保统计到的用户侧的广告点击量的准确性。

需要指出的是，图1-1和图1-2示出的广告反作弊处理装置可选的架构仅仅是示意性的，实际应用中可以根据图1-1和图1-2示出的广告反作弊处理装置进行轻易变换而以不同的方式实施。

下面结合图1-1对广告反作弊系统针对低层级作弊用户、中层级作弊用户和高层级作弊用户的识别进行说明，对于基于图1-2示出的广告反作弊装置对广告反作弊系统针对低层级作弊用户、中层级作弊用户和高层级作弊用户的识别，可以参照以下的记载而实施。

一、识别低层级作弊用户

在一些实施例中，参见图2示出的广告反作弊装置识别低层级作弊用户的一个可选的实现示意图，低层级的作弊用户的识别采用线上实时判罚以及线下延迟重判的处理方式。示例性地，线上实施判罚的处理方式包括黑名单策略和统计型策略，线下延迟重判的处理方式包括统计型策略，以下分别进行说明。

1)线上实时判罚

1.1)黑名单策略

作为线上实时判罚的一个示例，广告反作弊系统预先维护了包括有低层级作弊用户的黑名单，其中包括有低层级作弊用户的标识。广告反作弊系统从广告系统实施获取的点击日志提取出当前正在点击广告的用户的标识，与黑名单中低层级作弊用户的标识匹配，一旦匹配成功，则确定当前点击广告的用户为低层级作弊用户。

示例性地，低层级作弊用户的标识采用唯一区分用户的信息，如用户的手机号码、社交平台账号(如微信账号、QQ账号)等，当然低层级作弊用户的标识的类型不限于此，还可以采用网际协议(IP)地址、介质接入(MAC)地址等任意类型的标识。可选地，为了保证识别低层级作弊用户的准确性，可以将上述的标识的两种或多种结合使用来标定低层级作弊用户。

1.2)统计型策略

作为线上实时判罚的另一个示例，广告反作弊系统统计从广告系统获取的点击日志统计出用户在统计时段(如5分钟、1小时，实际应用中根据情况设定)中点击广告的次数，当点击广告的次数超出点击量阈值时，将用户识别为低层级作弊用户。广告反作弊系统利用对低层级的作弊用户的点击量进行过滤(判罚)并反馈至广告系统，避免广告系统利用点击量因低层级作弊用户的点击量造成的不精确的问题。

作为对低层级作弊用户的点击量进行过滤的一个示例，对超过点击量阈值后的点击量按照预定比例过滤，超出点击量阈值的点击量越多，则过滤比例越大。

例如，设用户的点击量为a，点击量阈值为b，当a大于b时，对超出点击量阈值的点击量(a-b)按照(a-b)取值空间与过滤比例的对应关系选择相应的过滤比例进行过滤，(a-b)取值空间与过滤比例的对应关系的一个示例如表1所示，

(a-b)	1000	2000
过滤比例	50％	80％

表1

从表1中可以看出，超出点击量阈值的点击量越多，则相应的过滤比例越大，从而最大程度减少广告的点击量由低层级作弊用户产生的点击量。

2)线下延迟重判

在一些实施例中，为了进一步减小广告的点击量中由低层级作弊用户产生的点击量，广告反作弊系统还采用延迟重判的方式。

示例性地，广告反作弊系统统计出从广告系统获取的点击日志统计出用户在统计时段(设定的间隔时间如5分钟、1小时，实际应用中根据情况设定)中点击广告的次数，当点击广告的次数超出点击量阈值时，将用户识别为低层级作弊用户。对低层级的作弊用户的点击量中未超出点击量阈值的点击量按照预定比例进行过滤，或者全部过滤也就是将低层级作弊用户的点击量清零。

另外，线下延迟重判方式中使用的预定比例可以是一个固定不变的比例，或者，根据用户在统计时段的点击量动态确定(如成正比)，利用根据用户在统计时段的点击量与预定比例正相关(例如正比例)的关系动态确定针对每个低层级作弊用户的预定比例，也就是用户在统计时段的点击量越大，则对用户的点击量中未超出点击量阈值部分进行过滤的预定比例越大。

假设是1小时内的点击超过20次后的点击量开始过滤，延迟重判是对前20次没有超过阈值的点击量过滤，并不会再处理超过点击量阈值的部分点击量。同时，对前20次没有超过点击量阈值(20)的点击量过滤的比例基于用户在这1小时的点击量确定。假设用户A在1小时内点击了21次，那么对前20次的过滤的比例，低于用户B在1小时内点击了100次时对用户B的前20次点击的过滤比例。

例如，设用户的点击量为a，点击量阈值为b，当a大于b时，对点击量a未超出点击量阈值的点击量也就是点击量b按照预定比例(如70％)进行过滤处理，则用户的点击量为b*(1-70％)，或者将点击量b全部过滤，则用户的点击量未超出点击量阈值的点击量b被清零。

结合图2示出的针对低层级作弊用户的实时判罚和延迟重判，对于低层级作弊用户的点击量中超出点击量阈值的点击量进行实施判罚(按照比例过滤)，对于低层级作弊用户的点击量中未超出点击量阈值的部分进行线下的延迟重判(按照如的固定预定比例或动态调整的预定比例进行过滤)，能够最大程度减少广告的点击量中低层级作弊用户的点击量，确保广告系统最终统计到的广告点击量的准确性和可靠性，也保证针对广告主的投放广告生成准确地计费数据。

二、识别中层级作弊用户

参见图3-1示出的本申请实施例中识别低层级作弊用户的一个可选的流程示意图，包括步骤101至步骤106，以下对各步骤进行说明。

本申请实施例中广告反作弊系统使用中层级作弊用户识别模型从用户中识别出中层级作弊用户，为此，广告反作弊系统需要形成可用的样本对中层级作弊用户识别模型进行训练，以使中层级作弊用户识别模型的识别精度达到可用的预设精度。

在一些实施例中，广告反作弊系统从广告任务平台获取样本集合(步骤101)用以形成对中层级作弊用户识别模型进行训练的样本。样本集合包括与中层级作弊用户对应的样本，样本中的一个可选的数据结构如表2所示：

样本	用户标识	点击日志
样本1	中层级作弊用户1	点击日志1
样本2	中层级作弊用户2	点击日志2

表2

参见表2，样本集合中的样本包括至少一个中层级作弊用户以及中层级作弊用户在统计时段(如一周)的点击日志，示例性地，点击日志包括中层级作弊用户点击广告的操作数据，如每次点击广告的ID、点击的时间等。

实际应用中，由于广告任务平台的用户与中层级作弊用户的点击行为最接近，因此可以将广告任务平台中完成广告任务的平台用户视为中层级作弊用户，相应地，从广告任务平台获取广告任务平台用户完成广告任务时所对应的点击日志形成样本集合。

继续对广告反作弊系统获取样本集合的处理进行说明，前述的与中层级作弊用户对应的样本用于供广告反作弊系统形成对中层级作弊用户识别模型进行训练的正样本，为了进一步提升中层级作弊用户识别模型识别中层级作弊用户的精度，在另一些实施例中，广告反作弊系统获取的样本集合中还包括与非作弊用户对应的样本，用于供广告反作弊系统形成用以训练中层级作弊用户识别模型的负样本，示例性地，非作弊用户对应的样本包括：正常应用(也就是已知未存在作弊用户的应用)的用户也即非作弊用户、以及用户在使用正常应用的过程中在应用的广告位中点击广告所对应的点击日志，与非作弊用户对应的样本的一个可选的数据结构如表3所示：

表3

表3示出了非作弊用户对应的样本的一个可选的数据结构，在表3中，以应用3为正常应用为例，用户3和用户4均在各自的终端中安装了应用1，并且都在应用1的广告位中点击过广告，相应地，广告反作弊系统基于从广告系统获取的点击日志形成对应应用1中各非作弊用户(用户3和用户4)的样本。

接续对前述步骤进行说明，在广告反作弊系统获取到样本集合后，解析样本集合中的点击日志对应用户点击广告的操作数据，从操作数据中提取得到与用户点击广告的操作相关联的特征(步骤102)。

如前，在一些实施例中，当样本集合中仅包括与中层级作弊用户对应的样本时，则广告反作弊系统解析与中层级作弊用户对应样本中的点击日志，以确定与中层级作弊用户点击广告的操作关联的特征。在另一些实施例中，当样本集合中还包括与非作弊用户对应的样本时，则广告反作弊系统还解析与非作弊用户对应样本中的点击日志，以确定与非作弊用户点击广告的操作关联的特征。

在一些实施例中，与用户(中层级作弊用户或非作弊用户)点击广告的操作相关联的特征包括以下至少一个维度的特征：

1)用户在统计时段内的点击量。

示例性地，用户在统计时段内点击广告的点击量，为用户在统计时段内在任意广告位，如页面的广告、应用中广告位点击广告的次数的总量。

例如，用户在统计时段内点击了广告1、广告2和广告3共3个广告，相应的点击次数为1次、2次和3次，则用户在统计时段的点击量为6(1+2+3)。

或者，用户在统计时段内点击广告的点击量为用户在统计时段内点击同一广告的次数的总量，用户在统计时段的第一个时间周期点击了广告1、广告2和广告3共3个广告，相应的点击次数为1次、2次和3次，用户在统计时段的第二个时间周期点击了广告1、广告2和广告3共3个广告，相应的点击次数为1次、2次和3次，则用户在统计时段对应广告1、广告2和广告3的点击量为2(1+1)、4(2+2)、6(3+3)。

2)用户在统计时段内点击过广告的时间周期的数量。

示例性地，用户点击广告的时间周期的数量为用户点击广告时所处的时间周期的数量。

以统计时段为1天，时间周期为小时为例，假设用户在1天第1/2/4/5小时均点击的广告，则用户在该统计时段内点击过广告的时间周期的数量为4。

3)用户在统计时段中点击广告的间隔时间的平均值。

以用户在统计时段的T`1/T2/T3时刻点击了广告为例，对应的平均值为(T2-T1)/2+(T3-T2)/2。

4)用户统计时段内识别的作弊用户的历史比例。

在当前统计时段的任一统计时段中，识别出的中层级作弊用户的数量与点击广告的用户(包括中层级作弊用户和非作弊用户)的历史比例，当然，历史比例也可以为当前统计时段的多个统计时段的比例的平均值。

5)用户在统计时段内所点击过广告的时间周期中点击广告的平均点击量。

仍以统计时段为1天，时间周期为小时为例，假设用户在1天第1/2/4/5小时均点击的广告，则用户在该统计时段内点击过广告的时间周期的数量为4，统计时段的点击量为12(1+2+4+5)，在4个时间周期点击广告的平均点击量为3(12/4)。

需要指出的是，在本申请实施例中使用的与用户点击广告的操作相关联的特征不仅限于以上所示，本领域的技术人员可以轻易对上述与用户点击广告的操作相关联的特征进行变形或延伸，从而实施出不同于上述与用户点击广告的操作相关联的特征。

接续对前述步骤进行说明，在广告反作弊系统从与中层级作弊用户对应样本中提取出至少一个维度特征后，则可以形成用于训练中层级作弊用户识别模型的正样本，示例性地，广告反作弊系统将作弊用户、作弊用户点击广告的点击日志在至少一个维度的特征标记为正样本(步骤103)。

在一些实施例中，若广告反作弊系统还从非作弊用户对应样本中提取出至少一个维度的特征，则广告反作弊系统可以形成用于训练中层级作弊用户识别模型的负样本，示例性地，参见图3-2示出的本申请实施例中识别低层级作弊用户的一个可选的流程示意图，广告反作弊系统将非作弊用户、非作弊用户点击广告的点击日志在至少一个维度的特征标记为负样本(步骤107)。

接续对前述步骤进行说明，当广告反作弊系统形成用于训练中层级作弊用户识别模型的正样本后，将正样本输入中层级作弊用户识别模型以对中层级作弊用户识别模型的模型参数进行训练(步骤104)。在一些实施例中，若广告反作弊系统还形成了用于训练中层级作弊用户识别模型的负样本，则将负样本连同正样本共同输入待训练的中层级作弊用户识别模型，以提升中层级作弊用户识别模型的识别精度，缩短训练过程。

以下对利用样本(正样本和负样本)对中层级作弊用户识别模型的训练进行说明，中层级作弊用户识别模型可以视为由一系列函数形成的从所提取的至少一个维度的特征到用户的识别结果(是否为中层级作弊用户)的映射，一个可选的示例为：

识别结果＝f(a*特征1+b*特征2)；

其中，特征1和特征2为用于训练的样本(正样本和负样本之一)的特征，模型参数a、b用于控制特征1、特征2的权重，中层级作弊用户识别模型的训练过程就是不断优化调整模型参数a/b的过程，实际应用中模型参数的数量可以为两个或多个，且使用的特征的数量也不存在限制。

那么，在一个实施例中，为了验证中层级作弊用户识别模型的识别精度是否达到实用需求，广告反作弊系统可以利用先验的数据库(其中包括作弊用户、非作弊用户、以及点击日志的特征)测试中层级作弊用户识别模型的识别作弊用户的精度(也即是正确率)，识别精度未达到预设精度时，利用对模型参数进行调整处理，直至中层级作弊用户识别模型的精度达到预设精度。

接续对前述的步骤进行说明，在广告反作弊系统训练中层级作弊用户识别模型之后，则可以利用训练后的中层级作弊用户识别模型识别中层级作弊用户。广告反作弊系统从广告系统获取待识别的样本(步骤105)，待识别的样本数据结构可以参照前述表2和表3，包括待识别用户以及待识别用户的点击日志，广告反作弊系统从待识别样本中提取对应前述至少一个维度的特征，输入训练后的作弊用户识别模型，基于中层级作弊用户识别模型输出的识别结果(是否为中层级作弊用户)确定待识别的样本中的中层级作弊用户(步骤106)。

在一些实施例中，参见图3-2，当广告反作弊系统从待识别样本中识别出中层级作弊用户后，还对中层级作弊用户的点击量进行过滤(步骤108)，并将过滤后的中层级作弊用户的点击量更新至广告系统(步骤109)，使广告系统的计费端利用更新后的广告的点击量结合计费策略进行广告投放的计费，由于在广告的点击量已经对中层级作弊用户的点击量进行了过滤，确保了广告的点击量是由用户的常规点击操作形成的，保证广告点击量的准确性和真实性，避免了对广告主的广告计费不准确的问题。

示例性地，广告反作弊系统对中层级作弊用户的点击量进行过滤时有多种方式，以下结合不同过滤方式进行说明。

过滤方式1)按照预定比例对中层级作弊用户的点击量进行过滤，以中层级作弊用户的点击量为a，预定比例为70％为例，则过滤后中层级作弊用户的点击量被更新为a*30％，特别地，当预定比例为100％时，中层级作弊用户的点击量被清零。

过滤方式2)将中层级作弊用户的点击量中未超出点击量阈值的点击量按照比例进行过滤，或者全部过滤也就是将中层级作弊用户的点击量清零；将中层级作弊用户的点击量中超过点击量阈值后的点击量按照预定比例过滤，超出点击量阈值的点击量越多，则过滤比例越大。

再结合图4示出的训练中层级作弊用户识别模型、以及利用中层级作弊用户识别模型识别中层级作弊用户的一个可选的实现示意图，包括模型训练和模型使用两个阶段，下面分别进行说明。

1)模型训练

训练的正样本来源于广告任务平台的点击日志，训练的负样本来源于正常功能APP(已知未存在作弊用户的APP)的点击日志，

中层级作弊用户长期分散的、有间歇的点击广告。

针对这一特性，基于正样本和负样本提取了6个特征：一周的点击量、一周点击过广告的天数、一周点击过广告的小时数、一周平均的相邻点击时间差、一周线上识别的作弊比例、一周的点击量与一周点击过广告的小时数的比例。基于这6个特征，训练逻辑斯蒂回归(Logistic Regression)模型来判断用户是否是中层级作弊用户。

2)模型使用

训练得到逻辑斯蒂回归模型的模型参数之后，基于从广告系统获取的待识别用户的一周内点击广告的点击日志，提取待识别用户的一周内点击广告的点击日志的特征，并选取出如上的6个特征输入逻辑斯蒂回归模型，逻辑斯蒂回归(Logistic Regression)模型输出待识别用户是中层级作弊用户还是正常用户(非作弊用户)的作弊识别结果。

三、识别高层级作弊用户

发明人在实施本申请实施例的过程中发现，高层级作弊用户使用(如开发)特定的应用来产生虚假的流量，该特定应用本身并不具有为用户提供服务(如媒体服务、社交服务)的功能，仅仅是利用自身封装的程序模拟不同的用户来点击特定流量方的广告位中的广告，以产生虚假的流量，也就是说该特定应用是专用于产生虚假流量的应用，其中的用户全部是高层级作弊用户。一旦能够识别出一个应用是高层级作弊用户所使用的特定应用，则可将该特定应用中的全部用户都识别为高层级作弊用户。

另外，发明人在实施本申请实施例的过程中发现，高层级作弊用户在使用特定应用进行广告作弊的过程中，所模拟的点击广告的用户在很多维度的特征非常接近，也就是相关度很高，而正常用户(非作弊用户)在不同维度的特征则具有离散的特点，也就是相关度很低。

基于此，本申请实施例中识别高层级作弊用户时以应用为单位，对应用中的用户是否为高层级作弊用户进行整体的一次性识别：对待识别的应用中的全部用户在多个维度的相似程度进行判断，一旦相似度较高则将该待识别的应用识别为高层级作弊用户所使用的特定应用，相应地，将该识别样本应用中的全部用户识别为高层级作弊用户，下面结合流程图进行说明。

参见图5示出的本申请实施例中识别高层级作弊用户的一个可选的流程示意图，以下对各步骤进行说明。

本申请实施例中广告反作弊系统使用高层级作弊用户识别模型识别高层级作弊用户，为此，广告反作弊系统需要形成可用的样本对高层级作弊用户识别模型进行训练，如前，对于高层级作弊用户的识别是以应用为单位(对一个应用的用户是否为高层级作弊用户进行一次性识别)，相应地，广告反作弊系统获取以应用为单位的样本(简称为应用样本)构成的样本集合(步骤201)，样本集合中的每个应用样本与一个应用对应，并且，至少一个应用样本与已知存在高作弊用户的应用对应，以供广告反作弊系统用以形成对高层级作弊用户识别模型进行训练的正样本。另外，可选地，样本集合中还可以包括未知是否存在高层级作弊用的应用对应的应用样本，称为无标记的应用样本。

在一些实施例中，应用样本中包括与应用对应的各种信息，应用样本的一个可选的数据结构如表4所示：

表4

如表4所示，示例性地，每个应用样本与一个应用对应，包括所对应应用的以下信息至少之一：

1)应用的每个用户在应用中点击广告的点击日志。

点击日志从不同的记录应用中的每个用户点击广告的操作的相关信息。示例性地，点击日志包括以下信息：

1.1)用户在统计时段在应用的广告位中点击的广告。

用户点击的广告以广告系统侧为广告分配的序列号(ID)来区分，或者，以广告系统侧的为广告分配的类别标签来区分。

示例性地，用户在统计时间段点击的广告，可以为用户在应用的所有广告位中的点击的广告的记录，如采用广告1、广告2、广告3这样的形式记录。

又或者，用户在统计时间段点击的广告为用户在应用的不同广告位中点击的广告的记录，如采用这样的方式来记录：广告位1-广告1-广告2、广告2-广告3-广告4。

1.2)用户在统计时段内在应用的广告位所点击广告的点击量。

示例性地，用户在统计时段内在应用的广告位中点击广告的点击量，为用户在统计时段内在应用的广告位点击广告的次数的总量。

例如，用户在统计时段(如一周)在应用的广告位内点击了广告1、广告2和广告3共3个广告，相应的点击次数为2次、3次和4次，则在统计时段的点击量为9(2+3+5)。

示例性地，用户在统计时段内在应用的广告位点击广告的点击量，还可以是用户在统计时段内在应用的广告位点击同一广告的次数的总量，又或者，为用户在统计时段(如一周)的各个时间周期(小于统计时段，如一天或一小时)内在应用的广告位点击同一广告的次数的总量。

例如，用户在统计时段的第一个时间周期在应用的广告位点击了广告1、广告2和广告3共3个广告，相应的点击次数为2次、3次和4次，用户在统计时段的第二个时间周期在应用的广告位点击了广告1、广告2和广告3共3个广告，相应的点击次数为2次、3次和4次，则用户在统计时段对应广告1、广告2和广告3的点击量为4(2+2)、6(3+3)、8(4+4)。

1.3)用户在统计时段内在应用中的广告位点击广告的时间。

示例性地，用户在统计时段内在应用中的广告位点击广告的时间，为用户在统计时段内在应用的广告位点击广告的总的时长。

例如，假设应用中具有广告位1和广告位2两个广告位，在统计时段内，用户在广告位1中点击广告的时长为T1，用户在广告位2中点击广告的时长为T2，则用户在统计时段内在应用的广告位点击广告的总的时长为T1+T2。

或者，用户在统计时段内在应用中的广告位点击广告的时间，也可以为用户在每个广告位点击广告的时长，如前述的用户在广告位1点击广告的时长T1，以及用户在广告位2点击广告的时长T2。

1.4)用户在统计时段内点击广告的广告位的类型。

以应用中的广告位为例，广告位的类型包括：

开屏广告位，在应用开启画面后在应用的内容加载前，应用的界面中用户显示广告的位置。

插屏广告位，在应用的内容加载的过程在应用的界面中插入广告的位置。

Banner广告位，应用中用户停留较久(停留时间超出停留时间阈值)的页面，或应用中用户访问比较频繁的页面中用于呈现广告的位置，如页面的边缘(顶部区域、底部区域等)。

2)应用的每个用户在应用的广告位中点击广告的曝光日志。

曝光日志用以记录应用的每个用户在应用的广告位点击的广告所曝光的对象，如应用的名称、商品的名称、页面的地址等。

3)应用的每个用户在应用中点击广告的效果日志。

如前，效果日志包括应用中的每个用户点击广告后针对广告的曝光对象所达到的广告效果。

以广告的曝光对象为应用为例，广告效果可以为以下之一：用户开始下载应用；应用下载完成；应用在用户的设备安装；应用在用户的设备激活使用；用户在用户的设备中删除了应用。

再以广告的曝光对象为在线销售的商品为例，效果日志中记录的针对广告的广告效果可以为：用户针对商品下订单；用户支付订单；用户撤销订单。

4)应用的每个用户所使用的设备的信息。

示例性地，设备的信息可以为设备的硬件信息如设备的型号、设备剩余空间、设备的剩余电量等。

当然，设备的软件信息可以为设备所使用的通信运营商、设备使用的操作系统(类型和型号)和设备的联网方式等信息。另外设备的信息还可以是设备的位置(如经纬度)等、设备的移动速度等信息。

需要指出的是，在本申请实施例中使用的与应用样本所包括的信息不仅限于以上所示，本领域的技术人员可以轻易对上述应用样本包括的信息进行变形或延伸，从而实施出不同于上述应用样本所包括的信息，这里不再一一说明。

接续对前述步骤进行说明，在广告反作弊系统获取到样本集合后，对于每个应用样本，广告反作弊系统解析出应用样本中任意两个用户在至少一个维度的特征的相关度(步骤202)，特征所采用的维度根据应用样本中所包括的信息的类型选取，以下对不同维度的特征的相关度举例说明。

在一些实施例中，可以采用如下维度的特征的相关度：

1)应用中任意两个用户在应用中点击广告的操作的特征的相关度。

用户在应用的广告位中点击广告的特征可以采用如用户在应用中点击的位置(或频率)、下载广告所曝光应用的次数和访问广告所曝光网页的次数等。

2)应用中任意两个用户在应用样本中点击的广告所曝光的对象的相关度。

3)应用中任意两个用户点击广告所使用的设备的信息的相关度。

应用的用户所使用设备的相关度可以采用硬件信息、软件信息，设备的位置、设备的移动速度等维度的相关度。

以硬件信息的相关度为例，可以采用用户使用的设备在设备剩余空间、设备的剩余电量等方面的差值的相关度。

4)应用中任意两个用户点击所点击广告的广告效果的相关度。

对于样本集合中的样本应用，若样本应用为已知存在高层级作弊用户的应用，那么该应用中任意两个用户在上述维度的相似度均为100％。若样本应用为未知是否存在高层级作弊用户的应用，则该应用任意两个用户在上述维度的相似度均为0％。

例如，设已知一个存在高层级作弊用户的APP，将APP内的任意两个用户的组合、以及这两个用户的相似度作为正样本，且这个APP内用户两两之间的相似度总是100％。假设APP内存在4个用户A、B、C、D，则一共有6条正样本，即为：(A,B:100％；A,C:100％；A,D:100％；B,C:100％；B,D:100％；C,D:100％)。

对于未知是否存在高层级作弊用户的APP，把这个APP内的任意两个用户、以及这两个用户的相似度作为无标记样本，且这个APP内任意两个用户之间的相似度总是0％。假设APP内存在4个用户A、B、C、D，则一共有6条正样本，即为：(A,B:0％；A,C:0％；A,D:0％；B,C:0％；B,D:0％；C,D:0％)。

接续对前述步骤进行说明，对于每个样本应用，在广告反作弊系统解析出任意样本应用的任意两个用户在至少一个维度的特征的相关度之后，将已知包括有高层级作弊用户的应用样本、以及应用样本任意两个用户对应至少一个维度的相关度标记为正样本(步骤203)，将正样本输入作弊用户识别模型以对作弊用户识别模型中的模型参数进行训练(步骤204)。

在一个实施例中，广告反作弊系统还利用样本集合中无标记应用样本中任意两个用户、以及这两个用户在上述维度的相似度(0％)形成对高层级作弊用户识别模型进行训练的无标记样本，将无标记样本连同正样本输入高层级作弊用户识别模型(步骤210)，基于高层级作弊用户识别模型通过迭代的方式选取无标记样本标记为正样本以增加正样本的数量，当样本集合中的被标记为正样本的应用样本的数量稳定(多次迭代后正样本的数量不再增加)后，将样本集合中剩余的无标记的应用样本标记为负样本，其中负样本中任意两个用户的相关度为0％。

高层级作弊用户识别模型可以视为由一系列函数形成，目的在于构成从输入应用样本到应用样本的平均相关度的映射，一个可选的示例为：

应用样本的平均相关度＝f(c*特征3+b*特征4)；

其中，特征3和特征4为用于训练的样本(正样本和负样本之一)的特征，模型参数a、b用于控制特征3、特征3的权重，高层级作弊用户识别模型的训练过程就是不断优化调整模型参数c/d，使输出的平均相似度更加精确的过程，实际应用中模型参数的数量可以为两个或多个，且使用的特征的数量也不存在限制。

接续对前述步骤进行说明，在广告反作弊系统对高层级作弊用户识别模型训练完成后，将待识别应用上述至少一个维度的特征输入高层级作弊用户识别模型(步骤205)，获取作弊用户识别模型输出的待识别应用中的用户与至少一个维度对应的相关度，将任意两个用户在至少一个维度的特征的相关度取平均值，得到应用样本与至少一个维度对应的平均相关度(步骤206)。

以应用1的用户包括用户1、用户2和用户3为例，在设备信息相似度维度任意两个用户的相似度设为s1、s2和s3，则应用1在设备信息相似维度的平均相似度为(s1+s2+s3)/3。

基于平均相关度进行高层级作弊用户的识别：(步骤207)：将平均相关度与平均相关度阈值进行比较，若输出的平均相关度高于平均相关度阈值，表明待识别应用中用户的特征极其接近，将待识别应用判定为高层级作弊用户进行广告作弊所使用的应用，待识别应用中的全部用户均识别为高层级作弊用户。从而，对待识别应用的用户是否为高层级作弊用户进行一次性地高效判决。

在一些实施例中，当广告反作弊系统从待识别样本中识别出高层级作弊用户后，还对高层级作弊用户的点击量进行过滤(步骤208)，并将过滤后的高层级作弊用户的点击量更新至广告系统(步骤209)，使广告系统的计费端利用更新后的广告的点击量结合计费策略进行广告投放的计费，由于在广告的点击量已经对高层级作弊用户的点击量进行了过滤，确保了广告的点击量是由用户的常规点击操作形成的，从而确保了广告点击量的准确性和真实性，避免针对广告主投放广告的计费数据的精确性因中层级用户的产生的点击量而受到影响。

示例性地，广告反作弊系统对高层级作弊用户的点击量进行过滤时有多种方式，例如，按照预定比例对高层级作弊用户的点击量进行过滤，以高层级作弊用户的点击量为a，预定比例为70％为例，则过滤后高层级作弊用户的点击量被更新为a*30％，特别地，当预定比例为100％时，高层级作弊用户的点击量被清零。

再结合图6示出的训练高层级作弊用户识别模型、以及利用高层级作弊用户识别模型识别高层级作弊用户的一个可选的实现示意图。

高层级作弊用户是伪造作弊APP并使用作弊APP进行广告作弊的用户群体，通常在高层级作弊用户在作弊APP上具有集中性。常规的APP(如社交APP)不存在高层级作弊用户，而作弊APP中的用户全都是高层级作弊用户。由于单个作弊用户的点击次数不多，需要利用作弊用户群体的特征相关度来识别。对于存在高层级作弊用户群体的APP，其最明显的特征是：该APP内的用户在设备信息以及曝光、点击和效果方面的特征相似度非常高。针对这一特性，将待识别的APP内用户全部设备信息和所有曝光日志、点击日志和效果日志综合在一起，提取不同维度的特征计算用户之间的特征的相似度。然后，根据APP内用户的平均相似度与预设的平均相似度阈值来判断该APP内是否存在高层级作弊用户群体，预设的平均相似度阈值可以从对常规APP的用户之间的特征的相似度平均值。

在计算任意两个用户之间的相似度时，使用的特征如下：

设备信息相关的特征：两个用户设备型号的相似度、设备剩余空间差值、经纬度相似度、运营商相似度、联网方式相似度等特征；

曝光、点击和效果相关的特征：两个用户曝光APP的相似度、曝光次数的差值、点击APP的相似度、点击次数的差值、点击坐标的相似度、下载APP的相似度、下载次数的差值等特征。

基于上述特征训练了一个梯度提升回归树(Gradient Boosting Regression Tree)模型来计算待识别应用的用户在至少一个维度的平均相似度。

对梯度提升回归树模型来初始训练的正样本来源于应用样本的样本集合中已知存在高层级作弊用户的APP的数据(包括曝光日志、点击日志、效果日志、用户设备信息)，初始训练无标记的样本来源于应用样本的样本集合中剩余的APP。通过正例和无标记样本学习(Positive-Unlabeled Learning)的方法不断迭代增加正样本的数量，训练结果稳定后，也就是样本集合中正样本的数量稳定后，样本集合中剩余的无标记样本就作为负样本。利用正样本和负样本对梯度提升回归树模型进行训练。

训练得到的模型用于待识别应用的用户之间的相似度，根据待识别应用内用户的平均相似度来判断该待识别应用是否存在高层级作弊用户群体。对待识别应用的识别结果可以更新至样本集合不断累积训练样本，从而完成对梯度提升回归树模型的自动修正。

在一些实施例中，考虑到广告反作弊装置需要对不同层级的作弊用户进行权全面地识别，相应地，参见图7示出的广告反作弊系统进行作弊用户识别的一个可选的流程示意图，主要包括有两个流程：

1)线上实时判罚：黑名单策略过滤黑名单中用户的点击；

预先维护包括有低层级作弊用户的黑名单，其中包括有低层级的作弊用户的标识，从广告系统实施获取的点击日志提取出当前正在点击广告的用户的标识，与黑名单中低层级作弊用户的标识匹配，一旦匹配成功，则确定当前点击广告的用户为低层级作弊用户，并对低层级作弊用户的点击量进行过滤。

2)线下延迟重判：

2.1)如前第一部分章节，广告反作弊系统利用统计型策略对低层级作弊用户的点击量中未超出点击量阈值的部分进行过滤。

2.2)如前第二部分章节，广告反作弊系统利用低层级作弊用户识别策略识别中层级作弊用户，并过滤中层级作弊用户的点击量。

2.3)如前第三部分章节，广告反作弊系统利用高层级作弊用户识别策略识别高层级作弊用户，并过滤高层级作弊用户的点击量。

从图7中可以看出，广告反作弊系统根据作弊用户不同的作弊手段和异常行为，将作弊用户分为低层级作弊用户、中层级作弊用户和高层级作弊用三个层级，对于每种层级的作弊用户采用对应的方式进行识别，对作弊用户进行分层次地、全面性地识别，不存在遗漏识别的问题。同时，对于识别出的作弊用户针对广告的点击量采用相应的广告进行过滤，确保了统计的广告效果的真实可靠性。

本申请实施例提供的广告反作弊装置可以独立实施于服务器中，抑或是以广告反作弊系统的方式分散实施于服务器集群中，广告反作弊系统的一个可选的功能架构示意图如图8所示，包括：样本模块10、提取模块20、模型训练模块30、模型应用模块40、统计模块50和判罚模块60。

结合图9示出的广告反作弊系统分层级识别作弊用户的示意图进行说明。

一、低层级作弊用户识别

1)线上实时判罚

1.1)黑名单策略

统计模块50预先维护了包括有低层级作弊用户的黑名单，其中包括有低层级的作弊用户的标识，从广告系统实施获取的点击日志提取出当前正在点击广告的用户的标识，与黑名单中低层级作弊用户的标识匹配，一旦匹配成功，则确定当前点击广告的用户为低层级作弊用户(低层级作弊结果)。

1.2)统计型策略

统计模块50从广告系统获取的点击日志统计，当统计出用户点击广告的次数超出点击量阈值时，将用户识别为低层级作弊用户。

判罚模块60对低层级的作弊用户的点击量进行过滤并反馈至广告系统。在一个示例中，对超过点击量阈值后的点击量按照预定比例过滤，超出点击量阈值的点击量越多，则过滤比例越大。

1.3)线下延迟重判

2)线下延迟重判

判罚模块60对低层级的作弊用户的点击量中未超出点击量阈值的点击量按照预定比例进行过滤，或者全部过滤也就将低层级作弊用户的点击量清零；一般地，线下延迟重判方式中使用的预定比例大于统计型策略中所使用的预定比例，从而对低层级作弊用户的点击量中未超出点击量阈值的部分点击量(这部分点击量被恶意触发产生的概率较未超出点击量阈值的部分点击量更大)进行更大程度过滤。

二、中层级作弊用户识别

样本模块10获取样本集合，样本集合中的至少一个样本包括作弊用户、以及作弊用户点击广告的点击日志；

提取模块20从样本集合的样本中提取与作弊用户的层级对应的至少一个维度的特征，其中，每一个作弊用户对应一个层级，不同层级作弊用户所对应的维度不同。

模型训练模块30和模型应用模块40共同实施中层级作弊用户识别策略。

模型训练模块30将作弊用户、作弊用户点击广告的点击日志在至少一个维度的特征标记为正样本，至少基于正样本对与作弊用户的层级对应的作弊用户识别模型进行训练；

模型应用模块40确定待识别的样本对应至少一个维度的特征；将待识别样本对应至少一个维度的特征输入训练后的作弊用户识别模型，识别出待识别的样本中的作弊用户(中层级反作弊结果)。

提取模块20解析样本集合中的点击日志对应得到与点击广告的操作相关联的特征。

其中，与点击广告的操作相关联的特征包括以下至少一个维度的特征：

在统计时段内的点击量；

在统计时段内点击过广告的时间周期的数量；

在统计时段中点击广告的间隔时间的平均值；

统计时段内识别的作弊用户的历史比例；

统计时段内所点击过广告的时间周期中点击广告的平均点击量。

模型训练模块30采用如下方式进行训练：将正样本输入作弊用户识别模型以对作弊用户识别模型中的模型参数进行训练；测试作弊用户识别模型的识别作弊用户的精度，识别精度未达到预设精度时对模型参数进行调整处理，直至作弊用户识别模型的精度达到预设精度；其中，作弊用户的点击日志为作弊用户执行广告任务平台中广告任务所对应的点击日志。

模型训练模块30还可结合负样本与正样本共同训练：将非广告作弊用户、非作弊用户的点击广告的点击日志对应至少一个维度的特征标记为负样本；将负样本连同正样本输入作弊用户识别模型以对作弊用户识别模型中的模型参数进行训练；其中，样本集合中的至少一个样本包括非作弊用户、以及非作弊用户点击广告的点击日志，非作弊用户的点击日志为非作弊用户在应用中点击广告所对应的点击日志。

三、高层级作弊用户识别

样本模块10形成的样本集合中的样本为与不同的应用对应的应用样本，至少一个应用样本为已知存在高层级作弊用户的应用对应，每个应用样本包括所对应应用的以下维度的信息至少之一：

应用的用户在应用中点击广告的点击日志；

应用的用户在应用中点击广告的曝光日志；

应用的用户在应用中点击广告的效果日志；

应用的用户所使用的设备的信息。

提取模块20解析应用样本中任意两个用户对应至少一个维度的相关度；确定应用样本与至少一个维度对应的平均相关度，其中，与一个维度对应的平均相关度为应用样本的任意两个用户对应维度的特征的相关度的平均值。

模型训练模块30将已知包括有高层级作弊用户的应用样本、以及应用样本对应至少一个维度的平均相关度标记为正样本；将正样本输入作弊用户识别模型以对作弊用户识别模型中的模型参数进行训练。

模型训练模块30将样本集合中无标记应用样本(样本集合中未知存在高层级作弊用户的应用样本)、应用样本对应至少一个维度的平均相关度作为无标记应用样本、无标记应用样本中任意两个用户对应至少一个维度的相关度作为无标记样本，将无标记样本连同正样本输入作弊用户识别模型，以对作弊用户识别模型的模型参数进行训练，直至输入作弊用户识别模型的无标记样本中被作弊用户识别模型标记为正样本的数量处于稳定状态。

模型应用模块40获取作弊用户识别模型输出的待识别应用中任意两个用户与至少一个维度对应的相关度，确定待识别应用中用户与至少一个维度对应的平均相关度；当平均相关度超出平均相关度阈值时判定待识别应用中的用户为高层级作弊用户(高层级作弊识别结果)。

综上，本申请实施例具有以下有益效果：

1)在线下采用延迟处理的方式对中层级作弊用户进行识别，即采用逻辑斯蒂回归模型在线下识别中层级作弊用户，并对中层级作弊用户的点击量进行过滤，确保统计的广告的点击量的准确性；

2)在线下采用延迟处理的方式对高层级作弊用户进行识别，即采用梯度提升回归树模型识别高层级作弊用户，并对高层级作弊用户的点击量进行过滤，确保统计的广告的点击量的准确性；

3)线上实时判罚的方式，能够对低层级作弊用户进行实时识别，并对低层级作弊用户的点击量进行实时过滤，保证了在需要实时获取广告点击量的需求场景中，能够对低层级作弊用户的点击量进行有效过滤。同时，

4)线下延迟重判能够覆盖识别每个层级的作弊用户，从而保证了对作弊用户的点击进行全面过滤。

如图10所示，其示出了本申请实施例所涉及的广告反作弊系统的结构示意图，具体来讲：

该广告反作弊系统可以包括一个或者一个以上处理核心的处理器101、一个或一个以上计算机可读存储介质的存储器102、图10中示出的广告反作弊系统结构并不构成对广告反作弊系统的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器101是该广告反作弊系统的控制中心，通过运行或执行存储在存储器102内的软件程序和/或模块，以及调用存储在存储器102内的数据，执行广告反作弊系统的各种功能和处理数据，从而对广告反作弊系统进行整体监控。可选的，处理器101可包括一个或多个处理核心；优选的，处理器101可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器51中。

存储器102可用于存储软件程序以及模块，处理器101通过运行存储在存储器102的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器102可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据服务器的使用所创建的数据等。此外，存储器102可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器102还可以包括存储器控制器，以提供处理器101对存储器102的访问。

尽管未示出，广告反作弊系统还可以包括输入装置，RF电路，电源，显示单元，摄像头、蓝牙模块等，在此不再赘述。具体在本实施例中，广告反作弊系统中的处理器101会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器102中，并由处理器101来运行存储在存储器102中的应用程序，从而实现各种功能，如下：

获取样本集合，其中，所述样本集合中的至少一个样本包括作弊用户、以及所述作弊用户点击广告的点击日志；

从所述样本集合的样本中提取与作弊用户层级对应的至少一个维度的特征，其中，每一个作弊用户对应一个层级，不同层级作弊用户所对应的特征不同；

基于所述作弊用户、所述作弊用户点击广告的点击日志对应所述至少一个维度的特征形成正样本，至少基于所述正样本对与作弊用户的层级对应的作弊用户识别模型进行训练；

确定待识别的样本对应所述至少一个维度的特征；

将所述待识别样本对应所述至少一个维度的特征输入训练后的所述作弊用户识别模型，基于输出结果识别出所述待识别的样本中的作弊用户。

以上各操作的实现方法具体可参见上述实施例，此处不再赘述。

本申请实施例所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式，所述存储介质包括但不限于U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁盘存储器、CD-ROM、光学存储器等。

本申请是根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括实施例以及落入本申请范围的所有变更和修改。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

一种广告反作弊方法，其特征在于，所述方法包括：

广告反作弊装置获取样本集合，其中，所述样本集合中的至少一个样本包括作弊用户、以及所述作弊用户点击广告的点击日志；

广告反作弊装置从所述样本集合的样本中提取与作弊用户层级对应的至少一个维度的特征，其中，每一个作弊用户对应一个层级，不同层级作弊用户所对应的特征不同；

广告反作弊装置基于所述作弊用户、所述作弊用户点击广告的点击日志对应所述至少一个维度的特征形成正样本，至少基于所述正样本对与作弊用户的层级对应的作弊用户识别模型进行训练；

广告反作弊装置确定待识别的样本对应所述至少一个维度的特征；以及

广告反作弊装置将所述待识别样本对应所述至少一个维度的特征输入训练后的所述作弊用户识别模型，基于输出结果识别出所述待识别的样本中的作弊用户。
根据权利要求要求1所述的方法，其特征在于，

所述样本集合中的样本为与应用对应的应用样本，至少一个所述应用样本为已知存在第一层级作弊用户的应用，每个所述应用样本包括所对应应用的以下维度的信息至少之一：

所述应用的用户在所述应用中点击广告的点击日志；

所述应用的用户在所述应用中点击广告的曝光日志；

所述应用的用户在所述应用中点击广告的效果日志；以及

所述应用的用户所使用的设备的信息；

所述从样本中提取与待识别的作弊用户的层级对应的至少一个维度的特征，包括：

解析出所述应用样本中所包括的用户、以及所述应用样本中任意两个用户在以下至少一个维度的相关度：

所述应用中任意两个用户在应用中点击广告的操作的特征的相关度；

所述应用中任意两个用户在所述应用中点击的广告所曝光对象的相关度；

所述应用中任意两个用户点击广告所使用的设备的信息的相关度；以及

所述应用中任意两个用户点击所点击广告的广告效果的相关度。
根据权利要求要求2所述的方法，其特征在于，所述基于所述作弊用户、所述作弊用户点击广告的点击日志在所述至少一个维度的特征形成所述正样本，至少基于所述正样本对与待识别的作弊用户的层级对应的作弊用户识别模型进行训练，包括：

将已知包括有所述第一层级作弊用户的所述应用样本、以及所述应用样本中任意两个用户在所述至少一个维度的特征的相关度标记为所述正样本；以及

将所述正样本输入第一层级作弊用户识别模型，基于输入的正样本对所述第一层级作弊用户识别模型中的模型参数进行训练。
根据权利要求要求2所述的方法，其特征在于，所述基于所述作弊用户、所述作弊用户点击广告的点击日志在所述至少一个维度的特征标记正样本，至少基于所述正样本对与待识别的作弊用户的层级对应的作弊用户识别模型进行训练，包括：

基于所述样本集合中的无标记应用样本、所述无标记应用样本中任意两个用户对应至少一个所述维度的相关度形成无标记样本，基于所述无标记样本和所述正样本对第一层级作弊用户识别模型的模型参数进行训练，直至，输入所述第一层级作弊用户识别模型的所述无标记样本中被所述第一层级作弊用户识别模型标记为正样本的数量处于稳定状态；

其中，所述无标记应用样本为所述样本集合中未知存在高层级作弊用户的应用样本。
根据权利要求要求2所述的方法，其特征在于，所述待识别样本为待识别应用；所述基于输出结果识别出所述待识别的样本中的作弊用户，包括：

获取第一层级作弊用户识别模型输出的所述待识别应用中任意两个用户在至少一个所述维度对应的相关度，确定待识别应用中用户在至少一个所述维度对应的平均相关度；以及

当所述平均相关度超出平均相关度阈值时判定所述待识别应用中的用户为第一层级作弊用户。
根据权利要求要求1所述的方法，其特征在于，所述从样本集合的样本中提取与待识别的作弊用户的层级对应的至少一个维度的特征，包括：

提取出所述样本集合中的点击日志中对应点击广告的操作数据；

解析所提取的操作数据对应得到与点击广告的操作相关联的特征；

其中，与点击广告的操作相关联的特征包括以下至少一个维度的特征：

在统计时段内的点击量；

在所述统计时段内点击过广告的时间周期的数量；

在所述统计时段中点击广告的间隔时间的平均值；

所述统计时段内识别的作弊用户的历史比例；以及

所述统计时段内所点击过广告的时间周期中广告的平均点击量。
根据权利要求要求6所述的方法，其特征在于，所述至少基于所述正样本对与待识别的作弊用户的层级对应的作弊用户识别模型进行训练，包括：

将所述正样本输入第二层级作弊用户识别模型，基于输入的正样本对所述第二层级作弊用户识别模型中的模型参数进行训练；以及

测试所述第二层级作弊用户识别模型的识别作弊用户的精度，识别精度未达到预设精度时对所述模型参数进行调整处理，直至所述第二层级作弊用户识别模型的精度达到预设精度；

其中，所述作弊用户的点击日志为所述作弊用户执行广告任务平台中广告任务所对应的点击日志。
根据权利要求要求7所述的方法，其特征在于，所述方法还包括：

所述样本集合中的至少一个样本包括非作弊用户、以及所述非作弊用户点击广告的点击日志，所述非作弊用户的点击日志用于记录所述非作弊用户在应用中点击广告的操作；

将所述非广告作弊用户、所述非作弊用户的点击广告的点击日志对应所述至少一个维度的特征标记为负样本；以及

将所述负样本连同所述正样本输入所述第二层级作弊用户识别模型，基于输入的正样本和负样本对所述第二层级作弊用户识别模型中的模型参数进行训练。
根据权利要求要求1所述的方法，其特征在于，

所述方法还包括：

当点击广告的用户的标识与预设的第三层级作弊用户的标识匹配时，将所述点击广告的用户识别为所述第三层级作弊用户；

或者，

获取点击广告的用户在统计时段中点击广告的次数，当点击广告的次数超出点击量阈值时，将所述点击广告的用户识别为所述第三层级作弊用户；

所述方法还包括：

对所述作弊用户的点击量进行过滤，过滤方式包括以下至少之一：

对所述作弊用户的点击量中超出点击量阈值之外的点击量进行过滤；

对所述作弊用户的点击量中未超出点击量阈值的点击量进行过滤。
一种广告反作弊装置，其特征在于，所述装置包括：

样本模块，用于获取样本集合，其中，所述样本集合中的至少一个样本包括作弊用户、以及所述作弊用户点击广告的点击日志；

提取模块，用于从所述样本集合的样本中提取与作弊用户的层级对应的至少一个维度的特征，其中，每一个作弊用户对应一个层级，不同层级的作弊用户所对应的特征不同；

模型训练模块，用于基于所述作弊用户、所述作弊用户点击广告的点击日志对应所述至少一个维度的特征形成正样本，至少基于所述正样本对与待识别的作弊用户的层级对应的作弊用户识别模型进行训练；以及

模型应用模块，用于确定待识别的样本对应所述至少一个维度的特征；将所述待识别样本对应所述至少一个维度的特征输入训练后的所述作弊用户识别模型，基于输出结果识别出所述待识别的样本中的作弊用户。
根据权利要求要求10所述的装置，其特征在于，

所述样本集合中的样本为与应用对应的应用样本，至少一个所述应用样本为已知存在第一层级作弊用户的应用，每个所述应用样本包括所对应应用的以下维度的信息至少之一：

所述应用的用户在所述应用中点击广告的点击日志；

所述应用的用户在所述应用中点击广告的曝光日志；

所述应用的用户在所述应用中点击广告的效果日志；以及

所述应用的用户所使用的设备的信息；

所述样本模块，还用于解析出所述应用样本中所包括的用户、以及所述应用样本中任意两个用户在以下至少一个维度的相关度：

所述应用中任意两个用户在应用中点击广告的操作的特征的相关度；

所述应用中任意两个用户在所述应用中点击的广告所曝光对象的相关度；

所述应用中任意两个用户点击广告所使用的设备的信息的相关度；以及

所述应用中任意两个用户点击所点击广告的广告效果的相关度。
根据权利要求要求11所述的装置，其特征在于，

所述模型训练模块，还用于将已知包括有所述第一层级作弊用户的所述应用样本、以及所述应用样本中任意两个用户在所述至少一个维度的特征的相关度标记为所述正样本；将所述正样本输入第一层级作弊用户识别模型，基于输入的正样本对所述第一层级作弊用户识别模型中的模型参数进行训练。
根据权利要求要求11所述的装置，其特征在于，

所述模型训练模块，还用于基于所述样本集合中的无标记应用样本、所述无标记应用样本中任意两个用户对应至少一个所述维度的相关度形成无标记样本，基于所述无标记样本和所述正样本对第一层级作弊用户识别模型的模型参数进行训练，直至，输入所述第一层级作弊用户识别模型的所述无标记样本中被所述第一层级作弊用户识别模型标记为正样本的数量处于稳定状态；

其中，所述无标记应用样本为所述样本集合中未知存在高层级作弊用户的应用样本。
根据权利要求要求11所述的装置，其特征在于，

所述模型应用模块，还用于获取第一层级作弊用户识别模型输出的待识别应用中任意两个用户在至少一个所述维度对应的相关度，确定待识别应用中用户在至少一个所述维度对应的平均相关度；以及

当所述平均相关度超出平均相关度阈值时判定所述待识别应用中的用户为第一层级作弊用户。
根据权利要求要求10所述的装置，其特征在于，

所述提取模块，还用于提取出所述样本集合中的点击日志中对应点击广告的操作数据；以及

解析所提取的操作数据对应得到与点击广告的操作相关联的特征；

其中，与点击广告的操作相关联的特征包括以下至少一个维度的特征：

在统计时段内的点击量；

在所述统计时段内点击过广告的时间周期的数量；

在所述统计时段中点击广告的间隔时间的平均值；

所述统计时段内识别的作弊用户的历史比例；以及

所述统计时段内所点击过广告的时间周期中广告的平均点击量。
根据权利要求要求15所述的装置，其特征在于，

所述模型训练模块，还用于将所述正样本输入第二层级作弊用户识别模型，基于输入的正样本对所述第二层级作弊用户识别模型中的模型参数进行训练；测试所述第二层级作弊用户识别模型的识别作弊用户的精度，识别精度未达到预设精度时对所述模型参数进行调整处理，直至所述第二层级作弊用户识别模型的精度达到预设精度；

其中，所述作弊用户的点击日志为所述作弊用户执行广告任务平台中广告任务所对应的点击日志。
根据权利要求要求16所述的装置，其特征在于，

所述模型训练模块，还用于将非广告作弊用户、所述非作弊用户的点击广告的点击日志对应所述至少一个维度的特征标记为负样本；以及

将所述负样本连同所述正样本输入所述第二层级作弊用户识别模型，基于所述正样本和所述负样本对所述第二层级作弊用户识别模型中的模型参数进行训练；

其中，所述样本集合中的至少一个样本包括所述非作弊用户、以及所述非作弊用户点击广告的点击日志，所述非作弊用户的点击日志用于记录所述非作弊用户在应用中点击广告的操作；

其中，所述待识别样本为所述待识别应用。
根据权利要求要求10所述的装置，其特征在于，

所述装置还包括：

统计模块，用于当点击广告的用户的标识与预设的第三层级作弊用户的标识匹配时，将所述点击广告的用户识别为所述第三层级作弊用户；或者，获取点击广告的用户在统计时段中点击广告的次数，当点击广告的次数超出点击量阈值时，将所述点击广告的用户识别为所述第三层级作弊用户；

所述装置还包括：

判罚模块，用于对所述作弊用户的点击量进行过滤，过滤方式包括以下至少之一：

对所述作弊用户的点击量中超出点击量阈值之外的点击量进行过滤；以及

对所述作弊用户的点击量中未超出点击量阈值的点击量进行过滤。
一种非易失性存储介质，用于存储一个或多个计算机程序，其中，所述计算机程序包括具有一个或多个存储器的处理器可运行的指令，所述指令被计算机执行时，使得所述计算机执行以下操作：

获取样本集合，其中，所述样本集合中的至少一个样本包括作弊用户、以及所述作弊用户点击广告的点击日志；

从所述样本集合的样本中提取与作弊用户层级对应的至少一个维度的特征，其中，每一个作弊用户对应一个层级，不同层级作弊用户所对应的特征不同；

基于所述作弊用户、所述作弊用户点击广告的点击日志对应所述至少一个维度的特征形成正样本，至少基于所述正样本对与作弊用户的层级对应的作弊用户识别模型进行训练；

确定待识别的样本对应所述至少一个维度的特征；以及

将所述待识别样本对应所述至少一个维度的特征输入训练后的所述作弊用户识别模型，基于输出结果识别出所述待识别的样本中的作弊用户。