WO2019134307A1

WO2019134307A1 - 恶意用户识别方法、装置及可读存储介质

Info

Publication number: WO2019134307A1
Application number: PCT/CN2018/084636
Authority: WO
Inventors: 王璐; 陈少杰; 张文明
Original assignee: 武汉斗鱼网络科技有限公司
Priority date: 2018-01-02
Filing date: 2018-04-26
Publication date: 2019-07-11
Also published as: CN108174296A; CN108174296B

Abstract

本公开一种恶意用户识别方法、装置及可读存储介质，所述方法包括：获取多个用户的弹幕发送行为特征；根据所述弹幕发送行为特征，计算所述多个用户中每两个用户之间的相似程度值；将所述恶意用户的嫌疑程度值设置为第一初始嫌疑值，将所述待识别用户的嫌疑程度值设置为第二初始嫌疑值；针对每个用户，根据该用户当前的所述嫌疑程度值及该用户与其他用户之间的所述相似程度值，通过概率图模型对该用户的所述嫌疑程度值进行迭代计算；在经过多次所述迭代计算之后，将所述嫌疑程度值大于一个嫌疑度阈值的待识别用户作为恶意用户。如此，根据待识别用户与已确定的恶意用户在的弹幕发送行为特征上的关联，可以有效筛选出恶意行为特征不明显的恶意用户。

Description

恶意用户识别方法、装置及可读存储介质

相关申请的交叉引用

本申请要求于2018年01月02日提交中国专利局的申请号为2018100007598名称为“恶意用户识别方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本公开涉及大数据处理技术领域，具体而言，涉及一种恶意用户识别方法及、装置及可读存储介质。

背景技术

直播平台是一种互联网社交平台，为主播用户提供了展示视频直播渠道及与其他用户线上交互的渠道。在直播平台上，常存在一些恶意用户通过不正当手段谋求不正当的利益。例如，视频直播平台通过用户对主播的关注反映主播的影响力和关注度，但恶意用户会可能通过营造大量虚假关注获得利益，这会破坏直播平台的生态平衡，损害其他正常用户的利益。针对这种情况，需要对恶意用户进行识别，以屏蔽或显示这些恶意用户在直播平台上的行为。

目前，现有技术在进行恶意用户识别时，为了防止将正常用户识别为恶意用户，常采用较为严格的规则，将具有明显恶意行为特征的用户作为恶意用户。该方式虽然在一定程度上发现并屏蔽这些恶意用户，但是这样会遗漏一些恶意行为特征不明显的恶意用户。

发明内容

本公开的目的包括，提供一种恶意用户识别方法，所述方法包括：

获取多个用户的弹幕发送行为特征，其中，所述多个用户中包括至少一个已确定的恶意用户及除所述恶意用户之外的待识别用户；

根据所述弹幕发送行为特征，计算所述多个用户中每两个用户之间的相似程度值；

将所述恶意用户的嫌疑程度值设置为第一初始嫌疑值，将所述待识别用户的嫌疑程度值设置为第二初始嫌疑值，其中，所述第一初始嫌疑值高于第二初始嫌疑值；

针对每个用户，根据该用户当前的所述嫌疑程度值及该用户与其他用户之间的所述相似程度值，通过概率图模型对该用户的所述嫌疑程度值进行迭代计算；

在经过多次所述迭代计算之后，将所述嫌疑程度值大于一个嫌疑度阈值的待识别用户作为恶意用户。

可选地，在上述方法中，所述将所述嫌疑程度值大于一个嫌疑度阈值的待识别用户作为恶意用户的步骤，包括：

计算得到所述多个用户的嫌疑程度值的经验分布函数；

在所述经验分布函数上将上升斜率超过预设上升阈值的点对应的嫌疑程度值作为所述嫌疑度阈值；

将所述待识别用户中嫌疑程度值大于所述嫌疑度阈值的用户作为恶意用户。

可选地，在上述方法中，所述通过概率图模型对该用户的所述嫌疑程度值进行迭代计算的步骤，包括：

通过概率图模型对每个用户的所述嫌疑程度值进行所述迭代计算；

针对每个用户，计算在执行本轮迭代计算前后所述嫌疑程度值的变化程度；

在每个用户对应的所述嫌疑程度值的变化程度均小于预设变化阈值时，停止迭代计算。

可选地，在上述方法中，所述对该用户的所述嫌疑程度值进行迭代计算的步骤，包括：

通过概率图模型对每个用户的所述嫌疑程度值进行所述预设次数的迭代计算。

可选地，在上述方法中，所述弹幕发送行为特征包括用户发送弹幕的直播间的集合及至少一种弹幕发送动作统计值；所述根据各用户的所述弹幕发送行为特征，计算每两个用户之间的相似程度值的步骤，包括：

根据每两个用户发送弹幕的直播间的集合计算所述两个用户之间的第一相似参数；

根据所述两个用户的每种所述弹幕发送动作统计值计算所述两个用户之间的第二相似参数；

根据所述第一相似参数及第二相似参数计算所述两个用户中间的相似程度值。

可选地，在上述方法中，所述弹幕发送动作统计值的种类包括发送弹幕的数量、发送弹幕的时间段、发送弹幕的时间间隔、弹幕字数、弹幕中包含预设关键字的次数中的一种或多种。

可选地，在上述方法中，所述获取多个用户的弹幕发送行为特征，包括：按一预设获得时长，并在连续两次的预设获得时长之间以一预设时间间隔呈间断性的获取每个预设获得时长内多个用户的弹幕发送行为特征。

可选地，在上述方法中，所述获取多个用户的弹幕发送行为特征，包括：在确定获得的当前发送弹幕的数量大于预设的弹幕数量阈值时，获取多个用户的弹幕发送行为特征。

可选地，在上述方法中，所述通过概率图模型对该用户的所述嫌疑程度值进行迭代计算的公式为：

其中，S_k(i)为第i个用户在第k轮迭代计算中的嫌疑程度值，α为权重系数，α取值在0到1之间；w_ji是用户j和用户i之间的相似程度值。

可选地，在上述方法中，所述第一初始嫌疑值为1，第二初始嫌疑值为0。

特征获取模块，配置成获取多个用户的弹幕发送行为特征，其中，所述多个用户中包括至少一个已确定的恶意用户及除所述恶意用户之外的待识别用户；

相似度计算模块，配置成根据所述弹幕发送行为特征性，计算所述多个用户中每两个用户之间的相似程度值；

初始化模块，配置成将所述恶意用户的嫌疑程度值设置为第一初始嫌疑值，将所述待识别用户的嫌疑程度值设置为第二初始嫌疑值，其中，所述第一初始嫌疑值高于第二初始嫌疑值；

迭代计算模块，配置成针对每个用户，根据该用户当前的所述嫌疑程度值及与其他用户之间的所述相似程度值，通过概率图模型对该用户的所述嫌疑程度值进行迭代计算；

识别模块，配置成在经过多次所述迭代计算之后，将所述嫌疑程度值大于一个嫌疑度阈值的待识别用户作为恶意用户。

可选地，在上述装置中，所述识别模块，具体配置成计算得到所述多个用户的嫌疑程度值的经验分布函数；在所述经验分布函数上将上升斜率超过预设上升阈值的点对应的嫌疑程度值作为所述嫌疑度阈值；将所述待识别用户中嫌疑程度值大于所述嫌疑度阈值的用户作为恶意用户。

可选地，在上述装置中，所述迭代计算模块，具体配置成通过概率图模型对每个用户的所述嫌疑程度值进行所述迭代计算；针对每个用户，计算在执行本轮迭代计算前后所述嫌疑程度值的变化程度；在每个用户对应的所述嫌疑程度值的变化程度均小于预设变化阈值时，停止迭代计算。

可选地，在上述装置中，所述弹幕发送行为特征包括用户发送弹幕的直播间的集合及至少一种弹幕发送动作统计值；所述相似度计算模块，具体配置成根据每两个用户发送弹幕的直播间的集合计算所述两个用户之间的第一相似参数；根据所述两个用户的每种所述弹幕发送动作统计值计算所述两个用户之间的第二相似参数；根据所述第一相似参数及第二相似参数计算所述两个用户中间的相似程度值。

可选地，在上述装置中，所述特征获取模块，具体配置成按一预设获得时长，并在连续两次的预设获得时长之间以一预设时间间隔呈间断性的获取每个预设获得时长内多个用户的弹幕发送行为特征。

可选地，在上述装置中，所述特征获取模块，具体配置成在确定获得的当前发送弹幕的数量大于预设的弹幕数量阈值时，获取多个用户的弹幕发送行为特征。

本公开的目的还包括，提供一种可读存储介质，存储有可执行的指令，所述指令再被一个或多个处理器执行时，实现本公开提供的所述恶意用户识别方法。

相对于现有技术而言，本公开包括以下有益效果：

本公开提供的恶意用户识别方法及、装置及可读存储介质，通过采用概率图算法，根据已知恶意用户的弹幕发送行为特征与待识别用户的弹幕行为特征计算，计算得到待识别用户的嫌疑程度值，并根据所述嫌疑程度值识别出恶意用户。如此，根据待识别用户与已确定的恶意用户在的弹幕发送行为特征上的关联，可以有效筛选出恶意行为特征不明显的恶意用户。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本公开实施例提供的数据处理设备的示意图；

图2为本公开实施例提供的恶意用户识别方法的流程示意图；

图3为本公开实施例提供的恶意用户识别方法中步骤S120的子步骤示意图；

图4为本公开实施例提供的恶意用户识别装置的示意图。

图标：100-数据处理设备；110-恶意用户识别装置；111-特征获取模块；112-相似度计算模块；113-初始化模块；114-迭代计算模块；115-识别模块；120-存储器；130-处理器。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围，而是仅仅表示本公开的选定实施例。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行可选定义和解释。

在本公开的描述中，需要说明的是，术语“第一”、“第二”、“第三”等仅配置成区分描述，而不能理解为指示或暗示相对重要性。

此外，术语“水平”、“竖直”、“悬垂”等术语并不表示要求部件绝对水平或悬垂，而是可以稍微倾斜。如“水平”仅仅是指其方向相对“竖直”而言更加水平，并不是表示该结构一定要完全水平，而是可以稍微倾斜。

在本公开的描述中，还需要说明的是，除非另有明确的规定和限定，术语“设置”、“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本公开中的具体含义。

经发明人研究发现，恶意用户通常呈一个较多数量的团体出现，其中有一些具有明显恶意行为特征的用户，可能有一些具有不明显的恶意行为特征的用户。在一个团体中的恶意用户一般具有相同或相似的恶意行为模式，这些恶意行为模式可能不是明显的，但却是相关联的。

故在本实施例中，发明人提出一种通过概率图模型，对嫌疑程度值进行传播迭代计算的方式，其他将与已确定的恶意用户具有相同行为模式的恶意用户筛选出来，这样可以准确地识别与已确定的恶意用户相关的，具有不明显的恶意行为的用户。

请参照图1，图1是本公开较佳实施例提供的数据处理设备100的方框示意图。所述数据处理设备100包括恶意用户识别装置110、存储器120、处理器130。

所述存储器120及处理器130各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述恶意用户识别装置110包括至少一个可以软件或固件(firmware)的形式存储于所述存储器120中或固化在所述数据处理设备100的操作系统(operating system，OS)中的软件功能模块。所述处理器130配置成执行所述存储器120中存储的可执行模块，例如所述恶意用户识别装置110所包括的软件功能模块及计算机程序等。

其中，所述存储器120可以是，但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-Only Memory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)等。其中，存储器120配置成存储程序，所述处理器130在接收到执行指令后，执行所述程序。

所述处理器130可能是一种集成电路芯片，具有信号的处理能力。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本公开实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

请参照图2，图2为应配置成图1所示的数据处理设备100的一种应用信息获取方法的流程图，以下将对所述方法包括各个步骤进行详细阐述。

步骤S110，获取多个用户的弹幕发送行为特征，其中，所述多个用户中包括至少一个已确定的恶意用户及除所述恶意用户之外的待识别用户。

在本实施例中，所述弹幕发送行为特征可以包括用户发送弹幕的直播间的集合及至少一种弹幕发送动作统计值，所述弹幕发送动作统计值的种类包括发送弹幕的数量、发送弹幕的时间段、发送弹幕的时间间隔、弹幕字数、弹幕中包含预设关键字的次数中的一种或多种。

作为一种方式，数据处理设备获得该多个用户的弹幕发送行为特征的方式可以为，数据处理设备按一预设获得时长，并以预设时间间隔间断性的去获得该多个用户的弹幕发送行为特征的方式。例如，若预设获得时长为1分钟，而预设时间间隔为30秒，那么数据处理设备则在1分钟内持续的去获得该多个用户的弹幕发送行为特征，之后间断30秒钟的时长，并在间断30秒钟之后又继续在下一个1分钟的时长内获得该多个用户的弹幕发送行为特征，从而形成循环。可以理解到，采用该方式可以有效的降低数据处理设备对数据的处理量，在一定程度上可以达到降低功耗的效果。

作为另一种方式，数据处理设备获得该多个用户的弹幕发送行为特征的方式还可以为，数据处理设备可以对当前发送弹幕的数量进行监测，从而可以实时获得该当前发送弹幕的数量。而数据处理设备通过预先设置的一个弹幕数量阈值，则可以判断该当前发送弹幕的数量是否大于该弹幕数量阈值。在判断为不大于时，则说明此时各个用户在直播间内发生的弹幕数量并不够多，也就是直播间在当前的热度还不够高，进而出现恶意用户就更是小概率事件。因此，数据处理设备可以不做进一步的处理，并继续监测。在判断为大于时，则说明各个用户在直播间内发生的弹幕数量已经很多了，也就是直播间在当前的热度比较高，则有可能出现恶意用户，因此，数据处理设备则可以执行获取多个用户的弹幕发送行为特征。可以理解到，采用该方式使得数据处理设备在需要获取多个用户的弹幕发送行为特征时才执行该流程，从而也可以有效的降低数据处理设备对数据的处理量，并也在一定程度上可以达到降低功耗的效果。步骤S120，根据所述弹幕发送行为特征，计算所述多个用户中每两个用户之间的相似程度值。

在本实施例中，请参照图3，步骤S120可以包括子步骤S121-S123。

子步骤S121，根据每两个用户发送弹幕的直播间的集合计算所述两个用户之间的第一相似参数。

子步骤S122，根据所述两个用户的每种所述弹幕发送动作统计值计算所述两个用户之间的第二相似参数。

子步骤S123，根据所述第一相似参数及第二相似参数计算所述两个用户中间的相似程度值。

例如，在本实施例中，记用户u和用户v之间相似程度值为w_ji，则有

其中，Ru与Rv分别为用户u和用户v发弹幕的直播间的集合，xui用户u第i个所述弹幕发送动作统计值，xvi用户v第i个所述弹幕发送动作统计值,其中，所述弹幕发送动作统计值中有N个种类。w1与w2为权重系数，且满足w1+w2＝1。

基于上述的公式，可以清楚的知道，在式中，通过Ru与Rv来计算能够获得第一相似参数，而通过xui和xvi来计算则能够获得第二相似参数。再通过将权重系数w1与w2加入到第一相似参数和第二相似参数中进行计算，故可以在第一相似参数和第二相似参数获得一个相对平衡的相似程度值。也就是说，通过所赋值的权重系数w1和w2可以使获得的相似程度值更加准确，并且其权重系数w1和w2是根据实际情况所进行的选择，例如w1为0.8、而w2为0.2。当然，权重系数w1和w2的设定主要是根据发弹幕的直播间和发送弹幕的动作两者中哪一个更为重要。比如，在实际情况中，恶意用户的出现大多是在各个直播间均进行恶意的操作，那么发弹幕的直播间在判断中则更为重要，进而权重系数w1所占的比重则更高；反之，则权重系数w2比重更高。步骤S130，将所述恶意用户的嫌疑程度值设置为第一初始嫌疑值，将所述待识别用户的嫌疑程度值设置为第二初始嫌疑值，其中，所述第一初始嫌疑值高于第二初始嫌疑值。

在本实施例中，通过嫌疑程度值表征用户可能为恶意用户的程度，并通过概率图模型对所述程度值进行多次迭代计算，使所述嫌疑程度值更加准确。

在进行迭代计算之前，需要先对每个用户设置一个初始嫌疑值，再次初始嫌疑值的基础上进行迭代计算，在本实施例中，由于所述恶意用户的身份是已确定的，故将所述恶意用户的嫌疑程度值设置为一个较大的第一初始嫌疑值(如，设置为1)，并将所述待识别用户的嫌疑程度值设置为一各与所述第一初始嫌疑值先比较小的第二初始嫌疑值(如，设置为0)。

进一步的，本实施例还可以判断根据规则确定出的具有明显恶意的恶意用户的数量是否大于预先设置的一恶意用户数量阈值。在判断为否时，则说明此时具有明显恶意的明显恶意用户的数量非常少，进而不明显的恶意行为的用户可能相应的也比较少，那么在此时进行后续的算法运算则显得不太必要，不仅没有太大效果，却导致功耗很高。因此，在判断为否时，数据处理设备可以终止后续流程的执行。反之，在判断为是时，则说明此时具有明显恶意的明显恶意用户的数量很多，进而不明显的恶意行为的用户也可能很多，那么在此时进行后续的算法运算是非常必要的。因此，在判断为是时，数据处理设备可以继续执行后续的算法流程。

步骤S140，针对每个用户，根据该用户当前的所述嫌疑程度值及该用户与其他用户之间的所述相似程度值，通过概率图模型对该用户的所述嫌疑程度值进行迭代计算。

在本实施例中，针对每个用户，通过以下公式迭代计算该用户的嫌疑程度值，

其中，Sk(i)为第i个用户在第k轮迭代计算中的嫌疑程度值，α为权重系数，α取值在0到1之间；wji是用户j和用户i之间的相似程度值。

基于上述设计，利用嫌疑程度值在概率图模型计算中传播的思路，将用户间的相似程度值表征传播概率，实现根据用户之间的相关性将刷关注的嫌疑程度值在概率图上进行传播，通过不断地迭代用户的嫌疑程度值会趋于一个稳定的分布。

假设有三个用户A、B、C，通过强规则可以识别出A用户为恶意用户，而B和C待识别用户，并设置权重系数为0.8。其中用户间的相似程度值分别是：

w _AB＝0.5

w _AC＝0.1

w _BC＝0.2

初始化嫌疑度值为：

S ₀(A)＝1,S ₀(B)＝0,S ₀(C)＝0

在进行第一轮迭代计算时的结果为：

步骤S150，在经过多次所述迭代计算之后，将所述嫌疑程度值大于一个嫌疑度阈值的待识别用户作为恶意用户。

在本实施例的一种方式中，当各个用户的嫌疑程度值均收敛值一定程度时，停止迭代计算。

例如，所述数据处理设备针对每个用户，计算在执行本轮迭代计算前后所述嫌疑程度值的变化程度。在每个用户对应的所述嫌疑程度值的变化程度均小于预设变化阈值时，停止迭代计算。其中，所述变化阈值可以为先对前一次迭代结果的一个变化百分比。

在本实施例的一种方式中，预先设定一个预设次数，对每个用户的所述嫌疑程度值进行所述预设次数的迭代计算。如，进行10次迭代计算。

在完成多次迭代计算后，所述数据处理设备可以计算得到所述多个用户的嫌疑程度值的经验分布函数。在所述经验分布函数上将上升斜率超过预设上升阈值的点对应的嫌疑程度值作为所述嫌疑度阈值。如在所述经验分布函数上确定一个明显的拐点，所述经验分布函数在该拐点后出现明显上升，将该拐点对应的嫌疑程度值作为所述嫌疑度阈值。

然后，将所述待识别用户中嫌疑程度值大于所述嫌疑度阈值的用户作为恶意用户。

如此，通过本实施例提供的恶意用户识别方法，可以将具有明显恶意行为特征的恶意用户进行嫌疑程度值的传播计算，从而找到那些没有明确恶意行为特征的潜在风险用户。

请参照图4，本实施例还提供一种应配置成图1所示数据处理设备100的恶意用户识别装置110，所述装置包括特征获取模块111、相似度计算模块112、初始化模块113、迭代计算模块114及识别模块115。

所述特征获取模块111，配置成获取多个用户的弹幕发送行为特征，其中，所述多个用户中包括至少一个已确定的恶意用户及除所述恶意用户之外的待识别用户

本实施例中，所述特征获取模块111可配置成执行图2所示的步骤S110，关于所述特征获取模块111的具体描述可参对所述步骤S110的描述。

所述相似度计算模块112，配置成根据所述弹幕发送行为特征性，计算所述多个用户中每两个用户之间的相似程度值。

本实施例中，所述相似度计算模块112可配置成执行图2所示的步骤S120，关于所述相似度计算模块112的具体描述可参对所述步骤S120的描述。

所述初始化模块113，配置成将所述恶意用户的嫌疑程度值设置为第一初始嫌疑值，将所述待识别用户的嫌疑程度值设置为第二初始嫌疑值，其中，所述第一初始嫌疑值高于第二初始嫌疑值。

本实施例中，所述初始化模块113可配置成执行图2所示的步骤S130，关于所述初始化模块113的具体描述可参对所述步骤S130的描述。

所述迭代计算模块114，配置成针对每个用户，根据该用户当前的所述嫌疑程度值及与其他用户之间的所述相似程度值，通过概率图模型对该用户的所述嫌疑程度值进行迭代计算。

本实施例中，所述迭代计算模块114可配置成执行图2所示的步骤S140，关于所述迭代计算模块114的具体描述可参对所述步骤S140的描述。

所述识别模块115，配置成在经过多次所述迭代计算之后，将所述嫌疑程度值大于一个嫌疑度阈值的待识别用户作为恶意用户。

本实施例中，所述识别模块115可配置成执行图2所示的步骤S150，关于所述识别模块115的具体描述可参对所述步骤S150的描述。

综上所述，本公开提供的恶意用户识别方法及装置，通过采用概率图算法，根据已知恶意用户的弹幕发送行为特征与待识别用户的弹幕行为特征计算，计算得到待识别用户的嫌疑程度值，并根据所述嫌疑程度值识别出恶意用户。如此，根据待识别用户与已确定的恶意用户在的弹幕发送行为特征上的关联，可以有效筛选出恶意行为特征不明显的恶意用户。

在本公开所提供的实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本公开的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个配置成实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本公开各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述，仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应以权利要求的保护范围为准。

工业实用性

本公开实施例提供的恶意用户识别方法、装置及可读存储介质，通过采用概率图算法根据已知恶意用户的弹幕发送行为特征与待识别用户的弹幕行为特征计算，计算得到待识别用户的嫌疑程度值，并根据所述嫌疑程度值识别出恶意用户。如此，根据待识别用户与已确定的恶意用户在的弹幕发送行为特征上的关联，可以有效筛选出恶意行为特征不明显的恶意用户，避免了恶意用户被遗漏，保证了直播平台的安全性。

Claims

一种恶意用户识别方法，其特征在于，所述方法包括：

获取多个用户的弹幕发送行为特征，其中，所述多个用户中包括至少一个已确定的恶意用户及除所述恶意用户之外的待识别用户；

根据所述弹幕发送行为特征，计算所述多个用户中每两个用户之间的相似程度值；

将所述恶意用户的嫌疑程度值设置为第一初始嫌疑值，将所述待识别用户的嫌疑程度值设置为第二初始嫌疑值，其中，所述第一初始嫌疑值高于第二初始嫌疑值；

针对每个用户，根据该用户当前的所述嫌疑程度值及该用户与其他用户之间的所述相似程度值，通过概率图模型对该用户的所述嫌疑程度值进行迭代计算；

在经过多次所述迭代计算之后，将所述嫌疑程度值大于一个嫌疑度阈值的待识别用户作为恶意用户。
根据权利要求1所述的方法，其特征在于，所述将所述嫌疑程度值大于一个嫌疑度阈值的待识别用户作为恶意用户的步骤，包括：

计算得到所述多个用户的嫌疑程度值的经验分布函数；

在所述经验分布函数上将上升斜率超过预设上升阈值的点对应的嫌疑程度值作为所述嫌疑度阈值；

将所述待识别用户中嫌疑程度值大于所述嫌疑度阈值的用户作为恶意用户。
根据权利要求1所述的方法，其特征在于，所述通过概率图模型对该用户的所述嫌疑程度值进行迭代计算的步骤，包括：

通过概率图模型对每个用户的所述嫌疑程度值进行所述迭代计算；

针对每个用户，计算在执行本轮迭代计算前后所述嫌疑程度值的变化程度；

在每个用户对应的所述嫌疑程度值的变化程度均小于预设变化阈值时，停止迭代计算。
根据权利要求1所述的方法，其特征在于，所述对该用户的所述嫌疑程度值进行迭代计算的步骤，包括：

通过概率图模型对每个用户的所述嫌疑程度值进行预设次数的迭代计算。
根据权利要求1所述的方法，其特征在于，所述弹幕发送行为特征包括用户发送弹幕的直播间的集合及至少一种弹幕发送动作统计值；所述根据所述弹幕发送行为特征，计算所述多个用户中每两个用户之间的相似程度值的步骤，包括：

根据每两个用户发送弹幕的直播间的集合计算所述两个用户之间的第一相似参数；

根据所述两个用户的每种所述弹幕发送动作统计值计算所述两个用户之间的第二相似参数；

根据所述第一相似参数及第二相似参数计算所述两个用户中间的相似程度值。
根据权利要求1-5任一权项所述的方法，其特征在于，所述弹幕发送动作统计值的种类包括发送弹幕的数量、发送弹幕的时间段、发送弹幕的时间间隔、弹幕字数、弹幕中包含预设关键字的次数中的一种或多种。
根据权利要求6所述的方法，其特征在于，所述获取多个用户的弹幕发送行为特征，包括：

按一预设获得时长，并在连续两次的预设获得时长之间以一预设时间间隔呈间断性的获取每个预设获得时长内多个用户的弹幕发送行为特征。
根据权利要求7所述的方法，其特征在于，所述获取多个用户的弹幕发送行为特征，包括：

在确定获得的当前发送弹幕的数量大于预设的弹幕数量阈值时，获取多个用户的弹幕发送行为特征。
根据权利要求1-8任一权项所述的方法，其特征在于，所述通过概率图模型对该用户的所述嫌疑程度值进行迭代计算的公式为：

其中，Sk(i)为第i个用户在第k轮迭代计算中的嫌疑程度值，α为权重系数，α取值在0到1之间；wji是用户j和用户i之间的相似程度值。
根据权利要求1-9任一权项所述的方法，其特征在于，所述第一初始嫌疑值为1，第二初始嫌疑值为0。
一种恶意用户识别装置，其特征在于，所述装置包括：

特征获取模块，配置成获取多个用户的弹幕发送行为特征，其中，所述多个用户中包括至少一个已确定的恶意用户及除所述恶意用户之外的待识别用户；

相似度计算模块，配置成根据所述弹幕发送行为特征，计算所述多个用户中每两个用户之间的相似程度值；初始化模块，配置成将所述恶意用户的嫌疑程度值设置为第一初始嫌疑值，将所述待识别用户的嫌疑程度值设置为第二初始嫌疑值，其中，所述第一初始嫌疑值高于第二初始嫌疑值；

迭代计算模块，配置成针对每个用户，根据该用户当前的所述嫌疑程度值及与其他用户之间的所述相似程度值，通过概率图模型对该用户的所述嫌疑程度值进行迭代计算；

识别模块，配置成在经过多次所述迭代计算之后，将所述嫌疑程度值大于一个嫌疑度阈值的待识别用户作为恶意用户。
根据权利要求11所述的装置，其特征在于，所述识别模块，具体配置成计算得到所述多个用户的嫌疑程度值的经验分布函数；在所述经验分布函数上将上升斜率超过预设上升阈值的点对应的嫌疑程度值作为所述嫌疑度阈值；将所述待识别用户中嫌疑程度值大于所述嫌疑度阈值的用户作为恶意用户。
根据权利要求11所述的装置，其特征在于，所述迭代计算模块，具体配置成通过概率图模型对每个用户的所述嫌疑程度值进行所述迭代计算；针对每个用户，计算在执行本轮迭代计算前后所述嫌疑程度值的变化程度；在每个用户对应的所述嫌疑程度值的变化程度均小于预设变化阈值时，停止迭代计算。
根据权利要求11所述的装置，其特征在于，所述弹幕发送行为特征包括用户发送弹幕的直播间的集合及至少一种弹幕发送动作统计值；所述相似度计算模块，具体配置成根据每两个用户发送弹幕的直播间的集合计算所述两个用户之间的第一相似参数；根据所述两个用户的每种所述弹幕发送动作统计值计算所述两个用户之间的第二相似参数；根据所述第一相似参数及第二相似参数计算所述两个用户中间的相似程度值。
根据权利要求11或14任一权项所述的装置，其特征在于，所述特征获取模块，具体配置成按一预设获得时长，并在连续两次的预设获得时长之间以一预设时间间隔呈间断性的获取每个预设获得时长内多个用户的弹幕发送行为特征。
根据权利要求11或14任一权项所述的装置，其特征在于，所述特征获取模块，具体配置成在确定获得的当前发送弹幕的数量大于预设的弹幕数量阈值时，获取多个用户的弹幕发送行为特征。
一种可读存储介质，其特征在于，存储有可执行的指令，所述指令在被一个或多个处理器执行时，实现权利要求1-10任意一项所述的恶意用户识别方法。