WO2021098327A1

WO2021098327A1 - 基于隐私数据保护的异常采集行为识别方法和装置

Info

Publication number: WO2021098327A1
Application number: PCT/CN2020/111725
Authority: WO
Inventors: 徐文浩
Original assignee: 支付宝(杭州)信息技术有限公司
Priority date: 2019-11-22
Filing date: 2020-08-27
Publication date: 2021-05-27
Also published as: TWI743773B; TW202121215A; CN110826006B; CN110826006A

Abstract

一种基于隐私数据保护的异常采集行为识别以及场景分类模型的训练方法、装置及电子设备，该方法包括：获取目标轻量应用的页面内容数据、用户行为数据和所述目标轻量应用申请采集的隐私数据列表(S110)；将所述目标轻量应用的页面内容数据和用户行为数据作为场景分类模型的输入，以通过所述场景分类模型预测所述目标轻量应用的使用场景类别(S120)；基于所述目标轻量应用的使用场景类别对应的可采集的隐私数据列表和所述目标轻量应用申请采集的隐私数据列表，确定所述目标轻量应用是否存在异常采集行为(S130)。

Description

基于隐私数据保护的异常采集行为识别方法和装置

技术领域

本文件涉及计算机软件技术领域，尤其涉及一种基于隐私数据保护的异常采集行为识别方法、装置及电子设备。

背景技术

随着移动互联网技术的快速发展，应用程序的应用越来越广泛，小程序等轻量应用由于其能够被嵌入到第三方应用程序中，且无需下载安装，随时可用，也受到越来越广泛的应用。然而，现有的小程序在被打开时，往往会采集用户的隐私数据，且有些小程序还存在过度采集用户隐私数据的情况。

目前，对于这种情况，往往需要运营人员在接到用户对某一小程序的举报的前提下，或者通过系统发现了存在异常采集行为的小程序之后，通过运营人员人工判别这些小程序是否存在过度采集用户隐私数据的情况。因此，亟需一种针对小程序等轻量应用的异常采集行为的判别方法，以应对现有技术的上述问题。

发明内容

本说明书实施例的目的是提供一种基于隐私数据保护的异常采集行为识别以及场景分类模型的训练方法、装置及电子设备，以避免小程序等轻量应用对用户的隐私数据的过度采集情况。

为解决上述技术问题，本说明书实施例是通过以下方面实现的。

第一方面，提出了一种基于隐私数据保护的异常采集行为识别方法，包括：获取目标轻量应用的页面内容数据、用户行为数据和所述目标轻量应用申请采集的隐私数据列表；将所述目标轻量应用的页面内容数据和用户行为数据作为场景分类模型的输入，以通过所述场景分类模型预测所述目标轻量应用的使用场景类别；基于所述目标轻量应用的使用场景类别对应的可采集的隐私数据列表和所述目标轻量应用申请采集的隐私数据列表，确定所述目标轻量应用是否存在异常采集行为。

第二方面，提出了一种场景分类模型的训练方法，包括：获取多个轻量应用的页面内容数据、用户行为数据以及所述多个轻量应用的使用场景标签；从所述多个轻量应用的页面内容数据和用户行为数据中，提取所述多个轻量应用的使用场景特征；基于所述多个轻量应用的使用场景特征和对应的使用场景标签，训练得到场景分类模型，所述场景分类模型用于预测轻量应用的使用场景类别。

第三方面，提出了一种基于隐私数据保护的异常采集行为识别装置，包括：获取单元，获取目标轻量应用的页面内容数据、用户行为数据和所述目标轻量应用申请采集的隐私数据列表；预测单元，将所述目标轻量应用的页面内容数据和用户行为数据作为场景分类模型的输入，以通过所述场景分类模型预测所述目标轻量应用的使用场景类别；确定单元，基于所述目标轻量应用的使用场景类别对应的可采集的隐私数据列表和所述目标轻量应用申请采集的隐私数据列表，确定所述目标轻量应用是否存在异常采集行为。

第四方面，提出了一种场景分类模型的训练单元，包括：数据获取单元，获取多个轻量应用的页面内容数据、用户行为数据以及所述多个轻量应用的使用场景标签；特征提取单元，从所述多个轻量应用的页面内容数据和用户行为数据中，提取所述多个轻量应用的使用场景特征；模型训练单元，基于所述多个轻量应用的使用场景特征和对应的使用场景标签，训练得到场景分类模型，所述场景分类模型用于预测轻量应用的使用场景类别。

第五方面，提出了一种电子设备，该电子设备包括：处理器；以及被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行以下操作：获取目标轻量应用的页面内容数据、用户行为数据和所述目标轻量应用申请采集的隐私数据列表；将所述目标轻量应用的页面内容数据和用户行为数据作为场景分类模型的输入，以通过所述场景分类模型预测所述目标轻量应用的使用场景类别；基于所述目标轻量应用的使用场景类别对应的可采集的隐私数据列表和所述目标轻量应用申请采集的隐私数据列表，确定所述目标轻量应用是否存在异常采集行为。

第六方面，提出了一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行以下操作：获取目标轻量应用的页面内容数据、用户行为数据和所述目标轻量应用申请采集的隐私数据列表；将所述目标轻量应用的页面内容数据和用户行为数据作为场景分类模型的输入，以通过所述场景分类模型预测所述目标轻量应用的使用场景类别；基于所述目标轻量应用的使用场景类别对应的可采集的隐私数据列表和所述目标轻量应用申请采集的隐私数据列表，确定所述目标轻量应用是否存在异常采集行为。

第七方面，提出了一种电子设备，包括：处理器；以及被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行以下操作：获取多个轻量应用的页面内容数据、用户行为数据以及所述多个轻量应用的使用场景标签；从所述多个轻量应用的页面内容数据和用户行为数据中，提取所述多个轻量应用的使用场景特征；基于所述多个轻量应用的使用场景特征和对应的使用场景标签，训练得到场景分类模型，所述场景分类模型用于预测轻量应用的使用场景类别。

第八方面，提出了一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行以下操作：获取多个轻量应用的页面内容数据、用户行为数据以及所述多个轻量应用的使用场景标签；从所述多个轻量应用的页面内容数据和用户行为数据中，提取所述多个轻量应用的使用场景特征；基于所述多个轻量应用的使用场景特征和对应的使用场景标签，训练得到场景分类模型，所述场景分类模型用于预测轻量应用的使用场景类别。

由以上本说明书实施例提供的技术方案可见，本说明书实施例方案至少具备如下一种技术效果：本说明书提供的一种或多个实施例，能够获取目标轻量应用的页面内容数据、用户行为数据和目标轻量应用申请采集的隐私数据列表，再将目标轻量应用的页面内容数据和用户行为数据作为场景分类模型的输入，以通过场景分类模型预测目标轻量应用的使用场景类别，并能够基于目标轻量应用的使用场景类别对应的可采集的隐私数据列表和目标轻量应用申请采集的隐私数据列表，确定目标轻量应用是否存在异常采集行为。将小程序等轻量应用的异常采集行为的识别由被动核查转变为主动识别，且使用场景分类模型来识别使用场景类别，一方面提高了识别效率；另一方面保护了用户的隐私，给用户带来更安心的服务体验。

本说明书提供的一种或多个实施例，能够获取多个轻量应用的页面内容数据、用户行为数据以及多个轻量应用的使用场景标签，再从这多个轻量应用的页面内容数据和用户行为数据中，并能够基于多个轻量应用的使用场景特征和对应的使用场景标签，训练得到场景分类模型。这样再使用训练得到的场景分类模型对小程序等轻量应用的使用场景进行识别，一方面能够提高对小程序使用场景的识别效率，另一方面也节省了不必要的人力资源。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本说明书的一个实施例提供的一种基于隐私数据保护的异常采集行为识别方法的实施流程示意图。

图2是本说明书的一个实施例提供的一种场景分类模型的训练方法的实施流程示意图。

图3是本说明书的一个实施例提供的场景分类模型的训练方法应用在一种实际场景中的流程示意图。

图4是本说明书的一个实施例提供的一种基于隐私数据保护的异常采集行为识别装置的结构示意图。

图5是本说明书的一个实施例提供的一种场景分类模型的训练装置的结构示意图。

图6是本说明书的一个实施例提供的一种电子设备的结构示意图。

图7是本说明书的一个实施例提供的另一种电子设备的结构示意图。

具体实施方式

为使本说明书的目的、技术方案和优点更加清楚，下面将结合本说明书具体实施例及相应的附图对本说明书中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本文件一部分实施例，而不是全部的实施例。基于本文件中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本文件保护的范围。

以下结合附图，详细说明本说明书各实施例提供的技术方案。

为避免小程序等轻量应用对用户的隐私数据的过度采集情况，本说明书一个或多个实施例提供一种基于隐私数据保护的异常采集行为识别方法，能够获取目标轻量应用的页面内容数据、用户行为数据和目标轻量应用申请采集的隐私数据列表，再将目标轻量应用的页面内容数据和用户行为数据作为场景分类模型的输入，以通过场景分类模型预测目标轻量应用的使用场景类别，并能够基于目标轻量应用的使用场景类别对应的可采集的隐私数据列表和目标轻量应用申请采集的隐私数据列表，确定目标轻量应用是否存在异常采集行为。

这样便将小程序等轻量应用的基于隐私数据保护的异常采集行为识别由被动核查转变为主动识别，且使用场景分类模型来识别使用场景类别，一方面提高了识别效率；另一方面保护了用户的隐私，给用户带来更安心的服务体验。

应理解，本说明书实施例提供的基于隐私数据保护的异常采集行为识别方法的执行主体，可以但不限于服务器、电脑等能够被配置为执行本说明书实施例提供的该方法用户终端中的至少一种，或者，该方法的执行主体，还可以是能够执行该方法的客户端本身。

为便于描述，下文以该方法的执行主体为能够执行该方法的服务器为例，对该方法的实施方式进行介绍。可以理解，该方法的执行主体为服务器只是一种示例性的说明，并不应理解为对该方法的限定。

图1是本说明书的一个实施例提供的一种基于隐私数据保护的异常采集行为识别方法的实施流程示意图。图1的方法可包括步骤S110至S130。

S110，获取目标轻量应用的页面内容数据、用户行为数据和目标轻量应用申请采集的隐私数据列表；其中，目标轻量应用具体可以包括快应用、小程序、H5应用等即用户无需安装即可使用的轻量级应用程序。

其中，目标轻量应用的页面内容数据包括目标轻量应用的页面中的文字信息、实体类型以及对应的实体数量，该实体类型可以是页面中的各种物体，比如猫、狗、房子、车等实体。目标轻量应用中的用户行为数据包括用户在目标轻量应用的页面中的点击、滑动、支付、转发、输入等行为数据、以及用户所在的城市、用户的学历、年龄、职业等特征数据。目标轻量应用申请采集的隐私数据列表具体可以是目标轻量应用在被用户使用时，实际采集的用户的隐私数据列表，比如可以包括用户的身份证号、用户的手机号码、用户的性别、用户的头像、昵称等隐私数据。

S120，将目标轻量应用的页面内容数据和用户行为数据作为场景分类模型的输入，以通过场景分类模型预测目标轻量应用的使用场景类别；应理解，小程序等轻量应用在用户打开使用时，往往会采集用户的隐私数据，比如在聊天应用中打开购物类小程序时，则会提示用户将为其提供采集用户在该聊天应用中的头像、昵称、联系方式等隐私数据的权限。通常情况下，用户在打开小程序时，不会在意其打开的小程序是否会过度采集用户的隐私数据，这就导致很多小程序可能存在过度采集用户隐私数据的意图，从而恶意利用或贩卖用户的隐私数据达到额外获利的目的。

在这种情况下，为了避免用户的隐私数据被过度采集和利用，本说明书一个或多个实施例，可预先基于多个轻量应用的页面内容数据、用户行为数据和这些轻量应用的使用场景标签，训练得到场景分类模型，通过场景分类模型预测目标轻量应用的使用场景类别，并基于目标轻量应用的使用场景类别对应的可采集的隐私数据列表和目标轻量应用申请采集的隐私数据列表，确定目标轻量应用是否存在异常采集行为。

S130，基于目标轻量应用的使用场景类别对应的可采集的隐私数据列表和目标轻量应用申请采集的隐私数据列表，确定目标轻量应用是否存在异常采集行为。

其中，轻量应用的使用场景类别可包括购物类使用场景、购买火车票的使用场景、共享单车类使用场景、学习工具类的使用场景，等等，通常不同使用场景类别的轻量应用需要采集的用户隐私数据也会不同。比如购物类的轻量应用通常需要采集用户的购物账号、联系方式等隐私数据；购买火车票类的轻量应用则需要采集用户的身份证号、购票账号、联系方式等隐私数据；共享单车类轻量应用需要采集用户的登录账号、联系方式等隐私数据；学习工具类的轻量应用可能只需要采集用户的登录账号等隐私数据。

也就是说，依据不同使用场景类别的轻量应用实际申请采集的隐私数据列表、以及对应于不同使用场景类别的轻量应用可采集的隐私数据列表，便可以判断出轻量应用是否存在过度采集用户隐私数据的情况。

可选地，基于目标轻量应用申请采集的隐私数据列表和目标隐私数据采集列表，确定目标轻量应用是否存在异常采集行为，包括：若目标轻量应用申请采集的隐私数据列表和目标隐私数据采集列表一致，则确定目标轻量应用不存在异常采集行为；若目标轻量应用申请采集的隐私数据列表和目标隐私数据采集列表不一致，则确定目标轻量应用存在异常采集行为。

可选地，为了避免目标轻量应用过度采集用户的隐私数据，在确定目标轻量应用存在异常采集行为之后，该方法还包括：拦截目标轻量应用的隐私数据发送请求。

以目标轻量应用为购物类轻量应用为例，这类轻量应用在被用户打开并使用时，通常只需要采集用户的购物账号、联系方式、收货地址等隐私数据信息，显然，在用户进行购物时，通常情况下是不需要出示用户本人的身份信息的，比如身份证号码。若该购物应用又额外采集了用户的身份证号码这一隐私数据，则可以在基于目标轻量应用申请采集的隐私数据列表和目标隐私数据采集列表，确定目标轻量应用存在异常采集行为之后，拦截目标轻量应用针对其额外采集的隐私数据发送请求，或者拦截目标轻量应用的所有隐私数据的发送请求。

本说明书提供的一种或多个实施例，能够获取目标轻量应用的页面内容数据、用户行为数据和目标轻量应用申请采集的隐私数据列表，再将目标轻量应用的页面内容数据和用户行为数据作为场景分类模型的输入，以通过场景分类模型预测目标轻量应用的使用场景类别，并能够基于目标轻量应用的使用场景类别对应的可采集的隐私数据列表和目标轻量应用申请采集的隐私数据列表，确定目标轻量应用是否存在异常采集行为。将小程序等轻量应用的异常采集行为的识别由被动核查转变为主动识别，且使用场景分类模型来识别使用场景类别，一方面提高了识别效率；另一方面保护了用户的隐私，给用户带来更安心的服务体验。

图2是本说明书的一个实施例提供的一种场景分类模型的训练方法的实施流程示意图，包括步骤S210至S230。

S210，获取多个轻量应用的页面内容数据、用户行为数据以及多个轻量应用的使用场景标签。

其中，多个轻量应用的页面内容数据包括这多个轻量应用的页面中的文字信息、实体类型以及对应的实体数量，该实体类型可以是页面中的各种物体，比如猫、狗、房子、车等实体。多个轻量应用中的用户行为数据包括多个用户在这多个轻量应用的页面中的点击、滑动、支付、转发、输入等行为数据、以及这多个用户所在的城市、用户的学历、年龄、职业等特征数据。

多个轻量应用的使用场景标签为场景分类模型训练之前，通过人工或者机器打标的方式，对这多个轻量应用的使用场景标记对应的使用场景标签，比如购物类、购票类、学习工具类等等使用场景标签。

S220，从多个轻量应用的页面内容数据和用户行为数据中，提取多个轻量应用的使用场景特征。

应理解，轻量应用的页面内容数据中通常会包括文字类数据和图像类数据，为便于从文字类数据和图像类数据提取出对应的特征数据，本说明书一个或多个实施例可将图像类数据转换为文字类数据，再将所有的文字类数据进行拼接得到一个文本字段。具体地，从多个轻量应用的页面内容数据和用户行为数据中，提取多个轻量应用的使用场景特征，包括：从多个轻量应用的页面内容数据中，分别获取多个轻量应用的页面中的多个文字信息、以及多个轻量应用的页面中的实体类型和数量；分别将多个轻量应用的页面中的多个文字信息、以及多个轻量应用的页面中的实体类型和数量进行拼接，得到多个轻量应用对应的多个文本字段，其中，一个文本字段中由对应的轻量应用中的多个文字信息、实体类型的名称和对应的实体数量拼接得到；从多个轻量应用对应的多个文本字段和用户行为数据中，提取多个轻量应用的使用场景特征。

可选地，从多个轻量应用对应的多个文本字段和用户行为数据中，提取多个轻量应用的使用场景特征，包括：分别对多个轻量应用对应的多个文本字段进行数据预处理；分别将数据预处理操作后的多个轻量应用对应的多个文本字段，转换为对应的多个词向量；从多个词向量和所述多个轻量应用对应的用户行为数据中，提取多个轻量应用的使用场景特征；其中，数据预处理操作包括剔除停用词操作。

由于合并得到的多个文本字段中通常会存在一些没有实际意义的词和符合，比如“的”、“即使”、“以便”这种连接词，这些词对场景分类过程没有过多的价值和意义，这类词还会增加分类的计算量，因此，本说明书一个或多个实施例，在将多个应用对应的多个文本字段，转换为对应的多个词向量之前，还可以对这多个文本字段进行剔除停用词等数据预处理操作。

其中，分别将数据预处理操作后的多个轻量应用对应的多个文本字段，转换为对应的多个词向量，具体可以使用语料训练得到的词向量字典，或者开源版本的词向量字典，将数据预处理操作后的多个文本字段换换为对应的多个词向量。该词向量字典中包括多个词与词向量之间的映射关系，一个词向量对应于一组特征向量。

其中，用户行为数据对应的行为特征数据可通过统计分析的方式得到。从多个轻量应用对应的多个文本字段和用户行为数据中，提取多个轻量应用的使用场景特征，具体可以将多个文本字段对应的多个词向量和用户行为数据对应的行为特征数据进行合并，得到多个轻量应用的使用场景特征。

可选地，为了避免遗漏轻量应用的页面中的特征，本说明书一个或多个实施例可基于多个轻量应用的页面中的实体类型的名称和对应的数量，将各个实体类型的名称重复对应的数量的次数，再与轻量应用的页面中的文字信息进行拼接，得到各轻量应用的文本字段。具体地，分别将多个轻量应用的页面中的多个文字信息、以及多个轻量应用的页面中的实体类型和数量进行拼接，得到多个轻量应用对应的多个文本字段，包括：基于多个轻量应用的页面中的实体类型的名称和对应的数量，分别获取与多个轻量应用的页面中的实体类型相对应的文本字段，一个轻量应用的页面中的一个实体类型对应的文本字段包括对应的数量的实体类型的名称；基于分别将多个轻量应用的页面中的多个文字信息、以及与多个轻量应用的页面中的实体类型相对应的文本字段进行拼接，得到多个轻量应用对应的多个文本字段。

S230，基于多个轻量应用的使用场景特征和对应的使用场景标签，训练得到场景分类模型，该场景分类模型用于预测轻量应用的使用场景类别。

可选地，基于多个轻量应用的使用场景特征和对应的使用场景标签，训练得到场景分类模型，包括：通过多分类模型基于多个轻量应用的使用场景特征和对应的使用场景标签，训练得到场景分类模型。

其中，多分类模型具体可以包括xgboost模型，该xgboost模型具体是一种梯度提升树模型的开源实现，能够用于分类和回归任务。

下面以轻量应用为小程序为例，并结合图3所示的场景分类模型和场景分类模型的应用方法流程示意图，对本说明书实施例提供的场景分类模型的训练方法和基于隐私数据保护的异常采集行为识别方法进行详细介绍，包括以下步骤S301至S311。

S301，获取多个小程序的页面内容数据，该页面内容数据包括小程序页面中显示的文字信息和图像类数据，其中图像类数据中包括小程序页面中显示的实体类型和对应的数量；S302，获取多个小程序的用户行为数据，该用户行为数据包括用户对小程序页面的点击、滑动、跳转、输入、付款等行为数据。

S303，分别将这多个小程序的页面中的多个文字信息、以及多个小程序的页面中的实体类型和数量进行拼接，得到多个小程序对应的多个文本字段，并对这多个文本字段进行剔除停用词操作，以剔除这多个文本字段中的冗余信息，再基于预先设置的词向量字典将这多个文本字段转换为对应的多个词向量；其中，一个文本字段中由对应的小程序中的多个文字信息、实体类型的名称和对应的实体数量拼接得到，词向量字典中包括多个文本字段与词向量之间的对应关系，一个词向量对应于一组特征向量。

S304，基于多个小程序的用户行为数据，构造对应的多个行为特征数据；具体可以基于多个小程序的用户行为数据，统计分析得到用户的平均操作频次、操作时间段等特征数据，以及用户所在的城市、用户的年龄、学历职业等特征数据。

S305，对这多个小程序的使用场景数据进行人工打标，得到这多个小程序的使用场景标签，该使用场景标签用于表征小程序的使用场景类别相关的信息；S306，通过xgboost多分类模型基于多个小程序对应的多个词向量和行为特征数据，训练得到场景分类模型；S307，将目标小程序的页面内容数据和用户行为数据作为场景分类模型的输入，以通过场景分类模型预测目标小程序的使用场景类别。

S308，确定目标小程序的使用场景类别对应的隐私数据采集列表；S309，确定目标小程序申请采集的隐私数据列表；S310，将目标小程序的使用场景类别对应的隐私数据采集列表与其申请采集的隐私数据列表进行对比，判断出目标小程序是否存在异常采集行为；S311，若目标小程序的使用场景类别对应的隐私数据采集列表与其申请采集的隐私数据列表不一致，则确定目标小程序存在异常采集行为，并拦截目标小程序的隐私数据发送请求。

以目标小程序为购物类的小程序为例，该目标小程序的使用场景类别对应的隐私数据列表包括用户的手机号这一敏感信息，而若该目标小程序申请采集的隐私数据列表还包括身份证号等敏感信息时，则可以确定该目标小程序存在异常采集行为。在这种情况下，当目标小程序发送用户的隐私数据时，则可以拦截该目标小程序的隐私数据发送请求，从而避免其对用户的隐私数据的过度采集。

图4是本说明书的一个实施例提供的一种基于隐私数据保护的异常采集行为识别装置400的结构示意图。请参考图4，在一种软件实施方式中，基于隐私数据保护的异常采集行为识别装置400可包括：获取单元401，获取目标轻量应用的页面内容数据、用户行为数据和所述目标轻量应用申请采集的隐私数据列表；预测单元402，将所述目标轻量应用的页面内容数据和用户行为数据作为场景分类模型的输入，以通过所述场景分类模型预测所述目标轻量应用的使用场景类别；确定单元403，基于所述目标轻量应用的使用场景类别对应的可采集的隐私数据列表和所述目标轻量应用申请采集的隐私数据列表，确定所述目标轻量应用是否存在异常采集行为。

可选地，在一种实施方式中，所述确定单元403，用于：若所述目标轻量应用申请采集的隐私数据列表和所述目标隐私数据采集列表一致，则确定所述目标轻量应用不存在异常采集行为；若所述目标轻量应用申请采集的隐私数据列表和所述目标隐私数据采集列表不一致，则确定所述目标轻量应用存在异常采集行为。

可选地，在一种实施方式中，在所述确定单元403确定所述目标轻量应用存在异常采集行为之后，所述装置还包括：拦截单元，拦截所述目标轻量应用的隐私数据发送请求。

基于隐私数据保护的异常采集行为识别装置400能够实现图1的方法实施例的方法，具体可参考图1所示实施例的基于隐私数据保护的异常采集行为识别方法，不再赘述。

图5是本说明书的一个实施例提供的一种场景分类模型的训练装置500的结构示意图。请参考图5，在一种软件实施方式中，场景分类模型的训练装置500可包括：数据获取单元501，获取多个轻量应用的页面内容数据、用户行为数据以及所述多个轻量应用的使用场景标签；特征提取单元502，从所述多个轻量应用的页面内容数据和用户行为数据中，提取所述多个轻量应用的使用场景特征；模型训练单元503，基于所述多个轻量应用的使用场景特征和对应的使用场景标签，训练得到场景分类模型，所述场景分类模型用于预测轻量应用的使用场景类别。

可选地，在一种实施方式中，所述特征提取单元502，用于：从所述多个轻量应用的页面内容数据中，分别获取所述多个轻量应用的页面中的多个文字信息、以及所述多个轻量应用的页面中的实体类型和数量；分别将所述多个轻量应用的页面中的多个文字信息、以及所述多个轻量应用的页面中的实体类型和数量进行拼接，得到所述多个轻量应用对应的多个文本字段，其中，一个文本字段中由对应的轻量应用中的多个文字信息、实体类型的名称和对应的实体数量拼接得到；从所述多个轻量应用对应的多个文本字段和用户行为数据中，提取所述多个轻量应用的使用场景特征。

可选地，在一种实施方式中，所述特征提取单元502，用于：分别对所述多个轻量应用对应的多个文本字段进行数据预处理；分别将所述数据预处理操作后的所述多个轻量应用对应的多个文本字段，转换为对应的多个词向量；从所述多个词向量和所述多个轻量应用对应的用户行为数据中，提取所述多个轻量应用的使用场景特征；其中，所述数据预处理操作包括剔除停用词操作。

可选地，在一种实施方式中，所述特征提取单元502，用于：基于所述多个轻量应用的页面中的实体类型的名称和对应的数量，分别获取与所述多个轻量应用的页面中的实体类型相对应的文本字段，一个轻量应用的页面中的一个实体类型对应的文本字段包括对应的数量的实体类型的名称；基于分别将所述多个轻量应用的页面中的多个文字信息、以及与所述多个轻量应用的页面中的实体类型相对应的文本字段进行拼接，得到所述多个轻量应用对应的多个文本字段。

可选地，在一种实施方式中，所述模型训练单元503，用于：通过多分类模型基于所述多个轻量应用的使用场景特征和对应的使用场景标签，训练得到场景分类模型。

场景分类模型的训练装置500能够实现图2～图3的方法实施例的方法，具体可参考图2～图3所示实施例的场景分类模型的训练方法，不再赘述。

图6是本说明书的一个实施例电子设备的结构示意图。请参考图6，在硬件层面，该电子设备包括处理器，可选地还包括内部总线、网络接口、存储器。其中，存储器可能包含内存，例如高速随机存取存储器(Random-Access Memory，RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少1个磁盘存储器等。当然，该电子设备还可能包括其他业务所需要的硬件。

处理器、网络接口和存储器可以通过内部总线相互连接，该内部总线可以是ISA(Industry Standard Architecture，工业标准体系结构)总线、PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(Extended Industry Standard Architecture，扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图6中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

存储器，用于存放程序。具体地，程序可以包括程序代码，所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器，并向处理器提供指令和数据。

处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，在逻辑层面上形成基于隐私数据保护的异常采集行为识别装置。处理器，执行存储器所存放的程序，并具体用于执行以下操作：获取目标轻量应用的页面内容数据、用户行为数据和所述目标轻量应用申请采集的隐私数据列表；将所述目标轻量应用的页面内容数据和用户行为数据作为场景分类模型的输入，以通过所述场景分类模型预测所述目标轻量应用的使用场景类别；基于所述目标轻量应用的使用场景类别对应的可采集的隐私数据列表和所述目标轻量应用申请采集的隐私数据列表，确定所述目标轻量应用是否存在异常采集行为。

上述如本说明书图1～图3所示实施例揭示的基于隐私数据保护的异常采集行为识别装置执行的方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本说明书实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本说明书实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

该电子设备还可执行图1的方法，并实现基于隐私数据保护的异常采集行为识别装置在图1所示实施例的功能，本说明书实施例在此不再赘述。

本说明书实施例还提出了一种计算机可读存储介质，该计算机可读存储介质存储一个或多个程序，该一个或多个程序包括指令，该指令当被包括多个应用程序的便携式电子设备执行时，能够使该便携式电子设备执行图1所示实施例的方法，并具体用于执行以下操作：获取目标轻量应用的页面内容数据、用户行为数据和所述目标轻量应用申请采集的隐私数据列表；将所述目标轻量应用的页面内容数据和用户行为数据作为场景分类模型的输入，以通过所述场景分类模型预测所述目标轻量应用的使用场景类别；基于所述目标轻量应用的使用场景类别对应的可采集的隐私数据列表和所述目标轻量应用申请采集的隐私数据列表，确定所述目标轻量应用是否存在异常采集行为。

当然，除了软件实现方式之外，本说明书的电子设备并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

图7是本说明书的一个实施例电子设备的结构示意图。请参考图7，在硬件层面，该电子设备包括处理器，可选地还包括内部总线、网络接口、存储器。其中，存储器可能包含内存，例如高速随机存取存储器(Random-Access Memory，RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少1个磁盘存储器等。当然，该电子设备还可能包括其他业务所需要的硬件。

处理器、网络接口和存储器可以通过内部总线相互连接，该内部总线可以是ISA(Industry Standard Architecture，工业标准体系结构)总线、PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(Extended Industry Standard Architecture，扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，在逻辑层面上形成场景分类模型的训练装置。处理器，执行存储器所存放的程序，并具体用于执行以下操作：获取多个轻量应用的页面内容数据、用户行为数据以及所述多个轻量应用的使用场景标签；从所述多个轻量应用的页面内容数据和用户行为数据中，提取所述多个轻量应用的使用场景特征；基于所述多个轻量应用的使用场景特征和对应的使用场景标签，训练得到场景分类模型。

上述如本说明书图2和图3所示实施例揭示的场景分类模型的训练装置执行的方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本说明书实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本说明书实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

该电子设备还可执行图2和图3的方法，并实现场景分类模型的训练装置在图2和图3所示实施例的功能，本说明书实施例在此不再赘述。

本说明书实施例还提出了一种计算机可读存储介质，该计算机可读存储介质存储一个或多个程序，该一个或多个程序包括指令，该指令当被包括多个应用程序的便携式电子设备执行时，能够使该便携式电子设备执行图2所示实施例的方法，并具体用于执行以下操作：获取多个轻量应用的页面内容数据、用户行为数据以及所述多个轻量应用的使用场景标签；从所述多个轻量应用的页面内容数据和用户行为数据中，提取所述多个轻量应用的使用场景特征；基于所述多个轻量应用的使用场景特征和对应的使用场景标签，训练得到场景分类模型。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

总之，以上所述仅为本说明书的较佳实施例而已，并非用于限定本说明书的保护范围。凡在本说明书的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本说明书的保护范围之内。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

Claims

一种基于隐私数据保护的异常采集行为识别方法，包括：

获取目标轻量应用的页面内容数据、用户行为数据和所述目标轻量应用申请采集的隐私数据列表；

将所述目标轻量应用的页面内容数据和用户行为数据作为场景分类模型的输入，以通过所述场景分类模型预测所述目标轻量应用的使用场景类别；

基于所述目标轻量应用的使用场景类别对应的可采集的隐私数据列表和所述目标轻量应用申请采集的隐私数据列表，确定所述目标轻量应用是否存在异常采集行为。
如权利要求1所述的方法，基于所述目标轻量应用申请采集的隐私数据列表和所述目标隐私数据采集列表，确定所述目标轻量应用是否存在异常采集行为，包括：

若所述目标轻量应用申请采集的隐私数据列表和所述目标隐私数据采集列表一致，则确定所述目标轻量应用不存在异常采集行为；

若所述目标轻量应用申请采集的隐私数据列表和所述目标隐私数据采集列表不一致，则确定所述目标轻量应用存在异常采集行为。
如权利要求2所述的方法，在确定所述目标轻量应用存在异常采集行为之后，所述方法还包括：

拦截所述目标轻量应用的隐私数据发送请求。
一种场景分类模型的训练方法，包括：

获取多个轻量应用的页面内容数据、用户行为数据以及所述多个轻量应用的使用场景标签；

从所述多个轻量应用的页面内容数据和用户行为数据中，提取所述多个轻量应用的使用场景特征；

基于所述多个轻量应用的使用场景特征和对应的使用场景标签，训练得到场景分类模型，所述场景分类模型用于预测轻量应用的使用场景类别。
如权利要求4所述的方法，从所述多个轻量应用的页面内容数据和用户行为数据中，提取所述多个轻量应用的使用场景特征，包括：

从所述多个轻量应用的页面内容数据中，分别获取所述多个轻量应用的页面中的多个文字信息、以及所述多个轻量应用的页面中的实体类型和数量；

分别将所述多个轻量应用的页面中的多个文字信息、以及所述多个轻量应用的页面中的实体类型和数量进行拼接，得到所述多个轻量应用对应的多个文本字段，其中，一个文本字段中由对应的轻量应用中的多个文字信息、实体类型的名称和对应的实体数量拼接得到；

从所述多个轻量应用对应的多个文本字段和用户行为数据中，提取所述多个轻量应用的使用场景特征。
如权利要求5所述的方法，从所述多个轻量应用对应的多个文本字段和用户行为数据中，提取所述多个轻量应用的使用场景特征，包括：

分别对所述多个轻量应用对应的多个文本字段进行数据预处理；

分别将所述数据预处理操作后的所述多个轻量应用对应的多个文本字段，转换为对应的多个词向量；

从所述多个词向量和所述多个轻量应用对应的用户行为数据中，提取所述多个轻量应用的使用场景特征；

其中，所述数据预处理操作包括剔除停用词操作。
如权利要求5所述的方法，分别将所述多个轻量应用的页面中的多个文字信息、以及所述多个轻量应用的页面中的实体类型和数量进行拼接，得到所述多个轻量应用对应的多个文本字段，包括：

基于所述多个轻量应用的页面中的实体类型的名称和对应的数量，分别获取与所述多个轻量应用的页面中的实体类型相对应的文本字段，一个轻量应用的页面中的一个实体类型对应的文本字段包括对应的数量的实体类型的名称；

基于分别将所述多个轻量应用的页面中的多个文字信息、以及与所述多个轻量应用的页面中的实体类型相对应的文本字段进行拼接，得到所述多个轻量应用对应的多个文本字段。
如权利要求4所述的方法，基于所述多个轻量应用的使用场景特征和对应的使用场景标签，训练得到场景分类模型，包括：

通过多分类模型基于所述多个轻量应用的使用场景特征和对应的使用场景标签，训练得到场景分类模型。
一种基于隐私数据保护的异常采集行为识别装置，包括：

获取单元，获取目标轻量应用的页面内容数据、用户行为数据和所述目标轻量应用申请采集的隐私数据列表；

预测单元，将所述目标轻量应用的页面内容数据和用户行为数据作为场景分类模型的输入，以通过所述场景分类模型预测所述目标轻量应用的使用场景类别；

确定单元，基于所述目标轻量应用的使用场景类别对应的可采集的隐私数据列表和所述目标轻量应用申请采集的隐私数据列表，确定所述目标轻量应用是否存在异常采集行为。
一种场景分类模型的训练装置，包括：

数据获取单元，获取多个轻量应用的页面内容数据、用户行为数据以及所述多个轻量应用的使用场景标签；

特征提取单元，从所述多个轻量应用的页面内容数据和用户行为数据中，提取所述多个轻量应用的使用场景特征；

模型训练单元，基于所述多个轻量应用的使用场景特征和对应的使用场景标签，训练得到场景分类模型，所述场景分类模型用于预测轻量应用的使用场景类别。
一种电子设备，包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行以下操作：

获取目标轻量应用的页面内容数据、用户行为数据和所述目标轻量应用申请采集的隐私数据列表；

将所述目标轻量应用的页面内容数据和用户行为数据作为场景分类模型的输入，以通过所述场景分类模型预测所述目标轻量应用的使用场景类别；

基于所述目标轻量应用的使用场景类别对应的可采集的隐私数据列表和所述目标轻量应用申请采集的隐私数据列表，确定所述目标轻量应用是否存在异常采集行为。
一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行以下操作：

获取目标轻量应用的页面内容数据、用户行为数据和所述目标轻量应用申请采集的隐私数据列表；

将所述目标轻量应用的页面内容数据和用户行为数据作为场景分类模型的输入，以通过所述场景分类模型预测所述目标轻量应用的使用场景类别；

基于所述目标轻量应用的使用场景类别对应的可采集的隐私数据列表和所述目标轻量应用申请采集的隐私数据列表，确定所述目标轻量应用是否存在异常采集行为。
一种电子设备，包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行以下操作：

获取多个轻量应用的页面内容数据、用户行为数据以及所述多个轻量应用的使用场景标签；

从所述多个轻量应用的页面内容数据和用户行为数据中，提取所述多个轻量应用的使用场景特征；

基于所述多个轻量应用的使用场景特征和对应的使用场景标签，训练得到场景分类模型，所述场景分类模型用于预测轻量应用的使用场景类别。
一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行以下操作：

获取多个轻量应用的页面内容数据、用户行为数据以及所述多个轻量应用的使用场景标签；

从所述多个轻量应用的页面内容数据和用户行为数据中，提取所述多个轻量应用的使用场景特征；

基于所述多个轻量应用的使用场景特征和对应的使用场景标签，训练得到场景分类模型，所述场景分类模型用于预测轻量应用的使用场景类别。