WO2021047376A1

WO2021047376A1 - 数据处理方法、数据处理装置及相关设备

Info

Publication number: WO2021047376A1
Application number: PCT/CN2020/110537
Authority: WO
Inventors: 颜文靖; 张思维; 朱婷; 郝硕; 文嘉慈
Original assignee: 京东数字科技控股股份有限公司
Priority date: 2019-09-10
Filing date: 2020-08-21
Publication date: 2021-03-18
Also published as: CN110569906B; CN110569906A

Abstract

本公开提供了一种数据处理方法及装置、机器学习模型的训练方法及装置、电子设备及非瞬时性计算机可读存储介质，涉及信息安全技术领域。其中的数据处理方法包括：获取目标用户执行信息反馈操作的行为数据；利用行为数据，生成目标用户执行信息反馈操作的行为特征；利用预先训练的机器学习模型对行为特征进行处理，获得目标用户的安全度数据。本公开能够简单高效的获得用户的安全度数据，无需复杂的操作且无需采用特定的仪器，适用范围较广。

Description

数据处理方法、数据处理装置及相关设备

相关申请的交叉引用

本申请是以CN申请号为201910852637.6，申请日为2019年9月10日的申请为基础，并主张其优先权，该CN申请的公开内容在此作为整体引入本申请中。

技术领域

本公开涉及信息安全技术领域，特别涉及一种数据处理方法及装置、机器学习模型的训练方法及装置、电子设备及非瞬时性计算机可读存储介质。

背景技术

随着互联网业务的日益发展，用户的信息安全逐渐受到越来越多的关注。为便于安全管理，需要为每个用户确定安全度数据，以衡量每个用户对于互联网业务的安全程度。

发明内容

根据本公开的第一个方面，提供了一种数据处理方法，包括：获取目标用户执行信息反馈操作的行为数据；利用行为数据，生成目标用户执行信息反馈操作的行为特征；利用预先训练的机器学习模型对行为特征进行处理，获得目标用户的安全度数据。

在一些实施例中，还包括：获取已知用户执行信息反馈操作的行为数据；利用已知用户执行信息反馈操作的行为数据，生成已知用户执行信息反馈操作的行为特征；利用已知用户的安全度数据，对已知用户执行信息反馈操作的行为特征进行标注；利用标注后的已知用户执行信息反馈操作的行为特征训练机器学习模型。

在一些实施例中，利用已知用户执行信息反馈操作的行为数据，生成已知用户执行信息反馈操作的行为特征包括：利用已知用户执行信息反馈操作的行为数据，生成已知用户执行信息反馈操作的至少一种候选行为特征；计算候选行为特征与已知用户的安全度数据之间的相关度；将相关度大于预设值的候选行为特征，作为已知用户执行信息反馈操作的行为特征。

在一些实施例中，利用预先训练的机器学习模型对行为特征进行处理，获得目标用户的安全度数据包括：利用预先训练的多种机器学习模型中受试者工作特征曲线下的面积最大的机器学习模型，对输入的行为特征进行处理，输出目标用户的安全度数据。

在一些实施例中，利用预先训练的机器学习模型对行为特征进行处理，获得目标用户的安全度数据包括：利用预先训练的多种机器学习模型分别对输入的行为特征进行处理，输出目标用户的多个初步安全度数据；对多个初步安全度数据进行加权处理，获得目标用户的安全度数据。

在一些实施例中，行为特征包括以下特征中的至少一种：用户初次反馈各项信息时的反应时长、用户修改各项信息的总次数、用户回看各项信息的总次数、用户回看且修改各项信息的总次数、各项信息与预留信息不匹配的次数、用户按压信息反馈设备的力度参数、用户手持信息反馈设备的俯仰角度参数及摇摆角度参数。

在一些实施例中，行为数据包括以下数据中的至少一种：用户进入各个信息反馈页面的时刻、用户反馈各项信息的时刻、用户反馈各项信息的信息标识及信息内容、用户按压信息反馈设备的触摸参数、用户手持信息反馈设备的角度参数。

在一些实施例中，利用行为数据，生成目标用户执行信息反馈操作的行为特征包括：利用用户进入各个信息反馈页面的时刻、用户反馈各项信息的时刻，确定用户初次反馈各项信息时的反应时长；或者，利用用户反馈各项信息的信息标识及信息内容，确定用户修改各项信息的总次数、用户回看各项信息的总次数、用户回看且修改各项信息的总次数。

在一些实施例中，候选行为特征包括以下数据中的至少一种：用户初次反馈各项信息时的反应时长、用户在各个信息反馈页面的停留时长、用户修改各项信息的总次数、用户回看各项信息的总次数、用户回看且修改各项信息的总次数、各项信息与预留信息不匹配的次数、用户按压信息反馈设备的力度参数、用户按压信息反馈设备的时长、用户按压信息反馈设备的面积、用户手持信息反馈设备的俯仰角度参数及摇摆角度参数。

在一些实施例中，还包括：在生成行为特征之前，采用以下方法中的至少一种对行为数据进行预处理：剔除行为数据中数值的种类数量低于第一阈值的行为数据；剔除行为数据中缺失率高于第二阈值的行为数据；采用众数或平均数对行为数据中缺失率低于第二阈值的行为数据进行填充。

根据本公开的第二个方面，提供了一种机器学习模型的训练方法，包括：获取已知用户执行信息反馈操作的行为数据；利用已知用户执行信息反馈操作的行为数据，生成已知用户执行信息反馈操作的行为特征；利用已知用户的安全度数据，对已知用户执行信息反馈操作的行为特征进行标注；利用标注后的已知用户执行信息反馈操作的行为特征训练机器学习模型，使训练后的机器学习模型被配置为对目标用户执行信息反馈操作的行为数据进行处理，以获得目标用户的安全度数据。

根据本公开的第三个方面，提供了一种数据处理装置，包括：数据获取模块，被配置为获取目标用户执行信息反馈操作的行为数据；特征生成模块，被配置为利用行为数据，生成目标用户执行信息反馈操作的行为特征；模型处理模块，被配置为利用预先训练的机器学习模型对行为特征进行处理，获得目标用户的安全度数据。

在一些实施例中，还包括模型训练模块，被配置为：获取已知用户执行信息反馈操作的行为数据；利用已知用户执行信息反馈操作的行为数据，生成已知用户执行信息反馈操作的行为特征；利用已知用户的安全度数据，对已知用户执行信息反馈操作的行为特征进行标注；利用标注后的已知用户执行信息反馈操作的行为特征训练机器学习模型。

在一些实施例中，模型训练模块被配置为：利用已知用户执行信息反馈操作的行为数据，生成已知用户执行信息反馈操作的至少一种候选行为特征；计算候选行为特征与已知用户的安全度数据之间的相关度；将相关度大于预设值的候选行为特征，作为已知用户执行信息反馈操作的行为特征。

在一些实施例中，模型处理模块被配置为：利用预先训练的多种机器学习模型中受试者工作特征曲线下的面积最大的机器学习模型，对输入的行为特征进行处理，输出目标用户的安全度数据。

在一些实施例中，模型处理模块被配置为：利用预先训练的多种机器学习模型分别对输入的行为特征进行处理，输出目标用户的多个初步安全度数据；对多个初步安全度数据进行加权处理，获得目标用户的安全度数据。

在一些实施例中，特征生成模块被配置为：利用用户进入各个信息反馈页面的时刻、用户反馈各项信息的时刻，确定用户初次反馈各项信息时的反应时长；或者，利用用户反馈各项信息的信息标识及信息内容，确定用户修改各项信息的总次数、用户回看各项信息的总次数、用户回看且修改各项信息的总次数。

在一些实施例中，还包括数据预处理模块，被配置为采用以下方法中的至少一种对行为数据进行预处理：剔除行为数据中数值的种类数量低于第一阈值的行为数据；剔除行为数据中缺失率高于第二阈值的行为数据；采用众数或平均数对行为数据中缺失率不高于第二阈值的行为数据进行填充。

根据本公开的第四个方面，提供了一种机器学习模型的训练装置，包括：数据获取模块，被配置为获取已知用户执行信息反馈操作的行为数据；特征生成模块，被配置为利用已知用户执行信息反馈操作的行为数据，生成已知用户执行信息反馈操作的行为特征；特征标注模块，被配置为利用已知用户的安全度数据，对已知用户执行信息反馈操作的行为特征进行标注；模型训练模块，被配置为利用标注后的已知用户执行信息反馈操作的行为特征训练机器学习模型，使训练后的机器学习模型被配置为对目标用户执行信息反馈操作的行为数据进行处理，以获得目标用户的安全度数据。

根据本公开的第五个方面，提供了一种电子设备，包括：存储器；以及耦接至存储器的处理器，处理器被配置为基于存储在存储器中的指令，执行前述的数据处理方法，或者，执行前述的机器学习模型的训练方法。

根据本公开的第六个方面，提供了一种非瞬时性计算机可读存储介质，其中，非瞬时性计算机可读存储介质存储有计算机指令，指令被处理器执行时实现前述的数据处理方法，或者，执行前述的机器学习模型的训练方法。

通过以下参照附图对本公开的示例性实施例的详细描述，本公开的其它特征及其优点将会变得清楚。

附图说明

为了更清楚地说明本公开实施例或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1示出了本公开一些实施例的数据处理方法的流程示意图。

图2示出了本公开另一些实施例的数据处理方法的流程示意图。

图3示出了本公开一些实施例的数据处理装置的结构示意图。

图4示出了本公开一些实施例的电子设备的结构示意图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本公开保护的范围。

发明人研究发现，利用诸如测谎仪、脑电技术、脑成像技术等方式可以生成一定的测试结果，根据测试结果可以确定用户的安全度数据。但是，这些方式通常需要采用特定的仪器，从而造成了(1)费用开销较大；(2)仪器不便于携带，容易损坏；(3)仪器的操作较为繁琐，工作人员需要经过专业训练；(4)需要被测试用户高度配合，用户体验差。因此，采用特定的仪器来确定用户的安全度数据，在需要确定用户的安全度数据的各个领域中适用范围较小。

本公开解决的一个技术问题是，如何简单高效地获得用户的安全度数据。本公开能够简单高效地获得用户的安全度数据，由于无需复杂的操作且无需采用特定的仪器，从而可以在更多的领域和应用场景下使用本公开的安全度数据确定方法。下面针对本公开提供的数据处理方法进行详细介绍。

首先结合图1描述本公开数据处理方法的一些实施例，以解释如何训练用于数据处理的机器学习模型。

图1示出了本公开一些实施例的数据处理方法的流程示意图。如图1所示，所述数据处理方法包括步骤S101～步骤S103。

首先对所述方法中涉及的术语予以说明。

已知用户为安全度数据已知的历史用户，已知用户的相关数据用于机器学习模型的训练；目标用户为安全度数据未知的待预测用户，目标用户的相关数据用于被输入到机器学习模型中进行安全度数据的测算。

在步骤S101中，获取已知用户执行信息反馈操作的行为数据。

已知用户执行信息反馈操作时，手持信息反馈设备(例如平板电脑或手机终端)进入信息反馈页面。用户反馈不同的各项信息时，需要进入不同的信息反馈页面。因此，在获取行为数据时，可以在不同的信息反馈页面进行数据埋点，采集用户的行为数据。

行为数据具体可以包括用户进入各个信息反馈页面的时刻、用户反馈各项信息的时刻、用户反馈的各项信息的信息标识及信息内容、用户按压信息反馈设备的触摸参数、用户手持信息反馈设备的角度参数等等。

采集行为数据完毕后，可以通过http(HyperText Transfer Protocol，超文本传输协议)请求将行为数据发送至后台服务器进行保存，具体的http请求可以通过自定义的json(JavaScript Object Notation,脚本语言对象简谱)格式的数据进行封装。此外，可以先将行为数据保存到信息反馈设备本地的数据库中，当本地数据库在指定时间内保存的行为数据超过一定的阈值(例如50条)时，统一将当前批次的行为数据发送给后台服务器，以便后台服务器将用户的行为数据存储到数据库，并对用户的行为数据进行特征挖掘。

在步骤S102中，利用已知用户执行信息反馈操作的行为数据，生成已知用户执行信息反馈操作的行为特征。

在生成行为特征之前，可以先采用以下方法对行为数据进行预处理：

(1)剔除信息种类的数值较低的行为数据，即剔除行为数据中反馈信息的种类数量低于第一阈值的行为数据。例如，对于信息反馈页面中问题“您是中国人吗？”的反馈信息，如果已知用户均选择“是”(中国人)，该题目对应的行为数据的反馈信息的种类数量为1，低于第一阈值“2”，从而删除该行为数据的信息标识(例如问题的题号)及信息内容(回答“是”或“不是”)。

(2)剔除高缺失率行为数据，即剔除行为数据缺失率高于第二阈值的行为数据。例如，对于ios(iPhone Operation System，苹果移动设备操作系统)系统的手机终端，由于采集不到用户手持手机终端的三轴陀螺仪传感器的相关数据，而无法确定用户手持信息反馈设备的角度参数。那么当用户使用的ios系统的手机终端高于90％的情况下，用户手持信息反馈设备的角度参数这一行为数据的缺失率高于第二阈值“90％”，即用户手持信息反馈设备的角度参数这一行为数据的缺失率过高，可以将其删除。

(3)采用众数或平均数对行为数据中缺失率低于第二阈值的行为数据进行填充。

在一些实施例中，首先利用已知用户执行信息反馈操作的行为数据，生成已知用户执行信息反馈操作的至少一种候选行为特征。生成候选行为特征的具体过程参照表1在后文中进行详细介绍。其中，候选行为特征具体可以包括：用户初次反馈各项信息时的反应时长、用户在各个信息反馈页面的停留时长、用户修改各项信息的总次数、用户回看各项信息的总次数、用户回看且修改各项信息的总次数、各项信息与预留信息不匹配的次数、用户按压信息反馈设备的力度参数、用户按压信息反馈设备的时长、用户按压信息反馈设备的面积、用户手持信息反馈设备的俯仰角度参数及摇摆角度参数等等。其中，预留信息可以包括用户的姓名、性别、出生日期和身份证号。

然后，计算各个候选行为特征与已知用户的安全度数据之间的相关度。已知用户的安全度数据可以根据已知用户的白名单列表及黑名单列表中获得，白名单列表中的已知用户不存在违反网络安全规定的历史操作，白名单列表中的已知用户的安全度数据为1；黑名单列表中的已知用户存在违反网络安全规定的历史操作，黑名单列表中的已知用户的安全度数据为0。

计算相关度时可以采用皮尔森相关系数。皮尔森相关系数能够衡量的是变量之间的线性相关性，皮尔森相关系数计算结果的取值区间为[-1，1]。其中，取值-1表示变量之间完全的负相关，取值1表示变量之间完全的正相关，取值0表示变量之间没有线性相关。最后，将相关度大于预设值(例如皮尔森相关系数大于0.5)的候选行为特征，作为已知用户执行信息反馈操作的行为特征。从候选行为特征中选取的行为特征具体可以包括用户初次反馈各项信息时的反应时长、用户修改各项信息的总次数、用户回看各项信息的总次数、用户回看且修改各项信息的总次数、各项信息与预留信息不匹配的次数、用户按压信息反馈设备的力度参数、用户手持信息反馈设备的俯仰角度参数及摇摆角度参数等等。

在一些实施例中，生成的行为特征为连续型行为特征，而连续型行为特征的数值之间可能存在差异较小的情况。在这样的情况下可以采用分箱的方法，将数值之间差异较小的连续型行为特征转化成类别型行为特征，并对类别型行为特征进行编码。以用户初次反馈各项信息时的反应时长为例，假设用户初次反馈各项信息时的反应时长的数值范围是0.92～1.02(单位为秒)，那么可以将低于下边缘值(即数值小于0.95)的反应时长划分为初次反应敏捷类别，将介于下边缘值和上四分位数之间(即数值范围是0.95～0.98)的反应时长划分为初次反应正常类别，将介于上四分位数和上边缘值之间(即数值范围是0.98～1)的反应时长划分为初次反应偏慢类别，将超过上边缘值(即数值大于1)的反应时长划分为初次反应迟钝类别，并对四种类别分别进行one-hot独热编码，将编码结果作为类别型行为特征。

在步骤S103中，利用已知用户的安全度数据，对已知用户执行信息反馈操作的行为特征进行标注。

例如，已知用户a为白名单列表中的已知用户，则对已知用户a执行信息反馈操作的行为特征标注1，作为已知用户a的安全度数据；已知用户b为黑名单列表中的已知用户，则对已知用户b执行信息反馈操作的行为特征标注0，作为已知用户b的安全度数据。

在步骤S104中，利用标注后的已知用户执行信息反馈操作的行为特征训练机器学习模型。

训练机器学习模型时，将标注后的已知用户执行信息反馈操作的行为特征输入该机器学习模型，机器学习模型对已知用户执行信息反馈操作的行为特征进行处理得到输出结果。然后，根据该输出结果与已知用户执行信息反馈操作的行为特征的标注结果计算损失函数，并根据损失函数值来调整该机器学习模型中的各个参数变量。训练后的机器学习模型能够对目标用户执行信息反馈操作的行为数据进行处理，获得目标用户的安全度数据。本领域技术人员应理解，上述机器学习模型具体可以为SVM(Support Vector Machine,支持向量机)、随机森林、LightGBM(Ligh Gradient Boosting Machine，轻量级梯度提升机)模型、XGBoost可扩展梯度提升模型等等。训练机器学习模型时，可以分别训练多个机器学习模型，并利用AUC(Area Under Curve，受试者工作特征曲线下与坐标轴围成的面积)作为各个机器学习模型的评价指标，然后选出AUC最大的机器学习模型用于后续的数据处理。当然，也可以将各个机器学习模型都用于后续的数据处理。

下面结合图2描述本公开数据处理方法的另一些实施例，以解释如何利用预先训练的机器学习模型进行数据处理。

图2示出了本公开另一些实施例的数据处理方法的流程示意图。如图2所示，该数据处理方法包括步骤S201～步骤S203。

在步骤S201中，获取目标用户执行信息反馈操作的行为数据。

获取目标用户执行信息反馈操作的行为数据的具体过程可以参照步骤S101，在此不做重复描述。

在步骤S202中，利用行为数据，生成目标用户执行信息反馈操作的行为特征。

例如，可以利用用户进入各个信息反馈页面的时刻、用户反馈各项信息的时刻，确定用户初次反馈各项信息时的反应时长。再比如，可以利用用户反馈各项信息的信息标识及信息内容，确定用户修改各项信息的总次数、用户回看各项信息的总次数、用户回看且修改各项信息的总次数。

在步骤S203中，利用预先训练的机器学习模型对行为特征进行处理，获得目标用户的安全度数据。

训练后的机器学习模型能够对目标用户执行信息反馈操作的行为数据进行处理，以获得目标用户的安全度数据。在一些实施例中，步骤S203包括：利用预先训练的多种机器学习模型中AUC最大的机器学习模型，对输入的行为特征进行处理，输出目标用户的安全度数据。

在一些实施例中，步骤S203包括：利用预先训练的多种机器学习模型分别对输入的行为特征进行处理，输出目标用户的多个初步安全度数据；对多个初步安全度数据进行加权处理，获得目标用户的安全度数据。例如，可以采用相同的权值或者与AUC指标相对应的权值对多个安全度数据进行加权处理，获得目标用户的安全度数据。

本实施例利用用户执行信息反馈操作的行为数据，能够生成用户执行信息反馈操作的行为特征，进而采用机器学习方法预测用户的安全度，从而能够简单高效地获得用户的安全度数据，无需复杂的操作且无需采用特定的仪器，适用范围较广。

下面结合表1介绍如何获取用户执行信息反馈操作的行为特征。为便于读者理解，以用户做选择题的角度来对用户执行信息反馈操作进行举例。本领域技术人员应理解，用户执行信息反馈操作也可以不限于做选择题的形式。

例如，利用用户个人信息相关的数据库，可以生成三种类别的验证性选择题：预期问题，即与用户个人身份信息相关的选择题，比如“你的出生年月是X年X月X日吗”；未预期问题，即从个人身份信息衍生出来的选择题，如“你的属相是X吗”；控制问题，即用户不会说谎的选择题，如“你的性别是X吗？”。让用户点击“是/否”选项反馈信息。

当用户进入每个信息反馈页面时，记录当前进入信息反馈页面的时间、选择题的题号；用户在每题的选项部分进行选择时，记录用户当前操作时间、当前题目的题号、用户选择的选项编号。表1示例性示出了用户执行信息反馈操作的操作记录，这些操作记录中包含用户执行信息反馈操作的行为数据。利用这些行为数据，分别可以生成多种行为特征，下面列举10种行为特征分别进行介绍。

表1

题号	选项编号	操作时间	操作类型
1		16:02:34	进入
1	4	16:02:39	反馈
2		16:02:46	进入
2	1	16:02:57	反馈
2	3	16:03:06	反馈
3		16:03:07	进入
3	2	16:03:10	反馈
4		16:03:11	进入
4	3	16:03:14	反馈
5		16:03:14	进入
4		16:03:16	进入
4	1	16:03:17	反馈
4	2	16:03:18	反馈
5		16:03:20	进入

(1)各项信息与预留信息不匹配的次数

例如，用户的信息库中为记录“张三出生于1995年”，然而张三做选择“您的属相是猪吗”中选择了“不是”，即记为不匹配一次。

(2)用户修改各项信息的总次数

从表1中抽取相同题号的操作记录，统计其中操作类型为“反馈”的记录条数减1，即为当前题目的修改次数。例如，首先利用抽取相同题号的操作记录构建修改次数列表，修改次数列表的索引对应题号，修改次数列表的元素为各个题号所对应题目的修改次数，初始化为空值。然后，分别抽取相同题号的操作记录，并分别统计各个题号所对应题目的修改次数。

(3)用户初次反馈各项信息时的反应时长

用户在第一次进入某题页面时到第一次选择选项之间时间范围，即初次反应时长。在操作记录中获取首次出现前一个题号小于后一个题号的记录，后一个题号对应的操作时间减去前一个题号对应的操作时间即为后一个题号所对应信息的初次反应时长。

(4)用户在各个信息反馈页面的停留时长

该行为特征表示用户停留在每道选择题页面的总时长，即进入该选择题页面到离开该选择题页面的时长。本领域技术人员应理解，用户在操作中存在按顺序回答或者折返回看两种方式进入到该选择题页面。对每道选择题进行遍历，从表1中抽取出点击类型为“进入”的操作记录，使用后一条记录的操作时间减去前一条记录的操作时间得到当前用时，将该当前用时累加。遍历结束后，对于最后一题的用时，需加上最后一次进入最后一题的操作时间与最后一次离开最后一题的操作时间之差。

(5)用户回看各项信息的总次数

该指标用于记录用户在做选择题过程中返回之前选择题的次数，用户每折返到目标题目，为返回目标题目的次数增加一次。从表1中抽取出点击类型为“进入”的操作记录，并获取其题号列表，从题号列表中的第二个元素开始向最后一个题号遍历，如果当前题号的前一个题号大于当前题号且当前题号的后一个题号大于当前题号，则当前题号所对应信息的回看次数增加一次。假设i为元素标识，t[]表示求元素标识的题号，如果满足t[i-1]>t[i]且t[i+1]>t[i]，则t[i]所对应信息的回看次数增加一次。

(6)用户回看且修改各项信息的总次数

该指标用于记录用户在做选择题过程中返回之前选择题并做出修改的次数，用户每返回到前面的目标题目并进行修改，为返回目标题目并进行修改的次数增加一次。在用户的操作记录中，从题号列表中的第二个元素开始向最后一个题号遍历，如果当前题号的前一个题号大于当前题号且如果当前题号的后一个题号等于当前题号时，则当前题号所对应信息的回看并修改次数增加一次。假设i为元素标识，t[]表示求元素标识的题号，如果满足t[i-1]>t[i]且t[i+1]＝t[i]，则t[i]所对应信息的回看并修改次数增加一次。

(7)用户按压信息反馈设备的时长

假设信息反馈设备具有触摸屏幕，则可以通过重写按钮控件，记录用户点击选项按钮的时间和用户离开选项按钮的时间，通过计算时间差值得出用户触摸屏幕的按压时长。

(8)用户按压信息反馈设备的面积

假设信息反馈设备具有触摸屏幕，

通过Android安卓官方提供的API(Application Programming Interface，应用程序接口)，使用MotionEvent运动事件中提供的getSize获取尺寸可以获取用户手指与屏幕接触面积的大小。

(9)用户按压信息反馈设备的力度参数

对于用户每次触及屏幕的按压力度值，可以进一步分别为每个用户计算该按压力度值的方差，来衡量该按压力度值的波动大小。

(10)用户手持信息反馈设备的俯仰角度参数及摇摆角度参数。

通过检测用户手机的传感器，获取手持手机的俯仰角度、横摇角度、旋转角度。此外，还可以进一步分别提取其峰度值、偏度值、一阶差分、二阶差分等等。

下面结合图3描述本公开数据处理装置的一些实施例。

图3示出了本公开一些实施例的数据处理装置的结构示意图。如图3所示，本实施例中的数据处理装置30包括：

数据获取模块302，被配置为获取目标用户执行信息反馈操作的行为数据；特征生成模块304，被配置为利用行为数据，生成目标用户执行信息反馈操作的行为特征；模型处理模块306，被配置为利用预先训练的机器学习模型对行为特征进行处理，获得目标用户的安全度数据。

在一些实施例中，还包括模型训练模块301，被配置为：获取已知用户执行信息反馈操作的行为数据；利用已知用户执行信息反馈操作的行为数据，生成已知用户执行信息反馈操作的行为特征；利用已知用户的安全度数据，对已知用户执行信息反馈操作的行为特征进行标注；利用标注后的已知用户执行信息反馈操作的行为特征训练机器学习模型，使得训练后的机器学习模型能够对目标用户执行信息反馈操作的行为数据进行处理，获得目标用户的安全度数据。

在一些实施例中，模型训练模块301被配置为：利用已知用户执行信息反馈操作的行为数据，生成已知用户执行信息反馈操作的至少一种候选行为特征；计算候选行为特征与已知用户的安全度数据之间的相关度；将相关度大于预设值的候选行为特征，作为已知用户执行信息反馈操作的行为特征。

在一些实施例中，模型处理模块306被配置为：利用预先训练的多种机器学习模型中受试者工作特征曲线下的面积最大的机器学习模型，对输入的行为特征进行处理，输出目标用户的安全度数据。

在一些实施例中，模型处理模块306被配置为：利用预先训练的多种机器学习模型分别对输入的行为特征进行处理，输出目标用户的多个初步安全度数据；对多个初步安全度数据进行加权处理，获得目标用户的安全度数据。

在一些实施例中，特征生成模块304被配置为：利用用户进入各个信息反馈页面的时刻、用户反馈各项信息的时刻，确定用户初次反馈各项信息时的反应时长；或者，利用用户反馈各项信息的信息标识及信息内容，确定用户修改各项信息的总次数、用户回看各项信息的总次数、用户回看且修改各项信息的总次数。

在一些实施例中，还包括数据预处理模块303，被配置为采用以下方法中的至少一种对行为数据进行预处理：剔除行为数据中数值的种类数量低于第一阈值的行为数据；剔除行为数据中缺失率高于第二阈值的行为数据；采用众数或平均数对行为数据中缺失率低于第二阈值的行为数据进行填充。

上述实施例利用用户执行信息反馈操作的行为数据，能够生成用户执行信息反馈操作的行为特征，进而采用机器学习方法预测用户的安全度，从而能够简单高效地获得用户的安全度数据，无需复杂的操作且无需采用特定的仪器，适用范围较广。

下面结合图4描述本公开电子设备的一些实施例。

图4示出了本公开一些实施例的电子设备的结构示意图。如图4所示，该实施例的电子设备40包括：存储器410以及耦接至该存储器410的处理器420，处理器420被配置为基于存储在存储器410中的指令，执行前述任意一些实施例中的数据处理方法。

其中，存储器410例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)以及其他程序等。

电子设备40还可以包括输入输出接口430、网络接口440、存储接口450等。这些接口430、440、450以及存储器410和处理器420之间例如可以通过总线460连接。其中，输入输出接口430为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口440为各种联网设备提供连接接口。存储接口450为SD卡、U盘等外置存储设备提供连接接口。

本公开还包括一种非瞬时性计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现前述任意一些实施例中的数据处理方法。

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本公开的较佳实施例，并不用以限制本公开，凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

一种数据处理方法，包括：

获取目标用户执行信息反馈操作的行为数据；

利用所述行为数据，生成目标用户执行信息反馈操作的行为特征；

利用预先训练的机器学习模型对所述行为特征进行处理，获得目标用户的安全度数据。
如权利要求1所述的数据处理方法，还包括：

获取已知用户执行信息反馈操作的行为数据；

利用已知用户执行信息反馈操作的行为数据，生成已知用户执行信息反馈操作的行为特征；

利用已知用户的安全度数据，对已知用户执行信息反馈操作的行为特征进行标注；

利用标注后的已知用户执行信息反馈操作的行为特征训练机器学习模型。
如权利要求2所述的数据处理方法，其中，所述利用已知用户执行信息反馈操作的行为数据，生成已知用户执行信息反馈操作的行为特征包括：

利用已知用户执行信息反馈操作的行为数据，生成已知用户执行信息反馈操作的至少一种候选行为特征；

计算所述候选行为特征与已知用户的安全度数据之间的相关度；

将所述相关度大于预设值的所述候选行为特征，作为已知用户执行信息反馈操作的行为特征。
如权利要求1所述的数据处理方法，其中，所述利用预先训练的机器学习模型对所述行为特征进行处理，获得目标用户的安全度数据包括：

利用预先训练的多种机器学习模型中受试者工作特征曲线下的面积最大的机器学习模型，对输入的所述行为特征进行处理，输出目标用户的安全度数据。
如权利要求1所述的数据处理方法，其中，所述利用预先训练的机器学习模型对所述行为特征进行处理，获得目标用户的安全度数据包括：

利用预先训练的多种机器学习模型分别对输入的所述行为特征进行处理，输出目标用户的多个初步安全度数据；

对所述多个初步安全度数据进行加权处理，获得目标用户的安全度数据。
如权利要求1至5任一项所述的数据处理方法，其中，所述行为特征包括以下特征中的至少一种：

用户初次反馈各项信息时的反应时长、用户修改所述各项信息的总次数、用户回看所述各项信息的总次数、用户回看且修改所述各项信息的总次数、所述各项信息与预留信息不匹配的次数、用户按压信息反馈设备的力度参数、用户手持信息反馈设备的俯仰角度参数及摇摆角度参数。
如权利要求1至5任一项所述的数据处理方法，其中，所述行为数据包括以下数据中的至少一种：

用户进入各个信息反馈页面的时刻、用户反馈各项信息的时刻、用户反馈各项信息的信息标识及信息内容、用户按压信息反馈设备的触摸参数、用户手持信息反馈设备的角度参数。
如权利要求1所述的数据处理方法，其中，所述利用所述行为数据，生成目标用户执行信息反馈操作的行为特征包括：

利用用户进入各个信息反馈页面的时刻、用户反馈各项信息的时刻，确定用户初次反馈各项信息时的反应时长；

或者，

利用用户反馈各项信息的信息标识及信息内容，确定用户修改所述各项信息的总次数、用户回看所述各项信息的总次数、用户回看且修改所述各项信息的总次数。
如权利要求3所述的数据处理方法，其中，所述候选行为特征包括以下数据中的至少一种：

用户初次反馈各项信息时的反应时长、用户在各个信息反馈页面的停留时长、用户修改所述各项信息的总次数、用户回看所述各项信息的总次数、用户回看且修改所述各项信息的总次数、所述各项信息与预留信息不匹配的次数、用户按压信息反馈设备的力度参数、用户按压信息反馈设备的时长、用户按压信息反馈设备的面积、用户手持信息反馈设备的俯仰角度参数及摇摆角度参数。
如权利要求1所述的数据处理方法，还包括：

在生成所述行为特征之前，采用以下方法中的至少一种对所述行为数据进行预处理：

剔除所述行为数据中数值的种类数量低于第一阈值的行为数据；

剔除所述行为数据中缺失率高于第二阈值的行为数据；

采用众数或平均数对所述行为数据中缺失率低于第二阈值的行为数据进行填充。
一种机器学习模型的训练方法，包括：

获取已知用户执行信息反馈操作的行为数据；

利用已知用户执行信息反馈操作的行为数据，生成已知用户执行信息反馈操作的行为特征；

利用已知用户的安全度数据，对已知用户执行信息反馈操作的行为特征进行标注；

利用标注后的已知用户执行信息反馈操作的行为特征训练机器学习模型，使训练后的机器学习模型被配置为对目标用户执行信息反馈操作的行为数据进行处理，以获得目标用户的安全度数据。
如权利要求11所述的训练方法，其中，所述利用已知用户执行信息反馈操作的行为数据，生成已知用户执行信息反馈操作的行为特征包括：

利用已知用户执行信息反馈操作的行为数据，生成已知用户执行信息反馈操作的至少一种候选行为特征；

计算所述候选行为特征与已知用户的安全度数据之间的相关度；

将所述相关度大于预设值的所述候选行为特征，作为已知用户执行信息反馈操作的行为特征。
一种数据处理装置，包括：

数据获取模块，被配置为获取目标用户执行信息反馈操作的行为数据；

特征生成模块，被配置为利用所述行为数据，生成目标用户执行信息反馈操作的行为特征；

模型处理模块，被配置为利用预先训练的机器学习模型对所述行为特征进行处理，获得目标用户的安全度数据。
一种机器学习模型的训练装置，包括：

数据获取模块，被配置为获取已知用户执行信息反馈操作的行为数据；

特征生成模块，被配置为利用已知用户执行信息反馈操作的行为数据，生成已知用户执行信息反馈操作的行为特征；

特征标注模块，被配置为利用已知用户的安全度数据，对已知用户执行信息反馈操作的行为特征进行标注；

模型训练模块，被配置为利用标注后的已知用户执行信息反馈操作的行为特征训练机器学习模型，使训练后的机器学习模型被配置为对目标用户执行信息反馈操作的行为数据进行处理，以获得目标用户的安全度数据。
一种电子设备，包括：

存储器；以及

耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行如权利要求1至10中任一项所述的数据处理方法，或者，执行如权利要求11或12所述的机器学习模型的训练方法。
一种非瞬时性计算机可读存储介质，其中，所述非瞬时性计算机可读存储介质存储有计算机指令，所述指令被处理器执行时实现如权利要求1至10中任一项所述的数据处理方法，或者，执行如权利要求11或12所述的机器学习模型的训练方法。