WO2023071105A1

WO2023071105A1 - 一种特征变量的分析方法、装置、计算机设备及存储介质

Info

Publication number: WO2023071105A1
Application number: PCT/CN2022/089514
Authority: WO
Inventors: 黄晨宇; 王健宗
Original assignee: 平安科技（深圳）有限公司
Priority date: 2021-10-27
Filing date: 2022-04-27
Publication date: 2023-05-04
Also published as: CN113934983A

Abstract

本申请公开了一种特征变量的分析方法、装置、计算机设备及存储介质，属于数据分析处理技术领域中的数据挖掘技术。本申请先对不同客户端中存储的特征数据和特征标签进行分箱，然后计算特征数据的加权平均值，得到第一加权平均值（S203），以及计算特征标签的加权平均值，得到第二加权平均值（S204），基于第一加权平均值和第二加权平均值构建线性回归方程（S205），基于线性回归方程计算目标特征变量的均方误差和总平方和（S206），基于均方误差和总平方和计算目标特征变量的决定系数，并基于决定系数对目标特征变量进行评价（S207）。此外，本申请还涉及区块链技术，特征数据和特征标签可存储于区块链中。本申请可以在保护数据隐私的情况下实现多客户端联合的变量分析。

Description

一种特征变量的分析方法、装置、计算机设备及存储介质

本申请要求于2021年10月27日提交中国专利局、申请号为202111254424.7，发明名称为“一种特征变量的分析方法、装置、计算机设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请属于数据分析处理技术领域，具体涉及一种特征变量的分析方法、装置、计算机设备及存储介质。

背景技术

现有的联邦学习主要是针对建模的部分，但在实际过程中，由于数据特征量多，特征质量参差不齐导致模型训练速率较慢且效果不好。针对这一情况，传统的方法是在建模前对特征进行分析，在选取了有效的特征后再去进行建模可以拥有提升训练速率，提高模型准确率。

然而，在针对特征变量分析的过程中，发明人意识到现有的特征变量分析方法针对于特征或标签不在同一个客户端上时，通常需要将特征或标签传递到同一个客户端上，然后才能进行变量分析，但在联邦学习中，需要对数据隐私进行保护，直接传输数据特征或会违背联邦学习的隐私保护初衷，因此现有的变量分析方法直接应用于联邦学习时，存在数据泄露的风险，难以保证数据安全。

发明内容

本申请实施例的目的在于提出一种特征变量的分析方法、装置、计算机设备及存储介质，以解决现有的特征变量分析方法可能存在的数据泄露风险，难以保证数据安全的技术问题。

为了解决上述技术问题，本申请实施例提供一种特征变量的分析方法，采用了如下所述的技术方案：

一种特征变量的分析方法，包括：

对第一参与方中的特征数据进行分箱操作，得到数据特征集合；

对第二参与方中的特征标签进行分箱操作，得到特征标签集合；

计算所述数据特征集合中的特征数据的加权平均值，得到第一加权平均值；

计算所述特征标签集合中的特征标签的加权平均值，得到第二加权平均值；

基于所述第一加权平均值和所述第二加权平均值构建线性回归方程；

基于所述线性回归方程计算目标特征变量的均方误差和总平方和；

基于所述均方误差和所述总平方和计算所述目标特征变量的决定系数，并基于所述决定系数对所述目标特征变量进行评价。

进一步地，所述对第二参与方中的特征标签进行分箱操作，得到特征标签集合包括：

获取所述特征数据的分箱信息，并将所述分箱信息发送至所述第二参与方中；

基于所述分箱信息对所述对第二参与方中的特征标签进行分箱操作，得到特征标签集合。

进一步地，所述计算所述数据特征集合中的特征数据的加权平均值，得到第一加权平均值包括：

基于预设的特征权重算法计算所述数据特征集合中每一个特征数据的特征权重，得到第一权重；

基于所述第一权重对所述数据特征集合中特征数据进行加权求和，得到第一加权结果；

计算第一加权结果的平均值，得到所述第一加权平均值。

进一步地，所述计算所述特征标签集合中的特征标签的加权平均值，得到第二加权平均值包括：

基于预设的特征权重算法计算所述特征标签集合中每一个特征标签的特征权重，得到第二权重；

基于所述第二权重对所述特征标签集合中的特征标签进行加权求和，得到第二加权结果；

计算第二加权结果的平均值，得到所述第一加权平均值。

进一步地，所述基于所述第一加权平均值和所述第二加权平均值构建线性回归方程包括：

基于所述第一加权平均值和所述第二加权平均值计算所述线性回归方程的线性回归参量；

基于所述线性回归参量和预设的最小二乘法构建所述线性回归方程。

进一步地，所述线性回归方程的表达式如下：

f(x _t)＝a ₀+a ₁x _t

其中，a ₀和a ₁均为线性回归参量，x _t为数据特征，a ₀和a ₁的具体计算公式如下：

其中，x _ti是第i个数据特征的特征值，

为数据特征集合中数据特征的特征平均值，即第一加权平均值，y _i是第i个特征标签的标签值，

为所有特征标签y' _i的标签平均值，即第二加权平均值。

进一步地，所述目标特征变量的决定系数的具体计算公式如下：

其中，R ²为决定系数，RMSE为均方误差，SST为总平方和，所述基于所述决定系数对所述目标特征变量进行评价的包括：

将所述决定系数与预设阈值进行比对；

当所述决定系数大于或等于预设阈值时，确定所述目标特征变量为必要变量；

当所述决定系数小于预设阈值时，确定所述目标特征变量为非必要变量。

为了解决上述技术问题，本申请实施例还提供一种特征变量的分析装置，采用了如下所述的技术方案：

一种特征变量的分析装置，包括：

第一分箱模块，用于对第一参与方中的特征数据进行分箱操作，得到数据特征集合；

第二分箱模块，用于对第二参与方中的特征标签进行分箱操作，得到特征标签集合；

第一加权平均模块，用于计算所述数据特征集合中的特征数据的加权平均值，得到第一加权平均值；

第二加权平均模块，用于计算所述特征标签集合中的特征标签的加权平均值，得到第二加权平均值；

线性回归模块，用于基于所述第一加权平均值和所述第二加权平均值构建线性回归方程；

评价参数计算模块，用于基于所述线性回归方程计算目标特征变量的均方误差和总平方和；

变量评价模块，用于基于所述均方误差和所述总平方和计算所述目标特征变量的决定系数，并基于所述决定系数对所述目标特征变量进行评价。

为了解决上述技术问题，本申请实施例还提供一种计算机设备，采用了如下所述的技术方案：

一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如下特征变量的分析方法的步骤：

为了解决上述技术问题，本申请实施例还提供一种计算机可读存储介质，采用了如下所述的技术方案：

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如下特征变量的分析方法的步骤：

与现有技术相比，本申请实施例主要有以下有益效果：

本申请公开了一种特征变量的分析方法、装置、计算机设备及存储介质，属于数据分析处理技术领域。本申请考虑到不同客户端的特征数据之间的关联关系，因此在对不同客户端中存储的特征数据和特征标签进行分箱，分别计算特征数据的加权平均值，得到第一加权平均值，以及计算特征标签的加权平均值，得到第二加权平均值，基于第一加权平均值和第二加权平均值构建线性回归方程，基于线性回归方程计算目标特征变量的均方误差和总平方和，基于均方误差和总平方和计算目标特征变量的决定系数，并基于决定系数对目标特征变量进行评价。本申请在实现多客户端联合的变量分析过程中，仅在多客户端之间传递加权平均值、均方误差、总平方和等中间评价因子，而不需要对特征数据和特征标签进行转移，因此可以在保护数据隐私的情况下实现多客户端联合的变量分析。

附图说明

为了更清楚地说明本申请中的方案，下面将对本申请实施例描述中所需要使用的附图作一个简单介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请可以应用于其中的示例性系统架构图；

图2示出了根据本申请的特征变量的分析方法的一个实施例的流程图；

图3示出了根据本申请的特征变量的分析装置的一个实施例的结构示意图；

图4示出了根据本申请的计算机设备的一个实施例的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上显示的页面提供支持的后台服务器，服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

需要说明的是，本申请实施例所提供的特征变量的分析方法一般由服务器执行，相应地，特征变量的分析装置一般设置于服务器中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，示出了根据本申请的特征变量的分析的方法的一个实施例的流程图。本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

在联邦学习建模过程可能包含多个参与方，而其中使用到的数据特征或特征标签可能不在同一个参与方的客户端上，因此现有的变量分析方法通常需要将数据特征或特征标签传递到同一个客户端上，然后才能进行变量分析，但在数据特征或特征标签过程中，很容易发射数据泄露风险，难以保证数据安全。为此，本申请提供一种特征变量的分析方法、装置、计算机设备及存储介质，旨在对特征数据和特征标签进行转移的前提下，实现多客户端联合的变量分析，以保护数据隐私。

所述的特征变量的分析方法，包括以下步骤：

S201，对第一参与方中的特征数据进行分箱操作，得到数据特征集合。

S202，对第二参与方中的特征标签进行分箱操作，得到特征标签集合。

具体的，服务器接收特征变量指令，并按照用户上传的分箱条件对第一参与方中的特征数据进行分箱操作，得到数据特征集合；然后服务器获取第一参与方中分箱信息，并基于第一参与方中分箱信息对第二参与方中的特征标签进行分箱操作，得到特征标签集合。

在本申请具体的实施例中，某次联邦学习建模需要参与方A和参与方B共同参与实现，它们各自拥有一部分联合数据，即参与方A拥有样本数据的部分特征x _t，参与方B拥有样本数据的部分特征x _t和标签y，例如参与方A为保险机构，参与方B为银行，在实际场景中，银行相比于保险机构存在额外的用户数据，通过该部分用户数据提取获得特征标签y。

在本实施例中，特征变量的分析方法运行于其上的电子设备(例如图1所示的服务器)可以通过有线连接方式或者无线连接方式接收特征变量指令。需要指出的是，上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。

S203，计算所述数据特征集合中的特征数据的加权平均值，得到第一加权平均值。

S204，计算所述特征标签集合中的特征标签的加权平均值，得到第二加权平均值。

具体的，服务器在完成分箱操作后，先基于预设的特征权重算法分别计算数据特征集合中每一个特征数据的特征权重，以及基于预设的特征权重算法分别计算特征标签集合中每一个特征标签的标签权重，然后基于特征权重计算数据特征集合中的特征数据的加权平均值，得到第一加权平均值，以及基于标签权重计算特征标签集合中的特征标签的加权平均值，得到第二加权平均值。具体计算公式如下：

其中，φ _i是数据特征集中第i个数据特征的权重，x _ti是第i个数据特征的特征值，

是数据特征集的特征值总和，n数据特征集中数据特征的数量，

为所有数据特征x' _t,i的特征平均值，即第一加权平均值。w _i是特征标签集中第i个特征标签的权重，y _i是第i个特征标签的标签值，

是特征标签集的标签值总和，m为特征标签集中特征标签的数量，

为所有特征标签y' _i的标签平均值，即第二加权平均值。

在本申请一种具体的实施例中，特征权重算法为Relief算法，Relief算法通过从任意一个特征数据组合D中随机选择一个样本R，然后从D中寻找最近邻样本H，称为Near Hit，从其他特征数据组合中寻找最近邻样本M，称为NearMiss，然后根据以下规则更新每个特征的权重：如果R和Near Hit在某个特征上的距离小于R和Near Miss上的距离，这里的距离即两个特征数据之间的相似度，则说明该特征对区分同类和不同类的最近邻是有益的，则增加该特征的权重；反之，如果R和Near Hit在某个特征的距离大于R和Near Miss上的距离，说明该特征对区分同类和不同类的最近邻起负面作用，则降低该特征的权重。以上过程重复p次，最后得到各特征的平均权重，特征的权重越大，表示该特征的分类能力越强，反之，表示该特征分类能力越弱。Relief算法的运行时间随着样本的抽样次数p和原始特征个数N的增加线性增加，因而运行效率非常高。

S205，基于所述第一加权平均值和所述第二加权平均值构建线性回归方程。

具体的，服务器基于第一加权平均值和第二加权平均值计算线性回归方程的线性回归参量，

并基于线性回归参量和预设的最小二乘法构建线性回归方程。

需要说明的是，最小二乘法(又称最小平方法)是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据，并使得这些求得的数据与实际数据之间误差的平方和为最小，最小二乘法还可用于曲线拟合，其他一些优化问题也可通过最小化能量或最大化熵用最小二乘法来表达。最小二乘法是一种在误差估计、不确定度、系统辨识及预测、预报等数据处理诸多学科领域得到广泛应用的数学工具。

S206，基于所述线性回归方程计算目标特征变量的均方误差和总平方和。

具体的，服务器在完成线性回归方程的构建后，基于线性回归方程计算目标特征变量的均方误差和总平方和，均方误差和总平方和为关键程度特征变量的中间评价因子，用于评价特征变量是否为必要变量。均方误差的具体计算公式如下：

总平方和的具体计算公式如下：

S207，基于所述均方误差和所述总平方和计算所述目标特征变量的决定系数，并基于所述决定系数对所述目标特征变量进行评价。

具体的，服务器基于均方误差和总平方和计算目标特征变量的决定系数，决定系数直接反应了待评价特征变量的关键程度，通过比对决定系数与预设阈值，当决定系数大于或等于预设阈值时，确定目标特征变量为必要变量，当决定系数小于预设阈值时，确定目标特征变量为非必要变量。

在上述实施例中，本申请考虑到不同客户端的特征数据之间的关联关系，因此在对不同客户端中存储的特征数据和特征标签进行分箱，分别计算特征数据的加权平均值，得到第一加权平均值，以及计算特征标签的加权平均值，得到第二加权平均值，基于第一加权平均值和第二加权平均值构建线性回归方程，基于线性回归方程计算目标特征变量的均方误差和总平方和，基于均方误差和总平方和计算目标特征变量的决定系数，并基于决定系数对目标特征变量进行评价。本申请在实现多客户端联合的变量分析过程中，仅在多客户端之间传递加权平均值、均方误差、总平方和等中间评价因子，而不需要对特征数据和特征标签进行转移，因此可以在保护数据隐私的情况下实现多客户端联合的变量分析。

具体的，服务器获取特征数据的分箱信息，并将分箱信息发送至第二参与方中，基于分箱信息对对第二参与方中的特征标签进行分箱操作，得到特征标签集合。

在本申请具体的实施例中，对参与方A中的特征数据进行数据分箱，假设分了q个数据箱，在完成参与方A的分箱操作后，遍历每一个数据箱中特征数据的id，得到参与方A特征数据的分箱情况，并将参与方A的分箱情况发送给B，参与方B根据参与方A发送的分箱情况，对对应id的标签y进行对应的分箱。

在上述实施例中，通过获取参与方A的分箱信息，并根据参与方A的分箱信息对参与方B中的特征标签进行分箱，保证参与方A和参与方B的分箱结果的结构一致，以减少分箱差异带来的误差。

计算第一加权结果的平均值，得到所述第一加权平均值。

计算第二加权结果的平均值，得到所述第一加权平均值；

具体的，服务器先通过预设的特征权重算法计算所述数据特征集合中每一个特征数据的特征权重和所述特征标签集合中每一个特征标签的特征权重，其中，服务器先对数据特征集合中的特征数据进行分类，得到多个特征数据组，然后为分类后的每一个特征数据赋予初始权重，例如初始权重为“0.5”。在基于特征权重算法计算同一类别的特征数据组中特征数据的相似度，得到第一相似度，计算不同类别的特征数据组之间特征数据的相似度，得到第二相似度，基于第一相似度和第二相似度对特征数据的初始权重进行调整，得到每一个特征数据的特征权重，即第一权重。例如，当第一相似度的第二相似度差值大于或等于预设相似度阈值时，下调初始权重。同理，按照上述计算过程计算得到每一个特征标签的特征权重，即第二权重。

然后服务器基于第一权重对数据特征集合中特征数据进行加权求和，得到第一加权结果，以及基于第二权重对特征标签集合中的特征标签进行加权求和，得到第二加权结果。最后，服务器计算第一加权结果的平均值，得到第一加权平均值，以及计算第二加权结果的平均值，得到第一加权平均值。

在上述实施例中，考虑到不同客户端的特征数据之间的关联关系，因此在对不同客户端中存储的特征数据和特征标签进行分箱，分别计算特征数据的加权平均值，得到第一加权平均值，以及计算特征标签的加权平均值，得到第二加权平均值，通过对特征进行赋权、加权、求和、求平均值等操作实现特征关联，以保证提取到尽可能多的特征。

进一步地，所述线性回归方程的表达式如下：

f(x _t)＝a ₀+a ₁x _t

其中，x _ti是第i个数据特征的特征值，

为特征标签集合中特征标签的标签平均值，即第二加权平均值。

在本申请具体的实施例中，待评价特征变量的中间评价因子在不同客户端进行传递时，可以通过同态加密算法对需要进行传递的中间评价因子进行加密，以进一步保证数据安全。例如，在上述实施例中，服务器在计算线性回归参量时，先由参与方A计算平均差

然后在参与方A通过同态加密对平均差u _i进行加密，得到加密后的平均差[u _i]，服务器将[u _i]发送给参与方B，参与方B对[u _i]进行解密，得到u _i，并计算标准差

然后在参与方B通过同态加密对标准差v进行加密，得到加密后的标准差[v]，服务器将[v]发送个参与方A，参与方A对[v]进行解密，得到v，并根据v计算回归参数a ₁和真实值

并在参与方A通过同态加密对真实值o进行加密，得到加密后的真实值[o]，然后将真实值[o]发送给参与方B，由参与方计算回归参数

其中，同态加密是基于数学难题的计算复杂性理论的密码学技术。对经过同态加密的数据进行处理得到一个输出，将这一输出进行解密，其结果与用同一方法处理未加密的原始数据得到的输出结果是一样的。同态加密包含一对公私密钥(pk,sk)，用[]表征用pk _h进行加密后的同态加密，例如m为明文，[m]＝Enc _pk(m)则为同态加密后的密文。

在上述实施例中，通过同态加密算法对需要进行传递的中间评价因子进行加密，以进一步保证数据安全。

将所述决定系数与预设阈值进行比对；

在上述实施例中，服务器在计算目标特征变量的决定系数之前，先由参与方A计算中间参量w _1i和w _2i，其中，

w _2i＝a ₁x _ti，然后在参与方A通过同态加密对中间参量w _1i和w _2i进行加密，得到加密后的中间参量

和[w _2i]＝Enc _pk(a ₁x _ti)，服务器将[w _1i]和[w _2i]发送个参与方B，参与方B对[w _1i]和[w _2i]进行解密，得到中间参量w _1i和w _2i，由参与方B计算均方误差RMSE、总平方和SST，最后参与方B通过同态加密对均方误差 RMSE、总平方和SST进行加密，得到加密后的均方误差[RMSE]、总平方和[SST]，并将加密后的均方误差[RMSE]、总平方和[SST]发送给服务器，由服务器计算决定系数R ²，并基于决定系数对目标特征变量进行评价。其中：

在本申请一种具体的实施例中，服务器对目标特征变量进行评价时，将决定系数与预设阈值进行比对，当决定系数大于或等于预设阈值时，确定目标特征变量为必要变量，当决定系数小于预设阈值时，确定目标特征变量为非必要变量。

需要强调的是，为进一步保证上述特征数据和特征标签的私密和安全性，上述特征数据和特征标签还可以存储于一区块链的节点中。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

进一步参考图3，作为对上述图2所示方法的实现，本申请提供了一种特征变量的分析装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图3所示，本实施例所述的特征变量的分析装置包括：

第一分箱模块301，用于对第一参与方中的特征数据进行分箱操作，得到数据特征集合；

第二分箱模块302，用于对第二参与方中的特征标签进行分箱操作，得到特征标签集合；

第一加权平均模块303，用于计算所述数据特征集合中的特征数据的加权平均值，得到第一加权平均值；

第二加权平均模块304，用于计算所述特征标签集合中的特征标签的加权平均值，得到第二加权平均值；

线性回归模块305，用于基于所述第一加权平均值和所述第二加权平均值构建线性回归方程；

评价参数计算模块306，用于基于所述线性回归方程计算目标特征变量的均方误差和总平方和；

变量评价模块307，用于基于所述均方误差和所述总平方和计算所述目标特征变量的决定系数，并基于所述决定系数对所述目标特征变量进行评价。

进一步地，所述第二分箱模块302具体包括：

分箱信息获取单元，用于获取所述特征数据的分箱信息，并将所述分箱信息发送至所述第二参与方中；

第二分箱单元，用于基于所述分箱信息对所述对第二参与方中的特征标签进行分箱操作，得到特征标签集合。

进一步地，所述第一加权平均模块303具体包括：

第一权重计算单元，用于基于预设的特征权重算法计算所述数据特征集合中每一个特征数据的特征权重，得到第一权重；

第一加权单元，用于基于所述第一权重对所述数据特征集合中特征数据进行加权求和，得到第一加权结果；

第一均值计算单元，用于计算第一加权结果的平均值，得到所述第一加权平均值。

进一步地，所述第二加权平均模块304具体包括：

第二权重计算单元，用于基于预设的特征权重算法计算所述特征标签集合中每一个特征标签的特征权重，得到第二权重；

第二加权单元单元，用于基于所述第二权重对所述特征标签集合中的特征标签进行加权求和，得到第二加权结果；

第二均值计算单元单元，用于计算第二加权结果的平均值，得到所述第一加权平均值；

进一步地，所述线性回归模块305具体包括：

回归参量计算单元，用于基于所述第一加权平均值和所述第二加权平均值计算所述线性回归方程的线性回归参量；

回归方程构建单元，用于基于所述线性回归参量和预设的最小二乘法构建所述线性回归方程。

进一步地，所述线性回归方程的表达式如下：

f(x _t)＝a ₀+a ₁x _t

其中，x _ti是第i个数据特征的特征值，

为所有特征标签y' _i的标签平均值，即第二加权平均值。

其中，R ²为决定系数，RMSE为均方误差，SST为总平方和，所述变量评价模块307具体包括：

评价比对单元，用于将所述决定系数与预设阈值进行比对；

第一评价结果单元，用于当所述决定系数大于或等于预设阈值时，确定所述目标特征变量为必要变量；

第二评价结果单元，用于当所述决定系数小于预设阈值时，确定所述目标特征变量为非必要变量。

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图4，图4为本实施例计算机设备基本结构框图。

所述计算机设备4包括通过系统总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是，图中仅示出了具有组件41-43的计算机设备4，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable Gate Array，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器41至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器41可以是所述计算机设备4的内部存储单元，例如该计算机设备4的硬盘或内存。本实施例中，所述存储器41通常用于存储安装于所述计算机设备4的操作系统和各类应用软件，例如特征变量的分析方法的计算机可读指令等。此外，所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器42在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中，所述处理器42用于运行所述存储器41中存储的计算机可读指令或者处理数据，例如运行所述特征变量的分析方法的计算机可读指令。

所述网络接口43可包括无线网络接口或有线网络接口，该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质可以是非易失性，也可以是易失性，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令可被至少一个处理器执行，以使所述至少一个处理器执行如上述的特征变量的分析方法的步骤。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

Claims

一种特征变量的分析方法，包括：

对第一参与方中的特征数据进行分箱操作，得到数据特征集合；

对第二参与方中的特征标签进行分箱操作，得到特征标签集合；

计算所述数据特征集合中的特征数据的加权平均值，得到第一加权平均值；

计算所述特征标签集合中的特征标签的加权平均值，得到第二加权平均值；

基于所述第一加权平均值和所述第二加权平均值构建线性回归方程；

基于所述线性回归方程计算目标特征变量的均方误差和总平方和；

基于所述均方误差和所述总平方和计算所述目标特征变量的决定系数，并基于所述决定系数对所述目标特征变量进行评价。
如权利要求1所述的特征变量的分析方法，其中，所述对第二参与方中的特征标签进行分箱操作，得到特征标签集合包括：

获取所述特征数据的分箱信息，并将所述分箱信息发送至所述第二参与方中；

基于所述分箱信息对所述对第二参与方中的特征标签进行分箱操作，得到特征标签集合。
如权利要求1所述的特征变量的分析方法，其中，所述计算所述数据特征集合中的特征数据的加权平均值，得到第一加权平均值包括：

基于预设的特征权重算法计算所述数据特征集合中每一个特征数据的特征权重，得到第一权重；

基于所述第一权重对所述数据特征集合中特征数据进行加权求和，得到第一加权结果；

计算第一加权结果的平均值，得到所述第一加权平均值。
如权利要求1所述的特征变量的分析方法，其中，所述计算所述特征标签集合中的特征标签的加权平均值，得到第二加权平均值包括：

基于预设的特征权重算法计算所述特征标签集合中每一个特征标签的特征权重，得到第二权重；

基于所述第二权重对所述特征标签集合中的特征标签进行加权求和，得到第二加权结果；

计算第二加权结果的平均值，得到所述第一加权平均值。
如权利要求1至4任意一项所述的特征变量的分析方法，其中，所述基于所述第一加权平均值和所述第二加权平均值构建线性回归方程包括：

基于所述第一加权平均值和所述第二加权平均值计算所述线性回归方程的线性回归参量；

基于所述线性回归参量和预设的最小二乘法构建所述线性回归方程。
如权利要求5所述的特征变量的分析方法，其中，所述线性回归方程的表达式如下：

f(x _t)＝a ₀+a ₁x _t

其中，a ₀和a ₁均为线性回归参量，x _t为数据特征，a ₀和a ₁的具体计算公式如下：

其中，x _ti是第i个数据特征的特征值，
为数据特征集合中数据特征的特征平均值，即第一加权平均值，y _i是第i个特征标签的标签值，
为所有特征标签y' _i的标签平均值，即第二加权平均值。
如权利要求5所述的特征变量的分析方法，其中，所述目标特征变量的决定系数的具体计算公式如下：

其中，R ²为决定系数，RMSE为均方误差，SST为总平方和，所述基于所述决定系数对所述目标特征变量进行评价的包括：

将所述决定系数与预设阈值进行比对；

当所述决定系数大于或等于预设阈值时，确定所述目标特征变量为必要变量；

当所述决定系数小于预设阈值时，确定所述目标特征变量为非必要变量。
一种特征变量的分析装置，包括：

第一分箱模块，用于对第一参与方中的特征数据进行分箱操作，得到数据特征集合；

第二分箱模块，用于对第二参与方中的特征标签进行分箱操作，得到特征标签集合；

第一加权平均模块，用于计算所述数据特征集合中的特征数据的加权平均值，得到第一加权平均值；

第二加权平均模块，用于计算所述特征标签集合中的特征标签的加权平均值，得到第二加权平均值；

线性回归模块，用于基于所述第一加权平均值和所述第二加权平均值构建线性回归方程；

评价参数计算模块，用于基于所述线性回归方程计算目标特征变量的均方误差和总平方和；

变量评价模块，用于基于所述均方误差和所述总平方和计算所述目标特征变量的决定系数，并基于所述决定系数对所述目标特征变量进行评价。
一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如下特征变量的分析方法的步骤：

对第一参与方中的特征数据进行分箱操作，得到数据特征集合；

对第二参与方中的特征标签进行分箱操作，得到特征标签集合；

计算所述数据特征集合中的特征数据的加权平均值，得到第一加权平均值；

计算所述特征标签集合中的特征标签的加权平均值，得到第二加权平均值；

基于所述第一加权平均值和所述第二加权平均值构建线性回归方程；

基于所述线性回归方程计算目标特征变量的均方误差和总平方和；

基于所述均方误差和所述总平方和计算所述目标特征变量的决定系数，并基于所述决定系数对所述目标特征变量进行评价。
如权利要求9所述的计算机设备，其中，所述对第二参与方中的特征标签进行分箱操作，得到特征标签集合包括：

获取所述特征数据的分箱信息，并将所述分箱信息发送至所述第二参与方中；

基于所述分箱信息对所述对第二参与方中的特征标签进行分箱操作，得到特征标签集合。
如权利要求9所述的计算机设备，其中，所述计算所述数据特征集合中的特征数据的加权平均值，得到第一加权平均值包括：

基于预设的特征权重算法计算所述数据特征集合中每一个特征数据的特征权重，得到第一权重；

基于所述第一权重对所述数据特征集合中特征数据进行加权求和，得到第一加权结果；

计算第一加权结果的平均值，得到所述第一加权平均值。
如权利要求9所述的计算机设备，其中，所述计算所述特征标签集合中的特征标签的加权平均值，得到第二加权平均值包括：

基于预设的特征权重算法计算所述特征标签集合中每一个特征标签的特征权重，得到第二权重；

基于所述第二权重对所述特征标签集合中的特征标签进行加权求和，得到第二加权结果；

计算第二加权结果的平均值，得到所述第一加权平均值。
如权利要求9至12任意一项所述的计算机设备，其中，所述基于所述第一加权平均值和所述第二加权平均值构建线性回归方程包括：

基于所述第一加权平均值和所述第二加权平均值计算所述线性回归方程的线性回归参量；

基于所述线性回归参量和预设的最小二乘法构建所述线性回归方程。
如权利要求13所述的计算机设备，其中，所述线性回归方程的表达式如下：

f(x _t)＝a ₀+a ₁x _t

其中，a ₀和a ₁均为线性回归参量，x _t为数据特征，a ₀和a ₁的具体计算公式如下：

其中，x _ti是第i个数据特征的特征值，
为数据特征集合中数据特征的特征平均值，即第一加权平均值，y _i是第i个特征标签的标签值，
为所有特征标签y' _i的标签平均值，即第二加权平均值。
一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如下特征变量的分析方法的步骤：

对第一参与方中的特征数据进行分箱操作，得到数据特征集合；

对第二参与方中的特征标签进行分箱操作，得到特征标签集合；

计算所述数据特征集合中的特征数据的加权平均值，得到第一加权平均值；

计算所述特征标签集合中的特征标签的加权平均值，得到第二加权平均值；

基于所述第一加权平均值和所述第二加权平均值构建线性回归方程；

基于所述线性回归方程计算目标特征变量的均方误差和总平方和；

基于所述均方误差和所述总平方和计算所述目标特征变量的决定系数，并基于所述决定系数对所述目标特征变量进行评价。
如权利要求15所述的计算机可读存储介质，其中，所述对第二参与方中的特征标签进行分箱操作，得到特征标签集合包括：

获取所述特征数据的分箱信息，并将所述分箱信息发送至所述第二参与方中；

基于所述分箱信息对所述对第二参与方中的特征标签进行分箱操作，得到特征标签集合。
如权利要求15所述的计算机可读存储介质，其中，所述计算所述数据特征集合中的特征数据的加权平均值，得到第一加权平均值包括：

基于预设的特征权重算法计算所述数据特征集合中每一个特征数据的特征权重，得到第一权重；

基于所述第一权重对所述数据特征集合中特征数据进行加权求和，得到第一加权结果；

计算第一加权结果的平均值，得到所述第一加权平均值。
如权利要求15所述的计算机可读存储介质，其中，所述计算所述特征标签集合中的特征标签的加权平均值，得到第二加权平均值包括：

基于预设的特征权重算法计算所述特征标签集合中每一个特征标签的特征权重，得到第二权重；

基于所述第二权重对所述特征标签集合中的特征标签进行加权求和，得到第二加权结果；

计算第二加权结果的平均值，得到所述第一加权平均值。
如权利要求15至18任意一项所述的计算机可读存储介质，其中，所述基于所述第一加权平均值和所述第二加权平均值构建线性回归方程包括：

基于所述第一加权平均值和所述第二加权平均值计算所述线性回归方程的线性回归参量；

基于所述线性回归参量和预设的最小二乘法构建所述线性回归方程。
如权利要求19所述的计算机可读存储介质，其中，所述线性回归方程的表达式如下：

f(x _t)＝a ₀+a ₁x _t

其中，a ₀和a ₁均为线性回归参量，x _t为数据特征，a ₀和a ₁的具体计算公式如下：

其中，x _ti是第i个数据特征的特征值，
为数据特征集合中数据特征的特征平均值，即第一加权平均值，y _i是第i个特征标签的标签值，
为所有特征标签y' _i的标签平均值，即第二加权平均值。