WO2016054988A1

WO2016054988A1 - 识别智能设备用户的方法和装置

Info

Publication number: WO2016054988A1
Application number: PCT/CN2015/091226
Authority: WO
Inventors: 沈进东
Original assignee: 阿里巴巴集团控股有限公司; 沈进东
Priority date: 2014-10-09
Filing date: 2015-09-30
Publication date: 2016-04-14
Also published as: HK1223712A1; CN105573999A; CN105573999B

Abstract

一种识别智能设备用户的方法和装置，该识别智能设备用户的方法包括对用户的网络行为数据进行提取，确定所述网络行为数据中的特征变量（S11）；获取第一变量值和第二变量值，所述第一变量值包括待检测的设备用户的所述特征变量的变量值，所述第二变量值包括预先确定的正样本的所述特征变量的变量值（S12）；计算所述第一变量值与所述第二变量值之间的距离信息（S13）；根据所述距离信息，识别智能设备用户（S14）。该方法能够提高智能设备用户的识别效果。

Description

识别智能设备用户的方法和装置

技术领域

本申请涉及数据处理技术领域，尤其涉及一种识别智能设备用户的方法和装置。

背景技术

用户可以通过客户端设备进行网络通信，客户端设备可以包括非智能设备和智能设备，非智能设备例如个人电脑(Personal Computer，PC)，智能设备例如智能手机或者平板电脑等。由于业务需要，一些情况下需要识别用户是智能设备用户还是非智能设备用户，以便进行相应的业务引导，例如，对于智能设备用户，可以引导用户进行话费充值或者进行短信营销等。

相关技术中，识别智能设备用户的方式主要是基于已有的包含智能设备型号的用户访问日志，根据用户访问日志中记录的智能设备型号识别出智能设备用户。

但是，当智能设备用户没有采用智能设备进行网络访问时，在用户访问日志中不会记录智能设备信息，此时采用上述的方式不能识别出智能设备用户，导致上述方式的识别效果不理想。

发明内容

本申请旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本申请的一个目的在于提出一种识别智能设备用户的方法，该方法能够提高智能设备用户的识别效果。

本申请的另一个目的在于提出一种识别智能设备用户装置。

为达到上述目的，本申请第一方面实施例提出的识别智能设备用户的方法，包括：对用户的网络行为数据进行提取，确定所述网络行为数据中的特征变量；获取第一变量值和第二变量值，所述第一变量值包括待检测的设备用户的所述特征变量的变量值，所述第二变量值包括预先确定的正样本的所述特征变量的变量值；计算所述第一变量值与所述第二变量值之间的距离信息；根据所述距离信息，识别智能设备用户。

本申请第一方面实施例提出的识别智能设备用户的方法，通过对用户的网络行为数据进行提取，确定网络行为数据中的特征变量，计算待检测的设备用户的特征变量的变量值，与预先确定的正样本的特征变量的变量值之间的距离信息，根据该距离信息，识别智能设备用户，可以实现基于用户的网络行为数据的智能设备用户识别，由于本实施例不依赖用户访问日志中的智能设备信息，因此，当用户访问日志中没有智能设备信息时，依然可以识别出智能设备用户，从而提高识别效果。

为达到上述目的，本申请第二方面实施例提出的识别智能设备用户的装置，包括：确定模块，用于对用户的网络行为数据进行提取，确定所述网络行为数据中的特征变量；获取模块，用于获取第一变量值和第二变量值，所述第一变量值包括待检测的设备用户的所述特征变量的变量值，所述第二变量值包括预先确定的正样本的所述特征变量的变量值；计算模块，用于计算所述第一变量值与所述第二变量值之间的距离信息；识别模块，用于根据所述距离信息，识别智能设备用户。

本申请第二方面实施例提出的识别智能设备用户的装置，通过对用户的网络行为数据进行提取，确定网络行为数据中的特征变量，计算待检测的设备用户的特征变量的变量值，与预先确定的正样本的特征变量的变量值之间的距离信息，根据该距离信息，识别智能设备用户，可以实现基于用户的网络行为数据的智能设备用户识别，由于本实施例不依赖用户访问日志中的智能设备信息，因此，当用户访问日志中没有智能设备信息时，依然可以识别出智能设备用户，从而提高识别效果。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本申请一实施例提出的识别智能设备用户的方法的流程示意图；

图2是本申请另一实施例提出的识别智能设备用户的方法的流程示意图；

图3是本申请另一实施例提出的识别智能设备用户的装置的结构示意图；

图4是本申请另一实施例提出的识别智能设备用户的装置的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能理解为对本申请的限制。相反，本申请的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

图1是本申请一实施例提出的识别智能设备用户的方法的流程示意图，该方法包括：

S11：对用户的网络行为数据进行提取，确定所述网络行为数据中的特征变量。

其中，用户的网络行为数据包括：网站登录时的数据，例如，登录时间，登录地点等；访问记录数据，例如，用户浏览的商品信息等；充值数据；支付行为数据；交易数据；提现数据；注册手机号、购物行为数据等中的一项或者多项。

特征变量是从用户的网络行为数据中提取出的预设个数的变量，是正样本和负样本差异较大的变量。

具体的，所述对用户的网络行为数据进行提取，确定所述网络行为数据中的特征变量，包括：

选取所述正样本和负样本，并获取所述正样本的网络行为数据和所述负样本的网络行为数据，所述正样本是已知的智能设备用户，所述负样本是已知的非智能设备用户；

对所述正样本的网络行为数据和所述负样本的网络行为数据进行差异化计算，获取所述网络行为数据中每个变量的差异化得分；

根据所述差异化得分，确定特征变量。

其中，特征变量是正样本和负样本具有较大差异的变量，例如，可以按照差异化得分从大到小的顺序对变量进行排序，在排序后变量中依次选择预设个数的变量作为特征变量。

S12：获取第一变量值和第二变量值，所述第一变量值包括待检测的设备用户的所述特征变量的变量值，所述第二变量值包括预先确定的正样本的所述特征变量的变量值。

其中，从待检测的设备用户的用户访问日志中可以获取第一变量值；

从正样本的用户访问日志中可以获取第二变量值。

具体的，对于正样本，第二变量值可以是从确定正样本时采用的用户访问日志中获取的，例如，根据2012年初至2013年底确定出正样本，之后可以根据正样本在2012年初至2013年底的用户访问日志中获取第二变量值，例如获取登录时间的登录值等。当然，可以理解的是，由于智能设备或非智能设备在不同的时间段会具有一致的访问行为，因此也可以根据其他时间段的用户访问日志获取，例如，也可以从已经存在的2014年的用户访问日志中获取，例如，智能手机在2012年初至2013年底的登录时间通常是早上，那么该智能手机在2014年的登录时间依然通常会是在早上。

预先确定的正样本是指从已知的智能设备用户中选取的预设个数的智能设备用户，已知的智能设备用户可以是预设时间段内的智能设备用户，选取时可以随机选择。具体的，可以根据服务端预先获取的历史数据，确定智能设备用户和非智能设备用户，从所述智能设备用户中随机选取预设个数的用户确定为正样本，从所述非智能设备用户中随机选择所述预设个数的用户确定为负样本。

以智能设备是智能手机为例，例如，根据用户访问日志，可以筛选出2012年初至2013年底有过智能手机访问记录的用户，这些用户是已知的智能设备用户，之后可以从这些已知的智能设备用户中随机挑取50万个用户作为正样本。

根据用户访问日志，可以筛选出2013年底之前没有过智能手机访问记录的用户，而2013年底之后有过智能手机访问记录的用户，这些用户在2013年底之间可以看作非智能设备用户，之后可以从这些非智能设备用户中随机选取50万个用户作为负样本。

S13：计算所述第一变量值与所述第二变量值之间的距离信息。

具体地，可以根据每个正样本的所述特征变量的变量值，确定中心值，计算所述第一变量值与所述中心值之间的距离值。

例如，待检测设备是X，正样本包括Y1，Y2，Y3，特征变量是A，B，C，则可以计算Y1(A，B，C)，Y2(A，B，C)，Y3(A，B，C)的中心点，假设中心点是O(A，B，C)，进而计算X(A，B，C)与O(A，B，C)的空间距离，得到距离值。

S14：根据所述距离信息，识别智能设备用户。

具体的，该步骤可以包括：

将所述距离值确定为评分值；

对所述评分值进行归一化处理，得到归一化后的评分值；

当所述归一化后的评分值大于预设阈值时，确定所述待检测的设备用户是智能设备用户。

其中，预设阈值根据具体的业务需求来确定。例如，将评分值归一化到0-10之内，预设阈值例如6，如果评分值大于6，则可以确定为智能设备用户。

本实施例通过对用户的网络行为数据进行提取，确定网络行为数据中的特征变量，计算待检测的设备用户的特征变量的变量值，与预先确定的正样本的特征变量的变量值之间的距离信息，根据该距离信息，识别智能设备用户，可以实现基于用户的网络行为数据的智能设备用户识别，由于本实施例不依赖用户访问日志中的智能设备信息，因此，当用户访问日志中没有智能设备信息时，依然可以识别出智能设备用户，从而提高识别效果。

图2是本申请一实施例提出的识别智能设备用户的方法的流程示意图，该方法包括：

S21：获取正样本和负样本。

其中，正样本指已知的智能设备用户，负样本是已知的非智能设备用户。

可以根据服务端预先获取的历史数据，确定智能设备用户和非智能设备用户。具体地，历史数据中可以包括设备信息和访问时间信息。

可以将访问时间信息在预设时间点之前预设时间段内，且设备信息是智能设备信息的用户，确定为智能设备用户；将访问时间信息在所述预设时间点之后所述设备信息是智能设备信息，且在所述预设时间点之前所述设备信息是非智能设备信息，确定为非智能设备用户。

例如，预设时间点是2014年年初，预设时间段是2012年初到2013年底，当2012年初到2013年底有过智能设备访问记录的用户可以看作智能设备用户，而2014年之前没有过智能设备访问记录而2014年之后有过智能设备访问记录的用户可以看作非智能设备用户。

之后，可以从智能设备用户中随机选取预设个数的用户确定为正样本，从非智能设备用户中随机选择预设个数的用户确定为负样本。预设个数例如50万个。

S22：获取正样本的网络行为数据和负样本的网络行为数据。

具体地，可以获取预设时间点之前预设时间段内，正样本的网络行为数据和负样本的网络行为数据。

例如，获取正样本在2012年初到2013年底的网络行为数据，以及负样本在2012年初到2013年底的网络行为数据。

网络行为数据可以包括：选取预设个数的网络行为变量，之后获取该选取的网络行为变量的数据，网络行为变量可以包括网站登录，访问记录，充值，支付，交易，提现，注册手机号，购物行为等。

预设个数例如为130个，则可以在上述的网络行为变量中选择130个变量，并获取相应变量的数据作为网络行为数据。选择时，可以随机选择，或者根据预设相关性算法，选择最相关的变量。

S23：根据正样本的网络行为数据和负样本的网络行为数据，确定特征变量。

其中，可以对正样本的网络行为数据和负样本的网络行为数据进行差异化计算，获取网络行为数据中每个变量的差异化得分，并根据差异化得分，确定特征变量。

其中，差异化计算采用的算法可以包括：群体稳定性指标(Population Stability Index，PSI)算法和/或有效距离(Effective Size，ES)算法。PSI算法和/或ES算法可以在信息检索系统(Sequence Retrieval System，SRS)中执行。

具体的，当采用PSI算法和ES算法进行所述差异化计算时，所述根据所述差异化得分，确定特征变量，包括：

根据所述PSI算法，计算所述每个变量的差异化得分，并根据所述差异化得分降序选择第一组变量；

根据所述ES算法，计算所述每个变量的差异化得分，并根据所述差异化得分降序选择第二组变量；

按照重复变量、差异化得分的选择顺序，在所述第一组变量和所述第二组变量中选择预设个数的变量，确定为特征变量。

例如，根据PSI算法可以得到差异较大的30个变量作为第一组变量，根据ES算法，从ES>20的变量选择差异较大的30个变量作为第二组变量。之后，在第一组变量和第二组变量中选择20个重复变量，当重复变量不够20个时，可以根据差异值选择差异较大的变量，最终得到20个特征变量。

S24：获取第一变量值和第二变量值，所述第一变量值包括待检测的设备用户的所述特征变量的变量值，所述第二变量值包括预先确定的正样本的所述特征变量的变量值。

其中，在确定出特征变量后，从待检测的设备用户的用户访问日志中可以获取特征变量的变量值，得到第一变量值；从正样本的用户访问日志中可以获取特征变量的变量值，得到第二变量值。

S25：计算所述第一变量值与所述第二变量值之间的距离信息。

具体地，可以根据每个正样本的特征变量的变量值，确定中心值，计算第一变量值与中心值之间的距离值。

例如，待检测的设备用户是X，正样本包括Y1，Y2，Y3，特征变量是A，B，C，则可以计算Y1(A，B，C)，Y2(A，B，C)，Y3(A，B，C)的中心点，假设中心点O(A，B，C)，进而计算X(A，B，C)与O(A，B，C)的空间距离，确定距离值。

S26：根据所述距离信息，识别智能设备用户。

可以将距离值确定为评分值；对评分值进行归一化处理，得到归一化后的评分值；当归一化后的评分值大于预设阈值时，确定待检测的设备用户是智能设备用户，其中，预设阈值根据具体的业务需求来确定。

例如，在根据距离值得到评分值后，将评分值归一化到0-10之内，预设阈值例如6，如果待检测的设备用户的评分值大于6，则可以确定待检测的设备用户为智能设备用户。

在实施本发明中，可以使用一种专用的数据处理、统计计算语言(SAS语言)，基于HADOOP的hiveSql实现。

本实施例通过对用户的网络行为数据进行提取，确定网络行为数据中的特征变量，计算待检测的设备用户的特征变量的变量值，与预先确定的正样本的特征变量的变量值之间的距离信息，根据该距离信息，识别智能设备用户，可以实现基于用户的网络行为数据的智能设备用户识别，由于本实施例不依赖用户访问日志中的智能设备信息，因此，当用户访问日志中没有智能设备信息时，依然可以识别出智能设备用户，从而提高识别效果。本实施例在差异化计算时可以采用不同算法结合运算，可以确定出更为准确的特征变量，进一步提高识别效果。

图3是本申请另一实施例提出的识别智能设备用户的装置的结构示意图，该装置30包括确定模块31、获取模块32、计算模块33以及识别模块34。

确定模块31用于对用户的网络行为数据进行提取，确定所述网络行为数据中的特征变量。

一个实施例中，参见图4，所述确定模块31包括：

第一单元311，用于选取所述正样本和负样本，并获取所述正样本的网络行为数据和所述负样本的网络行为数据，所述正样本是已知的智能设备用户，所述负样本是已知的非智能设备用户。

另一个实施例中，所述第一单元311具体用于根据服务端预先获取的历史数据，确定智能设备用户和非智能设备用户；

从所述智能设备用户中随机选取预设个数的用户确定为正样本，从所述非智能设备用户中随机选择所述预设个数的用户确定为负样本。

预设个数例如50万个。

另一个实施例中，所述第一单元311进一步具体用于从服务端预先获取的历史数据中获取设备信息和访问时间信息；将访问时间信息在预设时间点之前预设时间段内，且设备信息是智能设备信息的用户，确定为智能设备用户；将访问时间信息在所述预设时间点之后所述设备信息是智能设备信息，且在所述预设时间点之前所述设备信息是非智能设备信息，确定为非智能设备用户。

另一个实施例中，所述第一单元311进一步具体用于获取所述预设时间点之前预设时间段内，所述正样本的网络行为数据和所述负样本的网络行为数据。

第二单元312，对所述正样本的网络行为数据和所述负样本的网络行为数据进行差异化计算，获取所述网络行为数据中每个变量的差异化得分。

另一个实施例中，所述第二单元具体用于采用PSI算法和/或ES算法，对所述正样本的网络行为数据和所述负样本的网络行为数据进行差异化计算。

第三单元313，根据所述差异化得分，确定特征变量。

另一个实施例中，当采用PSI算法和ES算法进行所述差异化计算时，所述第三单元313具体用于根据所述PSI算法，计算所述每个变量的差异化得分，并根据所述差异化得分降序选择第一组变量；

获取模块32用于获取第一变量值和第二变量值，所述第一变量值包括待检测的设备用户的所述特征变量的变量值，所述第二变量值包括预先确定的正样本的所述特征变量的变量值。

计算模块33用于计算所述第一变量值与所述第二变量值之间的距离信息。

另一个实施例中，所述计算模块33具体用于根据每个正样本的所述特征变量的变量值，确定中心值，计算所述第一变量值与所述中心值之间的距离值。

另一个实施例中，所述计算模块33进一步具体用于对每个正样本的所述特征变量的变量值，采用最小距离算法，确定中心值。

识别模块34用于根据所述距离信息，识别智能设备用户。

另一个实施例中，所述识别模块34具体用于将所述距离值确定为评分值；对所述评分值进行归一化处理，得到归一化后的评分值；当所述归一化后的评分值大于预设阈值时，确定所述待检测的设备用户是智能设备用户。

需要说明的是，在本申请的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本申请的描述中，除非另有说明，“多个”的含义是两个或两个以上。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

一种识别智能设备用户的方法，其特征在于，包括：

对用户的网络行为数据进行提取，确定所述网络行为数据中的特征变量；

获取第一变量值和第二变量值，所述第一变量值包括待检测的设备用户的所述特征变量的变量值，所述第二变量值包括预先确定的正样本的所述特征变量的变量值；

计算所述第一变量值与所述第二变量值之间的距离信息；

根据所述距离信息，识别智能设备用户。
根据权利要求1所述的方法，其特征在于，所述对用户的网络行为数据进行提取，确定所述网络行为数据中的特征变量，包括：

选取所述正样本和负样本，并获取所述正样本的网络行为数据和所述负样本的网络行为数据，所述正样本是已知的智能设备用户，所述负样本是已知的非智能设备用户；

对所述正样本的网络行为数据和所述负样本的网络行为数据进行差异化计算，获取所述网络行为数据中每个变量的差异化得分；

根据所述差异化得分，确定特征变量。
根据权利要求2所述的方法，其特征在于，所述根据所述差异化得分，确定特征变量，包括：

根据所述差异化得分从高到低的顺序，对所述变量进行排序；

从排序后的变量中依次选择预设个数的变量作为所述特征变量。
根据权利要求2所述的方法，其特征在于，所述对所述正样本的网络行为数据和所述负样本的网络行为数据进行差异化计算，包括：

采用PSI算法和/或ES算法，对所述正样本的网络行为数据和所述负样本的网络行为数据进行差异化计算。
根据权利要求4所述的方法，其特征在于，当采用PSI算法和ES算法进行所述差异化计算时，所述根据所述差异化得分，确定特征变量，包括：

根据所述PSI算法，计算所述每个变量的差异化得分，并根据所述差异化得分降序选择第一组变量；

根据所述ES算法，计算所述每个变量的差异化得分，并根据所述差异化得分降序选择第二组变量；

按照重复变量、差异化得分的选择顺序，在所述第一组变量和所述第二组变量中选择预设个数的变量，确定为特征变量。
根据权利要求2所述的方法，其特征在于，所述选取正样本和负样本，包括：

根据服务端预先获取的历史数据，确定智能设备用户和非智能设备用户；

从所述智能设备用户中随机选取预设个数的用户确定为正样本，从所述非智能设备用户中随机选择所述预设个数的用户确定为负样本。
根据权利要求6所述的方法，其特征在于，所述根据服务端预先获取的历史数据，确定智能设备用户和非智能设备用户，包括：

从服务端预先获取的历史数据中获取设备信息和访问时间信息；

将访问时间信息在预设时间点之前预设时间段内，且设备信息是智能设备信息的用户，确定为智能设备用户；

将访问时间信息在所述预设时间点之后所述设备信息是智能设备信息，且在所述预设时间点之前所述设备信息是非智能设备信息，确定为非智能设备用户。
根据权利要求7所述的方法，其特征在于，所述获取所述正样本的网络行为数据和所述负样本的网络行为数据，包括：

获取所述预设时间点之前预设时间段内，所述正样本的网络行为数据和所述负样本的网络行为数据。
根据权利要求1所述的方法，其特征在于，所述计算所述第一变量值与所述第二变量值之间的距离信息，包括：

根据每个正样本的所述特征变量的变量值，确定中心值；

计算所述第一变量值与所述中心值之间的距离值。
根据权利要求9所述的方法，其特征在于，所述根据每个正样本的所述特征变量的变量值，确定中心值，包括：

对每个正样本的所述特征变量的变量值，采用最小距离算法，确定中心值。
根据权利要求1所述的方法，其特征在于，所述根据所述距离信息，识别智能设备用户，包括：

将所述距离值确定为评分值；

对所述评分值进行归一化处理，得到归一化后的评分值；

当所述归一化后的评分值大于预设阈值时，确定所述待检测的设备用户是智能设备用户。
一种识别智能设备用户的装置，其特征在于，包括：

确定模块，用于对用户的网络行为数据进行提取，确定所述网络行为数据中的特征变量；

获取模块，用于获取第一变量值和第二变量值，所述第一变量值包括待检测的设备用户的所述特征变量的变量值，所述第二变量值包括预先确定的正样本的所述特征变量的变量值；

计算模块，用于计算所述第一变量值与所述第二变量值之间的距离信息；

识别模块，用于根据所述距离信息，识别智能设备用户。
根据权利要求12所述的装置，其特征在于，所述确定模块包括：

第一单元，用于选取所述正样本和负样本，并获取所述正样本的网络行为数据和所述负样本的网络行为数据，所述正样本是已知的智能设备用户，所述负样本是已知的非智能设备用户；

第二单元，对所述正样本的网络行为数据和所述负样本的网络行为数据进行差异化计算，获取所述网络行为数据中每个变量的差异化得分；

第三单元，根据所述差异化得分，确定特征变量。