WO2017088587A1

WO2017088587A1 - 一种数据处理方法及装置

Info

Publication number: WO2017088587A1
Application number: PCT/CN2016/100835
Authority: WO
Inventors: 陈庆玉; 谭卫国
Original assignee: 华为技术有限公司
Priority date: 2015-11-24
Filing date: 2016-09-29
Publication date: 2017-06-01
Also published as: CN106776641A; US20180268005A1; EP3373157A1; EP3373157A4; CN106776641B

Abstract

一种数据处理方法，数据处理装置获取第一数据集，确定所述第一数据集的数据特征相对于第二数据集的数据特征的变化，所述第二数据集为所述数据处理装置在获取所述第一数据集之前收到的数据集；当所述第一数据集的数据特征相对于所述第二数据集的数据特征的变化大于或等于预设数据特征阈值时，根据所述第一数据集的数据特征确定超参数；根据所述确定的超参数和所述第一数据集确定第一数据模型；根据所述确定的第一数据模型进行数据处理，提高了确定第一数据模型的效率，从而提高了进行数据处理的效率。

Description

一种数据处理方法及装置

本申请要求于2015年11月24日提交中国专利局、申请号为201510824545.9，发明名称为“一种数据处理方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及计算机领域，尤其涉及一种数据处理方法及装置。

背景技术

数据挖掘是数据库知识发现(Knowledge Discovery in Databases，KDD)中的一个步骤，通过从大量数据中寻找隐藏的关系提取出有价值的信息。数据挖掘的一般流程包括业务理解、数据理解、数据准备、超参数(Hyperparameter)设置、建立模型、模型评估、模型部署，其中，建立模型需要使用超参数，可以使用随机森林算法建立模型，随机森林是一种有监督的集成学习分类技术，其模型由一组决策树分类器组成，模型对数据的分类是通过单个决策树的分类结果进行集体投票来决定最终结果。它结合了Leo Breiman的Bagging集成学习理论与Ho提出的随机子空间方法，通过对训练样本空间和属性空间注入随机性，充分保证了每个决策树之间的独立性和差异性，很好地克服了决策树过拟合问题，同时对噪声和异常值也有较好的鲁棒性(Robust)。

数据挖掘技术主要分为两个发展方向，一个是针对静态数据进行建立模型分析，一个是针对不断变化的数据进行增量建立模型分析。在增量建立模型分析中，当有新的数据集时，需要更新原来已创建的模型，以确保更新后的模型能够反映新的数据集的信息。增量建立模型分析处理的是不断变化的数据集，数据集不同，建立模型所需要使用的超参数就可能不同。因此，为了保证使用新数据集更新原来已创建的模型后，得到的更新后的模型的模型效果不变差，就需要对创建原模型时使用的超参数进行调整。然而，在数据不断变化的情况下，目前对超参数进行调整依赖专家经验，需要专家根据模型效果来调整超参数，效率低下，导致在进行数据处理时的效率低下。

发明内容

本发明的实施例提供一种数据处理方法和装置，能够解决在数据不断变化的情况下，调整超参数依赖专家经验导致超参数调整效率低，从而导致数据处理效率低的问题。

第一方面，提供了一种数据处理方法，包含数据处理装置利用第一数据模型对接收到的数据集进行处理的过程，所述第一数据模型根据超参数确定，所述方法包括：

所述数据处理装置获取第一数据集，确定所述第一数据集的数据特征相对于第二数据集的数据特征的变化，所述第二数据集为所述数据处理装置在获取所述第一数据集之前收到的数据集；

当所述第一数据集的数据特征相对于所述第二数据集的数据特征的变化大于或等于预设数据特征阈值时，根据所述第一数据集的数据特征确定超参数；

根据所述确定的超参数和所述第一数据集确定第一数据模型；

根据所述确定的第一数据模型进行数据处理。

结合第一方面的实现方式，在第一方面第一种可能的实现方式中，所述方法还包括第二数据模型，根据所述第一数据集确定所述第二数据模型的效果；根据所述第一数据集和所述第二数据模型，确定第三数据模型；根据所述第一数据集确定所述第三数据模型的效果；确定所述第三数据模型的效果相对于所述第二数据模型的效果的变化；当所述第三数据模型的效果相对于所述第二数据模型的效果的变化大于或等于预设模型效果阈值时，根据所述第一数据集的数据特征确定超参数。

结合第一方面、第一方面的第一种可能的实现方式，在第二种可能实现的方式中，所述方法还包括窗口长度，所述窗口长度为大于等于1的整数。

结合第一方面、第一方面的第一种至第二种可能的实现方式，在第三种可能实现的方式中，在确定所述第一数据集的数据特征相对于所述第二数据集的数据特征的变化之前，所述方法还包括：

根据所述窗口长度确定第二数据集；

当所述窗口长度大于1时，确定所述第二数据集的数据特征，包括：

确定每个所述第二数据集的数据特征；

则所述确定所述第一数据集的数据特征相对于所述第二数据集的数据特征的变化包括：

确定所述第一数据集的数据特征相对于每个所述第二数据集的数据特征的变化；

则当所述第一数据集的数据特征相对于所述第二数据集的数据特征的变化大于或等于预设数据特征阈值时，根据所述第一数据集的数据特征确定超参数包括：

当所述第一数据集的数据特征相对于至少一个所述第二数据集的数据特征的变化大于或等于预设数据特征阈值时，根据所述第一数据集的数据特征确定超参数。

结合第一方面、第一方面的第一种至第三种可能的实现方式，在第四种可能实现的方式中，在所述根据所述第一数据集确定所述第二数据模型的效果之前，所述方法还包括：

根据所述窗口长度确定第二数据模型；

当所述窗口长度大于1时，所述根据所述第一数据集确定所述第二数据模型的效果包括：

根据所述第一数据集确定每个所述第二数据模型的效果；

则所述确定所述第三数据模型的效果相对于所述第二数据模型的效果的变化包括：

确定所述第三数据模型的效果相对于每个所述第二数据模型的效果的变化；

则所述当所述第三数据模型的效果相对于所述二数据模型的效果的变化大于或等于预设模型效果阈值时，根据所述第一数据集的数据特征确定超参数包括：

当所述第三数据模型的效果相对于至少一个所述第二数据模型的效果的变化大于或等于预设模型效果阈值时，根据所述第一数据集的数据特征确定超参数。

结合第一方面、第一方面的第一种至第四种可能的实现方式，在第五种可能实现的方式中，所述方法还包括超参数模型，所述根据所述第一数据集的数据特征确定超参数包括：

根据所述第一数据集的数据特征和所述超参数模型确定超参数。

结合第一方面、第一方面的第一种至第五种可能的实现方式，在第六种可能实现的方式中，还根据所述第二数据模型确定所述第一数据模型。

结合第一方面、第一方面的第一种至第六种可能的实现方式，在第七种可能实现的方式中，所述数据特征包括样本数、样本数的对数、特征数、特征数的对数、类别数、有缺失值的样本数、有缺失值的样本比例、有缺失值的特征数、有缺失值的特征比例、缺失值数量、缺失值比例、数值型特征的个数、范畴型特征的个数、数值型特征的个数与范畴型特征的个数之比、范畴型特征的个数与数值型特征的个数之比、数据集的维度、数据集的维度的对数、数据集转置后的维度、数据集转置后的维度的对数、类别概率最小值、类别概率最大值、类别概率平均值、类别概率标准差、范畴型数据最少取值数量、范畴型数据最大取值数量、范畴型数据取值数量的平均值、范畴型数据取值数量的标准差、范畴型数据取值总数量、所有特征的峰态的最小值、所有特征的峰态的最大值、所有特征的峰态的平均值、所有特征的峰态的标准差、所有特征的偏态的最小值、所有特征的偏态的最大值、所有特征的偏态的平均值、所有特征的偏态的标准差、标准差比、所有特征的两两相关系数的平均值、类的平均熵、特征的平均熵中的至少一种。

第二方面，提供了一种数据处理装置，所述数据处理装置利用第一数据模型对接收到的数据集进行处理的过程，所述第一数据模型根据超参数确定，其特征在于，所述数据处理装置包括获取模块和处理模块：

所述获取模块，用于获取第一数据集，确定所述第一数据集的数据特征相对于第二数据集的数据特征的变化，所述第二数据集为所述数据处理装置在获取所述第一数据集之前收到的数据集；

所述处理模块，用于当所述第一数据集的数据特征相对于所述第二数据集的数据特征的变化大于或等于预设数据特征阈值时，根据所述第一数据集的数据特征确定超参数；

所述处理模块，还用于根据所述确定的超参数和所述第一数据集确定第一数据模型；

所述处理模块，还用于根据所述确定的第一数据模型进行数据处理。

结合第二方面的实现方式，在第二方面第一种可能的实现方式中，还包括第二数据模型，所述处理模块还用于根据所述第一数据集确定所述第二数据模型的效果；根据所述第一数据集和所述第二数据模型，确定第三数据模型；根据所述第一数据集确定所述第三数据模型的效果；确定所述第三数据模型的效果相对于所述第二数据模型的效果的变化；当所述第三数据模型的效果相对于所述第二数据模型的效果的变化大于或等于预设模型效果阈值时，根据所述第一数据集的数据特征确定超参数。

结合第二方面、第二方面的第一种可能的实现方式，在第二种可能实现的方式中，还包括窗口长度，所述窗口长度为大于等于1的整数。

结合第二方面、第二方面的第一种至第二种可能的实现方式，在第三种可能实现的方式中，在确定所述第一数据集的数据特征相对于所述第二数据集的数据特征的变化之前，所述处理模块还用于：

根据所述窗口长度确定第二数据集；

确定每个所述第二数据集的数据特征；

结合第二方面、第二方面的第一种至第三种可能的实现方式，在第四种可能实现的方式中，在所述根据所述第一数据集确定所述第二数据模型的效果之前，所述处理模块还用于：

根据所述窗口长度确定第二数据模型；

根据所述第一数据集确定每个所述第二数据模型的效果；

结合第二方面、第二方面的第一种至第四种可能的实现方式，在第五种可能实现的方式中，还包括超参数模型，所述根据所述第一数据集的数据特征确定超参数包括：

结合第二方面、第二方面的第一种至第五种可能的实现方式，在第六种可能实现的方式中，还根据所述第二数据模型确定所述第一数据模型。

结合第二方面、第二方面的第一种至第六种可能的实现方式，在第七种可能实现的方式中，所述数据特征包括样本数、样本数的对数、特征数、特征数的对数、类别数、有缺失值的样本数、有缺失值的样本比例、有缺失值的特征数、有缺失值的特征比例、缺失值数量、缺失值比例、数值型特征的个数、范畴型特征的个数、数值型特征的个数与范畴型特征的个数之比、范畴型特征的个数与数值型特征的个数之比、数据集的维度、数据集的维度的对数、数据集转置后的维度、数据集转置后的维度的对数、类别概率最小值、类别概率最大值、类别概率平均值、类别概率标准差、范畴型数据最少取值数量、范畴型数据最大取值数量、范畴型数据取值数量的平均值、范畴型数据取值数量的标准差、范畴型数据取值总数量、所有特征的峰态的最小值、所有特征的峰态的最大值、所有特征的峰态的平均值、所有特征的峰态的标准差、所有特征的偏态的最小值、所有特征的偏态的最大值、所有特征的偏态的平均值、所有特征的偏态的标准差、标准差比、所有特征的两两相关系数的平均值、类的平均熵、特征的平均熵中的至少一种。

根据本发明实施例提供的技术方案，数据处理装置通过获取第一数据集，确定所述第一数据集的数据特征相对于第二数据集的数据特征的变化，所述第二数据集为所述数据处理装置在获取所述第一数据集之前收到的数据集；当所述第一数据集的数据特征相对于所述第二数据集的数据特征的变化大于或等于预设数据特征阈值时，根据所述第一数据集的数据特征确定超参数；根据所述确定的超参数和所述第一数据集确定第一数据模型；根据所述确定的第一数据模型进行数据处理，提高了确定第一数据模型的效率，从而提高了进行数据处理的效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是依据本发明一实施例的计算机设备100的硬件结构示意图；

图2是依据本发明一实施例的数据处理方法200的示范性流程图；

图3是依据本发明一实施例的数据处理装置300的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、接口、技术之类的具体细节，以便透彻理解本发明。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

图1是依据本发明一实施例的计算机设备100的硬件结构示意图。如图1所示，计算机设备100包括处理器102、存储器104、通信接口106和总线108。其中，处理器102、存储器104和通信接口106通过总线108实现彼此之间的通信连接。

处理器102可以采用通用的中央处理器(Central Processing Unit，CPU)，微处理器，应用专用集成电路(Application Specific Integrated Circuit，ASIC)，或者一个或多个集成电路，用于执行相关程序，以实现本发明实施例所提供的技术方案。

存储器104可以是只读存储器(Read Only Memory，ROM)，静态存储设备，动态存储设备或者随机存取存储器(Random Access Memory，RAM)。存储器104可以存储操作系统1041和其他应用程序1042。在通过软件或者固件来实现本发明实施例提供的技术方案时，用于实现本发明实施例提供的技术方案的程序代码保存在存储器104中，并由处理器102来执行。

通信接口106使用例如但不限于收发器一类的收发装置，来实现与其他设备或通信网络之间的通信。

总线108可包括一通路，在各个部件(例如处理器102、存储器104、通信接口106)之间传送信息。

计算机设备100可以是通用计算机设备或专用计算机设备。在实际应用中，计算机设备100可以是台式计算机、手提电脑、网络服务器、个人数字助理(PDA)、移动电话、平板电脑、无线终端设备、电信设备、嵌入式系统或其他具有与图1相似结构的设备。

其中，处理器102用于执行获取第一数据集，确定所述第一数据集的数据特征相对于第二数据集的数据特征的变化，所述第二数据集为所述数据处理装置在获取所述第一数据集之前收到的数据集；当所述第一数据集的数据特征相对于所述第二数据集的数据特征的变化大于或等于预设数据特征阈值时，根据所述第一数据集的数据特征确定超参数；根据所述确定的超参数和所述第一数据集确定第一数据模型；根据所述确定的第一数据模型进行数据处理。

图2是依据本发明一实施例的数据处理方法200的示范性流程图。在具体实现过程中，数据处理方法200可以由例如但不限于计算机设备100来执行。

S201，计算机设备获取第一数据集，确定所述第一数据集的数据特征。

在本发明实施例的一种实现方式中，可以通过接收数据流的方式获取第一数据集，也可以通过数据库读取方式获取第一数据集。

在本发明实施例的一种实现方式中，数据特征包括样本数(number of patterns)、样本数的对数(log number of patterns)、特征数(number of features)、特征数的对数(log number of features)、类别数(number of classes)、有缺失值的样本数(number of patterns with missing values)、有缺失值的样本比例(percentage of patterns with missing values)、有缺失值的特征数(number of features with missing values)、有缺失值的特征比例(percentage of features with missing values)、缺失值数量(number of missing values)、缺失值比例(percentage of missing values)、数值型特征的个数(number of numerical features)、范畴型特征的个数(number of categorical features)、数值型特征的个数与范畴型特征的个数之比(ratio numerical to categorical)、范畴型特征的个数与数值型特征的的个数之比(ratio categorical to numerical)、数据集的维度(dataset dimensionality)、数据集的维度的对数(log dataset dimensionality)、数据集转置后的维度(inverse dataset dimensionality)、数据集转置后的维度的对数(log inverse dataset dimensionality)、类别概率最小值(class probability minimum)、类别概率最大值(class probability maximum)、类别概率平均值(class probability mean)、类别概率标准差(class probability Standard Deviation)、范畴型数据最少取值数量(minimum count of categorical values)、范畴型数据最大取值数量(maximum count of categorical values)、范畴型数据取值数量的平均值(mean count of categorical values)、范畴型数据取值数量的标准差(Standard Deviation of count of categorical values)、范畴型数据取值总数量(total count of categorical values)、所有特征的峰态的最小值(kurtosis minimum)、所有特征的峰态的最大值(kurtosis maximum)、所有特征的峰态的平均值(kurtosis mean)、所有特征的峰态的标准差(kurtosis Standard Deviation)、所有特征的偏态的最小值(skewness minimum)、所有特征的偏态的最大值(skewness maximum)、所有特征的偏态的平均值(skewness mean)、所有特征的偏态的标准差(skewness Standard Deviation)、标准差比(standard deviation ratio)、所有特征的两两相关系数的平均值、类的平均熵(class entropy mean)、特征的平均熵(features entropy mean)中的至少一种。

例如，第一数据集为关于应用推荐的数据：

表1第一数据集举例

以统计表1中第一数据集的样本数、类别数、类的平均熵这三个数据特征元素为例，可以得到该第一数据集的数据特征为

样本数	类别数	类的平均熵
100	2	0.1

对于表1所示的第一数据集来说，每一行数据为一个样本，样本数为100。类别数为最后一列“是否喜欢”的取值种类个数，本例中“是否喜欢”有“1”和“0”两种取值，类别数为2。类的平均熵可以通过公式

计算，其中，m表示类别数，j为小于等于m的正整数，π_j表示每一种类别的样本数在整个样本数中的占比。前面统计出类别数为2，所以这里m＝2；π₁＝(类别为1的样本数)/样本数，π₂＝(类别为0的样本数)/样本数，用C₁表示类别为1的样本数，用C₂表示类别为0的样本数，那么π₁＝C₁/(C₁+C₂)，π₂＝C₂/(C₁+C₂)，最终

假设表1中计算出的第一数据集的类的平均熵为0.1。

S202，所述计算机设备根据第二数据集，确定所述第二数据集的数据特征，所述第二数据集为所述计算机设备在获取所述第一数据集之前收到的数据集。

S203，所述计算机设备确定所述第一数据集的数据特征相对于所述第二数据集的数据特征的变化。

在本发明实施例的一种实现方式中，可以将数据特征作为向量，通过计算向量之间的距离或者余弦相似度，来确定向量的变化，从而确定第一数据集的数据特征相对于第二数据集的数据特征的变化。

例如，假设确定出的第二数据集的数据特征元素为

样本数	类别数	类的平均熵
200	2	0.2

第一数据集的数据特征元素为

样本数	类别数	类的平均熵
100	2	0.1

余弦相似度计算公式为

其中符号“||||”表示求模运算，根据余弦相似度计算公式计算第一数据集的数据特征与第二数据集的数据特征的余弦相似度为

如果用P表示第一数据集的数据特征与自身的余弦相似度，用Q表示第一数据集的数据特征与第二数据集的数据特征的余弦相似度，则可以用P-Q来表示第一数据集的数据特征相对于第二数据集的数据特征的变化。由于第一数据集的数据特征与自身的余弦相似度为1，因此，第一数据集的数据特征相对于第二数据集的数据特征的变化可表示为1-0.99995＝0.00005。

S204，当所述第一数据集的数据特征相对于所述第二数据集的数据特征的变化大于或等于预设数据特征阈值时，所述计算机设备根据所述第一数据集的数据特征确定超参数。

例如，预设数据特征阈值为0.00001，则当第一数据集的数据特征相对于第二数据集的数据特征的变化为0.00005时，超出预设数据特征阈值0.00001，则计算机设备应根据第一数据集的数据特征确定超参数。

在本发明实施例的一种实现方式中，数据处理方法200还包括超参数模型，所述根据所述第一数据集的数据特征确定超参数包括：根据所述第一数据集的数据特征和所述超参数模型确定超参数。

在本发明实施例的一种实现方式中，超参数模型的建立方式可以为：根据每一次更新模型所使用的数据集的数据特征和对应的超参数建立超参数模型。例如，使用随机森林算法建立超参数模型时，假设有两个超参数：树的棵数m和树的深度n，计算机设备保存了每一次更新模型所使用的数据集的数据特征和对应的超参数，如表2所示

表2数据集的数据特征与对应的超参数

将数据集的数据特征作为建立超参数模型的特征值，超参数作为建立超参数模型的目标值，通过随机森林算法可以建立得到超参数模型。可以分别建立目标值为树的棵数m、树的深度n的超参数模型。超参数模型建立之后，将其应用于上述第一数据集的数据特征，可以得出对应于该第一数据集的数据特征的超参数的取值范围。

在得到对应于该第一数据集的数据特征的超参数的取值范围之后，在本发明实施例的一种实现方式中，可以通过二分搜索法的方式从超参数的取值范围中确定出最优超参数，最优超参数指在确定出的超参数的取值范围中，提升数据模型效果最好的超参数。数据模型为根据数据集确定。

在确定最优超参数的过程中，使用二分搜索法，每次搜索都将超参数的取值范围从中间平均分成两半，只在提升数据模型效果更好的一半进行搜索。例如，假设得到的超参数树的棵数m的取值范围为{8,9,10,11,12}，在m＝8和m＝12时分别求得数据模型效果，在中间值m＝(8+12)/2＝10处也求得数据模型效果，如果在左端8到中间值10之间的数据模型效果优于中间值10到右端12的数据模型效果，则缩小超参数树的棵树m的取值范围为{8,9,10}，否则，缩小超参数树的棵树m的取值范围为{10,11,12}。依次类推，直到确定出最优超参数。

由于经过超参数模型确定出的超参数的取值范围都较小，因此采用二分搜索法的方式只需较少的搜索次数就可以确定出最优超参数。

在本发明实施例的一种实现方式中，在S204中，所述数据处理方法200还包括第二数据模型，根据所述第一数据集确定所述第二数据模型的效果；根据所述第一数据集和所述第二数据模型，确定第三数据模型；根据所述第一数据集确定所述第三数据模型的效果；确定所述第三数据模型的效果相对于所述第二数据模型的效果的变化；当所述第三数据模型的效果相对于所述第二数据模型的效果的变化大于或等于预设模型效果阈值时，根据所述第一数据集的数据特征确定超参数。

例如，第一数据集为表1所示的关于应用推荐的数据，则根据表1中的“ID”列、“流量套餐”列、“应用类型”列、“应用名称”列和第一数据模型，可以得出表示“是否喜欢”的预测值，根据预测值和表1中作为目标值的“是否喜欢”列，统计预测值跟目标值一致的样本数H，用H除以第一数据集的样本数100，可以得到预测值的准确率，能够反映出数据模型的效果。假设统计得到样本数H为73，则根据表1中的数据集得出的第二数据模型的效果A1为0.73；

根据第一数据集和第二数据模型确定第三数据模型时，还利用建立第二数据模型的超参数。例如，假设建立的第二数据模型为随机森林模型，建立第二数据模型的超参数有2个，分别为树的棵数m＝5，树的深度n＝2，则根据第二数据模型和表1中的第一数据集确定第三数据模型时，将“ID”列、“流量套餐”列、“应用类型”列、“应用名称”列作为自变量，将“是否喜欢”列作为因变量，利用超参数m＝5，n＝2确定第三数据模型。之后，根据表1中的“ID”列、“流量套餐”列、“应用类型”列、“应用名称”列和建立得到的第三数据模型，可以得出表示“是否喜欢”的预测值，根据预测值和表1中作为目标值的“是否喜欢”列，统计预测值跟目标值一致的样本数J，用J除以第一数据集的样本数100，可以得到预测值的准确率，能够反映出数据模型的效果。假设统计得到样本数J为70，则根据表1中的数据集得出的第三数据模型的效果A2为0.70。则第三数据模型的效果相对于第二数据模型的效果的变化可以表示为

假设预设模型效果阈值为1％，则第三数据模型的效果相对于第二数据模型的效果的变化大于预设模型效果阈值，则计算机设备根据第一数据集的数据特征确定超参数。

在本发明实施例的一种实现方式中，数据处理方法200还包括窗口长度，所述窗口长度为大于等于1的整数。

在本发明实施例的一种实现方式中，在S202和S204中，在所述根据存储的第二数据集，确定所述第二数据集的数据特征之前，数据处理方法200还包括：根据所述窗口长度确定第二数据集；当所述窗口长度大于1时，所述确定所述第二数据集的数据特征包括：确定每个所述第二数据集的数据特征；则所述确定所述第一数据集的数据特征相对于所述第二数据集的数据特征的变化包括：确定所述第一数据集的数据特征相对于每个所述第二数据集的数据特征的变化；则当所述第一数据集的数据特征相对于所述第二数据集的数据特征的变化大于或等于预设数据特征阈值时，根据所述第一数据集的数据特征确定超参数包括：当所述第一数据集的数据特征相对于至少一个所述第二数据集的数据特征的变化大于或等于预设数据特征阈值时，根据所述第一数据集的数据特征确定超参数。

在本发明实施例的一种实现方式中，根据窗口长度确定的第二数据集为计算机设备最近存储的窗口长度个数据集。

例如，假设窗口长度为3，则根据窗口长度确定出计算机设备最近存储的3个数据集，假设这3个数据集分别为数据集D1、D2、D3，则计算机设备分别确定数据集D1、D2、D3的数据特征，可以计算第一数据集的数据特征与数据集D1、D2、D3的数据特征的余弦相似度，根据余弦相似度确定第一数据集的数据特征相对于数据集D1、D2、D3的数据特征的变化，假设计算得出的余弦相似度为

则第一数据集的数据特征相对于数据集D1、D2、D3的数据特征的变化可表示为

假设预设数据特征阈值为0.10，由于第一数据集的数据特征相对数据集D1的数据特征变化0.12大于预设数据特征阈值0.10，因此计算机设备根据第一数据集的数据特征确定超参数。

由于数据特征的变化有时是缓慢的，第一数据集的数据特征相对于计算机设备存储的最近一个数据集的数据特征的变化达不到预设数据特征阈值，但相对于计算机设备更早存储的数据集的数据特征的变化达到了预设数据特征阈值，此时应该重新确定超参数，因此确定窗口长度个内的数据特征的变化能够处理这种数据特征变化缓慢的情况，使得超参数的调整更及时的进行。

在本发明实施例的一种实现方式中，在S204中，在所述根据所述第一数据集确定所述第二数据模型的效果之前，数据处理方法200还包括：根据所述窗口长度确定第二数据模型；当所述窗口长度大于1时，所述根据所述第一数据集确定所述第二数据模型的效果包括：根据所述第一数据集确定每个所述第二数据模型的效果；则所述确定所述第三数据模型的效果相对于所述第二数据模型的效果的变化包括：确定所述第三数据模型的效果相对于每个所述第二数据模型的效果的变化；则所述当所述第三数据模型的效果相对于所述第二数据模型的效果的变化大于或等于预设模型效果阈值时，根据所述第一数据集的数据特征确定超参数包括：当所述第三数据模型的效果相对于至少一个所述第二数据模型的效果的变化大于或等于预设模型效果阈值时，根据所述第一数据集的数据特征确定超参数。

在本发明实施例的一种实现方式中，根据窗口长度确定的第一数据模型为计算机设备最近存储的窗口长度个数据模型。

例如，假设窗口长度为3，则根据窗口长度确定出计算机设备最近存储的3个数据模型，假设这3个数据模型分别为M1、M2、M3，则计算机设备根据第一数据集分别计算数据模型M1、M2、M3的效果，假设计算得到的数据模型的效果为

M1的效果A1	M2的效果A2	M3的效果A3
0.7598	0.7596	0.7328

假设第二数据模型的效果A为0.7234，则第二数据模型的效果相对于数据模型M1、M2、M3的效果的变化为

A相对A1的变化	A相对A2的变化	A相对A3的变化
4.79％	4.77％	1.28％

假设预设模型效果阈值为4.7％，由于第二数据模型的效果相对于数据模型M1的效果变化4.79％、数据模型M2的效果变化4.77％大于预设模型效果阈值4.7％，因此计算机设备根据第一数据集的数据特征确定超参数。

由于数据模型效果的变化有时是缓慢的，第二数据模型的效果相对于计算机设备存储的最近一个数据模型的效果的变化达不到预设模型效果阈值，但相对于计算机设备更早存储的数据模型的效果的变化达到了预设模型效果阈值，此时应该重新确定超参数，因此确定窗口长度个内的数据模型效果的变化能够处理这种数据模型效果变化缓慢的情况，使得超参数的调整更及时的进行。

S205，所述计算机设备根据所述确定的超参数和所述第一数据集确定第一数据模型。

S206，所述计算机设备根据所述确定的第一数据模型进行数据处理。

在本发明实施例的一种实现方式中，根据第一数据集和确定出的超参数确定第一数据模型的过程与S204中确定第三数据模型的过程相同，此处不再赘述。

在本发明实施例的一种实现方式中，该数据处理方法可以为应用推荐方法，进行数据处理可以为进行应用推荐。可以根据确定出的第一数据模型，利用用户信息和应用信息确定出需要推荐的应用。

数据处理装置通过获取第一数据集，确定所述第一数据集的数据特征相对于第二数据集的数据特征的变化，所述第二数据集为所述数据处理装置在获取所述第一数据集之前收到的数据集；当所述第一数据集的数据特征相对于所述第二数据集的数据特征的变化大于或等于预设数据特征阈值时，根据所述第一数据集的数据特征确定超参数；根据所述确定的超参数和所述第一数据集确定第一数据模型；根据所述确定的第一数据模型进行数据处理，提高了确定第一数据模型的效率，从而提高了进行数据处理的效率。图3是依据本发明一实施例的数据处理装置300的结构示意图。数据处理装置300包括获取模块302和处理模块304。

获取模块302，用于获取第一数据集，确定所述第一数据集的数据特征相对于第二数据集的数据特征的变化，所述第二数据集为所述数据处理装置在获取所述第一数据集之前收到的数据集；

处理模块304，用于当所述第一数据集的数据特征相对于所述第二数据集的数据特征的变化大于或等于预设数据特征阈值时，根据所述第一数据集的数据特征确定超参数；

处理模块304，还用于根据所述确定的超参数和所述第一数据集确定第一数据模型；

处理模块304，还用于根据所述确定的第一数据模型进行数据处理。

在本发明实施例的一种实现方式中，还包括第二数据模型，所述处理模块304还用于根据所述第一数据集确定所述第二数据模型的效果；根据所述第一数据集和所述第二数据模型，确定第三数据模型；根据所述第一数据集确定所述第三数据模型的效果；确定所述第三数据模型的效果相对于所述第二数据模型的效果的变化；当所述第三数据模型的效果相对于所述第二数据模型的效果的变化大于或等于预设模型效果阈值时，根据所述第一数据集的数据特征确定超参数。

在本发明实施例的一种实现方式中，还包括窗口长度，所述窗口长度为大于等于1的整数。

在本发明实施例的一种实现方式中，在确定所述第一数据集的数据特征相对于所述第二数据集的数据特征的变化之前，所述处理模块还用于：

根据所述窗口长度确定第二数据集；

确定每个所述第二数据集的数据特征；

在本发明实施例的一种实现方式中，在所述根据所述第一数据集确定所述第二数据模型的效果之前，所述处理模块还用于：

根据所述窗口长度确定第二数据模型；

根据所述第一数据集确定每个所述第二数据模型的效果；

在本发明实施例的一种实现方式中，还包括超参数模型，所述根据所述第一数据集的数据特征确定超参数包括：

在本发明实施例的一种实现方式中，还根据所述第二数据模型确定所述第一数据模型。

其中，所述“模块”可以为专用集成电路(Application Specific Integrated Circuit，ASIC)、电子线路、执行一个或多个软件或固件程序的处理器和存储器、组合逻辑电路和其他提供上述功能的组件。在本发明实施例的一种实现方式中，数据处理装置300通过计算机设备的形式来实现，获取模块302可以通过计算机设备的处理器、存储器和通信接口来实现，处理模块304可以通过处理服务器的处理器和存储器来实现。

应注意，尽管图1所示的计算机设备100仅仅示出了处理器102、存储器104、通信接口106和总线108，但是在具体实现过程中，本领域的技术人员应当明白，上述数据处理装置还包含实现正常运行所必须的其他器件。同时，根据具体需要，本领域的技术人员应当明白，上述数据处理装置还可包含实现其他附加功能的硬件器件。此外，本领域的技术人员应当明白，上述数据处理装置也可仅仅包含实现本发明实施例所必须的器件，而不必包含图1中所示的全部器件。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

一种数据处理方法，包含数据处理装置利用第一数据模型对接收到的数据集进行处理的过程，所述第一数据模型根据超参数确定，其特征在于，包括以下步骤：

所述数据处理装置获取第一数据集，确定所述第一数据集的数据特征相对于第二数据集的数据特征的变化，所述第二数据集为所述数据处理装置在获取所述第一数据集之前收到的数据集；

当所述第一数据集的数据特征相对于所述第二数据集的数据特征的变化大于或等于预设数据特征阈值时，根据所述第一数据集的数据特征确定超参数；

根据所述确定的超参数和所述第一数据集确定第一数据模型；

根据所述确定的第一数据模型进行数据处理。
如权利要求1所述的方法，其特征在于，所述方法还包括第二数据模型，根据所述第一数据集确定所述第二数据模型的效果；根据所述第一数据集和所述第二数据模型，确定第三数据模型；根据所述第一数据集确定所述第三数据模型的效果；确定所述第三数据模型的效果相对于所述第二数据模型的效果的变化；当所述第三数据模型的效果相对于所述第二数据模型的效果的变化大于或等于预设模型效果阈值时，根据所述第一数据集的数据特征确定超参数。
如权利要求1或2所述的方法，其特征在于，所述方法还包括窗口长度，所述窗口长度为大于等于1的整数。
如权利要求3所述的方法，其特征在于，在确定所述第一数据集的数据特征相对于所述第二数据集的数据特征的变化之前，所述方法还包括：

根据所述窗口长度确定第二数据集；

当所述窗口长度大于1时，确定所述第二数据集的数据特征，包括：

确定每个所述第二数据集的数据特征；

则所述确定所述第一数据集的数据特征相对于所述第二数据集的数据特征的变化包括：

确定所述第一数据集的数据特征相对于每个所述第二数据集的数据特征的变化；

则当所述第一数据集的数据特征相对于所述第二数据集的数据特征的变化大于或等于预设数据特征阈值时，根据所述第一数据集的数据特征确定超参数包括：

当所述第一数据集的数据特征相对于至少一个所述第二数据集的数据特征的变化大于或等于预设数据特征阈值时，根据所述第一数据集的数据特征确定超参数。
如权利要求3所述的方法，其特征在于，在所述根据所述第一数据集确定所述第二数据模型的效果之前，所述方法还包括：

根据所述窗口长度确定第二数据模型；

当所述窗口长度大于1时，所述根据所述第一数据集确定所述第二数据模型的效果包括：

根据所述第一数据集确定每个所述第二数据模型的效果；

则所述确定所述第三数据模型的效果相对于所述第二数据模型的效果的变化包括：

确定所述第三数据模型的效果相对于每个所述第二数据模型的效果的变化；

则所述当所述第三数据模型的效果相对于所述二数据模型的效果的变化大于或等于预设模型效果阈值时，根据所述第一数据集的数据特征确定超参数包括：

当所述第三数据模型的效果相对于至少一个所述第二数据模型的效果的变化大于或等于预设模型效果阈值时，根据所述第一数据集的数据特征确定超参数。
如权利要求1至5所述的方法，其特征在于，所述方法还包括超参数模型，所述根据所述第一数据集的数据特征确定超参数包括：

根据所述第一数据集的数据特征和所述超参数模型确定超参数。
如权利要求1至6任意一项所述的方法，其特征在于，还根据所述第二数据模型确定所述第一数据模型。
如权利要求1至7任意一项所述的方法，其特征在于，所述数据特征包括样本数、样本数的对数、特征数、特征数的对数、类别数、有缺失值的样本数、有缺失值的样本比例、有缺失值的特征数、有缺失值的特征比例、缺失值数量、缺失值比例、数值型特征的个数、范畴型特征的个数、数值型特征的个数与范畴型特征的个数之比、范畴型特征的个数与数值型特征的个数之比、数据集的维度、数据集的维度的对数、数据集转置后的维度、数据集转置后的维度的对数、类别概率最小值、类别概率最大值、类别概率平均值、类别概率标准差、范畴型数据最少取值数量、范畴型数据最大取值数量、范畴型数据取值数量的平均值、范畴型数据取值数量的标准差、范畴型数据取值总数量、所有特征的峰态的最小值、所有特征的峰态的最大值、所有特征的峰态的平均值、所有特征的峰态的标准差、所有特征的偏态的最小值、所有特征的偏态的最大值、所有特征的偏态的平均值、所有特征的偏态的标准差、标准差比、所有特征的两两相关系数的平均值、类的平均熵、特征的平均熵中的至少一种。
一种数据处理装置，所述数据处理装置利用第一数据模型对接收到的数据集进行处理的过程，所述第一数据模型根据超参数确定，其特征在于，所述数据处理装置包括获取模块和处理模块：

所述获取模块，用于获取第一数据集，确定所述第一数据集的数据特征相对于第二数据集的数据特征的变化，所述第二数据集为所述数据处理装置在获取所述第一数据集之前收到的数据集；

所述处理模块，用于当所述第一数据集的数据特征相对于所述第二数据集的数据特征的变化大于或等于预设数据特征阈值时，根据所述第一数据集的数据特征确定超参数；

所述处理模块，还用于根据所述确定的超参数和所述第一数据集确定第一数据模型；

所述处理模块，还用于根据所述确定的第一数据模型进行数据处理。
如权利要求9所述的装置，其特征在于，还包括第二数据模型，所述处理模块还用于根据所述第一数据集确定所述第二数据模型的效果；根据所述第一数据集和所述第二数据模型，确定第三数据模型；根据所述第一数据集确定所述第三数据模型的效果；确定所述第三数据模型的效果相对于所述第二数据模型的效果的变化；当所述第三数据模型的效果相对于所述第二数据模型的效果的变化大于或等于预设模型效果阈值时，根据所述第一数据集的数据特征确定超参数。
如权利要求9或10所述的装置，其特征在于，还包括窗口长度，所述窗口长度为大于等于1的整数。
如权利要求11所述的装置，其特征在于，在确定所述第一数据集的数据特征相对于所述第二数据集的数据特征的变化之前，所述处理模块还用于：

根据所述窗口长度确定第二数据集；

当所述窗口长度大于1时，确定所述第二数据集的数据特征，包括：

确定每个所述第二数据集的数据特征；

则所述确定所述第一数据集的数据特征相对于所述第二数据集的数据特征的变化包括：

确定所述第一数据集的数据特征相对于每个所述第二数据集的数据特征的变化；

则当所述第一数据集的数据特征相对于所述第二数据集的数据特征的变化大于或等于预设数据特征阈值时，根据所述第一数据集的数据特征确定超参数包括：

当所述第一数据集的数据特征相对于至少一个所述第二数据集的数据特征的变化大于或等于预设数据特征阈值时，根据所述第一数据集的数据特征确定超参数。
如权利要求11所述的装置，其特征在于，在所述根据所述第一数据集确定所述第二数据模型的效果之前，所述处理模块还用于：

根据所述窗口长度确定第二数据模型；

当所述窗口长度大于1时，所述根据所述第一数据集确定所述第二数据模型的效果包括：

根据所述第一数据集确定每个所述第二数据模型的效果；

则所述确定所述第三数据模型的效果相对于所述第二数据模型的效果的变化包括：

确定所述第三数据模型的效果相对于每个所述第二数据模型的效果的变化；

则所述当所述第三数据模型的效果相对于所述二数据模型的效果的变化大于或等于预设模型效果阈值时，根据所述第一数据集的数据特征确定超参数包括：

当所述第三数据模型的效果相对于至少一个所述第二数据模型的效果的变化大于或等于预设模型效果阈值时，根据所述第一数据集的数据特征确定超参数。
如权利要求9至13所述的装置，其特征在于，还包括超参数模型，所述根据所述第一数据集的数据特征确定超参数包括：

根据所述第一数据集的数据特征和所述超参数模型确定超参数。
如权利要求9至14任意一项所述的装置，其特征在于，还根据所述第二数据模型确定所述第一数据模型。
如权利要求9至15任意一项所述的装置，其特征在于，所述数据特征包括样本数、样本数的对数、特征数、特征数的对数、类别数、有缺失值的样本数、有缺失值的样本比例、有缺失值的特征数、有缺失值的特征比例、缺失值数量、缺失值比例、数值型特征的个数、范畴型特征的个数、数值型特征的个数与范畴型特征的个数之比、范畴型特征的个数与数值型特征的个数之比、数据集的维度、数据集的维度的对数、数据集转置后的维度、数据集转置后的维度的对数、类别概率最小值、类别概率最大值、类别概率平均值、类别概率标准差、范畴型数据最少取值数量、范畴型数据最大取值数量、范畴型数据取值数量的平均值、范畴型数据取值数量的标准差、范畴型数据取值总数量、所有特征的峰态的最小值、所有特征的峰态的最大值、所有特征的峰态的平均值、所有特征的峰态的标准差、所有特征的偏态的最小值、所有特征的偏态的最大值、所有特征的偏态的平均值、所有特征的偏态的标准差、标准差比、所有特征的两两相关系数的平均值、类的平均熵、特征的平均熵中的至少一种。