WO2021068563A1

WO2021068563A1 - 样本数据处理方法、装置、计算机设备及存储介质

Info

Publication number: WO2021068563A1
Application number: PCT/CN2020/098820
Authority: WO
Inventors: 秦文力; 张密; 韩丙卫
Original assignee: 平安科技（深圳）有限公司
Priority date: 2019-10-11
Filing date: 2020-06-29
Publication date: 2021-04-15
Also published as: CN110888911A

Abstract

本申请涉及人工智能领域，公开一种样本数据处理方法、装置、计算机设备及存储介质；通过获取样本特征数据；基于样本特征数据的标注数据对样本特征数据进行分类，得到不同类型的基本特征数据；统计每一类型的基本特征数据的数据量，根据数据量计算每一类型的基本特征数据在样本特征数据中的占比值；若存在占比值小于预设的占比阈值的基本特征数据，则将占比值小于占比阈值的基本特征数据，确定为少数类特征数据集；基于目标生成对抗网络模型对少数类特征数据集进行数据构造，生成构造特征数据，目标生成对抗网络模型是采用Deep&CrossNet网络模型构建的；将构造特征数据加入到样本特征数据中，得到标准特征数据；从而有效解决了样本数据不平衡的问题。

Description

样本数据处理方法、装置、计算机设备及存储介质

本申请要求于2019年10月11日提交中国专利局、申请号为201910965007.X，发明名称为“样本数据处理方法、装置、计算机设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能领域，尤其涉及一种样本数据处理方法、装置、计算机设备及存储介质。

背景技术

随着科技的进步和大数据时代的到来，人们可以访问获取的数据和信息资源呈现出爆炸式的增长。利用数据进行预测、评估反馈等应用日趋普遍，例如：采用机器学习或者聚类方法等进行预测或评估反馈。然而，发明人意识到在采用机器学习或者聚类方法等进行预测或评估反馈时，经常会出现样本数据不平衡的问题。目前，解决样本数据不平衡的问题的方法大部分都是直接通过人工合成技术增加少数类的样本量实现。但是，通过人工合成技术增加少数类的样本量的方法生成的样本相对单一，并且容易造成样本交叉。因此，有效的解决样本数据不平衡的问题是目前数据处理领域中亟待解决的重要问题。

技术问题

本申请提供一种样本数据处理方法、装置、计算机设备及存储介质，以解决样本数据不平衡的问题。

技术解决方案

一种样本数据处理方法，包括：

获取样本特征数据，所述样本特征数据包括标注数据；

基于所述标注数据对所述样本特征数据进行分类，得到不同类型的基本特征数据；

统计所述每一类型的基本特征数据的数据量，根据所述数据量计算所述每一类型的基本特征数据在所述样本特征数据中的占比值；

若所述样本特征数据中存在所述占比值小于预设的占比阈值的基本特征数据，则将所述占比值小于所述占比阈值的基本特征数据，确定为少数类特征数据集；

基于目标生成对抗网络模型对所述少数类特征数据集进行数据构造，生成构造特征数据，其中，所述目标生成对抗网络模型是采用Deep&CrossNet网络模型构建的；

将所述构造特征数据加入到所述样本特征数据中，得到标准特征数据。

一种样本数据处理装置，包括：

样本特征数据获取模块，用于获取样本特征数据，所述样本特征数据包括标注数据；

分类模块，用于基于所述标注数据对所述样本特征数据进行分类，得到不同类型的基本特征数据；

统计模块，用于统计所述每一类型的基本特征数据的数据量，根据所述数据量计算所述每一类型的基本特征数据在所述样本特征数据中的占比值；

少数类特征数据集确定模块，用于在所述样本特征数据中存在所述占比值小于预设的占比阈值的基本特征数据时，将所述占比值小于所述占比阈值的基本特征数据，确定为少数类特征数据集；

数据构造模块，用于基于目标生成对抗网络模型对所述少数类特征数据集进行数据构造，生成构造特征数据，其中，所述目标生成对抗网络模型是采用Deep&CrossNet网络模型构建的；

加入模块，用于将所述构造特征数据加入到所述样本特征数据中，得到标准特征数据。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现一种样本数据处理方法：

获取样本特征数据，所述样本特征数据包括标注数据；

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现一种样本数据处理方法：

获取样本特征数据，所述样本特征数据包括标注数据；

有益效果

上述样本数据处理方法、装置、计算机设备及存储介质，先通过对获取的样本特征数据进行分类，然后提取数量占比值少于占比阈值的少数类特征数据，再采用由Deep&CrossNet网络模型构建的目标生成对抗网络模型对少数类特征数据进行数据构建，生成一组构造特征数据，从而有效解决了样本数据不平衡的问题。

附图说明

图1是本申请一实施例中样本数据处理方法的一应用环境示意图；

图2是本申请一实施例中样本数据处理方法的一示例图；

图3是本申请一实施例中样本数据处理方法的另一示例图；

图4是本申请一实施例中样本数据处理方法的另一示例图；

图5是本申请一实施例中样本数据处理方法的另一示例图；

图6是本申请一实施例中样本数据处理方法的另一示例图；

图7是本申请一实施例中样本数据处理装置的一原理框图；

图8是本申请一实施例中样本数据处理装置的另一原理框图；

图9是本申请一实施例中样本数据处理装置的另一原理框图；

图10是本申请一实施例中计算机设备的一示意图。

本发明的最佳实施方式

本申请实施例提供的样本数据处理方法，该样本数据处理方法可应用如图1所示的应用环境中。具体地，该样本数据处理方法应用在样本数据处理系统中，该样本数据处理系统包括如图1所示的客户端和服务端，客户端与服务端通过网络进行通信，用于解决样本数据类别不平衡的问题。其中，客户端又称为用户端，是指与服务端相对应,为客户提供本地服务的程序。客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备上。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图2所示，提供一种样本数据处理方法，以该方法应用在图1中的服务端为例进行说明，包括如下步骤：

S10: 获取样本特征数据，样本特征数据包括标注数据。

其中，样本特征数据指待进行处理的数据。样本特征数据可以但不限于用户信息（如性别、年龄、职业等）、网站或网页点击行为(如点击时间、次数、频率等)、用户交易数据及行为(如支付产品信息、支付金额、支付方式等)等。样本特征数据包括标注数据。其中，标注数据指用于区别不同类型的样本特征数据的一种标识信息。

在一具体实施例中，为了便于区分不同类型的样本特征数据，需预先对每一样本特征数据进行样本标注，得到标注数据。示例性地，若获取的样本特征数据为网站或网页点击行为(如点击次数)，该样本特征数据包括网站或网页点击次数不超过100次的特征数据，和网站或网页点击次数等于或超过100次的特征数据；则可以预先对网站或网页点击次数不超过100次的特征数据进行样本标注为1，和对网站或网页点击次数等于或超过100次的特征数据进行样本标注为0。可以理解地，该样本特征数据包括的标注数据分别为1和0。

S20: 基于标注数据对样本特征数据进行分类，得到不同类型的基本特征数据。

具体地，由于每一样本特征数据都包括对应的标注数据，因此，可直接根据每一样本特征数据对应的标注数据进行分类，即将标注数据相同的样本特征数据归为相同类型的基本特征数据，将标注数据不同的样本特征数据归为不同类型的特征数据基本。在本实施例中，样本特征数据包括至少两种类型的样本特征数据。

S30: 统计每一类型的基本特征数据的数据量，根据数据量计算每一类型的基本特征数据在样本特征数据中的占比值。

在对样本特征数据进行分类，得到不同类型的基本特征数据之后，可采用统计函数统计每一类型的基本特征数据的数据量。然后，根据每一类型的基本特征数据的数据量，计算每一类型的基本特征数据在样本特征数据中的占比值。具体地，计算每一类型的基本特征数据在样本特征数据中的占比值包括：先将每一类型的基本特征数据的数据量与样本特征数据的总数据量进行比例化，然后对生成的每一比例化结果进行约分，即可得到每一类型的基本特征数据在样本特征数据中的占比值。

示例性地，若获取的样本特征数据中包括三种类型的基本特征数据，分别为基本特征数据A、基本特征数据B和基本特征数据C；该样本特征数据的总数据量为20000，统计得到基本特征数据A的数据量为1000，基本特征数据B的数据量为9000，基本特征数据C数据量为10000；则将基本特征数据A的数据量1000与样本特征数据的总数据量20000进行比例化约分后得到的占比值为1/20，将基本特征数据B的数据量9000与样本特征数据的总数据量20000进行比例化约分后得到的占比值为9/20；将基本特征数据C的数据量10000与样本特征数据的总数据量20000进行比例化约分后得到的占比值为1/2。

S40: 若样本特征数据中存在占比值小于预设的占比阈值的基本特征数据，则将占比值小于占比阈值的基本特征数据，确定为少数类特征数据集。

其中，占比阈值指预先设定的用于评估基本特征数据的数据量是否满足要求的阈值。例如，占比阈值可以为1/10, 1/12或者1/20等，用户可根据样本特征数据的实际数据量自定义设定。少数类特征数据集指数据量不满足设定要求的基本特征数据所组成的数据集。可以理解地，少数类特征数据集中包含若干少数类特征数据。具体地，在确定了样本特征数据中每一类型的基本特征数据的占比值之后；将每一类型的基本特征数据的占比值与预设的占比阈值进行一一比较；判断该样本特征数据中是否存在占比值小于占比阈值的基本特征数据，若样本特征数据中存在占比值小于占比阈值的基本类特征数据，则将该占比值小于占比阈值的基本特征数据，确定为少数类特征数据集。可以理解地，若该样本特征数据中不存在占比值小于占比阈值的基本类特征数据，则说明该样本特征数据不存在样本数据类别不平衡的问题。

示例性地，若预先设定的占比阈值为1/10，经步骤S30得到样本特征数据中基本特征数据A的占比值为1/20，基本特征数据B的占比值为9/20，基本特征数据C的占比值为1/2。将基本特征数据A、基本特征数据B和基本特征数据C的占比值分别与占比阈值进行一一比较之后；得到基本特征数据A的占比值1/20小于占比阈值1/10，基本特征数据B的占比值9/20大于占比阈值1/10，基本特征数据C的占比值1/2大于占比阈值1/10；则将基本特征数据A确定为少数类特征数据集。

S50: 基于目标生成对抗网络模型对少数类特征数据集进行数据构造，生成构造特征数据，其中，目标生成对抗网络模型是采用Deep&CrossNet网络模型构建的。

其中，目标生成对抗网络模型是预先训练得到的一个网络模型。目标生成对抗网络模型用于对少数类特征数据集进行数据构造，并输出与对应的少数类特征数据集相同的构造特征数据。在本实施例中，基于目标生成对抗网络模型对少数类特征数据集进行数据构造后，生成的构造特征数据的数量可根据实际情况自定义设定。需要说明的是，构造特征数据与少数类特征数据属于相同类型的特征数据，即生成的构造特征数据与少数类特征数据所包含的特征相同。例如：若少数类特征数据为用户交易数据及行为(如支付产品信息、支付金额、支付方式等)，则生成的构造特征数据也为用户交易数据及行为(如支付产品信息、支付金额、支付方式等)。

具体地，基于目标生成对抗网络模型对少数类特征数据集进行数据构造，生成构造特征数据包括：输入一组随机数据和少数类特征数据至预设生成对抗网络模型中进行训练，生成目标生成对抗网络模型，该预设生成对抗网络模型是由Deep&CrossNet网络搭建的。然后，再将该随机数据输入该训练生成的目标生成对抗网络模型中，即可生成对应的构造特征数据。

需要说明的是，在本实施例中，若获取的少数类特征数据为一连续性数据，则在基于目标生成对抗网络模型对少数类特征数据进行数据构造之前，需先少数类特征数据进行离散化处理生成一组由向量组成的离散型数据。若获取的少数类特征数据为一离散型数据，则可直接基于目标生成对抗网络模型对少数类特征数据进行数据构造，生成构造特征数据。

由于生成对抗网络模型是一种生成对抗网络模型，主要由生成网络模型和判别网络模型组成。因此采用Deep&CrossNet网络模型搭建生成对抗网络模型主要是指通过采用Deep&CrossNet网络模型来搭建生成对抗网络模型中的生成网络模型和判别网络模型。其中，Deep&CrossNet（DCN）网络模型是一种交叉网络模型。DCN网模型络是由第一层嵌入和堆积层，第二层一个交叉网络和一个与之平行的深度网络，以及第三层组合层组成的网络。DCN网络结合了交叉网络和深度网络的输出。DCN网模型络可以在保留原始特征信息的基础上进一步抽象信息，能够高效地提取有限的重要特征中的相互作用和交互信息，不需要人工特征工程或者遍历搜索，而且比一般的神经网络易于训练。另外地，DCN可以在保留原始特征信息的基础上进一步抽象信息，在结构化数据方面适应性更好。

S60: 将构造特征数据加入到样本特征数据中，得到标准特征数据。

其中，标准特征数据指满足要求的特征数据。可以理解地，标准特征数据是一组数据类别平衡的数据。

具体地，在根据步骤S50生成构造特征数据之后，再将生成的构造特征数据加入到样本特征数据中，即可得到标准特征数据。优选地，由于生成的构造特征数据是由一组取值为0或1的特征向量组成的离散型数据，若获取的样本特征数据为一连续型数据，则在将构造特征数据加入到样本特征数据中之前，需预先采用预先设置的编码方式将样本特征数据编码转化为离散型数据。其中，编码方式可以为One-Hot编码或者整数编码等。然后，再将构造特征数据加入到样本特征数据中，得到标准特征数据。

在本实施例中，通过获取样本特征数据，样本特征数据包括标注数据；基于标注数据对样本特征数据进行分类，得到不同类型的基本特征数据；统计每一类型的基本特征数据的数据量，根据数据量计算每一类型的基本特征数据在样本特征数据中的占比值；若样本特征数据中存在占比值小于预设的占比阈值的基本特征数据，则将占比值小于占比阈值的基本特征数据，确定为少数类特征数据集；基于目标生成对抗网络模型对少数类特征数据集进行数据构造，生成构造特征数据，其中，目标生成对抗网络模型是采用Deep&CrossNet网络模型构建的；将构造特征数据加入到样本特征数据中，得到标准特征数据；先通过对获取的样本特征数据进行分类，然后提取数量占比值少于占比阈值的少数类特征数据集，再采用由Deep&CrossNet网络模型构建的目标生成对抗网络模型对少数类特征数据集进行数据构建，生成一组构造特征数据，从而有效解决了样本数据不平衡的问题。

在一实施例中，如图3所示，基于目标生成对抗网络模型对少数类特征数据集进行数据构造，生成构造特征数据，具体包括如下步骤：

S501: 获取少数类特征数据，采用少数类特征数据训练预设的初始生成对抗网络模型，生成目标生成对抗网络模型，其中，初始生成对抗网络模型是采用Deep&CrossNet网络模型构建的。

其中，少数类特征数据是从少数类特征数据集中获取的部分数据。由于少数类特征数据集中所包含的少数类特征数据都属于相同类型的数据。因此，在基于目标生成对抗网络模型对少数类特征数据集进行数据构造，只需从少数类特征数据集中获取的部分数据，作为少数类特征数据，然后采用少数类特征数据训练预设的初始生成对抗网络网络模型，生成目标生成对抗网络模型主要包括：采用Deep&CrossNet网络搭建初始生成对抗网络模型，即设置初始生成对抗网络模型中的生成网络模型和判断网络模型都为Deep&CrossNet网络模型；输入一组随机噪声数据至该初始生成对抗网络模型的生成网络模型中进行训练，生成网络模型输出一组随机特征数据；然后，再将获取的少数类特征数据和该随机特征数据分别作为该初始生成对抗网络模型的判别网络模型的输入向量，并对该判别网络模型进行训练，依次循环，以对该初始生成对抗网络模型中的生成网络模型和判断网络模型进行迭代训练，直至收敛，得到目标生成对抗网络模型。

S502: 获取随机噪声数据，将随机噪声数据输入目标生成对抗网络模型的生成网络模型中，生成构造特征数据。

其中，随机噪声数据是指随机生成的符合正态分布的数据。具体地，在根据步骤S501得到目标生成对抗网络模型之后，再随机生成一组随机噪声数据，并将该随机噪声数据输入到该目标生成对抗网络模型的生成网络模型中，即可生成对应的构造特征数据。

在本实施例中，通过获取少数类特征数据，采用少数类特征数据训练预设的生成对抗网络网络模型，生成目标生成对抗网络模型，其中，生成对抗网络网络模型是采用Deep&CrossNet网络模型构建的；获取随机噪声数据，将随机噪声数据输入目标生成对抗网络模型的生成网络模型中，生成构造特征数据；通过采用Deep&CrossNet网络模型构建的生成对抗网络网络模型对少数类特征数据进行数据构造，从而提高了数据构造的效率。

在一实施例中，如图4所示，采用少数类特征数据训练预设的初始生成对抗网络模型，生成目标生成对抗网络模型，具体包括如下步骤：

S5011: 基于Deep&CrossNet网络搭建初始生成对抗网络模型。

其中，Deep&CrossNet网络是一种交叉网络。DCN网络是由第一层嵌入和堆积层，第二层一个交叉网络和一个与之平行的深度网络，以及第三层组合层组成的网络。DCN网络结合了交叉网络和深度网络的输出。DCN网络可以在保留原始特征信息的基础上进一步抽象信息，能够高效地提取有限的重要特征中的相互作用和交互信息，不需要人工特征工程或者遍历搜索，而且比一般的神经网络易于训练。另外地，DCN可以在保留原始特征信息的基础上进一步抽象信息，在结构化数据方面适应性更好。

具体地，由于生成对抗网络模型主要由生成网络模型和判别网络模型组成。因此，基于Deep&CrossNet网络搭建初始生成对抗网络模型主要是指通过采用Deep&CrossNet网络来构建初始生成对抗网络模型中的生成网络模型和判别网络模型。可以理解地，初始生成对抗网络模型中的生成网络模型和判别网络模型都是由Deep&CrossNet网络构成的。

S5012: 输入一组随机噪声数据至初始生成对抗网络模型的生成网络模型中进行训练，生成随机特征数据。

其中，随机噪声数据是指随机生成的符合正态分布的数据。具体地，输入一组随机噪声数据至初始生成对抗网络模型的生成网络模型中进行训练，即可生成一组随机特征数据。

S5013: 对随机特征数据进行离散化处理，得到离散特征数据。

具体地，由于经步骤5012生成的随机特征数据可能是一组连续型数据，因此，为了提高后续模型训练的精准度，需对生成的随机特征数据进行离散化处理，生成离散特征数据。其中，离散特征数据是指由一组取值为0或1的特征向量组成的数据。具体地，可采用预先设置的编码方式对该随机特征数据进行离散化处理，得到离散特征数据。其中，编码方式可以为One-Hot编码或者整数编码等。

S5014: 将离散特征数据和少数类特征数据作为初始生成对抗网络模型的判别网络模型的输入向量，对初始生成对抗网络模型进行迭代训练，生成目标生成对抗网络模型。

将离散特征数据和少数类特征数据分别作为初始生成对抗网络模型的判别网络模型的输入向量，对初始生成对抗网络模型进行迭代训练，直至收敛，得到目标生成对抗网络模型。可以理解地，对初始生成对抗网络模型进行迭代训练过程主要指对初始生成对抗网络模型中的生成网络模型和判别网络模型进行交替训练的过程。需要说明的是，在将离散特征数据和少数类特征数据作为初始生成对抗网络模型的判别网络模型的输入向量之前，需保证少数类特征数据的特征条件(特征值)与离散特征数据的特征条件(特征值)相互对应。

具体地，初始生成对抗网络模型中的生成网络模型和判别网络模型通过最大化判别网络模型的差别能力和最小化生成网络模型的分布损失函数来独立进行迭代训练，直至初始生成对抗网络模型中的生成网络模型生成的随机特征数据在判别网络模型中的判别输出概率值接近0.5，得到目标生成对抗网络模型。

在本实施例中，基于Deep&CrossNet网络搭建初始生成对抗网络模型；输入一组随机噪声数据至初始生成对抗网络模型的生成网络模型中进行训练，生成随机特征数据；对随机特征数据进行离散化处理，得到离散特征数据；将离散特征数据和少数类特征数据作为初始生成对抗网络模型的判别网络模型的输入向量，对初始生成对抗网络模型进行迭代训练，生成目标生成对抗网络模型；通过采用Deep&CrossNet网络构建初始生成对抗网络模型，使生成的目标生成对抗网络模型中的生成网络模型和判别网络模型更加稳定和高效，从而保证了后续采用目标生成对抗网络模型对少数类特征数据进行数据构造的准确性。

在一实施例中，如图5所示，将离散特征数据和少数类特征数据作为初始生成对抗网络模型的判别网络模型的输入向量，对初始生成对抗网络模型进行迭代训练，具体包括如下步骤：

S50141: 将离散特征数据设为假样本集，将少数类特征数据设为真样本集。

具体地，将离散特征数据设为假样本集，将少数类特征数据设为真样本集。在一具体实施例中，为了便于区分假样本集和真样本集，还可对假样本集和真样本集进行标签设置。优选地，将假样本集的所有类标签设为0，将真样本集的所有类标签设为1。

S50142:分别输入假样本集和真样本集至初始生成对抗网络模型中，获取初始生成对抗网络模型中判别网络模型的输出值。

具体地，分别输入假样本集和真样本集至初始生成对抗网络模型中，即可直接获取初始生成对抗网络模型中判别网络模型的输出值。具体地，由于输入的样本为标签设为1的真样本集和标签设为0的假样本集，因此基于真样本集和假样本集所生成的输出值为在0-1之间的数值。

需要说明的是，由于是对初始生成对抗网络模型中判别网络模型的迭代训练，因此在输入假样本集和真样本集至初始生成对抗网络模型中之前，需要先固定初始生成对抗网络模型中生成网络模型的参数值，以避免生成网络模型在生成离散特征数据时由于模型参数的变化导致引入非必要性的不确定未知条件，从而导致误差的出现，进而导致迭代训练的结果产生倾斜。

S50143: 根据判别网络模型的输出值，调整判别网络模型的参数值，使判别网络模型的输出值接近预设输出值。

具体地，通过比较判别网络模型的输出值与预设输出值的差值调整判别网络模型的参数值，以使判别网络模型的输出值接近预设输出值。由于输入的样本为标签设为1的真样本集和标签设为0的假样本集，因此，预设输出值优选为1，即使判别网络模型的输出值接近真样本集。在本步骤中，通过计算判别网络模型的输出值与预设输出值的差值调整判别网络模型的参数值，当判别网络模型的输出值与预设输出值的差值接近于0时，即完成判别网络模型的训练。

在本实施例中，通过将离散特征数据设为假样本集，将少数类特征数据设为真样本集；分别输入假样本集和真样本集至初始生成对抗网络模型中，获取初始生成对抗网络模型中判别网络模型的输出值；根据判别网络模型的输出值，调整判别网络模型的参数值，使判别网络模型的输出值接近预设输出值；从而进一步提高了判别网络模型的稳定性和准确性。

在一实施例中，如图6所示，将离散特征数据和少数类特征数据作为初始生成对抗网络模型的判别网络模型的输入向量，对初始生成对抗网络模型进行迭代训练，还具体包括如下步骤：

S50144: 预设判别网络模型的参数值。

具体地，通过预先设定判别网络模型的参数值，以将判别网络模型设定为定量条件。需要说明的是，参数值一般包括但不限于判别网络模型的判别权重。

S50145: 输入随机噪声数据至初始生成对抗网络模型的生成网络模型中，并进行初始计算得到随机特征数据。

具体地，输入随机噪声数据至初始生成对抗网络模型的生成网络模型中，并进行初始计算得到随机特征数据。优选地，在一具体实施例中，在得到随机特征数据之后，需再将随机特征数据的标签设为1。将随机特征数据的标签设置为1，即表示在进行判别时将随机特征数据看作为当前情况下的少数类特征数据，以通过判别网络模型进行真伪判别。

S50146: 通过比较生成网络模型输出的随机特征数据与少数类特征数据之间的差值，调整生成网络模型的参数值，使生成网络模型输出的随机特征数据接近少数类特征数据。

具体地，计算生成网络模型输出的随机特征数据与少数类特征数据之间的差值，通过比较生成网络模型输出的随机特征数据与少数类特征数据之间的差值，根据差值调整生成网络模型中的参数值，以使生成网络模型输出的随机特征数据接近少数类特征数据，完善生成网络模型。

在本实施例中，通过预设判别网络模型的参数值；输入随机噪声数据至以初始生成对抗网络模型中，并进行初始计算得到随机特征数据；通过比较生成网络模型输出的随机特征数据与少数类特征数据之间的差值，调整生成网络模型的参数值，使生成网络模型输出的随机特征数据接近少数类特征数据；从而进一步提高了生成网络模型的稳定性和准确性。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

在一实施例中，提供一种样本数据处理装置，该样本数据处理装置与上述实施例中样本数据处理方法一一对应。如图7所示，该样本数据处理装置包括样本特征数据获取模块10、分类模块20、统计模块30、少数类特征数据确定模块40、数据构造模块50和加入模块60。各功能模块详细说明如下：

样本特征数据获取模块10，用于获取样本特征数据，样本特征数据包括标注数据；

分类模块20，用于基于标注数据对样本特征数据进行分类，得到不同类型的基本特征数据；

统计模块30，用于统计每一类型的基本特征数据的数据量，根据数据量计算每一类型的基本特征数据在样本特征数据中的占比值；

少数类特征数据集确定模块40，用于在样本特征数据中存在占比值小于预设的占比阈值的基本特征数据时，将占比值小于占比阈值的基本特征数据，确定为少数类特征数据集；

数据构造模块50，用于基于目标生成对抗网络模型对少数类特征数据进行数据构造，生成构造特征数据，其中，目标生成对抗网络模型是采用Deep&CrossNet网络模型构建的；

加入模块60，用于将构造特征数据加入到样本特征数据中，得到标准特征数据。

优选地，如图8所示，数据构造模块50，包括：

训练子模块501，用于获取少数类特征数据，采用少数类特征数据训练预设的初始生成对抗网络模型，生成目标生成对抗网络模型，其中，初始生成对抗网络模型是采用Deep&CrossNet网络模型构建的；

构造特征数据生成子模块502，用于获取随机噪声数据，将随机噪声数据输入目标生成对抗网络模型的生成网络模型中，生成构造特征数据。

优选地，如图9所示，训练子模块501，包括：

搭建单元5011，用于基于Deep&CrossNet网络搭建初始生成对抗网络模型；

训练单元5012，用于输入一组随机噪声数据至初始生成对抗网络模型的生成网络模型中进行训练，生成随机特征数据；

离散化处理单元5013，用于对随机特征数据进行离散化处理，得到离散特征数据；

迭代训练单元5014，用于将离散特征数据和少数类特征数据作为初始生成对抗网络模型的判别网络模型的输入向量，对初始生成对抗网络模型进行迭代训练，生成目标生成对抗网络模型。

优选地，迭代训练单元5014，包括：

设置子单元，用于将离散特征数据设为假样本集，将少数类特征数据设为真样本集；

输入子单元，用于分别输入假样本集和真样本集至初始生成对抗网络模型中，获取初始生成对抗网络模型中判别网络模型的输出值；

第一调整子单元，用于根据判别网络模型的输出值，调整判别网络模型的参数值，使判别网络模型的输出值接近预设输出值。

优选地，迭代训练单元5014，还包括：

预设子单元，用于预设判别网络模型的参数值；

计算子单元，用于输入随机噪声数据至初始生成对抗网络模型的生成网络模型中，并进行初始计算得到随机特征数据；

第二调整子单元，用于通过比较生成网络模型输出的随机特征数据与少数类特征数据之间的差值，调整生成网络模型的参数值，使生成网络模型输出的随机特征数据接近少数类特征数据。

关于样本数据处理装置的具体限定可以参见上文中对于样本数据处理方法的限定，在此不再赘述。上述样本数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储上述实施例中的样本数据处理方法中使用到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种样本数据处理方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述样本数据处理方法：

获取样本特征数据，所述样本特征数据包括标注数据；

在一个实施例中，提供了一种计算机可读存储介质，上述存储介质可以是非易失性存储介质，也可以是易失性存储介质。其上存储有计算机程序，计算机程序被处理器执行时实现上述样本数据处理方法：

获取样本特征数据，所述样本特征数据包括标注数据；

Claims

一种样本数据处理方法，其中，包括：

获取样本特征数据，所述样本特征数据包括标注数据；

基于所述标注数据对所述样本特征数据进行分类，得到不同类型的基本特征数据；

统计所述每一类型的基本特征数据的数据量，根据所述数据量计算所述每一类型的基本特征数据在所述样本特征数据中的占比值；

若所述样本特征数据中存在所述占比值小于预设的占比阈值的基本特征数据，则将所述占比值小于所述占比阈值的基本特征数据，确定为少数类特征数据集；

基于目标生成对抗网络模型对所述少数类特征数据集进行数据构造，生成构造特征数据，其中，所述目标生成对抗网络模型是采用Deep&CrossNet网络模型构建的；

将所述构造特征数据加入到所述样本特征数据中，得到标准特征数据。
如权利要求1所述的样本数据处理方法，其中，所述基于目标生成对抗网络模型对所述少数类特征数据集进行数据构造，生成构造特征数据，包括：

获取少数类特征数据，采用所述少数类特征数据训练预设的初始生成对抗网络模型，生成目标生成对抗网络模型，其中，所述初始生成对抗网络模型是采用Deep&CrossNet网络模型构建的；

获取随机噪声数据，将所述随机噪声数据输入所述目标生成对抗网络模型的生成网络模型中，生成构造特征数据。
如权利要求2所述的样本数据处理方法，其中，所述采用所述少数类特征数据训练预设的初始生成对抗网络模型，生成目标生成对抗网络模型，包括：

基于Deep&CrossNet网络搭建初始生成对抗网络模型；

输入一组随机噪声数据至所述初始生成对抗网络模型的生成网络模型中进行训练，生成随机特征数据；

对所述随机特征数据进行离散化处理，得到离散特征数据；

将所述离散特征数据和所述少数类特征数据作为所述初始生成对抗网络模型的判别网络模型的输入向量，对所述初始生成对抗网络模型进行迭代训练，生成目标生成对抗网络模型。
如权利要求3所述的样本数据处理方法，其中，所述将所述离散特征数据和所述少数类特征数据作为所述初始生成对抗网络模型的判别网络模型的输入向量，对所述初始生成对抗网络模型进行迭代训练，包括：

将所述离散特征数据设为假样本集，将所述少数类特征数据设为真样本集；

分别输入所述假样本集和所述真样本集至所述初始生成对抗网络模型中，获取所述初始生成对抗网络模型中判别网络模型的输出值；

根据所述判别网络模型的所述输出值，调整所述判别网络模型的参数值，使所述判别网络模型的所述输出值接近预设输出值。
如权利要求3所述的样本数据处理方法，其中，所述将所述离散特征数据和所述少数类特征数据作为所述初始生成对抗网络模型的判别网络模型的输入向量，对所述初始生成对抗网络模型进行迭代训练，还包括：

预设所述判别网络模型的参数值；

输入随机噪声数据至所述初始生成对抗网络模型的生成网络模型中，并进行初始计算得到随机特征数据；

通过比较所述生成网络模型输出的所述随机特征数据与所述少数类特征数据之间的差值，调整所述生成网络模型的参数值，使所述生成网络模型输出的随机特征数据接近所述少数类特征数据。
一种样本数据处理装置，其中，包括：

样本特征数据获取模块，用于获取样本特征数据，所述样本特征数据包括标注数据；

分类模块，用于基于所述标注数据对所述样本特征数据进行分类，得到不同类型的基本特征数据；

统计模块，用于统计所述每一类型的基本特征数据的数据量，根据所述数据量计算所述每一类型的基本特征数据在所述样本特征数据中的占比值；

少数类特征数据集确定模块，用于在所述样本特征数据中存在所述占比值小于预设的占比阈值的基本特征数据时，将所述占比值小于所述占比阈值的基本特征数据，确定为少数类特征数据集；

数据构造模块，用于基于目标生成对抗网络模型对所述少数类特征数据集进行数据构造，生成构造特征数据，其中，所述目标生成对抗网络模型是采用Deep&CrossNet网络模型构建的；

加入模块，用于将所述构造特征数据加入到所述样本特征数据中，得到标准特征数据。
如权利要求6所述的样本数据处理装置，其中，所述数据构造模块，包括：

训练子模块，用于获取少数类特征数据，采用所述少数类特征数据训练预设的初始生成对抗网络模型，生成目标生成对抗网络模型，其中，所述初始生成对抗网络模型是采用Deep&CrossNet网络模型构建的；

构造特征数据生成子模块，用于获取随机噪声数据，将所述随机噪声数据输入所述目标生成对抗网络模型的生成网络模型中，生成构造特征数据。
如权利要求7所述的样本数据处理装置，其中，所述训练子模块，包括：

搭建单元，用于基于Deep&CrossNet网络搭建初始生成对抗网络模型；

训练单元，用于输入一组随机噪声数据至所述初始生成对抗网络模型的生成网络模型中进行训练，生成随机特征数据；

离散化处理单元，用于对所述随机特征数据进行离散化处理，得到离散特征数据；

迭代训练单元，用于将所述离散特征数据和所述少数类特征数据作为所述初始生成对抗网络模型的判别网络模型的输入向量，对所述初始生成对抗网络模型进行迭代训练，生成目标生成对抗网络模型。
如权利要求8所述的样本数据处理装置，其中，所述迭代训练单元，包括：

设置子单元，用于将离散特征数据设为假样本集，将少数类特征数据设为真样本集；

输入子单元，用于分别输入假样本集和真样本集至初始生成对抗网络模型中，获取初始生成对抗网络模型中判别网络模型的输出值；

第一调整子单元，用于根据判别网络模型的输出值，调整判别网络模型的参数值，使判别网络模型的输出值接近预设输出值。
如权利要求8所述的样本数据处理装置，其中，所述迭代训练单元，还包括：

预设子单元，用于预设判别网络模型的参数值；

计算子单元，用于输入随机噪声数据至初始生成对抗网络模型的生成网络模型中，并进行初始计算得到随机特征数据；

第二调整子单元，用于通过比较生成网络模型输出的随机特征数据与少数类特征数据之间的差值，调整生成网络模型的参数值，使生成网络模型输出的随机特征数据接近少数类特征数据。
一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现一种样本数据处理方法：

获取样本特征数据，所述样本特征数据包括标注数据；

基于所述标注数据对所述样本特征数据进行分类，得到不同类型的基本特征数据；

统计所述每一类型的基本特征数据的数据量，根据所述数据量计算所述每一类型的基本特征数据在所述样本特征数据中的占比值；

若所述样本特征数据中存在所述占比值小于预设的占比阈值的基本特征数据，则将所述占比值小于所述占比阈值的基本特征数据，确定为少数类特征数据集；

基于目标生成对抗网络模型对所述少数类特征数据集进行数据构造，生成构造特征数据，其中，所述目标生成对抗网络模型是采用Deep&CrossNet网络模型构建的；

将所述构造特征数据加入到所述样本特征数据中，得到标准特征数据。
如权利要求11所述的计算机设备，其中，所述基于目标生成对抗网络模型对所述少数类特征数据集进行数据构造，生成构造特征数据，包括：

获取少数类特征数据，采用所述少数类特征数据训练预设的初始生成对抗网络模型，生成目标生成对抗网络模型，其中，所述初始生成对抗网络模型是采用Deep&CrossNet网络模型构建的；

获取随机噪声数据，将所述随机噪声数据输入所述目标生成对抗网络模型的生成网络模型中，生成构造特征数据。
如权利要求12所述的计算机设备，其中，所述采用所述少数类特征数据训练预设的初始生成对抗网络模型，生成目标生成对抗网络模型，包括：

基于Deep&CrossNet网络搭建初始生成对抗网络模型；

输入一组随机噪声数据至所述初始生成对抗网络模型的生成网络模型中进行训练，生成随机特征数据；

对所述随机特征数据进行离散化处理，得到离散特征数据；

将所述离散特征数据和所述少数类特征数据作为所述初始生成对抗网络模型的判别网络模型的输入向量，对所述初始生成对抗网络模型进行迭代训练，生成目标生成对抗网络模型。
如权利要求13所述的计算机设备，其中，所述将所述离散特征数据和所述少数类特征数据作为所述初始生成对抗网络模型的判别网络模型的输入向量，对所述初始生成对抗网络模型进行迭代训练，包括：

将所述离散特征数据设为假样本集，将所述少数类特征数据设为真样本集；

分别输入所述假样本集和所述真样本集至所述初始生成对抗网络模型中，获取所述初始生成对抗网络模型中判别网络模型的输出值；

根据所述判别网络模型的所述输出值，调整所述判别网络模型的参数值，使所述判别网络模型的所述输出值接近预设输出值。
如权利要求13所述的计算机设备，其中，所述将所述离散特征数据和所述少数类特征数据作为所述初始生成对抗网络模型的判别网络模型的输入向量，对所述初始生成对抗网络模型进行迭代训练，还包括：

预设所述判别网络模型的参数值；

输入随机噪声数据至所述初始生成对抗网络模型的生成网络模型中，并进行初始计算得到随机特征数据；

通过比较所述生成网络模型输出的所述随机特征数据与所述少数类特征数据之间的差值，调整所述生成网络模型的参数值，使所述生成网络模型输出的随机特征数据接近所述少数类特征数据。
一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其中，所述计算机程序被处理器执行时实现一种样本数据处理方法：

获取样本特征数据，所述样本特征数据包括标注数据；

基于所述标注数据对所述样本特征数据进行分类，得到不同类型的基本特征数据；

统计所述每一类型的基本特征数据的数据量，根据所述数据量计算所述每一类型的基本特征数据在所述样本特征数据中的占比值；

若所述样本特征数据中存在所述占比值小于预设的占比阈值的基本特征数据，则将所述占比值小于所述占比阈值的基本特征数据，确定为少数类特征数据集；

基于目标生成对抗网络模型对所述少数类特征数据集进行数据构造，生成构造特征数据，其中，所述目标生成对抗网络模型是采用Deep&CrossNet网络模型构建的；

将所述构造特征数据加入到所述样本特征数据中，得到标准特征数据。
如权利要求16所述的计算机可读存储介质，其中，所述基于目标生成对抗网络模型对所述少数类特征数据集进行数据构造，生成构造特征数据，包括：

获取少数类特征数据，采用所述少数类特征数据训练预设的初始生成对抗网络模型，生成目标生成对抗网络模型，其中，所述初始生成对抗网络模型是采用Deep&CrossNet网络模型构建的；

获取随机噪声数据，将所述随机噪声数据输入所述目标生成对抗网络模型的生成网络模型中，生成构造特征数据。
如权利要求17所述的计算机可读存储介质，其中，所述采用所述少数类特征数据训练预设的初始生成对抗网络模型，生成目标生成对抗网络模型，包括：

基于Deep&CrossNet网络搭建初始生成对抗网络模型；

输入一组随机噪声数据至所述初始生成对抗网络模型的生成网络模型中进行训练，生成随机特征数据；

对所述随机特征数据进行离散化处理，得到离散特征数据；

将所述离散特征数据和所述少数类特征数据作为所述初始生成对抗网络模型的判别网络模型的输入向量，对所述初始生成对抗网络模型进行迭代训练，生成目标生成对抗网络模型。
如权利要求18所述的计算机可读存储介质，其中，所述将所述离散特征数据和所述少数类特征数据作为所述初始生成对抗网络模型的判别网络模型的输入向量，对所述初始生成对抗网络模型进行迭代训练，包括：

将所述离散特征数据设为假样本集，将所述少数类特征数据设为真样本集；

分别输入所述假样本集和所述真样本集至所述初始生成对抗网络模型中，获取所述初始生成对抗网络模型中判别网络模型的输出值；

根据所述判别网络模型的所述输出值，调整所述判别网络模型的参数值，使所述判别网络模型的所述输出值接近预设输出值。
如权利要求18所述的计算机可读存储介质，其中，所述将所述离散特征数据和所述少数类特征数据作为所述初始生成对抗网络模型的判别网络模型的输入向量，对所述初始生成对抗网络模型进行迭代训练，还包括：

预设所述判别网络模型的参数值；

输入随机噪声数据至所述初始生成对抗网络模型的生成网络模型中，并进行初始计算得到随机特征数据；

通过比较所述生成网络模型输出的所述随机特征数据与所述少数类特征数据之间的差值，调整所述生成网络模型的参数值，使所述生成网络模型输出的随机特征数据接近所述少数类特征数据。