WO2020228283A1

WO2020228283A1 - 特征提取方法、装置及计算机可读存储介质

Info

Publication number: WO2020228283A1
Application number: PCT/CN2019/118011
Authority: WO
Inventors: 黄博; 毕野; 吴振宇; 王建明
Original assignee: 平安科技（深圳）有限公司
Priority date: 2019-05-15
Filing date: 2019-11-13
Publication date: 2020-11-19
Also published as: CN110222087A; CN110222087B

Abstract

本申请公开了一种特征提取方法，该方法包括：获取训练数据，所述训练数据包括每个样本数据对应的原始特征；利用所述训练数据训练初始特征提取模型，并得到初始特征提取模型的参数值；对初始特征提取模型的参数值进行筛选，获取筛选后的参数值；利用筛选后的参数值重构所述初始特征提取模型，得到重构后的特征提取模型；将所述训练数据输入至所述重构后的特征提取模型中，得到每个样本数据的衍生特征；根据每个样本数据的衍生特征及每个样本数据对应的原始特征重新训练所述重构后的特征提取模型，直至迭代终止，并得到训练好的特征提取模型。本申请能更好的表示数据特征，提高特征提取的准确性。

Description

特征提取方法、装置及计算机可读存储介质

本申请要求于2019年5月15日提交中国专利局，申请号为201910401822.3、发明名称为“特征提取方法、装置及计算机可读存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机技术领域，尤其涉及一种特征提取方法、装置及计算机可读存储介质。

背景技术

一个常用的数据挖掘流程包括数据采集、数据预处理、特征构建与选择、模型训练、预测等阶段。其中特征构建与选择较为耗时，但又是非常重要的。这是因为特征构建与选择的结果将作为机器学习模型的输入，如果特征不能表达数据中隐藏的模式，机器学习模型将学不到任何东西，自然无法提供较为准确的预测结果。

为了获得精细化的输入特征，一般需要使用大量的人力和时间进行特征构建与选择，然而，人工进行特征的构建与选择的代价非常高。一方面，需要消耗大量的人力；另一方面，很多隐藏在数据里的特征是很难被人发现的。

发明内容

本申请提供一种特征提取方法、装置及计算机可读存储介质，其主要目的在于更能准确的表示数据的特征，从而更能准确的提取数据的特征信息。

为实现上述目的，本申请还提供一种特征提取方法，所述方法包括：获取训练数据，所述训练数据包括每个样本数据对应的原始特征；利用所述训练数据训练初始特征提取模型，并得到初始特征提取模型的参数值；对初始特征提取模型的参数值进行筛选，获取筛选后的参数值；利用筛选后的参数值重构所述初始特征提取模型，得到重构后的特征提取模型；将所述训练数据输入至所述重构后的特征提取模型中，得到每个样本数据的衍生特征；根据每个样本数据的衍生特征及每个样本数据对应的原始特征重新训练所述重构后的特征提取模型，直至迭代终止，并得到训练好的特征提取模型；获取目标数据；将所述目标数据输入至训练好的特征提取模型中，得到所述目标数据的特征。

为了实现上述目的、本申请还提供一种特征提取装置，所述装置包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的特征提取程序，所述特征提取程序被所述处理器执行时实现如下步骤：获取训练数据，所述训练数据包括每个样本数据对应的原始特征；利用所述训练数据训练初始特征提取模型，并得到初始特征提取模型的参数值；对初始特征提取模型的参数值进行筛选，获取筛选后的参数值；利用筛选后的参数值重构所述初始特征提取模型，得到重构后的特征提取模型；将所述训练数据输入至所述重构后的特征提取模型中，得到每个样本数据的衍生特征；根据每个样本数据的衍生特征及每个样本数据对应的原始特征重新训练所述重构后的特征提取模型，直至迭代终止，并得到训练好的特征提取模型；获取目标数据；将所述目标数据输入至训练好的特征提取模型中，得到所述目标数据的特征。

此外，为实现上述目的，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有特征提取程序，所述特征提取程序可被一个或者多个处理器执行，以实现如上所述的特征提取方法的步骤。

通过上述技术方案，本申请获取训练数据，所述训练数据包括每个样本数据对应的原始特征；利用所述训练数据训练初始特征提取模型，并得到初始特征提取模型的参数值；对初始特征提取模型的参数值进行筛选，获取筛选后的参数值；利用筛选后的参数值重构所述初始特征提取模型，得到重构后的特征提取模型；将所述训练数据输入至所述重构后的特征提取模型中，得到每个样本数据的衍生特征；根据每个样本数据的衍生特征及每个样本数据对应的原始特征重新训练所述重构后的特征提取模型，直至迭代终止，并得到训练好的特征提取模型。本申请能更好的表示数据特征，提高特征提取的准确性。

附图说明

图1为本申请一实施例提供的特征提取方法的流程示意图；

图2为本申请一实施例提供的特征提取装置的内部结构示意图；

图3为本申请一实施例提供的特征提取装置中特征提取程序的模块示意图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供一种特征提取方法。参照图1所示，为本申请一实施例提供的特征提取方法的流程示意图。该方法可以由一个装置执行，该装置可以由软件和/或硬件实现。

在本实施例中，特征提取方法包括：

S10、获取训练数据，所述训练数据包括每个样本数据对应的原始特征。

在本实施例中，获取原始样本数据；

对所述原始样本数据进行预处理，得到所述训练数据，所述预处理包括以下至少一种：归一化处理、缺失值填充、噪声数据处理、不一致数据的数据清理。

其中数据的归一化是将数据按比例缩放，使之落入一个小的特定区间。由于原始变量特征值中的各个特征度量单位是不同的，为了能够将指标参与评价计算，需要对指标进行规范化处理，通过函数变换将原始变量的数值映射到某个数值区间。本申请应用的归一化处理方法是z-score归一化方法。

缺失值填充的处理包括：删除含有缺失值的样，使用一个全局常量填充缺失值等等。

噪声数据的处理包括噪声的平滑。噪声平滑：噪声(noise)是被测量变量的随机误差或偏差。给定一个数值属性，可以使用以下数据光滑技术来平滑噪声。例如分箱(binning)法等等。

S11、利用所述训练数据训练初始特征提取模型，并得到初始特征提取模型的参数值。

在本实施例中，所述初始特征提取模型包括循环神经网络模型，所述循环神经网络模型包括：输入层、隐藏层和输出层；

输入层：用于定义元素的特征数据中不同类型的数据输入；

隐藏层：用于利用激励函数对输入层输入的元素的特征数据进行非线性化处理；

输出层：用于对隐藏层拟合的结果进行输出表示，输出元素的特征对应的数据类型；

记忆单元：记忆单元在神经元内部决定是否应该写入或删除对信息的记忆，并将之前的记录的元素的特征数据、现在的记忆的元素的特征数据和当前输入的元素的特征结合在一起，对长期信息进行记录。

在利用神经网络的方法训练初始特征提取模型时，在停止训练时，即可输出初始特征提取模型的参数值。

S12、对初始特征提取模型的参数值进行筛选，获取筛选后的参数值。

由于在很多情况下，数据中的特征数量会远远超过训练数据的数量，为简化模型的训练，本申请使用基于BP神经网络的方法从特征提取器参数中进行特征选择，并以参数值X对特征提取模型状态Y变化的灵敏度δ作为评价参数值的度量，从而挑选出较灵敏的参数值，以便于后续从样本数据挖掘出更多的隐藏特征，即衍生特征。

在一具体实现中，所述对初始特征提取模型的参数值进行筛选，获取筛选后的参数值包括：

计算所述初始特征提取模型的参数值相对于所述初始特征提取模型的灵敏度；

根据灵敏度的高低对所述初始特征提取模型的参数值进行排序，从排序后的参数值中挑选排在前预设位数的参数值作为筛选后的参数值。

S13、利用筛选后的参数值重构所述初始特征提取模型，得到重构后的特征提取模型。

在一实施例中，所述利用筛选后的参数值重构所述初始特征提取模型，得到重构后的特征提取模型包括：在所述初始特征提取模型中，增加所述筛选后的参数值的权重以得到重构后的特征提取模型，减少所述初始特征提取模型的参数值中其他参数值的权重，这样便于特征提取模型的训练对灵敏度较高的参数对应的特征更加敏感，从而挖掘更多的隐藏特征。

S14、将所述训练数据输入至所述重构后的特征提取模型中，得到每个样本数据的衍生特征。

在本实施例中，训练所述重构后的特征提取模型的方法与上述训练所述初始特征提取模型方法相同。所述衍生特征是一种因原始特征的变化而变化的特征，根据该原始特征可以经由深度特征提取器得到衍生特征变量，衍生特征是指用原始数据进行特征学习得到新的特征，从而挖掘隐藏在原始数据中的特征。

S15、根据每个样本数据的衍生特征及每个样本数据对应的原始特征重新训练所述重构后的特征提取模型，直至迭代终止，并得到训练好的特征提取模型。

所述根据每个样本数据的衍生特征及每个样本数据对应的原始特征重新训练所述重构后的特征提取模型，直至迭代终止，并得到训练好的特征提取模型包括：

将所述每个样本数据的衍生特征及每个样本数据的原始特征进行合并，得到每个样本数据的合并后的特征；

利用随机森林变量的重要性方法，从每个样本数据的合并后的特征中筛选出每个样本数据的重要特征；

利用所述训练数据中每个样本数据的重要特征重新训练所述重构后的特征提取模型，直至迭代终止，并得到训练好的特征提取模型。

其中变量的重要性variable importance是衡量变量重要性的指标，其利用随机森林变量的重要性方法，从每个样本数据的合并后的特征中筛选出每个样本数据的重要特征包括：

1)将每个样本数据的合并后的特征构成随机森林中的每一颗决策树，使用相应的带外数据OOB数据来计算它的带外数据误差，记为errOOB1；

2)随机地对带外数据OOB所有样本的特征X加入噪声干扰(就可以随机的改变样本在特征X处的值)，再次计算它的带外数据误差，记为errOOB2；

3)假设随机森林中有Ntree棵树，那么对于特征t的重要性，构建一个目标函数，该目标函数表明某个特征随机加入噪声之后，若带外的准确率大幅度降低，则说明这个特征对于样本的分类结果影响很大，也就是说它的重要程度比较高。

S16、获取目标数据。

在本实施例中，所述目标数据是电子设备获取的数据，例如用户上述的图像数据等等。

S17、将所述目标数据输入至训练好的特征提取模型中，得到所述目标数据的特征。

本申请还提供一种特征提取装置。参照图2所示，为本申请一实施例提供的特征提取装置的内部结构示意图。

在本实施例中，特征提取装置1可以是个人电脑(Personal Computer，PC)，也可以是智能手机、平板电脑、便携计算机等终端设备。该特征提取装置1至少包括存储器11、处理器12，通信总线13，以及网络接口14。

其中，存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是特征提取装置1的内部存储单元，例如该特征提取装置1的硬盘。存储器11在另一些实施例中也可以是特征提取装置1的外部存储设备，例如特征提取装置1上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，存储器11还可以既包括特征提取装置1的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于特征提取装置1的应用软件及各类数据，例如特征提取程序01的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他特征提取芯片，用于运行存储器11中存储的程序代码或处理数据，例如执行特征提取程序01等。

通信总线13用于实现这些组件之间的连接通信。

网络接口14可选的可以包括标准的有线接口、无线接口(如WI-FI接口)，通常用于在该装置1与其他电子设备之间建立通信连接。

可选地，该装置1还可以包括用户接口，用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard)，可选的用户接口还可以包括标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode，OLED)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在特征提取装置1中处理的信息以及用于显示可视化的用户界面。

图2仅示出了具有组件11-14以及特征提取程序01的特征提取装置1，本领域技术人员可以理解的是，图1示出的结构并不构成对特征提取装置1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

在图2所示的装置1实施例中，存储器11中存储有特征提取程序01；处理器12执行存储器11中存储的特征提取程序01时实现如下步骤：

获取训练数据，所述训练数据包括每个样本数据对应的原始特征。

在本实施例中，获取原始样本数据；

利用所述训练数据训练初始特征提取模型，并得到初始特征提取模型的参数值。

输入层：用于定义元素的特征数据中不同类型的数据输入；

对初始特征提取模型的参数值进行筛选，获取筛选后的参数值。

利用筛选后的参数值重构所述初始特征提取模型，得到重构后的特征提取模型。

将所述训练数据输入至所述重构后的特征提取模型中，得到每个样本数据的衍生特征。

根据每个样本数据的衍生特征及每个样本数据对应的原始特征重新训练所述重构后的特征提取模型，直至迭代终止，并得到训练好的特征提取模型。

获取目标数据。

将所述目标数据输入至训练好的特征提取模型中，得到所述目标数据的特征。

可选地，在其他实施例中，特征提取程序还可以被分割为一个或者多个模块，一个或者多个模块被存储于存储器11中，并由一个或多个处理器(本实施例为处理器12)所执行以完成本申请，本申请所称的模块是指能够完成特定功能的一系列计算机程序指令段，用于描述特征提取程序在特征提取装置中的执行过程。

例如，参照图3所示，为本申请特征提取装置一实施例中的特征提取程序的程序模块示意图，该实施例中，特征提取程序可以被分割为获取模块10、训练模块20、筛选模块30及重构模块40，示例性地：

获取模块10获取训练数据，所述训练数据包括每个样本数据对应的原始特征；

训练模块20利用所述训练数据训练初始特征提取模型，并得到初始特征提取模型的参数值；

筛选模块30对初始特征提取模型的参数值进行筛选，获取筛选后的参数值；

重构模块40利用筛选后的参数值重构所述初始特征提取模型，得到重构后的特征提取模型；

所述训练模块20将所述训练数据输入至所述重构后的特征提取模型中，得到每个样本数据的衍生特征；

所述训练模块20根据每个样本数据的衍生特征及每个样本数据对应的原始特征重新训练所述重构后的特征提取模型，直至迭代终止，并得到训练好的特征提取模型；

所述获取模块10获取目标数据；

所述训练模块20将所述目标数据输入至训练好的特征提取模型中，得到所述目标数据的特征。

上述获取模块10、训练模块20、筛选模块30及重构模块40等程序模块被执行时所实现的功能或操作步骤与上述实施例大体相同，在此不再赘述。

此外，本申请实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有特征提取程序，所述特征提取程序可被一个或多个处理器执行，以实现如下操作：

获取训练数据，所述训练数据包括每个样本数据对应的原始特征；

利用所述训练数据训练初始特征提取模型，并得到初始特征提取模型的参数值；

对初始特征提取模型的参数值进行筛选，获取筛选后的参数值；

利用筛选后的参数值重构所述初始特征提取模型，得到重构后的特征提取模型；

将所述训练数据输入至所述重构后的特征提取模型中，得到每个样本数据的衍生特征；

根据每个样本数据的衍生特征及每个样本数据对应的原始特征重新训练所述重构后的特征提取模型，直至迭代终止，并得到训练好的特征提取模型；

获取目标数据；

本申请计算机可读存储介质具体实施方式与上述特征提取装置和方法各实施例基本相同，在此不作累述。

需要说明的是，上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

一种特征提取方法，其特征在于，所述方法包括：

获取训练数据，所述训练数据包括每个样本数据对应的原始特征；

利用所述训练数据训练初始特征提取模型，并得到初始特征提取模型的参数值；

对初始特征提取模型的参数值进行筛选，获取筛选后的参数值；

利用筛选后的参数值重构所述初始特征提取模型，得到重构后的特征提取模型；

将所述训练数据输入至所述重构后的特征提取模型中，得到每个样本数据的衍生特征；

根据每个样本数据的衍生特征及每个样本数据对应的原始特征重新训练所述重构后的特征提取模型，直至迭代终止，并得到训练好的特征提取模型；

获取目标数据；

将所述目标数据输入至训练好的特征提取模型中，得到所述目标数据的特征。
如权利要求1所述的特征提取方法，其特征在于，所述获取训练数据包括：

获取原始样本数据；

对所述原始样本数据进行预处理，得到所述训练数据，所述预处理包括以下至少一种：归一化处理、缺失值填充、噪声数据处理、不一致数据的数据清理。
如权利要求1所述的特征提取方法，其特征在于，所述初始特征提取模型包括循环神经网络模型，所述循环神经网络模型包括：输入层、隐藏层和输出层；

输入层：用于定义元素的特征数据中不同类型的数据输入；

隐藏层：用于利用激励函数对输入层输入的元素的特征数据进行非线性化处理；

输出层：用于对隐藏层拟合的结果进行输出表示，输出元素的特征对应的数据类型；

记忆单元：记忆单元在神经元内部决定是否应该写入或删除对信息的记忆，并将之前的记录的元素的特征数据、现在的记忆的元素的特征数据和当前输入的元素的特征结合在一起，对长期信息进行记录。
如权利要求1所述的特征提取方法，其特征在于，所述对初始特征提取模型的参数值进行筛选，获取筛选后的参数值包括：

计算所述初始特征提取模型的参数值相对于所述初始特征提取模型的灵敏度；

根据灵敏度的高低对所述初始特征提取模型的参数值进行排序，从排序后的参数值中挑选排在前预设位数的参数值作为筛选后的参数值。
如权利要求4所述的特征提取方法，其特征在于，所述利用筛选后的参数值重构所述初始特征提取模型，得到重构后的特征提取模型包括：

在所述初始特征提取模型中，增加所述筛选后的参数值的权重以得到重构后的特征提取模型。
如权利要求1所述的特征提取方法，其特征在于，所述根据每个样本数据的衍生特征及每个样本数据对应的原始特征重新训练所述重构后的特征提取模型，直至迭代终止，并得到训练好的特征提取模型包括：

将所述每个样本数据的衍生特征及每个样本数据的原始特征进行合并，得到每个样本数据的合并后的特征；

利用随机森林变量的重要性，从每个样本数据的合并后的特征中筛选出每个样本数据的重要特征；

利用所述训练数据中每个样本数据的重要特征重新训练所述重构后的特征提取模型，直至迭代终止，并得到训练好的特征提取模型。
如权利要求2至5中任一项所述的特征提取方法，其特征在于，所述根据每个样本数据的衍生特征及每个样本数据对应的原始特征重新训练所述重构后的特征提取模型，直至迭代终止，并得到训练好的特征提取模型包括：

将所述每个样本数据的衍生特征及每个样本数据的原始特征进行合并，得到每个样本数据的合并后的特征；

利用随机森林变量的重要性，从每个样本数据的合并后的特征中筛选出每个样本数据的重要特征；

利用所述训练数据中每个样本数据的重要特征重新训练所述重构后的特征提取模型，直至迭代终止，并得到训练好的特征提取模型。
一种特征提取装置，其特征在于，所述装置包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的特征提取程序，所述特征提取程序被所述处理器执行时实现如下步骤：

获取训练数据，所述训练数据包括每个样本数据对应的原始特征；

利用所述训练数据训练初始特征提取模型，并得到初始特征提取模型的参数值；

对初始特征提取模型的参数值进行筛选，获取筛选后的参数值；

利用筛选后的参数值重构所述初始特征提取模型，得到重构后的特征提取模型；

将所述训练数据输入至所述重构后的特征提取模型中，得到每个样本数据的衍生特征；

根据每个样本数据的衍生特征及每个样本数据对应的原始特征重新训练所述重构后的特征提取模型，直至迭代终止，并得到训练好的特征提取模型；

获取目标数据；

将所述目标数据输入至训练好的特征提取模型中，得到所述目标数据的特征。
如权利要求8所述的特征提取装置，其特征在于，所述获取训练数据包括：

获取原始样本数据；

对所述原始样本数据进行预处理，得到所述训练数据，所述预处理包括以下至少一种：归一化处理、缺失值填充、噪声数据处理、不一致数据的数据清理。
如权利要求8所述的特征提取装置，其特征在于，所述初始特征提取模型包括循环神经网络模型，所述循环神经网络模型包括：输入层、隐藏层和输出层；

输入层：用于定义元素的特征数据中不同类型的数据输入；

隐藏层：用于利用激励函数对输入层输入的元素的特征数据进行非线性化处理；

输出层：用于对隐藏层拟合的结果进行输出表示，输出元素的特征对应的数据类型；

记忆单元：记忆单元在神经元内部决定是否应该写入或删除对信息的记忆，并将之前的记录的元素的特征数据、现在的记忆的元素的特征数据和当前输入的元素的特征结合在一起，对长期信息进行记录。
如权利要求8所述的特征提取装置，其特征在于，所述对初始特征提取模型的参数值进行筛选，获取筛选后的参数值包括：

计算所述初始特征提取模型的参数值相对于所述初始特征提取模型的灵敏度；

根据灵敏度的高低对所述初始特征提取模型的参数值进行排序，从排序后的参数值中挑选排在前预设位数的参数值作为筛选后的参数值。
如权利要求11所述的特征提取装置，其特征在于，所述利用筛选后的参数值重构所述初始特征提取模型，得到重构后的特征提取模型包括：

在所述初始特征提取模型中，增加所述筛选后的参数值的权重以得到重构后的特征提取模型。
如权利要求8所述的特征提取装置，其特征在于，所述根据每个样本数据的衍生特征及每个样本数据对应的原始特征重新训练所述重构后的特征提取模型，直至迭代终止，并得到训练好的特征提取模型包括：

将所述每个样本数据的衍生特征及每个样本数据的原始特征进行合并，得到每个样本数据的合并后的特征；

利用随机森林变量的重要性，从每个样本数据的合并后的特征中筛选出每个样本数据的重要特征；

利用所述训练数据中每个样本数据的重要特征重新训练所述重构后的特征提取模型，直至迭代终止，并得到训练好的特征提取模型。
如权利要求9至12中任一项所述的特征提取装置，其特征在于，所述根据每个样本数据的衍生特征及每个样本数据对应的原始特征重新训练所述重构后的特征提取模型，直至迭代终止，并得到训练好的特征提取模型包括：

将所述每个样本数据的衍生特征及每个样本数据的原始特征进行合并，得到每个样本数据的合并后的特征；

利用随机森林变量的重要性，从每个样本数据的合并后的特征中筛选出每个样本数据的重要特征；

利用所述训练数据中每个样本数据的重要特征重新训练所述重构后的特征提取模型，直至迭代终止，并得到训练好的特征提取模型。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有特征提取程序，所述特征提取程序可被一个或者多个处理器执行，以实现如下步骤：

获取训练数据，所述训练数据包括每个样本数据对应的原始特征；

利用所述训练数据训练初始特征提取模型，并得到初始特征提取模型的参数值；

对初始特征提取模型的参数值进行筛选，获取筛选后的参数值；

利用筛选后的参数值重构所述初始特征提取模型，得到重构后的特征提取模型；

将所述训练数据输入至所述重构后的特征提取模型中，得到每个样本数据的衍生特征；

根据每个样本数据的衍生特征及每个样本数据对应的原始特征重新训练所述重构后的特征提取模型，直至迭代终止，并得到训练好的特征提取模型；

获取目标数据；

将所述目标数据输入至训练好的特征提取模型中，得到所述目标数据的特征。
如权利要求15所述的计算机可读存储介质，其特征在于，所述获取训练数据包括：

获取原始样本数据；

对所述原始样本数据进行预处理，得到所述训练数据，所述预处理包括以下至少一种：归一化处理、缺失值填充、噪声数据处理、不一致数据的数据清理。
如权利要求15所述的计算机可读存储介质，其特征在于，所述初始特征提取模型包括循环神经网络模型，所述循环神经网络模型包括：输入层、隐藏层和输出层；

输入层：用于定义元素的特征数据中不同类型的数据输入；

隐藏层：用于利用激励函数对输入层输入的元素的特征数据进行非线性化处理；

输出层：用于对隐藏层拟合的结果进行输出表示，输出元素的特征对应的数据类型；

记忆单元：记忆单元在神经元内部决定是否应该写入或删除对信息的记忆，并将之前的记录的元素的特征数据、现在的记忆的元素的特征数据和当前输入的元素的特征结合在一起，对长期信息进行记录。
如权利要求15所述的计算机可读存储介质，其特征在于，所述对初始特征提取模型的参数值进行筛选，获取筛选后的参数值包括：

计算所述初始特征提取模型的参数值相对于所述初始特征提取模型的灵敏度；

根据灵敏度的高低对所述初始特征提取模型的参数值进行排序，从排序后的参数值中挑选排在前预设位数的参数值作为筛选后的参数值。
如权利要求18所述的计算机可读存储介质，其特征在于，所述利用筛选后的参数值重构所述初始特征提取模型，得到重构后的特征提取模型包括：

在所述初始特征提取模型中，增加所述筛选后的参数值的权重以得到重构后的特征提取模型。
如权利要求15-19任一项所述的计算机可读存储介质，其特征在于，所述根据每个样本数据的衍生特征及每个样本数据对应的原始特征重新训练所述重构后的特征提取模型，直至迭代终止，并得到训练好的特征提取模型包括：

将所述每个样本数据的衍生特征及每个样本数据的原始特征进行合并，得到每个样本数据的合并后的特征；

利用随机森林变量的重要性，从每个样本数据的合并后的特征中筛选出每个样本数据的重要特征；

利用所述训练数据中每个样本数据的重要特征重新训练所述重构后的特征提取模型，直至迭代终止，并得到训练好的特征提取模型。