WO2021143055A1

WO2021143055A1 - 智能化的数据优化方法、装置、电子设备及存储介质

Info

Publication number: WO2021143055A1
Application number: PCT/CN2020/098964
Authority: WO
Inventors: 王海平
Original assignee: 平安科技（深圳）有限公司
Priority date: 2020-01-19
Filing date: 2020-06-29
Publication date: 2021-07-22
Also published as: CN111259318A

Abstract

一种智能化的数据优化方法，包括：接收用户输入的数据优化指令，从大数据存储平台中提取原始数据集，对所述原始数据集进行去异常处理得到标准数据集（S1），将所述标准数据集进行灰色预测得到统计信息集（S2），计算所述统计信息集的代价值得到成本数据集（S3），剔除所述成本数据集内大于或等于预设成本阈值的数据，得到优化成本数据集（S4），将所述优化成本数据集进行数据范围修改操作得到最优数据集，将所述最优数据集存储至所述大数据存储平台内，完成数据优化操作（S5）。还提出一种智能化的数据优化装置、电子设备以及一种计算机可读存储介质。该方法可以实现高效的智能化的数据优化功能。

Description

智能化的数据优化方法、装置、电子设备及存储介质

本申请要求于2020年1月19日提交中国专利局、申请号为CN 202010068234.5，发明名称为“智能化的数据优化方法、装置及计算机可读存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能技术领域，尤其涉及一种智能化的数据优化的方法、装置、电子设备及计算机可读存储介质。

背景技术

发明人意识到目前对于数据优化，多依赖人工经验和大数据优化模型如Hadoop等，但人工经验难以根据公司的数据情况积累科学地优化模型，换言之说，缺乏一个自动优化机制和优化模型，帮助开发者更快的完成数据优化，而大数据优化模型因为需要超强的数据扩展的硬件能力以及非结构化数据支持，综合来说对硬件要求高，因此，一种性价比高的数据优化方法急需解决。

发明内容

本申请提供一种智能化的数据优化方法、装置、电子设备及计算机可读存储介质，其主要目的在于根据用户优化要求而进行智能化的数据优化。

为实现上述目的，本申请提供的一种智能化的数据优化方法，包括：

接收用户输入的数据优化指令，从大数据存储平台中提取原始数据集，对所述原始数据集进行去异常处理得到标准数据集；

将所述标准数据集进行灰色预测得到统计信息集；

计算所述统计信息集的代价值得到成本数据集；

剔除所述成本数据集内大于或等于预设成本阈值的数据，得到优化成本数据集；

将所述优化成本数据集进行数据范围修改操作得到最优数据集，将所述最优数据集存储至所述大数据存储平台内，完成数据优化操作。

此外，为实现上述目的，本申请还提供一种电子设备，该设备包括存储器和处理器，所述存储器中存储有可在所述处理器上运行的智能化的数据优化程序，所述智能化的数据优化程序被所述处理器执行时实现如下步骤：

将所述标准数据集进行灰色预测得到统计信息集；

计算所述统计信息集的代价值得到成本数据集；

此外，为实现上述目的，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有智能化的数据优化程序，所述智能化的数据优化程序可被一个或者多个处理器执行，以实现如下步骤：

将所述标准数据集进行灰色预测得到统计信息集；

计算所述统计信息集的代价值得到成本数据集；

此外，为实现上述目的，本申请还提供一种智能化的数据优化装置，其中，包括：

数据接收及处理模块，用于接收用户输入的数据优化指令，从大数据存储平台中提取原始数据集，对所述原始数据集进行去异常处理得到标准数据集；

灰色预测模块，用于将所述标准数据集进行灰色预测得到统计信息集；

成本优化模块，用于计算所述统计信息集的代价值得到成本数据集，剔除所述成本数据集内大于或等于预设成本阈值的数据，得到优化成本数据集；

数据优化模块，用于将所述优化成本数据集进行数据范围修改操作得到最优数据集，将所述最优数据集存储至所述大数据存储平台内，完成数据优化操作。

本申请通过灰色预测得到统计信息集，并计算数据集的代价值得到成本数据集，通过数据范围修改操作得到最优数据集，因为使用了灰色预测、数据范围修改操作等自动优化机制，减少了人工经验的干预，更快的帮助开发者完成数据优化，同时每个优化器的计算方法较为简便，不用太强的硬件能力以及非结构化数据支持。因此本申请提出的智能化的数据优化方法、装置及计算机可读存储介质，可以实现高效的数据优化功能。

附图说明

图1为本申请一实施例提供的智能化的数据优化方法的流程示意图；

图2为本申请一实施例提供的电子设备的内部结构示意图；

图3为本申请一实施例提供的智能化的数据优化装置的模块示意图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供一种智能化的数据优化方法。参照图1所示，为本申请一实施例提供的智能化的数据优化方法的流程示意图。该方法可以由一个装置执行，该装置可以由软件和/或硬件实现。

在本实施例中，智能化的数据优化方法包括：

S1、接收用户输入的数据优化指令，从大数据存储平台中提取原始数据集，对所述原始数据集进行去异常处理得到标准数据集。

所述大数据存储平台是存储了大量数据并对大量数据进行处理的框架或平台，如mapreduce、hive、spark等。

所述原始数据集是指本申请所需要优化的数据集，如用户输入的人寿保险数据，由于人寿保险数据的规格、数据量、最终的用途等不一样，所以在存储方式、数据计算等方式上方法不尽相同，所以需要经过数据优化。

所述去异常处理是为了将所述原始数据集中的缺失、重复等异常数据进行剔除处理后得到标准数据的一种操作。所述去异常处理包括双边测试剔除和单边测试剔除。所述单边测试剔除包括最小值测试剔除，最大值测试剔除

进一步地，所述双边测试剔除数据公式如下:

其中，i是正整数，

表示所述原始数据集的平均值，S表示所述原始数据集的标准差，Y _i表示所述原始数据集内的数据。

所述最小值测试剔除的公式如下：

所述最大值测试剔除的公式如下：

S2、将所述标准数据集进行灰色预测得到统计信息集。

较佳地，所述灰色预测的目的是指根据当前输入的所述标准数据集和历史的数据任务的运行情况和资源使用情况，如CPU、内存、磁盘和网络IO等方面的使用率和运行时间等，评估处理所述标准数据集的并发量和最优资源配置，从而得到统计数据集。

进一步地，所述S2包括：对所述标准数据集根据抽样统计方法统计历史数据得到历史数据集，相加所述历史数据集和所述标准数据集得到总数据集，根据所述总数据集建立微分方程，求解所述微分方程得到统计信息集。

详细地，所述微分方程的建立过程如下：

X ⁽⁰⁾＝{X ⁽⁰⁾(i),i＝1,2,3,…,n}

其中，X ⁽⁰⁾表示所述标准数据集，n为所述标准数据集的数据量，所述历史数据集为：

X ⁽¹⁾＝{X ⁽¹⁾(k),k＝1,2,3,…,t}

所述总数据集为X ⁽²⁾(k)

对所述总数据集X ⁽²⁾(k)建立微分方程：

其中，s为所述总数据集的数据编号，a为所述微分方程的制约因子，u为所述微分方程的目标值。求解上述微分方程的解为：

或者

其中，k表示所述标准数据集的数据编号。

S3、计算所述统计信息集的代价值得到成本数据集。

所述S3主要是根据所述统计信息集计算每种执行方式的代价(即成本代价)，进而选择最优的执行方式，所述执行方式如存储方式、数据计算方式等。

进一步地，所述S3包括：接收所述统计信息集，将所述统计信息集进行全排列得到多个全排列值，根据预先构建的代价函数计算所述多个全排列值的代价值，选择代价值最小的全排列值对应的排列数据集得到成本数据集。

详细地，所述全排列值y为：

其中，n！表示所述统计信息集的排列组合，r _k！表示遍历所述统计信息集的数据并进行排列。

较佳地，所述代价函数为：

其中，N表示所述多个全排列值的具体个数，y _goal表示预设全排列值的目标值，y _i表示所述多个全排列值，L表示目标函数，较佳地可用梯度下降算法，J(y _i)表示惩罚函数，ρ表示调节因子。

S4、剔除所述成本数据集内大于或等于预设成本阈值的数据，得到优化成本数据集。

较佳地，如预先设置的成本阈值为0.8，若所述成本数据集内的数据大于或等于所述成本阈值0.8，则剔除所述数据，若所述成本数据集内的数据小于所述成本阈值0.8，则保留所述数据。

S5、将所述优化成本数据集进行数据范围修改操作得到最优数据集，将所述最优数据集存储至所述大数据存储平台内，完成数据优化操作。

优选地，所述数据范围修改操作包括，分区剪枝，分布上拉，分布下推以及分布对齐等方法。

进一步地，若用户觉得所述优化成本数据集的数据分布较为复杂时，本方案可根据CART算法或其他剪枝算法对所述优化成本数据集进行所述分区剪枝，使数据分布较为简便；若所述优化成本数据集的数据分布较为分散，用户需要集中数据时，则可进行所述分布上拉操作，将所述优化成本数据集映射在一个数据区间内；若所述优化成本数据集的数据分布较为庞大，则进行所述分布下推将所述优化成本数据集映射到一个合理的数据区间内；若所述优化成本数据集的数据在数据排列上结构不完整，则进行所述分布对齐，使得数据分布的结构更完整。

发明还提供一种电子设备。参照图2所示，为本申请一实施例提供的电子设备的内部结构示意图。

在本实施例中，所述电子设备1可以是PC(Personal Computer，个人电脑)，或者是智能手机、平板电脑、便携计算机等终端设备，也可以是一种服务器等。该电子设备1至少包括存储器11、处理器12，通信总线13，以及网络接口14。

其中，存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是电子设备1的内部存储单元，例如该电子设备1的硬盘。存储器11在另一些实施例中也可以是电子设备1的外部存储设备，例如电子设备1上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，存储器11还可以既包括电子设备1的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据，例如智能化的数据优化程序01的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器或其他数据处理芯片，用于运行存储器11中存储的程序代码或处理数据，例如执行智能化的数据优化程序01等。

通信总线13用于实现这些组件之间的连接通信。

网络接口14可选的可以包括标准的有线接口、无线接口(如WI-FI接口)，通常用于在该装置1与其他电子设备之间建立通信连接。

可选地，该装置1还可以包括用户接口，用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard)，可选的用户接口还可以包括标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。

图2仅示出了具有组件11-14以及智能化的数据优化程序01的电子设备1，本领域技术人员可以理解的是，图1示出的结构并不构成对电子设备1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

在图2所示的装置1实施例中，存储器11中存储有智能化的数据优化程序01；处理器12执行存储器11中存储的智能化的数据优化程序01时实现如下步骤：

步骤一、接收用户输入的数据优化指令，从大数据存储平台中提取原始数据集，对所述原始数据集进行去异常处理得到标准数据集。

进一步地，所述双边测试剔除数据公式如下:

其中，i是正整数，

所述最小值测试剔除的公式如下：

所述最大值测试剔除的公式如下：

步骤二、将所述标准数据集进行灰色预测得到统计信息集。

进一步地，所述步骤二包括：对所述标准数据集根据抽样统计方法统计历史数据得到历史数据集，相加所述历史数据集和所述标准数据集得到总数据集，根据所述总数据集建立微分方程，求解所述微分方程得到统计信息集。

详细地，所述微分方程的建立过程如下：

X ⁽⁰⁾＝{X ⁽⁰⁾(i),i＝1,2,3,…,n}

X ⁽¹⁾＝{X ⁽¹⁾(k),k＝1,2,3,…,t}

所述总数据集为X ⁽²⁾(k)

对所述总数据集X ⁽²⁾(k)建立微分方程：

或者

其中，k表示所述标准数据集的数据编号。

步骤三、计算所述统计信息集的代价值得到成本数据集。

所述步骤三主要是根据所述统计信息集计算每种执行方式的代价(即成本代价)，进而选择最优的执行方式，所述执行方式如存储方式、数据计算方式等。

进一步地，所述步骤三包括：接收所述统计信息集，将所述统计信息集进行全排列得到多个全排列值，根据预先构建的代价函数计算所述多个全排列值的代价值，选择代价值最小的全排列值对应的排列数据集得到成本数据集。

详细地，所述全排列值y为：

较佳地，所述代价函数为：

步骤四、剔除所述成本数据集内大于或等于预设成本阈值的数据，得到优化成本数据集。

步骤五、将所述优化成本数据集进行数据范围修改操作得到最优数据集，将所述最优数据集存储至所述大数据存储平台内，完成数据优化操作。

参照图3所示，为本申请智能化的数据优化装置100一实施例中的模块示意图，该实施例中，所述智能化的数据优化装置100包括数据接收及处理模块10、灰色预测模块20、成本优化模块30、数据优化模块40示例性地：

所述数据接收及处理模块10用于：接收用户输入的数据优化指令，从大数据存储平台中提取原始数据集，对所述原始数据集进行去异常处理得到标准数据集。

所述灰色预测模块20用于：将所述标准数据集进行灰色预测得到统计信息集。

所述成本优化模块30用于：计算所述统计信息集的代价值得到成本数据集，剔除所述成本数据集内大于或等于预设成本阈值的数据，得到优化成本数据集。

所述数据优化模块40用于：将所述优化成本数据集进行数据范围修改操作得到最优数据集，将所述最优数据集存储至所述大数据存储平台内，完成数据优化操作。

上述数据接收及处理模块10、灰色预测模块20、成本优化模块30、数据优化模块40等程序模块被执行时所实现的功能或操作步骤与上述实施例大体相同，在此不再赘述。

此外，本申请实施例还提出一种计算机可读存储介质，所述计算机可读存储介质可以是非易失性，也可以是易失性，所述计算机可读存储介质上存储有智能化的数据优化程序，所述智能化的数据优化程序可被一个或多个处理器执行，以实现如下操作：

接收用户输入的数据优化指令，从大数据存储平台中提取原始数据集，对所述原始数据集进行去异常处理得到标准数据集。

将所述标准数据集进行灰色预测得到统计信息集。

计算所述统计信息集的代价值得到成本数据集，剔除所述成本数据集内大于或等于预设成本阈值的数据，得到优化成本数据集。

需要说明的是，上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

一种智能化的数据优化方法，其中，所述方法包括：

接收用户输入的数据优化指令，从大数据存储平台中提取原始数据集，对所述原始数据集进行去异常处理得到标准数据集；

将所述标准数据集进行灰色预测得到统计信息集；

计算所述统计信息集的代价值得到成本数据集；

剔除所述成本数据集内大于或等于预设成本阈值的数据，得到优化成本数据集；

将所述优化成本数据集进行数据范围修改操作得到最优数据集，将所述最优数据集存储至所述大数据存储平台内，完成数据优化操作。
如权利要求1所述的智能化的数据优化方法，其中，所述去异常处理包括双边测试剔除处理和单边测试剔除处理，所述单边测试剔除处理包括最小值测试剔除处理和最大值测试剔除处理；

其中，所述双边测试剔除处理的计算方法为:

其中，i是正整数，
表示所述原始数据集的平均值，S表示所述原始数据集的标准差，Y _i表示所述原始数据集内的数据，G ₁为所述双边测试剔除处理的值；

所述最小值测试剔除处理的计算方法为：

其中，G ₂为所述最小值测试剔除处理后的值；

所述最大值测试剔除处理的计算方法为：

其中，G ₃为所述最大值测试剔除处理后的值。
如权利要求1所述的智能化的数据优化方法，其中，所述将所述标准数据集进行灰色预测得到统计信息集，包括：

对所述标准数据集根据抽样统计方法统计历史数据得到历史数据集；

相加所述历史数据集和所述标准数据集得到总数据集；

根据所述总数据集建立微分方程，求解所述微分方程得到所述统计信息集。
如权利要求3所述的智能化的数据优化方法，其中，所述微分方程为：

其中，X ⁽²⁾表示所述总数据集，s为所述总数据集的数据编号，a为所述微分方程的制约因子，u为所述微分方程的目标值。
如权利要求1至4中任意一项所述的智能化的数据优化方法，其中，所述计算所述统计信息集的代价值得到成本数据集，包括：

将所述统计信息集进行全排列得到多个全排列值；

根据预先构建的代价函数计算所述多个全排列值的代价值；

选择代价值最小的全排列值对应的排列数据集得到成本数据集。
如权利要求5所述的智能化的数据优化方法，其中，所述全排列值y为：

其中，n！表示所述统计信息集的排列组合，r _k！表示遍历所述统计信息集的数据并进行排列。
如权利要求5所述的智能化的数据优化方法，其中，所述代价函数为：

其中，N表示所述多个全排列值的具体个数，y _goal表示预设全排列值的目标值，y _i表示所述多个全排列值，L表示目标函数，J(y _i)表示惩罚函数，ρ表示调节因子。
一种电子设备，其中，所述设备包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的智能化的数据优化程序，所述智能化的数据优化程序被所述处理器执行时实现如下步骤：

接收用户输入的数据优化指令，从大数据存储平台中提取原始数据集，对所述原始数据集进行去异常处理得到标准数据集；

将所述标准数据集进行灰色预测得到统计信息集；

计算所述统计信息集的代价值得到成本数据集；

剔除所述成本数据集内大于或等于预设成本阈值的数据，得到优化成本数据集；

将所述优化成本数据集进行数据范围修改操作得到最优数据集，将所述最优数据集存储至所述大数据存储平台内，完成数据优化操作。
如权利要求8所述的电子设备，其中，所述去异常处理包括双边测试剔除处理和单边测试剔除处理，所述单边测试剔除处理包括最小值测试剔除处理和最大值测试剔除处理；

其中，所述双边测试剔除处理的计算方法为:

其中，i是正整数，
表示所述原始数据集的平均值，S表示所述原始数据集的标准差，Y _i表示所述原始数据集内的数据，G ₁为所述双边测试剔除处理的值。

所述最小值测试剔除处理的计算方法为：

其中，G ₂为所述最小值测试剔除处理后的值；

所述最大值测试剔除处理的计算方法为：

其中，G ₃为所述最大值测试剔除处理后的值。
如权利要求8所述的电子设备，其中，所述将所述标准数据集进行灰色预测得到统计信息集，包括：

对所述标准数据集根据抽样统计方法统计历史数据得到历史数据集；

相加所述历史数据集和所述标准数据集得到总数据集；

根据所述总数据集建立微分方程，求解所述微分方程得到统计信息集。
如权利要求10所述的电子设备，其中，所述微分方程为：

其中，X ⁽²⁾表示所述总数据集，s为所述总数据集的数据编号，a为所述微分方程的制约因子，u为所述微分方程的目标值。
如权利要求8至11中任意一项所述的电子设备，其中，所述计算所述统计信息集的代价值得到成本数据集，包括：

将所述统计信息集进行全排列得到多个全排列值；

根据预先构建的代价函数计算所述多个全排列值的代价值；

选择代价值最小的全排列值对应的排列数据集得到成本数据集。
如权利要求12所述的电子设备，其中，所述全排列值y为：

其中，n！表示所述统计信息集的排列组合，r _k！表示遍历所述统计信息集的数据并进行排列。
如权利要求12所述的电子设备，其中，所述代价函数为：

其中，N表示所述多个全排列值的具体个数，y _goal表示预设全排列值的目标值，y _i表示所述多个全排列值，L表示目标函数，J(y _i)表示惩罚函数，ρ表示调节因子。
一种智能化的数据优化装置，其中，包括：

数据接收及处理模块，用于接收用户输入的数据优化指令，从大数据存储平台中提取原始数据集，对所述原始数据集进行去异常处理得到标准数据集；

灰色预测模块，用于将所述标准数据集进行灰色预测得到统计信息集；

成本优化模块，用于计算所述统计信息集的代价值得到成本数据集，剔除所述成本数据集内大于或等于预设成本阈值的数据，得到优化成本数据集；

数据优化模块，用于将所述优化成本数据集进行数据范围修改操作得到最优数据集，将所述最优数据集存储至所述大数据存储平台内，完成数据优化操作。
一种计算机可读存储介质，其中，所述计算机可读存储介质上存储有智能化的数据优化程序，所述智能化的数据优化程序可被一个或者多个处理器执行，以实现如下步骤：

接收用户输入的数据优化指令，从大数据存储平台中提取原始数据集，对所述原始数据集进行去异常处理得到标准数据集；

将所述标准数据集进行灰色预测得到统计信息集；

计算所述统计信息集的代价值得到成本数据集；

剔除所述成本数据集内大于或等于预设成本阈值的数据，得到优化成本数据集；

将所述优化成本数据集进行数据范围修改操作得到最优数据集，将所述最优数据集存储至所述大数据存储平台内，完成数据优化操作。
如权利要求16所述的计算机可读存储介质，其中，所述去异常处理包括双边测试剔除处理和单边测试剔除处理，所述单边测试剔除处理包括最小值测试剔除处理和最大值测试剔除处理；

其中，所述双边测试剔除处理的计算方法为:

其中，i是正整数，
表示所述原始数据集的平均值，S表示所述原始数据集的标准差，Y _i表示所述原始数据集内的数据，G ₁为所述双边测试剔除处理的值。

所述最小值测试剔除处理的计算方法为：

其中，G ₂为所述最小值测试剔除处理后的值；

所述最大值测试剔除处理的计算方法为：

其中，G ₃为所述最大值测试剔除处理后的值。
如权利要求16所述的计算机可读存储介质，其中，所述将所述标准数据集进行灰色预测得到统计信息集，包括：

对所述标准数据集根据抽样统计方法统计历史数据得到历史数据集；

相加所述历史数据集和所述标准数据集得到总数据集；

根据所述总数据集建立微分方程，求解所述微分方程得到统计信息集。
如权利要求18所述的计算机可读存储介质，其中，所述微分方程为：

其中，X ⁽²⁾表示所述总数据集，s为所述总数据集的数据编号，a为所述微分方程的制约因子，u为所述微分方程的目标值。
如权利要求16至19中任意一项所述的计算机可读存储介质，其中，所述计算所述统计信息集的代价值得到成本数据集，包括：

将所述统计信息集进行全排列得到多个全排列值；

根据预先构建的代价函数计算所述多个全排列值的代价值；

选择代价值最小的全排列值对应的排列数据集得到成本数据集。