WO2020024210A1

WO2020024210A1 - 集成核密度估计器窗口参数优化方法、装置及终端设备

Info

Publication number: WO2020024210A1
Application number: PCT/CN2018/098285
Authority: WO
Inventors: 何玉林; 蒋捷; 黄哲学
Original assignee: 深圳大学
Priority date: 2018-08-02
Filing date: 2018-08-02
Publication date: 2020-02-06

Abstract

本发明适用于数据挖掘技术领域，提供了一种集成核密度估计器窗口参数优化方法、装置及终端设备，其方法包括：基于原始数据集获取随机样本划分数据块；通过Parzen窗口法，在每个随机样本划分数据块上构建集成核密度估计器，并标定集成核密度估计器的初始窗口宽度参数；选择κ͂个不同的随机样本划分数据块构建训练集；选择κ͂个不同的随机样本划分数据块构建验证集；根据训练集和验证集对集成核密度估计器的初始窗口宽度参数进行优化，获得最优窗口宽度参数值；根据最优窗口宽度参数值优化集成核密度估计器。通过本发明能够提高对概率密度函数的估算的准确性，且能够应用于大规模数据集的概率密度函数估计。

Description

集成核密度估计器窗口参数优化方法、装置及终端设备技术领域

本发明涉及数据挖掘领域，尤其涉及一种集成核密度估计器窗口参数优化方法、装置及终端设备。背景技术

对未知概率分布数据进行概率密度函数估计是机器学习和数据挖掘领域中一项重要的研究内容。 Parzen窗口法是一种经典的概率密度函数估计方法，又称核密度估计法。使用核密度估计法对未知概率分布数据进行概率密度函数估计的关键在于窗口宽度参数的选取，窗口宽度参数的选取对核密度估计器的影响非常大：过大的窗口宽度，将导致过平滑的概率密度函数估计；而过大的窗口宽度，将导致欠平滑的概率密度函数估计。

然而，已有概率密度函数估计方法在优化窗口参数时，对概率密度函数的估算不准确，且应用于大规模数据集的概率密度函数估计时，时间复杂度高。发明内容

本发明的主要目的在于提出一种集成核密度估计器窗口参数优化方法、装置及终端设备，以解决现有技术中，对概率密度函数的估算不准确，且应用于大规模数据集的概率密度函数估计时，时间复杂度高的问题。

为实现上述目的，本发明实施例第一方面提供一种集成核密度估计器窗口参数优化方法，包括：

基于原始数据集获取随机样本划分数据块；

通过 Parzen窗口法，在每个所述随机样本划分数据块上构建集成核密度估计器，并标定所述集成核密度估计器的初始窗口宽度参数；

选择个不同的所述随机样本划分数据块构建训练集；

选择个不同的所述随机样本划分数据块构建验证集；

根据所述训练集和所述验证集对所述集成核密度估计器的初始窗口宽度参数进行优化，获得最优窗口宽度参数值；

根据所述最优窗口宽度参数值优化所述集成核密度估计器。

结合本发明实施例第一方面，本发明实施例第一方面的第一实施方式中，所述基于原始数据集获取随机样本划分数据块包括：

对所述原始数据集的原始样本进行划分，获得原始样本划分数据块；对所述原始样本划分数据块进行混洗操作，获得混洗数据块；

从所述混洗数据块中依次抽取样本，构成所述原始数据集的随机样本划分数据块。

结合本发明实施例第一方面，本发明实施例第一方面的第二实施方式中，所述通过 Parzen窗口法，在每个所述随机样本划分数据块上构建集成核密度估计器，并标定所述集成核密度估计器的初始窗口宽度参数包括：

通过 Parzen窗口法估计所述随机样本划分数据块的概率密度函数，并标

h_{k >} 0,k = l,2,...,K，为所述初始窗口宽度参数； Sf为所述训练集中的随机样本划分数据块。

结合本发明实施例第一方面，本发明实施例第一方面的第二实施方式中，所述集成核密度估计器的初始窗口宽度参数在预设实数区间内随机选取。

结合本发明实施例第一方面，本发明实施例第一方面的第三实施方式中，所述根据所述验证集和所述训练集对所述集成核密度估计器的初始窗口宽度参数进行优化，获得最优窗口宽度参数值包括：

建立所述集成核密度估计器的窗口宽度参数的优化准则，对所述集成核

随机样本划分数据块的概率密度函数； X 为正则化因子， A G (0,I) ; h_lrh₂,...h_k 为所述第一窗口宽度参数值；

使用优化算法对所述优化准则进行优化，获得最优窗口宽度参数值。结合本发明实施例第一方面，本发明实施例第一方面的第三实施方式中，所述优化算法包括粒子群优化算法。

结合本发明实施例第一方面的第一实施方式、第二实施方式和第一实施方式，本发明实施例第一方面的第四实施方式中，所述根据所述最优窗口宽度参数值优化所述集成核密度估计器包括：

根据所述训练集、所述验证集和所述最优窗口宽度参数值训练所述集成核密度估计器，公式为：

数据划分模块，用于基于原始数据集获取随机样本划分数据块；集成核密度估计器构建模块，用于通过 Parzen窗口法，在每个所述随机样本划分数据块上构建集成核密度估计器，并标定所述集成核密度估计器的初始窗口宽度参数；

训练集构建模块，用于选择 ^个不同的所述随机样本划分数据块构建训练集；

验证集构建模块，用于选择个不同的所述随机样本划分数据块构建验证集；

第一优化模块，用于根据所述训练集和所述验证集对所述集成核密度估计器的初始窗口宽度参数进行优化，获得最优窗口宽度参数值；

第二优化模块，用于根据所述最优窗口宽度参数值优化所述集成核密度估计器。

结合本发明实施例第二方面，本发明实施例第二方面的第一实施方式中，所述数据划分模块包括：

原始样本划分单元，用于对所述原始数据集的原始样本进行划分，获得原始样本划分数据块；

混洗单元，用于对所述原始样本划分数据块进行混洗操作，获得混洗数据块；

样本抽取单元，用于从所述混洗数据块中依次抽取样本，构成所述原始数据集的随机样本划分数据块。

结合本发明实施例第二方面，本发明实施例第二方面的第二实施方式中，所述集成核密度估计器构建模块包括：

h_{k >} 0,k = l, 2,... ,K，为所述初始窗口宽度参数； Sf为所述训练集中的随机样本划分数据块。

结合本发明实施例第二方面，本发明实施例第二方面的第二实施方式中，所述集成核密度估计器的初始窗口宽度参数在预设实数区间内随机选取。结合本发明实施例第二方面，本发明实施例第二方面的第三实施方式中，所述第一优化模块包括：

准则优化单元，用于建立所述集成核密度估计器的窗口宽度参数的优化准则，对所述集成核密度估计器的初始窗口宽度参数进行优化，获得第一窗

算法优化单元，用于使用优化算法对所述优化准则进行优化，获得最优窗口宽度参数值。

结合本发明实施例第二方面，本发明实施例第二方面的第三实施方式中，

备，包括存储器、处理器以及存储在上述存储器中并可在上述处理器上运行的计算机程序，上述处理器执行上述计算机程序时实现如上第一方面所提供的方法的步骤。

本发明实施例的第四方面提供了一种计算机可读存储介质，上述计算机可读存储介质存储有计算机程序，上述计算机程序被处理器执行时实现如上第一方面所提供的方法的步骤。

本发明实施例提出一种集成核密度估计器窗口参数优化方法，一方面，基于原始数据集的随机样本划分数据块，通过 Parzen窗口法构建集成核密度估计器，同时从原始数据集的随机样本划分数据块中抽取数据块构建训练集和验证集，从而对集成核密度估计器的初始窗口宽度参数进行优化，获得最优窗口宽度参数值以及具有最优窗口宽度参数值的集成核密度估计器，使得在随机样本划分数据块上估计的概率密度函数之间的差异性达到最小，即获得更加准确的概率密度函数估计；另一方面，在本发明提出的集成核密度估计器窗口参数优化方法中，基于原始数据的部分数据即可获得原始数据的概率密度函数，因此优化后的集成核密度估计器，能够处理大数据的概率密度函数估计问题。附图说明

图 1为本发明实施例一提供的集成核密度估计器窗口参数优化方法的实现流程示意图；

图 2为图 1中步骤 S101的详细实现流程示意图；

图 3为图 1中步骤 S105的详细实现流程示意图；

图 4为本发明实施例二提供的抽取样本构成随机样本划分数据块的流程示意图；

图 5为本发明实施例三提供的集成核密度估计器在正态分布的随机数数据集上的训练情况；

图 6为本发明实施例三提供的集成核密度估计器在指数分布的随机数数据集上的训练情况；

图 7为本发明实施例三提供的集成核密度估计器窗口参数优化装置的结构示意图；

图 8为图 7中数据划分模块的结构示意图；

图 9为图 7中第一优化模块的结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

需要说明的是，在本文中，术语“包括”、 “包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个 ... ...”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

在本文中，使用用于表示元件的诸如“模块”、 “部件”或“单元”的后缀仅为了有利于本发明的说明，其本身并没有特定的意义。因此， ”模块”与”部件 ⁿ可以混合地使用。

在后续的描述中，发明实施例序号仅仅为了描述，不代表实施例的优劣。实施例一

如图 1所示，本发明实施例提供一种集成核密度估计器窗口参数优化方法，包括如下步骤：

S101、基于原始数据集获取随机样本划分数据块。

在上述步骤 S101 中，原始数据集包括一维数据和多维数据，随机样本划分数据块中包括原始数据集中的一个或多个数据。

如图 2所示，上述步骤 S101 中获取随机样本划分数据块的详细实现流程可以包括：

S1011、对所述原始数据集的原始样本进行划分，获得原始样本划分数据块。

在上述步骤 S1011中，在原始数据集中选择多个原始样本，在有此原始样本处划分数据，得到原始数据集的原始样本划分数据块。

S1012、对所述原始样本划分数据块进行混洗操作，获得混洗数据块。在上述步骤 S1012中，根据原始数据集的原始样本划分的数据块 OSP有多个；混洗后的原始样本划分数据块的排列方式改变，与原始样本的位置无关。

在具体应用中，可以同时对多组原始样本划分数据块进行混洗，也可以依次单独地对一组原始样本划分数据块进行混洗；同时混洗对多组原始样本划分数据块时，可减少多源数据重排所需要的指令数量，提高处理器的执行速度。

S1013、从所述混洗数据块中依次抽取样本，构成所述原始数据集的随机样本划分数据块。

在上述步骤 S1013中，混洗数据块为重排后的原始样本划分数据块，以一维数据为例，从混洗数据块中依次抽取样本可以表现为：由原始数据集划分的多个原始样本划分数据块为 A、 B、 C, 重排后的混洗数据块为 B、 C、 A, 依次抽取的样本为 BfiAp B₂C₂A₂...B_nC_nA_n。

在具体应用中，上述步骤 S1011至步骤 S1013将原始数据集划分为多个原始样本划分数据块，将原始样本划分数据块进行混洗重排后，依次从中抽取样本，构成原始数据集的随机样本划分数据块。

5102、通过 Parzen窗口法，在每个所述随机样本划分数据块上构建集成核密度估计器，并标定所述集成核密度估计器的初始窗口宽度参数。

在上述步骤 S102 中， Parzen 窗口法是一种核密度估计法，能够估计数据集的概率密度函数，此时集成核密度估计器的窗口宽度参数没有优化。

5103、选择个不同的所述随机样本划分数据块构建训练集。

在上述步骤 S103中，设置训练集用以估计模型。

5104、选择 f个不同的所述随机样本划分数据块构建验证集。

在上述步骤 S104 中，设置验证集用以确定网络结构或者控制模型复杂程度的参数。

在一个实施例中，上述步骤 S102中通过 Parzen窗口法，在每个所述随机样本划分数据块上构建集成核密度估计器，并标定所述集成核密度估计器的初始窗口宽度参数的具体实现步骤可以包括：

h_k > 0,k = l,2,. X，为所述初始窗口宽度参数； Sf为所述训练集中的随机样本划分数据块。

在具体应用中，所述集成核密度估计器的初始窗口宽度参数在预设实数区间内随机选取。

S105、根据所述训练集和所述验证集对所述集成核密度估计器的初始窗口宽度参数进行优化，获得最优窗口宽度参数值。

在上述步骤 S105中，

如图 3所示，上述步骤 S105 中根据所述训练集和所述验证集对所述集成核密度估计器的初始窗口宽度参数进行优化，获得最优窗口宽度参数值的详细实现流程可以包括：

S1051、建立所述集成核密度估计器的窗口宽度参数的优化准则，对所述集成核密度估计器的初始窗口宽度参数进行优化，获得第一窗口宽度参数

随机样本划分数据块的概率密度函数； X 为正则化因子， A _G (O,I) ; h_lrh₂,...h_k 为所述第一窗口宽度参数值。

在上述步骤 S1051中，通过设计基核密度估计器窗口宽度参数的优化准则，对初始窗口宽度参数进行优化，使得在随机样本划分数据块上估计的概率密度函数之间的差异性达到最小。

在具体应用中，正则化因子 L 用于对经验误差和模型复杂度这两项进

过大时，通常导致过平滑的概率密度函数估计。因此，在优化准则中引入 E₂ 项，能够解决过大窗口参数被选取的问题。

在具体应用中，优化算法可以为任意的能够优化上述优化准则，确定最优窗口参数值的算法；在一个实施例中，优化算法可以包括粒子群优化算法。

S106、根据所述最优窗口宽度参数值优化所述集成核密度估计器。

在上述步骤 S106中，具有最优窗口宽度参数值的集成核密度估计器能够能够获得更加准确的概率密度函数估计。

基于原始数据集的随机样本划分数据块，通过 Parzen窗口法构建集成核密度估计器，同时从原始数据集的随机样本划分数据块中抽取数据块构建训练集和验证集，从而对集成核密度估计器的初始窗口宽度参数进行优化，获得最优窗口宽度参数值以及具有最优窗口宽度参数值的集成核密度估计器，使得在随机样本划分数据块上估计的概率密度函数之间的差异性达到最小，即获得更加准确的概率密度函数估计；另一方面，在本发明提出的集成核密度估计器窗口参数优化方法中，基于原始数据的部分数据即可获得原始数据的概率密度函数，因此优化后的集成核密度估计器，能够处理大数据的概率密度函数估计问题。

实施例二

本发明实施例以一维的原始数据集为例，对上述实施例一中所提供的集成核密度估计器窗口参数优化方法的实现流程进行示例性说明。

D中训练样

公

如图 4所示，是本发明实施例所提供的从混洗数据块 ^， , 中依次抽

一所提供的集成核密度估计器窗口参数优化方法还能够处理大数据集的随机样本划分数据块生成问题。

p_k(x) , 可得

其中 >0,fc = l,2, 为窗口宽度参数。接下来我们在 D₂， , D_K中随机 ^XK(l<K< /C)个不相同的随机

核密度估计器的验证集，其中令

此处值得注意的是，在具体的训练中，为了简化训练的过程，我们可以令｛“··· , 1^｝ =｛ , P₂， , P 即训练集和验证集相同。

宽 A参数 h_uh₂， , h_p 而当窗口宽度参数过大时，通常导致过平滑的概率密度函数估计。因此，我们在评价标准中引入了 E₂项，用于解决过大窗口参数被选取的问题。

的具体形式为:

方法，以试验数据示例性地说明在其实际应用中的有益效果。

本发明实施例分别采用正态分布和指数分布的随机数数据集，验证集成核密度估计器的收敛性和测试误差。

在正态分布和指数分布的随机数数据集中分别随机抽取 5个 RSP数据块，每个数据块含有 100个样本作为训练集和验证集，另外随机生成了 200 个随机样本作为测试集。集成核密度估计器中的算法迭代次数为 200次，集成核密度估计器的初始窗口宽度参数 ]内随机选取。

如图 5所示，为集成核密度估计器在正态分其中 |i = 0,a² = 1 ) 数据集上的训练情况，其中，曲线 51 为集成器的收敛曲线或 E[D, 的值，曲线 52为经典 Parzen窗口法的

曲线 53为集成核密度估计器的误差曲线；此时集成核密度估计器的最优窗口宽度分别为

0.1581、 0.2051、 0.2514、 0.1966、 0.1843。

如图 6 所示，为集成核密度估计器在指数分布 ( p(x) = Xexp (-人 x),x 20,人 > 0，其中人 = 1 )数据集上的训练情况，纵坐标表示误差数值，左图的横坐标表示轮化 ( lferation )，右图的横坐标表示高度 ( h ) ;

经典 Parzen窗口法的误差曲线，曲线 63为集成核密度估计器的误差曲线；此时集成核密度估计器的最优窗口宽度分别为 0.2423、 0.2587、 0.1750、

0.1895、 0.2761。

由图 5和图 6的左子图中可以得出，集成核密度估计器是收敛的，这说明当前设计的窗口宽度优化标准是可行的；从图 5和图 6的右子图中我们可以得出，集成核密度估计器的测试误差低于基于穷尽法获得的经典 Parzen窗口法的测试误差，这说明本发明实施例所设计的集成核密度估计器对概率密度函数的估算较为准确。

实施例四

如图 7所示，本发明实施例提供了一种集成核密度估计器窗口参数优化装置 70, 包括：

数据划分模块 71 , 用于基于原始数据集获取随机样本划分数据块。如图 8所示，上述数据划分模块 71可以包括：

原始样本划分单元 711 , 用于对所述原始数据集的原始样本进行划分，获得原始样本划分数据块；

混洗单元 712 , 用于对所述原始样本划分数据块进行混洗操作，获得混洗数据块；

样本抽取单元 713 , 用于从所述混洗数据块中依次抽取样本，构成所述原始数据集的随机样本划分数据块。

集成核密度估计器构建模块 72 , 用于通过 Parzen窗口法，在每个所述随机样本划分数据块上构建集成核密度估计器，并标定所述集成核密度估计器的初始窗口宽度参数。

在一个实施例中，所述集成核密度估计器构建模块包括：

训练集构建模块 73 , 用于选择 ^个不同的所述随机样本划分数据块构建训练集。

验证集构建模块 74 , 用于选择个不同的所述随机样本划分数据块构建验证集。

第一优化模块 75 , 用于根据所述训练集和所述验证集对所述集成核密度估计器的初始窗口宽度参数进行优化，获得最优窗口宽度参数值。

如图 9所示，上述第一优化模块 75包括：

准则优化单元 751 , 用于建立所述集成核密度估计器的窗口宽度参数的优化准则，对所述集成核密度估计器的初始窗口宽度参数进行优化，获得第一窗口宽度参数值，公式为：

随机样本划分数据块的概率密度函数； X 为正则化因子， Ae (0,l)； h_lrh₂,...h_k 为所述第一窗口宽度参数值；

算法优化单元 752 , 用于使用优化算法对所述优化准则进行优化，获得最优窗口宽度参数值。

在具体应用中，所述优化算法包括粒子群优化算法。

第二优化模块 76 ,用于根据所述最优窗口宽度参数值优化所述集成核密

质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如实施例一中所述的集成核密度估计器窗口参数优化方法中的各个步骤。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。