WO2020024210A1 - 集成核密度估计器窗口参数优化方法、装置及终端设备 - Google Patents

集成核密度估计器窗口参数优化方法、装置及终端设备 Download PDF

Info

Publication number
WO2020024210A1
WO2020024210A1 PCT/CN2018/098285 CN2018098285W WO2020024210A1 WO 2020024210 A1 WO2020024210 A1 WO 2020024210A1 CN 2018098285 W CN2018098285 W CN 2018098285W WO 2020024210 A1 WO2020024210 A1 WO 2020024210A1
Authority
WO
WIPO (PCT)
Prior art keywords
kernel density
density estimator
integrated kernel
window width
window
Prior art date
Application number
PCT/CN2018/098285
Other languages
English (en)
French (fr)
Inventor
何玉林
蒋捷
黄哲学
Original Assignee
深圳大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 深圳大学 filed Critical 深圳大学
Priority to PCT/CN2018/098285 priority Critical patent/WO2020024210A1/zh
Publication of WO2020024210A1 publication Critical patent/WO2020024210A1/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions

Definitions

  • the present invention relates to the field of data mining, and in particular, to a method, an apparatus, and a terminal device for optimizing a window parameter of an integrated kernel density estimator. Background technique
  • the Parzen window method is a classical method of estimating the probability density function, also known as the kernel density estimation method.
  • the key to using the kernel density estimation method to estimate the probability density function for unknown probability distribution data is the selection of the window width parameter.
  • the selection of the window width parameter has a great influence on the kernel density estimator: too large window width will lead to too smooth Probability density function estimation; too large window width will result in under-smoothed probability density function estimation.
  • the main purpose of the present invention is to propose an integrated kernel density estimator window parameter optimization method, device, and terminal device to solve the inaccurate estimation of the probability density function in the prior art and apply the probability density to large-scale data sets.
  • the time complexity is high.
  • a first aspect of an embodiment of the present invention provides a method for optimizing window parameters of an integrated kernel density estimator, including:
  • the integrated kernel density estimator is optimized according to the optimal window width parameter value.
  • the obtaining a random sample division data block based on the original data set includes:
  • Samples are sequentially extracted from the shuffled data blocks, and the random samples constituting the original data set are divided into data blocks.
  • the Parzen window method is used to construct an integrated kernel density on each of the random sample division data blocks
  • An estimator, and calibrating an initial window width parameter of the integrated kernel density estimator includes:
  • the probability density function of the random sample partition data block is estimated by Parzen window method.
  • h k> 0, k 1, 2, ..., K, is the initial window width parameter; Sf is a data block divided by random samples in the training set.
  • an initial window width parameter of the integrated kernel density estimator is randomly selected within a preset real number interval.
  • the initial window width parameter of the integrated kernel density estimator is optimized according to the verification set and the training set.
  • the parameter values for obtaining the optimal window width include:
  • a probability density function of a random sample dividing a data block X is a regularization factor, AG (0, I); h lr h 2 , ... h k are values of the first window width parameter;
  • the optimization algorithm includes a particle swarm optimization algorithm.
  • the optimization is based on the optimal window width parameter value
  • the integrated kernel density estimator includes:
  • a data partitioning module configured to obtain random sample partitioned data blocks based on the original data set;
  • an integrated kernel density estimator construction module configured to use Parzen window method to construct an integrated kernel density estimator on each of the random sample partitioned data blocks, And calibrating an initial window width parameter of the integrated kernel density estimator;
  • a training set construction module configured to select ⁇ different said random sample partition data blocks to construct a training set
  • a verification set construction module configured to select different pieces of the random sample division data to construct a verification set
  • a first optimization module configured to optimize an initial window width parameter of the integrated kernel density estimator according to the training set and the verification set to obtain an optimal window width parameter value
  • a second optimization module is configured to optimize the integrated kernel density estimator according to the optimal window width parameter value.
  • the data division module includes:
  • An original sample division unit configured to divide an original sample of the original data set to obtain an original sample division data block
  • a shuffling unit configured to perform a shuffling operation on the original data divided data block to obtain a shuffled data block
  • a sample extraction unit is configured to sequentially extract samples from the shuffled data blocks to form a random sample division data block of the original data set.
  • the integrated kernel density estimator construction module includes:
  • the probability density function of the random sample partition data block is estimated by Parzen window method.
  • h k> 0, k 1, 2, ..., K, is the initial window width parameter; Sf is a data block divided by random samples in the training set.
  • the first optimization module includes:
  • a criterion optimization unit is configured to establish an optimization criterion of a window width parameter of the integrated kernel density estimator, and optimize an initial window width parameter of the integrated kernel density estimator to obtain a first window
  • a probability density function of a random sample dividing a data block X is a regularization factor, AG (0, I); h lr h 2 , ... h k are values of the first window width parameter;
  • An algorithm optimization unit is configured to use an optimization algorithm to optimize the optimization criterion to obtain an optimal window width parameter value.
  • the device includes a memory, a processor, and a computer program stored in the memory and operable on the processor.
  • the processor executes the computer program, the steps of the method provided by the first aspect are implemented.
  • a fourth aspect of the embodiments of the present invention provides a computer-readable storage medium.
  • the computer-readable storage medium stores a computer program, and the computer program is implemented as described above when executed by a processor. Steps of the method provided by the first aspect.
  • An embodiment of the present invention provides a method for optimizing window parameters of an integrated kernel density estimator.
  • a data block is divided based on random samples of an original data set, and an integrated kernel density estimator is constructed by using a Parzen window method. Divide the data blocks and extract the data blocks to construct the training set and validation set, so as to optimize the initial window width parameter of the integrated kernel density estimator, obtain the optimal window width parameter value and the integrated kernel density estimator with the optimal window width parameter value , So that the difference between the probability density functions estimated on the random sample partition data block is minimized, that is, a more accurate probability density function estimation is obtained; on the other hand, the integrated kernel density estimator window parameter optimization method proposed in the present invention
  • the probability density function of the original data can be obtained based on part of the original data. Therefore, the optimized integrated kernel density estimator can handle the problem of estimating the probability density function of large data.
  • FIG. 1 is a schematic flowchart of an implementation method of an integrated kernel density estimator window parameter optimization method according to Embodiment 1 of the present invention
  • FIG. 2 is a detailed implementation flowchart of step S101 in FIG. 1;
  • FIG. 3 is a detailed implementation flowchart of step S105 in FIG. 1;
  • FIG. 4 is a schematic flowchart of a process of extracting samples to form a random sample division data block provided in Embodiment 2 of the present invention.
  • Embodiment 5 is a training situation of an integrated kernel density estimator provided on a randomly distributed random number data set according to Embodiment 3 of the present invention
  • Embodiment 6 is a training situation of an integrated kernel density estimator provided on an exponentially distributed random number data set provided in Embodiment 3 of the present invention
  • FIG. 7 is a schematic structural diagram of an integrated kernel density estimator window parameter optimization device according to a third embodiment of the present invention.
  • FIG. 8 is a schematic structural diagram of a data division module in FIG. 7;
  • FIG. 9 is a schematic structural diagram of a first optimization module in FIG. 7.
  • module and “component n” can be used in combination.
  • an embodiment of the present invention provides an integrated kernel density estimator window parameter optimization method, including the following steps:
  • the original data set includes one-dimensional data and multi-dimensional data
  • the random sample division data block includes one or more data in the original data set.
  • the detailed implementation process of obtaining the random sample division data block in step S101 may include:
  • step S1011 multiple original samples are selected in the original data set, and the data is divided at the original samples to obtain the original sample divided data blocks of the original data set.
  • step S10112 Perform a shuffling operation on the original sample division data block to obtain a shuffled data block.
  • step S1012 there are multiple data blocks OSP divided according to the original samples of the original data set; the arrangement of the shuffled original sample divided data blocks is changed, regardless of the position of the original samples.
  • multiple groups of original sample partitioned data blocks can be shuffled at the same time, or a group of original sample partitioned data blocks can be shuffled separately in sequence; when shuffling multiple groups of original sample partitioned data blocks at the same time, Reduce the number of instructions required for multi-source data rearrangement and increase the execution speed of the processor.
  • S1013 Sampling samples from the shuffled data blocks in sequence, and divide random data blocks that constitute the original data set.
  • the shuffled data block is a rearranged original sample division data block.
  • sequentially extracting samples from the shuffled data block may be expressed as:
  • the sample partition data blocks are A, B, and C
  • the rearranged shuffled data blocks are B, C, and A
  • the samples taken in turn are BfiAp B 2 C 2 A 2 ... B n C n A n .
  • the above steps S1011 to S1013 divide the original data set into multiple original sample partition data blocks, shuffle and rearrange the original sample partition data blocks, and sequentially extract samples from them to form random samples of the original data set. Divide the data blocks.
  • the Parzen window method is a kernel density estimation method, which can estimate the probability density function of the data set.
  • the window width parameter of the integrated kernel density estimator is not optimized.
  • a training set is set to estimate the model.
  • a verification set is set to determine that the network structure or the control model is complex Parameter of degree.
  • the Parzen window method is used in step S102 to construct an integrated kernel density estimator on each of the random sample partition data blocks, and to calibrate the specific implementation of the initial window width parameter of the integrated kernel density estimator.
  • the steps can include:
  • the probability density function of the random sample partition data block is estimated by Parzen window method.
  • h k > 0, k 1, 2,.
  • X is the initial window width parameter; Sf is a data block divided by random samples in the training set.
  • an initial window width parameter of the integrated kernel density estimator is randomly selected within a preset real number interval.
  • step S105 the initial window width parameter of the integrated kernel density estimator is optimized according to the training set and the verification set, and a detailed implementation process of obtaining an optimal window width parameter value may include:
  • the probability density function of the random sample partitioning data block is a regularization factor, A G (O, I); h lr h 2 , ... h k are parameter values of the first window width.
  • step S1051 by designing the optimization rule of the window width parameter of the base kernel density estimator, the initial window width parameter is optimized so that the difference between the probability density functions estimated on the random sample partition data block is minimized.
  • the regularization factor L is used to improve the empirical error and model complexity.
  • the optimization algorithm may be any algorithm capable of optimizing the above optimization criteria and determining the optimal window parameter value.
  • the optimization algorithm may include a particle swarm optimization algorithm.
  • the integrated kernel density estimator with an optimal window width parameter value can obtain a more accurate probability density function estimate.
  • the initial window width parameters of the decoder are optimized to obtain the optimal window width parameter value and the integrated kernel density estimator with the optimal window width parameter value, so that the difference between the probability density functions estimated on the random sample partition data block reaches Minimal, that is, to obtain a more accurate probability density function estimate; on the other hand, in the integrated kernel density estimator window parameter optimization method proposed by the present invention, the probability density function of the original data can be obtained based on part of the original data, and therefore optimized
  • the integrated kernel density estimator can handle the probability density function estimation problem of big data.
  • a one-dimensional original data set is used as an example, and the set provided in the first embodiment is used as an example.
  • the implementation process of nucleation density estimator window parameter optimization method is exemplified.
  • the shuffled data blocks ⁇ , and An integrated kernel density estimator window parameter optimization method can also handle the problem of generating random sample partition data blocks for large data sets.
  • the method uses the experimental data to exemplify the beneficial effects in its practical application.
  • the embodiments of the present invention respectively use a random number data set with a normal distribution and an exponential distribution to verify the convergence and test error of the integrated kernel density estimator.
  • RSP data blocks were randomly selected from the normal and exponentially distributed random number data sets. Each data block contained 100 samples as the training set and the validation set. In addition, 200 random samples were randomly generated as the test set. The number of algorithm iterations in the integrated kernel density estimator is 200 times, and the initial window width parameter of the integrated kernel density estimator is randomly selected.
  • curve 63 is the error curve of the integrated kernel density estimator; at this time, the optimal window widths of the integrated kernel density estimator are 0.2423, 0.2587, 0.1750,
  • an embodiment of the present invention provides an integrated kernel density estimator window parameter optimization device 70, including:
  • the data dividing module 71 is configured to obtain a random sample division data block based on the original data set. As shown in FIG. 8, the foregoing data division module 71 may include:
  • An original sample dividing unit 711 configured to divide an original sample of the original data set to obtain an original sample divided data block
  • a shuffling unit 712 configured to perform a shuffling operation on the original sample division data block to obtain a shuffled data block
  • the sample extraction unit 713 is configured to sequentially extract samples from the shuffled data blocks to form a random sample division data block of the original data set.
  • the integrated kernel density estimator construction module 72 is configured to construct an integrated kernel density estimator on each of the random sample partitioned data blocks by Parzen window method, and calibrate an initial window width parameter of the integrated kernel density estimator.
  • the integrated kernel density estimator construction module includes:
  • the probability density function of the random sample partition data block is estimated by Parzen window method.
  • h k > 0, k 1, 2,.
  • X is the initial window width parameter; Sf is a data block divided by random samples in the training set.
  • an initial window width parameter of the integrated kernel density estimator is randomly selected within a preset real number interval.
  • a training set construction module 73 is configured to select ⁇ different random sample partition data blocks to construct a training set.
  • a verification set construction module 74 is configured to select different random sample division data blocks to construct a verification set.
  • a first optimization module 75 is configured to optimize an initial window width parameter of the integrated kernel density estimator according to the training set and the verification set to obtain an optimal window width parameter value.
  • the first optimization module 75 includes:
  • the criterion optimization unit 751 is configured to establish an optimization criterion of a window width parameter of the integrated kernel density estimator, optimize an initial window width parameter of the integrated kernel density estimator, and obtain a first window width parameter value, with a formula:
  • a probability density function of a random sample dividing a data block X is a regularization factor, Ae (0, l); h lr h 2 , ... h k are parameter values of the first window width;
  • the algorithm optimization unit 752 is configured to optimize the optimization criterion by using an optimization algorithm to obtain an optimal window width parameter value.
  • the optimization algorithm includes a particle swarm optimization algorithm.
  • a second optimization module 76 configured to optimize the integrated kernel density according to the optimal window width parameter value
  • a computer program is stored thereon, and when the computer program is executed by a processor, each step in the integrated kernel density estimator window parameter optimization method described in the first embodiment is implemented.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Complex Calculations (AREA)

Abstract

本发明适用于数据挖掘技术领域,提供了一种集成核密度估计器窗口参数优化方法、装置及终端设备,其方法包括:基于原始数据集获取随机样本划分数据块;通过Parzen窗口法,在每个随机样本划分数据块上构建集成核密度估计器,并标定集成核密度估计器的初始窗口宽度参数;选择κ͂个不同的随机样本划分数据块构建训练集;选择κ͂个不同的随机样本划分数据块构建验证集;根据训练集和验证集对集成核密度估计器的初始窗口宽度参数进行优化,获得最优窗口宽度参数值;根据最优窗口宽度参数值优化集成核密度估计器。通过本发明能够提高对概率密度函数的估算的准确性,且能够应用于大规模数据集的概率密度函数估计。

Description

集成核密度估计器窗口参数优化方法、 装置及终端设备 技术领域
本发明涉及数据挖掘领域, 尤其涉及一种集成核密度估计器窗口参数优 化方法、 装置及终端设备。 背景技术
对未知概率分布数据进行概率密度函数估计是机器学习和数据挖掘领域 中一项重要的研究内容。 Parzen窗口法是一种经典的概率密度函数估计方法, 又称核密度估计法。 使用核密度估计法对未知概率分布数据进行概率密度函 数估计的关键在于窗口宽度参数的选取, 窗口宽度参数的选取对核密度估计 器的影响非常大: 过大的窗口宽度, 将导致过平滑的概率密度函数估计; 而 过大的窗口宽度, 将导致欠平滑的概率密度函数估计。
然而, 已有概率密度函数估计方法在优化窗口参数时,对概率密度函数的 估算不准确,且应用于大规模数据集的概率密度函数估计时, 时间复杂度高。 发明内容
本发明的主要目的在于提出一种集成核密度估计器窗口参数优化方法、 装置及终端设备, 以解决现有技术中, 对概率密度函数的估算不准确, 且应 用于大规模数据集的概率密度函数估计时, 时间复杂度高的问题。
为实现上述目的, 本发明实施例第一方面提供一种集成核密度估计器窗 口参数优化方法, 包括:
基于原始数据集获取随机样本划分数据块;
通过 Parzen窗口法,在每个所述随机样本划分数据块上构建集成核密度 估计器, 并标定所述集成核密度估计器的初始窗口宽度参数;
选择  个不同的所述随机样本划分数据块构建训练集;
选择 个不同的所述随机样本划分数据块构建验证集;
根据所述训练集和所述验证集对所述集成核密度估计器的初始窗口宽度 参数进行优化, 获得最优窗口宽度参数值;
根据所述最优窗口宽度参数值优化所述集成核密度估计器。
结合本发明实施例第一方面,本发明实施例第一方面的第一实施方式中, 所述基于原始数据集获取随机样本划分数据块包括:
对所述原始数据集的原始样本进行划分, 获得原始样本划分数据块; 对所述原始样本划分数据块进行混洗操作, 获得混洗数据块;
从所述混洗数据块中依次抽取样本, 构成所述原始数据集的随机样本划 分数据块。
结合本发明实施例第一方面,本发明实施例第一方面的第二实施方式中, 所述通过 Parzen窗口法,在每个所述随机样本划分数据块上构建集成核密度 估计器, 并标定所述集成核密度估计器的初始窗口宽度参数包括:
通过 Parzen窗口法估计所述随机样本划分数据块的概率密度函数, 并标
Figure imgf000004_0001
hk > 0,k = l,2,...,K, 为所述初始窗口宽度参数; Sf为所述训练集中的随机样本 划分数据块。
结合本发明实施例第一方面,本发明实施例第一方面的第二实施方式中, 所述集成核密度估计器的初始窗口宽度参数在预设实数区间内随机选取。
结合本发明实施例第一方面,本发明实施例第一方面的第三实施方式中, 所述根据所述验证集和所述训练集对所述集成核密度估计器的初始窗口宽度 参数进行优化, 获得最优窗口宽度参数值包括:
建立所述集成核密度估计器的窗口宽度参数的优化准则, 对所述集成核
Figure imgf000004_0002
随机样本划分数据块的概率密度函数; X 为正则化因子, A G (0,I) ; hlrh2,...hk 为所述第一窗口宽度参数值;
使用优化算法对所述优化准则进行优化, 获得最优窗口宽度参数值。 结合本发明实施例第一方面,本发明实施例第一方面的第三实施方式中, 所述优化算法包括粒子群优化算法。
结合本发明实施例第一方面的第一实施方式、 第二实施方式和第一实施 方式, 本发明实施例第一方面的第四实施方式中, 所述根据所述最优窗口宽 度参数值优化所述集成核密度估计器包括:
根据所述训练集、 所述验证集和所述最优窗口宽度参数值训练所述集成 核密度估计器, 公式为:
Figure imgf000004_0003
Figure imgf000005_0002
数据划分模块, 用于基于原始数据集获取随机样本划分数据块; 集成核密度估计器构建模块, 用于通过 Parzen窗口法, 在每个所述随机 样本划分数据块上构建集成核密度估计器, 并标定所述集成核密度估计器的 初始窗口宽度参数;
训练集构建模块, 用于选择 ^个不同的所述随机样本划分数据块构建训 练集;
验证集构建模块, 用于选择 个不同的所述随机样本划分数据块构建验 证集;
第一优化模块, 用于根据所述训练集和所述验证集对所述集成核密度估 计器的初始窗口宽度参数进行优化, 获得最优窗口宽度参数值;
第二优化模块, 用于根据所述最优窗口宽度参数值优化所述集成核密度 估计器。
结合本发明实施例第二方面,本发明实施例第二方面的第一实施方式中, 所述数据划分模块包括:
原始样本划分单元, 用于对所述原始数据集的原始样本进行划分, 获得 原始样本划分数据块;
混洗单元, 用于对所述原始样本划分数据块进行混洗操作, 获得混洗数 据块;
样本抽取单元, 用于从所述混洗数据块中依次抽取样本, 构成所述原始 数据集的随机样本划分数据块。
结合本发明实施例第二方面,本发明实施例第二方面的第二实施方式中, 所述集成核密度估计器构建模块包括:
通过 Parzen窗口法估计所述随机样本划分数据块的概率密度函数, 并标
Figure imgf000005_0001
hk > 0,k = l, 2,... ,K, 为所述初始窗口宽度参数; Sf为所述训练集中的随机样本 划分数据块。
结合本发明实施例第二方面,本发明实施例第二方面的第二实施方式中, 所述集成核密度估计器的初始窗口宽度参数在预设实数区间内随机选取。 结合本发明实施例第二方面,本发明实施例第二方面的第三实施方式中, 所述第一优化模块包括:
准则优化单元, 用于建立所述集成核密度估计器的窗口宽度参数的优化 准则, 对所述集成核密度估计器的初始窗口宽度参数进行优化, 获得第一窗
Figure imgf000006_0001
随机样本划分数据块的概率密度函数; X 为正则化因子, A G (0,I) ; hlrh2,...hk 为所述第一窗口宽度参数值;
算法优化单元, 用于使用优化算法对所述优化准则进行优化, 获得最优 窗口宽度参数值。
结合本发明实施例第二方面,本发明实施例第二方面的第三实施方式中,
Figure imgf000006_0002
备, 包括存储器、 处理器以及存储在上述存储器中并可在上述处理器上运行 的计算机程序, 上述处理器执行上述计算机程序时实现如上第一方面所提供 的方法的步骤。
本发明实施例的第四方面提供了一种计算机可读存储介质, 上述计算机 可读存储介质存储有计算机程序, 上述计算机程序被处理器执行时实现如上 第一方面所提供的方法的步骤。
本发明实施例提出一种集成核密度估计器窗口参数优化方法, 一方面, 基于原始数据集的随机样本划分数据块, 通过 Parzen窗口法构建集成核密度 估计器, 同时从原始数据集的随机样本划分数据块中抽取数据块构建训练集 和验证集, 从而对集成核密度估计器的初始窗口宽度参数进行优化, 获得最 优窗口宽度参数值以及具有最优窗口宽度参数值的集成核密度估计器, 使得 在随机样本划分数据块上估计的概率密度函数之间的差异性达到最小, 即获 得更加准确的概率密度函数估计; 另一方面, 在本发明提出的集成核密度估 计器窗口参数优化方法中, 基于原始数据的部分数据即可获得原始数据的概 率密度函数, 因此优化后的集成核密度估计器, 能够处理大数据的概率密度 函数估计问题。 附图说明
图 1为本发明实施例一提供的集成核密度估计器窗口参数优化方法的实 现流程示意图;
图 2为图 1中步骤 S101的详细实现流程示意图;
图 3为图 1中步骤 S105的详细实现流程示意图;
图 4为本发明实施例二提供的抽取样本构成随机样本划分数据块的流程 示意图;
图 5为本发明实施例三提供的集成核密度估计器在正态分布的随机数数 据集上的训练情况;
图 6为本发明实施例三提供的集成核密度估计器在指数分布的随机数数 据集上的训练情况;
图 7为本发明实施例三提供的集成核密度估计器窗口参数优化装置的结 构示意图;
图 8为图 7中数据划分模块的结构示意图;
图 9为图 7中第一优化模块的结构示意图。
本发明目的的实现、 功能特点及优点将结合实施例, 参照附图做进一步 说明。 具体实施方式
应当理解, 此处所描述的具体实施例仅仅用以解释本发明, 并不用于限 定本发明。
需要说明的是, 在本文中, 术语“包括”、 “包含”或者其任何其他变体意 在涵盖非排他性的包含, 从而使得包括一系列要素的过程、 方法、 物品或者 装置不仅包括那些要素, 而且还包括没有明确列出的其他要素, 或者是还包 括为这种过程、 方法、 物品或者装置所固有的要素。 在没有更多限制的情况 下, 由语句“包括一个 ... ...”限定的要素, 并不排除在包括该要素的过程、 方 法、 物品或者装置中还存在另外的相同要素。
在本文中, 使用用于表示元件的诸如“模块”、 “部件”或“单元”的后缀仅 为了有利于本发明的说明, 其本身并没有特定的意义。 因此, ”模块”与”部件 n可以混合地使用。
在后续的描述中,发明实施例序号仅仅为了描述, 不代表实施例的优劣。 实施例一
如图 1所示, 本发明实施例提供一种集成核密度估计器窗口参数优化方 法, 包括如下步骤:
S101、 基于原始数据集获取随机样本划分数据块。
在上述步骤 S101 中, 原始数据集包括一维数据和多维数据, 随机样本 划分数据块中包括原始数据集中的一个或多个数据。
如图 2所示, 上述步骤 S101 中获取随机样本划分数据块的详细实现流 程可以包括:
S1011、 对所述原始数据集的原始样本进行划分, 获得原始样本划分数 据块。
在上述步骤 S1011中, 在原始数据集中选择多个原始样本, 在有此原始 样本处划分数据, 得到原始数据集的原始样本划分数据块。
S1012、 对所述原始样本划分数据块进行混洗操作, 获得混洗数据块。 在上述步骤 S1012中,根据原始数据集的原始样本划分的数据块 OSP有 多个; 混洗后的原始样本划分数据块的排列方式改变, 与原始样本的位置无 关。
在具体应用中, 可以同时对多组原始样本划分数据块进行混洗, 也可以 依次单独地对一组原始样本划分数据块进行混洗; 同时混洗对多组原始样本 划分数据块时, 可减少多源数据重排所需要的指令数量, 提高处理器的执行 速度。
S1013、 从所述混洗数据块中依次抽取样本, 构成所述原始数据集的随 机样本划分数据块。
在上述步骤 S1013中, 混洗数据块为重排后的原始样本划分数据块, 以 一维数据为例, 从混洗数据块中依次抽取样本可以表现为: 由原始数据集划 分的多个原始样本划分数据块为 A、 B、 C, 重排后的混洗数据块为 B、 C、 A, 依次抽取的样本为 BfiAp B2C2A2...BnCnAn
在具体应用中, 上述步骤 S1011至步骤 S1013将原始数据集划分为多个 原始样本划分数据块, 将原始样本划分数据块进行混洗重排后, 依次从中抽 取样本, 构成原始数据集的随机样本划分数据块。
5102、 通过 Parzen窗口法, 在每个所述随机样本划分数据块上构建集成 核密度估计器, 并标定所述集成核密度估计器的初始窗口宽度参数。
在上述步骤 S102 中, Parzen 窗口法是一种核密度估计法, 能够估计数 据集的概率密度函数, 此时集成核密度估计器的窗口宽度参数没有优化。
5103、 选择  个不同的所述随机样本划分数据块构建训练集。
在上述步骤 S103中, 设置训练集用以估计模型。
5104、 选择 f个不同的所述随机样本划分数据块构建验证集。
在上述步骤 S104 中, 设置验证集用以确定网络结构或者控制模型复杂 程度的参数。
在一个实施例中, 上述步骤 S102中通过 Parzen窗口法, 在每个所述随 机样本划分数据块上构建集成核密度估计器, 并标定所述集成核密度估计器 的初始窗口宽度参数的具体实现步骤可以包括:
通过 Parzen窗口法估计所述随机样本划分数据块的概率密度函数, 并标
Figure imgf000009_0001
hk > 0,k = l,2,. X, 为所述初始窗口宽度参数; Sf为所述训练集中的随机样本 划分数据块。
在具体应用中, 所述集成核密度估计器的初始窗口宽度参数在预设实数 区间内随机选取。
S105、 根据所述训练集和所述验证集对所述集成核密度估计器的初始窗 口宽度参数进行优化, 获得最优窗口宽度参数值。
在上述步骤 S105中,
如图 3所示, 上述步骤 S105 中根据所述训练集和所述验证集对所述集 成核密度估计器的初始窗口宽度参数进行优化, 获得最优窗口宽度参数值的 详细实现流程可以包括:
S1051、 建立所述集成核密度估计器的窗口宽度参数的优化准则, 对所 述集成核密度估计器的初始窗口宽度参数进行优化, 获得第一窗口宽度参数
Figure imgf000009_0002
随机样本划分数据块的概率密度函数; X 为正则化因子, A G (O,I) ; hlrh2,...hk 为所述第一窗口宽度参数值。
在上述步骤 S1051中, 通过设计基核密度估计器窗口宽度参数的优化准 则, 对初始窗口宽度参数进行优化, 使得在随机样本划分数据块上估计的概 率密度函数之间的差异性达到最小。
在具体应用中, 正则化因子 L 用于对经验误差和模型复杂度这两项进
Figure imgf000010_0001
过大时, 通常导致过平滑的概率密度函数估计。 因此, 在优化准则中引入 E2 项, 能够解决过大窗口参数被选取的问题。
Figure imgf000010_0002
在具体应用中, 优化算法可以为任意的能够优化上述优化准则, 确定最 优窗口参数值的算法; 在一个实施例中,优化算法可以包括粒子群优化算法。
S106、 根据所述最优窗口宽度参数值优化所述集成核密度估计器。
在上述步骤 S106中, 具有最优窗口宽度参数值的集成核密度估计器能够 能够获得更加准确的概率密度函数估计。
Figure imgf000010_0003
基于原始数据集的随机样本划分数据块, 通过 Parzen窗口法构建集成核密度 估计器, 同时从原始数据集的随机样本划分数据块中抽取数据块构建训练集 和验证集, 从而对集成核密度估计器的初始窗口宽度参数进行优化, 获得最 优窗口宽度参数值以及具有最优窗口宽度参数值的集成核密度估计器, 使得 在随机样本划分数据块上估计的概率密度函数之间的差异性达到最小, 即获 得更加准确的概率密度函数估计; 另一方面, 在本发明提出的集成核密度估 计器窗口参数优化方法中, 基于原始数据的部分数据即可获得原始数据的概 率密度函数, 因此优化后的集成核密度估计器, 能够处理大数据的概率密度 函数估计问题。
实施例二
本发明实施例以一维的原始数据集为例, 对上述实施例一中所提供的集 成核密度估计器窗口参数优化方法的实现流程进行示例性说明。
D中训练样
Figure imgf000011_0003
Figure imgf000011_0004
Figure imgf000011_0001
Figure imgf000011_0005
如图 4所示,是本发明实施例所提供的从混洗数据块 ^, , 中依次抽
Figure imgf000011_0002
一所提供的集成核密度估计器窗口参数优化方法还能够处理大数据集的随机 样本划分数据块生成问题。
Figure imgf000012_0001
pk(x) , 可得
Figure imgf000012_0002
其中 >0,fc = l,2, 为窗口宽度参数。接下来我们在 D2, , DK中随机 ^XK(l<K< /C)个不相同的随机
核密度估计器的验证集, 其中令
Figure imgf000012_0003
此处值得注意的是, 在具体的训练中, 为了简化训练的过程, 我们可以 令{“··· , 1^} ={ , P2, , P 即训练集和验证集相同。
Figure imgf000012_0004
宽 A参数 huh2, , hp 而当窗口宽度参数过大时, 通常导致过平滑的概率密度 函数估计。 因此, 我们在评价标准中引入了 E2项, 用于解决过大窗口参数被 选取的问题。
Figure imgf000012_0005
的具体形式为:
Figure imgf000013_0003
方法, 以试验数据示例性地说明在其实际应用中的有益效果。
本发明实施例分别采用正态分布和指数分布的随机数数据集, 验证集成 核密度估计器的收敛性和测试误差。
在正态分布和指数分布的随机数数据集中分别随机抽取 5个 RSP数据 块, 每个数据块含有 100个样本作为训练集和验证集, 另外随机生成了 200 个随机样本作为测试集。 集成核密度估计器中的 算法迭代次数为 200次, 集成核密度估计器的初始窗口宽度参数 ]内随机选取。
如图 5所示,为集成核密度估计器在正态分 其中 |i = 0,a2 = 1 ) 数据集上的训练情况, 其中, 曲线 51 为集成 器的收敛曲线或 E[D, 的值, 曲线 52为经典 Parzen窗口法的
Figure imgf000013_0001
曲线 53为集成核 密度估计器的误差曲线; 此时集成核密度估计器的最优窗口宽度分别为
0.1581、 0.2051、 0.2514、 0.1966、 0.1843。
如 图 6 所 示 , 为 集 成 核 密 度 估 计 器 在 指 数 分 布 ( p(x) = Xexp (-人 x),x 20,人 > 0, 其中人 = 1 )数据集上的训练情况, 纵坐标表示 误差数值,左图的横坐标表示轮化 ( lferation ),右图的横坐标表示高度 ( h ) ;
Figure imgf000013_0002
经典 Parzen窗口法的误差曲线, 曲线 63为集成核密度估计器的误差曲线; 此时集成核密度估计器的最优窗口宽度分别为 0.2423、 0.2587、 0.1750、
0.1895、 0.2761。
由图 5和图 6的左子图中可以得出, 集成核密度估计器是收敛的, 这说 明当前设计的窗口宽度优化标准是可行的; 从图 5和图 6的右子图中我们可 以得出, 集成核密度估计器的测试误差低于基于穷尽法获得的经典 Parzen窗 口法的测试误差, 这说明本发明实施例所设计的集成核密度估计器对概率密 度函数的估算较为准确。
实施例四
如图 7所示, 本发明实施例提供了一种集成核密度估计器窗口参数优化 装置 70, 包括:
数据划分模块 71 , 用于基于原始数据集获取随机样本划分数据块。 如图 8所示, 上述数据划分模块 71可以包括:
原始样本划分单元 711 , 用于对所述原始数据集的原始样本进行划分, 获得原始样本划分数据块;
混洗单元 712 , 用于对所述原始样本划分数据块进行混洗操作, 获得混 洗数据块;
样本抽取单元 713 , 用于从所述混洗数据块中依次抽取样本, 构成所述 原始数据集的随机样本划分数据块。
集成核密度估计器构建模块 72 , 用于通过 Parzen窗口法, 在每个所述随 机样本划分数据块上构建集成核密度估计器, 并标定所述集成核密度估计器 的初始窗口宽度参数。
在一个实施例中, 所述集成核密度估计器构建模块包括:
通过 Parzen窗口法估计所述随机样本划分数据块的概率密度函数, 并标
Figure imgf000014_0001
hk > 0,k = l,2,. X, 为所述初始窗口宽度参数; Sf为所述训练集中的随机样本 划分数据块。
在具体应用中, 所述集成核密度估计器的初始窗口宽度参数在预设实数 区间内随机选取。
训练集构建模块 73 , 用于选择 ^个不同的所述随机样本划分数据块构建 训练集。
验证集构建模块 74 , 用于选择 个不同的所述随机样本划分数据块构建 验证集。
第一优化模块 75 , 用于根据所述训练集和所述验证集对所述集成核密度 估计器的初始窗口宽度参数进行优化, 获得最优窗口宽度参数值。
如图 9所示, 上述第一优化模块 75包括:
准则优化单元 751 , 用于建立所述集成核密度估计器的窗口宽度参数的 优化准则, 对所述集成核密度估计器的初始窗口宽度参数进行优化, 获得第 一窗口宽度参数值, 公式为:
Figure imgf000014_0002
Figure imgf000015_0001
随机样本划分数据块的概率密度函数; X 为正则化因子, Ae (0,l); hlrh2,...hk 为所述第一窗口宽度参数值;
算法优化单元 752 , 用于使用优化算法对所述优化准则进行优化, 获得 最优窗口宽度参数值。
在具体应用中, 所述优化算法包括粒子群优化算法。
第二优化模块 76 ,用于根据所述最优窗口宽度参数值优化所述集成核密
Figure imgf000015_0002
质, 其上存储有计算机程序, 所述计算机程序被处理器执行时, 实现如实施 例一中所述的集成核密度估计器窗口参数优化方法中的各个步骤。
以上所述实施例仅用以说明本发明的技术方案, 而非对其限制; 尽管前 述实施例对本发明进行了详细的说明, 本领域的普通技术人员应当理解: 其 依然可以对前述各实施例所记载的技术方案进行修改, 或者对其中部分技术 特征进行等同替换; 而这些修改或者替换, 并不使相应技术方案的本质脱离 本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims

权 利 要 求 书
1. 一种集成核密度估计器窗口参数优化方法, 其特征在于, 包括: 基于原始数据集获取随机样本划分数据块;
通过 Parzen窗口法, 在每个所述随机样本划分数据块上构建集成核密度 估计器, 并标定所述集成核密度估计器的初始窗口宽度参数;
选择  个不同的所述随机样本划分数据块构建训练集;
选择 f个不同的所述随机样本划分数据块构建验证集;
根据所述训练集和所述验证集对所述集成核密度估计器的初始窗口宽度 参数进行优化, 获得最优窗口宽度参数值;
根据所述最优窗口宽度参数值优化所述集成核密度估计器。
2. 如权利要求 1所述的集成核密度估计器窗口参数优化方法, 其特征在 于, 所述基于原始数据集获取随机样本划分数据块包括:
对所述原始数据集的原始样本进行划分, 获得原始样本划分数据块; 对所述原始样本划分数据块进行混洗操作, 获得混洗数据块;
从所述混洗数据块中依次抽取样本, 构成所述原始数据集的随机样本划 分数据块。
3. 如权利要求 1所述的集成核密度估计器窗口参数优化方法, 其特征在 于, 所述通过 Parzen窗口法, 在每个所述随机样本划分数据块上构建集成核 密度估计器, 并标定所述集成核密度估计器的初始窗口宽度参数包括:
通过 Parzen窗口法估计所述随机样本划分数据块的概率密度函数, 并标
Figure imgf000016_0001
hk > 0,k = l,2,. X, 为所述初始窗口宽度参数; Sf为所述训练集中的随机样本 划分数据块。
4. 如权利要求 3所述的集成核密度估计器窗口参数优化方法, 其特征在 于,所述集成核密度估计器的初始窗口宽度参数在预设实数区间内随机选取。
5. 如权利要求 1所述的集成核密度估计器窗口参数优化方法, 其特征在 于, 所述根据所述验证集和所述训练集对所述集成核密度估计器的初始窗口 宽度参数进行优化, 获得最优窗口宽度参数值包括:
建立所述集成核密度估计器的窗口宽度参数的优化准则, 对所述集成核 密度估计器的初始窗口宽度参数进行优化, 获得第一窗口宽度参数值, 公式 为:
Figure imgf000016_0002
Figure imgf000017_0001
为所述第一窗口宽度参数值;
使用优化算法对所述优化准则进行优化, 获得最优窗口宽度参数值。
6. 如权利要求 5所述的集成核密度估计器窗口参数优化方法,其特征在 于, 所述优化算法包括粒子群优化算法。
7. 如权利要求 1 至 6任一项所述的集成核密度估计器窗口参数优化方 法, 其特征在于, 所述根据所述最优窗口宽度参数值优化所述集成核密度估
Figure imgf000017_0002
数据划分模块, 用于基于原始数据集获取随机样本划分数据块; 集成核密度估计器构建模块, 用于通过 Parzen窗口法, 在每个所述随机 样本划分数据块上构建集成核密度估计器, 并标定所述集成核密度估计器的 初始窗口宽度参数;
训练集构建模块, 用于选择 ^个不同的所述随机样本划分数据块构建训 练集;
验证集构建模块, 用于选择 个不同的所述随机样本划分数据块构建验 证集;
第一优化模块, 用于根据所述训练集和所述验证集对所述集成核密度估 计器的初始窗口宽度参数进行优化, 获得最优窗口宽度参数值;
第二优化模块, 用于根据所述最优窗口宽度参数值优化所述集成核密度 估计器。
9. 如权利要求 8所述的集成核密度估计器窗口参数优化装置,其特征在 于, 所述数据划分模块包括:
原始样本划分单元, 用于对所述原始数据集的原始样本进行划分, 获得 原始样本划分数据块;
混洗单元, 用于对所述原始样本划分数据块进行混洗操作, 获得混洗数 据块;
样本抽取单元, 用于从所述混洗数据块中依次抽取样本, 构成所述原始 数据集的随机样本划分数据块。
10. 如权利要求 8所述的集成核密度估计器窗口参数优化装置, 其特征 在于, 所述集成核密度估计器构建模块包括:
通过 Parzen窗口法估计所述随机样本划分数据块的概率密度函数, 并标
Figure imgf000018_0001
hk > 0,k = l,2,...,K, 为所述初始窗口宽度参数; Sf为所述训练集中的随机样本 划分数据块。
11. 如权利要求 10所述的集成核密度估计器窗口参数优化装置, 其特征 在于, 所述集成核密度估计器的初始窗口宽度参数在预设实数区间内随机选 取。
12. 如权利要求 8所述的集成核密度估计器窗口参数优化装置, 其特征 在于, 所述第一优化模块包括:
准则优化单元, 用于建立所述集成核密度估计器的窗口宽度参数的优化 准则, 对所述集成核密度估计器的初始窗口宽度参数进行优化, 获得第一窗
Figure imgf000018_0002
随机样本划分数据块的概率密度函数; X 为正则化因子, A e (0,l); hlrh2,...hk 为所述第一窗口宽度参数值;
算法优化单元, 用于使用优化算法对所述优化准则进行优化, 获得最优 窗口宽度参数值。
13. 如权利要求 12所述的集成核密度估计器窗口参数优化装置,其特征 在于, 所述优化算法包括粒子群优化算法。
14. 如权利要求 8至 13所述的集成核密度估计器窗口参数优化装置,其 特征在于, 所述第二优化模块包括:
根据所述训练集、 所述验证集和所述最优窗口宽度参数值训练所述集成
Figure imgf000019_0001
15. —种终端设备, 包括存储器、 处理器以及存储在所述存储器中并可 在所述处理器上运行的计算机程序, 其特征在于, 所述处理器执行所述计算 机程序时实现如权利要求 1至 7任一项所述方法的步骤。
16. 一种计算机可读存储介质, 所述计算机可读存储介质存储有计算机 程序, 其特征在于, 所述计算机程序被处理器执行时实现如权利要求 1至 7 任一项所述方法的步骤。
PCT/CN2018/098285 2018-08-02 2018-08-02 集成核密度估计器窗口参数优化方法、装置及终端设备 WO2020024210A1 (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/CN2018/098285 WO2020024210A1 (zh) 2018-08-02 2018-08-02 集成核密度估计器窗口参数优化方法、装置及终端设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2018/098285 WO2020024210A1 (zh) 2018-08-02 2018-08-02 集成核密度估计器窗口参数优化方法、装置及终端设备

Publications (1)

Publication Number Publication Date
WO2020024210A1 true WO2020024210A1 (zh) 2020-02-06

Family

ID=69231285

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2018/098285 WO2020024210A1 (zh) 2018-08-02 2018-08-02 集成核密度估计器窗口参数优化方法、装置及终端设备

Country Status (1)

Country Link
WO (1) WO2020024210A1 (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101141633A (zh) * 2007-08-28 2008-03-12 湖南大学 一种复杂场景中的运动目标检测与跟踪方法
CN105139039A (zh) * 2015-09-29 2015-12-09 河北工业大学 视频序列中人脸微表情的识别方法
CN106504772A (zh) * 2016-11-04 2017-03-15 东南大学 基于重要性权重支持向量机分类器的语音情感识别方法
CN107505519A (zh) * 2017-07-26 2017-12-22 中国电力科学研究院 一种分布式电源接入电网电能质量分析方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101141633A (zh) * 2007-08-28 2008-03-12 湖南大学 一种复杂场景中的运动目标检测与跟踪方法
CN105139039A (zh) * 2015-09-29 2015-12-09 河北工业大学 视频序列中人脸微表情的识别方法
CN106504772A (zh) * 2016-11-04 2017-03-15 东南大学 基于重要性权重支持向量机分类器的语音情感识别方法
CN107505519A (zh) * 2017-07-26 2017-12-22 中国电力科学研究院 一种分布式电源接入电网电能质量分析方法及装置

Similar Documents

Publication Publication Date Title
JP7516482B2 (ja) ニューラルアーキテクチャ検索
JP7439151B2 (ja) ニューラルアーキテクチャ検索
US10600501B2 (en) System and methods for identifying a base call included in a target sequence
WO2022057465A1 (zh) 一种模型的训练方法、系统、设备以及介质
CN113420880B (zh) 网络模型训练方法、装置、电子设备及可读存储介质
WO2019153503A1 (zh) 软件测试方法、计算机可读存储介质、终端设备及装置
WO2015192798A1 (zh) 主题挖掘方法和装置
CN111629048B (zh) spark集群最优配置参数确定方法、装置及设备
CN115659807A (zh) 一种基于贝叶斯优化模型融合算法对人才表现预测的方法
CN111858947A (zh) 自动知识图谱嵌入方法和系统
Román-Palacios et al. Polyploids increase overall diversity despite higher turnover than diploids in the Brassicaceae
Chauveau et al. Improving convergence of the Hastings–Metropolis algorithm with an adaptive proposal
Fang et al. Flexible variable selection for recovering sparsity in nonadditive nonparametric models
WO2020024210A1 (zh) 集成核密度估计器窗口参数优化方法、装置及终端设备
CN116680778B (zh) 建筑结构布置生成方法、系统及生成模型的构建方法
Harris et al. Selective sampling after solving a convex problem
Breslow et al. Semiparametric models and two-phase samples: Applications to Cox regression
CN110302539B (zh) 一种游戏策略计算方法、装置、系统及可读存储介质
Akarsha et al. Coarse-to-fine secure image deduplication with merkle-hash and image features for cloud storage
Otneim Multivariate and conditional density estimation using local Gaussian approximations
Moudŕík et al. Evaluating go game records for prediction of player attributes
JP2006031178A (ja) 負荷テスト実施装置、負荷テスト実施方法、負荷テスト実施プログラム
Advani Statistical Mechanics of High Dimensional Inference
WO2016027297A1 (ja) データ処理システムおよびデータ処理方法
Schertzer et al. Spectral analysis and $ k $-spine decomposition of inhomogeneous branching Brownian motions. Genealogies in fully pushed fronts

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18928267

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 21.05.2021)

122 Ep: pct application non-entry in european phase

Ref document number: 18928267

Country of ref document: EP

Kind code of ref document: A1