WO2021189830A1 - 样本数据优化方法、装置、设备及存储介质 - Google Patents

样本数据优化方法、装置、设备及存储介质 Download PDF

Info

Publication number
WO2021189830A1
WO2021189830A1 PCT/CN2020/122309 CN2020122309W WO2021189830A1 WO 2021189830 A1 WO2021189830 A1 WO 2021189830A1 CN 2020122309 W CN2020122309 W CN 2020122309W WO 2021189830 A1 WO2021189830 A1 WO 2021189830A1
Authority
WO
WIPO (PCT)
Prior art keywords
sample
cluster
data
samples
ratio
Prior art date
Application number
PCT/CN2020/122309
Other languages
English (en)
French (fr)
Inventor
成卓鸿
Original Assignee
平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安科技(深圳)有限公司 filed Critical 平安科技(深圳)有限公司
Publication of WO2021189830A1 publication Critical patent/WO2021189830A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Definitions

  • the main purpose of this application is to solve the problem that in the prior art, the uneven distribution of samples in the sample data due to the small minority of samples in the sample data causes the accuracy of the classifier to be low.
  • the classification matrix u ik indicates the relationship between different samples and different cluster centers.
  • the weighting index m and the number of subsets c in the expression are for the cluster centers that you want to output
  • is the distance from different samples to different cluster centers.
  • the value of the degree of membership of a certain element to all categories must add up to 1, so it is known that the constraint condition is Under this constraint, the requirement is The minimum value, then the resulting expression of v i and u ik.
  • the comparison module 304 is configured to calculate the ratio of the number of samples in each sample set in the minority sample cluster to the initial sample average, and compare the ratio with a preset ratio threshold;
  • the sample addition module 306 is configured to, if the proportion value is less than the critical value of the proportion, add the number of samples to the minority sample set corresponding to the proportion value until every sample in the minority sample cluster When the ratio between the number of samples in each sample set and the average number of the initial samples reaches the critical value of the ratio, the adjusted sample cluster is output as a qualified training sample cluster.
  • the sample adding unit 3063 may also be specifically configured to: obtain the initialized a-th cluster center v a ; substitute the a-th cluster center v a into the function expression of the degree of membership to obtain the degree of membership u ak ; substituting the degree of membership u ak into the functional expression of the i-th cluster center to obtain the a+1-th cluster center v a+1 .
  • the qualified training sample cluster is input into the classification algorithm model for classification operation.

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Complex Calculations (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及大数据技术领域,公开了一种样本数据优化方法、装置、设备及存储介质,用于样本数据优化。样本数据优化方法包括:获取当前的待处理数据,并对所述待处理数据按照数据种类进行归类,基于归类后的数据生成样本集群;判断每个样本集的样本个数是否大于初始样本平均数,得到判断结果;根据所述判断结果,将所述样本集群划分为少数类样本集群和多数类样本集群;计算所述少数类样本集群中样本平均数的比例值,并将所述比例值与预置比例临界值进行比较;若比例值均大于临界值,则将样本集群作为合格的训练样本群输出;若存在比例值小于临界值,则对少数类样本集进行样本个数新增处理,将调整后的样本集群作为合格的训练样本集群输出。

Description

样本数据优化方法、装置、设备及存储介质
本申请要求于2020年3月26日提交中国专利局、申请号为202010222195.X、发明名称为“样本数据优化方法、装置、设备及存储介质”的中国专利申请的优先权,其全部内容通过引用结合在申请中。
技术领域
本申请涉及样本处理领域,尤其涉及一种样本数据优化方法、装置、设备及存储介质。
背景技术
在大数据领域中,分类技术是较为重要且应用广泛的技术之一。它根据训练集建立合适的分类器,然后通过这个分类器对用户需要分类的数据给出预测的分类结果。集成学习算法是机器学习的一种新的学习思想,该学习算法把同一个问题分解到多个不同的模块中,由多个学习器一起参与学习,共同解决目标问题,从而提高分类器的分类能力。
集成学习应用越来越广泛,功能也越来越强大。在应用中,存在应用该算法在保险人的数据筛选中,用于提高对投保人的评估,减少存在的隐形风险。例如,保险人存在不为人知的疾病,或是保险人生活在交通事故频发的区域,都对投保存在较大的影响。但是该算法并不是十全十美的,发明人意识到,在该算法使用分类时经常会遇到数据分布不均的问题,如果训练集内的多数类的数量大于少数类时,结果就会向多数类靠拢。由于很多少数类被划分为多数类,导致分类精度不高,严重影响了算法的准确率。
发明内容
本申请的主要目的在于解决现有技术中,样本数据中少数类样本偏少出现的样本分布不均导致分类器精准度不高的问题。
为实现上述目的,本申请第一方面提供了一种样本数据优化方法,包括:获取当前的待处理数据,并对所述待处理数据按照数据种类进行归类,基于归类后的数据生成样本集群,其中,所述样本集群包括至少两种不同的数据类型的样本集;统计所述样本集群中每个样本集所包含的样本个数,并判断每个样本集的样本个数是否大于初始样本平均数,得到判断结果,其中,所述初始样本平均数为所有样本集中样本个数的平均值;根据所述判断结果,将所述样本集群中的所有样本集划分为少数类样本集群和多数类样本集群,其中,所述少数类样本集群为每个集的样本个数小于所述初始样本平均数的集群,所述多数类样本集群为每个集的样本个数大于所述初始样本平均数的集群;计算所述少数类样本集群中每个样本集的样本个数分别与所述初始样本平均数的比例值,并将所述比例值与预置比例临界值进行比较;若所述比例值均大于所述比例临界值,则将所述样本集群作为合格的训练样本集输出;若存在所述比例值小于所述比例临界值,则对所述比例值对应的少数类样本集进行样本个数新增处理,直至所述少数类样本集群中每个样本集的样本个数与所述初始样本平均数的比例值均达到所述比例临界值时为止,将调整后的样本集群作为合格的训练样本集群输出。
本申请第二方面提供了一种样本数据优化设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现如下步骤:获取当前的待处理数据,并对所述待处理数据按照数据种类进行归类,基于归类后的数据生成样本集群,其中,所述样本集群包括至少两种不同的数据类型的样本集;统计所述样本集群中每个样本集所包含的样本个数,并判断每个样本集的样本个数是否大于初始样本平均数,得到判断结果,其中,所述初始样本平均数为所有样本集中样本个数的平均值;根据所述判断结果,将所述样本集群中的所有样本集划分为少数类样本集群和多数类样本集群,其中,所述少数类样本集群为每个集的样本个数小于所述初始样本平均数的集群,所述多数类样本集群为每个集的样本个数大于所述初始样本平均数的集 群;计算所述少数类样本集群中每个样本集的样本个数分别与所述初始样本平均数的比例值,并将所述比例值与预置比例临界值进行比较;若所述比例值均大于所述比例临界值,则将所述样本集群作为合格的训练样本集输出;若存在所述比例值小于所述比例临界值,则对所述比例值对应的少数类样本集进行样本个数新增处理,直至所述少数类样本集群中每个样本集的样本个数与所述初始样本平均数的比例值均达到所述比例临界值时为止,将调整后的样本集群作为合格的训练样本集群输出。
本申请第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机指令,当所述计算机指令在计算机上运行时,使得计算机执行如下步骤:获取当前的待处理数据,并对所述待处理数据按照数据种类进行归类,基于归类后的数据生成样本集群,其中,所述样本集群包括至少两种不同的数据类型的样本集;统计所述样本集群中每个样本集所包含的样本个数,并判断每个样本集的样本个数是否大于初始样本平均数,得到判断结果,其中,所述初始样本平均数为所有样本集中样本个数的平均值;根据所述判断结果,将所述样本集群中的所有样本集划分为少数类样本集群和多数类样本集群,其中,所述少数类样本集群为每个集的样本个数小于所述初始样本平均数的集群,所述多数类样本集群为每个集的样本个数大于所述初始样本平均数的集群;计算所述少数类样本集群中每个样本集的样本个数分别与所述初始样本平均数的比例值,并将所述比例值与预置比例临界值进行比较;若所述比例值均大于所述比例临界值,则将所述样本集群作为合格的训练样本集输出;若存在所述比例值小于所述比例临界值,则对所述比例值对应的少数类样本集进行样本个数新增处理,直至所述少数类样本集群中每个样本集的样本个数与所述初始样本平均数的比例值均达到所述比例临界值时为止,将调整后的样本集群作为合格的训练样本集群输出。
本申请第四方面提供了一种样本数据优化装置,包括:获取模块,用于获取当前的待处理数据,并对所述待处理数据按照数据种类进行归类,基于归类后的数据生成样本集群,其中,所述样本集群包括至少两种不同的数据类型的样本集;判断模块,用于统计所述样本集群中每个样本集所包含的样本个数,并判断每个样本集的样本个数是否大于初始样本平均数,得到判断结果,其中,所述初始样本平均数为所有样本集中样本个数的平均值;划分模块,用于根据所述判断结果,将所述样本集群中的所有样本集划分为少数类样本集群和多数类样本集群,其中,所述少数类样本集群为每个集的样本个数小于所述初始样本平均数的集群,所述多数类样本集群为每个集的样本个数大于所述初始样本平均数的集群;比较模块,用于计算所述少数类样本集群中每个样本集的样本个数分别与所述初始样本平均数的比例值,并将所述比例值与预置比例临界值进行比较;标记模块,用于若所述比例值均大于所述比例临界值,则将所述样本集群作为合格的训练样本集输出;样本新增模块,用于若存在所述比例值小于所述比例临界值,则对所述比例值对应的少数类样本集进行样本个数新增处理,直至所述少数类样本集群中每个样本集的样本个数与所述初始样本平均数的比例值均达到所述比例临界值时为止,将调整后的样本集群作为合格的训练样本集群输出。
本申请提供的技术方案中,获取当前的待处理数据,并对所述待处理数据按照数据种类进行归类,基于归类后的数据生成样本集群,其中,所述样本集群包括至少两种不同的数据类型的样本集;统计所述样本集群中每个样本集所包含的样本个数,并判断每个样本集的样本个数是否大于初始样本平均数,得到判断结果,其中,所述初始样本平均数为所有样本集中样本个数的平均值;根据所述判断结果,将所述样本集群中的所有样本集划分为少数类样本集群和多数类样本集群,其中,所述少数类样本集群为每个集的样本个数小于所述初始样本平均数的集群,所述多数类样本集群为每个集的样本个数大于所述初始样 本平均数的集群;计算所述少数类样本集群中每个样本集的样本个数分别与所述初始样本平均数的比例值,并将所述比例值与预置比例临界值进行比较;若所述比例值均大于所述比例临界值,则将所述样本集群作为合格的训练样本集输出;若存在所述比例值小于所述比例临界值,则对所述比例值对应的少数类样本集进行样本个数新增处理,直至所述少数类样本集群中每个样本集的样本个数与所述初始样本平均数的比例值均达到所述比例临界值时为止,将调整后的样本集群作为合格的训练样本集群输出。本申请实施例中,本申请改善在于减少了决策树分类器假负性与假正性的情况,通过对保险人的数据进行聚类处理获得数据聚类中心,在获得聚类中心后对数据集群中数据样本个数较少的样本进行扩增处理。将新增加的数据添加至原先的数据集中,平衡数据分布不均的情况。在检验确认样本数据已经新增完成之后,用新增加的样本数据对决策树分类器进行训练。改善结果确认则使用OOB预测与AUC值评价了改善后的决策树分类器的性能,只有明显减少了假负类与假正类的决策树分类器会通过平均并输出。由此可以得到高性能的决策树分类器,减少了决策树分类器假负性与假正性的情况,提高对保险申请人的分类精度。
附图说明
图1为本申请实施例中样本数据优化方法的一个实施例示意图;
图2为本申请实施例中样本数据优化方法的另一个实施例示意图;
图3为本申请实施例中样本数据优化装置的一个实施例示意图;
图4为本申请实施例中样本数据优化装置的另一个实施例示意图;
图5为本申请实施例中样本数据优化设备的一个实施例示意图。
具体实施方式
本申请实施例提供了一种样本数据优化方法、装置、设备及存储介质,获取当前的待处理数据,并对所述待处理数据按照数据种类进行归类,基于归类后的数据生成样本集群,其中,所述样本集群包括至少两种不同的数据类型的样本集;统计所述样本集群中每个样本集所包含的样本个数,并判断每个样本集的样本个数是否大于初始样本平均数,得到判断结果,其中,所述初始样本平均数为所有样本集中样本个数的平均值;根据所述判断结果,将所述样本集群中的所有样本集划分为少数类样本集群和多数类样本集群,其中,所述少数类样本集群为每个集的样本个数小于所述初始样本平均数的集群,所述多数类样本集群为每个集的样本个数大于所述初始样本平均数的集群;计算所述少数类样本集群中每个样本集的样本个数分别与所述初始样本平均数的比例值,并将所述比例值与预置比例临界值进行比较;若所述比例值均大于所述比例临界值,则将所述样本集群作为合格的训练样本集输出;若存在所述比例值小于所述比例临界值,则对所述比例值对应的少数类样本集进行样本个数新增处理,直至所述少数类样本集群中每个样本集的样本个数与所述初始样本平均数的比例值均达到所述比例临界值时为止,将调整后的样本集群作为合格的训练样本集群输出。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于理解,下面对本申请实施例的具体流程进行描述,请参阅图1,本申请实施例中样本数据优化方法的一个实施例包括:
101、获取当前的待处理数据,并对所述待处理数据按照数据种类进行归类,基于归类后的数据生成样本集群;
在本实施例中,不同类型的集合构成样本集群X,集合X 1,X 2,...,X p中的样本数量是不同的。例如:保险人的年龄、身高、家庭住址、家庭年收入、是否有住房贷,数据内容不同,样本容量大小也不同。在保险申请人的数据处理方式中,分类是处理数据的第一步。对不同类型的数据进行划分,然后对相同类型的数据进行划分。在原始样本的处理方式中,分类是处理数据的第一步。对不同类型的数据进行划分,然后对相同类型的数据进行划分。
可以理解的是,本申请的执行主体可以为样本数据优化装置,还可以是终端或者服务器,具体此处不做限定。本申请实施例以服务器为执行主体为例进行说明。
102、统计所述样本集群中每个样本集所包含的样本个数,并判断每个样本集的样本个数是否大于初始样本平均数,得到判断结果;
在本实施例中,判断样本集群X中p个样本集两两之间的样本个数是否相同,不同的样本集的两两个数若是相同,则样本中的数据较为均衡,样本集的平均可以保证分类器的准确性。例如,保险人的数据中有姓名这个数据的有6000个人,但是收集到5000个人的年龄,收集到3000个人的家庭年收入。此时,就需要调整数据。如果样本集之间数据不同,说明样本数据不均衡可能会影响分类器的性能,所以需要对样本集的样本进行相应的调整。
103、根据所述判断结果,将所述样本集群中的所有样本集划分为少数类样本集群和多数类样本集群;
在本实施例中,每个样本集都是不同类型的样本集合,在样本集中每个样本都是同一种类型的。例如,在筛选保险人的数据中,某投保人为70岁,划分标准为大于60岁的人群属于少数类。在预设的条件下,将样本集群X中的样本集一个个的分类出来,分别构成样本集群Y与样本集群Z。其中样本集群Y与样本集群Z的样本都是来自样本集群X,并且样本集群Y与样本集群Z相加则等于样本集群X,数学关系则为:Z、
Figure PCTCN2020122309-appb-000001
且Z+Y=X。
确认出少数与多数后,就需要判断样本的分布是否平衡。若分布不平衡,则需要增加少数类样本的数量平衡样本之间的分布。例如,在保险人的样本分布中,保险人的数据小于60岁有500个,而大于60岁有5个,这样造成了严重的数据分布不均,所以需要进行调整。
104、计算所述少数类样本集群中每个样本集的样本个数分别与所述初始样本平均数的比例值,并将所述比例值与预置比例临界值进行比较;
在本实施例中,划分少数类样本集后就要样本个数判断是否合理。少数类样本集与初始样本平均数比值进行判断是否能大于预置的比例临界值,如果小于临界值则说明少数类样本集的样本数量不足,需要增加样本数量平衡样本的分布。由于初始样本平均数是固定的每个样本集增加的新增的样本不会影响判断标准,在划分时候已经完成对少数类的定义,增加样本数量也不会对少数类样本集的集合分类产生影响。
105、若所述比例值均大于所述比例临界值,则将所述样本集群作为合格的训练样本集输出;
在本实施例中,若所述比例值均大于所述比例临界值,则将样本集群X作为合格的训练样本,其中,如果样本集Y 1,Y 2,...,Y q的样本个数与初始样本平均数(w 1+w 2+w 3+...+w p)/p的比例值L 1,L 2,...,L q都大于比例临界值,则说明Y 1,Y 2,...,Y q的样本个数都满足基本要求,不存在样本数据分布不均或者是数据不足的情况。
106、若存在所述比例值小于所述比例临界值,则对所述比例值对应的少数类样本集进行样本个数新增处理,直至所述少数类样本集群中每个样本集的样本个数与所述初始样本平均数的比例值均达到所述比例临界值时为止,将调整后的样本集群作为合格的训练样本集群输出。
在本实施例中,如果比例值小于临界值,那么说明少数类样本集的样本数量不足,会对分类器产生较大的影响。此时需要对相应的少数类样本集Y t集合进行样本个数新增处理,直至比例值均达到所述临界值的情况,此时增加少数类样本数量提高分类器精准度。
本申请实施例中,本申请改善在于减少了决策树分类器假负性与假正性的情况,通过对保险人的数据进行聚类处理获得数据聚类中心,在获得聚类中心后对数据集群中数据样本个数较少的样本进行扩增处理。将新增加的数据添加至原先的数据集中,平衡数据分布不均的情况。在检验确认样本数据已经新增完成之后,用新增加的样本数据对决策树分类器进行训练。由此可以得到高性能的决策树分类器,减少了决策树分类器假负性与假正性的情况,提高对保险申请人的分类精度。
107、将所述合格的训练样本集群输入分类算法模型中以进行分类运算。
请参阅图2,本申请实施例中样本数据优化方法的另一个实施例包括:
201、判断所述待处理数据中的数据类型是否为数值格式;
202、若所述数据类型为数值格式,则获取所述待处理数据中的数据,若所述数据类型不是数值格式,则将所述待处理数据转化为数值格式;读取数值格式的数据的种类,将种类相同的数据划分为同一类样本集。
本实施例中,算法处理的是数字,对于非数字的信息是无法处理。如果输入其他类型的数据是有必要的,也要将其他类型的数据先转换为数字类型的信息再来进行处理。如果输入其他类型的数据,将无法进行运算与分类。例如,要收集保险人的家庭住址,保险人的家庭住址都是文字,所以在处理数据前要将文字转换为数字。所以在处理数据之前,需要判断数据的类型是否为数字类型。
203、获取当前的待处理数据,并对所述待处理数据按照数据种类进行归类,基于归类后的数据生成样本集群;
204、统计所述样本集群中每个样本集所包含的样本个数,并判断每个样本集的样本个数是否大于初始样本平均数,得到判断结果;
205、根据所述判断结果,将所述样本集群中的所有样本集划分为少数类样本集群和多数类样本集群;
206、计算所述少数类样本集群中每个样本集的样本个数分别与所述初始样本平均数的比例值,并将所述比例值与预置比例临界值进行比较;
207、若所述比例值均大于所述比例临界值,则将所述样本集群作为合格的训练样本集输出;
208、将所述合格的训练样本集群输入分类算法模型中以进行分类运算。
209、若存在所述比例值小于所述比例临界值,则对所述比例值对应的少数类样本集进行样本个数新增处理,直至所述少数类样本集群中每个样本集的样本个数与所述初始样本平均数的比例值均达到所述比例临界值时为止,将调整后的样本集群作为合格的训练样本集群输出;
在对样本新增处理时,新增处理方式具体为以下过程:
根据所述比例值,从所述少数类样本集群中获取与所述比例值对应的样本集,并计算所述样本集的聚类中心v;
根据所述聚类中心v和预设的样本数据生成函数,计算所述样本集的新增数据P,其中所述预设的样本数据生成函为P=v+random(0,1)*(y-v),y为所述样本集中的样本数据,random(0,1)为0到1的随机数;
将所述新增数据P加入对应的样本集中,得到所述训练样本集群。
在本实施例中,聚类中心获取的方式有很多种一般常见的有K-MEANS聚类算法、均值偏移聚类算法、DBSCAN聚类算法、使用高斯混合模型(GMM)的期望最大化(EM)聚类、层次聚类算法。获得的聚类中心是一个确定的值,但是获得这个确定的聚类中心过程中是进行迭代判断的。不满足迭代中止条件的聚类中心将会继续进行迭代,直至出现一个满足条件的聚类中心停止。在“人造样本”的过程中,新产生的样本也应向类的重心靠拢,这样使得样本的产生过程有一定的方向性,从而克服SMOTE算法在进行合成时的盲目化问题。而且由于“人造”样本会有目的趋向重心,由处在分布边缘的样本产生的新样本的分布会得到改善,从而克服了SMOTE算法在进行合成时的边缘化问题。少数类样本与多数类样本在样本容量不一样,在生成新数据时会改变少数类与多数类的样本容量。random(0,1)产生的是0至1之间的随机数字。
y是少数类样本集中的样本数据,新增数据P也是属于少数类样本增加到相应的少数类样本集中,因此得到新增样本的少数类样本集。少数类样本集的比值与比值临界值进行比较,如果达到比值临界值就终止增加数据,没有达到则要继续增加数据。
将新增数据P加入对应的少数类样本集中,得到新增样本的少数类样本集的过程中,还具体包括以下实施细则:
将与所述比例值对应的样本集划分为c个子集,其中,同一个子集中所包含的样本数据为同类样本数据;
根据样本数据到各聚类中心的距离的加权平均函数,计算所述c个子集中每个样本数据到各聚类中心的距离;
根据所述加权平均函数的特定条件下的约束条件,取所述距离的最小值,并输出与所述最小值对应的聚类中心v;
其中,所述加权平均函数为:
Figure PCTCN2020122309-appb-000002
v i表示少数类样本集的第i类聚类中心,u ik表示不同样本对聚类中心的隶属度,||y k-v i||为不同样本至不同聚类中心的距离,m∈[1,+∞]为加权指数,c为子集数量。
在本实施例中,样本集中有g t个样本,将g t个样本划分为c个子集,子集的数量要大于2,但是不可能超过样本的数量g t。将样本集根据相似情况进行划分,相近的为一个类别,为聚类中心的进行准备。
目标函数
Figure PCTCN2020122309-appb-000003
在约束条件下求得最小值,是拉格朗日乘数法求解的问题。分类矩阵u ik,表明不同样本与不同聚类中心的关系。
Figure PCTCN2020122309-appb-000004
表达式中加权指数m、子集数量c是为了想要输出的聚类中心
Figure PCTCN2020122309-appb-000005
的目标而预先设定的常数, ||y k-v i||为不同样本至不同聚类中心的距离。某一个元素对所有类别的隶属程度的值加起来要等于1,因此得知约束条件为
Figure PCTCN2020122309-appb-000006
在此约束条件下,要求得
Figure PCTCN2020122309-appb-000007
的最小值,然后得到了u ik与v i的表达式。
在获得u ik与v i的表达式后,就能迭代获得聚类中心v a,||v a-v a+1||是代表聚类中心之间的欧氏距离,在聚类中心之间的距离与循环停止临界值进行比较,如果聚类中心的数值小于循环停止临界值,将聚类中心v a获得,停止迭代,a为一个确定值。如果聚类中心的数值大于循环停止临界值,则还需要进行迭代处理,直至满足条件为止。
对于算法中u ik与v i的表达式,可以确定为以下处理方式:
令所述约束条件为
Figure PCTCN2020122309-appb-000008
根据所述约束条件,利用拉格朗日乘数法求解所述加权平均函数,得到隶属度u ik与第i类聚类中心v i的函数表达式;
对所述隶属度和第i类聚类中心的函数表达式进行循环迭代处理,得到第a类聚类中心v a,并判断第a类聚类中心v a与第a-1类聚类中心v a-1之间的距离是否大于预设的循环停止临界值;
若否,则将聚类中心v a作为所述聚类中心v输出;
若是,则对所述隶属度和第i类聚类中心的函数表达式进行二次循环迭代处理,直到所述距离不大于预设的循环停止临界值为止,输出所述聚类中心v。
在本实施例中,在
Figure PCTCN2020122309-appb-000009
的约束条件下,求
Figure PCTCN2020122309-appb-000010
的最小值使用拉格朗日乘数法求解。设定
Figure PCTCN2020122309-appb-000011
Figure PCTCN2020122309-appb-000012
得到表达式
Figure PCTCN2020122309-appb-000013
使用u ik与v i的表达式迭代获得第a+1类聚类中心v a+1还包括以下步骤:
获取初始化的第a类聚类中心v a
将所述第a类聚类中心v a代入所述隶属度的函数表达式获得隶属度u ak
将所述隶属度u ak代入所述第i类聚类中心的函数表达式,获得第a+1类聚类中心v a+1
在本实施例中,先代入初始模糊分类矩阵u ik(0)代入表达式v i,获得聚类中心v i,然后将v i代入表达式u ik,获得模糊分类矩阵u ik(1)然后将获得的模糊分类矩阵u ik(1)代入表达式v i中,不断循环往复,就能获得聚类中心v a,a为大于1的正整数。这样就有聚类中心集,相近的聚类中心之间进行比较距离||v a-v a-1||,距离大小获得后||v a-v a-1||与循环停止临界值进行大小比较。
210、根据所述训练样本集群生成决策树分类器;
211、分别对所述训练样本集群中样本集使用随机且有放回地抽取,将选中的样本对应的生成第一抽取样本集群,将每个样本集中未被选中的样本生成对应的第二抽取样本集群;
212、判断所述第一抽取样本集群中样本集的样本数量是否小于对应的所述训练样本集群中样本集的样本数量;
213、若是,分别对所述第一抽取样本集群中样本集进行预测,对预测的每个结果进行判断并计算出对应的AUC值,当所有的AUC值达到预置阈值时,确认所述决策树分类器合格;
214、若否,分别对所述第二抽取样本集群中样本集进行预测,计算每个预测结果的准确率,每个所述准确率均达到预置阈值时,确认所述决策树分类器合格。
在计算AUC值时,先要画出ROC曲线,ROC曲线要先了解抽取的样本的预测情况。TP:预测类别是正例,真实类别也是正例;FP:预测类别是正例,真实类别是负例;TN:预测类别是负例,真实类别也是负例;FN:预测类别是N,真实类别是P;TPR:在所有实际为正性的样本中,被正确地判断为正性之比率为TPR=TP/(TP+FN);FPR:在所有实际为负性的样本中,被错误地判断为正性之比率为FPR=FP/(FP+TN);ROC曲线将假正率(FPR)定义为X轴,真正率(TPR)定义为Y轴,本方法采用的是AUC值判断结果,计算出ROC曲线下面的面积,就是AUC的值。我们得到的AUC曲线必然是一个阶梯状的。因此,计算的AUC也就是这些阶梯下面的面积之和。在有限样本中我们常用的得到概率的办法就是通过频率来估计之。这种估计随着样本规模的扩大而逐渐逼近真实值。这和上面的方法中,样本数越多,计算的AUC越准确类似,也和计算积分的时候,小区间划分的越细,计算的越准确是同样的道理。所以抽取的次数越多,那么得到的决策树评价也就越准确。
本申请实施例中,本申请改善在于减少了决策树分类器假负性与假正性的情况,通过对保险人的数据进行聚类处理获得数据聚类中心,在获得聚类中心后对数据集群中数据样本个数较少的样本进行扩增处理。将新增加的数据添加至原先的数据集中,平衡数据分布不均的情况。在检验确认样本数据已经新增完成之后,用新增加的样本数据对决策树分类器进行训练。由此可以得到高性能的决策树分类器,减少了决策树分类器假负性与假正性的情况,提高对保险申请人的分类精度。
上面对本申请实施例中样本数据优化方法进行了描述,下面对本申请实施例中样本数据优化装置进行描述,请参阅图3,本申请实施例中样本数据优化装置一个实施例包括:
获取模块301,用于获取当前的待处理数据,并对所述待处理数据按照数据种类进行归类,基于归类后的数据生成样本集群,其中,所述样本集群包括至少两种不同的数据类型的样本集;
判断模块302,用于统计所述样本集群中每个样本集所包含的样本个数,并判断每个样本集的样本个数是否大于初始样本平均数,得到判断结果,其中,所述初始样本平均数为所有样本集中样本个数的平均值;
划分模块303,用于根据所述判断结果,将所述样本集群中的所有样本集划分为少数类样本集群和多数类样本集群,其中,所述少数类样本集群为每个集的样本个数小于所述初始样本平均数的集群,所述多数类样本集群为每个集的样本个数大于所述初始样本平均数的集群;
比较模块304,用于计算所述少数类样本集群中每个样本集的样本个数分别与所述初始样本平均数的比例值,并将所述比例值与预置比例临界值进行比较;
标记模块305,用于若所述比例值均大于所述比例临界值,则将所述样本集群作为合格的训练样本集输出;
样本新增模块306,用于若存在所述比例值小于所述比例临界值,则对所述比例值对应的少数类样本集进行样本个数新增处理,直至所述少数类样本集群中每个样本集的样本个数与所述初始样本平均数的比例值均达到所述比例临界值时为止,将调整后的样本集群作为合格的训练样本集群输出。
本申请实施例中,本申请改善在于减少了决策树分类器假负性与假正性的情况,通过对保险人的数据进行聚类处理获得数据聚类中心,在获得聚类中心后对数据集群中数据样本个数较少的样本进行扩增处理。将新增加的数据添加至原先的数据集中,平衡数据分布不均的情况。在检验确认样本数据已经新增完成之后,用新增加的样本数据对决策树分类器进行训练。由此可以得到高性能的决策树分类器,减少了决策树分类器假负性与假正性的情况,提高对保险申请人的分类精度。
请参阅图4,本申请实施例中样本数据优化装置的另一个实施例包括:
获取模块301,用于获取当前的待处理数据,并对所述待处理数据按照数据种类进行归类,基于归类后的数据生成样本集群,其中,所述样本集群包括至少两种不同的数据类型的样本集;
判断模块302,用于统计所述样本集群中每个样本集所包含的样本个数,并判断每个样本集的样本个数是否大于初始样本平均数,得到判断结果,其中,所述初始样本平均数为所有样本集中样本个数的平均值;
划分模块303,用于根据所述判断结果,将所述样本集群中的所有样本集划分为少数类样本集群和多数类样本集群,其中,所述少数类样本集群为每个集的样本个数小于所述初始样本平均数的集群,所述多数类样本集群为每个集的样本个数大于所述初始样本平均数的集群;
比较模块304,用于计算所述少数类样本集群中每个样本集的样本个数分别与所述初始样本平均数的比例值,并将所述比例值与预置比例临界值进行比较;
标记模块305,用于若所述比例值均大于所述比例临界值,则将所述样本集群作为合格的训练样本集输出;
样本新增模块306,用于若存在所述比例值小于所述比例临界值,则对所述比例值对应的少数类样本集进行样本个数新增处理,直至所述少数类样本集群中每个样本集的样本个数与所述初始样本平均数的比例值均达到所述比例临界值时为止,将调整后的样本集群作为合格的训练样本集群输出。
可选的,数据监控模块307可以具体用于:判断所述待处理数据中的数据类型是否为数值格式;若所述数据类型为数值格式,则获取所述待处理数据中的数据,若所述数据类型不是数值格式,则将所述待处理数据转化为数值格式;读取数值格式的数据的种类,将种类相同的数据划分为同一类样本集。
可选的,结果评价模块308可以具体用于:根据所述训练样本集群生成决策树分类器;分别对所述训练样本集群中样本集使用随机且有放回地抽取,将选中的样本对应的生成第一抽取样本集群,将每个样本集中未被选中的样本生成对应的第二抽取样本集群;判断所述第一抽取样本集群中样本集的样本数量是否小于对应的所述训练样本集群中样本集的样本数量;若是,分别对所述第一抽取样本集群中样本集进行预测,对预测的每个结果进行判断并计算出对应的AUC值,当所有的AUC值达到预置阈值时,确认所述决策树分类器合格;若否,分别对所述第二抽取样本集群中样本集进行预测,计算每个预测结果的准确率,每个所述准确率均达到预置阈值时,确认所述决策树分类器合格。
可选的,样本新增模块306包括:
分类单元3061,根据所述比例值,从所述少数类样本集群中获取与所述比例值对应的样本集,并计算所述样本集的聚类中心v;
生成单元3062,根据所述聚类中心v和预设的样本数据生成函数,计算所述样本集的新增数据P,其中所述预设的样本数据生成函为P=v+random(0,1)*(y-v),y为所述样本集中的样本数据,random(0,1)为0到1的随机数;
添加单元3063,将所述新增数据P加入对应的样本集中,得到所述训练样本集群。
可选的,样本新增模块306还可以具体用于:将与所述比例值对应的样本集划分为c个子集,其中,同一个子集中所包含的样本数据为同类样本数据;根据样本数据到各聚类中心的距离的加权平均函数,计算所述c个子集中每个样本数据到各聚类中心的距离;根据所述加权平均函数的特定条件下的约束条件,取所述距离的最小值,并输出与所述最小值对应的聚类中心v;其中,所述加权平均函数为:
Figure PCTCN2020122309-appb-000014
v i表示少数类样本集的第i类聚类中心,u ik表示不同样本对聚类中心的隶属度,||y k-v i||为不同样本至不同聚类中心的距离,m∈[1,+∞]为加权指数,c为子集数量。
可选的,样本添加单元3063还可以具体用于:令所述约束条件为
Figure PCTCN2020122309-appb-000015
根据所述约束条件,利用拉格朗日乘数法求解所述加权平均函数,得到隶属度u ik与第i类聚类中心v i的函数表达式;对所述隶属度和第i类聚类中心的函数表达式进行循环迭代处理,得到第a类聚类中心v a,并判断第a类聚类中心v a与第a-1类聚类中心v a-1之间的距离是否大于预设的循环停止临界值;若否,则将聚类中心v a作为所述聚类中心v输出;若是,则对所述隶属度和第i类聚类中心的函数表达式进行二次循环迭代处理,直到所述距离不大于预设的循环停止临界值为止,输出所述聚类中心v。
可选的,样本添加单元3063还可以具体用于:获取初始化的第a类聚类中心v a;将所述第a类聚类中心v a代入所述隶属度的函数表达式获得隶属度u ak;将所述隶属度u ak代入所述第i类聚类中心的函数表达式,获得第a+1类聚类中心v a+1
本申请实施例中,为减少了决策树分类器假负性与假正性的情况,通过对保险人的数据进行聚类处理获得数据聚类中心,在获得聚类中心后对数据集群中数据样本个数较少的样本进行扩增处理。将新增加的数据添加至原先的数据集中,平衡数据分布不均的情况。在检验确认样本数据已经新增完成之后,用新增加的样本数据对决策树分类器进行训练。改善结果确认则使用oob预测与AUC值评价了改善后的决策树分类器的性能,只有明显减少了假负类与假正类的决策树分类器会通过平均并输出。由此可以得到高性能的决策树分类器,减少了决策树分类器假负性与假正性的情况,提高对保险申请人的分类精度。
上面图3和图4从模块化功能实体的角度对本申请实施例中的样本数据优化装置进行详细描述,下面从硬件处理的角度对本申请实施例中样本数据优化设备进行详细描述。
上面图3和图4从模块化功能实体的角度对本申请实施例中的样本数据优化装置进行详细描述,下面从硬件处理的角度对本申请实施例中样本数据优化设备进行详细描述。
图5是本申请实施例提供的一种样本数据优化设备的结构示意图,该样本数据优化设备500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)510(例如,一个或一个以上处理器)和存储器520,一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中,存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对样本数据优化设备500中的一系列指令操作。更进一步地,处理器510可以设置为与存储介质530通信,在样本数据优化设备500上执行存储介质530中的一系列指令操作。
样本数据优化设备500还可以包括一个或一个以上电源540,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口560,和/或,一个或一个以上操作系统531,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图5示出的样本数据优化设备结构并不构成对样本数据优化的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本申请还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,也可以为易失性计算机可读存储介质。计算机可读存储介质存储有计算机指令,当所述计算机指令在计算机上运行时,使得计算机执行如下步骤:
获取当前的待处理数据,并对所述待处理数据按照数据种类进行归类,基于归类后的数据生成样本集群,其中,所述样本集群包括至少两种不同的数据类型的样本集;
统计所述样本集群中每个样本集所包含的样本个数,并判断每个样本集的样本个数是否大于初始样本平均数,得到判断结果,其中,所述初始样本平均数为所有样本集中样本个数的平均值;
根据所述判断结果,将所述样本集群中的所有样本集划分为少数类样本集群和多数类样本集群,其中,所述少数类样本集群为每个集的样本个数小于所述初始样本平均数的集群,所述多数类样本集群为每个集的样本个数大于所述初始样本平均数的集群;
计算所述少数类样本集群中每个样本集的样本个数分别与所述初始样本平均数的比例值,并将所述比例值与预置比例临界值进行比较;
若所述比例值均大于所述比例临界值,则将所述样本集群作为合格的训练样本集输出;
若存在所述比例值小于所述比例临界值,则对所述比例值对应的少数类样本集进行样本个数新增处理,直至所述少数类样本集群中每个样本集的样本个数与所述初始样本平均数的比例值均达到所述比例临界值时为止,将调整后的样本集群作为合格的训练样本集群输出;
将所述合格的训练样本集群输入分类算法模型中以进行分类运算。
本申请还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行所述样本数据优化方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (20)

  1. 一种样本数据优化方法,其中,包括:
    获取当前的待处理数据,并对所述待处理数据按照数据种类进行归类,基于归类后的数据生成样本集群,其中,所述样本集群包括至少两种不同的数据类型的样本集;
    统计所述样本集群中每个样本集所包含的样本个数,并判断每个样本集的样本个数是否大于初始样本平均数,得到判断结果,其中,所述初始样本平均数为所有样本集中样本个数的平均值;
    根据所述判断结果,将所述样本集群中的所有样本集划分为少数类样本集群和多数类样本集群,其中,所述少数类样本集群为每个集的样本个数小于所述初始样本平均数的集群,所述多数类样本集群为每个集的样本个数大于所述初始样本平均数的集群;
    计算所述少数类样本集群中每个样本集的样本个数分别与所述初始样本平均数的比例值,并将所述比例值与预置比例临界值进行比较;
    若所述比例值均大于所述比例临界值,则将所述样本集群作为合格的训练样本集输出;
    若存在所述比例值小于所述比例临界值,则对所述比例值对应的少数类样本集进行样本个数新增处理,直至所述少数类样本集群中每个样本集的样本个数与所述初始样本平均数的比例值均达到所述比例临界值时为止,将调整后的样本集群作为合格的训练样本集群输出;
    将所述合格的训练样本集群输入分类算法模型中以进行分类运算。
  2. 根据权利要求1所述的样本数据优化方法,其中,所述获取当前的待处理数据,并对所述待处理数据按照数据种类进行归类,基于归类后的数据生成样本集群,包括:
    判断所述待处理数据中的数据类型是否为数值格式;
    若所述数据类型为数值格式,则获取所述待处理数据中的数据,若所述数据类型不是数值格式,则将所述待处理数据转化为数值格式;
    读取数值格式的数据的种类,将种类相同的数据划分为同一类样本集。
  3. 根据权利要求1所述的样本数据优化方法,其中,所述对所述比例值对应的样本集进行样本个数新增处理,直至所述少数类样本集群中每个样本集的样本个数与所述初始样本平均数的比例值均达到所述比例临界值时为止,将调整后的样本集群作为合格的训练样本集群输出,包括:
    根据所述比例值,从所述少数类样本集群中获取与所述比例值对应的样本集,并计算所述样本集的聚类中心v;
    根据所述聚类中心v和预设的样本数据生成函数,计算所述样本集的新增数据P,其中所述预设的样本数据生成函为P=v+random(0,1)*(y-v),y为所述样本集中的样本数据,random(0,1)为0到1的随机数;
    将所述新增数据P加入对应的样本集中,得到所述训练样本集群。
  4. 根据权利要求3所述的样本数据优化方法,其中,所述根据所述比例值,从所述少数类样本集群中获取与所述比例值对应的样本集,并计算所述样本集的聚类中心v,包括:
    将与所述比例值对应的样本集划分为c个子集,其中,同一个子集中所包含的样本数据为同类样本数据;
    根据样本数据到各聚类中心的距离的加权平均函数,计算所述c个子集中每个样本数据到各聚类中心的距离;
    根据所述加权平均函数的特定条件下的约束条件,取所述距离的最小值,并输出与所述最小值对应的聚类中心v;
    其中,所述加权平均函数为:
    Figure PCTCN2020122309-appb-100001
    v i表示少数类样本集的第i类聚类中心,u ik表示不同样本对聚类中心的隶属度,||y k-v i||为不同样本至不同聚类中心的距离,m∈[1,+∞]为加权指数,c为子集数量。
  5. 根据权利要求4所述的样本数据优化方法,其中,所述根据所述加权平均函数的特定条件下的约束条件,取所述距离的最小值,并输出与所述最小值对应的聚类中心v,包括:
    令所述约束条件为
    Figure PCTCN2020122309-appb-100002
    根据所述约束条件,利用拉格朗日乘数法求解所述加权平均函数,得到隶属度u ik与第i类聚类中心v i的函数表达式;
    对所述隶属度和第i类聚类中心的函数表达式进行循环迭代处理,得到第a类聚类中心v a,并判断第a类聚类中心v a与第a-1类聚类中心v a-1之间的距离是否大于预设的循环停止临界值;
    若否,则将聚类中心v a作为所述聚类中心v输出;
    若是,则对所述隶属度和第i类聚类中心的函数表达式进行二次循环迭代处理,直到所述距离不大于预设的循环停止临界值为止,输出所述聚类中心v。
  6. 根据权利要求5所述的样本数据优化方法,其中,所述则对所述隶属度和第i类聚类中心的函数表达式进行二次循环迭代处理,直到所述距离不大于预设的循环停止临界值为止,输出所述聚类中心v,包括:
    获取初始化的第a类聚类中心v a
    将所述第a类聚类中心v a代入所述隶属度的函数表达式获得隶属度u ak
    将所述隶属度u ak代入所述第i类聚类中心的函数表达式,获得第a+1类聚类中心v a+1
  7. 根据权利要求1所述的样本数据优化方法,其中,在所述对所述比例值对应的少数类样本集进行样本个数新增处理,直至所述少数类样本集群中每个样本集的样本个数与所述初始样本平均数的比例值均达到所述比例临界值时为止,将调整后的样本集群作为合格的训练样本集群输出之后,还包括:
    根据所述训练样本集群生成决策树分类器;
    分别对所述训练样本集群中样本集使用随机且有放回地抽取,将选中的样本对应的生成第一抽取样本集群,将每个样本集中未被选中的样本生成对应的第二抽取样本集群;
    判断所述第一抽取样本集群中样本集的样本数量是否小于对应的所述训练样本集群中样本集的样本数量;
    若是,分别对所述第一抽取样本集群中样本集进行预测,对预测的每个结果进行判断并计算出对应的AUC值,当所有的AUC值达到预置阈值时,确认所述决策树分类器合格;
    若否,分别对所述第二抽取样本集群中样本集进行预测,计算每个预测结果的准确率,每个所述准确率均达到预置阈值时,确认所述决策树分类器合格。
  8. 一种样本数据优化设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现如下步骤:
    获取当前的待处理数据,并对所述待处理数据按照数据种类进行归类,基于归类后的数据生成样本集群,其中,所述样本集群包括至少两种不同的数据类型的样本集;
    统计所述样本集群中每个样本集所包含的样本个数,并判断每个样本集的样本个数是否大于初始样本平均数,得到判断结果,其中,所述初始样本平均数为所有样本集中样本个数的平均值;
    根据所述判断结果,将所述样本集群中的所有样本集划分为少数类样本集群和多数类样本集群,其中,所述少数类样本集群为每个集的样本个数小于所述初始样本平均数的集群,所述多数类样本集群为每个集的样本个数大于所述初始样本平均数的集群;
    计算所述少数类样本集群中每个样本集的样本个数分别与所述初始样本平均数的比例值,并将所述比例值与预置比例临界值进行比较;
    若所述比例值均大于所述比例临界值,则将所述样本集群作为合格的训练样本集输出;
    若存在所述比例值小于所述比例临界值,则对所述比例值对应的少数类样本集进行样本个数新增处理,直至所述少数类样本集群中每个样本集的样本个数与所述初始样本平均数的比例值均达到所述比例临界值时为止,将调整后的样本集群作为合格的训练样本集群输出;
    将所述合格的训练样本集群输入分类算法模型中以进行分类运算。
  9. 根据权利要求8所述的样本数据优化设备,所述处理器执行所述计算机程序时还实现以下步骤:
    判断所述待处理数据中的数据类型是否为数值格式;
    若所述数据类型为数值格式,则获取所述待处理数据中的数据,若所述数据类型不是数值格式,则将所述待处理数据转化为数值格式;
    读取数值格式的数据的种类,将种类相同的数据划分为同一类样本集。
  10. 根据权利要求8所述的样本数据优化设备,所述处理器执行所述计算机程序时还实现以下步骤:
    根据所述比例值,从所述少数类样本集群中获取与所述比例值对应的样本集,并计算所述样本集的聚类中心v;
    根据所述聚类中心v和预设的样本数据生成函数,计算所述样本集的新增数据P,其中所述预设的样本数据生成函为P=v+random(0,1)*(y-v),y为所述样本集中的样本数据,random(0,1)为0到1的随机数;
    将所述新增数据P加入对应的样本集中,得到所述训练样本集群。
  11. 根据权利要求10所述的样本数据优化设备,所述处理器执行所述计算机程序时还实现以下步骤:
    将与所述比例值对应的样本集划分为c个子集,其中,同一个子集中所包含的样本数据为同类样本数据;
    根据样本数据到各聚类中心的距离的加权平均函数,计算所述c个子集中每个样本数据到各聚类中心的距离;
    根据所述加权平均函数的特定条件下的约束条件,取所述距离的最小值,并输出与所述最小值对应的聚类中心v;
    其中,所述加权平均函数为:
    Figure PCTCN2020122309-appb-100003
    v i表示少数类样本集的第i类聚类中心,u ik表示不同样本对聚类中心的隶属度,||y k-v i||为不同样本至不同聚类中心的距离,m∈[1,+∞]为加权指数,c为子集数量。
  12. 根据权利要求11所述的样本数据优化设备,所述处理器执行所述计算机程序时还实现以下步骤:
    令所述约束条件为
    Figure PCTCN2020122309-appb-100004
    根据所述约束条件,利用拉格朗日乘数法求解所述加权平均函数,得到隶属度u ik与第i类聚类中心v i的函数表达式;
    对所述隶属度和第i类聚类中心的函数表达式进行循环迭代处理,得到第a类聚类中心v a,并判断第a类聚类中心v a与第a-1类聚类中心v a-1之间的距离是否大于预设的循环停止临界值;
    若否,则将聚类中心v a作为所述聚类中心v输出;
    若是,则对所述隶属度和第i类聚类中心的函数表达式进行二次循环迭代处理,直到所述距离不大于预设的循环停止临界值为止,输出所述聚类中心v。
  13. 根据权利要求12所述的样本数据优化设备,所述处理器执行所述计算机程序时还实现以下步骤:
    获取初始化的第a类聚类中心v a
    将所述第a类聚类中心v a代入所述隶属度的函数表达式获得隶属度u ak
    将所述隶属度u ak代入所述第i类聚类中心的函数表达式,获得第a+1类聚类中心v a+1
  14. 根据权利要求8所述的样本数据优化设备,所述处理器执行所述计算机程序时还实现以下步骤:
    根据所述训练样本集群生成决策树分类器;
    分别对所述训练样本集群中样本集使用随机且有放回地抽取,将选中的样本对应的生成第一抽取样本集群,将每个样本集中未被选中的样本生成对应的第二抽取样本集群;
    判断所述第一抽取样本集群中样本集的样本数量是否小于对应的所述训练样本集群中样本集的样本数量;
    若是,分别对所述第一抽取样本集群中样本集进行预测,对预测的每个结果进行判断并计算出对应的AUC值,当所有的AUC值达到预置阈值时,确认所述决策树分类器合格;
    若否,分别对所述第二抽取样本集群中样本集进行预测,计算每个预测结果的准确率,每个所述准确率均达到预置阈值时,确认所述决策树分类器合格。
  15. 一种计算机可读存储介质,所述计算机可读存储介质中存储计算机指令,当所述计算机指令在计算机上运行时,使得计算机执行如下步骤:
    获取当前的待处理数据,并对所述待处理数据按照数据种类进行归类,基于归类后的 数据生成样本集群,其中,所述样本集群包括至少两种不同的数据类型的样本集;
    统计所述样本集群中每个样本集所包含的样本个数,并判断每个样本集的样本个数是否大于初始样本平均数,得到判断结果,其中,所述初始样本平均数为所有样本集中样本个数的平均值;
    根据所述判断结果,将所述样本集群中的所有样本集划分为少数类样本集群和多数类样本集群,其中,所述少数类样本集群为每个集的样本个数小于所述初始样本平均数的集群,所述多数类样本集群为每个集的样本个数大于所述初始样本平均数的集群;
    计算所述少数类样本集群中每个样本集的样本个数分别与所述初始样本平均数的比例值,并将所述比例值与预置比例临界值进行比较;
    若所述比例值均大于所述比例临界值,则将所述样本集群作为合格的训练样本集输出;
    若存在所述比例值小于所述比例临界值,则对所述比例值对应的少数类样本集进行样本个数新增处理,直至所述少数类样本集群中每个样本集的样本个数与所述初始样本平均数的比例值均达到所述比例临界值时为止,将调整后的样本集群作为合格的训练样本集群输出;
    将所述合格的训练样本集群输入分类算法模型中以进行分类运算。
  16. 根据权利要求15所述的计算机可读存储介质,当所述计算机指令在计算机上运行时,使得计算机还执行以下步骤:
    判断所述待处理数据中的数据类型是否为数值格式;
    若所述数据类型为数值格式,则获取所述待处理数据中的数据,若所述数据类型不是数值格式,则将所述待处理数据转化为数值格式;
    读取数值格式的数据的种类,将种类相同的数据划分为同一类样本集。
  17. 根据权利要求15所述的计算机可读存储介质,当所述计算机指令在计算机上运行时,使得计算机还执行以下步骤:
    根据所述比例值,从所述少数类样本集群中获取与所述比例值对应的样本集,并计算所述样本集的聚类中心v;
    根据所述聚类中心v和预设的样本数据生成函数,计算所述样本集的新增数据P,其中所述预设的样本数据生成函为P=v+random(0,1)*(y-v),y为所述样本集中的样本数据,random(0,1)为0到1的随机数;
    将所述新增数据P加入对应的样本集中,得到所述训练样本集群。
  18. 根据权利要求17所述的计算机可读存储介质,当所述计算机指令在计算机上运行时,使得计算机还执行以下步骤:
    将与所述比例值对应的样本集划分为c个子集,其中,同一个子集中所包含的样本数据为同类样本数据;
    根据样本数据到各聚类中心的距离的加权平均函数,计算所述c个子集中每个样本数据到各聚类中心的距离;
    根据所述加权平均函数的特定条件下的约束条件,取所述距离的最小值,并输出与所述最小值对应的聚类中心v;
    其中,所述加权平均函数为:
    Figure PCTCN2020122309-appb-100005
    v i表示少数类样本集的第i类聚类中心,u ik表示不同样本对聚类中心的隶属度,||y k-v i||为不同样本至不同聚类中心的距离,m∈[1,+∞]为加权指数,c为子集数量。
  19. 根据权利要求18所述的计算机可读存储介质,当所述计算机指令在计算机上运行执行以下步骤时,使得计算机还执行以下步骤:
    令所述约束条件为
    Figure PCTCN2020122309-appb-100006
    根据所述约束条件,利用拉格朗日乘数法求解所述加权平均函数,得到隶属度u ik与第i类聚类中心v i的函数表达式;
    对所述隶属度和第i类聚类中心的函数表达式进行循环迭代处理,得到第a类聚类中心v a,并判断第a类聚类中心v a与第a-1类聚类中心v a-1之间的距离是否大于预设的循环停止临界值;
    若否,则将聚类中心v a作为所述聚类中心v输出;
    若是,则对所述隶属度和第i类聚类中心的函数表达式进行二次循环迭代处理,直到所述距离不大于预设的循环停止临界值为止,输出所述聚类中心v。
  20. 一种样本数据优化装置,其中,所述样本数据优化装置包括:
    获取模块,用于获取当前的待处理数据,并对所述待处理数据按照数据种类进行归类,基于归类后的数据生成样本集群,其中,所述样本集群包括至少两种不同的数据类型的样本集;
    判断模块,用于统计所述样本集群中每个样本集所包含的样本个数,并判断每个样本集的样本个数是否大于初始样本平均数,得到判断结果,其中,所述初始样本平均数为所有样本集中样本个数的平均值;
    划分模块,用于根据所述判断结果,将所述样本集群中的所有样本集划分为少数类样本集群和多数类样本集群,其中,所述少数类样本集群为每个集的样本个数小于所述初始样本平均数的集群,所述多数类样本集群为每个集的样本个数大于所述初始样本平均数的集群;
    比较模块,用于计算所述少数类样本集群中每个样本集的样本个数分别与所述初始样本平均数的比例值,并将所述比例值与预置比例临界值进行比较;
    标记模块,用于若所述比例值均大于所述比例临界值,则将所述样本集群作为合格的训练样本集输出;
    样本新增模块,用于若存在所述比例值小于所述比例临界值,则对所述比例值对应的少数类样本集进行样本个数新增处理,直至所述少数类样本集群中每个样本集的样本个数与所述初始样本平均数的比例值均达到所述比例临界值时为止,将调整后的样本集群作为合格的训练样本集群输出。
PCT/CN2020/122309 2020-03-26 2020-10-21 样本数据优化方法、装置、设备及存储介质 WO2021189830A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010222195.X 2020-03-26
CN202010222195.XA CN111539451B (zh) 2020-03-26 2020-03-26 样本数据优化方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
WO2021189830A1 true WO2021189830A1 (zh) 2021-09-30

Family

ID=71970094

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2020/122309 WO2021189830A1 (zh) 2020-03-26 2020-10-21 样本数据优化方法、装置、设备及存储介质

Country Status (2)

Country Link
CN (1) CN111539451B (zh)
WO (1) WO2021189830A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117789038A (zh) * 2024-02-26 2024-03-29 聊城莱柯智能机器人有限公司 一种基于机器学习的数据处理与识别模型的训练方法
CN118070138A (zh) * 2024-04-22 2024-05-24 贵州大学 不平衡样本下汽轮机转子故障诊断方法、存储介质和设备

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111539451B (zh) * 2020-03-26 2023-08-15 平安科技(深圳)有限公司 样本数据优化方法、装置、设备及存储介质
CN112465020B (zh) * 2020-11-25 2023-04-07 创新奇智(合肥)科技有限公司 训练数据集的生成方法及装置、电子设备、存储介质
CN112766394B (zh) * 2021-01-26 2024-03-12 维沃移动通信有限公司 建模样本生成方法及装置
CN114626483A (zh) * 2022-03-30 2022-06-14 北京爱奇艺科技有限公司 一种地标图像生成方法及装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107330477A (zh) * 2017-07-24 2017-11-07 南京邮电大学 一种针对非均衡数据分类的改进smote再抽样方法
EP3355244A1 (en) * 2017-01-26 2018-08-01 AGT International GmbH Data fusion and classification with imbalanced datasets
CN108460421A (zh) * 2018-03-13 2018-08-28 中南大学 不平衡数据的分类方法
CN108491474A (zh) * 2018-03-08 2018-09-04 平安科技(深圳)有限公司 一种数据分类方法、装置、设备及计算机可读存储介质
CN109145937A (zh) * 2018-06-25 2019-01-04 北京达佳互联信息技术有限公司 一种模型训练的方法及装置
CN109376752A (zh) * 2018-08-28 2019-02-22 北京邮电大学 一种基于不平衡数据集的ptm-wknn分类方法和装置
CN110674846A (zh) * 2019-08-29 2020-01-10 南京理工大学 基于遗传算法和k-means聚类的不平衡数据集过采样方法
US20200050964A1 (en) * 2018-08-07 2020-02-13 Commissariat A L'energie Atomique Et Aux Energies Alternatives Device and method for multi-class classification by machine learning
CN111539451A (zh) * 2020-03-26 2020-08-14 平安科技(深圳)有限公司 样本数据优化方法、装置、设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110443281B (zh) * 2019-07-05 2023-09-26 重庆信科设计有限公司 基于hdbscan聚类的文本分类自适应过采样方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3355244A1 (en) * 2017-01-26 2018-08-01 AGT International GmbH Data fusion and classification with imbalanced datasets
CN107330477A (zh) * 2017-07-24 2017-11-07 南京邮电大学 一种针对非均衡数据分类的改进smote再抽样方法
CN108491474A (zh) * 2018-03-08 2018-09-04 平安科技(深圳)有限公司 一种数据分类方法、装置、设备及计算机可读存储介质
CN108460421A (zh) * 2018-03-13 2018-08-28 中南大学 不平衡数据的分类方法
CN109145937A (zh) * 2018-06-25 2019-01-04 北京达佳互联信息技术有限公司 一种模型训练的方法及装置
US20200050964A1 (en) * 2018-08-07 2020-02-13 Commissariat A L'energie Atomique Et Aux Energies Alternatives Device and method for multi-class classification by machine learning
CN109376752A (zh) * 2018-08-28 2019-02-22 北京邮电大学 一种基于不平衡数据集的ptm-wknn分类方法和装置
CN110674846A (zh) * 2019-08-29 2020-01-10 南京理工大学 基于遗传算法和k-means聚类的不平衡数据集过采样方法
CN111539451A (zh) * 2020-03-26 2020-08-14 平安科技(深圳)有限公司 样本数据优化方法、装置、设备及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117789038A (zh) * 2024-02-26 2024-03-29 聊城莱柯智能机器人有限公司 一种基于机器学习的数据处理与识别模型的训练方法
CN117789038B (zh) * 2024-02-26 2024-05-10 聊城莱柯智能机器人有限公司 一种基于机器学习的数据处理与识别模型的训练方法
CN118070138A (zh) * 2024-04-22 2024-05-24 贵州大学 不平衡样本下汽轮机转子故障诊断方法、存储介质和设备

Also Published As

Publication number Publication date
CN111539451A (zh) 2020-08-14
CN111539451B (zh) 2023-08-15

Similar Documents

Publication Publication Date Title
WO2021189830A1 (zh) 样本数据优化方法、装置、设备及存储介质
CN108363810B (zh) 一种文本分类方法及装置
WO2022126810A1 (zh) 文本聚类方法
Nguyen et al. Unbiased Feature Selection in Learning Random Forests for High‐Dimensional Data
Lange et al. Stability-based model selection
CN109615014A (zh) 一种基于kl散度优化的数据分类系统与方法
CN112639842A (zh) 使用机器学习模型来抑制偏差数据
WO2018006631A1 (zh) 一种用户等级自动划分方法及系统
Wang et al. An improved k NN text classification method
CN111144106A (zh) 一种不平衡数据集下的两阶段文本特征选择方法
CN107579846A (zh) 一种云计算故障数据检测方法及系统
CN109508374A (zh) 基于遗传算法的文本数据半监督聚类方法
CN110929028A (zh) 一种日志分类方法及装置
WO2020024444A1 (zh) 人群绩效等级识别方法、装置、存储介质及计算机设备
CN113569920A (zh) 基于自动编码的第二近邻异常检测方法
CN115801374A (zh) 网络入侵数据分类方法、装置、电子设备及存储介质
CN111309577A (zh) 一种面向Spark的批处理应用执行时间预测模型构建方法
CN115344693A (zh) 一种基于传统算法和神经网络算法融合的聚类方法
CN109460872B (zh) 一种面向移动通信用户流失不平衡数据预测方法
CN114417095A (zh) 一种数据集划分方法及装置
US7548856B2 (en) Systems and methods for discriminative density model selection
CN111581984A (zh) 一种基于任务贡献度的语句表示方法
He et al. Local Similarity‐Based Fuzzy Multiple Kernel One‐Class Support Vector Machine
CN111950652A (zh) 一种基于相似度的半监督学习数据分类算法
CN111666765A (zh) 一种基于k-means文本聚类的诈骗话题分析方法和系统

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20927497

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20927497

Country of ref document: EP

Kind code of ref document: A1