WO2020143305A1

WO2020143305A1 - 群体信息分类方法、装置、计算机设备和存储介质

Info

Publication number: WO2020143305A1
Application number: PCT/CN2019/117529
Authority: WO
Inventors: 邓悦; 金戈; 徐亮
Original assignee: 平安科技（深圳）有限公司
Priority date: 2019-01-07
Filing date: 2019-11-12
Publication date: 2020-07-16
Also published as: CN109858525A

Abstract

一种群体信息分类方法，包括：接收分类任务，分类任务携带群体标识；根据群体标识获取群体信息，识别群体信息对应的第一连续变量以及离散变量；对离散变量进行连续化处理，得到群体信息对应的第二连续变量；将第一连续变量以及第二连续变量进行标准化处理，得到群体信息对应的标准化变量；将群体信息对应的标准化变量进行聚类，得到群体信息对应的分类结果。

Description

群体信息分类方法、装置、计算机设备和存储介质

本申请要求于2019年1月7日提交中国专利局，申请号为2019100126040，申请名称为“群体信息分类方法、装置、计算机设备和存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及一种群体信息分类方法、装置、计算机设备和存储介质。

背景技术

企业针对不同的业务需求，需要通过对群体进行类型划分，以此了解不同群体的特征。在进行类型划分时，涉及到的信息包括与群体信息对应的连续变量和离散变量。在传统方式中，通过度量连续变量两两之间的距离及离散变量两两之间的距离，将度量出的两种类型变量的距离进行权重划分，得到最终的聚类结果，从而得到群体分类结果。但是，对于权重的大小并不能准确地进行计算，导致权重的不同使群体分类结果不准确。

发明内容

根据本申请公开的各种实施例，提供一种能够提高群体信息对应的分类结果的准确性的群体信息分类方法、装置、计算机设备和存储介质。

一种群体信息分类方法，包括：

接收分类任务，所述分类任务携带群体标识；

根据所述群体标识获取群体信息，识别所述群体信息对应的第一连续变量以及离散变量；

对所述离散变量进行连续化处理，得到所述群体信息对应的第二连续变量；

将所述第一连续变量以及第二连续变量进行标准化处理，得到所述群体信息对应的标准化变量；及

将所述群体信息对应的标准化变量进行聚类，得到所述群体信息对应的分类结果。

一种群体信息分类装置，包括：

通信模块，用于接收分类任务，所述分类任务携带群体标识；

变量识别模块，用于根据所述群体标识获取群体信息，识别所述群体信息对应的第一连续变量以及离散变量；

变量处理模块，用于对所述离散变量进行连续化处理，得到所述群体信息对应的第二连续变量；将所述第一连续变量以及第二连续变量进行标准化处理，得到所述群体信息对应的准化变量；及

聚类模块，用于将所述群体信息对应的标准化变量进行聚类，得到所述群体信息对应的分类结果。

一种计算机设备，包括存储器及一个或多个处理器，所述存储器中储存有计算机可读指令，所述计算机可读指令被所述一个或多个处理器执行时，使得所述一个或多个处理器执行以下步骤：

接收分类任务，所述分类任务携带群体标识；

一个或多个存储有计算机可读指令的非易失性计算机可读存储介质，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行以下步骤：

接收分类任务，所述分类任务携带群体标识；

本申请的一个或多个实施例的细节在下面的附图和描述中提出。本申请的其它特征和优点将从说明书、附图以及权利要求书变得明显。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为一个或多个实施例中群体信息分类方法的应用场景图。

图2为一个或多个实施例中群体信息分类方法的流程示意图。

图3为一个或多个实施例中对离散变量进行连续化处理步骤的流程示意图。

图4为一个或多个实施例中群体信息分类装置的框图。

图5为一个或多个实施例中计算机设备的框图。

具体实施方式

为了使本申请的技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的群体信息分类方法，可以应用于如图1所示的应用场景中。终端102通过网络与服务器104进行通信。服务器104接收终端102上传的分类任务，该分类任务携带群体标识。服务器104根据群体标识获取群体信息，识别群体信息对应的第一连续变量以及离散变量。服务器104对离散变量进行连续化处理，得到群体信息对应的第二连续变量。服务器104对第一连续变量以及第二连续变量进行标准化处理，得到群体信息对应的标准化变量。服务器104将群体信息对应的标准化变量进行聚类，得到群体信息对应的分类结果，能够在不需要设置权重的情况下能够对离散变量进行距离度量，避免不同类型变量之间的距离权重划分对群体分类结果的影响，提高群体信息对应的分类结果的准确性。终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在其中一个实施例中，如图2所示，提供了一种群体信息分类方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤202，接收分类任务，分类任务携带群体标识。

步骤204，根据群体标识获取群体信息，识别群体信息对应的第一连续变量以及离散变量。

步骤206，对离散变量进行连续化处理，得到群体信息对应的第二连续变量。

服务器接收终端上传的分类任务，对该分类任务进行解析，得到分类任务携带的群体标识。服务器根据群体标识获取对应的群体信息。群体信息可以是预设范围内的一定数量人群的信息。例如，2018年10月份的员工绩效信息。服务器识别群体信息对应的变量。变量包括连续变量以及离散变量。连续变量包括第一连续变量以及第二连续变量。第一连续变量可以通过群体信息直接进行识别得到。第二连续变量需要通过对离散变量进行转化处理才能得到。第一连续变量可以是用数值来进行表示的信息。离散变量可以是用多个维度来进行表示的信息。

例如，第一连续变量可以是参加课程的次数、考勤天数、入职年限等。离散变量可以是培训成绩、性别等。服务器在识别群体信息对应的变量后，可对群体信息对应的变量中的离散变量进行连续化处理，服务器在群体信息中获取与离散变量对应的多个维度，对离散变量对应的多个维度进行编码，得到离散变量对应的第二连续变量，此时群体信息对应的变量均为连续变量。

例如，服务器接收终端上传的员工群体分类任务，对该分类任务进行解析，得到分类任务携带的员工群体标识。服务器根据员工群体标识获取每个员工的员工标识，根据员工标识获取员工绩效信息，所有员工标识对应的绩效信息可以称为群体信息，服务器对群体信息进行识别，得到群体信息对应的第一连续变量以及离散变量。第一连续变量可以是参加课程的次数、考勤天数、入职年限等。离散变量可以是培训成绩、性别等。服务器对培训成绩进行连续化处理，得到培训成绩对应的连续变量(是否优秀，是否良好，是否合格，是否不合格)。服务器对性别进行连续化处理，得到性别对应的连续变量(是否男，是否女)。

步骤208，将第一连续变量以及第二连续变量进行标准化处理，得到群体信息对应的标准化变量。

服务器在对离散变量进行连续化处理，得到群体信息对应的第二连续变量后，可将第一连续变量以及第二连续变量进行标准化处理。具体地，服务器计算群体信息对应的变量的均值及标准差，根据群体信息对应的变量、群体信息对应的变量的均值及标准差、以及预设关系，得到群体信息对应的标准化变量。变量包括连续变量以及离散变量。连续变量包括第一连续变量以及第二连续变量。预设关系可以是先将变量减去均值，再除以标准差。

步骤210，将群体信息对应的标准化变量进行聚类，得到群体信息对应的分类结果。

服务器在将第一连续变量以及第二连续变量进行标准化处理，得到群体信息对应的标准化变量后，可将群体信息对应的标准化变量进行聚类，得到群体信息对应的分类结果。具体地，服务器对群体信息对应的标准化变量进行距离度量，根据度量后的标准化变量之间的距离对标准化变量进行聚类，得到多种标准化变量类型。将群体信息对应的群体分为多种群体类型。根据多种标准化变量类型获取对应的群体信息对应的分类结果，该分类结果中包括多种群体类型每种标准化变量类型对应一类群体类型。

例如，企业为了了解员工绩效，需要对员工群体进行类型划分，以此了解不同绩效级别以及同一绩效级别的员工群体的特征。服务器接收终端上传的员工群体分类任务，该分类任务中携带员工群体标识，服务器根据员工群体标识获取每个员工的员工标识，根据员工的员工标识获取员工绩效信息，将所有员工标识对应的绩效信息称为群体信息，服务器对群体信息进行识别，得到群体信息对应的第一连续变量以及离散变量。服务器对该群体信息对应的离散变量进行连续化处理，得群体信息对应的第二连续变量。服务器将第一连续变量以及第二连续变量进行标准化处理，得到群体信息对应的标准化变量。服务器将群体信息对应的标准化变量进行聚类，得到多种标准化变量类型，从而得到群体信息对应的分类结果，该分类结果可以是不同绩效级别的多个员工类型，也可以是同一绩效级别的多个员工类型。

在本实施例中，服务器通过识别群体信息对应的第一连续变量以及离散变量，对离散变量进行连续化处理，得到群体信息对应的第二连续变量。将第一连续变量以及第二连续变量进行标准化处理，得到群体信息对应的标准化变量，再标准化变量进行聚类，得到群体信息对应的分类结果。相对于传统方式，在不需要设置权重的情况下能够对群体信息对应的离散变量进行距离度量，避免不同类型变量之间的距离权重划分对群体分类结果的影响，能够有效提高群体信息对应的分类结果的准确性。

在其中一个实施例中，如图3所示，对离散变量进行连续化处理的步骤包括：

步骤302，在群体信息中获取与离散变量对应的多个维度。

步骤304，对离散变量对应的多个维度进行编码，得到离散变量对应的第二连续变量。

服务器在识别群体信息对应的第一连续变量以及离散变量后，可在群体信息中获取与离散变量对应的多个维度。例如，离散变量可以是培训成绩、性别等。培训成绩对应四个维度(优秀，良好，合格，不合格)，性别对应两个维度(男，女)。

服务器在获取与离散变量对应的多个维度后，可对离散变量对应的多个维度进行编码，得到离散变量对应的第二连续变量。编码方式可以是one-hot(独热)编码。服务器对离散变量进行编码后，可将离散变量对应的多个维度用数值来进行表示，从而将离散变量转化为多个维度的连续变量，在不需要设置权重的情况下，也可以对离散变量之间的距离进行度量。

例如，可以将所有员工标识对应的绩效信息称为群体信息，该群体信息对应的离散变量可以是培训成绩，培训成绩对应四个维度(优秀，良好，合格，不合格)，对培训成绩进行编码，得到四个连续变量(是否优秀，是否良好，是否合格，是否不合格)，四个连续变量的取值均为0或1，“是”对应的取值为1，“否”对应的取值为0。若培训情况为优秀，则离散变量对应的连续变量为[1,0,0,0]。若培训情况为合格，则离散变量对应的连续变量为[0,0,1,0]。

再如，该群体信息对应的离散变量可以是性别，性别对应两个维度(男，女)，对性别进行编码，得到两个连续变量(是否男，是否女)，两个连续变量的取值均为0或1，“是”对应的取值为1，“否”对应的取值为0。若性别是男，则离散变量对应的连续变量为[1，0]。若性别是女，则离散变量对应的连续变量为[0，1]。

在本实施例中，服务器在人群信息中获取与离散变量对应的多个维度，对离散变量对应的多个维度进行编码，能够将离散变量转化为连续变量，从而进行距离度量，不需要将离散变量以及连续变量两种类型变量的距离进行权重划分，有效提高了群体信息对应的分类结果的准确性。

在其中一个实施例中，对离散变量对应的多个维度进行编码，得到群体信息对应的第二连续变量，包括：对离散变量对应的多个维度进行编码，得到每个维度的数值；根据离散变量对应的多个维度的数值得到群体信息对应的第二连续变量。

服务器对离散变量进行编码，可将离散变量对应的多个维度用数值来进行表示，从而将离散变量转化为多个维度的连续变量，在不需要设置权重的情况下，也可以对离散变量之间的距离进行度量。

在其中一个实施例中，将第一连续变量以及第二连续变量进行标准化处理，得到群体信息对应的标准化变量包括：计算群体信息对应的第一连续变量以及第二连续变量的均值及标准差；根据第一连续变量以及第二连续变量、均值、标准差以及预设关系，得到群体信息对应的标准化变量。

服务器根据群体信息第一连续变量以及第二连续变量的均值、标准差以及预设关系，得到群体信息对应的标准化变量。预设关系可以是将第一连续变量以及第二连续变量减去均值，再除以标准差。服务器通过对第一连续变量以及第二连续变量进行标准化处理可以得到第一连续变量以及第二连续变量在所有变量中所占的权重，将所有变量的取值稳定在一个合适的范围内。可以将变量的范围稳定在[0,1]内，能够避免群体信息对应的分类结果受量纲大的变量的影响，导致群体分类结果不合理。例如，进行聚类的变量中包括年龄、收入(单位是人民币)、身高(单位米)、体重(单位千克)。由于收入的量纲远大于其他变量，通过对所有变量进行标准化处理，避免群体信息对应的分类结果只受收入的影响。

在本实施例中，服务器计算群体信息对应的第一连续变量以及第二连续变量的均值及标准差；根据第一连续变量以及第二连续变量、均值、标准差以及预设关系，得到群体信息对应的标准化变量。能够将所有变量的取值稳定在一个合适的范围内，有效避免了变量的量纲影响群体分类结果，进一步提高群体信息对应的分类结果的准确性。

在其中一个实施例中，将标准化处理后的第一连续变量以及第二连续变量进行聚类，得到群体信息对应的分类结果包括：对群体信息对应的标准化变量进行距离度量；根据度量后的标准化变量之间的距离对标准化变量进行聚类，得到多种标准化变量类型；根据多种标准化变量类型获取群体信息对应的分类结果。

服务器在对第一连续变量以及第二连续变量进行标准化处理后，可对第一连续变量以及第二连续变量进行距离度量，在第一连续变量以及第二连续变量中任意选择n个变量作为初始聚类中心，对于剩余的变量，则根据剩余变量与每个聚类中心变量之间的距离，来对剩余变量进行分类，与聚类中心变量距离越近的，表明变量之间的相似度越高，将该剩余变量分配给距离更近的聚类中心变量所代表的群体类型。每增加一个变量就计算获取的新聚类的聚类中心，即计算该新聚类中所有变量的均值。不断重复这一过程，知道聚类结果不再变化。经过聚类，得到多种标准化变量类型，从而得到群体信息对应的分类结果。

在本实施例中，服务器对标准化处理后的第一连续变量以及第二连续变量之间进行距离度量，根据标准化处理后的第一连续变量以及第二连续变量之间的距离对变量进行聚类，得到多种连续变量。根据聚类得到的多种连续变量，获取对应的群体分类结果，提高群体分类结果的准确性。

在其中一个实施例中，上述方法还包括：对群体信息对应的分类结果进行分析，得到多种群体类型的区别特征；将每种群体类型的区别特征与群体信息对应的分类结果中其他群体类型的相同区别特征进行特征值对比，得到每种群体类型的群体特征。

服务器根据度量的标准化变量之间的距离对标准化变量进行聚类，得到多种标准化变量类型，从而获取群体信息对应的分类结果，计算群体信息对应的分类结果中每种群体类型中连续变量的第一均值，计算群体信息对应的分类结果中其他群体类型中连续变量的第二均值。将第一均值与第二均值进行比较，再将第一均值与第二均值按照预设关系进行计算，得到多种群体类型的区别特征。预设关系可以是∣第一均值-第二均值∣/(第一均值+第二均值)。服务器将多种群体类型的区别特征的特征值的进行对比，从而得到每种群体类型的群体特征。

例如，将上述所有员工标识对应的绩效信息称为群体信息，通过对群体信息对应的第一连续变量与第二连续变量进行聚类，得到群体信息对应的分类结果，再对群体信息对应的分类结果进行分析，得到同一绩效级别中某种员工类型的区别特征有考试成绩和工作计划完成量。首先，将该种员工类型的考试成绩与其他类人群的考试成绩进行比较，如果考试成绩高于同一级别的其他员工类型的考试成绩，则表明该种员工类型的学习能力比较强，就可以得出该种员工类型的特征为善于学习，企业为了提高员工绩效，就可以通过对员工进行培训，提高员工的学习能力，从而提高员工绩效。再将该种员工类型的工作计划完成量与其他类人群的工作计划完成量进行比较，如果工作计划完成量高于同一级别的其他员工类型的工作计划完成量，则表明该种员工类型的特征为目标明确，自律能力强，计划完成的工作会在规定的时间内完成。企业为了提高员工绩效，也会注重设定目标，加强自律能力这一方面，提高员工绩效。

在本实施例中，服务器对群体分类结果进行分析，得到多类群体的区别特征，将每类群体的区别特征与群体分类结果中其他类群体的相同区别特征进行特征值对比，得到每类群体的群体特征。能够准确得到对每类群体的群体特征，根据每类群体的群体特征来适应不同的业务需求。

在其中一个实施例中，对群体信息对应的分类结果进行分析，得到多种群体类型的区别特征，包括：在群体信息对应的分类结果选取目标群体类型；根据群体信息对应的分类结果计算目标群体类型中连续变量的第一均值；根据群体信息对应的分类结果计算剩余群体类型中连续变量的第二均值；根据第一均值和第二均值计算得到目标群体类型的区别特征；重复对群体信息对应的分类结果进行分析的步骤，直至得到分类结果中所有群体类型的区别特征。

服务器可以在群体信息对应的分类结果选取一个目标群体类型，计算该目标群体类型中连续变量的第一均值。服务器进而计算群体信息对应的分类结果中剩余群体类型中连续变量的第二均值。服务器将第一均值与第二均值进行比较，再将第一均值与第二均值按照预设关系进行计算，从而得到目标群体类型的区别特征。预设关系可以是∣第一均值-第二均值∣/(第一均值+第二均值)。服务器在群体信息对应的分类结果中选取下一个目标群体类型，计算下一个目标群体类型中连续变量的第一均值。服务器进而计算群体信息对应的分类结果中剩余群体类型中连续变量的第二均值。服务器将第一均值与第二均值进行比较，再将第一均值与第二均值按照预设关系进行计算，从而得到下一个目标群体类型的区别特征。服务器通过重复上述对群体信息对应的分类结果进行分析的步骤，直至得到所有群体类型的区别特征。服务器通过计算目标群体类型对应的第一均值以及剩余群体类型对应的第二均值，能够准确计算目标群体类型的区别特征，有利于后续进一步分析每种群体类型的群体特征。

应该理解的是，虽然图2至3的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2至3中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在其中一个实施例中，如图4所示，提供了一种群体信息分类装置，包括：通信模块402、变量识别模块404、变量处理模块406、聚类模块408，其中：

通信模块402，用于接收分类任务，分类任务携带群体标识；

变量识别模块404，用于根据群体标识获取群体信息，识别群体信息对应的第一连续变量以及离散变量；

变量处理模块406，用于对离散变量进行连续化处理，得到群体信息对应的第二连续变量；将第一连续变量以及第二连续变量进行标准化处理，得到群体信息对应的准化变量；

聚类模块408，用于将群体信息对应的标准化变量进行聚类，得到群体信息对应的分类结果。

在其中一个实施例中，变量处理模块406用于在群体信息中获取与离散变量对应的多个维度；对离散变量对应的多个维度进行编码，得到群体信息对应的第二连续变量。

在其中一个实施例中，变量处理模块406还用于对离散变量对应的多个维度进行编码，得到每个维度的数值；根据离散变量对应的多个维度的数值得到群体信息对应的第二连续变量。

在其中一个实施例中，变量处理模块406还用于计算群体信息对应的第一连续变量以及第二连续变量的均值及标准差；根据第一连续变量以及第二连续变量、均值、标准差以及预设关系，得到群体信息对应的标准化变量。

在其中一个实施例中，聚类模块408用于对群体信息对应的标准化变量进行距离度量；根据度量后的标准化变量之间的距离对标准化变量进行聚类，得到多种标准化变量类型；根据多种标准化变量类型获取群体信息对应的分类结果。

在其中一个实施例中，上述装置还包括分析模块，该分析模块用于对所述群体信息对应的分类结果进行分析，得到多种群体类型的区别特征；将每种群体类型的区别特征与所述群体信息对应的分类结果中其他群体类型的相同区别特征进行特征值对比，得到每种群体类型的群体特征。

在其中一个实施例中，分析模块还用于在群体信息对应的分类结果选取目标群体类型；根据群体信息对应的分类结果计算目标群体类型中连续变量的第一均值；根据群体信息对应的分类结果计算剩余群体类型中连续变量的第二均值；根据第一均值和第二均值计算得到目标群体类型的区别特征；重复对群体信息对应的分类结果进行分析的步骤，直至得到分类结果中所有群体类型的区别特征。

关于群体信息分类装置的具体限定可以参见上文中对于群体信息分类方法的限定，在此不再赘述。上述群体信息分类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机可读指令和数据库。该内存储器为非易失性存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的数据库用于存储群体信息。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种群体信息分类方法。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在其中一个实施例中，提供了一种计算机设备，包括存储器及一个或多个处理器，存储器中存储有计算机可读指令，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述各个方法实施例中的步骤。

一个或多个存储有计算机可读指令的非易失性计算机可读存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述各个方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，所述的计算机可读指令可存储于一非易失性计算机可读取存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

一种群体信息分类方法，包括：

接收分类任务，所述分类任务携带群体标识；

根据所述群体标识获取群体信息，识别所述群体信息对应的第一连续变量以及离散变量；

对所述离散变量进行连续化处理，得到所述群体信息对应的第二连续变量；

将所述第一连续变量以及第二连续变量进行标准化处理，得到所述群体信息对应的标准化变量；及

将所述群体信息对应的标准化变量进行聚类，得到所述群体信息对应的分类结果。
根据权利要求1所述的方法，其特征在于，所述对所述离散变量进行连续化处理，包括：

在所述群体信息中获取与所述离散变量对应的多个维度；及

对所述离散变量对应的多个维度进行编码，得到所述群体信息对应的第二连续变量。
根据权利要求2所述的方法，其特征在于，所述对所述离散变量对应的多个维度进行编码，得到所述群体信息对应的第二连续变量，包括：

对所述离散变量对应的多个维度进行编码，得到每个维度的数值；及

根据所述离散变量对应的多个维度的数值得到所述群体信息对应的第二连续变量。
根据权利要求1所述的方法，其特征在于，所述将所述第一连续变量以及第二连续变量进行标准化处理，得到所述群体信息对应的标准化变量，包括：

计算所述群体信息对应的第一连续变量以及第二连续变量的均值及标准差；及

根据所述第一连续变量以及第二连续变量、均值、标准差以及预设关系，得到所述群体信息对应的标准化变量。
根据权利要求1所述的方法，其特征在于，所述将所述群体信息对应的标准化变量进行聚类，得到所述群体信息对应的分类结果，包括：

对所述群体信息对应的标准化变量进行距离度量；

根据度量后的标准化变量之间的距离对所述标准化变量进行聚类，得到多种标准化变量类型；及

根据所述多种标准化变量类型获取所述群体信息对应的分类结果。
根据权利要求1-5任意一项所述的方法，其特征在于，所述方法还包括：

对所述群体信息对应的分类结果进行分析，得到多种群体类型的区别特征；及

将每种群体类型的区别特征与所述群体信息对应的分类结果中其他群体类型的相同区别特征进行特征值对比，得到每种群体类型的群体特征。
根据权利要求5所述的方法，其特征在于，所述对所述群体信息对应的分类结果进行分析，得到多种群体类型的区别特征，包括：

在所述群体信息对应的分类结果选取目标群体类型；

根据所述群体信息对应的分类结果计算所述目标群体类型中连续变量的第一均值；

根据所述群体信息对应的分类结果计算剩余群体类型中连续变量的第二均值；

根据所述第一均值和第二均值计算得到所述目标群体类型的区别特征；

重复对群体信息对应的分类结果进行分析的步骤，直至得到所述分类结果中所有群体类型的区别特征。
一种群体信息分类装置，包括：

通信模块，用于接收分类任务，所述分类任务携带群体标识；

变量识别模块，用于根据所述群体标识获取群体信息，识别所述群体信息对应的第一连续变量以及离散变量；

变量处理模块，用于对所述离散变量进行连续化处理，得到所述群体信息对应的第二连续变量；将所述第一连续变量以及第二连续变量进行标准化处理，得到所述群体信息对应的准化变量；及

聚类模块，用于将所述群体信息对应的标准化变量进行聚类，得到所述群体信息对应的分类结果。
根据权利要求8所述的装置，其特征在于，所述变量处理模块用于在所述群体信息中获取与所述离散变量对应的多个维度；及对所述离散变量对应的多个维度进行编码，得到所述群体信息对应的第二连续变量。
根据权利要求9所述的装置，其特征在于，所述变量处理模块还用于对所述离散变量对应的多个维度进行编码，得到每个维度的数值；及根据所述离散变量对应的多个维度的数值得到所述群体信息对应的第二连续变量。
一种计算机设备，包括存储器及一个或多个处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述一个或多个处理器执行时，使得所述一个或多个处理器执行以下步骤：

接收分类任务，所述分类任务携带群体标识；

根据所述群体标识获取群体信息，识别所述群体信息对应的第一连续变量以及离散变量；

对所述离散变量进行连续化处理，得到所述群体信息对应的第二连续变量；

将所述第一连续变量以及第二连续变量进行标准化处理，得到所述群体信息对应的标准化变量；及

将所述群体信息对应的标准化变量进行聚类，得到所述群体信息对应的分类结果。
根据权利要求11所述的计算机设备，其特征在于，所述处理器执行所述计算机可读指令时还执行以下步骤：在所述群体信息中获取与所述离散变量对应的多个维度；及对所述离散变量对应的多个维度进行编码，得到所述群体信息对应的第二连续变量。
根据权利要求12所述的计算机设备，其特征在于，所述处理器执行所述计算机可读指令时还执行以下步骤：对所述离散变量对应的多个维度进行编码，得到每个维度的数值；及根据所述离散变量对应的多个维度的数值得到所述群体信息对应的第二连续变量。
根据权利要求11所述的计算机设备，其特征在于，所述处理器执行所述计算机可读指令时还执行以下步骤：计算所述群体信息对应的第一连续变量以及第二连续变量的均值及标准差；及根据所述第一连续变量以及第二连续变量、均值、标准差以及预设关系，得到所述群体信息对应的标准化变量。
根据权利要求11所述的计算机设备，其特征在于，所述处理器执行所述计算机可读指令时还执行以下步骤：对所述群体信息对应的标准化变量进行距离度量；根据度量后的标准化变量之间的距离对所述标准化变量进行聚类，得到多种标准化变量类型；及根据所述多种标准化变量类型获取所述群体信息对应的分类结果。
一个或多个存储有计算机可读指令的非易失性计算机可读存储介质，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行以下步骤：

接收分类任务，所述分类任务携带群体标识；

根据所述群体标识获取群体信息，识别所述群体信息对应的第一连续变量以及离散变量；

对所述离散变量进行连续化处理，得到所述群体信息对应的第二连续变量；

将所述第一连续变量以及第二连续变量进行标准化处理，得到所述群体信息对应的标准化变量；及

将所述群体信息对应的标准化变量进行聚类，得到所述群体信息对应的分类结果。
根据权利要求16所述的存储介质，其特征在于，所述计算机可读指令被所述处理器执行时还执行以下步骤：在所述群体信息中获取与所述离散变量对应的多个维度；及对所述离散变量对应的多个维度进行编码，得到所述群体信息对应的第二连续变量。
根据权利要求17所述的存储介质，其特征在于，所述计算机可读指令被所述处理器执行时还执行以下步骤：对所述离散变量对应的多个维度进行编码，得到每个维度的数值；及根据所述离散变量对应的多个维度的数值得到所述群体信息对应的第二连续变量。
根据权利要求16所述的存储介质，其特征在于，所述计算机可读指令被所述处理器执行时还执行以下步骤：计算所述群体信息对应的第一连续变量以及第二连续变量的均值及标准差；及根据所述第一连续变量以及第二连续变量、均值、标准差以及预设关系，得到所述群体信息对应的标准化变量。
根据权利要求16所述的存储介质，其特征在于，所述计算机可读指令被所述处理器执行时还执行以下步骤：对所述群体信息对应的标准化变量进行距离度量；根据度量后的标准化变量之间的距离对所述标准化变量进行聚类，得到多种标准化变量类型；及根据所述多种标准化变量类型获取所述群体信息对应的分类结果。