WO2019223082A1

WO2019223082A1 - 客户类别分析方法、装置、计算机设备和存储介质

Info

Publication number: WO2019223082A1
Application number: PCT/CN2018/095482
Authority: WO
Inventors: 金戈; 徐亮; 肖京
Original assignee: 平安科技（深圳）有限公司
Priority date: 2018-05-25
Filing date: 2018-07-12
Publication date: 2019-11-28
Also published as: CN108876444A

Abstract

一种客户类别分析方法、装置、计算机设备和存储介质，获取新客户的多条通道对应的数据进行分析，确保对每个人的评估更加准确，而且多条通道评估可以更加全面的评估新客户，避免因为单通道个人信息作假而产生评估偏差，准确得出新客户的客户类别，进而推荐适合新客户的产品，以提高推荐转售卖的效率。

Description

客户类别分析方法、装置、计算机设备和存储介质

本申请要求于2018年5月25日提交中国专利局、申请号为2018105457933，申请名称为“客户类别分析方法、装置、计算机设备和存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及到计算机领域，特别是涉及到一种客户类别分析方法、装置、计算机设备和存储介质。

背景技术

保险、投资理财的时候，会有相关的系统进行统计与计算，比如对客户进行分类等。现在业内通过单个通道对客户进行分类，即获取客户的单一通道信息，然后进行数据分析，最后将该客户划分到对应的客户类别中，由于数据是单一通到获取，如果该通道上的数据少，或者数据存在造假等，对客户类别分析结果的准确性影响非常大。

技术问题

本申请的主要目的为提供一种客户类别分析方法、装置、计算机设备和存储介质，旨在提高客户类别分析结果的准确性。

技术解决方案

为了实现所述发明目的，本申请提出首先提出一种客户类别分析方法，包括：

分别获取多条通道上与新客户相关的数据；

将每条通道获取的数据分别进行聚类处理，得到与所述多条通道一一对应的多组聚类数据；

将多组聚类数据形成稀疏矩阵，并通过协同过滤方法将所述稀疏矩阵补齐，形成对应所述新客户的第一向量矩阵；

将所述第一向量矩阵分别与预设的客户类别数据库中的多个第二向量矩阵进行相似度计算；其中，客户类别数据库中包括多个客户类别，以及与客户类别一一对应的第二向量矩阵；

将与所述第一向量矩阵相似度最高的第二向量矩阵对应的客户类别记为所述新客户的客户类别。

本申请还提供一种客户类别分析装置，包括：

获取单元，用于分别获取多条通道上与新客户相关的数据；

聚类单元，用于将每条通道获取的数据分别进行聚类处理，得到与所述多条通道一一对应的多组聚类数据；

向量化单元，用于将多组聚类数据形成稀疏矩阵，并通过协同过滤方法将所述稀疏矩阵补齐，形成对应所述新客户的第一向量矩阵；

计算单元，用于将所述第一向量矩阵分别与预设的客户类别数据库中的多个第二向量矩阵进行相似度计算；其中，客户类别数据库中包括多个客户类别，以及与客户类别一一对应的第二向量矩阵；

选择单元，用于将与所述第一向量矩阵相似度最高的第二向量矩阵对应的客户类别记为所述新客户的客户类别。

本申请还提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现上述任一项所述方法的步骤。

本申请还提供一种计算机非易失性可读存储介质，其上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现上述任一项所述的方法的步骤。

有益效果

本申请的客户类别分析方法、装置、计算机设备和存储介质，获取新客户的多条通道对应的数据进行分析，确保对每个人的评估更加准确，而且多条通道评估可以更加全面的评估新客户，避免因为单通道个人信息作假而产生评估偏差，准确得出新客户的客户类别，进而推荐适合新客户的产品，以提高推荐转售卖的效率。

附图说明

图1为本申请一实施例的客户类别分析方法的流程示意图；

图2为本申请一实施例的客户类别分析方法的流程示意图；

图3为本申请一实施例的上述客户类别分析方法的步骤S2的具体流程示意图；

图4为本申请一实施例的客户类别分析装置的结构示意框图；

图5为本申请一实施例的客户类别分析装置的结构示意框图；

图6为本申请一实施例的第一推荐单元的结构示意框图；

图7为本申请一实施例的聚类单元的结构示意框图；

图8为本申请一实施例的客户类别分析装置的结构示意框图；

图9为本申请一实施例的客户类别分析装置的结构示意框图；

图10为本申请一实施例的计算机设备的结构示意框图。

本发明的最佳实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

参照图1，本申请实施例提出一种客户类别分析方法，包括步骤：

S1、分别获取多条通道上与新客户相关的数据；

S2、将每条通道获取的数据分别进行聚类处理，得到与所述多条通道一一对应的多组聚类数据；

S3、将多组聚类数据形成稀疏矩阵，并通过协同过滤方法将所述稀疏矩阵补齐，形成对应所述新客户的第一向量矩阵；

S4、将所述第一向量矩阵分别与预设的客户类别数据库中的多个第二向量矩阵进行相似度计算；其中，客户类别数据库中包括多个客户类别，以及与客户类别一一对应的第二向量矩阵；

S5、将与所述第一向量矩阵相似度最高的第二向量矩阵对应的客户类别记为所述新客户的客户类别。

如上述步骤S1所述，上述多条通道是指大于等于两条通道，上述通道是指获取数据的通道，比如游戏通道、网上交互通道、消费通道、社会交流通道等。获取各条通道数据的主要方式包括：购买数据、通过爬虫技术爬取数据等。本实施例中，选择四条通道，具体为游戏通道、网上交互通道(微信)、消费通道(支付宝)和社会交流通道(微博)，游戏、微信和支付宝的通道数据在通过当事人的授权后可以进行购买，微博数据可以通过爬虫技术获取，当然，微博数据也可以进行购买。上述游戏通道一般使用微信游戏作为游戏通道的数据，在其它实施例中，也可以使用网易游戏、盛大游戏等其它游戏作为游戏通道的数据。上述游戏通道的数据主要包括游戏消费数据、游戏时间数据等；上述微信通道的数据主要包括朋友圈的数据(包括发表朋友圈、朋友圈人数、长期互动的人数、发表朋友圈的内容，朋友圈中其他人发表的内容等)；上述支付宝通道的数据主要包括消费记录数据、消费场所数据、消费类型数据等；微博通道的数据主要包括发表微博的内容、关注记录、关注微博发表的内容等。在其它实施例中，还可以获取与其它更多的通道数据，如交通工具选取、出差频率等的交通数据，餐饮消费、餐饮类型、餐饮时间等的餐饮通道数据等。

如上述步骤S2所述，上述聚类处理是分别对每条通道的数据进行聚类，聚类算法选择K-means聚类算法：初始化常熟K，随机选取初始点作为质心；将数据点归类到最近的中心点；重新计算质心；重复前两步直到质心不变。因为K-means聚类算法是一种现有的聚类算法，具体的聚类过程在此不在赘述。本申请使用K-means聚类算法，其算法快速、简单；对大数据集有较高的效率并且具有可伸缩性的，时间复杂度近于线性，而且适合挖掘大规模数据集。

如上述步骤S3所述，上述稀疏矩阵是指矩阵中非零元素的个数远远小于矩阵元素的总数，并且非零元素的分布没有规律。上述将多组数据进行聚类处理，得到的数据量降低，又因为数据种类和来源有一定的差别，所以，将各组的聚类结果代入到预设的矩阵后，各非零元素的分布没有规律且相关性较小，进而形成稀疏矩阵，具体地，上述数据包括四组，将一组聚类结果作为稀疏矩阵的第一行，其他三组聚类结果分别作为稀疏矩阵的第二、三、四行。上述协同过滤方法即为将上述稀疏矩阵中非零元素之间的空位进行补零处理，即因为各组数据的聚类结果不同，为了数据的对应，需要将非零元素之间添加零以补位，得到上述的第一向量矩阵。该第一向量矩阵中包含有上述多个通道的数据特征，进而，在后续使用过程，不会因为某一通道数据被篡改过而影响整体的判断。

如上述步骤S4所述，上述第二向量矩阵是根据历史客户预先整理出来的向量矩阵。因为历史客户的类型已经确认，那么各历史客户通过同样的上述通道获取的数据经过上述步骤S1-S3的过程同样可以生成上述的第一向量矩阵，只是其对应的客户类别是已知的，获取每一种客户类别的历史客户对应的多个第一向量矩阵，然后对同一客户类别对应的多个第一向量矩阵进行平均处理即会得到对应客户类别的第二向量矩阵。上述历史客户的客户类别的分类采用学习向量量化进行分类，具体过程如下：

(1)带标签的初始化向量，D＝{(x ₁,y ₁),(x ₂,y ₂),...,(x _m,y _m)}，其中，D是采集的样本集，x、y 分别代表样本点；

(2)初始化的向量标记t _i，t是原始向量的标记；

(3)每个样本的n个特征描述：x _j＝(x _j1,x _j2,...,x _jn),y _j∈Y,j＝1,2,...,m，其中，X _ij代表样本点的特征

(4)LVQ的学习目标是得到k个向量：q ₁,q ₂,....,q _k，其中，q表示各个学习目标；

(5)对向量初始化，满足y _j＝t _j的样本作为q _j的初始值；

(6)从D中任选样本x _j，找到最近的向量q _i；如果y _j与t _i相等，那么q′＝q _i+η(x _j-q _i)，否者，q′＝q _i-η(x _j-q _i)；其中η是参数；

(7)、更新向量：q _i＝q′；

(8)通过最大迭代次数或向量更新阈值判断是否停止迭代；

(9)得到向量之后，每个向量对应一片区域，区域内样本点就是属于向量的类，进而，得到客户类别。

本申请中，因为上述第一向量矩阵是针对待分类型的客户的向量举证，所以需要计算与预设的第二向量矩阵相似度，寻找相似度最高的第二向量矩阵，相似度的计算可以使用欧几里得距离(Eucledian Distance)、曼哈顿距离(Manhattan Distance)、明可夫斯基距离(Minkowski distance)或者余弦相似度中一种算法进行计算。

如上述步骤S5所述，标记上述新客户的客户类别，以便于后续推荐产品给新客户等使用。

参照图2，在一个实施例中，上述将与所述第一向量矩阵相似度最高的第二向量矩阵对应的客户类别记为所述新客户的客户类别的步骤S5之后，包括：

S6、查找与所述新客户的客户类别对应的产品信息；

S7、将所述产品信息推荐给所述新客户。

如上述步骤S6和S7所述，即为根据新客户的类型给新客户推荐产品信息，以提高推荐转销售的效率。本申请中，客户类别对应的产品信息即为该客户类别购买较多的产品的产品信息，因为，哪一种客户类别购买的哪几种产品的数量较多，是有数据记录的，所以可以容易的得到新客户对应的产品信息。本申请中，查找新客户的客户类别对应的产品信息的方法具体包括：(1)在预设的数据库中查找新客户对应的客户类别的客户所购买过的全部产品记录；(2)然后在产品记录中查找符合要求的产品信息，该符合要求是指购买数量按照从多到少的顺序排列，排名在指定名次之前的产品信息；(3)将上述符合要求的产品信息推荐给上述新用户，推荐的方式包括电子邮件、微信、短信等。

在一个实施例中，上述将所述产品信息推荐给所述新客户的步骤S7，包括：

S71、将所述产品信息形成图表形式推荐给所述新客户，其中，所述图表形式包括产品信息的产品的文字介绍，以及产品的销售数据图。

如上述步骤S71所述，上述产品的销售数据图可以为直方图、曲线图、面积图等可以表示数据的图形。推荐给新客户的产品信息中可能包括多个产品，不同的产品的销售数据存在差异，那么将销售数据可视化后，新客户可以直观地分辨出那个产品的销量最高等，提高新客户查看推荐内容的效率。

参照图3，在一个实施例中，上述将多组聚类数据形成稀疏矩阵，并通过协同过滤方法将所述稀疏矩阵补齐，形成对应所述新客户的第一向量矩阵的步骤S2，包括：

S21、对通过每条通道获取的数据分别进行特征提取，得到每条通道对应的多个特征数据；

S22、将每条通道对应的多个特征数据中与其它特征数据不相关的特征数据提取出来，作为不相关特征数据；

S23、将每条通道对应的所述不相关特征数据对应的数据清除，并对每条通道对应的、留下的数据分别进行聚类处理，得到与所述多条通道一一对应的多组聚类数据。

如上述步骤S21、S22和S23所述，将通过每条通道获取的数据分别进行特征提取，得到对应各条通道的多组特征数据，每一组特征数据包括多个；然后对每一组特征数据分别进行相关性分析，以找到每一组特征数据中与其它特征数据不相关的特征数据，并将该特征数据记为不相关特征数据，因为与其它特征数据不相关，所以不相关特征数据对应的数据可能存在问题，所以将可能存在问题的数据提前清除掉，以提高后续聚类的结果的准确性。本申请中，数据的特征提取可以使用ReliefF算法，ReliefF算法是1994年Kononeill在Relief算法(Relief算法是一种特征权重算法(Feature weighting algorithms)，根据各个特征和类别的相关性赋予特征不同的权重，权重小于某个阈值的特征将被移除)上进行改进而得到的算法，其相对于Relief算法而言，可以处理多类别问题，因为ReliefF算法是一种已知的算法，因此不再赘述数据特征提取的过程。

在一个实施例中，上述将与所述第一向量矩阵相似度最高的第二向量矩阵对应的客户类别记为所述新客户的客户类别的步骤S5之后，包括：

S501、获取所述新客户的医疗数据；

S502、根据所述医疗数据选取所述新客户适合购买的保险产品的保险产品信息；

S503、在所述适合购买的保险产品的保险产品信息中，筛选出对应所述新客户的客户类别的保险产品信息推荐给所述新客户。

如上述步骤S501、S502和S503所述，主要用于保险产品售卖场景，上述医疗数据主要包括新客户在医院的社保卡使用数据及其电子病例数据，通过医疗数据可以初步判定新客户的身体情况。根据其身体情况先在保险产品信息库中筛选出适合购买的保险产品，然后再在适合购买的保险产品信息中查找出对应客户类别的保险产品信息，并将查找出的保险产品信息推荐给新客户。上述根据其身体情况先在保险产品信息库中筛选出适合购买的保险产品是指，因为不同的身体情况，有不同的保险产品不能购买，比如，通过上述医疗数据已经判断出新客户患有某一疾病，而某保险产品恰好含有针对该疾病的保险，所以含有针对该疾病的保险的保险产品不适用于所述新客户，而不含有针对该疾病的保险的保险产品则可能适合新客户购买。在本申请中，推荐给新客户的保险产品信息可以是针对该客户类别售卖最多的保险产品对应的保险产品信息，也可以是针对该客户类别售卖数量排名(售卖数量越多，其排名越靠前)在指定名次之前的保险产品对应的保险产品信息等。

在一个实施例中，上述根据所述医疗数据选取所述新客户适合购买的保险产品的保险产品信息的步骤S502，包括：

S5021、将所述医疗数据进行特征提取以得到多个医疗特征数据；

S5022、在多个医疗特征数据中提取出与其它医疗特征数据不相关的特征数据作为不相关医疗特征数据；

S5023、将所述不相关医疗特征数据对应的医疗数据清除，并根据留校的医疗数据选取所述新客户适合购买的保险产品的保险产品信息。

如上述步骤S5021、S5022和S5023所述，医疗数据中可能存在骗保的相关数据，而这些数据一般与常规的数据存在一定的差异性，比如，故意利用社保卡购买药物然后将药物贩卖给其它商城的，其社保卡的刷卡频率、刷卡金额都有一定的规律，如每次购买的药物不同，但是金额相当，每间隔一定时间就会进行刷卡买药等。这些医疗数据的相关性较低，所以通过对其特征数据进行相关性分析时，既可以将其提取出来作为不相关医疗特征数据，然后将不相关医疗特征数据对应的医疗数据清除，利用保留下的医疗数据判断新客户可以购买的保险产品的保险产品信息。

在其它实施例中，还可以通过获取新客户的人脸特征，然后将人脸特征输入到预设的不同的疾病预判模型中(疾病预判模型是根据大量的不同的人的人脸特征、以及各人脸特征对应的同一种疾病训练而得模型，当输入新的人脸特征后，会输出对应该人脸特征是否患有该疾病的结果)判断，确定新客户是否患有对应的疾病，进而提供适配的保险产品信息给新客户选择等。

在另一个可能实施例中，上述将与所述第一向量矩阵相似度最高的第二向量矩阵对应的客户类别记为所述新客户的客户类别的步骤S5之后，包括：

S511、获取所述新客户的征信数据；

S512、根据所述征信数据选取所述新客户适合申请的信贷产品的信贷产品信息；

S513、在所述适合购买的信贷产品的信贷产品信息中筛选出对应所述客户类别的信贷产品信息推荐给所述新客户。

如上述步骤S511、S512和S513所述，主要用于金融贷款的场景，上述信贷产品包括小额贷款、抵押贷款、购房贷款等；上述征信数据是指新客户在银行系统中的信誉度，比如，新客户多次未按时还信用卡，其信誉值较低，可能无法进行大额的抵押贷款等；如果新客户长期使用信用卡，但是每个月均按时还款，其信誉值较高，可以进行大额度贷款；如果新客户没有使用信用卡等，其信誉值是初始值，则考虑贷款额度适中的信贷产品等。本申请中，先判断出新客户可以申请的信贷产品，然后再在可以申请的信贷产品选择对应客户类别的信贷产品，大大地提高了推荐的效果，方便新客户准确选择其可以申请的信贷产品。

本申请实施例的客户类别分析方法，获取新客户的多条通道对应的数据进行分析，确保对每个人的评估更加准确，而且多条通道评估可以更加全面的评估新客户，避免因为单通道个人信息作假而产生评估偏差，准确得出新客户的客户类别，进而推荐适合新客户的产品，以提高推荐转售卖的效率。

参照图4，本申请实施例提出一种客户类别分析装置，包括步骤：

获取单元10，用于分别获取多条通道上与新客户相关的数据；

聚类单元20，用于将每条通道获取的数据分别进行聚类处理，得到与所述多条通道一一对应的多组聚类数据；

向量化单元30，用于将多组聚类数据形成稀疏矩阵，并通过协同过滤方法将所述稀疏矩阵补齐，形成对应所述新客户的第一向量矩阵；

计算单元40，用于将所述第一向量矩阵分别与预设的客户类别数据库中的多个第二向量矩阵进行相似度计算；其中，客户类别数据库中包括多个客户类别，以及与客户类别一一对应的第二向量矩阵；

选择单元50，用于将与所述第一向量矩阵相似度最高的第二向量矩阵对应的客户类别记为所述新客户的客户类别。

在上述获取单元10中，上述多条通道是指大于等于两条通道，上述通道是指获取数据的通道，比如游戏通道、网上交互通道、消费通道、社会交流通道等。获取各条通道数据的主要方式包括：购买数据、通过爬虫技术爬取数据等。本实施例中，选择四条通道，具体为游戏通道、网上交互通道(微信)、消费通道(支付宝)和社会交流通道(微博)，游戏、微信和支付宝的通道数据在通过当事人的授权后可以进行购买，微博数据可以通过爬虫技术获取，当然，微博数据也可以进行购买。上述游戏通道一般使用微信游戏作为游戏通道的数据，在其它实施例中，也可以使用网易游戏、盛大游戏等其它游戏作为游戏通道的数据。上述游戏通道的数据主要包括游戏消费数据、游戏时间数据等；上述微信通道的数据主要包括朋友圈的数据(包括发表朋友圈、朋友圈人数、长期互动的人数、发表朋友圈的内容，朋友圈中其他人发表的内容等)；上述支付宝通道的数据主要包括消费记录数据、消费场所数据、消费类型数据等；微博通道的数据主要包括发表微博的内容、关注记录、关注微博发表的内容等。在其它实施例中，还可以获取与其它更多的通道数据，如交通工具选取、出差频率等的交通数据，餐饮消费、餐饮类型、餐饮时间等的餐饮通道数据等。

在上述聚类单元20中，上述聚类处理是分别对每条通道的数据进行聚类，聚类算法选择K-means聚类算法：初始化常熟K，随机选取初始点作为质心；将数据点归类到最近的中心点；重新计算质心；重复前两步直到质心不变。因为K-means聚类算法是一种现有的聚类算法，具体的聚类过程在此不在赘述。本申请使用K-means聚类算法，其算法快速、简单；对大数据集有较高的效率并且具有可伸缩性的，时间复杂度近于线性，而且适合挖掘大规模数据集。

在上述向量化单元30中，上述稀疏矩阵是指矩阵中非零元素的个数远远小于矩阵元素的总数，并且非零元素的分布没有规律。上述将多组数据进行聚类处理，得到的数据量降低，又因为数据种类和来源有一定的差别，所以，将各组的聚类结果代入到预设的矩阵后，各非零元素的分布没有规律且相关性较小，进而形成稀疏矩阵，具体地，上述数据包括四组，将一组聚类结果作为稀疏矩阵的第一行，其他三组聚类结果分别作为稀疏矩阵的第二、三、四行。上述协同过滤方法即为将上述稀疏矩阵中非零元素之间的空位进行补零处理，即因为各组数据的聚类结果不同，为了数据的对应，需要将非零元素之间添加零以补位，得到上述的第一向量矩阵。该第一向量矩阵中包含有上述多个通道的数据特征，进而，在后续使用过程，不会因为某一通道数据被篡改过而影响整体的判断。

在上述计算单元40中，上述第二向量矩阵是根据历史客户预先整理出来的向量矩阵。因为历史客户的类型已经确认，那么各历史客户通过同样的上述通道获取的数据经过上述获取单元10、聚类单元20和向量化单元30执行的任务过程同样可以生成上述的第一向量矩阵，只是其对应的客户类别是已知的，获取每一种客户类别的历史客户对应的多个第一向量矩阵，然后对同一客户类别对应的多个第一向量矩阵进行平均处理即会得到对应客户类别的第二向量矩阵。上述历史客户的客户类别的分类采用学习向量量化进行分类，具体过程如下：

(1)带标签的初始化向量，D＝{(x ₁,y ₁),(x ₂,y ₂),...,(x _m,y _m)}，其中，D是采集的样本集，x、y分别代表样本点；

(2)初始化的向量标记t _i，t是原始向量的标记；

(5)对向量初始化，满足y _j＝t _j的样本作为q _j的初始值；

(7)、更新向量：q _i＝q′；

(8)通过最大迭代次数或向量更新阈值判断是否停止迭代；

在上述选择单元50中，标记上述新客户的客户类别，以便于后续推荐产品给新客户等使用。

参照图5，在一个实施例中，上述客户类别分析装置还包括：

查找单元60，用于查找与所述新客户的客户类别对应的产品信息；

第一推荐单元70，用于将所述产品信息推荐给所述新客户。

在上述查找单元60和第一推荐单元70中，即为执行根据新客户的类型给新客户推荐产品信息，以提高推荐转销售的效率的装置。本申请中，客户类别对应的产品信息即为该客户类别购买较多的产品的产品信息，因为，哪一种客户类别购买的哪几种产品的数量较多，是有数据记录的，所以可以容易的得到新客户对应的产品信息。本申请中，查找新客户的客户类别对应的产品信息的方法具体包括：(1)在预设的数据库中查找新客户对应的客户类别的客户所购买过的全部产品记录；(2)然后在产品记录中查找符合要求的产品信息，该符合要求是指购买数量按照从多到少的顺序排列，排名在指定名次之前的产品信息；(3)将上述符合要求的产品信息推荐给上述新用户，推荐的方式包括电子邮件、微信、短信等。

参照图6，在一个实施例中，上述第一推荐单元70，包括：

图表推荐模块71，用于将所述产品信息形成图表形式推荐给所述新客户，其中，所述图表形式包括产品信息的产品的文字介绍，以及产品的销售数据图。

在上述图表推荐模块71中，上述产品的销售数据图可以为直方图、曲线图、面积图等可以表示数据的图形。推荐给新客户的产品信息中可能包括多个产品，不同的产品的销售数据存在差异，那么将销售数据可视化后，新客户可以直观地分辨出那个产品的销量最高等，提高新客户查看推荐内容的效率。

参照图7，在一个实施例中，上述聚类单元20，包括：

第一特征提取模块21，用于对通过每条通道获取的数据分别进行特征提取，得到每条通道对应的多个特征数据；

第一相关分析模块22，用于将每条通道对应的多个特征数据中与其它特征数据不相关的特征数据提取出来，作为不相关特征数据；

第一清除聚类模块23，用于将每条通道对应的所述不相关特征数据对应的数据清除，并对每条通道对应的、留下的数据分别进行聚类处理，得到与所述多条通道一一对应的多组聚类数据。

在上述第一特征提取模块21、第一相关分析模块22和第一清除聚类模块23中，将通过每条通道获取的数据分别进行特征提取，得到对应各条通道的多组特征数据，每一组特征数据包括多个；然后对每一组特征数据分别进行相关性分析，以找到每一组特征数据中与其它特征数据不相关的特征数据，并将该特征数据记为不相关特征数据，因为与其它特征数据不相关，所以不相关特征数据对应的数据可能存在问题，所以将可能存在问题的数据提前清除掉，以提高后续聚类的结果的准确性。本申请中，数据的特征提取可以使用ReliefF算法，ReliefF算法是1994年Kononeill在Relief算法(Relief算法是一种特征权重算法(Feature weighting algorithms)，根据各个特征和类别的相关性赋予特征不同的权重，权重小于某个阈值的特征将被移除)上进行改进而得到的算法，其相对于Relief算法而言，可以处理多类别问题，因为ReliefF算法是一种已知的算法，因此不再赘述数据特征提取的过程。

参照图8，在一个实施例中，上述客户类别分析装置还包括：

医疗数据获取单元501，用于获取所述新客户的医疗数据；

第一选取单元502，用于根据所述医疗数据选取所述新客户适合购买的保险产品的保险产品信息；

第二推荐单元503，用于在所述适合购买的保险产品的保险产品信息中，筛选出对应所述新客户的客户类别的保险产品信息推荐给所述新客户。

在上述医疗数据获取单元501、第一选取单元502和第二推荐单元503中所执行的动作主要用于保险产品售卖场景，上述医疗数据主要包括新客户在医院的社保卡使用数据及其电子病例数据，通过医疗数据可以初步判定新客户的身体情况。根据其身体情况先在保险产品信息库中筛选出适合购买的保险产品，然后再在适合购买的保险产品信息中查找出对应客户类别的保险产品信息，并将查找出的保险产品信息推荐给新客户。上述根据其身体情况先在保险产品信息库中筛选出适合购买的保险产品是指，因为不同的身体情况，有不同的保险产品不能购买，比如，通过上述医疗数据已经判断出新客户患有某一疾病，而某保险产品恰好含有针对该疾病的保险，所以含有针对该疾病的保险的保险产品不适用于所述新客户，而不含有针对该疾病的保险的保险产品则可能适合新客户购买。在本申请中，推荐给新客户的保险产品信息可以是针对该客户类别售卖最多的保险产品对应的保险产品信息，也可以是针对该客户类别售卖数量排名(售卖数量越多，其排名越靠前)在指定名次之前的保险产品对应的保险产品信息等。

在一个实施例中，上述第一选取单元502，包括：

第二特征提取模块，用于将所述医疗数据进行特征提取以得到多个医疗特征数据；

第二相关分析模块，用于在多个医疗特征数据中提取出与其它医疗特征数据不相关的特征数据作为不相关医疗特征数据；

第二清除聚类模块，用于将所述不相关医疗特征数据对应的医疗数据清除，并根据留校的医疗数据选取所述新客户适合购买的保险产品的保险产品信息。

在上述第二特征提取模块、第二相关分析模块和第二清除聚类模块中，医疗数据中可能存在骗保的相关数据，而这些数据一般与常规的数据存在一定的差异性，比如，故意利用社保卡购买药物然后将药物贩卖给其它商城的，其社保卡的刷卡频率、刷卡金额都有一定的规律，如每次购买的药物不同，但是金额相当，每间隔一定时间就会进行刷卡买药等。这些医疗数据的相关性较低，所以通过对其特征数据进行相关性分析时，既可以将其提取出来作为不相关医疗特征数据，然后将不相关医疗特征数据对应的医疗数据清除，利用保留下的医疗数据判断新客户可以购买的保险产品的保险产品信息。

在其它实施例中，还可以设置疾病判断单元，通过获取新客户的人脸特征，然后将人脸特征输入到预设的不同的疾病预判模型中(疾病预判模型是根据大量的不同的人的人脸特征、以及各人脸特征对应的同一种疾病训练而得模型，当输入新的人脸特征后，会输出对应该人脸特征是否患有该疾病的结果)判断，确定新客户是否患有对应的疾病，进而提供适配的保险产品信息给新客户选择等。

参照图9，在另一个可能实施例中，上述客户类别分析装置还包括：

征信数据获取单元511，用于获取所述新客户的征信数据；

第二选取单元512，用于根据所述征信数据选取所述新客户适合申请的信贷产品的信贷产品信息；

第三推荐单元513，用于在所述适合购买的信贷产品的信贷产品信息中筛选出对应所述客户类别的信贷产品信息推荐给所述新客户。

在上述征信数据获取单元511、第二选取单元512和第三推荐单元513中指定的动作主要用于金融贷款的场景，上述信贷产品包括小额贷款、抵押贷款、购房贷款等；上述征信数据是指新客户在银行系统中的信誉度，比如，新客户多次未按时还信用卡，其信誉值较低，可能无法进行大额的抵押贷款等；如果新客户长期使用信用卡，但是每个月均按时还款，其信誉值较高，可以进行大额度贷款；如果新客户没有使用信用卡等，其信誉值是初始值，则考虑贷款额度适中的信贷产品等。本申请中，先判断出新客户可以申请的信贷产品，然后再在可以申请的信贷产品选择对应客户类别的信贷产品，大大地提高了推荐的效果，方便新客户准确选择其可以申请的信贷产品。

本申请实施例的客户类别分析装置，获取新客户的多条通道对应的数据进行分析，确保对每个人的评估更加准确，而且多条通道评估可以更加全面的评估新客户，避免因为单通道个人信息作假而产生评估偏差，准确得出新客户的客户类别，进而推荐适合新客户的产品，以提高推荐转售卖的效率。

参照图10，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机可读指令和数据库。该内存器为非易失性存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的数据库用于存储各条通道获取的通道数据等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种客户类别分析方法。

上述处理器执行上述客户类别分析方法的步骤为：分别获取多条通道上与新客户相关的数据；将每条通道获取的数据分别进行聚类处理，得到与所述多条通道一一对应的多组聚类数据；将多组聚类数据形成稀疏矩阵，并通过协同过滤方法将所述稀疏矩阵补齐，形成对应所述新客户的第一向量矩阵；将所述第一向量矩阵分别与预设的客户类别数据库中的多个第二向量矩阵进行相似度计算；其中，客户类别数据库中包括多个客户类别，以及与客户类别一一对应的第二向量矩阵；将与所述第一向量矩阵相似度最高的第二向量矩阵对应的客户类别记为所述新客户的客户类别。

在一个实施例中，上述将与所述第一向量矩阵相似度最高的第二向量矩阵对应的客户类别记为所述新客户的客户类别的步骤之后，包括：查找与所述新客户的客户类别对应的产品信息；将所述产品信息推荐给所述新客户。

在一个实施例中，上述将所述产品信息推荐给所述新客户的步骤，包括：将所述产品信息形成图表形式推荐给所述新客户，其中，所述图表形式包括产品信息的产品的文字介绍，以及产品的销售数据图。

在一个实施例中，上述将多组聚类数据形成稀疏矩阵，并通过协同过滤方法将所述稀疏矩阵补齐，形成对应所述新客户的第一向量矩阵的步骤，包括：

对通过每条通道获取的数据分别进行特征提取，得到每条通道对应的多个特征数据；将每条通道对应的多个特征数据中与其它特征数据不相关的特征数据提取出来，作为不相关特征数据；将每条通道对应的所述不相关特征数据对应的数据清除，并对每条通道对应的、留下的数据分别进行聚类处理，得到与所述多条通道一一对应的多组聚类数据。

在一个实施例中，上述将与所述第一向量矩阵相似度最高的第二向量矩阵对应的客户类别记为所述新客户的客户类别的步骤之后，包括：获取所述新客户的医疗数据；根据所述医疗数据选取所述新客户适合购买的保险产品的保险产品信息；在所述适合购买的保险产品的保险产品信息中筛选出对应所述新客户的客户类别的保险产品信息推荐给所述新客户。

在一个实施例中，上述根据所述医疗数据选取所述新客户适合购买的保险产品的保险产品信息的步骤，包括：将所述医疗数据进行特征提取以得到多个医疗特征数据；在多个医疗特征数据中提取出与其它医疗特征数据不相关的特征数据作为不相关医疗特征数据；将所述不相关医疗特征数据对应的医疗数据清除，并根据留校的医疗数据选取所述新客户适合购买的保险产品的保险产品信息。

在一个实施例中，上述将与所述第一向量矩阵相似度最高的第二向量矩阵对应的客户类别记为所述新客户的客户类别的步骤之后，包括：获取所述新客户的征信数据；根据所述征信数据选取所述新客户适合申请的信贷产品的信贷产品信息；在所述适合购买的信贷产品的信贷产品信息中筛选出对应所述客户类别的信贷产品信息推荐给所述新客户。

本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定。

本申请实施例的计算机设备，获取新客户的多条通道对应的数据进行分析，确保对每个人的评估更加准确，而且多条通道评估可以更加全面的评估新客户，避免因为单通道个人信息作假而产生评估偏差，准确得出新客户的客户类别，进而推荐适合新客户的产品，以提高推荐转售卖的效率。

本申请一实施例还提供一种计算机非易失性可读存储介质，其上存储有计算机可读指令，计算机可读指令被处理器执行时实现如上述各方法的实施例的流程。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

一种客户类别分析方法，其特征在于，包括：

分别获取多条通道上与新客户相关的数据；

将每条通道获取的数据分别进行聚类处理，得到与所述多条通道一一对应的多组聚类数据；

将多组聚类数据形成稀疏矩阵，并通过协同过滤方法将所述稀疏矩阵补齐，形成对应所述新客户的第一向量矩阵；

将所述第一向量矩阵分别与预设的客户类别数据库中的多个第二向量矩阵进行相似度计算；其中，客户类别数据库中包括多个客户类别，以及与客户类别一一对应的第二向量矩阵；

将与所述第一向量矩阵相似度最高的第二向量矩阵对应的客户类别记为所述新客户的客户类别。
根据权利要求1所述的客户类别分析方法，其特征在于，所述将与所述第一向量矩阵相似度最高的第二向量矩阵对应的客户类别记为所述新客户的客户类别的步骤之后，包括：

查找与所述新客户的客户类别对应的产品信息；

将所述产品信息推荐给所述新客户。
根据权利要求2所述的客户类别分析方法，其特征在于，所述将所述产品信息推荐给所述新客户的步骤，包括：

将所述产品信息形成图表形式推荐给所述新客户，其中，所述图表形式包括产品信息的产品的文字介绍，以及产品的销售数据图。
根据权利要求1所述的客户类别分析方法，其特征在于，所述将多组聚类数据形成稀疏矩阵，并通过协同过滤方法将所述稀疏矩阵补齐，形成对应所述新客户的第一向量矩阵的步骤，包括：

对通过每条通道获取的数据分别进行特征提取，得到每条通道对应的多个特征数据；

将每条通道对应的多个特征数据中与其它特征数据不相关的特征数据提取出来，作为不相关特征数据；

将每条通道对应的所述不相关特征数据对应的数据清除，并对每条通道对应的、留下的数据分别进行聚类处理，得到与所述多条通道一一对应的多组聚类数据。
根据权利要求1所述的客户类别分析方法，其特征在于，所述将与所述第一向量矩阵相似度最高的第二向量矩阵对应的客户类别记为所述新客户的客户类别的步骤之后，包括：

获取所述新客户的医疗数据；

根据所述医疗数据选取所述新客户适合购买的保险产品的保险产品信息；

在所述适合购买的保险产品的保险产品信息中筛选出对应所述新客户的客户类别的保险产品信息推荐给所述新客户。
根据权利要求5所述的客户类别分析方法，其特征在于，所述根据所述医疗数据选取所述新客户适合购买的保险产品的保险产品信息的步骤，包括：

将所述医疗数据进行特征提取以得到多个医疗特征数据；

在多个医疗特征数据中提取出与其它医疗特征数据不相关的特征数据作为不相关医疗特征数据；

将所述不相关医疗特征数据对应的医疗数据清除，并根据留校的医疗数据选取所述新客户适合购买的保险产品的保险产品信息。
根据权利要求1所述的客户类别分析方法，其特征在于，所述将与所述第一向量矩阵相似度最高的第二向量矩阵对应的客户类别记为所述新客户的客户类别的步骤之后，包括：

获取所述新客户的征信数据；

根据所述征信数据选取所述新客户适合申请的信贷产品的信贷产品信息；

在所述适合购买的信贷产品的信贷产品信息中筛选出对应所述客户类别的信贷产品信息推荐给所述新客户。
一种客户类别分析装置，其特征在于，包括：

获取单元，用于分别获取多条通道上与新客户相关的数据；

聚类单元，用于将每条通道获取的数据分别进行聚类处理，得到与所述多条通道一一对应的多组聚类数据；

向量化单元，用于将多组聚类数据形成稀疏矩阵，并通过协同过滤方法将所述稀疏矩阵补齐，形成对应所述新客户的第一向量矩阵；

计算单元，用于将所述第一向量矩阵分别与预设的客户类别数据库中的多个第二向量矩阵进行相似度计算；其中，客户类别数据库中包括多个客户类别，以及与客户类别一一对应的第二向量矩阵；

选择单元，用于将与所述第一向量矩阵相似度最高的第二向量矩阵对应的客户类别记为所述新客户的客户类别。
根据权利要求8所述的客户类别分析装置，其特征在于，所述客户类别分析装置还包括：

查找单元，用于查找与所述新客户的客户类别对应的产品信息；

第一推荐单元，用于将所述产品信息推荐给所述新客户。
根据权利要求9所述的客户类别分析装置，其特征在于，所述第一推荐单元，包括：

图表推荐模块，用于将所述产品信息形成图表形式推荐给所述新客户，其中，所述图表形式包括产品信息的产品的文字介绍，以及产品的销售数据图。
根据权利要求8所述的客户类别分析装置，其特征在于，所述聚类单元，包括：

第一特征提取模块，用于对通过每条通道获取的数据分别进行特征提取，得到每条通道对应的多个特征数据；

第一相关分析模块，用于将每条通道对应的多个特征数据中与其它特征数据不相关的特征数据提取出来，作为不相关特征数据；

第一清除聚类模块，用于将每条通道对应的所述不相关特征数据对应的数据清除，并对每条通道对应的、留下的数据分别进行聚类处理，得到与所述多条通道一一对应的多组聚类数据。
根据权利要求8所述的客户类别分析装置，其特征在于，所述客户类别分析装置还包括：

医疗数据获取单元，用于获取所述新客户的医疗数据；

第一选取单元，用于根据所述医疗数据选取所述新客户适合购买的保险产品的保险产品信息；

第二推荐单元，用于在所述适合购买的保险产品的保险产品信息中筛选出对应所述新客户的客户类别的保险产品信息推荐给所述新客户。
根据权利要求12所述的客户类别分析装置，其特征在于，所述第一选取单元，包括：

第二特征提取模块，用于将所述医疗数据进行特征提取以得到多个医疗特征数据；

第二相关分析模块，用于在多个医疗特征数据中提取出与其它医疗特征数据不相关的特征数据作为不相关医疗特征数据；

第二清除聚类模块，用于将所述不相关医疗特征数据对应的医疗数据清除，并根据留校的医疗数据选取所述新客户适合购买的保险产品的保险产品信息。
根据权利要求8所述的客户类别分析装置，其特征在于，所述客户类别分析装置还包括：

征信数据获取单元，用于获取所述新客户的征信数据；

第二选取单元，用于根据所述征信数据选取所述新客户适合申请的信贷产品的信贷产品信息；

第三推荐单元，用于在所述适合购买的信贷产品的信贷产品信息中筛选出对应所述客户类别的信贷产品信息推荐给所述新客户。
一种计算机设备，包括存储器和处理器，所述存储器存储有计算机可读指令，其特征在于，所述处理器执行所述计算机可读指令时实现客户类别分析方法，该客户类别分析方法包括：

分别获取多条通道上与新客户相关的数据；

将每条通道获取的数据分别进行聚类处理，得到与所述多条通道一一对应的多组聚类数据；

将多组聚类数据形成稀疏矩阵，并通过协同过滤方法将所述稀疏矩阵补齐，形成对应所述新客户的第一向量矩阵；

将所述第一向量矩阵分别与预设的客户类别数据库中的多个第二向量矩阵进行相似度计算；其中，客户类别数据库中包括多个客户类别，以及与客户类别一一对应的第二向量矩阵；

将与所述第一向量矩阵相似度最高的第二向量矩阵对应的客户类别记为所述新客户的客户类别。
根据权利要求15所述的计算机设备，其特征在于，所述将与所述第一向量矩阵相似度最高的第二向量矩阵对应的客户类别记为所述新客户的客户类别的步骤之后，包括：

查找与所述新客户的客户类别对应的产品信息；

将所述产品信息推荐给所述新客户。
根据权利要求16所述的计算机设备，其特征在于，所述将所述产品信息推荐给所述新客户的步骤，包括：

将所述产品信息形成图表形式推荐给所述新客户，其中，所述图表形式包括产品信息的产品的文字介绍，以及产品的销售数据图。
根据权利要求15所述的计算机设备，其特征在于，所述将多组聚类数据形成稀疏矩阵，并通过协同过滤方法将所述稀疏矩阵补齐，形成对应所述新客户的第一向量矩阵的步骤，包括：

对通过每条通道获取的数据分别进行特征提取，得到每条通道对应的多个特征数据；

将每条通道对应的多个特征数据中与其它特征数据不相关的特征数据提取出来，作为不相关特征数据；

将每条通道对应的所述不相关特征数据对应的数据清除，并对每条通道对应的、留下的数据分别进行聚类处理，得到与所述多条通道一一对应的多组聚类数据。
一种计算机非易失性可读存储介质，其上存储有计算机可读指令，其特征在于，所述计算机可读指令被处理器执行时实现客户类别分析方法，该客户类别分析方法包括：

分别获取多条通道上与新客户相关的数据；

将每条通道获取的数据分别进行聚类处理，得到与所述多条通道一一对应的多组聚类数据；

将多组聚类数据形成稀疏矩阵，并通过协同过滤方法将所述稀疏矩阵补齐，形成对应所述新客户的第一向量矩阵；

将所述第一向量矩阵分别与预设的客户类别数据库中的多个第二向量矩阵进行相似度计算；其中，客户类别数据库中包括多个客户类别，以及与客户类别一一对应的第二向量矩阵；

将与所述第一向量矩阵相似度最高的第二向量矩阵对应的客户类别记为所述新客户的客户类别。
根据权利要求19所述的计算机非易失性可读存储介质，其特征在于，所述将与所述第一向量矩阵相似度最高的第二向量矩阵对应的客户类别记为所述新客户的客户类别的步骤之后，包括：

查找与所述新客户的客户类别对应的产品信息；

将所述产品信息推荐给所述新客户。