WO2023236588A1

WO2023236588A1 - 基于客群偏差平滑优化的用户分类方法及装置

Info

Publication number: WO2023236588A1
Application number: PCT/CN2023/077882
Authority: WO
Inventors: 宋孟楠; 付棋红; 苏绥绥
Original assignee: 上海淇玥信息技术有限公司
Priority date: 2022-06-06
Filing date: 2023-02-23
Publication date: 2023-12-14
Also published as: CN114897099A

Abstract

本公开涉及一种基于客群偏差平滑优化的用户分类方法，该方法包括将各个样本设备数据分别输入各个客群模型，分别得到相应的预测安全评分，确定各个客群的真实安全评分，根据样本用户在不同客群模型下的预测安全评分和对应的客群的真实安全评分，得到每个样本用户在不同客群下的分类权重，根据各个样本用户在不同客群下的分类权重和各个样本用户所属的客群，训练得到用户分类模型，最后根据用户分类模型和各个客群模型，实现对待识别用户进行分类，确定该待识别用户所属客群，本方案通过已构建的客群模型进行偏差平滑优化确定用户所属客群，以便于确定为用户提供的服务，既提高了用户使用体验，也提高了平台对用户提供的服务的安全性。

Description

基于客群偏差平滑优化的用户分类方法及装置

技术领域

本公开涉及设备数据处理领域，具体而言，涉及一种基于客群偏差平滑优化的用户分类方法、装置、电子设备及计算机可读介质。

背景技术

随着互联网的快速发展，互联网服务平台中有大量的用户设备数据。该互联网服务平台可以通过分类的方式来管理大量的用户设备数据。例如，先对大量的用户设备数据进行分群，得到多个不同的客群。然后基于不同客群中的用户设备数据训练模型，得到多个客群模型。当获取到新的用户设备数据时，可以通过多个客群模型分别预测该用户设备数据，并根据预测结果确定该用户所属的客群。

但是，发明人在实现本发明的发明构思时发现，相关技术至少存在一下技术问题：通过上述方式预测用户所属客群获取的结果准备度较低，从而导致部分用户被划分到与真实情况不符的客群，降低用户体验。

在所述背景技术部分公开的上述信息仅用于加强对本公开的背景的理解，因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

有鉴于此，本公开提供一种基于客群偏差平滑优化的用户分类方法、装置、电子设备及计算机可读介质，能够通过客群模型和用户分类模型来确定用户所属的客群，以此方式获取的分类结果更加准备，使得分类结果与该待识别用户真实情况更加相符，从而提高用户体验。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的一方面，提出一种基于客群偏差平滑优化的用户分类方法，所述分类方法包括：获取属于不同客群的样本用户的样本设备数据分别进行训练得到的客群模型；将各个样本设备数据分别输入各个所述客群模型，分别得到相应的预测安全评分；根据各个客群中的样本用户的样本设备数据，确定各个客群的真实安全评分；根据每个所述样本用户在不同所述客群模型下的预测安全评分和对应的所述客群的真实安全评分，得到每个所述样本用户在不同所述客群下的分类权重；根据各个所述样本用户在不同客群下的分类权重和各个所述样本用户所属的客群，训练得到用户分类模型；根据所述用户分类模型和各个所述客群模型，对待识别用户进行分类，确定所述待识别用户所属客群。

可选地，所述根据每个所述样本用户在不同所述客群模型下的预测安全评分和对应的所述客群的真实安全评分，得到每个所述样本用户在不同所述客群下的分类权重，包括：针对每个样本用户，分别确定所述样本用户在不同所述客群模型下的预测安全评分和对应的所述客群的真实安全评分之间的相对偏差值，作为所述样本用户在不同所述客群下的分类权重；分别得到每个所述样本用户在不同所述客群下的分类权重。

可选地，所述分别确定所述样本用户在不同所述客群模型下的预测安全评分和对应的所述客群的真实安全评分之间的相对偏差值，包括：针对每个所述客群，计算所述样本用户在所述客群对应的客群模型下的预测安全评分和所述客群的真实安全评分的欧式距离，作为所述相对偏差值；分别得到所述样本用户在不同所述客群下的相对偏差值。

可选地，所述根据各个客群中的样本用户的样本设备数据，确定各个客群的真实安全评分，包括：针对每个所述客群，根据所述客群中的所述样本用户的样本设备数据，确定所述客群中所述样本用户的总数和为不安全用户的所述样本用户的数量，将所述为不安全用户的所述样本用户的数量和所述样本用户的总数的比值，作为所述客群的真实安全评分；分别得到各个所述客群的真实安全评分。

可选地，所述根据各个所述样本用户在不同客群下的分类权重和各个所述样本用户所属的客群，训练得到用户分类模型，包括：构建初始用户分类模型；对应每个样本用户分别构建以所述客群的数量为维度的分类向量；所述分类向量中的元素与所述客群一一对应；根据所述样本用户所属的客群，将所述分类向量中对应的元素的值设置为预设极小值，其他所述元素的值设置为预设极大值；将所述样本用户在不同客群下的分类权重作为所述用户分类模型的输入，将所述样本用户对应的分类向量作为输出，训练所述初始用户分类模型，得到训练好的所述用户分类模型。

可选地，所述根据所述用户分类模型和各个所述客群模型，对待识别用户进行分类，确定所述待识别用户所属客群，包括：获取待识别用户的设备数据，将所述设备数据分别输入各个所述客群模型，分别得到相应的预测安全评分；根据所述待识别用户在不同所述客群模型下的预测安全评分和对应的所述客群的真实安全评分，得到所述待识别用户在不同所述客群下的分类权重；将所述待识别用户在不同所述客群下的分类权重输入所述用户分类模型进行分类，根据分类结果确定所述待识别用户所属客群。

根据本公开的一方面，提出一种基于客群偏差平滑优化的用户分类装置，所述分类装置包括：获取模块，用于获取属于不同客群的样本用户的样本设备数据分别进行训练得到的客群模型；预测安全评分获取模块，用于将各个样本设备数据分别输入各个所述客群模型，分别得到相应的预测安全评分；真实安全评分获取模块，用于根据各个客群中的样本用户的样本设备数据，确定各个客群的真实安全评分；分类权重获取模块，用于根据每个所述样本用户在不同所述客群模型下的预测安全评分和对应的所述客群的真实安全评分，得到每个所述样本用户在不同所述客群下的分类权重；训练模块，用于根据各个所述样本用户在不同客群下的分类权重和各个所述样本用户所属的客群，训练得到用户分类模型；分类模块，用于根据所述用户分类模型和各个所述客群模型，对待识别用户进行分类，确定所述待识别用户所属客群。

可选地，所述分类权重获取模块被配置为：针对每个样本用户，分别确定所述样本用户在不同所述客群模型下的预测安全评分和对应的所述客群的真实安全评分之间的相对偏差值，作为所述样本用户在不同所述客群下的分类权重；分别得到每个所述样本用户在不同所述客群下的分类权重。

可选地，所述真实安全评分获取模块被配置为：针对每个所述客群，根据所述客群中的所述样本用户的样本设备数据，确定所述客群中所述样本用户的总数和为不安全用户的所述样本用户的数量，将所述为不安全用户的所述样本用户的数量和所述样本用户的总数的比值，作为所述客群的真实安全评分；分别得到各个所述客群的真实安全评分。

可选地，所述训练模块被配置为：构建初始用户分类模型；对应每个样本用户分别构建以所述客群的数量为维度的分类向量；所述分类向量中的元素与所述客群一一对应；根据所述样本用户所属的客群，将所述分类向量中对应的元素的值设置为预设极小值，其他所述元素的值设置为预设极大值；将所述样本用户在不同客群下的分类权重作为所述用户分类模型的输入，将所述样本用户对应的分类向量作为输出，训练所述初始用户分类模型，得到训练好的所述用户分类模型。

可选地，所述分类模块被配置为：获取待识别用户的设备数据，将所述设备数据分别输入各个所述客群模型，分别得到相应的预测安全评分；根据所述待识别用户在不同所述客群模型下的预测安全评分和对应的所述客群的真实安全评分，得到所述待识别用户在不同所述客群下的分类权重；将所述待识别用户在不同所述客群下的分类权重输入所述用户分类模型进行分类，根据分类结果确定所述待识别用户所属客群。

根据本公开的一方面，提出一种电子设备，该电子设备包括：一个或多个处理器；存储装置，用于存储一个或多个程序；当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如上文的方法。

根据本公开的一方面，提出一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如上文中的方法。

根据本公开的基于客群偏差平滑优化的用户分类方法、装置、电子设备及计算机可读介质，将各个样本设备数据分别输入各个客群模型，分别得到相应的预测安全评分，确定各个客群的真实安全评分，根据样本用户在不同客群模型下的预测安全评分和对应的客群的真实安全评分，得到每个样本用户在不同客群下的分类权重，根据各个样本用户在不同客群下的分类权重和各个样本用户所属的客群，训练得到用户分类模型，最后根据用户分类模型和各个客群模型，实现对待识别用户进行分类，确定该待识别用户所属客群，本方案通过已构建的客群模型进行偏差平滑优化确定用户所属客群，以便于确定为用户提供的服务，既提高了用户使用体验，也提高了平台对用户提供的服务的安全性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本公开。

附图说明

通过参照附图详细描述其示例实施例，本公开的上述和其它目标、特征及优点将变得更加显而易见。下面描述的附图仅仅是本公开的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据一示例性实施例示出的一种基于客群偏差平滑优化的用户分类方法及装置的系统框图。

图2是根据一示例性实施例示出的一种基于客群偏差平滑优化的用户分类方法的流程图。

图3是根据另一示例性实施例示出的一种基于客群偏差平滑优化的用户分类方法的流程图。

图4是根据另一示例性实施例示出的一种基于客群偏差平滑优化的用户分类方法的流程图。

图5是根据另一示例性实施例示出的一种基于客群偏差平滑优化的用户分类方法的流程图。

图6是根据另一示例性实施例示出的一种基于客群偏差平滑优化的用户分类方法的流程图。

图7是根据另一示例性实施例示出的一种基于客群偏差平滑优化的用户分类方法的流程图。

图8是根据一示例性实施例示出的一种基于客群偏差平滑优化的用户分类装置的框图。

图9是根据一示例性实施例示出的一种电子设备的框图。

图10是根据一示例性实施例示出的一种计算机可读介质的框图。

具体实施方式

现在将参考附图更全面地描述示例实施例。

如图1所示，系统架构100可以包括用户设备101、102、103中的一种或多种，网络104和服务器105。网络104用以在用户设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

应该理解，图1中的用户设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的用户设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。

用户可以使用用户设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。用户设备101、102、103可以是具有显示屏的各种电子设备，包括但不限于智能手机、平板电脑、便携式计算机和台式计算机等等。

在一些实施例中，本发明实施例所提供的基于客群偏差平滑优化的用户分类方法一般由服务器105执行，相应地，基于客群偏差平滑优化的用户分类的装置一般设置于服务器105中。在另一些实施例中，某些终端可以具有与服务器相似的功能从而执行本方法。因此，本发明实施例所提供的基于客群偏差平滑优化的用户分类方法不限定在服务器端执行。

如图2所示，基于客群偏差平滑优化的用户分类方法包括步骤S210～步骤S260。

在步骤S210中，获取属于不同客群的样本用户的样本设备数据分别进行训练得到的客群模型。

在本步骤中，上述不同客群可以是通过人工标注的方式，根据样本设备数据对样本用户进行分群得到的。基于不同客群的样本用户的样本设备数据可以训练得到与各客群对应的客群模型。

在本步骤中，不同客群的客群标签可以根据实际业务进行设置。例如，黑名单客群、白名单客群。再例如，低风险客群、中风险客群、高风险客群。

在本步骤中，上述样本设备数据可以是使用该样本设备的样本用户在互联网服务平台公开的数据。比如，用户名称、用户年龄、用户职业、用户收入、用户籍贯、用户上次使用用户设备登录系统的时间等公开信息，但不限于此，还可以仅通过无法识别用户身份的用户信息进行本方案的数据处理，比如，年龄、学历、户籍等，以实现对于保护用户隐私；可以采用对用户信息中可以识别出用户身份的信息删除或者匿名化处理的方式来实现对于用户隐私的保护，匿名化处理可以是通过加密手段对数据进行处理。

在步骤S220中，将各个样本设备数据分别输入各个所述客群模型，分别得到相应的预测安全评分。

在本步骤中，通过将各个样本设备数据作为输入，分别输入各客群模型，输出各个样本设备的预测安全评分。该客群模型可以通过现有的神经网络学习算法或者决策树学习算法，学习得到各客群模型。

在本步骤中，上述预测安全评分可以是通过客群模型根据样本设备数据中的用户属性特征进行预测得到的。

在步骤S230中，根据各个客群中的样本用户的样本设备数据，确定各个客群的真实安全评分。

在本步骤中，上述各个客群的真实安全评分可以是根据各个客群中各样本用户的真实情况确定的。例如，根据各个客群的样本设备数据中的真实标签，计算各个客群的真实安全评分。

在本步骤中，各个客群的样本设备数据中的真实标签可以是安全用户和不安全用户。

在步骤S240中，根据每个所述样本用户在不同所述客群模型下的预测安全评分和对应的所述客群的真实安全评分，得到每个样本用户在不同客群下的分类权重。

在本步骤中，通过预设方式，基于每个样本用户在不同客群模型下的预测安全评分和对应的所述客群的真实安全评分，可以计算出每个样本用户在不同客群下的分类权重。该预设方式可以包括但不限于欧氏距离和余弦值距离。

在本步骤中，每个样本用户在不同客群下的分类权重可以表征该样本用户在该客群模型下的预测安全评分和该客群中样本用户的真实安全评分的差异，差异越大表示通过客群模型得到的预测安全评分与该样本用户的真实情况相差越大。相反，差异越小表示通过客群模型得到的预测安全评分与该样本用户的真实情况相差越小。

在步骤S250中，根据各个所述样本用户在不同客群下的分类权重和各个所述样本用户所属的客群，训练得到用户分类模型。

在本步骤中，将各个样本用户在不同客群下的分类权重和各个样本用户所属的客群作为输入，通过现有的神经网络学习算法或者决策树学习算法，学习得到该用户分类模型。

在步骤S260中，根据所述用户分类模型和各个所述客群模型，对待识别用户进行分类，确定所述待识别用户所属客群。

在本步骤中，将待识别用户的设备数据作为输入，分别输入各个客群模型，分别得到该待识别用户在不同客群模型下的预测安全评分。然后根据该待识别用户在不同客群模型下的预测安全评分和对应客群的真实安全评分，计算得到该待识别用户在不同客群下的分类权重。并将待识别用户在不同客群下的分类权重作为输入，输入到用户分类模型，得到该待识别用户属于每个客群的概率。最后根据该待识别用户属于每个客群的概率，确定该待识别用户所属客群。

在本步骤中，通过各客群的真实安全评分与该待识别用户在不同客群模型下的预测安全评分的差异，来优化通过客群模型得到的预测结果，该差异可以对通过客群模型得到的预测结果进行补充或修正，从而提升通过上述用户分类模型获取的分类结果的准确度。

通过本公开提供的基于客群偏差平滑优化的用户分类方法，获取属于不同客群的样本用户的样本设备数据分别进行训练得到的客群模型，将各个样本设备数据分别输入各个客群模型，分别得到相应的预测安全评分，确定各个客群的真实安全评分，根据样本用户在不同客群模型下的预测安全评分和对应的客群的真实安全评分，得到每个样本用户在不同客群下的分类权重，根据各个样本用户在不同客群下的分类权重和各个样本用户所属的客群，训练得到用户分类模型，最后根据用户分类模型和各个客群模型，实现对待识别用户进行分类，确定该待识别用户所属客群，本方案通过已构建的客群模型进行偏差平滑优化确定用户所属客群，以便于确定为用户提供的服务，既提高了用户使用体验，也提高了平台对用户提供的服务的安全性。

如图3所示，上述步骤S240具体可以包括步骤S310～S320。

在步骤S310中，针对每个样本用户，分别确定所述样本用户在不同所述客群模型下的预测安全评分和对应的所述客群的真实安全评分之间的相对偏差值，作为所述样本用户在不同所述客群下的分类权重。

在本步骤中，通过预设方式，基于每个样本用户在不同客群模型下的预测安全评分和对应的所述客群的真实安全评分，可以计算每个样本用户在不同客群模型下的预测安全评分和对应的所述客群的真实安全评分之间的相对偏差值。该预设方式可以包括但不限于欧氏距离和余弦值距离。

在本步骤中，该相对偏差值可以表征一样本用户在客群模型下的预测安全评分和该客群中样本用户的真实安全评分的差异，差异越大表示通过客群模型得到的预测安全评分与该样本用户的真实情况相差越大。相反，差异越小表示通过客群模型得到的预测安全评分与该样本用户的真实情况相差越小。

在步骤S320中，分别得到每个所述样本用户在不同所述客群下的分类权重。

在本步骤中，如果每个样本用户在不同客群下的分类权重是采用欧式距离的方式计算得到。其中，每个样本用户在不同客群下的分类权重越小表示该样本用户在一客群模型下的预测安全评分与该客群的真实安全评分越接近，即该样本用户的用户设备与该客群下的样本用户的用户设备数据越相似。相反，每个样本用户在不同客群下的分类权重越大表示该样本用户在一客群模型下的预测安全评分与该客群的真实安全评分差别越明显，即该样本用户的用户设备与该客群下的样本用户的用户设备数据越不相似。

在本步骤中，如果每个样本用户在不同客群下的分类权重是采用余弦距离的方式计算得到。其中，每个样本用户在不同客群下的分类权重越大表示该样本用户在一客群模型下的预测安全评分与该客群的真实安全评分越接近，即该样本用户的用户设备与该客群下的样本用户的用户设备数据越相似。相反，每个样本用户在不同客群下的分类权重越小表示该样本用户在一客群模型下的预测安全评分与该客群的真实安全评分差别越明显，即该样本用户的用户设备与该客群下的样本用户的用户设备数据越不相似。

如图4所示，上述步骤S310具体可以包括步骤S410～步骤S420。

在步骤S410中，针对每个所述客群，计算所述样本用户在所述客群对应的客群模型下的预测安全评分和所述客群的真实安全评分的欧式距离，作为所述相对偏差值。

在本步骤中，通过欧式距离计算公式，根据该样本用户在客群对应的客群模型下的预测安全评分和该客群的真实安全评分，计算两者的欧式距离。该欧式距离越小表示该样本用户在一客群模型下的预测安全评分与该客群的真实安全评分越接近，即该样本用户的用户设备与该客群下的样本用户的用户设备数据越相似。相反，该欧式距离越大表示该样本用户在一客群模型下的预测安全评分与该客群的真实安全评分差别越明显，即该样本用户的用户设备与该客群下的样本用户的用户设备数据越不相似。例如，欧式距离的预设极大值为1，预设最小值为0。0代表该样本用户的用户设备数据与该客群下的样本用户的用户设备数据最相似，即该样本用户属于该客群的可能性最大。1代表该样本用户的用户设备数据与该客群下的样本用户的用户设备数据最不相似，即该样本用户属于该客群的可能性最小。

在步骤S420中，分别得到所述样本用户在不同所述客群下的相对偏差值。

在本步骤中，该样本用户在不同客群下的相对偏差值越小表示该样本用户在一客群模型下的预测安全评分与该客群的真实安全评分越接近，即该样本用户的用户设备与该客群下的样本用户的用户设备数据越相似。相反，该相对偏差值越大表示该样本用户在一客群模型下的预测安全评分与该客群的真实安全评分差别越明显，即该样本用户的用户设备与该客群下的样本用户的用户设备数据越不相似。

在本发明的一些实施例中，针对每个所述客群，还可以计算样本用户在客群对应的客群模型下的预测安全评分和该客群的真实安全评分的余弦距离，作为相对偏差值。其中，该余弦距离越大表示该样本用户在一客群模型下的预测安全评分与该客群的真实安全评分越接近，即该样本用户的用户设备与该客群下的样本用户的用户设备数据越相似。相反，该余弦距离越大表示该样本用户在一客群模型下的预测安全评分与该客群的真实安全评分差别越明显，即该样本用户的用户设备与该客群下的样本用户的用户设备数据越不相似。例如，余弦距离的预设极大值为1，预设最小值为0。1代表该样本用户的用户设备数据与该客群下的样本用户的用户设备数据最相似，即该样本用户属于该客群的可能性最大。0代表该样本用户的用户设备数据与该客群下的样本用户的用户设备数据最不相似，即该样本用户属于该客群的可能性最小。

如图5所示，上述步骤S230具体可以包括步骤S510～步骤S520。

在步骤S510中，针对每个所述客群，根据所述客群中的所述样本用户的样本设备数据，确定所述客群中所述样本用户的总数和为不安全用户的所述样本用户的数量，将所述为不安全用户的所述样本用户的数量和所述样本用户的总数的比值，作为所述客群的真实安全评分。

在本步骤中，每个客群中样本用户的样本设备数据中包含了针对该样本用户标注的真实标签，例如安全用户或不安全用户。根据样本设备数据中的真实标签，可以统计出每个客群中为不安全用户的样本用户的数量，然后根据每个客群中样本用户的总数和不安全用户的样本用户的数量，计算每个客群的真实安全评分。

在步骤S520中，分别得到各个所述客群的真实安全评分。

在本步骤中，各个客群的真实安全评分可以用于优化上述各个客群模型，进一步得到用户分类模型。

如图6所示，上述步骤S250具体可以包括步骤S610～S640。

在步骤S610中，构建初始用户分类模型。

在步骤S620中，对应每个样本用户分别构建以所述客群的数量为维度的分类向量。

在本步骤中，上述分类向量中的元素与各个客群一一对应。例如，客群数量为3，客群分别有A、B、C。分类向量是一个三维的向量(a，b，c)。其中，a表示样本用户属于A客群的概率，b表示样本用户属于B客群的概率，c表示样本用户属于c客群的概率。

在步骤S630中，根据所述样本用户所属的客群，将所述分类向量中对应的元素的值设置为预设极小值，其他所述元素的值设置为预设极大值。

在本步骤中，针对欧式距离，上述预设极小值表示该样本用户属于该元素对应的客群。上述预设极大值表示该样本用户不属于该元素对应的客群。假设预设极小值最小为0，预设极大值最大为1。0表示该样本用户属于该元素对应的客群，1表示该样本用户不属于该元素对应的客群。

在本步骤中，针对余弦距离，上述预设极小值表示该样本用户不属于该元素对应的客群。上述预设极大值表示该样本用户属于该元素对应的客群。假设预设极小值最小为0，预设极大值最大为1。0表示该样本用户不属于该元素对应的客群，1表示该样本用户属于该元素对应的客群。

在本步骤中，预设极小值最小可以设置为0，预设极大值最大可以设置为1。当然也可以根据实际情况认为设置。

在步骤S640中，将所述样本用户在不同客群下的分类权重作为所述用户分类模型的输入，将所述样本用户对应的分类向量作为输出，训练所述初始用户分类模型，得到训练好的所述用户分类模型。

通过上述训练方式得到的用户分类模型进一步优化了现有客群模型，以使得通过该用户分类模型对待识别用户进行分类获取的分类结果更加准备。

如图7所示，上述步骤S260具体可以包括步骤S710～S730。

在步骤S710中，获取待识别用户的设备数据，将所述设备数据分别输入各个所述客群模型，分别得到相应的预测安全评分。

在本步骤中，通过各个客群模型，分别对该待识别用户的用户设备进行预测，获取该待识别用户在不同客群模型下的预测安全评分。

在步骤S720中，根据所述待识别用户在不同所述客群模型下的预测安全评分和对应的所述客群的真实安全评分，得到所述待识别用户在不同所述客群下的分类权重。

在本步骤中，通过欧式距离或余弦距离的计算公式，根据待识别用户在不同客群模型下的预测安全评分和对应的客群的真实安全评分，可以计算得到待识别用户在不同客群下的分类权重。

在步骤S730中，将所述待识别用户在不同所述客群下的分类权重输入所述用户分类模型进行分类，根据分类结果确定所述待识别用户所属客群。

在本步骤中，将待识别用户在不同客群下的分类权重作为输入，输入到用户分类模型，该用户分类模型输出一分类向量。根据该分类向量中各元素的值，确定该待识别用户所属的客群，以此方式获取的分类结果更加准备，使得分类结果与该待识别用户真实情况更加相符，从而提高用户体验。

下述为本公开装置实施例，可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节，请参照本公开方法实施例。

图8是根据另一示例性实施例示出的一种基于客群偏差平滑优化的用户分类装置的框图。

如图8所示，上述基于客群偏差平滑优化的用户分类装置800包括：获取模块810、预测安全评分获取模块820、真实安全评分获取模块830、分类权重获取模块840、训练模块850和分类模块860。

具体地，获取模块810，用于获取属于不同客群的样本用户的样本设备数据分别进行训练得到的客群模型。

预测安全评分获取模块820，用于将各个样本设备数据分别输入各个所述客群模型，分别得到相应的预测安全评分。

真实安全评分获取模块830，用于根据各个客群中的样本用户的样本设备数据，确定各个客群的真实安全评分。

分类权重获取模块840，用于根据每个所述样本用户在不同所述客群模型下的预测安全评分和对应的所述客群的真实安全评分，得到每个所述样本用户在不同所述客群下的分类权重。

训练模块850，用于根据各个所述样本用户在不同客群下的分类权重和各个所述样本用户所属的客群，训练得到用户分类模型。

分类模块860，用于根据所述用户分类模型和各个所述客群模型，对待识别用户进行分类，确定所述待识别用户所属客群。

该基于客群偏差平滑优化的用户分类装置800可以各个样本设备数据分别输入各个客群模型，分别得到相应的预测安全评分，然后根据各个客群中的样本用户的样本设备数据，确定各个客群的真实安全评分，根据每个所述样本用户在不同所述客群模型下的预测安全评分和对应的所述客群的真实安全评分，得到每个所述样本用户在不同所述客群下的分类权重，根据各个所述样本用户在不同客群下的分类权重和各个所述样本用户所属的客群，训练得到用户分类模型，最后根据用户分类模型和各个客群模型，对待识别用户进行分类，确定该待识别用户所属客群，以此方式获取的分类结果更加准备，使得分类结果与该待识别用户真实情况更加相符，从而提高用户体验。

根据本发明的实施例，该基于客群偏差平滑优化的用户分类装置800可以用于实现图2实施例描述的基于客群偏差平滑优化的用户分类方法。

可选地，所述分类权重获取模块840被配置为：针对每个样本用户，分别确定所述样本用户在不同所述客群模型下的预测安全评分和对应的所述客群的真实安全评分之间的相对偏差值，作为所述样本用户在不同所述客群下的分类权重；分别得到每个所述样本用户在不同所述客群下的分类权重。

可选地，所述真实安全评分获取模块830被配置为：针对每个所述客群，根据所述客群中的所述样本用户的样本设备数据，确定所述客群中所述样本用户的总数和为不安全用户的所述样本用户的数量，将所述为不安全用户的所述样本用户的数量和所述样本用户的总数的比值，作为所述客群的真实安全评分；分别得到各个所述客群的真实安全评分。

可选地，所述训练模块850被配置为：构建初始用户分类模型；对应每个样本用户分别构建以所述客群的数量为维度的分类向量；所述分类向量中的元素与所述客群一一对应；根据所述样本用户所属的客群，将所述分类向量中对应的元素的值设置为预设极小值，其他所述元素的值设置为预设极大值；将所述样本用户在不同客群下的分类权重作为所述用户分类模型的输入，将所述样本用户对应的分类向量作为输出，训练所述初始用户分类模型，得到训练好的所述用户分类模型。

可选地，所述分类模块860被配置为：获取待识别用户的设备数据，将所述设备数据分别输入各个所述客群模型，分别得到相应的预测安全评分；根据所述待识别用户在不同所述客群模型下的预测安全评分和对应的所述客群的真实安全评分，得到所述待识别用户在不同所述客群下的分类权重；将所述待识别用户在不同所述客群下的分类权重输入所述用户分类模型进行分类，根据分类结果确定所述待识别用户所属客群。

图9是根据一示例性实施例示出的一种电子设备的框图。

下面参照图9来描述根据本公开的这种实施方式的电子设备900。图9显示的电子设备9仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图9所示，电子设备900以通用计算设备的形式表现。电子设备900的组件可以包括但不限于：至少一个处理单元910、至少一个存储单元920、连接不同系统组件(包括存储单元920和处理单元910)的总线930、显示单元940等。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元910执行，使得所述处理单元910执行本说明书中的根据本公开各种示例性实施方式的步骤。例如，所述处理单元910可以执行如图2～图7中所示的步骤。

所述存储单元920可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)9201和/或高速缓存存储单元9202，还可以进一步包括只读存储单元(ROM)9203。

所述存储单元920还可以包括具有一组(至少一个)程序模块9205的程序/实用工具9204，这样的程序模块9205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线930可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备900也可以与一个或多个外部设备900(例如键盘、指向设备、蓝牙设备等)通信，使得用户能与该电子设备900交互的设备通信，和/或该电子设备900能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口950进行。并且，电子设备900还可以通过网络适配器960与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。网络适配器960可以通过总线930与电子设备900的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备900使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，如图10所示，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本公开实施方式的上述方法。

所述软件产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

以上具体地示出和描述了本公开的示例性实施例。应可理解的是，本公开不限于这里描述的详细结构、设置方式或实现方法；相反，本公开意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。

Claims

一种基于客群偏差平滑优化的用户分类方法，其特征在于，所述分类方法包括：

获取属于不同客群的样本用户的样本设备数据分别进行训练得到的客群模型；

将各个样本设备数据分别输入各个所述客群模型，分别得到相应的预测安全评分；

根据各个客群中的样本用户的样本设备数据，确定各个客群的真实安全评分；

根据每个所述样本用户在不同所述客群模型下的预测安全评分和对应的所述客群的真实安全评分，得到每个所述样本用户在不同所述客群下的分类权重；

根据各个所述样本用户在不同客群下的分类权重和各个所述样本用户所属的客群，训练得到用户分类模型；

根据所述用户分类模型和各个所述客群模型，对待识别用户进行分类，确定所述待识别用户所属客群。
根据权利要求1所述的用户分类方法，其特征在于，所述根据每个所述样本用户在不同所述客群模型下的预测安全评分和对应的所述客群的真实安全评分，得到每个所述样本用户在不同所述客群下的分类权重，包括：

针对每个样本用户，分别确定所述样本用户在不同所述客群模型下的预测安全评分和对应的所述客群的真实安全评分之间的相对偏差值，作为所述样本用户在不同所述客群下的分类权重；

分别得到每个所述样本用户在不同所述客群下的分类权重。
根据权利要求2所述的用户分类方法，其特征在于，所述分别确定所述样本用户在不同所述客群模型下的预测安全评分和对应的所述客群的真实安全评分之间的相对偏差值，包括：

针对每个所述客群，计算所述样本用户在所述客群对应的客群模型下的预测安全评分和所述客群的真实安全评分的欧式距离，作为所述相对偏差值；

分别得到所述样本用户在不同所述客群下的相对偏差值。
根据权利要求2所述的用户分类方法，其特征在于，所述根据各个客群中的样本用户的样本设备数据，确定各个客群的真实安全评分，包括：

针对每个所述客群，根据所述客群中的所述样本用户的样本设备数据，确定所述客群中所述样本用户的总数和为不安全用户的所述样本用户的数量，将所述为不安全用户的所述样本用户的数量和所述样本用户的总数的比值，作为所述客群的真实安全评分；

分别得到各个所述客群的真实安全评分。
根据权利要求1所述的用户分类方法，其特征在于，所述根据各个所述样本用户在不同客群下的分类权重和各个所述样本用户所属的客群，训练得到用户分类模型，包括：

构建初始用户分类模型；

对应每个样本用户分别构建以所述客群的数量为维度的分类向量；所述分类向量中的元素与所述客群一一对应；

根据所述样本用户所属的客群，将所述分类向量中对应的元素的值设置为预设极小值，其他所述元素的值设置为预设极大值；

将所述样本用户在不同客群下的分类权重作为所述用户分类模型的输入，将所述样本用户对应的分类向量作为输出，训练所述初始用户分类模型，得到训练好的所述用户分类模型。
根据权利要求1所述的用户分类方法，其特征在于，所述根据所述用户分类模型和各个所述客群模型，对待识别用户进行分类，确定所述待识别用户所属客群，包括：

获取待识别用户的设备数据，将所述设备数据分别输入各个所述客群模型，分别得到相应的预测安全评分；

根据所述待识别用户在不同所述客群模型下的预测安全评分和对应的所述客群的真实安全评分，得到所述待识别用户在不同所述客群下的分类权重；

将所述待识别用户在不同所述客群下的分类权重输入所述用户分类模型进行分类，根据分类结果确定所述待识别用户所属客群。
一种基于客群偏差平滑优化的用户分类装置，其特征在于，所述分类装置包括：

获取模块，用于获取属于不同客群的样本用户的样本设备数据分别进行训练得到的客群模型；

预测安全评分获取模块，用于将各个样本设备数据分别输入各个所述客群模型，分别得到相应的预测安全评分；

真实安全评分获取模块，用于根据各个客群中的样本用户的样本设备数据，确定各个客群的真实安全评分；

分类权重获取模块，用于根据每个所述样本用户在不同所述客群模型下的预测安全评分和对应的所述客群的真实安全评分，得到每个所述样本用户在不同所述客群下的分类权重；

训练模块，用于根据各个所述样本用户在不同客群下的分类权重和各个所述样本用户所属的客群，训练得到用户分类模型；

分类模块，用于根据所述用户分类模型和各个所述客群模型，对待识别用户进行分类，确定所述待识别用户所属客群。
根据权利要求7所述的用户分类装置，其特征在于，所述分类权重获取模块被配置为：

针对每个样本用户，分别确定所述样本用户在不同所述客群模型下的预测安全评分和对应的所述客群的真实安全评分之间的相对偏差值，作为所述样本用户在不同所述客群下的分类权重；

分别得到每个所述样本用户在不同所述客群下的分类权重。
根据权利要求8所述的用户分类装置，其特征在于，所述分类权重获取模块被配置为：

针对每个所述客群，计算所述样本用户在所述客群对应的客群模型下的预测安全评分和所述客群的真实安全评分的欧式距离，作为所述相对偏差值；

分别得到所述样本用户在不同所述客群下的相对偏差值。
一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。
一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-6中任一所述的方法。