WO2017167064A1

WO2017167064A1 - 一种数据管控的方法及系统

Info

Publication number: WO2017167064A1
Application number: PCT/CN2017/077452
Authority: WO
Inventors: 陈彬彬; 包莹; 郭立超; 张立峰; 李传福
Original assignee: 阿里巴巴集团控股有限公司; 陈彬彬; 包莹; 郭立超; 张立峰; 李传福
Priority date: 2016-03-30
Filing date: 2017-03-21
Publication date: 2017-10-05
Also published as: TW201737128A; CN107292641A

Abstract

本申请实施例提供了一种数据管控的方法及系统，其中所述数据管控的方法包括：将多个第一管控对象聚类成一个或以上的类簇对象；基于预设的特征数据集合，确定所述一个或以上的类簇对象的特征数据分布区间；将所述第一管控对象的特征数据控制在对应的类簇对象的特征数据分布区间内。本申请实施例可以以类簇对象为维度，综合管控平台中的特征数据集合，制定出合理的特征数据分布区间，达到特征数据分层的目的，为第一管控对象的特征数据的设定提供了数据参考支持，使得第一管控对象的特征数据的设定控制在合理的范围内，防止特征数据设定过高或过低带来的不良影响。

Description

一种数据管控的方法及系统

技术领域

本申请涉及数据处理技术领域，特别是涉及一种数据管控的方法、、一种数据管控的系统、一种对管控数据进行数据分层的方法以及一种对管控数据进行数据分层的系统。

背景技术

随着信息技术的发展，一个数据处理平台需要处理的数据往往是海量的，对数据的管控也提出了更高要求。

例如，在电商平台中，越来越多的消费者通过电商平台在网上购买商品。平台给消费者展现的商品价格是否合理逐渐转化为一个必须考虑的问题。定价过低的商品，由于高转化率、高销量从而获得较高的流量，但是容易带来恶意竞争，或者一些不良商家在平台上售卖假货，因为假货商品往往低价，这将对平台的整体形象带来恶劣的影响。但关于平台上商品的整体价格管控策略方案还没有。

因此，目前需要本领域技术人员迫切解决的一个技术问题就是：提出一种基于平台的数据管控机制，用以更好更合理地实行数据管控。

发明内容

本申请实施例所要解决的技术问题是提供一种数据管控的方法以及一种对管控数据进行数据分层的方法，用以更好更合理地实行数据管控。

相应的，本申请实施例还提供了一种数据管控的系统以及一种对管控数据进行数据分层的系统，用以保证上述方法的实现及应用。

为了解决上述问题，本申请实施例公开了一种数据管控的方法，所述方法包括：

将多个第一管控对象聚类成一个或以上的类簇对象；

基于预设的特征数据集合，确定所述一个或以上的类簇对象的特征数据分布区间；

将所述第一管控对象的特征数据控制在对应的类簇对象的特征数据分布区间内。

优选地，所述第一管控对象具有对应的第二管控对象，所述将多个第一管控对象聚类成一个或以上的类簇对象的步骤包括：

获取所述第一管控对象的属性信息以及所述第二管控对象的属性信息；

从所述第一管控对象的属性信息中提取出关键属性；

对所有的第二管控对象的属性信息进行聚类，以获得针对所述第二管控对象的多个等级信息；

基于所述等级信息以及所述第一管控对象的关键属性，将所述多个第一管控对象进行聚类，以得到一个或以上的类簇对象。

优选地，所述特征数据分布区间从左到右包括左部区间、最高段分布区间以及右部区间；

所述基于预设的特征数据集合，确定所述一个或以上的类簇对象的特征数据分布区间的步骤包括：

基于预设的特征数据集合，分别估计所述类簇对象的特征数据的密度分布；

以所述密度分布的最高点为中点，左右分别取第一预设阈值的范围作为端点，以组成最高段分布区间；

以所述最高段分布区间为基准，将所述最高段分布区间左端的密度分布区域按照第一预设规则划分成对应的一个或多个左部区间；以及，将所述最高段分布区间右端的密度分布区域按照第二预设规则划分成对应的一个或多个右部区间。

优选地，所述以所述最高段分布区间为基准，将所述最高段分布区间左端的密度分布区域按照第一预设规则划分成对应的一个或多个左部区间；以及，将所述最高段分布区间右端的密度分布区域按照第二预设规则划分成对应的一个或多个右部区间的步骤包括：

确定所述最高点的分位数；

获取所述类簇对象中的特征数据的中位数；

若所述最高点的分位数小于或等于所述中位数，则将所述最高段分布区间左端的密度分布区域按照第一预设比例划分成N段，以得到对应的N个左部区间，以及，将所述最高段分布区间右端的密度分布区域按照第二预设比例划分成M段，以得到对应的M个右部区间，其中，N、M为正整数；

若所述最高点的分位数大于所述中位数，则将所述最高段分布区间左端的密度分布区域按照第三预设比例划分成M段，以得到对应的M个左部区间，以及，将所述最高段分布区间右端的密度分布区域按照第四预设比例划分成N段，以得到对应的N个右部区间，其中，N、M为正整数。

优选地，若所述左部区间及所述右部区间均有多个，则将所述左部区间中最左端的区间作为所述类簇对象的最小的特征数据区间；以及，将所述右部区间中最右端的区间作为所述类簇对象的最大的特征数据区间；

所述将所述第一管控对象的特征数据控制在对应的类簇对象的特征数据分布区间内的步骤包括：

在为所述第一管控对象设定特征数据时，将所述特征数据最小值控制在所述第一管控对象对应的类簇对象的最小的特征数据区间内，以及，将所述特征数据最大值控制在所述第一管控对象对应的类簇对象的最大的特征数据区间内。

优选地，所述方法应用于电商平台中，则所述第一管控对象为商品对象；所述类簇对象为商品类簇；所述特征数据为商品价格；所述第二管控对象为商家对象。

本申请实施例还公开了一种数据管控的系统，所述系统包括：

聚类模块，用于将多个第一管控对象聚类成一个或以上的类簇对象；

数据分布确定模块，用于基于预设的特征数据集合，确定所述一个或以上的类簇对象的特征数据分布区间；

数据控制模块，用于将所述第一管控对象的特征数据控制在对应的类簇对象的特征数据分布区间内。

优选地，所述第一管控对象具有对应的第二管控对象，所述聚类模块包括：

属性信息获取子模块，用于获取所述第一管控对象的属性信息以及所述第二管控对象的属性信息；

关键属性提取子模块，用于从所述第一管控对象的属性信息中提取出关键属性；

等级信息获取子模块，用于对所有的第二管控对象的属性信息进行聚类，以获得针对所述第二管控对象的多个等级信息；

类簇对象获取子模块，用于基于所述等级信息以及所述第一管控对象的关键属性，将所述多个第一管控对象进行聚类，以得到一个或以上的类簇对象。

所述数据分布确定模块包括：

密度分布估计子模块，用于基于预设的特征数据集合，分别估计所述类簇对象的特征数据的密度分布；

第一区间获取子模块，用于以所述密度分布的最高点为中点，左右分别取第一预设阈值的范围作为端点，以组成最高段分布区间；

第二区间获取子模块，用于以所述最高段分布区间为基准，将所述最高段分布区间左端的密度分布区域按照第一预设规则划分成对应的一个或多个左部区间；以及，将所述最高段分布区间右端的密度分布区域按照第二预设规则划分成对应的一个或多个右部区间。

优选地，所述第二区间获取子模块还用于：

确定所述最高点的分位数；

获取所述类簇对象中的特征数据的中位数；

所述数据控制模块还用于：

优选地，所述系统应用于电商平台中，则所述第一管控对象为商品对象；所述类簇对象为商品类簇；所述特征数据为商品价格；所述第二管控对象为商家对象。

本申请实施例还公开了一种对管控数据进行数据分层的方法，所述方法包括：

将多个第一管控对象聚类成一个或以上的类簇对象；

基于预设的特征数据集合，确定所述一个或以上的类簇对象的特征数据分布区间。

本申请实施例还公开了一种对管控数据进行数据分层的系统，其特征在于，所述系统包括：

数据分布确定模块，用于基于预设的特征数据集合，确定所述一个或以上的类簇对象的特征数据分布区间。

与背景技术相比，本申请实施例包括以下优点：

在本申请实施例中，将第一管控对象进行聚类得到一个或以上的类簇对象以后，可以基于特征数据集合，估计每个类簇对象的特征数据分布区间，并将第一管控对象的特征数据控制在对应的类簇对象的特征数据分布区间内，本申请实施例以类簇对象为维度，综合管控平台中的特征数据集合，制定出合理的特征数据分布区间，达到特征数据分层的目的，为第一管控对象的特征数据的设定提供了数据参考支持，使得第一管控对象的特征数据的设定控制在合理的范围内，防止特征数据设定过高或过低带来的不良影响。

附图说明

图1是本申请的一种数据管控的方法实施例一的步骤流程图；

图2是本申请的一种数据管控的方法实施例二的步骤流程图；

图3是本申请的一种数据管控的方法实施例二中的价格区间示意图；

图4是本申请的一种数据管控的系统实施例的结构框图；

图5是本申请的一种对管控数据进行数据分层的方法实施例的步骤流程图；

图6是本申请一种对管控数据进行数据分层的系统实施例的结构框图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

参照图1，示出了本申请的一种数据管控的方法实施例一的步骤流程图，所述方法可以包括如下步骤：

步骤101，将多个第一管控对象聚类成一个或以上的类簇对象；

步骤102，基于预设的特征数据集合，确定所述一个或以上的类簇对象的特征数据分布区间；

步骤103，将所述第一管控对象的特征数据控制在对应的类簇对象的特征数据分布区间内。

参照图2，示出了本申请的一种数据管控的方法实施例二的步骤流程图，可以包括如下步骤：

步骤201，获取第一管控对象的属性信息以及第二管控对象的属性信息；

在具体实现中，管控对象为管控平台中的数据处理对象。本申请实施例中的管控对象至少可以包括第一管控对象以及第二管控对象，其中，第一管控对象以及第二管控对象可以为多个。

第二管控对象可以对第一管控对象进行管理，包括第二管控对象为第一管控对象设定特征数据等。

例如，若管控平台为电商平台，则第一管控对象可以为商品对象，第二管控对象可以为商家对象，特征数据可以为商品价格，商家对象可以对商品对象进行管理，设定商品对象的商品价格等。

在管控平台中，第一管控对象具有对应的第一数据库，第二管控对象具有对应的第二数据库，该第一数据库存储有多个第一管控对象的属性信息，该第二数据库存储有多个第二管控对象的属性信息，因此，可以从第一数据库中提取第一管控对象的属性信息，以及，从第二数据库中提取第二管控对象的属性信息。

例如，在电商平台中，若第一管控对象为商品对象，第二管控对象为商家对象，则第一数据库为商品数据库，第二数据库可以为商家数据库。

可以从商品数据库中提取商品对象的商品属性，例如，一个商品的商品属性可以包括商品的材质、大小、款式、品牌等。

可以从商家数据库中提取商家对象的商家属性，在实际中，该商家属性为商家运营能力相关的属性，例如，一个商家对象的商家属性可以包括商家店铺的流量、成交、动销率、客单价、在线商品数，库存、店铺类型、开店时长等，如下表1所示：

表1

在本申请实施例中，综合考虑管控平台中的第一管控对象的属性信息以及第二管控对象的属性信息，使得数据来源更加丰富。

步骤202，从所述第一管控对象的属性信息中提取出关键属性；

在具体实现中，第一管控对象具有对应的特征数据，一个第一管控对象在不同时期可以具有不同的特征数据。

关键属性是指对特征数据影响较大的属性信息。在实际中，可以计算第一管控对象的每个属性信息与特征数据的相关性，并按照相关性排序，将排序在前的多个相关性对应的属性信息作为第一管控对象的关键属性。

需要说明的是，本申请实施例对相关性的计算方式不作限定。

例如，在电商平台中，特征数据可以为商品价格。基于电商平台中所有的商品对象的属性信息以及价格，可以挖掘每个属性信息与商品价格相关性，从而挖掘出决定商品价格的关键属性，比如，一个女式包袋，跟包的材质、大小、款式、品牌相关，可以说这四个属性基本可以决定一个包的价格，因此，这四个属性为女包的关键属性。

步骤203，对所有的第二管控对象的属性信息进行聚类，以获得针对所述第二管控对象的多个等级信息；

得到管控平台中所有第二管控对象的属性信息以后，可以基于该所有的第二管控对象的属性信息，采用kmeans等聚类方法对第二管控对象进行聚类，从而得到针对第二管控对象的多个等级信息。

在具体实现中，第二管控对象的等级信息可以包括第一等级、第二等级、第三等级等，其中，第一等级的级别高于第二等级，第二等级的级别高于第三等级，以此类推。

例如，在电商平台中，根据所有商家的商家属性，可以建立商家运营能力分层模型，依据该分层模型可以将商家分成4个等级，包括：top卖家、腰部卖家、小卖家、长期无流量卖家。

步骤204，基于所述等级信息以及所述第一管控对象的关键属性，将所述多个第一管控对象进行聚类，以得到一个或以上的类簇对象；

得到基于第二管控对象的多个等级信息以及第一管控对象的关键属性以后，可以根据该第二管控对象的等级信息以及第一管控对象的关键属性，采用预设的聚类算法对第一管控对象进行聚类，以得到一个或以上的类簇对象。在一种实施方式中，可以将第一管控对象对应的第二管控对象的等级相同，且第一管控对象的关键属性相同的第一管控对象归为一类。

例如，可以将商家有相同运营能力及商品的关键属性都相同的商品聚类成一个商品簇。以箱包为例，其关键属性为材质、大小、款式，那么可以将相同的材质、大小、款式以及相同运营能力的商家的商品作为一个商品簇，如所有KA卖家的店铺、头层牛皮、大个的机车包的所有的商品是一个商品簇。

步骤205，基于预设的特征数据集合，确定所述一个或以上的类簇对象的特征数据分布区间；

在具体实现中，可以基于预设的特征数据集合，获取每个类簇对象的特征数据分布区间，其中，每个类簇对象的特征数据分布区间可以有多个，例如，一个类簇对象的特征数据分布区间从左到右可以包括左部区间、最高段分布区间以及右部区间。

在本申请实施例的一种优选实施例中，步骤205可以包括如下子步骤：

子步骤S11，基于预设的特征数据集合，分别估计所述类簇对象的特征数据的密度分布；

预设的特征数据集合中可以包括管控平台中所有第一管控对象的特征数据。

在电商平台中，特征数据集合中除了可以包括商品价格以外，还可以包括商品的交易数据，可以以商品的特征数据集合为权重，估计每个商品簇的价格密度分布。

在本申请实施例中，可以以预设的特征数据集合作为样本点集合，采用高斯核密度估计(kernel density estimation，简称KDE)算法估计出每个类簇对象的特征数据的密度分布曲线。

核密度估计是在概率论中用来估计未知的密度函数，属于非参数检验方法之一，其原理为：在对某一事物的概率分布的情况下，如果某一个数在观察中出现了，可以认为这个数的概率密度比较大，和这个数比较近的数的概率密度也会比较大，而那些离这个数的概率密度会比较小。

子步骤S12，以所述密度分布的最高点为中点，左右分别取第一预设阈值的范围作为端点，以组成最高段分布区间；

根据密度分布曲线，可以确定该密度分布曲线的最高点，并以该最高点作为中点，左右分别取第一预设阈值的范围作为端点，组成最高段分布区间，例如，以最高点为中点，左右各15％为端点得到左右共30％的区间作为最高段分布区间[a，b)。

子步骤S13，以所述最高段分布区间为基准，将所述最高段分布区间左端的密度分布区域按照第一预设规则划分成对应的一个或多个左部区间；以及，将所述最高段分布区间右端的密度分布区域按照第二预设规则划分成对应的一个或多个右部区间。

确定最高段分布区间以后，可以以该最高段分布区间为基准，分别将密度分布曲线中位于最高段分布区间左右两端的分布区域进行划分，得到对应的左部区间以及右部区间，其中，左部区间可以有一个或多个，右部区间也可以有一个或多个。

将左部区间、最高段分布区间以及右部区间顺次排列，可以得到该类簇对象的特征数据分布区间。

在本申请实施例的一种优选实施例中，子步骤S13进一步可以包括如下子步骤：

子步骤S131，确定所述最高点的分位数；

设连续随机变量X的分布函数为F(X)，密度函数为p(x)。那么，对任意0<p<1的p，称F(X)＝p的x为此分布的分位数，或者下侧分位数。简单的说，分位数指的就是连续分布函数中的一个点，这个点对应概率p。

在本申请实施例中，估计的密度分布的最高点就是概率密度最大的特征数据，设定p为最高点，则可以根据F(X)＝p计算p的分位数x。

子步骤S132，获取所述类簇对象中的特征数据的中位数；

在具体实现中，一个类簇对象可以包括多个第一管控对象，每个第一管控对象具有一个或多个特征数据，可以将该类簇对象中所有第一管控对象的所有特征数据组成特征数据队列，并获取该特征数据队列的中位数作为类簇对象的特征数据的中位数。

子步骤S133，判断所述最高点的分位数是否小于或等于所述中位数，若是，则执行子步骤S134，若否，则执行子步骤S135。

得到最高点的分位数以及类簇对象的特征数据的中位数以后，可以对两者进行比较，判断该分位数是否小于或等于该中位数，若是，则执行子步骤S134，若否，则执行子步骤S135。

子步骤S134，将所述最高段分布区间左端的密度分布区域按照第一预设比例划分成N段，以得到对应的N个左部区间，以及，将所述最高段分布区间右端的密度分布区域按照第二预设比例划分成M段，以得到对应的M个右部区间；

具体而言，如果该最高点的分位数小于或等于中位数，则将该最高段分布区间左端的密度分布区域按照第一预设比例划分成N段，得到对应的N个分位数，并以该N个分位数以及最高段分布区间的左端点为区间端点，组成N个左部区间。例如，最高段分布区间为[a，b)，将该最高段分布区间左端的密度分布区域按照第一预设比例划分成两段，得到对应的2个分位数为p0，p1，则对应的两个左部区间为[p0，p1)，[p1，a)。

将该最高段分布区间右边的密度分布区域按照第二预设比例划分成M段，得到对应的M个分位数，并以最高段分布区间的右端点以及该M个分位数为区间端点，组成M个右部区间。例如，最高段分布区间为[a，b)，将该最高段分布区间右端的密度分布区域按照第二预设比例划分成三段，得到对应的3个分位数为p4，p5，p6，则对应的右部区间为[b，p4)，[p4，p5)，[p5，p6)。从而得到整个密度分布曲线的6个区间，分别是[p0，p1)，[p1，a)，[a，b)，[b，p4)，[p4，p5)，[p5，p6)。

例如，如图3的价格区间示意图所示，将某个商品簇按照价格进行高斯核密度估计，得到以商品价格为横坐标，以成交占比为纵坐标的密度分布曲线。然后以密度分布曲线的最高点为中点，左右各取15％为端点得到左右共30％的价格段为最高价格段，将其标记为[a，b)；随后判断该最高点的分位数是否小于或等于核密度分布曲线的中位数，若该分位数小于或等于中位数，则可以将该最高价格段分布区间左端的密度分布区域按照比例1/5，4/5分成两段，得到对应的分位数为p0，p1；并将该最高价格段分布区间右端的密度分布区域按照比例5/9，3/9，1/9分成三段，得到对应的分位数p4，p5，p6，则整个密度分布曲线可以分成6个价格段，分别是[p0，p1)，[p1，a)，[a，b)，[b，p4)，[p4，p5)，[p5，p6)，进而实现该商品簇的价格分层。

子步骤S135，将所述最高段分布区间左端的密度分布区域按照第三预设比例划分成M段，以得到对应的M个左部区间，以及，将所述最高段分布区间右端的密度分布区域按照第四预设比例划分成N段，以得到对应的N个右部区间。

如果该最高点的分位数大于中位数，则可以将该最高段分布区间左端的密度分布区域按照第三预设比例分成M段，得到对应的M个分位数，并以该M个分位数以及最高段分布区间的左端点为区间端点，组成M个左部区间。例如，最高段分布区间为[a，b)，将该最高段分布区间左端的密度分布区域按照第三预设比例划分成三段，得到对应的3个分位数为P0，P1，P2，则对应的三个左部区间为[P0，P1)，[P1，P2)，[P2，a)。并且将该最高段分布区间右端的密度分布区域按照第四预设比例分成N段，得到对应的N个分位数，并以最高段分布区间的右端点以及该N个分位数为区间端点，组成N个右部区间。例如，最高段分布区间为[a，b)，将该最高段分布区间右端的密度分布区域按照第四预设比例划分成两段，得到对应的2个分位数为P4，P5，则对应的右部区间为[b，P4)，[P4，P5)。从而得到整个密度分布曲线的6个区间，分别是[P0，P1)，[P1，P2)，[P2，a)，[a，b)，[b，P4)，[P4，P5)。

例如，将某个商品簇按照价格进行高斯核密度估计，得到以价格为横坐标，以成交占比为纵坐标的密度分布曲线。然后以密度分布曲线的最高点为中点，左右各取15％为端点得到左右共30％的价格段为最高价格段，将其标记为[a，b)；随后判断该最高点的分位数是否大于核密度分布曲线的中位数，若该分位数大于中位数，则可以将该最高价格段分布区间左端的密度分布区域按照比例1/9，3/9，5/9分成三段，得到对应的分位数为P0，P1，P2；并将该最高价格段分布区间右端的密度分布区域按照比例1/5，4/5分成两段，得到对应的分位数P4，P5，则整个密度分布曲线可以分成6个价格段，分别是[P0，P1)，[P1，P2)，[P2，a)，[a，b)，[b，P4)，[P4，P5)。

在本申请实施例中，综合考虑管控平台中的第一管控对象以及第二管控对象的属性信息进行第一管控对象的聚类，并结合管控平台中的特征数据集合，制定出合理的特征数据分布区间，达到特征数据分层的目的。

步骤206，将所述第一管控对象的特征数据控制在对应的类簇对象的特征数据分布区间内。

在本申请实施例中，若左部区间有多个时，则可以将该左部区间中最左端的区间作为所述类簇对象的最小的特征数据区间。若右部区间有多个，则可以将该右部区间中最右端的区间作为所述类簇对象的最大的特征数据区间，例如，若某一类簇对象的特征数据分布区间为[p0，p1)，[p1，a)，[a，b)，[b，p4)，[p4，p5)，[p5，p6)，则该类簇对象的最小的特征数据区间为[p0，p1)，最大的特征数据区间为[p5，p6)。

则在为第一管控对象(包括新的第一管控对象)设定特征数据时，可以首先确定该第一管控对象所属的类簇对象，在具体实现中，可以采用相似度算法计算第一管控对象与每个类簇对象的相似度，并将相似度小于预设值的类簇对象作为该第一管控对象对应的类簇对象。

确定第一管控对象对应的类簇对象以后，可以以该第一管控对象对应的类簇对象的特征数据分布区间为数据参考支持，将该特征数据最小值控制在该第一管控对象对应的类簇对象的最小的特征数据区间，以及，将该特征数据最大值控制在该第一管控对象对应的类簇对象的最大的特征数据区间，从而完成对第一管控对象的管控，保障特征数据设定的合理性。

例如，在图3中，最左端的区间为低价价格区间，即定出最低价格线，防止定价过低扰乱正常的平台竞争的现象，并降低了假货泛滥的现象，提高了电商平台的整体形象。详言之，在电商平台实施本申请实施例，可以取得如下有益效果：

(1)合理的价格区间：要求对于相同类目属性的商品制定合理的价格区间，避免价格过高或者过低带来的不利影响，同时为品牌商和卖家的定价策略提供数据参考支持。

(2)最低价格线：要求对相同类目属性的商品制定出最低价格线，防止定价过低引起的扰乱正常的平台竞争，甚至会出现假货泛滥，影响平台整体形象的问题。

在本申请实施例中，将第一管控对象进行聚类得到类簇对象以后，还可以以特征数据集合为样本点集合，估计每个类簇对象的密度分布，并根据密度分布为每个类簇对象确定合理的特征数据分布区间，为第一管控对象的特征数据的设定提供数据参考支持，防止特征数据设定过高或过低带来的不良影响。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请实施例并不受所描述的动作顺序的限制，因为依据本申请实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本申请实施例所必须的。

参照图4，示出了本申请一种数据管控的系统实施例的结构框图，所述系统可以包括如下模块：

聚类模块401，用于将多个第一管控对象聚类成一个或以上的类簇对象；

数据分布确定模块402，用于基于预设的特征数据集合，确定所述一个或以上的类簇对象的特征数据分布区间；

数据控制模块403，用于将所述第一管控对象的特征数据控制在对应的类簇对象的特征数据分布区间内。

在本申请实施例的一种优选实施例中，所述第一管控对象具有对应的第二管控对象，所述聚类模块401可以包括如下子模块：

在本申请实施例的一种优选实施例中，所述特征数据分布区间从左到右包括左部区间、最高段分布区间以及右部区间；

所述数据分布确定模块402可以包括如下子模块：

在本申请实施例的一种优选实施例中，所述第二区间获取子模块还用于：

确定所述最高点的分位数；

获取所述类簇对象中的特征数据的中位数；

在本申请实施例的一种优选实施例中，若所述左部区间及所述右部区间均有多个，则将所述左部区间中最左端的区间作为所述类簇对象的最小的特征数据区间；以及，将所述右部区间中最右端的区间作为所述类簇对象的最大的特征数据区间；

所述数据控制模块403还用于：

在本申请实施例的一种优选实施例中，所述系统应用于电商平台中，则所述第一管控对象为商品对象；所述类簇对象为商品类簇；所述特征数据为商品价格；所述第二管控对象为商家对象。

对于系统实施例而言，由于其与上述方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

参照图5，示出了本申请的一种对管控数据进行数据分层的方法实施例的步骤流程图，可以包括如下步骤：

步骤501，将多个第一管控对象聚类成一个或以上的类簇对象；

步骤502，基于预设的特征数据集合，确定所述一个或以上的类簇对象的特征数据分布区间。

在本申请实施例的一种优选实施例中，本发明实施例还可以包括如下步骤：

在本申请实施例的一种优选实施例中，所述第一管控对象具有对应的第二管控对象，所述步骤501进一步可以包括：

从所述第一管控对象的属性信息中提取出关键属性；

所述步骤502进一步包括：

在本申请实施例的一种优选实施例中，所述以所述最高段分布区间为基准，将所述最高段分布区间左端的密度分布区域按照第一预设规则划分成对应的一个或多个左部区间；以及，将所述最高段分布区间右端的密度分布区域按照第二预设规则划分成对应的一个或多个右部区间的步骤包括：

确定所述最高点的分位数；

获取所述类簇对象中的特征数据的中位数；

在本申请实施例的一种优选实施例中，所述方法应用于电商平台中，则所述第一管控对象为商品对象；所述类簇对象为商品类簇；所述特征数据为商品价格；所述第二管控对象为商家对象。

对于图5实施例而言，由于其与上述图2方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

参照图6，示出了本申请一种对管控数据进行数据分层的系统实施例的结构框图，所述系统可以包括如下模块：

聚类模块601，用于将多个第一管控对象聚类成一个或以上的类簇对象；

数据分布确定模块602，用于基于预设的特征数据集合，确定所述一个或以上的类簇对象的特征数据分布区间。

在本申请实施例的一种优选实施例中，所述系统还可以包括如下模块：

在本申请实施例的一种优选实施例中，所述第一管控对象具有对应的第二管控对象，所述聚类模块601可以包括如下子模块：

所述数据分布确定模块602可以包括如下子模块：

确定所述最高点的分位数；

获取所述类簇对象中的特征数据的中位数；

所述数据控制模块还用于：

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序操作指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序操作指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的操作指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序操作指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的操作指令产生包括操作指令装置的制造品，该操作指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序操作指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的操作指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种数据管控的方法及系统进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

一种数据管控的方法，其特征在于，所述方法包括：

将多个第一管控对象聚类成一个或以上的类簇对象；

基于预设的特征数据集合，确定所述一个或以上的类簇对象的特征数据分布区间；

将所述第一管控对象的特征数据控制在对应的类簇对象的特征数据分布区间内。
根据权利要求1所述的方法，其特征在于，所述第一管控对象具有对应的第二管控对象，所述将多个第一管控对象聚类成一个或以上的类簇对象的步骤包括：

获取所述第一管控对象的属性信息以及所述第二管控对象的属性信息；

从所述第一管控对象的属性信息中提取出关键属性；

对所有的第二管控对象的属性信息进行聚类，以获得针对所述第二管控对象的多个等级信息；

基于所述等级信息以及所述第一管控对象的关键属性，将所述多个第一管控对象进行聚类，以得到一个或以上的类簇对象。
根据权利要求1或2所述的方法，其特征在于，所述特征数据分布区间从左到右包括左部区间、最高段分布区间以及右部区间；

所述基于预设的特征数据集合，确定所述一个或以上的类簇对象的特征数据分布区间的步骤包括：

基于预设的特征数据集合，分别估计所述类簇对象的特征数据的密度分布；

以所述密度分布的最高点为中点，左右分别取第一预设阈值的范围作为端点，以组成最高段分布区间；

以所述最高段分布区间为基准，将所述最高段分布区间左端的密度分布区域按照第一预设规则划分成对应的一个或多个左部区间；以及，将所述最高段分布区间右端的密度分布区域按照第二预设规则划分成对应的一个或多个右部区间。
根据权利要求3所述的方法，其特征在于，所述以所述最高段分布区间为基准，将所述最高段分布区间左端的密度分布区域按照第一预设规则划分成对应的一个或多个左部区间；以及，将所述最高段分布区间右端的密度分布区域按照第二预设规则划分成对应的一个或多个右部区间的步骤包括：

确定所述最高点的分位数；

获取所述类簇对象中的特征数据的中位数；

若所述最高点的分位数小于或等于所述中位数，则将所述最高段分布区间左端的密度分布区域按照第一预设比例划分成N段，以得到对应的N个左部区间，以及，将所述最高段分布区间右端的密度分布区域按照第二预设比例划分成M段，以得到对应的M个右部区间，其中，N、M为正整数；

若所述最高点的分位数大于所述中位数，则将所述最高段分布区间左端的密度分布区域按照第三预设比例划分成M段，以得到对应的M个左部区间，以及，将所述最高段分布区间右端的密度分布区域按照第四预设比例划分成N段，以得到对应的N个右部区间，其中，N、M为正整数。
根据权利要求3或4所述的方法，其特征在于，若所述左部区间及所述右部区间均有多个，则将所述左部区间中最左端的区间作为所述类簇对象的最小的特征数据区间；以及，将所述右部区间中最右端的区间作为所述类簇对象的最大的特征数据区间；

所述将所述第一管控对象的特征数据控制在对应的类簇对象的特征数据分布区间内的步骤包括：

在为所述第一管控对象设定特征数据时，将所述特征数据最小值控制在所述第一管控对象对应的类簇对象的最小的特征数据区间内，以及，将所述特征数据最大值控制在所述第一管控对象对应的类簇对象的最大的特征数据区间内。
根据权利要求2所述的方法，其特征在于，所述方法应用于电商平台中，则所述第一管控对象为商品对象；所述类簇对象为商品类簇；所述特征数据为商品价格；所述第二管控对象为商家对象。
一种数据管控的系统，其特征在于，所述系统包括：

聚类模块，用于将多个第一管控对象聚类成一个或以上的类簇对象；

数据分布确定模块，用于基于预设的特征数据集合，确定所述一个或以上的类簇对象的特征数据分布区间；

数据控制模块，用于将所述第一管控对象的特征数据控制在对应的类簇对象的特征数据分布区间内。
根据权利要求7所述的系统，其特征在于，所述第一管控对象具有对应的第二管控对象，所述聚类模块包括：

属性信息获取子模块，用于获取所述第一管控对象的属性信息以及所述第二管控对象的属性信息；

关键属性提取子模块，用于从所述第一管控对象的属性信息中提取出关键属性；

等级信息获取子模块，用于对所有的第二管控对象的属性信息进行聚类，以获得针对所述第二管控对象的多个等级信息；

类簇对象获取子模块，用于基于所述等级信息以及所述第一管控对象的关键属性，将所述多个第一管控对象进行聚类，以得到一个或以上的类簇对象。
根据权利要求7或8所述的系统，其特征在于，所述特征数据分布区间从左到右包括左部区间、最高段分布区间以及右部区间；

所述数据分布确定模块包括：

密度分布估计子模块，用于基于预设的特征数据集合，分别估计所述类簇对象的特征数据的密度分布；

第一区间获取子模块，用于以所述密度分布的最高点为中点，左右分别取第一预设阈值的范围作为端点，以组成最高段分布区间；

第二区间获取子模块，用于以所述最高段分布区间为基准，将所述最高段分布区间左端的密度分布区域按照第一预设规则划分成对应的一个或多个左部区间；以及，将所述最高段分布区间右端的密度分布区域按照第二预设规则划分成对应的一个或多个右部区间。
根据权利要求9所述的系统，其特征在于，所述第二区间获取子模块还用于：

确定所述最高点的分位数；

获取所述类簇对象中的特征数据的中位数；

若所述最高点的分位数小于或等于所述中位数，则将所述最高段分布区间左端的密度分布区域按照第一预设比例划分成N段，以得到对应的N个左部区间，以及，将所述最高段分布区间右端的密度分布区域按照第二预设比例划分成M段，以得到对应的M个右部区间，其中，N、M为正整数；

若所述最高点的分位数大于所述中位数，则将所述最高段分布区间左端的密度分布区域按照第三预设比例划分成M段，以得到对应的M个左部区间，以及，将所述最高段分布区间右端的密度分布区域按照第四预设比例划分成N段，以得到对应的N个右部区间，其中，N、M为正整数。
根据权利要求9或10所述的系统，其特征在于，若所述左部区间及所述右部区间均有多个，则将所述左部区间中最左端的区间作为所述类簇对象的最小的特征数据区间；以及，将所述右部区间中最右端的区间作为所述类簇对象的最大的特征数据区间；

所述数据控制模块还用于：

在为所述第一管控对象设定特征数据时，将所述特征数据最小值控制在所述第一管控对象对应的类簇对象的最小的特征数据区间内，以及，将所述特征数据最大值控制在所述第一管控对象对应的类簇对象的最大的特征数据区间内。
根据权利要求8所述的系统，其特征在于，所述系统应用于电商平台中，则所述第一管控对象为商品对象；所述类簇对象为商品类簇；所述特征数据为商品价格；所述第二管控对象为商家对象。
一种对管控数据进行数据分层的方法，其特征在于，所述方法包括：

将多个第一管控对象聚类成一个或以上的类簇对象；

基于预设的特征数据集合，确定所述一个或以上的类簇对象的特征数据分布区间。
一种对管控数据进行数据分层的系统，其特征在于，所述系统包括：

聚类模块，用于将多个第一管控对象聚类成一个或以上的类簇对象；

数据分布确定模块，用于基于预设的特征数据集合，确定所述一个或以上的类簇对象的特征数据分布区间。