WO2015149497A1

WO2015149497A1 - 一种基于分布式的数据统计的方法

Info

Publication number: WO2015149497A1
Application number: PCT/CN2014/088170
Authority: WO
Inventors: 欧阳军; 范伟; 何诚
Original assignee: 华为技术有限公司
Priority date: 2014-03-29
Filing date: 2014-10-09
Publication date: 2015-10-08
Also published as: CN104951472A

Abstract

涉及互联网技术领域，具体涉及一种基于分布式的数据统计的方法及装置。其中方法包括：第二节点接收至少两个第一节点发送的加密的数据集合，所述第一节点以及所述第二节点均为分布式网络中的节点；所述第二节点根据预设的数据属性，利用所述加密的数据集合构造决策树；所述第二节点根据所述预设的数据属性和所述决策树，获取数据的统计结果。提供的技术方案可以解决基于分布式的多个节点的数据统计的安全问题。

Description

一种基于分布式的数据统计的方法

技术领域

本发明涉及互联网技术领域，具体涉及一种基于分布式的数据统计的方法及装置。

背景技术

随着大数据时代的到来，面对海量数据信息，如何从这些信息中提取有效的数据显得尤为重要。

现有技术中有一种方法，该方法将任一数据集合中的数据按照属性构造决策树，通过统计该决策树中的叶子节点的数量即可获取统计结果。

该方法实现了对预设数据源中数据的统计，但是无法解决分布式计算环境下多个节点的数据统计的安全问题。

发明内容

本发明实施例提供了基于分布式的数据统计的方法及装置，可以解决基于分布式的多个节点的数据统计的安全问题。

本发明实施例的第一方面公开了基于分布式的数据统计的方法，所述方法包括：

第二节点接收至少两个第一节点发送的加密的数据集合，所述第一节点以及所述第二节点均为分布式网络中的节点；所述第二节点根据预设的数据属性，利用所述加密的数据集合构造决策树；所述第二节点根据所述预设的数据属性和所述决策树，获取数据的统计结果。

结合第一方面，在第一方面的第一种实现方式中，所述第二节点接收至少两个第一节点发送的加密的数据集合之前，还包括：

所述第二节点向所述第一节点发送公开密钥，以使得所述第一节点根据所述公开密钥对数据集合进行加密获得加密的数据集合。

结合第一方面的第一种实现方式，在第一方面的第二种实现方式中，所述第二节点根据预设的数据属性，利用所述加密的数据集合构造决策树之前，还包括：

所述第二节点按照预设的排列规则，将所述加密的数据集合中的至少一列数据进行重新排列，以获得第一数据集合；

所述第二节点根据私有密钥，对所述第一数据集合进行解密，获得第二数据集合，所述私有密钥与所述公有密钥对应；

所述第二节点根据预设的数据属性，利用所述数据集合构造决策树包括：

所述第二节点根据预设的数据属性，利用所述第二数据集合构造决策树。

结合第一方面或第一方面的第一种实现方式或第一方面的第二种实现方式，在第一方面的第三种实现方式中，所述第二节点根据预设的数据属性，利用所述加密的数据集合构造决策树包括：

所述第二节点确定所述预设的数据属性的值；

所述第二节点按照预设的方式从所述加密的数据集合中逐条获取数据，并确定所述数据的关键属性值；

所述第二节点将所述预设的数据属性的值与所述数据的关键属性值进行比较，并获取比较的结果；

所述第二节点根据所述比较的结果，将所述获取的数据作为叶子节点插入到所述决策树中。

结合第一方面的第三种实现方式，在第一方面的第四种实现方式中，所述第二节点根据所述预设的数据属性和所述决策树，获取数据的统计结果包括：

所述第二节点根据所述预设的数据属性以及所述预设的数据属性的值，确定在所述决策树中需要遍历的叶子节点；

所述第二节点对所述需要遍历的叶子节点进行统计，获取统计的结果。

本发明实施例的第二方面公开了一种基于分布式的数据统计的装置，所述装置包括：

接收单元，用于接收至少两个第一节点发送的加密的数据集合，所述第一节点以及所述第二节点均为分布式网络中的节点；

构造单元，用于根据预设的数据属性，利用所述加密的数据集合构造决策树；

获取单元，用于根据所述预设的数据属性和所述决策树，获取数据的统计结果。

结合第二方面，在第二方面的第一种实现方式中，所述装置还包括发送单元，

所述发送单元，用于向所述第一节点发送公开密钥，以使得所述第一节点根据所述公开密钥对数据集合进行加密获得加密的数据集合；

所述接收单元，用于接收至少两个第一节点发送的加密的数据集合。

结合第二方面或第二方面的第一种实现方式，在第二方面的第二种实现方式中，

所述装置还包括排列单元，解密单元；

所述排列单元，具体用于按照预设的排列规则，将所述接收单元接收的加密的数据集合中的至少一列数据进行重新排列，以获得第一数据集合；

所述解密单元，具体用于根据私有密钥，对所述第一数据集合进行解密，获得第二数据集合，所述私有密钥与所述公有密钥对应；

所述构造单元，具体用于根据预设的数据属性，利用所述第二数据集合构造决策树。

结合第二方面或第二方面的第一种实现方式或第二方面的第二种实现方式，在第二方面的第三种实现方式中，所述生成单元具体包括第一确定子单元，第二确定子单元，比较子单元以及插入子单元；

所述第一确定子单元，具体用于确定所述预设的数据属性的值；

所述第二确定子单元，具体用于按照预设的方式从所述加密的数据集合中逐条获取数据，并确定所述数据的关键属性值；

所述比较子单元，具体用于将所述预设的数据属性的值与所述数据的关键属性值进行比较，并获取比较的结果；

所述插入子单元，具体用于根据所述比较的结果，将所述获取的数据作为叶子节点插入到所述决策树中。

结合第二方面的第三种实现方式，在第二方面的第四种实现方式中，所述获取单元包括第三确定子单元和统计子单元；

所述第三确定子单元，具体用于根据所述预设的数据属性以及所述第一确定子单元确定的预设的数据属性的值，确定在所述决策树中需要遍历的叶子节点；

所述统计子单元，具体用于对所述需要遍历的叶子节点进行统计，获取统计的结果。

从本发明实施例提供的以上技术方案可以看出，使用本发明实施例提供的基于分布式的数据统计方法及装置，根据预设的数据属性，利用加密的数据集合构造决策树，使得数据在加密的情况下完成了数据统计，从而保证了数据的安全性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的基于分布式的数据统计的方法流程图；

图2为本发明另一实施例提供的基于分布式的数据统计的方法流程图；

图3为本发明另一实施例提供的基于分布式的数据统计的方法流程图；

图4为本发明另一实施例提供的基于分布式的数据统计的方法流程图；

图5为本发明一实施例提供的基于分布式的数据统计的装置结构图；

图6为本发明另一实施例提供的基于分布式的数据统计的装置结构图；

图7为本发明另一实施例提供的基于分布式的数据统计的装置结构图；

图8为本发明另一实施例提供的基于分布式的数据统计的装置结构图；

图9为本发明另一实施例提供的基于分布式的数据统计的装置结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面根据图1，描述本发明实施例的一种基于分布式的数据统计的方法，该方法具体包括：

如图1描述本发明实施例的基于分布式的数据统计的方法步骤包括101至103。

101、第二节点接收至少两个第一节点发送的加密的数据集合，所述第一节点以及所述第二节点均为分布式网络中的节点；

其中，第二节点可以是分布式网络中接收数据并进行计算的一类可信赖的服务器或者终端，可以是一个也可以有多个。

其中，第一节点可以是分布式网络中的一台服务器或者一部终端。

可选的，如图4所述，在所述步骤101之前还包括步骤104；

所述步骤104具体为：第二节点向所述第一节点发送公开密钥，以使得所述第一节点根据所述公开密钥对数据集合进行加密获得加密的数据集合。

其中，第二节点拥有与公开密钥对应的私有密钥，只有该私有密钥才可以对被公有密钥加密过的数据解密。

102、所述第二节点根据预设的数据属性，利用所述加密的数据集合构造决策树。

其中，第二节点接收到的加密的数据集合包含很多属性，第二节点可以根据需要选择一种或者几种属性作为预设的数据属性，然后根据预设的数据属性利用接收到的加密的数据集合构造决策树。

其中，通过公开密钥加密的数据集合中的数据会变成密文，处于密文状态的数据可以进行比较大小、加减、求和、求平均值、检索等操作。

在本发明的一个实施例中，例如第二节点接收到的数据集合中有属性为分数一栏，为了统计及格率，就可以以设置的及格分数为判断条件，将接收到的数据集合构造成决策树。例如将分数大于或等于及格分数的数据记录分到树的左边，将分数小于几个数的数据记录分到树的右边，最后分别统计决策树左边子节点的个数和右边子节点的个数，即可获得统计结果。

可选的，如图2所述，在步骤102之前还包括步骤105和步骤106；

所述步骤105为：所述第二节点按照预设的排列规则，将接收的加密的数据集合中的至少一列数据进行重新排列，以获得第一数据集合；

所述步骤106为：所述第二节点根据私有密钥，对所述第一数据集合进行解密，获得第二数据集合，所述私有密钥与所述公有密钥对应；

所述步骤102：所述第二节点根据预设的数据属性，利用所述数据集合构造决策树包括：

在本发明的一个实施例中，第二节点对接收的加密的数据集合中的至少一列数据进行重新排列，因为即使数据的顺序发生变化，对于数据求和、数据求平均值或者比较大小并没有影响，同时还可以掩饰真实信息，所述预设运算包括比较大小、求平均值、求和等运算。

在本发明的一个实施例中，如图3所示，所述步骤102具体包括步骤1021至1024；

步骤1021：所述第二节点确定所述预设的数据属性的值；

在本发明的一个实施例中，例如在一个学生成绩的数据集合中，预设的数据属性为分数，如果需要获得90分以上学生的人数，就可以确定预设的数据属性的值为90。

步骤1022：所述第二节点按照预设的方式从所述加密的数据集合中逐条获取数据，并确定所述数据的关键属性值；

其中，预设的方式可以是随机方式，也可以从前往后的方式，也可以是从后往前的方式等等，也可以自主进行定义。

步骤1023：所述第二节点将所述预设的数据属性的值与所述数据的关键属性值进行比较，并获取比较的结果；

在本发明的一个实施例中，例如需要统计数学成绩高于90分的学生的人数，那么数据的关键属性值即为数学成绩。

步骤1024：所述第二节点根据所述比较的结果，将所述获取的数据作为叶子节点插入到所述决策树中。

103、所述第二节点根据所述数据属性和所述决策树，获取数据的统计结果。

其中，所述数据属性为构造所述决策树的判断条件，根据所述数据属性，统计与该数据属性对应的所述决策树的叶子节点，即可获得统计结果。

在本发明的一个实施例中，如图4所示，所述步骤103具体包括步骤1031至1032：

步骤1031：所述第二节点根据所述预设的数据属性以及所述预设的数据属性的值，确定在所述决策树中需要遍历的叶子节点；

步骤1032：所述第二节点对所述需要遍历的叶子节点进行统计，获取统计的结果。

在本发明的一个实施例中，第二节点接收到第一节点发送的经过公开密钥加密的数据集合，第二节点设置判断属性，例如统计数据集合中男女的性别比例，随机选取数据集合中的数据，判断该数据的属性是男的还是女，可以将属性为男的的数据作为子节点放在随机树根节点的左边，可以将属性为女的的数据作为子节点放在随机树根节点的右边，直至将数据集合中的数据选择完，最后统计随机树根节点左边子节点的数目以及右边子节点的数目，即可获取男女比例。其中，由于数据集合已经被加密，所以在获取男女比例的过程中，数据集合中的信息完全处于密文状态，数据集合中的信息没有被泄露，又由于第二节点中包含至少两个第一节点的数据，那么节点之间的数据也是处于密文状态，保证第一节点数据的安全。

在本发明的一个实施例中，第二节点接收到至少两个第一节点发送的经过公开密钥加密的数据集合，第二节点将接收到的数据集合合并成一个数据集合，然后对合并后的数据集合的中的某一个或者几个属性对应的数据进行调整，例如合并后的集合为集合A，该集合A中包含a、b、c三个属性，可以对集合A中a属性对应的数据按照预设的顺序进行调整，所述预设的顺序可以是随机顺序，也可以从高到底的顺序等等。A中的a属性对应的数据被调整后，对a属性对应的数据求和、比较大小、求平均值等都没有影响，而且保护了原始数据的安全。其中，由于对集合A中的数据做了调整，也可以对A进行私钥解密，使得A中数据可以处于明文状态下进行处理。

从上可知，使用本发明实施例的基于分布式的数据统计方法，根据预设的数据属性，利用加密的数据集合构造决策树，使得数据在加密的情况下完成数据统计，从而还保证了数据的安全性。

下面根据图5描述本发明实施例的一种基于分布式的数据统计的装置20。如图5所示，装置20包括：接收单元201，构造单元202，获取单元203。

接收单元201，用于接收至少两个第一节点发送的加密的数据集合，所述第一节点以及所述第二节点均为分布式网络中的节点；

构造单元202，用于根据预设的数据属性，利用所述加密的数据集合构造决策树；

在本发明的一个实施例中，如图6所述，生成单元202包括第一确定子单元2021，第二确定子单元2022，比较子单元2023以及插入子单元2024。

第一确定子单元2021，具体用于确定所述预设的数据属性的值；

第二确定子单元2022，具体用于按照预设的方式从所述加密的数据集合中逐条获取数据，并确定所述数据的关键属性值；

比较子单元2023，具体用于将所述预设的数据属性的值与所述数据的关键属性值进行比较，并获取比较的结果；

插入子单元2024，具体用于根据所述比较的结果，将所述获取的数据作为叶子节点插入到所述决策树中。

获取单元203，用于根据所述预设的数据属性和所述决策树，获取数据的统计结果。

在本发明的一个实施例中，如图7所述，获取单元203包括第三确定子单元2031以及统计子单元2032；

第三确定子单元2031，具体用于根据所述预设的数据属性以及所述第一确定子单元确定的预设的数据属性的值，确定在所述决策树中需要遍历的叶子节点；

统计子单元2032，具体用于对所述需要遍历的叶子节点进行统计，获取统计的结果。

可选的，如图8所述，所述装置20还包括排列单元204以及解密单元205；

排列单元204，具体用于按照预设的排列规则，将接收单元201接收的加密的数据集合中的至少一列数据进行重新排列，以获得第一数据集合；

解密单元205，具体用于根据私有密钥，第一数据集合进行解密，获得第二数据集合，所述私有密钥与所述公有密钥对应；

构造单元202，具体用于根据预设的数据属性，利用所述第二数据集合构造决策树。

其中，构造单元202接收到的加密的数据集合包含很多属性，装置20可以根据需要选择一种或者几种属性作为预设的数据属性，然后根据预设的数据属性利用接收到的加密的数据集合构造决策树。

可选的，如图4所述，所述装置20还包括发送单元206；

发送单元206，用于向所述第一节点发送公开密钥，以使得所述第一节点根据所述公开密钥对数据集合进行加密获得加密的数据集合；

接收单元201，用于接收至少两个第一节点发送的加密的数据集合。

其中，装置20拥有与公开密钥对应的私有密钥，只有该私有密钥才可以对被公有密钥加密过的数据解密。

图9描述了本发明另一个实施例提供的报文转发设备的结构，包括至少一个处理器301(例如CPU)，存储器302，至少一个网络接口303，和至少一个通信总线304，用于实现这些装置之间的连接通信。处理器301用于执行存储器302中存储的可执行模块，例如计算机程序。存储器302可能包含高速随机存取存储器(RAM：Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个网络接口303(可以是有线或者无线)实现该网络设备与至少一个其他网元之间的通信连接，可以使用互联网，广域网、本地网、城域网等。

在一些实施方式中，存储器302存储了程序3021，程序3021可以被处理器301执行，这个程序包括：

第二节点接收至少两个第一节点发送的加密的数据集合，所述第一节点以及所述第二节点均为分布式网络中的节点；

所述第二节点根据预设的数据属性，利用所述加密的数据集合构造决策树；

所述第二节点根据所述预设的数据属性和所述决策树，获取数据的统计结果。

具体的实施步骤与图1所示的实施例相同，此处不再赘述。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

上述装置和系统内的各模块之间的信息交互、执行过程等内容，由于与本发明方法实施例基于同一构思，具体内容可参见本发明方法实施例中的叙述，此处不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，上述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，上述的存储介质可为磁碟、光盘、只读存储记忆体(ROM：Read-Only Memory)或随机存储记忆体(RAM：Random Access Memory)等。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

一种基于分布式的数据统计的方法，其特征在于，所述方法包括：

第二节点接收至少两个第一节点发送的加密的数据集合，所述第一节点以及所述第二节点均为分布式网络中的节点；

所述第二节点根据预设的数据属性，利用所述加密的数据集合构造决策树；

所述第二节点根据所述预设的数据属性和所述决策树，获取数据的统计结果。
如权利要求1所述的方法，其特征在于，所述第二节点接收至少两个第一节点发送的加密的数据集合之前，还包括：

所述第二节点向所述第一节点发送公开密钥，以使得所述第一节点根据所述公开密钥对数据集合进行加密获得加密的数据集合。
如权利要求2所述的方法，其特征在于，所述第二节点根据预设的数据属性，利用所述加密的数据集合构造决策树之前，还包括：

所述第二节点按照预设的排列规则，将所述加密的数据集合中的至少一列数据进行重新排列，以获得第一数据集合；

所述第二节点根据私有密钥，对所述第一数据集合进行解密，获得第二数据集合，所述私有密钥与所述公有密钥对应；

所述第二节点根据预设的数据属性，利用所述数据集合构造决策树包括：

所述第二节点根据预设的数据属性，利用所述第二数据集合构造决策树。
如权利要求1至3任一所述的方法，其特征在于，所述第二节点根据预设的数据属性，利用所述加密的数据集合构造决策树包括：

所述第二节点确定所述预设的数据属性的值；

所述第二节点按照预设的方式从所述加密的数据集合中逐条获取数据，并确定所述数据的关键属性值；

所述第二节点将所述预设的数据属性的值与所述数据的关键属性值进行比较，并获取比较的结果；

所述第二节点根据所述比较的结果，将所述获取的数据作为叶子节点插入到所述决策树中。
如权利要求4所述的方法，其特征在于，所述第二节点根据所述预设的数据属性和所述决策树，获取数据的统计结果包括：

所述第二节点根据所述预设的数据属性以及所述预设的数据属性的值，确定在所述决策树中需要遍历的叶子节点；

所述第二节点对所述需要遍历的叶子节点进行统计，获取统计的结果。
一种基于分布式的数据统计的装置，其特征在于，所述装置包括：

接收单元，用于接收至少两个第一节点发送的加密的数据集合，所述第一节点以及所述第二节点均为分布式网络中的节点；

构造单元，用于根据预设的数据属性，利用所述加密的数据集合构造决策树；

获取单元，用于根据所述预设的数据属性和所述决策树，获取数据的统计结果。
如权利要求6所述的装置，其特征在于，所述装置还包括发送单元，

所述发送单元，用于向所述第一节点发送公开密钥，以使得所述第一节点根据所述公开密钥对数据集合进行加密获得加密的数据集合；

所述接收单元，用于接收至少两个第一节点发送的加密的数据集合。
如权利要求6或7所述的装置，其特征在于，所述装置还包括排列单元，解密单元；

所述排列单元，具体用于按照预设的排列规则，将所述接收单元接收的加密的数据集合中的至少一列数据进行重新排列，以获得第一数据集合；

所述解密单元，具体用于根据私有密钥，对所述第一数据集合进行解密，获得第二数据集合，所述私有密钥与所述公有密钥对应；

所述构造单元，具体用于根据预设的数据属性，利用所述第二数据集合构造决策树。
如权利要求6至8任一所述的装置，其特征在于，所述生成单元具体包括第一确定子单元，第二确定子单元，比较子单元以及插入子单元；

所述第一确定子单元，具体用于确定所述预设的数据属性的值；

所述第二确定子单元，具体用于按照预设的方式从所述加密的数据集合中逐条获取数据，并确定所述数据的关键属性值；

所述比较子单元，具体用于将所述预设的数据属性的值与所述数据的关键属性值进行比较，并获取比较的结果；

所述插入子单元，具体用于根据所述比较的结果，将所述获取的数据作为叶子节点插入到所述决策树中。
如权利要求9所述的装置，其特征在于，所述获取单元包括第三确定子单元和统计子单元；

所述第三确定子单元，具体用于根据所述预设的数据属性以及所述第一确定子单元确定的预设的数据属性的值，确定在所述决策树中需要遍历的叶子节点；

所述统计子单元，具体用于对所述需要遍历的叶子节点进行统计，获取统计的结果。