WO2023124945A1

WO2023124945A1 - 多方数据处理方法、系统、电子装置和存储介质

Info

Publication number: WO2023124945A1
Application number: PCT/CN2022/138422
Authority: WO
Inventors: 李伟; 邱炜伟; 刘敬; 汪小益; 蔡亮
Original assignee: 杭州趣链科技有限公司
Priority date: 2021-12-28
Filing date: 2022-12-12
Publication date: 2023-07-06
Also published as: CN114296922A

Abstract

一种多方数据处理方法，包括：通过发起方和参与方分别获取各自的数据集以及计算算子；根据计算算子中的数据切割函数对数据集进行数据分割得到子数据集，并将子数据集分配至本方的各个计算从节点，各个计算从节点根据计算算子执行对应的计算逻辑；发起方计算从节点根据各参与方计算从节点提供的相应计算数据得到计算结果，并将计算结果发送至发起方计算主节点；发起方计算主节点根据计算算子对计算结果进行数据聚合，得到聚合数据。

Description

多方数据处理方法、系统、电子装置和存储介质

相关申请

本申请要求2021年12月28日申请的，申请号为202111631336.4，发明名称为“多方数据处理方法、系统、电子装置和存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及数据处理领域，特别是涉及多方数据处理方法、系统、电子装置和存储介质。

背景技术

安全多方计算解决的是针对无可信第三方的情况下，如何安全地计算一个约定函数的问题。安全多方计算中，各个参与方无需向对方或第三方透露其原数据，即可完成需要多个参与方原数据才能完成的约定函数的计算。相关的开源的隐私计算框架如SPDZ(MP-SPDZ:A Versatile Framework for Multi-Party Computation)，ABY3(ABY3:A Mixed Protocol Framework for Machine Learning)等，计算策略都是将数据加载到内存中直接进行计算，当需要计算的数据量越来越大时，只能增大内存来支持，但是当数据量达到TB(Terabyte)甚至PB(petabyte)时，增大内存已无法解决问题，且由于单机的算力有限，数据量过大时，计算速度会非常慢。

目前针对相关技术中多方计算效率低的问题，尚未提出有效的解决方案。

发明内容

根据本申请的各种实施例，提供一种多方数据处理方法、系统、装置和存储介质。

第一方面，本申请提供一种多方数据处理方法，包括：

发起方和参与方分别获取各自的数据集以及计算算子；

根据所述计算算子中的数据切割函数对所述数据集进行数据分割得到子数据集，并将所述子数据集分配至本方的各个计算从节点，各个所述计算从节点根据所述计算算子执行对应的计算逻辑；

发起方计算从节点根据各参与方计算从节点提供的相应计算数据得到计算结果，并将所述计算结果发送至所述发起方计算主节点；

所述发起方计算主节点根据所述计算算子对所述计算结果进行数据聚合，得到聚合数据。

在其中一些实施例中，所述方法还包括：

根据所述数据切割函数，对所述数据集进行数据分割得到所述子数据集并标注子数据集标号，将所述子数据集分配至本方的各个计算从节点，拥有相同子数据集标号的所述发起方计算从节点和所述参与方计算从节点之间执行对应的所述计算逻辑；

发起方计算从节点根据各参与方计算从节点提供的相应计算数据得到计算结果，并将所述计算结果发送至所述发起方计算主节点。

在其中一些实施例中，所述发起方计算从节点根据各参与方计算从节点提供的相应计算数据得到计算结果包括：

所述参与方计算从节点将所述计算数据以及对应的子数据集标号发送至参与方计算主节点，

所述参与方计算主节点将所述计算数据以及对应的子数据集标号发送至所述发起方计算主节点，所述发起方计算主节点根据所述子数据集标号将所述计算数据发送至对应的发起方计算从节点，所述发起方计算从节点根据各参与方计算从节点提供的相应计算数据得到计算结果。

在其中一些实施例中，所述根据所述计算算子中的数据切割函数，对所述数据集进行数据分割得到所述子数据集并标注子数据集标号包括：

在所述数据集为向量类数据集的情况下，按照分段的方式进行切割，子数据集标号包括对应的分段序号；

在所述数据集为集合类数据集的情况下，读取所述数据集中的每一个元素，哈希运算后取模计算出桶号，并写入对应的子数据集文件中，所述子数据集标号包括所述桶号。

在其中一些实施例中，所述发起方和所述参与方分别获取各自的计算算子包括：

所述发起方获取计算算子，解析所述计算算子中的配置文件，读取其中的算法种类和版本号，如果已存在相同算法种类的所述计算算子则执行覆盖；

所述发起方将所述计算算子分发至各个所述参与方。

在其中一些实施例中，所述计算算子包括独立设置的数据切割函数、数据聚合函数、计算逻辑和所述计算数据的消息类型。

第二方面，本申请提供一种多方数据处理系统，包括发起方和参与方，所述发起方包括发起方计算主节点和发起方计算从节点，所述参与方包括参与方计算主节点和参与方计算从节点：

所述发起方和所述参与方分别获取各自的数据集以及计算算子，根据所述计算算子对所述数据集进行数据分割得到子数据集，并将所述子数据集分配至本方的各个计算从节点，各个所述计算从节点根据所述计算算子执行对应的计算逻辑；

发起方计算从节点根据各参与方计算从节点提供的相应计算数据得到计算结果，并将所述计算结果发送至所述发起方计算主节点，所述发起方计算主节点根据所述计算算子对所述计算结果进行数据聚合，得到聚合数据。

在其中一些实施例中，所述计算节点包括计算主节点和计算从节点，每个所述计算节点包括调度器，所述调度器包括虚拟机和网络组件，

所述虚拟机于执行上述任一项所述的多方数据处理方法；

所述网络组件用于在所述计算节点间进行数据通信。

第三方面，本申请提供一种电子装置，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面所述的多方数据处理方法。

第四方面，本申请提供一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一方面所述的多方数据处理方法。

本申请的一个或多个实施例的细节在以下附图和描述中提出，以使本申请的其他特征、目的和优点更加简明易懂。

附图说明

为了更好地描述和说明这里公开的本申请的实施例和/或示例，可以参考一幅或多幅附图。用于描述附图的附加细节或示例不应当被认为是对所公开的申请、目前描述的实施例和/或示例以及目前理解的这些申请的最佳模式中的任何一者的范围的限制。

图1是根据本申请一个实施例的多方数据处理方法的流程图。

图2是根据本申请另一个实施例的多方数据处理方法的流程图。

图3是根据本申请又一实施例的多方数据交互方法的流程图。

图4是根据本申请再一实施例的多方数据交互方法的流程图。

图5是根据本申请可选实施例的多方数据处理方法的示意图。

图6是根据本申请实施例的多方数据处理系统的结构框图。

图7是根据本申请实施例的计算节点的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行描述和说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。基于本申请提供的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。此外，还可以理解的是，虽然这种开发过程中所作出的努力可能是复杂并且冗长的，然而对于与本申请公开的内容相关的本领域的普通技术人员而言，在本申请揭露的技术内容的基础上进行的一些设计，制造或者生产等变更只是常规的技术手段，不应当理解为本申请公开的内容不充分。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是，本申请所描述的实施例在不冲突的情况下，可以与其它实施例相结合。

除非另作定义，本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制，可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形，意图在于覆盖不排他的包含；例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可以还包括没有列出的步骤或单元，或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电气的连接，不管是直接的还是间接的。本申请所涉及的“多个”是指大于或者等于两个。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象，不代表针对对象的特定排序。

本实施例提供了一种多方数据处理方法，图1是根据本申请一个实施例的多方数据处理方法的流程图，如图1所示，该流程包括如下步骤：

步骤S101，发起方和参与方分别获取各自的数据集以及计算算子。多方计算的发起方与参与方分别获取发送到各方的计算算子，该计算算子中包含了各方数据集的切割函数和计算逻辑。此外，发起方和参与方会获取该方上传的用于计算的数据集。

步骤S102，根据计算算子对数据集进行数据分割得到子数据集，并将子数据集分配至本方的各个计算从节点，各个计算从节点根据计算算子执行对应的计算逻辑。在发起方和参与方收到上传的数据集之后，就会根据各自计算算子中的切割函数将各自的数据集进行拆分，得到子数据集。发起方和各个参与方将子数据集发送到本方拥有的各个计算从节点中。发起方和各个参与方拥有的计算从节点数目可以是一样的，也可以是不同的。发起方的从节点可以参与数据计算，或者，在一些实施例中，发起方没有数据上传的情况下，发起方可以作为管理方，仅用于各个参与方数据计算的调度和汇总。各方的计算从节点在获取到子数据集后，根据计算算子中的计算逻辑对子数据集进行相应的计算。需要说明的是，上述计算不仅仅包括简单的数学计算，还包括各种对数据进行筛选、对比或者集合运算等数据处理方式。

步骤S103，发起方计算从节点根据各参与方计算从节点提供的相应计算数据得到计算结果，并将计算结果发送至发起方计算主节点。参与方的计算从节点在执行对应计算逻辑过程中，将计算数据发送至发起方对应的计算从节点，由各个发起方计算从节点完成对参与方相应计算数据的搜集，再与发起方计算从节点中的数据进行计算得到计算结果。各个发起方计算从节点将计算结果发给发起方计算主节点。

步骤S104，发起方计算主节点根据计算算子对计算结果进行数据聚合，得到聚合数据。发起方计算主节点调用计算算子中的聚合函数，将所有计算子节点中的计算结果进行聚合，得到最终的聚合数据，也是多方计算的最终结果。

所述计算算子包括独立设置的数据切割函数、数据聚合函数、计算逻辑和所述计算数据的消息类型。

通过上述步骤，提供了一种通用性高的多方隐私计算的多方数据处理方法，通过计算算子中独立设置的切割函数、计算逻辑、聚合函数和计算数据的消息类型，在数据量巨大的情况下，实现对数据的切割、高效计算处理和聚合。并且，由于切割函数、计算逻辑、聚合函数和计算数据的消息类型的分块设置，算法开发人员无需关注编写数据的切割逻辑、聚合逻辑以及数据在节点间的传输，而仅仅进行计算逻辑的编写与修改。

在其中一些实施例中，图2是根据本申请另一个实施例的多方数据处理方法的流程图，如图2所示，该方法还包括以下步骤：

步骤S201，根据数据切割函数，对数据集进行数据分割得到子数据集并标注子数据集标号，将子数据集分配至本方的各个计算从节点，拥有相同子数据集标号的发起方计算从节点和参与方计算从节点之间执行对应的计算逻辑。在本步骤中，发起方和所有参与方分别对本方的数据集按照算子的数据切割函数拆分成多个子数据集的同时会返回每个子数据集的id，即子数据集标号。

可选地，数据切割函数中提供了可选的数据切割函数，在数据集为向量类数据集的情况下，按照分段的方式进行切割，子数据集标号包括对应的分段序号。向量运算是对多方相同子数据集标号的数据进行计算，如向量加法，乘法等；

在数据集为集合类数据集的情况下，读取数据集中的每一个元素，哈希运算后取模计算出桶号，并写入对应的子数据集文件中，子数据集标号包括桶号。通常哈希函数也可以称为散列函数，哈希函数的功能是目标key通过一种映射方法，或者说是一种函数运算f，最后得到目标的哈希值，这里的函数f就称为哈希函数或者散列函数。而哈希桶算法，则是为了解决哈希冲突的。也就是不同的目标key通过映射后得到了同样值的哈希值。而所谓的哈希桶算法其实就是链地址解决冲突的方法，例如设置桶的个数为5，也就是f(key)集合的个数，而这样的话，哈希值就可以作为桶的索引，将1,2,3,4,5分别通过f(key)得到1,2,3,4,0，则可将这几个key放入桶1,2,3,4,0的首地址所指的内存中，然后处理值为6的key，得到哈希值值为1，需要放入桶1中，但桶1的首地址已经有了元素1，那么就可以为每个桶开辟一片内存，内存中存放所有哈希值相同的key，冲突的key之间用单向链表进行存储，就解决了哈希冲突。在查找对应key的时候，只需要通过key索引到对应的桶，然后从桶的首地址对应的节点开始查找，就是链表顺序找到，对比key的值，直到找到对应key的信息。在本实施例中，对数据集中的元素进行哈希桶运算，计算出桶号写入对应的子数据集文件，且用桶号作为子数据集标号。

需要说明的是，上述实施例中提供的两种预设的数据分割函数由于可以涵盖大多数数据分割场景，因此在调用本方法提供的计算算子的情况下，无需对数据分割函数进行额外的编写和设定。在多方计算过程中，若有其他数据切割方式的需求，也可以通过修改计算算子中数据切割函数的部分，进行数据切割方式的编辑和调用，上述数据切割函数不用于限制本方法所适用的数据切割方式。

步骤S202，发起方计算从节点根据各参与方计算从节点提供的相应计算数据得到计算结果，并将计算结果发送至所述发起方计算主节点。由于子数据集是根据计算算子中的数据切割函数进行分割的，多方计算过程中需要进行协议数据交互的子数据集拥有相同的子数据集标号。发起方的各个计算从节点同时开始执行计算算子中的发起方逻辑，参与方的各个计算从节点同时开始执行计算算子中的参与方逻辑，拥有相同子数据集id的发起方和参与方节点之间会执行对应的算法逻辑，并可能产生数据交互。

在本实施例中，通过对数据切割后的子数据集进行子数据集标号的标注，需要进行多方交互的子数据集在发起方以及各个参与方中拥有相同的子数据集标号。将进一步提高多方安全计算的效率。

在其中一些实施例中，图3是根据本申请又一实施例的多方数据交互方法的流程图，如图3所示，发起方计算从节点根据各参与方计算从节点提供的相应计算数据得到计算结果包括：

步骤S301，参与方计算从节点将计算数据以及对应的子数据集标号发送至参与方计算主节点；

步骤S302，参与方计算主节点将计算数据以及对应的子数据集标号发送至发起方计算主节点，发起方计算主节点根据子数据集标号将计算数据发送至对应的发起方计算从节点，发起方计算从节点根据各参与方计算从节点提供的相应计算数据得到计算结果。

在本实施例中，提供了一种数据交互方式，即运算过程中发起方以及各个参与方之间的数据交互，需要通过各方的计算主节点进行传输，而不能通过各方的计算从节点之间直接进行，从而提高了计算数据的安全性。

在一些实施例中，图4是根据本申请再一实施例的多方数据交互方法的流程图，如图4所示，发起方和所述参与方分别获取各自的计算算子包括：

步骤S401，发起方获取计算算子，解析计算算子中的配置文件，读取其中的算法种类和版本号，如果已存在相同算法种类的计算算子则执行覆盖。编写好计算算子代码被打包上传到该计算算子调用发起方的系统中，系统解析该计算算子包中的配置文件，读取其中的算法种类和版本号，如果已存在相同种类和版本的计算算子包则覆盖，替换旧的计算算子包。

步骤S402，发起方将计算算子分发至各个参与方。由发起方将计算算子分发至各个参与方。计算算子的分发方式不限于由发起方进行获取、更新和分发。

本实施例中提供了计算算子的注册流程，支持计算算子的动态升级替换，当参与方较多且各方计算从节点数量扩展到几十个时，可以很方便的进行系统的运维。

下面通过可选实施例对本申请实施例进行描述和说明。

图5是根据本申请可选实施例的多方数据处理方法的示意图，如图5所示，多方安全隐私计算的计算算子执行流程如下：

步骤S1，计算算子的发起方和各参与方分别上传数据集到本方的系统中。

步骤S2，隐私计算的发起方将本次调用的算子分发给所有参与方，以保证所有方的算子是最新的。图5中仅标注了参与计算的机构1和机构2，在机构1发起隐私计算的情况下，则机构1视为发起方，机构2视为参与方，以此类推。

步骤S3，发起方和所有参与方分别对本方的数据集按照算子的数据切割函数拆分成多个子数据集，同时返回每个子数据集的子数据集标号即子数据集id。如图5，机构1和机构2中的数据集执行数据集切割后分别得到子数据0、子数据集1和子数据集2。

数据切割函数中提供了两种适用度较高的默认可选数据切割方式：如果是向量类数据集，则直接按照分段的方式进行切割，子数据集id包括对应的序号；如果是集合类数据集，集合运算、多方交集、并集或者补集等，则读取数据集中的每一个元素，哈希桶运算后计算出其属于的子数据集桶号，并写入到对应子数据集文件中，子数据集id包括计算出的桶号。

步骤S4，发起方和每一个参与方都将子数据集平均分配发送到本方拥有的所有隐私计算从节点中。平均分配是为了进一步提高计算效率，防止各个计算从节点的计算量有较大的差异，实际应用中的子数据集分配方式不做限制。如图5，各个计算节点，包括计算主节点和计算从节点，分别分配得到一个子数据集。

步骤S5，发起方每一个用于隐私计算的计算从节点同时开始执行计算算子的发起方逻辑，参与方的每一个用于隐私计算的计算从节点同时开始执行计算算子的参与方逻辑，使用的数据都是由主节点分配的子数据集。

步骤S6，拥有相同子数据集id的发起方和参与方节点之间执行隐私计算相应的算法逻辑。在各方数据交互过程中，从节点无法直接向其他机构的从节点发送数据，需要先发送给本方的计算主节点，再由本方的计算主节点将数据和数据所属的子数据集id发送给对方的计算主节点，对方的计算主节点收到后，根据数据所属的子数据集id发送给对应接收数据的计算从节点。如图5所示，机构1和机构2的计算主节点之间有数据传输，而分配有相同子数据集标号的计算从节点例如机构1的计算从节点1和机构2的计算从节点2之间没有实际的数据传输，但是会执行计算算子所约定的相应算法。计算从节点之间的数据传输仅与本机构的计算主节点之间产生。

步骤S7，当所有子数据集都执行完算法逻辑后，发起方的所有计算从节点将所有的计算结果都发送给计算主节点。由发起方计算主节点调用算子包中的聚合函数将所有子结果聚合成完整的计算结果。

通过上述可选实施例，系统原生支持数据量的扩展，隐私计算算法开发人员无需在算法流程中关注编写数据的拆分计算和聚合计算逻辑以及数据在节点间的传输，可以更专注于算法本身逻辑的编写。该方法支持隐私计算算子的动态升级替换，当节点数量扩展到几十个时，可以很方便的进行系统的运维。

需要说明的是，在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。例如，步骤S1和步骤S2的顺序可以进行互换。

本实施例还提供了一种多方数据处理系统，该系统用于实现上述实施例及可选实施方式。如以下所使用的，术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图6是根据本申请实施例的多方数据处理系统的结构框图，如图6所示，该系统包括发起方60和参与方64，实际应用中发起方和参与方的数量可能不止一个。发起方60包括发起方计算主节点62和发起方计算从节点63，参与方64包括参与方计算主节点66和参与方计算从节点67：

发起方60和参与方64分别获取各自的数据集以及计算算子，根据计算算子对数据集进行数据分割得到子数据集，并将子数据集分配至本方的各个计算从节点，包括发起方计算从节点63和参与方计算从节点67，各个计算从节点根据计算算子执行对应的计算逻辑；

发起方计算从节点63和参与方计算从节点67执行计算逻辑过程中，发起方计算从节点63根据各参与方计算从节点67提供的相应计算数据得到计算结果，并将计算结果发送至发起方计算主节点62，发起方计算主节点62根据计算算子对计算结果进行数据聚合，得到聚合数据。

在一些实施例中，图7是根据本申请实施例的计算节点的结构框图，如图7所示，计算节点包括计算主节点和计算从节点，每个计算节点包括调度器72，调度器包括虚拟机74和网络组件76，虚拟机74用于执行上述各个实施例以及可选实施例中的多方数据处理方法。网络组件76用于在计算节点间进行数据通信，实现数据交互以及计算算子分发等。

在一些实施例中，发起方60和参与方64根据数据切割函数，对数据集进行数据分割得到子数据集并标注子数据集标号，将子数据集分配至本方的各个计算从节点，发起方计算从节点63和参与方计算从节点67，拥有相同子数据集标号的发起方计算从节点63和参与方计算从节点67之间执行对应的计算逻辑；

在执行所述计算逻辑过程中，参与方计算从节点67将计算数据发送至拥有相同子数据集标号的发起方计算从节点63，发起方计算从节点63根据各参与方计算从节点67提供的相应计算数据得到计算结果，并将计算结果发送至发起方计算主节点62。

在一些实施例中，参与方计算从节点67将计算数据以及对应的子数据集标号发送至参与方计算主节点66，参与方计算主节点66将计算数据以及对应的子数据集标号发送至发起方计算主节点62，发起方计算主节点62根据子数据集标号将计算数据发送至对应的发起方计算从节点63，发起方计算从节点63根据各参与方计算从节点提供的相应计算数据得到计算结果。

需要说明的是，上述各个模块可以是功能模块也可以是程序模块，既可以通过软件来实现，也可以通过硬件来实现。对于通过硬件来实现的模块而言，上述各个模块可以位于同一处理器中；或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，在此不再赘述。

本实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

发起方和参与方分别获取各自的数据集以及计算算子；

根据计算算子中的数据切割函数对数据集进行数据分割得到子数据集，并将子数据集分配至本方的各个计算从节点，各个计算从节点根据计算算子执行对应的计算逻辑；

发起方计算从节点根据各参与方计算从节点提供的相应计算数据得到计算结果，并将计算结果发送至发起方计算主节点；

发起方计算主节点根据计算算子对计算结果进行数据聚合，得到聚合数据。

在一些实施例中，上述处理器还可以被设置为通过计算机程序执行以下步骤：

在所述数据集为向量类数据集的情况下，按照分段的方式进行切割，子数据集标号就是其对应的分段序号；

在所述数据集为集合类数据集的情况下，读取所述数据集中的每一个元素，哈希运算后取模计算出桶号，并写入对应的子数据集文件中，所述子数据集标号为所述桶号。

所述发起方将所述计算算子分发至各个所述参与方。

在一些实施例中，所述计算算子包括独立设置的数据切割函数、数据聚合函数、计算逻辑和所述计算数据的消息类型。

需要说明的是，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

另外，结合上述实施例中的多方数据处理方法，本申请实施例可提供一种存储介质来实现。该存储介质上存储有计算机程序；该计算机程序被处理器执行时实现上述实施例中的任意一种多方数据处理方法。

可选地，在本实施例中，上述计算机程序被处理器执行时实现以下步骤：

发起方和参与方分别获取各自的数据集以及计算算子；

在一些实施例中，上述计算机程序被处理器执行时实现以下步骤：

所述发起方将所述计算算子分发至各个所述参与方。

本领域的技术人员应该明白，以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

一种多方数据处理方法，其特征在于，包括：

发起方和参与方分别获取各自的数据集以及计算算子；

根据所述计算算子中的数据切割函数对所述数据集进行数据分割得到子数据集，并将所述子数据集分配至本方的各个计算从节点，各个所述计算从节点根据所述计算算子执行对应的计算逻辑；

发起方计算从节点根据各参与方计算从节点提供的相应计算数据得到计算结果，并将所述计算结果发送至所述发起方计算主节点；

所述发起方计算主节点根据所述计算算子对所述计算结果进行数据聚合，得到聚合数据。
根据权利要求1所述的多方数据处理方法，其中，所述方法还包括：

根据所述数据切割函数，对所述数据集进行数据分割得到所述子数据集并标注子数据集标号，将所述子数据集分配至本方的各个计算从节点，拥有相同子数据集标号的所述发起方计算从节点和所述参与方计算从节点之间执行对应的所述计算逻辑；

发起方计算从节点根据各参与方计算从节点提供的相应计算数据得到计算结果，并将所述计算结果发送至所述发起方计算主节点。
根据权利要求2所述的多方数据处理方法，其中，所述发起方计算从节点根据各参与方计算从节点提供的相应计算数据得到计算结果包括：

所述参与方计算从节点将所述计算数据以及对应的子数据集标号发送至参与方计算主节点，

所述参与方计算主节点将所述计算数据以及对应的子数据集标号发送至所述发起方计算主节点，所述发起方计算主节点根据所述子数据集标号将所述计算数据发送至对应的发起方计算从节点，所述发起方计算从节点根据各参与方计算从节点提供的相应计算数据得到计算结果。
根据权利要求2所述的多方数据处理方法，其中，所述根据所述计算算子中的数据切割函数，对所述数据集进行数据分割得到所述子数据集并标注子数据集标号包括：

在所述数据集为向量类数据集的情况下，按照分段的方式进行切割，子数据集标号包括对应的分段序号；

在所述数据集为集合类数据集的情况下，读取所述数据集中的每一个元素，哈希运算后取模计算出桶号，并写入对应的子数据集文件中，所述子数据集标号包括所述桶号。
根据权利要求2所述的多方数据处理方法，其中，所述发起方和所述参与方分别获取各自的计算算子包括：

所述发起方获取计算算子，解析所述计算算子中的配置文件，读取其中的算法种类和版本号，如果已存在相同算法种类的所述计算算子则执行覆盖；

所述发起方将所述计算算子分发至各个所述参与方。
根据权利要求1所述的多方数据处理方法，其中，所述计算算子包括独立设置的数据切割函数、数据聚合函数、计算逻辑和所述计算数据的消息类型。
一种多方数据处理系统，包括发起方和参与方，所述发起方包括发起方计算主节点和发起方计算从节点，所述参与方包括参与方计算主节点和参与方计算从节点：

所述发起方和所述参与方分别获取各自的数据集以及计算算子，根据所述计算算子对所述数据集进行数据分割得到子数据集，并将所述子数据集分配至本方的各个计算从节点，各个所述计算从节点根据所述计算算子执行对应的计算逻辑；

并将所述计算结果发送至所述发起方计算主节点，所述发起方计算主节点根据所述计算算子对所述计算结果进行数据聚合，得到聚合数据。
根据权利要求7所述的多方数据处理系统，其中，所述计算节点包括计算主节点和计算从节点，每个所述计算节点包括调度器，所述调度器包括虚拟机和网络组件，

所述虚拟机于执行如权利要求1至6中任一项所述的多方数据处理方法；

所述网络组件用于在所述计算节点间进行数据通信。
一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行权利要求1所述的多方数据处理方法。
根据权利要求9所述的电子装置，其中，所述处理器被设置为运行所述计算机程序以执行：

根据所述数据切割函数，对所述数据集进行数据分割得到所述子数据集并标注子数据集标号，将所述子数据集分配至本方的各个计算从节点，拥有相同子数据集标号的所述发起方计算从节点和所述参与方计算从节点之间执行对应的所述计算逻辑；

发起方计算从节点根据各参与方计算从节点提供的相应计算数据得到计算结果，并将所述计算结果发送至所述发起方计算主节点。
根据权利要求10所述的电子装置，其中，所述处理器被设置为运行所述计算机程序以执行：

所述参与方计算从节点将所述计算数据以及对应的子数据集标号发送至参与方计算主节点，

所述参与方计算主节点将所述计算数据以及对应的子数据集标号发送至所述发起方计算主节点，所述发起方计算主节点根据所述子数据集标号将所述计算数据发送至对应的发起方计算从节点，所述发起方计算从节点根据各参与方计算从节点提供的相应计算数据得到计算结果。
根据权利要求10所述的电子装置，其中，所述处理器被设置为运行所述计算机程序以执行：

在所述数据集为向量类数据集的情况下，按照分段的方式进行切割，子数据集标号就是其对应的分段序号；

在所述数据集为集合类数据集的情况下，读取所述数据集中的每一个元素，哈希运算后取模计算出桶号，并写入对应的子数据集文件中，所述子数据集标号为所述桶号。
根据权利要求10所述的电子装置，其中，所述处理器被设置为运行所述计算机程序以执行：

所述发起方获取计算算子，解析所述计算算子中的配置文件，读取其中的算法种类和版本号，如果已存在相同算法种类的所述计算算子则执行覆盖；

所述发起方将所述计算算子分发至各个所述参与方。
根据权利要求9所述的电子装置，其中，所述计算算子包括独立设置的数据切割函数、数据聚合函数、计算逻辑和所述计算数据的消息类型。
一种存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行权利要求1所述的多方数据处理方法。