WO2016123808A1

WO2016123808A1 - 数据处理系统、计算节点和数据处理的方法

Info

Publication number: WO2016123808A1
Application number: PCT/CN2015/072451
Authority: WO
Inventors: 黄国位; 颜友亮; 朱望斌
Original assignee: 华为技术有限公司
Priority date: 2015-02-06
Filing date: 2015-02-06
Publication date: 2016-08-11
Also published as: CN106062732B; EP3239853A4; EP3239853A1; JP6508661B2; CN106062732A; US20170331886A1; KR20170103949A; JP2018508887A; KR101999639B1; US10567494B2

Abstract

一种数据处理系统、计算节点和数据处理的方法，该数据处理系统（100）包括：管理节点（110）和第一类计算节点（120），管理节点（110）用于向第一类计算节点（120）分配第一处理任务，第一类计算节点（120）中的至少两个计算节点（121）并行处理管理节点（110）分配的第一处理任务，计算节点（121）对数据块M _x以及数据块V _1x执行合并combine2操作和归约reduce2操作获得的第一中间结果，管理节点（110）根据第一类计算节点（120）获得的第一中间结果获得待处理数据集的处理结果。所述数据处理系统（100），对数据块进行合并操作和归约操作时，不需要等待所有的合并操作全部进行完成之后再进行归约操作，而是合并操作和归约操作交替进行，从而可以节省计算所占用的内存空间，减少计算时间。

Description

数据处理系统、计算节点和数据处理的方法

技术领域

本发明涉及计算机技术领域，尤其涉及图计算领域中数据处理系统、计算节点和数据处理的方法。

背景技术

随着信息通信技术(Information Communication Technology,ICT)的不断发展，信息互联网络中产生的数据呈现爆炸式增长。通过对这些数据进行数据挖掘和机器学习，可以获得大量的有价值信息。数据挖掘和机器学习的研究对象通常是一个对象集合以及这些对象之间的关系(例如：社交网络)，以上研究对象可以表示成数学意义中的图(Graph)的形式。图用于描述对象与对象之间的关系，从直观上看，图可以由一些小圆点和连接这些圆点的线组成，圆点称为图的顶点(Vertex)，连接圆点的线称为边(Edge)。

由此，数据挖掘和机器学习算法可以转化为对图的操作即图计算。为了能够对图进行操作，要选择一种数据结构来表示图。目前，图的表示方式主要有两种：邻接表和邻接矩阵。邻接表是用对象来表示顶点，用指针或引用来表示边，采用这种数据结构方式不利于对图进行并行化处理；邻接矩阵，在本文中简称矩阵，是用一个二维矩阵来存储各顶点之间的邻接关系，采用这种数据结构方式可以很好地对图进行并行化处理，并且，采用矩阵存储数据时，数据的存储量较小。

图计算中的矩阵计算理论上可以包括矩阵向量乘操作和矩阵矩阵乘操作。现有的矩阵向量乘方操作，例如广义的可迭代的矩阵向量乘(Generalized Iterated Matrix-Vector multiplication，GIMV)是将矩阵中的某一行的元素与向量的元素进行两两合并操作，待该行的元素与向量的元素所有的两两合并操作完成后，对两两合并操作的结果进行全局合并操作。这就导致了在计算过程中需要占用一个矩阵大小的中间内存空间，从而对系统硬件设备提出更高的要求，并且如果将矩阵向量乘应用于分布式环境下时，系统需要进行大量的数据传输，使得计算花费大量的时间。

发明内容

本发明实施例提供一种数据处理系统、计算节点和数据处理的方法，能够使得在进行数据处理时所占用的内存空间更小，可以减少计算时间。

第一方面，本发明实施例提供了一种数据处理系统，所述数据处理系统包括管理节点和第一类计算节点，

所述管理节点用于：

向所述第一类计算节点中包括FC_x在内的至少两个计算节点分配第一处理任务，其中，FC_x为所述至少两个计算节点中的第x个计算节点，x为正整数；

所述第一类计算节点中的至少两个计算节点并行处理所述管理节点分配的第一处理任务；

所述计算节点FC_x，用于根据所述管理节点分配的第一处理任务，获取待处理的数据集中的数据块M_x和数据块V_1x，其中，所述数据块M_x为包含m行n列数据的矩阵，所述数据块V_1x为包含n维数据的向量，m和n为正整数，n的值不小于2；

对所述数据块M_x以及所述数据块V_1x执行合并combine2操作和归约reduce2操作，以获得第一中间结果V′_x，所述第一中间结果V′_x为包括m维数据的向量，所述第一中间结果V′_x中的元素为v′_i，i为变量，i的取值分别从1到m，其中，v′_i＝v′_i,n，v′_i,n根据v′_i,j＝reduce2(v′_i,j-1,combine2(m_i,j,v_j))获得，m_i,j为所述数据块M_x中的元素，v_j为所述数据块V_1x中的元素，j为变量，j的取值分别从1到n；

所述管理节点，还用于根据所述第一类计算节点中的至少两个计算节点获得的第一中间结果获得所述待处理数据集的处理结果。

结合第一方面，在第一方面的第一种可能的实现方式中，所述数据处理系统中还包括第二类计算节点，所述管理节点具体用于：

根据所述第一类计算节点中的至少两个计算节点获得的第一中间结果，向所述第二类计算节点中包括SC_y在内的至少一个计算节点分配第二处理任务，其中，SC_y为所述至少一个计算节点中的第y个计算节点，y为正整数；

所述计算节点SC_y用于：

根据所述第二处理任务获取所述第一类计算节点中的至少两个计算节点获得的第一中间结果，其中，所述SC_y获取的第一中间结果是根据所述待处理数据集中位于同一行的数据块获得的第一中间结果；

将所述SC_y获取的第一中间结果执行reduce2操作，以获得第二中间结果V″_y，其中，所述第二中间结果V″_y为包含m维数据的向量；

所述管理节点具体用于：

根据所述第二类计算节点中的至少一个计算节点获得的第二中间结果获得所述待处理数据集的处理结果。

第二方面，本发明实施例提供了另一种数据处理系统，所述数据处理系统包括管理节点和第一类计算节点，

所述管理节点用于：

所述计算节点FC_x，用于根据所述管理节点分配的第一处理任务获取待处理的数据集中的数据块M_1x和数据块M_2x，其中，所述数据块M_1x为包含m行n列数据的矩阵，所述数据块M_2x为包含n行p列数据的矩阵，m、n和P为正整数，n的值不小于2；

对所述数据块M_1x以及所述数据块M_2x执行合并combine2操作和归约reduce2操作，以获得第一中间结果M′_x，所述第一中间结果M′_x为包括m行p列数据的矩阵，所述第一中间结果M′_x中的元素为m′_i,j，i和j为变量，i的取值分别从1到m，j的取值分别从1到p，其中，m′_i,j＝m′_i,j,n，m′_i,j,n根据m′_i,j,k＝reduce2(m′_i,j,k-1,combine2(m_1[i,k],m_2[k,j]))获得，m_1[i,k]为所述数据块M_1x中第i行第k列的元素，m_2[k,j]为所述数据块M_2x中第k行第j列的元素，k为变量，k的取值分别从1到n；

结合第二方面，在第二方面的第一种可能的实现方式中，所述数据处理系统中还包括第二类计算节点，所述管理节点具体用于：

所述计算节点SC_y用于：

根据所述第二处理任务获取所述第一类计算节点中的至少两个计算节点获得的第一中间结果，其中，所述SC_y获取的第一中间结果是根据所述待处理数据集中位于同一行的数据块M_1x和位于同一列的数据块M_2x获得的第一中间结果；

将所述SC_y获取的第一中间结果执行reduce2操作，以获得第二中间结果M″_y，其中，所述第二中间结果M″_y为包含m行p列数据的矩阵；

所述管理节点具体用于：

根据所述第二类计算结果中的至少一个计算节点获得的第二中间结果获得所述待处理数据集的处理结果。

第三方面，本发明实施例提供了一种计算节点，包括：

接收模块，用于接收数据处理系统中的管理节点分配的第一处理任务，其中，所述数据处理系统包括所述计算节点和所述管理节点；

获取模块，用于根据所述接收模块接收的所述管理节点分配的所述第一处理任务，获取待处理的数据集中的数据块M_x和数据块V_1x，其中，所述数据块M_x为包含m行n列数据的矩阵，所述数据块V_1x为包含n维数据的向量，m和n为正整数，n的值不小于2；

处理模块，用于对所述数据块M_x以及所述数据块V_1x执行合并combine2操作和归约reduce2操作，以获得第一中间结果V′_x，所述第一中间结果V′_x为包括m维数据的向量，所述第一中间结果V′_x中的元素为v′_i，i为变量，i的取值分别从1到m，其中，v′_i＝v′_i,n，v′_i,n根据v′_i,j＝reduce2(v′_i,j-1,combine2(m_i,j,v_j))获得，m_i,j为所述数据块M_x中的元素，v_j为所述数据块V_1x中的元素，j为变量，j的取值分别从1到n。

结合第三方面，在第三方面的第一种可能的实现方式中，所述计算节点包括物理机、虚拟机或中央处理器CPU。

第四方面，本发明实施例提供了另一种计算节点，包括：

获取模块，用于根据所述接收模块接收的所述管理节点分配的所述第一处理任务，获取待处理的数据集中的数据块M_1x和数据块M_2x，其中，所述数据块M_1x为包含m行n列数据的矩阵，所述数据块M_2x为包含n行p列数据的矩阵，m、n和P为正整数，n的值不小于2；

处理模块，用于对所述数据块M_1x以及所述数据块M_2x执行合并combine2操作和归约reduce2操作，以获得第一中间结果M′_x，所述第一中间结果M′_x为包括m行p列数据的矩阵，所述第一中间结果M′_x中的元素为m′_ij，i和j为变量，i的取值分别从1到m，j的取值分别从1到p，其中，m′_i,j＝m′_i,j,n，m′_i,j,n根据m′_i,j,k＝reduce2(m′_i,j,k-1,combine2(m_1[i,k],m_2[k,j]))获得，m_1[i,k]为所述数据块M_1x中第i行第k列的元素，m_2[k,j]为所述数据块M_2x中第k行第j列的元素，k为变量，k的取值分别从1到n。

第五方面，本发明实施例提供了一种数据处理的方法，所述方法应用于数据处理系统中，所述数据处理系统包括管理节点和第一类计算节点，所述方法包括：

所述管理节点向所述第一类计算节点中包括FC_x在内的至少两个计算节点分配第一处理任务，其中，FC_x为所述至少两个计算节点中的第x个计算节点，x为正整数，其中，所述第一类计算节点中的至少两个计算节点并行处理所述管理节点分配的第一处理任务；

所述计算节点FC_x根据所述管理节点分配的第一处理任务，获取待处理的数据集中的数据块M_x和数据块V_1x，其中，所述数据块M_x为包含m行n列数据的矩阵，所述数据块V_1x为包含n维数据的向量，m和n为正整数，n的值不小于2；

所述计算节点FC_x对所述数据块M_x以及所述数据块V_1x执行合并combine2操作和归约reduce2操作，以获得第一中间结果V′_x，所述第一中间结果V′_x为包括m维数据的向量，所述第一中间结果V′_x中的元素为v′_i，i为变量，i的取值分别从1到m，其中，v′_i＝v′_i,n，v′_i,n根据v′_i,j＝reduce2(v′_i,j-1,combine2(m_i,j,v_j))获得，m_i,j为所述数据块M_x中的元素，v_j为所述数据块V_1x中的元素，j为变量，j的取值分别从1到n；

所述管理节点根据所述第一类计算节点中的至少两个计算节点获得的第一中间结果获得所述待处理数据集的处理结果。

结合第五方面，在第五方面的第一种可能的实现方式中，所述数据处理系统还包括至少一个第二类计算节点，所述方法还包括：

所述管理节点根据所述第一类计算节点中的至少两个计算节点获得的第一中间结果，向所述第二类计算节点中包括SC_y在内的至少一个计算节点分配第二处理任务，其中，SC_y为所述至少一个计算节点中的第y个计算节点，y为正整数；

所述计算节点SC_y根据所述第二处理任务获取所述第一类计算节点中的至少两个计算节点获得的第一中间结果，其中，所述SC_y获取的第一中间结果是根据所述待处理数据集中位于同一行的数据块获得的第一中间结果；

所述计算节点SC_y将所述SC_y获取的第一中间结果执行reduce2操作，以获得第二中间结果V″_y，其中，所述第二中间结果V″_y为包含m维数据的向量；

所述管理节点根据所述第二类计算结果中的至少一个计算节点获得的第二中间结果获得所述待处理数据集的处理结果。

结合第五方面的第一种可能的实现方式，在第二种可能的实现方式中，所述数据集还包括数据块V_2x，所述数据块V_2x为包含m维数据的向量，所述方法还包括：

所述管理节点根据所述第二类计算节点中包括SC_y在内的至少一个计算节点获得的第二中间结果，向所述第二类计算节点中包括SC_y在内的至少一个计算节点分配第三处理任务；

所述计算节点SC_y根据所述第三处理任务获取所述数据集中的数据块V_2x；

所述计算节点SC_y对所述SC_y获得的第二中间结果V″_y和所述数据块V_2x执行赋值assign操作，以获得所述待处理数据集的处理结果。第六方面，本发明实施例提供了另一种数据处理的方法，所述方法应用于数据处理系统中，所述数据处理系统包括管理节点和第一计算节点，所述方法包括：

所述计算节点FC_x根据所述管理节点分配的第一处理任务获取待处理的数据集中的数据块M_1x和数据块M_2x，其中，所述数据块M_1x为包含m行n列数据的矩阵，所述数据块M_2x为包含n行p列数据的矩阵，m、n和P为正整数，n的值不小于2；

所述计算节点FC_x对所述数据块M_1x以及所述数据块M_2x执行合并combine2操作和归约reduce2操作，以获得第一中间结果M′_x，所述第一中间结果M′_x为包括m行p列数据的矩阵，所述第一中间结果M′_x中的元素为m′_ij，i和j为变量，i的取值分别从1到m，j的取值分别从1到p，其中，m′_i,j＝m′_i,j,n，m′_i,j,n根据m′_i,j,k＝reduce2(m′_i,j,k-1,combine2(m_1[i,k],m_2[k,j]))获得，m_1[i,k]为所述数据块M_1x中第i行第k列的元素，m_2[k,j]为所述数据块M_2x中第k行第j列的元素，k为变量，k的取值分别从1到n；

结合第六方面，在第一种可能的实现方式中，所述数据处理系统中还包括第二类计算节点，所述方法还包括：

所述计算节点SC_y根据所述第二处理任务获取所述第一类计算节点中的至少两个计算节点获得的第一中间结果，其中，所述SC_y获取的第一中间结果是根据所述待处理数据集中位于同一行的数据块M_1x和位于同一列的数据块M_2x获得的第一中间结果；

所述计算节点SC_y将所述SC_y获取的第一中间结果执行reduce2操作，以获得第二中间结果M″_y，其中，所述第二中间结果M″_y为包含m行p列数据的矩阵；

结合第六方面的第一种可能的实现方式，在第二种可能的实现方式中，所述数据集还包括数据块M_3x，所述数据块M_3x为包含m行p列数据的矩阵，所述方法还包括：

所述计算节点SC_y根据所述第三处理任务获取所述数据集中的数据块 M_3x；

所述计算节点SC_y对所述SC_y获得的第二中间结果M″_y和所述数据块M_3x执行赋值assign操作，以获得所述待处理数据集的处理结果。

基于上述技术方案，本发明实施例提供的数据处理系统、计算节点和数据处理的方法，在对数据块进行合并操作和归约操作时，不需要等待所有的合并操作全部进行完成之后再进行归约操作，而是合并操作和归约操作交替进行，从而可以节省计算所占用的内存空间，减少计算时间。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面所描述的附图仅仅是本发明的一些实施例的附图。

图1是本发明实施例涉及的概念“图”的示意图。

图2是本发明实施例涉及的概念“图”的又一示意图。

图3A是用“有向图”表示对象关系的示意图；图3B是图3A的“有向图”对应的邻接矩阵。

图4是一种矩阵向量乘操作的示意图。

图5是一种矩阵矩阵乘操作的示意图。

图6A是用“带权有向图”表示对象关系的示意图；图6B是图6A的“带权有向图”对应的邻接矩阵。

图7是又一种矩阵向量乘操作的示意图。

图8是本发明实施例提供的一种数据处理系统的示意性框图。

图9是本发明实施例提供的一种数据处理系统进行数据处理的示意性流程图。

图10是本发明实施例提供的一种单源最短路径(Single Source Shortest Path，SSSP)算法的示意图。

图11是本发明实施例提供的又一种数据处理系统的示意性框图。

图12是本发明实施例提供的又一种数据处理系统进行数据处理的示意性流程图。

图13是本发明实施例提供的又一种数据处理系统执行概率传播算法的示意图。

图14是本发明实施例提供的一种计算节点的示意性框图。

图15是本发明实施例提供的又一种计算节点的示意性框图。

图16是本发明实施例提供的又一种计算节点的示意性框图。

图17是本发明实施例提供的又一种计算节点的示意性框图。

图18是本发明实施例提供的一种数据处理的方法的示意性流程图。

图19是本发明实施例提供的又一种数据处理的方法的示意性流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。

为了方便理解，首先，对本说明书中涉及的概念及相关技术进行简要说明。

图：

图用于描述对象与对象之间的关系，从直观上看，图是由一些小圆点和连接这些圆点的线组成，圆点称为图的顶点，连接圆点的线称为边。边可以分为如图1所示的无向边和如图2所示的有向边。其中，图1中包含1-6六个对象，六个对象相互之间的关系由它们之间的无向边表示；图2中包含0-6七个对象，七个对象相互之间的单向关系由它们之间的有向边表示，当对象相互之间的关系由有向边表示时，该图可以称为有向图。

乘：

在本文中，乘可以表示广义乘，也可以表示两个数乘。例如，矩阵向量乘中的乘指的是广义乘，即矩阵的元素与向量对应元素的乘不是传统意义的数乘，而可以是加、减、乘、除、求和、求积、取最大值或取最小值等其它处理，本发明实施例对此不作限定。

邻接矩阵：

邻接矩阵，在本文中简称为矩阵，是用一个二维矩阵来存储图中各顶点之间的邻接关系。如图3A和图3B所示，图3A为一个有向图，有V₁-V₆六个顶点，有向边表示六个顶点之间的相互关系；图3B为对应的邻接矩阵表示形式。通过邻接矩阵表示图，可以很好地对图进行并行化处理。矩阵可分为两种，稠密矩阵和稀疏矩阵。稠密矩阵一般用一个向量或二维向量(向量的向量)表示，分为以行为主序和以列为主序；稀疏矩阵(不存储0元素)一般有COO、CSR和CSC三种存储格式。矩阵数据表示中的0元素(或者，如SSSP算法的无穷值元素)在存储时不用存储，因而，用矩阵表示图可以减小数据存储量。在邻接矩阵的表示方式下，图的大部分操作可以转化为矩阵向量乘(即矩阵与向量乘)操作，或者矩阵矩阵乘(即矩阵与矩阵乘)操作。

矩阵向量乘操作：

矩阵向量乘操作是指基于矩阵与向量之间的一系列运算。矩阵向量乘操作表示图计算的例子：在图3A的有向图中查找V₂的所有好友，可以通过如图4所示的矩阵向量乘的方式来完成。首先构造查询向量，因为查找的是V₂的出度顶点(OutNeighbors)，所以向量的第2个元素置1，其他元素置为0；其次，因为查找的是OutNeighbors，所以邻接矩阵需要进行转置；最后，将转置后的邻接矩阵与构造出来的向量进行相乘(如图4所示)，得到结果向量，如图中所示结果向量的第6位为1，即表示V₂的好友只有V₆，从图3A可以验证这个结果。

矩阵矩阵乘操作：

矩阵矩阵乘操作是指基于矩阵与矩阵之间的一系列运算。矩阵矩阵乘操作表示图计算的例子：计算图3A中两两顶点间的共同好友(出度顶点)个数，可以通过一个矩阵矩阵乘操作实现。首先构造邻接矩阵，如图3B矩阵所示，这里用A表示该矩阵。然后执行B＝(b_ij)＝A*A^T(如图5所示)，得到的矩阵B中的元素b_ij的值，表示第i个顶点与第j个顶点有多少个共同出度顶点。例如，第3行第1列的值为1，表示顶点3与顶点1有一个共同好友。

分布式矩阵：

集群环境中包括多个用于计算的计算单元，矩阵向量乘操作和矩阵矩阵乘操作都基于矩阵分块进行操作，矩阵进行分块后可以称为分布式矩阵，对分布式矩阵可以在多个计算单元上进行并行式处理。

继而，对现有技术中矩阵向量乘模型进行简要介绍。

传统的矩阵操作只针对数值型，且对具体操作作了限定。例如，传统的矩阵向量乘如公式1所示，M_ij与V_j的操作只能是乘法，矩阵某一行与向量乘的结果(每一个乘的结果记为x_j＝M_ijV_j)只能为叠加处理。因此，大大限制了矩阵操作可以表示的算法。例如SSSP算法，就无法用传统的矩阵向量乘来表示。

(公式1)

其中，M为m行n列矩阵，M_ij为将M分块后的矩阵块；V为n维列向量，V_j为将V分块后的向量块；V'为m维列向量。

针对现有矩阵向量乘模型的限制，基于矩阵向量操作的大数据处理系统PEGASUS提出了GIMV模型。GIMV模型扩展了传统的矩阵向量乘：

1.将M_ij与V_j的处理扩展为一个合并操作combine2，combine2是对矩阵元素和向量元素的合并操作，矩阵元素和向量元素的类型可以是不一样的，其操作可以是加、减、乘、除、取最大值、取最小值等，但本发明实施例并不限于此，combine2后返回中间值x_j；

2.对矩阵某一行的combine2结果x₁，…，x_n应用一个合并操作combineAll，combineAll为对多个数值或一个记录集的合并操作，一般为一个函数(例如可以为累加操作)，combineAll后返回中间值

3.将本次计算得到的

与初始向量V的元素V_i进行赋值操作assign，得到本次计算的结果向量的元素的值V'_i。

GIMV模型输入矩阵M和向量V，经过三个操作后输出向量V’，其操作主要有三个算子：

(公式2)

1.combine2(M_ij,V_j)，对M_ij和V_j进行合并操作，得到中间结果x_j；

2.combineAll(x₁,…,x_n)，对矩阵某一行的中间结果x₁，…，x_n进行合并操作，得到中间结果

3.

将初始向量的元素V_i与对应中间值

进行赋值操作，得到结果向量的元素的值V'_i。

GIMV模型可以表示更多的算法，例如SSSP算法可以对应于：combine2操作为“加法”操作，即combine2(M_ij,V_j)＝M_ij+V_j；combineAll操作为“取最小值”操作，即combineAll(x₁,…,x_n)＝min(x₁,…,x_n)；assign操作也是“取最小值”操作，即：

如图6A表示的一个带权有向图，图6B为对应的邻接矩阵M。其中：矩阵M中的值为两点的距离权重，顶点到自身的距离为0，不可达用无穷表示。要求从顶点0出发到其它各个顶点的最短距离，可以用迭代的矩阵向量乘来实现，每一次迭代表示跳数加1得到的最短距离(例如：从顶点1到顶点2表示1跳，从顶点1经过顶点2到达顶点3表示2跳)。

算法首先构造初始向量V，从顶点0出发，所以初始向量V的0位置(第1行的元素)的值为0，如图7中的V所示。计算时，用图6B中的邻接矩阵M转置后乘以初始向量V，然后用SSSP算法的三个算子进行运算：combine2(M_ij,V_j)＝M_ij+V_j，combineAll(x₁,…,x_n)＝min(x₁,…,x_n)，

第一次乘得到的结果向量V'表示，从顶点0出发经过1跳，可以到达其它顶点的最短距离。SSSP算法迭代的停止条件为：如果某次迭代得到的结果向量V'，相比这次迭代的初始向量V没有变化，则算法终止。如果未达到停止条件，算法继续进行迭代，即：将本次迭代的结果向量V'，作为下次迭代的初始向量V，进行下一次迭代；算法得到的最终结果向量V'，就是从顶点0出发到各个顶点的最短距离。

GIMV模型的执行流程为：combineAll操作对矩阵某一行所有的combine2结果进行的操作，需要等到所有combine2操作完成之后才能进行。因此，在计算过程中其需要占用一个矩阵大小的中间内存空间。而且，在分布式环境下，系统需要进行大量的数据传输。assign操作是combineAll得到的中间向量V与初始向量V的操作。因此，两个向量维度必需相等，从另一个角度来说就是矩阵M必需为方阵。且assign的向量只能为初始向量V，这也限制了GIMV模型的表示范围。

本发明正是针对上述方案的缺点对数据处理的方法进行了改进，以减少数据处理的矩阵向量乘操作过程中的中间内存占用以及传输的数据量；此外，基于与本发明矩阵向量乘操作相似的原理，提出了矩阵矩阵乘操作的模型，从而能够表达更多的算法。

图8示出了根据本发明实施例的数据处理系统100的示意性框图。如图8所示，该数据处理系统100包括管理节点110和第一类计算节点120，

该管理节点110用于：

向该第一类计算节点120中包括FC_x121在内的至少两个计算节点分配第一处理任务，其中，FC_x121为该至少两个计算节点中的第x个计算节点，x为正整数；

该第一类计算节点120中的至少两个计算节点并行处理该管理节点110分配的第一处理任务；

该计算节点FC_x121，用于根据该管理节点110分配的第一处理任务，获取待处理的数据集中的数据块M_x和数据块V_1x，其中，该数据块M_x为包含m行n列数据的矩阵，该数据块V_1x为包含n维数据的向量，m和n为正整数，n的值不小于2；

对该数据块M_x以及该数据块V_1x执行合并combine2操作和归约reduce2操作，以获得第一中间结果V′_x，该第一中间结果V′_x为包括m维数据的向量，该第一中间结果V′_x中的元素为v′_i，i为变量，i的取值分别从1到m，其中，v′_i＝v′_i,n，v′_i,n根据v′_i,j＝reduce2(v′_i,j-1,combine2(m_i,j,v_j))获得，m_i,j为该数据块M_x中的元素，v_j为该数据块V_1x中的元素，j为变量，j的取值分别从1到n；

该管理节点110，还用于根据该第一类计算节点120中的至少两个计算节点获得的第一中间结果获得该待处理数据集的处理结果。

因此，本发明实施例提供的数据处理系统，在对数据块进行合并操作和归约操作时，不需要等待所有的合并操作全部进行完成之后再进行归约操作，而是合并操作和归约操作交替进行，从而可以节省计算所占用的内存空间，减少计算时间。

具体而言，本发明实施例提供的数据处理系统100可以应用于大数据处理，由于大数据处理的数据量较大，通常将数据进行分块，把不同的数据块分发给不同的计算节点进行并行计算，以提高计算的效率。该数据处理系统 100包括管理节点110和第一类计算节点120。管理节点110用于接收数据处理任务，并将该数据处理任务切分为多个处理任务，将处理任务分发给计算节点。管理节点110还用于接收各计算节点对其处理任务的执行状态，以管理数据处理的进程。计算节点用于接收管理节点110下发的处理任务，根据处理任务获取数据块，以执行相应的处理任务。计算节点可以获取本计算节点中存储的数据块执行处理任务，也可以获取其它计算节点中存储的数据块执行处理任务。根据处理的任务的类别不同，可以将计算节点按照其处理任务的类别进行分类。例如，处理第一处理任务的为第一类节点，处理第二处理任务的为第二类节点。

在本发明实施例中，管理节点110用于向该第一类计算节点120中包括FC_x121在内的至少两个计算节点分配第一处理任务，其中，FC_x121为该至少两个计算节点中的第x个计算节点，x为正整数。该第一类计算节点120中的至少两个计算节点并行处理该管理节点110分配的第一处理任务。

计算节点FC_x121在接收到管理节点110分配的第一处理任务后，根据第一处理任务，获取待处理的数据集中的数据块M_x和数据块V_1x，其中，该数据块M_x为包含m行n列数据的矩阵，该数据块V_1x为包含n维数据的向量，m和n为正整数，n的值不小于2，可以将对数据块M_x和数据块V_1x的处理视为矩阵向量乘操作。

计算节点FC_x121对该数据块M_x以及该数据块V_1x执行合并combine2操作和归约reduce2操作，以获得第一中间结果V′_x，该第一中间结果V′_x为包括m维数据的向量。该第一中间结果V′_x中的元素为v′_i，i为变量，i的取值分别从1到m，其中，v′_i＝v′_i,n，v′_i,n根据v′_i,j＝reduce2(v′_i,j-1,combine2(m_i,j,v_j))获得，m_i,j为该数据块M_x中的元素，v_j为该数据块V_1x中的元素，j为变量，j的取值分别从1到n。

具体地，对该数据块M_x的第i行第j列元素和该数据块V_1x的第j行元素进行合并操作，以得到该数据块M_x的第i行第j列元素和该数据块V_1x的第j行元素对应的中间结果x_j。这里合并操作可以为前文介绍的combine2处理，用公式可以表示为中间结果x_j＝combine2(m_i,j,v_j)。

继而，对数据块M_x的第i行对应的中间结果x_j执行reduce2操作，以获得该数据块M_x的第i行对应的元素v_i'，i取值分别从1到m，则可以得到第一中间结果V′_x。combine2操作和reduce2操作可以是先计算x₁和x₂，对x₁和 x₂进行reduce2操作；再计算x₃，将x₁和x₂进行reduce2操作后的结果与x₃进行reduce2操作；……；直至将数据块M_x的第i行对应的中间结果x_j全部都经过reduce2操作。reduce2操作并不是等待所有的combine2操作全部进行完成之后才进行的，而是combine2操作和reduce2操作交替进行。这样操作，在计算过程中经过reduce2操作的中间结果x_j可以删除掉，而不需将所有的combine2操作的结果均存储在内存中，因而可以节省内存空间。

应理解，以上过程实质上为一个更新过程，即首先通过reduce2操作得到两个x_j进行reduce2操作后的中间结果，继而通过与其它的x_j或其它的中间结果再进行reduce2操作得到中间结果，不断地更新中间结果。

这里归约reduce2操作可以是加、减、乘、除、取最大值、取最小值等，但本发明实施例并不限于此。此处，reduce2操作对矩阵的某一行各元素对应的中间结果(如x₁,…,x_n)进行处理，不需等到全部的x₁,…,x_n计算完毕后再进行，而是在计算中间结果x_j的过程中逐步展开reduce2处理。

应理解，reduce2操作的优点是，在计算过程中不需关心进行reduce2操作的各元素的顺序，即不论reduce2操作中各元素的顺序是何种的，所得到的结果是唯一的。例如，在scala语言中，一个数组it＝Array(0,1,2,3,4,5)，对该数组进行求和，可以表达为it.reduce(_+_)。在计算的底层，对数据从左边一直加到右边得到的值，和两两进行reduce2求和，直到得到最终值的结果是一样的。上文中的将x₁和x₂进行reduce2操作后的结果与x₃再进行reduce2操作的描述仅是其中的一种实现方式，reduce2操作的执行顺序不限于按照x₁,…,x_n顺序执行，x₁,…,x_n中任意两个进行reduce2操作再与其它的x_j进行reduce2操作均能实现与顺序执行相同的结果，本发明实施例对reduce2操作的顺序不作限定。

管理节点110，还用于根据该第一类计算节点120中的至少两个计算节点获得的第一中间结果获得该待处理数据集的处理结果。第一类计算节点120将第一处理任务完成后，通知管理节点110，管理节点110根据该第一类计算节点120中的至少两个计算节点获得的第一中间结果获得该待处理数据集的处理结果，或者以该第一中间结果作为其它处理任务的基础数据，向相应的计算节点下发使用该第一中间结果进行计算的处理任务。

可选地，作为一个实施例，该数据处理系统100中还包括第二类计算节点，该管理节点110具体用于：

根据该第一类计算节点120中的至少两个计算节点获得的第一中间结果，向该第二类计算节点中包括SC_y在内的至少一个计算节点分配第二处理任务，其中，SC_y为该至少一个计算节点中的第y个计算节点，y为正整数；

该计算节点SC_y用于：

根据该第二处理任务获取该第一类计算节点120中的至少两个计算节点获得的第一中间结果，其中，该SC_y获取的第一中间结果是根据该待处理数据集中位于同一行的数据块获得的第一中间结果；

将该SC_y获取的第一中间结果执行reduce2操作，以获得第二中间结果V″_y，其中，该第二中间结果V″_y为包含m维数据的向量；

该管理节点110具体用于：

根据该第二类计算节点中的至少一个计算节点获得的第二中间结果获得该待处理数据集的处理结果。

具体而言，在完成上述处理后，对第一类计算节点120获得的第一中间结果还可以进行其它处理。例如，当第一类计算节点120中的至少两个计算节点处理的数据块M_x为待处理数据集中位于同一行的数据块时，管理节点110可以根据该第一类计算节点120中的至少两个计算节点获得的第一中间结果，向第二类计算节点中包括SC_y在内的至少一个计算节点分配第二处理任务，其中，SC_y为该至少一个计算节点中的第y个计算节点，y为正整数。

计算节点SC_y用于根据该第二处理任务获取该第一类计算节点120中的至少两个计算节点获得的第一中间结果，其中，该SC_y获取的第一中间结果是根据该待处理数据集中位于同一行的数据块获得的第一中间结果。第二处理任务为将该SC_y获取的第一中间结果执行reduce2操作，以获得第二中间结果V″_y，其中，该第二中间结果V″_y为包含m维数据的向量。将该SC_y获取的第一中间结果执行reduce2操作，与上文中描述的reduce2操作类似，即将待处理数据集中位于同一行的数据块获得的两个第一中间结果先进行reduce2操作，将reduce2操作的结果再与其它的第一中间结果进行reduce2 操作。

管理节点110具体用于根据该第二类计算节点中的至少一个计算节点获得的第二中间结果获得该待处理数据集的处理结果。

可选地，作为一个实施例，该数据集还包括数据块V_2x，该数据块V_2x为包含m维数据的向量，该管理节点110具体还用于：

根据该第二类计算节点中包括SC_y在内的至少一个计算节点获得的第二中间结果，向该第二类计算节点中包括SC_y在内的至少一个计算节点分配第三处理任务；

该计算节点SC_y还用于：

根据该第三处理任务获取数据集中的数据块V_2x；

对该SC_y获得的第二中间结果V″_y和该数据块V_2x执行赋值assign操作，以获得该待处理数据集的处理结果。

具体而言，将待处理数据集中位于同一行的数据块获得的第一中间结果进行reduce2操作后获得的第二中间结果，还可以对其进行assign操作，以获得该待处理数据集的处理结果。第二中间结果V″_y和数据块V_2x均为包含m维数据的向量，相对应的元素进行assign操作可以得到结果向量，该结果向量为m维列向量。这里赋值处理可以为上文介绍的assign处理，用公式可以表示为结果向量的元素V_3,i＝assign(V″_i,V_2,i)，m个V_3,i形成结果向量V_3x。

以上为矩阵向量乘操作的过程。总体而言，本发明实施例的矩阵向量乘操作可以表示为以下公式3。

(公式3)相对于现有的GIMV模型，本发明实施例的assign处理中增加了向量V₂，因此，结果向量V₃可以表示为

V₃＝α*M*V₁+β*V₂ (公式4)

其中，α和β为数值。公式4表示相对现有的GIMV模型，本发明实施例的数据处理系统100所得到的结果向量V₃中引入了权重V₂，使得assign处理不在局限于用于乘的向量，因此也能够支持非方阵的矩阵乘操作，扩大了矩阵向量乘操作可以表示的范围。

下面以一个具体的例子来说明在矩阵向量乘操作中引入权重V₂的作用。例如，在用于性能测试的网页排名pagerank算法中，常常将“用于加的向量”(对应于上位中的向量V₂)设为(1-d)/N来参与运算。(1-d)/N向量可用于调整对应的图中各个顶点的pagerank值，从而使得各个顶点的pagerank值更符合真实情况。pagerank值可以表示为R，具体为公式5

(公式5)

例如，对于某些官方网站，可以设置向量中对应该官方网站的顶点的值为较大，这样得到的结果pagerank值一般也会比较大。

可选地，作为一个实施例，m＝n，数据块V_1x和数据块V_2x为同一数据块。即用于与数据块M_x操作的数据块V_1x和用于进行assign操作的数据块V_2x为同一数据块。

可选地，作为一个实施例，在第二类计算节点中包括至少两个计算节点时，第二类计算节点中的至少两个计算节点并行处理管理节点分配的第二处理任务。在待处理数据集按行和按列均进行了分块时，则至少需要两个第二类计算节点进行第二处理任务的处理；在待处理数据集仅按列进行了分块时，则需要一个第二类计算节点；在待处理数据集仅按行进行了分块时，则不需要第二类计算节点，即不需要进行第二处理任务的处理。

可选地，作为一个实施例，管理节点、第一类计算节点和第二类计算节点可以是物理机、虚拟机或中央处理器CPU等，本发明实施例对此不作限定。

下面将结合具体的例子对本发明实施例进行详细说明。

图9示出了根据本发明实施例的数据处理系统100进行数据处理的示意性流程图。如图9所示，数据处理系统100进行数据处理包括以下步骤：

S201，进行预处理，获取数据块M'、数据块V₁'和数据块V₂'，其中，数据块M'为矩阵，数据块V₁'和数据块V₂'为向量。

S202，进行矩阵分发，将矩阵M'进行分块，并将矩阵M'按块分发到集群的至少两个计算节点上，其中计算节点FC_x上分发的数据块为M_x。

S203，进行数据块V₂'分发，对数据块V₂'进行分块，将分块后的数据块V₂'进行广播。

S204，进行数据块V₁'分发，对数据块V₁'进行分块，将分块后的数据块V₁' 进行广播。S202至S204中的经分块后的矩阵和向量被相对应的分发到至少两个计算节点，这些计算节点是分布式的上。

S205，在每一计算节点上，进行局部combine2处理和局部reduce2处理。数据块M_x和数据块V_1x进行combine2处理，在得到数据块M_x和数据块V_1x所对应的所有中间结果之前，对中间结果进行reduce2处理得到第一中间结果；继而对第一中间结果和新得到的中间结果进行reduce2处理以得到新的第一中间结果。最终的第一中间结果为数据块M_x和数据块V_1x所对应的所有的中间结果全部进行过进行reduce2处理后的结果。

S206，各计算节点对S205得到的第一中间结果进行全局数据传输，以将第一中间结果集中到一个计算节点上。本发明实施例的方法进行全局数据传输时是经过归约处理后的数据，相对于现有的矩阵向量乘操作，传输的数据量大大减少。

S207，对位于矩阵M'同一水平位置的相应的至少两个矩阵块对应的第一中间结果的元素进行reduce2处理，得到第二中间结果的元素。即对位于同一水平位置的多个矩阵块中的每一行的第一中间结果的元素进行reduce2处理，以得到第二中间结果的元素，多个第二中间结果的元素构成第二中间结果V″_y。

S208，将第二中间结果V″_y的元素与数据块V_2x的相应元素进行assign处理，得到结果向量的元素，从而得到结果向量。

S209，判断是否符合终止条件，如果是，结束；如果否，将结果向量作为下一次迭代的数据块V₁'，执行S204至S209。

下面就前文中描述的SSSP算法解决确定顶点0到其他顶点的最短距离问题的例子，对本发明实施例进行说明。SSSP算法中的矩阵为图6B中的邻接矩阵M转置之后的矩阵，向量V₁和向量V₂均为图7中的V。如图10所示，首先将图6B中的邻接矩阵M转置之后进行分块，对初始向量V进行分块。然后对矩阵的块与V的相应的块进行combine2处理和reduce2处理。这里，reduce2处理是在还未获得矩阵的块与V的相应的块的combine2处理的所有的第一中间结果时就执行的，即combine2处理和reduce2处理是交替进行的。对各块进行combine2处理和reduce2处理后，可以得到各个矩阵块对应的第一中间结果。对位于同一行的矩阵块对应的第一中间结果再进行reduce2处理可以得到中间向量V。中间向量V与V进行assign处理，得到结果向量。其中，combine2处理为“加”处理，combine2(M_ij,V_j)＝M_ij+V_j；reduce2处理为“取最小值”处理，reduce2(x₁,x₂)＝min(x₁,x₂)；assign处理为“取最小值”处理，

图11示出了根据本发明另一实施例的数据处理系统300的示意性框图。如图11所示，该数据处理系统300包括管理节点310和第一类计算节点320，

该管理节点310用于：

向该第一类计算节点320中包括FC_x在内的至少两个计算节点分配第一处理任务，其中，FC_x为该至少两个计算节点中的第x个计算节点，x为正整数；

该第一类计算节点320中的至少两个计算节点并行处理该管理节点310分配的第一处理任务；

该计算节点FC_x，用于根据该管理节点310分配的第一处理任务获取待处理的数据集中的数据块M_1x和数据块M_2x，其中，该数据块M_1x为包含m行n列数据的矩阵，该数据块M_2x为包含n行p列数据的矩阵，m、n和P为正整数，n的值不小于2；

对该数据块M_1x以及该数据块M_2x执行合并combine2操作和归约reduce2操作，以获得第一中间结果M′_x，该第一中间结果M′_x为包括m行p列数据的矩阵，该第一中间结果M′_x中的元素为m′_i,j，i和j为变量，i的取值分别从1到m，j的取值分别从1到p，其中，m′_i,j＝m′_i,j,n，m′_i,j,n根据m′_i,j,k＝reduce2(m′_i,j,k-1,combine2(m_1[i,k],m_2[k,j]))获得，m_1[i,k]为该数据块M_1x中第i行第k列的元素，m_2[k,j]为该数据块M_2x中第k行第j列的元素，k为变量，k的取值分别从1到n；

该管理节点310，还用于根据该第一类计算节点320中的至少两个计算节点获得的第一中间结果获得该待处理数据集的处理结果。

具体而言，本发明实施例提供的数据处理系统300可以应用于大数据处理，由于大数据处理的数据量较大，通常将数据进行分块，把不同的数据块分发给不同的计算节点进行并行计算，以提高计算的效率。该数据处理系统300包括管理节点310和第一类计算节点320。管理节点310用于接收数据处理任务，并将该数据处理任务切分为多个处理任务，将处理任务分发给计算节点。管理节点310还用于接收各计算节点对其处理任务的执行状态，以管理数据处理的进程。计算节点用于接收管理节点310下发的处理任务，根据处理任务获取数据块，以执行相应的处理任务。计算节点可以获取本计算节点中存储的数据块执行处理任务，也可以获取其它计算节点中存储的数据块执行处理任务。根据处理的任务的类别不同，可以将计算节点按照其处理任务的类别进行分类。例如，处理第一处理任务的为第一类节点，处理第二处理任务的为第二类节点。

在本发明实施例中，管理节点310用于向该第一类计算节点320中包括FC_x321在内的至少两个计算节点分配第一处理任务，其中，FC_x321为该至少两个计算节点中的第x个计算节点，x为正整数。该第一类计算节点320中的至少两个计算节点并行处理该管理节点310分配的第一处理任务。

计算节点FC_x321在接收到管理节点310分配的第一处理任务后，根据第一处理任务，获取待处理的数据集中的数据块M_1x和数据块M_2x，其中，该数据块M_1x为包含m行n列数据的矩阵，该数据块M_2x为包含n行p列数据的矩阵，m、n和P为正整数，n的值不小于2，可以将对数据块M_1x和数据块M_2x的处理视为矩阵矩阵乘操作。

计算节点FC_x321对该数据块M_1x以及该数据块M_2x执行合并combine2操作和归约reduce2操作，以获得第一中间结果M′_x，该第一中间结果M′_x为包括m行p列数据的矩阵。该第一中间结果M′_x中的元素为m′_ij，i和j为变量，i的取值分别从1到m，j的取值分别从1到p，其中，m′_i,j＝m′_i,j,n，m′_i,j,n根据m′_i,j,k＝reduce2(m′_i,j,k-1,combine2(m_1[i,k],m_2[k,j]))获得，m_1[i,k]为该数据块M_1x中第i行第k列的元素，m_2[k,j]为该数据块M_2x中第k行第j列的元素，k为变量，k的取值分别从1到n。

具体地，对该数据块M_1x的第i行第z列元素和该数据块M_2x中第k行第j列的元素进行合并操作，以得到该数据块M_1x的第i行第k列元素和该数据块M_2x中第k行第j列的元素对应的中间结果x_ikj。这里合并操作可以为前文介绍的combine2操作，用公式可以表示为中间结果x_ikj＝combine2(m_1[i,k],m_2[k,j])。

继而，对数据块M_1x的第i行和数据块M_2x第j列对应的中间结果x_ikj执行reduce2操作，以获得该数据块M_x的第i行和数据块M_2x第j列对应的元素m_i'_,j，i的取值分别从1到m，j的取值分别从1到p，则可以得到第一中间结果M′_x。combine2操作和reduce2操作可以是先计算x_i1j和x_i2j，对x_i1j和x_i2j进行reduce2操作；再计算x_i3j，将x_i1j和x_i2j进行reduce2操作后的结果与x_i3j进行reduce2操作；……；直至将数据块M_x的第i行和数据块M_2x第j列对应的中间结果x_ikj全部都经过reduce2操作。reduce2操作并不是等待所有的combine2操作全部进行完成之后才进行的，而是combine2操作和reduce2操作交替进行。这样操作，在计算过程中经过reduce2操作的中间结果x_j可以删除掉，而不需将所有的combine2操作的结果均存储在内存中，因而可以节省内存空间。

应理解，以上过程实质上为一个更新过程，即首先通过reduce2操作得到两个x_ikj进行reduce2操作后的中间结果，继而通过与其它的x_ikj或其它的中间结果再进行reduce2操作得到中间结果，不断地更新中间结果。

这里归约reduce2操作可以是加、减、乘、除、取最大值、取最小值等，但本发明实施例并不限于此。此处，reduce2操作对矩阵的某一行各元素对应的中间结果(如x_i1j,…,x_inj)进行处理，不需等到全部的x_i1j,…,x_inj计算完毕后再进行，而是在计算中间结果x_ikj的过程中逐步展开reduce2处理。

应理解，reduce2操作的优点是，在计算过程中不需关心进行reduce2操作的各元素的顺序，即不论reduce2操作中各元素的顺序是何种的，所得到的结果是唯一的。例如，在scala语言中，一个数组it＝Array(0,1,2,3,4,5)，对该数组进行求和，可以表达为it.reduce(_+_)。在计算的底层，对数据从左边一直加到右边得到的值，和两两进行reduce2求和，直到得到最终值的结果是一样的。上文中的将x_i1j和x_i2j进行reduce2操作后的结果与x_i3j再进行reduce2操作的描述仅是其中的一种实现方式，reduce2操作的执行顺序不限于按照x_i1j,…,x_inj顺序执行，x_i1j,…,x_inj中任意两个进行reduce2操作再与其它的x_j进行reduce2操作均能实现与顺序执行相同的结果，本发明实施例对 reduce2操作的顺序不作限定。

管理节点310，还用于根据该第一类计算节点320中的至少两个计算节点获得的第一中间结果获得该待处理数据集的处理结果。第一类计算节点320将第一处理任务完成后，通知管理节点310，管理节点310根据该第一类计算节点320中的至少两个计算节点获得的第一中间结果获得该待处理数据集的处理结果，或者以该第一中间结果作为其它处理任务的基础数据，向相应的计算节点下发使用该第一中间结果进行计算的处理任务。

可选地，作为一个实施例，数据处理系统300中还包括第二类计算节点，该管理节点310具体用于：

根据该第一类计算节点320中的至少两个计算节点获得的第一中间结果，向该第二类计算节点中包括SC_y在内的至少一个计算节点分配第二处理任务，其中，SC_y为该至少一个计算节点中的第y个计算节点，y为正整数；

该计算节点SC_y用于：

根据该第二处理任务获取该第一类计算节点中的至少两个计算节点获得的第一中间结果，其中，该SC_y获取的第一中间结果是根据该待处理数据集中位于同一行的数据块M_1x和位于同一列的数据块M_2x获得的第一中间结果；

将该SC_y获取的第一中间结果执行reduce2操作，以获得第二中间结果M″_y，其中，该第二中间结果M″_y为包含m行p列数据的矩阵；

该管理节点310具体用于：

根据该第二类计算结果中的至少一个计算节点获得的第二中间结果获得该待处理数据集的处理结果。

具体而言，在完成上述处理后，对第一类计算节点320获得的第一中间结果还可以进行其它处理。例如，当第一类计算节点320中的至少两个计算节点处理的数据块M_1x为待处理数据集中位于同一行的数据块，且数据块M_2x为待处理数据集中位于同一列的数据块时，管理节点310可以根据该第一类计算节点320中的至少两个计算节点获得的第一中间结果，向第二类计算节点中包括SC_y在内的至少一个计算节点分配第二处理任务，其中，SC_y为该至少一个计算节点中的第y个计算节点，y为正整数。

计算节点SC_y用于根据该第二处理任务获取该第一类计算节点320中的至少两个计算节点获得的第一中间结果，其中，该SC_y获取的第一中间结果是根据数据块M_1x，M_1x为待处理数据集中位于同一行的数据块，和数据块M_2x，M_2x为待处理数据集中位于同一列的数据块获得的第一中间结果。第二处理任务为将该SC_y获取的第一中间结果执行reduce2操作，以获得第二中间结果M″_y，其中，该第二中间结果M″_y为包含m行p列数据的矩阵。将该SC_y获取的第一中间结果执行reduce2操作，与上文中描述的reduce2操作类似，即将数据块M_1x，M_1x为待处理数据集中位于同一行的数据块，和数据块M_2x，M_2x为待处理数据集中位于同一列的数据块获得的两个第一中间结果先进行reduce2操作，将reduce2操作的结果再与其它的第一中间结果进行reduce2操作。

可选地，作为一个实施例，该数据集还包括数据块M_3x，该数据块M_3x为包含m行p列数据的矩阵，该管理节点310还用于：

该计算节点SC_y还用于：

根据该第三处理任务获取该数据集中的数据块M_3x；

对该SC_y获得的第二中间结果M″_y和该数据块M_3x执行赋值assign操作，以获得该待处理数据集的处理结果。

具体而言，将待处理数据集中M_1x位于同一行且M_2x位于同一列的数据块获得的第一中间结果进行reduce2操作后获得的第二中间结果，还可以对其进行assign操作，以获得该待处理数据集的处理结果。第二中间结果M″_y和数据块M_3x均为包含m行p列数据的矩阵，相对应的元素进行assign操作可以得到结果向量，该结果向量为包含m行p列数据的矩阵。这里赋值处理可以为上文介绍的assign处理。

以上为矩阵矩阵乘操作的过程。总体而言，本发明实施例的矩阵矩阵乘操作可以表示为以下公式6。

(公式6)

可选地，作为一个实施例，数据处理系统300中的第二类计算节点还用于对待处理数据集的处理结果的第r行进行行处理，该行处理为针对该第r行的元素的处理。

具体而言，可以对结果矩阵D进行进一步处理，例如对结果矩阵D的第r行的元素进行归约处理。用公式可以表示为reduceRow(D_i1,…,D_in)，其中reduceRow处理可以是取最大值、取最小值、取最大的Q个值、取最小的Q个值、对该行数据求和等等，本发明实施例对此不作限定。经reduceRow处理后所得的结果存储时可以仍以对应的矩阵形式存储，例如，对结果矩阵D的第i行进行取最大值处理，最大值为D_i1，则所存储的矩阵的第i行的第1列存储数值D_i1，其它列存储数值0(或者不存储0)。经reduceRow处理后所得的结果存储时可以仅存储处理后所得的数值，例如，对结果矩阵D的第i行进行求和处理，求和的结果为Y，则存储数值Y，本发明实施例对存储方式不作限定。

类似地，作为一个实施例，数据处理系统300中的第二类计算节点还用于对待处理数据集的处理结果的第c列进行列处理，该列处理为针对该第c列的元素进行的处理。为避免重复，文中不再赘述。

可选地，作为一个实施例，n＝p，该数据块M_1x和该数据块M_3x为同一数据块。应理解，例如数据块M_1x为3行4列的矩阵，数据块M_2x为4行4列的矩阵，对数据块M_1x和数据块M_2x进行合并处理后，得到3行4列的矩阵，再将该3行4列的矩阵与数据块M_3x进行赋值处理后得到结果矩阵，因此数据块M_1x和数据块M_3x可以为同一数据块。

可选地，作为一个实施例，n＝m，该数据块M_2x和该数据块M_3x为同一数据块。应理解，在本发明实施例中，可以对进行运算的数据块M_1x、数据块M_2x和数据块M_3x中的至少一个进行转置等操作以满足运算的需要。因此，数据块M_2x和数据块M_3x为同一数据块。

可选地，作为一个实施例，在该第二类计算节点中包括至少两个计算节点时，该第二类计算节点中的至少两个计算节点并行处理该管理节点分配的第二处理任务。

可选地，作为一个实施例，该管理节点、该第一类计算节点和该第二类计算节点包括物理机、虚拟机或中央处理器CPU。

下面将结合具体的例子对本发明实施例进行详细说明。

图12示出了根据本发明实施例的数据处理系统300进行数据处理的方法400的示意性流程图。如图12所示，该方法400包括以下步骤：

S401，进行预处理，获取数据块M₁、数据块M₂和数据块M₃，该数据块M₁、数据块M₂和数据块M₃均为矩阵。

S402，进行矩阵分块，将数据块M₁、数据块M₂进行分块。该数据块M₁分为多个数据块M_1x，数据块M_1x为包含m行n列数据的矩阵，数据块M₂分为多个数据块M_2x，该数据块M_2x为包含n行p列数据的矩阵。

S403，进行矩阵分发，将数据块M_1x按行分发到至少一个计算节点上，相应地，将数据块M_2x按列分发到至少一个计算节点上。

S404，在每一第一类计算节点上，进行局部combine2处理和局部reduce2处理。数据块M_1x和数据块M_2x进行combine2处理，在得到数据块M_1x的某一行和数据块M_2x的相应的列所对应的所有中间结果之前，对中间结果进行reduce2处理得到第一中间结果；继而对第一中间结果和新得到的中间结果进行reduce2处理，以得到新的第一中间结果。第一中间结果为矩数据块M_1x的某一行和数据块M_2x的相应的列所对应的所有的中间结果全部进行过进行reduce2处理后的结果。进而，类似地获得数据块M_1x的某一行和数据块M_2x的列的所有组合对应的第一中间结果，第一中间结果可以形成一个矩阵。

S405，各第一类计算节点上对S404得到的第一中间结果进行全局数据传输，以将第一中间结果集中到一个第二类计算节点上。本发明实施例的方法进行全局数据传输时是经过归约处理后的数据，传输的数据量较小。

S406，对数据块M₁同一行数据块M₂同一列的相应的至少两个数据块对应的第一中间结果进行reduce2处理，得到第二中间结果。多个第二中间结果构成中间矩阵X。对中间矩阵X进行分块，并分发到至少一个计算节点上。

S407，对数据块M₃进行分块并分发，将数据块M₃的数据块M_3x分发到中间矩阵X的矩阵块所位于的计算节点上，该数据块M_3x为包含m行p列数据的矩阵。

S408，将中间矩阵X的矩阵块的元素与数据块M_3x的相应元素进行 assign处理，得到结果矩阵D的矩阵块的元素，从而得到结果矩阵D的矩阵块。

S409，将结果矩阵D的每一个矩阵块按块进行reduceRow处理。

S410，进行数据传输，对S409中得到的结果进行传输，再对对应于同一行的矩阵块的结果进行reduceRow处理，得到矩阵Y。

S411，将矩阵Y的每一个矩阵块按列进行reduceCol处理。

S412，进行数据传输，对S411中得到的结果进行传输，再对对应于同一列的矩阵块的结果进行reduceCol处理，得到矩阵Z。

概率传播是推荐算法的一种，对于一个“用户-项目”的交互记录数据库，要为每个用户推荐用户可能感兴趣的若干个项目。概率传播是基于全局数据，它能一次性计算所有用户的潜在兴趣项目。该算法有坚实的理论基础：概率传播是从物理学上的“能量守恒定律”演化而来，矩阵的运算类似于能量在不同物质间的传播，最终得到的兴趣度矩阵与原始矩阵对应的行之和完全相等，对应的列之和也完全相等，体现了能量的守恒性。

概率传播算法可以用矩阵操作实现，现有的概率传播算法的矩阵实现可以得到“电影对用户的吸引度矩阵”和“用户之间的兴趣相似度矩阵”；然后，通过矩阵矩阵乘操作，得到“电影对用户的新的吸引度矩阵”；接着，筛除用户已看过的电影；最后，为每个用户只推荐topk部没看过的电影。概率传播算法只为每个用户推荐有限的几部电影，得到的结果矩阵是比较稀疏的(0元素比较多)，一般情况下数据量并不大(在这个场景下，0元素不用存储)。然而，现有方案在计算过程中得到的“电影对用户的新的吸引度”矩阵往往很稠密，数据量非常大。这就导致了大量中间内存占用，以及系统大量数据传输。

本发明实施例的矩阵矩阵乘操作实现的概率传播算法，其中，原始数据集中的电影数为m，用户数为n，对每用户推荐topk部电影。第一矩阵A为m行n列的“电影对用户的吸引度”矩阵，第二矩阵B为n行n列“用户之间的兴趣相似度”矩阵，用于assign的第三矩阵C与第一矩阵A为同一矩阵。则为每个用户推荐topk部没看过的电影的公式为：

(公式7)

具体计算过程如下：首先，对第一矩阵A的元素和第二矩阵B的元素进行combine2处理和reduce2处理。这里，reduce2处理是在还未获得第一矩阵A的元素和第二矩阵B的元素的combine2处理的所有的中间结果时就执行的，即combine2处理和reduce2处理是交替进行的。对第一矩阵A的元素和第二矩阵B的元素进行combine2处理和reduce2处理后，可以得到第一矩阵A的和第二矩阵B对应的第一中间结果。对第一中间结果和用于assign的第三矩阵C进行assign处理，得到结果矩阵D。最后对结果矩阵D的各列进行reduceCol处理。

其中，combine2处理为“乘”处理，combine2(A_ij,B_jk)＝A_ij*B_jk；reduce2处理为“加”处理，x_ik＝reduce2(x_i1k,x_i2k)＝x_i1k+x_i2k。assign处理为取“筛除”处理，

即如果assign处理的第三矩阵C中相应位置处的元素不为零，则筛除该元素(该元素处置0)，亦即，如果用户没有观看过该电影，则保留该数据，如果用户观看过该电影，则筛除该数据(该元素处置0)，以用于执行reduceCol处理。reduceCol处理为“求topk”处理，reduceCol(D_1j,…,D_mj)＝(D_1j,…,D_mj).topk，即求第j列的值最大的k个值。本例子中k取1。

采用本发明实施例的矩阵矩阵乘操作实现的概率传播算法主要流程图如图13所示。对第一矩阵A的一行和第二矩阵B的一列先进行combine2和reduce2处理，得到一个值

然后，因为用于assign处理的第三矩阵C对应位置的值为1，进行assign处理得结果矩阵D对应的元素值为0(如果系统中0元素不保存，则相应的combine2和reduce2处理可以不进行计算)。最后，对于得到的同一列的元素，进行求topk处理，得到某个用户没看过的电影中吸引度topk的电影。

根据本发明实施例的矩阵矩阵乘操作，采用概率传播算法在计算“电影对用户的新的吸引度”矩阵的过程中，可以同时筛除已看过的电影(甚至可以直接不计算需要筛除的记录)，以及同时进行用户得分排名topk部电影的推荐操作，从而减少中间内存占用，以及系统数据传输量。

应理解，在本发明实施例的矩阵向量乘操作和矩阵矩阵乘操作的过程中可以引入isCompute算子，判断该行是否需要计算。如果不需要计算则跳过该行，继续计算下一行；如果需要计算，则按算法进行combine2操作和reduce2操作。通常，矩阵向量乘操作中的isCompute算子可以为一个与数据块M_x的行数相等的列向量，矩阵矩阵乘操作中的isCompute算子可以为一个矩阵，本发明实施例对此不作限定。

下面对本发明实施例的矩阵向量乘操作和矩阵矩阵乘操作的性能进行说明。

在通用并行计算框架spark上对比现有技术的扩展的GIMV模型与本发明实施例的矩阵向量乘操作的性能。测试环境为3台机器组成的集群(3台RH2285，12个核24个线程，192g内存，配置100g)。其中，测试数据为wiki_talk数据集，测试结果表明现有技术的扩展的GIMV模型的计算时间超过了3600s，本发明实施例的矩阵向量乘操作用了340s。

同样，在spark上对比了本发明实施例的矩阵矩阵乘操作和现有技术实现“求推荐电影”操作的性能。测试的数据集大小及测试结果如表1所示，测试数据为交互式网络电视(IPTV)和网飞(Nasdaq NFLX，NETFLIX)的数据集。从测试结果可以看出，本发明实施例可以有效的减少中间内存占用，缩短计算时间，从而可以处理更大的数据集。

表1

上文中结合图1至图13，详细描述了根据本发明实施例的数据处理系统，下面将结合图14至图15，详细描述根据本发明实施例的数据处理系统中的计算节点。

图14示出了根据本发明实施例的计算节点500，计算节点500属于数据处理系统，数据处理系统还包括管理节点，计算节点500包括：

接收模块501，用于接收该管理节点分配的第一处理任务；

获取模块502，用于根据该接收模块501接收的该管理节点分配的该第一处理任务，获取待处理的数据集中的数据块M_x和数据块V_1x，其中，该数据块M_x为包含m行n列数据的矩阵，该数据块V_1x为包含n维数据的向量，m和n为正整数，n的值不小于2；

处理模块503，用于对该数据块M_x以及该数据块V_1x执行合并combine2操作和归约reduce2操作，以获得第一中间结果V′_x，该第一中间结果V′_x为包括m维数据的向量，该第一中间结果V′_x中的元素为v′_i，i为变量，i的取值分别从1到m，其中，v′_i＝v′_i,n，v′_i,n根据v′_i,j＝reduce2(v′_i,j-1,combine2(m_i,j,v_j))获得，m_i,j为该数据块M_x中的元素，v_j为该数据块V_1x中的元素，j为变量，j的取值分别从1到n。

可选地，作为一个实施例，计算节点为物理机、虚拟机或中央处理器CPU，本发明实施例对此不作限定。

因此，本发明实施例提供的计算节点，在对数据块进行合并操作和归约操作时，不需要等待所有的合并操作全部进行完成之后再进行归约操作，而是合并操作和归约操作交替进行，从而可以节省计算所占用的内存空间，减少计算时间。

图15示出了根据本发明实施例的计算节点600，该计算节点600属于数据处理系统，该数据处理系统还包括管理节点，该计算节点包括：

接收模块601，用于接收该管理节点分配的第一处理任务；

获取模块602，用于根据该接收模块601接收的该管理节点分配的该第一处理任务，获取待处理的数据集中的数据块M_1x和数据块M_2x，其中，该数据块M_1x为包含m行n列数据的矩阵，该数据块M_2x为包含n行p列数据的矩阵，m、n和P为正整数，n的值不小于2；

处理模块603，用于对该数据块M_1x以及该数据块M_2x执行合并combine2操作和归约reduce2操作，以获得第一中间结果M′_x，该第一中间结果M′_x为包括m行p列数据的矩阵，该第一中间结果M′_x中的元素为m′_ij，i和j为变量，i的取值分别从1到m，j的取值分别从1到p，其中，m′_i,j＝m′_i,j,n，m′_i,j,n根据m′_i,j,k＝reduce2(m′_i,j,k-1,combine2(m_1[i,k],m_2[k,j]))获得，m_1[i,k]为该数据块M_1x中第 i行第k列的元素，m_2[k,j]为该数据块M_2x中第k行第j列的元素，k为变量，k的取值分别从1到n。

如图16所示，本发明实施例还提供了一种计算节点700，该计算节点700包括处理器701、存储器702、总线系统703和收发器704，处理器701、存储器702和收发器704通过总线系统703相连。存储器702用于存储指令，处理器701用于执行存储器702存储的指令。其中，收发器704用于：

接收该管理节点分配的第一处理任务；

根据该管理节点分配的该第一处理任务，获取待处理的数据集中的数据块M_x和数据块V_1x，其中，该数据块M_x为包含m行n列数据的矩阵，该数据块V_1x为包含n维数据的向量，m和n为正整数，n的值不小于2；

处理器701用于：

对该数据块M_x以及该数据块V_1x执行合并combine2操作和归约reduce2操作，以获得第一中间结果V′_x，该第一中间结果V′_x为包括m维数据的向量，该第一中间结果V′_x中的元素为v′_i，i为变量，i的取值分别从1到m，其中，v′_i＝v′_i,n，v′_i,n根据v′_i,j＝reduce2(v′_i,j-1,combine2(m_i,j,v_j))获得，m_i,j为该数据块M_x中的元素，v_j为该数据块V_1x中的元素，j为变量，j的取值分别从1到n。

应理解，在本发明实施例中，该处理器处理器701可以是中央处理单元(Central Processing Unit，CPU)，该处理器处理器701还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

该存储器702可以包括只读存储器和随机存取存储器，并向处理器701提供指令和数据。存储器702的一部分还可以包括非易失性随机存取存储器。例如，存储器702还可以存储设备类型的信息。

该总线系统703除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见，在图中将各种总线都标为总线系统703。

在实现过程中，上述方法的各步骤可以通过处理器701中的硬件的集成逻辑电路或者软件形式的指令完成。结合本发明实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器702，处理器701读取存储器702中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

可选地，作为一个实施例，该计算节点700为物理机、虚拟机或中央处理器CPU。

应理解，根据本发明实施例的计算节点700可对应于执行本发明实施例中的方法的主体，还可以对应于根据本发明实施例的计算节点500，并且计算节点700中的各个模块的上述和其它操作和/或功能是为了实现数据处理的方法的相应流程，为了简洁，在此不再赘述。

如图17所示，本发明实施例还提供了一种计算节点800，该计算节点800包括处理器801、存储器802、总线系统803和收发器804，处理器801、存储器802和收发器804通过总线系统803相连。存储器802用于存储指令，处理器801用于执行存储器802存储的指令。其中，收发器804用于：

接收该管理节点分配的第一处理任务；

根据该管理节点分配的该第一处理任务，获取待处理的数据集中的数据块M_1x和数据块M_2x，其中，该数据块M_1x为包含m行n列数据的矩阵，该数据块M_2x为包含n行p列数据的矩阵，m、n和P为正整数，n的值不小于2；

处理器801用于：

对该数据块M_1x以及该数据块M_2x执行合并combine2操作和归约reduce2操作，以获得第一中间结果M′_x，该第一中间结果M′_x为包括m行p列数据的矩阵，该第一中间结果M′_x中的元素为m′_ij，i和j为变量，i的取值分别从1到m，j的取值分别从1到p，其中，m′_i,j＝m′_i,j,n，m′_i,j,n根据m′_i,j,k＝reduce2(m′_i,j,k-1,combine2(m_1[i,k],m_2[k,j]))获得，m_1[i,k]为该数据块M_1x中第i行第k列的元素，m_2[k,j]为该数据块M_2x中第k行第j列的元素，k为变量，k的取值分别从1到n。

应理解，在本发明实施例中，该处理器处理器801可以是中央处理单元(Central Processing Unit，CPU)，该处理器处理器801还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

该存储器802可以包括只读存储器和随机存取存储器，并向处理器801提供指令和数据。存储器802的一部分还可以包括非易失性随机存取存储器。例如，存储器802还可以存储设备类型的信息。

该总线系统803除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见，在图中将各种总线都标为总线系统803。

在实现过程中，上述方法的各步骤可以通过处理器801中的硬件的集成逻辑电路或者软件形式的指令完成。结合本发明实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器802，处理器801读取存储器802中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

可选地，作为一个实施例，该计算节点800为物理机、虚拟机或中央处理器CPU。

应理解，根据本发明实施例的计算节点800可对应于执行本发明实施例中的方法的主体，还可以对应于根据本发明实施例的计算节点600，并且计算节点800中的各个模块的上述和其它操作和/或功能是为了实现数据处理的方法的相应流程，为了简洁，在此不再赘述。

上文中结合图1至图17，详细描述了根据本发明实施例的数据处理系统及计算节点，下面将结合图18至图19，详细描述根据本发明实施例的数据处理的方法。

图18示出了根据本发明实施例的一种数据处理的方法900，其特征在于，该方法900应用于数据处理系统中，该数据处理系统包括管理节点和第一计算节点，该方法900包括：

S901，该管理节点向该第一类计算节点中包括FC_x在内的至少两个计算节点分配第一处理任务，其中，FC_x为该至少两个计算节点中的第x个计算节点，x为正整数，其中，该第一类计算节点中的至少两个计算节点并行处理该管理节点分配的第一处理任务；

S902，该计算节点FC_x根据该管理节点分配的第一处理任务，获取待处理的数据集中的数据块M_x和数据块V_1x，其中，该数据块M_x为包含m行n列数据的矩阵，该数据块V_1x为包含n维数据的向量，m和n为正整数，n的值不小于2；

S903，该计算节点FC_x对该数据块M_x以及该数据块V_1x执行合并combine2操作和归约reduce2操作，以获得第一中间结果V′_x，该第一中间结果V′_x为包括m维数据的向量，该第一中间结果V′_x中的元素为v_i'，i为变量，i的取值分别从1到m，其中，v′_i＝v′_i,n，v′_i,n根据v′_i,j＝reduce2(v′_i,j-1,combine2(m_i,j,v_j))获得，m_i,j为该数据块M_x中的元素，v_j为该数据块V_1x中的元素，j为变量，j的取值分别从1到n；

S904，该管理节点根据该第一类计算节点中的至少两个计算节点获得的第一中间结果获得该待处理数据集的处理结果。

因此，本发明实施例提供的数据处理的方法，在对数据块进行合并操作和归约操作时，不需要等待所有的合并操作全部进行完成之后再进行归约操作，而是合并操作和归约操作交替进行，从而可以节省计算所占用的内存空间，减少计算时间。

可选地，作为一个实施例，该数据处理系统中还包括至少一个第二类计算节点，该方法900还包括：

该管理节点根据该第一类计算节点中的至少两个计算节点获得的第一中间结果，向该第二类计算节点中包括SC_y在内的至少一个计算节点分配第二处理任务，其中，SC_y为该至少一个计算节点中的第y个计算节点，y为正整数；

该计算节点SC_y根据该第二处理任务获取该第一类计算节点中的至少两个计算节点获得的第一中间结果，其中，该SC_y获取的第一中间结果是根据该待处理数据集中位于同一行的数据块获得的第一中间结果；

该计算节点SC_y将该SC_y获取的第一中间结果执行reduce2操作，以获得第二中间结果V″_y，其中，该第二中间结果V″_y为包含m维数据的向量；

该管理节点根据该第二类计算结果中的至少一个计算节点获得的第二中间结果获得该待处理数据集的处理结果。

可选地，作为一个实施例，该数据集还包括数据块V_2x，该数据块V_2x为包含m维数据的向量，该方法900还包括：

该管理节点根据该第二类计算节点中包括SC_y在内的至少一个计算节点获得的第二中间结果，向该第二类计算节点中包括SC_y在内的至少一个计算节点分配第三处理任务；

该计算节点SC_y根据该第三处理任务获取该数据集中的数据块V_2x；

该计算节点SC_y对该SC_y获得的第二中间结果V″_y和该数据块V_2x执行赋值assign操作，以获得该待处理数据集的处理结果。

可选地，作为一个实施例，m＝n，该数据块V_1x和该数据块V_2x为同一数据块。

图19示出了根据本发明实施例的一种数据处理的方法1000，其特征在于，该方法1000应用于数据处理系统中，该数据处理系统包括管理节点和第一计算节点，该方法1000包括：

S1001，该管理节点向该第一类计算节点中包括FC_x在内的至少两个计算节点分配第一处理任务，其中，FC_x为该至少两个计算节点中的第x个计算节点，x为正整数，其中，该第一类计算节点中的至少两个计算节点并行处理该管理节点分配的第一处理任务；

S1002，该计算节点FC_x根据该管理节点分配的第一处理任务获取待处理的数据集中的数据块M_1x和数据块M_2x，其中，该数据块M_1x为包含m行n列数据的矩阵，该数据块M_2x为包含n行p列数据的矩阵，m、n和P为正整数，n的值不小于2；

S1003，该计算节点FC_x对该数据块M_1x以及该数据块M_2x执行合并combine2操作和归约reduce2操作，以获得第一中间结果M′_x，该第一中间结果M′_x为包括m行p列数据的矩阵，该第一中间结果M′_x中的元素为m′_ij，i和j为变量，i的取值分别从1到m，j的取值分别从1到p，其中，m′_i,j＝m′_i,j,n，m′_i,j,n根据m′_i,j,k＝reduce2(m′_i,j,k-1,combine2(m_1[i,k],m_2[k,j]))获得，m_1[i,k]为该数据块M_1x中第i行第k列的元素，m_2[k,j]为该数据块M_2x中第k行第j列的元素，k为变量，k的取值分别从1到n；

S1004，该管理节点根据该第一类计算节点中的至少两个计算节点获得的第一中间结果获得该待处理数据集的处理结果。

可选地，作为一个实施例，该数据处理系统中还包括至少一个第二类计算节点，该方法1000还包括：

该计算节点SC_y根据该第二处理任务获取该第一类计算节点中的至少两个计算节点获得的第一中间结果，其中，该SC_y获取的第一中间结果是根据该待处理数据集中位于同一行的数据块M_1x和位于同一列的数据块M_2x获得的第一中间结果；

该计算节点SC_y将该SC_y获取的第一中间结果执行reduce2操作，以获得第二中间结果M″_y，其中，该第二中间结果M″_y为包含m行p列数据的矩阵；

可选地，作为一个实施例，该数据集还包括数据块M_3x，该数据块M_3x为包含m行p列数据的矩阵，该方法1000还包括：

该计算节点SC_y根据该第三处理任务获取该数据集中的数据块M_3x；

该计算节点SC_y对该SC_y获得的第二中间结果M″_y和该数据块M_3x执行赋值assign操作，以获得该待处理数据集的处理结果。

可选地，作为一个实施例，n＝m，该数据块M_2x和该数据块M_3x为同一数据块。

可选地，作为一个实施例，n＝p，该数据块M_1x和该数据块M_3x为同一数据块。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。前述的存储介质可以包括：U盘、移动硬盘、磁碟、光盘、随机存储器(Random-Access Memory，RAM)、固态硬盘(Solid State Disk，SSD)或者非易失性存储器(non-volatile memory)等各种可以存储程序代码的非短暂性的(non-transitory)机器可读介质。以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此。

Claims

一种数据处理系统，其特征在于，所述数据处理系统包括管理节点和第一类计算节点，

所述管理节点用于：

向所述第一类计算节点中包括FC_x在内的至少两个计算节点分配第一处理任务，其中，FC_x为所述至少两个计算节点中的第x个计算节点，x为正整数；

所述第一类计算节点中的至少两个计算节点并行处理所述管理节点分配的第一处理任务；

所述计算节点FC_x，用于根据所述管理节点分配的第一处理任务，获取待处理的数据集中的数据块M_x和数据块V_1x，其中，所述数据块M_x为包含m行n列数据的矩阵，所述数据块V_1x为包含n维数据的向量，m和n为正整数，n的值不小于2；

对所述数据块M_x以及所述数据块V_1x执行合并combine2操作和归约reduce2操作，以获得第一中间结果V′_x，所述第一中间结果V′_x为包括m维数据的向量，所述第一中间结果V′_x中的元素为v′_i，i为变量，i的取值分别从1到m，其中，v′_i＝v′_i,n，v′_i,n根据v′_i,j＝reduce2(v′_i,j-1,combine2(m_i,j,v_j))获得，m_i,j为所述数据块M_x中的元素，v_j为所述数据块V_1x中的元素，j为变量，j的取值分别从1到n；

所述管理节点，还用于根据所述第一类计算节点中的至少两个计算节点获得的第一中间结果获得所述待处理数据集的处理结果。
根据权利要求1所述的数据处理系统，其特征在于，所述数据处理系统中还包括第二类计算节点，所述管理节点具体用于：

根据所述第一类计算节点中的至少两个计算节点获得的第一中间结果，向所述第二类计算节点中包括SC_y在内的至少一个计算节点分配第二处理任务，其中，SC_y为所述至少一个计算节点中的第y个计算节点，y为正整数；

所述计算节点SC_y用于：

根据所述第二处理任务获取所述第一类计算节点中的至少两个计算节点获得的第一中间结果，其中，所述SC_y获取的第一中间结果是根据所述待处理数据集中位于同一行的数据块获得的第一中间结果；

将所述SC_y获取的第一中间结果执行reduce2操作，以获得第二中间结果V″_y，其中，所述第二中间结果V″_y为包含m维数据的向量；

所述管理节点具体用于：

根据所述第二类计算节点中的至少一个计算节点获得的第二中间结果获得所述待处理数据集的处理结果。
根据权利要求2所述的数据处理系统，其特征在于，所述数据集还包括数据块V_2x，所述数据块V_2x为包含m维数据的向量，所述管理节点还用于：

根据所述第二类计算节点中包括SC_y在内的至少一个计算节点获得的第二中间结果，向所述第二类计算节点中包括SC_y在内的至少一个计算节点分配第三处理任务；

所述计算节点SC_y还用于：

根据所述第三处理任务获取所述数据集中的数据块V_2x；

对所述SC_y获得的第二中间结果V″_y和所述数据块V_2x执行赋值assign操作，以获得所述待处理数据集的处理结果。
根据权利要求3所述的数据处理系统，其特征在于：m＝n，所述数据块V_1x和所述数据块V_2x为同一数据块。
根据权利要求2-4任意一项所述的数据处理系统，其特征在于，在所述第二类计算节点中包括至少两个计算节点时，所述第二类计算节点中的至少两个计算节点并行处理所述管理节点分配的第二处理任务。
根据权利要求2-5任意一项所述的数据处理系统，其特征在于：所述管理节点、所述第一类计算节点和所述第二类计算节点包括物理机、虚拟机或中央处理器CPU。
一种数据处理系统，其特征在于，所述数据处理系统包括管理节点和第一类计算节点，

所述管理节点用于：

向所述第一类计算节点中包括FC_x在内的至少两个计算节点分配第一处理任务，其中，FC_x为所述至少两个计算节点中的第x个计算节点，x为正整数；

所述第一类计算节点中的至少两个计算节点并行处理所述管理节点分配的第一处理任务；

所述计算节点FC_x，用于根据所述管理节点分配的第一处理任务获取待处理的数据集中的数据块M_1x和数据块M_2x，其中，所述数据块M_1x为包含m行n列数据的矩阵，所述数据块M_2x为包含n行p列数据的矩阵，m、n和P为正整数，n的值不小于2；

对所述数据块M_1x以及所述数据块M_2x执行合并combine2操作和归约reduce2操作，以获得第一中间结果M′_x，所述第一中间结果M′_x为包括m行p列数据的矩阵，所述第一中间结果M′_x中的元素为m′_i,j，i和j为变量，i的取值分别从1到m，j的取值分别从1到p，其中，m′_i,j＝m′_i,j,n，m′_i,j,n根据m′_i,j,k＝reduce2(m′_i,j,k-1,combine2(m_1[i,k],m_2[k,j]))获得，m_1[i,k]为所述数据块M_1x中第i行第k列的元素，m_2[k,j]为所述数据块M_2x中第k行第j列的元素，k为变量，k的取值分别从1到n；

所述管理节点，还用于根据所述第一类计算节点中的至少两个计算节点获得的第一中间结果获得所述待处理数据集的处理结果。
根据权利要求7所述的数据处理系统，其特征在于，所述数据处理系统中还包括第二类计算节点，所述管理节点具体用于：

根据所述第一类计算节点中的至少两个计算节点获得的第一中间结果，向所述第二类计算节点中包括SC_y在内的至少一个计算节点分配第二处理任务，其中，SC_y为所述至少一个计算节点中的第y个计算节点，y为正整数；

所述计算节点SC_y用于：

根据所述第二处理任务获取所述第一类计算节点中的至少两个计算节点获得的第一中间结果，其中，所述SC_y获取的第一中间结果是根据所述待处理数据集中位于同一行的数据块M_1x和位于同一列的数据块M_2x获得的第一中间结果；

将所述SC_y获取的第一中间结果执行reduce2操作，以获得第二中间结果M″_y，其中，所述第二中间结果M″_y为包含m行p列数据的矩阵；

所述管理节点具体用于：

根据所述第二类计算结果中的至少一个计算节点获得的第二中间结果获得所述待处理数据集的处理结果。
根据权利要求8所述的数据处理系统，其特征在于，所述数据集还包括数据块M_3x，所述数据块M_3x为包含m行p列数据的矩阵，所述管理节点还用于：

根据所述第二类计算节点中包括SC_y在内的至少一个计算节点获得的第二中间结果，向所述第二类计算节点中包括SC_y在内的至少一个计算节点分配第三处理任务；

所述计算节点SC_y还用于：

根据所述第三处理任务获取所述数据集中的数据块M_3x；

对所述SC_y获得的第二中间结果M″_y和所述数据块M_3x执行赋值assign操作，以获得所述待处理数据集的处理结果。
根据权利要求9所述的数据处理系统，其特征在于：n＝m，所述数据块M_2x和所述数据块M_3x为同一数据块。
根据权利要求9所述的数据处理系统，其特征在于：n＝p，所述数据块M_1x和所述数据块M_3x为同一数据块。
根据权利要求8-11任意一项所述的数据处理系统，其特征在于：在所述第二类计算节点中包括至少两个计算节点时，所述第二类计算节点中的至少两个计算节点并行处理所述管理节点分配的第二处理任务。
根据权利要求7-12任意一项所述的数据处理系统，其特征在于：所述管理节点、所述第一类计算节点和所述第二类计算节点包括物理机、虚拟机或中央处理器CPU。
一种计算节点，其特征在于，包括：

接收模块，用于接收数据处理系统中的管理节点分配的第一处理任务；

获取模块，用于根据所述接收模块接收的所述管理节点分配的所述第一处理任务，获取待处理的数据集中的数据块M_x和数据块V_1x，其中，所述数据块M_x为包含m行n列数据的矩阵，所述数据块V_1x为包含n维数据的向量，m和n为正整数，n的值不小于2；

处理模块，用于对所述数据块M_x以及所述数据块V_1x执行合并combine2操作和归约reduce2操作，以获得第一中间结果V′_x，所述第一中间结果V′_x为包括m维数据的向量，所述第一中间结果V′_x中的元素为v′_i，i为变量，i的取值分别从1到m，其中，v′_i＝v′_i,n，v′_i,n根据v′_i,j＝reduce2(v′_i,j-1,combine2(m_i,j,v_j))获得，m_i,j为所述数据块M_x中的元素，v_j为所述数据块V_1x中的元素，j为变量，j的取值分别从1到n。
根据权利要求14所述的计算节点，其特征在于：所述计算节点包括物理机、虚拟机或中央处理器CPU。
一种计算节点，其特征在于，包括：

接收模块，用于接收数据处理系统中的管理节点分配的第一处理任务，其中，所述数据处理系统包括所述计算节点和所述管理节点；

获取模块，用于根据所述接收模块接收的所述管理节点分配的所述第一处理任务，获取待处理的数据集中的数据块M_1x和数据块M_2x，其中，所述数据块M_1x为包含m行n列数据的矩阵，所述数据块M_2x为包含n行p列数据的矩阵，m、n和P为正整数，n的值不小于2；

处理模块，用于对所述数据块M_1x以及所述数据块M_2x执行合并combine2操作和归约reduce2操作，以获得第一中间结果M′_x，所述第一中间结果M′_x为包括m行p列数据的矩阵，所述第一中间结果M′_x中的元素为m′_ij，i和j为变量，i的取值分别从1到m，j的取值分别从1到p，其中，m′_i,j＝m′_i,j,n，m′_i,j,n根据m′_i,j,k＝reduce2(m′_i,j,k-1,combine2(m_1[i,k],m_2[k,j]))获得，m_1[i,k]为所述数据块M_1x中第i行第k列的元素，m_2[k,j]为所述数据块M_2x中第k行第j列的元素，k为变量，k的取值分别从1到n。
根据权利要求14所述的计算节点，其特征在于：所述计算节点包括物理机、虚拟机或中央处理器CPU。
一种数据处理的方法，其特征在于，所述方法应用于数据处理系统中，所述数据处理系统包括管理节点和第一类计算节点，所述方法包括：

所述管理节点向所述第一类计算节点中包括FC_x在内的至少两个计算节点分配第一处理任务，其中，FC_x为所述至少两个计算节点中的第x个计算节点，x为正整数，其中，所述第一类计算节点中的至少两个计算节点并行处理所述管理节点分配的第一处理任务；

所述计算节点FC_x根据所述管理节点分配的第一处理任务，获取待处理的数据集中的数据块M_x和数据块V_1x，其中，所述数据块M_x为包含m行n列数据的矩阵，所述数据块V_1x为包含n维数据的向量，m和n为正整数，n的值不小于2；

所述计算节点FC_x对所述数据块M_x以及所述数据块V_1x执行合并combine2操作和归约reduce2操作，以获得第一中间结果V′_x，所述第一中间结果V′_x为包括m维数据的向量，所述第一中间结果V′_x中的元素为v′_i，i为变量，i的取值分别从1到m，其中，v′_i＝v′_i,n，v′_i,n根据v′_i,j＝reduce2(v′_i,j-1,combine2(m_i,j,v_j))获得，m_i,j为所述数据块M_x中的元素，v_j为所述数据块V_1x中的元素，j为变量，j的取值分别从1到n；

所述管理节点根据所述第一类计算节点中的至少两个计算节点获得的第一中间结果获得所述待处理数据集的处理结果。
根据权利要求18所述的方法，其特征在于，所述数据处理系统还包括至少一个第二类计算节点，所述方法还包括：

所述管理节点根据所述第一类计算节点中的至少两个计算节点获得的第一中间结果，向所述第二类计算节点中包括SC_y在内的至少一个计算节点分配第二处理任务，其中，SC_y为所述至少一个计算节点中的第y个计算节点，y为正整数；

所述计算节点SC_y根据所述第二处理任务获取所述第一类计算节点中的至少两个计算节点获得的第一中间结果，其中，所述SC_y获取的第一中间结果是根据所述待处理数据集中位于同一行的数据块获得的第一中间结果；

所述计算节点SC_y将所述SC_y获取的第一中间结果执行reduce2操作，以获得第二中间结果V″_y，其中，所述第二中间结果V″_y为包含m维数据的向量；

所述管理节点根据所述第二类计算结果中的至少一个计算节点获得的第二中间结果获得所述待处理数据集的处理结果。
根据权利要求19所述的方法，其特征在于，所述数据集还包括数据块V_2x，所述数据块V_2x为包含m维数据的向量，所述方法还包括：

所述管理节点根据所述第二类计算节点中包括SC_y在内的至少一个计算节点获得的第二中间结果，向所述第二类计算节点中包括SC_y在内的至少一个计算节点分配第三处理任务；

所述计算节点SC_y根据所述第三处理任务获取所述数据集中的数据块V_2x；

所述计算节点SC_y对所述SC_y获得的第二中间结果V″_y和所述数据块V_2x执行赋值assign操作，以获得所述待处理数据集的处理结果。
根据权利要求20所述的方法，其特征在于：m＝n，所述数据块V_1x和所述数据块V_2x为同一数据块。
根据权利要求19-21任意一项所述的方法，其特征在于：在所述第二类计算节点中包括至少两个计算节点时，所述第二类计算节点中的至少两个计算节点并行处理所述管理节点分配的第二处理任务。
根据权利要求18-22任意一项所述的方法，其特征在于：所述管理节点、所述第一类计算节点和所述第二类计算节点包括物理机、虚拟机或中央处理器CPU。
一种数据处理的方法，其特征在于，所述方法应用于数据处理系统中，所述数据处理系统包括管理节点和第一类计算节点，所述方法包括：

所述管理节点向所述第一类计算节点中包括FC_x在内的至少两个计算节点分配第一处理任务，其中，FC_x为所述至少两个计算节点中的第x个计算节点，x为正整数，其中，所述第一类计算节点中的至少两个计算节点并行处理所述管理节点分配的第一处理任务；

所述计算节点FC_x根据所述管理节点分配的第一处理任务获取待处理的数据集中的数据块M_1x和数据块M_2x，其中，所述数据块M_1x为包含m行n列数据的矩阵，所述数据块M_2x为包含n行p列数据的矩阵，m、n和P为正整数，n的值不小于2；

所述计算节点FC_x对所述数据块M_1x以及所述数据块M_2x执行合并combine2操作和归约reduce2操作，以获得第一中间结果M′_x，所述第一中间结果M′_x为包括m行p列数据的矩阵，所述第一中间结果M′_x中的元素为m′_ij，i和j为变量，i的取值分别从1到m，j的取值分别从1到p，其中，m′_i,j＝m′_i,j,n，m′_i,j,n根据m′_i,j,k＝reduce2(m′_i,j,k-1,combine2(m_1[i,k],m_2[k,j]))获得，m_1[i,k]为所述数据块M_1x中第i行第k列的元素，m_2[k,j]为所述数据块M_2x中第k行第j列的元素，k为变量，k的取值分别从1到n；

所述管理节点根据所述第一类计算节点中的至少两个计算节点获得的第一中间结果获得所述待处理数据集的处理结果。
根据权利要求24所述的方法，其特征在于，所述数据处理系统中还包括第二类计算节点，所述方法还包括：

所述管理节点根据所述第一类计算节点中的至少两个计算节点获得的第一中间结果，向所述第二类计算节点中包括SC_y在内的至少一个计算节点分配第二处理任务，其中，SC_y为所述至少一个计算节点中的第y个计算节点，y为正整数；

所述计算节点SC_y根据所述第二处理任务获取所述第一类计算节点中的至少两个计算节点获得的第一中间结果，其中，所述SC_y获取的第一中间结果是根据所述待处理数据集中位于同一行的数据块M_1x和位于同一列的数据块M_2x获得的第一中间结果；

所述计算节点SC_y将所述SC_y获取的第一中间结果执行reduce2操作，以获得第二中间结果M″_y，其中，所述第二中间结果M″_y为包含m行p列数据的矩阵；

所述管理节点根据所述第二类计算结果中的至少一个计算节点获得的第二中间结果获得所述待处理数据集的处理结果。
根据权利要求25所述的方法，其特征在于，所述数据集还包括数据块M_3x，所述数据块M_3x为包含m行p列数据的矩阵，所述方法还包括：

所述管理节点根据所述第二类计算节点中包括SC_y在内的至少一个计算节点获得的第二中间结果，向所述第二类计算节点中包括SC_y在内的至少一个计算节点分配第三处理任务；

所述计算节点SC_y根据所述第三处理任务获取所述数据集中的数据块M_3x；

所述计算节点SC_y对所述SC_y获得的第二中间结果M″_y和所述数据块M_3x执行赋值assign操作，以获得所述待处理数据集的处理结果。
根据权利要求26所述的方法，其特征在于：n＝m，所述数据块M_2x和所述数据块M_3x为同一数据块。
根据权利要求26所述的方法，其特征在于：n＝p，所述数据块M_1x和所述数据块M_3x为同一数据块。
根据权利要求25-28任意一项所述的方法，其特征在于：在所述第二类计算节点中包括至少两个计算节点时，所述第二类计算节点中的至少两个计算节点并行处理所述管理节点分配的第二处理任务。
根据权利要求24-29任意一项所述的方法，其特征在于：所述管理节点、所述第一类计算节点和所述第二类计算节点包括物理机、虚拟机或中央处理器CPU。