WO2016146023A1

WO2016146023A1 - 分布式计算系统和方法

Info

Publication number: WO2016146023A1
Application number: PCT/CN2016/076123
Authority: WO
Inventors: 徐凯; 尹小明; 何乐; 罗李
Original assignee: 阿里巴巴集团控股有限公司
Priority date: 2015-03-19
Filing date: 2016-03-11
Publication date: 2016-09-22
Also published as: CN106034160A; CN106034160B

Abstract

本申请公开了一种分布式计算系统和方法，其中该系统包括：多个集群，用于进行分布式计算；全局元数据服务器，用于保存并管理多集群数据副本分布视图和多集群拓扑结构视图；跨集群数据复制服务器，用于根据复制指令将指定的数据复制到复制指令指定的集群；以及数据访问分配服务器，用于根据集群的数据使用请求、多集群数据副本分布视图和多集群拓扑结构视图分配目标数据的位置信息，并根据目标数据的位置信息生成复制指令，以使跨集群数据复制服务器将目标数据对应的目标数据副本复制到数据使用请求指定的集群。该系统可以使得在网络条件受限的多集群环境中，业务数据副本多地动态分布时，确保计算任务在有限等待时间范围内获取到业务数据。

Description

分布式计算系统和方法

本申请要求2015年03月19日递交的申请号为201510122729.0、发明名称为“分布式计算系统和方法”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及互联网技术领域，尤其涉及一种分布式计算系统和方法。

背景技术

目前，当前主流的数据业务公司的离线数据处理方法大多为运行在集群上的分布式数据计算任务。随着数据规模的不断扩大，多集群协同工作成为处理大规模离线数据的主流方式。在网络带宽有限的跨地域多集群协作的场景下，如何高效地在集群间访问数据，成为一个重要的问题。

相关技术中，多集群数据访问方法在计算任务需要跨集群访问数据时，通常采用如下方式：通过集群间直连的网络跨集群直读数据。

但是，现有的通过元数据信息定位数据位置直接进行访问的方法在以下三个方面存在问题：(1)某份热点数据在同一时间被大量计算任务跨集群、跨地域访问时，网络带宽会成为瓶颈，导致访问延时、通信质量下降等问题，极端情况会导致网络状况雪崩；(2)对多集群的网络拓扑结构做出了限制，比如要求任意集群间必须连通，而跨地域时较难做到；(3)对网络稳定性要求较高，比如任何时候网络必须可用，而长途链路很难做到。

因此，现有的通过元数据信息定位数据位置直接进行访问的方法无法适用于跨地域多集群的复杂网络环境场景。

发明内容

本申请的目的旨在至少在一定程度上解决上述的技术问题之一。

为此，本申请的第一个目的在于提出一种分布式计算系统。该系统可以使得在网络条件受限的多集群环境中，业务数据副本多地动态分布时，确保计算任务在有限等待时间范围内获取到业务数据，提高了集群之间有限带宽下访问数据的效率。

本申请的第二个目的在于提出一种分布式计算方法。

为了实现上述目的，本申请第一方面实施例的分布式计算系统，包括：多个集群，用于进行分布式计算；全局元数据服务器，用于保存并管理多集群数据副本分布视图和多集群拓扑结构视图；跨集群数据复制服务器，用于根据复制指令将指定的数据复制到所述复制指令指定的集群；以及数据访问分配服务器，用于根据所述集群的数据使用请求、所述多集群数据副本分布视图和多集群拓扑结构视图分配目标数据的位置信息，并根据所述目标数据的位置信息生成所述复制指令，以使所述跨集群数据复制服务器将所述目标数据对应的目标数据副本复制到所述数据使用请求指定的集群。

本申请实施例的分布式计算系统，可以使得在网络条件受限的多集群环境中，业务数据副本多地动态分布时，确保计算任务在有限等待时间范围内获取到业务数据，并通过引入全局数据访问分配服务器，将跨集群数据访问请求从无序变为受控，配合跨集群数据复制服务器，能够从全局平衡跨集群数据访问的资源使用，以及通过引入跨集群数据复制服务器的进度信息，同时在计算任务上提供等待的选项，避免了短时数据访问洪峰，并通过有限的复制等待时间，将单点的数据访问请求分散到了全局多点，提高了集群之间有限带宽下访问数据的效率。

为了实现上述目的，本申请第二方面实施例的分布式计算方法，包括：多个集群进行分布式计算；全局元数据服务器保存并管理多集群数据副本分布视图和多集群拓扑结构视图；跨集群数据复制服务器根据复制指令将指定的数据复制到所述复制指令指定的集群；数据访问分配服务器根据所述集群的数据使用请求、所述多集群数据副本分布视图和多集群拓扑结构视图分配目标数据的位置信息；以及所述数据访问分配服务器根据所述目标数据的位置信息生成所述复制指令，以使所述跨集群数据复制服务器将所述目标数据对应的目标数据副本复制到所述数据使用请求指定的集群。

本申请实施例的分布式计算方法，可以使得在网络条件受限的多集群环境中，业务数据副本多地动态分布时，确保计算任务在有限等待时间范围内获取到业务数据，并通过引入全局数据访问分配服务器，将跨集群数据访问请求从无序变为受控，配合跨集群数据复制服务器，能够从全局平衡跨集群数据访问的资源使用，以及通过引入跨集群数据复制服务器的进度信息，同时在计算任务上提供等待的选项，避免了短时数据访问洪峰，并通过有限的复制等待时间，将单点的数据访问请求分散到了全局多点，提高了集群之间有限带宽下访问数据的效率。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中，

图1是根据本申请一个实施例的分布式计算系统的结构示意图；以及

图2是根据本申请一个实施例的分布式计算方法的流程图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

下面参考附图描述本申请实施例的分布式计算系统和方法。

图1是根据本申请一个实施例的分布式计算系统的结构示意图。如图1所示，该分布式计算系统可以包括：多个集群10、全局元数据服务器20、跨集群数据复制服务器30和数据访问分配服务器40。

具体地，多个集群10可用于进行分布式计算。其中，在本申请的实施例中，集群10可理解为由一些互相连接在一起的计算机构成的一个并行或分布式系统，从外部来看，集群10仅仅是一个系统，对外提供统一的服务。

全局元数据服务器20可用于保存并管理多集群数据副本分布视图和多集群拓扑结构视图。更具体地，全局元数据服务器20可保存全局可见的多集群数据副本分布视图，提供增加、删除、修改、查询等接口供外部模块调用，并可保存全局可见的多集群拓扑结构视图，提供查询、管理员修改等接口。其中，全局元数据服务器20的工作方式为请求/响应模式。

跨集群数据复制服务器30可用于根据复制指令将指定的数据复制到复制指令指定的集群10。更具体地，跨集群数据复制服务器30可根据复制指令将指定的数据复制到指定集群10中，复制过程对外透明，并可提供增加接口、删除接口、修改接口、复制请求接口和查询接口供外部管理调用。也就是说，跨集群数据复制服务器30具有两个工作流程：后台数据复制流程和请求数据复制流程。

数据访问分配服务器40可用于根据集群10的数据使用请求、多集群数据副本分布视图和多集群拓扑结构视图分配目标数据的位置信息，并根据目标数据的位置信息生成复制指令，以使跨集群数据复制服务器30将目标数据对应的目标数据副本复制到数据使用请求指定的集群10。

更具体地，数据访问分配服务器40可接收集群10的数据使用请求，并根据数据使用请求访问全局元数据服务器20以获取请求数据列表的全局分布信息、多集群拓扑结构视图及相应的带宽描述信息，访问跨集群数据复制服务器30以获取数据副本产生的状态和进度，并通过综合考虑上述这些信息为每个请求分配目标数据的位置信息。

其中，在本申请的一个实施例中，在访问跨集群数据复制服务器30以获取数据副本产生的状态和进度的过程中，数据访问分配服务器40可根据数据使用请求判断目标数据是否存在，如果目标数据不存在则向集群10反馈目标数据不存在信息。具体地，数据访问分配服务器40在接收到数据使用请求之后，可根据数据使用请求访问全局元数据服务器20以获取数据分布，信息，并根据数据使用请求判断目标数据是否存在，如果否，则终止运行，并向集群10反馈目标数据不存在。

在本申请的实施例中，如果目标数据存在，且集群10不能等待，则数据访问分配服务器40可获取目标数据对应的可用目标数据副本，并根据可用目标数据副本所在集群10与集群10之间的距离和带宽确定最终的目标数据副本，并发送至集群10；如果目标数据存在，且集群10能等待，则数据访问分配服务器40可进一步判断集群10所对应计算任务所能直达的集群10中是否有对应的可用目标数据副本，如果没有，则根据可用目标数据副本所在集群10与集群10之间的距离和带宽确定最终的目标数据副本，并发送至集群10；如果有，则从计算任务所能直达的集群10中获取目标数据副本，并反馈至集群10。其中，在本申请的实施例中，计算任务可理解为处理数据的计算机程序，按照不同的计算模型(如Map/Reduce)读取数据进行处理，将结果写入到存储介质中。

具体地，数据访问分配服务器40在根据数据使用请求判断目标数据存在，且集群10不能等待(即计算任务需要马上进行数据访问)时，可从当前可用的数据副本中选择一个距离和带宽都合适的副本返回到集群10中，即可分析数据使用请求的数据副本分布元数据和集群10之间的网络结构，挑选网络带宽裕量较大和物理距离较近的数据副本作为最终的目标数据副本并反馈到集群10。数据访问分配服务器40在根据数据使用请求判断目标数据存在，且集群10能等待(即计算任务可以等待)时，可进一步判断集群10所对应计算任务所能直达的集群10中是否有对应的可用目标数据副本，如果没有，则可分析数据使用请求的数据副本分布元数据和集群10之间的网络结构，挑选网络带宽裕量较大和物理距离较近的数据副本作为最终的目标数据副本并反馈到集群10；如果有，则从计算任务所能直达的集群10中获取目标数据副本，并反馈至集群10。其中，在本申请的实施例中，数据距离和带宽的评估函数可根据业务场景定义。

具体而言，在本申请的实施例中，数据访问分配服务器40从计算任务所能直达的集群中获取目标数据副本的具体实现过程可为：根据多集群拓扑结构视图获取集群10访问计算任务所能直达的集群10中代价最小且具有目标数据副本的集群10，并获取目标数据副本。

进一步的，在本申请的实施例中，数据访问分配服务器40在获取目标数据副本的同时，查询跨集群数据复制服务器30以获取目标数据副本复制完成的时间估计，并反馈至集群10。具体地，数据访问分配服务器40在根据多集群拓扑结构视图挑选一个访问代价最小的集群10中的目标数据副本的同时，如果该目标数据副本还在复制中，则查询跨集群数据复制服务器30以获取该目标数据副本复制完成的时间估计，并将该时间估计反馈到集群10。

为了实现上述实施例，本申请还提出了一种分布式计算方法。

图2是根据本申请一个实施例的分布式计算方法的流程图。如图2所示，该分布式计算方法可以包括：

S201，多个集群进行分布式计算。

其中，在本申请的实施例中，集群可理解为由一些互相连接在一起的计算机构成的一个并行或分布式系统，从外部来看，集群仅仅是一个系统，对外提供统一的服务。

S202，全局元数据服务器保存并管理多集群数据副本分布视图和多集群拓扑结构视图。

具体地，全局元数据服务器可保存全局可见的多集群数据副本分布视图，提供增加、删除、修改、查询等接口供外部模块调用，并可保存全局可见的多集群拓扑结构视图，提供查询、管理员修改等接口。其中，全局元数据服务器的工作方式为请求/响应模式。

S203，跨集群数据复制服务器根据复制指令将指定的数据复制到复制指令指定的集群。

具体地，跨集群数据复制服务器可根据复制指令将指定的数据复制到指定集群中，复制过程对外透明，并可提供增加接口、删除接口、修改接口、复制请求接口和查询接口供外部管理调用。也就是说，跨集群数据复制服务器具有两个工作流程：后台数据复制流程和请求数据复制流程。

S204，数据访问分配服务器根据集群的数据使用请求、多集群数据副本分布视图和多集群拓扑结构视图分配目标数据的位置信息。

具体地，数据访问分配服务器可接收集群的数据使用请求，并根据数据使用请求访问全局元数据服务器以获取请求数据列表的全局分布信息、多集群拓扑结构视图及相应的带宽描述信息，访问跨集群数据复制服务器以获取数据副本产生的状态和进度，并通过综合考虑上述这些信息为每个请求分配目标数据的位置信息。

S205，数据访问分配服务器根据目标数据的位置信息生成复制指令，以使跨集群数据复制服务器将目标数据对应的目标数据副本复制到数据使用请求指定的集群。

其中，在本申请的一个实施例中，在数据访问分配服务器访问跨集群数据复制服务器以获取数据副本产生的状态和进度的过程中，分布式计算方法还可包括：数据访问分配服务器根据数据使用请求判断目标数据是否存在；如果目标数据不存在，则数据访问分配服务器向集群反馈目标数据不存在信息。具体地，数据访问分配服务器在接收到数据使用请求之后，可根据数据使用请求访问全局元数据服务器以获取数据分布，信息，并根据数据使用请求判断目标数据是否存在，如果否，则终止运行，并向集群反馈目标数据不存在。

在本申请的一个实施例中，分布式计算方法还可包括：如果目标数据存在，且集群不能等待，则数据访问分配服务器获取目标数据对应的可用目标数据副本，并根据可用目标数据副本所在集群与集群之间的距离和带宽确定最终的目标数据副本，并发送至集群；如果目标数据存在，且集群能等待，则数据访问分配服务器进一步判断集群所对应计算任务所能直达的集群中是否有对应的可用目标数据副本；如果没有，则数据访问分配服务器根据可用目标数据副本所在集群与集群之间的距离和带宽确定最终的目标数据副本，并发送至集群；如果有，则数据访问分配服务器从计算任务所能直达的集群中获取目标数据副本，并反馈至集群。其中，在本申请的实施例中，计算任务可理解为处理数据的计算机程序，按照不同的计算模型(如Map/Reduce)读取数据进行处理，将结果写入到存储介质中。

具体地，数据访问分配服务器在根据数据使用请求判断目标数据存在，且集群不能等待(即计算任务需要马上进行数据访问)时，可从当前可用的数据副本中选择一个距离和带宽都合适的副本返回到集群中，即可分析数据使用请求的数据副本分布元数据和集群之间的网络结构，挑选网络带宽裕量较大和物理距离较近的数据副本作为最终的目标数据副本并反馈到集群。数据访问分配服务器在根据数据使用请求判断目标数据存在，且集群能等待(即计算任务可以等待)时，可进一步判断集群所对应计算任务所能直达的集群中是否有对应的可用目标数据副本，如果没有，则可分析数据使用请求的数据副本分布元数据和集群之间的网络结构，挑选网络带宽裕量较大和物理距离较近的数据副本作为最终的目标数据副本并反馈到集群；如果有，则从计算任务所能直达的集群中获取目标数据副本，并反馈至集群。其中，在本申请的实施例中，数据距离和带宽的评估函数可根据业务场景定义。

具体而言，在本申请的实施例中，从计算任务所能直达的集群中获取目标数据副本的具体实现过程可为：根据多集群拓扑结构视图获取集群访问计算任务所能直达的集群中代价最小且具有目标数据副本的集群，并获取目标数据副本。

进一步的，在本申请的实施例中，数据访问分配服务器在获取目标数据副本的同时，还包括：查询跨集群数据复制服务器以获取目标数据副本复制完成的时间估计，并反馈至集群。具体地，数据访问分配服务器在根据多集群拓扑结构视图挑选一个访问代价最小的集群中的目标数据副本的同时，如果该目标数据副本还在复制中，则查询跨集群数据复制服务器以获取该目标数据副本复制完成的时间估计，并将该时间估计反馈到集群。由此，通过引入跨集群数据复制服务器的进度信息，同时在计算任务上提供等待的选项，避免了短时数据访问洪峰，并通过有限的复制等待时间，将单点的数据访问请求分散到了全局多点。

与相关技术相比，本申请实施例的分布式计算方法适用于针对多集群环境下，计算任务大规模跨集群访问数据的场景，主要通过引入跨集群数据复制服务器的进度信息，同时在计算任务上提供等待的选项，避免了短时数据访问洪峰，从而避免了某份热点数据在同一时间被大量计算任务跨集群、跨地域访问时，网络带宽会成为瓶颈，导致访问延时、通信质量下降等问题的发生，并在获取业务数据副本时无需对多集群的网络拓扑结构做限制，以及根据多集群网络拓扑结构挑选一个访问代价最小的集群的数据副本作为最终的目标数据副本，可以看出，在整个过程中对网络稳定性要求不高。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

一种分布式计算系统，其特征在于，包括：

多个集群，用于进行分布式计算；

全局元数据服务器，用于保存并管理多集群数据副本分布视图和多集群拓扑结构视图；

跨集群数据复制服务器，用于根据复制指令将指定的数据复制到所述复制指令指定的集群；以及

数据访问分配服务器，用于根据所述集群的数据使用请求、所述多集群数据副本分布视图和多集群拓扑结构视图分配目标数据的位置信息，并根据所述目标数据的位置信息生成所述复制指令，以使所述跨集群数据复制服务器将所述目标数据对应的目标数据副本复制到所述数据使用请求指定的集群。
如权利要求1所述的分布式计算系统，其特征在于，所述数据访问分配服务器根据所述数据使用请求判断目标数据是否存在，如果所述目标数据不存在则向所述集群反馈目标数据不存在信息。
如权利要求2所述的分布式计算系统，其特征在于，

如果所述目标数据存在，且所述集群不能等待，则所述数据访问分配服务器获取所述目标数据对应的可用目标数据副本，并根据所述可用目标数据副本所在集群与所述集群之间的距离和带宽确定最终的目标数据副本，并发送至所述集群；

如果所述目标数据存在，且所述集群能等待，则进一步判断所述集群所对应计算任务所能直达的集群中是否有对应的可用目标数据副本；

如果没有，则根据所述可用目标数据副本所在集群与所述集群之间的距离和带宽确定最终的目标数据副本，并发送至所述集群；

如果有，则从所述计算任务所能直达的集群中获取所述目标数据副本，并反馈至所述集群。
如权利要求3所述的分布式计算系统，其特征在于，所述从所述计算任务所能直达的集群中获取所述目标数据副本具体包括：

根据所述多集群拓扑结构视图获取所述集群访问所述计算任务所能直达的集群中代价最小且具有所述目标数据副本的集群，并获取所述目标数据副本。
如权利要求4所述的分布式计算系统，其特征在于，所述数据访问分配服务器在获取所述目标数据副本的同时，查询所述跨集群数据复制服务器以获取所述目标数据副本复制完成的时间估计，并反馈至所述集群。
一种分布式计算方法，其特征在于，包括以下步骤：

多个集群进行分布式计算；

全局元数据服务器保存并管理多集群数据副本分布视图和多集群拓扑结构视图；

跨集群数据复制服务器根据复制指令将指定的数据复制到所述复制指令指定的集群；

数据访问分配服务器根据所述集群的数据使用请求、所述多集群数据副本分布视图和多集群拓扑结构视图分配目标数据的位置信息；以及

所述数据访问分配服务器根据所述目标数据的位置信息生成所述复制指令，以使所述跨集群数据复制服务器将所述目标数据对应的目标数据副本复制到所述数据使用请求指定的集群。
如权利要求6所述的分布式计算方法，其特征在于，还包括：

所述数据访问分配服务器根据所述数据使用请求判断目标数据是否存在；

如果所述目标数据不存在，则所述数据访问分配服务器向所述集群反馈目标数据不存在信息。
如权利要求7所述的分布式计算方法，其特征在于，还包括：

如果所述目标数据存在，且所述集群不能等待，则所述数据访问分配服务器获取所述目标数据对应的可用目标数据副本，并根据所述可用目标数据副本所在集群与所述集群之间的距离和带宽确定最终的目标数据副本，并发送至所述集群；

如果所述目标数据存在，且所述集群能等待，则所述数据访问分配服务器进一步判断所述集群所对应计算任务所能直达的集群中是否有对应的可用目标数据副本；

如果没有，则所述数据访问分配服务器根据所述可用目标数据副本所在集群与所述集群之间的距离和带宽确定最终的目标数据副本，并发送至所述集群；

如果有，则所述数据访问分配服务器从所述计算任务所能直达的集群中获取所述目标数据副本，并反馈至所述集群。
如权利要求8所述的分布式计算方法，其特征在于，从所述计算任务所能直达的集群中获取所述目标数据副本，具体包括：

根据所述多集群拓扑结构视图获取所述集群访问所述计算任务所能直达的集群中代价最小且具有所述目标数据副本的集群，并获取所述目标数据副本。
如权利要求9所述的分布式计算方法，其特征在于，所述数据访问分配服务器在获取所述目标数据副本的同时，还包括：

查询所述跨集群数据复制服务器以获取所述目标数据副本复制完成的时间估计，并反馈至所述集群。