WO2022121519A1

WO2022121519A1 - 一种分布式数据流资源弹性伸缩增强插件及增强方法

Info

Publication number: WO2022121519A1
Application number: PCT/CN2021/124859
Authority: WO
Inventors: 闻立杰; 宗瓒
Original assignee: 清华大学
Priority date: 2020-12-10
Filing date: 2021-10-20
Publication date: 2022-06-16
Also published as: US20230129969A1; US11853801B2; CN112416602A; CN112416602B

Abstract

一种分布式数据流资源弹性伸缩增强插件及增强方法。该插件与用于分布式数据流资源弹性伸缩的伸缩控制器连接；插件包括：决策器（1）、决策模型（2）和伸缩操作样本库（3）；伸缩控制器通过第一接口将数据流注册到插件；伸缩控制器通过第二接口将每个状态下资源伸缩的最优决策发送至插件；伸缩操作样本库（3）用于记录每个状态资源伸缩的最优决策；决策模型（2）用于根据伸缩操作样本库（3）记录的最优决策对接收到的数据流进行预测，生成预测决策；决策器（1）用于根据预测决策确定推荐决策，决策器（1）通过第二接口将推荐决策返回至伸缩控制器；伸缩控制器根据推荐决策对当前数据流进行伸缩操作。上述增强插件及增强方法可以提高资源弹性伸缩的准确度和效率。

Description

一种分布式数据流资源弹性伸缩增强插件及增强方法

本申请要求于2020年12月10日提交中国专利局、申请号为202011434620.8、发明名称为“一种分布式数据流资源弹性伸缩增强插件及增强方法”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及数据流资源分配领域，特别是涉及一种分布式数据流资源弹性伸缩增强插件及增强方法。

背景技术

分布式数据流应用通常提供长生命周期的实时数据处理服务。典型的流处理场景通常伴随着数据流负载的波动。例如，社交网站情感分析服务在夜间的数据量将大幅降低，传感器数据的流量通常和设备使用频率有关。数据流负载突然升高或降低，将对执行实时数据处理操作的分布式数据流产生影响。当负载突然升高，为分布式数据流所分配资源可能无法满足计算需求，导致处理速率不能与数据流入速率保持一致；当负载突然降低，分布式数据流可能占用了过多的资源，导致资源的浪费。因此，数据流需要弹性伸缩控制器来完成资源随负载量的弹性伸缩。数据流应用通常将资源抽象成实例，每个实例包含一定数量的CPU核数和内存。弹性伸缩控制器通过自动控制数据流所使用的实例数量，来进行资源的伸缩操作。

现有的资源弹性伸缩控制器通过响应式的调整策略，使数据流资源量可以应对当前的数据产生速率。一般来说，数据流应用由多个计算节点组成，每个计算节点的资源分配最小单位为“实例”。通过增加或减少实例的数量，可以动态的为数据流增加或减少计算资源。

假设数据流的某计算节点数据流入速率为λ，通过观察该计算节点当前的计算状态，可以测量出该节点的数据处理能力为λ _p。理论上，为该计算节点分配λ/λ _p个实例，就可以应对当前的数据流入速率。由于数据流可能存在“一对一”或“多对一”的节点连接关系，因此每个节点的λ可以根据上游节点的输出速率计算得出。从数据源节点开始，根据拓扑排序的顺序依次遍历计算节点，就可以计算出每个节点应分配的实例数量。

以上计算过程可以通过对数据流各个节点的流量进行监控，完成快速的最优实例数量的计算，但由于实际情况下，增加实例数量往往不能带来线性的性能提升，导致实例数量的分配无法一步完成。由于分布式程序网络传输开销或异构机器的计算能力不同等因素，该方法需要迭代多次“计算实例数量-验证是否最优”的过程，直至根据当前数据负载计算得出的实例数量不再发生变化。与基于规则的弹性伸缩控制器相比，这种基于计算的控制器已经能够更快的完成弹性资源伸缩。但实验证明，该方法仍然需要多次尝试来完成一次资源弹性伸缩。

发明内容

本发明的目的是提供一种分布式数据流资源弹性伸缩增强插件及增强方法，以提高资源弹性伸缩的准确度和效率。

为实现上述目的，本发明提供了如下方案：

一种分布式数据流资源弹性伸缩增强插件，所述插件与用于分布式数据流资源弹性伸缩的伸缩控制器连接；所述插件包括：决策器、决策模型和伸缩操作样本库；

所述伸缩控制器通过第一接口将数据流注册到所述插件；所述伸缩控制器通过第二接口将每个状态下资源伸缩的最优决策发送至所述插件，所述最优决策为使得当前状态下数据流资源量适配当前输入数据量的资源分配决策；

所述伸缩操作样本库用于记录每个状态资源伸缩的最优决策；所述决策模型用于根据所述伸缩操作样本库记录的最优决策对接收到的数据流进行预测，生成预测决策；所述决策模型为机器学习模型；所述决策器用于根据所述预测决策确定推荐决策，所述推荐决策为所述预测决策或当前伸缩控制器生成的决策；所述决策器通过所述第二接口将所述推荐决策返回至所述伸缩控制器；

所述伸缩控制器根据所述推荐决策对当前数据流进行伸缩操作。

可选的，所述插件通过HTTP接口与所述伸缩控制器连接。

可选的，所述伸缩控制器还用于完成伸缩操作后，确定所述伸缩操作对应的推荐决策的决策质量，并将所述决策质量通过第三接口反馈至所述插件；所述推荐决策的决策质量为所述推荐决策是否为最优，当所述推荐决策为最优时，所述插件将所述推荐决策作为最优决策存储至所述伸缩操作样本库；

所述第一接口、所述第二接口和所述第三接口均为HTTP接口。

可选的，所述决策器用于根据所述预测决策的不确定度确定推荐决策；当所述预测决策的不确定度大于阈值时，将所述伸缩控制器生成的决策确定为推荐决策；当所述预测决策的不确定度不大于阈值时，将所述预测决策确定为推荐决策。

本发明还提供一种分布式数据流资源弹性伸缩增强插件的增强方法，所述分布式数据流资源弹性伸缩增强插件的增强方法应用于上述的分布式数据流资源弹性伸缩增强插件，所述分布式数据流资源弹性伸缩增强插件的增强方法包括：

获取当前数据流；

根据当前数据流，采用决策模型基于伸缩操作样本库生成预测决策；

获取当前伸缩控制器生成的决策；

根据所述预测决策，基于决策器确定推荐决策；所述推荐决策为所述预测决策或当前伸缩控制器生成的决策；

基于所述推荐决策采用所述伸缩控制器对当前数据流进行伸缩操作。

可选的，所述根据当前数据流，采用决策模型基于伸缩操作样本库生成预测决策，具体包括：

基于所述伸缩操作样本库对所述决策模型进行训练，得到训练好的决策模型；

采用训练好的决策模型对当前数据流进行预测，生成预测决策。

可选的，所述根据所述预测决策，基于决策器确定推荐决策，具体包括：

基于所述决策器，判断所述预测决策的不确定度是否大于阈值；

当所述预测决策的不确定度大于阈值时，将所述伸缩控制器生成的决策确定为推荐决策；

当所述预测决策的不确定度不大于阈值时，将所述预测决策确定为推荐决策。

可选的，所述基于所述推荐决策采用所述伸缩控制器对当前数据流进行伸缩操作，之后还包括：

当伸缩控制器完成伸缩操作后，确定所述伸缩操作对应的推荐决策的决策质量；所述推荐决策的决策质量为所述推荐决策是否为最优；

当所述推荐决策为最优时，将所述推荐决策作为最优决策存储至所述伸缩操作样本库。

可选的，所述当伸缩控制器完成伸缩操作后，确定所述伸缩操作对应的推荐决策的决策质量，具体包括：

通过判断所述推荐决策是否满足收敛条件，确定所述伸缩操作对应的推荐决策是否为最优；当所述推荐决策满足收敛条件时，确定所述伸缩操作对应的推荐决策最优；当所述推荐决策不满足收敛条件时，确定所述伸缩操作对应的推荐决策不是最优。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明插件使用的伸缩操作采样过程，可以在不干扰现有伸缩控制器工作的前提下，逐渐收集学习样本，用于模型训练。该样本收集过程无额外的开销，使该插件可以“开箱即用”。而且在使用机器学习模型拟合样本后，没有直接使用模型预测值作为最终结果，而是在综合考虑模型预测质量和当前的伸缩控制器给出的决策后，做出最终的决策。这有利于保证该插件不会为伸缩控制器带来负面的影响，可以增强现有的弹性伸缩控制器的决策精度，实现仅使用一个决策即可完成弹性资源伸缩操作。快速的资源伸缩，在分布式数据流资源分配不足时，将快速提高数据处理能力；在资源分配过多时，将减少资源的浪费。

说明书附图

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明分布式数据流资源弹性伸缩增强插件的架构图；

图2为本发明决策模型生成预测决策的流程示意图；

图3为本发明决策器确定推荐决策的流程示意图；

图4为本发明伸缩控制器反馈决策质量的流程示意图；

图5为本发明分布式数据流资源弹性伸缩增强插件的增强方法的流程示意图。

符号说明：

决策器-1，决策模型-2，伸缩操作样本库-3。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明分布式数据流资源弹性伸缩增强插件的架构图。如图1所示，本发明分布式数据流资源弹性伸缩增强插件包括决策器1、决策模型2和伸缩操作样本库3。本发明的插件通过HTTP接口与用于分布式数据流资源弹性伸缩的伸缩控制器连接，通过简单的接口即可完成集成。本发明的插件通过HTTP后端将决策器1、决策模型2和伸缩操作样本库3三个部分与现有的伸缩控制器连接，完成数据传输和功能调用。在被集成后，该插件不会影响现有的弹性伸缩控制器的工作方式，仅在后续的资源伸缩操作中提供推荐的伸缩决策(各计算节点的所需实例数量)。弹性伸缩控制器需要在使用该推荐决策后，将该决策是否可以完成伸缩反馈至插件。通过不断的学习控制器的决策，使插件推荐的决策越来越精准。

本发明的插件包括3个HTTP接口，分别为：注册数据流接口、更新决策接口和推荐决策质量反馈接口。注册数据流接口用于将新的数据流注册到插件。对于多租户的分布式数据流框架，通常需要运行众多的数据流作业。该插件同样支持多租户。调用注册数据流接口，并将数据流拓扑结构作为参数注册至插件。数据流的拓扑结构使用JSON格式表示，记录各个计算节点名称、初始实例数量以及节点连接关系。该JSON格式的信息将被作为参数通过HTTP请求发送至插件。插件将返回能够唯一标识数据流的ID，方便后续的接口进行该数据流的决策更新与推荐。

现有的弹性伸缩控制器在数据流资源不足或过多时进行资源调整，例如提高或降低计算节点的并行度。更新决策接口用于在弹性伸缩控制器进行资源伸缩操作时，将当前数据流状态下对应的操作发送至插件，供插件学习在该状态下应当作出的决策。该方法使用两个指标来表示数据流状态。第一个指标为数据流当前吞吐量，反映了当前数据负载量大小；第二个指标为每个节点输入队列中等待被计算的队列长度，反映了在当前资源配置下，数据流各节点的“压力”。弹性伸缩控制器通常需要使用多次决策来完成一次资源伸缩，本发明将最后一次决策的结果作为最优决策，因为该决策可以使数据流资源量恰好适配当前的输入数据量。伸缩控制器通过将各状态下对应的最优决策发送至插件，使插件收集到在不同状态下需要做出的决策，并保存至伸缩操作样本库。该操作是使插件可以学习最佳决策的前提。在插件收集到的决策信息较少时，不足以训练出准确的决策模型，因此插件将直接返回伸缩控制器的决策；当决策模型可以以较低的不确定度(Uncertainty)进行预测时，插件将模型预测的决策返回，作为推荐决策。

推荐决策质量反馈接口用于反馈插件推荐的决策质量，以便判断是否该推荐决策为最优。

本发明将预测计算节点实例数量的问题定义为回归问题。由于样本维度较低，且预测值为整数，因此较为容易使用机器学习模型进行拟合。同时由于本发明需要对预测结果的质量加以判断，因此使用分布估计来代替值估计，使用贝叶斯线性回归进行样本的学习。如图2所示，本发明的决策模型针对数据流中的每个计算节点单独构建模型。本发明插件的更新决策接口支持对单个计算节点或多个计算节点的样本更新。在实际场景中，可能数据流中的某个节点对资源更敏感(如数据流拓扑结构中计算操作最为密集的节点)，因此被更频繁的进行弹性伸缩。这导致伸缩操作样本库中，不同计算节点的样本数量可能不同。样本包含数据流状态及该状态下对应的最优实例数量。通过单独对每个计算节点训练模型，预测不同状态下对应的最优实例数量，达到资源配置推荐的目的。该操作将在插件后端持续运行，对新的样本进行持续的学习。

由于决策模型本身无法保证预测结果的准确性，因此，本发明采用一种基于阈值的判断方法来增强该插件的稳定性。如图3所示，当弹性伸缩控制器调用更新决策接口时，不断被训练的决策模型将会根据当前数据流的状态做出决策，即预测计算节点所需的实例数量。由于该插件采用的贝叶斯线性回归的预测结果为分布，依据输出的分布信息即可以计算不确定度，并使用预测结果的不确定度来判断模型对准确预测的把握大小。当模型输出的不确定度小于或等于阈值η时，决策器将认为该预测是准确的，进而使用该预测实例数量代替伸缩控制器给出的决策中对应节点的实例数量；当输出的不确定度大于阈值η时，决策器将认为准确预测的把握不大，因此将忽略该预测结果，直接使用伸缩控制器的实例数量。将各节点所对应的实例数量称为一个决策。经过以上步骤，决策器可以生成最终的推荐决策，并返回给伸缩控制器。

该决策器策略，将在样本不足时暂时使用伸缩控制器给出的决策，在模型逐渐准确后，直接给出精准的资源伸缩决策。现有的伸缩控制器在集成该插件后，可以从该插件得到逐渐准确的决策，并最终实现一个决策即可完成资源伸缩操作。

伸缩操作样本库记录了数据流在每种状态下所对应的最优决策，即在不同的数据负载下，数据流的每个计算节点所需的实例数量。本发明插件为了完成对不同状态下的最优决策的学习，首先定义了如何表示数据流状态。当数据流的某个节点计算资源不足时，将会产生反压现象，此时数据将会堆积在上游计算节点的输出队列。通过监控数据流各个计算节点的输出队列以及当前数据流的吞吐量，来衡量当前数据流的处理数据的负载状态。弹性伸缩控制器通常需要多个决策完成资源的伸缩，以降低数据流的压力。而该伸缩操作将通过接口存储至插件的伸缩操作样本库，用来学习最优决策。

何时进行资源伸缩操作，依赖于弹性伸缩控制器的实现。判断是否需要进行资源伸缩操作的常见方法包括比较数据输入流量和数据流应用吞吐量差异、监测数据处理延迟变化等。当弹性伸缩控制器判断需要进行伸缩操作时，将根据其伸缩策略的得到决策D。伸缩控制器生成决策的常见方法包括基于规则的资源重分配策略，或基于排队论模型的资源使用量建模。本插件将伸缩控制策略视为黑盒，不关注其通过何种方式获得决策D。由于资源伸缩控制器通常需要多个决策才能达到收敛，因此本发明关注如何更准确的一步达到最优决策(即决策满足收敛条件，如数据流吞吐量与输入流量匹配)。如图4所示，控制器生成的决策在执行之前，被调用更新决策接口，发送至本插件，供插件生成推荐决策。在获取由插件的决策模型并结合决策器策略得到的推荐决策后，弹性伸缩控制器将执行该推荐决策，以完成当前步骤的资源伸缩，并观察该决策是否收敛。收敛结果即该推荐决策的质量结果将通过调用推荐决策质量反馈接口发送至插件，当该推荐决策收敛时，确定该推荐决策为当前状态的最优决策。收敛方式的判定与伸缩控制器的实现有关。例如，吞吐量与输入数据流量差距小于某个阈值，或控制器做出多次决策保持不变等等。

随着数据流负载的变化，弹性伸缩控制器执行的最优决策将逐渐的被存储至伸缩操作样本库。样本包含了在特定的数据流状态下，计算节点对应的最优实例数量。

基于上述架构图，本发明还提供一种分布式数据流资源弹性伸缩增强插件的增强方法，图5为本发明分布式数据流资源弹性伸缩增强插件的增强方法的流程示意图。如图5所示，本发明分布式数据流资源弹性伸缩增强插件的增强方法包括以下步骤：

步骤100：获取当前数据流。

步骤200：根据当前数据流，采用决策模型基于伸缩操作样本库生成预测决策。首先，基于伸缩操作样本库对所述决策模型进行训练，得到训练好的决策模型；然后，采用训练好的决策模型对当前数据流进行预测，生成预测决策。随着数据流负载的变化，弹性伸缩控制器的最优决策将逐渐的被存储至伸缩操作样本库，其中的样本包含了在特定的数据流状态下，计算节点对应的最优实例数量。在插件收集到的决策信息较少时，不足以训练出准确的决策模型，当插件收集到的决策信息足够时，本插件使用机器学习方法，生成决策模型，可以完成对最优实例数量的预测。

步骤300：获取当前伸缩控制器生成的决策。

步骤400：根据预测决策，基于决策器确定推荐决策。推荐决策为预测决策或当前伸缩控制器生成的决策。当决策模型可以以较低的不确定度进行预测时，即决策模型生成的预测决策的不确定度小于或等于阈值时，插件将决策模型生成的预测决策返回，作为推荐决策；当决策模型生成的预测决策的不确定度大于阈值时，插件将伸缩控制器生成的决策返回，作为推荐决策。

步骤500：基于推荐决策采用伸缩控制器对当前数据流进行伸缩操作。在获取由插件的决策模型并结合决策器策略得到的推荐决策后，伸缩控制器将执行该推荐决策，以完成当前步骤的资源伸缩。

当伸缩控制器完成伸缩操作后，通过判断所述推荐决策是否满足收敛条件，确定所述伸缩操作对应的推荐决策是否为最优，即确定所述伸缩操作对应的推荐决策的决策质量；

当所述推荐决策满足收敛条件时，确定所述伸缩操作对应的推荐决策最优，将所述推荐决策作为最优决策存储至所述伸缩操作样本库。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

一种分布式数据流资源弹性伸缩增强插件，其特征在于，所述插件与用于分布式数据流资源弹性伸缩的伸缩控制器连接；所述插件包括：决策器、决策模型和伸缩操作样本库；

所述伸缩控制器通过第一接口将数据流注册到所述插件；所述伸缩控制器通过第二接口将每个状态下资源伸缩的最优决策发送至所述插件，所述最优决策为使得当前状态下数据流资源量适配当前输入数据量的资源分配决策；

所述伸缩操作样本库用于记录每个状态资源伸缩的最优决策；所述决策模型用于根据所述伸缩操作样本库记录的最优决策对接收到的数据流进行预测，生成预测决策；所述决策模型为机器学习模型；所述决策器用于根据所述预测决策确定推荐决策，所述推荐决策为所述预测决策或当前伸缩控制器生成的决策；所述决策器通过所述第二接口将所述推荐决策返回至所述伸缩控制器；

所述伸缩控制器根据所述推荐决策对当前数据流进行伸缩操作。
根据权利要求1所述的分布式数据流资源弹性伸缩增强插件，其特征在于，所述插件通过HTTP接口与所述伸缩控制器连接。
根据权利要求2所述的分布式数据流资源弹性伸缩增强插件，其特征在于，所述伸缩控制器还用于完成伸缩操作后，确定所述伸缩操作对应的推荐决策的决策质量，并将所述决策质量通过第三接口反馈至所述插件；所述推荐决策的决策质量为所述推荐决策是否为最优，当所述推荐决策为最优时，所述插件将所述推荐决策作为最优决策存储至所述伸缩操作样本库；

所述第一接口、所述第二接口和所述第三接口均为HTTP接口。
根据权利要求1所述的分布式数据流资源弹性伸缩增强插件，其特征在于，所述决策器用于根据所述预测决策的不确定度确定推荐决策；当所述预测决策的不确定度大于阈值时，将所述伸缩控制器生成的决策确定为推荐决策；当所述预测决策的不确定度不大于阈值时，将所述预测决策确定为推荐决策。
一种分布式数据流资源弹性伸缩增强插件的增强方法，其特征在于，所述分布式数据流资源弹性伸缩增强插件的增强方法应用于权利要求1-4任一项所述的分布式数据流资源弹性伸缩增强插件，所述分布式数据流资源弹性伸缩增强插件的增强方法包括：

获取当前数据流；

根据当前数据流，采用决策模型基于伸缩操作样本库生成预测决策；

获取当前伸缩控制器生成的决策；

根据所述预测决策，基于决策器确定推荐决策；所述推荐决策为所述预测决策或当前伸缩控制器生成的决策；

基于所述推荐决策采用所述伸缩控制器对当前数据流进行伸缩操作。
根据权利要求5所述的分布式数据流资源弹性伸缩增强插件的增强方法，其特征在于，所述根据当前数据流，采用决策模型基于伸缩操作样本库生成预测决策，具体包括：

基于所述伸缩操作样本库对所述决策模型进行训练，得到训练好的决策模型；

采用训练好的决策模型对当前数据流进行预测，生成预测决策。
根据权利要求5所述的分布式数据流资源弹性伸缩增强插件的增强方法，其特征在于，所述根据所述预测决策，基于决策器确定推荐决策，具体包括：

基于所述决策器，判断所述预测决策的不确定度是否大于阈值；

当所述预测决策的不确定度大于阈值时，将所述伸缩控制器生成的决策确定为推荐决策；

当所述预测决策的不确定度不大于阈值时，将所述预测决策确定为推荐决策。
根据权利要求5所述的分布式数据流资源弹性伸缩增强插件的增强方法，其特征在于，所述基于所述推荐决策采用所述伸缩控制器对当前数据流进行伸缩操作，之后还包括：

当伸缩控制器完成伸缩操作后，确定所述伸缩操作对应的推荐决策的决策质量；所述推荐决策的决策质量为所述推荐决策是否为最优；

当所述推荐决策为最优时，将所述推荐决策作为最优决策存储至所述伸缩操作样本库。
根据权利要求5所述的分布式数据流资源弹性伸缩增强插件的增强方法，其特征在于，所述当伸缩控制器完成伸缩操作后，确定所述伸缩操作对应的推荐决策的决策质量，具体包括：

通过判断所述推荐决策是否满足收敛条件，确定所述伸缩操作对应的推荐决策是否为最优；当所述推荐决策满足收敛条件时，确定所述伸缩操作对应的推荐决策最优；当所述推荐决策不满足收敛条件时，确定所述伸缩操作对应的推荐决策不是最优。