WO2018098797A1

WO2018098797A1 - Q学习中调整状态空间边界的方法和装置

Info

Publication number: WO2018098797A1
Application number: PCT/CN2016/108312
Authority: WO
Inventors: 霍罗威茨夏伊; 阿里安亚伊; 郑淼
Original assignee: 华为技术有限公司
Priority date: 2016-12-02
Filing date: 2016-12-02
Publication date: 2018-06-07
Also published as: CN108476084B; CN108476084A

Abstract

一种Q学习中调整状态边界的方法，能够提升Q学习算法的算法性能。该方法包括：根据系统在第一时段的第一状态，确定第一状态所在的分段，并确定该分段对应的多个动作中Q值最大的第一动作，其中，每个动作的Q值用于表示执行每个动作后系统可获得的预期收益值（210）；执行第一动作，并在执行第一动作后的第二时段，计算执行第一动作后系统获得的实际收益值（220）；判断该多个动作中是否存在Q值大于实际收益值的第二动作，若该多个动作中存在Q值大于实际收益值的第二动作，则调整该分段的空间边界（230）。

Description

Q学习中调整状态空间边界的方法和装置

技术领域

本申请实施例涉及信息技术领域，并且更具体地，涉及Q学习中调整状态空间边界的方法和装置。

背景技术

强化学习(英文全称可以为reinforcement learning)又称再励学习或评价学习，是一种重要的机器学习方法。在智能控制机器人及分析预测等领域有许多应用。所谓强化学习就是智能系统从环境到行为映射的学习，以使奖励值函数的值最大，强化学习中由环境提供的奖励值函数的值是对动作的好坏进行评价，而不是告诉强化学习系统如何去产生正确的动作。由于外部环境提供的信息很少，强化学习必须靠自身的经历进行学习。通过这种方式，强化学习在行动-评价的环境中获得知识，改进行动方案以适应环境。而Q学习(Q-learning)方法是强化学习中的经典算法之一，是一种与模型无关的学习算法。

数据中心集群基于上述Q学习算法对应用(Application)使用的资源进行自适应调度，可以提升数据中心的资源利用率。在现有的基于Q学习的算法中，数据中心通常是根据应用的负载变化情况(或者说，应用的状态)对应用所使用的资源进行调度。而应用的状态大多是通过应用在机器集群中所使用的所有机器的平均资源利用率这一参数进行表征。并且，平均资源利用率这一参数是连续的，而非离散值。现有技术中，为了准确地描述一个应用在各个状态时可采取的候选动作，将原本连续的状态空间进行了离散划分。

但是，将连续的状态空间离散划分，可能造成信息的损失，并导致状态的描述不够准确。从而使得资源调度的结果不甚理想。另外，细粒度的状态空间划分也会使得状态空间过大，导致Q表的收敛速度过慢。

发明内容

本申请提供一种Q学习中调整状态空间边界的方法和装置，能够在加快Q学习算法收敛速度的同时，提升Q学习算法的性能。

第一方面，本申请提供一种Q学习中调整状态空间边界的方法，应用于业务运行系统，该方法包括：根据系统在第一时段的第一状态，确定第一状态所在的分段，并确定该分段对应的多个动作中Q值最大的第一动作，其中，该分段是系统状态的状态值连续取值范围中的一段，每个动作的Q值用于表示执行每个动作后系统可获得的预期收益值；执行第一动作，并在执行第一动作后的第二时段，计算执行第一动作后，系统获得的实际收益值；判断多个动作中是否存在Q值大于实际收益值的第二动作，若该多个动作中存在Q值大于实际收益值的第二动作，则调整该分段的边界。

应理解，第二时段位于第一时段之后。更具体地，第一时段为执行(或者说，采取)第一动作之前所处的时段。第二时段为执行第一动作之后的时段。

将系统的所有状态按照状态值的大小顺序排列(从大到小或从小到大)，从中取出连续的一段即为一个分段。

在本申请实施例中，通过对系统的状态所在分段的边界进行调整，使得系统的状态数量减少，加快了Q学习算法的收敛速度，能够提升算法的性能。

在一种可能的实现方式中，若该多个动作中存在Q值大于实际收益值的第二动作，则调整该分段的边界，包括：将该分段的边界调整为第一状态的状态值。

在一种可能的实现方式中，每个状态的属性使用系统的下列参数中的至少一项进行表征：内存利用率、中央处理器CPU的利用率、网络利用率和所使用的机器数量。

在本发明实施例中，采用多个参数表征状态(也可称为状态空间)的属性，使得Q学习中状态空间的表征多维度化，能够使状态空间的描述更加准确和细化，可以使算法的性能得到进一步优化。

在一种可能的实现方式中，执行第一动作之前，该方法还包括：确定第一状态的状态值是否属于该分段的预设区域，该预设区域内的状态每个状态值与该分段的边界值之间的差值小于或等于预设阈值；当确定第一状态的状态值属于该预设区域时，采用(1-ε)的概率执行第一动作。

具体地，在本发明实施例中，当系统在第一时段所处于的第一状态的状态值为第一状态所在分段和第二状态所在分段的边界值或位于该边界值附近时，选择以(1-ε)的概率执行第一动作，以ε的概率执行第一状态所在分段对应的多个动作中除第一动作之外的其他任一动作。这里，第二状态不同于第一状态，且第二状态与第一状态所在分段相邻。

可以理解的是，现有的Q学习算法中，每次选择应用在一个状态下的最优动作时采用ε贪婪策略，目的在于平衡算法的探索能力(exploration)以及开采能力(exploitation)，以加强算法的探索能力。对那些没有执行过的动作进行尝试，看是否能获得更好的效果。然而过多的进行探索尝试会影响算法的性能。

在本申请实施例中，对处于两个分段边界值附近的那些状态采用ε贪婪策略，可以减少无效的尝试次数，提升算法性能。

在一种可能的实现方式中，调整该分段的边界，包括：采用以下任意一种算法调整该分段的边界：分治法、聚类法和分类法。

需要说明的是，调整分段的边界时，可以采用现有技术中的算法，例如，分治法、聚类法和分类法等。每种算法的具体计算过程可以参考现有技术，本发明实施例对此不作详述。

可选地，在本申请实施例中，当状态空间的属性使用一个参数(即，状态空间为一维)进行表征时，通过本申请实施例提供的调整状态空间边界的方法，可以将应用的状态数量减少到与动作数量相同。

第二方面，本申请提供一种Q学习中调节状态空间边界的装置，用于执行第一方面或第一方面的任意可能的实现方式中的方法。具体地，该装置包括用于执行第一方面或第一方面的任意可能的实现方式中的方法的单元。

第三方面，本申请提供了一种Q学习中调节状态空间边界的设备。具体地，该设备包括：存储器和处理器。其中，存储器用于存储指令，处理器用于执行存储器存储的指令，当指令被执行时，处理器执行第一方面或第一方面的任意可能的实现方式中的方法。

第四方面，本申请提供一种计算机可读介质，用于存储计算机程序，该计算机程序包括用于执行第一方面或第一方面的任意可能的实现方式中的方法的指令。

在本申请实施例中，通过对系统状态所在分段的边界(也即，状态之间的边界)进行调整，使得系统状态的数量减少，加快了Q学习算法的收敛速度，能够提升算法的性能。

附图说明

图1为现有技术中利用Q学习算法进行资源调度的方法100的流程图。

图2为本申请实施例提供的调整状态空间边界的方法200的流程图。

图3为本申请实施例提供的调整分段边界的一个示例。

图4为本申请实施例提供的调整分段边界的另一个示例。

图5为本申请实施例提供的调整状态空间边界的装置500的示意图。

图6为本申请实施例提供的调整状态空间边界的设备600的示意图。

具体实施方式

下面将结合附图，对本发明实施例中的技术方案进行说明。

应理解，本申请实施例的技术方案可以应用于各种领域，例如，数据中心的资源自适应调度领域。其中，数据中心可以包括计算机集群，数据中心可以根据应用的负载变化情况等信息，实时调整分配给该应用的机器(例如，虚拟机、容器等)数量。例如增加或减少机器数量，或保持机器数量不变，等，以在有效满足应用需求的前提下提升数据中心的总体资源利用率。

首先，对本申请实施例中涉及到的基本概念作简单介绍。

应用的状态：描述应用的当前运行情况，可以表示为S(M,U)，其中，M表示当前应用所使用的机器数量，U表示应用当前所使用的机器集群中所有机器的平均资源占用率。这里的机器可以包括物理机(Physical Machine，PM)、虚拟机(Virtual Machine，VM)和/或容器(Docker)等。

动作：Q学习算法在数据中心集群中可以采取的各种动作种类(例如，动作个数、动作幅度等)。具体可以根据应用的负载情况设定。例如，当基于Q学习进行数据中心集群中的资源调度时，动作可以用于对分配给应用的资源数量或机器数量进行调整。例如，减少机器数量、保持机器数量不变或增加机器数量。其中，动作对分配给应用的资源的具体调整数量可以根据实际需要设定，本发明的实施例中不作限定。

奖励函数：用来确定Q学习算法在应用状态S时执行动作A后，系统给出对于状态-动作组合(S,A)的系统奖励值，可用来评价在应用状态S时执行动作A的好坏情况。例如，如果奖励函数值为正，说明执行动作A后应用的服务水平目标(Service Level Objective，SLO)能够得到及时满足。如果奖励函数值为负，说明采取动作A后应用的SLO不能得到满足。奖励函数的计算公式可以如下：

作为举例，奖励值函数可以由下式表示：

其中，U可以表示应用当前使用的所有机器的平均资源占用率，p为配置参数，其默认设置为2。respTime表示数据中心的99％响应时间百分比。SLO可以表示99％响应时间百分比的服务水平目标，用于保障99％的应用都能得到及时响应。

Q值：通过状态-动作对学习到的指的一个函数，用于衡量某个动作对于某个状态的累积回报。具体计算公式可以由下式表示：

其中，c和γ为可调节参数。r表示奖励函数。Q(s_t,a_t)表示应用在时刻t，动作a_t对于状态s_t的一个Q值。

表示应用在状态t+1时，在状态s_t+1具有最大Q值的动作a所对应的Q值。

Q表：用于记录应用的所有可能状态和所有可选动作所组成的各种可能状态-动作组合的Q值。算法每次在一个状态决定采取哪个动作会根据如下原则进行选择：选取该状态的所有动作中Q值最大的那个动作。

下面的表1为Q学习中Q表的示例。Q表的第1列代表应用的状态。Q表的第2列到第M+1列分别代表M个可选动作。Q_ij表示由第i行的应用状态和第j列的动作组成的状态-动作组合对应的Q值。

表1

图1为现有技术中利用Q学习算法进行资源调度的方法100的流程图。如图1所示，方法100主要包括如下步骤101-106。

101、确定应用在时刻t所处于的状态S。

102、根据Q表，确定应用在时刻t，在状态S下采取的动作A。

103、应用执行动作A。

应理解，应用执行动作A，即就是对应用的资源进行调度(例如，增加资源数量、保持资源数量不变或减少资源数量等)。

104、获取应用在时刻t+T的平均资源利用率。

应用执行完动作A之后，系统重新计算该应用的资源利用率。

105、计算状态-动作组合(S,A)的奖励函数值。

具体地，系统根据应用的资源利用率、响应时间、应用的SLO等因素计算采取动作A的奖励函数值，以判断应用在处于状态S时采取动作A的好坏情况。

106、使用状态-动作组合(S,A)的奖励函数值和采取动作A之前状态-动作组合(S,A)的Q值，更新Q表中状态-动作组合(S,A)所对应的Q值。

如上述流程所述，在基于Q学习算法的资源调度中，根据应用在机器集群中使用的所有机器的平均资源利用率对应用使用的资源实时地进行调整。而平均资源利用率这个参数是连续的，而非离散值。现有技术中一般是将应用的状态空间依赖人工经验进行离散划分，得到该应用的一系列离散状态(如表1所示的Q表)。并且，为了提升算法的性能，现有的一种方案中提出将Q表中具有相近Q值的状态进行合并，以减少状态空间的数量。

可以理解的是，在Q学习算法中，一方面，Q值并不能完全反映状态和动作的对应关系。同一状态对应不同动作的Q值的相对值才是有意义的，而不同状态对应动作的Q值的绝对值并无实际意义。因此，将Q值进行合并，会造成信息不准确，并且Q值合并会使得算法的性能无法保证。另一方面，现有技术中通常是依赖经验值将原本连续的状态空间离散化，而划分的粒度会极大影响算法的性能。例如，划分粒度过大，算法的准确度难以保证。而划分粒度过小，算法的收敛速度过慢，效率降低。

为此，本申请实施例提供一种Q学习中调整状态空间边界的方法，能够提高Q学习算法的收敛速度，同时能够提升算法的性能。

下文结合图2至图4，对本申请实施例提供的Q学习中调整状态空间边界的方法进行详细说明。

不失一般性，以处理器作为本申请实施例提供的Q学习中调整状态空间边界的方法的执行主体为例，进行说明。

图2为本申请实施例的调整状态空间边界的方法200的示意性流程图，该方法200应用于业务运行系统。如图2所示，方法200主要包括步骤210-230。

210、处理器(例如，该业务运行系统的处理器)根据系统在第一时段的第一状态，确定第一状态所在的分段，并确定该分段对应的多个动作中Q值最大的第一动作，其中，每个动作的Q值用于表示执行每个动作后系统可获得的预期收益值。

在本申请实施例中，分段是指将系统状态的状态值按照一定的划分粒度进行划分后得到的一段状态值的取值范围。即，将系统的所有状态按照状态值的大小顺序排列(从大到小或从小到大)，从中取出连续的一段即为一个分段。

例如，以平均资源利用率作为表征系统状态的参数，将系统的平均资源利用率以10％的粒度划分为10个分档，依次为0-10％、10％-20％、20％-30％、……，80％-90％和90％-100％。其中，每个分档为一个分段。

220、处理器执行第一动作，并在执行第一动作后的第二时段，计算执行第一动作后，系统获得的实际收益值。

其中，第二时段位于第一时段之后。

以Q学习为例，具体地，在步骤220包括以下两个过程：(1)在第一时段，处理器执行第一动作，并计算系统由此获得的奖励值；(2)根据系统奖励值更新第一动作的Q值。

需要说明的是，这里的过程(2)，即根据系统奖励值更新第一动作的Q值的过程，可以参考现有技术，这里不作详述。

230、系统处理器判断该多个动作中是否存在Q值大于实际收益值的第二动作，若该多个动作中存在Q值大于实际收益值的第二动作，则调整该分段的边界。

在本申请实施例中，处理器首先根据系统在第一时段所处的状态(以下记作状态S₁)，确定状态S₁对应的分段(以下记作分段#1)，并确定分段#1对应的多个动作中Q值最大的动作(以下记作动作A₁)。其后，处理器执行动作A₁，并在执行动作A₁后的第二时段，计算执行动作A₁后系统获得的实际收益值。最后，处理器判断分段#1对应的多个动作中，是否存在Q值大于实际收益值的动作(以下记作动作A₂)，如果存在动作A₂，则调整分段#1 的边界。

根据前文所述，分段是系统状态的一段连续的取值。因此，调整分段的边界，也可以说是调整状态之间的边界。

具体地，在本申请实施例中，调整分段的边界可以有多种方式，以下分别作详细说明。

1、根据执行动作后系统获得的实际收益值调整分段的边界。

首先，假设系统在第一时段的状态为状态S₁，并且在第一时段，状态S₁所在的分段为分段#A，分段#A对应的多个动作中动作A₁的Q值最大。

具体地，在第一时段，如果系统在状态S₁时，处理器执行分段#A对应的多个动作中的最优动作A₁，使得在处理器执行完动作A₁后的第二时段，分段#A对应的多个动作中的最优动作发生了变更(例如，最优动作由A₁变更为动作A₂)，则需要对分段#A的边界进行调整。

应理解，调整分段#A的边界，是指调整分段#A与相邻分段的边界值。

图3为本申请实施例提供的调整分段边界的示例。如图3所示，假设分段#A与分段#B之间的原始边界为系统的资源利用率为0.7。

方法执行之前，系统的状态为系统的资源利用率为0.62。并且，Q表中资源利用率为0.62所在的分段对应的多个动作中，Q值最大的动作(即分段对应的最优)动作为动作0。处理器执行动作0之后，处理器计算系统获得的(0.62，动作0)的奖励值。

根据(0.62，动作0)的奖励值，对动作0的Q值进行更新。

更新Q值以后，如果分段#A对应的多个动作中，Q值最大的动作不再为动作0，而是变更为不同于动作0的另外一个动作(假设，变更为动作+1)，此时，则对分段#A的边界进行调整。这里，对分段#A的边界进行调整是指对分段#A和分段#B的之间的边界值进行调整。

具体地，根据本申请实施例，应将分段#A和分段#B之间的边界值由原始的0.7调整为0.62。

2、分治法。

分治算法的基本思想是将一个规模为N的问题分解为K个规模较小的子问题，这些子问题相互独立且与原问题性质相同。求出各个子问题的解后，将子问题的解逐层合并，就可得到原问题的解。

将分治法应用于本申请实施例中，可以用来调整分段的边界。

继续以图3所示为例。处理器执行动作0之后，如果发现分段#A对应的最优动作由动作0变为动作+1。这时应将分段#A的边界调整为:

3、聚类法。

聚类(英文全称可以为：Cluster)法是研究分类问题的一种统计分析方法。聚类分析以相似性为基础，处于同一个类别的元素之间比处于不同的类别之间的元素之间具有更多的相似性。

在本申请实施例中，将聚类法应用于调整分段边界时的流程主要包括如下步骤301-304。

301、对过去一段时间内T内系统的状态数据进行聚类操作。

假定在算法中预设处理器可采取的动作数量为5个，分别为动作-2、动作-1、动作0、动作+1和动作+2。

根据预设的动作数量和种类，经过聚类操作可以将系统的状态数据划分为上述5个类别。

需要说明的是，本申请实施例中对聚类操作的所采用的具体算法不作限定。例如，可以使用经典的聚类算法K-MEANS、改进的K-MEDOIDS算法、Clara算法等。

302、根据系统在当前时刻的状态数据对应的最大Q值，确定该状态数据的最优动作(记作动作A₁)，并将该状态数据加入到该最优动作(即，动作A₁)所属于的类别(记作类别#P)中。

303、更新类别#P的聚类中心位置。

304、重新计算类别#P的边界值。

具体地，假设重新确定的聚类中心为u_i,半径为r_i。相邻的聚类中心为u_j,半径为r_j,则新的类别#P的边界值应为：

4、分类法。

将系统的状态S作为输入，将处理器在系统处于状态S时应采取的最优动作A作为输出，采用支持向量机(Support Vector Machine，SVM)、决策树等分类方法确定两个相邻分段的边界值。

具体地，利用过去一段时间T内应用的状态数据，采用支持向量机的方式确定两个相邻分段之间的边界值。当有新的数据加入时，重新运行支持向量机的方法确定新的边界值。

可选地，作为一个实施例，可以采用分类法的中的逻辑回归法确定两个相邻分段的边界值。

具体地，将逻辑回归法应用于本申请实施例中时，主要思想是利用过去一段时间T内系统的状态数据(或者说，系统状态的历史数据)，采用逻辑回归的方法来确定两个相邻分段之间的状态空间边界值。当有新的数据加入时，重新运行逻辑回归方法确定分段之间新的边界值。

需要说明的是，前文所述的分治法、聚类法和分类法(例如，逻辑回归法)的具体实现过程可以参考现有技术，此处不作详细描述。

在前文所述的实施例中，系统的状态属性仅以系统的平均资源利用率为例。

可选地，作为一个实施例，每个状态的属性使用系统的下列参数中的至少一项进行表征：内存利用率、中央处理器CPU的利用率、网络利用率和该系统所使用的机器数量。

优选地，当状态的属性使用一个参数进行表征时，通过本申请实施例提供的调整状态空间边界的方法，可以将系统的状态数量减少到与可执行的动作的数量相等。

可以理解的是，当使用多个参数表征一个系统状态的属性时，使用前文所述的任意一种算法确定出的两个相邻分段之间的边界将是一个多维的边界。采用多个参数表征状态空间的属性，使得Q学习中状态的表征多维度化，能够使状态的描述更加准确和细化，可以使算法的性能得到进一步优化。

图4示出了本申请实施例提供的调整分段边界的又一个示例。如图4所示，采用分类法中的逻辑回归法确定相邻分段的边界值。

图4中所示的“星”和“点”为系统在过去一段时间T内的状态数据。这些状态数据是用两个属性来表征的，例如，平均资源利用率和机器数量。图4中横轴(x轴)表示平均资源利用率，纵轴(y轴)表示机器数量。这里，将用平均资源利用率表征的数据对应的分段记作分段#A，将用机器数量表征的数据对应的分段记作分段#B。

具体地，处理器首先对平均资源利用率进行归一化，使其数值取值范围与机器数量数值取值范围相同。然后，采用逻辑回归的方法来确定两个相邻分段之间的边界值。

如图4中所示，y＝x是这两类数据的分割线，即就是说，机器数量＝100×平均资源利用率，为实际的分段边界。当机器数量小于(100×平均资源利用率)时，属于分段#A，反之，属于分段#B。当有新的状态数据加入时，运行逻辑回归方法重新确定分段的边界。

可选地，作为一个实施例，执行第一动作之前，该方法还包括：

确定第一状态的状态值是否属于该分段的预设区域，该预设区域内每个状态的状态值与该分段的边界值之间的差值小于或等于预设阈值；

当确定第一状态的状态值属于该预设区域时，采用(1-ε)的概率执行第一动作。

应理解，预设区域实际上为该分段中靠近分段边界值的一部分区域。即，预设区域中所包括的状态位于该分段边界值附近(包括分段的边界值)。

预设区域可以根据资源调度情况进行设置和调整。例如，当状态空间较大时，可以选择将预设区域设置的大一些，以加算法的收敛速度。而当状态空间已经调整的较小时，此时，可以将预设区域设置的小一些，以细化状态空间边界的划分，以使得状态的划分更加准确。

在本申请实施例中，对于预设阈值的具体取值不作限定。实际上，预设阈值与预设区域是对应变化的。当预设区域较大时，预设阈值相应地较大。当预设区域较小时，预设阈值也相应地较小。预设阈值应为预设区域的首尾两个状态值之差的绝对值。

例如，参见图3，假设预设区域设定为平均资源利用率为1％。如果系统在某一时段的平均资源利用率为69.8％，此时，平均资源率为69.8％落在分段(30％-70％)的预设区域。根据本申请实施例，此时，处理器可以选择以(1-ε)的概率执行分段(30％-70％)对应的最优动作，即执行动作0。也可以以ε的概率执行分段(30％-70％)对应的多个动作(图3中未示出)中的其它任一动作。而如果系统的平均资源利用率为65％，不属于分段(30％-70％)的预设区域，则处理器确定执行动作0。

从图3中可以看出，系统状态的每个分段各有两个边界值。不管系统在某个时刻的状态落入一个分段的上边界或下边界，均以(1-ε)的概率执行该分段对应的最优动作。

因此，平均资源率为69.8％可以认为是落入分段(30％-70％)上边界的预设区域。再以假定系统的平均资源利用率为30.5％为例，此时，平均资源利用率落入分段(30％-70％)下边界的预设区域内，此时，处理器也应以(1-ε)的概率执行动作0。

在现有技术中，强化学习算法每次在选择一个状态(记作状态#A)下的最优动作时，都采用ε贪婪策略。ε贪婪策略是指系统处理器在进行动作选择和执行时，将以(1-ε)的概率选择状态#A所在分段中Q值最大的动作，而以ε的概率选择该分段对应的多个动作中除最优动作以外的其它任一动作。

可以理解的是，采用ε贪婪策略的初衷是在于平衡算法的探索能力(exploration)以及开采能力(exploitation)，以加强算法的探索能力。对那些没有执行过的动作进行尝试，看是否能获得更好的效果。然而过多的进行探索尝试会影响算法的性能。

在本申请实施例中，我们认为处于两个分段边界附近的那些状态更值得采用ε贪婪策略。因为分段边界附近的状态正好位于可能采取的相邻两种动作之间，会出现动作选择波动的可能性将更大。因此，在本申请实施例中，当系统在第一时段的第一状态的状态值为第一分段和第二分段的边界值，或者第一状态的状态值处于第一分段和第二分段的边界值附近时，处理器选择以(1-ε)的概率采取第一分段对应的多个动作中Q值最大的第一动作，以ε的概率执行第一分段对应的多个动作中除第一动作之外的其他任一动作。

通过对处于分段边界附近的状态采取ε贪婪策略，可以减少无效的尝试次数，从而能够提升算法性能。

下面结合表2和表3，对本申请实施例的Q学习中调整状态边界的方法进行举例说明。

为了便于理解和说明，首先作如下假设：(1)Q学习可采取的动作有5类，分别为：减少2台机器、减少1台机器、保持机器数量不变、增加1台机器和增加2台机器。(2)以10％为划分粒度，将系统的平均资源利用率划分为10档。(3)系统机器数量总量为100台。系统当前使用的机器数量为1台。

这里仅以采用前文所述的聚类法作为示例，对调整相邻分段边界的过程进行说明。

表2为分段边界调整前Q表通过聚类法进行聚类后得到的结果。根据本申请实施例的方法，具体的流程如下：

401、假设系统当前的状态为平均资源利用率为0.36，查询Q表得到，平均资源利用率为0.36所在的分段应为平均资源利用率为(30％-70％)范围的分段(记作分段#A)，分段#A对应的多个动作中Q值最大的动作为动作0，即保持系统使用的机器数量不变。根据奖励函数计算(0.36，动作0)的奖励值，并得到奖励值为正。根据奖励值更新动作0的Q值后，系统的平均资源利用率为0.36所在的分段对应的最优动作变为动作-1，表明系统在当前的平均资源利用率(即，0.36)下，系统使用的机器数量存在浪费现象，动作-1更好。由于分段#A对应的多个动作中的最优动作发生了变化，所以需要对分段#A的边界进行更新。

在步骤401中，系统在某个状态时，系统处理器执行该状态所在分段对应的最优动作后，处理器计算状态-动作组合的奖励值以及更新该最优动作的Q值的具体过程可以参考现有技术，这里不作详述。

表2

402、将0.36加入到类别[0.1，0.3]中，重新计算该类别的中心u_i和半径r_i。

403、重新确定新的边界值。

假设新的聚类中心为u_i,半径为r_i。相邻聚类中心为u_j,半径为r_j,则新的边界值应更新为：

分段#A的边界更新后的Q表如表3所示。

表3

可见，分段(10％-30％)与分段(30％-70％)的边界由30％更新为33％。

本申请实施例的调整状态边界的方法，还可以适用在利用Q学习算法进行动作预测的场景中。例如，移动网络的动态信道分配、机器人的动作预测等。在机器人动作预测的场景中，我们可以定义机器人的动作为向左移动1步、向左移动2步、原地不动、向右移动1步、向右移动2步等，而状态空间可以定义为机器人当前距离目的地的位置距离(例如，可以为经度距离、纬度距离等)。这样，通过减少状态空间的数量，可以快速指导机器人得到一个更加准确的动作预测。

在本申请实施例中，通过对系统状态划分得到的多个分段之间的边界进行调整，使得系统的状态数量减少，加快了Q学习算法的收敛速度，提升了算法的性能。

以上结合图1至图4，对本申请实施例的调整状态边界的方法作了详细说明，以下结合图5和图6，对本申请实施例的调整状态边界的装置和设备进行说明。

图5是本申请实施例的调整状态边界的装置500的示意性框图。该装置500配置在业务运行系统中。如图5所示，装置500包括：

处理单元510，用于根据系统在第一时段所处于的第一状态，确定第一状态对应的分段，并确定分段对应的多个动作中Q值最大的第一动作，其中，每个动作的Q值用于表示执行每个动作后系统可获得的预期收益值；

处理单元510，还用于执行第一动作，并在执行第一动作后的第二时段，计算执行第一动作后，系统获得的实际收益值；

处理单元510，还用于判断该多个动作中是否存在Q值大于实际收益值的第二动作，若该多个动作中存在Q值大于实际收益值的第二动作，则调整该分段的边界。

本申请实施例的调整状态边界的装置500中的各单元和上述其它操作或功能分别为了实现上述调整状态边界的方法200中的相应流程。为了简洁，此处不再赘述。

应理解，这里的处理单元可以为处理器。装置500还应包括存储单元。存储单元可以为存储器。存储器用于存储计算机指令。处理器用于执行存储器中存储的计算机指令。当计算机指令被执行时，处理器执行本申请实施例提供的调整状态边界的方法200的相应步骤。

图6为本申请实施例提供的调整状态边界的设备600的示意性结构图。如图6所示，设备600包括：存储器610、处理器620和通信接口630。其中，存储器610、处理器620和通信接口630通过通信总线640相互连接。

存储器610用于存储执行本发明方案的应用程序、代码或指令。处理器620用于执行存储器610中存储的应用程序、代码或指令，以完成Q学习中调整状态边界的方法200以及各实施例中的相应流程和/或操作。为了简洁，此处不再赘述。

应理解，图5中提供的调整状态边界的装置500，可以通过图6中所示的调整状态边界的设备600来实现。例如，图5中的处理单元可以由图6中的处理器620实现，存储单元可以由存储器610来实现。

图6中所示的处理器620，可以为中央处理器(CPU)、微处理器、特定应用集成电路(application-specific integrated circuit，ASIC)，或一个或多个用于控制本发明方案程序执行的集成电路。

图6中所示的存储器610，可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器可以是独立存在，通过通信总线(例如，图6中的通信总线640)与处理器相连接。存储器也可以和处理器集成在一起。

通信总线640除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。为了清楚说明起见，在图中将各种总线都标为通信总线。

通信接口630可以是有线接口，例如光纤分布式数据接口(Fiber Distributed Data Interface，简称FDDI)、千兆以太网(Gigabit Ethernet，简称GE)接口等，也可以是无线接口。

应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的各实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个网络单元，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本申请实施例的方案的目的。

另外，在本申请各实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以各单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请具体实施方式，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

一种Q学习中调整状态空间边界的方法，应用于业务运行系统，其特征在于，包括：

根据所述系统在第一时段的第一状态，确定所述第一状态所在的分段，并确定所述分段对应的多个动作中Q值最大的第一动作，其中，所述分段是所述系统状态的状态值连续取值范围中的一段，每个动作的Q值用于表示执行所述每个动作后所述系统可获得的预期收益值；

执行所述第一动作，并在执行所述第一动作后的第二时段，计算执行所述第一动作后，所述系统获得的实际收益值；

判断所述多个动作中是否存在Q值大于所述实际收益值的第二动作，若所述多个动作中存在Q值大于所述实际收益值的第二动作，则调整所述分段的边界。
根据权利要求1所述的方法，其特征在于，若所述多个动作中存在Q值大于所述实际收益值的第二动作，则调整所述分段的边界，包括：

将所述分段的边界调整为所述第一状态的状态值。
根据权利要求1或2所述的方法，其特征在于，每个状态的属性使用所述系统的下列参数中的至少一项进行表征：

内存利用率、中央处理器CPU的利用率、网络利用率和所使用的机器数量。
根据权利要求1至3中任一项所述的方法，其特征在于，所述执行所述第一动作之前，所述方法还包括：

确定所述第一状态的状态值是否属于所述分段的预设区域，所述预设区域内每个状态的状态值与所述分段的边界值之间的差值小于或等于预设阈值；

当确定所述第一状态的状态值属于所述预设区域时，采用(1-ε)的概率执行所述第一动作。
根据权利要求1至4中任一项所述的方法，其特征在于，所述调整所述分段的边界，包括：

采用以下任意一种算法调整所述分段的边界：

分治法、聚类法和分类法。
一种Q学习中调整状态空间边界的装置，配置在业务运行系统中，其特征在于，包括：

处理单元，用于根据所述系统在第一时段所处于的第一状态，确定所述第一状态对应的分段，并确定所述分段对应的多个动作中Q值最大的第一动作，其中，所述分段是所述系统状态的状态值连续取值范围中的一段，每个动作的Q值用于表示执行所述每个动作后所述系统可获得的预期收益值；

所述处理单元，还用于执行所述第一动作，并在执行所述第一动作后的第二时段，计算执行所述第一动作后，所述系统获得的实际收益值；

所述处理单元，还用于判断所述多个动作中是否存在Q值大于所述实际收益值的第二动作，若所述多个动作中存在Q值大于所述实际收益值的第二动作，则调整所述分段的空间边界。
根据权利要求6所述的装置，其特征在于，所述处理单元具体用于将所述分段的空间边界调整为所述第一状态的状态值。
根据权利要求6或7所述的装置，其特征在于，所述每个状态的属性使用所述系统的下列参数中的至少一项进行表征：

内存利用率、中央处理器CPU的利用率、网络利用率和所使用的机器数量。
根据权利要求6至8中任一项所述的装置，其特征在于，所述处理单元具体用于：

确定所述第一状态的状态值是否属于所述分段的预设区域，所述预设区域内每个状态的状态值与所述分段的边界值之间的差值小于或等于预设阈值；

当确定所述第一状态的状态值属于所述预设区域时，采用(1-ε)的概率执行所述第一动作。
根据权利要求6至9中任一项所述的装置，其特征在于，所述处理单元具体用于采用以下任意一种算法调整所述分段的边界：

分治法、聚类法和分类法。