WO2024036941A1

WO2024036941A1 - 一种参数管理系统以及相关方法

Info

Publication number: WO2024036941A1
Application number: PCT/CN2023/081469
Authority: WO
Inventors: 任宏帅; 孙涛; 刘俊洋; 苗永辉
Original assignee: 华为云计算技术有限公司
Priority date: 2022-08-17
Filing date: 2023-03-14
Publication date: 2024-02-22

Abstract

本申请提供了一种参数管理方法，包括：获取应用在现网环境的当前负载特征，根据应用在现网环境的当前负载特征以及应用在现网环境的历史数据，如历史交互记录或历史运行记录，确定与当前负载特征对应的目标参数，其中，历史交互记录包括第一历史负载特征以及根据第一历史负载特征推荐的参数，历史运行记录包括第二历史负载特征和历史运行参数，然后向用户推荐目标参数。该方法减少了在线交互验证次数，每当有新的负载特征输入，可以无需增量训练直接输出与该负载特征对应的目标参数，保障了用户能够及时使用服务，提升了服务体验。

Description

一种参数管理系统以及相关方法

本申请要求于2022年08月17日提交中国国家知识产权局、申请号为202210987574.7、发明名称为“一种参数管理系统以及相关方法”的中国专利申请的优先权，以及要求于2022年10月20日提交中国国家知识产权局、申请号为202211288871.9、发明名称为“一种参数管理系统以及相关方法”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及云计算技术领域，尤其涉及一种参数管理系统、参数管理方法、计算设备集群、计算机可读存储介质以及计算机程序产品。

背景技术

随着云计算技术的不断发展，各种提供云计算业务的云平台应运而生。随着云平台的业务增长涌现了大量的应用，为了让这些应用能够在各种应用场景充分发挥性能，这些应用通常提供了大量的可配置参数。

可配置参数的优化(也称作参数优化)是一个非确定性多项式困难问题(non-deterministic polynomial，NP-hard)问题。人工优化的专家需要大量的经验培养，成本是十分昂贵的。伴随着人工智能(artificial intelligence，AI)的发展，业界的云服务供应商开始寻求利用AI能力挖掘云上应用的自动化参数配置的能力。例如，学术界在数据库、大数据、中间件等应用场景提出了相应的参数优化算法，同时，工业界也已经出现了成熟的落地应用。

业界主流的参数优化算法通常采取用户授权的方式直接使用用户的环境(如生产环境)进行交互验证。然而在初始化训练或交互验证的过程中用户是无法使用服务的，这实际上已经延迟了用户使用服务的时间，影响了用户的正常使用。

发明内容

针对以上问题，本申请提供一种参数管理方法，该方法基于历史数据如历史交互记录或历史运行记录进行参数推荐，将在线验证次数降为0，每当有新的负载特征即“当前负载特征”输入，可以无需增量训练直接输出与当前负载特征对应的目标参数。其中，优先搜索历史交互记录，以获取与当前负载特征对应的目标参数，可以极大地缩减寻优时间，解决在线优化的时间约束问题，满足在线环境的即时性优化需求。本申请还提供与上述方法对应的参数管理系统、计算设备集群、计算机可读存储介质以及计算机程序产品。

第一方面，本申请提供一种参数管理方法。该方法可以由参数管理系统执行。参数管理系统可以是软件系统，该软件系统可以部署在计算设备集群中，计算设备集群执行软件系统的程序代码，从而执行本申请的参数管理方法。在一些可能的实现方式中，参数管理系统也可以是硬件系统，该硬件系统运行时，执行本申请的参数管理方法。

具体地，参数管理系统获取应用在现网环境的当前负载特征，根据应用在现网环境的当前负载特征以及应用在现网环境的历史数据，确定与当前负载特征对应的目标参数，其中，历史数据包括历史交互记录或历史运行记录，历史交互记录包括第一历史负载特征以及根据第一历史负载特征推荐的参数，历史运行记录包括第二历史负载特征和历史运行参数，然后参数管理系统向用户推荐目标参数。

该方法基于历史数据如历史交互记录或历史运行记录进行参数推荐，降低在线验证次数，每当有新的负载特征即“当前负载特征”输入，可以无需增量训练直接输出与当前负载特征对应的目标参数。其中，优先搜索历史交互记录，以获取与当前负载特征对应的目标参数，可以极大地缩减寻优时间，解决在线优化的时间约束问题，满足在线环境的即时性优化需求。

在一些可能的实现方式中，所述目标参数包括在当前硬件规格下的第一目标参数。参数管理系统还可以获取所述应用在现网环境的当前硬件规格，相应地，参数管理系统在确定第一目标参数时，可以根据所述应用在现网环境的当前负载特征和当前硬件规格搜索所述历史交互记录，获得所述第一目标参数；或者，根据所述历史运行记录，通过机器学习算法推理与所述当前负载特征和所述当前硬件规格对应的所述第一目标参数。

如此，可以实现在规格不支持变更或变更成本较大的业务场景中，对指定的硬件规格下的参数进行推荐，在不增加成本的情况下，提高应用的性能。

在一些可能的实现方式中，参数管理系统可以根据历史运行记录，通过回归模型，推理与当前负载特征和所述当前硬件规格对应的所述第一目标参数。其中，回归模型可以包括高斯模型、贝叶斯模型或随机森林模型。参数管理系统可以根据历史运行记录中的负载特征、参数，通过高斯模型、贝叶斯模型或随机森林模型进行拟合，然后根据拟合后的模型可以推理出与当前负载特征、当前硬件规格对应的第一目标参数。

该方法通过基于历史运行记录中的负载特征、参数，进行回归模型拟合，然后采用拟合后的回归模型进行推理，能够较为精准地推理出与当前负载特征对应的第一目标参数，为参数配置提供参考。

在一些可能的实现方式中，参数管理系统还可以确定与当前硬件规格对应的性能模拟器，该性能模拟器通过历史运行记录训练得到，然后参数管理系统可以通过性能模拟器驱动机器学习算法，以推理与当前负载特征和所述当前硬件规格对应的所述第一目标参数。

由于采用了性能模拟器输出的预测性能作为反馈，而不需要等待生产环境中的真实性能作为反馈，降低了与生产环境的交互次数，如此能够缩减寻优时间，解决在线优化的时间约束问题，满足在线环境的即时性优化需求。

在一些可能的实现方式中，参数管理系统还可以使用混合拉丁超立方采样mixLHS对历史运行记录中与当前硬件规格匹配的子数据集进行采样，获得数据样本；在离线环境对数据样本进行验证，获得所述数据样本的真实性能；根据所述数据样本和所述真实性能，训练与所述当前硬件规格对应的所述性能模拟器。

其中，混合拉丁超立方采样是指一部分数据样本采用拉丁超立方进行均匀采样得到，另一部分数据样本采用加权调整窗口进行非均匀采样得到。一方面混合拉丁超立方采样可以避免在参数空间内呈现样本点聚集的特点，影响性能模拟器的训练，另一方面混合拉丁超立方采样可以实现性能模拟器对整体参数空间的正确反馈。

进一步地，参数管理系统可以在采样时，将用户的业务相关的负载特征刻画为环境变量，与子数据集中经过筛选的参数结合一起进行数据采样，如此，基于上述数据样本训练得到的性能模拟器能够对客户端多变的使用场景做出准确的反馈，同时也避免了为每个客户端场景都训练一个模型的额外开销，实现了能够面向动态环境的在线优化方法。

在一些可能的实现方式中，所述目标参数包括在目标硬件规格下的第二目标参数。参数管理系统可以根据所述历史运行记录，通过机器学习算法推理所述目标硬件规格以及与所述当前负载特征和所述目标硬件规格对应的所述第二目标参数。相应地，参数管理系统还可以向所述用户推荐所述目标硬件规格。

对于支持规格变更的业务场景，该方法还支持推理出与当前负载特征对应的目标硬件规格以及与当前负载特征、目标硬件规格对应的第二目标参数。参数管理系统无需花费大量时间重新训练AI模型，由此解决了硬件规格变更(集群底层资源变更)的问题。

在一些可能的实现方式中，参数管理系统可以根据所述历史运行记录，通过机器学习算法推理获得与所述当前负载特征对应的目标硬件规格，然后根据所述当前负载特征、所述目标硬件规格以及所述历史数据，确定所述第二目标参数。

其中，参数管理系统在根据当前负载特征、目标硬件规格，确定第二目标参数时，可以采用根据当前负载特征、当前硬件规格，确定第一目标参数类似的方式。具体地，参数管理系统可以根据所述应用在现网环境的当前负载特征和目标硬件规格搜索所述历史交互记录，获得所述第二目标参数；或者，根据所述历史运行记录，通过机器学习算法推理与所述当前负载特征和所述目标硬件规格对应的所述第二目标参数。

需要说明的是，参数管理系统也可以一次性地推理出目标硬件规格、第二目标参数，例如，参数管理系统可以拟合以负载特征为输入、以硬件规格、参数为输出的AI模型，通过该AI模型一次性地推理出当前负载特征对应的目标硬件规格和第二目标参数。参数管理系统也可以先推理出第二目标参数，然后推理出目标硬件规格。本申请对推理出目标硬件规格和第二目标参数的方式不作限制。

该方法通过历史运行记录，采用机器学习算法推理的方式，保障了推荐的目标硬件规格、第二目标参数的准确度，为后续的硬件规格调整、参数配置提供参考。

在一些可能的实现方式中，参数管理系统还可以监控所述应用在现网环境的真实性能；当所述真实性能满足触发条件，执行所述根据所述应用在现网环境的当前负载特征以及所述应用在现网环境的历史数据，确定与所述当前负载特征对应的目标参数的步骤。

该通过主动监控应用的各项性能指标，利用AI算法自动判断参数优化的时机，主动触发参数优化服务。如此能够实现自动触发参数调优服务，不需要人工干预或任务触发，由于能够及时对应用的参数进行调优，保障了应用在整个生命周期的性能。

在一些可能的实现方式中，参数管理系统还可以对所述目标参数进行验证。当验证通过，参数管理系统再将所述目标参数配置至所述现网环境。

该方法通过对优化服务如参数调优服务给出的参数进行安全性检查，判断修改参数能否获得预期效果，对符合要求的参数进行修改上线，对于不满足要求的参数进行拦截并反馈给优化服务重新推荐。如此可以保障生产安全。

在一些可能的实现方式中，参数管理系统可以确定所述目标参数对应的安全范围约束；当所述目标参数满足所述安全范围约束，且离线验证记录或历史交互记录中的参数与所述目标参数的接近程度大于预设值，确定所述目标参数验证通过。

上述验证策略属于白名单策略，主要面向没有容灾策略应用。参数管理系统根据离线验证的交互数据分析出稳定运行的参数范围，为搜索的参数增加安全范围约束，当优化服务推荐的参数存在离线验证记录或历史交互记录中稳定运行的记录相近的参数，且满足安全范围约束，则验证通过。验证通过，上述参数可以被配置到在线的生产环境，验证不通过，则上述参数不会被配置到生产环境，如此避免了参数配置不当引起的生产事故。

在一些可能的实现方式中，所述应用部署在集群中的多个节点，参数管理系统可以将所述目标参数配置至所述多个节点中的至少一个节点，然后监控所述应用在所述至少一个节点的真实性能；当所述应用在所述至少一个节点的真实性能提升，则确定所述目标参数验证通过。

上述验证策略属于从节点验证策略，主要面向集群多节点部署的应用，例如分布式消息队列等中间件。集群有多个节点，多节点的设计除了为了扩容之外，也有容灾的作用，即使其中一个节点宕机，另外的节点也存在对应副本，仍然能够提供稳定的服务。该方法通过在至少一个节点上进行验证，具有较高可靠性，在验证通过后，再将参数配置到其他节点，保障了整体的安全性。

进一步地，参数管理系统在配置参数时，可以先选择一个节点使用安全步长逐步向推荐的目标参数调整，以及约束了优化参数的安全范围，极大限度地避免了线上服务宕机。同时监控该节点的性能变化，当节点能够稳定运行且性能得到提升，此时再将参数配置到整个集群上生效，如此可以将风险控制在较小范围。

在一些可能的实现方式中，所述应用部署在主节点和备用节点，参数管理系统可以将所述目标参数配置至所述备用节点；监控所述应用在所述备用节点的真实性能；当所述应用在所述备用节点的真实性能提升，则确定所述目标参数验证通过。

上述验证策略属于主备验证策略，主要面向存在主备切换机制容灾策略的应用。该方法将推荐的目标参数首先在备用节点上进行修改，同时监控备用节点性能状态，当备份节点能够取得性能提升再将优化的目标参数配置到主节点。如此可以将风险控制在较小范围。

第二方面，本申请提供一种参数管理系统。所述系统包括：

通信模块，用于获取应用在现网环境的当前负载特征；

参数调优模块，用于根据所述应用在现网环境的当前负载特征以及所述应用在现网环境的历史数据，确定与所述当前负载特征对应的目标参数，所述历史数据包括历史交互记录或历史运行记录，所述历史交互记录包括第一历史负载特征以及根据第一历史负载特征推荐的参数，所述历史运行记录包括第二历史负载特征和历史运行参数；

推荐模块，用于向用户推荐所述目标参数。

在一些可能的实现方式中，所述目标参数包括在当前硬件规格下的第一目标参数；

所述通信模块还用于：

获取所述应用在现网环境的当前硬件规格；

所述参数调优模块具体用于：

根据所述应用在现网环境的当前负载特征和当前硬件规格搜索所述历史交互记录，获得所述第一目标参数；或者，

根据所述历史运行记录，通过机器学习算法推理与所述当前负载特征和所述当前硬件规格对应的所述第一目标参数。

在一些可能的实现方式中，所述参数调优模块具体用于：

确定与所述当前硬件规格对应的性能模拟器，所述性能模拟器通过所述历史运行记录训练得到；

通过所述性能模拟器驱动所述机器学习算法，以推理与所述当前负载特征和所述当前硬件规格对应的所述第一目标参数。

在一些可能的实现方式中，所述系统还包括：

训练模块，用于使用混合拉丁超立方采样mixLHS对所述历史运行记录中与所述当前硬件规格匹配的子数据集进行采样，获得数据样本；在离线环境对数据样本进行验证，获得所述数据样本的真实性能；根据所述数据样本和所述真实性能，训练与所述当前硬件规格对应的所述性能模拟器。

在一些可能的实现方式中，所述目标参数包括在目标硬件规格下的第二目标参数；

所述参数调优模块具体用于：

根据所述历史运行记录，通过机器学习算法推理所述目标硬件规格以及与所述当前负载特征和所述目标硬件规格对应的所述第二目标参数；

所述推荐模块还用于：

向所述用户推荐所述目标硬件规格。

在一些可能的实现方式中，所述参数调优模块具体用于：

根据所述历史运行记录，通过机器学习算法推理获得与所述当前负载特征对应的目标硬件规格；

根据所述当前负载特征、所述目标硬件规格以及所述历史数据，确定所述第二目标参数。

在一些可能的实现方式中，所述系统还包括：

监控模块，用于监控所述应用在现网环境的真实性能；

所述参数调优模块，具体用于当所述真实性能满足触发条件，执行所述根据所述应用在现网环境的当前负载特征以及所述应用在现网环境的历史数据，确定与所述当前负载特征对应的目标参数的步骤。

在一些可能的实现方式中，所述系统还包括：

验证模块，用于对所述目标参数进行验证；

配置模块，用于当验证通过，将所述目标参数配置至所述现网环境。

在一些可能的实现方式中，所述验证模块具体用于：

确定所述目标参数对应的安全范围约束；

当所述目标参数满足所述安全范围约束，且离线验证记录或历史交互记录中的参数与所述目标参数的接近程度大于预设值，确定所述目标参数验证通过。

在一些可能的实现方式中，所述应用部署在集群中的多个节点，所述配置模块还用于：

将所述目标参数配置至所述多个节点中的至少一个节点；

所述系统还包括：

监控模块，用于监控所述应用在所述至少一个节点的真实性能；

所述验证模块具体用于：

当所述应用在所述至少一个节点的真实性能提升，则确定所述目标参数验证通过。

在一些可能的实现方式中，所述应用部署在主节点和备用节点，所述验证模块具体用于：

将所述目标参数配置至所述备用节点；

监控所述应用在所述备用节点的真实性能；

当所述应用在所述备用节点的真实性能提升，则确定所述目标参数验证通过。

第三方面，本申请提供了一种计算设备集群。所述计算设备集群包括至少一台计算设备，所述至少一台计算设备包括至少一个处理器和至少一个存储器，所述至少一个存储器中存储有计算机可读指令，所述至少一个处理器执行所述计算机可读指令，以使得所述计算设备集群执行如第一方面所述的方法。

第四方面，本申请提供了一种非瞬态的可读存储介质，所述非瞬态的可读存储介质被计算设备执行时，所述计算设备运行前述第一方面或第一方面的任意可能的实现方式中提供的方法。该存储介质中存储了程序。该存储介质包括但不限于易失性存储器，例如随机访问存储器，非易失性存储器，例如快闪存储器、硬盘(hard disk drive，HDD)、固态硬盘(solid state drive，SSD)。

第五方面，本申请提供了一种计算机程序产品，所述计算机程序产品包括计算机指令，在被计算设备执行时，所述计算设备运行前述第一方面或第一方面的任意可能的实现方式中提供的方法。

本申请在上述各方面提供的实现方式的基础上，还可以进行进一步组合以提供更多实现方式。

附图说明

为了更清楚地说明本申请实施例的技术方法，下面将对实施例中所需使用的附图作以简单地介绍。

图1为本申请实施例提供的一种参数管理系统的架构示意图；

图2为本申请实施例提供的一种参数优化触发机制的示意图；

图3为本申请实施例提供的一种参数安全检查机制的示意图；

图4为本申请实施例提供的一种参数管理方法的流程图；

图5为本申请实施例提供的一种数据存储的示意图；

图6为本申请实施例提供的一种参数推荐的原理图；

图7为本申请实施例提供的一种动态负载模拟的示意图；

图8为本申请实施例提供的一种数据采样的示意图；

图9为本申请实施例提供的一种混合拉丁超立方采样的示意图；

图10为本申请实施例提供的一种参数管理方法的应用场景示意图；

图11为本申请实施例提供的一种参数管理系统的结构示意图；

图12为本申请实施例提供的一种计算设备的结构示意图；

图13为本申请实施例提供的一种计算设备集群的结构示意图；

图14为本申请实施例提供的另一种计算设备集群的结构示意图；

图15为本申请实施例提供的另一种计算设备集群的结构示意图。

具体实施方式

本申请实施例中的术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。

首先对本申请实施例中所涉及到的一些技术术语进行介绍。

参数优化，是指对应用的软件栈配置参数(也称作软件参数、应用参数)进行优化，以使得应用的性能达到用户的期望。其中，应用可以是基于数据库的应用，基于大数据计算引擎的应用，或者是基于中间件的应用。针对不同应用，软件栈配置参数可以不同。

以应用为基于分布式消息队列(distributed message service，DMS)等中间件进行通信的应用示例说明，应用的软件栈配置参数可以包括客户端参数和服务端参数。客户端参数包括但不限于批大小batch_size，超时限制linger_time和分区数num.partitions，服务端参数包括但不限于网络线程数量num.network.threads,输入输出线程数量num.io.threads,拉取副本数量num.replica.fetchers等。

性能可以通过吞吐量，时延，计算资源占用率，输入输出(input output，IO)资源占用率，网络带宽中的一种或多种指标表征。其中，计算资源可以包括中央处理器(central processing unit，CPU)、图形处理器(graphics processing unit，GPU)，IO资源可以为磁盘IO。

参数优化可以分为离线优化和在线优化。受到云上应用实时性的业务特点影响，云上应用的运行负载通常是实时变化的。为了解决运行负载动态变化的问题，可以将运行负载参数化，通过前期收集大量的交互数据(包括负载参数)，使用机器学习的方法训练出AI模型，然后在用户的运行态环境(即用户的环境)进行少量的增量交互验证，实现近实时态的优化参数推荐。

针对主流的参数优化算法采取用户授权的方式直接使用用户的环境进行交互验证，使得初始化训练或交互验证的过程中用户无法使用服务，延迟了用户使用服务的时间，影响了服务体验的问题，本申请提供了一种参数管理方法。该方法可以由参数管理系统执行。

参数管理系统可以是软件系统，该软件系统可以部署在计算设备集群中，计算设备集群执行软件系统的程序代码，从而执行本申请的参数管理方法。在一些可能的实现方式中，参数管理系统也可以是硬件系统，该硬件系统运行时，执行本申请的参数管理方法。在一些示例中，参数管理系统可以是具有参数管理功能的计算设备集群。为了便于描述，下文以参数管理系统为软件系统示例说明。

具体地，参数管理系统可以获取应用在现网环境的当前负载特征，然后根据应用在现网环境的当前负载特征以及应用在现网环境的历史数据，确定与当前负载特征对应的目标参数，其中，历史数据包括历史交互记录或历史运行记录，历史交互记录为参数优化的历史记录，历史交互记录包括第一历史负载特征以及根据第一历史负载特征推荐的参数，历史运行记录包括第二历史负载特征和历史运行参数，接着参数管理系统向用户推荐上述目标参数。

该方法基于历史数据如历史交互记录或历史运行记录进行参数推荐，将在线验证次数降为0，每当有新的负载特征即“当前负载特征”输入，可以无需增量训练直接输出与当前负载特征对应的目标参数。其中，优先搜索历史交互记录，以获取与当前负载特征对应的目标参数，可以极大地缩减寻优时间，解决在线优化的时间约束问题，满足在线环境的即时性优化需求。

而且，该方法还能模拟动态负载，将用户的业务相关的负载特征刻画为环境变量，与经过筛选的参数结合一起进行数据采样，构造性能模拟器，使用该方法得到性能模拟器能够对客户端多变的使用场景做出准确的反馈，同时也避免了为每个客户端场景都训练一个模型的额外开销，实现了能够面向动态环境的在线优化方法。进一步地，该方法还支持推理出目标硬件规格，以及目标硬件规格下的目标参数，无需花费大量时间重新训练AI模型，由此解决了硬件规格变更(集群底层资源变更)的问题。

为了使得本申请的技术方案更加清楚、易于理解，下面结合附图对本申请的参数管理系统的架构进行介绍。

参见图1所示的参数管理系统的架构示意图，参数管理系统10包括参数优化装置100，参数优化装置100包括参数调优模块102(也称作参数寻优器、参数调优器)和数据存储模块104。

数据存储模块104用于存储应用在现网环境20的历史数据。该历史数据包括历史交互记录或历史运行记录，历史交互记录包括第一历史负载特征以及根据第一历史负载特征推荐的参数，所述历史运行记录包括第二历史负载特征和历史运行参数。其中，负载特征、运行参数、硬件规格可以由现网环境20中的客户端代理采集得到。

参数调优模块102用于获取应用在现网环境20的当前负载特征，根据应用在现网环境20的当前负载特征以及所述应用在现网环境20的历史数据，确定与当前负载特征对应的目标参数，向用户推荐该目标参数。如此，用户可以根据目标参数进行参数配置。例如，用户可以通过现网环境20中的客户端代理将应用的参数配置为目标参数。

在一些可能的实现方式中，参数管理系统10还包括业务监控装置200。业务监控装置200用于监控所述应用在现网环境20的真实性能。当所述真实性能满足触发条件，参数优化装置100执行所述根据所述应用在现网环境20的当前负载特征以及所述应用在现网环境20的历史数据，确定与所述当前负载特征对应的目标参数的步骤。

具体地，业务监控装置200可以包括性能评估模型，业务监控装置200可以通过性能评估模型自动判断参数优化的时机，主动触发参数优化服务。例如，参数优化装置100还包括基于历史运行数据训练得到的性能模拟器106，性能评估模型可以确定与当前规格对应的性能模拟器106，将当前负载特征和当前规格输入性能模拟器106，从而获得预测性能(也可以称作模拟性能)。如图2所示，区别于传统的由用户触发调优或者任务触发调优，本申请实施例的业务监控装置200可以主动监控真实性能，以及基于性能模拟器106获得预测性能，根据真实性能和预测性能实现自动触发调优。例如，业务监控装置200可以确定预测性能和真实性能的差值，当差值大于预设值，则触发调优。

在一些可能的实现方式中，参数管理系统10还可以包括参数安全检查装置300。参数安全检查装置300用于对参数优化装置100推荐的目标参数进行安全性检查。具体地，参数安全检查装置300可以结合灰度验证与模拟性能评估等方法，判断将参数配置为目标参数能否获得预期效果。如图3所示，参数安全检查装置300可以基于性能评估模型进行虚拟检测，在现网环境20进行现网检测(现网灰度检测)。其中，现网检测支持多种方式，例如可以支持白名单校验、主备校验或者从节点验证。对符合要求的目标参数采取逐步更换的方法修改上线，对于不满足要求的目标参数进行拦截并反馈给参数优化装置100重新推荐。考虑到中断业务验证会带来糟糕的用户体验，本申请提出了一种基于性能评估器的方法配合几种参数安全校验策略实现了非中断式安全验证。每组需要上线的参数在上线之前先进入性能评估器，验证通过之后再配合上述策略进行灰度验证。

接下来，将从参数管理系统10的角度，对本申请实施例的参数管理方法进行介绍。

参见图4所示的参数管理方法的流程图，该方法包括：

S402：参数管理系统10获取应用在现网环境的当前负载特征。

现网环境，也称作生产环境，是指用于正式提供对外服务给客户使用的环境，该环境通常会关掉错误报告、打开错误日志。部署在现网环境的应用可以接收任务，例如基于数据库的应用可以接收查询任务，该任务也可以称作应用的负载。参数管理系统10可以根据当前时间段接收到的任务的属性，获得应用在现网环境的当前负载特征。

具体地，参数管理系统10可以通过部署在现网环境的代理(如客户端代理)，采集当前时间段接收到的任务的属性，从而获得应用在现网环境的当前负载特征。该负载特征可以包括单位时间接收到的任务数量、任务数据的平均数据量、任务数据的分布中的一种或多种。

S404：参数管理系统10通过性能模拟器，获得应用在现网环境的预测性能。

性能模拟器用于模拟应用在指定负载特征、指定硬件规格下的性能。性能模拟器以负载特征、硬件规格为输入，以预测性能为输出。参数管理系统10不仅可以通过部署在现网环境的代理，采集当前负载特征，还可以通过该代理采集当前硬件规格。参数管理系统10可以将当前负载特征、当前硬件规格输入性能模拟器，通过性能模拟器进行性能模拟，从而获得应用在现网环境的预测性能。

其中，应用在现网环境的预测性能可以包括性能模拟器预测得到的吞吐量、时延、计算资源占用率、IO资源占用率、网络带宽中的一种或多种。

S406：参数管理系统10监控应用在现网环境的真实性能。当真实性能满足触发条件，执行S408。

具体地，参数管理系统10可以在现网环境部署性能监控代理，例如是在客户端和服务端部署性能监控代理，然后通过性能监控代理监控应用在现网环境的真实性能。参数管理系统10可以根据真实性能，确定是否触发参数优化。

在一些实施例中，参数管理系统10可以确定预测性能与真实性能的差值，当该差值大于预设值时，表明满足触发条件，可以触发参数优化。在另一些实施例中，参数管理系统10可以确定预测性能与真实性能的比值，当比值大于预设值，表明满足触发条件，可以触发参数优化。需要说明，用于和差值比较的预设值以及用于和比值比较的预设值可以设置为不同数值，本申请实施例对此不作限制。

上述S404至S406为本申请实施例的可选步骤，执行本申请实施例的方法也可以不执行上述S404、S406。例如，参数管理系统10也可以通过其他触发方式，触发参数优化。

S408：参数管理系统10根据应用在现网环境的当前负载特征以及应用在现网环境的历史数据，确定与当前负载特征对应的目标参数。

目标参数可以包括在当前硬件规格下的第一目标参数。当现网环境为弹性环境，也即支持硬件规格变更时，目标参数也可以包括在目标硬件规格下的第二目标参数。其中，目标硬件规格可以是与当前负载特征对应的、使得性能得到充分发挥的硬件规格，例如是使得性能最大化的硬件规格，也称作最佳硬件规格。

应用在现网环境的历史数据可以包括历史交互记录或历史运行记录。其中，历史交互记录包括第一历史负载特征以及根据第一历史负载特征推荐的参数，历史运行记录包括第二历史负载特征和历史运行参数。基于此，参数管理系统10可以通过多种方式确定第一目标参数。下面分别进行详细说明。

第一种实现方式可以为，参数管理系统10获取应用在现网环境的当前硬件规格，相应地，参数管理系统10可以根据应用在现网环境的当前负载特征和当前硬件规格搜索历史交互记录，获得第一目标参数。

第二种实现方式可以为，参数管理系统10可以根据历史运行记录，通过机器学习算法推理与当前负载特征和当前硬件规格对应的所述第一目标参数。其中，机器学习算法包括回归算法，该算法包括但不限于高斯拟合、随机森林、贝叶斯拟合。参数管理系统10在通过机器学习算法推理第一目标参数时，可以是基于机器学习算法如回归算法构建回归模型，利用回归模型推理得到第一目标参数。在一些实施例中，参数管理系统10还可以确定与当前硬件规格对应的性能模拟器，该性能模拟器通过历史运行记录训练得到，然后参数管理系统10可以通过性能模拟器驱动所述机器学习算法，以推理与所述当前负载特征和所述当前硬件规格对应的所述第一目标参数。即参数管理系统10可以通过性能模拟器对性能进行模拟，并将性能模拟器输出的预测性能作为反馈，根据该反馈更新回归模型，而无需基于现网环境的反馈更新回归模型。

为了解决在线优化配置的时间约束问题，满足在线环境的即时性优化需求，参数管理系统10设计了数据存储机制。参见图5，在初始化阶段，参数管理系统10可以在离线环境会对常见规格进行离线求解优化，得到对应的优化参数并进行存储。参数管理系统10可以将相应的负载特征、硬件规格、参数存储到历史交互记录。如此，参数管理系统10在进行参数优化时，可以在历史交互记录中搜索对应负载特征、硬件规格的参数，当搜索成功，可以直接获得第一目标参数，当搜索不成功，参数管理系统10可以再根据历史运行数据，通过机器学习算法推理得到第一目标参数，如此将极大地缩减寻优时间。

每经过一段时间的数据积累，参数管理系统10可以在离线环境训练对应硬件规格的性能模拟器，当完成了新一轮的搜索优化后，也可以将第一目标参数和对应的硬件规格的性能模拟器进行存储，随着用户增长数据积累，参数优化的速度将会越来越快，同时优化参数质量也会越来越高。

与确定第一目标参数类似，参数管理系统10也可以通过机器学习算法推理得到第二目标参数。在一些实施例中，参见图6，参数管理系统10可以直接推理得到目标硬件规格和在目标硬件规格下的第二目标参数(例如参数与规格同时优化，获得最优规格和最优参数)。在另一些实施例中，参数管理系统10也可以先推理出目标硬件规格(如图6中的最优规格)，然后采用与确定第一目标参数类似的方式，确定目标硬件规格下的第二目标参数(如图6中的最优参数)。或者，参数管理系统10也可以先推理出第二目标参数，然后推理出目标硬件规格。

下面以参数管理系统10通过机器学习算法，一次性推理出目标硬件规格以及在目标硬件规格下的第二目标参数进行示例说明。

参数管理系统10可以根据历史运行记录，通过机器学习算法推理目标硬件规格以及与所述当前负载特征和所述目标硬件规格对应的所述第二目标参数。具体地，历史运行记录可以第二负载特征、历史硬件规格、历史运行参数，参数管理系统10可以根据历史运行记录，通过机器学习算法构建AI模型，该AI模型以负载特征为输入，以硬件规格、参数为输出，如此，参数管理系统10可以将当前负载特征输入训练好的AI模型，获取AI模型输出的硬件规格、参数，作为目标硬件规格、第二目标参数。

S410：参数管理系统10向用户推荐目标参数。

当目标参数包括在目标硬件规格下的第二目标参数时，参数管理系统10还可以向用户推荐目标硬件规格。

S412：参数管理系统10对所述目标参数进行验证。当验证通过，则执行S414；当验证不通过，则返回S408。

S414：参数管理系统10将目标参数配置至现网环境。

参数管理系统10在确定目标参数之后，由于没有在真实的现网环境下运行无法保证该目标参数在现网环境下的具体表现，直接上线目标参数可以给业务带来风险。考虑到中断业务验证会带来糟糕的用户体验，参数管理系统10提出了一种基于性能模拟器的方法配合几种参数安全校验策略实现非中断式安全验证。当验证通过，则执行S414将目标参数配置至现网环境，当验证不通过，则返回至S408重新进行参数优化。

具体地，需要上线的目标参数在上线之前可以先进入性能模拟器进行虚拟环境验证，验证通过之后，再配合白名单策略、从节点验证策略、主备验证策略中的任意一种或多种进行现网灰度验证。

白名单策略，通常面向没有容灾策略的应用，具体是确定目标参数对应的安全范围约束，当目标参数满足安全范围约束，且离线验证记录(离线环境进行交互验证的记录)或历史交互记录中的参数与目标参数的接近程度大于预设值，确定目标参数验证通过。其中，安全范围约束可以为根据离线验证的交互数据分析得到的、使得应用稳定运行的参数范围。当目标参数存在离线验证记录或历史交互记录中稳定运行的记录相近的参数，同时满足安全范围约束，表征现网灰度验证通过，可以将目标参数配置至现网环境。

从节点验证策略，通常面向集群多节点部署的应用，例如是基于分布式消息队列等中间件DMS的应用。部署上述应用的集群包括多个节点，其多节点的设计除了为了扩容之外，也有容灾的作用，即使其中一个节点宕机，另外的节点也存在对应副本，仍然能够提供稳定的服务。基于此，在进行现网灰度验证时，参数管理系统10可以将所述目标参数配置至所述多个节点中的至少一个节点，然后监控所述应用在所述至少一个节点的真实性能。当所述应用在所述至少一个节点的真实性能提升，则参数管理系统10确定所述目标参数验证通过。

需要说明的是，参数管理系统10在将目标参数配置值多个节点中的一个节点时，可以选择一个节点使用安全步长逐步向目标参数调整，以及约束目标参数的安全范围，极大限度地避免线上服务宕机。参数管理系统10监控该节点的性能变化，当节点能够稳定运行且性能得到提升，可以再将目标参数配置到整个集群上生效。

主备验证策略，通常面向存在主备切换机制容灾策略的应用。具体地，参数管理系统10可以将所述目标参数配置至所述备用节点，监控所述应用在所述备用节点的真实性能。当所述应用在所述备用节点的真实性能提升，则参数管理系统10确定所述目标参数验证通过，相应地，参数管理系统10可以再将目标参数配置到主节点。

需要说明的是，参数管理系统10可以使用多种策略进行现网灰度验证。例如，参数管理系统10可以使用主备验证策略，先将推荐的目标参数在备用节点上进行修改，在修改时，还可以使用白名单策略，同时参数管理系统10备用节点上应用的性能，当备份节点上的应用能够取得性能提升，再将目标参数配置到主节点。

上述S412至S414为本申请实施例的可选步骤，执行本申请实施例的方法也可以不执行上述步骤。例如，目标参数的置信度较高时，也可以直接配置目标参数至现网环境。

基于上述内容描述，本申请实施例提供了一种参数管理方法，该方法基于历史数据如历史交互记录或历史运行记录进行参数推荐，将在线验证次数降为0，每当有新的负载特征即“当前负载特征”输入，可以无需增量训练直接输出与当前负载特征对应的目标参数。其中，优先搜索历史交互记录，以获取与当前负载特征对应的目标参数，可以极大地缩减寻优时间，解决在线优化的时间约束问题，满足在线环境的即时性优化需求。并且该方法能够分析业务特点，在推荐应用的目标参数的同时，也推荐适合当前业务特点的目标硬件规格。该方法还支持对目标参数进行安全性检查，结合灰度验证与模拟性能评估等方法，判断修改参数能否获得预期效果，对符合要求的参数采取逐步更换的方法修改上线，对于不满足要求的参数进行拦截并重新推荐，如此保障了参数上线的安全性。

图4所示实施例的关键在于性能模拟器，下面对训练性能模拟器的过程进行详细说明。

为了减少对用户运行时环境的交互改动，同时不占用用户的资源进行搜索优化，本申请实施例可以采取离线构造性能模拟器的方式进行搜索优化。同时考虑到不断变化的业务负载，参数管理系统10可以将业务相关的负载特征刻画为环境变量，与经过筛选的参数结合一起进行数据采样构造性能模拟器，使用该方法得到的性能模拟器能够对客户端多变的使用场景做出准确的反馈，同时也避免了为每个客户端场景都训练一个模型的额外开销，实现了能够面向动态环境的在线优化方法。

参见图7所示的动态负载模拟的示意图，用户可以选择开放可配置的参数，包括客户端配置(client configuration)参数(记作config_client)和服务端配置(server configuration)参数(记作config_server)中的一种或多种。同时，用户选择将负载特征刻画为环境变量(记作envs_client)。参数管理系统10可以将客户端配置参数(即客户端参数)和服务端配置参数(即服务端参数)组合，使用皮尔森相关系数等特征筛选方法对参数进行敏感度分析，筛选出前n个关键参数，具体如下所示：

其中，config_imp表征关键参数，List_config表征按照敏感度排序的参数清单。

训练性能模拟器的目的是为了能够对各种输入做出准确的反馈，如图8所示，传统的蒙特卡洛采样方法可以导致在参数空间内呈现样本点聚集的特点，不利于性能模拟器的训练，因此可以选用拉丁超立方采样(Latin hypercube sampling，LHS)在样本空间均匀采样。

为了更加高效地采样数据样本，采集到的数据样本更接近于用户在线运行的真实负载，可以根据历史用户的环境变量与参数的数据分布，加权调整LHS采样的分层窗口大小，如图9中右图所示。同时为了性能模拟器对整体参数空间的正确反馈，参数管理系统10可以采用混合拉丁超立方采样mixLHS进行采样。具体地，参见图9，设置数据总量为D，其中，D/N可以采用均匀采样，另外D(N-1)/N采用加权非均匀采样。参数管理系统10可以将二者组成训练数据集合。使用该训练数据集合训练得到的性能模拟器，能够对常见的客户端样本分布做出更准确的反应。

其中，参数管理系统10使用mixLHS方法对关键参数进行采样获得数据样本X，如下所示:

X＝mixLHS(bounds_client env,bounds_imp config) (2)

bounds_client env表征环境变量的界限(取值范围)，bounds_imp config表征关键参数的界限。

参数管理系统10可以在离线环境对数据样本X执行验证，获得数据样本的真实性能，作为数据样本X对应的真实反馈Y，然后可以将X,Y组合构成训练模拟器的训练数据集合，用于训练与所述当前硬件规格对应的所述性能模拟器。具体如下所示：

为了使得本申请的方案更加易于理解，下面以云上分布式消息队列(DMS)应用参数优化为例进行介绍。

如图10所示，DMS集群分为客户端(包括生产者与消费者)，服务端多节点(broker)部署。待优化的参数分别为客户端参数batch_size,linger_time,partitions等与服务端参数num.network.threads,num.io.threads,num.replica.fetchers等。客户端环境变量：与用户使用场景相关的业务设置，用于刻画业务场景的工作负载。

在进行参数优化时，可以进行如下步骤：

1、服务初始化：从数据存储中心统计现网常见硬件规格，在离线环境下采样数据，然后基于采样的数据构造训练数据集合，基于该训练数据集合训练出对应规格的性能模拟器。

2、业务性能监控：业务监控装置200将性能监控代理分别部署在客户端和服务端，以监控业务场景的性能指标(吞吐量，时延，CPU占用率，磁盘IO，网络带宽)。业务监控装置200将业务场景信息反馈给参数优化装置100，反馈的业务场景信息包括但不限于客户端环境变量，参数，硬件规格。参数优化装置100读取到客户端环境变量输入到对应规格的性能模拟器，获得预测性能。业务监控装置200可以根据真实性能和预测性能判断当前场景是否需要进行优化。

3、参数优化：当经过性能模拟器评估之后判断需要进行优化，则触发参数优化装置100进行参数优化。其中，参数优化装置100可以优先使用客户端环境变量与服务端硬件规格为条件到数据存储模块104进行索引，寻找是否存在历史同规格优化参数记录可以复用，若存在则直接反馈搜索到的第一目标参数到参数安全检查装置300。若不存在则寻找对应规格的性能模拟器106，若不存在对应规格则记录下来在离线环境补充训练，同时使用高斯拟合算法预测出一组第一目标参数。若存在对应规格的性能模拟器则使用贝叶斯优化搜索出第一目标参数，然后传递给参数安全检查装置300。同时参数优化装置100能够根据历史数据如历史运行数据，使用高斯拟合算法预测出适合当前环境变量的目标硬件规格，然后基于目标硬件规格搜索出第二目标参数，然后将新的目标硬件规格与第二目标参数推荐给用户。

4、参数安全检查：目标参数被上线之前需要先经过性能评估模型的验证，然后再经过白名单参数安全范围的检验，此处白名单参数范围可由用户手动配置。当经过以上验证之后，目标参数将首先配置在分布式消息队列集群的单节点中，此时观察该节点性能是否达到预期效果且运行正常，若正常则逐步替换其他节点参数，若出现节点宕机或未达到预期效果则回滚当前节点参数，同时反馈给参数优化装置100重新计算目标参数。

本申请实施例的参数管理方法普遍适用于云上应用软件，也适用于数据库，中间件，大数据计算引擎的参数优化，具体优化过程如下所示：

1、服务初始化。

2、业务性能监控。其中，应用形态可以为集群部署应用，也可以为单节点部署应用，应用侧部署客户端代理。客户端代理不局限于具体安装包，若参数管理系统10本身具备采集所需数据以及修改参数的API接口，可将其看作逻辑上客户端代理。

3、参数优化。参数管理系统10根据历史数据推理所使用的AI模型，包括但不限于回归模型(如高斯拟合，随机森林等)。参数管理系统10使用的采样方法也不限于期望改进(expected improvement，EI)采集函数、上置信边界(upper confidence bound，UCB)采集函数或LHS等。

4、参数安全检查。

其中，服务初始化、参数安全检查的具体实现可以参见上文相关内容描述，在此不再赘述。

该方法引入业务监控装置200，可以替代掉传统的人工以及任务触发方式，通过主动监控应用业务的各项性能指标，利用AI算法自动判断参数优化的时机主动触发参数优化服务，不需要人工干预或任务触发。该方法还引入参数优化装置100，通过参数调优器，能够进一步压缩在线优化算法所需要的在线交互验证成本，做到0增量交互的在线参数调优，并且能够分析用户的业务特点，在推荐应用最优参数的同时也推荐适合当前业务特点的最优规格。此外，该方法引入参数安全检查模块，对优化服务给出参数进行安全性检查，结合灰度验证与模拟性能评估等方法，判断修改参数能否获得预期效果，对符合要求的参数采取逐步更换的方法修改上线，对于不满足要求的参数进行拦截并反馈给优化服务重新推荐，避免优化参数在现网环境出现非预期效果对业务造成影响。

基于本申请实施例提供的参数管理方法，本申请实施例还提供了一种如前述的参数管理系统10。下面对参数管理系统10的结构进行详细介绍。

参见图11所示的参数管理系统10的结构示意图，该参数管理系统10包括：

通信模块101，用于获取应用在现网环境的当前负载特征；

参数调优模块102，用于根据所述应用在现网环境的当前负载特征以及所述应用在现网环境的历史数据，确定与所述当前负载特征对应的目标参数，所述历史数据包括历史交互记录或历史运行记录，所述历史交互记录包括第一历史负载特征以及根据第一历史负载特征推荐的参数，所述历史运行记录包括第二历史负载特征和历史运行参数；

推荐模块103，用于向用户推荐所述目标参数。

其中，通信模块101、推荐模块103可以是图1所示的参数优化装置100中的模块，也可以是其他装置中的模块。例如，推荐模块103也可以是图1所示的参数安全检查装置300中的模块。

上述装置、模块的划分方式仅为本申请实施例提供的一种可能的实现方式。在其他可能的实现方式中，可以根据需要对参数管理系统10采用不同的划分方式，本申请实施例对此不做限制。例如，参数管理系统10也可以不包括业务监控装置200和参数安全检查装置300，业务监控装置200、参数安全检查装置300的功能可以由参数优化装置100实现。

在本实施例中，通信模块101、参数调优模块102、推荐模块103可以通过硬件模块实现或通过软件模块实现。其中，通信模块101可以通过收发器或者收发器上的软件实现。参数调优模块102和推荐模块103可以通过计算设备或者计算设备上的计算引擎实现。下面，以参数调优模块102为例进行说明。

当通过软件实现时，参数调优模块102可以是运行在计算设备或计算设备集群上的应用程序或者应用程序模块，如计算引擎等。

当通过硬件实现时，参数调优模块102中可以包括至少一个计算设备，如服务器等。或者，参数调优模块102也可以是利用专用集成电路(application-specific integrated circuit，ASIC)实现、或可编程逻辑器件(programmable logic device，PLD)实现的设备等。其中，上述PLD可以是复杂程序逻辑器件(complex programmable logical device，CPLD)、现场可编程门阵列(field-programmable gate array，FPGA)、通用阵列逻辑(generic array logic，GAL)或其任意组合实现。

所述通信模块101还用于：

获取所述应用在现网环境的当前硬件规格；

所述参数调优模块102具体用于：

其中，参数管理系统10还可以包括数据存储模块104，数据存储模块104用于存储历史数据，例如是存储历史交互记录或历史运行记录，相应地，参数调优模块102可以根据应用在现网环境的当前负载特征和当前硬件规格搜索数据存储模块104存储的历史交互记录，从而获得第一目标参数。参数调优模块102也可以从数据存储模块104获取历史运行记录，通过机器学习算法推理与当前负载特征和当前硬件规格对应的所述第一目标参数。

上述数据存储模块104可以通过软件或硬件实现。当数据存储模块104通过软件实现时，数据存储模块104可以包括存储引擎。当数据存储模块104通过硬件实现时，数据存储模块104可以包括至少一个具有数据存储能力的存储设备。

在一些可能的实现方式中，所述参数调优模块102具体用于：

确定与所述当前硬件规格对应的性能模拟器106，所述性能模拟器106通过所述历史运行记录训练得到；

通过所述性能模拟器106驱动所述机器学习算法，以推理与所述当前负载特征和所述当前硬件规格对应的所述第一目标参数。

在一些可能的实现方式中，所述系统10还包括：

训练模块108，用于使用混合拉丁超立方采样mixLHS对所述历史运行记录中与所述当前硬件规格匹配的子数据集进行采样，获得数据样本；在离线环境对数据样本进行验证，获得所述数据样本的真实性能；根据所述数据样本和所述真实性能，训练与所述当前硬件规格对应的所述性能模拟器。

与参数调优模块102类似，训练模块108可以通过硬件模块实现或通过软件模块实现。

当通过软件实现时，训练模块108可以是运行在计算设备或计算设备集群上的应用程序或者应用程序模块，如计算引擎等。

当通过硬件实现时，训练模块108中可以包括至少一个计算设备，如服务器等。或者，训练模块108也可以是利用专用集成电路ASIC实现、或可编程逻辑器件PLD实现的设备等。其中，上述PLD可以是复杂程序逻辑器件CPLD、现场可编程门阵列FPGA、通用阵列逻辑GAL或其任意组合实现。

进一步地，训练模块108也可以是其他装置中的模块。例如，训练模块108也可以是单独的训练装置中的模块。

所述参数调优模块102具体用于：

所述推荐模块103还用于：

向所述用户推荐所述目标硬件规格。

在一些可能的实现方式中，所述参数调优模块102具体用于：

在一些可能的实现方式中，所述系统10还包括：

监控模块202，用于监控所述应用在现网环境的真实性能；

所述参数调优模块102，具体用于当所述真实性能满足触发条件，执行所述根据所述应用在现网环境的当前负载特征以及所述应用在现网环境的历史数据，确定与所述当前负载特征对应的目标参数的步骤。

其中，监控模块202可以是图1所示的业务监控装置200中的模块。进一步地，业务监控装置200中还可以包括通信模块201。通信模块201用于真实性能满足触发条件时，指示参数调优模块102执行根据所述应用在现网环境的当前负载特征以及所述应用在现网环境的历史数据，确定与所述当前负载特征对应的目标参数的步骤。

进一步地，通信模块201还用于获取应用在现网环境的当前负载特征，并输入业务监控装置200中的性能评估模型。性能评估模型可以调用性能模拟器106进行性能评估，获得预测性能。当预测性能和真实性能的差值大于预设值，通信模块201可以指示参数调优模块102进行参数调优。

在一些可能的实现方式中，所述系统还10包括：

验证模块302，用于对所述目标参数进行验证；

配置模块304，用于当验证通过，将所述目标参数配置至所述现网环境。

其中，验证模块302、配置模块304可以是图1所示的参数安全检查装置300中的模块。验证模块302、配置模块304可以通过硬件模块实现，或者通过软件模块实现。

当通过软件实现时，验证模块302、配置模块304可以是运行在计算设备或计算设备集群上的应用程序或者应用程序模块，如计算引擎等。

当通过硬件实现时，验证模块302、配置模块304可以包括至少一个计算设备，如服务器等。或者，验证模块302、配置模块304也可以是利用专用集成电路ASIC实现、或可编程逻辑器件PLD实现的设备等。其中，上述PLD可以是复杂程序逻辑器件CPLD、现场可编程门阵列FPGA、通用阵列逻辑GAL或其任意组合实现。

在一些可能的实现方式中，所述验证模块302具体用于：

确定所述目标参数对应的安全范围约束；

在一些可能的实现方式中，所述应用部署在集群中的多个节点，所述配置模块304还用于：

将所述目标参数配置至所述多个节点中的至少一个节点；

所述系统10还包括：

监控模块202，用于监控所述应用在所述至少一个节点的真实性能；

所述验证模块302具体用于：

在一些可能的实现方式中，所述应用部署在主节点和备用节点，所述验证模块302具体用于：

将所述目标参数配置至所述备用节点；

监控所述应用在所述备用节点的真实性能；

本申请还提供一种计算设备1200。如图12所示，计算设备1200包括：总线1202、处理器1204、存储器1206和通信接口1208。处理器1204、存储器1206和通信接口1208之间通过总线1202通信。计算设备1200可以是服务器或终端设备。应理解，本申请不限定计算设备1200中的处理器、存储器的个数。

总线1202可以是外设部件互连标准(peripheral component interconnect，PCI)总线或扩展工业标准结构(extended industry standard architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图12中仅用一条线表示，但并不表示仅有一根总线或一种类型的总线。总线1202可包括在计算设备1200各个部件(例如，存储器1206、处理器1204、通信接口1208)之间传送信息的通路。

处理器1204可以包括中央处理器(central processing unit，CPU)、图形处理器(graphics processing unit，GPU)、微处理器(micro processor，MP)或者数字信号处理器(digital signal processor，DSP)等处理器中的任意一种或多种。

存储器1206可以包括易失性存储器(volatile memory)，例如随机存取存储器(random access memory，RAM)。处理器1204还可以包括非易失性存储器(non-volatile memory)，例如只读存储器(read-only memory，ROM)，快闪存储器，机械硬盘(hard disk drive，HDD)或固态硬盘(solid state drive，SSD)。存储器1206中存储有可执行的程序代码，处理器1204执行该可执行的程序代码以实现前述参数管理方法。具体的，存储器1206上存有参数管理系统10用于执行参数管理方法的指令。

通信接口1208使用例如但不限于网络接口卡、收发器一类的收发模块，来实现计算设备1200与其他设备或通信网络之间的通信。

本申请实施例还提供了一种计算设备集群。该计算设备集群包括至少一台计算设备1200。该计算设备1200可以是服务器，例如是中心服务器、边缘服务器，或者是本地数据中心中的本地服务器。在一些实施例中，计算设备1200也可以是台式机、笔记本电脑或者智能手机等终端设备。

如图13所示，所述计算设备集群包括至少一个计算设备1200。计算设备集群中的一个或多个计算设备1200中的存储器1206可以存有相同的参数管理系统10用于执行参数管理方法的指令。

在一些可能的实现方式中，该计算设备集群中的一个或多个计算设备1200也可以用于执行参数管理系统10用于执行参数管理方法的部分指令。换言之，一个或多个计算设备1200的组合可以共同执行参数管理系统10用于执行参数管理方法的指令。

需要说明的是，计算设备集群中的不同的计算设备1200中的存储器1206可以存储不同的指令，用于执行参数管理系统10的部分功能。

图14示出了一种可能的实现方式。如图14所示，两个计算设备1200A和1200B通过通信接口1208实现连接。

计算设备1200A中的存储器上存有用于执行参数优化装置100的功能的指令，例如，计算设备1200A中的存储器上存有执行通信模块101、参数调优模块102、推荐模块103的功能的指令，进一步地，计算设备1200A中的存储器上还存有执行数据存储模块104、性能模拟器106、训练模块108的功能的指令。计算设备1200A中的存储器还存有用于执行业务监控装置200的功能的指令，例如，计算设备1200A中的存储器上存有执行通信模块201、监控模块202的功能的指令。

计算设备1200B中的存储器上存有用于执行参数安全检查装置300的功能的指令。例如，计算设备1200B中的存储器上存有执行验证模块302、配置模块304的功能的指令。

换言之，计算设备1200A和1200B的存储器1206共同存储了参数管理系统10用于执行参数管理方法的指令。

图14所示的计算设备集群之间的连接方式可以是考虑到本申请提供的参数管理方法需要业务监控装置200监控真实性能，以触发参数优化装置100进行参数调优。因此考虑将参数优化装置100、业务监控装置200实现的功能交由计算设备1200A执行,参数安全检查装置300实现的功能由计算设备1200B执行。

应理解，图14中示出的计算设备1200A的功能也可以由多个计算设备1200完成。同样，计算设备1200B的功能也可以由多个计算设备1200完成。

在一些可能的实现方式中，计算设备集群中的一个或多个计算设备可以通过网络连接。其中，所述网络可以是广域网或局域网等等。图15示出了一种可能的实现方式。如图15所示，两个计算设备1200C和1200D之间通过网络进行连接。具体地，通过各个计算设备中的通信接口与所述网络进行连接。在这一类可能的实现方式中，计算设备1200C中的存储器1206中存有执行参数优化装置100的功能的指令。进一步地，计算设备1200C中的存储器1206中还存有执行业务监控装置200的功能的指令。同时，计算设备1200D中的存储器1206中存有执行参数安全检查装置300的功能的指令。

图15所示的计算设备集群之间的连接方式可以是考虑到本申请提供的缓存管理方法需要业务监控装置200监控真实性能，以触发参数优化装置100进行参数调优。因此考虑将参数优化装置100、业务监控装置200实现的功能交由计算设备1200C执行,参数安全检查装置300实现的功能由计算设备1200D执行。

应理解，图15中示出的计算设备1200C的功能也可以由多个计算设备1200完成。同样，计算设备1200D的功能也可以由多个计算设备1200完成。

本申请实施例还提供了一种计算机可读存储介质。所述计算机可读存储介质可以是计算设备能够存储的任何可用介质或者是包含一个或多个可用介质的数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘)等。该计算机可读存储介质包括指令，所述指令指示计算设备执行上述应用于参数管理系统10用于执行参数管理方法。

本申请实施例还提供了一种包含指令的计算机程序产品。所述计算机程序产品可以是包含指令的，能够运行在计算设备1200上或被储存在任何可用介质中的软件或程序产品。当所述计算机程序产品在至少一个计算设备1200上运行时，使得至少一个计算设备1200执行上述参数管理方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的保护范围。

Claims

一种参数管理方法，其特征在于，所述方法包括：

获取应用在现网环境的当前负载特征；

根据所述应用在现网环境的当前负载特征以及所述应用在现网环境的历史数据，确定与所述当前负载特征对应的目标参数，所述历史数据包括历史交互记录或历史运行记录，所述历史交互记录包括第一历史负载特征以及根据第一历史负载特征推荐的参数，所述历史运行记录包括第二历史负载特征和历史运行参数；

向用户推荐所述目标参数。
根据权利要求1所述的方法，其特征在于，所述目标参数包括在当前硬件规格下的第一目标参数；

所述方法还包括：

获取所述应用在现网环境的当前硬件规格；

所述根据所述应用在现网环境的当前负载特征以及所述应用在现网环境的历史数据，确定与所述当前负载特征对应的目标参数，包括：

根据所述应用在现网环境的当前负载特征和当前硬件规格搜索所述历史交互记录，获得所述第一目标参数；或者，

根据所述历史运行记录，通过机器学习算法推理与所述当前负载特征和所述当前硬件规格对应的所述第一目标参数。
根据权利要求2所述的方法，其特征在于，所述根据所述历史运行记录，通过机器学习算法推理与所述当前负载特征和所述当前硬件规格对应的所述第一目标参数，包括：

确定与所述当前硬件规格对应的性能模拟器，所述性能模拟器通过所述历史运行记录训练得到；

通过所述性能模拟器驱动所述机器学习算法，以推理与所述当前负载特征和所述当前硬件规格对应的所述第一目标参数。
根据权利要求3所述的方法，其特征在于，所述性能模拟器通过如下方式训练得到：

使用混合拉丁超立方采样mixLHS对所述历史运行记录中与所述当前硬件规格匹配的子数据集进行采样，获得数据样本；

在离线环境对数据样本进行验证，获得所述数据样本的真实性能；

根据所述数据样本和所述真实性能，训练与所述当前硬件规格对应的所述性能模拟器。
根据权利要求1至4任一项所述的方法，其特征在于，所述目标参数包括在目标硬件规格下的第二目标参数；

所述根据所述应用在现网环境的当前负载特征以及所述应用在现网环境的历史数据，确定与所述当前负载特征对应的目标参数，包括：

根据所述历史运行记录，通过机器学习算法推理所述目标硬件规格以及与所述当前负载特征和所述目标硬件规格对应的所述第二目标参数；

所述方法还包括：

向所述用户推荐所述目标硬件规格。
根据权利要求5所述的方法，其特征在于，所述根据所述历史运行记录，通过机器学习算法推理所述目标硬件规格以及与所述当前负载特征和所述目标硬件规格对应的所述第二目标参数，包括：

根据所述历史运行记录，通过机器学习算法推理获得与所述当前负载特征对应的目标硬件规格；

根据所述当前负载特征、所述目标硬件规格以及所述历史数据，确定所述第二目标参数。
根据权利要求1至6任一项所述的方法，其特征在于，所述方法还包括：

监控所述应用在现网环境的真实性能；

当所述真实性能满足触发条件，执行所述根据所述应用在现网环境的当前负载特征以及所述应用在现网环境的历史数据，确定与所述当前负载特征对应的目标参数的步骤。
根据权利要求1至7任一项所述的方法，其特征在于，所述方法还包括：

对所述目标参数进行验证；

当验证通过，将所述目标参数配置至所述现网环境。
根据权利要求8所述的方法，其特征在于，所述对所述目标参数进行验证，包括：

确定所述目标参数对应的安全范围约束；

当所述目标参数满足所述安全范围约束，且离线验证记录或历史交互记录中的参数与所述目标参数的接近程度大于预设值，确定所述目标参数验证通过。
根据权利要求8所述的方法，其特征在于，所述应用部署在集群中的多个节点，所述对所述目标参数进行验证，包括：

将所述目标参数配置至所述多个节点中的至少一个节点；

监控所述应用在所述至少一个节点的真实性能；

当所述应用在所述至少一个节点的真实性能提升，则确定所述目标参数验证通过。
根据权利要求8所述的方法，其特征在于，所述应用部署在主节点和备用节点，所述对所述目标参数进行验证，包括：

将所述目标参数配置至所述备用节点；

监控所述应用在所述备用节点的真实性能；

当所述应用在所述备用节点的真实性能提升，则确定所述目标参数验证通过。
一种参数管理系统，其特征在于，所述系统包括：

通信模块，用于获取应用在现网环境的当前负载特征；

参数调优模块，用于根据所述应用在现网环境的当前负载特征以及所述应用在现网环境的历史数据，确定与所述当前负载特征对应的目标参数，所述历史数据包括历史交互记录或历史运行记录，所述历史交互记录包括第一历史负载特征以及根据第一历史负载特征推荐的参数，所述历史运行记录包括第二历史负载特征和历史运行参数；

推荐模块，用于向用户推荐所述目标参数。
根据权利要求12所述的系统，其特征在于，所述目标参数包括在当前硬件规格下的第一目标参数；

所述通信模块还用于：

获取所述应用在现网环境的当前硬件规格；

所述参数调优模块具体用于：

根据所述应用在现网环境的当前负载特征和当前硬件规格搜索所述历史交互记录，获得所述第一目标参数；或者，

根据所述历史运行记录，通过机器学习算法推理与所述当前负载特征和所述当前硬件规格对应的所述第一目标参数。
根据权利要求13所述的系统，其特征在于，所述参数调优模块具体用于：

确定与所述当前硬件规格对应的性能模拟器，所述性能模拟器通过所述历史运行记录训练得到；

通过所述性能模拟器驱动所述机器学习算法，以推理与所述当前负载特征和所述当前硬件规格对应的所述第一目标参数。
根据权利要求14所述的系统，其特征在于，所述系统还包括：

训练模块，用于使用混合拉丁超立方采样mixLHS对所述历史运行记录中与所述当前硬件规格匹配的子数据集进行采样，获得数据样本；在离线环境对数据样本进行验证，获得所述数据样本的真实性能；根据所述数据样本和所述真实性能，训练与所述当前硬件规格对应的所述性能模拟器。
根据权利要求12至15任一项所述的系统，其特征在于，所述目标参数包括在目标硬件规格下的第二目标参数；

所述参数调优模块具体用于：

根据所述历史运行记录，通过机器学习算法推理所述目标硬件规格以及与所述当前负载特征和所述目标硬件规格对应的所述第二目标参数；

所述推荐模块还用于：

向所述用户推荐所述目标硬件规格。
根据权利要求16所述的系统，其特征在于，所述参数调优模块具体用于：

根据所述历史运行记录，通过机器学习算法推理获得与所述当前负载特征对应的目标硬件规格；

根据所述当前负载特征、所述目标硬件规格以及所述历史数据，确定所述第二目标参数。
根据权利要求12至17任一项所述的系统，其特征在于，所述系统还包括：

监控模块，用于监控所述应用在现网环境的真实性能；

所述参数调优模块，具体用于当所述真实性能满足触发条件，执行所述根据所述应用在现网环境的当前负载特征以及所述应用在现网环境的历史数据，确定与所述当前负载特征对应的目标参数的步骤。
根据权利要求12至18任一项所述的系统，其特征在于，所述系统还包括：

验证模块，用于对所述目标参数进行验证；

配置模块，用于当验证通过，将所述目标参数配置至所述现网环境。
根据权利要求19所述的系统，其特征在于，所述验证模块具体用于：

确定所述目标参数对应的安全范围约束；

当所述目标参数满足所述安全范围约束，且离线验证记录或历史交互记录中的参数与所述目标参数的接近程度大于预设值，确定所述目标参数验证通过。
根据权利要求19所述的系统，其特征在于，所述应用部署在集群中的多个节点，所述配置模块还用于：

将所述目标参数配置至所述多个节点中的至少一个节点；

所述系统还包括：

监控模块，用于监控所述应用在所述至少一个节点的真实性能；

所述验证模块具体用于：

当所述应用在所述至少一个节点的真实性能提升，则确定所述目标参数验证通过。
根据权利要求19所述的系统，其特征在于，所述应用部署在主节点和备用节点，所述验证模块具体用于：

将所述目标参数配置至所述备用节点；

监控所述应用在所述备用节点的真实性能；

当所述应用在所述备用节点的真实性能提升，则确定所述目标参数验证通过。
一种计算设备集群，其特征在于，所述计算设备集群包括至少一台计算设备，所述至少一台计算设备包括至少一个处理器和至少一个存储器，所述至少一个存储器中存储有计算机可读指令；所述至少一个处理器执行所述计算机可读指令，以使得所述计算设备集群执行如权利要求1至11任一项所述的方法。
一种包含指令的计算机程序产品，其特征在于，当所述指令被计算设备集群运行时，使得所述计算设备集群执行如权利要求1至11任一项所述的方法。
一种计算机可读存储介质，其特征在于，包括计算机程序指令，当所述计算机程序指令由计算设备集群执行时，所述计算设备集群执行如权利要求1至11任一项所述的方法。