WO2019019926A1

WO2019019926A1 - 系统参数的优化方法、装置及设备、可读介质

Info

Publication number: WO2019019926A1
Application number: PCT/CN2018/095557
Authority: WO
Inventors: 金卓军
Original assignee: 阿里巴巴集团控股有限公司
Priority date: 2017-07-27
Filing date: 2018-07-13
Publication date: 2019-01-31
Also published as: CN109308246A

Abstract

一种系统参数的优化方法、装置及设备、可读介质，所述方法包括：获取处于运行状态的目标系统的系统参数（S101）；获取所述目标系统在所述系统参数下的运行状况和性能指标（S102）；基于所获取的运行状况和性能指标优化所述系统参数（S103）。其可以在系统运行时，根据系统的运行状况和性能指标及时优化出符合实际运行环境的系统参数。

Description

系统参数的优化方法、装置及设备、可读介质

本申请要求2017年07月27日递交的申请号为201710624571.6、发明名称为“系统参数的优化方法、装置及设备、可读介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机技术领域，尤其涉及系统参数的优化方法、装置及设备、可读介质。

背景技术

随着互联网技术的发展，诸如手机、平板电脑、智能可穿戴设备等终端的使用也日益广泛。终端运行的系统除操作系统外，还包括各种应用程序涉及的系统。用户访问终端中的相应系统时，为了保证当前被访问的系统的使用流畅度，可以在启动该被访问的系统时将该系统的系统参数固定到最优值，该最优值一般是系统开发人员在系统开发阶段，针对系统参数的不同组合进行性能分析后选出的参数值。

但是，在系统运行过程中，系统的运行状况会发生变化，不同参数之间除彼此互相影响外，还会共同对系统性能产生影响，因此，系统开发阶段所选的最优值难以持续满足系统的运行需求。

发明内容

有鉴于此，本申请提供一种系统参数的优化方法、装置及设备、可读介质。

根据本申请实施例的第一方面，提供一种系统参数的优化方法，包括步骤：

获取处于运行状态的目标系统的系统参数；

获取所述目标系统在所述系统参数下的运行状况和性能指标；

基于所获取的运行状况和性能指标优化所述系统参数。

根据本申请实施例的第二方面，提供一种电子设备，包括：

处理器；

存储处理器可执行指令的存储器；

其中，所述处理器耦合于所述存储器，用于读取所述存储器存储的程序指令，并作为响应，执行如下操作：

获取处于运行状态的目标系统的系统参数；

基于所获取的运行状况和性能指标优化所述系统参数。

根据本申请实施例的第三方面，提供一种系统参数的优化装置，包括：

系统参数获取模块，用于获取处于运行状态的目标系统的系统参数；

运行状况获取模块，用于获取所述目标系统在所述系统参数下的运行状况；

性能指标获取模块，用于获取所述目标系统在所述系统参数下的性能指标；

参数优化模块，用于基于所获取的运行状况和性能指标优化所述系统参数。

根据本申请实施例的第四方面，提供一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得终端设备执行以上所述的方法。

实施本申请提供的实施例，在系统运行时，获取系统的系统参数、运行状况和性能指标，然后将获取的运行状况和性能指标作为优化当前系统参数的依据，考虑了系统目前实际的运行状况，并且可以在运行状况发生变化时不断的对系统参数及时进行优化，因此优化后的系统参数更加符合实际的运行环境，进而，如果将优化后的系统参数更新到目标系统，可以有效提高系统的运行效率和流畅度。

附图说明

图1是本申请一示例性实施例示出的系统参数的优化方法的流程图；

图2是本申请一示例性实施例示出的用于实现系统参数的优化的智能系统的框图；

图3是本申请一示例性实施例示出的系统参数的优化装置的逻辑框图；

图4是本申请一示例性实施例示出的系统参数的优化装置所在电子设备的硬件结构图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

随着计算机技术的发展，电子设备内运行的系统越来越多，系统提供的功能也越来越多，影响系统性能的系统参数相应变多。考虑到系统参数对系统性能的影响，系统开发人员在开发系统的阶段，一般会为每项系统参数配置多种参数值，参照配置的不同参数值，将各项系统参数进行组合，构成参数值各不相同的多组系统参数，然后针对每组系统参数对系统进行性能分析，基于性能分析结果选出性能最好的一组系统参数的参数值为最优值。这样在用户访问电子设备中的系统时，可以在启动该被访问的系统时将该系统的系统参数固定到最优值。但是，在系统运行过程中，系统的运行状况会随着用户的访问发生变化，不会一直保持在开发阶段选取最优值时所对应的系统状况，如果系统参数固定在开发阶段所选的最优值，系统很容易出现卡顿现象。所以需要随着系统的运行调节系统参数，实现系统参数的在线优化。

目前一般由系统开发人员基于自身的技术储备来手动调节系统参数。但是系统运行时不同系统参数之间除彼此互相影响外，还会共同对系统性能产生影响，在调节系统参数时除考虑系统当前的运行状况外，还需要考虑不同系统参数之间的相互制约。而系统开发人员在手动调节系统参数时难以快速有效的分析出系统参数之间的制约关系，因此，系统开发人员耗时耗力手动调节的系统参数，仍难以有效满足系统的运行需求。

此外，同一系统在不同电子设备上运行时，由于面对的用户、驱动实现和硬件配置(如CPU处理能力、屏幕尺寸、内存容量等)不完全相同，系统开发人员在某一电子设备上调节所得的系统参数，难以适用于其他电子设备上运行的统一系统。若要及时对多个电子设备的系统参数进行调节，满足系统的运行需求，需要多个系统开发人员对不同电子设备的系统参数进行手动调节，这样调节系统参数将耗费巨大的人工和时间，而且系统开发人员手动调节参数往往趋向于数值取整，调节所得的参数值的精度较低，因此调节所得后系统参数也难以有效满足系统的运行需求。本申请针对如何快速有效的调节系统参数提出解决方案。

本申请的方案，考虑到不同系统参数间的相互影响、各系统参数对系统性能的影响、以及系统运行环境的不同，可以在系统运行时，获取系统的系统参数、运行状况和性能指标，然后将获取的运行状况和性能指标作为优化当前系统参数的依据，再基于优化后的系统参数更新所述系统参数，无论系统的运行状况如何变化，都能跟随其变化不断的对系统参数及时进行调整，因此无论运行系统的电子设备的用户是否相同，还是硬件配置和驱动实现的差异大小，都能优化出与系统目前实际的运行环境相契合的系统参数，有效提高系统的运行效率和流畅度。

请参阅图1，图1是本申请一示例性实施例示出的系统参数的优化的流程图，该实施例可以包括以下步骤S101-S103：

步骤S101、获取处于运行状态的目标系统的系统参数。

步骤S102、获取所述目标系统在所述系统参数下的运行状况和性能指标。

步骤S103、基于所获取的运行状况和性能指标优化所述系统参数。

本申请实施例可以应用于智能电话、个人数字助理、媒体播放器、导航设备、游戏控制台、平板计算机、可穿戴设备、数字电视、台式计算机等电子设备，对这些设备内运行的目标系统的系统参数进行优化。这里提到的目标系统可以是应用程序涉及的系统或操作系统，也可以是操作系统所含的子系统，例如：图形系统，内存管理系统，进程管理系统，电源管理系统，输入输出系统等。在其他场景中，目标系统还可以包括机器人控制系统、金融系统、电力控制系统等。

在优化系统参数时，考虑到用户与运行中的目标系统的交互、以及目标系统运行时面对的运行环境，均会造成在先配置的系统参数不再适应目标系统当前的运行需求。可以获取目标系统处于运行状态时的运行参数、以及该目标系统在该运行参数的控制下运行时的运行状况和性能指标。

对于不同的目标系统，所获取的系统参数、运行状况和性能指标也有所不同，例如：目标系统为操作系统所含的图形系统时，系统参数可以包括渲染所需资源的缓存容量、重绘回调时延、输入事件重采样时延中的至少一项，这里提到的渲染所需的资源包括纹理、层、顶点和帧缓冲区对象等。在其他例子中，获取的系统参数还可以包括应用于合成器中的垂直同步信号相位差、或者其他影响目标系统性能的参数。具体获取时可以从目标系统的参数调整模块请求这些系统参数，也可以在参数调整模块完成参数调整后，将系统参数存储至预定的存储区域，进行系统参数优化时再从该预定的存储区域读取系统参数。

目标系统为操作系统所含的图形系统时，性能指标可以包括屏幕刷新率、跳帧率、应用绘制帧率和输入延迟中的至少一项，这些性能指标可以衡量系统运行的流畅度，与用户体验密切相关。针对不同的目标系统，可以采用不同的性能测试工具对运行中的目标系统进行性能测试，将测试结果作为性能指标。

目标系统为操作系统所含的图形系统时，运行状况用于反应系统状态的变化，可以包括CPU个数、CPU频率、GPU个数、GPU频率、前台进程数量、内存占用率和工作负载中的至少一项。某些例子中，为了防止系统参数的优化过程过于追求性能而导致内存占用过大、能耗过高，还可以将内存使用率和系统功耗作为性能指标。在某些例子中，可以通过任务管理器等状态查询工具查询系统的运行状况。

在获取到系统参数、运行状况和性能指标后，可以运行状况和性能指标为优化依据，按所述目标系统的运行状况与其系统参数间的预定函数，调整所获取的系统参数后，输出优化后的系统参数。调整时，可以将所获取的运行状况和性能指标代入该预定函数，获得优化后的系统参数。

该预定函数可以通过数据拟合方式获得的，具体获取该预定函数时，本方案设计人员可以预先针对目标系统设定多个系统参数，基于设定的每个系统参数获取运行状况和性能指标，按预定幅度尝试调整系统参数，再按调整后的系统参数获取运行状况和性能指标，如果调整后获取的运行状况和性能指标优于调整前获取的运行状况和性能指标，那么继续增大预定幅度，如果调整后获取的运行状况和性能指标劣于调整前获取的运行状况和性能指标，则降低预定幅度，如果没有变化，则确定该预定幅度是与调整前获取的运行状况和性能指标对应的系统参数调整幅度。这样按不同的预定幅度，经过多次尝试和循环操作，得到多组运行状况、性能指标和调整后的系统参数，然后基于得到的各组数据进行数据拟合，得出所述目标系统的运行状况与其系统参数间的函数为预定函数。

此外，在获取到系统参数、运行状况和性能指标后，还可以采用预定的系统优化模型优化系统参数。某些例子中，采用预定的系统优化模型优化系统参数前，可以将所获取的系统参数作为所述系统优化模型中影响所述目标系统的运行状况的参数，将所述运行状况作为所述系统优化模型中反应系统参数对所述目标系统的影响程度的参数，将所述性能指标作为所述系统优化模型中衡量所述目标系统的运行状况的好坏的函数。

优化系统参数时，可以在基于所获取的运行状况和性能指标优化所述系统参数时，根据所述系统优化模型，将所获取的系统参数、运行状况和性能指标转换为所述目标系统的运行状况到其系统参数的映射关系；然后根据所述映射关系调整所获取的系统参数后，输出优化后的系统参数，输出的系统参数可以指调整所得的参数。在其他例子中，还可以采取其他方式优化系统参数，本申请实施对此不做限制。

为了提高优化效率，需要考虑模型与目标系统的契合度，目标系统不同时所采用的模型可以有所不同，在某些例子中，目标系统的系统参数优化可以归结为非线性系统的控制优化问题，所以，系统优化模型可以是条件随机场模型、决策树模型、增强学习算法等对非线性系统进行优化的算法模型。

其中，增强学习算法涉及到增强学习，增强学习考虑的问题是智能体Agent(具备行为能力的物体)和环境之间交互的任务，比如：一个机械臂要拿起一个手机，那么机械臂周围的物体包括手机就是环境，机械臂通过外部的摄像头来感知环境，然后机械臂需要输出动作来实现拿起手机这个任务。对于智能体Agent(具备行为能力的物体)和环境之间交互，增强学习算法可以将其模型化，具体模型化时，以机械臂拿手机的交互任务为例，将机械臂需要输出的动作映射成动作集合，将通过摄像头感知的信息映射成状态集，将衡量环境变化的好坏的反馈映射成回报函数。

本申请的设计人员参照增强学习算法对交互任务的模型化过程，可以优先采用增强学习算法来优化系统参数，在优化系统参数前，将用户对目标系统的访问过程对应增强学习算法中的交互过程，用户访问目前系统前，调整系统参数控制目标系统的运行，对应于增强学习算法中的动作，系统运行过程系统的运行状况(如资源占用率)会产生变化，对应增强学习算法中的环境状态集，而运行状况的变化，由系统的性能指标反映运行状况的好坏，对应于增强学习算法中的回报函数，因此，本申请设计人员考虑到算法与目标系统的契合度，可以发现增强学习算法与本申请的所要解决的参数优化问题的契合度较高，可以采用增强学习算法对运行中目标系统的系统参数进行优化，优化前可以将获取的系统参数转换为增强学习算法的动作集合，将获取的运行状况转换为增强学习算法的状态集，将性能指标分别转换为增强学习算法的回报函数。

实际应用中，由于目标系统运行时，面对的用户、驱动实现和硬件配置可能不完全相同，在对各类目标系统的系统参数进行优化时，可以选用不同类型的增强学习算法，如：目标系统为图形系统时，可以采用马尔科夫决策过程模型，该模型可表示为五元组 (S,A,P,R,γ)，其中，S指状态集，A指动作集合，P指状态转移模型，R指回报函数，γ指折扣因子，一般在(0,1)范围内，可以根据实际的优化需求设定。以下描述如何将图形系统的系统参数、运行状况和性能指标，分别转换为马尔科夫决策过程模型的动作集合、环境状态集和回报函数：

一、将运行状况转换为环境状态集的过程：可以先对各运行状况进行进行向量化，这里提到的运行状况可以包括CPU个数、CPU频率、GPU个数、GPU频率、前台进程数量、内存占用率和工作负载等，进行向量化时可以将运行状况以向量或矩阵表示，各运行状况在向量或矩阵中的维度可以根据需要设定。例如：定义n维向量，第一维对应CPU个数，第二维对应CPU频率，第三维对应GPU个数，以此类推。在某些场景中，不同的运行状况的数据取值范围可能差别比较大，比如CPU个数一般在10以内，GPU频率在1G左右，而内存使用一般以小数表示，在1以内。如果将这种取值范围差异过大的运行状况放到同一向量中，影响模型的求解过程，为了解决这个问题，可以将各种运行状况归一化到固定的范围，比如0到1之间，然后在进行向量化。在归一化时可以采用线性函数或者逻辑(sigmoid)函数。

二、将系统参数转换为动作集合的过程：可以用单个系统参数对应动作空间的单个维度，将n个系统参数即对应n维的连续动作空间。将n个系统参数的调节问题转换为n维连续动作空间的中的最优值搜索问题。这里提到的系统参数可以包括渲染所需资源的缓存容量、重绘回调时延和输入事件重采样时延等。

三、将性能指标转为为回报函数的过程：考虑到体现系统运行流畅度的各项性能指标间有可能会相互影响制约，可以将各项性能指标加权组合为回报函数，这里提到的性能指标可以包括屏幕刷新率、跳帧率、应用绘制帧率和输入延迟等。加权组合前，设计人员可以先将各项性能指标缩放到预定的数值范围，如0到1之间，然后基于各性能指标对目标系统的重要程度设定各项性能指标的权重因子的数值，或者将各项性能指标的权重因子设定为相同数值，只要满足所有权重因子之和为1即可。例如：分别用η ₁,η ₂,...,η _k表示各项性能指标，分别用λ ₁,λ ₂,...,λ _k表示各性能指标的权重因子，生成的加权结果为r＝λ·η＝λ ₁η ₁+λ ₂η ₂+...+λ _kη _k。

实际应用中，针对目标系统的运行状况，可以设定加权结果进行约束条件，例如：目标系统在所述系统参数的控制下运行时出现卡顿现象，则所述加权结果为负；所述目标系统在所述系统参数的控制下运行时没有出现卡顿现象，则所述加权结果为1。如果系统参数每n帧更新一次，衡量目标系统是否出现卡顿现象的时间段即为n帧图像的播放时间。在其他例子中，除卡顿现象外，还可以考虑其他可能影响用户体验的因素，比如：出现应用丢帧现象、或者用户输入到相应图形输出延迟过大时，所述加权结果为负，反之所述加权结果为1。

在某些例子中，为了防止过于追求性能而导致的内存占用过大和能耗过高问题，还可以将系统的内存使用和功耗作为回报函数的组合因子。

综上，状态集、动作集合和回报函数可以分别用以下表达式表示：

r＝λ·η＝λ ₁η ₁+λ ₂η ₂+...+λ _kη _k.

此外，本申请在对目标系统的系统参数进行优化时，可以采用model-free算法，不考虑马尔科夫决策过程模型状态转移模型。

本申请的实施例，在将获取的系统参数、运行状况和性能指标分别转换为增强学习算法的动作集合、环境状态集和回报函数后，可以将转换所得的动作集合、环境状态集和回报函数输入增强学习算法进行模型求解。在获得模型的求解结果后，将所述求解结果转换为优化后的系统参数，并更新参数到目标系统，即可在目标系统的运行过程中，实现系统参数的自我学习和自我演进。

在进行模型求解时，可以采用深度增强学习算法对其进行求解实现参数优化，由于本申请的系统参数优化为n维连续动作空间的中的最优值搜索问题，为了获得更精确的优化结果，可以采用深度增强算法中求解连续动作空间的策略学习算法，例如：深度确定性策略梯度DDPG(Deep Deterministic Policy Gradient)算法，该DDPG算法将增强学习中的行动者-评论家(Actor-Critic)算法与深度学习结合，是一种适用于连续动作空间的策略学习算法。

其中，DDPG(Deep Deterministic Policy Gradient)算法是将增强学习中的行动者-评论家(Actor-Critic)算法与深度学习结合的产物。是一种适用于连续动作空间的策略学习算法。同时DDPG结合了深度学习，Critic和Actor都用深度神经网络表示，这两个网络的主要作用是分别近似Q函数Q(s,a|θ ^Q)和策略函数μ(s|θ ^μ)，θ为相应的函数参数。Q函数代表在状态s下采取动作a时的累积回报期望，策略函数代表在状态s下所采取的动作。该算法的基本思想是首先定义目标函数为从初始状态开始并执行策略μ 的累计折扣回报，记为J(μ)，累积折扣回报定义为每一步(在状态s _t下执行动作a _t)中所获得回报(即回报函数在当前状态和动作对下的值)折扣之和。

由于环境可能有随机性，所以这个值也是概率的。因此优化的目标即为最大化这个累积折扣回报的期望。很多的增强学习算法中会用到动作-值函数Q函数，可以用来表示在状态s _t下执行动作a _t后并在之后执行某个策略的累积折扣回报的期望，其中，Q函数如下：

Q(s _t,a _t)＝Ε[R _t|s _t,a _t]

Q函数的值越大，表示在该状态下选取该动作可能获得的回报累加越多。

为了获得能使该目标函数最大的策略函数参数，可以先随机初始化Q函数和策略函数网络的参数，然后在每一步中，通过当前策略函数加一个随机噪声(噪声是为了使智能体不局限于次优解，探索更优解)来得到当前动作，执行该动作得到回报值及下一状态，根据这些信息便可以根据Q函数的递归定义估计当前的一组状态和动作下的Q函数值，通过该估计值修正Q函数对应网络的参数，使得Q函数网络能更逼近真值，然后，根据Q函数相对于当前动作的梯度和策略函数相对于函数参数的梯度，求得Q函数相对于策略函数参数的梯度，该梯度即代表使得Q函数更大的方向，因此用该梯度加到当前的参数估计，来修正当前策略函数参数，该过程可以循环执行。

此外，为了进一步提高求解过程的收敛速度，可以将系统参数的初始值设定为开发人员在开发阶段选取的最优值。

通过上述实施例描述的系统参数优化过程，得到优化后的系统参数后，可以将目标系统的系统参数更新成优化后的系统参数，进而提高系统的运行效率和流畅度。

请参阅图2,图2是本申请一示例性实施例示出的用于实现目标系统的系统参数优化的智能系统的框图，该智能系统可以包括智能体250、以及分别与智能体250连接的参数调整模块220、状况查询模块230和性能测试模块240，参数调整模块220、状况查询模块230和性能测试模块240分别与目标系统交互，本实施例中以图形系统210为目标系统。

其中，参数调整模块220，用于调节图形系统210的系统参数，如：渲染所需资源的缓存容量、重绘回调时延、输入事件重采样时延等。如果接收到用户访问图形系统210的请求，可以将图形系统210的系统参数的初始值设定为系统开发人员在系统开发阶段选取的最优值，并将该最优值发送到智能体250。

状况查询模块230，用于查询图形系统210的运行状况，如：CPU个数、CPU频率、GPU个数、GPU频率、前台进程数量、内存占用率和工作负载等，可以集成有各种用于查询系统的运行状况的工具，在图形系统210的运行过程中，状况查询模块230可以每隔预定时段，如：30分钟，对图形系统210的运行状况进行一次查询，并将查询所得的各项运行状况发送到智能体250。

性能测试模块240，用于测试能衡量图形系统210的运行流畅度的性能指标，如：屏幕刷新率、跳帧率、应用绘制帧率、输入延迟等，可以集成有各种用于测试系统的性能指标的工具，在图形系统210的运行过程中，性能测试模块240可以每隔预定时段，如：30分钟，对图形系统210的性能指标进行一次测试，并将测试所得的各项性能指标发送到智能体250。

智能体250，可以采用马尔科夫决策过程模型对图形系统210的系统参数优化问题进行建模，在建模时将图形系统的系统参数、运行状况和性能指标，分别转换为动作集合、环境状态集和回报函数。完成建模后智能体250可以采用深度学习引擎251对所建模型进行求解，然后将求解结果转换为优化后的系统参数，并发送到参数调整模块220。

参数调整模块220在接收到优化后的系统参数后，将其更新到图形系统210，以使图形系统在该优化后的系统参数的控制下继续运行。

与前述系统参数的优化方法的实施例相对应，本申请还提供了系统参数的优化装置的实施例。

参见图3，图3是本申请一示例性实施例示出的系统参数的优化装置的逻辑框图，该装置可以包括：系统参数获取模块310、运行状况获取模块320、性能指标获取模块330和参数优化模块340。

其中，系统参数获取模块310，用于获取处于运行状态的目标系统的系统参数。

运行状况获取模块320，用于获取所述目标系统在所述系统参数下的运行状况。

性能指标获取模块330，用于获取所述目标系统在所述系统参数下的性能指标。

参数优化模块340，用于基于所获取的运行状况和性能指标优化所述系统参数。

一些例子中，优化所获取的系统参数时采用预定的系统优化模型。

作为例子，所获取的系统参数被作为所述系统优化模型中影响所述目标系统的运行状况的参数，所述运行状况被作为所述系统优化模型中反应系统参数对所述目标系统的影响程度的参数，所述性能指标被作为所述系统优化模型中衡量所述目标系统的运行状况好坏的函数。

作为例子，参数优化模块340还可以用于：

根据所述系统优化模型，将所获取的系统参数、运行状况和性能指标转换为所述目标系统的运行状况到其系统参数的映射关系；

根据所述映射关系调整所获取的系统参数后，输出优化后的系统参数。

作为例子，所述系统优化模型包括增强学习算法。

作为例子，所述增强学习算法包括马尔科夫决策过程模型，所获取的系统参数被作为模型的动作集合，所述运行状况被作为模型的状态集，所述性能指标被作为模型的回报函数。

作为例子，所述系统优化模型采用深度增强学习算法进行模型求解。

作为例子，所述深度增强学习算法包括深度确定性策略梯度DDPG算法。

一些例子中，所述回报函数为各项性能指标的加权结果。

作为例子，如果所述目标系统在所述系统参数的控制下出现卡顿现象，则所述加权结果为负；如果所述目标系统在所述系统参数的控制下没有出现卡顿现象，则所述加权结果为1。

另一些例子中，所述目标系统包括以下至少任一：

操作系统，应用程序所涉及的系统。

作为例子，所述操作系统包括以下至少任一：

图形系统，内存管理系统，进程管理系统，电源管理系统，输入输出系统。

作为例子，所述目标系统为所述图形系统时，所述系统参数包括以下至少任一：

缓存容量，重绘回调时延，输入事件重采样时延；

所述目标系统为所述图形系统时，所述性能指标包括以下至少任一：

屏幕刷新率，跳帧率，应用绘制帧率，输入延迟，内存使用率系统功耗；

所述目标系统为所述图形系统时，所述运行状况包括以下至少任一：

CPU个数，CPU频率，GPU个数，GPU频率，前台进程数量，内存占用率，工作负载。

上述装置中各个单元(或模块)的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元或模块可以是或者也可以不是物理上分开的，作为单元或模块显示的部件可以是或者也可以不是物理单元或模块，即可以位于一个地方，或者也可以分布到多个网络单元或模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通系统开发人员在不付出创造性劳动的情况下，即可以理解并实施。

本申请系统参数的优化装置的实施例可以应用在电子设备上。具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现中，电子设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备、互联网电视、智能机车、智能家居设备或者这些设备中的任意几种设备的组合。

装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在电子设备的处理器将非易失性存储器等可读介质中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图4所示，为本申请系统参数的优化装置所在电子设备的一种硬件结构图，除了图4所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的电子设备通常根据该电子设备的实际功能，还可以包括其他硬件，对此不再赘述。电子设备的存储器可以存储处理器可执行指令；处理器可以耦合存储器，用于读取所述存储器存储的程序指令，并作为响应，执行如下操作：获取处于运行状态的目标系统的系统参数；获取所述目标系统在所述系统参数下的运行状况和性能指标；基于所获取的运行状况和性能指标优化所述系统参数。

在其他实施例中，处理器所执行的操作可以参考上文方法实施例中相关的描述，在此不予赘述。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

一种系统参数的优化方法，其特征在于，包括步骤：

获取处于运行状态的目标系统的系统参数；

获取所述目标系统在所述系统参数下的运行状况和性能指标；

基于所获取的运行状况和性能指标优化所述系统参数。
根据权利要求1所述的方法，其特征在于，优化所获取的系统参数时采用设定的系统优化模型。
根据权利要求2所述的方法，其特征在于，所述系统优化模型包括增强学习算法。
根据权利要求2所述的方法，其特征在于，所获取的系统参数被作为所述系统优化模型中影响所述目标系统的运行状况的参数，所述运行状况被作为所述系统优化模型中反应系统参数对所述目标系统的影响程度的参数，所述性能指标被作为所述系统优化模型中衡量所述目标系统的运行状况的好坏的函数。
根据权利要求2至4中任一项所述的方法，其特征在于，所述基于所获取的运行状况和性能指标优化所述系统参数，包括：

根据所述系统优化模型，将所获取的系统参数、运行状况和性能指标转换为所述目标系统的运行状况到其系统参数的映射关系；

根据所述映射关系调整所获取的系统参数后，输出优化后的系统参数。
根据权利要求3所述的方法，其特征在于，所述增强学习算法包括马尔科夫决策过程模型，所获取的系统参数被作为模型的动作集合，所述运行状况被作为模型的状态集，所述性能指标被作为模型的回报函数。
根据权利要求6所述的方法，其特征在于，所述马尔科夫决策过程模型采用深度增强学习算法进行模型求解。
根据权利要求7所述的方法，其特征在于，所述深度增强学习算法包括深度确定性策略梯度DDPG算法。
根据权利要求6所述的方法，其特征在于，所述回报函数为各项性能指标的加权结果。
根据权利要求9所述的方法，其特征在于，如果所述目标系统在所述系统参数的控制下出现卡顿现象，则所述加权结果为负；如果所述目标系统在所述系统参数的控制下没有出现卡顿现象，则所述加权结果为1。
根据权利要求1所述的方法，其特征在于，所述目标系统包括以下至少任一：

操作系统，应用程序所涉及的系统。
根据权利要求11所述的方法，其特征在于，所述操作系统包括以下至少任一：

图形系统，内存管理系统，进程管理系统，电源管理系统，输入输出系统。
根据权利要求12所述的方法，其特征在于，所述目标系统为所述图形系统时，所述系统参数包括以下至少任一：

渲染所需资源的缓存容量，重绘回调时延，输入事件重采样时延。
根据权利要求12所述的方法，其特征在于，所述目标系统为所述图形系统时，所述性能指标包括以下至少任一：

屏幕刷新率，跳帧率，应用绘制帧率，输入延迟。
根据权利要求14所述的方法，其特征在于，所述性能指标还包括内存使用率系统功耗。
根据权利要求12所述的方法，其特征在于，所述目标系统为所述图形系统时，所述运行状况包括以下至少任一：

CPU个数，CPU频率，GPU个数，GPU频率，前台进程数量，内存占用率，工作负载。
一种电子设备，其特征在于，包括：

处理器；

存储处理器可执行指令的存储器；

其中，所述处理器耦合于所述存储器，用于读取所述存储器存储的程序指令，并作为响应，执行如下操作：

获取处于运行状态的目标系统的系统参数；

获取所述目标系统在所述系统参数下的运行状况和性能指标；

基于所获取的运行状况和性能指标优化所述系统参数。
根据权利要求17所述的电子设备，其特征在于，优化所获取的系统参数时采用设定的系统优化模型。
根据权利要求18所述的电子设备，其特征在于，所述系统优化模型包括增强学习算法。
根据权利要求18所述的电子设备，其特征在于，所获取的系统参数被作为所述系统优化模型中影响所述目标系统的运行状况的参数，所述运行状况被作为所述系统优化模型中反应系统参数对所述目标系统的影响程度的参数，所述性能指标被作为所述系统优化模型中衡量所述目标系统的运行状况好坏的函数。
根据权利要求18至20中任一项所述的电子设备，其特征在于，所述处理器还被配置为执行以下操作：

根据所述系统优化模型，将所获取的系统参数、运行状况和性能指标转换为所述目标系统的运行状况到其系统参数的映射关系；

根据所述映射关系调整所获取的系统参数后，输出优化后的系统参数。
根据权利要求19所述的电子设备，其特征在于，所述增强学习算法包括马尔科夫决策过程模型，所获取的系统参数被作为模型的动作集合，所述运行状况被作为模型的状态集，所述性能指标被作为模型的回报函数。
根据权利要求22所述的电子设备，其特征在于，所述马尔科夫决策过程模型采用深度增强学习算法进行模型求解。
根据权利要求23所述的电子设备，其特征在于，所述深度增强学习算法包括深度确定性策略梯度DDPG算法。
根据权利要求22所述的电子设备，其特征在于，所述回报函数为各项性能指标的加权结果。
根据权利要求25所述的电子设备，其特征在于，如果所述目标系统在所述系统参数的控制下出现卡顿现象，则所述加权结果为负；如果所述目标系统在所述系统参数的控制下没有出现卡顿现象，则所述加权结果为1。
根据权利要求17所述的电子设备，其特征在于，所述目标系统包括以下至少任一：

操作系统，应用程序所涉及的系统。
根据权利要求27所述的电子设备，其特征在于，所述操作系统包括以下至少任一：

图形系统，内存管理系统，进程管理系统，电源管理系统，输入输出系统。
根据权利要求28所述的电子设备，其特征在于，所述目标系统为所述图形系统时，所述系统参数包括以下至少任一：

渲染所需资源的缓存容量，重绘回调时延，输入事件重采样时延。
根据权利要求28所述的电子设备，其特征在于，所述目标系统为所述图形系统时，所述性能指标包括以下至少任一：

屏幕刷新率，跳帧率，应用绘制帧率，输入延迟。
根据权利要求30所述的电子设备，其特征在于，所述性能指标还包括内存使用率系统功耗。
根据权利要求28所述的电子设备，其特征在于，所述目标系统为所述图形系统时，所述运行状况包括以下至少任一：

CPU个数，CPU频率，GPU个数，GPU频率，前台进程数量，内存占用率，工作负载。
一种系统参数的优化装置，其特征在于，包括：

系统参数获取模块，用于获取处于运行状态的目标系统的系统参数；

运行状况获取模块，用于获取所述目标系统在所述系统参数下的运行状况；

性能指标获取模块，用于获取所述目标系统在所述系统参数下的性能指标；

参数优化模块，用于基于所获取的运行状况和性能指标优化所述系统参数。
根据权利要求33所述的装置，其特征在于，优化所获取的系统参数时采用设定的系统优化模型。
根据权利要求33所述的装置，其特征在于，所述系统优化模型包括增强学习算法。
根据权利要求34所述的装置，其特征在于，所获取的系统参数被作为所述系统优化模型中影响所述目标系统的运行状况的参数，所述运行状况被作为所述系统优化模型中反应系统参数对所述目标系统的影响程度的参数，所述性能指标被作为所述系统优化模型中衡量所述目标系统的运行状况好坏的函数。
根据权利要求34至36中任一项所述的装置，其特征在于，所述参数优化模块还用于：

根据所述系统优化模型，将所获取的系统参数、运行状况和性能指标转换为所述目标系统的运行状况到其系统参数的映射关系；

根据所述映射关系调整所获取的系统参数后，输出优化后的系统参数。
根据权利要求35所述的装置，其特征在于，所述增强学习算法包括马尔科夫决策过程模型，所获取的系统参数被作为模型的动作集合，所述运行状况被作为模型的状态集，所述性能指标被作为模型的回报函数。
根据权利要求38所述的装置，其特征在于，所述马尔科夫决策过程模型采用深度增强学习算法进行模型求解。
根据权利要求39所述的装置，其特征在于，所述深度增强学习算法包括深度确定性策略梯度DDPG算法。
根据权利要求38所述的装置，其特征在于，所述回报函数为各项性能指标的加权结果。
根据权利要求41所述的装置，其特征在于，如果所述目标系统在所述系统参数的控制下出现卡顿现象，则所述加权结果为负；如果所述目标系统在所述系统参数的控制下没有出现卡顿现象，则所述加权结果为1。
根据权利要求33所述的装置，其特征在于，所述目标系统包括以下至少任一：

操作系统，应用程序所涉及的系统。
根据权利要求43所述的装置，其特征在于，所述操作系统包括以下至少任一：

图形系统，内存管理系统，进程管理系统，电源管理系统，输入输出系统。
根据权利要求44所述的装置，其特征在于，所述目标系统为所述图形系统时，所述系统参数包括以下至少任一：

渲染所需资源的缓存容量，重绘回调时延，输入事件重采样时延；

所述目标系统为所述图形系统时，所述性能指标包括以下至少任一：

屏幕刷新率，跳帧率，应用绘制帧率，输入延迟，内存使用率系统功耗；

所述目标系统为所述图形系统时，所述运行状况包括以下至少任一：

CPU个数，CPU频率，GPU个数，GPU频率，前台进程数量，内存占用率，工作负载。
一个或多个机器可读介质，其特征在于，其上存储有指令，当由一个或多个处理器执行时，使得终端设备执行如权利要求1-16中任一项所述的方法。