WO2020077682A1

WO2020077682A1 - 一种服务质量评估模型的训练方法及装置

Info

Publication number: WO2020077682A1
Application number: PCT/CN2018/113031
Authority: WO
Inventors: 叶唐陟; 黄华俊杰
Original assignee: 网宿科技股份有限公司
Priority date: 2018-10-17
Filing date: 2018-10-31
Publication date: 2020-04-23
Also published as: CN109347668A; EP3863222A1; EP3863222A4; CN109347668B; US20210027170A1

Abstract

本发明公开了一种服务质量评估模型的训练方法及装置，其中，该方法包括：按照固定周期采集服务节点的机器性能数据、网络特征数据以及质量监控数据；基于所述机器性能数据以及所述网络特征数据确定特征值；基于所述质量监控数据确定标签；利用所述特征值以及所述标签建立训练集；利用所述训练集训练深度神经网络模型，得到服务质量评估模型。利用本发明提供的服务质量评估模型进行服务质量评估，能够提高评估的准确性，并且能够减少数据的输入，大幅降低了评估所需的计算资源以及带宽，不仅提高了服务质量评估效率，而且降低了运营成本。

Description

一种服务质量评估模型的训练方法及装置

技术领域

本发明涉及CDN技术领域，特别涉及一种服务质量评估模型的训练方法及装置。

背景技术

随着CDN(Content Delivery Network，内容分发网络)技术的越来越普及，CDN的业务越来越复杂和庞大，客户对CDN服务系统的服务质量的要求越来越高。为了保障高质量的服务，CDN服务系统需要实时了解为客户提供的服务质量，及时发现和替换故障节点，避免机器或者网络原因导致服务质量的下降。

当前，用来评估CDN服务系统的服务质量的一种方式，是通过分析服务端的访问日志来评估服务质量，例如计算卡顿率等指标。通过服务端访问日志评估服务质量时需要大量的计算资源去遍历访问日志，导致内部运维的设备与带宽成本非常高；同时这种方式和业务类型耦合程度大，每种业务类型的评估指标差别很大，没办法形成统一的标准，导致内部管理十分困难。另一种方式是利用机器性能以及网络情况等指标评估服务质量，这种评估方式十分依赖运维人员的经验，且准确性不高。

发明内容

为了解决现有技术的问题，本发明实施例提供了一种服务质量评估模型的训练方法及装置。所述技术方案如下：

第一方面，提供了一种服务质量评估模型的训练方法，应用于模型训练节点，所述方法包括：

按照固定周期采集服务节点的机器性能数据、网络特征数据以及质量监控数据；

基于所述机器性能数据以及所述网络特征数据确定特征值；

基于所述质量监控数据确定标签；

利用所述特征值以及所述标签建立训练集；

利用所述训练集训练深度神经网络模型，得到服务质量评估模型。

可选的，每个所述服务质量评估模型适用于一种业务类型的质量评估；

相应的，按照固定周期采集服务节点的质量监控数据，包括：

按照固定周期采集服务节点中一种或多种应用服务对应的质量监控数据，所述一种或多种应用服务属于所述服务质量评估模型所适用的业务类型。

可选的，所述机器性能数据包括cpu利用率、内存剩余量、负载、iowait值以及ioutil值；所述网络特征数据包括ping数据、poll数据以及下载速率。

可选的，所述方法还包括：

监控节点周期性地向所述服务节点发送检测信号，并得到网络特征数据；

相应的，所述按照固定周期采集服务节点的网络特征数据的步骤，包括：

按照固定周期从所述监控节点中采集服务节点的网络特征数据。

可选的，基于所述机器性能数据以及所述网络特征数据确定特征值之前，包括：

删除所述机器性能数据、所述网络特征数据以及所述质量监控数据中有重复时间戳的数据；

将所述机器性能数据、所述网络特征数据以及所述质量监控数据中的空值和异常值替换为正常值，或者删除所述空值和异常值。

可选的，将所述机器性能数据、所述网络特征数据以及所述质量监控数据中的异常值替换为正常值的步骤包括：

使用聚类算法或者数据标准化后设置置信区间方式，筛选所述机器性能数据、所述网络特征数据以及所述质量监控数据中的空值和异常值；

使用k-NN方法或者相邻采集周期采集到的数据替换所述异常值。

可选的，所述机器性能数据的特征值包括各维度机器性能数据的均值、极大值或者方差中的一种或多种；

所述网络特征数据的特征值包括各维度网络特征数据的至少一个预设分位值。

可选的，基于所述质量监控数据确定标签的步骤，包括：

基于所述服务质量评估模型所适用的业务类型确定服务质量的评估指标；

利用所述质量监控数据计算所述评估指标的数值，并将所述评估指标的数值确定为标签。

可选的，所述深度神经网络模型为LSTM神经网络模型。

可选的，所述LSTM神经网络模型包括至少一层神经网络，每层神经网络均包括遗忘门、输入门、输出门、神经元状态以及输出结果，表达式分别为：

f _t＝σ _g(W _fx _t+U _fc _t-1+b _f)；

i _t＝σ _g(W _ix _t+U _ic _t-1+b _i)；

o _t＝σ _g(W ₀x _t+U _oc _t-1+b _o)；

c _t＝f _tοc _t-1+i _tοσ _c(W _cx _t+b _c)；

h _t＝o _tοσ _h(c _t)；

其中，f _t表示遗忘门，i _t表示输入门，o _t表示输出门，c _t表示神经元状态，h _t表示输出结果，σ _g、σ _c、σ _h分别表示激活函数，x _t表示t时刻的输入数据，W _f、W _i、W _o、W _c、U _f、U _i、U _o分别表示权重矩阵，b _f、b _i、b _o、b _c分别表示偏置向量。

可选的，当所述LSTM神经网络模型包括多层神经网络时，各层神经网络中同一种参数的设置不同。

可选的，当所述LSTM神经网络模型包括多层神经网络时，利用所述训练集训练LSTM神经网络模型的步骤，包括：

将所述训练集中的特征值输入LSTM神经网络模型的第一层神经网络中进行传播，得到输出结果；

将当前得到的输出结果输入下一层神经网络进行传播，得到新的输出结果，如果所述下一层神经网络为最后一层神经网络，则结束该步骤，否则重复该步骤；

确定最后一层神经网络的输出结果与标签之间的误差；

将所述误差进行反向传播，优化模型参数。

可选的，所述训练集包括多个训练样本，每个所述训练样本均包括标签和n个时间步长的特征值，其中，n为正整数；

将所述训练集中的特征值输入LSTM神经网络模型的第一层神经网络中进行传播，得到输出结果的步骤，包括：

依次将x _t(t＝1、2、……、n)输入所述LSTM神经网络模型的第一层神经网络中，该x _t为所述训练集所包含的全部训练样本中第t个时间步长的特征值组成的矩阵，并得到输出结果h _n。

可选的，所述方法还包括：利用所述特征值以及所述标签建立验证集；

利用所述训练集训练深度神经网络模型的步骤之后，包括：

将所述验证集的特征值输入训练之后的模型，得到输出结果；

确定所述输出结果与所述验证集的标签之间的误差；

如果所述误差不符合要求，则调整超参数，重新训练调整之后的模型。

可选的，所述服务质量评估模型所建立的输入与输出结果之间的关系为非线性关系。

可选的，所述模型训练节点为单个服务器或服务器组。

第二方面，提供了一种服务质量评估模型的训练装置，所述装置包括：

采集模块，用于按照固定周期采集服务节点的机器性能数据、网络特征数据以及质量监控数据；

处理模块，用于基于所述机器性能数据以及所述网络特征数据确定特征值；

所述处理模块，还用于基于所述质量监控数据确定标签；

所述处理模块，还用于利用所述特征值以及所述标签建立训练集；

训练模块，用于利用所述训练集训练深度神经网络模型，得到服务质量评估模型。

所述采集模块，具体用于：

可选的，所述机器性能数据用于cpu利用率、内存剩余量、负载、iowait值以及ioutil值；所述网络特征数据用于ping数据、poll数据以及下载速率。

可选的，所述采集模块，具体用于：

按照固定周期从监控节点中采集服务节点的网络特征数据。

可选的，所述处理模块，还用于：

可选的，所述处理模块，具体用于：

使用k-NN装置或者相邻采集周期采集到的数据替换所述异常值。

可选的，所述机器性能数据的特征值用于各维度机器性能数据的均值、极大值或者方差中的一种或多种；

所述网络特征数据的特征值用于各维度网络特征数据的至少一个预设分位值。

可选的，所述处理模块，具体用于：

可选的，所述深度神经网络模型为LSTM神经网络模型。

可选的，所述LSTM神经网络模型用于至少一层神经网络，每层神经网络均用于遗忘门、输入门、输出门、神经元状态以及输出结果，表达式分别为：

f _t＝σ _g(W _fx _t+U _fc _t-1+b _f)；

i _t＝σ _g(W _ix _t+U _ic _t-1+b _i)；

o _t＝σ _g(W ₀x _t+U _oc _t-1+b _o)；

c _t＝f _tοc _t-1+i _tοσ _c(W _cx _t+b _c)；

h _t＝o _tοσ _h(c _t)；

可选的，当所述LSTM神经网络模型用于多层神经网络时，各层神经网络中同一种参数的设置不同。

可选的，当所述LSTM神经网络模型用于多层神经网络时，所述训练模块，具体用于：

确定最后一层神经网络的输出结果与标签之间的误差；

将所述误差进行反向传播，优化模型参数。

可选的，所述训练集用于多个训练样本，每个所述训练样本均用于标签和n个时间步长的特征值，其中，n为正整数；

所述训练模块，具体用于：

本发明实施例有以下有益效果：

(1)本发明实施例利用机器性能数据、网络特征数据以及质量监控数据训练模型，从而学习得到机器性能数据、网络特征数据与服务质量的非线性关系，在使用该模型评估服务系统的服务质量时，只需要输入服务系统的机器性能数据和网络特征数据，相比于通过服务端访问日志评估服务质量的方式，能够减少数据的输入，大幅降低了评估所需的计算资源以及带宽，不仅提高了服务质量评估效率，而且能够降低运营成本；

(2)相比于通过服务端访问日志评估服务质量的方式，本发明实施例采用机器性能数据和网络特征数据作为模型输入，这些数据和具体的业务解耦，所以能够形成一套通用的服务质量评估标准，方便服务系统的管理；

(3)相对于通过人工分析评估服务质量的方式，本发明实施例不需要依赖人工的经验，能够利用机器学习方法自动建模，且准确性更高。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种网络框架示意图；

图2是本发明实施例提供的另一种网络框架示意图；

图3是本发明实施例提供的一种服务质量评估模型的训练方法的流程图；

图4是本发明实施例提供的一种服务质量评估方法的流程图；

图5是本发明实施例提供的一种服务质量评估模型的训练装置的结构框图；

图6是本发明实施例提供的一种服务质量评估装置的结构框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

本发明实施例提供了一种服务质量评估模型的训练方法，该方法可以应用于图1所示的网络框架中。该网络框架包括服务节点、监控节点以及模型训练节点。服务节点为CDN服务系统中为用户提供服务的节点。监控节点连接服务节点，用于通过向服务节点发送检测信号以检测监控节点到各个服务节点的网络情况，并生成网络特征数据。监控节点还可以用于采集各个服务节点中的机器性能数据以及质量监控数据。。模型训练节点连接监控节点，用于从监控节点中采集各个服务节点的机器性能数据、网络特征数据以及质量监控数据，然后利用采集到的数据训练得到服务质量评估模型。监控节点可以为一个或多个，当存在多个监控节点时，每个监控节点可以负责监控部分服务节点。模型训练节点可以是单个服务器，也可以是服务器组。上述模型训练节点中可以包括处理器、存储器、收发器，处理器可以用于进行下述流程中的服务质量评估模型的训练，存储器可以用于存储下述训练过程中需要的数据以及产生的数据，收发器可以用于接收和发送下述训练过程中的相关数据。

本发明实施例还提供了一种服务质量评估方法，该方法可以应用于图2所示的网络框架中。该网络框架包括服务节点、监控节点以及质量评估节点。监控节点用于检测监控节点到各个服务节点的网络情况，并生成网络特征数据，以及用于采集各个服务节点中的机器性能数据。质量评估节点连接监控节点，用于从监控节点中采集各个服务节点的机器性能数据以及网络特征数据，然后利用采集到的数据以及训练好的服务质量评估模型评估CDN服务系统的服务质量。质量评估节点可以是单个服务器，也可以是服务器组。上述质量评估节点可以包括处理器、存储器、收发器，处理器可以用于进行下述流程中的服务质量的评估，存储器可以用于存储下述评估过程中需要的数据以及产生的数据，收发器可以用于接收和发送下述评估过程中的相关数据。上述模型训练节点与质量评估节点可以是同一节点，或者不是同一节点。

需要说明的是，本发明实施例不仅适用于评估CDN服务系统的服务质量，还适用于评估单个服务器节点的服务质量，以及由多个服务器节点组成的其他服务系统或集群的服务质量，本发明实施例不对其可应用的范围进行具体限定。

参见图3，为本发明实施例提供的一种服务质量评估模型的训练方法的流程图，该方法可以应用于模型训练节点，也即由模型训练节点来执行，该方法具体可以包括以下步骤。

步骤301，按照固定周期采集服务节点的机器性能数据、网络特征数据以及质量监控数据。

训练服务质量评估模型的过程为将特征值输入模型中进行训练，得到输出结果，然后根据输出结果与真实结果之间的误差，调整模型的参数，再继续训练调整之后的模型，如此迭代循环，从而建立输入与输出结果之间的非线性关系，也即得到服务质量评估模型。其中，用于确定特征值的数据可以包括机器性能数据和网络特征数据。在具体实施中，用于体现服务质量的数据还可以包括其他数据，本发明实施例不对用于体现服务质量的数据进行具体限定。本发明实施例可以按照固定周期采集CDN服务系统中每个服务节点的机器性能数据、网络特征数据和质量监控数据。机器性能数据可以包括cpu利用率、内存剩余量、iowait值以及ioutil值等等。在CDN服务系统的运行中，监控节点周期性地向服务节点发送检测信号以检测监控节点到各个服务节点的网络情况，并得到网络特征数据，所以可以从监控节点中采集到服务节点的网络特征数据。网络特征数据可以包括ping(Packet Internet Groper，因特网包探索器)数据、poll数据以及下载速率等等。

机器性能数据以及质量监控数据需要从服务节点中获取，不过为避免模型训练节点直接从服务节点采集数据，而需要与CDN系统中的服务节点建立大规模的链路，可以统一由监控节点先周期地从服务节点中采集机器性能数据以及质量监控数据，然后模型训练节点再按照固定周期从监控节点中获取机器性能数据、网络特征数据以及质量监控数据。在另一种实施方式中，服务节点和监控节点也可以将模型训练所需的数据发送至分布式存储系统中，然后模型训练节点再按照固定周期从分布式存储系统中获取这些数据。本发明实施例不对采集原始数据所采用的方式进行具体限定。

质量监控数据用于计算服务质量的评估指标，也即用于与模型输出结果进行对比的真实结果，质量监控数据可以包括请求响应时间以及请求内容大小等信息。在采集质量监控数据时，可以从服务节点的日志信息中获得相应的质量监控数据。

利用本发明实施例提供的方法，训练得到的服务质量模型适用于一种业务类型的质量评估，而每种业务类型包括多种应用服务，所以可以根据服务质量评估模型所适用的业务类型，选择属于该业务类型的应用服务对应的质量监控数据进行模型训练。所以本发明实施例可以采用通用的模型训练方法，训练出适用于各种业务类型的服务质量模型。在采集质量监控数据时，可以采集服务节点中一种或多种应用服务对应的质量监控数据，所述一种或多种应用服务属于所述服务质量评估模型所适用的业务类型，也就是说，需要采集的质量监控数据为有限应用服务对应的质量监控数据，而无需采集该类业务所包含的全部应用服务对应的质量监控数据。例如，待训练的模型所适用的业务类型为A类业务，A类业务所包含的应用服务有应用服务A1、应用服务A2、……、应用服务An，在采集质量监控数据时，可以只采集应用服务A1对应的质量监控数据，用于后续的模型训练，从而降低数据采集时的数据传输压力，以及后续的数据处理负担。在具体实施中，也可以采集更大范围的数据，然后从采集到的大数据集中获取服务节点中预设应用服务对应的质量监控数据，以利用获取到的数据进行模型训练。

在实施中，可以采集多个CDN服务系统的机器性能数据、网络特征数据以及质量监控数据。

在采集到原始数据之后，需要对原始数据进行预处理，预处理过程包括：删除原始数据中有重复时间戳的数据，以及筛选出原始数据中的空值以及异常值，并用正常值替换空值和异常值，或者删除空值和异常值。对于空值可以直接从原始数据中筛选出；对于异常值，使用聚类算法或者数据标准化后设置置信区间进行筛选。在进行替换时可以使用k-NN方法或者使用相邻采集周期采集到的数据进行替换。以下对使用相邻采集周期采集到的数据进行替换的方式进行举例说明。例如，当前采集周期采集到的节点A的cpu利用率为空值或者异常值，则可以将其替换为上个采集周期采集到的节点A的cpu利用率。

在实施中，可以将采集到的原始数据导入kafka队列，从而可以重复消费原始数据，例如将原始数据复制为两份，一份数据用于离线训练模型，另一份数据用于实时计算服务质量。

步骤302，基于所述机器性能数据以及所述网络特征数据确定特征值。

在实施中，可以利用统计学方法或结合人工经验筛选出模型训练所需的特征值，也即与评估服务质量相关的特征值。在本发明实施例中，机器性能数据的特征值可以包括各维度机器性能数据的均值、极大值或者方差的一种或多种，具体地，包括cpu利用率的均值、极大值或者方差；内存剩余量的均值、极大值或者方差；负载的均值、极大值或者方差；iowait值的均值、极大值或者方差以及ioutil值的均值、极大值或者方差。网络特征数据的特征值可以包括各维度网络特征数据的至少一个预设分位值，例如，包括ping数据的25分位值、50分位值和75分位值，以及poll数据的25分位值、50分位值和75分位值。在计算各特征值时，按照CDN服务系统的粒度以及采集周期的粒度进行计算，例如，cpu利用率的均值为同一CDN服务系统中同一采集周期内采集到的全部服务节点的cpu利用率的均值。

具体的，可以使用Hive SQL计算各特征值。

步骤303，基于所述质量监控数据确定标签。

标签可以直观地反映出服务质量的高低，而对于不同的业务类型，用于评估服务质量的指标不同。根据服务质量评估模型所适用的业务类型，使用相应的评估指标确定标签。基于所述质量监控数据确定标签的步骤具体包括：基于所述服务质量评估模型所适用的业务类型确定服务质量的评估指标，再利用所述质量监控数据计算所述评估指标的数值，并将所述评估指标的数值确定为标签。例如，对于适用于点播业务的服务质量评估模型，可以使用卡顿率作为评估指标，并将使用质量监控数据计算出的卡顿率值作为标签进行模型训练，本发明实施例不对模型训练时标签所使用的评估指标进行具体限定。

采集到的质量监控数据为较大量的原始数据，无法直观地反映出服务质量的高低，所以需要经过一系列地计算，得到服务质量的评估指标的数值，并将计算得到的评估指标的数值作为标签，用以进行模型训练。

步骤304，利用所述特征值以及所述标签建立训练集。

在根据原始数据得到特征值以及标签之后，可以利用所述特征值以及所述标签组建训练样本，每个训练样本包括n个时间步长的特征值及其对应的标签，其中，n为正整数，并且每个训练样本可以对应有一个标签值。可选的，在根据原始数据计算特征值以及标签之前，可以根据训练样本所包含的时间步长的个数对原始数据进行汇总，也就是说，将n个采集周期内采集到的原始数据汇总在一起，再计算每个采集周期内得到的机器性能数据和网络特征数据的特征值以及n个采集周期内得到的质量监控数据对应的标签，得到包括n个时间步长数据的训练样本。

利用采集到的原始数据可以得到大量的训练样本，训练样本可以按照预设划分比例建立训练集、验证集以及测试集，例如划分比例可以为60％、20％、20％。该训练集用于训练模型；验证集用于验证训练后的模型，并选出准确度较高的模型；测试集用于进一步测试并优化通过验证集选出的模型。

步骤305，利用所述训练集训练深度神经网络模型，得到服务质量评估模型。

该深度神经网络模型可以采用LSTM(Long Short-Term Memory，长短期记忆网络)神经网络模型，LSTM神经网络属于一种时间递归神经网络。本发明实施例采用的LSTM神经网络模型至少包括一层神经网络，每层神经网络均包括遗忘门、输入门、输出门、神经元状态以及输出结果，其表达式分别为：

f _t＝σ _g(W _fx _t+U _fc _t-1+b _f)；

i _t＝σ _g(W _ix _t+U _ic _t-1+b _i)；

o _t＝σ _g(W ₀x _t+U _oc _t-1+b _o)；

c _t＝f _tοc _t-1+i _tοσ _c(W _cx _t+b _c)；

h _t＝o _tοσ _h(c _t)；

其中，f _t表示遗忘门，i _t表示输入门，o _t表示输出门，c _t表示神经元(cell) 状态，h _t表示输出结果，σ _g、σ _c、σ _h分别表示激活函数，x _t表示t时刻的输入数据，W _f、W _i、W _o、W _c、U _f、U _i、U _o分别表示权重矩阵，b _f、b _i、b _o、b _c分别表示偏置向量。具体的，σ _g可以为Sigmiod函数，σ _c和σ _h可以为tanh函数。

当LSTM神经网络模型包括多层神经网络时，每层神经网络中同一种参数的设置可以不同，例如第一层中的σ _g参数与第二层中的σ _g参数设置可以不同。利用训练集训练多层结构的LSTM神经网络模型的过程为：首先将训练集输入LSTM神经网络模型的第一层神经网络中进行传播，得到输出结果；将当前得到的输出结果输入下一层神经网络进行传播，得到新的输出结果，如果所述下一层神经网络为最后一层神经网络，则结束该步骤，否则重复该步骤；确定最后一层神经网络的输出结果与标签之间的误差；将所述误差进行反向传播，优化模型参数。

优选的，本发明实施例可以采用两层结构的LSTM神经网络模型。以下以两层结构的LSTM神经网络模型为例，说明模型的训练过程。

首先将训练集输入LSTM神经网络模型的第一层神经网络中进行传播，其中x _t为训练集中的特征值，t＝1、2、……、n，n为上述每个训练样本所包含的时间步长的个数，例如n为10。n值可以根据经验值进行设置，也可以通过自学习进行设置，本发明实施例不对n的取值进行具体限定。

训练集在第一层神经网络中的传播过程具体为：依次将x _t(t＝1、2、……、n)输入所述LSTM神经网络模型的第一层神经网络中，该x _t为所述训练集所包含的全部训练样本中第t个时间步长的特征值组成的矩阵，并得到输出结果h _n。

再将h _n作为x _t输入第二层神经网络中进行传播，h _n在第二层神经网络中的传播过程与训练集在第一层神经网络中传播过程类似，在此不做赘述。h _n在第二层神经网络中传播结束后，输出服务质量数据，根据输出的服务质量数据与训练集中的标签计算误差，该误差可以用损失函数表示，将误差输入模型中进行反向传播，并根据误差对模型中的参数(包括权重矩阵和偏置向量)求偏微分，然后根据求偏微分后的值调整参数，从而优化模型。

在实施中，训练样本也可以分批次进行模型训练，每批次训练样本均构成一个训练集，并按照上述方法进行训练，并更新模型参数。例如，利用第一批次训练样本进行训练，并更新模型参数，然后继续用第二批次训练样本进行训练，并更新模型参数，依次输入各批次训练样本进行训练，直至利用最后一批次训练样本训练结束。

在利用训练集训练模型结束后，可以利用验证集验证训练后的模型的精确度，即计算模型输出结果与真实结果，即标签之间的误差，如果不符合要求，即精确度不够，则调整超参数，重新训练调整之后的模型，如此迭代循环，从而选出准确度较高的模型。然后还可以利用测试集进一步测试并优化通过验证集选出的模型，即计算模型输出结果与真实结果之间的误差，再反向传播该损失函数，优化模型参数。

模型训练节点可以是单个服务器，也可以是服务器组。当模型训练节点是单个服务器时，上述训练过程均由该单个服务器执行。如果上述训练过程数据处理量较大时，可以由服务器组来执行。可选的，模型训练节点可以包括大数据节点和深度学习节点。大数据节点用于对采集到的原始数据进行预处理，以及利用原始数据建立训练集。深度学习节点用于利用训练集对模型进行训练，得到服务质量评估模型。大数据节点和深度学习节点可以是单个服务器，也可以是服务器组。在实施中，可以利用Hadoop分布式文件系统保存训练集，深度学习节点可以从Hadoop分布式文件系统中读取训练集，进行模型训练。具体地，可以使用TensorFlow训练模型。

本发明实施例有以下有益效果：

服务质量评估模型训练结束后，可以将该训练好的服务质量评估模型部署到线上进行应用，利用该服务质量评估模型进行服务质量评估的方法如下所述。

参见图4，为本发明实施例提供的一种服务质量评估方法的流程图，该方法可以应用于质量评估节点，也即由质量评估节点来执行，该方法具体可以包括以下步骤。

步骤401，采集服务节点的机器性能数据和网络特征数据。

质量评估节点可以采集待进行服务质量评估的服务系统中的机器性能数据和网络特征数据，以用于服务质量评估。质量评估节点在采集原始数据时，可以按照固定周期采集预设周期数的数据。该预设周期数需要不小于样本所需的时间步长的个数。例如，在训练模型时，使用的训练样本包括10个时间步长的数据，则预设周期数需要不小于10。

步骤402，基于所述机器性能数据以及所述网络特征数据确定特征值。

该步骤与上述模型训练过程中特征值的计算过程类似，在此不再赘述。

步骤403，将所述特征值输入训练好的服务质量评估模型，得到服务质量评估结果。

从计算得到的特征值中，选取预设数量时间步长的特征值输入训练好的服务质量评估模型，经过模型计算后，输出服务质量评估结果。用于服务质量评估的特征值的时间步长的数量等于训练模型时训练样本所包含的时间步长的数量。

服务质量评估模型部署到线上应用后，可以定期进行测试以及训练，进一步优化模型参数，提高模型的精确度。

本发明实施例有以下有益效果：

参照图5，为本发明实施例提供的一种服务质量评估模型的训练装置的结构框图，该装置可以配置于模型训练节点，或者为模型训练节点本身，该装置具体可以包括采集模块501、处理模块502以及训练模块503。

其中，采集模块，用于按照固定周期采集服务节点的机器性能数据、网络特征数据以及质量监控数据；

所述处理模块，还用于基于所述质量监控数据确定标签；

优选的，每个所述服务质量评估模型适用于一种业务类型的质量评估；

所述采集模块，具体用于：

优选的，所述机器性能数据用于cpu利用率、内存剩余量、负载、iowait值以及ioutil值；所述网络特征数据用于ping数据、poll数据以及下载速率。

优选的，所述采集模块，具体用于：

按照固定周期从监控节点中采集服务节点的网络特征数据。

优选的，所述处理模块，还用于：

优选的，所述处理模块，具体用于：

优选的，所述机器性能数据的特征值用于各维度机器性能数据的均值、极大值或者方差中的一种或多种；

优选的，所述处理模块，具体用于：

优选的，所述深度神经网络模型为LSTM神经网络模型。

优选的，所述LSTM神经网络模型用于至少一层神经网络，每层神经网络均用于遗忘门、输入门、输出门、神经元状态以及输出结果，表达式分别为：

f _t＝σ _g(W _fx _t+U _fc _t-1+b _f)；

i _t＝σ _g(W _ix _t+U _ic _t-1+b _i)；

o _t＝σ _g(W ₀x _t+U _oc _t-1+b _o)；

c _t＝f _tοc _t-1+i _tοσ _c(W _cx _t+b _c)；

h _t＝o _tοσ _h(c _t)；

优选的，当所述LSTM神经网络模型用于多层神经网络时，各层神经网络中同一种参数的设置不同。

优选的，当所述LSTM神经网络模型用于多层神经网络时，所述训练模块，具体用于：

确定最后一层神经网络的输出结果与标签之间的误差；

将所述误差进行反向传播，优化模型参数。

优选的，所述训练集用于多个训练样本，每个所述训练样本均用于标签和n个时间步长的特征值，其中，n为正整数；

所述训练模块，具体用于：

优选的，所述处理模块，还用于利用所述特征值以及所述标签建立验证集；

相应的，所述训练模块，用于：

确定所述输出结果与所述验证集的标签之间的误差；

优选的，所述服务质量评估模型所建立的输入与输出结果之间的关系为非线性关系。

优选的，所述模型训练节点为单个服务器或服务器组。

需要说明的是：上述实施例提供的服务质量评估模型的训练装置在训练模型时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的服务质量评估模型的训练装置与服务质量评估模型的训练方法的实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。并且上述实施例提供的服务质量评估模型的训练装置与服务质量评估模型的训练方法所具有的有益效果相同，服务质量评估模型的训练装置实施例的有益效果可参考服务质量评估模型的训练方法实施例的有益效果，这里也不再赘述。

参照图6，为本发明实施例提供的一种服务质量评估装置的结构框图，该装置可以配置于质量评估节点，或者为质量评估节点本身，该装置具体可以包括采集模块601、处理模块602以及评估模块603。

其中，采集模块601，用于采集用于评估服务质量的机器性能数据和网络特征数据；

处理模块602，用于基于所述机器性能数据和所述网络特征数据确定特征值；

评估模块603，用于将所述特征值输入上述训练好的服务质量评估模型，得到质量数据。

需要说明的是：上述实施例提供的服务质量评估装置在评估服务质量时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的服务质量评估装置与服务质量评估方法的实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。并且上述实施例提供的服务质量评估装置与服务质量评估方法所具有的有益效果相同，服务质量评估装置实施例的有益效果可参考服务质量评估方法实施例的有益效果，这里也不再赘述。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

一种服务质量评估模型的训练方法，其特征在于，应用于模型训练节点，所述方法包括：

按照固定周期采集服务节点的机器性能数据、网络特征数据以及质量监控数据；

基于所述机器性能数据以及所述网络特征数据确定特征值；

基于所述质量监控数据确定标签；

利用所述特征值以及所述标签建立训练集；

利用所述训练集训练深度神经网络模型，得到服务质量评估模型。
根据权利要求1所述的方法，其特征在于，每个所述服务质量评估模型适用于一种业务类型的质量评估；

相应的，按照固定周期采集服务节点的质量监控数据，包括：

按照固定周期采集服务节点中一种或多种应用服务对应的质量监控数据，所述一种或多种应用服务属于所述服务质量评估模型所适用的业务类型。
根据权利要求1所述的方法，其特征在于，所述机器性能数据包括cpu利用率、内存剩余量、负载、iowait值以及ioutil值；所述网络特征数据包括ping数据、poll数据以及下载速率。
根据权利要求1所述的方法，其特征在于，所述方法还包括：

监控节点周期性地向所述服务节点发送检测信号，并得到网络特征数据；

相应的，所述按照固定周期采集服务节点的网络特征数据的步骤，包括：

按照固定周期从所述监控节点中采集服务节点的网络特征数据。
根据权利要求1所述的方法，其特征在于，基于所述机器性能数据以及所述网络特征数据确定特征值之前，包括：

删除所述机器性能数据、所述网络特征数据以及所述质量监控数据中有重复时间戳的数据；

将所述机器性能数据、所述网络特征数据以及所述质量监控数据中的空值和异常值替换为正常值，或者删除所述空值和异常值。
根据权利要求5所述的方法，其特征在于，将所述机器性能数据、所述网络特征数据以及所述质量监控数据中的异常值替换为正常值的步骤包括：

使用聚类算法或者数据标准化后设置置信区间方式，筛选所述机器性能数据、所述网络特征数据以及所述质量监控数据中的空值和异常值；

使用k-NN方法或者相邻采集周期采集到的数据替换所述异常值。
根据权利要求3所述的方法，其特征在于，

所述机器性能数据的特征值包括各维度机器性能数据的均值、极大值或者方差中的一种或多种；

所述网络特征数据的特征值包括各维度网络特征数据的至少一个预设分位值。
根据权利要求1所述的方法，其特征在于，基于所述质量监控数据确定标签的步骤，包括：

基于所述服务质量评估模型所适用的业务类型确定服务质量的评估指标；

利用所述质量监控数据计算所述评估指标的数值，并将所述评估指标的数值确定为标签。
根据权利要求1所述的方法，其特征在于，所述深度神经网络模型为LSTM神经网络模型。
根据权利要求9所述的方法，其特征在于，所述LSTM神经网络模型包括至少一层神经网络，每层神经网络均包括遗忘门、输入门、输出门、神经元状态以及输出结果，表达式分别为：

f _t＝σ _g(W _fx _t+U _fc _t-1+b _f)；

i _t＝σ _g(W _ix _t+U _ic _t-1+b _i)；

o _t＝σ _g(W ₀x _t+U _oc _t-1+b _o)；

其中，f _t表示遗忘门，i _t表示输入门，o _t表示输出门，c _t表示神经元状态，h _t表示输出结果，σ _g、σ _c、σ _h分别表示激活函数，x _t表示t时刻的输入数据，W _f、W _i、W _o、W _c、U _f、U _i、U _o分别表示权重矩阵，b _f、b _i、b _o、b _c分别表示偏置向量。
根据权利要求10所述的方法，其特征在于，当所述LSTM神经网络模型包括多层神经网络时，各层神经网络中同一种参数的设置不同。
根据权利要求10所述的方法，其特征在于，当所述LSTM神经网络模型包括多层神经网络时，利用所述训练集训练LSTM神经网络模型的步骤，包括：

将所述训练集中的特征值输入LSTM神经网络模型的第一层神经网络中进行传播，得到输出结果；

将当前得到的输出结果输入下一层神经网络进行传播，得到新的输出结果，如果所述下一层神经网络为最后一层神经网络，则结束该步骤，否则重复该步骤；

确定最后一层神经网络的输出结果与标签之间的误差；

将所述误差进行反向传播，优化模型参数。
根据权利要求12所述的方法，其特征在于，所述训练集包括多个训练样本，每个所述训练样本均包括标签和n个时间步长的特征值，其中，n为正整数；

将所述训练集中的特征值输入LSTM神经网络模型的第一层神经网络中进行传播，得到输出结果的步骤，包括：

依次将x _t(t＝1、2、……、n)输入所述LSTM神经网络模型的第一层神经网络中，该x _t为所述训练集所包含的全部训练样本中第t个时间步长的特征值组成的矩阵，并得到输出结果h _n。
根据权利要求1所述的方法，其特征在于，所述方法还包括：利用所述特征值以及所述标签建立验证集；

利用所述训练集训练深度神经网络模型的步骤之后，包括：

将所述验证集的特征值输入训练之后的模型，得到输出结果；

确定所述输出结果与所述验证集的标签之间的误差；

如果所述误差不符合要求，则调整超参数，重新训练调整之后的模型。
根据权利要求1所述的方法，其特征在于，所述服务质量评估模型所建立的输入与输出结果之间的关系为非线性关系。
根据权利要求1所述的方法，其特征在于，所述模型训练节点为单个服务器或服务器组。
一种服务质量评估模型的训练装置，其特征在于，用于：

采集模块，用于按照固定周期采集服务节点的机器性能数据、网络特征数据以及质量监控数据；

处理模块，用于基于所述机器性能数据以及所述网络特征数据确定特征值；

所述处理模块，还用于基于所述质量监控数据确定标签；

所述处理模块，还用于利用所述特征值以及所述标签建立训练集；

训练模块，用于利用所述训练集训练深度神经网络模型，得到服务质量评估模型。
根据权利要求17所述的装置，其特征在于，每个所述服务质量评估模型适用于一种业务类型的质量评估；

所述采集模块，具体用于：

按照固定周期采集服务节点中一种或多种应用服务对应的质量监控数据，所述一种或多种应用服务属于所述服务质量评估模型所适用的业务类型。
根据权利要求17所述的装置，其特征在于，所述机器性能数据用于cpu利用率、内存剩余量、负载、iowait值以及ioutil值；所述网络特征数据用于ping数据、poll数据以及下载速率。
根据权利要求17所述的装置，其特征在于，所述采集模块，具体用于：

按照固定周期从监控节点中采集服务节点的网络特征数据。
根据权利要求17所述的装置，其特征在于，所述处理模块，还用于：

删除所述机器性能数据、所述网络特征数据以及所述质量监控数据中有重复时间戳的数据；

将所述机器性能数据、所述网络特征数据以及所述质量监控数据中的空值和异常值替换为正常值，或者删除所述空值和异常值。
根据权利要求21所述的装置，其特征在于，所述处理模块，具体用于：

使用聚类算法或者数据标准化后设置置信区间方式，筛选所述机器性能数据、所述网络特征数据以及所述质量监控数据中的空值和异常值；

使用k-NN装置或者相邻采集周期采集到的数据替换所述异常值。
根据权利要求19所述的装置，其特征在于，

所述机器性能数据的特征值用于各维度机器性能数据的均值、极大值或者方差中的一种或多种；

所述网络特征数据的特征值用于各维度网络特征数据的至少一个预设分位值。
根据权利要求17所述的装置，其特征在于，所述处理模块，具体用于：

基于所述服务质量评估模型所适用的业务类型确定服务质量的评估指标；

利用所述质量监控数据计算所述评估指标的数值，并将所述评估指标的数值确定为标签。
根据权利要求17所述的装置，其特征在于，所述深度神经网络模型为LSTM神经网络模型。
根据权利要求25所述的装置，其特征在于，所述LSTM神经网络模型用于至少一层神经网络，每层神经网络均用于遗忘门、输入门、输出门、神经元状态以及输出结果，表达式分别为：

f _t＝σ _g(W _fx _t+U _fc _t-1+b _f)；

i _t＝σ _g(W _ix _t+U _ic _t-1+b _i)；

o _t＝σ _g(W ₀x _t+U _oc _t-1+b _o)；

其中，f _t表示遗忘门，i _t表示输入门，o _t表示输出门，c _t表示神经元状态，h _t表示输出结果，σ _g、σ _c、σ _h分别表示激活函数，x _t表示t时刻的输入数据，W _f、W _i、W _o、W _c、U _f、U _i、U _o分别表示权重矩阵，b _f、b _i、b _o、b _c分别表示偏置向量。
根据权利要求26所述的装置，其特征在于，当所述LSTM神经网络模型用于多层神经网络时，各层神经网络中同一种参数的设置不同。
根据权利要求26所述的装置，其特征在于，当所述LSTM神经网络模型用于多层神经网络时，所述训练模块，具体用于：

将所述训练集中的特征值输入LSTM神经网络模型的第一层神经网络中进行传播，得到输出结果；

将当前得到的输出结果输入下一层神经网络进行传播，得到新的输出结果，如果所述下一层神经网络为最后一层神经网络，则结束该步骤，否则重复该步骤；

确定最后一层神经网络的输出结果与标签之间的误差；

将所述误差进行反向传播，优化模型参数。
根据权利要求28所述的装置，其特征在于，所述训练集用于多个训练样本，每个所述训练样本均用于标签和n个时间步长的特征值，其中，n为正整数；

所述训练模块，具体用于：

依次将x _t(t＝1、2、……、n)输入所述LSTM神经网络模型的第一层神经网络中，该x _t为所述训练集所包含的全部训练样本中第t个时间步长的特征值组成的矩阵，并得到输出结果h _n。