WO2021047665A1

WO2021047665A1 - 终端之间连接状态的预测方法、装置和分析设备

Info

Publication number: WO2021047665A1
Application number: PCT/CN2020/114979
Authority: WO
Inventors: 张�浩; 谢于明; 王苗苗; 王仲宇
Original assignee: 华为技术有限公司
Priority date: 2019-09-12
Filing date: 2020-09-14
Publication date: 2021-03-18
Also published as: CN112491572B; JP7354424B2; EP4024762A4; CN112491572A; EP4024762A1; US20220200870A1; JP2022547582A

Abstract

本申请公开了一种终端之间连接状态的预测方法、装置和分析设备。涉及人工智能技术在计算机网络领域中的应用。分析设备获取测试终端对在第一历史时间段内多个单位时刻分别对应的连接状态，所述测试终端对由第一终端和第二终端构成，所述第一历史时间段是当前时间之前的时间段、且所述第一历史时间段内包括M个连续的单位时刻，其中M是大于等于2的自然数。分析设备根据所述测试终端对在所述第一历史时间段内多个单位时刻分别对应的连接状态，确定所述测试终端对在未来时间段内至少一个单位时刻分别对应的连接状态。

Description

终端之间连接状态的预测方法、装置和分析设备

技术领域

本申请涉及计算机网络技术领域，进一步涉及人工智能(Artificial Intelligence，AI)技术在计算机网络领域中的应用，尤其涉及一种终端之间连接状态的预测方法、一种虚拟机之间连接状态的预测装置和一种分析设备。

背景技术

数据中心(data center,DC)是使用通信网络相互连接的若干资源形成的池(pool)，其中资源包括计算资源、存储资源和网络资源等等。由于虚拟机具有低成本、敏捷灵活、可扩展性好等方面的优势，因而虚拟机成为DC中重要的计算资源。数据中心网络(Data Center Network，DCN)用于将DC中的资源互联在一起，DCN在DC中起关键作用。为了应对增长的云计算的需求，DCN需要可扩展并高效地连接数以千百计的虚拟机、以及存储器等其他资源。

DC中的虚拟机之间相互通信，协同完成DC中的各种业务。虚拟机之间的连接状态指示两个虚拟机之间是否有通信。当两个虚拟机之间有通信时，这两个虚拟机之间的连接状态为有连接。反之，当两个虚拟机之间没有通信时，这两个虚拟机之间的连接状态为无连接。

虚拟机之间的连接状态预测技术(在本申请中后续将简称为“预测技术”)是DCN中的关键技术之一。该技术广泛应用于许多场景，例如故障影响分析和配置验证场景。故障影响分析是指当一个虚拟机发生故障后，通过虚拟机之间的连接状态预测技术确定理论上哪些其他虚拟机与该发生故障的虚拟机有连接，进而分析故障的影响范围。配置验证是指将要更新一个虚拟机的配置时(这里将即将进行配置更新的虚拟机记为VM 1)，通过虚拟机之间的连接状态预测技术确定假设没有进行配置更新，理论上哪些其他虚拟机与VM 1有连接。在对VM 1配置更新完成后，检测这些虚拟机与刚完成配置更新的VM 1是否有连接，来分析配置更新对VM 1与其他虚拟机之间连接的影响，避免错误配置影响业务通畅。

相关技术提出了几种预测方法。一种是基于业务规律性假设的预测方法。这种预测方法根据一对虚拟机前一天某一时刻的连接状态预测这对虚拟机未来一天同一时刻的连接状态。例如在2015年1月11日10点尚未到来前，将虚拟机VM 1与虚拟机VM 2在2015年1月10日10点的连接状态作为预测出的虚拟机VM 1与虚拟机VM 2在2015年1月11日10点的连接状态。

另一种是基于业务连续性假设的预测方法。这种预测方法根据一对虚拟机上一时刻的连接状态预测这对虚拟机未来下一个时刻的连接状态。例如在2015年1月11日10点尚未到来前，将虚拟机VM 1与虚拟机VM 2在2015年1月11日9点的连接状态作为预测出的虚拟机VM 1与虚拟机VM 2在2015年1月11日10点的连接状态。

然而，从具体实践结果来看，上面两种预测方法准确率不佳。

发明内容

本申请实施例提供一种终端之间连接状态的预测方法，用以改善相关预测技术的准确性不高的问题。

第一方面，提供了一种终端之间连接状态的预测方法。分析设备获取测试终端对在第一历史时间段内多个单位时刻分别对应的连接状态，所述测试终端对由第一终端和第二终端构成，所述第一历史时间段是当前时间之前的时间段、且所述第一历史时间段内包括M个连续的单位时刻，其中M是大于等于2的自然数。分析设备根据所述测试终端对在所述第一历史时间段内多个单位时刻分别对应的连接状态，确定所述测试终端对在未来时间段内至少一个单位时刻对应的连接状态，所述未来时间段是当前时间之后的时间段、且所述未来时间段内包括Q个连续的单位时刻，所述未来时间段中的第一个单位时刻与所述第一历史时间段中最后一个单位时刻是连续的单位时刻，其中Q是大于等于1的自然数。

根据本申请实施例提供的终端之间连接状态的预测方法，由于分析设备在预测过程中使用了测试终端对历史上多个单位时刻的连接状态信息，而不是仅使用测试终端对历史上单一单位时刻的连接状态信息，有助于从历史状态信息中分析发现更多有用信息，从而提升预测准确性。

可选地，在一种可能的实现方式中，分析设备通过以下步骤确定测试终端对在未来时间段内至少一个单位时刻对应的连接状态。分析设备将所述测试终端对在所述第一历史时间段内多个单位时刻分别对应的连接状态，输入预测模型并获取所述预测模型的输出结果，所述预测模型是根据N个训练终端对在第二历史时间段内多个单位时刻分别对应的连接状态生成的，所述第二历史时间段是当前时间之前的时间段、且所述第二历史时间段中包括M+Q个连续的单位时刻，其中N为大于等于1的自然数。所述分析设备根据所述输出结果确定所述测试终端对在所述未来时间段内至少一个单位时刻分别对应的连接状态。分析设备利用机器学习算法，充分地利用大量训练终端对的长期历史连接状态信息训练出预测模型，能够提取出能够反映同一网络场景下多个终端对连接状态的普遍地、动态性的趋势信息或规律信息，从而更精准地进行预测。

可选地，在一种可能的实现方式中，分析设备过以下步骤获取所述预测模型的输出结果。所述分析设备根据所述测试终端对在所述第一历史时间段内多个单位时刻分别对应的连接状态，确定第一样本序列，所述第一样本序列中包括M个元素，所述M个元素中的每个元素的取值分别对应所述M个连续的单位时刻中每个单位时刻分别对应的连接状态。所述分析设备将所述第一样本序列输入预测模型并获取所述预测模型的输出结果，所述输出结果为预测序列，所述预测序列包括Q个元素，所述Q个元素中的每个元素的取值分别对应所述Q个连续的单位时刻中每个单位时刻分别对应的连接状态。分析设备首先获取反映测试终端对历史上连接状态趋势的第一样本序列，再将第一样本序列输入预测模型得到作为输出结果的预测序列。通过样本序列进行预测是一种有效的应用预测模型的方法。

可选地，所述M个元素或Q个元素中的一个元素的取值为第一值时指示对应单位时刻的连接状态为有连接，所述M个元素或Q个元素中的一个元素的取值为第二值时指示对应单位时刻的连接状态为无连接，所述第一值和所述第二值不同。在各个样本序列中通过不同元素值指示连接状态是一种简单高效的连接状态表示方法。

可选地，在一种可能的实现方式中，分析设备通过以下步骤训练出预测模型。分析设备获得N个训练终端对在所述第二历史时间段内多个单位时刻分别对应的连接状态。针对所述N个训练终端对中的第一训练终端对在第二历史时间段内多个单位时刻分别对应的连接状态，生成第一训练终端对对应的训练样本序列，以此类推，从而得到N个训练样本序列，所述第一训练终端对对应的训练样本序列中包括M+Q个元素，所述M+Q个元素中的每个元素的取值分别对应所述第一训练终端对在所述M+Q个连续的单位时刻中每个单位时刻分别对应的连接状态。将所述N个训练样本序列作为机器学习算法的输入，获得所述机器学习算法输出的所述预测模型。分析设备首先获取反映训练终端对历史上连接状态趋势的训练样本序列，再利用机器学习算法对大量训练样本序列进行训练从而生成预测模型。从而提供了一种有效的预测模型的学习方法。预测模型本身反映同一网络场景下多个终端对连接状态的普遍地、动态性的趋势信息或规律信息。

可选地，分析设备通过以下步骤所述获取测试终端对在第一历史时间段内多个单位时刻分别对应的连接状态。所述分析设备从保存的多个数据流分别对应的条目中选择第一组目标条目，所述第一组目标条目包括记录的单位时刻属于所述第一历史时间段、源IP地址为所述第一终端的IP地址、且目的IP地址为所述第二终端的条目，以及记录的单位时刻属于所述第一历史时间段、目的IP地址为所述第一终端的IP地址、且源IP地址为所述第二终端的条目。所述分析设备确定所述选择出的第一组目标条目中记录的单位时刻对应的连接状态为有连接，并确定所述第一历史时间段内、除所述选择出的第一组目标条目中记录的单位时刻之外的单位时刻对应的连接状态为无连接，从而得到所述测试终端对在所述第一历史时间段内多个单位时刻分别对应的连接状态。通过上述数据处理方法，分析设备获得了以两个相邻两个单位时刻之间的时间段为粒度的测试终端对历史连接状态信息，以便于后续基于测试终端对历史连接状态信息对测试终端对未来连接状态进行预测。

可选地，在一种可能的实现方式中，分析设备通过以下步骤获得N个训练终端对在第二历史时间段内多个单位时刻分别对应的连接状态。所述分析设备获取N个训练终端对。所述分析设备从所述N个训练终端对中选择一个训练终端对，对选择出的训练终端对执行以下处理步骤，直到处理完全部所述N个训练终端对为止，所述选择出的训练终端对由第三终端和第四终端构成：所述分析设备从保存的多个数据流分别对应的条目中选择第二组目标条目，所述第二组目标条目包括记录的单位时刻属于所述第二历史时间段、源IP地址为第三终端的IP地址、且目的IP地址为第四终端的条目，以及记录的单位时刻属于所述第二历史时间段、目的IP地址为所述第四终端的IP地址、且源IP地址为所述第三终端的条目；所述分析设备确定所述选择出的第二目标条目中记录的单位时刻对应的连接状态为有连接，并确定所述第二历史时间段内、除所述选择出的第二组目标条目中记录的单位时刻之外的单位时刻对应的连接状态为无连接，从而得到所述选择出的训练终端对在所述第二历史时间段内多个单位时刻分别对应的连接状态。通过上述数据处理方法，分析设备获得了以两个相邻两个单位时刻之间的时间段为粒度的训练终端对历史连接状态信息，以便于后续基于训练终端对历史连接状态信息训练预测模型。

可选地，在一种可能的实现方式中，在Q＝1的情况下，所述N个训练样本序列中正样本的数量与负样本的数量之间的比值大于等于0.5、且小于等于2，所述正样本是最后一个元素的取值指示的连接状态为有连接的训练样本序列，所述负样本中是最后一个元素的取值指示的连接状态为无连接的训练样本序列。满足上述条件的训练样本序列被视为平衡样本集。分析设备基于平衡样本集训练预测模型，能够获得预测效果更佳的预测模型。

可选地，在一种可能的实现方式中，分析设备通过以下步骤从流统计信息中获得若干条目。条目可以被视为用于获取测试终端对或训练终端对连接状态的原始数据。分析设备获取多条流统计信息，所述多条流统计信息中的每条流统计信息分别对应一个数据流，所述每条流统计信息中包括数据流的建立时间、关闭时间、源IP地址和目的IP地址。所述分析设备根据预定的时间对齐规则，对所述每条流统计信息进行以所述单位时刻为基准的时间对齐处理，生成多个数据流分别对应的条目并保存所述多个数据流分别对应的条目，所述多个数据流分别对应的条目中每个数据流对应的条目记录有单位时刻、源IP地址和目的IP地址。通过上述方式生成的条目数据，仅保留了流统计信息中与连接状态相关的信息，与流统计信息相比降低了数据量，节约了存储空间。另一方面，在生成条目数据的过程中进行了时间对齐处理，有利于后续提高处理效率。

可选地，第一方面或上述第一方面的任意一种可能的实现方式中所述第一终端、所述第二终端、所述第三终端和所述第四终端分别为虚拟机。进一步地，所述虚拟机部署于由DCN连接的数据中心中。本申请实施例提供的预测方法，适用于预测DC中两个虚拟机之间的连接状态。

第二方面，提供了一种终端之间连接状态的预测装置，该装置具有实现上述第一方面所述方法或上述方面的任意一种可能的实现方式的功能。所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。

第三方面，提供了一种分析设备。该分析设备包括存储器和至少一个处理器。所述用于存储指令，所述指令被所述至少一个处理器读取后，所述分析设备执行上述第一方面或第一方面的任意一种可能的实现方式中的方法，具体参见上面的详细描述，此处不再赘述。

第三方面，本申请实施例提供了一种计算机存储介质，用于储存为上述分析设备所用的计算机软件指令，其包含用于执行上述第一方面或上述方面的任意一种可能的实现方式所设计的程序。

第四方面，提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面或第一方面的任意一种可能的实现方式中所述的方法。

第五方面，本申请实施例提供了一种芯片，包括存储器和处理器，存储器用于存储计算机指令，处理器用于从存储器中调用并运行该计算机指令，以执行上述第一方面及其第一方面任意可能的实现方式中的方法。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例应用场景的示意图；

图2为本申请实施例提供的一种终端之间连接状态的预测方法的流程图；

图3为本申请实施例提供的一种基于预测模型的、终端之间连接状态的预测方法的流程图；

图4A为本申请实施例提供的第一训练虚拟机对对应的训练样本序列的示意图；

图4B为本申请实施例提供的N个训练样本序列的示意图；

图4C为本申请实施例提供的测试虚拟机对对应的第一样本序列的示意图；

图5为本申请实施例中分析设备将N个训练样本序列输入MLP，从而得到预测模型的过程示意图；

图6为本申请实施例提供的分析设备的结构示意图；

图7为本申请实施例提供的终端之间连接状态的预测装置的结构示意图。

具体实施方式

由于相关技术中几种预测方法准确性不佳，本发明实施例提出一种终端之间连接状态的预测方法。该方法基于终端对(在本实施例中，将由两台终端组成的一对终端称为“终端对”)在历史时间段中多个单位时刻的连接状态，通过人工智能技术来提取有用信息，例如根据一个终端对长期的历史连接状态信息构建这个终端对连接状态的数学模型、或者根据若干终端对长期的历史连接状态信息构建预测模型。在需要对一个终端对的连接状态进行预测时，根据上述有用信息获得这对终端在在未来时间段内至少一个单位时刻分别对应的连接状态。这种方法充分利用了终端对较长期的历史连接状态信息来进行预测，有助于提高预测准确性。

本申请实施例提供的预测方法适用于多种网络场景，例如公司、政府部门或者学校内部的局域网，以及DCN。根据具体应用场景的不同，可选地，组成终端对的终端是个人计算机、笔记本电脑、移动终端、可穿戴设备或者虚拟机。

可选地，构成终端对的两个终端是同类设备，例如均是个人计算机、或者均是虚拟机。可替换地，构成终端对的两个终端是不同类设备，例如终端对中的一个终端是个人计算机而另一个终端是虚拟机，或者终端对中的一个终端是移动终端而另一个终端是虚拟机。

在后面的实施例中，主要以DCN场景为例对本申请实施例提供的预测方法进行描述。DCN场景的特点是提供计算资源的是大量虚拟机。虚拟机是通过虚拟化技术模拟出的具有完整软硬件系统功能的逻辑计算机设备。宿主机是虚拟化技术实施基础，即为虚拟化技术提供实际硬件资源的计算机设备。例如当虚拟化技术通过虚拟化软件实现时，在宿主机上安装虚拟化软件后，可以基于宿主机的硬件资源，按照配置生成一个或多个虚拟机。因此宿主机也可以被视为虚拟机运行的硬件平台。在DCN场景中终端对是指虚拟机对，即由两个虚拟机组成的一对虚拟机。由于在不同场景中该预测方法的实现原理基本类似，因此不进行一一举例说明。

下面结合各个附图对本发明实施例技术方案的主要实现原理、具体实施方式及其对应能够达到的有益效果进行详细的阐述。

附图1是本申请实施例在DCN场景下的应用场景的示意图。DCN中包括多个宿主机(host)，记为host 1、host 2、host 3、host 4、和host 5。不同宿主机上运行有一个或多个不同虚拟机。例如host 1上运行VM 1a和VM 1b，host 2上运行VM 2a，host 3上运行VM 3a、VM 3b和VM 3c，host 4上运行VM 4a和VM 4b，host 5上运行VM 5a和VM 5b。

附图1所示的场景中还包括多个报文转发设备。报文转发设备包括各种交换机，如二层交换机或者三层交换机等等。二层交换机工作在数据链路层，可以识别数据包中的MAC地址信息，根据识别出的MAC地址查找包含MAC地址与端口号对应关系的地址表实现转发。三层交换机工作在网络层，通过三层交换技术实现转发。三层交换技术是将路由技术与交换技术合二为一的技术。三层交换机在对第一个数据流进行路由后，三层交换机会产生一个MAC地址与IP地址的映射表。当同样的数据流再次通过三层交换机时，三层交换机根据上述映射表之间从二层进行转发而不是再次路由。例如附图1中的交换机S 1、S 2、S 3和S 4为二层交换机，S 5和S 6为三层交换机。

如附图1中的虚线所示，宿主机与报文转发设备之间存在物理连接，例如通过以太网连接。通过报文转发设备与作为虚拟机运行平台的宿主机之间的物理连接，虚拟机之间进行相互通信。

附图1所示的应用场景中还包括分析设备。分析设备与数据源设备进行通信，从而获得多条流统计信息。可选地，数据源设备包括报文转发设备和宿主机。每条流统计信息分别对应一个数据流，所述每条流统计信息中包括数据流的建立时间、源IP地址和目的IP地址。在本申请实施例中，数据流是指从一个源计算机到一个目的方的一系列报文。目的方可以是另一个计算机，也可以是一组计算机或者广播域。

可选地，数据源设备将通过本设备的网络接口传输的流量镜像后，将镜像的流量发送给分析设备，分析设备对镜像的流量进行简单解析后得到流统计信息。简单的解析包括从全部流量中筛选出同步序列编号(Synchronize Sequence Numbers，SYN)报文以及从SYN报文中提取源IP地址和目的IP地址，根据SYN报文的发送时间、以及提取的源IP地址和目的IP地址生成流统计信息。这种方式不会过多消耗数据源设备的处理资源，对数据源设备硬件要求较低，适用于数据源设备是交换机或宿主机的情况。

可替换地，数据源设备对通过本设备的网络接口传输的报文进行简单解析后得到流统计信息，将流统计信息发送给分析设备。与数据源设备直接发送镜像的报文相比，由于流统计信息的数据量小于镜像的报文的数据量，可以节省网络传输资源。由于这种方式对数据源设备的处理能力有一定要求，因此相对适用于数据源设备是宿主机的情况。

表1是分析设备接收到的流统计信息的一种示例，其中每行表示一条流统计信息。可选地，不同数据源可以采用不同的格式、编码方式记录数据流的建立时间、源IP地址和目的IP地址。例如，用二进制、十进制或者十六进制记录地址信息。分析设备首先对接收到的原始流统计信息进行格式转换，归一化为统一格式的流统计信息。可以理解地，流统计信息中的IP地址是为了区分不同虚拟机，为了便于理解和描述，在本实施例中用虚拟机标识来替代IP地址。

表1

时间	源IP地址	目的IP地址
2015-1-10 11:23:00	VM 1a	VM 1b
2015-1-10 11:45:00	VM 1a	VM 1b
2015-1-10 11:55:00	VM 1a	VM 1b

2015-1-10 11:02:00	VM 2a	VM 3a
……	……	……

分析设备对根据预定的时间对齐规则，对所述每条流统计信息进行以所述单位时刻为基准的时间对齐处理，生成多个数据流分别对应的条目并保存所述多个数据流分别对应的条目。

可选地，分析设备对收到的多条流统计信息进行时间对齐处理时，采用的时间粒度可以由管理员根据分析设备的存储空间、处理资源、DCN的网络规模，分析目的等各种因素设置。通过时间对齐处理不仅可以降低数据量以节省存储空间，还有助于提升后续分析效率。

可选地，预定的时间对齐规则可以灵活设定。在进行时间对齐处理时的粒度可以根据需求设置，如1小时、半小时、10分钟、1分钟等等。假定在本申请实施例中，分析设备对收到的多条流统计信息进行时间对齐处理时，采用的时间粒度为1小时。换句话说，对齐处理后得到的条目中是以1小时为单位时间。例如，一种时间对齐规则是将时间处于两个单位时刻之间的时间处理为两个单位时刻中靠前的单位时刻，举例来说，将“2015-1-10 11:23:00”处理为“2015-1-10 11:00:00”。另一种时间对齐规则是将时间处于两个单位时刻之间的时间处理为两个单位时刻中较为接近的一个单位时刻，举例来说，将“2015-1-10 11:55:00”处理为“2015-1-10 12:00:00”。

经时间对齐处理，分析设备获得表2所示的条目，并保存这些条目以备后续使用。

表2

以小时为粒度的单位时刻标识	源IP地址	目的IP地址
2015-1-10 11:00:00	VM 1a	VM 1b
2015-1-10 12:00:00	VM 1a	VM 1b
2015-1-10 13:00:00	VM 2a	VM 3a
2015-1-10 9:00:00	VM 1a	VM 2a
……	……	……

进一步地，分析设备基于保存的多个数据流分别对应的条目，通过人工智能技术，分析出虚拟机对的连接状态的趋势或规律信息，或者构建预测模型。后面将结合各个实施例描述本申请实施例提供的一种终端之间连接状态的预测方法。人工智能技术是指使得由人制造出来的机器表现出类似于人类智能的技术。从现有研究来看，人工智能技术包括机器学习算法。

图2是本申请实施例提供的一种终端之间连接状态的预测方法的流程图。图2主要从分析设备的角度对该方法进行描述。可选地，图2中的分析设备为附图1中的分析设备。

步骤21，分析设备获取测试终端对在第一历史时间段内多个单位时刻分别对应的连接状态。所述测试终端对由第一终端和第二终端构成，所述第一历史时间段是当前时间之前的时间段、且所述第一历史时间段内包括M个连续的单位时刻，其中M是大于等于2的自然数。

例如，当前时间为2015-1-11 9:20，分析设备当前的预测任务是在预测附图1所示的场景中，预测虚拟机VM 1a与VM 2a之间2015-1-11 10:00的连接状态。管理员可以通过分析设备的输入输出接口连接的输入设备输入预测任务。即在本实施例中测试虚拟机对为 (VM 1a-VM 2a)。

假定第一历史时间段为当前时间之前3小时，即M＝3。那么第一历史时间段为2015-1-11 6:20至2015-1-11 9:20。第一历史时间段内包含3个单位时刻，即2015-1-11 7:00，2015-1-11 8:00和2015-1-11 9:00。

为完成上述预测任务，分析设备首先获得测试虚拟机对(VM 1a-VM 2a)在2015-1-11 7:00，2015-1-11 8:00和2015-1-11 10:00分别对应的连接状态。

可选地，分析设备采用步骤21a和步骤21b获取测试终端对在第一历史时间段内多个单位时刻分别对应的连接状态。

步骤21a，分析设备从保存的多个数据流分别对应的条目中选择第一组目标条目，所述第一组目标条目包括记录的单位时刻属于所述第一历史时间段、源IP地址为所述第一终端的IP地址、且目的IP地址为所述第二终端的条目，以及记录的单位时刻属于所述第一历史时间段、目的IP地址为所述第一终端的IP地址、且源IP地址为所述第二终端的条目。

步骤21b，分析设备确定所述选择出的第一组目标条目中记录的单位时刻对应的连接状态为有连接，并确定所述第一历史时间段内、除所述选择出的第一组目标条目中记录的单位时刻之外的单位时刻对应的连接状态为无连接，从而得到所述测试终端对在第一历史时间段内多个单位时刻分别对应的连接状态。

回到上面的实例，分析设备在表2所示的条目中选择满足以下两个条件中任一条件的条目组成第一组目标条目。

条件1：单位时刻为2015-1-11 7:00，2015-1-11 8:00或2015-1-11 10:00三者之一，且源IP地址为VM 1a，目的IP地址为VM 2a。

条件2：单位时刻为2015-1-11 7:00，2015-1-11 8:00或2015-1-11 10:00三者之一，且源IP地址为VM 2a，目的IP地址为VM 1a。

假定分析设备在表2所示的条目中筛选出第一组目标条目如表3所示。

表3

以小时为粒度的单位时刻标识	源IP地址	目的IP地址
2015-1-10 8:00:00	VM 1a	VM 2a
2015-1-10 9:00:00	VM 2a	VM 1a

由于表3所示的选择出的第一组目标条目中包括单位时刻标识2015-1-10 8:00:00和2015-1-10 9:00:00，不包含单位时刻2015-1-10 7:00:00。因此分析设备确定测试虚拟机对(VM 1a-VM 2a)在2015-1-10 8:00:00的连接状态为有连接，在2015-1-10 9:00:00的连接状态为有连接，在2015-1-10 7:00:00的连接状态为无连接。

步骤22，分析设备根据所述测试终端对在所述第一历史时间段内多个单位时刻分别对应的连接状态，确定所述测试终端对在未来时间段内至少一个单位时刻对应的连接状态。所述未来时间段是当前时间之后的时间段、且所述未来时间段内包括Q个连续的单位时刻，所述未来时间段中的第一个单位时刻与所述第一历史时间段中最后一个单位时刻是连续的单位时刻，其中Q是大于等于1的自然数。

根据本申请实施例提供的终端之间连接状态的预测方法，在以DCN为例的应用场景中，分析设备首先从数据源设备中获取作为测试对象的测试虚拟机对历史上多个单位时刻的连接状态信息。分析设备基于测试虚拟机对历史上多个单位时刻的连接状态信息为测试依据，预测测试虚拟机对未来时间段的连接状态。由于预测过程中使用了测试虚拟机对历史上多个单位时刻的连接状态信息，而不是测试虚拟机对历史上单一单位时刻的连接状态信息，有助于从历史状态信息中分析发现更多有用信息，例如更详细具体的规律或趋势信息，从而提升预测准确性。

可选地，分析设备采用本申请实施例提供的预测方法得到预测结果(即测试终端对在未来时间段内至少一个单位时刻分别对应的连接状态)后，分析设备将该预测结果应用于不同的场景中，例如故障影响分析和配置验证场景中，能够进一步提高故障影响分析的准确性，以及配置验证的准确性。

在“基于测试终端对历史上多个单位时刻的连接状态信息为测试依据，预测测试终端对未来时间段的连接状态”这一整体思路下，在实施过程中有多种可能的实现方案。这些实现方案包括但不限于根据包含多个单位时刻的连接状态的历史连接状态信息构建数学模型和预测模型的方法。本申请后面的各实施例以数学模型或预测模型为例，对本申请实施例提供的预测方法进行描述。

一、基于数学模型，对测试终端对的连接状态进行预测

分析设备根据所述测试终端对在所述第一历史时间段内多个单位时刻分别对应的连接状态，确定所述测试终端对连接状态的数学模型。进一步分析设备根据数学模型来预测所述测试终端对未来时间段中至少一个单位时刻对应的连接状态。

可选地，分析设备预先存储多种数学模型的匹配规则。分析设备将测试虚拟机对(VM 1a-VM 2a)在第一历史时间段内多个单位时刻分别对应的连接状态与匹配规则逐一进行匹配，从而确定测试虚拟机对(VM 1a-VM 2a)历史连接状态信息符合的数学模型。当然，分析设备也可以采用其他机制学习到测试虚拟机对(VM 1a-VM 2a)历史连接状态信息符合的数学模型。

下面两个例子(例1和例2)作为示例性说明。显然类似的数学模型还有很多，在这里难以一一列举。

例1

分析设备根据测试虚拟机对(VM 1a-VM 2a)在过去24小时中每一小时对应的连接状态，确定出测试虚拟机对(VM 1a-VM 2a)连接状态的数学模型为“连接状态为有连接持续2小时后，转换为无连接持续3小时，再转换为有连接持续2小时，依次往复”。如表4所示。为了简明起见，连接状态在表4中用0或1的数值指示，0表示无连接，1表示有连接。

表4

分析设备根据上述数学模型，确定测试虚拟机对(VM 1a-VM 2a)在未来时间段2015-1-11 0:00:00-24:00:00的连接状态如表5所示。

表5

在本实例中，M＝24，Q＝24。

例2

分析设备根据测试虚拟机对(VM 1a-VM 2a)在过去24小时中每一小时对应的连接状态，确定出测试虚拟机对(VM 1a-VM 2a)连接状态的数学模型为“连接状态为有连接持续n小时后，转换为无连接持续n小时，再转换为有连接，n从1开始每次递加1”。如表6所示。为了简明起见，连接状态在表6中用0或1的数值指示，0表示无连接，1表示有连接。

表6

分析设备根据上述数学模型，确定测试虚拟机对(VM 1a-VM 2a)在未来时间段2015-1-11 0:00:00-11:00:00的连接状态如表7所示。

表7

在本实施例中，M＝24，Q＝12。

根据本申请实施例提供的终端之间连接状态的预测方法，在以DCN为例的应用场景中，分析设备首先从数据源设备中获取作为测试对象的测试虚拟机对历史上多个连续的单位时刻的连接状态信息。分析设备以测试虚拟机对历史上多个连续的单位时刻的连接状态信息为测试依据，预测测试虚拟机对未来时间段的连接状态。由于预测的基础是测试虚拟机对历史上多个连续的单位时刻的连接状态信息，而不是测试虚拟机对历史上单一单位时刻的连接状态信息，有助于分析发现测试虚拟机对连接状态的长期历史趋势，从而提升预测准确性。

二、基于预测模型，对测试虚拟机对的连接状态进行预测

分析设备根据预测模型来确定测试终端对在未来时间段内至少一个单位时刻分别对应的连接状态。预测模型是分析设备根据作为预测目标的测试终端对所处的网络场景中的大量终端对的历史连接状态信息通过机器学习算法训练出的，其中用于训练预测模型的大量终端对与作为预测目标的测试终端对处于同一网络场景中。用于进行预测模型训练的终端对在本实施例中被称为训练终端对。可选地，训练终端对可以包含预测终端对，也可以不包含预测终端对，在这里不进行限定。

具体地，分析设备根据N个训练终端对在第二历史时间段内多个单位时刻分别对应的连接状态生成的预测模型。换句话说，预测模型是根据N个训练终端对在第二历史时间段内多个单位时刻分别对应的连接状态生成的。所述第二历史时间段是当前时间之前的时间段、且所述第二历史时间段中包括M+Q个连续的单位时刻，其中N为大于等于1的自然数，通常当N取值为百万级的时候就可以达到较为满意的效果。在合理的取值范围内，N的数量越大，预测结果越准确。然后，分析设备将所述测试终端对在所述第一历史时间段内多个单位时刻分别对应的连接状态，输入预测模型并获取所述预测模型的输出结果。

可以理解的是，预测模型是根据预测需求训练出的。预测需求是指M和Q，即“根据测试终端对包含M个单位时刻的第一历史时间段内的连接状态，预测测试终端对包含Q个单位时刻的未来时间段的连接状态”。可选地，管理员可以通过分析设备的输入接口连接的输入设备输入预测需求。

预测模型的输入是测试终端对在第一历史时间段内多个单位时刻分别对应的连接状态。输出是测试终端对在未来时间段内至少一个单位分别对应的连接状态。本申请将结合后续实施例对预测模型的生成过程进行详细说明。

仍以附图1所示场景为例，假定第一历史时间段是当前时间之前的3小时，即M＝3。未来时间段是当前时间之后1小时，即Q＝1。那么未来时间段为2015-1-11 9:20至2015-1-11 10:20。未来时间段内包含1个单位时刻，即2015-1-11 10:00。

分析设备将步骤21确定出的测试虚拟机对(VM 1a-VM 2a)在当前时间之前3小时内各单位时刻的连接状态输入预测模型，即将“测试虚拟机对(VM 1a-VM 2a)在2015-1-10 7:00:00的连接状态为无连接，在2015-1-10 8:00:00的连接状态为有连接，在2015-1-10 9:00:00的连接状态为有连接”这一信息输入预测模型。预测模型输出2015-1-11 10:00的连接状态为有连接。

分析设备根据预测模型的输出，确定测试虚拟机对在尚未到来的2015-1-10 10:00:00的连接状态为有链接。

根据本申请实施例提供的终端之间连接状态的预测方法，在以DCN为例的应用场景中，分析设备获取大量训练虚拟机对的历史连接状态信息，历史连接状态信息包含多个单位时刻分别对应的连接状态。分析设备进一步结合预测需求，根据大量训练虚拟机对的历史连接状态信息生成预测模型。在进行预测时，针对作为预测对象的测试虚拟机对，分析设备将测试虚拟机对在历史时间段内多个单位时刻分别对应的连接状态输入预测模型，并根据预测模型的输出确定测试虚拟机对在未来时间段内至少一个单位时刻分别对应的连接状态。本申请实施例中大量历史连接状态信息一方面包含大量虚拟机对的历史连接状态信息，另一方面历史连接状态信息包含至少两个单位时刻对应的连接状态信息。与将测试虚拟机前一天同一时刻的连接状态作为这对虚拟机未来一天同一时刻的连接状态的预测方案、以及将测试虚拟机上一时刻的连接状态预测这对虚拟机未来下一个时刻的连接状态的预测方案相比，本申请实施例的预测方法基于大量历史连接状态信息来进行预测，降低了偶然因素带来的误差，提升了预测准确性。

附图3是本申请实施例提供的一种基于预测模型的、终端之间连接状态的预测方法的流程图。可选地，图3中的分析设备为附图1或附图2中的分析设备。附图3所示的流程中步骤31至步骤33组成的子流程主要描述了分析设备生成预测模型的过程，步骤34至步骤36组成的子流程主要描述了分析设备基于预测模型，对测试终端对的连接状态进行预测的过程。显然，分析设备在生成预测模型之后，可以基于预测模型对多个测试终端对的连接状态进行预测，而无需每次预测时都根据训练终端对的历史连接状态信息重新生成预测模型。

步骤31，分析设备获得N个训练终端对在第二历史时间段内多个单位时刻分别对应的连接状态。关于第二历史时间段的定义请参考前面的介绍，在这里不再重复。

可选地，步骤31中包括步骤311-步骤314几个子步骤。

步骤311，分析设备获取N个训练终端对。

可选地，分析设备采用多种方法获取训练终端对。例如，分析设备读取保存的如表2所示的条目，根据条目中的源IP地址和目的IP地址获取训练终端对。可替换地，分析设备也可以通过地址管理设备(例如，动态主机配置协议(Dynamic Host Configuration Protocol，DHCP)服务器)获取网络中已分配给终端使用的IP地址，然后通过排列组合生成若干终端对。分析设备再从排列组合生成的若干终端对中选择出N个训练终端对。选择的方式包括随机选取，按预定顺序选取等等，在这里不再详述。

步骤312，分析设备从所述N个训练终端对中选择一个训练终端对，对选择出的训练终端对执行处理步骤312a，和步骤312b，直到处理完全部所述N个训练终端对为止，所述选择出的训练终端对由第三终端和第四终端构成。

步骤312a，分析设备从保存的多个数据流分别对应的条目中选择第二组目标条目，所述第二组目标条目包括记录的单位时刻属于所述第二历史时间段、源IP地址为第三终端的IP地址、且目的IP地址为第四终端的条目，以及记录的单位时刻属于所述第二历史时间段、目的IP地址为所述第四终端的IP地址、且源IP地址为所述第三终端的条目。

步骤312b，分析设备确定所述选择出的第二目标条目中记录的单位时刻对应的连接状态为有连接，并确定所述第二历史时间段内、除所述选择出的第二组目标条目中记录的单位时刻之外的单位时刻对应的连接状态为无连接，从而得到所述选择出的训练终端对在第二历史时间段内多个单位时刻分别对应的连接状态。

步骤312a和步骤312b分别与附图2中步骤21a和步骤21b类似。在这里不再重复描述。

由于篇幅所限，在本实施例中给出一个较为简单实例进行说明。假定预测需求是“根据测试虚拟机对包含24*6个单位时刻的第一历史时间段内的连接状态，预测测试虚拟机对未来时间段的连接状态，未来时间段包含1个单位时刻”，即M＝24*6，Q＝1。形象的说，预测需求是根据过去6天每一小时的连接状态，预测未来1小时的连接状态。

分析设备对于选择出的训练虚拟机对，采用步骤312a和步骤312b得到的过去M+Q(24*6+1＝145)小时的连接状态如表8所示。为了简明起见，在如表8所示的连接状态表中用0或1的数值指示不同的连接状态，0表示无连接，1表示有连接。

表8

单位时刻标识	1	2	3	4	5	6	7	……	145
连接状态	1	1	0	0	0	0	1		1

表8即为选择出的训练虚拟机对在所述第二历史时间段内每一单位时刻分别对应的连接状态的示例。分析设备对N个训练虚拟机对均执行步骤312a，和步骤312b，得到了N个如表8所示的状态信息表。

步骤32，分析设备针对所述N个训练终端对中的第一训练终端对在第二历史时间段内多个单位时刻分别对应的连接状态，生成第一训练终端对对应的训练样本序列，以此类推，从而得到N个训练样本序列，所述第一训练终端对对应的训练样本序列中包括M+Q个元素，所述M+Q个元素中的每个元素的取值分别对应所述第一训练终端对在所述M+Q个连续的单位时刻中每个单位时刻分别对应的连接状态。

继续上面的例子，针对N个训练虚拟机对中的第一训练虚拟机对，分析设备基于第一训练虚拟机对所对应的类似于表8所示的状态信息表，生成第一虚拟机对对应的训练样本序列。训练样本序列中包含M+Q(145)个元素，如图4A所示。假定元素的取值为0或1，0表示无连接，1表示有连接。分析设备将样本序列中的前M(24*6＝144)个元素作为训练样本序列中的样本部分，如图4A中41。分析设备将最后1个元素作为训练样本序列中的标签，如图4A中42。

分析设备针对N个训练虚拟机对中的每个训练虚拟机对均执行上述步骤32，从而生成N个个训练样本序列，如图4B所示。

步骤33，分析设备将所述N个训练样本序列作为训练样本输入机器学习算法，获得所述机器学习算法生成的所述预测模型。

可选地，机器学习算法包括但不限于神经网络、决策树、随机森林、支持向量机等等。由于机器学习算法众多，难以一一描述采用每种机器学习算法基于N个训练样本序列生成预测模型的过程。本申请实施例以应用其中一种机器学习算法生成预测模型为例进行举例说明。

在本实施例以多层感知神经网络(Multi Layer Perceptron，MLP)为例对预测模型的生成过程进行详细描述。神经网络的基础计算单元是节点(node)，节点也被称为神经元(neuron)。节点接收来自外部输入的输入，经过计算激活函数(activation function)后产生输出。权重(weight)表示输出节点与接收节点之间联系的强弱，权重值的大小在神经网络的训练过程中会自动调整直到趋于稳定，权重值是训练的主要对象。激活函数记为f()，一般是非线性的，主要作用是为神经元的输出加入非线性特性，增强神经网络对训练样本的学习能力。

图5是将N个训练样本序列输入MLP，从而得到预测模型的过程示意图。图5中的MLP包含输入层(input layer)，输出层(output layer)。可选地，为了达到更佳的学习效果，MLP还包括一个或多个隐含层(hidden layer)。为简明起见，本实施例以MLP中包含2个隐含层为例进行说明。每个隐含层中包含的节点数目是可设定的，例如第一个隐含层包含64个节点，第二个隐含层包含16个节点。

MLP输入层中包含的节点数目与训练样本序列的样本部分中包含的元素数目相同，输出节点数目与训练样本序列的标签中包含的元素数目相同。由于本实施例中训练样本序列的样本部分包含的元素数目为144，因此MLP输入层包含的节点数目为144；本实施例中训练样本序列的标签包含的元素数目为1，因此MLP输出层包含的节点数目为1。

分析设备将一个训练样本序列输入MLP时，将训练样本序列样本部分的各元素分别输入MLP输入层对应的节点。分析设备将输出层节点的值与训练样本序列的标签的元素值进行对比，如果输出层节点的值与训练样本序列的标签的元素值差异较大，则MLP自动通过f()调整权重值。预测模型的学习过程是MLP接收分析设备输入的N个训练样本，并根据输出层节点的值与训练样本序列的标签的元素值之间差异调整权重值的过程。当MLP中的权重值自动调整到一个稳定的理想状态时，学习过程结束，此时如图5所示结构的MLP以及理想状态的权重值即为预测模型。

可选地，为了得到预测效果更佳的预测模型，分析设备输入机器学习算法用以生成预测模型的N个训练样本序列是平衡样本集。平衡样本集是指用以训练生成预测模型的N个训练样本序列中正样本的数量与负样本的数量大致相同、相差不大。换句话说N个训练样本序列中正样本的数量与负样本的数量之间的比值在合理范围内。其中正样本是最后一个元素的取值指示的连接状态为有连接的训练样本序列，所述负样本中是最后一个元素的取值指示的连接状态为无连接的训练样本序列。可选地，一种可实施的合理范围为0.5至2中的一个值。

步骤34，分析设备根据测试终端对在所述第一历史时间段内多个单位时刻分别对应的连接状态，确定第一样本序列，所述第一样本序列中包括M个元素，所述M个元素中的每个元素的取值分别对应所述M个连续的单位时刻中每个单位时刻分别对应的连接状态。

分析设备确定第一样本序列的方法与本流程步骤32中生成训练样本序列的方法基本类似，在这里不再展开描述，生成的第一样本序列如图4C所示。第一样本序列包含M(144)个元素。

步骤35，分析设备将所述第一样本序列输入预测模型并获取所述预测模型的输出结果。

在本实施例中预测模型的输出结果为预测序列，所述预测序列包括Q个元素，所述Q 个元素中的每个元素的取值分别对应所述Q个连续的单位时刻中每个单位时刻分别对应的连接状态。

例如，分析设备将图4C所示的第一样本序列输入预测模型后，预测模型输出的预测序列为“[1]”。由于在本实施例中是以Q＝1为例进行介绍的，因此预测序列包含1个元素。当Q取值为其他大于1的自然数时，预测序列包含更多元素。例如当Q＝3时，预测序列的形式为“[1,0,1]”。

步骤36，分析设备根据预测模型的输出结果确定所述测试终端对在所述未来时间段内至少一个单位时刻对应的连接状态。

可理解地，在预测模型输出的预测序列为“[1]”的情况下，分析设备确定测试虚拟机对(VM 1a-VM 2a)在所述未来1小时对应的连接状态为有连接。

本申请实施例提供了生成预测模型、以及基于预测模型对终端之间连接状态进行预测的详细过程。附图3步骤31至步骤33组成的子流程介绍了如何根据训练终端对的历史连接状态信息生成预测模型。在以DCN为例的应用场景中，分析设备首先从数据源设备中获取作为大量训练虚拟机对历史上多个连续的单位时刻的连接状态信息，在基于获取的连接状态信息利用机器学习算法生成预测模型。与前一实施例中的数学模型相比，预测模型反映的趋势信息或规律信息更具有普遍性，降低偶然因素带来的误差，能够进一步提升预测准确性。附图3步骤34至步骤36组成的子流程主要描述了分析设备基于预测模型，对测试终端对的连接状态进行预测的过程。基于预测模型，DCN中的大量历史连接状态信息被充分利用，用来预测连接状态。经过实际数据测试，本申请实施例提供的预测方法准确率可以达到98％左右，与现有相关技术相比，预测准确率有明显提升。

相应地，本申请实施例还提供了一种分析设备，用以实施上述实施例描述的预测方法。图6是本申请实施例提供的分析设备的结构示意图。可选地，图6所示的分析设备是图1所示应用场景中的分析设备、图2或图3所示流程中的分析设备。分析设备包括至少一个处理器61、和存储器62。

至少一个处理器61可以是一个或多个CPU，该CPU可以是单核CPU，也可以是多核CPU。

存储器62包括但不限于是随机存取存储器(random access memory，RAM)、只读存储器(Read only Memory，ROM)、可擦除可编程只读存储器(erasable programmable read-only memory，EPROM或者快闪存储器)、快闪存储器、或光存储器等。存储器62中保存有操作系统的代码。

可选地，处理器61通过读取存储器62中保存的指令实现上述实施例中的方法，或者，处理器61也可以通过内部存储的指令实现上述实施例中的方法。在处理器61通过读取存储器62中保存的指令实现上述实施例中的方法的情况下，存储器62中保存实现本申请上述实施例提供的方法的指令。

存储器62中存储的程序代码被所述至少一个处理器61读取后，分析设备执行以下操作：获取测试终端对在第一历史时间段内多个单位时刻分别对应的连接状态，所述测试终端对由第一终端和第二终端构成，所述第一历史时间段是当前时间之前的时间段、且所述第一历史时间段内包括M个连续的单位时刻，其中M是大于等于2的自然数；根据所述测试终端对在所述第一历史时间段内多个单位时刻分别对应的连接状态，确定所述测试终端对在未来时间段内至少一个单位时刻分别对应的连接状态，所述未来时间段是当前时间之后的时间段、且所述未来时间段内包括Q个连续的单位时刻，所述未来时间段中的第一个单位时刻与所述第一历史时间段中最后一个单位时刻是连续的单位时刻，其中Q是大于等于1的自然数。

可选地，附图6所示的分析设备还包括网络接口63。网络接口63可以是有线接口，例如光纤分布式数据接口(Fiber Distributed Data Interface，FDDI)、千兆以太网(Gigabit Ethernet，GE)接口；网络接口63也可以是无线接口。网络接口63用于接收来自于数据源的镜像的流量、或者多条流统计信息。

存储器62用于存储网络接口63接收到的镜像的流量、或者多条流统计信息。所述至少一个处理器61用于对所述镜像的流量、或者多条流统计信息进行处理后，获得上述表2所示的若干条目并将这些条目保存至存储器62。

所述至少一个处理器61进一步根据存储器62保存的这些条目来执行上述方法实施例所描述的预测方法。处理器61实现上述功能的更多细节请参考前面各个方法实施例中的描述，在这里不再重复。

可选地，分析设备还包括总线64，上述处理器61、存储器62通常通过总线64相互连接，也可以采用其他方式相互连接。

可选地，分析设备还包括输入输出接口65，输入输出接口65用于与输入设备连接，接收用户通过输入设备输入的预测需求。输入设备包括但不限于键盘、触摸屏、麦克风等等。输入输出接口65还用于与输出设备连接，输出处理器61的预测结果。输出设备包括但不限于显示器、打印机等等。

本申请实施例提供的分析设备用于执行上述各个方法实施例提供的预测方法。该分析设备由于预测过程中使用了测试虚拟机对历史上多个单位时刻的连接状态信息，而不是测试虚拟机对历史上单一单位时刻的连接状态信息，有助于从历史状态信息中分析发现更多有用信息，从而提升预测准确性。

图7是本申请实施例提供的一种终端之间连接状态的预测装置的结构示意图。该终端之间连接状态的预测装置70包括获取模块71、预测模块72。

获取模块71，用于获取测试终端对在第一历史时间段内多个单位时刻分别对应的连接状态，所述测试终端对由第一终端和第二终端构成，所述第一历史时间段是当前时间之前的时间段、且所述第一历史时间段内包括M个连续的单位时刻，其中M是大于等于2的自然数。

预测模块72，用于根据所述测试终端对在所述第一历史时间段内多个单位时刻分别对应的连接状态，确定所述测试终端对在未来时间段内至少一个单位时刻分别对应的连接状态，所述未来时间段是当前时间之后的时间段、且所述未来时间段内包括Q个连续的单位时刻，所述未来时间段中的第一个单位时刻与所述第一历史时间段中最后一个单位时刻是连续的单位时刻，其中Q是大于等于1的自然数。

可选地，预测模块72包括模型测试单元721和确定单元722。

模型测试单元721，用于将所述测试终端对在所述第一历史时间段内多个单位时刻分别对应的连接状态，输入预测模型并获取所述预测模型的输出结果，所述预测模型是根据N个训练终端对在第二历史时间段内多个单位时刻分别对应的连接状态生成的，所述第二历史时间段是当前时间之前的时间段、且所述第二历史时间段中包括M+Q个连续的单位时刻，其中N为大于等于1的自然数；

确定单元722，用于根据所述输出结果确定所述测试终端对在所述未来时间段内至少一个单位时刻分别对应的连接状态。

可选地，模型测试单元721，用于根据所述测试终端对在所述第一历史时间段内多个单位时刻分别对应的连接状态，确定第一样本序列，所述第一样本序列中包括M个元素，所述M个元素中的每个元素的取值分别对应所述M个连续的单位时刻中每个单位时刻分别对应的连接状态；以及将所述第一样本序列输入预测模型并获取所述预测模型的输出结果，所述输出结果为预测序列，所述预测序列包括Q个元素，所述Q个元素中的每个元素的取值分别对应所述Q个连续的单位时刻中每个单位时刻分别对应的连接状态。

可选地，图7中的预测模块72还包括模型学习单元723，用于在所述模型测试单元721将所述第一样本序列输入预测模型之前，执行以下步骤：获得N个训练终端对在所述第二历史时间段内多个单位时刻分别对应的连接状态；针对所述N个训练终端对中的第一训练终端对在第二历史时间段内多个单位时刻分别对应的连接状态，生成第一训练终端对对应的训练样本序列，以此类推，从而得到N个训练样本序列，所述第一训练终端对对应的训练样本序列中包括M+Q个元素，所述M+Q个元素中的每个元素的取值分别对应所述第一训练终端对在所述M+Q个连续的单位时刻中每个单位时刻分别对应的连接状态；将所述N个训练样本序列作为机器学习算法的输入，获得所述机器学习算法输出的所述预测模型。

附图7所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。附图7中上述各个模块既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。例如，采用软件实现时，上述获取模块71、预测模块72、以及模型测试单元721、确定单元722和模型学习单元723可以是由附图6中的至少一个处理器61读取存储器中存储的程序代码后，生成的软件功能模块来实现。图7中上述各个模块也可以由分析设备中的不同硬件分别实现，例如获取模块71由附图6中的网络接口63和至少一个处理器63中的一部分处理资源(例如多核处理器中的一个核)共同实现，而预测模块72由附图6中至少一个处理器63中的其余部分处理资源(例如多核处理器中的其他核)，或者采用现场可编程门阵列(Field－Programmable Gate Array，FPGA)、或协处理器等可编程器件来完成。显然上述功能模块也可以采用软件硬件相结合的方式来实现，例如获取模块71由硬件可编程器件实现，而预测模块72是由CPU读取存储器中存储的程序代码后，生成的软件功能模块。

附图7中获取模块71，预测模块72、以及预测模块中的各个单元实现上述功能的更多细节请参考前面各个方法实施例中的描述，在这里不再重复。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的范围。这样，倘若对本申请的这些修改和变型属于本申请权利要求的范围之内，则本申请也意图包括这些改动和变型在内。

Claims

一种终端之间连接状态的预测方法，其特征在于，包括：

分析设备获取测试终端对在第一历史时间段内多个单位时刻分别对应的连接状态，所述测试终端对由第一终端和第二终端构成，所述第一历史时间段是当前时间之前的时间段、且所述第一历史时间段内包括M个连续的单位时刻，其中M是大于等于2的自然数；

所述分析设备根据所述测试终端对在所述第一历史时间段内多个单位时刻分别对应的连接状态，确定所述测试终端对在未来时间段内至少一个单位时刻对应的连接状态，所述未来时间段是当前时间之后的时间段、且所述未来时间段内包括Q个连续的单位时刻，所述未来时间段中的第一个单位时刻与所述第一历史时间段中最后一个单位时刻是连续的单位时刻，其中Q是大于等于1的自然数。
根据权利要求1所述的预测方法，其特征在于，确定测试终端对在未来时间段内至少一个单位时刻对应的连接状态，包括：

所述分析设备将所述测试终端对在所述第一历史时间段内多个单位时刻分别对应的连接状态，输入预测模型并获取所述预测模型的输出结果，所述预测模型是根据N个训练终端对在第二历史时间段内多个单位时刻分别对应的连接状态生成的，所述第二历史时间段是当前时间之前的时间段、且所述第二历史时间段中包括M+Q个连续的单位时刻，其中N为大于等于1的自然数；

所述分析设备根据所述输出结果确定所述测试终端对在所述未来时间段内至少一个单位时刻分别对应的连接状态。
根据权利要求2所述的预测方法，其特征在于，所述输入预测模型并获取所述预测模型的输出结果，包括：

所述分析设备根据所述测试终端对在所述第一历史时间段内多个单位时刻分别对应的连接状态，确定第一样本序列，所述第一样本序列中包括M个元素，所述M个元素中的每个元素的取值分别对应所述M个连续的单位时刻中每个单位时刻分别对应的连接状态；

所述分析设备将所述第一样本序列输入预测模型并获取所述预测模型的输出结果，所述输出结果为预测序列，所述预测序列包括Q个元素，所述Q个元素中的每个元素的取值分别对应所述Q个连续的单位时刻中每个单位时刻分别对应的连接状态。
根据权利要求3所述的预测方法，其特征在于，所述M个元素或Q个元素中的一个元素的取值为第一值时指示对应单位时刻的连接状态为有连接，所述M个元素或Q个元素中的一个元素的取值为第二值时指示对应单位时刻的连接状态为无连接，所述第一值和所述第二值不同。
根据权利要求3或4所述的预测方法，其特征在于，所述将所述第一样本序列输入预测模型之前，还包括：

获得N个训练终端对在所述第二历史时间段内多个单位时刻分别对应的连接状态；

针对所述N个训练终端对中的第一训练终端对在第二历史时间段内多个单位时刻分别对应的连接状态，生成第一训练终端对对应的训练样本序列，以此类推，从而得到N个训练样本序列，所述第一训练终端对对应的训练样本序列中包括M+Q个元素，所述M+Q个元素中的每个元素的取值分别对应所述第一训练终端对在所述M+Q个连续的单位时刻中每个单位时刻分别对应的连接状态；

将所述N个训练样本序列作为机器学习算法的输入，获得所述机器学习算法输出的所述预测模型。
根据权利要求1-5任一所述的预测方法，其特征在于，所述获取测试终端对在第一历史时间段内多个单位时刻分别对应的连接状态，包括：

所述分析设备从保存的多个数据流分别对应的条目中选择第一组目标条目，所述第一组目标条目包括记录的单位时刻属于所述第一历史时间段、源IP地址为所述第一终端的IP地址、且目的IP地址为所述第二终端的条目，以及记录的单位时刻属于所述第一历史时间段、目的IP地址为所述第一终端的IP地址、且源IP地址为所述第二终端的条目；

所述分析设备确定所述选择出的第一组目标条目中记录的单位时刻对应的连接状态为有连接，并确定所述第一历史时间段内、除所述选择出的第一组目标条目中记录的单位时刻之外的单位时刻对应的连接状态为无连接，从而得到所述测试终端对在所述第一历史时间段内多个单位时刻分别对应的连接状态。
根据权利要求2-6任一所述的预测方法，其特征在于，获得N个训练终端对在第二历史时间段内多个单位时刻分别对应的连接状态，包括：

所述分析设备获取N个训练终端对；

所述分析设备从所述N个训练终端对中选择一个训练终端对，对选择出的训练终端对执行以下处理步骤，直到处理完全部所述N个训练终端对为止，所述选择出的训练终端对由第三终端和第四终端构成：

所述分析设备从保存的多个数据流分别对应的条目中选择第二组目标条目，所述第二组目标条目包括记录的单位时刻属于所述第二历史时间段、源IP地址为第三终端的IP地址、且目的IP地址为第四终端的条目，以及记录的单位时刻属于所述第二历史时间段、目的IP地址为所述第四终端的IP地址、且源IP地址为所述第三终端的条目；

所述分析设备确定所述选择出的第二目标条目中记录的单位时刻对应的连接状态为有连接，并确定所述第二历史时间段内、除所述选择出的第二组目标条目中记录的单位时刻之外的单位时刻对应的连接状态为无连接，从而得到所述选择出的训练终端对在所述第二历史时间段内多个单位时刻分别对应的连接状态。
根据权利要求7所述的预测方法，其特征在于，在Q＝1的情况下，所述N个训练样本序列中正样本的数量与负样本的数量之间的比值大于等于0.5、且小于等于2，所述正样本是最后一个元素的取值指示的连接状态为有连接的训练样本序列，所述负样本中是最后一个元素的取值指示的连接状态为无连接的训练样本序列。
根据权利要求6或7所述的预测方法，其特征在于，还包括：

所述分析设备获取多条流统计信息，所述多条流统计信息中的每条流统计信息分别对应一个数据流，所述每条流统计信息中包括数据流的建立时间、关闭时间、源IP地址和目的IP地址；

所述分析设备根据预定的时间对齐规则，对所述每条流统计信息进行以所述单位时刻为基准的时间对齐处理，生成多个数据流分别对应的条目并保存所述多个数据流分别对应的条目，所述多个数据流分别对应的条目中每个数据流对应的条目记录有单位时刻、源IP地址和目的IP地址。
根据权利要求7-9任一所述的预测方法，其特征在于，所述第一终端、所述第二终端、所述第三终端和所述第四终端分别为虚拟机。
根据权利要求10所述的预测方法，其特征在于，所述虚拟机部署于由数据中心网络连接的数据中心中。
一种终端之间连接状态的预测装置，其特征在于，包括：

获取模块，用于获取测试终端对在第一历史时间段内多个单位时刻分别对应的连接状态，所述测试终端对由第一终端和第二终端构成，所述第一历史时间段是当前时间之前的时间段、且所述第一历史时间段内包括M个连续的单位时刻，其中M是大于等于2的自然数；

预测模块，用于根据所述测试终端对在所述第一历史时间段内多个单位时刻分别对应的连接状态，确定所述测试终端对在未来时间段内至少一个单位时刻分别对应的连接状态，所述未来时间段是当前时间之后的时间段、且所述未来时间段内包括Q个连续的单位时刻，所述未来时间段中的第一个单位时刻与所述第一历史时间段中最后一个单位时刻是连续的单位时刻，其中Q是大于等于1的自然数。
根据权利要求12所述的预测装置，其特征在于，所述预测模块包括模型测试单元和确定单元，其中，

所述模型测试单元，用于将所述测试终端对在所述第一历史时间段内多个单位时刻分别对应的连接状态，输入预测模型并获取所述预测模型的输出结果，所述预测模型是根据N个训练终端对在第二历史时间段内多个单位时刻分别对应的连接状态生成的，所述第二历史时间段是当前时间之前的时间段、且所述第二历史时间段中包括M+Q个连续的单位时刻，其中N为大于等于1的自然数；

所述确定单元，用于根据所述输出结果确定所述测试终端对在所述未来时间段内至少一个单位时刻分别对应的连接状态。
根据权利要求13所述的预测装置，其特征在于，

所述模型测试单元，用于根据所述测试终端对在所述第一历史时间段内多个单位时刻分别对应的连接状态，确定第一样本序列，所述第一样本序列中包括M个元素，所述M个元素中的每个元素的取值分别对应所述M个连续的单位时刻中每个单位时刻分别对应的连接状态；以及将所述第一样本序列输入预测模型并获取所述预测模型的输出结果，所述输出结果为预测序列，所述预测序列包括Q个元素，所述Q个元素中的每个元素的取值分别对应所述Q个连续的单位时刻中每个单位时刻分别对应的连接状态。
根据权利要求14所述的预测装置，其特征在于，所述预测模块包括还包括：

模型学习单元，用于在所述模型测试单元将所述第一样本序列输入预测模型之前，执行以下步骤：获得N个训练终端对在所述第二历史时间段内多个单位时刻分别对应的连接状态；针对所述N个训练终端对中的第一训练终端对在第二历史时间段内多个单位时刻分别对应的连接状态，生成第一训练终端对对应的训练样本序列，以此类推，从而得到N个训练样本序列，所述第一训练终端对对应的训练样本序列中包括M+Q个元素，所述M+Q个元素中的每个元素的取值分别对应所述第一训练终端对在所述M+Q个连续的单位时刻中每个单位时刻分别对应的连接状态；将所述N个训练样本序列作为机器学习算法的输入，获得所述机器学习算法输出的所述预测模型。
一种分析设备，其特征在于，包括存储器和与所述存储器连接的至少一个处理器，

所述存储器用于存储指令，所述指令被所述至少一个处理器读取后，所述分析设备执行以下操作：

获取测试终端对在第一历史时间段内多个单位时刻分别对应的连接状态，所述测试终端对由第一终端和第二终端构成，所述第一历史时间段是当前时间之前的时间段、且所述第一历史时间段内包括M个连续的单位时刻，其中M是大于等于2的自然数；根据所述测试终端对在所述第一历史时间段内多个单位时刻分别对应的连接状态，确定所述测试终端对在未来时间段内至少一个单位时刻分别对应的连接状态，所述未来时间段是当前时间之后的时间段、且所述未来时间段内包括Q个连续的单位时刻，所述未来时间段中的第一个单位时刻与所述第一历史时间段中最后一个单位时刻是连续的单位时刻，其中Q是大于等于1的自然数。