WO2016033969A1

WO2016033969A1 - 业务数据量和/或资源数据量的预测方法及预测系统

Info

Publication number: WO2016033969A1
Application number: PCT/CN2015/075995
Authority: WO
Inventors: 顾军; 马达; 张士蒙; 高晶宝
Original assignee: 中兴通讯股份有限公司
Priority date: 2014-09-02
Filing date: 2015-04-07
Publication date: 2016-03-10
Also published as: CN105472631A

Abstract

本发明实施例提供一种业务数据量和/或资源数据量的预测方法及预测系统、计算机存储介质；方法包括：构建业务数据量和/或资源数据量的原始数据集合；对原始数据集合进行降维预处理，得到预处理数据集合；先对预处理数据集合进行一次初始聚类处理，得到初始聚类数据集合，根据初始聚类数据集合，再对原始数据集合进行至少一次精确聚类处理，得到精确聚类数据集合；根据精确聚类数据集合，确定预测模型；根据预测模型，得到业务和/或资源的预期数据量。

Description

业务数据量和/或资源数据量的预测方法及预测系统

技术领域

本发明涉及移动通信领域的预测技术，尤其涉及一种业务数据量和/或资源数据量的预测方法及预测系统、计算机存储介质。

背景技术

随着长期演进(LTE，Long Term Evolution)网络的发展与4G业务的普及，数据业务的种类和流量都有了很大的提高，因此，对用户的群体行为分析也就愈加复杂。

以LTE为协议的通信系统所产生的用户行为数据与传统2G、3G完全不同，其包含了更多业务与资源的信息。在当前频谱带宽下，LTE协议能够提供更快的上下行峰值速率，因此数据业务的使用量大幅度增加，在无线侧与核心网侧产生的数据量以指数形式增长，因而传统的数据分析工具已经不再适用如此之大的数据量。

发明内容

本发明实施例提供了一种业务数据量和/或资源数据量的预测方法及预测系统、计算机存储介质，解决了现有数据分析方式无法适用于日益增长的业务和/或资源的数据量，导致无法对业务和/或资源的数据量进行分析及预测的问题。

本发明实施例提供了一种业务数据量和/或资源数据量的预测方法，包括：

构建业务数据量和/或资源数据量的原始数据集合；

对所述原始数据集合进行降维预处理，得到预处理数据集合；

先对所述预处理数据集合进行一次初始聚类处理，得到初始聚类数据集合，根据所述初始聚类数据集合，再对所述原始数据集合进行至少一次精确聚类处理，得到精确聚类数据集合；

根据所述精确聚类数据集合，确定预测模型；

根据所述预测模型，得到所述业务和/或资源的预期数据量。

优选地，构建业务数据量和/或资源数据量的原始数据集合包括：

确定待预测的业务和/或资源；

获取在至少一个历史时间段内，所述业务的消耗数据和/或资源的消耗数据，将所述业务的消耗数据作为所述业务数据量，将所述资源的消耗数据作为所述资源数据量；

根据所述业务的消耗数据和/或资源的消耗数据，构建原始数据集合。

优选地，通过主成分分析法，对所述原始数据集合进行降维预处理，得到预处理数据集合。

优选地，还包括：在对所述原始数据集合进行降维预处理，得到预处理数据集合之前，对所述原始数据集合进行归一化处理；和/或，

在对所述原始数据集合进行降维预处理，得到预处理数据集合之后，对所述预处理数据集合进行归一化处理。

优选地，先对所述预处理数据集合进行一次初始聚类处理，得到初始聚类数据集合，根据所述初始聚类数据集合，再对所述原始数据集合进行至少一次精确聚类处理，得到精确聚类数据集合包括：

根据初始聚类方法，先对所述预处理数据集合进行一次初始聚类处理，得到初始聚类数据集合；

根据所述初始聚类数据集合，计算初始聚类中心；

根据精确聚类方法、所述初始聚类中心，再对所述原始数据集合进行一次精确聚类处理，得到精确聚类数据集合。

优选地，根据所述精确聚类数据集合，确定预测模型包括：

在所述精确聚类数据集合中，确定基本项、待预测项；

根据所述基本项、待预测项，确定基本数据量、待预测数据量；

根据梯度下降法，对所述基本数据量、待预测数据量进行拟合，确定拟合函数，将所述拟合函数作为预测模型。

优选地，根据所述预测模型，得到所述业务和/或资源的预期数据量包括：

根据不同的基本项，选择不同的拟合函数；

根据所述选择的拟合函数，对所述业务数据量和/或资源数据量进行预测，得到所述业务和/或资源的预期数据量。

优选地，在根据所述预测模型，得到所述业务和/或资源的预期数据量之后，还包括：

根据所述预期数据量，对网络进行优化。

本发明实施例提供了一种业务数据量和/或资源数据量的预测系统，包括：

构建模块，配置为构建业务数据量和/或资源数据量的原始数据集合；

预处理模块，配置为对所述构建模块构建的原始数据集合进行降维预处理，得到预处理数据集合；

聚类模块，配置为先对所述预处理模块得到的预处理数据集合进行一次初始聚类处理，得到初始聚类数据集合，根据所述初始聚类数据集合，再对所述构建模块构建的原始数据集合进行至少一次精确聚类处理，得到精确聚类数据集合；

确定模块，配置为根据所述聚类模块得到的精确聚类数据集合，确定预测模型；

预测模块，配置为根据所述确定模块确定的预测模型，得到所述业务和/或资源的预期数据量。

优选地，还包括获取模块；

所述确定模块还配置为确定待预测的业务和/或资源；

所述获取模块，配置为获取在至少一个历史时间段内，所述确定模块确定的业务的消耗数据和/或资源的消耗数据，将所述业务的消耗数据作为所述业务数据量，将所述资源的消耗数据作为所述资源数据量；

所述构建模块还配置为根据所述获取模块获取的业务的消耗数据和/或资源的消耗数据，构建原始数据集合。

优选地，所述预处理模块还配置为在对所述构建模块构建的原始数据集合进行降维预处理，得到预处理数据集合之前，对所述原始数据集合进行归一化处理；和/或，

在对所述构建模块构建的原始数据集合进行降维预处理，得到预处理数据集合之后，对所述预处理数据集合进行归一化处理。

优选地，还包括计算模块，所述聚类模块包括初始聚类子模块、精确聚类子模块；

所述初始聚类子模块，配置为根据初始聚类方法，先对所述预处理模块得到的预处理数据集合进行一次初始聚类处理，得到初始聚类数据集合；

所述计算模块，配置为根据所述初始聚类子模块得到的初始聚类数据集合，计算初始聚类中心；

所述精确聚类子模块，配置为根据精确聚类方法、所述计算模块计算的初始聚类中心，再对所述构建模块构建的原始数据集合进行一次精确聚类处理，得到精确聚类数据集合。

优选地，所述确定模块还配置为在所述精确聚类子模块得到的精确聚类数据集合中，确定基本项、待预测项；根据所述基本项、待预测项，确定基本数据量、待预测数据量；

所述确定模块还配置为根据梯度下降法，对所述基本数据量、待预测数据量进行拟合，确定拟合函数，将所述拟合函数作为预测模型

优选地，还包括：

选择模块，配置为根据不同的基本项，选择不同的拟合函数；

所述预测模块还配置为根据所述选择模块选择的拟合函数，对所述业务数据量和/或资源数据量进行预测，得到所述业务和/或资源的预期数据量。

本发明实施例提供了一种计算机存储介质，所述计算机存储介质中存储有可执行指令，所述可执行指令用于执行上述的业务数据量和/或资源数据量的预测方法。

本发明实施例的有益效果：

本发明实施例提供一种业务数据量和/或资源数据量的预测方法及预测系统、计算机存储介质，对原始数据进行预处理后进行聚类处理，实现对用户、业务与资源的多维度预测，从而对LTE网络资源的优化提供参考。通过聚类处理，将初始聚类的结果作为精确聚类的初始条件，使聚类结果分布更加科学准确，也更符合不同维度数据资源之间的关联关系。多数情况下，本发明中的预测模型的预测效果优于原始数据直接拟合的预测效果，预测误差减小10％以上，某些资源可以达到25％。此外，本发明通过少量数据能够体现出所有原始数据的整体特点及效果，节省了数据资源分析成本，为数据分析减小算法复杂度，预测结果可为LTE网络的资源规划提供参考。本发明更适用于对LTE网络的预测，即LTE数据的相关算法，实现对信道资源的预测以及对用户的群体行为的分析。

附图说明

图1为本发明实施例一提供的业务数据量和/或资源数据量的预测方法的流程图；

图2为本发明实施例一提供的K-means算法的流程图；

图3为本发明实施例二提供的业务数据量和/或资源数据量的预测系统的结构示意图；

图4为本发明实施例三提供的业务数据量和/或资源数据量的预测方法的流程图；

图5为本发明实施例三提供的从样本数据中选取的部分数据集合；

图6为本发明实施例三提供的通过聚类处理后得到的聚类数据集合；

图7为本发明实施例三提供的聚类预测效果与样本数据直接预测效果对比图；

图8为本发明实施例三提供的聚类结果的预测效果评估参数；

图9为本发明实施例三提供的对信道利用率的MAPE预测效果柱状图；

图10为本发明实施例三提供的算法复杂度对比图；

图11为本发明实施例四提供的业务数据量和/或资源数据量的预测方法的流程图；

图12为本发明实施例四提供的从样本数据中选取的部分数据集合；

图13为本发明实施例四提供的通过聚类处理后得到的聚类数据集合；

图14为本发明实施例四提供的聚类预测效果与样本数据直接预测效果对比图；

图15为本发明实施例四提供的聚类结果的预测效果评估参数；

图16为本发明实施例四提供的对信道利用率的MAPE预测效果柱状图；

图17为本发明实施例四提供的算法复杂度对比图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例只是本发明中一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面通过具体实施方式结合附图对本发明作进一步详细说明。

实施例一：

如图1为本发明实施例一提供的业务数据量和/或资源数据量的预测方法的流程图，如图1所示，该业务数据量和/或资源数据量的预测方法包括：

S101：构建业务数据量和/或资源数据量的原始数据集合；

例如，随着LTE网络的发展，业务数据量与资源数据量大幅度增长，需要通过对以指数形式增长的数据量进行分析，预测各个地区LTE网络的运营情况，从而进一步完成对LTE网络的优化。

在本实施例中，为了对LTE网络的运营情况进行预测，需要构建业务数据量和/或资源数据量的原始数据集合，其构建方式包括以下方式：

方式一、根据实际预测需求，确定待预测的业务，当确定完成后，获取在至少一个历史时间段内，该待预测的业务的消耗数据，其获取方式包括通过网络设备等获取LTE网络基站中的消耗数据，将该消耗数据作为业务数据量，根据该消耗数据，构建原始数据集合；

方式二、根据实际预测需求，确定待预测的资源，当确定完成后，获取在至少一个历史时间段内，该待预测的资源的消耗数据，其获取方式包括通过网络设备等获取LTE网络基站中的消耗数据，将该消耗数据作为资源数据量，根据该消耗数据，构建原始数据集合；

方式三、根据实际预测需求，确定待预测的业务和资源，当确定完成后，获取在至少一个历史时间段内，该待预测的业务的消耗数据与资源的消耗数据，其获取方式包括通过网络设备等获取LTE网络基站中的消耗数据，将业务的消耗数据作为业务数据量，将资源的消耗数据作为资源数据量，根据该消耗数据，构建原始数据集合。

通过上述几种方式，该原始数据集合包括在至少一个历史时间段内，根据待预测的业务和/或资源获取的消耗数据，若确定的待预测的业务和/或资源的数目为m个，历史时间段的数目为N个，则该原始数据集合为一个N*m的矩阵，其中，m、N均为正整数。

在上述技术方案中，对于上述至少一个历史时间段，优选地，每个历史时间段的颗粒度均相同，如颗粒度为1小时，即每个历史时间段的时长均为1小时，此外，该历史时间段可以根据实际需求进行选择，例如，每一周同一天内的多个历史时间段，连续一周每一天内的多个历史时间段，或者，连续三周每一天上午8点至晚上8点内的多个历史时间段等。

S102：对原始数据集合进行降维预处理，得到预处理数据集合；

例如，当构建业务数据量和/或资源数据量的原始数据集合后，对该原始数据集合进行降维预处理，得到预处理数据集合。

在本实施例中，通过主成分分析法，对原始数据集合进行降维预处理，得到预处理数据集合，该主成分分析法主要是利用降维的思想，将多个变量转化为少数几个综合变量，即主成分，其中每个主成分都是原始变量的线性组合，各主成分之间互不相关，因而这些主成分能够体现出原始变量的绝大部分特征信息，且所含的信息互不重叠。

针对上述方案记载的，若确定的待预测的业务和/或资源的数目为m个，则采用这m个变量来描述研究对象，分别用Z1，Z2，…，Zm来表示，这m个变量构成的m维随机向量为Z＝(Z1，Z2，…，Zm)t，设随机向量Z的均值为μ，协方差矩阵为Σ，对随机向量Z进行如下式(1.1)所示的线性变化，考虑原始变量的线性组合，即可得到主成分是不相关的线性组合Y1，Y2，…，Yk，其中，m、k均为正整数，且k＜m。

式(1.1)

在式(1.1)中，均值μ为随机向量Z的协方差矩阵Σ的特征值所对应的特征向量，Y1(x)，Y2(x)，…，Yk(x)是原始变量经过线性组合后的主成分。通过主成分分析法后，得到预处理数据集合，该预处理数据集合为一个N*k的矩阵，即将m维的原始数据集合变为k维的预处理数据集合，通过k维的综合变量体现出m维的原始变量的特征信息，其中，k、N均为正整数。

在本实施例中，为了简化计算，且使预测结果更为准确，在对原始数据集合进行降维预处理，得到预处理数据集合之前，对该原始数据集合中的每一个消耗数据进行归一化处理，其归一化公式如下式(1.2)所示：

式(1.2)

其中，x表示原始数据集合中某一业务或资源在一个历史时间段内的具体的消耗数据量，

表示该业务或资源在一个历史时间段内的平均值，N表示历史时间段的数目，Z(x)表示归一化后的消耗数据，通过归一化处理后，原始数据集合仍然为一个N*m的矩阵，其中，m、N均为正整数；

和/或，

在对原始数据集合进行降维预处理，得到预处理数据集合之后，还对预处理数据集合中的数据进行归一化处理，其归一化公式如下式(1.3)所示：

式(1.3)

其中，Y(x)表示预处理数据集合中的数据，minY(x)、maxY(x)分别表示预处理数据集合中所有数据的最小值、最大值，Z(x)表示归一化后的数据。

S103：先对预处理数据集合进行一次初始聚类处理，得到初始聚类数据集合，根据初始聚类数据集合，再对原始数据集合进行至少一次精确聚类处理，得到精确聚类数据集合；

例如，当得到预处理数据集合后，即可先对预处理数据集合进行一次初始聚类处理，得到初始聚类数据集合，根据该初始聚类数据集合，对原始数据集合进行至少一次精确聚类处理，得到精确聚类数据集合。

在上述技术方案中，初始聚类处理的目的是为了对数据进行初步分析，并为至少一次精确聚类处理提供初始精确聚类条件，使精确聚类处理的结果更加科学及准确，例如，在初始聚类处理中，将预处理后的原始数据集合进行第一次聚类，计算第一次聚类后每一类数据的平均值，将该平均值作为至少一次精确聚类处理的初始聚类中心，根据该初始聚类中心，对原始数据进行至少一次精确聚类处理，从而对原始数据进行精确聚类。

在本实施例中，以一次初始聚类处理、一次精确聚类处理为例进行说明，根据初始聚类方法，对预处理数据集合进行一次初始聚类处理，该预处理数据集合可以为进行归一化处理后的预处理数据集合，也可以为不进行归一化处理的预处理数据集合，得到初始聚类数据集合。

对于该初始聚类方法，只要可以对数据进行快速、简单、粗略地聚类，并得到聚类中心，任何算法均可，其包括Canopy算法，该Canopy算法是一种简单、快速、但不太准确的聚类方法，因此可作为辅助算法。该Canopy算法的算法原理为每个对象通过多维特征空间里的一个点表示，采用一个快速近似距离度量和两个距离阈值T1>T2(T1＞0、T2＞0)来对数据进行聚类处理，其算法流程为：

(1)将数据集向量化，得到一个数据点集后放入内存，选择两个距离阈值T1和T2，其中T1>T2，T1和T2的值可以用交叉校验来确定；

(2)从数据点集中任取一点P，用低计算成本方法快速计算点P与所有Canopy(这里的Canopy只聚类过程中的一个类)之间的距离(如果当前不存在Canopy，则把点P作为一个Canopy)，如果点P与某个Canopy距离在T1以内，则将点P加入到这个Canopy；

(3)如果点P曾经与某个Canopy的距离在T2以内，则需要把点P从数据点集中删除，这一步是认为点P此时与这个Canopy已经够近了，因此它不可以再做其它Canopy的中心了；

(4)重复步骤(2)、(3)，直到数据点集为空结束。

当通过一次初始聚类方法，得到初始聚类数据集合时，则计算该初始聚类数据集合中每一类数据的平均值，将该平均值作为精确聚类处理的初始聚类中心。

根据精确聚类方法、初始聚类中心，对原始数据集合进行一次精确聚类处理，得到精确聚类数据集合。对于该精确聚类方法，只需要能够对数据进行精确聚类，任何算法均可，其包括K-means算法，如图2为本发明实施例一提供的K-means算法的流程图，该K-means算法是硬聚类算法，是典型的基于原型的目标函数聚类方法的代表，它是数据点到原型的某种距离作为优化的目标函数，利用函数求极值的方法得到迭代运算的调整规则。K-means算法以欧式距离作为相似度测度，它是求对应某一初始聚类中心的最优分类，使得评价指标最小。该K-means算法的算法原理是典型的基于距离的聚类算法，采用距离作为相似性的评价指标，即认为两个对象的距离越近，其相似度就越大，该距离。K-means算法认为簇是由距离靠近的对象组成的，因此把得到紧凑且独立的簇作为最终目标。通过的很多次迭代，以及每次迭代对中心点的修正，最终达到收敛，实现数据的聚合分类。需要说明的是，经过了K-means算法聚类后，分析聚类结果，若某一维变量变化极小(变化范围不超过5％)，则说明这一维变量在聚类结果中没有很大意义，应当删除这一维变量。

通过上述一次初始聚类处理、一次精确聚类处理后，得到精确聚类数据集合，若该精确聚类数据集合将原始数据集合中的m个业务和/或资源分为h类，则该精确聚类数据集合为一个h*m的矩阵，其中，h、m均为正整数，且h＜＜N。

S104：根据精确聚类数据集合，确定预测模型；

例如，当得到精确聚类数据集合后，即可确定预测模型。

在本实施例中，在精确聚类数据集合中，确定基本项、待预测项，根据该基本项、待预测项，确定基本数据量、待预测数据量，根据梯度下降法，对基本数据量、待预测数据量进行拟合，确定拟合函数，将该拟合函数作为预测模型。需要说明的是，该预测模型可以为单维预测模型，即所确定的基本项有一项，也可以为多维预测模型，即所确定的基本项至少有两项。

在上述技术方案中，该基本项为业务或资源，该基本数据量为精确聚类集合中该业务或资源在所有类中的聚类中心，该待预测项为业务或资源，该待预测数据量为精确聚类集合中该业务或资源在所有类中的聚类中心，该拟合函数的确定情况包括：

情况一、若针对业务构建原始数据集合，则精确聚类数据集合同样针对业务，此时，基本项、待预测项均为业务，即基本项为基本业务，待预测项为待预测业务，根据基本业务，确定该基本业务在所有类中的聚类中心，根据待预测业务，确定该待预测业务在所有类中的聚类中心，根据梯度下降法，对这两个聚类中心进行拟合，确定拟合函数，将该拟合函数作为预测模型；

情况二、若针对资源构建原始数据集合，则精确聚类数据集合同样针对资源，此时，基本项、待预测项均为资源，即基本项为基本资源，待预测项为待预测资源，根据基本资源，确定该基本资源在所有类中的聚类中心，根据待预测资源，确定该待预测资源在所有类中的聚类中心，根据梯度下降法，对这两个聚类中心进行拟合，确定拟合函数，将该拟合函数作为预测模型；

情况三、若针对业务和资源构建原始数据集合，则精确聚类数据集合同样针对业务和资源，此时，基本项既可以为业务、也可以为资源，待预测项既可以为业务、也可以为资源，即当基本项为基本业务时，待预测项可以为待预测业务，也可以为待预测资源，当基本项为基本资源时，待预测项可以为待预测业务，也可以为待预测资源，根据基本业务或基本资源，确定该基本业务或基本资源在所有类中的聚类中心，根据待预测业务或待预测资源，确定该待预测业务或待预测资源在所有类中的聚类中心，根据梯度下降法，对这两个聚类中心进行拟合，确定拟合函数，将该拟合函数作为预测模型。

在上述技术方案中，针对同一个待预测项而言，选择的基本项不同，其确定的拟合函数也不同，可根据不同拟合函数的预测评估参数，选择最合适的拟合函数，即选择的拟合函数的预测评估参数越小，则其预测结果越好，若某一拟合函数的预测评估参数最小，那么该拟合函数中的基本项即为最佳基本项，通过该拟合函数，其预测结果更为准确。

S105：根据预测模型，得到业务和/或资源的预期数据量。

例如，当预测模型确定完成后，即可根据该预测模型，得到所需预测时间段内的业务和/或资源的预期数据量。

在本实施例中，根据不同的基本项，选择不同的拟合函数，根据所选择的拟合函数，对业务数据量和/或资源数据量进行预测，得到所需预测时间段内业务和/或资源的预期数据量。

在本实施例中，当根据预测模型，得到业务和/或资源的预期数据量之后，还可以根据该预期数据量，为网络进行规划、优化、扩容等提供一定指导，从而提高网络对日益丰富的数据业务的承载能力。

通过对原始数据进行预处理后进行聚类处理，将初始聚类的结果作为精确聚类的初始条件，使聚类结果分布更加科学准确，也更符合不同维度数据资源之间的关联关系。多数情况下，本发明中的预测模型的预测效果优于原始数据直接拟合的预测效果，预测误差减小10％以上，某些资源可以达到25％。此外，本发明通过少量数据能够体现出所有原始数据的整体特点及效果，节省了数据资源分析成本，为数据分析减小算法复杂度，预测结果可为LTE网络的资源规划提供参考。

实施例二：

如图3为本发明实施例二提供的业务数据量和/或资源数据量的预测系统的结构示意图，如图3所示，该预测系统包括构建模块1、预处理模块2、聚类模块3、确定模块4以及预测模块5，构建模块1配置为构建业务数据量和/或资源数据量的原始数据集合，预处理模块2配置为对构建模块1构建的原始数据集合进行降维预处理，得到预处理数据集合，聚类模块3配置为先对预处理模块2得到的预处理数据集合进行一次初始聚类处理，得到初始聚类数据集合，根据初始聚类数据集合，再对构建模块1构建的原始数据集合进行至少一次精确聚类处理，得到精确聚类数据集合，确定模块4配置为根据聚类模块3得到的精确聚类数据集合，确定预测模型，预测模块5配置为根据确定模块4确定的预测模型，得到业务和/或资源的预期数据量。

在上述技术方案中，还包括获取模块6，确定模块4还配置为确定待预测的业务和/或资源，获取模块6配置为获取在至少一个历史时间段内，确定模块4确定的业务的消耗数据和/或资源的消耗数据，将业务的消耗数据作为业务数据量，将资源的消耗数据作为资源数据量，构建模块1还配置为根据获取模块6获取的业务的消耗数据和/或资源的消耗数据，构建原始数据集合。

在上述技术方案中，预处理模块2通过主成分分析法，对原始数据集合进行降维预处理，得到预处理数据集合。

在上述技术方案中，预处理模块3还配置为在对构建模块1构建的原始数据集合进行降维预处理，得到预处理数据集合之前，对原始数据集合进行归一化处理，和/或，在对构建模块1构建的原始数据集合进行降维预处理，得到预处理数据集合之后，对预处理数据集合进行归一化处理。

在上述技术方案中，还包括计算模块7，聚类模块3包括初始聚类子模块31、精确聚类子模块32，初始聚类子模块31配置为根据初始聚类方法，先对预处理模块2得到的预处理数据集合进行一次初始聚类处理，得到初始聚类数据集合，计算模块7配置为根据初始聚类子模块31得到的初始聚类数据集合，计算初始聚类中心，精确聚类子模块32，配置为根据精确聚类方法、计算模块7计算的初始聚类中心，再对构建模块1构建的原始数据集合进行一次精确聚类处理，得到精确聚类数据集合。

在上述技术方案中，确定模块4还配置为在精确聚类子模块32得到的精确聚类数据集合中，确定基本项、待预测项，还配置为根据基本项、待预测项，确定基本数据量、待预测数据量，确定模块4具体配置为根据梯度下降法，对基本数据量、待预测数据量进行拟合，确定拟合函数，将拟合函数作为预测模型。

在上述技术方案中，还包括选择模块8，选择模块8配置为根据不同的基本项，选择不同的拟合函数，预测模块9还配置为根据选择模块8选择的拟合函数，对业务数据量和/或资源数据量进行预测，得到业务和/或资源的预期数据量。

在上述技术方案中，还包括优化模块9，当预测模块8根据预测模型，得到业务和/或资源的预期数据量之后，优化模块9根据该预期数据量，对网络进行优化，如对LTE网络业务和/或资源进行调整等。

实施例三：

如图4为本发明实施例三提供的业务数据量和/或资源数据量的预测方法的流程图，如图4所示，该业务数据量和/或资源数据量的预测方法包括：

S201：根据每周同一天内多个不同时间段所产生的业务与资源数据量，构建原始数据集合；

例如，本实施例中通过网络设备采集LTE网络基站内业务与资源的数据量，经过初步筛选后，涉及预测的业务与资源有无线资源控制(RRC，Radio Resource Control)连接用户数、上下行平均流量、成功呼入呼出次数、上下行共享信道利用率、下行控制信道利用率等，其中，RRC连接用户数有最大活跃用户数和平均活跃用户数。

该数据为来源于LTE现网中某个地区的用户、资源、业务三维数据，其时间颗粒度为一小时，即时间段的时长为一小时，样本数据采集时间为两个相邻周一，具体来说，是将相邻两周的周一的N条数据挑选出来，每一条数据代表一个基站在一个小时内的业务与资源消耗数据量，筛选出需要分析的m列业务与资源，m就是所要预测的业务与资源的数目，构建原始数据集合P，P是N*m的矩阵；

其中，N、m都是自然数，x_N,m表示某一业务与资源在某一小时中具体消耗的数据量。如图5为本发明实施例三提供的从样本数据中选取的部分数据集合，如图5所示，图5中每一行数据代表该地区一个基站一小时的业务与资源使用情况，每一列表示该业务或资源在一小时中具体消耗的数据量，其研究的对象为九种业务与资源。

S202：对该原始数据集合进行预处理；

例如，将上述原始数据集合P中的数据量进行归一化处理，其归一化公式如下式(2.1)所示：

式(2.1)

其中，x是原始数据集合P中某个业务或资源在一小时内消耗的具体数值，

是该业务或资源一小时消耗的数据的平均值，N是多个时间段的数目，Z(x)表示归一化后的消耗数据，通过归一化处理后，原始数据集合仍然为一个N*m的矩阵，其中，m、N均为正整数。

当完成归一化处理之后，将上述归一化后的原始数据集合P中的m维业务与资源进行降维处理，具体方法可用主成分分析法，经过降维后，得到预处理数据集合Q，Q是N*k的矩阵，k<m。

其中，N、k都是自然数，y_N,k表示降维后的数据。预处理数据集合Q中的每一个数据是通过归一化后的原始数据集合P经过主成分分析得到的，以转换后的第一列为例，其转换公式如下式(2.2)所示：

Q(i,1)＝P₁(i,1)*0.338+P₁(i,2)*0.333+P₁(i,3)*0.340+P₁(i,4)*0.329+P₁(i,5)*0.176+P₁(i,6)*0.326+P₁(i,7)*0.319+P₁(i,8)*0.317+P₁(i,9)*0.320 式(2.2)

S203：对预处理后的数据集合、原始数据集合进行两次聚类处理，得到聚类数据集合；

例如，对预处理数据集合Q中的每一个数据进行归一化处理，其归一化公式如下式(2.3)所示：

式(2.3)

其中，Y(x)表示预处理数据集合Q中的数据，minY(x)、maxY(x)分别表示预处理数据集合中所有数据的最小值、最大值，Z(x)表示归一化后的数据。

当完成归一化处理之后，将归一化后的预处理数据集合划分为h类，使用聚类算法对归一化后的预处理数据集合进行处理，该聚类算法是对业务与资源数据先经过一次Canopy聚类，将Canopy聚类的结果作为第二次K-means聚类的初始聚类中心，完成对数据的聚类处理后，得到聚类数据集合Q1，Q1为一个h*m的矩阵，这里的h<<N。如图6为本发明实施例三提供的通过聚类处理后得到的聚类数据集合，如图6所示，在图6中，h为11，即表示11类结果，每一行数据表示聚类后每一类中业务或资源的聚类中心，也就是这一类中所包含的业务与资源数据的平均值。

S204：根据聚类数据集合，确定拟合函数；

例如，在Q1中选取基本项及其数据量、待预测项及其数据量，采用梯度下降法拟合，对选取的两项数据量进行曲线拟合，拟合结果为函数y＝f(x_n),n∈[1,8]，其中，y是待预测项，x_n是基本项，基本项x_n是用来预测待预测项y的业务或资源，根据不同的基本项，其拟合函数也不同。例如选取平均RRC连接用户数为基本项，选取下行平均流量为待预测项，则拟合函数为y_下行＝f(x₁)，y是下行平均流量，x₁是平均RRC连接用户数。

S205：根据所需预测的时间段，预测业务与资源数据量。

例如，根据得到的拟合函数，即可预测所需时间段内，业务与资源数据量，如未来某一周周一内业务与资源的预期数据量。

通过上述预测方法，根据前一周某一天的业务与资源变化情况以及一个相关业务与资源变化情况，预测需要预测的业务与资源的消耗趋势。

对于本实施例的效果，进一步说明如下：

对于不同的基本项x_n，对函数y＝f(x_n),n∈[1,8]计算预测评估参数，该预测评估参数包括MSE(Mean Squared Error，均方误差)，MAPE(Mean Absolute Percentage Error，平均百分比绝对误差)，ME(mean error，平均误差)。预测评估参数数值越小，预测结果越好，根据预测评估参数选取最佳基本项，在本实施例中，下行平均流量的最佳基本项是平均RRC连接用户数，则拟合函数y_下行＝f(x₁)就是预测结果。MSE、MAPE以及ME的计算公式如下式(2.4)、(2.5)、(2.6)所示：

式(2.4)

式(2.5)

式(2.6)

如图7为本发明实施例三提供的聚类预测效果与样本数据直接预测效果对比图，如图7所示，单维预测时，基本项是最大RRC连接用户数，待预测项是平均RRC连接用户数时，图7中的散点是样本数据的散点图，深色曲线是聚类分析后拟合的函数，浅色曲线是样本数据直接拟合的函数。多维联合预测时可根据需要预测的参数来选择设置，这里以单维预测为例。

为了使聚类结果更加直观，如图8为本发明实施例三提供的聚类结果的预测效果评估参数，如图8所示，图8中每一行就是对应某一业务与资源的一种评估参数的值，每一列表示一种待预测项的预测评估参数。

为了便于观察，如图9为本发明实施例三提供的对信道利用率的MAPE预测效果柱状图，如图9所示，PDCCH-UTI是下行控制信道利用率，PDSCH-UTI是下行共享信道利用率，MAPE为误差衡量参数，其数值越高，表示预测越不准确，从图中可以看出，聚类预测的效果要好于数据直接预测的效果。

同时，为了展示算法对数据处理方面的优化，这里给出了算法复杂度以10为底取对数的结果柱状图，如图10为本发明实施例三提供的算法复杂度对比图，如图10所示，聚类拟合中采用的拟合方式是梯度下降法，单维预测时，算法复杂度为N*k*a，N是样本数据条数，k是研究的业务与资源类别的数目，a是梯度下降法的迭代计算次数。多维预测时，复杂度为NW*K，W是多维预测的基本项数目。从图10中可以看出，在算法复杂度方面，聚类算法处理后的计算要明显优于数据直接处理，在联合预测中，输入预测维数越多，复杂度优化越明显，这对于未来的LTE大数据研究具有十分重大的意义。

实施例四：

如图11为本发明实施例四提供的业务数据量和/或资源数据量的预测方法的流程图，如图11所示，该业务数据量和/或资源数据量的预测方法包括：

S301：根据每周同一天内多个不同时间段所产生的业务与资源数据量，构建原始数据集合；

例如，经过初步筛选后，涉及预测的业务与资源有平均用户数，前向控制信道均值，前项业务信道均值，反向接入信道均值，上下行流量，反向CE占用均值等。该数据来源是3G现网中某个地区的用户、资源、业务三维数据，其时间颗粒度为一小时，即时间段的时长为一小时，样本数据采集时间为2012年7月2日，对比数据采集时间为2012年7月9日。具体来说，是将2012年7月2日内的N条数据挑选出来，每一条数据代表一个基站在一个小时内的业务与资源消耗数据量，筛选出需要分析的m列业务与资源，m就是所要预测的业务与资源的数目，构建原始数据集合P，P是N*m的矩阵；

其中，N、m都是自然数，x_N,m表示某一业务与资源在某一小时中具体消耗的数据量。如图12为本发明实施例四提供的从样本数据中选取的部分数据集合，如图12所示，图12中每一行数据代表该地区一个基站一小时的业务与资源使用情况，每一列表示该类业务或资源在一小时中具体消耗的数值，其研究的对象为七种业务与资源。

S302：对该原始数据集合进行预处理；

例如，将上述原始数据集合P中的数据量进行归一化处理，其归一化公式如下式(3.1)所示：

式(2.1)

其中，N、k都是自然数，y_N,k表示降维后的数据。预处理数据集合Q中的每一个数据是通过归一化后的原始数据集合P经过主成分分析得到的，以转换后的第一列为例，其转换公式如下式(3.2)所示：

Q(i,1)＝P₁(i,1)*0.338+P₁(i,2)*0.333+P₁(i,3)*0.340+P₁(i,4)*0.329+P₁(i,5)*0.176+P₁(i,6)*0.326+P₁(i,7)*0.319 式(3.2)

S303：对预处理后的数据集合、原始数据集合进行两次聚类处理，得到聚类数据集合；

例如，对预处理数据集合Q中的每一个数据进行归一化处理，其归一化公式如下式(3.3)所示：

式(3.3)

当完成归一化处理之后，将归一化后的预处理数据集合划分为h类，使用聚类算法对归一化后的预处理数据集合进行处理，该聚类算法是对业务与资源数据先经过一次Canopy聚类，将Canopy聚类的结果作为第二次K-means聚类的初始聚类中心，完成对数据的聚类处理后，得到聚类数据集合Q1，Q1为一个h*m的矩阵，这里的h<<N。如图13为本发明实施例四提供的通过聚类处理后得到的聚类数据集合，如图13所示，在图13中，h为10，即表示10类结果，每一行数据表示聚类后每一类中业务或资源的聚类中心，也就是这一类中所包含的业务与资源数据的平均值。

S204：根据聚类数据集合，确定拟合函数；

例如，在Q1中选取基本项及其数据量、待预测项及其数据量，采用梯度下降法拟合，对选取的两项数据量进行曲线拟合，拟合结果为函数y＝f(x_n),n∈[1,6]，其中，y是待预测项，x_n是基本项，基本项x_n是用来预测待预测项y的业务或资源，根据不同的基本项，其拟合函数也不同。例如选取平均用户数为基本项，选取反向CE占用均值为待预测项，则拟合函数为y_反向CE＝f(x₁)，y是反向CE占用均值，x₁是平均用户数。

S205：根据所需预测的时间段，预测业务与资源数据量。

对于本实施例的效果，进一步说明如下：

对于不同的基本项x_n，对函数y＝f(x_n),n∈[1,6]计算预测评估参数，该预测评估参数包括MSE(Mean Squared Error，均方误差)，MAPE(Mean Absolute Percentage Error，平均百分比绝对误差)，ME(mean error，平均误差)。预测评估参数数值越小，预测结果越好，根据预测评估参数选取最佳基本项，在本实施例中，反向CE占用均值的最佳基本项是平均用户数，则拟合函数y_反向CE＝f(x₁)就是预测结果。MSE、MAPE以及ME的计算公式如下式(3.4)、(3.5)、(3.6)所示：

式(3.4)

式(3.5)

式(3.6)

如图14为本发明实施例四提供的聚类预测效果与样本数据直接预测效果对比图，如图14所示，单维预测时，基本项是平均用户数，待预测项是反向CE占用均值时，图14中的散点是样本数据的散点图，深色曲线是聚类分析后拟合的函数，浅色曲线是样本数据直接拟合的函数。多维联合预测时可根据需要预测的参数来选择设置，这里以单维预测为例。

为了使聚类结果更加直观，如图15为本发明实施例四提供的聚类结果的预测效果评估参数，如图15所示，图15中每一行就是对应某一业务与资源的一种评估参数的值，每一列表示一种待预测项的预测评估参数。

为了便于观察，如图16为本发明实施例四提供的对信道利用率的MAPE预测效果柱状图，如图16所示，MAPE为误差衡量参数，其数值越高，表示预测越不准确，从图中可以看出，聚类预测的效果要好于数据直接预测的效果。

同时，为了展示算法对数据处理方面的优化，这里给出了算法复杂度以10为底取对数的结果柱状图，如图17为本发明实施例四提供的算法复杂度对比图，如图17所示，聚类拟合中采用的拟合方式是梯度下降法，单维预测时，算法复杂度为N*k*a，N是样本数据条数，k是研究的业务与资源类别的数目，a是梯度下降法的迭代计算次数。多维预测时，复杂度为NW*K，W是多维预测的基本项数目。从图17中可以看出，在算法复杂度方面，聚类算法处理后的计算要明显优于数据直接处理，在联合预测中，输入预测维数越多，复杂度优化越明显，这对于未来的LTE大数据研究具有十分重大的意义。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

Claims

一种业务数据量和/或资源数据量的预测方法，包括：

构建业务数据量和/或资源数据量的原始数据集合；

对所述原始数据集合进行降维预处理，得到预处理数据集合；

对所述预处理数据集合进行一次初始聚类处理，得到初始聚类数据集合，根据所述初始聚类数据集合，对所述原始数据集合进行至少一次精确聚类处理，得到精确聚类数据集合；

根据所述精确聚类数据集合，确定预测模型；

根据所述预测模型，得到所述业务和/或资源的预期数据量。
根据权利要求1所述的业务数据量和/或资源数据量的预测方法，其中，所述构建业务数据量和/或资源数据量的原始数据集合，包括：

确定待预测的业务和/或资源；

获取在至少一个历史时间段内，所述业务的消耗数据和/或资源的消耗数据，将所述业务的消耗数据作为所述业务数据量，将所述资源的消耗数据作为所述资源数据量；

根据所述业务的消耗数据和/或资源的消耗数据，构建原始数据集合。
根据权利要求1所述的业务数据量和/或资源数据量的预测方法，其中，所述对所述预处理数据集合进行一次初始聚类处理，包括：

通过主成分分析法，对所述原始数据集合进行降维预处理，得到预处理数据集合。
根据权利要求1所述的业务数据量和/或资源数据量的预测方法，其中，还包括：

在对所述原始数据集合进行降维预处理，得到预处理数据集合之前，对所述原始数据集合进行归一化处理；和/或，

在对所述原始数据集合进行降维预处理，得到预处理数据集合之后，对所述预处理数据集合进行归一化处理。
根据权利要求1-4任一项所述的业务数据量和/或资源数据量的预测方法，其中，所述对所述预处理数据集合进行一次初始聚类处理，得到初始聚类数据集合，根据所述初始聚类数据集合，对所述原始数据集合进行至少一次精确聚类处理，得到精确聚类数据集合包括：

根据初始聚类方法，对所述预处理数据集合进行一次初始聚类处理，得到初始聚类数据集合；

根据所述初始聚类数据集合，计算初始聚类中心；

根据精确聚类方法、所述初始聚类中心，对所述原始数据集合进行一次精确聚类处理，得到精确聚类数据集合。
根据权利要求5所述的业务数据量和/或资源数据量的预测方法，其中，所述根据所述精确聚类数据集合，确定预测模型包括：

在所述精确聚类数据集合中，确定基本项、待预测项；

根据所述基本项、待预测项，确定基本数据量、待预测数据量；

根据梯度下降法，对所述基本数据量、待预测数据量进行拟合，确定拟合函数，将所述拟合函数作为预测模型。
根据权利要求6所述的业务数据量和/或资源数据量的预测方法，其中，所述根据所述预测模型，得到所述业务和/或资源的预期数据量包括：

根据不同的基本项，选择不同的拟合函数；

根据所述选择的拟合函数，对所述业务数据量和/或资源数据量进行预测，得到所述业务和/或资源的预期数据量。
根据权利要求1-3任一项所述的业务数据量和/或资源数据量的预测方法，其中，在根据所述预测模型，得到所述业务和/或资源的预期数据量之后，还包括：

根据所述预期数据量，对网络进行优化。
一种业务数据量和/或资源数据量的预测系统，包括：

构建模块，配置为构建业务数据量和/或资源数据量的原始数据集合；

预处理模块，配置为对所述构建模块构建的原始数据集合进行降维预处理，得到预处理数据集合；

聚类模块，配置为对所述预处理模块得到的预处理数据集合进行一次初始聚类处理，得到初始聚类数据集合，根据所述初始聚类数据集合，再对所述构建模块构建的原始数据集合进行至少一次精确聚类处理，得到精确聚类数据集合；

确定模块，配置为根据所述聚类模块得到的精确聚类数据集合，确定预测模型；

预测模块，配置为根据所述确定模块确定的预测模型，得到所述业务和/或资源的预期数据量。
根据权利要求9所述的业务数据量和/或资源数据量的预测系统，其中，还包括获取模块；

所述确定模块还配置为确定待预测的业务和/或资源；

所述获取模块，配置为获取在至少一个历史时间段内，所述确定模块确定的业务的消耗数据和/或资源的消耗数据，将所述业务的消耗数据作为所述业务数据量，将所述资源的消耗数据作为所述资源数据量；

所述构建模块还配置为根据所述获取模块获取的业务的消耗数据和/或资源的消耗数据，构建原始数据集合。
根据权利要求9所述的业务数据量和/或资源数据量的预测系统，其中，

所述预处理模块还配置为在对所述构建模块构建的原始数据集合进行降维预处理，得到预处理数据集合之前，对所述原始数据集合进行归一化处理；和/或，

在对所述构建模块构建的原始数据集合进行降维预处理，得到预处理数据集合之后，对所述预处理数据集合进行归一化处理。
根据权利要求9-11任一项所述的业务数据量和/或资源数据量的预测系统，其中，还包括计算模块，所述聚类模块包括初始聚类子模块、精确聚类子模块；

所述初始聚类子模块，配置为根据初始聚类方法，对所述预处理模块得到的预处理数据集合进行一次初始聚类处理，得到初始聚类数据集合；

所述计算模块，配置为根据所述初始聚类子模块得到的初始聚类数据集合，计算初始聚类中心；

所述精确聚类子模块，配置为根据精确聚类方法、所述计算模块计算的初始聚类中心，对所述构建模块构建的原始数据集合进行一次精确聚类处理，得到精确聚类数据集合。
根据权利要求12所述的业务数据量和/或资源数据量的预测系统，其中，所述确定模块还配置为在所述精确聚类子模块得到的精确聚类数据集合中，确定基本项、待预测项；根据所述基本项、待预测项，确定基本数据量、待预测数据量；

所述确定模块还配置为根据梯度下降法，对所述基本数据量、待预测数据量进行拟合，确定拟合函数，将所述拟合函数作为预测模型。
根据权利要求13所述的业务数据量和/或资源数据量的预测系统，其中，还包括：

选择模块，配置为根据不同的基本项，选择不同的拟合函数；

所述预测模块具体配置为根据所述选择模块选择的拟合函数，对所述业务数据量和/或资源数据量进行预测，得到所述业务和/或资源的预期数据量。
一种计算机存储介质，所述计算机存储介质中存储有可执行指令，所述可执行指令用于执行权利要求1-8任一项所述的业务数据量和/或资源数据量的预测方法。