WO2019227716A1

WO2019227716A1 - 流感预测模型的生成方法、装置及计算机可读存储介质

Info

Publication number: WO2019227716A1
Application number: PCT/CN2018/102221
Authority: WO
Inventors: 李弦; 徐亮; 阮晓雯; 肖京
Original assignee: 平安科技（深圳）有限公司
Priority date: 2018-05-31
Filing date: 2018-08-24
Publication date: 2019-12-05
Also published as: JP6815708B2; JP2020525872A; CN108766585A

Abstract

本申请公开了一种流感预测模型的生成方法，该方法包括：获取连续多个时间单元内的流感样病例百分比数据，建立自回归积分滑动平均ARIMA模型；根据舆情关键词获取多个时间单元内的舆情数据序列，将舆情数据序列中的舆情数据作为预测特征，训练基于xgboost算法构建的xgboost预测模型，以确定模型参数；根据ARIMA模型和xgboost预测模型，构建基于卡尔曼滤波算法的流感预测模型；在使用流感预测模型进行流感预测的过程中，将ARIMA模型的第一预测值作为状态变量的测量值，将xgboost预测模型的第二预测值作为状态变量的先验估计值，动态更新流感预测模型的卡尔曼增益。本申请还提出一种流感预测模型的生成装置以及一种计算机可读存储介质。本申请提高了流感预测模型的预测准确度。

Description

流感预测模型的生成方法、装置及计算机可读存储介质

本申请基于巴黎公约申明享有2018年05月31日递交的申请号为201810543749.9、名称为“流感预测模型的生成方法、装置及计算机可读存储介质”的中国专利申请的优先权，该中国专利申请的整体内容以参考的方式结合在本申请中。

技术领域

本申请涉及计算机技术领域，尤其涉及一种流感预测模型的生成方法、装置及计算机可读存储介质。

背景技术

目前流感预测一般采用基于时间序列自相关性的时间序列模型或是利用外源特征建立回归模型，或者，将不同的模型组合到一起进行预测，采用模型组合可以发挥各模型算法的优势，同时拟合序列本身的变化规律以及外源特征对时序模型的修正，提升模型的泛化能力。

但是，目前常用的模型组合方法是平均法，即计算不同的模型的预测结果的均值，将计算得到的均值作为组合模型的预测结果，这种模型组合方式无法对各个模型的预测能力作出判断，进而无法动态调整各模型的权重，导致组合模型的预测准确度较低。

发明内容

本申请提供一种流感预测模型的生成方法、装置及计算机可读存储介质，其主要目的在于提高流感预测模型的预测准确度。

为实现上述目的，本申请还提供一种流感预测模型的生成方法，该方法包括：

获取连续多个时间单元内的流感样病例百分比数据，建立自回归积分滑动平均ARIMA模型；

获取舆情关键词，根据所述舆情关键词获取所述多个时间单元内的舆情数据序列，将所述舆情数据序列中的舆情数据作为预测特征，训练基于xgboost算法构建的xgboost预测模型，以确定模型参数；

根据所述ARIMA模型和所述xgboost预测模型，构建基于卡尔曼滤波算法的流感预测模型；

将所述ARIMA模型对目标时间单元的第一预测值作为状态变量的测量值，将所述xgboost预测模型对目标时间单元的第二预测值作为状态变量的先验估计值，计算当前的所述流感预测模型的卡尔曼增益；

根据计算得到的卡尔曼增益更新所述流感预测模型中所述ARIMA模型和所述xgboost预测模型的权重，经更新权重后的所述流感预测模型用于预测所述目标时间单元的下一个时间单元的流感样病例百分比。

此外，为实现上述目的，本申请还提供一种流感预测模型的生成装置，该装置包括存储器和处理器，所述存储器中存储有可在所述处理器上运行的模型生成程序，所述模型生成程序被所述处理器执行时实现如下步骤：

此外，为实现上述目的，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有模型生成程序，所述模型生成程序可被一个或者多个处理器执行，以实现如上所述的流感预测模型的生成方法的步骤。

本申请提出的流感预测模型的生成方法、装置及计算机可读存储介质，获取连续多个时间单元内的流感样病例百分比数据，建立自回归积分滑动平均ARIMA模型；获取舆情关键词，根据舆情关键词获取多个时间单元内的舆情数据序列，将舆情数据序列中的舆情数据作为预测特征，训练基于xgboost算法构建的xgboost预测模型，以确定模型参数；根据ARIMA模型和xgboost预测模型，构建基于卡尔曼滤波算法的流感预测模型；在使用流感预测模型进行流感预测的过程中，将ARIMA模型对目标时间单元的第一预测值作为状态变量的测量值，将xgboost预测模型对目标时间单元的第二预测值作为状态变量的先验估计值，计算当前的流感预测模型的卡尔曼增益；根据本次计算的卡尔曼增益更新流感预测模型中的两个模型的权重，经更新权重后的流感预测模型用于下一个时间单元的流感样病例百分比，通过这样的方式，实现了对流感预测模型中的两个模型的权重的动态更新，使得组合得到的预测模型倾向于当前性能较好的模型输出，提高预测模型的精准度。

附图说明

图1为本申请一实施例提供的流感预测模型的生成方法的流程示意图；

图2为本申请一实施例提供的流感预测模型的生成装置的内部结构示意图；

图3为本申请一实施例提供的流感预测模型的生成装置中模型生成程序的模块示意图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供一种流感预测模型的生成方法。参照图1所示，为本申请一实施例提供的流感预测模型的生成方法的流程示意图。该方法可以由一个装置执行，该装置可以由软件和/或硬件实现。

在本实施例中，流感预测模型的生成方法包括：

步骤S10，获取连续多个时间单元内的流感样病例百分比数据，建立自回归积分滑动平均ARIMA模型。

获取在多个时间单元内的流感样病例百分比数据，基于时间序列本身的自相关性建立ARIMA(Autoregressive Integrated Moving Average，自回归积分滑动平均)模型。例如，若对目标时间单元的流感样病例百分比进行预测，则获取该时间单元之前的连续多个时间单元的历史流感样病例百分比数据建立ARIMA模型。在本实施例中以周作为时间单元，对流感进行预测。

步骤S20，获取舆情关键词，根据所述舆情关键词获取所述多个时间单元内的舆情数据序列，将所述舆情数据序列中的舆情数据作为预测特征，训练基于xgboost算法构建的xgboost预测模型，以确定模型参数。

本申请实施例中，流感相关的舆情关键词主要包括流感病毒、高烧、咳嗽、鼻塞、快克、泰诺、上呼吸道感染、止咳、甲型流感等多个关键词；根据上述舆情关键词从预设渠道获取待预测的目标区域的舆情数据，其中，预设渠道包括百度搜索和微博等社交网络，舆情数据主要包括上述舆情关键词在百度上的百度搜索指数，以及在微博上的发布次数。如果针对某一地区作为分析对象，则将地区作为目标区域，获取该地区的舆情关键词的百度搜索指数和微博发布次数。

此外，本实施例中，将周作为时间单元，获取过去5年内，每一周的上述舆情关键词在百度上的百度搜索指数以及在微博上的发布次数作为舆情数据，针对每一个舆情关键词来说，该舆情关键词在一个预设渠道上的舆情数据可以形成一个包含有260个数据的序列，序列中的每一个数据是一个候选特征，所有的候选特征构成候选特征集合。使用该集合中的特征训练基于xgboost(eXtreme Gradient Boosting，极端梯度提升)算法构建的xgboost预测模型，以确定模型参数。

进一步地，在一些实施例中，为了提高特征的相关性，对候选特征集合中的特征进行预处理后，进行特征筛选，使用筛选得到的特征训练xgboost预测模型。具体地，可以包括如下细化步骤：

确定舆情关键词，根据所述舆情关键词获取连续多个时间单元内的舆情数据序列，并将所述舆情数据序列中的舆情数据作为候选特征，构建候选特征集合；对所述候选特征集合中的候选特征进行小波去噪处理和去趋势处理；确定特征的预设数量，并从经过小波去噪处理和去趋势处理后的候选特征集合中筛选出所述预设数量的候选特征，构成预测特征集合；使用所述预测特征集合以及所述多个连续时间单元内的流感样病例百分比的实际观测值，训练基于xgboost算法构建的xgboost预测模型，以确定模型参数。

关于小波去噪处理和去趋势处理，实现方式如下：确定小波基函数，按照所述小波基函数对所述候选特征集合中的每个特征形成的序列进行小波分解，并确定分解层数；确定小波去噪的阈值，按照确定的阈值对小波分解后的预测特征的各层次的系数进行调整；对调整过的小波系数做逆变换重构，得到去噪之后的候选特征；针对小波去噪处理后的候选特征集合中每个时间单元对应的候选特征，获取该时间单元之前的连续多个时间单元的数据进行线性回归，以构建趋势预测模型，根据所述趋势预测模型获取该时间单元对应的基线预测值；使用该时间单元的候选特征的实际值减去所述基线预测值，得到去趋势之后的候选特征。

确定小波基函数，按照所述小波基函数对所述候选特征集合中的每个特征形成的序列进行小波分解，并确定分解层数。例如，对舆情关键词“高烧”的每周百度指数形成的序列进行小波分解，基于与被测信号波形接近的原则，选定db4为舆情数据分解的小波基函数。而在分解尺度的选择上，则根据舆情数据的长度测试在一定范围内不同分解尺度下，选取去噪效果较好而信号失真度较低的分解层数。确定小波去噪的阈值，按照确定的阈值对小波分解后的候选特征的各层次的系数进行调整。具体地：根据每一个特征的序列的长度N，确定小波去噪的阈值thr，假设使用的是过去52个周的历史数据，则每一个特征序列的长度N＝52：

采用软阈值算法，将较小的小波系数置零，对较大的小波系数向零作收缩处理，以调整分解后的候选特征的各层次的系数，具体公式如下，其中，w为调整前的系数，d为调整后的系数：

对调整过的小波系数做逆变换重构，得到去噪之后的候选特征。

针对小波去噪处理后的候选特征集合中每个时间单元对应的候选特征，获取该时间单元之前的连续多个时间单元的数据进行线性回归，以构建趋势预测模型，根据趋势预测模型获取该时间单元对应的基线预测值；使用该时间单元的候选特征的实际值减去基线预测值，得到去趋势之后的候选特征。

例如，针对小波去噪预处理后的候选特征的每个数据点(即一个时间单元对应的候选特征)，取其前52周的数据进行线性回归构建趋势预测模型，可以理解的是，如果某一数据点的历史数据不足52周，则以所有历史数据进行线性回归构建趋势预测模型。通过趋势预测模型得到当前数据点的基线预测值。用当前点的预测特征的实际值减去基线预测值，得到去趋势之后的预测特征。

可选地，在一些实施例中，可以设置不同的筛选特征的数量，获取预测结果，根据预测结果的准确度选择合适的筛选特征的数量；或者，在其他实施例中，关于筛选的特征数量的确定，也可以采用如下方式：

基于xgboost算法构建模型作为学习器，将所述候选特征集合中的候选特征输入所述学习器，使用特征递归消除交叉验证算法选择模型性能达到预设条件时的特征数量作为所述预设数量。

确定预设数量后，基于xgboost算法构建模型作为学习器，将候选特征集合中的候选特征输入学习器，并按照特征递归消除算法进行迭代运算；获取学习器经过运算返回的模型系数，根据模型系数确定每个候选特征集合中各候选特征的重要程度；根据各候选特征的重要程度从当前的候选特征集合中移除重要程度最小的K个候选特征；重复执行上述步骤，直至筛选得到的候选特征的数量达到预设数量；预设数量的候选特征构成预测特征集合。

使用预测特征集合中的预测特征训练xgboost预测模型，具体地，获取所述连续多个时间单元内的流感样病例百分比的实际观测值，将一周得到的预测特征与该周的下一周的流感样病例百分比作为一个训练样本，选择能反映最新的流感变化趋势的当前预测周的前连续多个周的数据，例如当前预测周的前52周的数据，作为训练集进行滚动预测。基于xgboost算法构建预测模型，以gbtree(general balanced trees，通用二叉查找树)作为booster(加速器)，基于平方误差损失函数训练该预测模型，使得上述损失函数极小化，确定模型参数，获取最终的xgboost预测模型。此外，采用前向分布算法，通过构建新的回归树拟合当前模型的残差或残差近似值，并通过优化正则项抑制过拟合及并行化处理提升算法性能。

步骤S30，根据所述ARIMA模型和所述xgboost预测模型，构建基于卡尔曼滤波算法的流感预测模型。

步骤S40，将所述ARIMA模型对目标时间单元的第一预测值作为状态变量的测量值，将所述xgboost预测模型对目标时间单元的第二预测值作为状态变量的先验估计值，计算当前的所述流感预测模型的卡尔曼增益。

步骤S50，根据计算得到的卡尔曼增益更新所述流感预测模型中所述ARIMA模型和所述xgboost预测模型的权重，经更新权重后的所述流感预测模型用于预测所述目标时间单元的下一个时间单元的流感样病例百分比。

将ARIMA模型对目标时间单元K输出的第一预测值y _A作为离散时间过程中通过量测方程得到的状态变量的测量值，将xgboost预测模型对目标时间单元K输出的第二预测值y _x作为离散时间过程中通过状态转移方程得到的状态变量的先验估计值，计算得到当前预测的卡尔曼增益，根据卡尔曼增益确定组合得到的流感预测模型的权重。

根据卡尔曼滤波算法的表达式，可得到流感预测模型的预测值，即卡尔曼滤波中状态变量的后验估计，其表达式为：

y＝y _x+K _k(y _A-Hy _x)

其中，在上述公式中，测量方程的测量增益H＝1，K _k为卡尔曼增益，在本实施例中为常数，在组合预测模型中决定了ARIMA模型和xgboost预测模型的权重。

在使得后验估计误差协方差最小的目标条件下，卡尔曼滤波中K _k的迭代计算式为：

其中，先验估计误差的协方差

为先验估计误差的协方差，从上述公式可以看出，可以根据k-1时刻的后验估计误差的协方差计算得到k时刻的先验估计误差的协方差，A为n×n阶增益矩阵，将上一时刻k-1的状态线性映射到当前时刻k的状态，实际中A可能会随时间变化，在此处假设其为常数，本实施例中将其设为1。观测噪声协方差R值取xgboost预测模型的历史预测误差的协方差，过程激励噪声协方差Q值取ARIMA模型的历史预测误差的协方差。公式中的k表示当前预测的时间序列号，k-1表示k的前一时刻。在流感预测过程中则表示当前周和前一周。

在获得ARIMA模型和xgboost预测模型k-1时刻的预测值后，更新k-1时刻状态的后验协方差P _k-1，进而向前推算得到k时刻的先验协方差

进而根据卡尔曼滤波中K _k的迭代计算式计算得到更新卡尔曼增益K _k，即模型组合的权重。也就是说，在分别使用两个模型得到k-1时刻(即当前周的前一周)的预测值后，计算卡尔曼增益，即对流感预测模型的权重进行一次更新，使用更新后的流感预测模型进行对k时刻(即当前周)的流感样比例百分比进行预测。即根据公式y＝y _x+K _k(y _A-Hy _x)，计算组合预测模型的输出，作为最终的预测结果。

本实施例提出的流感预测模型的生成方法，获取连续多个时间单元内的流感样病例百分比数据，建立自回归积分滑动平均ARIMA模型；获取舆情关键词，根据舆情关键词获取多个时间单元内的舆情数据序列，将舆情数据序列中的舆情数据作为预测特征，训练基于xgboost算法构建的xgboost预测模型，以确定模型参数；根据ARIMA模型和xgboost预测模型，构建基于卡尔曼滤波算法的流感预测模型；在使用流感预测模型进行流感预测的过程中，将ARIMA模型对目标时间单元的第一预测值作为状态变量的测量值，将xgboost预测模型对目标时间单元的第二预测值作为状态变量的先验估计值，计算当前的流感预测模型的卡尔曼增益；根据本次计算的卡尔曼增益更新流感预测模型中的两个模型的权重，经更新权重后的流感预测模型用于下一个时间单元的流感样病例百分比，通过这样的方式，实现了对流感预测模型中的两个模型的权重的动态更新，基于卡尔曼滤波的模型融合即考虑了时间序列自身的变化规律，又结合了舆情数据，修正序列受到的干扰，使得模型预测更加准确，且通过实时动态地调整模型权重，可以使得组合得到的预测模型倾向于当前性能较好的模型输出，提高预测模型的精准度。

本申请还提供一种流感预测模型的生成装置。参照图2所示，为本申请一实施例提供的流感预测模型的生成装置的内部结构示意图。

在本实施例中，流感预测模型的生成装置1可以是PC(Personal Computer，个人电脑)，也可以是智能手机、平板电脑、便携计算机等终端设备。该流感预测模型的生成装置1至少包括存储器11、处理器12，网络接口13，以及通信总线14。

其中，存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是流感预测模型的生成装置1的内部存储单元，例如该流感预测模型的生成装置1的硬盘。存储器11在另一些实施例中也可以是流感预测模型的生成装置1的外部存储设备，例如流感预测模型的生成装置1上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，存储器11还可以既包括流感预测模型的生成装置1的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于流感预测模型的生成装置1的应用软件及各类数据，例如模型生成程序01的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片，用于运行存储器11中存储的程序代码或处理数据，例如执行模型生成程序01等。

网络接口13可选的可以包括标准的有线接口、无线接口(如WI-FI接口)，通常用于在该装置1与其他电子设备之间建立通信连接。

通信总线14用于实现这些组件之间的连接通信。

可选地，该装置1还可以包括用户接口，用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard)，可选的用户接口还可以包括标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在流感预测模型的生成装置1中处理的信息以及用于显示可视化的用户界面。

图2仅示出了具有组件11-14以及模型生成程序01的流感预测模型的生成装置1，本领域技术人员可以理解的是，图1示出的结构并不构成对流感预测模型的生成装置1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

在图2所示的装置1实施例中，存储器11中存储有模型生成程序01；处理器12执行存储器11中存储的模型生成程序01时实现如下步骤：

此外，本实施例中，将周作为时间单元，获取过去5年内，每一周的上述舆情关键词在百度上的百度搜索指数以及在微博上的发布次数作为舆情数据，针对每一个舆情关键词来说，该舆情关键词在一个预设渠道上的舆情数据可以形成一个包含有260个数据的序列，序列中的每一个数据是一个候选特征，所有的候选特征构成候选特征集合。使用该集合中的特征训练基于xgboost算法构建的xgboost预测模型，以确定模型参数。

进一步地，在一些实施例中，为了提高特征的相关性，对候选特征集合中的特征进行预处理后，进行特征筛选，使用筛选得到的特征训练xgboost预测模型。具体地，步骤S20可以包括如下细化步骤：

关于小波去噪处理和去趋势处理，实现方式如下：

确定小波基函数，按照所述小波基函数对所述候选特征集合中的每个特征形成的序列进行小波分解，并确定分解层数；确定小波去噪的阈值，按照确定的阈值对小波分解后的预测特征的各层次的系数进行调整；对调整过的小波系数做逆变换重构，得到去噪之后的候选特征；针对小波去噪处理后的候选特征集合中每个时间单元对应的候选特征，获取该时间单元之前的连续多个时间单元的数据进行线性回归，以构建趋势预测模型，根据所述趋势预测模型获取该时间单元对应的基线预测值；使用该时间单元的候选特征的实际值减去所述基线预测值，得到去趋势之后的候选特征。

根据所述ARIMA模型和所述xgboost预测模型，构建基于卡尔曼滤波算法的流感预测模型。

将所述ARIMA模型对目标时间单元的第一预测值作为状态变量的测量值，将所述xgboost预测模型对目标时间单元的第二预测值作为状态变量的先验估计值，计算当前的所述流感预测模型的卡尔曼增益。

y＝y _x+K _k(y _A-Hy _x)

其中，先验估计误差的协方差

本实施例提出的流感预测模型的生成装置，获取连续多个时间单元内的流感样病例百分比数据，建立自回归积分滑动平均ARIMA模型；获取舆情关键词，根据舆情关键词获取多个时间单元内的舆情数据序列，将舆情数据序列中的舆情数据作为预测特征，训练基于xgboost算法构建的xgboost预测模型，以确定模型参数；根据ARIMA模型和xgboost预测模型，构建基于卡尔曼滤波算法的流感预测模型；在使用流感预测模型进行流感预测的过程中，将ARIMA模型对目标时间单元的第一预测值作为状态变量的测量值，将xgboost预测模型对目标时间单元的第二预测值作为状态变量的先验估计值，计算当前的流感预测模型的卡尔曼增益；根据本次计算的卡尔曼增益更新流感预测模型中的两个模型的权重，经更新权重后的流感预测模型用于下一个时间单元的流感样病例百分比，通过这样的方式，实现了对流感预测模型中的两个模型的权重的动态更新，基于卡尔曼滤波的模型融合即考虑了时间序列自身的变化规律，又结合了舆情数据，修正序列受到的干扰，使得模型预测更加准确，且通过实时动态地调整模型权重，可以使得组合得到的预测模型倾向于当前性能较好的模型输出，提高预测模型的精准度。

可选地，在其他的实施例中，模型生成程序还可以被分割为一个或者多个模块，一个或者多个模块被存储于存储器11中，并由一个或多个处理器(本实施例为处理器12)所执行以完成本申请，本申请所称的模块是指能够完成特定功能的一系列计算机程序指令段，用于描述模型生成程序在流感预测模型的生成装置中的执行过程。

例如，参照图3所示，为本申请流感预测模型的生成装置一实施例中的模型生成程序的程序模块示意图，该实施例中，模型生成程序可以被分割为第一预测模块10、第二预测模块20、模型组合模块30、增益计算模块40和模型更新模块50，示例性地：

第一预测模块10用于：获取连续多个时间单元内的流感样病例百分比数据，建立自回归积分滑动平均ARIMA模型；

第二预测模块20用于：获取舆情关键词，根据所述舆情关键词获取所述多个时间单元内的舆情数据序列，将所述舆情数据序列中的舆情数据作为预测特征，训练基于xgboost算法构建的xgboost预测模型，以确定模型参数；

模型组合模块30用于：根据所述ARIMA模型和所述xgboost预测模型，构建基于卡尔曼滤波算法的流感预测模型；

增益计算模块40用于：将所述ARIMA模型对目标时间单元的第一预测值作为状态变量的测量值，将所述xgboost预测模型对目标时间单元的第二预测值作为状态变量的先验估计值，计算当前的所述流感预测模型的卡尔曼增益；

模型更新模块50用于：根据计算得到的卡尔曼增益更新所述流感预测模型中所述ARIMA模型和所述xgboost预测模型的权重，经更新权重后的所述流感预测模型用于预测所述目标时间单元的下一个时间单元的流感样病例百分比。

上述第一预测模块10、第二预测模块20、模型组合模块30、增益计算模块40和模型更新模块50等程序模块被执行时所实现的功能或操作步骤与上述实施例大体相同，在此不再赘述。

此外，本申请实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有模型生成程序，所述模型生成程序可被一个或多个处理器执行，以实现如下操作：

本申请计算机可读存储介质具体实施方式与上述流感预测模型的生成装置和方法各实施例基本相同，在此不作累述。

需要说明的是，上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

一种流感预测模型的生成方法，其特征在于，所述方法包括：

获取连续多个时间单元内的流感样病例百分比数据，建立自回归积分滑动平均ARIMA模型；

获取舆情关键词，根据所述舆情关键词获取所述多个时间单元内的舆情数据序列，将所述舆情数据序列中的舆情数据作为预测特征，训练基于xgboost算法构建的xgboost预测模型，以确定模型参数；

根据所述ARIMA模型和所述xgboost预测模型，构建基于卡尔曼滤波算法的流感预测模型；

将所述ARIMA模型对目标时间单元的第一预测值作为状态变量的测量值，将所述xgboost预测模型对目标时间单元的第二预测值作为状态变量的先验估计值，计算当前的所述流感预测模型的卡尔曼增益；

根据计算得到的卡尔曼增益更新所述流感预测模型中所述ARIMA模型和所述xgboost预测模型的权重，经更新权重后的所述流感预测模型用于预测所述目标时间单元的下一个时间单元的流感样病例百分比。
如权利要求1所述的流感预测模型的生成方法，其特征在于，所述确定舆情关键词，根据所述舆情关键词获取所述多个时间单元内的舆情数据序列，将所述舆情数据序列中的舆情数据作为预测特征，训练基于xgboost算法构建的xgboost预测模型，以确定模型参数的步骤包括：

确定舆情关键词，根据所述舆情关键词获取连续多个时间单元内的舆情数据序列，并将所述舆情数据序列中的舆情数据作为候选特征，构建候选特征集合；

对所述候选特征集合中的候选特征进行小波去噪处理和去趋势处理；

确定特征的预设数量，并从经过小波去噪处理和去趋势处理后的候选特征集合中筛选出所述预设数量的候选特征，构成预测特征集合；

使用所述预测特征集合以及所述多个连续时间单元内的流感样病例百分比的实际观测值，训练基于xgboost算法构建的xgboost预测模型，以确定模型参数。
如权利要求2所述的流感预测模型的生成方法，其特征在于，所述对所述候选特征集合中的候选特征进行小波去噪处理和去趋势处理的步骤包括：

确定小波基函数，按照所述小波基函数对所述候选特征集合中的每个特征形成的序列进行小波分解，并确定分解层数；

确定小波去噪的阈值，按照确定的阈值对小波分解后的预测特征的各层次的系数进行调整；

对调整过的小波系数做逆变换重构，得到去噪之后的候选特征；

针对小波去噪处理后的候选特征集合中每个时间单元对应的候选特征，获取该时间单元之前的连续多个时间单元的数据进行线性回归，以构建趋势预测模型，根据所述趋势预测模型获取该时间单元对应的基线预测值；

使用该时间单元的候选特征的实际值减去所述基线预测值，得到去趋势之后的候选特征。
如权利要求2所述的流感预测模型的生成方法，其特征在于，所述确定特征的预设数量的步骤包括：

基于xgboost算法构建模型作为学习器，将所述候选特征集合中的候选特征输入所述学习器，使用特征递归消除交叉验证算法选择模型性能达到预设条件时的特征数量作为所述预设数量。
如权利要求3所述的流感预测模型的生成方法，其特征在于，所述确定特征的预设数量的步骤包括：

基于xgboost算法构建模型作为学习器，将所述候选特征集合中的候选特征输入所述学习器，使用特征递归消除交叉验证算法选择模型性能达到预设条件时的特征数量作为所述预设数量。
如权利要求2所述的流感预测模型的生成方法，其特征在于，所述从经过小波去噪处理和去趋势处理后的候选特征集合中筛选出所述预设数量的候选特征，构成预测特征集合的步骤包括：

基于xgboost算法构建模型作为学习器，将所述候选特征集合中的候选特征输入所述学习器，并按照特征递归消除算法进行迭代运算；

获取所述学习器经过运算返回的模型系数，根据所述模型系数确定每个候选特征集合中各候选特征的重要程度；

根据各候选特征的重要程度从当前的候选特征集合中移除重要程度最小的K个候选特征；

重复执行上述步骤，直至筛选得到的候选特征的数量达到所述预设数量；

所述预设数量的候选特征构成预测特征集合。
如权利要求3所述的流感预测模型的生成方法，其特征在于，所述从经过小波去噪处理和去趋势处理后的候选特征集合中筛选出所述预设数量的候选特征，构成预测特征集合的步骤包括：

基于xgboost算法构建模型作为学习器，将所述候选特征集合中的候选特征输入所述学习器，并按照特征递归消除算法进行迭代运算；

获取所述学习器经过运算返回的模型系数，根据所述模型系数确定每个候选特征集合中各候选特征的重要程度；

根据各候选特征的重要程度从当前的候选特征集合中移除重要程度最小的K个候选特征；

重复执行上述步骤，直至筛选得到的候选特征的数量达到所述预设数量；

所述预设数量的候选特征构成预测特征集合。
一种流感预测模型的生成装置，其特征在于，所述装置包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的模型生成程序，所述模型生成程序被所述处理器执行时实现如下步骤：

获取连续多个时间单元内的流感样病例百分比数据，建立自回归积分滑动平均ARIMA模型；

获取舆情关键词，根据所述舆情关键词获取所述多个时间单元内的舆情数据序列，将所述舆情数据序列中的舆情数据作为预测特征，训练基于xgboost算法构建的xgboost预测模型，以确定模型参数；

根据所述ARIMA模型和所述xgboost预测模型，构建基于卡尔曼滤波算法的流感预测模型；

将所述ARIMA模型对目标时间单元的第一预测值作为状态变量的测量值，将所述xgboost预测模型对目标时间单元的第二预测值作为状态变量的先验估计值，计算当前的所述流感预测模型的卡尔曼增益；

根据计算得到的卡尔曼增益更新所述流感预测模型中所述ARIMA模型和所述xgboost预测模型的权重，经更新权重后的所述流感预测模型用于预测所述目标时间单元的下一个时间单元的流感样病例百分比。
如权利要求8所述的流感预测模型的生成装置，其特征在于，所述确定舆情关键词，根据所述舆情关键词获取所述多个时间单元内的舆情数据序列，将所述舆情数据序列中的舆情数据作为预测特征，训练基于xgboost算法构建的xgboost预测模型，以确定模型参数的步骤包括：

确定舆情关键词，根据所述舆情关键词获取连续多个时间单元内的舆情数据序列，并将所述舆情数据序列中的舆情数据作为候选特征，构建候选特征集合；

对所述候选特征集合中的候选特征进行小波去噪处理和去趋势处理；

确定特征的预设数量，并从经过小波去噪处理和去趋势处理后的候选特征集合中筛选出所述预设数量的候选特征，构成预测特征集合；

使用所述预测特征集合以及所述多个连续时间单元内的流感样病例百分比的实际观测值，训练基于xgboost算法构建的xgboost预测模型，以确定模型参数。
如权利要求9所述的流感预测模型的生成装置，其特征在于，所述对所述候选特征集合中的候选特征进行小波去噪处理和去趋势处理的步骤包括：

确定小波基函数，按照所述小波基函数对所述候选特征集合中的每个特征形成的序列进行小波分解，并确定分解层数；

确定小波去噪的阈值，按照确定的阈值对小波分解后的预测特征的各层次的系数进行调整；

对调整过的小波系数做逆变换重构，得到去噪之后的候选特征；

针对小波去噪处理后的候选特征集合中每个时间单元对应的候选特征，获取该时间单元之前的连续多个时间单元的数据进行线性回归，以构建趋势预测模型，根据所述趋势预测模型获取该时间单元对应的基线预测值；

使用该时间单元的候选特征的实际值减去所述基线预测值，得到去趋势之后的候选特征。
如权利要求9所述的流感预测模型的生成装置，其特征在于，所述确定特征的预设数量的步骤包括：

基于xgboost算法构建模型作为学习器，将所述候选特征集合中的候选特征输入所述学习器，使用特征递归消除交叉验证算法选择模型性能达到预设条件时的特征数量作为所述预设数量。
如权利要求10所述的流感预测模型的生成装置，其特征在于，所述确定特征的预设数量的步骤包括：

基于xgboost算法构建模型作为学习器，将所述候选特征集合中的候选特征输入所述学习器，使用特征递归消除交叉验证算法选择模型性能达到预设条件时的特征数量作为所述预设数量。
如权利要求9所述的流感预测模型的生成装置，其特征在于，所述从经过小波去噪处理和去趋势处理后的候选特征集合中筛选出所述预设数量的候选特征，构成预测特征集合的步骤包括：

基于xgboost算法构建模型作为学习器，将所述候选特征集合中的候选特征输入所述学习器，并按照特征递归消除算法进行迭代运算；

获取所述学习器经过运算返回的模型系数，根据所述模型系数确定每个候选特征集合中各候选特征的重要程度；

根据各候选特征的重要程度从当前的候选特征集合中移除重要程度最小的K个候选特征；

重复执行上述步骤，直至筛选得到的候选特征的数量达到所述预设数量；

所述预设数量的候选特征构成预测特征集合。
如权利要求10所述的流感预测模型的生成装置，其特征在于，所述从经过小波去噪处理和去趋势处理后的候选特征集合中筛选出所述预设数量的候选特征，构成预测特征集合的步骤包括：

基于xgboost算法构建模型作为学习器，将所述候选特征集合中的候选特征输入所述学习器，并按照特征递归消除算法进行迭代运算；

获取所述学习器经过运算返回的模型系数，根据所述模型系数确定每个候选特征集合中各候选特征的重要程度；

根据各候选特征的重要程度从当前的候选特征集合中移除重要程度最小的K个候选特征；

重复执行上述步骤，直至筛选得到的候选特征的数量达到所述预设数量；

所述预设数量的候选特征构成预测特征集合。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有模型生成程序，所述模型生成程序可被一个或者多个处理器执行，以实现如下步骤：

获取连续多个时间单元内的流感样病例百分比数据，建立自回归积分滑动平均ARIMA模型；

获取舆情关键词，根据所述舆情关键词获取所述多个时间单元内的舆情数据序列，将所述舆情数据序列中的舆情数据作为预测特征，训练基于xgboost算法构建的xgboost预测模型，以确定模型参数；

根据所述ARIMA模型和所述xgboost预测模型，构建基于卡尔曼滤波算法的流感预测模型；

将所述ARIMA模型对目标时间单元的第一预测值作为状态变量的测量值，将所述xgboost预测模型对目标时间单元的第二预测值作为状态变量的先验估计值，计算当前的所述流感预测模型的卡尔曼增益；

根据计算得到的卡尔曼增益更新所述流感预测模型中所述ARIMA模型和所述xgboost预测模型的权重，经更新权重后的所述流感预测模型用于预测所述目标时间单元的下一个时间单元的流感样病例百分比。
如权利要求15所述的计算机可读存储介质，其特征在于，所述确定舆情关键词，根据所述舆情关键词获取所述多个时间单元内的舆情数据序列，将所述舆情数据序列中的舆情数据作为预测特征，训练基于xgboost算法构建的xgboost预测模型，以确定模型参数的步骤包括：

确定舆情关键词，根据所述舆情关键词获取连续多个时间单元内的舆情数据序列，并将所述舆情数据序列中的舆情数据作为候选特征，构建候选特征集合；

对所述候选特征集合中的候选特征进行小波去噪处理和去趋势处理；

确定特征的预设数量，并从经过小波去噪处理和去趋势处理后的候选特征集合中筛选出所述预设数量的候选特征，构成预测特征集合；

使用所述预测特征集合以及所述多个连续时间单元内的流感样病例百分比的实际观测值，训练基于xgboost算法构建的xgboost预测模型，以确定模型参数。
如权利要求16所述的计算机可读存储介质，其特征在于，所述对所述候选特征集合中的候选特征进行小波去噪处理和去趋势处理的步骤包括：

确定小波基函数，按照所述小波基函数对所述候选特征集合中的每个特征形成的序列进行小波分解，并确定分解层数；

确定小波去噪的阈值，按照确定的阈值对小波分解后的预测特征的各层次的系数进行调整；

对调整过的小波系数做逆变换重构，得到去噪之后的候选特征；

针对小波去噪处理后的候选特征集合中每个时间单元对应的候选特征，获取该时间单元之前的连续多个时间单元的数据进行线性回归，以构建趋势预测模型，根据所述趋势预测模型获取该时间单元对应的基线预测值；

使用该时间单元的候选特征的实际值减去所述基线预测值，得到去趋势之后的候选特征。
如权利要求16所述的计算机可读存储介质，其特征在于，所述确定特征的预设数量的步骤包括：

基于xgboost算法构建模型作为学习器，将所述候选特征集合中的候选特征输入所述学习器，使用特征递归消除交叉验证算法选择模型性能达到预设条件时的特征数量作为所述预设数量。
如权利要求17所述的计算机可读存储介质，其特征在于，所述确定特征的预设数量的步骤包括：

基于xgboost算法构建模型作为学习器，将所述候选特征集合中的候选特征输入所述学习器，使用特征递归消除交叉验证算法选择模型性能达到预设条件时的特征数量作为所述预设数量。
如权利要求16所述的计算机可读存储介质，其特征在于，所述从经过小波去噪处理和去趋势处理后的候选特征集合中筛选出所述预设数量的候选特征，构成预测特征集合的步骤包括：

基于xgboost算法构建模型作为学习器，将所述候选特征集合中的候选特征输入所述学习器，并按照特征递归消除算法进行迭代运算；

获取所述学习器经过运算返回的模型系数，根据所述模型系数确定每个候选特征集合中各候选特征的重要程度；

根据各候选特征的重要程度从当前的候选特征集合中移除重要程度最小的K个候选特征；

重复执行上述步骤，直至筛选得到的候选特征的数量达到所述预设数量；

所述预设数量的候选特征构成预测特征集合。