WO2019037260A1

WO2019037260A1 - 预测模型建立装置、方法及计算机可读存储介质

Info

Publication number: WO2019037260A1
Application number: PCT/CN2017/108801
Authority: WO
Inventors: 徐亮; 李弦; 商瑾; 肖京
Original assignee: 平安科技（深圳）有限公司
Priority date: 2017-08-20
Filing date: 2017-10-31
Publication date: 2019-02-28
Also published as: CN107688872A

Abstract

一种预测模型建立装置、方法及计算机可读介质，该装置包括：存储器、处理器及存储在存储器上并可在处理器上运行的预测模型建立程序，该程序被处理器执行时实现如下步骤：获取待测项目在目标时间单元之前的一个或多个时间单元内的外源特征，以及在目标时间单元前的自回归时间特征；对上述特征进行预处理和归一化处理，以获取归一化的特征集；按照预设规则对特征进行特征筛选获取预测特征；将待测项目的实际观测值作为预测目标，将预测特征和预测目标作为预测样本；按照以上步骤获取多个预测样本，将预测样本输入预设回归模型进行训练生成预测模型。提高了预测模型的预测准确率。

Description

预测模型建立装置、方法及计算机可读存储介质

优先权申明

本申请基于巴黎公约申明享有2017年08月20日递交的申请号为201710715445.1、名称为“预测模型建立装置、方法及计算机可读存储介质”的中国专利申请的优先权，该中国专利申请的整体内容以参考的方式结合在本申请中。

技术领域

本申请涉及终端技术领域，尤其涉及一种预测模型建立装置、方法及计算机可读存储介质。

背景技术

目前，通过机器学习对数据进行预测的技术在越来越多的领域得到应用，例如广告点击率的预测、某种流行性疾病的发病率的预测等等，目前普遍采用的方式时，采集这些待预测项目的历史数据构成时间序列，基于这个时间序列本身的特征建立自相关回归时间序列模型(ARIMA)进行预测，但该模型只用到待预测项目自身的趋势特征进行预测，无法结合预测外部特征使用，导致预测准确性不高。

发明内容

本申请提供一种预测模型建立装置、方法及计算机可读存储介质，其主要目的在于结合待测项目的外源特征与自回归时间特征建立预测模型，提高预测模型的预测精准度。

为实现上述目的，本申请提供一种预测模型建立装置，该装置包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的预测模型建立程序，所述预测模型建立程序被所述处理器执行时实现如下步骤：

A、获取待测项目在目标时间单元之前的一个或多个时间单元内的外源特征，以及在目标时间单元前的自回归时间特征；

B、对所述外源特征进行预处理，并对所述自回归时间特征和经过所述预处理的外源特征进行归一化处理，以获取归一化的特征集；

C、按照预设规则对所述特征集中的特征进行特征筛选，以获取预测特征；

D、将所述待测项目在所述目标时间单元内的实际观测值作为预测目标，将所述多个预测特征和所述预测目标作为一个预测样本；

E、按照所述A至D的步骤分别获取多个时间单元的多个预测样本，将所述多个预测样本输入到预设回归模型中进行训练以确定模型参数，将确定模型参数后的所述预设回归模型作为所述待测项目的预测模型。

可选地，若所述外源特征包括所述待测项目对应的搜索指数集，所述预处理为极值优化处理，则所述对所述外源特征进行预处理的步骤包括：

获取所述搜索指数集的第一四分位数、第三四分位数和四分差；

根据所述第一四分位数、所述第三四分位数和所述四分差确定搜索指数的第一阈值和第二阈值，所述第一阈值小于所述第二阈值；

将所述搜索指数集中大于所述第二阈值的搜索指数转换为所述第二阈值，将所述搜索指数集中小于所述第一阈值的搜索指数转换为所述第一阈值

可选地，所述对所述外源特征进行预处理的步骤还包括：

根据邻近kNN算法，对经过极值优化处理的搜索指数进行缺失值补充。

可选地，所述按照预设规则对所述特征集中的特征进行特征筛选，以获取预测特征的步骤包括：

计算所述特征集中的各个特征值的pearson相关系数；

将所述特征集中选择pearson相关系数小于或者等于预设相关系数的特征，作为预测特征。

可选地，所述待测项目为流感预测项目，所述外源特征包括搜索指数、天气特征和环境特征，所述预设回归模型为LASSO回归模型。

此外，为实现上述目的，本申请还提供一种预测模型建立方法，该方法包括：

将所述搜索指数集中大于所述第二阈值的搜索指数转换为所述第二阈值，将所述搜索指数集中小于所述第一阈值的搜索指数转换为所述第一阈值。

可选地，所述对所述外源特征进行预处理的步骤还包括：

计算所述特征集中的各个特征值的pearson相关系数；

此外，为实现上述目的，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有预测模型建立程序，所述预测模型建立程序可被一个或多个处理器执行，以实现如下步骤：

本申请提出的预测模型建立装置、方法及计算机可读存储介质，获取待测项目在目标时间单元之前的一个或多个时间单元内的外源特征，以及在目标时间单元前的自回归时间特征，对外源特征和自回归时间特征进行预处理和归一化处理，以获取归一化的特征集，按照预设规则对特征集中的特征进行筛选得到预测特征，该预测特征与目标时间单元对应的实际观测值构成一个预测样本，按照上述过程获取多个时间单元的多个预测样本，将上述多个预测样本输入到预设回归模型中进行训练以确定模型参数，将确定模型参数后的预设回归模型作为预测模型，该发明的方案将待测项目的外源特征与自回归时间特征进行结合并进行预处理构成一个特征集，从特征集筛选出符合条件的特征作为预测特征对回归模型进行训练生成预测模型，避免了样本特征的单一性，提高了预测模型的预测精准度。

附图说明

图1为本申请预测模型建立装置较佳实施例的示意图；

图2为本申请预测模型建立装置一实施例中预测模型建立程序的程序模块示意图；

图3为本申请预测模型建立方法第一实施例的流程图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供一种预测模型建立装置。参照图1所示，为本申请预测模型建立装置较佳实施例的示意图。

在本实施例中，预测模型建立装置可以是PC(Personal Computer，个人电脑)，也可以是智能手机、平板电脑、电子书阅读器、MP3(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、便携计算机等具有显示功能的可移动式终端设备。

该预测模型建立装置包括存储器11、处理器12，通信总线13，以及网络接口14。

其中，存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是预测模型建立装置的内部存储单元，例如该预测模型建立装置的硬盘。存储器11在另一些实施例中也可以是预测模型建立装置的外部存储设备，例如预测模型建立装置上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，存储器11还可以既包括预测模型建立装置的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于预测模型建立装置的应用软件及各类数据，例如预测模型建立程序的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片，用于运行存储器11中存储的程序代码或处理数据，例如执行预测模型建立程序等。

通信总线13用于实现这些组件之间的连接通信。

网络接口14可选的可以包括标准的有线接口、无线接口(如WI-FI接口)，通常用于在该装置与其他电子设备之间建立通信连接。

图1仅示出了具有组件11-14以及预测模型建立程序的预测模型建立装置，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

可选地，该装置还可以包括用户接口，用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard)，可选的用户接口还可以包括标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在预测模型建立装置中处理的信息以及用于显示可视化的用户界面。

可选地，该装置还可以包括触摸传感器。所述触摸传感器所提供的供用户进行触摸操作的区域称为触控区域。此外，这里所述的触摸传感器可以为电阻式触摸传感器、电容式触摸传感器等。而且，所述触摸传感器不仅包括接触式的触摸传感器，也可包括接近式的触摸传感器等。此外，所述触摸传感器可以为单个传感器，也可以为例如阵列布置的多个传感器。该装置的显示器的面积可以与所述触摸传感器的面积相同，也可以不同。可选地，将显示器与所述触摸传感器层叠设置，以形成触摸显示屏。该装置基于触摸显示屏侦测用户触发的触控操作。

可选地，该装置还可以包括摄像头、RF(Radio Frequency，射频)电路，传感器、音频电路、WiFi模块等。其中，传感器比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，若该装置为移动终端，环境光传感器可根据环境光线的明暗来调节显示屏的亮度，接近传感器可在移动终端移动到耳边时，关闭显示屏和/或背光。当然，移动终端还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

在图1所示的装置实施例中，存储器11中存储有预测模型建立程序；处理器12执行存储器11中存储的预测模型建立程序时实现如下步骤：

在该实施例中，以流感预测项目作为待测项目对本实施例的方案进行说明。由于在对模型进行训练时采用的都是历史数据，即已经过去的时间段内的数据，因此，在从历史数据中采集特征值作为测试样本时，每一个测试样本中的时间单元也是过去的一个时间段。在本实施例中，以周作为一个时间单元。假设将过去的100个周的外源特征以及流感样病例百分比作为历史数据，其中，流感样病例百分比为某地区各哨点医院流感样病例总数/某地区各哨点医院门诊总就诊人次。

从上述历史数据中获取一个预测样本的过程如下：从上述历史数据中确定一个周作为目标时间单元，例如，以过去的100个周中的第100周，即与当前时间点最邻近的一个周，作为目标时间单元，则将第100周的流感样病例百分比的实际观测值作为预测目标。从第100周之前的多个周的数据中采集特征作为预测特征。

具体地，获取与目标时间单元之前的一个或者多个时间单元对应的外源特征，优选地，外源特征包括搜索指数、天气特征和环境特征等对流感样病例的百分比造成一定程度的影响的外部特征。

搜索指数为：在目标时间单元之前的一个时间单元内，优选地为目标时间单元的上一个时间单元，搜索引擎用户在该搜索引擎上搜索相关关键词的频度，搜索引擎一般会对该频度进行记录，例如，百度的百度指数。其中，相关关键词为用户预先设置的与该流感的预测具有一定因果关系的关键词，例如“鼻塞”、“打喷嚏”、“抗病毒口服液”、“嗓子痛”等与流感相关的检索词，在此不再一一列举，用户可以根据需要设置多个关键词，并从一些搜索网站上按照关键词提取对应的搜索指数构成搜索指数集。

天气特征包括但不限于以下几个特征：每周晴天数、每周多云天数、每周阴天数、每周雨量、每周风量、每周平均中间气温、每周中间气温最大差以及周日中间气温与周一中间气温的差值。其中，每周平均中间气温为一周七天的中间气温的平均值，中间气温为一天内的温度区间的中间值。在获取天气特征时，可以取第100周的前一周，第99周的天气特征，也可以取第100周之前的多个周的天气特征，即历史时间单元的个数可以是多个。

环境特征为SO2、NO2、PM10、O3、CO和PM2.5的浓度分别在历史时间单元内的均值。

对于目标时间单元，即第100周的预测目标来说，其自回归时间特征可以包括但不限于以下特征：上一周的流感样病例百分比、上两周的流感样病例百分比、上三周的流感样病例百分比、临近三周的流感样病例百分比均值、临近三周的流感样病例百分比方差、去年同期的流感样病例百分比。

在获取到上述外源特征和自回归时间特征后，对这些特征进行预处理以及归一化处理，以去掉上述特征中的异常特征，避免这些异常特征值对预测模型的训练带来的一些异常影响，进而提高预测模型的预测精准度。

可选地，预处理可以包括极值优化处理和/或缺失值补充处理。

由于搜索指数的数量级比较大，可能出现的数据范围也比较大，因此优选地对搜索指数进行极值优化处理，具体地，获取所述搜索指数集的第一四分位数Q1、第三四分位数Q3和四分差IQR(interquartile range，又称为四分位距)；根据所述第一四分位数、所述第三四分位数和所述四分差确定搜索指数的第一阈值和第二阈值，所述第一阈值小于所述第二阈值；将所述搜索指数集中大于所述第二阈值的搜索指数转换为所述第二阈值，将所述搜索指数集中小于所述第一阈值的搜索指数转换为所述第一阈值。上述第一阈值可以取Q1-k*IQR，上述第二阈值可以取Q3+k*IQR，其中，k≥0。优选地，在一实施例中，k＝1.5。

关于缺失值补充处理，可以根据kNN(k-NearestNeighbor，k最近邻)算法，对经过极值优化处理的搜索指数进行缺失值补充。具体地，在获取到搜索指数后，检测搜索指数中是否有关键字没有对应的指数值，若有，则获取与该目标时间单元相邻的多个时间单元中搜索指数没有缺失值时间单元，用这些时间单元的搜索指数中对应关键字的搜索指数的平均值或者中位数或者众数代替缺失的数据。例如，第99周的搜索指数中关键字“抗病毒口服液”的搜索指数缺失，而第98周、第97周、第95周的搜索指数中关键字“抗病毒口服液”的搜索指数没有缺失，则可以用这三个周的关键字“抗病毒口服液”的搜索指数的平均值或者中位数或者众数代替第99周的搜索指数中缺失的“抗病毒口服液”的搜索指数。在其他实施例中，也可以采用其他方式对缺失值进行补充，例如均值法，取除缺失值之外的其他关键字的搜索指数的平均值，用获取的平均值替代目标单元中的缺失值。

然后，对于自回归时间特征以及经过上述预处理的外源特征进行归一化处理，将上述具有不同量纲的特征值转换为无量纲的符合正态分布的特征值，避免因为特征严重歪曲而造成预测结果的精准度低。

获取到归一化处理后的特征集之后，对特征集中的特征进行筛选。可选地，在一些实施例中，采用pearson相关系数(Pearson correlation coefficient，皮尔森相关系数)对特征进行过滤。计算所述特征集中的各个特征值的pearson相关系数；将所述特征集中选择pearson相关系数小于或者等于预设相关系数的特征，作为预测特征。在一些实施例中，预设相关系数优选地取0.2。可以理解的是，在其他实施例中，也可以采用其他的特征筛选方法对特征集进行筛选。将经过特征筛选后剩余的特征作为预测特征，将目标时间单元的流感样病例百分比的实际观测值作为预测目标，上述预测特征和预测目标构成一个预测样本。

按照上述方式，从历史数据中获取多个预测时间单元对应的预测样本，例如，分别将第99周、第98周、第97周……等作为目标时间单元，分别获取他们的预测样本，将获取的这些预测样本输入到预设回归模型中进行模型训练，得到该模型的模型参数，其中，在一些实施例中，可以采用k-折交叉验证的方式对模型进行训练，将上述多个预测样本中的一个样本作为测试集，剩余的样本作为训练集，对模型进行训练。或者在其他实施例中，预设的回归模型可以是LASSO回归模型、岭回归模型等。在一实施例中，优选地采用LASSO回归模型。将确定了模型参数的回归模型作为该待测项目的预测模型。

可以理解的是，上述实施例中，以流感样病例百分比的预测为例对本申请的方案进行了说明。但是本申请提出的方案并不仅限于此，还可以应用于其他的项目的预测，例如，天气的预测、广告点击率的预测等等，对应不同的预测项目，需要采集能够反映该项目的变化的数据作为外源特征，并按照上述方案对外源特征进行处理，然后结合项目本身在时间维度上的自回归时间特征对回归模型进行训练以生成预测模型。

本实施例提出的预测模型建立装置，获取待测项目在目标时间单元之前的一个或多个时间单元内的外源特征，以及在目标时间单元前的自回归时间特征，对外源特征和自回归时间特征进行预处理和归一化处理，以获取归一化的特征集，按照预设规则对特征集中的特征进行筛选得到预测特征，该预测特征与目标时间单元对应的实际观测值构成一个预测样本，按照上述过程获取多个时间单元的多个预测样本，将上述多个预测样本输入到预设回归模型中进行训练以确定模型参数，将确定模型参数后的预设回归模型作为预测模型，该发明的方案将待测项目的外源特征与自回归时间特征进行结合并进行预处理构成一个特征集，从特征集筛选出符合条件的特征作为预测特征对回归模型进行训练生成预测模型，避免了样本特征的单一性，提高了预测模型的预测精准度。

可选地，在其他的实施例中，预测模型建立程序还可以被分割为一个或者多个模块，一个或者多个模块被存储于存储器11中，并由一个或多个处理器(本实施例为处理器12)所执行以完成本申请，本申请所称的模块是指能够完成特定功能的一系列计算机程序指令段。

参照图2所示，为本申请预测模型建立装置一实施例中的预测模型建立程序的程序模块示意图，该实施例中，预测模型建立程序可以被分割为获取模块10、处理模块20、筛选模块30、形成模块40以及训练模块50，其中：

获取模块10用于获取待测项目在目标时间单元之前的一个或多个时间单元内的外源特征，以及在目标时间单元前的自回归时间特征；

处理模块20用于对所述外源特征进行预处理，并对所述自回归时间特征和经过所述预处理的外源特征进行归一化处理，以获取归一化的特征集；

筛选模块30用于按照预设规则对所述特征集中的特征进行特征筛选，以获取预测特征；

形成模块40用于将所述待测项目在所述目标时间单元内的实际观测值作为预测目标，将所述多个预测特征和所述预测目标作为一个预测样本；

训练模块50用于分别获取多个时间单元的多个预测样本，将所述多个预测样本输入到预设回归模型中进行训练以确定模型参数，将确定模型参数后的所述预设回归模型作为所述待测项目的预测模型。

此外，本申请还提供一种预测模型建立方法。参照图3所示，为本申请预测模型建立方法第一实施例的流程图。该方法可以由一个装置执行，该装置可以由软件和/或硬件实现。

在本实施例中，预测模型建立方法包括：

步骤S10，获取待测项目在目标时间单元之前的一个或多个时间单元内的外源特征，以及在目标时间单元前的自回归时间特征；

步骤S20，对所述外源特征进行预处理，并对所述自回归时间特征和经过所述预处理的外源特征进行归一化处理，以获取归一化的特征集；

步骤S30，按照预设规则对所述特征集中的特征进行特征筛选，以获取预测特征；

步骤S40，将所述待测项目在所述目标时间单元内的实际观测值作为预测目标，将所述多个预测特征和所述预测目标作为一个预测样本；

步骤S50，按照所述步骤S10至步骤S40，分别获取多个时间单元的多个预测样本，将所述多个预测样本输入到预设回归模型中进行训练以确定模型参数，将确定模型参数后的所述预设回归模型作为所述待测项目的预测模型。

关于缺失值补充处理，可以根据邻近kNN算法，对经过极值优化处理的搜索指数进行缺失值补充。具体地，在获取到搜索指数后，检测搜索指数中是否有关键字没有对应的指数值，若有，则获取与该目标时间单元相邻的多个时间单元中搜索指数没有缺失值时间单元，用这些时间单元的搜索指数中对应关键字的搜索指数的平均值或者中位数或者众数代替缺失的数据。例如，第99周的搜索指数中关键字“抗病毒口服液”的搜索指数缺失，而第98周、第97周、第95周的搜索指数中关键字“抗病毒口服液”的搜索指数没有缺失，则可以用这三个周的关键字“抗病毒口服液”的搜索指数的平均值或者中位数或者众数代替第99周的搜索指数中缺失的“抗病毒口服液”的搜索指数。在其他实施例中，也可以采用其他方式对缺失值进行补充，例如均值法，取除缺失值之外的其他关键字的搜索指数的平均值，用获取的平均值替代目标单元中的缺失值。

获取到归一化处理后的特征集之后，对特征集中的特征进行筛选。可选地，在一些实施例中，采用pearson相关系数对特征进行过滤。计算所述特征集中的各个特征值的pearson相关系数；将所述特征集中选择pearson相关系数小于或者等于预设相关系数的特征，作为预测特征。在一些实施例中，预设相关系数优选地取0.2。可以理解的是，在其他实施例中，也可以采用其他的特征筛选方法对特征集进行筛选。将经过特征筛选后剩余的特征作为预测特征，将目标时间单元的流感样病例百分比的实际观测值作为预测目标，上述预测特征和预测目标构成一个预测样本。

可以理解的是，上述实施例中，以流感样病例百分比的预测为例对本申请的方案进行了说明。但是本申请提出的方案并不仅限于此，还可以应用于其他的项目的预测，例如，天气的预测、广告点击率的预测等等，对应不同的预测项目，需要采集能够反映该项目的变化的数据作为外源特征，并按照上述方案对外源特征进行处理，然后结合项目本身在时间维度上的自回归时间特征对回归模型进行训练以生成预测模型。该预测模型可以用于对未来一段时间内待测项目的预测。

本实施例提出的预测模型建立方法，获取待测项目在目标时间单元之前的一个或多个时间单元内的外源特征，以及在目标时间单元前的自回归时间特征，对外源特征和自回归时间特征进行预处理和归一化处理，以获取归一化的特征集，按照预设规则对特征集中的特征进行筛选得到预测特征，该预测特征与目标时间单元对应的实际观测值构成一个预测样本，按照上述过程获取多个时间单元的多个预测样本，将上述多个预测样本输入到预设回归模型中进行训练以确定模型参数，将确定模型参数后的预设回归模型作为预测模型，该发明的方案将待测项目的外源特征与自回归时间特征进行结合并进行预处理构成一个特征集，从特征集筛选出符合条件的特征作为预测特征对回归模型进行训练生成预测模型，避免了样本特征的单一性，提高了预测模型的预测精准度。

此外，本申请实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有预测模型建立程序，所述预测模型建立程序可被一个或多个处理器执行，以实现如下步骤：

进一步地，所述预测模型建立程序被处理器执行时还实现如下操作：

计算所述特征集中的各个特征值的pearson相关系数；

需要说明的是，上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

一种预测模型建立装置，其特征在于，所述装置包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的预测模型建立程序，所述预测模型建立程序被所述处理器执行时实现如下步骤：

A、获取待测项目在目标时间单元之前的一个或多个时间单元内的外源特征，以及在目标时间单元前的自回归时间特征；

B、对所述外源特征进行预处理，并对所述自回归时间特征和经过所述预处理的外源特征进行归一化处理，以获取归一化的特征集；

C、按照预设规则对所述特征集中的特征进行特征筛选，以获取预测特征；

D、将所述待测项目在所述目标时间单元内的实际观测值作为预测目标，将所述多个预测特征和所述预测目标作为一个预测样本；

E、按照所述A至D的步骤分别获取多个时间单元的多个预测样本，将所述多个预测样本输入到预设回归模型中进行训练以确定模型参数，将确定模型参数后的所述预设回归模型作为所述待测项目的预测模型。
根据权利要求1所述的预测模型建立装置，其特征在于，若所述外源特征包括所述待测项目对应的搜索指数集，所述预处理为极值优化处理，则所述对所述外源特征进行预处理的步骤包括：

获取所述搜索指数集的第一四分位数、第三四分位数和四分差；

根据所述第一四分位数、所述第三四分位数和所述四分差确定搜索指数的第一阈值和第二阈值，所述第一阈值小于所述第二阈值；

将所述搜索指数集中大于所述第二阈值的搜索指数转换为所述第二阈值，将所述搜索指数集中小于所述第一阈值的搜索指数转换为所述第一阈值。
根据权利要求2所述的预测模型建立装置，其特征在于，所述对所述外源特征进行预处理的步骤还包括：

根据邻近kNN算法，对经过极值优化处理的搜索指数进行缺失值补充。
根据权利要求1所述的预测模型建立装置，其特征在于，所述按照预设规则对所述特征集中的特征进行特征筛选，以获取预测特征的步骤包括：

计算所述特征集中的各个特征值的pearson相关系数；

将所述特征集中选择pearson相关系数小于或者等于预设相关系数的特征，作为预测特征。
根据权利要求2所述的预测模型建立装置，其特征在于，所述按照预设规则对所述特征集中的特征进行特征筛选，以获取预测特征的步骤包括：

计算所述特征集中的各个特征值的pearson相关系数；

将所述特征集中选择pearson相关系数小于或者等于预设相关系数的特征，作为预测特征。
根据权利要求3所述的预测模型建立装置，其特征在于，所述按照预设规则对所述特征集中的特征进行特征筛选，以获取预测特征的步骤包括：

计算所述特征集中的各个特征值的pearson相关系数；

将所述特征集中选择pearson相关系数小于或者等于预设相关系数的特征，作为预测特征。
根据权利要求1所述的预测模型建立装置，其特征在于，所述待测项目为流感预测项目，所述外源特征包括搜索指数、天气特征和环境特征，所述预设回归模型为LASSO回归模型。
一种预测模型建立方法，其特征在于，所述方法包括：

A、获取待测项目在目标时间单元之前的一个或多个时间单元内的外源特征，以及在目标时间单元前的自回归时间特征；

B、对所述外源特征进行预处理，并对所述自回归时间特征和经过所述预处理的外源特征进行归一化处理，以获取归一化的特征集；

C、按照预设规则对所述特征集中的特征进行特征筛选，以获取预测特征；

D、将所述待测项目在所述目标时间单元内的实际观测值作为预测目标，将所述多个预测特征和所述预测目标作为一个预测样本；

E、按照所述A至D的步骤分别获取多个时间单元的多个预测样本，将所述多个预测样本输入到预设回归模型中进行训练以确定模型参数，将确定模型参数后的所述预设回归模型作为所述待测项目的预测模型。
根据权利要求8所述的预测模型建立方法，其特征在于，若所述外源特征包括所述待测项目对应的搜索指数集，所述预处理为极值优化处理，则所述对所述外源特征进行预处理的步骤包括：

获取所述搜索指数集的第一四分位数、第三四分位数和四分差；

根据所述第一四分位数、所述第三四分位数和所述四分差确定搜索指数的第一阈值和第二阈值，所述第一阈值小于所述第二阈值；

将所述搜索指数集中大于所述第二阈值的搜索指数转换为所述第二阈值，将所述搜索指数集中小于所述第一阈值的搜索指数转换为所述第一阈值。
根据权利要求9所述的预测模型建立方法，其特征在于，所述对所述外源特征进行预处理的步骤还包括：

根据邻近kNN算法，对经过极值优化处理的搜索指数进行缺失值补充。
根据权利要求8所述的预测模型建立方法，其特征在于，所述按照预设规则对所述特征集中的特征进行特征筛选，以获取预测特征的步骤包括：

计算所述特征集中的各个特征值的pearson相关系数；

将所述特征集中选择pearson相关系数小于或者等于预设相关系数的特征，作为预测特征。
根据权利要求9所述的预测模型建立方法，其特征在于，所述按照预设规则对所述特征集中的特征进行特征筛选，以获取预测特征的步骤包括：

计算所述特征集中的各个特征值的pearson相关系数；

将所述特征集中选择pearson相关系数小于或者等于预设相关系数的特征，作为预测特征。
根据权利要求10所述的预测模型建立方法，其特征在于，所述按照预设规则对所述特征集中的特征进行特征筛选，以获取预测特征的步骤包括：

计算所述特征集中的各个特征值的pearson相关系数；

将所述特征集中选择pearson相关系数小于或者等于预设相关系数的特征，作为预测特征。
根据权利要求8所述的预测模型建立方法，其特征在于，所述待测项目为流感预测项目，所述外源特征包括搜索指数、天气特征和环境特征，所述预设回归模型为LASSO回归模型。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有预测模型建立程序，所述预测模型建立程序可被一个或多个处理器执行，以实现如下步骤：

A、获取待测项目在目标时间单元之前的一个或多个时间单元内的外源特征，以及在目标时间单元前的自回归时间特征；

B、对所述外源特征进行预处理，并对所述自回归时间特征和经过所述预处理的外源特征进行归一化处理，以获取归一化的特征集；

C、按照预设规则对所述特征集中的特征进行特征筛选，以获取预测特征；

D、将所述待测项目在所述目标时间单元内的实际观测值作为预测目标，将所述多个预测特征和所述预测目标作为一个预测样本；

E、按照所述A至D的步骤分别获取多个时间单元的多个预测样本，将所述多个预测样本输入到预设回归模型中进行训练以确定模型参数，将确定模型参数后的所述预设回归模型作为所述待测项目的预测模型。
根据权利要求15所述的计算机可读存储介质，其特征在于，若所述外源特征包括所述待测项目对应的搜索指数集，所述预处理为极值优化处理，则所述对所述外源特征进行预处理的步骤包括：

获取所述搜索指数集的第一四分位数、第三四分位数和四分差；

根据所述第一四分位数、所述第三四分位数和所述四分差确定搜索指数的第一阈值和第二阈值，所述第一阈值小于所述第二阈值；

将所述搜索指数集中大于所述第二阈值的搜索指数转换为所述第二阈值，将所述搜索指数集中小于所述第一阈值的搜索指数转换为所述第一阈值。
根据权利要求16所述的计算机可读存储介质，其特征在于，所述对所述外源特征进行预处理的步骤还包括：

根据邻近kNN算法，对经过极值优化处理的搜索指数进行缺失值补充。
根据权利要求15所述的计算机可读存储介质，其特征在于，所述按照预设规则对所述特征集中的特征进行特征筛选，以获取预测特征的步骤包括：

计算所述特征集中的各个特征值的pearson相关系数；

将所述特征集中选择pearson相关系数小于或者等于预设相关系数的特征，作为预测特征。
根据权利要求16所述的计算机可读存储介质，其特征在于，所述按照预设规则对所述特征集中的特征进行特征筛选，以获取预测特征的步骤包括：

计算所述特征集中的各个特征值的pearson相关系数；

将所述特征集中选择pearson相关系数小于或者等于预设相关系数的特征，作为预测特征。
根据权利要求15所述的计算机可读存储介质，其特征在于，所述待测项目为流感预测项目，所述外源特征包括搜索指数、天气特征和环境特征，所述预设回归模型为LASSO回归模型。