WO2020043028A1

WO2020043028A1 - 一种利用历史空气质量数据特征预测空气污染的方法

Info

Publication number: WO2020043028A1
Application number: PCT/CN2019/102417
Authority: WO
Inventors: 许军; 何新
Original assignee: 司书春; 许军
Priority date: 2018-08-25
Filing date: 2019-08-25
Publication date: 2020-03-05
Also published as: WO2020043029A1; WO2020043027A1

Abstract

现有空气质量预测方式有很多弊端，第一种需要大量的参数数据输入，并且对计算资源以及气象监控网络有极高的要求；第二种由于基于历史气象数据以及历史空气质量数据，同时需要两种数据，而且这种简单的基于历史气象数据和历史空气质量数据的预测方法准确度较低。本方案提供了对中小尺度进行精确和实时的预测的方法，并且可以准确预测污染飘移的移动方向和轨迹。

Description

一种利用历史空气质量数据特征预测空气污染的方法

技术领域

本发明涉及一种利用历史空气质量数据特征预测空气污染的方法，属于环境监测领域。

背景技术

在工业化过程中，人类对自然环境的破坏比较严重，产生了各种污染，而大气污染便是其中主要的污染之一。大气污染直接危害着人们的身体健康，因此，人们存在能够获知较为准确的未来日期的空气质量的需求，以便安排自己的工作和生活，并且，这一需求比较强烈。

空气质量数据一般主要来自环保部门的实测值。而目前的技术也有对空气质量进行预测的技术，主要分为两种：一种是基于化学预报模式计算进行预报，即建立扩散模型，基于化学预报模式计算进行预报的方法，需要极高的计算资源，难以实现；另一种是基于当地历史气象数据及历史空气质量数据，结合预测时刻气象数据，对当地预测时刻的空气质量数据进行预测，这种方法，对当地预测时刻的空气质量数据进行预测时，所选取的历史气象数据及历史空气质量数据为历史日期中与预测时刻相同时刻的数据，比如预测时刻为15：00，则所选取的历史气象数据及历史空气质量数据为历史某个或某些日期15：00时的数据，采用这种方法所预测得到的空气质量的数据准确度比较低。

上述两种空气质量预测方式有很多弊端，第一种需要大量的参数数据输入，并且对计算资源以及气象监控网络有极高的要求；第二种由于基于历史气象数据以及历史空气质量数据，同时需要两种数据，而且这种简单的基于历史气象数据和历史空气质量数据的预测方法准确度较低。这两种方法都需要气象数据，而且无法对中小尺度进行精确和实时的预测；无法准确预测污染飘移的移动方向和轨迹。

有相关人员对污染物预测进行了一些研究。

中国专利申请号：201510287229.2，发明名称：空气质量的预测方法和装置。该发明从利用预测地区和周边预设距离范围内所有地区的历史气象数据和历史空气质量数据，从中选取一定的历史气象数据和历史空气质量数据，将这些数据和当前的气象数据与空气质量数据一并作为输入参数，输入函数进行空气质量预测。该发明仍然需要气象数据，而且无法预测污染物飘移的路径和走向趋势。

中国专利申请号：201710818682.0，发明名称：空气质量预测方法及装置。该发明利用空气质量历史数据以及目标日期，简单通过分析历史空气质量在目标日期所可能的空气情况的概率进行预测。完全不利用现有监测数据，导致预测准确性大为降低并且有很可能出现不符合当时情况的预测。

发明内容

在先申请：PCT/CN2019/051245

术语

1.历史空气质量数据：历史某时刻的空气污染物浓度。

2.历史空气质量数据特征：历史某两个时刻间，表达被监测区域前一时刻对后一时刻周围区域污染物的贡献的向量。

3.历史空气质量数据特征库：由表征历史空气质量数据特征的向量组成的数据库。

4.空气质量数据帧：将待预测地区根据预测需求划分为设定密度的网格，将历史空气质量数据根据时间以及地理位置赋予网格内，生成以时间序列为基础的带有地理位置信息的空气质量数据集。

5.空气质量数据矩阵：将数据帧所包含的数据以矩阵的形式表达得到的矩阵即为空气质量数据矩阵。

6.近期空气质量数据：待预测污染过程截止到与历史数据进行比对之前所统计得到的空气质量数据。

7.近期空气质量数据特征：待预测污染过程截止到与历史数据进行比对之前的某两个时刻间，表达被监测区域前一时刻对后一时刻周围区域污染物的贡献的向量。

8.匹配程度系数：表示待预测污染过程的近期空气质量数据特征与待匹配历史空气质量数据特征的匹配程度的系数。

9.向量组：根据两时刻空气质量数据帧计算得到的包含每一个网格内特征向量表征污染物扩散路径的向量组。

10.时刻间空气质量数据特征：表征两时刻间污染物扩散信息的向量。

11.比值对比矩阵：由历史空气质量数据帧和当前空气质量数据帧的数据对比形成比值对比数据帧后，比值对比数据帧所对应的矩阵为比值对比矩阵。

12.相似网格区间：通过特征向量匹配方法，得到的一段与近期空气质量数据发展过程相似的历史空气质量数据。

13.差值对比矩阵：由历史空气质量数据帧和当前空气质量数据帧的数据的差值形成差值对比数据帧后，差值对比数据帧所对应的矩阵为差值对比矩阵。

为了克服现有技术中对空气质量预测需要风速风向等气象参数对计算资源要求很高的弊端，或者现有技术中依靠历史数据进行的简单概率预测的不足。本发明提供了一种利用历史空气质量数据特征预测空气污染的方法，利用较少的计算资源、不使用不易获得的近地面气象数据情况下，准确地预测空气污染以及污染飘移路径趋势。为实现上述目的，本发明提供如下技术方案：

建立历史空气质量数据库

获得历史空气质量数据、地理位置信息和待预测区域等信息，建立历史空气质量数据库，具体做法为：

确定待预测地区的地理区域范围；获取待预测区域范围内的带有地理位置信息的历史空气质量数据，这些带有地理位置信息的历史空气质量数据可以是国控站、超级站、空气质量监测微站和移动站等采集的数据。

建立网格化数据库

将待预测地区根据预测需求划分为设定密度的网格，将历史空气质量数据根据时间以及地理位置赋予网格内，生成带有二维地理位置信息的和时间戳信息的空气质量数据帧。

以时间信息为轴建立三维时空网格，将带有二维地理位置信息和空气质量数据的数据帧排列，生成三维时空网络。

网格内赋予带有地理位置信息和时间戳信息的空气质量方法：

1)在同一时刻内仅有一个空气质量信息落入了一个网格，该网格的空气质量数据是这一个空气质量信息。

2)在同一时刻内有多个空气质量信息落入了一个网格，该网格的空气质量数据为这些空气质量信息的平均值。

3)没有空气质量信息落入的网格，该网格的空气质量数据可以通过同一时刻，相邻空间的网格数据经插值、扩散模型等数学方法得来。

4)没有空气质量信息落入的网格，该网格的空气质量数据还可以通过同一空间，相邻时刻的网格数据经插值、扩散模型等数学方法得来。

5)每个二维地理网格的边长可以是10米-1000米。

6)同一时刻指该时刻点前后1分钟～1小时的空气质量数据。

向量化分析网格化数据库

分析历史空气质量数据库的特征

分析历史空气质量数据库特征，分析带有地理位置信息的空气质量数据帧，做法为对前一时刻数据帧内每个网格对后一时刻数据帧内的该网格相邻位置的污染贡献分析，得到这两个时刻间的历史空气质量数据特征，该特征是这两个时刻间每一个网格对周边的污染贡献，代表了这两个时刻间污染飘移的方向，多个时刻间的连续特征即能表示污染飘移的路径。

空气质量数据矩阵的获得方法：

将在T ₁时刻的历史空气质量数据根据地理位置信息填充至划分的网格内，得到T ₁时刻空气质量数据帧。数据帧即是三维时空网络中，一个时刻下的带有二维地理位置信息的空气质量数据平面。

将T ₁时刻空气质量数据帧根据网格转化为A矩阵，A矩阵中第一行第一列的元素的值即为T ₁时刻空气质量数据帧中第一行第一列的空气质量，以此类推A矩阵中第m行第n列的元素的值即为T ₁时刻空气质量数据帧中第m行第n列的空气质量，A矩阵代表T ₁时刻区域内空气质量数据帧。

T ₂时刻空气质量数据矩阵B同理通过上述方法获得，B矩阵代表T ₂时刻区域内空气质量数据帧。

历史空气质量数据特征的获得方法：

分别计算前一时刻每一个网格对下一时刻相邻网格的污染贡献，每一个网格对相邻网格的污染贡献通过向量的计算方式获得。

B _(m-1)(n-1)	B _(m-1)n	B _(m-1)(n+1)
B _m(n-1)	A _mn	B _m(n+1)
B _(m+1)(n-1)	B _(m+1)n	B _(m+1)(n+1)

得到分析矩阵

A _mn为前一时刻的空气质量数据，B _mn为后一时刻空气质量数据。上文中T ₁为前一时刻空气质量数据，T ₂后一时刻空气质量数据。

历史空气质量数据的向量特征：T ₁时刻中A _mn区域对T ₂时刻周边网格污染漂移可以用向量的方式表示，根据的污染漂移方向可以人为的分为三种方式。

方式一：T ₁时刻中A _mn对其上、下、左、右四个方向在T ₂时刻有漂移的贡献。也就是A _mn对B _(m-1)n、B _m(n-1)、B _m(n+1)和B _(m+1)n)有贡献。污染漂移向量为

那么方式一的污染漂移向量计算方法如下：

综合特征向量：

方式二：T ₁时刻中A _mn对其左上、左下、右上、右下四个方向在T ₂时刻有漂移的贡献。也就是A _mn对B _(m-1)(n-1)、B _(m-1)(n+1)、B _(m+1)(n-1)、B _(m+1)(n+1)有贡献。污染漂移向量为

那么方式二的污染漂移向量计算方法如下：

综合特征向量：

方式三：T ₁时刻中A _mn对其上、下、左、右、左上、左下、右上、右下八个方向在T ₂时刻有漂移的贡献。也就是A _mn对B _(m-1)(n-1)、B _(m-1)n、B _(m-1)(n+1)、B _m(n-1)、B _m(n+1)、B _(m+1)(n-1)、B _(m+1)n)、B _(m+1)(n+1)有贡献。污染漂移向量为

那么方式三的污染漂移向量计算方法如下：

综合特征向量：

表示A _mn对周边的贡献也就是这两个时刻间污染飘移的方向，也就是A _mn在T ₁时刻到T ₂时刻之间空气质量数据特征；多个时刻间的连续特征即能表示污染物飘移路径。分别计算网格内每一区域在T ₁时刻到T ₂时刻的向量得到，T ₁时刻到T ₂时刻的向量组，这个向量组即是这两个时刻间污染情况的特征；再分别计算历史空气质量数据中所有时刻间的污染物向量组，即得到历史时间段内的空气质量历史数据特征。将这些历史空气质量数据特征存档保存即为历史空气质量数据特征库。在这里污染飘移向量也就是特征向量。

分析近期空气质量数据特征

分析近期空气质量数据特征的方法与建立历史空气质量数据特征库的方式类似。首先将空气质量监测站的带有地理位置信息的空气质量数据赋值于待预测区域已经划分好的网格内，生成当前空气质量数据帧和以当前时刻为基准向前一定时刻的一个或多组数据帧，进而生成当前空气质量和向前一定时刻的空气质量数据矩阵。

利用上述建立的历史空气质量数据特征库中提到的建立历史空气质量数据特征的获得方法和空气质量数据矩阵的获得方法，可以得到近期空气质量数据变化的向量组，这个向量组就是近期空气质量数据特征。

A ^c表示当前污染数据矩阵

B ^c表示当前向前一定时刻t ₁的污染数据矩阵

表示近期污染飘移的方向，也就是

区域在t ₁时间内对当前空气质量的影响，多个时刻间的连续特征能表示近期污染物飘移路径。

数值分析网格化数据库

用比值或差值分析的方法对近期空气质量数据与历史空气质量数据进行分析。

将近期空气质量数据单元与历史空气质量数据单元进行比较，找到和选定近期空气质量数据帧最接近的，或者针对近期空气质量数据帧中每一个数据都成一定比例放大或缩小的历史空气质量数据帧，也就找到了与当前空气质量或者说当前污染状况、运动路径最接近的历史空气质量运动过程或者污染过程。

近期与历史空气质量数据的分析举例：

有如下历史空气质量数据帧与近期空气质量数据帧，现将两数据帧进行对比，以确定A数据帧所在历史污染过程是否可以对近期污染过程的发展趋势进行预测。

历史空气质量数据帧

近期空气质量数据帧

由历史空气质量数据帧和当前空气质量数据帧得到对应A矩阵和A ^c矩阵。

比值分析方法

ε代表近期数据单元与同一位置历史数据单元的比值。首先选取近期数据帧中的单个数据A ^c ₁₁与历史对应地理位置数据A ₁₁进行运算求得比值

同理，求得该区域内所有网格数据的

分别对比值ε的矩阵中的元素的数值进行统计计算ε的平均值，

可以为比值特征值。

A-A ^c比值对比数据帧

由比值数据帧可以得到比值对比矩阵

ε的对比矩阵

差值分析方法

δ代表近期数据单元与同一位置历史数据单元的差值绝对值。首先选取近期数据帧中的单个数据A ^c ₁₁与历史对应地理位置数据A ₁₁进行运算求得当前数据与历史数据的差值δ ₁₁＝A ^c ₁₁-A ₁₁，同理，求得该区域内所有网格数据的δ _mn＝A ^c _mn-A _mn，分别对比值δ的矩阵中的元素的数值进行统计计算δ的平均值，δ即为差值特征值。

A-A ^c差值对比数据帧

由差值可以得到差值对比矩阵

差值对比矩阵

匹配近期空气质量数据与历史空气质量数据

特征向量匹配方法

确定了近期空气质量数据特征后，将近期空气质量数据特征与历史空气质量数据特征进行比较，得到匹配系数η。可以根据向量最短距离、夹角余弦、马氏距离、向量相似度等数学方法，找到和近期空气质量数据特征最接近的历史空气质量数据特征，也就找到了与当前空气质量或者说当前污染状况、运动路径最接近的历史空气质量运动过程或者污染过程。

在匹配过程中，应当考虑其他影响因子f如下：

设定温度影响因子(factor temperature)：f _t与温度参数(t _temp)有关，当高于一定温度时候，或者低于一定温度时候，是极端的高温或低温，不适合预测。

设定湿度影响因子(factor humidity)：f _h，与湿度参数(h _humid)有关，当高于一定湿度时候，不适合预测。

季节影响因子(factor season)：f _s与季节参数(s _season)有关，若历史空气质量数据与近期空气质量数据所处的季节、温湿度接近或相同，则匹配程度较高；若历史空气质量数据与近期空气质量数据所处的季节、温湿度相差较大，则影响因子值较小。

设定极端天气影响因子(factor weather)：f _w与天气情况参数(w _weather)有关，历史空气质量数据与近期空气质量数据所处时间有极端天气，则极端天气影响因子数值很低，当时数据不能作为预测参考，当前情况也不适合进行预测。

设定路径影响因子(factor path)：f _p与污染路径参数(p _path)有关，历史空气质量数据与近期空气质量数据中，污染移动路径的以及污染源头的距离应做考虑。若近期空气质量数据特征与多个历史空气质量数据特征的污染物漂移路径有较高的匹配度，那么与近期空气质量数据特征中路径距离更近的历史空气质量数据特征路径的匹配度更高。

设定扩散程度影响因子(factor diffusion)：f _d与扩散程度参数(d _diffusion)有关，在有相似的污染物扩散路径的情况下，两次污染过程的扩散程度应当作为参数。若两次污染过程的扩散程度、影响范围的区域面级相似，则匹配程度系数应相应增大，若两次污染过程的扩散程度、影响范围的区域面级相差较大，则匹配系程度系数相应减小；

设定重复性影响因子(factor repeatability)：f _r与重复次数参数(r _{repeatability})有关(r _{repeatability})，历史相似污染过程发生的次数应当作为参数。若待预测污染过程所匹配的相似历史污染过程模型曾多次发生，则认为使用该历史空气质量数据所进行预测的可靠性较强，应设置较高的匹配程度系数；

设定地形影响因子(factor geo)：f _g与地形参数(g _geo)有关，历史与待预测污染过程的产生地点所处的地形因素也应当作为参数。若两次污染过程的产生地地形相差较大，例如其中一次是在数年前当地没有较多建筑，而另一次是在较过去有了很多建筑的情况下，数年前没有建筑的匹配程度系数相应减小。

其他影响因子判定方法表：

影响因素	影响参数	条件	影响因子
湿度	h _humid	湿度＞90％	f _h→0
湿度	h _humid	湿度＜90％	f _h→1
温度	t _temp	温度＞40℃或温度＜-20℃	f _t→0
温度	t _temp	-20℃＜温度＜40℃	f _t→1
极端天气	w _weather	沙尘暴、暴雨、暴风雪等	f _w→0
路径	p _path	路径重复次数大于5次	f _p→1
扩散、影响范围	d _diffusion	扩散、影响范围相似	f _d→1
地形	g _geo	周边有高大建筑物遮挡	f _g→0

夹角余弦对比匹配方法：

要进行特征对比匹配则需要将近期空气质量数据特征与历史空气质量数据特征进行对比，即将

与

进行对比。

t时刻第m行，第n列方格应用夹角余弦法的匹配系数

余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。余弦值越接近1，就表明夹角越接近0度。同理，表征被监测区域在特定时刻近期与历史空气质量特征的向量

与

的对比也可以用夹角余弦法完成，计算过程同上(注：针对被监测时段获得的所有空气质量数据。

t时刻的整个网格范围内应用夹角余弦法匹配系数η ^t：

一段时间T内某一时刻第m行，第n列方格应用夹角余弦法的匹配系数

q代表T时间段内进行匹配的次数：

一段时间T内整个网格范围内应用夹角余弦法的匹配系数η ^T，q代表T时间段内进行匹配的次数：

考虑到其他影响因子，匹配系数的修正公式为：

η′＝f×η

η′为修正后匹配系数

匹配系数越接近于1，则匹配性越好，当前特征与历史空气质量数据特征库的某一段特征越相似，未来发生的可能性越大；匹配系数越接近于0，则匹配性越差，当前特征与历史空气质量数据特征库的某一段特征越不相似，越不可能发生。

匹配系数	匹配程度
η′→0	越低
η′→1	越高

历史空气质量数据特征的选择：历史空气质量数据特征的选择可以通过对匹配系数直接排名的方式确定，还可以通过筛选后排名的方式确定。

直接排名的方式为将匹配系数或者修正后的匹配系数进行从大到小进行排列，匹配系数或者修正后的匹配系数越接近1，排名越靠前，最终选取排名前10％、20％或者排名前一定比例的匹配系数，该匹配系数所对应的历史空气质量数据特征即可用于对未来空气质量的预测。

例如：总共有10个匹配系数，这些匹配系数及排名情况见下表：

匹配系数	η ₅	η ₃	η ₁	η ₄	η ₂	η ₇	η ₆	η ₉	η ₈	η ₁₀
匹配系数值	0.98	0.97	0.95	0.9	0.89	0.8	0.8	0.75	0.72	0.7
排名	1	2	3	4	5	6	7	8	9	10

根据上表，排名前20％的匹配系数入选，即η ₅和η ₃入选，入选的匹配系数所对应的历史空气质量数据特征可用于对未来空气质量数据的预测。

筛选后排名的方式为先通过客观因素对历史空气质量特征的情况进行一轮筛选，再对筛选后的匹配系数进行排名的方式，确定所需的匹配系数以及对应的历史空气质量数据特征。用于筛选的客观因素包括历史空气质量数据特征当时的天气情况(如历史时刻出现极端天气情况：暴雨、极寒、高温等，则该历史时刻排除)、历史空气质量数据距离当前时刻时间久远(如3年以上的历史数据)。经过筛选排除后，再进行排名并选择对匹配系数。排名方式可以为从大到小进行排列，匹配系数越接近1，排名越靠前，最终选取排名前10％、20％或者排名前一定比例的匹配系数，该匹配系数所对应的历史空气质量数据特征即可用于对未来空气质量的预测。

匹配系数	η ₅	η ₃	η ₁	η ₄	η ₂	η ₇	η ₆	η ₉	η ₈	η ₁₀
匹配系数值	0.98	0.97	0.95	0.9	0.89	0.8	0.8	0.75	0.72	0.7
历史客观因素	高温	-	3年前数据	-	暴雨	-	-	-	-	-
排名	-	1	-	2	-	3	4	5	6	7

根据上表，排名前20％的匹配系数入选，即η ₃和η ₄入选，入选的匹配系数所对应的历史空气质量数据特征可用于对未来空气质量数据的预测。

比值特征值匹配方法

在求得比值对比矩阵之后，根据平均值，众数，数据分布，线性回归等数学方法统计符合设定要求的ε _mn元素的比例。

当达到设定标准的ε的元素比例占ε元素总数量比例超过一定限度，则认为历史空气质量数据帧A与近期空气质量数据帧A ^c相似。

此处以平均值法举例：设定符合要求的ε范围的为在

之内，即先计算比值数据帧元素的平均值

如果ε _mn的数值在

范围内，则认为ε _mn符合规定。符合要求的ε范围可以人为设定，可以设定为比值平均值的倍数，或者固定的范围。

差值特征值匹配方法

在求得差值对比矩阵之后，根据平均值，众数，数据分布，线性回归等数学方法统计符合设定要求的δ _mn元素的比例。

分别对差值δ的矩阵中的元素的数值进行统计和计算，当达到设定标准的元素比例占总元素比例超过一定限度，则认为历史空气质量数据帧A与近期空气质量数据帧A ^c相似。

此处以平均值法举例：设定符合要求的δ范围为在

之内，即先计算差值数据帧的平均值

如果δ _mn的数值在

之内，则认为δ _mn符合规定。符合要求的δ范围可以人为设定，可以设定为差值平均值的倍数，或者固定的范围。

定义λ为相似系数，此处λ为对比矩阵中符合规定的元素占对比矩阵中元素总数量的比值。κ为相似度参数，代表设定的相似度标准，可以人为设定不同数值，如设定为κ＝0.8，则认为λ超过κ＝0.8两张数据帧相似，即两张数据帧匹配，大于零小于κ则不相似，即不匹配。λ反映了预测的准确率，λ越高代表预测准确率越高。

κ为相似度参数，k＝0.8、0.9等

基于匹配结果和当前空气质量情况对未来空气质量预测

向量特征预测

当得到匹配度最高的一段或几段相似网格区间后，以当前空气质量数据为基准(已知当前空气质量数据)，以及已知历史匹配网格的时刻的后续时刻的污染飘移向量(后续时刻的污染飘移向量的计算方式仍为污染飘移向量计算方法)，逆向应用污染飘移向量计算方法对未来空气质量数据进行推算和预测，得到所需的未来空气质量数据，即使用当前空气质量数据帧的元素与对应的特征向量进行矩阵运算，得到在未来，当前元素位置周边位置的空气质量数据信息，以此类推计算每个数据帧的元素，即可得到未来空气质量的数据。

在使用向量特征进行预测时，如果当有多段相似的区间可以用于未来空气质量的预测，匹配系数或者修正后匹配系数的百分数可以作为预测的准确率赋予对应的预测情况。

在进行预测的时候，需要计算以目标网格为中心的对周围网格对其的贡献值，然而处在统计区域边界的数据(网格数据)则会因为四周数据不全而出现计算障碍的情况，针对这种情况，以下为两种处理方法：

改进边界处理方法1：数据边界内缩法

将统计区域边界最外侧的一圈单元格内缩形成新的统计区域，原始的边界区域网格数据不作为预测的基础，原始的边界区域的网格数据用于向量特征的计算。则新统计区域的所有网格数据可以作为预测的基础数据以及参与向量特征计算。

A ^c数据帧内缩后举例

举例说明，这种情况下，第一行、第一列，最后一行和最后一列的数据都不作为预测的基础数据，但是都可以作为向量计算的基础数据。内缩后，可以用于预测的基础数据区域为A ^c ₂₂、A ^c _2(n-1)、A ^c _(m-1)2、A ^c _(m-1)(n-1)网格内的数据(包含刚才四个坐标)。

改进边界处理方法2：数据边界扩展法

将统计区域边界单元格外扩一圈形成新的统计区域，扩展的方法可以是原始边界数值直接复制作为新边界的数值，或者使用差值的方式向外扩展一圈。原始数据区域既可以用于预测的基础，还可以用于向量特征的计算。向外新扩展边界的数据不可作为预测的基础，但新向外新扩展边界的数据可以用于向量特征的计算。

举例说明，这种情况下，第一行、第一列，最后一行和最后一列的数据为扩展出来的，都不作为预测的基础数据，但是都可以作为向量计算的基础数据。原始数据区域为A ^c ₁₁、A ^c _1n、A ^c _m1、A ^c _mn网格内的数据(包含刚才四个坐标)，这个区域内的数据还可以用于预测的数据基础。

比值特征预测

当根据相似系数，得到与近期空气质量数据匹配的一张或者多张历史空气质量数据帧的时候。t时刻后的未来空气质量预测方法，是以计算比值特征的历史空气质量数据帧时间点之后t时刻的历史空气质量数据帧及比值特征为基础，逆向应用比值特征分析方法得到t时刻后的未来的空气质量数据。即使用历史空气质量数据帧时间点之后t时刻的历史空气质量数据帧的矩阵，以及比值特征值，进行矩阵乘法运算得到未来空气质量数据。

λ为相似系数的百分数可以作为预测的准确率赋予对应的预测情况。

A ^c+t：未来t时刻的空气质量数据矩阵

A ^+t：历史空气质量数据帧时间点之后t时刻的历史空气质量数据的矩阵

比值特征值

差值特征预测

当根据相似系数，得到与近期空气质量数据匹配的一张或者多张历史空气质量数据帧的时候。t时刻后的未来空气质量预测方法，是以计算差值特征的历史空气质量数据帧时间点之后t时刻的历史空气质量数据帧及差值特征为基础，逆向应用差值特征分析方法得到t时刻后的未来的空气质量数据。即使用历史空气质量数据帧时间点之后t时刻的历史空气质量数据帧的矩阵，以及差值特征值，进行矩阵加法运算得到未来空气质量数据。

A ^c+t：未来t时刻的空气质量数据矩阵

附图简要说明

图1为空气质量预测流程示意图；

图2为向量

示意图；

图3为T ₁时刻到T ₂历史空气质量数据特征向量示意图；

图4为向量

示意图；

图5为10：40时刻至10：50时刻每网格空气质量数据特征示意图；

图6为10：40时刻至10：50时刻待测区域内空气质量数据特征示意图；

图7为

与

的夹角θ示意图。

具体实施方式

此实施例中被预测区域为以济南市某地铁站为中心，周围150m＊150m，面积为22500m ²的正方形区域，污染过程自2019年1月23日上午9时持续到2019年1月23日下午5时，取上午10：40-10：50空气质量数据帧进行污染物漂移路径监测分析，空气质量数据帧的分辨率为50M＊50M。本实施方式以一个数据单元为例介绍向量预测的方法。

将区域内以50M＊50M为单位划分成为网格状，则本区域内包含9个网格，取左下角网格为例进行污染物漂移路径分析。将2019年1月23日上午10：40与10：50两时刻的历史空气质量数据根据地理位置信息填充至划分的网格内，得到10：40时刻空气质量数据帧和10：50时刻空气质量数据帧。空气污染数据的地理位置时常不是连续的，没有数据的网格内的空气质量数据可以依据已有空气质量数据利用插值等数学算法得来，最终得到2019年1月23日上午10：40与10：50两时刻污染统计数据(PM _2.5浓度值)如下表所示：

10：40分空气质量数据表格

100	75	50
135	110	85
170	145	120

10：50分空气质量数据表格

150	135	120
165	150	135
180	165	150

将10：40时刻空气质量数据帧根据网格转化为A矩阵，A矩阵中第一行第一列的元素的值即为10：40时刻数据帧中第一行第一列的空气质量，以此类推A矩阵中第m行第n列的元素的值即为10：40时刻数据帧中第m行第n列的空气质量，A矩阵代表10：40时刻区域内污染程度数据帧。同理，将10：50时刻污染数据帧转化为B矩阵。

分别计算10：40时刻每一个网格对10：50时刻相邻网格的污染贡献，每一个网格对相邻网格的污染贡献通过向量的计算方式获得。如下表格：

B _(m-1)(n-1)	B _(m-1)n	B _(m-1)(n+1)
B _m(n-1)	A _mn	B _m(n+1)
B _(m+1)(n-1)	B _(m+1)n)	B _(m+1)(n+1)

根据编号规则对10：40与10：50两个网格区域进行编号(以网格区域左上角网格的左上角顶点为原点，横向为x轴，纵向为y轴建立坐标网格(为保证网格编号方向与矩阵排列方向相符，y轴正向向下)，按照网格在x轴与y轴方向上的排位次序对网格进行编号)，坐标网格表格如下：

10：40时刻空气质量坐标网格

A ₁₁ 100	A ₁₂ 75	A ₁₃ 50
A ₂₁ 135	A ₂₂ 110	A ₂₃ 85
A ₃₁ 170	A ₃₂ 145	A ₃₃ 120

10：50时刻空气质量坐标网格

B ₁₁ 150	B ₁₂ 135	B ₁₃ 120
B ₂₁ 165	B ₂₂ 150	B ₂₃ 135
B ₃₁ 180	B ₃₂ 165	B ₃₃ 150

则10：40时刻左下角网格区域对10：50时刻周边区域的污染贡献为

向量计算方式如下：

向量

代表10：40到10：50时间段内A ₃₁区域给B ₂₂区域的贡献，下列同理。

向量

代表10：40到10：50时间段内时刻A ₃₁区域污染扩散信息。图4为向量

示意图。

同理分别计算向量

分别进行计算，图5表示上述向量，该向量图为每个网格的空气质量数据特征。

表征本区域10：40时刻至10：50时刻空气质量历史数据特征得向量值。

为10：40到10：50时刻区域的空气质量数据特征。

在确定了被预测区域近期空气质量数据特征后，将空气质量数据特征与数据库中历史空气质量数据特征进行比较，找到和近期空气质量数据特征最接近的历史空气质量数据特征，在找到匹配的历史空气质量数据特征之后，以当前的空气质量数据为基础数据输入，进行向量的运算和拟合，即可对未来空气质量进行预测。

当前时刻为2019年1月28日8：00，以左下角网格进行污染物预测的实施例分析预测2019年1月28日8：10空气污染情况。进行预测的第一步即将近期向量与历史向量进行对比拟合，根据历史空气质量数据特征库，得到历史同期时刻间空气质量数据特征

利用同样的计算方式，得到2019年1月28日07：50至2019年1月28日8：00间空气质量数据特征。将

与

进行对比。

根据夹角余弦公式：

x ₁，y ₁为

向量的坐标值；x ₂，y ₂为

向量的坐标值。

则

0.9998≈1，所以认为这两个向量的匹配度极高，可以利用此历史数据对污染物进行预测，已知与

相匹配的历史空气质量数据在下一10分钟梯度的时刻间空气质量数据特征

其中向量的分量信息为

通过监测数据已知08：00时刻B ₃₁网格的污染物浓度为180，则根据以上信息预测得到11：00各网格的污染浓度为B ₂₂＝160，B ₂₁＝174，B ₃₂＝174。

8：10左下网格周边的空气污染情况预测结果：


174	160
	174

Claims

一种利用历史空气质量数据特征预测空气污染的方法，包含如下步骤：

1)建立历史空气质量数据库：所述历史空气质量数据库中包含各种空气质量监测设备获取的历史空气质量数据；所述历史空气质量数据包含二维地理位置信息和时间戳信息；

2)建立三维时空网格：所述三维时空网格以二维地理位置和时间为轴；

3)建立网格化数据库：每个网格内产生唯一一个数据单元；所述数据单元由落入该网格的历史空气质量数据计算得出；或者由该网格的邻近网格推算得出；

4)对网格化数据库的数据进行比值分析，对近期空气质量数据与历史空气质量数据进行分析得到比值对比矩阵和比值特征值；

5)将网格化数据库中当前空气质量的数据帧和历史空气质量数据帧进行匹配，所述匹配方法为对比值对比矩阵的元素进行统计，统计比值对比矩阵中符合设定要求的元素比例，所述比例超过设定值，则得到与当前空气质量的数据帧相似的历史空气质量数据帧；

6)以相似的历史空气质量数据帧之后一段时间的数据单元的空气质量数据和比值特征值为基础，预测未来时段的数据单元的数值；

所述比值分析包含的步骤如下：

1)先建立分析矩阵

由历史空气质量数据帧和当前空气质量数据帧的数据得到对应的A矩阵和A ^c矩阵；

2)计算比值与比值特征值

计算矩阵中对应位置的比值
并对得到的ε计算平均值
为比值特征值。
一种利用历史空气质量数据特征预测空气污染的方法，包含如下步骤：

1)建立历史空气质量数据库：所述历史空气质量数据库中包含各种空气质量监测设备获取的历史空气质量数据；所述历史空气质量数据包含二维地理位置信息和时间戳信息；

2)建立三维时空网格：所述三维时空网格以二维地理位置和时间为轴；

3)建立网格化数据库：每个网格内产生唯一一个数据单元；所述数据单元由落入该网格的历史空气质量数据计算得出；或者由该网格的邻近网格推算得出；

4)对网格化数据库的数据进行差值分析，对近期空气质量数据与历史空气质量数据进行分析得到差值对比矩阵和差值特征值；

5)将网格化数据库中当前空气质量的数据帧和历史空气质量数据帧进行匹配，所述匹配方法为对差值对比矩阵的元素进行统计，统计差值对比矩阵中符合设定要求的元素比例，所述比例超过设定值，则得到与当前空气质量的数据帧相似的历史空气质量数据帧；

6)以相似的历史空气质量数据帧之后一段时间的数据单元的空气质量数据和差值特征值为基础，来\预测未来时段的数据单元的数值；

所述差值分析包含的步骤如下：

1)先建立分析矩阵

由历史空气质量数据帧和当前空气质量数据帧的数据得到对应的A矩阵和Ac矩阵；

2)计算差值与差值特征值

计算矩阵中对应位置的差值δ _mn＝A ^c _mn-A _mn，并对得到的δ计算平均值
为差值特征值。
如权利要求1或2所述的方法，其特征在于，所述匹配方法为计算符合规定的元素数量与对比矩阵元素总数量的比值(λ)，计算和匹配方法如下：

λ为相似系数，κ为相似度参数，κ的值为0.7、0.8，或0.9。
如权利要求1所述的方法，其特征在于，所述设定要求是如下之一：

1)ε的平均值加减0.1；

2)ε的平均值加减0.3；

3)ε的平均值加减0.4；

4)0.3～1；

5)0.5～1；

6)0.7～1。
如权利要求2所述的方法，其特征在于，所述设定要求是如下之一：

1)δ的平均值加减0.1倍δ；

2)δ的平均值加减0.15倍δ；

3)δ的平均值加减0.25倍δ；

4)δ的平均值加减0.3倍δ；

5)δ的平均值加减0.4倍δ。
如权利要求1或2所述的方法，其特征在于，所述三维时空网格中每个网格的特征为：二维地理边长：10米～1000米；时长：1分钟～1小时。
如权利要求1或2所述的方法，其特征在于，所述部分数据单元不包括位于三维时空网格边界处的网格的数据单元。
如权利要求1或2所述的方法，其特征在于，步骤5)中所述相似的历史空气质量数据帧要经过筛选，所述筛选方式为历史空气质量数据帧所在时刻如出现极端天气，则该历史空气质量数据帧不相似，所述极端天气包括如暴雨、极寒或高温；所述筛选方式为历史空气质量时刻距离当前时刻超过一定时间，则该历史空气质量数据帧不相似，所述一定时间为1年、2年或3年。
如权利要求1所述的方法，其特征在于，所述预测方法为：

A ^c+t：未来t时刻的空气质量数据矩阵；

A ^+t：历史空气质量数据帧时间点之后t时刻的历史空气质量数据的矩阵；

比值特征值。
如权利要求2所述的方法，其特征在于，所述预测方法为：

A ^c+t：未来t时刻的空气质量数据矩阵；

A ^+t：历史空气质量数据帧时间点之后t时刻的历史空气质量数据的矩阵；

差值特征值。
如权利要求3所述的方法，其特征在于，相似系数λ的百分数作为预测的准确率赋予对应的预测情况。