WO2023116430A1

WO2023116430A1 - 视频与城市信息模型三维场景融合方法、系统及存储介质

Info

Publication number: WO2023116430A1
Application number: PCT/CN2022/137042
Authority: WO
Inventors: 陈彪; 陈顺清; 刘慧敏
Original assignee: 奥格科技股份有限公司
Priority date: 2021-12-23
Filing date: 2022-12-06
Publication date: 2023-06-29
Also published as: CN114255285B; CN114255285A

Abstract

本发明涉及地图制图学领域，为基于启发式算法的视频与城市信息模型三维场景的融合方法、系统及存储介质，其方法包括：根据视频拍摄图像、三维场景视图，生成特征点文件；初始化视椎体和相机参数；设置相机参数更新速度、方向和算法迭代次数，更新相机参数；计算相机投影矩阵、相机空间坐标、适应度函数；适应度函数没超过设定阈值时当前匹配到的相机参数为全局最优解，若超过则根据本次迭代结果生成所有参数的解空间，筛选出适应度值最小的n组解作为候选最优解，作为下一轮迭代的搜索基点；当满足算法迭代次数时从候选最优解里筛选出适应度值最小的作为最优解输出。本发明提高了相机位置匹配的鲁棒性，实现了相机参数智能匹配。

Description

视频与城市信息模型三维场景融合方法、系统及存储介质

技术领域

本发明涉及地图制图学领域，尤其涉及基于启发式算法的视频与城市信息模型三维场景的融合方法、系统及存储介质。

背景技术

在实景三维GIS领域中，基于三维模型的场景可以真实还原地形地貌、建筑、桥梁等物理世界的对象，具备高精度、等比例、高仿真的效果。但是，三维模型是某一时间段的成果，属于静态数据，无法体现现势性，无法体现当前最新的情况。为解决这个问题，实景三维GIS越来越多地接入监控视频等物联网数据，来满足安防、交通等不同领域的业务需求。视频与三维场景结合的方式一般分为弹窗展示视频和视频与三维场景融合两种方法。后者又称之为视频融合，用户可在观看视频的同时了解周围场景，具有还原真实度高、直观、视频位置与真实位置贴切、易于理解等特点。

目前视频与三维场景的融合大多采用手工操作和自动映射两种方式。其中手工操作需要人工实现视频画面与三维场景的校准，通过调整摄像头的位置、朝向、俯角等多个参数值来还原摄像机信息，该方法效率低、精度差。自动映射的方法即通过相机内参和相机外参计算投影矩阵，实现视频与场景的精准映射。视频与三维场景融合的关键一步是相机标定，即相机的内、外参数估计。一般有两种方式，一是利用最小二乘法最小化重投影误差，计算出相机的投影矩阵，该方法需要大量的特征点(至少6对)，由于相机视野有限，且模型有时会缺乏3D细节，该方法具有特征点难以选取的局限性；二是预先用校准仪器估计相机内参，再从当前场景中选取至少三个特征点估计相机外参，该方法在获得相机内外参的过程中都增加了用户交互的环节，且相机姿态在运行环境下也会发生改变，尤其是云台摄像机。此外，当特征点较少时，这两种方法的相机外参的估计受噪声的影响均比较大，即使重新投影的误差很小，但得到的相机位置可能还是有偏差。

发明内容

为了解决现有技术所存在的问题，本发明提出基于启发式算法的视频与城市信息模型三维场景融合方法、系统及存储介质，本发明不以计算相机内外参数为显要步骤，而是基于相机位置、观察点等参数直接得到投影矩阵，然后利用启发式算法动态搜索参数，求得相机投影的最小误差；从而降低了相机标定及计算的难度，提高了相机位置匹配的鲁棒性，提高了相机参数估计的效率，实现了相机参数智能匹配。

本发明实施例中视频与城市信息模型三维场景融合方法，包括以下步骤：

S1、根据视频拍摄图像及其坐标文件、三维场景视图及其坐标文件，标定空间特征点，并生成特征点文件；

S2、初始化视椎体和相机参数；

S3、设置相机参数更新速度、方向和算法迭代次数；

S4、根据相机各参数更新的速度和方向，更新相机参数P'＝P+V _n*s，其中P'为更新后的相机参数，P为更新前的相机参数，V _n为参数更新后的速度值，s为参数的移动方向；

S5、计算相机投影矩阵；

S6、根据相机投影矩阵和特征点三维坐标，计算相机空间坐标；

position'＝Position _{特征点三维坐标}*ProjectionMatrix

其中，Position _{特征点三维坐标}为特征点的三维坐标，由此计算得到相机空间坐标position'＝(m' _i，n' _i)，i＝1,2,3...k；

S7、计算适应度函数；其中，适应度函数定义为特征点的真实相机空间坐标与求解的相机空间坐标的平均误差：

其中(m ₁，n ₁)是特征点的真实相机空间坐标，(m' ₁，n' ₁)是计算的相机空间坐标，k为特征点的数量；

S8、判断适应度函数是否超过设定的阈值；若超过，则执行步骤S9，若没超过，则当前匹配到的相机参数是全局最优解，将全局最优解输出作为匹配结果，得到相机位置、实际成像点和相机视角，实现视频场景与三维场景的融合；

S9、判断所有的参数是否完成本次迭代，若完成，执行步骤S10，否则执行步骤S4至S8；

S10、根据本次迭代结果，生成所有参数的解空间，根据适应度值筛选出适应度值最小的n组解作为候选最优解，作为下一轮迭代的搜索基点；

S11、判断是否满足算法迭代次数iters，若满足，则从当前的相机参数候选最优解里筛选出适应度值最小的作为最优解输出，得到相机位置、实际成像点和相机视角，实现视频场景与三维场景的融合；否则更新速度值V _n，再执行步骤S4至S10。

本发明实施例中视频与城市信息模型三维场景融合系统，包括以下各模块：

特征点文件生成模块，用于根据视频拍摄图像及其坐标文件、三维场景视图及其坐标文件，标定空间特征点，并生成特征点文件；

初始化模块，用于初始化视椎体和相机参数；

参数设定模块，用于设置相机参数更新速度、方向和算法迭代次数；

参数更新模块，用于根据相机各参数更新的速度和方向，更新相机参数P'＝P+V _n*s，其中P'为更新后的相机参数，P为更新前的相机参数，V _n为参数更新后的速度值，s为参数的移动方向；

计算模块，用于计算相机投影矩阵和适应度函数；以及根据相机投影矩阵和特征点三维坐标，计算相机空间坐标；

position'＝Position _{特征点三维坐标}*ProjectionMatrix

所述适应度函数定义为特征点的真实相机空间坐标与求解的相机空间坐标的平均误差：

适应度判断模块，用于判断适应度函数是否超过设定的阈值；若超过，则启动迭代判断模块，若没超过，则当前匹配到的相机参数是全局最优解，将全局最优解输出作为匹配结果，得到相机位置、实际成像点和相机视角，实现视频场景与三维场景的融合；

本次迭代完成判断模块，用于判断所有的参数是否完成本次迭代，若完成，则根据本次迭代结果，生成所有参数的解空间，根据适应度值筛选出适应度值最小的n组解作为候选最优解，作为下一轮迭代的搜索基点；否则返回参数更新模块；

迭代次数判断模块，用于判断是否满足参数设定模块所设定的算法迭代次数，若满足，则从当前的相机参数候选最优解里筛选出适应度值最小的作为最优解输出，得到相机位置、实际成像点和相机视角，实现视频场景与三维场景的融合；否则更新速度值V _n，再返回参数更新模块。

本发明的存储介质，其上存储有计算机指令，当计算机指令被处理器执行时，实现本发明视频与城市信息模型三维场景融合方法的各个步骤。

与现有技术相比，本发明取得了如下有益效果：

1、本发明提供基于启发式算法的视频与三维场景融合方法、系统及存储介质，不以计算相机内外参数为显要步骤，而是基于相机位置、观察点等参数直接得到投影矩阵，然后利用启发式算法动态搜索参数，求得相机投影的最小误差，降低了相机标定及计算的难度、准确性要求，提高了相机位置匹配的鲁棒性。

2、本发明支持多特征点的自适应搜索相机参数，利用较少的相机参数实现视频与三维场景的精准匹配。同时，本发明还解决了无法获得相机精准坐标的问题，且算法的坐标误差能更快地收敛至最优解，实现了相机参数的自动匹配，提高相机参数匹配的效率。

3、另一方面，通常情况下，用户清楚相机及观察中心点的大致位置，可设为相机初始位置，在一定程度上可以提高相机参数估计的效率。

附图说明

图1为本发明实施例维场景融合方法中特征点自动匹配流程示意图；

图2为本发明实施例中涉及到的视椎体成像原理图；

图3为本发明实施例维场景融合方法中相机参数智能匹配的流程示意图。

具体实施方式

本发明公开了基于启发式算法的视频与城市信息模型三维场景融合的方法，主要解决相机参数智能匹配这个重难点的问题。在具体实施方式上，本发明提出改进的启发式算法，支持多特征点的自适应搜索相机参数，利用较少的相机参数实现视频与三维场景的精准匹配。

下面结合实施例及附图对本发明的技术方案做进一步详细的描述，但本发明的实施方式并不限于此。

实施例1

参见图1-3，本实施例基于启发式算法的视频与城市信息模型三维场景融合方法，所采用的技术手段包括：1)依据二三维场景对象的一致性，生成特征点文件，2)选定视椎体初始参数，最大限度利用最少的参数对相机进行标定，3)依据坐标点误差值对相机参数进行自动适配，4)使用坐标点误差值和迭代效果筛选出最优参数。其中，各个相机参数可根据相机情况进行预估，算法不受预估精确度的影响。具体来说，主要包括以下几个步骤：

S1、根据视频拍摄图像及其坐标文件、三维场景视图及其坐标文件，标定空间特征点，并生成特征点文件。

本步骤对视频拍摄图像与三维场景视图中的同名点进行标注，每对同名点为一组特征点，包括三维场景下的坐标Position＝(X _i,Y _i,Z _i)和视频中的二维图像坐标position＝(m _i,n _i)，其中i＝1.2.3...k，所有的特征点对组成一个特征点文件。具体来说，根据视频拍摄图像及其坐标文件、三维场景视图及其坐标文件，标注并提取视频拍摄图像与三维场景视图中的一对同名点作为相应的一组特征点，并进行特征点描述及特征点匹配，将提取出来的全部特征点对组成特征点文件。

特征点匹配的具体流程为：

(1)获取视频中所标注同名点的像素坐标。为获取视频中的像素坐标，可从视频中截取出一张图片，利用PhotoShop对图片进行裁剪，借助Photoshop获取同名点的像素坐标，即特征点的像素坐标。

(2)获取特征点对应的三维空间坐标(X、Y、Z)。该坐标可从三维信息平台中直接拾取。

(3)生成特征点文件。该特征点文件包含特征点的像素坐标以及与该特征点对应的三维空间坐标信息。

(4)特征点匹配。每一组同名点是一组特征点，特征点匹配就是将同名点匹配在一起。如特征点A的像素坐标是(m,n)，三维空间坐标是(x,y,z)，则(m,n)与(x,y,z)就是一组匹配结果。有多少组特征点，就有多少组匹配结果。

其中，同名点或特征点的标定可采用手动和自动标定方式。基于倾斜摄影数据的三维场景与视频场景的吻合度较高，可采用机器学习的方式自动标注特征点，而基于手工建模的场景需要进行手工标定。表一示例了标注的特征点：

表一：特征点

本步骤中，对倾斜摄影场景与视频画面特征点自动标注时采用的是图像特征点匹配算法，即SIFT算法，主要过程如下：获取待匹配图像以及对应的坐标文件，待匹配图像包括视频拍摄画面以及与之对应的三维场景视图，视频图像的二维坐标可直接通过图片获取，三维场景的坐标可以通过三维系统直接获取；提取特征点；对特征点进行描述，获取特征点描述子；特征点匹配；输出特征点文件。

而对通过手工建模的三维场景与视频画面进行标注时采用手工标注的方式，进行手工标注时需遵循几个规则：尽量将三维场景调整至与监控视频相同的观察角度，三维场景比例缩放至与监控视频中一致；视频中所选的点要与三维场景中的位置一一对应，尽可能使选择的特征点具备稳定性及可辨识性；视频中所选的点尽量兼顾上、下、左、右四个方向和视频中心位置，所选点的数量应不少于4。

S2、初始化视椎体和相机参数。

视椎体即以相机位置O为原点，由视线方向OB(视椎体中心线)、视角fov(即相机内参)、远平面(FAR PLANE)和近平面(NEAR PLANE)共同组成的一个锥形体三维空间，其中位于远、近两个平面中间的物体是可见的，且成像于近平面，如图2所示。

决定视椎体的关键参数是相机位置O(O _x,O _y,O _z)、视线方向OB以及垂直方向视角fov值，其中视线方向OB与三维场景有个交点C(C _x,C _y,C _z)，可用OC代替OB。因此，初始相机参数可用初始视椎体参数表示：

P＝(C _x,C _y,C _z,O _x,O _y,O _z,fov)

其中，C _x、C _y、C _z为视线方向OB与三维场景的交点C的坐标；O _x、O _y、O _z为相机位置O的坐标；fov为相机的垂直方向视角。

本实施例中，初始化的视椎体只有7个参数，剩下的参数可以直接设定。为更大限度的使相机观察到更大的空间，可将图2中OA的距离值尽可能设置小，而OB的距离尽可能大。所初始化的关键相机参数可以确定视椎体，但不仅限于这些参数，也可根据具体实际情况进行扩展。

S3、设置相机参数更新速度、方向和算法迭代次数。

本实施例中，设置每个参数的移动速度为V，移动方向为s，速度代表每个参数每次移动的步长，移动方向代表参数可移动的区间。移动速度表示为

更新后的速度V _n＝V ₁+(n-1)Δv，n代表算法迭代的次数，Δv代表速度更新的幅度；移动方向s＝[-a,a]，a为整数，s＝-a,-a+1,-a+2,...0...a-2,a-1,a，总共有2a个值；则每个参数的搜索邻域为[-(V*a),V*a]，设置算法迭代次数为iters，每组候选参数每轮迭代可产生(2a) ⁷组解。

本实施例中，参数更新的初始速度为V ₁＝(20 _cx,20 _cy,20 _cz,20 _ox,20 _oy,20 _oz,10 _fov)，

每个参数的移动方向相同为s＝[-5,5]，即每个参数每次可在候选解左边和右边各选5个值作为邻域值，总共10个邻域值；算法迭代次数iters＝50；误差阈值δ＝0.0001。

本实施例中，每个参数都可以通过移动产生许多新的候选参数，参数的移动方向s和移动速度V决定了参数的搜索邻域范围，每个参数的移动范围需要根据实际的情况进行设定，移动速度和移动方向也直接影响到算法的收敛效率。

S4、更新相机参数。根据相机各参数更新的速度和方向，更新相机参数P'＝P+V _n*s，其中P'为更新后的相机参数，P为更新前的相机参数。

S5、计算相机投影矩阵ProjectMatrix。

根据三维成像原理可知，物体在相机空间的坐标等于世界坐标乘以相机的投影矩阵。投影矩阵的变化与视椎体息息相关，相机参数每次更新都会产生一个新的视椎体，因此投影矩阵也会随着相机参数的变化而变化。本实施例在计算相机投影矩阵时采用的公式为：

其中，Aspect是相机的横纵比，其取值为：

或者

其中，近平面高度为：

远平面高度为：

far表示远平面与O点的距离，near表示近平面与O点的距离，NearPlaneWidth表示近平面宽度，FarPlaneWidth表示远平面宽度。

S6、根据相机投影矩阵和特征点三维坐标，计算目标函数，目标函数即相机空间坐标：

position'＝Position _{特征点三维坐标}*ProjectionMatrix

其中，Position _{特征点三维坐标}为特征点的三维坐标，由此计算得到相机空间坐标position'＝(m' _i，n' _i)，i＝1,2,3...k。

S7、计算适应度函数。

本实施例将适应度函数定义为特征点的真实相机空间坐标与求解的相机空间坐标的平均误差：

其中(m ₁，n ₁)是特征点的真实相机空间坐标，(m' ₁，n' ₁)是计算的相机空间坐标，k为特征点的数量。

S8、判断适应度函数是否超过设定的阈值。若超过，则执行步骤S9，若没超过，则说明当前匹配到的相机参数是全局最优解，将全局最优解输出作为匹配结果，算法结束，得到相机位置、实际成像点和相机视角，实现视频场景与三维场景的融合。

步骤S7和S8中适应度函数的值(简称适应度值)是衡量当前相机参数与真实相机参数误差的指标。误差越小，说明参数匹配效果越好，反之亦然。

S9、判断所有的参数是否完成本次迭代，若完成，执行步骤S10，否则执行步骤S4至S8。

S10、根据本次迭代结果，生成所有参数的解空间，根据适应度值筛选出适应度值最小的n组解作为候选最优解，作为下一轮迭代的搜索基点。

步骤S10的目的是通过本轮的迭代生成所有参数的解空间，从解空间里面筛选出最有可能是最优解的几组参数，作为下一轮参数迭代的搜索基点。在选择候选最优解时可以根据适应度值最小，参数匹配效果最好的原则进行筛选。这是由于适应度函数的图像是一个“U”型样式，只有一个最小值0，因此适应度值越小，匹配到的参数误差越小。为了减少算法迭代次数、扩大搜索区域，在筛选最优参数候选值时可通过对适应度值排序，找到适应度值最小的几组参数作为候选解，并对参数移动的速度和方向更新，搜索每组候选解的解空间。

S11、判断是否满足算法迭代次数iters，若满足，则从当前的相机参数候选最优解里筛选出适应度值最小的作为最优解输出，算法结束，得到相机位置、实际成像点和相机视角，实现视频场景与三维场景的融合；否则更新速度值V _n，再执行步骤S4至S10。

实施例2

本实施例与实施例1基于相同的发明构思，提出基于启发式算法的视频与城市信息模型三维场景融合系统，该系统包括以下各模块：

特征点文件生成模块，用于实现步骤S1，根据视频拍摄图像及其坐标文件、三维场景视图及其坐标文件，标定空间特征点，并生成特征点文件；

初始化模块，用于实现步骤S2，初始化视椎体和相机参数；

参数设定模块，用于实现步骤S3，设置相机参数更新速度、方向和算法迭代次数；

参数更新模块，用于实现步骤S4，根据相机各参数更新的速度和方向，更新相机参数P'＝P+V _n*s，其中P'为更新后的相机参数，P为更新前的相机参数，V _n为参数更新后的速度值，s为参数的移动方向；

计算模块，用于实现步骤S5-S7，计算相机投影矩阵和适应度函数；以及根据相机投影矩阵和特征点三维坐标，计算相机空间坐标；

position'＝Position _{特征点三维坐标}*ProjectionMatrix

适应度判断模块，用于实现步骤S8，判断适应度函数是否超过设定的阈值；若超过，则启动迭代判断模块，若没超过，则当前匹配到的相机参数是全局最优解，将全局最优解输出作为匹配结果，得到相机位置、实际成像点和相机视角，实现视频场景与三维场景的融合；

本次迭代完成判断模块，用于实现步骤S9-S10，判断所有的参数是否完成本次迭代，若完成，则根据本次迭代结果，生成所有参数的解空间，根据适应度值筛选出适应度值最小的n组解作为候选最优解，作为下一轮迭代的搜索基点；否则返回参数更新模块；

迭代次数判断模块，用于实现步骤S11，判断是否满足参数设定模块所设定的算法迭代次数，若满足，则从当前的相机参数候选最优解里筛选出适应度值最小的作为最优解输出，得到相机位置、实际成像点和相机视角，实现视频场景与三维场景的融合；否则更新速度值V _n，再返回参数更新模块。

对于本实施例描述系统方法而言，由于在技术方案的实施上与实施例1的方法相对应，所以本实施例描述得比较简略，技术特征相对应之处请参见实施例1中各步骤的说明即可，此处不再赘述。

实施例3

本实施例与实施例1基于相同的发明构思，提出相应的存储介质，存储介质上存储有计算机指令，当所述计算机指令被处理器执行时，实现实施例1中三维场景融合方法的各步骤。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

视频与城市信息模型三维场景融合方法，其特征在于，包括以下步骤：

S1、根据视频拍摄图像及其坐标文件、三维场景视图及其坐标文件，标定空间特征点，并生成特征点文件；

S2、初始化视椎体和相机参数；

S3、设置相机参数更新速度、方向和算法迭代次数；

S4、根据相机各参数更新的速度和方向，更新相机参数P'＝P+V _n*s，其中P'为更新后的相机参数，P为更新前的相机参数，V _n为参数更新后的速度值，s为参数的移动方向；

S5、计算相机投影矩阵；

S6、根据相机投影矩阵和特征点三维坐标，计算相机空间坐标；

position'＝Position _{特征点三维坐标}*ProjectionMatrix

其中，Position _{特征点三维坐标}为特征点的三维坐标，由此计算得到相机空间坐标position'＝(m' _i，n' _i)，i＝1,2,3...k；

S7、计算适应度函数；其中，适应度函数定义为特征点的真实相机空间坐标与求解的相机空间坐标的平均误差：

其中(m ₁，n ₁)是特征点的真实相机空间坐标，(m' ₁，n' ₁)是计算的相机空间坐标，k为特征点的数量；

S8、判断适应度函数是否超过设定的阈值；若超过，则执行步骤S9，若没超过，则当前匹配到的相机参数是全局最优解，将全局最优解输出作为匹配结果，得到相机位置、实际成像点和相机视角，实现视频场景与三维场景的融合；

S9、判断所有的参数是否完成本次迭代，若完成，执行步骤S10，否则执行步骤S4至S8；

S10、根据本次迭代结果，生成所有参数的解空间，根据适应度值筛选出适应度值最小的n组解作为候选最优解，作为下一轮迭代的搜索基点；

S11、判断是否满足算法迭代次数iters，若满足，则从当前的相机参数候选最优解里筛选出适应度值最小的作为最优解输出，得到相机位置、实际成像点和相机视角，实现视频场景与三维场景的融合；否则更新速度值V _n，再执行步骤S4至S10。
根据权利要求1所述的视频与城市信息模型三维场景融合方法，其特征在于，步骤S3中设置每个相机参数的移动速度为V，移动方向为s，移动速度表示为
更新后的速度值表示为V _n＝V ₁+(n-1)Δv，n代表算法迭代的次数，Δv代表速度更新的幅度；移动方向s＝[-a,a]，a为整数，s＝-a,-a+1,-a+2,...0...a-2,a-1,a；则每个相机参数的搜索邻域为[-(V*a),V*a]。
根据权利要求1所述的视频与城市信息模型三维场景融合方法，其特征在于，步骤S2中视椎体以相机位置为原点，由视线方向OB、垂直方向视角fov、远平面和近平面共同组成的一个锥形体三维空间；视椎体的关键参数包括相机位置O(O _x,O _y,O _z)、视线方向OB以及垂直方向视角fov值，其中视线方向OB与三维场景的交点为C(C _x,C _y,C _z)，初始相机参数用初始视椎体参数表示为：

P＝(C _x,C _y,C _z,O _x,O _y,O _z,fov)

其中，C _x、C _y、C _z为交点C的坐标；O _x、O _y、O _z为相机位置O的坐标；fov为相机的垂直方向视角。
根据权利要求1所述的视频与城市信息模型三维场景融合方法，其特征在于，步骤S5中相机投影矩阵的计算公式为：

其中，Aspect是相机的横纵比，其取值为：

或者

其中，近平面高度为：

远平面高度为：

far表示远平面与O点的距离，near表示近平面与O点的距离，NearPlaneWidth表示近平面宽度，FarPlaneWidth表示远平面宽度。
根据权利要求1所述的视频与城市信息模型三维场景融合方法，其特征在于，步骤S10在选择候选最优解时，根据适应度函数的值最小，参数匹配效果最好的原则进行筛选。
根据权利要求1所述的视频与城市信息模型三维场景融合方法，其特征在于，步骤S1对视频拍摄图像与三维场景视图中的同名点进行标注，每对同名点为一组特征点，包括三维场景下的坐标Position＝(X _i,Y _i,Z _i)和视频中的二维图像坐标position＝(m _i,n _i)，其中i＝1.2.3...k，所有的特征点对组成一个特征点文件。
视频与城市信息模型三维场景融合系统，其特征在于，包括：

特征点文件生成模块，用于根据视频拍摄图像及其坐标文件、三维场景视图及其坐标文件，标定空间特征点，并生成特征点文件；

初始化模块，用于初始化视椎体和相机参数；

参数设定模块，用于设置相机参数更新速度、方向和算法迭代次数；

参数更新模块，用于根据相机各参数更新的速度和方向，更新相机参数P'＝P+V _n*s，其中P'为更新后的相机参数，P为更新前的相机参数，V _n为参数更新后的速度值，s为参数的移动方向；

计算模块，用于计算相机投影矩阵和适应度函数；以及根据相机投影矩阵和特征点三维坐标，计算相机空间坐标；

position'＝Position _{特征点三维坐标}*ProjectionMatrix

其中，Position _{特征点三维坐标}为特征点的三维坐标，由此计算得到相机空间坐标position'＝(m' _i，n' _i)，i＝1,2,3...k；

所述适应度函数定义为特征点的真实相机空间坐标与求解的相机空间坐标的平均误差：

其中(m ₁，n ₁)是特征点的真实相机空间坐标，(m' ₁，n' ₁)是计算的相机空间坐标，k为特征点的数量；

适应度判断模块，用于判断适应度函数是否超过设定的阈值；若超过，则启动迭代判断模块，若没超过，则当前匹配到的相机参数是全局最优解，将全局最优解输出作为匹配结果，得到相机位置、实际成像点和相机视角，实现视频场景与三维场景的融合；

本次迭代完成判断模块，用于判断所有的参数是否完成本次迭代，若完成，则根据本次迭代结果，生成所有参数的解空间，根据适应度值筛选出适应度值最小的n组解作为候选最优解，作为下一轮迭代的搜索基点；否则返回参数更新模块；

迭代次数判断模块，用于判断是否满足参数设定模块所设定的算法迭代次数，若满足，则从当前的相机参数候选最优解里筛选出适应度值最小的作为最优解输出，得到相机位置、实际成像点和相机视角，实现视频场景与三维场景的融合；否则更新速度值V _n，再返回参数更新模块。
根据权利要求7所述的视频与城市信息模型三维场景融合系统，其特征在于，初始化模块中，视椎体以相机位置为原点，由视线方向OB、垂直方向视角fov、远平面和近平面共同组成的一个锥形体三维空间；视椎体的关键参数包括相机位置O(O _x,O _y,O _z)、视线方向OB以及垂直方向视角fov值，其中视线方向OB与三维场景的交点为C(C _x,C _y,C _z)，初始相机参数用初始视椎体参数表示为：

P＝(C _x,C _y,C _z,O _x,O _y,O _z,fov)

其中，C _x、C _y、C _z为交点C的坐标；O _x、O _y、O _z为相机位置O的坐标；fov为相机的垂直方向视角。
根据权利要求7所述的视频与城市信息模型三维场景融合系统，其特征在于，计算模块中相机投影矩阵的计算公式为：

其中，Aspect是相机的横纵比，其取值为：

或者

其中，近平面高度为：

远平面高度为：

far表示远平面与O点的距离，near表示近平面与O点的距离，NearPlaneWidth表示近平面宽度，FarPlaneWidth表示远平面宽度。
存储介质，其上存储有计算机指令，其特征在于，所述计算机指令被处理器执行时，实现权利要求1-6中任一项所述视频与城市信息模型三维场景融合方法的步骤。