WO2021227360A1

WO2021227360A1 - 一种交互式视频投影方法、装置、设备及存储介质

Info

Publication number: WO2021227360A1
Application number: PCT/CN2020/121664
Authority: WO
Inventors: 高星; 徐建明; 陈奇毅; 石立阳
Original assignee: 佳都新太科技股份有限公司
Priority date: 2020-05-14
Filing date: 2020-10-16
Publication date: 2021-11-18
Also published as: CN111640181A

Abstract

一种交互式视频投影方法、装置、设备及存储介质。通过根据摄像头拍摄的视频帧确定相机在虚拟场景中的初始位置姿态，并基于该初始位置姿态对三维地图进行渲染，获得与初始位置姿态下的摄像头拍摄的范围对应的二维画面，然后对二维画面和摄像头拍摄的视频帧进行特征匹配，匹配完成后确定三维地图中与视频帧上的二维特征点对应的三维特征点，通过位姿求解算法可确定相机位姿矩阵、焦距信息和/或畸变参数，根据以上信息设置虚拟场景中的相机，并将视频帧加入渲染管线中进行视频投影，从而实现半自动交互式快速视频投影贴图，无需工作人员手动精确配置相机参数，提高视频投影效率。

Description

一种交互式视频投影方法、装置、设备及存储介质

技术领域

本申请实施例涉及图像处理领域，尤其涉及一种交互式视频投影方法、装置、设备及存储介质。

背景技术

视频投影技术是把监控视频和三维模型相结合，将关注区域的监控视频投影到大场景的三维模型中，可以实现静态大场景与动态重点场景的虚实结合。

传统的视频投影方案都是基于固定点位的视频监控枪机，即认为摄像头的位置、姿态是固定的，在投影配置过程中，通过人工设置相机的视场角和位置姿态，使得相机在三维数字空间中的相对位置姿态和其在物理世界里的位置姿态相同，实现视频投影画面和三维模型的贴合。

然而，每一路视频都需要工作人员花费大量的时间去配置相机位置姿态等信息，配置过程繁琐，存在无法及时满足视频投影要求的情况。

发明内容

本申请实施例提供一种交互式视频投影方法、装置、设备及存储介质，以满足视频投影的实时性需求。

在第一方面，本申请实施例提供了一种交互式视频投影方法，包括：

基于在虚拟场景中确定的相机初始位置姿态，对三维地图进行渲染以获得与所述初始位置姿态对应的二维画面，所述初始位置姿态基于摄像头拍摄的视频帧确定；

对摄像头拍摄的视频帧和所述二维画面进行特征匹配，并根据特征匹配结果确定所述视频帧上的二维特征点在所述三维地图上对应的三维特征点；

基于所述二维特征点和所述三维特征点，通过位姿求解算法确定相机位姿矩阵、焦距信息和/或畸变参数；

根据所述相机位姿矩阵、所述焦距信息和/或所述畸变参数设置虚拟场景中的相机，并将所述视频帧加入渲染管线中进行视频投影。

进一步的，所述基于在虚拟场景中确定的相机初始位置姿态，对三维地图进行渲染以获得与所述初始位置姿态对应的二维画面，所述初始位置姿态基于摄像头拍摄的视频帧确定，包括：

基于摄像头拍摄的视频帧在虚拟场景中确定相机初始位置姿态；

根据所述初始位置姿态获取渲染范围对应的三维模型瓦片，所述三维地图通过三维模型瓦片的形式进行存储；

对所述三维模型瓦片进行渲染以获得与所述初始位置姿态对应的二维画面。

进一步的，所述对摄像头拍摄的视频帧和所述二维画面进行特征匹配，包括：

基于图像特征提取算法获取摄像头拍摄的视频帧和所述二维画面的特征点以及描述子；

根据描述子的距离对所述视频帧和所述二维画面之间的特征点进行特征匹配。

进一步的，所述根据描述子的距离对所述视频帧和所述二维画面之间的特征点进行特征匹配之后，还包括：

基于RANSAC算法对匹配的特征点进行筛选。

进一步的，所述对摄像头拍摄的视频帧和所述二维画面进行特征匹配之后，还包括：

根据特征匹配结果判断特征匹配是否成功，并在特征匹配失败时进行视角调整提醒，以提醒操作者重新选择相机的初始位置姿态。

进一步的，所述根据特征匹配结果确定所述视频帧上的二维特征点在所述三维地图上对应的三维特征点，包括：

根据特征匹配结果确定所述二维画面中与所述视频帧上的二维特征点匹配的匹配特征点的坐标；

根据三维地图和二维画面坐标点的对应关系，确定三维地图中与二维特征点对应的三维特征点的坐标。

进一步的，所述基于所述二维特征点和所述三维特征点，通过位姿求解算法确定相机位姿矩阵、焦距信息和/或畸变参数，包括：

获取视频帧上的二维特征点坐标和三维地图上的三维特征点坐标；

将所述二维特征点坐标和所述三维特征点坐标代入PnP算法和非线性优化算法，以得到相机位姿矩阵、焦距信息和/或畸变参数。

进一步的，所述基于所述二维特征点和所述三维特征点，通过位姿求解算法确定相机位姿矩阵、焦距信息和/或畸变参数之后，还包括：

根据位姿求解算法结果判断相机位姿求解是否成功，并在相机位姿求解失败时进行视角调整提醒，以提醒操作者重新选择相机的初始位置姿态。

在第二方面，本申请实施例提供了一种交互式视频投影装置，包括二维渲染模块、特征对应模块、位姿确定模块和视频投影模块，其中：

二维渲染模块，用于基于在虚拟场景中确定的相机初始位置姿态，对三维地图进行渲染以获得与所述初始位置姿态对应的二维画面，所述初始位置姿态基于摄像头拍摄的视频帧确定；

特征对应模块，用于对摄像头拍摄的视频帧和所述二维画面进行特征匹配，并根据特征匹配结果确定所述视频帧上的二维特征点在所述三维地图上对应的三维特征点；

位姿确定模块，用于基于所述二维特征点和所述三维特征点，通过位姿求解算法确定相机位姿矩阵、焦距信息和/或畸变参数；

视频投影模块，用于根据所述相机位姿矩阵、所述焦距信息和/或所述畸变参数设置虚拟场景中的相机，并将所述视频帧加入渲染管线中进行视频投影。

进一步的，所述二维渲染模块具体用于：

进一步的，所述特征对应模块在对摄像头拍摄的视频帧和所述二维画面进行特征匹配时，具体包括：

进一步的，所述特征对应模块在根据描述子的距离对所述视频帧和所述二维画面之间的特征点进行特征匹配之后，还基于RANSAC算法对匹配的特征点进行筛选。

进一步的，还包括匹配错误提醒模块，用于在所述特征对应模块对摄像头拍摄的视频帧和所述二维画面进行特征匹配之后，根据特征匹配结果判断特征匹配是否成功，并在特征匹配失败时进行视角调整提醒，以提醒操作者重新选择相机的初始位置姿态。

进一步的，所述特征对应模块在根据特征匹配结果确定所述视频帧上的二维特征点在所述三维地图上对应的三维特征点时，具体包括：

进一步的，所述位姿确定模块具体用于：

进一步的，还包括位姿错误提醒模块，用于在所述位姿确定模块基于所述二维特征点和所述三维特征点，通过位姿求解算法确定相机位姿矩阵、焦距信息和/或畸变参数之后，根据位姿求解算法结果判断相机位姿求解是否成功，并在相机位姿求解失败时进行视角调整提醒，以提醒操作者重新选择相机的初始位置姿态。

在第三方面，本申请实施例提供了一种计算机设备，包括：存储器以及一个或多个处理器；

所述存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面所述的交互式视频投影方法。

在第四方面，本申请实施例提供了一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如第一方面所述的交互式视频投影方法。

本申请实施例通过根据摄像头拍摄的视频帧确定相机在虚拟场景中的初始位置姿态，并基于该初始位置姿态对三维地图进行渲染，获得与初始位置姿态下的摄像头拍摄的范围对应的二维画面，然后对二维画面和摄像头拍摄的视频帧进行特征匹配，匹配完成后确定三维地图中与视频帧上的二维特征点对应的三维特征点，通过位姿求解算法可确定相机位姿矩阵、焦距信息和/或畸变参数，根据以上信息设置虚拟场景中的相机，并将视频帧加入渲染管线中进行视频投影，从而实现半自动交互式快速视频投影贴图，无需工作人员手动精确配置相机参数，提高视频投影效率，并且通过视频帧和二维画面的匹配使得视频帧可投影在三维模型的正确位置上，有效提高视频投影效果。

附图说明

图1是本申请实施例提供的一种交互式视频投影方法的流程图；

图2是本申请实施例提供的另一种交互式视频投影方法的流程图；

图3是本申请实施例提供的一种交互式视频投影装置的结构示意图；

图4是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面结合附图对本申请具体实施例作进一步的详细描述。可以理解的是，此处所描述的具体实施例仅仅用于解释本申请，而非对本申请的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本申请相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

图1给出了本申请实施例提供的一种交互式视频投影方法的流程图，本申请实施例提供的交互式视频投影方法可以由交互式视频投影装置来执行，该交互式视频投影装置可以通过硬件和/或软件的方式实现，并集成在计算机设备中。

下述以交互式视频投影装置执行交互式视频投影方法为例进行描述。参考图1，该交互式视频投影方法包括：

S101：基于在虚拟场景中确定的相机初始位置姿态，对三维地图进行渲染以获得与所述初始位置姿态对应的二维画面，所述初始位置姿态基于摄像头拍摄的视频帧确定。

其中，虚拟场景可以是基于三维地图渲染出的三维场景，基于虚拟场景中相机的位置姿态和视角可确定显示的虚拟场景画面，可通过输入装置(例如鼠标、键盘)的调整操作(位置、视角、焦距等)实现相机在虚拟场景中的位置姿态，从而确定相机在目标虚拟场景画面下的位置姿态。虚拟场景画面可在显示装置(显示屏)中进行显示。

示例性的，在接收到摄像头回传的视频流后，通过软解码或硬解码的方式对视频流进行解码，并获得视频帧。操作者可基于视频帧所显示的画面调整虚拟场景中的相机，使相机的位置姿态、视角、焦距等调整到得到的虚拟场景画面与视频帧的画面相近或者是包含内容大体重叠，并确定此时相机在虚拟场景中的位置姿态，从而确定相机在虚拟场景中的初始位置姿态。在确定位置姿态后，可在操作界面中设置初始位置姿态确定按钮或一键贴图按钮，并响应于按钮的确定操作确定此时相机在虚拟场景中的位置姿态，并作为相机的初始位置姿态。

在相机在虚拟场景中的初始位置姿态确定后，获取三维地图数据，并基于该初始位置姿态以及对应的焦距信息确定在三维地图中的相机的位置姿态以及焦距，对三维地图进行渲染，从而获取与摄像头在初始位置姿态拍摄的画面对应的二维画面。优选的，二维画面的面积应大于对应视频帧的面积，即二维画面应覆盖视频帧。

可以理解的是，三维地图是基于世界坐标系建立的，即使三维地图的坐标系与世界坐标系存在误差，但是误差造成的偏移在误差范围内(一般在几米内)，这个偏移量对于渲染三维地图来说问题不大，渲染出的二维画面还是可以覆盖到目标区域(视频帧对应的区域)。

S102：对摄像头拍摄的视频帧和所述二维画面进行特征匹配，并根据特征匹配结果确定所述视频帧上的二维特征点在所述三维地图上对应的三维特征点。

示例性的，在得到渲染出的二维画面后，对摄像头拍摄的视频帧和二维画面进行特征匹配，即提取出视频帧和二维画面中的特征点，并根据特征点之间的相似度(特征向量距离)进行匹配，并生成匹配结果。其中，视频帧上的特征点为二维特征点，二维画面上的特征点为匹配特征点。

进一步的，在渲染二维画面的时候，可对三维地图和二维画面坐标点之间的对应关系进行记录，并根据该记录确定三维地图中与二维画面中的匹配特征点对应的三维特征点坐标，确定视频帧上的二维特征点在三维地图上对应的三维特征点。另外，在渲染出二维画面时同时渲染了RGB图像(二维画面)和深度图，根据深度图亦可反算出二维画面中的点对应的三维特征点，进而确定视频帧上的二维特征点在三维地图上对应的三维特征点。

S103：基于所述二维特征点和所述三维特征点，通过位姿求解算法确定相机位姿矩阵、焦距信息和/或畸变参数。

示例性的，在得到二维特征点和三维特征点的位置坐标和对应关系后，将二维特征点和三维特征点代入位姿求解算法中，从而得到相机位姿矩阵、焦距信息和/或畸变参数。

其中位姿求解算法是求解3D到2D点对运动的方法，描述了当知道n个3D空间点以及它们的投影位置时，如何确定相机所在的位姿、焦距以及畸变的方法，即在已知世界坐标系下N个空间点的真实坐标以及这些空间点在图像上的投影，如何计算相机所在的位姿的解决方法。其中摄像头是否畸变可根据摄像头的具体类型或参数进行确定，对于无畸变或者畸变不严重的摄像头，畸变参数可设置为默认参数(如设置为0，默认摄像头无畸变)。

S104：根据所述相机位姿矩阵、所述焦距信息和/或所述畸变参数设置虚拟场景中的相机，并将所述视频帧加入渲染管线中进行视频投影。

示例性的，在获得位姿矩阵和焦距信息后，将位姿矩阵和焦距信息输入到虚拟场景的相机参数中，对相机的位置姿态和焦距进行设置。然后将视频帧加入到渲染管线中，并由渲染管线在对应的相机参数设置下对视频帧进行实时融合投影。

在进行融合投影时，确定视频帧中的像素点与三维场景(虚拟场景)中的三维点之间的映射关系，并根据映射关系将视频帧在三维场景中进行颜色纹理映射，并对颜色纹理映射的重合区域进行平滑过渡处理，从而将视频帧融合在三维场景中，完成校正视频帧在三维场景中的视频投影。可以理解的是，对视频帧的视频投影基于现有的视频投影方法进行即可，在此不做赘述。

上述，通过根据摄像头拍摄的视频帧确定相机在虚拟场景中的初始位置姿态，并基于该初始位置姿态对三维地图进行渲染，获得与初始位置姿态下的摄像头拍摄的范围对应的二维画面，然后对二维画面和摄像头拍摄的视频帧进行特征匹配，匹配完成后确定三维地图中与视频帧上的二维特征点对应的三维特征点，通过位姿求解算法可确定相机位姿矩阵、焦距信息和/或畸变参数，根据以上信息设置虚拟场景中的相机，并将视频帧加入渲染管线中进行视频投影，从而实现半自动交互式快速视频投影贴图，无需工作人员手动精确配置相机参数，提高视频投影效率，并且通过视频帧和二维画面的匹配使得视频帧可投影在三维模型的正确位置上，有效提高视频投影效果。

图2为本申请实施例提供的另一种交互式视频投影方法的流程图，该交互式视频投影方法是对交互式视频投影方法的具体化。参考图2，该交互式视频投影方法包括：

S201：基于摄像头拍摄的视频帧在虚拟场景中确定相机初始位置姿态。

S202：根据所述初始位置姿态获取渲染范围对应的三维模型瓦片，所述三维地图通过三维模型瓦片的形式进行存储。

具体的，三维地图通过三维模型瓦片的形式进行存储。三维地图的数据量比较大，通过对三维地图数据进行切片，每片三维地图称为三维模型瓦片，并对每个三维模型瓦片对应的位置范围进行记录。根据初始位置姿态确定并调取渲染范围所对应的三维模型瓦片。可以理解的是，由获取的三维模型瓦片组成的三维地图的范围应大于摄像头拍摄的视频帧的范围。

S203：对所述三维模型瓦片进行渲染以获得与所述初始位置姿态对应的二维画面。

具体的，在获取与渲染范围对应的三维模型瓦片后，通过GPU可视化引擎对这些三维模型瓦片进行渲染并获得与初始位置姿态对应的二维画面。可以理解的是，二维画面的显示范围大于对应视频帧的显示范围。

S204：基于图像特征提取算法获取摄像头拍摄的视频帧和所述二维画面的特征点以及描述子。

具体的，基于GPU对视频帧和二维画面进行图像特征提取，图像特征包括特征点和描述子。其中图像特征提取算法可以是SIFT(Scale Invariant Feature Transform，尺度不变特征变换)算法、SURF(Speeded Up Robust Features，加速稳健特征)算法或ORB(Oriented FAST and Rotated BRIEF)算法等，本实施例不做限定。

其中图像的特征点是图像上最具代表性的一些点，所谓最具代表性就是说这些点包含了图像表述的大部分信息。即使旋转、缩放，甚至调整图像的亮度，这些点仍然稳定地存在，不会丢失。找出这些点，就相当于确定了这张图像，它们可以用来做匹配、识别等等有意义的工作。特征点由关键点(Key-point)和描述子(Descriptor)两部分组成。BRIEF描述子是一种二进制描述子，通常为128位的二进制串。它的计算方法是从关键点p周围随机挑选128个点对，对于每个点对中的两个点，如果前一个点的灰度值大于后一个点，则取1，反之取0。

比如，提取ORB特征其实包括了提取关键点和计算描述子两件事情，利用FAST特征点检测算法或Harris角点检测算法或SIFT、SURF等算法检测特征点的位置，接下来在特征点邻域利用BRIEF算法建立特征描述子。

S205：根据描述子的距离对所述视频帧和所述二维画面之间的特征点进行特征匹配。

具体的，在得到二维画面和视频帧上的特征点后，根据对应描述子的距离判断两个特征点之间的相似度，距离越小则相似度越高。其中描述子的距离可以是欧氏距离、汉明距离、余弦距离等。

进一步的，基于GPU遍历二维画面和视频帧的描述子，根据距离对特征点进行排序，在一定的置信度之下显示前N个特征的匹配结果，即根据距离反映的相似度将二维画面和视频帧之间的特征点进行匹配。

在其他实施例中，在对摄像头拍摄的视频帧和所述二维画面进行特征匹配之后，还可以根据特征匹配结果判断特征匹配是否成功，并在特征匹配失败时进行视角调整提醒，以提醒操作者重新选择相机的初始位置姿态。

示例性的，特征匹配是否成功可以在提取特征点之后或者实在对特征点进行匹配之后进行判断。例如，调用图像特征提取算法求取特征点时，根据算法结果确定是否正常获取特征点，或者在根据描述子的距离对特征点进行匹配时，根据匹配结果判断相匹配的特征点是否达到正常数量或占比，并以此判断特征匹配是否成功。在匹配成功时，继续下一步对特征点进行筛选，若匹配失败，则进行视角调整提醒，以提醒操作者重返回至步骤S201新选择相机的初始位置姿态。

S206：基于RANSAC算法对匹配的特征点进行筛选。

其中，RANSAC(Random Sample Consensus，随机抽样一致)算法用于消除错误匹配的点。在完成特征点的匹配后，获取二维画面和视频帧的基础矩阵和单应矩阵，并基于基础矩阵和单应矩阵用RANSAC算法对匹配的特征点进行筛选，消除匹配错误的特征点。

S207：根据特征匹配结果确定所述二维画面中与所述视频帧上的二维特征点匹配的匹配特征点的坐标。

其中，二维画面和视频帧中相互匹配的特征点分别定义为匹配特征点和二维特征点。

具体的，在完成特征点的匹配与筛选后，确定二维画面中与视频帧上的二维特征点匹配的匹配特征点，并确定这些匹配特征点的坐标。

S208：根据三维地图和二维画面坐标点的对应关系，确定三维地图中与二维特征点对应的三维特征点的坐标。

具体的，在渲染二维画面的时候，可对三维地图和二维画面坐标点之间的对应关系进行记录。在需要确定与二维特征点对应的三维特征点的坐标时，根据匹配结果确定与二维特征点对应的匹配特征点，再根据三维地图和二维画面坐标点之间的对应关系获取与匹配特征点对应的三维特征点的坐标。

另外，在渲染二维画面时同时渲染了RGB图像(二维画面)和深度图，根据深度图亦可反算出二维画面中的点对应的三维特征点，并得到与二维画面上匹配特征点对应的三维特征点的坐标。

S209：获取视频帧上的二维特征点坐标和三维地图上的三维特征点坐标，并将所述二维特征点坐标和所述三维特征点坐标代入PnP算法和非线性优化算法，以得到相机位姿矩阵、焦距信息和/或畸变参数。

其中，PnP(Perspective-n-Point)算法是求解3D到2D点对运动的方法，可以通过P3P、直接线性变换(DLT)、EPnP等算法进行求解。以P3P算法为例，P3P算法是一种由3D-2D的位姿求解方式，需要已知匹配的3D点和图像2D点，即先求出对应的2D点(相当于本方案的二维特征点)在当前相机坐标系下的3D坐标(相当于本方案的三维特征点坐标)，然后根据世界坐标系下的3D坐标和当前相机坐标系下的3D坐标求解相机位姿。

非线性优化算法是在给定相机姿态焦距初始值的情况下，通过最小二乘进一步优化3D点到2D点重投影误差的方法，在优化过程中算法会进一步对相机的姿态和焦距做细微的调整。例如，通过LM(Levenberg-Marquardt)优化算法作为非线性优化算法对相机姿态焦距初始值进行优化，以得到3D点到2D点最小的重投影误差。

具体的，获取视频帧上的二维特征点坐标和三维地图上的三维特征点坐标，将二维特征点坐标和三维特征点坐标代入PnP算法和非线性优化算法，经PnP算法求解得到准确的相机位姿矩阵，然后通过非线性优化算法对相机参数进行优化得到焦距信息和/或畸变参数。畸变参数的确定可根据摄像头的具体类型或参数进行确定，对于无畸变或者畸变不严重的摄像头，畸变参数可设置为默认参数(如设置为0，默认摄像头无畸变)，并可不对畸变参数进行计算。

在其他实施例中，在基于所述二维特征点和所述三维特征点，通过位姿求解算法确定相机位姿矩阵、焦距信息和/或畸变参数之后，还可以根据位姿求解算法结果判断相机位姿求解是否成功，并在相机位姿求解失败时进行视角调整提醒，以提醒操作者重新选择相机的初始位置姿态。

示例性的，相机位姿求解是否成功可以根据PnP算法的求解结果进行判断。例如，根据PnP算法得到的结果判断得到的相机位姿数据是否正常或者是相机位姿和初始位置姿态的偏差是否在合理范围内，并以此判断相机位姿求解是否成功。在相机位姿求解成功时，继续下一步的视频投影操作，若相机位姿求解失败，则进行视角调整提醒，以提醒操作者重返回至步骤S201新选择相机的初始位置姿态。

S210：根据所述相机位姿矩阵、所述焦距信息和/或所述畸变参数设置虚拟场景中的相机，并将所述视频帧加入渲染管线中进行视频投影。

上述，通过根据摄像头拍摄的视频帧确定相机在虚拟场景中的初始位置姿态，并基于该初始位置姿态对三维地图进行渲染，获得与初始位置姿态下的摄像头拍摄的范围对应的二维画面，然后对二维画面和摄像头拍摄的视频帧进行特征匹配，匹配完成后确定三维地图中与视频帧上的二维特征点对应的三维特征点，通过位姿求解算法可确定相机位姿矩阵、焦距信息和/或畸变参数，根据以上信息设置虚拟场景中的相机，并将视频帧加入渲染管线中进行视频投影，从而实现半自动交互式快速视频投影贴图，无需工作人员手动精确配置相机参数，提高视频投影效率，并且通过视频帧和二维画面的匹配使得视频帧可投影在三维模型的正确位置上，有效提高视频投影效果。并基于图像特征匹配、PnP算法和非线性优化算法确定相机的精确位置，使得视频帧可投影在三维模型的正确位置上，有效提高视频投影效果。通过三维模型瓦片的形式渲染出二维画面，减少GPU图形处理的负担，有效提高视频投影的实时性。同时，操作者只需要调整虚拟场景的视角即可实现一键贴图，无需人工计算复杂的相机参数，降低每路视频投影参数配置所花费的时间，提高视频投影效率，便于视频投影技术大规模落地推广。

图3为本申请实施例提供的一种交互式视频投影装置的结构示意图。参考图3，本实施例提供的交互式视频投影装置包括二维渲染模块31、特征对应模块32、位姿确定模块33和视频投影模块34。

其中，二维渲染模块31，用于基于在虚拟场景中确定的相机初始位置姿态，对三维地图进行渲染以获得与所述初始位置姿态对应的二维画面，所述初始位置姿态基于摄像头拍摄的视频帧确定；特征对应模块32，用于对摄像头拍摄的视频帧和所述二维画面进行特征匹配，并根据特征匹配结果确定所述视频帧上的二维特征点在所述三维地图上对应的三维特征点；位姿确定模块33，用于基于所述二维特征点和所述三维特征点，通过位姿求解算法确定相机位姿矩阵、焦距信息和/或畸变参数；视频投影模块34，用于根据所述相机位姿矩阵、所述焦距信息和/或所述畸变参数设置虚拟场景中的相机，并将所述视频帧加入渲染管线中进行视频投影。

在一个可能的实施例中，所述二维渲染模块31具体用于：

在一个可能的实施例中，所述特征对应模块32在对摄像头拍摄的视频帧和所述二维画面进行特征匹配时，具体包括：

在一个可能的实施例中，所述特征对应模块32在根据描述子的距离对所述视频帧和所述二维画面之间的特征点进行特征匹配之后，还基于RANSAC算法对匹配的特征点进行筛选。

在一个可能的实施例中，还包括匹配错误提醒模块，用于在所述特征对应模块32对摄像头拍摄的视频帧和所述二维画面进行特征匹配之后，根据特征匹配结果判断特征匹配是否成功，并在特征匹配失败时进行视角调整提醒，以提醒操作者重新选择相机的初始位置姿态。

在一个可能的实施例中，所述特征对应模块32在根据特征匹配结果确定所述视频帧上的二维特征点在所述三维地图上对应的三维特征点时，具体包括：

在一个可能的实施例中，所述位姿确定模块33具体用于：

在一个可能的实施例中，还包括位姿错误提醒模块，用于在所述位姿确定模块33基于所述二维特征点和所述三维特征点，通过位姿求解算法确定相机位姿矩阵、焦距信息和/或畸变参数之后，根据位姿求解算法结果判断相机位姿求解是否成功，并在相机位姿求解失败时进行视角调整提醒，以提醒操作者重新选择相机的初始位置姿态。

本申请实施例还提供了一种计算机设备，该计算机设备可集成本申请实施例提供的交互式视频投影装置。图4是本申请实施例提供的一种计算机设备的结构示意图。参考图4，该计算机设备包括：输入装置43、输出装置44、存储器42以及一个或多个处理器41；所述存储器42，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器41执行，使得所述一个或多个处理器41实现如上述实施例提供的交互式视频投影方法。其中输入装置43、输出装置44、存储器42和处理器41可以通过总线或者其他方式连接，图4中以通过总线连接为例。

存储器42作为一种计算设备可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本申请任意实施例所述的交互式视频投影方法对应的程序指令/模块(例如，交互式视频投影装置中的二维渲染模块31、特征对应模块32、位姿确定模块33和视频投影模块34)。存储器42可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据设备的使用所创建的数据等。此外，存储器42可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器42可进一步包括相对于处理器41远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置43可用于接收输入的数字或字符信息，以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置44可包括显示屏等显示设备。

处理器41通过运行存储在存储器42中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述的交互式视频投影方法。

上述提供的交互式视频投影装置和计算机可用于执行上述任意实施例提供的交互式视频投影方法，具备相应的功能和有益效果。

本申请实施例还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如上述实施例提供的交互式视频投影方法，该交互式视频投影方法包括：基于在虚拟场景中确定的相机初始位置姿态，对三维地图进行渲染以获得与所述初始位置姿态对应的二维画面，所述初始位置姿态基于摄像头拍摄的视频帧确定；对摄像头拍摄的视频帧和所述二维画面进行特征匹配，并根据特征匹配结果确定所述视频帧上的二维特征点在所述三维地图上对应的三维特征点；基于所述二维特征点和所述三维特征点，通过位姿求解算法确定相机位姿矩阵、焦距信息和/或畸变参数；根据所述相机位姿矩阵、所述焦距信息和/或所述畸变参数设置虚拟场景中的相机，并将所述视频帧加入渲染管线中进行视频投影。

存储介质——任何的各种类型的存储器设备或存储设备。术语“存储介质”旨在包括：安装介质，例如CD-ROM、软盘或磁带装置；计算机系统存储器或随机存取存储器，诸如DRAM、DDR RAM、SRAM、EDO RAM，兰巴斯(Rambus)RAM等；非易失性存储器，诸如闪存、磁介质(例如硬盘或光存储)；寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外，存储介质可以位于程序在其中被执行的第一计算机系统中，或者可以位于不同的第二计算机系统中，第二计算机系统通过网络(诸如因特网)连接到第一计算机系统。第二计算机系统可以提供程序指令给第一计算机用于执行。术语“存储介质”可以包括可以驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计算机程序)。

当然，本申请实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的交互式视频投影方法，还可以执行本申请任意实施例所提供的交互式视频投影方法中的相关操作。

上述实施例中提供的交互式视频投影装置、设备及存储介质可执行本申请任意实施例所提供的交互式视频投影方法，未在上述实施例中详尽描述的技术细节，可参见本申请任意实施例所提供的交互式视频投影方法。

上述仅为本申请的较佳实施例及所运用的技术原理。本申请不限于这里所述的特定实施例，对本领域技术人员来说能够进行的各种明显变化、重新调整及替代均不会脱离本申请的保护范围。因此，虽然通过以上实施例对本申请进行了较为详细的说明，但是本申请不仅仅限于以上实施例，在不脱离本申请构思的情况下，还可以包括更多其他等效实施例，而本申请的范围由权利要求的范围决定。

Claims

一种交互式视频投影方法，其特征在于，包括：

基于在虚拟场景中确定的相机初始位置姿态，对三维地图进行渲染以获得与所述初始位置姿态对应的二维画面，所述初始位置姿态基于摄像头拍摄的视频帧确定；

对摄像头拍摄的视频帧和所述二维画面进行特征匹配，并根据特征匹配结果确定所述视频帧上的二维特征点在所述三维地图上对应的三维特征点；

基于所述二维特征点和所述三维特征点，通过位姿求解算法确定相机位姿矩阵、焦距信息和/或畸变参数；

根据所述相机位姿矩阵、所述焦距信息和/或所述畸变参数设置虚拟场景中的相机，并将所述视频帧加入渲染管线中进行视频投影。
根据权利要求1所述的交互式视频投影方法，其特征在于，所述基于在虚拟场景中确定的相机初始位置姿态，对三维地图进行渲染以获得与所述初始位置姿态对应的二维画面，所述初始位置姿态基于摄像头拍摄的视频帧确定，包括：

基于摄像头拍摄的视频帧在虚拟场景中确定相机初始位置姿态；

根据所述初始位置姿态获取渲染范围对应的三维模型瓦片，所述三维地图通过三维模型瓦片的形式进行存储；

对所述三维模型瓦片进行渲染以获得与所述初始位置姿态对应的二维画面。
根据权利要求1所述的交互式视频投影方法，其特征在于，所述对摄像头拍摄的视频帧和所述二维画面进行特征匹配，包括：

基于图像特征提取算法获取摄像头拍摄的视频帧和所述二维画面的特征点以及描述子；

根据描述子的距离对所述视频帧和所述二维画面之间的特征点进行特征匹配。
根据权利要求3所述的交互式视频投影方法，其特征在于，所述根据描述子的距离对所述视频帧和所述二维画面之间的特征点进行特征匹配之后，还包括：

基于RANSAC算法对匹配的特征点进行筛选。
根据权利要求1所述的交互式视频投影方法，其特征在于，所述对摄像头拍摄的视频帧和所述二维画面进行特征匹配之后，还包括：

根据特征匹配结果判断特征匹配是否成功，并在特征匹配失败时进行视角调整提醒，以提醒操作者重新选择相机的初始位置姿态。
根据权利要求1所述的交互式视频投影方法，其特征在于，所述根据特征匹配结果确定所述视频帧上的二维特征点在所述三维地图上对应的三维特征点，包括：

根据特征匹配结果确定所述二维画面中与所述视频帧上的二维特征点匹配的匹配特征点的坐标；

根据三维地图和二维画面坐标点的对应关系，确定三维地图中与二维特征点对应的三维特征点的坐标。
根据权利要求1所述的交互式视频投影方法，其特征在于，所述基于所述二维特征点和所述三维特征点，通过位姿求解算法确定相机位姿矩阵、焦距信息和/或畸变参数，包括：

获取视频帧上的二维特征点坐标和三维地图上的三维特征点坐标；

将所述二维特征点坐标和所述三维特征点坐标代入PnP算法和非线性优化算法，以得到相机位姿矩阵、焦距信息和/或畸变参数。
根据权利要求1所述的交互式视频投影方法，其特征在于，所述基于所述二维特征点和所述三维特征点，通过位姿求解算法确定相机位姿矩阵、焦距信息和/或畸变参数之后，还包括：

根据位姿求解算法结果判断相机位姿求解是否成功，并在相机位姿求解失败时进行视角调整提醒，以提醒操作者重新选择相机的初始位置姿态。
一种交互式视频投影装置，其特征在于，包括二维渲染模块、特征对应模块、位姿确定模块和视频投影模块，其中：

二维渲染模块，用于基于在虚拟场景中确定的相机初始位置姿态，对三维地图进行渲染以获得与所述初始位置姿态对应的二维画面，所述初始位置姿态基于摄像头拍摄的视频帧确定；

特征对应模块，用于对摄像头拍摄的视频帧和所述二维画面进行特征匹配，并根据特征匹配结果确定所述视频帧上的二维特征点在所述三维地图上对应的三维特征点；

位姿确定模块，用于基于所述二维特征点和所述三维特征点，通过位姿求解算法确定相机位姿矩阵、焦距信息和/或畸变参数；

视频投影模块，用于根据所述相机位姿矩阵、所述焦距信息和/或所述畸变参数设置虚拟场景中的相机，并将所述视频帧加入渲染管线中进行视频投影。
一种计算机设备，其特征在于，包括：存储器以及一个或多个处理器；

所述存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-8任一所述的交互式视频投影方法。
一种包含计算机可执行指令的存储介质，其特征在于，所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-8任一所述的交互式视频投影方法。