WO2020228766A1

WO2020228766A1 - 基于实景建模与智能识别的目标跟踪方法、系统及介质

Info

Publication number: WO2020228766A1
Application number: PCT/CN2020/090217
Authority: WO
Inventors: 李新福
Original assignee: 广东康云科技有限公司
Priority date: 2019-05-14
Filing date: 2020-05-14
Publication date: 2020-11-19
Also published as: CN110310306A

Abstract

一种基于实景建模与智能识别的目标跟踪方法、系统及介质，方法包括：获取场景的三维数据和场景的实时视频流并进行实景三维建模（S100）；对场景的三维实景进行智能识别（S101）；根据智能识别的结果从场景的三维实景中获取跟踪目标，并在场景的三维实景内对跟踪目标进行跟踪（S102）。通过将包含有场景的动态信息的实时视频流植入场景的三维模型，实现了在重建出的三维模型中展示动态信息的功能；根据智能识别的结果在场景的三维实景内对跟踪目标进行跟踪，通过融合三维模型和实时视频流的三维实景提供了3D实景追踪画面，能给予用户身临其境的感受，更加真实。该方法可广泛应用于三维建模与模式识别领域。

Description

基于实景建模与智能识别的目标跟踪方法、系统及介质

技术领域

本发明涉及三维建模与模式识别领域，尤其是一种基于实景建模与智能识别的目标跟踪方法、系统及介质。

背景技术

随着计算机等设备在各行各业的广泛应用，人们开始不满足于计算机等设备仅能显示二维的图像，更希望计算机等设备能表达出具有强烈真实感的现实三维世界。三维建模可以使计算机等设备做到这一点。三维建模，就是利用三维数据将现实中的三维物体或场景在计算机等设备中进行重建，最终实现在计算机等设备上模拟出真实的三维物体或场景。而三维数据就是使用各种三维数据采集设备采集得到的数据，它记录了有限体表面在离散点上的各种物理参量。目前的三维建模技术大多只能重建出场景或物体的静态三维模型，但真实的场景往往包含有物体的运动等动态信息，现有三维建模技术难以在重建出的三维模型中展示这些动态信息。

随着视频监控和网络传输技术的快速发展，在各级城市的街道、路口、车站、重要建筑物等地点普遍安装了CCTV(闭路电视监控系统)等视频拍摄装置。通过分析拍摄装置拍摄的内容以进行目标对象的识别是目前目标追踪的主要方法。然而，目前的目标追踪方法大多只能提供2D的追踪画面，2D追踪画面未能给予用户身临其境的真实感受。

目前，在重建出的三维模型中融入实时动态信息生成3D实景并用于目标追踪的方案尚未见诸报道。

发明内容

为解决上述技术问题，本发明实施例的目的在于：提供一种基于实景建模与智能识别的目标跟踪方法、系统及介质。

本发明实施例所采取的第一技术方案是：

基于实景建模与智能识别的目标跟踪方法，包括以下步骤：

获取场景的三维数据和场景的实时视频流并进行实景三维建模，得到场景的三维实景，所述场景的三维实景在场景的三维模型内展示场景的实时视频流；

对场景的三维实景进行智能识别，所述智能识别包括对场景的三维模型进行分割与智能识别以及对场景的实时视频流进行智能识别；

根据智能识别的结果从场景的三维实景中获取跟踪目标，并在场景的三维实景内对跟踪目标进行跟踪。

进一步，所述获取场景的三维数据和场景的实时视频流并进行实景三维建模，得到场景的三维实景这一步骤，具体包括：

通过扫描设备扫描的方式获取场景的三维数据，所述扫描设备包括空间扫描仪、航拍扫描仪、物体扫描仪和人体扫描仪；

通过视频采集设备获取场景的实时视频流；

根据场景的三维数据采用人工智能的方法进行三维重建，生成场景的三维模型，其中，三维重建包括模型修复、剪辑、裁剪、减面、减模、压缩、处理材质、处理贴图、处理灯光和压缩渲染；

根据场景的三维模型生成对应的链接；

将场景的实时视频流融合至场景的三维模型中，得到场景的三维实景。

进一步，所述对场景的实时视频流进行智能识别这一步骤，具体包括：

根据给定的训练样本和标签采用人工智能的方法训练智能识别模型；

将场景的三维实景的实时视频流输入训练好的智能识别模型，得到智能识别结果。

进一步，所述将场景的三维实景的实时视频流输入训练好的智能识别模型，得到智能识别结果这一步骤，具体为：

将场景的三维实景的实时视频流输入训练好的智能识别模型，识别得到第一结果，所述第一结果包括对象的类型和名称、对象的属性以及对象的行为，所述对象的类型包括人、动物和物体，所述对象的属性包括颜色、款式、性别、年龄和型号。

进一步，所述根据智能识别的结果从场景的三维实景中获取跟踪目标，并在场景的三维实景内对跟踪目标进行跟踪这一步骤，具体包括：

在场景的三维实景中确定并标注跟踪目标；

在场景的三维实景内自动对标注后的跟踪目标进行跟踪，从而获得跟踪目标的运动路径或轨迹。

进一步，所述根据智能识别的结果从场景的三维实景中获取跟踪目标，并在场景的三维实景内对跟踪目标进行跟踪这一步骤，还具体包括：

在场景的三维实景内识别标注后的跟踪目标的运动姿态。

本发明实施例所采取的第二技术方案是：

基于实景建模与智能识别的目标跟踪系统，包括以下模块：

实景三维建模模块，用于获取场景的三维数据和场景的实时视频流并进行实景三维建模，得到场景的三维实景，所述场景的三维实景在场景的三维模型内展示场景的实时视频流；

智能识别模块，用于对场景的三维实景进行智能识别，所述智能识别包括对场景的三维模型进行分割与智能识别以及对场景的实时视频流进行智能识别；

目标跟踪模块，用于根据智能识别的结果从场景的三维实景中获取跟踪目标，并在场景的三维实景内对跟踪目标进行跟踪。

进一步，所述实景三维建模模块具体包括：

扫描单元，用于通过扫描设备扫描的方式获取场景的三维数据，所述扫描设备包括空间扫描仪、航拍扫描仪、物体扫描仪和人体扫描仪；

视频采集单元，用于通过视频采集设备获取场景的实时视频流；

三维重建单元，用于根据场景的三维数据采用人工智能的方法进行三维重建，生成场景的三维模型，其中，三维重建包括模型修复、剪辑、裁剪、减面、减模、压缩、处理材质、处理贴图、处理灯光和压缩渲染；

链接生成单元，用于根据场景的三维模型生成对应的链接；

融合单元，用于将场景的实时视频流融合至场景的三维模型中，得到场景的三维实景。

本发明实施例所采取的第三技术方案是：

基于实景建模与智能识别的目标跟踪系统，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现本发明所述的基于实景建模与智能识别的目标跟踪方法。

本发明实施例所采取的第四技术方案是：

介质，其中存储有处理器可执行的指令，所述处理器可执行的指令在由处理器执行时用于实现本发明所述的基于实景建模与智能识别的目标跟踪方法。

上述本发明实施例中的一个或多个技术方案具有如下优点：本发明实施例先进行实景三维建模，生成三维实景，再对三维实景的实时视频流进行智能识别，最后对三维实景内的跟踪目标进行跟踪，将包含有场景的动态信息的实时视频流植入场景的三维模型，实现了在重建出的三维模型中展示动态信息的功能；根据智能识别的结果在场景的三维实景内对跟踪目标进行跟踪，通过融合三维模型和实时视频流的三维实景提供了3D实景追踪画面，能给予用户身临其境的沉浸式感受，更加真实。

附图说明

图1为本发明实施例提供的基于实景建模与智能识别的目标跟踪方法流程图；

图2为本发明实施例提供的基于实景建模与智能识别的目标跟踪系统一种结构框图；

图3为本发明实施例提供的基于实景建模与智能识别的目标跟踪系统另一种结构框图。

具体实施方式

以下将结合实施例和附图对本发明的构思、具体结构及产生的技术效果进行清楚、完整的描述，以充分地理解本发明的目的、方案和效果。

需要说明的是，如无特殊说明，当某一特征被称为“固定”、“连接”在另一个特征，它可以直接固定、连接在另一个特征上，也可以间接地固定、连接在另一个特征上。此外，本公开中所使用的上、下、左、右等描述仅仅是相对于附图中本公开各组成部分的相互位置关系来说的。在本公开中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。此外，除非另有定义，本文所使用的所有的技术和科学术语与本技术领域的技术人员通常理解的含义相同。本文说明书中所使用的术语只是为了描述具体的实施例，而不是为了限制本发明。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的组合。

应当理解，尽管在本公开可能采用术语第一、第二、第三等来描述各种元件，但这些元件不应限于这些术语。这些术语仅用来将同一类型的元件彼此区分开。例如，在不脱离本公开范围的情况下，第一元件也可以被称为第二元件，类似地，第二元件也可以被称为第一元件。本文所提供的任何以及所有实例或示例性语言(“例如”、“如”等)的使用仅意图更好地说明本发明的实施例，并且除非另外要求，否则不会对本发明的范围施加限制。

参照图1，本发明实施例提供了一种基于实景建模与智能识别的目标跟踪方法，包括以下步骤：

S100、获取场景的三维数据和场景的实时视频流并进行实景三维建模，得到场景的三维实景，所述场景的三维实景在场景的三维模型内展示场景的实时视频流；

具体地，本实施例的场景可以是某个城市、某个园区、某个建筑物等场景。场景的三维数据可以是二维的图像、场景的点云数据等，其可通过各手动或自动的扫描设备(如相机、自动扫描机器人等)来采集。

场景的实时视频流可以通过CCTV、摄像头等视频采集装置来获取。

S101、对场景的三维实景进行智能识别，所述智能识别包括对场景的三维模型进行分割与智能识别以及对场景的实时视频流进行智能识别；

具体地，本实施例对场景的三维模型进行分割与智能识别这一过程，可包括以下实现步骤：

S10100、从场景的三维模型获取点云数据；

由于场景的三维模型是由多个点云(点的集合)组成的，故其可以在生成场景的三维模型后提供对应的点云数据，以便于后续的分割与智能识别。

S10101、根据点与邻近点的关系(如颜色、像素、大小、尺寸、距离等)对点云数据进行分割，以根据点云数据生成场景内各个对象的点云；

S10102、采用人工智能算法智能识别场景内各个对象的点云。

场景内可包含多个物体、人物等对象。相应地，对点云数据进行分割，得到场景内对象的点云也包含了多个点云，这些分割出的点云的具体类型和名称可经人工智能算法识别后即可得出。

而对场景的实时视频流进行智能识别时，可通过人工智能算法预先训练的智能识别模型进行自动识别，以便于后续的目标跟踪或其他智能分析。实时视频流的智能识别主要识别的是实时视频流所包含的对象及对象的姿态、动作等信息。

S102、根据智能识别的结果从场景的三维实景中获取跟踪目标，并在场景的三维实景内对跟踪目标进行跟踪。

具体地，在对场景的三维实景内的三维模型和实时视频流识别完成后，可以在该三维实景内通过矩形标注框等方式将跟踪目标标注出来并锁定，而由于获取视频流的CCTV闭路电视监控系统等视频获取装置是联网的，这样即使跟踪目标从当前视频获取装置走到另外一个视频获取装置的采集区域仍能被识别。

由此可见，本实施例将包含有场景的动态信息的实时视频流植入场景的三维模型，实现了在重建出的三维模型中展示动态信息的功能；根据智能识别的结果在场景的三维实景内对跟踪目标进行跟踪，通过融合三维模型和实时视频流的三维实景提供了3D实景追踪画面，能给予用户身临其境的沉浸式感受，更加真实。

进一步作为优选的实施方式，所述获取场景的三维数据和场景的实时视频流并进行实景三维建模，得到场景的三维实景这一步骤S100，具体包括：

S1000、通过扫描设备扫描的方式获取场景的三维数据，所述扫描设备包括空间扫描仪、航拍扫描仪、物体扫描仪和人体扫描仪；

具体地，扫描设备，用于对场景内的对象进行扫描，并将扫描的数据上传给云端或后台服务器。扫描设备可以是航拍扫描设备、空间扫描仪、物体扫描仪或人体扫描设备。航拍扫描设备，可以是航拍飞机等航拍设备，用于扫描场景内区域范围(如整个园区)的三维数据。空间扫描设备，用于扫描室内环境(如某栋建筑某层楼的内部)或扫描室外环境(如某栋建筑外的某条马路等)的三维数据。空间扫描设备，可以是手持扫描设备(如带支撑架的相机)或其他自动扫描设备(如自动扫描机器人)。物体扫描仪，用于对某个物体(如苹果、笔)进行扫描。物体扫描仪，可以是手持的扫描设备(如带支撑架的RGB-D摄像机等)。人体扫描仪，用于扫描人体的三维数据。人体扫描仪，可以是现有专门针对人体建模的人体扫描仪。

三维数据包括二维图片和深度信息等数据。

优选地，本实施例的扫描设备可集成有具有边缘计算能力且可以植入人工智能算法的GPU芯片，能在扫描的同时进行计算，从而生成场景部分的三维模型，这样云端或后台服务器只需生成场景余下部分的三维模型即可，大大提升了建模的效率。

S1001、通过视频采集设备获取场景的实时视频流；

具体地，视频采集设备可以是监控摄像头、CCTV闭路电视等装置。

S1002、根据场景的三维数据采用人工智能的方法进行三维重建，生成场景的三维模型，其中，三维重建包括模型修复、剪辑、裁剪、减面、减模、压缩、处理材质、处理贴图、处理灯光和压缩渲染；

具体地，根据场景的三维数据采用人工智能的方法进行三维重建，生成场景的三维模型这一过程可在扫描设备、云端或后台服务器中进行。扫描设备、云端或后台服务器集成了AI算法，能实现完全自动化的快速建模，无需人工的参与，显著提升了建模的效率且智能化程度高。

S1003、根据场景的三维模型生成对应的链接；

具体地，本实施例可生成场景的三维模型的链接(如URL链接等)，这样任何支持浏览器的计算设备(包括智能手机、平板电脑、笔记本电脑、智能手表、智能电视、计算机等)都可以通过该链接访问该三维模型，省去了装APP的过程，更加方便且通用性更强。

S1004、将场景的实时视频流融合至场景的三维模型中，得到场景的三维实景。

具体地，由于用于采集实时视频流的视频采集装置的位置是已知道或可以预先设定的，所以生成场景的三维模型后，只需在该三维模型中找出其对应的位置并将视频流采集装置采集的实时视频流视叠加在该位置进行持续播放，即可在三维模型内动态展示场景的3D视频流，克服了传统3D扫描建模技术得到的3D模型都是静态的缺陷，真正实现了场景的实景3D监控。用户通过三维模型对应的链接即可访问场景的三维模型以及在三维模型内动态播放或展示的3D视频流。本实施例利用这一方式真正实现3D模型与实时视频流的无缝融合，不受场景的改变和角度的改变的影响，在场景改变或角度改变后仍能在3D模型中观看到该实时视频流。

进一步作为优选的实施方式，所述对场景的实时视频流进行智能识别这一步骤，具体包括：

S10110、根据给定的训练样本和标签采用人工智能的方法训练智能识别模型；

S10111、将场景的三维实景的实时视频流输入训练好的智能识别模型，得到智能识别结果。

具体地，本实施例给定的训练样本和标签可以由预先建立的数据库来提供，例如人脸识别模型则可以通过预先收集的各种不同类型的人脸放入人脸数据库，训练时可直接从该数据库中获取人脸作为样本，获取对应的人脸的类型或名称(如不同年龄、国家等的人脸)作为标签。本实施例应用人工智能的方法，可以训练出精确的智能识别模型，这样实时视频流中即使有新的标签未知的数据输入，也能自动利用该智能识别模型识别出来，效率高且更加智能。

进一步作为优选的实施方式，所述将场景的三维实景的实时视频流输入训练好的智能识别模型，得到智能识别结果这一步骤S10110，具体为：

具体地，本实施例通过对实时视频流的智能识别，可以精确识别出对象的类型和名称、对象的属性以及对象的行为等内容，有利于进一步的智能分析、后续的目标跟踪等操作。

例如，通过对实时视频流的智能识别，可以识别出视频内的猫猪狗等动物、车牌是什么牌照的车牌，车牌的颜色是什么，人是什么人(男女老少)，人穿什么衣服，车的款式型号是什么，人脸是什么人脸等等。

本实施例通过对实时视频流的智能识别，配合场景的三维模型的智能识别，可以识别出场景的三维实景内的一景一物，极大地方便了后续的目标跟踪、监控等应用。

进一步作为优选的实施方式，所述根据智能识别的结果从场景的三维实景中获取跟踪目标，并在场景的三维实景内对跟踪目标进行跟踪这一步骤S102，具体包括：

S1020、在场景的三维实景中确定并标注跟踪目标；

具体地，本实施例可以在完成三维场景的智能识别后，根据实际的跟踪需要将场景内的某个对象(如某个犯罪嫌疑人、某辆可疑的车辆等)通过添加矩形框、添加覆盖对象轮廓的不规则图形等方式标注出来并锁定为跟踪目标。

S1021、在场景的三维实景内自动对标注后的跟踪目标进行跟踪，从而获得跟踪目标的运动路径或轨迹。

具体地，在对跟踪目标进行跟踪时，由于三维实景的视频流是实时且采集视频流的视频采集装置是通过局域网、互联网、工控网络等互联的，这样通过分析三维实景内多个视频采集装置的视频流即可自动得到跟踪目标的运动路径或轨迹，十分方便和高效。而且与现有目标跟踪方案只能提供2D视频监控画面不同的是，本实施例的目标跟踪方案在提供场景的实时视频流的同时也提供该视频流所在位置的三维模型(可360度无死角漫游)，真正实现了视频流+3D模型的3D实景跟踪，更加立体和真实。

进一步作为优选的实施方式，所述根据智能识别的结果从场景的三维实景中获取跟踪目标，并在场景的三维实景内对跟踪目标进行跟踪这一步骤S102，还具体包括：

S1023、在场景的三维实景内识别标注后的跟踪目标的运动姿态。

具体地，本实施例通过人工智能算法训练学习的识别模型，还可以识别跟踪目标的运动姿态(如人是跑步还是步行，人是否有拿东西或带墨镜等)，能提供更丰富的细节信息，有利于目标跟踪操作，更加智能和方便。

如图2所示，本发明实施例还提供了一种基于实景建模与智能识别的目标跟踪系统，包括以下模块：

实景三维建模模块201，用于获取场景的三维数据和场景的实时视频流并进行实景三维建模，得到场景的三维实景，所述场景的三维实景在场景的三维模型内展示场景的实时视频流；

智能识别模块202，用于对场景的三维实景进行智能识别，所述智能识别包括对场景的三维模型进行分割与智能识别以及对场景的实时视频流进行智能识别；

目标跟踪模块203，用于根据智能识别的结果从场景的三维实景中获取跟踪目标，并在场景的三维实景内对跟踪目标进行跟踪。

如图2所示，进一步作为优选的实施方式，所述实景三维建模模块201具体包括：

扫描单元2011，用于通过扫描设备扫描的方式获取场景的三维数据，所述扫描设备包括空间扫描仪、航拍扫描仪、物体扫描仪和人体扫描仪；

视频采集单元2012，用于通过视频采集设备获取场景的实时视频流；

三维重建单元2013，用于根据场景的三维数据采用人工智能的方法进行三维重建，生成场景的三维模型，其中，三维重建包括模型修复、剪辑、裁剪、减面、减模、压缩、处理材质、处理贴图、处理灯光和压缩渲染；

链接生成单元2014，用于根据场景的三维模型生成对应的链接；

融合单元2015，用于将场景的实时视频流融合至场景的三维模型中，得到场景的三维实景。

上述方法实施例中的内容均适用于本系统实施例中，本系统实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

如图3所示，本发明实施例还提供了一种基于实景建模与智能识别的目标跟踪系统，包括：

至少一个处理器301；

至少一个存储器302，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器301实现本发明所述的基于实景建模与智能识别的目标跟踪方法。

本发明实施例还提供了一种介质，其中存储有处理器可执行的指令，所述处理器可执行的指令在由处理器执行时用于实现本发明所述的基于实景建模与智能识别的目标跟踪方法。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

基于实景建模与智能识别的目标跟踪方法，其特征在于：包括以下步骤：

获取场景的三维数据和场景的实时视频流并进行实景三维建模，得到场景的三维实景，所述场景的三维实景在场景的三维模型内展示场景的实时视频流；

对场景的三维实景进行智能识别，所述智能识别包括对场景的三维模型进行分割与智能识别以及对场景的实时视频流进行智能识别；

根据智能识别的结果从场景的三维实景中获取跟踪目标，并在场景的三维实景内对跟踪目标进行跟踪。
根据权利要求1所述的基于实景建模与智能识别的目标跟踪方法，其特征在于：所述获取场景的三维数据和场景的实时视频流并进行实景三维建模，得到场景的三维实景这一步骤，具体包括：

通过扫描设备扫描的方式获取场景的三维数据，所述扫描设备包括空间扫描仪、航拍扫描仪、物体扫描仪和人体扫描仪；

通过视频采集设备获取场景的实时视频流；

根据场景的三维数据采用人工智能的方法进行三维重建，生成场景的三维模型，其中，三维重建包括模型修复、剪辑、裁剪、减面、减模、压缩、处理材质、处理贴图、处理灯光和压缩渲染；

根据场景的三维模型生成对应的链接；

将场景的实时视频流融合至场景的三维模型中，得到场景的三维实景。
根据权利要求1所述的基于实景建模与智能识别的目标跟踪方法，其特征在于：所述对场景的实时视频流进行智能识别这一步骤，具体包括：

根据给定的训练样本和标签采用人工智能的方法训练智能识别模型；

将场景的三维实景的实时视频流输入训练好的智能识别模型，得到智能识别结果。
根据权利要求3所述的基于实景建模与智能识别的目标跟踪方法，其特征在于：所述将场景的三维实景的实时视频流输入训练好的智能识别模型，得到智能识别结果这一步骤，具体为：

将场景的三维实景的实时视频流输入训练好的智能识别模型，识别得到第一结果，所述第一结果包括对象的类型和名称、对象的属性以及对象的行为，所述对象的类型包括人、动物和物体，所述对象的属性包括颜色、款式、性别、年龄和型号。
根据权利要求1所述的基于实景建模与智能识别的目标跟踪方法，其特征在于：所述根据智能识别的结果从场景的三维实景中获取跟踪目标，并在场景的三维实景内对跟踪目标进行跟踪这一步骤，具体包括：

在场景的三维实景中确定并标注跟踪目标；

在场景的三维实景内自动对标注后的跟踪目标进行跟踪，从而获得跟踪目标的运动路径或轨迹。
根据权利要求5所述的基于实景建模与智能识别的目标跟踪方法，其特征在于：所述根据智能识别的结果从场景的三维实景中获取跟踪目标，并在场景的三维实景内对跟踪目标进行跟踪这一步骤，还具体包括：

在场景的三维实景内识别标注后的跟踪目标的运动姿态。
基于实景建模与智能识别的目标跟踪系统，其特征在于：包括以下模块：

实景三维建模模块，用于获取场景的三维数据和场景的实时视频流并进行实景三维建模，得到场景的三维实景，所述场景的三维实景在场景的三维模型内展示场景的实时视频流；

智能识别模块，用于对场景的三维实景进行智能识别，所述智能识别包括对场景的三维模型进行分割与智能识别以及对场景的实时视频流进行智能识别；

目标跟踪模块，用于根据智能识别的结果从场景的三维实景中获取跟踪目标，并在场景的三维实景内对跟踪目标进行跟踪。
根据权利要求7所述的基于实景建模与智能识别的目标跟踪系统，其特征在于：所述实景三维建模模块具体包括：

扫描单元，用于通过扫描设备扫描的方式获取场景的三维数据，所述扫描设备包括空间扫描仪、航拍扫描仪、物体扫描仪和人体扫描仪；

视频采集单元，用于通过视频采集设备获取场景的实时视频流；

三维重建单元，用于根据场景的三维数据采用人工智能的方法进行三维重建，生成场景的三维模型，其中，三维重建包括模型修复、剪辑、裁剪、减面、减模、压缩、处理材质、处理贴图、处理灯光和压缩渲染；

链接生成单元，用于根据场景的三维模型生成对应的链接；

融合单元，用于将场景的实时视频流融合至场景的三维模型中，得到场景的三维实景。
基于实景建模与智能识别的目标跟踪系统，其特征在于：包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如权利要求1-6任一项所述的基于实景建模与智能识别的目标跟踪方法。
介质，其中存储有处理器可执行的指令，其特征在于：所述处理器可执行的指令在由处理器执行时用于实现如权利要求1-6任一项所述的基于实景建模与智能识别的目标跟踪方法。