WO2021217398A1

WO2021217398A1 - 图像的处理方法及装置、可移动平台及其控制终端、计算机可读存储介质

Info

Publication number: WO2021217398A1
Application number: PCT/CN2020/087404
Authority: WO
Inventors: 杨振飞; 周游; 苏坤岳
Original assignee: 深圳市大疆创新科技有限公司
Priority date: 2020-04-28
Filing date: 2020-04-28
Publication date: 2021-11-04
Also published as: CN113853577A

Abstract

本申请提供了一种图像的处理方法及装置、可移动平台及其控制终端、计算机可读存储介质，其中，图像的处理方法包括：获取可移动平台在空间中移动时可移动平台的拍摄装置采集到的目标视频；获取拍摄装置在采集目标视频中每一图像帧时的位姿信息；获取用户编辑的展示对象；确定展示对象在空间中的位置信息；根据展示对象在空间中的位置信息和每一图像帧对应的位姿信息将展示对象投影到每一图像帧上以获取目标合成视频。通过在移动过程中获取拍摄装置的位姿信息，结合视频的图像信息，计算出视频中场景的三维信息，使得处理视频更加快速便捷，用户只需要输入要生成的展示对象，并点击想要摆放的位置，即可自动渲染制作插入了展示对象的特效视频。

Description

图像的处理方法及装置、可移动平台及其控制终端、计算机可读存储介质

技术领域

本申请涉及图像处理技术领域，具体而言，涉及一种图像的处理方法、一种图像的处理装置、一种可移动平台、一种可移动平台的控制终端及一种计算机可读存储介质。

背景技术

无人机航拍视频，由于其独特的上帝视角，得到广泛应用和推崇。但目前航拍视频要想做一些特效，如3D字幕效果，还是需要将视频从无人机的SD(Secure Digital Memory Card，安全数码卡)中下载到计算机上，利用传统的专业视频编辑软件制作特效，并有一定的操作难度，费时费力。

发明内容

本申请旨在至少解决现有技术或相关技术中存在的技术问题之一。

为此，本申请的第一方面提出了一种图像的处理方法。

本申请的第二方面提出了一种图像的处理装置。

本申请的第三方面提出了一种可移动平台。

本申请的第四方面提出了一种可移动平台的控制终端。

本申请的第五方面提出了一种计算机可读存储介质。

有鉴于此，根据本申请的第一方面，提供了一种图像的处理方法，应用于图像的处理装置，包括：获取可移动平台在空间中移动时可移动平台的拍摄装置采集到的目标视频；获取拍摄装置在采集目标视频中每一图像帧时的位姿信息；获取用户编辑的展示对象；确定展示对象在空间中的位置信息；根据展示对象在空间中的位置信息和每一图像帧对应的位姿信息将展示对象投影到每一图像帧上以获取目标合成视频。

另外，根据本申请上述技术方案提供的图像的处理方法，还具有如下附加技术特征：

在本申请的一种实施例中，获取拍摄装置在采集目标视频中每一图像帧时的位姿信息，包括：获取每一图像帧中的特征点在图像帧中的位置信息；根据特征点在图像帧中的位置信息确定拍摄装置在采集每一图像帧时的位姿信息。

在本申请的一种实施例中，方法还包括：获取拍摄装置在采集每一图像帧时的初始位姿信息，其中，初始位姿信息是可移动平台配置的传感器采集得到的；根据特征点在图像帧中的位置信息确定拍摄装置在采集每一图像帧时的位姿信息，包括：根据特征点在图像帧中的位置信息和每一图像帧对应的初始位姿信息确定拍摄装置在采集每一图像帧时的位姿信息。

在本申请的一种实施例中，方法还包括：获取拍摄装置在采集每一图像帧时的初始位姿信息，其中，初始位姿信息是可移动平台配置的传感器采集得到的；根据展示对象在空间中的位置信息和每一图像帧对应的初始位姿信息将展示对象投影到每一图像帧上以获取预览合成视频。

在本申请的一种实施例中，根据展示对象在空间中的位置信息和每一图像帧对应的位姿信息将展示对象投影到每一图像帧上以获取目标合成视频，包括：根据展示对象在空间中的位置信息和每一图像帧对应的位姿信息确定展示对象在每一图像帧中的投影位置和投影姿态；根据展示对象在每一图像帧中的投影位置和投影姿态将展示对象投影到每一图像帧中以获取目标合成视频。

在本申请的一种实施例中，方法还包括：获取用户编辑的展示对象的位置调整信息和/或姿态调整信息；根据展示对象在空间中的位置信息和每一图像帧对应的位姿信息确定展示对象在每一图像帧中的投影位置和投影姿态，包括：根据展示对象在空间中的位置信息、每一图像帧对应的位姿信息和展示对象的位置调整信息和/或姿态调整信息确定展示对象在每一图像帧中的投影位置和投影姿态。

在本申请的一种实施例中，获取用户编辑的展示对象，包括：检测用户的展示对象编辑操作，根据检测到的编辑操作确定用户编辑的展示对象。

在本申请的一种实施例中，检测用户的展示对象编辑操作，包括：控制交互装置显示展示对象编辑界面；检测用户对显示展示对象编辑界面的交互装置的展示对象编辑操作。

在本申请的一种实施例中，方法还包括：获取可移动平台在空间中移动时拍摄装置采集的初始视频；获取可移动平台在空间中移动时可移动平台的拍摄装置采集到的目标视频，包括：检测用户的视频选取操作，根据检测到的视频选取操作从初始视频中确定目标视频。

在本申请的一种实施例中，检测用户的视频选取操作，包括：控制交互装置显示视频选取界面；检测用户对显示视频选取界面的交互装置的视频选取操作。

在本申请的一种实施例中，确定展示对象在空间中的位置信息，包括：获取用户在目标视频中的目标图像帧中选中的像素点在目标图像帧中的位置或者在目标图像帧中选中的像素点区域在目标图像帧中的位置；根据像素点或者像素点区域在目标图像帧中的位置确定展示对象在空间中的位置信息。

在本申请的一种实施例中，方法还包括：从目标视频中确定目标子视频；获取用户在目标视频中的目标图像帧中选中的像素点在目标图像帧中的位置或者在目标图像帧中选中的像素点区域在目标图像帧中的位置，包括：获取用户在目标子视频中的目标图像帧中选中的像素点在目标图像帧中的位置或者在目标图像帧中选中的像素点区域在目标图像帧中的位置。

在本申请的一种实施例中，方法还包括：响应于用户在目标视频中的目标子视频之外的图像帧中选中像素点或者像素点区域的操作，输出选中无效的提示信息。

在本申请的一种实施例中，方法还包括：输出第一提示信息，其中，第一提示信息用于指示用户在目标子视频中的目标图像帧中选中像素点或者像素点区域。

在本申请的一种实施例中，目标子视频包括目标视频中拍摄装置的运动状态满足预设的运动条件时拍摄装置采集到的视频。

在本申请的一种实施例中，从目标视频中确定目标子视频，包括：从目标视频中确定多个连续图像帧，其中，多个连续图像帧相邻的图像帧之间特征点的平均移动量之和大于或等于预设的距离阈值，多个连续图像帧的视差大于或等于预设的视差阈值；将多个连续图像帧确定为目标子视频。

在本申请的一种实施例中，多个连续图像帧的数量大于或等于预设的图像数量阈值。

在本申请的一种实施例中，确定展示对象在空间中的位置信息，还包括：确定像素点或者像素点区域指示的空间中物体是否为静止物体；根据像素点或者像素点区域在目标图像帧中的位置确定用户编辑的展示对象在空间中的位置信息，包括：当物体为静止物体时，根据像素点或者像素点区域在目标图像帧中的位置确定用户编辑的展示对象在空间中的位置信息。

在本申请的一种实施例中，确定展示对象在空间中的位置信息，还包括：确定像素点或者像素点区域指示的空间中物体是否为静止物体；当物体不为静止运动时，输出第二提示信息，其中，第二提示信息用于提示用户像素点或者像素点区域不可选，或者用于提示用户选中其他像素点或者像素点区域。

在本申请的一种实施例中，确定展示对象在空间中的位置信息，还包括：确定像素点区域是否满足预设的纹理条件；根据像素点区域在目标图像帧中的位置确定用户编辑的展示对象在空间中的位置信息，包括：当满足预设的纹理条件时，根据像素点或者像素点区域在目标图像帧中的位置确定用户编辑的展示对象在空间中的位置信息。

在本申请的一种实施例中，确定展示对象在空间中的位置信息，还包括：确定像素点区域是否满足预设的纹理条件；当不满足预设的纹理条件时，输出第三提示信息，其中，第三提示信息用于提示用户像素点或者像素点区域不可选，或者用于提示用户选中其他像素点或者像素点区域。

在本申请的一种实施例中，根据像素点区域在目标图像帧中的位置确定展示对象在空间中的位置信息，包括：根据像素点区域在目标图像帧中的位置确定像素点区域中的特征点；获取像素点区域中的特征点在目标图像帧中的位置；根据特征点在目标图像帧中的位置确定像素点区域的几何中心像素点的对应的空间点在空间中的位置信息。

在本申请的一种实施例中，根据特征点在目标图像帧中的位置确定像素点区域的几何中心像素点的对应的空间点在空间中的位置信息，包括：根据特征点在目标图像帧中的位置确定像素点区域的几何中心像素点的对应的空间点在目标视频至少一帧参考图像帧的光流向量；根据光流向量确定几何中心像素点的对应的空间点在至少一帧参考图像帧中的位置；根据在至少一帧参考图像帧中的位置和特征点在目标图像帧中的位置确定几何中心像素点的对应的空间点在空间中的位置信息。

在本申请的一种实施例中，根据像素点在目标图像帧中的位置确定展示对象在空间中的位置信息，包括：获取目标图像帧中的目标特征点对应的空间点在空间中的位置；根据目标特征点对应的空间点在空间中的位置拟合目标平面；根据像素点在目标图像帧中的位置和拟合目标平面确定展示对象在空间中的位置信息。

在本申请的一种实施例中，目标特征点与像素点之间的像素距离小于或等于预设的像素距离阈值。

在本申请的一种实施例中，目标视频是可移动平台对空间中的目标对象进行跟随时由拍摄装置拍摄获取的，确定展示对象在空间中的位置信息，包括：获取拍摄装置的跟随对象在空间中的位置信息；根据跟随对象在空间中的位置信息确定展示对象在空间中的位置信息。

在本申请的一种实施例中，目标视频是可移动平台对空间中的目标对象进行环绕运动时由拍摄装置拍摄获取的，确定展示对象在空间中的位置信息，包括：获取拍摄装置的环绕对象在空间中的位置信息；根据环绕对象在空间中的位置信息确定展示对象在空间中的位置信息。

在本申请的一种实施例中，展示对象包括数字、字母、符号、文字和物体标识中的至少一种。

在本申请的一种实施例中，展示对象为三维模型。

在本申请的一种实施例中，方法还包括：播放或存储或者运行社交应用程序分享目标合成视频。

在本申请的一种实施例中，可移动平台包括图像的处理装置，方法还包括：将目标合成视频发送给可移动平台的控制终端以使控制终端播放或存储或者运行社交应用程序分享目标合成视频。

在本申请的一种实施例中，可移动平台包括无人飞行器。

根据本申请的第二方面，提供了一种图像的处理装置，包括：存储器，被配置为存储计算机程序；处理器，被配置为执行计算机程序以实现：获取可移动平台在空间中移动时可移动平台的拍摄装置采集到的目标视频；获取拍摄装置在采集目标视频中每一图像帧时的位姿信息；获取用户编辑的展示对象；确定展示对象在空间中的位置信息；根据展示对象在空间中的位置信息和每一图像帧对应的位姿信息将展示对象投影到每一图像帧上以获取目标合成视频。

另外，根据本申请提供的上述技术方案中的图像的处理装置，还可以具有如下附加技术特征：

在本申请的一种实施例中，处理器还被配置为执行计算机程序以实现：获取每一图像帧中的特征点在图像帧中的位置信息；根据特征点在图像帧中的位置信息确定拍摄装置在采集每一图像帧时的位姿信息。

在本申请的一种实施例中，处理器还被配置为执行计算机程序以实现：获取拍摄装置在采集每一图像帧时的初始位姿信息，其中，初始位姿信息是可移动平台配置的传感器采集得到的；根据特征点在图像帧中的位置信息和每一图像帧对应的初始位姿信息确定拍摄装置在采集每一图像帧时的位姿信息。

在本申请的一种实施例中，处理器还被配置为执行计算机程序以实现：获取拍摄装置在采集每一图像帧时的初始位姿信息，其中，初始位姿信息是可移动平台配置的传感器采集得到的；根据展示对象在空间中的位置信息和每一图像帧对应的初始位姿信息将展示对象投影到每一图像帧上以获取预览合成视频。

在本申请的一种实施例中，处理器还被配置为执行计算机程序以实现：根据展示对象在空间中的位置信息和每一图像帧对应的位姿信息确定展示对象在每一图像帧中的投影位置和投影姿态；根据展示对象在每一图像帧中的投影位置和投影姿态将展示对象投影到每一图像帧中以获取目标合成视频。

在本申请的一种实施例中，处理器还被配置为执行计算机程序以实现：获取用户编辑的展示对象的位置调整信息和/或姿态调整信息；根据展示对象在空间中的位置信息、每一图像帧对应的位姿信息和展示对象的位置调整信息和/或姿态调整信息确定展示对象在每一图像帧中的投影位置和投影姿态。

在本申请的一种实施例中，处理器还被配置为执行计算机程序以实现：检测用户的展示对象编辑操作，根据检测到的编辑操作确定用户编辑的展示对象。

在本申请的一种实施例中，处理器还被配置为执行计算机程序以实现：控制交互装置显示展示对象编辑界面；检测用户对显示展示对象编辑界面的交互装置的展示对象编辑操作。

在本申请的一种实施例中，处理器还被配置为执行计算机程序以实现：获取可移动平台在空间中移动时拍摄装置采集的初始视频；检测用户的视频选取操作，根据检测到的视频选取操作从初始视频中确定目标视频。

在本申请的一种实施例中，处理器还被配置为执行计算机程序以实现：控制交互装置显示视频选取界面；检测用户对显示视频选取界面的交互装置的视频选取操作。

在本申请的一种实施例中，处理器还被配置为执行计算机程序以实现：获取用户在目标视频中的目标图像帧中选中的像素点在目标图像帧中的位置或者在目标图像帧中选中的像素点区域在目标图像帧中的位置；根据像素点或者像素点区域在目标图像帧中的位置确定展示对象在空间中的位置信息。

在本申请的一种实施例中，处理器还被配置为执行计算机程序以实现：从目标视频中确定目标子视频；获取用户在目标子视频中的目标图像帧中选中的像素点在目标图像帧中的位置或者在目标图像帧中选中的像素点区域在目标图像帧中的位置。

在本申请的一种实施例中，处理器还被配置为执行计算机程序以实现：响应于用户在目标视频中的目标子视频之外的图像帧中选中像素点或者像素点区域的操作，输出选中无效的提示信息。

在本申请的一种实施例中，处理器还被配置为执行计算机程序以实现：输出第一提示信息，其中，第一提示信息用于指示用户在目标子视频中的目标图像帧中选中像素点或者像素点区域。

在本申请的一种实施例中，处理器还被配置为执行计算机程序以实现：从目标视频中确定多个连续图像帧，其中，多个连续图像帧相邻的图像帧之间特征点的平均移动量之和大于或等于预设的距离阈值，多个连续图像帧的视差大于或等于预设的视差阈值；将多个连续图像帧确定为目标子视频。

在本申请的一种实施例中，处理器还被配置为执行计算机程序以实现：确定像素点或者像素点区域指示的空间中物体是否为静止物体；当物体为静止物体时，根据像素点或者像素点区域在目标图像帧中的位置确定用户编辑的展示对象在空间中的位置信息。

在本申请的一种实施例中，处理器还被配置为执行计算机程序以实现：确定像素点或者像素点区域指示的空间中物体是否为静止物体；当物体不为静止运动时，输出第二提示信息，其中，第二提示信息用于提示用户像素点或者像素点区域不可选，或者用于提示用户选中其他像素点或者像素点区域。

在本申请的一种实施例中，处理器还被配置为执行计算机程序以实现：确定像素点区域是否满足预设的纹理条件；当满足预设的纹理条件时，根据像素点或者像素点区域在目标图像帧中的位置确定用户编辑的展示对象在空间中的位置信息。

在本申请的一种实施例中，处理器还被配置为执行计算机程序以实现：确定像素点区域是否满足预设的纹理条件；当不满足预设的纹理条件时，输出第三提示信息，其中，第三提示信息用于提示用户像素点或者像素点区域不可选，或者用于提示用户选中其他像素点或者像素点区域。

在本申请的一种实施例中，处理器还被配置为执行计算机程序以实现：根据像素点区域在目标图像帧中的位置确定像素点区域中的特征点；获取像素点区域中的特征点在目标图像帧中的位置；根据特征点在目标图像帧中的位置确定像素点区域的几何中心像素点的对应的空间点在空间中的位置信息。

在本申请的一种实施例中，处理器还被配置为执行计算机程序以实现：根据特征点在目标图像帧中的位置确定像素点区域的几何中心像素点的对应的空间点在目标视频至少一帧参考图像帧的光流向量；根据光流向量确定几何中心像素点的对应的空间点在至少一帧参考图像帧中的位置；根据在至少一帧参考图像帧中的位置和特征点在目标图像帧中的位置确定几何中心像素点的对应的空间点在空间中的位置信息。

在本申请的一种实施例中，处理器还被配置为执行计算机程序以实现：获取目标图像帧中的目标特征点对应的空间点在空间中的位置；根据目标特征点对应的空间点在空间中的位置拟合目标平面；根据像素点在目标图像帧中的位置和拟合目标平面确定展示对象在空间中的位置信息。

在本申请的一种实施例中，目标视频是可移动平台对空间中的目标对象进行跟随时由拍摄装置拍摄获取的，处理器还被配置为执行计算机程序以实现：获取拍摄装置的跟随对象在空间中的位置信息；根据跟随对象在空间中的位置信息确定展示对象在空间中的位置信息。

在本申请的一种实施例中，目标视频是可移动平台对空间中的目标对象进行环绕运动时由拍摄装置拍摄获取的，处理器还被配置为执行计算机程序以实现：获取拍摄装置在空间中的环绕对象的位置信息；根据环绕对象在空间中的位置信息确定展示对象在空间中的位置信息。

在本申请的一种实施例中，展示对象为三维模型。

在本申请的一种实施例中，处理器还被配置为执行计算机程序以实现：播放或存储或者运行社交应用程序分享目标合成视频。

在本申请的一种实施例中，可移动平台包括图像的处理装置，处理器还被配置为执行计算机程序以实现：将目标合成视频发送给可移动平台的控制终端以使控制终端播放或存储或者运行社交应用程序分享目标合成视频。

在本申请的一种实施例中，可移动平台包括无人飞行器。

根据本申请的第三方面，提供了一种可移动平台，包括如上述部分技术方案的图像的处理装置。

根据本申请的第四方面，提供了一种可移动平台的控制终端，包括如上述部分技术方案的图像的处理装置。

根据本申请的第五方面，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现如上述任一技术方案的图像的处理方法的步骤。

综上，本申请提出一种图像的处理方案，针对于可移动平台，通过在移动过程中获取可移动平台的拍摄装置的位姿信息，结合视频的图像信息，计算出视频中场景的三维信息，使得处理视频更加快速便捷，用户只需要输入要生成的展示对象，如字幕文字，并点击想要摆放的位置，即可自动渲染制作插入了展示对象的特效视频，如3D字幕效果视频。

本申请的附加方面和优点将在下面的描述部分中变得明显，或通过本申请的实践了解到。

附图说明

本申请的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1示出了根据本申请的一个实施例的图像的处理方法的示意流程图；

图2示出了根据本申请的一个实施例的获取位姿信息的方法的示意流程图；

图3示出了根据本申请的一个实施例的确定展示对象在空间中的位置信息的方法的示意流程图；

图4示出了根据本申请的一个实施例的获取目标合成视频的方法的示意流程图；

图5示出了根据本申请的一个实施例的三维模型线框图；

图6示出了根据本申请的一个实施例的三维模型消隐图；

图7示出了根据本申请的另一个实施例的图像的处理方法的示意流程图；

图8示出了根据本申请的再一个实施例的图像的处理方法的示意流程图；

图9示出了根据本申请的一个实施例的确定目标子视频的方法的示意流程图；

图10示出了根据本申请的一个实施例的确定目标子视频的策略示意图；

图11示出了根据本申请的一个实施例的计算兴趣点的方法的示意流程图；

图12示出了根据本申请的另一个实施例的计算兴趣点的方法的示意流程图；

图13示出了根据本申请的又一个实施例的图像的处理方法的示意流程图；

图14示出了根据本申请的一个实施例的图像的处理装置的示意框图；

图15示出了根据本申请的一个实施例的可移动平台的示意框图；

图16示出了根据本申请的一个实施例的可移动平台的控制终端的示意框图。

具体实施方式

为了能够更清楚地理解本申请的上述目的、特征和优点，下面结合附图和具体实施方式对本申请进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本申请，但是，本申请还可以采用其他不同于在此描述的其他方式来实施，因此，本申请的保护范围并不受下面公开的具体实施例的限制。

本申请第一方面的实施例提供了一种图像的处理方法，应用于图像的处理装置。图像的处理装置可单独设置在可移动平台上，也可单独设置在可移动平台的控制终端上，还可部分设置在可移动平台上，部分设置在可移动平台的控制终端上。可移动平台例如可为无人飞行器，还可为其他带有多摄像头的载具，例如无人驾驶的汽车。控制终端可为任何能与可移动平台交互的终端设备，例如可为遥控设备，也可为智能设备(经APP(Application，应用程序)实现交互)，如智能手机、智能平板、智能眼镜(如VR(Virtual Reality，虚拟现实)眼镜、AR(Augmented Reality，增强现实)眼镜)，还可将可移动平台的SD卡插入电脑，此时控制终端为电脑。

在描述本申请实施例提供的图像的处理方法之前，先介绍一般相机模型，由此可实现三维的世界坐标系与二维的齐次图像坐标系的坐标转换：

其中：

[u,v,1] ^T表示齐次图像坐标系(Homogeneous image coordinates)中的二维点。

[x _w,y _w,z _w,1] ^T表示世界坐标系(World coordinates)中的三维点。

矩阵R为旋转矩阵(Rotation Matrix)，矩阵T为位移矩阵(Translation Matrix)，或者可以写成矩阵t，R和T为相机的外参(Extrinsic Matrix)，表达的是三维空间中，世界坐标系到相机坐标系的旋转与位移变换，合起来成为相机位姿(camera pose)。

矩阵K称为相机校准矩阵(Camera calibration matrix)，即每个相机的内参(Intrinsic Parameters)，表达的是三维的相机坐标系到二维的齐次图像坐标系的转换。

图1示出了根据本申请的一个实施例的图像的处理方法的示意流程图。如图1所示，该图像的处理方法包括：

步骤110，获取可移动平台在空间中移动时可移动平台的拍摄装置采集到的目标视频。

该步骤作为初始步骤，通过获取可移动平台的拍摄装置移动采集的目标视频，将该目标视频作为处理的对象，执行具体的处理操作。

具体地，该方法还包括：获取可移动平台在空间中移动时拍摄装置采集的初始视频。相应地，当图像的处理装置至少部分设置在可移动平台的控制终端上时，步骤110可包括：检测用户的视频选取操作，根据检测到的视频选取操作从初始视频中确定目标视频。通过控制终端检测用户针对初始视频做出的视频选取操作，可对初始视频进行选取编辑。此时目标视频为从初始视频中选取的一部分，可以是用户期望保留的一部分，也可以是用户选择的需要进行后续处理的部分，例如需要插入展示对象的部分，既提升了视频制作的灵活性，又减少了不必要的计算量。

具体地，检测用户的视频选取操作，包括：控制交互装置显示视频选取界面；检测用户对显示视频选取界面的交互装置的视频选取操作。通过控制交互装置显示视频选取界面，可提供明确的界面以供用户操作，并利用交互装置准确检测该操作，保证获取到准确的目标视频。交互装置例如可为触摸显示屏。

步骤120，获取拍摄装置在采集目标视频中每一图像帧时的位姿信息。

采集目标视频的过程中，拍摄装置随可移动平台在空间中移动。通过获取采集每一帧图像时，拍摄装置对应的位姿信息(作为拍摄装置的外参，包括旋转信息和位移信息)，可结合已知的拍摄装置的内参，实现世界坐标系与齐次图像坐标系之间的转换，从而确定空间中的实体在目标视频中每一帧图像内的视图，以便执行后续的图像处理操作。

具体地，图2示出了根据本申请的一个实施例的获取位姿信息的方法的示意流程图。如图2所示，图1中的步骤120包括：

步骤122，获取每一图像帧中的特征点在图像帧中的位置信息。

步骤124，根据特征点在图像帧中的位置信息确定拍摄装置在采集每一图像帧时的位姿信息。

基于一般相机模型，针对一个特征点，可建立其在世界坐标系下的三维位置信息和其在齐次图像坐标系下的二维位置信息(即图像帧中的位置信息)的转换方程。其中，利用图像识别可确定每一图像帧中的多个特征点在图像帧中的位置信息(已知量)，而相邻两个图像帧往往具有大量重合的特征点，不同图像帧中的同一特征点在世界坐标系下的三维位置信息(未知量)相同，一个图像帧也具有唯一的位姿信息(未知量)，通过在目标视频中逐帧全图提取特征点，并做特征点跟踪匹配，可获得多组转换方程，联立求解即可得到每一图像帧对应的位姿信息以及各个特征点在世界坐标系下的三维位置信息。

具体计算时，若在跟踪特征点时分析出错的图像帧，可予以删除，以优化计算结果。此外，一个目标视频中的图像帧的数量是巨大的，若以第一帧图像帧为基础进行逐帧跟踪，则可能出现较大偏差。为此，可在逐帧跟踪时将出现明显变化的图像帧标记为关键帧，再基于关键帧跟踪后续的非关键帧，并在出现新的关键帧时，以新的关键帧为基础跟踪其后的非关键帧，从而提高计算准确度。实际计算时，用于计算的目标视频中存在5个以上的关键帧，就可进行计算。

具体地，该方法还包括：获取拍摄装置在采集每一图像帧时的初始位姿信息，其中，初始位姿信息是可移动平台配置的传感器采集得到的。步骤124具体包括：根据特征点在图像帧中的位置信息和每一图像帧对应的初始位姿信息确定拍摄装置在采集每一图像帧时的位姿信息。

利用可移动平台上配置的传感器，例如无人飞行器的惯性导航系统以及云台增稳系统中的传感器，可以在采集目标视频的过程中获取到一些先验信息，包括无人飞行器位姿数据、云台位姿数据、一键拍摄所用的轨迹数据，由此可得到拍摄装置精度较低的初始位姿信息，利用初始位姿信息作为联立求解方程组时位姿信息的迭代初始值，可减少迭代次数，加快算法收敛时间，同时减少初始值选取不当造成的出错的概率，有助于缩短目标视频的后期处理时间，即使使用智能手机也能在目标视频中插入展示对象，制作目标合成视频。

该计算过程具体例如可为：

(1)在飞行录像时，通过无人飞行器的IMU(Inertial Measurement Unit，惯性测量单元)惯性导航系统以及云台增稳系统，记录下拍摄装置粗略的初始位姿信息

以及拍摄装置的内参K。

(2)选取关键帧keyframe，针对一系列图像帧，先提取特征点feature(比如Harris Corner detection algorithms)，并做多帧图像帧之间特征点的跟踪匹配(例如可采用KLT特征跟踪算法(Kanade-Lucas-Tomasi feature tracker))，以便计算其光流向量，然后运行BA光束平差算法(Bundle Adjustment)计算这些特征点的三维坐标以及精准的拍摄装置位姿信息

计算公式如下：

这里的i表示关键帧序列。其中，投影变换过程为：

简写为p′＝π(RP _i+t)，π代表投影函数。

P _i为某个特征点的三维坐标(即该特征点对应的空间点在空间中的位置信息)，p _i是此特征点在第i帧图像帧上的像素坐标(即该特征点在第i帧图像帧中的位置信息)，

表示当前帧相对于前一帧的旋转平移变换，arg代表优化的参数(目标)是

P。

这里选取关键帧的准则是：

a)当前图像帧与前一个关键帧的距离足够大(粗略的平移

大于某个阈值)；

b)或者当前图像帧与前一个关键帧的旋转足够大(粗略的旋转

大于某个阈值)；

c)或者跟踪匹配成功的特征点总数太少了(不同图像帧间匹配成功的特征点总数小于某个阈值)；

d)或者特征点在不同图像区域的数目总数太少了(同一图像帧上特征点数量太少了)。

(3)利用关键帧，去除不可靠的特征点，筛选出可靠的特征点。策略如下：

遍历所有特征点，判断其中最大的重投影误差

是否足够小(小于某个阈值)，若是，则判断在关键帧中出现的次数足够多(大于某个阈值，比如在80％的关键帧中都跟踪匹配成功)。

(4)计算所有图像帧的位姿信息

上一步中仅仅计算了关键帧的拍摄装置的位姿信息，一般来说，关键帧只占全部图像帧的十分之一，所以处理速度很快。但是为了要能渲染展示对象，这里需要计算所有图像帧的拍摄装置的位姿信息。这里可以在之前的基础上，进行并行化处理：

这里的j表示非关键帧序列，同样也是用BA光束平差算法计算出对应的拍摄装置的位姿信息。

由此一来，便得到了所有图像帧的特征点的三维坐标，以及相邻图像帧之间的拍摄装置位姿关系。

步骤130，获取用户编辑的展示对象。

当处理操作具体为在目标视频中插入展示对象时，首先需获取用户预插入的展示对象。

具体地，当图像的处理装置至少部分设置在可移动平台的控制终端上时，步骤130包括：检测用户的展示对象编辑操作，根据检测到的编辑操作确定用户编辑的展示对象。使得控制终端可通过检测用户的展示对象编辑操作，准确获取用户编辑的展示对象。

其中，检测用户的展示对象编辑操作，包括：控制交互装置显示展示对象编辑界面；检测用户对显示展示对象编辑界面的交互装置的展示对象编辑操作。通过控制交互装置显示展示对象编辑界面，可提供明确的界面以供用户操作，并利用交互装置准确检测该操作，保证获取到准确的展示对象。交互装置例如可为触摸显示屏。

在一些实施例中，展示对象包括数字、字母、符号、文字和物体标识中的至少一种，以满足用户丰富的展示需求。相应地，展示对象编辑界面可设文本输入框以供用户利用输入法输入数字、字母，并可配置字体库，用户也可载入新的字体库或删除已有字体库。展示对象编辑界面还可展示符号和物体标识的集合以供用户选择。此外，展示对象也可由用户自行绘制，可以是以绘制的方式输入数字、字母、符号、文字和物体标识外，也可以是绘制任意图形。

在一些实施例中，展示对象为三维模型，以满足丰富的展示需求。其具体处理方式将在下文详述。

步骤140，确定展示对象在空间中的位置信息。

除获取展示对象外，还需确定展示对象在空间中的位置信息，以便在目标视频的相应位置予以恰当展示。需说明的是，空间中的位置信息可以是世界坐标系下的位置信息，也可以是结合每一图像帧对应的位姿信息以及世界坐标系下的位置信息得到的相机坐标系下的位置信息。

可以理解的是，可先执行步骤130，也可先执行步骤140，对于二者的执行顺序，本申请不予限制。

具体地，图3示出了根据本申请的一个实施例的确定展示对象在空间中的位置信息的方法的示意流程图。如图3所示，图1中的步骤140包括：

步骤142，获取用户在目标视频中的目标图像帧中选中的像素点在目标图像帧中的位置或者在目标图像帧中选中的像素点区域在目标图像帧中的位置。

目标视频包含多个图像帧，用户可选中其中一个图像帧作为目标图像帧，并选中目标图像帧中的一个像素点或像素点区域(即选择兴趣点，选中像素点区域ROI(Region of Interest，兴趣区域)时以像素点区域的中心点作为兴趣点)，以便指示展示对象的插入位置。

对于像素点，既可由用户随意选取，也可采用在图像帧中显示特征点，并令特征点处于可选择的状态的方案，使得用户可直接选择已经识别出的特征点作为兴趣点，以简化后续计算。

对于像素点区域，可利用像素点区域中的参考点，例如左上角处的像素点和右下角处的像素点，来代表像素点区域，用户例如可通过同时或先后选中这两个像素点来框选像素点区域，例如还可通过先选中一个像素点再滑动至另一个像素点来选中像素点区域。

进一步地，对于框选出像素点区域的情况，还可通过SLIC(Simple Linear Iterative Clustering，简单的线性迭代聚类)、Graph-based、NCut(Normalized Cut，归一化割法)、Turbopixel、Quick-shift、Graph-cut a、Graph-cut b等算法，在图像帧中生成超像素(即具有相似纹理、颜色、亮度等特征的相邻像素点构成的有一定视觉意义的不规则像素块)。处于框内的超像素被选中，处于框外的超像素被排除，处于框边界上的像素点，则可设定当所属超像素有一定比例(例如50％)以上的部分在框内，则算作选中，否则算作未选中，所有选中的超像素就构成了像素点区域。

步骤144，根据像素点或者像素点区域在目标图像帧中的位置确定展示对象在空间中的位置信息。

选中的兴趣点在目标图像帧中的位置是明确的，但仍需计算其在目标图像帧之外的其他图像帧中的位置，或者说需要计算其在空间中的位置。该计算过程类似于每一图像帧对应的位姿信息的计算过程，即通过跟踪匹配特征点，联立求解方程组实现，此时可将选中的兴趣点也作为一个特征点，建立转换方程。不同之处在于，一者，计算位姿信息时需全图提取特征点，而计算兴趣点时只需提取选中的像素点附近的特征点或选中的像素点区域中的特征点，以提高计算精度；二者，计算位姿信息逐帧跟踪特征点时，内存中只需保存提取的特征点以及当前正在处理的图像帧，无需保存所有图像帧，而计算兴趣点时，由于用户可能调整兴趣点，故需从头到尾保存图像帧。对于第二点区别的情况，当存在内存限制时，可对目标视频做降频处理，比如手机视频是30Hz，即1秒30张图，可等间隔抽取其中5张。此外，计算兴趣点时还可沿目标视频时间轴的正向和反向各进行一次特征点跟踪，以得到精确的计算结果。后文将对计算兴趣点的方案做进一步描述。

步骤150，根据展示对象在空间中的位置信息和每一图像帧对应的位姿信息将展示对象投影到每一图像帧上以获取目标合成视频。

展示对象在空间中的位置信息反映了展示对象的绝对位置，每一图像帧对应的位姿信息则反映了拍摄装置的拍摄视角，结合二者即可将展示对象投影到图像帧中，得到合成图像帧，全部合成图像帧按序组合就形成了目标合成视频，至此完成了将展示对象插入目标视频中的处理。

具体地，图4示出了根据本申请的一个实施例的获取目标合成视频的方法的示意流程图。如图4所示，图1中的步骤150具体包括：

步骤152，根据展示对象在空间中的位置信息和每一图像帧对应的位姿信息确定展示对象在每一图像帧中的投影位置和投影姿态。

展示对象本身并非点，因而具有一定形状，展示对象在空间中的位置信息例如可为展示对象上的一个参考点在空间中的位置。以展示对象在空间中的位置信息是世界坐标系下的位置信息为例，结合每一图像帧的位姿信息和拍摄装置的内参，可以将展示对象在空间中的位置信息转换为每一图像帧中的位置信息，作为展示对象在每一图像帧中的投影位置。再利用每一图像帧对应的位姿信息确定展示对象的朝向，也可理解为对整个展示对象进行坐标变换，即可得到展示对象在每一图像帧中的投影姿态。

步骤154，根据展示对象在每一图像帧中的投影位置和投影姿态将展示对象投影到每一图像帧中以获取目标合成视频。

按照确定的投影姿态将展示对象置于相应图像帧中的相应投影位置，即可完成展示对象的投影，得到合成图像帧，进而组合得到目标合成视频。

进一步地，本申请的方法还包括：获取用户编辑的展示对象的位置调整信息和/或姿态调整信息。已经选定的兴趣点可作为放置展示对象的初始位置，通过获取位置调整信息，可进一步基于兴趣点调整展示对象的位置，此时不必对新的位置重新进行迭代运算，既有助于降低计算量，又可以初选的兴趣点作为桥梁，解决用户实际期望插入展示对象的位置无法计算或无法准确计算的问题，提升了方案的灵活性，可满足丰富的图像处理需求。此外，展示对象默认在图像帧中正面摆放，通过获取姿态调整信息，可调整展示对象的旋转角度，进而改变姿态，通过少量的计算就可满足用户丰富的展示需求。相应地，步骤152包括：根据展示对象在空间中的位置信息、每一图像帧对应的位姿信息和展示对象的位置调整信息和/或姿态调整信息确定展示对象在每一图像帧中的投影位置和投影姿态。

以展示对象是三维模型为例，投影过程具体为：

先导入三维模型(如图5所示的线框图)，结合拍摄装置的位姿信息，使用z-buffer算法进行消隐(计算线框图中哪些线是被遮挡的，不应该显示，这里输出为如图6所示的消隐图)，投影到图像帧上，加上色彩渲染得到真实感图形。

此时生成的真实感图形放置在初始位置(即兴趣点)上，并且在用户框选兴趣点的图像帧中是正面摆放的。用户可以根据需求输入位置调整信息，例如拖拽调整真实感图形的位置(即与兴趣点之间有平移变换t的调整)，也可以输入姿态调整信息以旋转真实感图形的角度(即与兴趣点之间有旋转变换R)。上文中的位姿信息应该是基于第一帧图像帧的相机坐标系，这里结合用户调整真实感图形的旋转变换R与平移变换t，计算出每一帧图像帧相对于真实感图形的位置和姿态(简单的坐标系转换，得到真实感图形在图像帧中的朝向，利用z-buffer得到消隐图并渲染)，同时利用相机模型投影关系，计算出真实感图形在每个图像帧中的二维位置信息。至此得到了真实感图形的放置位置以及朝向，完成了真实感图形的放置。

至此，本申请如图1所示的一个实施例的图像的处理方法描述完毕。

虽然利用可移动平台的传感器采集到的粗略的初始位姿信息直接进行坐标变换，得到的合成视频会存在展示对象抖动的问题，效果欠佳，但计算速度快，可用于效果预览。图7示出了根据本申请的另一个实施例的图像的处理方法的示意流程图，以描述制作预览合成视频的方案。如图7所示，该图像的处理方法包括：

步骤210，获取可移动平台在空间中移动时可移动平台的拍摄装置采集到的目标视频。

步骤220，获取拍摄装置在采集每一图像帧时的初始位姿信息，其中，初始位姿信息是可移动平台配置的传感器采集得到的。

步骤230，获取用户编辑的展示对象。

步骤240，确定展示对象在空间中的位置信息。

该步骤可先获取用户在目标图像帧中选中的像素点或像素点区域在目标图像帧中的位置，对于像素点区域，例如可选用其中心点处的像素点的位置，再利用初始位姿信息和拍摄装置内参进行坐标转换，得到该像素点或像素点区域在空间中的粗略位置，记为展示对象在空间中的预览位置信息。

步骤250，根据展示对象在空间中的位置信息和每一图像帧对应的初始位姿信息将展示对象投影到每一图像帧上以获取预览合成视频。

该步骤利用初始位姿信息代替位姿信息，先得到粗略的预览合成视频，以便预览合成效果。

步骤260，判断接收到的预览反馈信息是否为确认信息，若是，则转到步骤270，若否，则转到步骤230。

通过设置确认步骤，例如在操作界面上提供确认按钮和取消按钮以供用户选择，可获得预览反馈信息。若用户对预览合成视频满意，则可执行确认操作，生成的预览反馈信息为确认信息；若不满意，则用户可执行取消操作，生成的预览反馈信息为取消信息，此时返回步骤230，用户可继续编辑展示对象，并获得新的预览合成视频，如此循环，直到用户执行确认操作才执行后续处理步骤，可降低运算负荷，提升响应速度。

步骤270，获取拍摄装置在采集目标视频中每一图像帧时的位姿信息。

步骤280，根据展示对象在空间中的位置信息和每一图像帧对应的位姿信息将展示对象投影到每一图像帧上以获取目标合成视频。

该实施例中的步骤210、步骤230、步骤270、步骤280可分别对应参照前述实施例中的步骤110、步骤130、步骤120、步骤150，在此不再赘述。

至此，本申请如图7所示的另一个实施例的图像的处理方法描述完毕。

由于本申请提出的方法在计算兴趣点时，需要目标在测量的短时间内静止不动，并且可以持续使用智能跟随算法追踪，所以需要做一些准入判定，对于可能测量不准或是不工作的目标提前给予警示，继续执行可能会失败。图8示出了根据本申请的再一个实施例的图像的处理方法的示意流程图，以描述选择兴趣点时的准入判定。如图8所示，该图像的处理方法包括：

步骤310，获取可移动平台在空间中移动时可移动平台的拍摄装置采集到的目标视频。

步骤320，获取拍摄装置在采集目标视频中每一图像帧时的位姿信息。

步骤330，从目标视频中确定目标子视频。

其中，目标子视频包括目标视频中拍摄装置的运动状态满足预设的运动条件时拍摄装置采集到的视频。该步骤实现的是目标视频中可计算部分的筛选，以得到可以用于计算兴趣点的视频部分。具体地，预设的运动条件是指拍摄装置发生了位移，而非静止或仅在原地摇头。后续选择兴趣点时，需保证仅在目标子视频内的图像帧中选择，以此作为第一个准入判定条件。

具体地，图9示出了根据本申请的一个实施例的确定目标子视频的方法的示意流程图。如图9所示，图8中的步骤330包括：

步骤331，从目标视频中确定多个连续图像帧，其中，多个连续图像帧相邻的图像帧之间特征点的平均移动量之和大于或等于预设的距离阈值，多个连续图像帧的视差大于或等于预设的视差阈值。

步骤332，将多个连续图像帧确定为目标子视频。

目标子视频由多个连续图像帧构成，这多个连续图像需满足两个条件。第一个条件是，相邻的图像帧之间特征点的平均移动量之和大于或等于预设的距离阈值，以确保足够的移动量。第二个条件是，多个连续图像帧的视差大于或等于预设的视差阈值，可过滤拍摄装置在原地摇头导致的移动量。需说明的是，上述多个连续图像帧可具体包含多个连续片段，每个片段由多个连续的图像帧组成，也就是将上述多个连续图像帧划分为多段。特别地，当上述多个连续图像帧仅包含一个片段时，就相当于不对上述多个连续图像帧进行划分。相应地，上述第二个条件具体可以是这多个连续片段的视差之和大于或等于预设的视差阈值，也可以是每个片段的视差均大于或等于一个预设的阈值，这个阈值可小于或等于预设的视差阈值。对应于每个片段的视差均大于或等于一个预设的阈值的情况，与之类似，上述第一个条件也可以进一步要求每个片段中相邻的图像帧之间特征点的平均移动量之和大于或等于一个预设的阈值，这个阈值可小于或等于预设的距离阈值。

其中，多个连续图像帧的数量需大于或等于预设的图像数量阈值。由于多个连续图像帧具有足够大的移动量，因此连续图像帧的数量过少就意味着拍摄装置在较短的时间内发生了较大的移动，会造成连续观测到的特征点数量较少而不便于计算。通过限定图像数量阈值，可确保在多个连续图像帧中能够连续观测到的特征点的数量足够多，保证兴趣点计算的准确度。

实际计算时，如图10所示，对于目标视频，可先逐帧进行特征点提取和跟踪，然后按特征点的平均移动量累计值划分片段，再将视差达到阈值(例如10个像素)的片段作为可用片段，未达到阈值的片段作为不可用片段，最后合并相邻的同类片段，成为部分，若一个部分中包含预定个数(例如5个)以上的可用片段，则该部分成为可计算部分，即为目标子视频，否则该部分为不可计算部分，以同时满足前述两个条件以及多个连续图像帧的数量要求。具体地，对于片段的划分，可计算前后两个图像帧的全图特征点的平均移动量，并逐帧计算累加，直到累计值大于一定的阈值，如20个像素。例如从1号图像帧一直累计到9号图像帧，特征点的平均移动量累计值为18像素，到10号图像帧就变成了21个像素，则1号图像帧至10号图像帧划为一个片段。此后可计算1号图像帧与10号图像帧的视差，即为该片段的视差。

步骤340，获取用户编辑的展示对象。

步骤350，输出第一提示信息，其中，第一提示信息用于指示用户在目标子视频中的目标图像帧中选中像素点或者像素点区域。

对于第一个准入判定条件，通过输出第一提示信息，可主动提供可计算的目标子视频中的图像帧，以供用户方便准确地选择目标图像帧，例如可在显示时令目标子视频中的图像帧处于可选择状态，而灰化目标子视频之外的图像帧，或在语音播报可供选择的图像帧时仅播报目标子视频中的图像帧。

步骤360，响应于用户在目标视频中的目标子视频之外的图像帧中选中像素点或者像素点区域的操作，输出选中无效的提示信息。

对于第一个准入判定条件，当用户在目标子视频之外的图像帧中选择兴趣点时，通过输出选中无效的提示信息，可提醒用户修改兴趣点。可以理解的是，步骤350和步骤360从正反两方面起到了准入判定的作用，可以同时存在，也可以只保留其中一个。

步骤370，确定展示对象在空间中的位置信息。

基于确定好的目标子视频，步骤370具体包括：

步骤371，获取用户在目标子视频中的目标图像帧中选中的像素点在目标图像帧中的位置或者在目标图像帧中选中的像素点区域在目标图像帧中的位置。

通过第一层准入判定，可从目标子视频中选出目标图像帧，并选中兴趣点，可确保兴趣点的准确计算。

步骤372，确定像素点或者像素点区域指示的空间中物体是否为静止物体，若是，则转到步骤374，若否，则转到步骤373。

步骤373，输出第二提示信息，并返回步骤371，其中，第二提示信息用于提示用户像素点或者像素点区域不可选，或者用于提示用户选中其他像素点或者像素点区域。

步骤372和步骤373为第二层准入判定。由于测量时要求目标静止不动，可通过卷积神经网络CNN(Convolutional Neural Networks)判别选中的目标物体是否是潜在的运动物体(例如人、车、船、海浪)，如果是潜在的运动物体，就需要输出第二提示信息以警告用户可能测量不准，要求重新选取兴趣点。当第二提示信息用于提示用户选中其他像素点或者像素点区域时，可提示用户选中静止物体上的特征点，有助于提高提示效率，降低计算量，提升计算准确度。

这里需要注意的是，如前所述，兴趣点只是放置展示对象的初始位置，可以再进一步基于兴趣点调整展示对象的位置。比如直接把兴趣点设置在海浪上，是会弹出警告，但可以先把兴趣点设置在海滩上，最后再调整展示对象到海面上即可。

步骤374，确定像素点区域是否满足预设的纹理条件，若是，则转到步骤376，若否，则转到步骤375。

对于选中像素点的情况，可将像素点周围一定尺寸范围内的区域作为像素点区域。

步骤375，输出第三提示信息，并返回步骤371，其中，第三提示信息用于提示用户像素点或者像素点区域不可选，或者用于提示用户选中其他像素点或者像素点区域。

步骤374和步骤375为第三层准入判定。通过特征点提取，分析目标是否具有可追踪性，即分析目标是否有足够的纹理，可以通过提取目标区域(即选中的像素点区域)内的特征点，这里可以用HarrisCorner，HOG(Histogram of Oriented Gradient，方向梯度直方图)等特征提取方法，判定，如果特征点不够多，说明纹理太弱了，不具有跟踪性，也警示用户。当第三提示信息用于提示用户选中其他像素点或者像素点区域时，可提示用户选中满足纹理条件的像素点区域或该区域内的特征点，有助于提高提示效率，降低计算量，提升计算准确度。

可以理解的是，第二层准入判定和第三层准入判定在执行时没有先后顺序要求。此处第三提示信息可以与第二提示信息相同，也可以不同，在此不做限定。具体地，可控制交互装置输出上述选中无效的提示信息、第一提示信息、第二提示信息、第三提示信息，交互装置例如可为触摸显示屏、智能语音交互装置。此外，若图像的处理装置设置在可移动平台的控制终端上，也可通过例如显示、语音播报等方式直接输出上述选中无效的提示信息、第一提示信息、第二提示信息、第三提示信息，若图像的处理装置设置在可移动平台上，也可通过例如点亮警示灯等方式直接输出上述选中无效的提示信息、第一提示信息、第二提示信息、第三提示信息。

步骤376，根据像素点或像素点区域在目标图像帧中的位置确定展示对象在空间中的位置信息。

该步骤可参考前述实施例中的步骤144，在目标子视频中进行兴趣点的计算。需说明的是，目标子视频是目标视频中可以用于计算兴趣点的部分，所以只能在目标子视频内选取兴趣点，但展示对象依然可以在不可计算的视频片段中出现，只要有兴趣点出现即可。比如一段不可计算的视频片段出现在了目标子视频后面，那么基于目标子视频调整的展示对象，也可以出现在不可计算部分的视频中。

步骤380，根据展示对象在空间中的位置信息和每一图像帧对应的位姿信息将展示对象投影到每一图像帧上以获取目标合成视频。

该实施例中的步骤310、步骤320、步骤340、步骤380可分别对应参照前述实施例中的步骤110、步骤120、步骤130、步骤150，在此不再赘述。

至此，本申请如图8所示的再一个实施例的图像的处理方法描述完毕。

接下来对计算兴趣点的方案(即前述实施例中的步骤144)进行描述。

图11示出了根据本申请的一个实施例的计算兴趣点的方法的示意流程图，针对的是选中像素点区域的情况。如图11所示，该计算兴趣点的方法包括：

步骤410，根据像素点区域在目标图像帧中的位置确定像素点区域中的特征点。

如前所述，在计算兴趣点时，仅提取选中的像素点区域内的特征点，以减少计算量、提高计算精度。

步骤420，获取像素点区域中的特征点在目标图像帧中的位置。

兴趣点具体是像素点区域的几何中心像素点，其在目标图像帧中的位置是已知的，但要计算其对应的空间点在空间中的位置信息，还需要知道兴趣点在其他图像帧中的位置。然而兴趣点大概率并非特征点，此时可利用像素点区域内的特征点来拟合估算几何中心像素点。通过获取提取的特征点在目标图像帧中的位置，可得到提取的特征点与兴趣点的位置关系，据此进行拟合估算，有助于提高计算准确度。

步骤430，根据特征点在目标图像帧中的位置确定像素点区域的几何中心像素点的对应的空间点在目标视频至少一帧参考图像帧的光流向量。

拟合计算时，具体采用了求取光流向量的方案。通过在目标视频的至少一帧参考图像帧进行特征点跟踪，例如可采用KLT特征跟踪算法计算特征点的光流向量，再结合特征点与兴趣点的位置关系，即可拟合计算出兴趣点在至少一帧参考图像帧的光流向量。具体地，可计算特征点的光流向量的加权平均数，作为兴趣点的光流向量，即

x _i为像素点区域内的特征点的光流向量，w _i是权重，w _i例如可根据特征点与几何中心像素点的二维图像位置关系来确定：

这就是一个简单的高斯分布，σ根据经验调节，是可调参数，d _i表示特征点i到几何中心像素点的距离

(u _i,v _i)表示特征点i的在图像帧中的像素坐标，(u ₀,v ₀)是几何中心像素点在图像帧中的像素坐标。

步骤440，根据光流向量确定几何中心像素点的对应的空间点在至少一帧参考图像帧中的位置。

得到兴趣点在至少一帧参考图像帧的光流向量后，结合兴趣点在目标图像帧中的位置，即可得到兴趣点在至少一帧参考图像帧的位置。

步骤450，根据在至少一帧参考图像帧中的位置和特征点在目标图像帧中的位置确定几何中心像素点的对应的空间点在空间中的位置信息。

得到兴趣点在至少一帧参考图像帧中的位置后，就可将兴趣点也作为一个特征点，和其他特征点一起，进行坐标转换方程组的建立和求解，进而完成兴趣点计算。具体地，可采用BA光束平差算法计算。

可以理解的是，对于选中像素点的情况，可以将上述像素点区域的几何中心像素点替换为选中的像素点，将上述像素点区域中的特征点替换为选中的像素点附近一定范围内的特征点，同样可以完成计算。

图12示出了根据本申请的另一个实施例的计算兴趣点的方法的示意流程图，针对的是选中像素点的情况。如图12所示，该计算兴趣点的方法包括：

步骤510，获取目标图像帧中的目标特征点对应的空间点在空间中的位置。

其中，目标特征点与像素点之间的像素距离小于或等于预设的像素距离阈值，即目标特征点位于像素点附近。与前述实施例一样，像素点大概率并非特征点，因此需结合附近的特征点进行拟合估算。此处目标特征点例如可为计算拍摄装置的位姿信息时分析出的可靠特征点，以确保兴趣点计算的准确度。

步骤520，根据目标特征点对应的空间点在空间中的位置拟合目标平面。

当目标特征点为前述可靠特征点时，在计算拍摄装置的位姿信息时就已经得到了目标特征点对应的空间点在空间中的位置。当目标特征点不为前述可靠特征点时，则需计算其对应的空间点在空间中的位置，计算方法仍为求解转换方程组，在此不再赘述。

步骤530，根据像素点在目标图像帧中的位置和拟合目标平面确定展示对象在空间中的位置信息。

由于目标特征点在选中的像素点附近，因而可认为像素点对应的空间点也处在拟合目标平面内。过像素点和拍摄装置的光心做一条连线，该连线与拟合目标平面的交点是像素点与拟合目标平面的焦点，可认为该焦点就是像素点对应的空间点，由此可完成兴趣点计算，进而得到展示对象在空间中的位置信息。

具体地，用户输入要添加的展示对象后，于第i帧图像帧点击的像素点为(u,v)，此处大概率是没有对应的特征点的。这里例如找到最近的可靠特征点(经过计算位姿信息时筛选后的)记为feature _i,click，以及其对应的空间点的三维坐标P _i,click，并结合附近的三维点(三维位置在附近的特征点)P _k＝(x _k,y _k,z _k)拟合出拟合目标平面(a,b,c,d)，然后通过插值计算出用户像素点对应的空间点的三维坐标。

其中平面拟合可以下面这个优化问题描述：

其中

表示的是三维点P _k到拟合目标平面的距离，当计算中使用的所有特征点的该距离之和为最小值时，得到的平面就为拟合目标平面，相当于是三维化的最小二乘法。可使用SVD(Singular Value Decomposition，奇异值分解)求得上式的最优解。

像素点与拟合目标平面的焦点记为P ₀(x,y,z)，满足

求解线性方程组得到

即为展示对象的中心。

在一些实施例中，目标视频是可移动平台对空间中的目标对象进行跟随时由拍摄装置拍摄获取的，确定展示对象在空间中的位置信息，包括：获取拍摄装置的跟随对象在空间中的位置信息；根据跟随对象在空间中的位置信息确定展示对象在空间中的位置信息。

在该实施例中，由于拍摄装置进行跟随拍摄时本身就需选取跟随对象，此时默认将跟随对象作为兴趣点或兴趣区域，直接基于跟随对象在空间中的位置信息确定展示对象在空间中的位置信息，例如可直接将跟随对象的位置作为展示对象的位置，也可基于跟随对象的位置调整展示对象的位置，有助于大幅减少计算量，降低计算负荷。

在一些实施例中，目标视频是可移动平台对空间中的目标对象进行环绕运动时由拍摄装置拍摄获取的，确定展示对象在空间中的位置信息，包括：获取拍摄装置在空间中的环绕对象的位置信息；根据环绕对象在空间中的位置信息确定展示对象在空间中的位置信息。

在该实施例中，由于拍摄装置进行环绕拍摄时本身就需选取环绕对象，此时默认将环绕对象作为兴趣点或兴趣区域，直接基于环绕对象在空间中的位置信息确定展示对象在空间中的位置信息，例如可直接将环绕对象的位置作为展示对象的位置，也可基于环绕对象的位置调整展示对象的位置，有助于大幅减少计算量，降低计算负荷。

至此，本申请实施例计算兴趣点的方案描述完毕。

此外，在一些实施例中，可移动平台的控制终端包括图像的处理装置，图像的处理方法还包括：播放或存储或者运行社交应用程序分享目标合成视频，以供用户观看、保存或分享目标合成视频。

在另一些实施例中，可移动平台包括图像的处理装置，方法还包括：将目标合成视频发送给可移动平台的控制终端以使控制终端播放或存储或者运行社交应用程序分享目标合成视频，以供用户观看、保存或分享目标合成视频。

可以理解的是，在合成目标合成视频前，可先逐帧播放完成投影的图像帧，以供用户查看插入展示对象的效果，若用户确认效果，再合成并保存目标合成视频，若用户对效果不满意，可继续编辑展示对象、选取兴趣点或基于选择的兴趣点调整插入展示对象的位置。

综上，如图13所示，本申请实施例提供的图像的处理方法可简要概括如下：

(1)用户选择要编辑的视频(即初始视频)，下载到智能设备的APP端，APP会自动下载对应的无人飞行器的惯性导航系统以及云台增稳系统提供的初始位姿信息，即AIS(Automatic Identification System，自动识别系统)文件，以及拍摄装置的内参K(背景知识中的矩阵K)。

(2)用户先对视频进行裁剪，选择想要的部分，APP将裁剪后得到的目标视频拆分为图像帧，根据筛选策略，筛选出可计算的视频片段，作为目标子视频。

(3)用户在目标子视频中的目标图像帧上，选择兴趣点(实际过程中，用户可框选一块区域ROI，区域中心点即为兴趣点)。其中智能跟随的视频(Tracking video)，以及一键拍摄的视频(Quick shot video)，默认兴趣点在选取的拍摄主体上(智能跟随的目标，或是一键拍摄环绕的主体)。同时用户输入需要显示的展示对象。

(4)通过视频对应的初始位姿数据(如果是一键拍摄的短片，还有初始的轨迹数据以及初始兴趣点在空间中的三维位置信息)，针对全图提取特征点，并做特征点匹配，每一帧都做该操作，再通过BA光束平差算法，计算出拍摄装置精准的位姿信息，包含旋转矩阵R，与位移矩阵T。

(5)计算精准的兴趣点类似上一步计算位姿信息，一个区别在于位姿信息只需要计算一次，计算过的图像帧无需保存；但对于兴趣点，用户可能会随时调整，所以需要从头到尾保存图像帧。由于手机的内存限制，可做降频处理，比如手机视频是30Hz即1秒30张图，可间隔地抽取其中5张，该操作只在内存限制的情况下使用。另一个区别是针对兴趣点的计算，可只在框选区域ROI内提取特征点，并做跟踪匹配计算，计算出精准的兴趣点。

(6)在模型库中找到用户输入的展示对象(如文字)的三维模型，渲染投影3D字幕，用户可以调整3D字幕的位置以及姿态(可以平移可以旋转)，这里的调整是基于兴趣点的相对旋转以及位置变化，所以只有在有兴趣点出现的视频部分，才有3D字幕，如果没有兴趣点的视频部分也想要字幕，就需要重新选取兴趣点。

(7)用户确认效果后，将图像帧重新合成视频。

本申请第二方面的实施例提供了一种图像的处理装置，如前所述，图像的处理装置可单独设置在可移动平台上，也可单独设置在可移动平台的控制终端上，还可部分设置在可移动平台上，部分设置在可移动平台的控制终端上。可移动平台例如可为无人飞行器，还可为其他带有多摄像头的载具，例如无人驾驶的汽车。控制终端可为任何能与可移动平台交互的终端设备，例如可为遥控设备，也可为智能设备(经APP实现交互)，如智能手机、智能平板、智能眼镜(如VR眼镜、AR眼镜)，还可将可移动平台的SD卡插入电脑，此时控制终端为电脑。

图14示出了根据本申请的一个实施例的图像的处理装置的示意框图。如图14所示，该图像的处理装置100包括：存储器102，被配置为存储计算机程序；处理器104，被配置为执行计算机程序以实现：获取可移动平台在空间中移动时可移动平台的拍摄装置采集到的目标视频；获取拍摄装置在采集目标视频中每一图像帧时的位姿信息；获取用户编辑的展示对象；确定展示对象在空间中的位置信息；根据展示对象在空间中的位置信息和每一图像帧对应的位姿信息将展示对象投影到每一图像帧上以获取目标合成视频。

本申请实施例提供的图像的处理装置100，获取可移动平台的拍摄装置移动采集的目标视频以及采集过程中拍摄装置对应的位姿信息，并获取用户编辑的展示对象，可将该展示对象插入目标视频，实现特效视频的制作。具体而言，通过获取采集每一帧图像时，拍摄装置对应的位姿信息(作为拍摄装置的外参，包括旋转信息和位移信息)，可结合已知的拍摄装置的内参，实现世界坐标系与齐次图像坐标系之间的转换，从而确定空间中的实体在目标视频中每一帧图像内的视图。此外，通过确定展示对象在空间中的位置信息，可明确展示对象的插入位置。展示对象在空间中的位置信息反映了展示对象的绝对位置，每一图像帧对应的位姿信息则反映了拍摄装置的拍摄视角，结合二者即可将展示对象投影到图像帧中，得到合成图像帧，全部合成图像帧按序组合就形成了目标合成视频，至此完成了将展示对象插入目标视频中的处理。需说明的是，空间中的位置信息可以是世界坐标系下的位置信息，也可以是结合每一图像帧对应的位姿信息以及世界坐标系下的位置信息得到的相机坐标系下的位置信息。可以理解的是，可先获取用户编辑的展示对象，也可先确定展示对象在空间中的位置信息，对于二者的执行顺序，本申请不予限制。

具体地，存储器102可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器102可包括硬盘驱动器(Hard Disk Drive，HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus，USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器102可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器102可在综合网关容灾设备的内部或外部。在特定实施例中，存储器102是非易失性固态存储器。在特定实施例中，存储器102包括只读存储器(ROM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。

上述处理器104可以包括中央处理器(CPU)，或者特定集成电路(Application Specific Integrated Circuit，ASIC)，或者可以被配置成实施本申请实施例的一个或多个集成电路。

在一些实施例中，处理器104还被配置为执行计算机程序以实现：获取每一图像帧中的特征点在图像帧中的位置信息；根据特征点在图像帧中的位置信息确定拍摄装置在采集每一图像帧时的位姿信息。

在该实施例中，基于一般相机模型，针对一个特征点，可建立其在世界坐标系下的三维位置信息和其在齐次图像坐标系下的二维位置信息(即图像帧中的位置信息)的转换方程。其中，利用图像识别可确定每一图像帧中的多个特征点在图像帧中的位置信息(已知量)，而相邻两个图像帧往往具有大量重合的特征点，不同图像帧中的同一特征点在世界坐标系下的三维位置信息(未知量)相同，一个图像帧也具有唯一的位姿信息(未知量)，通过在目标视频中逐帧全图提取特征点，并做特征点跟踪匹配，可获得多组转换方程，联立求解即可得到每一图像帧对应的位姿信息以及各个特征点在世界坐标系下的三维位置信息。

在一些实施例中，处理器104还被配置为执行计算机程序以实现：获取拍摄装置在采集每一图像帧时的初始位姿信息，其中，初始位姿信息是可移动平台配置的传感器采集得到的；根据特征点在图像帧中的位置信息和每一图像帧对应的初始位姿信息确定拍摄装置在采集每一图像帧时的位姿信息。

在该实施例中，利用可移动平台上配置的传感器，例如无人飞行器的惯性导航系统以及云台增稳系统中的传感器，可以在采集目标视频的过程中获取到一些先验信息，包括无人飞行器位姿数据、云台位姿数据、一键拍摄所用的轨迹数据，由此可得到拍摄装置精度较低的初始位姿信息，利用初始位姿信息作为联立求解方程组时位姿信息的迭代初始值，可减少迭代次数，加快算法收敛时间，同时减少初始值选取不当造成的出错的概率，有助于缩短目标视频的后期处理时间，即使使用智能手机也能在目标视频中插入展示对象，制作目标合成视频。

在一些实施例中，处理器104还被配置为执行计算机程序以实现：获取拍摄装置在采集每一图像帧时的初始位姿信息，其中，初始位姿信息是可移动平台配置的传感器采集得到的；根据展示对象在空间中的位置信息和每一图像帧对应的初始位姿信息将展示对象投影到每一图像帧上以获取预览合成视频。

在该实施例中，利用可移动平台的传感器采集到的粗略的初始位姿信息直接进行坐标变换，得到的合成视频会存在展示对象抖动的问题，效果欠佳，但计算速度快，可用于制作预览合成视频，便于快速实现效果预览。

在一些实施例中，处理器104还被配置为执行计算机程序以实现：根据展示对象在空间中的位置信息和每一图像帧对应的位姿信息确定展示对象在每一图像帧中的投影位置和投影姿态；根据展示对象在每一图像帧中的投影位置和投影姿态将展示对象投影到每一图像帧中以获取目标合成视频。

在该实施例中，展示对象本身并非点，因而具有一定形状，展示对象在空间中的位置信息例如可为展示对象上的一个参考点在空间中的位置。以展示对象在空间中的位置信息是世界坐标系下的位置信息为例，结合每一图像帧的位姿信息和拍摄装置的内参，可以将展示对象在空间中的位置信息转换为每一图像帧中的位置信息，作为展示对象在每一图像帧中的投影位置。再利用每一图像帧对应的位姿信息确定展示对象的朝向，也可理解为对整个展示对象进行坐标变换，即可得到展示对象在每一图像帧中的投影姿态。按照确定的投影姿态将展示对象置于相应图像帧中的相应投影位置，即可完成展示对象的投影，得到合成图像帧，进而组合得到目标合成视频。

在一些实施例中，处理器104还被配置为执行计算机程序以实现：获取用户编辑的展示对象的位置调整信息和/或姿态调整信息；根据展示对象在空间中的位置信息、每一图像帧对应的位姿信息和展示对象的位置调整信息和/或姿态调整信息确定展示对象在每一图像帧中的投影位置和投影姿态。

在该实施例中，处理器104还可获取用户编辑的展示对象的位置调整信息和/或姿态调整信息。对于已经确定的展示对象在空间中的位置，可将之作为放置展示对象的初始位置，通过获取位置调整信息，可进一步调整展示对象的位置，此时不必对新的位置重新进行运算，既有助于降低计算量，又可以初始位置作为桥梁，解决用户实际期望插入展示对象的位置无法计算或无法准确计算的问题，提升了方案的灵活性，可满足丰富的图像处理需求。此外，展示对象默认在图像帧中正面摆放，通过获取姿态调整信息，可调整展示对象的旋转角度，进而改变姿态，通过少量的计算就可满足用户丰富的展示需求。

在一些实施例中，处理器104还被配置为执行计算机程序以实现：检测用户的展示对象编辑操作，根据检测到的编辑操作确定用户编辑的展示对象。

在该实施例中，当图像的处理装置100至少部分设置在可移动平台的控制终端上时，展示对象具体是通过控制终端检测用户的展示对象编辑操作来确定的，可准确获取用户编辑的展示对象，以满足用户的展示需求。

在一些实施例中，处理器104还被配置为执行计算机程序以实现：控制交互装置显示展示对象编辑界面；检测用户对显示展示对象编辑界面的交互装置的展示对象编辑操作。

在该实施例中，通过控制交互装置显示展示对象编辑界面，可提供明确的界面供用户操作，并利用交互装置准确检测该操作，保证获取到准确的展示对象。交互装置例如可为触摸显示屏。

在一些实施例中，展示对象为三维模型，以满足丰富的展示需求。

在一些实施例中，处理器104还被配置为执行计算机程序以实现：获取可移动平台在空间中移动时拍摄装置采集的初始视频；检测用户的视频选取操作，根据检测到的视频选取操作从初始视频中确定目标视频。

在该实施例中，当图像的处理装置100至少部分设置在可移动平台的控制终端上时，通过控制终端检测用户针对初始视频做出的视频选取操作，可对初始视频进行选取编辑。此时目标视频为从初始视频中选取的一部分，可以是用户期望保留的一部分，也可以是用户选择的需要进行后续处理的部分，例如需要插入展示对象的部分，既提升了视频制作的灵活性，又减少了不必要的计算量。

在一些实施例中，处理器104还被配置为执行计算机程序以实现：控制交互装置显示视频选取界面；检测用户对显示视频选取界面的交互装置的视频选取操作。

在该实施例中，通过控制交互装置显示视频选取界面，可提供明确的界面以供用户操作，并利用交互装置准确检测该操作，保证获取到准确的目标视频。交互装置例如可为触摸显示屏。

在一些实施例中，处理器104还被配置为执行计算机程序以实现：获取用户在目标视频中的目标图像帧中选中的像素点在目标图像帧中的位置或者在目标图像帧中选中的像素点区域在目标图像帧中的位置；根据像素点或者像素点区域在目标图像帧中的位置确定展示对象在空间中的位置信息。

在该实施例中，目标视频包含多个图像帧，用户可选中其中一个图像帧作为目标图像帧，并选中目标图像帧中的一个像素点或像素点区域(即选择兴趣点，选中像素点区域ROI时以像素点区域的中心点作为兴趣点)，以便指示展示对象的插入位置。

进一步地，对于框选出像素点区域的情况，还可通过SLIC、Graph-based、NCut、Turbopixel、Quick-shift、Graph-cut a、Graph-cut b等算法，在图像帧中生成超像素(即具有相似纹理、颜色、亮度等特征的相邻像素点构成的有一定视觉意义的不规则像素块)。处于框内的超像素被选中，处于框外的超像素被排除，处于框边界上的像素点，则可设定当所属超像素有一定比例(例如50％)以上的部分在框内，则算作选中，否则算作未选中，所有选中的超像素就构成了像素点区域。

此外，选中的兴趣点在目标图像帧中的位置是明确的，但仍需计算其在目标图像帧之外的其他图像帧中的位置，或者说需要计算其在空间中的位置。该计算过程类似于每一图像帧对应的位姿信息的计算过程，即通过跟踪匹配特征点，联立求解方程组实现，此时可将选中的兴趣点也作为一个特征点，建立转换方程。不同之处在于，一者，计算位姿信息时需全图提取特征点，而计算兴趣点时只需提取选中的像素点附近的特征点或选中的像素点区域中的特征点，以提高计算精度；二者，计算位姿信息逐帧跟踪特征点时，内存中只需保存提取的特征点以及当前正在处理的图像帧，无需保存所有图像帧，而计算兴趣点时，由于用户可能调整兴趣点，故需从头到尾保存图像帧。对于第二点区别的情况，当存在内存限制时，可对目标视频做降频处理，比如手机视频是30Hz，即1秒30张图，可等间隔抽取其中5张。此外，计算兴趣点时还可沿目标视频时间轴的正向和反向各进行一次特征点跟踪，以得到精确的计算结果。后文将对计算兴趣点的方案做进一步描述。

在一些实施例中，处理器104还被配置为执行计算机程序以实现：从目标视频中确定目标子视频；获取用户在目标子视频中的目标图像帧中选中的像素点在目标图像帧中的位置或者在目标图像帧中选中的像素点区域在目标图像帧中的位置。

在该实施例中，通过从目标视频中确定目标子视频，可筛选出可用于计算兴趣点的视频部分，以供用户在该部分选择兴趣点，可确保兴趣点的准确计算。需说明的是，目标子视频是目标视频中可以用于计算兴趣点的部分，所以只能在目标子视频内选取兴趣点，但展示对象依然可以在不可计算的视频片段中出现，只要有兴趣点出现即可。比如一段不可计算的视频片段出现在了目标子视频后面，那么基于目标子视频调整的展示对象，也可以出现在不可计算部分的视频中。

在一些实施例中，处理器104还被配置为执行计算机程序以实现：响应于用户在目标视频中的目标子视频之外的图像帧中选中像素点或者像素点区域的操作，输出选中无效的提示信息。

在该实施例中，由于本申请提出的方案在计算兴趣点时，需要目标可以持续使用智能跟随算法追踪，所以需要做一些准入判定，对于可能测量不准或是不工作的目标提前给予警示，继续执行可能会失败。当用户在目标子视频之外的图像帧中选择兴趣点时，通过输出选中无效的提示信息，就可提醒用户修改兴趣点，以此作为兴趣点计算的一个准入判定条件。

具体地，可控制交互装置输出上述选中无效的提示信息，交互装置例如可为触摸显示屏、智能语音交互装置。此外，若图像的处理装置100设置在可移动平台的控制终端上，也可通过例如显示、语音播报等方式直接输出上述选中无效的提示信息，若图像的处理装置100设置在可移动平台上，也可通过例如点亮警示灯等方式直接输出上述选中无效的提示信息。

在一些实施例中，处理器104还被配置为执行计算机程序以实现：输出第一提示信息，其中，第一提示信息用于指示用户在目标子视频中的目标图像帧中选中像素点或者像素点区域。

在该实施例中，通过输出第一提示信息，可主动提供可计算的目标子视频中的图像帧，以供用户方便准确地选择目标图像帧，例如可在显示时令目标子视频中的图像帧处于可选择状态，而灰化目标子视频之外的图像帧，或在语音播报可供选择的图像帧时仅播报目标子视频中的图像帧。

具体地，可控制交互装置输出上述第一提示信息，交互装置例如可为触摸显示屏、智能语音交互装置。此外，若图像的处理装置100设置在可移动平台的控制终端上，也可通过例如显示、语音播报等方式直接输出上述第一提示信息，若图像的处理装置100设置在可移动平台上，也可通过例如点亮警示灯等方式直接输出上述第一提示信息。

在一些实施例中，目标子视频包括目标视频中拍摄装置的运动状态满足预设的运动条件时拍摄装置采集到的视频。

在该实施例中，限定了目标子视频需满足的选取条件。预设的运动条件具体是指拍摄装置发生了位移，而非静止或仅在原地摇头，以确保准确计算兴趣点。

在一些实施例中，处理器104还被配置为执行计算机程序以实现：从目标视频中确定多个连续图像帧，其中，多个连续图像帧相邻的图像帧之间特征点的平均移动量之和大于或等于预设的距离阈值，多个连续图像帧的视差大于或等于预设的视差阈值；将多个连续图像帧确定为目标子视频。

在该实施例中，目标子视频由多个连续图像帧构成，这多个连续图像需满足两个条件。第一个条件是，相邻的图像帧之间特征点的平均移动量之和大于或等于预设的距离阈值，以确保足够的移动量。第二个条件是，多个连续图像帧的视差大于或等于预设的视差阈值，可过滤拍摄装置在原地摇头导致的移动量。需说明的是，上述多个连续图像帧可具体包含多个连续片段，每个片段由多个连续的图像帧组成，也就是将上述多个连续图像帧划分为多段。特别地，当上述多个连续图像帧仅包含一个片段时，就相当于不对上述多个连续图像帧进行划分。相应地，上述第二个条件具体可以是这多个连续片段的视差之和大于或等于预设的视差阈值，也可以是每个片段的视差均大于或等于一个预设的阈值，这个阈值可小于或等于预设的视差阈值。对应于每个片段的视差均大于或等于一个预设的阈值的情况，与之类似，上述第一个条件也可以进一步要求每个片段中相邻的图像帧之间特征点的平均移动量之和大于或等于一个预设的阈值，这个阈值可小于或等于预设的距离阈值。

在一些实施例中，多个连续图像帧的数量大于或等于预设的图像数量阈值。

在该实施例中，对多个连续图像帧的数量进行了限定。由于多个连续图像帧具有足够大的移动量，因此连续图像帧的数量过少就意味着拍摄装置在较短的时间内发生了较大的移动，会造成连续观测到的特征点数量较少而不便于计算。通过限定图像数量阈值，可确保在多个连续图像帧中能够连续观测到的特征点的数量足够多，保证兴趣点计算的准确度。

在一些实施例中，处理器104还被配置为执行计算机程序以实现：确定像素点或者像素点区域指示的空间中物体是否为静止物体；当物体为静止物体时，根据像素点或者像素点区域在目标图像帧中的位置确定用户编辑的展示对象在空间中的位置信息。

在该实施例中，由于本申请提出的方案在计算兴趣点时，需要目标在测量的短时间内静止不动，所以需要做一些准入判定，可通过卷积神经网络CNN判别选中的目标物体是否是潜在的运动物体(例如人、车、船、海浪)，并在确定像素点或者像素点区域指示的空间中物体为静止物体时才执行计算，以确保计算结果准确。

在一些实施例中，处理器104还被配置为执行计算机程序以实现：确定像素点或者像素点区域指示的空间中物体是否为静止物体；当物体不为静止运动时，输出第二提示信息，其中，第二提示信息用于提示用户像素点或者像素点区域不可选，或者用于提示用户选中其他像素点或者像素点区域。

在该实施例中，在像素点或者像素点区域指示的空间中物体不为静止物体时，通过输出第二提示信息，可提醒用户作出修改，以确保计算结果准确。当第二提示信息用于提示用户选中其他像素点或者像素点区域时，可提示用户选中静止物体上的特征点，有助于提高提示效率，降低计算量，提升计算准确度。这里需要注意的是，如前所述，兴趣点只是放置展示对象的初始位置，可以再进一步基于兴趣点调整展示对象的位置。比如直接把兴趣点设置在海浪上，是会弹出警告，但可以先把兴趣点设置在海滩上，最后再调整展示对象到海面上即可。

具体地，可控制交互装置输出上述第二提示信息，交互装置例如可为触摸显示屏、智能语音交互装置。此外，若图像的处理装置100设置在可移动平台的控制终端上，也可通过例如显示、语音播报等方式直接输出上述第二提示信息，若图像的处理装置100设置在可移动平台上，也可通过例如点亮警示灯等方式直接输出上述第二提示信息。

在一些实施例中，处理器104还被配置为执行计算机程序以实现：确定像素点区域是否满足预设的纹理条件；当满足预设的纹理条件时，根据像素点或者像素点区域在目标图像帧中的位置确定用户编辑的展示对象在空间中的位置信息。

在该实施例中，由于本申请提出的方案在计算兴趣点时，需要目标可以持续使用智能跟随算法追踪，所以需要选中的像素点区域具有足够多的特征点，即满足预设的纹理条件时才执行计算，以确保计算结果准确。对于选中像素点的情况，可将像素点周围一定尺寸范围内的区域作为像素点区域。

在一些实施例中，处理器104还被配置为执行计算机程序以实现：确定像素点区域是否满足预设的纹理条件；当不满足预设的纹理条件时，输出第三提示信息，其中，第三提示信息用于提示用户像素点或者像素点区域不可选，或者用于提示用户选中其他像素点或者像素点区域。

在该实施例中，当选中的像素点区域不满足预设的纹理条件时，通过输出第三提示信息，可提醒用户作出修改，以确保计算结果准确。当第三提示信息用于提示用户选中其他像素点或者像素点区域时，可提示用户选中满足纹理条件的像素点区域或该区域内的特征点，有助于提高提示效率，降低计算量，提升计算准确度。

具体地，可控制交互装置输出上述第三提示信息，交互装置例如可为触摸显示屏、智能语音交互装置。此外，若图像的处理装置100设置在可移动平台的控制终端上，也可通过例如显示、语音播报等方式直接输出上述第三提示信息，若图像的处理装置100设置在可移动平台上，也可通过例如点亮警示灯等方式直接输出上述第三提示信息。

可以理解的是，处理器104可仅实现针对静止物体的检测，也可仅实现针对纹理条件的检测，还可既实现针对静止物体的检测，又实现针对纹理条件的检测。对于第三种情况，两种检测在执行时没有先后顺序要求，相应地，第二提示信息与第三提示信息可以相同，也可以不同，在此不做限定。

在一些实施例中，处理器104还被配置为执行计算机程序以实现：根据像素点区域在目标图像帧中的位置确定像素点区域中的特征点；获取像素点区域中的特征点在目标图像帧中的位置；根据特征点在目标图像帧中的位置确定像素点区域的几何中心像素点的对应的空间点在空间中的位置信息。

在该实施例中，具体限定了选中像素点区域时的一个计算兴趣点的方案。如前所述，在计算兴趣点时，首先提取选中的像素点区域内的特征点，可减少计算量、提高计算精度。再者，兴趣点具体是像素点区域的几何中心像素点，其在目标图像帧中的位置是已知的，但要计算其对应的空间点在空间中的位置信息，还需要知道兴趣点在其他图像帧中的位置。然而兴趣点大概率并非特征点，此时可利用像素点区域内的特征点来拟合估算几何中心像素点。通过获取提取的特征点在目标图像帧中的位置，可得到提取的特征点与兴趣点的位置关系，据此进行拟合估算，有助于提高计算准确度。

在一些实施例中，处理器104还被配置为执行计算机程序以实现：根据特征点在目标图像帧中的位置确定像素点区域的几何中心像素点的对应的空间点在目标视频至少一帧参考图像帧的光流向量；根据光流向量确定几何中心像素点的对应的空间点在至少一帧参考图像帧中的位置；根据在至少一帧参考图像帧中的位置和特征点在目标图像帧中的位置确定几何中心像素点的对应的空间点在空间中的位置信息。

在该实施例中，拟合计算时，具体采用了求取光流向量的方案。通过在目标视频的至少一帧参考图像帧进行特征点跟踪，例如可采用KLT特征跟踪算法计算特征点的光流向量，再结合特征点与兴趣点的位置关系，即可拟合计算出兴趣点在至少一帧参考图像帧的光流向量。具体地，可计算特征点的光流向量的加权平均数，作为兴趣点的光流向量。得到兴趣点在至少一帧参考图像帧的光流向量后，结合兴趣点在目标图像帧中的位置，即可得到兴趣点在至少一帧参考图像帧的位置，此时可将兴趣点也作为一个特征点，和其他特征点一起，进行坐标转换方程组的建立和求解，进而完成兴趣点计算。具体地，可采用BA光束平差算法计算。

在一些实施例中，处理器104还被配置为执行计算机程序以实现：获取目标图像帧中的目标特征点对应的空间点在空间中的位置；根据目标特征点对应的空间点在空间中的位置拟合目标平面；根据像素点在目标图像帧中的位置和拟合目标平面确定展示对象在空间中的位置信息。

在该实施例中，具体限定了选中像素点时的一个计算兴趣点的方案。与前述实施例一样，像素点大概率并非特征点，因此需结合附近的特征点进行拟合估算。此处目标特征点例如可为计算拍摄装置的位姿信息时分析出的可靠特征点，以确保兴趣点计算的准确度。当目标特征点为前述可靠特征点时，在计算拍摄装置的位姿信息时就已经得到了目标特征点对应的空间点在空间中的位置。当目标特征点不为前述可靠特征点时，则需计算其对应的空间点在空间中的位置，计算方法仍为求解转换方程组，在此不再赘述。由于目标特征点在选中的像素点附近，因而可认为像素点对应的空间点也处在拟合目标平面内。过像素点和拍摄装置的光心做一条连线，该连线与拟合目标平面的交点是像素点与拟合目标平面的焦点，可认为该焦点就是像素点对应的空间点，由此可完成兴趣点计算，进而得到展示对象在空间中的位置信息。

在一些实施例中，目标特征点与像素点之间的像素距离小于或等于预设的像素距离阈值，即目标特征点位于像素点附近，以保证拟合计算的准确度。

在一些实施例中，目标视频是可移动平台对空间中的目标对象进行跟随时由拍摄装置拍摄获取的，处理器104还被配置为执行计算机程序以实现：获取拍摄装置的跟随对象在空间中的位置信息；根据跟随对象在空间中的位置信息确定展示对象在空间中的位置信息。

在一些实施例中，目标视频是可移动平台对空间中的目标对象进行环绕运动时由拍摄装置拍摄获取的，处理器104还被配置为执行计算机程序以实现：获取拍摄装置的环绕对象在空间中的位置信息；根据环绕对象在空间中的位置信息确定展示对象在空间中的位置信息。

在一些实施例中，可移动平台的控制终端包括图像的处理装置100，处理器104还被配置为执行计算机程序以实现：播放或存储或者运行社交应用程序分享目标合成视频，以供用户观看、保存或分享目标合成视频。

在另一些实施例中，可移动平台包括图像的处理装置100，处理器104还被配置为执行计算机程序以实现：将目标合成视频发送给可移动平台的控制终端以使控制终端播放或存储或者运行社交应用程序分享目标合成视频，以供用户观看、保存或分享目标合成视频。

如图15所示，本申请第三方面的实施例提供了一种可移动平台200，包括如上述部分实施例的图像的处理装置100，因而具有该图像的处理装置100相应的技术效果，在此不再赘述。可移动平台200例如可为无人飞行器，还可为其他带有多摄像头的载具，例如无人驾驶的汽车。

如图16所示，本申请第四方面的实施例提供了一种可移动平台的控制终端300，包括如上述部分实施例的图像的处理装置100，因而具有该图像的处理装置100相应的技术效果，在此不再赘述。可移动平台的控制终端300可为任何能与可移动平台交互的终端设备，例如可为遥控设备，也可为智能设备(经APP实现交互)，如智能手机、智能平板、智能眼镜(如VR眼镜、AR眼镜)，还可将可移动平台的SD卡插入电脑，此时可移动平台的控制终端300为电脑。

本申请第五方面的实施例提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现如上述任一实施例的图像的处理方法的步骤，因而具有该图像的处理方法的全部技术效果，在此不再赘述。

计算机可读存储介质可以包括能够存储或传输信息的任何介质。计算机可读存储介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

在本申请中，术语“多个”则指两个或两个以上，除非另有明确的限定。术语“安装”、“相连”、“连接”、“固定”等术语均应做广义理解，例如，“连接”可以是固定连接，也可以是可拆卸连接，或一体地连接；“相连”可以是直接相连，也可以通过中间媒介间接相连。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

在本说明书的描述中，术语“一个实施例”、“一些实施例”、“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或实例。而且，描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

一种图像的处理方法，应用于图像的处理装置，其特征在于，包括：

获取可移动平台在空间中移动时可移动平台的拍摄装置采集到的目标视频；

获取所述拍摄装置在采集所述目标视频中每一图像帧时的位姿信息；

获取用户编辑的展示对象；

确定所述展示对象在所述空间中的位置信息；

根据所述展示对象在所述空间中的位置信息和所述每一图像帧对应的位姿信息将所述展示对象投影到所述每一图像帧上以获取目标合成视频。
根据权利要求1所述的方法，其特征在于，所述获取所述拍摄装置在采集所述目标视频中每一图像帧时的位姿信息，包括：

获取所述每一图像帧中的特征点在所述图像帧中的位置信息；

根据所述特征点在所述图像帧中的位置信息确定所述拍摄装置在采集所述每一图像帧时的位姿信息。
根据权利要求2所述的方法，其特征在于，所述方法还包括：获取所述拍摄装置在采集所述每一图像帧时的初始位姿信息，其中，所述初始位姿信息是可移动平台配置的传感器采集得到的；

所述根据所述特征点在所述图像帧中的位置信息确定所述拍摄装置在采集所述每一图像帧时的位姿信息，包括：

根据所述特征点在所述图像帧中的位置信息和所述每一图像帧对应的初始位姿信息确定所述拍摄装置在采集所述每一图像帧时的位姿信息。
根据权利要求1-3任一项所述的方法，其特征在于，所述方法还包括：

获取所述拍摄装置在采集所述每一图像帧时的初始位姿信息，其中，所述初始位姿信息是可移动平台配置的传感器采集得到的；

根据所述展示对象在所述空间中的位置信息和所述每一图像帧对应的初始位姿信息将所述展示对象投影到所述每一图像帧上以获取预览合成视频。
根据权利要求1-4任一项所述的方法，其特征在于，所述根据所述展示对象在所述空间中的位置信息和所述每一图像帧对应的位姿信息将所述展示对象投影到所述每一图像帧上以获取目标合成视频，包括：

根据所述展示对象在所述空间中的位置信息和所述每一图像帧对应的位姿信息确定所述展示对象在所述每一图像帧中的投影位置和投影姿态；

根据所述展示对象在所述每一图像帧中的投影位置和投影姿态将所述展示对象投影到所述每一图像帧中以获取目标合成视频。
根据权利要求5所述的方法，其特征在于，所述方法还包括：获取用户编辑的所述展示对象的位置调整信息和/或姿态调整信息；

所述根据所述展示对象在所述空间中的位置信息和所述每一图像帧对应的位姿信息确定所述展示对象在所述每一图像帧中的投影位置和投影姿态，包括：

根据所述展示对象在所述空间中的位置信息、所述每一图像帧对应的位姿信息和所述展示对象的所述位置调整信息和/或姿态调整信息确定所述展示对象在所述每一图像帧中的投影位置和投影姿态。
根据权利要求1-6任一项所述的方法，其特征在于，所述获取用户编辑的展示对象，包括：

检测用户的展示对象编辑操作，根据所述检测到的所述编辑操作确定所述用户编辑的展示对象。
根据权利要求7所述的方法，其特征在于，所述检测用户的展示对象编辑操作，包括：

控制交互装置显示展示对象编辑界面；

检测用户对显示所述展示对象编辑界面的交互装置的展示对象编辑操作。
根据权利要求1-8任一项所述的方法，其特征在于，所述方法还包括：获取所述可移动平台在空间中移动时所述拍摄装置采集的初始视频；

所述获取可移动平台在空间中移动时可移动平台的拍摄装置采集到的目标视频，包括：

检测用户的视频选取操作，根据所述检测到的所述视频选取操作从所述初始视频中确定所述目标视频。
根据权利要求9所述的方法，其特征在于，所述检测用户的视频选取操作，包括：

控制交互装置显示视频选取界面；

检测用户对显示所述视频选取界面的交互装置的视频选取操作。
根据权利要求1-10任一项所述的方法，其特征在于，所述确定所述展示对象在所述空间中的位置信息，包括：

获取用户在所述目标视频中的目标图像帧中选中的像素点在所述目标图像帧中的位置或者在所述目标图像帧中选中的像素点区域在所述目标图像帧中的位置；

根据所述像素点或者像素点区域在所述目标图像帧中的位置确定所述展示对象在所述空间中的位置信息。
根据权利要求11所述的方法，其特征在于，所述方法还包括：从所述目标视频中确定目标子视频；

所述获取用户在所述目标视频中的目标图像帧中选中的像素点在所述目标图像帧中的位置或者在所述目标图像帧中选中的像素点区域在所述目标图像帧中的位置，包括：

获取用户在所述目标子视频中的目标图像帧中选中的像素点在所述目标图像帧中的位置或者在所述目标图像帧中选中的像素点区域在所述目标图像帧中的位置。
根据权利要求12所述的方法，其特征在于，所述方法还包括：响应于用户在所述目标视频中的目标子视频之外的图像帧中选中像素点或者像素点区域的操作，输出选中无效的提示信息。
根据权利要求12或13所述的方法，其特征在于，所述方法还包括：输出第一提示信息，其中，所述第一提示信息用于指示用户在所述目标子视频中的目标图像帧中选中像素点或者像素点区域。
根据权利要求12-14任一项所述的方法，其特征在于，所述目标子视频包括所述目标视频中拍摄装置的运动状态满足预设的运动条件时拍摄装置采集到的视频。
根据权利要求12-14任一项所述的方法，其特征在于，所述从所述目标视频中确定目标子视频，包括：

从所述目标视频中确定多个连续图像帧，其中，所述多个连续图像帧相邻的图像帧之间特征点的平均移动量之和大于或等于预设的距离阈值，所述多个连续图像帧的视差大于或等于预设的视差阈值；

将所述多个连续图像帧确定为目标子视频。
根据权利要求16所述的方法，其特征在于，所述多个连续图像帧的数量大于或等于预设的图像数量阈值。
根据权利要求11-17任一项所述的方法，其特征在于，所述确定所述展示对象在所述空间中的位置信息，还包括：

确定所述像素点或者所述像素点区域指示的空间中物体是否为静止物体；

所述根据所述像素点或者像素点区域在所述目标图像帧中的位置确定所述用户编辑的展示对象在所述空间中的位置信息，包括：

当所述物体为静止物体时，根据所述像素点或者像素点区域在所述目标图像帧中的位置确定所述用户编辑的展示对象在所述空间中的位置信息。
根据权利要求11-18任一项所述的方法，其特征在于，所述确定所述展示对象在所述空间中的位置信息，还包括：

确定所述像素点或者所述像素点区域指示的空间中物体是否为静止物体；

当所述物体不为静止运动时，输出第二提示信息，其中，所述第二提示信息用于提示用户所述像素点或者所述像素点区域不可选，或者用于提示用户选中其他像素点或者像素点区域。
根据权利要求11-19任一项所述的方法，其特征在于，所述确定所述展示对象在所述空间中的位置信息，还包括：

确定所述像素点区域是否满足预设的纹理条件；

所述根据所述像素点区域在所述目标图像帧中的位置确定所述用户编辑的展示对象在所述空间中的位置信息，包括：

当满足预设的纹理条件时，根据所述像素点或者像素点区域在所述目标图像帧中的位置确定所述用户编辑的展示对象在所述空间中的位置信息。
根据权利要求11-20任一项所述的方法，其特征在于，所述确定所述展示对象在所述空间中的位置信息，还包括：

确定所述像素点区域是否满足预设的纹理条件；

当不满足预设的纹理条件时，输出第三提示信息，其中，所述第三提示信息用于提示用户所述像素点或者所述像素点区域不可选，或者用于提示用户选中其他像素点或者像素点区域。
根据权利要求11-19任一项所述的方法，其特征在于，所述根据所述像素点区域在所述目标图像帧中的位置确定所述展示对象在所述空间中的位置信息，包括：

根据所述像素点区域在所述目标图像帧中的位置确定所述像素点区域中的特征点；

获取所述像素点区域中的特征点在所述目标图像帧中的位置；

根据所述特征点在所述目标图像帧中的位置确定所述像素点区域的几何中心像素点的对应的空间点在所述空间中的位置信息。
根据权利要求22所述的方法，其特征在于，所述根据所述特征点在所述目标图像帧中的位置确定所述像素点区域的几何中心像素点的对应的空间点在所述空间中的位置信息，包括：

根据所述特征点在所述目标图像帧中的位置确定所述像素点区域的几何中心像素点的对应的空间点在所述目标视频至少一帧参考图像帧的光流向量；

根据所述光流向量确定所述几何中心像素点的对应的空间点在所述至少一帧参考图像帧中的位置；

根据所述在所述至少一帧参考图像帧中的位置和所述特征点在所述目标图像帧中的位置确定所述几何中心像素点的对应的空间点在所述空间中的位置信息。
根据权利要求11-19任一项所述的方法，其特征在于，所述根据所述像素点在所述目标图像帧中的位置确定所述展示对象在所述空间中的位置信息，包括：

获取所述目标图像帧中的目标特征点对应的空间点在所述空间中的位置；

根据所述目标特征点对应的空间点在所述空间中的位置拟合目标平面；

根据所述像素点在所述目标图像帧中的位置和所述拟合目标平面确定所述展示对象在所述空间中的位置信息。
根据权利要求24所述的方法，其特征在于，所述目标特征点与所述像素点之间的像素距离小于或等于预设的像素距离阈值。
根据权利要求1-25任一项所述的方法，其特征在于，所述目标视频是可移动平台对所述空间中的目标对象进行跟随时由所述拍摄装置拍摄获取的，所述确定所述展示对象在所述空间中的位置信息，包括：

获取所述拍摄装置的跟随对象在所述空间中的位置信息；

根据所述跟随对象在所述空间中的位置信息确定所述展示对象在所述空间中的位置信息。
根据权利要求1-26任一项所述的方法，其特征在于，所述目标视频是可移动平台对所述空间中的目标对象进行环绕运动时由所述拍摄装置拍摄获取的，所述确定所述展示对象在所述空间中的位置信息，包括：

获取所述拍摄装置的环绕对象在所述空间中的位置信息；

根据所述环绕对象在所述空间中的位置信息确定所述展示对象在所述空间中的位置信息。
根据权利要求1-27任一项所述的方法，其特征在于，所述展示对象包括数字、字母、符号、文字和物体标识中的至少一种。
根据权利要求1-28任一项所述的方法，其特征在于，所述展示对象为三维模型。
根据权利要求1-29任一项所述的方法，其特征在于，所述方法还包括：播放或存储或者运行社交应用程序分享所述目标合成视频。
根据权利要求1-29任一项所述的方法，其特征在于，所述可移动平台包括所述图像的处理装置，所述方法还包括：将所述目标合成视频发送给所述可移动平台的控制终端以使所述控制终端播放或存储或者运行社交应用程序分享所述目标合成视频。
根据权利要求1-31任一项所述的方法，其特征在于，所述可移动平台包括无人飞行器。
一种图像的处理装置，其特征在于，包括：

存储器，被配置为存储计算机程序；

处理器，被配置为执行所述计算机程序以实现：

获取可移动平台在空间中移动时可移动平台的拍摄装置采集到的目标视频；

获取所述拍摄装置在采集所述目标视频中每一图像帧时的位姿信息；

获取用户编辑的展示对象；

确定所述展示对象在所述空间中的位置信息；

根据所述展示对象在所述空间中的位置信息和所述每一图像帧对应的位姿信息将所述展示对象投影到所述每一图像帧上以获取目标合成视频。
根据权利要求33所述的装置，其特征在于，所述处理器还被配置为执行所述计算机程序以实现：

获取所述每一图像帧中的特征点在所述图像帧中的位置信息；

根据所述特征点在所述图像帧中的位置信息确定所述拍摄装置在采集所述每一图像帧时的位姿信息。
根据权利要求34所述的装置，其特征在于，所述处理器还被配置为执行所述计算机程序以实现：

获取所述拍摄装置在采集所述每一图像帧时的初始位姿信息，其中，所述初始位姿信息是可移动平台配置的传感器采集得到的；

根据所述特征点在所述图像帧中的位置信息和所述每一图像帧对应的初始位姿信息确定所述拍摄装置在采集所述每一图像帧时的位姿信息。
根据权利要求33-35任一项所述的装置，其特征在于，所述处理器还被配置为执行所述计算机程序以实现：

获取所述拍摄装置在采集所述每一图像帧时的初始位姿信息，其中，所述初始位姿信息是可移动平台配置的传感器采集得到的；

根据所述展示对象在所述空间中的位置信息和所述每一图像帧对应的初始位姿信息将所述展示对象投影到所述每一图像帧上以获取预览合成视频。
根据权利要求33-36任一项所述的装置，其特征在于，所述处理器还被配置为执行所述计算机程序以实现：

根据所述展示对象在所述空间中的位置信息和所述每一图像帧对应的位姿信息确定所述展示对象在所述每一图像帧中的投影位置和投影姿态；

根据所述展示对象在所述每一图像帧中的投影位置和投影姿态将所述展示对象投影到所述每一图像帧中以获取目标合成视频。
根据权利要求37所述的装置，其特征在于，所述处理器还被配置为执行所述计算机程序以实现：

获取用户编辑的所述展示对象的位置调整信息和/或姿态调整信息；

根据所述展示对象在所述空间中的位置信息、所述每一图像帧对应的位姿信息和所述展示对象的所述位置调整信息和/或姿态调整信息确定所述展示对象在所述每一图像帧中的投影位置和投影姿态。
根据权利要求33-38任一项所述的装置，其特征在于，所述处理器还被配置为执行所述计算机程序以实现：

检测用户的展示对象编辑操作，根据所述检测到的所述编辑操作确定所述用户编辑的展示对象。
根据权利要求39所述的装置，其特征在于，所述处理器还被配置为执行所述计算机程序以实现：

控制交互装置显示展示对象编辑界面；

检测用户对显示所述展示对象编辑界面的交互装置的展示对象编辑操作。
根据权利要求33-40任一项所述的装置，其特征在于，所述处理器还被配置为执行所述计算机程序以实现：

获取所述可移动平台在空间中移动时所述拍摄装置采集的初始视频；

检测用户的视频选取操作，根据所述检测到的所述视频选取操作从所述初始视频中确定所述目标视频。
根据权利要求41所述的装置，其特征在于，所述处理器还被配置为执行所述计算机程序以实现：

控制交互装置显示视频选取界面；

检测用户对显示所述视频选取界面的交互装置的视频选取操作。
根据权利要求33-42任一项所述的装置，其特征在于，所述处理器还被配置为执行所述计算机程序以实现：

获取用户在所述目标视频中的目标图像帧中选中的像素点在所述目标图像帧中的位置或者在所述目标图像帧中选中的像素点区域在所述目标图像帧中的位置；

根据所述像素点或者像素点区域在所述目标图像帧中的位置确定所述展示对象在所述空间中的位置信息。
根据权利要求43所述的装置，其特征在于，所述处理器还被配置为执行所述计算机程序以实现：

从所述目标视频中确定目标子视频；

获取用户在所述目标子视频中的目标图像帧中选中的像素点在所述目标图像帧中的位置或者在所述目标图像帧中选中的像素点区域在所述目标图像帧中的位置。
根据权利要求44所述的装置，其特征在于，所述处理器还被配置为执行所述计算机程序以实现：响应于用户在所述目标视频中的目标子视频之外的图像帧中选中像素点或者像素点区域的操作，输出选中无效的提示信息。
根据权利要求44或45所述的装置，其特征在于，所述处理器还被配置为执行所述计算机程序以实现：输出第一提示信息，其中，所述第一提示信息用于指示用户在所述目标子视频中的目标图像帧中选中像素点或者像素点区域。
根据权利要求44-46任一项所述的装置，其特征在于，所述目标子视频包括所述目标视频中拍摄装置的运动状态满足预设的运动条件时拍摄装置采集到的视频。
根据权利要求44-46任一项所述的装置，其特征在于，所述处理器还被配置为执行所述计算机程序以实现：

从所述目标视频中确定多个连续图像帧，其中，所述多个连续图像帧相邻的图像帧之间特征点的平均移动量之和大于或等于预设的距离阈值，所述多个连续图像帧的视差大于或等于预设的视差阈值；

将所述多个连续图像帧确定为目标子视频。
根据权利要求48所述的装置，其特征在于，所述多个连续图像帧的数量大于或等于预设的图像数量阈值。
根据权利要求43-49任一项所述的装置，其特征在于，所述处理器还被配置为执行所述计算机程序以实现：

确定所述像素点或者所述像素点区域指示的空间中物体是否为静止物体；

当所述物体为静止物体时，根据所述像素点或者像素点区域在所述目标图像帧中的位置确定所述用户编辑的展示对象在所述空间中的位置信息。
根据权利要求43-50任一项所述的装置，其特征在于，所述处理器还被配置为执行所述计算机程序以实现：

确定所述像素点或者所述像素点区域指示的空间中物体是否为静止物体；

当所述物体不为静止运动时，输出第二提示信息，其中，所述第二提示信息用于提示用户所述像素点或者所述像素点区域不可选，或者用于提示用户选中其他像素点或者像素点区域。
根据权利要求43-51任一项所述的装置，其特征在于，所述处理器还被配置为执行所述计算机程序以实现：

确定所述像素点区域是否满足预设的纹理条件；

当满足预设的纹理条件时，根据所述像素点或者像素点区域在所述目标图像帧中的位置确定所述用户编辑的展示对象在所述空间中的位置信息。
根据权利要求43-52任一项所述的装置，其特征在于，所述处理器还被配置为执行所述计算机程序以实现：

确定所述像素点区域是否满足预设的纹理条件；

当不满足预设的纹理条件时，输出第三提示信息，其中，所述第三提示信息用于提示用户所述像素点或者所述像素点区域不可选，或者用于提示用户选中其他像素点或者像素点区域。
根据权利要求43-51任一项所述的装置，其特征在于，所述处理器还被配置为执行所述计算机程序以实现：

根据所述像素点区域在所述目标图像帧中的位置确定所述像素点区域中的特征点；

获取所述像素点区域中的特征点在所述目标图像帧中的位置；

根据所述特征点在所述目标图像帧中的位置确定所述像素点区域的几何中心像素点的对应的空间点在所述空间中的位置信息。
根据权利要求54所述的装置，其特征在于，所述处理器还被配置为执行所述计算机程序以实现：

根据所述特征点在所述目标图像帧中的位置确定所述像素点区域的几何中心像素点的对应的空间点在所述目标视频至少一帧参考图像帧的光流向量；

根据所述光流向量确定所述几何中心像素点的对应的空间点在所述至少一帧参考图像帧中的位置；

根据所述在所述至少一帧参考图像帧中的位置和所述特征点在所述目标图像帧中的位置确定所述几何中心像素点的对应的空间点在所述空间中的位置信息。
根据权利要求43-52任一项所述的装置，其特征在于，所述处理器还被配置为执行所述计算机程序以实现：

获取所述目标图像帧中的目标特征点对应的空间点在所述空间中的位置；

根据所述目标特征点对应的空间点在所述空间中的位置拟合目标平面；

根据所述像素点在所述目标图像帧中的位置和所述拟合目标平面确定所述展示对象在所述空间中的位置信息。
根据权利要求56所述的装置，其特征在于，所述目标特征点与所述像素点之间的像素距离小于或等于预设的像素距离阈值。
根据权利要求33-57任一项所述的装置，其特征在于，所述目标视频是可移动平台对所述空间中的目标对象进行跟随时由所述拍摄装置拍摄获取的，所述处理器还被配置为执行所述计算机程序以实现：

获取所述拍摄装置的跟随对象在所述空间中的位置信息；

根据所述跟随对象在所述空间中的位置信息确定所述展示对象在所述空间中的位置信息。
根据权利要求33-58任一项所述的装置，其特征在于，所述目标视频是可移动平台对所述空间中的目标对象进行环绕运动时由所述拍摄装置拍摄获取的，所述处理器还被配置为执行所述计算机程序以实现：

获取所述拍摄装置的环绕对象在所述空间中的位置信息；

根据所述环绕对象在所述空间中的位置信息确定所述展示对象在所述空间中的位置信息。
根据权利要求33-59任一项所述的装置，其特征在于，所述展示对象包括数字、字母、符号、文字和物体标识中的至少一种。
根据权利要求33-60任一项所述的装置，其特征在于，所述展示对象为三维模型。
根据权利要求33-61任一项所述的装置，其特征在于，所述处理器还被配置为执行所述计算机程序以实现：

播放或存储或者运行社交应用程序分享所述目标合成视频。
根据权利要求33-61任一项所述的装置，其特征在于，所述可移动平台包括所述图像的处理装置，所述处理器还被配置为执行所述计算机程序以实现：

将所述目标合成视频发送给所述可移动平台的控制终端以使所述控制终端播放或存储或者运行社交应用程序分享所述目标合成视频。
根据权利要求33-63任一项所述的装置，其特征在于，所述可移动平台包括无人飞行器。
一种可移动平台，其特征在于，包括如权利要求33-38任一项或权利要求43-61任一项或权利要求63或权利要求64所述的图像的处理装置。
一种可移动平台的控制终端，其特征在于，包括如权利要求33-62任一项或权利要求64所述的图像的处理装置。
一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-32任一项所述的图像的处理方法的步骤。