WO2023000746A1

WO2023000746A1 - 增强现实视频的处理方法与电子设备

Info

Publication number: WO2023000746A1
Application number: PCT/CN2022/089308
Authority: WO
Inventors: 刘小伟; 陈兵; 王国毅; 周俊伟
Original assignee: 荣耀终端有限公司
Priority date: 2021-07-22
Filing date: 2022-04-26
Publication date: 2023-01-26
Also published as: CN115686182A; CN115686182B

Abstract

一种增强现实视频的处理方法与电子设备，该处理方法包括：获取原始视频与位姿信息，所述原始视频用于表示真实物体的视频，所述位姿信息用于表示终端设备获取所述原始视频时的位姿；根据所述原始视频与所述位姿信息生成虚拟平面，所述虚拟平面用于确定在所述原始视频中添加虚拟内容的位置信息；根据所述虚拟平面在所述原始视频中添加所述虚拟内容生成AR视频。基于本申请的技术方法，能够提高录制AR视频的视频质量。

Description

增强现实视频的处理方法与电子设备

本申请要求于2021年07月22日提交国家知识产权局、申请号为202110831693.9、申请名称为“增强现实视频的处理方法与电子设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及终端领域，具体涉及一种增强现实视频的处理方法与电子设备。

背景技术

增强现实(augmented reality，AR)技术是一种实时地计算摄影机影像的位置及角度并加上相应图像的技术，是一种将真实世界信息和虚拟世界信息“无缝”集成的新技术，这种技术的目标是在屏幕上把虚拟世界套在现实世界并进行互动。

目前，在录制AR视频时由于无法将虚拟内容和真实物体的视频较好的融合，尤其是在摄场景中需要用户与虚拟内容进行交互时，需要多次的重复拍摄，费时费力。

因此，如何在录制AR视频时使得虚拟内容和真实物体内容较好的融合，提高AR视频的视频质量成为一个亟需解决的问题。

发明内容

本申请提供了一种增强现实视频的处理方法与电子设备，能够在录制AR视频时使得虚拟内容和真实物体的视频较好融合，提高AR视频的视频质量。

第一方面，提供了一种增强现实视频的处理方法，包括：

获取原始视频与位姿信息，所述原始视频用于表示真实物体的视频，所述位姿信息用于表示终端设备获取所述原始视频时的位姿；根据所述原始视频与所述位姿信息生成虚拟平面，所述虚拟平面用于确定在所述原始视频中添加虚拟内容的位置信息；根据所述虚拟平面在所述原始视频中添加所述虚拟内容生成AR视频。

在本申请的实施例中，在获取原始视频时可以获取原始视频对应的位姿信息；根据位姿信息与原始视频可以得到虚拟平面；在原始视频的图像帧中添加虚拟内容时，虚拟平面可以作为一个基准面，根据虚拟平面可以调整虚拟内容在原始视频中的位置，使得虚拟内容能够更好的融入到原始视频中，提高AR视频的视频质量。

应理解，位姿信息用于表示终端设备的摄像头在获取原始视频时的位姿；位姿信息可以包括姿态信息与位置信息。

结合第一方面，在第一方面的某些实现方式中，所述位姿信息包括三维姿态信息，还包括：

通过四元数表示所述三维姿态信息。

在本申请的实施例中，可以将三维姿态信息转化为四元数来表示，从而避免将姿态信息通过三个参数表示所产生的歧义。

结合第一方面，在第一方面的某些实现方式中，所述根据所述原始视频与所述位姿信息生成虚拟平面的信息，包括：

根据所述原始视频中图像帧的位姿信息提取所述图像帧的特征点；

根据所述特征点生成所述虚拟平面。

应理解，图像帧的特征点可以是指图像灰度值发生剧烈变化的点，或者在图像边缘上曲率较大的点；特征点可以用于标识图像中物体。

结合第一方面，在第一方面的某些实现方式中，还包括：

保存所述位姿信息与所述虚拟平面的信息。

在本申请的实施例中，保存位姿信息与虚拟平面的信息可以使得在原始视频录制结束后，根据原始视频的位姿信息与虚拟平面的信息在原始视频中添加虚拟内容生成一个新的AR视频；由于保存了位姿信息与虚拟平面的信息，用户可以对原始视频进行多次不同的编辑，分别生成带不同虚拟内容的AR视频。

结合第一方面，在第一方面的某些实现方式中，所述保存所述位姿信息与所述虚拟平面的信息，包括：

将所述位姿信息与所述虚拟平面的信息保存在二进制文件中。

在一种可能的实现方式中，终端设备可以将位姿信息与虚拟平面的信息保存为独立的二进制文件。

在一种可能的实现方式中，可以将原始视频与原始视频对应的位姿信息与虚拟平面的信息保存在相同的目录下。

在一种可能的实现方式中，可以将原始视频对应的位姿信息与虚拟平面的信息与原始视频的命名相同保存在终端设备中。

在一种可能的实现方式中，可以通过每个图像帧的帧号作为标识，将原始视频对应的位姿信息与虚拟平面的信息保存在终端设备中。

将所述位姿信息与所述虚拟平面的信息保存在所述原始视频对应的补充增强信息中。

在一种可能的实现方式中，可以将位姿信息与虚拟平面的信息进行视频压缩编码的时保存至h.264或者h.265的补充增强信息中。

结合第一方面，在第一方面的某些实现方式中，还包括：

对保存的所述位姿信息与所述虚拟平面的信息进行压缩处理。

在本申请的实施例中，在保存位姿信息与虚拟平面的信息时可以对保存的信息进行压缩处理，从而能够有效的减少保存信息占用的内存空间。

在一种可能的实现方式中，可以采用以下的至少一种方式进行对保存位姿信息与虚拟平面的信息进行压缩处理：

根据当前图像帧与前一图像帧的差保存位姿信息；或者，虚拟平面的平面编号可以采用无符号字符方式保存；或者，对于虚拟平面中顶点的描述，水平面可以保留一个点的Z轴信息删除其他点的Z轴信息，垂直面可以保留一个点的Y轴信息删除其他点的Y轴信息；或者，顶点的位置描述可以采用float16；或者，保存虚拟平面的信息时可以只保存当前视野范围内的平面。

结合第一方面，在第一方面的某些实现方式中，所述根据所述虚拟平面的信息在所述原始视频中添加所述虚拟内容生成AR视频，包括：

在所述原始视频录制完成后，根据所述虚拟平面在所述原始视频中添加所述虚拟内容生成所述AR视频。

结合第一方面，在第一方面的某些实现方式中，所述虚拟平面包括第一虚拟平面，所述第一虚拟平面是指第一图像帧对应的虚拟平面，所述第一图像帧是所述原始视频中的任意一个图像帧；

所述第一虚拟平面的信息包括图像帧的总数、所述第一虚拟平面的标识、所述第一虚拟平面包括的顶点数量以及所述第一虚拟平面包括的每一个顶点的位置信息，所述总数是指所述原始视频包括图像帧的总数。

第二方面，提供了一种AR视频的处理装置，所述处理装置包括获取单元与处理单元；

其中，所述获取单元用于获取原始视频与位姿信息，所述原始视频用于表示真实物体的视频，所述位姿信息用于表示终端设备获取所述原始视频时的位姿；所述处理单元用于根据所述原始视频与所述位姿信息生成虚拟平面，所述虚拟平面用于确定在所述原始视频中添加虚拟内容的位置信息；根据所述虚拟平面在所述原始视频中添加所述虚拟内容生成AR视频。

结合第二方面，在第二方面的某些实现方式中，所述位姿信息包括三维姿态信息，所述处理单元还用于：

通过四元数表示所述三维姿态信息。

结合第二方面，在第二方面的某些实现方式中，所述处理单元具体用于：

根据所述特征点生成所述虚拟平面。

结合第二方面，在第二方面的某些实现方式中，所述处理单元还用于：

保存所述位姿信息与所述虚拟平面的信息。

结合第二方面，在第二方面的某些实现方式中，所述虚拟平面包括第一虚拟平面，所述第一虚拟平面是指第一图像帧对应的虚拟平面，所述第一图像帧是所述原始视频中的任意一个图像帧；

在一种可能的实现方式中，上述AR视频的处理装置可以是指芯片。

在上述处理装置为芯片时，获取单元可以是指输出接口、管脚或电路等；处理单元可以是指芯片内部的处理单元。

应理解，在上述第一方面中对相关内容的扩展、限定、解释和说明也适用于第二方面中相同的内容。

第三方面，提供了一种电子设备，所述电子设备包括：一个或多个处理器、存储器和显示屏；所述存储器与所述一个或多个处理器耦合，所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，所述一个或多个处理器调用所述计算机指令以使得所述电子设备执行：

结合第三方面，在第三方面的某些实现方式中，所述位姿信息包括三维姿态信息，所述一个或多个处理器调用所述计算机指令以使得所述电子设备还执行：

通过四元数表示所述三维姿态信息。

结合第三方面，在第三方面的某些实现方式中，所述一个或多个处理器调用所述计算机指令以使得所述电子设备还执行：

根据所述特征点生成所述虚拟平面。

保存所述位姿信息与所述虚拟平面的信息。

结合第三方面，在第三方面的某些实现方式中，所述虚拟平面包括第一虚拟平面，所述第一虚拟平面是指第一图像帧对应的虚拟平面，所述第一图像帧是所述原始视频中的任意一个图像帧；

应理解，在上述第一方面中对相关内容的扩展、限定、解释和说明也适用于第三方面中相同的内容。

第四方面，提供了一种电子设备，所述电子设备包括：一个或多个处理器、存储器和显示屏；所述存储器与所述一个或多个处理器耦合，所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，所述一个或多个处理器调用所述计算机指令以使得所述电子设备执行第一方面中的任一种处理方法。

第五方面，提供了一种芯片系统，所述芯片系统应用于电子设备，所述芯片系统包括一个或多个处理器，所述处理器用于调用计算机指令以使得所述电子设备执行第一方面中的任一种处理方法。

第六方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序代码，当所述计算机程序代码被电子设备运行时，使得该电子设备执行第一方面中的任一种处理方法。

第七方面，提供了一种计算机程序产品，所述计算机程序产品包括：计算机程序代码，当所述计算机程序代码被电子设备运行时，使得该电子设备执行第一方面中的任一种处理方法。

在本申请的实施例中，由于在获取原始视频时可以获取原始视频对应的位姿信息；根据位姿信息与原始视频可以得到虚拟平面；在原始视频的图像帧中添加虚拟内容时，虚拟平面可以作为一个基准面，根据虚拟平面可以调整虚拟内容在原始视频中的位置；因此，在本申请的实施例中，通过虚拟平面使得虚拟内容能够更好的融入到原始视频中，从而提高生成的AR视频的视频质量。

附图说明

图1是一种适用于本申请的装置的硬件系统的示意图；

图2是一种适用于本申请的装置的软件系统的示意图；

图3是本申请提供的一种应用场景的示意图；

图4是本申请提供的一种增强现实视频的处理方法的示意图；

图5是本申请提供的一种AR视频处理的显示界面的示意图；

图6是本申请提供的一种AR视频处理的显示界面的示意图；

图7是本申请提供的一种AR视频处理的显示界面的示意图；

图8是本申请提供的一种AR视频处理的显示界面的示意图；

图9是本申请提供的一种AR视频处理的显示界面的示意图；

图10是本申请提供的一种AR视频处理的显示界面的示意图；

图11是本申请提供的一种AR视频处理的显示界面的示意图；

图12是本申请提供的一种AR视频处理的显示界面的示意图；

图13是本申请提供的一种增强现实视频的处理方法的示意图；

图14是本申请提供的一种AR视频处理的显示界面的示意图；

图15是本申请提供的一种AR视频处理的显示界面的示意图；

图16是本申请提供的一种AR视频处理的显示界面的示意图；

图17是本申请提供的一种AR视频处理的显示界面的示意图；

图18是本申请提供的一种AR视频处理的显示界面的示意图；

图19是本申请提供的一种AR视频处理的显示界面的示意图；

图20是本申请提供的一种AR视频处理的显示界面的示意图；

图21是本申请提供的一种AR视频处理的显示界面的示意图；

图22是本申请提供的一种增强现实视频的处理装置的结构示意图；

图23是本申请提供的一种电子设备的结构示意图。

具体实施方式

下面将结合附图，对本申请实施例中的技术方案进行描述。

图1示出了一种适用于本申请的终端设备的硬件系统。

终端设备100可以是手机、智慧屏、平板电脑、可穿戴电子设备、车载电子设备、增强现实(augmented reality，AR)设备、虚拟现实(virtual reality，VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本、个人数字助理(personal digital assistant，PDA)、投影仪等等，本申请实施例对终端设备100的具体类型不作任何限制。

终端设备100可以包括处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serial bus，USB)接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194，以及用户标识模块(subscriber identification module，SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A，陀螺仪传感器180B，气压传感器180C，磁传感器180D，加速度传感器180E，距离传感器180F，接近光传感器180G，指纹传感器180H，温度传感器180J，触摸传感器180K，环境光传感器180L，骨传导传感器180M等。

需要说明的是，图1所示的结构并不构成对终端设备100的具体限定。在本申请另一些实施例中，终端设备100可以包括比图1所示的部件更多或更少的部件，或者，终端设备100可以包括图1所示的部件中某些部件的组合，或者，终端设备100可以包括图1所示的部件中某些部件的子部件。图1示的部件可以以硬件、软件、或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元。例如，处理器110可以包括以下处理单元中的至少一个：应用处理器(application processor，AP)、调制解调处理器、图形处理器(graphics processing unit，GPU)、图像信号处理器(image signal processor，ISP)、控制器、视频编解码器、数字信号处理器(digital signal processor，DSP)、基带处理器、神经网络处理器(neural-network processing unit，NPU)。其中，不同的处理单元可以是独立的器件，也可以是集成的器件。

控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。

在一些实施例中，处理器110可以包括一个或多个接口。例如，处理器110可以包括以下接口中的至少一个：内部集成电路(inter-integrated circuit，I2C)接口、内部集成电路音频(inter-integrated circuit sound，I2S)接口、脉冲编码调制(pulse code modulation，PCM)接口、通用异步接收传输器(universal asynchronous receiver/transmitter，UART)接口、移动产业处理器接口(mobile industry processor interface，MIPI)、通用输入输出(general-purpose input/output，GPIO)接口、SIM接口、USB接口。

I2C接口是一种双向同步串行总线，包括一根串行数据线(serial data line，SDA)和一根串行时钟线(derail clock line，SCL)。在一些实施例中，处理器110可以包含多组I2C总线。处理器110可以通过不同的I2C总线接口分别耦合触摸传感器180K、充电器、闪光灯、摄像头193等。例如：处理器110可以通过I2C接口耦合触摸传感器180K，使处理器110与触摸传感器180K通过I2C总线接口通信，实现终端设备100的触摸功能。

I2S接口可以用于音频通信。在一些实施例中，处理器110可以包含多组I2S总线。处理器110可以通过I2S总线与音频模块170耦合，实现处理器110与音频模块170之间的通信。在一些实施例中，音频模块170可以通过I2S接口向无线通信模块160传递音频信号，实现通过蓝牙耳机接听电话的功能。

PCM接口也可以用于音频通信，将模拟信号抽样，量化和编码。在一些实施例中，音频模块170与无线通信模块160可以通过PCM接口耦合。在一些实施例中，音频模块170也可以通过PCM接口向无线通信模块160传递音频信号，实现通过蓝牙耳机接听电话的功能。所述I2S接口和所述PCM接口都可以用于音频通信。

UART接口是一种通用串行数据总线，用于异步通信。该总线可以为双向通信总线。它将要传输的数据在串行通信与并行通信之间转换。在一些实施例中，UART接口通常被用于连接处理器110与无线通信模块160。例如：处理器110通过UART接口与无线通信模块160中的蓝牙模块通信，实现蓝牙功能。在一些实施例中，音频模块170可以通过UART接口向无线通信模块160传递音频信号，实现通过蓝牙耳机播放音乐的功能。

MIPI接口可以被用于连接处理器110与显示屏194和摄像头193等外围器件。MIPI接口包括摄像头串行接口(camera serial interface，CSI)、显示屏串行接口(display serial interface，DSI)等。在一些实施例中，处理器110和摄像头193通过CSI接口通信，实现终端设备100的拍摄功能。处理器110和显示屏194通过DSI接口通信，实现终端设备100的显示功能。

GPIO接口可以通过软件配置。GPIO接口可以被配置为控制信号接口，也可被配置为数据信号接口。在一些实施例中，GPIO接口可以用于连接处理器110与摄像头193，显示屏194、无线通信模块160、音频模块170和传感器模块180。GPIO接口还可以被配置为I2C接口、I2S接口、UART接口或MIPI接口。

USB接口130是符合USB标准规范的接口，例如可以是迷你(Mini)USB接口、微型(Micro)USB接口或C型USB(USB Type C)接口。USB接口130可以用于连接充电器为终端设备100充电，也可以用于终端设备100与外围设备之间传输数据，还可以用于连接耳机以通过耳机播放音频。USB接口130还可以用于连接其他终端设备100，例如AR设备。

图1所示的各模块间的连接关系只是示意性说明，并不构成对终端设备100的各模块间的连接关系的限定。可选地，终端设备100的各模块也可以采用上述实施例中多种连接方式的组合。

充电管理模块140用于从充电器接收电力。其中，充电器可以是无线充电器，也可以是有线充电器。在一些有线充电的实施例中，充电管理模块140可以通过USB接口130接收有线充电器的电流。在一些无线充电的实施例中，充电管理模块140可以通过终端设备100的无线充电线圈接收电磁波(电流路径如虚线所示)。充电管理模块140为电池142充电的同时，还可以通过电源管理模块141为终端设备100供电。

电源管理模块141用于连接电池142，充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入，为处理器110，内部存储器121，显示屏194，摄像头193，和无线通信模块160等供电。电源管理模块141还可以用于监测电池容量、电池循环次数和电池健康状态(例如，漏电、阻抗)等参数。可选地，电源管理模块141可以设置于处理器110中，或者，电源管理模块141和充电管理模块140可以设置于同一个器件中。

终端设备100的无线通信功能可以通过天线1、天线2、移动通信模块150、无线通信模块160、调制解调处理器以及基带处理器等器件实现。

天线1和天线2用于发射和接收电磁波信号。终端设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。例如：可以将天线1复用为无线局域网的分集天线。在另外一些实施例中，天线可以和调谐开关结合使用。

移动通信模块150可以提供应用在终端设备100上的无线通信的解决方案，例如下列方案中的至少一个：第二代(2th generation，2G)移动通信解决方案、第三代(3th generation，3G)移动通信解决方案、第四代(4th generation，4G)移动通信解决方案、第五代(5th generation，5G)移动通信解决方案。移动通信模块150可以包括至少一个滤波器，开关，功率放大器，低噪声放大器(low noise amplifier，LNA)等。移动通信模块150可以由天线1接收电磁波，并对接收的电磁波进行滤波和放大等处理，随后传送至调制解调处理器进行解调。移动通信模块150还可以放大经调制解调处理器调制后的信号，放大后的该信号经天线1转变为电磁波辐射出去。在一些实施例中，移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中，移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。

调制解调处理器可以包括调制器和解调器。其中，调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后，被传递给应用处理器。应用处理器通过音频设备(例如，扬声器170A、受话器170B)输出声音信号，或通过显示屏194显示图像或视频。在一些实施例中，调制解调处理器可以是独立的器件。在另一些实施例中，调制解调处理器可以独立于处理器110，与移动通信模块150或其他功能模块设置在同一个器件中。

与移动通信模块150类似，无线通信模块160也可以提供应用在终端设备100上的无线通信解决方案，例如下列方案中的至少一个：无线局域网(wireless local area networks，WLAN)、蓝牙(bluetooth，BT)、蓝牙低功耗(bluetooth low energy，BLE)、超宽带(ultra wide band，UWB)、全球导航卫星系统(global navigation satellite system，GNSS)、调频(frequency modulation，FM)、近场通信(near field communication，NFC)、红外(infrared，IR)技术。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波，将电磁波信号调频以及滤波处理，并将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号，对其进行调频和放大，该信号经天线2转变为电磁波辐射出去。

在一些实施例中，终端设备100的天线1和移动通信模块150耦合，终端设备100的天线2和无线通信模块160耦合，使得终端设备100可以通过无线通信技术与网络和其他电子设备通信。该无线通信技术可以包括以下通信技术中的至少一个：全球移动通讯系统(global system for mobile communications，GSM)，通用分组无线服务(general packet radio service，GPRS)，码分多址接入(code division multiple access，CDMA)，宽带码分多址(wideband code division multiple access，WCDMA)，时分码分多址(time-division code division multiple access，TD-SCDMA)，长期演进(long term evolution，LTE)，BT，GNSS，WLAN，NFC，FM，IR技术。该GNSS可以包括以下定位技术中的至少一个：全球卫星定位系统(global positioning system，GPS)，全球导航卫星系统(global navigation satellite system，GLONASS)，北斗卫星导航系统(beidou navigation satellite system，BDS)，准天顶卫星系统(quasi-zenith satellite system，QZSS)，星基增强系统(satellite based augmentation systems，SBAS)。

终端设备100可以通过GPU、显示屏194以及应用处理器实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏194可以用于显示图像或视频。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)、有机发光二极管(organic light-emitting diode，OLED)、有源矩阵有机发光二极体(active-matrix organic light-emitting diode，AMOLED)、柔性发光二极管(flex light-emitting diode，FLED)、迷你发光二极管(mini light-emitting diode，Mini LED)、微型发光二极管(micro light-emitting diode，Micro LED)、微型OLED(Micro OLED)或量子点发光二极管(quantum dot light emitting diodes，QLED)。在一些实施例中，终端设备100可以包括1个或N个显示屏194，N为大于1的正整数。

终端设备100可以通过ISP、摄像头193、视频编解码器、GPU、显示屏194以及应用处理器等实现拍摄功能。

ISP用于处理摄像头193反馈的数据。例如，拍照时，打开快门，光线通过镜头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将所述电信号传递给ISP处理，转化为肉眼可见的图像。ISP可以对图像的噪点、亮度和色彩进行算法优化，ISP还可以优化拍摄场景的曝光和色温等参数。在一些实施例中，ISP可以设置在摄像头193中。

摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的红绿蓝(red green blue，RGB)，YUV等格式的图像信号。在一些实施例中，终端设备100可以包括1个或N个摄像头193，N为大于1的正整数。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。例如，当终端设备100在频点选择时，数字信号处理器用于对频点能量进行傅里叶变换等。

视频编解码器用于对数字视频压缩或解压缩。终端设备100可以支持一种或多种视频编解码器。这样，终端设备100可以播放或录制多种编码格式的视频，例如：动态图像专家组(moving picture experts group，MPEG)1、MPEG2、MPEG3和MPEG4。

NPU是一种借鉴生物神经网络结构的处理器，例如借鉴人脑神经元之间传递模式对输入信息快速处理，还可以不断地自学习。通过NPU可以实现终端设备100的智能认知等功能，例如：图像识别、人脸识别、语音识别和文本理解。

外部存储器接口120可以用于连接外部存储卡，例如安全数码(secure digital，SD)卡，实现扩展终端设备100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。

内部存储器121可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。内部存储器121可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能(例如，声音播放功能和图像播放功能)所需的应用程序。存储数据区可存储终端设备100使用过程中所创建的数据(例如，音频数据和电话本)。此外，内部存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器，例如：至少一个磁盘存储器件、闪存器件和通用闪存存储器(universal flash storage，UFS)等。处理器110通过运行存储在内部存储器121的指令和/或存储在设置于处理器中的存储器的指令，执行终端设备100的各种处理方法。

终端设备100可以通过音频模块170、扬声器170A、受话器170B、麦克风170C、耳机接口170D以及应用处理器等实现音频功能，例如，音乐播放和录音。

音频模块170用于将数字音频信息转换成模拟音频信号输出，也可以用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中，音频模块170或者音频模块170的部分功能模块可以设置于处理器110中。

扬声器170A，也称为喇叭，用于将音频电信号转换为声音信号。终端设备100可以通过扬声器170A收听音乐或免提通话。

受话器170B，也称为听筒，用于将音频电信号转换成声音信号。当用户使用终端设备100接听电话或语音信息时，可以通过将受话器170B靠近耳朵接听语音。

麦克风170C，也称为话筒或传声器，用于将声音信号转换为电信号。当用户拨打电话或发送语音信息时，可以通过靠近麦克风170C发声将声音信号输入麦克风170C。终端设备100可以设置至少一个麦克风170C。在另一些实施例中，终端设备100可以设置两个麦克风170C，以实现降噪功能。在另一些实施例中，终端设备100还可以设置三个、四个或更多麦克风170C，以实现识别声音来源和定向录音等功能。处理器110可以对麦克风170C输出的电信号进行处理，例如，音频模块170与无线通信模块160可以通过PCM接口耦合，麦克风170C将环境声音转换为电信号(如PCM信号)后，通过PCM接口将该电信号传输至处理器110；从处理器110对该电信号进行音量分析和频率分析，确定环境声音的音量和频率。

耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130，也可以是3.5mm的开放移动终端设备100平台(open mobile terminal platform，OMTP)标准接口，美国蜂窝电信工业协会(cellular telecommunications industry association of the USA，CTIA)标准接口。

压力传感器180A用于感受压力信号，可以将压力信号转换成电信号。在一些实施例中，压力传感器180A可以设置于显示屏194。压力传感器180A的种类很多，例如可以是电阻式压力传感器、电感式压力传感器或电容式压力传感器。电容式压力传感器可以是包括至少两个具有导电材料的平行板，当力作用于压力传感器180A，电极之间的电容改变，终端设备100根据电容的变化确定压力的强度。当触摸操作作用于显示屏194时，终端设备100根据压力传感器180A检测所述触摸操作。终端设备100也可以根据压力传感器180A的检测信号计算触摸的位置。在一些实施例中，作用于相同触摸位置，但不同触摸操作强度的触摸操作，可以对应不同的操作指令。例如：当触摸操作强度小于第一压力阈值的触摸操作作用于短消息应用图标时，执行查看短消息的指令；当触摸操作强度大于或等于第一压力阈值的触摸操作作用于短消息应用图标时，执行新建短消息的指令。

陀螺仪传感器180B可以用于确定终端设备100的运动姿态。在一些实施例中，可以通过陀螺仪传感器180B确定终端设备100围绕三个轴(即，x轴、y轴和z轴)的角速度。陀螺仪传感器180B可以用于拍摄防抖。例如，当快门被按下时，陀螺仪传感器180B检测终端设备100抖动的角度，根据角度计算出镜头模组需要补偿的距离，让镜头通过反向运动抵消终端设备100的抖动，实现防抖。陀螺仪传感器180B还可以用于导航和体感游戏等场景。

气压传感器180C用于测量气压。在一些实施例中，终端设备100通过气压传感器180C测得的气压值计算海拔高度，辅助定位和导航。

磁传感器180D包括霍尔传感器。终端设备100可以利用磁传感器180D检测翻盖皮套的开合。在一些实施例中，当终端设备100是翻盖机时，终端设备100可以根据磁传感器180D检测翻盖的开合。终端设备100可以根据检测到的皮套的开合状态或翻盖的开合状态，设置翻盖自动解锁等特性。

加速度传感器180E可检测终端设备100在各个方向上(一般为x轴、y轴和z轴)加速度的大小。当终端设备100静止时可检测出重力的大小及方向。加速度传感器180E还可以用于识别终端设备100的姿态，作为横竖屏切换和计步器等应用程序的输入参数。

距离传感器180F用于测量距离。终端设备100可以通过红外或激光测量距离。在一些实施例中，例如在拍摄场景中，终端设备100可以利用距离传感器180F测距以实现快速对焦。

接近光传感器180G可以包括例如发光二极管(light-emitting diode，LED)和光检测器，例如，光电二极管。LED可以是红外LED。终端设备100通过LED向外发射红外光。终端设备100使用光电二极管检测来自附近物体的红外反射光。当检测到反射光时，终端设备100可以确定附近存在物体。当检测不到反射光时，终端设备100可以确定附近没有物体。终端设备100可以利用接近光传感器180G检测用户是否手持终端设备100贴近耳朵通话，以便自动熄灭屏幕达到省电的目的。接近光传感器180G也可用于皮套模式或口袋模式的自动解锁与自动锁屏。

环境光传感器180L用于感知环境光亮度。终端设备100可以根据感知的环境光亮度自适应调节显示屏194亮度。环境光传感器180L也可用于拍照时自动调节白平衡。环境光传感器180L还可以与接近光传感器180G配合，检测终端设备100是否在口袋里，以防误触。

指纹传感器180H用于采集指纹。终端设备100可以利用采集的指纹特性实现解锁、访问应用锁、拍照和接听来电等功能。

温度传感器180J用于检测温度。在一些实施例中，终端设备100利用温度传感器180J检测的温度，执行温度处理策略。例如，当温度传感器180J上报的温度超过阈值，终端设备100执行降低位于温度传感器180J附近的处理器的性能，以便降低功耗实施热保护。在另一些实施例中，当温度低于另一阈值时，终端设备100对电池142加热，以避免低温导致终端设备100异常关机。在其他一些实施例中，当温度低于又一阈值时，终端设备100对电池142的输出电压执行升压，以避免低温导致的异常关机。

触摸传感器180K，也称为触控器件。触摸传感器180K可以设置于显示屏194，由触摸传感器180K与显示屏194组成触摸屏，触摸屏也称为触控屏。触摸传感器180K用于检测作用于其上或其附近的触摸操作。触摸传感器180K可以将检测到的触摸操作传递给应用处理器，以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中，触摸传感器180K也可以设置于终端设备100的表面，并且与显示屏194设置于不同的位置。

骨传导传感器180M可以获取振动信号。在一些实施例中，骨传导传感器180M可以获取人体声部振动骨块的振动信号。骨传导传感器180M也可以接触人体脉搏，接收血压跳动信号。在一些实施例中，骨传导传感器180M也可以设置于耳机中，结合成骨传导耳机。音频模块170可以基于所述骨传导传感器180M获取的声部振动骨块的振动信号，解析出语音信号，实现语音功能。应用处理器可以基于所述骨传导传感器180M获取的血压跳动信号解析心率信息，实现心率检测功能。

按键190包括开机键和音量键。按键190可以是机械按键，也可以是触摸式按键。终端设备100可以接收按键输入信号，实现于案件输入信号相关的功能。

马达191可以产生振动。马达191可以用于来电提示，也可以用于触摸反馈。马达191可以对作用于不同应用程序的触摸操作产生不同的振动反馈效果。对于作用于显示屏194的不同区域的触摸操作，马达191也可产生不同的振动反馈效果。不同的应用场景(例如，时间提醒、接收信息、闹钟和游戏)可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。

指示器192可以是指示灯，可以用于指示充电状态和电量变化，也可以用于指示消息、未接来电和通知。

SIM卡接口195用于连接SIM卡。SIM卡可以插入SIM卡接口195实现与终端设备100的接触，也可以从SIM卡接口195拔出实现与终端设备100的分离。终端设备100可以支持1个或N个SIM卡接口，N为大于1的正整数。同一个SIM卡接口195可以同时插入多张卡，所述多张卡的类型可以相同，也可以不同。SIM卡接口195也可以兼容外部存储卡。终端设备100通过SIM卡和网络交互，实现通话以及数据通信等功能。在一些实施例中，终端设备100采用嵌入式SIM(embedded-SIM，eSIM)卡，eSIM卡可以嵌在终端设备100中，不能和终端设备100分离。

上文详细描述了终端设备100的硬件系统，下面介绍终端设备100的软件系统。软件系统可以采用分层架构、事件驱动架构、微核架构、微服务架构或云架构，本申请实施例以分层架构为例，示例性地描述终端设备100的软件系统。

如图2所示，采用分层架构的软件系统分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，软件系统可以分为四层，从上至下分别为应用程序层、应用程序框架层、安卓运行时(Android Runtime)和系统库、以及内核层。

应用程序层可以包括相机、图库、日历、通话、地图、导航、WLAN、蓝牙、音乐、视频、短信息等应用程序。

应用程序框架层为应用程序层的应用程序提供应用程序编程接口(Application Programming Interface，API)和编程框架。应用程序框架层可以包括一些预定义的函数。

例如，应用程序框架层包括窗口管理器、内容提供器、视图系统、资源管理器和通知管理器、同步定位与建图(Simultaneous Localization And Mapping，SLAM)位姿计算模块以及平面生成模块；应用程序框架层还可以包括电话管理器。

SLAM位姿计算模块用于输出位姿信息与稀疏点云；其中，位姿信息是指终端设备的摄像头的位姿信息，终端设备的摄像头用于获取真实场景的视频；根据视频中任意一帧图像的位姿信息可以对该帧图像进行特征点提取，并通过计算得到稀疏点云。

平面生成模块用于根据SLAM提供的稀疏点云，通过算法拟合生成虚拟平面；在真实场景中添加虚拟内容时，可以根据虚拟平面对虚拟内容的放置位置进行调整；例如，用户点击屏幕/手势操作放置虚拟内容时，用户的操作与生成的虚拟平面可以产生碰撞，确定虚拟内容的放置位置。应理解，本申请实施例提供的增强现实视频的处理方法对应的程序指令可以在SLAM位姿计算模块与平面生成模块中执行。

窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小，判断是否有状态栏、锁定屏幕和截取屏幕。

内容提供器用来存放和获取数据，并使这些数据可以被应用程序访问。所述数据可以包括视频、图像、音频、拨打和接听的电话、浏览历史和书签、以及电话簿。

视图系统包括可视控件，例如显示文字的控件和显示图片的控件。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成，例如，包括短信通知图标的显示界面，可以包括显示文字的视图以及显示图片的视图。

电话管理器用于提供终端设备100的通信功能，例如通话状态(接通或挂断)的管理。

资源管理器为应用程序提供各种资源，比如本地化字符串、图标、图片、布局文件和视频文件。

通知管理器使应用程序可以在状态栏中显示通知信息，可以用于传达告知类型的消息，可以短暂停留后自动消失，无需用户交互。比如通知管理器被用于下载完成告知和消息提醒。通知管理器还可以管理以图表或者滚动条文本形式出现在系统顶部状态栏的通知，例如后台运行的应用程序的通知。通知管理器还可以管理以对话窗口形式出现在屏幕上的通知，例如在状态栏提示文本信息、发出提示音、电子设备振动以及指示灯闪烁。

Android Runtime包括核心库和虚拟机。Android runtime负责安卓系统的调度和管理。

核心库包含两部分：一部分是java语言需要调用的功能函数，另一部分是安卓的核心库。

应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理、堆栈管理、线程管理、安全和异常的管理、以及垃圾回收等功能。

系统库可以包括多个功能模块，例如：表面管理器(surface manager)，媒体库(Media Libraries)，三维图形处理库(例如：针对嵌入式系统的开放图形库(open graphics library for embedded systems，OpenGL ES)和2D图形引擎(例如：skia图形库(skia graphics library，SGL))。

表面管理器用于对显示子系统进行管理，并且为多个应用程序提供了2D图层和3D图层的融合。

媒体库支持多种音频格式的回放和录制、多种视频格式回放和录制以及静态图像文件。媒体库可以支持多种音视频编码格式，例如:MPEG4、H.264、动态图像专家组音频层面3(moving picture experts group audio layer III，MP3)、高级音频编码(advanced audio coding，AAC)、自适应多码率(adaptive multi-rate，AMR)、联合图像专家组(joint photographic experts group，JPG)和便携式网络图形(portable network graphics，PNG)。

三维图形处理库可以用于实现三维图形绘图、图像渲染、合成和图层处理。

二维图形引擎是2D绘图的绘图引擎。

内核层是硬件和软件之间的层。内核层可以包括显示驱动、摄像头驱动、音频驱动和传感器驱动等驱动模块。

下面结合显示拍照场景，示例性说明终端设备100的软件系统和硬件系统的工作流程。

当用户在触摸传感器180K上进行触摸操作时，相应的硬件中断被发送至内核层，内核层将触摸操作加工成原始输入事件，原始输入事件例如包括触摸坐标和触摸操作的时间戳等信息。原始输入事件被存储在内核层，应用程序框架层从内核层获取原始输入事件，识别出原始输入事件对应的控件，并通知该控件对应的应用程序(application，APP)。例如，上述触摸操作为单击操作，上述控件对应的APP为相机APP，相机APP被单击操作唤醒后，可以通过API调用内核层的摄像头驱动，通过摄像头驱动控制摄像头193进行拍摄。

目前，在录制AR视频时由于无法将虚拟内容和真实物体的视频很好的融合，尤其是在摄场景中需要用户与虚拟内容进行交互时，需要多次的重复拍摄，费时费力。

有鉴于此，本申请提供了一种AR视频的处理方法，通过在获取原始视频时获取原始视频对应的位姿信息；根据位姿信息与原始视频可以得到虚拟平面；在原始视频的图像帧中添加虚拟内容时，虚拟平面可以作为一个基准面，根据虚拟平面可以调整虚拟内容在原始视频中的位置，使得虚拟内容能够更好的融入到原始视频中，提高AR视频的视频质量。

下面以终端设备100为例，结合图3至图21对本申请提供的增强现实视频的处理方法进行详细描述。

图3是本申请的应用场景的示意图；如图3所示，本申请实施例提供的AR视频的处理方法可以应用于AR视频领域；可以获取原始视频通过AR视频处理可以得到目标视频；其中，原始视频可以是指用户拍摄的真实物体的视频，目标视频可以是指在原始视频中添加虚拟内容后得到的AR视频。

示例性地，本申请实施例提供的AR视频的处理方法也可以在应用程序(Application，APP)中运行从而执行AR视频编辑；比如，AR视频APP可以执行本申请的AR视频的处理方法。或者，本申请实施例提供的AR视频的处理方法也可以集成在终端设备的相机中；比如，在终端设备的相机的设置中可以选择AR视频模式，从而实现本申请实施例提供的AR视频的处理方法；下面分别对这两种实现方式进行详细描述。

实现方式一：通过应用程序实现本申请实施例的AR视频的处理方法。

如图4所示，图4是本申请实施例提供的AR视频的处理方法的示意性流程图；该处理方法200包括步骤S210至步骤S260，下面分别对这些步骤进行详细的描述。

步骤S210、运行AR视频APP。

例如，用户可以点击终端设备的显示界面中的AR视频APP；响应于用户的点击操作，终端设备可以运行AR视频APP；如图5所示，图5示出了终端设备的一种图形用户界面(graphical user interface，GUI)，该GUI可以为终端设备的桌面310。当终端设备检测到用户点击桌面310上的AR视频APP的图标320的操作后，可以运行AR视频APP，显示如图6所示的另一GUI；图6所示的显示界面330上可以包括拍摄取景框340，拍摄取景框340内可以实时显示预览图像；拍摄界面上还可以包括用于指示拍摄的控件350，以及其它拍摄控件。

在一个示例中，终端设备检测到用户点击显示界面上的AR视频APP的图标的操作，可以启动AR视频APP，显示AR视频APP的显示界面；在显示界面上可以包括拍摄取景框；例如，在录像模式下，拍摄取景框可以为部分屏幕，或者也可以为整个显示屏。在预览状态下，即可以是用户打开AR视频APP且未按下拍摄按钮之前，拍摄取景框内均可以实时显示预览图像。

还应理解，上述通过AR视频APP进行举例描述，本申请实施例对应用程序的名称不作任何限定。

步骤S220、获取原始视频与位姿信息。

例如，如图7所示终端设备检测到用户点击拍摄的控件350的操作，开始录制拍摄取景框中显示的图像。

应理解，用户用于指示拍摄的行为可以包括按下拍摄按钮，也可以包括用户设备通过语音指示终端设备进行拍摄行为，或者，还可以包括用户其它的指示终端设备进行拍摄行为。上述为举例说明，并不对本申请作任何限定。

示例性地，位姿信息可以用于表示终端设备的摄像头在获取原始视频时的位姿；位姿信息可以包括姿态信息与位置信息。

例如，终端设备可以通过如图1所示的陀螺仪传感器180B获取每帧图像对应的位姿信息。

步骤S230、保存位姿信息与虚拟平面的信息。

其中，保存的位姿信息可以是指原始视频中每个图像帧对应的位姿信息。

示例性地，根据原始视频中任意一个图像帧的位姿信息可以对该图像帧进行特征点提取，并通过计算得到稀疏点云；根据稀疏点云通过算法拟合可以生成虚拟平面；在真实物体的视频中添加虚拟内容时，可以根据虚拟平面对虚拟内容的放置位置进行调整。

在本申请的实施例中，保存位姿信息与虚拟平面的信息可以使得在原始视频录制结束后，根据原始视频的位姿信息与虚拟平面的信息在原始视频中添加虚拟内容生成一个新的AR视频；由于保存了位姿信息与虚拟平面的信息，用户可以对原始视频进行多次不同的编辑，分别生成包括不同虚拟内容的AR视频。

在一个示例中，在本申请的AR视频的处理方法中可以将获取的三维姿态信息通过为四元数进行表示，从而能够避免通过三个参数表示姿态所产生歧义。

其中，四元数可以是指由实数加上三个虚数单位i、j、k组成；比如，四元数都可以是1、i、j和k的线性组合，即四元数一般可表示为a+bi+cj+dk，其中a、b、c、d 均表示实数；i、j、k可以表示旋转；其中，i旋转可以表示X轴与Y轴相交平面中X轴正向向Y轴正向的旋转，j旋转可以表示Z轴与X轴相交平面中Z轴正向向X轴正向的旋转，k旋转可以表示Y轴与Z轴相交平面中Y轴正向向Z轴正向的旋转。

示例性地，在终端设备接收到用户指示拍摄的指令；比如，用户在终端设备上点击视频录制时，终端设备可以启动位姿计算的初始化工作；在未成功初始化前位姿可以表示为(位置x/y/z，旋转四元数)，即可以表示为(0,0,0,0,0,0,0)，虚拟平面的信息为(数量0)；初始化成功时，指定图像帧(初始化起始帧)位姿表示为(0,0,0,0,0,0,0)，虚拟平面的信息表示为(数量x，平面编号0，平面0点数n,点0的位置X1,Y1,Z1,…,点n的位置Xn,Yn,Zn)。

其中，数量x表示虚拟平面的总数量，即视频中包括的图像帧的总数；平面编号0可以用于表示多个虚拟平面中的第一个虚拟平面；平面0点数n可以用于表示第一个虚拟平面中包括顶点的数量为n；点0的位置X1,Y1,Z1用于表示第一个虚拟平面中包括顶点0的位置信息；点n的位置Xn,Yn,Zn用于表示第一个虚拟平面中包括顶点n的位置信息。

应理解，虚拟平面的信息可以包括改虚拟平面中包括的所有顶点的位置信息。

例如，在视频录制过程中，获取的当前图像帧对应的位姿信息可以表示为(X,Y,Z,q0,q1,q2,q3)，虚拟平面的信息可以表示为(数量x,平面编号A,平面A点数n,点0的位置X1,Y1,Z1,…,点q的位置Xq,Yq,Zq)。

其中，x,y,z可以分别表示获取当前图像帧的摄像头在x轴、y轴以及z轴的坐标；q0,q1,q2,q3表示旋转四元数；比如，可以表示为俯仰角、方位角、旋转角以及欧拉角；数量x表示平面的总数量；平面编号A可以用于表示当前图像帧对应的虚拟平面的标识；平面A点数n用于表示当前图像帧对应的虚拟平面中包括顶点的数量为n；点0的位置X1,Y1,Z1可以用于表示当前图像帧对应的虚拟平面中包括顶点0的位置信息；点n的位置Xn,Yn,Zn用于表示当前图像帧对应的虚拟平面包括的顶点n的位置信息。

在一个示例中，可以获取原始视频中的一个图像帧；根据该图像帧的位姿信息可以对该图像帧进行特征点提取，并通过计算得到稀疏点云；根据稀疏点云信息可以拟合生成虚拟平面；在对视频添加虚拟内容时，可以根据虚拟平面对视频中添加的虚拟内容的所在位置进行调整。

例如，在用户点击屏幕/手势操作放置虚拟内容时，用户的操作与生成的虚拟平面可以产生碰撞，确定虚拟内容的放置位置。

在本申请的实施例中，在获取位姿信息与虚拟平面的信息后，终端设备可以保存位姿信息与虚拟平面的信息。

在一个示例中，自定义信息包括上述位姿信息与虚拟平面的信息，终端设备可以将自定义信息保存为独立保存为独立的二进制文件(binary,bin)。

例如，可以将原始视频与原始视频对应的自定义信息保存在相同的目录下。

例如，可以将原始视频对应的自定义信息与原始视频的命名相同保存在终端设备中。

例如，可以通过一个图像帧的帧号作为标识，将原始视频对应的自定义信息保存在终端设备中。

示例性地，可以根据以下数据格式将原始视频中每个图像帧对应的自定义信息保存为独立的bin文件：

帧号：Frame num:unsigned int32；

位姿信息：(数据1，数据2，数据3，数据4，数据5，数据6，数据7)；其中，数据1～数据7可以是float格式的数据；

虚拟平面的信息：(num:unsigned int32；planeNum0:unsigned int32；planeNumPoint:unsigned int32；point0(float,float,float)…pointN(float,float,float)…planeNumN…)；

例如，在对原始视频进行编辑时，可以同时加载原始视频和上述bin文件；根据帧号对原始视频中的图像帧与该图像帧对应的自定义信息进行同步对齐。

在一个示例中，自定义信息可以包括上述位姿信息与虚拟平面的信息，终端设备可以将自定义信息保存到原始视频对应视频码流中的补充增强信息中。

例如，可以将以下信息进行视频压缩编码的时候存入到h.264/h.265的SEI信息中：

位姿信息：(float,float,float,float,float,float,float)；

虚拟平面的信息：(num:unsigned int32；planeNum0:unsigned int32；planeNumPoint:unsigned int32；point0(float,float,float)…pointN(float,float,float)…planeNumN…)。

将自定义信息存入视频压缩编码的SEI信息的情况下，在执行步骤S250在进行编辑视频解码时，可以按照上述格式进行自定义信息的解码。

在本申请的实施例中，为了减少保存上述位姿信息与虚拟平面的信息所占用终端设备的存储空间，可以采用以下的至少一种方式进行对自定义信息进行压缩处理：

根据当前图像帧与前一图像帧的差保存位姿信息；或者，虚拟平面的平面编号可以采用无符号字符(unsigned char)方式保存；或者，对于虚拟平面中顶点的描述，水平面可以保留一个点的Z轴信息删除其他点的Z轴信息，垂直面可以保留一个点的Y轴信息删除其他点的Y轴信息；或者，顶点的位置描述可以采用float16；或者，保存虚拟平面的信息时可以只保存当前视野范围内的平面。

在本申请的实施例中，通过AR视频APP获取原始视频一方面是为了在录制视频时能够生成以及保存原始视频的位姿信息与虚拟平面的信息；另一方面，在原始视频录制结束后，可以对原始视频中每个图像帧进行编辑；比如，添加虚拟内容。

步骤S240、原始视频录制结束。

例如，如图8所示终端设备检测到用户再次点击拍摄的控件350的操作，结束本次视频的录制；比如，本次录制视频为20秒。

步骤S250、打开虚拟平面的可视化界面，对原始视频进行编辑。

应理解，在对原始视频中的任意一个图像帧进行编辑时，终端设备可以调用保存的该图像帧对应的自定义信息；即调用该图像帧的位姿信息与平面信息。

例如，提取原始视频中第8秒的任意一个图像帧，如图9所示显示界面330还可以包括编辑选项360；在终端设备检测到用户点击编辑选项360后，终端设备可以显示编辑模式的界面，如图10所示；终端设备检测到用户点击编辑模式界面上用于指示AR内容选择361后，显示如图11所示的显示界面；在图11的显示界面中还包括显示平面选项362，终端设备检测到用户可以点击显示平面选项362的操作，在显示界面中显示生成的虚拟平面363，参见图12；在本申请的实施例中，终端设备的显示界面上可以向用户提供用于放置虚拟内容的可视化平面；例如，在用户添加虚拟内容的过程中，在显示界面上可以显示虚拟平面363；在用户点击屏幕/手势操作放置虚拟内容时，用户的操作与虚拟平面363产生碰撞，从而确定虚拟内容的放置位置，如图12所示。

应理解，在对虚拟内容进行编辑比如调整虚拟内容的位置时，可以在界面中显示虚拟平面363；在完成编辑后，虚拟平面363并不会出现在AR视频中；虚拟平面363可以作为一个参考平面，用于用户确定虚拟内容在视频中的添加位置。

步骤S260、生成包括虚拟内容的AR视频。

示例性地，用户可以对原始视频中的每一个图像帧进行编辑；比如，可以在每一个图像帧中添加虚拟内容，对每一个图像帧中的虚拟内容的位置信息进行调整；从而生成带虚拟内容的AR视频。

在一个示例中，用户可以播放原始视频，用户点击暂停键可以提取当前图像帧并对当前图像帧进行编辑，即在当前图像帧中添加虚拟内容；当用户再次点击播放按钮时，当前图像帧编辑完成。

实现方式二：将本申请实施例的AR视频的处理方法集成在终端设备的相机的模式中。

如图13所示，图13是本申请实施例提供的AR视频的处理方法的示意性流程图；该处理方法400包括步骤S410至步骤S470，下面分别对这些步骤进行详细的描述。

步骤S410、运行终端设备的相机。

例如，终端设备检查到用户点击相机的操作；响应于用户的点击操作，终端设备可以运行相机。

图14示出了终端设备的一种GUI，该GUI可以为终端设备的桌面510；当终端设备检测到用户点击桌面510上的相机的图标520的操作后，可以运行相机显示如图15所示的另一GUI，该GUI可以是相机的显示界面530；该显示界面530上可以包括拍摄取景框540、指示拍摄的控件550，以及其它拍摄控件，其中，拍摄取景框540内可以实时显示预览图像。

步骤S420、选择AR拍摄模式。

例如，终端设备可以是检测到用户指示AR拍摄模式的操作。其中，AR拍摄模式可以是指在可以对原始视频进行处理添加虚拟内容的拍摄模式。

如图16所示，拍摄界面上还包括设置560，在终端设备检测到用户点击设置560后，终端设备显示设置模式界面，如图17所示；终端设备检测到用户点击设置模式界面上用于指示AR视频561后，终端设备进入AR拍摄模式。

步骤S430、获取原始视频与位姿信息。

例如，如图17所示终端设备检测到用户点击拍摄的控件550的操作，开始录制拍摄取景框中显示的图像。

应理解，用户用于指示拍摄的行为可以包括按下拍摄按钮，也可以包括用户设备通过语音指示终端设备进行拍摄的行为，或者，还可以包括用户其它的指示终端设备进行拍摄行为；上述为举例说明，并不对本申请作任何限定。

步骤S440、保存位姿信息与虚拟平面的信息。

示例性地，根据原始视频中任意一个图像帧的位姿信息可以对该图像帧进行特征点提取，并通过计算得到稀疏点云；根据稀疏点云通过算法拟合可以生成虚拟平面；在真实场景中添加虚拟内容时，可以根据虚拟平面对虚拟内容的放置位置进行调整。

其中，四元数可以是指由实数加上三个虚数单位i、j、k组成；比如，四元数都可以是1、i、j和k的线性组合，即四元数一般可表示为a+bi+cj+dk，其中a、b、c、d均表示实数；i、j、k可以表示旋转；其中，i旋转可以表示X轴与Y轴相交平面中X轴正向向Y轴正向的旋转，j旋转可以表示Z轴与X轴相交平面中Z轴正向向X轴正向的旋转，k旋转可以表示Y轴与Z轴相交平面中Y轴正向向Z轴正向的旋转。

示例性地，在终端设备接收到用户指示拍摄的指令；比如，用户在终端设备上点击视频录制时，终端设备可以启动位姿计算的初始化工作；在未成功初始化前位姿可以表示为(位置x/y/z，旋转四元数)，即可以表示为(0,0,0,0,0,0,0)，虚拟平面的信息为(数量0)；初始化成功时，指定图像帧(初始化起始帧)位姿表示为(0,0,0,0,0,0,0)，虚拟平面的信息表示为(数量x，平面编号0,平面0点数n,点0的位置X1,Y1,Z1,…,点n的位置Xn,Yn,Zn)。

其中，x,y,z可以分别表示获取当前图像帧的摄像头在x轴、y轴以及z轴的坐标； q0,q1,q2,q3表示旋转四元数；比如，可以表示为俯仰角、方位角、旋转角以及欧拉角；数量x表示平面的总数量；平面编号A可以用于表示当前图像帧对应的虚拟平面的标识；平面A点数n用于表示当前图像帧对应的虚拟平面中包括顶点的数量为n；点0的位置X1,Y1,Z1可以用于表示当前图像帧对应的虚拟平面中包括顶点0的位置信息；点n的位置Xn,Yn,Zn用于表示当前图像帧对应的虚拟平面包括的顶点n的位置信息。

帧号：Frame num:unsigned int32；

位姿信息：(float,float,float,float,float,float,float)；

步骤S450、原始视频录制结束。

例如，如图19所示终端设备检测到用户再次点击拍摄的控件550的操作，结束本次视频的录制；比如，本次录制视频为20秒。

步骤S460、对原始视频进行编辑。

例如，通过虚拟平面的可视化界面对原始视频进行编辑；可以提取原始视频中第8秒的任意一帧图像，如图20所示显示界面还可以包括显示平面选项570，终端设备检测到用户点击显示平面选项570的操作，在显示界面中可以显示生成的虚拟平面562，如图21所示。

例如，在用户添加虚拟内容的过程中，在显示界面上可以显示虚拟平面562；在用户点击屏幕/手势操作放置虚拟内容时，用户的操作与虚拟平面562产生碰撞，从而确定虚拟内容的放置位置。

应理解，在对虚拟内容进行编辑比如调整虚拟内容的位置时，可以在界面中显示虚拟平面562；在完成编辑后，虚拟平面562并不会出现在AR视频中；虚拟平面562用于用户确定虚拟内容在视频中的添加位置。

步骤S470、生成包括虚拟内容的AR视频。

应理解，上述举例说明是为了帮助本领域技术人员理解本申请实施例，而非要将本申请实施例限于所例示的具体数值或具体场景。本领域技术人员根据所给出的上述举例说明，显然可以进行各种等价的修改或变化，这样的修改或变化也落入本申请实施例的范围内。

上文结合图1至图21，详细描述了本申请实施例的AR视频的处理方法，下面将结合图22和图23，详细描述本申请的装置实施例。应理解，本申请实施例中的装置可以执行前述本申请实施例的AR视频的处理方法，即以下各种产品的具体工作过程，可以参考前述方法实施例中的对应过程。

图22是本申请提供的一种增强现实视频的处理装置的结构示意图。该处理装置600包括获取单元610和处理单元620。

其中，获取单元610获取原始视频与位姿信息，所述原始视频用于表示真实物体的视频，所述位姿信息用于表示终端设备获取所述原始视频时的位姿；处理单元620用于根据所述原始视频与所述位姿信息生成虚拟平面，所述虚拟平面用于确定在所述原始视频中添加虚拟内容的位置信息；根据所述虚拟平面在所述原始视频中添加所述虚拟内容生成AR视频。

可选地，作为一个实施例，所述位姿信息包括三维姿态信息，所述处理单元620还用于：

通过四元数表示所述三维姿态信息。

可选地，作为一个实施例，所述处理单元620具体用于：

根据所述特征点生成所述虚拟平面。

可选地，作为一个实施例，所述处理单元620还用于：

保存所述位姿信息与所述虚拟平面的信息。

可选地，作为一个实施例，所述处理单元620具体用于：

可选地，作为一个实施例，所述处理单元620还用于：

可选地，作为一个实施例，所述处理单元620具体用于：

可选地，作为一个实施例，所述虚拟平面包括第一虚拟平面，所述第一虚拟平面是指第一图像帧对应的虚拟平面，所述第一图像帧是所述原始视频中的任意一个图像帧；

需要说明的是，上述处理装置600以功能单元的形式体现。这里的术语“单元”可以通过软件和/或硬件形式实现，对此不作具体限定。

例如，“单元”可以是实现上述功能的软件程序、硬件电路或二者结合。所述硬件电路可能包括应用特有集成电路(application specific integrated circuit，ASIC)、电子电路、用于执行一个或多个软件或固件程序的处理器(例如共享处理器、专有处理器或组处理器等)和存储器、合并逻辑电路和/或其它支持所描述的功能的合适组件。

因此，在本申请的实施例中描述的各示例的单元，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

图23示出了本申请提供的一种电子设备的结构示意图。图23中的虚线表示该单元或该模块为可选的。电子设备700可用于实现上述方法实施例中描述的处理方法。

电子设备700包括一个或多个处理器701，该一个或多个处理器701可支持电子设备700实现方法实施例中的方法。处理器701可以是通用处理器或者专用处理器。例如，处理器701可以是中央处理器(central processing unit，CPU)、数字信号处理器(digital signal processor，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现场可编程门阵列(field programmable gate array，FPGA)或者其它可编程逻辑器件，如分立门、晶体管逻辑器件或分立硬件组件。

处理器701可以用于对电子设备700进行控制，执行软件程序，处理软件程序的数据。电子设备700还可以包括通信单元705，用以实现信号的输入(接收)和输出(发送)。

例如，电子设备700可以是芯片，通信单元705可以是该芯片的输入和/或输出电路，或者，通信单元705可以是该芯片的通信接口，该芯片可以作为终端设备或其它电子设备的组成部分。

又例如，电子设备700可以是终端设备，通信单元705可以是该终端设备的收发器，或者，通信单元705可以是该终端设备的收发电路。

电子设备700中可以包括一个或多个存储器702，其上存有程序704，程序704可被处理器701运行，生成指令703，使得处理器701根据指令703执行上述方法实施例中描述的AR视频的处理方法。

可选地，存储器702中还可以存储有数据。可选地，处理器701还可以读取存储器702中存储的数据，该数据可以与程序704存储在相同的存储地址，该数据也可以与程序704存储在不同的存储地址。

处理器701和存储器702可以单独设置，也可以集成在一起；例如，集成在终端设备的系统级芯片(system on chip，SOC)上。

示例性地，存储器702可以用于存储本申请实施例中提供的AR视频的处理方法的相关程序704，处理器701可以用于在AR视频编辑时调用存储器702中存储的AR视频的处理方法的相关程序704，执行本申请实施例的AR视频的处理；例如，获取原始视频与位姿信息，所述原始视频用于表示真实物体的视频，所述位姿信息用于表示终端设备获取所述原始视频时的位姿；处理单元用于根据所述原始视频与所述位姿信息生成虚拟平面，所述虚拟平面用于确定在所述原始视频中添加虚拟内容的位置信息；根据所述虚拟平面在所述原始视频中添加所述虚拟内容生成AR视频。

本申请还提供了一种计算机程序产品，该计算机程序产品被处理器701执行时实现本申请中任一方法实施例所述的处理方法。

该计算机程序产品可以存储在存储器702中，例如是程序704，程序704经过预处理、编译、汇编和链接等处理过程最终被转换为能够被处理器701执行的可执行目标文件。

本申请还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被计算机执行时实现本申请中任一方法实施例所述的方法。该计算机程序可以是高级语言程序，也可以是可执行目标程序。

可选地，该计算机可读存储介质例如是存储器702。存储器702可以是易失性存储器或非易失性存储器，或者，存储器702可以同时包括易失性存储器和非易失性存储器。其中，非易失性存储器可以是只读存储器(read-only memory，ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(dynamic RAM，DRAM)、同步动态随机存取存储器(synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM，DR RAM)。

本领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和设备的具体工作过程以及产生的技术效果，可以参考前述方法实施例中对应的过程和技术效果，在此不再赘述。

在本申请所提供的几个实施例中，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的方法实施例的一些特征可以忽略，或不执行。以上所描述的装置实施例仅仅是示意性的，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，多个单元或组件可以结合或者可以集成到另一个系统。另外，各单元之间的耦合或各个组件之间的耦合可以是直接耦合，也可以是间接耦合，上述耦合包括电的、机械的或其它形式的连接。

应理解，在本申请的各种实施例中，各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请的实施例的实施过程构成任何限定。

另外，本文中术语“系统”和“网络”在本文中常被可互换使用。本文中的术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

总之，以上所述仅为本申请技术方案的较佳实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

一种增强现实AR视频的处理方法，其特征在于，包括：

获取原始视频与位姿信息，所述原始视频用于表示真实物体的视频，所述位姿信息用于表示终端设备获取所述原始视频时的位姿；

根据所述原始视频与所述位姿信息生成虚拟平面，所述虚拟平面用于确定在所述原始视频中添加虚拟内容的位置；

根据所述虚拟平面在所述原始视频中添加所述虚拟内容生成AR视频。
如权利要求1所述的处理方法，其特征在于，所述位姿信息包括三维姿态信息，还包括：

通过四元数表示所述三维姿态信息。
如权利要求1或2所述的处理方法，其特征在于，所述根据所述原始视频与所述位姿信息生成虚拟平面的信息，包括：

根据所述原始视频中图像帧的位姿信息提取所述图像帧的特征点；

根据所述特征点生成所述虚拟平面。
如权利要求1至3中任一项所述的处理方法，其特征在于，还包括：

保存所述位姿信息与所述虚拟平面的信息。
如权利要求4所述的处理方法，其特征在于，所述保存所述位姿信息与所述虚拟平面的信息，包括：

将所述位姿信息与所述虚拟平面的信息保存在二进制文件中。
如权利要求4所述的处理方法，其特征在于，所述保存所述位姿信息与所述虚拟平面的信息，包括：

将所述位姿信息与所述虚拟平面的信息保存在所述原始视频对应的补充增强信息中。
如权利要求4至6中任一项所述的处理方法，其特征在于，还包括：

对保存的所述位姿信息与所述虚拟平面的信息进行压缩处理。
如权利要求1至7中任一项所述的处理方法，其特征在于，所述根据所述虚拟平面的信息在所述原始视频中添加所述虚拟内容生成AR视频，包括：

在所述原始视频录制完成后，根据所述虚拟平面在所述原始视频中添加所述虚拟内容生成所述AR视频。
如权利要求4至8中任一项所述的处理方法，其特征在于，所述虚拟平面包括第一虚拟平面，所述第一虚拟平面是指第一图像帧对应的虚拟平面，所述第一图像帧是所述原始视频中的任意一个图像帧；

所述第一虚拟平面的信息包括图像帧的总数、所述第一虚拟平面的标识、所述第一虚拟平面包括的顶点数量以及所述第一虚拟平面包括的每一个顶点的位置信息，所述总数是指所述原始视频包括图像帧的总数。
一种电子设备，其特征在于，所述电子设备包括：一个或多个处理器、存储器和显示屏；所述存储器与所述一个或多个处理器耦合，所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，所述一个或多个处理器调用所述计算机指令以使得所述电子设备执行如权利要求1至9中任一项所述的处理方法。
一种芯片系统，其特征在于，所述芯片系统应用于电子设备，所述芯片系统包括一个或多个处理器，所述处理器用于调用计算机指令以使得所述电子设备执行如权利要求1至9中任一项所述的处理方法。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储了计算机程序，当所述计算机程序被处理器执行时，使得处理器执行权利要求1至9中任一项所述的处理方法。
一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序代码，当所述计算机程序代码被处理器执行时，使得处理器执行权利要求1至9中任一项所述的处理方法。