WO2018018957A1

WO2018018957A1 - 三维模型的实时控制方法和系统

Info

Publication number: WO2018018957A1
Application number: PCT/CN2017/081376
Authority: WO
Inventors: 伏英娜; 金宇林
Original assignee: 迈吉客科技（北京）有限公司
Priority date: 2016-07-29
Filing date: 2017-04-21
Publication date: 2018-02-01
Also published as: CN106251396B; US10930074B2; US20190156574A1; CN106251396A

Abstract

一种三维模型的实时控制方法，用于解决在移动互联网环境中，无法通过有限资源形成对现实对象的实时反馈，以控制三维模型的动作形成流畅视频的技术问题。其中，所述方法包括：获取现实对象的实时视频（100）；标识实时视频图像中现实对象的动作（200）；根据标识动作的变化，形成相应3D模型的动作控制指令（300），同步化音频数据和动作控制指令，并输出（400）。

Description

三维模型的实时控制方法和系统

技术领域

本发明实施例涉及一种立体模型的控制方法和系统，特别是涉及一种三维模型的实时控制方法和系统。

背景技术

在视听设备以及移动通信设备上进行视频播放或视频交互已十分普遍，视频中的交流对象往往是人的真实形象。随着通信、传感器和建模领域的技术进步，三维人物模型实时交互在全世界范围内正在兴起。已有技术方案可以实现以虚拟的卡通形象实时替换人的真实形象，形成替代真人形象的卡通形象间实时交互，并且较好的完成喜怒哭笑等情感的表情表达。例如，将真人直播讲故事变为卡通人物讲故事，将真人老师讲物理变为著名科学家讲物理。两个陌生人可以通过分别扮演不同的角色来进行视屏交互，例如白雪公主可以与白马王子视频聊天。

要实现以上的目标，我们需要用现实世界中真人的肢体，尤其是面部表情和动作，来控制虚拟世界中三维模型的表情和动作，使两者实现联动。

然而，作为一个在全球范围内很流行和很新颖的领域，现有技术方案中在基于真人肢体动作，特别是真人表情和动作的三维模型控制，在移动互联网领域的应用存在明显的技术缺陷。

例如在一种现有技术中，针对头部以及面部的现实对象，需要借助专业设备的高清摄像头，并保持与人脸位置相对固定，结合脸上贴点的方式来实现高精度的表情控制，摄像机相对于脸的位置是固定的保持垂直。本技术方案通过固定摄像头与立案的相对位置，避免了人在转头时摄像机相对于脸部的运动。而在利用移动终端的摄像头摄取人脸时，转头的结果会造成摄像头与面部正面不再垂直，导致面部动作表情无法准确采集。

另一种现有技术中，美国Stanford大学计算机系通过使用RGBD摄像头，借助摄像头提供的深度信息来实现类似功能。但是现在的移动设备大都配备了RGB摄像头，没有深度信息使得该算法无法推广到更广阔的移动互联网场景中。

另一种现有技术中，FaceRig和Adobe的技术是在PC计算机上基于RGB摄像头实现了类似功能。然而，由于移动设备计算能力较弱，不容易做出实时性的效果。

由于可见，现有技术的基于真人表情和动作的三维模型控制方案或者依赖于特殊的视频采集设备，或者依赖于计算机的强大计算能力，都没有能够实现只借助于普通移动设备(手机)实现对三维模型的实时控制。

发明内容

有鉴于此，本发明实施例提供了一种三维模型的实时控制方法，用于解决在移动互联网环境中，无法通过终端的有限运算资源形成对现实对象的实时反馈，以控制三维模型的动作形成流畅视频的技术问题。

同时，本发明实施例还提供了一种三维模型的实时控制系统，用于解决受移动互联网环境、移动终端处理能力和摄像头性能等硬件资源制约，现实对象的三维模型的动作无法实现实时动作控制形成流畅视频的技术问题。

本发明的三维模型的实时控制方法，包括：

获取现实对象的实时视频；

标识实时视频图像中现实对象的动作；

根据标识动作的变化，形成相应3D模型的动作控制指令。

本发明的三维模型的实时控制方法，包括：

获取现实对象中头部及面部的实时视频；

利用视频中帧图像的低分辨率副本定位人脸区域；

通过将人脸区域在相邻帧图像的相应副本上直接应用；

在帧图像或相应副本的人脸区域标识人脸关键点；

利用图像中的正视2D人脸的位置固定的关键点建立头部朝向基准图案、人脸基准平面和人脸基准平面的人脸基准图案，与正视的3D头部模型形成坐标映射关系；

通过测量相邻帧图像的头部转动时头部朝向基准图案相对人脸基准图案的变形，获得头部旋转数据；

结合相邻帧2D人脸关键点的位置变化和头部旋转数据，形成头面部动作表情的控制指令。

本发明的三维模型的实时控制系统，包括：

视频获取装置，用于获取现实对象的实时视频；

图像标识装置，用于标识实时视频图像中现实对象的动作；

动作指令生成装置，用于根据标识动作的变化，形成相应3D模型的动作控制指令。

本发明的三维模型的实时控制方法，通过在获取的实时视频中识别现实对象，以及现实对象的动作变化，形成用于控制3D模型的动作控制指令。动作控制指令作为具有具体含义的抽象数据，数据量小，实时传输的数据带宽要求低，可以保证在移动互联网环境中的传输实时性。本发明的三维模型的实时控制方法，避免了3D模型实时渲染形成的大量视频数据在移动互联网环境中传输的时延，以及形成的VR视频播放的卡顿，使得3D模型的渲染生成过程与控制生成过程可以在移动互联网环境的两端完成，一端利用有限硬件资源的移动终端完成对现实对象动作变化的识别捕捉和指令形成，另一端利用移动互联网环境完成必要3D模型和场景的下载、装载和激活，3D模型通过实时传输的控制指令完成现实对象的相应动作，形成相应的模型渲染和场景渲染得VR直播。

本发明的三维模型的实时控制系统可以在移动互联网环境中资源有限的移动终端中部署，利用有限的终端处理和摄像头能力集中处理现实对象的动作变化过程，高效获取现实对象的准确动作状态，形成基于动作变化的控制指令。控制指令可以对任意匹配的3D模型进行准确的实时动作控制，完成现实对象的实时动作在3D模型的真实表达。使得3D模型动作控制不需要融合在现实对象的视频中，对现实对象的动作仿真不再局限于移动互联网环境的有限带宽。

附图说明

图1a为本发明的三维模型的实时控制方法一实施例的处理流程图。

图1b为本发明的三维模型的实时控制方法一实施例的处理流程图。

图2为本发明的三维模型的实时控制方法一实施例的动作识别的流程图。

图3为本发明的三维模型的实时控制方法一实施例的面部表情识别的一个实施例流程图。

图4为本发明的三维模型的实时控制方法一实施例的面部表情识别的另一个实施例流程图。

图5为本发明的三维模型的实时控制方法一实施例的面部表情识别的另一个实施例流程图。

图6为本发明的三维模型的实时控制方法一实施例的头部动作识别与面部表情识别的一个实施例流程图。

图7为本发明的三维模型的实时控制方法一实施例的控制指令和音频数据同步化的流程图。

图8为本发明的三维模型的实时控制方法一实施例的控制效果示意图。

图9为本发明的三维模型的实时控制系统一实施例的结构示意图。

图10为本发明的三维模型的实时控制系统一实施例的图像识别的结构示意图。

图11为本发明的三维模型的实时控制系统一实施例的单帧对象及关键点识别的结构示意图。

图12为本发明的三维模型的实时控制系统一实施例的连续帧中对象识别的结构示意图。

图13为本发明的三维模型的实时控制系统一实施例的头部及面部动作识别的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图纸中的步骤编号仅用于作为该步骤的附图标记，不表示执行顺序。

图1a为本发明一实施例的三维模型的实时控制方法流程图，该方法为内容生产端独立完成的控制过程。如图1a所示，该方法包括：

步骤100：获取现实对象的实时视频；

上述的现实对象包括完整的人体，或人体的肢体、头部或面部，相应的包括肢体动作、头部动作及面部动作(表情)。

步骤200：标识实时视频图像中现实对象的动作；

上述标识包括对现实对象的识别，对识别的现实对象的定位，对识别的现实对象动作的定位，对识别的现实对象动作变化的定位。例如包括对肢体或头部动作的捕捉(标记)和分析(识别)，或对面部表情的捕捉(标记)和分析(识别)。

步骤300：根据标识动作的变化，形成相应3D模型的动作控制指令。

上述(标识动作)的变化，是对识别的现实对象动作起始和终止的定位状态的变化，该变化是可测量的或可以量化的。

上述相应3D模型，是形成现实对象的VR对象的3D模型，例如肢体模型、头部模型或面部模型。

本发明的三维模型的实时控制方法，通过在获取的实时视频中识别现实对象，以及现实对象的动作变化，形成用于控制3D模型的动作控制指令。动作控制指令作为具有具体含义的抽象数据，数据量小，实时传输的数据带宽要求低，可以保证在移动互联网环境中的传输实时性。

以上步骤由内容生产端独立完成，形成的动作控制指令作为一种数据可以缓冲或保存。在内容消费端，只需要调用获取的相应3D模型，并根据接收到的动作控制指令控制相应3D模型，就可以令3D模型完成相应动作。

在本发明另一实施例的三维模型的实时控制方法中，当系统还存在音频数据需要同时传输时，如图1a所示，还可以进一步包括：

步骤400：同步化音频数据和动作控制指令，并输出。

上述的同步化是指单位时间内的动作控制指令和音频数据赋予相同的参照点，或参考标签，或时间戳，使得动作控制指令的执行和音频数据输出可以合成，形成同步。

上述步骤是为了将伴随现实对象动作的音频数据与连续的动作控制指令在时间轴上同步，以克服数据处理过程中处理时延造成的数据不同步现象。

图1b所示为本发明一实施例的三维模型的实时控制方法，该方法为内容消费端利用动作控制指令控制3D模型的方法，如图1b所示，该方法包括：

步骤500：调用获取的相应3D模型；

步骤600：根据接收到的动作控制指令控制相应3D模型完成动作。

当接收到的信息除了包含动作控制指令外还包括伴音的音频数据时，为了将动作控制指令形成的3D模型动作与伴音的音频数据准确匹配，步骤600可以包括：

接收音频数据以及动作控制指令的步骤；

缓存音频数据和动作控制指令的步骤；

音频数据和动作控制指令配合的步骤；

相应3D模型完成动作过程中同步播放音频的步骤。

上述的缓存，是为了克服移动互联网的多路径传输造成的数据延时。

本实施例的三维模型的实时控制方法，在内容生产端可以利用移动终端设备捕捉连续的实时视频，对其中主要的现实对象进行对象识别，对现实对象的动作进行定位，对动作变化进行标记，将动作变化的标记数据形成连续的动作控制指令。

进而在内容消费端通过动作控制指令完成对相应3D模型的动作控制。内容生产端形成的动作控制指令的数据量与3D模型渲染后形成的VR视频数据量相较，大大降低，更有利于在移动互联网环境中实时传输，保证VR直播的质量。

内容生产端和内容消费端可以是在本地网络的不同设备或多媒体终端上部署，也可以是在移动互联网两端的不同设备或多媒体终端上部署，一个内容生产端可以对应多个部署在本地网络或移动互联网远端的内容消费端。

图2所示为本发明一实施例的三维模型的实时控制方法中的动作识别的流程图。如图2所示，图1a所示的步骤200包括以下步骤：

步骤201：根据预置对象识别策略在实时视频的图像中识别现实对象；

步骤202：根据预置关键点识别策略识别图像中现实对象的关键点；

上述关键点的位置(坐标)变化可以反映特定对象的细微动作变化，例如头部的(关键点)五官的位置变化可以反映头部的动作，肢体的(关键点)关节的位置变化可以反映躯干的动作，面部的(关键点)嘴角、眉梢和嘴型的位置变化可以反映面部表情。

步骤203：形成关键点的平面坐标空间和相应3D模型的立体坐标空间；

步骤204：测量连续图像中关键点在平面坐标空间的坐标变化，记录连续图像中关键点在立体坐标空间中的相应坐标变化。

本实施例的三维模型的实时控制方法，利用对象识别策略，识别图像中的特定对象，如肢体、头部或面部，利用关键点识别策略，识别图像中特定对象的与动作变化联系紧密的关键点。通过建立图像中2D现实对象的平面坐标系和相应3D模型的立体坐标系的初始映射关系，可以将在2D图像中反应的关键点位置变化数据转换为相应3D模型的关键点位置变化数据。

这种情况下，将关键点的坐标变化形成现实对象相应3D模型的动作控制指令。

具体而言，可以将连续图像中的相同现实对象的关键点的坐标差异作为相应3D模型的动作控制指令包括的参数，形成对现实对象动作的描述。这样，利用抽象的窄带的坐标数据形成控制指令，控制3D模型形成相应动作，进而形成渲染的宽带VR视频，使得VR直播不再受传输带宽限制，直接在内容消费端实时形成。

图3为本发明的三维模型的实时控制方法一实施例的面部表情识别的一个实施例流程图。当图像中的现实对象为面部，在一帧图像中识别面部和面部关键点的方法如图3所示，包括：

步骤221：获取实时视频的一帧原始图像M0；

步骤222：根据递减的抽样率，生成分辨率相应递减的一组原始图像副本：M1，M2...Mm-i，…Mm-1，Mm；

步骤223：以原始图像副本个数m为循环次数，从分辨率最低的原始图像副本Mm开始，顺序在原始图像副本中(利用人脸对象识别策略)进行人脸区域标定；

步骤224：判断在一个原始图像副本中是否完成人脸区域标；若没完成则转回执行步骤223，继续下一个原始图像副本的人脸区域标定；若完成则执行225；当m个原始图像副本全部循环结束，依然没完成人脸区域标定，则执行步骤227；

步骤225：将相应的原始图像副本Mm-i标记，并形成人脸区域标定数据；

步骤226：利用人脸区域标定数据结合相应的抽样率，在后续的原始图像副本(Mm-i...M2，M1)和原始图像M0完成人脸区域标定；

步骤227：采用原始图像M0完成人脸区域标定；

通过以上步骤完成人脸区域标定。

以上完成人脸区域标定步骤进一步优化处理，可以根据递减的抽样率，生成分辨率相应递减的一组原始图像副本，从中获取完成人脸区域标定的(最)低分辨率的原始图像副本，形成人脸区域标定数据。

人脸关键点标定的步骤包括：

步骤228：在原始图像副本Mm-i，或/和后续的原始图像副本(Mm-i...M2，M1)，或/和原始图像M0标定的人脸区域，进行人脸关键点标定，形成存在精度差别的人脸关键点标定数据。在本发明一实施例中，可以利用人脸关键点识别策略进行人脸关键点标定。

本实施例的三维模型的实时控制方法中，作为普通模式，采用抽样衰减原始图像的方法获得一组逐渐降低分辨率的原始图像副本，使得最消耗处理资源造成处理时延的人脸区域识别策略尽可能在精度较低的图像副本中快速完成，节约处理资源；再将获得的人脸区域标定数据与各原始图像副本的抽样率结合，快速完成在更高分辨率的原始图像副本和原始图像上的人脸区域标定，获得高精度的人脸区域标定以及相应的人脸区域标定数据，同时将不消耗处理资源的关键点标定在每个人脸区域标定的原始图像副本和原始图像上标定，获得更高精度的人脸关键点标定数据。这样，利用本实施例的三维模型的实时控制方法，可以获得针对不同精度要求的人脸区域标定和人脸关键点标定。

原始图像副本的人脸区域标定数据是坐标数据，相应的抽样率作为原始图像的缩放比例，可以快捷准确的将一个原始图像副本的人脸区域标定数据映射至不同的原始图像副本或原始图像的相应位置，完成人脸区域标定。

本领域技术人员可以理解，作为快速模式，在步骤224完成原始图像副本Mm-i的人脸区域标定后，直接进行步骤228中的针对原始图像副本Mm-i标定的人脸区域进行人脸关键点标定，形成人脸关键点标定数据，可以获得对一帧图像的人脸区域标定和人脸关键点标定的最优处理速率。

原始图像M0的人脸区域标定数据和人脸关键点标定数据有助于提高人脸关键点标定的稳定性，应用于高精度模式。另一方面，由于iPhone这样的移动设备的摄像头摄取的每帧与每帧之间存在细微的差别，通过计算平均值的方法抽样后的图像更加稳定，每帧与每帧之间的差别更小，原始图像副本Mm-i的人脸区域标定数据和人脸关键点标定数据有助于提高算法的稳定性，应用于稳定性模式。

本实施例的三维模型的实时控制方法中，人脸区域标定和人脸关键点标定数据处理速度非常高，可以满足每秒25帧(25fps)的实时性要求，能够在移动设备上实现动作或表情的实时识别。通过对主播直播场景，视频通话场景，快速运动场景等应用场景的分析，利用现实对象在视频图像中的面积、区域、位移等特点，实现了高实时性人脸(面部)检测与对齐的处理方法，可以在处理速度和处理精度之间进行平衡。在保证一定精度的前提下，本实施例的三维模型的实时控制方法显著提高了连续人脸区域识别的处理速度。

图4为本发明的三维模型的实时控制方法一实施例的面部表情识别的另一个实施例流程图。其示出了在一帧图像中识别面部和面部关键点的方法的基础上，在连续帧图像中识别面部关键点的方法流程图。如图4所示，该方法包括：

步骤231：根据实时视频一帧图像的人脸区域标定，获取相应的原始图像副本Mm-i和原始图像M0的人脸区域标定数据；该步骤可以采取步骤221至步骤226的执行过程；

步骤232：获取后续连续时长的帧图像的原始图像M0和相应的原始图像副本 Mm-i；然后分别执行步骤233和步骤234；

步骤233：利用原始图像副本Mm-i的人脸区域标定数据完成后续连续时长的帧图像的原始图像副本Mm-i的人脸区域标定；

步骤234：利用原始图像M0的人脸区域标定数据，完成后续连续时长的帧图像的原始图像M0的人脸区域标定；

本领域技术人员可以理解，步骤233和步骤234之间并没有先后执行顺序的差异，也可以先执行步骤234再执行步骤233，或者两者同步执行。

步骤235：在后续各帧的原始图像副本Mm-i和原始图像M0标定的人脸区域，进行人脸关键点标定，形成存在精度差别的人脸关键点标定数据。

本实施例的三维模型的实时控制方法，针对实时视频中现实对象在特定场景中不会产生较大位移的特点，将前一帧中的人脸区域标定数据应用于后续有限数量图像的人脸区域标定，在保证人脸区域标定稳定度的情况下进一步提高了人脸区域的标定识别速度，进一步降低了人脸区域标定过程对处理资源的消耗。

图5为本发明的三维模型的实时控制方法一实施例的面部表情识别的另一个实施例流程图。其示出了在一帧图像中识别面部关键点的方法的基础上，另一种在连续帧图像中识别面部和面部关键点的方法流程图，如图5所示，该方法包括：

步骤241：根据实时视频一帧图像的人脸区域标定，获取相应的原始图像副本Mm-i或原始图像M0的人脸区域标定数据；该步骤可以采取步骤221至步骤226的执行过程；

步骤242：在标定的人脸区域，标定人脸关键点；

步骤243：利用人脸关键点轮廓形成包围盒范围；

步骤244：利用扩大的包围盒范围作为下一帧的人脸区域，在包围盒范围内进行人脸关键点标定；

步骤245：判断人脸关键点标定是否成功；若成功则执行步骤246，不成功则转向步骤241；

步骤246：利用人脸关键点轮廓形成更新的包围盒范围，并比例放大更新的包围盒范围；并转向执行步骤244以获得下一帧的数据。

本实施例的三维模型的实时控制方法，以前一帧中的确定的人脸关键点的轮廓(包围盒)作为下一帧图像的人脸区域标定数据，即以前一帧的结果来作为下一帧的初值，来对下一帧进行预测。当人脸没有做剧烈运动时，此算法运行速度很高，对处理资源的消耗极小。当人脸正在做剧烈运动时，例如主播在跳舞和快速甩头，此算法运行速度与普通算法基本相同。

利用包围盒的适当扩大，扩大人脸区域标定范围，使得在人脸运动不剧烈时，我们避免了每一帧都进行耗时的人脸区域检测，从而提高了算法整体运行的实时性。如果本实施例的人脸关键点标定不能得到正确的结果，说明人脸可能在此两帧之间产生了剧烈运动，那么我们重新进行一次人脸检测，得到新的人脸所在位置，再重新做关键点标定。

在视频图像中面部表情捕获包括面部区域识别标定过程、面部关键点位置(如五官)标定，以及对于视频中的图像通用处理过程包括例如图像复制、二次抽样形成图像、图像缩放、相似图像间的坐标映射建立、不同图像间相同或相似局部的对齐和平移等基于坐标的二维或三维的角度变换和扭曲，本实施例中不做详细描述。

图6为本发明的三维模型的实时控制方法一实施例的头部动作识别与面部表情识别的一个实施例流程图。基于头部和面部的整体性，其示出了当图像中的现实对象为头部，在一帧图像中识别面部关键点的方法的基础上，在连续帧图像中识别头部动作的方法流程图。如图6所示，该方法包括：

步骤251：根据实时视频图像中正视人脸的人脸区域标定，标定正视人脸的2D关键点，利用其中具有相对固定位置的关键点，形成头部朝向基准图案；跳转到步骤254；

步骤253：根据正视人脸的具有相对固定位置的2D关键点，形成人脸基准平面和人脸基准平面的人脸基准图案；执行步骤254；

步骤254：实时视频的相邻帧图像中被标定关键点的2D人脸在人脸基准平面上形成透视投影，根据步骤251获得的2D人脸上头部朝向基准图案相对步骤253获得的人脸基准平面的人脸基准图案的变形，获得头部的欧拉旋转数据或四元数旋转数据。

上述的欧拉旋转数据包括头部相对于x、y、z三个轴向的转动角度。

通过欧拉旋转数据可以转换为四元数旋转数据，以获得更高的旋转状态处理效率，和旋转过程中的平滑差值。

本实施例的三维模型的实时控制方法，利用图像中的正视2D(平面的)人脸关键点中保持固定间距的关键点(例如双眼和鼻尖)形成头部朝向的基准图案(例如以双眼和鼻尖为顶点的多边形图案)，同时形成人脸基准平面和人脸基准图案，并利用正视2D(平面的)人脸关键点与正视3D(立体的)人脸关键点的投影重合性，建立2D人脸关键点坐标与3D人脸关键点坐标的映射关系。实现了通过2D人脸关键点坐标升维3D人脸关键点坐标并形成映射关系，使得2D人脸关键点的位置变化可以在3D人脸模型(包括一体的头部模型)中准确反映。

通过比较头部转动时的头部朝向基准图案相对人脸基准平面的人脸基准图案中线条的的变形角度和变形长度，以获得头部相对于x、y、z三个轴向的转动角度用于欧拉旋转或四元数旋转。

这意味着人脸关键点的坐标变化即体现了脸部表情变化时的关键点的坐标变化，也体现了在不同坐标系空间内头部转动的坐标变化。经过本实施例的三维模型的实时控制方法，这种坐标变化可以成为3D模型的控制基础。

如图6所示，当现实对象为头部时，形成头部和面部的相应3D模型的动作控制指令，包括：

步骤242：在标定的人脸区域，标定人脸关键点；

步骤252：根据实时视频图像中正视人脸的2D关键点，形成的相应3D头部模型的正视三角网格，形成人脸的2D关键点与3D头部模型的3D关键点间的坐标映射；

步骤311：根据获得的人脸关键点、转动角度和坐标映射，利用步骤254获取的实时视频连续帧图像的2D人脸的各关键点的坐标变化和头部欧拉旋转数据或四元数旋转数据，形成帧间的人脸关键点移动参数和头部的转动方向；

步骤312：将关键点移动参数和头部的转动方向封装成相应帧的3D模型头部和面部的控制指令。

在本发明一实施例中，对于头部转动对面部表情的变形影响，首先先将2D关键点升维成3D关键点，再降维回2D从而生成2D控制点的控制方法，这样可以有效的解决头部存在转角的条件下，对精细表情的识别和表达。当现实对象正视摄像头无转头的情况下，可以认为转角是0度，再统一采用相同的方法进行处理。

对于在现有技术中体现的三维(3D)建模过程，利用建模工具根据通用的建模规则的建模过程，包括三维模型的建立、三维场景的建立、三维模型的传输、存储和下载，以及三维模型在三维场景中的调配，不做详细描述。对于卡通形象的三维模型，通常包括躯干和头部的3D模型，头部的3D模型还包括面部的3D模型，这些3D模型形成可分别存储、传输或控制。对于在三维场景中的三维模型表面形成体现凹凸纹理的精细的3D网格，通过调整对应3D网格顶点的空间坐标改变三维模型的局部形状的过程，不做详细描述。

图7为本发明的三维模型的实时控制方法一实施例的控制指令和音频数据同步化的流程图。如图7所示，图1a所示的步骤400可以包括包括：

步骤421：对3D模型头部的控制指令以帧为单位增加时间标签(或时间戳)；

步骤422：根据控制指令的时间标签，为音频数据增加相应的时间标签(或时间戳)；

步骤423：将控制指令和音频数据信号适配传输链路，实时输出。

在本发明一实施例中，受移动互联网传输机制影响，使得在内容消费端不能准确同步接收控制指令和音频数据，这种情况下，可以利用适当的缓冲区降低对信号同步接收的要求，使得通过相同的时间标签恢复控制指令和音频数据的同步输出，以保证了VR直播的音视频同步质量。

图8为本发明的三维模型的实时控制方法一实施例的控制效果示意图图。如图8所示，现实对象以人物面部为例，通过识别视频连续图像中的人脸区域和人脸区域内的关键点位置变化，根据变化量形成面部动作表情的变化参数，进而形成面部表情的连续动作控制指令，在对应的卡通3D模型的面部3D模型上，对相应关键点进行动作控制，形成实时的卡通面部3D模型的面部表情。

概括的，在本发明一实施例中，一种三维模型的实时控制方法中人脸区域标识的基本步骤主要包括：

通过视频中帧图像的低分辨率副本定位人脸区域，以提高人脸区域标识速度；

通过将人脸区域在相邻帧图像的相应副本上直接应用，进一步提高人脸区域标识速度；

在帧图像或相应副本的人脸区域标识人脸关键点，以适用不同应用模式。

概括的在本发明一实施例中，一种三维模型的实时控制方法中头部转动标识的基本步骤主要包括：

利用帧或相应副本图像中的正视2D人脸的位置固定的关键点建立头部朝向基准图案、人脸基准平面和人脸基准平面的人脸基准图案，以便于将正视的3D头部模型面部的关键点与2D人脸关键点形成坐标映射关系；

通过测量相邻帧图像的头部转动时头部朝向基准图案相对人脸基准图案的变形，获得头部转动角度；

结合相邻帧2D人脸关键点的位置变化和头部转动角度变化，形成头面部动作表情的控制指令。

图9为本发明的三维模型的实时控制系统一实施例的结构示意图。如图9所示，包括视频获取装置10、图像标识装置20和动作指令生成装置30，其中：

视频获取装置10，用于获取现实对象的实时视频；

图像标识装置20，用于标识实时视频图像中现实对象的动作；

动作指令生成装置30，用于根据标识动作的变化，形成相应3D模型的动作控制指令。

本发明一实施例的三维模型的实时控制系统，还包括同步化输出装置40，用于同步化音频数据和动作控制指令，并输出。

本发明一实施例的三维模型的实时控制系统，还包括激活装置80和播放装置90，其中：

激活装置80，用于调用获取的相应3D模型；

播放装置90，用于根据接收到的动作控制指令控制相应3D模型完成动作。

本发明一实施例的三维模型的实时控制系统，播放装置90还包括接收装置91、缓存装置92、同步装置93和音频播放装置94，其中：

接收装置91，用于接收音频数据和动作控制指令；

缓存装置92，用于缓存音频数据和动作控制指令；

同步装置93，用于音频数据和动作控制指令配合；

播放装置94，用于控制相应3D模型完成动作并同步播放音频。

图10为本发明的三维模型的实时控制系统一实施例的图像识别的结构示意图。如图10所示，图像标识装置20包括对象识别装置21、对象关键点识别装置22、对象位置坐标建立装置23和对象动作变化记录装置24，其中：

对象识别装置21，用于根据预置对象识别策略在实时视频的图像中识别现实对象；

对象关键点识别装置22，用于根据预置关键点识别策略识别图像中现实对象的关键点；

对象位置坐标建立装置23，用于形成关键点的平面坐标空间和相应3D模型的立体坐标空间；

对象动作变化记录装置24，用于测量连续图像中关键点在平面坐标空间的坐标变化，记录连续图像中关键点在立体坐标空间中的相应坐标变化。

如图10所示，动作指令生成装置30包括动作转换装置31，用于将关键点的坐标变化形成现实对象相应3D模型的动作控制指令。

图11为本发明的三维模型的实时控制系统一实施例的单帧对象及关键点识别的结构示意图。如图11所示，包括原始图像捕捉装置41、图像副本生成装置42、副本循环标定装置43、区域标定判断装置44、副本区域标定装置45、普遍区域标定装置46、通用区域标定装置47和关键点标定装置48，其中：

原始图像捕捉装置41，用于获取实时视频的一帧原始图像M0；

图像副本生成装置42，用于根据递减的抽样率，生成分辨率相应递减的一组原始图像副本：M1，M2...Mm-i，…Mm-1，Mm；

副本循环标定装置43，用于以原始图像副本个数m为循环次数，从分辨率最低的原始图像副本Mm开始，顺序在原始图像副本中(利用人脸对象识别策略)进行人脸区域标定；

区域标定判断装置44，用于判断在一个原始图像副本中是否完成人脸区域标定，没完成则调用副本循环标定装置43，继续下一个循环标定；完成则调用副本区域标定装置45；当循环结束没完成人脸区域标定则调用通用区域标定装置47；

副本区域标定装置45，用于将相应的原始图像副本Mm-i标记，并形成人脸区域标定数据；

普遍区域标定装置46，用于利用人脸区域标定数据结合相应的抽样率，在后续的原始图像副本(Mm-i...M2，M1)和原始图像M0完成人脸区域标定；

通用区域标定装置47，用于当循环结束没完成人脸区域标定，采用原始图像M0完成人脸区域标定；

关键点标定装置48，用于在原始图像副本Mm-i、后续的原始图像副本(Mm-i...M2，M1)、原始图像M0标定的人脸区域，(利用人脸关键点识别策略)进行人脸关键点标定，形成存在精度差别的人脸关键点标定数据。

图12为本发明的三维模型的实时控制系统一实施例的连续帧中对象识别的结构示意图。如图12所示，包括人脸区域标定装置51、连续帧处理装置52、连续帧区域标定装置53、副本区域标定判断装置54和原始区域标定装置55，其中：

人脸区域标定装置51，用于(通过普遍区域标定装置46)获取相应的原始图像副本Mm-i和原始图像M0的人脸区域标定数据；

连续帧处理装置52，用于获取后续连续时长的帧图像的原始图像M0和相应的原始图像副本Mm-i；

连续帧区域标定装置53，用于利用原始图像M0的人脸区域标定数据，完成后续连续时长的帧图像的原始图像M0的人脸区域标定；

副本区域标定判断装置54，用于利用原始图像副本Mm-i的人脸区域标定数据完成后续连续时长的帧图像的原始图像副本Mm-i的人脸区域标定；

原始区域标定装置55，用于在后续各帧的原始图像副本Mm-i和/或原始图像M0标定的人脸区域，进行人脸关键点标定，形成存在精度差别的人脸关键点标定数据。

如图12所示，还包括人脸关键点标定装置62、关键点轮廓生成装置63、相邻帧关键点标定装置64、相邻帧标定判断装置65和关键点轮廓更新装置66，其中：

人脸关键点标定装置62，用于在获取相应的原始图像副本Mm-i或原始图像M0标定的人脸区域标定人脸关键点；

关键点轮廓生成装置63，用于利用人脸关键点轮廓形成包围盒范围；

相邻帧关键点标定装置64，用于利用扩大的包围盒范围作为下一帧的人脸区域，在扩大的包围盒范围内进行人脸关键点标定；

相邻帧标定判断装置65，用于判断人脸关键点标定是否成功，成功则调用关键点轮廓更新装置66，不成功则调用人脸关键点标定装置62；

关键点轮廓更新装置66，用于利用人脸关键点轮廓形成更新的包围盒范围，并比例放大更新的包围盒范围后调用相邻帧关键点标定装置64。

图13为本发明的三维模型的实时控制系统一实施例的头部及面部动作识别的结构示意图。如图13所示，包括头部朝向基准生成装置71、坐标映射生成装置72、面部基准生成装置73和转动角度测量装置74，其中：

头部朝向基准生成装置71，用于根据实时视频图像中正视人脸的人脸区域标定，标定正视人脸的2D关键点，利用其中具有相对固定位置的关键点，形成头部朝向基准图案；

坐标映射生成装置72，用于根据实时视频图像中正视人脸的2D关键点，形成的相应3D头部模型的正视三角网格，形成人脸的2D关键点与3D头部模型的3D关键点间的坐标映射；

面部基准生成装置73，用于根据正视人脸的具有相对固定位置的2D关键点，形成人脸基准平面和人脸基准平面的人脸基准图案；

转动角度测量装置74，用于实时视频的相邻帧图像中被标定关键点的2D人脸在人脸基准平面上形成透视投影，根据2D人脸上头部朝向基准图案相对人脸基准平面的人脸基准图案的变形，获得头部的欧拉旋转数据或四元数旋转数据。

如图13所示，本发明一实施例的三维模型的实时控制系统，对于视频连续帧的头面部对象动作形成控制指令的结构包括头面部动作参数生成装置32和控制指令生成装置33，其中：

头面部动作参数生成装置32，用于利用实时视频连续帧图像的2D人脸的各关键点的坐标变化和头部欧拉旋转数据或四元数旋转数据，形成帧间的人脸关键点移动参数和头部的转动方向；

控制指令生成装置33，用于将关键点移动参数和头部的转动方向封装成相应帧的3D模型头部和面部的控制指令。

如图13所示，本发明一实施例的三维模型的实时控制系统，对于视频连续帧的头面部对象动作控制指令与音频数据的同步化(同步化输出装置40)的结构包括音频数据同步装置35、控制指令同步装置36和实时输出装置37，其中：

音频数据同步装置35，用于根据控制指令的时间标签，为音频数据增加相应的时间标签；

控制指令同步装置36，用于对3D模型头部的控制指令以帧为单位增加时间标签；

实时输出装置37，用于将控制指令和音频数据信号适配传输链路，实时输出。

所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换等，均应包含在本发明的保护范围之内。

Claims

三维模型的实时控制方法，包括：

获取现实对象的实时视频；

标识实时视频图像中现实对象的动作；

根据标识动作的变化，形成相应3D模型的动作控制指令。
如权利要求1所述的三维模型的实时控制方法，所述标识实时视频图像中现实对象的动作包括：

根据预置对象识别策略在实时视频的图像中识别现实对象；

根据预置关键点识别策略识别图像中现实对象的关键点；

形成关键点的平面坐标空间和相应3D模型的立体坐标空间；

测量连续图像中关键点在平面坐标空间的坐标变化，记录连续图像中关键点在立体坐标空间中的相应坐标变化。
如权利要求2所述的三维模型的实时控制方法，所述根据标识动作的变化，形成相应3D模型的动作控制指令，包括：

将关键点的坐标变化形成现实对象相应3D模型的动作控制指令。
如权利要求2所述的三维模型的实时控制方法，所述根据预置对象识别策略在实时视频的图像中识别现实对象包括：

获取实时视频的一帧原始图像M0；

根据递减的抽样率，生成分辨率相应递减的一组原始图像副本，从中获取完成人脸区域标定的低分辨率的原始图像副本，形成人脸区域标定数据。
如权利要求4所述的三维模型的实时控制方法，所述根据预置对象识别策略在实时视频的图像中识别现实对象还进一步包括：

当在所有原始图像副本中没完成人脸区域标定，采用原始图像M0完成人脸区域标定。
如权利要求4所述的三维模型的实时控制方法，所述根据预置关键点识别策略识别图像中现实对象的关键点包括：

在原始图像副本Mm-i，或/和后续的原始图像副本(Mm-i...M2，M1)，或/和原始图像M0标定的人脸区域，进行人脸关键点标定，形成存在精度差别的人脸关键点标定数据。
如权利要求1所述的三维模型的实时控制方法，所述现实对象包括肢体、头部或面部，所述标识包括对肢体或头部动作的捕捉和分析，或对面部表情的捕捉和分析。
如权利要求2所述的三维模型的实时控制方法，所述根据预置对象识别策略在实时视频的图像中识别现实对象包括：

根据实时视频一帧图像的人脸区域标定，获取相应的原始图像副本Mm-i和原始图像M0的人脸区域标定数据；

获取后续连续时长的帧图像的原始图像M0和相应的原始图像副本Mm-i；

利用原始图像副本Mm-i的人脸区域标定数据完成后续连续时长的帧图像的原始图像副本Mm-i的人脸区域标定；或者，

利用原始图像M0的人脸区域标定数据，完成后续连续时长的帧图像的原始图像M0的人脸区域标定。
如权利要求2所述的三维模型的实时控制方法，所述根据预置对象识别策略在实时视频的图像中识别现实对象包括：

根据实时视频一帧图像的人脸区域标定，获取相应的原始图像副本Mm-i或原始图像M0的人脸区域标定数据；

在标定的人脸区域，标定人脸关键点；

利用人脸关键点轮廓形成包围盒范围；

利用扩大的包围盒范围作为下一帧的人脸区域，在包围盒范围内进行人脸关键点标定。
如权利要求9所述的三维模型的实时控制方法，所述根据预置对象识别策略在实时视频的图像中识别现实对象，还进一步包括：

当判断人脸关键点标定成功时，利用人脸关键点轮廓形成更新的包围盒范围并比例放大；

当判断人脸关键点标定成功时，获取相应的原始图像副本Mm-i或原始图像M0的人脸区域标定数据。
如权利要求2所述的三维模型的实时控制方法，所述形成关键点的平面坐标空间和相应3D模型的立体坐标空间包括：

根据实时视频图像中正视人脸的人脸区域标定，标定正视人脸的2D关键点，利用其中具有相对固定位置的关键点，形成头部朝向基准图案；

根据实时视频图像中正视人脸的2D关键点，形成的相应3D头部模型的正视三角网格，形成人脸的2D关键点与3D头部模型的3D关键点间的坐标映射；

根据正视人脸的具有相对固定位置的2D关键点，形成人脸基准平面和人脸基准平面的人脸基准图案；

实时视频的相邻帧图像中被标定关键点的2D人脸在人脸基准平面上形成透视投影，根据2D人脸上头部朝向基准图案相对人脸基准平面的人脸基准图案的变形，获得头部的欧拉旋转数据或四元数旋转数据。
如权利要求11所述的三维模型的实时控制方法，所述测量连续图像中关键点在平面坐标空间的坐标变化，记录连续图像中关键点在立体坐标空间中的相应坐标变化包括：

利用实时视频连续帧图像的2D人脸的各关键点的坐标变化和头部欧拉旋转数据或四元数旋转数据，形成帧间的人脸关键点移动参数和头部的转动方向。
如权利要求1至12任一所述的三维模型的实时控制方法，还包括：同步化音频数据和动作控制指令并输出。
如权利要求13所述的三维模型的实时控制方法，所述同步化音频数据和动作控制指令并输出，包括：

对3D模型头部的控制指令以帧为单位增加时间标签；

根据控制指令的时间标签，为音频数据增加相应的时间标签；

将控制指令和音频数据信号适配传输链路，实时输出。
如权利要求1至12任一所述的三维模型的实时控制方法，还包括：

调用获取的相应3D模型；

根据接收到的动作控制指令控制相应3D模型完成动作。
三维模型的实时控制方法，包括：

获取现实对象中头部及面部的实时视频；

利用视频中帧图像的低分辨率副本定位人脸区域；

通过将人脸区域在相邻帧图像的相应副本上直接应用；

在帧图像或相应副本的人脸区域标识人脸关键点；

利用图像中的正视2D人脸的位置固定的关键点建立头部朝向基准图案、人脸基准平面和人脸基准平面的人脸基准图案，与正视的3D头部模型形成坐标映射关系；

通过测量相邻帧图像的头部转动时头部朝向基准图案相对人脸基准图案的变形，获得头部旋转数据；

结合相邻帧2D人脸关键点的位置变化和头部旋转数据，形成头面部动作表情的控制指令。
三维模型的实时控制系统，包括：

视频获取装置(10)，用于获取现实对象的实时视频；

图像标识装置(20)，用于标识实时视频图像中现实对象的动作；

动作指令生成装置(30)，用于根据标识动作的变化，形成相应3D模型的动作控制指令。
如权利要求17所述的三维模型的实时控制系统，所述图像标识装置(20)包括对象识别装置(21)、对象关键点识别装置(22)、对象位置坐标建立装置(23)和对象动作变化记录装置(24)，其中：

对象识别装置(21)，用于根据预置对象识别策略在实时视频的图像中识别现实对象；

对象关键点识别装置(22)，用于根据预置关键点识别策略识别图像中现实对象的关键点；

对象位置坐标建立装置(23)，用于形成关键点的平面坐标空间和相应3D模型的立体坐标空间；

对象动作变化记录装置(24)，用于测量连续图像中关键点在平面坐标空间的坐标变化，记录连续图像中关键点在立体坐标空间中的相应坐标变化。
如权利要求17所述的三维模型的实时控制系统，所述动作指令生成装置(30)包括动作转换装置(31)，用于将关键点的坐标变化形成现实对象相应3D模型的动作控制指令。
如权利要求18所述的三维模型的实时控制系统，所述对象识别装置(21)包括原始图像捕捉装置(41)、图像副本生成装置(42)和副本循环标定装置(43)，其中：

原始图像捕捉装置(41)，用于获取实时视频的一帧原始图像M0；

图像副本生成装置(42)，用于根据递减的抽样率，生成分辨率相应递减的一组原始图像副本：M1，M2...Mm-i，…Mm-1，Mm；

副本循环标定装置(43)，用于以原始图像副本个数m为循环次数，从分辨率最低的原始图像副本Mm开始，顺序在原始图像副本中进行人脸区域标定，形成人脸区域标定数据。
如权利要求18所述的三维模型的实时控制系统，所述对象关键点识别装置(22)包括关键点标定装置(48)，用于在原始图像副本Mm-i、后续的原始图像副本(Mm-i...M2，M1)、原始图像M0标定的人脸区域，进行人脸关键点标定，形成存在精度差别的人脸关键点标定数据。
如权利要求18所述的三维模型的实时控制系统，所述对象识别装置(21)包括人脸区域标定装置(51)、连续帧处理装置(52)、连续帧区域标定装置(53)、副本区域标定判断装置(54)和原始区域标定装置(55)，其中：

人脸区域标定装置(51)，用于获取相应的原始图像副本Mm-i和原始图像M0的人脸区域标定数据；

连续帧处理装置(52)，用于获取后续连续时长的帧图像的原始图像M0和相应的原始图像副本Mm-i；

连续帧区域标定装置(53)，用于利用原始图像M0的人脸区域标定数据，完成后续连续时长的帧图像的原始图像M0的人脸区域标定；

副本区域标定判断装置(54)，用于利用原始图像副本Mm-i的人脸区域标定数据完成后续连续时长的帧图像的原始图像副本Mm-i的人脸区域标定；

原始区域标定装置(55)，用于在后续各帧的原始图像副本Mm-i和/或原始图像M0标定的人脸区域，进行人脸关键点标定，形成存在精度差别的人脸关键点标定数据。
如权利要求18所述的三维模型的实时控制系统，所述对象识别装置(21)包括人脸关键点标定装置(62)、关键点轮廓生成装置(63)、相邻帧关键点标定装置(64)、相邻帧标定判断装置(65)和关键点轮廓更新装置(66)，其中：

人脸关键点标定装置(62)，用于在获取相应的原始图像副本Mm-i或原始图像M0标定的人脸区域标定人脸关键点；

关键点轮廓生成装置(63)，用于利用人脸关键点轮廓形成包围盒范围；

相邻帧关键点标定装置(64)，用于利用扩大的包围盒范围作为下一帧的人脸区域，在包围盒范围内进行人脸关键点标定；

相邻帧标定判断装置(65)，用于判断人脸关键点标定是否成功，成功则调用关键点轮廓更新装置(66)，不成功则调用人脸关键点标定装置(62)；

关键点轮廓更新装置(66)，用于利用人脸关键点轮廓形成更新的包围盒范围，并比例放大更新的包围盒范围后调用相邻帧关键点标定装置(64)。
如权利要求18所述的三维模型的实时控制系统，所述对象位置坐标建立装置(23)包括头部朝向基准生成装置(71)、坐标映射生成装置(72)、面部基准生成装置(73)和转动角度测量装置(74)，其中：

头部朝向基准生成装置(71)，用于根据实时视频图像中正视人脸的人脸区域标定，标定正视人脸的2D关键点，利用其中具有相对固定位置的关键点，形成头部朝向基准图案；

坐标映射生成装置(72)，用于根据实时视频图像中正视人脸的2D关键点，形成的相应3D头部模型的正视三角网格，形成人脸的2D关键点与3D头部模型的3D关键点间的坐标映射；

面部基准生成装置(73)，用于根据正视人脸的具有相对固定位置的2D关键点，形成人脸基准平面和人脸基准平面的人脸基准图案；

转动角度测量装置(74)，用于实时视频的相邻帧图像中被标定关键点的2D人脸在人脸基准平面上形成透视投影，根据2D人脸上头部朝向基准图案相对人脸基准平面的人脸基准图案的变形，获得头部欧拉旋转数据或四元数旋转数据。
如权利要求18所述的三维模型的实时控制系统，所述对象位置坐标建立装置(23)包括头面部动作参数生成装置(32)和控制指令生成装置(33)，其中：

头面部动作参数生成装置(32)，用于利用实时视频连续帧图像的2D人脸的各关键点的坐标变化和头部欧拉旋转数据或四元数旋转数据，形成帧间的人脸关键点移动参数和头部的转动方向；

控制指令生成装置(33)，用于将关键点移动参数和头部的转动方向封装成相应帧的3D模型头部和面部的控制指令。
如权利要求16至25任一所述的三维模型的实时控制系统，还包括同步化输出装置(40)，用于同步化音频数据和动作控制指令，并输出。
如权利要求26所述的三维模型的实时控制系统，所述同步化输出装置(40)包括音频数据同步装置(35)、控制指令同步装置(36)和实时输出装置(37)，其中：

音频数据同步装置(35)，用于根据控制指令的时间标签，为音频数据增加相应的时间标签；

控制指令同步装置(36)，用于对3D模型头部的控制指令以帧为单位增加时间标签；

实时输出装置(37)，用于将控制指令和音频数据信号适配传输链路，实时输出。
如权利要求17至27任一所述的三维模型的实时控制系统，还包括还包括激活装置(80)和播放装置(90)，其中：

激活装置(80)，用于调用获取的相应3D模型；

播放装置(90)，用于根据接收到的动作控制指令控制相应3D模型完成动作。