WO2019120032A1

WO2019120032A1 - 模型构建方法、拍照方法、装置、存储介质及终端

Info

Publication number: WO2019120032A1
Application number: PCT/CN2018/116800
Authority: WO
Inventors: 刘耀勇; 陈岩
Original assignee: Oppo广东移动通信有限公司
Priority date: 2017-12-21
Filing date: 2018-11-21
Publication date: 2019-06-27
Also published as: CN109951628A

Abstract

本申请实施例公开了一种模型构建方法、拍照方法、装置、存储介质及终端。该方法包括获取设定数量的人体姿态图片，对所述人体姿态图片中的目标对象进行标记，得到图片样本，其中，所述目标对象包括头部、四肢以及躯干中的至少一种；根据所述图片样本，采用设定的机器学习算法对预设的深度学习模型进行训练，得到姿态识别模型；发送所述姿态识别模型至移动终端。

Description

模型构建方法、拍照方法、装置、存储介质及终端

本申请要求在2017年12月21日提交中国专利局、申请号为201711392033.5的中国专利申请的优先权，该申请的全部内容通过引用结合在本申请中。

技术领域

本申请实施例涉及拍摄技术，例如涉及一种模型构建方法、拍照方法、装置、存储介质及终端。

背景技术

增强现实技术(Augmented Reality，AR)是一种将真实世界信息和虚拟世界信息“无缝”集成的新技术，可以使真实的环境和虚拟的物体实时地叠加到同一个画面或空间同时存在，并被人类感官所感知，从而达到超越现实的感官体验。

目前，AR技术被应用于医疗、文化、工业、娱乐和旅游等多个领域。例如，可以通过在照片中添加AR虚拟现实对象，丰富照片的显示效果。然而，相关图像识别技术存在缺陷，导致在照片中添加虚拟现实对象时，可能出现添加位置不准确的情况，从而影响照片的显示效果。

发明内容

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

本申请实施例提供一种模型构建方法、拍照方法、装置、存储介质及终端，可以准确地识别人体姿态。

第一方面，本申请实施例提供了一种模型构建方法，包括：获取设定数量的人体姿态图片，对所述人体姿态图片中的目标对象进行标记，得到图片样本，其中，所述目标对象包括头部、四肢以及躯干中的至少一种；根据所述图片样本，采用设定的机器学习算法对预设的深度学习模型进行训练，得到姿态识别模型；发送所述姿态识别模型至移动终端。

第二方面，本申请实施例还提供了一种拍照方法，包括：获取待拍摄对象的第一预览图像；通过预先配置的姿态识别模型识别所述第一预览图像中的人体姿态，其中，所述姿态识别模型为根据设定数量的图片样本训练的深度学习模型，所述图片样本根据包含目标对象的人体姿态图片确定；获取虚拟对象，其中，所述虚拟对象用于为所述待拍摄对象提供增强现实效果；根据所述人体姿态确定所述虚拟对象的添加位置，并在所述添加位置增加所述虚拟对象，形成第二预览图像；获取拍摄指令，响应所述拍摄指令得到所述第二预览图像对应的拍摄图片。

第三方面，本申请实施例还提供了一种模型构建装置，该模型构建装置包括：样本确定模块，设置为获取设定数量的人体姿态图片，对所述人体姿态图片中的目标对象进行标记，得到图片样本，其中，所述目标对象包括头部、四肢以及躯干中的至少一种；模型训练模块，设置为根据所述图片样本，采用设定的机器学习算法对预设的深度学习模型进行训练，得到姿态识别模型，所述图片样本根据包含目标对象的人体姿态图片确定；模型发送模块，设置为发送所述姿态识别模型至移动终端。

第四方面，本申请实施例还提供一种拍照装置，该拍照装置包括：图像获取模块，设置为获取待拍摄对象的第一预览图像；姿态识别模块，设置为通过预先配置的姿态识别模型识别所述第一预览图像中的人体姿态，其中，所述姿态识别模型为根据设定数量的图片样本训练的深度学习模型；对象获取模块，设置为获取虚拟对象，其中，所述虚拟对象用于为所述待拍摄对象提供增强现实效果；对象添加模块，设置为根据所述人体姿态确定所述虚拟对象的添加位置，并在所述添加位置增加所述虚拟对象，形成第二预览图像；拍摄模块，设置为获取拍摄指令，响应所述拍摄指令得到所述第二预览图像对应的拍摄图片。

第五方面，本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一方面所述的模型构建方法。

第六方面，本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第二方面所述的拍照方法。

第七方面，本申请实施例还提供一种终端，包括存储器，处理器及存储在存储器上并可在处理器运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面所述的模型构建方法。

第八方面，本申请实施例还提供另一种终端，包括存储器，处理器及存储在存储器上并可在处理器运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第二方面所述的拍照方法。

在阅读并理解了附图和详细描述后，可以明白其他方面。

附图说明

图1是本申请实施例提供的一种模型构建方法的流程图；

图2是本申请实施例提供的一种拍照方法的流程图；

图3是本申请实施例提供的一种根据人体姿态添加虚拟对象的示意图；

图4是本申请实施例提供的另一种拍照方法的流程图；

图5是本申请实施例提供的一种模型构建装置的结构框图；

图6是本申请实施例提供的一种服务器的结构框图；

图7是本申请实施例提供的一种拍照装置的结构框图；

图8是本申请实施例提供的一种移动终端的结构框图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本申请，而非对本申请的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本申请相关的部分而非全部结构。

在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理，但是其中的许多步骤可以被并行地、并发地或者同时实施。此外，各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

在人体姿态识别技术中，因为对于颜色、光照、遮挡等自然环境因素无法做到鲁棒，再加上人体姿态具有太多的自由度和观测角度，使得对图像或视频进行人体姿态估计是一项非常具有挑战性的工作。

相关技术提供采用人体姿态识别的方式通常是采用人体边缘、剪影轮廓及光流等信息。然而，这些特征对于噪声、部分遮挡及视角变化比较敏感，识别结果很容易受上述因素的影响，检测准确率受限。为了避免上述情况，本申请提出了一种模型构建方案，可以有效的改善人体姿态识别结果受遮挡及视角的影响的情况，提高了人体姿态识别的准确率。

图1为本申请实施例提供的一种模型构建方法的流程图，该方法可以由模型构建装置来执行，其中，该装置可由软件和硬件中的至少一种实现，一般可集成在终端中，该终端可以是服务器，如用于完成人体姿态模型创建、训练及优化等功能的服务器中。如图1所示，该方法包括步骤110至步骤130。

在步骤110中，获取设定数量的人体姿态图片，对所述人体姿态图片中的目标对象进行标记，得到图片样本。

其中，人体姿态图片为包含人物的图片，且该图片中人物通过头、四肢或躯干摆出某种姿势。目标对象包括头部、四肢以及躯干中的至少一种。

示例性的，通过网络爬虫从网络平台下载人体姿态图片，并将人体姿态图片进行分类。例如，按照人体姿态图片的来源将其分为运动类、影视类、表情包类等。在通过网络爬虫从网络平台图片库中获取到具有人物的网络图片后，对该网络图片中的人物的头部像素坐标、四肢像素坐标以及躯干像素坐标进行标记，得到第一样本图片。标记的方式可以是通过肤色识别算法粗略的确定出人物的头部像素坐标、四肢像素坐标，进而，根据头部像素坐标及四肢像素坐标确定躯干像素坐标。基于上述坐标突出显示头部轮廓、四肢轮廓及躯干轮廓，从而实现对头部像素坐标、四肢像素坐标及躯干像素坐标的标记。例如，可以采用虚线框分别标记头部像素坐标、四肢像素坐标及躯干像素坐标的方式进行标记。

在一实施例中，对头部轮廓、四肢轮廓及躯干轮廓进行间隔采样，将采样点作为标记点，以通过该标记点代表头部像素点、四肢像素点或躯干像素点，顺序连接该标记点实现对头部像素坐标、四肢像素坐标及躯干像素坐标的标记。其中，采样间隔可以根据实际需要自行设置。

将标记后的网络图片记为第一样本图片，将该第一样本图片存储于图片样本集。

在一实施例中，获取移动终端相册中的用户图片；对该用户图片中的人物头部像素坐标、四肢像素坐标以及躯干像素坐标进行标记，得到第二样本图片；将该第二样本图片存入图片样本集。由于服务器从移动终端相册中获取用户图片之前需要获取用户许可，因此，服务器在首次由移动终端相册获取用户图片时，以对话框的形式显示询问信息，以询问是否授予服务器访问相册的权限。获取用户的输入指示，若用户输入肯定信息，则赋予该服务器访问相册的权限。服务器获取了移动终端相册中的用户图片后，采用上述相似的方法确定出用户图片中人物的头部像素坐标、四肢像素坐标，进而，根据头部像素坐标及四肢像素坐标确定躯干像素坐标。基于上述坐标突出显示头部轮廓、四肢轮廓及躯干轮廓，从而实现对头部像素坐标、四肢像素坐标及躯干像素坐标的标记。

将标记后的用户图片记为第二样本图片，并将该第二样本图片存储于图片样本集，从而，将存储有第一样本图片及第二样本图片的图片样本集作为训练深度学习模型图的片样本。

在步骤120中，根据所述图片样本，采用设定的机器学习算法对预设的深度学习模型进行训练，得到姿态识别模型。

其中，深度学习模型可以为卷积神经网络模型，可以预先设置隐藏层的数目以及输入层、隐藏层和输出层各层的节点数，以及初始化卷积神经网络的第一参数，其中，第一参数包括各层的偏置值及边的权重，初步得到神经网络模型的框架。

设定的机器学习算法包括前向传播算法和后向传播算法。示例性的，利用所述图片样本集对预设的深度学习模型进行前向传播和后向传播两个阶段的训练；在所述后向传播训练计算得到的误差达到期望误差值时，训练结束，并得到姿态识别模型。具体可以是根据该图片样本，采用前向传播算法及后向传播算法训练该卷积神经网络模型，学习出神经网络模型的框架的第二参数，其中，第二参数是计算图片样本的实际输出与期望输出的偏差，根据该偏差采用后向传播算法计算得到的修正参数，并采用该第二参数更新第一参数。然后，计算模型误差，其中，模型误差可以根据图片样本的实际输出与期望输出的偏差确定，在所述模型误差达到期望误差值时，训练结束，得到姿态识别模型。

在步骤130中，发送所述姿态识别模型至移动终端。

获取移动终端发送的模型下载请求，根据该下载请求将该姿态识别模型移植至移动终端。需要说明的是，由于服务器与移动终端的运算能力存在较大差异，在将姿态识别模型移植到移动终端之前，还需要对姿态识别模型进行优化。示例性的，采用预设的优化策略对所述卷积神经网络模型进行优化，其中，对所述卷积神经网络模型的优化包括内部网络结构优化、卷积层的实现方式优化、池化层的实现方式优化中的至少一项。例如，增加残差块构建残差神经网络模型，或者调整残差块的结构。又如，对于卷积层的实现方式的优化可以是减少输出通道和输入通道的连接数量，即输出通道不再和所有输入通道有关，只和相邻的输入通道相关。又如，在卷积层的实现上增加基层，将卷积分为两个步骤：首先，输入的每一通道单独运算，在同样尺寸卷积核的作用下，每一通道得到中间计算结果，将中间计算结果的每一个通道称为一个基层；然后，将各个通道进行合并，得到卷积层的输出结果。又如，通过需要的图像压缩系数设计池化层中用于图像压缩的矩阵。

本实施例的技术方案，通过获取设定数量的人体姿态图片，并对该人体姿态图片中的目标对象进行标记，得到图片样本；并根据所述图片样本，采用设定的机器学习算法对预设的深度学习模型进行训练，得到姿态识别模型；发送该姿态识别模型至移动终端，以使移动终端通过该姿态识别模型识别摄像头拍摄的照片中的人体姿态。采用上述技术方案，以具有各种姿态的人体姿态图片作为训练样本，采用机器学习算法对深度学习模型进行训练，得到姿态识别模型，可以使该姿态识别模型具备识别人体姿态的功能。由于姿态识别模型是从大量图片样本学习用于识别姿态的有效特征(包括视角、遮挡等)的，这些图像样本包含不同拍摄视角、摄像机与人物的不同距离、以及人物自身的多种遮挡程度等等，因此采用姿态识别模型对图片中的人体姿态进行识别，对遮挡、视角变化具有良好的鲁棒性，避免相关图像识别技术存在的识别不准确或误识别等情况，提高了姿态识别准确率。

图2是本申请实施例提供的一种拍照方法的流程图。该方法可以由拍照装置来执行，其中，该装置可由软件和硬件中的至少一种实现，一般可集成在移动终端中，如具有摄像头的移动终端。如图2所示，该方法包括步骤201至步骤210。

在步骤210中，获取待拍摄对象的第一预览图像。

其中，第一预览图像可以包括用户在按下拍照按钮前，移动终端的拍摄界面中显示的摄像头所捕获的画面。本实施例中的第一预览图像可以是人物类图像。

在一实施例中，移动终端对第一预览图像的获取操作可以由移动终端的系统执行，或者由移动终端中含有拍摄功能的任意应用软件执行，获取第一预览图像的操作可以在用户的操作指示下由系统或应用软件执行。例如，用户可直接打开移动终端系统中的相机功能对人物进行拍照，也可以使用应用软件的拍照选项对人物进行拍照。

示例性的，该第一预览图像的获取方式可以是作为拍摄目标的人物通过摄像头中的镜头，将该人物的光学图像投射到感光芯片上，由感光芯片将光学图像信号转换为电信号，经过一系列设定的变换或处理后，得到第一预览图像，通过专用的接口，例如移动行业处理器接口(Mobile Industry Processor Interface，MIPI)发送到移动终端主板中的图像处理器(Image Signal Processor，ISP)进行处理，最终转换成移动终端屏幕上可以显示的格式，在移动终端的显示屏上进行显示。

在步骤220中，通过预先配置的姿态识别模型识别所述第一预览图像中的人体姿态。

其中，姿态识别模型为根据设定数量的图片样本训练的深度学习模型，所述图片样本根据包含目标对象的人体姿态图片确定。该姿态识别模型可设置为在输入第一预览图像之后，快速并准确的识别第一预览图像中的人体姿态。该姿态识别模型可以是卷积神经网络模型。本申请实施例中对该神经网络模型的层数、神经元的数量、卷积核和权重中至少一种的网络参数不作限定。示例性的，该姿态识别模型可以是本申请实施例中基于设定数量的人体姿态图片，采用设定机器学习算法对预设的深度学习模型进行训练，得到的卷积神经网络模型。

其中，该姿态识别模型可以是在服务器中进行构建、训练及优化，并由服务器移植至到移动终端，并进行配置的。在一实施例中，如果移动终端的处理能力允许的话，也可以在移动终端中进行模型构建、训练及优化处理。

示例性的，将第一预览图像输入该预先配置的姿态识别模型，通过该姿态识别模型识别该第一预览图像包含的人物的人体姿态。由于姿态识别模型是从大量图片样本(包含不同拍摄视角、摄像机与人物的不同距离、以及人物自身的多种遮挡程度)中学习出有效的特征，因此采用姿态识别模型对图片中的人体姿态进行识别，对遮挡、视角变化具有良好的鲁棒性。

在步骤230中，获取虚拟对象。

其中，虚拟对象用于为所述待拍摄对象提供增强现实效果，包括实体图像(例如篮球、足球、太阳、月亮或演员等实物的图像)、影视人物图像(如功夫熊猫、蓝精灵或超人等影视人物的图像)或者特效(例如烟雾效果、蒸汽效果及运动轨迹效果等)。可以将上述虚拟对象存储于虚拟对象库中。

在移动终端内预置虚拟对象库，该虚拟对象库中存储有各种虚拟对象。可以理解的是，该虚拟对象可以由网络平台获取，还可以由终端厂商自行设计。

若检测到识别出人体姿态，则展示虚拟对象库中的各种虚拟对象，供用户选择待添加至第一预览图像的虚拟对象，此时的虚拟对象是按照默认顺序进行展示。在一实施例中，还可以展示与所确定的人体姿态关联的虚拟对象。例如，若检测出用户的姿态为跑步姿势，获取的虚拟对象包括跑道、终点线及彩带等等。若检测出用户的姿态为打篮球，则获取的虚拟对象包括篮球场地、篮球及球筐等。

在步骤240中，根据所述人体姿态确定所述虚拟对象的添加位置，并在所述添加位置增加所述虚拟对象，形成第二预览图像。

可以预先规定虚拟对象的添加位置，即以数据库的方式关联存储虚拟对象的添加位置与人体姿态的对应关系。例如，对于投篮姿势，规定在手部添加篮球；对于踢球姿势，规定在摆出踢动作的一只脚处添加足球；对于吹灭生日蜡烛的姿势，规定在生日蛋糕的正上方添加生日祝语等。将预先设定好的虚拟对象的添加位置与人体姿态的对应关系存储于预设数据库中。

在识别出人体姿态后，根据人体姿态及被选中的虚拟对象查询该预设数据库，根据查询结果确定虚拟对象与人体姿态的位置关系。例如，如果人体姿态为跑步，虚拟对象是跑道，则根据查询预设数据库的结果可以确定在第一预览图像中人物的脚下添加跑道。图3示出了一种根据人体姿态添加虚拟对象的示意图，如图3所示，获取第一预览图像310，在识别出第一预览图像310中的人体姿态为跑步时，显示虚拟对象选择窗口320，该虚拟对象选择窗口320包括虚拟对象图片321以及选项框322。若检测到用户选中跑道对应的选项框322，则将该第一预览图像310中人物的脚下设定区域内的像素点更换为虚拟对象对应的像素点，从而形成第二预览图像330。

在步骤250中，获取拍摄指令，响应所述拍摄指令得到所述第二预览图像对应的拍摄图片。

其中，拍摄指令可以是用户按下拍照按钮触发执行的操作指令，还可以是用户输入的拍照语音触发执行的操作指令，还可以是用户拍照手势触发执行的操作指令等等。

在检测到拍摄指令时，响应该拍摄指令对第二预览图像进行存储，得到第二预览图像对应的拍摄图片。示例性的，在检测到拍照按钮被按下时，保存第二预览图像得到拍摄图片，将该拍摄图片存储于移动终端的相册内。

本实施例的技术方案，通过获取待拍摄对象的第一预览图像；通过预先配置的姿态识别模型识别所述第一预览图像中的人体姿态；获取虚拟对象；根据所述人体姿态确定所述虚拟对象的添加位置，并在所述添加位置增加所述虚拟对象，形成第二预览图像；获取拍摄指令，响应所述拍摄指令得到所述第二预览图像对应的拍摄图片。采用上述技术方案，通过姿态识别模型识别第一预览图像中的人体姿态，避免拍摄视角、遮挡等对姿态识别准确率的影响，提高姿态识别的准确率；并根据人体姿态确定虚拟对象的添加位置，将增强现实功能与人体姿态检测相结合，实现在准确的位置精确的添加虚拟对象，提升拍摄照片的显示效果。

图4是本申请实施例提供的另一种拍照方法的流程图。如图4所示，该方法包括步骤401至步骤410。

在步骤401中，获取待拍摄对象的第一预览图像。

在步骤402中，判断所述第一预览图像中是否包含皮肤对应的像素点，若所述第一预览图像中包含皮肤对应的像素点，则执行步骤403，所述第一预览图像中不包含皮肤对应的像素点，执行步骤404。

对第一预览图像进行皮肤像素点检测的方法有很多中，本申请实施例并不作具体限定。例如，可以对第一预览图像进行图像处理，得到该第一预览图像的直方图，根据该直方图中像素点的灰度值分布，确定该第一预览图像中是否包含皮肤对应的像素点。又如，通过MATLAB建立区域模型，利用肤色在色彩中的取值范围，将能够满足一定条件的区域标记为肤色区域。利用此模型主要通过两个步骤：一是用统计法确定肤色的具体范围；二是通过此模型判定新像素或区域是否为肤色。因此，在一幅图片中，某一像素或区域满足肤色所在色彩区域中的取值范围判定为皮肤区域，某一像素或区域不满足肤色所在色彩区域中的取值范围判定为非皮肤区域。

在步骤403中，输出无法确定虚拟对象的添加位置的提示信息。

在第一预览图像中不包含皮肤对应的像素点时，以对话框的形式显示提示信息，以提示用户无法确定虚拟对象的添加位置，供用户选择是否添加虚拟对象。若用户选择继续添加，则为用户提供指定添加位置的功能。例如可以是，绘制第一图层，该第一图层设置为显示待添加的虚拟对象，并且，第一图层除虚拟对象对应的像素坐标之外的位置为透明图层。在用户选择添加虚拟对象时，在第二图层之上显示第一图层，并获取用户对第一图层的操作指示。例如，用户可以将第一图层拖至待添加位置。在检测到用户指定的虚拟对象的添加位置后，合成第一图层与第二图层，以在第一预览图像的该用户指定的添加位置显示该虚拟对象。可以理解的是，图层的尺寸并不受移动终端的屏幕尺寸的限制，即图层的尺寸可以大于、等于或小于屏幕尺寸。

在步骤404中，将所述第一预览图像输入所述姿态识别模型。

其中，姿态识别模型可以为上述记载的根据设定数量的图片样本训练的深度学习模型。

在第一预览图像中包含皮肤对应的像素点时，通过姿态识别模型对第一预览图像进行识别，确定该第一预览图像包含的人体姿态。

在步骤405中，在拍摄场景下，获取增强现实功能的状态信息。

其中，拍摄场景是指当前界面为拍摄界面，包括但不限于通过摄像头获取人物图像的界面。

为移动终端的相机应用增加增强现实功能，即在用户通过相机应用拍摄时，可以选择是否开启增强现实功能。在一实施例中，在拍摄界面下添加增强现实功能选项，通过选中该增强现实功能选项，启用增强现实功能。若检测到选中该增强现实功能选项，则确定未启用增强现实功能。

在步骤406中，在增强现实功能被启用时，按照使用频率对虚拟对象库中的虚拟对象进行降序排列，显示排序结果。

可以获取增强现实功能下的用户历史行为，分析该用户历史行为确定虚拟对象的使用频率，并按照该使用频率对虚拟对象进行降序排列，即使用最频繁的虚拟对象排在最前端。根据排序结果为虚拟对象配置显示优先级，在增强现实功能被启用后，若检测到人体姿态识别结果，则调用该虚拟对象库，并按照显示优先级显示该虚拟对象库中的虚拟对象，以供用户选择。

在步骤407中，获取虚拟对象。

获取用户选中的虚拟对象。用户选择虚拟对象的方式包括但不限于点击虚拟对象的图标，以语音输入的方式选择虚拟对象，以预设晃动次数等手势方式选择虚拟对象。

在步骤408中，根据所述人体姿态及所述虚拟对象查询预设数据库，确定所述虚拟对象的添加位置。

其中，所述预设数据库中关联存储人体姿态与虚拟对象的添加位置。例如，通过查询预设数据库可以确定在踢球姿态时，为脚部添加足球。

在步骤409中，采用所述虚拟对象的像素值替换所述添加位置对应的像素值，形成第二预览图像。

获取虚拟对象的轮廓，以该轮廓为边界，在根据人体姿态确定的虚拟对象的添加位置处选择与该边界重合的区域，采用虚拟对象的像素点替换该区域内的像素点，即将该区域内像素点的像素值对应替换为虚拟对象的像素值，形成第二预览图像。然后，将第二预览图像转换成移动终端屏幕上可以显示的格式，在移动终端的显示屏上进行显示。

在步骤410中，获取拍摄指令，响应所述拍摄指令得到所述第二预览图像对应的拍摄图片。

本实施例的技术方案，通过在获取待拍摄对象的第一预览图像之后，判断所述第一预览图像中是否包含皮肤对应的像素点；若第一预览图像中包含皮肤对应的像素点，则将所述第一预览图像输入所述姿态识别模型，可以避免将不具有人像的第一预览图片输入姿态识别模型，从而，减少GPU的数据处理量。另外，在检测到人体姿态的识别结果后，按照使用频率的降序排列结果显示虚拟对象，实现向用户推荐其常用的虚拟对象的功能，优化了人机交互效果。

图5是本申请实施例提供的一种模型构建装置的结构框图。该装置可由软件和硬件中至少一种实现，一般可集成在终端中，该终端可以是服务器，设置为通过执行模型构建方法来构建姿态识别模型。如图5所示，该装置包括样本确定模块510，模型训练模块520以及模型发送模块530。

样本确定模块510，设置为获取设定数量的人体姿态图片，对所述人体姿态图片中的目标对象进行标记，得到图片样本，其中，所述目标对象包括头部、四肢以及躯干中的至少一种。

模型训练模块520，设置为根据所述图片样本，采用设定的机器学习算法对预设的深度学习模型进行训练，得到姿态识别模型。

模型发送模块530，设置为发送所述姿态识别模型至移动终端。

本实施例的技术方案提供一种模型构建装置，以具有各种姿态的人体姿态图片作为训练样本，采用机器学习算法对深度学习模型进行训练，得到姿态识别模型，可以使该姿态识别模型具备识别人体姿态的功能。由于姿态识别模型是从大量图片样本学习用于识别姿态的有效特征(包括视角、遮挡等)的，这些图像样本包含不同拍摄视角、摄像机与人物的不同距离、以及人物自身的多种遮挡程度等等，因此采用姿态识别模型对图片中的人体姿态进行识别，对遮挡、视角变化具有良好的鲁棒性，避免相关图像识别技术存在的识别不准确或误识别等情况提高了姿态识别准确率。

在一实施例中，样本确定模块510设置为：获取网络平台图片库中的网络图片；对所述网络图片中的人物的头部像素坐标、四肢像素坐标以及躯干像素坐标进行标记，得到第一样本图片；将所述第一样本图片存入图片样本集。

在一实施例中，样本确定模块510设置为：获取移动终端相册中的用户图片；对所述用户图片中的人物头部像素坐标、四肢像素坐标以及躯干像素坐标进行标记，得到第二样本图片；将所述第二样本图片存入图片样本集。

在一实施例中，模型训练模块520设置为：利用所述图片样本集对预设的深度学习模型进行前向传播和后向传播两个阶段的训练；在所述后向传播训练计算得到的误差达到期望误差值时，训练结束，并得到姿态识别模型。

在一实施例中，所述姿态识别模型为卷积神经网络模型；以及，该模型构建装置还包括：模型优化模块，设置为在发送所述姿态识别模型至移动终端之前，采用预设的优化策略对所述卷积神经网络模型进行优化，其中，对所述卷积神经网络模型的优化包括内部网络结构优化、卷积层的实现方式优化、池化层的实现方式优化中的至少一项。

本申请实施例还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时设置为执行本申请实施例所提供的拍照方法，该方法包括：获取设定数量的人体姿态图片，对所述人体姿态图片中的目标对象进行标记，得到图片样本，其中，所述目标对象包括头部、四肢以及躯干中的至少一种；根据所述图片样本，采用设定的机器学习算法对预设的深度学习模型进行训练，得到姿态识别模型；发送所述姿态识别模型至移动终端。

存储介质——任何的各种类型的存储器设备或存储设备。术语“存储介质”旨在包括：安装介质，例如光盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、软盘或磁带装置；计算机系统存储器或随机存取存储器，诸如动态随机存取存储器(Dynamic Random Access Memory，DRAM)、双数据速率随机存取存储器(Double Data Rate Random Access Memory，DDRRAM)、静态随机存取存储器(Static Random Access Memory，SRAM)、扩展数据输出随机存取存储器(Extended Data Output Random Access Memory，EDORAM)，兰巴斯(Rambus)RAM等；非易失性存储器，诸如闪存、磁介质(例如硬盘或光存储)；寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外，存储介质可以位于程序在其中被执行的第一计算机系统中，或者可以位于不同的第二计算机系统中，第二计算机系统通过网络(诸如因特网)连接到第一计算机系统。第二计算机系统可以提供程序指令给第一计算机用于执行。术语“存储介质”可以包括可以驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由至少一个处理器执行的程序指令(例如具体实现为计算机程序)。

当然，本申请实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的模型构建操作，还可以执行本申请任意实施例所提供的姿态识别模型的构建方法中的相关操作。

本申请实施例还提供一种终端，该终端可以是服务器或其它具有较强运算能力的电子设备，该服务器中集成了模型构建装置，设置为通过执行模型构建方法来构建姿态识别模型。图6是本申请实施例提供的一种服务器的结构框图。如图6所示，该终端600包括存储器610和处理器620，其中，该存储器610，设置为存储可执行程序代码及图片样本；该处理器620通过读取该存储器610中存储的可执行程序代码来运行与所述可执行程序代码对应的计算机程序，以实现以下步骤：获取设定数量的人体姿态图片，对所述人体姿态图片中的目标对象进行标记，得到图片样本，其中，所述目标对象包括头部、四肢以及躯干中的至少一种；根据所述图片样本，采用设定的机器学习算法对预设的深度学习模型进行训练，得到姿态识别模型；发送所述姿态识别模型至移动终端。

可以理解的是上述终端的结构仅是一个示例，该终端可以包括但不限于上述示例中所述的存储器及处理器，还可以包括：外设接口、电源管理芯片、输入/输出(I/O)子系统、其他输入/控制设备以及外部端口，这些部件通过至少一个通信总线或信号线来通信。

上述实施例中提供的模型构建装置、存储介质及服务器可执行本申请实施例所提供的对应的模型构建方法，具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节，可参见本申请任意实施例所提供的模型构建方法。

本申请实施例还提供了一种拍照装置，该装置可由软件和硬件中的至少一种实现，一般可集成在移动终端中，如具有摄像头的移动终端。图7是本申请实施例提供的一种拍照装置的结构框图，如图7所示，该装置包括图像获取模块710，姿态识别模块720，对象获取模块730，对象添加模块740以及拍摄模块750。

图像获取模块710，设置为获取待拍摄对象的第一预览图像。

姿态识别模块720，设置为通过预先配置的姿态识别模型识别所述第一预览图像中的人体姿态，其中，所述姿态识别模型为根据设定数量的图片样本训练的深度学习模型，，该图片样本根据包含目标对象的人体姿态图片确定，在一实施例中，所述图片样本包含人体姿态，深度学习模型为卷积神经网络模型。

对象获取模块730，设置为获取虚拟对象，其中，所述虚拟对象用于为所述待拍摄对象提供增强现实效果。

对象添加模块740，设置为根据所述人体姿态确定所述虚拟对象的添加位置，并在所述添加位置增加所述虚拟对象，形成第二预览图像。

拍摄模块750，设置为获取拍摄指令，响应所述拍摄指令得到所述第二预览图像对应的拍摄图片。

本实施例的技术方案提供一种拍照装置，通过姿态识别模型识别第一预览图像中的人体姿态，避免拍摄视角、遮挡等对姿态识别准确率的影响，提高姿态识别的准确率；并根据人体姿态确定虚拟对象的添加位置，将增强现实功能与人体姿态检测相结合，实现在准确的位置精确的添加虚拟对象，提升拍摄照片的显示效果。

在一实施例中，该拍照装置还包括：判断模块，设置为在所述对象获取模块获取待拍摄对象的第一预览图像之后，判断所述第一预览图像中是否包含皮肤对应的像素点；若所述第一预览图像中包含皮肤对应的像素点，则将所述第一预览图像输入所述姿态识别模型；若所述第一预览图像中不包含皮肤对应的像素点，输出无法确定虚拟对象的添加位置的提示信息。

在一实施例中，还包括：状态信息获取模块，设置为在所述对象获取模块获取虚拟对象之前，在拍摄场景下，获取增强现实功能的状态信息；

排序模块，设置为在增强现实功能被启用时，按照使用频率对虚拟对象库中的虚拟对象进行降序排列，显示排序结果。

在一实施例中，对象添加模块740设置为：根据所述人体姿态及所述虚拟对象查询预设数据库，确定所述虚拟对象的添加位置，其中，所述预设数据库中关联存储人体姿态与虚拟对象的添加位置；

采用所述虚拟对象的像素值替换所述添加位置对应的像素值。

本申请实施例还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时设置为本申请实施例所提供的执行拍照方法，该方法包括：获取待拍摄对象的第一预览图像；通过预先配置的姿态识别模型识别所述第一预览图像中的人体姿态，其中，所述姿态识别模型为根据设定数量的图片样本训练的深度学习模型；获取虚拟对象，其中，所述虚拟对象用于为所述待拍摄对象提供增强现实效果；根据所述人体姿态确定所述虚拟对象的添加位置，并在所述添加位置增加所述虚拟对象，形成第二预览图像；获取拍摄指令，响应所述拍摄指令得到所述第二预览图像对应的拍摄图片。

存储介质——任何的各种类型的存储器设备或存储设备。术语“存储介质”旨在包括：安装介质，例如CD-ROM、软盘或磁带装置；计算机系统存储器或随机存取存储器，诸如DRAM、DDRRAM、SRAM、EDORAM，兰巴斯(Rambus)RAM等；非易失性存储器，诸如闪存、磁介质(例如硬盘或光存储)；寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外，存储介质可以位于程序在其中被执行的第一计算机系统中，或者可以位于不同的第二计算机系统中，第二计算机系统通过网络(诸如因特网)连接到第一计算机系统。第二计算机系统可以提供程序指令给第一计算机用于执行。术语“存储介质”可以包括可以驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由至少一个处理器执行的程序指令(例如具体实现为计算机程序)。

当然，本申请实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的拍照操作，还可以执行本申请任意实施例所提供的将人体姿态与增强现实技术相结合的拍照方法中的相关操作。

本申请实施例还提供另一种终端，该终端中集成有上述实施例所述的拍照装置，可以执行基于人体姿态添加虚拟对象的操作。示例性的，该终端可以是移动终端。图8是本申请实施例提供的一种移动终端的结构框图，如图8所示，该移动终端可以包括：壳体(图中未示出)、存储器801、中央处理器(Central Processing Unit，CPU)802(又称处理器，)、电路板(图中未示出)和电源电路(图中未示出)。所述电路板安置在所述壳体围成的空间内部；所述CPU802和所述存储器801设置在所述电路板上；所述电源电路，设置为为所述终端的各个电路或器件供电；所述存储器801，设置为存储可执行程序代码、虚拟对象的添加位置的预设数据库等；所述CPU802通过读取所述存储器801中存储的可执行程序代码来运行与所述可执行程序代码对应的计算机程序，以实现以下步骤：获取待拍摄对象的第一预览图像；通过预先配置的姿态识别模型识别所述第一预览图像中的人体姿态，其中，所述姿态识别模型为根据设定数量的图片样本训练的深度学习模型，所述图片样本根据包含目标对象的人体姿态图片确定；获取虚拟对象，其中，所述虚拟对象用于为所述待拍摄对象提供增强现实效果；根据所述人体姿态确定所述虚拟对象的添加位置，并在所述添加位置增加所述虚拟对象，形成第二预览图像；获取拍摄指令，响应所述拍摄指令得到所述第二预览图像对应的拍摄图片。

所述终端还包括：外设接口803、射频(Radio Frequency，RF)电路805、音频电路806、扬声器811、电源管理芯片808、输入/输出(I/O)子系统809、其他输入/控制设备810、触摸屏812、其他输入/控制设备810以及外部端口804，这些部件通过至少一个通信总线或信号线807来通信。

应该理解的是，图示移动终端800仅仅是终端的一个范例，并且移动终端800可以具有比图中所示出的更多的或者更少的部件，可以组合两个或更多的部件，或者可以具有不同的部件配置。图中所示出的各种部件可以在包括信号处理和专用集成电路中至少一种在内的硬件、软件、或硬件和软件的组合中实现。

下面就本实施例提供的移动终端800进行详细的描述，该终端以手机为例。

存储器801，所述存储器801可以被CPU802、外设接口803等访问，所述存储器801可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

外设接口803，所述外设接口803可以将设备的输入和输出外设连接到CPU802和存储器801。

I/O子系统809，所述I/O子系统809可以将设备上的输入输出外设，例如触摸屏812和其他输入/控制设备810，连接到外设接口803。I/O子系统809可以包括显示控制器8081和设置为控制其他输入/控制设备810的至少一个输入控制器8092。其中，至少一个输入控制器8092从其他输入/控制设备810接收电信号或者向其他输入/控制设备810发送电信号，其他输入/控制设备810可以包括物理按钮(按压按钮、摇臂按钮等)、拨号盘、滑动开关、操纵杆、点击滚轮。值得说明的是，输入控制器8092可以与以下任一个连接：键盘、红外端口、USB接口以及诸如鼠标的指示设备。

触摸屏812，所述触摸屏812是用户终端与用户之间的输入接口和输出接口，将可视输出显示给用户，可视输出可以包括图形、文本、图标、视频等。

I/O子系统809中的显示控制器8081从触摸屏812接收电信号或者向触摸屏812发送电信号。触摸屏812检测触摸屏上的接触，显示控制器8081将检测到的接触转换为与显示在触摸屏812上的用户界面对象的交互，即实现人机交互，显示在触摸屏812上的用户界面对象可以是运行游戏的图标、联网到相应网络的图标等。值得说明的是，设备还可以包括光鼠，光鼠是不显示可视输出的触摸敏感表面，或者是由触摸屏形成的触摸敏感表面的延伸。

RF电路805，主要设置为建立手机与无线网络(即网络侧)的通信，实现手机与无线网络的数据接收和发送。例如收发短信息、电子邮件等。在一实施例中，RF电路805接收并发送RF信号，RF信号也称为电磁信号，RF电路805将电信号转换为电磁信号或将电磁信号转换为电信号，并且通过该电磁信号与通信网络以及其他设备进行通信。RF电路805可以包括设置为执行这些功能的已知电路，其包括但不限于天线系统、RF收发机、至少一个放大器、调谐器、至少一个振荡器、数字信号处理器、编译码器(COder-DECoder，CODEC)芯片组、用户标识模块(Subscriber Identity Module，SIM)等等。

音频电路806，主要设置为从外设接口803接收音频数据，将该音频数据转换为电信号，并且将该电信号发送给扬声器811。

扬声器811，设置为将手机通过RF电路805从无线网络接收的语音信号，还原为声音并向用户播放该声音。

电源管理芯片808，设置为为CPU802、I/O子系统及外设接口所连接的硬件进行供电及电源管理。

上述实施例中提供的拍照装置、存储介质及终端可执行本申请实施例所提供的对应的拍照方法，具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节，可参见本申请任意实施例所提供的拍照方法。

Claims

一种模型构建方法，包括：

获取设定数量的人体姿态图片，对所述人体姿态图片中的目标对象进行标记，得到图片样本，其中，所述目标对象包括头部、四肢以及躯干中的至少一种；

根据所述图片样本，采用设定的机器学习算法对预设的深度学习模型进行训练，得到姿态识别模型；

发送所述姿态识别模型至移动终端。
根据权利要求1所述的方法，其中，获取设定数量的人体姿态图片，对所述人体姿态图片中的目标对象进行标记，包括：

获取网络平台图片库中的网络图片；

对所述网络图片中的人物的头部像素坐标、四肢像素坐标以及躯干像素坐标进行标记，得到第一样本图片；

将所述第一样本图片存入图片样本集。
根据权利要求1所述的方法，其中，获取设定数量的人体姿态图片，对所述人体姿态图片中的目标对象进行标记，包括：

获取移动终端相册中的用户图片；

对所述用户图片中的人物头部像素坐标、四肢像素坐标以及躯干像素坐标进行标记，得到第二样本图片；

将所述第二样本图片存入图片样本集。
根据权利要求2或3所述的方法，其中，根据所述图片样本，采用设定的机器学习算法对预设的深度学习模型进行训练，得到姿态识别模型，包括：

利用所述图片样本集对所述预设的深度学习模型进行前向传播和后向传播两个阶段的训练；

在所述后向传播训练计算得到的误差达到期望误差值时，训练结束，并得到姿态识别模型。
根据权利要求4所述的方法，所述姿态识别模型为卷积神经网络模型；

以及，在发送所述姿态识别模型至移动终端之前，还包括：

采用预设的优化策略对所述卷积神经网络模型进行优化，其中，对所述卷积神经网络模型的优化包括内部网络结构优化、卷积层的实现方式优化以及池化层的实现方式优化中的至少一项。
一种拍照方法，包括：

获取待拍摄对象的第一预览图像；

通过预先配置的姿态识别模型识别所述第一预览图像中的人体姿态，其中，所述姿态识别模型为根据设定数量的图片样本训练的深度学习模型，所述图片样本根据包含目标对象的人体姿态图片确定；

获取虚拟对象，其中，所述虚拟对象用于为所述待拍摄对象提供增强现实效果；

根据所述人体姿态确定所述虚拟对象的添加位置，并在所述添加位置增加所述虚拟对象，形成第二预览图像；

获取拍摄指令，响应所述拍摄指令得到所述第二预览图像对应的拍摄图片。
根据权利要求6所述的方法，在获取待拍摄对象的第一预览图像之后，还包括：

判断所述第一预览图像中是否包含皮肤对应的像素点；

响应于确定所述第一预览图像中包含皮肤对应的像素点，将所述第一预览图像输入所述姿态识别模型；

响应于确定所述第一预览图像中不包含皮肤对应的像素点，输出无法确定所述虚拟对象的添加位置的提示信息。
根据权利要求6所述的方法，在获取虚拟对象之前，还包括：

在拍摄场景下，获取增强现实功能的状态信息；

在增强现实功能被启用时，按照使用频率对虚拟对象库中的虚拟对象进行降序排列，显示排序结果。
根据权利要求6至8中任一项所述的方法，其中，根据所述人体姿态确定所述虚拟对象的添加位置，并在所述添加位置增加所述虚拟对象，包括：

根据所述人体姿态及所述虚拟对象查询预设数据库，确定所述虚拟对象的添加位置，其中，所述预设数据库中关联存储人体姿态与虚拟对象的添加位置；

采用所述虚拟对象的像素值替换所述添加位置对应的像素值。
一种模型构建装置，包括：

样本确定模块，设置为获取设定数量的人体姿态图片，对所述人体姿态图片中的目标对象进行标记，得到图片样本，其中，所述目标对象包括头部、四肢以及躯干中的至少一种；

模型训练模块，设置为根据所述图片样本，采用设定的机器学习算法对预设的深度学习模型进行训练，得到姿态识别模型；

模型发送模块，设置为发送所述姿态识别模型至移动终端。
根据权利要求10所述的装置，其中，

所述样本确定模块，设置为：

获取网络平台图片库中的网络图片，对所述网络图片中的人物的头部像素坐标、四肢像素坐标以及躯干像素坐标进行标记，得到第一样本图片；将所述第一样本图片存入图片样本集；或者，

获取移动终端相册中的用户图片，对所述用户图片中的人物头部像素坐标、四肢像素坐标以及躯干像素坐标进行标记，得到第二样本图片；将所述第二样本图片存入图片样本集。
根据权利要求11所述的装置，其中，所述模型训练模块，设置为利用所述图片样本集对预设的深度学习模型进行前向传播和后向传播两个阶段的训练；在所述后向传播训练计算得到的误差达到期望误差值时，训练结束，并得到姿态识别模型。
根据权利要求12所述的装置，所述装置还包括：

模型优化模块，设置为在发送所述姿态识别模型至移动终端之前，采用预设的优化策略对所述卷积神经网络模型进行优化，其中，对所述卷积神经网络模型的优化包括内部网络结构优化、卷积层的实现方式优化以及池化层的实现方式优化中的至少一项。
一种拍照装置，包括：

图像获取模块，设置为获取待拍摄对象的第一预览图像；

姿态识别模块，设置为通过预先配置的姿态识别模型识别所述第一预览图像中的人体姿态，其中，所述姿态识别模型为根据设定数量的图片样本训练的深度学习模型，所述图片样本根据包含目标对象的人体姿态图片确定；

对象获取模块，设置为获取虚拟对象，其中，所述虚拟对象用于为所述待拍摄对象提供增强现实效果；

对象添加模块，设置为根据所述人体姿态确定所述虚拟对象的添加位置，并在所述添加位置增加所述虚拟对象，形成第二预览图像；

拍摄模块，设置为获取拍摄指令，响应所述拍摄指令得到所述第二预览图像对应的拍摄图片。
根据权利要求14所述的装置，所述装置还包括：

判断模块，设置为在所述对象获取模块获取待拍摄对象的第一预览图像之后，判断所述第一预览图像中是否包含皮肤对应的像素点；若所述第一预览图像中包含皮肤对应的像素点，则将所述第一预览图像输入所述姿态识别模型；若所述第一预览图像中不包含皮肤对应的像素点，输出无法确定虚拟对象的添加位置的提示信息。
根据权利要求14所述的装置，所述装置还包括：

状态信息获取模块，设置为在所述对象获取模块获取虚拟对象之前，在拍摄场景下，获取增强现实功能的状态信息；

排序模块，设置为在增强现实功能被启用时，按照使用频率对虚拟对象库中的虚拟对象进行降序排列，显示排序结果。
一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如权利要求1至5中任一项所述的模型构建方法。
一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如权利要求6至9中任一项所述的拍照方法。
一种终端，包括存储器，处理器及存储在存储器上并可在处理器运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的模型构建方法。
一种终端，包括存储器，处理器及存储在存储器上并可在处理器运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求6至9中任一项所述的拍照方法。