WO2020207281A1

WO2020207281A1 - 姿态识别模型的训练方法、图像识别方法及装置

Info

Publication number: WO2020207281A1
Application number: PCT/CN2020/082039
Authority: WO
Inventors: 罗镜民; 朱晓龙; 王一同; 季兴
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2019-04-12
Filing date: 2020-03-30
Publication date: 2020-10-15
Also published as: US20210279456A1; US11907848B2; CN110020633A; CN110020633B

Abstract

一种姿态识别模型的训练方法、图像识别方法及装置；姿态识别模型的训练方法包括：将标注有人体关键点的样本图像，输入姿态识别模型包括的特征图模型，输出对应样本图像的特征图；将特征图输入姿态识别模型包括的二维模型，输出用于表征二维人体姿态的二维关键点参数；将从特征图中剪裁出的目标人体特征图及二维关键点参数，输入姿态识别模型包括的三维模型，输出用于表征三维人体姿态的三维姿态参数；结合二维关键点参数及三维姿态参数，构建目标损失函数；基于目标损失函数，更新姿态识别模型的模型参数。

Description

姿态识别模型的训练方法、图像识别方法及装置

本申请要求于2019年4月12日提交中国专利局、申请号201910294734.8、申请名称为“姿态识别模型的训练方法、图像识别方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及机器学习技术领域，尤其涉及一种姿态识别技术。

背景技术

机器学习(ML，machine Learning)是人工智能的一个分支，其目的是让机器根据先验的知识进行学习，从而具有分类和判断的逻辑能力。以神经网络为代表的机器学习模型不断发展，被逐渐应用到人体姿态识别中，从而实现基于人体姿态的各种智能化应用。

相关技术中，用于识别人体二维姿态信息以及三维姿态信息的神经网络模型互不兼容，需要单独进行训练，训练所需计算资源量大、训练效率低。

发明内容

本申请实施例提供一种姿态识别模型的训练方法、基于姿态识别模型的图像识别方法、装置及存储介质，能够实现兼容识别人体二维姿态信息及三维姿态信息的模型。

本申请实施例提供一种姿态识别模型的训练方法，包括：

通过姿态识别模型包括的特征图模型，对标注有人体关键点的样本图像进行处理，获得对应所述样本图像的特征图；

通过所述姿态识别模型包括的二维模型，对所述特征图进行处理，获得用于表征二维人体姿态的二维关键点参数；

通过所述姿态识别模型包括的三维模型，对从所述特征图中剪裁出的目标人体特征图及所述二维关键点参数进行处理，获得用于表征三维人体姿态的三维姿态参数；

结合所述二维关键点参数及所述三维姿态参数，构建目标损失函数；

基于所述目标损失函数，更新所述姿态识别模型的模型参数。

本申请实施例还提供了一种基于姿态识别模型的图像识别方法，所述方法包括：

通过所述姿态识别模型包括的特征图模型，对包含人体的待识别图像进行处理，获得对应所述待识别图像的特征图；

通过所述姿态识别模型包括的二维模型，对所述特征图进行处理，获得用于表征二维人体姿态的二维关键点参数，所述二维关键点参数用于识别得到所述人体的二维姿态；

通过所述姿态识别模型包括的三维模型，对从所述特征图中剪裁出的目标人体特征图及所述二维关键点参数进行处理，获得用于表征三维人体姿态的三维姿态参数，所述三维姿态参数用于识别得到所述人体的三维姿态。

本申请实施例还提供了一种姿态识别模型的训练装置，包括：

第一处理单元，用于通过姿态识别模型包括的特征图模型，对标注有人体关键点的样本图像进行处理，获得对应所述样本图像的特征图；

第二处理单元，用于通过所述姿态识别模型包括的二维模型，对所述特征图进行处理，获得用于表征二维人体姿态的二维关键点参数；

第三处理单元，用于通过所述姿态识别模型包括的三维模型，对从所述特征图中剪裁出的目标人体特征图及所述二维关键点参数进行处理，获得用于表征三维人体姿态的三维姿态参数；

构建单元，用于结合所述二维关键点参数及所述三维姿态参数，构建目标损失函数；

更新单元，用于基于所述目标损失函数，更新所述姿态识别模型的模型参数。

上述方案中，所述装置还包括：

标注单元，用于根据配置场景的类型，从关键点集中确定所述人体关键点；

基于所述人体关键点，参照所述关键点集对所述样本图像进行标注。

上述方案中，所述关键点集包括：

用于定位人体部位的基准关键点、以及与所述基准关键点协同表征所属部位的多种三维姿态的扩展关键点。

上述方案中，所述目标损失函数包括对应所述三维模型的第一损失函数；

所述构建单元，还用于基于所述三维姿态参数，确定相应的二维关键点信息；

结合所述二维关键点参数以及所述二维关键点信息，构造所述第一损失函数。

上述方案中，所述目标损失函数还包括对应所述二维模型的损失函数及对应所述三维模型的第二损失函数；所述二维关键点参数包括：人体关键点的部分亲和字段参数及人体关键点的热力图，所述三维姿态参数包括：人体的形状参数及形态参数；

所述构建单元，还用于结合所述二维模型输出的部分亲和字段参数与相应人体关键点在样本图像中的部分亲和字段参数的差异、所述二维模型输出的热力图与相应人体关键点在样本图像中的热力图的差异，构建对应所述二维模型的损失函数；

结合所述三维模型输出的形状参数与相应人体在样本图像中的形状参数的差异、所述三维模型输出的形态参数与相应人体在样本图像中的形态参数的差异，构建对应所述三维模型的第二损失函数。

上述方案中，所述装置还包括：

剪裁单元，用于基于所述二维关键点参数，确定所述特征图中的目标人体；

根据所述目标人体对所述特征图进行剪裁，得到所述目标人体特征图。

上述方案中，所述更新单元，还用于基于所述二维关键点参数及所述三维姿态参数，确定所述目标损失函数的值；

当所述目标损失函数的值超出预设阈值时，基于所述目标损失函数确定所述姿态识别模型的误差信号；

将所述误差信号在所述姿态识别模型中反向传播，并在传播的过程中更新各个层的模型参数。

本申请实施例还提供了一种基于姿态识别模型的图像识别装置，所述装置包括：

第一获取单元，用于将包含人体的待识别图像，输入所述姿态识别模型包括的特征图模型，输出对应所述待识别图像的特征图；

第二获取单元，用于将所述特征图输入所述姿态识别模型包括的二维模型，输出用于表征二维人体姿态的二维关键点参数，所述二维关键点参数用于识别得到所述人体的二维姿态；

第三获取单元，用于将从所述特征图中剪裁出的目标人体特征图及所述二维关键点参数，输入所述姿态识别模型包括的三维模型，输出用于表征三维人体姿态的三维姿态参数，所述三维姿态参数用于识别得到所述人体的三维姿态。

上述方案中，所述装置还包括：

匹配单元，用于基于所述二维关键点参数，识别得到所述待识别图像中人体的二维姿态；所述待识别图像为基于输出的特定人物姿态的图像采集得到的；

将所述二维姿态与所述特定人物姿态进行相似度匹配，得到匹配结果；

提示单元，用于输出用于表征所述匹配结果的提示信息。

上述方案中，所述装置还包括：

人体模型单元，用于基于所述三维姿态参数，构建对应所述目标人体的三维人体模型；

控制单元，用于控制所述三维人体模型执行目标动作，所述目标动作与所述目标人体所执行的动作相匹配。

本申请实施例还提供了一种图像处理设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本申请实施例提供的任一项姿态识别模型的训练方法，或基于姿态识别模型的图像识别方法。

本申请实施例还提供了一种存储介质，存储有可执行指令，用于引起处理器执行时，实现本申请实施例提供的任一项姿态识别模型的训练方法，或基于姿态识别模型的图像识别方法。

应用本申请实施例具有以下有益效果：

在对姿态识别模型进行训练时，通过姿态识别模型包括的特征图模型，对标注有人体关键点的样本图像进行处理，获得对应样本图像的特征图。接着，通过姿态识别模型包括的二维模型，对特征图进行处理，获得用于表征二维人体姿态的二维关键点参数，以及通过姿态识别模型包括的三维模型，对从特征图中剪裁出的目标人体特征图及二维关键点参数进行处理，获得用于表征三维人体姿态的三维姿态参数。结合二维关键点参数及三维姿态参数构建目标损失函数，由于目标损失函数考虑了二维模型的输出结果(二维关键点参数)和三维模型的输出结果(三维姿态参数)，这样，基于目标损失函数更新姿态识别模型的模型参数后，得到的姿态识别模型中的二维模型和三维模型可以输出较好的结果，即训练得到的姿态识别模型既能够输出人体二维姿态信息，又能够输出人体的三维姿态信息，实现了人体二维姿态信息及三维姿态信息的兼容。同时，对输出人体二维姿态信息及三维姿态信息的姿态识别模型的训练，采用一套训练样本，模型简单，训练效率高。

附图说明

图1为相关技术提供的二维关键点识别模型的训练方法示意图；

图2为相关技术提供的人体三维模型的训练方法示意图；

图3为本申请实施例提供的姿态识别模型的实施场景的示意图；

图4为本申请实施例提供的姿态识别模型的训练装置的组成结构示意图；

图5是本申请实施例提供的姿态识别模型的结构示意图；

图6是本申请实施例提供的姿态识别模型的训练方法的流程示意图；

图7为本申请实施例提供的获取手部扩展关键点的流程示意图；

图8A为本申请实施例提供的对应第一配置场景的人体关键点的示意图；

图8B为本申请实施例提供的对应第二配置场景的人体关键点的示意图；

图8C为本申请实施例提供的对应第三配置场景的人体关键点的示意图；

图8D为本申请实施例提供的对应第四配置场景的人体关键点的示意图；

图9为本申请实施例提供的进行特征图提取的示意图；

图10为本申请实施例提供的人体关键点热力图的示意图；

图11是本申请实施例提供的基于姿态识别模型的图像识别方法的流程示意图；

图12为本申请实施例提供的采用姿态识别模型进行图像识别的流程示意图；

图13为本申请实施例提供的姿态识别模型的应用场景示意图；

图14为本申请实施例提供的姿态识别模型的应用场景示意图；

图15为本申请实施例提供的姿态识别模型的训练装置的组成结构示意图；

图16为本申请实施例提供的基于姿态识别模型的图像识别装置的组成结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

人体关键点是对人体姿态具有代表性的关键点，通过人体关键点可以识别人体姿态。在实际应用中，该人体关键点可以是人体的骨骼关键点，骨骼便为人体关键点之间的连线，如头部关键点、脖颈关键点、肩部关键点、手肘关键点、手腕关键点、脚腕关键点、膝盖关键点、胯部关键点及脚踝关键点等。

相关技术中，通过关键点识别模型识别人体姿态识别，从而实现基于人体姿态的各种智能化应用。

图1为相关技术提供的二维关键点识别模型的训练方法示意图，参见图1，二维关键点识别模型的训练所采用的训练样本取自COCO数据库(图像数据集)，采用COCO数据库公开的17个人体关键点的方案进行训练，使用标注了17个人体关键点的图像数据作为训练样本，样本数据通过深度学习网络(例如名称为Darknet的网络)提取特征图，然后经部分亲和字段(PAF，Part Affinity Fields)处理以及热力图(Heatmap)处理，使用损失函数2例如L2的Loss训练，通过非极大值抑制(NMS，Non-Maximum Suppression)以及聚合(Grouping)操作获得人体二维(2D，Two Dimension)关键点以及人体关键点的归属人。

这里对PAF进行说明，PAF处理用于多人体关键点检测，通过二维方向向量的集合，表示肢体的位置和方向(也代表了两个关键点的关联程度)，进而解决人体关键点归属哪个人的问题。基于PAF得到的人体关键点的二维方向向量，进行Grouping操作，使得关键点分属于图像中第几个人得以确认，经Grouping操作，人体关键点可连成骨架。

在一些实施方式中，还可以采用Openpose(一种功能齐全的库)的18个人体关键点的方案以及基础8个人体关键点的方案进行人体二维姿态的识别。

图2为相关技术提供的人体三维模型的训练方法示意图，参见图2，采用蒙皮多人模型(SMPL，A Skinned Multi-Person Linear Model)的标准构建样本数据集，通过输入样本图像，该样本图像携带形状(shape)和形态(pose)，输出SMPL 3D模型的参数(shape和pose)进行3D模型的训练，并使用L2Loss来回归参数。

通过上述对相关技术中人体的二维姿态信息的模型及人体三维模型的说明，可知：

对于二维关键点识别模型来说，无论是采用COCO数据库的17关键点方案，还是采用Openpose的18关键点方案，训练所采用的人体关键点总是一套，在应对不同业务时存在关键点信息的冗余以及缺陷，例如，只需要2D的上半身简单姿态信息的场景，只需要上半身8个关键点即可，此时采用17关键点或18关键点进行模型训练显然是关键点冗余，造成计算资源浪费。

对于人体三维模型来说，上述SMPL模型的训练所采用的模型参数为人体的形状(shape)参数及人体的形态(pose)参数，没有考虑二维信息的约束，如此训练得到的模型识别得到的人体的姿态动作会存在角度误差，动作不够准确，即识别准确度低，且该模型同样存在不同业务场景下存在关键点信息冗余以及缺陷的问题，例如，单纯需求上半身3D进行人机交互的场景，训练对应整个人体的三维模型显然造成计算资源浪费。

上述两种模型(对应二维信息识别的模型及人体三维模型)所采用的训练数据完全不同，互不兼容，且训练流程不同，若既想得到人体的二维姿态信息又想得到人体的三维姿态信息，需要分开训练两个不同的模型，处理不同的数据，耗费时间的同时也造成了计算资源的浪费，中央处理器(CPU，Central Processing Unit)及图形处理器(GPU，Graphics Processing Unit)等资源占用大。

基于此提出本申请实施例的姿态识别模型，训练得到的姿态识别模型既能够输出人体二维姿态信息，又能够输出人体的三维姿态信息，实现了人体二维姿态信息及三维姿态信息的兼容，且对输出人体二维姿态信息及三维姿态信息的姿态识别模型的训练，采用一套训练样本，模型简单，训练效率高；姿态识别模型中包括三维模型，对三维模型的训练，采用二维模型输出的二维信息进行约束，使得三维模型输出的人体三维姿态信息的准确度更高。

需要强调的是，本申请实施例所提供的姿态识别模型的训练方法以及图像识别方法可以是基于人工智能实现的。人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请实施例提供的方案涉及人工智能的机器学习/深度学习、计算机视觉等技术。其中，机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

本申请实施例具体通过机器学习训练姿态识别模型，使得训练得到的姿态识别模型可以针对待识别图像准确的进行姿态识别。

在进行姿态识别模型训练或进行姿态识别过程中，还可能涉及计算机视觉技术。计算机视觉技术(Computer Vision,CV)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。

本申请实施例具体涉及计算机视觉技术中的图像处理、图像语义理解等技术，例如在得到图像例如待识别图像或训练样本后，进行图像处理，例如对图像进行裁剪等；又如，利用图像语义理解技术进行关键点标注、图像分类(例如确定人体关键点的归属人)、提取图像特征(特征图)等。

首先对本申请实施例的姿态识别模型的实施场景进行说明，图3为本申请实施例提供的姿态识别模型的实施场景的示意图，参见图3，为实现支撑一个示例性应用，终端(包括终端40-1和终端40-2)，终端上设置有用于图像识别的客户端，终端通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合，使用无线链路实现数据传输。

服务器200，用于将标注有人体关键点的样本图像，输入姿态识别模型包括的特征图模型，输出对应样本图像的特征图；将特征图输入姿态识别模型包括的二维模型，输出用于表征二维人体姿态的二维关键点参数；将从特征图中剪裁出的目标人体特征图及二维关键点参数，输入姿态识别模型包括的三维模型，输出用于表征三维人体姿态的三维姿态参数；结合二维关键点参数及三维姿态参数，构建目标损失函数；基于目标损失函数，更新姿态识别模型的模型参数；如此，实现对姿态识别模型的训练。

终端(终端40-1和/或终端40-2)，用于发送携带待识别图像的识别请求给服务器200，该待识别图像中包括一个或多个人体。

服务器200，还用于接收终端发送的识别请求，采用得到的姿态识别模型对待识别图像进行识别，将识别结果(二维关键点参数和/或三维姿态参数)返回给终端。

终端(终端40-1和/或终端40-2)，还用于基于服务器200返回的识别结果执行相应的应用，如驱动人体三维模型，基于识别结果确定相应的二维人体姿态并进行相应的评估。

接下来对本申请实施例提供的姿态识别模型的训练装置及基于姿态识别模型的图像识别装置进行说明。本申请实施例的姿态识别模型的训练装置及基于姿态识别模型的图像识别装置，均可以通过图像处理设备来实施，图像处理设备例如可以是终端，也可以是服务器，也就是说，本申请实施例提供的方法可以由智能手机、平板电脑和台式机等终端单独实施，或者有服务器单独实施，或者由终端、服务器协同实施。本申请实施例提供的姿态识别模型的训练装置及基于姿态识别模型的图像识别装置，均可以实施为硬件或者软硬件结合的方式，以本申请实施例的姿态识别模型的训练装置为例，下面说明本申请实施例提供的装置的各种示例性实施。

下面对本申请实施例的图像处理设备的硬件结构做详细说明，图4为本申请实施例提供的图像处理设备的组成结构示意图，可以理解，图4仅仅示出了图像处理设备的示例性结构而非全部结构，根据需要可以实施图4示出的部分结构或全部结构。

本申请实施例提供的图像处理设备包括：至少一个处理器401、存储器402、用户接口403和至少一个网络接口404。姿态识别模型的训练装置40中的各个组件通过总线系统405耦合在一起。可以理解，总线系统405用于实现这些组件之间的连接通信。总线系统405除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图4中将各种总线都标为总线系统405。

其中，用户接口403可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。

可以理解，存储器402可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read Only Memory)、可编程只读存储器(PROM，Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM，Erasable Programmable Read-Only Memory)、闪存(Flash Memory)等。易失性存储器可以是随机存取存储器(RAM，Random Access Memory)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM，Static Random Access Memory)、同步静态随机存取存储器(SSRAM，Synchronous Static Random Access Memory)。本申请实施例描述的存储器402旨在包括这些和任意其它适合类型的存储器。

本申请实施例中的存储器402能够存储数据以支持终端(如40-1)的操作。这些数据的示例包括：用于在终端(如40-1)上操作的任何计算机程序，如操作系统和应用程序。其中，操作系统包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序。

作为本申请实施例提供的图像处理设备采用软硬件结合实施的示例，本申请实施例所提供的图像处理设备可以直接体现为由处理器401执行的软件模块组合，软件模块可以位于存储介质中，存储介质位于存储器402，处理器401读取存储器402中软件模块包括的可执行指令，结合必要的硬件(例如，包括处理器401以及连接到总线405的其他组件)完成本申请实施例提供的姿态识别模型的训练方法。

作为示例，处理器401可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

作为本申请实施例提供的图像处理设备采用硬件实施的示例，本申请实施例所提供的装置可以直接采用硬件译码处理器形式的处理器401来执行完成，例如，被一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件执行实现本申请实施例提供的姿态识别模型的训练方法。

本申请实施例中的存储器402用于存储各种类型的数据以支持图像处理设备40的操作。这些数据的示例包括：用于在图像处理设备40上操作的任何可执行指令，如可执行指令，实现本申请实施例的姿态识别模型的训练方法的程序可以包含在可执行指令中。

基于上述对本申请实施例的姿态识别模型的实施场景、图像处理设备的说明，接下来对本申请实施例的姿态识别模型的所应用的场景或领域进行说明，需要说明的是，本申请实施例的姿态识别模型并不限于以下所提到的场景或领域：

1、人机交互；

以用户与终端进行交互为例，终端中设置有客户端，在实际应用中，该客户端可以为游戏客户端、人体三维建模客户端等，终端上还设置有图形界面、图像采集装置及处理芯片，通过图像采集装置采集包含人体的图像，基于姿态识别模型识别图像中人体的二维人体姿态及三维人体姿态。

以客户端为游戏客户端为例，终端通过图形界面展示游戏人物的动作，以使用户基于终端所展示的人物动作进行模仿，通过图像采集装置采集用户所做的动作的图像，基于姿态识别模型识别图像中人体的二维人体姿态，并基于识别结果与游戏中人物所做的动作的相似度进行游戏的评估，如打分等。

以客户端为体感游戏客户端为例，终端通过图像采集装置采集包含用户的图像，基于姿态识别模型识别图像中人体的三维人体姿态，以构建对应用户的人体三维模型，并驱动所构建的人体三维模型执行与用户执行相同的动作，实现用户在游戏中的体感互动。

以用户与智能机器人交互为例，该智能机器人中设置有图像采集装置及处理芯片，图像采集装置能够采集智能机器人的前方区域的图像，处理芯片能够基于姿态识别模型识别区域图像中的人体姿态，并在识别出的人体姿态是预设姿态时，控制智能机器人做出预设响应。比如，当识别出的人体姿态是挥手姿态时，控制智能机器人做出欢迎动作。

2、无人驾驶；

无人驾驶车上设置有图像采集装置及处理芯片，图像采集装置能够采集无人驾驶车在行驶过程中前方的图像，处理芯片基于姿态识别模型识别图像中的人体姿态(二维和/或三维)，以判别前方是否有人，以及人所处前方的位置等信息，以控制无人驾驶车减速或刹车等。

3、医疗领域；

医疗设备上设置有图像采集装置及处理芯片，图像采集装置能够采集用户的图像，处理芯片基于姿态识别模型识别图像中的三维人体姿态，以构建对应用户的人体三维模型，并基于构建的人体三维模型进行医学分析。

4、监控领域；

监控系统包括前端的图像采集设备及后端的图像处理设备，图像采集设备采集包含用户的图像后发送给图像处理设备，图像处理设备基于姿态识别模型识别图像中的人体姿态(二维和/或三维)，并基于识别结果进行目标跟踪、姿态分析预警等。

在对本申请实施例提供的姿态识别模型的训练方法说明之前，先对本申请实施例提供的姿态识别模型的结构进行说明，图5是本申请实施例提供的姿态识别模型的结构示意图，参见图5，本申请实施例提供的姿态识别模型包括：特征图模型51、特征图剪裁单元52、二维模型53及三维模型54；其中，特征图模型51，用于对输入的图像进行特征提取，得到相应的特征图；特征图剪裁单元52，用于特征图模型输出的特征图进行剪裁，得到目标人体特征图；二维模型53，用于对特征图模型输出的特征图进行识别，输出用于表征二维人体姿态的二维关键点参数；三维模型54，用于对特征图剪裁单元剪裁得到的目标人体特征图、以及二维模型输出的二维关键点参数进行处理，输出用于表征三维人体姿态的三维姿态参数。

基于上述对姿态识别模型的结构的说明，接下来对本申请实施例提供的姿态识别模型的训练方法进行说明。图6是本申请实施例提供的姿态识别模型的训练方法的流程示意图，在一些实施例中，该训练方法可由服务器或终端实施，或由服务器及终端协同实施，以服务器实施为例，如通过图3中的服务器200实施，结合图5及图6，本申请实施例提供的姿态识别模型的训练方法包括：

步骤601：通过姿态识别模型包括的特征图模型，对标注有人体关键点的样本图像进行处理，获得对应所述样本图像的特征图。

服务器将标注有人体关键点的样本图像，输入姿态识别模型包括的特征图模型，从而利用特征图模型输出对应样本图像的特征图。

在实际实施时，在进行姿态识别模型的训练之前，需要构建用于模型训练的样本图像，样本图像中包含人体，服务器对包含人体的样本图像进行人体关键点标注。在一些实施例中，包含多个配置场景，不同的配置场景对应关键点集中不同数量的人体关键点，服务器在根据配置场景的类型，从关键点集中确定出对应当前配置场景的人体关键点后，基于所确定的人体关键点，参照关键点集对包含人体的样本图像进行人体关键点标注。

这里，对关键点集进行说明，在一些实施例中，关键点集包括：用于定位人体部位的基准关键点、与基准关键点协同表征所属部位的不同三维姿态的扩展关键点。

在实际应用中，基准关键点可以为COCO数据集中提供的17个人体关键点，而扩展关键点则与这17个人体关键点中的一个或多个协同表征所属部位的不同三维姿态。例如，为了表征人体头部的三维姿态，扩展关键点可以为头顶关键点和/或下巴关键点，与鼻尖关键点(基准关键点)协同表征头部的抬头、点头、转头等动作；再如，为了表征人体手部的三维姿态，扩展关键点可以为大拇指关键点、手心关键点及中指关键点中的至少一个，与手腕关键点(基准关键点)协同表征手部的三维姿态，如手腕的旋转；再如，为了表征人体腰部的三维姿态，扩展关键点可以为胯中点关键点，与左胯关键点和/或右胯关键点(基准关键点)协同表征腰部的三维姿态，如腰部扭转。在一些实施例中，扩展关键点的数量为16个，与COCO数据集提供的17个人体关键点共同组成33关键点集。

接下来对关键点集中扩展关键点的获取进行说明。在实际实施时，可以通过均值增点、单独识别等方式获取扩展关键点，例如，采用均值增点的方式，取左胯关键点及右胯关键点的中点作为胯中点关键点，采用均值增点的方式，取左肩关键点及右肩关键点的中点作为脖子(华盖穴)关键点；可通过单独识别的方式获取人体手部及脚部的关键点，具体地，可构建或采用相关技术中的手部和/脚部的识别模型，输入包含手部或脚部的图像，输出相应的扩展关键点信息。

示例性地，以获取手部扩展关键点为例进行说明，图7为本申请实施例提供的获取手部扩展关键点的流程示意图，参见图7，首先对包含人体的图像进行剪裁，得到手部的图像，然后将剪裁得到的图像输入至手部关键点模型，得到包含大拇指关键点、手心关键点及中指关键点等的手部关键点集。

这里，对人体手部或脚部的图像的获取进行说明，继续参见图7，在一些实施例中，可通过如下方式剪裁得到手部的图像：以手腕关键点为中心，以手腕关键点与相应肩关键点之间的长度为边长，或者以手腕关键点与相应手肘关键点之间的长度为边长，剪裁得到包含手部的正方形图像，作为手部关键点模型的输入。在一些实施例中，可通过如下方式剪裁得到脚部的图像：以脚踝关键点为中心，以脚踝关键点与相应膝盖关键点的长度为边长，或者以脚踝关键点与相应胯关键点的长度为边长，剪裁得到包含脚部的正方形图像，作为脚部关键点模型的输入。

示例性地，继续参见图7，图7中编号2对应人体右肩关键点，编号3对应右手肘关键点，编号4对应右手腕关键点，以右手腕关键点为中心，以右手腕关键点与人体右肩关键点之间的连线4-2为边长，对图像进行剪裁得到包含右手的正方形图像。

基于上述对关键点集的说明，接下来对配置场景进行介绍，图8A至图8D为本申请实施例提供的对应不同类型的配置场景的人体关键点的示意图，在一些实施例中，配置场景的类型可以包括四种，分别对应关键点集中不同数量的人体关键点，以关键点集为上述33关键点集为例，图8A为本申请实施例提供的对应第一种配置场景的人体关键点的示意图，第一种配置场景可以对应关键点集中的全量关键点(即33个人体关键点)；图8B为本申请实施例提供的对应第二种配置场景的人体关键点的示意图，第二种配置场景可以对应关键点集中人体上半身的20个人体关键点；图8C为本申请实施例提供的对应第三种配置场景的人体关键点的示意图，第三种配置场景可以对应关键点集中人体上半身的8个人体关键点；图8D为本申请实施例提供的对应第四种配置场景的人体关键点的示意图，第四种配置场景对应关键点集中人体全身的15个人体关键点。

在一些实施例中，姿态识别模型所包括的特征图模型可以为基于Darknet框架的神经网络模型，通过特征图模型对输入的图像(如样本图像)进行特征提取，得到相应的特征图。图9为本申请实施例提供的进行特征图提取的示意图，参见图9，特征图模型在进行特征提取时，采用Darknet框架，可基于边界框(bbox，Bounding box)采用滑窗的方式得到对应输入图像的特征图，Bounding box指的是能恰好环绕物体的一个最小面积矩形框，用于标定物体的位置与相对大小，定义一个物体在图像中所占据的范围。

步骤602：通过所述姿态识别模型包括的二维模型，对所述特征图进行处理，获得用于表征二维人体姿态的二维关键点参数。

服务器将特征图输入姿态识别模型包括的二维模型，输出用于表征二维人体姿态的二维关键点参数。

在一些实施例中，二维模型可以为卷积神经网络模型，输出的二维关键点参数可包括人体关键点的部分亲和字段(PAF，Part Affinity Fields)参数及人体关键点的热力图(Heatmap)。

这里，人体关键点的PAF参数可以为对应人体关键点的二维方向向量，表示人体骨骼关节(肢体)的位置和方向，也表征了两个人体关键点的关联程度，进而可基于人体关键点的PAF参数确定人体关键点的归属人，在实际应用中，人体关键点的PAF参数可以包括人体关键点的坐标参数。

人体关键点的热力图指的是对人体关键点在原图像大小的灰度图中，在相同位置用圆形高斯表示，也即表征输入的特征图中的像素属于人体关键点的概率，图10为本申请实施例提供的人体关键点热力图的示意图，参见图10，对于人体左手肘关键点来说，热力图表征了像素点为左手肘关键点的概率，即用概率表达的形式反映左手肘关键点在该像素点处出现的可能性，像素点距离左手肘关键点越近概率越高，距离左手肘关键点越远概率越低，也即像素点(如图10中编号2)为左手肘关键点的概率和像素点距离中心点(如图10中编号1)的相对位置关系服从高斯分布。

步骤603：通过所述姿态识别模型包括的三维模型，对从所述特征图中剪裁出的目标人体特征图及所述二维关键点参数进行处理，获得用于表征三维人体姿态的三维姿态参数。

服务器可以将从特征图中剪裁出的目标人体特征图及二维关键点参数，输入姿态识别模型包括的三维模型，输出用于表征三维人体姿态的三维姿态参数。

在实际实施时，三维模型输出的人体三维姿态参数所对应的是单个人体，因此，在将特征图输入三维模型之前，若样本图像包括多个人体，可以对特征图模型输出的特征图进行目标人体剪裁，在一些实施例中，服务器可采用如下方式实现对特征图的剪裁：

服务器基于二维模型输出的二维关键点参数，确定特征图中的目标人体，根据确定的目标人体对特征图进行剪裁，得到目标人体的特征图。也就是说，输入特征图模型的样本图像可以包含多个人体，基于二维模型识别得到的二维关键点参数，确定人体关键点所属的人体，进而对单个人体进行剪裁，得到对应单个人体的特征图。

在一些实施例中，三维模型可为卷积神经网络模型，服务器将剪裁得到的目标人体特征图与二维模型输出的人体关键点的热力图进行拼接，并将拼接结果输入三维模型，例如，对目标人体的特征图及人体关键点的热力图进行Concat拼接，即将热力图及特征图以两个矩阵拼接，以将拼接结果输入三维模型。

在一些实施例中，三维模型输出的三维姿态参数包括人体的形状参数(shape)及形态参数(pose)；其中，形状参数可以表征人体的高矮肥瘦等，而形态参数可以表征人体的位姿等，基于人体的三维姿态参数可构建人体的三维蒙皮模型。

步骤604：结合二维关键点参数及三维姿态参数，构建目标损失函数。

在一些实施例中，姿态识别模型的目标损失函数包括对应三维模型的第一损失函数；服务器可通过如下方式实现第一损失函数的构建：服务器基于三维模型输出的三维姿态参数，确定相应的二维关键点信息，结合二维模型输出的二维关键点参数、以及得到的二维关键点信息，构造对应三维模型的第一损失函数。可见，对应三维模型的第一损失函数的构建采用了二维关键点信息作为约束，使得三维模型的输出准确度更高。

示例性地，服务器基于三维姿态参数包括的形状参数及形态参数，通过投影矩阵函数计算二维人体关键点的位置，然后基于关键点集中人体关键点的位置与基于三维姿态参数计算得到的二维人体关键点的位置的差异、以及二维模型输出的二维人体关键点的位置与基于三维姿态参数计算得到的二维人体关键点的位置的差异，构造对应三维模型的第一损失函数。

例如，在实际应用中，所构造的第一损失函数Loss1可以为：

Loss 1＝av(Xgt-r(Xp)) ²+b(X2dp-r(Xp)) ² (1)

相应的，第一损失函数的约束为：

min Loss(Xgt，r，a，b)＝av|(Xgt)-r(Xp)|+b|X2dp-r(Xp)| (2)

其中，a和b均为第一损失函数中的权重系数；v表示人体关键点X在二维图像中是否可见；Xp为三维模型输出的三维姿态参数，即形状参数和形态参数；r(Xp)表示基于三维姿态参数，通过投影矩阵函数r()反算出来的二维人体关键点的位置；Xgt表示人体关键点X在关键点集中的位置；X2dp为二维模型预测得到的人体关键点X的位置。

基于上述函数(1)及(2)可知，所构建的对应三维模型的第一损失函数中采用了二维人体姿态信息作为约束，如此，可提升三维模型输出的三维姿态参数的准确度。

在一些实施例中，姿态识别模型的目标损失函数还包括对应二维模型的损失函数及对应三维模型的第二损失函数；相应的，服务器可通过如下方式构建对应二维模型的损失函数及对应三维模型的第二损失函数：

结合二维模型输出的部分亲和字段参数与相应人体关键点在样本图像中的部分亲和字段参数的差异、二维模型输出的热力图与相应人体关键点在样本图像中的热力图的差异，构建对应二维模型的损失函数；

结合三维模型输出的形状参数与相应人体在样本图像中的形状参数的差异、三维模型输出的形态参数与相应人体在样本图像中的形态参数的差异，构建对应三维模型的第二损失函数。

例如，在实际应用中，所构造的对应二维模型的损失函数Loss2可以为：

Loss 2＝(PAF-PAF') ²+(heatmap-heatmap') ² (3)

其中，(PAF-PAF') ²表示二维模型输出的PAF参数与相应人体关键点在样本图像中的PAF参数的差异，(heatmap-heatmap') ²表示三维模型输出的形态参数与相应人体在样本图像中的形态参数的差异。

例如，在实际应用中，所构造的三维模型的第二损失函数Loss3可以为：

Loss 3＝(β-β') ²+(θ-θ') ² (4)

其中，β为人体形状参数，θ为人体形态参数，(β-β') ²表示三维模型输出的形状参数与相应人体在样本图像中的形状参数的差异，(θ-θ') ²表示三维模型输出的形态参数与相应人体在样本图像中的形态参数的差异。

基于上述对姿态识别模型所包括的二维模型的损失函数及三维模型的损失函数的说明，可知，在一些实施例中，姿态识别模型的目标损失函数可以为：

Loss＝(PAF-PAF') ²+(heatmap-heatmap') ²+(β-β') ²+(θ-θ') ²+av(Xgt-r(Xp)) ²+b(X2dp-r(Xp)) ² (5)

步骤605：基于目标损失函数，更新姿态识别模型的模型参数。

在一些实施例中，服务器可采用如下方式实现姿态识别模型的模型参数的更新：

服务器基于二维模型输出的二维关键点参数及三维模型输出的三维姿态参数，确定目标损失函数的值，并判断目标损失函数的值是否超出预设阈值，当目标损失函数的值超出预设阈值时，基于目标损失函数确定姿态识别模型的误差信号，将误差信号在姿态识别模型中反向传播，并在传播的过程中更新各个层的模型参数。

这里对反向传播进行说明，将训练样本数据输入到神经网络模型的输入层，经过隐藏层，最后达到输出层并输出结果，这是神经网络模型的前向传播过程，由于神经网络模型的输出结果与实际结果有误差，则计算输出结果与实际值之间的误差，并将该误差从输出层向隐藏层反向传播，直至传播到输入层，在反向传播的过程中，根据误差调整模型参数的值；不断迭代上述过程，直至收敛。

以姿态识别模型的目标损失函数为(5)为例，服务器基于目标损失函数确定误差信号，分别从二维模型及三维模型的输出层反向传播，逐层反向传播误差信号，在误差信号到达每一层时，结合传导的误差信号来求解梯度(也就是Loss函数对该层参数的偏导数)，将该层的参数更新对应的梯度值。

在一些实施例中，图11是本申请实施例提供的基于姿态识别模型的图像识别方法的流程示意图，如图11所示，本申请实施例提供的基于姿态识别模型的图像识别方法主要包括三个阶段，分别为数据准备阶段、模型训练阶段及模型应用阶段，接下来分别进行说明。

1、数据准备阶段；

数据准备阶段主要实现了包含33个人体关键点的关键点集的构建，以及不同类型配置场景(setting)对应的不同人体关键点数量的选择。

其中，本实施例所采用的关键点集在COCO数据集的17个人体关键点(亦可为Openpose的18个人体关键点)的基础上，增加头顶，下巴的关键点，以方便表征点头抬头的旋转；在手腕部分增加了中指与大拇指的关键点，与手心关键点一并表征手腕的旋转；为了兼容三维模型中常见的位于跨中的root点，以及相关骨骼信息，增加了跨中点；脚上同样通过脚跟，左脚尖，右脚尖来表征其三维信息。关键点集一共包含个人体关键点33点，通过新增的扩展关键点，让二维姿态识别过程中包含了更多肢体三维旋转的信息。

这里，在实际实施中，所构建的关键点集包括COCO数据集提供的17个人体关键点，剩余的16个人体关键点为扩展关键点，可以基于上述17个人体关键点，通过均值增点，以及单独识别的方式获取手脚部位的扩展关键点，然后经融合数据的办法获得33点的数据。其中如胯中点可以由左跨关键点及右跨关键点计算得到，脖子(华盖穴)则可由左肩关键点及右肩关键点计算得到。

在实际实施中，对于扩展关键点的获取既可采用相关技术中提供的手脚部分的关键点检测模型识别得到，也可单独训练用于识别对应手脚部位的扩展关键点的检测模型，使得该检测模型具备依据输入的包含手或脚的图像，输出相应的扩展关键点信息的性能。而对输入检测模型之前的图像的剪裁可参照前述实施例的描述，此处不做赘述。

在实际应用中，对于不同的setting，进行姿态识别模型训练时所采用的样本图像中标注不同数量的人体关键点，例如，对于人体上半身的20个人体关键点的setting来说，进行模型训练时，便可只对样本图像中该20个人体关键点进行标注，避免了标注33个人体关键点所造成的计算资源的浪费。

2、模型训练阶段；

在一些实施例中，训练得到的模型为全卷积神经网络(FCN，Fully Convolutional Networks)模型，包括三部分，分别为特征图模型(例如DarknetX)、二维模型及三维模型，实现二维模型及三维模型的联合训练。在进行模型训练时，根据业务需求选取相应的setting，即选取相应的人体关键点配置，经DarknetX输出的特征图，输入至二维模型，通过PAF以及heatmap使用L2的loss训练，通过NMS以及PAF的Grouping操作获得人体二维关键点的位置及方向信息，并确定人体关键点的归属人；在联合训练三维模型时，需要对DarknetX输出的特征图进行剪裁，得到单个人体的目标人体特征图，然后将目标人体特征图与二维模型输出的热力图进行Concat拼接作为三维模型的输入，这主要是利用二维人体关键点，减少三维模型所需的计算量，只需回归目标单人的情况，并且共享和复用了DarknetX输出的特征图。

3、模型应用阶段；

对于模型输出的人体三维信息可用于人体的三维姿态识别及三维蒙皮模型驱动，例如根据得到的用户的三维姿态参数(shape、pose)驱动一个三维人物模型同步用户的动作。

对于模型输出的人体二维信息可用于人体的二维姿态识别，在实际应用中，可用于静态动作识别和时序动作识别，例如，终端屏幕显示动画人物的动作，终端采集用户模仿该动画人物的动作，终端进行二维姿态识别，根据动作契合程度进行评分等。

接下来对本申请实施例训练得到的姿态识别模型的应用进行说明，在一些实施例中，姿态识别模型可用于图像识别，以终端中设置有图像识别客户端为例，图12为本申请实施例提供的采用姿态识别模型进行图像识别的流程示意图，参见图12，终端将包含人体的待识别图像，输入姿态识别模型包括的特征图模型，输出对应待识别图像的特征图；将特征图输入姿态识别模型包括的二维模型，输出用于表征二维人体姿态的二维关键点参数，二维关键点参数用于识别得到人体的二维姿态；将从特征图中剪裁出的目标人体特征图及二维关键点参数，输入姿态识别模型包括的三维模型，输出用于表征三维人体姿态的三维姿态参数，三维姿态参数用于识别得到人体的三维姿态。

在一些实施例中，终端输出特定人物姿态的图像后，采集得到待识别图像，终端基于二维模型输出的二维关键点参数，识别得到待识别图像中人体的二维姿态，将识别得到的二维姿态与特定人物姿态进行相似度匹配，得到匹配结果，输出用于表征匹配结果的提示信息。

示例性地，以终端中设置有舞蹈游戏客户端为例，图13为本申请实施例提供的姿态识别模型的应用场景示意图，参见图13，终端通过舞蹈游戏客户端展示动画人物的动作即特定人物姿态，用户根据终端屏幕上的动作提示做出相应的动作，终端采集用户的动作图像即待识别图像，并将待识别图像输入至姿态识别模型，进行二维人体姿态识别，将识别结果与动画人物的姿态进行相似度匹配，并根据得到的相似度输出相应的提示信息，如输出相应的评分、“great”、“good”、“miss”等提示。

在一些实施例中，终端基于三维模型输出的三维姿态参数，构建对应目标人体的三维人体模型；控制三维人体模型执行目标动作，目标动作与目标人体所执行的动作相匹配。

示例性地，以终端中设置有人体三维模型客户端，图14为本申请实施例提供的姿态识别模型的应用场景示意图，参见图14，终端进行用户图像采集得到待识别图像，将待识别图像输入至姿态识别模型，进行三维人体姿态识别，根据输出的三维姿态参数进行三维蒙皮模型构建，并控制三维蒙皮模型同步用户的动作。

接下来对本申请实施例提供的装置采用软件单元实施进行说明。图15为本申请实施例提供的姿态识别模型的训练装置的组成结构示意图，参见图15，本申请实施例的姿态识别模型的训练装置包括：

第一处理单元151，用于通过姿态识别模型包括的特征图模型，对标注有人体关键点的样本图像进行处理，获得对应所述样本图像的特征图；

第二处理单元152，用于通过所述姿态识别模型包括的二维模型，对所述特征图进行处理，获得用于表征二维人体姿态的二维关键点参数；

第三处理单元153，用于通过所述姿态识别模型包括的三维模型，对从所述特征图中剪裁出的目标人体特征图及所述二维关键点参数进行处理，获得用于表征三维人体姿态的三维姿态参数；

构建单元154，用于结合所述二维关键点参数及所述三维姿态参数，构建目标损失函数；

更新单元155，用于基于所述目标损失函数，更新所述姿态识别模型的模型参数。

在一些实施例中，所述装置还包括：

在一些实施例中，所述关键点集包括：

用于定位人体部位的基准关键点、以及与所述基准关键点协同表征所属部位的不同三维姿态的扩展关键点。

在一些实施例中，所述目标损失函数包括对应所述三维模型的第一损失函数；

在一些实施例中，所述目标损失函数还包括对应所述二维模型的损失函数及对应所述三维模型的第二损失函数；所述二维关键点参数包括：人体关键点的部分亲和字段参数及人体关键点的热力图，所述三维姿态参数包括：人体的形状参数及形态参数；

在一些实施例中，所述装置还包括：

在一些实施例中，所述更新单元，还用于基于所述二维关键点参数及所述三维姿态参数，确定所述目标损失函数的值；

图15为本申请实施例提供的基于姿态识别模型的图像识别装置的组成结构示意图，参见图16，本申请实施例的基于姿态识别模型的图像识别装置160包括：

第一获取单元161，用于通过所述姿态识别模型包括的特征图模型，对包含人体的待识别图像进行处理，获得对应所述待识别图像的特征图；

第二获取单元162，用于通过所述姿态识别模型包括的二维模型，对所述特征图进行处理，获得用于表征二维人体姿态的二维关键点参数，所述二维关键点参数用于识别得到所述人体的二维姿态；

第三获取单元163，用于通过所述姿态识别模型包括的三维模型，对从所述特征图中剪裁出的目标人体特征图及所述二维关键点参数进行处理，获得用于表征三维人体姿态的三维姿态参数，所述三维姿态参数用于识别得到所述人体的三维姿态。

在一些实施例中，所述装置还包括：

将识别得到的所述二维姿态与所述特定人物姿态进行相似度匹配，得到匹配结果；

提示单元，用于输出用于表征所述匹配结果的提示信息。

在一些实施例中，所述装置还包括：

这里需要指出的是：以上涉及装置的描述，与上述方法描述是类似的，同方法的有益效果描述，不做赘述，对于本申请实施例所述装置中未披露的技术细节，请参照本申请方法实施例的描述。

本申请实施例还提供一种存储有可执行指令的存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的姿态识别模型的训练方法。

本申请实施例还提供一种存储有可执行指令的存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的基于姿态识别模型的图像识别方法。

在一些实施例中，存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper Text Markup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

一种姿态识别模型的训练方法，所述方法应用于图像处理设备，所述方法包括：

通过姿态识别模型包括的特征图模型，对标注有人体关键点的样本图像进行处理，获得对应所述样本图像的特征图；

通过所述姿态识别模型包括的二维模型，对所述特征图进行处理，获得用于表征二维人体姿态的二维关键点参数；

通过所述姿态识别模型包括的三维模型，对从所述特征图中剪裁出的目标人体特征图及所述二维关键点参数进行处理，获得用于表征三维人体姿态的三维姿态参数；

结合所述二维关键点参数及所述三维姿态参数，构建目标损失函数；

基于所述目标损失函数，更新所述姿态识别模型的模型参数。
如权利要求1所述的方法，通过姿态识别模型包括的特征图模型，对标注有人体关键点的样本图像进行处理，获得对应所述样本图像的特征图之前，所述方法还包括：

根据配置场景的类型，从关键点集中确定所述人体关键点；

基于所述人体关键点，参照所述关键点集对所述样本图像进行标注。
如权利要求2所述的方法，所述关键点集包括：

用于定位人体部位的基准关键点、以及与所述基准关键点协同表征所属部位的多种三维姿态的扩展关键点。
如权利要求1所述的方法，所述目标损失函数包括对应所述三维模型的第一损失函数；所述结合所述二维关键点参数及所述三维姿态参数，构建目标损失函数，包括：

基于所述三维姿态参数，确定相应的二维关键点信息；

结合所述二维关键点参数以及所述二维关键点信息，构造所述第一损失函数。
如权利要求4所述的方法，所述目标损失函数还包括对应所述二维模型的损失函数及对应所述三维模型的第二损失函数；所述二维关键点参数包括：所述人体关键点的部分亲和字段参数及所述人体关键点的热力图，所述三维姿态参数包括：人体的形状参数及形态参数；

所述结合所述二维关键点参数及所述三维姿态参数，构建目标损失函数，包括：

结合所述二维模型输出的部分亲和字段参数与所述人体关键点在样本图像中的部分亲和字段参数的差异、所述二维模型输出的热力图与相应人体关键点在样本图像中的热力图的差异，构建对应所述二维模型的损失函数；

结合所述三维模型输出的形状参数与相应人体在样本图像中的形状参数的差异、所述三维模型输出的形态参数与相应人体在样本图像中的形态参数的差异，构建对应所述第二损失函数。
如权利要求1所述的方法，通过所述姿态识别模型包括的三维模型，对从所述特征图中剪裁出的目标人体特征图及所述二维关键点参数进行处理，获得用于表征三维人体姿态的三维姿态参数之前，所述方法还包括：

基于所述二维关键点参数，确定所述特征图中的目标人体；

根据所述目标人体对所述特征图进行剪裁，得到所述目标人体特征图。
如权利要求1所述的方法，所述基于所述目标损失函数，更新所述姿态识别模型的模型参数，包括：

基于所述二维关键点参数及所述三维姿态参数，确定所述目标损失函数的值；

当所述目标损失函数的值超出预设阈值时，基于所述目标损失函数确定所述姿态识别模型的误差信号；

将所述误差信号在所述姿态识别模型中反向传播，并在传播的过程中更新各个层的模型参数。
一种基于姿态识别模型的图像识别方法，所述方法应用于图像处理设备，所述方法包括：

通过所述姿态识别模型包括的特征图模型，对包含人体的待识别图像进行处理，获得对应所述待识别图像的特征图；

通过所述姿态识别模型包括的二维模型，对所述特征图进行处理，获得用于表征二维人体姿态的二维关键点参数，所述二维关键点参数用于识别得到所述人体的二维姿态；

通过所述姿态识别模型包括的三维模型，对从所述特征图中剪裁出的目标人体特征图及所述二维关键点参数进行处理，获得用于表征三维人体姿态的三维姿态参数，所述三维姿态参数用于识别得到所述人体的三维姿态。
如权利要求8所述的方法，所述方法还包括：

基于所述二维关键点参数，识别得到所述待识别图像中人体的二维姿态；所述待识别图像为基于输出的特定人物姿态的图像采集得到的；

将所述二维姿态与所述特定人物姿态进行相似度匹配，得到匹配结果；

输出用于表征所述匹配结果的提示信息。
如权利要求8所述的方法，所述方法还包括：

基于所述三维姿态参数，构建对应所述目标人体的三维人体模型；

控制所述三维人体模型执行目标动作，所述目标动作与所述目标人体所执行的动作相匹配。
一种姿态识别模型的训练装置，所述装置包括：

第一处理单元，用于通过姿态识别模型包括的特征图模型，对标注有人体关键点的样本图像进行处理，获得对应所述样本图像的特征图；

第二处理单元，用于通过所述姿态识别模型包括的二维模型，对所述特征图进行处理，获得用于表征二维人体姿态的二维关键点参数；

第三处理单元，用于通过所述姿态识别模型包括的三维模型，对从所述特征图中剪裁出的目标人体特征图及所述二维关键点参数进行处理，获得用于表征三维人体姿态的三维姿态参数；

构建单元，用于结合所述二维关键点参数及所述三维姿态参数，构建目标损失函数；

更新单元，用于基于所述目标损失函数，更新所述姿态识别模型的模型参数。
一种基于姿态识别模型的图像识别装置，所述装置包括：

第一获取单元，用于通过所述姿态识别模型包括的特征图模型，对包含人体的待识别图像进行处理，获得对应所述待识别图像的特征图；

第二获取单元，用于通过所述姿态识别模型包括的二维模型，对所述特征图进行处理，获得用于表征二维人体姿态的二维关键点参数，所述二维关键点参数用于识别得到所述人体的二维姿态；

第三获取单元，用于通过所述姿态识别模型包括的三维模型，对从所述特征图中剪裁出的目标人体特征图及所述二维关键点参数进行处理，获得用于表征三维人体姿态的三维姿态参数，所述三维姿态参数用于识别得到所述人体的三维姿态。
如权利要求12所述的装置，所述装置还包括：

匹配单元，用于基于所述二维关键点参数，识别得到所述待识别图像中人体的二维姿态；所述待识别图像为基于输出的特定人物姿态的图像采集得到的；；

将识别得到的所述二维姿态与所述特定人物姿态进行相似度匹配，得到匹配结果；

提示单元，用于输出用于表征所述匹配结果的提示信息。
一种图像处理设备，所述设备包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至10中任一项所述的方法。
一种存储介质，所述存储介质存储有可执行指令，当其被处理器执行时，实现权利要求1至10中任一项所述的方法。