WO2023185037A1

WO2023185037A1 - 动作检测方法、装置、电子设备及存储介质

Info

Publication number: WO2023185037A1
Application number: PCT/CN2022/134872
Authority: WO
Inventors: 丁业峰; 毛宁元; 许亮
Original assignee: 上海商汤智能科技有限公司
Priority date: 2022-03-31
Filing date: 2022-11-29
Publication date: 2023-10-05
Also published as: CN114842459A

Abstract

一种动作检测方法、装置、电子设备及存储介质，所述动作检测方法包括：获取场景区域的视频流（S101）；基于所述视频流中的多个图像帧，检测所述场景区域内的目标对象的动作方向（S102）；检测所述多个图像帧中所述目标对象的骨骼关键点（S103）；根据检测得到的所述骨骼关键点中与所述动作方向对应的目标关键点之间的几何关系，确定所述目标对象的动作信息（S104）。

Description

动作检测方法、装置、电子设备及存储介质

相关申请的交叉引用

本公开要求于2022年03月31日提交的、申请号为202210346615.4的中国专利申请的优先权，该申请以引用的方式并入本文中。

技术领域

本公开涉及图像检测技术领域，尤其涉及一种动作检测方法、装置、电子设备及存储介质。

背景技术

随着人工智能技术的不断发展，图像、视频检测的种类越来越多，效果越来越好，尤其是将检测技术应用于安全防护领域能够避免用户发生危险。以车舱场景为例，可以通过图像处理技术检测车舱环境和人员的安全性。可以在车辆行驶过程中或驻停状态下通过采集车内图像、视频，来检测车辆内的人是否发生危险动作，从而可以提高驾驶和乘车安全。但是，相关技术中对人的动作检测容易出现误判，用户的使用体验较差。

发明内容

本公开提供一种动作检测方法、装置、设备及存储介质，以解决相关技术中的缺陷。

根据本公开实施例的第一方面，提供一种动作检测方法，包括：

获取场景区域的视频流；

基于所述视频流中的多个图像帧，检测所述场景区域内的目标对象的动作方向；

检测所述多个图像帧中所述目标对象的骨骼关键点；

根据检测得到的所述骨骼关键点中与所述动作方向对应的目标关键点之间的几何关系，确定所述目标对象的动作信息。

在一个实施例中，所述基于所述视频流中的多个图像帧，检测所述场景区域内的目标对象的动作方向，包括：

提取所述多个图像帧中每个图像帧内的所述目标对象的特征；

根据所述多个图像帧中每个图像帧内的所述目标对象的特征，确定所述目标对象在所述视频流中的光流信息；

根据所述目标对象在所述视频流中的光流信息，确定所述场景区域内的所述目标对象的动作方向。

在一个实施例中，每个动作方向对应一个目标动作；

所述根据检测得到的所述骨骼关键点中与所述动作方向对应的目标关键点之间的几何关系，确定所述目标对象的动作信息，包括：

在检测得到的所述骨骼关键点中与所述动作方向对应的目标关键点之间的几何关系，满足所述动作方向对应的第一预设条件的情况下，确定所述目标对象存在所述动作方向对应的目标动作；

否则，确定所述目标对象无所述动作方向对应的目标动作。

在一个实施例中，所述骨骼关键点包括：左肩关键点、右肩关键点、左手腕关键点、右手腕关键点、左肘关键点、右肘关键点、左耳关键点、右耳关键点；

所述根据检测得到的所述骨骼关键点中与所述动作方向对应的目标关键点之间的几何关系，确定所述目标对象的动作信息，包括以下至少一项：

在动作方向为左的情况下，响应于右肩关键点至左肩关键点的第一目标向量与水平向右的标准向量间夹角的正切值为正数且正切值的绝对值大于第一阈值的情况下，确定所述目标对象存在身体左倾动作；

在动作方向为右的情况下，响应于右肩关键点至左肩关键点的第一目标向量与水平向右的标准向量间夹角的正切值为负数，且正切值的绝对值大于第一阈值的情况下，确定所述目标对象存在身体右倾动作；

在动作方向为上的情况下，响应于如下第一情形或第二情形，确定所述目标对象存在捂胸口动作；其中，所述第一情形包括：第二目标向量和第三目标向量的夹角大于第二阈值，左手腕关键点低于右肩关键点且左手腕关键点与右肩关键点的竖直距离大于第三阈值，其中，所述第二目标向量为左肘关键点至左手腕关键点的向量、所述第三目标向量为左肘关键点至左肩关键点的向量；所述第二情形包括：第四目标向量和第五目标向量的夹角大于第二阈值，右手腕关键点低于左肩关键点，且右手腕关键点与左肩关键点的竖直距离大于第三阈值；其中，所述第四目标向量为右肘关键点至右手腕关键点的向量、所述第五目标向量为右肘关键点至右肩关键点的向量；或，

在动作方向为下的情况下，响应于左耳关键点低于左肩关键点且左耳关键点与左肩关键点的垂直距离大于第四阈值，和/或，响应于右耳关键点低于右肩关键点且右耳关键点与右肩关键点的垂直距离大于第四阈值，确定所述目标对象存在前倾趴倒动作。

检测所述视频流内的目标对象是否存在运动；

在所述视频流内的目标对象存在运动的情况下，基于所述视频流中的多个图像帧，检测所述场景区域内的目标对象的动作方向。

在一个实施例中，所述根据检测得到的所述骨骼关键点中与所述动作方向对应的目标关键点之间的几何关系，确定所述目标对象的动作信息，包括：

对于所述视频流中的多个图像帧中每个图像帧，根据该图像帧中检测得到的所述骨骼关键点中与所述动作方向对应的目标关键点之间的几何关系，确定该图像帧中所述目标对象的动作信息；

对所述多个图像帧中所述目标对象的动作信息进行平滑处理，得到基于所述多个图像帧确定的所述目标对象的目标动作信息。

在一个实施例中，还包括：

在获取所述场景区域的所述视频流的过程中，实时缓存所述视频流中最新的预设数量的图像帧；

所述对所述多个图像帧中所述目标对象的动作信息进行平滑处理，得到基于所述多个图像帧确定的所述目标对象的目标动作信息，包括：

对所述缓存的预设数量的图像帧中目标对象的动作信息进行平滑处理，得到基于所述缓存的预设数量的图像帧确定的所述目标对象的目标动作信息。

在一个实施例中，所述实时缓存最新的预设数量的图像帧，包括：

检测所述视频流中每个图像帧中是否存在目标对象的预设关键信息，其中，所述预设关键信息包括人脸、至少部分身体和骨骼关键点中的至少一项；

实时缓存所述视频流中存在所述目标对象的预设关键信息的图像帧中，最新的预设数量的图像帧。

在一个实施例中，所述场景区域包括车舱场景区域；

所述获取场景区域的视频流，包括：

在车辆的车门处于锁闭状态，和/或，车辆的车速达到预设速度阈值的情况下，获取所述场景区域的视频流。

在一个实施例中，还包括：

检测所述视频流中的多个对象；

根据所述多个对象中每个对象在车舱内的位置，和/或所述多个对象中每个对象的人脸信息，在所述多个对象中确定所述目标对象。

在一个实施例中，还包括：

在所述目标对象的动作信息表征所述目标对象存在目标动作的情况下，发送报警信息至服务平台。

根据本公开实施例的第二方面，提供一种动作检测装置，包括：

获取模块，用于获取场景区域的视频流；

方向模块，用于基于所述视频流中的多个图像帧，检测所述场景区域内的目标对象的动作方向；

检测模块，用于检测所述多个图像帧中所述目标对象的骨骼关键点；

确定模块，用于根据检测得到的所述骨骼关键点中与所述动作方向对应的目标关键点之间的几何关系，确定所述目标对象的动作信息。

在一个实施例中，所述方向模块具体用于：

在一个实施例中，每个动作方向对应一个目标动作；

所述确定模块具体用于：

否则，确定所述目标对象无所述动作方向对应的目标动作。

所述确定模块具体用于以下至少一项：

在一个实施例中，所述方向模块具体用于：

检测所述视频流内的目标对象是否存在运动；

在一个实施例中，所述确定模块具体用于：

在一个实施例中，还包括缓存模块，用于：

所述确定模块用于对所述多个图像帧中所述目标对象的动作信息进行平滑处理，得到基于所述多个图像帧确定的所述目标对象的目标动作信息时，具体用于：

对所述缓存的预设数量的图像帧中所述目标对象的动作信息进行平滑处理，得到基于所述缓存的预设数量的图像帧确定的所述目标对象的目标动作信息。

在一个实施例中，所述缓存模块具体用于：

在一个实施例中，所述场景区域包括车舱场景区域；

所述获取模块具体用于：

在一个实施例中，还包括目标模块，用于：

检测所述视频流中的多个对象；

在一个实施例中，还包括报警模块，用于：

根据本公开实施例的第三方面，提供一种电子设备，所述设备包括存储器、处理器，所述存储器用于存储可在处理器上运行的计算机指令，所述处理器用于在执行所述计算机指令时实现第一方面所述的方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现第一方面所述的方法。

根据上述实施例可知，通过获取场景区域的视频流，可以基于所述视频流中的多个图像帧，检测场景区域内的目标对象的动作方向，然后可以检测所述图像帧中所述目标对象的骨骼关键点，最后可以根据骨骼关键点中与所述动作方向对应的目标关键点之间的几何关系，确定目标对象的动作信息。由于目标关键点之间的几何关系较为客观准确，因此可以准确的检测到目标对象是否存在危险动作，而且在判断动作信息之前引入动作方向检测结果来针对性的分析目标关键点之间的几何关系，从而减少了动作检测的时空复杂度，使动作检测具有针对性，进一步提高检测的准确性。若将该检测方法应用于车辆内，则可以准确的检测车辆内的驾驶员和乘客是否发生危险，从而可以提升乘车的安全性，提高了用户的使用体验。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1示出了本公开一实施例的动作检测方法的流程图；

图2示出了本公开一实施例的骨骼关键点的结构示意图；

图3示出了本公开一实施例的车辆行驶场景下的动作检测方法的完整流程图；

图4示出了本公开实施例的动作检测装置的结构示意图；

图5示出了本公开实施例的电子设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在本公开使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本公开可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本公开范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

第一方面，本公开至少一个实施例提供了一种动作检测方法，请参照附图1，其示出了该方法的流程，包括步骤S101至步骤S103。

其中，该方法可以用于对场景区域的视频流内的目标对象进行动作检测。例如，检测视频流中的目标对象是否发生目标动作，目标动作可以为危险动作，也就是说，该方法可以用于检测场景区域的视频流中的目标对象是否发生危险动作。该方法可以应用于车辆行驶等场景中，在该场景中可以检测驾驶员或乘客是否发生危险动作。危险动作可以预先定义，示例性地，危险动作可以为身体左倾、身体右倾、捂胸口或前倾趴倒等。

视频流可以为图像采集设备针对场景区域所录制的视频。例如在车辆行驶的场景中，场景区域可以为车舱场景区域。场景区域的视频流可以为车舱内安装的摄像头所采集的视频，该视频流可以是车舱内针对驾驶员所采集的视频，或者车舱内针对乘客所采集的视频。

另外，该方法可以由终端设备或服务器等电子设备执行，终端设备可以为用户设备(User Equipment，UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字处理(Personal Digital Assistant，PDA)手持设备、计算设备、车载设备、可穿戴设备等，该方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。或者，可以通过服务器执行该方法，服务器可以为本地服务器、云端服务器等。在车辆行驶的场景中，该方法可以由智能紧急求救系统(Artificial Inteligience Emergency Call)执行，该系统与车舱内的摄像头连接，从而可以获取摄像头所采集的车舱场景区域的视频流。

在步骤S101中，获取场景区域的视频流。

其中，场景区域的视频流可以为图像采集设备录制的视频，其中的图像采集设备可以为手机、相机、摄像头等具备图像采集功能的电子设备。场景区域的视频流内具有目标对象，目标对象指的是视频流中需要检测动作的人物，视频流除目标对象之外的区域为背景区域和其他对象(其他对象也可能不不存在)，例如车辆行驶场景中的目标对象可以为驾驶员或者特定乘客。因此，可以在获取场景区域的视频流后，检测所述视频流中的多个对象，然后根据每个对象在车舱内的位置，和/或每个对象的人脸信息，在所述多个对象中确定目标对象。示例性的，可以将车舱内驾驶位上的对象确定为目标对象，即将驾驶员确定为目标对象，或者将与预先录入的参考人脸特征一致的人脸信息所属的对象，确定为目标对象，即将车主、注册驾驶员等特定人员确定为目标对象。以下的步骤中针对目标对象的操作，可以基于本步骤中所确定的目标对象来执行。

可以理解的是，视频流中的目标对象可以为一个，也可以为多个。在视频流中存在多个目标对象时，可以按照本实施例提供的方法依次对各个目标对象进行处理，或者按照本实施例提供的方法同时对各个目标对象进行处理。例如，车舱场景区域的视频中，目标对象可以包括驾驶员、副驾乘客、后排座位乘客等多个目标对象中的一个或多个。

在一个可能的实施例中，在场景区域为车舱场景区域的情况下，可以预先设置该步骤的启动条件，例如启动条件可以为车辆的车门处于锁闭状态，和/或，车辆的车速达到预设速度阈值等，然后可以在车辆满足上述启动条件的情况下，即在车辆的车门处于锁闭状态，和/或，车辆的车速达到预设速度阈值的情况下，再获取场景区域的视频流。这样可以在车辆具有危险检测需求的场景下再获取视频流进行检测，从而使该检测方法具有针对性，节省算力、内存，减小功耗。

在步骤S102中，基于所述视频流中的多个图像帧，检测所述场景区域内的目标对象的动作方向。

其中，所述视频流中的多个图像帧，可以为预设数量的图像帧，例如2帧、4帧、5帧等。示例性的，可以获取场景区域的视频流的过程中，实时缓存所述视频流中最新的预设数量的图像帧。例如，可以从视频流中获取每一帧图像帧作为缓存对象；或者按照一定的间隔从视频流中抽取图像帧作为缓存对象；或者按照一定的缓存条件从视频流中抽取图像帧作为缓存对象，例如，可以检测所述视频流中每个图像帧中是否存在目标对象的预设关键信息，其中，所述预设关键信息包括人脸、至少部分身体和骨骼关键点中的至少一项，部分身体可以为左肩、右肩、左耳、右耳等部位；然后实时缓存所述视频流中存在所述目标对象的预设关键信息的图像帧中，最新的预设数量的图像帧。由于缓存中的图像帧是包含预设关键信息的图像帧，可以提升在后续基于缓存的图像帧进行目标对象动作检测时获得所需要的骨骼关键点的成功率。在缓存图像帧的阶段基于上述关键信息对视频流中图像进行粗粒度的筛选，减少了动作检测过程中对于缺失的关键骨骼关键点的检测所占用的时间和内存等资源，有利于提升动作检测效率。

其中，目标对象的动作方向可以为左、右、上、下等。在一个可能的实施例中，可以先提取所述多个图像帧中每个图像帧内的目标对象的特征，示例性的，可以基于同一目标在不同帧间运动时，其亮度不变的基本原则，提取目标对象的特征点；然后根据所述多个图像帧中每个图像帧内的目标对象的特征，确定所述目标对象在所述视频流中的光流信息，其中，光流信息能够表征目标在不同帧间的运动；最后根据所述目标对象在所述视频流中的光流信息，确定所述场景区域内的目标对象的动作方向。示例性的，利用LucasKanade算法求出目标对象从相对静止到做出动作的运动方向。

可选的，可以为本步骤设置启动条件，从而有针对性的执行本步骤。示例性的，可以在获取场景区域的视频流的过程中，检测所述视频流内的目标对象是否存在运动；并在所述视频流内的目标对象存在运动的情况下，再执行本步骤，即基于所述视频流中的多个图像帧，检测所述场景区域内的目标对象的动作方向。这样可以提高本步骤的有效性和针对性。

在步骤S103中，检测所述多个图像帧中所述目标对象的骨骼关键点。

可以采用预先训练的神经网络对图像帧进行处理，从而得到目标对象的骨骼关键点。骨骼关键点可以表征人体的骨骼结构中的关节部分，通过这些关节部分能够绘制出人体的骨骼结构图。例如，神经网络能够检测得到的骨骼关键点以及由骨骼关键点绘制的骨骼结构图如图2所示，从图2中可以看出，骨骼关键点包括鼻子关键点0、左眼关键点1、右眼关键点2、左耳关键点3、右耳关键点4、左肩关键点5、右肩关键点6、左肘关键点7、右肘关键点8、左手腕关键点9、右手腕关键点10、左髋关节关键点11、右髋关节关键点12、左膝关键点13、右膝关键点14、左脚踝关键点15、右脚踝关键点16。需要注意的是，视频流是摄像头正对或以一定角度朝向目标对象进行录制的，因此图像帧中的目标对象与真实场景中的目标对象是镜像关系，即真实场景中目标对象的左侧为图像帧中目标对象的右侧，真实场景中目标对象的右侧为图像帧中目标对象的左侧；图像帧内的坐标系的原点可以在其左上角，沿横边向右可以为横轴(例如x轴)的正方向，沿竖边向下可以为纵轴(例如y轴)的正方向。

其中，检测目标对象的骨骼关键点，可以检测目标对象出现在图像帧中的部分所包括的骨骼关键点，例如驾驶员在图像帧中出现上半身，则本步骤中仅检测上半身的骨骼关键点。换句话说，本步骤中针对目标对象进行骨骼关键点进行检测，可以检测得到图2中所示出的全部关键点，或者可以检测到图2中所示出的部分关键点。

检测得到的骨骼关键点可以以图像帧中的坐标位置进行表示，还可以在图像帧上的对应位置对骨骼关键点进行标识。

在步骤S104中，根据所述骨骼关键点中与所述动作方向对应的目标关键点之间的几何关系，确定所述目标对象的动作信息。

其中，目标对象的动作信息可以为目标对象存在目标动作或不存在目标动作，目标动作可以为需要检测的危险动作等，其中，需要检测的危险动作可以预先设置。每个动作方向可以对应一个或多个预先设置的目标动作，每个目标动作具有对应的多个目标关键点，在每个目标动作中，其对应的多个目标关键点之间满足对应的几何关系约束。因此，每个目标动作可以预先设置第一预设条件，该第一预设条件可以针对目标动作对应的目标关键点之间满足的几何关系而设置。从而在确定目标对象的动作信息时，可以针对步骤S102检测得到的动作方向内的每个目标动作，判断步骤S103检测得到的目标对象的骨骼关键点中，目标动作对应的目标关键点是否满足目标动作对应的第一预设条件，若满足则目标对象存在该目标动作，否则目标对象不存在该目标动作。

示例性的，每个动作方向对应一个目标动作，则可以设置该动作方向对应的目标关键点和第一预设条件。然后在确定目标对象的动作信息时，在检测得到的所述骨骼关键点中与所述动作方向对应的目标关键点之间的几何关系，满足所述动作方向对应的第一预设条件的情况下，确定所述目标对象存在所述动作方向对应的目标动作；否则(即所述目标关键点之间的几何关系不满足对应的第一预设条件)，确定所述目标对象无所述动作方向对应的目标动作。根据动作方向缩小目标动作的检测范围，从而进一步节约能耗和内存，提高检测效率；而且按照动作方向来针对性的检测目标关键点，使动作检测具有针对性，进一步提高检测的准确性。

在一个可能的实施例中，预先设置方向左、右、上和下四个动作方向对应的目标动作为身体左倾(对应方向“左”)、身体右倾(对应方向“右”)、捂胸口(对应方向“上”)和前倾趴倒(对应方向“下”)，并为每个目标动作(即每个动作方向)设置对应的目标关键点和第一预设条件。

可以将身体左倾对应的目标关键点设置为右肩关键点和左肩关键点，将右肩关键点至左肩关键点的连线形成的向量称为第一目标向量，将水平向右(即与待检测图像的横边平行且方向向右)的向量称为标准向量，进而将对应的第一预设条件设置为目标向量与标准向量的夹角的正切值为正数，且正切值的绝对值大于第一阈值(例如第一阈值为0.4)，以图2中所示出的右肩关键点6和左肩关键点5为例，身体左倾对应的第一预设条件可以表示为tan(vec(6,5))＞0.4。也就是说，在动作方向为左的情况下，响应于右肩关键点至左肩关键点的第一目标向量与水平向右的标准向量间夹角的正切值为正数且正切值的绝对值大于第一阈值的情况下，确定所述目标对象存在身体左倾动作。

可以将身体右倾对应的目标关键点设置为右肩关键点和左肩关键点，将右肩关键点至左肩关键点的连线形成的向量称为目标向量，将水平向右(即与待检测图像的横边平行且方向向右)的向量称为标准向量，进而将对应的第一预设条件设置为目标向量与标准向量的夹角的正切值为负数，且正切值的绝对值大于第一阈值(例如第一阈值为0.4)，以图2中所示出的右肩关键点6和左肩关键点5为例，身体右倾对应的第一预设条件可以表示为tan(vec(6,5))＜-0.4。也就是说，在动作方向为右的情况下，响应于右肩关键点至左肩关键点的第一目标向量与水平向右的标准向量间夹角的正切值为负数，且正切值的绝对值大于第一阈值的情况下，确定所述目标对象存在身体右倾动作。

可以将捂胸口对应的目标关键点设置为左肘关键点、左手腕关键点、左肩关键点、右肘关键点、右手腕关键点、右肩关键点，将左肘关键点至左手腕关键点的连线形成的向量称为第二目标向量，将左肘关键点至左肩关键点的连线形成的向量称为第三目标向量，将右肘关键点至右手腕关键点的连线形成的向量称为第四目标向量，将右肘关键点至右肩关键点的连线形成的向量称为第五目标向量，将第二目标向量和第三目标向量的夹角的余弦值称为第一余弦值，将第四目标向量和第五目标向量的夹角的余弦值称为第二余弦值，进而将对应的第一预设条件设置为第一余弦值大于第二阈值(例如第二阈值为0.2)以及左手腕关键点与右肩关键点的竖直距离大于第三阈值(例如第三阈值为100)；和/或，第二余弦值大于第二阈值(例如第二阈值为0.2)以及右手腕关键点与左肩关键点的竖直距离大于第三阈值(例如第三阈值为100)，以图2中所示出的左肘关键点7、左手腕关键点9、左肩关键点5、右肘关键点8、右手腕关键点10、右肩关键点6为例，捂胸口对应的第一预设条件可以表示为cos(vec(7,5)，vec(7,9))＞0.2以及y(9)-y(6)＞100，和/或，第一预设条件可以表示为cos(vec(8,6)，vec(8,10))＞0.2以及y(10)-y(5)＞100。也就是说，在动作方向为上的情况下，响应于如下第一情形或第二情形，确定所述目标对象存在捂胸口动作；所述第一情形包括：第二目标向量和第三目标向量的夹角大于第二阈值，左手腕关键点低于右肩关键点且左手腕关键点与右肩关键点的竖直距离大于第三阈值，其中，所述第二目标向量为左肘关键点至左手腕关键点的向量、所述第三目标向量为左肘关键点至左肩关键点的向量；所述第二情形包括：第四目标向量和第五目标向量的夹角大于第二阈值，右手腕关键点低于左肩关键点，且右手腕关键点与左肩关键点的竖直距离大于第三阈值；其中，所述第四目标向量为右肘关键点至右手腕关键点的向量、所述第五目标向量为右肘关键点至右肩关键点的向量。

可以将前倾趴倒对应的目标关键点设置为左耳关键点、左肩关键点、右耳关键点、右肩关键点，将对应的第一预设条件设置为左耳关键点与左肩关键点的竖直距离大于第四阈值(例如第四阈值为50)，和/或，右耳关键点与右肩关键点的竖直距离大于第四阈值(例如第四阈值为50)，以图2中所示出的左耳关键点3、左肩关键点5、右耳关键点4、右肩关键点6为例，前倾趴倒对应的第一预设条件可以表示为y(3)-y(5)＞50，和/或，y(4)-y(6)＞50。也就是说，在动作方向为下的情况下，响应于左耳关键点低于左肩关键点且左耳关键点与左肩关键点的垂直距离大于第四阈值，和/或，响应于右耳关键点低于右肩关键点且右耳关键点与右肩关键点的垂直距离大于第四阈值，确定所述目标对象存在前倾趴倒动作。

可以理解的是，在所述目标对象的动作信息表征所述目标对象存在目标动作的情况下，可以发送报警信息至服务平台。例如目标动作为需要检测的危险动作，则在目标对象存在危险动作时，可以向服务平台发送报警信息。在车辆行驶场景下，服务平台可以为车辆运营的服务平台，例如网约车的服务平台，服务平台也可以为医疗平台，服务平台收到报警信息后，可以采取救治措施，从而提高发生危险的驾驶员的救治效率，进而提高救治效果，更好保护车辆内人员的生命安全。另外可以理解的是，随着区域场景的视频流录制，可以实时或按一定频率确定目标对象的动作信息，因此可以在预设时长内，所述动作信息持续为所述目标对象存在目标动作，再发送报警信息至服务平台，从而可以减少动作信息检测结果的波动而误发送报警信息的情况。

根据上述实施例可知，通过获取场景区域的视频流，可以基于所述视频流中的多个图像帧，检测场景区域内的目标对象的动作方向，然后可以检测所述图像帧中所述目标对象的骨骼关键点，最后可以根据骨骼关键点与所述动作方向对应的目标关键点之间的几何关系，确定目标对象的动作信息。由于目标关键点之间的几何关系较为客观准确，因此可以准确的检测到目标对象是否存在危险动作，而且是按照动作方向来针对性的检测目标关键点，从而使动作检测具有针对性，进一步提高检测的准确性。若将该检测方法应用于车辆内，则可以准确的检测车辆内的驾驶员和乘客是否发生危险，从而可以提升乘车的安全性，提高了用户的使用体验。

本公开的一些实施例中，附图1所示的步骤S103可以检测视频流的多个图像帧中的一个图像帧的目标对象的骨骼关键点，即检测步骤S102中的多个图像帧中的一个图像帧的目标对象的骨骼关键点，具体检测的图像帧可以预先设置，例如检测第一帧、最后一帧或者中间帧等。示例性的，在实时缓存所述视频流中最新的预设数量的图像帧的情况下，可以在步骤S103中检测上述最新的预设数量的图像帧中的一个图像帧中目标对象的骨骼关键点。

基于此，附图1所示的步骤S104中，可以直接根据检测得到的所述骨骼关键点中与所述动作方向对应的目标关键点之间的几何关系，确定所述目标对象的动作信息，具体确定方式可以参照上述实施例中步骤S104的详细说明。

本公开的另一些实施例中，附图1所示的步骤S103可以检测视频流的多个图像帧中的每个图像帧的目标对象的骨骼关键点，即检测步骤S102中的多个图像帧中的每个图像帧的目标对象的骨骼关键点。示例性的，在实时缓存所述视频流中最新的预设数量的图像帧的情况下，可以在步骤S103中检测上述最新的预设数量的图像帧中的每个图像帧中目标对象的骨骼关键点。

基于此，附图1所示的步骤S104中，可以先根据所述视频流中的多个图像帧中，每个图像帧中检测得到的所述骨骼关键点中与所述动作方向对应的目标关键点之间的几何关系，确定对应图像帧中所述目标对象的动作信息；然后对所述多个图像帧中目标对象的动作信息进行平滑处理，得到基于所述多个图像帧确定的所述目标对象的目标动作信息。示例性的，在实时缓存所述视频流中最新的预设数量的图像帧的情况下，对所述缓存的预设数量的图像帧中目标对象的动作信息进行平滑处理，得到基于所述缓存的预设数量的图像帧确定的所述目标对象的目标动作信息。

其中，可以将每个图像帧检测得到的动作信息输入至平滑队列中，然后设置平滑窗口，平滑窗口的尺寸可以为视频流中多个图像帧的数量，例如缓存的图像帧的数量；然后随着平滑队列的更新而移动平滑窗口，并在每次移动平滑窗口后根据平滑窗口内的多个动作信息确定基于所述多个图像帧确定的所述目标对象的目标动作信息，从而实现对动作信息的平滑处理，提高动作信息的有效性和稳定性。

若多个图像帧中每个图像帧检测到的动作信息相同，则可以确定其为基于所述多个图像帧确定的所述目标对象的目标动作信息。例如，5个图像帧中的每个图像帧检测到的动作信息均为身体左倾，则可以将身体左倾动作确定为基于上述5个图像帧确定的所述目标对象的目标动作信息。

若多个图像帧所检测得到的动作信息不一致，则将数量最多的一种动作信息作为基于所述多个图像帧确定的所述目标对象的目标动作信息。例如，5个图像帧中4个图像帧检测得到的动作信息为身体左倾，1个图像帧检测得到的动作信息为无任何目标动作，则可以将身体左倾确定为基于上述5个图像帧确定的所述目标对象的目标动作信息。可选地，若平滑窗口内多个图像帧的动作信息检测结果中，出现次数最多的动作信息检测结果未超过预设比例(例如50％)，则可以丢弃该平滑窗口内的检测结果，以进一步提升动作检测结果的可靠性。

需要注意的是，为了准确确定基于所述多个图像帧确定的所述目标对象的目标动作信息，可以将多个图像帧的数量设置为3、5、7……等奇数。若设置为偶数且出现多种数量相同的动作信息，则将其中最新的动作信息作为基于所述多个图像帧确定的所述目标对象的目标动作信息。

请参照附图3，其示例性的示出了车辆行驶场景下的动作检测方法的完整流程。从图3中可以看出，首先执行步骤S11，在车辆状态满足该方法的启动条件的情况下，启动车舱紧急呼救功能；然后执行步骤S12，车辆内的摄像头采集车舱乘客信息，即车舱内乘客的视频流；然后执行步骤S13，保存多于两帧最近图像至缓存；然后执行步骤S14，利用光流法对动作方向进行判断；然后执行步骤S15，在动作方向对应的空间(即动作方向对应的目标动作的范围)内进行动作检测，即检测目标对象是否存在动作方向对应的目标动作；然后执行步骤S16，对步骤S15得到的多个检测结果进行平滑处理；最后执行步骤S17，根据S15的平滑处理结果，若检测到危险动作并该危险动作持续一段时间则发出求救信号。

本实施例提供的动作检测方法，结合了动作几何特征和光流检测处理以及一些客观情况，可以更加精准、全方位的评估乘客的动作信息当前所处的状态。同时使用平滑算法，缓存处理，对一些跳变、波动的结果进行了有效处理，为租车公司和交通监管部门提供了重要的参考数据，可以有针对性的定制安全方案和运营管理，提升车舱乘员的生命健康安全。

根据本公开实施例的第二方面，提供一种动作检测装置，请参照附图4，所述装置包括：

获取模块401，用于获取场景区域的视频流；

方向模块402，用于基于所述视频流中的多个图像帧，检测所述场景区域内的目标对象的动作方向；

检测模块403，用于检测所述多个图像帧中所述目标对象的骨骼关键点；

确定模块404，用于根据检测得到的所述骨骼关键点中与所述动作方向对应的目标关键点之间的几何关系，确定所述目标对象的动作信息。

在本公开的一些实施例中，所述方向模块具体用于：

在本公开的一些实施例中，每个动作方向对应一个目标动作；

所述确定模块具体用于：

否则，确定所述目标对象无所述动作方向对应的目标动作。

在本公开的一些实施例中，所述骨骼关键点包括：左肩关键点、右肩关键点、左手腕关键点、右手腕关键点、左肘关键点、右肘关键点、左耳关键点、右耳关键点；

所述确定模块具体用于以下至少一项：

在本公开的一些实施例中，所述方向模块具体用于：

检测所述视频流内的目标对象是否存在运动；

在本公开的一些实施例中，所述确定模块具体用于：

在本公开的一些实施例中，还包括缓存模块，用于：

所述确定模块用于对所述多个图像帧中目标对象的动作信息进行平滑处理，得到基于所述多个图像帧确定的所述目标对象的目标动作信息时，具体用于：

对所述缓存的预设数量的图像帧中目标对象的动作信息进行平滑处理，得到基于所述缓存的预设数量的图像帧确定的所述目标对象的动作信息。

在本公开的一些实施例中，所述缓存模块具体用于：

在本公开的一些实施例中，所述场景区域包括车舱场景区域；

所述获取模块具体用于：

在车辆的车门处于锁闭状态，和/或，车辆的车速达到预设速度阈值的情况下，获取场景区域的视频流。

在本公开的一些实施例中，还包括目标模块，用于：

检测所述视频流中的多个对象；

在本公开的一些实施例中，还包括报警模块，用于：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在第三方面有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

第三方面，本公开至少一个实施例提供了一种设备，请参照附图5，其示出了该设备的结构，所述设备包括存储器、处理器，所述存储器用于存储可在处理器上运行的计算机指令，所述处理器用于在执行所述计算机指令时基于第一方面任一项所述的方法对动作进行检测。

第四方面，本公开至少一个实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现第一方面任一项所述的方法。

在本公开中，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。术语“多个”指两个或两个以上，除非另有明确的限定。

本领域技术人员在考虑说明书及实践这里公开的公开后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

一种动作检测方法，包括：

获取场景区域的视频流；

基于所述视频流中的多个图像帧，检测所述场景区域内的目标对象的动作方向；

检测所述多个图像帧中所述目标对象的骨骼关键点；

根据检测得到的所述骨骼关键点中与所述动作方向对应的目标关键点之间的几何关系，确定所述目标对象的动作信息。
根据权利要求1所述的动作检测方法，其特征在于，所述基于所述视频流中的多个图像帧，检测所述场景区域内的目标对象的动作方向，包括：

提取所述多个图像帧中每个图像帧内的所述目标对象的特征；

根据所述多个图像帧中每个图像帧内的所述目标对象的特征，确定所述目标对象在所述视频流中的光流信息；

根据所述目标对象在所述视频流中的光流信息，确定所述场景区域内的所述目标对象的动作方向。
根据权利要求1所述的动作检测方法，其特征在于，每个动作方向对应一个目标动作；

所述根据检测得到的所述骨骼关键点中与所述动作方向对应的目标关键点之间的几何关系，确定所述目标对象的动作信息，包括：

在检测得到的所述骨骼关键点中与所述动作方向对应的目标关键点之间的几何关系，满足所述动作方向对应的第一预设条件的情况下，确定所述目标对象存在所述动作方向对应的目标动作；

否则，确定所述目标对象无所述动作方向对应的目标动作。
根据权利要求1或3所述的动作检测方法，其特征在于，所述骨骼关键点包括：左肩关键点、右肩关键点、左手腕关键点、右手腕关键点、左肘关键点、右肘关键点、左耳关键点、右耳关键点；

所述根据检测得到的所述骨骼关键点中与所述动作方向对应的目标关键点之间的几何关系，确定所述目标对象的动作信息，包括以下至少一项：

在动作方向为左的情况下，响应于右肩关键点至左肩关键点的第一目标向量与水平向右的标准向量间夹角的正切值为正数且正切值的绝对值大于第一阈值的情况下，确定所述目标对象存在身体左倾动作；

在动作方向为右的情况下，响应于右肩关键点至左肩关键点的第一目标向量与水平向右的标准向量间夹角的正切值为负数，且正切值的绝对值大于第一阈值的情况下，确定所述目标对象存在身体右倾动作；

在动作方向为上的情况下，响应于如下第一情形或第二情形，确定所述目标对象存在捂胸口动作；其中，所述第一情形包括：第二目标向量和第三目标向量的夹角大于第二阈值，左手腕关键点低于右肩关键点且左手腕关键点与右肩关键点的竖直距离大于第三阈值，其中，所述第二目标向量为左肘关键点至左手腕关键点的向量、所述第三目标向量为左肘关键点至左肩关键点的向量；所述第二情形包括：第四目标向量和第五目标向量的夹角大于第二阈值，右手腕关键点低于左肩关键点，且右手腕关键点与左肩关键点的竖直距离大于第三阈值；其中，所述第四目标向量为右肘关键点至右手腕关键点的向量、所述第五目标向量为右肘关键点至右肩关键点的向量；或，

在动作方向为下的情况下，响应于左耳关键点低于左肩关键点且左耳关键点与左肩关键点的垂直距离大于第四阈值，和/或，响应于右耳关键点低于右肩关键点且右耳关键点与右肩关键点的垂直距离大于第四阈值，确定所述目标对象存在前倾趴倒动作。
根据权利要求1至4任一项所述的动作检测方法，其特征在于，所述基于所述视频流中的多个图像帧，检测所述场景区域内的目标对象的动作方向，包括：

检测所述视频流内的目标对象是否存在运动；

在所述视频流内的目标对象存在运动的情况下，基于所述视频流中的多个图像帧，检测所述场景区域内的目标对象的动作方向。
根据权利要求1、3或4所述的动作检测方法，其特征在于，所述根据检测得到的所述骨骼关键点中与所述动作方向对应的目标关键点之间的几何关系，确定所述目标对象的动作信息，包括：

对于所述视频流中的多个图像帧中每个图像帧，根据该图像帧中检测得到的所述骨骼关键点中与所述动作方向对应的目标关键点之间的几何关系，确定该图像帧中所述目标对象的动作信息；

对所述多个图像帧中所述目标对象的动作信息进行平滑处理，得到基于所述多个图像帧确定的所述目标对象的目标动作信息。
根据权利要求6所述的动作检测方法，其特征在于，还包括：

在获取所述场景区域的所述视频流的过程中，实时缓存所述视频流中最新的预设数量的图像帧；

所述对所述多个图像帧中所述目标对象的动作信息进行平滑处理，得到基于所述多个图像帧确定的所述目标对象的目标动作信息，包括：

对所述缓存的预设数量的图像帧中所述目标对象的动作信息进行平滑处理，得到基于所述缓存的预设数量的图像帧确定的所述目标对象的目标动作信息。
根据权利要求7所述的动作检测方法，其特征在于，所述实时缓存最新的预设数量的图像帧，包括：

检测所述视频流中每个图像帧中是否存在目标对象的预设关键信息，其中，所述预设关键信息包括人脸、至少部分身体和骨骼关键点中的至少一项；

实时缓存所述视频流中存在所述目标对象的预设关键信息的图像帧中最新的预设数量的图像帧。
根据权利要求1至8任一项所述的动作检测方法，其特征在于，所述场景区域包括车舱场景区域；

所述获取场景区域的视频流，包括：

在车辆的车门处于锁闭状态，和/或，车辆的车速达到预设速度阈值的情况下，获取所述场景区域的视频流。
根据权利要求9所述的动作检测方法，其特征在于，还包括：

检测所述视频流中的多个对象；

根据所述多个对象中每个对象在车舱内的位置，和/或所述多个对象中每个对象的人脸信息，在所述多个对象中确定所述目标对象。
根据权利要求1至10任一项所述的动作检测方法，其特征在于，还包括：

在所述目标对象的动作信息表征所述目标对象存在目标动作的情况下，发送报警信息至服务平台。
一种动作检测装置，包括：

获取模块，用于获取场景区域的视频流；

方向模块，用于基于所述视频流中的多个图像帧，检测所述场景区域内的目标对象的动作方向；

检测模块，用于检测所述多个图像帧中所述目标对象的骨骼关键点；

确定模块，用于根据检测得到的所述骨骼关键点中与所述动作方向对应的目标关键点之间的几何关系，确定所述目标对象的动作信息。
一种电子设备，其包括存储器、处理器，所述存储器用于存储在处理器上运行的计算机指令，所述处理器用于在执行所述计算机指令时实现权利要求1至11任一项所述的方法。
一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1至11任一项所述的方法。