WO2021169604A1

WO2021169604A1 - 动作信息识别方法、装置、电子设备及存储介质

Info

Publication number: WO2021169604A1
Application number: PCT/CN2020/142510
Authority: WO
Inventors: 杨策元; 徐英豪; 戴勃; 石建萍; 周博磊
Original assignee: 北京市商汤科技开发有限公司
Priority date: 2020-02-28
Filing date: 2020-12-31
Publication date: 2021-09-02
Also published as: JP2022525723A; KR20220042467A; CN111353428A; CN111353428B

Abstract

本公开提供了一种动作信息识别方法、装置、电子设备及存储介质，该方法包括：对待识别视频进行特征提取，得到多级第一特征图；通过对第一特征图进行参数信息调整，得到各级第一特征图对应的第二特征图；其中，不同级第一特征图对应的第二特征图的参数信息相同；分别调整各级第二特征图的参数信息，得到各级第二特征图对应的第三特征图，其中，各级第三特征图的时间维度值的比例与预设比例相符；基于第三特征图，确定待识别视频中的动作信息。

Description

动作信息识别方法、装置、电子设备及存储介质

本申请要求于2020年02月28日提交中国国家知识产权局、申请号为202010128428.X、申请名称为“动作信息识别方法、装置、电子设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本公开涉及神经网络技术领域，具体而言，涉及一种动作信息识别方法、装置、电子设备及存储介质。

背景技术

动作识别是计算机视觉以及视频理解中的重要环节，动作识别的主要目标是判断一段视频中对象的行为类别。

不同的对象在执行同一动作时，会因年龄、身体素质等因素的影响，以不同的节奏执行；同一对象在执行不同的动作时，节奏也存在差异，使得动作的识别较为复杂。

发明内容

有鉴于此，本公开至少提供一种动作信息识别方法、装置、电子设备及存储介质。

第一方面，本公开提供了一种动作信息识别方法，包括：

对待识别视频进行特征提取，得到多级第一特征图；

通过对所述第一特征图进行参数信息调整，得到各级第一特征图对应的第二特征图；其中，不同级第一特征图对应的第二特征图的参数信息相同；

分别调整各级第二特征图的参数信息，得到各级第二特征图对应的第三特征图，其中，各级第三特征图的时间维度值的比例与预设比例相符；

基于所述第三特征图，确定所述待识别视频中的动作信息。

采用上述方法，通过对第一特征图进行参数信息调整，得到各级第一特征图对应的第二特征图，并对各级第二特征图的时间维度值进行调整，使得得到的各级第二特征图对应的第三特征图的时间维度值存在比例关系，进而可以基于时间维度不同的第三特征图(通过不同的时间维度来体现动作的不同节奏，进而得到不同节奏下的动作特征)，确定待识别视频中的动作信息，实现了基于原始帧率的待识别视频，确定待识别视频的动作信息，由于不需要调节待识别视频的帧率，在保证识别准确率的同时，降低了识别的运算量，提高了识别的效率。

第二方面，本公开提供了一种动作信息识别装置，包括：

特征提取模块，用于对待识别视频进行特征提取，得到多级第一特征图；

参数调整模块，用于通过对所述第一特征图进行参数信息调整，得到各级第一特征图对应的第二特征图；其中，不同级第一特征图对应的第二特征图的参数信息相同；

时间维度调整模块，用于分别调整各级第二特征图的参数信息，得到各级第二特征图对应的第三特征图，其中，各级第三特征图的时间维度值的比例与预设比例相符；

确定模块，用于基于所述第三特征图，确定所述待识别视频中的动作信息。

第三方面，本公开提供一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如上述第一方面或任一实施方式所述的动作信息识别方法的步骤。

第四方面，本公开提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上述第一方面或任一实施方式所述的动作信息识别方法的步骤。

第五方面，本公开提供了一种计算机程序产品，该计算机程序产品包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如上述第一方面或任一实施方式所述的动作信息识别方法的步骤。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，此处的附图被并入说明书中并构成本说明书中的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本公开实施例所提供的一种动作信息识别方法的流程示意图；

图2示出了本公开实施例所提供的一种动作信息识别方法中，通过对第一特征图进行参数信息调整，得到各级第一特征图对应的第二特征图的方式的流程示意图；

图3示出了本公开实施例所提供的一种动作信息识别方法中，分别调整各级第二特征图的参数信息，得到各级第二特征图对应的第三特征图的方式的流程示意图；

图4示出了本公开实施例所提供的一种动作信息识别方法中，基于第三特征图，确定待识别视频中的动作信息的方式的流程示意图；

图5a示出了本公开实施例所提供的一种动作信息识别方法中，按照设定的融合顺序，将各级第二特征图对应的第三特征图依次进行融合处理，得到每一次融合后的中间特征图的方式的流程示意图；

图5b示出了本公开实施例所提供的一种动作信息识别方法中，按照设定的融合顺序，将各级第二特征图对应的第三特征图依次进行融合处理，得到每一次融合后的中间特征图的方式的流程示意图；

图5c示出了本公开实施例所提供的一种动作信息识别方法中，按照设定的融合顺序，将各级第二特征图对应的第三特征图依次进行融合处理，得到每一次融合后的中间特征图的方式的流程示意图；

图5d示出了本公开实施例所提供的一种动作信息识别方法中，按照设定的融合顺序，将各级第二特征图对应的第三特征图依次进行融合处理，得到每一次融合后的中间特征图的方式的流程示意图；

图6示出了本公开实施例所提供的一种动作信息识别方法中，基于每一次融合后的中间特征图，得到第四特征图的方式的流程示意图；

图7示出了本公开实施例所提供的一种动作信息识别装置的架构示意图；

图8示出了本公开实施例所提供的一种电子设备的结构示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围，而是仅仅表示本公开的选定实施例。基于本公开的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

待识别视频中可以包括动态的对象，例如，待识别视频中可以包括行走的人类、跑步的人类、捕食的动物等。在对待识别视频进行检测，判断待识别视频中包括的动作的类别时，可以通过设计的卷积神经网络对待识别视频进行识别；或者，在对多个待识别视频进行检测，还可以通过设计的卷积神经网络，基于每个待识别视频中包括的动作的类别，将多个待识别视频进行聚类。

示例性的，动作的执行过程中存在节奏的因素，比如，跑步的节奏快于走步的节奏，即同一对象在执行不同动作时，对应的节奏不同；同时，由于执行动作的对象的身体状况、年龄状况等因素的不同，不同的对象执行同一动作时的节奏也会不同，故动作的节奏对动作的检测起到至关重要的作用。

一般的，可以基于不同的采样频率，对待识别视频的帧率进行调整，可以得到待识别视频对应的多个不同帧率的视频，比如，待识别视频的原始帧率为24帧/秒，可以对待识别视频的原始帧率进行调整，得到待识别视频对应的多个不同帧率的视频，即得到帧率为24帧/秒的视频、帧率为18帧/秒的视频、帧率为12帧/秒的视频、帧率为6帧/秒的视频等；然后可以将待识别视频对应的多个不同帧率的视频分别输入至动作识别神经网络中，确定每个视频对应的检测结果，并基于每个视频对应的检测结果，确定待识别视频中包括的动作的类别。但是，通过基于不同帧率的视频，确定待识别视频中包括的动作的类别时，识别过程较复杂，运算量较高，使得识别的效率较低。因此，本公开实施例，提出了一种动作信息识别方法，可以通过调节特征图的参数信息以及时间维度值，并基于调整后的特征图对待识别视频进行识别，可以仅基于原始帧率的待识别视频，确定待识别视频的动作信息，降低了识别的运算量，提高了识别的效率。

为便于对本公开实施例进行理解，首先对本公开实施例所公开的一种动作信息识别方法进行详细介绍。

参见图1所示，为本公开实施例所提供的一种动作信息识别方法的流程示意图，该方法包括S101-S104。

S101，对待识别视频进行特征提取，得到多级第一特征图。

S102，通过对第一特征图进行参数信息调整，得到各级第一特征图对应的第二特征图；其中，不同级第一特征图对应的第二特征图的参数信息相同。

S103，分别调整各级第二特征图的参数信息，得到各级第二特征图对应的第三特征图，其中，各级第三特征图的时间维度值的比例与预设比例相符。

S104，基于第三特征图，确定待识别视频中的动作信息。

上述步骤中，通过对第一特征图进行参数信息调整，得到各级第一特征图对应的第二特征图，并对各级第二特征图的时间维度值进行调整，使得得到的各级第二特征图对应的第三特征图的时间维度值存在比例关系，进而可以基于时间维度不同的第三特征图(通过不同的时间维度来体现动作的不同节奏，进而得到不同节奏下的动作特征)，确定待识别视频中的动作信息，实现了基于原始帧率的待识别视频，确定待识别视频的动作信息，由于不需要调节待识别视频的帧率，在保证识别准确率的同时，降低了识别的运算量，提高了识别的效率。

以下对S101-S104进行详细说明。

针对S101：

本公开实施例中，对待识别视频进行特征提取，得到多级第一特征图，其中，第一级第一特征图是对待识别视频进行特征提取得到的，相邻两级第一特征图中的后一级第一特征图是对相邻两级第一特征图中的前一级第一特征图进行特征提取得到的。

本公开实施例中，对待识别视频进行特征提取，得到多级第一特征图时，可以通过多级第一卷积神经网络对待识别视频进行特征提取，得到每一级第一卷积神经网络输出的第一特征图。其中，多级第一卷积神经网络构成的神经网络可以为对待识别视频中包含的动作信息进行识别的任一神经网络，具体的，对待检测视频中包含的动作信息进行识别的神经网络可以划分为多个阶段的卷积神经网络，每一阶段的卷积神经网络对应一级第一卷积神经网络。其中，多级第一卷积神经网络的结构可以根据实际需要进行设置，本公开实施例对此不进行具体限定。

示例性的，若多级第一卷积神经网络包括第一级第一卷积神经网络、第二级第一卷积神经网路、第三级第一卷积神经网络，则第一级第一卷积神经网络可以对待识别视频进行卷积处理，得到第一级第一卷积神经网络输出的第一特征图；并将第一级第一卷积神经网络输出的第一特征图发送给第二级第一卷积神经网络，第二级第一卷积神经网络对接收到的第一特征图进行卷积处理，得到第二级第一卷积神经网络输出的第一特征图；再将第二级第一卷积神经网络输出的第一特征图发送给第三级第一卷积神经网络，第三级第一卷积神经网络对接收到的第一特征图进行卷积处理，得到第三级第一卷积神经网络输出的第一特征图，进而得到了每一级第一卷积神经网络输出的第一特征图。其中，由于第一级第一卷积神经网络输出的第一特征图经过的卷积处理的次数较少，故第一级第一卷积神经网络输出的第一特征图的细节特征较多、空间语义特征较少；而第三级第一卷积神经网络输出的第一特征图经过的卷积处理的次数较多，故第三级第一卷积神经网络输出的第一特征图的空间语义特征较多(即第一特征图中包含的与动作信息相关的特征较多)、细节特征较少。

本公开实施例中，待识别视频可以为包含动作信息的任一视频，其中，待识别视频的时长可以为任一时长，比如，待识别视频的时长可以为10秒、20秒等。具体的，可以基于多级第一卷积神经网络确定视频检测时长，在待识别视频的时长大于视频检测时长时，可以将待识别视频划分为多个视频，使得划分后的每个视频的时长与视频检测时长相同。比如，若待识别视频的时长为1分钟时，确定的视频检测时长为10秒，则可以将待识别视频划分为6个时长为10秒的视频，多级第一卷积神经网络分别对每个10秒的视频进行特征提取，确定每个10秒视频对应的动作信息，进而得到该待识别视频的动作信息。

本公开实施例中，第一特征图可以包括四维参数信息，该四维参数信息可以为长度值×宽度值×时间维度值×通道数，其中，长度值×宽度值为第一特征图的尺寸，神经网络的时间维度值表征神经网络一次能够处理的图像的数量。示例性的，若多级第一卷积神经网络为三维卷积神经网络，则可以得到待识别视频的第一特征图，该第一特征图可以包括四维参数信息；若多级第一卷积神经网络为二维卷积神经网络，则可以通过多级第一卷积神经网络进行特征提取，得到待识别视频中每帧图像对应的特征图，将得到的待识别视频中每帧图像对象的特征图按照时间维度进行组合，得到待识别视频对应的第一特征图。

针对S102：

本公开实施例中，可以对第一特征图进行参数信息调整，得到各级第一特征图对应的第二特征图。比如，将第一级第一特征图的参数信息、第二级第一特征图的参数信息、以及第三级第一特征图的参数信息调整为一致。即将各级第一特征图的长度值、和/或宽度值、和/或时间维度值、和/或通道数进行调整，使得得到的各级第二特征图的长度值、宽度值、时间维度值、以及通道数均相同。

一种可能的实施方式中，通过对第一特征图进行参数信息调整，得到各级第一特征图对应的第二特征图，包括：

确定各级第一特征图对应的参数信息中尺寸最小的第一特征图，并将除尺寸最小的第一特征图外的其它第一特征图，调整为与该尺寸最小的第一特征图相同参数信息的特征图，将尺寸最小的第一特征图，以及调整后与该尺寸最小的第一特征图相同参数信息的特征图作为第二特征图；或者，

将各级第一特征图调整为预设参数信息下的特征图，将该预设参数信息下的特征图作为第二特征图。

示例性的，若多级第一特征图包括第一级第一特征图、第二级第一特征图、第三级第一特征图，则确定第一级第一特征图、第二级第一特征图、第三级第一特征图中，尺寸最小的第一特征图(即确定长度值×宽度值最小的第一特征图)，比如，第一级第一特征图的参数信息可以为：200×200×24×256，第二级第一特征图的参数信息可以为：100×100×24×512，第三级第一特征图的参数信息可以为：50×50×24×1024，则确定第三级第一特征图对应的参数信息中尺寸最小，则分别将第一级第一特征图以及第二级第一特征图的参数信息进行调整，使得调整后的各级第二特征图的参数信息均为：50×50×24×1024。

或者，确定一个预设参数信息，将各级第一特征图调整为预设参数信息下的特征图，将该预设参数信息下的特征图作为第二特征图。一般的，预设参数信息中的尺寸小于或等于各级第一卷积神经网络输出的第一特征图对应的参数信息中尺寸最小的第一特征图的参数信息。承接上述实施例继续说明，在第三级第一特征图(即该第一特征图对应的参数信息中尺寸最小)的参数信息为：50×50×24×1024时，则预设参数信息可以为25×25×24×1024，或者，预设参数信息也可以为50×50×24×1024。其中，预设参数信息可以根据实际情况进行设置。

上述实施方式中，将各级第一第一特征图调整为较小的尺寸，在对待识别视频中包含的动作信息进行识别时，可以降低识别的运算量，提高识别的效率。

一种可能的实施方式中，对待识别视频进行特征提取，得到多级第一特征图，包括：

通过多级第一卷积神经网络对待识别视频进行特征提取，得到每一级第一卷积神经网络输出的第一特征图。

参见图2所示，通过对第一特征图进行参数信息调整，得到各级第一特征图对应的第二特征图，包括：

S201，基于确定的调整后的参数信息，以及每一级第一卷积神经网络输出的第一特征图的参数信息，确定该级第一卷积神经网络对应的第二卷积神经网络的网络参数信息；

S202，基于携带有确定的网络参数信息的每一级第二卷积神经网络，对该级第二卷积神经网络对应的第一卷积神经网络输出的第一特征图进行卷积处理，得到该级第二卷积神经网络输出的第二特征图。

承接上述实施例继续说明，确定的调整后的参数信息可以为50×50×24×1024，第一级第一卷积神经网络对应的第一特征图的参数信息可以为：200×200×24×256，第二级第一卷积神经网络对应的第一特征图的参数信息可以为：100×100×24×512，第三级第一卷积神经网络对应的第一特征图的参数信息可以为：50×50×24×1024；则可以基于确定的调整后的参数信息，以及每一级第一卷积神经网络输出的第一特征图的参数信息，分别确定第一级第一卷积神经网络对应的第二卷积神经网络的网络参数信息、第二级第一卷积神经网络对应的第二卷积神经网络的网络参数信息、第三级第一卷积神经网络对应的第二卷积神经网络的网络参数信息，即确定每一级第二卷积神经网络中卷积核的长度×宽度×时间维度值×通道数，以及对应的长度移动步长×宽度移动步长×时间维度移动步长等信息。

示例性的，第一特征图的参数信息、与第二卷积神经网络对应的网络参数信息、以及与第二特征图对应的参数信息之间存在的关系如下公式(1)所示：

其中，O为第二特征图的参数信息，I为第一特征图的参数信息，K为第二卷积神经网络对应的卷积核的网络参数信息，S为移动步长，P为填充数。因此，在确定第一特征图的参数信息、第二特征图的参数信息后，可以确定第二卷积神经网络对应的网络参数。比如，可以通过为每一级第二卷积神经网络设置不同的长度移动步长、和/或宽度移动步长，使得每一级第二卷积神经网络输出的第二特征图的参数信息相同。

示例性的，第一级第一卷积神经网络对应的携带有网络参数信息的第二卷积神经网络，对第一级第一卷积神经网络对应的第一特征图进行卷积处理，得到该级第二卷积神经网络输出的第二特征图。依次类推，第二级第一卷积神经网络对应的携带有网络参数信息的第二卷积神经网络，对第二级第一卷积神经网络对应的第一特征图进行卷积处理，得到该级第二卷积神经网络输出的第二特征图。第三级第一卷积神经网络对应的携带有网络参数信息的第二卷积神经网络，对第三级第一卷积神经网络对应的第一特征图进行卷积处理，得到该级第二卷积神经网络输出的第二特征图。

上述实施方式中，通过确定各级第二卷积神经网络的网络参数信息，并基于携带有确定的网络参数信息的每一级第二卷积神经网络，对对应的第一特征图进行卷积处理，实现了将各级第一卷积神经网络输出的第一特征图的参数信息中的尺寸调整为较小的尺寸，进而使得对待识别视频进行识别时，降低了运算量，提高了识别的效率。

针对S103：

本公开实施例中，可以对各级第二特征图的参数信息进行调整，得到各级第二特征图对应的第三特征图，使得得到的各级第三特征图的时间维度值的比例与预设比例相符。其中，每一级第三特征图的时间维度值与其感受野相关。具体的，特征图经过卷积处理的次数越少，感受野越小，则对应的时间维度值设置的较大时，才能较准确的确定待识别视频中的动作信息；反之，特征图经过卷积处理的次数越多，感受野越大，则为了降低运算量，则可以将对应的时间维度值的较小，实现了在保证待识别视频识别的准确度的同时，降低运算量，提高识别效率。比如，第一级第三特征图与第二级第三特征图之间的时间维度值的比例可以设置为1：2、或2：4、或3：9等。

一种可能的实施方式中，参见图3所示，分别调整各级第二特征图的参数信息，得到各级第二特征图对应的第三特征图，包括：

S301，基于不同级第一卷积神经网络之间的时间维度值的比例，以及每一级第一卷积神经网络对应的第二特征图的时间维度值，确定各级第一卷积神经网络分别对应的第三特征图的时间维度值；

S302，基于确定的各级第一卷积神经网络分别对应的第三特征图的时间维度值，以及每一级第一卷积神经网络对应的第二特征图的时间维度值，确定该级第一卷积神经网络对应的第三卷积神经网络的网络参数信息；

S303，基于携带有确定的网络参数信息的每一级第三卷积神经网络，对该级第三卷积神经网络对应的第二特征图进行卷积处理，得到该级第三卷积神经网络输出的第三特征图。

本公开实施例中，不同级第一卷积神经网络之间的时间维度值的比例可以根据实际需要进行设置，比如，若多级第一卷积神经网络包括第一级第一卷积神经网络、第二级第一卷积神经网络、第三级第一卷积神经网络，则不同级第一卷积神经网络之间的时间维度值的比例可以为1:2:4，也可以为1:3:9等。进一步的，若每一级第一卷积神经网络对应的第二特征图的时间维度值为24，时间维度值的比例为1:2:4，则可以确定第一级第一卷积神经网络对应的第三特征图的时间维度值为6，第二级第一卷积神经网络对应的第三特征图的时间维度值为12，第三级第一卷积神经网络对应的第三特征图的时间维度值为24。

本公开实施例中，可以根据上述描述的公式(1)确定每一级第一卷积神经网络对应的第三卷积神经网络的网络参数信息。比如，可以通过为每一级第三卷积神经网络设置不同的时间维度移动步长，使得各级第三卷积神经网络输出的第三特征图的时间维度值与设置的比例相同。

示例性的，第一级第一卷积神经网络对应的携带有网络参数信息的第三卷积神经网络，对该级对应的第二特征图进行卷积处理，得到该级第三卷积神经网络输出的第三特征图。依次类推，第二级第一卷积神经网络对应的携带有网络参数信息的第三卷积神经网络，对该级对应的第二特征图进行卷积处理，得到该级第三卷积神经网络输出的第三特征图。第三级第一卷积神经网络对应的携带有网络参数信息的第三卷积神经网络，对该级对应的第二特征图进行卷积处理，得到该级第三卷积神经网络输出的第三特征图。

上述实施方式中，通过调节每一级第一卷积神经网络对应的第二特征图的时间维度值，使得得到的每一级第三卷积神经网络输出的第三特征图的时间维度值与设置的比例相符(相当于调节了待识别视频中包括的动作信息的节奏)，使得基于调整时间维度值后的第三特征图，能够较准确的对待识别视频中包括的动作信息进行识别，提高了识别的准确度。

针对S104：

本公开实施例中，可以将各级第一卷积神经网络对应的第三特征图进行融合，并将第三特征图融合后得到的特征图输入至预测神经网络中，得到待识别视频中包括的动作信息。若待识别视频中包括多个动作信息，则可以得到待识别视频中包括的每一动作信息。

一种可能的实施方式中，参见图4所示，基于第三特征图，确定待识别视频中的动作信息，包括：

S401，将各级第二特征图对应的第三特征图进行融合处理，得到融合后的第四特征图；

S402，基于第四特征图，确定待识别视频中的动作信息。

本公开实施例中，在得到各级第二特征图对应的第三特征图之后，可以将各级第三特征图进行融合处理，得到融合后的第四特征图，在基于第四特征图，确定待识别视频中的动作信息。

上述实施方式中，将得到的各级第二特征图对应的第三特征图进行融合处理，使得得到的第四特征图可以包括时间维度值不同的第三特征图的特征，进而基于第四特征图确定待识别视频中的动作信息时，可以提高识别的准确度。

一种可能的实施方式中，将各级第二特征图对应的第三特征图进行融合处理，得到融合后的第四特征图，包括：

按照设定的融合顺序，将各级第二特征图对应的第三特征图依次进行融合处理，得到每一次融合后的中间特征图；

基于每一次融合后的中间特征图，得到第四特征图。

本公开实施例中，可以设定第三特征图的融合顺序，将各级第二特征图对应的第三特征图按照设定的融合顺序，依次进行融合处理，得到每一次融合后的中间特征图。

比如，若设定的融合顺序为：第一级第一卷积神经网络对应的第三特征图、第二级第一卷积神经网络对应的第三特征图、第三级第一卷积神经网络对应的第三特征图，则可以先将第一级第一卷积神经网络对应的第三特征图与第二级第一卷积神经网络对应的第三特征图进行融合，得到第一次融合后的中间特征图；在将得到的融合后的中间特征图与第三级第一卷积神经网络对应的第三特征图进行融合，得到第二次融合后的中间特征图。在可以基于每一次融合后的中间特征图，得到第四特征图。

示例性的，第一级第一卷积神经网络对应的第三特征图与第二级第一卷积神经网络对应的第三特征图进行融合时，可以先将第一级第一卷积神经网络对应的第三特征图进行图像插值处理，在将图像插值处理后的第一级第一卷积神经网络对应的第三特征图与第二级第一卷积神经网络对应的第三特征图进行融合，得到第一次融合后的中间特征图。每一次的融合过程，可以参考上述第一级第一卷积神经网络对应的第三特征图与第二级第一卷积神经网络对应的第三特征图进行融合的过程，本公开实施例对此不再进行赘述。

比如，若第一级第一卷积神经网络对应的第三特征图的参数信息为7×7×1×512，第二级第一卷积神经网络对应的第三特征图的参数信息为7×7×2×512，则可以先将第一级第一卷积神经网络对应的第三特征图进行图像插值处理，插值处理后的第一级第一卷积神经网络对应的第三特征图的参数信息为7×7×2×512；然后将插值处理后的第一级第一卷积神经网络对应的第三特征图中每一特征点的值，与第二级第一卷积神经网络对应的第三特征图中对应的特征点的值求和，得到第一次融合后的中间特征图，其中，该第一次融合后的中间特征图的参数信息为7×7×2×512。

一种可能的实施方式中，将各级第二特征图对应的第三特征图作为第一级第三特征图至第N级第三特征图，其中第N级第三特征图的时间维度值大于第N-1级第三特征图的时间维度值，N为大于1的正整数。则按照设定的融合顺序，将各级第二特征图对应的第三特征图依次进行融合处理，得到每一次融合后的中间特征图，包括下述几种方式：

方式一：按照从第一级第三特征图到第N级第三特征图的融合顺序，依次将各级第三特征图进行融合处理，分别得到每一次融合后的特征图，将第一级第三特征图以及每一次融合后的特征图，作为得到的中间特征图。

方式二：按照从第N级第三特征图到第一级第三特征图的融合顺序，依次将各级第三特征图进行融合处理，分别得到每一次融合后的特征图，将第N级第三特征图以及每一次融合后的特征图，作为得到中间特征图。

方式三：按照从第一级第三特征图到第N级第三特征图的融合顺序，将各级第三特征图进行融合处理，分别得到从第一级第三特征图到第N级第三特征图进行融合处理时每一次融合后的特征图，分别对第一级第三特征图以及每一次融合后的特征图进行卷积处理，得到第一级融合特征图至第N级融合特征图，其中，每一级融合特征图的参数信息与卷积处理前对应的特征图的参数信息相同；按照从第N级融合特征图到第一级融合特征图的融合顺序，依次将各级融合特征图进行融合处理，分别得到从第N级融合特征图到第一级融合特征图进行融合处理时每一次融合后的特征图，将每一次融合后的特征图以及第N级融合特征图，作为得到的中间特征图。

方式四：按照从第一级第三特征图到第N级第三特征图的融合顺序，将各级第三特征图进行融合处理，分别得到每一次融合后的特征图，将第一级第三特征图以及从第一级第三特征图到第N级第三特征图进行融合处理时每一次融合后的特征图，作为得到的第一中间特征图，并按照从第N级第三特征图到第一级第三特征图的融合顺序，将各级第三特征图进行融合处理，分别得到每一次融合后的特征图，将第N级第三特征图以及从第N级第三特征图到第一级第三特征图进行融合处理时每一次融合后的特征图，作为得到的第二中间特征图；将第一中间特征图和第二中间特征图作为得到的中间特征图。

参见图5a所示，本公开实施例，对上述方式一进行说明，对各级第三特征图进行融合时，可以先将第一级第三特征图501与第二级第三特征图502进行融合，得到第一次融合后的特征图；再将第一次得到的融合后的特征图与第三级第三特征图503进行融合，得到第二次融合后的特征图，以此类推，直至第N-2次融合后的特征图与第N级第三特征图504进行融合，得到第N-1次融合后的特征图为止；将第一次融合后的特征图(第一级第三特征图与第二级第三特征图融合后得到的特征图)、第二次融合后的特征图、…、第N-1次融合后的特征图以及第一级第三特征图，作为得到的中间特征图。

参见图5b所示，本公开实施例，对上述方式二进行说明，对各级第三特征图进行融合时，可以先将第N级第三特征图504与第N-1级第三特征图进行融合，得到第一次融合后的特征图；再将第一次融合后得到的特征图与第N-2级第三特征图进行融合，得到第二次融合后的特征图，以此类推，直至将第N-2次融合后的特征图与第一级第三特征图501进行融合，得到第N-1次融合后的特征图为止；将第一次融合后的特征图(第N级第三特征图与第N-1级第三特征图融合后得到的特征图)、第二次融合后的特征图、…、第N-1次融合后的特征图以及第N级第三特征图，作为得到的中间特征图。

参见图5c所示，本公开实施例，对上述方式三进行说明，对各级第三特征图进行融合时，可以先将第一级第三特征图与第二级第三特征图进行融合，得到第一次融合后的特征图；再将第一次得到的融合后的特征图与第三级第三特征图进行融合，得到第二次融合后的特征图，以此类推，可以得到第N-1次融合后的特征图；分别将第一级第三特征图、第一次融合后的特征图、第二次融合后的特征图、…、第N-1次融合后的特征图输入至对应的中间卷积神经网络505中进行卷积处理，得到第一级第三特征图对应的第一级融合特征图、第一次融合后的特征图对应的第二级融合特征图、第二次融合后的特征图对应的第三级融合特征图、…、第N-1次融合后的特征图对应的第N级融合特征图。其中，每一级融合特征图的参数信息与卷积处理前对应的特征图的参数信息相同，比如，若第一级第三特征图的参数信息为7×7×1×512，则第一级第三特征图对应的中间卷积神经网络505对第一级第三特征图进行卷积处理后，得到的第一级融合特征图的参数信息也为7×7×1×512；若第一次融合后的特征图的参数信息为7×7×2×512，则第一次融合后的特征图对应的中间卷积神经网络对第一次融合后的特征图进行卷积处理后，得到的第二级融合特征图的参数信息也为7×7×2×512。

继续对上述方式三进行说明，按照从第N级融合特征图到第一级融合特征图的融合顺序，依次将各级融合特征图进行融合处理，分别得到从第N级融合特征图到第一级融合特征图进行融合处理时每一次融合后的特征图，将每一次融合后的特征图以及第N级融合特征图，作为得到的中间特征图。

参见图5d所示，本公开实施例，对上述方式四进行说明，对各级第三特征图进行融合时，可以通过上述方式一将各级第三特征图进行融合处理，将第一级第三特征图以及从第一级第三特征图到第N级第三特征图进行融合处理时每一次融合后的特征图，作为得到的第一中间特征图；同时，可以通过上述方式二将各级第三特征图进行融合处理，将第N级第三特征图以及从第N级第三特征图到第一级第三特征图进行融合处理时每一次融合后的特征图，作为得到的第二中间特征图；其中，第一中间特征图以及第二中间特征图构成了通过方式四得到的中间特征图。

上述实施方式中，通过设定多种不同的融合顺序，依次将各级第三特征图进行融合处理，丰富了特征图的融合方式。

一种可能的实施方式中，参见图6所示，基于每一次融合后的中间特征图，得到第四特征图，包括：

S601，对每一次融合后的中间特征图进行卷积处理，得到该中间特征图对应的第五特征图；其中，每个中间特征图对应的第五特征图的时间维度值相同。

S602，将各个中间特征图对应的第五特征图进行合并，得到第四特征图。

示例性的，若每一次融合后的中间特征图包括参数信息为7×7×1×512的中间特征图、7×7×2×512的中间特征图、7×7×4×512的中间特征图，确定的融合后的时间维度值为1，其中，融合后的时间维度值可以根据实际需要进行设置，则可以确定每一中间特征图对应的第四卷积神经网络的网络参数信息，即可以确定参数信息为7×7×1×512的中间特征图对应的第四卷积神经网络A的网络参数信息、确定参数信息为7×7×2×512的中间特征图对应的第四卷积神经网络B的网络参数信息、确定参数信息为7×7×4×512的中间特征图对应的第四卷积神经网络C的网络参数信息；基于携带网络参数信息的第四卷积神经网络A对参数信息为7×7×1×512的中间特征图进行卷积处理，得到参数信息为7×7×1×512的中间特征图对应的第五特征图；进而可以得到参数信息为7×7×2×512的中间特征图对应的第五特征图、以及参数信息为7×7×4×512的中间特征图对应的第五特征图，其中，各个中间特征图对应的第五特征图的参数信息均为7×7×1×512。

进一步的，将各个中间特征图对应的第五特征图进行合并，得到第四特征图，即得到的第四特征图的参数信息为7×7×4×1536。其中，对各个中间特征图对应的第五特征图进行合并时，可以通过Concatenate操作将第五特征图进行串联，得到第四特征图。

上述实施方式中，通过对每一次融合后的中间特征图进行卷积处理，并将卷积处理后得到的第五特征图进行合并，得到第四特征图，使得第四特征图中既包括语义特征较强的特征信息，也包括细节特征较强的特征信息，且得到的第四特征图中还包括不同时间维度值的特征信息，使得基于第四特征图对待识别视频中包括的动作信息进行识别时，可以提高识别的准确度。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

基于相同的构思，本公开实施例还提供了一种动作信息识别装置，参见图7所示，为本公开实施例提供的一种动作信息识别的架构示意图，包括特征提取模块701、参数调整模块702、时间维度调整模块703、确定模块704，具体的：

特征提取模块701，用于对待识别视频进行特征提取，得到多级第一特征图；

参数调整模块702，用于通过对所述第一特征图进行参数信息调整，得到各级第一特征图对应的第二特征图；其中，不同级第一特征图对应的第二特征图的参数信息相同；

时间维度调整模块703，用于分别调整各级第二特征图的参数信息，得到各级第二特征图对应的第三特征图，其中，各级第三特征图的时间维度值的比例与预设比例相符；

确定模块704，用于基于所述第三特征图，确定所述待识别视频中的动作信息。

一种可能的实施方式中，所述参数调整模块702，在通过对所述第一特征图进行参数信息调整，得到各级第一卷积神经网络对应的第二特征图的情况下，用于：

确定所述各级第一卷积神经网络输出的第一特征图对应的参数信息中尺寸最小的第一特征图，并将除所述尺寸最小的第一特征图外的其它第一特征图，调整为与该尺寸最小的第一特征图相同参数信息的特征图，将所述尺寸最小的第一特征图，以及调整后所述与该尺寸最小的第一特征图相同参数信息的特征图作为所述第二特征图；或者，

将所述各级第一卷积神经网络分别输出的所述第一特征图调整为预设参数信息下的特征图，将该预设参数信息下的特征图作为所述第二特征图。

一种可能的实施方式中，所述特征提取模块，在对待识别视频进行特征提取，得到多级第一特征图的情况下，用于：

通过多级第一卷积神经网络对待识别视频进行特征提取，得到每一级第一卷积神经网络输出的第一特征图；

所述参数调整模块702，在通过对所述第一特征图进行参数信息调整，得到各级第一特征图对应的第二特征图的情况下，用于：

基于确定的调整后的参数信息，以及每一级第一卷积神经网络输出的所述第一特征图的参数信息，确定该级第一卷积神经网络对应的第二卷积神经网络的网络参数信息；

基于携带有确定的网络参数信息的所述每一级第二卷积神经网络，对该级第二卷积神经网络对应的第一卷积神经网络输出的第一特征图进行卷积处理，得到该级第二卷积神经网络输出的所述第二特征图。

所述时间维度调整模块703，在分别调整各级第二特征图的参数信息，得到各级第二特征图对应的第三特征图的情况下，用于：

基于不同级第一卷积神经网络之间的时间维度值的比例，以及每一级第一卷积神经网络对应的所述第二特征图的时间维度值，确定各级第一卷积神经网络分别对应的第三特征图的时间维度值；

基于确定的各级第一卷积神经网络分别对应的第三特征图的时间维度值，以及每一级第一卷积神经网络对应的所述第二特征图的时间维度值，确定该级第一卷积神经网络对应的第三卷积神经网络的网络参数信息；

基于携带有确定的网络参数信息的所述每一级第三卷积神经网络，对该级第三卷积神经网络对应的第二特征图进行卷积处理，得到该级第三卷积神经网络输出的所述第三特征图。

一种可能的实施方式中，所述确定模块704，在基于所述第三特征图，确定所述待识别视频中的动作信息的情况下，用于：

将各级第二特征图对应的所述第三特征图进行融合处理，得到融合后的第四特征图；

基于所述第四特征图，确定所述待识别视频中的动作信息。

一种可能的实施方式中，所述确定模块704，在将各级第二特征图对应的所述第三特征图进行融合处理，得到融合后的第四特征图的情况下，用于：

按照设定的融合顺序，将各级第二特征图对应的所述第三特征图依次进行融合处理，得到每一次融合后的中间特征图；

基于每一次融合后的中间特征图，得到所述第四特征图。

一种可能的实施方式中，将各级第二特征图对应的第三特征图作为第一级第三特征图至第N级第三特征图，其中第N级第三特征图的时间维度值大于第N-1级第三特征图的时间维度值，N为大于1的正整数，则所述确定模块704，在按照设定的融合顺序，将各级第二特征图对应的所述第三特征图依次进行融合处理，得到每一次融合后的中间特征图的情况下，用于：

按照从第一级第三特征图到所述第N级第三特征图的融合顺序，依次将各级所述第三特征图进行融合处理，分别得到每一次融合后的特征图，将第一级第三特征图以及每一次融合后的特征图，作为得到的所述中间特征图；或者，

按照从第N级第三特征图到所述第一级第三特征图的融合顺序，依次将各级所述第三特征图进行融合处理，分别得到每一次融合后的特征图，将第N级第三特征图以及每一次融合后的特征图，作为得到所述中间特征图；或者，

按照从第一级第三特征图到所述第N级第三特征图的融合顺序，将各级所述第三特征图进行融合处理，分别得到从第一级第三特征图到所述第N级第三特征图进行融合处理时每一次融合后的特征图，分别对第一级第三特征图以及每一次融合后的特征图进行卷积处理，得到第一级融合特征图至第N级融合特征图，其中，每一级所述融合特征图的参数信息与卷积处理前对应的特征图的参数信息相同；按照从第N级融合特征图到所述第一级融合特征图的融合顺序，依次将各级所述融合特征图进行融合处理，分别得到从第N级融合特征图到所述第一级融合特征图进行融合处理时每一次融合后的特征图，将每一次融合后的特征图以及第N级融合特征图，作为得到的所述中间特征图；或者，

按照从第一级第三特征图到所述第N级第三特征图的融合顺序，将各级所述第三特征图进行融合处理，分别得到每一次融合后的特征图，将第一级第三特征图以及从第一级第三特征图到所述第N级第三特征图进行融合处理时每一次融合后的特征图，作为得到的第一中间特征图，并按照从第N级第三特征图到所述第一级第三特征图的融合顺序，将各级所述第三特征图进行融合处理，分别得到每一次融合后的特征图，将第N级第三特征图以及从第N级第三特征图到所述第一级第三特征图进行融合处理时每一次融合后的特征图，作为得到的第二中间特征图；将所述第一中间特征图和所述第二中间特征图作为得到的所述中间特征图。

一种可能的实施方式中，所述确定模块704，在基于每一次融合后的中间特征图，得到所述第四特征图的情况下，用于：

对每一次融合后的中间特征图进行卷积处理，得到该中间特征图对应的第五特征图；其中，每个中间特征图对应的第五特征图的时间维度值相同；

将各个中间特征图对应的第五特征图进行合并，得到所述第四特征图。

在一些实施例中，本公开实施例提供的装置具有的功能或包含的模板可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

基于同一技术构思，本公开实施例还提供了一种电子设备。参照图8所示，为本公开实施例提供的电子设备的结构示意图，包括处理器801、存储器802、和总线803。其中，存储器802用于存储执行指令，包括内存8021和外部存储器8022；这里的内存8021也称内存储器，用于暂时存放处理器801中的运算数据，以及与硬盘等外部存储器8022交换的数据，处理器801通过内存8021与外部存储器8022进行数据交换，当电子设备800运行时，处理器801与存储器802之间通过总线803通信，使得处理器801在执行以下指令：

对待识别视频进行特征提取，得到多级第一特征图；

基于所述第三特征图，确定所述待识别视频中的动作信息。

此外，本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中所述的动作信息识别方法的步骤。

本公开实施例所提供的动作信息识别方法的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行上述方法实施例中所述的动作信息识别方法的步骤，具体可参见上述方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本公开所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应以权利要求的保护范围为准。

Claims

一种动作信息识别方法，其特征在于，包括：

对待识别视频进行特征提取，得到多级第一特征图；

通过对所述第一特征图进行参数信息调整，得到各级第一特征图对应的第二特征图；其中，不同级第一特征图对应的第二特征图的参数信息相同；

分别调整各级第二特征图的参数信息，得到各级第二特征图对应的第三特征图，其中，各级第三特征图的时间维度值的比例与预设比例相符；

基于所述第三特征图，确定所述待识别视频中的动作信息。
根据权利要求1所述的方法，其特征在于，所述通过对所述第一特征图进行参数信息调整，得到各级第一特征图对应的第二特征图，包括：

确定所述各级第一特征图对应的参数信息中尺寸最小的第一特征图，并将除所述尺寸最小的第一特征图外的其它第一特征图，调整为与该尺寸最小的第一特征图相同参数信息的特征图，将所述尺寸最小的第一特征图，以及调整后所述与该尺寸最小的第一特征图相同参数信息的特征图作为所述第二特征图；或者，

将所述各级第一特征图调整为预设参数信息下的特征图，将该预设参数信息下的特征图作为所述第二特征图。
根据权利要求1所述的方法，其特征在于，所述对待识别视频进行特征提取，得到多级第一特征图，包括：

通过多级第一卷积神经网络对待识别视频进行特征提取，得到每一级第一卷积神经网络输出的第一特征图；

所述通过对所述第一特征图进行参数信息调整，得到各级第一特征图对应的第二特征图，包括：

基于确定的调整后的参数信息，以及每一级第一卷积神经网络输出的所述第一特征图的参数信息，确定该级第一卷积神经网络对应的第二卷积神经网络的网络参数信息；

基于携带有确定的网络参数信息的所述每一级第二卷积神经网络，对该级第二卷积神经网络对应的第一卷积神经网络输出的第一特征图进行卷积处理，得到该级第二卷积神经网络输出的所述第二特征图。
根据权利要求1～3任一所述的方法，其特征在于，所述对待识别视频进行特征提取，得到多级第一特征图，包括：

通过多级第一卷积神经网络对待识别视频进行特征提取，得到每一级第一卷积神经网络输出的第一特征图；

所述分别调整各级第二特征图的参数信息，得到各级第二特征图对应的第三特征图，包括：

基于不同级第一卷积神经网络之间的时间维度值的比例，以及每一级第一卷积神经网络对应的所述第二特征图的时间维度值，确定各级第一卷积神经网络分别对应的第三特征图的时间维度值；

基于确定的各级第一卷积神经网络分别对应的第三特征图的时间维度值，以及每一级第一卷积神经网络对应的所述第二特征图的时间维度值，确定该级第一卷积神经网络对应的第三卷积神经网络的网络参数信息；

基于携带有确定的网络参数信息的所述每一级第三卷积神经网络，对该级第三卷积神经网络对应的第二特征图进行卷积处理，得到该级第三卷积神经网络输出的所述第三特征图。
根据权利要求1所述的方法，其特征在于，所述基于所述第三特征图，确定所述待识别视频中的动作信息，包括：

将各级第二特征图对应的所述第三特征图进行融合处理，得到融合后的第四特征图；

基于所述第四特征图，确定所述待识别视频中的动作信息。
根据权利要求5所述的方法，其特征在于，将各级第二特征图对应的所述第三特征图进行融合处理，得到融合后的第四特征图，包括：

按照设定的融合顺序，将各级第二特征图对应的所述第三特征图依次进行融合处理，得到每一次融合后的中间特征图；

基于每一次融合后的中间特征图，得到所述第四特征图。
根据权利要求6所述的方法，其特征在于，将各级第二特征图对应的第三特征图作为第一级第三特征图至第N级第三特征图，其中第N级第三特征图的时间维度值大于第N-1级第三特征图的时间维度值，N为大于1的正整数，则按照设定的融合顺序，将各级第二特征图对应的所述第三特征图依次进行融合处理，得到每一次融合后的中间特征图，包括：

按照从第一级第三特征图到所述第N级第三特征图的融合顺序，依次将各级所述第三特征图进行融合处理，分别得到每一次融合后的特征图，将第一级第三特征图以及每一次融合后的特征图，作为得到的所述中间特征图；或者，

按照从第N级第三特征图到所述第一级第三特征图的融合顺序，依次将各级所述第三特征图进行融合处理，分别得到每一次融合后的特征图，将第N级第三特征图以及每一次融合后的特征图，作为得到的所述中间特征图；或者，

按照从第一级第三特征图到所述第N级第三特征图的融合顺序，将各级所述第三特征图进行融合处理，分别得到从第一级第三特征图到所述第N级第三特征图进行融合处理时每一次融合后的特征图，分别对第一级第三特征图以及每一次融合后的特征图进行卷积处理，得到第一级融合特征图至第N级融合特征图，其中，每一级所述融合特征图的参数信息与卷积处理前对应的特征图的参数信息相同；按照从第N级融合特征图到所述第一级融合特征图的融合顺序，依次将各级所述融合特征图进行融合处理，分别得到从第N级融合特征图到所述第一级融合特征图进行融合处理时每一次融合后的特征图，将每一次融合后的特征图以及第N级融合特征图，作为得到的所述中间特征图；或者，

按照从第一级第三特征图到所述第N级第三特征图的融合顺序，将各级所述第三特征图进行融合处理，分别得到每一次融合后的特征图，将第一级第三特征图以及从第一级第三特征图到所述第N级第三特征图进行融合处理时每一次融合后的特征图，作为得到的第一中间特征图，并按照从第N级第三特征图到所述第一级第三特征图的融合顺序，将各级所述第三特征图进行融合处理，分别得到每一次融合后的特征图，将第N级第三特征图以及从第N级第三特征图到所述第一级第三特征图进行融合处理时每一次融合后的特征图，作为得到的第二中间特征图；将所述第一中间特征图和所述第二中间特征图作为得到的所述中间特征图。
根据权利要求6或7所述的方法，其特征在于，所述基于每一次融合后的中间特征图，得到所述第四特征图，包括：

对每一次融合后的中间特征图进行卷积处理，得到该中间特征图对应的第五特征图；其中，每个中间特征图对应的第五特征图的时间维度值相同；

将各个中间特征图对应的第五特征图进行合并，得到所述第四特征图。
一种动作信息识别装置，其特征在于，包括：

特征提取模块，用于对待识别视频进行特征提取，得到多级第一特征图；

参数调整模块，用于通过对所述第一特征图进行参数信息调整，得到各级第一特征图对应的第二特征图；其中，不同级第一特征图对应的第二特征图的参数信息相同；

时间维度调整模块，用于分别调整各级第二特征图的参数信息，得到各级第二特征图对应的第三特征图，其中，各级第三特征图的时间维度值的比例与预设比例相符；

确定模块，用于基于所述第三特征图，确定所述待识别视频中的动作信息。
一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至8任一所述的动作信息识别方法的步骤。
一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至8任一所述的动作信息识别方法的步骤。
一种计算机程序产品，其特征在于，所述计算机程序产品包括程序指令，所述程序指令被处理器运行时该处理器执行如权利要求1至8任一所述的动作信息识别方法的步骤。