WO2019136761A1

WO2019136761A1 - 一种用于识别人为动作的三维卷积装置

Info

Publication number: WO2019136761A1
Application number: PCT/CN2018/072675
Authority: WO
Inventors: 肖梦秋
Original assignee: 深圳鲲云信息科技有限公司
Priority date: 2018-01-15
Filing date: 2018-01-15
Publication date: 2019-07-18
Also published as: CN109416743B; CN109416743A

Abstract

一种用于识别人为动作的三维卷积装置（1），该装置包括至少一层三维卷积层（2）、至少一层校正线性单元层（3）及至少一层三维池化层（4）；所述三维卷积层（2）包括：缓存存储器（21），行缓存器（22），(K _C-1)个帧缓存器（23），K _C个矩阵缓存器（24），K _C个三维卷积处理器（25），累加器（26）；校正线性单元层（3）包括：三维输出缓存器（31）；所述三维池化层（4）包括：三维池化器（41）。所述用于识别人为动作的三维卷积装置（1）通过硬件结构从大数据量的视频数据中识别出人为动作，且解决了存储和带宽限制问题，降低了整体功耗。

Description

一种用于识别人为动作的三维卷积装置

技术领域

本发明属于人工智能技术领域，涉及一种卷积装置，特别是涉及一种用于识别人为动作的三维卷积装置。

背景技术

在最近几年，三维卷积神经网络(3D CNNs)已经广泛应用于视频分析，三维几何数据及医学图像诊断等技术领域。而卷积神经网络计算量更大，三维卷积神经网络将计算要求推进到另一个层次，因为每种计算决定于复杂图像。

现有技术通常采用应用二维卷积神经网络的GPU和CPU来分析处理视频数据，但是GPU在运算过程中会产生高功耗，CPU在运算处理过程中低处理速度，GPU和CPU两者都不适用于处理数据量较大的视频动作识别。

因此，如何提供一种用于识别人为动作的三维卷积装置，以解决现有技术无法通过硬件结构从大数据量的视频数据中识别出人为动作，且存在存储和带宽限制等缺陷，实已成为本领域技术人员亟待解决的技术问题。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种用于识别人为动作的三维卷积装置，用于解决现有技术无法通过硬件结构从大数据量的视频数据中识别出人为动作，且存在存储和带宽限制的问题。

为实现上述目的及其他相关目的，本发明提供一种用于识别人为动作的三维卷积装置，所述用于识别人为动作的三维卷积装置包括：至少一层三维卷积层、至少一层校正线性单元层及至少一层三维池化层；所述三维卷积层包括：缓存存储器，用于缓存待识别视频数据，该待识别视频数据包括若干特征图像；行缓存器，用于逐位接收所述特征图像的像素，以组成行数据，并平行输出K _C个毗邻输入帧；其中，所述毗邻输入帧由行数据组成；K _C表示3D卷积核的核数；K _C大于等于3；(K _C-1)个帧缓存器，用于缓存(K _C-1)个毗邻输入帧；K _C个矩阵缓存器，用于接收K _C个毗邻输入帧，将同时输出K _C*K _C个毗邻输出帧；其中，第一矩阵缓存器与所述行缓存器直接连接，以将接收的行数据直接组成第一毗邻输入帧，并输出第一毗邻输出帧；其余(K _C-1)个矩阵缓存器分别与(K _C-1)个帧缓存器连接；K _C个三维卷积处理器，用于利用预存三维卷积核三维卷积处理K _C*K _C个毗邻输出帧；所述预存三维卷积核由3个2维卷积核组成；累加器，用于将K _C个卷积处理器三维卷积处理后的卷积结果进行累加；所述校正线性单元层包括：三维输出缓存器，用于从所述累加器输出的累加结果中选取与数字0比较后的最大像素，并将选取出来的最大像素进行逐行缓存；所述三维池化层包括：三维池化器，用于通过行缓存器缓存逐行输入的行数据中最大像素，以形成二维池化结果，通过帧缓存器缓存所述二维池化结果，并从所述二维池化结果中选取最大值，以形成三维池化结果；所述三维池化结果为从待识别视频识别出的人为动作。

于本发明的一实施例中，所述三维卷积层可处理N _C*N _L幅特征图像，每一特征图像的高度为H和宽度为W，及系数尺寸K _C ³的N _C*N _L系数矢量。

于本发明的一实施例中，采用帧块化、像素块化和/或系数缓存处理所述三维卷积层。

于本发明的一实施例中，所述帧块化指将输入所述K _C个卷积处理器的输入帧划分为输入数据，并保持每一帧的原始尺寸；若缓存的输入帧为C _i，每个帧块包括C _i/(N _C*H*W)帧，每个帧块的上空像素为：(K _C-1)*(N _C*H*W)/C _i；其中，H为特征图像的高度，W为特征图像的宽度，N _C为图像通道数。

于本发明的一实施例中，所述像素块化指将输入所述K _C个卷积处理器的每一输入帧划分成相同尺寸的正方形的帧，并保留所有输入帧；若每一输入帧有2*(K _C-1)上空像素，若每个输入帧包含C _i/(N _L*N _C)像素，则每个帧块的上空像素为

其中，N _L表示输入帧的数量。

于本发明的一实施例中，帧块化和像素块化的占空率为

其中，若该占空率大于1，采用像素块化处理三维卷积层；若该占空率小于1，采用帧块化处理三维卷积层。

于本发明的一实施例中，所述系数缓存指若系数缓存尺寸为C _C，每个向量包含K _C*K _C*K _C个系数，系数缓存尺寸需满足C _C≥N _f*N _C*K _C*K _C*K _C。

于本发明的一实施例中，所述2维卷积核包括K _C ²个乘法器及深度为log(K _C)的加法器。

于本发明的一实施例中，所述行缓存器中设置有K _C个串联的先进先出存储器；每一个所述先进先出存储器存储特征图像的一行数据；其中，各所述行数据沿串联的先进先出存储器形成的路径依次存储至各所述先进先出存储器。

于本发明的一实施例中，所述矩阵缓存器将输入的毗邻输入帧排列成矩阵以存储的多个寄存器。

如上所述，本发明的用于识别人为动作的三维卷积装置，具有以下有益效果：

本发明所述用于识别人为动作的三维卷积装置通过硬件结构从大数据量的视频数据中识别出人为动作，且解决了存储和带宽限制问题，降低了整体功耗。

附图说明

图1显示为本发明的用于识别人为动作的三维卷积装置的一实施例结构示意图。

图2显示为本发明的用于识别人为动作的三维卷积装置于一实施例中的硬件结构示意图。

元件标号说明

1 用于识别人为动作的

三维卷积装置

2 维卷积层

3 校正线性单元层

4 三维池化层

21 缓存存储器

22 行缓存器

23 帧缓存器

24 矩阵缓存器

25 三维卷积处理器

26 累加器

31 三维输出缓存器

41 三维池化器

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

在本发明所提供的用于识别人为动作的三维卷积装置输入一视频数据后，将该视频数据划分为16个非重叠帧片段并调整为112*112大小的三通道，利用三维卷积从时间维度和空间维度中提取出编码在多个连续帧数据中的动作信息。对于所有卷积层，应用1步长的0边界而言，本发明可使输入特征图像的尺寸等于输出特征图像的尺寸。

本实施例提供一种用于识别人为动作的三维卷积装置1，该三维卷积装置1包括至少一层三维卷积层2、至少一层校正线性单元层3及至少一层三维池化层4。其中，所述三维卷积层用于识别人为动作。

请参阅图1，显示为三维卷积装置的一实施例结构示意图。如图1所示，所述三维卷积装置1设置有8层三维卷积层(用Cov表示)、5层三维池化层(用pool表示)及2个连接层(用fc6表示)。三维卷积层采用三维卷积核，该核的系数为3*3*3。

请参阅图2，显示为三维卷积装置于一实施例中的硬件结构示意图。如图2所示，所述三维卷积装置1在所述三维卷积层2上设置有缓存存储器21、行缓存器22、帧缓存器23、矩阵缓存器24、三维卷积处理器25及累加器26。

其中，所述缓存存储器21用于缓存待识别视频数据，该待识别视频数据包括若干特征图像。在本实施例中，输入的特征图像按照划分顺序依次输入所述缓存存储器21中。所述特征图像的高度为H和宽度为W，及系数尺寸K _C ³的N _C*N _L系数矢量。K _C大于等于3。在本实施例中，K _C＝3。

与所述缓存存储器21连接的行缓存器22用于逐位接收所述特征图像的像素，以组成行数据，并平行输出K _C个毗邻输入帧；其中，所述毗邻输入帧由行数据组成；K _C表示3D卷积核的核数。所述行缓存器22中设置有K _C个串联的先进先出存储器(于本实施例中，设置3个串联的FIFO存储器221)；每一个所述先进先出存储器存储特征图像的一行数据；其中，各所述行数据沿串联的先进先出存储器形成的路径依次存储至各所述先进先出存储器。

与所述(K _C-1)个帧缓存器23用于缓存(K _C-1)个毗邻输入帧。

K _C个矩阵缓存器24用于接收K _C个毗邻输入帧，同时输出K _C*K _C个毗邻输出帧。参阅图2，由于该实施例中K _C＝3，其中，第一矩阵缓存器24与所述行缓存器21直接连接，以将接收的行数据直接组成第一毗邻输入帧，输出第一毗邻输出帧；其余(K _C-1)个矩阵缓存器24分别与(K _C-1)个帧缓存器23连接。

分别与K _C个矩阵缓存器24连接的K _C个三维卷积处理器25用于利用预存三维卷积核卷积处理K _C*K _C个毗邻输出帧。所述矩阵缓存器将输入的毗邻输入帧排列成矩阵以存储的多个寄存器。所述预存三维卷积核由3个2维卷积核组成。所述三维卷积核用于卷积处理三个毗邻输出帧。所述2维卷积核包括K _C ²个乘法器及深度为log(K _C)的加法器。

例如，当第一个输入帧在第一个卷积处理器25(如图2中的核1.3)中进行三维卷积处理，缓存在第二个和第三个帧缓存器23中的第二个和第三个毗邻输入帧流入第二个卷积处理器(如图2中的核1.2)和第三个卷积处理器(如图2中的核1.1)中分别进行三维卷积处理。

与所述K _C个卷积处理器25连接的累加器26用于将K _C个卷积处理器25三维卷积处理后的卷积结果进行累加。

所述校正线性单元层3包括与所述累加器26连接的三维输出缓存器31用于从所述累加器26输出的累加结果中选取与数字0比较后的最大像素，并将选取出来的最大像素进行逐行缓存。

所述三维池化层4包括与所述三维输出缓存器31连接的三维池化器41用于通过行缓存器缓存逐行输入的行数据中最大像素，以形成二维池化结果，通过帧缓存器缓存所述二维池化结果，并从所述二维池化结果中选取最大值，以形成三维池化结果；所述三维池化结果为从待识别视频识别出的人为动作。

在本实施例中，由于三维卷积层需要至少3个2维卷积核和更多的芯片存储器来缓存不同帧的输入数据，这样比二维卷积设计更加耗费资源和需要更多的内存。因此，为了解决三维卷积层的内存和带宽限制，对所述三维卷积层进行采用帧块化或像素块化。

所述帧块化指将输入所述K _C个卷积处理器的输入帧划分为输入数据，并保持每一帧的原始尺寸；若缓存的输入帧为C _i，每个帧块包括C _i/(N _C*H*W)帧，每个帧块的上空像素为：(K _C-1)*(N _C*H*W)/C _i，其中，H为特征图像的高度，W为特征图像的宽度，N _C为图像通道数。

所述像素块化指将输入所述K _C个卷积处理器的每一输入帧划分成相同尺寸的正方形的帧，并保留所有输入帧；若每一输入帧有2*(K _C-1)上空像素，若每个输入帧包含C _i/(N _L*N _C)像素，则每个帧块的上空像素为

其中，N _L表示输入帧的数量。

(K _C-1)*(N _C*H*W)/C _i除以

得到

用以表示帧块化和像素块化的占空率。若该占空率大于1，采用像素块化处理三维卷积层，若该占空率小于1，采用帧块化处理三维卷积层。

在本实施例中，缓存N _C*N _f系数矢量直至B块输入帧完成。但是这种系数缓存受到芯片存储量的限制。因此系数的重量远远小于系数缓存。

若所述系数缓存指若系数缓存尺寸为C _C，每个系数向量包含K _C*K _C*K _C个系数，系数缓存尺寸需满足C _C≥N _f*N _C*K _C*K _C*K _C。

在本实施例中，所述识别人为动作的三维卷积装置可通过FPGA芯片实现。

综上所述，本发明所述用于识别人为动作的三维卷积装置通过硬件结构从大数据量的视频数据中识别出人为动作，且解决了存储和带宽限制问题，降低了整体功耗。所以，本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

一种用于识别人为动作的三维卷积装置，其特征在于，所述用于识别人为动作的三维卷积装置包括：至少一层三维卷积层、至少一层校正线性单元层及至少一层三维池化层；

所述三维卷积层包括：

缓存存储器，用于缓存待识别视频数据，该待识别视频数据包括若干特征图像；

行缓存器，用于逐位接收所述特征图像的像素，以组成行数据，并平行输出K _C个毗邻输入帧；其中，所述毗邻输入帧由行数据组成；K _C表示3D卷积核的核数；K _C大于等于3；

(K _C-1)个帧缓存器，用于缓存(K _C-1)个毗邻输入帧；

K _C个矩阵缓存器，用于接收K _C个毗邻输入帧，将同时输出K _C*K _C个毗邻输出帧；其中，第一矩阵缓存器与所述行缓存器直接连接，以将接收的行数据直接组成第一毗邻输入帧，并输出第一毗邻输出帧；其余(K _C-1)个矩阵缓存器分别与(K _C-1)个帧缓存器连接；

K _C个三维卷积处理器，用于利用预存三维卷积核三维卷积处理K _C*K _C个毗邻输出帧；所述预存三维卷积核由3个2维卷积核组成；

累加器，用于将K _C个卷积处理器三维卷积处理后的卷积结果进行累加；

所述校正线性单元层包括：

三维输出缓存器，用于从所述累加器输出的累加结果中选取与数字0比较后的最大像素，并将选取出来的最大像素进行逐行缓存；

所述三维池化层包括：

三维池化器，用于通过行缓存器缓存逐行输入的行数据中最大像素，以形成二维池化结果，通过帧缓存器缓存所述二维池化结果，并从所述二维池化结果中选取最大值，以形成三维池化结果；所述三维池化结果为从待识别视频识别出的人为动作。
根据权利要求1所述的用于识别人为动作的三维卷积装置，其特征在于，所述三维卷积层可处理N _C*N _L幅特征图像，每一特征图像的高度为H和宽度为W，及系数尺寸K _C ³的N _C*N _L系数矢量。
根据权利要求1所述的用于识别人为动作的三维卷积装置，其特征在于，采用帧块化、像素块化和/或系数缓存处理所述三维卷积层。
根据权利要求3所述用于识别人为动作的三维卷积装置，其特征在于，所述帧块化指将输入所述K _C个卷积处理器的输入帧划分为输入数据，并保持每一帧的原始尺寸；若缓存的输入帧为C _i，每个帧块包括C _i/(N _C*H*W)帧，每个帧块的上空像素为：(K _C-1)*(N _C*H*W)/C _i；其中，H为特征图像的高度，W为特征图像的宽度，N _C为图像通道数。
根据权利要求3所述的用于识别人为动作的三维卷积装置，其特征在于，所述像素块化指将输入所述K _C个卷积处理器的每一输入帧划分成相同尺寸的正方形的帧，并保留所有输入帧；若每一输入帧有2*(K _C-1)上空像素，若每个输入帧包含C _i/(N _L*N _C)像素，则每个帧块的上空像素为
其中，N _L表示输入帧的数量。
根据权利要求4或5所述的用于识别人为动作的三维卷积装置，其特征在于，帧块化和像素块化的占空率为
其中，若该占空率大于1，采用像素块化处理三维卷积层；若该占空率小于1，采用帧块化处理三维卷积层。
根据权利要求3所述的用于识别人为动作的三维卷积装置，其特征在于，所述系数缓存指若系数缓存尺寸为C _C，每个向量包含K _C*K _C*K _C个系数，系数缓存尺寸需满足C _C≥N _f*N _C*K _C*K _C*K _C。
根据权利要求1所述的用于识别人为动作的三维卷积装置，其特征在于，所述2维卷积核包括K _C ²个乘法器及深度为log(K _C)的加法器。
根据权利要求1所述的用于识别人为动作的三维卷积装置，其特征在于，所述行缓存器中设置有K _C个串联的先进先出存储器；每一个所述先进先出存储器存储特征图像的一行数据；其中，各所述行数据沿串联的先进先出存储器形成的路径依次存储至各所述先进先出存储器。
根据权利要求1所述的用于识别人为动作的三维卷积装置，其特征在于，所述矩阵缓存器将输入的毗邻输入帧排列成矩阵以存储的多个寄存器。