WO2021026775A1

WO2021026775A1 - 神经网络数据流加速方法、装置、计算机设备及存储介质

Info

Publication number: WO2021026775A1
Application number: PCT/CN2019/100402
Authority: WO
Inventors: 姜浩; 蔡权雄; 牛昕宇
Original assignee: 深圳鲲云信息科技有限公司
Priority date: 2019-08-13
Filing date: 2019-08-13
Publication date: 2021-02-18
Also published as: CN115462079A

Abstract

一种人工智能领域的神经网络数据流加速方法、装置、计算机设备及存储介质，方法包括：获取视频数据流（101）；将所述视频数据流进行硬件解码（102）；基于神经网络的结构配置硬件资源，并将所述硬件解码后的视频数据流通过所述配置后的硬件资源进行数据流硬件加速（103）；将所述数据流硬件加速后的数据输入到所述神经网络并输出结果（104）。通过将所述视频数据流进行硬件解码，并基于神经网络的结构配置硬件资源，并将所述硬件解码后的视频数据流通过配置后的硬件资源进行数据流硬件加速，提高神经网络处理数据流的效率并降低成本和功耗。

Description

神经网络数据流加速方法、装置、计算机设备及存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及神经网络数据流加速方法、装置、计算机设备及存储介质。

背景技术

目前，市面上的流媒体(如视频流、音频流等)加速主流框架采用一个主控CPU,主控CPU会调用专用视频流视频编解码芯片或者SOC模块进行视频获取和视频解码，之后将解码完的图片使用GPU或TPU等加速芯片进行人工智能分析，尤其是使用深度学习的神经网络进行识别、预测等,最后结果将由主控CPU进行下一步分析或存储。但是，现有的技术方案存在采用GPU或TPU进行硬件加速具有成本高，功耗高等缺点。另外存在硬件使用率不够高，各芯片间通信数据太多效率低等问题，特别是在对视频流数据进行人工智能处理的时候，普遍采用的GPU进行神经网络加速同样具有高成本高功耗等问题。

发明内容

本申请实施例的目的在于提出一种神经网络数据流加速方法、装置、计算机设备及存储介质，以降低神经网络数据流处理的成本和功耗，提高数据流处理效率。

为了解决上述技术问题，本申请实施例提供一种神经网络数据流方法，采用了如下所述的技术方案：

包括下述步骤：

获取视频数据流；

将所述视频数据流进行硬件解码；

基于神经网络的结构配置硬件资源，并将所述硬件解码后的视频数据流通过所述配置后的硬件资源进行数据流硬件加速；

将所述数据流硬件加速后的数据输入到所述神经网络并输出结果。

进一步的，所述获取视频数据流的步骤包括：

从网络摄像头或视频流服务器获取所述视频数据流。

进一步的，所述将所述视频数据流进行硬件解码的步骤包括：

将所述视频数据流通过芯片自带图形处理单元进行解码。

进一步的，在所述将所述视频数据流进行硬件解码的步骤之后，基于神经网络的结构配置硬件资源，并将所述硬件解码后的视频数据流通过所述配置后的硬件资源进行数据流硬件加速的步骤之前，所述方法还包括步骤：

将所述进行硬件解码后的视频数据流进行前处理。

进一步的，所述基于神经网络的结构配置硬件资源，并将所述硬件解码后的视频数据流通过所述配置后的硬件资源进行数据流硬件加速的步骤包括：

获取所述神经网络的结构；

根据所述神经网络的结构动态分配硬件资源并对硬件资源进行时序优化；

使用所述硬件资源对所述硬件解码后的视频数据流进行数据流加速。

进一步的，在所述将所述数据流硬件加速后的数据输入到所述神经网络并输出结果的步骤之后，所述方法还包括步骤：

将所述神经网络的输出结果进行后处理。

为了解决上述技术问题，本申请实施例还提供一种神经网络数据流加速装置，采用了如下所述的技术方案：

所述神经网络数据流加速装置，包括：

获取模块，用于获取视频数据流；

解码模块，用于将所述视频数据流进行硬件解码；

加速模块，用于基于神经网络的结构配置硬件资源，并将所述硬件解码后的视频数据流通过所述配置后的硬件资源进行数据流硬件加速；

输出模块，用于将所述数据流硬件加速后的数据输入到所述神经网络并输出结果。

进一步的，所述获取模块包括：

获取子单元，用于从网络摄像头或视频流服务器获取所述视频数据流。

为了解决上述技术问题，本申请实施例还提供一种计算机设备，采用了如下所述的技术方案：

所述计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时实现本申请实施例中提出的任一项所述的神经网络数据流加速方法的步骤。

为了解决上述技术问题，本申请实施例还提供一种计算机可读存储介质，采用了如下所述的技术方案：

所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现本申请实施例中提出的任一项所述的神经网络数据流加速方法的步骤。

与现有技术相比，本申请实施例主要有以下有益效果：获取视频数据流；将所述视频数据流进行硬件解码；基于神经网络的结构配置硬件资源，并将所述硬件解码后的视频数据流通过所述配置后的硬件资源进行数据流硬件加速；将所述数据流硬件加速后的数据输入到所述神经网络并输出结果。通过将所述视频数据流进行硬件解码，并基于神经网络的结构配置硬件资源，并将所述硬件解码后的视频数据流通过配置后的硬件资源进行数据流硬件加速，提高神经网络处理数据流的效率并降低成本和功耗。

附图说明

为了更清楚地说明本申请中的方案，下面将对本申请实施例描述中所需要使用的附图作一个简单介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1根据本申请的神经网络数据流加速方法的一个实施例的流程图；

图2是图1中步骤103的一种具体实施方式的流程图；

图3是根据本申请的神经网络数据流加速装置的一个实施例的结构示意图；

图4是根据本申请的计算机设备的一个实施例的结构示意图。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

如图1所示，图1示出了根据本申请的神经网络数据流加速方法的一个实施例的流程图。所述的神经网络数据流加速方法，包括以下步骤：

步骤101，获取视频数据流。

在本实施例中，视频数据流是连续的图片帧，如RGB图片，经过分割分块然后编码，获取的方式可以是从本地或网络摄像头、从其他视频流服务器等通过有线或无线的方式获得。

步骤102，将所述视频数据流进行硬件解码。

其中，解码基本上执行和编码的过程完全相反的过程，而视频编解码器的设计通常是标准化的，即由发布的编码文档来准确的规范解码如何进行。在本实施例中，可以通过芯片自带图形处理单元或专用解码器对视频数据流进行硬件解码，提高解码效率和资源利用率。

步骤103，基于神经网络的结构配置硬件资源，并将所述硬件解码后的视频数据流通过所述配置后的硬件资源进行数据流硬件加速。

在本实施例中，神经网络包含神经网络图(神经网络结构)及对应该结构的参数，其中神经网络的结构是以层为计算单元的，包含且不限于卷积层、池化层、ReLU(激活函数)、全连接层等。神经网络结构中的每一层除了接收上一层输出的数据流外还具有大量的参数，这些参数包含且不限于：weight(权重)、bias(偏置)等。根据所述神经网络的结构，分配对应结构所需要的硬件资源，例如计算单元和缓存单元以及可进行时序优化的流水线单元等，对所述视频数据流进行硬件加速，从而提高神经网络处理数据流的效率并降低功耗。

步骤104，将所述数据流硬件加速后的数据输入到所述神经网络并输出结果。

在本实施例中，所述神经网络可以是进行物体检测、目标识别、位置预测等的深度学习模型，如faster-RCNN、Yolo、SSD等。将所述硬件加速后的视频数据流输入到这些神经网络中，并从输出的结果中不仅可以识别出物体属于哪个分类，还可以得到物体在图片中的具体位置，而且识别错误率低，速度也较快，能满足如视频流中的目标的实时检测的场景。

在本实施例中，获取视频数据流；将所述视频数据流进行硬件解码；基于神经网络的结构配置硬件资源，并将所述硬件解码后的视频数据流通过所述配置后的硬件资源进行数据流硬件加速；将所述数据流硬件加速后的数据输入到所述神经网络并输出结果。通过将所述视频数据流进行硬件解码，并基于神经网络的结构配置硬件资源，并将所述硬件解码后的视频数据流通过配置后的硬件资源进行数据流硬件加速，提高神经网络处理数据流的效率并降低成本和功耗。

进一步的，上述步骤101可以包括：

步骤1011，从网络摄像头或视频流服务器获取所述视频数据流。

在本实施例中，获取所述视频数据流的方式可通过HTTP或者RTSP等视频流传输协议，从本地或网络摄像头、网络视频流服务器通过有线或无线的方式获取，并将其保存到本地内存空间中。

进一步的，上述步骤102可以包括以下步骤：

步骤1021，将所述视频数据流通过芯片自带图形处理单元进行解码。

其中，一个典型的数字视频编解码器的第一步是将从摄像机输入的视频从RGB色度空间转换到YCbCr色度空间，而且通常还伴有色度抽样来生成4:2:0格式的视频(有时候在隔行扫描的情况下会采用4:2:2的抽样方式)。转换到YCbCr色度空间会带来两点好处：第一，这样做部分的解除了色度信号中的相关性，提高了可压缩能力；第二这样做将亮度信号分离出来，而亮度信号对视觉感觉是最重要的，相对来说色度信号对视觉感觉就不是那么重要，可以抽样到较低的分辨率(4:2:0或者4:2:2)而不影响人观看的感觉。

此外，在真正的编码之前，对空域或者时域抽样可以有效地降低原始视频数据的数据量。输入的视频图像通常被分割为宏块分别进行编码，宏块的大小通常是16x16的亮度块信息和对应的色度块信息。然后使用分块的运动补偿从已编码的帧对当前帧的数据进行预测。之后，使用块变换或者子带分解来减少空域的统计相关性。最常见的变换是8x8的离散余弦变换(DCT fordiscrete cosine transform)。变换的输出系数接下来被量化，量化后的系数进行熵编码并成为输出码流的一部分。实际上在使用DCT变换的时候，量化后的二维的系数通常使用Zig-zag扫描将系数表示为一维的，再通过对连续0系数的个数和非0系数的大小(Level)进行编码得到一个符号，通常也有特殊的符号来表示后面剩余的所有系数全部等于0。这时候的熵编码通常使用变长编码。

视频编解码器的设计通常是标准化的，也就是说，由发布的编码文档来准确的规范解码如何进行。实际上，为了使编码的码流具有互操作性(即由A编码器编成的码流可以由B解码器解码，反之亦然)，仅仅对解码器的解码过程进行规范就足够了。通常编码的过程并不完全被一个标准所定义，用户有设计自己编码器的自由，只要用户设计的编码器编码产生的码流是符合解码规范的就可以了。解码基本上执行和编码的过程完全相反的过程，即可以使用芯片(如Intel中央处理器等)自带的图形处理单元GPU根据编码规范对获得的视频数据流进行解码，从而可以获得解码后的连续的RGBA图片帧或YUV420图片帧。

进一步的，在所述将所述视频数据流进行硬件解码的步骤102之后，基于神经网络的结构配置硬件资源，并将所述硬件解码后的视频数据流通过所述配置后的硬件资源进行数据流硬件加速的步骤103之前，所述方法还包括步骤：

将所述进行硬件解码后的视频数据流进行前处理。

在本实施例中，需要对上述硬件解码后的视频数据流进行前处理，包括将视频流的每一图片帧的格式转换为神经网络进行识别和预测所需要的图片尺寸以及数据格式，然后再输入上述神经网络，以提高其处理速度。

进一步的，如图2所示，上述步骤103具体包括以下步骤：

步骤1031，获取所述神经网络的结构。

其中，神经网络的结构是以层为计算单元的，包含且不限于输入层、卷积层、池化层、ReLU(激活函数)、全连接层等，不同的神经网络通过不同类型和不同数量的层进行组合形成有不同功能的神经网络结构。神经网络结构中的每一层除了接收上一层输出的数据流外还具有大量的参数，这些参数包含且不限于：weight(权重)、bias(偏置)等。

步骤1032，根据所述神经网络的结构动态分配硬件资源并对硬件资源进行时序优化。

步骤1033，使用所述硬件资源对所述硬件解码后的视频数据流进行数据流加速。

在本实施例中，根据所述获取的神经网络的结构，可以动态分配对应结构所需要的硬件资源，例如根据每一层或某几层组合的具有特定功能的结构，分配相应的计算单元进行计算操作，并将计算结果通过寄存器缓存单元存储起来，方便下一层快速读取，节省数据的拷贝时间，加速神经网络的计算速度，还可通过流水线单元对神经网络的计算进行时序优化等，对所述视频数据流进行硬件加速，从而提高神经网络处理数据流的效率并降低功耗。

将所述神经网络的输出结果进行后处理。

其中，神经网络输出的结果是特征值，可以理解为是对于输入图片或数据的一种抽象表征，后处理主要是通过一些计算方法将抽象的表征即特征值转换为有意义的输出，如分类问题中图片类别及对应的概率，检测问题中，图片中包含的目标类别、概率及坐标等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

进一步参考图3，作为对上述图3所示方法的实现，本申请提供了一种神经网络数据流加速装置的一个实施例，该装置实施例与图1所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图3所示，本实施例所述的神经网络数据流加速装置200包括：获取模块201、解码模块202、加速模块203以及输出模块204。其中：

获取模块201，用于获取视频数据流；

解码模块202，用于将所述视频数据流进行硬件解码；

加速模块203，用于基于神经网络的结构配置硬件资源，并将所述硬件解码后的视频数据流通过所述配置后的硬件资源进行数据流硬件加速；

输出模块204，用于将所述数据流硬件加速后的数据输入到所述神经网络并输出结果。

进一步的，上述获取模块201包括：获取子单元，用于从网络摄像头或视频流服务器获取所述视频数据流。

在本实施例的一些可选的实现方式中，上述装置200还可以包括：前处理模块和后处理模块，其中：

前处理模块用于将所述进行硬件解码后的视频数据流进行前处理。

后处理模块用于将所述神经网络的输出结果进行后处理。

本申请实施例提供的神经网络数据流加速装置能够实现图1的方法实施例中的各个实施方式，以及相应有益效果，为避免重复，这里不再赘述。

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图4，图4为本实施例计算机设备基本结构框图。

所述计算机设备4包括通过系统总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是，图中仅示出了具有组件41-43的计算机设备4，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable Gate Array，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器41至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器41可以是所述计算机设备4的内部存储单元，例如该计算机设备4的硬盘或内存。在另一些实施例中，所述存储器41也可以是所述计算机设备4的外部存储设备，例如该计算机设备16上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中，所述存储器41通常用于存储安装于所述计算机设备4的操作系统和各类应用软件，例如神经网络数据流加速方法的程序代码等。此外，所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器42在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中，所述处理器42用于运行所述存储器41中存储的程序代码或者处理数据，例如运行所述神经网络数据流加速方法的程序代码。

所述网络接口43可包括无线网络接口或有线网络接口，该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质存储有神经网络数据流加速程序，所述神经网络数据流加速程序可被至少一个处理器执行，以使所述至少一个处理器执行如上述的神经网络数据流加速方法的步骤。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

一种神经网络数据流加速方法，其特征在于，包括：

获取视频数据流；

将所述视频数据流进行硬件解码；

基于神经网络的结构配置硬件资源，并将所述硬件解码后的视频数据流通过所述配置后的硬件资源进行数据流硬件加速；

将所述数据流硬件加速后的数据输入到所述神经网络并输出结果。
如权利要求1所述的方法，其特征在于，所述获取视频数据流的步骤包括：

从网络摄像头或视频流服务器获取所述视频数据流。
如权利要求1所述的方法，其特征在于，所述将所述视频数据流进行硬件解码的步骤包括：

将所述视频数据流通过芯片自带图形处理单元进行解码。
如权利要求3所述的方法，其特征在于，在所述将所述视频数据流进行硬件解码的步骤之后，基于神经网络的结构配置硬件资源，并将所述硬件解码后的视频数据流通过所述配置后的硬件资源进行数据流硬件加速的步骤之前，所述方法还包括步骤：

将所述进行硬件解码后的视频数据流进行前处理。
如权利要求4所述的方法，其特征在于，所述基于神经网络的结构配置硬件资源，并将所述硬件解码后的视频数据流通过所述配置后的硬件资源进行数据流硬件加速的步骤包括：

获取所述神经网络的结构；

根据所述神经网络的结构动态分配硬件资源并对硬件资源进行时序优化；

使用所述硬件资源对所述硬件解码后的视频数据流进行数据流加速。
如权利要求5所述的方法，其特征在于，在所述将所述数据流硬件加速后的数据输入到所述神经网络并输出结果的步骤之后，所述方法还包括步骤：

将所述神经网络的输出结果进行后处理。
一种神经网络数据流加速装置，其特征在于，包括：

获取模块，用于获取视频数据流；

解码模块，用于将所述视频数据流进行硬件解码；

加速模块，用于基于神经网络的结构配置硬件资源，并将所述硬件解码后的视频数据流通过所述配置后的硬件资源进行数据流硬件加速；

输出模块，用于将所述数据流硬件加速后的数据输入到所述神经网络并输出结果。
如权利要求7所述装置，其特征在于，所述获取模块包括：

获取子单元，用于从网络摄像头或视频流服务器获取所述视频数据流。
一种计算机设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的神经网络数据流加速方法的步骤。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的神经网络数据流加速方法的步骤。