WO2019136754A1

WO2019136754A1 - 人工智能处理装置的编译方法及系统、存储介质及终端

Info

Publication number: WO2019136754A1
Application number: PCT/CN2018/072667
Authority: WO
Inventors: 肖梦秋
Original assignee: 深圳鲲云信息科技有限公司
Priority date: 2018-01-15
Filing date: 2018-01-15
Publication date: 2019-07-18
Also published as: CN109496294A

Abstract

一种人工智能处理装置的编译方法及系统、存储介质及终端，包括以下步骤：基于人工智能处理装置的识别准确率对深度学习网络模型数据进行精度压缩，以得到深度学习数据图（S1）；对所述深度学习数据图进行图分析，以得到符合协议定义的深度学习数据流图（S2）；基于所述深度学习数据流图生成可执行软件代码，并将所述可执行软件代码输入所述人工智能处理装置（S3）；基于所述深度学习数据流图生成硬件比特流，并将所述硬件比特流输入所述人工智能处理装置（S4）。该人工智能处理装置的编译方法及系统、存储介质及终端通过对深度学习算法进行编译，使其能够在硬件上快速实现。

Description

人工智能处理装置的编译方法及系统、存储介质及终端

技术领域

本发明涉及软件处理的技术领域，特别是涉及一种人工智能处理装置的编译方法及系统、存储介质及终端。

背景技术

深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。

深度学习是机器学习中一种基于对数据进行表征学习的方法。观测值(例如一幅图像)可以使用多种方式来表示，如每个像素强度值的向量，或者更抽象地表示成一系列边、特定形状的区域等。而使用某些特定的表示方法更容易从实例中学习任务(例如，人脸识别或面部表情识别)。深度学习的好处是用非监督式或半监督式的特征学习和分层特征提取高效算法来替代手工获取特征。

同机器学习方法一样，深度机器学习方法也有监督学习与无监督学习之分.不同的学习框架下建立的学习模型很是不同.例如，卷积神经网络(Convolutional neural networks，CNN)就是一种深度的监督学习下的机器学习模型，而深度置信网(Deep Belief Nets，DBN)就是一种无监督学习下的机器学习模型。

目前，CNN已经成为众多科学领域的研究热点之一，特别是在模式分类领域，由于该网络避免了对图像的复杂前期预处理，可以直接输入原始图像，因而得到了更为广泛的应用。一般地，CNN的基本结构包括两层，其一为特征提取层，每个神经元的输入与前一层的局部接受域相连，并提取该局部的特征。一旦该局部特征被提取后，它与其它特征间的位置关系也随之确定下来；其二是特征映射层，网络的每个计算层由多个特征映射组成，每个特征映射是一个平面，平面上所有神经元的权值相等。特征映射结构采用影响函数核小的sigmoid函数作为卷积网络的激活函数，使得特征映射具有位移不变性。此外，由于一个映射面上的神经元共享权值，因而减少了网络自由参数的个数。卷积神经网络中的每一个卷积层都紧跟着一个用来求局部平均与二次提取的计算层，这种特有的两次特征提取结构减小了特征分辨率。

CNN主要用来识别位移、缩放及其他形式扭曲不变性的二维图形。由于CNN的特征检测层通过训练数据进行学习，所以在使用CNN时，避免了显示的特征抽取，而隐式地从训练数据中进行学习；再者由于同一特征映射面上的神经元权值相同，所以网络可以并行学习，这也是卷积网络相对于神经元彼此相连网络的一大优势。卷积神经网络以其局部权值共享的特殊结构在语音识别和图像处理方面有着独特的优越性，其布局更接近于实际的生物神经网络，权值共享降低了网络的复杂性，特别是多维输入向量的图像可以直接输入网络这一特点避免了特征提取和分类过程中数据重建的复杂度。

因此，如何实现深度学习算法的编译使其能够在硬件上实现成为当前的热点研究课题之一。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种人工智能处理装置的编译方法及系统、存储介质及终端，通过对深度学习算法进行编译，使其能够在硬件上快速实现。

为实现上述目的及其他相关目的，本发明提供一种人工智能处理装置的编译方法，包括以下步骤：基于人工智能处理装置的识别准确率对深度学习网络模型数据进行精度压缩，以得到深度学习数据图；对所述深度学习数据图进行图分析，以得到符合协议定义的深度学习数据流图；基于所述深度学习数据流图生成可执行软件代码，并将所述可执行软件代码输入所述人工智能处理装置；基于所述深度学习数据流图生成硬件比特流，并将所述硬件比特流输入所述人工智能处理装置。

于本发明一实施例中，基于人工智能处理装置的识别准确率对深度学习网络模型数据进行精度压缩包括以下步骤：

对所述深度学习网络模型数据进行固化；

对固化后的所述深度学习网络模型数据进行量化；

根据固化后的所述深度学习网络模型数据和量化后的所述深度学习网络模型数据生成深度学习数据图。

于本发明一实施例中，所述深度学习网络模型采用Tensorflow训练模型。

于本发明一实施例中，所述人工智能处理装置包括CPU和FPGA，所述可执行软件代码输入所述CPU，所述硬件比特流输入所述FPGA。

对应地，本发明提供一种人工智能处理装置的编译系统，包括精度压缩模块、图分析模块、代码生成模块和比特流生成模块；

所述精度压缩模块用于基于人工智能处理装置的识别准确率对深度学习网络模型数据进行精度压缩，以得到深度学习数据图；

所述图分析模块用于对所述深度学习数据图进行图分析，以得到符合协议定义的深度学习数据流图；

所述代码生成模块用于基于所述深度学习数据流图生成可执行软件代码，并将所述可执行软件代码输入所述人工智能处理装置；

所述比特流生成模块用于基于所述深度学习数据流图生成硬件比特流，并将所述硬件比特流输入所述人工智能处理装置。

于本发明一实施例中，所述精度压缩模块基于人工智能处理装置的识别准确率对深度学习网络模型数据进行精度压缩执行以下步骤：

对所述深度学习网络模型数据进行固化；

对固化后的所述深度学习网络模型数据进行量化；

本发明提供一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述人工智能处理装置的编译方法。

最后，本发明提供一种终端，包括：处理器及存储器；

所述存储器用于存储计算机程序；

所述处理器用于执行所述存储器存储的计算机程序，以使所述终端执行上述人工智能处理装置的编译方法。

如上所述，本发明的人工智能处理装置的编译方法及系统、存储介质及终端，具有以下

有益效果：

(1)通过对深度学习算法进行编译，使其能够在硬件上快速实现；

(2)编译效率高，实用性强。

附图说明

图1显示为本发明的人工智能处理装置的编译方法于一实施例中的流程图；

图2显示为本发明的人工智能处理装置的编译系统于一实施例中的结果示意图；

图3显示为本发明的终端于一实施例中的结构示意图。

元件标号说明

21 精度压缩模块

22 图分析模块

23 代码生成模块

24 比特流生成模块

31 处理器

32 存储器

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

本发明的人工智能处理装置的编译方法及系统、存储介质及终端通过对深度学习算法进行编译，使其能够在人工智能处理装置上快速实现，从而充分利用的人工智能处理装置的计算速度快等优势。于本发明一实施例中，所述人工智能处理装置包括CPU和FPGA，其中，CPU用于运行可执行软件代码，FPGA用于运行硬件比特流，以完成CNN等深度学习算法。

如图1所示，于一实施例中，本发明的人工智能处理装置的编译方法包括以下步骤：

步骤S1、基于人工智能处理装置的识别准确率对深度学习网络模型数据进行精度压缩，以得到深度学习数据图。

具体地，根据人工智能处理装置的识别准确率，需要对深度学习网络模型数据进行精度压缩，以适配人工智能处理装置。经过精度压缩后的深度学习网络模型数据便为深度学习数据图。

11)对所述深度学习网络模型数据进行固化。

具体地，固化，即freeze，表示将深度学习网络模型的图结构和该模型的权重固化到一起。

12)对固化后的所述深度学习网络模型数据进行量化。

在数字信号处理领域，量化指将信号的连续取值(或者大量可能的离散取值)近似为有限多个(或较少的)离散值的过程。量化主要应用于从连续信号到数字信号的转换中。连续信号经过采样成为离散信号，离散信号经过量化即成为数字信号。注意离散信号通常情况下并不需要经过量化的过程，但可能在值域上并不离散，还是需要经过量化的过程。

具体地，本发明采用一定的量化算法对固化后的所述深度学习网络模型数据进行量化。对于本领域技术人员而言，量化属于成熟的现有技术，故在此不再赘述。

13)根据固化后的所述深度学习网络模型数据和量化后的所述深度学习网络模型数据生成深度学习数据图。

具体地，将固化后的所述深度学习网络模型数据和量化后的所述深度学习网络模型数据生成深度学习数据图，并输出。

于本发明一实施例中，所述深度学习网络模型采用Tensorflow训练模型。Tensorflow是谷歌基于DistBelief进行研发的第二代人工智能学习系统，其命名来源于本身的运行原理。Tensor(张量)意味着N维数组，Flow(流)意味着基于数据流图的计算，Tensorflow为张量从流图的一端流动到另一端计算过程。Tensorflow是将复杂的数据结构传输至人工智能神经网中进行分析和处理过程的系统。

步骤S2、对所述深度学习数据图进行图分析，以得到符合协议定义的深度学习数据流图。

具体地，通过对深度学习数据图进行图分析，首先生成硬件可兼容的图，再生成数据流图，然后对数据流图进行优化，最后输出得到符号协议定义的深度学习数据流图。

步骤S3、基于所述深度学习数据流图生成可执行软件代码，并将所述可执行软件代码输入所述人工智能处理装置。

具体地，对所述深度学习数据流图进行处理，使其与所述人工智能处理装置的软件资源相匹配，得到执行所述深度学习网络模型的软件驱动的相关参数，从而得到可执行软件代码，并输入所述人工智能处理装置的软件处理模块。

步骤S4、基于所述深度学习数据流图生成硬件比特流，并将所述硬件比特流输入所述人工智能处理装置。

具体地，对所述深度学习数据流图进行处理，使其与所述人工智能处理装置的硬件资源相匹配，得到能够在所述硬件资源上运行的硬件比特流，并输入所述人工智能处理装置的硬件处理模块。

优选地，所述硬件比特流通过流水线(pipeline)的方式输入所述人工智能处理装置的硬件处理模块，并能够依次被所述硬件处理模块所执行。例如，所述硬件处理模块用于执行CNN的卷积计算，所述硬件比特流通过pipeline的方式流入所述硬件处理模块，使得CNN的各个卷积层和全连接层均处于工作状态。

如图2所示，于一实施例中，本发明的人工智能处理装置的编译系统包括精度压缩模块21、图分析模块22、代码生成模块23和比特流生成模块24。

精度压缩模块21用于基于人工智能处理装置的识别准确率对深度学习网络模型数据进行精度压缩，以得到深度学习数据图。

于本发明一实施例中，精度压缩模块21基于人工智能处理装置的识别准确率对深度学习网络模型数据进行精度压缩执行以下步骤：

11)对所述深度学习网络模型数据进行固化。

12)对固化后的所述深度学习网络模型数据进行量化。

图分析模块22与精度压缩模块21相连，用于对所述深度学习数据图进行图分析，以得到符合协议定义的深度学习数据流图。

代码生成模块23与图分析模块22相连，用于基于所述深度学习数据流图生成可执行软件代码，并将所述可执行软件代码输入所述人工智能处理装置。

比特流生成模块24与图分析模块22相连，用于基于所述深度学习数据流图生成硬件比特流，并将所述硬件比特流输入所述人工智能处理装置。

需要说明的是，应理解以上系统的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。例如，x模块可以为单独设立的处理元件，也可以集成在上述装置的某一个芯片中实现，此外，也可以以程序代码的形式存储于上述装置的存储器中，由上述装置的某一个处理元件调用并执行以上x模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起，也可以独立实现。这里所述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如，以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(ApplicationSpecificIntegratedCircuit，简称ASIC)，或，一个或多个微处理器(digitalsingnalprocessor，简称DSP)，或，一个或者多个现场可编程门阵列(FieldProgrammableGateArray，简称FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(CentralProcessingUnit，简称CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，简称SOC)的形式实现。

本发明的存储介质上存储有计算机程序，该程序被处理器执行时实现上述人工智能处理装置的编译方法。优选地，所述存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

如图3所示，于一实施例中，本发明的终端包括处理器31及存储器32。

所述存储器32用于存储计算机程序。

优选地，所述存储器32包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

所述处理器31与所述存储器32相连，用于执行所述存储器32存储的计算机程序，以使所述终端执行上述人工智能处理装置的编译方法。

优选地，所述处理器32可以是通用处理器，包括中央处理器(CentralProcessingUnit，简称CPU)、网络处理器(NetworkProcessor，简称NP)等；还可以是数字信号处理器(DigitalSignalProcessing，简称DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit，简称ASIC)、现场可编程门阵列(Field－ProgrammableGateArray，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

综上所述，本发明的人工智能处理装置的编译方法及系统、存储介质及终端通过对深度学习算法进行编译，使其能够在硬件上快速实现；编译效率高，实用性强。所以，本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

一种人工智能处理装置的编译方法，其特征在于，包括以下步骤：

基于人工智能处理装置的识别准确率对深度学习网络模型数据进行精度压缩，以得到深度学习数据图；

对所述深度学习数据图进行图分析，以得到符合协议定义的深度学习数据流图；

基于所述深度学习数据流图生成可执行软件代码，并将所述可执行软件代码输入所述人工智能处理装置；

基于所述深度学习数据流图生成硬件比特流，并将所述硬件比特流输入所述人工智能处理装置。
根据权利要求1所述的人工智能处理装置的编译方法，其特征在于，基于人工智能处理装置的识别准确率对深度学习网络模型数据进行精度压缩包括以下步骤：

对所述深度学习网络模型数据进行固化；

对固化后的所述深度学习网络模型数据进行量化；

根据固化后的所述深度学习网络模型数据和量化后的所述深度学习网络模型数据生成深度学习数据图。
根据权利要求1所述的人工智能处理装置的编译方法，其特征在于，所述深度学习网络模型采用Tensorflow训练模型。
根据权利要求1所述的人工智能处理装置的编译方法，其特征在于，所述人工智能处理装置包括CPU和FPGA，所述可执行软件代码输入所述CPU，所述硬件比特流输入所述FPGA。
一种人工智能处理装置的编译系统，其特征在于，包括精度压缩模块、图分析模块、代码生成模块和比特流生成模块；

所述精度压缩模块用于基于人工智能处理装置的识别准确率对深度学习网络模型数据进行精度压缩，以得到深度学习数据图；

所述图分析模块用于对所述深度学习数据图进行图分析，以得到符合协议定义的深度学习数据流图；

所述代码生成模块用于基于所述深度学习数据流图生成可执行软件代码，并将所述可执行软件代码输入所述人工智能处理装置；

所述比特流生成模块用于基于所述深度学习数据流图生成硬件比特流，并将所述硬件比特流输入所述人工智能处理装置。
根据权利要求5所述的人工智能处理装置的编译系统，其特征在于，所述精度压缩模块基于人工智能处理装置的识别准确率对深度学习网络模型数据进行精度压缩执行以下步骤：

对所述深度学习网络模型数据进行固化；

对固化后的所述深度学习网络模型数据进行量化；

根据固化后的所述深度学习网络模型数据和量化后的所述深度学习网络模型数据生成深度学习数据图。
根据权利要求5所述的人工智能处理装置的编译系统，其特征在于，所述深度学习网络模型采用Tensorflow训练模型。
根据权利要求5所述的人工智能处理装置的编译系统，其特征在于，所述人工智能处理装置包括CPU和FPGA，所述可执行软件代码输入所述CPU，所述硬件比特流输入所述FPGA。
一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至4中任一项所述人工智能处理装置的编译方法。
一种终端，其特征在于，包括：处理器及存储器；

所述存储器用于存储计算机程序；

所述处理器用于执行所述存储器存储的计算机程序，以使所述终端执行权利要求1至4中任一项所述人工智能处理装置的编译方法。