WO2021031137A1

WO2021031137A1 - 人工智能应用开发系统、计算机设备及存储介质

Info

Publication number: WO2021031137A1
Application number: PCT/CN2019/101684
Authority: WO
Inventors: 朱焱; 汤鉴; 姜浩; 蔡权雄; 牛昕宇
Original assignee: 深圳鲲云信息科技有限公司
Priority date: 2019-08-21
Filing date: 2019-08-21
Publication date: 2021-02-25
Also published as: CN113168552A

Abstract

一种人工智能应用开发系统(100)、计算机设备及存储介质，属于人工智能领域，系统(100)包括：用于构建训练并验证神经网络模型的神经网络生成子系统(101)、用于接受输入所述神经网络模型的数据并经所述神经网络模型计算后输出结果的神经网络硬件执行子系统(102)、用于将所述神经网络生成子系统(101)生成的神经网络模型编译后部署到所述神经网络硬件执行子系统(102)的部署子系统(103)。通过可视化的神经网络生成子系统(101)构建训练神经网络模型，并将该训练好的神经网络模型通过部署子系统(103)自动部署到神经网络硬件执行子系统(102)进行执行，可以降低人工智能应用开发的门槛，提高开发效率。

Description

人工智能应用开发系统、计算机设备及存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及人工智能应用开发系统、计算机设备及存储介质。

背景技术

目前，随着大数据时代的来临，数据呈爆发式增长。面对海量的数据，相比于以前手工提取数据特征的方式，更加倾向于采用能够提高特征完备性的人工智能深度学习(神经网络)技术，可以有效避免手工提取繁杂性和低效率。且随着深度学习技术在众多领域中发挥越来越重要的作用，如图像识别、语音识别及智能管理等领域，很多领域的应用场景对数据标注、算法模型搭建、模型训练、算法部署、硬件设备的性能、功耗等有着越来越严格的要求，因此对应用开发者的开发技能要求很高，使得许多应用开发者们望而却步，特别是对于刚刚踏入这个领域的新手，耗费的成本会很高，而开发的效率却很低。

发明内容

本申请实施例的目的在于提出一种人工智能应用开发系统、计算机设备及存储介质，以降低人工智能应用开发的门槛，提高开发效率。

为了解决上述技术问题，本申请实施例提供一种人工智能应用开发系统，采用了如下所述的技术方案：

所述人工智能应用开发系统包括：

神经网络生成子系统，用于构建、训练并验证神经网络模型；

神经网络硬件执行子系统，用于接受输入所述神经网络模型的数据，经所述神经网络模型计算后输出结果；

部署子系统，用于将所述神经网络生成子系统生成的神经网络模型编译后部署到所述神经网络硬件执行子系统。

进一步的，所述神经网络生成子系统还用于为所述神经网络模型提供训练数据并对训练数据进行标注。

进一步的，所述神经网络硬件执行子系统基于FPGA实现。

进一步的，所述部署子系统包括：

编译模块，用于对所述神经网络模型进行解析并生成模型的结构文件和数据文件；

运行模块，用于根据所述模型的结构文件和数据文件分配硬件计算资源；

驱动模块，用于根据所述运行模块的分配结果调用对应的硬件计算资源，所述硬件计算资源包括所述基于FPGA实现的神经网络硬件执行子系统。

进一步的，所述运行模块的根据所述模型的结构文件和数据文件分配硬件计算资源，包括：

根据所述模型的结构文件和数据文件获取每个计算节点的信息；

基于所述每个计算节点的信息给每个计算节点分配硬件计算资源。

进一步的，所述基于FPGA实现的神经网络硬件执行子系统包括FPGA核心模块和扩展模块。

进一步的，所述FPGA核心模块包括核心芯片、内存芯片、SAMTEC接口以及JTAG接口。

进一步的，所述扩展模块包括网络接口、UART口、GPIO口以及SAMTEC接口，所述FPGA核心模块和扩展模块通过所述SAMTEC接口进行连接和通信。

为了解决上述技术问题，本申请实施例还提供一种计算机设备，采用了如下所述的技术方案：

所述计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时实现本申请实施例中提出的任一项所述的人工智能应用开发系统的功能。

为了解决上述技术问题，本申请实施例还提供一种计算机可读存储介质，采用了如下所述的技术方案：

所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现本申请实施例中提出的任一项所述的人工智能应用开发系统的功能。

与现有技术相比，本申请实施例主要有以下有益效果：提供一种人工智能应用开发系统，系统包括用于构建训练并验证神经网络模型的神经网络生成子系统、用于接受输入所述神经网络模型的数据并经所述神经网络模型计算后输出结果的神经网络硬件执行子系统、用于将所述神经网络生成子系统生成的神经网络模型编译后部署到所述神经网络硬件执行子系统的部署子系统。通过可视化的神经网络生成子系统构建训练神经网络模型，并将该训练好的神经网络模型通过部署子系统自动部署到神经网络硬件执行子系统进行执行，可以降低人工智能应用开发的门槛，提高开发效率。

附图说明

为了更清楚地说明本申请中的方案，下面将对本申请实施例描述中所需要使用的附图作一个简单介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了根据本申请的人工智能应用开发系统100的一个实施例的结构示意图；

图2示出了根据本申请的人工智能应用开发系统的部署子系统103的一个实施例的结构示意图；

图3示出了根据本申请的人工智能应用开发系统的神经网络硬件执行子系统102的一个实施例的结构示意图；

图4是根据本申请的计算机设备的一个实施例的结构示意图。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

如图1所示，图1示出了根据本申请的人工智能应用开发系统的一个实施例的结构示意图。所述的人工智能应用开发系统100，包括：

神经网络生成子系统101，用于构建、训练并验证神经网络模型。

其中，神经网络模型的构建有两种方法，一种是基于标注数据自动生成的深度学习神经网络算法，一种是用户根据需求可进行自定义定制的神经网络算法模型；神经网络模型训练是用标注好的数据对搭建的神经网络算法模型进行迭代训练，使模型的损失值收敛到最小；神经网络模型验证指通过验证数据对训练好的神经网络模型进行效果验证，用户可上传图像数据、语音数据等作为模型的输入，经模型检测识别后输出结果，可验证模型的效果，及识别的准确率和识别速度等。在本实施例中，神经网络生成子系统101可以通过WEB(网页)技术提供可视化的界面帮助开发人员快速开发神经网络模型，并对模型进行训练和验证，即开发人员通过网页访问上述神经网络生成子系统101提供的接口来获得相应的服务，如神经网络模型的构建等。通过网页提供可视化的神经网络模型的构建、训练和验证，可以提高开发人员的开发效率。

神经网络硬件执行子系统102，用于接受输入所述神经网络模型的数据，经所述神经网络模型计算后输出结果。

其中，神经网络硬件执行子系统102可以是已经存储并可以执行上述神经网络模型101的通用处理器(如CPU等)，或可以是固化了上述神经网络模型101的专用处理器(如FPGA等)；上述神经网络硬件执行子系统102除了提供硬件计算资源外，还可以提供网络接口或其他接口接收并存储外界输入的数据，然后输入到上述神经网络模型进行计算，即提取特征、分类或聚类、回归或者预测等，得到预测或识别结果。

部署子系统103，用于将所述神经网络生成子系统101生成的神经网络模型编译后部署到所述神经网络硬件执行子系统102。

其中，神经网络模型包含神经网络图(神经网络结构)及对应该结构的参数，其中神经网络的结构是以层为计算单元的，包含且不限于卷积层、池化层、ReLU(激活函数)、全连接层等。神经网络结构中的每一层除了接收上一层输出的数据流外还具有大量的参数，这些参数包含且不限于：weight(权重)、bias(偏置)等。在本实施例中，将上述神经网络模型通过编译器(如TVM等)编译成模型文件(包括模型的结构文件和数据文件)，并根据上述模型文件自动分配对应模型所需要的硬件资源，例如计算单元和缓存单元以及可进行时序优化的流水线单元等，即从上述神经网络硬件执行子系统102调用上述硬件资源然后执行。

在本发明实施例中，提供一种人工智能应用开发系统，包括用于构建训练并验证神经网络模型的神经网络生成子系统、用于接受输入所述神经网络模型的数据并经所述神经网络模型计算后输出结果的神经网络硬件执行子系统、用于将所述神经网络生成子系统生成的神经网络模型编译后部署到所述神经网络硬件执行子系统的部署子系统。通过可视化的神经网络生成子系统构建训练神经网络模型，并将该训练好的神经网络模型通过部署子系统自动部署到神经网络硬件执行子系统进行执行，可以降低人工智能应用开发的门槛，提高开发效率。

进一步的，所述神经网络生成子系统101还用于为所述神经网络模型提供训练数据并对训练数据进行标注。

在本实施例中，神经网络生成子系统101还可以为开发者提供新建数据库、上传数据、数据标注等功能模块，为后续的神经网络模型训练准备数据，并通过标注好的数据可以使模型更快地训练好。

进一步的，所述神经网络硬件执行子系统102基于FPGA实现。

其中，与GPU及ASIC固定的硬件结构不同，FPGA具有可编程性，开发者可以根据自己的需要通过编程将FPGA内部的逻辑块连接起来，实现相应的功能比较自由灵活。另外，GPU加速设计是算法模型适应硬件结构，而FPGA的加速设计是硬件结构适应算法模型，即根据算法模型设计(或调用)对应的硬件结构，这种加速设计方式可以更快速的去加速深度学习神经网络算法模型。此外，相比于GPU，FPGA有较好的能效比。虽然ASIC在性能和功耗上优于FPGA，但是其在设计和制造时需要经过很多的验证和物理设计，导致开发周期较长，同时ASIC是针对某一类应用而设计的专用硬件且硬件结构在生成后无法改变，然而目前深度学习神经网络算法正处于快速发展的阶段，对于一些使用广泛但算法并不成熟的应用场景，想要设计一个高性能的通用ASIC来适应所有应用场景非常困难。FPGA更适合加速目前处于快速发展阶段的深度学习神经网络算法模型。因此，本实施例中神经网络硬件执行子系统102利用FPGA，可以加速深度学习神经网络的执行效率。

进一步的，如图2所示，图2示出了根据本申请的人工智能应用开发系统的部署子系统103的一个实施例的结构示意图。所述部署子系统103包括：

编译模块1031，用于对所述神经网络模型进行解析并生成模型的结构文件和数据文件；

运行模块1032，用于根据所述模型的结构文件和数据文件分配硬件计算资源；

驱动模块1033，用于根据所述运行模块的分配结果调用对应的硬件计算资源，所述硬件计算资源包括所述基于FPGA实现的神经网络硬件执行子系统。

在本实施例中，编译模块1031可以根据上述神经网络生成子系统101生成的神经网络模型的结构，调用神经网络编译器(如TVM等)对上述神经网络模型进行解析，提取模型的网络结构和权重数据并保存到文件，得到模型的结构文件和数据文件，文件的格式可以是json或者xml等；运行模块1032可以根据上述神经网络模型的结构文件和数据文件，自动分配硬件计算资源，包括计算单元和缓存单元以及可进行时序优化的流水线单元等；然后通过驱动模块1033调用上述利用FPGA实现的神经网络硬件执行子系统102提供的对应硬件计算资源进行计算并输出计算结果；其中，神经网络输出的结果是特征值，可以理解为是对于输入图片或数据的一种抽象表征，然后通过一些计算方法将抽象的表征即特征值转换为有意义的输出，如分类问题中图片类别及对应的概率，检测问题中，图片中包含的目标类别、概率及坐标等。通过部署子系统103的三个子系统，可以实现上述神经网络模型的自动编译、灵活调度硬件计算资源以及性能优化。

在本实施例中，神经网络模型的结构是以层为计算单元的，包含且不限于输入层、卷积层、池化层、ReLU(激活函数)、全连接层等，不同的神经网络通过不同类型和不同数量的层进行组合形成有不同功能的神经网络结构；神经网络结构中的每一层除了接收上一层输出的数据流外还具有大量的参数，这些参数包含且不限于：weight(权重)、bias(偏置)等。模型的网络结构和参数数据可以通过文件进行存储，在计算每一层的每个节点的时候作为节点信息读取出来，并根据该节点信息，可以动态分配对应节点所需要的硬件资源，例如根据节点的计算函数和数据类型，分配相应的计算单元和存储单元进行计算操作，并将计算结果通过寄存器缓存单元存储起来，方便下一层快速读取，节省数据的拷贝时间，加速神经网络的计算速度，还可通过流水线单元对神经网络的计算进行时序优化等，从而可以提高神经网络计算的效率。

进一步的，如图3所示，图3示出了根据本申请的人工智能应用开发系统的神经网络硬件执行子系统102的一个实施例的结构示意图。所述基于FPGA实现的神经网络硬件执行子系统102包括FPGA核心模块1021和扩展模块1022。其中，所述FPGA核心模块1021包括核心芯片10211、内存芯片10212、SAMTEC接口10214以及6针脚的JTAG接口10213；所述扩展模块1022包括网络接口10222、3针脚的UART口10223、40针脚的GPIO口10224以及SAMTEC接口10221，所述FPGA核心模块1021和扩展模块1022通过所述核心模块1021的SAMTEC接口10214和扩展模块1022的SAMTEC接口10221进行连接和通信。

在本实施例中，上述核心芯片用于提供计算资源，实现神经网络的计算，可以采用intel arria 10Soc FPGA作为核心芯片；内存芯片用于存储神经网络的权重等参数数据和中间的计算数据等；JTAG接口可用于核心模块1021与其他设备之间的数据传输，例如可用于下载FPGA的初始程序。扩展模块1022的网络接口用来与上位机进行通信、程序下载和数据传输等，例如可以用来通过网络获取输入上述神经网络模型的数据等，该网络接口可以是RJ45以太网接口(可用USB-C、USB口替代RJ45，扩展接口的通用性)；UART口用于扩展模块1022的调试、打印相关调试信息；GPIO口可以提供额外的I/O接口进行远端串行通信或控制，例如可以通过该GPIO口对摄像头或者麦克风等设备进行控制；核心模块1021和扩展模块1022通过所述SAMTEC接口进行连接和通信，使得核心模块1021可以调用扩展模块1022的资源，实现对应的功能。

本领域普通技术人员可以理解实现上述实施例系统中的全部或部分子系统，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可实现包括如上述各子系统的实施例的功能。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

应该理解的是，虽然附图的结构示意图中的各个子系统按照箭头的指示依次显示，但是这些子系统并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些子系统的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的结构示意图中的至少一部分子系统在执行时可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图4，图4为本实施例计算机设备基本结构框图。

所述计算机设备2包括通过系统总线相互通信连接存储器21、处理器22、网络接口23。需要指出的是，图中仅示出了具有组件21-23的计算机设备2，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable Gate Array，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器21至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器21可以是所述计算机设备2的内部存储单元，例如该计算机设备2的硬盘或内存。在另一些实施例中，所述存储器21也可以是所述计算机设备2的外部存储设备，例如该计算机设备2上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，所述存储器21还可以既包括所述计算机设备2的内部存储单元也包括其外部存储设备。本实施例中，所述存储器21通常用于存储安装于所述计算机设备2的操作系统和各类应用软件，例如人工智能应用开发系统的程序代码等。此外，所述存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器22在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制所述计算机设备2的总体操作。本实施例中，所述处理器22用于运行所述存储器21中存储的程序代码或者处理数据，例如运行所述人工智能应用开发系统的程序代码。

所述网络接口23可包括无线网络接口或有线网络接口，该网络接口23通常用于在所述计算机设备2与其他电子设备之间建立通信连接。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质存储有人工智能应用开发系统的程序，所述人工智能应用开发系统的程序可被至少一个处理器执行，以使所述至少一个处理器执行如上述的人工智能应用开发系统的程序的步骤，实现相应的功能。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

一种人工智能应用开发系统，其特征在于，包括：

神经网络生成子系统，用于构建、训练并验证神经网络模型；

神经网络硬件执行子系统，用于接受输入所述神经网络模型的数据，经所述神经网络模型计算后输出结果；

部署子系统，用于将所述神经网络生成子系统生成的神经网络模型编译后部署到所述神经网络硬件执行子系统。
如权利要求1所述的系统，其特征在于，所述神经网络生成子系统还用于为所述神经网络模型提供训练数据并对训练数据进行标注。
如权利要求1所述的系统，其特征在于，所述神经网络硬件执行子系统基于FPGA实现。
如权利要求3所述的系统，其特征在于，所述部署子系统包括：

编译模块，用于对所述神经网络模型进行解析并生成模型的结构文件和数据文件；

运行模块，用于根据所述模型的结构文件和数据文件分配硬件计算资源；

驱动模块，用于根据所述运行模块的分配结果调用对应的硬件计算资源，所述硬件计算资源包括所述基于FPGA实现的神经网络硬件执行子系统。
如权利要求4所述的系统，其特征在于，所述运行模块的根据所述模型的结构文件和数据文件分配硬件计算资源，包括：

根据所述模型的结构文件和数据文件获取每个计算节点的信息；

基于所述每个计算节点的信息给每个计算节点分配硬件计算资源。
如权利要求5所述的系统，其特征在于，所述基于FPGA实现的神经网络硬件执行子系统包括FPGA核心模块和扩展模块。
如权利要求6所述的系统，其特征在于，所述FPGA核心模块包括核心芯片、内存芯片、SAMTEC接口以及JTAG接口。
如权利要求7所述的系统，其特征在于，所述扩展模块包括网络接口、UART口、GPIO口以及SAMTEC接口，所述FPGA核心模块和扩展模块通过所述SAMTEC接口进行连接和通信。
一种计算机设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至8中任一项所述的人工智能应用开发系统的功能。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的人工智能应用开发系统的功能。