WO2021139633A1

WO2021139633A1 - 深度学习模型的转化方法、装置、服务器及存储介质

Info

Publication number: WO2021139633A1
Application number: PCT/CN2021/070223
Authority: WO
Inventors: 熊超; 蔡权雄; 牛昕宇
Original assignee: 深圳鲲云信息科技有限公司
Priority date: 2020-01-07
Filing date: 2021-01-05
Publication date: 2021-07-15
Also published as: CN111222636A; US20230139106A1; CN111222636B

Abstract

一种深度学习模型的转化方法、装置、服务器及存储介质，所述方法包括：将目标深度学习模型解析为指令集计算图中间表达(S110)；将所述指令集计算图中间表达转化为数据流计算图中间表达(S120)；将所述数据流计算图中间表达调整为定制化架构中间表达(S130)；根据所述定制化架构中间表达，得到所述目标深度学习模型所对应转化的目标数据流网络模型(S140)。

Description

深度学习模型的转化方法、装置、服务器及存储介质

本申请要求在2020年01月07日提交中国专利局、申请号为202010015495.0的中国专利申请的优先权，该申请的全部内容通过引用结合在本申请中。

技术领域

本申请实施例涉及深度学习技术，例如涉及一种深度学习模型的转化方法、装置、服务器及存储介质。

背景技术

深度学习网络通常由算法训练得来。多数情况下，算法开发人员倾向于使用公开的深度学习框架进行模型训练，一种深度学习框架可以开发出多个深度学习模型，而大部分公开的深度学习框架是针对于中央处理器/图形处理器(Central Processing Unit/Graphics Processing Unit，CPU/GPU)这类计算设备设计的。CPU/GPU采用传统的指令集架构，架构效率较低，算子颗粒度较小，因而灵活度较高。

随着深度学习相关技术的发展，对于算力的要求越来越高。传统指令集的架构效率缺陷已经不能满足应用场景的需求。对比而言，数据流架构效率更高，从技术路线来看更加适合深度学习技术的发展趋势。然而，数据流架构于指令集架构的数据表达存在较大差异：数据流架构算子颗粒度要远大于指令集架构；数据流架构算子计算前要预先根据数据依赖确定计算模块的排列顺序。这种差异决定了指令集架构下训练得来的模型不能直接部署在数据流架构中，这大大阻碍了数据流架构的应用发展。

发明内容

本申请实施例提供一种深度学习模型的转化方法、装置、服务器及存储介质，以实现将基于指令集架构开发的深度学习模型转化到数据流架构下运行。

在一实施例中，本申请实施例提供一种深度学习模型的转化方法，包括：

将目标深度学习模型解析为指令集计算图中间表达；

将所述指令集计算图中间表达转化为数据流计算图中间表达；

将所述数据流计算图中间表达调整为定制化架构中间表达；

根据所述定制化架构中间表达，得到所述目标深度学习模型所对应转化的目标数据流网络模型。

在一实施例中，本申请实施例提供一种深度学习模型的转化装置，包括：

目标深度学习模型解析模块，设置为将目标深度学习模型解析为指令集计算图中间表达；

指令集计算图中间表达转化模块，设置为将所述指令集计算图中间表达转化为数据流计算图中间表达；

数据流计算图中间表达调整模块，设置为将所述数据流计算图中间表达调整为定制化架构中间表达；

目标数据流网络模型生成模块，设置为根据所述定制化架构中间表达，得到所述目标深度学习模型所对应的目标数据流网络模型。

可选的，所述目标深度学习模型包括第一算子颗粒度，所述指令集计算图中间表达包括第二算子颗粒度，所述数据流计算图中间表达包括第三算子颗粒度。

可选的，所述第一算子颗粒度与所述第二算子颗粒度相同。

可选的，所述第二算子颗粒度小于所述第三算子颗粒度。

可选的，指令集计算图中间表达还包括第二算子，所述数据流计算图中间表达还包括第三算子。

可选的，所述第二算子通过融合形成所述第三算子。

在一实施例中，本申请实施例提供一种服务器，包括：

一个或多个处理器；

存储装置，设置为存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本申请任意实施例所提供的方法。

在一实施例中，本申请实施例提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现如本申请任意实施例所提供的方法。

本申请实施例通过将目标深度学习模型解析为指令集计算图中间表达；将所述指令集计算图中间表达转化为数据流计算图中间表达；将所述数据流计算图中间表达调整为定制化架构中间表达；根据所述定制化架构中间表达，得到所述目标深度学习模型所对应转化的目标数据流网络模型。实现了将基于指令集架构开发的深度学习模型转化到数据流架构下运行，使用指令集计算图中间表达、数据流计算图中间表达和定制化架构中间表达来描述深度学习模型，可以根据实际需求在易读性和执行效率等方面做权衡，使得设计更为灵活。

附图说明

图1为本申请实施例一提供的一种深度学习模型的转化方法的流程示意图；

图2为本申请实施例二提供的一种深度学习模型的转化装置的结构示意图；

图3为本申请实施例三提供的一种服务器的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本申请，而非对本申请的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本申请相关的部分而非全部结构。

一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将多个步骤描述成顺序的处理，但是其中的许多步骤可以被并行地、并发地或者同时实施。此外，多个步骤的顺序可以被重新安排。当多个步骤操作完成时处理可以被终止，但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等等。

此外，术语“第一”、“第二”等可在本文中用于描述多种方向、动作、步骤或元件等，但这些方向、动作、步骤或元件不受这些术语限制。这些术语仅用于将第一个方向、动作、步骤或元件与另一个方向、动作、步骤或元件区分。举例来说，在不脱离本申请的范围的情况下，可以将第一算子颗粒度称为第二算子颗粒度，且类似地，可将第二算子颗粒度称为第一算子颗粒度。第一算子颗粒度和第二算子颗粒度两者都是算子颗粒度，但其不是同一算子颗粒度。术语“第一”、“第二”等而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确限定。

实施例一

图1为本申请实施例一提供的一种深度学习模型的转化方法的流程示意图，可适用于将基于指令集架构开发的深度学习模型输入到基于数据流架构的芯片中运行，该方法可以由深度学习模型的转化装置来执行，该装置可以采用软件和/或硬件的方式实现，并可集成在服务器上。

如图1所示，本申请实施例一提供的深度学习模型的转化方法包括：

S110、将目标深度学习模型解析为指令集计算图中间表达。

在一实施例中，深度学习框架是算法开发人员进行模型训练的大量基础代码，例如，TensorFlow、Caffe、Mxnet、Torch等，深度学习模型则是在深度学习框架下开发出来实现特定算法的神经网络模型，一种深度学习框架可以开发多个深度学习模型。CPU/GPU能执行的所有指令集合就称为指令集，指令集架构则是CPU/GPU物理硬件和上层软件之间的一个接口。大部分已公开的深度学习模型都是针对于CPU/GPU这类计算设备设计的，即，大部分已公开的深度学习模型采用的是指令集架构。

指令集计算图中间表达定义了深度学习模型的网络结构，即算子的种类和连接关系。算子由一个或多个能够被目标运算设备执行的最小运算单元组合而成，算子之间的连接关系表示算子之间的运算规则，算子颗粒度表示算子的复杂程度，通常由算子颗粒度包含的最小运算单元的数量表示，算子颗粒度大的称之为大颗粒算子，算子颗粒度小的称之为小颗粒算子。例如，在CPU/GPU设备中，最小运算单元为A1、A2、A3、A4，其算子也是A1、A2、A3、A4，那么对应的算子颗粒度为1，算子的种类为A1、A2、A3、A4四种，算子之间的连接关系可以是先运行A1+A2，再运行A1+A2+A3+A4。采用指令集架构的深度学习模型，一般包含的是小颗粒算子，其算子颗粒度较小，因而灵活度较高，但是效率低下，当计算的数据量过大时，需要花费较长的计算时间。

将目标深度学习模型解析为指令集计算图中间表达，即，将目标深度学习模型中的算子种类和算子之间的运算规则解析出来，从而可以对基于指令集架构开发的目标深度学习模型中的算子进行融合和转化，使目标深度学习模型能够在数据流框架下运行。

目标深度学习模型中的算子颗粒度为第一算子颗粒度，指令集计算图中间表达中的算子颗粒度为第二算子颗粒度，由于将目标深度学习模型解析为指令集计算图中间表达并没有改变算子颗粒度，故第一算子颗粒度与第二算子颗粒度相同，目标深度学习模型中的算子与指令集计算图中间表达中的算子也相同，都为第一算子，也就是说，在指令集计算图中间表达中，第二算子颗粒度是针对第一算子得到的。即目标深度学习模型中的算子/算子颗粒度与指令集计算图中间表达的算子/算子颗粒度均一致。且指令集计算图中间表达最接近目标深度学习模型的原始计算图的表达。

在一实施例中，第一算子/第一算子颗粒度更贴近神经网络算法设计层级，具有较高易读性，便于开发者解读网络结构。

S120、将所述指令集计算图中间表达转化为数据流计算图中间表达。

在一实施例中，数据流计算图中间表达表示的是数据流架构下算子的种类和连接关系。指令集计算图中间表达的算子为第一算子，数据流计算图中间表达的算子为第二算子，将指令集计算图中间表达转化为数据流计算图中间表达，就是按照数据流的算子颗粒度对指令集计算图中间表达进行重组，将指令集计算图中间表达的第一算子依据数据流算子颗粒度融合为数据流计算图中间表达的第二算子，即将指令集计算图中间表达的小颗粒算子融合为大颗粒算子。例如，指令集计算图中间表达的算子是A1、A2、A3、A4四种，算子之间的连接关系可以是先运行A1+A2，再运行A1+A2+A3+A4，将指令集计算图中间表达转为数据流计算图中间表达时，将A1+A2(A1、A2为小颗粒算子)融合为B(B为大颗粒算子)，将A3+A4融合为C，此时，B的算子颗粒度为2，数据流计算图中间表达中的算子为B、C两种，算子之间的连接关系为B+C。

在一实施例中，这里的融合不是简单叠加的意思，包括融合和转化的含义。

数据流计算图中间表达包含第三算子颗粒度，数据流计算图中间表达包含的第三算子颗粒度大于指令集计算图中间表达包含的第二算子颗粒度。

S130、将所述数据流计算图中间表达调整为定制化架构中间表达。

在一实施例中，定制化架构中间表达表示运行目标深度学习模型的数据流架构的算子及其连接关系。将数据流计算图中间表达调整为定制化架构中间表达，即将数据流计算图中间表达的算子按照运行目标深度学习模型的数据流架构的设计原则进行重组和改写。定制化架构中间表达贴近底层运算，运行效率较高。

数据流计算图中间表达的算子表示的是数据流架构下能够执行的最小运算单元，定制化架构中间表达可以将该最小运算单元按照模块进行划分，例如，数据流计算图中间表达的算子为B、C、D、E四种，算子之间的运算关系为先计算B+C，再计算B+C+D+E，则定制化架构中间表达可以是第一模块运行B+C，第二模块运行D+E，在设计时，第一模块和第二模块可以同时进行计算，从而减少计算时间，效率更高。

S140、根据所述定制化架构中间表达，得到所述目标深度学习模型所对应转化的目标数据流网络模型。

在一实施例中，目标数据流网络模型是在数据流架构下运行的深度学习模型，定制化架构中间表达可以看成是目标数据流网络模型的计算图，其中既包含目标数据流网络模型中的算子类型和对应的数据参数，也包含目标数据流网络模型中的算子间的连接关系。根据定制化架构中间表达可以运行目标深度学习模型，从而将基于指令集架构开发的深度学习模型转化到数据流架构下运行。

在一实施例中，所述目标深度学习模型包括第一算子颗粒度，所述指令集计算图中间表达包括第二算子颗粒度，所述数据流计算图中间表达包括第三算子颗粒度。

在一实施例中，所述第一算子颗粒度与所述第二算子颗粒度相同。

在一实施例中，所述第二算子颗粒度小于所述第三算子颗粒度。

在一实施例中，指令集计算图中间表达还包括第一算子，所述数据流计算图中间表达还包括第二算子。在一实施例中，第三算子颗粒度是针对第二算子得到的。

在一实施例中，多个第一算子通过融合转化形成所述第二算子。

本申请实施例一通过将目标深度学习模型解析为指令集计算图中间表达；将所述指令集计算图中间表达转化为数据流计算图中间表达；将所述数据流计算图中间表达调整为定制化架构中间表达；根据所述定制化架构中间表达，得到所述目标深度学习模型所对应转化的目标数据流网络模型。实现了将基于指令集架构开发的深度学习模型转化到数据流架构下运行，使用指令集计算图中间表达、数据流计算图中间表达和定制化架构中间表达来描述深度学习模型，可以根据实际需求在易读性和执行效率等方面做权衡，使得设计更为灵活。

实施例二

图2为本申请实施例提供的一种深度学习模型的转化装置的结构示意图，本实施例可适用于将基于指令集架构开发的深度学习模型输入到基于数据流架构的芯片中运行。该装置可以采用软件和/或硬件的方式实现，并可集成在服务器上。本申请实施例所提供的深度学习模型的转化装置可执行本申请任意实施例所提供的深度学习模型的转化方法，具备执行方法相应的功能模块和效果。本申请实施例二中未描述的内容可以参考本申请任意方法实施例中的描述。

如图2所示，本申请实施例提供的深度学习模型的转化装置200包括：目标深度学习模型解析模块210、指令集计算图中间表达转化模块220、数据流计算图中间表达调整模块230和目标数据流网络模型生成模块240，其中：

目标深度学习模型解析模块210，设置为将目标深度学习模型解析为指令集计算图中间表达；

指令集计算图中间表达转化模块220，设置为将所述指令集计算图中间表达转化为数据流计算图中间表达；

数据流计算图中间表达调整模块230，设置为将所述数据流计算图中间表达调整为定制化架构中间表达；

目标数据流网络模型生成模块240，设置为根据所述定制化架构中间表达，得到所述目标深度学习模型所对应转化的目标数据流网络模型。

在一实施例中，目标深度学习模型解析模块210、指令集计算图中间表达转化模块220和数据流计算图中间表达调整模块230均为独立模块。

在一实施例中，目标深度学习模型解析模块210、指令集计算图中间表达转化模块220和数据流计算图中间表达调整模块230均为独立模块表示，在修改其中某一模块的情况下，不影响其他模块的工作逻辑。例如，如果需要替换目标深度学习模型，且替换后的目标深度学习模型与替换前的目标深度学习模型是基于不同的深度学习框架开发出来的，则将目标深度学习模型解析模块210的相关逻辑修改为与替换后的目标深度学习模型对应的深度学习框架相对应，而指令集计算图中间表达转化模块220和数据流计算图中间表达调整模块230可以维持不变继续使用；如果目标数据流网络模型需要改变，则对数据流计算图中间表达调整模块230进行相关变更，目标深度学习模型解析模块210和指令集计算图中间表达转化模块220可以维持不变继续使用。

在一实施例中，指令集计算图中间表达还包括第一算子，所述数据流计算图中间表达还包括第二算子。

本申请实施例通过将目标深度学习模型解析模块、指令集计算图中间表达转化模块、数据流计算图中间表达调整模块和目标数据流网络模型生成模块实现了将基于指令集架构开发的深度学习模型转化到数据流架构下运行，使用指令集计算图中间表达、数据流计算图中间表达和定制化架构中间表达来描述深度学习模型，可以根据实际需求在易读性和执行效率等方面做权衡，使得设计更为灵活；目标深度学习模型解析模块、指令集计算图中间表达转化模块和数据流计算图中间表达调整模块均为独立模块，增加了深度学习模型的转化装置的拓展性，提高了开发速度。

实施例三

图3是本申请实施例三提供的一种服务器的结构示意图。图3示出了适于用来实现本申请实施方式的示例性服务器312的框图。图3显示的服务器312仅仅是一个示例。

如图3所示，服务器312以通用服务器的形式表现。服务器312的组件可以包括：一个或者多个处理器316，存储装置328，连接不同系统组件(包括存储装置328和处理器316)的总线318。

总线318表示几类总线结构中的一种或多种，包括存储装置总线或者存储装置控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括工业标准体系结构(Industry Subversive Alliance，ISA)总线，微通道体系结构(Micro Channel Architecture，MAC)总线，增强型ISA总线、视频电子标准协会(Video Electronics Standards Association，VESA)局域总线以及外围组件互连(Peripheral Component Interconnect，PCI)总线。

服务器312包括多种计算机系统可读介质。这些介质可以是能够被服务器312访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储装置328可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(Random Access Memory，RAM)330和/或高速缓存332。服务器312可以包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统334可以用于读写不可移动的、非易失性磁介质(图3未显示，通常称为“硬盘驱动器”)。尽管图3中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘，例如只读光盘(Compact Disc Read-Only Memory，CD-ROM),数字视盘(Digital Video Disc-Read Only Memory，DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线318相连。存储装置328可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本申请多个实施例的功能。

具有一组(至少一个)程序模块342的程序/实用工具340，可以存储在例如存储装置328中，这样的程序模块342包括操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块342通常执行本申请所描述的实施例中的功能和/或方法。

服务器312也可以与一个或多个外部设备314(例如键盘、指向服务器、显示器324等)通信，还可与一个或者多个使得用户能与该服务器312交互的服务器通信，和/或与使得该服务器312能与一个或多个其它计算服务器进行通信的服务器(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(Input/Output，I/O)接口322进行。并且，服务器312还可以通过网络适配器320与一个或者多个网络(例如局域网(Local Area Network，LAN)，广域网(Wide Area Network，WAN)和/或公共网络，例如因特网)通信。如图3所示，网络适配器320通过总线318与服务器312的其它模块通信。尽管图中未示出，可以结合服务器312使用其它硬件和/或软件模块，包括：微代码、服务器驱动器、冗余处理器、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of Independent Disks，RAID)系统、磁带驱动器以及数据备份存储系统等。

处理器316通过运行存储在存储装置328中的程序，从而执行多种功能应用以及数据处理，例如实现本申请任意实施例所提供的方法，该方法可以包括：

将目标深度学习模型解析为指令集计算图中间表达；

将所述数据流计算图中间表达调整为定制化架构中间表达；

实施例四

本申请实施例四还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现如本申请任意实施例所提供的方法，该方法可以包括：

将目标深度学习模型解析为指令集计算图中间表达；

将所述数据流计算图中间表达调整为定制化架构中间表达；

本申请实施例的计算机存储介质，可以采用一个计算机可读的介质或多个计算机可读的介质的组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者以上的组合。计算机可读存储介质的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、RAM、只读存储器(Read-Only Memory，ROM)、可擦式可编程只读存储器(Erasable Programmable Read-Only Memory，EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述合适的组合。在本文件中，计算机可读存储介质可以是包含或存储程序的多种有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括电磁信号、光信号或上述合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用适当的介质传输，包括无线、电线、光缆、射频(Radio Frequency，RF)等等，或者上述合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或终端上执行。在涉及远程计算机的情形中，远程计算机可以通过多种网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

Claims

一种深度学习模型的转化方法，包括：

将目标深度学习模型解析为指令集计算图中间表达；

将所述指令集计算图中间表达转化为数据流计算图中间表达；

将所述数据流计算图中间表达调整为定制化架构中间表达；

根据所述定制化架构中间表达，得到所述目标深度学习模型所对应转化的目标数据流网络模型。
如权利要求1所述的方法，其中，所述目标深度学习模型包括第一算子颗粒度，所述指令集计算图中间表达包括第二算子颗粒度，所述数据流计算图中间表达包括第三算子颗粒度。
如权利要求2所述的方法，其中，所述第一算子颗粒度与所述第二算子颗粒度相同。
如权利要求2所述的方法，其中，所述第二算子颗粒度小于所述第三算子颗粒度。
如权利要求2所述的方法，其中，所述指令集计算图中间表达还包括第一算子，所述数据流计算图中间表达还包括第二算子。
如权利要求5所述的方法，其中，多个所述第一算子通过融合转化形成所述第二算子。
一种深度学习模型的转化装置，包括：

目标深度学习模型解析模块，设置为将目标深度学习模型解析为指令集计算图中间表达；

指令集计算图中间表达转化模块，设置为将所述指令集计算图中间表达转化为数据流计算图中间表达；

数据流计算图中间表达调整模块，设置为将所述数据流计算图中间表达调整为定制化架构中间表达；

目标数据流网络模型生成模块，设置为根据所述定制化架构中间表达，得到所述目标深度学习模型所对应转化的目标数据流网络模型。
如权利要求7所述的装置，其中，所述目标深度学习模型解析模块、所述指令集计算图中间表达转化模块和所述数据流计算图中间表达调整模块均为独立模块。
一种服务器，包括：

一个或多个处理器；

存储装置，设置为存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-6中任一项所述的深度学习模型的转化方法。
一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现如权利要求1-6中任一项所述的深度学习模型的转化方法。