WO2021077281A1

WO2021077281A1 - 深度学习框架的调整方法、装置、服务器及存储介质

Info

Publication number: WO2021077281A1
Application number: PCT/CN2019/112463
Authority: WO
Inventors: 邹伟; 熊超; 牛昕宇; 蔡权雄
Original assignee: 深圳鲲云信息科技有限公司
Priority date: 2019-10-22
Filing date: 2019-10-22
Publication date: 2021-04-29
Also published as: US20220366249A1; CN114514506A

Abstract

本申请实施例公开了一种深度学习框架的调整方法、装置、服务器及存储介质，该方法包括：获取初始数据流计算图，所述初始数据流计算图包括计算初始常量表达式的第一算子；根据所述初始常量表达式中的参数得到目标数据流计算图，所述目标数据流计算图包括第二算子，所述目标数据流计算图用于控制深度学习框架芯片进行数据计算，所述第二算子的颗粒度大于所述第一算子的颗粒度以调整深度学习框架芯片的计算量。

Description

深度学习框架的调整方法、装置、服务器及存储介质

技术领域

本申请实施例涉及深度学习技术领域，例如涉及一种深度学习框架的调整方法、装置、服务器及存储介质。

背景技术

随着数据流架构的发展，数据格式的优化对提升数据流架构的效率越来越重要。

深度学习框架的数据格式都是针对指令集架构设计，指令集架构的特点是数据格式能够对应的拆分成单个指令形式，计算单元颗粒度小，计算单元间可以任意组合。然而，运行在数据流架构上的数据格式，相比指令集架构而言，计算单元颗粒度大，支持的计算单元组合也有限制，对应的形式是数据通路，而不是指令单元，一条数据通路往往由多个复杂计算单元组成。为了解决数据流架构的数据格式优化问题，研究人员研究了一种通用的基于数据流的数据格式设计。

然而，该通用的基于数据流的数据格式设计受限于数据流架构的设计，计算效率低下。

发明内容

本申请实施例提供一种深度学习框架的调整方法、装置、服务器及存储介质，以实现提高数据流架构的深度学习框架计算效率的效果。

本申请实施例提供一种深度学习框架的调整方法，包括：

获取初始数据流计算图，所述初始数据流计算图包括计算初始常量表达式的第一算子；

根据所述初始常量表达式中的参数得到目标数据流计算图，所述目标数据流计算图包括第二算子，所述目标数据流计算图用于控制深度学习框架芯片进行数据计算，所述第二算子的颗粒度大于所述第一算子的颗粒度以调整深度学习框架芯片的计算量。

本申请实施例提供一种深度学习框架的调整装置，包括：

获取模块，设置为获取初始数据流计算图，所述初始数据流计算图包括计算初始常量表达式的第一算子；

优化模块，设置为根据所述初始常量表达式中的参数得到目标数据流计算图，所述目标数据流计算图包括第二算子，所述目标数据流计算图用于控制深度学习框架芯片进行数据计算，所述第二算子的颗粒度大于所述第一算子的颗粒度以调整深度学习框架芯片的计算量。

本申请实施例提供一种服务器，包括：

一个或多个处理器；

存储装置，设置为存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本申请任意实施例所提供的深度学习框架的调整方法。

本申请实施例提供一种计算机可读存储介质，存储有计算机程序，该程序被处理器执行时实现如本申请任意实施例所提供的深度学习框架的调整方法。

附图说明

图1为本申请实施例一提供的一种深度学习框架的调整方法的流程示意图；

图2为本申请实施例二提供的另一种深度学习框架的调整方法的流程示意图；

图3为本申请实施例二提供的另一种深度学习框架的调整方法的流程示意图；

图4为本申请实施例三提供的一种深度学习框架的调整装置的结构示意图；

图5是本申请实施例三提供的一种服务器的结构示意图。

具体实施方式

下面结合附图和实施例对本申请进行说明。本文所描述的具体实施例仅仅用于解释本申请，而非对本申请的限定。为了便于描述，附图中仅示出了与本申请相关的部分而非全部结构。

一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将多个步骤描述成顺序的处理，但是本文中的许多步骤可以被并行地、并发地或者同时实施。此外，多个步骤的顺序可以被重新安排。当多个步骤操作完成时处理可以被终止，但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等等。

术语“第一”、“第二”等可在本文中用于描述多种方向、动作、步骤或元件等，但这些方向、动作、步骤或元件不受这些术语限制。这些术语仅用于将第一个方向、动作、步骤或元件与另一个方向、动作、步骤或元件区分。举例来说，在不脱离本申请的范围的情况下，可以将第一算子颗粒度称为第二算子颗粒度，且类似地，可将第二算子颗粒度称为第一算子颗粒度。第一算子颗粒度和第二算子颗粒度两者都是算子颗粒度，但第一算子颗粒度和第二算子颗粒度不是同一算子颗粒度。术语“第一”、“第二”等而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有限定。

实施例一

图1为本申请实施例一提供的一种深度学习框架的调整方法的流程示意图，可适用于对基于数据流架构开发的深度学习框架进行优化的场景，该方法可以由深度学习框架的调整装置来执行，该装置可以采用软件和/或硬件的方式实现，并可集成在服务器上。

如图1所示，本实施例一提供的深度学习框架的调整方法包括：

S110、获取初始数据流计算图，所述初始数据流计算图包括计算初始常量表达式的第一算子。

本实施例中，数据流计算图是一种有向图，用来表示数据驱动计算。在数据流计算图中，每个节点表示一个算子。第一算子是指在初始数据流计算图中计算初始常量表达式的算子。初始数据流计算图是指未被优化的数据流计算图。常量表达式是指表达式里面只有常量值，初始常量表达式是指初始数据流计算图中需要计算的常量表达式。一实施例中，初始常量表达式可以是a+b，也可以是a*b，而第一算子用来计算a+b或a*b，本文不作限制。本实施例中，a、b都是常量，例如a是1、b是2，本文对于常量的数值不作限制。

S120、根据所述初始常量表达式中的参数得到目标数据流计算图，所述目标数据流计算图包括第二算子，所述目标数据流计算图用于控制深度学习框架芯片进行数据计算，所述第二算子的颗粒度大于所述第一算子的颗粒度以调整深度学习框架芯片的计算量。

本实施例中，参数是指初始常量表达式中的常量值。例如，初始常量表达式为a*b，则参数值a和b为常量。目标数据流计算图是对初始常量表达式的参数优化得到的，目标数据流计算图用于控制深度学习框架芯片进行数据计算。

一实施例中，在初始数据流计算图中，只能在计算两个常量值输出一个结果后，再和另一个常量值进行计算。示例性的，有a、b、c三个常量，要计算的最终结果是a*b+c，而在初始数据流计算图中，则要先计算a*b＝n，再计算n+c从而输出结果。对参数进行优化是指将需要计算的参数一次计算，例如直接计算a*b+c，从而直接输出结果。本实施例中，目标数据流计算图中包括第二算子，用于计算对初始常量表达式中的参数优化后的表达式。一实施例中，算子的颗粒度影响深度学习框架的计算量，由于对参数优化后计算更复杂，因此第二算子的颗粒度大于第一算子的颗粒度，以调整深度学习框架芯片的计算量。

本申请实施例的技术方案，通过获取初始数据流计算图，所述初始数据流计算图包括计算初始常量表达式的第一算子；根据所述初始常量表达式中的参数得到目标数据流计算图。实现了将初始数据流计算图优化成目标数据流计算图，对于神经网络芯片内的数据流计算图中的参数计算可以一步到位，提高了神经网络芯片对于深度学习框架的计算时间。同时目标数据流计算图中的第二算子的颗粒度大于初始数据流计算图中第一算子的颗粒度，因此在目标数据流计算图中的第二算子的计算量也更大，解决了基于数据流架构的深度学习框架计算效率低下的问题，达到了提高深度学习框架计算效率的技术效果。

实施例二

图2是本申请实施例二提供的另一种深度学习框架的调整方法的流程示意图。本实施例是在上述技术方案的基础上进行说明，适用于对目标数据流计算图进行优化的场景。该方法可以由深度学习框架的调整装置来执行，该装置可以采用软件和/或硬件的方式实现，并可集成在服务器上。

如图2所示，本申请实施例二提供的深度学习框架的调整方法包括：

S210、获取初始数据流计算图，所述初始数据流计算图包括计算初始常量表达式的第一算子。

本实施例中，数据流计算图是一种有向图，用来表示数据驱动计算。在数据流计算图中，每个节点表示一个算子。第一算子是指在初始数据流计算图中计算初始常量表达式的算子。初始数据流计算图是指未被优化的数据流计算图。常量表达式是指表达式里面只有常量值，初始常量表达式是指初始数据流计算图中需要计算的常量表达式。一实施例中，初始常量表达式可以是a+b，也可以是a*b，而第一算子用来计算a+b或a*b，此处不作限制。本实施例中，a、b都是常量，例如a是1、b是2，本文对于常量的数值不作限制。

S220、根据所述初始常量表达式中的参数得到目标数据流计算图，所述目标数据流计算图包括第二算子，所述目标数据流计算图用于控制深度学习框架芯片进行数据计算，所述第二算子的颗粒度大于所述第一算子的颗粒度以调整深度学习框架芯片的计算量。

本实施例中，参数是指初始常量表达式中的常量值。例如初始常量表达式为a*b，则参数值a和b为常量值。目标数据流计算图是对初始常量表达式的参数优化得到的，目标数据流计算图用于控制深度学习框架芯片进行数据计算。

目标数据流计算图中的第二算子用于计算目标表达式，所述目标表达式基于所述初始常量表达式的参数优化得到。一实施例中，在初始数据流计算图中，只能在计算两个常量值输出一个结果后，再和另一个常量值进行计算。示例性的，有a、b、c三个常量，要计算的最终结果是a*b+c，而在初始数据流计算图中，则要先计算a*b＝n，再计算n+c从而输出结果。初始常量表达式可以是a*b、n+c。初始常量表达式一次只能计算两个参数。而目标表达式是对初始常量表达式的参数优化得到。示例性的，目标表达式是a*b+c，对初始常量表达式的参数进行合并，a、b、c都是常量值。

目标表达式可以一次计算多个常量。例如，需要输出a*b+c+d的计算结果，初始常量表达式则是a*b＝n1，n1+c＝n2，n2+d＝n3，最后输出n3的结果。而目标表达式则为a*b+c+d＝n3，经过一次计算直接输出n3的结果，计算效率大大提升。

由于第一算子用于计算初始常量表达式，而第二算子是计算经初始常量表达式优化得到的目标表达式，因此第二算子是通过至少两个第一算子融合得到的。示例性的，第一算子有A1和A2，A1计算a*b＝n，A2算子计算n+c从而输出结果，则可以融合A1算子和A2算子，得到B1算子计算a*b+c。本实施例中，经第一算子融合得到的第二算子的颗粒度大于第一算子的颗粒度。示例性的，A1的颗粒度为1，A2的颗粒度为1，则B1的颗粒度为2。一实施例中，第二算子为加法乘法组合算子。

S230、获取计算相同的所述目标表达式的至少两个所述第二算子。

本实施例中，目标表达式有多个，每一个第二算子只能计算一个目标表达式，获取计算相同的目标表达式的至少两个第二算子是指对计算相同的目标表达式的第二算子识别。一实施例中，有B1、B2和B3三个第二算子，B1算子计算的目标表达式为Y1＝a*X+b，B2算子计算的目标表达式为Y2＝a*X+c，B3算子计算的目标表达式为Y3＝a*X+b，Y1、Y2和Y3为输出的计算结果，a、b、c都是常量，X是常量或者变量，如果X的值未输入数值则为变量，如果X的值已输入数值则为常量。由于B1算子和B3算子计算的目标表达式一致，因此获取B1算子和B3算子。还可以有更多的算子计算相同的目标表达式。

S240、对至少两个所述第二算子进行融合得到第三算子。

本实施例中，对于计算相同的目标表达式的至少两个算子，可以进行融合。示例性的，B1算子和B3算子计算相同的目标表达式Y＝a*X+b，因此可以对B1算子和B3算子融合得到第三算子C1，从而对目标表达式Y＝a*X+b进行计算。本实施例中，第三算子的颗粒度大于第二算子的颗粒度，第三算子的颗粒度根据融合的第二算子的颗粒度确定。示例性的，B1算子和B2算子的颗粒度为2，则融合后的C1算子的颗粒度为4，提高了算子的计算量。

S250、基于所述目标数据流计算图中未融合的第二算子和所述第三算子得到最终数据流计算图。

本实施例中，对于没有相同的目标表达式的第二算子则无法融合，保留第二算子的颗粒度。最终数据流计算图是对目标数据流计算图优化得到的，最终数据流计算图中通过第二算子和/或第三算子对深度学习架构进行计算。

在本实施例中，通过对具有相同的目标表达式的第二算子融合得到第三算子，增大了数据流计算图中算子的颗粒度，提高了神经网络架构的计算能力和计算效率。

参考图3，在一实施例中，步骤S250包括：

S2510、将计算相关的多个目标表达式的第二算子和第三算子组合成一个数据通路。

本实施例中，相关是指当前算子的输入需要根据上一个算子的输出结果确定，当前算子的输出结果作为下一个算子的输入。示例性的，第二算子计算的目标表达式可以为Y1＝a*X1+c，第三算子计算的目标表达式可以为Y2＝Y1*X2+d，a、c、d为常量，而X1和X2为变量，X1和X2的数值需要等待数据输入才能确定。由于第二算子计算的目标表达式中存在变量，因此不能合并。而且第三算子需要第二算子的计算结果作为数据，因此可以将第二算子和第三算子组合成一个数据通路。算子之间的连接根据目标表达式的相关性确定。

一实施例中，在一个数据通路中，包括头部算子、后继算子和输出算子，所述头部算子用于承担所有参数初始化，所述后继算子用于获取前继算子的输出，所述输出算子用于输出数据。头部算子是指进行计算的第一个算子，输出算子是指输出最终结果的算子。后继算子是指根据上一个算子计算结果作为输入的算子，前继算子是指向下一个算子输出结果的算子。示例性的，有A、B、C、D四个算子，计算的顺序为A、B、C、D，则A为头部算子，D为输出算子，A、B、C为前继算子，B、C、D为后继算子。

S2520、基于所有数据通路得到最终数据流计算图。

本实施例中，相关的算子连接形成一个数据通路，不相关的算子不在此数据通路中，因此数据通路至少为一个。所有的数据通路组合成最终数据流计算图，从而进行深度学习框架的计算。一实施例中，算子间的排序遵循底层缓存设计，大大减少了上一个算子将计算结果输入给下一个算子的时间，提高了计算的效率。

本申请实施例的技术方案，通过获取初始数据流计算图，所述初始数据流计算图包括计算初始常量表达式的第一算子；根据所述初始常量表达式中的参数得到目标数据流计算图。实现了将初始数据流计算图优化成目标数据流计算图，对于数据流计算图中的参数计算可以一步到位，提高了深度学习框架的计算时间。同时目标数据流计算图中的第二算子的颗粒度大于初始数据流计算图中第一算子的颗粒度，因此在目标数据流计算图中的第二算子的计算量也更大，达到了提高深度学习框架计算效率的技术效果。

实施例三

图4为本申请实施例三提供的一种深度学习框架的调整装置的结构示意图，本实施例可适用于将基于数据流架构开发的深度学习框架进行优化的场景。该装置可以采用软件和/或硬件的方式实现，并可集成在服务器上。

如图4所示，本申请实施例三提供的深度学习框架的调整装置包括：获取模块410和调整模块420。

获取模块410，设置为获取初始数据流计算图，所述初始数据流计算图包括计算初始常量表达式的第一算子。

调整模块420，设置为根据所述初始常量表达式中的参数得到目标数据流计算图，所述目标数据流计算图包括第二算子，所述目标数据流计算图用于控制深度学习框架芯片进行数据计算，所述第二算子的颗粒度大于所述第一算子的颗粒度以调整深度学习框架芯片的计算量。

一实施例中，所述第二算子通过所述至少两个所述第一算子融合得到。

一实施例中，所述第二算子用于计算目标表达式，所述目标表达式基于所述初始常量表达式的参数得到。

一实施例中，所述目标表达式的个数和所述第二算子的个数均为多个，获取模块410还设置为获取计算相同的所述目标表达式的至少两个所述第二算子；所述装置还包括融合模块，融合模块设置为对至少两个所述第二算子进行融合得到第三算子；基于所述目标数据流计算图中未融合的第二算子和所述第三算子得到最终数据流计算图。

一实施例中，融合模块是设置为通过如下方式基于所述目标数据流计算图中未融合的第二算子和所述第三算子得到最终数据流计算图：将计算相关的所述多个目标表达式的第二算子和第三算子组合成一个数据通路；基于所有数据通路得到最终数据流计算图，其中，相关的多个目标表达式是指用于计算所述相关的多个目标表达式中一个目标表达式的算子的输出是用于计算所述相关的多个目标表达式中另一个目标表达式的算子的输入。

一实施例中，所述数据通路包括头部算子、后继算子和输出算子，所述头部算子用于承担所有参数初始化，所述后继算子用于获取前继算子的输出，所述输出算子用于输出数据。

一实施例中，所述第三算子颗粒度大于所述第二算子颗粒度。

本申请实施例所提供的深度学习框架的调整装置可执行本申请任意实施例所提供的深度学习框架的调整方法，具备执行方法相应的功能模块和有益效果。本实施例中未详尽描述的内容可以参考本申请任意方法实施例中的描述。

实施例四

图5是本申请实施例四提供的一种服务器的结构示意图。图5示出了适于用来实现本申请实施方式的示例性服务器612的框图。图5显示的服务器612仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图5所示，服务器612以通用服务器的形式表现。服务器612的组件可以包括但不限于：一个或者多个处理器616，存储装置628，连接不同系统组件(包括存储装置628和处理器616)的总线618。

总线618表示几类总线结构中的一种或多种，包括存储装置总线或者存储装置控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(Industry Subversive Alliance，ISA)总线，微通道体系结构(Micro Channel Architecture，MAC)总线，增强型ISA总线、视频电子标准协会(Video Electronics Standards Association，VESA)局域总线以及外围组件互连(Peripheral Component Interconnect，PCI)总线。

一实施例中，服务器612包括多种计算机系统可读介质。这些介质可以是任何能够被服务器612访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储装置628可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(Random Access Memory，RAM)630和/或高速缓存存储器632。一实施例中，终端612可以包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统634可以设置为读写不可移动的、非易失性磁介质(图5未显示，通常称为“硬盘驱动器”)。尽管图5中未示出，可以提供设置为对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘，例如只读光盘(Compact Disc Read-Only Memory，CD-ROM)，数字视盘(Digital Video Disc-Read Only Memory，DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线618相连。存储装置628可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本申请实施例的功能。

具有一组(至少一个)程序模块642的程序/实用工具640，可以存储在例如存储装置628中，这样的程序模块642包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或一种组合中可能包括网络环境的实现。程序模块642通常执行本申请所描述的实施例中的功能和/或方法。

服务器612也可以与一个或多个外部设备614(例如键盘、指向终端、显示器624等)通信，还可与一个或者多个使得用户能与该服务器612交互的终端通信，和/或与使得该服务器612能与一个或多个其它计算终端进行通信的任何终端(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(Input/Output，I/O)接口622进行。并且，服务器612还可以通过网络适配器620与一个或者多个网络(例如局域网(Local Area Network，LAN)，广域网(Wide Area Network，WAN)和/或公共网络，例如因特网)通信。如图5所示，网络适配器620通过总线618与服务器612的其它模块通信。尽管图中未示出，可以结合服务器612使用其它硬件和/或软件模块，包括但不限于：微代码、终端驱动器、冗余处理器、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of Independent Disks，RAID)系统、磁带驱动器以及数据备份存储系统等。

处理器616通过运行存储在存储装置628中的程序，从而执行多种功能应用以及数据处理，例如实现本申请任意实施例所提供的一种深度学习框架的调整方法，该方法可以包括：获取初始数据流计算图，所述初始数据流计算图包括计算初始常量表达式的第一算子；根据所述初始常量表达式中的参数得到目标数据流计算图，所述目标数据流计算图包括第二算子，所述目标数据流计算图用于控制深度学习框架芯片进行数据计算，所述第二算子的颗粒度大于所述第一算子的颗粒度以调整深度学习框架芯片的计算量。

实施例五

本申请实施例五还提供了一种计算机可读存储介质，存储有计算机程序，该程序被处理器执行时实现如本申请任意实施例所提供的深度学习框架的调整方法，该方法可以包括：获取初始数据流计算图，所述初始数据流计算图包括计算初始常量表达式的第一算子；根据所述初始常量表达式中的参数得到目标数据流计算图，所述目标数据流计算图包括第二算子，所述目标数据流计算图用于控制深度学习框架芯片进行数据计算，所述第二算子的颗粒度大于所述第一算子的颗粒度以调整深度学习框架芯片的计算量。

本申请实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、RAM、只读存储器(Read-Only Memory，ROM)、可擦式可编程只读存储器(Erasable Programmable Read-Only Memory，EPROM或闪存)、光纤、CD-ROM、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，计算机可读的信号介质中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、射频(Radio Frequency，RF)等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或终端上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括LAN或WAN—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

Claims

一种深度学习框架的调整方法，包括：

获取初始数据流计算图，所述初始数据流计算图包括计算初始常量表达式的第一算子；

根据所述初始常量表达式中的参数得到目标数据流计算图，所述目标数据流计算图包括第二算子，所述目标数据流计算图用于控制深度学习框架芯片进行数据计算，所述第二算子的颗粒度大于所述第一算子的颗粒度以调整深度学习框架芯片的计算量。
如权利要求1所述的方法，其中，所述第二算子通过至少两个第一算子融合得到。
如权利要求1或2所述的方法，其中，所述第二算子用于计算目标表达式，所述目标表达式基于所述初始常量表达式的参数得到。
如权利要求3所述的方法，其中，所述目标表达式的个数和所述第二算子的个数均为多个；

在所述根据所述初始常量表达式中的参数得到目标数据流计算图之后，还包括：

获取计算相同的目标表达式的至少两个第二算子；

对所述至少两个第二算子进行融合得到第三算子；

基于所述目标数据流计算图中未融合的第二算子和所述第三算子得到最终数据流计算图。
如权利要求4所述的方法，其中，所述基于所述目标数据流计算图中未融合的第二算子和所述第三算子得到最终数据流计算图，包括：

将计算相关的多个目标表达式的第二算子和第三算子组合成一个数据通路，其中，所述相关的多个目标表达式是指用于计算所述相关的多个目标表达式中一个目标表达式的算子的输出是用于计算所述相关的多个目标表达式中另一个目标表达式的算子的输入；

基于所有数据通路得到最终数据流计算图。
如权利要求5所述的方法，其中，所述数据通路包括头部算子、后继算子和输出算子，所述头部算子用于承担所有参数初始化，所述后继算子用于获取前继算子的输出，所述输出算子用于输出数据。
如权利要求4所述的方法，其中，所述第三算子颗粒度大于所述第二算子颗粒度。
一种深度学习框架的调整装置，包括：

获取模块，设置为获取初始数据流计算图，所述初始数据流计算图包括计算初始常量表达式的第一算子；

优化模块，设置为根据所述初始常量表达式中的参数得到目标数据流计算图，所述目标数据流计算图包括第二算子，所述目标数据流计算图用于控制深度学习框架芯片进行数据计算，所述第二算子的颗粒度大于所述第一算子的颗粒度以调整深度学习框架芯片的计算量。
一种服务器，包括：

至少一个处理器；

存储装置，设置为存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如权利要求1-7中任一项所述的深度学习框架的调整方法。
一种计算机可读存储介质，存储有计算机程序，所述程序被处理器执行时实现如权利要求1-7中任一项所述的深度学习框架的调整方法。