WO2022121278A1

WO2022121278A1 - 芯片、数据搬移方法和电子设备

Info

Publication number: WO2022121278A1
Application number: PCT/CN2021/101547
Authority: WO
Inventors: 冷祥纶; 周俊; 王文强
Original assignee: 上海阵量智能科技有限公司
Priority date: 2020-12-10
Filing date: 2021-06-22
Publication date: 2022-06-16
Also published as: CN112506437A; JP2023509818A

Abstract

本申请提出一种芯片、数据搬移方法和电子设备。其中，上述芯片可以包括，至少一个处理内核和至少一个存储器分区。其中，每个存储器分区包括高速缓存系统、内存系统，以及直接存储器访问DMA控制器。上述DMA控制器，与上述高速缓存系统以及上述内存系统分别连接，用于进行上述存储器分区内部的不同存储空间之间的数据搬移。

Description

芯片、数据搬移方法和电子设备

交叉引用声明

本发明要求于2020年12月10日提交中国专利局的申请号为202011458676.7的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机技术，具体涉及一种芯片、数据搬移方法和电子设备。

背景技术

随着计算机技术的快速发展，各类芯片的运算能力逐步提升。而芯片运算能力的提升，要求较高的数据搬移效率。

在相关技术中，当芯片内部的存储器分区中需要进行第一存储空间与第二存储空间之间的数据搬移时，处理内核需要先将数据从第一存储空间中读出，并存储在该处理内核内。然后，该处理内核再将存储的该数据读出并写入第二存储空间中。

可见，在相关技术中，存储器分区内部的不同存储空间之间进行数据搬移需要经过处理内核，数据搬移效率较低。

发明内容

有鉴于此，本申请公开一种芯片，上述芯片包括：

至少一个处理内核和至少一个存储器分区；其中，对于每个存储器分区，上述存储器分区包括高速缓存系统、内存系统，以及直接存储器访问DMA控制器；上述DMA控制器，与上述高速缓存系统以及上述内存系统分别连接，用于进行上述存储器分区内部的不同存储空间之间的数据搬移。在示出的一实施例中，上述至少一个处理内核中的第一处理内核用于向至少一个第一DMA控制器发送数据搬移指令，其中，上述至少一个第一DMA控制器包括在至少一个第一存储器分区中；上述至少一个第一DMA控制器，用于基于上述数据搬移指令，进行上述至少一个第一存储器分区内部的不同存储空间之间的数据搬移。

在示出的一实施例中，上述高速缓存系统包括多级高速缓存；上述DMA控制器用于进行上述高速缓存系统的存储空间与上述内存系统内的存储空间之间的数据搬移包括上述DMA控制器用于进行上述最后一级高速缓存的存储空间与上述内存系统内的存储空间之间的数据搬移。

在示出的一实施例中，上述最后一级高速缓存支持三种工作模式，其中，在第一工作模式中，上述最后一级高速缓存的全部存储空间被配置为高速缓存存储器，在第二工作模式中，上述最后一级高速缓存的全部存储空间被配置为便笺存储器SPM，在第三工作模式中，上述最后一级高速缓存的一部分存储空间被配置为高速缓存存储器，另一部分存储空间被配置为SPM。

在示出的一实施例中，上述存储器分区还包括模式配置器，上述模式配置器用于基于用户配置信息，配置上述最后一级高速缓存的工作模式。

在示出的一实施例中，上述至少一个处理内核与上述DMA控制器通过主片上网络互相访问；或，上述DMA控制器、上述高速缓存系统以及上述内存系统之间通过子片上网络互相访问。

在示出的一实施例中，上述DMA控制器用于进行上述存储器分区内部的不同存储空间之间的数据搬移包括用于进行下列中的至少一种：上述高速缓存系统的不同存储空间之间的数据搬移；上述内存系统内的不同存储空间之间的数据搬移；上述高速缓存系统的存储空间与上述内存系统内的存储空间之间的数据搬移。

在示出的一实施例中，上述存储器分区中的不同存储空间全部或部分采用统一内存架构UMA。

在示出的一实施例中，上述第一处理内核用于向上述至少一个第一DMA控制器发送数据搬移指令包括，上述第一处理内核用于向至少一个第二DMA控制器广播数据搬移指令，其中上述第二DMA控制器包括在上述不同存储空间全部采用UMA的第一存储器分区中。

在示出的一实施例中，上述数据搬移指令包括：数据搬移类型、数据长度、源存储地址、以及目的存储地址。

在示出的一实施例中，上述数据搬移指令包括第一字段、第二字段、第三字段以及第四字段；其中，上述第一字段用于指示上述数据搬移类型和上述数据长度；上述第二字段用于指示上述源存储地址的低地址；上述第三字段用于指示上述源存储地址的高地址以及上述目的存储地址的高地址；上述第四字段用于指示上述目的存储地址的低地址。

在示出的一实施例中，上述DMA控制器用于进行上述存储器分区内部的不同存储空间之间的数据搬移包括用于：从上述存储器分区内的第一存储空间读取数据，并将读取到的数据写入上述存储器分区内的第二存储空间。

在示出的一实施例中，上述内存系统为高带宽存储器HBM。

本申请还提出一种数据搬移方法，应用于芯片，其中上述芯片包括至少一个处理内核和至少一个存储器分区，每个存储器分区包括高速缓存系统、内存系统，以及与直接存储器访问DMA控制器；上述方法包括：对于每个存储器分区，通过上述DMA控制器进行上述存储器分区内部的不同存储空间之间的数据搬移。

在示出的一实施例中，上述通过上述DMA控制器进行上述存储器分区内部的不同存储空间之间的数据搬移，包括：通过上述至少一个处理内核中的第一处理内核向至少一个第一DMA控制器发送数据搬移指令，其中，上述至少一个第一DMA控制器包括在至少一个第一存储器分区中；上述至少一个第一DMA控制器，基于上述数据搬移指令，进行上述至少一个第一存储器分区内部的不同存储空间之间的数据搬移。

在示出的一实施例中，上述高速缓存系统包括多级高速缓存；上述通过上述DMA控制器进行上述存储器分区内部的不同存储空间之间的数据搬移，包括：通过上述DMA控制器进行最后一级高速缓存的存储空间与上述内存系统内的存储空间之间的数据搬移。

在示出的一实施例中，上述最后一级高速缓存支持三种工作模式，其中，在第一工作模式中，上述最后一级高速缓存的全部存储空间被配置为高速缓存存储器，在第二工作模式中，上述最后一级高速缓存的全部存储空间被配置为SPM，在第三工作模式中，上述最后一级高速缓存的一部分存储空间被配置为高速缓存存储器，另一部分存储空间被配置为SPM。

在示出的一实施例中，上述存储器分区还包括模式配置器；上述方法还包括：基于用户配置信息，通过上述模式配置器，配置上述最后一级高速缓存的工作模式。

在示出的一实施例中，上述至少一个处理内核与上述DMA控制器通过主片上网络互相访问；和/或，上述DMA控制器、上述高速缓存系统以及上述内存系统之间通过子片上网络互相访问。

在示出的一实施例中，上述存储器分区内部的不同存储空间之间的数据搬移包括下列中的至少一种：上述高速缓存系统的不同存储空间之间的数据搬移；上述内存系统内的不同存储空间之间的数据搬移；上述高速缓存系统的存储空间与上述内存系统内的存储空间之间的数据搬移。

在示出的一实施例中，上述通过上述第一处理内核向上述至少一个第一DMA控制器发送上述数据搬移指令，包括：通过上述第一处理内核向至少一个第二DMA控制器广播数据搬移指令，其中上述第二DMA控制器包括在上述不同存储空间全部采用统一内存架构UMA的第一存储器分区中。

在示出的一实施例中，上述通过上述DMA控制器进行上述存储器分区内部的不同存储空间之间的数据搬移，包括：通过上述DMA控制器从上述存储器分区内的第一存储空间读取数据，并将读取到的数据写入上述存储器分区内的第二存储空间。

在示出的一实施例中，上述内存系统为高带宽存储器HBM。

本申请还提出一种电子设备，包括：上述任一实施例示出的芯片。

由上述技术方案可知，一方面，由于上述DMA控制器与上述高速缓存系统以及上述内存系统分别连接，并用于进行上述存储器分区内部的不同存储空间之间的数据搬移，因此可以控制上述数据可以在上述存储器分区内部完成搬移，而不会抢占上述芯片的访存带宽，从而在上述数据搬移过程中，释放该芯片内部的访存带宽，提升数据搬移效率，提示芯片性能。

另一方面，由于上述处理内核向上述DMA控制器发送数据搬移指令，上述DMA可以响应于上述数据搬移指令，控制上述存储器分区中不同的存储空间之间的数据搬移，因此，可以使需要搬移的数据在上述存储器分区内部完成搬移，从而释放该芯片内部的访存带宽，提示数据搬移效率，提升芯片性能。

还一方面，由于上述芯片可以提升存储器分区数据搬移效率，具有更高的性能，因此，使用该芯片可以辅助提高计算任务的处理效率，从而提升电子设备性能。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

为了更清楚地说明本申请一个或多个实施例或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请一个或多个实施例中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为一种AI芯片内部结构图；

图2为本申请示出的一种芯片的内部结构；

图3为本申请示出的一种芯片结构图；

图4为本申请示出的一种芯片结构图；

图5为本申请示出的一种数据搬移指令的示意图；

图6为本申请示出的一种数据搬移指令的示意图；

图7为本申请示出的一种数据搬移方法的方法流程图。

具体实施方式

下面将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的设备和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“上述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。还应当理解，本文中所使用的词语“如果”，取决于语境，可以被解释成为“在……时”或“当……时”或“响应于确定”。

请参见图1，图1为一种AI芯片内部结构图。

如图1所示，AI芯片的处理内核与存储器分区连接；其中，上述存储器分区至少包括内存系统以及高速缓存系统。

在图1示出的AI芯片中，当内存系统中有部分数据需要搬移到高速缓存系统中时，处理内核通过读命令先将该部分数据从内存系统中读出，并存储在该处理内核内，然后，该处理内核通过写命令将该部分数据写入上述高速缓存系统中。

由此可见，在上述高速缓存系统与上述内存系统间进行数据搬移，需要至少占用两次访存带宽，这不仅使数据搬移延时很大，而且抢占了访存带宽，大大降低了芯片性能。本领域技术人员可以理解的是，上述高速缓存系统内部，以及该内存系统内部的数据搬移同样存在上述问题，在此不作详述。

有鉴于此，本申请提出一种芯片。该芯片通过在存储器分区中，加入与高速缓存系统以及内存系统分别连接的DMA(Direct Memory Access，直接存储器访问)控制器，以使上述DMA可以执行上述存储器分区内部的不同存储空间之间的数据搬移指令，从而释放该芯片内部的访存带宽，提升数据搬移效率，提升芯片性能。

以下对该芯片的内部结构进行说明。

请参见图2，图2为本申请示出的一种芯片的内部结构。如图2所示，上述芯片包括：

至少一个处理内核21和至少一个存储器分区22。

其中，每个存储器分区22包括高速缓存系统221、内存系统222，以及DMA控制器223。

上述DMA控制器223，与上述高速缓存系统221以及上述内存系统222分别连接，用于进行上述存储器分区22内部的不同存储空间之间的数据搬移。

需要说明的是，当控制上述高速缓存系统221与上述内存系统222之间的数据搬移时，上述高速缓存系统221包括的最后一级高速缓存可以与上述DMA控制器223连接。当控制上述高速缓存系统221内部的数据搬移时，上述DMA控制器223可以与涉及的相应级别的高速缓存连接。在此不作特别限定。

在实际应用中，上述DMA控制器可以从上述存储器分区内的第一存储空间读取数据，并将读取到的数据写入上述存储器分区内的第二存储空间。

例如，上述第一存储空间为内存系统，上述第二存储空间为L2高速缓存。上述DMA控制器可以响应于上述处理内核发出的数据搬移指令，控制在上述内存系统与上述L2高速缓存之间的数据搬移。

在此需要说明的是，一个存储器分区可以包括一个或多个DMA控制器。例如，存储器分区包括一个DMA控制器，负责该存储器分区内所有存储空间之间的数据搬移。再例如，存储器分区包括多个DMA控制器，该多个DMA控制器中的每个DMA控制器可以负责存储器分区中的一对或多对存储空间之间的数据搬移。当存在多个存储器分区时，本申请不对这些DMA控制器的具体位置进行限定。例如DMA控制器可以分散位于各存储器分区中，也可以集中位于其中的一个存储器分区中。

上述芯片，具体可以是任意需要高访存带宽的芯片。在实际应用中，上述芯片可以搭载了多通道的DRAM(Dynamic Random Access Memory，动态随机存取存储器)的芯片。

例如，上述芯片可以是CPU、DSP、MCU等。在一实施例中，上述芯片可以执行人工智能算法。例如，上述芯片可以是AI神经网络芯片(例如，FPGA、TPU等)或 GPU图形处理芯片。

上述处理内核，通常为芯片中的计算核心，用于执行代码运算，可以包括一个或多个处理单元。例如，上述处理内核通常可以依据开发人员制定的程序代码，在上述存储器分区中进行数据搬移。

在实际应用中，上述存储器分区内部的存储空间之间的数据搬移通常可以包括，上述存储器分区中的高速缓存系统内部数据的搬移，上述存储器分区中的内存系统内部数据的搬移，以及上述存储器分区中最后一级高速缓存与内存系统之间的数据搬移。

上述存储器分区，通常用于存储数据。

在实际应用中，通常芯片采用具有存储层次的存储器分区。其中，上述存储器分区可以包括具有一级或多级高速缓存的高速缓存系统以及内存系统。

例如，请继续参见图2，上述高速缓存系统221可以至少包括L1、L2和L3高速缓存。此时，处理内核21需要获取数据时，通常先访问L1高速缓存。如果该L1高速缓存中存储有上述处理内核21需要的数据，则上述处理内核21完成此次数据获取。如果该L1高速缓存中没有存储上述处理内核21需要的数据，上述处理内核21则继续访问上述L2高速缓存以获取需要的数据。以此类推。如果上述最后一级高速缓存即L3高速缓存中也不涉及处理内核21需要的数据时，上述处理内核21则继续从上述内存系统222中获取数据。

在上述例子中不难发现，芯片的性能很大程度上取决于缓存命中率(CHCHE HIT)。而为了提升缓存命中率，目前在芯片中提供了可以由开发人员直接管理的大容量高速缓存，从而提升缓存命中率。

通常，当上述高速缓存系统包括多级高速缓存时，最后一级高速缓存可以作为上述大容量高速缓存，则上述DMA控制器用于进行上述最后一级高速缓存的存储空间与上述内存系统内的存储空间之间的数据搬移。

当高速缓存系统的至少一部分存储空间被配置为便笺存储器(Scratchpad Memory，SPM)时，会影响这部分存储空间的数据搬移效率。在一实施例中，为了提升数据搬移效率，最后一级高速缓存的至少一部分存储空间被配置为SPM。

此时，当进行数据搬移时，上述DMA控制器用于进行上述最后一级高速缓存中被配置为SPM的存储空间与上述内存系统之间的数据搬移。由于通过DMA控制器进行上述最后一级高速缓存中被配置为SPM的存储空间与上述内存系统之间的数据搬移，可以避免被搬移数据经过处理内核，从而释放带宽，缩短数据搬移路径，提升了数据搬移效率。

在一实施例中，为了灵活适用多种业务场景，上述高速缓存系统的最后一级高速缓存支持三种工作模式，其中，在第一工作模式中，上述最后一级高速缓存的全部存储空间被配置为高速缓存存储器，在第二工作模式中，上述最后一级高速缓存的全部存储空间被配置为SPM，在第三工作模式中，上述最后一级高速缓存的一部分存储空间被配置为高速缓存存储器，另一部分存储空间被配置为SPM。

通过这种方式，开发人员可以根据需求灵活配置上述最后一级高速缓存，从而提升上述芯片的适用性。

需要说明的是，为了可以实现动态配置最后一级高速缓存，在一实施例中，上述存储器分区还可以包括模式配置器。

上述模式配置器，用于基于用户配置信息，配置上述高速缓存系统中的最后一级高速缓存的工作模式。

在实际应用中，开发人员可以基于用户配置信息，通过上述模式配置器，配置上述最后一级高速缓存的工作模式。

例如，在多芯片级联分布式训练系统的场景中，由于芯片间的通信需要高容量、低延时，可以将上述最后一级高速缓存的全部存储空间配置为SPM。

再例如，在对性能要求不高的算法开发的场景中，由于无需开发人员之间管理最后一级高速缓存，可以将上述最后一级高速缓存的全部存储空间配置为高速缓存存储器。

再例如，在既需要数据传输效率，又注重数据复用率的场景中，可以将上述最后一级高速缓存的部分存储空间配置为高速缓存存储器，以及将部分存储空间配置为SPM，以存储AI运算参数。

上述内存系统，可以是全局内存系统。例如，可以是DRAM(Dynamic Random Access Memory，动态随机存取存储器)，SDRAM(synchronous dynamic random-access memory，同步动态随机存取存储器)等等。

在一实施例中，为了提升访存带宽，上述全局内存系统可以是高带宽存储器(High Bandwidth Memory，HBM)。

需要说明的是，上述芯片内部可以采用总线或NOC(network-on-chip，片上网络)架构，可以根据实际需求进行设定。在相关技术中，请参见图3，图3为本申请示出的一种芯片结构图。如图3所示，上述DMA控制器、至少一个处理内核、以及至少一个存储器分区通过总线连接。

此时，假设存储器分区内部的内存系统需要向L2高速缓存搬移数据时，一处理内核将向上述DMA控制器发送一条数据搬移指令，以使DMA控制器完成搬移数据。

但是不难发现，在上述芯片结构中，即便通过DMA控制器释放了芯片的处理内核的工作压力，但是上述数据在搬移过程中，仍需要先从内存系统流向处理内核，再流向L2高速缓存。由此可见，采用上述芯片结构仍然存在数据搬移抢占访存带宽，以及数据搬移效率低的问题。

为了解决上述问题，如图2所示，在本申请中上述DMA控制器内置于上述存储器分区中，以使DMA控制器可以控制上述数据，从而可以在上述存储器分区内部完成搬移，而不会抢占上述芯片的访存带宽。

由上述技术方案可知，由于上述DMA控制器与上述高速缓存系统以及上述内存系统分别连接，并用于进行上述存储器分区内部的不同存储空间之间的数据搬移，因此可以控制上述数据，从而可以在上述存储器分区内部完成搬移，而不会抢占上述芯片的访存带宽，进而在上述数据搬移过程中，释放该芯片内部的访存带宽，提升数据搬移效率，提示芯片性能。

在一实施例中，上述至少一个处理内核中的第一处理内核与至少一个第一DMA控制器连接；至少一个第一DMA控制器包括在至少一个第一存储器分区中，上述第一存储器分区可以为上述存储器分区的全部或部分。

上述第一处理内核用于向上述至少一个第一DMA控制器发送数据搬移指令。

上述至少一个DMA控制器，用于基于上述数据搬移指令，进行上述至少一个第一存储器分区内部的不同存储空间之间的数据搬移。

请继续参见图2，上述DMA控制器与上述第一处理内核连接。其中，上述连接方式可以是总线方式的连接。

在一实施例中，为了进一步提升芯片性能，上述DMA控制器，以及上述处理内核可以通过主片上网络(NOC，network-on-chip)互相访问。

上述主片上网络，可以是上述芯片内的主网络。当上述芯片包括多个处理内核，以及多个存储器分区时，上述多个处理内核，与上述多个存储器分区中的DMA控制器可以通过上述主片上网络互相访问。

请继续参见图2，上述DMA控制器，与上述高速缓存系统以及上述内存系统分别连接。其中，上述连接方式可以是总线方式的连接。

在一实施例中，为了进一步提升芯片性能，上述DMA控制器，上述高速缓存系统以及上述内存系统通过子片上网络互相访问。

上述子片上网络，可以是上述存储器分区内的子网络。当上述芯片包括多个存储器分区时，上述多个存储器分区均可以采用上述子片上网络，使各存储器分区中的DMA控制器、高速缓存系统以及内存系统可以通过上述子片上网络(NOC，network-on-chip)互相访问。

由于单颗存储器分区(包括高速缓存系统及内存系统)的带宽以及容量有限，为了提升访存带宽，以及芯片容量，在一实施例中，上述芯片通常可以包括多个存储器分区。这些存储器分区可以以并联的形式与处理内核连接。

请参见图4，图4为本申请示出的一种芯片结构图。如图4所示，上述芯片包括多个处理内核，以及多个存储器分区。需要说明的是，存储器分区中仅示意出高速缓存系统中的最后一级高速缓存，其他级别的高速缓存在图4中并未示出。

上述芯片中的多个处理内核，与多个存储器分区可以通过上述主片上网络互相访问。

采用上述方式，实现多存储器分区的并联，从而拓宽访存带宽以及芯片容量。

在上述情形中，即上述芯片包括多个存储器分区，为了方便开发人员编写程序，上述多个存储器分区均采用统一内存架构(UMA，Unified Memory Architecture)。

在实际应用中，上述多个存储器分区中的最后一级高速缓存可以采用UMA。上述多个存储器分区中的内存系统也可以采用UMA。

通过这种方式，对开发人员来讲，不同的最后一级高速缓存之间的有效地址相同，不同内存系统之间的有效地址也相同。因此，在向各最后一级高速缓存，或者各内存系统写数据时，只需输入一个地址即可，无需针对多个最后一级高速缓存或多个内存系统分别写数据，提升了开发人员编程效率，也提升了数据存储效率。

每个处理内核可以向一个或多个DMA控制器分别发送数据搬移指令，在一些实施例中，为了减小对DMA控制器的调用开销，上述处理内核可以向上述至少一个存储器分区中的至少一个DMA控制器广播数据搬移指令。

在实际应用中，当存储器分区内需要进行数据搬移时，处理内核可以向上述多个存储器分区中的DMA控制器广播发送数据搬移指令。

例如，假设芯片可以包括8个存储器分区。其中，上述8个存储器分区中有4个存储器分区的最后一级高速缓存(假设，最后一级高速缓存为L2高速缓存)，以及上述多个存储器分区中的内存系统可以均采用UMA。

在上述情形下，如果需要从内存系统移动8M数据至L2高速缓存时，实际上是需要在各存储器分区内完成1兆数据的搬移。此时，处理内核一方面，可以向上述采用UMA的4个存储器分区中的DMA控制器广播发送数据搬移指令；另一方面，可以向未采用UMA的4个存储器分区中的DMA控制器分别发送数据搬移指令。

上述各DMA控制器在接收到数据搬移指令后，可以从内存系统的上述数据搬移指令指示的存储位置提取1兆数据，并将上述1兆数据搬移至L2高速缓存的上述数据搬移指令指示的存储位置中，从而完成数据搬移。

由于处理内核可以向采用了UMA的多个存储器分区中的DMA控制器广播发送数据搬移指令来完成各存储器分区内部的数据搬移，因此，减少了处理内核对DMA控制器的调用次数，从而减少了对DMA控制器的调用开销。

在一实施例中，上述芯片包括的多个上述DMA控制器可以集中位于同一存储器分区中，并分别与各存储器分区中包括的内存系统与高速缓存系统一一对应。

此时，当需要通过该多个DMA控制器进行数据搬移时，可以通过向上述存储器分区中的多个DMA控制器广播发送数据搬移指令，从而完成各存储器分区中的不同存储空间之间的数据搬移。

以下介绍本申请对数据搬移指令的改进。在本申请中，为了进一步缩减对DMA控制器的调用开销，提出了一种全新格式的对DMA控制器的数据搬移指令。该数据搬移指令通过减少数据搬移指令字段数量，并合理的设置各字段指示的含义，从而缩减了数据搬移指令的长度，减少了对DMA控制器的调用开销。

在相关技术中，对DMA控制器的数据搬移指令包括6个字段，分别为数据搬移类型字段，数据长度字段，最后一级高速缓存低地址字段，最后一级高速缓存高地址字段，内存系统低地址字段，以及内存系统高地址字段。

由此可见，相关技术中的数据搬移指令比较冗长，当对DMA控制器进行调用时，需要对DMA控制器发送较长的数据搬移指令，从而增加对DMA控制器的调用开销。

为了解决这一问题，在一实施例中，上述数据搬移指令，至少可以包括数据搬移类型、数据长度，源存储地址，以及目的存储地址。

上述数据搬移类型，具体指示数据搬移方向。在一实施例中，上述数据搬移类型可以指示存储器分区中的数据流向。具体地，上述数据流向(数据搬移类型)可以包括以下四种中的任一：

上述存储器分区中的高速缓存系统内部数据的搬移，上述存储器分区中的内存系统内部数据的搬移，从上述存储器分区中最后一级高速缓存向内存系统的数据搬移，以及从上述存储器分区中内存系统向最后一级高速缓存的数据搬移。

在实际应用中，可以通过将上述四种数据流向与四种标识对应，并在实际调用DMA控制器时，将上述四种标识写入上述数据搬移类型，以使DMA控制器可以识别此次数据搬移的数据流向。

上述数据长度，具体指示需要传输的数据量大小。可以理解的是，数据量大小与存储空间具有对应关系，因此，如果知道该数据在存储空间中的起始位置，依据该数据的数据长度，可以得到该数据在存储空间中的终止位置。

上述源存储地址，具体是指待搬移数据当前存储位置的起始地址。例如，如果数据从内存系统搬移至最后一级高速缓存，则上述源存储地址为数据在上述内存系统中的起始位置。

上述目的存储地址，具体是指待搬移数据需要被搬移后的存储位置的起始地址。例如，如果数据从内存系统搬移至最后一级高速缓存，则上述目的存储地址为数据被搬移至上述最后一级高速缓存中的起始位置。

可以理解的是，当DMA控制器接收到数据搬移指令后，一方面，可以根据上述数据搬移指令中的源存储地址字段和数据长度确定源存储空间；另一方面，可以根据上述数据搬移指令中的目的存储地址字段和数据长度确定目的存储空间；再一方面，可以根据上述数据搬移指令中的数据搬移类型，将源存储空间的数据搬移至目的存储空间。

请参见图5，图5为本申请示出的一种数据搬移指令的示意图。如图5所示，上述数据搬移指令包括第一字段、第二字段、第三字段以及第四字段；

其中，上述第一字段为指示数据搬移类型和数据长度的字段；

上述第二字段为指示源存储地址的低地址的字段；

上述第三字段为指示源存储地址的高地址和目的存储地址的高地址的字段；

上述第四字段为指示目的存储地址的低地址的字段。

在此，需要说明的是，上述数据搬移指令中各字段的顺序，以及各字段中指示不同含义的数据位的位置可以根据实际情形进行调整，在此不作限定。

假设0000(二进制)指示数据在高速缓存系统内部搬移，0001(二进制)指示数据在内存系统内部搬移，0010(二进制)指示数据从内存系统搬移至最后一级高速缓存，0011(二进制)指示数据从最后一级高速缓存搬移至内存系统。

在上述情形下，假设从内存系统的低地址0x3EAB_0000(16进制)，高地址0xAB_00(16进制)，搬移2兆的数据至最后一级高速缓存的低地址0x3E5B_0000(16进制)，高地址0xCD_00(16进制)。

此时，芯片的处理内核在构造对DMA控制器的数据搬移指令时，可以将0010写入第一字段的前4位，将2兆转换二进制写入上述第一字段的后28位。然后上述处理内核可以将上述内存系统的低地址0x3EAB_0000转换为二进制写入上述第二字段，并将上述内存系统的高地址0xAB_00转换为二进制写入上述第三字段的后十六位。最后，上述处理内核可以将上述最后一级高速缓存的高地址0xCD_00写入上述第三字段的前十六位，并将上述最后一级高速缓存的低地址0x3E5B_0000转换为二进制写入上述第四字段。

当上述处理内核完成上述数据搬移指令的构造后，可以将该数据搬移指令广播发送至各DMA控制器，以使各DMA控制器响应于上述数据搬移指令，从上述内存系统的低地址0x3EAB_0000，高地址0xAB_00，搬移2兆的数据至上述最后一级高速缓存的低地址0x3E5B_0000，高地址0xCD_00。

由上可知，由于上述数据搬移指令，至少可以包括数据搬移类型和数据长度字段，源存储地址字段，以及目的存储地址字段，因此，在对DMA控制器进行调用时，可以减少对DMA控制器的调用开销。

在一实施例中，可以采用对相关技术中示出的数据搬移指令中6个字段的进行合并，从而减少数据搬移指令包括的字段数量。

在实际应用中，由于数据搬移类型所需位数较少，占用一个字段(32位)有些浪费，因此可以将数据搬移类型与数据长度合并为一个字段。而由于最后一级高速缓存通常总容量较小(例如，几兆)，因此，可以将最后一级高速缓存低地址字段和高地址字段合并为一个字段。

请参见图6，图6为本申请示出的一种数据搬移指令示意图。如图6所示，上述数据搬移指令至少包括第一字段、第二字段、第三字段以及第四字段；

上述第二字段为指示最后一级高速缓存的存储地址的字段；

上述第三字段为指示内存系统的低地址字段；

上述第四字段为指示内存系统的高地址字段。

需要说明的是，一方面，上述数据搬移指令中各字段的顺序，以及各字段中指示不同含义的数据位的位置可以根据实际情形进行调整，在此不作限定。

上述第一字段指示的含义可参照前述实施例，在此不作详述。

上述第二字段指示最后一级高速缓存的存储空间的起始地址。当第一字段指示数据从最后一级高速缓存搬移至内存系统时，上述第二字段指示的存储地址为数据当前存储位置的起始位置。当第一字段指示数据从内存系统搬移至最后一级高速缓存时，上述第二字段指示的存储地址为数据被搬移后的存储位置的起始位置。

上述第三字段以及上述第四字段指示的含义可以参照前述实施例，在此不作详述。

由上可知，由于上述数据搬移指令只包括四个字段，因此，在对DMA控制器进行调用时，可以减少了对DMA控制器的调用开销。

相应的，本申请还提出一种数据搬移方法，应用于芯片。该方法通过由处理内核向存储器分区内置的DMA控制器下发数据搬移指令，以使上述DMA控制器可以响应于上述处理内核发出的数据搬移指令，使需要搬移的数据可以在上述存储器分区内部完成搬移，从而释放该芯片内部的访存带宽，提升数据搬移效率，提示芯片性能。

请参见图7，图7为本申请示出的一种数据搬移方法的方法流程图，应用于芯片。如图7所示，上述方法可以包括：

S702，上述处理内核向上述DMA控制器发送数据搬移指令。

S704，上述DMA控制器基于上述数据搬移指令，进行上述存储器分区内部的不同存储空间之间的数据搬移。

上述芯片，可以是具有上述任一实施例示出的芯片结构的芯片。在一实施例中，上述芯片可以采用如图2示出的芯片结构。如图2所示，上述芯片包括至少一个处理内核；至少一个存储器分区。其中，上述存储器分区包括高速缓存系统、内存系统和DMA控制器。其中，上述DMA控制器与上述高速缓存系统，以及内存系统分别连接。

需要说明的是，在实际应用中，上述存储器分区中可以包括具有一级或多级高速缓存的高速缓存系统、至少一内存系统，以及一个或多个DMA控制器，在此不作特别限定。

在一实施例中，上述芯片可以执行人工智能算法。例如，上述芯片可以是AI神经网络芯片或GPU图形处理芯片。

上述处理内核，通常为芯片中的计算核心，用于执行代码运算。例如，上述处理内核通常可以依据开发人员制定的程序代码，在上述存储器分区中进行数据搬移。

上述存储器分区，通常用于存储数据。

例如，请参见图2，上述高速缓存系统可以至少包括L1、L2和L3高速缓存。此时，处理内核需要获取数据时，通常先访问L1高速缓存。如果该L1高速缓存中存储有上述处理内核需要的数据，则上述处理内核完成此次数据获取。如果该L1高速缓存中没有存储上述处理内核需要的数据，上述处理内核则继续访问上述L2高速缓存以获取需要的数据。以此类推。如果上述最后一级高速缓存即L3高速缓存中也不涉及处理内核需要的数据时，上述处理内核则继续从上述内存系统中获取数据。

当高速缓存系统的至少一部分存储空间被配置为SPM时，会影响这部分存储空间的数据搬移效率。在一实施例中，为了提升数据搬移效率，最后一级高速缓存的至少一部分存储空间被配置为SPM。

上述内存系统，可以是全局内存系统。例如，可以是DRAM，SDRAM等等。

在一实施例中，为了提升访存带宽，上述全局内存系统可以是HBM。

上述DMA控制器，用于进行上述存储器分区内部的不同存储空间之间的数据搬移。

上述数据搬移指令，具体用于触发上述存储器分区内部的存储空间之间的数据搬移。

在本申请中，上述数据搬移指令可以由芯片的处理内核构造并发送至DMA控制器，以使DMA控制器控制完成数据搬移。

当上述存储器分区内部的存储空间之间需要进行数据搬移时，上述处理内核向上述DMA控制器发送数据搬移指令。

上述DMA控制器在接收到上述数据搬移指令后，可以响应于上述数据搬移指令，控制上述存储器分区内部的存储空间之间的数据搬移。

由上述技术方案可知，由于上述处理内核向上述DMA控制器发送数据搬移指令，上述DMA控制器可以响应于上述数据搬移指令，控制上述存储器分区中不同的存储空间之间的数据搬移，因此，可以使需要搬移的数据在上述存储器分区内部完成搬移，从而释放该芯片内部的访存带宽，提示数据搬移效率，提升芯片性能。

在一实施例中，上述芯片可能包括多个存储器分区，为了在各存储器分区内完成数据迁移，上述处理内核可以向上述多个存储器分区中的DMA控制器分别发送数据搬移指令，以使各DMA控制器可以控制自身所处的存储器分区内部的数据搬移。

例如，假设芯片包括4个存储器分区。假设有数据需要从内存系统移动至最后一级高速缓存，由于芯片中存在4个存储器分区，因此，上述处理内核可以向上述4个存储器分区中的DMA控制器分别发送数据搬移指令。当上述4个存储器分区中的DMA控制器接收到数据搬移指令后，可以控制自身所处的存储器分区内部的数据搬移。

在一实施例中，当上述芯片包括多个存储器分区时，为了方便开发人员编写程序，上述多个存储器分区均采用UMA。

为了方便开发人员编写程序，上述多个存储器分区中的最后一级高速缓存，以及上述多个存储器分区中的内存系统可以均采用UMA。

为了减小对DMA控制器的调用开销，上述处理内核，用于向上述至少一个存储器分区中的至少一个DMA控制器广播数据搬移指令。

例如，假设芯片包括4个存储器分区，并且上述4个存储器分区中的最后一级高速缓存(假设，最后一级高速缓存为L2高速缓存)，以及上述多个存储器分区中的内存系统可以均采用UMA。

在上述情形下，如果需要从内存系统移动8M数据至L2高速缓存时，实际上是需要在各存储器分区内完成2兆数据的搬移。此时，处理内核可以向上述多个存储器分区中的DMA控制器广播发送数据搬移指令。

上述4个存储器分区中的DMA控制器在接收到数据搬移指令后，可以从内存系统的上述数据搬移指令指示的存储位置提取2兆数据，并将上述2兆数据搬移至L2高速缓存的上述数据搬移指令指示的存储位置中，从而完成数据搬移。

由于处理内核可以向上述4个存储器分区中的DMA控制器广播发送数据搬移指令来完成各存储器分区内部的数据搬移，因此，减少了处理内核对DMA控制器的调用次数，从而减少了对DMA控制器的调用开销。

在实际应用中，可以通过将上述四种数据流向与四种标识对应，并在实际调用 DMA控制器时，将上述四种标识写入上述数据搬移类型，以使DMA控制器可以识别此次数据搬移的数据流向。

上述第二字段为指示源存储地址的低地址的字段；

上述第四字段为指示目的存储地址的低地址的字段。

当上述处理内核完成上述数据搬移指令的构造后，可以将该数据搬移指令广播发送至各DMA控制器，以使各DMA控制器响应于上述数据搬移指令，从上述内存系统的低地址0x3EAB_0000，高地址0xAB_00，搬移2兆的数据至上述最后一级高速缓存系统的低地址0x3E5B_0000，高地址0xCD_00。

在实际应用中，由于数据搬移类型所需位数较少，占用一个字段(32位)有些浪费，因此可以将数据搬移类型与数据长度合并为一个字段。而由于最后一级高速缓存通常总容量较小(例如，几兆)，因此，可以将最后一级高速缓存低地址和高地址字段合并为一个字段。

上述第二字段为指示最后一级高速缓存的存储地址的字段；

上述第三字段为指示内存系统的低地址字段；

上述第四字段为指示内存系统的高地址字段。

本申请还提出一种电子设备，包括上述任一实施例示出的芯片。

例如，该电子设备可以是手机等智能终端，或者是具有摄像头并可以进行图像处理的其他设备。示例性的，当该电子设备获取到采集的图像时，可以对图像进行处理，处理过程就可以采用本申请实施例的芯片来执行计算任务。

由于上述芯片可以提升存储器分区的数据搬移效率，具有更高的性能，因此，使用该芯片可以辅助提高计算任务的处理效率，从而提升电子设备性能。

本领域技术人员应明白，本申请一个或多个实施例可提供为方法、系统或计算机程序产品。因此，本申请一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、光学存储器等)上实施的计算机程序产品的形式。

本申请中记载的“和/或”表示至少具有两者中的其中一个，例如，“A和/或B”包括三种方案：A、B、以及“A和B”。

本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于数据处理设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的行为或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本申请中描述的主题及功能操作的实施例可以在以下中实现：数字电子电路、有形体现的计算机软件或固件、包括本申请中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本申请中描述的主题的实施例可以实现为一个或多个计算机程序，即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地，程序指令可以被编码在人工生成的传播信号上，例如机器生成的电、光或电磁信号，该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。

本申请中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行，以通过根据输入数据进行操作并生成输出来执行相应的功能。上述处理及逻辑流程还可以由专用逻辑电路—例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)来执行，并且装置也可以实现为专用逻辑电路。

适合用于执行计算机程序的计算机包括，例如通用和/或专用微处理器，或任何其他类型的中央处理系统。通常，中央处理系统将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理系统以及用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘等，或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据，抑或两种情况兼而有之。然而，计算机不是必须具有这样的设备。此外，计算机可以嵌入在另一设备中，例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏操纵台、全球定位系统(GPS)接收机、或例如通用串行总线(USB)闪存驱动器的便携式存储设备，仅举几例。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备，例如包括半导体存储器设备(例如EPROM、EEPROM和闪存设备)、磁盘(例如内部硬盘或可移动盘)、磁光盘以及0xCD_00ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。

虽然本申请包含许多具体实施细节，但是这些不应被解释为限制任何公开的范围或所要求保护的范围，而是主要用于描述特定公开的具体实施例的特征。本申请内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面，在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外，虽然特征可以如上上述在某些组合中起作用并且甚至最初如此要求保护，但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除，并且所要求保护的组合可以指向子组合或子组合的变型。

类似地，虽然在附图中以特定顺序描绘了操作，但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离，并且应当理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中，或者封装成多个软件产品。

由此，主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下，权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外，附图中描绘的处理并非必需所示的特定顺序或顺次顺序，以实现期望的结果。在某些实现中，多任务和并行处理可能是有利的。

以上上述仅为本申请一个或多个实施例的较佳实施例而已，并不用以限制本申请一个或多个实施例，凡在本申请一个或多个实施例的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请一个或多个实施例保护的范围之内。

Claims

一种芯片，包括：

至少一个处理内核和至少一个存储器分区；

其中，对于每个存储器分区：

所述存储器分区包括高速缓存系统、内存系统，以及直接存储器访问DMA控制器；

所述DMA控制器，与所述高速缓存系统以及所述内存系统分别连接，用于进行所述存储器分区内部的不同存储空间之间的数据搬移。
根据权利要求1所述的芯片，其特征在于，所述DMA控制器用于进行所述存储器分区内部的不同存储空间之间的数据搬移包括用于进行下列中的至少一种：

所述高速缓存系统的不同存储空间之间的数据搬移；

所述内存系统内的不同存储空间之间的数据搬移；

所述高速缓存系统的存储空间与所述内存系统内的存储空间之间的数据搬移。
根据权利要求2所述的芯片，其特征在于，所述高速缓存系统包括多级高速缓存；

所述DMA控制器用于进行所述高速缓存系统的存储空间与所述内存系统内的存储空间之间的数据搬移包括所述DMA控制器用于进行最后一级高速缓存的存储空间与所述内存系统内的存储空间之间的数据搬移。
根据权利要求3中所述的芯片，其特征在于，所述最后一级高速缓存支持三种工作模式，其中，

在第一工作模式中，所述最后一级高速缓存的全部存储空间被配置为高速缓存存储器，

在第二工作模式中，所述最后一级高速缓存的全部存储空间被配置为便笺存储器SPM，

在第三工作模式中，所述最后一级高速缓存的一部分存储空间被配置为高速缓存存储器，另一部分存储空间被配置为SPM。
根据权利要求4所述的芯片，其特征在于，所述存储器分区还包括模式配置器，所述模式配置器用于基于用户配置信息，配置所述最后一级高速缓存的工作模式。
根据权利要求1至5中任一项所述的芯片，其特征在于，所述至少一个处理内核与所述DMA控制器通过主片上网络互相访问；或

所述DMA控制器、所述高速缓存系统以及所述内存系统之间通过子片上网络互相访问。
根据权利要求1-6任一所述的芯片，其特征在于，所述存储器分区中的不同存储空间全部或部分采用统一内存架构UMA。
根据权利要求1至7任一所述的芯片，其特征在于，

所述至少一个处理内核中的第一处理内核用于向至少一个第一DMA控制器发送数据搬移指令，其中，所述至少一个第一DMA控制器包括在至少一个第一存储器分区中；

所述至少一个第一DMA控制器，用于基于所述数据搬移指令，进行所述至少一个第一存储器分区内部的不同存储空间之间的数据搬移。
根据权利要求8所述的芯片，其特征在于，所述第一处理内核用于向所述至少一个第一DMA控制器发送数据搬移指令包括，所述第一处理内核用于向至少一个第二DMA控制器广播数据搬移指令，其中所述第二DMA控制器包括在所述不同存储空间全部采用UMA的第一存储器分区中。
根据权利要求8或9所述的芯片，其特征在于，所述数据搬移指令包括：数据搬移类型、数据长度、源存储地址、以及目的存储地址。
根据权利要求10所述的芯片，其特征在于，所述数据搬移指令包括第一字段、第二字段、第三字段以及第四字段；

其中，所述第一字段用于指示所述数据搬移类型和所述数据长度；

所述第二字段用于指示所述源存储地址的低地址；

所述第三字段用于指示所述源存储地址的高地址以及所述目的存储地址的高地址；

所述第四字段用于指示所述目的存储地址的低地址。
根据权利要求1-11任一所述的芯片，其特征在于，所述DMA控制器用于进行所述存储器分区内部的不同存储空间之间的数据搬移包括用于：

从所述存储器分区内的第一存储空间读取数据，并将读取到的数据写入所述存储器分区内的第二存储空间。
根据权利要求1-12任一所述的芯片，其特征在于，所述内存系统为高带宽存储器HBM。
一种数据搬移方法，应用于芯片，其中所述芯片包括至少一个处理内核和至少一个存储器分区，每个存储器分区包括高速缓存系统、内存系统、以及直接存储器访问DMA控制器；

所述方法包括：对于每个存储器分区，

通过所述DMA控制器进行所述存储器分区内部的不同存储空间之间的数据搬移。
根据权利要求14所述的方法，其特征在于，所述高速缓存系统包括多级高速缓存；

所述通过所述DMA控制器进行所述存储器分区内部的不同存储空间之间的数据搬移，包括：

通过所述DMA控制器进行最后一级高速缓存的存储空间与所述内存系统内的存储空间之间的数据搬移。
根据权利要求15所述的方法，其特征在于，所述方法还包括：

基于用户配置信息配置所述最后一级高速缓存的工作模式。
根据权利要求14至16任一所述的方法，其特征在于，所述通过所述DMA控制器进行所述存储器分区内部的不同存储空间之间的数据搬移，包括：

通过所述至少一个处理内核中的第一处理内核向至少一个第一DMA控制器发送数据搬移指令，其中，所述至少一个第一DMA控制器包括在至少一个第一存储器分区中；

所述至少一个第一DMA控制器，基于所述数据搬移指令，进行所述至少一个第一存储器分区内部的不同存储空间之间的数据搬移。
根据权利要求17所述的方法，其特征在于，所述通过所述第一处理内核向所述至少一个第一DMA控制器发送所述数据搬移指令，包括：

通过所述第一处理内核向至少一个第二DMA控制器广播数据搬移指令，其中所述第二DMA控制器包括在所述不同存储空间全部采用统一内存架构UMA的第一存储器分区中。
根据权利要求14-18任一所述的方法，其特征在于，所述通过所述DMA控制器进行所述存储器分区内部的不同存储空间之间的数据搬移，包括：

通过所述DMA控制器从所述存储器分区内的第一存储空间读取数据，并将读取到的数据写入所述存储器分区内的第二存储空间。
一种电子设备，包括：权利要求1至13任一所述的芯片。