WO2022068328A1

WO2022068328A1 - 数据迁移的方法、装置、处理器和计算设备

Info

Publication number: WO2022068328A1
Application number: PCT/CN2021/106966
Authority: WO
Inventors: 侯新宇; 李涛; 俞立呈; 刘昊程
Original assignee: 华为技术有限公司
Priority date: 2020-09-30
Filing date: 2021-07-17
Publication date: 2022-04-07
Also published as: CN114327244A

Abstract

一种数据迁移的方法。该方法由处理器中的数据迁移单元执行，包括：获取待迁移矩阵的存储位置，待迁移矩阵以第一存储方式存储（201），读取所述待迁移矩阵中元素（202），按照第二存储方式存储待迁移矩阵的元素，第二存储方式是与第一存储方式不同的存储方式（203）。在执行矩阵乘法时，处理器中数据迁移单元可以连续读取矩阵的一行或者一列的元素，无需外部设备以及频繁访问内存，整体计算效率更高。

Description

数据迁移的方法、装置、处理器和计算设备

技术领域

本申请涉及计算机领域，特别涉及一种数据迁移的方法、装置、处理器和计算设备。

背景技术

在机器学习技术，存在大量的矩阵乘法计算。矩阵乘法是将第一个矩阵的行元素与第二个矩阵的列元素对应相乘。在内存中通常对于矩阵采用列存储或者行存储中的一种。行存储，即对矩阵中属于同一行的元素连续存储，列存储，即对矩阵中属于同一列的元素连续存储。处理器在执行矩阵乘法时，需要连续读取乘号左侧矩阵的行元素和乘号右侧的列元素。由于传统技术中利用内存存储矩阵，执行矩阵乘的过程中处理器需要频繁访问内存，并将矩阵乘的过程数据也存储至内存，处理器和内存的频繁交互导致矩阵乘的过程耗时长、效率低，因此，如何提供一种高效的数据迁移方法成为亟待解决的技术问题。

发明内容

本申请提供一种数据迁移的方法、装置、处理器和计算设备，以此提升数据迁移方法的效率。

第一方面，提供了一种数据迁移的方法，该方法由处理器中的数据迁移单元执行，该方法包括获取待迁移矩阵的存储位置，待迁移矩阵以第一存储方式存储，读取所述待迁移矩阵中元素，按照第二存储方式存储待迁移矩阵的元素，第二存储方式是与第一存储方式不同的存储方式。

在上述方案中，获取待迁移矩阵的存储位置可以为获取待迁移矩阵的源存储地址，即待迁移矩阵进行迁移前，第一个元素的存储地址。还可以获取目的存储地址为待迁移矩阵迁移后，第一个元素的存储地址。还可以获取尺寸信息可以包括待迁移矩阵的行数和列数这两个信息。待迁移矩阵为需要进行迁移以改变存储方式的矩阵。在内存中矩阵以行存储的方式进行存储的情况下，在需要相乘的两矩阵中，因为乘号右侧的矩阵需要对列元素进行连续读取，所以该矩阵为待迁移矩阵，需要对该矩阵进行迁移，使得其存储方式由行存储变为列存储。在内存中矩阵以列存储的方式进行存储的情况下，在需要相乘的两矩阵中，因为乘号左侧的矩阵需要对行元素进行连续读取，所以该矩阵为待迁移矩阵，需要对该矩阵进行迁移，使得其存储方式由列存储变为行存储。本申请可以通过数据迁移单元实现矩阵的迁移过程，无需借助处理器以外的设备和存储空间，数据读取和处理速度更快。

数据迁移单元可以向处理器的内部总线发送多个读请求，每个读请求用于读取待迁移矩阵中的一行或者一列的元素。然后，将获取到的元素按照第二存储方式进行存储。整个过程由处理器内部的数据迁移单元实现，可以将乘号左侧矩阵作为待迁移矩阵转换为列存储的存储方式，或者将乘号右侧矩阵作为待迁移矩阵转换为行存储的存储方式，使得在计算矩阵乘时，可以连续获取一行或者一列元素进行相乘并累加，无需频繁访问内存，有效提高了计算效率。

在一种可能的实现方式中，第一存储方式和第二存储方式分别包括列存储方式和行存储方式。

在本申请所示的方案中，即可以将以行存储的方式存储的待迁移矩阵进行迁移，以转换存储方式，还可以将以列存储的方式存储的待迁移矩阵进行迁移，以转换存储方式。

在一种可能的实现方式中，所述获取待迁移矩阵的源存储地址、目的存储地址和尺寸信息之前，所述方法还包括：获取数据迁移指令，其中，数据迁移指令中携带有第一寄存器标识、第二寄存器标识和第三寄存器标识，其中，第一寄存器标识用于指示存储待迁移矩阵的源存储地址的第一寄存器、第二寄存器标识用于指示存储待迁移矩阵的目的存储地址的第二寄存器和所述第三寄存器标识用于指示存储待迁移矩阵的尺寸信息的寄存器。

则获取待迁移矩阵的源存储地址、目的存储地址和尺寸信息，包括：向第一寄存器获取所述待迁移矩阵的源存储地址，向第二寄存器获取待迁移矩阵的目的存储地址，向所述第三寄存器获取所述待迁移矩阵的尺寸信息。

在本申请所示的方案中，处理器在执行矩阵乘法之前，可以在内存中获取待迁移矩阵的源存储地址和尺寸信息，并申请内存空间存储迁移后的矩阵，申请的内存空间的首地址即为上述目的存储地址。

然后，处理器将源存储地址写入一个寄存器中，将目的存储地址写入一个寄存器中，将尺寸信息写入一个寄存器中。处理器可以生成数据迁移指令，该数据迁移指令中携带第一寄存器标识、第二寄存器标识和第三寄存器标识。此处，寄存器标识可以为寄存器编号。

处理器将生成的数据迁移指令存储在内存中，取指单元获取存储在内存中的数据迁移指令。取指单元获取到数据迁移指令后，将该数据迁移指令发送至译码单元。译码单元对接收到的数据迁移指令进行译码后发送至数据迁移单元。

数据迁移单元获取数据迁移指令中携带的第一寄存器标识、第二寄存器标识和第三寄存器标识，并向第一寄存器标识所指示的寄存器获取待迁移矩阵的源存储地址，向第二寄存器标识所指示的寄存器获取待迁移矩阵的目的存储地址，向第三寄存器标识所指示的寄存器获取待迁移矩阵的尺寸信息。

在一种可能的实现方式中，所述第三寄存器还存储所述待存储矩阵的矩阵类型标识、矩阵类型标识和LDA。

向所述第三寄存器获取待迁移矩阵的尺寸信息，包括：向第三寄存器获取待迁移矩阵的尺寸信息、矩阵类型标识和LDA。则所述基于所述尺寸信息和源存储地址，读取第一存储方式存储的待迁移矩阵，包括：基于尺寸信息、矩阵类型标识、LDA和源存储地址，读取第一存储方式存储的待迁移矩阵。

在本申请实施例所示的方案中，内存在存储矩阵时，可以设置有LDA，且对于一些类型的矩阵，可以进行压缩存储，因此，对于这些矩阵进行读取时，需要考虑到矩阵类型以及LDA。例如。矩阵类型可以包括普通矩阵、方阵、非压缩存储上三角矩阵、非压缩存储对角矩阵、压缩存储上三角矩阵、压缩存储下三角矩阵、压缩存储对角矩阵等。

在一种可能的实现方式中，在读取待迁移矩阵元素之前，将源存储地址作为待迁移矩阵中第一行的首个元素的地址或者第一列的首个元素的地址，并确定N-1个偏移值，N为待迁移矩阵的行数或列数；按照待迁移矩阵的行或列的首个元素的地址和偏移地址分别逐行或逐列读取所述待迁移矩阵中元素。其中，偏移地址用于指示以行或列的首个元素的地址为准，偏移的位置，具体可以根据预设的每行或每列元素的大小计算获得。也就是说，根据行或列的首个元素的地址、矩阵的尺寸信息和预设的每个元素的大小，可以逐个确定行或列中各个元素的位置。通过上述过程，数据迁移单元可以一次读取待迁移矩阵整行或整列或整个矩阵的数据，避免逐个读取过程所带来的频繁访问内存的问题，读取效率更高。

在一种可能的实现方式中，读取待迁移矩阵中元素之前，方法还包括：在第一存储方式为行存储时，将源存储地址作为读取所述待迁移矩阵中的第一行的首个元素的地址，根据尺寸信息、矩阵类型标识和LDA，确定N-1个偏移值，N为待迁移矩阵的行数。再根据每i个偏移值和源存储地址，确定读取待迁移矩阵中的第i行的元素时的首地址，i为大于0小于N的正整数。在第一存储方式为列存储时，将源存储地址作为读取待迁移矩阵中的第一列的元素时的首地址。根据尺寸信息、矩阵类型标识和LDA，确定N-1个偏移值，N为待迁移矩阵的列数。根据每i个偏移值和源存储地址，确定读取待迁移矩阵中的第i+1列的元素时的首地址，i为大于0小于N的正整数。则读取所述待迁移矩阵中元素，包括：向处理器的内部总线发送N个读请求，每个读请求携带一个首地址，其中，每个读请求用于读取所述待迁移矩阵中一行或者一列的元素。接收内部总线基于每个首地址返回的待迁移矩阵中的元素。可选地，也可以仅通过一个读请求读取整个矩阵的所有元素。

在本申请的方案中，数据迁移单元在读取一个存储方式的待迁移矩阵时，数据迁移单元可以根据尺寸信息、LDA、矩阵类型等确定出偏移值，进而确定出待迁移矩阵中每行的第一个待迁移元素对应的存储地址。同时，还可以确定出每行对应的读取字节数，即该行中待迁移元素的个数。在读取某一行中的待迁移元素时以确定出的该行的第一个待迁移元素对应的存储地址作为首地址进行读取，读取对应的读取字节数个元素。其中，每行中的第一个待迁移元素可以为每行中的第一个元素，每行中的全部元素均可以为待迁移元素。

通过本申请一个读请求可以逐行或逐列读取矩阵的各个元素，而不是一个读请求读取一个元素，提高待迁移矩阵的读取效率。

在一种可能的实现方式中，所述根据所述尺寸信息、所述矩阵类型标识和所述目的存储地址，以第二存储方式存储所述待迁移矩阵中的待迁移元素，包括：

根据尺寸信息、所述矩阵类型标识，在以目的存储地址为首地址的内存中，以第二存储方式存储所述待迁移矩阵中的待迁移元素，并在对应的处理器的缓存中以第二存储方式存储待迁移矩阵中的待迁移元素。

在本申请实施例所示的方案中，目的存储地址为内存地址，将读取的元素存储在内存中之前可以先存储至内存地址对应的缓存中。缓存可以为处理器的高速缓存(cache)。这样，在进行矩阵乘法时，可以直接在缓存中读取数据，读取速度较快。

第二方面，提供了一种数据迁移的装置，该装置包括用于执行第一方面或第一方面任一种可能实现方式中的数据迁移方法的各个模块

第三方面，提供了一种处理器，所述处理器包括数据迁移单元，所述数据迁移单元用于执行第一方面或第一方面任一种可能实现方式中的数据迁移方法。

第四方面，提供了一种计算设备，所述计算设备包括处理器，处理器中包括数据迁移单元，所述数据迁移单元用于执行第一方面或第一方面任一种可能实现方式中的数据迁移方法。

本申请实施例提供的技术方案带来的有益效果是：

数据迁移单元可以获取待迁移矩阵的存储位置并在该存储位置读取待迁移矩阵的元素，且在迁移之前待迁移矩阵以第一存储方式。然后，数据迁移单元按照第二存储方式存储待迁移矩阵的元素，第二存储方式是与第一存储方式不同的存储方式。采用本申请的技术方案，可以将乘号左侧矩阵作为待迁移矩阵转换为列存储的存储方式，或者将乘号右侧矩阵作为待迁移矩阵转换为行存储的存储方式，使得在计算矩阵乘时，处理器中数据迁移单元可以连续获取一行或者一列元素进行相乘并累加，无需利用其它外部设备频繁访问内存，有效提高了计算效率。

附图说明

图1是本申请实施例提供的一种处理器的结构示意图；

图2是本申请实施例提供的一种数据迁移的方法流程图；

图3是本申请实施例提供的一种数据迁移指令的格式示意图；

图4是本申请实施例提供的一种寄存器存储格式的示意图；

图5是本申请实施例提供的一种数据迁移的装置结构示意图；

图6是本申请实施例提供的一种计算设备的结构示意图。

具体实施方式

为了便于理解本申请实施例提供的技术方案，下面先对几种常见的矩阵以及矩阵乘法的规则进行介绍。

方阵：

如下所示，每行的元素个数和每列的元素相等的矩阵，即可以称为方阵。

对角矩阵：

如下所示，除对角线上的元素以外，其余所有元素均为0的方阵，即可以称为对角矩阵。

对角矩阵按照存储方式又可以包括非压缩存储对角矩阵和压缩存储对角矩阵，其中，压缩存储对角矩阵即存储该矩阵时对于除对角线上的元素外，其余所有元素均不存储，非压缩存储对角矩阵即完整存储全部元素。

上三角矩阵：

如下所示，对角线以下的元素均为0的方阵，即可以称为上三角矩阵。

上三角矩阵按照存储方式又可以包括非压缩存储上三角矩阵和压缩存储上三角矩阵两种类型，其中，压缩存储上三角矩阵即存储时对于对角线以下的0元素不存储，非压缩上三角存储矩阵即完整存储全部元素。

下三角矩阵：

如下所示，对角线以上的元素均为0的方阵，即可以称为下三角矩阵。

下三角矩阵按照存储方式又可以包括非压缩存储下三角矩阵和压缩存储下三角矩阵两种类型，其中，压缩存储下三角矩阵即存储时对于对角线以上的0元素不存储，非压缩下三角存储矩阵即完整存储全部元素。

矩阵乘法规则：

矩阵A的列数等于矩阵B的行数时，两矩阵可以相乘；两矩阵相乘得到的矩阵C的行数等于矩阵A的行数，矩阵C的列数等于矩阵B的列数；矩阵C的第m行第n列的元素等于矩阵A的第m行的元素与矩阵B的第n列对应的元素乘积之和。示例如下：

下面结合附图进一步介绍本申请提供的数据迁移方法。

图1为本申请实施例提供的一种处理器100的结构示意图如图1所示，处理器100包括取指单元(fetch)10、译码单元(decode)20、乱序发送单元(issue)30和数据迁移单元40。其中，取址单元10和译码单元20连接，译码单元20和乱序发送单元30连接，数据迁移单元40和乱序发送单元30连接。

此外，在处理器100中还可以包括高速缓存(cache)50以及其他处理单元60，其中，高速缓存50和数据迁移单元40连接，其中，处理单元60可以和乱序发送单元30连接。取指单元10可以获取指令，并将获取的指令发送至译码单元20，译码单元20对接收到的指令进行译码，并将译码后的指令发送给处理单元。如，指令可以为数据迁移指令，处理单元为的数据迁移单元40。另外，在处理器100中还可以包括多个寄存器70，根据处理器的位数不同，包括的寄存器的数量也可以不同，本申请实施例中对于处理器100包括的寄存器70的具体数量不做限定。寄存器70可以与上述数据迁移单元40连接。寄存器70可以用于存储数据(例如，待迁移矩阵的存储位置以及尺寸信息等参数)

此外，在处理器100还可以与处理器1001外部的内存200相连。其中，内存200可以和上述高速缓存单元50连接，内存200存储的数据(例如，待迁移矩阵)可以先由高速缓存单元50进行缓存。

数据迁移单元40在接收到译码后的数据迁移指令后，可以向内存200获取待迁移矩阵进行迁移，使该矩阵的存储方式由迁移前的行存储变为迁移后的列存储，或者由迁移前的列存储变为迁移后的行存储。

乱序发送单元30，用于接收译码单元20译码后发送的指令，并将指令发送至相应的处理单元进行处理，处理单元可以为上述数据迁移单元40或者其他处理单元60。

需要说明的是，上述数据迁移单元是本申请中所定义的一个硬件单元，对于其名称本申请实施例不做限定。

本申请实施例提供了一种数据迁移的方法，该方法可以由处理器中的数据迁移单元实现。如图2所示，本申请实施例提供的一种数据迁移的方法的流程可以包括如下步骤：

步骤201、获取待迁移矩阵的存储位置，待迁移矩阵以第一存储方式存储。

待迁移矩阵为需要进行迁移以改变存储方式的矩阵，该矩阵通常存储在内存的连续存储区域中。当内存中矩阵以行存储的方式进行存储时，在需要执行两矩阵相乘运算时，由于两矩阵相乘的过程是以乘号左侧矩阵的行元素和乘号右侧矩阵的列元素进行乘操作，因此需要将乘号右侧的矩阵转换为以列存储的方式存储的形式。也就是说，乘号右侧的矩阵为待迁移矩阵。当内存中矩阵以列存储时，基于类似的理由，需要将乘号左侧的矩阵转换为以行存储的方式存储的形式，以此完成两矩阵相乘操作。

值得说明的是，矩阵存储形式的转换过程需要利用新的存储空间存储转换后的矩阵，因此，也可以将上述矩阵以行或列形式存储方式称为矩阵数据的迁移过程，为了便于描述，以下实施例中以矩阵数据迁移为例进行描述。

数据迁移单元获取待迁移矩阵的存储位置，可以为获取待迁移矩阵的源存储地址，即待迁移矩阵进行迁移前，第一个元素的存储地址。

此外，还可以获取目的存储地址，该目的存储地址为待迁移矩阵迁移后，第一个元素的存储地址。第一个元素是指位于待迁移矩阵的第一行第一列的元素。

还可以获取待迁移矩阵的尺寸信息，尺寸信息可以包括待迁移矩阵的行数和列数，也就是说，尺寸信息用于指示待迁移矩阵的大小。

具体的，处理器在执行矩阵乘法之前，可以在内存中获取待迁移矩阵的源存储地址和尺寸信息，并在内存中申请用于存储迁移后的数据的存储空间，申请的存储空间的首地址即为上述目的存储地址。然后，处理器将源存储地址写入一个寄存器中，将目的存储地址写入一个寄存器中，将尺寸信息写入一个寄存器中。其中，上述寄存器可以对应图1中寄存器70，具体实施过程中，可以利用一个寄存器70分别存储上述源存储地址、目的存储地址和尺寸信息，也可以利用三个不同的寄存器70分别存储上述源存储地址、目的存储地址和尺寸信息。

然后，处理器中的处理单元可以调用编译器生成数据迁移指令，该数据迁移指令中携带第一寄存器标识、第二寄存器标识和第三寄存器标识。其中，第一寄存器标识用于指示存储待迁移矩阵的源存储地址的寄存器，第二寄存器标识用于指示存储所述待迁移矩阵的目的存储地址的寄存器，第三寄存器标识用于指示存储待迁移矩阵的尺寸信息的寄存器。此处，寄存器标识包括寄存器编号、地址中至少一种。

如图3所示，为一种可能的数据迁移指令的命令格式。其中，0-4字段为第二寄存器标识，5-9字段为第一寄存器标识，16-20字段为第三寄存器标识，其余字段为保留字段。

接下来，处理器将生成的数据迁移指令存储在内存中，取指单元获取存储在内存中的数据迁移指令。取指单元获取到数据迁移指令后，将该数据迁移指令发送至译码单元。译码单元对接收到的数据迁移指令进行译码后发送至数据迁移单元。数据迁移单元获取数据迁移指令中携带的第一寄存器标识、第二寄存器标识和第三寄存器标识，并向第一寄存器标识所指示的寄存器获取待迁移矩阵的源存储地址，向第二寄存器标识所指示的寄存器获取待迁移矩阵的目的存储地址，向第三寄存器标识所指示的寄存器获取待迁移矩阵的尺寸信息。

步骤202、读取待迁移矩阵的元素。

在读取待迁移矩阵元素之前，将源存储地址作为待迁移矩阵中第一行的首个元素的地址或者第一列的首个元素的地址，并确定N-1个偏移值，N为待迁移矩阵的行数或列数；按照待迁移矩阵的行或列的首个元素的地址和偏移地址分别逐行或逐列读取所述待迁移矩阵中元素。通过上述过程，数据迁移单元可以一次读取待迁移矩阵整行或整列的数据，避免逐个读取过程所带来的频繁访问内存的问题，读取效率更高。

在具体实施中，数据迁移单元可以生成读请求，并将读请求发送至处理器的内部总线，内部总线根据读请求从内存读取待迁移矩阵的元素并返回给数据迁移单元。其中，内部总线可以是处理器内部用于传输请求的总线，在此不做限定。

示例地，当每个元素所占用的存储空间相同，且读取一个存储方式为行存储且存储时相邻行之间没有数据间隔的m行n列的待迁移矩阵时，数据迁移单元可以根据该待迁移矩阵的源存储地址以及待迁移矩阵的尺寸信息中的列数(即待迁移矩阵中每行的元素个数)作为偏移值，确定出待迁移矩阵中每行的第一个待迁移元素对应的存储地址。同时，还可以确定出每行对应的读取字节数，即该行中待迁移元素的个数。在读取某一行中的待迁移元素时，以确定出的该行的第一个待迁移元素对应的存储地址作为首地址进行读取，读取对应的读取字节数个元素。其中，每行中的第一个待迁移元素可以为每行中的第一个元素，每行中的全部元素均可以为待迁移元素。

然后，数据迁移单元可以依次生成分别携带有上述首地址以及对应的读取字节数的m个读请求。第一个读请求用于读取待迁移矩阵中的第一行的待迁移元素，该第一个读请求中携带的首地址为该待迁移矩阵中的第一行的第一个待迁移元素的存储地址。以此类推，生成的第m个读请求，用于读取待迁移矩阵中的第m行的待迁移元素，该第m个读请求中携带的首地址为该待迁移矩阵中的第m行的第一个待迁移元素的存储地址。例如，第一个读请求中携带的首地址为X，读取字节数为Y，则该读请求用于从首地址X对应的存储位置存储的数据开始，连续读取Y个字节的数据，这Y个字节的数据即为第一行的Y个待迁移元素。

可选地，数据存储单元也可以仅生产一个读请求，该读请求用于逐行或逐列读取待迁移矩阵中元素。

数据迁移单元可以根据源存储地址、矩阵的尺寸信息和每个元素所占用的存储空间大小，确定N个首地址以及每个首地址对应的读取字节数。当第一存储方式为行存储时，N为待迁移矩阵的行数，第i个首地址指示待迁移矩阵中第i行元素中第一个待迁移元素的存储地址，当第一存储方式为行存储时，N为所述待迁移矩阵的列数，第i个首地址指示所述待迁移矩阵中第i列元素中第一个待迁移元素的存储地址，i为大于0小于等于N的正整数。

下面分别针对矩阵的存储方式为行存储和列存储时，以数据迁移单元针对每行或每列分别生成一个读请求为例，对读取待迁移矩阵的方法进行说明。

读取行存储的待迁移矩阵：

读取行存储的待迁移矩阵所需要的读请求数量与待迁移矩阵的行数相同，每个读请求读取待迁移矩阵的一行元素。

读取一个m行n列的待迁移矩阵，数据迁移单元可以生成并发送m个读请求。

第一个读请求，读取以源存储地址(src_addr)为首地址的n个元素；

第二个读请求，读取以src_addr+n为首地址的n个元素；

以此类推，第m个读请求，读取以src_addr+(m-1)n为首地址的n个元素。

读取列存储的待迁移矩阵：

读取列存储的待迁移矩阵所需要的读请求数量与待迁移矩阵的列数相同，每个读请求读取待迁移矩阵的一列元素。

读取一个m行n列的待迁移矩阵，数据迁移单元可以生成并发送n个读请求。

第一个读请求，读取以源存储地址(src_addr)为首地址的m个元素；

第二个读请求，读取以src_addr+m为首地址的n个元素；

以此类推，第n个读请求，读取以src_addr+(n-1)m为首地址的m个元素。

在一种可能的实现方式中，矩阵在内存中存储时，还可以设置矩阵主导维度(leading dimension of array，LDA)。以行存储方式存储的矩阵时，相邻行中在前行的最后一个元素与在后行的第一个元素之间相隔的字节数，与每行元素所占的字节数(元素个数)之和，即为该矩阵的LDA，同理，以列存储方式存储的矩阵时，相邻行中在前列的最后一个元素与在后列的第一个元素之间相隔的字节数，与每列的元素所占的字节数(元素个数)之和，即为该矩阵的LDA。该LDA可以被处理器获取，并与上述尺寸信息存储在同一寄存器中，数据迁移单元在获取尺寸信息时，可以同时获取到LDA。相应的，步骤202的处理可以如下：数据迁移单元根据LDA、尺寸信息和源存储地址，读取待迁移矩阵。

其中，LDA大于等于矩阵行数或者列数。例如，在矩阵为行存储时，LDA应大于等于矩阵的列数，在矩阵为列存储时，LDA应大于等于矩阵的的行数。

在设置有LDA的情况下，下面分别针对存储方式为行存储和列存储时，对读取待迁移矩阵的方法进行说明。

读取行存储的待迁移矩阵：

与未设置LDA时相同的是，读取行存储的待迁移矩阵所需要的读请求数量与待迁移矩阵的行数相同，每个读请求读取待迁移矩阵的一行中的待迁移元素。与未设置LDA时不同的是，确定首地址时首地址，需要考虑到LDA。

数据迁移单元根据待迁移矩阵的源存储地址以及每行对应的偏移值(本行之前每行对应的LDA之和)，确定出待迁移矩阵中每行的第一个待迁移元素对应的存储地址。同时，还可以确定出每行对应的读取字节数，即该行中待迁移元素的个数。在读取某一行中的待迁移元素时以确定出的该行的第一个待迁移元素对应的存储地址作为首地址进行读取，读取对应的读取字节数个元素。其中，每行中的第一个待迁移元素可以为该行中的第一个元素，每行中的全部元素均可以为待迁移元素。

读取一个m行n列，LDA为L的待迁移矩阵，数据迁移单元可以生成并发送m个读请求。

第二个读请求，读取以src_addr+L为首地址的n个元素；

以此类推，第m个读请求，读取以src_addr+(m-1)L为首地址的n个元素。

读取列存储待迁移矩阵：

数据迁移单元根据待迁移矩阵的源存储地址以及每列对应的偏移值(本列之前每列对应的LDA之和)，确定出待迁移矩阵中每列的第一个待迁移元素对应的存储地址。同时，还可以确定出每列对应的读取字节数，即该列中待迁移元素的个数。在读取某一列中的待迁移元素时以确定出的该列的第一个待迁移元素对应的存储地址作为首地址进行读取，读取对应的读取字节数个元素。其中，每列中的第一个待迁移元素可以为每列中的第一个元素，每行中的全部元素均可以为待迁移元素。

读取一个m行n列，LDA为L的待迁移矩阵，数据迁移单元可以生成并发送n个读请求。

第二个读请求，读取以src_addr+L为首地址的n个元素；

以此类推，第n个读请求，读取以src_addr+(n-1)L为首地址的m个元素。

在又一种可能的实现方式中，矩阵在内存中存储时，对于一些类型的矩阵(例如，对角矩阵)可以仅读取部分元素，而无需获取全部元素。用于指示矩阵类型的矩阵类型标识可以被处理器获取，并与上述尺寸信息存储在同一个寄存器中，数据迁移单元在获取尺寸信息时，可以同时获取到矩阵类型标识。相应的，步骤202的处理可以如下：数据迁移单元根据矩阵类型标识、尺寸信息和源存储地址，读取待迁移矩阵。

其中，矩阵类型标识用于指示待迁移矩阵的类型，该矩阵类型标识可以为数字、英文字母等。矩阵类型可以包括：普通矩阵、方阵、对角矩阵，按照存储矩阵的方式，又可以将矩阵划分为非压缩存储上三角矩阵、非压缩存储对角矩阵、压缩存储上三角矩阵、压缩存储下三角矩阵、压缩存储对角矩阵等。例如，矩阵类型标识为数字，矩阵类型标识和矩阵类型的对应关系可以如下表1所示。

表1

矩阵类型标识	矩阵类型
0	普通矩阵
1	方阵
2	非压缩存储上三角矩阵
3	非压缩存储下三角矩阵
4	非压缩存储对角矩阵
5	压缩存储上三角矩阵
6	压缩存储下三角矩阵
7	压缩存储对角矩阵

下面对上述几种特殊类型的矩阵的读取进行说明。

读取行存储的非压缩存储上三角矩阵：

对于非压缩存储上三角矩阵在读取时，将对角线及以上的元素作为待迁移元素进行读取，而对角线以下的0元素可以不用读取，这样可以提高读取效率，节省迁移后的存储空间。

数据迁移单元根据待迁移矩阵的源存储地址以及每行对应的偏移值(本行之前各行的元素个数与本行中对角线以下的0元素的个数之和)，确定出待迁移矩阵中每行的第一个待迁移元素对应的存储地址。同时，还可以确定出每行对应的读取字节数，即该行中待迁移元素的个数。在读取某一行中的待迁移元素时以确定出的该行的第一个待迁移元素对应的存储地址作为首地址进行读取，读取对应的读取字节数个元素。其中，每行中的第一个待迁移元素可以为该行中的第一个对角线及以上的元素，每行中的对角线及以上的元素可以为待迁移元素。

读取一个行列数均为m的非压缩存储上三角矩阵，数据迁移单元可以生成并发送m个读请求。

第二个读请求，读取以src_addr+m+1为首地址的m-1个元素；

第三个读请求，读取以src_addr+2m+2为首地址的m-2个元素；

以此类推，第m个读请求，读取以src_addr+(m-1)m+m-1为首地址的1个元素。

读取列存储的非压缩存储上三角矩阵：

数据迁移单元根据待迁移矩阵的源存储地址以及每列对应的偏移值(本列之前各列的元素之和)，确定出待迁移矩阵中每列的第一个待迁移元素对应的存储地址。同时，还可以确定出每列对应的读取字节数，即该列中待迁移元素的个数。在读取某一列中的待迁移元素时以确定出的该列的第一个待迁移元素对应的存储地址作为首地址进行读取，读取对应的读取字节数个元素。其中，每列中的第一个待迁移元素可以为该列中的第一个对角线及以上的元素，每列中的对角线及以上的元素可以为待迁移元素。

第一个读请求，读取以源存储地址(src_addr)为首地址的1个元素；

第二个读请求，读取以src_addr+m为首地址的2个元素；

第三个读请求，读取以src_addr+2m为首地址的3个元素；

以此类推，第m个读请求，读取以src_addr+(m-1)m为首地址的m个元素。

数据迁移单元在读取行存储的非压缩存储下三角矩阵时的处理，与读取列存储的非压缩存储上三角矩阵时的处理相似，在读取列存储的非压缩存储下三角矩阵时的处理，与读取行存储的非压缩存储上三角矩阵时的处理相似。因此对于非压缩存储下三角矩阵的读取在此不做赘述。

读取非压缩存储的对角矩阵：

对于对角矩阵来说，虽然行存储和列存储是相同的，但是在本申请中仍然可以对对角矩阵进行迁移，可以使非压缩存储对角矩阵转换为压缩存储对角矩阵，即，将对角线上的元素作为待迁移元素进行读取，除对角线以外的0元素均不读取。

以读取行存储的非压缩存储的对角矩阵为例，数据迁移单元根据待迁移矩阵的源存储地址以及每行对应的偏移值(本行之前各行对应的元素与本行中对角线以下的0元素的个数之和)，确定出待迁移矩阵中每行的第一个待迁移元素对应的存储地址。同时，还可以确定出每行对应的读取字节数，即该行中待迁移元素的个数。在读取某一行中的待迁移元素时以确定出的该行的第一个待迁移元素对应的存储地址作为首地址进行读取，读取对应的读取字节数个元素。其中，每行中的第一个待迁移元素可以为该行中的第一个对角线上的元素，每行中的对角线上的元素可以为待迁移元素。

读取一个行列数均为m的压缩上三角矩阵，数据迁移单元可以生成并发送m个读请求。

第二个读请求，读取以src_addr+m+1为首地址的1个元素；

第三个读请求，读取以src_addr+2m+2为首地址的1个元素；

读取行存储的压缩存储上三角矩阵：

对于压缩存储上三角矩阵来说，其在存储时只存储对角线及以上的元素，即压缩存储上三角矩阵存储的全部元素均可以作为待迁移元素进行读取。

数据迁移单元根据待迁移矩阵的源存储地址以及每行对应的偏移值(本行之前的每行包括的待迁移元素的个数)，确定出待迁移矩阵中每行的第一个待迁移元素对应的存储地址。同时，还可以确定出每行对应的读取字节数，即该行中待迁移元素的个数。在读取某一行中的待迁移元素时以确定出的该行的第一个待迁移元素对应的存储地址作为首地址进行读取，读取对应的读取字节数个元素。

读取一个行列数均为m的压缩存储上三角矩阵，数据迁移单元可以生成并发送m个读请求。

第二个读请求，读取以src_addr+m为首地址的m-1个元素；

第三个读请求，读取以src_addr+m+(m-1)为首地址的m-2个元素；

以此类推，第m个读请求，读取以src_addr+m+(m-1)+…+2为首地址的1个元素。

读取列存储的压缩存储上三角矩阵：

数据迁移单元根据待迁移矩阵的源存储地址以及每列对应的偏移值(本列之前的每行包括的待迁移元素的个数)，确定出待迁移矩阵中每列的第一个待迁移元素对应的存储地址。同时，还可以确定出每列对应的读取字节数，即该列中待迁移元素的个数。在读取某一列中的待迁移元素时以确定出的该列的第一个待迁移元素对应的存储地址作为首地址进行读取，读取对应的读取字节数个元素。

第二个读请求，读取以src_addr+1为首地址的2个元素；

第三个读请求，读取以src_addr+1+2为首地址的3个元素；

以此类推，第m个读请求，读取以src_addr+1+2…+m-1为首地址的m个元素。

数据迁移单元在读取行存储的压缩存储下三角矩阵时的处理，与读取列存储的压缩存储上三角矩阵时的处理相似，在读取列存储的压缩存储下三角矩阵时的处理，与读取行存储的压缩存储上三角矩阵时的处理相似。因此对于压缩存储下三角矩阵的读取在此不做赘述。

此外，如果矩阵类型标识指示的矩阵类型为压缩存储对角矩阵，则可以无需执行迁移操作。

在又一种可能的实现方式中，可以在设置有LDA的情况下，考虑矩阵类型进行读取。矩阵类型标识和LDA可以均被处理器获取，并与上述尺寸信息存储在同一个寄存器中。例如在存储LDA、矩阵类型标识和尺寸信息时，寄存器格式可以如图4所示。数据迁移单元在获取尺寸信息时，可以同时获取到矩阵类型标识和LDA。相应的，步骤202的处理可以如下：数据迁移单元根据LDA、矩阵类型标识、尺寸信息和源存储地址，读取待迁移矩阵。

对于压缩存储矩阵来说，是没有LDA的，因此，在矩阵类型标识指示的是压缩存储矩阵(如压缩存储上三角矩阵、压缩存储下三角矩阵、压缩存储对角矩阵等)时，则处理器可以不获取LDA，相应的，在寄存器中也不会存储有LDA。下面对于几种压缩存储矩阵，结合LDA读取的方法进行说明。

结合LDA读取行存储的非压缩存储上三角矩阵：

数据迁移单元根据待迁移矩阵的源存储地址以及每行对应的偏移值(本行之前各行对应的LDA与本行中对角线以下的0元素的个数之和)，确定出待迁移矩阵中每行的第一个待迁移元素对应的存储地址。同时，还可以确定出每行对应的读取字节数，即该行中待迁移元素的个数。在读取某一行中的待迁移元素时以确定出的该行的第一个待迁移元素对应的存储地址作为首地址进行读取，读取对应的读取字节数个元素。其中，每行中的第一个待迁移元素可以为该行中的第一个对角线及以上的元素，每行中的对角线及以上的元素可以为待迁移元素。

同样的，对于非压缩存储上三角矩阵对角线以下的0元素可以不用读取。

读取一个行列数均为m，LDA为L的非压缩存储上三角矩阵，数据迁移单元可以生成并发送m个读请求。

第二个读请求，读取以src_addr+L+1为首地址的m-1个元素；

第三个读请求，读取以src_addr+2L+2为首地址的m-2个元素；

以此类推，第m个读请求，读取以src_addr+(m-1)L+m-1为首地址的1个元素。

结合LDA读取列存储的非压缩存储上三角矩阵：

数据迁移单元根据待迁移矩阵的源存储地址以及偏移值(本列之前各行对应的LDA之和)，确定出待迁移矩阵中每列的第一个待迁移元素对应的存储地址。同时，还可以确定出每列对应的读取字节数，即该列中待迁移元素的个数。在读取某一列中的待迁移元素时以确定出的该列的第一个待迁移元素对应的存储地址作为首地址进行读取，读取对应的读取字节数个元素。其中，每列中的第一个待迁移元素可以为该列中的第一个对角线及以上的元素，每列中的对角线及以上的元素可以为待迁移元素。

第二个读请求，读取以src_addr+L为首地址的2个元素；

第三个读请求，读取以src_addr+2L为首地址的3个元素；

结合LDA读取非压缩存储的对角矩阵：

以读取行存储为例，数据迁移单元根据待迁移矩阵的源存储地址以及每行对应的偏移值(本行之前各行对应的LDA与本行中对角线以下的0元素的个数之和)，确定出待迁移矩阵中每行的第一个待迁移元素对应的存储地址。同时，还可以确定出每行对应的读取字节数，即该行中待迁移元素的个数。在读取某一行中的待迁移元素时以确定出的该行的第一个待迁移元素对应的存储地址作为首地址进行读取，读取对应的读取字节数个元素。其中，每行中的第一个待迁移元素可以为该行中的第一个对角线上的元素，每行中的对角线上的元素可以为待迁移元素。

读取一个行列数均为m，LDA为L的非压缩对角矩阵，数据迁移单元可以生成并发送m个读请求。

第二个读请求，读取以src_addr+L+1为首地址的1个元素；

第三个读请求，读取以src_addr+2L+2为首地址的1个元素；

步骤203、按照第二存储方式存储待迁移矩阵的元素，所述第二存储方式是与所述第一存储方式不同的存储方式。

其中，在上述第一存储方式为行存储时，该第二存储方式为列存储，在上述第一存储方式为列存储时，该第二存储方式为行存储。在实施中，在对每个读请求读取的待迁移矩阵的元素进行存储时，需要保证存储后的矩阵，是以第二存储方式存储的。即，如果第二存储方式为列存储，则在迁移后存储时要使待迁移矩阵的同一列元素连续存储，如果第二存储方式为行存储，则在迁移后存储时要使待迁移矩阵的同一行元素连续存储。

对于矩阵在迁移之前均是非压缩存储矩阵，且迁移数据时也是按照非压缩矩阵存储的情况，可以按照如下方式进行存储。

以列存储的方式存储m行n列的待迁移矩阵，在待迁移矩阵是方阵时m＝n。

对于第一个读请求获取的n个元素，依次存储在目的存储地址(dst_addr)、dst_addr+m、dst_addr+2m…dst_addr+(n-1)m；

对于第二个读请求获取的n个元素，依次存储在dst_addr+1、dst_addr+m+1、 dst_addr+2m+1…dst_addr+(n-1)m+1；

以此类推，对于第m个读请求获取的n个元素，依次存储在dst_addr+m-1、dst_addr+m+(m-1)、dst_addr+2m+(m-1)、…dst_addr+(n-1)m+(m-1)。

对于一些类型的矩阵(如非压缩存储上三角矩阵、非压缩存储对角矩阵、压缩存储上三角矩阵、压缩存储下三角矩阵、压缩存储对角矩阵等)，在迁移后存储时可以根据矩阵类型、目的存储地址以及尺寸信息，确定读取的每个元素的存储地址，再对读取的元素进行存储。下面对几种类型的矩阵的存储方法进行说明。

以行存储的方式，对读取的压缩存储上三角矩阵或者非压缩存储上三角矩阵进行存储：

对于第一个读请求获取的1个元素，存储在dst_addr各自对应的存储空间；

对于第二个读请求获取的2个元素，依次存储在dst_addr+1、dst_addr+m+1-1各自对应的存储空间；

对于第三个读请求获取的3个元素，依次存储在dst_addr+2、dst_addr+m+2-1、dst_addr+2m+2-(1+2)各自对应的存储空间；

以此类推，对于第m个读请求获取的m个元素，依次存储在dst_addr+m-1、dst_addr+m+(m-1)-1、dst_addr+2m+(m-1)-(1+2)、…dst_addr+(m-1)m+(m-1)-[1+2+…(m-1)]各自对应的存储空间。

以列存储的方式，对读取的压缩存储上三角矩阵或者非压缩存储上三角矩阵进行存储：

对于第一个读请求读取的m个元素，依次存储在dst_addr、dst_addr+m-(m-1)、dst_addr+2m-[(m-1)+(m-2)]、…dst_addr+(m-1)m-[(m-1)+(m-2)+…1]各自对应的存储空间；

对于第二个读请求读取的m-1个元素，依次存储在dst_addr+m+1-(m-1)、dst_addr+2m+1-[(m-1)+(m-2)]、…dst_addr+(m-1)m+1-[(m-1)+(m-2)+…1]各自对应的存储空间；

对于第三个读请求读取的m-2个元素，依次存储在dst_addr+2m+2-[(m-1)+(m-2)]、dst_addr+3m+2-[(m-1)+(m-2)+(m-3)]、…dst_addr+(m-1)m+2-[(m-1)+(m-2)+…1]各自对应的存储空间；

以此类推，对于第m-1个读请求读取的2个元素，依次存储在dst_addr+(m-2)m+(m-2)-[(m-1)+(m-2)+…2]、dst_addr+(m-1)m+(m-2)-[(m-1)+(m-2)+…1]各自对应的存储空间；

对于第m个读请求读取的1个元素，存储在dst_addr+(m-1)m+(m-1)-[(m-1)+(m-2)+…1]各自对应的存储空间。

需要说明的是，数据迁移单元在以列存储的方式存储压缩存储下三角矩阵或者非压缩存储下三角矩阵时的处理，与以行存储的方式存储压缩存储上三角矩阵或者非压缩存储上三角矩阵时的处理相似，在以行存储的方式存储压缩存储下三角矩阵或者非压缩存储下三角矩阵时的处理，与以列存储的方式存储压缩存储上三角矩阵或者非压缩存储上三角矩阵时的处理相似。因此对于存储压缩存储下三角矩阵或者非压缩存储下三角矩阵的存储在此不做赘述。

对读取的非压缩存储对角矩阵进行存储：

对于第一个读请求获取的1个元素，存储在dst_addr对应的存储空间；

对于第二个读请求获取的1个元素，依次存储在dst_addr+1对应的存储空间；

对于第三个读请求获取的1个元素，存储在dst_addr+2对应的存储空间；

以此类推，对于第m个读请求获取的1个元素，存储在dst_addr+m-1对应的存储空间。

需要说明的是，上述目的存储地址为内存地址，将读取的元素存储在内存中之前可以先存储至内存地址对应的缓存中。缓存可以为处理器的高速缓存(cache)。

综上所述，可以通过处理器内部的数据迁移单元实现数据迁移，将乘号左侧矩阵转换为列存储的存储方式，或者将乘号右侧矩阵转换为行存储的存储方式，使得在计算矩阵乘时，可以连续获取一行或者一列元素进行相乘并累加，无需频繁访问内存，有效提高了计算效率。此外，该数据迁移单元只需一条数据迁移指令即可触发数据迁移的处理，触发相对简单。

在第一存储方式为行存储的情况下，待迁移矩阵为相乘的两矩阵中乘号右侧的矩阵，该待迁移矩阵迁移后，可以以行存储的方式存储在处理器的缓存以及内存中，执行矩阵乘法的处理单元可以获取乘号左侧的矩阵的第一行的元素，并直接缓存中读取连续存储的待迁移矩阵的第一列的元素，进行对位相乘，并累加，作为输出矩阵的第一个元素，以此类推完成两矩阵的乘法运算，得到输出矩阵。

在第一存储方式为列存储的情况下，待迁移矩阵为相乘的两矩阵中乘号左侧的矩阵，该待迁移矩阵迁移后，可以以行存储的方式存储在处理器的缓存以及内存中，执行矩阵乘法的处理单元可以获取乘号右侧的矩阵的第一行的元素，并直接缓存中读取连续存储的待迁移矩阵的第一行的元素，进行对位相乘，并累加，作为输出矩阵的第一个元素，以此类推完成两矩阵的乘法运算，得到输出矩阵。

基于相同的技术构思，本申请实施例还提供了一种数据迁移的装置，该装置可以为上述数据迁移单元，如图5所示，该装置包括：

获取模块510，用于获取待迁移矩阵的存储位置，所述待迁移矩阵以第一存储方式存储。具体的，可以实现上述步骤201的获取功能及其隐含步骤。

读取模块520，用于读取所述待迁移矩阵中元素。具体的，可以实现上述步骤202的读取功能及其隐含步骤。

存储模块530，用于按照第二存储方式存储所述待迁移矩阵的元素，所述第二存储方式是与所述第一存储方式不同的存储方式。具体的，可以实现上述步骤203的存储功能及其隐含步骤。

应理解的是，本申请实施例的装置可以通过专用集成电路(application-specific integrated circuit，ASIC)实现，或可编程逻辑器件(programmable logic device，PLD)实现，上述PLD可以是复杂程序逻辑器件(complex programmable logical device，CPLD)，现场可编程门阵列(field-programmable gate array，FPGA)，通用阵列逻辑(generic array logic，GAL)或其任意组合。也可以通过软件实现图2所示的数据迁移的方法时，装置及其各个模块也可以为软件模块。

在一种可能的实现方式中，所述第一存储方式和所述第二存储方式分别包括列存储方式和行存储方式。

在一种可能的实现方式中，所述获取模块510还用于：

获取数据迁移指令，其中，所述数据迁移指令中携带有第一寄存器标识、第二寄存器标识和第三寄存器标识，其中，所述第一寄存器标识用于指示存储所述待迁移矩阵的源存储地址的第一寄存器、所述第二寄存器标识用于指示存储所述待迁移矩阵的目的存储地址的第二寄存器和所述第三寄存器标识用于指示存储所述待迁移矩阵的尺寸信息的寄存器；所述源存储地址和所述目的存储地址为内存的存储地址；

所述获取模块510，用于：

向所述第一寄存器获取所述待迁移矩阵的源存储地址，向所述第二寄存器获取所述待迁移矩阵的目的存储地址，向所述第三寄存器获取所述待迁移矩阵的尺寸信息。

在一种可能的实现方式中，所述第三寄存器还存储所述待存储矩阵的矩阵类型标识和LDA；

所述获取模块510，用于：

向所述第三寄存器获取所述待迁移矩阵的尺寸信息、矩阵类型标识和LDA；

所述基于所述尺寸信息和所述源存储地址，读取第一存储方式存储的所述待迁移矩阵，包括：

基于所述尺寸信息、矩阵类型标识、LDA和所述源存储地址，读取第一存储方式存储的所述待迁移矩阵的元素。

在一种可能的实现方式中，所述读取模块520，用于：

在所述第一存储方式为行存储时，将所述源存储地址作为读取所述待迁移矩阵中的第一行的元素时的首地址；

根据所述尺寸信息、矩阵类型标识和LDA，确定N-1个偏移值，N为所述待迁移矩阵的行数；

根据每i个偏移值和所述源存储地址，确定读取所述待迁移矩阵中的第i行的元素时的首地址，i为大于0小于N的正整数；

在所述第一存储方式为列存储时，将所述源存储地址作为读取所述待迁移矩阵中的第一列的元素时的首地址；

根据所述尺寸信息、矩阵类型标识和LDA，确定N-1个偏移值，N为所述待迁移矩阵的列数；

根据每i个偏移值和所述源存储地址，确定读取所述待迁移矩阵中的第i+1列的元素时的首地址，i为大于0小于N的正整数；

所述读取模块520，用于：

向处理器的内部总线发送N个读请求，每个读请求携带一个首地址，其中，每个读请求用于读取所述待迁移矩阵中一行或者一列的元素；

接收所述内部总线基于每个首地址返回的所述待迁移矩阵中的元素。

根据所述尺寸信息、所述矩阵类型标识和所述目的存储地址，以第二存储方式存储所述待迁移矩阵中的待迁移元素。

在一种可能的实现方式中，所述存储模块530，用于：

根据所述尺寸信息、所述矩阵类型标识，在以所述目的存储地址为首地址的内存中，以第二存储方式存储所述待迁移矩阵中的待迁移元素，并在对应的所述处理器的缓存中以第二存储方式存储所述待迁移矩阵中的待迁移元素。

还需要说明的是，上述实施例提供的数据迁移的装置在数据迁移时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将数据迁移单元的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的数据迁移的装置与数据迁移的方法实施例属于同一构思，其具体实现过程详见图2所示方法实施例，为了简洁，在此不再赘述。

参见图6，本申请实施例提供了一种计算设备1300。该计算设备1300包括至少一个处理器1301，总线系统1302，存储器1303，通信接口1304和内存单元1305。

上述处理器1301可以是一个通用中央处理器(central processing unit，CPU)，网络处理器(network processor，NP)，图形处理器(graphics processing unit)微处理器，特定应用集成电路(application-specific integrated circuit，ASIC)，或一个或多个用于控制本申请方案程序执行的集成电路。此外，上述处理器1301包括如图1所示的数据迁移单元40，使得上述数据迁移单元40用于实现如图2所示的方法的操作步骤，为了简洁，在此不再赘述。

上述总线系统1302可包括一通路，在上述组件之间传送信息。

上述存储器1303可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory，EEPROM)、只读光盘(compact disc read-only memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器可以是独立存在，通过总线与处理器相连接。存储器也可以和处理器集成在一起。

内存单元1305用于存储执行本申请方案的应用程序代码，并由处理器1301来控制执行。处理器1301用于执行内存单元1305中存储的应用程序代码，从而实现本申请提出的浮点数计算方法。

在具体实现中，作为一种实施例，处理器1301可以包括一个或多个处理器1301。

通信接口1304用于实现计算设备1300与外部设备的连接和通信。

综上所述，计算设备可以将乘号左侧矩阵作为待迁移矩阵转换为列存储的存储方式，或者将乘号右侧矩阵作为待迁移矩阵转换为行存储的存储方式，使得在计算矩阵乘时，可以连续获取一行或者一列元素进行相乘并累加，无需频繁访问内存，有效提高了计算效率。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现，当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令，在设备上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴光缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是设备能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(如软盘、硬盘和磁带等)，也可以是光介质(如数字视盘(Digital Video Disk，DVD)等)，或者半导体介质(如固态硬盘等)。

以上所述仅为本申请一个实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

一种数据迁移的方法，其特征在于，所述方法包括：

获取待迁移矩阵的存储位置，所述待迁移矩阵以第一存储方式存储；

读取所述待迁移矩阵中元素；

按照第二存储方式存储所述待迁移矩阵的元素，所述第二存储方式是与所述第一存储方式不同的存储方式。
根据权利要求1所述的方法，其特征在于，所述第一存储方式和所述第二存储方式分别包括列存储方式和行存储方式。
根据权利要求1或2所述的方法，其特征在于，在所述获取待迁移矩阵的存储位置之前，所述方法还包括：

获取数据迁移指令，其中，所述数据迁移指令中携带有第一寄存器标识、第二寄存器标识和第三寄存器标识，其中，所述第一寄存器标识用于指示存储所述待迁移矩阵的源存储地址的第一寄存器；所述第二寄存器标识用于指示存储所述待迁移矩阵的目的存储地址的第二寄存器；所述第三寄存器标识用于指示存储所述待迁移矩阵的尺寸信息的寄存器；所述源存储地址和所述目的存储地址为内存的存储地址；

则所述获取待迁移矩阵的存储位置，包括：

向所述第一寄存器获取所述待迁移矩阵的源存储地址，向所述第二寄存器获取所述待迁移矩阵的目的存储地址，向所述第三寄存器获取所述待迁移矩阵的尺寸信息。
根据权利要求1至3中任一所述的方法，其特征在于，在所述读取所述待迁移矩阵中元素之前，所述方法还包括：

将源存储地址作为所述待迁移矩阵中第一行的首个元素的地址或者第一列的首个元素的地址，并确定N-1个偏移值，N为待迁移矩阵的行数或列数；

则所述读取所述待迁移矩阵中元素，包括：

按照所述待迁移矩阵的行或列的首个元素的地址和偏移地址分别逐行或逐列读取所述待迁移矩阵中元素。
一种数据迁移的装置，其特征在于，所述方法应用于处理器中，所述方法包括：

获取模块，用于获取待迁移矩阵的存储位置，所述待迁移矩阵以第一存储方式存储；

读取模块，用于读取所述待迁移矩阵中元素；

存储模块，用于按照第二存储方式存储所述待迁移矩阵的元素，所述第二存储方式是与所述第一存储方式不同的存储方式。
根据权利要求5所述的装置，其特征在于，所述第一存储方式和所述第二存储方式分别包括列存储方式和行存储方式。
根据权利要求5或6所述的装置，其特征在于，所述获取模块，还用于：

获取数据迁移指令，其中，所述数据迁移指令中携带有第一寄存器标识、第二寄存器标识和第三寄存器标识，其中，所述第一寄存器标识用于指示存储所述待迁移矩阵的源存储地址的第一寄存器、所述第二寄存器标识用于指示存储所述待迁移矩阵的目的存储地址的第二寄存器和所述第三寄存器标识用于指示存储所述待迁移矩阵的尺寸信息的寄存器；所述源存储地址和所述目的存储地址为内存的存储地址；

向所述第一寄存器获取所述待迁移矩阵的源存储地址，向所述第二寄存器获取所述待迁移矩阵的目的存储地址，向所述第三寄存器获取所述待迁移矩阵的尺寸信息。
根据权利要求7中所述的装置，其特征在于，所述读取模块，还用于：

在所述读取所述待迁移矩阵中元素之前，将源存储地址作为所述待迁移矩阵中第一行的首个元素的地址或者第一列的首个元素的地址，并确定N-1个偏移值，N为待迁移矩阵的行数或列数；

按照所述待迁移矩阵的行或列的首个元素的地址和偏移地址分别逐行或逐列读取所述待迁移矩阵中元素。
一种处理器，其特征在于，所述处理器包括数据迁移单元，所述数据迁移单元用于执行如上述权利要求1-4中任一项所述的数据迁移的方法。
一种计算设备，其特征在于，所述计算设备包括权利要求9所述的处理器，所述处理器用于执行如权利要求1-4中任一项所述的数据迁移的方法。