WO2023142403A1

WO2023142403A1 - 用于确定张量元素的越界状态的方法和电子装置

Info

Publication number: WO2023142403A1
Application number: PCT/CN2022/107337
Authority: WO
Inventors: 杨经纬; 葛建明; 谢钢锋; 许飞翔; 彭永超; 袁红岗; 仇小钢
Original assignee: 海飞科(南京)信息技术有限公司
Priority date: 2022-01-25
Filing date: 2022-07-22
Publication date: 2023-08-03
Also published as: CN114489798B; CN114489798A

Abstract

本文描述了一种用于确定张量元素的越界状态的方法和电子装置。该方法包括基于针对张量段中的第一张量元素的越界查询指令，确定第一张量元素在张量段的多个维度的第一偏移量集合。该方法还包括基于张量段的段属性，确定张量段在多个维度中的每个维度上的元素数目集合。该方法还包括基于第一偏移量集合和元素数目集合，确定针对第一张量元素的第一越界状态指示。通过使用越界查询命令，可以将偏移量与张量段范围进行比较。一旦超出，则可以确定该逻辑地址越界，即超出了张量段的边界。继而，可以从诸如谓词寄存器之类的电路单元获得越界状态指示，例如特定值。这样，可以对诸如程序调试或动态检测之类的后续程序操作带来便利。

Description

用于确定张量元素的越界状态的方法和电子装置

本申请要求于2022年01月25日提交中国专利局、申请号为202210088659.1、发明名称为“用于确定张量元素的越界状态的方法和电子装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本公开的实施例一般地涉及电子领域，更具体而言涉及一种用于确定张量元素的越界状态的方法和电子装置。

背景技术

诸如图形处理器(GPU)之类的并行高性能多线程多核处理系统处理数据的速度比过去快得多。这些处理系统可以将复杂的计算分解为较小的任务，并且由多核并行处理以增加处理效率并且减少处理时间。

在一些情形下，诸如GPU之类的多核处理器对具有大量相同或相似形式的数据的张量的处理尤为有利。张量元素在计算机领域通常表示一维或多维数组的数据，例如灰度图像数据就是一种常规的二维张量元素，其可以由二维数组表示。对图像数据进行处理时，可以由多核处理器对图像数据中的不同部分并行处理以减少处理时间。

常规的张量元素在存储器中通常以一维数组形式进行存储，因此程序的编程人员在设计程序时，需要考虑程序加载张量元素的情形下张量元素在一维数组中的正确地址。通常，常规的寻址方法无法提供对于张量元素的访问是否超出张量边界的信息。例如，在一些常规方案中，对于读操作，如果检测出地址越界，则直接返回0值或者其他预设的默认值，而对于写操作，如果检测出地址越界，则丢弃此次写操作。但是对于用户或设计人员而言，其无法通过读操作的返回值0来明确判断存储是否越界，因为张量元素的值有可能为0。同时，用户也无法得知写操作是否越界。这给设计人员在编程过程中的后续一些操作带来不便利。

发明内容

本公开的实施例提供了一种用于确定张量元素的越界状态的方法和电子装置。

在第一方面，提供了一种用于确定张量元素的越界状态的方法。该方法包括基于针对张量段中的第一张量元素的越界查询指令，确定第一张量元素在张量段的多个维度的第一偏移量集合。该方法还包括基于张量段的段属性，确定张量段在多个维度中的每个维度上的元素数目集合。该方法还包括基于第一偏移量集合和元素数目集合，确定针对第一张量元素的第一越界状态指示。通过使用越界查询命令，可以将逻辑地址在张量段内对应的偏移量与张量段范围进行比较。一旦任一维度上的偏移量超出了张量段在该维度上的范围，则可以确定该逻辑地址越界，即超出了张量段的边界。继而，可以从诸如谓词寄存器之类的电路单元获得越界状态指示，例如特定值。这样，可以对诸如程序调试或动态检测之类的后续程序操作带来便利。此外，由于该越界查询指令并不涉及从存储器中返回所存储的具体数据或向其写入数据，而仅是给出越界状态的指示(例如逻辑1或0)，这可以避免从存储器中读取数据或写入数据所带来的时间延迟和大的操作功耗。

在本公开的第一方面的一种实现方式中，越界查询指令包括第一张量元素的逻辑地址表示，逻辑地址表示包括段基址寄存器表示、偏移寄存器表示和立即数。确定第一张量元素在张量段中的第一偏移量集合包括：基于段基址寄存器表示、偏移寄存器表示和立即数，计算第一偏移量集合。

在本公开的第一方面的一种实现方式中，该方法还包括：基于模式表示，确定段基址寄存器表示。通过使用模式表示，可以针对不同的模式，例如长模式或默认模式(非长模式)，来确定逻辑地址在张量段内的偏移量。这样，可以兼容不同模式下的张量越界确定方案，以适配更多的张量情形。

在本公开的第一方面的一种实现方式中，该方法还包括基于越界查询指令确定与立即数对应的维度。

在本公开的第一方面的一种实现方式中，基于段基址寄存器表示、偏移寄存器表示和立即数，计算第一偏移量包括：根据张量的维度，将相应维度上的段基址范围内的段基址寄存器表示和偏移寄存器表示相加，以获得第一偏移量。在本公开的第一方面的一种实现方式中，该方法还包括在与立即数并不对应的维度上，将相应维度上的段基址范围内的段基址寄存器表示和偏移寄存器表示相加，以获得第一偏移量。在不同的维度上，将相应维度的段基址寄存器表示和偏移寄存器表示相加，可以以简易的方式获得第一偏移量，从而减少计算成本和功耗。

在本公开的第一方面的一种实现方式中，基于段基址寄存器表示、偏移寄存器表示和立即数，计算第一偏移量包括：根据张量的维度，将相应维度上的段基址范围内的段基址寄存器表示、偏移寄存器表示和立即数相加，以获得第一偏移量。在本公开的第一方面的一种实现方式中，该方法还包括在与立即数对应的维度上，将相应维度上的段基址范围内的段基址寄存器表示、偏移寄存器表示和立即数相加，以获得第一偏移量。在不同的维度上，将相应维度的段基址寄存器表示、偏移寄存器表示和立即数相加，可以以简易的方式获得第一偏移量，从而减少计算成本和功耗。

在本公开的第一方面的一种实现方式中，基于张量段的段属性确定张量段在多个维度中的每个维度上的元素数目集合包括：基于段属性，确定张量段在每个维度上的页数目以及每个页在每个维度上的元素数目；以及基于页数目和元素数目，确定元素数目集合。元素数目集合可以包括在至少一个维度上的至少一个元素数目。在本公开的实现方式中，张量段包括页，页包括元素。张量段可以具有第一多个维度，页具有第二多个维度，并且第二多个维度的维度数目不大于第一多个维度的数目。通过计算张量段在每个维度上的页数目和页在每个维度上的元素数目，可以例如通过乘法来确定在该维度上的元素数目，也即张量元素在该维度上的最大可能偏移范围。这样，可以通过简易的方式，确定元素数目集合。

在本公开的第一方面的一种实现方式中，基于第一偏移量集合和元素数目集合确定针对第一张量元素的第一越界状态指示包括：确定第一偏移量集合中的每个偏移量是否超出元素数目集合中的、相应维度上的元素数目；以及如果第一偏移量集合中的至少一个偏移量超出元素数目集合中的、相应维度上的元素数目，则将针对第一张量元素的第一越界状态指示设置为第一值。

在本公开的第一方面的一种实现方式中，基于第一偏移量集合和元素数目集合确定针对第一张量元素的第一越界状态指示包括：确定第一偏移量集合中的每个偏移量是否超出元素数目集合中的、相应维度上的元素数目；以及如果第一偏移量集合中的每个偏移量都不超出元素数目集合中的、相应维度上的元素数目，则将针对第一张量元素的第一越界状态指示设置为第二值。通过将第一越界状态指示在诸如谓词寄存器之类的设备中设置为不同值，可以通过读取所存储的值来确定是否越界。这给诸如程序调试、动态检测之类的后续操作带来便利，例如可以节省时间和功耗，因为这种越界检测无需从存储器返回具体数据，而仅是从处理引擎内部的寄存器返回状态值即可。因此，相比于从处理引擎外的存储器向处理引擎读取多字节的数据，这种从处理引擎内部的谓词寄存器读取单个或少量字节的状态值，可以显著减少传输和处理时间，并且相应地降低了处理功耗。

在本公开的第二方面，提供一种计算机可读存储介质。该计算机可读存储介质存储多个程序，多个程序被配置为一个或多个处理引擎执行，多个程序包括用于执行第一方面的方法的指令。

在本公开的第三方面，提供一种计算机程序产品。该计算机程序产品包括多个程序，多个程序被配置为一个或多个处理引擎执行，多个程序包括用于执行第一方面的方法的指令。

在本公开的第四方面，提供一种电子装置。该电子装置包括：流处理器；页表装置，耦合至流处理器；存储器；处理引擎单元，耦合至流处理器、存储器和页表装置，被配置为执行第一方面的方法。

在本公开的第五方面，提供一种电子装置。该电子装置包括：偏移量集合确定单元，被配置为基于针对张量段中的第一张量元素的越界查询指令，确定第一张量元素在张量段的多个维度的第一偏移量集合。该电子装置还包括：元素数目集合确定单元，被配置为基于张量段的段属性，确定张量段在多个维度中的每个维度上的元素数目集合。该电子装置包括：越界状态指示确定单元，被配置为基于第一偏移量集合和元素数目集合，确定针对第一张量元素的第一越界状态指示。通过使用越界查询命令，可以将逻辑地址在张量段内对应的偏移量与张量段范围进行比较。一旦任一维度上的偏移量超出了张量段在该维度上的范围，则可以确定该逻辑地址越界，即超出了张量段的边界。继而，可以从诸如谓词寄存器之类的电路单元获得越界状态指示，例如特定值。这样，可以对诸如程序调试或动态检测之类的后续程序操作带来便利。此外，由于该越界查询指令并不涉及从存储器中返回所存储的具体数据或向其写入数据，而仅是给出越界状态的指示(例如逻辑1或0)，这可以避免从存储器中读取数据或写入数据所带来的时间延迟和大的操作功耗。

在本公开的第五方面的一种实现方式中，越界查询指令包括第一张量元素的逻辑地址表示，逻辑地址表示包括段基址寄存器表示、偏移寄存器表示和立即数，偏移量集合确定单元被进一步配置为：基于段基址寄存器表示、偏移寄存器表示和立即数，计算第一偏移量集合。

在本公开的第五方面的一种实现方式中，电子装置还包括：段基址寄存器表示确定单元，被配置为基于模式表示，确定段基址寄存器表示。通过使用模式表示，可以针对不同的模式，例如长模式或默认模式(非长模式)，来确定逻辑地址在张量段内的偏移量。这样，可以兼容不同模式下的张量越界确定方案，以适配更多的张量情形。

在本公开的第五方面的一种实现方式中，该方法还包括基于越界查询指令确定与立即数对应的维度。

在本公开的第五方面的一种实现方式中，偏移量确定单元被进一步配置为：根据张量的维度，将相应维度上的段基址范围内的段基址寄存器表示、偏移寄存器表示和立即数相加，以获得第一偏移量。在本公开的第五方面的一种实现方式中，偏移量确定单元被进一步配置为：在与立即数并不对应的维度上，将相应维度上的段基址范围内的段基址寄存器表示和偏移寄存器表示相加，以获得第一偏移量。在不同的维度上，将相应维度的段基址寄存器表示和偏移寄存器表示相加，可以以简易的方式获得第一偏移量，从而减少计算成本和功耗。

在本公开的第五方面的一种实现方式中，元素数目集合确定单元被进一步配置为：基于段属性，确定张量段在每个维度上的页数目以及每个页在每个维度上的元素数目；以及基于页数目和元素数目，确定元素数目集合。在本公开的第五方面的一种实现方式中，偏移量确定单元被进一步配置为：在与立即数对应的维度上，将相应维度上的段基址范围内的段基址寄存器表示、偏移寄存器表示和立即数相加，以获得第一偏移量。在不同的维度上，将相应维度的段基址寄存器表示、偏移寄存器表示和立即数相加，可以以简易的方式获得第一偏移量，从而减少计算成本和功耗。

在本公开的第五方面的一种实现方式中，基于张量段的段属性确定张量段在多个维度中的每个维度上的元素数目集合包括：基于段属性，确定张量段在每个维度上的页数目以及每个页在每个维度上的元素数目；以及基于页数目和元素数目，确定元素数目集合。元素数目集合可以包括在至少一个维度上的至少一个元素数目。在本公开的实现方式中，张量段包括页，页包括元素。张量段可以具有第一多个维度，页具有第二多个维度，并且第二多个维度的维度数目不大于第一多个维度的数目。通过计算张量段在每个维度上的页数目和页在每个维度上的元素数目，可以例如通过乘法来确定在该维度上的元素数目，也即张量元素在该维度上的最大可能偏移范围。这样，可以通过简易的方式，确定元素数目集合。

在本公开的第五方面的一种实现方式中，越界状态指示确定单元被进一步配置为：确定第一偏移量集合中的每个偏移量是否超出元素数目集合中的、相应维度上的元素数目；以及如果第一偏移量集合中的至少一个偏移量超出元素数目集合中的、相应维度上的元素数目，则将针对第一张量元素的第一越界状态指示设置为第一值。

在本公开的第五方面的一种实现方式中，越界状态指示确定单元被进一步配置为：确定第一偏移量集合中的每个偏移量是否超出元素数目集合中的、相应维度上的元素数目；以及如果第一偏移量集合中的每个偏移量都不超出元素数目集合中的、相应维度上的元素数目，则将针对第一张量元素的第一越界状态指示设置为第二值。通过将第一越界状态指示在诸如谓词寄存器之类的设备中设置为不同值，可以通过读取所存储的值来确定是否越界。这给诸如程序调试、动态检测之类的后续操作带来便利，例如可以节省时间和功耗，因为这种越界检测无需从存储器返回具体数据，而仅是从处理引擎内部的寄存器返回状态值即可。因此，相比于从处理引擎外的存储器向处理引擎读取多字节的数据，这种从处理引擎内部的谓词寄存器读取单个或少量字节的状态值，可以显著减少传输和处理时间，并且相应地降低了处理功耗。

根据本公开的实施例的方法和电子设备，编程人员可以通过越界查询命令从诸如谓词寄存器之类的电路单元获得越界状态指示，例如特定值。对于读操作，还可以返回预先设置的默认值。这样，可以对诸如程序调试或动态检测之类的后续程序操作带来便利。此外，由于该越界查询指令并不涉及从存储器中返回所存储的具体数据或向其写入数据，而仅是给出越界状态的指示(例如逻辑1或0)，这可以避免从存储器中读取数据或写入数据所带来的时间延迟和大的操作功耗。

附图说明

通过结合附图对本公开示例性实施例进行更详细的描述，本公开的上述以及其他目的、特征和优势将变得更加明显，其中，在本公开示例性实施例中，相同的参考标号通常代表相同部件。

图1示出了本公开的多个实施例能够在其中实现的示例环境的示意图；

图2示出了根据本公开的一个实施例的芯片示意框图；

图3示出了根据本公开的一个实施例的三维张量示意框图；

图4示出了根据本公开的一个实施例的图像数据的页分配示意图；

图5示出了根据本公开的一个实施例的用于确定张量元素的越界状态的方法的示意流程图；以及

图6示出了根据本公开的一些实施例的电子装置的示意框图。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施例。虽然附图中示出了本公开的优选实施例，然而应该理解，本公开可以以各种形式实现而不应被这里阐述的实施例限制。相反，提供这些实施例是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

在本文中使用的术语“包括”及其变形表示开放性包括，即“包括但不限于”。除非特别申明，术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

如前文所提及的，在一些常规方案中，对于读操作，如果检测出地址越界，则直接返回0或其他预设的默认值，而对于写操作，如果地址检测出越界，则丢弃此次写操作。但是对于用户或设计人员而言，其无法通过读操作的返回0或其他值来明确判断存储是否越界，因为张量元素的值有可能为0或其他值。同时，用户也无法得知写操作是否越界。这给设计人员在编程过程中给后续一些操作带来不便利。

在本公开的一些实施例中，通过计算逻辑地址在张量段中的偏移量，并且将该偏移量与张量段的偏移范围进行比较，可以确定该逻辑地址是否越界。此外，将表示是否越界的第一越界状态指示在诸如谓词寄存器之类的装置中设置为不同值，可以通过读取所存储的值来确定是否越界。这给诸如程序调试、动态检测之类的后续操作带来便利，例如可以节省时间和功耗，因为这种越界检测无需从存储器返回具体数据，而仅是从处理引擎内部的寄存器返回状态值即可。因此，相比于从处理引擎外的存储器向处理引擎读取多字节的数据，这种从处理引擎内部的谓词寄存器读取单个或少量字节的状态值，可以显著减少传输和处理时间，并且相应地降低了处理功耗。

图1示出了本公开的多个实施例能够在其中实现的示例环境100的示意图。示例环境100例如可以是诸如计算机之类的具有计算能力的电子设备。在一个实施例中，示例环境100例如包括中央处理器(CPU)20、系统存储器10、北桥/存储器桥30、加速器子系统40、设备存储器50和南桥/输入输出(IO)桥60。系统存储器10例如可以是诸如动态随机存取存储器(DRAM)之类的易失性存储器。北桥/存储器桥30例如集成了内存控制器、PCIe控制器等，其负责CPU 20和高速接口之间的数据交换以及桥接CPU 20和南桥/IO桥60。南桥/IO桥60用于计算机的低速接口，例如串行高级技术接口(SATA)控制器等。加速器子系统40例如可以包括诸如图形处理器(GPU)和人工智能(AI)加速器等用于对图形、视频等数据进行加速处理的装置或芯片。设备存储器50例如可以是诸如DRAM之类的位于加速器子系统40外部的易失性存储器。在本公开中，设备存储器50也被称为片外存储器，即，位于加速器子系统40的芯片外部的存储器。相对而言，加速器子系统40的芯片内部也具有易失性存储器，例如一级(L1)高速缓存(cache)以及可选的二级(L2)高速缓存。这将在下文结合本公开的一些实施例具体描述。虽然在图1中示出了本公开的多个实施例能够在其中实现的一种示例环境100，但是本公开不限于此。本公开的一些实施例也可以在诸如ARM架构和RISC-V架构之类的具有诸如GPU之类的加速器子系统的一些应用环境中使用。

图2示出了根据本公开的一个实施例的加速器子系统200的示意框图。加速器子系统200例如可以是图1中加速器子系统40的芯片的一种具体实现方式。加速器子系统200例如是诸如GPU之类的加速器子系统芯片。在一个实施例中，加速器子系统200包括流处理器(SP)210、页表装置220、处理引擎(PE)单元230、直接存储器访问(DMA)控制器240、L1高速缓存(cache)260和L2高速缓存250。

加速器子系统200由诸如CPU 20之类的主机设备控制，并且接收来自CPU 20的指令。SP 210对来自CPU 20的指令进行分析，并且将经分析的操作指派给PE单元230、页表装置220和DMA控制器240进行处理。页表装置220用于管理加速器子系统200的片上虚拟存储。在本公开中，L2高速缓存250和诸如图1中的设备存储器50之类的片外存储器构成虚拟存储系统。页表装置220由SP 210、PE单元230和DMA控制器240共同维护。

PE单元230包括多个处理引擎(processing engine,PE)PE_1、PE_2……PE_N，其中N表示大于或等于1的整数。PE单元230中的每个PE可以是单指令多线程(SIMT)装置。在PE中，每个线程可以具有自己的寄存器堆(register file)，并且每个PE的所有线程还共享一个统一寄存器堆(uniform register file)。多个PE可以并行地执行相同或不同的处理工作，可以并行地进行下文所述的地址转换和存储器中目标数据的访问，从而减少处理时间。可以理解，多个PE处理的目标元素并不相同，并且目标元素所在的段、页、缓存行和元素的属性、尺寸、维度排序等可以有所不同，如下文具体描述。

每个线程可以在自己的寄存器堆与存储器子系统之间做线程级的数据交换。每个线程有自己的算数逻辑执行单元并使用自己的存储地址，其采用典型的寄存器存取架构(load-store architecture)。每个执行单元包括一个支持多种数据类型的浮点/定点单元以及一个算数逻辑单元。

大多数的指令执行算数和逻辑运算，例如，浮点和定点数的加、减、乘、除，或者逻辑与、或、非等。操作数来自于寄存器。存储器读写指令可以提供寄存器与片上/片外存储器之间的数据交换。一般地，PE中所有的执行单元可以同步地执行相同指令。通过使用谓词(predicate)寄存器，可以屏蔽部分执行单元，从而实现分支指令的功能。

在一个实施例中，图2的加速器子系统200可以例如执行如下操作：1)组建页表项内容和初始状态；2)将诸如图1中的设备存储器50之类的片外存储器上的数据搬运至片上存储器，例如L2高速缓存250；3)启动和执行程序；4)定义各个段并对张量以及存储的属性进行描述；5)在程序执行完成时，将执行结果的数据写入至片外存储器。

可以理解，在公开的实施例中，加速器子系统200所处理的数据主要针对多维张量。例如，在一个实施例中，张量可以是四维张量，其具有四个维度D1、D2、D3和D4，并且张量在各个维度上的尺寸可以不同。在另一些实施例中，张量可以是一维、二维、三维或更多维张量，本公开对此不进行限制。

此外，在本公开的实施例中，张量内部可以支持诸如uint8、int8、bfloat16、float16、uint16、int16、float32、int32、uint32以及其他自定义元素类型，本公开对此也不进行限制。对于张量的寻址而言，其以元素为基本单位。例如，如果元素类型为int8，则元素以字节为单位。再例如，如果元素类型为int16，则寻址基本单位为双字节，依此类推。

在一些情形中，张量所包含的数据量可能较大，而L2高速缓存250的容量有限，因此无法将张量整体加载至片上的L2高速缓存250。在本公开的一些实施例中，为了便于张量的并行处理，可以将张量划分为至少一个段。在张量仅包括一个段的情形下，张量即为段。而在张量包括多个段的情形下，段为张量的一部分。CPU 20可以通过指令指定段的各个部分由哪个PE进行处理。

图3示出了根据本公开的一个实施例的三维张量300的示意框图。三维张量300具有三个维度D1、D2和D3，并且包括第一段S1、第二段S2和第三段S3。CPU 20可以指定段S1的张量元素由PE_1、PE_2、PE_3、PE_4、PE_5、PE_6、PE_7和PE_8处理。此外，CPU 20还指定了第二段S2的张量元素由PE_1-PE_4处理。在本公开的实施例中，每个段所具有的尺寸可以不同，因此编程人员可以基于设计需要灵活配置段。实际上，页的划分可以在任意一个或多个维上实施，并且各个维度上划分的页数是相互独立的。

在一个实施例中，可以将张量元素存储于片上的高速存储器，例如L2高速缓存250。但由于片上的高速存储器的容量较少，因此在张量规模较大时，编程人员可以将张量划分为多个段，每个段描述张量一部分。核心程序(kernel)可以分多次启动，每次由DMA控制器240提前将张量的一个段由片外存储搬运到片内存储，并供kernel操作使用。在多次启动kernel后，张量包含的所有段均被处理，整个运行过程结束。当片上的高速存储器足以容纳kernel所要访问的所有张量时，一个张量仅需要一个段描述即可，kernel也只需要启动一次。

进一步地，在本公开的一些实施例中，在一个段内，还可以设置至少一个页以进一步细分张量。例如，在第一段S1中，具有4个页P[1]、P[2]、P[3]和P[4]。第二段S2仅具有一个页。在本公开的实施例中，每个段所具有的页的数目可以不同，因此编程人员可以基于设计需要灵活配置段内页的尺寸。例如，将页配置为适于整体存入L2高速缓存250。

如上所述，当对张量寻址时，最小的寻址单元是以元素为单元。一个页通常可以包括多个元素。目标元素所在的页在本文中被称为“目标元素页”。在本公开的一些实施例中，页可以包括多个缓存行。目标元素页可以位于L2高速缓存250中时，如果PE经由L1高速缓存260读取目标元素，则L2高速缓存250需要将L2高速缓存250中的包括目标元素在内的一小部分的物理地址连续的数据整体传输至L1高速缓存260。这一小部分数据也被称为缓存行(cache line)数据，而这种缓存机制基于空间邻近性原理。PE从L1高速缓存260读取数据仅需几个时钟周期，而L1高速缓存260从L2高速缓存250读取数据可能需要几十个甚至上百个时钟周期。因此，期望减少L1高速缓存260从L2高速缓存250读取数据的次数。虽然在此以“缓存行”来描述从L2高速缓存250到L1高速缓存260的最小传输数据单位，但在本公开中，这部分数据可以并不必然按行或列排列，一个“缓存行”里面的数据分布在多个维上，且各个维度上分布的数据尺寸不限于1。PE对一个段内的数据进行并行处理，PE的分配在数据的逻辑地址空间展开，独立于段的物理存储结构，具体如下文描述。

在图3中，第一页P[1]中的第一组缓存行被指定由PE_1处理，第二组缓存行被指定由PE_2处理。虽然在此以顺序示出了张量由多个PE依序处理，但是可以理解张量元素的处理独立于PE的顺序，本公开对此不进行限制。例如图3中的PE_2表示部分的张量元素可以由PE_M处理，其中M表示不大于N的任意整数。

图4示出了根据本公开的一个实施例的图像数据400的页分配示意图。图像数据是典型的二维张量。在一个实施例中，图像数据400例如为8*8像素。换言之，图像数据400在第一维D1具有8个像素，并且在第二维D2也具有8个像素。因此，图像数据400具有像素P00、P01…P07、P10…P77。在图4的实施例中，图像数据400仅具有一个段，但是按两个维度分为4个页P[1]、P[2]、P[3]和P[4]。4个页可以按第二维D2划分以分配给PE_1和PE_2处理，也可以按第一维D1划分以分配给PE_1和PE_2处理。此外，还可以按对角线划分。本公开对此不进行限制。

图5示出了根据本公开的一些实施例的对存储器进行访问的方法500的流程图。在一个实施例中，方法500例如可以由诸如GPU之类的加速器子系统实施，因此上面针对图1-图3描述的各个方面可以选择性地适用于方法500。

在502，方法500包括基于针对张量段中的第一张量元素的越界查询指令，确定第一张量元素在张量段的多个维度的第一偏移量集合。在一个实施例中，越界查询指令可以例如是

query.p0 Dp,segment_id:RF_offset:immediate

其中query表示越界查询，p0表示立即数所在的维度，Dp表示越界寄存器表示，segment_id表示段基址寄存器表示，RF_offset表示偏移寄存器表示，immediate表示立即数表示。虽然在此示出了一种具体的越界查询指令，但是本公开不限于此。可以理解，可以使用其它形式的越界查询指令，本公开对此不进行限制。

如上所述，一个张量可以包括多个张量段。每个张量段可以可以由一个或多个PE根据划分进行访问。PE访问的起始逻辑地址由基准点定义，基准点为张量空间内的一个逻辑地址，也即各PE在张量空间内的寻址基址。PE在段内寻址基于基准点展开，每个PE可以有自己的基准点。在一个实施例中，当所有PE的基准点均为张量段的起始点时，无需专门定义基准点。只有当需要不同基准点的时候，才需要显式为每个PE定义基准点。

加速器子系统使用面向张量结构的存储体系结构，每个存储段用SP命令规定张量属性。张量属性被存储在片内专用高速缓存中以供程序执行时使用。除此之外，SP 210还直接或间接定义了张量的存储属性。SP 210定义的有关张量的属性包括但不限于如下信息：张量段标识(ID)、张量段维度信息、张量段的页信息、张量段的尺寸信息、张量段的基准点信息、张量元素的交织信息、寻址过程中支持长模式的维度信息、段的地址符合属性等。

张量段ID在一次运行过程中具有唯一性，是访存或查询地址的重要组成部分。段维度信息用于表示张量具有的维度数量,即一维、二维、三维或四维。张量段的页信息包括起始页编号、以及各个维度上页的数目。张量段的尺寸信息用于表示张量段内的页在各个维度上的尺寸。张量段的基准点信息用于表示各个PE在张量段内的起始点的逻辑地址，即各个维度上的逻辑偏移。张量元素的交织信息用于表示张量元素在两个维度上是否交织。寻址过程中支持长模式的维度信息用于适配张量在某些维度上的更大寻址范围需求。段地址的符号属性用于表示张量段地址是否支持负数。

基于上述信息，可以根据程序地址的逻辑地址的表示segment_id:RF_offset:immediate来完成对段内某个张量元素的访问。在一个实施例中，越界查询可以伴随逻辑地址的访问产生。备选地，其也可以独立执行。越界查询指令与访存指令一样，需要张量元素的精确逻辑地址表示segment_id:RF_offset:immediate作为源操作数来执行越界查询。

在一个实施例中，虽然每个PE被分配了不同的段内逻辑偏移量，但是每个PE内部的线程依然可以访问其他PE甚至整个张量段内的任意元素。PE的基准点偏移可以在张量段的基地址信息中体现，而张量段的基地址信息可以由张量段ID索引。在基于基准点的寻址过程中，为了实现对PE外数据元素的访问，可以引入负地址支持，即访问相对于基准点的负偏移位置的存储单元。在一个实施例中，segment_id和immediate例如可以为负数。由于张量地址可以是多个维度，例如4D，因此负偏移也支持多个维度，例如4D，同时对于存储越界的判断也支持诸如4D之类的多个维度。

由于需要表示并且确定张量段中的多个维度地址的越界情况，因此源操作数segment_id:RF_offset:immediate中需要包括多个维度地址偏移信息(例如3维或4维地址偏移信息)，以适配不同维度的张量。在一个实施例中，源操作数segment_id:RF_offset:immediate中的寄存器以及立即数的位数是固定的，因此在不同维度的张量寻址过程中，每个维度所分配的位域的宽度也不尽相同。张量的维度越大，各个维度所分配的位数相对越少。

在一个实施例中，段基址寄存器表示以及RF寄存器表示的位域可以按近似均分原则为各个维度分配一定长度的位域。在一些情形下，有可能会因为寄存器表示的位宽无法被维度数目整除，而出现某些维度被分配相对较宽的位域的情况。另外，在一些情形下，张量在各个维度上的尺寸各不相同，为各个维度分配近似相等的位宽不是一种高效的地址编码方案。在一些实施例中，可以基于系统设计的复杂度以及地址编码的高效性的平衡，提出在某些维度上允许适当提供额外的位宽，以满足更大的寻址范围的需求。提供额外位宽的维度并不是一成不变的，可以根据张量的形状以及寻址要求在各个维度上灵活分配。

对于segment_id:RF_offset:immediate中的立即数部分，其位宽较为有限，无法一次性有效表达所有维度的偏移情况。在一个实施例中，可以采用四维(4D)模型的连续子集编码方式。即，立即数内的偏移量描述的是张量的一个或两个连续维度，其高维序号不得超过张量的最高维序号。例如，对于一维(1D)张量，立即数一次描述且只能描述第0维(以0为起始基数，下同)的偏移量；对于二维(2D)张量，立即数一次可以描述第0维和第1维的偏移量；对于三维(3D)张量，立即数一次可以描述第0维和第1维的偏移量或第1维和第2维的偏移量；对于4D张量，立即数一次可以描述第0维和第1维的偏移量、第1维和第2维的偏移量、或第2维和第3维的偏移量。

在一个实施例中，以4D张量内部张量元素A的地址ur0:r0:0x55aa为例，ur0为segment_id的一个具体示例，r0为RF_offset 的一个具体示例，0x55aa为immediate的一个具体示例。ur0寄存器内部的基址包括ur_addr3[7:0],ur_addr2[7:0],ur_addr1[7:0],ur_addr0[7:0]，其中ur_addr3[7:0]表示张量元素A在D4维上的基址，ur_addr2[7:0]表示张量元素A在D3维上的基址，ur_addr1[7:0]表示张量元素A在D2维上的基址，ur_addr0[7:0]表示张量元素A在D1维上的基址。此外，针对四维张量，r0可以包括内部的偏移地址，例如r_off3[7:0]、r_off2[7:0]、r_off1[7:0]和r_off0[7:0]。虽然在此以四维张量进行说明，但是这仅是示意而非对本公开的范围进行限制。张量也可以包括一维、二维、三维或更多维的情形。

在本公开的一个实施例中，方法500还包括：基于模式表示，确定段基址寄存器表示。如果某一维的地址属性打开了长模式，以张量元素A在D0维上的基址为例，其应该取12位，则D0维上的有效基址为ur_addr0[11:0]，其他维的基址仍然为ur_addr1[7:0]、ur_addr2[7:0]和ur_addr3[7:0]。如果张量元素A在D1维打开了长模式，则提取的有效基址为ur_addr1[11:0]，其他维的基址为ur_addr0[7:0]、ur_addr2[7:0]和ur_addr3[7:0]，依此类推。

由此可见，在该实施例中，在4D张量的情形下，每个维度上分配的地址域的位宽为12位，但是在长模式下，所有12位的内容均有效，而在非长模式下，12位的高4位为0，而只取低8位。虽然在此以4D的情形为例进行说明长模式和非长模式的区别，但是这仅是示例，可以根据需要设置其它维度张量情形下的每个维度上的位宽以及长模式和非长模式所选的位宽。例如，在3D张量的情形下，每个维度上分配的地址域的位宽为16位，但是在长模式下，所有16位的内容均有效，而在非长模式下，12位的高8位为0，而只取低8位。通过使用模式表示，可以针对不同的模式，例如长模式或默认模式(非长模式)，来确定逻辑地址在张量段内的偏移量。这样，可以兼容不同模式下的张量越界确定方案，以适配更多的张量情形。

在本公开的一个实施例中，该方法还包括基于越界查询指令确定与立即数对应的维度。例如，在越界查询指令query.p0 Dp, segment_id:RF_offset:immediate中，p0表示了被指定的立即数所对应的维度。immediate可以是一个16位的数据。根据指令中的后缀字段“p0”，可以确定immediate[7:0]表示张量元素A在D1维的偏移，immediate[15:8]表示张量元素A在D2维的偏移。在另一实施例中，如果越界查询指令中的后缀字段为“p1”，则可以确定immediate[7:0]为张量元素A在D2维的偏移，immediate[15:8]为张量元素A在D3维的偏移，以此类推。

在本公开的一个实施例中，方法500还包括：根据张量的维度，将相应维度上的段基址范围内的段基址寄存器表示和偏移寄存器表示相加，以获得第一偏移量。在本公开的一个实施例中，该方法还包括在与立即数并不对应的维度上，将相应维度上的段基址范围内的段基址寄存器表示和偏移寄存器表示相加，以获得第一偏移量。

在一个实施例中，如上所述，由于越界查询指令里规定了后缀字段“p0”，因此立即数immediate[7:0]表示张量元素A在D1维的偏移，immediate[15:8]表示张量元素A在D2维的偏移。在此情形下，张量元素A的逻辑地址可以表示为：

addr_A＝(ur_addr3[7:0]+r_off3[7:0],ur_addr2[7:0]+r_off2[7:0],ur_addr1[7:0]+r_off1[7:0]+immediate[15:8],ur_addr0[7:0]+r_off0[7:0]+immediate[7:0])

在另一实施例中，如果在D1维上打开了长模式，则张量元素A的逻辑地址可以表示为：

addr_A＝(ur_addr3[7:0]+r_off3[7:0],ur_addr2[7:0]+r_off2[7:0],ur_addr1[7:0]+r_off1[7:0]+immediate[15:8],ur_addr0[11:0]+r_off0[7:0]+immediate[7:0])

在另一实施例中，如果在D2维上打开了长模式，则张量元素A的逻辑地址可以表示为：

addr_A＝(ur_addr3[7:0]+r_off3[7:0],ur_addr2[7:0]+r_off2[7:0],ur_addr1[11:0]+r_off1[7:0]+immediate[15:8],ur_addr0[7:0]+r_off0[7:0]+immediate[7:0])

对于1D、2D、3D和4D，可以将逻辑地址的计算方式总结为下表1。

表1各个维度的逻辑地址计算

	1D	2D	3D	4D
Ur_addr3				[11:8]+[7:0]
Ur_addr2			[15:12]+[11:0]	[11:8]+[7:0]
Ur_addr1		[19:16]+[15:0]	[13:10]+[9:0]	[11:8]+[7:0]
Ur_addr0	[35:32]+[31:0]	[19:16]+[15:0]	[13:10]+[9:0]	[11:8]+[7:0]
R_off3				[7:0]
R_off2			[11:0]	[7:0]
R_off1		[15:0]	[9:0]	[7:0]
R_off0	[31:0]	[15:0]	[9:0]	[7:0]
immediate	[15:0]	[15:8]+[7:0]	[15:8]+[7:0]	[15:8]+[7:0]

在不同的维度上，将相应维度的段基址寄存器表示和偏移寄存器表示相加，可以以简易的方式获得第一偏移量，从而减少计算成本和功耗。

在504，方法500还包括基于张量段的段属性，确定张量段在多个维度中的每个维度上的元素数目集合。在本公开的一个实施例中，方法500可以包括：基于段属性，确定张量段在每个维度上的页数目以及每个页在每个维度上的元素数目；以及基于页数目和元素数目，确定元素数目集合。元素数目集合可以包括在至少一个维度上的至少一个元素数目。换言之，该集合可以包括各个维度上的元素数目。在本公开的实现方式中，张量段包括页，页包括元素。张量段可以具有第一多个维度，页具有第二多个维度，并且第二多个维度的维度数目不大于第一多个维度的数目。

在一个实施例中，可以依据张量段的定义信息，根据张量段的维数，各个维度上页的数目以及页内各个维度元素的数目，计算出张量段内各个维度上元素的数目。例如，在4D张量的情形下，可以基于段属性字段定义的各个维度上页的数目pages_per_dim＝(P[1],P[2],P[3],P[4])。此外，还可以确定各页上元素的数目elem_per_page＝(N[1],N[2],N[3],N[4])。在此情形下，可以得到各个维度上张量元素的数目elem_per_dim＝(N[1]*P[1],N[2]*P[2],N[3]*P[3],N[4]*P[4])。

虽然在此以4D示出了元素数目的计算方式，但是这仅是示意，而非对本公开的范围进行限制。针对其它维度的计算方法，在此不再赘述。通过计算张量段在每个维度上的页数目和页在每个维度上的元素数目，可以例如通过乘法来确定在该维度上的元素数目，也即张量元素在该维度上的最大可能偏移范围。这样，可以通过简易的方式，确定元素数目集合。

在506，方法500还包括基于第一偏移量集合和元素数目集合，确定针对第一张量元素的第一越界状态指示。在本公开的一个实施例中，基于第一偏移量集合和元素范围集合确定针对第一张量元素的第一越界状态指示包括：确定第一偏移量集合中的每个偏移量是否超出元素范围集合中的、相应维度上的元素范围；以及如果第一偏移量集合中的至少一个偏移量超出元素范围集合中的、相应维度上的元素范围，则将针对第一张量元素的第一越界状态指示设置为第一值。如果第一偏移量集合中的每个偏移量都不超出元素范围集合中的、相应维度上的元素范围，则将针对第一张量元素的第一越界状态指示设置为与第一值不同的第二值。

在一个实施例中，例如在上面所示的越界查询指令query.p0 Dp,segment_id:RF_offset:immediate来确定4D张量元素是否越界的情形下，假设长模式在D2维上并且指定立即数对应于D1和D2维，可以通过下面的一个示例比较来进行确定。

a)ur_addr3[7:0]+r_off3[7:0]>＝n3*p3

b)ur_addr2[7:0]+r_off2[7:0]>＝n2*p2

c)ur_addr1[11:0]+r_off1[7:0]+immediate[16:8]>＝n1*p1

d)ur_addr0[7:0]+r_off0[7:0]+immediate[7:0]>＝n0*p0

如果上述条件a)-d)中任一项成立，则可以确定张量元素越界，将越界状态指示设置为第一逻辑值，例如“0”。如果上述条件a)-d)均不成立，则可以确定张量元素不越界，将越界状态指示设置为第一逻辑值，例如“1”。虽然在此以4D情形示出了一个具体越界判定示例，但这仅是示意而非对本公开的范围进行限制。上述方法针对其它维度、长模式在其它维度或立即数对应于其它维度的情形都可以适用，本公开对此不进行限制。

此外，在一个实施例中，可以提供目标谓词寄存器以用于存放访问地址是否越界的标志。例如，在上面的示例中，指定寄存器Dp用于存放访问地址是否越界的标志。可以理解，每个线程拥有专属的谓词寄存器，以指示下一步是否进行特殊处理，例如程序调试或动态检测。由于谓词寄存器位于线程内部，因此在后续指令执行时，相比于存储在PE外部的存储器上的情形，谓词寄存器可以提供更为快速和便捷的越界查阅结果。另外，由于越界指示不是多个比特位的数据而仅是单个比特位的逻辑值，并且还无需在PE和PE外的存储器之间传输，因此也可以显著降低由此带来的功耗。

图6示出了根据本公开的一些实施例的电子装置600的示意框图。电子装置600可以被实现为或者被包括在图2的加速器子系统200中。电子装置600可以包括多个模块，以用于执行如图5中所讨论的方法500中的对应步骤。

如图6所示，电子装置600存储器包括偏移量集合确定单元602、元素数目集合确定单元604和越界状态指示确定单元606。偏移量集合确定单元602被配置为基于针对张量段中的第一张量元素的越界查询指令，确定第一张量元素在张量段的多个维度的第一偏移量集合。元素数目集合确定单元604被配置为基于张量段的段属性，确定张量段在多个维度中的每个维度上的元素数目集合。越界状态指示确定单元606被配置为基于第一偏移量集合和元素数目集合，确定针对第一张量元素的第一越界状态指示。

通过使用越界查询命令，可以将逻辑地址在张量段内对应的偏移量与张量段范围进行比较。一旦任一维度上的偏移量超出了张量段在该维度上的范围，则可以确定该逻辑地址越界，即超出了张量段的边界。继而，可以从诸如谓词寄存器之类的电路单元获得越界状态指示，例如特定值。这样，可以对诸如程序调试或动态检测之类的后续程序操作带来便利。此外，由于该越界查询指令并不涉及从存储器中返回所存储的具体数据或向其写入数据，而仅是给出越界状态的指示(例如逻辑1或0)，这可以避免从存储器中读取数据或写入数据所带来的时间延迟和大的操作功耗。

在一个实施例中，越界查询指令包括第一张量元素的逻辑地址表示，逻辑地址表示包括段基址寄存器表示、偏移寄存器表示和立即数，偏移量集合确定单元602被进一步配置为：基于段基址寄存器表示、偏移寄存器表示和立即数，计算第一偏移量集合。

在一个实施例中，电子装置600还包括：段基址寄存器表示确定单元，被配置为基于模式表示，确定段基址寄存器表示。通过使用模式表示，可以针对不同的模式，例如长模式或默认模式(非长模式)，来确定逻辑地址在张量段内的偏移量。这样，可以兼容不同模式下的张量越界确定方案，以适配更多的张量情形。

在一个实施例中，该方法还包括基于越界查询指令确定与立即数对应的维度。

在一个实施例中，偏移量确定单元被进一步配置为：根据张量的维度，将相应维度上的段基址范围内的段基址寄存器表示、偏移寄存器表示和立即数相加，以获得第一偏移量。在一个实施例中，偏移量确定单元被进一步配置为：在与立即数并不对应的维度上，将相应维度上的段基址范围内的段基址寄存器表示和偏移寄存器表示相加，以获得第一偏移量。在不同的维度上，将相应维度的段基址寄存器表示和偏移寄存器表示相加，可以以简易的方式获得第一偏移量，从而减少计算成本和功耗。

在一个实施例中，元素数目集合确定单元604被进一步配置为：基于段属性，确定张量段在每个维度上的页数目以及每个页在每个维度上的元素数目；以及基于页数目和元素数目，确定元素数目集合。在一个实施例中，偏移量确定单元被进一步配置为：在与立即数对应的维度上，将相应维度上的段基址范围内的段基址寄存器表示、偏移寄存器表示和立即数相加，以获得第一偏移量。在不同的维度上，将相应维度的段基址寄存器表示、偏移寄存器表示和立即数相加，可以以简易的方式获得第一偏移量，从而减少计算成本和功耗。

在一个实施例中，基于张量段的段属性确定张量段在多个维度中的每个维度上的元素数目集合包括：基于段属性，确定张量段在每个维度上的页数目以及每个页在每个维度上的元素数目；以及基于页数目和元素数目，确定元素数目集合。元素数目集合可以包括在至少一个维度上的至少一个元素数目。在本公开的实现方式中，张量段包括页，页包括元素。张量段可以具有第一多个维度，页具有第二多个维度，并且第二多个维度的维度数目不大于第一多个维度的数目。通过计算张量段在每个维度上的页数目和页在每个维度上的元素数目，可以例如通过乘法来确定在该维度上的元素数目，也即张量元素在该维度上的最大可能偏移范围。这样，可以通过简易的方式，确定元素数目集合。

在一个实施例中，越界状态指示确定单元606被进一步配置为：确定第一偏移量集合中的每个偏移量是否超出元素数目集合中的、相应维度上的元素数目；以及如果第一偏移量集合中的至少一个偏移量超出元素数目集合中的、相应维度上的元素数目，则将针对第一张量元素的第一越界状态指示设置为第一值。

在一个实施例中，越界状态指示确定单元606被进一步配置为：确定第一偏移量集合中的每个偏移量是否超出元素数目集合中的、相应维度上的元素数目；以及如果第一偏移量集合中的每个偏移量都不超出元素数目集合中的、相应维度上的元素数目，则将针对第一张量元素的第一越界状态指示设置为第二值。通过将第一越界状态指示在诸如谓词寄存器之类的设备中设置为不同值，可以通过读取所存储的值来确定是否越界。这给诸如程序调试、动态检测之类的后续操作带来便利，例如可以节省时间和功耗，因为这种越界检测无需从存储器返回具体数据，而仅是从处理引擎内部的寄存器返回状态值即可。因此，相比于从处理引擎外的存储器向处理引擎读取多字节的数据，这种从处理引擎内部的谓词寄存器读取单个或少量字节的状态值，可以显著减少传输和处理时间，并且相应地降低了处理功耗。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

一种用于确定张量元素的越界状态的方法，包括：

基于针对张量段中的第一张量元素的越界查询指令，确定所述第一张量元素在所述张量段的多个维度的第一偏移量集合；

基于所述张量段的段属性，确定所述张量段在所述多个维度中的每个维度上的元素数目集合；以及

基于所述第一偏移量集合和所述元素数目集合，确定针对所述第一张量元素的第一越界状态指示。
根据权利要求1所述的方法，其中所述越界查询指令包括所述第一张量元素的逻辑地址表示，所述逻辑地址表示包括段基址寄存器表示、偏移寄存器表示和立即数，确定所述第一张量元素在所述张量段中的所述第一偏移量集合包括：

基于所述段基址寄存器表示、所述偏移寄存器表示和所述立即数，计算所述第一偏移量集合。
根据权利要求2所述的方法，还包括：基于模式表示，确定所述段基址寄存器表示。
根据权利要求3所述的方法，其中基于所述段基址寄存器表示、所述偏移寄存器表示和所述立即数，计算所述第一偏移量包括：

根据所述张量的维度，将相应维度上的所述段基址范围内的所述段基址寄存器表示、所述偏移寄存器表示和所述立即数相加，以获得所述第一偏移量。
根据权利要求1-4中任一项所述的方法，其中基于所述张量段的段属性确定所述张量段在所述多个维度中的每个维度上的元素数目集合包括：

基于所述段属性，确定所述张量段在每个维度上的页数目以及每个页在每个维度上的元素数目；以及

基于所述页数目和所述元素数目，确定所述元素数目集合。
根据权利要求1-4中任一项所述的方法，其中基于所述第一偏移量集合和所述元素数目集合确定针对所述第一张量元素的第一越界状态指示包括：

确定所述第一偏移量集合中的每个偏移量是否超出所述元素数目集合中的、相应维度上的元素数目；以及

如果所述第一偏移量集合中的至少一个偏移量超出所述元素数目集合中的、相应维度上的元素数目，则将针对所述第一张量元素的第一越界状态指示设置为第一值。
根据权利要求1-4中任一项所述的方法，其中基于所述第一偏移量集合和所述元素数目集合确定针对所述第一张量元素的第一越界状态指示包括：

确定所述第一偏移量集合中的每个偏移量是否超出所述元素数目集合中的、相应维度上的元素数目；以及

如果所述第一偏移量集合中的每个偏移量都不超出所述元素数目集合中的、相应维度上的元素数目，则将针对所述第一张量元素的第一越界状态指示设置为第二值。
一种计算机可读存储介质，存储多个程序，所述多个程序被配置为一个或多个处理引擎执行，所述多个程序包括用于执行权利要求1-7中任一项所述的方法的指令。
一种计算机程序产品，所述计算机程序产品包括多个程序，所述多个程序被配置为一个或多个处理引擎执行，所述多个程序包括用于执行权利要求1-8中任一项所述的方法的指令。
一种电子装置，包括：

流处理器；

页表装置，耦合至所述流处理器；

存储器；

处理引擎单元，耦合至所述流处理器、所述存储器和所述页表装置，被配置为执行权利要求1-8中任一项所述的方法。
一种电子装置，包括：

偏移量集合确定单元，被配置为基于针对张量段中的第一张量元素的越界查询指令，确定所述第一张量元素在所述张量段的多个维度的第一偏移量集合；

元素数目集合确定单元，被配置为基于所述张量段的段属性，确定所述张量段在所述多个维度中的每个维度上的元素数目集合；以及

越界状态指示确定单元，被配置为基于所述第一偏移量集合和所述元素数目集合，确定针对所述第一张量元素的第一越界状态指示。
根据权利要求11所述的电子装置，其中所述越界查询指令包括所述第一张量元素的逻辑地址表示，所述逻辑地址表示包括段基址寄存器表示、偏移寄存器表示和立即数，所述偏移量集合确定单元被进一步配置为：

基于所述段基址寄存器表示、所述偏移寄存器表示和所述立即数，计算所述第一偏移量集合。
根据权利要求12所述的电子装置，还包括：段基址寄存器表示确定单元，被配置为基于模式表示，确定所述段基址寄存器表示。
根据权利要求13所述的电子装置，其中所述偏移量确定单元被进一步配置为：

根据所述张量的维度，将相应维度上的所述段基址范围内的所述段基址寄存器表示、所述偏移寄存器表示和所述立即数相加，以获得所述第一偏移量。
根据权利要求11-14中任一项所述的电子装置，其中所述元素数目集合确定单元被进一步配置为：

基于所述段属性，确定所述张量段在每个维度上的页数目以及每个页在每个维度上的元素数目；以及

基于所述页数目和所述元素数目，确定所述元素数目集合。
根据权利要求11-14中任一项所述的电子装置，其中所述越界状态指示确定单元被进一步配置为：

确定所述第一偏移量集合中的每个偏移量是否超出所述元素数目集合中的、相应维度上的元素数目；以及

如果所述第一偏移量集合中的至少一个偏移量超出所述元素数目集合中的、相应维度上的元素数目，则将针对所述第一张量元素的第一越界状态指示设置为第一值。
根据权利要求11-14中任一项所述的电子装置，其中所述越界状态指示确定单元被进一步配置为：

确定所述第一偏移量集合中的每个偏移量是否超出所述元素数目集合中的、相应维度上的元素数目；以及

如果所述第一偏移量集合中的每个偏移量都不超出所述元素数目集合中的、相应维度上的元素数目，则将针对所述第一张量元素的第一越界状态指示设置为第二值。