WO2022111703A1

WO2022111703A1 - 用于获取硬件性能数据的方法、设备和系统

Info

Publication number: WO2022111703A1
Application number: PCT/CN2021/134128
Authority: WO
Inventors: 王石雨; 许金超
Original assignee: 中科寒武纪科技股份有限公司
Priority date: 2020-11-30
Filing date: 2021-11-29
Publication date: 2022-06-02
Also published as: CN114579131A

Abstract

一种用于获取硬件性能数据的方法、设备和系统。该设备可以包括在组合处理装置的计算处理装置中，该计算处理装置可以包括一个或多个数据处理装置。前述的组合处理装置还可以包括接口装置和其他处理装置。所述计算处理装置与其他处理装置进行交互，共同完成用户指定的计算操作。组合处理装置还可以包括存储装置，该存储装置分别与设备和其他处理装置连接，用于存储该设备和其他处理装置的数据。该方法可以有效地获取与执行目标代码相关的硬件性能数据。

Description

用于获取硬件性能数据的方法、设备和系统

相关申请的交叉引用

本申请要求于2020年11月30日申请的，申请号为202011379859X，名称为“用于获取硬件性能数据的方法、设备和系统”的中国专利申请的优先权。

技术领域

本披露一般地涉及计算机领域。更具体地，本披露涉及用于获取目标代码的硬件性能数据的方法、设备、编译器、异构系统和计算机可读存储介质。

背景技术

在软件开发的过程中，性能通常是最受关注的指标之一。当实现同样的功能时，不同的实现方式在性能上存在很大的差异。因此，软件开发人员在编程的过程中，往往会借助于性能分析工具来查看代码在硬件实际运行过程中的性能数据，如缓存未命中(“cache miss”)或分支未命中(“branch miss”)等，以作为优化程序性能的参考。

目前，常见的性能分析工具支持基于采样的方式来获取硬件的性能数据。然而，基于采样的方式来获取性能数据存在多种缺陷。首先，对于执行频次较低或者执行时间较短的代码片段来说，这样的采样方式可能存在误差。其次，这样的采样方式也无法利用编译阶段的程序中间表达信息，很难针对性地获取程序特定片段的性能数据，如获取特定函数调用的性能数据信息。

发明内容

至少为了解决上述的一个或多个问题，本披露提出在目标代码中插入指令来有效地获取硬件性能数据，从而对目标代码的性能做出准确地判断，以便程序开发人员有针对性地优化代码，提升代码性能。

在第一方面中，本披露公开了一种用于获取目标代码的硬件性能数据的方法，包括：针对所述目标代码来插入用于获取硬件性能数据的性能读取指令；以及编译所述性能读取指令和目标代码，以便生成可执行程序，其中通过运行所述可执行程序来获取与所述目标代码的执行相关的所述硬件性能数据。

在第二方面中，本披露公开了一种用于获取目标代码的硬件性能数据的设备，包括：至少一个处理器；至少一个存储器，其用于存储计算机程序指令，当所述计算机程序指令由所述至少一个处理器执行时，使得所述设备执行前述方法及其稍后描述的多个实施例。

在第三方面中，本披露公开了一种计算机可读存储介质，其存储有用于获取目标代码的硬件性能数据的计算机程序指令，当所述计算机程序指令由至少一个处理器来执行时，实现前述方法及其稍后描述的多个实施例。

在第四方面中，本披露公开了一种用于获取目标代码的硬件性能数据的编译器，包括：插入模块，其配置成针对所述目标代码插入性能读取指令，其中所述性能读取指令用于获取硬件性能数据；以及编译模块，其配置成对所述性能读取指令和目标代码进行编译，以便生成可执行程序，其中所述可执行程序的运行使得获取与所述目标代码的执行相关的所述硬件性能数据。

在第五方面中，本披露公开了一种用于获取目标代码的硬件性能数据的异构系统，包括互联的主机和设备，其中：所述主机包括前述的编译器，并且配置成对所述设备执行主控和协同操作，以获取所述设备执行所述可执行程序时产生的所述硬件性能数据；以及所述设备包括一个或多个处理器核，并且配置成：执行所述编译器生成的所述可执行程序；以及向所述主机发送所述硬件性能数据。

在第六方面中，本披露公开了一种编译器，其配置成执行上述方法及其稍后描述的多个实施例。

在第七方面中，本披露公开了一种板卡，包括上述异构系统及其稍后描述的多个实施例。

通过利用本披露上面描述的方案，软件开发人员可以对任意期望的目标代码进行性能测试，从而本披露的方案为用户提供了更高的自由度和灵活性。例如，通过本披露的方案，用户可以查看任意的代码片段，不会出现因代码片段执行频次低或者执行时间短而导致采集到的硬件性能数据不准确的情况。在一些应用场景中，本披露的方案同时支持手动和自动插入性能读取指令并且还支持函数级的插入，从而向用户提供了更多的测试途径。基于此，用户既可以查看任意感兴趣的代码片段的硬件性能数据信，也可以在编译阶段通过编译选项来实现函数级的硬件性能数据的获取。在一些场景中，本披露的方案还可以扩展应用到对特定操作如数据拷贝的硬件性能数据的获取等。

附图说明

通过结合附图，可以更好地理解本发明的上述特征，并且其众多目的，特征和优点对于本领域技术人员而言是显而易见的，其中相同的附图标记表示相同的元件，并且其中：

图1是示出根据本披露实施例的用于获取硬件性能数据的方法的简化流程图；

图2是示出根据本披露实施例的用于获取硬件性能数据的方法的详细流程图；

图3是示出根据本披露实施例的后端编译过程的流程图；

图4是示出根据本披露实施例的用于获取硬件性能数据的编译器的示意框图；

图5是示出根据本披露实施例的调用性能读取函数的流程图；

图6是示出根据本披露实施例的用于获取硬件性能数据的异构系统的示意架构图；

图7是示出根据本披露实施例的一种组合处理装置的结构图；以及

图8是示出根据本披露实施例的一种板卡的结构示意图。

具体实施方式

至少针对于现有技术中硬件性能数据的获取极其低效的问题，本披露的方案提出在目标代码(或称待测试的用户程序)中插入性能读取指令，并且将目标代码和该性能读取指令共同进行编译，以便得到用于准确获取硬件性能数据的可执行程序。在一个实施场景中，当本披露的方案应用于由主机(“host”)和设备(“device”)构成的异构系统中时，通过在主机侧执行编译过程以获得上述可执行程序，并且在设备侧处执行该可执行程序，本披露的方案可以准确地获取目标代码在设备侧运行时的相关硬件性能数据。由此，软件开发人员可以对目标代码的性能做出准备地判断，并且在必要时做出进一步的程序优化。

下面将结合本披露实施例中的附图，对本披露实施例中的技术方案进行清楚、完整地描述，显然所描述的实施例是本公开一部分实施例，而不是全部的实施例。基于本披露中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本披露保护的范围。

图1是示出根据本披露实施例的用于获取硬件性能数据的方法100的简化流程图。如图1所示，在步骤S102处，针对目标代码来插入用于获取硬件性能数据的性能读取指令。根据不同的应用场景，本披露的目标代码可以是预定进行性能测试的程序片段或者是用户感兴趣的代码片段。在一个实施例中，本披露的硬件性能数据可以包括例如从专用处理器(例如图像处理器GPU、人工智能处理器等)或通用处理器(例如通用CPU)的多个计数寄存器获取例如高速缓存未命中(“cache misss”)或分支未命中(“branch miss”)等程序执行时的硬件相关数据。基于这样的相关数据的获取，程序开发者能够收集程序代码在执行过程中某些事件(如前述的各类未命中或CPU时钟)等相关信息，从而使得开发者能够根据这些数据来判断代码的运行情况以便做出调整和优化。

在一个实施例中，步骤S102中的插入步骤可以是通过接收用户输入来插入所述性能读取指令。在该插入方式下，本披露的方案可以根据用户输入，针对至少一个代码片段(例如用户感兴趣的代码片段)来插入性能读取指令。与该手动插入方式不同，在另一个实施例中，步骤S102中的插入步骤也可以通过编译器(稍后结合图4详细描述)来自动地插入所述性能读取指令。根据不同的应用场景，前述的插入性能读取指令的操作还可以通过函数级插桩的方式来完成。换句话说，本披露的插入操作可以是针对至少一个函数来插入所述性能读取指令，以获取一个或者多个函数在硬件上执行时所产生的相应硬件性能数据。进一步，在一些场景中，也可以设置针对于手动插入和自动插入的选项，从而用户可以根据偏好或优选项来选择手动插入或自动插入。

在一个实施例中，本披露的性能读取指令可以是汇编指令，并且该汇编指令内包括用于标识目标代码的函数名的一个或多个参数。在一个应用场景中，本披露的性能读取指令可以表达为“readperf.begin/end”，其中目标代码可以位于起始指令“readperf.begin”和结束指令“readperf.end”之间。换句话说，可以在目标代码的起始和结束处分别插入“readperf.begin”和“readperf.end”，以便后续执行性能读取指令时获取与目标代码相关联的硬件性能数据。根据硬件支持的运算位数的不同，包括在性能读取指令中、用于标识目标代码的函数名的参数可以是具有不同位数的参数。例如，当硬件构架支持64位的整型数运算时，可以通过一个64位的整型数参数来代表函数名。相反，当硬件架构不支持64位运算时，则可以通过两个32位的整型数参数来代表函数名。在一个实现场景中，还可以通过压缩算法(例如哈希算法)对函数名进行压缩，以获得代表函数名的前述一个或多个参数。

在完成步骤S102的插入操作后，方法前进到步骤S104处。在该步骤处，方法100编译所述性能读取指令和目标代码，以便生成可执行程序，其中通过运行所述可执行程序，可以获取与所述目标代码的执行相关的硬件性能数据。在一个实现场景中，在对性能读取指令和目标代码进行编译后，可以生成目标(“object”)文件，其包括可以由处理器直接识别的二进制代码。当选择使用不同的编译器时，生成前述目标文件的方式可能有所不同，因此本披露的方案并不对编译器作任何的限制。在生成目标文件后，可以对目标文件进行链接，即将目标文件中的代码进行连接以便形成由处理器执行的可执行文件。

关于上面提到的编译过程，在一个实施例中，可以针对插入性能读取指令的目标代码来置入用于使能硬件性能计数器的性能启用指令。通过该性能启动指令，可以在执行目标代码前启用处理器内的相关性能计数器，以便对相关事件进行计数。例如，可以从所述处理器核的性能监视单元的专用寄存器(充当计数器的角色)来获取硬件性能数据。根据不同的场景，前述的一个或多个专用寄存器可以用于对在处理器核内发生的事件(例如缓存或分支的命中或非命中等)进行计数和/或累加。

在一个实施例中，本披露的编译过程中包括执行第一编译任务和第二编译任务，其中在第一编译任务中，可以对插入所述性能读取指令后的所述目标代码进行编译，以生成汇编代码。接着，在第二编译任务中，将所述汇编代码编译为目标文件，并可以根据前述汇编代码中的所述性能读取指令来在所述汇编代码中置入上文的所述性能启用指令。附加地，在所述第二编译任务中，还可以根据性能读取指令来生成对应的性能读取函数，以便将所述性能读取指令的执行转化为对所述性能读取函数的执行。例如，可以针对前述的“readperf.begin/end”来生成性能读取函数.readperf region，从而可以通过调用该函数来执行性能数据的读取操作。

在一些应用场景中，当需要在一种或多种处理器核上测试目标代码以获取相关的硬件性能数据时，本披露的方法还可以包括根据待执行所述可执行程序的处理器核的标识，生成对应于所述标识的数据导出指令，以用于将所述硬件性能数据导出。在一个实施例中，当本披露的方案应用于支持异构的设备(“device”)时，例如当该设备具有智能处理单元(“Intelligence Processing Unit”，简写为“IPU”)和存储器处理单元(“Memory Processing Unit”，简写为“MPU”)时，通过所述数据导出指令，可以沿不同的数据传递通路将硬件性能数据从设备向外部传递，例如向主机(“host”)传递。

以上结合图1对本披露的用于获取目标代码的硬件性能数据的方法进行了详细的描述。下面将结合图2对可以作为图1所示方法100的一种具体实施方式的方法200进行详细的描述。

图2是示出根据本披露实施例的用于获取硬件性能数据的方法200的详细流程图。鉴于方法200可以视为图1中所示方法100的一种实施方式，因此结合图1所做的描述也同样适用于方法200，并且相同的技术内容将在下文中不再赘述。

如图2中所示，在步骤S202处，方法200可以接收用户编制或输入的用户程序，其中该用户程序可以是包括如前所述的目标代码，其包括用户感兴趣的一个或多个代码片段。接着，在步骤S204处，方法200可以判断是否对用户程序中的目标代码执行函数级的自动插桩操作。如本领域技术人员所知，为了分析程序状态和性能，可以在目标代码中某些位置中插入或修改一些代码(即为“插桩”操作)，从而在目标代码运行过程中获取某些程序状态并加以分析。进一步，函数级插桩实现在函数中插入或修改代码。根据本披露的方案，通过插桩操作可以实现对核函数(“kernel”)级的硬件性能数据的获取。

当在步骤S204处判断执行函数级自动插桩时，则在步骤S206处，方法200可以自动插入本披露的性能读取指令，例如自动插入汇编指令“readperf”。替代地，当在步骤S204处判断不执行函数级自动插桩操作时，则在步骤S208处，方法200可以接收用户的手动输入来在目标代码中插入性能读取指令。在一个实施例中，该自动输入或手动输入可以通过对编译器的编译选项进行设置来实现。当选择执行手动输入时，用户可以选择在感兴趣的目标代码前后插入性能读取指令，从而可以获得特定片段的硬件性能数据。

在插入性能读取指令后，则方法200前进到步骤S210处。在该步骤处，方法200可以执行前端编译操作，也即执行结合图1所描述的第一编译任务。经过前端编译操作后，可以在步骤S212处得到汇编代码。接着，方法200在步骤S214处执行后端编译操作，也即执行结合图1所描述的第二编译任务。经过后端编译操作后，可以在步骤S216生成包括指令段和数据段的目标(“object”)文件。在得到目标文件后，接着在步骤S218处，方法200可以执行链接操作，以便将不同部分的代码和数据收集和组合成为一个例如称为载入模块或可执行文件的实体，其可以被例如设备上的操作系统直接执行。最终，通过执行方法200的执行，可以在步骤S220处获得可执行程序。如前所述，通过该可执行程序的执行，本披露的方案可以获取与目标代码的执行相关的硬件性能数据。

以上结合图1和图2对本披露的获取硬件性能数据的方案进行了详细的描述。利用图1和图2所示的方法，用户可以查看任意感兴趣的代码片段，从而不会因为代码片段执行频率低或执行时间短而造成获得的硬件性能数据不准确的情况。换句话说，本方案的获取硬件性能数据的方案在使用方面具有更高的自由度和灵活度。另外，本披露的方案也支持在编译阶段通过编译选项的选择来实现函数级别的硬件性能数据的有效获取。在一个应用场景中，当本披露的性能读取指令插入在用于数据拷贝的代码片段中，还能够获取与数据拷贝操作相关的硬件性能数据。

为了更好地理解本披露结合图1和图2所描述的后端编译操作，下面将结合图3来详细描述该后端编译过程。

图3是示出根据本披露实施例的后端编译过程300的流程图。可以理解的是后端编译过程300是图1所述的第二编译任务和图2所示的步骤S214的进一步细化，因此前述关于第二编译任务和步骤S214所做的描述也同样适用于后端编译过程300。

如图3中所示，在步骤S302处，过程300获得汇编代码，例如图2步骤S212处所输出的汇编代码。接着，在步骤S304处，过程300可以判断该汇编代码中是否包括本披露的性能读取指令，例如汇编指令readperf。当在步骤S304处判断存在性能读取指令时，则可以插入性能启用指令“perf_start”，其用于使能硬件性能监视单元(“Performance Monitoring Unit”,简称PMU)上的一个或多个硬件性能计数器(“Performance Monitoring Counter”，简称PMC)。

接着，在步骤S308处，过程300可以同时生成性能读取函数“readperf”，该性能读取函数可以视为编译器的内置函数，从而过程300可以在步骤S310处将汇编代码中的性能读取指令“readperf”化简为对性能读取函数的调用，该调用可以如图3中所示表示为“call readperf”。在一个实施例中，本披露的性能读取函数“readperf”中可以包含用于获取程序执行时的硬件性能相关数据的二进制指令，如用于获取高速缓存未命中(“cache misss”)或分支未命中(“branch miss”)等的二进制指令。本披露的方案通过对内置的该性能读取函数的调用，可以简化代码的重复编译过程，从而可以提高代码的编译效率。最终，经过编译操作后，可以在步骤S312处获得目标(“object”)文件，也即图2中步骤S216处生成的目标文件。当在步骤S304处判断汇编代码中并不存在本披露的性能读取指令，则可以对汇编代码执行常规的编译操作，从而在步骤S312处获得常规的目标代码，也即不具有获得硬件性能数据功能的目标代码。

上文结合图1-图3对本披露的编译过程进行了详细的描述。可以理解的是本披露的编译过程(至少包括指令插入、编译，直至生成可执行文件)可以由编译器来实现。为此，下面将结合图4对能够执行本披露方案的编译器进行描述。

图4是示出根据本披露实施例的用于获取硬件性能数据的编译器400的示意框图。如图4所示，本披露的编译器400包括插入模块402，其配置成针对目标代码插入性能读取指令，其中所述性能读取指令用于获取硬件性能数据。进一步，编译器400还包括编译模块404，其配置成对所述性能读取指令和目标代码进行编译，以便生成可执行程序，其中所述可执行程序的运行使得获取与所述目标代码的执行相关的硬件性能数据。在一个实施例中，所述编译模块404可以包括前端编译单元404-1和后端编译单元404-2，其中前端编译单元可以配置成执行如结合图1和图2所描述的第一编译任务，而所述后端编译单元可以配置成执行如结合图1、图2和图3所描述的第二编译任务。

通过上面的描述，本领域技术人员可以理解本披露的编译器400可以配置成执行前文结合图1-图3所描述的方法步骤，从而生成可以用于获取硬件性能数据的可执行程序。鉴于前述关于图1-图3所做的描述也同样适用于编译器所执行的操作，因此关于编译器400的操作此处不再赘述。

进一步，上述对于本披露的编译器400的结构框图仅仅是示例性的而非限制性的，并且本领域技术人员根据本披露的教导也可以想到采用别的结构来实现。例如，在一个实施例中，本披露的编译器可以直接实现为前端编译单元(或模块)和后端编译单元(或模块)，其中前端编译单元可以用于接收自动或手动插入的性能读取指令，并且将目标代码编译成汇编代码。对应地，后端编译单元可以用于将前端编译单元输出的汇编代码进行编译以生成目标文件，然后再经链接来生成本披露的用于获取硬件性能数据的可执行程序。总之，本披露公开的编译器可以配置成执行结合图1-图4所描述的操作，以生成所述可执行程序。

图5是示出根据本披露实施例的调用性能读取函数的过程500的流程图。如前所述，可以由编译器(或前述的后端编译单元)在第二编译任务中执行对内置的性能读取函数的调用，从而实现这里所示出的过程500。

如图5所示，该过程开始于步骤S502并且在步骤S504处，当性能读取指令中包括函数名的哈希值时，则在作为内置函数的性能读取函数中写入(或称记录)对应的哈希值。如果不存在相应的哈希值时，则在性能读取函数中写入零。如前所述，通过将待测试的函数以对应的哈希值来标识，可以有效的减小用于函数名的数据开销。当没有哈希值时，可以认为此次是针对于非函数级的代码片段进行的操作，以便获取相关联的硬件性能数据。可以理解的是，步骤S504是可选的步骤，并且在一些应用场景中，也可以不对函数哈希值进行记录。

接着，在步骤S506处，确定处理器核的标识符(ID)(或者类型)，例如图中判断执行所述可执行程序的处理器核是否是MPU。根据该判断，可以生成对应于标识的数据导出指令，即对应于MPU的MPU数据导出指令和对应于IPU的IPU数据导出指令，其中不同数据导出指令指示了硬件性能数据从设备向主机迁移的不同方式。

具体地，当在步骤S506处判断为MPU时，则编译器生成使得可以执行步骤S508、S510和S512中所示操作的MPU数据导出指令。如图所示，当该MPU数据导出指令在设备侧执行时，可以在步骤S508处执行从MPU的PMU的专用寄存器(“spr”)获取所述硬件性能数据，并且将获得的硬件性能数据从专用寄存器写入(或称传递)到通用寄存器(“gpr”)。接着，在步骤S510和S512处，可以将硬件性能数据从gpr写入到静态随机存取存储器(“sram”)，并且经其再写入到全局动态随机存取存储器(“gdram”)，其可以是双倍速率同步动态随机存储器(“DDR SDRAM”)的一种。

类似地，当在步骤S506处确定处理器核的标识符并不是MPU(也即是IPU)时，则编译器生成使得可以执行步骤S516、S518和S520中所示操作的IPU数据导出指令。如图所示，当该IPU数据导出指令在设备侧执行时，可以在步骤S516处执行从IPU的PMU的专用寄存器(“spr”)获取所述硬件性能数据，并且将获得的硬件性能数据从专用寄存器写入(或称传递)到通用寄存器(“gpr”)。接着，在步骤S518和S520处，可以将硬件性能数据从gpr写入到非易失性随机存取存储器(“nram”)，并且经其再写入到全局动态随机存取存储器(“gdram”)。

当在调用性能读取函数并生成相应的数据导出指令后，过程500结束于步骤S514。可以看出，当在设备侧处运行时，基于编译上述性能读取函数所获得的数据导出指令，本披露的可执行程序可以以不同的数据迁移方式从设备获取硬件性能数据。在一些应用场景中，本披露的方案可以获取某个时刻单个硬件PMU数据，并且通过带返回值的函数接口来向用户呈现。在另外一些场景中，本披露的方案可以获取所有硬件的PMU的数据。在该情形中，可以不带返回值的函数桩点来实现，其中可以通过在运行时间(“runtime”)生成文件来获取硬件性能数据。

图6是示出根据本披露实施例的用于获取硬件性能数据的异构系统600的示意架构图。如图6中所示，该异构系统600包括互联的主机602和设备604。在一个实施例中，主机配置成对设备执行主控和协同操作，以获取设备执行本披露的可执行程序时产生的硬件性能数据。如图中所示，二者通过双向的传输通路606进行交互。更具体地，二者可以经由传输通路并通过图中所示出的runtime_api模块和驱动程序(如“driver_api”，图中未示出)来进行关于硬件性能数据的交互。可选地，二者还可以仅通过驱动程序(如“driver_api”，图中未示出)来进行关于硬件性能数据的交互。

根据本披露的方案，主机602可以包括前文所描述的编译器并且配置成执行如结合图1-图5所描述的编译操作，从而生成所述可执行程序。在一个实施例中，所述设备包括一个或多个处理器核，如图中所示出的IPU 610和MPU 608。

在获取硬件性能数据的操作中，主机可以令设备执行可执行程序，并且在执行前或期间通过运行时(如图中的runtime_api模块)向设备端提供硬件性能数据存储的目标GDRAM的地址(即存储地址信息)和/或硬件性能数据的存储空间大小(即存储空间信息)。之后，主机上运行的驱动程序(如“driver_api”，图中未示出)可以根据上述的目标GDRAM的地址和存储空间大小等信息确定硬件性能数据的在GDRAM上的实际存储位置。同时，驱动程序可以将编译后的可执行程序拷贝至设备上，以使得设备可以执行该可执行程序。当设备执行所述可执行程序时，其将实施如结合图5所讨论的MPU或IPU数据导出指令，以将获取的硬件性能数据导出并传送到GDRAM的前述地址处。此后，主机可以通过“driver_api”和runtime_api模块从GDRAM的前述地址获取硬件性能数据。

根据不同的应用场景，本披露还提出对获得的硬件性能数据进行各类转换，以用于针对所述硬件性能数据的后续处理。例如，runtime_api模块可以将收集的硬件性能数据转换成二进制文件。又例如，主机可以利用另一解析模块(如图中所示“cnperf-cli”)将前述的二进制文件解析成.csv格式的文件，以用于后续的处理和/或可视化显示。

在其他实施例中，本公开的方法还可以是在编译后生成的可执行程序中插入性能读取指令，此时插入的性能读取指令可以是设备可以执行的二进制指令。

可选地，主机上运行的驱动程序可以获得编译后生成的可执行程序，该可执行程序中包含至少一个代码片段。驱动程序可以在该可执行程序中插入用于获取性能数据的二进制指令(即性能读取指令)，该二进制指令的插入位置可以是目标代码片段的起始位置和终止位置，也可以是特定函数的前后位置，此处不做具体限定。之后，驱动程序可以将该插入性能读取指令之后的新的可执行程序拷贝至设备，以通过设备执行该新的可执行程序获得相应的性能数据。进一步可选地，编译后生成的可执行程序包含至少一个空指令(NOP指令)，该至少一个空指令可以处于目标代码片段的起始位置和终止位置，也可以处于特定函数的前后位置。这样，在驱动程序向该可执行程序中插入性能读取指令时，驱动程序可以将上述可执行程序中特定位置的空指令替换为性能读取指令。

可选地，用户也可以根据编译后生成的可执行程序，在该可执行程序中插入至少一个性能读取指令。其中，该可执行程序包含至少一个空指令(NOP指令)，该至少一个空指令可以处于目标代码片段的起始位置和终止位置，也可以处于特定函数的前后位置。用户可以将其感兴趣的代码片段或特定函数的前后位置的空指令替换为二进制的性能读取指令，获得新的可执行程序。之后，该新的可执行程序可以通过驱动程序下发到设备上。此后，设备执行该新的可执行程序，并获得相应的性能数据。

可以理解的是性能数据的读取过程与上文实施例中的读取过程一致，具体可参见图6及上文中相关描述，此处不再赘述。

图7是示出根据本披露实施例的一种组合处理装置的结构图。该组合处理装置可以实现在本披露如前所述的设备上。如图7中所示，该组合处理装置700包括计算处理装置702、接口装置704、其他处理装置706和存储装置708。根据不同的应用场景，计算处理装置中可以包括一个或多个计算装置710，该计算装置可以配置用于执行各类计算操作，例如人工智能领域内的机器学习所涉及的各类运算。

在不同的实施例中，本披露的计算处理装置可以配置成执行用户指定的操作。在示例性的应用中，该计算处理装置可以实现为单核人工智能处理器或者多核人工智能处理器，包括如前所述的IPU。类似地，包括在计算处理装置内的一个或多个计算装置可以实现为人工智能处理器核或者人工智能处理器核的部分硬件结构。当多个计算装置实现为人工智能处理器核或人工智能处理器核的部分硬件结构时，就本披露的计算处理装置而言，其可以视为具有单核结构或者同构多核结构。

在示例性的操作中，本披露的计算处理装置可以通过接口装置与其他处理装置进行交互，以共同完成用户指定的操作。根据实现方式的不同，本披露的其他处理装置可以包括中央处理器(Central Processing Unit，CPU)、图形处理器(Graphics Processing Unit,GPU)、人工智能处理器等通用和/或专用处理器中的一种或多种类型的处理器。这些处理器可以包括但不限于数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，并且其数目可以根据实际需要来确定。如前所述，仅就本披露的计算处理装置而言，其可以视为具有单核结构或者同构多核结构。然而，当将计算处理装置和其他处理装置共同考虑时，二者可以视为形成异构多核结构。

在一个或多个实施例中，该其他处理装置可以作为本披露的计算处理装置(其可以具体化为人工智能例如神经网络运算的相关运算装置)与外部数据和控制的接口，执行包括但不限于数据搬运、对计算装置的开启和/或停止等基本控制。在另外的实施例中，其他处理装置也可以和该计算处理装置协作以共同完成运算任务。

在一个或多个实施例中，该接口装置可以用于在计算处理装置与其他处理装置间传输数据和控制指令。例如，该计算处理装置可以经由所述接口装置从其他处理装置中获取输入数据，写入该计算处理装置片上的存储装置(或称存储器)。进一步，该计算处理装置可以经由所述接口装置从其他处理装置中获取控制指令，写入计算处理装置片上的控制缓存中。替代地或可选地，接口装置也可以读取计算处理装置的存储装置中的数据并传输给其他处理装置。

附加地或可选地，本披露的组合处理装置还可以包括存储装置。如图中所示，该存储装置分别与所述计算处理装置和所述其他处理装置连接。在一个或多个实施例中，存储装置可以用于保存所述计算处理装置和/或所述其他处理装置的数据。例如，该数据可以是在计算处理装置或其他处理装置的内部或片上存储装置中无法全部保存的数据。

在一些实施例里，本披露还公开了一种芯片(例如图8中示出的芯片802)。在一种实现中，该芯片是一种系统级芯片(System on Chip，SoC)，并且集成有一个或多个如图7中所示的组合处理装置。该芯片可以通过对外接口装置(如图8中示出的对外接口装置806)与其他相关部件相连接。该相关部件可以例如是摄像头、显示器、鼠标、键盘、网卡或wifi接口。在一些应用场景中，该芯片上可以集成有其他处理单元(例如视频编解码器)和/或接口模块(例如DRAM接口)等。在一些实施例中，本披露还公开了一种芯片封装结构，其包括了上述芯片。在一些实施例里，本披露还公开了一种板卡，其包括上述的芯片封装结构。下面将结合图8对该板卡进行详细地描述。

图8是示出根据本披露实施例的一种板卡800的结构示意图，其可以包括如图6所示出的设备604。如图8中所示，该板卡包括用于存储数据的存储器件804，其包括一个或多个存储单元810。该存储器件可以通过例如总线等方式与控制器件808和上文所述的芯片802进行连接和数据传输。进一步，该板卡还包括对外接口装置806，其配置用于芯片(或芯片封装结构中的芯片)与外部设备812(例如服务器或计算机，或者图6中示出的主机等)之间的数据中继或转接功能。例如，待处理的数据可以由外部设备通过对外接口装置传递至芯片。又例如，所述芯片的计算结果可以经由所述对外接口装置传送回外部设备。根据不同的应用场景，所述对外接口装置可以具有不同的接口形式，例如其可以采用标准PCIE接口等。

在一个或多个实施例中，本披露板卡中的控制器件可以配置用于对所述芯片的状态进行调控。为此，在一个应用场景中，该控制器件可以包括单片机(Micro Controller Unit，MCU)，以用于对所述芯片的工作状态进行调控。

根据上述结合图7和图8的描述，本领域技术人员可以理解本披露也公开了一种电子设备或装置，其可以包括一个或多个上述板卡、一个或多个上述芯片和/或一个或多个上述组合处理装置。

根据不同的应用场景，本披露的电子设备或装置可以包括服务器、云端服务器、服务器集群、数据处理装置、机器人、电脑、打印机、扫描仪、平板电脑、智能终端、PC设备、物联网终端、移动终端、手机、行车记录仪、导航仪、传感器、摄像头、相机、摄像机、投影仪、手表、耳机、移动存储、可穿戴设备、视觉终端、自动驾驶终端、交通工具、家用电器、和/或医疗设备。所述交通工具包括飞机、轮船和/或车辆；所述家用电器包括电视、空调、微波炉、冰箱、电饭煲、加湿器、洗衣机、电灯、燃气灶、油烟机；所述医疗设备包括核磁共振仪、B超仪和/或心电图仪。本披露的电子设备或装置还可以被应用于互联网、物联网、数据中心、能源、交通、公共管理、制造、教育、电网、电信、金融、零售、工地、医疗等领域。进一步，本披露的电子设备或装置还可以用于云端、边缘端、终端等与人工智能、大数据和/或云计算相关的应用场景中。在一个或多个实施例中，根据本披露方案的算力高的电子设备或装置可以应用于云端设备(例如云端服务器)，而功耗小的电子设备或装置可以应用于终端设备和/或边缘端设备(例如智能手机或摄像头)。在一个或多个实施例中，云端设备的硬件信息和终端设备和/或边缘端设备的硬件信息相互兼容，从而可以根据终端设备和/或边缘端设备的硬件信息，从云端设备的硬件资源中匹配出合适的硬件资源来模拟终端设备和/或边缘端设备的硬件资源，以便完成端云一体或云边端一体的统一管理、调度和协同工作。

需要说明的是，为了简明的目的，本披露将一些方法及其实施例表述为一系列的动作及其组合，但是本领域技术人员可以理解本披露的方案并不受所描述的动作的顺序限制。因此，依据本披露的公开或教导，本领域技术人员可以理解其中的某些步骤可以采用其他顺序来执行或者同时执行。进一步，本领域技术人员可以理解本披露所描述的实施例可以视为可选实施例，即其中所涉及的动作或模块对于本披露某个或某些方案的实现并不一定是必需的。另外，根据方案的不同，本披露对一些实施例的描述也各有侧重。鉴于此，本领域技术人员可以理解本披露某个实施例中没有详述的部分，也可以参见其他实施例的相关描述。

在具体实现方面，基于本披露的公开和教导，本领域技术人员可以理解本披露所公开的若干实施例也可以通过本文未公开的其他方式来实现。例如，就前文所述的电子设备或装置实施例中的各个单元来说，本文在考虑了逻辑功能的基础上对其进行划分，而实际实现时也可以有另外的划分方式。又例如，可以将多个单元或组件结合或者集成到另一个系统，或者对单元或组件中的一些特征或功能进行选择性地禁用。就不同单元或组件之间的连接关系而言，前文结合附图所讨论的连接可以是单元或组件之间的直接或间接耦合。在一些场景中，前述的直接或间接耦合涉及利用接口的通信连接，其中通信接口可以支持电性、光学、声学、磁性或其它形式的信号传输。

在本披露中，作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元示出的部件可以是或者也可以不是物理单元。前述部件或单元可以位于同一位置或者分布到多个网络单元上。另外，根据实际的需要，可以选择其中的部分或者全部单元来实现本披露实施例所述方案的目的。另外，在一些场景中，本披露实施例中的多个单元可以集成于一个单元中或者各个单元物理上单独存在。

在一些实现场景中，上述集成的单元可以采用软件程序模块的形式来实现。如果以软件程序模块的形式实现并作为独立的产品销售或使用时，所述集成的单元可以存储在计算机可读取存储器中。基于此，当本披露的方案以软件产品(例如计算机可读存储介质)的形式体现时，该软件产品可以存储在存储器中，其可以包括若干指令用以使得计算机设备(例如个人计算机、服务器或者网络设备等)执行本披露实施例所述方法的部分或全部步骤。前述的存储器可以包括但不限于U盘、闪存盘、只读存储器(Read Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

在另外一些实现场景中，上述集成的单元也可以采用硬件的形式实现，即为具体的硬件电路，其可以包括数字电路和/或模拟电路等。电路的硬件结构的物理实现可以包括但不限于物理器件，而物理器件可以包括但不限于晶体管或忆阻器等器件。鉴于此，本文所述的各类装置(例如计算装置或其他处理装置)可以通过适当的硬件处理器来实现，例如CPU、GPU、FPGA、DSP和ASIC等。进一步，前述的所述存储单元或存储装置可以是任意适当的存储介质(包括磁存储介质或磁光存储介质等)，其例如可以是可变电阻式存储器(Resistive Random Access Memory，RRAM)、动态随机存取存储器(Dynamic Random Access Memory，DRAM)、静态随机存取存储器(Static Random Access Memory，SRAM)、增强动态随机存取存储器(Enhanced Dynamic Random Access Memory，EDRAM)、高带宽存储器(High Bandwidth Memory，HBM)、混合存储器立方体(Hybrid Memory Cube，HMC)、ROM和RAM等。

依据以下条款可更好地理解前述内容：

条款A1、一种用于获取目标代码的硬件性能数据的方法，包括：

针对所述目标代码来插入用于获取硬件性能数据的性能读取指令；以及

编译所述性能读取指令和目标代码，以便生成可执行程序，其中通过运行所述可执行程序来获取与所述目标代码的执行相关的所述硬件性能数据。

条款A2、根据条款A1所述的方法，其中所述插入包括：

通过接收用户输入来插入所述性能读取指令；或者

通过编译器来自动地插入所述性能读取指令。

条款A3、根据条款A1或A2所述的方法，其中所述目标代码包括至少一个代码片段，并且其中通过接收用户输入来插入所述性能读取指令包括：

根据所述用户输入，针对所述至少一个代码片段来插入所述性能读取指令。

条款A4、根据条款A1-A3的任意一项所述的方法，其中所述目标代码包括至少一个函数，并且插入所述性能读取指令包括：

根据函数级插桩的方式，针对所述至少一个函数来插入所述性能读取指令。

条款A5、根据条款A1-A4的任意一项所述的方法，其中所述性能读取指令是汇编指令并且该汇编指令内包括用于标识所述目标代码的函数名的一个或多个参数。

条款A6、根据条款A1-A5的任意一项所述的方法，其中所述一个或多个参数包括将所述函数名进行数据压缩后获得的数值。

条款A7、根据条款A1-A6的任意一项所述的方法，其中编译所述性能读取指令和目标代码包括：

在编译过程中，针对插入所述性能读取指令的所述目标代码来置入用于使能硬件性能计数器的性能启用指令。

条款A8、根据条款A1-A7的任意一项所述的方法，其中在所述编译过程中，所述方法包括执行第一编译任务和第二编译任务，其中：

在所述第一编译任务的执行中，所述方法包括对插入所述性能读取指令后的所述目标代码进行编译，以生成汇编代码；以及

在所述第二编译任务的执行中，所述方法包括根据所述汇编代码中的所述性能读取指令来在所述汇编代码中置入所述性能启用指令。

条款A9、根据条款A1-A8的任意一项所述的方法，其中在所述第二编译任务的执行中，所述方法还包括：

根据所述性能读取指令来生成对应的性能读取函数，以便将所述性能读取指令的执行转化为对所述性能读取函数的调用执行。

条款A10、根据条款A1-A9的任意一项所述的方法，其中在编译过程中，所述方法还包括：

根据待执行所述可执行程序的处理器核的标识，生成对应于所述标识的数据导出指令，以用于将所述硬件性能数据导出。

条款A11、一种用于获取目标代码的硬件性能数据的设备，包括：

至少一个处理器；

至少一个存储器，其用于存储计算机程序指令，当所述计算机程序指令由所述至少一个处理器执行时，使得所述设备执行根据条款A1-A10的任意一项所述的方法。

条款A12、一种计算机可读存储介质，其存储有用于获取目标代码的硬件性能数据的计算机程序指令，当所述计算机程序指令由至少一个处理器来执行时，实现根据条款A1-A10的任意一项所述的方法。

条款A13、一种用于获取目标代码的硬件性能数据的编译器，包括：

插入模块，其配置成针对所述目标代码插入性能读取指令，其中所述性能读取指令用于获取硬件性能数据；以及

编译模块，其配置成对所述性能读取指令和目标代码进行编译，以便生成可执行程序，其中所述可执行程序的运行使得获取与所述目标代码的执行相关的所述硬件性能数据。

条款A14、根据条款A13所述的编译器，其中所述插入模块配置成：

接收用户输入来插入所述性能读取指令；或者

自动地插入所述性能读取指令。

条款A15、根据条款A13或A14所述的编译器，其中所述目标代码包括至少一个代码片段，并且其中所述插入模块配置成：

条款A16、根据条款A13-A15的任意一项所述的编译器，其中所述目标代码包括至少一个函数，并且所述插入模块配置成：

条款A17、根据条款A13-A16的任意一项所述的编译器，其中所述性能读取指令是汇编指令并且该汇编指令内包括用于标识所述目标代码的函数名的一个或多个参数。

条款A18、根据条款A13-A17的任意一项所述的编译器，其中所述一个或多个参数包括将所述函数名进行数据压缩后获得的数值。

条款A19、根据条款A13-A18的任意一项所述的编译器，其中在编译所述性能读取指令和目标代码中，所述编译模块配置成：

条款A20、根据条款A13-A19的任意一项所述的编译器，其中所述编译模块包括用于执行第一编译任务的前端编译单元和用于执行第二编译任务的后端编译单元，并且其中：在执行所述第一编译任务中，所述前端编译单元配置成对插入性能读取指令后的所述目标代码进行编译，以生成汇编代码；以及

在执行所述第二编译任务中，所述后端编译单元配置成根据所述汇编代码中的性能读取指令来在所述汇编代码中置入所述性能启用指令。

条款A21、根据条款A13-A20的任意一项所述的编译器，其中在执行所述第二编译任务中，所述后端编译单元还配置成：

条款A22、根据条款A13-A21的任意一项所述的编译器，其中在编译过程中，所述编译模块还配置成：

条款A23、一种用于获取目标代码的硬件性能数据的异构系统，包括互联的主机和设备，其中：

所述主机包括根据条款A13-A22的任意一项所述的编译器，并且配置成对所述设备执行主控和协同操作，以获取所述设备执行所述可执行程序时产生的所述硬件性能数据；以及所述设备包括一个或多个处理器核，并且配置成：

执行所述编译器生成的所述可执行程序；以及

向所述主机发送所述硬件性能数据。

条款A24、根据条款A23所述的异构系统，其中在执行所述性能读取函数中，所述设备配置成：

从运行所述可执行程序的处理器核的性能监视单元获取所述硬件性能数据。

条款A25、根据条款A23-A24的任意一项所述的异构系统，其中所述设备配置成根据所述数据导出指令来执行以下操作：

选择对应于所述标识的传递通路；以及

将硬件性能数据沿所述传递通路向所述主机传递。

条款A26、根据条款A23-A25的任意一项所述的异构系统，其中在沿所述传递通路向所述主机传递所述硬件性能数据中，所述设备配置成：

从所述处理器核的所述性能监视单元的专用寄存器获取所述硬件性能数据；以及

从所述专用寄存器向通用寄存器传递所述硬件性能数据，以便将所述硬件性能数据向所述主机传递。

条款A27、根据条款A23-A26的任意一项所述的异构系统，其中所述设备和主机之间通过应用编程接口来实现双向的信息交互。

条款A28、根据条款A23-A27的任意一项所述的异构系统，其中所述设备配置成通过所述应用编程接口将存储的所述硬件性能数据向所述主机传送。

条款A29、根据条款A23-A27的任意一项所述的异构系统，其中在接收来自于所述设备的所述硬件性能数据前，所述主机配置成通过所述应用编程接口来向所述设备传送关于所述硬件性能数据的存储地址信息和/或存储空间信息，并且所述设备配置成根据所述存储地址信息和/或存储空间信息对所述硬件性能数据进行存储，并且通过所述应用编程接口向所述主机传递存储的所述硬件性能数据。

条款A30、根据条款A23-A27的任意一项所述的异构系统，其中所述主机配置成利用所述应用编程接口对所述硬件性能数据进行数据格式转换，以用于针对所述硬件性能数据的后续处理。

条款A31、一种板卡，包括根据条款A23-A30中的任意一项所述的异构系统。

条款A32、一种编码器，其配置成执行根据条款A1-A10中的任意一项所述的方法。

条款A33、一种电子设备，包括根据条款A13-A22或条款A32中的任意一项所述的编译器。

虽然本文已经示出和描述了本披露的多个实施例，但对于本领域技术人员显而易见的是，这样的实施例只是以示例的方式来提供。本领域技术人员可以在不偏离本披露思想和精神的情况下想到许多更改、改变和替代的方式。应当理解的是在实践本披露的过程中，可以采用对本文所描述的本披露实施例的各种替代方案。所附权利要求书旨在限定本披露的保护范围，并因此覆盖这些权利要求范围内的等同或替代方案。

Claims

一种用于获取目标代码的硬件性能数据的方法，包括：

针对所述目标代码来插入用于获取硬件性能数据的性能读取指令；以及

编译所述性能读取指令和目标代码，以便生成可执行程序，其中通过运行所述可执行程序来获取与所述目标代码的执行相关的所述硬件性能数据。
根据权利要求1所述的方法，其中所述插入包括：

通过接收用户输入来插入所述性能读取指令；或者

通过编译器来自动地插入所述性能读取指令。
根据权利要求2所述的方法，其中所述目标代码包括至少一个代码片段，并且其中通过接收用户输入来插入所述性能读取指令包括：

根据所述用户输入，针对所述至少一个代码片段来插入所述性能读取指令。
根据权利要求2所述的方法，其中所述目标代码包括至少一个函数，并且插入所述性能读取指令包括：

根据函数级插桩的方式，针对所述至少一个函数来插入所述性能读取指令。
根据权利要求1-4的任意一项所述的方法，其中所述性能读取指令是汇编指令并且该汇编指令内包括用于标识所述目标代码的函数名的一个或多个参数。
根据权利要求5所述的方法，其中所述一个或多个参数包括将所述函数名进行数据压缩后获得的数值。
根据权利要求1所述的方法，其中编译所述性能读取指令和目标代码包括：

在编译过程中，针对插入所述性能读取指令的所述目标代码来置入用于使能硬件性能计数器的性能启用指令。
根据权利要求7所述的方法，其中在所述编译过程中，所述方法包括执行第一编译任务和第二编译任务，其中：

在所述第一编译任务的执行中，所述方法包括对插入所述性能读取指令后的所述目标代码进行编译，以生成汇编代码；以及

在所述第二编译任务的执行中，所述方法包括根据所述汇编代码中的所述性能读取指令来在所述汇编代码中置入所述性能启用指令。
根据权利要求8所述的方法，其中在所述第二编译任务的执行中，所述方法还包括：

根据所述性能读取指令来生成对应的性能读取函数，以便将所述性能读取指令的执行转化为对所述性能读取函数的调用执行。
根据权利要求1所述的方法，其中在编译过程中，所述方法还包括：

根据待执行所述可执行程序的处理器核的标识，生成对应于所述标识的数据导出指令，以用于将所述硬件性能数据导出。
一种用于获取目标代码的硬件性能数据的设备，包括：

至少一个处理器；

至少一个存储器，其用于存储计算机程序指令，当所述计算机程序指令由所述至少一个处理器执行时，使得所述设备执行根据权利要求1-10的任意一项所述的方法。
一种计算机可读存储介质，其存储有用于获取目标代码的硬件性能数据的计算机程序指令，当所述计算机程序指令由至少一个处理器来执行时，实现根据权利要求1-10的任意一项所述的方法。
一种编译器，其配置成执行根据权利要求1-10的任意一项所述的方法。
一种用于获取目标代码的硬件性能数据的异构系统，包括互联的主机和设备，其中：

所述主机包括根据权利要求13所述的编译器，并且配置成对所述设备执行主控和协同操作，以获取所述设备执行所述可执行程序时产生的所述硬件性能数据；以及

所述设备包括一个或多个处理器核，并且配置成：

执行所述编译器生成的所述可执行程序；以及

向所述主机发送所述硬件性能数据。
根据权利要求14所述的异构系统，其中在执行所述性能读取函数中，所述设备配置成：

从运行所述可执行程序的处理器核的性能监视单元获取所述硬件性能数据。
根据权利要求15所述的异构系统，其中所述设备配置成根据所述数据导出指令来执行以下操作：

选择对应于所述标识的传递通路；以及

将硬件性能数据沿所述传递通路向所述主机传递。
根据权利要求16所述的异构系统，其中在沿所述传递通路向所述主机传递所述硬件性能数据中，所述设备配置成：

从所述处理器核的所述性能监视单元的专用寄存器获取所述硬件性能数据；以及

从所述专用寄存器向通用寄存器传递所述硬件性能数据，以便将所述硬件性能数据向所述主机传递。
根据权利要求14-17的任意一项所述的异构系统，其中所述设备和主机之间通过应用编程接口将存储的所述硬件性能数据向所述主机传送。
根据权利要求18所述的异构系统，其中在接收来自于所述设备的所述硬件性能数据前，所述主机配置成通过所述应用编程接口来向所述设备传送关于所述硬件性能数据的存储地址信息和/或存储空间信息，并且所述设备配置成根据所述存储地址信息和/或存储空间信息对所述硬件性能数据进行存储，并且通过所述应用编程接口向所述主机传递存储的所述硬件性能数据，其中所述主机配置成利用所述应用编程接口对所述硬件性能数据进行数据格式转换，以用于针对所述硬件性能数据的后续处理。
一种板卡，包括根据权利要求14-19中的任意一项所述的异构系统。