WO2023279246A1

WO2023279246A1 - 线程组创建方法、图形处理单元和电子设备

Info

Publication number: WO2023279246A1
Application number: PCT/CN2021/104584
Authority: WO
Inventors: 朱韵鹏
Original assignee: 华为技术有限公司
Priority date: 2021-07-05
Filing date: 2021-07-05
Publication date: 2023-01-12
Also published as: CN115803769A

Abstract

一种线程组创建方法、图形处理单元和电子设备，用于提高图形处理单元的执行效率。线程组创建方法包括：获取图像中的多个像素点的掩码（S301），其中，每个像素点的掩码用于指示每个像素点是否要进行图像处理；根据多个像素点的掩码创建目标线程组（S302），目标线程组包括至少一个进行图像处理的线程。

Description

线程组创建方法、图形处理单元和电子设备

技术领域

本申请涉及图形处理领域，尤其涉及一种线程组创建方法、图形处理单元(graphics processing unit，GPU)和电子设备。

背景技术

在图形处理领域，GPU可以创建至少一个线程组，每个线程组中包括至少一个线程，每个线程可以对一个或多个像素点进行图像处理，例如进行光线相交测试和渲染。目前在光线追踪实现反射效果的应用场景中，往往只有部分反射面需要做光线相交测试和渲染，因此只有部分线程组中的线程进行图像处理，然而对于其他非反射面对应的线程组仍需要预留资源，参与指令调度，执行线程组销毁，进行资源释放等，占用了GPU的处理资源，降低了GPU的执行效率。

发明内容

本申请实施例提供一种线程组创建方法、图形处理单元和电子设备，用于提高图形处理单元的执行效率。

为达到上述目的，本申请的实施例采用如下技术方案：

第一方面，提供了一种线程组创建方法，包括：获取图像中的多个像素点的掩码，其中，每个像素点的掩码用于指示每个像素点是否要进行图像处理；根据多个像素点的掩码创建目标线程组，目标线程组包括至少一个进行图像处理的线程。本申请实施例提供的上述线程创建方法、图形处理单元和电子设备，通过各个像素点的掩码来指示该像素点是否需要进行图像处理(或者说是否需要创建对应的线程)，进而确定是否创建对应的线程组。对于任一线程均不进行图像处理的线程组则不必创建，从而节省GPU的处理资源，提高GPU的执行效率。

在一种可能的实施方式中，获取图像中的多个像素点的掩码，包括：从中央处理单元接收多个像素点的掩码。中央处理单元在向图形处理单元发送绘制几何图形的指令时，可以一并发送多个像素点的掩码。

在一种可能的实施方式中，获取图像中的多个像素点的掩码，包括：根据多个像素点的属性(例如几何参数、材质信息等)生成多个像素点的掩码。几何参数可以包括该像素点的位置、深度等。

在一种可能的实施方式中，多个像素点的属性包括材质信息，材质信息包括反射系数、粗糙度、材质标识符中的至少一项，其中，材质标识符用于指示像素点的材质，例如水、金属、陶瓷、玻璃等。

在一种可能的实施方式中，根据掩码创建目标线程组，包括：根据多个像素点中的第一组像素点的掩码创建第一线程组；其中，第一线程组中包括至少一个不进行图像处理的线程；根据多个像素点中的第二组像素点的掩码创建第二线程组；其中，第二线程组中包括至少一个不进行图像处理的线程；合并第一线程组中进行图像处理的线程以及第二线程组中进行图像处理的线程得到目标线程组。这样可以进一步节省图形处理单元的处理资源，提高图形处理单元的执行效率。

在一种可能的实施方式中，目标线程组的一个线程对应多个像素点的掩码。一个线程可以对应一个像素点，即一个线程可以对一个像素点进行图像处理，或者，一个线程可以对应多个像素点，即一个线程可以对多个像素点进行图像处理。

在一种可能的实施方式中，还包括管理掩码的存储空间。可以由应用程序显式管理掩码的存储空间，例如由应用程序分配或销毁掩码的存储空间，或者，由GPU的驱动程序管理掩码的存储空间，而应用程序不感知掩码的存储空间，上述应用程序可以包括运行在图形处理单元上的应用程序以及运行在中央处理单元上的应用程序。例如由GPU的驱动程序分配或销毁掩码的存储空间，GPU中运行的应用程序直接通过驱动程序获取掩码。

在一种可能的实施方式中，掩码存储在图形处理单元的分块缓存中，或者，存储在系统缓存中，或者，存储在内存中。掩码的存储位置可以很灵活。

第二方面，提供了一种图形处理单元，其特征在于，包括流多处理器，流多处理器用于执行如第一方面及其任一实施方式所述的线程组创建方法。

第三方面，提供了一种电子设备，包括如第二方面所述的图形处理单元。

第四方面，提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，指令在图形处理单元上运行，使得图形处理单元执行第一方面及其任一实施方式所述的线程组创建方法。

第五方面，提供了一种包含指令的计算机程序产品，该指令在图形处理单元上运行，使得图形处理单元执行第二方面及其任一实施方式所述的线程组创建方法。

关于第二方面至第五方面的技术效果参照第一方面及其任一实施方式的技术效果。

附图说明

图1为本申请实施例提供的一种电子设备的结构示意图；

图2为本申请实施例提供的一种延迟渲染过程中执行线程组压缩的示意图；

图3为本申请实施例提供的一种线程组创建方法的流程示意图；

图4为本申请实施例提供的另一种延迟渲染过程的示意图。

具体实施方式

首先对本申请涉及的一些概念进行描述：

光线追踪，用于模拟光线在真实世界的传播，通过发射光线，追踪光线在场景中的若干次弹射，计算光线和场景中物体的相交，对交点计算直接光照和间接光照。

光线相交测试(ray-plane intersection test)，指测试光线与几何图形是否相交，以及，确定光线与几何图形相交的位置，该光线可以是来自光源的直射光线，或者，可以是来自其他反射面的反射光线，或者，可以是折射光线等

光栅化，指将几何图形转变为二维图像的过程。

渲染，指计算像素点的光照信息。

延迟渲染，指GPU将几何图形光栅化得到几何缓存(G-buffer)，几何缓存包括二维图像中每一像素点在原几何图形中的属性(例如几何参数、材质信息等)，GPU可以将几何缓存输出到内存(例如双倍速率(double data rate，DDR)存储器)，再从内存读取几何缓存，并对图像进行渲染。而不是在将几何图形光栅化后直接渲染，然后输出到内存。几何参数可以包括某像素点的位置、深度等，材质信息可以包括反射系数、粗糙度、材质标识符、法向等，其中，材质标识符用于指示像素点的材质。

着色器(shader)程序，指用于替代固定渲染管线来实现图形渲染的可编辑程序。

线程组(warp)，GPU以线程组为单位创建线程(thread)，每个线程组可以包括至少一个线程，例如，包括4个线程或16个线程，每个线程可以对一个或多个像素点进行图像处理，例如进行光线相交测试和渲染。每个线程可以通过一维标识或者多维标识来表示，例如，如表1所示，第一行表示有两个线程组，这两个线程组的标识分别是0和1，每个线程组包括4个线程共8个线程，可以分别通过一维编号0-7来表示。或者，一个线程组可以包括4个线程，可以分别通过二维编号(0,0)，(1,0)，(0,1),(1,1)来表示。

表1

线程组标识	0	0	0	0	1	1	1	1
线程标识	0	1	2	3	4	5	6	7

如图1所示，本申请实施例提供了一种包括GPU的电子设备10，包括通过总线连接的GPU 101、中央处理单元(central processing unit，CPU)102、系统缓存(system cache)103和内存104。该电子设备还可以包括显示屏(图中未示出)。GPU 101包括流多处理器(streaming multiprocessor)1011和分块缓存(tile cache)1012。该电子设备可以是手机、电脑、平板等显示图像的设备。

GPU 101中的流多处理器1011从CPU 102获取绘制几何图形的指令后，可以在内存104中对图像进行处理，并在显示屏上显示图像。系统缓存103以及分块缓存1012可以用于缓存图像的中间处理结果。另外，在本申请实施例中，内存104、系统缓存103或分块缓存1012可以用于存储掩码(后文会展开描述)。

如前文所述的，GPU创建的线程组中可能由于未进行图像处理而浪费GPU的资源，如图2所示，GPU可以在执行延迟渲染过程中，在将几何图形光栅化得到图像后，先执行线程组压缩，对于不进行图像处理的线程组则不会预留资源也不会进行创建，再由剩余线程组执行图像处理(例如进行光线相交测试和渲染)，从而节省GPU的处理资源，提高GPU的执行效率。

如果将线程组压缩单独作为一个过程仍会额外耗费GPU的处理资源，本申请实施例中，通过各个像素点的掩码来指示该像素点是否需要进行图像处理(或者说是否需要创建对应的线程)，进而确定是否创建对应的线程组。对于任一线程均不进行图像处理的线程组则不必创建，从而节省GPU的处理资源，提高GPU的执行效率。可以应用于光线追踪中当只有局部区域需要进行光线追踪的场景，也可以应用于全局光照中只有局部区域需要做全局光照渲染的场景。

本申请实施例提供的GPU(例如其中的流多处理器)可以执行如图3所示的线程组创建方法：

S301、获取图像中的多个像素点的掩码(mask)。

其中，每个像素点的掩码用于指示每个像素点是否要进行图像处理(例如进行光线相交测试和渲染)，或者说，每个像素点的掩码用于指示每个像素点是否要创建对应的线程。示例性的，如表2所示，每个像素点的掩码取值为0表示该像素点不需要进行图像处理(或者说不需要创建对应的线程)，每个像素点的掩码取值为1表示该像素点需要进行图像处理(或者说需要创建对应的线程)。一个线程可以对应一个像素点，即一个线程可以对一个像素点进行图像处理，或者，一个线程可以对应多个像素点，即一个线程可以对多个像素点进行图像处理。

GPU可以管理掩码的存储空间，例如可以由应用程序显式管理掩码的存储空间，例如由应用程序分配或销毁掩码的存储空间，或者，由GPU的驱动程序管理掩码的存储空间，而应用程序不感知掩码的存储空间，上述应用程序可以包括运行在图形处理单元上的应用程序以及运行在中央处理单元上的应用程序。例如由GPU的驱动程序分配或销毁掩码的存储空间，GPU中运行的应用程序直接通过驱动程序获取掩码。掩码可以存储在GPU的分块缓存中，或者，可以存储在系统缓存中，或者，可以存储在内存中，掩码的存储位置可以很灵活。

获取图像中的多个像素点的掩码的过程可以发生在将几何图形光栅化得到几何缓存(G-buffer)之后。假设几何缓冲大小为1280x720像素点，如果以8比特数据表示一个像素点对应的掩码，则如表2所示，GPU可以为存储掩码预分配1280x720x8比特的缓存；如果以32比特数据表示8x4个像素点对应的掩码，即一个比特表示一个掩码，则如表3所示，GPU可以为存储掩码预分配160x180x32比特的缓存。

表2

	0	1	......	718	719
0	00000000	00000001	......	00000000	00000000
1	00000001	00000001	......	00000001	00000000
......	......	......	......	......	......
1278	00000000	00000001	......	00000001	00000000
1279	00000000	00000000	......	00000000	00000000

表3

在一种可能的实施方式中，GPU可以从CPU获取多个像素点的掩码，例如，CPU在向GPU发送绘制几何图形的指令时，可以一并发送多个像素点的掩码。

在另一种可能的实施方式中，GPU可以对各个像素点的掩码进行更新，例如根据多个像素点的属性(例如几何参数、材质信息等)生成多个像素点的掩码。几何参数可以包括该像素点的位置、深度等，材质信息可以包括该像素点的反射系数、粗糙度、材质标识符、法向等中的至少一项，其中，材质标识符用于指示该像素点的材质，例如水、金属、陶瓷、玻璃等。

以光线追踪中由GPU实现各像素点的反射效果的应用场景为例：

例如，如果某像素点的位置位于向光侧，即会发生光线反射，则该像素点对应的掩码指示该像素点需要进行图像处理(或者说需要创建对应的线程)，否则如果某像素点的位置位于背光侧，即不会发生光线反射，则该像素点对应的掩码指示该像素点不需要进行图像处理(或者说不需要创建对应的线程)。

再例如，根据场景设计需要，如果某像素点的深度小于第一阈值，该像素点对应的掩码指示该像素点需要进行图像处理(或者说需要创建对应的线程)，否则该像素点对应的掩码指示该像素点不需要进行图像处理(或者说不需要创建对应的线程)。

再例如，如果某像素点的反射系数大于第二阈值，即更容易发生光线反射，则该像素点对应的掩码指示该像素点需要进行图像处理(或者说需要创建对应的线程)，否则该像素点对应的掩码指示该像素点不需要进行图像处理(或者说不需要创建对应的线程)。示例性的，如表4所示，假设第二阈值为0.2，8个像素点中像素点4和像素点5的反射系数均大于0.2，所以这两个像素点的掩码可以取值为1，以指示这两个像素点需要进行图像处理(或者说需要创建对应的线程)。

表4

像素点	0	1	2	3	4	5	6	7
反射系数	0	0	0	0	0.3	0.4	0	0
掩码	0	0	0	0	1	1	0	0
线程组标识					0	0	0	0
线程标识					0	1	2	3

再例如，如果某像素点的粗糙度大于第三阈值，需要发射额外的光线，则该像素点对应的掩码指示该像素点需要进行图像处理(或者说需要创建对应的线程)，否则该像素点对应的掩码指示该像素点不需要进行图像处理(或者说不需要创建对应的线程)。

再例如，如果某像素点的材质为镜面反射物(例如水、玻璃、陶瓷、金属等)，即更容易发生光线反射，则该像素点对应的掩码指示该像素点需要进行图像处理(或者说需要创建对应的线程)，否则如果某像素点的材质为非镜面反射物(例如棉、毛、土、纸、树、草等)，即更不容易发生光线反射，则该像素点对应的掩码指示该像素点不需要进行图像处理(或者说不需要创建对应的线程)。

S302、根据多个像素点的掩码创建目标线程组。

目标线程组包括至少一个进行图像处理的线程。该线程可以运行着色器程序，由着色器程序根据几何缓存对各个像素点进行图像处理。

示例性的，如表4所示，假设每个线程组包括四个线程，每个线程对应一个像素点及掩码，像素点0-3由于掩码为0表示不需要进行图像处理(或者说不需要创建对应的线程)，像素点4-5由于掩码为1表示需要进行图像处理(或者说需要创建对应的线程)，因此针对像素点4-7创建线程组(线程组标识为0)该线程组包括线程0-3，其中，线程0用于对像素点4进行图像处理，线程1用于对像素点5进行图像处理。相对于现有技术要创建两个线程组，本申请只需要创建一个线程组，所以可以节省GPU的处理资源，提高GPU的执行效率。

进一步地，GPU可以对多个线程组合并从而得到目标线程组。GPU可以根据多个像素点中的第一组像素点的掩码创建第一线程组；其中，第一线程组中包括至少一个不进行图像处理的线程。根据多个像素点中的第二组像素点的掩码创建第二线程组；其中，第二线程组中包括至少一个不进行图像处理的线程；然后合并第一线程组中进行图像处理的线程以及第二线程组中进行图像处理的线程得到目标线程组。

示例性的，如表5所示，假设第二阈值为0.2，8个像素点中像素点2-5的反射系数均大于0.2，所以这四个像素点的掩码可以取值为1，以指示这四个像素点需要进行图像处理(或者说需要创建对应的线程)。GPU可以根据第一组像素点(像素点0-3)的掩码创建第一线程组(线程组标识0)，其中，线程2用于对像素点2进行图像处理，线程3用于对像素点3进行图像处理。GPU可以根据第二组像素点(像素点4-7)的掩码创建第二线程组(线程组标识1)，其中，线程4用于对像素点4进行图像处理，线程5用于对像素点5进行图像处理。则GPU可以合并第一线程组(线程组标识0)和第二线程组(线程组标识1)得到目标线程组(线程组标识0)，目标线程组(线程组标识0)中，线程0用于对像素点2进行图像处理，线程1用于对像素点3进行图像处理，线程2用于对像素点4进行图像处理，线程3用于对像素点5进行图像处理。这样可以进一步节省GPU的处理资源，提高GPU的执行效率。

表5

对于图2来说，增加的线程组压缩步骤是很复杂的。如图4所示，经过上述改进后，相对于图2来说，不必增加单独的线程组压缩步骤，在生成掩码时以及根据掩码来创建目标线程组时均是简单的逻辑判断，因此实现简单，节省工作量。

本申请实施例提供的上述线程创建方法、图形处理单元和电子设备，通过各个像素点的掩码来指示该像素点是否需要进行图像处理(或者说是否需要创建对应的线程)，进而确定是否创建对应的线程组。对于任一线程均不进行图像处理的线程组则不必创建，从而节省GPU的处理资源，提高GPU的执行效率。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，指令在GPU上运行，使得GPU执行图3所示的线程组创建方法。

本申请实施例还提供了一种包含指令的计算机程序产品，指令在GPU上运行，使得GPU执行图3所示的线程组创建方法。

本申请实施例涉及的处理器可以是一个芯片。例如，可以是现场可编程门阵列(field programmable gate array，FPGA)，可以是专用集成芯片(application specific integrated circuit，ASIC)，还可以是系统芯片(system on chip，SoC)，还可以是中央处理器(central processor unit，CPU)，还可以是网络处理器(network processor，NP)，还可以是数字信号处理电路(digital signal processor，DSP)，还可以是微控制器(micro controller unit，MCU)，还可以是可编程控制器(programmable logic device，PLD)或其他集成芯片。

应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的模块及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，设备或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个设备，或者也可以分布到多个设备上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块可以集成在一个设备中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个设备中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件程序实现时，可以全部或部分地以计算机程序产品的形式来实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(Digital Subscriber Line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可以用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如，软盘、硬盘、磁带)，光介质(例如，DVD)、或者半导体介质(例如固态硬盘(Solid State Disk，SSD))等。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

一种线程组创建方法，其特征在于，包括：

获取图像中的多个像素点的掩码，其中，每个像素点的掩码用于指示所述每个像素点是否要进行图像处理；

根据所述多个像素点的掩码创建目标线程组，所述目标线程组包括至少一个进行图像处理的线程。
根据权利要求1所述的方法，其特征在于，所述获取图像中的多个像素点的掩码，包括：

从中央处理单元接收所述多个像素点的掩码。
根据权利要求1所述的方法，其特征在于，所述获取图像中的多个像素点的掩码，包括：

根据所述多个像素点的属性生成所述多个像素点的掩码。
根据权利要求3所述的方法，其特征在于，所述多个像素点的属性包括材质信息，所述材质信息包括反射系数、粗糙度、材质标识符中的至少一项，其中，所述材质标识符用于指示像素点的材质。
根据权利要求1-4任一项所述的方法，其特征在于，所述根据所述掩码创建目标线程组，包括：

根据所述多个像素点中的第一组像素点的掩码创建第一线程组；其中，所述第一线程组中包括至少一个不进行图像处理的线程；

根据所述多个像素点中的第二组像素点的掩码创建第二线程组；其中，所述第二线程组中包括至少一个不进行图像处理的线程；

合并所述第一线程组中进行图像处理的线程以及所述第二线程组中进行图像处理的线程得到所述目标线程组。
根据权利要求1-5任一项所述的方法，其特征在于，所述目标线程组的一个线程对应多个像素点的掩码。
根据权利要求1-6任一项所述的方法，其特征在于，还包括管理所述掩码的存储空间。
根据权利要求1-7任一项所述的方法，其特征在于，所述掩码存储在图形处理单元的分块缓存中，或者，存储在系统缓存中，或者，存储在内存中。
一种图形处理单元，其特征在于，包括流多处理器，所述流多处理器用于执行如权利要求1-8任一项所述的线程组创建方法。
一种电子设备，其特征在于，包括如权利要求9所述的图形处理单元和显示屏，所述图形处理单元用于对图像进行处理并在显示屏上显示所述图像。