WO2022052523A1

WO2022052523A1 - 晶圆检测任务的处理方法、装置、系统及存储介质

Info

Publication number: WO2022052523A1
Application number: PCT/CN2021/097390
Authority: WO
Inventors: 瞿德清
Original assignee: 长鑫存储技术有限公司
Priority date: 2020-09-11
Filing date: 2021-05-31
Publication date: 2022-03-17
Also published as: CN114168310A

Abstract

本申请提供一种晶圆检测任务的处理方法、装置、系统及存储介质。该方法包括：资源管理节点接收来自存储服务器的晶圆检测任务，根据与资源管理节点连接的每个工作节点的权重值，从多个工作节点中选出目标工作节点，将晶圆检测任务分配给目标工作节点。目标工作节点从资源池中选出一个空闲GPU，将晶圆检测任务分配给空闲GPU执行。GPU对晶圆检测任务中的晶圆图片进行预处理，将处理后的晶圆图片输入到晶圆检测模型，得出检测结果。通过上述两级任务调度，将晶圆检测任务分散到各个工作节点的GPU上执行，实现工作节点之间以及GPU之间的负载均衡，可满足对海量晶圆图片进行缺陷检测的实时性要求，提高了系统处理晶圆检测任务的吞吐量。

Description

晶圆检测任务的处理方法、装置、系统及存储介质

本申请要求于2020年09月11日提交中国专利局、申请号为202010955527.5、申请名称为“晶圆检测任务的处理方法、装置、系统及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及信息处理技术领域，尤其涉及一种晶圆检测任务的处理方法、装置、系统及存储介质。

背景技术

晶圆(wafer)是制造半导体器件的基础性原材料。极高纯度的半导体经过拉晶、切片等工序制备成为晶圆，晶圆经过一系列半导体制造工艺形成极微小的电路结构，再经切割、封装、测试成为芯片，广泛应用到各类电子设备当中。

在大批量生产晶圆的情况下，外观检测依靠人工是完全应付不过来的，因此，当前常采用晶圆外观检测设备来进行品质检测。晶圆外观检测设备基于深度学习的智能缺陷检测算法，相比传统图像识别检测算法，能够有效提升晶圆检测准确率。

然而，基于深度学习的算法复杂度较高，依赖中央处理器(central processing unit，CPU)提供算力的晶圆外观检测设备已无法满足晶圆缺陷检测的实时性需求。尤其是在工厂产能不断提升的情况下，每天有海量的晶圆图片待检测，目前设备的检测能力有限，检测效率低。

发明内容

本申请提供一种晶圆检测任务的处理方法、装置、系统及存储介质，提高晶圆检测系统的检测效率。

第一方面，本申请实施例提供一种晶圆检测任务的处理方法，应用于资源管理节点，所述资源管理节点与多个工作节点连接，所述方法包括：

接收来自存储服务器的晶圆检测任务，所述晶圆检测任务中包括至少一个晶圆图片；

根据每个所述工作节点的权重值确定目标工作节点；其中，所述目标工作节点为所述多个工作节点中权重值最大的工作节点，每个工作节点的权重值是根据每个工作节点的负载信息确定的用于分配晶圆检测任务的参数；

向所述目标工作节点发送所述晶圆检测任务。

在本申请的一个实施例中，所述根据每个所述工作节点的权重值确定目标工作节点之前，所述方法还包括：

获取每个所述工作节点的负载值，所述负载值用于指示所述工作节点在预设时段内的负载大小；

根据所述多个工作节点的多个负载值，确定每个所述工作节点的权重值；其中，工作节点的负载大小与工作节点的权重值负相关。

在本申请的一个实施例中，所述获取每个所述工作节点的负载值，包括：

接收来自每个所述工作节点的工作参数集合，所述工作参数集合包括所述工作节点的多个GPU的GPU利用率、可用显存，所述工作节点的中央处理器CPU利用率、可用内存的至少一项；

根据每个所述工作节点的工作参数集合，确定每个所述工作节点的负载值。

接收来自每个所述工作节点的负载值，所述每个所述工作节点的负载值是每个所述工作节点根据工作参数集合确定的。

在本申请的一个实施例中，所述根据每个所述工作节点的工作参数集合，确定每个所述工作节点的负载值，包括：

根据预设权重值集合以及每个所述工作节点的工作参数集合，确定每个所述工作节点的负载值；其中，所述预设权重值集合包括用于指示所述GPU利用率、所述可用显存、所述CPU利用率以及所述可用内存的权重系数。

在本申请的一个实施例中，所述接收来自每个所述工作节点的工作参数集合，包括：

周期性地接收来自每个所述工作节点的工作参数集合；或者

每个所述工作节点的晶圆检测任务开始执行或结束执行时，接收来自每个所述工作节点的工作参数集合。

在本申请的一个实施例中，所述根据所述多个工作节点的多个负载值，确定每个所述工作节点的权重值，包括：

获取所述多个工作节点的多个负载值；

根据所述多个负载值确定负载阈值，所述负载阈值用于指示所述多个工作节点的平均负载大小；

根据所述负载阈值以及所述多个工作节点的多个负载值，确定每个所述工作节点的权重值。

在本申请的一个实施例中，所述根据所述负载阈值以及所述多个工作节点的多个负载值，确定每个所述工作节点的权重值，包括：

将负载值大于所述负载阈值的工作节点的权重值设置为1；或者

将负载值小于或等于所述负载阈值的工作节点的权重值设置为与工作节点连接的GPU数量。

第二方面，本申请实施例提供一种晶圆检测任务的处理装置，所述处理装置与多个工作节点连接，所述处理装置包括：

接收模块，用于接收来自存储服务器的晶圆检测任务，所述晶圆检测任务中包括至少一个晶圆图片；

处理模块，用于根据每个所述工作节点的权重值确定目标工作节点；其中，所述目标工作节点为所述多个工作节点中权重值最大的工作节点，每个工作节点的权重值是根据每个工作节点的负载信息确定的用于分配晶圆检测任务的参数；

发送模块，用于向所述目标工作节点发送所述晶圆检测任务。

第三方面，本申请实施例提供一种晶圆检测任务的处理装置，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述处理装置能够执行第一方面中任一项所述的方法。

第四方面，本申请实施例提供一种晶圆检测系统，包括：

至少一个资源管理节点，与所述资源管理节点连接的多个工作节点；每个所述工作节点包括多个图形处理器GPU；

所述资源管理节点用于执行如第一方面中任一项所述的方法。

在本申请的一个实施例中，每个所述工作节点在接收到所述资源管理节点发送的晶圆检测任务之后，从所述工作节点中的多个GPU中选择空闲的GPU，并将所述晶圆检测任务分配给所述空闲的GPU执行。

第五方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当所述计算机执行指令被处理器执行时，使得所述处理器能够执行第一方面中任一项所述的方法。

本申请实施例提供一种晶圆检测任务的处理方法、装置、系统及存储介质。该方法包括：资源管理节点接收来自存储服务器的晶圆检测任务，根据与资源管理节点连接的每个工作节点的权重值，从多个工作节点中选出目标工作节点，将晶圆检测任务分配给目标工作节点。目标工作节点从资源池中选出一个空闲GPU，将接收到的晶圆检测任务分配给空闲GPU执行。GPU对晶圆检测任务中的晶圆图片进行预处理，将处理后的晶圆图片输入到晶圆检测模型，得出检测结果。通过上述两级任务调度，将晶圆检测任务分散到各个工作节点的GPU上执行，实现工作节点之间以及GPU之间的负载均衡，可满足对海量晶圆图片进行缺陷检测的实时性要求，提高了系统处理晶圆检测任务的吞吐量。

附图说明

图1为本申请实施例提供的晶圆检测系统的架构示意图；

图2为本申请实施例提供的资源管理节点的执行流程图；

图3为本申请实施例提供的工作节点的执行流程图；

图4为本申请实施例提供的晶圆检测任务的处理方法的交互示意图；

图5为本申请实施例提供的晶圆检测模型训练方法的示意图；

图6为本申请实施例提供的晶圆检测任务的处理方法的交互示意图；

图7为本申请实施例提供的晶圆检测任务的处理装置的结构示意图；

图8为本申请实施例提供的晶圆检测任务的处理装置的硬件示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。

此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请实施例提供的技术方案涉及半导体(Semiconductor)晶圆生产领域，特别涉及晶圆生产过程中的缺陷检测(Defect Detection)领域。

芯片(即集成电路)产业是国民经济和社会发展的战略性、基础性、先导性产业，在计算机、消费类电子、网络通信、汽车电子等几大领域起着关键作用。芯片的生产制造流程非常复杂，其中，晶圆作为制造芯片的主要材料，其表面缺陷是影响产品良率的主要障碍。通过检测晶圆表面缺陷，不仅能发现有缺陷的晶粒，还能根据缺陷晶粒的分布模式判断工艺流程中存在的故障，以便工程师进行工艺上的改良。

目前，晶圆缺陷检测主要分为两类，一是通过探针测试检测晶粒的电气性能，二是通过人工目检检测晶圆表面的缺陷。这两种方式均需要经验丰富的工程师进行分析判断，耗费人力、劳动强度大且容易出现误差。在工厂产能不断提升的情况下，通过人工方式的检测效率低。

随着检测技术的不断发展，出现基于图像识别的检测方法，能够一定程度上提升晶圆检测的效率和准确率。该检测方法主要包括如下几个步骤：首先对晶圆图片进行特征提取，然后提取的特征输入到机器学习模型中进行判断，分类识别出晶圆图片的晶圆缺陷。随后，出现基于深度学习的检测方法，深度学习作为目前最热的机器学习方法，需要大量的训练数据，与上述图像识别的检测方法相比，能够进一步提升晶圆检测准确率，降低误报率。然而，基于深度学习的检测方法，算法复杂度更高，依赖中央处理器CPU提供算力的设备无法满足算法实时性要求。随着工厂产能提升，每天检测机台都会产生海量的晶圆图片，目前设备的检测能力有限，检测效率低。

针对上述技术问题，本申请实施例提供一种基于图形处理器GPU集群的分布式解决方案，将晶圆图片的检测分散至集群中各个工作节点的GPU上执行，提高智能缺陷检测的吞吐量，满足对海量晶圆图片进行智能缺陷检测的实时性要求。利用GPU的强大算力对晶圆智能缺陷检测过程进行硬件加速，降低延迟。另外，本申请实施例还提供一种基于GPU集群的分布式系统架构，针对晶圆智能缺陷检测的特性，通过定制化的GPU集群调度算法，优化GPU的资源利用率，提高晶圆智能缺陷检测的吞吐量。

在介绍本申请实施例提供的晶圆检测任务的处理方法之前，首先对该方法的系统架构进行简要介绍。

图1为本申请实施例提供的晶圆检测系统的架构示意图，如图1所示，本实施例提供的晶圆检测系统，包括：多个图像采集设备，存储服务器，至少一个资源管理节点(图1示出一个资源管理节点)，多个工作节点。其中，每个图像采集设备与存储服务器连接，存储服务器与资源管理节点连接，资源管理服务器分别与多个工作节点连接。每个工作节点包括多个GPU，GPU用于实际执行晶圆检测任务。

本实施例的图像采集设备，用于采集产线上每个晶圆的图片，图像采集设备将采集的晶圆图片存储到存储服务器上。作为一种示例，图像采集设备可以设置在产线的检测机台上。

本实施例的存储服务器用于存储来自不同图像采集设备的晶圆图片，并触发GPU集群对晶圆图片进行智能缺陷检测。其中，GPU集群包括资源管理节点(Resource Manager Node，简称RMN)和工作节点(Work Node，简称WN)。资源管理节点负责晶圆检测任务的调度，工作节点负责晶圆检测任务的执行。

在本申请的一个实施例中，存储服务器向资源管理节点发送晶圆检测任务。通过两级调度算法，将晶圆检测任务下发至实际执行任务的GPU。具体的，资源管理节点将晶圆检测任务分配给工作节点，工作节点再将晶圆检测任务分配给GPU。

在本申请的一个实施例中，资源管理节点可采用基于动态权重的轮询算法将晶圆检测任务分配给工作节点，并定期检查与资源管理节点连接的各个工作节点的健康状况。

示例性的，图2为本申请实施例提供的资源管理节点的执行流程图，如图2所示，资源管理节点在接收到来自存储服务器的晶圆检测任务后，首先确定是否需要更新工作节点的权重，若需要更新工作节点的权重，则计算工作节点的负载并更新工作节点的权重，基于更新后的权重从多个工作节点中选出一个工作节点，将晶圆检测任务分配给选出的工作节点。

作为一种示例，资源管理节点可以定期更新工作节点的权重，例如每5分钟更新一次。作为一种示例，资源管理节点可以在接收到工作节点上报的负载信息(通常是在工作节点的负载信息发生变化时)，可以更新该工作节点的权重。其中，工作节点的负载信息可以是工作节点的负载值(表征工作节点的负载大小)，还可以是工作节点的工作参数集合，工作参数集合包括以下至少一项：工作节点CPU的利用率、可用内存，工作节点的各GPU的利用率、可用显存。

在本申请的一个实施例中，工作节点包括多个GPU，通过维护任务队列(Task Queue)和资源池(Resource Pool)，将晶圆检测任务分配给空闲的GPU。其中，任务队列负责维护需要执行的晶圆检测任务，晶圆检测任务在任务队列中按照“先入先出”的顺序执行。资源池负责维护GPU处于空闲/忙碌状态，资源池中包括空闲的GPU。

示例性的，图3为本申请实施例提供的工作节点的执行流程图，如图3所示，工作节点包括CPU和GPU两部分，工作节点的执行流程会在CPU和GPU两种硬件设备上运行。其中，CPU部分负责晶圆检测任务由工作节点至GPU的调度，晶圆检测任务按先入先出的顺序执行。GPU部分负责晶圆检测任务中晶圆图片的缺陷检测任务，包括晶圆图片的预处理、基于晶圆检测模型的晶圆缺陷检测以及检测结果的后处理。作为一种示例，检测结果包括用于指示晶圆图片中是否存在晶圆缺陷的标签值，多种缺陷类别，每一种缺陷类别对应的置信度以及缺陷位置。检测结果的后处理可以是剔除置信度较低的缺陷类别，仅保留置信度最高的缺陷类别以及该缺陷类别的缺陷位置。

作为一种示例，工作节点从任务队列获取晶圆检测任务，确定资源池中是否有空闲的GPU。若资源池中有空闲的GPU，则工作节点从资源池中随机选出一个空闲的GPU，将晶圆检测任务分配给该空闲的GPU，同时更新该GPU状态为忙碌，待该晶圆检测任务执行完毕后，更新该GPU状态为空闲。若资源池中没有空闲的GPU，则等待直至资源池中有空闲的GPU。

作为一种示例，GPU中预置晶圆检测模型，该模型可以是基于任意深度学习模型训练得到的。使用晶圆检测模型检测晶圆图片中的缺陷需要耗费大量计算资源，通过在GPU 上进行硬件加速，相比于CPU，性能提升可以达到10倍以上，满足晶圆检测的实时性要求。

上文从整体上描述了基于图1所示系统架构的信息处理过程，下面以具体地实施例对本申请的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图4为本申请实施例提供的晶圆检测任务的处理方法的交互示意图，如图4所示，本实施例提供的处理方法包括如下步骤：

步骤101、存储服务器向资源管理节点发送晶圆检测任务，晶圆检测任务中包括至少一个晶圆图片。

存储服务器可以与一个资源管理节点连接，也可以与多个资源管理节点连接。本实施例的步骤是以一个资源管理节点为例进行方案介绍。

在一些实施例中，存储服务器可以同时向多个资源管理节点发送不同的晶圆检测任务，每个资源管理节点负责将接收到的晶圆检测任务分配给与其连接的一个工作节点。

可选的，存储服务器可以是一种网络存储服务器，例如网络附属存储(Network Attached Storage，简称NAS)服务器。

步骤102、资源管理节点根据每个工作节点的权重值确定目标工作节点。

其中，目标工作节点为多个工作节点中权重值最大的工作节点，每个工作节点的权重值是根据每个工作节点的负载信息确定的用于分配晶圆检测任务的参数。

工作节点的负载信息可以是负载值，负载值用于指示工作节点在预设时段内的负载大小，还可以是用于指示工作节点负载情况的工作参数，工作参数包括工作节点的CPU利用率、可用内存、多个GPU的GPU利用率、可用显存的至少一项。其中，可用内存是指CPU的可用内存，可用显存是指GPU的可用显存。

本实施例的工作节点的权重值越大，被分配到晶圆检测任务的概率越大；工作节点的权重值越小，被分配到晶圆检测任务的概率越小；工作节点的权重值为0，则不会被分配到晶圆检测任务。

可选的，可以默认设置工作节点的权重值为该工作节点的GPU数量，用公式表示为

其中x∈(1,2,…,n)，n为大于或等于2的正整数，n对应图1中工作节点的数量。

步骤103、资源管理节点向目标工作节点发送晶圆检测任务。

步骤104、目标工作节点确定空闲的GPU。

步骤105、目标工作节点向GPU发送晶圆检测任务。

目标工作节点接收资源管理节点发送的晶圆检测任务，确定资源池中是否有空闲的GPU，若资源池中有空闲的GPU，则将晶圆检测任务分配给该空闲的GPU。若资源池中没有空闲的GPU，则等待资源池中出现空闲的GPU，然后将晶圆检测任务分配给空闲的GPU。

作为一种示例，若资源池中有多个空闲的GPU，目标工作节点可以将该晶圆检测任务随机分配给其中一个空闲的GPU。作为另一种示例，若资源池中有多个空闲的GPU，目标工作节点可以根据GPU的显存大小，将晶圆检测任务分配给显存最大的空闲GPU。

步骤106、GPU执行晶圆检测任务。

GPU接收工作节点发送的晶圆检测任务，首先对晶圆检测任务中的晶圆图片进行预处理，得到处理后的晶圆图片。其中，预处理包括对晶圆图片的旋转、裁剪、缩放、数值归一化的至少一项。数据归一化是指将晶圆图片的每个像素点的RGB值和位置信息都归一化到[0,1]之间，归一化到[0,1]的好处是让不同维度的数据值(RGB值，位置)可以通过相同的量纲进行比较，使得各个特征对结果的贡献值相同。处理后的晶圆图片满足晶圆检测模型对输入图片的要求。

然后，将处理后的晶圆图片输入预先训练好的晶圆检测模型，得到检测结果。其中，晶圆检测模型采用任意深度学习模型训练得到。模型输出的检测结果包括：用于指示晶圆图片中是否存在晶圆缺陷的标签，缺陷类别以及缺陷位置的至少一项。

示例性的，标签可以是标签值，例如0表示晶圆图片中不存在晶圆缺陷，1表示晶圆图片中存在晶圆缺陷。缺陷类别可通过缺陷类别的ID指示，示例性的，晶圆缺陷包括划痕缺陷，颗粒缺陷，镀膜不良，边缘覆盖差等缺陷。缺陷位置指示晶圆缺陷的区域，该区域可以是一矩形区域，相应的，矩形区域可通过对角顶点坐标或者四个顶点坐标表示。

可选的，检测结果还包括缺陷类别对应的置信度(可以理解为概率值)。

本实施例提供的晶圆检测任务的处理方法，资源管理节点接收来自存储服务器的晶圆检测任务，根据与资源管理节点连接的每个工作节点的权重值，从多个工作节点中选出目标工作节点，将晶圆检测任务分配给目标工作节点。目标工作节点从资源池中选出一个空闲GPU，将接收到的晶圆检测任务分配给空闲GPU执行。GPU对晶圆检测任务中的晶圆图片进行预处理，将处理后的晶圆图片输入到晶圆检测模型，得出检测结果。通过上述两级任务调度，将晶圆检测任务分散到各个工作节点的GPU上执行，实现工作节点之间以及GPU之间的负载均衡，可满足对海量晶圆图片进行缺陷检测的实时性要求，提高了系统处理晶圆检测任务的吞吐量。

在上述实施例中，工作节点的每个GPU均包括晶圆检测模型，下面结合附图对晶圆检测模型的训练过程进行简要介绍。示例性的，图5为本申请实施例提供的晶圆检测模型训练过程的流程图，如图5所示，晶圆检测模型的训练方法，包括如下步骤：

步骤201、建立初始的晶圆检测模型。

步骤202、获取图像样本以及图像样本的标注结果，其中，图像样本中包含不同晶圆缺陷类别的第一图像样本以及没有晶圆缺陷的第二图像样本，标注结果包括用于指示图像样本中是否存在晶圆缺陷的标签、缺陷类别的ID以及缺陷位置。

本实施例中，第一图像样本包括不同拍摄角度、不同晶圆缺陷类别、不同晶圆缺陷位置、不同表面(晶圆的正面、背面)、不同环境条件(例如光照条件、温度环境、湿度环境等)的晶圆图片。同样的，第二图像样本包括不同拍摄角度、不同表面、不同环境条件的没有晶圆缺陷的晶圆图片。

步骤203、将图像样本作为晶圆检测模型的输入，将图像样本的标注结果作为晶圆检测模型的输出，对初始的晶圆检测模型进行训练，得到晶圆检测模型。

本实施例的GPU采用上述晶圆检测模型对晶圆图片进行缺陷检测，可大大提高检测的准确率和检测效率。

在上述实施例的基础上，下面结合附图对晶圆检测任务的处理方法进行详细说明。示例性的，图6为本申请实施例提供的晶圆检测任务的处理方法的交互示意图，如图6所示，本实施例提供的处理方法包括如下步骤：

步骤301、存储服务器向资源管理节点发送晶圆检测任务，晶圆检测任务中包括至少一个晶圆图片。

步骤302、资源管理节点获取每个工作节点的负载值，负载值用于指示工作节点在预设时段内的负载大小。

在本申请的一个实施例中，上述步骤302，包括：资源管理节点接收来自每个工作节点的工作参数集合；根据每个工作节点的工作参数集合，确定每个工作节点的负载值。其中，工作参数集合包括工作节点的多个GPU的GPU利用率、可用显存，以及工作节点的CPU利用率、可用内存。

资源管理节点可通过如下几种方式接收来自工作节点的工作参数集合：

在一种可能的实现方式中，资源管理节点周期性地接收来自每个工作节点的工作参数集合。

可选的，资源管理节点可以周期性地向多个工作节点发送查询请求，查询请求用于请求工作节点当前的工作状态。每个工作节点响应于查询请求，向资源管理节点发送查询响应，查询响应包括工作节点当前的工作参数集合。

可选的，资源管理节点与工作节点约定工作参数集合的上报周期，每个工作节点根据上报周期主动向资源管理节点上报工作参数集合。

在一种可能的实现方式中，每个工作节点的晶圆检测任务开始执行或结束执行时，资源管理节点接收来自每个工作节点的工作参数集合。例如，工作节点1将晶圆检测任务分配给GPU1，GPU1开始执行该晶圆检测任务时，工作节点1向资源管理节点上报工作节点1的工作参数集合。又例如，工作节点1的GPU1在结束执行晶圆检测任务时，工作节点1向资源管理节点上报工作节点1的工作参数集合。

作为一种示例，资源管理节点根据每个工作节点的工作参数集合，确定每个工作节点的负载值，包括：资源管理节点根据预设权重值集合以及每个工作节点的工作参数集合，确定每个工作节点的负载值。其中，预设权重值集合包括用于指示GPU利用率、可用显存、CPU利用率以及可用内存的权重系数。

具体的，资源管理节点可通过如下公式确定每个工作节点的负载值：

式中，L _x表示第x个工作节点的负载值，其中x∈(1,2,…,n)，n为大于或等于2的正整数。

表示第x个工作节点的第i个GPU的GPU利用率，

表示第x个工作节点的所有GPU的平均GPU利用率，其中i∈(1,2,…,k)，k为大于或等于2的正整数。

表示第x个工作节点的第i个GPU的可用显存容量，U _CPU表示第x个工作节点的CPU利用率，A _RAM表示第x个工作节点的可用内存容量。

f _GPU表示GPU利用率的权重系数，f _VRAM表示可用显存的权重系数，f _CPU表示CPU利用率的权重系数，f _RAM表示可用内存的权重系数。

在本申请的一个实施例中，上述步骤302包括：资源管理节点接收来自每个工作节点的负载值，每个工作节点的负载值是每个工作节点根据工作参数集合确定的。上述实例的工作节点直接向资源管理节点上报其负载值，可减轻资源管理节点的计算量，节省了部分计算资源，可提升资源管理节点的处理性能。

步骤303、资源管理节点根据多个工作节点的多个负载值，确定每个工作节点的权重值。其中，工作节点的负载值与工作节点的权重值负相关，即工作节点的负载值越大，工作节点的权重值越小，工作节点的负载值越小，工作节点的权重值越大。

在本申请的一个实施例中，上述步骤303，包括：资源管理节点获取多个工作节点的多个负载值，根据多个负载值确定负载阈值，根据负载阈值以及多个工作节点的多个负载值，确定每个工作节点的权重值。其中，负载阈值用于指示多个工作节点的平均负载大小。负载阈值是一个动态变化的阈值，资源管理节点可通过如下公式计算负载阈值T：

式中，λ为系数，λ∈[1,+∞)，默认将λ设置为2。

一种可能的情况，资源管理节点确定某一工作节点的负载值大于负载阈值

则将该工作节点的权重值设置为1。该工作节点被分配到任务的概率降低为

上述情况的工作节点被认定为亚健康状态，表明该工作节点的负载过大，因此尽量不向该工作节点分配新任务，可以降低该工作节点被分配到新任务的概率。

一种可能的情况，资源管理节点确定某一工作节点的负载值小于或等于负载阈值

则将该工作节点的权重值设置为该工作节点的GPU数量

该工作节点被分配到任务的概率提升为

上述情况的工作节点被认定为健康状态，表明该工作节点的负载较小，因此优先考虑向该工作节点分配新任务，可以提升该工作节点被分配到新任务的概率。

除了上述两种情况之外，还有一种特殊情况：某一工作节点与资源管理节点之间原本存在连接关系，但是由于网络问题或设备问题，该工作节点与资源管理节点处于断线状态，该工作节点被认定为不健康状态，资源管理节点不再考虑向该工作节点分配新任务，可以将该工作节点的权重值设置为0。

在一种可能的实现方式中，资源管理节点可以定期计算上述负载阈值，得到最新的负载阈值，并基于该负载阈值调整各个工作节点的权重值。该方式占用资源管理节点的资源少，但各个工作节点权重值的更新不够及时。

在另一种可能的实现方式中，资源管理节点在接收到工作节点上报的负载信息(只要有一个工作节点上报更新的负载信息)后，重新计算负载阈值，得到更新的负载阈值，并基于该负载阈值调整各个工作节点的权重值。该方式各个工作节点权重值的更新及时，但占用资源高。

步骤304、资源管理节点根据每个工作节点的权重值确定目标工作节点。

步骤305、资源管理节点向目标工作节点发送晶圆检测任务。

步骤306、目标工作节点确定空闲的GPU。

步骤307、目标工作节点向GPU发送晶圆检测任务。

步骤308、GPU执行晶圆检测任务。

本实施例的步骤304至步骤308与上述实施例的步骤102至步骤106相同，具体可参见上述实施例，此处不再赘述。

本实施例提供的晶圆检测任务的处理方法，资源管理节点接收来自存储服务器的晶圆检测任务，获取每个工作节点的权重值以及当前的负载阈值，通过比较每个工作节点的权重值与当前的负载阈值的大小关系，调整每个工作节点的权重值。再根据每个工作节点的权重值，从多个工作节点中选出目标工作节点，将晶圆检测任务分配给目标工作节点。目标工作节点从多个GPU中选出一个空闲GPU，将晶圆检测任务分配给该空闲GPU执行。通过上述两级任务调度，将晶圆检测任务分散到各个工作节点的GPU上执行，实现工作节点之间以及GPU之间的负载均衡，可满足对海量晶圆图片进行缺陷检测的实时性要求，提高了系统处理晶圆检测任务的吞吐量。

本申请实施例可以根据上述方法实施例对处理装置进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以使用硬件的形式实现，也可以使用软件功能模块的形式实现。需要说明的是，本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。下面以使用对应各个功能划分各个功能模块为例进行说明。

图7为本申请实施例提供的晶圆检测任务的处理装置的结构示意图。如图7所示，本实施例的晶圆检测任务的处理装置400与多个工作节点连接，处理装置400包括：

接收模块401，用于接收来自存储服务器的晶圆检测任务，所述晶圆检测任务中包括至少一个晶圆图片；

处理模块402，用于根据每个所述工作节点的权重值确定目标工作节点；其中，所述目标工作节点为所述多个工作节点中权重值最大的工作节点，每个工作节点的权重值是根据每个工作节点的负载信息确定的用于分配晶圆检测任务的参数；

发送模块403，用于向所述目标工作节点发送所述晶圆检测任务。

在本申请的一个实施例中，处理模块402根据每个所述工作节点的权重值确定目标工作节点之前，还用于：

在本申请的一个实施例中，接收模块401，还用于接收来自每个所述工作节点的工作参数集合，所述工作参数集合包括所述工作节点的多个GPU的GPU利用率、可用显存，所述工作节点的中央处理器CPU利用率、可用内存的至少一项；

处理模块402，还用于根据每个所述工作节点的工作参数集合，确定每个所述工作节点的负载值。

在本申请的一个实施例中，接收模块401，还用于接收来自每个所述工作节点的负载值，所述每个所述工作节点的负载值是每个所述工作节点根据工作参数集合确定的。

在本申请的一个实施例中，处理模块402，具体用于：

在本申请的一个实施例中，接收模块401，具体用于：

周期性地接收来自每个所述工作节点的工作参数集合；或者

在本申请的一个实施例中，处理模块402，具体用于：

获取所述多个工作节点的多个负载值；

在本申请的一个实施例中，处理模块402，具体用于：

将负载值小于或等于所述负载阈值的工作节点的权重值设置为所述工作节点的GPU数量。

本申请实施例提供的处理装置，用于执行前述任一方法实施例中资源管理节点的各个步骤，其实现原理和技术效果类似，在此不再赘述。

图8为本申请实施例提供的晶圆检测任务的处理装置的硬件示意图。如图8所示，本实施例的晶圆检测任务的处理装置500，包括：

至少一个处理器501(图8中仅示出了一个处理器)；以及

与所述至少一个处理器通信连接的存储器502；其中，

所述存储器502存储有可被所述至少一个处理器501执行的指令，所述指令被所述至少一个处理器501执行，以使所述处理装置500能够执行前述任一方法实施例中资源管理节点的各个步骤。

可选的，存储器502既可以是独立的，也可以跟处理器501集成在一起。

当存储器502是独立于处理器501之外的器件时，处理装置500还包括：总线503，用于连接存储器502和处理器501。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当所述计算机执行指令被处理器执行时用于实现前述任一方法实施例中资源管理节点的技术方案。

本申请实施例还提供一种晶圆检测系统，可参照图1，该系统包括：

至少一个资源管理节点，与资源管理节点连接的多个工作节点，其中，每个工作节点包括多个图形处理器GPU，资源管理节点用于执行前述任一方法实施例中资源管理节点的各个步骤。

在本申请的一个实施例中，每个工作节点在接收到资源管理节点发送的晶圆检测任务之后，从工作节点中的多个GPU中选择空闲的GPU，并将晶圆检测任务分配给空闲的GPU执行。GPU用于执行晶圆检测任务。

在本申请的一个实施例中，GPU中包括晶圆检测模型，晶圆检测模型采用深度学习模型训练得到，用于检测晶圆检测任务中的每一个晶圆图片中的晶圆是否存在缺陷，缺陷类别以及缺陷位置。

本申请实施例提供的晶圆检测系统是基于GPU集群的分布式架构的检测系统，可实现对缺陷检测机台产生的海量晶圆图片的实时检测，可协助生产部门快速锁定有问题的缺陷检测机台，有助于及早找出制程问题，及时回复制成偏差，并大幅度减少查找问题机台而进行检测的成本，可提高制程良率并降低生产成本。

应理解，本申请实施例中提及的处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

还应理解，本申请实施例中提及的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DR RAM)。

需要说明的是，当处理器为通用处理器、DSP、ASIC、FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件时，存储器(存储模块)集成在处理器中。

应注意，本文描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

一种晶圆检测任务的处理方法，其特征在于，应用于资源管理节点，所述资源管理节点与多个工作节点连接，所述方法包括：

接收来自存储服务器的晶圆检测任务，所述晶圆检测任务中包括至少一个晶圆图片；

根据每个所述工作节点的权重值确定目标工作节点；其中，所述目标工作节点为所述多个工作节点中权重值最大的工作节点，每个工作节点的权重值是根据每个工作节点的负载信息确定的用于分配晶圆检测任务的参数；

向所述目标工作节点发送所述晶圆检测任务。
根据权利要求1所述的方法，其特征在于，所述根据每个所述工作节点的权重值确定目标工作节点之前，所述方法还包括：

获取每个所述工作节点的负载值，所述负载值用于指示所述工作节点在预设时段内的负载大小；

根据所述多个工作节点的多个负载值，确定每个所述工作节点的权重值；其中，工作节点的负载大小与工作节点的权重值负相关。
根据权利要求2所述的方法，其特征在于，所述获取每个所述工作节点的负载值，包括：

接收来自每个所述工作节点的工作参数集合，所述工作参数集合包括所述工作节点的多个GPU的GPU利用率、可用显存，所述工作节点的中央处理器CPU利用率、可用内存的至少一项；

根据每个所述工作节点的工作参数集合，确定每个所述工作节点的负载值。
根据权利要求2所述的方法，其特征在于，所述获取每个所述工作节点的负载值，包括：

接收来自每个所述工作节点的负载值，所述每个所述工作节点的负载值是每个所述工作节点根据工作参数集合确定的。
根据权利要求3所述的方法，其特征在于，所述根据每个所述工作节点的工作参数集合，确定每个所述工作节点的负载值，包括：

根据预设权重值集合以及每个所述工作节点的工作参数集合，确定每个所述工作节点的负载值；其中，所述预设权重值集合包括用于指示所述GPU利用率、所述可用显存、所述CPU利用率以及所述可用内存的权重系数。
根据权利要求3所述的方法，其特征在于，所述接收来自每个所述工作节点的工作参数集合，包括：

周期性地接收来自每个所述工作节点的工作参数集合；或者

每个所述工作节点的晶圆检测任务开始执行或结束执行时，接收来自每个所述工作节点的工作参数集合。
根据权利要求2所述的方法，其特征在于，所述根据所述多个工作节点的多个负载值，确定每个所述工作节点的权重值，包括：

获取所述多个工作节点的多个负载值；

根据所述多个负载值确定负载阈值，所述负载阈值用于指示所述多个工作节点的平均负载大小；

根据所述负载阈值以及所述多个工作节点的多个负载值，确定每个所述工作节点的权重值。
根据权利要求7所述的方法，其特征在于，所述根据所述负载阈值以及所述多个工作节点的多个负载值，确定每个所述工作节点的权重值，包括：

将负载值大于所述负载阈值的工作节点的权重值设置为1；或者

将负载值小于或等于所述负载阈值的工作节点的权重值设置为所述工作节点的GPU数量。
一种晶圆检测任务的处理装置，其特征在于，所述处理装置与多个工作节点连接，所述处理装置包括：

接收模块，用于接收来自存储服务器的晶圆检测任务，所述晶圆检测任务中包括至少一个晶圆图片；

处理模块，用于根据每个所述工作节点的权重值确定目标工作节点；其中，所述目标工作节点为所述多个工作节点中权重值最大的工作节点，每个工作节点的权重值是根据每个工作节点的负载信息确定的用于分配晶圆检测任务的参数；

发送模块，用于向所述目标工作节点发送所述晶圆检测任务。
一种晶圆检测任务的处理装置，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述处理装置能够执行权利要求1-8中任一项所述的方法。
一种晶圆检测系统，其特征在于，包括：

至少一个资源管理节点，与所述资源管理节点连接的多个工作节点；每个所述工作节点包括多个图形处理器GPU；

所述资源管理节点用于执行如权利要求1-8中任一项所述的方法。
根据权利要求11所述的系统，其特征在于，每个所述工作节点在接收到所述资源管理节点发送的晶圆检测任务之后，从所述工作节点中的多个GPU中选择空闲的GPU，并将所述晶圆检测任务分配给所述空闲的GPU执行。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当所述计算机执行指令被处理器执行时，使得所述处理器能够执行权利要求1-8中任一项所述的方法。