WO2023050275A1

WO2023050275A1 - 数据处理方法、系统和计算机可读存储介质

Info

Publication number: WO2023050275A1
Application number: PCT/CN2021/122098
Authority: WO
Inventors: 曾建风; 豆联栋; 唐子涵
Original assignee: 京东方科技集团股份有限公司; 绵阳京东方光电科技有限公司
Priority date: 2021-09-30
Filing date: 2021-09-30
Publication date: 2023-04-06
Also published as: US20240210928A1; CN116261779A

Abstract

一种数据处理方法、系统和计算机可读存储介质。该方法包括：获取目标数据；所述目标数据包括多个分析单元的数据（21）；获取每个所述分析单元中包含不良点的多张待检测基板的检测数据（22）；叠加所述多张待检测基板中的不良点获得不良点数据集（23）；对不良点数据集进行聚类计算得到第一不良点簇集（24）；根据所述第一不良点簇集生成所述不良点簇集对应的设备接触点位置的报警信息（25）。该方法对每个分析单元的待检测基板进行分析，缩短生产过程与分析重复不良过程之间的时间间隔，有利于提高数据处理效率；并且，该方法可以发现相同位置重复出现不良的不良点即获得第一不良点簇集，达到及时检测出生产设备引起重复不良的生产设备的效果，有利于提升待检测基板生产的良率。

Description

数据处理方法、系统和计算机可读存储介质

技术领域

本公开涉及数据处理技术领域，尤其涉及一种数据处理方法、系统和计算机可读存储介质。

背景技术

目前，在生产显示面板的过程中，通过自动光学检测(Automated Optical Inspection，AOI)对待检测基板(GLASS)进行检测以检测出制程缺陷。例如，设备接触点不当、掩膜板上带有颗粒(Particle)等因素可以使得通过同一工艺站点的待检测基板会相同坐标位置重复出现不良，降低良率。

发明内容

本公开提供一种数据处理方法、系统和计算机可读存储介质，以解决相关技术的不足。

根据本公开实施例的第一方面，提供一种数据处理方法，包括：

获取目标数据；所述目标数据包括多个分析单元的数据；

获取每个所述分析单元中包含不良点的多张待检测基板的检测数据；

叠加所述多张待检测基板中的不良点获得不良点数据集；

对不良点数据集进行聚类计算得到第一不良点簇集；

根据所述第一不良点簇集生成所述不良点簇集对应的设备接触点位置的报警信息。

可选地，获取目标数据，包括：

基于源端数据中的生产数据，按照生产时间对经过每个生产设备的待检测基板进行排序，获得待检测基板的排序结果；

根据所述排序结果依次将预设数量张待检测基板划分至同一个单元，获得多个分析单元；

基于所述源端数据中的检测数据，获取每个分析单元中经过检测站点的待检测基板的数量；

获取每个分析单元中待检测基板的到达率，将所述到达率超过预设的到达率阈值的分析单元的数据作为转换后的目标数据。

可选地，对不良点数据集进行聚类计算得到第一不良点簇集，包括：

以所述不良点数据集中的任一不良点Pi为基准点，获取以r为距离阈值所形成区域内的不良点数量m，得到初始不良点簇；

遍历所述不良点数据集中的不良点，得到多个初始不良点簇；

获取满足初始不良点簇中的不良点数量m大于或等于第一阈值条件的多个初始不良点簇，得到第一不良点簇集。

可选地，根据所述第一不良点簇集生成所述不良点簇集对应的设备接触点位置的报警信息，包括：

对多个第一不良点簇集进行筛选，过滤具有相同位置信息的不良点的第一不良点簇，得到第二不良点簇集，

根据所述第二不良点簇集生成所述不良点簇集对应的设备接触点位置的报警信息。

可选地，对多个第一不良点簇集进行筛选，过滤具有相同位置信息的不良点的第一不良点簇，包括：

获取所述第一不良点簇集内每个点簇中不良点的数量；

按照所述数量排序所述第一不良点簇集内的点簇；

获取所述第一不良点簇集中不良点最多的点簇作为候选点簇；

分别获取所述第一不良点簇集内任一点簇和所述候选点簇的交并比且从所述第一不良点簇集内剔除所述交并比超过预设交并比阈值的点簇；

将所述候选点簇从所述第一不良点簇集内移入预设的第二不良点簇集内；

当所述第一不良点簇集为非空集合时，继续执行获取所述第一不良点簇集内不良点最多的点簇作为候选点簇的步骤；否则，确定获得所述第二不良点簇集。

可选地，所述方法还包括：

根据所述设备接触点位置控制对应的生产设备，以使所述生产设备执行保护动作。

可选地，所述设备接触点位置包括以下至少一种：不良点坐标、待检测基板的识别码和生产设备的识别码。

根据本公开实施例的第二方面，提供一种数据处理方法，包括：

响应于订阅监控功能的操作，采集与重复不良点检测相关的至少一个订阅参数的预设值；

根据所述预设值获取目标数据并对目标数据进行处理得到每个分析单元对应的第一不良点簇集；

根据本公开实施例的第三方面，提供一种数据处理系统，包括：分布式存储装置、数据转换装置和数据处理装置；

所述分布式存储装置，被配置为执行存储源端数据；

所述数据转换装置包括一个或多个第一处理器，所述一个或多个第一处理器被配置为执行将所述源端数据转换为目标数据；所述目标数据包括多个分析单元的数据；

所述数据处理装置包括一个或多个第二处理器，所述一个或多个第二处理器被配置为执行获取每个所述分析单元中包含不良点的多张待检测基板的检测数据，并叠加所述多张待检测基板中的不良点获得不良点数据集，对不良点数据集进行聚类计算得到第一不良点簇集；根据所述第一不良点簇集生成所述不良点簇集对应的设备接触点位置的报警信息。

可选地，所述源端数据包括元数据、生产数据和监测数据中至少一种；所述元数据表示工艺站点和检测站点之间的关联关系，所述生产数据表示各待检测基板的生产履历数据；所述监测数据为检测站点检测待检测基板时上生成的数据。

可选地，所述一个或多个第二处理器还被配置为执行：

可选地，所述一个或多个第二处理器还被配置为执行对不良点数据集进行聚类计算得到第一不良点簇集，包括：

可选地，所述一个或多个第二处理器还被配置为执行根据所述第一不良点簇集生成所述不良点簇集对应的设备接触点位置的报警信息，包括：

可选地，所述一个或多个第二处理器还被配置为执行对多个第一不良点簇集进行筛选，过滤具有相同位置信息的不良点的第一不良点簇，包括：

获取所述第一不良点簇集内每个点簇中不良点的数量；

按照所述数量排序所述第一不良点簇集内的点簇；

可选地，所述一个或多个第二处理器还被配置为执行：

可选地，还包括显示装置；所述显示装置包括至少一块显示屏；所述至少一块显示屏被配置为显示所述报警信息。

根据本公开实施例的第五方面，提供一种计算机可读存储介质，当所述存储介质中的可执行的计算机程序由处理器执行时，能够实现上述的方法。

本公开的实施例提供的技术方案可以包括以下有益效果：

由上述实施例可知，本公开实施例中可以获取目标数据；获取每个所述分析单元中包含不良点的多张待检测基板的检测数据；然后，叠加所述多张待检测基板中的不良点获得不良点数据集；之后，对不良点数据集进行聚类计算得到第一不良点簇集；最终根据所述第一不良点簇集生成所述不良点簇集对应的设备接触点位置的报警信息。这样，本公开通过划分经过同一个生产设备生产的待检测基板形成分析单元，然后对每个分析单元的待检测基板进行分析，缩短生产过程与分析重复不良过程之间的时间间隔，有利于提高数据处理效率；并且，本公开中叠加多张待检测基板的不良点，可以发现相同位置重复出现不良的不良点即获得第一不良点簇集，达到及时检测出生产设备引起重复不良的效果，有利于提升待检测基板生产的良率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种数据处理系统的框图。

图2是根据一示例性实施例示出的一种数据处理方法的流程图。

图3是根据一示例性实施例示出的工艺站点和检测站点的关联关系的示意图。

图4是根据一示例性实施例示出的获取目标数据的流程图。

图5是根据一示例性实施例示出的获取第一不良点簇集的流程图。

图6是根据一示例性实施例示出的生成报警信息的流程图。

图7是根据一示例性实施例示出的过滤第一点簇集中重复不良点的流程图。

图8(a)是根据一示例性实施例示出的第一点簇集包括5个点簇的效果示意图。

图8(b)是根据一示例性实施例示出的第一点簇集包括5个点簇的效果示意图。

图9是根据一示例性实施例示出的另一种数据处理方法的流程图。

图10是根据一示例性实施例示出的功能订单界面的效果示意图。

图11是根据一示例性实施例示出的报警界面的效果示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性所描述的实施例并不代表与本公开相一致的所有实施例。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置例子。

目前，工业产品的生产线包括若干个生产设备，每个生产设备在工作异常或工作参数异常时均有可能影响到产品的良率。当生产出不良产品时，生产人员需要定位出产生不良的原因。然而，生产线中生产设备所产生的数据量比较大，而采用传统的关系型数据库进行数据存储和分析时存在以下问题：读写慢、成本高、有限的储存容量并且扩展困难，这些固有的缺点增加了数据库使用的时间成本和硬件成本，同时，生产工作一刻不停，数据源源不断的产生，这更加增加了监控和定位不良品的产生及分析生产不良的原因的复杂性，从而导致生产线中出现生产率下降、人力耗材的大量消耗大量。其中，由于涉及多个工厂的多个生产设备，故以上原始数据的数据量是很大的。例如，所有生产设备每天产生的原始数据可能有几百GB，每小时产生的数据也可能有几十GB。

本公开实施例提供了一种数据处理系统，后续实施例也称之为本公开的系统或者本系统或者该系统。如图1所示，数据处理系统包括分布式存储装置100、数据转换装置200和数据处理装置300。数据转换装置200分别与分布式存储装置100和数据处理装置300连接。本方案采用全新的数据处理系统流程，既可以有效降低数据库管理及使用成本，同时可以提高查找不良品产生原因的效率，进而提高生产效率。

分布式存储装置100可以包括具备处理生产设备产生的原始数据能力的源端数据库，如包括YMS(Yield Management System，良率管理系统)、FDC(Fault Detection&Classification，错误侦测及分类)、MES(Manufacturing Execution System，制造执行系统)等系统的关系型数据库(如Oracle、Mysql等)，用于存储多个生产设备产生的生产数据。

例如，多个生产设备产生的生产数据包括生产数据；该生产数据包括多个样本(如待检测基板)在生产过程中经过的生产设备的信息和出现不良类型的信息，每个样本在生产过程中经历多个生产设备，每个生产设备参与且仅参与多个样本中部分样本的生产过程。为方便说明，本公开中样本可以为待检测基板(GLASS)，并且后续实施例中可以以待检测基板为例描述各方案。

其中，分布式存储装置100中存储有相对完整的数据。分布式存储装置可以包括多个硬件的存储器，且不同的硬件存储器分布在不同物理位置(如在不同工厂，或在不同生产线)，并通过无线传输(例如网络等)或者有线实现相互之间信息的传递，从而使得数据是分布式关系的，但在逻辑上构成一个基于大数据技术的数据库。

分布式存储装置100中的数据可采用Hive工具或Hbase数据库格式存储。例如，根据Hive工具，以上原始数据先存储在数据湖中；之后，可继续在Hive工具中按照数据的应用主题、场景等进行数据清洗、数据转换等预处理，得到具有不同主题(如生产履历主题、检测数据主题、设备数据主题、元数据主题)的数据仓库，以及具有不同场景(如设备分析场景、参数分析场景)的数据集。以上数据集可再通过不同的API接口，与显示设备、分析设备等连接，以实现与这些设备间的数据交互。

在一实施例中，对海量结构化数据实现存储与计算方案：分布式文件管理系统(Distributed File System，DFS)的大数据方案。

其中，DFS为基础的大数据技术，则允许采用多个廉价硬件设备构建大型集群，以对海量数据进行处理。如Hive工具是基于Hadoop的数据仓库工具，可用来进行数据提取转化加载(ETL)，Hive工具定义了简单的类SQL查询语言，同时也允许通过自定义的MapReduce的mapper和reducer来默认工具无法完成的复杂的分析工作。Hive工具没有专门的数据存储格式，也没有为数据建立索引，用户可以自由的组织其中的表，对数据库中的数据进行处理。可见，分布式文件管理的并行处理可满足海量数据的存储和处理要求，用户可通过SQL查询处理简单数据，而复杂处理时可采用自定义函数来实现。因此，在对工厂的海量数据分析时，需要将工厂数据库的数据抽取到分布式文件系统中，一方面不会对原始数据造成破坏，另一方面提高了数据分析效率。

在一实施例中，分布式存储装置100可以是一个存储器，可以是多个存储器，也可以是多个存储元件的统称。例如，存储器可以包括：随机存储器(Random Access Memory，RAM)，双倍速率同步动态随机存储器(Double Data Rate Synchronous Dynamic Random Access Memory，DDR SRAM)，也可以包括非易失性存储器(non-volatile memory)，例如磁盘存储器，闪存(Flash)等。

数据转换装置200可以包括一个或者多个处理器，后续称之为第一处理器以示区别。数据转换装置200可以与分布式存储装置100通信，从而获取到源端数据。例如，数据转换装置可以利用ETL数据抽取工具(如Pentaho、Sqoop、kettle等)从分布式数据库抽取源数据，以将源数据转换到目标数据。

数据处理装置300可以包括一个或者多个处理器，后续称之为第二处理器以示区别。数据处理装置300用于实现如下述任一实施例所述的数据处理方法，具体实现请参见后续实施例的一种数据处理方法的方案，在此先不作说明。

在一实施例中，数据处理系统还包括显示装置(图中未示出)。该显示装置用于显示界面，该界面可以包括可以显示数据处理装置300的报警信息等数据。在一实施例中，显示装置可以是触控显示器，还可以是包含显示器的产品，例如电视机、电脑(一体机或台式机)、计算机、平板电脑、手机、电子画屏等。

图2是根据一示例性实施例示出的一种数据处理方法的流程图，可以适用于图1所示的数据处理系统。参见图2，一种数据处理方法，包括步骤21～步骤24：

在步骤21中，获取目标数据；所述目标数据包括多个分析单元的数据。

本实施例中，本系统中数据转换装置200可以与分布式存储装置100进行通信，获取分布式存储装置所存储的尖端数据。该源端数据可以包括元数据、生产数据和监测数据中至少一种，可以根据具体场景选择所采集的源端数据，在此不作限定。其中，元数据表示工艺站点和检测站点之间的关联关系，效果如图3所示，即元数据可以用于确定负责检测生产设备的检测设备。实际应用中，元数据还可以表示不良计算与后续报警的生产设备层级(EQP、MACHINE、UNIT)等。实际应用中，上述元数据是将生产工单导入生产线时生产设备、生产线或者数据处理系统等根据待检测基板经过的生产设备以及待检测基板要检测的相关参数生成的，或者预先设置并存储的，可以根据具体场景进行设置，在此不作限定。

上述生产数据表示各待检测基板经过各个生产设备时所产生的数据，通常也可称之为生产履历数据，例如沉积ITO薄膜、涂覆光刻胶、蚀刻、剥膜等，包括待检测基板的标识码(GLASSID、生产设备的标识码、进入和离开生产设备的时间等。

上述监测数据为检测站点检测待检测基板时生成的数据，例如检测时间、待检测基板的标识码，工艺站点的标识码、不良类型(code)，不良点坐标等。

本实施例中，上述数据转换装置200可以将源端数据转换为目标数据，或者说，通过加载源端数据库中的源端数据进行清洗和转换，生成本系统中数据处理装置300所需要的目标数据，将目标数据上传到数据处理装置300的数据库。并且，数据处理装置的数据库可以采用KUDU数据库实现。

参见图4，该数据转换装置200将源端数据转换为目标数据，可以包括步骤41～步骤44。

在步骤41中，数据转换装置200可以获取源端数据中的生产数据，该生产数据中包括待检测基板进入生产设备的生产时间。然后，数据转换装置200可以根据生产数据中的生产时间对经过每个生产设备的待检测基板进行排序，获得待检测基板的排序结果。其中，生产时间是指待检测基板进入每个生产设备进行生产时所对应的时刻，即待检测基板的生产时间是包括多个与生产设备一一对应的时刻的集合。

例如，本步骤中数据转换装置200可以读取源端数据中的生产数据，如生产设备EQP(如CVD设备)、同一设备并行的工艺段MACHINE(如CVD清洗单元)，同一设备并行的工艺单元UNIT(如CVD具体的工艺腔室)等，并按照待检测基板进入和/或者离开每个生产设备(或者EQP、MACHINE或者UNIT)的时间进行排序，即生产时间靠前的待检测基板的排序要先于生产时间靠后的待检测基板的排序。

在步骤42中，数据转换装置200可以根据上述排序结果依次将预设数量(如K)张待检测基板划分至同一个单元，获得多个分析单元。其中，K取值为大于或等于2的正整数，可理解的是，每个分析单元中待检测基板的数量越大，则有利于提升后续获取重复不良点的位置数据越准确，故可根据具体场景选取K的取值，例如根据生产过程中生产速度来选取。在一示例中K取值为28。本步骤中可以将K张待检测基板划分为一个分析单元以方便后续处理过程可以每次处理一个分析单元的数据，可以减少每次数据处理量，有利于及时发现重复不良点出现的时间。

在步骤43中，数据转换装置200可以基于源端数据中的检测数据，获取各分析单元中经过检测站点的待检测基板的数量M。实际应用中，待检测基板在经过生产设备后可能出现不良被移出工艺流程，未到达生产设备所对应的检测站点，从而使得同一个分析单元的待检测基板到达检测设备的数量M要小于或者等于K。本步骤中获取上述数量M的目的在于：第一，确定分析单元中有效的待检测基板并获得对应的源端数据；第二，根据到达率来确定是否处理分析单元的数据，参见步骤44。可理解的是，步骤43中获取待检测基板的数量M可以是获得各个分析单元的的全部数据才进行统计，也可以是实时获取各个分析单元中每个待检测基板的数量，可以根据具体场景选择获取数量M的方式，在此不作限定。

在步骤44中，数据转换装置200可以获取每个上述分析单元中待检测基板的到达率

将所述到达率超过预设的到达率阈值的分析单元的数据作为转换后的目标数据。然后，数据转换装置200可以将上述目标数据存入数据处理装置的KUDU数据库中。实际应用中，到达率小于上述到达率阈值的分析单元的数据也可以存在上述KUDU数据库中，以保证检测数据的完整性和可回溯。

基于上述内容可知，本实施例中目标数据可以包括但不限于到达率、生产设备的识别码、待检测基板的识别码、分析单元的序号、工艺站点的识别码和待检测基板离开工艺站点的时间，以及每个分析单元的检测数据，可以根据具体场景进行设置，在此不作限定。

本步骤中，各分析单元中待检测基板的到达率可以具有以下用处：第一，根据到达率来确定是否处理分析单元的数据即目标数据，从而获得能够表征重复不良的分析单元，达到筛选分析单元的效果；第二，可以通过设置一个到达率阈值，当到达率超过上述到达率阈值时，该分析单元即可作为目标数据以用于重复不良方面的处理，无需等待获得所有待检测基板的源端数据(如检测数据)才进行数据转换或者数据上传，有利于提升数据上传效率，进而有利于将处理分析单元的目标数据的时间提前以利于及时发现不良。或者，当到达率超过上述到达率阈值时，该分析单元即可作为目标数据以用于重复不良方面的处理，此时可以将目标数据缓存到本地，等到该分析单元内所有待检测基板的数据全部获得后再进行处理。而小于上述到达率阈值的分析单元的数据可以丢弃，有利于减少存储数据量，提升存储空间的使用效率。

本实施例中，本系统可以包括数据处理装置300，该数据处理装置300可以与数据转换装置200进行通信，获取上述目标数据。

在步骤22中，获取每个所述分析单元中包含不良点的多张待检测基板的检测数据。

本实施例中，本系统中数据处理装置300可以采用Spark计算引擎实现对目标数据的数据处理工作，借助Spark并行内存计算的能力，实现快速数据分析和计算。数据处理装置可以获取每个分析单元中包含不良点的多张待检测基板的检测数据。可理解的是，数据处理装置300可以根据目标数据中生产设备和元数据确定检测设备的标识码，然后从检测设备的标识码对应的检测数据中提取出包括待检测基板识别码的检测数据，得到包含不良点的多张待检测基板的检测数据，或者直接从目标数据中提取出包含不良点的多张待检测基板的检测数据。

在步骤23中，叠加所述多张待检测基板中的不良点获得不良点数据集。

本实施例中，数据处理装置300可以直接叠加所述多张待检测基板中的不良点获得不良点数据集。或者，数据处理装置300可以从目标数据中获取每个分析单元的到达率，并对比该到达率与预设的到达率阈值。当该到达率大于或者等于上述到达率阈值时，确定处理该分析单元。此时，数据处理装置300可以叠加所述多张待检测基板中的不良点，获得每个分析单元对应的不良点数据集。

待检测基板中包括不良点在待检测基板上的坐标位置，是由检测站点对待检测基板进行不良点检测所生成的，如待检测基板进入检测站点后，检测站点内的图像传感器采集待检测基板的图像，并利用预设的不良点检测模型来确定出图像上的不良点，并将每张待检测基板的不良点汇总且存储到分布式存储装置内。

那么叠加过程可以包括：在同一个坐标系下，针对每个分析单元，数据处理装置300可以将各张待检测基板的不良点依次置入或者映射到上述坐标系中，从而形成一个二维不良点图，该二维不良点图可以等价为分析单元对应的不良点数据集D(p ₁,p ₂,......,p _n)。其中p _i(i取1～n)表示其中不良点数据集一个不良点的坐标数据，包括横坐标、纵坐标和所在待检测基板的标识码。

在步骤24中，对不良点数据集进行聚类计算得到第一不良点簇集。

本实施例中，数据处理装置300通过对多张待检测基板的不良点进行叠加，可以获取不同待检测基板在上述坐标系的同一区域出现重复不良的不良点即获得不良点簇集，达到及时检测出重复不良的生产设备的效果，有利于提升待检测基板生产的良率。

本实施例中对重复不良点作如下定义：以点p _i(p _i∈D)为基准点，以r(可调整)为距离阈值所形成的区域内不良点数量超过数量阈值时，确定上述区域内的不良点为重复不良点。

本实施例中，获取第一不良点簇集，参见图5，包括步骤51～步骤53：在步骤51中，以不良点数据集D(p ₁,p ₂,......,p _n)中的任一不良点p _i为基准点，以r(可调整)为距离阈值所形成的区域内不良点数量m，得到初始不良点簇集R。

在步骤52中，遍历不良点数据集D(p ₁,p ₂,......,p _n)中的不良点，得到多个初始不良点簇。

在步骤53中，获得满足初始不良点簇集中的不良点数据m大于或等于第一阈值条件的多个初始不良点簇，得到第一不良点簇集。

例如，以点p _i(p _i∈D)为圆心，以距离阈值r(可调整)为半径，获取圆形C _i，计算C _i中包括不良点所归属待检测基板的数量m，当m≥m _t(如3～5，可调整)时，则在点p _i处存在重复不良点聚集，此时可以将p _i对应圆形内不良点作为一个点簇

每个不良点分别作为一次圆心即遍历不良点后，数据处理装置300可以获取不良点数据集D(p ₁,p ₂,......,p _n)中各不良点对应的不良点簇，得到第一不良点簇集R＝(R ₁,R ₂,......,R _n)。

也就是说，第一点簇集中各个不良点簇是以各不良点p _i为圆心且距离阈值r为半径所形成圆形所覆盖不良点的集合。其中，上述距离阈值可以根据分析单元内待检测基板的对位偏差来确定，如3-10个像素。上述对位偏差是检测站点的图像传感器采集两张待检测基板的图像时同一个位置的点产生的偏移量，是由移动待检测基板的机械结构引起的。

在一实施例中，考虑到不良点的数量通常比较多即不良点数据集的数据量比较大，导致后续计算量比较大，因此本公开中可以采用邻域查找方法来获取第一不良点簇集。例如，邻域查找方法采用kd-tree算法实现，以r(可调整)为距离阈值，以点p _i(p _i∈D)为基准点，查找其邻域中不良点的数量m，形成一个不良点簇R _i。当R _i中不良点所归属待检测基板的数量m≥m _t时，将该存入初始点簇集R内。当所有不良点p _i的完成遍历后，即可获得第一不良点簇集。这样，本实施例中通过邻域查找算法可以实现大规模数据二维空间内最近邻域的快速查找，提高数据处理速度，有利于提升不良检测的效率。

在步骤25中，根据第一不良点簇集生成所述不良点簇集对应的设备接触点位置的报警信息。

本实施例中，数据处理装置300可以根据第一不良点簇集生成所述不良点簇集对应的设备接触点位置的报警信息，参见图6，包括步骤61～步骤62。

在步骤61中，数据处理装置300可以对多个第一不良点簇集进行筛选，过滤具有相同位置信息的不良点的第一不良点簇，得到第二不良点簇集。例如，数据处理装置300可以过滤初始点簇集R＝(R ₁,R ₂,......,R _n)中不同点簇之间具有相同位置信息的不良点或者在上述二维图中两个点是重合的。例如，在点簇集R中，点簇R _i＝(p _l,p _l+1,p _l+2,p _l+3,......)，点簇R _j＝(……,P _l-1,P _l,P _l+1,P _l+2)，两者存在重复的点(p _l,p _l+1,p _l+2)，其中R _i,

p _l∈D。这样，本步骤中通过过滤不同点簇之间具有相同位置信息的不良点，可以消除针对同一区域出现不良的重复性报警。基于上述内容，数据处理装置300过滤具有相同位置信息的不良点的过程，参见图7，包括步骤71～步骤76。

在步骤71中，数据处理装置300可以获取第一不良点簇集R＝(R ₁,R ₂,......,R _n)内每个点簇中不良点的数量。可理解的是，步骤71中可以实时获取每个点簇中不良点的数量；也可以在获取初始点簇集时将每个点簇中不良点的数量作为每个点簇的属性数据存入该初始点簇集中，步骤71中直接读取即可，从而可以减少处理过程和加快处理效率。

在步骤72中，数据处理装置300可以按照数量排序第一不良点簇集内的点簇，例如从大到小排序。

在步骤73中，数据处理装置300可以获取第一不良点簇集内不良点最多的点簇作为候选点簇。

在步骤74中，数据处理装置300可以分别获取第一不良点簇集内任一点簇和候选点簇的交并比且从第一不良点簇集内剔除交并比超过预设交并比阈值的点簇。例如，候选点簇R _i与点簇R _j的交并比

当T＞＝t(t∈[0,1])时，将点簇R _j从R中剔除。如果小于t，则保留点簇R _j。

在步骤75中，数据处理装置300可以将候选点簇从第一不良点簇集内移入预设的第二不良点簇集

内。

在步骤76中，当第一不良点簇集为非空集合时，数据处理装置300可以继续执行获取第一不良点簇集内不良点最多的点簇作为候选点簇的步骤，即将第一不良点簇集中的所有点簇遍历完才能结束，即重新执行步骤73～步骤76；否则，确定获得第二不良点簇集

效果如图8所示。其中，图8(a)示出了第一不良点簇集中5个点簇的效果，图8(b)示出了第二不良点簇集中3个点簇的效果，其图8(a)和图8 (b)相比较过滤掉点簇R1和R5。

在步骤62中，数据处理装置300可以根据所述第二不良点簇集生成所述不良点簇集对应的设备接触点位置的报警信息。

本实施例中数据处理装置300获得第二不良点簇集即可获得出现重复不良的点簇。然后，数据处理装置300可以根据点簇中不良点查询到待检测基板的识别码，根据待检测基板的生产数据获得对应生产设备的标识码确定出工作异常的生产设备。也就是说，本实施例提供的方法定位到引起重复不良现象的生产设备。并且，数据处理装置300可以根据出现重复不良的点簇来确定出不良点的位置信息，以及根据上述位置信息和上述生产设备确定出生产设备的某个部件发生异常，或者说获得不良点数据集对应的设备接触点位置。

本实施例中，在获得设备接触点位置之后，数据处理装置300可以不良点簇集对应的设备接触点位置的报警信息。上述设备接触点位置可以包括以下至少一种：不良点坐标、待检测基板的识别码和生产设备的识别码。此处，报警信息还可以包括不良原因数据和产生不良的时间等，可以根据具体场景进行设置，在此不作限定。然后，数据处理装置300可以通过指定方式(如短信、邮件、推送消息等)发送给用户，以达到及时发现问题并预警止损，避免良率的损失。

例如，用户可以登陆数据处理系统，在功能订阅界面找到BP Common Defect监控功能，点击订阅；并在输入需要监控的工艺站点，以及计算参数(分析单元(Batch)的划分数量K、到达率、不良点匹配精度、不良GLASS数量、交并比IOU阈值等关键参数)，最后选择异常报警方式，并确认订阅生效。用户可以订阅数据处理系统的消息后，数据处理装置在生成报警信息时可以根据订阅配置信息，通过移动门户消息推送方式向订阅用户发送报警信息，从而及时提醒用户。

图9是根据一示例性实施例示出的一种数据处理方法的流程图，可以适用于图1所示的数据处理系统。参见图9，一种数据处理方法，包括步骤91～步骤93：

在步骤91中，响应于订阅监控功能的操作，采集与重复不良点检测相关的至少一个订阅参数的预设值。本步骤中，数据处理系统中包括显示装置。该显示装置可以是触控显示器，该触控显示器可以显示功能订阅界面，效果如图10所示。用户在登陆数据处理系统后，可以在功能订阅界面找到订阅监控功能(如BP Common Defect监控功能)，然后点击订阅；并在功能订阅界面内输入与重复不良点检测相关的至少一个订阅参数的预设值，例如输入需要监控的工艺站点，计算参数可以包括分析单元(Batch)的划分数量K、到达率(如设有80％)、不良点匹配精度(如设为0.5mm)、不良GLASS数量(如设为3)、交并比IOU阈值(如设为0.8)等关键参数，以及异常报警方式(如设为移动门户消息)等等，并确认订阅生效。这样，触控显示器可以采集到上述至少一个订阅参数的预设值，并发送给数据处理装置。

在步骤92中，根据所述预设值获取目标数据并对目标数据进行处理得到每个分析单元对应的第一不良点簇集。本步骤中，数据处理装置可以根据上述预设值获取每个分析单元对应的不良点簇集，具体获取过程可以参见图2所示实施例的内容，在此不再赘述。

在步骤93中，根据所述第一不良点簇集生成所述不良点簇集对应的设备接触点位置的报警信息。本步骤中，数据处理装置可以生成报警信息，具体参见步骤25。在生成报警信息后还可以根据预设报警方式通过移动门户消息推送方式向订阅用户发送报警信息，从而及时提醒用户。本示例中数据处理装置可以将报警信息发送给触控显示器，由触控显示器显示上述报警信息，效果如图11所示。

在上述数据处理方法的基础上，本公开实施例提供了一种数据处理系统，参见图1，包括：分布式存储装置100、数据转换装置200和数据处理装置300；

所述分布式存储装置，被配置为执行存储源端数据；

可选地，所述一个或多个第二处理器还被配置为执行：

获取所述第一不良点簇集内每个点簇中不良点的数量；

按照所述数量排序所述第一不良点簇集内的点簇；

可选地，所述一个或多个第二处理器还被配置为执行：

可理解的是，本公开实施例提供的系统与上述方法相对应，具体内容可以参考方法各实施例的内容，在此不再赘述。在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述可执行的计算机程序可由处理器执行。其中，可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的公开后，将容易想到本公开的其它实施方案。本公开旨在涵盖任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

一种数据处理方法，其特征在于，包括：

获取目标数据；所述目标数据包括多个分析单元的数据；

获取每个所述分析单元中包含不良点的多张待检测基板的检测数据；

叠加所述多张待检测基板中的不良点获得不良点数据集；

对不良点数据集进行聚类计算得到第一不良点簇集；

根据所述第一不良点簇集生成所述不良点簇集对应的设备接触点位置的报警信息。
根据权利要求1所述的数据处理方法，其特征在于，获取目标数据，包括：

基于源端数据中的生产数据，按照生产时间对经过每个生产设备的待检测基板进行排序，获得待检测基板的排序结果；

根据所述排序结果依次将预设数量张待检测基板划分至同一个单元，获得多个分析单元；

基于所述源端数据中的检测数据，获取每个分析单元中经过检测站点的待检测基板的数量；

获取每个分析单元中待检测基板的到达率，将所述到达率超过预设的到达率阈值的分析单元的数据作为转换后的目标数据。
根据权利要求1所述的数据处理方法，其特征在于，对不良点数据集进行聚类计算得到第一不良点簇集，包括：

以所述不良点数据集中的任一不良点Pi为基准点，获取以r为距离阈值所形成区域内的不良点数量m，得到初始不良点簇；

遍历所述不良点数据集中的不良点，得到多个初始不良点簇；

获取满足初始不良点簇中的不良点数量m大于或等于第一阈值条件的多个初始不良点簇，得到第一不良点簇集。
根据权利要求3所述的数据处理方法，其特征在于，根据所述第一不良点簇集生成所述不良点簇集对应的设备接触点位置的报警信息，包括：

对多个第一不良点簇集进行筛选，过滤具有相同位置信息的不良点的第一不良点簇，得到第二不良点簇集；

根据所述第二不良点簇集生成所述不良点簇集对应的设备接触点位置的报警信息。
根据权利要求4所述的数据处理方法，其特征在于，对多个第一不良点簇集进行筛选，过滤具有相同位置信息的不良点的第一不良点簇，包括：

获取所述第一不良点簇集内每个点簇中不良点的数量；

按照所述数量排序所述第一不良点簇集内的点簇；

获取所述第一不良点簇集中不良点最多的点簇作为候选点簇；

分别获取所述第一不良点簇集内任一点簇和所述候选点簇的交并比且从所述第一不良点簇集内剔除所述交并比超过预设交并比阈值的点簇；

将所述候选点簇从所述第一不良点簇集内移入预设的第二不良点簇集内；

当所述第一不良点簇集为非空集合时，继续执行获取所述第一不良点簇集内不良点最多的点簇作为候选点簇的步骤；否则，确定获得所述第二不良点簇集。
根据权利要求1所述的数据处理方法，其特征在于，所述方法还包括：

根据所述设备接触点位置控制对应的生产设备，以使所述生产设备执行保护动作。
根据权利要求1所述的数据处理方法，其特征在于，所述设备接触点位置包括以下至少一种：不良点坐标、待检测基板的识别码和生产设备的识别码。
一种数据处理方法，其特征在于，包括：

响应于订阅监控功能的操作，采集与重复不良点检测相关的至少一个订阅参数的预设值；

根据所述预设值获取目标数据并对目标数据进行处理得到每个分析单元对应的第一不良点簇集；

根据所述第一不良点簇集生成所述不良点簇集对应的设备接触点位置的报警信息。
一种数据处理系统，其特征在于，包括：分布式存储装置、数据转换装置和数据处理装置；

所述分布式存储装置，被配置为执行存储源端数据；

所述数据转换装置包括一个或多个第一处理器，所述一个或多个第一处理器被配置为执行将所述源端数据转换为目标数据；所述目标数据包括多个分析单元的数据；

所述数据处理装置包括一个或多个第二处理器，所述一个或多个第二处理器被配置为执行获取每个所述分析单元中包含不良点的多张待检测基板的检测数据，并叠加所述多张待检测基板中的不良点获得不良点数据集，对不良点数据集进行聚类计算得到第一不良点簇集；根据所述第一不良点簇集生成所述不良点簇集对应的设备接触点位置的报警信息。
根据权利要求9所述的数据处理系统，其特征在于，所述源端数据包括元数据、生产数据和监测数据中至少一种；所述元数据表示工艺站点和检测站点之间的关联关系，所述生产数据表示各待检测基板的生产履历数据；所述监测数据为检测站点检测待检测基板时上生成的数据。
根据权利要求9所述的数据处理系统，其特征在于，所述一个或多个第二处理器还被配置为执行：

基于源端数据中的生产数据，按照生产时间对经过每个生产设备的待检测基板进行排序，获得待检测基板的排序结果；

根据所述排序结果依次将预设数量张待检测基板划分至同一个单元，获得多个分析单元；

基于所述源端数据中的检测数据，获取每个分析单元中经过检测站点的待检测基板的数量；

获取每个分析单元中待检测基板的到达率，将所述到达率超过预设的到达率阈值的分析单元的数据作为转换后的目标数据。
根据权利要求9所述的数据处理系统，其特征在于，所述一个或多个第二处理器还被配置为执行对不良点数据集进行聚类计算得到第一不良点簇集，包括：

以所述不良点数据集中的任一不良点Pi为基准点，获取以r为距离阈值所形成区域内的不良点数量m，得到初始不良点簇；

遍历所述不良点数据集中的不良点，得到多个初始不良点簇；

获取满足初始不良点簇中的不良点数量m大于或等于第一阈值条件的多个初始不良点簇，得到第一不良点簇集。
根据权利要求12所述的数据处理系统，其特征在于，所述一个或多个第二处理器还被配置为执行根据所述第一不良点簇集生成所述不良点簇集对应的设备接触点位置的报警信息，包括：

对多个第一不良点簇集进行筛选，过滤具有相同位置信息的不良点的第一不良点簇，得到第二不良点簇集，

根据所述第二不良点簇集生成所述不良点簇集对应的设备接触点位置的报警信息。
根据权利要求13所述的数据处理系统，其特征在于，所述一个或多个第二处理器还被配置为执行对多个第一不良点簇集进行筛选，过滤具有相同位置信息的不良点的第一不良点簇，包括：

获取所述第一不良点簇集内每个点簇中不良点的数量；

按照所述数量排序所述第一不良点簇集内的点簇；

获取所述第一不良点簇集中不良点最多的点簇作为候选点簇；

分别获取所述第一不良点簇集内任一点簇和所述候选点簇的交并比且从所述第一不良点簇集内剔除所述交并比超过预设交并比阈值的点簇；

将所述候选点簇从所述第一不良点簇集内移入预设的第二不良点簇集内；

当所述第一不良点簇集为非空集合时，继续执行获取所述第一不良点簇集内不良点最多的点簇作为候选点簇的步骤；否则，确定获得所述第二不良点簇集。
根据权利要求9所述的数据处理系统，其特征在于，所述一个或多个第二处理器还被配置为执行：

根据所述设备接触点位置控制对应的生产设备，以使所述生产设备执行保护动作。
根据权利要求9所述的数据处理系统，其特征在于，所述设备接触点位置包括以下至少一种：不良点坐标、待检测基板的识别码和生产设备的识别码。
根据权利要求9所述的数据处理系统，其特征在于，还包括显示装置；所述显示装置包括至少一块显示屏；所述至少一块显示屏被配置为显示所述报警信息。
一种计算机可读存储介质，其特征在于，当所述存储介质中的可执行的计算机程序由处理器执行时，能够实现如权利要求1～8任一项所述的方法。