WO2022198680A1

WO2022198680A1 - 数据处理方法及装置、电子设备、存储介质

Info

Publication number: WO2022198680A1
Application number: PCT/CN2021/083429
Authority: WO
Inventors: 王瑜; 任佳伟; 贺王强; 王海金; 柴栋; 吴建民; 王洪
Original assignee: 京东方科技集团股份有限公司; 北京中祥英科技有限公司
Priority date: 2021-03-26
Filing date: 2021-03-26
Publication date: 2022-09-29
Also published as: DE112021001736T5; KR20230161409A; CN115413349A

Abstract

提供了一种数据处理方法及装置、电子设备、存储介质。该方法包括：获取产品样本集合；基于预设的降维算法对第二参数进行处理,获得产品样本集合的指定维度的组合特征；基于第一参数和指定维度的组合特征获取指定维度的组合特征中各维组合特征的影响分值；根据影响分值对各组合特征进行排序获得排序靠前的至少一个组合特征,将至少一个组合特征对应的原始参数作为引起产品不良的原因。

Description

数据处理方法及装置、电子设备、存储介质

技术领域

本公开涉及数据处理技术领域，尤其涉及一种数据处理方法及装置、电子设备、存储介质。

背景技术

目前，工业产品的生产线包括若干个工艺设备，每个工艺设备在工作异常或工作参数异常时均有可能影响到产品的良率。当生产出不良产品时，生产人员需要定位出产生不良的原因。

然而，生产线中工艺设备或者所产生的数据量比较大，增加了定位原因的复杂性，从而导致定位到引起不良的设备消耗大量的时间。

发明内容

本公开提供一种数据处理方法及装置、电子设备、存储介质、存储介质，以解决相关技术的不足。

根据本公开实施例的第一方面，提供一种数据处理方法，所述方法包括：

获取产品样本集合；所述产品样本集合中每个产品样本包括第一参数和第二参数；所述第一参数用于表征所述产品样本的不良程度，所述第二参数用于表征所述产品样本经过的样本生产设备的原始参数；

基于预设的降维算法对所述第二参数进行处理，获得所述产品样本集合的指定维度的组合特征，所述指定维度的组合特征中的各组合特征是指与产品不良相关的原始参数的组合；

基于所述第一参数和所述指定维度的组合特征获取所述指定维度的组合特征中各维组合特征的影响分值；所述影响分值用于表征各个组合特征对产品不良的影响程度；

根据所述影响分值对所述各组合特征进行排序获得排序靠前的至少一个组合特征，将所述至少一个组合特征对应的原始参数作为引起产品不良的原因。

可选地，所述降维算法包括以下至少一种：主成分分析法PCA、线性降维法LDA、局部线性嵌入LLE和拉普拉斯特征映射LEP。

可选地，所述降维算法包括主成分分析法PCA，基于预设的降维算法对所述第二参数进行处理，获得所述产品样本集合的指定维度的组合特征，包括：

基于所述主成分分析法PCA对所述第二参数进行处理，获得所述产品样本集合的K维组合特征；将所述K维组合特征作为所述指定维度的组合特征。

基于所述第二参数中的关键词对原始参数进行合并，获得每个产品本的第一组合特征；

基于所述主成分分析法PCA对所述第二参数进行处理，获得所述产品样本集合的K维组合特征；

获取所述第一组合特征和所述K维组合特征的交集，得到所述产品样本集合的R维组合特征，将所述R维组合特征作为所述指定维度的组合特征。

可选地，基于所述主成分分析法PCA对所述第二参数进行处理，获得所述产品样本集合的K维组合特征，包括：

获取所述产品样本集合每一个原始参数的平均值，并将所述产品样本集合对应的每个原始参数减去所述平均值，获得所述产品样本集合中每个原始参数的新值；

获取所述第二参数中任意两个原始参数的协方差得到协方差矩阵；所述协方差矩阵中每个协方差值表征两个原始参数相似的程度；

获取所述协方差矩阵的特征值和特征向量，并获取各个特征值对应的累计贡献值；所述特征向量中包括每个原始参数对应的权重；

获取所述累计贡献值超过预设的贡献值阈值的特征值和特征向量，获得K个主成分特征；

获取更新新值后的每个原始参数在所述特征向量上的分量，获得所述产品样本集合的K维组合特征。

可选地，基于所述第一参数和所述指定维度的组合特征获取所述指定维度的组合特征中各维组合特征的影响分值，包括：

基于所述指定维度的组合特征获取各维组合特征向量；所述各维组合特征向量中包括各个产品样本的同一维的组合特征；

计算所述各维组合特征对应的纯度指标，获得与所述产品样本集合中产品样本同一数量个纯度指标；所述纯度指标用于表示各个组合特征对产品不良的影响程度；

获取各维组合特征对应的纯度指标的最小值；所述最小值用于表征所述第一参数的可信度阈值；

根据所述最小值获取对应组合特征的影响分值。

可选地，所述纯度指标包括信息增益、信息增益率和基尼系数中的至少一种。

可选地，所述基尼系数采用以下公式计算：

式中，|X|表示产品样本集合X中任一个组合特征向量作为切分点时，位于所述切分点的指定侧的数据组合中产品样本的个数；K表示产品不良的分类类别，此处取值为2；|C _K|表示位于所述切分点的指定侧的数据组合中第K类的产品样本的个数。

可选地，所述方法还包括：

针对所述至少一个组合特征中的各组合特征，显示各组合特征中权重靠前的至少2个原始参数。

根据本公开实施例的第二方面，提供一种数据处理方法，所述方法包括：

响应于用户在第一界面的第一输入，获取产品样本集合中每个产品样本的第一参数；所述第一参数用于表征所述产品样本的不良程度；

响应于用户在第二界面的第二输入，获取产品样本集合中每个产品样本的第二参数；所述第二参数用于表征所述产品样本经过的样本生产设备的原始参数；

响应于用户在第二界面的第三输入，在第三界面上显示至少一个组合特征；所述至少一个组合特征对应的原始参数作为引起产品不良的原因，并且所述至少一个组合特征根据所述第一参数和所述第二参数获取。

可选地，在第三界面上显示至少一个组合特征按照对应的影响分值从大到小或者从小到大的顺序依次排列；所述影响分值用于表征各个组合特征对产品不良的影响程度。

可选地，在第三界面上显示至少一个组合特征，包括：

可选地，所述方法还包括根据所述第一参数和所述第二参数获取所述至少一个组合特征，具体包括：

可选地，获取产品样本集合中每个产品样本的第一参数之后，所述方法还包括：

显示每个产品样本的第一参数的分布图。

可选地，获取产品样本集合中每个产品样本的第二参数之后，所述方法还包括：

显示每个第二参数的从属关系。

可选地，所述产品样本包括显示面板母板；所述显示面板母板包括多个显示面板。

根据本公开实施例的第三方面，提供一种数据处理装置，所述装置包括：

样本集合获取模块，用于获取产品样本集合；所述产品样本集合中每个产品样本包括第一参数和第二参数；所述第一参数用于表征所述产品样本的不良程度，所述第二参数用于表征所述产品样本经过的样本生产设备的原始参数；

组合特征获取模块，用于基于预设的降维算法对所述第二参数进行处理，获得所述产品样本集合的指定维度的组合特征，所述指定维度的组合特征中的各组合特征是指与产品不良相关的原始参数的组合；

影响分值获取模块，用于基于所述第一参数和所述指定维度的组合特征获取所述指定维度的组合特征中各维组合特征的影响分值；所述影响分值用于表征各个组合特征对产品不良的影响程度；

不良原因获取模块，用于根据所述影响分值对所述各组合特征进行排序获得排序靠前的至少一个组合特征，将所述至少一个组合特征对应的原始参数作为引起产品不良的原因。

根据本公开实施例的第四方面，提供一种数据处理装置，所述装置包括：

第一参数获取模块，用于响应于用户在第一界面的第一输入，获取产品样本集合中每个产品样本的第一参数；所述第一参数用于表征所述产品样本的不良程度；

第二参数获取模块，用于响应于用户在第二界面的第二输入，获取产品样本集合中每个产品样本的第二参数；所述第二参数用于表征所述产品样本经过的样本生产设备的原始参数；

不良原因获取模块，用于响应于用户在第二界面的第三输入，在第三界面上显示至少一个组合特征；所述至少一个组合特征对应的原始参数作为引起产品不良的原因，并且所述至少一个组合特征根据所述第一参数和所述第二参数获取。

根据本公开实施例的第五方面，提供一种电子设备，包括：

处理器；

用于存储所述处理器可执行的计算机程序的存储器；

其中，所述处理器用于执行所述存储器中的计算机程序，以实现上述方法。

根据本公开实施例的第六方面，提供一种计算机可读存储介质，当所述存储介质中的可执行的计算机程序由处理器执行时，能够实现上述方法。

本公开的实施例提供的技术方案可以包括以下有益效果：

由上述实施例可知，本公开实施例提供的方案可以通过获取每个产品样本的指定维度的组合特征，该指定维度的组合特征的维度小于每个产品样本中参数的维度，可以降低产品样本数据的维度；并且，该指定维度的组合特征可以是具有相似性的原始参数的组合，可以保留产品样本的原始信息的同时使相似的参数形成关联，有利于快速定位到引起产品不良的原因，提高检测效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种数据处理系统的框图。

图2是根据一示例性实施例示出的另一种数据处理系统的框图。

图3是根据一示例性实施例示出的一种电子设备的框图。

图4是根据一示例性实施例示出的另一种电子设备的框图。

图5是根据一示例性实施例示出的一种数据处理方法的流程图。

图6A是根据一示例性实施例示出的第一界面的示意图。

图6B是根据一示例性实施例示出的获取产品样本的示意图。

图6C是根据一示例性实施例示出的获取第一参数分布的示意图。

图7A是根据一示例性实施例示出的设置不良类型的示意图。

图7B是根据一示例性实施例示出的选择不良类型的示意图。

图8是根据一示例性实施例示出的设置从属关系的示意图。

图9是根据一示例性实施例示出的显示至少一个组合特征的第三界面的示意图。

图10是根据一示例性实施例示出的另一种数据处理方法的流程图。

图11是根据一示例性实施例示出的一种数据处理装置的框图。

图12是根据一示例性实施例示出的另一种数据处理装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性所描述的实施例并不代表与本公开相一致的所有实施例。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置例子。

目前，工业产品的生产线包括若干个工艺设备，每个工艺设备在工作异常或工作参数异常时均有可能影响到产品的良率。当生产出不良产品时，生产人员需要定位出产生不良的原因。然而，生产线中工艺设备或者所产生的数据量比较大，增加了定位原因的复杂性，从而导致定位到引起不良的设备消耗大量的时间。

本公开实施例提供了一种数据处理系统。如图1所示，数据处理系统100包括数据处理装置300、显示装置200和分布式存储装置400。数据处理装置300分别与显示装置200和分布式存储装置400连接。

分布式存储装置400用于存储多个样本生产设备(或称为工厂设备)产生的生产数据。例如，多个样本生产设备产生的生产数据包括多个样本生产设备的生产记录；例如，生产记录包括多个样本在生产过程中经过的样本生产设备的信息和出现不良类型的信息，每个样本在生产过程中经历多个样本生产设备，每个样本生产设备参与且仅参与多个样本中部分样本的生产过程。

其中，分布式存储装置中存储有相对完整的数据(如一个数据库)。分布式存储装置可以包括多个硬件的存储器，且不同的硬件存储器分布在不同物理位置(如在不同工厂，或在不同生产线)，并通过无线传输(例如网络等)实现相互之间信息的传递，从而使得数据是分布式关系的，但在逻辑上构成一个基于大数据技术的数据库。

参考图2，大量不同样本生产设备的原始数据存储在相应的生产制造系统中，如YMS(Yield Management System，收益管理系统)、FDC(Fault Detection&Classification，错误侦测及分类)、MES(Manufacturing Execution System，制造执行系统)等系统的关系型数据库(如Oracle、Mysql等)中，而这些原始数据可通过数据抽取工具(如Sqoop、kettle等)进行原表抽取以传输给分布式存储装置(如分布式文件系统(Hadoop Distributed File System，HDFS))，以降低对样本生产设备和生产制造系统的负载，便于后续分析设备的数据读取。

分布式存储装置中的数据可采用Hive工具或Hbase数据库格式存储。例如，根据 Hive工具，以上原始数据先存储在数据湖中；之后，可继续在Hive工具中按照数据的应用主题、场景等进行数据清洗、数据转换等预处理，得到具有不同主题(如生产履历主题、检测数据主题、设备数据主题)的数据仓库，以及具有不同场景(如设备分析场景、参数分析场景)的数据集市。以上数据集市可再通过不同的API接口，与显示设备、分析设备等连接，以实现与这些设备间的数据交互。

其中，由于涉及多个工厂的多个样本生产设备，故以上原始数据的数据量是很大的。例如，所有样本生产设备每天产生的原始数据可能有几百GB，每小时产生的数据也可能有几十GB。

在一实施例中，对海量结构化数据实现存储与计算主要有两种方案：RDBMS关系型数据库管理(Relational Database Management System，RDBMS)的网格计算方案；分布式文件管理系统(Distributed File System，DFS)的大数据方案。

其中，RDBMS的网格计算是把需要非常巨大的计算能力的问题分成许多小部分，然后把这些部分分配给许多计算机分别处理，最后把这些计算结果综合起来。例如，Oracle RAC(真正应用集群)是Oracle数据库支持的网格计算的核心技术，其中所有服务器都可直接访问数据库中的所有数据。但是，RDBMS的网格计算的应用系统在数据量很大时无法满足用户要求，例如，由于硬件的扩展空间有限，故数据增加到足够大的数量级后，会因为硬盘的输入/输出的瓶颈使得处理数据的效率非常低。

DFS为基础的大数据技术，则允许采用多个廉价硬件设备构建大型集群，以对海量数据进行处理。如Hive工具是基于Hadoop的数据仓库工具，可用来进行数据提取转化加载(ETL)，Hive工具定义了简单的类SQL查询语言，同时也允许通过自定义的MapReduce的mapper和reducer来默认工具无法完成的复杂的分析工作。Hive工具没有专门的数据存储格式，也没有为数据建立索引，用户可以自由的组织其中的表，对数据库中的数据进行处理。可见，分布式文件管理的并行处理可满足海量数据的存储和处理要求，用户可通过SQL查询处理简单数据，而复杂处理时可采用自定义函数来实现。因此，在对工厂的海量数据分析时，需要将工厂数据库的数据抽取到分布式文件系统中，一方面不会对原始数据造成破坏，另一方面提高了数据分析效率。

在一实施例中，分布式存储装置400可以是一个存储器，可以是多个存储器，也可以是多个存储元件的统称。例如，存储器可以包括：随机存储器(Random Access Memory，RAM)，双倍速率同步动态随机存储器(Double Data Rate Synchronous Dynamic Random Access Memory，DDR SRAM)，也可以包括非易失性存储器(non-volatile memory)，例如磁盘存储器，闪存(Flash)等。

数据处理装置300用于实现如下述任一实施例所述的数据处理方法。例如，数据处理装置300可以获取多个样本生产设备的生产记录，根据多个样本生产设备的生产记录，确定每个样本生产设备对应的影响分值，根据影响分值与产品不良相关的原始参数。

显示装置200用于显示界面。例如，该界面可以包括下文所述的第一界面、第二界面和第三界面等。例如，显示装置200可以显示数据处理装置300的处理结果。

在一实施例中，显示装置可以是显示器，还可以是包含显示器的产品，例如电视机、电脑(一体机或台式机)、计算机、平板电脑、手机、电子画屏等。在一实施例中，该显示装置可以是显示不论运动(例如，视频)还是固定(例如，静止图像)的且不论文字还是的图像的任何装置。更明确地说，预期所述实施例可实施在多种电子装置中或与多种电子装置关联，所述多种电子装置例如(但不限于)游戏控制台、电视监视器、平板显示器、计算机监视器、汽车显示器(例如，里程表显示器等)、导航仪、座舱控制器和/或显示器、电子相片、电子广告牌或指示牌、投影仪、建筑结构、包装和美学结构(例如，对于一件珠宝的图像的显示器)等。

在一实施例中，文中所述的显示装置可包括一个或多个显示器，包括一个或多个具有显示功能的终端，从而数据处理装置可将其处理后的数据(例如影响参数)发送给显示装置，显示装置再将其显示出来。也就是说，通过该显示装置的界面(也即用户交互界面)，可实现用户与样本不良成因分析的系统的完全交互(控制和接收结果)。

本公开的实施例提供一种电子设备。例如，电子设备可以是电脑、计算机等。如图3所示，电子设备500包括数据处理装置300和显示装置200。显示装置200与数据处理装置300连接。

数据处理装置300用于实现如下述任一实施例所述的数据处理方法。显示装置200用于显示界面。例如，显示装置200用于显示数据处理装置300的处理结果。

需要说明的是，上述的电子设备中的数据处理装置和显示装置与上述的数据处理系统中的数据处理装置和显示装置类似，电子设备中的数据处理装置和显示装置的具体内容可以参考前文描述，在此不作赘述。

在一些实施例中，如图4所示，数据处理装置300包括存储器301和处理器302。其中，存储器301与处理器302连接。在一实施例中，处理器与存储器通过例如I/O接口连接，从而能实现信息交互。

存储器301中存储可在处理器302上运行的一个或多个计算机程序。

处理器302执行该计算机程序时，以使数据处理装置300实现如下述任一实施例所述的数据处理方法。

在一实施例中，上述处理器302可以是一个处理器，也可以是多个处理元件的统称。例如，该处理器302可以是一个通用中央处理器(central processing unit，CPU)，微处理器，特定应用集成电路(application specific integrated circuit，ASIC)，或一个或多个用于控制本公开方案程序执行的集成电路，例如：一个或多个微处理器。又例如，该处理器302可以是可编程器件；例如，该可编程器件为CPLD(Complex Programmable Logic Device，复杂可编程逻辑器件)、EPLD(Erasable Programmable Logic Device，可擦除可编辑逻辑器件)或者FPGA(field－programmable gate array，现场可编程门阵列)。

上述存储器301可以是一个存储器，也可以是多个存储元件的统称，且用于存储可执行程序代码等。且存储器301可以包括随机存储器，也可以包括非易失性存储器，例如磁盘存储器，闪存等。

其中，存储器301用于存储执行本公开方案的应用程序代码，并由处理器320来控制执行。处理器302用于执行存储器301中存储的应用程序代码，以控制数据处理装置300实现本公开下述任一实施例提供的数据处理方法。

本公开实施例还提供了一种数据处理方法，例如，该数据处理方法可以应用于上述的电子设备、数据处理系统、以及数据处理装置。如图5所示，该数据处理方法，包括步骤51～步骤54：

在步骤51中，获取产品样本集合；所述产品样本集合中每个产品样本包括第一参数和第二参数；所述第一参数用于表征所述产品样本的不良程度，所述第二参数用于表征所述产品样本经过的样本生产设备的原始参数。

本实施例中，电子设备可以获取产品样本集合。该产品样本集合中包括多个产品样本。在一实施例中，本实施例可用于显示面板生产线；例如可用于在显示面板(如液晶显示面板、有机发光二极管显示面板等)的生产过程中，确定显示面板生产线的各工艺设备与不良类型的相关性。当然，本公开实施例也可用于其它产品。在一实施例中，产品样本包括显示面板母板(glass)，显示面板母板包括多个显示面板(panel)。例如，显示面板母板还包括基板，多个显示面板设置于基板上。在一实施例中，该基板可以包括：玻璃等刚性基板(或称为硬质基板)，或者PI(Polyimide，聚酰亚胺)等柔性基板；还可以包括：设置在刚性基板或柔性基板上的缓冲层等薄膜。

需要说明的是，本公开实施例中所述的“不良”是指产品样本中的质量缺陷，这些缺陷可能导致产品样本品质降低甚至报废，也可能导致样本需要进行返工或修复。也就是说，本公开中产品样本不良可根据需要分为不同类型。例如，可根据不良对样本性能的直接影响进行分类，如亮线不良、暗线不良、萤火虫不良(hot spot)等；或者，也可根据不良的具体成因进行分类，如信号线短路不良、对位不良等；或者，也可根据不良的大体成因进行分类，如阵列工艺不良、彩膜工艺不良等；或者，也可根据不良的严重程度进行分类，如导致报废的不良、导致降低品质的不良等；或者，也可不区分不良的种类，即只要样本存在任何不良，即认为其有不良，反之则认为其无不良。

其中，样本集合的不良类型为一种不良类型，也即产品样本集合中所包括的多个样本的不良类型相同。即本实施例提供的数据处理方法是针对其中一种不良类型来实现的；或者说，每次可以获取引起产品不良类型的原因(即参数)。

在一实施例中，参见图6A，显示装置200可以显示第一界面201，用户在第一界面201进行第一输入，如从时间T1到时间T2的时间范围(如一天)。数据处理装置300响应于该输入，获取上述时间范围内的产品样本集合，获得效果如图6B所示的选取结果。当然，用户还可以同时在第一界面201内输入聚焦阈值(defect_ratio_glass)，对所选取的产品样本进行划分，以获得第一参数，结果如图6C所示。参见图6C，在设置聚焦阈值后，电子设备可以显示每个产品样本的第一参数的分布图。

在用户选择不同的聚焦阈值时，可以获取表1所示的数据表。

表1所选effect为Defect_code1时的数据表

GlassID	Check Step	Defect_Name	Ratio	END_TIME
GlassID 1	Check Step1	Defect_code1	0.022	2021-01-24 08:25:03
GlassID 2	Check Step1	Defect_code1	0.264	2021-01-28 07:43:11
…	…	…	…	…
GlassID m	Check Step1	Defect_code1	0.011	2021-02-11 20:37:45

在一实施例中，参考图7A和图7B，显示装置200显示界面202，用户在界面202进行输入，数据处理装置300响应于该输入，确定样本集合的不良类型。例如，上述输入为输入一种不良类型，该不良类型为待分析的不良类型。例如，参考图7A，界面202上可以显示第一输入框，用户在界面202上的第一输入可以是在界面202上的第一输入框中直接输入不良类型，以确定产品样本集合的不良类型。例如，电子设备或数据处理系统可以预先配置有包括多种不良类型的数据库，参考图7B，界面202上可以显示第一选择框，第一选择框包括多种不良类型的选项(例如图7B中的不良类型A、不良类型B和不良类型C等)，用户在界面202上的第一输入可以是从多种不良类型的选项中进行选择，以确定样本集合的不良类型。需要说明的是，本步骤可以根据实际需要进行选择，在此不作限定。

其中，每个产品样本包括第一参数和第二参数。其中，第一参数用于表征产品样本的属于上述界面202所获取的不良类型的不良程度；第二参数用于表征产品样本经过的样本生产设备的原始参数。

在一实施例中，产品样本的第一参数可以表征该样本属于不良类型的良样本或不良样本；例如，根据产品样本的第一参数，可以得到该产品样本对于该不良类型是良样本(或者说正样本)或不良样本(或者说负样本)。例如，对于样本集合的不良类型，根据产品样本集合中多个产品样本的第一参数，可以得到多个产品样本中的正样本和负样本。

在一实施例中，产品样本的第一参数用于表征所述产品样本的不良程度。例如，在产品样本为显示面板母板的情况下，显示面板母板的多个显示面板中的属于不良类型的不良显示面板的总数与多个显示面板的总数的比值，作为产品样本的第一参数中的不良程度表征值，该比值可以称为样本的不良比例；或者，显示面板母板的多个显示面板中的属于不良类型的不良显示面板的总数作为样本的第一参数中的不良程度表征值。在此情况下，产品样本的第一参数中的不良程度表征值越大，表征的属于不良类型的不良程度越大。

又一实施例中，在产品样本为显示面板母板的情况下，显示面板母板的多个显示面板中除了属于不良类型的不良显示面板之外的显示面板的总数，与多个显示面板的总数的比值，作为样本的第一参数中的不良程度表征值；或者，显示面板母板的多个显示面板中除了属于不良类型的不良显示面板的总数，作为样本的第一参数中的不良程度表征值。或者说，显示面板中像素良点与像素总数的比值。在此情况下，样本的第一参数中的不良程度表征值越小，表征的属于不良类型的不良程度越大。

可以理解的是，许多产品(例如显示面板)都是通过生产线生产的，每条生产线包括多个工艺站点，每个工艺站点用于对产品(包括半成品)进行一定的处理(如清洗、沉积、曝光、刻蚀、对盒、检测等)。同时，每个工艺站点通常有多个用于进行同样处理的样本生产设备(也即工艺设备)；当然，虽然理论上进行的处理相同，但不同工艺设备由于型号、状态等的不同，故实际的处理效果并不完全相同。在此情况下，每个样本的生产过程需要经过多个工艺站点，且不同样本在生产过程中经过的工艺站点可能不同；而经过同一工艺站点的样本也可能由其中的不同样本生产设备处理。因此，在一条生产线中，每个样本生产设备都会参与部分样本的生产过程，但不是参与样本的生产过程，即每个样本生产设备都参与且仅参与部分样本的生产过程。

在一实施例中，第二参数用于表征所述产品样本经过的样本生产设备的原始参数，可以包括：样本经过的样本生产设备的名称、型号或编码，样本生产设备所处的工艺站点、生产线或工厂的名称，样本生产设备产出样本的时间等。每个产品样本对应的样本生产设备会有多个，这样第二参数所表征的该产品样本经过的多个样本生产设备的原始参数会有多个。技术人员可以根据具体场景选择合适的第二参数，在能够利用第二参数获取到R维组合特征或者后面的影响分值的情况下，相应方案落入本公开的保护范围。

在步骤52中，基于预设的降维算法对所述第二参数进行处理，获得所述产品样本集合的指定维度的组合特征，所述指定维度的组合特征中的各组合特征是指与产品不良相关的原始参数的组合。

需要说明的是，由于引起产品不良的原因可以是样本生产设备，还可以是工艺参数，即原始参数可以包括设备或者参数。在步骤51中选定样本生产设备后，电子设备还可以同时显示图8所示的第二界面：用户可以在第二界面进行第二输入，电子设备可以响应于上述第二输入建立样本生产设备和工艺参数的从属关系，如DataTag-Step-Process-Parameter的从属关系，其中DataTag可以表示产品样本(如GlassID)，Step可以表示对应的样本生产设备，Process可以表示在样本生产设备中一个处理步骤，Parameter可以表示在该处理步骤中的一个原始参数(如温度、压力、流量等)。也就是说，此时电子设备可以获得产品样本的第二参数，并且图8也显示了其中一个第二参数的从属关系。

实际应用中，用户在建立从属关系之后，可以点击分析按键，此时电子设备可以基于上述R维组合特征和第一参数来分布产品产生不良的原因，最终显示如图9所示的第三界面。

本实施例中，电子设备可以基于第二参数来获取产品样本集合的的指定维度的组合特征。或者说，电子设备可以获取产品样本集合中每个产品样本的指定维度的组合特征。

在一示例中，电子设备可以基于预设的降维算法获取指定维度的组合特征。其中，上述降维算法包括以下至少一种：主成分分析法PCA、线性降维法LDA、局部线性嵌入LLE和拉普拉斯特征映射LEP。技术人员可以根据具体场景选择合适的降维算法，相应方案落入本公开的保护范围。

示例性地，电子设备可以从第二参数中选取K个主成分特征，并基于K个主成分特征获得每个产品样本的第二组合特征；K个原始参数对所述第二参数的累计贡献值超过预设的贡献值阈值。例如，电子设备可以获取产品样本集合每一个原始参数的平均值，并将各产品样本对应的每个原始参数减去该平均值，获得各产品样本中每个原始参数的新值。通过将各产品样本的原始参数去中心化，不但可以减小原始参数的大小，还可获得原始参数的变化范围，利于后续计算。示例性地，本实施例中可以采用多元统计方法中的主成分分析(Principal Component Analysis，PCA)来获取指定维度的组合特征。

例如，产品样本集合中包括M个产品样本，每个产品样本有n维特征，{V ¹，V ²，...，V ⁿ}，

对所有产品样本GLASS的每一个原始参数求平均值，如

然后，每一张GLASS所对应的原始参数减去该平均值，得到的去中心化后的原始参数的新值{X ¹，X ²，...，X ⁿ}，

然后，电子设备可以获取第二参数中任意两个原始参数的协方差得到协方差矩阵；该协方差矩阵中每个协方差值表征两个原始参数相似的程度。

对于上述步骤中的n维特征，分别求协方差矩阵。

例如，当n＝2时，x ₁和x ₂的协方差矩阵如下所示：

基于上述思路，则可以获得产品样本中任意两个参数的协方差，公式如下：

各产品样本对应的协方差矩阵如表2所示。

表2相关系数矩阵

	x ₁	x ₂	…	x _n
x ₁	1.00	0.86	…	0.37
x ₂	0.86	1.00	…	0.69
…	…	…	…	…
x _n	0.37	0.69	…	1.00

需要说明的是，协方差矩阵中对角线上是各个原始参数的方差，非对角线是协方差，协方差是衡量两个原始参数同时变换的变化程度。协方差绝对值越大，两者对彼此的影响越大，反之越小。

之后，电子设备可以获取协方差矩阵的特征值和特征向量，并获取各个特征值对应的累计贡献值。

例如，求协方差矩阵的特征值和特征向量，如下式所示：Cu＝λu。此时，特征值λ会有n个，即每一个λ _i对应一个特征向量u _i，即i＝1,2,…,n，λ ₁＞λ ₂＞…λ _n。且此时

即第i个成分对应的特征向量，如表3所示。

表3特征值及特征向量的关系

之后，电子设备可以获取累计贡献值超过预设的贡献值阈值的特征值和特征向量，获得K个主成分特征。以贡献值阈值取80％为例，电子设备可以选取特征累计贡献率达到80％的前k个特征值与特征向量，{(λ ₁,u ₁),(λ ₂,u ₂),…,(λ _k,u _k)},即获得k个主成分特征。

最后，电子设备可以获取更新上述新值后的各产品样本中每个原始参数在特征向量上的投影，获得所述产品样本集合的K维组合特征或者说获得每个产品样本的K维组合特征；该K维组合特征可以作为本示例下对应的指定维度的组合特征。

例如，对于去中心化后的新的原因变量，投影之后的k个主成分特征为：

而且，对于k维中的每一个主成分特征，满足以下公式：

其中，

即

分别是n个原始参数在第j个组合特征中所占的权重，即表示第j个组合特征代表了这些原始特征的大部分信息，且这些原始特征彼此之间有较高的相似性。在一示例中，可以选取权重靠前的至少2个的原始参数，将其组合起来，如果在该个组合特征被确定为步骤54所述的至少一个组合特征时，则在后续显示过程中显示上述权重靠前的至少2个的原始参数，从而方便用户快速定位出不良的原因。

另需要说明的是，由于采用PCA方法获取的K维组合特征中有可能仅在数据上存在相关关系，但是在工艺流程中并不存在相应的关系，为剔除上述情况，在另一示例中，电子设备可以获取第一组合特征。示例性地，电子设备可以获取第二参数中各原始参数对应的关键词。其中关键词是对原始参数所取值的解释，如压力、温度或者流量等；具体实现中，一个关键词可以理解为原始参数的一个名称。然后，电子设备可以根据预设的工艺关系对关键词进行合并。其中工艺关系可以包括生产设备的安装位置、生产流程中的前后顺序、所包含的工艺步骤等等，在此不作限定。此合并过程中可以将引起同一不良类型的原始参数合并至同一个组合中。以将相同关键词的原始参数进行合并为例，电子设备可以将同一样本生产设备中相同或者不同工艺(process)中的原始参数进行合并，如将不同工艺中的温度参数合并到一个表征温度的组合中。可理解的是，合并过程仅是对N个原始参数分为不同的分组，但是未改变第二参数的维度即保持N维原始参数的数据。表4示出了一个基于关键词合并后的数据表。

表4基于关键词组合后所得数据表

参见表4，组合S1中包含3个参数，即Step1-Process1-Paramter1_value、Step2-Process2-Paramter2_value和Step3-Process3-Paramter3_value。组合St中包含2个参数，即Step(n-1)-Process(n-1)-Paramter(n-1)_value，Step n-Process n-Paramter n_value。

本示例中，在获得第一组合特征和上述K维组合特征之后，电子设备可以获取第一组合特征和上述K维组合特征的交集，得到所述产品样本集合的R维组合特征，或者说得到产品样本集合中每个产品样本的R维组合特征，将该R维组合特征作为指定维度的组合特征。例如，电子设备可以将关键词匹配的t个组合特征和K维组合特征进行一一组合比对，确保每个组合既在名称上(即各工序设备与工艺参数类别)有相似性，同时在数值分析上也有相关性，去除未同时满足两个条件的主成分，可得最终的R维组合特征。考虑到R维组合特征中各维组合特征可能包括至少1个原始参数，为后续的运算过程，本示例中可以各维组合特征选择2个原始参数，效果如表5所示。

表5组合后边R维组合特征与聚焦阈值的对应关系

参见表5，Fr表示R维组合特征中的第r个组合特征，其包含原始参数Step a-Process a-Paramter a_value和Step b-Process b-Paramter b_value。

需要说明的是，实际应用中，还可以选取权重较大的2个原始参数来表征K维组合特征中的各维组合特征，如果这2个原始参数在t个组合特征中的任一个组合特征中，则保留K维组合特征中的该组合特征。依次比较之后，可以剔除K维组合特征中的一些组合特征，获得R维组合特征。技术人员可以根据具体场景选择合适的方案，相应方案落入本公开的保护范围。

在步骤53中，基于所述第一参数和所述指定维度的组合特征获取所述指定维度的组合特征中各维组合特征的影响分值；所述影响分值用于表征各个组合特征对产品不良的影响程度。

本实施例中，电子设备可以基于指定维度(K维或者R维)的组合特征获取各维组合特征向量；其中，各维组合特征向量中包括各个产品样本的同一维的组合特征。换言之，产品样本的R维组合特征中是以各原始参数作为元素而构成的特征，将每个产品样本的各维组合特征提取出来再重新构成一个特征向量，得到上述各维组合特征向量。如对于给定的产品样本集合X中任一个组合特征向量

然后，电子设备可以计算各维组合特征对应的纯度指标，获得与产品样本集合中产品样本同一数量个纯度指标；该纯度指标用于表示各个组合特征对产品不良的影响程度。

在一些实施例中，良率纯度指标包括信息增益、信息增益率和基尼系数中的至少一种。

在一实施例中，纯度指标可以用“信息熵”(information entropy)来表征，信息熵越小，纯度越高。纯度越低，表征特征的不确定性越高，即，样本生产设备对样本出现不良类型的影响程度越小，纯度越高，表征特征的不确定性越低，即，样本生产设备对产品样本出现不良类型的影响程度越大。在本公开的一些实施例中，纯度指标还可用基尼系数来表征，基尼系数越小，样本集合的纯度越高。

其中，样本生产设备对多个产品样本的良率纯度指标，表征样本生产设备对多个产品样本上出现不良类型的纯度。例如，样本生产设备的良率纯度指标越低，样本生产设备对样本出现不良类型的不确定性越高，样本生产设备对样本出现不良类型的影响程度越小，良率纯度指标越高，样本生产设备对样本出现不良类型的不确定性越低，样本生产设备对样本出现不良类型的影响程度越大。

在一实施例中，对于样本生产中所经过的工艺设备或样本生产设备，需要在样本的每个工序的制造过程、样本生产设备的大量数据中定位出造成样本出现不良类型的属性，即对决策树的分叉节点属性进行特征重要性的排序。因此，本公开的实施例借鉴决策树构建思想，将多个样本生产设备作为特征，基于纯度指标，对特征进行排序。

需要说明的是，在本公开的实施例中，并没有直接利用决策树进行决策树构建，解决的技术问题也并非决策树所解决的预测问题，而是将决策树中纯度提升的思想与良率分析问题进行了结合，基于大数据技术，解决了不良程度影响根因的快速定位问题。或者说，本实施例中将某一组合特征作为决策树中的一个子节点，即二分类的特征属性，判断是否为最优切分点(cutpoint)；并利用CART树中是用杂质度量方法Gini系数来计算各个特征对整个样本集的影响程度和重要性，Gini系数越小，代表不确定性越低，作为切分点更优。在本公开实施例中是否不良的分类问题中，分类类别K＝2，纯度指标是基尼系数时其计算方式如下式所示：

式中，|X|表示产品样本集合X中任一个组合特征向量作为切分点时，位于所述切分点的指定侧的数据组合中产品样本的个数；K表示产品不良的分类类别，此处取值为2；|C _K|表示位于所述切分点的指定侧的数据组合中第K类的产品样本的个数。以产品样本是显示面板为例，本示例中，当产品样本小于切分点时，此时不会影响到产品样本的不良类型；当产品样本大于或者等于切分点(对应上述内容中的切分点的指定侧)时，此时会影响到产品样本的不良类型，且当K＝1时表示对不良类型有影响的良品的个数，当K＝2时表示对不良类型有影响的不良品的个数。当然，在一些场景中，当产品样本小于切分点时对应上述内容中的切分点的指定侧，技术人员可以根据具体场景进行选择，在此不作限定。

对于Fj中的M个组合特征向量，分别以Fj中任一值(如F11)作为切分点按大小将该组数据划分为两组，划分后其中不良样本有subbad张Glass,无缺陷样本为subgood张Glass，此时可表6所示的列联表；根据列联表可求得M个Gini。

表6列联表

	不良	良
≥cutpoint组	subbad	subgood
＜cutpoint组	B-subbad	G-subgood

之后，电子设备可以获取各维组合特征对应的纯度指标的最小值；所述最小值用于表征所述第一参数的可信度阈值。从取M个Gini中最小的，即对应的最优切分点cutpoint。或者说，该最小值用于表征第一参数的可信度阈值。

最后，电子设备可以根据最小值获取对应组合特征的影响分值，即电子设备可以根据(1-最小的Gini系数)获得第j维组合特征的影响分值score。

在步骤54中，根据所述影响分值对所述各组合特征进行排序获得排序靠前的至少一个组合特征，将所述至少一个组合特征对应的原始参数作为引起产品不良的原因。

本实施例中，电子设备可以根据影响分值对对应的R维组合特征进行排序，如从大到小或者从小到大，即获取各个组合特征中的原始参数对产品样本的第一参数的影响程度，图9示出了权重靠前的2个原始参数的效果。参见图9，在第三界面中，对于本次的不良种类，引起不良的原因可以包括：产品样本1是step3-process3-param3和step4—process4-param4。这样，用户可清晰定位到排名靠前的组合特征(即原始参数)等，从而有针对性的进行不良排查与处理，提高了检测效率。

至此，本公开实施例提供的方案可以通过获取每个产品样本的指定维度的组合特征，该指定维度的组合特征的维度小于每个产品样本中参数的维度，可以降低产品样本数据的维度；并且，该指定维度的组合特征可以是具有相似性的原始参数的组合，可以保留产品样本的原始信息的同时使相似的参数形成关联，有利于快速定位到引起产品不良的原因，提高检测效率。

本公开实施例还提供了一种数据处理方法，参见图10，所述方法包括：

在步骤101中，响应于用户在第一界面的第一输入，获取产品样本集合中每个产品样本的第一参数；所述第一参数用于表征所述产品样本的不良程度；

在步骤102中，响应于用户在第二界面的第二输入，获取产品样本集合中每个产品样本的第二参数；所述第二参数用于表征所述产品样本经过的样本生产设备的原始参数；

在步骤103中，响应于用户在第二界面的第三输入，在第三界面上显示至少一个组合特征；所述至少一个组合特征对应的原始参数作为引起产品不良的原因，并且所述至少一个组合特征根据所述第一参数和所述第二参数获取。

在一实施例中，在第三界面上显示至少一个组合特征按照对应的影响分值从大到小或者从小到大的顺序依次排列；所述影响分值用于表征各个组合特征对产品不良的影响程度。

在一实施例中，在第三界面上显示至少一个组合特征，包括：

在一实施例中，所述方法还包括根据所述第一参数和所述第二参数获取所述至少一个组合特征，具体包括：

在一实施例中，获取产品样本集合中每个产品样本的第一参数之后，所述方法还包括：

显示每个产品样本的第一参数的分布图。

在一实施例中，获取产品样本集合中每个产品样本的第二参数之后，所述方法还包括：

显示每个第二参数的从属关系。

在一实施例中，所述产品样本包括显示面板母板；所述显示面板母板包括多个显示面板

所述方法还包括根据所述第一参数和所述第二参数获取所述至少一个组合特征，具体包括：

显示每个产品样本的第一参数的分布图。

显示每个第二参数的从属关系。

在一实施例中，所述产品样本包括显示面板母板；所述显示面板母板包括多个显示面板。

本公开实施例还提供了一种数据处理装置，参见图11，所述装置包括：

样本集合获取模块111，用于获取产品样本集合；所述产品样本集合中每个产品样本包括第一参数和第二参数；所述第一参数用于表征所述产品样本的不良程度，所述第二参数用于表征所述产品样本经过的样本生产设备的原始参数；

组合特征获取模块112，用于基于预设的降维算法对所述第二参数进行处理，获得所述产品样本集合的指定维度的组合特征，所述指定维度的组合特征中的各组合特征是指与产品不良相关的原始参数的组合；

影响分值获取模块113，用于基于所述第一参数和所述指定维度的组合特征获取所述指定维度的组合特征中各维组合特征的影响分值；所述影响分值用于表征各个组合特征对产品不良的影响程度；

不良原因获取模块114，用于根据所述影响分值对所述各组合特征进行排序获得排序靠前的至少一个组合特征，将所述至少一个组合特征对应的原始参数作为引起产品不良的原因。

在一实施例中，所述组合特征获取模块包括：

平均值获取单元，用于获取所述产品样本集合每一个原始参数的平均值，并将所述产品样本集合对应的每个原始参数减去所述平均值，获得所述产品样本集合中每个原始参数的新值；

协方差获取单元，用于获取所述第二参数中任意两个原始参数的协方差得到协方差矩阵；所述协方差矩阵中每个协方差值表征两个原始参数相似的程度；

贡献值获取单元，用于获取所述协方差矩阵的特征值和特征向量，并获取各个特征值对应的累计贡献值；所述特征向量中包括每个原始参数对应的权重；

特征值获取单元，用于获取所述累计贡献值超过预设的贡献值阈值的特征值和特征向量，获得K个主成分特征；

组合特征获取单元，用于获取更新新值后的各产品样本中每个原始参数在所述特征向量上的投影，获得所述产品样本集合的K维组合特征；将所述K维组合特征作为所述指定维度的组合特征。

在一实施例中，所述组合特征获取模块还包括：

第一特征获取单元，用于基于所述第二参数中的关键词对原始参数进行合并，获得每个产品本的第一组合特征；

所述组合特征获取单元，还用于获取所述第一组合特征和所述K维组合特征的交集，得到所述产品样本集合的R维组合特征，将所述R维组合特征作为所述指定维度的组合特征。

在一实施例中，所述影响分值获取模块包括：

特征向量获取子单元，用于基于所述指定维度的组合特征获取各维组合特征向量；所述各维组合特征向量中包括各个产品样本的同一维的组合特征；

指标值计算子单元，用于计算所述各维组合特征对应的纯度指标，获得与所述产品样本集合中产品样本同一数量个纯度指标；所述纯度指标用于表示各个组合特征对产品不良的影响程度；

最小值获取子单元，用于获取各维组合特征对应的纯度指标的最小值；所述最小值用于表征所述第一参数的可信度阈值；

影响分值获取子单元，用于根据所述最小值获取对应组合特征的影响分值。

在一实施例中，所述纯度指标包括信息增益、信息增益率和基尼系数中的至少一种。

在一实施例中，所述基尼系数采用以下公式计算：

式中，|X|表示产品样本集合X中任一个组合特征向量作为切分点时，位于所述切分点的指定侧的数据组合中产品样本的个数；K表示产品不良的分类类别，此处取值为2；|C _K|表示位于所述切分点的指定侧的数据组合中第K类的产品样本的个数。可理解的是，本公开实施例提供的装置与上述方法相对应，具体内容可以参考方法各实施例的内容，在此不再赘述。

本公开实施例还提供了一种数据处理装置，参见图12，所述装置包括：

第一参数获取模块121，用于响应于用户在第一界面的第一输入，获取产品样本集合中每个产品样本的第一参数；所述第一参数用于表征所述产品样本的不良程度；

第二参数获取模块122，用于响应于用户在第二界面的第二输入，获取产品样本集合中每个产品样本的第二参数；所述第二参数用于表征所述产品样本经过的样本生产设备的原始参数；

不良原因获取模块123，用于响应于用户在第二界面的第三输入，在第三界面上显示至少一个组合特征；所述至少一个组合特征对应的原始参数作为引起产品不良的原因，并且所述至少一个组合特征根据所述第一参数和所述第二参数获取。

在一实施例中，在第三界面上显示至少一个组合特征按照对应的影响分值从大到小或者从小到大的顺序依次排列；所述影响分值用于表征各个组合特征对产品不良的影响程度。在一实施例中，所述不良原因获取模块包括：

原始参数显示单元，用于针对所述至少一个组合特征中的各组合特征，显示各组合特征中权重靠前的至少2个原始参数。

在一实施例中，所述不良原因获取模块还用于根据所述第一参数和所述第二参数获取所述至少一个组合特征，具体包括：

组合特征获取单元，用于基于预设的降维算法对所述第二参数进行处理，获得所述产品样本集合的指定维度的组合特征，所述指定维度的组合特征中的各组合特征是指与产品不良相关的原始参数的组合；

影响分值获取单元，用于基于所述第一参数和所述指定维度的组合特征获取所述指定维度的组合特征中各维组合特征的影响分值；所述影响分值用于表征各个组合特征对产品不良的影响程度；

不良原因获取单元，用于根据所述影响分值对所述各组合特征进行排序获得排序靠前的至少一个组合特征，将所述至少一个组合特征对应的原始参数作为引起产品不良的原因。

在一实施例中，所述装置还包括：

分布图显示模块，用于显示每个产品样本的第一参数的分布图。

在一实施例中，所述装置还包括：

从属关系显示模块，用于显示每个第二参数的从属关系。

可理解的是，本公开实施例提供的装置与上述方法相对应，具体内容可以参考方法各实施例的内容，在此不再赘述。

在示例性实施例中，还提供了一种电子设备，包括：

显示器；

处理器；

用于存储所述处理器可执行的计算机程序的存储器；

其中，所述处理器用于执行所述存储器中的计算机程序，以实现如图1所述方法的步骤。

在示例性实施例中，还提供了一种包括可执行的计算机可读存储介质，例如包括指令的存储器，上述可执行的计算机程序可由处理器执行，以实现如上述方法的步骤。其中，可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的公开后，将容易想到本公开的其它实施方案。本公开旨在涵盖任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

一种数据处理方法，其特征在于，所述方法包括：

获取产品样本集合；所述产品样本集合中每个产品样本包括第一参数和第二参数；所述第一参数用于表征所述产品样本的不良程度，所述第二参数用于表征所述产品样本经过的样本生产设备的原始参数；

基于预设的降维算法对所述第二参数进行处理，获得所述产品样本集合的指定维度的组合特征，所述指定维度的组合特征中的各组合特征是指与产品不良相关的原始参数的组合；

基于所述第一参数和所述指定维度的组合特征获取所述指定维度的组合特征中各维组合特征的影响分值；所述影响分值用于表征各个组合特征对产品不良的影响程度；

根据所述影响分值对所述各组合特征进行排序获得排序靠前的至少一个组合特征，将所述至少一个组合特征对应的原始参数作为引起产品不良的原因。
根据权利要求1所述的方法，其特征在于，所述降维算法包括以下至少一种：主成分分析法PCA、线性降维法LDA、局部线性嵌入LLE和拉普拉斯特征映射LEP。
根据权利要求2所述的方法，其特征在于，所述降维算法包括主成分分析法PCA，基于预设的降维算法对所述第二参数进行处理，获得所述产品样本集合的指定维度的组合特征，包括：

基于所述主成分分析法PCA对所述第二参数进行处理，获得所述产品样本集合的K维组合特征；将所述K维组合特征作为所述指定维度的组合特征。
根据权利要求2所述的方法，其特征在于，所述降维算法包括主成分分析法PCA，基于预设的降维算法对所述第二参数进行处理，获得所述产品样本集合的指定维度的组合特征，包括：

基于所述第二参数中的关键词对原始参数进行合并，获得每个产品本的第一组合特征；

基于所述主成分分析法PCA对所述第二参数进行处理，获得所述产品样本集合的K维组合特征；

获取所述第一组合特征和所述K维组合特征的交集，得到所述产品样本集合的R维组合特征，将所述R维组合特征作为所述指定维度的组合特征。
根据权利要求3或4所述的方法，其特征在于，基于所述主成分分析法PCA对所述第二参数进行处理，获得所述产品样本集合的K维组合特征，包括：

获取所述产品样本集合每一个原始参数的平均值，并将所述产品样本集合对应的每个原始参数减去所述平均值，获得所述产品样本集合中每个原始参数的新值；

获取所述第二参数中任意两个原始参数的协方差得到协方差矩阵；所述协方差矩阵中每个协方差值表征两个原始参数相似的程度；

获取所述协方差矩阵的特征值和特征向量，并获取各个特征值对应的累计贡献值；所述特征向量中包括每个原始参数对应的权重；

获取所述累计贡献值超过预设的贡献值阈值的特征值和特征向量，获得K个主成分特征；

获取更新新值后的每个原始参数在所述特征向量上的分量，获得所述产品样本集合的K维组合特征。
根据权利要求1所述的方法，其特征在于，基于所述第一参数和所述指定维度的组合特征获取所述指定维度的组合特征中各维组合特征的影响分值，包括：

基于所述指定维度的组合特征获取各维组合特征向量；所述各维组合特征向量中包括各个产品样本的同一维的组合特征；

计算所述各维组合特征对应的纯度指标，获得与所述产品样本集合中产品样本同一数量个纯度指标；所述纯度指标用于表示各个组合特征对产品不良的影响程度；

获取各维组合特征对应的纯度指标的最小值；所述最小值用于表征所述第一参数的可信度阈值；

根据所述最小值获取对应组合特征的影响分值。
根据权利要求6所述的方法，其特征在于，所述纯度指标包括信息增益、信息增益率和基尼系数中的至少一种。
根据权利要求7所述的方法，其特征在于，所述基尼系数采用以下公式计算：

式中，|X|表示产品样本集合X中任一个组合特征向量作为切分点时，位于所述切分点的指定侧的数据组合中产品样本的个数；K表示产品不良的分类类别，此处取值为2；|C _K|表示位于所述切分点的指定侧的数据组合中第K类的产品样本的个数。
根据权利要求1所述的方法，其特征在于，所述方法还包括：

针对所述至少一个组合特征中的各组合特征，显示各组合特征中权重靠前的至少2个原始参数。
一种数据处理方法，其特征在于，所述方法包括：

响应于用户在第一界面的第一输入，获取产品样本集合中每个产品样本的第一参数；所述第一参数用于表征所述产品样本的不良程度；

响应于用户在第二界面的第二输入，获取产品样本集合中每个产品样本的第二参数；所述第二参数用于表征所述产品样本经过的样本生产设备的原始参数；

响应于用户在第二界面的第三输入，在第三界面上显示至少一个组合特征；所述至少一个组合特征对应的原始参数作为引起产品不良的原因，并且所述至少一个组合特征根据所述第一参数和所述第二参数获取。
根据权利要求10所述的方法，其特征在于，在第三界面上显示至少一个组合特征按照对应的影响分值从大到小或者从小到大的顺序依次排列；所述影响分值用于表征各个组合特征对产品不良的影响程度。
根据权利要求10或者11所述的方法，其特征在于，在第三界面上显示至少一个组合特征，包括：

针对所述至少一个组合特征中的各组合特征，显示各组合特征中权重靠前的至少2个原始参数。
根据权利要求10所述的方法，其特征在于，所述方法还包括根据所述第一参数和所述第二参数获取所述至少一个组合特征，具体包括：

基于预设的降维算法对所述第二参数进行处理，获得所述产品样本集合的指定维度的组合特征，所述指定维度的组合特征中的各组合特征是指与产品不良相关的原始参数的组合；

基于所述第一参数和所述指定维度的组合特征获取所述指定维度的组合特征中各维组合特征的影响分值；所述影响分值用于表征各个组合特征对产品不良的影响程度；

根据所述影响分值对所述各组合特征进行排序获得排序靠前的至少一个组合特征，将所述至少一个组合特征对应的原始参数作为引起产品不良的原因。
根据权利要求10所述的方法，其特征在于，获取产品样本集合中每个产品样本的第一参数之后，所述方法还包括：

显示每个产品样本的第一参数的分布图。
根据权利要求10所述的方法，其特征在于，获取产品样本集合中每个产品样本的第二参数之后，所述方法还包括：

显示每个第二参数的从属关系。
根据权利要求10所述的方法，其特征在于，所述产品样本包括显示面板母板；所述显示面板母板包括多个显示面板。
一种数据处理装置，其特征在于，所述装置包括：

样本集合获取模块，用于获取产品样本集合；所述产品样本集合中每个产品样本包括第一参数和第二参数；所述第一参数用于表征所述产品样本的不良程度，所述第二参数用于表征所述产品样本经过的样本生产设备的原始参数；

组合特征获取模块，用于基于预设的降维算法对所述第二参数进行处理，获得所述产品样本集合的指定维度的组合特征，所述指定维度的组合特征中的各组合特征是指与产品不良相关的原始参数的组合；

影响分值获取模块，用于基于所述第一参数和所述指定维度的组合特征获取所述指定维度的组合特征中各维组合特征的影响分值；所述影响分值用于表征各个组合特征对产品不良的影响程度；

不良原因获取模块，用于根据所述影响分值对所述各组合特征进行排序获得排序靠前的至少一个组合特征，将所述至少一个组合特征对应的原始参数作为引起产品不良的原因。
一种数据处理装置，其特征在于，所述装置包括：

第一参数获取模块，用于响应于用户在第一界面的第一输入，获取产品样本集合中每个产品样本的第一参数；所述第一参数用于表征所述产品样本的不良程度；

第二参数获取模块，用于响应于用户在第二界面的第二输入，获取产品样本集合中每个产品样本的第二参数；所述第二参数用于表征所述产品样本经过的样本生产设备的原始参数；

不良原因获取模块，用于响应于用户在第二界面的第三输入，在第三界面上显示至少一个组合特征；所述至少一个组合特征对应的原始参数作为引起产品不良的原因，并且所述至少一个组合特征根据所述第一参数和所述第二参数获取。
一种电子设备，其特征在于，包括：

显示器；

处理器；

用于存储所述处理器可执行的计算机程序的存储器；

其中，所述处理器用于执行所述存储器中的计算机程序，以实现如权利要求1～16任一项所述方法。
一种计算机可读存储介质，其特征在于，当所述存储介质中的可执行的计算机程序由处理器执行时，能够实现如权利要求1～16任一项所述方法。