WO2022252079A1

WO2022252079A1 - 数据处理方法及装置

Info

Publication number: WO2022252079A1
Application number: PCT/CN2021/097480
Authority: WO
Inventors: 王瑜; 王川; 王海金; 贺王强; 柴栋; 吴建民; 雷一鸣; 王洪
Original assignee: 京东方科技集团股份有限公司; 北京中祥英科技有限公司
Priority date: 2021-05-31
Filing date: 2021-05-31
Publication date: 2022-12-08
Also published as: CN115943372A

Abstract

一种数据处理方法，该方法包括：响应于用户在图形界面的输入操作，获取样本数据(S201)，该样本数据包括样本的特征数据和检测数据；基于样本数据，在图形界面显示样本分布图(S202)；获取用于划分正负样本的聚焦阈值，在图形界面的样本分布图中显示聚焦阈值标记，并基于聚焦阈值区分正负样本的数据显示效果(S203)；其中，聚焦阈值基于样本的检测数据确定；基于正负样本，确定样本异常的原因(S204)。

Description

数据处理方法及装置

技术领域

本公开涉及数据处理领域，尤其涉及一种数据处理方法及装置。

背景技术

数据分析过程中，一般要对样本数据进行预处理，并对样本分布进行标记，以使得后续样本特征分析或机器学习模型训练时，能够提高分析效率以及准确性。

发明内容

一方面，提供一种数据处理方法。该数据处理方法包括：首先，响应于用户在图形界面的输入操作，获取样本数据，该样本数据包括样本的特征数据和检测数据；然后，基于该样本数据，在图形界面显示样本分布图；再获取用于划分正负样本的聚焦阈值，在图形界面的样本分布图中显示该聚焦阈值标记，并基于该聚焦阈值区分正负样本的数据显示效果；其中，该聚焦阈值基于样本的检测数据确定；最后，基于该正负样本，确定样本异常的原因。

在一些实施例中，上述聚焦阈值包括第一聚焦阈值，该第一聚焦阈值为一个或多个，上述获取用于划分正负样本的聚焦阈值，在图形界面的样本分布图中显示聚焦阈值标记，并基于聚焦阈值区分正负样本的数据显示效果，包括：接收用户对第一聚焦阈值的设定操作，在图形界面的样本分布图中显示第一聚焦阈值标记，并基于该第一聚焦阈值区分正负样本的数据显示效果。

另一些实施例中，上述第一聚焦阈值包括第一数值，上述基于第一聚焦阈值区分正负样本的数据显示效果，包括：基于样本的检测数据与第一数值的大小关系区分正负样本的数据显示效果。

另一些实施例中，上述第一聚焦阈值包括第二数值和第三数值，该第二数值小于第三数值，上述基于第一聚焦阈值区分正负样本的数据显示效果，包括：基于样本的检测数据是否大于第二数值且小于第三数值区分正负样本的数据显示效果。

另一些实施例中，上述聚焦阈值还包括第二聚焦阈值，样本的数量为N，上述获取用于划分正负样本的聚焦阈值，在图形界面的样本分布图中显示聚焦阈值标记，并基于聚焦阈值区分正负样本的数据显示效果，包括：将N个样本的检测数据按照从小到大依次排列，并将N个样本的检测数据的中位数或均值作为参考聚焦值；基于参考聚焦值以及N个样本的检测数据，确定第二聚焦阈值；在图形界面的样本分布图中显示第二聚焦阈值标记，并基于第二聚焦阈值区分正负样本的数据显示效果。

另一些实施例中，上述基于参考聚焦值以及N个样本的检测数据，确定第二聚焦阈值，包括以下步骤：步骤a、将N个样本的检测数据中小于或等于参考聚焦值的检测数据求平均得到第一均值Mean _l，将N个样本的检测数据中大于参考聚焦值的检测数据求平均得到第二均值Mean _u；步骤b、将依次排列的N个样本的检测数据逐个与第一均值Mean _l作差并取绝对值，得到第一均差DiffLowerMean＝[l ₁,l ₂,l ₃…,l _N]，将依次排列的N个样本的检测数据逐个与第二均值Mean _u作差并取绝对值，得到第二均差DiffUpperMean＝[u ₁,u ₂,u ₃…,u _N]，逐个比较第一均差和第二均差，确定l _i＜u _i的数量k，i＝1,2,3，…，N，将参考聚焦索引更新为k，并在依次排列的N个样本的检测数据中，将参考聚焦值更新为第k个检测数据的值；步骤c、重复步骤a和步骤b，直至更新前后参考聚焦索引的值不变，在依次排列的N个样本的检测数据中，基于该参考聚焦索引对应的检测数据确定第二聚焦阈值。

另一些实施例中，上述方法还包括：基于用户对过滤阈值的过滤操作，对样本数据进行筛选，并在图形界面显示筛选后的样本的分布图。

另一些实施例中，上述过滤阈值包括异常率阈值、到达率阈值、生产设备阈值、环境参数阈值、检测时间阈值、或生成时间阈值中的至少一种；上述样本包括多个子样本，异常率用于指示每个样本中异常子样本的数量占该样本包括的子样本总数量的比例；到达率用于指示每个样本中实际检测的子样本数量占该样本包括的子样本总数量的比例。

另一些实施例中，上述过滤操作包括设定操作和选择操作。

另一些实施例中，上述样本的特征数据包括产品型号、检测站点、异常类型、到达率、生产设备、环境参数、检测时间、或生成时间中的至少一种。

另一些实施例中，上述样本的检测数据包括异常率或测量参数中的至少一种。

另一方面，提供一种数据处理方法，该方法包括：首先，获取样本数据，该样本数据包括样本的特征数据和检测数据；然后，基于样本的检测数据，确定聚焦阈值；再基于该聚焦阈值，将样本划分为正负样本；最后，基于该正负样本，确定样本异常的原因。

在一些实施例中，上述聚焦阈值包括第二聚焦阈值，样本的数量为N，上述根据样本的检测数据，确定聚焦阈值，包括：将N个样本的检测数据按照从小到大依次排列，N个样本的检测数据的中位数或均值作为参考聚焦值；基于参考聚焦值以及N个样本的检测数据，确定第二聚焦阈值。

另一些实施例中，上述方法还包括：基于过滤阈值，对样本数据进行筛选。

又一方面，提供一种数据处理装置，包括：获取模块，用于响应于用户在图形界面的输入操作，获取样本数据，样本数据包括样本的特征数据和检测数据；显示模块，用于基于获取模块获取的样本数据，在图形界面显示样本分布图；获取模块，还用于获取用于划分正负样本的聚焦阈值；显示模块，还用于基于获取模块获取的聚焦阈值，在图形界面的样本分布图中显示聚焦阈值标记，并基于聚焦阈值区分正负样本的数据显示效果；其中，聚焦阈值基于样本的检测数据确定；确定模块，用于基于正负样本，确定样本异常的原因。

在一些实施例中，上述聚焦阈值包括第一聚焦阈值，第一聚焦阈值为一个或多个；上述获取模块，具体还用于接收用户对第一聚焦阈值的设定操作；上述显示模块，还用于在图形界面的样本分布图中显示第一聚焦阈值标记，并基于第一聚焦阈值区分正负样本的数据显示效果。

另一些实施例中，上述第一聚焦阈值包括第一数值，上述显示模块，具体用于：基于样本的检测数据与第一数值的大小关系区分正负样本的数据显示效果。

另一些实施例中，上述第一聚焦阈值包括第二数值和第三数值，第二数值小于第三数值，显示模块，具体还用于：基于样本的检测数据是否大于第二数值且小于第三数值区分正负样本的数据显示效果。

另一些实施例中，上述聚焦阈值包括第二聚焦阈值，样本的数量为N，获取模块，具体用于：将N个样本的检测数据按照从小到大依次排列，并将N个样本的检测数据的中位数或均值作为参考聚焦值；基于参考聚焦值以及N个样本的检测数据，确定第二聚焦阈值；在图形界面的样本分布图中显示第二聚焦阈值标记，并基于第二聚焦阈值区分正负样本的数据显示效果。

另一些实施例中，上述获取模块，具体还用于执行以下步骤：步骤a、将N个样本的检测数据中小于或等于参考聚焦值的检测数据求平均得到第一均值Mean _l，将N个样本的检测数据中大于参考聚焦值的检测数据求平均得到第二均值Mean _u；步骤b、将依次排列的N个样本的检测数据逐个与第一均值Mean _l作差并取绝对值，得到第一均差DiffLowerMean＝[l ₁,l ₂,l ₃…,l _N]，将依次排列的N个样本的检测数据逐个与第二均值Mean _u作差并取绝对值，得到第二均差DiffUpperMean＝[u ₁,u ₂,u ₃…,u _N]，逐个比较第一均差和第二均差，确定l _i＜u _i的数量k，i＝1,2,3，…，N，将参考聚焦索引更新为k，并在依次排列的N个样本的检测数据中，将参考聚焦值更新为第k个检测数据的值；步骤c、重复步骤a和步骤b，直至更新前后参考聚焦索引的值不变，在依次排列的N个样本的检测数据中，基于该参考聚焦索引对应的检测数据确定第二聚焦阈值。

另一些实施例中，上述数据处理装置还包括筛选模块；该筛选模块，用于基于用户对过滤阈值的过滤操作，对样本数据进行筛选；显示模块，还用于在图形界面显示筛选后的样本的分布图。

另一些实施例中，上述过滤阈值包括异常率阈值、到达率阈值、生产设备阈值、环境参数阈值、检测时间阈值、或生成时间阈值中的至少一种；样本包括多个子样本，异常率用于指示每个样本中异常子样本的数量占该样本包括的子样本总数量的比例；到达率用于指示每个样本中实际检测的子样本数量占该样本包括的子样本总数量的比例。

另一些实施例中，上述过滤操作包括设定操作和选择操作。

又一方面，提供一种数据处理装置，该装置包括：获取模块，用于获取样本数据，样本数据包括样本的特征数据和检测数据；确定模块，用于基于样本的检测数据，确定聚焦阈值；划分模块，用于基于聚焦阈值，将样本划分为正负样本；确定模块，还用于基于正负样本，确定样本异常的原因。

在一些实施例中，上述聚焦阈值包括第二聚焦阈值，样本的数量为N，确定模块，具体用于：将N个样本的检测数据按照从小到大依次排列，并将N个样本的检测数据的中位数或均值作为参考聚焦值；基于参考聚焦值以及N个样本的检测数据，确定第二聚焦阈值。

另一些实施例中，上述确定模块，具体还用于执行以下步骤：步骤a、将N个样本的检测数据中小于或等于参考聚焦值的检测数据求平均得到第一均值Mean _l，将N个样本的检测数据中大于参考聚焦值的检测数据求平均得到第二均值Mean _u；步骤b、将依次排列的N个样本的检测数据逐个与第一均值Mean _l作差并取绝对值，得到第一均差DiffLowerMean＝[l ₁,l ₂,l ₃…,l _N]，将依次排列的N个样本的检测数据逐个与第二均值Mean _u作差并取绝对值，得到第二均差DiffUpperMean＝[u ₁,u ₂,u ₃…,u _N]，逐个比较第一均差和第二均差，确定l _i＜u _i的数量k，i＝1,2,3，…，N，将参考聚焦索引更新为k，并在依次排列的N个样本的检测数据中，将参考聚焦值更新为第k个检测数据的值；步骤c、重复步骤a和步骤b，直至更新前后参考聚焦索引的值不变，在依次排列的N个样本的检测数据中，基于该参考聚焦索引对应的检测数据确定第二聚焦阈值。

另一些实施例中，上述数据处理装置还包括筛选模块，该筛选模块，用于：基于过滤阈值，对样本数据进行筛选。

又一方面，提供一种数据处理装置，该装置包括存储器和处理器；存储器和处理器耦合；存储器用于存储计算机程序代码，计算机程序代码包括计算机指令；其中，当处理器执行所述计算机指令时，使得该装置执行如上述任一实施例所述的数据处理方法中的一个或多个步骤。

又一方面，提供一种非瞬态的计算机可读存储介质，所述计算机可读存储介质存储有计算机程序指令，所述计算机程序指令在处理器上运行时，使得所述处理器执行如上述任一实施例所述的数据处理方法中的一个或多个步骤。

又一方面，提供一种计算机程序产品，该计算机程序产品包括计算机程序，在计算机上执行所述计算机程序指令时，所述计算机程序指令使计算机执行如上述任一实施例所述的数据处理方法中的一个或多个步骤。

附图说明

为了更清楚地说明本公开中的技术方案，下面将对本公开一些实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例的附图，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。此外，以下描述中的附图可以视作示意图，并非对本公开实施例所涉及的产品的实际尺寸、方法的实际流程、信号的实际时序等的限制。

图1为根据一些实施例的数据处理装置的一种结构图；

图2为根据一些实施例的数据处理方法的一种流程图；

图3为根据一些实施例的数据处理方法的一种显示效果图；

图4为根据一些实施例的数据处理方法的另一种显示效果图；

图5为根据一些实施例的数据处理方法的另一种流程图；

图6为根据一些实施例的数据处理方法的再一种显示效果图；

图7为根据一些实施例的数据处理方法的再一种流程图；

图8为根据一些实施例的数据处理方法的再一种显示效果图；

图9为根据一些实施例的数据处理方法的再一种显示效果图；

图10为根据一些实施例的数据处理方法的再一种显示效果图；

图11为根据一些实施例的数据处理方法的再一种流程图；

图12为根据一些实施例的数据处理方法的再一种流程图；

图13为根据一些实施例的数据处理方法的再一种流程图；

图14为根据一些实施例的数据处理装置的另一种结构图；

图15为根据一些实施例的数据处理装置的再一种结构图；

图16为根据一些实施例的数据处理装置的再一种结构图；

图17为根据一些实施例的数据处理装置的再一种结构图。

具体实施方式

下面将结合附图，对本公开一些实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。基于本公开所提供的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本公开保护的范围。

除非上下文另有要求，否则，在整个说明书和权利要求书中，术语“包括(comprise)”及其其他形式例如第三人称单数形式“包括(comprises)”和现在分词形式“包括(comprising)”被解释为开放、包含的意思，即为“包含，但不限于”。在说明书的描述中，术语“一个实施例(one embodiment)”、“一些实施例(some embodiments)”、“示例性实施例(exemplary embodiments)”、“示例(example)”、“特定示例(specific example)”或“一些示例(some examples)”等旨在表明与该实施例或示例相关的特定特征、结构、材料或特性包括在本公开的至少一个实施例或示例中。上述术语的示意性表示不一定是指同一实施例或示例。此外，所述的特定特征、结构、材料或特点可以以任何适当方式包括在任何一个或多个实施例或示例中。

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本公开实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在描述一些实施例时，可能使用了“耦接”和“连接”及其衍伸的表达。例如，描述一些实施例时可能使用了术语“连接”以表明两个或两个以上部件彼此间有直接物理接触或电接触。又如，描述一些实施例时可能使用了术语“耦接”以表明两个或两个以上部件有直接物理接触或电接触。然而，术语“耦接”或“通信耦合(communicatively coupled)”也可能指两个或两个以上部件彼此间并无直接接触，但仍彼此协作或相互作用。这里所公开的实施例并不必然限制于本文内容。

“A、B和C中的至少一个”与“A、B或C中的至少一个”具有相同含义，均包括以下A、B和C的组合：仅A，仅B，仅C，A和B的组合，A和C的组合，B和C的组合，及A、B和C的组合。

“A和/或B”，包括以下三种组合：仅A，仅B，及A和B的组合。

如本文中所使用，根据上下文，术语“如果”任选地被解释为意思是“当……时”或“在……时”或“响应于确定”或“响应于检测到”。类似地，根据上下文，短语“如果确定……”或“如果检测到[所陈述的条件或事件]”任选地被解释为是指“在确定……时”或“响应于确定……”或“在检测到[所陈述的条件或事件]时”或“响应于检测到[所陈述的条件或事件]”。

本文中“适用于”或“被配置为”的使用意味着开放和包容性的语言，其不排除适用于或被配置为执行额外任务或步骤的设备。

另外，“基于”或“根据”的使用意味着开放和包容性，因为“基于”或“根据”一个或多个所述条件或值的过程、步骤、计算或其他动作在实践中可以基于额外条件或超出所述的值。

目前，半导体、面板等领域中，受生产工序、生产设备等因素的影响，生产的产品可能存在各种缺陷。为了满足日益增长的生产需求，提升产品的良率，分析缺陷产品产生缺陷的原因是非常有必要的。

通常，在对样本数据进行分析时，主要依靠人力定位异常原因，因此处理时效和准确率都及其受限，很难满足日益增长的生产需求。为了提升数据分析的效率和准确性，可以通过机器学习算法确定异常原因。但是，采用机器学习算法分析异常原因时，如果不管样本异常率的高低，对所有样本进行分析，可能导致数据量过大，影响机器学习算法的运行效率，而且如果存在大量异常率特别低的样本，可能会对异常原因的准确性造成影响。

为了提升数据分析的准确率，本公开实施例提供一种数据处理方法，该方法在执行数据分析任务过程中，对样本数据的分布通过图形界面直观展示，并通过阈值设置，对样本数据进行筛选，并通过合理的划分正负样本，从而使得数据分析更准确。

本公开实施例提供的数据处理方法，可以应用于通用的数据分析平台(机器学习平台)，也可以应用于针对特定场景的数据分析平台(生产数据分析系统)。

本公开实施例提供的数据处理方法的执行主体为数据处理装置。该数据处理装置可以终端设备或服务器，本公开实施例中对数据处理装置的具体形式不做特殊限制，在此仅是示例性说明。

如图1所示，该数据处理装置100包括至少一个处理器101，存储器102、收发器103以及通信总线101。

下面结合图1对该数据处理装置的各个构成部件进行具体的介绍：

处理器101是数据处理装置的控制中心，可以是一个处理器，也可以是多个处理元件的统称。例如，处理器101是一个中央处理器(central processing unit，CPU)，也可以是特定集成电路(application specific integrated circuit，ASIC)，或者是被配置成实施本公开实施例的一个或多个集成电路。

其中，处理器101可以通过运行或执行存储在存储器102内的软件程序，以及调用存储在存储器102内的数据，执行数据处理装置的各种功能。

在具体的实现中，作为一种实施例，处理器101可以包括一个或多个CPU，例如图1中所示的CPU0和CPU1。

在具体实现中，作为一种实施例，数据处理装置可以包括多个处理器，例如图1中所示的处理器101和处理器105。这些处理器中的每一个可以是一个单核处理器(single-CPU)，也可以是一个多核处理器(multi-CPU)。这里的处理器可以指一个或多个检测设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。

存储器102可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory，EEPROM)、只读光盘(compact disc read-only memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器102可以是独立存在，通过通信总线104与处理器101相连接。存储器102也可以和处理器101集成在一起。

其中，所述存储器102用于存储执行本公开方案的软件程序，并由处理器101来控制执行。

收发器103，用于与其他通信装置之间进行通信。当然，收发器103还可以用于与通信网络通信，如以太网，无线接入网(radio access network，RAN)，无线局域网(wireless local area networks，WLAN)等。收发器103可以包括接收单元实现接收功能，以及发送单元实现发送功能。

通信总线104，可以是工业标准体系结构(industry standard architecture，ISA)总线、外部检测设备互连(peripheral component，PCI)总线或扩展工业标准体系结构(extended industry standard architecture，EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示，图1中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

图1中示出的数据处理装置结构并不构成对数据处理装置的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

结合图1，如图2所示，为本公开实施例提供的一种数据处理方法，如图2所示，该方法包括以下步骤：

S201、响应于用户在图形界面的输入操作，获取样本数据。

该样本数据包括样本的特征数据和检测数据。

可选的，每个样本的检测数据可以是某一事件的异常程度。在生产过程中，每个样本的检测数据可以是产品的异常率。异常率用于指示每个样本中异常子样本的数量占该样本包括的子样本总数量的比例。每个样本的检测数据也可以是样本的测量参数，例如，样本的电压、电流、功率等参数。

例如，以样本为玻璃GLASS为例，每张玻璃经过各工序后可以切割成多个面板panel，各个panel再进入检测站点进行缺陷检测。样本的检测数据可以为样本的异常率Ratio，样本的异常率是指每张玻璃中有缺陷的panel数与每张玻璃切割的总panel数的比例。

可选的，样本的特征数据可以包括但不限于：产品型号、检测站点、异常类型、生成时间、生产设备、环境参数、检测时间、到达率等特征参数。

示例性的，每个样本可以包括多个子样本，样本的到达率用于指示每个样本中实际检测的子样本数量占该样本包括的子样本总数量的比例。

例如，以样本为玻璃GLASS，子样本为面板panel为例，每张玻璃经过各工序后可以切割成多个面板panel，各个panel再进入检测站点进行缺陷检测。每个样本的到达率指每张玻璃到达检测站点的panel数与该张玻璃切割的总panel数的比例。

可选的，样本的异常类型包括但不限于油污、腐蚀、气泡等。本公开实施例在分析样本的异常原因时，可以对同一种异常类型的样本进行分析。

可选的，样本的生成时间可以为样本的生产时间或出厂时间。

可选的，样本的环境参数包括样本加工的工艺参数、样本加工时所处的环境的温度、压力等参数。

示例性的，数据处理装置响应于用户在图形界面的输入操作，获取样本数据，可以包括：数据处理装置接收用户在图形界面输入的产品型号、检测站点、生成时间、生产设备、环境参数等特征数据的设定操作，响应于用户输入的设定操作，数据处理装置获取样本数据。

示例性的，数据处理装置响应于用户在图形界面的输入操作，获取样本数据，还可以包括：数据处理装置接收用户上传文件(如csv文件)的操作，响应于该操作，数据处理装置获取样本数据。

可选的，上述获取样本数据的方法包括用户手动导入、批量导入和实时数据导入。手动导入包括数据处理装置接收用户上传文件(如csv文件)的操作，响应于该操作，数据处理装置获取样本数据。即用户可以将自己收集的样本数据作为异常诊断分析的样本集。批量导入可通过调用HDFS的API接口或地址进行一次性或定期批量导入数据，实时数据导入可通过kafka以及ETL工具实时将数据源中的数据实时导入数据处理装置。本公开实施例对于数据处理装置获取样本数据的具体方式并不限定，在此仅是示例性说明。

可选的，本公开实施例中可以将异常率Ratio和测量参数Qtest作为衡量样本异常的判断指标，将样本的生产设备、环境参数等作为导致样本异常的原因。

例如，以样本的特征数据包括检测站点Check Step、缺陷种类Defect_Name、到达率Input_Ratio、生成时间END_TIME，样本的检测数据包括异常率为例，如表1所示，为缺陷种类为Defect_code1时的样本集。

表1

GlassID	Check Step	Defect_Name	Ratio	Input_Ratio	END_TIME
GlassID 1	Check Step1	Defect_code1	0.088	0.953	2021-01-24 08:25:03
GlassID 2	Check Step1	Defect_code1	0.264	0.924	2021-01-28 07:43:11
…	…	…	…	…	…
GlassID n	Check Step1	Defect_code1	0.011	0.837	2021-02-11 20:37:45

S202、基于样本数据，在图形界面显示样本分布图。

示例性的，以表1所示的样本数据为例，可以在图形界面显示表1所示的样本的分布图，该分布图的横轴可以为生成时间，纵轴可以为异常率。

S203、获取用于划分正负样本的聚焦阈值，在图形界面的样本分布图中显示聚焦阈值标记，并基于聚焦阈值区分正负样本的数据显示效果。

其中，该聚焦阈值基于样本的检测数据确定。聚焦阈值可以将样本划分为正样本和负样本。可选的，正样本可以称为正常样本或无异常样本，负样本可以称为不良样本或异常样本。

可选的，上述聚焦阈值可以是数据处理装置基于样本的检测数据确定的，也可以是用户根据样本的检测数据确定的。在聚焦阈值为用户根据样本的检测数据确定的情况下，用户可以在数据处理装置输入其确定的聚焦阈值，数据处理装置接收用户对聚焦阈值的设定操作，在图形界面的样本分布图中显示聚焦阈值标记，并基于聚焦阈值区分正负样本的数据显示效果。

可选的，数据处理装置或用户可以基于样本检测数据的分布情况确定聚焦阈值。

可选的，聚焦阈值可以包括第一聚焦阈值和第二聚焦阈值。

示例性的，数据处理装置获取聚焦阈值可以包括：数据处理装置接收用户对第一聚焦阈值的设定操作。或者，数据处理装置根据样本的检测数据确定第二聚焦阈值。下面分别对数据处理装置获取聚焦阈值的两种实现方式进行具体说明。

第一种实现方式，上述步骤S203包括：接收用户对第一聚焦阈值的设定操作，在图形界面的样本分布图中显示第一聚焦阈值标记，并基于第一聚焦阈值区分正负样本的数据显示效果。

在第一种实现方式中，样本的检测数据可以为测量参数。根据测量参数具体参数的不同，该测量参数有可能是大于阈值正常，小于阈值异常。也有可能小于阈值正常，大于阈值异常。还可能是在一个范围内都是正常，在范围外都是异常。又有可能是在一个范围内是异常，在范围外是正常。用户可以根据具体参数的不同设置阈值。

可选的，上述第一聚焦阈值可以是用户设定的一个数值，也可以是用户设定的一个范围。

可选的，以用户设定的第一聚焦阈值为一个数值为例，该第一聚焦阈值包括第一数值，上述基于第一聚焦阈值区分正负样本的数据显示效果，包括：基于样本的检测数据与第一数值的大小关系区分正负样本的数据显示效果。

示例性的，数据处理装置基于样本的检测数据与第一数值的大小关系，可以将检测数据大于第一数值的样本划分为负样本，将检测数据小于第一数值的样本划分为正样本。

例如，如图3中的(a)所示，可以将异常率大于第一数值的样本划分为负样本，即图3中的(a)所示的第一数值以上的样本为负样本，用黑色圆点表示。将异常率小于第一数值的样本划分为正样本，即图3中的(a)所示的第一数值以下的样本为正样本，用灰色圆点表示。

示例性的，数据处理装置基于样本的检测数据与第一数值的大小关系，也可以将检测数据大于第一数值的样本划分为正样本，将检测数据小于第一数值的样本划分为负样本。

再例如，如图3中的(b)所示，可以将异常率大于第一数值的样本划分为正样本，即图3中的(b)所示的第一数值以上的样本为正样本，用灰色圆点表示。将异常率小于第一数值的样本划分为负样本，即图3中的(b)所示的第一数值以下的样本为负样本，用黑色圆点表示。

需要说明的是，本公开实施例对于数据处理装置将检测数据大于第一数值的样本划分为正样本还是负样本并不进行限定，实际应用中，可以根据检测数据的具体参数类型确定将检测数据大于第一数值的样本划分为正样本还是负样本。

可选的，以用户设定的第一聚焦阈值包括两个数值为例，该第一聚焦阈值可以包括第二数值和第三数值，上述基于第一聚焦阈值区分正负样本的数据显示效果，包括：基于样本的检测数据是否大于第二数值且小于第三数值区分正负样本的数据显示效果。

示例性的，第二数值和第三数值可以组成一个范围，数据处理装置基于样本的检测数据与该范围的大小关系，可以将检测数据大于第二数值且小于第三数值的样本划分为正样本，将检测数据小于第二数值或大于第三数值的样本划分为负样本。

例如，如图4中的(a)所示，可以将异常率大于第二数值且小于第三数值的样本划分为正样本，即图4中的(a)所示的异常率在第二数值以上至第三数值以下的样本为正样本，用灰色圆点表示。将异常率小于第二数值或大于第三数值的样本划分为负样本，即图4中的(a)所示的异常率在第二数值以下，以及第三数值以上的样本为负样本，用黑色圆点表示。

示例性的，第二数值和第三数值可以组成一个范围，数据处理装置基于样本的检测数据与该范围的大小关系，可以将检测数据小于第二数值或大于第三数值的样本划分为正样本，将检测数据大于第二数值且小于第三数值的样本划分为负样本。

例如，如图4中的(b)所示，可以将异常率大于第二数值且小于第三数值的样本划分为负样本，即图4中的(b)所示的异常率在第二数值以上至第三数值以下的样本为负样本，用黑色圆点表示。将异常率小于第二数值或大于第三数值的样本划分为正样本，即图4中的(b)所示的异常率在第二数值以下，以及第三数值以上的样本为正样本，用灰色圆点表示。

第二种实现方式，上述步骤S203中获取用于划分正负样本的聚焦阈值可以包括：数据处理装置基于样本检测数据的分布情况获取聚焦阈值。例如，数据处理装置可以基于样本检测数据的集中趋势特征如中位数、均值等作为参考聚焦阈值，并将参考聚焦阈值作为第二聚焦阈值。再例如，数据处理装置可以基于样本检测数据的集中趋势特征如中位数、均值等作为参考聚焦阈值，并基于该参考聚焦阈值划分后的检测样本分布进一步确定第二聚焦阈值。

示例性的，以样本的数量为N为例，如图5所示，上述步骤S203可以包括步骤S2031-S2033。

S2031、将N个样本的检测数据按照从小到大依次排列，并将N个样本的检测数据的中位数或均值作为参考聚焦值。

可选的，该N个样本可以为经过下述步骤S205筛选后的样本，也可以是未经步骤S205筛选的样本，本公开对此并不限定。

可选的，数据处理装置将N个样本的检测数据的中位数或均值作为参考聚焦值时，参考聚焦索引可以为该参考聚焦阈值相对应的值。

例如，数据处理装置将N个样本的检测数据的中位数作为参考聚焦值时，参考聚焦索引可以为

其中，

表示对N/2向上取整。比如，以N为401为例，参考聚焦值为401个检测数据的中位数，参考聚焦索引为201。

再例如，数据处理装置将N个样本的检测数据的均值作为参考聚焦值时，参考聚焦索引可以为与该均值最为接近的检测数据的索引。比如，在依次排列的N个样本的检测数据中，第600个样本的检测数据与均值最接近，那么可以将参考聚焦索引确定为600。

本公开实施例对于参考聚焦值的具体确定方法并不限定，下述实施例以参考聚焦索引为

参考聚焦值为第

个检测数据为例进行说明。

示例性的，以样本的检测数据为异常率Ratio为例，数据处理装置可以将N个样本的异常率按照从小到大的顺序依次排列，得到数组SortedData＝[x ₁,x ₂,x ₃,…,x _N]，其中x _i表示第i个异常率。

示例性的，以参考聚焦值取中位数为例，数据处理装置可以取样本总数的中间值作为参考聚焦索引FocusIndex。例如，如果样本总数为偶数，取N/2为参考聚焦索引FocusIndex。如果样本总数为奇数，取中间值

为参考聚焦索引FocusIndex。

例如，以样本的数量N为1000，样本的检测数据为异常率Ratio为例，将1000个样本的异常率按照从小到大排序，得到数组SortedData＝[x ₁,x ₂,x ₃,…,x ₁₀₀]，将参考聚焦索引FocusIndex确定为500，并将数组SortedData中第500个异常率x ₅₀₀作为参考聚焦值，该参考聚焦值可以将SortedData划分为LowerGroup和UpperGroup。

S2032、基于参考聚焦值以及N个样本的检测数据，确定第二聚焦阈值。

可选的，基于参考聚焦值和N个样本的检测数据，采用AutoFocus算法可以确定第二聚焦阈值Focus。

示例性的，步骤S2032中基于参考聚焦值以及N个样本的检测数据，确定第二聚焦阈值，可以包括以下步骤：

步骤a、将N个样本的检测数据中小于或等于参考聚焦值的检测数据求平均得到第一均值Mean _l，将N个样本的检测数据中大于参考聚焦值的检测数据求平均得到第二均值Mean _u。

示例性的，数据处理装置根据参考聚焦值可以将N个样本的检测数据中，小于或等于参考聚焦值的检测数据划分为LowerGroup，大于参考聚焦值的检测数据划分为UpperGroup。并将LowerGroup中的检测数据求平均得到第一均值Mean _l，将UpperGroup中的检测数据求平均得到第二均值Mean _u。

例如，以样本的数量N为1000，样本的检测数据为异常率Ratio为例，数据处理装置根据参考聚焦值x ₅₀₀，将SortedData中x ₁至x ₅₀₀求平均得到Mean _l，计算SortedData中x ₅₀₀至x ₁₀₀₀求平均得到Mean _u。

步骤b、将依次排列的N个样本的检测数据逐个与第一均值Mean _l作差并取绝对值，得到第一均差DiffLowerMean＝[l ₁,l ₂,l ₃…,l _N]，将依次排列的N个样本的检测数据逐个与第二均值Mean _u作差并取绝对值，得到第二均差DiffUpperMean＝[u ₁,u ₂,u ₃…,u _N]，逐个比较第一均差和第二均差，确定l _i＜u _i的数量k，i＝1,2,3，…，N，将参考聚焦索引更新为k，并在依次排列的N个样本的检测数据中，将参考聚焦值更新为第k个检测数据的值。

例如，以样本的数量N为1000，样本的检测数据为异常率Ratio为例，数据处理装置将SortedData中的1000个数据分别与Mean _l作差并取绝对值，得到第一均差DiffLowerMean＝[l ₁,l ₂,l ₃…,l ₁₀₀₀]，将SortedData中的1000个数据分别与Mean _u作差并取绝对值，得到第二均差DiffUpperMean＝[u ₁,u ₂,u ₃…,u ₁₀₀₀]，逐个依次比较DiffLowerMean中的第i个数值l _i与DiffUpperMean中的第i个数值u _i的大小。比如，依次比较DiffLowerMean中的第1个数值l ₁与DiffUpperMean中的第1个数值u ₁的大小，比较DiffLowerMean中的第2个数值l ₂与DiffUpperMean中的第2个数值u ₂的大小，比较DiffLowerMean中的第3个数值l ₃与DiffUpperMean中的第3个数值u ₃的大小，依次类推，确定l _i＜u _i的数量k(以k为700为例)，并将参考聚焦索引FocusIndex确定为700，并将参考聚焦值更新为数组SortedData中第700个异常率x ₇₀₀。

步骤c、重复步骤a和步骤b，直至更新前后参考聚焦索引的值不变，在依次排列的N个样本的检测数据中，基于该参考聚焦索引对应的检测数据确定第二聚焦阈值。

例如，继续执行步骤a，数据处理装置根据参考聚焦值x ₇₀₀，将SortedData中x ₁至x ₇₀₀求平均得到Mean _l，计算SortedData中x ₇₀₀至x ₁₀₀₀求平均得到Mean _u。步骤b、数据处理装置将SortedData中的1000个数据分别与Mean _l作差并取绝对值，得到第一均差DiffLowerMean＝[l ₁,l ₂,l ₃…,l ₁₀₀₀]，将SortedData中的1000个数据分别与Mean _u作差并取绝对值，得到第二均差DiffUpperMean＝[u ₁,u ₂,u ₃…,u ₁₀₀₀]，逐个依次比较DiffLowerMean中的第i个数值l _i与DiffUpperMean中的第i个数值u _i的大小。确定l _i＜u _i的数量k(以k为750为例)，并将参考聚焦索引FocusIndex确定为750，并将参考聚焦值更新为数组SortedData中第750个异常率x ₇₅₀。然后再以参考聚焦值x ₇₅₀，继续执行步骤a和步骤b，如果确定l _i＜u _i的数量k仍为750，那么确定参考聚焦索引FocusIndex为750，并基于数组SortedData中第750个异常率x ₇₅₀确定第二聚焦阈值。

可选的，数据处理装置基于不变的参考聚焦索引对应的检测数据确定第二聚焦阈值时，可以将该参考聚焦索引对应的检测数据确定为第二聚焦阈值。也可以将该参考聚焦索引对应的检测数据与其前一个检测数据求平均得到第二聚焦阈值。本公开对基于参考聚焦索引对应的检测数据确定第二聚焦阈值的具体方法并不限定。

例如，以更新前后参考聚焦索引的值均为750为例，数据处理装置可以将数组SortedData中第750个异常率x ₇₅₀确定为第二聚焦阈值。也可以将数组SortedData中第749个异常率x ₇₄₉与第750个异常率x ₇₅₀求平均得到确定第二聚焦阈值。

S2033、在图形界面的样本分布图中显示第二聚焦阈值标记，并基于第二聚焦阈值区分正负样本的数据显示效果。

例如，以样本的检测数据为异常率Ratio为例，如图6所示，图形界面中显示第二聚焦阈值的标记，该第二聚焦阈值可以区分正负样本，第二聚焦阈值以上的黑色圆点为负样本，第二聚焦阈值以下的灰色圆点为正样本。

可以理解的，第二种实现方式通过数据处理装置根据样本的检测数据确定第二聚焦阈值，并基于该第二聚焦阈值进行正负样本的划分，使得根据该正负样本进行的数据分析更准确。

可以理解的，本公开实施例通过数据处理装置基于样本的检测数据确定聚焦阈值，或者，通过接收用户对第一聚焦阈值的设置操作获取聚焦阈值，基于该聚焦阈值能够合理的划分正负样本，从而使得数据分析的准确性更高。

S204、基于正负样本，确定样本异常的原因。

示例性的，数据处理装置基于聚焦阈值划分正负样本后，基于该正负样本中的异常样本进行样本特征分析或机器学习模型的训练，能更准确的分析样本数据或训练模型。

在本公开的实施例中，基于正负样本，确定样本异常的原因包括基于正负样本进行样本特征分析，利用WOE、皮尔逊相关性分析、决策树算法等统计分析方法对引起样本异常检测结果的特征数据进行分析，从而得到特征数据对检测结果的影响程度。在本公开的另一个实施例中，基于正负样本，确定样本异常的原因还包括基于正负样本的划分，作为输入数据，利用逻辑回归、随机森林、LGBM、Xgboost、CatBoost等机器学习模型进行训练，从而获得样本异常预测模型以及样本特征数据的重要性排序。本公开对于基于正负样本，确定样本异常的原因的具体方法并不限定，在此仅是示例性说明。

本公开实施例提供的数据处理方法，数据处理装置基于样本的检测数据确定聚焦阈值，并在图形界面的样本分布图中显示基于聚焦阈值区分正负样本的数据显示效果。即本公开实施例能够合理的划分正负样本，从而根据划分的正负样本能更准确的分析样本数据或训练模型，以使得确定的样本异常原因或模型的准确度较高。

图7为本公开提供的另一数据处理方法，该方法除上述步骤S201-S204以外，还可以包括步骤S205。

S205、基于用户对过滤阈值的过滤操作，对样本数据进行筛选，并在图形界面显示筛选后的样本的分布图。

其中，过滤阈值包括异常率阈值、到达率阈值、生产设备阈值、环境参数阈值、检测时间阈值、或生成时间阈值中的至少一种。

可选的，步骤S205可以在步骤S203之前执行，也可以在步骤S203之后执行，本公开对此并不限定，图7以步骤S205在步骤S203之前执行为例进行示意。可以理解的，当步骤S205在步骤S203之前执行时，数据处理装置可以基于过滤阈值对样本数据进行筛选，并基于筛选以后的样本的检测数据确定聚焦阈值，并基于该聚焦阈值划分正负样本，再基于正负样本，确定样本异常的原因。当步骤S205在步骤S203之后执行时，数据处理装置可以基于过滤阈值对样本数据进行筛选，并基于筛选以后的样本的检测数据重新确定聚焦阈值，并基于该重新确定的聚焦阈值划分正负样本，再基于该正负样本，确定样本异常的原因。

可选的，上述过滤操作可以包括设定操作和选择操作。该选择操作可以包括框选操作。

可选的，上述过滤阈值中的每个阈值可以包括一个数值，也可以包括多个数值，本公开对此并不限定。

示例性的，以过滤阈值包括异常率阈值为例，该异常率用于指示每个样本中异常子样本的数量占该样本包括的子样本总数量的比例。由于数据处理装置获取的样本数据量较大，因此用户可以设定异常率阈值，数据处理装置基于用户设定的异常率阈值，可以对样本数据进行筛选，过滤掉异常率低于异常率阈值的样本。可以理解的，通过删除异常率过低，没有参考价值的样本，能够提高样本分析的可靠性。

示例性的，以过滤阈值包括到达率阈值为例，该到达率用于指示每个样本中实际检测的子样本数量占该样本包括的子样本总数量的比例。由于每个样本中可能有部分子样本未到达检测站点进行检测，因此实际检测的子样本数量可能小于样本包括的子样本的总数量。故对于异常率较低的样本，有可能是因为部分子样本未被检测，导致样本的异常率较低。也就是说，在样本的到达率较低的情况下，由于该样本包括的大部分子样本未到达检测站点进行检测，因此该样本的异常率的准确度较低。为了提高样本异常率的准确度，可以将到达率较低的样本过滤掉，保留到达率较高的样本，以确保样本分析的可靠性较高。

例如，以样本为玻璃GLASS为例，每张玻璃经过各工序后可以切割成多个面板panel，各个panel再进入检测站点进行缺陷检测。每张Glass的到达率为每张Glass中到达检测站点的Panel数与切割的总Panel数的比例，每张Glass的异常率是检测的异常Panel数与切割的总Panel数的比例。为了提高异常率的准确度，避免因部分Panel未到达检测站点进行检测，而导致Glass的异常率较低的情况出现，用户可以根据经验设置到达率阈值(例如，到达率阈值为0.9)，数据处理装置基于用户设定的到达率阈值，对样本数据进行筛选，过滤掉到达率低于到达率阈值0.9的样本。

示例性的，以过滤阈值包括生产设备阈值和环境参数阈值为例，为了方便用户缩小样本分析范围，用户可以设定生产设备阈值和环境参数阈值，数据处理装置基于用户设定的生产设备阈值和环境参数阈值，可以对样本数据进行筛选，过滤掉不满足生产设备阈值和环境参数阈值的样本，保留满足生产设备阈值和环境参数阈值的样本。可以理解的，数据处理装置通过删除对分析无用的样本，可以提升诊断分析数据的纯度，提高数据分析的准确率。

例如，如图8所示，为了缩小样本分析范围，提升数据分析的可靠性，用户可以输入生产设备阈值和环境参数阈值的设定操作后，响应于用户的设定操作，数据处理装置的显示界面上显示过滤掉的样本(图8中颜色最浅的灰色圆点)，并过滤掉该样本，过滤以后的样本个数及分布会发生变化，可以进一步结合步骤S203重新获取聚焦阈值。

示例性的，以过滤阈值包括检测时间阈值为例，用户可以选择检测时间阈值，数据处理装置基于用户选择的检测时间阈值，删除检测时间满足用户选择的检测时间阈值的样本。或者，也可以删除检测时间不满足用户选择的检测时间阈值的样本。

例如，如图9所示，用户输入检测时间阈值的框选操作后，响应于用户的框选操作，数据处理装置的显示界面上显示用户框选的检测时间阈值，删除检测时间满足用户选择的检测时间的样本，并基于聚焦阈值对筛选后的样本划分正负样本。

示例性的，以过滤阈值包括生成时间阈值为例，用户可以选择生成时间阈值，数据处理装置基于用户选择的生成时间，删除生成时间满足用户选择的生成时间阈值的样本。或者，也可以删除生成时间不满足用户选择的生成时间阈值的样本。

例如，如图10所示，用户输入生成时间阈值的设定操作后，响应于用户的设定操作，数据处理装置过滤掉生成时间不符合用户设定的生成时间的样本，并在显示界面上显示生成时间符合用户设定的生成时间的样本，并基于聚焦阈值对筛选后的样本划分正负样本。

可以理解的，在过滤阈值包括异常率阈值、到达率阈值、生产设备阈值、环境参数阈值、检测时间阈值、或生成时间阈值中的多个阈值的情况下，数据处理装置可以基于用户设置的多个阈值，依次对样本数据进行过滤。本公开对于数据处理装置基于多个过滤阈值筛选样本的先后顺序并不限定。

本公开实施例提供的数据处理方法，数据处理装置基于过滤阈值对样本数据进行筛选，并基于筛选以后的样本的检测数据确定聚焦阈值，并在图形界面的样本分布图中显示基于聚焦阈值区分正负样本的数据显示效果。即本公开实施例通过对样本数据进行筛选，能够过滤一部分没有参考价值或者影响样本分析结果的准确度的样本，能够提升样本数据的可靠性，使得样本分析的结果更加可靠。而且通过合理的划分正负样本，从而根据划分的正负样本能更准确的分析样本数据或训练模型，以使得确定的样本异常原因或模型的准确度较高。

图11为本公开实施例提供的另一种数据处理方法，如图11所示，该方法包括以下步骤：

S1101、获取样本数据。

该样本数据包括样本的特征数据和检测数据。

可以理解的，步骤S1101的具体实现方式可以参考步骤S201，在此不再赘述。

S1102、基于样本的检测数据，确定聚焦阈值。

可选的，如图12所示，数据处理装置基于样本的检测数据，确定聚焦阈值，可以包括步骤S11021-S11022。

S11021、将N个样本的检测数据按照从小到大依次排列，并将N个样本的检测数据的中位数或均值作为参考聚焦值。

其中，

表示对N/2向上取整。

再例如，数据处理装置将N个样本的检测数据的均值作为参考聚焦值时，参考聚焦索引可以为与该均值最为接近的检测数据的索引。

本公开实施例对参考聚焦值的具体确定方法并不限定，下述实施例以参考聚焦索引为

参考聚焦值为第

个检测数据为例进行说明。

示例性的，数据处理装置可以取样本总数的中间值作为参考聚焦索引FocusIndex。例如，如果样本总数为偶数，取N/2为参考聚焦索引FocusIndex。如果样本总数为奇数，取中间值

为参考聚焦索引FocusIndex。

S11022、基于参考聚焦值以及N个样本的检测数据，确定第二聚焦阈值。

示例性的，步骤S11022中基于参考聚焦值以及N个样本的检测数据，确定第二聚焦阈值，可以包括以下步骤：

S1103、基于聚焦阈值，将样本划分为正负样本。

可选的，数据处理装置可以基于样本的检测数据与聚焦阈值的大小关系，将样本划分为正负样本。

示例性的，在聚焦阈值可以为一个数值的情况下，数据处理装置可以基于样本的检测数据与聚焦阈值的大小关系，将检测数据大于该聚焦阈值的样本划分为负样本，将检测数据小于该聚焦阈值的样本划分为正样本。数据处理装置也可以基于样本的检测数据与聚焦阈值的大小关系，将检测数据大于该聚焦阈值的样本划分为正样本，将检测数据小于该聚焦阈值的样本划分为负样本。

示例性的，在聚焦阈值可以为一个数值范围的情况下，数据处理装置可以基于样本的检测数据是否在该数值范围内，将检测数据在该数值范围内的样本划分为负样本，将检测数据在该数值范围外的样本划分为正样本。数据处理装置也可以基于样本的检测数据是否在该数值范围内，将检测数据在该数值范围内的样本划分为正样本，将检测数据在该数值范围外的样本划分为负样本。

S1104、基于正负样本，确定样本异常的原因。

在本公开的实施例中，基于正负样本，确定样本异常的原因包括基于正负样本进行样本特征分析，利用WOE、皮尔逊相关性分析、决策树算法等统计分析方法对引起样本异常检测结果的特征数据进行分析，从而得到特征数据对检测结果的影响程度。在本公开的另一个实施例中，基于正负样本，确定样本异常的原因还包括基于正负样本的划分，作为输入数据，利用逻辑回归、随机森林、LGBM、Xgboost、CatBoost等机器学习模型进行训练，从而获得样本异常预测模型以及样本特征数据的重要性排序。

本公开实施例提供的数据处理方法，数据处理装置基于样本的检测数据确定聚焦阈值，基于该聚焦阈值，能够合理的划分正负样本，从而根据划分的正负样本能更准确的分析样本数据或训练模型，以使得确定的样本异常原因或模型的准确度较高。

图13为本公开提供的另一数据处理方法，该方法除上述步骤S1101-S1104以外，还可以包括步骤S1105。

S1105、基于过滤阈值，对样本数据进行筛选。

可选的，步骤S1105可以在步骤S1102之前执行，也可以在步骤S1102之后执行，本公开对此并不限定，图13以步骤S1105在步骤S1102之前执行为例进行示意。可以理解的，当步骤S1105在步骤S1102之前执行时，数据处理装置可以基于过滤阈值对样本数据进行筛选，并基于筛选以后的样本的检测数据确定聚焦阈值，并基于该聚焦阈值划分正负样本，再基于正负样本，确定样本异常的原因。当步骤S1105在步骤S1102之后执行时，数据处理装置可以基于过滤阈值对样本数据进行筛选，并基于筛选以后的样本的检测数据重新确定聚焦阈值，并基于该重新确定的聚焦阈值划分正负样本，再基于该正负样本，确定样本异常的原因。

可以理解的，步骤S1105的具体实现方式可以参考步骤S205，在此不再赘述。

本公开实施例提供的数据处理方法，数据处理装置基于过滤阈值对样本数据进行筛选，并基于筛选以后的样本的检测数据确定聚焦阈值，基于聚焦阈值划分正负样本。即本公开实施例通过对样本数据进行筛选，能够过滤一部分没有参考价值或者影响样本分析结果的准确度的样本，能够提升样本数据的可靠性，使得样本分析的结果更加可靠。而且通过合理的划分正负样本，从而根据划分的正负样本能更准确的分析样本数据或训练模型，以使得确定的样本异常原因或模型的准确度较高。

上述主要从方法的角度对本公开实施例提供的方案进行了介绍。为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，本公开能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本公开的范围。

本公开实施例还提供一种数据处理装置。如图14所示，为本公开实施例提供的一种数据处理装置的结构图。数据处理装置140用于执行上述实施例中任一实施例所述的数据处理方法。数据处理装置140可以包括：获取模块141、显示模块142、确定模块143和筛选模块144。

其中，获取模块141，用于响应于用户在图形界面的输入操作，获取样本数据。该样本数据包括样本的特征数据和检测数据。显示模块142，用于基于样本数据，在图形界面显示样本分布图。获取模块141，还用于获取用于划分正负样本的聚焦阈值。显示模块142，还用于基于获取模块141获取的聚焦阈值，在图形界面的样本分布图中显示聚焦阈值标记，并基述聚焦阈值区分正负样本的数据显示效果。其中，聚焦阈值基于样本的检测数据确定。确定模块143，用于基于正负样本，确定样本异常的原因。

可选的，样本的特征数据包括产品型号、检测站点、异常类型、到达率、生产设备、环境参数、检测时间、或生成时间中的至少一种。

可选的，样本的检测数据包括异常率或测量参数中的至少一种。

在一些实施例中，聚焦阈值包括第二聚焦阈值，以样本的数量为N为例，获取模块141，具体用于将N个样本的检测数据按照从小到大依次排列，并将N个样本的检测数据的中位数或均值作为参考聚焦值；基于参考聚焦值以及N个样本的检测数据，确定第二聚焦阈值。显示模块142，具体用于在图形界面的样本分布图中显示第二聚焦阈值标记，并基于第二聚焦阈值区分正负样本的数据显示效果。

另一些实施例中，获取模块141，具体还用于执行以下步骤：步骤a、将N个样本的检测数据中小于或等于参考聚焦值的检测数据求平均得到第一均值Mean _l，将N个样本的检测数据中大于参考聚焦值的检测数据求平均得到第二均值Mean _u。步骤b、将依次排列的N个样本的检测数据逐个与第一均值Mean _l作差并取绝对值，得到第一均差DiffLowerMean＝[l ₁,l ₂,l ₃…,l _N]，将依次排列的N个样本的检测数据逐个与第二均值Mean _u作差并取绝对值，得到第二均差DiffUpperMean＝[u ₁,u ₂,u ₃…,u _N]，逐个比较第一均差和第二均差，确定l _i＜u _i的数量k，i＝1,2,3，…，N，将参考聚焦索引更新为k，并在依次排列的N个样本的检测数据中，将参考聚焦值更新为第k个检测数据的值。步骤c、重复步骤a和步骤b，直至更新前后参考聚焦索引的值不变，在依次排列的N个样本的检测数据中，基于该参考聚焦索引对应的检测数据确定第二聚焦阈值。

另一些实施例中，聚焦阈值包括第一聚焦阈值，该第一聚焦阈值为一个或多个。获取模块141，具体还用于接收用户对第一聚焦阈值的设定操作。显示模块142，还用于在图形界面的样本分布图中显示第一聚焦阈值标记，并基于第一聚焦阈值区分正负样本的数据显示效果。

另一些实施例中，第一聚焦阈值包括第一数值，显示模块142，具体用于基于样本的检测数据与第一数值的大小关系区分正负样本的数据显示效果。

另一些实施例中，第一聚焦阈值包括第二数值和第三数值，第二数值小于第三数值，显示模块142，具体还用于基于样本的检测数据是否大于第二数值且小于第三数值区分正负样本的数据显示效果。

另一些实施例中，筛选模块144，用于基于用户对过滤阈值的过滤操作，对样本数据进行筛选。显示模块142，还用于在图形界面显示筛选后的样本的分布图。

其中，过滤阈值包括异常率阈值、到达率阈值、生产设备阈值、环境参数阈值、检测时间阈值、或生成时间阈值中的至少一种；样本包括多个子样本，异常率用于指示每个样本中异常子样本的数量占该样本包括的子样本总数量的比例；到达率用于指示每个样本中实际检测的子样本数量占该样本包括的子样本总数量的比例。

可选的，过滤操作包括设定操作和选择操作。

当然，本公开实施例提供的数据处理装置140包括但不限于上述模块。

本公开实施例还提供一种数据处理装置。如图15所示，为本公开实施例提供的一种数据处理装置的结构图。数据处理装置150用于执行上述实施例中任一实施例的数据处理方法。数据处理装置150可以包括：获取模块151、确定模块152、划分模块153和筛选模块154。

其中，获取模块151，用于获取样本数据，该样本数据包括样本的特征数据和检测数据。确定模块152，用于基于样本的检测数据，确定聚焦阈值。划分模块153，用于基于确定模块确定的聚焦阈值，将样本划分为正负样本。确定模块152，还用于基于正负样本，确定样本异常的原因。

在一些实施例中，聚焦阈值包括第二聚焦阈值，样本的数量为N，确定模块152，具体用于：将N个样本的检测数据按照从小到大依次排列，并将N个样本的检测数据的中位数或均值作为参考聚焦值；基于参考聚焦值以及N个样本的检测数据，确定第二聚焦阈值。

另一些实施例中，确定模块152，具体还用于执行以下步骤：步骤a、将N个样本的检测数据中小于或等于参考聚焦值的检测数据求平均得到第一均值Mean _l，将N个样本的检测数据中大于参考聚焦值的检测数据求平均得到第二均值Mean _u。步骤b、将依次排列的N个样本的检测数据逐个与第一均值Mean _l作差并取绝对值，得到第一均差DiffLowerMean＝[l ₁,l ₂,l ₃…,l _N]，将依次排列的N个样本的检测数据逐个与第二均值Mean _u作差并取绝对值，得到第二均差DiffUpperMean＝[u ₁,u ₂,u ₃…,u _N]，逐个比较第一均差和第二均差，确定l _i＜u _i的数量k，i＝1,2,3，…，N，将参考聚焦索引更新为k，并在依次排列的N个样本的检测数据中，将参考聚焦值更新为第k个检测数据的值。步骤c、重复步骤a和步骤b，直至更新前后参考聚焦索引的值不变，在依次排列的N个样本的检测数据中，基于该参考聚焦索引对应的检测数据确定第二聚焦阈值。

另一些实施例中，筛选模块154，用于基于过滤阈值，对样本数据进行筛选。其中，过滤阈值包括异常率阈值、到达率阈值、生产设备阈值、环境参数阈值、检测时间阈值、或生成时间阈值中的至少一种；样本包括多个子样本，异常率用于指示每个样本中异常子样本的数量占该样本包括的子样本总数量的比例；到达率用于指示每个样本中实际检测的子样本数量占该样本包括的子样本总数量的比例。

本公开另一实施例还提供一种数据处理装置。如图16所示，数据处理装置160包括存储器161和处理器162；存储器161和处理器162耦合；存储器161用于存储计算机程序代码，计算机程序代码包括计算机指令。其中，当处理器162执行计算机指令时，使得数据处理装置160执行上述方法实施例所示的方法流程中数据处理装置执行的各个步骤。

在实际实现时，获取模块141、显示模块142、确定模块143和筛选模块144可以由图16所示的处理器162调用存储器161中的计算机程序代码来实现。其具体的执行过程可参考图2、图3、图7所示的数据处理方法部分的描述，这里不再赘述。

本公开另一实施例还提供一种数据处理装置。如图17所示，数据处理装置170包括存储器171和处理器172；存储器171和处理器172耦合；存储器171用于存储计算机程序代码，计算机程序代码包括计算机指令。其中，当处理器172执行计算机指令时，使得数据处理装置170执行上述方法实施例所示的方法流程中数据处理装置执行的各个步骤。

在实际实现时，获取模块151、确定模块152、划分模块153和筛选模块154可以由图17所示的处理器172调用存储器171中的计算机程序代码来实现。其具体的执行过程可参考图11、图12、图13所示的数据处理方法部分的描述，这里不再赘述。

本公开的一些实施例提供了一种计算机可读存储介质(例如，非暂态计算机可读存储介质)，该计算机可读存储介质中存储有计算机程序指令，计算机程序指令在处理器上运行时，使得处理器执行如上述实施例中任一实施例所述的数据处理方法中的一个或多个步骤。

示例性的，上述计算机可读存储介质可以包括，但不限于：磁存储器件(例如，硬盘、软盘或磁带等)，光盘(例如，CD(Compact Disk，压缩盘)、DVD(Digital Versatile Disk，数字通用盘)等)，智能卡和闪存器件(例如，EPROM(Erasable Programmable Read-Only Memory，可擦写可编程只读存储器)、卡、棒或钥匙驱动器等)。本公开描述的各种计算机可读存储介质可代表用于存储信息的一个或多个设备和/或其它机器可读存储介质。术语“机器可读存储介质”可包括但不限于，无线信道和能够存储、包含和/或承载指令和/或数据的各种其它介质。

本公开的一些实施例还提供了一种计算机程序产品。该计算机程序产品包括计算机程序指令，在计算机上执行该计算机程序指令时，该计算机程序指令使计算机执行如上述实施例所述的数据处理方法中的一个或多个步骤。

本公开的一些实施例还提供了一种计算机程序。当该计算机程序在计算机上执行时，该计算机程序使计算机执行如上述实施例所述的数据处理方法中的一个或多个步骤。

上述计算机可读存储介质、计算机程序产品及计算机程序的有益效果和上述一些实施例所述的数据处理方法的有益效果相同，此处不再赘述。

以上所述，仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，想到变化或替换，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应以所述权利要求的保护范围为准。

Claims

一种数据处理方法，所述方法包括：

响应于用户在图形界面的输入操作，获取样本数据，所述样本数据包括样本的特征数据和检测数据；

基于所述样本数据，在图形界面显示样本分布图；

获取用于划分正负样本的聚焦阈值，在图形界面的样本分布图中显示所述聚焦阈值标记，并基于所述聚焦阈值区分正负样本的数据显示效果；其中，所述聚焦阈值基于所述样本的检测数据确定；

基于所述正负样本，确定所述样本异常的原因。
根据权利要求1所述的方法，所述聚焦阈值包括第一聚焦阈值，所述第一聚焦阈值为一个或多个，所述获取用于划分正负样本的聚焦阈值，在图形界面的样本分布图中显示所述聚焦阈值标记，并基于所述聚焦阈值区分正负样本的数据显示效果，包括：

接收用户对所述第一聚焦阈值的设定操作，在图形界面的样本分布图中显示所述第一聚焦阈值标记，并基于所述第一聚焦阈值区分正负样本的数据显示效果。
根据权利要求2所述的方法，所述第一聚焦阈值包括第一数值，所述基于所述第一聚焦阈值区分正负样本的数据显示效果，包括：

基于所述样本的检测数据与所述第一数值的大小关系区分所述正负样本的数据显示效果。
根据权利要求2所述的方法，所述第一聚焦阈值包括第二数值和第三数值，所述第二数值小于所述第三数值，所述基于所述第一聚焦阈值区分正负样本的数据显示效果，包括：

基于所述样本的检测数据是否大于所述第二数值且小于所述第三数值区分所述正负样本的数据显示效果。
根据权利要求1-4中任一项所述的方法，所述方法还包括：

基于用户对过滤阈值的过滤操作，对所述样本数据进行筛选，并在图形界面显示筛选后的样本的分布图。
根据权利要求5所述的方法，所述过滤阈值包括异常率阈值、到达率阈值、生产设备阈值、环境参数阈值、检测时间阈值、或生成时间阈值中的至少一种；所述样本包括多个子样本，所述异常率用于指示每个样本中异常子样本的数量占该样本包括的子样本总数量的比例；所述到达率用于指示每个样本中实际检测的子样本数量占该样本包括的子样本总数量的比例。
根据权利要求5或6所述的方法，所述过滤操作包括设定操作和选择操作。
根据权利要求1-7中任一项所述的方法，所述样本的特征数据包括产品型号、检测站点、异常类型、到达率、生产设备、环境参数、检测时间、或生成时间中的至少一种。
根据权利要求1-8中任一项所述的方法，所述样本的检测数据包括异常率或测量参数中的至少一种。
根据权利要求1-9中任一项所述的方法，所述聚焦阈值还包括第二聚焦阈值，所述样本的数量为N，所述获取用于划分正负样本的聚焦阈值，在图形界面的样本分布图中显示所述聚焦阈值标记，并基于所述聚焦阈值区分正负样本的数据显示效果，包括：

将N个所述样本的检测数据按照从小到大依次排列，并将N个所述样本的检测数据的中位数或均值作为参考聚焦值；

基于所述参考聚焦值以及所述N个所述样本的检测数据，确定所述第二聚焦阈值；

在图形界面的样本分布图中显示所述第二聚焦阈值标记，并基于所述第二聚焦阈值区分正负样本的数据显示效果。
根据权利要求10所述的方法，所述基于所述参考聚焦值以及所述N个所述样本的检测数据，确定所述第二聚焦阈值，包括以下步骤：

步骤a、将所述N个样本的检测数据中小于或等于所述参考聚焦值的检测数据求平均得到第一均值Mean _l，将所述N个样本的检测数据中大于所述参考聚焦值的检测数据求平均得到第二均值Mean _u；

步骤b、将依次排列的所述N个样本的检测数据逐个与所述第一均值Mean _l作差并取绝对值，得到第一均差DiffLowerMean＝[l ₁,l ₂,l ₃…,l _N]，将依次排列的所述N个样本的检测数据逐个与所述第二均值Mean _u作差并取绝对值，得到第二均差DiffUpperMean＝[u ₁,u ₂,u ₃…,u _N]，逐个比较所述第一均差和所述第二均差，确定l _i＜u _i的数量k，i＝1,2,3，…，N，将参考聚焦索引更新为k，并在依次排列的所述N个样本的检测数据中，将所述参考聚焦值更新为第k个检测数据的值；

步骤c、重复步骤a和步骤b，直至更新前后所述参考聚焦索引的值不变，在依次排列的所述N个样本的检测数据中，基于该参考聚焦索引对应的检测数据确定所述第二聚焦阈值。
一种数据处理方法，所述方法包括：

获取样本数据，所述样本数据包括样本的特征数据和检测数据；

基于所述样本的检测数据，确定聚焦阈值；

基于所述聚焦阈值，将所述样本划分为正负样本；

基于所述正负样本，确定所述样本异常的原因。
根据权利要求12所述的方法，所述聚焦阈值包括第二聚焦阈值，所述样本的数量为N，所述根据所述样本的检测数据，确定聚焦阈值，包括：

将N个所述样本的检测数据按照从小到大依次排列，并将N个所述样本的检测数据的中位数或均值作为参考聚焦值；

基于所述参考聚焦值以及所述N个所述样本的检测数据，确定所述第二聚焦阈值。
根据权利要求13所述的方法，所述基于所述参考聚焦值以及所述N个所述样本的检测数据，确定所述第二聚焦阈值，包括以下步骤：

步骤a、将所述N个样本的检测数据中小于或等于所述参考聚焦值的检测数据求平均得到第一均值Mean _l，将所述N个样本的检测数据中大于所述参考聚焦值的检测数据求平均得到第二均值Mean _u；

步骤b、将依次排列的所述N个样本的检测数据逐个与所述第一均值Mean _l作差并取绝对值，得到第一均差DiffLowerMean＝[l ₁,l ₂,l ₃…,l _N]，将依次排列的所述N个样本的检测数据逐个与所述第二均值Mean _u作差并取绝对值，得到第二均差DiffUpperMean＝[u ₁,u ₂,u ₃…,u _N]，逐个比较所述第一均差和所述第二均差，确定l _i＜u _i的数量k，i＝1,2,3，…，N，将参考聚焦索引更新为k，并在依次排列的所述N个样本的检测数据中，将所述参考聚焦值更新为第k个检测数据的值；

步骤c、重复步骤a和步骤b，直至更新前后所述参考聚焦索引的值不变，在依次排列的所述N个样本的检测数据中，基于该参考聚焦索引对应的检测数据确定所述第二聚焦阈值。
根据权利要求12-14中任一项所述的方法，所述方法还包括：

基于过滤阈值，对所述样本数据进行筛选。
根据权利要求15所述的方法，所述过滤阈值包括异常率阈值、到达率阈值、生产设备阈值、环境参数阈值、检测时间阈值、或生成时间阈值中的至少一种；所述样本包括多个子样本，所述异常率用于指示每个样本中异常子样本的数量占该样本包括的子样本总数量的比例；所述到达率用于指示每个样本中实际检测的子样本数量占该样本包括的子样本总数量的比例。
根据权利要求12-16中任一项所述的方法，所述样本的特征数据包括产品型号、检测站点、异常类型、到达率、生产设备、环境参数、检测时间、或生成时间中的至少一种。
根据权利要求12-17中任一项所述的方法，所述样本的检测数据包括异常率或测量参数中的至少一种。
一种数据处理装置，所述装置包括：

获取模块，用于响应于用户在图形界面的输入操作，获取样本数据，所述样本数据包括样本的特征数据和检测数据；

显示模块，用于基于所述获取模块获取的样本数据，在图形界面显示样本分布图；

所述获取模块，还用于获取用于划分正负样本的聚焦阈值；

所述显示模块，还用于基于所述获取模块获取的所述聚焦阈值，在图形界面的样本分布图中显示所述聚焦阈值标记，并基于所述聚焦阈值区分正负样本的数据显示效果；其中，所述聚焦阈值基于所述样本的检测数据确定；

确定模块，用于基于所述正负样本，确定所述样本异常的原因。
根据权利要求19所述的装置，所述聚焦阈值包括第一聚焦阈值，所述第一聚焦阈值为一个或多个；

所述获取模块，具体还用于接收用户对所述第一聚焦阈值的设定操作；

所述显示模块，还用于在图形界面的样本分布图中显示所述第一聚焦阈值标记，并基于所述第一聚焦阈值区分正负样本的数据显示效果。
根据权利要求20所述的装置，所述第一聚焦阈值包括第一数值，所述显示模块，具体用于：

基于所述样本的检测数据与所述第一数值的大小关系区分所述正负样本的数据显示效果。
根据权利要求20所述的装置，所述第一聚焦阈值包括第二数值和第三数值，所述第二数值小于所述第三数值，所述显示模块，具体还用于：

基于所述样本的检测数据是否大于所述第二数值且小于所述第三数值区分所述正负样本的数据显示效果。
根据权利要求19-22中任一项所述的装置，所述数据处理装置还包括筛选模块；

所述筛选模块，用于基于用户对过滤阈值的过滤操作，对所述样本数据进行筛选；

所述显示模块，还用于在图形界面显示筛选后的样本的分布图。
根据权利要求23所述的装置，所述过滤阈值包括异常率阈值、到达率阈值、生产设备阈值、环境参数阈值、检测时间阈值、或生成时间阈值中的至少一种；所述样本包括多个子样本，所述异常率用于指示每个样本中异常子样本的数量占该样本包括的子样本总数量的比例；所述到达率用于指示每个样本中实际检测的子样本数量占该样本包括的子样本总数量的比例。
根据权利要求23或24所述的装置，所述过滤操作包括设定操作和选择操作。
根据权利要求19-25中任一项所述的装置，所述样本的特征数据包括产品型号、检测站点、异常类型、到达率、生产设备、环境参数、检测时间、或生成时间中的至少一种。
根据权利要求19-26中任一项所述的装置，所述样本的检测数据包括异常率或测量参数中的至少一种。
根据权利要求19-27中任一项所述的装置，所述聚焦阈值还包括第二聚焦阈值，所述样本的数量为N，所述获取模块，具体用于：

将N个所述样本的检测数据按照从小到大依次排列，并将N个所述样本的检测数据的中位数或均值作为参考聚焦值；

基于所述参考聚焦值以及所述N个所述样本的检测数据，确定所述第二聚焦阈值；

在图形界面的样本分布图中显示所述第二聚焦阈值标记，并基于所述第二聚焦阈值区分正负样本的数据显示效果。
根据权利要求28所述的装置，所述获取模块，具体还用于执行以下步骤：

步骤a、将所述N个样本的检测数据中小于或等于所述参考聚焦值的检测数据求平均得到第一均值Mean _l，将所述N个样本的检测数据中大于所述参考聚焦值的检测数据求平均得到第二均值Mean _u；

步骤b、将依次排列的所述N个样本的检测数据逐个与所述第一均值Mean _l作差并取绝对值，得到第一均差DiffLowerMean＝[l ₁,l ₂,l ₃…,l _N]，将依次排列的所述N个样本的检测数据逐个与所述第二均值Mean _u作差并取绝对值，得到第二均差DiffUpperMean＝[u ₁,u ₂,u ₃…,u _N]，逐个比较所述第一均差和所述第二均差，确定l _i＜u _i的数量k，i＝1,2,3，…，N，将参考聚焦索引更新为k，并在依次排列的所述N个样本的检测数据中，将所述参考聚焦值更新为第k个检测数据的值；

步骤c、重复步骤a和步骤b，直至更新前后所述参考聚焦索引的值不变，在依次排列的所述N个样本的检测数据中，基于该参考聚焦索引对应的检测数据确定所述第二聚焦阈值。
一种数据处理装置，所述装置包括：

获取模块，用于获取样本数据，所述样本数据包括样本的特征数据和检测数据；

确定模块，用于基于所述样本的检测数据，确定聚焦阈值；

划分模块，用于基于所述聚焦阈值，将所述样本划分为正负样本；

所述确定模块，还用于基于所述正负样本，确定所述样本异常的原因。
根据权利要求30所述的装置，所述聚焦阈值包括第二聚焦阈值，所述样本的数量为N，所述确定模块，具体用于：

将N个所述样本的检测数据按照从小到大依次排列，并将N个所述样本的检测数据的中位数或均值作为参考聚焦值；

基于所述参考聚焦值以及所述N个所述样本的检测数据，确定所述第二聚焦阈值。
根据权利要求31所述的装置，所述确定模块，具体还用于执行以下步骤：

步骤a、将所述N个样本的检测数据中小于或等于所述参考聚焦值的检测数据求平均得到第一均值Mean _l，将所述N个样本的检测数据中大于所述参考聚焦值的检测数据求平均得到第二均值Mean _u；

步骤b、将依次排列的所述N个样本的检测数据逐个与所述第一均值Mean _l作差并取绝对值，得到第一均差DiffLowerMean＝[l ₁,l ₂,l ₃…,l _N]，将依次排列的所述N个样本的检测数据逐个与所述第二均值Mean _u作差并取绝对值，得到第二均差DiffUpperMean＝[u ₁,u ₂,u ₃…,u _N]，逐个比较所述第一均差和所述第二均差，确定l _i＜u _i的数量k，i＝1,2,3，…，N，将参考聚焦索引更新为k，并在依次排列的所述N个样本的检测数据中，将所述参考聚焦值更新为第k个检测数据的值；

步骤c、重复步骤a和步骤b，直至更新前后所述参考聚焦索引的值不变，在依次排列的所述N个样本的检测数据中，基于该参考聚焦索引对应的检测数据确定所述第二聚焦阈值。
根据权利要求30-32中任一项所述的装置，所述数据处理装置还包括筛选模块，所述筛选模块，用于：

基于过滤阈值，对所述样本数据进行筛选。
根据权利要求33所述的装置，所述过滤阈值包括异常率阈值、到达率阈值、生产设备阈值、环境参数阈值、检测时间阈值、或生成时间阈值中的至少一种；所述样本包括多个子样本，所述异常率用于指示每个样本中异常子样本的数量占该样本包括的子样本总数量的比例；所述到达率用于指示每个样本中实际检测的子样本数量占该样本包括的子样本总数量的比例。
根据权利要求30-34中任一项所述的装置，所述样本的特征数据包括产品型号、检测站点、异常类型、到达率、生产设备、环境参数、检测时间、或生成时间中的至少一种。
根据权利要求30-35中任一项所述的装置，所述样本的检测数据包括异常率或测量参数中的至少一种。
一种数据处理装置，所述装置包括存储器和处理器；所述存储器和所述处理器耦合；所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令；

其中，当所述处理器执行所述计算机指令时，使得所述装置执行如权利要求1-18中任一项所述的数据处理方法。
一种非瞬态的计算机可读存储介质，所述计算机可读存储介质存储有计算机程序；其中，所述计算机程序在数据处理装置运行时，使得所述数据处理装置执行如权利要求1-18中任一项所述的数据处理方法。
一种计算机程序产品，所述计算机程序产品包括计算机程序，在数据处理装置上执行所述计算机程序时，使得所述数据处理装置执行如权利要求1-18中任一项所述的数据处理方法。