WO2022242459A1

WO2022242459A1 - 数据分类识别方法、装置、设备、介质及程序产品

Info

Publication number: WO2022242459A1
Application number: PCT/CN2022/090902
Authority: WO
Inventors: 魏东; 孙镜涵; 马锴; 王连生; 郑冶枫
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2021-05-17
Filing date: 2022-05-05
Publication date: 2022-11-24
Also published as: CN112949786A; CN112949786B; US20230105590A1

Abstract

一种数据分类识别方法、装置、设备及可读存储介质，涉及机器学习领域。该方法包括：获取第一数据集和第二数据集(301)，第二数据集中包括标注有样本标签的第二数据；通过第一数据以无监督训练模式，以及第二数据以监督训练模式训练得到第一分类模型(302)；获取第二分类模型(303)；对第二分类模型的模型参数进行蒸馏训练，得到数据分类模型(304)；通过数据分类模型对目标数据进行分类预测(305)。

Description

数据分类识别方法、装置、设备、介质及程序产品

本申请要求于2021年05月17日提交的申请号为202110532246.3、发明名称为“数据分类识别方法、装置、设备及可读存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请实施例涉及机器学习领域，特别涉及一种数据分类识别方法、装置、设备、介质及程序产品。

背景技术

在基于医学影像的疾病诊断方面通常包括罕见病的诊断和常见病的诊断，也即，将医学影像输入至机器学习模型后，由机器学习模型对医学影像进行分析，从而判断医学影像所对应的身体异常情况。

相关技术中，在针对罕见病进行诊断时，将医学影像输入至罕见病的分类模型中，由分类模型对医学影像进行分析诊断，从而确定医学影像所表达的图像特征属于哪一种罕见病。其中，分类模型在训练过程中，需要大量标注有罕见病信息的图像数据集，从而确保模型准确率。

然而，罕见病本身属于出现几率较低的病症，收集罕见病的图像数据以及对罕见病信息进行标注的难度较大，导致分类模型的训练效率较低，从而分类模型的分类准确率较低。

发明内容

本申请实施例提供了一种数据分类识别方法、装置、设备、介质及程序产品，能够提高对针对罕见病进行识别分类的识别模型的训练效率。所述技术方案如下。

一方面，提供了一种数据分类识别方法，应用于计算机设备，所述方法包括：

获取第一数据集和第二数据集，所述第一数据集中包括第一数据，所述第二数据集中包括标注有样本标签的第二数据；

通过所述第一数据以无监督训练模式，以及通过所述第二数据以监督训练模式对候选分类模型进行训练，得到第一分类模型；

获取第二分类模型，所述第二分类模型为模型参数待调整的分类模型；

以所述第一分类模型对所述第一数据的第一预测结果为基准，基于所述第二分类模型对所述第一数据的第二预测结果对所述第二分类模型的所述模型参数进行调整，得到数据分类模型；

通过所述数据分类模型对目标数据进行分类预测，得到所述目标数据的分类结果。另一方面，提供了一种数据分类识别装置，所述装置包括：

获取模块，用于获取第一数据集和第二数据集，所述第一数据集中包括第一数据，所述第二数据集中包括标注有样本标签的第二数据；

训练模块，用于通过所述第一数据以无监督训练模式，以及通过所述第二数据以监督训练模式对候选分类模型进行训练，得到第一分类模型；

所述获取模块，还用于获取第二分类模型，所述第二分类模型为模型参数待调整的分类模型；

所述训练模块，还用于以所述第一分类模型对所述第一数据的第一预测结果为基准，基于所述第二分类模型对所述第一数据的第二预测结果对所述第二分类模型的所述模型参数进行调整，得到数据分类模型；

预测模块，用于通过所述数据分类模型对目标数据进行分类预测，得到所述目标数据的分类结果。

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中任一所述数据分类识别方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述本申请实施例中任一所述的数据分类识别方法。

另一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中任一所述的数据分类识别方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

在通过无标签的第一数据进行无监督训练以及有标签的第二数据进行监督训练后，得到第一分类模型，从而在第一分类模型的基础上，创建第二分类模型进行知识蒸馏训练，利用教师模型进行监督训练来达到蒸馏的目的，最终得到更高性能和精度的学生模型，训练主要依赖大量的第一数据，而对有标签的第二数据的数据量要求较小，避免了对样本数据进行大量标注的繁琐过程，提高了数据分类模型的训练效率以及准确率。

附图说明

图1是本申请一个示例性实施例提供的整体方案实施流程示意图；

图2是本申请一个示例性实施例提供的实施环境示意图；

图3是本申请一个示例性实施例提供的数据分类识别方法的流程图；

图4是本申请另一个示例性实施例提供的数据分类识别方法的流程图；

图5是本申请另一个示例性实施例提供的数据分类识别方法；

图6是本申请一个示例性实施例提供的罕见病分类识别模型的训练过程整体示意图；

图7是本申请一个示例性实施例提供的数据分类识别装置的结构框图；

图8是本申请另一个示例性实施例提供的数据分类识别装置的结构框图；

图9是本申请一个示例性实施例提供的服务器的结构框图。

具体实施方式

首先，针对本申请实施例中涉及的名词进行简单介绍。

伪标签：是指通过经过训练的模型对未标注的数据进行预测后得到预测结果，并基于预测结果对数据进行标注的标签。也即，伪标签并非根据数据的实际情况人工标注的标签，而是由训练好的模型标注的存在一定容错率的标签。在一些实施例中，针对训练得到的分类模型对数据进行分类预测后所得到的分类预测结果即为该数据对应的伪标签。

相关技术中，针对罕见病的诊断，需要通过用于罕见病诊断的分类模型，而分类模型的训练则需要通过标注有罕见病信息的大量样本图像数据，通过分类模型对样本图像数据进行分类识别后，得到识别结果，通过标注的罕见病信息与识别结果之间的差异对分类模型进行训练。然而，由于罕见病本身的罕见性，导致样本图像数据的获取难度较大，需要大量的人力采集样本图像数据，并对样本图像数据进行罕见病信息的标注，分类模型的训练效率较低。而正是由于罕见病的样本图像数据获取的难度大，会导致训练样本数据不足的情况，所训练得到的分类模型的准确率较低。

本申请实施例中，提供了一种数据分类识别方法，在标注有标签的样本数量较少的情况下提高了数据分类模型的训练效率和准确率。

示意性的，图1是本申请一个示例性实施例提供的整体方案实施流程示意图，以罕见病的分类模型训练过程为例，如图1所示。

首先获取第一图像数据集110和第二图像数据集120，其中，第一图像数据集110中包括常见病的医学影像，且第一图像数据集110中的医学影像不采用标签信息或者未标注标签信息；第二图像数据集120中包括少量罕见病的医学影像，且第二图像数据集120中的医学影像包括标注的标签信息，该标签信息用于表示医学影像对应的罕见病信息。

通过第一图像数据集110对特征提取网络f _q进行无监督训练后，将经过无监督训练的f _q与分类网络f _c连接，得到第一分类模型F，通过第二图像数据集120对第一分类模型F进行监督训练，并基于训练后的第一分类模型F对第二分类模型F’进行知识蒸馏训练，从而得到罕见病的分类模型(也即训练后的第二分类模型F’)。

其中，知识蒸馏训练是指由训练好的模型的分类能力为基础，引导未训练好的模型的分类能力。本实施例中，知识蒸馏训练在实现过程中，主要是由第一分类模型F对数据的预测结果为基准，对第二分类模型F’对数据的预测能力进行引导，也即，将数据a输入第一分类模型F后，输出第一分类模型F预测得到的伪标签，将数据a输入第二分类模型F’后，输出第二分类模型F’预测得到的分类结果，根据该分类结果和伪标签的差异，对第二分类模型F’进行训练，从而引导第二分类模型F’的分类准确率向第一分类模型F靠拢。

其次，对本申请实施例中涉及的实施环境进行说明，示意性的，请参考图2，该实施环境中涉及终端210、服务器220，终端210和服务器220之间通过通信网络230连接。

在一些实施例中，终端210包括第一终端211和第二终端212。

第一终端211用于向服务器220发送医学影像。示意性的，第一终端211为医生应用的终端，医生在通过医学影像对罕见病进行诊断的过程中，通过分类模型进行辅助诊断，从而提高诊断准确率；或者，第一终端211为用户应用的终端，如：问诊人本人，或者问诊人的亲属等，用户将医学影像发送至服务器，从而获取参考诊断结果；或者，第一终端211为医学影像扫描设备所连接的终端，医学影像扫描设备在扫描得到医学影像后传输至第一终端211，第一终端211在接收到医学影像后，将医学影像转发至服务器220进行辅助诊断。

服务器220通过上述图1所示的方式进行罕见病分类模型221的训练，得到罕见病分类模型221后，接收第一终端211上传的医学影像，并通过罕见病分类模型221对医学影像进行分类识别，得到医学影像在罕见病分类集中的分类诊断结果。服务器220将分类诊断结果反馈至第一终端211或者将分类诊断结果发送至第二终端212。

其中，当第一终端211实现为与医学影像扫描设备连接的终端时，服务器220将分类诊断结果发送至第二终端212，第二终端212实现为医生应用的终端或者用户应用的终端。

上述终端可以是手机、平板电脑、台式电脑、便携式笔记本电脑等多种形式的终端设备，本申请实施例对此不加以限定。

值得注意的是，上述服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

其中，云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。

在一些实施例中，上述服务器还可以实现为区块链系统中的节点。

需要说明的是，本申请所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号，均为经用户单独授权或者经过各方充分授权的，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如，本申请中涉及到的医学影像都是在充分授权的情况下获取的。

另外，需要说明的是，本申请涉及到的医学影像在获取授权时，会充分表明医学影像的获取用途，并获得影像所有人的授权。

结合上述名词简介，对本申请实施例中涉及的应用场景进行举例说明。

第一，医生通过分类模型进行辅助诊断的场景。

也即，医生通过终端将医学影像发送至服务器，服务器通过训练好的分类模型对医学影像进行分类识别，得到与医学影像对应的分类诊断结果，并将分类诊断结果反馈至医生所应用的终端进行展示，从而医生通过分类诊断结果进行辅助诊断，并得出最终的诊断结果。

第二，用户通过分类模型进行预诊断。

用户(问诊人或者问诊人的亲友)将医学影像发送至服务器，服务器通过训练好的分类模型对医学影像进行分类识别，得到与医学影像对应的分类诊断结果，并将分类诊断结果反馈至用户应用的终端进行展示，用户根据分类诊断结果首先对异常生命状态进行初步了解，继而通过医生诊断得到详细诊断结果。

第三，分类模型还可以应用于其他分类场景。

示意性的，该分类模型还可以应用于物体识别场景、语音识别场景、笔迹识别场景等，本申请实施例对此不加以限定。

结合上述名词简介和应用场景，对本申请提供的数据分类识别方法进行说明，以该方法应用于服务器中为例，如图3所示，该方法包括如下步骤。

步骤301，获取第一数据集和第二数据集。

其中，第一数据集中包括第一数据，第二数据集中包括标注有样本标签的第二数据。

在一些实施例中，第一数据集中的第一数据为未标注有标签的数据，而第二数据集中的第二数据为标注有样本标签的数据；或者，第一数据集中的第一数据标注有标签，但第一数据标注的标签在本实施例中不作应用。

可选地，第一数据属于第一分类集，第二数据属于目标分类集，也即第一数据和第二数据属于不同分类集对应的数据。其中，分类集用于表示包含多个下属分类的集合，即，分类集属于分类的上层归纳概念，在上层归纳中包括属于该归纳特点的下层分类。示意性的，第一级归纳概念为疾病，属于疾病概念的分为两个下层分类，分别为常见病和罕见病，则第一分类集对应为常见病分类集，以眼部疾病为例，如：第一分类集中包括近视、远视、结膜炎等常见眼疾类型；目标分类集对应为罕见病分类集，以眼部疾病为例，如：目标分类集中包括干眼症、视雪症、遗传性视神经病变等罕见眼疾类型。

本申请实施例中，常见病和罕见病是针对同一器官或者同一身体部分对应的病症，或者，常见病和罕见病属于同一病症类型，如：身体疼痛类型、呕吐类型。

在一些实施例中，第一数据集中包括的第一数据为与常见病对应的医学影像，如：电子计算机断层扫描(Computed Tomography，CT)图像、X光图像、超声波图像等形式的影像；第二数据集中包括的第二数据为与和罕见病对应的医学影像，如：CT图像、X光图像、超声波图像等形式的影像。

值得注意的是，上述医学影像仅为示意性的举例，本申请实施例中的第一数据和第二数据还可以实现为其他类型的数据，如：语音数据、文本数据等，本申请实施例对此不加以限定。

可选地，第一数据集中第一数据的数据量(即医学影像的数量)大于第二数据集中第二数据的数据量(即医学影像的数量)，可选地，第二数据集中第二数据的数量在要求数量范围内，如：小于预设数量。

可选地，第一数据集中的第一数据是从基础数据集中随机采样的数据，基础数据集中包括常见病数据；第二数据集中的第二数据是从罕见病数据集中随机采样的数据，罕见病数据集中包括罕见病数据，第二数据标注有罕见病信息，也即每个医学影像所对应的罕见病类型。

步骤302，通过第一数据以无监督训练模式，以及通过第二数据以监督训练模式对候选分类模型进行训练，得到第一分类模型。

在一些实施例中，基于第一数据对候选分类模型中的特征提取网络进行无监督训练，将候选分类模型中的分类回归网络与经过无监督训练的特征提取网络结合，得到分类模型，其中，分类回归网络用于进行数据分类，可选地，分类回归网络用于在目标分类集(也即第二数据所处的分类集)中进行数据分类。通过第二数据集中的第二数据和样本标签对分类模型进行监督训练，得到第一分类模型。

由于第一数据集中的第一数据为不存在对应标注的标签的数据，故，第一数据仅能够用于对特征提取网络进行无监督训练。而第二数据集中的第二数据存在对应标注的样本标签，故，第二数据能够用于对分类模型进行监督训练。

步骤303，获取第二分类模型。

第二分类模型为模型参数待调整的分类模型。

可选的，第二分类模型为随机初始化的分类模型，第二分类模型中包括模型参数，第二分类模型用于根据第一分类模型输出的知识进行蒸馏训练。其中，知识蒸馏是指将教师模型输出的监督信息作为知识，由学生模型对迁移自教师模型的监督信息进行学习的过程，利用教师模型进行监督训练来达到蒸馏的目的，最终得到更高性能和精度的学生模型。

步骤304，以第一分类模型对第一数据的第一预测结果为基准，基于第二分类模型对第一数据的第二预测结果对第二分类模型的模型参数进行调整，得到数据分类模型。

可选地，通过第一分类模型对第一数据进行分类预测，得到第一预测结果，可选地，将该第一预测结果作为第一数据对应目标分类集中的类别伪标签；通过第二分类模型对第一数据进行分类预测，得到第二预测结果，基于第一预测结果与第二预测结果之间的差异对第二分类模型的模型参数进行调整，得到数据分类模型。其中，第一分类模型和第二分类模型针对相同的第一数据进行预测，得到第一分类模型输出的第一预测结果，以及得到第二分类模型输出的第二预测结果。示意性的，第一数据集中包括数据A、数据B和数据C，则首先通过第一分类模型对数据A进行预测，得到第一预测结果a，通过第二分类模型对数据A进行预测，得到第二预测结果b，根据第一预测结果a和第二预测结果b之间的差异，对第二分类模型的模型参数进行调整。

也即，将第一分类模型对第一数据进行分类预测后输出的伪标签作为知识，由第二分类模型迁移该伪标签进行蒸馏，从而实现第二分类模型的知识蒸馏训练。其中，第二分类模型迁移该伪标签进行蒸馏是指，第二分类模型在对第一数据进行分类预测后，以该伪标签的基准，对预测结果进行评估，从而对模型参数进行调整，也即，将第一分类模型所识别得到的伪标签作为数据标签，指引第二分类模型的分类预测结果向伪标签靠齐，从而提高第二分类模型的分类预测准确率。

步骤305，通过数据分类模型对目标数据进行分类预测，得到目标数据的分类结果。

在一些实施例中，通过数据分类模型对目标数据进行分类预测，得到目标数据在目标分类集中所属的分类结果，其中，目标分类集为标注有样本标签的第二数据所属的分类集。

在第二分类模型经过训练后，得到数据分类模型，通过数据分类模型对目标数据进行分类，即可得到目标数据在目标分类集中的分类结果。其中，目标数据可以是实际应用时的数据，如：实际应用时的医学影像；或者，目标数据也可以是测试集中用于对数据分类模型进行测试的数据。

综上所述，本实施例提供的数据分类识别方法，在通过无标签的第一数据进行无监督训练以及有标签的第二数据进行监督训练后，得到第一分类模型，从而在第一分类模型的基础上，创建第二分类模型进行知识蒸馏训练，利用教师模型进行监督训练来达到蒸馏的目的，最终得到更高性能和精度的学生模型，训练主要依赖大量的第一数据，而对有标签的第二数据的数据量要求较小，避免了对样本数据进行大量标注的繁琐过程，提高了数据分类模型的训练效率以及准确率。

在一些实施例中，通过第一分类模型对第二分类模型进行蒸馏训练的过程中，需要通过第一分类模型识别得到的伪标签作为知识，图4是本申请另一个示例性实施例提供的数据分类识别方法的流程图，以该方法应用于服务器中为例进行说明，如图4所示，该方法包括如下步骤。

步骤401，获取第一数据集和第二数据集。

在一些实施例中，第一数据集中的第一数据为未标注有标签的数据，而第二数据集中的第二数据为标注有样本标签的数据。

可选地，第一数据属于第一分类集，第二数据属于目标分类集，也即第一数据和第二数据属于不同分类集对应的数据。示意性的，第一分类集对应为常见病分类集；目标分类集对应为罕见病分类集。

步骤402，通过第一数据以无监督训练模式，以及通过第二数据以监督训练模式对候选分类模型进行训练，得到第一分类模型。

在一些实施例中，基于第一数据集中的第一数据对候选分类模型中的特征提取网络进行无监督训练，并将候选分类模型中的分类回归网络与经过无监督训练的特征提取网络结合，得到分类模型，其中，分类回归网络用于在目标分类集中进行数据分类，通过第二数据集中的第二数据和样本标签对分类模型进行监督训练，得到第一分类模型。

第一分类模型具有较好的分类性能，但在表征学习的过程中，忽略了与目标分类集相关的知识，故，本申请实施例中，将第一分类模型作为基准模型，通过第一分类模型输出的知识对第二分类模型进行蒸馏训练。其中，第二分类模型为模型参数待调整的用于在目标分类集进行分类的模型。

步骤403，通过第一分类模型对第一数据进行分类预测，得到第一预测结果。

由于即使第一数据集和第二数据集所包含的数据类别不同，但数据具有相似的特征，示意性的，第一数据集为常见病的医学影像，第二数据集为罕见病的医学影像，则第一数据集和第二数据集的数据在颜色、纹理或者形状上具有相似的特征。因此，采用第一分类模型作为基准模型预测第一数据集中的图像属于目标分类集中各个分类的概率。

在一些实施例中，通过第一分类模型对第一数据集中的第一数据进行分类预测，得到第一数据对应目标分类集中分类的概率值，并基于概率值从目标分类集中确定第一数据对应的伪标签作为第一预测结果。

可选地，首先通过第一分类模型确定第一数据对应目标分类集中类别的软标签，也即对应目标分类集中类别的概率：p＝F(x)＝[p ₁，…，p _n] ^T，其中，p表示概率，n表示目标分类集中类别数量，F(x)表示对第一数据x采用第一分类模型F进行分类预测，n个类别的概率和为1。根据上述确定的软标签进一步确定第一数据对应目标分类集中类别的硬标签。示意性的，根据上述概率p，将概率最大的类别标注为第一数据对应的伪标签，也即，概率最大的类别的硬标签为1，其他类别硬标签为0，而硬标签为1的类别即为第一数据对应的第一预测结果，也即为第一数据对应的伪标签。其中，针对一个第一数据x通过分类预测得到一个第一预测结果，也即，针对m个第一数据通过分类预测得到m个第一预测结果，m为正整数，每个第一数据能够通过分类预测得到一个第一预测结果。

步骤404，获取第二分类模型，并通过第二分类模型对第一数据进行分类预测，得到与第一数据对应的第二预测结果。

第二分类模型为模型参数待调整的模型，第二分类模型用于对应目标分类集对数据进行分类。

其中，通过第一分类模型和第二分类模型对同一个第一数据进行分类预测后，分别得到第一预测结果和第二预测结果，则对应同一第一数据的第一预测结果和第二预测结果之间存在比对意义。

步骤405，基于第一预测结果与第二预测结果之间的差异对第二分类模型的模型参数进行调整，得到数据分类模型。

可选地，第二分类模型中包括第一查询编码器和第一键值编码器，则通过第一查询编码器对第一数据进行编码，得到第一编码结果，通过第一键值编码器对第一数据和第一预设动态字典中的数据进行编码的第二编码结果，基于第一编码结果和第二编码结果的差异对第二分类模型进行训练，得到数据分类模型。

在一些实施例中，结合伪标签监督方法与对比判别方法进行混合蒸馏损失的确定，其中伪标签监督方法即为基于第一预测结果与第二预测结果之间的差异对第二分类模型的模型参数进行调整，对比判别方法即为通过第一查询编码器与第一键值编码器对第二分类模型进行训练。可选地，采用随机初始化学生模型的策略，其中第二分类模型F’＝f’ _c(f’ _q)，f’ _q对应为第一查询编码器，具有模型参数θ’ _q，f’ _c对应为回归分类网络，具有模型参数θ’ _c，确定混合损失L _dis，计算公式如下公式一所示。

公式一：L _dis＝L _con(x；θ’ _q，θ’ _k)+L _cls(y，F’(x；θ’ _q，θ’ _c))

其中，x为第一数据集中的第一数据，θ’ _k为第一键值编码器f’ _k的参数，并随着θ’ _q进行动量更新，第一键值编码器f’ _k对应有第一预设动态词典，将第一查询编码器f’ _q提取的第一编码结果与第一键值编码器对第一预设动态词典中的数据编码的第二编码结果进行比对，得到对比判别方法中的损失L _con。y表示第一分类模型识别得到的第一预测结果，将第一预测结果与第二分类模型的第二预测结果进行比对，得到伪标签监督方法对应的损失L _cls。从而将两部分损失相加，对模型参数θ’ _q进行更新。

在一些实施例中，与基准模型不同的是，f’ _c采用全连接层(后接softmax操作)实现，便于进行端到端的模型训练。

在训练中，由于罕见病对应的第二数据集中数据量较少以及其产生的噪声和偏差，第一分类模型生成的上述第一预测结果不是完全可用的并且可能对第二分类模型的训练造成不利影响。故，本申请实施例中，第一预测结果还对应有置信度参数，获取第一预测结果的置信度参数，确定第一预测结果在置信度参数下与第二预测结果之间的差异，并基于差异对第二分类模型的模型参数进行调整，得到数据分类模型。

示意性的，本实施例中，将第二分类模型的预测值p’与伪标签y(也即上述第一预测结果y)结合作为训练目标，请参考如下公式二。

公式二：y ^adpt＝(1-α)×y+α×p’

其中，α为置信度参数，控制第一分类模型生成的伪标签y所占训练目标的比例。通常α为一个固定值，然而，在训练的初始阶段，学生模型所产生的预测值的可信度较低。因此本申请采用线性增长方法，在第t个训练回合的α为：α _t＝α _T×(t/T)。其中，α _T为最后一个训练回合的置信度参数值，示意性的，α _T设置为0.7。T为总训练回合数。最后，用y ^adpt替代上述公式一中的y作为最终的损失函数。

步骤406，通过数据分类模型对目标数据进行分类预测，得到目标数据在目标分类集中所属的分类结果。

在第二分类模型经过训练后，得到数据分类模型，通过数据分类模型对目标数据进行分类，即可得到目标数据在目标分类集中的分类结果。

在一些实施例中，获取测试数据集，测试数据集中的测试数据用于对数据分类模型的训练效果进行测试，从测试数据集中获取目标数据，目标数据标注有参考分类信息，通过数据分类模型对目标数据进行分类预测得到分类结果后，基于参考分类信息和分类结果获取数据分类模型的训练效果数据。示意性的，获取测试数据集中的多个目标数据，分别进行分类预测，并与参考分类信息进行比对，根据比对结果正确的目标数据占被测试的目标数据总数的比例，确定训练效果，也即确定数据分类模型的预测准确率。

本实施例提供的方法，结合伪标签监督方法与对比判别方法进行混合蒸馏损失的确定，在通过第一分类模型对第二分类模型进行蒸馏训练的同时，避免第二分类模型对数据的特征提取被蒸馏训练过程影响，提高了第二分类模型的训练效率和准确率。

本实施例提供的方法，在确定损失值时，由于第二数据集中数据量较少以及其产生的噪声和偏差，导致第一分类模型本身的第一预测结果存在一定偏差，故引入了第一预测结果的置信度参数，避免第一预测结果在准确率上的偏差影响第二分类模型的训练效果，提高了分类模型模型的预测准确率。

本实施例提供的方法，真对置信度参数引入线性增长方法，逐步调整置信度参数对第一预测结果的调整情况，避免置信度参数由于人为主观设置而导致对第一预测结果的干预过高或者过低，提高了损失值的计算准确率。

在一些实施例中，第一分类模型是通过第一数据的无监督训练和第二数据的监督训练得到的。图5是本申请另一个示例性实施例提供的数据分类识别方法的流程图，如图5所示，以该方法应用于服务器中为例，该方法包括如下步骤。

步骤501，获取第一数据集和第二数据集。

其中，第一数据集中包括第一数据，第二数据集中包括标注有样本标签的第二数据，第二数据属于目标分类集。

可选地，第一数据属于第一分类集，第二数据属于目标分类集，也即第一数据和第二数据属于不同分类集对应的数据。

步骤502，基于第一数据对候选分类模型中的特征提取网络进行无监督训练。

在一些实施例中，特征提取网络中包括第二查询编码器和第二键值编码器则通过第二查询编码器对第一数据进行编码，得到第三编码结果，获取第二键值编码器对第二预设动态字典中的数据进行编码的第四编码结果，基于第三编码结果和第四编码结果的差异对特征提取网络进行无监督训练。

无监督表征学习能够在无标注数据的情况下训练一个较好的特征提取模型，故，本申请实施例中，采用对比损失作为特征提取网络的优化函数。

可选地，在通过特征提取网络对第一数据进行特征提取时，将第一数据进行数据增强，以第一数据为医学影像为例，则对第一数据集中的医学影像进行图像增强。图像增强包括对比度增强、亮度增强、锐化增强等增强处理方式中的至少一种。其中，图像增强的次数两次，从而分别输入第二查询编码器和第二键值编码器，其中，两次图像增强是针对同一个增强方向进行两次不同程度的增强；或者，两次图像增强是针对不同增强方向进行两次相同或者不同程度的增强；或者，两次图像增强是针对同一增强方向进行两次叠加的相同或不同程度的增强。示意性的，对第一数据集中的每张图像进行两次图像增强，得到

和

其中，

是经过第一次图像增强后得到的图像，

是经过第二次图像增强后得到的图像。分别通过第二查询编码器

和第二键值编码器

进行特征提取，得到相应的特征，其中，f _q和f _k分别为由参数θ _q和θ _k组成的第二查询编码器和第二键值编码器，则对比损失的计算方式请参考如下公式三。

其中，x _i为第一数据集中的第一数据，l为存储在第二预设动态字典中的键值图像的数量， τ为平滑标签的超参数。通过对比损失的训练，模型能够区分图像x _i与存储在第二预设动态字典中的键值图像，并根据图像x _i与存储在第二预设动态字典中的键值图像的差异通过反向传播更新参数θ _q，而θ _k通过θ _q进行动量更新：θ _k←mθ _k+(1-m)θ _q，其中，m∈[0，1)。

通过第一数据集对特征提取网络完成无监督训练后，冻结参数θ _q。

步骤503，将候选分类模型中的分类回归网络与经过无监督训练的特征提取网络结合，得到分类模型。

在一些实施例中，分类回归网络用于在目标分类集中进行数据分类。

可选地，由于上述特征提取网络对应有第二查询编码器和第二键值编码器，在将分类回归网络与特征提取网络结合时，本申请实施例中，将分类回归网络与经过无监督训练的第二查询编码器连接，得到分类模型。

步骤504，通过第二数据集中的第二数据和样本标签对分类模型进行监督训练，得到第一分类模型。

在一些实施例中，通过第二数据对分类模型进行监督训练时，将第二数据输入分类模型进行分类预测，得到预测结果，而第二数据本身标注有样本标签，用于指示第二数据的实际分类，从而根据样本标签与预测结果之间的差异反向对分类模型的模型参数进行调整，得到第一分类模型。

可选地，根据样本标签与预测结果计算该预测结果的损失值，从而根据损失值反向对分类模型的模型参数进行调整，直至预测结果对应的损失值收敛，如：预测结果对应的损失值小于预设阈值；或者，第q次迭代训练中预测结果的损失值，与第q-1次迭代训练中预测结果的损失值之差小于预设差值阈值，q为大于1的整数。

步骤505，获取第二分类模型。

第二分类模型为模型参数待调整的分类模型。

可选的，第二分类模型为随机初始化的分类模型，第二分类模型中包括模型参数，在随机初始化时，第二分类模型的初始模型参数为随机获取的。第二分类模型用于根据第一分类模型输出的知识进行蒸馏训练。其中，知识蒸馏是指将第一分类模型输出的监督信息，也即第一分类模型输出的第一预测结果作为知识，由第二分类模型学习迁移自第一分类模型的监督信息作为蒸馏过程，利用第一分类模型进行监督训练来达到蒸馏的目的，最终得到更高性能和精度的学生模型。

步骤506，以第一分类模型对第一数据的第一预测结果为基准，基于第二分类模型对第一数据的第二预测结果对第二分类模型的模型参数进行调整，得到数据分类模型。

可选地，通过第一分类模型对第一数据集中的第一数据进行分类预测，得到与第一数据对应目标分类集中类别的第一预测结果；通过第二分类模型对第一数据集中的第一数据进行分类预测，得到与第一数据对应的第二预测结果，基于第一预测结果与第二预测结果之间的差异对第二分类模型的模型参数进行调整，得到数据分类模型。

也即，将第一分类模型对第一数据进行分类预测后输出的伪标签作为知识，由第二分类模型迁移该伪标签进行蒸馏，从而实现第二分类模型的蒸馏训练。

步骤507，通过数据分类模型对目标数据进行分类预测，得到目标数据的分类结果。

本实施例提供的方法，通过第一数据集中无标签的第一数据对特征提取网络进行无监督训练，从而通过第二数据集中有标签的第二数据对分类模型进行监督训练，从而在第二数据的采集过程较为繁琐，或者第二数据的收集难度较大时，仅需要少量采集第二数据，即可实现对第一分类模型的有效训练，提高了模型的训练效率。

本实施例提供的方法，在训练得到数据分类模型后，通过测试数据集中的测试数据对数据分类模型进行测试后，确定数据分类模型的训练效果，从而辅助数据分类模型的进一步训练或者应用，提高了数据分类模型的分类准确率。

结合上述内容，以上述第一数据集中的第一数据为常见病的医学影像，第二数据集中的第二数据为罕见病的医学影像为例，进行示意性的说明，图6是本申请一个示例性实施例提供的罕见病分类识别模型的训练过程整体示意图。

如图6所示，该过程中包括无监督训练阶段610、监督训练阶段620、伪标签生成阶段630以及第二分类模型的训练阶段640。

其中，在无监督训练阶段610中，将无标签标注的常见病医学影像611进行两次图像增强得到x ^q和x ^k，并通过查询编码器612和键值编码器613进行损失值的确定，从而完成对查询编码器612的训练，冻结查询编码器612的参数，并将无监督训练后的查询编码器612在监督训练阶段620应用于与分类回归模型621的连接。

在监督训练阶段620中，当查询编码器612与分类回归模型621连接后，得到待训练的第一分类模型622，通过标注有样本标签的罕见病的医学影像623对第一分类模型622进行监督训练时，根据罕见病的医学影像623对应标注的样本标签以及第一分类模型622的分类结果确定损失值，并实现对第一分类模型622的监督训练。

在第一分类模型622训练完毕后，在伪标签生成阶段630，通过第一分类模型622对常见病的医学影像611进行分类识别，得到常见病的医学影像611对应的伪标签。

在第二分类模型的训练阶段640，根据常见病的医学影像611对应的伪标签，以及第二分类模型641的预测结果得到第一损失值，根据第二分类模型641中查询编码器642和键值编码器643的编码结果得到第二损失值，从而根据第一损失值和第二损失值确定总的损失值对第二分类模型641进行训练，得到罕见病分类识别模型。

表一给出了本申请的技术方案在皮肤病变分类数据集上的结果对比。此数据集包含7个类别，将病例数量最多的四个类别的数据集作为第一数据集，剩余三个类别的数据集作为第二数据集。评价指标选择了准确率(Accuracy)、统计学中用来衡量二分类模型精确度的指标F1score。

表一

表一中，N代表测试类别数，K代表每个测试类别提供的有标签的图片数量，本技术方案分别对比了K为1，3，5的结果。将罕见病数据集中剩余的图像组成Q作为测试集用于性能评估。

由表一可见，本技术方案的分类指标优于全部相关技术。本技术方案在基准模型的基础上加入自蒸馏，提升了准确率约1-2％，F1score约3-5％。从表一中可以观察到在K＝5时，本技术方案无需任何常见病数据集的标注，准确率即可达到81.16％。此结果验证了本方法的假设：通过将伪标签监督信息注入到表征学习过程中并充分利用大量无标注数据集学习能够更好地学习罕见疾病数据的表征及其分类器。

图7是本申请一个示例性实施例提供的数据分类识别装置的结构示意图，如图7所示，该装置包括如下部分：

获取模块710，用于获取第一数据集和第二数据集，所述第一数据集中包括第一数据，所述第二数据集中包括标注有样本标签的第二数据；

训练模块720，用于通过所述第一数据以无监督训练模式，以及通过所述第二数据以监督训练模式对候选分类模型进行训练，得到第一分类模型；

所述获取模块710，还用于获取第二分类模型，所述第二分类模型为模型参数待调整的分类模型；

所述训练模块720，还用于以所述第一分类模型对所述第一数据的第一预测结果为基准，基于所述第二分类模型对所述第一数据的第二预测结果对所述第二分类模型的所述模型参数进行调整，得到数据分类模型；

预测模块730，用于通过所述数据分类模型对目标数据进行分类预测，得到所述目标数据的分类结果。

在一个可选的实施例中，所述预测模块730，还用于通过所述第一分类模型对所述第一数据进行分类预测，得到第一预测结果；

所述预测模块730，还用于通过所述第二分类模型对第一数据进行分类预测，得到第二预测结果；

如图8所示，训练模块720，还包括：

调整单元721，用于基于第一预测结果与所述第二预测结果之间的差异对所述第二分类模型的所述模型参数进行调整。

在一个可选的实施例中，所述获取模块710，还用于获取所述第一预测结果的置信度参数；

所述调整单元721，还用于确定所述第一预测结果在所述置信度参数下与所述第二预测结果之间的差异，并基于所述差异对所述第二分类模型的所述模型参数进行调整。

在一个可选的实施例中，所述预测模块730，还用于通过所述第一分类模型对所述第一数据进行分类预测，得到所述第一数据对应目标分类集中分类的概率值；基于所述概率值从所述目标分类集中确定所述第一预测结果。

在一个可选的实施例中，所述第二分类模型中包括第一查询编码器和第一键值编码器；

所述装置还包括：

编码模块740，用于通过所述第一查询编码器对所述第一数据进行编码，得到第一编码结果；

所述获取模块710，还用于获取所述第一键值编码器对所述第一数据和第一预设动态字典中的数据进行编码的第二编码结果；

所述训练模块720，还用于基于所述第一编码结果与所述第二编码结果的差异对所述第二分类模型进行训练。

在一个可选的实施例中，所述训练模块720，还用于基于第一数据对候选分类模型中的特征提取网络进行无监督训练；将候选分类模型中的分类回归网络与经过无监督训练的所述特征提取网络结合，得到分类模型，所述分类回归网络用于在所述目标分类集中进行数据分类；

所述训练模块720，还用于通过所述第二数据集中的所述第二数据和所述样本标签对所述分类模型进行监督训练，得到所述第一分类模型。

在一个可选的实施例中，所述特征提取网络中包括第二查询编码器和第二键值编码器；

所述装置还包括：

编码模块740，用于通过所述第二查询编码器对所述第一数据进行编码，得到第三编码结果；

所述获取模块710，还用于获取所述第二键值编码器对所述第一数据和第二预设动态字典中的数据进行编码的第四编码结果；

所述训练模块720，还用于基于所述第三编码结果与所述第四编码结果的差异对所述特征提取网络进行无监督训练。

在一个可选的实施例中，所述训练模块720，还用于将所述分类回归网络与经过无监督训练的所述第二查询编码器连接，得到所述分类模型。

在一个可选的实施例中，所述获取模块710，还用于获取测试数据集，所述测试数据集中的测试数据用于对所述数据分类模型的训练效果进行测试；从所述测试数据集中获取所述目标数据，所述目标数据标注有参考分类信息；

所述预测模块730，还用于通过所述数据分类模型对目标数据进行分类预测，得到所述分类结果；

所述获取模块710，还用于基于所述参考分类信息和所述分类结果获取所述数据分类模型的训练效果数据。

综上所述，本实施例提供的数据分类识别装置，在通过无标签的第一数据进行无监督训练以及有标签的第二数据进行监督训练后，得到第一分类模型，从而在第一分类模型的基础上，创建第二分类模型进行知识蒸馏训练，利用教师模型进行监督训练来达到蒸馏的目的，最终得到更高性能和精度的学生模型，训练主要依赖大量的第一数据，而对有标签的第二数据的数据量要求较小，避免了对样本数据进行大量标注的繁琐过程，提高了数据分类模型的训练效率以及准确率。

需要说明的是：上述实施例提供的数据分类识别装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的数据分类识别装置与数据分类识别方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图9示出了本申请一个示例性实施例提供的服务器的结构示意图。

具体来讲：服务器900包括中央处理单元(Central Processing Unit，CPU)901、包括随机存取存储器(Random Access Memory，RAM)902和只读存储器(Read Only Memory，ROM)903的系统存储器904，以及连接系统存储器904和中央处理单元901的系统总线905。服务器900还包括用于存储操作系统913、应用程序914和其他程序模块915的大容量存储设备906。

大容量存储设备906通过连接到系统总线905的大容量存储控制器(未示出)连接到中央处理单元901。大容量存储设备906及其相关联的计算机可读介质为服务器900提供非易失性存储。也就是说，大容量存储设备906可以包括诸如硬盘或者紧凑型光盘只读存储器(Compact Disc Read Only Memory，CD-ROM)驱动器之类的计算机可读介质(未示出)。

不失一般性，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、带电可擦可编程只读存储器(Electrically Erasable Programmable Read Only Memory，EEPROM)、闪存或其他固态存储其技术，CD-ROM、数字通用光盘(Digital Versatile Disc，DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器904和大容量存储设备906可以统称为存储器。

根据本申请的各种实施例，服务器900还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器900可以通过连接在系统总线905上的网络接口单元911连接到网络912，或者说，也可以使用网络接口单元911来连接到其他类型的网络或远程计算机系统(未示出)。

上述存储器还包括一个或者一个以上的程序，一个或者一个以上程序存储于存储器中，被配置由CPU执行。

本申请的实施例还提供了一种计算机设备，该计算机设备包括处理器和存储器，该存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的数据分类识别方法。

本申请的实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行，以实现上述各方法实施例提供的数据分类识别方法。

可选地，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、固态硬盘(SSD，Solid State Drives)或光盘等。其中，随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM，Resistance Random Access Memory)和动态随机存取存储器(DRAM，Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本申请的实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中任一所述的数据分类识别方法。

Claims

一种数据分类识别方法，其特征在于，应用于计算机设备，所述方法包括：

获取第一数据集和第二数据集，所述第一数据集中包括第一数据，所述第二数据集中包括标注有样本标签的第二数据；

通过所述第一数据以无监督训练模式，以及通过所述第二数据以监督训练模式对候选分类模型进行训练，得到第一分类模型；

获取第二分类模型，所述第二分类模型为模型参数待调整的分类模型；

以所述第一分类模型对所述第一数据的第一预测结果为基准，基于所述第二分类模型对所述第一数据的第二预测结果对所述第二分类模型的所述模型参数进行调整，得到数据分类模型；

通过所述数据分类模型对目标数据进行分类预测，得到所述目标数据的分类结果。
根据权利要求1所述的方法，其特征在于，所述以所述第一分类模型对所述第一数据的预测结果为基准，基于所述第二分类模型对所述第一数据的预测结果对所述第二分类模型的所述模型参数进行调整，包括：

通过所述第一分类模型对所述第一数据进行分类预测，得到所述第一预测结果；

通过所述第二分类模型对所述第一数据进行分类预测，得到所述第二预测结果；

基于所述第一预测结果与所述第二预测结果之间的差异对所述第二分类模型的所述模型参数进行调整。
根据权利要求2所述的方法，其特征在于，所述基于所述第一预测结果与所述第二预测结果之间的差异对所述第二分类模型的所述模型参数进行调整，包括：

获取所述第一预测结果的置信度参数；

确定所述第一预测结果在所述置信度参数下与所述第二预测结果之间的差异，并基于所述差异对所述第二分类模型的所述模型参数进行调整。
根据权利要求2所述的方法，其特征在于，所述通过所述第一分类模型对所述第一数据进行分类预测，得到所述第一预测结果，包括：

通过所述第一分类模型对所述第一数据进行分类预测，得到所述第一数据对应目标分类集中分类的概率值；

基于所述概率值从所述目标分类集中确定所述第一预测结果。
根据权利要求2所述的方法，其特征在于，所述第二分类模型中包括第一查询编码器和第一键值编码器；

所述方法还包括：

通过所述第一查询编码器对所述第一数据进行编码，得到第一编码结果；

获取所述第一键值编码器对所述第一数据和第一预设动态字典中的数据进行编码的第二编码结果；

基于所述第一编码结果与所述第二编码结果的差异对所述第二分类模型进行训练。
根据权利要求1至5任一所述的方法，其特征在于，所述通过所述第一数据以无监督训练模式，以及通过所述第二数据以监督训练模式对候选分类模型进行训练，得到第一分类模型，包括：

基于所述第一数据对所述候选分类模型中的特征提取网络进行无监督训练；

将所述候选分类模型中的分类回归网络与经过无监督训练的所述特征提取网络结合，得到分类模型，所述分类回归网络用于在所述目标分类集中进行数据分类；

通过所述第二数据集中的所述第二数据和所述样本标签对所述分类模型进行监督训练，得到所述第一分类模型。
根据权利要求6所述的方法，其特征在于，所述特征提取网络中包括第二查询编码器和第二键值编码器；

所述基于所述第一数据对所述候选分类模型中的特征提取网络进行无监督训练，包括：

通过所述第二查询编码器对所述第一数据进行编码，得到第三编码结果；

获取所述第二键值编码器对所述第一数据和第二预设动态字典中的数据进行编码的第四编码结果；

基于所述第三编码结果与所述第四编码结果的差异对所述特征提取网络进行无监督训练。
根据权利要求7所述的方法，其特征在于，所述将所述候选分类模型中的分类回归网络与经过无监督训练的所述特征提取网络结合，包括：

将所述分类回归网络与经过无监督训练的所述第二查询编码器连接，得到所述分类模型。
根据权利要求1至5任一所述的方法，其特征在于，所述通过所述数据分类模型对目标数据进行分类预测，得到所述目标数据的分类结果，包括：

获取测试数据集，所述测试数据集中的测试数据用于对所述数据分类模型的训练效果进行测试；

从所述测试数据集中获取所述目标数据，所述目标数据标注有参考分类信息；

通过所述数据分类模型对目标数据进行分类预测，得到所述分类结果；

基于所述参考分类信息和所述分类结果获取所述数据分类模型的训练效果数据。
一种数据分类识别装置，其特征在于，所述装置包括：

获取模块，用于获取第一数据集和第二数据集，所述第一数据集中包括第一数据，所述第二数据集中包括标注有样本标签的第二数据；

训练模块，用于通过所述第一数据以无监督训练模式，以及通过所述第二数据以监督训练模式对候选分类模型进行训练，得到第一分类模型；

所述获取模块，还用于获取第二分类模型，所述第二分类模型为模型参数待调整的分类模型；

所述训练模块，还用于以所述第一分类模型对所述第一数据的第一预测结果为基准，基于所述第二分类模型对所述第一数据的第二预测结果对所述第二分类模型的所述模型参数进行调整，得到数据分类模型；

预测模块，用于通过所述数据分类模型对目标数据进行分类预测，得到所述目标数据的分类结果。
根据权利要求10所述的装置，其特征在于，所述预测模块，还用于通过所述第一分类模型对所述第一数据进行分类预测，得到所述第一预测结果；

所述预测模块，还用于通过所述第二分类模型对所述第一数据进行分类预测，得到所述第二预测结果；

所述训练模块，还包括：

调整单元，用于基于所述第一预测结果与所述第二预测结果之间的差异对所述第二分类模型的所述模型参数进行调整。
根据权利要求11所述的装置，其特征在于，所述获取模块，还用于获取所述第一预测结果的置信度参数；

所述调整单元，还用于确定所述第一预测结果在所述置信度参数下与所述第二预测结果之间的差异，并基于所述差异对所述第二分类模型的所述模型参数进行调整。
根据权利要求11所述的装置，其特征在于，所述预测模块，还用于通过所述第一分类模型对所述第一数据进行分类预测，得到所述第一数据对应目标分类集中分类的概率值；基于所述概率值从所述目标分类集中确定所述第一预测结果。
一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至9任一所述的数据分类识别方法。
一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至9任一所述的数据分类识别方法。
一种计算机程序产品，其特征在于，包括计算机指令，所述计算机指令被处理器执行时实现如权利要求1至9任一所述的数据分类识别方法。