WO2021128704A1

WO2021128704A1 - 一种基于分类效用的开集分类方法

Info

Publication number: WO2021128704A1
Application number: PCT/CN2020/090292
Authority: WO
Inventors: 蔡毅; 李泽婷
Original assignee: 华南理工大学
Priority date: 2019-12-25
Filing date: 2020-05-14
Publication date: 2021-07-01
Also published as: CN111191033B; CN111191033A

Abstract

一种基于分类效用的开集分类方法，包括步骤：输入数据集，并对数据集进行预处理；采用特征提取器将数据转换为特征；采用训练集的特征训练一个可增量学习少样本分类器；对于一条新数据，对其进行预处理后采用特征提取器提取特征；将新数据的特征输入到分类器中，寻找已知类别中分类分数最高的一个类别，并计算分类效用；将新数据单独作为一个类别，采用新数据的特征计算其分类效用；比较已知类别与新类别情况下的分类效用大小，更新分类器；重复提取特征并计算分类效用的步骤，增加分类器处理的类别数据。该方法解决了开集分类中的未知类别数据识别和新类别的引入问题，并结合增量学习来学习新类别，增强分类器。

Description

一种基于分类效用的开集分类方法

技术领域

本发明涉及开集分类领域，尤其涉及一种基于分类效用的开集分类方法。

背景技术

面对现实世界的开集分类是一个极具挑战的任务。在现实世界中，人类期待分类器能够对实时的数据正确地进行分类。由于新数据中可能包含新类别，因此一个在现实世界中的分类器应该能够识别出不属于已知类别的数据，并引入新类别，增量学习新类别。传统闭集分类技术，假设未知数据全部来自于已知类别，将未知的数据分类到现有类别，因此该项技术只能对来自于已知类别的数据进行分类。然而在现实世界中，这样的假设往往是不成立的。随着时间推移，分类体系可能会发生改变，例如新类别的出现。传统分类器对新类别样本数据只能将其归类到已知类别中，不但无法发现新类别，而且造成已知类别的语义偏移。

一个开集分类器，应该具备以下三个方面的能力：(1)识别不属于现有类别的样本；(2)发现(1)中数据中的新类别；(3)增量学习新类别。目前关于开集分类的研究只能解决三者之一，不能系统地解决开集分类问题。其中，目前识别不属于现有类别的样本的技术集中在两个方向：学习一个元分类器，学习现有类别的特征，拒绝不属于现有类别的数据；缩减决策空间，减小开放空间风险。传统的聚类方法可以从未知类别的数据中发现新类别，但是聚类结果不能保证和已知现有分类体系保持一致。增量学习是在学习新信息中的新知识同时记住旧知识，其中最大的挑战是解决灾难性遗忘，即忘却以前学过的知识。目前许多学者提出基于记忆的增量学习方法，其中包括显式存储训练样本、规范化参数更新、为训练数据建模生成模型，但这些方法假设新增类别拥有足够多的训练样。Ren等人结合元学习，提出了可增量学习少样本类别的增量学习方法，即注意吸引子网络。

分类效用是一种衡量分类优良的指标，目的是最大化同一类别中的两个对象具有相同属性值的概率，以及来自不同类别的对象具有不同属性值的概率。人类在对新事物进行分类时，总是无意识地，自发地将新事物分类到类别层级结构中的某一类别层级中，认知心理学家称之为基本层次分类。认知心理学家发现基本层次分类的最大的性质是类内相似度最大，类间相似度最小。因此当分类效用最大时，分类结果是最符合人类认知的。在开集分类问题最重要的问题之一是判断何时应该引入新类别，分类效用作为一种衡量分类优良的指标，可以用于评判引入新类别的分类好坏，作为一种是否引入新类别的指标，找出最符合人类认知的分类结果。

发明内容

本发明的目的在于克服现有技术的不足,提供一种基于分类效用的开集分类方法。本发明利用认知心理学中的分类效用作为开集分类任务中引入新类别的指标，解决了开集分类中的未知类别数据识别和新类别的引入问题，并结合增量学习来学习新类别，增强分类器，来应对新数据中可能出现的新类别。

本发明的目的能够通过以下技术方案实现：

一种基于分类效用的开集分类方法，包括步骤：

输入数据集，并对数据集进行预处理；

采用特征提取器将数据转换为特征；

采用训练集的特征训练一个可增量学习少样本分类器；

对于一条新数据，对其进行预处理后采用特征提取器提取特征；

将新数据的特征输入到分类器中，寻找已知类别中分类分数最高的一个类别，并计算分类效用；

将新数据单独作为一个类别，采用新数据的特征计算其分类效用；

比较已知类别与新类别情况下的分类效用大小，当已知类别的分类效用较大时，将新数据作为已知类别的一个样本；当已知类别的分类效用较大时，将新数据作为一个新类别，并对新类别进行增量学习，更新分类器；

对于新到来的新数据，重复提取特征并计算分类效用的步骤，不断增强分类器，增加分类器处理的类别数据。

具体地，所述预处理包括去除数据中的非文本部分、分词、去除停用词、对于英文语料，还需要对英文单词进行词干提取或词型还原、转换大小写。

本发明相较于现有技术，具有以下的有益效果：

本发明基于认知心理学中的分类效用对引入的新类别进行开集分类，为引入新类别提供了理论支撑。本发明依据分类效用指导新类别的引入，能够考虑已知类别的分类标准引入新类别，在识别出新类别后，能够结合现有增量学习方法，增加分类器识别类别数目，增强分类器的处理能力。

附图说明

图1为本发明中一种基于分类效用的开集分类方法的流程图。

图2为本发明中一种基于分类效用的开集分类方法对新数据进行分类的流程图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

本实施例提供了一种基于分类效用的开集分类方法，所述方法的流程图如图1所示，包括以下步骤：

(1)输入数据集，并对数据集进行预处理。

本实施例以文本分类任务为例，数据集由多个原始文本组成，记数据集为D＝{(rd ₁，y ₁)，(rd ₂，y ₂)，...，(rd _i，y _i)，...，(rd _n，y _n)}，其中，rd _i表示第i个原始文本，y _i表示第i个原始文本所对应的标签，n为数据集包含的文本数。已知类别记为C _known＝{c ₁，c ₂，...，c _k，...，c _K}，其中，c _k表示第k个类别，K为已知类别的个数，且有

对于数据集预处理包括去除数据中的非文本部分、分词、去除停用词，对于英文语料，还需要对英文单词进行词干提取或词型还原、转换大小写。记预处理后的数据集为D _processed＝{(d ₁，y ₁)，(d ₂，y ₂)，...，(d _i，y _i)，...，(d _n，y _n)}，其中，d _i表示第i个原始文本预处理后的文本。

(2)采用特征提取器将数据转换为特征。

所述特征提取器可以采用人工构建的特征提取器、无监督的特征提取器或有监督的神经网络特征提取部分。

本实施例中以文本分类任务为例，采用有监督的神经网络特征提取部分作为特征提取器，并采用数据集D _processed作为训练集对有监督的神经网络特征提取部分进行训练。

在本实施例中，特征提取过程为：

采用卷积神经网络作为分类器，采用预处理后的数据集D _processed作为卷积神经网络的输入，输出为数据属于已知类别的概率矩阵，表示为：

其中，矩阵的每一行代表一个原始文本，每一列代表一个类别，矩阵的第i行第j列表示第i个文本属于第j个类别的概率。

在本实施例中，卷积神经网络的最后一层为概率计算层，倒数第二层的输出为提取的特征。因此，将卷积神经网络的倒数第二层之前(包括倒数第二层)的神经网络作为特征提取器，卷积神经网络训练完毕后固定神经网络的参数，并存储卷积神经网络提取的特征矩阵，表示为：

其中，矩阵的每一行代表一个文本，每一列代表一组特征，矩阵的第i行第j列表示第i个文本第j维特征的特征值。

(3)采用步骤(2)中的训练集的特征作为输入训练特征来训练一个可增量学习少样本分类器。

本实施例中的分类器采用注意吸引子网络。

(4)对于一条新数据，记为rd _n+1，对新数据进行预处理并采用步骤(2)中的特征提取器对预处理后的数据d _n+1进行特征提取，存储该特征，记为F _n+1＝(f _n+1，1，f _n+1，2，...，f _n+1，L)。

(5)将步骤(4)中新数据的特征F _n+1输入到步骤(3)中的分类器中，寻找分类器预测的已知类别中分类分数最高的类别，计算分类效用，包括步骤：

(5-1)选取与新数据的特征相对应的分类效用。

特征可以分为连续型特征和离散型特征，离散型特征可选用适用离散型特征的分类效用，以其中的一种为例，计算公式为：

其中，I为特征的个数，K为已知类别的个数，P(f _i|c _k)表示第k个类别出现第i维特征的概率，P(f _i)表示未分类前数据出现第i维特征的概率，P(c _k)表示第k个类别出现的概率。

连续型特征可选用适用连续型特征的分类效用，以其中的一种为例，计算公式为：

其中，I为特征的个数，K为已知类别的个数，σ _ik表示第k个类别内第i维特征的标准差，σ _ip表示未分类前所有数据第i维特征的标准差，P(c _k)表示第k个类别出现的概率。

本发明针对连续型特征进行处理，并且由于卷积神经网络的倒数第二层的输出为连续值，因此本实施例选择使用于连续型特征的分类效用。

(5-2)以新数据的特征F _n+1作为步骤(3)中的分类器的输入，预测新数据属于已知类别中分类分数最高的类别，将预测结果记为

其中

(5-3)将预测结果与已知分类结果D _processed进行合并，合并后分类结果记为

合并新数据的特征F _n+1和已知分类数据的特征矩阵F，表示为：

(5-4)根据合并后的特征矩阵F _merged统计n+1个文本中每一维特征的标准差，存储未分类前的标准差向量σ _p＝(σ _1，p，σ _2，p，...，σ _l，p，...，σ _L，p)。

(5-5)根据合并后的分类结果D _merged，按照类别划分数据，统计F _merged中每个类别每一维特征的标准差，标准差矩阵表示为：

其中，矩阵的每一行代表一个类别，每一列代表一组特征，矩阵的第k行第l列表示第k个类别第l维特征的标准差。

(5-6)使用数据集中每个类别的文本数和数据集总的文本数估计每个类别出现的概率，即

其中n _k表示第k个类别的文本数，n为数据集中的文本数。

(5-7)将步骤5(5-4)至(5-6)得到的p(c _k)、σ _p、σ代入步骤(5-1)的分类效用计算公式中，得到将新数据分到已知类别的分类效用，记为CU _merged。

(6)将步骤(4)的新数据特征单独作为一个类别c _K+1，并计算该情况下的分类效用，包括步骤：

(6-1)预测新数据属于未知类别c _K+1，将预测结果记为

其中

(6-2)将预测结果与已知分类结果D _processed进行合并，合并后分类结果记为D _split＝{(d ₁，y ₁)，(d ₂，y ₂)，...，(d _i，y _i)，...，(d _n，y _n)，(d _n，c _K+1)}。

(6-3)根据合并后的分类结果D _split，按照类别划分数据，统计F _merged中每个类别每一维特征的标准差，标准差矩阵表示为：

进一步地，由于分类效用中的计算要求标准差不能为零，对于标准差为零的情况用极小值代替，例如0.001。

(6-4)使用数据集中每个类别的文本数和数据集总的文本数估计每个类别出现的概率，即

其中n _k表示第k个类别的文本数，n为数据集中文本数。

(6-5)将步骤(5-4)、(6-3)、(6-4)得到的σ _p、σ、p(c _k)代入步骤(5-1)的分类效用计算公式中，得到将新数据分到新类别的分类效用，记为CU _split。(7)比较步骤(5)和步骤(6)之间的分类效用大小，当CU _merged较大，把步骤(4)的新数据当成已知类别C的一个样本，更新数据集

更新数据集样本数n＝n+1；当CU _split较大，把步骤(4)的新数据当成一个新类别，并使用增量学习新类别，更新步骤(3)的分类器，更新数据集为D _split＝{(d ₁，y ₁)，(d ₂，y ₂)，...，(d _i，y _i)，...，(d _n，y _n)，(d _n，c _K+1)}。

更新数据集样本数n＝n+1，更新已知类别C _known＝{c ₁，c ₂，...，c _k，...c _K，c _K+1}，更新已知类别数目K＝K+1；

(8)对于新到来的每一条数据，重复步骤(4)到步骤(7)，不断增强分类器，增加分类器处理的类别数量。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

一种基于分类效用的开集分类方法，其特征在于，包括步骤：

输入数据集，并对数据集进行预处理；

采用特征提取器将数据转换为特征；

采用训练集的特征训练一个可增量学习少样本分类器；

对于一条新数据，对其进行预处理后采用特征提取器提取特征；

将新数据的特征输入到分类器中，寻找已知类别中分类分数最高的一个类别，并计算分类效用；

将新数据单独作为一个类别，采用新数据的特征计算其分类效用；

比较已知类别与新类别情况下的分类效用大小，当已知类别的分类效用较大时，将新数据作为已知类别的一个样本；当已知类别的分类效用较大时，将新数据作为一个新类别，并对新类别进行增量学习，更新分类器；

对于新到来的新数据，重复提取特征并计算分类效用的步骤，不断增强分类器，增加分类器处理的类别数据。
根据权利要求1所述的方法，其特征在于，数据集预处理包括去除数据中的非文本部分、分词、去除停用词，对于英文语料，还需要对英文单词进行词干提取或词型还原、转换大小写。
根据权利要求1所述的方法，其特征在于，所述特征提取器包括但不限于人工构建的特征提取器、无监督的特征提取器和有监督的神经网络特征提取部分。
根据权利要求1所述的方法，其特征在于，所述分类器采用注意吸引子网络。
根据权利要求1所述的方法，其特征在于，所述将新数据的特征输入到分类器中，寻找已知类别中最可能的一个类别，并计算分类效用的步骤中，特征可以分为连续型特征和离散型特征，只针对连续性特征的分类效用，包括：

选取与新数据的特征相对应的分类效用；

以新数据的特征作为分类器的输入，预测新数据属于已知类别中最可能的类别；

将预测结果与已知分类结果进行合并；

根据合并后的特征矩阵统计n+1个样本中每一维特征的标准差，存储未分类前的标准差向量；

根据合并后的分类结果，按照类别划分数据，统计合并后特征矩阵中每个类别每一维特征的标准差；

使用数据集中每个类别的样本数和数据集总的样本数估计每个类别出现的概率；

将得到的第k个类别出现的概率、未分类前的标准差向量和标准差矩阵代入分类效用计算公式中，得到将新数据分到已知类别的分类效用。
根据权利要求5所述的方法，其特征在于，连续型特征的分类效用，计算公式为：

其中，I为特征的个数，K为已知类别的个数，σ _ik表示第k个类别内第i维特征的标准差，σ _ip表示未分类前所有数据第i维特征的标准差，P(σ _k)表示第k个类别出现的概率。
根据权利要求1所述的方法，其特征在于，所述将新数据单独作为一个类别，采用新数据的特征计算其分类效用的步骤中，包括：

预测新数据属于未知类别；

将预测结果与已知分类结果进行合并；

根据合并后的分类结果，按照类别划分数据，统计合并后特征矩阵中每个类别每一维特征的标准差；

使用数据集中每个类别的样本数和数据集总的样本数估计每个类别出现的概率；

得到的第k个类别出现的概率、未分类前的标准差向量和标准差矩阵代入分类效用计算公式中，得到将新数据分到新类别的分类效用。
根据权利要求5或7所述的方法，其特征在于，由于分类效用中的计算要求标准差不能为零，对于标准差为零的情况用极小值代替。