WO2018040387A1

WO2018040387A1 - 基于支持向量数据描述的特征提取及分类方法及其系统

Info

Publication number: WO2018040387A1
Application number: PCT/CN2016/110747
Authority: WO
Inventors: 张莉; 卢星凝; 王邦军; 李凡长; 张召
Original assignee: 苏州大学
Priority date: 2016-08-30
Filing date: 2016-12-19
Publication date: 2018-03-08
Also published as: EP3346419A1; US20180322416A1; CN106446931A; EP3346419A4

Abstract

一种基于支持向量数据描述的特征提取及分类方法，包括分别计算每个样本到对应于各种数据类型的多个超球体模型的球心的欧氏距离；其中多个超球体模型采用支持向量数据描述算法预先训练得到（s101）；将各个欧氏距离与其对应的超球体模型的半径带入新特征关系式，得到每个样本对应的新特征样本；各个新特征样本的集合为新特征样本集（s102）；采用预设分类算法对新特征样本集进行分类处理，得到分类结果（s103）。本方法能够减小特征提取时的计算量，提高数据分类的速度。一种采用上述方法的基于支持向量数据描述的特征提取及分类系统，具有上述优点。

Description

基于支持向量数据描述的特征提取及分类方法及其系统

本申请要求于2016年8月30日提交中国专利局、申请号为201610767804.3、发明名称为“基于支持向量数据描述的特征提取及分类方法及其系统”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及特征提取技术领域，特别是涉及一种基于支持向量数据描述的特征提取及分类方法及其系统。

背景技术

特征提取作为一种常用的降维方法，主要用来处理包含大量对象的任务。这些任务中涉及的样本一般都是有着固定特征的大容量数据，可以是二值的，离散多值的或者连续的数据。在进行数据处理过程中，使用所有数据的全部信息虽更有利于获得精准的判断决策，但是在实际操作时，数据的原始信息中往往会包含了相关、噪声甚至冗余的变量或者属性，不对数据进行处理而直接应用，会导致大量的成本支出，这些可能的成本包括内存容量大小、时间复杂度和决策精度等。为了提高数据存储和计算性能，需要采用特征提取方法来找到原始数据中紧凑的样本信息。

特征提取是通过从原始输入数据中捕获关键关联信息，来构建一个新的特征子集。在特征提取方法中，每一个新的特征都是所有原始特征的函数映射。目前多采用基于支持向量机(Support Vector Machine，SVM)的特征提取方法。SVM是一种构建超平面的二分类方法，通过一对一和一对多的模式来构建多类数据之间的分类，并计算样本到超平面的距离来构建新特征。该方法充分考虑了不同类别的数据信息，但是当数据量较大时，计算复杂度也会十分明显，尤其是一对多方法。

因此，如何提供一种计算量小的基于支持向量数据描述的特征提取及分类方法及其系统是本领域技术人员目前需要解决的问题。

发明内容

本发明的目的是提供一种基于支持向量数据描述的特征提取及分类方法及其系统，能够减小特征提取时的计算量，提高数据分类的速度。

为解决上述技术问题，本发明提供了一种基于支持向量数据描述的特征提取及分类方法，包括：

分别计算每个样本到对应于各种数据类型的多个超球体模型的球心的欧氏距离；其中多个所述超球体模型采用支持向量数据描述算法预先训练得到；

将各个所述欧氏距离与其对应的所述超球体模型的半径带入新特征关系式，得到每个所述样本对应的新特征样本；各个所述新特征样本的集合为新特征样本集；

采用预设分类算法对所述新特征样本集进行分类处理，得到分类结果。

优选地，所述多个所述超球体模型的获得过程具体为：

将预先获得的原始训练样本按照数据类别分为J个训练子集X_j＝{(x_i,y_i)|x_i∈R^m,y_i＝j,i＝1,…,n_j}，其中，j为数据类别，j＝1,…,J；R^m为维度为m的实数集合，n为所述训练样本总数，n_j表示第j个所述训练子集中的样本数目，

采用所述支持向量数据描述算法分别对J个所述训练子集进行训练，得到J个所述超球体模型。

优选地，所述新特征关系式具体为：

其中，新特征样本为

R_j为第j个所述训练子集对应的所述超球体模型的半径，a_j为第j个所述训练子集对应的所述超球体模型的球心。

优选地，所述预设分类算法包括：

神经网络分类算法或支持向量机分类算法。

为解决上述技术问题，本发明还提供了一种基于支持向量数据描述的特征提取及分类系统，包括：

距离计算单元，用于分别计算每个样本到对应于各种数据类型的多个超球体模型的球心的欧氏距离；其中多个所述超球体模型采用支持向量数据描述算法预先训练得到；

新特征生成单元，用于将各个所述欧氏距离与其对应的所述超球体模型的半径带入新特征关系式，得到每个所述样本对应的新特征样本；各个所述新特征样本的集合为新特征样本集；

分类单元，用于采用预设分类算法对所述新特征样本集进行分类处理，得到分类结果。

优选地，所述分类单元为：

神经网络分类器或支持向量机分类器。

本发明提供了一种基于支持向量数据描述的特征提取及分类方法，计算样本到多个预设的超球体模型的球心的欧氏距离，并依据该欧氏距离以及对应的超球体模型的球心计算得到样本对应的新特征样本，进而得到新特征样本集，进而进行分类。即本发明采用支持向量数据描述算法中的超球体模型进行特征提取操作，进而对提取出来的新特征样本进行分类处理，相比SVM算法，计算量小，提高了数据分类的速度。本发明还提供了一种基于支持向量数据描述的特征提取及分类系统，也具有上述效果，在此不再赘述。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种基于支持向量数据描述的特征提取及分类方法的过程的流程图；

图2为本发明提供的一种基于支持向量数据描述的特征提取及分类系统的结构示意图。

具体实施方式

本发明的核心是提供一种基于支持向量数据描述的特征提取及分类方法及其系统，能够减小特征提取时的计算量，提高数据分类的速度。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供了一种基于支持向量数据描述的特征提取及分类方法，参见图1所示，图1为本发明提供的一种基于支持向量数据描述的特征提取及分类方法的过程的流程图；该方法包括：

步骤s101：分别计算每个样本到对应于各种数据类型的多个超球体模型的球心的欧氏距离；其中，多个超球体模型采用支持向量数据描述算法预先训练得到；

步骤s102：将各个欧氏距离与其对应的超球体模型的半径带入新特征关系式，得到每个样本对应的新特征样本；各个新特征样本的集合为新特征样本集；

步骤s103：采用预设分类算法对新特征样本集进行分类处理，得到分类结果。

其中，这里的预设分类算法包括：

神经网络分类算法或支持向量机分类算法。当然，也可采用其他分类算法，本发明对此不作限定。

作为优选地，多个超球体模型的获得过程具体为：

将预先获得的原始训练样本按照数据类别分为J个训练子集X_j＝{(x_i,y_i)|x_i∈R^m,y_i＝j,i＝1,…,n_j}，其中，j为数据类别，j＝1,…,J；R^m为维度为m的实数集合，n为训练样本总数，n_j表示第j个训练子集中的样本数目，

采用支持向量数据描述算法分别对J个训练子集进行训练，得到J个超球体模型。

其中，新特征关系式具体为：

其中，新特征样本为

R_j为第j个训练子集对应的超球体模型的半径，a_j为第j个训练子集对应的超球体模型的球心。

在计算新特征样本集时，具体包括多少个超球体模型根据实际的数据类别个数决定，本发明不限定训练子集的类别数量以及内容。

可以理解的是，原始训练样本的数据维度为m，即采用超球体模型计算样本的新特征样本时，原始样本的维度为m，由上述新特征关系式可知，新特征样本的维度为J，并且一般类别数J小于m，故本发明采用的基于支持向量数据描述的特征提取方法能够实现数据降维的目的。

为进一步理解本发明的有益效果，参见表1-表3所示，表1为一种具体实施例中Isolet数据集的描述情况，表2为本发明与SVM算法的分类效果比较结果，表3为本发明与SVM算法的执行时间比较结果。

数据集	类别	特征数	样本总数	训练样本数	测试样本数
Isolet	26	617	7797	6238	1559

表1 一种具体实施例中Isolet数据集的描述情况

表2 本发明与SVM算法的分类效果比较结果(％)

表3 本发明与SVM算法的执行时间比较结果

本发明提供了一种基于支持向量数据描述的特征提取及分类方法，计算样本到多个预设的超球体模型的球心的欧氏距离，并依据该欧氏距离以及对应的超球体模型的球心计算得到样本对应的新特征样本，进而得到新特征样本集，进而进行分类。即本发明采用支持向量数据描述算法中的超球体模型进行特征提取操作，进而对提取出来的新特征样本进行分类处理，相比SVM算法，计算量小，分类效果好，执行时间短，提高了数据分类的速度。

本发明还提供了一种基于支持向量数据描述的特征提取及分类系统，参见图2所示，图2为本发明提供的一种基于支持向量数据描述的特征提取及分类系统的结构示意图。该系统包括：

距离计算单元11，用于分别计算每个样本到对应于各种数据类型的多个超球体模型的球心的欧氏距离；其中多个超球体模型采用支持向量数据描述算法预先训练得到；

新特征生成单元12，用于将各个欧氏距离与其对应的超球体模型的半径带入新特征关系式，得到每个样本对应的新特征样本；各个新特征样本的集合为新特征样本集；

分类单元13，用于采用预设分类算法对新特征样本集进行分类处理，得到分类结果。

具体的，这里的分类单元13为：

神经网络分类器或支持向量机分类器。当然，本发明对此不作限定。

本发明提供了一种基于支持向量数据描述的特征提取及分类系统，计算样本到多个预设的超球体模型的球心的欧氏距离，并依据该欧氏距离以及对应的超球体模型的球心计算得到样本对应的新特征样本，进而得到新特征样本集，进而进行分类。即本发明采用支持向量数据描述算法中的超球体模型进行特征提取操作，进而对提取出来的新特征样本进行分类处理，相比SVM算法，计算量小，分类效果好，执行时间短，提高了数据分类的速度。

需要说明的是，在本说明书中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其他实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

一种基于支持向量数据描述的特征提取及分类方法，其特征在于，包括：

分别计算每个样本到对应于各种数据类型的多个超球体模型的球心的欧氏距离；其中多个所述超球体模型采用支持向量数据描述算法预先训练得到；

将各个所述欧氏距离与其对应的所述超球体模型的半径带入新特征关系式，得到每个所述样本对应的新特征样本；各个所述新特征样本的集合为新特征样本集；

采用预设分类算法对所述新特征样本集进行分类处理，得到分类结果。
根据权利要求1所述的方法，其特征在于，所述多个所述超球体模型的获得过程具体为：

将预先获得的原始训练样本按照数据类别分为J个训练子集X_j＝{(x_i,y_i)|x_i∈R^m,y_i＝j,i＝1,…,n_j}，其中，j为数据类别，j＝1,…,J；R^m为维度为m的实数集合，n为所述训练样本总数，n_j表示第j个所述训练子集中的样本数目，

采用所述支持向量数据描述算法分别对J个所述训练子集进行训练，得到J个所述超球体模型。
根据权利要求2所述的方法，其特征在于，所述新特征关系式具体为：

其中，新特征样本为

R_j为第j个所述训练子集对应的所述超球体模型的半径，a_j为第j个所述训练子集对应的所述超球体模型的球心。
根据权利要求3所述的方法，其特征在于，所述预设分类算法包括：

神经网络分类算法或支持向量机分类算法。
一种基于支持向量数据描述的特征提取及分类系统，其特征在于，包括：

距离计算单元，用于分别计算每个样本到对应于各种数据类型的多个超球体模型的球心的欧氏距离；其中多个所述超球体模型采用支持向量数据描述算法预先训练得到；

新特征生成单元，用于将各个所述欧氏距离与其对应的所述超球体模型的半径带入新特征关系式，得到每个所述样本对应的新特征样本；各个所述新特征样本的集合为新特征样本集；

分类单元，用于采用预设分类算法对所述新特征样本集进行分类处理，得到分类结果。
根据权利要求5所述的系统，其特征在于，所述分类单元为：

神经网络分类器或支持向量机分类器。