WO2022178978A1

WO2022178978A1 - 一种基于最大化比率和线性判别分析的数据降维方法

Info

Publication number: WO2022178978A1
Application number: PCT/CN2021/090835
Authority: WO
Inventors: 王靖宇; 王红梅; 聂飞平; 李学龙
Original assignee: 西北工业大学
Priority date: 2021-02-26
Filing date: 2021-04-29
Publication date: 2022-09-01
Also published as: CN112836671A; US20240029431A1; CN112836671B

Abstract

本发明涉及一种基于最大化比率和线性判别分析的数据降维方法，属于图像分类与模式识别领域。包括构建数据矩阵、标签向量和标签矩阵；计算类内协方差矩阵和类间协方差矩阵；构建基于最大化比率和的线性判别分析的优化问题；采用交替优化迭代算法求解能够最大化目标函数的投影矩阵。本发明建立了基于最大化比率和的线性判别分析方法的目标函数，避免了传统线性判别分析倾向于选择小方差、鉴别能力弱的特征的问题，能够选择更有利于分类的特征。不依赖类内协方差矩阵的逆矩阵的计算，不需要进行数据预处理，提高了数据降维方法对原始数据特征的适应性。

Description

一种基于最大化比率和线性判别分析的数据降维方法

技术领域

本发明属于图像分类与模式识别领域，具体涉及一种基于最大化比率和线性判别分析的数据降维方法。

背景技术

数据降维技术是图像分类和模式识别领域的一个重要的研究课题。在大数据背景下，在实际应用场景中直接获取的原始数据量是巨大的，这些数据的高维度和高冗余对数据存储和数据处理造成了极大的困难，并且提高了对数据存储和处理的硬件平台的要求。数据降维是对原始高维数据进行降维处理，在保证降维后的数据仍然保留原始数据包含的大部分信息的同时，尽可能降低数据的维度，以提高数据存储和处理效率，降低对硬件和后续数据处理算法的要求。由于数据降维能减少数据维度和需要的存储空间，节约模型训练计算时间，提高后面应用算法的准确度，数据降维技术已经被广泛应用于人脸识别、高光谱图像分类、中草药分类的等实际应用场景的前期数据处理中。

目前的数据降维方法包括特征选择和特征提取两类，特征选择方法是从原始高维数据中直接选择关键特征，特征提取是将现有特征投影到新空间形成新特征。前者有利于保留数据的物理意义，而后者获得的新特征难以解释，但是特征选择的效果相对于特征提取略逊一筹。线性判别分析时特征提取的常用方法，它能够很好地保留数据的判别信息，常用于数据分类的预处理步骤。但是传统的线性判别分析的降维后数据维度不能高于或等于数据的总类别数，并且在求解过程中容易由于矩阵的非奇异性导致不可求解。

图像分类的原始数据特征往往是高维度的，过高的维度反而可能导致分类精度降低，并且原始数据含有冗余信息，将其直接用于分类工作会导致数据处理速度慢、分类精度低等问题。随着高光谱技术的发展，高光谱成像已经广泛应用于地物分类，如何对高维度的高光谱数据进行降维，进而降低数据存储处理成本、提取数据的关键特征和类别信息，具有重大的实际意义。

杨明莉，范玉刚，李宝芸(《基于LDA和ELM的高光谱图像降维与分类方法研究》,电子测量与仪器学报,2020,34(05):190-196.)采用线性判别分析对高光谱图像数据进行降维，然后采用极限学习机进行分类。线性判别分析通过学习一个投影矩阵将原始数据从高维空间投影到低维空间，使子空间内的同类样本的相似性更高，不同类别的样本的区别更大。因此线性判别分析能够较好地降低数据维度，并且强化类别特征，进而使最终的高光谱图像地物分类的速度提高、分类精度提高。

但是采用传统的线性判别分析方法趋向于选择方差小的特征，这些特征难以有效区分类别，并且传统线性判别分析在求解过程中需要对类内协方差矩阵求逆，但是很多时候该矩阵是奇异的，此时该方法失效，不能进行对高光图像进行数据降维。通常情况下，传统的线性判别分析必须通过预处理保证类内协方差矩阵的奇异性，才能实现高维数据的降维，从而导致数据处理流程复杂以及预处理算法和数据降维算法相互影响的问题。

发明内容

要解决的技术问题

针对已经提出的传统线性判别分析趋向于选择方差小且判别力低的特征，并且优化问题的求解依赖于可逆的类内协方差矩阵的问题，本发明提出了一种基于最大化比率和线性判别分析的数据降维方法；由于降维方法的不完善导致在图像分类方法中的效率低和准确率不高的问题，本发明提出了一种高光谱图像的地物分类方法。

技术方案

一种基于最大化比率和线性判别分析的数据降维方法，其特征在于步骤如下：

步骤1：根据图像构建数据矩阵、标签向量和标签矩阵；所述的图像为高光谱图像、中草药图像或人脸图像；

步骤2：计算类内协方差矩阵和类间协方差矩阵；

步骤3：构建基于最大化比率和的线性判别分析的优化问题

设计最优化问题的目标函数为

其中优化变量为投影矩阵

约束为W ^TW＝I；构建F(W)的等价目标函数

其中优化变量为投影矩阵

以及向量

约束为W ^TW＝I；其中，m是最终要投影的子空间特征维度，σ是一个自适应参数；S _w为类内协方差矩阵和S _b为类间协方差矩阵；

步骤4：求解能够最大化目标函数的投影矩阵。

本发明技术方案更进一步的说：步骤1具体如下：获得一组特征维度为d的n个样本，

x _i的每一个元素值为数据对应的样本的特征的值，n个样本的类别标签向量为

其中y _i＝1,2,...,c表示第i个样本的类别，c为样本的类别总数；采用n个样本构建训练样本矩阵

利用标签向量构造标签矩阵

其中标签矩阵的每一个元素的值定义为：

其中i＝1,2,...,n，j＝1,2,...,c。

本发明技术方案更进一步的说：步骤2具体如下：

S _w＝X((I _n-G(G ^TG) ^-1G ^T)/n)X ^T

其中X和G分别是步骤1得到的样本矩阵和标签矩阵，

是n阶单位矩阵，

是一个n维全1列向量。

本发明技术方案更进一步的说：步骤4中采用交替迭代优化算法求解投影矩阵

一种采用上述的降维方法实现的高光谱图像的地物分类方法，其中步骤1中的样本为高光谱图像，特征值取单一波段的灰度化之后的灰度值；n为单一波段的像素总数，c为像素地物类别总数；依次进行步骤1-4得到投影矩阵；利用投影矩阵对获取的未知标签的高光谱图像内对应像素在所有波段的灰度构成的数据矩阵进行投影，得到投影后的样本矩阵Z；将Z的每一列作为新的未知标签的地物对应的像素的所有特征序列，将投影后的新的像素样本采用已经用训练样本训练好的K近邻分类器进行分类，最后得到未知标签地物对应的像素的类别标签。

优选地：所述的K近邻分类器的k＝3。

有益效果

本发明提出的一种基于最大化比率和线性判别分析的数据降维方法，建立了基于最大化比率和的线性判别分析方法的目标函数，避免了传统线性判别分析倾向于选择小方差、鉴别能力弱的特征的问题，能够选择更有利于分类的特征。

采用交替优化迭代算法求解最大化比率和的线性判别分析的最优化问题，该算法不依赖类内协方差矩阵的逆矩阵的计算，不需要进行数据预处理，提高了数据降维方法对原始数据特征的适应性。

本发明提出的一种高光谱图像的地物分类方法，最大化投影子空间内所有特征维度的类间距离和类内距离之比的和，这能够避免在特征提取时选择小方差的样本特征，有利于提高分类精度。采用交替迭代优化方法对最大化比率和的问题进行求解，求解过程不涉及矩阵求逆步骤，避免了类内协方差矩阵奇异导致的基于线性判别分析的分类方法不可求解的问题。因此，本发明能够更好地实现高维数据降维并且提取更加有效的特征，从而降低高光谱数据存储难度、提高数据处理速度、提取数据更加有效的特征，最终提高地物分类的分类精确度。

附图说明

图1是本发明降维方法流程图。

图2是实际场景的灰度图像。

图3是地物分类精度结果图。

具体实施方式

现结合实施例、附图对本发明作进一步描述：

本发明最大化比率和线性判别分析的数据降维方法基本流程如图1所示，下面结合对实际场景的高光谱图像的地物分类实例说明本发明的具体实施方式，但本发明的技术内容不限于所述的范围。

本发明提出一种基于最大化比率和线性判别分析的高光谱图像的地物分类方法，包括以下步骤：

步骤一、获取一组特征维度均为d的高光谱图像(即高光谱波段总数为d)，采用的实际地物数据集中特征维度d为103。特征的值为每个波段对应像素的灰度值。其单一波段的像素总数为n个，对于使用的真实数据集等距采样，训练样本为2074个，并且获得所有像素的地物类别标签共10类，进而构造数据矩阵、标签向量、标签矩阵、类内协方差矩阵和类间协方差矩阵。主要分为如下两个过程：

(1)一组特征维度均为d的高光谱图像(特征值取单一波段的灰度化之后的灰度值)，其单一波段的像素总数为n个，第i个像素的所有特征表示为

其中i＝1,2,...,n，x _i的第j个元素代表第i个像素的第j个特征的值，

表示所有训练数据集的标签向量，其中 y _i＝1,2,...,c，c为像素地物类别总数。

(2)利用标签向量

构造标签矩阵

其中标签矩阵的每一个元素的值定义为：

其中i＝1,2,...,n，j＝1,2,...,c，即每一个像素在其对应的类的位置值为1，其他位置为零。计算类内协方差矩阵S _w和类间协方差矩阵S _b：

S _w＝X((I _n-G(G ^TG) ^-1G ^T)/n)X ^T

其中X和G分别是根据步骤(1)计算的样本矩阵和标签矩阵，

是n阶单位矩阵，

是一个n维全1列向量。

步骤二、建立最优化问题，并求解最优投影矩阵，主要分为如下两个过程：

(1)建立最优化问题，得到最优投影矩阵需要求解最大化子空间每一个特征维度内样本类间距离和类内距离的比率和，即求解最优化问题：

并建立其等价问题：

其中，m是最终要投影的子空间特征维度，σ是一个自适应参数，需要取一个充分大的数保证算法收敛，这里取值为Tr(S _w)×10 ¹⁰。

(2)采用交替迭代优化算法按如下步骤求解最优化问题得到投影矩阵

①初始化投影矩阵：任意给定初值W ₀＝[w _0,1,w _0,2,...,w _0,m]，使其满足W ₀ ^TW ₀＝I，t ₁＝0。

②计算

其中k＝1,2,...,m。

③按如下步骤更新W，计算

i.首先进行初始化，t ₂＝0，初始化

ii.计算矩阵

其中k＝1,2,...,m：

iii.计算

且计算矩阵

iv.对

进行完整的奇异值分解：

其中

为酉矩阵，

为对角阵，且该阵的对角线奇异值是由大到小排列，

为酉矩阵。

v.计算

vi.判断是否满足收敛条件

不满足收敛条件，则令t ₂＝t ₂+1，并回到步骤ii.继续计算；满足收敛条件，则令

停止计算进入步骤④。其中ε ₂为收敛精度可以根据实际应用情况人为给定，此处设置为10 ^-6。

④判断目标函数值

是否满足收敛条件

若不满足收敛条件，令t ₁＝t ₁+1，返回步骤②；若满足收敛条件，则停止计算，需要求解的投影矩阵

至此，经过学习得到的投影矩阵就得到了。其中ε ₁为收敛精度可以根据实际应用情况人为给定，此处设置为10 ^-6。

步骤三、用同一个高光谱相机拍摄需要进行地物分类的区域的高光谱图像，获得特征维度仍为d的高光谱图像，本次使用的图像特征维度为103，特征值取单一波段的灰度化之后的灰度值，其单一波段像素总数为n'，测试样本的总数为8296，这些样本的原始特征的获取与训练数据集的获取方式完全相同。

第i个像素的所有特征表示为

x _i'的第j个元素代表图像的第j个特征的值。然后对未知标签的高光谱图像像素进行分类，主要分为以下两个过程：

(1)利用步骤二得到的投影矩阵对获取的未知标签的高光谱图像内对应像素在所有波段的灰度构成的数据矩阵进行投影，得到投影后的样本矩阵

其中每一列代表一个未知标签的高光谱图像像素的新的一组特征的值，新特征总数为m，即子空间维度为，即

(2)将Z的每一列作为新的未知标签的地物对应的像素的所有特征序列，将投影后的新的像素样本采用已经用训练样本训练好的K近邻分类器(k＝3)进行分类，最后得到未知标签地物对应的像素的类别标签。

从分类结果可以看出，Baseline是采用原始训练数据直接用训练好的K近邻分类器的分类结果，RSLDA是本发明对原始数据降维后采用训练好的K近邻分类器的分类结果。当子空间维度即新的特征数规定分别从1取到60时，本发明的数据降维方法结合分类器进行分类可以得到较高的分类精确度，并且在计算过程中不会因为类内协方差矩阵的奇异性导致数据降维算法不可用。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明公开的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。

Claims

一种基于最大化比率和线性判别分析的数据降维方法，其特征在于步骤如下：

步骤1：构建数据矩阵、标签向量和标签矩阵；所述的数据为高光谱图像、中草药图像或人脸图像；

步骤2：计算类内协方差矩阵和类间协方差矩阵；

步骤3：构建基于最大化比率和的线性判别分析的优化问题

设计最优化问题的目标函数为
其中优化变量为投影矩阵
约束为W ^TW＝I；S _w、S _b分别为类内协方差矩阵和为类间协方差矩阵；构建F(W)的等价目标函数
其中优化变量为投影矩阵
以及向量
约束为W ^TW＝I；其中，m是最终要投影的子空间特征维度，σ是一个自适应参数；

步骤4：求解能够最大化目标函数的投影矩阵。
根据权利要求1所述的一种基于最大化比率和线性判别分析的数据降维方法，其特征在于步骤1具体如下：获得一组特征维度为d的n个样本，
x _i的每一个元素值为数据对应的样本的特征的值，n个样本的类别标签向量为
其中y _i＝1,2,...,c表示第i个样本的类别，c为样本的类别总数；采用n个样本构建训练样本矩阵
利用标签向量构造标签矩阵
其中标签矩阵的每一个元素的值定义为：

其中i＝1,2,...,n，j＝1,2,...,c。
根据权利要求2所述的一种基于最大化比率和线性判别分析的数据降维方法，其特征在于步骤2具体如下：

S _w＝X((I _n-G(G ^TG) ^-1G ^T)/n)X ^T

其中X和G分别是步骤1得到的样本矩阵和标签矩阵，
是n阶单位矩阵，
是一个n维全1列向量。
根据权利要求1所述的一种基于最大化比率和线性判别分析的数据降维方法，其特征在于步骤4中采用交替迭代优化算法求解投影矩阵
一种采用权利要求2所述的降维方法的高光谱图像的地物分类方法，其特征在于其中步骤1中的样本为高光谱图像，特征值取单一波段的灰度化之后的灰度值；n为单一波段的像素总数，c为像素地物类别总数；依次进行步骤1-4得到投影矩阵；利用投影矩阵对获取的未知标签的高光谱图像内对应像素在所有波段的灰度构成的数据矩阵进行投影，得到投影后的样本矩阵Z；将Z的每一列作为新的未知标签的地物对应的像素的所有特征序列，将投影后的新的像素样本采用已经用训练样本训练好的K近邻分类器进行分类，最后得到未知标签地物对应的像素的类别标签。
根据权利要求5所述的一种高光谱图像的地物分类方法，其特征在于所述的K近邻分类器的k＝3。