WO2021073541A1

WO2021073541A1 - 一种基于光谱相似度的校正集和验证集的选择及建模方法

Info

Publication number: WO2021073541A1
Application number: PCT/CN2020/120950
Authority: WO
Inventors: 聂磊; 孙越; 臧恒昌; 曾英姿; 刘肖雁; 苏美; 袁萌; 王林林; 姜红; 楚广诣
Original assignee: 山东大学
Priority date: 2019-10-17
Filing date: 2020-10-14
Publication date: 2021-04-22
Also published as: CN110687072B; CN110687072A; US20210404952A1

Abstract

一种基于光谱相似度的校正集和验证集选择及建模方法，校正集和验证集选择方法包括：对原始样本进行近红外光谱测定，得到原始样本光谱矩阵；随机抽取m个样本作为独立检验集；对于独立检验集中的每个样本，分别计算样本与原始样本中剩余每个样本之间的光谱相似度，获取相似度最高的g个样本写入验证集；对于验证集中的每个样本，分别计算其与原始样本中剩余每个样本之间的光谱相似度，获取相似度最高的n个样本写入校正集。基于选择方法选择的验证集和校正集，得到的模型能够更准确的对未知模型进行预测。

Description

一种基于光谱相似度的校正集和验证集的选择及建模方法

技术领域

本发明属于未知物品预测技术领域，尤其涉及一种基于光谱相似度的校正集和验证集选择及建模方法。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

近红外光谱分析方法(NIR)是当前发展迅速的一种无损、无污染、重现性好的分析技术，随着化学计量学和计算机技术的发展，该技术已在农产品、石油化学、制药、环境、过程控制、临床及生物医学等领域广泛应用。该方法的一大特点是需要借助化学计量学将样品的光谱信息与对应的参考值信息(如含量、来源等)相关联建立模型，通过所建立的模型对未知的样品进行预测，从而实现分析的目的。

为了建立一个准确的模型，需要对现有的样本集进行划分，通过校正集建立模型，用验证集辅助评价模型的效果。因此，如何选择校正集和验证集对模型的适用性和预测能力有极大的影响。样本集的划分对近红外光谱分析至关重要，校正集和验证集的选取是影响模型效果的关键一步，校正集的样本需要具有一定的代表性，包涵尽可能多的样本信息，而验证集是体现模型好坏的一种反馈，如果验证集的样本不能很好地反映该模型对于未知样本的预测能力，那么模型的性能可能无法保证。所以，建立新的模型性能更好、预测能力更强的样本集划分方法，对于当前近红外光谱分析是关键的研究方向之一。

据发明人了解，在近红外光谱分析领域，有两种经典且应用较多的样本集划分方法，分别是Kennard-Stone(KS)法和SPXY法，KS法通过样本间欧氏距离的计算选择有代表性的样本进入校正集，从而使校正集包含了更多的样品信息，但该法有可能将异常样品也选入校正集内，并且在预测未知样本时缺乏一定针对性。SPXY法是在KS法的基础上，将参考值变量(Y)考虑在内，并保证其在各自的空间有相同的权重，有效覆盖多维向量空间。但是这两种方法对于未知样本是否有很好的预测很难确定。

发明内容

为克服上述现有技术的不足，本发明提供了一种基于光谱相似度的校正集和验证集选择及建模方法，对于未知样本具有更好的预测性能。

为实现上述目的，本发明的一个或多个实施例提供了如下技术方案：

一种基于光谱相似度的校正集和验证集选择方法，包括以下步骤：

对原始样本进行近红外光谱测定，得到原始样本光谱矩阵；

进一步地，还对原始样本测定多个参考值，得到原始样本参考值矩阵。

进一步地，得到原始样本光谱矩阵和原始样本参考值矩阵后，还对原始样本光谱矩阵进行异常值检测，将异常值剔除，并将原始样本参考值矩阵中相应的参考值剔除。

随机抽取m个样本作为独立检验集，模拟未知样本；

对于独立检验集中的每个样本，分别计算该样本与原始样本中剩余每个样本之间的光谱相似度，获取相似度最高的g个样本写入验证集；

对于验证集中的每个样本，分别计算其与原始样本中剩余每个样本之间的光谱相似度，获取相似度最高的n个样本写入校正集。

进一步地，样本之间的光谱相似度采用欧氏距离计算。

进一步地，设经异常值剔除后的原始样本数量为N，m、g与n的关系满足：g≤n≤(N-m)。

进一步地，对n取不同值时分别进行建模，基于模型性能优化n的取值，得到优化后的模型参数值。

一个或多个实施例提供了一种基于所述校正集和验证集选择方法的建模方法，获取校正集相应的参考值矩阵，对于参考值矩阵中的每一参考值，分别与光谱矩阵进行关联建模。

进一步地，所述方法还包括：

基于验证集对模型参数进行优化；

基于检验集对校正集组成样本的优化；

基于独立检验集对模型性能进行评价。

进一步地，所述方法还包括基于校正集、验证集和独立检验集对模型性能进行综合评价。

以上一个或多个技术方案存在以下有益效果：

本发明的校正集和验证集的划分方法，从以用于检验模型性能的验证数据(即独立检验集，模型建立后视为未知样本对模型性能进行检验)出发，基于独立检验集，以光谱相似度为依据，选取与独立检验集相似光谱的样本进入验证集，以验证集的预测效果侧面体现对未知样本的预测能力，然后基于验证集，选取与验证集相似光谱的样本进入校正集，保证了建立的模型是针对未知样本的模型，并且与目前常用的方法比较，可以确切地证明其对于未知样本的建模性能更好，预测能力更强。

校正集和验证集的选取还涉及样本数量的选择，本发明对校正集样本数目进行了优化，可以实现选用较少的样本数目达到更好的预测效果。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明一个或多个实施例涉及的校正集和验证集的选择方法及建模方法流程图。

图2为实施例1中所有样本的原始近红外光谱；

图3为实施例1去除异常样本之后的主成分投影图；

图4为实施例1验证集RMSEV和独立检验集RMSEP变化规律图；

图5为实施例1验证集相关系数R _v和独立检验集相关系数R _p变化规律图；

图6为实施例2所有样本的原始近红外光谱；

图7为实施例2除异常样本之后的主成分投影图；

图8为实施例2验证集RMSEV和独立检验集RMSEP变化规律图；

图9为实施例2验证集相关系数R _v和独立检验集相关系数R _p变化规律图；

图10为实施例3验证集RMSEV和独立检验集RMSEP变化规律图；

图11为实施例3验证集相关系数R _v和独立检验集相关系数R _p变化规律图；

图12为实施例4验证集RMSEV和独立检验集RMSEP变化规律图；

图13为实施例4验证集相关系数R _v和独立检验集相关系数R _p变化规律图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

本发明的一个优选实施例公开了一种用于近红外定量建模的校正集和验证集的选择方法，以公开的玉米数据为例，测定的样本数共有80个，包括样本的重复。如图1所示，该方法包括以下步骤：

步骤1：对原始样本进行近红外光谱测定，得原始样本光谱矩阵X；

步骤2：采用参考方法测定原始样本的参考值，得原始样本参考值矩阵Y；

本实施例中对于玉米的参考值选择四个质量指标成分：水、油、蛋白质和淀粉，构建参考值矩阵Y，每一列代表一个参数。

步骤3：对原始样本光谱矩阵X进行异常值检测，将异常值剔除，并将参考值Y矩阵相应的参考值剔除；

样本的原始图谱见图2所示，首先进行异常样本的剔除，通过Hotelling T ²方法，检测到3个异常样本，剔除之后剩余77个样本。去除异常值后的样本近红外光谱的主成分投影图如图3所示。由图3可见，剩余的样本通过Hotelling T ²检验(在椭圆圈内)，已没有异常样本。

步骤4：随机抽取m个样本组成独立检验集，用于模拟需要预测的未知样本；

在剔除异常值后的光谱原始矩阵X中，抽取一定量的样本组成独立检验集，模拟需要预测的未知样本，相应的光谱矩阵记为X _t，其对应参考值记为Y _t，X _t和Y _t的样本一一对应；独立检验集的样本数量应根据实际需要进行确定，一般不应多于校正集的样本数量，和验证集样本的数量相当，且参考值的范围一般应包含于校正集样本的参考值范围。

本实施例中随机抽取10(m＝10)个样本作为独立检验集。一般情况下，如只划分校正集和验证集，校正集和验证集常采用的比例为2:1，3:1或4:1；如要考虑独立检验集，校正集、验证集和独立检验集比例可划分为4:1:1,6:1:1或8:1:1等。

步骤5：对于独立检验集中的每个样本，分别计算其与原始样本中剩余每个样本之间的光谱相似度，获取与该样本光谱相似度最高的多个样本并进行去重处理，写入验证集，并获取相应的光谱矩阵X _v和参数值矩阵Y _v；

由于光谱信息获得容易，检测迅速，且假定独立检验集中的样本只有光谱信息已经测定，故可以根据光谱相似的原则选取验证集样本，以验证集的预测效果间接反映对待测未知样本的预测能力。具体方法如下：以独立检验集中的每个样本为参考，分别计算其与剩余每个样本光谱X _i之间的欧氏距离D _i并进行排序，距离越相近，表明独立检验集中的该样本与剩余样本中的某一样本光谱越相似。依次对独立检验集中每一样本进行如上计算，则独立检验集的每一样本都可从剩余样本中找到其最相似的g个样本，根据实际样本数目和建模要求，可为每个独立检验集样本选取最相似的g个样本组成验证集，然后去掉多余的重复样本，即为最终的验证集，相应的光谱集记为X _v，对应的参考值记为Y _v，其中g≥1的正整数。

本实施例中，对剩余67个样本进行划分，计算独立检验集对应的光谱矩阵X _t中每个样本与剩余样本光谱矩阵X _i之间的欧氏距离D _i并排序，为独立检验集X _t中每个样本选取最相似的1个样本(即g＝1)，去除多余的重复样本，组成最终的验证集X _v，X _v的样本个数约在8～10之间，对应的参考值矩阵记为Y _v。选择与独立检验集最相似的样本作为验证集样本，该样本可以模拟独立检验集样本对模型效果进行反馈，从而达到更好的预测效果。

独立检验集X _t中每个样本与剩余样本X _i之间欧氏距离的计算公式为：D _i＝sqrt(∑(X _i-X _t,j) ²)，sqrt表示开平方根；以X _t,j表示验证集中每一样本为一观察单位，从剩余样本X _i中选取与其欧氏距离最小的样本即为与X _t,j最相似的样本。

步骤6：对于原始样本中的剩余样本，分别计算其与X _v中每个样本之间的光谱相似度，获取与X _v中每个样本(用X _v, _i表示)相似度最高的多个样本并进行去重处理，写入校正集，并获取相应的光谱矩阵X _c和参数值矩阵Y _c；

验证集样本获得后，校正集样本的选择与其相似，以验证集X _v中的每个样本为参考，分别计算其与剩余每个样本光谱X _k之间的欧氏距离D _k并进行排序，依次对验证集X _v中每一样本进行如上计算，然后针对验证集中的每一样本，为其选取最相近的n个样本作为校正集样本，去除多余的重复样本，即为选取的校正集X _c。

本实施例中，剩余样本为校正集可以选择的样本，校正集样本的数目由为验证集每个样本选取的最相似样本数目n通过优化决定，X _c的样本个数约在20(或18)～67-X _v的样本数(即57-59)之间，对应的参考值矩阵记得Y _c。

验证集X _v中每个样本与剩余样本X _k之间欧氏距离的计算公式为：D _k＝sqrt(∑(X _k-X _v,i) ²)，以X _v,i表示验证集中每一样本为一观察单位，从剩余样本中选取与其最近的n个样本为校正集样本。

照此法选出的校正集样本，与验证集相似，同时也与独立检验集间接相似，从而更有针对性地建立对未知样本的校正模型。n的最大值为所有剩余样本都被选进校正集时所采用的数目，n的最小值应为验证集样本的数量2倍。n的大小不同，为每个验证集样本选取的校正集样本数目不同，校正集样本数目越多不一定建模效果最优，可能包含了异常样本或重复样本或与验证集样本相似程度较差的样本信息，对建模可能形成一定的干扰；而校正集样本数目太少，相对包含的样本信息较少，可能无法覆盖待测未知样本的分布空间，所以需要对n的大小进行优化，也是对校正集样本数目的优化。在采用不同大小的n值情况下，分别建模，通过获得的验证集的RMSEV值和R _v值优化采用的n值大小，RMSEV值越小，R _v值越大，则证明建模效果最佳，选取此时的n值为优化后的为验证集样本选取的最相近校正集样本数目，此时选取的校正集对应的光谱矩阵记为X _c，对应的参考值记为Y _c。

基于上述实施例给出的验证集和校正集划分方法，本发明的又一实施例还进一步给出了模型建立和评价方法，具体包括：

步骤1-步骤6：参见上一实施例，得到验证集和校正集，并获取验证集和校正集相应的光谱矩阵和参数值矩阵；

步骤7：根据校正集进行建模：对于参数值矩阵中的每一参数，分别与光谱矩阵进行关联建模，得到校正模型；

以水分含量参数为例，根据划分结果，将校正集样本X _c和水分含量矩阵Y _c采用偏最小二乘(PLS)法进行关联，建立Y _c和X _c之间的关系模型，如下：

Y _c＝X _cB _pls (1)；

根据(1)式得到模型参数，即回归系数B _pls。

优选的，步骤7中，建模方法的潜在变量数(模型中的待求解模型参数)基于验证集X _v的最小RMSEV值确定。建模均是在模型优化的潜在变量数下进行。

步骤8：基于验证集进行模型的优化；具体包括：将验证集代入校正模型，求解参考值的拟合值，基于拟合值和实际值对模型参数进行调整优化；

Y _v ^f＝X _vB _pls (3)；

步骤9：基于独立检验集对模型性能进行评价；具体包括：将独立检验集代入优化后的模型，求解参考值的拟合值，基于拟合值和实际值求解均方根误差(RMSEP)及相关系数(R _p)，对模型性能进行评价。

本领域技术人员可以理解，作为一种可替代方案，上述步骤8-9中的模型评价方法也可以采用综合评价方式，包括：

步骤8：然后将校正集、验证集和独立检验集样本的光谱数据重代入校正模型，计算出各样本集的拟合值，如下：

Y _c ^f＝X _cB _pls (2)；

Y _v ^f＝X _vB _pls (3)；

Y _t ^f＝X _tB _pls (4)；

步骤9：接着再根据校正集的拟合值Y _c ^f计算均方根误差(RMSEC)和相关系数(R _c)；根据验证集的拟合值Y _v ^f计算验证集的均方根误差(RMSEV)和相关系数(R _v)；最后根据独立检验集的拟合值Y _t ^f计算独立检验集的均方根误差(RMSEP)及相关系数(R _p)；

步骤10：根据以上各参数共同评价模型的性能。

由于独立检验集是随机抽取的一定数目的样本，具有一定的偶然性，为了客观评价各种划分方法的性能，我们抽取相同数目的样本，平行重复10次试验，计算上述各项指标的平均值。

实际应用中，为了更好的比较本实施例方法的效果，与基于其他样本集选择方法(如，KS和SPXY)建立的模型进行比较，可以基于相同的独立检验集，计算预测值的RMSEP和R _p，从而客观地评价模型性能。

本领域技术人员可以理解，在进行建模之前，还可以包括对校正集，验证集和独立检验集的预处理步骤，此处对具体预处理方法不进行限定，在以下具体实施例中，均未采用预处理，以原光谱矩阵直接进行建模。如果采用预处理方法，校正集，验证集和独立检验集的预处理方法要保持一致。

实施例1

本实施例对玉米数据四种成分建立模型的结果见表1。其中Lv为潜在因子数，N _c为校正集样本数目，N _v为验证集样本数目。

表1玉米各成分预测结果一览表

由表1可见，RMSEC，RMSEV和RMSEP值均是越小越好，R _c,R _v和R _p均是越大越好。玉米各成分均有较好的建模效果，校正集相关系数R _c均达到0.95以上，说明有较好的模型性能，有很好的拟合效果，并且仅选用了约40多个样本作为校正集。验证集相关系数R _v也均达到0.95以上，说明该模型对验证集样本有很好的预测能力，而对于随机挑选的独立检验集，除油以外，其余成分均达到0.95以上的R _p值和较小的RMSEP值，而且独立检验集的R _p值与验证集的R _v值相近，所以挑选与独立检验集相似的样本作为验证集样本，间接反映对未知样本的预测能力的方法是可取的，另外，所有成分的RPD值均大于3.0，表明模型有很好的预测能力。本发明可以用于样本集的挑选，并有较好的效果。

为了确定通过光谱相似选取的验证集对模型性能的评价效果是否可以与独立检验集对模型的评价效果相近，对校正集数目优化过程中验证集X _v和独立检验集X _t的均方根误差和相应的相关系数的变化规律进行比较，结果见图4和图5。

由图4可见，验证集的均方根误差RMSEV和独立检验集的均方根误差RMSEP变化趋势基本一致，当RMSEV达到最小值时，相对RMSEP值也较小，图5中，相关系数R _v和R _p的整体变化趋势也一致，故用光谱相近的方法挑选与未知样本相近的样本作为验证集间接反映模型的预测效果是可行的，基于验证集对校正集的优化从一定程度上反映了校正集对独立检验集预测性能得到了优化，因为验证集与独立检验集样本的光谱非常相似，并且校正集也是选取的与验证集相似的样本，所以对未知样本(即独立检验集)的预测具有更强的针对性。

为了评价本发明所提出方法的性能效果，我们将与常用方法Kennard-Stone(KS)法和SPXY法作对比，选取与本方法相同数目的验证集样本，剩余样本作为校正集，选取相同的独立检验集比较不同方法的建模性能和预测能力。有关结果见表2。

表2各种数据集划分方法建立模型的预测能力比较(平均重复10次)

由表2比较可见，本方法在对于独立检验集的预测上，尽管RMSEP值略高于SPXY法，但相关系数R _p值最大，优于另外两种方法，尤其对于本身建模效果较差的油有更高的预测能力，预测误差更小。而且结合表1分析，本法仅采用约40多个样本作为校正集，而KS法和SPXY法是采用了除去验证集和独立检验集的剩余所有样本(约57个)作为校正集，相比之下，本法用的校正集样本数更少，校正模型效果更好。

表3列出了各种方法划分的校正集、验证集以及独立检验集的各成分参考值的范围。该范围为10次试验结果的平均值。

表3数据集的参考值范围

由表3可知，三种划分方法的校正集样本的四种成分参考值范围均能包括验证集和独立检验集的样本的参考值范围。理论上，校正集范围>验证集范围>独立检验集范围。一般情况下，应满足校正集范围大于验证集范围，如果不满足可以进一步扩大校正集样本的确定范围，使上述关系得到满足。对于独立检验集样本，可以认为其为未知样本，对应的Y _t并不事先知晓。

实施例2

以丹参药材为例，测定的样本数共有120个，包括样本的重复。X为样本的近红外光谱矩阵，由傅里叶变换近红外光谱仪(AntarisⅡ，赛默飞世尔，美国)测得，Y是四个质量指标成分矩阵，分别是丹参酮ⅡA(TSⅡA)、隐丹参酮(CTS)、丹参酮Ⅰ(TSⅠ)、丹酚酸B(SAB)，样本的原始光谱见图6。各成分为检测对象，对新的划分方法进行评价，以下说明方法中以丹参酮ⅡA为例，其余成分采取与之相同的步骤。先进行异常样本的剔除，通过Hotelling T ²方法，检测到3个异常样本，剔除之后剩下117个样本，去除异常值后的主成分分析图见图7。随机抽取15个样本作为独立检验集X _t。

对剩余102个样本进行划分，其中为独立检验集X _t中每个样本选取最相似的1个样本，去除多余的重复样本，组成最终的验证集X _v，X _v的样本个数约在10～15之间，剩余样本为校正集可选择的样本，校正集样本的数目由为验证集每个样本选取的最相似样本数目n通过优化决定，X _c的样本个数在10～87(或92)之间。

根据划分结果，采用偏最小二乘法(PLS)分别建立X和Y的关联模型，以校正集均方根误差(RMSEC)，验证集均方根误差(RMSEV)和独立检验集的均方根误差(RMSEP)及相应的相关系数，即校正集相关系数(R _c)，验证集相关系数(R _v)和预测集相关系数(R _p)来共同评价模型性能。由于独立检验集是随机抽取的一定数量的样本，有一定的偶然性。为了客观地评价各种数据集的划分方法，我们平行重复10次随机抽取相同数量的样本作为独立检验集，计算上述各指标的平均值进行比较。有关结果见表4。

表4丹参药材各成分预测结果一览表

由表4可见，丹参药材各成分均有很好的建模效果，校正集、验证集和独立检验集的相关系数都达到0.95以上，并有较小的均方根误差，验证集的各评价指标比独立检验集的更好一些，是因为校正集样本挑选的是与验证集相近的样本，并通过验证集样本进行了优化。所有成分的RPD值均大于3.0，表明模型有很好的预测能力。而且本发明对校正集样本数目进行了优化，校正集样本数目降低到了约50或60多个样本(见表4)，降低了实际的工作量。

在不同数目的校正集样本情况下，验证集和独立检验集的均方根误差变化规律及相应的相关系数变化规律分别见图8和图9，从图8中可见，均方根误差变化规律呈现一致的趋势，从图9中可见，相关系数也变化一致，尽管变化的幅度不同，但仍是相同的变化趋势，因此验证集可以代表独立检验集对模型的预测能力进行说明。

作为对比，分别采用Kennard-Stone(即KS)法和SPXY方法对117个样本进行划分，选取相同的独立检验集，验证集样本数目与本发明方法相同，剩余样本作为校正集，也是采用验证集对校正集进行优化。有关结果见表5。

表5各种数据集划分方法建立模型的预测能力比较(平均重复10次)

由表5可见，本方法的R _p值和RMSEP均优于KS法和SPXY法，各种成分的R _p均是三种方法中的最大值，而RMSEP是三者中最小的。由于三种方法采用相同的独立检验集，本法所得的R _p最大，RMSEP最小，表明通过本法划分得到的校正集模型对于相同的独立检验集具有最强的预测能力。结合表4进行分析，由于本发明对校正集样本数目进行了优化，相比于KS法和SPXY法(除去验证集和独立检验集的剩余所有样本(约87个)作为校正集样本)，本发明采用的样本数目较少，且模型的性能和预测能力更优。

表6列出了各种方法划分的校正集、验证集以及独立检验集的四种成分参考值的范围。该范围为10次试验结果的平均值。

表6数据集的参考值的范围

由表6可知，除了丹参酮Ⅰ的KS方法中，其余方法的校正集样本均能覆盖验证集样本的参考值范围，并且校正集样本也可覆盖独立检验集样本。

实施例3

以公开数据玉米为例，测定的样本共有80个。X为样本的近红外光谱矩阵，Y是四个成分质量指标矩阵。以水分为对象说明，其余成分采取相同的步骤，先进行异常样本的剔除，通过Hotelling T ²方法，检测到3个异常样本，然后剔除之后共剩下77个样本，随机抽取10个样本作为独立检验集X _t。

对剩余67个样本进行划分，我们变化了验证集样本的数量，以考察验证集样本数量变化后，各种划分方法对模型的性能的影响。其中为每一个独立检验集样本挑选2(即g＝2)个欧氏距离最相近的样本计入验证集，验证集的样本数约在14～20之间，其余样本进行校正集样本数目的优化，在X矩阵和Y矩阵之间建立PLS模型，计算各参数，包括校正集均方根误差(RMSEC)，验证集均方根误差(RMSEV)和独立检验集的均方根误差(RMSEP)及相应的相关系数，即校正集相关系数(R _c)，验证集相关系数(R _v)和预测集相关系数(R _p)。由于独立检验集是随机抽取的一定数量的样本，有一定的偶然性。为了客观地评价各种数据集划分方法，我们平行重复10次随机抽取相同数量的样本作为独立检验集，计算上述各指标的平均值进行比较。有关结果见表7。

表7玉米各成分预测结果一览表

由表7可见，玉米各成分仍有很好的建模效果，校正集样本数目通过优化，数目在40个左右(见表7)，大部分成分的校正集和验证集相关系数都达到0.95以上，并且所有成分的RPD值均大于3.0，说明模型有很好的预测能力，表明该方法可用于样本集的划分，并得到很好的模型性能和预测效果。

在校正集样本数目优化过程中，验证集和独立检验集的均方根误差呈现一致的变化趋势，并且相关系数变化趋势也一致，所以验证集样本可以作为对未知样本预测误差的一种反映，并使模型对未知样本有更好的预测能力，具体情况见图10和图11。

作为对比，分别采用Kennard-Stone(即KS)法和SPXY方法对67个样本进行划分，为了比较，选取与本方法相同的独立检验集样本，验证集样本数目与本方法相同，剩余样本作为校正集，也采用验证集样本优化校正模型，有关结果见表8。

表8各种数据集划分方法建立模型的预测能力比较(平均重复10次)

由表8可见，对于油和蛋白质，本发明提出的方法优于KS和SPXY法，RMSEP值最小，R _p值最大。对于水分，由于水分本身建模效果就很好，提升空间不大，RMSEP值仍最小，R _p值仍最大。对于淀粉，从R _p角度来看，本法比KS法好，比SPXY法稍差，但相差不大，而本法的RMSEP值最低，预测误差最小。相比于实施例1中，本实施例中为独立检验集挑选2个最近距离样本的效果稍差，可能是因为验证集样本包括了重复无用的信息或选择的样本相近程度有所下降所致，对建模形成一定干扰。

表9列出了各种方法划分的校正集、验证集以及独立检验集的四种成分参考值的范围，该范围为10次试验结果的平均值。

表9数据集的参考值的范围

由表9可知，所有成分的各种方法校正集样本的参考值范围均能覆盖验证集和独立检验集。

实施例4

以丹参药材为例，测定的样本数共有120个，包括样本的重复。X为样本的近红外光谱矩阵，Y是四个质量指标成分矩阵。以丹参酮ⅡA(TSⅡA)为例说明方法，隐丹参酮(CTS)、丹参酮Ⅰ(TSⅠ)、丹酚酸B(SAB)等成分采取相同的步骤，先进行异常样本的剔除，通过Hotelling T ²方法，检测到3个异常样本，然后剔除之后共剩下117个样本。随机抽取15个样本作为独立检验集X _t。

对剩余102个样本进行划分，我们变化了验证集样本的数量，以考察验证集样本数量变化后，各种划分方法对模型的性能的影响。其中为每一个独立检验集样本挑选2个欧氏距离最相近的样本计入验证集，验证集的样本数约在20～30之间，其余样本进行校正集样本数目的优化，在X矩阵和Y矩阵之间建立PLS模型，计算各参数，包括校正集均方根误差(RMSEC)，验证集均方根误差(RMSEV)和独立检验集的均方根误差(RMSEP)及相应的相关系数，如校正集相关系数(R _c)，验证集相关系数(R _v)和预测集相关系数(R _p)。由于独立检验集是随机抽取的一定数量的样本，有一定的偶然性。为了客观地评价各种数据集的划分方法，我们平行重复10次试验，随机抽取相同数量的样本作为独立检验集，计算上述各指标的平均值进行比较。有关结果见表10。

表10丹参药材各成分预测结果一览表

由表10可见，丹参药材各成分仍有很好的建模效果，校正集样本数目通过优化，数目在60个左右(见表10)，所有成分的校正集、验证集和独立检验集的相关系数可达0.95以上，并且独立检验集的均方根误差RMSEP较小，RPD值均明显大于3.0，说明模型有很好的建模性能和预测能力。

在校正集数目优化过程中，验证集和独立检验集的均方根误差呈现一致的变化趋势，相关系数变化趋势也一致，而且相关系数和均方根误差的变化趋势刚好呈相反的方向，所以验证集样本可以作为对未知样本预测误差的一种反映，从而更好地对模型进行优化，对未知样本的预测更有针对性，具体情况见图12和图13。

作为对比，分别采用Kennard-Stone(KS)法和SPXY方法对102个样本进行划分，为了比较，选取与本方法相同的独立检验集样本，验证集样本数目与本方法相同，剩余样本作为校正集，以验证集样本优化校正模型，有关结果见表11。

表11各种数据集划分方法建立模型的预测能力比较(平均重复10次)

由表11可见，本发明对于大部分成分的建模效果和预测能力稍有提升，除CTS的R _p值提升较多外，其余成分的R _p值相差不大，虽然提升的幅度较小，但仍是三种方法最佳的。SAB的RMSEP值稍差，但是其R _p值仍是最高的。与实施例2相比，为独立检验集的每个样本多选1个最近距离样本，可能其中包含了重复的无用的信息或选择的样本相近程度有所下降所致，所以建模效果反而不如实施例2中的情况。

表12列出了各种方法划分的校正集、验证集以及独立检验集的四种成分参考值的范围，该范围为10次试验结果的平均值。

表12数据集的参考值的范围

由表12可见，虽然本法对隐丹参酮挑选的样本集中，验证集范围略超出校正集范围，但在实践中，待检测样本也许不一定就包含在校正集范围内，因此本法的适用性可能更好。其余成分的各种方法校正集样本的参考值范围均能覆盖验证集和独立检验集。

以上一个或多个实施例具有以下技术效果：

本发明的校正集和验证集的划分方法，以用于检验模型性能的验证数据(即独立检验集，模型建立后作为未知样本对模型性能进行检验)出发，基于独立检验集，以光谱相似度为依据，选取与独立检验集相似的光谱作为验证集，以验证集的预测效果侧面体现对未知样本的预测能力，然后基于验证集，选取与验证集相似的光谱作为校正集，保证了建立的模型是针对未知样本的模型，并且与目前常用的方法比较，可以确切地证明其对于未知样本的建模性能更好，预测能力更强。

验证集和校正集的选取还涉及数量的选择，本发明对校正集样本数目进行了优化，可以实现选用较少的样本数目达到更好的预测效果。

本领域技术人员应该明白，上述本发明的各模块或各步骤可以用通用的计算机装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

一种基于光谱相似度的校正集和验证集选择方法，其特征在于，包括以下步骤：

对原始样本进行近红外光谱测定，得到原始样本光谱矩阵；

对原始样本光谱矩阵进行异常值检测，将异常值剔除；

随机抽取m个样本作为独立检验集；

对于独立检验集中的每个样本，分别计算该样本与原始样本中剩余每个样本之间的光谱相似度，获取相似度最高的g个样本写入验证集；

对于验证集中的每个样本，分别计算其与原始样本中剩余每个样本之间的光谱相似度，获取相似度最高的n个样本写入校正集；

设经异常值剔除后的原始样本数量为N，m、g与n的关系满足：g≤n≤(N-m)。
如权利要求1所述的基于光谱相似度的校正集和验证集选择方法，其特征在于，还对原始样本测定多个参考值，得到原始样本参考值矩阵。
如权利要求2所述的基于光谱相似度的校正集和验证集选择方法，其特征在于，得到原始样本光谱矩阵和原始样本参考值矩阵后，还对原始样本光谱矩阵进行异常值检测，将异常值剔除，并将原始样本参考值矩阵中相应的参考值剔除。
如权利要求1所述的基于光谱相似度的校正集和验证集选择方法，其特征在于，样本之间的光谱相似度采用欧氏距离计算。
如权利要求1所述的基于光谱相似度的校正集和验证集选择方法，其特征在于，对n取不同值时分别进行建模，基于模型性能优化n的取值，得到优化后的模型参数值。
一种基于如权利要求1-5任一项所述校正集和验证集选择方法的建模方法，其特征在于，获取校正集相应的参考值矩阵，对于参考值矩阵中的每一参考值，分别与光谱矩阵进行关联建模。
如权利要求6所述的建模方法，其特征在于，所述方法还包括：

基于验证集对模型参数进行优化；

基于独立检验集对模型性能进行评价。
如权利要求6所述的建模方法，其特征在于，所述方法还包括基于校正集、验证集和独立检验集对模型性能进行综合评价。