WO2017181665A1

WO2017181665A1 - 一种基因表达数据分类方法及分类系统

Info

Publication number: WO2017181665A1
Application number: PCT/CN2016/106255
Authority: WO
Inventors: 张莉; 黄晓娟; 王邦军; 张召; 李凡长
Original assignee: 苏州大学
Priority date: 2016-04-20
Filing date: 2016-11-17
Publication date: 2017-10-26
Also published as: CN105825081A; US20180165413A1; CN105825081B; EP3299976A4; EP3299976A1

Abstract

本申请公开了一种基因表达数据分类方法及分类系统，其中，所述基因表达数据分类方法中在获得所述基因特征数据集之后，采用聚类算法对所述基因特征数据集进行聚类，获得第一预设参数个的聚类集合，然后对所述聚类集合进行处理获得第二样本矩阵、第二训练集以及特征索引集以对基因表达数据进行降维，从而降低基因表达数据之间的冗余度，进而在很大程度上降低了在之后对所述第二训练集进行特征选择的过程中占用的计算资源以及耗费的计算时间；而采用聚类算法对所述基因特征数据集进行聚类操作所占用的计算资源以及耗费的计算时间都很少，因此采用所述基因表达数据分类方法对待测基因表达数据进行分类占用的计算资源和耗费的计算时间都较少。

Description

一种基因表达数据分类方法及分类系统

本申请要求于2016年4月20日提交中国专利局、申请号为201610246971.3、发明名称为“一种基因表达数据分类方法及分类系统”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及基因分类技术领域，更具体地说，涉及一种基因表达数据分类方法及分类系统。

背景技术

利用DNA微阵列计数可以同时测定成千上万维基因的表达数据，这些表达数据能够帮助研究人员研究生物的本质。但是在大量的基因表达数据中，只有很少量的基因表达数据是研究人员的研究客体，以癌症基因的研究为例，癌症基因的表达数据样本通常少于一百，而在大量的基因表达数据中对癌症基因与其他基因进行分类就需要耗费大量的计算资源和计算时间。

有研究人员利用支持向量机递归特征消除(Support Vector Machine Recursive Feature Elimination,SVM-RFE)算法可以自动消除大量的基因表达数据中的冗余基因(即对基因分类没用贡献的基因)，以实现从大量的基因表达数据中找出目标基因的目的。

但是SVM-RFE算法仍然需要对大量的基因表达数据进行特征选择处理，需要占用大量的计算资源并且耗费大量的计算时间。

发明内容

为解决上述技术问题，本发明提供了一种基因表达数据分类方法及分类系统，以解决对基因表达数据进行分类需要占用大量的计算资源并且耗费大量的计算时间的问题。

为解决上述技术问题，本发明实施例提供了如下技术方案：

一种基因表达数据分类方法，包括：

获取第一训练集，利用所述第一训练集生成基因特征数据集，所述第一训练集中包含基因表达数据；

采用聚类算法对所述基因特征数据集进行聚类，获得第一预设参数个的聚类集合，每个所述聚类集合具有一个聚类中心；

利用所有的所述聚类集合的代表基因生成第二样本矩阵，其中，所述代表基因为每个所述聚类集合中的一个基因表达数据；

对所述第二样本矩阵进行处理获得第二训练集；

生成与所述第二训练集对应的特征索引集；

对所述第二训练集进行特征排序，获得与所述排序后的第二训练集对应的有顺序的特征索引集；

在所述有顺序的特征索引集中选取前第二预设参数个特征组成第三训练集；

对所述第三训练集进行建模，获得模型函数；

根据所述特征索引集、有顺序的特征索引集和所述模型函数对待测基因表达数据进行分类，获得待测基因表达数据的分类结果。

优选的，所述第一预设参数的设定方式为：

采用N折交叉验证法对所述基因特征数据集进行处理，将识别率最大时对应的值作为所述第一预设参数，其中N为5、10或20。

优选的，所述采用聚类算法对所述基因特征数据集进行聚类，获得第一预设参数个的聚类集合，每个所述聚类集合具有一个聚类中心，包括：

采用K-means聚类算法对所述基因特征数据集进行聚类，获得第一预设参数个的聚类集合，每个所述聚类集合具有一个聚类中心。

优选的，所述代表基因通过公式

生成；

其中，G_k表示第k个聚类集合，

表示所述第k个聚类集合的代表基因，m_k表示第k个聚类中心，K表示所述第一预设参数；g_i表示所述聚类集合中的基因表达数据；

其中，所述第二样本矩阵为

其中，R表示实数集， N表示所述第一训练集中的样本总个数。

优选的，根据所述特征索引集、有顺序的特征索引集和所述模型函数对待测基因表达数据进行分类，获得待测基因表达数据的诊断结果包括：

根据所述特征索引集对所述待测基因的表达数据进行特征选择，获得第一次特征选择后的样本；

根据所述有顺序的特征索引集，选择所述第一次特征选择后的样本中的前第二预设参数个特征组成第二次特征选择后的样本；

将所述第二次特征选择后的样本输入所述模型函数中，获得所述模型函数的输出结果，根据所述输出结果获得所述待测基因表达数据的分类结果。

一种基因表达数据分类系统，包括：

特征选择模块，用于获取第一训练集，利用所述第一训练集生成基因特征数据集，所述第一训练集包含基因表达数据；采用聚类算法对所述基因特征数据集进行聚类，获得第一预设参数个的聚类集合，每个所述聚类集合具有一个聚类中心；利用所有的所述聚类集合的代表基因生成第二样本矩阵，其中，所述代表基因为每个所述聚类集合中的一个基因表达数据；对所述第二样本矩阵进行处理获得第二训练集，生成与所述第二训练集对应的特征索引集；对所述第二训练集进行特征排序，获得与所述排序后的第二训练集对应的有顺序的特征索引集；在所述有顺序的特征索引集中选取前第二预设参数个特征组成第三训练集；

训练模块，用于对所述第三训练集进行建模，获得模型函数；

诊断模块，用于根据所述特征索引集、有顺序的特征索引集和所述模型函数对待测基因表达数据进行分类，获得待测基因表达数据的分类结果。

优选的，所述特征选择模块包括：

预处理单元，用于获取基因样本的第一训练集，对所述第一训练集进行预处理，生成第一样本矩阵，并根据所述样本矩阵生成基因特征数据集；

第一特征选择单元，用于采用N折交叉验证法对所述基因特征数据集进行处理，将识别率最大时对应的值作为所述第一预设参数，其中N为5或10或20；采用K-means聚类算法对所述基因特征数据集进行聚类，获得第一预设参数个的聚类集合，每个所述聚类集合具有一个聚类中心，在每个聚类集合中选取一个基因作为该聚类集合的代表基因，并利用所有的聚类集合的代表基因生成第二样本矩阵，并对所述第二样本矩阵进行处理获得第二训练集，同时生成与所述第二训练集对应的特征索引集；

第二特征选择单元，用于对所述第二训练集进行特征排序，获得有顺序的特征索引集，确定保留的特征个数为第二预设参数，在所述有顺序的特征索引集中选取前第二预设参数个特征组成第三训练集。

优选的，所述第一特征选择单元用于采用N折交叉验证法对所述基因特征数据集进行处理，将识别率最大时对应的值作为所述第一预设参数，其中N为5或10或20；采用K-means聚类算法对所述基因特征数据集进行聚类，获得第一预设参数个聚类中心和第一预设参数个聚类集合，在每个聚类集合中选取一个基因作为该聚类集合的代表基因，并利用所有的聚类集合的代表基因生成第二样本矩阵，并取所述第二样本矩阵的每一列x′_i组成所述第二训练集

其中，x′_i∈R^K。

优选的，所述代表基因通过公式

生成，其中，G_k表示第k个聚类集合，

其中，所述第二样本矩阵为

其中R表示实数集，N表示生成所述第一训练集中的样本总个数。

优选的，所述诊断模块包括：

第一选择单元，用于根据所述特征索引集对所述待测基因表达数据进行特征选择，获得第一次特征选择后的样本；

第二选择单元，用于根据所述有顺序的特征索引集选择所述第一次特征选择后的样本中的前第二预设参数个特征组成第二次特征选择后的样本；

诊断单元，用于将所述第二次特征选择后的样本输入所述模型函数中，获得所述模型函数的输出结果，根据所述输出结果获得所述待测基因表达数据的分类结果。

从上述技术方案可以看出，本发明实施例提供了一种基因表达数据分类方法及分类系统，其中，所述基因表达数据分类方法中在获得所述基因特征数据集之后，采用聚类算法对所述基因特征数据集进行聚类，获得第一预设参数个的聚类集合，然后对所述聚类集合进行处理获得第二样本矩阵、第二训练集以及特征索引集以对基因表达数据进行降维，从而降低基因表达数据之间的冗余度，进而在很大程度上降低了在之后对所述第二训练集进行特征选择的过程中占用的计算资源以及耗费的计算时间；而采用聚类算法对所述基因特征数据集进行聚类操作所占用的计算资源以及耗费的计算时间都很少，因此采用所述基因表达数据分类方法对待测基因表达数据进行分类占用的计算资源和耗费的计算时间都较少。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请的一个实施例提供的一种基因表达数据分类方法的流程示意图；

图2为本申请的另一个实施例提供的一种基因表达数据分类方法的流程示意图；

图3为本申请的一个实施例提供的一种基因表达数据分类系统的结构示意图；

图4为本申请的一个实施例提供的一种特征选择模块的结构示意图；

图5为本申请的一个实施例提供的一种诊断模块的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请的一个实施例提供了一种基因表达数据分类方法，如图1所示，包括：

S101：获取第一训练集，利用所述第一训练集生成基因特征数据集，所述第一训练集中包含基因表达数据。

需要说明的是，所述第一训练集中的基因表达数据通过DNA微阵列技术获取。

但在本申请的其他实施例中，还可以通过其他技术或者设备获取基因表达数据，本申请对获取基因表达数据所采用的方法或装置并不做限定，具体视实际情况而定。

在本申请的一个具体实施例中，通过DNA微阵列技术获取基因表达数据构成第一训练集

其中，x_i是所述第一训练集中的基因表达数据，x_i∈R^D，x_i为所述第一训练集中的基因表达数据，y_i是x_i的标签，表明x_i的类别，y_i∈{-1,+1}，N代表所述第一训练集中样本的总个数，D代表所述第一训练集中样本的维数，R代表实数集。对所述第一训练集进行预处理，生成所述第一样本矩阵X＝[x₁,…,x_N]，该矩阵的每一列为所述第一训练集的一个样本，取所述第一样本矩阵的每一行，即g_j＝(X_j·)^T，j＝1,…,D，形成所述基因特征数据集

g_j∈R^N。

S102：采用聚类算法对所述基因特征数据集进行聚类，获得第一预设参数个的聚类集合，每个所述聚类集合具有一个聚类中心。

其中，每个聚类集合中包含所述基因特征数据集中相似的基因表达数据，每个聚类集合都具有一个聚类中心，每个聚类集合的聚类中心由该聚类集合中的所有基因表达数据计算得来。在本申请的一个实施例中，每个聚类集合的聚类中心为该聚类集合中所有基因表达数据的平均值。但本申请对此并不做限定，每个聚类集合的聚类中心还可以通过其他方式确定，具体视实际情况而定。

需要说明的是，采用聚类算法对所述基因特征数据集进行聚类的目的是对基因表达数据进行降维，以降低基因表达数据之间的冗余度。

S103：利用所有的所述聚类集合的代表基因生成第二样本矩阵，其中，所述代表基因为每个所述聚类集合中的一个基因表达数据。

S104：对所述第二样本矩阵进行处理获得第二训练集。

其中在获得所有的所述聚类集合的代表基因后，利用所有的所述聚类集合的代表基因组成所述第二样本矩阵，取所述第二样本矩阵的每一列组成所述第二训练集。

S105：生成与所述第二训练集对应的特征索引集。

S106：对所述第二训练集进行特征排序，获得与所述排序后的第二训练集对应的有顺序的特征索引集。

需要说明的是，在本申请的一个实施例中，采用SVM-RFE算法对所述第二训练集进行特征排序，获得与所述排序后的第二训练集对应的有顺序的特征索引集。

S107：在所述有顺序的特征索引集中选取前第二预设参数个特征组成第三训练集。

其中，所述第二预设参数的值小于所述第一预设参数的值。

S108：对所述第三训练集进行建模，获得模型函数。

在本申请的一个实施例中，采用支持向量机分类器对所述第三训练集进行建模，获得模型函数。

S109：根据所述特征索引集、有顺序的特征索引集和所述模型函数对待测基因表达数据进行分类，获得待测基因表达数据的分类结果。

需要说明的是，所述待测基因与所述第一训练集在同一次的基因表达数据的采集过程中获得。

在上述实施例的基础上，在本申请的一个优选实施例中，如图2所示，所述基因表达数据分类方法包括：

S201：获取基因表达数据构成的第一训练集，对所述第一训练集进行预处理，生成所述第一样本矩阵，取所述第一样本矩阵的每一行形成所述基因特征数据集。

S202：采用N折交叉验证法对所述基因特征数据集进行处理，将识别率最大时对应的值作为所述第一预设参数，其中N为5或10或20；利用K-means聚类算法对所述基因特征数据集进行聚类，获得第一预设参数个的聚类集合，每个所述聚类集合具有一个聚类中心。

在本实施例中，所述第一预设参数的设定方式为：

采用N折交叉验证法对所述基因特征数据集进行处理，将识别率最大时对应的值作为所述第一预设参数，其中N为5、10或20。在本申请的一个优选实施例中，N优选为10。

S203：利用所有的所述聚类集合的代表基因生成第二样本矩阵，所述代表基因通过公式

获得，所述第二样本矩阵为

其中R表示实数集，N表示所述第一训练集中的样本总个数，G_k表示第k个聚类集合，

表示所述第k个聚类集合的代表基因，|| ||₂表示取范数运算，下标表示范数类型为欧几里得范数；m_k表示第k个聚类中心，K表示所述第一预设参数；g_i表示所述聚类集合中的基因表达数据。

S204：取所述第二样本矩阵的每一列组成第二训练集。

S205：生成与所述第二训练集对应的特征索引集。

S206：选取N折交叉验证法对所述基因特征数据集进行处理的过程中最高识别率时特征基因的集合的大小作为所述第二预设参数的值，采用SVM-RFE方法对所述第二训练集进行特征排序，得到一个与所述排序后的第二训练集对应的有顺序的特征索引集；

S207：在所述有顺序的特征索引集中选取前第二预设参数个特征组成第三训练集。

S208：采用支持向量机分类器对所述第三训练集进行建模，获得模型函数。

S209：根据所述特征索引集对所述待测基因的表达数据进行特征选择，获得第一次特征选择后的样本。

其中，所述待测基因与所述第一训练集中的基因表达数据通过同一次DNA微阵列技术采集获得。

S210：根据所述有顺序的特征索引集，选择所述第一次特征选择后的样本中的前第二预设参数个特征组成第二次特征选择后的样本。

S211：将所述第二次特征选择后的样本输入所述模型函数中，获得所述模型函数的输出结果，根据所述输出结果获得所述待测基因表达数据的分类结果。

在上述实施例的基础上，在本申请的一个具体实施例中，在乳腺癌数据集上对本申请实施例提供的基因表达数据分类方法进行了测试，所述乳腺癌数据集包括97名患者样本，属于两个类别。每个样本都有24481个基因表达数据。所述第一训练集包括78个患者样本，其中34个是在至少5年内的癌细胞转移的患者(标记为“旧病复发”)，其余44个样本是从患者初步诊断为至少5年后仍健康的患者(标记为“非复发”)。相应地，待测基因样本中包括12个“旧病复发”患者样本和7个“非复发”患者样本。

具体测试步骤如下：

通过DNA微阵列技术获取所述乳腺癌数据集中的基因表达数据构成第一训练集

其中，x_i为构成所述第一训练集的基因表达数据，x_i∈R^D，y_i是x_i的标签，表明x_i的类别，y_i∈{-1,+1}，N代表所述第一训练集中样本的总个数，D代表所述第一训练集中样本的维数，R代表实数集。这里N＝97，D＝24481。

对所述第一训练集进行预处理，生成所述第一样本矩阵X＝[x₁,…,x_N]，该矩阵的每一列为所述第一训练集的一个样本，取所述第一样本矩阵的每一行，即g_j＝(X_j·)^T，j＝1,…,24481，形成所述基因特征数据集

g_j∈R⁹⁷。

确定聚类中心数目为第一预设参数K，此处K＝80(通过10折交叉验证法选定)，采用K-means聚类算法对所述基因特征数据集

进行聚类，获得80个聚类中心m_k和80个聚类集合G_k，k＝1,…,K。

在每个聚类集合中选取一个基因表达数据作为该聚类集合的代表基因，所述代表基因的选取公式为：

其中，|| ||₂表示取范数运算，下标表示范数类型为欧几里得范数，G_k表示第k个聚类集合，

表示所述第k个聚类集合的代表基因，m_k表示第k个聚类中心。生成所述样本矩阵

其中N表示训练集中训练样本的总个数。取所述样本矩阵X'的每一列

作为x′_i，组成所述第二训练集

其中x′_i∈R⁸⁰，同时生成与所述第二训练集对应的特征索引集

|F|＝80。

确定第二预设参数的值d，所述第二预设参数d(d＜80)的值为采用10折交叉验证法对所述基因特征数据集进行处理的过程中，最高识别率时特征基因的集合的大小。采用SVM-RFE方法对所述第二训练集

进行特征排序，得到一个有顺序的特征索引集

|F'|＝80。在所述有顺序的特征索引集中选取前d个特征组成第三训练集

其中x″_i∈R^d，在本实施例中，d＝37。

采用支持向量机分类器对所述第三训练集

进行建模，获得模型函数f(x″)。

令待测基因表达数据(在本实施例中为癌症基因表达数据)为x，其中x∈R²⁴⁴⁸¹。

根据所述特征索引集F对所述待测基因x(x∈R^D)的表达数据进行特征选择，获得第一次特征选择后的样本x′(x′∈R^K)；

根据所述有顺序的特征索引集F'选择所述第一次特征选择后的样本x′中的前第二预设参数个特征组成第二次特征选择后的样本x″(x″∈R^d)；

将所述第二次特征选择后的样本x″输入所述模型函数f(x″)中，获得所述模型函数的输出结果，根据所述输出结果获得所述待测基因表达数据的分类结果。

采用相同的上述测试过程对本申请实施例提供的基因表达数据分类方法与SVM-RFE(SVM-Recursive Feature Elimination)算法以及MRMR+SVM-RFE(minimal redundancy-maximal relevance+SVM-Recursive Feature Elimination)算法在相同的乳腺癌数据集上进行对比实验。随机选取78个训练样本10次，表1给出了上述三种方法各自获得的最好平均分类性能时的对比。

表1 SVM-RFE,MRMR+SVM-RFE和本申请提供的基因表达数据分类方法最好分类性能的对比

通过表1的对比可以发现，本申请实施例提供的基因表达数据分类方法比其他两种算法在各项参数上都有较大提升，且大大降低了时间消耗。

相应的，本申请实施例还提供了一种基因表达数据分类系统，如图3所示，包括：

特征选择模块A10，用于获取第一训练集，利用所述第一训练集生成基因特征数据集，所述第一训练集包含基因表达数据；采用聚类算法对所述基因特征数据集进行聚类，获得第一预设参数个的聚类集合，每个所述聚类集合具有一个聚类中心；利用所有的所述聚类集合的代表基因生成第二样本矩阵，其中，所述代表基因为每个所述聚类集合中的一个基因表达数据；对所述第二样本矩阵进行处理获得第二训练集，生成与所述第二训练集对应的特征索引集；对所述第二训练集进行特征排序，获得与所述排序后的第二训练集对应的有顺序的特征索引集；在所述有顺序的特征索引集中选取前第二预设参数个特征组成第三训练集；

训练模块A20，用于对所述第三训练集进行建模，获得模型函数；

诊断模块A30，用于根据所述特征索引集、有顺序的特征索引集和所述模型函数对待测基因表达数据进行分类，获得待测基因表达数据的分类结果。

需要说明的是，在本实施例中，所述待测基因表达数据与所述第一训练集采用生物微阵列技术在同一次采集中获得。

所述基因表达数据分类系统在获得所述基因特征数据集之后，采用聚类算法对所述基因特征数据集进行聚类，获得第一预设参数个聚类集合，每个所述聚类集合具有一个聚类中心，然后对所述聚类集合进行处理获得第二样本矩阵、第二训练集以及特征索引集以对基因表达数据进行降维，从而降低基因表达数据之间的冗余度，进而在很大程度上降低了在之后对所述第二训练集进行特征选择的过程中占用的计算资源以及耗费的计算时间；而采用聚类算法对所述基因特征数据集进行聚类操作所占用的计算资源以及耗费的计算时间都很少，从而大大降低了对待测基因表达数据进行分类占用的计算资源和耗费的计算时间。

在上述实施例的基础上，在本申请的一个实施例中，如图4所示，所述特征选择模块A10包括：

预处理单元A11，用于获取基因样本的第一训练集，对所述第一训练集进行预处理，生成第一样本矩阵，并根据所述样本矩阵生成基因特征数据集；

第一特征选择单元A12，用于采用N折交叉验证法对所述基因特征数据集进行处理，将识别率最大时对应的值作为所述第一预设参数，其中N为5或10或20；采用K-means聚类算法对所述基因特征数据集进行聚类，获得第一预设参数个的聚类集合，每个所述聚类集合具有一个聚类中心，在每个聚类集合中选取一个基因作为该聚类集合的代表基因，并利用所有的聚类集合的代表基因生成第二样本矩阵，并对所述第二样本矩阵进行处理获得第二训练集，同时生成与所述第二训练集对应的特征索引集；

第二特征选择单元A13，用于对所述第二训练集进行特征排序，获得有顺序的特征索引集，确定保留的特征个数为第二预设参数，在所述有顺序的特征索引集中选取前第二预设参数个特征组成第三训练集。

需要说明的是，在本实施例中，所述预处理单元A11通过DNA微阵列技术获取基因表达数据的第一训练集

其中，x_i表示所述第一训练集中的基因表达数据，x_i∈R^D，y_i是x_i的标签，表明x_i的类别，y_i∈{-1,+1}，N代表所述第一训练集中样本的总个数，D代表所述第一训练集中样本的维数，R代表实数集。对所述第一训练集进行预处理，生成所述第一样本矩阵X＝[x₁,…,x_N]，该矩阵的每一列为所述第一训练集的一个样本，取所述第一样本矩阵的每一行，即g_j＝(X_j·)^T，j＝1,…,D，形成所述基因特征数据集

在本实施例中，采用K-means聚类算法对所述基因特征数据集进行聚类的目的是对基因表达数据进行降维，以降低基因表达数据之间的冗余度。

在上述实施例的基础上，在本申请的另一个实施例中，所述第一特征选择单元A12用于采用N折交叉验证法对所述基因特征数据集进行处理，将识别率最大时对应的值作为所述第一预设参数K，其中N为5或10或20；

采用K-means聚类算法对所述基因特征数据集进行聚类，获得K个聚类中心m_k和K个聚类集合G_k，k＝1,…,K。

在每个聚类集合中选取一个基因作为该聚类集合的代表基因，所述代表基因的生成公式为：

其中，G_k表示第k个聚类集合，

表示所述第k个聚类集合的代表基因，mk表示第k个聚类中心，K表示所述第一预设参数。生成所述样本矩阵

其中N表示训练集中训练样本的总个数。取所述样本矩阵X'的每一列为x′_i，组成所述第二训练集

其中x′_i∈R^K，同时生成与所述第二训练集对应的特征索引集

|F|＝K。

需要说明的是，在本申请的一个优选实施例中，采用10折交叉验证法对所述基因特征数据集进行处理，将识别率最大时对应的值作为所述第一预设参数。但本申请对此并不做限定，具体视实际情况而定。

在上述实施例的基础上，在本申请的又一个实施例中，所述第二预设参数d(d＜K)的值为采用10折交叉验证法对所述基因特征数据集进行处理的过程中，最高识别率时特征基因的集合的大小。在本申请的一个优选实施例中，采用SVM-RFE方法对所述第二训练集合

进行特征排序，得到一个有顺序的特征索引集

|F'|＝K。在所述有顺序的特征索引集中选取前d个特征组成第三训练集

其中x″_i∈R^d。

在上述实施例的基础上，在本申请的再一个实施例中，采用支持向量机分类器对所述第三训练集进行建模，获得模型函数f(x″)。但本申请对所述第三训练集进行建模所采用的具体方法并不做限定，具体视实际情况而定。

在上述实施例的基础上，在本申请的一个具体实施例中，如图5所示，所述诊断模块A30包括：

第一选择单元A31，用于根据所述特征索引集F对所述待测基因x(x∈R^D)的表达数据进行特征选择，获得第一次特征选择后的样本x′(x′∈R^K)；

第二选择单元A32，用于根据所述有顺序的特征索引集F'选择所述第一次特征选择后的样本x′中的前第二预设参数个特征组成第二次特征选择后的样本x″(x″∈R^d)；

诊断单元A33，用于将所述第二次特征选择后的样本x″输入所述模型函数f(x″)中，获得所述模型函数的输出结果，根据所述输出结果获得所述待测基因表达数据的分类结果。

综上所述，本申请实施例提供了一种基因表达数据分类方法及分类系统，其中，所述基因表达数据分类方法中在获得所述基因特征数据集之后，采用聚类算法对所述基因特征数据集进行聚类，获得第一预设参数个的聚类集合，然后对所述聚类集合进行处理获得第二样本矩阵、第二训练集以及特征索引集以对基因表达数据进行降维，从而降低基因表达数据之间的冗余度，进而在很大程度上降低了在之后对所述第二训练集进行特征选择的过程中占用的计算资源以及耗费的计算时间；而采用聚类算法对所述基因特征数据集进行聚类操作所占用的计算资源以及耗费的计算时间都很少，因此采用所述基因表达数据分类方法对待测基因表达数据进行分类占用的计算资源和耗费的计算时间都较少。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

一种基因表达数据分类方法，其特征在于，包括：

获取第一训练集，利用所述第一训练集生成基因特征数据集，所述第一训练集中包含基因表达数据；

采用聚类算法对所述基因特征数据集进行聚类，获得第一预设参数个的聚类集合，每个所述聚类集合具有一个聚类中心；

利用所有的所述聚类集合的代表基因生成第二样本矩阵，其中，所述代表基因为每个所述聚类集合中的一个基因表达数据；

对所述第二样本矩阵进行处理获得第二训练集；

生成与所述第二训练集对应的特征索引集；

对所述第二训练集进行特征排序，获得与所述排序后的第二训练集对应的有顺序的特征索引集；

在所述有顺序的特征索引集中选取前第二预设参数个特征组成第三训练集；

对所述第三训练集进行建模，获得模型函数；

根据所述特征索引集、有顺序的特征索引集和所述模型函数对待测基因表达数据进行分类，获得待测基因表达数据的分类结果。
根据权利要求1所述的基因表达数据分类方法，其特征在于，所述第一预设参数的设定方式为：

采用N折交叉验证法对所述基因特征数据集进行处理，将识别率最大时对应的值作为所述第一预设参数，其中N为5、10或20。
根据权利要求1所述的基因表达数据分类方法，其特征在于，所述采用聚类算法对所述基因特征数据集进行聚类，获得第一预设参数个的聚类集合，每个所述聚类集合具有一个聚类中心，包括：

采用K-means聚类算法对所述基因特征数据集进行聚类，获得第一预设参数个的聚类集合，每个所述聚类集合具有一个聚类中心。
根据权利要求1所述的基因表达数据分类方法，其特征在于，所述代表基因通过公式
k＝1,…,K生成；

其中，G_k表示第k个聚类集合，
表示所述第k个聚类集合的代表基因，m_k表示第k个聚类中心，K表示所述第一预设参数；g_i表示所述聚类集合中的基因表达数据；

其中，所述第二样本矩阵为
其中，R表示实数集，N表示所述第一训练集中的样本总个数。
根据权利要求1所述的基因表达数据分类方法，其特征在于，根据所述特征索引集、有顺序的特征索引集和所述模型函数对待测基因表达数据进行分类，获得待测基因表达数据的诊断结果包括：

根据所述特征索引集对所述待测基因的表达数据进行特征选择，获得第一次特征选择后的样本；

根据所述有顺序的特征索引集，选择所述第一次特征选择后的样本中的前第二预设参数个特征组成第二次特征选择后的样本；

将所述第二次特征选择后的样本输入所述模型函数中，获得所述模型函数的输出结果，根据所述输出结果获得所述待测基因表达数据的分类结果。
一种基因表达数据分类系统，其特征在于，包括：

特征选择模块，用于获取第一训练集，利用所述第一训练集生成基因特征数据集，所述第一训练集包含基因表达数据；采用聚类算法对所述基因特征数据集进行聚类，获得第一预设参数个的聚类集合，每个所述聚类集合具有一个聚类中心；利用所有的所述聚类集合的代表基因生成第二样本矩阵，其中，所述代表基因为每个所述聚类集合中的一个基因表达数据；对所述第二样本矩阵进行处理获得第二训练集，生成与所述第二训练集对应的特征索引集；对所述第二训练集进行特征排序，获得与所述排序后的第二训练集对应的有顺序的特征索引集；在所述有顺序的特征索引集中选取前第二预设参数个特征组成第三训练集；

训练模块，用于对所述第三训练集进行建模，获得模型函数；

诊断模块，用于根据所述特征索引集、有顺序的特征索引集和所述模型函数对待测基因表达数据进行分类，获得待测基因表达数据的分类结果。
根据权利要求6所述的基因表达数据分类系统，其特征在于，所述特征选择模块包括：

预处理单元，用于获取基因样本的第一训练集，对所述第一训练集进行预处理，生成第一样本矩阵，并根据所述样本矩阵生成基因特征数据集；

第一特征选择单元，用于采用N折交叉验证法对所述基因特征数据集进行处理，将识别率最大时对应的值作为所述第一预设参数，其中N为5或10或20；采用K-means聚类算法对所述基因特征数据集进行聚类，获得第一预设参数个的聚类集合，每个所述聚类集合具有一个聚类中心，在每个聚类集合中选取一个基因作为该聚类集合的代表基因，并利用所有的聚类集合的代表基因生成第二样本矩阵，并对所述第二样本矩阵进行处理获得第二训练集，同时生成与所述第二训练集对应的特征索引集；

第二特征选择单元，用于对所述第二训练集进行特征排序，获得有顺序的特征索引集，确定保留的特征个数为第二预设参数，在所述有顺序的特征索引集中选取前第二预设参数个特征组成第三训练集。
根据权利要求7所述的基因表达数据分类系统，其特征在于，所述第一特征选择单元用于采用N折交叉验证法对所述基因特征数据集进行处理，将识别率最大时对应的值作为所述第一预设参数，其中N为5或10或20；采用K-means聚类算法对所述基因特征数据集进行聚类，获得第一预设参数个聚类中心和第一预设参数个聚类集合，在每个聚类集合中选取一个基因作为该聚类集合的代表基因，并利用所有的聚类集合的代表基因生成第二样本矩阵，并取所述第二样本矩阵的每一列x′_i组成所述第二训练集
其中，x′_i∈R^K。
根据权利要求6所述的基因表达数据分类系统，其特征在于，所述代表基因通过公式
k＝1,…,K生成，其中，G_k表示第k个聚类集合，
表示所述第k个聚类集合的代表基因，m_k表示第k个聚类中心，K表示所述第一预设参数；g_i表示所述聚类集合中的基因表达数据；

其中，所述第二样本矩阵为
其中R表示实数集，N表示生成所述第一训练集中的样本总个数。
根据权利要求6所述的基因表达数据分类系统，其特征在于，所述诊断模块包括：

第一选择单元，用于根据所述特征索引集对所述待测基因表达数据进行特征选择，获得第一次特征选择后的样本；

第二选择单元，用于根据所述有顺序的特征索引集选择所述第一次特征选择后的样本中的前第二预设参数个特征组成第二次特征选择后的样本；

诊断单元，用于将所述第二次特征选择后的样本输入所述模型函数中，获得所述模型函数的输出结果，根据所述输出结果获得所述待测基因表达数据的分类结果。