WO2023005196A1

WO2023005196A1 - 基于双重自适应邻域半径的多粒度乳腺癌基因分类方法

Info

Publication number: WO2023005196A1
Application number: PCT/CN2022/077251
Authority: WO
Inventors: 丁卫平; 耿宇; 鞠恒荣; 黄嘉爽; 程纯; 孙颖; 张毅; 李铭; 秦廷桢; 沈鑫杰; 王海鹏
Original assignee: 南通大学
Priority date: 2021-07-26
Filing date: 2022-02-22
Publication date: 2023-02-02
Also published as: US11837329B2; CN113838532A; CN113838532B; US20230197203A1

Abstract

一种基于双重自适应邻域半径的多粒度乳腺癌基因分类方法，读取大规模基因位点数据并做归一化处理，并对大规模基因位点进行数据分析；利用轮廓系数和PCA降维可视化相结合方式，选取最佳K值，调整信息粒化的模型；其次，使用启发式约简算法分别实现基于簇心距离自适应邻域半径的多粒度属性约简基于属性包含度的邻域半径的多粒度属性约简，并采用SVM支持向量机机器学习分类算法对乳腺癌基因大数据进行分类和预测。通过调整惩罚项使模型在乳腺癌基因分类具有较高的准确率和召回率，去除大规模数据中冗余属性，提高了计算效率，利用样本之间的支持信息，提升了乳腺癌数据分类的效率和精度。

Description

基于双重自适应邻域半径的多粒度乳腺癌基因分类方法

技术领域

本发明涉及医学信息智能处理技术领域，尤其涉及一种基于双重自适应邻域半径的多粒度乳腺癌基因分类方法。

背景技术

癌症是一种最为常见的基因疾病，经相关医学研究表明肺癌、皮肤癌和乳腺癌与基因密切相关；癌症的出现往往都可以通过基因突变来解释，遗传物质受损没有修复，癌细胞会吸收正常细胞的养分无限分裂导致人体功能衰退，对于早期癌症治愈率较高，癌细胞转移后治愈率较低；早发现早治疗是当下最佳的治疗手段；基因检测是一种无损的检测方法，通过新一代测序技术同时检测成千上万个基因位点，并在大数据下通过对成千上万个基因位点进行数据分析和相关预测，对于临床治疗具有深远的意义，从特征工程、粒计算两个角度对乳腺癌基因大数据进行分析和约简，并通过机器学习分类算法对乳腺癌基因大数据进行分类和预测。

近些年在《乳腺癌NCCN指南》中，对于有家族遗传倾向的乳腺癌高风险人群，推荐用高通量测序进行多基因检测，筛查遗传易感基因，从而预防或指导治疗。这充分显示基于基因检测的个体化治疗及预防是乳腺癌的新方向。指南中指出，对于有家族遗传倾向的乳腺癌高风险人群，《NCCN指南》推荐进行乳腺自检、加强影像学和相应血清肿瘤标志物检查和药物预防等。

通过基因数据的分析帮助医生有效地分析患者是否是乳腺癌高风险患者，然而基因数据过多，亟需一种新的方法能有效地大幅度减少乳腺癌基因数据分类信息中冗余的基因数据，降低乳腺癌数据的分析时间和提高分析效率及精度，有效进行乳腺癌的早期筛查对临床治疗具有一定的意义。

检测主要是用于疾病诊断的采用，基因诊断的方法不仅敏感性大大提高，而且能在短时间内得到结果，了解正确的治疗方法，正确选择药物，避免胡乱用药造成的不良反应，根据乳腺癌基因检测的结果，能够帮助患者制定正确的治疗方法。

发明内容

本发明的目的在于提供一种基于双重自适应邻域半径的多粒度乳腺癌基因分类方法，解决了现有的判断乳腺癌病变状况的有效办法是通过乳腺癌相关的基因数据维度过高难以观察基因突变对于乳腺癌早期判别的影响，通过乳腺癌基因数据之间的联系结合双重自适应邻域半径解决了邻域粗糙集邻域半径选取困难的问题，再利用多粒度邻域粗糙集属性约简可以有效去除噪声和冗余数据。

为了实现上述发明目的，本发明采用以下技术方案：基于双重自适应邻域半径的多粒度乳腺癌基因分类方法，其中，包括以下步骤：

S1：读取乳腺癌基因数据集，将数据转换为一个四元组决策信息系统S＝(U,AT,V,f,δ)，邻域决策信息系统S表示如下：

S＝(U,AT,V,f,δ)，其中U＝{x ₁,x ₂,x ₃,.....x _m}表示乳腺癌基因数据集中的检测患者对象集合，m表示乳腺癌基因检测患者的个数；C＝{a ₁,a ₂,...,a _n}表示乳腺癌基因特征的非空有限集合，n表示乳腺癌基因特征的个数；D＝{D ₁,D ₂}表示乳腺癌基因检测患者类别标签的非空有限集合，AT＝C∪D表示所有基因属性和决策属性，d ₁表示患者患有乳腺癌，d ₂表示患者没有患有乳腺癌，且

V＝∪ _a∈C∪DV _a，V _a是乳腺癌基因检测患者基因特征a的可能情况；f:U×C∪D→V是一个信息函数，它为每个乳腺癌基因检测患者基因特征赋予一个信息值，即

x∈U,f(x,a)∈V _a，δ为邻域阈值；

S2：对乳腺癌基因数据集中非标签数据进行归一化处理，数据归一化的公式如下：

其中x指原始样本中某一属性的数值，x'表示归一化后原始样本中某一属性的数值，max(x)表示所有样本中在某一属性中的最大值，而min(x)表示所有样本中在某一属性中的最小值；

S3：采用K-means聚类算法实现乳腺癌基因数据的信息粒化，采用轮廓系数和PCA降维相结合的方式得到最佳信息粒的个数k，最终得到多个粒度即C＝{P ₁,P ₂,...,P _k}；

S4：信息粒化实现方法：随机选取k个乳腺癌基因样本作为簇心,采用欧式距离，将每个样本点分配到离他们最近的簇心，对于每个簇，计算簇内的样本点的均值作为新的簇心，当簇心位置不再改变时，最终得到k个信息粒；

S5：乳腺癌基因属性被划分到了多个粒度下，在每个粒度下实现基于簇心距离自适应的邻域粗糙集属性约简：通过暂时保留密集相似区内的基因属性，对于密集相似区外的大量基因属性进行多层的邻域筛选，去除无关的基因属性，再采用启发式搜索迭代至正域这个过程去除密集相似区内的冗余的基因属性，得到重要的乳腺癌基因属性；

S6：每个粒度都得到了约简后乳腺癌基因属性，将多个粒度进行融合，并采用基于属性包含度多粒度邻域属性约简在融合的过程中去除不同粒度下相似冗余的基因属性：引入属性包含度的概念，通过细化属性包含度的学习曲线得到乳腺癌基因数据下的最优多粒度邻域半径，并基于多粒度邻域半径采用启发式搜索去除不同粒度下的冗余的基因属性，最终得到属性的约简集合。

S7：采用SVM支持向量机对属性约简集合进行拟合，引入准确率和召回率两大指标，综合考虑模型的稳定性，在采用SVM支持向量机作为模型的分类器的基础上引入惩罚性使得分类模型同时具备较好的准确率和召回率即在该模型下基于乳腺癌基因数据的分类预测具有较高正确率的同时将一个癌症患者预测为正常人的风险较低。

S8：输入大规模乳腺癌基因数据，使用约简集合选取合适属性，使用分类器得到最终的预测结果。

作为本发明提供的基于双重自适应邻域半径的多粒度乳腺癌基因分类方法，其中，所述步骤S3的具体步骤如下：

步骤S3.1：采用轮廓系数进行聚类算法评价，第i个乳腺癌基因属性与簇内其他乳腺癌基因属性的相似度为a _i，与簇外其他乳腺癌基因属性的相似度为b _i，则第i个乳腺癌基因属性的轮廓系数定义如下：

其中s _i的取值范围为[-1，1]，当轮廓系统越接近1说明聚类效果越好，当轮廓系数为负说明聚类效果较差；

步骤S3.2：采用主成分分析PCA降维算法减少乳腺癌基因数据的简化，实现降维可视化，与聚类算法结合测试聚类实际效果，具体设计如下：

对于m个n维乳腺癌基因数据，各变量之间的关系设计协方差矩阵如下：

其中cov(c _i,c _j)表示第i个属性和第j个属性之间的协方差；

再根据特征值大小计算协方差矩阵的贡献率θ以及累计贡献率Θ：

其中N为基因属性总数，y _i为第i列的特征值，y _n为第n列的特征值

其中θ _i表示协方差矩阵中第i列的贡献率，而Θ _r表示协方差矩阵中前r列的累计贡献率。

步骤S3.3：取协方差矩阵的前r维作为投影矩阵S _n×r，将需要降维的矩阵Y _m×n与投影矩阵S _n×r相乘，得到降维后的矩阵T _m×r即：

Y _m×n×S _n×r＝T _m×r (17)

其中m表示乳腺癌基因数据的样本数，n表示乳腺癌基因数据的原始基因属性个数，r表示降维后得到的乳腺癌基因数据的基因属性个数。

步骤S3.4：通过轮廓系数确定一个k值粗略的取值区间，再通过PCA降维可视化方式细化区间选取最佳k值，得到信息粒的个数。

作为本发明提供的基于双重自适应邻域半径的多粒度乳腺癌基因分类方法，其中，所述步骤S5的具体步骤如下：

步骤S5.1：在单个信息粒度下，计算每个乳腺癌基因样本x _i在单个基因属性下B上的邻域关系：

n _B(x _i)＝{x∈U|Δ _B(x _i,x)≤δ} (18)

其中Δ _B是距离函数，δ为邻域半径，δ＞0。

步骤S5.2在单个信息粒度下，计算乳腺癌基因决策属性D关于单个基因属性下B正域：

则决策属性D关于B的依赖度定义为：

步骤S5.3：在单个粒度下，该粒度下有z个基因属性P＝{a ₁,a ₂,...,a _z}，该信息粒下簇心坐标表示为(b ₁,b ₂,...，b _n)，计算求得距离下一个最近的信息粒的簇的簇心坐标表示为(d ₁，d ₂，...,d _n)，i，j为样本遍历序号初始为0，0≤i,j≤m；

步骤S5.4：在单个粒度下，对于任意的乳腺癌基因属性a _t若满足a _t到该信息粒簇心距离记为S _t，若

则默认该属性为密集相似区内的乳腺癌基因属性，先初始化集合

用于寻找基因属性i的下近似集，从x _i开始计算该属性下x _i到其他的点x _j的距离，记x _i到x _j距离为W,若

即邻域半径，则令set _i＝set _i∨x _i∨x _j，待遍历完每一点后最终求得set _i，其中决策属性D＝{D ₁,D ₂}若

或

则称set _i为x _i在D ₁或D ₂关于a _t的下近似集，否则令

步骤S5.5：求得乳腺癌基因决策属性D关于a _m的正域

计算乳腺癌基因决策属性D对乳腺癌基因条件属性a _t的依赖度如下：

步骤S5.6：在单个粒度下，在列表list中降序排放属性的依赖度，求得乳腺癌基因决策属性D关于P粒度下基因属性的正域NPOS _P(D)：

步骤S5.7：计算决策D对条件属性P的依赖度

初始化

步骤S5.8：若r(R ₀,D)＝r(P,D)，算法终止；求出最终大规模乳腺癌基因约简集合R＝R ₀；

步骤S5.9：若r(R ₀,D)≠r(P,D)，将列表list中依赖度最大的属性放入R ₀，跳转到步骤S5.8。

作为本发明提供的基于双重自适应邻域半径的多粒度乳腺癌基因分类方法，其中，所述步骤S6的具体步骤如下：

步骤S6.1：在多个粒度中得到决策表S＝(U,C∪D,V,f)，其中C＝{P ₁,P ₂,...,P _k}，U＝{x ₁,x ₂,...,x _m}，D＝{D ₁,D ₂}，k为信息粒的个数，m为乳腺癌基因数据样本个数，基于属性包含度选择最佳邻域半径，i,j为样本遍历序号初始为0，0≤i,j≤m；

步骤S6.2：对于任意的信息粒P _t，先初始化集合

用于寻找基因属性i的下近似集，从x _i开始计算该信息粒下x _i到其他的点x _j的欧式距离，若x _i到x _j的欧式距离小于邻域半径，则令set _i＝set _i∨x _i∨x _j，待遍历完每一点后最终求得set _i，其中决策属性D＝{D ₁, D ₂}，若

或

则称set _i为x _i在D ₁或D ₂关于P _t的下近似集，否则令

步骤S6.3：求得决策属性D关于P _t的正域

计算决策D对乳腺癌基因条件属性P _t的依赖度

步骤S6.4：在列表All_list中降序排放乳腺癌基因属性的依赖度，求得决策属性D关于C的乐观多粒度正域

如下：

步骤S6.5：计算决策D对条件属性C的依赖度

初始化

步骤S6.6：若r(Red ₀,D)＝r(C,D)，算法终止；求出最终乳腺癌基因约简集合Red＝Red ₀；

步骤S6.7：若r(Red ₀,D)≠r(C,D)，将列表All_list中依赖度最大的属性放入Red ₀，跳转到步骤S6.6；

步骤S6.8：依次从Red＝{P _i,...P _j}中选出P _t中邻域依赖度最大的属性

若

算法终止；求出R＝R ₀

步骤S6.9：若r(R ₀,D)≠r(C,D)，将Red＝{P _i,...P _j}中P _t+1依赖度最大的乳腺癌基因属性放入R ₀，跳转到步骤S6.8。

与现有技术相比，本发明的有益效果为：

(1)、本发明的高准确率与高召回率并行的分类器可以有效的利用基于双重自适应邻域半径的乳腺癌约简集合，给予检测者在较短的时间内得到高准确率的检测结果，与其他分类方法相比，高召回率模型还能保证将癌症患者预测为正常人的高损失风险降到最低，最后通过大数据下的数据分析、属性约简和机器学习分类算法并结合医生一定临床经验能够有效的帮助医生降低乳腺癌早期判断难度，通过乳腺癌早期的癌症筛查可以让患者获得最佳的治疗时期。

(2)、本发明可以通过对少量的样本进行数据分析，通过属性约简提取其中较为重要的基因属性以减少噪声数据对于模型预测的干扰，采用双重自适应邻域半径相比于手动设置邻域半径能够让分类器更好地自学习拟合模型，从而进一步地提高检测准确率，通过上述实例可以有效的进行基因预测。

(3)、本发明通过基于双重自适应邻域半径的多粒度乳腺癌基因分类方法去除大量冗余基因数据和噪声基因数据，从而从上述实例中将原始检测的24481个基因属性约简到了2734个基因属性，与此同时采用十倍交叉法验证可以有效地解决样本数量小，运行时间长等问题，这大大减少了模型的复杂度和算法的时间复杂度，用户提交检测完的基因数据可以在短短的几分钟内得到结果，给予检测者更好的检测体验。

(4)、对样本时往往忽视召回率的问题，将一个癌症患者预测为一个正常人的风险损失极大，检测者很可能会错过最佳的治疗时间，而本发明通过基于双重自适应邻域半径的多粒度乳腺癌基因分类方法充分考虑了检测正确率和检测召回率的风险问题，对模型进行调整，通过设置惩罚项，在确保模型正确率较高的基础上充分考虑召回率对于模型的影响来改进模型，从而极大地减少这一风险的发生。

附图说明

图1为本发明的乳腺癌基因检测流程图。

图2为本发明的基于乳腺癌基因数据的双重自适应邻域半径多粒度属性约简流程图。

图3为本发明的乳腺癌基因数据分类检测流程图。

图4为本发明的乳腺癌基因数据下单粒度自适应邻域半径属性约简流程图。

图5为本发明的乳腺癌基因数据下多粒度自适应邻域半径属性约简流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。当然，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

实施例1

参见图1至图5，本发明提供其技术方案为，基于双重自适应邻域半径的多粒度乳腺癌基因分类方法，包括以下步骤：

步骤1：读取乳腺癌基因数据集，将数据转换为一个四元组决策信息系统S＝(U,AT,V,f,δ)，邻域决策信息系统S表示如下：

S＝(U,AT,V,f,δ)，其中U＝{x ₁,x ₂,x ₃,.....x _m}表示乳腺癌基因数据集中的检测患者对象集合，m表示乳腺癌基因检测患者的个数；C＝{a ₁，a ₂,...,a _n}表示乳腺癌基因特征的非空有限集合，n表示乳腺癌基因特征的个数；D＝{D ₁，D ₂}表示乳腺癌基因检测患者类别标签的非空有限集合，AT＝C∪D表示所有基因属性和决策属性，d ₁表示患者患有乳腺癌，d ₂表示患者没有患有乳腺癌，且

x∈U,f(x,a)∈V _a，δ为邻域阈值；

采用了乳腺癌基因数据集对以上模型进行测试，其中样本数为97个，基因属性共计24481个，决策属性为两类，分别为确诊乳腺癌患者和正常人。

步骤2：对乳腺癌基因数据集中非标签数据进行归一化处理，数据归一化的公式如下：

其中x指原始样本中某一属性的数值，x'表示归一化后原始样本中某一属性的数值，max(x)表示所有样本中在某一属性中的最大值，而min(x)表示所有样本中在某一属性中的最小值。

步骤3：采用K-means聚类算法实现乳腺癌基因数据的信息粒化，采用轮廓系数和PCA降维相结合的方式得到最佳信息粒的个数k，最终得到多个粒度即C＝{P ₁,P ₂,...,P _k}。

步骤4：信息粒化实现方法：随机选取k个乳腺癌基因样本作为簇心,采用欧式距离，将每个样本点分配到离他们最近的簇心，对于每个簇，计算簇内的样本点的均值作为新的簇心，当簇心位置不再改变时，最终得到k个信息粒；

通过轮廓系数指标将最佳粒度数即k值确定在k＝90附近区间，再通过PCA降维可视化确定划分90个粒度即k＝90最为合理。

步骤5：乳腺癌基因属性被划分到了多个粒度下，在每个粒度下实现基于簇心距离自适应的邻域粗糙集属性约简：通过暂时保留密集相似区内的基因属性，对于密集相似区外的大量基因属性进行多层的邻域筛选，去除无关的基因属性，再采用启发式搜索迭代至正域这个过程去除密集相似区内的冗余的基因属性，得到重要的乳腺癌基因属性；

选取一个粒度下该粒度与其他89个粒度簇心的距离，选择最短簇心距离的簇心，得到自适应邻域半径为

其中Z为最短簇心距离，h为该粒度簇心与最近粒度簇心的纵坐标之差，再采用单粒度邻域属性约简算法求得该粒度下的约简集合，最后依此类推求得其余89个粒度下约简集合。

步骤6：每个粒度都得到了约简后乳腺癌基因属性，将多个粒度进行融合，并采用基于属性包含度多粒度邻域属性约简在融合的过程中去除不同粒度下相似冗余的基因属性：引入属性包含度的概念，通过细化属性包含度的学习曲线得到乳腺癌基因数据下的最优多粒度邻域半径，并基于多粒度邻域半径采用启发式搜索去除不同粒度下的冗余的基因属性，最终得到属性的约简集合；

选取所有粒度下邻域半径，选择最大的邻域半径0.2为初始多粒度邻域半径，即多粒度邻域半径取值区间为[0,0.2]，以0.01为步长分别计算每个多粒度邻域半径下属性包含度，选择属性包含度最大的邻域半径即0.13作为多粒度邻域半径。最后采用多粒度邻域属性约简算法将90个粒度进行融合得到最终约简集合共计2734个基因属性。

步骤7：采用SVM支持向量机对属性约简集合进行拟合，引入准确率和召回率两大指标，综合考虑模型的稳定性，在采用SVM支持向量机作为模型的分类器的基础上引入惩罚性使得分类模型同时具备较好的准确率和召回率即在该模型下基于乳腺癌基因数据的分类预测具有较高正确率的同时将一个癌症患者预测为正常人的风险较低。

采用十倍交叉法每次任意选取9成样本作为训练集，1成样本作为测试集对样本进行划分，采用SVM支持向量机分类算法对样本进行拟合，共训练10次，其中7次训练正确率达到90％以上，平均正确率约85.7％，引入惩罚项对模型进行改进同时考虑召回率最终得到模型预测正确率平均正确率约为91.2％，召回率约82％。

步骤8：输入大规模乳腺癌基因数据，使用约简集合选取合适属性，使用分类器得到最终的预测结果。

作为本发明提供的一种用于基于双重自适应邻域半径的多粒度乳腺癌基因分类方法，所述步骤3的具体步骤如下：

步骤3.1：采用轮廓系数进行聚类算法评价，第i个乳腺癌基因属性与簇内其他乳腺癌基因属性的相似度为a _i，与簇外其他乳腺癌基因属性的相似度为b _i，则第i个乳腺癌基因属性的轮廓系数定义如下：

其中s _i的取值范围为[-1,1]，当轮廓系统越接近1说明聚类效果越好，当轮廓系数为负说明聚类效果较差；

通过轮廓系数得到基于双重自适应邻域半径的多粒度乳腺癌基因分类方法；

步骤3.2：采用主成分分析PCA降维算法减少乳腺癌基因数据的简化，实现降维可视化，与聚类算法结合测试聚类实际效果，具体设计如下：

其中cov(c _i,c _j)表示第i个属性和第j个属性之间的协方差；

步骤3.3：取协方差矩阵的前r维作为投影矩阵S _n×r，将需要降维的矩阵Y _m×n与投影矩阵S _n×r相乘，得到降维后的矩阵T _m×r即：

Y _m×n×S _n×r＝T _m×r (28)

步骤3.4：通过轮廓系数确定一个k值粗略的取值区间，再通过PCA降维可视化方式细化区间选取最佳k值，得到信息粒的个数。

通过PCA降维可视化最终确定划分90个粒度即k＝90最为合理；

作为本发明提供的一种用于基于双重自适应邻域半径的多粒度乳腺癌基因分类方法，所述步骤5的具体步骤如下：

步骤5.1：在单个信息粒度下，计算每个乳腺癌基因样本x _i在单个基因属性下B上的邻域关系：

n _B(x _i)＝{x∈U|Δ _B(x _i,x)≤δ} (29)其中Δ _B是距离函数，δ为邻域半径，δ＞0。

步骤5.2在单个信息粒度下，计算乳腺癌基因决策属性D关于单个基因属性下B正域：

则决策属性D关于B的依赖度定义为：

步骤5.3：在单个粒度下，该粒度下有z个基因属性P＝{a ₁,a ₂,...,a _z}，该信息粒下簇心坐标表示为(b ₁,b ₂,...,b _n)，计算求得距离下一个最近的信息粒的簇的簇心坐标表示为(d ₁,d ₂,...,d _n)，i,j为样本遍历序号初始为0，0≤i,j≤m；

步骤5.4：在单个粒度下，对于任意的乳腺癌基因属性a _t若满足a _t到该信息粒簇心距离记为S _t，若

或

则称set _i为x _i在D ₁或D ₂关于a _t的下近似集，否则令

求得邻域半径为

其中Z为最短簇心距离，h为该粒度簇心与最近粒度簇心的纵坐标之差。

步骤5.5：求得乳腺癌基因决策属性D关于a _m的正域

步骤5.6：在单个粒度下，在列表list中降序排放属性的依赖度，求得乳腺癌基因决策属性D关于P粒度下基因属性的正域NPOS _P(D)：

步骤5.7：计算决策D对条件属性P的依赖度

初始化

步骤5.8：若r(R ₀,D)＝r(P,D)，算法终止；求出最终大规模乳腺癌基因约简集合R＝R ₀；

步骤5.9：若r(R ₀,D)≠r(P,D)，将列表list中依赖度最大的属性放入R ₀，跳转到步骤S5.8。

作为本发明提供的一种用于基于双重自适应邻域半径的多粒度乳腺癌基因分类方法，所述步骤6的具体步骤如下：

步骤6.1：在多个粒度中得到决策表S＝(U,C∪D,V,f)，其中C＝{P ₁,P ₂,...,P _k}，U＝{x ₁,x ₂,...,x _m}，D＝{D ₁,D ₂}，k为信息粒的个数，m为乳腺癌基因数据样本个数，基于属性包含度选择最佳邻域半径，i,j为样本遍历序号初始为0，0≤i,j≤m；

该数据集下k＝90,m＝97；

步骤6.2：对于任意的信息粒P _t，先初始化集合

用于寻找基因属性i的下近似集，从x _i开始计算该信息粒下x _i到其他的点x _j的欧式距离，若x _i到x _j的欧式距离小于邻域半径，则令set _i＝set _i∨x _i∨x _j，待遍历完每一点后最终求得set _i，其中决策属性D＝{D ₁,D ₂}，若

或

则称set _i为x _i在D ₁或D ₂关于P _t的下近似集，否则令

选择最大的邻域半径0.2为初始多粒度邻域半径，即多粒度邻域半径取值区间为[0,0.2]，以0.01为步长分别计算每个多粒度邻域半径下属性包含度，选择属性包含度最大的邻域半径即0.13作为多粒度邻域半径；

步骤6.3：求得决策属性D关于P _t的正域

计算决策D对乳腺癌基因条件属性P _t的依赖度

步骤6.4：在列表All_list中降序排放乳腺癌基因属性的依赖度，求得决策属性D关于C的乐观多粒度正域

如下：

步骤6.5：计算决策D对条件属性C的依赖度

初始化

步骤6.6：若r(Red ₀,D)＝r(C,D)，算法终止；求出最终乳腺癌基因约简集合Red＝Red ₀；

步骤6.7：若r(Red ₀,D)≠r(C,D)，将列表All_list中依赖度最大的属性放入Red ₀，跳转到步骤S6.6；

步骤6.8：依次从Red＝{P _i,...P _j}中选出P _t中邻域依赖度最大的属性

若

算法终止；求出R＝R ₀

步骤6.9：若r(R ₀,D)≠r(C,D)，将Red＝{P _i,...P _j}中P _t+1依赖度最大的乳腺癌基因属性放入R ₀，跳转到步骤6.8。

由此可知，当下基因检测主要是采用提取用户基因数据，通过比对该公司数以亿计的数据进行预测，然而这些数据并未公开，所以基因检测方法因为数据源的问题难以普及，许多公开的数据集也只提供少量的样本，对于高维度的基因属性难以达到较高的准确率，而本发明可以通过对少量的样本进行分析，提取其中较为重要的基因属性提高检测准确率，通过上述实例可以有效的进行基因预测。

不仅如此，由于许多公司需要拿用户基因数据去比对数据库数以亿计的样本，这样带来相当大的时间成本，因为计算系统全部基因属性的时间复杂度会随着基因的组合呈指数级增长，用户需要等待几个小时甚至几天才能得到最终的结果，而本发明通过基于双重自适应邻域半径的多粒度乳腺癌基因分类方法去除大量冗余基因数据和噪声基因数据，从上述实例中将原始检测的24481个基因属性约简到了2734个基因属性，这大大减少了算法的时间复杂度，用户提交检测完的基因数据可以在短短的几分钟内得到结果，给予检测者极佳检测体验。

此外，许多公司比对样本时往往忽视召回率的问题，将一个癌症患者预测为一个正常人的风险损失极大，检测者很可能会错过最佳的治疗时间；而本发明通过基于双重自适应邻域半径的多粒度乳腺癌基因分类方法充分考虑了检测正确率和检测召回率的风险问题，对模型进行调整，极大减少这一风险的发生。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

基于双重自适应邻域半径的多粒度乳腺癌基因分类方法，其特征在于，包括以下步骤：

S1：读取乳腺癌基因数据集，将数据转换为一个四元组决策信息系统S＝(U,AT,V,f,δ)，邻域决策信息系统S表示如下：

S＝(U,AT,V,f,δ)，其中U＝{x ₁,x ₂,x ₃,.....x _m}表示乳腺癌基因数据集中的检测患者对象集合，m表示乳腺癌基因检测患者的个数；C＝{a ₁,a ₂,...,a _n}表示乳腺癌基因特征的非空有限集合，n表示乳腺癌基因特征的个数；D＝{D ₁,D ₂}表示乳腺癌基因检测患者类别标签的非空有限集合，AT＝C∪D表示所有基因属性和决策属性，d ₁表示患者患有乳腺癌，d ₂表示患者没有患有乳腺癌，且
V＝∪ _a∈C∪DV _a，V _a是乳腺癌基因检测患者基因特征a的可能情况；f:U×C∪D→V是一个信息函数，它为每个乳腺癌基因检测患者基因特征赋予一个信息值，即
δ为邻域阈值；

S2：对乳腺癌基因数据集中非标签数据进行归一化处理，数据归一化的公式如下：

其中x指原始样本中某一属性的数值，x'表示归一化后原始样本中某一属性的数值，max(x)表示所有样本中在某一属性中的最大值，而min(x)表示所有样本中在某一属性中的最小值；

S3：采用K-means聚类算法实现乳腺癌基因数据的信息粒化，采用轮廓系数和PCA降维相结合的方式得到最佳信息粒的个数k，得到多个粒度即C＝{P ₁,P ₂,...,P _k}；

S4：信息粒化实现方法：随机选取k个乳腺癌基因样本作为簇心,采用欧式距离，将每个样本点分配到离簇心最近处，对于每个簇，计算簇内的样本点的均值作为新的簇心，当簇心位置不再改变时，最终得到k个信息粒；

S5：乳腺癌基因属性被划分到了多个粒度下，在每个粒度下实现基于簇心距离自适应的邻域粗糙集属性约简：通过暂时保留密集相似区内的基因属性，对于密集相似区外的大量基因属性进行多层的邻域筛选，去除无关的基因属性，再采用启发式搜索迭代至正域过程去除密集相似区内的冗余的基因属性，得到重要的乳腺癌基因属性；

S6：每个粒度都得到了约简后乳腺癌基因属性，将多个粒度进行融合，并采用基于属性包含度多粒度邻域属性约简在融合的过程中去除不同粒度下相似冗余的基因属性：引入属性包含度的概念，通过细化属性包含度的学习曲线得到乳腺癌基因数据下的最优多粒度邻域半径，并基于多粒度邻域半径采用启发式搜索去除不同粒度下的冗余的基因属性，最终得到属性的约简集合；

S7：采用SVM支持向量机对属性约简集合进行拟合，引入准确率和召回率两大指标，综合考虑模型的稳定性，在采用SVM支持向量机作为模型的分类器的基础上引入惩罚性使得分类模型同时具备较好的准确率和召回率；

S8：输入大规模乳腺癌基因数据，使用约简集合选取合适属性，使用分类器得到最终的预测结果。
根据权利要求1所述的基于双重自适应邻域半径的多粒度乳腺癌基因分类方法，其特征在于，所述步骤S3具体包括以下步骤：

步骤S3.1：采用轮廓系数进行聚类算法评价，第i个乳腺癌基因属性与簇内其他乳腺癌基因属性的相似度为a _i，与簇外其他乳腺癌基因属性的相似度为b _i，则第i个乳腺癌基因属性的轮廓系数定义如下：

其中s _i的取值范围为[-1,1]，当轮廓系统越接近1说明聚类效果越好，当轮廓系数为负说明聚类效果较差；

步骤S3.2：采用主成分分析PCA降维算法减少乳腺癌基因数据的简化，达到降维可视化，与聚类算法结合测试聚类实际效果，具体内容如下：

对于m个n维乳腺癌基因数据，各变量之间的关系设计协方差矩阵如下：

其中cov(c _i,c _j)表示第i个属性和第j个属性之间的协方差；

再根据特征值大小计算协方差矩阵的贡献率θ以及累计贡献率Θ：

其中N为基因属性总数，y _i为第i列的特征值，y _n为第n列的特征值

其中θ _i表示协方差矩阵中第i列的贡献率，而Θ _r表示协方差矩阵中前r列的累计贡献率；

步骤S3.3：取协方差矩阵的前r维为投影矩阵S _n×r，将降维的矩阵Y _m×n与投影矩阵S _n×r相乘，得降维后的矩阵T _m×r即：

Y _m×n×S _n×r＝T _m×r (6)

其中m表示乳腺癌基因数据的样本数，n表示乳腺癌基因数据的原始基因属性个数，r表示降维后得到的乳腺癌基因数据的基因属性个数；

步骤S3.4：通过轮廓系数确定一个k值粗略的取值区间，再通过PCA降维可视化方式细化区间选取最佳k值，得到信息粒的个数。
根据权利要求1所述的基于双重自适应邻域半径的多粒度乳腺癌基因分类方法，其特征在于，所述步骤S5的具体步骤如下：

步骤S5.1：在单个信息粒度下，计算每个乳腺癌基因样本x _i在单个基因属性下B上的邻域关系：

n _B(x _i)＝{x∈U|Δ _B(x _i,x)≤δ} (7)

其中Δ _B是距离函数，δ为邻域半径，δ＞0；

步骤S5.2在单个信息粒度下，计算乳腺癌基因决策属性D关于单个基因属性下B正域：

则决策属性D关于B的依赖度定义为：

步骤S5.3：在单个粒度下，该粒度下有z个基因属性P＝{a ₁,a ₂,...,a _z}，该信息粒下簇心坐标表示为(b ₁,b ₂,...,b _n)，计算求得距离下一个最近的信息粒的簇的簇心坐标表示为(d ₁,d ₂,...,d _n)，i,j为样本遍历序号初始为0，0≤i,j≤m；

步骤S5.4：在单个粒度下，对于任意的乳腺癌基因属性a _t若满足a _t到该信息粒簇心距离记为S _t，若
则默认该属性为密集相似区内的乳腺癌基因属性，先初始化集合
用于寻找基因属性i的下近似集，从x _i开始计算该属性下x _i到其他的点x _j的距离，记x _i到x _j距离为W,若
即邻域半径，则令set _i＝set _i∨x _i∨x _j，待遍历完每一点后最终求得set _i，其中决策属性D＝{D ₁,D ₂}若
或
则称set _i为x _i在D ₁或D ₂关于a _t的下近似集，否则令

步骤S5.5：求得乳腺癌基因决策属性D关于a _m的正域
计算乳腺癌基因决策属性D对乳腺癌基因条件属性a _t的依赖度如下：

步骤S5.6：在单个粒度下，在列表list中降序排放属性的依赖度，求得乳腺癌基因决策属性D关于P粒度下基因属性的正域NPOS _P(D)：

步骤S5.7：计算决策D对条件属性P的依赖度
初始化

步骤S5.8：若r(R ₀,D)＝r(P,D)，算法终止；求出最终大规模乳腺癌基因约简集合R＝R ₀；

步骤S5.9：若r(R ₀,D)≠r(P,D)，将列表list中依赖度最大的属性放入R ₀，跳转到步骤S5.8。
根据权利要求1所述的基于双重自适应邻域半径的多粒度乳腺癌基因分类方法，其特征在于，所述步骤S6的具体步骤如下：

步骤S6.1：在多个粒度中得到决策表S＝(U,C∪D,V,f)，其中C＝{P ₁,P ₂,...,P _k}，U＝{x ₁,x ₂,...,x _m}，D＝{D ₁,D ₂}，k为信息粒的个数，m为乳腺癌基因数据样本个数，基于属性包含度选择最佳邻域半径，i,j为样本遍历序号初始为0，0≤i,j≤m；

步骤S6.2：对于任意的信息粒P _t，先初始化集合
用于寻找基因属性i的下近似集，从x _i开始计算该信息粒下x _i到其他的点x _j的欧式距离，若x _i到x _j的欧式距离小于邻域半径，则令set _i＝set _i∨x _i∨x _j，待遍历完每一点后最终求得set _i，其中决策属性D＝{D ₁,D ₂}，若
或
则称set _i为x _i在D ₁或D ₂关于P _t的下近似集，否则令

步骤S6.3：求得决策属性D关于P _t的正域
计算决策D对乳腺癌基因条件属性P _t的依赖度

步骤S6.4：在列表All_list中降序排放乳腺癌基因属性的依赖度，求得决策属性D关于C的乐观多粒度正域
如下：

步骤S6.5：计算决策D对条件属性C的依赖度
初始化

步骤S6.6：若r(Red ₀,D)＝r(C,D)，算法终止；求出最终乳腺癌基因约简集合Red＝Red ₀；

步骤S6.7：若r(Red ₀,D)≠r(C,D)，将列表All_list中依赖度最大的属性放入Red ₀，跳转到步骤S6.6；

步骤S6.8：依次从Red＝{P _i,...P _j}中选出P _t中邻域依赖度最大的属性
若
算法终止；求出R＝R ₀；

步骤S6.9：若r(R ₀,D)≠r(C,D)，将Red＝{P _i,...P _j}中P _t+1依赖度最大的乳腺癌基因属性放入R ₀，跳转到步骤S6.8。