WO2017181665A1 - 一种基因表达数据分类方法及分类系统 - Google Patents

一种基因表达数据分类方法及分类系统 Download PDF

Info

Publication number
WO2017181665A1
WO2017181665A1 PCT/CN2016/106255 CN2016106255W WO2017181665A1 WO 2017181665 A1 WO2017181665 A1 WO 2017181665A1 CN 2016106255 W CN2016106255 W CN 2016106255W WO 2017181665 A1 WO2017181665 A1 WO 2017181665A1
Authority
WO
WIPO (PCT)
Prior art keywords
feature
cluster
gene expression
expression data
training set
Prior art date
Application number
PCT/CN2016/106255
Other languages
English (en)
French (fr)
Inventor
张莉
黄晓娟
王邦军
张召
李凡长
Original Assignee
苏州大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 苏州大学 filed Critical 苏州大学
Priority to US15/571,076 priority Critical patent/US20180165413A1/en
Priority to EP16899247.7A priority patent/EP3299976A4/en
Publication of WO2017181665A1 publication Critical patent/WO2017181665A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Definitions

  • the present application relates to the field of gene classification technology, and more particularly to a gene expression data classification method and classification system.
  • DNA microarray counting can simultaneously measure the expression data of thousands of genes, which can help researchers study the nature of biology.
  • a large amount of gene expression data only a small amount of gene expression data is the research object of the researcher.
  • the expression data of cancer gene is usually less than one hundred, but a large amount of gene expression.
  • the classification of cancer genes and other genes in the data requires a lot of computational resources and computation time.
  • SVM-RFE Support Vector Machine Recursive Feature Elimination
  • the SVM-RFE algorithm still needs to perform feature selection processing on a large amount of gene expression data, which requires a large amount of computational resources and consumes a large amount of computation time.
  • the present invention provides a gene expression data classification method and a classification system to solve the problem that classification of gene expression data requires a large amount of computation resources and consumes a large amount of calculation time.
  • the embodiment of the present invention provides the following technical solutions:
  • a method for classifying gene expression data comprising:
  • Clustering algorithm is used to cluster the genetic feature data sets to obtain a cluster set of first preset parameters, and each of the cluster sets has a cluster center;
  • the setting manner of the first preset parameter is:
  • the genetic feature data set is processed by using the N-fold cross-validation method, and the value corresponding to the maximum recognition rate is used as the first preset parameter, where N is 5, 10 or 20.
  • the clustering algorithm is used to cluster the genetic feature data sets to obtain a cluster set of first preset parameters, and each of the cluster sets has a cluster center, including:
  • the K-means clustering algorithm is used to cluster the genetic feature data sets to obtain a cluster set of first preset parameters, and each of the cluster sets has a cluster center.
  • the representative gene passes the formula generate
  • the second sample matrix is Wherein the second sample matrix is Where R represents a real set and N represents the total number of samples in the first training set.
  • the gene expression data to be measured is classified, and the diagnosis result of obtaining the test gene expression data includes:
  • a gene expression data classification system comprising:
  • a feature selection module configured to acquire a first training set, generate a genetic feature data set by using the first training set, the first training set includes gene expression data, and cluster the genetic feature data set by using a clustering algorithm Obtaining a cluster set of a first preset parameter, each of the cluster sets having a cluster center; generating a second sample matrix by using representative genes of all the cluster sets, wherein the representative gene is Generating data in one of each of the cluster sets; processing the second sample matrix to obtain a second training set, generating a feature index set corresponding to the second training set; and the second training set Performing feature sorting to obtain a sequenced feature index set corresponding to the sorted second training set; and selecting a second second preset parameter feature to form a third training set in the ordered feature index set;
  • a training module configured to model the third training set to obtain a model function
  • a diagnosis module configured to classify the gene expression data to be measured according to the feature index set, the ordered feature index set, and the model function, and obtain a classification result of the gene expression data to be tested.
  • the feature selection module comprises:
  • a pre-processing unit configured to acquire a first training set of the genetic samples, perform pre-processing on the first training set, generate a first sample matrix, and generate a genetic feature data set according to the sample matrix;
  • a first feature selection unit configured to process the genetic feature data set by using an N-fold cross-validation method, and use a value corresponding to a maximum recognition rate as the first preset parameter, where N is 5 or 10 or 20;
  • the K-means clustering algorithm is used to cluster the genetic feature data sets to obtain a cluster set of first preset parameters, and each of the cluster sets has a cluster center, and each cluster set Selecting a gene as a representative gene of the cluster set, and generating a second sample matrix using the representative genes of all cluster sets, and processing the second sample matrix to obtain a second training set, simultaneously generating and a feature index set corresponding to the second training set;
  • a second feature selection unit configured to perform feature sorting on the second training set, obtain a sequenced feature index set, determine the number of reserved features as a second preset parameter, and select in the ordered feature index set
  • the first second preset parameter features constitute a third training set.
  • the first feature selection unit is configured to process the genetic feature data set by using an N-fold cross-validation method, and use a value corresponding to a maximum recognition rate as the first preset parameter, where N is 5 or 10 or 20; clustering the genetic feature data set by using a K-means clustering algorithm to obtain a first preset parameter cluster center and a first preset parameter cluster set, in each cluster set Selecting a gene as a representative gene of the cluster set, and generating a second sample matrix using the representative genes of all cluster sets, and taking each column x' i of the second sample matrix to form the second training set Where x' i ⁇ R K .
  • the representative gene passes the formula Generated, where G k represents the kth cluster set, a representative gene representing the kth cluster set, m k represents a kth cluster center, K represents the first preset parameter; g i represents gene expression data in the cluster set;
  • the second sample matrix is Wherein the second sample matrix is Where R represents a real number set and N represents the total number of samples generated in the first training set.
  • the diagnostic module comprises:
  • a first selecting unit configured to perform feature selection on the gene expression data to be tested according to the feature index set, to obtain a sample after the first feature selection
  • a second selecting unit configured to select, according to the ordered feature index set, a feature of the first second preset parameter in the sample after the first feature selection to form a sample after the second feature selection;
  • a diagnosis unit configured to input the sample after the second feature selection into the model function, obtain an output result of the model function, and obtain a classification result of the gene expression data to be tested according to the output result.
  • the embodiment of the present invention provides a gene expression data classification method and a classification system, wherein the gene expression data classification method is obtained by using a clustering algorithm after obtaining the genetic feature data set. Generating the genetic feature data set to obtain a first preset parameter a clustering set, and then processing the cluster set to obtain a second sample matrix, a second training set, and a feature index set to reduce dimensionality of gene expression data, thereby reducing redundancy between gene expression data, and further The computational resources and the computational time occupied in the process of selecting the feature of the second training set are reduced to a large extent; and the clustering algorithm is used to cluster the genetic feature data set. The computational resources and the computational time spent are very small. Therefore, the computational resources and the computational time spent on classifying the gene expression data by using the gene expression data classification method are less.
  • FIG. 1 is a schematic flow chart of a method for classifying gene expression data according to an embodiment of the present application
  • FIG. 2 is a schematic flow chart of a method for classifying gene expression data according to another embodiment of the present application.
  • FIG. 3 is a schematic structural diagram of a gene expression data classification system according to an embodiment of the present application.
  • FIG. 4 is a schematic structural diagram of a feature selection module according to an embodiment of the present application.
  • FIG. 5 is a schematic structural diagram of a diagnostic module according to an embodiment of the present application.
  • An embodiment of the present application provides a method for classifying gene expression data, as shown in FIG. 1, comprising:
  • S101 Acquire a first training set, and generate a genetic feature data set by using the first training set, where the first training set includes gene expression data.
  • the gene expression data in the first training set is obtained by DNA microarray technology.
  • the gene expression data may also be acquired by other technologies or devices.
  • the method or device used for obtaining the gene expression data is not limited, and may be determined according to actual conditions.
  • obtaining gene expression data by DNA microarray technology constitutes a first training set
  • x i is the gene expression data in the first training set
  • x i is the gene expression data in the first training set
  • y i is a label of x i , indicating the category of x i , y i ⁇ -1, +1 ⁇
  • N represents the total number of samples in the first training set
  • D represents the dimension of the sample in the first training set
  • R represents the real set.
  • each column of the matrix being a sample of the first training set,
  • S102 Clustering the genetic feature data set by using a clustering algorithm to obtain a cluster set of first preset parameters, and each of the cluster sets has a cluster center.
  • each cluster set contains similar gene expression data in the gene feature data set
  • each cluster set has a cluster center
  • the cluster center of each cluster set is owned by all the cluster sets Gene expression data was calculated.
  • the cluster center of each cluster set is an average of all gene expression data in the cluster set.
  • this application does not limit this, and the cluster center of each cluster set can also be determined by other means, depending on the actual situation.
  • the purpose of clustering the genetic feature data sets by using a clustering algorithm is to reduce the dimensionality of the gene expression data to reduce the redundancy between the gene expression data.
  • S103 Generate a second sample matrix by using all representative genes of the cluster set, wherein the representative gene is one gene expression data in each of the cluster sets.
  • S104 Process the second sample matrix to obtain a second training set.
  • S105 Generate a feature index set corresponding to the second training set.
  • S106 Perform feature sorting on the second training set to obtain an ordered feature index set corresponding to the sorted second training set.
  • the second training set is feature-sorted by using an SVM-RFE algorithm, and a sequenced feature index set corresponding to the sorted second training set is obtained.
  • S107 Select a feature of the first second preset parameter in the ordered feature index set to form a third training set.
  • the value of the second preset parameter is smaller than the value of the first preset parameter.
  • the third training set is modeled using a support vector machine classifier to obtain a model function.
  • S109 classify the gene expression data to be measured according to the feature index set, the ordered feature index set, and the model function, and obtain a classification result of the gene expression data to be tested.
  • test gene and the first training set are obtained in the same process of collecting the gene expression data.
  • the gene expression data classification method includes:
  • S201 Acquire a first training set formed by gene expression data, perform pre-processing on the first training set, generate the first sample matrix, and take each row of the first sample matrix to form the genetic feature data. set.
  • S202 processing the genetic feature data set by using an N-fold cross-validation method, and using a value corresponding to a maximum recognition rate as the first preset parameter, where N is 5 or 10 or 20; clustering by K-means The algorithm clusters the genetic feature data set to obtain a cluster set of first preset parameters, and each of the cluster sets has a cluster center.
  • the setting manner of the first preset parameter is:
  • the genetic feature data set is processed by using the N-fold cross-validation method, and the value corresponding to the maximum recognition rate is used as the first preset parameter, where N is 5, 10 or 20. In a preferred embodiment of the application, N is preferably 10.
  • R represents a real set
  • N represents the total number of samples in the first training set
  • G k represents the kth cluster set.
  • 2 represents a norm operation
  • the subscript table exemplary number type is a Euclidean norm
  • m k represents the kth cluster center
  • K represents The first preset parameter
  • g i represents gene expression data in the cluster set.
  • S205 Generate a feature index set corresponding to the second training set.
  • S206 selecting a size of the set of feature genes at the highest recognition rate in the process of processing the genetic feature data set by using the N-fold cross-validation method as the value of the second preset parameter, using the SVM-RFE method
  • the second training set performs feature sorting to obtain an ordered feature index set corresponding to the sorted second training set
  • S207 Select a feature of the first second preset parameter in the ordered feature index set to form a third training set.
  • S209 Perform feature selection on the expression data of the test gene according to the feature index set, and obtain a sample after the first feature selection.
  • the gene to be tested and the gene expression data in the first training set are acquired by the same DNA microarray technology.
  • S210 Select, according to the ordered feature index set, a feature of the first second preset parameter in the sample after the first feature selection to form a sample after the second feature selection.
  • S211 Input the sample after the second feature selection into the model function, obtain an output result of the model function, and obtain a classification result of the gene expression data to be tested according to the output result.
  • the breast cancer data set included 97 patient samples, belonging to two categories. Each sample has 24,481 gene expression data.
  • the first training set includes 78 patient samples, 34 of which are cancer metastasis patients (labeled "old disease recurrence") for at least 5 years, and the remaining 44 samples are initially diagnosed from the patient for at least 5 years. Healthy patients (labeled "non-recurring").
  • the sample of the test gene includes 12 samples of “old disease recurrence” and 7 samples of “non-recurring” patients.
  • x i is the gene expression data constituting the first training set
  • y i is a label of x i , indicating the category of x i , y i ⁇ ⁇ -1, +1 ⁇
  • N represents The total number of samples in the first training set
  • D represents the dimension of the sample in the first training set
  • R represents the real set.
  • a gene expression data is selected as a representative gene of the cluster set in each cluster set, and the selection formula of the representative gene is: Where
  • 80.
  • Determining a value d of the second preset parameter, and the value of the second preset parameter d (d ⁇ 80) is a feature of processing the genetic feature data set by using a 10-fold cross-validation method, and the highest recognition rate characteristic The size of the collection of genes.
  • Using the SVM-RFE method to the second training set Perform feature sorting to get a sequenced feature index set
  • the gene expression data to be tested (in this example, cancer gene expression data) be x, where x ⁇ R 24481 .
  • the gene expression data classification method provided by the embodiments of the present application and the SVM-RFE (SVM-Recursive Feature Elimination) algorithm and the MRMR+SVM-RFE (minimal redundancy-maximal relevance+SVM-Recursive Feature Elimination) algorithm are Comparative experiments were performed on the same breast cancer dataset. 78 training samples were randomly selected 10 times. Table 1 gives a comparison of the best average classification performance obtained by each of the above three methods.
  • the embodiment of the present application further provides a gene expression data classification system, as shown in FIG. 3, including:
  • a feature selection module A10 configured to acquire a first training set, generate a genetic feature data set by using the first training set, where the first training set includes gene expression data; and clustering the genetic feature data set by using a clustering algorithm a class, a cluster set of the first preset parameter is obtained, each of the cluster sets has a cluster center; and a second sample matrix is generated by using the representative genes of all the cluster sets, wherein the representative base Because each of the cluster sets expresses data; processing the second sample matrix to obtain a second training set, generating a feature index set corresponding to the second training set; and performing the second training Performing feature sorting to obtain a sequenced feature index set corresponding to the sorted second training set; and selecting a second second preset parameter feature to form a third training set in the ordered feature index set;
  • a training module A20 configured to model the third training set to obtain a model function
  • the diagnosis module A30 is configured to classify the gene expression data to be measured according to the feature index set, the ordered feature index set, and the model function, and obtain the classification result of the gene expression data to be tested.
  • the gene expression data to be tested and the first training set are obtained in the same acquisition by using the biological microarray technology.
  • the gene expression data classification system clusters the genetic feature data set by using a clustering algorithm to obtain a first preset parameter cluster set, and each of the cluster sets Having a clustering center, and then processing the clustering set to obtain a second sample matrix, a second training set, and a feature index set to reduce dimensionality of gene expression data, thereby reducing redundancy between gene expression data, Further, the computational resources and the computational time occupied in the process of performing feature selection on the second training set are reduced to a large extent; and the clustering algorithm is used to cluster the genetic feature data sets. The occupied computing resources and the computational time spent are small, which greatly reduces the computational resources and cost of the classification of the gene expression data to be measured. Count time.
  • the feature selection module A10 includes:
  • the pre-processing unit A11 is configured to acquire a first training set of the genetic samples, perform pre-processing on the first training set, generate a first sample matrix, and generate a genetic feature data set according to the sample matrix;
  • the first feature selection unit A12 is configured to process the genetic feature data set by using an N-fold cross-validation method, and use a value corresponding to a maximum recognition rate as the first preset parameter, where N is 5 or 10 or 20
  • the K-means clustering algorithm is used to cluster the genetic feature data sets to obtain a cluster set of first preset parameters, and each of the cluster sets has a cluster center, and each cluster set Selecting a gene as a representative gene of the cluster set, and generating a second sample matrix using the representative genes of all cluster sets, and processing the second sample matrix to obtain a second training set, simultaneously generating and a feature index set corresponding to the second training set;
  • the second feature selection unit A13 is configured to perform feature sorting on the second training set to obtain a sequenced feature index set, and determine that the number of reserved features is a second preset parameter, where the ordered feature index set is The second preset parameter is selected to form a third training set.
  • the pre-processing unit A11 acquires the first training set of gene expression data by using DNA microarray technology.
  • x i represents the gene expression data in the first training set
  • y i is a label of x i , indicating the category of x i , y i ⁇ ⁇ -1, +1 ⁇
  • N represents The total number of samples in the first training set
  • D represents the dimension of the sample in the first training set
  • R represents the real set.
  • each column of the matrix being a sample of the first training set,
  • the purpose of clustering the genetic feature data sets by using the K-means clustering algorithm is to reduce the dimensionality of the gene expression data to reduce the redundancy between the gene expression data.
  • the first feature selection unit A12 is configured to process the genetic feature data set by using an N-fold cross-validation method, and correspondingly when the recognition rate is maximum a value of the first preset parameter K, where N is 5 or 10 or 20;
  • a gene is selected as a representative gene of the cluster set in each cluster set, and the formula for generating the representative gene is: Where G k represents the kth cluster set, Representing the representative gene of the kth cluster set, mk represents the kth cluster center, and K represents the first preset parameter. Generating the sample matrix Where N represents the total number of training samples in the training set. Taking each column of the sample matrix X' as x' i to form the second training set Where x' i ⁇ R K , simultaneously generating a feature index set corresponding to the second training set
  • K.
  • the genetic feature data set is processed by using a 10-fold cross-validation method, and a value corresponding to a maximum recognition rate is used as the first preset parameter.
  • this application does not limit this, and it depends on the actual situation.
  • the value of the second preset parameter d(d ⁇ K) is processed by using a 10-fold cross-validation method to process the genetic feature data set.
  • the highest recognition rate is the size of the set of characteristic genes.
  • the second training set is applied by using an SVM-RFE method. Perform feature sorting to get a sequenced feature index set
  • K. Selecting the first d features to form a third training set in the ordered feature index set Where x "i ⁇ R d.
  • the third training set is modeled by using a support vector machine classifier to obtain a model function f(x").
  • the specific method used for modeling in the third training set is not limited, and it depends on the actual situation.
  • the diagnostic module A30 includes:
  • a first selecting unit A31 configured to perform feature selection on the expression data of the test gene x(x ⁇ R D ) according to the feature index set F, to obtain a sample x′ after the first feature selection (x′ ⁇ R K);
  • a second selecting unit A32 configured to select, according to the sequenced feature index set F', the first second preset parameter in the sample x' after the first feature selection to form a second feature selection Sample x"(x" ⁇ R d );
  • a diagnosis unit A33 configured to input the sample x′′ of the second feature selection into the model function f(x′′), obtain an output result of the model function, and obtain the to-be-test according to the output result Classification results of gene expression data.
  • the embodiment of the present application provides a gene expression data classification method and a classification system, wherein, in the gene expression data classification method, after obtaining the genetic feature data set, the clustering algorithm is used to The feature data set is clustered to obtain a cluster set of the first preset parameters, and then the cluster set is processed to obtain a second sample matrix, a second training set, and a feature index set to perform dimensionality reduction on the gene expression data.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Public Health (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Epidemiology (AREA)
  • Bioethics (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Pathology (AREA)
  • Primary Health Care (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

本申请公开了一种基因表达数据分类方法及分类系统,其中,所述基因表达数据分类方法中在获得所述基因特征数据集之后,采用聚类算法对所述基因特征数据集进行聚类,获得第一预设参数个的聚类集合,然后对所述聚类集合进行处理获得第二样本矩阵、第二训练集以及特征索引集以对基因表达数据进行降维,从而降低基因表达数据之间的冗余度,进而在很大程度上降低了在之后对所述第二训练集进行特征选择的过程中占用的计算资源以及耗费的计算时间;而采用聚类算法对所述基因特征数据集进行聚类操作所占用的计算资源以及耗费的计算时间都很少,因此采用所述基因表达数据分类方法对待测基因表达数据进行分类占用的计算资源和耗费的计算时间都较少。

Description

一种基因表达数据分类方法及分类系统
本申请要求于2016年4月20日提交中国专利局、申请号为201610246971.3、发明名称为“一种基因表达数据分类方法及分类系统”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及基因分类技术领域,更具体地说,涉及一种基因表达数据分类方法及分类系统。
背景技术
利用DNA微阵列计数可以同时测定成千上万维基因的表达数据,这些表达数据能够帮助研究人员研究生物的本质。但是在大量的基因表达数据中,只有很少量的基因表达数据是研究人员的研究客体,以癌症基因的研究为例,癌症基因的表达数据样本通常少于一百,而在大量的基因表达数据中对癌症基因与其他基因进行分类就需要耗费大量的计算资源和计算时间。
有研究人员利用支持向量机递归特征消除(Support Vector Machine Recursive Feature Elimination,SVM-RFE)算法可以自动消除大量的基因表达数据中的冗余基因(即对基因分类没用贡献的基因),以实现从大量的基因表达数据中找出目标基因的目的。
但是SVM-RFE算法仍然需要对大量的基因表达数据进行特征选择处理,需要占用大量的计算资源并且耗费大量的计算时间。
发明内容
为解决上述技术问题,本发明提供了一种基因表达数据分类方法及分类系统,以解决对基因表达数据进行分类需要占用大量的计算资源并且耗费大量的计算时间的问题。
为解决上述技术问题,本发明实施例提供了如下技术方案:
一种基因表达数据分类方法,包括:
获取第一训练集,利用所述第一训练集生成基因特征数据集,所述第一训练集中包含基因表达数据;
采用聚类算法对所述基因特征数据集进行聚类,获得第一预设参数个的聚类集合,每个所述聚类集合具有一个聚类中心;
利用所有的所述聚类集合的代表基因生成第二样本矩阵,其中,所述代表基因为每个所述聚类集合中的一个基因表达数据;
对所述第二样本矩阵进行处理获得第二训练集;
生成与所述第二训练集对应的特征索引集;
对所述第二训练集进行特征排序,获得与所述排序后的第二训练集对应的有顺序的特征索引集;
在所述有顺序的特征索引集中选取前第二预设参数个特征组成第三训练集;
对所述第三训练集进行建模,获得模型函数;
根据所述特征索引集、有顺序的特征索引集和所述模型函数对待测基因表达数据进行分类,获得待测基因表达数据的分类结果。
优选的,所述第一预设参数的设定方式为:
采用N折交叉验证法对所述基因特征数据集进行处理,将识别率最大时对应的值作为所述第一预设参数,其中N为5、10或20。
优选的,所述采用聚类算法对所述基因特征数据集进行聚类,获得第一预设参数个的聚类集合,每个所述聚类集合具有一个聚类中心,包括:
采用K-means聚类算法对所述基因特征数据集进行聚类,获得第一预设参数个的聚类集合,每个所述聚类集合具有一个聚类中心。
优选的,所述代表基因通过公式
Figure PCTCN2016106255-appb-000001
生成;
其中,Gk表示第k个聚类集合,
Figure PCTCN2016106255-appb-000002
表示所述第k个聚类集合的代表基因,mk表示第k个聚类中心,K表示所述第一预设参数;gi表示所述聚类集合中的基因表达数据;
其中,所述第二样本矩阵为
Figure PCTCN2016106255-appb-000003
其中,R表示实数集, N表示所述第一训练集中的样本总个数。
优选的,根据所述特征索引集、有顺序的特征索引集和所述模型函数对待测基因表达数据进行分类,获得待测基因表达数据的诊断结果包括:
根据所述特征索引集对所述待测基因的表达数据进行特征选择,获得第一次特征选择后的样本;
根据所述有顺序的特征索引集,选择所述第一次特征选择后的样本中的前第二预设参数个特征组成第二次特征选择后的样本;
将所述第二次特征选择后的样本输入所述模型函数中,获得所述模型函数的输出结果,根据所述输出结果获得所述待测基因表达数据的分类结果。
一种基因表达数据分类系统,包括:
特征选择模块,用于获取第一训练集,利用所述第一训练集生成基因特征数据集,所述第一训练集包含基因表达数据;采用聚类算法对所述基因特征数据集进行聚类,获得第一预设参数个的聚类集合,每个所述聚类集合具有一个聚类中心;利用所有的所述聚类集合的代表基因生成第二样本矩阵,其中,所述代表基因为每个所述聚类集合中的一个基因表达数据;对所述第二样本矩阵进行处理获得第二训练集,生成与所述第二训练集对应的特征索引集;对所述第二训练集进行特征排序,获得与所述排序后的第二训练集对应的有顺序的特征索引集;在所述有顺序的特征索引集中选取前第二预设参数个特征组成第三训练集;
训练模块,用于对所述第三训练集进行建模,获得模型函数;
诊断模块,用于根据所述特征索引集、有顺序的特征索引集和所述模型函数对待测基因表达数据进行分类,获得待测基因表达数据的分类结果。
优选的,所述特征选择模块包括:
预处理单元,用于获取基因样本的第一训练集,对所述第一训练集进行预处理,生成第一样本矩阵,并根据所述样本矩阵生成基因特征数据集;
第一特征选择单元,用于采用N折交叉验证法对所述基因特征数据集进行处理,将识别率最大时对应的值作为所述第一预设参数,其中N为5或10或20;采用K-means聚类算法对所述基因特征数据集进行聚类,获得第一预设参数个的聚类集合,每个所述聚类集合具有一个聚类中心,在每个聚类集合 中选取一个基因作为该聚类集合的代表基因,并利用所有的聚类集合的代表基因生成第二样本矩阵,并对所述第二样本矩阵进行处理获得第二训练集,同时生成与所述第二训练集对应的特征索引集;
第二特征选择单元,用于对所述第二训练集进行特征排序,获得有顺序的特征索引集,确定保留的特征个数为第二预设参数,在所述有顺序的特征索引集中选取前第二预设参数个特征组成第三训练集。
优选的,所述第一特征选择单元用于采用N折交叉验证法对所述基因特征数据集进行处理,将识别率最大时对应的值作为所述第一预设参数,其中N为5或10或20;采用K-means聚类算法对所述基因特征数据集进行聚类,获得第一预设参数个聚类中心和第一预设参数个聚类集合,在每个聚类集合中选取一个基因作为该聚类集合的代表基因,并利用所有的聚类集合的代表基因生成第二样本矩阵,并取所述第二样本矩阵的每一列x′i组成所述第二训练集
Figure PCTCN2016106255-appb-000004
其中,x′i∈RK
优选的,所述代表基因通过公式
Figure PCTCN2016106255-appb-000005
生成,其中,Gk表示第k个聚类集合,
Figure PCTCN2016106255-appb-000006
表示所述第k个聚类集合的代表基因,mk表示第k个聚类中心,K表示所述第一预设参数;gi表示所述聚类集合中的基因表达数据;
其中,所述第二样本矩阵为
Figure PCTCN2016106255-appb-000007
其中R表示实数集,N表示生成所述第一训练集中的样本总个数。
优选的,所述诊断模块包括:
第一选择单元,用于根据所述特征索引集对所述待测基因表达数据进行特征选择,获得第一次特征选择后的样本;
第二选择单元,用于根据所述有顺序的特征索引集选择所述第一次特征选择后的样本中的前第二预设参数个特征组成第二次特征选择后的样本;
诊断单元,用于将所述第二次特征选择后的样本输入所述模型函数中,获得所述模型函数的输出结果,根据所述输出结果获得所述待测基因表达数据的分类结果。
从上述技术方案可以看出,本发明实施例提供了一种基因表达数据分类方法及分类系统,其中,所述基因表达数据分类方法中在获得所述基因特征数据集之后,采用聚类算法对所述基因特征数据集进行聚类,获得第一预设参数个 的聚类集合,然后对所述聚类集合进行处理获得第二样本矩阵、第二训练集以及特征索引集以对基因表达数据进行降维,从而降低基因表达数据之间的冗余度,进而在很大程度上降低了在之后对所述第二训练集进行特征选择的过程中占用的计算资源以及耗费的计算时间;而采用聚类算法对所述基因特征数据集进行聚类操作所占用的计算资源以及耗费的计算时间都很少,因此采用所述基因表达数据分类方法对待测基因表达数据进行分类占用的计算资源和耗费的计算时间都较少。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请的一个实施例提供的一种基因表达数据分类方法的流程示意图;
图2为本申请的另一个实施例提供的一种基因表达数据分类方法的流程示意图;
图3为本申请的一个实施例提供的一种基因表达数据分类系统的结构示意图;
图4为本申请的一个实施例提供的一种特征选择模块的结构示意图;
图5为本申请的一个实施例提供的一种诊断模块的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请的一个实施例提供了一种基因表达数据分类方法,如图1所示,包括:
S101:获取第一训练集,利用所述第一训练集生成基因特征数据集,所述第一训练集中包含基因表达数据。
需要说明的是,所述第一训练集中的基因表达数据通过DNA微阵列技术获取。
但在本申请的其他实施例中,还可以通过其他技术或者设备获取基因表达数据,本申请对获取基因表达数据所采用的方法或装置并不做限定,具体视实际情况而定。
在本申请的一个具体实施例中,通过DNA微阵列技术获取基因表达数据构成第一训练集
Figure PCTCN2016106255-appb-000008
其中,xi是所述第一训练集中的基因表达数据,xi∈RD,xi为所述第一训练集中的基因表达数据,yi是xi的标签,表明xi的类别,yi∈{-1,+1},N代表所述第一训练集中样本的总个数,D代表所述第一训练集中样本的维数,R代表实数集。对所述第一训练集进行预处理,生成所述第一样本矩阵X=[x1,…,xN],该矩阵的每一列为所述第一训练集的一个样本,取所述第一样本矩阵的每一行,即gj=(X)T,j=1,…,D,形成所述基因特征数据集
Figure PCTCN2016106255-appb-000009
gj∈RN
S102:采用聚类算法对所述基因特征数据集进行聚类,获得第一预设参数个的聚类集合,每个所述聚类集合具有一个聚类中心。
其中,每个聚类集合中包含所述基因特征数据集中相似的基因表达数据,每个聚类集合都具有一个聚类中心,每个聚类集合的聚类中心由该聚类集合中的所有基因表达数据计算得来。在本申请的一个实施例中,每个聚类集合的聚类中心为该聚类集合中所有基因表达数据的平均值。但本申请对此并不做限定,每个聚类集合的聚类中心还可以通过其他方式确定,具体视实际情况而定。
需要说明的是,采用聚类算法对所述基因特征数据集进行聚类的目的是对基因表达数据进行降维,以降低基因表达数据之间的冗余度。
S103:利用所有的所述聚类集合的代表基因生成第二样本矩阵,其中,所述代表基因为每个所述聚类集合中的一个基因表达数据。
S104:对所述第二样本矩阵进行处理获得第二训练集。
其中在获得所有的所述聚类集合的代表基因后,利用所有的所述聚类集合的代表基因组成所述第二样本矩阵,取所述第二样本矩阵的每一列组成所述第二训练集。
S105:生成与所述第二训练集对应的特征索引集。
S106:对所述第二训练集进行特征排序,获得与所述排序后的第二训练集对应的有顺序的特征索引集。
需要说明的是,在本申请的一个实施例中,采用SVM-RFE算法对所述第二训练集进行特征排序,获得与所述排序后的第二训练集对应的有顺序的特征索引集。
S107:在所述有顺序的特征索引集中选取前第二预设参数个特征组成第三训练集。
其中,所述第二预设参数的值小于所述第一预设参数的值。
S108:对所述第三训练集进行建模,获得模型函数。
在本申请的一个实施例中,采用支持向量机分类器对所述第三训练集进行建模,获得模型函数。
S109:根据所述特征索引集、有顺序的特征索引集和所述模型函数对待测基因表达数据进行分类,获得待测基因表达数据的分类结果。
需要说明的是,所述待测基因与所述第一训练集在同一次的基因表达数据的采集过程中获得。
在上述实施例的基础上,在本申请的一个优选实施例中,如图2所示,所述基因表达数据分类方法包括:
S201:获取基因表达数据构成的第一训练集,对所述第一训练集进行预处理,生成所述第一样本矩阵,取所述第一样本矩阵的每一行形成所述基因特征数据集。
S202:采用N折交叉验证法对所述基因特征数据集进行处理,将识别率最大时对应的值作为所述第一预设参数,其中N为5或10或20;利用K-means聚类算法对所述基因特征数据集进行聚类,获得第一预设参数个的聚类集合,每个所述聚类集合具有一个聚类中心。
在本实施例中,所述第一预设参数的设定方式为:
采用N折交叉验证法对所述基因特征数据集进行处理,将识别率最大时对应的值作为所述第一预设参数,其中N为5、10或20。在本申请的一个优选实施例中,N优选为10。
S203:利用所有的所述聚类集合的代表基因生成第二样本矩阵,所述代表基因通过公式
Figure PCTCN2016106255-appb-000010
获得,所述第二样本矩阵为
Figure PCTCN2016106255-appb-000011
其中R表示实数集,N表示所述第一训练集中的样本总个数,Gk表示第k个聚类集合,
Figure PCTCN2016106255-appb-000012
表示所述第k个聚类集合的代表基因,|| ||2表示取范数运算,下标表示范数类型为欧几里得范数;mk表示第k个聚类中心,K表示所述第一预设参数;gi表示所述聚类集合中的基因表达数据。
S204:取所述第二样本矩阵的每一列组成第二训练集。
S205:生成与所述第二训练集对应的特征索引集。
S206:选取N折交叉验证法对所述基因特征数据集进行处理的过程中最高识别率时特征基因的集合的大小作为所述第二预设参数的值,采用SVM-RFE方法对所述第二训练集进行特征排序,得到一个与所述排序后的第二训练集对应的有顺序的特征索引集;
S207:在所述有顺序的特征索引集中选取前第二预设参数个特征组成第三训练集。
S208:采用支持向量机分类器对所述第三训练集进行建模,获得模型函数。
S209:根据所述特征索引集对所述待测基因的表达数据进行特征选择,获得第一次特征选择后的样本。
其中,所述待测基因与所述第一训练集中的基因表达数据通过同一次DNA微阵列技术采集获得。
S210:根据所述有顺序的特征索引集,选择所述第一次特征选择后的样本中的前第二预设参数个特征组成第二次特征选择后的样本。
S211:将所述第二次特征选择后的样本输入所述模型函数中,获得所述模型函数的输出结果,根据所述输出结果获得所述待测基因表达数据的分类结果。
在上述实施例的基础上,在本申请的一个具体实施例中,在乳腺癌数据集 上对本申请实施例提供的基因表达数据分类方法进行了测试,所述乳腺癌数据集包括97名患者样本,属于两个类别。每个样本都有24481个基因表达数据。所述第一训练集包括78个患者样本,其中34个是在至少5年内的癌细胞转移的患者(标记为“旧病复发”),其余44个样本是从患者初步诊断为至少5年后仍健康的患者(标记为“非复发”)。相应地,待测基因样本中包括12个“旧病复发”患者样本和7个“非复发”患者样本。
具体测试步骤如下:
通过DNA微阵列技术获取所述乳腺癌数据集中的基因表达数据构成第一训练集
Figure PCTCN2016106255-appb-000013
其中,xi为构成所述第一训练集的基因表达数据,xi∈RD,yi是xi的标签,表明xi的类别,yi∈{-1,+1},N代表所述第一训练集中样本的总个数,D代表所述第一训练集中样本的维数,R代表实数集。这里N=97,D=24481。
对所述第一训练集进行预处理,生成所述第一样本矩阵X=[x1,…,xN],该矩阵的每一列为所述第一训练集的一个样本,取所述第一样本矩阵的每一行,即gj=(X)T,j=1,…,24481,形成所述基因特征数据集
Figure PCTCN2016106255-appb-000014
gj∈R97
确定聚类中心数目为第一预设参数K,此处K=80(通过10折交叉验证法选定),采用K-means聚类算法对所述基因特征数据集
Figure PCTCN2016106255-appb-000015
进行聚类,获得80个聚类中心mk和80个聚类集合Gk,k=1,…,K。
在每个聚类集合中选取一个基因表达数据作为该聚类集合的代表基因,所述代表基因的选取公式为:
Figure PCTCN2016106255-appb-000016
其中,|| ||2表示取范数运算,下标表示范数类型为欧几里得范数,Gk表示第k个聚类集合,
Figure PCTCN2016106255-appb-000017
表示所述第k个聚类集合的代表基因,mk表示第k个聚类中心。生成所述样本矩阵
Figure PCTCN2016106255-appb-000018
其中N表示训练集中训练样本的总个数。取所述样本矩阵X'的每一列
Figure PCTCN2016106255-appb-000019
作为x′i,组成所述第二训练集
Figure PCTCN2016106255-appb-000020
其中x′i∈R80,同时生成与所述第二训练集对应的特征索引集
Figure PCTCN2016106255-appb-000021
|F|=80。
确定第二预设参数的值d,所述第二预设参数d(d<80)的值为采用10折交叉验证法对所述基因特征数据集进行处理的过程中,最高识别率时特征基因的集合的大小。采用SVM-RFE方法对所述第二训练集
Figure PCTCN2016106255-appb-000022
进行特征排序,得到一个有顺序的特征索引集
Figure PCTCN2016106255-appb-000023
|F'|=80。在所述有顺序的特征 索引集中选取前d个特征组成第三训练集
Figure PCTCN2016106255-appb-000024
其中x″i∈Rd,在本实施例中,d=37。
采用支持向量机分类器对所述第三训练集
Figure PCTCN2016106255-appb-000025
进行建模,获得模型函数f(x″)。
令待测基因表达数据(在本实施例中为癌症基因表达数据)为x,其中x∈R24481
根据所述特征索引集F对所述待测基因x(x∈RD)的表达数据进行特征选择,获得第一次特征选择后的样本x′(x′∈RK);
根据所述有顺序的特征索引集F'选择所述第一次特征选择后的样本x′中的前第二预设参数个特征组成第二次特征选择后的样本x″(x″∈Rd);
将所述第二次特征选择后的样本x″输入所述模型函数f(x″)中,获得所述模型函数的输出结果,根据所述输出结果获得所述待测基因表达数据的分类结果。
采用相同的上述测试过程对本申请实施例提供的基因表达数据分类方法与SVM-RFE(SVM-Recursive Feature Elimination)算法以及MRMR+SVM-RFE(minimal redundancy-maximal relevance+SVM-Recursive Feature Elimination)算法在相同的乳腺癌数据集上进行对比实验。随机选取78个训练样本10次,表1给出了上述三种方法各自获得的最好平均分类性能时的对比。
表1 SVM-RFE,MRMR+SVM-RFE和本申请提供的基因表达数据分类方法最好分类性能的对比
Figure PCTCN2016106255-appb-000026
Figure PCTCN2016106255-appb-000027
通过表1的对比可以发现,本申请实施例提供的基因表达数据分类方法比其他两种算法在各项参数上都有较大提升,且大大降低了时间消耗。
相应的,本申请实施例还提供了一种基因表达数据分类系统,如图3所示,包括:
特征选择模块A10,用于获取第一训练集,利用所述第一训练集生成基因特征数据集,所述第一训练集包含基因表达数据;采用聚类算法对所述基因特征数据集进行聚类,获得第一预设参数个的聚类集合,每个所述聚类集合具有一个聚类中心;利用所有的所述聚类集合的代表基因生成第二样本矩阵,其中,所述代表基因为每个所述聚类集合中的一个基因表达数据;对所述第二样本矩阵进行处理获得第二训练集,生成与所述第二训练集对应的特征索引集;对所述第二训练集进行特征排序,获得与所述排序后的第二训练集对应的有顺序的特征索引集;在所述有顺序的特征索引集中选取前第二预设参数个特征组成第三训练集;
训练模块A20,用于对所述第三训练集进行建模,获得模型函数;
诊断模块A30,用于根据所述特征索引集、有顺序的特征索引集和所述模型函数对待测基因表达数据进行分类,获得待测基因表达数据的分类结果。
需要说明的是,在本实施例中,所述待测基因表达数据与所述第一训练集采用生物微阵列技术在同一次采集中获得。
所述基因表达数据分类系统在获得所述基因特征数据集之后,采用聚类算法对所述基因特征数据集进行聚类,获得第一预设参数个聚类集合,每个所述聚类集合具有一个聚类中心,然后对所述聚类集合进行处理获得第二样本矩阵、第二训练集以及特征索引集以对基因表达数据进行降维,从而降低基因表达数据之间的冗余度,进而在很大程度上降低了在之后对所述第二训练集进行特征选择的过程中占用的计算资源以及耗费的计算时间;而采用聚类算法对所述基因特征数据集进行聚类操作所占用的计算资源以及耗费的计算时间都很少,从而大大降低了对待测基因表达数据进行分类占用的计算资源和耗费的计 算时间。
在上述实施例的基础上,在本申请的一个实施例中,如图4所示,所述特征选择模块A10包括:
预处理单元A11,用于获取基因样本的第一训练集,对所述第一训练集进行预处理,生成第一样本矩阵,并根据所述样本矩阵生成基因特征数据集;
第一特征选择单元A12,用于采用N折交叉验证法对所述基因特征数据集进行处理,将识别率最大时对应的值作为所述第一预设参数,其中N为5或10或20;采用K-means聚类算法对所述基因特征数据集进行聚类,获得第一预设参数个的聚类集合,每个所述聚类集合具有一个聚类中心,在每个聚类集合中选取一个基因作为该聚类集合的代表基因,并利用所有的聚类集合的代表基因生成第二样本矩阵,并对所述第二样本矩阵进行处理获得第二训练集,同时生成与所述第二训练集对应的特征索引集;
第二特征选择单元A13,用于对所述第二训练集进行特征排序,获得有顺序的特征索引集,确定保留的特征个数为第二预设参数,在所述有顺序的特征索引集中选取前第二预设参数个特征组成第三训练集。
需要说明的是,在本实施例中,所述预处理单元A11通过DNA微阵列技术获取基因表达数据的第一训练集
Figure PCTCN2016106255-appb-000028
其中,xi表示所述第一训练集中的基因表达数据,xi∈RD,yi是xi的标签,表明xi的类别,yi∈{-1,+1},N代表所述第一训练集中样本的总个数,D代表所述第一训练集中样本的维数,R代表实数集。对所述第一训练集进行预处理,生成所述第一样本矩阵X=[x1,…,xN],该矩阵的每一列为所述第一训练集的一个样本,取所述第一样本矩阵的每一行,即gj=(X)T,j=1,…,D,形成所述基因特征数据集
Figure PCTCN2016106255-appb-000029
在本实施例中,采用K-means聚类算法对所述基因特征数据集进行聚类的目的是对基因表达数据进行降维,以降低基因表达数据之间的冗余度。
在上述实施例的基础上,在本申请的另一个实施例中,所述第一特征选择单元A12用于采用N折交叉验证法对所述基因特征数据集进行处理,将识别率最大时对应的值作为所述第一预设参数K,其中N为5或10或20;
采用K-means聚类算法对所述基因特征数据集进行聚类,获得K个聚类中心mk和K个聚类集合Gk,k=1,…,K。
在每个聚类集合中选取一个基因作为该聚类集合的代表基因,所述代表基因的生成公式为:
Figure PCTCN2016106255-appb-000030
其中,Gk表示第k个聚类集合,
Figure PCTCN2016106255-appb-000031
表示所述第k个聚类集合的代表基因,mk表示第k个聚类中心,K表示所述第一预设参数。生成所述样本矩阵
Figure PCTCN2016106255-appb-000032
其中N表示训练集中训练样本的总个数。取所述样本矩阵X'的每一列为x′i,组成所述第二训练集
Figure PCTCN2016106255-appb-000033
其中x′i∈RK,同时生成与所述第二训练集对应的特征索引集
Figure PCTCN2016106255-appb-000034
|F|=K。
需要说明的是,在本申请的一个优选实施例中,采用10折交叉验证法对所述基因特征数据集进行处理,将识别率最大时对应的值作为所述第一预设参数。但本申请对此并不做限定,具体视实际情况而定。
在上述实施例的基础上,在本申请的又一个实施例中,所述第二预设参数d(d<K)的值为采用10折交叉验证法对所述基因特征数据集进行处理的过程中,最高识别率时特征基因的集合的大小。在本申请的一个优选实施例中,采用SVM-RFE方法对所述第二训练集合
Figure PCTCN2016106255-appb-000035
进行特征排序,得到一个有顺序的特征索引集
Figure PCTCN2016106255-appb-000036
|F'|=K。在所述有顺序的特征索引集中选取前d个特征组成第三训练集
Figure PCTCN2016106255-appb-000037
其中x″i∈Rd
在上述实施例的基础上,在本申请的再一个实施例中,采用支持向量机分类器对所述第三训练集进行建模,获得模型函数f(x″)。但本申请对所述第三训练集进行建模所采用的具体方法并不做限定,具体视实际情况而定。
在上述实施例的基础上,在本申请的一个具体实施例中,如图5所示,所述诊断模块A30包括:
第一选择单元A31,用于根据所述特征索引集F对所述待测基因x(x∈RD)的表达数据进行特征选择,获得第一次特征选择后的样本x′(x′∈RK);
第二选择单元A32,用于根据所述有顺序的特征索引集F'选择所述第一次特征选择后的样本x′中的前第二预设参数个特征组成第二次特征选择后的样本x″(x″∈Rd);
诊断单元A33,用于将所述第二次特征选择后的样本x″输入所述模型函数f(x″)中,获得所述模型函数的输出结果,根据所述输出结果获得所述待测基因表达数据的分类结果。
综上所述,本申请实施例提供了一种基因表达数据分类方法及分类系统,其中,所述基因表达数据分类方法中在获得所述基因特征数据集之后,采用聚类算法对所述基因特征数据集进行聚类,获得第一预设参数个的聚类集合,然后对所述聚类集合进行处理获得第二样本矩阵、第二训练集以及特征索引集以对基因表达数据进行降维,从而降低基因表达数据之间的冗余度,进而在很大程度上降低了在之后对所述第二训练集进行特征选择的过程中占用的计算资源以及耗费的计算时间;而采用聚类算法对所述基因特征数据集进行聚类操作所占用的计算资源以及耗费的计算时间都很少,因此采用所述基因表达数据分类方法对待测基因表达数据进行分类占用的计算资源和耗费的计算时间都较少。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

  1. 一种基因表达数据分类方法,其特征在于,包括:
    获取第一训练集,利用所述第一训练集生成基因特征数据集,所述第一训练集中包含基因表达数据;
    采用聚类算法对所述基因特征数据集进行聚类,获得第一预设参数个的聚类集合,每个所述聚类集合具有一个聚类中心;
    利用所有的所述聚类集合的代表基因生成第二样本矩阵,其中,所述代表基因为每个所述聚类集合中的一个基因表达数据;
    对所述第二样本矩阵进行处理获得第二训练集;
    生成与所述第二训练集对应的特征索引集;
    对所述第二训练集进行特征排序,获得与所述排序后的第二训练集对应的有顺序的特征索引集;
    在所述有顺序的特征索引集中选取前第二预设参数个特征组成第三训练集;
    对所述第三训练集进行建模,获得模型函数;
    根据所述特征索引集、有顺序的特征索引集和所述模型函数对待测基因表达数据进行分类,获得待测基因表达数据的分类结果。
  2. 根据权利要求1所述的基因表达数据分类方法,其特征在于,所述第一预设参数的设定方式为:
    采用N折交叉验证法对所述基因特征数据集进行处理,将识别率最大时对应的值作为所述第一预设参数,其中N为5、10或20。
  3. 根据权利要求1所述的基因表达数据分类方法,其特征在于,所述采用聚类算法对所述基因特征数据集进行聚类,获得第一预设参数个的聚类集合,每个所述聚类集合具有一个聚类中心,包括:
    采用K-means聚类算法对所述基因特征数据集进行聚类,获得第一预设参数个的聚类集合,每个所述聚类集合具有一个聚类中心。
  4. 根据权利要求1所述的基因表达数据分类方法,其特征在于,所述代表基因通过公式
    Figure PCTCN2016106255-appb-100001
    k=1,…,K生成;
    其中,Gk表示第k个聚类集合,
    Figure PCTCN2016106255-appb-100002
    表示所述第k个聚类集合的代表基因,mk表示第k个聚类中心,K表示所述第一预设参数;gi表示所述聚类集合中的基因表达数据;
    其中,所述第二样本矩阵为
    Figure PCTCN2016106255-appb-100003
    其中,R表示实数集,N表示所述第一训练集中的样本总个数。
  5. 根据权利要求1所述的基因表达数据分类方法,其特征在于,根据所述特征索引集、有顺序的特征索引集和所述模型函数对待测基因表达数据进行分类,获得待测基因表达数据的诊断结果包括:
    根据所述特征索引集对所述待测基因的表达数据进行特征选择,获得第一次特征选择后的样本;
    根据所述有顺序的特征索引集,选择所述第一次特征选择后的样本中的前第二预设参数个特征组成第二次特征选择后的样本;
    将所述第二次特征选择后的样本输入所述模型函数中,获得所述模型函数的输出结果,根据所述输出结果获得所述待测基因表达数据的分类结果。
  6. 一种基因表达数据分类系统,其特征在于,包括:
    特征选择模块,用于获取第一训练集,利用所述第一训练集生成基因特征数据集,所述第一训练集包含基因表达数据;采用聚类算法对所述基因特征数据集进行聚类,获得第一预设参数个的聚类集合,每个所述聚类集合具有一个聚类中心;利用所有的所述聚类集合的代表基因生成第二样本矩阵,其中,所述代表基因为每个所述聚类集合中的一个基因表达数据;对所述第二样本矩阵进行处理获得第二训练集,生成与所述第二训练集对应的特征索引集;对所述第二训练集进行特征排序,获得与所述排序后的第二训练集对应的有顺序的特征索引集;在所述有顺序的特征索引集中选取前第二预设参数个特征组成第三训练集;
    训练模块,用于对所述第三训练集进行建模,获得模型函数;
    诊断模块,用于根据所述特征索引集、有顺序的特征索引集和所述模型函数对待测基因表达数据进行分类,获得待测基因表达数据的分类结果。
  7. 根据权利要求6所述的基因表达数据分类系统,其特征在于,所述特征选择模块包括:
    预处理单元,用于获取基因样本的第一训练集,对所述第一训练集进行预处理,生成第一样本矩阵,并根据所述样本矩阵生成基因特征数据集;
    第一特征选择单元,用于采用N折交叉验证法对所述基因特征数据集进行处理,将识别率最大时对应的值作为所述第一预设参数,其中N为5或10或20;采用K-means聚类算法对所述基因特征数据集进行聚类,获得第一预设参数个的聚类集合,每个所述聚类集合具有一个聚类中心,在每个聚类集合中选取一个基因作为该聚类集合的代表基因,并利用所有的聚类集合的代表基因生成第二样本矩阵,并对所述第二样本矩阵进行处理获得第二训练集,同时生成与所述第二训练集对应的特征索引集;
    第二特征选择单元,用于对所述第二训练集进行特征排序,获得有顺序的特征索引集,确定保留的特征个数为第二预设参数,在所述有顺序的特征索引集中选取前第二预设参数个特征组成第三训练集。
  8. 根据权利要求7所述的基因表达数据分类系统,其特征在于,所述第一特征选择单元用于采用N折交叉验证法对所述基因特征数据集进行处理,将识别率最大时对应的值作为所述第一预设参数,其中N为5或10或20;采用K-means聚类算法对所述基因特征数据集进行聚类,获得第一预设参数个聚类中心和第一预设参数个聚类集合,在每个聚类集合中选取一个基因作为该聚类集合的代表基因,并利用所有的聚类集合的代表基因生成第二样本矩阵,并取所述第二样本矩阵的每一列x′i组成所述第二训练集
    Figure PCTCN2016106255-appb-100004
    其中,x′i∈RK
  9. 根据权利要求6所述的基因表达数据分类系统,其特征在于,所述代表基因通过公式
    Figure PCTCN2016106255-appb-100005
    k=1,…,K生成,其中,Gk表示第k个聚类集合,
    Figure PCTCN2016106255-appb-100006
    表示所述第k个聚类集合的代表基因,mk表示第k个聚类中心,K表示所述第一预设参数;gi表示所述聚类集合中的基因表达数据;
    其中,所述第二样本矩阵为
    Figure PCTCN2016106255-appb-100007
    其中R表示实数集,N表示生成所述第一训练集中的样本总个数。
  10. 根据权利要求6所述的基因表达数据分类系统,其特征在于,所述诊断模块包括:
    第一选择单元,用于根据所述特征索引集对所述待测基因表达数据进行特征选择,获得第一次特征选择后的样本;
    第二选择单元,用于根据所述有顺序的特征索引集选择所述第一次特征选择后的样本中的前第二预设参数个特征组成第二次特征选择后的样本;
    诊断单元,用于将所述第二次特征选择后的样本输入所述模型函数中,获得所述模型函数的输出结果,根据所述输出结果获得所述待测基因表达数据的分类结果。
PCT/CN2016/106255 2016-04-20 2016-11-17 一种基因表达数据分类方法及分类系统 WO2017181665A1 (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US15/571,076 US20180165413A1 (en) 2016-04-20 2016-11-17 Gene expression data classification method and classification system
EP16899247.7A EP3299976A4 (en) 2016-04-20 2016-11-17 METHOD AND SYSTEM FOR CLASSIFYING GENE EXPRESSION DATA

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201610246971.3A CN105825081B (zh) 2016-04-20 2016-04-20 一种基因表达数据分类方法及分类系统
CN201610246971.3 2016-04-20

Publications (1)

Publication Number Publication Date
WO2017181665A1 true WO2017181665A1 (zh) 2017-10-26

Family

ID=56527212

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2016/106255 WO2017181665A1 (zh) 2016-04-20 2016-11-17 一种基因表达数据分类方法及分类系统

Country Status (4)

Country Link
US (1) US20180165413A1 (zh)
EP (1) EP3299976A4 (zh)
CN (1) CN105825081B (zh)
WO (1) WO2017181665A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116522143A (zh) * 2023-05-08 2023-08-01 深圳市大数据研究院 模型训练方法、聚类方法、设备及介质

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105825081B (zh) * 2016-04-20 2018-09-14 苏州大学 一种基因表达数据分类方法及分类系统
CN108182347B (zh) * 2018-01-17 2022-02-22 广东工业大学 一种大规模跨平台基因表达数据分类方法
CN108846259B (zh) * 2018-04-26 2020-10-23 河南师范大学 一种基于聚类和随机森林算法的基因分类方法及系统
CN108664763A (zh) * 2018-05-14 2018-10-16 浙江大学 一种参数最优的肺癌癌细胞检测仪
CN109460825A (zh) * 2018-10-24 2019-03-12 阿里巴巴集团控股有限公司 用于构建机器学习模型的特征选取方法、装置以及设备
CN110633379B (zh) * 2019-08-29 2023-04-28 北京睿企信息科技有限公司 一种基于gpu并行运算的以图搜图系统及方法
CN110827924B (zh) * 2019-09-23 2024-05-07 平安科技(深圳)有限公司 基因表达数据的聚类方法、装置、计算机设备及存储介质
CN113592379B (zh) * 2021-06-25 2024-05-14 南京财经大学 散粮集装箱物流运输环境异常检测的关键特征识别方法
KR20230094009A (ko) * 2021-12-20 2023-06-27 한양대학교 산학협력단 유전자 온톨로지 기반 유전자 데이터 분석 방법 및 분석 장치
CN115881218B (zh) * 2022-12-15 2023-06-09 哈尔滨星云医学检验所有限公司 用于全基因组关联分析的基因自动选择方法
CN117172796B (zh) * 2023-08-07 2024-10-18 武汉光谷康服信息科技有限公司 一种大数据电子商务管理系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001073428A1 (en) * 2000-03-27 2001-10-04 Ramot University Authority For Applied Research & Industrial Development Ltd. Method and system for clustering data
CN102272764A (zh) * 2009-01-06 2011-12-07 皇家飞利浦电子股份有限公司 进化聚类算法
CN104200134A (zh) * 2014-08-30 2014-12-10 北京工业大学 一种基于局部线性嵌入算法的肿瘤基因表数据特征选择方法
CN105825081A (zh) * 2016-04-20 2016-08-03 苏州大学 一种基因表达数据分类方法及分类系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2003257082A1 (en) * 2002-08-02 2004-02-23 Rosetta Inpharmatics Llc Computer systems and methods that use clinical and expression quantitative trait loci to associate genes with traits
KR20130048217A (ko) * 2010-04-06 2013-05-09 메사추세츠 인스티튜트 오브 테크놀로지 적은 수의 전사체 측정치를 이용한 유전자 발현 프로파일링
CN102945238A (zh) * 2012-09-05 2013-02-27 南京航空航天大学 一种基于模糊isodata的特征选取方法
CN104573049A (zh) * 2015-01-20 2015-04-29 安徽科力信息产业有限责任公司 一种基于中心向量的knn分类器训练样本裁剪方法
CN104732242A (zh) * 2015-04-08 2015-06-24 苏州大学 一种多分类器构建方法和系统
CN104732241A (zh) * 2015-04-08 2015-06-24 苏州大学 一种多分类器构建方法和系统
CN105205349B (zh) * 2015-08-25 2018-08-03 合肥工业大学 马尔科夫毯嵌入式的基于封装的基因选择方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001073428A1 (en) * 2000-03-27 2001-10-04 Ramot University Authority For Applied Research & Industrial Development Ltd. Method and system for clustering data
CN102272764A (zh) * 2009-01-06 2011-12-07 皇家飞利浦电子股份有限公司 进化聚类算法
CN104200134A (zh) * 2014-08-30 2014-12-10 北京工业大学 一种基于局部线性嵌入算法的肿瘤基因表数据特征选择方法
CN105825081A (zh) * 2016-04-20 2016-08-03 苏州大学 一种基因表达数据分类方法及分类系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3299976A4 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116522143A (zh) * 2023-05-08 2023-08-01 深圳市大数据研究院 模型训练方法、聚类方法、设备及介质
CN116522143B (zh) * 2023-05-08 2024-04-05 深圳市大数据研究院 模型训练方法、聚类方法、设备及介质

Also Published As

Publication number Publication date
EP3299976A4 (en) 2019-01-16
US20180165413A1 (en) 2018-06-14
CN105825081A (zh) 2016-08-03
EP3299976A1 (en) 2018-03-28
CN105825081B (zh) 2018-09-14

Similar Documents

Publication Publication Date Title
WO2017181665A1 (zh) 一种基因表达数据分类方法及分类系统
Zeebaree et al. Gene selection and classification of microarray data using convolutional neural network
Sun et al. Cervical cancer diagnosis based on random forest
Liu et al. An efficient semi-unsupervised gene selection method via spectral biclustering
Quackenbush Computational analysis of microarray data
Pan et al. Penalized model-based clustering with application to variable selection.
Zheng et al. Molecular pattern discovery based on penalized matrix decomposition
Madabhushi et al. Integrated diagnostics: a conceptual framework with examples
Kalinin et al. 3D shape modeling for cell nuclear morphological analysis and classification
JP7041614B6 (ja) 生体データにおけるパターン認識のマルチレベルアーキテクチャ
CN104657574B (zh) 一种医疗诊断模型的建立方法及装置
Vengatesan et al. The performance analysis of microarray data using occurrence clustering
Al Mamlook et al. Classification of cancer genome atlas glioblastoma multiform (tcga-gbm) using machine learning method
CN117195027A (zh) 基于成员选择的簇加权聚类集成方法
Ragunthar et al. Classification of gene expression data with optimized feature selection
CN113838519B (zh) 基于自适应基因交互正则化弹性网络模型的基因选择方法及系统
Liu et al. An improved method for multi-objective clustering ensemble algorithm
Metsis et al. DNA copy number selection using robust structured sparsity-inducing norms
TWI399661B (zh) 從微陣列資料中分析及篩選疾病相關基因的系統
Ashraf et al. Iterative weighted k-NN for constructing missing feature values in Wisconsin breast cancer dataset
Castellanos-Garzón et al. A clustering-based method for gene selection to classify tissue samples in lung cancer
Mazlan et al. Classification of breast cancer microarray data using Radial Basis Function Network
Liu et al. Microarray data classification based on computational verb
Salesi et al. A hybrid model for classification of biomedical data using feature filtering and a convolutional neural network
Chen et al. A novel gene selection method based on sparse representation and max-relevance and Min-redundancy

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 15571076

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE