KR20100001177A - 주성분 분석을 이용한 유전자 선택 알고리즘 - Google Patents

주성분 분석을 이용한 유전자 선택 알고리즘 Download PDF

Info

Publication number
KR20100001177A
KR20100001177A KR1020080060991A KR20080060991A KR20100001177A KR 20100001177 A KR20100001177 A KR 20100001177A KR 1020080060991 A KR1020080060991 A KR 1020080060991A KR 20080060991 A KR20080060991 A KR 20080060991A KR 20100001177 A KR20100001177 A KR 20100001177A
Authority
KR
South Korea
Prior art keywords
vector
gene
genes
vectors
focal plane
Prior art date
Application number
KR1020080060991A
Other languages
English (en)
Inventor
김승진
송재원
임수홍
Original Assignee
주식회사 비츠로시스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 비츠로시스 filed Critical 주식회사 비츠로시스
Priority to KR1020080060991A priority Critical patent/KR20100001177A/ko
Publication of KR20100001177A publication Critical patent/KR20100001177A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

본 발명은 유전자 발현 데이터와 같은 고차원 데이터를 분석하기 위한 주성분 분석법 및 고유벡터를 이용한 유전자 선택 알고리즘에 관한 것이다. 본 발명은 모든 유전자들의 특징을 처리하며, 분류작업에 불필요한 노이즈 데이타를 최소화하여 분류의 정확도와 효율성을 크게 높였으며, 또한 상기 알고리즘에 의해 선택된 유전자들을 SVM의 학습 데이터 세트에 첨가시켜 질병과 유전자와의 관계를 파악할 수 있게 되었다.
바이오인포매틱스, 데이터마이닝(Data Mining), 퍼지 알고리즘(Fuzzy Algorithm), 주성분 분석(Principal Component Analysis), 고유벡터(Eigen Vector), 유전자, SVM(Support Vector Machine)

Description

주성분 분석을 이용한 유전자 선택 알고리즘{GENE SELECTION ALGORITHM USING PRINCIPAL COMPONENT ANALYSIS}
본 발명은 DNA 마이크로어레이(Microarray) 연구 결과물과 같은 고차원 데이터에 대한 정확한 데이터 마이닝(Data Mining)을 수행하기 위해 사용되는, 주성분 분석을 이용한 유전자 선택 알고리즘에 관한 것이다. 데이터를 고유벡터와 주성분 분석을 이용하여 SVM의 성능을 향상시킬 수 있으며, SVM의 분류 결과를 통하여 임의의 유전자가 특정 질병 진단에 미치는 영향력을 알아냄으로써 특정 질병에 대한 유전자의 역할을 파악하는데 활용할 수 있다.
생물 정보학(Bioinformatics)이란 매우 다양한 분야를 담고 있는 학문으로서, 구체적으로 생명현상 연구에 필요한 다양한 전산학 또는 통계학에 관한 것이다. 생물정보학의 대상이 되는 중요한 데이터로서 DNA와 그로부터 코딩되는 단백질의 서열 정보 또는 3차 구조에 관한 정보들이 있다. 이들 중 DNA, RNA, 및 단백질이 어떻게 상호작용을 하는지, 어디에 얼마나 존재하는지, 어떤 조건에서 그들의 양이나 구조가 어떻게 변하는지에 대한 데이터들을 밝혀내는 도구로서 DNA 마이크로어레이 또는 프로테오믹스(proteomics)가 이용된다. 종래의 생물체 내부의 분자 적 메커니즘 규명을 위해 사용된 방법들은 하나 또는 몇 개의 RNA나 단백질을 추적하는 방식이었던데 반해 상기 방법들의 특징은 대상이 되는 세포나 조직 속에 들어 있는 모든 RNA나 단백질을 추적해 본다는 것이다. 마이크로어레이 칩에는 수천 개에서 수만 개의 DNA의 단편들이 고착되며, 이를 사용한 실험에서는 이 수천 개 또는 수만 개의 단편들에 대응하는 것들이 모두 측정치로 얻어지게 되며, 이들은 개별적으로 고려되어야 하는 데이터 포인트들이 된다. 그리고, 마이크로어레이 실험에서는 단 한 장만 사용해서는 의미있는 결과를 얻을 수 없고, 가능한 많은 장수의 칩을 사용해야만 한다는 점 때문에, 더욱 많은 양의 데이터가 얻어지게 된다. 이렇게 얻어진 데이터는 결국 복잡한 요소들이 상호 작용하는 복잡한 현상의 한 단면이며, 이러한 현상은 통계적 처리나 복잡한 모델링 방법을 사용할 경우에만 실용성 있는 데이터의 해석이 얻어질 수 있다.
도 1에서 보시는 바와 같이, 일반적인 데이터마이닝에서 사용되는 데이터세트(Dataset)와 DNA 마이크로어레이 발현 연구에 사용되는 데이터세트의 가장 큰 차이는 객체들이 가지는 특성의 갯수이다. 일반적인 데이터마이닝에서 사용되는 데이터세트는 상당히 많은 객체들과 그 객체들이 가지는 여러 개의 특성들로 구성되지만, DNA 마이크로어레이 발현 연구에 사용되는 데이터세트는 이와 반대로 수십 개의 객체들과 그 객체들이 가진 수천 개의 특성들로 구성되어 진다. 예를 들어, 현재 마이크로어레이는 어떤 조직에 대하여 60,000에 이르는 발현 시퀀스 태그(Expressed Sequence Tags)를 제공하고 있지만, 비용의 제약으로 인하여 하나의 실험에서 고작 10개에서 100개의 샘플에 대해서만 실험이 행해지고 있다. 다시 말 해, 60,000개의 변수의 해를 구하기 위하여 단지 10개에서 100개 사이의 식이 존재하는 것이고, 잠재적으로 유효한 수천 개의 해를 구하게 되는 것이다. 이런 데이터세트의 부정해(underdetermined)적인 성질에도 불구하고 이로부터 정보를 찾을 수 있도록 각 변수 간에 관련성을 최대한 파악할 수 있는 특별한 방법이 필요하다.
고차원인 유전자 발현 수준의 데이터 세트로부터 정보를 뽑아내기 위하여 SVM, 클러스터링 방법(Clustering Method), 자가-조직 지도(Self-Organizing Maps), 가중 상관 방법(Weighted Correlation Method) 등 여러 방법들이 데이터를 분석하기 위하여 사용되고 있다.
지도형 기계 학습 기술(Supervised Machine Learning Technique)인 SVM은 마이크로어레이 발현 데이터 분석, 단백질 동질성의 감지 등 여러 생물학 분석에 있어서 우수한 성능을 보여주고 있으며, 특히 전통적인 방법으로 증명하기 어려운 수천 개의 유전자의 측정치를 포함하고 있는 고차원의 발현 데이터세트의 분석에 유용하게 사용된다.
그러나, 기존 당업계에는 마이크로어레이 발현 데이터의 효율적인 분석을 위하여 주성분 분석을 이용하여 데이터의 차원을 감소시키고, 특성에 관한 고유벡터로부터 질병의 종류를 구별하는 유전자를 선발하여 SVM 학습(Learning)에 참가시킴으로써, SVM 학습에 비협조적인 특성을 제거하여 분류의 정확성 향상과 학습에 참가한 특성에 의미를 부여할 수 있는, 유전자 선택 알고리즘에 대해 전혀 알려진 바 없었다.
본 발명은 종전의 유전자 선택 기법인 클러스터 분석 방법 등의 문제점 등을 해결하여, 유전자 분류에 있어 정확하고 효율적이며, 분류된 각각의 유전자들의 역할 규정에도 도움이 되는 유전자 선택 알고리즘을 제공하는 것이다.
본 발명자들은 많은 연구 끝에, 유전자 발현 데이터와 같은 고차원 데이터를 정확하고 효율적으로 분석하기 위하여, 주성분 분석법 및 고유벡터를 이용한 유전자 선택 알고리즘을 발명하였다.
이하에서는 본 발명에 대해 구체적으로 설명한다.
1. 주성분 분석과 고유벡터
주성분 분석(Principal Component Analysis)은 다차원적 변수를 축소, 요약하여 차원의 단순화와 더불어 일반적으로 상관되어 있는 변수들 상호간의 복잡한 구조를 분석하는 것이 목적이다.
이를 위하여 주성분 분석은 변수들을 변환시켜 고유벡터(Eigen Vector)라는 서로 상관되어 있지 않은, 즉 독립적인 새로운 인공 변수를 유도한다. 이 때 고유벡터가 보유하는 변이, 즉 고유값(Eigen value)의 크기를 기준으로 그 중요도를 고려하게 된다. 일반적으로 P변량의 경우, P개의 고유값이 얻어진다. 이 때 주성분 의 수를 몇 개까지 선택하느냐가 문제가 되는데, 본 발명에서는 공분산 행렬을 이용하였기 때문에, 평균 고유값보다 큰 고유값을 갖는 고유벡터를 선택하고, 이를 주성분으로 하며, 이 주성분이 선택되면서 고차원적 데이터 세트는 선택된 주성분의 개수 차원으로 변환된다.
예를 들어, 도 2를 보면, AML(급성 골수성 백혈병)과 ALL(급성 림프구성 백혈병)의 데이터세트에서의 고유 벡터와 고유값을 나타내고 있는데, 고유 평균값 이상의 고유벡터를 선택할 경우 성분 1 내지 7를 주성분으로 한다.
상기 주성분 분석법은 다 변량 자료의 탐색적 연구, 차원 축소를 통한 자료의 단순화 내지 요약, 순차적으로 독립적인 성분의 구축, 종속관계에 있는 변수들의 식별에 장점을 가지고 있어, SVM을 이용한 마이크로어레이 데이터의 분석을 위해 유용하다. 예를 들어, 도 6에서 유전자 2는 두 클래스를 구분할 수 있지만, 유전자 1은 두 클래스를 구분하는 능력이 없다는 것을 알 수 있다. 만약 유전자 1과 같은 데이터가 SVM 학습에 참가한다면, 이는 불필요한 특성의 첨가로 SVM 학습의 성능을 저하시키는 요인이 된다. 따라서, 본 발명에서는 불필요한 특성을 제거하고, 유력한 특성을 선발하기 위한 방법으로 주성분 분석을 사용하여 학습 데이터를 만들 수 있다.
2. 주성분 분석과 가변 벡터에 위한 유전자 선택
본 발명의 유전자 선택 알고리즘은 하기의 단계를 포함한다.
첫번째 단계에서는 고유벡터를 구하기 위하여 트레이닝 데이터 세트의 유전 자에 대한 공분산 행렬(Covariance Matrix)을 만든다.
공분산:
Figure 112008046141558-PAT00001
공분산 행렬:
Figure 112008046141558-PAT00002
두번째 단계에서는 상기 공분산 행렬에서 각 유전자에 대한 고유 벡터를 구하고, 고유 평균값보다 큰 고유 값들을 선택하고, 그 선택된 고유 벡터를 주성분으로 지정한다. 고유 벡터 행렬은 유전자의 개수 * 유전자의 크기로 만들어지며, 고유 평균값보다 큰 고유벡터만 남기고 나머지 벡터는 삭제한다.
도 3에서 보시는 바와 같이, 고유 벡터 행렬에서 주성분으로 선택된 벡터만을 남기고 만들어진 행렬의 각 유전자에 해당한 값으로 생성되는 벡터를 가변 벡터라고 한다.
세번째 단계는 가변 벡터로부터 유전자를 선택하기 위해, 하기의 여섯 단계로 이루어진다.
<1> 원 데이터(Raw Data)로부터 선택할 유전자의 개수 X를 결정한다.
<2> 각 가변 벡터의 크기를 계산한다.
<3> 크기가 최대인 벡터를 선택하고, 그 벡터와 다른 벡터간의 내적을 구한다.
<4> 구해진 내적의 값이 최소(두 벡터가 이루는 각이 180°에 가까움)가 되는 벡터를 구한다.
<5> 선택된 두 개의 벡터의 유전자를 학습 데이터세트에 추가시키고, 선택된 두 벡터는 다음 순환에서 제외하도록 처리한다.
<6> <1>에서 결정된 X의 값이 만족할 때까지 <3> 부터 <5>까지 반복한다.
도 4에서 보듯이, 각 가변 벡터들은 각각 다른 크기와 방향을 갖는다.
벡터의 내적 연산은 벡터의 크기와 두 벡터 사이의 각도에 대한 연산으로, 벡터의 크기는 주성분 공간에서 객체를 표현하는 공헌도이며, 두 벡터의 각도는 두 벡터의 상이한 정도를 나타내는 것으로, 가변 벡터의 중요한 정보인 크기와 방향성을 함께 고려할 수 있는 적합한 연산이다.
위에서 제시한 유전자 선택법은 성분들이 이루는 n차원의 공간상에 각 객체들을 변환시킬 때, 성분의 형성에 가장 큰 영향을 미치는 가변 벡터를 내적의 크기 순서대로 선택함으로써, 양성 표본과 음성 표본을 구별할 수 있는 잠재적 능력을 가진 유전자 쌍을 차례로 고려할 수 있는 방법이다. 예를 들어, a-가변 벡터가 a-성분에 양성, b-성분에 음성 영향을 준다면, a-가변 벡터에 대한 쌍으로 a-가변 벡터와는 가장 상반된 성질을 가진, a-성분에 음성, b-성분에 양성 영향을 w는 b-가 변 벡터를 찾아내어 이 벡터들이 구성하는 유전자를 트레이닝 데이터세트로 선택할 수 있다.
3. 지지 벡터 기계(Support Vector Machine(SVM))
지도 기계 학습 기술(Supervised Machine Learning Technique) 중 하나인 SVM은 기본적으로 두 클래스를 갖는 객체들을 분류하는 방법에 관한 것이다. 이 방법은 1976년 Vapnik(1995)에 잘 소개되어 있다.
두 개의 클래스로 구성된 N개의 객체가 P차원 공간에 위치하는데, 하나의 초평면(Hyperplane)으로 구분되는 경우, 두 클래스 사이에는 무수히 많은 초평면이 존재할 수 있으나, SVM에는 각 클래스의 경계를 유지하는 객체들을 지나는 초평면(H1, H2)이 존재하는데, 이 두 개의 초평면과 두 클래스를 구분하는 초평면(H)간의 거리인 마진 M(Margin M)이 최대가 되는 초평면 H를 선택한다. 도 2는 마진 M이 최대가 되는 최적의 초평면를 선택하는 방법에 관한 그래프이다.
두 개의 클래스를 정확하게 구분하는 초평면이 존재하지 않을 경우, 오차를 인정하는 초평면을 선택할 수 있으며, 개별적인 적용에 적당한 커널 함수(Kernel Function)를 사용하여 임의의 차원으로 객체들을 지도화(Mapping)시킨 후, 그 차원에서 구분되는 초평면을 구하여 두 클레스를 분류할 수도 있다.
본 발명에서는 부정해적인 데이터 집합 처리를 위한 방법으로 주성분 분석과, 고유벡터로부터 가변 벡터를 얻어 유전자를 선택하는 알고리즘을 제시하여, 분 류작업에 불필요하게 삽입되는 노이즈 데이타(Noise Data)를 최소화하는 분류 작업에 대한 효율성을 높일 수 있으며, 나아가 모든 유전자들의 특징을 처리하는 연산을 수행하기 때문에, 각 유전자들의 역할 규명에도 도움이 된다. 또한, 현재 사용되고 있는 특징 선택 알고리즘(Feature Selection Algorithm)과 쉽게 결합할 수 있어 분류의 효율성을 증대시킬 수 있다.
본 발명은 하기의 실시예에 의하여 보다 구체적으로 이해될 수 있으며, 하기의 실시예는 본 발명을 예시하기 위한 것이며, 본 발명의 보호범위를 제한하고자 하는 것은 아니다.
1. 데이터 세트
본 발명에서 사용된 데이터세트는 골러브(Golub)의 실험에서 사용된 72명의 ALL 또는 AML 환자로부터의 골수 샘플과 말초부의 혈액에서 채취한 것이다.
골러브의 실험에서는 총 38명의 환자(20명의 ALL 환자, 11명의 AML 환자)의 데이터로써 트레이닝 세트(Training Set)를 만들고, 총 34명의 환자(20명의 ALL 환자, 14명의 AML 환자)의 데이터로써 테스트 데이터 세트(Test Data Set)를 만들었으며, 각 데이터 세트는 Affymetrix사에서 만들어진 올리고뉴클레오티드 마이크로어레이를 사용하여 7129개의 인간 유전자에 대한 발현 수준을 측정한 값이다. 측정한 값은 각 클립에 대한 종합적인 세기를 만들기 위하여 축소된 유전자 발현 수준이다.
2. 실험방법
상기 데이터세트의 스코어를 각 유전자에 대한 발현 수준의 합을 구하고, 구해진 합으로 각 엔트리(Entry)를 나누어 표준화하였다. 50개, 150개, 500개의 유전자를 본 발명에서 제시한 기법을 사용하여 선택하였으며, 트레이닝 세트를 사용하여 전 홀드-원-아웃 크로스-품질 검사(Hold-one-out cross-validation test)를 하였다.
3. 결과
표 1은 유전자 선택 수행 전, 후의 분류 결과를 보여주며, 표 2는 정확도, 정밀도, 재현율의 결과를 보여준다.
트레이닝 결과 테스트 결과
원 데이터 FP=8 FN=1 TP=10 TN=19 FP=10 FN=3 TP=8 TN=17
50개의 유전자 선택 FP=0 FN=0 TP=11 TN=27 FP=0 FN=0 TP=11 TN=27
100개의 유전자 선택 FP=0 FN=0 TP=11 TN=27 FP=0 FN=1 TP=10 TN=27
500개의 유전자 선택 FP=0 FN=0 TP=11 TN=27 FP=1 FN=0 TP=11 TN=26
이때, FP는 False Positive 이고, FN은 False Negative이며, TP는 True Positive이고, TN은 True Negative이다.
정확도(Correctness) 정밀도(Precision) 재현율(Recall)
원 데이터 68.78% 44.4% 73%
50개의 유전자 선택 100% 100% 100%
100개의 유전자 선택 99% 100% 90%
150개의 유전자 선택 97% 92% 100%
표 1 및 2에서 보여지듯이, 유전자 선택을 하지 않은 원 데이터의 경우, 많은 오류가 발생함을 알 수 있다. 이로부터 본원의 알고리즘에 의한 유전자 선택으로 데이터의 노이즈를 감소시키고, SVM을 사용하여 더욱 정확한 분류작업을 할 수 있음을 알 수 있다.
트레이닝 결과에서는 원 데이터에서 두 객체를 정확히 분류하는 초평면이 존재하지 않았으나, 유전자 선택을 통하여 우수한 초평면을 찾아내었으며, 그로 인해 테스트 결과에서 정확한 분류가 수행되었음을 알 수 있다.
본 발명이 속하는 기술분야의 당업자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예는 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해되어야 하고, 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
도 1은 마이크로어레이 데이터세트와 일반 데이터세트와의 차이를 보여준다.
도 2는 ALL 및 AML 마이크로어레이 데이터세트에서 PCA에 의해 선택된 고유 벡터의 고유 값의 분포를 보여준다.
도 3의 (a)는 공분산 매트릭스로부터 구해진 고유 매트릭스의 예이며, (b)는 고유 벡터와 각 고유 값의 비교 및 주성분으로 지정된 매트릭스의 분리를 보여준다.
도 4은 25개의 유전자를 선택하여 주성분 공간에 변형된 객체와 가변 벡터를 보여준다.
도 5는 마진 M(Margin M)이 최대가 되는 최적의 하이퍼플레인의 선택을 보여준다.
도 6은 유전자 1과 유전자 2의 공간에서의 객체 분포를 보여준다.

Claims (2)

  1. 하기 세 단계를 포함하는, 유전자 선택 알고리즘:
    단계 (1) : 트레이닝 데이터 세트의 유전자에 대한 공분산 행렬(Covariance Matrix)을 만들어 고유벡터를 구함:
    공분산:
    Figure 112008046141558-PAT00003
    공분산 행렬:
    Figure 112008046141558-PAT00004
    ;
    단계 (2) : 상기 공분산 행렬에서 각 유전자에 대한 고유 벡터를 구하고, 고유 평균값보다 큰 고유 값들을 선택하고, 그 선택된 고유 벡터를 주성분으로 지정함;
    단계 (3): 하기의 <1> 내지 <6> 단계를 통해 가변 벡터로부터 유전자를 선택하는데, 여기서 가변벡터란 고유 벡터 행렬에서 주성분으로 선택된 벡터만을 남기고 만들어진 행렬의 각 유전자에 해당한 값으로 생성되는 벡터를 의미함:
    <1> 원 데이터(Raw Data)로부터 선택할 유전자의 개수 X를 결정함.
    <2> 각 가변 벡터의 크기를 계산함.
    <3> 크기가 최대인 벡터를 선택하고, 그 벡터와 다른 벡터간의 내적을 구함.
    <4> 구해진 내적의 값이 최소(두 벡터가 이루는 각이 180°에 가까움)가 되는 벡터를 구함.
    <5> 선택된 두 개의 벡터의 유전자를 학습 데이터세트에 추가시키고, 선택된 두 벡터는 다음 순환에서 제외하도록 처리함.
    <6> <1>에서 결정된 X의 값이 만족할 때까지 <3> 부터 <5>까지 반복함.
  2. 제 1 항의 유전자 선택 알고리즘에 의해 선택된 유전자를 지지 벡터 기계(SVM)의 학습 데이터 세트에 추가시켜 유전자의 클래스를 분류하는 방법.
KR1020080060991A 2008-06-26 2008-06-26 주성분 분석을 이용한 유전자 선택 알고리즘 KR20100001177A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020080060991A KR20100001177A (ko) 2008-06-26 2008-06-26 주성분 분석을 이용한 유전자 선택 알고리즘

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020080060991A KR20100001177A (ko) 2008-06-26 2008-06-26 주성분 분석을 이용한 유전자 선택 알고리즘

Publications (1)

Publication Number Publication Date
KR20100001177A true KR20100001177A (ko) 2010-01-06

Family

ID=41811502

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080060991A KR20100001177A (ko) 2008-06-26 2008-06-26 주성분 분석을 이용한 유전자 선택 알고리즘

Country Status (1)

Country Link
KR (1) KR20100001177A (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111161800A (zh) * 2019-12-30 2020-05-15 云舟生物科技(广州)有限公司 基因载体的序列诊断方法、系统、存储介质及电子设备
KR20200116801A (ko) * 2019-04-02 2020-10-13 주식회사 엘지화학 약물재창출을 이용한 질환에 대한 바이오 마커 선별 방법
CN112464154A (zh) * 2020-11-27 2021-03-09 中国船舶重工集团公司第七0四研究所 一种基于无监督学习的自动筛选有效特征的方法
CN113780338A (zh) * 2021-07-30 2021-12-10 国家计算机网络与信息安全管理中心 基于支持向量机的大数据分析中置信度评价方法、系统、设备及存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200116801A (ko) * 2019-04-02 2020-10-13 주식회사 엘지화학 약물재창출을 이용한 질환에 대한 바이오 마커 선별 방법
CN111161800A (zh) * 2019-12-30 2020-05-15 云舟生物科技(广州)有限公司 基因载体的序列诊断方法、系统、存储介质及电子设备
CN112464154A (zh) * 2020-11-27 2021-03-09 中国船舶重工集团公司第七0四研究所 一种基于无监督学习的自动筛选有效特征的方法
CN112464154B (zh) * 2020-11-27 2024-03-01 中国船舶重工集团公司第七0四研究所 一种基于无监督学习的自动筛选有效特征的方法
CN113780338A (zh) * 2021-07-30 2021-12-10 国家计算机网络与信息安全管理中心 基于支持向量机的大数据分析中置信度评价方法、系统、设备及存储介质
CN113780338B (zh) * 2021-07-30 2024-04-09 国家计算机网络与信息安全管理中心 基于支持向量机的大数据分析中置信度评价方法、系统、设备及存储介质

Similar Documents

Publication Publication Date Title
Hira et al. A review of feature selection and feature extraction methods applied on microarray data
US7890445B2 (en) Model selection for cluster data analysis
Cho et al. Cancer classification using ensemble of neural networks with multiple significant gene subsets
WO2002044715A1 (en) Methods for efficiently minig broad data sets for biological markers
KR20100001177A (ko) 주성분 분석을 이용한 유전자 선택 알고리즘
Salem et al. Mgs-cm: a multiple scoring gene selection technique for cancer classification using microarrays
Xu et al. Gene selection for cancer classification using a hybrid of univariate and multivariate feature selection methods
Joseph et al. Cancer classification of gene expression data using machine learning models
Carter et al. Information preserving component analysis: Data projections for flow cytometry analysis
Yu et al. Simple rule-based ensemble classifiers for cancer DNA microarray data classification
Wani Incremental hybrid approach for microarray classification
Salem et al. A new gene selection technique based on hybrid methods for cancer classification using microarrays
Liu et al. Mining gene expression data
Chuang et al. Classification of multiple cancer types using fuzzy support vector machines and outlier detection methods
Bhat Evaluating SVM algorithms for bioinformatic gene expression analysis
CN113971984A (zh) 分类模型构建方法及装置、电子设备、存储介质
Vukicevic et al. Internal evaluation measures as proxies for external indices in clustering gene expression data
You et al. A novel hybrid method of gene selection and its application on tumor classification
Phan et al. Improvement of SVM algorithm for microarray analysis using intelligent parameter selection
Alshalalfah et al. Cancer class prediction: two stage clustering approach to identify informative genes
Ahmed et al. Predicting Alzheimer's Disease Using Filter Feature Selection Method
Huiqing Effective use of data mining technologies on biological and clinical data
Aarthi et al. Improving Class Separability for Microarray datasets using Genetic Algorithm with KLD Measure
Bentkowska et al. Optimization problem of k-NN classifier in DNA microarray methods
Yun et al. A New gene expression profiles classifying approach based on neighborhood rough set and probabilistic neural networks Ensemble

Legal Events

Date Code Title Description
A201 Request for examination
A302 Request for accelerated examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E601 Decision to refuse application