KR100734430B1 - 마이크로어레이 데이터의 클래스 판별 유전자 셋 탐색 방법및 저장 매체 - Google Patents

마이크로어레이 데이터의 클래스 판별 유전자 셋 탐색 방법및 저장 매체 Download PDF

Info

Publication number
KR100734430B1
KR100734430B1 KR1020060111419A KR20060111419A KR100734430B1 KR 100734430 B1 KR100734430 B1 KR 100734430B1 KR 1020060111419 A KR1020060111419 A KR 1020060111419A KR 20060111419 A KR20060111419 A KR 20060111419A KR 100734430 B1 KR100734430 B1 KR 100734430B1
Authority
KR
South Korea
Prior art keywords
gene
genes
discriminating
value
gene set
Prior art date
Application number
KR1020060111419A
Other languages
English (en)
Inventor
이관수
황태호
Original Assignee
한국정보통신대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국정보통신대학교 산학협력단 filed Critical 한국정보통신대학교 산학협력단
Priority to KR1020060111419A priority Critical patent/KR100734430B1/ko
Application granted granted Critical
Publication of KR100734430B1 publication Critical patent/KR100734430B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/53Immunoassay; Biospecific binding assay; Materials therefor
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2800/00Detection or diagnosis of diseases
    • G01N2800/50Determining the risk of developing a disease

Abstract

본 발명은 마이크로어레이 데이터 셋으로부터 표본 클래스 판별 (질병 진단)을 위한 판별 유전자 셋을 탐색하는 방법에 관한 것으로서, 본 발명에 의한 방법은 마이크로어레이 데이터 셋의 발현량 수치 데이터를 이산화하는 단계(a); 상기 단계 (a)에서 이산화된 데이터를 이용하여 유전자-클래스 연관성을 바탕으로 유전자를 여과하는 단계(b); 상기 단계 (b)에서 여과된 유전자 중 유전자-클래스 연관성을 고려하여 판별 유전자 셋을 초기화하는 단계(c); 상기 단계 (b)에서 계산된 유전자-클래스 연관성과 유전자 간 중복성을 동시에 표현한 수치를 고려하여 상기 단계 (c)에서 초기화된 판별 유전자 셋에 유전자를 전진 선택하여 추가하는 단계(d); 상기 단계 (c)와 상기 단계 (d)에서 형성된 판별 유전자 셋의 표본 클래스 판별 오차를 평가하는 단계(e)를 포함한다.
마이크로어레이, 유전자, 선택, 판별, 진단, 질병, 소표본, 이산화, 피셔, 정확검정

Description

마이크로어레이 데이터의 클래스 판별 유전자 셋 탐색 방법 및 저장 매체{A protocol for searching classifier gene set from microarray dataset}
도 1은 본 발명의 바람직한 일 실시예에 따른 마이크로어레이 데이터의 클래스 판별 유전자 셋 탐색 방법을 전체적으로 설명하기 위한 흐름도,
도 2는 본 발명의 바람직한 일 실시예에 따른 마이크로어레이 데이터의 클래스 판별 유전자 셋 탐색 방법 중 유전자-클래스 연관성을 바탕으로 한 유전자 여과 과정을 구체적으로 설명하기 위한 흐름도,
도 3는 본 발명의 바람직한 일 실시예에 따른 마이크로어레이 데이터의 클래스 판별 유전자 셋 탐색 방법 중 유전자-클래스 연관성을 고려한 판별 유전자 셋의 초기화 과정을 구체적으로 설명하기 위한 흐름도,
도 4는 본 발명의 바람직한 일 실시예에 따른 마이크로어레이 데이터의 클래스 판별 유전자 셋 탐색 방법 중 유전자-클래스 연관성과, 유전자 간 발현 패턴 중복성을 동시에 고려한 유전자 선택 과정을 구체적으로 설명하기 위한 흐름도,
도 5은 본 발명의 바람직한 일 실시예에 따른 마이크로어레이 데이터의 클래스 판별 유전자 셋 탐색 방법 중 판별 유전자 셋의 표본 분류 오차를 평가하는 과정을 구체적으로 설명하기 위한 흐름도이다.
본 발명은 마이크로어레이 데이터 셋 분석을 통한 표본 클래스 판별 유전자 셋 탐색 방법에 관한 것이다.
최근에, 마이크로어레이 칩은 특정 조건 하에서 동시에 수천에서 수만 개의 유전자 발현 정보를 관찰 가능하게 하는 기술로, 기능 유전체학 연구 및 질병 진단에 이용하는 핵심 기술로 대두되고 있다.
마이크로어레이 칩 데이터로서 나타나는 대량 유전자의 조건 (클래스)별 발현 프로파일을 살펴봄으로써, 특정 클래스에 특이적 발현 양상의 특이성을 나타내는 유전자 혹은 유전자 셋을 이용해 질병의 진단 및 분류를 하고자하는 시도가 이뤄지고 있다.
이러한 중요성으로 인해 마이크로어레이 데이터를 이용한 판별 유전자 셋 탐색 기술 개발이 국제적으로 활발하게 진행되고 있다. 판별 유전자 셋 탐색 기술은 크게 조건에 따른 유전자 발현량 차이의 유의성을 분석하는 기술과, 최소의 유전자 셋으로서 표본 클래스 판별을 가능하게 하는 유전자 선택 기술로 분류된다.
조건에 따른 유전자 발현량 차이의 유의성을 분석하는 기술은 일부를 제외하고는 대부분 통계 검정에 의존한다. 마이크로어레이 데이터의 다양한 특성을 고려한 다양한 통계 검정법이 판별 유전자 셋 탐색 기술에 응용된 바 있다. 기존에 응용된 통계 검정법은 크게 데이터 분포를 가정하는 모수적 방법과 데이터 분포를 가정하지 않는 비모수적 방법으로 분류된다. 일반적인 마이크로어레이 데이터의 비정 규성 및 적은 표본 문제로 모수적 방법보다는 비모수적 방법이 선호되고 있으나, 현재까지 적용된 비모수적 방법은 클래스 당 표본의 개수가 5개 이하로 극히 적은 경우에는 적용하기 어렵다는 문제를 가지고 있다.
최소의 셋으로서 표본 클래스 판별을 가능하게 하는 유전자 선택 기술은 주로 조건에 따라 유의한 발현량의 차이를 보이는 유전자를 효율적인 순서로 선택해 나가는 기준의 개발, 그리고 형성된 판별 유전자 셋의 판별 능력을 평가하는 판별 알고리듬의 적절한 응용에 의존하고 있다. 종래에 동일 기술 분야 혹은 유사 기술 분야에 응용된 대표적 판별 알고리즘으로는 support vector machine, k-nearest neighbors, linear discriminant analysis, quadratic discriminant analysis, random forest 알고리즘 등이 있다. 이 중, random forest 알고리즘은 판별 유전자 셋의 표본 클래스 판별 능력 평가에 있어서 부트스트랩(bootstrap) 표본을 만들기 때문에 표본 수가 적거나 클래스 별 표본 수가 불균형한 경우에도 좋은 성능을 내는 것으로 잘 알려져 있다.
이러한 기술의 신규 개발 및 조합을 통한 마이크로어레이 데이터 셋 분석을 통한 표본 클래스 판별 유전자 셋 탐색 방법의 제안이 활발히 이뤄지고 있으나, 마이크로어레이 데이터에서 흔히 나타나는 현상인, 적은 수의 표본, 이상치의 존재, 임의의 데이터분포 등의 문제, 그리고 마이크로어레이 칩 실험에서 발생할 수 있는 오차 등을 감안할 때 두루 안정적으로 사용하는 것에는 신뢰성 문제를 포함한 한계가 있다.
따라서 다양한 특성의 마이크로어레이 데이터를 안정적으로 분석하여 양질의 판별 유전자 셋을 탐색할 수 있는 방법의 개발은 필수적이라 할 수 있다.
본 발명에서는 상기한 바와 같은 종래 기술의 문제점을 해결하기 위해, 마이크로어레이 데이터 분석을 통한 판별 유전자 셋 탐색에 있어서, 데이터 이산화 기법을 적용하여 마이크로어레이 데이터 이상치 문제를 해결하고, 피셔의 정확검정을 응용하여 표본의 수가 한 클래스 당 5개 미만으로 매우 적은 경우, 또한 데이터 분포가 비정규형 및 임의의 형태일 때에도 안정적으로 사용 가능한 방법을 제안하고자 한다.
본 발명의 다른 목적은 판별 유전자 셋 내 유전자의 최소화를 통해 오버피팅(Overfitting)을 피하고, 차후 클래스를 알 수 없는 표본의 클래스 예측용 칩 제작에 있어 경제성을 추구하는 것이다.
본 발명의 또 다른 목적은 같은 유전자 수로 같은 판별력을 보이는 다양한 판별 유전자 셋을 찾는 방법을 제안하여, 최소의 수로 된 다양한 최적의 유전자 셋으로 질병 예측, 진단을 포함한 다양한 생물학 및 의약학 연구에 정확한 판단을 유도할 수 있도록 하는 것이다.
상기한 바와 같은 목적을 달성하기 위하여, 본 발명의 바람직한 일 실시예에 따르면, 마이크로어레이 데이터 셋의 발현량 수치 데이터를 이산화하는 단계(a); 상기 단계(a)에서 이산화된 데이터를 이용하여 유전자-클래스 연관성을 바탕으로 유전자를 여과하는 단계(b); 상기 단계(b)에서 여과된 유전자 중 유전자-클래스 연 관성을 고려하여 판별 유전자 셋을 초기화하는 단계(c); 상기 단계(b)에서 계산된 유전자-클래스 연관성과 유전자 간 중복성을 동시에 고려하여 상기 단계 (c)에서 초기화된 판별 유전자 셋에 유전자를 전진 선택 추가하는 단계(d); 상기 단계(c)와 상기 단계(d)에서 형성된 판별 유전자 셋의 표본 클래스 판별 오차 평가 단계(e)를 포함하는 판별 유전자 셋 탐색 방법이 제공된다.
이하에서, 첨부된 도면을 참조하여 본 발명에 의한 판별 유전자 셋 탐색 프로세스 및 방법의 바람직한 실시예를 상세히 설명한다. 본 실시예는 본 발명의 권리범위를 한정하는 것은 아니고, 단지 예시로 제시된 것이다.
도 1은 본 발명의 바람직한 일 실시예에 따른 마이크로어레이 데이터의 클래스 판별 유전자 셋 탐색 방법을 전체적으로 설명하기 위한 흐름도이다.
도 1에 도시한 바와 같이, 먼저 단계 S100에서는 통상적으로 실수 형태인 마이크로어레이 유전자 발현 데이터를 모든 발현 값의 중앙값을 기준으로 중앙값보다 큰 값은 1로, 같거나 작은 값은 0으로 이산화 한다.
다음, 단계S200에서는 상기 단계S100에서 이산화된 마이크로어레이 데이터를 이용하여 각 유전자가 클래스와 가지는 연관성을 계산한다.
도 2는 본 발명의 바람직한 일 실시예에 따른 마이크로어레이 데이터의 클래스 판별 유전자 셋 탐색 방법 중 유전자-클래스 연관성을 바탕으로 한 유전자 여과 과정을 구체적으로 설명하기 위한 흐름도이다. 도 2의 단계S210에서 아래에 표시한 표 1의 2*n 분할표를 이용하여, 하기한 수학식 1에 따라 피셔의 정확검정으로 각 유전자의 유전자-클래스 연관성(Fgc)을 계산한다.
[표 1]
Figure 112006509006875-pat00001
[수학식 1]
Figure 112006509006875-pat00002
표 1은 본 발명의 바람직한 일 실시예에 따른 마이크로어레이 데이터의 클래스 판별 유전자 셋 탐색 방법 중 유전자-클래스 연관성을 바탕으로 한 유전자 여과 과정에 필요한 정확검정용 2*n 분할표이다. 수학식 1의 Fgc는 한 유전자와 클래스의 연관성을 나타내 주는 확률 값으로, 그것이 작을수록 해당 유전자가 어떤 클래스와 강한 연관성을 가진다고 볼 수 있다. 특히, Fgc가 사전에 설정한 유의확률(예컨대, 유의확률 = 0.05)보다 작을 경우, 그러한 유전자들만 남기고 다른 유전자는 이후 단계에서 고려하지 않는다. 이렇게 남은 유전자들은 마이크로어레이 데이터 셋 특성에 따라 수십에서 수백 개에 이른다.
다음, 단계S220에서 각 유전자의 상기 Fgc가 사용자가 미리 설정한 유의확률 (예컨대, 0.05)과 비교하여 같거나 작은 유전자만 여과한다.
도 3는 본 발명의 바람직한 일 실시예에 따른 마이크로어레이 데이터의 클래 스 판별 유전자 셋 탐색 방법 중 유전자-클래스 연관성을 고려한 판별 유전자 셋의 초기화 과정을 구체적으로 설명하기 위한 흐름도이다.
도 3에 도시한 바와 같이, 단계 S310에서는 상기 단계에서 여과된 유전자들 중 가장 높은 연관성을 보이는 유전자, 즉, 가장 작은 Fgc를 가지는 단수 혹은 복수의 유전자를 선택한다. 이어 단계 S320에서는 상기 단계에서 선택한 유전자를 비어있는 판별 유전자 셋에 최초로 추가하는 판별 유전자 셋 초기화를 한다. 만약, 가장 높은 연관성을 보이는 유전자가 복수일 경우, 각 유전자를 서로 다른 판별 유전자 셋을 초기화하는데 사용한다.
도 4는 본 발명의 바람직한 일 실시예에 따른 마이크로어레이 데이터의 클래스 판별 유전자 셋 탐색 방법 중 유전자-클래스 연관성과, 유전자 간 발현 패턴 중복성을 동시에 고려한 유전자 선택 과정을 구체적으로 설명하기 위한 흐름도이다. 도 4에 도시한 바와 같이, 전술한 상기 단계S400에서 계산한 유전자-클래스 연관성과, 유전자 간 발현 패턴 중복성을 동시에 고려한 유전자 선택 과정을 구체적으로 설명하면, 단계S410에서는 상기 단계의 여과된 유전자 각각과 판별 유전자 셋에 기 선택된 유전자 간의 이산화된 발현 양상의 중복성을 피셔의 정확 검정을 이용, 아래 표시한 표 2의 2*2 분할표와 하기한 수학식 2를 통해 계산한다.
[표 2]
Figure 112006509006875-pat00003
[수학식 2]
Figure 112006509006875-pat00004
표 2는 본 발명의 바람직한 일 실시예에 따른 마이크로어레이 데이터의 클래스 판별 유전자 셋 탐색 방법 중 유전자-클래스 연관성과, 유전자 간 발현 패턴 중복성을 동시에 고려한 유전자 선택 과정에 필요한 정확검정용 2*2 분할표이다. 수학식 2의 Fgg는 두 유전자 간의 중복성을 나타내 주는 확률 값으로, 그 값이 작을수록 중복성이 크다고 할 수 있다.
단계S420에서는 상기 단계의 여과된 유전자 각각을 가상으로 판별 유전자 셋에 추가했을 때, 판별 유전자 셋 내 유전자들의 평균 유전자-클래스 연관성과 평균 유전자 간 중복성을 하기한 수학식 3과 같이 계산한다.
[수학식 3]
Figure 112006509006875-pat00005
ARV가 작을수록 판별 유전자 셋 내에 들어있는 유전자들의 클래스 연관성은 높고 서로 간 중복성은 낮다고 볼 수 있다.
상기 단계에서 계산한 ARV를 상호 비교하여, 단계S420에서는 ARV를 최소화시키는 유전자를 판별 유전자 셋에 추가한다. 만약, ARV를 최소화시키는 유전자가 복수일 경우, 각 유전자를 기 선택 유전자가 동일하게 들어 있는 서로 다른 판별 유전자를 복수 개 생성하여 각각의 판별 유전자 셋에 추가한다.
도 5은 본 발명의 바람직한 일 실시예에 따른 마이크로어레이 데이터의 클래스 판별 유전자 셋 탐색 방법 중 판별 유전자 셋의 표본 분류 오차를 평가하는 과정을 구체적으로 설명하기 위한 흐름도이다.
도 5에 도시한 바와 같이, 전술한 상기 단계S500에서 판별 유전자 셋의 표본 분류 오차를 평가하는 단계를 구체적으로 설명하면, 단계S510에서는 random forest 알고리즘을 이용하여 부트스트랩(bootstrap) 표본으로 구성된, 중복을 허용한 n개의 데이터 셋을 생성하고, 각 부트스트랩 표본 데이터 셋 Bk를 위한 나무 구분자 Tk를 만든 후, Tk를 다른 부트스트랩 표본 데이터 셋 분류에 적용해본다. 이때 발생하는 분류 오차의 평균값을 out-of-bag 에러 (OOB 에러)라고 하고, 이 값을 판별 유전자 셋의 표본 클래스 판별력으로 이용한다. 단계S510은 전술한 상기 단계S320과 S430 직후에, 즉, 새로운 유전자가 각 판별 유전자 셋에 추가될 때마다 실시된다.
단계S520에서는, 상기 단계에서 계산한 각 판별 유전자 셋의 OOB 에러가 사전에 설정한 기준치(예컨대, 0%)보다 같거나 작으면 판별 유전자 셋에 유전자를 추가하는 프로세스를 종료하고, 크면 상기 단계S400으로 돌아간다.
또한, 단계S520에서는, 판별 유전자 셋에 유전자를 추가하는 프로세스의 종료 기준으로 OOB 에러와 사용자 사전 설정 에러를 비교하는 대신, 판별 유전자 셋에 추가된 유전자의 개수가 사용자가 사전에 설정한 유전자 개수에 이르렀는지의 여부로 결정할 수도 있다.
본 발명은 마이크로어레이 데이터 셋에서 일반적으로 나타나는 적은 표본 수, 이상치의 존재, 임의적 데이터 분포 등의 문제를 이산화 기법과 적절한 비모수적 통계 방법을 적용하여 최소화함으로써 다양한 특성의 마이크로어레이 데이터 셋으로부터 안정적으로 판별 유전자 셋을 선택할 수 있도록 한다.
또한, 본 발명은 판별 유전자 셋 내의 유전자 수를 최소화하여 표본 클래스 판별의 경제성을 만족시키고 동시에 다양한 유전자로 구성된 서로 다른 판별 유전자 셋을 모두 찾아낸다. 이를 통해 하나의 판별 유전자 셋만 선택하는 기존의 방법에 비해 마이크로어레이 실험 오차로부터 우발적으로 유전자가 선택되는 위험 부담을 경감시킨다. 뿐만 아니라, 표본 클래스 판별 (질병 예측)에 있어서도 각 판별 유전자 셋의 오버피팅 (Overfitting)을 최소화하고, 다양한 판별 유전자 셋의 선택, 조합을 통해, 마이크로 어레이 표본의 특이성에 의한 표본의 클래스 오판별 가능성을 현저히 낮출 수 있다.

Claims (7)

  1. 마이크로어레이 데이터 셋에서 표본 클래스 판별을 위한 판별 유전자 셋 탐색 방법에 있어서,
    (a) 마이크로어레이 데이터 셋의 발현량 수치 데이터를 이산화하여 이산화된 유전자 발현 프로파일을 생성하는 단계;
    (b) 상기 이산화된 유전자 발현 프로파일을 피셔의 정확 검정을 통해 계산한 각 유전자의 유전자-클래스 연관성 값이 사용자가 임의로 지정한 유의 확률 값보다 같거나 작은 유전자만 남기고 그렇지 않은 유전자는 모두 제거하는 유전자 여과 단계;
    (c) 상기 여과된 유전자 중, 상기 계산된 각 유전자의 유전자-클래스 연관성 값이 가장 작은 유전자를 최초 선택하여 판별 유전자 셋을 초기화하는 단계;
    (d) 상기 계산된 각 유전자의 유전자-클래스 연관성 값을 분자에, 피셔의 정확 검정을 통해 계산한 상기 여과된 유전자 간 발현 패턴의 중복성 값을 분모에 통합하여 표현한 값이 가장 작은 유전자를 선택하여 상기 초기화된 판별 유전자 셋에 유전자를 추가하는 단계; 및
    (e) 상기 (d) 단계에서 형성된 판별 유전자 셋의 표본 분류 오차를 평가하여 판별 유전자 셋의 유전자 추가 선택 여부를 결정하는 단계를 포함하여 이루어진 것을 특징으로 하는 판별 유전자 셋 탐색 방법.
  2. 제 1항에 있어서, 상기 단계 (a)는 유전자 선택의 사전 작업으로 원본 마이크로어레이 유전자 발현 프로파일을 이산화하는 것을 특징으로 하는 마이크로어레이 분석을 통한 판별 유전자 셋 탐색 방법.
  3. 제 1항에 있어서, 상기 단계 (b)는,
    (b1) 상기 이산화된 유전자 발현 프로파일을 하기한 표 3과 수학식 4를 이용한 피셔의 정확 검정으로 각 유전자의 유전자-클래스 연관성(Fgc)을 계산하는 단계; 및
    [표 3]
    Figure 112007503463787-pat00012
    [수학식 4]
    Figure 112007503463787-pat00013
    (b2) 상기 계산된 각 유전자의 Fgc가 사용자가 임의로 설정한 유의확률보다 같거나 작은 유전자만 남기고 그렇지 않은 유전자를 모두 제거하는 여과 단계를 포함하여 이루어진 것을 특징으로 하는 마이크로어레이 분석을 통한 판별 유전자 셋 탐색 방법.
  4. 제 3항에 있어서, 상기 단계 (c)는,
    (c1) 상기 여과된 유전자 중, 상기 계산된 각 유전자의 유전자-클래스 연관성(Fgc)이 가장 작은 유전자를 최초로 선택하는 단계; 및
    (c2) 상기 선택된 유전자가 단수일 경우, 하나의 판별 유전자 셋에 해당 유전자를 최초로 선택하여 추가하고, 복수일 경우, 각각의 해당 유전자들을 서로 다른 판별 유전자 셋들에 최초로 선택 추가하는 단계를 포함하여 이루어진 것을 특징으로 하는 마이크로어레이 분석을 통한 판별 유전자 셋 탐색 방법.
  5. 제 1항에 있어서, 상기 단계(d)는,
    (d1) 상기 여과된 유전자 간 발현 패턴의 중복성 값 (Fgg)을 하기한 표 3과 수학식 5에 의해 피셔의 정확 검정으로 계산하여 저장하는 단계;
    [표 4]
    Figure 112007503463787-pat00014
    [수학식 5]
    Figure 112007503463787-pat00015
    (d2) 상기 여과된 유전자에 대하여, 각각의 유전자를 가상으로 판별 유전자 셋에 추가한 후 해당 유전자가 추가되었을 때 판별 유전자 셋 내 유전자들의 평균 유전자-클래스 연관성 값 (Fgc)을 분자에 평균 유전자 간 중복성 값 (Fgg)을 분모에 통합하여 하기한 수학식 6과 같이 ARV를 계산하는 단계; 및
    [수학식 6]
    Figure 112007503463787-pat00016
    (d3) 상기 ARV를 최소화시키는 유전자가 단수 개가 존재할 경우, 판별 유전자 셋에 해당 유전자를 선택하여 추가하고, 복수 개가 존재할 경우 판별 유전자 셋에 이미 들어있는 유전자들을 똑같이 가진 복수 개의 판별 유전자 셋을 생성하여 ARV를 최소화하는 복수 개의 유전자 각각을 하나씩 각각의 판별 유전자 셋에 추가하여 복수 개의 판별 유전자 셋을 형성하는 방법을 포함하여 이루어진 것을 특징으로 하는 마이크로어레이 분석을 통한 판별 유전자 셋 탐색 방법.
  6. 제 1항에 있어서, 상기 단계 (e)는,
    (e1) Random forest 알고리즘을 이용하고 판별 유전자 셋 내의 유전자의 이산화된 발현 프로파일을 이용하여 판별 유전자 셋의 표본 분류 오차를 평가하는 단계; 및
    (e2) 판별 유전자 셋의 상기 표본 분류 오차가 사용자가 지정한 값보다 같거나 작을 경우, 혹은 판별 유전자 셋에 추가된 유전자 개수가 사용자가 지정한 값보다 같거나 클 경우에 판별 유전자 셋에 유전자를 추가하는 프로세스를 종료하고, 판별 유전자 셋의 상기 표본 분류 오차가 사용자가 지정한 값보다 클 경우, 혹은 판별 유전자 셋 내의 유전자 개수가 사용자가 지정한 값보다 작을 경우에 상기 단계(d)로 돌아가는 것을 특징으로 하는 마이크로어레이 분석을 통한 판별 유전자 셋 탐색 방법.
  7. 제 1항 내지 제 6항에 중 하나의 항에 있는 방법을 실행하기 위한 프로그램이 저장된 프로그램 저장 매체.
KR1020060111419A 2006-11-13 2006-11-13 마이크로어레이 데이터의 클래스 판별 유전자 셋 탐색 방법및 저장 매체 KR100734430B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020060111419A KR100734430B1 (ko) 2006-11-13 2006-11-13 마이크로어레이 데이터의 클래스 판별 유전자 셋 탐색 방법및 저장 매체

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020060111419A KR100734430B1 (ko) 2006-11-13 2006-11-13 마이크로어레이 데이터의 클래스 판별 유전자 셋 탐색 방법및 저장 매체

Publications (1)

Publication Number Publication Date
KR100734430B1 true KR100734430B1 (ko) 2007-07-02

Family

ID=38502914

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060111419A KR100734430B1 (ko) 2006-11-13 2006-11-13 마이크로어레이 데이터의 클래스 판별 유전자 셋 탐색 방법및 저장 매체

Country Status (1)

Country Link
KR (1) KR100734430B1 (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101546546B1 (ko) 2010-12-30 2015-08-21 충북대학교 산학협력단 유전자발현 데이터에서 모든 대조집단 식별 방법
KR20160088663A (ko) 2015-01-16 2016-07-26 연세대학교 산학협력단 질병 관련 유전자 탐색 장치 및 그 방법
KR20190000168A (ko) * 2017-06-22 2019-01-02 한국과학기술원 질병 연관 세포기능에 연결된 마커 기반으로 멀티마커 패널을 선정하는 시스템 및 방법
KR20190033682A (ko) * 2017-09-21 2019-04-01 한국과학기술원 Sampling기반의 DNA 데이터 보상 알고리즘
WO2022086053A1 (ko) * 2020-10-19 2022-04-28 (주)제이엘케이 인공지능 기반의 마이크로어레이 특정 결정요인 추출 시스템

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002025405A2 (en) 2000-09-19 2002-03-28 The Regents Of The University Of California Methods for classifying high-dimensional biological data
US20050100992A1 (en) 2002-04-17 2005-05-12 Noble William S. Computational method for detecting remote sequence homology
KR20050060285A (ko) * 2003-12-16 2005-06-22 삼성전자주식회사 해플로타입 데이터의 저장, 이를 위한 정렬 방법 및 이에따른 검색 방법
US20050181398A1 (en) 2004-01-16 2005-08-18 Fung Eric T. Specific detection of host response protein clusters

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002025405A2 (en) 2000-09-19 2002-03-28 The Regents Of The University Of California Methods for classifying high-dimensional biological data
US20050100992A1 (en) 2002-04-17 2005-05-12 Noble William S. Computational method for detecting remote sequence homology
KR20050060285A (ko) * 2003-12-16 2005-06-22 삼성전자주식회사 해플로타입 데이터의 저장, 이를 위한 정렬 방법 및 이에따른 검색 방법
US20050181398A1 (en) 2004-01-16 2005-08-18 Fung Eric T. Specific detection of host response protein clusters

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101546546B1 (ko) 2010-12-30 2015-08-21 충북대학교 산학협력단 유전자발현 데이터에서 모든 대조집단 식별 방법
KR20160088663A (ko) 2015-01-16 2016-07-26 연세대학교 산학협력단 질병 관련 유전자 탐색 장치 및 그 방법
KR101771042B1 (ko) 2015-01-16 2017-08-24 연세대학교 산학협력단 질병 관련 유전자 탐색 장치 및 그 방법
KR20190000168A (ko) * 2017-06-22 2019-01-02 한국과학기술원 질병 연관 세포기능에 연결된 마커 기반으로 멀티마커 패널을 선정하는 시스템 및 방법
KR101990429B1 (ko) 2017-06-22 2019-06-18 한국과학기술원 질병 연관 세포기능에 연결된 마커 기반으로 멀티마커 패널을 선정하는 시스템 및 방법
KR20190033682A (ko) * 2017-09-21 2019-04-01 한국과학기술원 Sampling기반의 DNA 데이터 보상 알고리즘
KR102059500B1 (ko) 2017-09-21 2019-12-27 한국과학기술원 Sampling기반의 DNA 데이터 보상 알고리즘
WO2022086053A1 (ko) * 2020-10-19 2022-04-28 (주)제이엘케이 인공지능 기반의 마이크로어레이 특정 결정요인 추출 시스템

Similar Documents

Publication Publication Date Title
US20020095260A1 (en) Methods for efficiently mining broad data sets for biological markers
Dalton et al. Clustering algorithms: on learning, validation, performance, and applications to genomics
EP2864919B1 (en) Systems and methods for generating biomarker signatures with integrated dual ensemble and generalized simulated annealing techniques
CN112005306A (zh) 选择、管理和分析高维数据的方法和系统
EA006272B1 (ru) Эвристический способ классификации
KR100734430B1 (ko) 마이크로어레이 데이터의 클래스 판별 유전자 셋 탐색 방법및 저장 매체
Arnatkeviciute et al. Toward best practices for imaging transcriptomics of the human brain
KR101990429B1 (ko) 질병 연관 세포기능에 연결된 마커 기반으로 멀티마커 패널을 선정하는 시스템 및 방법
WO2008007630A1 (fr) Méthode et appareil de recherche de protéine
Rao et al. Partial correlation based variable selection approach for multivariate data classification methods
JP6356015B2 (ja) 遺伝子発現情報解析装置、遺伝子発現情報解析方法、及びプログラム
CN111164701A (zh) 针对靶标定序的定点噪声模型
Wirth et al. Analysis of microRNA expression using machine learning
Tasoulis et al. Unsupervised clustering of bioinformatics data
US8180775B2 (en) Computer-implemented method for clustering data and computer-readable medium encoded with computer program to execute thereof
Alexander et al. Capturing discrete latent structures: choose LDs over PCs
US20160378914A1 (en) Method of and apparatus for identifying phenotype-specific gene network using gene expression data
Tasoulis et al. Unsupervised clustering in mRNA expression profiles
Rahmani et al. Predicting the functions of proteins in protein-protein interaction networks from global information
CN111383717A (zh) 一种构建生物信息分析参照数据集的方法及系统
Doungpan et al. Gene-Network-Based Feature Set (GNFS) for expression-based cancer classification
Kastrin Item response theory modeling for microarray gene expression data
Ren et al. SSCC: a novel computational framework for rapid and accurate clustering large single cell RNA-seq data 2
Aittokallio Module finding approaches for protein interaction networks
CN115828093A (zh) 组学样本的分析方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A201 Request for examination
A302 Request for accelerated examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
G170 Publication of correction
FPAY Annual fee payment

Payment date: 20130530

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20140521

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20150526

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20160526

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20180525

Year of fee payment: 12

FPAY Annual fee payment

Payment date: 20190603

Year of fee payment: 13