KR101172490B1 - 클래스 레이블 예측 장치 및 방법 - Google Patents

클래스 레이블 예측 장치 및 방법 Download PDF

Info

Publication number
KR101172490B1
KR101172490B1 KR1020100015332A KR20100015332A KR101172490B1 KR 101172490 B1 KR101172490 B1 KR 101172490B1 KR 1020100015332 A KR1020100015332 A KR 1020100015332A KR 20100015332 A KR20100015332 A KR 20100015332A KR 101172490 B1 KR101172490 B1 KR 101172490B1
Authority
KR
South Korea
Prior art keywords
class
disease
correlation
specific gene
samples
Prior art date
Application number
KR1020100015332A
Other languages
English (en)
Other versions
KR20110095716A (ko
Inventor
박상현
안재균
신은지
윤영미
Original Assignee
연세대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 연세대학교 산학협력단 filed Critical 연세대학교 산학협력단
Priority to KR1020100015332A priority Critical patent/KR101172490B1/ko
Priority to US12/712,161 priority patent/US20110207618A1/en
Publication of KR20110095716A publication Critical patent/KR20110095716A/ko
Application granted granted Critical
Publication of KR101172490B1 publication Critical patent/KR101172490B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

본 발명의 적어도 일 실시예에 따른 유전체의 유전자들 각각 및 복수의 샘플들 각각마다 발현값을 나타내는 마이크로어레이 데이터상의 유전자 쌍들 중, 정상 클래스에서의 상관도와 질병 클래스에서의 상관도를 고려하여 질병 특이적 유전자 쌍을 추출하고, 추출된 질병 특이적 유전자들 중 상관도가 최상인 최상 질병 특이적 유전자 쌍을 선택하고, 선택된 최상 질병 특이적 유전자 쌍을 이용하여 소정 테스트 샘플의 클래스 레이블을 예측함으로써, 그 테스트 샘플의 클래스 레이블을 신속 정확히 예측할 수 있다.

Description

클래스 레이블 예측 장치 및 방법 {Class label predicting apparatus and method}
본 발명은 유전자에 관한 것으로, 보다 상세하게는, 마이크로어레이 데이터상의 발현값 정보로부터 어떠한 샘플의 클래스 레이블을 예측하는 방안에 관한 것이다.
마이크로어레이 데이터(Microarray data set)는 유전체의 유전자(gene)들 각각 및 복수의 샘플(sample)들 각각마다 발현값을 나타내는 어레이(array) 형태의 데이터를 의미한다.
종래의 예측 방안은 마이크로어레이 데이터상의 발현값들을 이용하여 어떠한 샘플의 클래스 레이블(class label)을 예측함에 있어 고려하는 그 유전자들의 개수가 많아 예측에 상당한 연산량을 요구하는 것은 물론, 예측의 정확도도 낮은 문제점을 갖고 있다.
본 발명의 적어도 일 실시예가 이루고자 하는 기술적 과제는, 마이크로어레이 데이터상의 유전자들 중 클래스 레이블 예측에 있어 의미 있는 유전자들만을 선택하고 선택된 유전자들만을 고려하여 그 마이크로어레이 데이터상의 known 샘플의 클래스 레이블을 가장 정확히 예측할 수 있도록 하는 최적의 파라미터 범위를 선택하고, 선택된 최적의 파라미터 범위를 이용하여 unknown 테스트 샘플의 클래스 레이블도 정확히 예측할 수 있도록 하는 클래스 레이블 예측장치를 제공하는 데 있다.
본 발명의 적어도 일 실시예가 이루고자 하는 다른 기술적 과제는, 마이크로어레이 데이터상의 유전자들 중 클래스 레이블 예측에 있어 의미 있는 유전자들만을 선택하고 선택된 유전자들만을 고려하여 그 마이크로어레이 데이터상의 known 샘플의 클래스 레이블을 가장 정확히 예측할 수 있도록 하는 최적의 파라미터 범위를 선택하고, 선택된 최적의 파라미터 범위를 이용하여 unknown 테스트 샘플의 클래스 레이블도 정확히 예측할 수 있도록 하는 클래스 레이블 예측방법을 제공하는 데 있다.
본 발명의 적어도 일 실시예가 이루고자 하는 또 다른 기술적 과제는 마이크로어레이 데이터상의 유전자들 중 클래스 레이블 예측에 있어 의미 있는 유전자들만을 선택하고 선택된 유전자들만을 고려하여 그 마이크로어레이 데이터상의 known 샘플의 클래스 레이블을 가장 정확히 예측할 수 있도록 하는 최적의 파라미터 범위를 선택하고, 선택된 최적의 파라미터 범위를 이용하여 unknown 테스트 샘플의 클래스 레이블도 정확히 예측할 수 있도록 하는 컴퓨터프로그램을 저장한 컴퓨터로 읽을 수 있는 기록매체를 제공하는 데 있다.
상기 과제를 이루기 위해 본 발명의 적어도 일 실시예에 의한 클래스 레이블 예측장치는 유전체의 유전자들 각각 및 복수의 샘플들 각각마다 발현값을 나타내는 마이크로어레이 데이터상의 유전자 쌍들 중 정상 클래스에서의 상관도와 질병 클래스에서의 상관도를 고려하여 질병 특이적 유전자 쌍을 추출하는 추출부; 상기 추출된 질병 특이적 유전자들 중 상기 상관도가 최상인 최상 질병 특이적 유전자 쌍을 선택하는 선택부; 및 상기 선택된 최상 질병 특이적 유전자 쌍을 이용하여 소정 테스트 샘플의 클래스 레이블을 예측하는 레이블 예측부를 포함한다.
여기서, 상기 추출부는 상기 마이크로어레이 데이터상의 가능한 유전자 쌍들 각각마다 상기 정상 클래스에서의 상관 계수와 상기 질병 클래스에서의 상관 계수를 대비하고, 대비 결과에 따라 상기 유전자 쌍을 상기 질병 특이적 유전자 쌍으로서 선택적으로 결정할 수 있다.
여기서, 상기 추출부는 상기 마이크로어레이 데이터상의 가능한 유전자 쌍들 각각마다 상기 정상 클래스에서의 상관 계수와 상기 질병 클래스에서의 상관 계수가 절대값이 제1 임계치를 초과하면서 각각의 부호가 다른 경우 또는 양 자 중 일방만 상기 제1 임계치를 초과하고 양 자의 차이가 제2 임계치를 초과하는 경우에 해당하는지 판단하고, 판단 결과에 따라 상기 유전자 쌍을 상기 질병 특이적 유전자 쌍으로서 선택적으로 결정할 수 있다.
여기서, 상기 선택부는 상기 추출된 질병 특이적 유전자들 중 허브 노드에 해당하는 유전자 및 상기 허브 노드에 가장 높은 가중치로 연결된 노드에 해당하는 유전자를 상기 최상 질병 특이적 유전자 쌍으로서 선택할 수 있다. 이 때, 상기 가중치는 상기 추출된 질병 특이적 유전자 쌍마다 결정된 값이며 상기 정상 클래스에서의 각 샘플사이의 기울기의 차이값들의 평균값과 상기 질병 클래스에서의 각 샘플사이의 기울기의 차이값들의 평균값간의 차이로 계산된다.
여기서, 상기 테스트 샘플은 상기 복수의 샘플들에 속하며, 상기 레이블 예측부는 상기 테스트 샘플을 제외한 복수의 샘플들 및 상기 최상 질병 특이적 유전자 쌍에 관한 상기 정상 클래스에서의 상관도와, 상기 테스트 샘플을 포함한 복수의 샘플들 및 상기 최상 질병 특이적 유전자 쌍에 관한 상기 정상 클래스에서의 상관도간의 차이; 및 상기 테스트 샘플을 제외한 복수의 샘플들 및 상기 최상 질병 특이적 유전자 쌍에 관한 상기 질병 클래스에서의 상관도와, 상기 테스트 샘플을 포함한 복수의 샘플들 및 상기 최상 질병 특이적 유전자 쌍에 관한 상기 질병 클래스에서의 상관도간의 차이를 고려하여 상기 테스트 샘플의 클래스 레이블을 예측할 수 있다. 이는 상기 테스트 샘플을 클래스 각각에 포함시켰을 때 상관관계를 변경시키는 정도를 비교하여 이루어지는 것이다. 이 때, 상기 추출부, 상기 선택부, 및 상기 레이블 예측부는 상기 테스트 샘플에 대한 상기 레이블 예측부의 예측의 정확도가 기 설정된 기준을 만족할 때까지 소정의 파라미터 값을 갱신하며 반복 동작할 수 있다. 이 때, 상기 추출부, 상기 선택부, 상기 레이블 예측부는 사용자가 설정한 파라미터 범위들 하에서 반복 동작하며 가장 높은 정확도를 얻는 파라미터 범위를 최적의 파라미터값으로 선택한다. 이 때, 상기 파라미터는 상기 마이크로어레이 데이터상의 유전자 쌍 사이의 강한 상관 여부를 구분짓는 제1 임계치, 상기 정상 클래스에서의 상관도와 상기 질병 클래스에서의 상관도간의 유의미성 차이 유무 여부를 결정짓는 제2 임계치, 분류자의 구성성분인 상기 최상 질병 특이적 유전자 쌍의 개수를 포함한다.
여기서, 상기 테스트 샘플은 상기 복수의 샘플들에 포함되지 않은 미지의 샘플이며, 상기 레이블 예측부는 상기 복수의 샘플들 및 상기 최상 질병 특이적 유전자 쌍에 관한 상기 정상 클래스에서의 상관도와, 상기 복수의 샘플들에 상기 테스트 샘플이 부가된 결과 및 상기 최상 질병 특이적 유전자 쌍에 관한 상기 정상 클래스에서의 상관도 간의 제1 차이, 및 상기 복수의 샘플들 및 상기 최상 질병 특이적 유전자 쌍에 관한 상기 질병 클래스에서의 상관도와, 상기 복수의 샘플들에 상기 테스트 샘플이 부가된 결과 및 상기 최상 질병 특이적 유전자 쌍에 관한 상기 질병 클래스에서의 상관도 간의 제2 차이를 고려하여 상기 테스트 샘플의 클래스 레이블을 예측할 수 있다. 이 때 상기 레이블 예측부는 상기 제1 차이가 상기 제2 차이를 초과하는 경우, 상기 테스트 샘플의 클래스 레이블을 질병 클래스로서 결정할 수 있다. 이 때, 상기 레이블 예측부는 상기 제2 차이가 상기 제1 차이를 초과하는 경우, 상기 테스트 샘플의 클래스 레이블을 정상 클래스로서 결정할 수 있다. 이 때, 상기 질병은 암일 수 있다.
상기 다른 과제를 해결하기 위해, 본 발명의 적어도 일 실시예에 따른 클래스 레이블 예측방법은 유전체의 유전자들 각각 및 복수의 샘플들 각각마다 발현값을 나타내는 마이크로어레이 데이터상의 유전자 쌍들 중, 정상 클래스에서의 상관도와 질병 클래스에서의 상관도를 고려하여 질병 특이적 유전자 쌍을 추출하는 단계; 상기 추출된 질병 특이적 유전자들 중 상기 상관도가 최상인 최상 질병 특이적 유전자 쌍을 선택하는 단계; 및 상기 선택된 최상 질병 특이적 유전자 쌍을 이용하여 소정 테스트 샘플의 클래스 레이블을 예측하는 단계를 포함한다.
여기서, 상기 추출하는 단계는 상기 마이크로어레이 데이터상의 가능한 유전자 쌍들 각각마다 상기 정상 클래스에서의 상관 계수와 상기 질병 클래스에서의 상관 계수를 대비하고, 대비 결과에 따라 상기 유전자 쌍을 상기 질병 특이적 유전자 쌍으로서 선택적으로 결정할 수 있다.
여기서, 상기 추출하는 단계는 상기 마이크로어레이 데이터상의 가능한 유전자 쌍들 각각마다 상기 정상 클래스에서의 상관 계수와 상기 질병 클래스에서의 상관 계수가 절대값이 제1 임계치를 초과하면서 각각의 부호가 다른 경우 또는 양 자 중 일방만 상기 제1 임계치를 초과하고 양 자의 차이가 제2 임계치를 초과하는 경우에 해당하는지 판단하고, 판단 결과에 따라 상기 유전자 쌍을 상기 질병 특이적 유전자 쌍으로서 선택적으로 결정할 수 있다.
여기서, 상기 선택하는 단계는 상기 추출된 질병 특이적 유전자들 중 허브 노드에 해당하는 유전자 및 상기 허브 노드에 가장 높은 가중치로 연결된 노드에 해당하는 유전자를 상기 최상 질병 특이적 유전자 쌍으로서 선택할 수 있다. 이 때, 상기 가중치는 상기 추출된 질병 특이적 유전자 쌍마다 결정된 값이며 상기 정상 클래스에서의 각 샘플사이의 기울기의 차이값들의 평균값과 상기 질병 클래스에서의 각 샘플사이의 기울기의 차이값들의 평균값간의 차이로 계산된다.
여기서, 상기 테스트 샘플은 상기 복수의 샘플들에 속하며, 상기 예측하는 단계는 상기 테스트 샘플을 제외한 복수의 샘플들 및 상기 최상 질병 특이적 유전자 쌍에 관한 상기 정상 클래스에서의 상관도와, 상기 테스트 샘플을 포함한 복수의 샘플들 및 상기 최상 질병 특이적 유전자 쌍에 관한 상기 정상 클래스에서의 상관도간의 차이, 및 상기 테스트 샘플을 제외한 복수의 샘플들 및 상기 최상 질병 특이적 유전자 쌍에 관한 상기 질병 클래스에서의 상관도와, 상기 테스트 샘플을 포함한 복수의 샘플들 및 상기 최상 질병 특이적 유전자 쌍에 관한 상기 질병 클래스에서의 상관도간의 차이를 고려하여 상기 테스트 샘플의 클래스 레이블을 예측할 수 있다. 이 때, 상기 추출하는 단계 내지 상기 예측하는 단계는 상기 테스트 샘플에 대한 상기 레이블 예측부의 예측의 정확도가 기 설정된 기준을 만족할 때까지 소정의 파라미터 값을 갱신하며 반복 동작하는 것일 수 있다. 이 때, 상기 추출하는 단계 내지 상기 예측하는 단계는 사용자가 설정한 파라미터 범위들 하에서 반복 동작하여 가장 높은 정확도를 얻는 파라미터 범위를 최적의 파라미터로 선택한다. 이 때, 상기 파라미터는 상기 마이크로어레이 데이터상의 유전자 쌍 사이의 강한 상관 여부를 구분짓는 제1 임계치, 상기 정상 클래스에서의 상관도와 상기 질병 클래스에서의 상관도간의 유의미성 차이 유무 여부를 결정짓는 제2 임계치, 상기 최상 질병 특이적 유전자 쌍의 개수를 포함할 수 있다.
여기서, 상기 테스트 샘플은 상기 복수의 샘플들에 포함되지 않은 미지의 샘플이며, 상기 예측하는 단계는 상기 복수의 샘플들 및 상기 최상 질병 특이적 유전자 쌍에 관한 상기 정상 클래스에서의 상관도와, 상기 복수의 샘플들에 상기 테스트 샘플이 부가된 결과 및 상기 최상 질병 특이적 유전자 쌍에 관한 상기 정상 클래스에서의 상관도 간의 제1 차이, 및 상기 복수의 샘플들 및 상기 최상 질병 특이적 유전자 쌍에 관한 상기 질병 클래스에서의 상관도와, 상기 복수의 샘플들에 상기 테스트 샘플이 부가된 결과 및 상기 최상 질병 특이적 유전자 쌍에 관한 상기 질병 클래스에서의 상관도 간의 제2 차이를 고려하여 상기 테스트 샘플의 클래스 레이블을 예측할 수 있다. 이 때 상기 예측하는 단계는 상기 제1 차이가 상기 제2 차이를 초과하는 경우, 상기 테스트 샘플의 클래스 레이블을 질병 클래스로서 결정할 수 있다. 이 때, 상기 예측하는 단계는 상기 제2 차이가 상기 제1 차이를 초과하는 경우, 상기 테스트 샘플의 클래스 레이블을 정상 클래스로서 결정할 수 있다.
상기 또 다른 과제를 해결하기 위해, 본 발명의 적어도 일 실시예에 따른 컴퓨터로 읽을 수 있는 기록매체는 유전체의 유전자들 각각 및 복수의 샘플들 각각마다 발현값을 나타내는 마이크로어레이 데이터상의 유전자 쌍들 중, 정상 클래스에서의 상관도와 질병 클래스에서의 상관도를 고려하여 질병 특이적 유전자 쌍을 추출하는 단계; 상기 추출된 질병 특이적 유전자들 중 상기 상관도가 최상인 최상 질병 특이적 유전자 쌍을 선택하는 단계; 및 상기 선택된 최상 질병 특이적 유전자 쌍을 이용하여 소정 타겟샘플의 클래스 레이블을 예측하는 단계를 컴퓨터에서 실행시키기 위한 컴퓨터 프로그램을 저장할 수 있다.
본 발명의 적어도 일 실시예에 따른 유전체의 유전자들 각각 및 복수의 샘플들 각각마다 발현값을 나타내는 마이크로어레이 데이터상의 유전자 쌍들 중, 정상 클래스에서의 상관도와 질병 클래스에서의 상관도를 고려하여 질병 특이적 유전자 쌍을 추출하고, 추출된 질병 특이적 유전자들 중 상관도가 최상인 최상 질병 특이적 유전자 쌍을 선택하고, 선택된 최상 질병 특이적 유전자 쌍을 이용하여 소정 테스트 샘플의 클래스 레이블을 예측함으로써, 마이크로어레이 데이터상의 유전자들 중 클래스 레이블 예측에 있어 의미 있는 유전자들만을 선택하고 선택된 유전자들만을 고려하여 그 마이크로어레이 데이터상의 known 테스트 샘플의 클래스 레이블을 가장 정확히 예측할 수 있도록 하는 최적의 파라미터 범위를 선택하고, 선택된 최적의 파라미터 범위를 이용하여 unknown 테스트 샘플의 클래스 레이블도 정확히 예측할 수 있도록 한다.
도 1은 마이크로어레이 데이터(microarray data set)를 설명하기 위한 도면이다.
도 2는 본 발명의 적어도 일 실시예에 따른 클래스 레이블 예측 장치를 나타내는 블록도이다.
도 3은 도 2에 도시된 장치를 설명하기 위한 마이크로어레이 데이터의 일 례를 나타내는 도면이다.
도 4는 본 발명의 적어도 일 실시예에 따른 클래스 레이블 예측 방법을 나타내는 플로우차트이다.
도 5는 본 발명의 적어도 일 실시예에 따른 클래스 레이블 예측 방법을 나타내는 또 다른 플로우차트이다.
본 발명과 본 발명의 동작상의 이점 및 본 발명의 실시에 의하여 달성되는 목적을 충분히 이해하기 위해서는 본 발명의 바람직한 실시예를 예시하는 첨부 도면 및 그 첨부 도면을 설명하는 내용을 참조하여야만 한다.
이하 본 발명의 적어도 일 실시예에 따른 클래스 레이블 예측장치 및 방법을 첨부한 도면들을 참조하여 다음과 같이 설명한다.
도 1은 마이크로어레이 데이터(microarray data set)를 설명하기 위한 도면이다.
앞서 설명한 바와 같이 ‘마이크로어레이 데이터(microarray data set)’는 ‘유전체의 유전자(gene)들 각각’ 및 ‘복수의 샘플들 각각’마다 “발현값” 을 나타내는 어레이(array) 형태의 데이터를 의미한다. 본 명세서에서, ‘샘플’은 어떤 생물체(예를 들어 인체)의 유전체를 의미하는 것으로, 본 명세서에서는 정상인의 샘플들과 특정 질병(예컨대 암)에 걸린 사람들의 샘플들로 구성된다. 도 1에 도시된 바와 같이, 마이크로어레이 데이터에서 각 행은 개개의 유전자를 의미하고, 각 열은 개개의 샘플을 의미한다.
도 2는 본 발명의 적어도 일 실시예에 따른 클래스 레이블 예측 장치를 나타내는 블록도로서, 추출부(210), 선택부(220), 및 레이블 예측부(230)를 포함한다.
추출부(210)는 마이크로어레이 데이터상의 유전자 쌍(pair)들 중,‘정상 클래스에서의 상관도’와 ‘질병 클래스에서의 상관도’를 고려하여 질병 특이적 유전자 쌍을 추출한다. 본 명세서에서 질병 특이적 유전자 쌍이란 마이크로 어레이 데이터상의 유전자들 중 클래스 레이블 예측에 있어 의미 있는 유전자 쌍을 의미한다. 한편 본 명세서에서 질병의 내용은 다양할 수 있으나 설명의 편의상 이하에서는 암이라 가정하고 설명하며 이에 따라 질병 특이적 유전자 쌍들을 cancer specific gene pairs라 명명한다. 또 한편, 본 명세서에서 클래스 레이블(class label)은 유전자 샘플들의 분류(classification)를 위하여 클래스가 질병에 걸리지 않은 정상 샘플이거나, 특정 질병에 걸린 질병 샘플임을 정의하는 정보를 의미한다. 어떠한 샘플의 클래스 레이블(label)이 정상 클래스라 함은 그 샘플이 질병(예컨대 암)이 걸리지 않은 정상 샘플임을 의미하고, 질병 클래스라 함은 그 샘플이 어떤 특정 질병에 걸린 샘플임을 의미한다.
구체적으로, 추출부(210)는 마이크로어레이 데이터상의 가능한 유전자 쌍들 각각마다 ‘정상 클래스에서의 상관 계수’와 ‘질병 클래스에서의 상관 계수’를 대비하고, 대비 결과에 따라 그 유전자 쌍을 질병 특이적 유전자 쌍으로서 선택적으로 결정할 수 있다. 본 명세서에서 사용한 상관관계 측정 방법은 Spearman's correlation coefficient를 이용하였으며, Spearman's correlation coefficient는 Lehmann E. S. D'Abrera, H.J.M, "Nonparametrics: Statistical Methods Based on Ranks", Prentice-Hall, Englewood Cliffs, NJ., pp.292-300, and 323, 1998. (Pearson. K, "Mathematical contributions to the theory of evolutions. Ⅲ. Regression, heredity and panmixia", Philosophical Transactions of the Royal Society of London. Series A. pp. 253-318, 1896.)에 상세히 개시되어 있다.
보다 구체적으로, 추출부(210)는 마이크로어레이 데이터 상의 가능한 유전자 쌍들 각각마다, ‘정상 클래스에서의 상관 계수’와 ‘질병 클래스에서의 상관 계수’ 모두의 절대값이 제1 임계치를 초과하면서 각각의 부호는 서로 다른 경우 또는, ‘정상 클래스에서의 상관 계수’와 ‘질병 클래스에서의 상관 계수’ 중 일방의 절대값만 제1 임계치를 초과하는 경우, ‘정상 클래스에서의 상관 계수’와 ‘질병 클래스에서의 상관 계수’의 차이가 제2 임계치를 초과하는지 판단하고, 그러한 경우에 포함된다고 판단되면 그 유전자 쌍을 질병 특이적 유전자 쌍으로서 결정한다. 본 명세서에서, 제1 임계치, 제2 임계치 모두 기 설정된 파라미터 값이며, 제1 임계치는 마이크로어레이 데이터상의 가능한 유전자 쌍들 각각마다 그 유전자 쌍을 구성하는 유전자들 서로 간에 강한 상관관계가 있는지의 여부를 결정짓는 임계치이고, 이 때 유전자 쌍은 정상 클래스에서의 유전자 쌍일 수도 있고 질병 클래스에서의 유전자 쌍일 수도 있다. 한편, 제2 임계치란 정상 클래스에서의 상관도와 질병 클래스에서의 상관도간의 유의미성 유무 여부를 결정짓는, 즉, ‘정상 클래스에서의 상관 계수로서 어떠한 유전자 쌍을 구성하는 유전자들 서로 간의 상관 계수’ 및 ‘질병 클래스에서의 상관 계수로서 그 어떠한 유전자 쌍을 구성하는 유전자들 서로간의 상관 계수’간에 차이가 있을 때 어느 정도 차이가 나야 그 어떠한 유전자 쌍을 질병 특이적 유전자 쌍으로 본다고 결정내릴 수 있을지에 대한 수치를 의미한다.
선택부(220)는 추출부(210)에 의해 추출된 질병 특이적 유전자들 중 ‘상관도가 최상인 유전자 쌍’인 ‘최상 질병 특이적 유전자 쌍(top gene pairs)’을 선택한다. 이러한 ‘최상 질병 특이적 유전자 쌍’은 추출부(210)에 의해 추출된 질병 특이적 유전자들의 관계를 나타낸 가중치 그래프(weighted graph) 중‘허브 노드(herb node)에 해당하는 유전자’ 및 ‘그 허브 노드에 가장 높은 가중치의 간선으로 연결된 노드에 해당하는 유전자’를 의미한다. 그 추출된 질병 특이적 유전자들 각각이 노드에 해당하며, 허브 노드란 그 추출된 질병 특이적 유전자들 즉 노드들 중 가장 많은 간선이 연결된 노드를 의미하고, 그러한 노드와 노드를 연결하는 간선(edge)의 가중치(weight)란 그 추출된 질병 특이적 유전자 쌍마다 결정된 값이며 구체적으로는 정상 클래스에서의 각 유전자 쌍의 상관계수와 질병 클래스에서의 각 유전자 쌍의 상관계수간의 차이를 의미한다. 선택부(220)가 선택하는 최상 질병 특이적 유전자 쌍은 기 설정된 개수(K)이다. 예컨대, 선택부(220)는 추출부(210)에 의해 추출된 질병 특이적 유전자들 즉 노드들 중 가장 많은 간선이 연결된 ‘제1 허브 노드’에 해당하는 유전자와 ‘그 제1 허브 노드에 가장 높은 가중치의 간선으로 연결된 노드’에 해당하는 유전자라는 하나의 ‘최상 질병 특이적 유전자 쌍’과 그 노드들 중 두 번째로 많은 간선이 연결된 ‘제2 허브 노드’와 ‘그 제2 허브 노드에 가장 높은 가중치의 간선으로 연결된 노드’에 해당하는 유전자라는 또 하나의 ‘최상 질병 특이적 유전자 쌍’ 이렇게 두 개의 ‘최상 질병 특이적 유전자 쌍들’을 선택한다. ‘최상 질병 특이적 유전자 쌍’은 본 발명에서 분류자(classifier)로서 기능한다.
레이블 예측부(230)는 선택부(220)에 의해 선택된 최상 질병 특이적 유전자 쌍을 이용하여 소정 테스트 샘플의 클래스 레이블을 예측한다. 즉, 레이블 예측부(230)는 최상 질병 특이적 유전자 쌍을 이용하여 어떠한 테스트 샘플의 클래스 레이블이 정상 클래스인지 아니면 질병 클래스인지 여부를 예측한다.
이러한 레이블 예측부(230)는 크게 다음의 두 상황 중 한 가지 상황에서 동작할 수 있다.
첫 번째 상황은, 테스트 샘플이 마이크로어레이 데이터상의 샘플들에 속해있고 테스트 샘플의 클래스 레이블이 정상 클래스인지 아니면 질병 클래스인지의 여부를 이미 알고 있는 상황하에서, 레이블 예측부(230)가 N-fold cross validation을 수행하며 선택부(220)에 의해 선택된 최상 질병 특이적 유전자 쌍에 대해 소정 파라미터 값하에서 테스트 샘플의 클래스 레이블을 예측하고, 이러한 예측의 정확도가 기 설정된 기준을 만족하지 못한다면 기준을 만족할 때까지 그 파라미터 값을 갱신하고 추출부(210) 내지 레이블 예측부(230)가 재차 동작한다.
여기서, 소정 파라미터에는 앞서 언급한 제1 임계치, 앞서 언급한 제2 임계치와, 선택부(220)에 의해 선택되는 ‘최상 질병 특이적 유전자 쌍’의 개수(앞서 언급한 K)를 포함한다.
N-fold cross validation이란 마이크로 어레이 데이터상의 샘플들(총 M개(단, M은 2이상의 정수)) 중 임의의 N개의 샘플들을 테스트 샘플들로서 선택하고(물론 이 때 그 N개의 샘플들 각각의 클래스 레이블은 실험자가 알고 있다), 레이블 예측부(230)는 그 M개의 샘플들에서 그 N개의 샘플들을 제외한 나머지 샘플들에 대한 최상 질병 특이적 유전자 쌍을 이용하여 그 N개의 샘플들 각각의 클래스 레이블을 예측함을 의미한다.
구체적으로 설명하면, 레이블 예측부(230)는 ‘테스트 샘플(known sample)을 제외한 복수의 샘플들(known samples)’ 및 ‘최상 질병 특이적 유전자 쌍’에 관한 “정상 클래스에서의 상관도”와 ‘테스트 샘플을 포함한 복수의 샘플들(known samples)’ 및 ‘최상 질병 특이적 유전자 쌍’에 관한 “정상 클래스에서의 상관도”간의 차이(관도단락에서 이하에 제1 차이’라 명명함)와, ‘테스트 샘플을 제외한 복수의 샘플들’ 및 ‘최상 질병 특이적 유전자 쌍’에 관한 “질병 클래스에서의 상관도”와, ‘테스트 샘플을 포함한 복수의 샘플들’ 및 ‘최상 질병 특이적 유전자 쌍’에 관한 “질병 클래스에서의 상관도”간의 차이(관도단락에서 이하에 제2 차이’라 명명함)를 고려하여 그 테스트 샘플의 클래스 레이블을 예측한다. 보다 구체적으로, 레이블 예측부(230)는 제1 차이가 제2 차이를 초과하는 경우, 테스트 샘플의 클래스 레이블을 질병 클래스로서 결정하고, 즉, 테스트 샘플의 클래스 레이블이 질병 클래스라 예측하고, 제2 차이가 제1 차이를 초과하는 경우, 테스트 샘플의 클래스 레이블을 정상 클래스로서 결정 즉, 테스트 샘플의 클래스 레이블이 정상 클래스라 예측한다.
첫 번째 상황의 경우 테스트 샘플들 각각은 미지의(unknown) 샘플이 아니라 이미 클래스 레이블에 대한 정보도 알고 있는 샘플이므로 N-fold cross validation에 따른 레이블 예측부(230)에 의해 예측된 클래스 레이블의 정확성 여부는 분명히 알 수 있고, 앞서 언급한 바와 같이 사용자가 설정한 파라미터 범위들 모두에 대해 추출부(210) 내지 레이블 예측부(230)가 반복 동작할 수 있다. 이러한 반복 동작을 통해 추출된 가장 높은 (예측) 정확도를 가지는 파라미터 범위를 이하 ‘최적의 파라미터 값’이라 명명한다.
한편, 두 번째 상황은, 테스트 샘플이 마이크로어레이 데이터상의 샘플들에 속해있는 샘플이 아니라 미지의(unknown) 샘플인 상황, 즉, 테스트 샘플의 클래스 레이블이 정상 클래스인지 아니면 질병 클래스인지의 여부를 전혀 알지 못하는 상황하에서, 레이블 예측부(230)가 테스트 샘플의 클래스 레이블을 예측하는 것이다.
구체적으로 설명하면 추출부(210)는 ‘최적의 파라미터 값’하에서 동작하며 선택부(220)는 추출부(210)에 의해 추출된 질병 특이적 유전자들 중에서 최상 질병 특이적 유전자 쌍을 선택하고 레이블 예측부(230)는 ‘마이크로어레이 데이터상의 복수의 샘플들(known samples)’ 및 ‘최상 질병 특이적 유전자 쌍’에 관한 “정상 클래스에서의 상관도”와 ‘그 복수의 샘플들(known samples)에 테스트 샘플(unknown sample)이 부가된 결과’ 및 ‘최상 질병 특이적 유전자 쌍’에 관한 “정상 클래스에서의 상관도” 간의 차이(본 단락에서 이하, ‘제3 차이’라 명명함), 및 ‘복수의 샘플들’ 및 ‘최상 질병 특이적 유전자 쌍’에 관한 “질병 클래스에서의 상관도”와, ‘복수의 샘플들에 테스트 샘플이 부가된 결과’ 및 ‘최상 질병 특이적 유전자 쌍’에 관한 “질병 클래스에서의 상관도” 간의 차이(본 단락에서 이하, ‘제4 차이’라 명명함)를 고려하여 테스트 샘플의 클래스 레이블을 예측한다. 보다 구체적으로, 레이블 예측부(230)는 제3 차이가 제4 차이를 초과하는 경우, 테스트 샘플의 클래스 레이블을 질병 클래스로서 결정하고, 즉, 테스트 샘플의 클래스 레이블이 질병 클래스라 예측하고, 제4 차이가 제3 차이를 초과하는 경우, 테스트 샘플의 클래스 레이블을 정상 클래스로서 결정 즉, 테스트 샘플의 클래스 레이블이 정상 클래스라 예측한다.
도 3은 도 2에 도시된 장치 특히, 레이블 예측부(230)를 설명하기 위한 마이크로어레이 데이터의 일 례를 나타내는 도면이다. 도 3에 도시된 바에서, 는 정상 클래스에 속한 i번째 샘플(단, i, p는 1≤i≤p인 정수)을 의미하고, 는 질병 클래스에 속한 j번째 샘플(단, j, q는 1≤j≤q인 정수)을 의미하고, 는 r번째 유전자(단, r, n은 1≤r≤n인 정수)를 의미한다. 은 정상 클래스의 i번째 샘플 및 r번째 유전자에서의 발현값을 의미하고, 은 질병 클래스의 j번째 샘플 및 r번째 유전자에서의 발현값을 의미한다. 는 테스트 샘플의 r번째 유전자의 발현값을 의미한다.
도 3을 이용하여 레이블 예측부(230)의 동작을 설명하면 레이블 예측부는 질병 특이적 유전자 쌍들 각각마다 제3 차이, 제4 차이를 계산하며, 제3 차이들의 합이 제4 차이들의 합보다 크다면 테스트 샘플의 클래스 레이블이 질병 클래스라 예측하고 반면 제4 차이들의 합이 제3 차이들의 합보다 크다면 테스트 샘플의 클래스 레이블이 정상 클래스라 예측한다. 이는 다음의 수학식 1, 2로 표현될 수 있다.
[수학식 1]
Figure 112010011126972-pat00001
여기서, 1번째 유전자와 2번째 유전자가 질병 특이적 유전자 쌍이며, pn(g1,g2)는 정상 클래스에 대한 p개 샘플들(known samples)에 관한 그 1번째 유전자와 2번째 유전자간의 Spearman's correlation coefficient를 의미하고, pt(g1,g2)는 질병 클래스에 대한 q개 샘플들(known samples)에 관한 그 1번째 유전자와 2번째 유전자간의 Spearman's correlation coefficient를 의미하고, p'n(g1,g2)는 정상 클래스에 대한 ‘p개 샘플들(known samples) 및 테스트 샘플(unknown sample)’에 관한 그 1번째 유전자와 2번째 유전자간의 Spearman's correlation coefficient를 의미하고, p't(g1,g2)는 질병 클래스에 대한 ‘q개 샘플들(known samples) 및 테스트 샘플(unknown sample)’에 관한 그 1번째 유전자와 2번째 유전자간의 Spearman's correlation coefficient를 의미한다.
[수학식 2]
Figure 112010011126972-pat00002
여기서, Ndiff는 질병 특이적 유전자 쌍들 각각마다의 (앞서 언급한) 제3차이들의 합을 의미하고, Tdiff는 질병 특이적 유전자 쌍들 각각마다의 (앞서 언급한) 제4차이들의 합을 의미한다.
도 4는 본 발명의 적어도 일 실시예에 따른 클래스 레이블 예측 방법을 나타내는 플로우차트이다.
본 발명의 적어도 일 실시예에 따른 클래스 레이블 예측장치는 마이크로어레이 데이터상의 유전자 쌍들 중, 정상 클래스에서의 상관 계수와 질병 클래스에서의 상관 계수를 고려하여 ‘질병 특이적 유전자 쌍(cancer specific gene pairs)’을 추출한다(제410 단계).
제410 단계 후에, 본 발명의 적어도 일 실시예에 따른 클래스 레이블 예측장치는 제410 단계에서 추출된 질병 특이적 유전자들 중 상관 계수가 최상인 최상 질병 특이적 유전자 쌍을 선택한다(제420 단계). 여기서, 최상 질병 특이적 유전자 쌍은 허브 노드에 해당하는 유전자와 그 허브 노드에 가장 높은 가중치의 간선으로 연결된 노드에 해당하는 유전자를 의미한다.
제420 단계 후에, 본 발명의 적어도 일 실시예에 따른 클래스 레이블 예측장치는 제420 단계에서 선택된 최상 질병 특이적 유전자 쌍을 이용하여, 테스트 샘플의 클래스 레이블을 예측한다(제430 단계). 제430 단계에서, 본 발명의 적어도 일 실시예에 따른 클래스 레이블 예측장치는 N-fold cross validation(도 4의 경우 N=10이나 이는 설정하기 나름임)에 따른 레이블 예측을 수행한다. 즉 제430 단계에서 본 발명의 적어도 일 실시예에 따른 클래스 레이블 예측장치는 ‘10개의 테스트 샘플(known sample)들을 제외한 복수의 샘플들(known samples)’ 및 ‘최상 질병 특이적 유전자 쌍’에 관한 “정상 클래스에서의 상관 계수”와 ‘그 10개의 테스트 샘플들 중 어떤 한 테스트 샘플을 포함한 복수의 샘플들(known samples)’ 및 ‘최상 질병 특이적 유전자 쌍’에 관한 “정상 클래스에서의 상관 계수”간의 제1 차이와, ‘10개의 테스트 샘플을 제외한 복수의 샘플들’ 및 ‘최상 질병 특이적 유전자 쌍’에 관한 “질병 클래스에서의 상관 계수”와, ‘그 어떤 한 테스트 샘플을 포함한 복수의 샘플들’ 및 ‘최상 질병 특이적 유전자 쌍’에 관한 “질병 클래스에서의 상관 계수”간의 제2 차이를 고려하여 그 어떤 한 테스트 샘플의 클래스 레이블을 예측한다. 보다 구체적으로 본 발명의 적어도 일 실시예에 따른 클래스 레이블 예측장치는 제1 차이가 제2 차이를 초과하는 경우 그 어떤 한 테스트 샘플의 클래스 레이블을 질병 클래스로서 결정하고, 반면 제2 차이가 제1 차이를 초과하는 경우 그 어떤 한 테스트 샘플의 클래스 레이블을 정상 클래스로서 결정한다.
앞서 언급한 제410 단계 내지 제430 단계는, 앞서 언급한 사용자가 설정한 파라미터 범위들 모두에 대해 반복 수행된다(제440 단계 참조).
도 5는 본 발명의 적어도 일 실시예에 따른 클래스 레이블 예측 방법을 나타내는 또 다른 플로우차트이다.
본 발명의 적어도 일 실시예에 따른 클래스 레이블 예측장치는 최적의 파라미터 값 하에서 정상 클래스에서의 상관 계수와 질병 클래스에서의 상관 계수를 고려하여, 마이크로어레이 데이터상의 유전자 쌍들 중 질병 특이적 유전자 쌍(cancer specific gene pairs)을 추출한다(제510 단계).
제510 단계 후에, 본 발명의 적어도 일 실시예에 따른 클래스 레이블 예측장치는 제510 단계에서 추출된 질병 특이적 유전자들 중 상관 계수가 최상인 최상 질병 특이적 유전자 쌍을 선택한다(제520 단계). 여기서, 최상 질병 특이적 유전자 쌍은 허브 노드에 해당하는 유전자와 그 허브 노드에 가장 높은 가중치의 간선으로 연결된 노드에 해당하는 유전자를 의미한다.
제520 단계 후에, 본 발명의 적어도 일 실시예에 따른 클래스 레이블 예측장치는 제520 단계에서 선택된 최상 질병 특이적 유전자 쌍을 이용하여, 미지의 테스트 샘플의 클래스 레이블을 예측한다(제530 단계). 제530 단계에서, 본 발명의 적어도 일 실시예에 따른 클래스 레이블 예측장치는 ‘마이크로어레이 데이터상의 복수의 샘플들(known samples)’ 및 ‘최상 질병 특이적 유전자 쌍’에 관한 “정상 클래스에서의 상관도”와 ‘그 복수의 샘플들(known samples)에 테스트 샘플(unknown sample)이 부가된 결과’ 및 ‘최상 질병 특이적 유전자 쌍’에 관한 “정상 클래스에서의 상관도” 간의 제3 차이, 및 ‘복수의 샘플들’ 및 ‘최상 질병 특이적 유전자 쌍’에 관한 “질병 클래스에서의 상관도”와, ‘복수의 샘플들에 그 테스트 샘플이 부가된 결과’ 및 ‘최상 질병 특이적 유전자 쌍’에 관한 “질병 클래스에서의 상관도” 간의 제4차이를 고려하여 그 테스트 샘플의 클래스 레이블을 예측한다. 보다 구체적으로, 본 발명의 적어도 일 실시예에 따른 클래스 레이블 예측장치는 제3 차이가 제4 차이를 초과하는 경우 그 테스트 샘플의 클래스 레이블을 질병 클래스로서 결정하고 반면 제4 차이가 제3 차이를 초과하는 경우 그 테스트 샘플의 클래스 레이블을 정상 클래스로서 결정한다.
이상에서 언급된 본 발명에 의한 클래스 레이블 예측방법을 컴퓨터에서 실행시키기 위한 프로그램은 컴퓨터로 읽을 수 있는 기록매체에 저장될 수 있다.
여기서, 컴퓨터로 읽을 수 있는 기록매체는 마그네틱 저장매체(예를 들면, 롬(ROM), 플로피 디스크, 하드 디스크 등), 및 광학적 판독 매체(예를 들면, 시디롬(CD-ROM), 디브이디(DVD: Digital Versatile Disc))와 같은 저장매체를 포함한다.
이제까지 본 발명을 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로, 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점들은 본 발명에 포함된 것으로 해석되어야 할 것이다.

Claims (24)

  1. 유전체의 유전자들 각각 및 복수의 샘플들 각각마다 발현값을 나타내는 마이
    크로어레이 데이터상의 유전자 쌍들 중, 정상 또는 질병 클래스에서의 상관여부의 정도를 정의하는 정상 클래스에서의 상관도와 질병 클래스에서의 상관도를 고려하여 정상 또는 질병 샘플로의 분류를 위한 정보를 정의하는 클래스 레이블의 예측에 있어 유의미한 질병 특이적 유전자 쌍을 추출하는 추출부;
    상기 추출된 질병 특이적 유전자들 중 상기 상관도가 최상인 최상 질병 특이적 유전자 쌍을 선택하는 선택부; 및
    상기 선택된 최상 질병 특이적 유전자 쌍을 이용하여 소정 테스트 샘플의 클래스 레이블을 예측하는 레이블 예측부를 포함하는 것을 특징으로 하는 클래스 레이블 예측장치.
  2. 제1 항에 있어서, 상기 추출부는
    상기 마이크로어레이 데이터상의 가능한 유전자 쌍들 각각마다 상기 상관도를 측정하여 수치화한 상기 정상 클래스에서의 상관 계수와 상기 질병 클래스에서의 상관 계수를 대비하고, 대비 결과에 따라 상기 유전자 쌍을 상기 질병 특이적 유전자 쌍으로서 선택적으로 결정하는 것을 특징으로 하는 클래스 레이블 예측장치.
  3. 제1 항에 있어서, 상기 추출부는
    상기 마이크로어레이 데이터상의 가능한 유전자 쌍들 각각마다 상기 상관도를 측정하여 수치화한 상기 정상 클래스에서의 상관 계수와 상기 질병 클래스에서의 상관 계수가 절대값이 미리 결정된 제1 임계치를 초과하면서 각각의 양 또는 음의 부호가 다른 경우 또는 양 자 중 일방의 절대값만 상기 제1임계치를 초과하고 양 자의 차이가 미리 결정된 제2 임계치를 초과하는 경우에 해당하는지 판단하고, 판단 결과에 따라 상기 유전자 쌍을 상기 질병 특이적 유전자 쌍으로서 선택적으로 결정하는 것을 특징으로 하는 클래스 레이블 예측장치.
  4. 제1 항에 있어서, 상기 선택부는
    상기 추출된 질병 특이적 유전자들의 관계를 나타낸 가중치 그래프(weighted graph) 중 가장 많은 간선(edge)이 연결된 허브 노드에 해당하는 유전자 및 상기 허브 노드에 가장 높은 가중치의 간선으로 연결된 노드에 해당하는 유전자를 상기 최상 질병 특이적 유전자 쌍으로서 선택하는 것을 특징으로 하는 클래스 레이블 예측장치.
  5. 제4 항에 있어서,
    상기 가중치는 상기 추출된 질병 특이적 유전자 쌍마다 결정된 값이며 상기 정상 클래스에서의 상기 각 유전자 쌍의 상관계수와 상기 질병 클래스에서의 상기 각 유전자 쌍의 상관계수의 차이인 것을 특징으로 하는 클래스 레이블 예측장치.
  6. 제1 항에 있어서,
    상기 테스트 샘플은 상기 복수의 샘플들에 속하며,
    상기 레이블 예측부는
    상기 테스트 샘플을 제외한 복수의 샘플들 및 상기 최상 질병 특이적 유전자 쌍에 관한 상기 정상 클래스에서의 상관도와, 상기 테스트 샘플을 포함한 복수의 샘플들 및 상기 최상 질병 특이적 유전자 쌍에 관한 상기 정상 클래스에서의 상관도간의 차이, 및
    상기 테스트 샘플을 제외한 복수의 샘플들 및 상기 최상 질병 특이적 유전자 쌍에 관한 상기 질병 클래스에서의 상관도와, 상기 테스트 샘플을 포함한 복수의 샘플들 및 상기 최상 질병 특이적 유전자 쌍에 관한 상기 질병 클래스에서의 상관도간의 차이를 고려하여 상기 테스트 샘플의 클래스 레이블을 예측하는 클래스 레이블 예측장치.
  7. 제6 항에 있어서, 상기 추출부, 상기 선택부, 및 상기 레이블 예측부는
    정확한 상기 클래스 레이블의 예측을 위해 사용자에 의해 설정된 파라미터 범위들 모두에 대해 반복 동작하는 것을 특징으로 하는 클래스 레이블 예측장치.
  8. 제7 항에 있어서, 상기 파라미터는
    상기 마이크로어레이 데이터상의 유전자 쌍 사이의 강한 상관 여부를 구분짓는 미리 결정된 제1 임계치, 상기 정상 클래스에서의 상관도와 상기 질병 클래스에서의 상관도간의 유의미성 차이 유무 여부를 결정짓는 미리 결정된 제2 임계치, 정상 또는 질병 클래스로 분류하는 분류자로 구성되는 최상 질병 특이적 유전자 쌍의 개수를 포함하는 것을 특징으로 하는 클래스 레이블 예측장치.
  9. 제1 항에 있어서,
    상기 테스트 샘플은 상기 복수의 샘플들에 포함되지 않은 미지의 샘플이며,
    상기 레이블 예측부는
    상기 복수의 샘플들 및 상기 최상 질병 특이적 유전자 쌍에 관한 상기 정상 클래스에서의 상관도와, 상기 복수의 샘플들에 상기 테스트 샘플이 부가된 결과 및 상기 최상 질병 특이적 유전자 쌍에 관한 상기 정상 클래스에서의 상관도 간의 제1 차이, 및
    상기 복수의 샘플들 및 상기 최상 질병 특이적 유전자 쌍에 관한 상기 질병 클래스에서의 상관도와, 상기 복수의 샘플들에 상기 테스트 샘플이 부가된 결과 및 상기 최상 질병 특이적 유전자 쌍에 관한 상기 질병 클래스에서의 상관도 간의 제2 차이를 고려하여 상기 테스트 샘플의 클래스 레이블을 예측하는 클래스 레이블 예측장치.
  10. 제9 항에 있어서, 상기 레이블 예측부는
    상기 제1 차이가 상기 제2 차이를 초과하는 경우, 상기 테스트 샘플의 클래스 레이블을 질병 클래스로서 결정하는 것을 특징으로 하는 클래스 레이블 예측장치.
  11. 제9 항에 있어서, 상기 레이블 예측부는
    상기 제2 차이가 상기 제1 차이를 초과하는 경우, 상기 테스트 샘플의 클래스 레이블을 정상 클래스로서 결정하는 것을 특징으로 하는 클래스 레이블 예측장치.
  12. 제1 항에 있어서, 상기 질병은 특정 암인 것을 특징으로 하는 클래스 레이블 예측장치.
  13. 유전체의 유전자들 각각 및 복수의 샘플들 각각마다 발현값을 나타내는 마이크로어레이 데이터상의 유전자 쌍들 중, 정상 또는 질병 클래스에서의 상관여부의 정도를 정의하는 정상 클래스에서의 상관도와 질병 클래스에서의 상관도를 고려하여 정상 또는 질병 샘플로의 분류를 위한 정보를 정의하는 클래스 레이블의 예측에 있어 유의미한 질병 특이적 유전자 쌍을 추출하는 단계;
    상기 추출된 질병 특이적 유전자들 중 상기 상관도가 최상인 최상 질병 특이적 유전자 쌍을 선택하는 단계; 및
    상기 선택된 최상 질병 특이적 유전자 쌍을 이용하여 소정 테스트 샘플의 클래스 레이블을 예측하는 단계를 포함하는 것을 특징으로 하는 클래스 레이블 예측방법.
  14. 제13 항에 있어서, 상기 추출하는 단계는
    상기 마이크로어레이 데이터상의 가능한 유전자 쌍들 각각마다 상기 상관도를 측정하여 수치화한 상기 정상 클래스에서의 상관 계수와 상기 질병 클래스에서의 상관 계수를 대비하고, 대비 결과에 따라 상기 유전자 쌍을 상기 질병 특이적 유전자 쌍으로서 선택적으로 결정하는 것을 특징으로 하는 클래스 레이블 예측방법.
  15. 제13 항에 있어서, 상기 추출하는 단계는
    상기 마이크로어레이 데이터상의 가능한 유전자 쌍들 각각마다 상기 상관도를 측정하여 수치화한 상기 정상 클래스에서의 상관 계수와 상기 질병 클래스에서의 상관 계수가 절대값이 미리 결정된 제1 임계치를 초과하면서 각각의 양 또는 음의 부호가 다른 경우 또는, 양 자 중 일방의 절대값만 상기 제1 임계치를 초과하고 양 자의 차이가 미리 결정된 제2 임계치를 초과하는 경우에 해당하는지 판단하고, 판단 결과에 따라 상기 유전자 쌍을 상기 질병 특이적 유전자 쌍으로서 선택적으로 결정하는 것을 특징으로 하는 클래스 레이블 예측방법.
  16. 제13 항에 있어서, 상기 선택하는 단계는
    상기 추출된 질병 특이적 유전자들의 관계를 나타낸 가중치 그래프(weighted graph) 중 가장 많은 간선(edge)이 연결된 허브 노드에 해당하는 유전자 및 상기 허브 노드에 가장 높은 가중치의 간선으로 연결된 노드에 해당하는 유전자를 상기 최상 질병 특이적 유전자 쌍으로서 선택하는 것을 특징으로 하는 클래스 레이블 예측방법.
  17. 제16 항에 있어서,
    상기 가중치는 상기 추출된 질병 특이적 유전자 쌍마다 결정된 값이며 상기 정상 클래스에서의 상기 각 유전자 쌍의 상관계수와 상기 질병 클래스에서의 상기 각 유전자 쌍의 상관계수의 차이인 것을 특징으로 하는 클래스 레이블 예측방법.
  18. 제13 항에 있어서,
    상기 테스트 샘플은 상기 복수의 샘플들에 속하며,
    상기 예측하는 단계는
    상기 테스트 샘플을 제외한 복수의 샘플들 및 상기 최상 질병 특이적 유전자 쌍에 관한 상기 정상 클래스에서의 상관도와, 상기 테스트 샘플을 포함한 복수의 샘플들 및 상기 최상 질병 특이적 유전자 쌍에 관한 상기 정상 클래스에서의 상관도간의 차이, 및
    상기 테스트 샘플을 제외한 복수의 샘플들 및 상기 최상 질병 특이적 유전자 쌍에 관한 상기 질병 클래스에서의 상관도와, 상기 테스트 샘플을 포함한 복수의 샘플들 및 상기 최상 질병 특이적 유전자 쌍에 관한 상기 질병 클래스에서의 상관도간의 차이를 고려하여 상기 테스트 샘플의 클래스 레이블을 예측하는 클래스 레이블 예측방법.
  19. 제18 항에 있어서, 상기 추출하는 단계 내지 상기 예측하는 단계는
    정확한 상기 클래스 레이블의 예측을 위해 사용자가 설정한 파라미터 범위들 모두에 대해 반복 수행되는 것을 특징으로 하는 클래스 레이블 예측방법.
  20. 제19 항에 있어서, 상기 파라미터는
    상기 마이크로어레이 데이터상의 유전자 쌍 사이의 강한 상관 여부를 구분 짓는 미리 결정된 제1 임계치, 상기 정상 클래스에서의 상관도와 상기 질병 클래스에서의 상관도간의 유의미성 차이 유무 여부를 결정짓는 미리 결정된 제2 임계치, 상기 최상 질병 특이적 유전자 쌍의 개수를 포함하는 것을 특징으로 하는 클래스 레이블 예측방법.
  21. 제13 항에 있어서,
    상기 테스트 샘플은 상기 복수의 샘플들에 포함되지 않은 미지의 샘플이며,
    상기 예측하는 단계는
    상기 복수의 샘플들 및 상기 최상 질병 특이적 유전자 쌍에 관한 상기 정상 클래스에서의 상관도와, 상기 복수의 샘플들에 상기 테스트 샘플이 부가된 결과 및 상기 최상 질병 특이적 유전자 쌍에 관한 상기 정상 클래스에서의 상관도 간의 제1 차이, 및
    상기 복수의 샘플들 및 상기 최상 질병 특이적 유전자 쌍에 관한 상기 질병 클래스에서의 상관도와, 상기 복수의 샘플들에 상기 테스트 샘플이 부가된 결과 및 상기 최상 질병 특이적 유전자 쌍에 관한 상기 질병 클래스에서의 상관도 간의 제2 차이를 고려하여 상기 테스트 샘플의 클래스 레이블을 예측하는 클래스 레이블 예측방법.
  22. 제21 항에 있어서, 상기 예측하는 단계는
    상기 제1 차이가 상기 제2 차이를 초과하는 경우, 상기 테스트 샘플의 클래스 레이블을 질병 클래스로서 결정하는 것을 특징으로 하는 클래스 레이블 예측방법.
  23. 제21 항에 있어서, 상기 예측하는 단계는
    상기 제2 차이가 상기 제1 차이를 초과하는 경우, 상기 테스트 샘플의 클래스 레이블을 정상 클래스로서 결정하는 것을 특징으로 하는 클래스 레이블 예측방법.
  24. 제13 항 내지 제23 항 중 어느 한 항의 방법을 컴퓨터에서 실행시키기 위한 컴퓨터 프로그램을 저장한 컴퓨터로 읽을 수 있는 기록매체.
KR1020100015332A 2010-02-19 2010-02-19 클래스 레이블 예측 장치 및 방법 KR101172490B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020100015332A KR101172490B1 (ko) 2010-02-19 2010-02-19 클래스 레이블 예측 장치 및 방법
US12/712,161 US20110207618A1 (en) 2010-02-19 2010-02-24 Class label predicting apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020100015332A KR101172490B1 (ko) 2010-02-19 2010-02-19 클래스 레이블 예측 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20110095716A KR20110095716A (ko) 2011-08-25
KR101172490B1 true KR101172490B1 (ko) 2012-08-10

Family

ID=44476995

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100015332A KR101172490B1 (ko) 2010-02-19 2010-02-19 클래스 레이블 예측 장치 및 방법

Country Status (2)

Country Link
US (1) US20110207618A1 (ko)
KR (1) KR101172490B1 (ko)

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008151110A2 (en) * 2007-06-01 2008-12-11 The University Of North Carolina At Chapel Hill Molecular diagnosis and typing of lung cancer variants

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Bioinformatics, VOL. 25, number 18, page 2430~2431, September, 2009

Also Published As

Publication number Publication date
US20110207618A1 (en) 2011-08-25
KR20110095716A (ko) 2011-08-25

Similar Documents

Publication Publication Date Title
JP6839342B2 (ja) 情報処理装置、情報処理方法およびプログラム
Vlasblom et al. Markov clustering versus affinity propagation for the partitioning of protein interaction graphs
Koo et al. A review for detecting gene-gene interactions using machine learning methods in genetic epidemiology
RU2517286C2 (ru) Классификация данных выборок
Elkan Evaluating classifiers
KR102351306B1 (ko) 질환 연관 유전자 변이 분석을 통한 질환별 위험 유전자 변이 정보 생성 장치 및 그 방법
CN101923604A (zh) 基于邻域粗糙集的加权knn肿瘤基因表达谱分类方法
Patel et al. Knowledge base and neural network approach for protein secondary structure prediction
KR20190125840A (ko) 질병 관련 유전자 순위정보 제공 방법
Zhao et al. AUC-based biomarker ensemble with an application on gene scores predicting low bone mineral density
Li et al. MT-MAG: Accurate and interpretable machine learning for complete or partial taxonomic assignments of metagenomeassembled genomes
KR101771042B1 (ko) 질병 관련 유전자 탐색 장치 및 그 방법
KR102543757B1 (ko) 이종 플랫폼의 dna 메틸레이션 데이터를 이용한 암의 예후 예측용 바이오마커 발굴 방법 및 장치
KR101172490B1 (ko) 클래스 레이블 예측 장치 및 방법
KR101864986B1 (ko) 유전체 정보 기반 질병 예측 방법 및 장치
KR102309002B1 (ko) 환자별 유전자 특성에 기초하여 암의 예후 예측에 활용할 바이오 마커를 선정하는 전자 장치 및 그 동작 방법
Eng et al. Discrete mixture modeling to address genetic heterogeneity in time-to-event regression
Nieto Ramos et al. Bayesian inference for fitting cardiac models to experiments: estimating parameter distributions using Hamiltonian Monte Carlo and approximate Bayesian computation
JP2006092478A (ja) 遺伝子発現プロファイル検索装置、遺伝子発現プロファイル検索方法およびプログラム
Moghimi et al. Two new methods for DNA splice site prediction based on neuro-fuzzy network and clustering
KR20210031094A (ko) 트리 기반 이상치 탐지 장치 및 방법, 컴퓨터 프로그램
KR102228701B1 (ko) 의존관계망 차별성에 대한 지식 기반 평가 방법 및 시스템
KR101624014B1 (ko) 퍼지 신경망을 이용한 유전자 선택 방법 및 시스템
Šliogeris et al. Inferring probabilistic boolean networks from steady-state gene data samples
US20210342717A1 (en) Device and method for determining a knowledge graph

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20150611

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20160805

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee