KR100835296B1

KR100835296B1 - 암 예측 유전자세트 선정방법

Info

Publication number: KR100835296B1
Application number: KR1020060116255A
Authority: KR
Inventors: 김선영; 김용성
Original assignee: 한국생명공학연구원
Priority date: 2006-11-23
Filing date: 2006-11-23
Publication date: 2008-06-09
Also published as: KR20080046803A

Abstract

본 발명은 암 예측 유전자세트 선정방법에 관한 것으로서, 특정 유전자를 5개 이상 포함하는 세트를 3000개 이상 미리 준비하는 단계; 특정 표현형에 대한 2개 이상의 마이크로어레이 유전자 발현 세트와 비교하여서 특정유전자 세트 각각과의 상관관계를 계산하는 단계; 상기 특정 표현형과 높은 상관관계를 보이는 유전자 세트를 선정하는 단계를 포함하는 것을 특징으로 하는 다수의 특정유전자세트로부터 표현형 예측 유전자세트 선정방법에 관한 것이다. 본 발명에 따른 방법은 유방암, 임파종, 신경교종, 백혈병, 폐암 뿐 아니라 다른 종류의 암들에서도 예후 판단 유전자들을 결정하는 데 동일하게 적용될 수 있는 유용하고도 간단한 방법이다.

암, 예후 판단, 유전자 조합, 마이크로어레이

Description

암 예측 유전자세트 선정방법{Methods of Selecting Gene Set Predicting Cancer Phenotype}

도 1은 유방암을 두 그룹으로 분류하기 위한 카플랜-메이어(Kaplan-Meier) 생존 곡선. 각 데이터 세트에서, 세포주기를 통한 경과조절(Regulation of progression through cell cycle) 유전자 세트의 유전자 발현 패턴에 기초하여 환자들을 두 그룹으로 분류하였고 생존율을 나타내었다. 로그 순위 검정법(log-rank test)을 사용하여 두 그룹 사이에서 나타나는 생존율 차이의 통계적 유의도를 구하였다.

도 2는 유방암을 두 그룹으로 분류하기 위한 카플랜-메이어(Kaplan-Meier) 재발 곡선. 각 데이터 세트에서, 세포주기를 통한 경과조절(Regulation of progression through cell cycle) 유전자 세트의 유전자 발현 패턴에 기초하여 환자들을 두 그룹으로 분류하였고 재발율을 나타내었다.

도 3은 임파종(lymphoma)을 두 그룹으로 분류하기 위한 카플랜-메이어(Kaplan-Meier) 생존 곡선. 각 데이터 세트에서, 세포막 융합(membrane fusion) 유전자 세트의 유전자 발현 패턴에 기초하여 환자들을 두 그룹으로 분류하였고 생존율을 나타냈다.

도 4는 신경교종(glioma)을 두 그룹으로 분류하기 위한 카플랜-메이어(Kaplan-Meier) 생존 곡선. 각 데이터 세트에서, 단일 가닥 DNA 결합(single-stranded DNA binding) 유전자 세트의 유전자 발현 패턴에 기초하여 환자들을 두 그룹으로 분류하였고 생존율을 나타냈다.

도 5는 백혈병을 두 그룹으로 분류하기 위한 카플랜-메이어(Kaplan-Meier) 생존 곡선. 각 데이터 세트에서, 항세포사멸(anti-apoptosis) 유전자 세트의 유전자 발현 패턴에 기초하여 환자들을 두 그룹으로 분류하였고 생존율을 나타냈다.

도 6은 폐암을 두 그룹으로 분류하기 위한 카플랜-메이어(Kaplan-Meier) 생존 곡선. 각 데이터 세트에서, 글리코스핑고리피드 합성(glycosphingolipid biosynthesis) 유전자 세트의 유전자 발현 패턴에 기초하여 환자들을 두 그룹으로 분류하였고 생존율을 나타냈다.

암 환자의 예후 판단은 수술 이후 환자의 치료 과정을 선택할 때 중요하므로, 정확히 예후를 판단할 수 있는 방법을 개발하기 위한 많은 연구가 이루어져 왔다. 전통적으로 예후 판단은 암의 형태적, 조직학적 특성에 근거하여 이루어져 왔다. 암의 크기, 림프절로의 전이 여부, 다른 기관으로의 전이 여부, 조직의 분화도 등이 암의 진행 단계와 암 환자의 예후를 결정하는 데 주로 사용되어 온 조직학적 특징들이다. 그러나 위에 언급한 형태적, 조직학적 특성은 실제 예후 판단에 있어서 그다지 정확하게 작용하지 못하는 문제점이 있다. 그 이유로는 첫째, 임상 의사마다 판별하는 데 차이가 있고, 둘째, 형태적, 조직학적 특성은 비슷해도 전혀 다른 예후를 보이는 분자 수준에서의 차이가 있기 때문이다.

이러한 문제점을 극복하기 위해 최근 5-6 년간 전체적인 유전자 발현을 통해서 암을 세부적으로 분류하고, 이러한 분류에 근거하여 예후를 판단하는 새로운 연구가 여러 암에 대하여 활발하게 적용되어 왔다.

대표적인 연구들을 몇몇 소개하자면, 첫째, Golub 등은 마이크로어레이를 이용한 유전자 발현 양상의 차이에 따라 급성골수성 백혈병(acute myeloid leukemia; AML)과 급성림프구성 백혈병(acute lymphoid leukemia; ALL)을 구분할 수 있음을 보였는데 이 방법은 이후 여러 암에 다양하게 적용되었다 [Golub TR et al, Science, 286(1999) 531-537]. 둘째, van't Veer 등은 117명의 유방암 환자 시료에 대해 마이크로어레이를 이용한 유전자 발현 양상을 분석하여, 예후가 좋은 환자와 나쁜 환자를 구별할 수 있는 70개의 유전자를 선별한 후, 이들 70개의 유전자를 통해 유방암 환자의 예후를 정확히 판단할 수 있다고 보고하였다 [van't Veer LJ et al, Nature, 415(2002) 530-536]. van't Veer 등이 사용한 통계적인 접근 방법은 이후 여러 암들에 대해 다양하게 적용되어 각각의 암에 대해 예후를 판단할 수 있는 유전자 리스트들이 작성, 보고되어 왔다 [West M et al, Genome research, 16(2006) 559-566].

위에 언급한 통계적인 접근 방법과는 달리 주요 종양발생경로(oncogenic pathway)가 암의 진행과 예후 판단에 중요할 것이라는 가설로 접근하는 연구들도 활발하게 이루어지고 있다. 크게 두 가지 방향으로 정리할 수 있는데, 첫째는, 쥐 모델을 통해서 주요 종양발생경로에서 나타나는 유전자 발현 양상을 조사하고, 비교 유전체학 방법을 적용하여 이를 인간의 실제 암 환자에서 나타나는 유전자 발현 양상을 설명하는 데 적용하는 방법이고, 둘째는, 정상적인 인간 세포들에 Myc, E2F1, Ras, Src 같은 암 유발 유전자들을 아데노바이러스(Adenovirus) 시스템을 이용하여 과발현시키고, 이 때 나타나는 유전자 발현 양상을 통해 암 환자의 유전자 발현 양상을 설명하는 방법이다 [Sweet-Cordero A et al, Nature genetics, 37(2005) 48-55, Bild AH et al, Nature, 439(2006) 353-357].

위에서 언급한 여러 방법들과 연구 결과들은 각 논문에서 보고한 낙관적인 결과와는 달리 아직까지 실제 임상에 적용할 정도까지 성숙되지 못하였다. 문제점으로는 첫째, 이들 유전자 리스트들 사이에는 서로 공통으로 존재하는 유전자가 거의 없고, 둘째, 한 연구에서 보고된 유전자 리스트를 별도의 다른 연구에 적용하면 그다지 잘 작용하지 않는 것이었다 [Ein-Dor L et al, Bioinformatics, 21(2005) 171-178]. 그 이유로는, 첫째, 각각의 연구에서 사용한 환자 시료 수가 그다지 충분하지 않았고, 둘째, 적용하는 통계적 방법의 성격상, 동일 연구 시료에서는 잘 작용하지만 다른 연구 시료에 적용하면 잘 작용하지 않는 데이터 과대적합(overfitting)이 대부분의 연구에서 나타났고, 셋째, 복잡한 마이크로어레이 유전자 발현 데이터가 충분히 활용되지 못했기 때문이었다. 그러한 이유로 마이크로어레이 유전자 발현을 이용한 예후 판단은 아직 실제 임상에서 적용되고 있지 않고 있으며, 이 방법에 대해 회의적인 시각도 일부 존재하고 있다 [West M et al, Genome research, 16(2006) 559-566].

미국특허출원번호 US20060040302A1호 (출원일: 2000.7.26)에서는 cDNA 마이크로어레이 방법을 사용하여 사이토케라틴 (cytokeratin) 5와 사이토케라틴(cytokeratin) 17 유전자와 높은 상관관계를 보이는 유전자들을 발견하였는데, 이들 유전자들을 발현하는 환자들의 조직은 좋지 않은 예후를 보여준다고 개시하고 있다.

미국특허출원번호 US20060041387A1호 (출원일: 2004.8.17)에서는 암에서 특이적으로 발현되는 유전자만을 모아서 마이크로어레이를 만들고, 이 마이크로어레이를 사용하여 환자의 시료로부터 암 발병 여부를 조사하는 방법을 개시하고 있다. 그러나, 이는 단순히 암을 진단하는 특허일 뿐 예후를 판별하는 방법에 대한 언급이 없다.

한국특허출원번호 10-2005-0009487호 (우선일: 2004.2.20)에서는 세포자가사 (Apoptosis)를 유도하는 활성을 갖는 분리된 단백질, 및 그를 코딩하는 유전자를 제공한다. 또한, 상기 유전자 또는 그 단편이 고정화되어 있는 기판을 갖는 마이크로어레이를 제공한다. 또한, 상기 단백질에 특이적으로 결합하는 항체를 이용하여 유방암을 진단하는 방법 또는 세포 내에서 상기 유전자의 발현 유무를 결정하여 유방암을 진단하는 방법을 개시하고 있다.

한국특허출원번호 10-2001-0044838호 (출원일: 2001.7.25)에서는 cDNA 마이크로어레이(microarray) 분석법에 의해, 위암조직 및 정상 위조직에서의 유전자 발현 양상(profile)을 얻어내고, 이로부터 위암조직에서 특이적으로 발현이 증가되거나 감소되는 표적유전자를 동정하는 방법에 관한 것으로, 더욱 상세하게는 상기 동정된 표적유전자를 이용하여, 안티센스 올리고뉴클레오타이드, 펩티드 및 분자량이 작은 화학물질 등의 위암에 대한 항암제를 스크리닝하는 방법에 관한 것이다. 또한, cDNA 마이크로어레이 분석을 통해 얻어지는 위암조직에서의 유전자 발현 양상의 분석을 통해 위암의 전이성에 기초한 위암의 분류방법을 개시하고 있다.

새로운 방법으로 현재 공개되어 있는 많은 마이크로어레이 데이터와 임상 자료들을 수집하고, 가능한 한 많은 수의 유전자 세트를 가지고 생존 분석을 수행하여 모든 혹은 대부분의 임상 자료들에서 잘 작용하는 유전자들을 찾아내는 것을 목적으로 한다.

상기 한 목적을 위하여, 본 발명은 특정 유전자를 5개 이상 포함하는 세트를 3000개 이상 미리 준비하는 단계;

특정 표현형에 대한 2개 이상의 마이크로어레이 유전자 발현 세트와 비교하여서 특정유전자 세트 각각과의 상관관계를 계산하는 단계;

상기 특정 표현형과 높은 상관관계를 보이는 유전자 세트를 선정하는 단계를 포함하는 것을 특징으로 하는 다수의 특정유전자세트로부터 표현형 예측 유전자세트 선정방법을 제공한다. 보다 바람직하게는 표현형은 암관련 표현형인 것을 특징으로 하고, 상기 암은 대장암, 위암, 간암, 폐암, 신장암, 유방암, 임파종, 신경교종, 자궁경부암, 난소암, 췌장암, 고환암, 뇌종양, 및 백혈병으로 이루어진 그룹에서 선택되는 것을 특징으로 하는 특정암일 수 있다. 보다 바람직하게는 상기 암은 유방암, 임파종, 신경교종, 백혈병, 폐암이다.

본 발명에 있어서, 표현형이란 유전형과 함께 일컬어지는 용어로서, DNA가 가지고 있는 유전정보에 의하여 결정되어지는 형질을 유전형이라 하며, 이 유전형질은 주어진 환경에 따라 개체의 형태학적 또는 생화학적 특성이 달리 표현될 수 있으며 실제로 나타나는 이 형질을 표현형이라 한다.

본 발명에 있어서, 암이란 종양에서부터 기인하는데, 종양은 양성종양 또는 악성종양일 수 있으며 조절되지 않는 비정상적 세포 성장에서 기인하는 신생물 덩어리이다. 양성 종양은 일반적으로 국소화된 상태로 유지된다. 악성 종양은 통칭하여 암이라고 지칭된다. 일반적으로, 용어 "악성"은 종양이 주변의 신체 구조물로 침윤하여 그것을 파괴할 수 있으며 먼 부위로 전파되어 사망을 초래할 수 있음을 의미한다

상기 특정암 관련 표현형은 환자의 잔여생존기간인 각 암환자의 잔여생존기간이고, 보다 바람직하게는 환자의 잔여생존기간 또는 생존율이다.

본 발명의 또 다른 태양은 하기 표 4, 표 7, 표 10, 표 13, 표 16의 각각의 유전자들을 포함하는 암 생존기간 예측 유전자세트 및 이를 포함하는 암진단키트에 관한 것이다.

본 발명에 있어서, 진단키트는 상기 유전자들의 발현을 정량분석 또는 정성분석할 때, 단백질에 대한 항체, 기질, 적당한 완충용액, 발색 효소 또는 형광물질로 표지된 2차 항체, 발색 기질 등을 포함할 수 있다. 상기에서 기질은 니트로셀룰로오즈 막, 폴리비닐(Polyvinyl) 수지로 합성된 96 웰 플레이트(96 well plate), 폴리스티렌(Polystyrene) 수지로 합성된 96 웰 플레이트 및 유리로 된 슬라이드글라스 등이 사용될 수 있다. 또한, 진단키트는 암을 진단하기 위해 생물학적 마이크로 칩을 이용한 자동화된 분석 방법을 이용할 수 있다.

이하, 실시예에 의하여 본 발명을 더욱 상세히 설명하고자 한다.

단, 하기 실시예는 본 발명을 예시하는 것일 뿐, 본 발명의 내용이 하기 실시예에 한정되는 것은 아니다.

<실시예 1> 유전자 조합 분석 방법을 통한 유방암 환자의 예후 판단 유전자 결정

유전자 발현 데이터 세트(Gene expression data sets)

본 발명에서는 환자의 재발 및 생존 임상 자료를 포함하면서, 누구나 사용할 수 있도록 공개되어 있는 13 개의 유방암 환자의 마이크로어레이 데이타를 수집하여 분석에 사용하였다 (표 1).

< 표 1 > 본 발명에서 사용된 유방암 유전자 발현 데이터 세트

이름	샘플의 수	플랫폼	데이터 소스
벨기에	179	U133A	www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE2990
듀크1	169	U95A	www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE3143
듀크2	49	HuFL	www.pnas.org/cgi/content/full/98/20/11462
UNC	67	Agilent	www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE2741
NCI	99	cDNA	www.pnas.org/cgi/content/full/100/18/10393
로제타	295	cDNA	www.rii.com/publications/2002/vantveer.html
싱가포르	249	H133A	www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE4922
샌디에고	286	H133A	www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE2034
스탠포드	76	cDNA	www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE3193
솔리에_2003	39	cDNA	www.pnas.org/cgi/content/full/100/14/8418
스톡홀름	159	H133A	www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE1456
웁살라	251	H133A	www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE3494
일본	40	cDNA	www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE5546
총	1958

유전자 세트(Gene sets)

본 발명에서는 유전자 온톨로지(Gene Ontology), 생물학적 경로(Biological Pathway), 염색체 위치(Chromosomal Location)와 같은 정보를 사용하여 생물학적으로 의미있는 유전자 세트(gene set)를 정의하였다. 그리고, 기존에 유방암 환자의 예후 판단에 유용하다고 보고된 유전자 세트들도 포함시켜, 가장 좋은 유전자 세트를 찾는 분석에 사용하였다.

데이타 분석

크게 두 종류로 나눌 수 있는 마이크로어레이 데이타 (단일 채널과 이중 채널)를 각각의 방법으로 분석하였다. 먼저 단일 채널(single channel)인 Affymetrix 플랫폼을 사용한 데이타의 경우, 각 샘플의 전체 강도(intensity)를 1,000으로 표준화하고, 발현값이 낮은 유전자들의 발현값을 100으로 보정한 후, 밑(base) 2의 로그값으로 변환하였다. 끝으로, 유방암 조직 유전자 발현값 각각을 정상 유방 조직의 발현값으로 빼주었다. 이중 채널인 cDNA 마이크로어레이의 경우 이미 밑(base) 2의 로그값으로 변환되어 있으므로, 데이타 세트 내 많은 샘플에서 값이 존재하지 않는 결측치(missing value)들을 제거하고, 그 이외의 결측치(missing value)들은 k-최근접 이웃(k-nearest neighbor; KNN) 방법을 사용하여 임퓨테이션(imputation)하였다. 그 다음으로 데이타 세트 내에 정상 유방 조직의 유전자 발현 데이타가 있는 경우, 유방암 조직 유전자 발현값을 정상 유방 조직의 유전자 발현값으로 빼주었다. 정상 조직의 유전자 발현값이 없는 경우는 별도의 변환 없이 사용하였다.

생존 분석은 첫째, 각 유전자 세트에 속하는 유전자만을 가지고, 2-평균 균집화(2-means clustering) 방법을 사용하여, 데이타 세트 안에 있는 모든 샘플을 두 그룹으로 구분하고, 로그 순위 검정법(log-rank test) 통계 방법을 적용하여, 두 그룹 간의 생존율을 구분하는 유의 수준을 구하였다. 두 그룹 사이의 생존 곡선의 양상은 카플랜-메이어(Kaplan-Meier) 생존곡선 방법을 사용하여 그림으로 나타내었다. 모든 통계 분석은 R 통계 분석 프로그램 (http://www.r-project.org)과 파이썬 프로그래밍 언어 (http://www.python.org)를 사용하여 수행하였다.

결과

1. 유전자 발현 데이타 세트 및 유전자 세트

본 발명에서는 13개의 데이타 세트 총 1958개의 유방암 환자 시료를 사용하여 분석을 수행하였다 (표 1). 유전자 세트는 유전자 온톨로지 생물학적 과정(Gene Ontology Biological Processes)(735개), 분자적인 기능(Molecular Functions)(648개)등을 포함하는 총 7 가지 범주, 3739개를 만들어 분석에 사용하였다 (표 2). 유전자 세트를 만드는 기준은 한 세트 내 유전자의 수가 최소 5 이상이 되도록 하였다.

< 표 2 > 본 발명에서 사용한 유전자 세트들의 구성

카테고리(Category)	개수
유전자 온톨로지 생물학적 과정(GO Biological Process)	735
유전자 온톨로지 분자적인 기능(GO Molecular Function)	648
생물학적 경로(Biological Pathways)	522
인터프로 도메인(InterPro Domains)	795
전사조절인자 결합부위(Transcription Factor Binding Sites; TFBS)	443
암 모듈(Cancer Modules)	579
기존 암 예후(cancer_signatures)	17
총(Total)	3739

2. 생존 및 재발을 예측하는 유전자 세트의 선별

환자의 생존 자료가 존재하는 13개 데이타 세트, 총 1958개의 유방암 환자 유전자 발현 데이타 각각에 대해 총 3739개의 유전자 세트 모두를 가지고 생존 분석을 수행하여, 가장 잘 생존 및 재발을 예측하는 유전자 세트들을 선별하였고, 그 중 상위 20개의 유전자 세트를 보여주었다 (표 3). 표에서 각 숫자는 로그 순위 검정법(log-rank test)에서 구한 유의도 (p-value) 10을 밑(base)으로 하는 로그값으로 변환시키고, 그 절대값을 취한 것이다. 예를 들어, 2 = -log10(0.01)이므로, p 값(p-value) = 0.01.

< 표 3 > 상위 20 개 유전자세트

총 3739개의 유전자 세트 중에서 세포주기를 통한 경과조절(regulation of progression through cell cycle)이라는 유전자 세트가 생존을 가장 잘 예측하는 유전자 세트로 선별되었다. 세포주기를 통한 경과조절(regulation of progression through cell cycle) 유전자 세트는 13 가지의 서로 다른 데이타 세트 중 9개의 데이타 세트에서 의미있게 (유의 수준 0.05, 로그 순위 검정법(log-rank test)) 예후가 좋은 환자들과 그렇지 않은 환자들을 구분하였고, 13개 데이타 세트에서 평균적으로 p < 0.001의 유의 수준에서 예후가 좋은 환자들과 좋지 않은 환자들을 구별하였다.

그 다음으로 생존을 잘 예측하는 유전자 세트들은 암 모듈 지도(cancer module map) 연구에서 밝혀진 모듈(module)들 중 모듈(module)_124, 모듈(module)_54, 모듈(module)_397, 그리고 모듈(module)_197 유전자 세트들이었다. Van't Veer의 논문에서 제안된 70-유전자 세트는 12개의 데이타 세트 중 5개의 데이타 세트에서 의미있게 환자들을 구분하였고, 12개 데이타 세트에서 평균 p= 0.00153의 유의 수준에서 환자들을 구분하였다 [van't Veer LJ et al, Nature, 415(2002) 530-536].

3. 생존 및 재발 곡선 분석

위의 분석에서 유방암 환자의 예후를 가장 잘 예측하는 것으로 나타난 세포주기를 통한 경과조절(regulation of progression through cell cycle; RPCC) 유전자 세트를 가지고, 카플랜-메이어(Kaplan-Meier) 생존 곡선 방법을 사용하여 13개의 유방암 데이타 세트 각각의 생존 곡선 및 재발 곡선을 구했다 (도 1, 도 2).

도 1에서 볼 수 있듯이, 대부분의 데이타 세트에서 생존율이 좋은 환자군과 그렇지 않은 환자군이 뚜렷하게 구분되는 것을 확인해 볼 수 있다. 또한 도 2에서 볼 수 있듯이, 대부분의 데이타 세트에서 재발율이 좋은 환자군과 그렇지 않은 환자군이 뚜렷하게 구분되는 것을 확인해 볼 수 있다.

4. 세포주기를 통한 경과조절(Regulation of progression through cell cycle; RPCC) 유전자 세트

RPCC 유전자 세트는 총 252개의 유전자로 이루어져 있는데, 세포 주기 조절에 관여하는 E2F1, E2F2 등의 E2F 전사 조절 인자들, CDC 단백질들, 싸이클린(cyclin) 단백질들, 섬유아세포 성장인자(fibroblast growth factor; FGF) 단백질들, 히스톤 탈아세틸화 단백질들 (histone deacetylase; HDACs)등을 만드는데 관여하는 유전자들을 포함하고 있다.(표 4). 이들 유전자들 및 이들이 관여하는 세포 주기 대사, 세포 생장 등의 과정은 유방암 환자의 예후 판정에 중요하다는 것이 여러 보고에서 알려져 왔다.

< 표4 > 세포주기를 통한 경과조절 유전자세트 내 유전자리스트

위에 약어로 표시된 유전자들은 http://www.gene.ucl.ac.uk/nomenclature에서 찾아볼 수 있다.

<실시예 2> 유전자 조합 분석 방법을 통한 임파종(lymphoma) 환자의 예후 판단 유전자 결정

유전자 발현 데이터 세트(Gene expression data sets)

본 발명에서는 환자의 재발 및 생존 임상 자료를 포함하면서, 누구나 사용할 수 있도록 공개되어 있는 8 개의 임파종(lymphoma) 환자의 마이크로어레이 데이타를 수집하여 분석에 사용하였다 (표 5).

< 표 5 > 본 발명에서 사용된 임파종(lymphoma) 유전자 발현 데이터 세트

이름	샘플의 수	플랫폼	데이터 소스
알리자드	40	cDNA	http://llmpp.nci.nih.gov/lymphoma/
대이브_1	186	cDNA	http://llmpp.nih.gov/FL/
대이브_2	272	Affymetrix	http://llmpp.nih.gov/BL/
휴멜	159	cDNA	http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE4475
로젠왈드_1	240	cDNA	http://llmpp.nih.gov/DLBCL/
로젠왈드_2	92	cDNA	http://llmpp.nih.gov/MCL/
쉽_1	58	HuFL	http://www.broad.mit.edu/mpr/lymphoma/
쉽_2	129	U133A	http://www.broad.mit.edu/mpr/lymphoma/
총	1176

유전자 세트(Gene sets)

본 발명에서는 유전자 온톨로지(Gene Ontology), 생물학적 경로(Biological Pathway), 염색체 위치(Chromosomal Location)와 같은 정보를 사용하여 생물학적으로 의미있는 유전자 세트(gene set)를 정의하였다. 그리고, 기존에 임파종 환자의 예후 판단에 유용하다고 보고된 유전자 세트들도 포함시켜, 가장 좋은 유전자 세트를 찾는 분석에 사용하였다.

데이타 분석

크게 두 종류로 나눌 수 있는 마이크로어레이 데이타 (단일 채널과 이중 채널)를 각각의 방법으로 분석하였다. 먼저 단일 채널(single channel)인 Affymetrix 플랫폼을 사용한 데이타의 경우, 각 샘플의 전체 강도(intensity)를 1,000으로 표준화하고, 발현값이 낮은 유전자들의 발현값을 100으로 보정한 후, 밑(base) 2의 로그값으로 변환하였다. 끝으로, 임파종 조직 유전자 발현값 각각을 정상 조직의 발현값으로 빼주었다. 이중 채널인 cDNA 마이크로어레이의 경우 이미 밑(base) 2의 로그값으로 변환되어 있으므로, 데이타 세트 내 많은 샘플에서 값이 존재하지 않는 결측치(missing value)들을 제거하고, 그 이외의 결측치(missing value)들은 k-최근접 이웃(k-nearest neighbor; KNN) 방법을 사용하여 임퓨테이션(imputation)하였다. 그 다음으로 데이타 세트 내에 정상 조직의 유전자 발현 데이타가 있는 경우, 임파종 조직 유전자 발현값을 정상 조직의 유전자 발현값으로 빼주었다. 정상 조직의 유전자 발현값이 없는 경우는 별도의 변환 없이 사용하였다.

결과

1. 유전자 발현 데이타 세트 및 유전자 세트

본 발명에서는 8개의 데이타 세트 총 1176개의 임파종 환자 시료를 사용하여 분석을 수행하였다 (표 5). 유전자 세트는 유전자 온톨로지 생물학적 과정(Gene Ontology Biological Processes)(735개), 분자적인 기능(Molecular Functions)(648개)등을 포함하는 총 7 가지 범주, 3739개를 만들어 분석에 사용하였다 (표 2). 유전자 세트를 만드는 기준은 한 세트 내 유전자의 수가 최소 5 이상이 되도록 하였다.

2. 생존 및 재발을 예측하는 유전자 세트의 선별

환자의 생존 자료가 존재하는 8개 데이타 세트, 총 1176개의 임파종 환자 유전자 발현 데이타 각각에 대해 총 3739개의 유전자 세트 모두를 가지고 생존 분석을 수행하여, 가장 잘 생존 및 재발을 예측하는 유전자 세트들을 선별하였고, 그 중 상위 20개의 유전자 세트를 보여주었다(표 6). 표에서 각 숫자는 로그 순위 검정법(log-rank test)에서 구한 유의도 (p-value) 10을 밑(base)으로 하는 로그값으로 변환시키고, 그 절대값을 취한 것이다. 예를 들어, 2 = -log10(0.01)이므로, p 값(p-value) = 0.01.

< 표 6 > 상위 20 개 유전자세트

총 3739개의 유전자 세트 중에서 세포막 융합(membrane fusion)이라는 유전자 세트가 생존을 가장 잘 예측하는 유전자 세트로 선별되었다. 세포막 융합(membrane fusion) 유전자 세트는 8 가지의 서로 다른 데이타 세트 중 5개의 데이타 세트에서 의미있게 (유의 수준 0.05, 로그 순위 검정법(log-rank test)) 예후가 좋은 환자들과 그렇지 않은 환자들을 구분하였고, 8개 데이타 세트에서 평균적으로 p < 0.001의 유의 수준에서 예후가 좋은 환자들과 좋지 않은 환자들을 구별하였다.

그 다음으로 생존을 잘 예측하는 유전자 세트들은 시스테인 프로테아제 억제 활성(cysteine protease inhibitor activity), 세포사멸 단백질 리피트의 베큘로 바이러스 억제(Baculovirus inhibitor of apoptosis protein repeat; BIR), 암 모듈 지도(cancer module map) 연구에서 밝혀진 모듈(module)들 중 모듈(module)_222 유전자 세트 등이었다.

3. 생존 곡선 분석

위의 분석에서 임파종 환자의 예후를 가장 잘 예측하는 것으로 나타난 세포막 융합(membrane fusion) 유전자 세트를 가지고, 카플랜-메이어(Kaplan-Meier) 생존 곡선 방법을 사용하여 8개의 임파종 데이타 세트 각각의 생존 곡선을 구했다 (도 3).

도 3에서 볼 수 있듯이 대부분의 데이타 세트에서 생존율이 좋은 환자군과 그렇지 않은 환자군이 뚜렷하게 구분되는 것을 확인해 볼 수 있다.

4. 세포막 융합(membrane fusion) 유전자 세트

세포막 융합(membrane fusion)는 총 18개의 유전자로 이루어져 있는데, 세포막 융합에 관여하는 ATG7, BRDG1, NAPG, SNAP23 등의 유전자들을 포함하고 있다.(표 7).

< 표 7 > 세포막 융합(membrane fusion) 유전자 세트 내 유전자리스트

ATG7	BRDG1	GCA
GOSR2	NAPA	NAPG
NPL4	OTOF	RABEP1
RABIF	RIMS1	SNAP23
SNAP29	STX11	VAMP3
VAPA	VPS4B	VTI1B

<실시예 3> 유전자 조합 분석 방법을 통한 신경교종(glioma) 환자의 예후 판단 유전자 결정

유전자 발현 데이터 세트(Gene expression data sets)

본 발명에서는 환자의 재발 및 생존 임상 자료를 포함하면서, 누구나 사용할 수 있도록 공개되어 있는 5개의 신경교종(glioma) 환자의 마이크로어레이 데이타를 수집하여 분석에 사용하였다 (표 8).

< 표 8 > 본 발명에서 사용된 신경교종(glioma) 유전자 발현 데이터 세트

이름	샘플의 수	플랫폼	데이터 소스
포메로이	60	Affymetrix,HuFL	http://www.broad.mit.edu/cgi-bin/cancer/publications/pub_paper.cgi?mode=view&paper_id=52
누트	50	Affymetrix,U95A	http://www.broad.mit.edu/cgi-bin/cancer/publications/pub_paper.cgi?mode=view&paper_id=82
야마나카	29	cDNA	http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE4381
프레이제	85	Affymetrix, U133A	http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE4412
필립스	77	Affymetrix, U133A	http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE4271
총	301

유전자 세트(Gene sets)

본 발명에서는 유전자 온톨로지(Gene Ontology), 생물학적 경로(Biological Pathway), 염색체 위치(Chromosomal Location)와 같은 정보를 사용하여 생물학적으로 의미있는 유전자 세트(gene set)를 정의하였다. 그리고, 기존에 신경교종 환자의 예후 판단에 유용하다고 보고된 유전자 세트들도 포함시켜, 가장 좋은 유전자 세트를 찾는 분석에 사용하였다.

데이타 분석

크게 두 종류로 나눌 수 있는 마이크로어레이 데이타 (단일 채널과 이중 채널)를 각각의 방법으로 분석하였다. 먼저 단일 채널(single channel)인 Affymetrix 플랫폼을 사용한 데이타의 경우, 각 샘플의 전체 강도(intensity)를 1,000으로 표준화하고, 발현값이 낮은 유전자들의 발현값을 100으로 보정한 후, 밑(base) 2의 로그값으로 변환하였다. 끝으로, 신경교종 조직 유전자 발현값 각각을 정상 조직의 발현값으로 빼주었다. 이중 채널인 cDNA 마이크로어레이의 경우 이미 밑(base) 2의 로그값으로 변환되어 있으므로, 데이타 세트 내 많은 샘플에서 값이 존재하지 않는 결측치(missing value)들을 제거하고, 그 이외의 결측치(missing value)들은 k-최근접 이웃(k-nearest neighbor; KNN) 방법을 사용하여 임퓨테이션(imputation)하였다. 그 다음으로 데이타 세트 내에 정상 조직의 유전자 발현 데이타가 있는 경우, 신경교종 조직 유전자 발현값을 정상 조직의 유전자 발현값으로 빼주었다. 정상 조직의 유전자 발현값이 없는 경우는 별도의 변환 없이 사용하였다.

결과

1. 유전자 발현 데이타 세트 및 유전자 세트

본 발명에서는 5개의 데이타 세트 총 301개의 신경교종 환자 시료를 사용하여 분석을 수행하였다 (표 8). 유전자 세트는 유전자 온톨로지 생물학적 과정(Gene Ontology Biological Processes)(735개), 분자적인 기능(Molecular Functions)(648개)등을 포함하는 총 7 가지 범주, 3739개를 만들어 분석에 사용하였다 (표 2). 유전자 세트를 만드는 기준은 한 세트 내 유전자의 수가 최소 5 이상이 되도록 하였다.

2. 생존 및 재발을 예측하는 유전자 세트의 선별

환자의 생존 자료가 존재하는 5개 데이타 세트, 총 301개의 신경교종 환자 유전자 발현 데이타 각각에 대해 총 3739개의 유전자 세트 모두를 가지고 생존 분석을 수행하여, 가장 잘 생존 및 재발을 예측하는 유전자 세트들을 선별하였고, 그 중 상위 20개의 유전자 세트를 보여주었다 (표 9). 표에서 각 숫자는 로그 순위 검정법(log-rank test)에서 구한 유의도 (p-value) 10을 밑(base)으로 하는 로그값으로 변환시키고, 그 절대값을 취한 것이다. 예를 들어, 2 = -log10(0.01)이므로, p 값(p-value) = 0.01.

< 표 9 > 상위 20 개 유전자세트

총 3739개의 유전자 세트 중에서 단일 가닥 DNA 결합(single-stranded DNA binding)이라는 유전자 세트가 생존을 가장 잘 예측하는 유전자 세트로 선별되었다. 단일 가닥 DNA 결합(single-stranded DNA binding) 유전자 세트는 5 가지의 서로 다른 데이타 세트 중 4개의 데이타 세트에서 의미있게 (유의 수준 0.05, 로그 순위 검정법(log-rank test)) 예후가 좋은 환자들과 그렇지 않은 환자들을 구분하였고, 5개 데이타 세트에서 평균적으로 p < 0.001의 유의 수준에서 예후가 좋은 환자들과 좋지 않은 환자들을 구별하였다.

그 다음으로 생존을 잘 예측하는 유전자 세트들은 chr10p15, 염색체 구성 및 생물 발생(센수 유캐리오타), 세포골격 단백질 결합, 히스톤 디아세틸라아제 복합체 유전자 세트 등이었다.

3. 생존 곡선 분석

위의 분석에서 신경교종 환자의 예후를 가장 잘 예측하는 것으로 나타난 단일 가닥 DNA 결합(single-stranded DNA binding) 유전자 세트를 가지고, 카플랜-메이어(Kaplan-Meier) 생존 곡선 방법을 사용하여 5개의 신경교종 데이타 세트 각각의 생존 곡선을 구했다 (도 4).

도 4에서 볼 수 있듯이 대부분의 데이타 세트에서 생존율이 좋은 환자군과 그렇지 않은 환자군이 뚜렷하게 구분되는 것을 확인해 볼 수 있다.

4. 단일 가닥 DNA 결합(single-stranded DNA binding) 유전자 세트

단일 가닥 DNA 결합(single-stranded DNA binding)는 총 31개의 유전자로 이루어져 있는데, 단일 가닥 DNA 결합에 관여하는 BRCA2, ERCC5, HMGB2, SSBP1, YBX1 등의 유전자들을 포함하고 있다.(표 10). 이들 유전자들 및 이들이 관여하는 DNA 합성 조절 과정은 임파종 환자의 예후 판정에 중요하다는 것이 여러 보고에서 알려져 왔다.

< 표 10 > 단일 가닥 DNA 결합(single-stranded DNA binding) 유전자 세트 내 유전자리스트

BRCA2	ERCC5	FUBP1	HMGB2
HNRPDL	IGHMBP2	LRPPRC	MYT2
PCBP1	POLG2	PURA	PURB
RAD23A	RAD23B	RAD51	RAD51AP1
RBMS1	RPA1	RPA2	RPA3
RPA4	SSBP1	SSBP2	SSBP3
SSBP4	SUB1	TAF15	TREX1
WBP11	XPC	YBX1

<실시예 4> 유전자 조합 분석 방법을 통한 백혈병 환자의 예후 판단 유전자 결정

유전자 발현 데이터 세트(Gene expression data sets)

본 발명에서는 환자의 재발 및 생존 임상 자료를 포함하면서, 누구나 사용할 수 있도록 공개되어 있는 322개의 백혈병 환자의 마이크로어레이 데이타를 수집하여 분석에 사용하였다 (표 11).

< 표 11 > 본 발명에서 사용된 백혈병 유전자 발현 데이터 세트

이름	샘플의 수	플랫폼	데이터 소스
불린거	116	cDNA	http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE425
페르난도	39	Affymetrix,HuFL	http://download.cancercell.org/supplementarydata/ccell/1/1/75/DC1/index.htm
야기	54	Affymetrix,U95A	http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE2191
보좌니_1	35	Affymetrix, U133A	http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE3912
보좌니_2	78	Affymetrix, U133A	http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE3912
총	322

유전자 세트(Gene sets)

본 발명에서는 유전자 온톨로지(Gene Ontology), 생물학적 경로(Biological Pathway), 염색체 위치(Chromosomal Location)와 같은 정보를 사용하여 생물학적으로 의미있는 유전자 세트(gene set)를 정의하였다. 그리고, 기존에 백혈병 환자의 예후 판단에 유용하다고 보고된 유전자 세트들도 포함시켜, 가장 좋은 유전자 세트를 찾는 분석에 사용하였다.

데이타 분석

크게 두 종류로 나눌 수 있는 마이크로어레이 데이타 (단일 채널과 이중 채널)를 각각의 방법으로 분석하였다. 먼저 단일 채널(single channel)인 Affymetrix 플랫폼을 사용한 데이타의 경우, 각 샘플의 전체 강도(intensity)를 1,000으로 표준화하고, 발현값이 낮은 유전자들의 발현값을 100으로 보정한 후, 밑(base) 2의 로그값으로 변환하였다. 끝으로, 백혈병 조직 유전자 발현값 각각을 정상 조직의 발현값으로 빼주었다. 이중 채널인 cDNA 마이크로어레이의 경우 이미 밑(base) 2의 로그값으로 변환되어 있으므로, 데이타 세트 내 많은 샘플에서 값이 존재하지 않는 결측치(missing value)들을 제거하고, 그 이외의 결측치(missing value)들은 k-최근접 이웃(k-nearest neighbor; KNN) 방법을 사용하여 임퓨테이션(imputation)하였다. 그 다음으로 데이타 세트 내에 정상 조직의 유전자 발현 데이타가 있는 경우, 백혈병 조직 유전자 발현값을 정상 조직의 유전자 발현값으로 빼주었다. 정상 조직의 유전자 발현값이 없는 경우는 별도의 변환 없이 사용하였다.

결과

1. 유전자 발현 데이타 세트 및 유전자 세트

본 발명에서는 5개의 데이타 세트 총 322개의 백혈병 환자 시료를 사용하여 분석을 수행하였다 (표 11). 유전자 온톨로지 생물학적 과정(Gene Ontology Biological Processes)(735개), 분자적인 기능(Molecular Functions)(648개)등을 포함하는 총 7 가지 범주, 3739개를 만들어 분석에 사용하였다 (표 2). 유전자 세트를 만드는 기준은 한 세트 내 유전자의 수가 최소 5 이상이 되도록 하였다.

2. 생존 및 재발을 예측하는 유전자 세트의 선별

환자의 생존 자료가 존재하는 5개 데이타 세트, 총 322개의 백혈병 환자 유전자 발현 데이타 각각에 대해 총 3739개의 유전자 세트 모두를 가지고 생존 분석을 수행하여, 가장 잘 생존 및 재발을 예측하는 유전자 세트들을 선별하였고, 그 중 상위 20개의 유전자 세트를 보여주었다(표 12). 표에서 각 숫자는 로그 순위 검정법(log-rank test)에서 구한 유의도 (p-value) 10을 밑(base)으로 하는 로그값으로 변환시키고, 그 절대값을 취한 것이다. 예를 들어, 2 = -log10(0.01)이므로, p 값(p-value) = 0.01.

< 표 12 > 상위 20 개 유전자세트

총 3739개의 유전자 세트 중에서 항세포 사멸(anti-apoptosis)이라는 유전자 세트가 생존을 가장 잘 예측하는 유전자 세트로 선별되었다. 항세포 사멸(anti-apoptosis) 유전자 세트는 5 가지의 서로 다른 데이타 세트 중 4개의 데이타 세트에서 의미있게 (유의 수준 0.05, 로그 순위 검정법(log-rank test)) 예후가 좋은 환자들과 그렇지 않은 환자들을 구분하였고, 5개 데이타 세트에서 평균적으로 p < 0.001의 유의 수준에서 예후가 좋은 환자들과 좋지 않은 환자들을 구별하였다.

그 다음으로 생존을 잘 예측하는 유전자 세트들은 세포주기를 통한 경과조절, 구아닌-뉴클레오티드 분리 촉진제 CDC25, HUMAN_CD34_ENRICHED_TF_JP, 암 모듈 지도(cancer module map) 연구에서 밝혀진 모듈(module)들 중 모듈(module)_72 유전자, 모듈(module)_18 유전자 세트 등이었다.

3. 생존 곡선 분석

위의 분석에서 백혈병 환자의 예후를 가장 잘 예측하는 것으로 나타난 항세포사멸(anti-apoptosis) 유전자 세트를 가지고, 카플랜-메이어(Kaplan-Meier) 생존 곡선 방법을 사용하여 5개의 백혈병 데이타 세트 각각의 생존 곡선을 구했다 (도 5).

도 5에서 볼 수 있듯이 대부분의 데이타 세트에서 생존율이 좋은 환자군과 그렇지 않은 환자군이 뚜렷하게 구분되는 것을 확인해 볼 수 있다.

4. 항세포사멸(anti-apoptosis) 유전자 세트

항세포사멸(anti-apoptosis)유전자 세트는 총 116개의 유전자로 이루어져 있는데, 항세포사멸에 관여하는 BCL2, BRIC1, BNIP1, BRAF, FAS, VHL등의 유전자들을 포함하고 있다.(표 13). 이들 유전자들 및 이들이 관여하는 항세포사멸 과정은 백혈병 환자의 예후 판정에 중요하다는 것이 여러 보고에서 알려져 왔다.

< 표 13 > 항세포사멸(anti-apoptosis) 유전자 세트 내 유전자리스트

AKT1	ALK	ALOX12	ANXA1	ANXA4	ANXA5
API5	ARHGDIA	AVEN	AZU1	BAG1	BAG3
BAG4	BCL2	BCL2A1	BCL2L1	BCL2L10	BCL2L2
BECN1	BFAR	BIRC1	BIRC2	BIRC3	BIRC4
BIRC5	BIRC6	BIRC7	BNIP1	BNIP2	BNIP3
BRAF	C1orf86	CASP2	CBX4	CCL2	CD40LG
CFL1	CFLAR	CIAPIN1	DDAH2	DHCR24	FAIM2
FAIM3	FAS	FOXO1A	GDNF	GLO1	GSTP1
HDAC1	HDAC3	HIPK3	HMGB1	HSPA1A	HSPA1B
HSPA5	HSPA9B	HSPB1	IER3	IGF1R	IL10
IL1A	IL2	IL31RA	MALT1	MCL1	MPO
MTL5	MYBL2	NFKB1	NME5	NME6	NOL3
NOTCH2	NPM1	NRG2	NTF3	P53CSV	PAX7
PEA15	POGK	PRDX2	PRKCZ	PRLR	PROK2
PSEN1	RARA	RELA	RNF7	SEMA4D	SERPINB2
SERPINB9	SNCA	SOCS2	SOCS3	SON	SPHK1
SPHK2	SPP1	TAX1BP1	TGFB1	TGM2	TIAF1
TNF	TNFAIP3	TNFAIP8	TNFRSF10D	TNFRSF18	TNFRSF6B
TNFRSF7	TNFSF18	TPT1	TRA1	TTC17	TXNDC
TXNDC5	VHL

<실시예 5> 유전자 조합 분석 방법을 통한 폐암 환자의 예후 판단 유전자 결정

유전자 발현 데이터 세트(Gene expression data sets)

본 발명에서는 환자의 재발 및 생존 임상 자료를 포함하면서, 누구나 사용할 수 있도록 공개되어 있는 7개의 폐암 환자의 마이크로어레이 데이터를 수집하여 분석에 사용하였다 (표 14).

< 표 14 > 본 발명에서 사용된 폐암 유전자 발현 데이터 세트

이름	샘플의 수	플랫폼	데이터 소스
바타차르지	175	Affymetrix, U95A	http://www.genome.wi.mit.edu/MPR/lung
비어	86	Affymetrix, HuFL	http://dot.ped.med.umich.edu:2000/ourimage/pub/Lung/index.html
빌드	111	Affymetrix, U133_2	http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE3141
가버	24	cDNA	http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE3398
라포니	130	Affymetrix, U133A	http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE4573
버타넨	38	Affymetrix, HuFL	http://www.pnas.org/cgi/content/full/99/19/12357
보르축	23	Affymetrix, U95A	http://hora.cpmc.columbia.edu/dept/pulmonary/5ResearchPages/Laboratories/Powell%20Lab.htm
총	587

유전자 세트(Gene sets)

본 발명에서는 유전자 온톨로지(Gene Ontology), 생물학적 경로(Biological Pathway), 염색체 위치(Chromosomal Location)와 같은 정보를 사용하여 생물학적으로 의미있는 유전자 세트(gene set)를 정의하였다. 그리고, 기존에 폐암 환자의 예후 판단에 유용하다고 보고된 유전자 세트들도 포함시켜, 가장 좋은 유전자 세트를 찾는 분석에 사용하였다.

데이타 분석

크게 두 종류로 나눌 수 있는 마이크로어레이 데이타 (단일 채널과 이중 채널)를 각각의 방법으로 분석하였다. 먼저 단일 채널(single channel)인 Affymetrix 플랫폼을 사용한 데이타의 경우, 각 샘플의 전체 강도(intensity)를 1,000으로 표준화하고, 발현값이 낮은 유전자들의 발현값을 100으로 보정한 후, 밑(base) 2의 로그값으로 변환하였다. 끝으로, 폐암 조직 유전자 발현값 각각을 정상 폐 조직의 발현값으로 빼주었다. 이중 채널인 cDNA 마이크로어레이의 경우 이미 밑(base) 2의 로그값으로 변환되어 있으므로, 데이타 세트 내 많은 샘플에서 값이 존재하지 않는 결측치(missing value)들을 제거하고, 그 이외의 결측치(missing value)들은 k-최근접 이웃(k-nearest neighbor; KNN) 방법을 사용하여 임퓨테이션(imputation)하였다. 그 다음으로 데이타 세트 내에 정상 폐 조직의 유전자 발현 데이타가 있는 경우, 폐암 조직 유전자 발현값을 정상 폐 조직의 유전자 발현값으로 빼주었다. 정상 조직의 유전자 발현값이 없는 경우는 별도의 변환 없이 사용하였다.

결과

1. 유전자 발현 데이타 세트 및 유전자 세트

본 발명에서는 7개의 데이타 세트 총 587개의 폐암 환자 시료를 사용하여 분석을 수행하였다 (표 14). 유전자 온톨로지 생물학적 과정(Gene Ontology Biological Processes)(735개), 분자적인 기능(Molecular Functions)(648개)등을 포함하는 총 7 가지 범주, 3739개를 만들어 분석에 사용하였다 (표 2). 유전자 세트를 만드는 기준은 한 세트 내 유전자의 수가 최소 5 이상이 되도록 하였다.

2. 생존 및 재발을 예측하는 유전자 세트의 선별

환자의 생존 자료가 존재하는 7개 데이타 세트, 총 587개의 폐암 환자 유전자 발현 데이타 각각에 대해 총 3739개의 유전자 세트 모두를 가지고 생존 분석을 수행하여, 가장 잘 생존 및 재발을 예측하는 유전자 세트들을 선별하였고, 그 중 상위 20개의 유전자 세트를 보여주었다 (표 15). 표에서 각 숫자는 로그 순위 검정법(log-rank test)에서 구한 유의도 (p-value) 10을 밑(base)으로 하는 로그값으로 변환시키고, 그 절대값을 취한 것이다. 예를 들어, 2 = -log10(0.01)이므로, p 값(p-value) = 0.01.

< 표 15 > 상위 20 개 유전자세트

총 3739개의 유전자 세트 중에서 글리코스핑고리피드 생합성(glycosphingolipid biosynthesis)이라는 유전자 세트가 생존을 가장 잘 예측하는 유전자 세트로 선별되었다. 글리코스핑고리피드 생합성(glycosphingolipid biosynthesis) 유전자 세트는 7 가지의 서로 다른 데이타 세트 중 4개의 데이타 세트에서 의미있게 (유의 수준 0.05, 로그 순위 검정법(log-rank test)) 예후가 좋은 환자들과 그렇지 않은 환자들을 구분하였고, 7개 데이타 세트에서 평균적으로 p < 0.001의 유의 수준에서 예후가 좋은 환자들과 좋지 않은 환자들을 구별하였다.

그 다음으로 생존을 잘 예측하는 유전자 세트들은 비타민 D 수용체 결합, 단백질대사 유전자 세트 등이었다.

3. 생존 곡선 분석

위의 분석에서 폐암 환자의 예후를 가장 잘 예측하는 것으로 나타난 글리코스핑고리피드 생합성(glycosphingolipid biosynthesis) 유전자 세트를 가지고, 카플랜-메이어(Kaplan-Meier) 생존 곡선 방법을 사용하여 7개의 폐암 데이타 세트 각각의 생존 곡선을 구했다 (도 6).

도 6에서 볼 수 있듯이 대부분의 데이타 세트에서 생존율이 좋은 환자군과 그렇지 않은 환자군이 뚜렷하게 구분되는 것을 확인해 볼 수 있다.

4. 글리코스핑고리피드 생합성(glycosphingolipid biosynthesis) 유전자 세트

글리코스핑고리피드 생합성(glycosphingolipid biosynthesis)는 총 10개의 유전자로 이루어져 있는데, 글리코스핑고리피드 생합성에 관여하는 A4GALT, GYLT1B, ST8SIA1, UGCG, UGT8 유전자들을 포함하고 있다.(표 16).

< 표 16 > 글리코스핑고리피드 생합성(glycosphingolipid biosynthesis) 유전자 세트 내 유전자리스트

A4GALT	GYLTL1B	LARGE	ST3GAL5	ST6GALNAC6
ST8SIA1	ST8SIA3	ST8SIA5	UGCG	UGT8

본 발명자는 다양한 생물학적 과정에서 중요한 대사 경로 (pathway), 전사 조절 인자 결합 부위(transcription factor binding site), 유전자 온톨로지 생물학적 과정(gene ontology biological process) 및 분자적인 기능(molecular function)등의 기존 지식에 바탕하여 의미 있는 유전자 세트를 미리 작성한 후(3,739개), 각종 암의 여러 마이크로어레이 데이터와 비교하여서 각종 암의 진단 및 예측에 유용한 유전자세트를 선정하였다.

본 발명은 첫째, 각각의 연구에서 사용한 환자 시료 수가 그다지 충분하지 않은 경우, 둘째, 적용하는 통계적 방법의 성격상, 동일 연구 시료에서는 잘 작용하지만 다른 연구 시료에 적용하면 잘 작용하지 않는 데이터 과대적합(overfitting)이 일어나는 경우, 셋째, 복잡한 마이크로어레이 유전자 발현 데이터가 충분히 활용되지 못하는 경우와 같이 한 연구에서 보고된 유전자 리스트를 별도의 다른 연구에 적용하면 그다지 잘 작용하지 않는 문제점을 극복할 수 있다.

또한, 유전자 리스트들 사이에는 서로 공통으로 존재하는 유전자가 거의 없는 유전자 발현 마이크로어레이 데이터의 분석에도 적용할 수 있다. 본 발명에 따른 유전자 세트 선정 방법은 사용되어진 마이크로어레이 발현데이타에 따라서, 유전자세트가 한정될 수밖에 없는 종래의 유전자세트 선정 방식에 비하여, 특정 마이크로어레이 세트내에 포함되어져 있지 않은 유전자도 세트에 선정 대상이 되는 유전자세트에 포함할 수 있다.

본 발명자들은 본 발명을 유방암, 임파종, 신경교종, 백혈병, 폐암에 적용하여, 유용한 유전자세트를 선정하였다. 유방암에 있어서는 종래의 유전자 세트(총 12개)에서는 12개 중 6개(50%)를 구별할 수 있었던 것에 비해 대부분의(12개 중 9개, 75%) 데이타 세트에서 의미있게 환자들을 구별하는 유전자 세트를 발견하였다. 임파종(8개 중 5개, 62.5%), 신경교종(5개 중 4개, 80%), 백혈병(5개 중 4개, 80%), 폐암(7개 중 4개, 57.1%)에 있어서도 의미있게 환자들을 구별하는 유전자 세트를 발견할 수 있었다. 그러나 본 발명은 상기 암 뿐 아니라 다른 종류의 암들에서도 예후 판단 유전자들을 결정하는 데 적용될 수 있는 유용하고도 간단한 방법이다.

Claims

삭제
삭제
삭제
삭제
표 4의 252개의 유전자들을 포함하는 유방암 생존기간 예측 유전자세트.
삭제
삭제
삭제
표 7의 18개의 유전자들을 포함하는 임파종 생존기간 예측 유전자세트.
삭제
삭제
삭제
표 10의 31개의 유전자들을 포함하는 신경교종 생존기간 예측 유전자세트.
삭제
삭제
삭제
표 13의 116개의 유전자들을 포함하는 백혈병 생존기간 예측 유전자세트.
삭제
삭제
삭제
표 16의 10개의 유전자들을 포함하는 폐암 생존기간 예측 유전자세트.
삭제