KR100835296B1 - 암 예측 유전자세트 선정방법 - Google Patents

암 예측 유전자세트 선정방법 Download PDF

Info

Publication number
KR100835296B1
KR100835296B1 KR1020060116255A KR20060116255A KR100835296B1 KR 100835296 B1 KR100835296 B1 KR 100835296B1 KR 1020060116255 A KR1020060116255 A KR 1020060116255A KR 20060116255 A KR20060116255 A KR 20060116255A KR 100835296 B1 KR100835296 B1 KR 100835296B1
Authority
KR
South Korea
Prior art keywords
gene
sets
genes
survival
data
Prior art date
Application number
KR1020060116255A
Other languages
English (en)
Other versions
KR20080046803A (ko
Inventor
김선영
김용성
Original Assignee
한국생명공학연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국생명공학연구원 filed Critical 한국생명공학연구원
Priority to KR1020060116255A priority Critical patent/KR100835296B1/ko
Publication of KR20080046803A publication Critical patent/KR20080046803A/ko
Application granted granted Critical
Publication of KR100835296B1 publication Critical patent/KR100835296B1/ko

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/118Prognosis of disease development
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/158Expression markers

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Organic Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Engineering & Computer Science (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Analytical Chemistry (AREA)
  • Zoology (AREA)
  • Genetics & Genomics (AREA)
  • Wood Science & Technology (AREA)
  • Physics & Mathematics (AREA)
  • Biotechnology (AREA)
  • Microbiology (AREA)
  • Molecular Biology (AREA)
  • Hospice & Palliative Care (AREA)
  • Biophysics (AREA)
  • Oncology (AREA)
  • Biochemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

본 발명은 암 예측 유전자세트 선정방법에 관한 것으로서, 특정 유전자를 5개 이상 포함하는 세트를 3000개 이상 미리 준비하는 단계; 특정 표현형에 대한 2개 이상의 마이크로어레이 유전자 발현 세트와 비교하여서 특정유전자 세트 각각과의 상관관계를 계산하는 단계; 상기 특정 표현형과 높은 상관관계를 보이는 유전자 세트를 선정하는 단계를 포함하는 것을 특징으로 하는 다수의 특정유전자세트로부터 표현형 예측 유전자세트 선정방법에 관한 것이다. 본 발명에 따른 방법은 유방암, 임파종, 신경교종, 백혈병, 폐암 뿐 아니라 다른 종류의 암들에서도 예후 판단 유전자들을 결정하는 데 동일하게 적용될 수 있는 유용하고도 간단한 방법이다.
암, 예후 판단, 유전자 조합, 마이크로어레이

Description

암 예측 유전자세트 선정방법{Methods of Selecting Gene Set Predicting Cancer Phenotype}
도 1은 유방암을 두 그룹으로 분류하기 위한 카플랜-메이어(Kaplan-Meier) 생존 곡선. 각 데이터 세트에서, 세포주기를 통한 경과조절(Regulation of progression through cell cycle) 유전자 세트의 유전자 발현 패턴에 기초하여 환자들을 두 그룹으로 분류하였고 생존율을 나타내었다. 로그 순위 검정법(log-rank test)을 사용하여 두 그룹 사이에서 나타나는 생존율 차이의 통계적 유의도를 구하였다.
도 2는 유방암을 두 그룹으로 분류하기 위한 카플랜-메이어(Kaplan-Meier) 재발 곡선. 각 데이터 세트에서, 세포주기를 통한 경과조절(Regulation of progression through cell cycle) 유전자 세트의 유전자 발현 패턴에 기초하여 환자들을 두 그룹으로 분류하였고 재발율을 나타내었다.
도 3은 임파종(lymphoma)을 두 그룹으로 분류하기 위한 카플랜-메이어(Kaplan-Meier) 생존 곡선. 각 데이터 세트에서, 세포막 융합(membrane fusion) 유전자 세트의 유전자 발현 패턴에 기초하여 환자들을 두 그룹으로 분류하였고 생존율을 나타냈다.
도 4는 신경교종(glioma)을 두 그룹으로 분류하기 위한 카플랜-메이어(Kaplan-Meier) 생존 곡선. 각 데이터 세트에서, 단일 가닥 DNA 결합(single-stranded DNA binding) 유전자 세트의 유전자 발현 패턴에 기초하여 환자들을 두 그룹으로 분류하였고 생존율을 나타냈다.
도 5는 백혈병을 두 그룹으로 분류하기 위한 카플랜-메이어(Kaplan-Meier) 생존 곡선. 각 데이터 세트에서, 항세포사멸(anti-apoptosis) 유전자 세트의 유전자 발현 패턴에 기초하여 환자들을 두 그룹으로 분류하였고 생존율을 나타냈다.
도 6은 폐암을 두 그룹으로 분류하기 위한 카플랜-메이어(Kaplan-Meier) 생존 곡선. 각 데이터 세트에서, 글리코스핑고리피드 합성(glycosphingolipid biosynthesis) 유전자 세트의 유전자 발현 패턴에 기초하여 환자들을 두 그룹으로 분류하였고 생존율을 나타냈다.
암 환자의 예후 판단은 수술 이후 환자의 치료 과정을 선택할 때 중요하므로, 정확히 예후를 판단할 수 있는 방법을 개발하기 위한 많은 연구가 이루어져 왔다. 전통적으로 예후 판단은 암의 형태적, 조직학적 특성에 근거하여 이루어져 왔다. 암의 크기, 림프절로의 전이 여부, 다른 기관으로의 전이 여부, 조직의 분화도 등이 암의 진행 단계와 암 환자의 예후를 결정하는 데 주로 사용되어 온 조직학적 특징들이다. 그러나 위에 언급한 형태적, 조직학적 특성은 실제 예후 판단에 있어서 그다지 정확하게 작용하지 못하는 문제점이 있다. 그 이유로는 첫째, 임상 의사마다 판별하는 데 차이가 있고, 둘째, 형태적, 조직학적 특성은 비슷해도 전혀 다른 예후를 보이는 분자 수준에서의 차이가 있기 때문이다.
이러한 문제점을 극복하기 위해 최근 5-6 년간 전체적인 유전자 발현을 통해서 암을 세부적으로 분류하고, 이러한 분류에 근거하여 예후를 판단하는 새로운 연구가 여러 암에 대하여 활발하게 적용되어 왔다.
대표적인 연구들을 몇몇 소개하자면, 첫째, Golub 등은 마이크로어레이를 이용한 유전자 발현 양상의 차이에 따라 급성골수성 백혈병(acute myeloid leukemia; AML)과 급성림프구성 백혈병(acute lymphoid leukemia; ALL)을 구분할 수 있음을 보였는데 이 방법은 이후 여러 암에 다양하게 적용되었다 [Golub TR et al, Science, 286(1999) 531-537]. 둘째, van't Veer 등은 117명의 유방암 환자 시료에 대해 마이크로어레이를 이용한 유전자 발현 양상을 분석하여, 예후가 좋은 환자와 나쁜 환자를 구별할 수 있는 70개의 유전자를 선별한 후, 이들 70개의 유전자를 통해 유방암 환자의 예후를 정확히 판단할 수 있다고 보고하였다 [van't Veer LJ et al, Nature, 415(2002) 530-536]. van't Veer 등이 사용한 통계적인 접근 방법은 이후 여러 암들에 대해 다양하게 적용되어 각각의 암에 대해 예후를 판단할 수 있는 유전자 리스트들이 작성, 보고되어 왔다 [West M et al, Genome research, 16(2006) 559-566].
위에 언급한 통계적인 접근 방법과는 달리 주요 종양발생경로(oncogenic pathway)가 암의 진행과 예후 판단에 중요할 것이라는 가설로 접근하는 연구들도 활발하게 이루어지고 있다. 크게 두 가지 방향으로 정리할 수 있는데, 첫째는, 쥐 모델을 통해서 주요 종양발생경로에서 나타나는 유전자 발현 양상을 조사하고, 비교 유전체학 방법을 적용하여 이를 인간의 실제 암 환자에서 나타나는 유전자 발현 양상을 설명하는 데 적용하는 방법이고, 둘째는, 정상적인 인간 세포들에 Myc, E2F1, Ras, Src 같은 암 유발 유전자들을 아데노바이러스(Adenovirus) 시스템을 이용하여 과발현시키고, 이 때 나타나는 유전자 발현 양상을 통해 암 환자의 유전자 발현 양상을 설명하는 방법이다 [Sweet-Cordero A et al, Nature genetics, 37(2005) 48-55, Bild AH et al, Nature, 439(2006) 353-357].
위에서 언급한 여러 방법들과 연구 결과들은 각 논문에서 보고한 낙관적인 결과와는 달리 아직까지 실제 임상에 적용할 정도까지 성숙되지 못하였다. 문제점으로는 첫째, 이들 유전자 리스트들 사이에는 서로 공통으로 존재하는 유전자가 거의 없고, 둘째, 한 연구에서 보고된 유전자 리스트를 별도의 다른 연구에 적용하면 그다지 잘 작용하지 않는 것이었다 [Ein-Dor L et al, Bioinformatics, 21(2005) 171-178]. 그 이유로는, 첫째, 각각의 연구에서 사용한 환자 시료 수가 그다지 충분하지 않았고, 둘째, 적용하는 통계적 방법의 성격상, 동일 연구 시료에서는 잘 작용하지만 다른 연구 시료에 적용하면 잘 작용하지 않는 데이터 과대적합(overfitting)이 대부분의 연구에서 나타났고, 셋째, 복잡한 마이크로어레이 유전자 발현 데이터가 충분히 활용되지 못했기 때문이었다. 그러한 이유로 마이크로어레이 유전자 발현을 이용한 예후 판단은 아직 실제 임상에서 적용되고 있지 않고 있으며, 이 방법에 대해 회의적인 시각도 일부 존재하고 있다 [West M et al, Genome research, 16(2006) 559-566].
미국특허출원번호 US20060040302A1호 (출원일: 2000.7.26)에서는 cDNA 마이크로어레이 방법을 사용하여 사이토케라틴 (cytokeratin) 5와 사이토케라틴(cytokeratin) 17 유전자와 높은 상관관계를 보이는 유전자들을 발견하였는데, 이들 유전자들을 발현하는 환자들의 조직은 좋지 않은 예후를 보여준다고 개시하고 있다.
미국특허출원번호 US20060041387A1호 (출원일: 2004.8.17)에서는 암에서 특이적으로 발현되는 유전자만을 모아서 마이크로어레이를 만들고, 이 마이크로어레이를 사용하여 환자의 시료로부터 암 발병 여부를 조사하는 방법을 개시하고 있다. 그러나, 이는 단순히 암을 진단하는 특허일 뿐 예후를 판별하는 방법에 대한 언급이 없다.
한국특허출원번호 10-2005-0009487호 (우선일: 2004.2.20)에서는 세포자가사 (Apoptosis)를 유도하는 활성을 갖는 분리된 단백질, 및 그를 코딩하는 유전자를 제공한다. 또한, 상기 유전자 또는 그 단편이 고정화되어 있는 기판을 갖는 마이크로어레이를 제공한다. 또한, 상기 단백질에 특이적으로 결합하는 항체를 이용하여 유방암을 진단하는 방법 또는 세포 내에서 상기 유전자의 발현 유무를 결정하여 유방암을 진단하는 방법을 개시하고 있다.
한국특허출원번호 10-2001-0044838호 (출원일: 2001.7.25)에서는 cDNA 마이크로어레이(microarray) 분석법에 의해, 위암조직 및 정상 위조직에서의 유전자 발현 양상(profile)을 얻어내고, 이로부터 위암조직에서 특이적으로 발현이 증가되거나 감소되는 표적유전자를 동정하는 방법에 관한 것으로, 더욱 상세하게는 상기 동정된 표적유전자를 이용하여, 안티센스 올리고뉴클레오타이드, 펩티드 및 분자량이 작은 화학물질 등의 위암에 대한 항암제를 스크리닝하는 방법에 관한 것이다. 또한, cDNA 마이크로어레이 분석을 통해 얻어지는 위암조직에서의 유전자 발현 양상의 분석을 통해 위암의 전이성에 기초한 위암의 분류방법을 개시하고 있다.
새로운 방법으로 현재 공개되어 있는 많은 마이크로어레이 데이터와 임상 자료들을 수집하고, 가능한 한 많은 수의 유전자 세트를 가지고 생존 분석을 수행하여 모든 혹은 대부분의 임상 자료들에서 잘 작용하는 유전자들을 찾아내는 것을 목적으로 한다.
상기 한 목적을 위하여, 본 발명은 특정 유전자를 5개 이상 포함하는 세트를 3000개 이상 미리 준비하는 단계;
특정 표현형에 대한 2개 이상의 마이크로어레이 유전자 발현 세트와 비교하여서 특정유전자 세트 각각과의 상관관계를 계산하는 단계;
상기 특정 표현형과 높은 상관관계를 보이는 유전자 세트를 선정하는 단계를 포함하는 것을 특징으로 하는 다수의 특정유전자세트로부터 표현형 예측 유전자세트 선정방법을 제공한다. 보다 바람직하게는 표현형은 암관련 표현형인 것을 특징으로 하고, 상기 암은 대장암, 위암, 간암, 폐암, 신장암, 유방암, 임파종, 신경교종, 자궁경부암, 난소암, 췌장암, 고환암, 뇌종양, 및 백혈병으로 이루어진 그룹에서 선택되는 것을 특징으로 하는 특정암일 수 있다. 보다 바람직하게는 상기 암은 유방암, 임파종, 신경교종, 백혈병, 폐암이다.
본 발명에 있어서, 표현형이란 유전형과 함께 일컬어지는 용어로서, DNA가 가지고 있는 유전정보에 의하여 결정되어지는 형질을 유전형이라 하며, 이 유전형질은 주어진 환경에 따라 개체의 형태학적 또는 생화학적 특성이 달리 표현될 수 있으며 실제로 나타나는 이 형질을 표현형이라 한다.
본 발명에 있어서, 암이란 종양에서부터 기인하는데, 종양은 양성종양 또는 악성종양일 수 있으며 조절되지 않는 비정상적 세포 성장에서 기인하는 신생물 덩어리이다. 양성 종양은 일반적으로 국소화된 상태로 유지된다. 악성 종양은 통칭하여 암이라고 지칭된다. 일반적으로, 용어 "악성"은 종양이 주변의 신체 구조물로 침윤하여 그것을 파괴할 수 있으며 먼 부위로 전파되어 사망을 초래할 수 있음을 의미한다
상기 특정암 관련 표현형은 환자의 잔여생존기간인 각 암환자의 잔여생존기간이고, 보다 바람직하게는 환자의 잔여생존기간 또는 생존율이다.
본 발명의 또 다른 태양은 하기 표 4, 표 7, 표 10, 표 13, 표 16의 각각의 유전자들을 포함하는 암 생존기간 예측 유전자세트 및 이를 포함하는 암진단키트에 관한 것이다.
본 발명에 있어서, 진단키트는 상기 유전자들의 발현을 정량분석 또는 정성분석할 때, 단백질에 대한 항체, 기질, 적당한 완충용액, 발색 효소 또는 형광물질로 표지된 2차 항체, 발색 기질 등을 포함할 수 있다. 상기에서 기질은 니트로셀룰로오즈 막, 폴리비닐(Polyvinyl) 수지로 합성된 96 웰 플레이트(96 well plate), 폴리스티렌(Polystyrene) 수지로 합성된 96 웰 플레이트 및 유리로 된 슬라이드글라스 등이 사용될 수 있다. 또한, 진단키트는 암을 진단하기 위해 생물학적 마이크로 칩을 이용한 자동화된 분석 방법을 이용할 수 있다.
이하, 실시예에 의하여 본 발명을 더욱 상세히 설명하고자 한다.
단, 하기 실시예는 본 발명을 예시하는 것일 뿐, 본 발명의 내용이 하기 실시예에 한정되는 것은 아니다.
<실시예 1> 유전자 조합 분석 방법을 통한 유방암 환자의 예후 판단 유전자 결정
유전자 발현 데이터 세트(Gene expression data sets)
본 발명에서는 환자의 재발 및 생존 임상 자료를 포함하면서, 누구나 사용할 수 있도록 공개되어 있는 13 개의 유방암 환자의 마이크로어레이 데이타를 수집하여 분석에 사용하였다 (표 1).
< 표 1 > 본 발명에서 사용된 유방암 유전자 발현 데이터 세트
이름 샘플의 수 플랫폼 데이터 소스
벨기에 179 U133A www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE2990
듀크1 169 U95A www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE3143
듀크2 49 HuFL www.pnas.org/cgi/content/full/98/20/11462
UNC 67 Agilent www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE2741
NCI 99 cDNA www.pnas.org/cgi/content/full/100/18/10393
로제타 295 cDNA www.rii.com/publications/2002/vantveer.html
싱가포르 249 H133A www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE4922
샌디에고 286 H133A www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE2034
스탠포드 76 cDNA www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE3193
솔리에_2003 39 cDNA www.pnas.org/cgi/content/full/100/14/8418
스톡홀름 159 H133A www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE1456
웁살라 251 H133A www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE3494
일본 40 cDNA www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE5546
1958
유전자 세트(Gene sets)
본 발명에서는 유전자 온톨로지(Gene Ontology), 생물학적 경로(Biological Pathway), 염색체 위치(Chromosomal Location)와 같은 정보를 사용하여 생물학적으로 의미있는 유전자 세트(gene set)를 정의하였다. 그리고, 기존에 유방암 환자의 예후 판단에 유용하다고 보고된 유전자 세트들도 포함시켜, 가장 좋은 유전자 세트를 찾는 분석에 사용하였다.
데이타 분석
크게 두 종류로 나눌 수 있는 마이크로어레이 데이타 (단일 채널과 이중 채널)를 각각의 방법으로 분석하였다. 먼저 단일 채널(single channel)인 Affymetrix 플랫폼을 사용한 데이타의 경우, 각 샘플의 전체 강도(intensity)를 1,000으로 표준화하고, 발현값이 낮은 유전자들의 발현값을 100으로 보정한 후, 밑(base) 2의 로그값으로 변환하였다. 끝으로, 유방암 조직 유전자 발현값 각각을 정상 유방 조직의 발현값으로 빼주었다. 이중 채널인 cDNA 마이크로어레이의 경우 이미 밑(base) 2의 로그값으로 변환되어 있으므로, 데이타 세트 내 많은 샘플에서 값이 존재하지 않는 결측치(missing value)들을 제거하고, 그 이외의 결측치(missing value)들은 k-최근접 이웃(k-nearest neighbor; KNN) 방법을 사용하여 임퓨테이션(imputation)하였다. 그 다음으로 데이타 세트 내에 정상 유방 조직의 유전자 발현 데이타가 있는 경우, 유방암 조직 유전자 발현값을 정상 유방 조직의 유전자 발현값으로 빼주었다. 정상 조직의 유전자 발현값이 없는 경우는 별도의 변환 없이 사용하였다.
생존 분석은 첫째, 각 유전자 세트에 속하는 유전자만을 가지고, 2-평균 균집화(2-means clustering) 방법을 사용하여, 데이타 세트 안에 있는 모든 샘플을 두 그룹으로 구분하고, 로그 순위 검정법(log-rank test) 통계 방법을 적용하여, 두 그룹 간의 생존율을 구분하는 유의 수준을 구하였다. 두 그룹 사이의 생존 곡선의 양상은 카플랜-메이어(Kaplan-Meier) 생존곡선 방법을 사용하여 그림으로 나타내었다. 모든 통계 분석은 R 통계 분석 프로그램 (http://www.r-project.org)과 파이썬 프로그래밍 언어 (http://www.python.org)를 사용하여 수행하였다.
결과
1. 유전자 발현 데이타 세트 및 유전자 세트
본 발명에서는 13개의 데이타 세트 총 1958개의 유방암 환자 시료를 사용하여 분석을 수행하였다 (표 1). 유전자 세트는 유전자 온톨로지 생물학적 과정(Gene Ontology Biological Processes)(735개), 분자적인 기능(Molecular Functions)(648개)등을 포함하는 총 7 가지 범주, 3739개를 만들어 분석에 사용하였다 (표 2). 유전자 세트를 만드는 기준은 한 세트 내 유전자의 수가 최소 5 이상이 되도록 하였다.
< 표 2 > 본 발명에서 사용한 유전자 세트들의 구성
카테고리(Category) 개수
유전자 온톨로지 생물학적 과정(GO Biological Process) 735
유전자 온톨로지 분자적인 기능(GO Molecular Function) 648
생물학적 경로(Biological Pathways) 522
인터프로 도메인(InterPro Domains) 795
전사조절인자 결합부위(Transcription Factor Binding Sites; TFBS) 443
암 모듈(Cancer Modules) 579
기존 암 예후(cancer_signatures) 17
총(Total) 3739
2. 생존 및 재발을 예측하는 유전자 세트의 선별
환자의 생존 자료가 존재하는 13개 데이타 세트, 총 1958개의 유방암 환자 유전자 발현 데이타 각각에 대해 총 3739개의 유전자 세트 모두를 가지고 생존 분석을 수행하여, 가장 잘 생존 및 재발을 예측하는 유전자 세트들을 선별하였고, 그 중 상위 20개의 유전자 세트를 보여주었다 (표 3). 표에서 각 숫자는 로그 순위 검정법(log-rank test)에서 구한 유의도 (p-value) 10을 밑(base)으로 하는 로그값으로 변환시키고, 그 절대값을 취한 것이다. 예를 들어, 2 = -log10(0.01)이므로, p 값(p-value) = 0.01.
< 표 3 > 상위 20 개 유전자세트
Figure 112006085961964-pat00001
총 3739개의 유전자 세트 중에서 세포주기를 통한 경과조절(regulation of progression through cell cycle)이라는 유전자 세트가 생존을 가장 잘 예측하는 유전자 세트로 선별되었다. 세포주기를 통한 경과조절(regulation of progression through cell cycle) 유전자 세트는 13 가지의 서로 다른 데이타 세트 중 9개의 데이타 세트에서 의미있게 (유의 수준 0.05, 로그 순위 검정법(log-rank test)) 예후가 좋은 환자들과 그렇지 않은 환자들을 구분하였고, 13개 데이타 세트에서 평균적으로 p < 0.001의 유의 수준에서 예후가 좋은 환자들과 좋지 않은 환자들을 구별하였다.
그 다음으로 생존을 잘 예측하는 유전자 세트들은 암 모듈 지도(cancer module map) 연구에서 밝혀진 모듈(module)들 중 모듈(module)_124, 모듈(module)_54, 모듈(module)_397, 그리고 모듈(module)_197 유전자 세트들이었다. Van't Veer의 논문에서 제안된 70-유전자 세트는 12개의 데이타 세트 중 5개의 데이타 세트에서 의미있게 환자들을 구분하였고, 12개 데이타 세트에서 평균 p= 0.00153의 유의 수준에서 환자들을 구분하였다 [van't Veer LJ et al, Nature, 415(2002) 530-536].
3. 생존 및 재발 곡선 분석
위의 분석에서 유방암 환자의 예후를 가장 잘 예측하는 것으로 나타난 세포주기를 통한 경과조절(regulation of progression through cell cycle; RPCC) 유전자 세트를 가지고, 카플랜-메이어(Kaplan-Meier) 생존 곡선 방법을 사용하여 13개의 유방암 데이타 세트 각각의 생존 곡선 및 재발 곡선을 구했다 (도 1, 도 2).
도 1에서 볼 수 있듯이, 대부분의 데이타 세트에서 생존율이 좋은 환자군과 그렇지 않은 환자군이 뚜렷하게 구분되는 것을 확인해 볼 수 있다. 또한 도 2에서 볼 수 있듯이, 대부분의 데이타 세트에서 재발율이 좋은 환자군과 그렇지 않은 환자군이 뚜렷하게 구분되는 것을 확인해 볼 수 있다.
4. 세포주기를 통한 경과조절(Regulation of progression through cell cycle; RPCC) 유전자 세트
RPCC 유전자 세트는 총 252개의 유전자로 이루어져 있는데, 세포 주기 조절에 관여하는 E2F1, E2F2 등의 E2F 전사 조절 인자들, CDC 단백질들, 싸이클린(cyclin) 단백질들, 섬유아세포 성장인자(fibroblast growth factor; FGF) 단백질들, 히스톤 탈아세틸화 단백질들 (histone deacetylase; HDACs)등을 만드는데 관여하는 유전자들을 포함하고 있다.(표 4). 이들 유전자들 및 이들이 관여하는 세포 주기 대사, 세포 생장 등의 과정은 유방암 환자의 예후 판정에 중요하다는 것이 여러 보고에서 알려져 왔다.
< 표4 > 세포주기를 통한 경과조절 유전자세트 내 유전자리스트
Figure 112006085961964-pat00002
위에 약어로 표시된 유전자들은 http://www.gene.ucl.ac.uk/nomenclature에서 찾아볼 수 있다.
<실시예 2> 유전자 조합 분석 방법을 통한 임파종(lymphoma) 환자의 예후 판단 유전자 결정
유전자 발현 데이터 세트(Gene expression data sets)
본 발명에서는 환자의 재발 및 생존 임상 자료를 포함하면서, 누구나 사용할 수 있도록 공개되어 있는 8 개의 임파종(lymphoma) 환자의 마이크로어레이 데이타를 수집하여 분석에 사용하였다 (표 5).
< 표 5 > 본 발명에서 사용된 임파종(lymphoma) 유전자 발현 데이터 세트
이름 샘플의 수 플랫폼 데이터 소스
알리자드 40 cDNA http://llmpp.nci.nih.gov/lymphoma/
대이브_1 186 cDNA http://llmpp.nih.gov/FL/
대이브_2 272 Affymetrix http://llmpp.nih.gov/BL/
휴멜 159 cDNA http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE4475
로젠왈드_1 240 cDNA http://llmpp.nih.gov/DLBCL/
로젠왈드_2 92 cDNA http://llmpp.nih.gov/MCL/
쉽_1 58 HuFL http://www.broad.mit.edu/mpr/lymphoma/
쉽_2 129 U133A http://www.broad.mit.edu/mpr/lymphoma/
1176
유전자 세트(Gene sets)
본 발명에서는 유전자 온톨로지(Gene Ontology), 생물학적 경로(Biological Pathway), 염색체 위치(Chromosomal Location)와 같은 정보를 사용하여 생물학적으로 의미있는 유전자 세트(gene set)를 정의하였다. 그리고, 기존에 임파종 환자의 예후 판단에 유용하다고 보고된 유전자 세트들도 포함시켜, 가장 좋은 유전자 세트를 찾는 분석에 사용하였다.
데이타 분석
크게 두 종류로 나눌 수 있는 마이크로어레이 데이타 (단일 채널과 이중 채널)를 각각의 방법으로 분석하였다. 먼저 단일 채널(single channel)인 Affymetrix 플랫폼을 사용한 데이타의 경우, 각 샘플의 전체 강도(intensity)를 1,000으로 표준화하고, 발현값이 낮은 유전자들의 발현값을 100으로 보정한 후, 밑(base) 2의 로그값으로 변환하였다. 끝으로, 임파종 조직 유전자 발현값 각각을 정상 조직의 발현값으로 빼주었다. 이중 채널인 cDNA 마이크로어레이의 경우 이미 밑(base) 2의 로그값으로 변환되어 있으므로, 데이타 세트 내 많은 샘플에서 값이 존재하지 않는 결측치(missing value)들을 제거하고, 그 이외의 결측치(missing value)들은 k-최근접 이웃(k-nearest neighbor; KNN) 방법을 사용하여 임퓨테이션(imputation)하였다. 그 다음으로 데이타 세트 내에 정상 조직의 유전자 발현 데이타가 있는 경우, 임파종 조직 유전자 발현값을 정상 조직의 유전자 발현값으로 빼주었다. 정상 조직의 유전자 발현값이 없는 경우는 별도의 변환 없이 사용하였다.
생존 분석은 첫째, 각 유전자 세트에 속하는 유전자만을 가지고, 2-평균 균집화(2-means clustering) 방법을 사용하여, 데이타 세트 안에 있는 모든 샘플을 두 그룹으로 구분하고, 로그 순위 검정법(log-rank test) 통계 방법을 적용하여, 두 그룹 간의 생존율을 구분하는 유의 수준을 구하였다. 두 그룹 사이의 생존 곡선의 양상은 카플랜-메이어(Kaplan-Meier) 생존곡선 방법을 사용하여 그림으로 나타내었다. 모든 통계 분석은 R 통계 분석 프로그램 (http://www.r-project.org)과 파이썬 프로그래밍 언어 (http://www.python.org)를 사용하여 수행하였다.
결과
1. 유전자 발현 데이타 세트 및 유전자 세트
본 발명에서는 8개의 데이타 세트 총 1176개의 임파종 환자 시료를 사용하여 분석을 수행하였다 (표 5). 유전자 세트는 유전자 온톨로지 생물학적 과정(Gene Ontology Biological Processes)(735개), 분자적인 기능(Molecular Functions)(648개)등을 포함하는 총 7 가지 범주, 3739개를 만들어 분석에 사용하였다 (표 2). 유전자 세트를 만드는 기준은 한 세트 내 유전자의 수가 최소 5 이상이 되도록 하였다.
2. 생존 및 재발을 예측하는 유전자 세트의 선별
환자의 생존 자료가 존재하는 8개 데이타 세트, 총 1176개의 임파종 환자 유전자 발현 데이타 각각에 대해 총 3739개의 유전자 세트 모두를 가지고 생존 분석을 수행하여, 가장 잘 생존 및 재발을 예측하는 유전자 세트들을 선별하였고, 그 중 상위 20개의 유전자 세트를 보여주었다(표 6). 표에서 각 숫자는 로그 순위 검정법(log-rank test)에서 구한 유의도 (p-value) 10을 밑(base)으로 하는 로그값으로 변환시키고, 그 절대값을 취한 것이다. 예를 들어, 2 = -log10(0.01)이므로, p 값(p-value) = 0.01.
< 표 6 > 상위 20 개 유전자세트
Figure 112006085961964-pat00003
총 3739개의 유전자 세트 중에서 세포막 융합(membrane fusion)이라는 유전자 세트가 생존을 가장 잘 예측하는 유전자 세트로 선별되었다. 세포막 융합(membrane fusion) 유전자 세트는 8 가지의 서로 다른 데이타 세트 중 5개의 데이타 세트에서 의미있게 (유의 수준 0.05, 로그 순위 검정법(log-rank test)) 예후가 좋은 환자들과 그렇지 않은 환자들을 구분하였고, 8개 데이타 세트에서 평균적으로 p < 0.001의 유의 수준에서 예후가 좋은 환자들과 좋지 않은 환자들을 구별하였다.
그 다음으로 생존을 잘 예측하는 유전자 세트들은 시스테인 프로테아제 억제 활성(cysteine protease inhibitor activity), 세포사멸 단백질 리피트의 베큘로 바이러스 억제(Baculovirus inhibitor of apoptosis protein repeat; BIR), 암 모듈 지도(cancer module map) 연구에서 밝혀진 모듈(module)들 중 모듈(module)_222 유전자 세트 등이었다.
3. 생존 곡선 분석
위의 분석에서 임파종 환자의 예후를 가장 잘 예측하는 것으로 나타난 세포막 융합(membrane fusion) 유전자 세트를 가지고, 카플랜-메이어(Kaplan-Meier) 생존 곡선 방법을 사용하여 8개의 임파종 데이타 세트 각각의 생존 곡선을 구했다 (도 3).
도 3에서 볼 수 있듯이 대부분의 데이타 세트에서 생존율이 좋은 환자군과 그렇지 않은 환자군이 뚜렷하게 구분되는 것을 확인해 볼 수 있다.
4. 세포막 융합(membrane fusion) 유전자 세트
세포막 융합(membrane fusion)는 총 18개의 유전자로 이루어져 있는데, 세포막 융합에 관여하는 ATG7, BRDG1, NAPG, SNAP23 등의 유전자들을 포함하고 있다.(표 7).
< 표 7 > 세포막 융합(membrane fusion) 유전자 세트 내 유전자리스트
ATG7 BRDG1 GCA
GOSR2 NAPA NAPG
NPL4 OTOF RABEP1
RABIF RIMS1 SNAP23
SNAP29 STX11 VAMP3
VAPA VPS4B VTI1B
위에 약어로 표시된 유전자들은 http://www.gene.ucl.ac.uk/nomenclature에서 찾아볼 수 있다.
<실시예 3> 유전자 조합 분석 방법을 통한 신경교종(glioma) 환자의 예후 판단 유전자 결정
유전자 발현 데이터 세트(Gene expression data sets)
본 발명에서는 환자의 재발 및 생존 임상 자료를 포함하면서, 누구나 사용할 수 있도록 공개되어 있는 5개의 신경교종(glioma) 환자의 마이크로어레이 데이타를 수집하여 분석에 사용하였다 (표 8).
< 표 8 > 본 발명에서 사용된 신경교종(glioma) 유전자 발현 데이터 세트
이름 샘플의 수 플랫폼 데이터 소스
포메로이 60 Affymetrix,HuFL http://www.broad.mit.edu/cgi-bin/cancer/publications/pub_paper.cgi?mode=view&paper_id=52
누트 50 Affymetrix,U95A http://www.broad.mit.edu/cgi-bin/cancer/publications/pub_paper.cgi?mode=view&paper_id=82
야마나카 29 cDNA http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE4381
프레이제 85 Affymetrix, U133A http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE4412
필립스 77 Affymetrix, U133A http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE4271
301
유전자 세트(Gene sets)
본 발명에서는 유전자 온톨로지(Gene Ontology), 생물학적 경로(Biological Pathway), 염색체 위치(Chromosomal Location)와 같은 정보를 사용하여 생물학적으로 의미있는 유전자 세트(gene set)를 정의하였다. 그리고, 기존에 신경교종 환자의 예후 판단에 유용하다고 보고된 유전자 세트들도 포함시켜, 가장 좋은 유전자 세트를 찾는 분석에 사용하였다.
데이타 분석
크게 두 종류로 나눌 수 있는 마이크로어레이 데이타 (단일 채널과 이중 채널)를 각각의 방법으로 분석하였다. 먼저 단일 채널(single channel)인 Affymetrix 플랫폼을 사용한 데이타의 경우, 각 샘플의 전체 강도(intensity)를 1,000으로 표준화하고, 발현값이 낮은 유전자들의 발현값을 100으로 보정한 후, 밑(base) 2의 로그값으로 변환하였다. 끝으로, 신경교종 조직 유전자 발현값 각각을 정상 조직의 발현값으로 빼주었다. 이중 채널인 cDNA 마이크로어레이의 경우 이미 밑(base) 2의 로그값으로 변환되어 있으므로, 데이타 세트 내 많은 샘플에서 값이 존재하지 않는 결측치(missing value)들을 제거하고, 그 이외의 결측치(missing value)들은 k-최근접 이웃(k-nearest neighbor; KNN) 방법을 사용하여 임퓨테이션(imputation)하였다. 그 다음으로 데이타 세트 내에 정상 조직의 유전자 발현 데이타가 있는 경우, 신경교종 조직 유전자 발현값을 정상 조직의 유전자 발현값으로 빼주었다. 정상 조직의 유전자 발현값이 없는 경우는 별도의 변환 없이 사용하였다.
생존 분석은 첫째, 각 유전자 세트에 속하는 유전자만을 가지고, 2-평균 균집화(2-means clustering) 방법을 사용하여, 데이타 세트 안에 있는 모든 샘플을 두 그룹으로 구분하고, 로그 순위 검정법(log-rank test) 통계 방법을 적용하여, 두 그룹 간의 생존율을 구분하는 유의 수준을 구하였다. 두 그룹 사이의 생존 곡선의 양상은 카플랜-메이어(Kaplan-Meier) 생존곡선 방법을 사용하여 그림으로 나타내었다. 모든 통계 분석은 R 통계 분석 프로그램 (http://www.r-project.org)과 파이썬 프로그래밍 언어 (http://www.python.org)를 사용하여 수행하였다.
결과
1. 유전자 발현 데이타 세트 및 유전자 세트
본 발명에서는 5개의 데이타 세트 총 301개의 신경교종 환자 시료를 사용하여 분석을 수행하였다 (표 8). 유전자 세트는 유전자 온톨로지 생물학적 과정(Gene Ontology Biological Processes)(735개), 분자적인 기능(Molecular Functions)(648개)등을 포함하는 총 7 가지 범주, 3739개를 만들어 분석에 사용하였다 (표 2). 유전자 세트를 만드는 기준은 한 세트 내 유전자의 수가 최소 5 이상이 되도록 하였다.
2. 생존 및 재발을 예측하는 유전자 세트의 선별
환자의 생존 자료가 존재하는 5개 데이타 세트, 총 301개의 신경교종 환자 유전자 발현 데이타 각각에 대해 총 3739개의 유전자 세트 모두를 가지고 생존 분석을 수행하여, 가장 잘 생존 및 재발을 예측하는 유전자 세트들을 선별하였고, 그 중 상위 20개의 유전자 세트를 보여주었다 (표 9). 표에서 각 숫자는 로그 순위 검정법(log-rank test)에서 구한 유의도 (p-value) 10을 밑(base)으로 하는 로그값으로 변환시키고, 그 절대값을 취한 것이다. 예를 들어, 2 = -log10(0.01)이므로, p 값(p-value) = 0.01.
< 표 9 > 상위 20 개 유전자세트
Figure 112006085961964-pat00004
총 3739개의 유전자 세트 중에서 단일 가닥 DNA 결합(single-stranded DNA binding)이라는 유전자 세트가 생존을 가장 잘 예측하는 유전자 세트로 선별되었다. 단일 가닥 DNA 결합(single-stranded DNA binding) 유전자 세트는 5 가지의 서로 다른 데이타 세트 중 4개의 데이타 세트에서 의미있게 (유의 수준 0.05, 로그 순위 검정법(log-rank test)) 예후가 좋은 환자들과 그렇지 않은 환자들을 구분하였고, 5개 데이타 세트에서 평균적으로 p < 0.001의 유의 수준에서 예후가 좋은 환자들과 좋지 않은 환자들을 구별하였다.
그 다음으로 생존을 잘 예측하는 유전자 세트들은 chr10p15, 염색체 구성 및 생물 발생(센수 유캐리오타), 세포골격 단백질 결합, 히스톤 디아세틸라아제 복합체 유전자 세트 등이었다.
3. 생존 곡선 분석
위의 분석에서 신경교종 환자의 예후를 가장 잘 예측하는 것으로 나타난 단일 가닥 DNA 결합(single-stranded DNA binding) 유전자 세트를 가지고, 카플랜-메이어(Kaplan-Meier) 생존 곡선 방법을 사용하여 5개의 신경교종 데이타 세트 각각의 생존 곡선을 구했다 (도 4).
도 4에서 볼 수 있듯이 대부분의 데이타 세트에서 생존율이 좋은 환자군과 그렇지 않은 환자군이 뚜렷하게 구분되는 것을 확인해 볼 수 있다.
4. 단일 가닥 DNA 결합(single-stranded DNA binding) 유전자 세트
단일 가닥 DNA 결합(single-stranded DNA binding)는 총 31개의 유전자로 이루어져 있는데, 단일 가닥 DNA 결합에 관여하는 BRCA2, ERCC5, HMGB2, SSBP1, YBX1 등의 유전자들을 포함하고 있다.(표 10). 이들 유전자들 및 이들이 관여하는 DNA 합성 조절 과정은 임파종 환자의 예후 판정에 중요하다는 것이 여러 보고에서 알려져 왔다.
< 표 10 > 단일 가닥 DNA 결합(single-stranded DNA binding) 유전자 세트 내 유전자리스트
BRCA2 ERCC5 FUBP1 HMGB2
HNRPDL IGHMBP2 LRPPRC MYT2
PCBP1 POLG2 PURA PURB
RAD23A RAD23B RAD51 RAD51AP1
RBMS1 RPA1 RPA2 RPA3
RPA4 SSBP1 SSBP2 SSBP3
SSBP4 SUB1 TAF15 TREX1
WBP11 XPC YBX1
위에 약어로 표시된 유전자들은 http://www.gene.ucl.ac.uk/nomenclature에서 찾아볼 수 있다.
<실시예 4> 유전자 조합 분석 방법을 통한 백혈병 환자의 예후 판단 유전자 결정
유전자 발현 데이터 세트(Gene expression data sets)
본 발명에서는 환자의 재발 및 생존 임상 자료를 포함하면서, 누구나 사용할 수 있도록 공개되어 있는 322개의 백혈병 환자의 마이크로어레이 데이타를 수집하여 분석에 사용하였다 (표 11).
< 표 11 > 본 발명에서 사용된 백혈병 유전자 발현 데이터 세트
이름 샘플의 수 플랫폼 데이터 소스
불린거 116 cDNA http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE425
페르난도 39 Affymetrix,HuFL http://download.cancercell.org/supplementarydata/ccell/1/1/75/DC1/index.htm
야기 54 Affymetrix,U95A http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE2191
보좌니_1 35 Affymetrix, U133A http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE3912
보좌니_2 78 Affymetrix, U133A http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE3912
322
유전자 세트(Gene sets)
본 발명에서는 유전자 온톨로지(Gene Ontology), 생물학적 경로(Biological Pathway), 염색체 위치(Chromosomal Location)와 같은 정보를 사용하여 생물학적으로 의미있는 유전자 세트(gene set)를 정의하였다. 그리고, 기존에 백혈병 환자의 예후 판단에 유용하다고 보고된 유전자 세트들도 포함시켜, 가장 좋은 유전자 세트를 찾는 분석에 사용하였다.
데이타 분석
크게 두 종류로 나눌 수 있는 마이크로어레이 데이타 (단일 채널과 이중 채널)를 각각의 방법으로 분석하였다. 먼저 단일 채널(single channel)인 Affymetrix 플랫폼을 사용한 데이타의 경우, 각 샘플의 전체 강도(intensity)를 1,000으로 표준화하고, 발현값이 낮은 유전자들의 발현값을 100으로 보정한 후, 밑(base) 2의 로그값으로 변환하였다. 끝으로, 백혈병 조직 유전자 발현값 각각을 정상 조직의 발현값으로 빼주었다. 이중 채널인 cDNA 마이크로어레이의 경우 이미 밑(base) 2의 로그값으로 변환되어 있으므로, 데이타 세트 내 많은 샘플에서 값이 존재하지 않는 결측치(missing value)들을 제거하고, 그 이외의 결측치(missing value)들은 k-최근접 이웃(k-nearest neighbor; KNN) 방법을 사용하여 임퓨테이션(imputation)하였다. 그 다음으로 데이타 세트 내에 정상 조직의 유전자 발현 데이타가 있는 경우, 백혈병 조직 유전자 발현값을 정상 조직의 유전자 발현값으로 빼주었다. 정상 조직의 유전자 발현값이 없는 경우는 별도의 변환 없이 사용하였다.
생존 분석은 첫째, 각 유전자 세트에 속하는 유전자만을 가지고, 2-평균 균집화(2-means clustering) 방법을 사용하여, 데이타 세트 안에 있는 모든 샘플을 두 그룹으로 구분하고, 로그 순위 검정법(log-rank test) 통계 방법을 적용하여, 두 그룹 간의 생존율을 구분하는 유의 수준을 구하였다. 두 그룹 사이의 생존 곡선의 양상은 카플랜-메이어(Kaplan-Meier) 생존곡선 방법을 사용하여 그림으로 나타내었다. 모든 통계 분석은 R 통계 분석 프로그램 (http://www.r-project.org)과 파이썬 프로그래밍 언어 (http://www.python.org)를 사용하여 수행하였다.
결과
1. 유전자 발현 데이타 세트 및 유전자 세트
본 발명에서는 5개의 데이타 세트 총 322개의 백혈병 환자 시료를 사용하여 분석을 수행하였다 (표 11). 유전자 온톨로지 생물학적 과정(Gene Ontology Biological Processes)(735개), 분자적인 기능(Molecular Functions)(648개)등을 포함하는 총 7 가지 범주, 3739개를 만들어 분석에 사용하였다 (표 2). 유전자 세트를 만드는 기준은 한 세트 내 유전자의 수가 최소 5 이상이 되도록 하였다.
2. 생존 및 재발을 예측하는 유전자 세트의 선별
환자의 생존 자료가 존재하는 5개 데이타 세트, 총 322개의 백혈병 환자 유전자 발현 데이타 각각에 대해 총 3739개의 유전자 세트 모두를 가지고 생존 분석을 수행하여, 가장 잘 생존 및 재발을 예측하는 유전자 세트들을 선별하였고, 그 중 상위 20개의 유전자 세트를 보여주었다(표 12). 표에서 각 숫자는 로그 순위 검정법(log-rank test)에서 구한 유의도 (p-value) 10을 밑(base)으로 하는 로그값으로 변환시키고, 그 절대값을 취한 것이다. 예를 들어, 2 = -log10(0.01)이므로, p 값(p-value) = 0.01.
< 표 12 > 상위 20 개 유전자세트
Figure 112006085961964-pat00005
총 3739개의 유전자 세트 중에서 항세포 사멸(anti-apoptosis)이라는 유전자 세트가 생존을 가장 잘 예측하는 유전자 세트로 선별되었다. 항세포 사멸(anti-apoptosis) 유전자 세트는 5 가지의 서로 다른 데이타 세트 중 4개의 데이타 세트에서 의미있게 (유의 수준 0.05, 로그 순위 검정법(log-rank test)) 예후가 좋은 환자들과 그렇지 않은 환자들을 구분하였고, 5개 데이타 세트에서 평균적으로 p < 0.001의 유의 수준에서 예후가 좋은 환자들과 좋지 않은 환자들을 구별하였다.
그 다음으로 생존을 잘 예측하는 유전자 세트들은 세포주기를 통한 경과조절, 구아닌-뉴클레오티드 분리 촉진제 CDC25, HUMAN_CD34_ENRICHED_TF_JP, 암 모듈 지도(cancer module map) 연구에서 밝혀진 모듈(module)들 중 모듈(module)_72 유전자, 모듈(module)_18 유전자 세트 등이었다.
3. 생존 곡선 분석
위의 분석에서 백혈병 환자의 예후를 가장 잘 예측하는 것으로 나타난 항세포사멸(anti-apoptosis) 유전자 세트를 가지고, 카플랜-메이어(Kaplan-Meier) 생존 곡선 방법을 사용하여 5개의 백혈병 데이타 세트 각각의 생존 곡선을 구했다 (도 5).
도 5에서 볼 수 있듯이 대부분의 데이타 세트에서 생존율이 좋은 환자군과 그렇지 않은 환자군이 뚜렷하게 구분되는 것을 확인해 볼 수 있다.
4. 항세포사멸(anti-apoptosis) 유전자 세트
항세포사멸(anti-apoptosis)유전자 세트는 총 116개의 유전자로 이루어져 있는데, 항세포사멸에 관여하는 BCL2, BRIC1, BNIP1, BRAF, FAS, VHL등의 유전자들을 포함하고 있다.(표 13). 이들 유전자들 및 이들이 관여하는 항세포사멸 과정은 백혈병 환자의 예후 판정에 중요하다는 것이 여러 보고에서 알려져 왔다.
< 표 13 > 항세포사멸(anti-apoptosis) 유전자 세트 내 유전자리스트
AKT1 ALK ALOX12 ANXA1 ANXA4 ANXA5
API5 ARHGDIA AVEN AZU1 BAG1 BAG3
BAG4 BCL2 BCL2A1 BCL2L1 BCL2L10 BCL2L2
BECN1 BFAR BIRC1 BIRC2 BIRC3 BIRC4
BIRC5 BIRC6 BIRC7 BNIP1 BNIP2 BNIP3
BRAF C1orf86 CASP2 CBX4 CCL2 CD40LG
CFL1 CFLAR CIAPIN1 DDAH2 DHCR24 FAIM2
FAIM3 FAS FOXO1A GDNF GLO1 GSTP1
HDAC1 HDAC3 HIPK3 HMGB1 HSPA1A HSPA1B
HSPA5 HSPA9B HSPB1 IER3 IGF1R IL10
IL1A IL2 IL31RA MALT1 MCL1 MPO
MTL5 MYBL2 NFKB1 NME5 NME6 NOL3
NOTCH2 NPM1 NRG2 NTF3 P53CSV PAX7
PEA15 POGK PRDX2 PRKCZ PRLR PROK2
PSEN1 RARA RELA RNF7 SEMA4D SERPINB2
SERPINB9 SNCA SOCS2 SOCS3 SON SPHK1
SPHK2 SPP1 TAX1BP1 TGFB1 TGM2 TIAF1
TNF TNFAIP3 TNFAIP8 TNFRSF10D TNFRSF18 TNFRSF6B
TNFRSF7 TNFSF18 TPT1 TRA1 TTC17 TXNDC
TXNDC5 VHL
위에 약어로 표시된 유전자들은 http://www.gene.ucl.ac.uk/nomenclature에서 찾아볼 수 있다.
<실시예 5> 유전자 조합 분석 방법을 통한 폐암 환자의 예후 판단 유전자 결정
유전자 발현 데이터 세트(Gene expression data sets)
본 발명에서는 환자의 재발 및 생존 임상 자료를 포함하면서, 누구나 사용할 수 있도록 공개되어 있는 7개의 폐암 환자의 마이크로어레이 데이터를 수집하여 분석에 사용하였다 (표 14).
< 표 14 > 본 발명에서 사용된 폐암 유전자 발현 데이터 세트
이름 샘플의 수 플랫폼 데이터 소스
바타차르지 175 Affymetrix, U95A http://www.genome.wi.mit.edu/MPR/lung
비어 86 Affymetrix, HuFL http://dot.ped.med.umich.edu:2000/ourimage/pub/Lung/index.html
빌드 111 Affymetrix, U133_2 http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE3141
가버 24 cDNA http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE3398
라포니 130 Affymetrix, U133A http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE4573
버타넨 38 Affymetrix, HuFL http://www.pnas.org/cgi/content/full/99/19/12357
보르축 23 Affymetrix, U95A http://hora.cpmc.columbia.edu/dept/pulmonary/5ResearchPages/Laboratories/Powell%20Lab.htm
587
유전자 세트(Gene sets)
본 발명에서는 유전자 온톨로지(Gene Ontology), 생물학적 경로(Biological Pathway), 염색체 위치(Chromosomal Location)와 같은 정보를 사용하여 생물학적으로 의미있는 유전자 세트(gene set)를 정의하였다. 그리고, 기존에 폐암 환자의 예후 판단에 유용하다고 보고된 유전자 세트들도 포함시켜, 가장 좋은 유전자 세트를 찾는 분석에 사용하였다.
데이타 분석
크게 두 종류로 나눌 수 있는 마이크로어레이 데이타 (단일 채널과 이중 채널)를 각각의 방법으로 분석하였다. 먼저 단일 채널(single channel)인 Affymetrix 플랫폼을 사용한 데이타의 경우, 각 샘플의 전체 강도(intensity)를 1,000으로 표준화하고, 발현값이 낮은 유전자들의 발현값을 100으로 보정한 후, 밑(base) 2의 로그값으로 변환하였다. 끝으로, 폐암 조직 유전자 발현값 각각을 정상 폐 조직의 발현값으로 빼주었다. 이중 채널인 cDNA 마이크로어레이의 경우 이미 밑(base) 2의 로그값으로 변환되어 있으므로, 데이타 세트 내 많은 샘플에서 값이 존재하지 않는 결측치(missing value)들을 제거하고, 그 이외의 결측치(missing value)들은 k-최근접 이웃(k-nearest neighbor; KNN) 방법을 사용하여 임퓨테이션(imputation)하였다. 그 다음으로 데이타 세트 내에 정상 폐 조직의 유전자 발현 데이타가 있는 경우, 폐암 조직 유전자 발현값을 정상 폐 조직의 유전자 발현값으로 빼주었다. 정상 조직의 유전자 발현값이 없는 경우는 별도의 변환 없이 사용하였다.
생존 분석은 첫째, 각 유전자 세트에 속하는 유전자만을 가지고, 2-평균 균집화(2-means clustering) 방법을 사용하여, 데이타 세트 안에 있는 모든 샘플을 두 그룹으로 구분하고, 로그 순위 검정법(log-rank test) 통계 방법을 적용하여, 두 그룹 간의 생존율을 구분하는 유의 수준을 구하였다. 두 그룹 사이의 생존 곡선의 양상은 카플랜-메이어(Kaplan-Meier) 생존곡선 방법을 사용하여 그림으로 나타내었다. 모든 통계 분석은 R 통계 분석 프로그램 (http://www.r-project.org)과 파이썬 프로그래밍 언어 (http://www.python.org)를 사용하여 수행하였다.
결과
1. 유전자 발현 데이타 세트 및 유전자 세트
본 발명에서는 7개의 데이타 세트 총 587개의 폐암 환자 시료를 사용하여 분석을 수행하였다 (표 14). 유전자 온톨로지 생물학적 과정(Gene Ontology Biological Processes)(735개), 분자적인 기능(Molecular Functions)(648개)등을 포함하는 총 7 가지 범주, 3739개를 만들어 분석에 사용하였다 (표 2). 유전자 세트를 만드는 기준은 한 세트 내 유전자의 수가 최소 5 이상이 되도록 하였다.
2. 생존 및 재발을 예측하는 유전자 세트의 선별
환자의 생존 자료가 존재하는 7개 데이타 세트, 총 587개의 폐암 환자 유전자 발현 데이타 각각에 대해 총 3739개의 유전자 세트 모두를 가지고 생존 분석을 수행하여, 가장 잘 생존 및 재발을 예측하는 유전자 세트들을 선별하였고, 그 중 상위 20개의 유전자 세트를 보여주었다 (표 15). 표에서 각 숫자는 로그 순위 검정법(log-rank test)에서 구한 유의도 (p-value) 10을 밑(base)으로 하는 로그값으로 변환시키고, 그 절대값을 취한 것이다. 예를 들어, 2 = -log10(0.01)이므로, p 값(p-value) = 0.01.
< 표 15 > 상위 20 개 유전자세트
Figure 112006085961964-pat00006
총 3739개의 유전자 세트 중에서 글리코스핑고리피드 생합성(glycosphingolipid biosynthesis)이라는 유전자 세트가 생존을 가장 잘 예측하는 유전자 세트로 선별되었다. 글리코스핑고리피드 생합성(glycosphingolipid biosynthesis) 유전자 세트는 7 가지의 서로 다른 데이타 세트 중 4개의 데이타 세트에서 의미있게 (유의 수준 0.05, 로그 순위 검정법(log-rank test)) 예후가 좋은 환자들과 그렇지 않은 환자들을 구분하였고, 7개 데이타 세트에서 평균적으로 p < 0.001의 유의 수준에서 예후가 좋은 환자들과 좋지 않은 환자들을 구별하였다.
그 다음으로 생존을 잘 예측하는 유전자 세트들은 비타민 D 수용체 결합, 단백질대사 유전자 세트 등이었다.
3. 생존 곡선 분석
위의 분석에서 폐암 환자의 예후를 가장 잘 예측하는 것으로 나타난 글리코스핑고리피드 생합성(glycosphingolipid biosynthesis) 유전자 세트를 가지고, 카플랜-메이어(Kaplan-Meier) 생존 곡선 방법을 사용하여 7개의 폐암 데이타 세트 각각의 생존 곡선을 구했다 (도 6).
도 6에서 볼 수 있듯이 대부분의 데이타 세트에서 생존율이 좋은 환자군과 그렇지 않은 환자군이 뚜렷하게 구분되는 것을 확인해 볼 수 있다.
4. 글리코스핑고리피드 생합성(glycosphingolipid biosynthesis) 유전자 세트
글리코스핑고리피드 생합성(glycosphingolipid biosynthesis)는 총 10개의 유전자로 이루어져 있는데, 글리코스핑고리피드 생합성에 관여하는 A4GALT, GYLT1B, ST8SIA1, UGCG, UGT8 유전자들을 포함하고 있다.(표 16).
< 표 16 > 글리코스핑고리피드 생합성(glycosphingolipid biosynthesis) 유전자 세트 내 유전자리스트
A4GALT GYLTL1B LARGE ST3GAL5 ST6GALNAC6
ST8SIA1 ST8SIA3 ST8SIA5 UGCG UGT8
위에 약어로 표시된 유전자들은 http://www.gene.ucl.ac.uk/nomenclature에서 찾아볼 수 있다.
본 발명자는 다양한 생물학적 과정에서 중요한 대사 경로 (pathway), 전사 조절 인자 결합 부위(transcription factor binding site), 유전자 온톨로지 생물학적 과정(gene ontology biological process) 및 분자적인 기능(molecular function)등의 기존 지식에 바탕하여 의미 있는 유전자 세트를 미리 작성한 후(3,739개), 각종 암의 여러 마이크로어레이 데이터와 비교하여서 각종 암의 진단 및 예측에 유용한 유전자세트를 선정하였다.
본 발명은 첫째, 각각의 연구에서 사용한 환자 시료 수가 그다지 충분하지 않은 경우, 둘째, 적용하는 통계적 방법의 성격상, 동일 연구 시료에서는 잘 작용하지만 다른 연구 시료에 적용하면 잘 작용하지 않는 데이터 과대적합(overfitting)이 일어나는 경우, 셋째, 복잡한 마이크로어레이 유전자 발현 데이터가 충분히 활용되지 못하는 경우와 같이 한 연구에서 보고된 유전자 리스트를 별도의 다른 연구에 적용하면 그다지 잘 작용하지 않는 문제점을 극복할 수 있다.
또한, 유전자 리스트들 사이에는 서로 공통으로 존재하는 유전자가 거의 없는 유전자 발현 마이크로어레이 데이터의 분석에도 적용할 수 있다. 본 발명에 따른 유전자 세트 선정 방법은 사용되어진 마이크로어레이 발현데이타에 따라서, 유전자세트가 한정될 수밖에 없는 종래의 유전자세트 선정 방식에 비하여, 특정 마이크로어레이 세트내에 포함되어져 있지 않은 유전자도 세트에 선정 대상이 되는 유전자세트에 포함할 수 있다.
본 발명자들은 본 발명을 유방암, 임파종, 신경교종, 백혈병, 폐암에 적용하여, 유용한 유전자세트를 선정하였다. 유방암에 있어서는 종래의 유전자 세트(총 12개)에서는 12개 중 6개(50%)를 구별할 수 있었던 것에 비해 대부분의(12개 중 9개, 75%) 데이타 세트에서 의미있게 환자들을 구별하는 유전자 세트를 발견하였다. 임파종(8개 중 5개, 62.5%), 신경교종(5개 중 4개, 80%), 백혈병(5개 중 4개, 80%), 폐암(7개 중 4개, 57.1%)에 있어서도 의미있게 환자들을 구별하는 유전자 세트를 발견할 수 있었다. 그러나 본 발명은 상기 암 뿐 아니라 다른 종류의 암들에서도 예후 판단 유전자들을 결정하는 데 적용될 수 있는 유용하고도 간단한 방법이다.

Claims (22)

  1. 삭제
  2. 삭제
  3. 삭제
  4. 삭제
  5. 표 4의 252개의 유전자들을 포함하는 유방암 생존기간 예측 유전자세트.
  6. 삭제
  7. 삭제
  8. 삭제
  9. 표 7의 18개의 유전자들을 포함하는 임파종 생존기간 예측 유전자세트.
  10. 삭제
  11. 삭제
  12. 삭제
  13. 표 10의 31개의 유전자들을 포함하는 신경교종 생존기간 예측 유전자세트.
  14. 삭제
  15. 삭제
  16. 삭제
  17. 표 13의 116개의 유전자들을 포함하는 백혈병 생존기간 예측 유전자세트.
  18. 삭제
  19. 삭제
  20. 삭제
  21. 표 16의 10개의 유전자들을 포함하는 폐암 생존기간 예측 유전자세트.
  22. 삭제
KR1020060116255A 2006-11-23 2006-11-23 암 예측 유전자세트 선정방법 KR100835296B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020060116255A KR100835296B1 (ko) 2006-11-23 2006-11-23 암 예측 유전자세트 선정방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020060116255A KR100835296B1 (ko) 2006-11-23 2006-11-23 암 예측 유전자세트 선정방법

Publications (2)

Publication Number Publication Date
KR20080046803A KR20080046803A (ko) 2008-05-28
KR100835296B1 true KR100835296B1 (ko) 2008-06-09

Family

ID=39663532

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060116255A KR100835296B1 (ko) 2006-11-23 2006-11-23 암 예측 유전자세트 선정방법

Country Status (1)

Country Link
KR (1) KR100835296B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111269984A (zh) * 2020-02-27 2020-06-12 华中科技大学 基于ercc5基因及环境多环芳烃暴露交互作用的肺癌辅助诊断方法

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018143540A1 (ko) * 2017-02-02 2018-08-09 사회복지법인 삼성생명공익재단 인공신경망을 이용한 위암의 예후 예측 방법, 장치 및 프로그램
CN112129938B (zh) * 2019-06-25 2023-08-18 中国科学院分子细胞科学卓越创新中心 UDP-Glc在肺癌转移评估中的应用
CN111575283A (zh) * 2020-04-20 2020-08-25 中山大学肿瘤防治中心 Dkc1特异小干扰rna及其应用

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020110820A1 (en) 2000-09-19 2002-08-15 Sridhar Ramaswamy Genetic markers for tumors
US20030219760A1 (en) 2001-09-05 2003-11-27 The Brigham And Women's Hospital, Inc. Diagnostic and prognostic tests
US20060105343A1 (en) 2003-01-09 2006-05-18 Children's Medical Center Corporation Methods for diagnosis and prognosis of cancer

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020110820A1 (en) 2000-09-19 2002-08-15 Sridhar Ramaswamy Genetic markers for tumors
US20030219760A1 (en) 2001-09-05 2003-11-27 The Brigham And Women's Hospital, Inc. Diagnostic and prognostic tests
US20060105343A1 (en) 2003-01-09 2006-05-18 Children's Medical Center Corporation Methods for diagnosis and prognosis of cancer

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111269984A (zh) * 2020-02-27 2020-06-12 华中科技大学 基于ercc5基因及环境多环芳烃暴露交互作用的肺癌辅助诊断方法

Also Published As

Publication number Publication date
KR20080046803A (ko) 2008-05-28

Similar Documents

Publication Publication Date Title
US20220325348A1 (en) Biomarker signature method, and apparatus and kits therefor
US10697975B2 (en) Methods for identifying, diagnosing, and predicting survival of lymphomas
JP6140202B2 (ja) 乳癌の予後を予測するための遺伝子発現プロフィール
CN103733065B (zh) 用于癌症的分子诊断试验
Rosenwald et al. Gene expression profiling of diffuse large B-cell lymphoma
US7803552B2 (en) Biomarkers for predicting prostate cancer progression
ES2504242T3 (es) Pronóstico de cáncer de mama
JP2021525069A (ja) 癌を査定および/または処置するためのセルフリーdna
JP2007049991A (ja) 乳癌の骨への再発の予測
JP2008521412A (ja) 肺癌予後判定手段
KR102055305B1 (ko) 위식도경계부선암의 진단 및 표적 치료를 위한 마커
KR102170726B1 (ko) 바이오마커의 선별 방법 및 이를 이용한 암의 진단을 위한 정보제공방법
JP2011509689A (ja) Ii及びiii期結腸癌の分子病期分類並びに予後診断
KR100835296B1 (ko) 암 예측 유전자세트 선정방법
KR101847815B1 (ko) 삼중음성유방암의 아형 분류 방법
US20230357856A1 (en) Methods and compositions for prognosing glioblastoma or breast cancer
US20220290243A1 (en) Identification of patients that will respond to chemotherapy
CN112501290A (zh) 与乳腺癌预后相关的标志分子以及检测试剂盒
AU2007277142B2 (en) Methods for identifying, diagnosing, and predicting survival of lymphomas
WO2019215394A1 (en) Arpp19 as biomarker for haematological cancers
Ross-Adams et al. Supplementary Figure 1-18 Supplementary Methods Supplementary Case Example Supplementary Tables 1, 3-12 (Supplementary Table 2 is a separate file)

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120430

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee