KR20120034593A - 위암 진단용 단백질 마커의 동정 - Google Patents

위암 진단용 단백질 마커의 동정 Download PDF

Info

Publication number
KR20120034593A
KR20120034593A KR1020117023701A KR20117023701A KR20120034593A KR 20120034593 A KR20120034593 A KR 20120034593A KR 1020117023701 A KR1020117023701 A KR 1020117023701A KR 20117023701 A KR20117023701 A KR 20117023701A KR 20120034593 A KR20120034593 A KR 20120034593A
Authority
KR
South Korea
Prior art keywords
cancer
protein
proteins
sample
biological fluid
Prior art date
Application number
KR1020117023701A
Other languages
English (en)
Inventor
주안 쿠이
판 리
데이비드 푸에트
셀린 홍
잉 수
Original Assignee
유니버시티 오브 조지아 리서치 파운데이션 인코퍼레이티드
질린 유니벌시티
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 유니버시티 오브 조지아 리서치 파운데이션 인코퍼레이티드, 질린 유니벌시티 filed Critical 유니버시티 오브 조지아 리서치 파운데이션 인코퍼레이티드
Publication of KR20120034593A publication Critical patent/KR20120034593A/ko

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/53Immunoassay; Biospecific binding assay; Materials therefor
    • G01N33/574Immunoassay; Biospecific binding assay; Materials therefor for cancer
    • G01N33/57484Immunoassay; Biospecific binding assay; Materials therefor for cancer involving compounds serving as markers for tumor, cancer, neoplasia, e.g. cellular determinants, receptors, heat shock/stress proteins, A-protein, oligosaccharides, metabolites
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6834Enzymatic or biochemical coupling of nucleic acids to a solid phase
    • C12Q1/6837Enzymatic or biochemical coupling of nucleic acids to a solid phase using probe arrays or probe chips
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/68Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
    • G01N33/6854Immunoglobulins

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Immunology (AREA)
  • Chemical & Material Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Urology & Nephrology (AREA)
  • Hematology (AREA)
  • Cell Biology (AREA)
  • Physics & Mathematics (AREA)
  • Biotechnology (AREA)
  • Microbiology (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Pathology (AREA)
  • Food Science & Technology (AREA)
  • Medicinal Chemistry (AREA)
  • Hospice & Palliative Care (AREA)
  • Oncology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Organic Chemistry (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

본 발명은 생물학적 유체로 분비되는 단백질의 검출을 통해 암을 진단하는 방법과 암을 검출하는 방법을 개시한다. 본 발명은 혈청과 소변으로 분비되는 단백질을 검출하는데 먼저 적용되었다. 그러나, 이 방법은, 다른 생물학적 유체, 예컨대 이에 제한되는 것은 아니나, 타액, 척수액, 정액, 질액, 및 안액에 분비되는 단백질을 검출하기 위한 도구 및 시스템을 개발하기 위한 광범위한 적용성을 가진다는 것을 이해한다. 본 발명의 방법의 구체예를 통해 제공되는 생물학적 유체로 분비되는 단백질의 신뢰할만한 검출은 보다 시기적절하고 적합한 암의 검출 및 진단을 가능하게 한다.

Description

위암 진단용 단백질 마커의 동정{PROTEIN MARKERS IDENTIFICATION FOR GASTRIC CANCER DIAGNOSIS}
본 발명은 대체로 암의 검출 및/또는 진단을 위해 환자의 생물학적 유체에서 단백질 마커를 검출하는 방법에 관한 것이다.
암 분야에서 주요한 도전 중 하나는 초기 단계에 암을 검출할 수 있게 되는 것이다. 초기 암 검출의 도전은 대부분의 암이 그 암과 연관될 수 있는 초기 단계에 분명하게 물리적 증상을 갖지 않는다는 현실이 주요 이유였다. 유방암검사 또는 대장내시경 등의 신체 검사가 효과적인 것으로 검증되었지만, 유방암 또는 직결장암 등의 일정 유형의 암에만 제한된다. 또한, 이러한 신체 검사를 통해 검출되는 경우, 비록 정기적으로 수행된 경우더라도, 암은 이미 초기 단계를 지났을 수 있다. 암이 이미 진행 단계일 때 진단되는 것이 너무나도 빈번하여, 초기 암 검출에 보다 효과적인 기술이 요구된다.
유전자와 단백질 발현 변화는 조직 또는 장기의 생리적 상태에 대한 중요한 단서를 제공한다. 악성 전환 동안, 종양 세포에서의 유전자적 변화가 자가분비 및 주변분비 신호전달 네트워크를 파괴하여 일부 부류의 단백질 예컨대 암성 세포의 외부로 분비될 수 있는 호르몬, 사이토카인, 및 성장 인자 등의 과발현을 초래할 수 있다((Hanahan and Weinberg, 2000; Sporn and Roberts, 1985). 이들 및 다른 분비 단백질은 혈청, 타액, 혈액, 소변, 뇌척수(척수)액, 정액, 질액, 안액, 또는 복합 분비 경로를 통하는 다른 생물학적 유체로 유입될 수 있다.
암이 검출되면 조직 마커 유전자가 암을 등급화하는데 유용할 수 있지만, 특정 암이 의심되고 관련 조직이 증명되지 않으면, 이들은 암 진단에 직접적으로 유용하지 않다. 생물학적 유체로부터의 단백질 마커는 단순한 분석 테스트를 통해 암 검출을 가능케 하므로 실제로 마커 동정을 위한 궁극적인 목표물이다.
그러나, 생물학적 유체(예를 들어, 혈청)에서 암 마커(단백질, 펩티드 또는 다른 분자)의 동정은 암 조직의 유전자 발현 연구와 비교하여 훨씬 더 도전적인 문제를 나타내는데, 분자 조성의 높은 복잡성과, mg/mL 내지 ng/mL 범위로 가능하게는 그 차이가 6자리 만큼 높은, 인간 혈청 내 역동적인 범위의 분자 존재비 때문이다. 예를 들어, 인간 혈청 프로테옴은 고도로 풍부한 천연 혈청 단백질 예컨대 알부민 및 면역글로불린과, 질병 또는 정상 등 다양한 조직에서 분비되거나, 또는 인간 신체 전반의 세포로부터 누출되는 단백질 및 펩티드의 매우 복잡한 혼합물이다(Adkins et al ., 2002; Schrader et al ., 2001). 많은 인자들 예컨대 질환, 식이 및 심지어 정신 상태는 상당히 신속하게 혈청에서 분자 조성과 그 존재비를 변화시킬 수 있다. 이들 이슈를 복합하면, 대부분의 순환하는 천연 혈액 단백질은 대부분의 분비 단백질보다 더욱 그 규모가 풍부하다. 이러한 이슈들은 생체마커 동정을 위한 기준 개체군 및 환자의 생물학적 유체 유래 프로테옴의 직접 비교 분석의 수행을 상당히 어렵게 만들었다.
유전체학 및 단백질체학 기술의 최근 진보는 암의 초기 검출을 위한 효과적인 마커 동정에 대해 새로운 희망과 상당한 열망을 불러 일으켰다. 마이크로어레이 칩 등과 같은 기술을 사용하여 기준 조직 대비 암에서 유전자 발현 패턴의 비교 분석을 통해, 정상 조직 대비 암, 심지어는 매우 초기 단계의 암에서 일부 유전자의 발현 패턴에서의 일관적인 변화를 검출할 수 있게 되었다. 이는 암이 핵심 발병 단계를 통해 진행되면서, 많은 새로운 능력, 예컨대 (a) 성장 신호의 자기 충분성, (b) 항성장 신호에 대한 불감성, (c) 아폽토시스의 회피, (d) 무한한 복제능, (e) 지속적인 혈관생성 및 (f) 조직 침입 및 전이 등을 획득하기 때문에 가능한 것이며, 상기 능력들 각각은 일부 유전자의 "정상" 발현 패턴을 변화시키게 되며, 예를 들어 획득된 능력에 필요한 관련 단백질을 생성하도록 그 발현 수준을 증가시키고; 이들 단백질 중 일부는 혈액 순환계로 분비되어, 혈액 검사를 통해 암 검출에 유용한 가능한 자취를 제공한다.
오믹스 기술을 이용하여, 암 조직과 혈청 둘 모두에서 다수의 마커가 제안되었다. 질량 분광분석법은 생물학적 유체 예컨대 혈청에서 단백질의 단백질체학 연구, 구체적으로 생물학적 유체 예컨대 혈청에서 단백질의 동정 및 정량을 위한 주요 기술이다(Tolson et al ., 2004).
발현된 단백질의 전반적인 패턴은 일부 경우에서는 유용할 수 있지만, 발현되는 단백질의 전반적인 패턴의 높은 복잡성때문에 우수한 마커는 분명히 아니다.
이 분야에서의 일반적인 합의는 현재의 마커가 효과적으로 작용하지 않고, 기본적으로 암 검출, 특히 그 초기 단계에서의 암 검출을 위해 보다 효과적인 마커를 동정하기 위한 새로운 아이디어가 필요하다는 것이다.
이 분야에서 존재하는 부가적인 문제는 암 및 다른 질환을 진단하기 위해, 질환 조직(예컨대 암)에서 비정상적으로 발현되는 유전자 유래의 어떠한 단백질이 생물학적 유체로 분비될 수 있는지에 대해 정확한 예측이 이루어져야 한다는 것이다. 이러한 문제 해결과 관련된 어려움은 단백질이 세포 외부로 분비된 후 하류 국재화에 대한 현재의 이해가 매우 제한적이고, 현재의 지식이 생물학적 유체로의 단백질 분비에 관한 유용한 힌트를 제공하는데 충분하지 않다는 것이다. 따라서, 필요한 것은 어떠한 단백질이 생물학적 유체로 분비될 수 있는 가를 예측하기 위한 데이타 분류법이다.
본 발명자는 컴퓨터 사용법을 이용하여 생물학적 유체에 대해 수행된 단백질체학 연구와 암 조직의 마이크로어레이 데이타로부터 유래된 정보의 통합이 보더 체계적인 방식으로 신규하고 더 유효한 마커를 찾기 위한 새롭고 보다 효과적인 접근법이라고 생각한다.
생물학적 유체로 분비되는 단백질을 검출하여 암을 진단하는 방법과 암을 검출하는 방법을 개시한다. 본 발명의 구체예에서 제공하는 생물학적 유체로 분비되는 단백질의 신뢰할만한 검출은 보다 시기적절하고 정확하게 암을 검출하고 진단할 수 있게 한다.
일 구체예에서, 본 발명은 암을 검출하기 위한 단백질 마커를 결정하는 방법을 개시하고, 이 방법은 a) 암 샘플 및 기준 샘플을 얻는 단계; b) 암샘플과 기준 샘플간에 차별적으로 발현되는 1 이상의 유전자를 결정하는 단계; c) 상기 1 이상의 유전자의 생성물인 1 이상의 단백질을 동정하는 단계; d) 생물학적 유체로 분비되는 1 이상의 단백질의 가능성을 예측하는 단계; 및 e) 생물학적 유체로 분비될 것으로 예측된 1 이상의 단백질의 존재를 생물학적 유체에서 검출하는 단계로서, 생물학적 유체 중 1 이상의 단백질의 검출은 암의 검출을 구성하는 것인 단계를 포함한다.
다른 구체예에서, 본 발명은 암이 있는 환자를 진단하는 방법을 개시하고, 이 방법은 a) 환자로부터 생물학적 유체를 얻는 단계; 및 b) 생물학적 유체에서 1 이상의 마커 단백질의 존재를 검출하는 단계로서, 1 이상의 마커 단백질은 암 샘플과 기준 샘플간에 차별적으로 발현되는 1 이상의 유전자의 생성물이고, 1 이상의 마커 유전자는 생물학적 유체로 분비될 것으로 예측되고 실험적으로 검증된 것이며, 생물학적 유체에서 1 이상의 마커 유전자의 검출은 암의 검출을 구성하는 것인 단계를 포함한다.
제3 구체예에서, 본 발명은 암이 있는 피험체를 진단하는 방법을 개시하고, 이 방법은 a) 피험체로부터 생물학적 유체를 얻는 단계; 및 b) 생물학적 유체에서 1 이상의 마커 단백질의 수준을 측정하는 단계로서, 1 이상의 마커 유전자는 암 샘플과 기준 샘플 간에 차별적으로 발현되는 1 이상의 유전자의 생성물이고, 1 이상의 마커 단백질은 생물학적 유체로 분비될 것으로 예측되고 실험적으로 검증된 것이고, 표준 수준에 대한 생물학적 유체 중 1 이상의 마커 단백질의 차별적 발현은 암을 의미하는 것인 단계를 포함한다.
또 다른 구체예에서, 본 발명은 MUC13, GKN2, COL10A, AZTP1, CTSB, LIPF, GIF, EL 및 TOP2A로 이루어진 군에서 선택된 1 이상의 단백질을 포함하는 암 동정용 마커를 개시하며, 표준 수준에 대해 피험체로부터 얻은 생물학적 유체 중 1 이상의 단백질의 차별적 발현은 피험체에서 암의 존재를 의미한다.
다른 구체예에서, 본 발명은 (a) 생물학적 유체 중 단백질에 특이적으로 결합하는 1 이상의 제1 항체로서, 단백질은 MUC13, GKN2, COL10A, AZTP1, CTSB, LIPF, GIF, EL, 및 TOP2A로 이루어진 군에서 선택되는 것인 제1 항체; (b) 1 이상의 제1 항체에 특이적으로 결합하는 제2 항체; 및 경우에 따라 (c) 기준 샘플을 포함하는 피험체에서 암을 검출하기 위한 키트를 개시한다.
본 발명을 설명하기 위해, 본 발명은 먼저 혈청과 소변으로 분비되는 단백질을 검출하는데 적용하였다. 그러나, 본 발명은 다른 생물학적 유체 예컨대, 이에 제한되는 것은 아니고, 타액, 척수액, 정액, 질액 및 안액으로 분비되는 단백질을 검출하기 위한 도구와 시스템을 개발하기 위해 광범위하게 적용될 수 있음을 이해한다.
도 1은 (a) 전사체의 전체 길이 전반에서 프로브 선별 영역(PSR)을 선택하기 위한 계략도이다. PSR 아래 짧은 점선은 각 PSR에 대한 개별 프로브를 나타낸다(공급처: Affymetrix: GeneChip?Exon Array System for Human, Mouse, and Rat). 보다 밟은 영역은 엑손을 의미하고 진한 영역은 스플라이싱 동안 제거되는 인트론을 의미한다. (b) 3개의 예측되는 이소폼에 대한 PCR 데이타. x-축은 조직 샘플 축(12 조직 샘플)이고, NC는 음성 대조군에 대한 것이다. Y-축은 질량축이다. (i) 엑손 2를 갖는 한 이소폼을 생략하였다; (ii) 대체 엑손 2(아래) 및 엑손 1(위)를 갖는 2 이소폼을 각각 생략하였다. (c) 엑손 이소폼과 프로브의 개략도이다. 긴 수평선은 인간 게놈의 일부를 나타내며, 가장 좁은 직사각형은 엑손을 의미하고, 3개의 넓은 직사각형은 3 엑손 이소폼을 의미하고, 아래쪽 짧은 검은색 선은 프로브를 나타낸다.
도 2는 (a) 기준 조직 대비 암에서 차별적으로 발현되는 총 2,540개 유전자, 및 초기 단계 암에서 차별적으로 발현되는 1,276 유전자의 벤 다이어그램을 도시한 것이다. (b) 암과 기준 조직 간 2,540개 유전자의 차별적 발현 분포도이다.
도 3은 (a) 2,540개의 차별적 발현 유전자, 911개 암 관련 유전자 및 초기 단계 암에서 차별적으로 발현되는 1,276개 유전자의 기능적 패밀리 분포를 도시한 도면이다. (b) 상기 3 유전자 그룹의 세포하 국재 분포도이다(*Cyt.: 세포질; Nuc.: 핵; E.R.: 소포체; Pla.: 원형질막; Ext.: 세포외).
도 4는 (위) 암 조직에서 MUC1의 발현 수준이 성별과 상관없이, 나이에 따라 변화하고; (아래) THY1의 발현은 성별과 나이 둘 모두와 무관함을 보여주는 도면이다.
도 5는 유전자 세브셋에 대한 80 샘플에서 동정된 바이-클러스터를 도시한 도면이고, 각 열은 유전자를 나타내고 각 컬럼은 암/기준 조직의 쌍을 나타낸다. (a) C1(위)은 기준 조직 대비 암에서 일관적으로 상향조절되는 244개 유전자이다; C2(중간)는 대보분 하향조절되는 95개 유전자이다; C3(아래)은 복합 패턴을 보이는 53개 유전자이다. 상이한 바이-클러스터에 대한 조직 샘플의 순서는 알고리즘이 조직 샘플 순서를 재배열하기 때문에 반드시 같을 필요는 없다. (b) 바이-클러스터는 가능하면 아형-특이적이고 42개 유전자로 구성된다. 수직바로 표시된 6개 유전자는 위암 아형과 관련된 것으로 알려져 있다.
도 6은 예측되는 엑손-생략 이벤트 존재와의 바로 상류 인트론 영역(-150nt, +30nt) 내 매칭되는 모티프의 분포를 도시한 박스 다이아그램을 도시한 도면이다.
도 7(a) 수직선으로 표시한 곡선은 k-유전자 마커(k=1,..,100)의 전체 정확도를 나타내며, 500 무작위 선택한 서브세트의 최고 정확도의 평균이다; 심자표시된 곡선은 전수 검사를 통해 동정된, k-유전자 마커(k=1,..,8)의 최고 5-교차 검증 정확도를 나타낸다. (b) 13개 상향 조절 유전자 및 15개 하향조절 유전자로 구성된 최고 28-유전자 마커의 히트맵이다. > 89% 초기 단계 암 환자에서 이들 중 NKAP, TMEM185B, C14orf104, 및 C1orf96은 상향조절되는 반면 KLF15, PI16, 및 GADD45B는 하향조절된다.
도 8은 대조군 및 암 그룹 유래의 모집 혈청 샘플의 MS 총 이온 크로마토그램을 도시한 도면이다. (a) 좌측에 대조군의 베이스 피크이고 우측에 암그룹의 베이스 피크이다; (b) 상이한 분자량 범위에 대한 것이다.
도 9는 8개 단백질: MUC13, GKN2, COL10A1, AZTP1, CTSB, LIPF, GIF, 및 TOP2A에 대한 웨스턴 블랏(SDS-P연령 후 항체와의 후속 블랏팅을 위해 니트로셀룰로스로 이동) 결과로서, 대조군과 위암군 간에 존재비가 다름을 보여주는 도면이다. 1) MUC13(1 ㎍, 희석: 1차 Ab 1:200; 2차 Ab 항토끼, 1:10,000); 2) GKN2 (150 ㎍, 희석: 1차 Ab 1:1,000; 2차 Ab 항토끼, 1:30,000); 3) COL10A1(1 ㎍, 희석: 1차 Ab 1:500; 2차 Ab 항토끼, 1:10,000); 4) AZTP1(120 ㎍, 희석: 1차 Ab 1:500; 2차 Ab 항마우스, 1:3,000); 5) CTSB(5 ㎍, 희석: 1차 Ab 1:1,500; 2차 Ab 항토끼, 1:20,000); 6) LIPF(120 ㎍, 희석: 1차 Ab 1:500; 2차 Ab 항염소, 1:10,000); 7) GIF(120 ㎍, 희석: 1차 Ab 1:5,00; 2차 Ab 항마우스, 1:3,000); 및 8) TOP2A(60 ㎍, 희석: 1차 Ab 1:350; 2차 Ab 항염소, 1:10,000).
도 10은 dp-값= P(TP) 사이의 통계학적 관련성을 도시한 것으로서, d는 양성과음성 훈련 데이타간 개별 초평면으로부터의 거리를 의미한다.
도 11은 주석용 데이타베이스, DAVID(Visualization and Integrated Discovery)에 의해 집중된(enriched) 기능군을 도시한 것이다. DAVID는 대량의 유전자 목록 배후의 생물학적 의미를 이해하기 위한 기능적 주석 도구의 종합적인 세트를 제공한다. x-축은 기능군을 나타내고, y-축은 집중성을 의미한다.
도 12는 KEGG 오르쏠로지-기반 주석 시스템(KOBAS) 웹서버를 이용한 480개의 예측 소변 단백질에 대해 집중된 경로를 나타낸 것이다. KOBAS는 배경 분포와 비교하여 문의한 서열 중 빈번하게 존재(유의하게 강화)하는 경로를 동정한다. 각 군에서 짧은 바는 480 단백질의 비율을 나타내고, 각 군에서 긴 바는 모든 인간 단백질을 나타낸다; x-축은 경로 명칭을 나타내고; y-축.
도 13은 480개 단백질에 대한 과소 경로를 나타낸다. 각 군에서 짧은 막대는 480 단백질의 비율을 나타내고; 각 군에서 보다 긴 막대는 모든 인간 단백질을 나타내며; x-축은 경로 명칭이고; y-축은 비율을 나타낸다.
도 14는 3개 정상 샘플(N1, N2, N3) 및 3개 위암 샘플(SC1, SC5, SC11)에 대한 274 사이토카인 항체 어레이를 도시한 것이다. 인간 G6 어레이는 Fit3-리간드(흰색 직사각형)를 보여주는 것이고; 인간 G7 어레이는 EGF-R(진한 회색 직사각형), SGP-130(흰색 직사각형)을 보여주는 것이고; 인간 G8 어레이는 PDGF-AA(흰색 직사각형)을 보여주는 것이며; 인간 G9 어레이는 Trappin-2(연회색 직사각형), 황체형성 호르몬(흰색 직사각형), TIM-1(진회색 직사각형)을 보여주는 것이고; 인간 G10 어레이는 CEACAM1(연회색 직사각형), FSH(흰색 직사각형), CEA(진회색 직사각형)을 보여주는 것이다.
도 15는 3개 암 샘플(GC) 및 3개 대조군 샘플(CTRL)에서 뮤신13에 대한 웨스턴 블랏을 도시한 도면이다. 각 레인은 1 ㎍의 소변 샘플을 포함한다. Santa Cruz 뮤신 13(M-250) 토끼 다클론 항체를 1:200 희석하여 사용하였고; 항토끼 2차 항체는 1:10,000 희석하여 사용하였다.
도 16은 3개 대조군 샘플(CTRL) 및 3개 암 샘플(GC)에서 COL10A1에 대한 웨스턴 블랏을 도시한 도면이다. 각 레인은 1 ㎍의 소변 단백질을 포함한다. Calbiochem 항 X형 콜라겐 토끼 pAb를 1:200 희석하여 사용하였고; 항토끼 2차 항체를 1:10,000 희석로 희석하여 사용하였다.
도 17(위)은 3개 대조군 샘플(CTRL) 및 3개 위암 샘플(GC)에서 내피 리파아제(EL)에 대한 웨스턴 블랏을 도시한 도면이다. 각 레인은 1 ㎍의 소변 단백질을 포함한다. EL에 대해 사용된 항체는 Santa Cruz EL(C-19) 친화성 정제된 다클론 항체(1:200 희석)이고; 항염소 2차 항체는 1:15,000 희석하여 사용하였다. (아래) 처음 7 레인은 정상 샘플에 해당하고; 나중 7 레인은 암 샘플이다.
도 18은 전립선암 및 대조군 데이타에 대한 최고의 1개 유전자 및 2개 유전자 마커를 통한 분류 성능을 도시한 것이다. y-축은 분류 정확도이고 x-축은 그 분류 정확도를 통해 분류한 상위 100 마커의 목록이다.
도 19는 바이오틴 표지-기반 항체 어레이를 이용한 단백질 어레이 실험의 결과를 도시한 것이다. 도 19는 암과 기준 혈청 간 103개 단백질 전반에서 단백질 존재비 차이의 분포를 도시한 것이고, x-축은 그 존재비 차의 로그-값의 높은 순으로 분류된 103 단백질의 목록이고, y-축은 존재비 차의 로그-값이다.
본 발명을 이제 첨부된 도면을 참조하여 설명한다. 본 발명의 도면은 반드시 축척에 따라 그려야하는 것은 아니고 이들 도면 및 설명은 단지 본 발명을 설명하려는 것이고 이에 제한하려는 것이 아님을 이해한다.
본 발명은 단백질이 생물학적 유체, 예컨대 이에 제한되는 것은 아니고, 혈청, 타액, 혈액, 소변, 척수액, 정액, 질액, 및 안액으로 분비되는지 여부를 예측하고, 단백질체학 실험으로 생물학적 유체에 그러한 단백질이 존재하는지 결정하여 상기 예측을 검증하여 암을 검출하는 방법에 관한 것으로서, 여기서 생물학적 유체 내 그러한 단백질의 검출은 암의 검출을 구성한다. 본 발명은 환자의 생물학적 유체에서, 암 조직에서 비정상적으로 발현되는 유전자로부터 발현되는 1 이상의 마커 단백질의 존재를 검출하여 암이 있는 환자를 진단하는 방법을 포함하고, 여기서 마커 단백질은 생물학적 유체로 분비될 것으로 예측되어 실험적으로 검증되는 것이고, 생물학적 유체에서 마커 단백질의 검출은 암의 검출을 구성한다.
임의의 다양한 생물학적 유체가 본 발명의 장치 및 방법을 이용해 분석하는 것이 가능하다. 이러한 유체는 뇌척수액, 관절낭액, 혈액, 혈청, 혈장, 타액, 장액, 정액, 눈물, 코분비물 등을 포함한다. 임의의 유동성 생물학적 샘플(예를 들어, 조직 또는 생검 추출물, 배설물의 추출물, 객담 등)도 유사하게 본 발명에 따라 적용될 수 있다.
이하의 내용에서, 설명의 목적으로, 특정 숫자, 매개변수 및 시약이 본 발명의 철저한 이해를 제공하기 위해 기술된다. 그러나, 본 발명은 이러한 특정사항없이 실시될 수 있음을 이해한다. 일례에서, 잘 알려진 특징들은 본 발명을 모호하게 하지 않도록 생략하거나 또는 단순화될 수 있다.
기술된 구체예(들), 및 "일 구체예", "본 발명의 구체예", "구체예", "예시적인 구체예" 등에 대한 설명에서의 언급은 기술된 구체예(들)이 구체적인 특징, 구조 또는 특성을 포함할 수 있음을 의미하지만, 모든 구체예가 반드시 구체적인 특징, 구조 또는 특성을 포함할 필요는 없다. 또한, 이러한 어구가 반드시 동일한 구체예를 언급하는 것은 아니다. 또한, 구체적인 특징, 구조 또는 특성을 구체예와 연관지어 설명한다. 명백하게 기술하건 또는 그렇지 않건 다른 구체예와 연관지어 이러한 특성, 구조 또는 특징에 영향을 준다는 것은 당분야에서 공지임을 이해한다.
본원에서 단수형은 단수형 또는 복수형을 의미할 수 있다. 예를 들어, 특성, 단백질, 생물학적 유체 또는 분류사의 기술은 단일 특성, 단백질, 생물학적 유체, 또는 분류사를 의미할 수 있다. 다르게, 특성, 단백질, 생물학적 유체, 또는 분류사의 기술은 복수의 특성, 단백질, 생물학적 유체 또는 분류사를 의미할 수 있다. 따라서, 본원에서 사용되는 단수형은 단수형이거나 복수형일 수 있다. 유사하게, 복수의 항목에 대한 언급 및 설명은 단일 항목을 의미할 수 있다.
본원에서 구체예를 "포함하는"을 사용해 기술하는 경우에는 언제든지, 그렇지 않으면 "이루어지는" 및/또는 "실질적으로 이루어지는"으로 기술된 유사한 구체예도 제공할 수 있음을 이해한다.
명세서는 생물학적 유체에서 마커 단백질의 존재를 검출하여 암을 검출 및 진단하는 일반적인 접근법을 기술한다. 혈청에서 마커 단백질을 검출하기 위한 특정의 예시적인 구체예를 본원에서 제공한다. 이 명세서는 본 발명의 특징을 포함하는 1 이상의 구체예를 개시한다. 개시된 구체예(들)은 단지 본 발명을 예시하려는 것이다. 본 발명의 범주는 개시된 구체예(들)에 제한되지 않는다. 본 발명은 본원에 첨부된 청구항에 의해 한정된다.
청구된 방법 및 명세서 내 상응하는 그 설명이 대체로 암 검출용 단백질 마커를 검출하는 특징을 청구하고 있지만, 이러한 단백질 마커의 존재에 대해 샘플을 분석하고 이러한 마커 단백질이 없음을 확인하여, 암을 진단하지 않는 것이 여전히 단백질 마커의 존재를 검출하는 것임을 이해한다.
정의
용어 "폴리펩티드", "펩티드", "단백질", 및 "단백질 단편"은 아미노산 잔기의 중합체를 의미하는 것으로 본원에서 상호교환적으로 사용된다. 이 용어는 1 이상의 아미노산 잔기가 상응하는 천연 발생 아미노산의 인공적 화학 모방체인 아미노산 중합체와, 천연 발생 아미노산 중합체 및 비천연 발생 아미노산 중합체에 적용된다. 본원에서 사용되는, "단백질" 또는 "펩티드"는 대체로, 이에 제한되는 것은 아니고, 유전자로부터 번역되는 약 200 아미노산 이상 내지 전체 길이 서열의 단백질; 약 100 내지 200 아미노산의 폴리펩티드; 및/또는 약 3 내지 약 100 아미노산의 "펩티드"를 의미한다. 본원에서 사용되는, "아미노산"은 당분야에 알려진 임의의 천연 발생 아미노산, 임의의 아미노산 유도체 또는 아미노산 모방체를 의미한다. 일정 구체예에서, 단백질 또는 펩티드의 잔기는 아미노산 잔기의 서열을 중단시키는 임의의 비아미노산 없이, 순차적이다. 다른 구체예에서, 서열은 1 이상의 비아미노산 모이어티를 포함할 수 있다. 특정 구체예에서, 단백질 또는 펩티드 잔기의 서열은 1 이상의 비아미노산 모이어티에 의해 개재될 수 있다.
용어 "아미노산"은 천연 발생 및 합성 아미노산과, 천연 발생 아미노산과 유사하게 기능하는 아미노산 유사체 및 아미노산 모방체를 의미한다. 천연 발생 아미노산은 유전자 코드에 의해 코딩되는 것과, 후에 변형되는 아미노산, 예를 들어 히드록시프롤린, 감마-카르복시글루타메이트 및 O-포스포세린이다. 아미노산 유사체는 예를 들어, 호모세린, 노르루신, 메티오닌 설폭시드, 메티오닌 메틸 설포늄 등, 예를 들어 수소, 카르복실기, 아미노기 및 R 기에 결합된 알파 탄소 등, 천연 발생 아미노산과 동일한 기본 화학 구조를 갖는 화합물을 의미한다. 이러한 유사체는 변형된 R 기(예를 들어, 노르루신) 또는 변형된 펩티드 골격을 가질 수 있으나, 천연 발생 아미노산과 동일한 기본 화학 구조를 보유한다. 아미노산 모방체는 일반적인 아미노산의 화학 구조와는 상이한 구조를 갖지만, 천연 발생 아미노산과 유사하게 기능하는 화학적 화합물을 의미한다.
본원에서 사용되는, 피험체 또는 환자에서 "암"은 암 유발 세포의 전형적인 특징, 예컨대 비제어적인 증식, 불멸성, 전이능, 신속한 성장 및 증식률 및 일정 특징적 형태상 특성을 보유하는 세포의 존재를 의미한다. 흔히, 암 세포는 종야의 형태일 수 있지만, 이러한 세포는 피험체 내에 단독으로 존재하거나, 또는 비종양발생성 암 세포, 예컨대 백혈병 세포일 수 있다. 일부 상황에서, 암 세포는 종양의 형태일 수 있으며, 이러한 세포는 동물 체내에서 국소적으로 존재하거나, 또는 독립 세포로서, 예컨대 백혈병 세포로서 혈류를 순환할 수 있다. 암의 예는 이에 제한되는 것은 아니고, 유방암, 흑색종, 부신암, 담도암, 방광암, 뇌 또는 중추신경계 암, 기관지암, 아세포종, 암종, 연골육종, 구강 또는 인두의 암, 자궁경부암, 결장암, 직결장암, 식도암, 위장암, 교모세포종, 간암종, 간세포암, 신장암, 백혈병, 간암, 폐암, 림프종, 비소세포 폐암, 골육종, 난소암, 췌장암, 말초신경계 암, 전립선암, 육종, 타액선암, 소장 또는 맹장암, 소세포 폐암, 편평세포 암, 위암, 고환암, 갑상선암, 방광암, 자궁 또는 자궁내막암, 및 음문암을 포함한다.
본원에서 사용되는, "샘플"은 환자, 바람직하게는 인간 환자로부터 얻은 생물학적 물질의 샘플을 의미하고, 조직, 조직 샘플, 세포 샘플, 예를 들어 조직 생검, 예컨대 흡인 생검, 브러쉬 생검, 표면 생검, 바늘 생검, 펀치 생검, 절개 생검, 개방 생검, 절제 생검 또는 내시경 생검), 종양 샘플 또는 조직 샘플에서 추출된 RNA 등을 포함한다. 샘플은 또한, 생물학적 유체 샘플일 수 있으며, 이에 제한되는 것은 아니고, 소변, 혈액, 혈청, 혈소판, 타액, 뇌척수액, 유두 분비물, 및 세포 용해물(예를 들어, 전체세포 용해물의 상등액, 마이크로솜 분획, 막분획 또는 세포질 분획) 등을 포함할 수 있다. 샘플은 당분야에 공지된 임의 방법을 이용해 획득될 수 있다.
"생물학적 샘플"은 개체로부터 얻은 임의의 생물학적 샘플을 의도하는 것이고, 이에 제한되는 것은 아니나, 배설물(대변) 샘플, 생물학적 유체(예를 들어, 혈액), 세포, 조직 샘플, 또는 조직 배양물을 포함한다. 포유동물로부터 대변 샘플, 조직 생검 및 다른 생물학적 샘플을 얻는 방법은 당분야에서 공지이다.
본원에서 사용되는, "조직 샘플"은 피험체의 온전한 조직에서 얻거나 또는 분리한 조직의 일부분, 조각, 부분, 절편 또는 단편을 의미한다.
용어 "유전자"는 폴리펩티드, 전구체, 또는 RNA(예를 들어, rRNA, tRNA)의 생성을 위해 필요한 코딩 서열을 포함하는 핵산(예를 들어, DNA) 서열을 의미한다. 용어 "유전자"는 유전자의 게놈형 및 cDNA 형태 둘 모두를 포함한다.
유전자의 클론 또는 게놈형은 "인트론" 또는 "개재 영역" 또는 "개재 서열"이라고하는 비코딩 서열이 개재된 코딩 영역 또는 "엑손"을 포함한다. 인트론은 핵 또는 1차 전사체로부터 제거 또는 "스플라이싱"되고; 따라서 인트론은 메신저 RNA(mRNA) 전사체에는 존재하지 않는다. 인트론을 포함하는 것 이외에도, 유전자의 게놈형은 또한 RNA 전사체 상에 존재하는 서열의 5'과 3' 말단 둘 모두 상에 위치하는 서열을 포함할 수 있다. 이러한 서열을 "측접" 서열 또는 영역(이들 측정 서열은 mRNA 전사체 상에 존재하는 비번역 서열에 대해 5' 또는 3'에 위치함)을 의미한다.
"인트론" 또는 "엑손"은 특정 mRNA 스플라이싱 변이체와 관련되고, 스플리아싱된 변이체의 엑손은 다른 것의 인트론일 수 있고, 그 반대의 경우일 수도 있음을 이해한다. 그러나, 한 스플라이싱 변이체 내에서, "인트론"은 "엑손"일 수 없고, 그 반대도 불가하다. 이들 용어 "인트론" 및 "엑손"은 본원에서 편리함과 분명함을 위해 사용되며 제한하려는 의도는 없다.
본원에서 사용되는 용어 "유전자 발현"은 내생성 유전자, ORF 또는 이의 일부분, 또는 식물의 형질전환유전자에 코팅된 유전 정보를 내생성 유전자, ORF 또는 이의 일부분, 또는 식물의 형질전환 유전자의 "전사"(예를 들어, RNA 중합효소의 효소 작용에 의함)를 통해 RNA(예를 들어, mRNA, rRNA, tRNA, 또는 snRNA)로 전환시키고, 단백질 코딩 유전자에 대해서는, mRNA의 "번역"을 통해 단백질로 전환시키는 과정을 의미한다. 또한, 발현은 센스(mRNA) 또는 기능성 RNA의 전사 및 안정한 축적을 의미한다. 유전자 발현은 과정 중 많은 단계에서 조절될 수 있다. "상향조절" 또는 "활성화"는 유전자 발현 산물(예를 들어, RNA 또는 단백질)이 생성을 증가시키는 조절을 의미하는 반면, "하향조절" 또는 "억제"는 생성을 감소시키는 조절을 의미한다. 상향조절 또는 하향조절에 관여하는 분자(예를 들어, 전사 인자)는 흔히 각각 "활성인자" 및 "억제인자"라고 불린다.
용어 "차별적으로 발현되는 유전자", "차별적 유전자 발현" 및 이의 동의어는 서로 교환적으로 사용되며, 그 발현이 질환, 특히 암, 예컨대 위암을 앓는 피험체에서, 정상 또는 대조군 피험체에서의 그 발현보다 높거나 낮은 수준으로 활성화되는 유전자를 의미한다. 이러한 용어는 또한 그 발현이 동일 질환의 다른 병기에서 높거나 또는 낮은 수준으로 활성화되는 유전자를 포함한다. 또한, 차별적으로 발현되는 유전자는 핵산 수준 또는 단백질 수준에서 활성화 또는 억제될 수 있거나, 또는 상이한 폴리펩티드 생성물이 만들어지도록 대체 스플라이싱될 수 있음을 이해한다. 이러한 차이는 예를 들어, mRNA 수준, 표면 발현, 분비 또는 다른 폴리펩티드의 분할 등에서의 변화를 통해 증명될 수 있다. 차별적 유저나 발현은 2 이상의 유전자 또는 그들 유전자 산물 간의 발현 비교, 또는 2 이상의 유전자 또는 그 유전자 산물 간의 발현 비율 비교, 또는 질환, 특히 암을 앓는 피험체아 정상 피험체간에, 또는 동일 질환의 다른 병기 간에 다른, 동일 유전자의 2개의 차별적으로 처리되는 생성물의 비교를 포함할 수 있다. 차별적 발현은 예를 들어 상이한 질환 사건 또는 질환 병기를 겪는 세포들 간에, 또는 정상 및 질환 세포 간에 유전자 또는 그 발현 생성물의 일시적 또는 세포적 발현 패턴에서의 양적 그리고 질적 차이 둘 모두를 포함한다. 본 발명의 목적을 위해, "차별적 유전자 발현"은 정상 및 질환 피험체에서, 또는 질환 피험체의 다양한 질환 진행 병기에서 소정 유전자의 발현 간 차이가 약 1.5배 이상, 2배 이상, 바람직하게는 약 4배 이상, 더욱 바람직하게는 약 6배 이상, 가장 바람직하게는 약 10배 이상일 때 존재한다고 판단한다.
본원에서 사용되는 용어 "피험체" 또는 "환자"는 이에 제한되는 것은 아니고, 특정 진단의 대상이 되거나 또는 암이 있는 것으로 의심이 되는, 인간, 인간 이외의 영장류, 설치류 등을 포함하는, 임의의 동물(예를 들어, 포유동물)을 의미한다. 대체로, 용어 "피험체" 및 "환자"는 본원에서 인간 피험체와 관련하여 상호교환적으로 사용된다.
본원에서 사용되는 "정상 피험체" 또는 "대조군 피험체"는 질환을 앓지 않는 피험체를 의미한다.
"치료하는" 또는 "치료" 또는 "치료하기 위한" 또는 "완화하는" 또는 "완화하기 위한" 등의 용어는 1) 진단된 병적 상태 또는 질환의 증상을 치유, 완화, 경감 및/또는 중단시키는 치료적 조치, 및 2) 표적이 되는 병적 상태 또는 질환의 진행을 예방 및/또는 지연시키는 예방적 또는 방지적 조치를 의미한다. 따라서, 치료를 필요로하는 대상은 질환이 이미 있는 대상; 질환에 대한 소인이 있는 대상; 및 질환을 예방해야되는 대상이 포함된다. 피험체는 환자가 하기 중 1 이상을 보이면 본 발명의 방법에 따라 성공적으로 "치료된다": 종양 크기 감소; 예를 들어, 연조직 및 뼈로 암의 전개를 포함하여, 주변 장기로 암 세포의 침윤 억제 또는 부재; 종양 전이의 억제 또는 부재; 종양 성장의 억제 또는 부재; 특정 암과 연관된 1 이상의 증상의 경감; 이환율 및 사망률 감소; 생의 질 개선; 또는 효과의 일부 조합.
본원에서 사용되는 용어 "분류자"는 데이타 분류를 수행하기 위한 방법, 알고리즘, 컴퓨터 프로그램 또는 시스템을 의미한다.
본원에서 사용되는 용어 "분류"는 공지된 부류에 속하는 수집된 데이타점 간 공통 특징을 확인하여 개별 데이타점을 상이한 부류로 지정하는 과정이다. 분류는 신경망, 회귀분석, 또는 다른 기술을 이용해 실시할 수 있다.
본원에서 사용되는 용어 "데이타 분류법"은 소정의 데이타 세트 내 개별 데이타 성분이, 제공된 각 데이타 성분의 특징값을 기초로 어떠한 서전의된 부류에 속하는지 결정하려고 시도하는 컴퓨터 방법의 일반적은 부류를 의미한다.
용어 "항체 기반 결합 모이어티" 또는 "항체"는 면역글로불린 분자 및 면역글로불린 분자의 면역학적 활성 결정체, 예를 들어 단백질에 특이적으로 결합(면역반응)하는 항원 결합 부위를 함유하는 분자를 포함한다. 용어 "항체 기반 결합 모이어티"는 예를 들어, 임의 이소타입(IgG, IgA, IgM, IgE 등)의 전체 항체를 포함시키고자 하는 것이며, 또한 프로히비틴, 또는 그 단편과 특이적으로 반응하는 이의 단편이 포함된다. 항체는 통상의 방법을 이용해 단편화될 수 있다. 따라서, 이 용어는 일정 단백질과 선택적으로 반응할 수 있는 항체 분자의 단백질가수분해 절단된 절편 또는 재조합적으로 제조된 부분을 포함한다. 이러한 단백질가수분해 및/또는 재조합 단편의 비제한적인 예에는 Fab, F(ab')2, Fab', Fv, dAbs 및 펩티드 링커에 의해 결합된 VL 및 VH 도메인을 포함하는 단쇄 항체(scFv)를 포함한다. scFv는 공유적으로 또는 비공유적으로 결합되어 2 이상의 결합 부위를 갖는 항체를 형성시킬 수 있다. 따라서, "항체 기반 결합 모이어티"는 다클론, 단일클론 또는 다른 정제된 항체 조제물 및 재조합 항체를 포함한다. 용어 "항체 기반 결합 모이어티"는 인간화 항체, 이중특이적 항체, 및 항체 분자로부터 유도된 1 이상의 항원 결합 결정부를 갖는 키메라 분자를 더욱 포함시키고자 한다. 바람직한 구체예에서, 항체 기반 결합 모이어티는 검출가능하게 표지화된다.
"표지된 항체"는 본원에서 사용시, 검출가능한 수단으로 표지된 항체를 포함하는 것이고, 이에 제한되는 것은 아니며, 효소적으로, 방사능적으로, 형광발광적으로, 그리고 화학발광적으로 표지된 항체를 포함한다. 항체는 또한, 검출가능한 태그, 예컨대 c-Myc, HA, VSV-G, HSV, FLAG, V5, 또는 HIS로 표지될 수 있다.
본 발명의 일 측면에서, 암 검출용 혈청 단백질 마커를 결정하는 방법을 제공하고, 이 방법은 a) 암 샘플 및 기준 샘플을 얻는 단계; b) 암 샘플과 기준 샘플 간에 차별적으로 발현되는 1 이상의 유전자를 결정하는 단계; c) 상기 1 이상의 유전자의 생성물인 1 이상의 단백질을 동정하는 단계; d) 1 이상의 단백질이 생물학적 유체로 분비되는 가능성을 예측하는 단계; 및 e) 생물학적 유체에서, 생물학적 유체로 분비될 것으로 예측되는 1 이상의 단백질의 존재를 검출하는 단계로서, 생물학적 유체에서 1 이상의 단백질의 검출은 암의 검출을 구성하는 것인 단계를 포함한다.
암 샘플과 기준 샘플은 동일 피험체 또는 다른 피험체에서 얻을 수 있다. "기준 샘플"은 암을 갖지 않는 1 이상의 정상 피험체에서 결정시 1 이상의 유전자의 발현을 기본량으로 포함하는 샘플을 의미한다. 기본값은 1 이상의 패험체에서 얻을 수 있고 바람직하게는 평균 피험체(예를 들어, n=2 내지 100 또는 그 이상)로부터 얻으며, 여기서 피험체 또는 피험체들은 이전에 암 병력이 없다. 기본값은 또한 암을 갖는 것으로 의심되는 피험체 유래 1 이상의 정상 샘플로부터 얻을 수 있다. 예를 들어, 기본값은 1 이상의 정상 샘플로부터 얻을 수 있고, 바람직하게는 정상 샘플의 평균(예를 들어, n=2 내지 100 또는 그 이상)으로부터 얻으며, 여기서 피험체는 암을 갖는 것으로 의심된다. 일 측면에서, 1 이상의 유전자의 발현은 기준 샘플과 비교하여 암 샘플에서 증가될 수 있다. 다른 측면에서, 1 이상의 유전자의 발현은 기준 샘플과 비교하여 암 샘플에서 감소될 수 있다.
유전자 발현 분석
암 샘플과 기준 샘플간에 차별적으로 발현되는 1 이상의 유전자의 결정은 암 샘플과 기준 샘플로부터 핵산의 단리를 포함한다. 핵산 샘플은 전체 RNA, cDNA 샘플, 폴리(A) RNA, 1 이상의 RNA가 고갈된 RNA 샘플, 예를 들어 rRNA가 고갈된 RNA 샘플 또는 RNA의 증폭 산물일 수 있다. 일 측면에서, 샘플은 포유동물, 예를 들어, 인간, 래트 또는 마우스 유래이다. 샘플은 예를 들어, 혈액, 폐, 심장, 신장, 췌장, 전립선, 고환, 자궁, 뇌 또는 피부를 포함하는, 조직에서 단리될 수 있다.
암 샘플과 기준 샘플 간에 차별적으로 발현되는 유전자는 이에 제한되는 것은 아니고, 마이크로어레이 프로파일링, 중합효소 연쇄 반응법(PCR), 폴리뉴클레오티드의 혼성화 분석법을 기반으로 하는 방법, 폴리뉴클레오티드의 서열분석을 기반으로 하는 방법, 대체 유전자 스플라이싱의 분석을 기반으로 하는 방법, 및 단백질체학 기반 방법을 포함하는, 당분야에 공지된 임의의 수단을 통해 분석될 수 있다.
생물학적 샘플에서 RNA의 정량을 통해 유전자 발현을 연구하기 위한 당분야에 공지된 광범위하게 사용되는 방법은 당분야에서 통상적인 방법들인, 마이크로어레이 분석법, 노던 블랏 분석법(Harada, 1990), 및 인 시츄 혼성화법(Parker & Barnes, 1999); RNAse 보호 분석법(Hod, 1992); S1 뉴틀레아제 맵핑(Fujita et al ., 1987) 및 PCR-기반법, 예컨대 역전사 중합효소 연쇄 반응법(RT-PCR)(Weis et al ., 1992), 정량 RT-PCR 및 리가아제 연쇄 반응법(LCR) (Barany, 1991) 등을 포함한다. 다르게, DNA 듀플렉스, RNA 듀플렉스, 및 DNA-RNA 하이브리드 듀플렉스 또는 DNA-단백질 듀플렉스를 포함한 서열-특이적 듀플렉스를 인식할 수 있는 항체를 적용할 수 있다. 서열분석-기반 유전자 발현 분석을 위한 대표적인 방법은 유전자 발현의 연속 분석법(SAGE), 및 대량 평행 시그내쳐 서열분석을 통해 유전자 발현 분석법(MPSS)을 포함한다.
일 구체예에서, 암 샘플과 기준 샘플간에 차별적으로 발현되는 1 이상의 유전자의 결정은 암 샘플과 기준 샘플로부터 전체 RNA의 단리를 포함한다. 전체 RNA 추출을 위한 일반적인 방법은 당분야에 공지이고 [Ausubel et al ., Current Protocols of Molecular Biology, John Wiley and Sons (1997)]를 포함한, 분자 생물학의 표준 교재에 개시되어 있다.
바람직한 구체예에서, 기준 샘플 대비 암에서 차별적으로 발현되는 유전자는 암 샘플과 기준 샘플로부터 단리된 전체 RNA의 마이크로어레이 분석을 이용해 연구된다.
다른 구체예에서, 기준 샘플 대비 암에서 차별적으로 발현되는 유전자는 노던 블랏 분석을 이용해 연구된다.
또 다른 구체예에서, 기준 샘플 대비 암에서 차별적으로 발현되는 유전자는 RNAse 보호 분석법을 이용해 연구된다.
다른 구체예에서, 기준 샘플 대비 암에서 차별적으로 발현되는 유전자는 단리된 세포 RNA를 대상 RNA의 5'에 상동성인 방사성표지된 합성 DNA 서열과 혼성화하여 RNA 발현을 평가하여 결정된다.
다른 구체예에서, 기준 샘플 대비 암에서 차별적으로 발현되는 유전자는 중합효소 연쇄 반응법(PCR)을 이용해 연구된다.
다른 구체예에서, 기준 샘플 대비 암에서 차별적으로 발현되는 유전자는 RT-PCR을 이용해 연구된다.
RT-PCR 기술의 보다 최근 별법은 실시간 정량 PCR로서, 이중 표지된 형광발광성 프로브(즉, TaqMan™ 프로브)를 통해 PCR 생성물 축적을 측정하는 것이다. 실시간 PCR는 각 표적 서열에 대한 내부 경쟁인자를 정규화에 사용하는 정량 경쟁 PCR과, 샘플에 함유된 정규화 유전자, 또는 RT-PCR용 하우스키핑 유전자를 이용하는 정량 경쟁 PCR 둘 모두와 상용성이다. 추가 상세설명을 위해, 예를 들어, [Held et al ., 1996]를 참조한다.
PCR 대신, 다른 방법으로, 예컨대 "리가아제 연쇄 반응법"("LCR")을 유전자 발현 연구에 사용할 수 있다(Barany, 1991).
추가의 PCR-기반법은 예를 들어, 차별적 디스플레이법(Liang and Pardee, 1992); 증폭된 단편 길이 다형성(iAFLP)(Kawamoto et al ., 1999); BeadArray™ 기술(Illumina, San Diego, Calif.; Oliphant et al ., Discovery of Markers for Disease(Supplement to Biotechniques), June 2002; Ferguson et al ., 2000); 유전자 발현을 위한 신속한 분석으로 시판되는 Luminex100 LabMAP 시스템 및 복수 색상-코딩된 미세구를 이용하는, 유전자 발현 검출용 비드어레이(BADGE)(Luminex Corp., Austin, Tex.); 및 고적용범위 발현 프로파일링(HiCEP) 분석법(Fukumura et al ., 2003)을 포함한다.
본 발명의 다른 구체예에서, 기준 샘플 대비 암에서 차별적으로 발현되는 유전자는 유전자 발현의 연속 분석법(SAGE)을 이용해 연구된다.
본 발명의 다른 구체예에서, 기준 샘플 대비 암에서 차별적으로 발현되는 유전자는 대량 평행 시그내쳐 서열분석법(MPSS)을 이용해 연구된다. 이 방법에 대한 상세 설명은, 예를 들어, [Brenner et al ., (2000)]를 참조한다.
암 마커에 대한 이전 연구들은 아주 최근까지도 효과적인 연구 기술이 없었기 때문에, 유전자의 대체 스플라이싱에 의해 생성된 스플라이싱 변이체, 인간 전사체의 대부분이 제외되어, 전체 인간 전사체를 연구할 수가 없었다. 따라서, 본 발명의 다른 구체예에서, 기준 샘플 대비 암에서 차별적으로 발현되는 유전자는 기준 샘플 대비 암에서 차별적으로 발현되는 유전자의 스플라이싱 변이체의 동정을 통해 연구된다.
대체 스플라이싱은 복수의 성숙한 mRNA 전사체가 엑손의 상이한 부분의 포함 및/또는 인트론의 체류를 통해 동일한 프리-mRNA로부터 생성될 수 있는 진핵생물 세포의 프로세스이다. 인간 유전자의 적어도 40-75%가 상이한 조건 하에서 대체 스플라이싱을 겪는 것으로 추정된다(Modrek and Lee, 2002). 대체 스프라이싱은 인간 전사체 및 단백질체의 복잡성을 대부분 책임진다. 이전의 추정치는 인간 단백질체가 ?20,000 유전자에 의해 코딩되는, 적어도 ?100,000, 및 가능하게는 최대 ?150,000 단백질을 가진다고 시사하였고, 이는 각 인간 유전자가 평균 5-7개 단백질을 코딩함을 의미한다. 따라서, 인간 세포 내 대부분의 기능성 단백질은 스플라이싱 이소폼이고, 유전자 발현 및 단백질, 본 경우에서는, 생물학적 유체 내 마커 단백질을 연구시 스플라이싱 변이체의 연구가 필요함을 시사한다.
대체 스플라이싱은 정상 및 비정상적인 기능적 프로세스 둘 모두로, 인간(Nakao et al ., 2005)의 많은 생물학적 프로세스에 관여하는 것으로 알려져 있다. 탈선 스플라이싱은 세포의 정상 기능에 심각한 영향을 줄 수 있다. 최근 연구는 12 암 유형에서 발생하는 p53의 스플라이싱 부위에서의 29 돌연변이를 고찰하였다(Holmila et al ., 2003). 다른 최근의 연구는 ?200 유전자의 464 스플라이싱 변이체가 인간 전립선암에서 차별적으로 발현됨을 확인하였다(Li et al., 2006).
일 구체예에서, Affymetrix가 최근 개발한 엑손-어레이 기술은 대체 스플라이싱 연구를 위한 강력한 수단을 제공한다.
엑손 어레이 데이타의 분석은 이러한 어레이용 기본 유닛이 유전자이기 보다는 엑손이기 때문에 힘든 문제를 갖는다. 엑손 어레이 데이타로부터, RMA(Robust Multichip Average)(Irizary et al ., 2003) 및 PLIER(Probe Logarithmic Intensity Error) 추정법(Affymetrix, 2005) 등의 방법을 이용해, 개별 엑손의 발현 수준을 추정할 수 있고, 그로부터, 엑손의 발현 수준의 유사도를 기초로, 주요한 스플라이싱 이소폼을 가능하게 추론할 수 있다. 소정 조직에서, 다른 발현 수준으로 각 유전자에 대해 발현되는 1개가 넘은 스플라이싱 이소폼이 존재할 수 있어서, 각 엑손에 대해 관찰되는 발현 수준이 이러한 엑손을 포함하는 모든 발현된 스플라이싱 이소폼의 전체 발현 수준이라는 것이 도전이다. 컴퓨터사용 문제는 어떠한 스플라이싱 이소폼이 어떠한 수준으로 발현되는지 알아내는 것이고, 예측되는 결과는 대개는 노이즈인, 엑손 발현 데이타와 일관적이어야 한다. 엑손 어레이 데이타를 해석하기 위해 디자인된 컴퓨터 프로그램 예컨대 ANOVA(Affymetrix, 2005)가 존재하지만, 엑손 어레이가 겨우 2006년 이후로 광범위하게 사용되기 시작했기 때문에 새로운 이슈가 나타난다는 것이 문제이다. 여전히 엑손 어레이 데이타 해석과 관련된 도전적인 미해결 문제가 다수 존재한다. 이들 중에서 핵심 이슈는 주요 스플라이싱 이소폼 및 그 발현 수준을 신뢰할만하게 예측하는 것이다.
조직으로부터 혈액 순환계로 분비될 수 있는 단백질의 예측
유전자 발현 데이타 분석 기술을 이용하여, 다양한 유전자가 특정 암 예컨대 간암(Smith et al ., 2003), 신장암(Young et al ., 2003), 유방암(van der Vijver et al ., 2002), 직결장암(Resnick et al ., 2004) 및 다른 주요 암(Sallimen et al ., 2000; Hendrix et al ., 2001)과 관련된다고 동정 또는 제안되었다. 또한, 암 병기의 추정을 위한 소수의 마커가 제안되었다. 그러나, 단백질체 분석을 통해 확인된 혈액 혈청 중 마커 단백질 및 차별적 유전자 발현 데이타를 기초로 유추된 조직 내 마커 유전자의 비교를 통해, 본 발명자들은 그 연결이 다소 약함을 관찰하였고, 이는 각각 암 조직 및 혈청에 대한 게놈 및 단백질체 기술을 이용해 생성된 정보 간 비연관성을 의미한다.
따라서, 조직 마커 유전자가 암이 검출되면 암을 등급화하는데 유용할 수 있지만, 특정 암으로 의심되고 관련조직이 조사되지 않으면, 암 진단에 직접적으로 유용하지 않다. 생물학적 유체로부터 얻은 마커는, 간단한 분석 검사를 통해 암을 검출할 수 있기 때문에 실제로 마커 동정을 위한 궁극적인 목표이다. 이를 성곡적으로 실시하기 위한 핵심은 생물학적 유체에서 암 마커 동정을 안내하기 위한 암 조직에 대한 유전자 발현 연구에서 유추된 정보를 최고로 활용할 수 있는 효과적인 방법을 찾는 것이다.
질환 조직의 어떠한 단백질이 생물학적 유체로 분비될 수 있는지 예측할 수 있는 능력을 갖는 것은 생물학적 유체 중 마커 단백질의 동정과 마이크로어레이 발현 데이타로부터 유추할 수 있는 정보를 연결하는 핵심 링크를 제공하게 된다.
다양한 연구들은, 신호 펩티드, 일정 길이의 경막 도메인, 아미노산 조성, 및 단백질 기능(Mott et al ., 2002; Guda et al ., 2006)을 기초로, 세포 표면에 수송되거나 또는 세포외 환경으로 분비될 수 있는 단백질(Menne et al ., 2000; Nair and Rost, 2005; Guda et al ., 2006; Horton et al ., 2007)을 포함하여, 단백질의 세포하 위치를 예측하기 위해 수행되었다. 단백질이 세포로부터 분비될 수 있는지 이들 프로그램이 예측할 수 있지만, 세포를 떠난 후, 단백질이 결국 어디로 가는지에 대해서는 알 수가 없다.
본 발명에서, 이러한 이슈는 단백질체학 실험에 의해 검출된, 다양한 병적 상태에 기인하여, 생물학적 유체, 예컨대 이에 제한되는 것은 아니고, 혈청, 소변, 타액, 척수액, 정액, 질액, 양수, 치은열구액, 및 안액으로 분비되는 것으로 알려진 인간 단백질을 먼저 수집하고, 이후 그 물리적 및 화학적 특성, 그리고 이들을 예측하는데 사용될 수 있는 서열 및 구조적 특징 면에서 이들 단백질에 존재하는 공통 특징을 동정하는 것에 의하는 데이타 마이닝 접근법을 이용해 해결하였다. 이러한 전략을 이용해, 조직으로부터 생물학적 유체로 분비될 수 있는 단백질을 예측하기 위한 컴퓨터 프로그램이 개발 및 보고되었다. PCT 특허 출원 PCT/US2009/053309을 참조하며, 이를 전체로 참조하여 본원에 포함시킨다.
알고리즘의 기본 아이디어는 하기와 같다. 광범위한 문헌 조사를 통해서, 이전 단백질체학 연구를 통해 검출된, 다양한 병적 상태에 기인하여 혈류로 분비되는 것으로 알려진 인간 단백질의 대량 컬렉션을 얻었다. 그 물리적 및 화학적 특성, 아미노산 서열 및 모티프, 및 구조적 특징을 포함하여, 이들 분비된 단백질이 공유하는 특징 목록을 기술하였다(표 1). 이들 특징을 이용해, 분류자는 생물학적 유체로 분비될 수 있는 단백질과 그렇지 않은 단백질을 구별하도록 트레이닝되었다. 이러한 알고리즘을 이후 어떠한 조직 유전자 마커가 생물학적 유체로 분비될 수 있는지 예측하는데 사용될 수 있다.
일 구체예에서, 알고리즘은 양성의 분비되는 단백질 부류를 선별하는 단계; 음성 세트로 대표적인 단백질을 선별하는 단계; 특징 세트를 제작하기 위해 단백질 특징을 맵핑하는 단계; 단백질의 특징적인 부류를 인식하도록 분류자를 트레이닝하는 단계; 맵핑된 특징의 정확도 및 관련성을 결정하는 단계; 리트레이닝된 분류자를 생성하도록 최소 중요 특징을 제거하는 단계; 단백질 서열을 받는 단계; 벡터 생성 및 규모조정 단계; 받은 단백질 서열에 대한 부류를 예측하는 단계; 및 받은 단백질 서열에 대한 예측 결과를 반납하는 단계를 포함한다. 이 알고리즘에 대한 상세한 설명은 공계류중인 출원 PCT/US2009/053309을 참조한다.
혈액 분비된 단백질의 예측을 위한 초기 특징 목록
특성 유형 특징 공급원
일반적인
서열 특징
아미노산 조성, 서열 길이,
디-펩티드 조성
국지적으로 산출함.
정규화 모로-브로토 자기상관,
모란 자기상관, 기어리 자기상관, 서열 순서, 슈도 아미노산 조성
내셔널 유니버시티 오브 싱가포르의 컴퓨터 사이언스 디파트먼트, 사이언스 패컬티 산하 바이오인포매틱스 앤 드러그 디자인 그룹(BIDD)이 개발한 단백질 특징 서버(PROFEAT)를 이용해 산출함.
물리화학적
특성
소수성, 정규화 반데르발스 부피, 극성, 분극성, 전하, 2차 구조 및 용매 접근성 3개 기술어: 조성(C), 전이(T) 및 분포(D)를 이용해 국지적으로 계산함.
가용성, 언폴딩성, 질환 영역, 전체 전하 및 친수성 서열-기반 단백질 가용성 평가자(PROSO) (Smialowski et al., 2007) 및 스톡홀름 바이오인포매틱스 센터의 복합 경막 위상기하학 및 신호 펩티드 예측자(Phobius)를 이용해 측정.
구조적
특성
2차 구조 함량, 형상(회전 반경) 바이오인포매틱스 앤 컴퓨테이셔널 바이올로지, 인디안 인스티튜트 오브 테크놀로지(IIT)(델리)의 수퍼컴퓨터 연산 설비에 의한 구형 단백질 평가용 회전 반경 필터 및 유럽 분자 생물학 실험실의 2차 구조 내용 예측(SSCP) 도구를 이용해 결정.
도메인 및
모티프
신호 펩티드, 경막 도메인(알파 헬릭스 및 베타 베럴), 글리코실화 (N-결합 및 O-결합 둘 모두), 트윈-아르기닌 신호 펩티드 모티프(TAT) 경막 배럴-Hunt(TMB-Hunt) 도구(Garrow et al, 2005) 기반 아미노산 조성 및 테크니칼 유니버시티 오브 덴마크의 생물학적 서열 분석 센터의 SignalP를 이용해 결정.

테크니컬 유니버시티 오브 덴마크의 생물학적 서열 분석 센터의 NetOglyc, NetNgly, 및 트윈-아르기닌 신호 펩티드(TatP) 서버를 이용해 산출.
단백질 특징은 상이한 생물학적 유체에 대해 다를 수 있음을 이해한다. 따라서, 표 1에 열거된 특징들은 상이한 생물학적 유체에 대해 다를 수 있다. 표 1에 열거된 단백질 특징은 대체로 다음의 4개 카테고리로 분류될 수 있다: (i) 일반적인 서열 특징 예컨대 아미노산 조성, 서열 길이, 및 디-펩티드 조성(Bhasin and Raghava, 2004; Reczko and Bohr, 1994); (ii) 물리화학적 특성 예컨대 가용성, 무질서 영역, 소수성, 정규화 반데르발스 부피, 극성, 분극성, 및 전하, (iii) 구조적 특성 예컨대 2차 구조 함량, 용매 접근성, 및 회전 반경, 및 (iv) 도메인/모티프 예컨대 신호 펩티드, 경막 도메인, 및 트윈-아르기닌 신호 펩티드 모티프(TAT).
일 구체예에서, 분비 단백질로서 주석을 단 인간 단백질은 공지의 단백질 데이타베이스, 예컨대 Swiss-Prot 및 SPD(Secreted 단백질 Database) 데이타베이스에서 수집되며, 이전 연구에 의해 혈액에서 실험적으로 검출된 단백질을 선택한다. [Chen et al . (2005)]는 웹 기반 SPD를 기술한다.
본 발명의 구체예에 따라, 생물학적 유체로부터 수집된 단백질에 해당하는 단백질 서열은 FASTA 포맷으로 받는다.
본 발명의 다른 구체예에서, 생물학적 유체에서 수집한 단백질에 해당하는 단백질 서열은 공지의 다른 포맷으로 받으며, 이에 제한되는 것은 아니고, 오직 알파벳 글자만을 포함하는 "미가공" 텍스트 포맷을 포함한다. 본 발명의 구체예에 따라, 미가공 텍스트 포맷으로 받는 단백질 서열 내 임의의 백색 스페이스, 예컨대 스페이스, 복귀, 또는 TAB 부호는 무시한다.
다양한 감수 학습법, 예컨대 SVM(Support Vector Machine), ANN(artificial neural network), 결정 트리, 회귀 모델, 및 다른 알고리즘이 데이타 분류 및 회귀 모델로 광범위하게 제공되었다. 공지의 데이타(트레이닝 데이타 세트 형태의 지식)를 기초로, 이들 감수 학습법은 컴퓨터가 자동적으로 복합 패턴을 인식하고 분류자를 개발하여, 다음으로 지적인 결정을 하고 미지 데이타의 부류(독립 세트)를 예측할 수 있게 한다.
본 발명의 일 구체예에서, 분류자는 SVM(Support Vector Machine)이다. 전통적인 SVM은 결정 경계를 한정하는 결정 초평면의 개념을 기초로 한다. 결정 초평면은 상이한 부류 구성원을 갖는 대상 세트 사이를 분리하는 것이다. 예를 들어, 수집된 대상은 부류 1 또는 부류 2에 속하고 분류자, 예컨대 SVM은 분류하려는 임의의 새로운 대상의 부류(예를 들어, 1 또는 2)를 결정(즉, 예측)하는데 사용될 수 있다. 전통적인 SVM은 상이한 부류 라벨 경우들을 분리하는 다차원 공간에서 초평면을 구성하여 분류 작업을 수행하는 주요 분류자 방법이다. SVM은 회귀 및 분류 작업을 지원할 수 있고 복수의 연속적인 카테고리 변수를 다룰 수 있다. 본 발명의 구체예에서, SVM-기반 분류자는 단백질 서열의 부류를생물학적 유체로 분비 또는 미분비로 예측하도록 트레이닝된다.
본 발명의 다른 구체예에서, 분류자는 특수한, 변형 SVM-기반 분류자이다. 변형 SVM-기반 분류자는 생물학적 유체에 단백질 분비의 가능성을 효율적으로 산출하는데 사용된다. 가우시안 RBF(radial basis function) 커널은 선형 및 다항식 커널 등과 같은 SVM에 사용되는 다른 보다 전형적인 커널 보다 우수한 성능을 제공한다. 따라서, 구체예에서, 가우시안 커널 SVM이 분류자를 트레이닝하기 위해 사용된다.
본 발명의 일 구체예에서, SVM-기반 분류자는 마이크로어레이 유전자 발현 실험으로 검출된 비정상적인 고도로 발현된 유전자가 그들 단백질을 혈류로 분비하는지를 예측하도록 더욱 트레이닝된다. 다양한 병적 상태, 예컨대 암 환자에서 비정상적으로 고발현 수준을 보이는 다수의 이러한 유전자들이 실험으로 동정되었다. 이러한 지식으로 무장하여, SVM-기반 분류자는 일정 단백질이 환자의 혈류로 분비되는 확률 산출을 기초로 다양한 암을 진단하는데 사용될 수 있다.
일 구체예에서, 초기에 트레이닝된 각 분류자의 성능을 기초로, RFE(recursive feature elimination)(Tang et al ., 2007)라 명명된, 특징 선별법이 분류 목적과 무관하거나 또는 무시할만한 특징을 제거하는데 사용된다.
일 구체예에 따라, 상기 기술된 복수 데이타 세트에 대한 결과를 기초로, SVM-기반 분류자에 의해 생성된 예측의 전체 예측 정확도는 79.5% 내지 98.1% 범위이고, 공지의 혈액 분비 단백질의 80% 이상이 독립 평가 테스트 및 기타 혈액 단백질 테스트에서 정확하게 예측된다. 독립적인 음성 평가 테스트로부터, 거짓 양성 비율은 ?10%로서, 저정밀성과 관련된 의심을 줄이는데 도움이 되는, 잘못분류된 비혈액 분비 단백질의 타당한 비율이다.
분비된 단백질 마커의 검증
생물학적 유체로 분비되는 단백질이 상기 알고리즘을 이용해 예측되면, 이들 단백질 마커는 단백질체학 접근법을 이용해 암 환자의 생물학적 유체에서 단백질 마커의 존재를 평가하여 검증된다.
생물학적 유체 중 단백질의 존재는 이에 제한되는 것은 아니고, 경쟁 결합 분석법, 질량 분광분석법, 웨스턴 블랏, 형광발광 활성화 세포 분류법(FACS), 효소-결합 면역흡착 분석법(ELISA), 항체 어레이, 고압 액체 크로마토그래피, 광학 바이오센서, 및 표면 플라스몬 공명법을 포함하는, 당분야에 공지된 임의 수단을 통해 측정될 수 있다.
일 구체예에서, 생물학적 유체 샘플은 단백질의 분해를 방지하도록 처리된다. 단백질의 분해를 억제 또는 방지하는 방법은, 이에 제한되는 것은 아니고, 프로테아제로 생물학적 유체 샘플의 처리, 생물학적 유체 샘플 냉동, 또는 얼음에 생물학적 유체 샘플 놓기 등을 포함한다. 바람직하게, 분석 전에, 생물학적 유체 샘플은 단백질의 분해를 방지하도록 일정한 조건 하에 유지시킨다.
일 구체예에서, 생물학적 유체는 혈청이고 단백질 수준은 혈청 내 단백질 수준을 측정하여 결정한다.
일 구체예에서, 생물학적 유체는 혈액이고 단백질의 수준은 혈액 샘플의 혈소판 내 단백질의 수준을 측정하여 결정한다.
일 구체예에서, 생물학적 유체는 소변이고 단백질의 수준은 소변 내 단백질의 수준을 측정하여 결정한다.
일 구체예에서, 생물학적 유체에 가장 풍부하게 존재하는 단백질은 생물학적 유체에서 단백질 수준을 측정하기 전에 제거된다. 일 측면에서, 생물학적 유체에 가장 풍부하게 존재하는 단백질은 알부민, IgG, α1-산 당단백질, α2-마크로글로불린, HDL(아포리포단백질 A-1 및 A-II), 및 피브리노겐을 포함한다.
일 구체예에서, 생물학적 유체에 가장 풍부하게 존재하는 단백질은 항체 컬럼을 이용해 제거된다.
일 구체예에서, 비특이적으로 결합된 단백질은 생물학적 유체에 가장 풍부하게 존재하는 단백질의 제거 후에 항체 컬럼으로부터 용리된다.
일 구체예에서, 특이적으로 결합된 단백질은 후속 분석을 위해 항체 컬럼으로부터 용리된다.
일 구체예에서, 본 발명의 방법은 다른 분석물의 검출, 예를 들어, mRNA 또는 암과 관련된 다른 단백질 마커(예를 들어, P-당단백질, β-튜블린, β-튜블린 유전자 내 돌연변이, 또는 β-튜블린 이소타입의 과발현)의 검출 방법과 동시에 수행될 수 있다.
일 구체예에서, 단백질은 생물학적 유체를 단백질, 또는 그 단백질의 단편에 특이적으로 결합하는 항체 기반 결합 모이어티와 접촉시켜 검출된다. 항체-단백질 복합체의 형성 이후에 단백질 수준을 표시하기 위해 검출 및 측정한다. 항-단백질 항체가 시판된다(예를 들어, 인간 단백질 친화성 정제 다클론 및 단일클론 항체(R&D Systems, Inc. Minneapolis, MN 55413; AVIVA Systems Biology, San Diego, CA 92121; 또한 U.S. 특허 제5,463,026호 참조)). 다르게, 항체는 전체 길이 단백질, 또는 단백질의 일부에 대해 생성될 수 있다. 본 발명에서 사용되는 항체는 또한 예를 들어, 단일클론 항체 생성에 의한, 항체를 생성하기 위한 표준 방법을 이용해 생성될 수 있다.
분비된 단백질의 검출을 위해 항체 기반 결합 모이어티를 사용하는 본 발명이 방법에서, 생물학적 유체에 존재하는 목적 단백질의 수준은 검출가능하게 표시된 항체로부터 방출되는 신호 강도와 상관된다.
바람직한 일 구체예에서, 항체-기반 결합 모이어티는 효소에 항체를 결합하여 검출가능하게 표지된다. 화학발광은 항체 기반 결합 모이어티를 검출하는데 사용될 수 있는 다른 방법이다. 검출은 또한 임의의 다양한 다른 면역분석법을 이용해 수행될 수도 있다. 예를 들어, 항체를 방사능 표지하여, 방사능면역 분석의 이용을 통해 항체를 검출하는 것이 가능하다. 또한 형광발광 화합물로 항체를 표지하는 것이 가능하다. 가장 일반적으로 사용되는 형광발광 표지 화합물은 CYE 염료, 플루오레세인 이소티오시아네이트, 로다민, 피코에리테린, 피코시아닌, 알로피코시아닌, o-프탈데히드 및 플루우레스카민이다. 항체는 또한 형광 발광 금속 예컨대 152Eu, 또는 다른 란탄계열을 이용해 검출가능하게 표지될 수 있다.
다른 구체예에서, 생물학적 유체 내 단백질의 수준은 면역분석법, 예컨대 효소 연결 면역흡착 분석법(ELISA), 방사성면역분석법(RIA), 면역방사측정법(IRMA), 웨스턴 블랏팅, 면역조직화학법에 의해 측정될 수 있다. 항체 어레이 또는 단백질 칩을 또한 사용할 수 있고, 예를 들어, 미국 특허출원 제20030013208A1호; 제20020155493A1호; 제20030017515호 및 미국 특허 제6,329,209호; 제6,365,418호를 참조하며, 이들을 전체로 참조하여 본원에 포함시킨다.
광범위하게 사용되는 효소 면역분석법은 "효소-연결 면역 흡착 분석법(ELISA)"이다. 다양한 형태의 ELISA가 존재하며, 예컨대 "샌드위치 ELISA" 및 "경쟁적 ELISA" 등이 있고, 당분야에 잘 알려져 있다. ELISA에 대해 당분야에 공지된 표준 기술은 문헌 ["Methods in Immunodiagnosis", 2nd Edition, Rose and Bigazzi, eds. John Wiley & Sons, 1980; Campbell et al ., "Methods and Immunology", W. A. Benjamin, Inc., 1964; and Oellerich, 1984]을 참조한다.
다르게, 세포 및/또는 종양에서의 단백질 수준은 단백질에 표지된 항체를 피험체에 도입하여 피험체에서 생체 내 검출할 수 있다. 예를 들어, 항체는 피험체에서 그 존재 및 위치를 표준 영상법으로 검출할 수 있는 방사능 마커로 표지될 수 있다.
일 구체예에서, 면역조직화학분석법("IHC") 및 면역세포화학법("ICC")이 사용된다.
직접 표지법의 경우, 표지된 항체가 사용된다. 간접 표지법의 경우, 샘플을 표지된 물질과 더욱 반응시킨다.
다른 기술이 단백질 개시를 기초로, 실시자의 선호도에 따라 단백질 수준을 검출하는데 사용될 수 있다. 이러한 기술 중 하나가 웨스턴 블랏법(Towbin et al ., 1979)이며, 적절하게 처리된 생물학적 유체를 SDS-P연령 겔에서 러닝시킨 후 고형 지지체, 예컨대 니트로셀룰로스 필터로 이동시킨다. 일 구체예에서, 웨스턴 블랏팅은 혈청 또는 소변에서 단백질 수준을 검출하는데 사용된다. 다음으로, 검출가능하게 표지된 항체를 사용하여 단백질의 수준을 검출 및/또는 평가할 수 있으며, 여기서 검출가능한 표지 유래 신호 강도는 단백질의 양에 해당된다. 수준은 예를 들어, 농도계측기에 의해 정량될 수 있다.
또한, 단백질 수준은 질량 분광 분석법 예컨대 MALDI/TOF(비행 시간), SELDI/TOF, 액체 크로마토그래피-질량 분광분석법(LC-MS), 가스 크로마토그래피-질량 분광분석법(GC-MS), 고성능 액체 크로마토그래피-질량 분광분석법(HPLC-MS), 모세관 전기영동-질량 분광분석법, 핵 자기 공명 분광분석법, 또는 탠덤 질량 분광분석법(예를 들어, MS/MS, MS/MS/MS, ESI-MS/MS 등)을 이용해 검출될 수 있다. 예를 들어, 미국 특허출원 제20030199001호, 제20030134304호, 제20030077616호를 참조하며, 이들을 참조하여 본원에 포함시킨다.
질량 분광분석법은 당분야에 잘 알려져 있고 생분자, 예컨대 단백질을 정량 및/또는 동정하는데 사용된다(Li et al ., 2000; Rowley et al ., 2000; and Kuster and Mann, 1998). 또한, 질량 분광분석법은 적어도 부분적으로 단리 단백질의 디 노보(de novo) 서열분석이 가능하게 개발되었다(Chait et al ., 1993; Keough et al ., 1999; reviewed in Bergman, 2000).
일정 구체예에서, 기상 이온 분광광도계가 사옹된다. 다른 구체예에서, 레이저-탈착/이온화 질랑 분광계가 생물학적 유체를 분석하는데 사용된다. 현태 레이저 탈착/이온화 질량 분광계("LDI-MS")는 2 주요 변동으로 실시될 수 있는데; 매트릭스 보조 레이저 탈착/이온화("MALDI") 질량 분광분석법 및 표면-강화 레이저 탈착/이온화("SELDI")이다.
질량 분광분석에 대한 추가 정보는, 예를 들어, [Principles of Instrumental Analysis, 3rd edition., Skoog, Saunders College Publishing, Philadelphia, 1985; and Kirk-Othmer Encyclopedia of Chemical Technology, 4th ed. Vol. 15 (John Wiley & Sons, New York 1995), pp. 1071-1094]를 참조한다.
단백질 마커의 존재 검출은 대체로 신호 강도의 검출을 포함하게 된다. 결과적으로, 이는 기질에 결합된 폴리펩티드의 특성 및 양을 반영할 수 있다. 예를 들어, 일정 구체예에서, 제1 샘플 및 제2 샘플의 스펙트럼 유래 피크값의 신호 강도는 특정 생분자의 상대량을 측정하기 위해 비교(예를 들어, 시각적으로, 컴퓨터 분석 등에 의해)될 수 있다. 소프트웨어 프로그램 예컨대 Biomarker Wizard program(Ciphergen Biosystems, Inc., Fremont, Calif.)는 질량 스펙트럼 분석을 보조하는데 사용될 수 있다. 질량 분광분석 및 그 기술은 당분야의 숙련가에게 잘 알려져 있다.
질량 분광분석의 임의의 다른 성분, 예를 들어, 탈착원, 질량 분석자, 검출기 등, 및 다양한 샘풀 조제물은 본원에 기술되거나 또는 당분야에 공지된 다른 적절한 성분 또는 조제물과 조합될 수 있다는 것을 이해한다. 예를 들어, 일정 구체예에서, 대조군 샘플은 중원소, 예를 들어 13C를 함유할 수 있고, 그에 따라 검사 샘플이 동일 질량 분광분석 런에서 기지의 대조군 샘플과 혼합될 수 있게 한다.
바람직한 일 구체예에서, 레이저 흡착 비행시간(TOF) 질량 분광계가 사용된다.
일부 구체예에서, 생물학적 유체의 제1 또는 제2 샘플에 존재하는 1 이상의 단백질의 상대량은, 부분적으로 프로그램 디지탈 컴퓨터로 알고리즘을 수행하여 결정된다. 달고리즘은 제1 질량 스펙트럼 및 제2 질량 스펙트럼에서의 1 이상의 피크값을 동정한다. 이후 알고리즘은 제1 질량 스펙트럼의 피크값의 신호 강도를 질량 스펙트럼의 제2 질량 스펙트럼의 피크값의 신호 강도와 비교한다. 상대 신호 강도는 제1 및 제2 샘플에 존재하는 단백질의 양을 의미한다. 기지량의 단백질을 함유하는 표준물은 제2 샘플로서 분석하여 제1 샘플에 존재하는 단백질의 양을 양호하게 정량할 수 있게 한다. 일정 구체예에서, 제1 및 제2 샘플 중 단백질의 정체를 또한 결정할 수 있다.
본 발명의 일 구체예에서, 생물학적 유체 내 단백질의 수준은 MALDI-TOF 질량 분광분석법으로 검출된다.
생물학적 유체에서 단백질을 검출하는 방법은 또한 표면 플라스몬 공명(SPR)의 사용을 포함한다.
SPR 바이오센싱법이 또한 생분자의 탈착 및 동정을 위해 MALDI-TOF 질량 분광분석법과 조합된다.
일 구체예에서, 생물학적 유체의 단백질은 항체 분석법을 이용해 검출된다. 바람직한 구체예에서, 바이오틴 표지-기반 항체 분석법을 사용해 단백질을 검출한다.
일 구체예에서, 본 발명은 피험체로부터 얻은 생물학적 유체에서 1 이상의 마커 단백질의 검출을 포함하는 피험체에서 암을 진단하는 방법을 개시한다.
다른 구체예에서, 본 발명은 표준 수준에 대하여 피험체로부터 얻은 생물학적 유체에서 1 이상의 마커 단백질의 차별 발현을 검출하는 것을 포함하는 피험체에서 암을 진단하는 방법을 개시한다. 일 측면에서, 1 이상의 마커 단백질의 차별 발현은 표준 수준에 대해 생물학적 유체에 1 이상의 단백질의 수준 증가를 포함한다. 다른 측면에서, 1 이상의 마커 단백질의 차별 발현은 표준 수준에 대해 생물학적 유체에서 1 이상의 단백질의 수준 감소를 포함한다.
일 구체예에서, 본 발명은 MUC13, GKN2, COL10A, AZTP1, CTSB, LIPF, GIF, EL, 및 TOP2A로 이루어진 군에서 선택된 1 이상의 단백질을 포함하는 암 동정용 마커를 개시하고, 여기서 표준 수준에 대해 피험체로부터 얻은 생물학적 유체 내 1 이상의 단백질의 차별적 발현이 피험체의 암 존재를 의미한다.
일 구체예에서, 단일-유전자 마커가 초기 단계 암의 검출에 사용되었다.
다른 구체예에서, 2-유전자 마커가 초기 단계 암의 검출에 사용되었다.
다른 구체예에서, k-유전자 마커(k = 1...8)는 초기 단계 암의 검출에 사용되었다.
다른 구체예에서, 본 발명은 (a) 정상 피험체로부터 얻은 생물학적 유체를 포함하는 기준 샘플; (b) 생물학적 유체 내 단백질에 특이적으로 결합하는 1 이상의 제1 항체를 포함하는 용액으로서, 여기서 단백질은 MUC13, GKN2, COL10A, AZTP1, CTSB, LIPF, GIF, EL 및 TOP2A로 이루어진 군에서 선택되는 것인 용액; 및 c) 1 이상의 제1 항체에 특이적으로 결합하는 제2 항체를 포함하는 용액을 포함하는, 피험체에서 암을 검출하기 위한 키트를 개시한다.
본 발명의 바람직한 특정 구체예는 이하에 보다 상세하게 기술한 일정 바람직한 구체예 및 청구항을 통해 분명해질 것이다.
실시예
이하 실시예는 본 발명의 특정 구체예, 및 이의 다양한 용도를 예시하는 것이다. 이들 실시예는 오직 예시적인 목적이고, 본 발명을 제한하려는 것이 아니다.
실시예 1
샘플 수집
총 80 위암 조직(27명 여성 및 53명 남성 환자로부터의 제I기 4, 제II기 7, 제III기 54, 및 제IV기 15) 및 동일한 수의 인접하였지만 비암성인 위조직을 동일 80명 환자(점막 또는 점막하에 종양 한정)로부터 수집하였다. 어레이 실험에 사용되는 mRNA의 온전성을 보장하기 위해, 모든 조직은 절제 후에 스냅 동결하여 액체 질소에 30분간 보관하였다. 또한, 혈액 샘플도 수술 전에 각각의 암 환자로부터 수집하였다. 모든 샘플은 길림 대학 의학부 및 길림 지방 암 병원(중국, 창춘) 소속의 3개 병원에서 수집하였다. 각 조직에 대한 조직학적 분류 및 병리학적 병기분류는 국제 암연합의 TNM 분류 체계 및 WHO 기준에 따라 전문 병리학자가 결정하였다. 암은 종양 깊이에 따라 초기(제I기 및 제II기) 및 진행성 위암종(제III기 및 제IV기)로 분류되었다. 상세한 환자 정보 예컨대, 성별, 조직-분화성, 병기 및 알콜/흡연력 등을 하기 표 2에 열거하였다.
Figure pct00001
Figure pct00002
Figure pct00003
실시예 2
RNA 조제물 및 마이크로어레이 실험
전체 RNA를 Trizol 시약(Invitrogen)을 사용해 암 조직 및 기준 조직으로부터 추출한 후 RNeasy 미니 키트(QIAGEN)를 사용해 제조사의 추천에 따라 정제하였다. A260/A280 >1.9의 비율 및 2의 28S/18S rRNA를 사용하여, RNA 샘플이 고도로 정제되었고 분해되지 않았음을 확인하였다. RNA 샘플을 GeneChip Human Exon 1.0 ST(Affymetrix)를 사용해 분석하였고, 어레이 실험을 위한 Genechip Expression Analysis Technical Manual(P/N 900223)을 따랐다. 간략하게, 1 ㎍의 전체 RNA를, rRNA 감소 및 RNA 농축 후, cDNA의 합성용 주형으로서 사용하였다. 시험관 내 역전사를 통해, cRNA를 얻었고 제2 사이클의 cNDA 합성용 주형으로서 사용하였다. 다음으로, cRNA는 RNaseH로 가수분해하였고, 센스 가닥 DNA를 2 엔도뉴클레아제로 분해하였다. 단편화된 샘플을 DNA 표지화 시약으로 표지하였다. 표지된 샘플을 혼성화 칵테일과 혼합하고 45℃에, 60 rpm에서 마이크로어레이에 혼성화시키고, 17시간 동안 항온반응시켰다. 혼성화 후, 어레이를 세척하고 GeneChip?Fluidics Station 450 상에서, 적절한 유체소자 스크립트를 사용해 염색시킨 후, Affymetrix 오토로더 카루셀에 삽입시키고 GeneChip? 스캐너 3000과 GeneChip? 작동 소프트웨어(GCOS)를 사용해 스캐닝하였다.
RNA 품질 제어 평가 이외에도, GeneChip QC 및 데이타 QC 보고서의 분석은 통상적으로 수행하였다. Affymetrix GeneChip 품질 제어 문서의 요건 및 제안에 따라, 각 혼성화 어레이에 대한 품질 매트릭스, 즉 평균 기본값, 노이즈(Raw Q), 규모조정 인자, 존재하는 콜의 비율, 및 재부 대조군 유전자(혼성화 및 폴리A 대조군)을 평가하여 각 어레이가 고품질 유전자 발현 데이타를 생성하는 것을 보장하였다. 발현 Console™ 소프트웨어를 사용하여 품질 평가 메트릭스를 산출하였다. 주요 성분 분석(PCA)을 데이타 품질 평가에 활용하였다. 각각 GeneChip 품질 제어 및 데이타 품질 제어에 대한 평과 결과를 요약한 2개 보고서가 작성되었다. GeneChip QC 또는 데이타 QC 분석에서 어떠한 가외치 어레이도 검출되지 않았다.
어레이 디자인. GeneChip 인간 엑손 1.0 ST 어레이는 실증적으로 결정된, 높은 큐레이티드 mRNA 서열 내지 처음에 계산된 예측치 범위의 주석에서 유추된, 엑손 수준에서 가능한한 포함되도록 설계되었다. 이 어레이는 1백만 엑손 클러스터에 대한 정보가 얻어진 1.4백만 프로브세트로 분류되는 대략 5.4백만 5-㎛를 포함한다. 각 엑손의 경우, 1 또는 수개 프로프 선별 영역(PSR)을 사용되고, 각각은 연속적이며 비중첩된 엑손 절편이고 길이가 다양하다(도 1). PSR은 전사 양태의 적분, 연접 유닛으로서 예측된 게놈(어셈블리 HG18, 빌드 38) 영역을 의미한다. 많은 경우에서, 각 PSR은 엑손이고, 다른 경우에서, 잠재적인 중첩 엑손 구조에 기인하여, 몇몇 PSR은 연속적인, 비중첩된 진짜 생물학적 엑손의 서브세트를 형성할 수 있다. 각 엑손에서 PSR의 위치를 선별하는 핵심 고려사항은 이들이 발현되는 스플라이싱 변이체에서 사용되는 대체 스플라이싱 부위를 아마도 밝혀줄 수 있다는 점이다. 이러한 이유로, 일부 PSR은 또한 인트론 보유를 포착하기 위해 유전자의 인트론 내에서도 사용된다. 각 PSR의 경우, 대체로 4개 프로브가 사용되고 각각은 일반적으로 고유한, 25 염기쌍 길이이다(도 1). PSR의 90%가 4개 프로브에 의해 나타난다("프로브 세트"). 이러한 중복성은 발현에 대해, 신호의 존재, 및 대체 스플라이싱의 존재를 추정하는데 강건한 통계적 알고리즘을 사용할 수 있게 한다. Affymetrix 엑손 어레이는 대부분의 조직에서 일반적으로 높게 발현되는 100 하우스키핑 유전자의 엑손을 대표하는 1195 양성 대조군 프로브 세트와, 2904 음성 대조군 프로브 세트의 세트를 포함한다.
혼성화는 각각 형광발광 분자에 부착된, 암 조직과 기준 조직에서 추출된 발현 mRNA 및 각 프로브 간에 일어난다. 각 PSR의 발현 수준은 영역에 위치하는 4개 프로브의 평균 강도로서 추정된다. 이러한 실험에서, Affymetrix에서 추천한 알고리즘인, PLIER(Affymetrix, 2005)가 평가를 수행하는데 사용되었다.
실시예 3
차별적으로 발현되는 유전자의 동정
각 엑손에 대한 미가공 프로브 강도는 사분위 정규화 접근법을 이용해 정규화되었고, PLIER 프로그램(Affymetrix, 2005)을 사용하여 엑손 수준 및 유전자 수준 발현 둘모두에 대한 프로브 신호를 요약하였다. 암 또는 기준 샘플에서 가장 낮은 발현을 보이는 유전자를 제거하였으며, 구체적으로, 평균 발현 수준이 10(정규화된 신호 강도) 이하인 경우 제거하였다. 기준 조직 대비 암 조직에서 일관적으로 차별적인 발현 패턴을 갖는 유전자를 검출하기 위해, 발현 데이타에 간단한 통계 테스트를 다음과 같이 적용하였다: 각 유전자에 대해, 그 발현 배수 변화가 k(k는 특정 문제에 따라, 1.25 내지 4로 설정됨) 보다 큰 암/기준 조직 쌍의 수, K exp 를 조사하고; 관찰된 K exp 에 대한 p-값이 0.05 보다 낮으면, 그 유전자는 대부분의 암 및 기준 조직 쌍 간에 발현이 차별적인 것으로 간주하였다. 또한, 부가적인 통계 분석, 즉 ANOVA 검정법 및 양측 Wilcoxon 서명-랭크 검정법을 사용하여 선별된 유전자가 암과 기준 조직 쌍 전반에서 일관적으로 차별적인 발현 패턴을 갖는지 확인하였다.
실시예 4
엑손 어레이 데이타를 기초로 스플라이싱 변이체 예측
추정된 엑손 발현 수준을 기초로 스플라이싱 변이체를 예측하기 위해 새로운 알고리즘을 개발하였다. 이러한 알고리즘은 ECgene 데이타베이스(Lee et al., 2007)를 필요로 하는데, 이는 모두 인간 EST 데이타로부터 유추된, 181,848 고신뢰 스플라이싱 변이체 및 129,209 중간 신뢰 변이체를 포함하는, 인간 전사체에 대한 가장 종합적인 데이타베이스이다. 각 유전자에 대한 모든 전사체가 ECgene에 존재하며, 따라서 이 알고리즘은 주어진 어레이 데이타에서 어떠한 것이 가장 가능성있는지 결정할 필요가 있다. ANOVA가 먼저 암과 기준 조직 간 모든 차별적으로 발현되는 프로브 선별 영역(PSR: probe selection region) 패턴을 동정하는데 사용된다. 다음으로, 알고리즘이 후속되는 최적화 문제를 해결한다.
n개 엑손 및 m개 기지의 스플라이싱 변이체(모두 ECgene에 존재)를 갖는 소정의 유전자의 경우, m개 스플라이싱 변이체 및 그 발현 수준의 서브세트를 찾아서 그들 전체 엑손 발현 수준이 관찰되는 엑손 발현 데이타에 가능한 근접하도록 만드는 것이 요구된다. I를, 각 열이 스플라이싱 변이체를 나타내고 각 컬럼은 엑손을 나타내는, m×n 이원 매트릭스로 놓고, 변이체 i가 엑손 j를 함유하지 않는 경우 및 그러한 경우에 한하여 I i ,j = 0이다. (e 1 , e 2 ,...e n )를, n 엑손의 관찰되는 발현값으로 놓는다. 다음의 (이차) 함수를 최소로 하는 {xi,} 및 {yi,}를 찾는 것이 요구된다.
Figure pct00004
조건:
Figure pct00005
(식 1)
상기 식에서, x i 는 이진 변수이고 y i 는 실제 변수이다. 이러한 문제는 다음의 휴리스틱 전략을 이용해 해결할 수 있다. 우선 모든 기지의 스플라이싱 변이체가 현재 유전자에 대해 사용된다고 가정하며, 다시 말해 모든 { x i }는 1로 설정한다. 이제 문제는 선형 프로그래밍(LP) 프로그램(식 1에서 {yi} 변수의)로 축소되며, 이는 상응하는 전사체에 대한 예측 발현 수준인, 최적 {yi} 값에 대한 임의의 존재하는 LP 해결자를 이용해 해결할 수 있다. 가정의 타당성을 평가하기 위해, 관찰된 LP 해법은 모든 가능한 2 n -1 스플라이싱-변이체 스페이스에 대해 얻은 100,000 해법에 대해 검증한다. 통계 유의성이 높으면(p-값이 0.05 미만), 예측을 위해 신뢰할만한 해법으로 간주한다. 그렇지 않으면, ECgene 포함된 전사체가 일정 유전자 구조를 대표하는데 충분치 않은 것을 의미하고, 그러한 경우, 특정 기준 세트가 스플라이싱 변이체를 선별하는데 요구된다. 정보는 엑손/인트론 길이, 엑손 존재 빈도, 또는 다른 유형의 특징들 예컨대 모티프, 2차 구조 등일 수 있고, 대체 스플라이싱 기전과 관련될 수 있으며 더 많은 연구가 필요할 수 있다.
알고리즘은 컴퓨터 프로그램으로서 실행되는데, 각 LP 문제는 Matlib(Dantzig et al ., 1999)에서 제공하는 LP 해결자를 이용해 해결된다. 이 프로그램은 선별된 스플라이싱 이소폼 세트가 관찰되는 엑손 발현 데이타에 충분히 근접한 해법을 제공하는지 결정하기 위해 실증적으로 결정된 컷오프를 이용한다. 이 프로그램은 실험적으로 검증된 스플라이싱 이소폼(Xi et al., 2008)을 갖는 엑손 어레이 데이타 세트에 대해 검증되었고, 여기서 11 유전자에 대해 17 스플라이싱 이소폼이 qRT-PCR을 이용해 확증되었다. 이들 11개 유전자의 경우, 이러한 해법은 실험적으로 검증된 스플라이싱 이소폼의 81.8%를 포괄하여, 이 프로그램이 매우 신뢰할 수 있음을 보여주었다.
이러한 컴퓨터연산법을 이용해, 총 2,540개의 차별적으로 발현되는 스플라이싱 이소폼(전체 길이 유전자 포함)가 수집된 80개 암 조직 및 80개 기준 조직에서 동정되었다. 단순 검증 실험은 PCR 및 이소폼-특이적 프라이머를 사용해 소수의 예측된 스플라이싱 이소폼에 대해 수행되었다(도 1). 예를 들어, 이소폼-특이적 프라이머가 THY1 유전자의 3개 예측 스플라이싱 이소폼에 대해 준비되어 임의의 임의의 이들 3개 예측 이소폼이 관련 프라이머에 의해 검출될 수 있는지를 검토하였다. 도 1(c)에 도시된 바와 같이, 이들 3개 예측 이소폼과 동일한 질량을 갖는 스플라이싱 이소폼이 THY1의 발현된 스플라이싱 이소폼 풀로부터 동정되었다.
다른 방법에서, MIDAS(Affymetrix, 2005)가 유전자가 대체 스플라이싱 변이체를 갖는지를 검출하기 위한 엑손 어레이 데이타에 적용되었다. 기본 개념은 유전자에 대한 대체 스플라이싱이 없다는 귀무가설 하에, 유전자의 모든 엑손이 통계적으로 일관적인 발현 수준을 갖는다는 것이다. 다음으로, 1측 ANOVA 방법을 사용하여 모든 샘플에 대한 일정 효과 모델 log(p i ,j,k ) = 0의 검증을 통해 귀무가설을 검증하였다(0≤p i ,j,k ≤1는 k-번째 유전자의 j-번째 샘플의 i-번째 엑손의 비례 표현임).
상기 결정된 스플라이싱 변이체를 갖는 각 유전자에 대해, 어레이 데이타로부터 관찰된 엑손 발현 수준과 가장 일관적인 각 스플라이싱 변이체에 대한 예측 발현 수준과 함께, 가장 가능성 있는 스플라이싱 변이체 세트를 예측하기 위한 신규 알고리즘을 적용하였다. 구체적으로, 알고리즘은 먼저 유전자에 대해 관찰된 엑손 발현 데이타가 각 변이체에 대한 가장 가능한 발현 수준에 대한 추정치와 함께 ECgene 데이타베이스(Lee et al., 2007)에서의 기지의 유전자 스플라이싱 변이체를 이용해 충분히 추정될 수 있는지를 검토한다. 그 답이 그렇다이면, 알고리즘은 ECgene 데이타베이스를 기초로 가능한 스플라이싱 변이체 세트를 예측한다. 그렇지 않으면, 알고리즘은 ECgene의 기지 전사체 일부와 함께, 가장 인색한 판단으로 관찰된 엑손 발현 데이타에 우수한 근사값을 부여하는, 신규의 스플라이싱 변이체의 최소 세트를 동정하려고 시도한다. 이러한 스프라이싱 변이체 예측 문제는 선형 프로그래밍(LP) 문제로서 공식화되고, 공공 LP 해결자를 이용해 해결된다(Dantzig et al ., 1999).
각각의 예측된 스플라이싱 변이체 세트에 대해, 다음의 접근법을 사용해 그 통계적 유의성을 평가하였다. 보편성 상실 없이, 모든 스플라이싱 변이체는 ECgene 데이타베이스로부터 유래된다고 가정하였다. n개 엑손으로 이루어진 유전자의 경우, S를 그 예측되는 스플라이싱 변이체 세트라 하고, v는 모든 n 엑손에 걸쳐 예측되는 발션 수준과 함게 모든 예측되는 스플라이싱 변이체에서의 누적 발현 값과 마이크로어레이 데이타 유래의 각 엑손의 관찰 발현 값간 총 차이라 한다. 발현 수준과 함께, 이러한 예측되는 스플라이싱 변이체의 p-값을 다음과 같이 평가하였다. |S| 스플라이싱 변이체는 ECgene 데이타베이스에 상응하는 유전자 입력으로 무작이 선별되어 각 스플라이싱 변이체에 대한 유전자 발현 값을 지정하여, 전체적으로 상기와 동일한 과정을 이용해 관찰된 엑손 발현값에 대해 최고의 핏을 부여한다. 상기 최고 핏에 대한 차이는 v'로서 기록한다. 이러한 과정은 10,000회 동안 수행하였다. vv' 값의 95% 보다 작으면, 예측되는 S는 신뢰할만한 것으로 인정하고; 그렇지 않으면 그러한 예측을 거부한다. 스플라이싱 변이체 예측은 스플라이싱 변이체를 갖게되는 각 유전자에 대해 이러한 접근법을 이용해 수행하였다. 각 예측되는 변이체의 빈도를 모든 80쌍의 조직에 대해 계측하였다. 스플라이싱 변이체는 조직의 30% 이상이 이러한 예측 변이체를 갖는 경우에 신뢰할만한 것으로 간주하였다.
실시예 5
기존 조직 대비 위암에서 차별적으로 발현되는 유전자
총 80개의 위암 조직 및 동일한 갯수의 인접한 위 조직이지만 비암성 조직을 80명의 환자로부터 수집하였다(표 2 참조). 엑손 어레이 실험은 17,800개 인간 유전자를 포괄하는 Affymetrix GeneChip 인간 엑손 1.0 ST 어레이 플랫폼을 이용해 이들 조직에 대해 수행되었다. 상기 기술된 기준 세트를 이용해서, 총 2,540개 유전자가 암 및 기준 조직간에 차별적인 발현 패턴을 나타내는 것으로 확인되었는데, 이중에서 715개는 도 2a에 도시된 바와 같이, 2배 이상의 발현 변화를 보였다. 유전자는 모두 그 엑손 컬렉션에 대해 지칭하였고; 개별 엑손의 발현 수준은 반드시 동일하지 않을 수 있음을 주의한다. 기준 조직 대비 암에서 차별적으로 발현되는 유전자는 기준 조직 대비 암에서 요약된 유전자 발현이 다른 유전자를 의미한다. 암에서 2,540개 유전자 대부분이 상향조절되었고 1/5가 하향조절되었다. 또한, 1,276개 유전자는 초기 단계 암(제I기 및 제II기)에서 차별적으로 발현되었는데, 이중 935개는 상향조절되었고 341개는 하향조절되었다. 1,276개 유전자 중에서, 208개는 모든 초기 위암 샘플에서 차별적으로 발현되었는데, 186개는 상향조절되었고, 22개는 하향 조절되었으며, 이중에 48개는 위장 질환과 연관있었다(도 2).
1,276개 유전자 중에서, 469개는 오직 초기 암 조직에서만 차별적으로 발현되었는데, 즉 진행성 암 조직에서는 실질적으로 차이가 없었다. 대부분의 이전에 제안된 마커 유전자는 모두 암에서 상향조절되었다(Takeno et al ., 2008). 상향조절되는 유전자에 더욱 초점을 맞추었던 이전 연구들과 달리, 다수의 하향조절 유전자가 위암에서 고도로 특이적인 것으로 이 실험에서 확인되었다. 이들은 GIF, GNK1, GNK2, TFF1, GHL1, LIPF, 및 ATP4A를 포함하며, 암에서 존재비가 감소되는 상이한 유형의 마커를 제공한다.
IPA(Ingenuity Pathways Analysis) 주석에 의해 정의된 바와 같은, 2,540개 유전자의 기능적 패밀리가 분석되었다. 이들 중에서, 911개 유전자가 암과 관련있었고, 219개는 항원 제시 또는 면역 반응과 관련있었으며, 414개는 위장 질환과 관련있었다. 13개의 주요 IPA 기능적 패밀리 중에서, 전체 인간 유전자 세트와 비교시, 각각 9 및 10 패밀리는 2,094 IPA-주석 유전자(2,540개 중에) 및 911개 암관련 유전자 중으로 실질적으로 집중되었음이 확인되었다. 도 3(a)에 도시된 바와 같이, 단백질 패밀리 예컨대 키나아제, 펩티다아제, 사이토카인, 성장 인자, 경막 수용체 및 전사 조절인자는 암 관련 유전자에 고도로 집중되었고, 이중에서 효소와 트랜스포터는 차별적으로 발현되는 유전자에 더욱 집중되었다. 도 3(b)에 도시된 바와 같이, 2,540개 유전자의 단백질 생성물은 대체로 세포질, 원형질막, 세포외 공간, 또는 핵에 국재한다. 유사하게 468개 유전자는 오직 초기 암 조직에서만 차별적으로 발현되었고, 129개 유전자는 암과 관련되며, 37개는 항원 제시 또는 면역 반응과 관련있고, 54개는 위장 질환과 관련있다. 3개의 기능적 패밀리는 이들 유전자, 즉 효소, 전사 조절인자 및 트랜스포터에 실질적으로 집중된 것으로 확인되었다.
이 실험에서 확인된 차별적으로 발현되는 유전자를 이전에 보고된 위암 연관 유전자와 비교하였다. 대규모의 문헌 검색을 통해, 77개 유전자가 위암 연관되었고 발암 및 종양 진행 동안 유의하게 차별적으로 발현되는 것으로 확인되었다(표 3 참조). 77개 유전자 중 64(83.1%)개 유전자의 경우, 이 실험에서 보고된 발현 데이타는 이전의 발견과 일관적이었는데, 예컨대 TOP2A, CDK4, 및 CKS2(El-Rifai et al ., 2001), E-카데린(Becker et al ., 1994), GKN1, GKN2, 및TFF1(Hippo et al ., 2002; Moss et al ., 2008) 등의 유전자가 포함된다. 다른 13개 유전자는 이 실험에서 보고된 데이타가 최초이다. 예를 들어, 염색체 증폭, 전사 조절 및 신호 전달과 관련된 유전자, 예컨대 사이클린E1, POP4, RMP, UQCRFS1 및 DKFZP762D096가 이전 연구(Chen et al ., 2003)에서 126개 암 조직 중 오직 ?10%인 것에 비해, 이 실험에서는 80개 암 조직 중 55(?68.7%)개에서 차별적으로 발현되는 것으로 확인되었다. 다른 예는 발암유전자 JUN의 상향조절(Dar et al ., 2009) 및 종양 억제 유전자, TP53의 하향조절(Kim et al ., 2007; Katayama et al ., 2004)이 이 실험에서 분석된 환자의 절반 이하에서 확인되었다. 이러한 차이에 대한 가능한 이유중 하나는 이전 연구에서의 환자 개체군과 비교하여 이 실험에서 사용된 샘플의 암 병기, 아형, 연령 및 성별 분포가 다르다는 것일 수 있다.
위암에 대한 전사체 및 단백질체 연구를 통한 생체마커의 최근 핵심 발견사항
참조문헌 유전자
(조사결과)
기술 샘플
상세사항
카테고리
Chen et al ., 2008 TSPAN1, Ki67, CD34 면역조직화학 86 암 조직 암 연관 유전자
Long et al ., 2008 핵인자 카파 면역조직화학 60 암 조직 제IV기에 대한 유전자 마커
Yamada et al., 2008 PDCD6 마이크로어레이 분석 40 조직 +19 독립적 예후 유전자 생체마커
Silva et al ., 2008 E-카데린, 베타-카테닌, 및 뮤신(MUC1, MUC2, MUC5AC 및 MUC6) 마이크로어레이 + 면역조직화학법 62 젊은 환자+ 453 노인 환자 유전자 마커
Xu et al ., 2009 MUC1 및 MUC5AC 정량적 샌드위치 효소 면역분석법 104 암 및 120 건강한 환자 혈청 마커
Takeno et al ., 2008 NEK6 및 INHBA 마이크로어레이 222 암 조직 유전자/단백질
수준
Kon et al ., 2008 펩시노겐 C, 펩신 A 단백질체학 24 암 및 29 양성 위염 환자 유래 위액 단백질체
패턴
Bernal et al., 2008 레프리모 메틸화-특이적 PCR 75 암 조직, 43 암혈장 및 31 대조군 DNA 메틸화 패턴
Taddei et al., 2008 NF2 RT-PCR 5 위장 기질 종양 유전자 마커
Ebert et al ., 2005 카텝신 B 단백질체학 상피 세포 및 혈청 종양 세포/혈청 마커
Stefatic et al., 2008 CEA, CA19-9, CA15-3, CA125, ecPKA, NNMT -- -- 혈청 마커
리뷰
Jin et al ., 2009 MG7-Ag ELISA 257 암 + 50 정상 환자 유래 혈청 유용한 진단
마커
Ren et al ., 2006 HSPB1, 포도당 조절 단백질, PHB, PDIA3 SELDI-TOF-MS 46 암 + 40 정상 환자 유래 혈청 단백질 패턴
마커
본 발명자는 또한, 1-, 2-, 3-, 4- 및 5-유전자의 조합을 이용하여 암 및 기준 조직 간에 그 발현 패턴을 최고로 구별할 수 있는 "마커" 유전자 세트를 동정하였다. 이를 실행하기 위해, 본 발명자는 우리 팀이 완전한 접근성을 갖는 컴퓨터 클러스터 상에서 R의 선형 판별 분석법을 이용하여(그리고 선형 SVM-기반 분류법을 이용해 검증), 암과 기준 조직 간 최고 마커를 위해, 1 <= k <= 5에 대해, 2,540개 유전자 중 모든 k-유전자 조합 전체를 철저하게 조사하였다. 성능은 전체 분류 정확도 P = (TP+TN)/(TP+TN+FP+FN)를 이용하여 평가하였다. 하기 표 4는 각 k에 대한 상위의 소수 k-유전자를 제공한 것이다.
1-, 2-, 3-, 4- 및 5-유전자 마커를 이용한 암과 기준 샘플간 분류 정확도로서, 정확도는 "참 양성"과 "참 음성" 예측치 및 전체 조직 수 간 비율로서 정의됨
유전자 마커 정확도 (%)
1 TTYH3 80.1
LIPG 78.7
MMP1 72.0
2 LIPG - WNT2 83.9
LIPF - CD276 82.2
COL10A1 - LIPG 80.8
3 AGTRL1 - DPT - MMP1 89.7
TIMP2 - DPT - COL10A1 89.1
DPT - THY1 - LIPF 88.4
4 SLC5A5 - ANGPTL3 - MMP1 - DPT 93.1
COL10A1 - LIPG - DTP - HOXB13 92.0
CLDN1 - MMP1 - SULT2A1 - TRIM 90.6
5 COL10A1 - LIPG - DTP - HOXB13 - VIL1 95.7
CLDN1 - MMP1 - SULT2A1 - TRIM29 - CDH17 93.7
CLDN2 - DPT - COL10A1 - LIPG - DTP - HOXB13 92.7
실시예 6
유전자 발현 데이타에 대한 연령과 성별의 영향
2,540개의 차별적으로 발현되는 유전자에 대한 연령 및 성별의 영향은 ANOVA(Affymetrix, 2005) 및 Cox 비례 위험 회귀 모델(Cox Proportional Hazard Regress Model)(Peduzzi et al., 1995)을 이용하여 다변량 해석법을 통해 평가하였다. 핵심적인 조사 결과는 이하에 요약하였다(표 5 참조). 연령은 2,540개 유전자 중 143개의 발현 수준에 유의하게 영향을 주었는데, 이 중 대부분(143 중 113)은, 생체마커 선별에 중요한 영향을 줄 수 있는 관찰결과로서, 암과 기준 조직 간 그 발현 수준 차를 더욱 증가시키는 것으로 확인되었다. 예를 들어, 평균 MUC1 발현 수준은 55세보다 넓은 환자와 비교하여 55세 이상인 위암 환자에서 실질적으로 더 높게 확인되었다(도 4). 유사한 관찰결과가 또한 소수의 다른 유전자 예컨대 다른 뮤신 패밀리 구성원, UBFD1, 및 MDK 등에서도 관찰된 반면, 일부 다른 강력한 마커, 예를 들어, THY1은 연령과 무관하였다(도 4).
ANOVA 및 Cox-비례 위험 회귀 분석법으로 동정된 복수 인자의 통계 및 그들과 고도로 관련된 유전자(p-값 <0.05).
매개변수 고도로 관련된 유전자
유전자의 #
연령 143 OLFM4,ABP1, DUOX2, TRIM31, GABRA3, PRSS3, KRT17,GCNT3, LOXL2, TACSTD2
성별 59 SCNN1G, FGA, IL1A, CYP2B6, FAM19A4, WNT2, ARSE, KCNN2, PCSK5, TTLL6,HIST1H2BJ
병기 27 MT1A, LIF, B3GNT6, HIST1H3J, MT1M
흡연 113 TRIM29, PI3, FLJ42875, CKS2, DNER, DUOX2, ANGPTL3, HRASLS2, PKM2, DUOXA2, DSG3, APOBEC2
알콜 63 KIAA1199, DSC3, COL11A1, C1orf125, COL12A1, SULT1C2, LRRC15, SLCO1B3, RPESP, GJB2, ADHFE1, RNF186, ANGPTL3, ADRB2, APOBEC2, MT1L, PTK7, CKMT2
연령+성별 118 SDS, C1orf125, EGFL6, COL1A1, THY1, REG4, ADH1A, CPS1, SORBS2, GPR68, TIMP1, ADH1C
연령+병기 379 ALDH3A1, GSTM5, SORBS2, ADH1A, CDH13, RASL12,GPM6B, PCOLCE2, CAB39L, CASQ2, ACADL, MAMDC2, ZBTB16, C8orf42, MT1A, ADAMTSL3, CNTN1, GPX3
기술된 발현 데이타에서 가능한 성별-특이적 편향성도 조사하여, 위암 발생의 남성 대 여성 비율이 약 2:1인 것으로 확인되었다(Chandanos and Lagergen, 2008). 59개 유전자 예컨대 WNT2, ARSE 및 KCNN2의 발현 수준이 성별 의존적인 것으로 확인되었다(모든 목록은 표 5 참조). 흥미로운 관찰결과는 성별과 연령 조합이 COL1A1, THY1, REG4, ADH1A 및 CPS1을 포함하는 118개 유전자의 발현 수준에 더욱 유의하게 영향을 준다는 점이다. TIMP1 및 ADH1A 등의 융전자 경우, 연령이 높은 남성 환자가 젊은 여성 환자보다 발현 수준이 높았다. 또한, 초기 암에서 고유하게 차별적으로 발현되는 유전자 중에서, 28 및 9 유전자가 각각 연령- 및 성별-의존적이었고, 이중에서 P2RY6 및 NSUN5 등의 유전자가 양쪽 군에 속하였다.
실시예 7
암 조직에서 공동 발현되는 유전자 및 집중된 경로
위암의 진행 병기 및 특정 아형과 유전자의 새로운 연관성을 밝히고자하는 목표로, 유잔자 발현 데이타를 바이-클러스터링 분석법을 이용해 분석하였다. 바이-클러스터링 프로그램 QUBIC(Li et al ., 2009)을 이러한 실험을 위해 사용하였다. 이 알고리짐의 기본 개념은 일부(동정하려는) 암조직 서브세트 중에서 유사한(또는 공동관련) 발현 패턴을 갖는 유전자의 모든 서브그룹을 찾는 것이다. QUBIC 프로그램은 복합 관련성(단지 유사한 발현 패턴 공유를 넘어서)을 검출하고, 수많은 유전자와 수많은 조직 샘플을 함유하는 데이타세트에 대해서도 보다 효율적인 방식을 검출할 수 있는 그 능력면에서 특별하다. 이 알고리즘은 [Li et al ., 2009]에 상세히 설명되어 있다.
바이-클러스터링 프로그램 QUBIC을 활용하여, 암 특이적, 병기-, 아형- 또는 성별-특이적인, 14개의 통계적으로 유의한 바이-클러스터가 동정되고 분석되었다. 3개의 동정된 바이-클러스터, C1, C2, 및 C3가 우선적으로 돋보인다. 도 5(a)는 C1 및 C2의 유전자 및 모든 80 암-기준 조직 쌍 대부분, 특히 초기 단계 암에서의 모든 조직 쌍에서 그들의 연관 발현 패턴을 요약한 것이다.
이들 2 바이-클러스터(C1 및 C2)의 상세 분석결과 (a) 유전자 예컨대 전사 조절인자, 성장 인자, 및 세포 주기에 관여하는 효소(STMN1 및 CDCA8), 전사 조절(TCF19 및 BRIP1), 혈관생성(IL8), 염색체 온전성(TOP2A), 및 세포외 매트릭스 리모델링(MMP) 등은 위암의 매우 초기 단계에서 활성화되었고(C1에서), 반면 대사에 관여하는 유전자는 탈활성화되는 것으로 확인되었다(C2에서); 그리고 (b) C1 및 C2의 대부분의 유전자는 제I기에서도 암 조직과 기준 조직 간에 식별력을 보였다. 예로는 모든 초기 단계 암 및 암 조직의 ?80%에서 상향조절되는 HOXB13, TOP2A, CDC6 및 CLDN7, 그리고 모든 초기 단계 암 및 모든 암조직의 79.1%에서 하향조절되는 CHIA가 포함된다. C3 유전자 중 일부는 특정 암 병기에 고유한 상이한 발현 패턴을 나타냈다. 예를 들어, SPP1, SPRP4, COLBA1, INHBA, CTHRC1, COL1A1, THBS2, SULF1 및 COL12A1는 대부분의 제III기 및 제IV기 암 조직에서 과발현되는 한편 제I기 및 제II기 암 조직에서는 일관적인 패턴이 관찰되지 않았다(도 5). 이러한 유전자군은 위암의 진행을 측정하기 위한 강력한 마커를 제공할 수 있다.
다른 동정된 바이-클러스터는 도 5(b)에 도시된 바와 같이 아형에 대해 유용한 정보를 제공하는데, 이 도면에서는 80명의 환자를 병기와 무관한 2개의 개별 군(좌측의 녹새부분 및 우측의 적색 부분)으로 분류하였다. 이 바이-클러스터는 42개 유전자 및 80명 환자로 구성된다. 42개 유전자 중 6개, 즉 CNN1, MYH11, LMOD1, MAOB, HSPB8 및 FHL1은 위암의 미만성 아형 및 장 간에 차별적으로 발현되는 것으로 이미 보고된 바 있다(Kim et al ., 2007). 아마도 이들 42개 유전자는 위암의 가능한 2개 아형을 구별할 수 있을 것으로 보인다.
실시예 8
경로 집중 분석
차별적으로 발현되는 유전자가 집중되는 경로를 또한 조사하였다. 소정의 유전자 세트에 대한 경로 집중 분석은 2개 프로그램, DAVID(Dennis et al ., 2003) 및 KOBAS(Wu et al ., 2006)를 이용해 실시하였다. DAVID는 GO 생물학적 프로세스 및 BIOCARTA 경로를 기초로, 관련 경로의 집중 비율을 평가하기 위한 EASE 스코어(변형 피셔 추출 P-값)를 산출하고, 반면 KOBAS는 모든 KEGG 경로 및 KEGG 오르쏠로지(KO)를 이용하여, 집중된 경로를 평가하기 위한 4 통계 스코어를 산출한다. 이러한 소스이외에도, NCI-Nature(Schaefer et al ., 2009)가 큐레이팅하는 인간 경로 상호작용 데이타베이스를 포함하는, UCSC 암 경로 데이타베이스(Zhu et al., 2009)로부터 정보를 통합하였다. 다음으로, 변형 p-값을 인간 게놈의 모든 유전자에 대한 문의 유전자의 피셔 정확 검증법을 기초로 각 집중 경로에 대해 산출하였다. 표 6은 이러한 13 경로를 열거한 것이다.
차별적으로 발현되는 유전자에 의한 13개 집중 경로. ↑는 상향조절, ↓는 하향 조절. P-값은 *표시 마커는 오직 초기 단계인 것을 제외하고 모든 병기에서 집중된 경로에 대해 산출함.
경로 유전자의 # P-값
제I기-제II기
(특이적)
모든
병기
세포 주기 22↑(9↑) 49↑ 1.59E-21
p53 신호전달 경로 10↑(3↑) 27↑ 2.66E-12
ECM-수용체 상호작용 4↑(-) 31↑ 8.18E-13
세포 통신 6↑(-) 34↑ 4.70E-04
세포 부착 분자(CAMs) 4↑(2↑) 31↑ 5.13E-04
암 감수성에서 BRCA1, BRCA2 및 ATR의 역할 4↑(-) 10↑ 2.90E-03
E2F1 파괴 경로 4↑(-) 6↑ 8.00E-03
Wnt 신호전달 경로 4↑(-) 17↑ 2.22E-02
병소 부착 4↑(3↑)
3↓(3↓)
41↑
4↓
1.32E-09
9.81E-02*
사이토크롬 P450에 의한 생체이물의 대사 4↓(-) 16↓ 7.21E-04*
아르기닌 및 프롤린 대사 3↓(-) 3↓ 1.16E-03*
지방산 대사 3↓(-) 7↓ 2.56E-03*
인슐린 신호전달 경로 5↓(-) 7↓ 9.37E-04*
표 6으로부터, 세포 증식, 세포 주기 및 DNA 복제에 관여하는 유전자가 암 샘플 대부분에서 일관적으로 상향조절되며, 지방산 대사, 분해, 및 이온 수송에 관여하는 유전자는 일관적으로 하향 조절됨을 알 수 있다. 대부분의 이들 경로는 초기 단계 암에서 상향/하향 조절로 출발하였고 진행성 암에서는 고도로 집중되었다. 일반적인 암 관련 경로 예컨대 세포 주기 및 조절이외에도, DNA 손상 및 복구, 세포 성장, 사멸 및 조절, 및 에스트로겐 수용체 조절 경루, 일부 위암 특이적 프로세스가 또한 밝혀졌다. 예를 들어, 신규한 갑상선 호르몬 매개 위 발암 신호전달 경로가, 대부분 진행성 병기에 있는, 암 조직에서 상향 조절되는 유전자((TTHY, PKM2, GRP78, FUMH, ALDOA, 및 LDHA)에 집중되었다(Liu et al., 2009). 다른 흥미로운 관찰결과는 일정 경로가 남성 또는 여성의 조직 샘플에만 그리고 더욱 집중되었다는 것이다. 예를 들어, 유사분열 스핀들 조절, Wnt 신호전달 경로 및 비스페놀 A 분해에서 Ran 역할은 여성이 아닌 남성에 집중되었고, 그에 반해 Ghrelin, 3-클로로아크릴산 분해, 대안 보체 경로 및 히스티딘/티로신/질소/시스테인 대사는 여성에서 보다 집중되었다. 이러한 조사결과는 위암 형성 및 진행을 연구하는데 새로운 시선을 제공할 수 있다.
실시예 9
기준 조직 대비 암 조직에서 유전자의 대체 스플라이싱 유전자
시그내쳐 선별법을 이용해 유전자-순위 일관성의 다단계 평가 및 무작위 샘플링을 기초로 암 조직과 기준 조직 간에 구별할 수 있는 복수-유전자 마커를 동정하였다(Bell et al ., 1991). 이의 기본 개념은 다음과 같다: SVM-기반 반복 특징 제거(RFE) 접근법을 적용하여, 무작위 선별된 샘플의 50-동일 크기 서브세트에 대해서 500 트레이닝된 SVM의 최고 분류 성과를 얻은 유전자(특징)의 최소 서브세트를 찾았다. 유전자(들)은 다음이 2가지 기준을 만족하면 제거되었다: (1) 500 분류자의 80% 초과가 우리의 분류에 대해 일관적으로 10% 최소 중요 유전자로서 순위를 정하는 경우; 및 (2) (1)에서 상위 50% 내로 순위가 정해진 적이 전혀 없는 경우. 이러한 유전자-선별 프로세스는 나머지 유전자 세트가 분류 정확도에 대해 사전정해진 컷오프 이하로 되지 않으면서, 더욱 축소될 수 없을 때까지 계속된다.
2,540개의 차별적으로 발현되는 유전자 중에서, 1,875개는 상기 실시예 4에서 기술된 바와 같은 신규 알고리즘에 의해 대체 스플라이싱 변이체를 갖는 것으로 동정되었다. 기준 및 암 조직에서 1,875개 유전자 중 각각 69.2% 및 72.8%는 예측치를 기초로 실질적인 스플라이싱 구조 변화가 있다. 1,875개 유전자 중에서, 총 11,757개의 상이한 스플라이싱 변이체가 예측되었고, 이중에 6,532 및 6,827가 각각 암 및 기준 조직의 30% 이상에서 존재하여, 신뢰할만한 예측치로서 간주하였다. 컷오프 이하의 스프라이싱 변이체가 참일 수 있지만, 이러한 데이타는 신뢰성이 덜하고 해석이 더 어렵다. 따라서, 이러한 컷오프 이하의 스플라이싱 변이체는 이 실험에서 추가로 고려하지 않았다. 스플라이싱 변이체 중 6,114는 암과 기준 조직 둘 모두에서 나타났고, 이중에 3,933가 기준 조직 대비 위암에서 차별적으로 발현되었고, 94개는 오직 초기 위암에서만 차별적으로 발현되었다. 이렇게 예측된 스플라이싱 변이체에서 예측되는 엑손-생략 이벤트를 검토하였고, 예측된 대체 스플라이싱 변이체에서 보다 빈번하게 생략된 엑손은 스플라이싱 조절을 위해 보다 cis 조절 모티프를 갖는 인트론 영역과 연관되는 경향이 있음을 발견하였고, 이러한 결과는 이전 관찰결과와 일관적이며(Wang et al ., 2008), 도 6에는 모든 예측되는 스플라이싱 변이체를 검출하기 위해 실질적인 실험이 필요하지만 예측되는 스플라이싱 변이체를 뒷받침하는 증거를 제공하였다.
이러한 스플라이싱 변이체의 분석으로 다음의 (a) 내지 (d)가 밝혀졌다: (a) 총 4,733개의 신규한 스플라이싱 변이체는, 인간의 스플라이싱 변이체에 대한 가장 종합적인 데이타베이스인, 앙상블 데이타베이스(Eyras et al., 2004)의 기지 전사체와 비교하여 예측되었고; (b) 가장 차별적으로 발현되는 스플라이싱 변이체를 갖는 유전자가 암과 관련되며, 여기에는 COL11A1, CTSC, CDH11 및 WNT5A가 포함되며; (c) 상이한 스플라이싱 변이체의 수는 암이 제I기에서 제IV기로 진행됨에 따라 증가되고; (d) 여성 및 남성 환자에 고유한 각각 1,690 및 1,377개 스플라이싱 변이체가 발견되었으며; 이들 중 364 및 126는 각각 기준 조직 대비 암에서 차별적으로 발현되었다.
초기 병기 암-특이적 스플라이싱 변이체 중에서, 이들 모유전자의 84개는 치밀 연결부, 칼슘 신호전달, 피리미딘 대사, Wnt 신호전달 및 헬리코박터 파이로리(Helicobacter pylori) 감염과 연관된 것으로 알려진 상피 세포 신호전달 등의 경로에 관여하였다(Kanehisa and Kegg, 2000). 또한, 모든 차별적으로 발현되는 스플라이싱 변이체 중에서, 이들 모유전자는 Wnt 경로(CTNNB1, WNT2, SFRP4, WISP1, WNT5A), 인테그린 신호전달(ITGAX), p53 신호전달(E2F1, CDK2, PCNA, TP53, BAX, CDK4), 및 세포외 매트릭스 단백질(FN1, COL6A3), 및 다른 유전자 예컨대 VEGFC, FGFR4, CEACAM6, CDH3, NCAM1, MSH2, VCL, 및 ANLN의 구성원을 포함한다. 또한, 초기 단계는 아니지만, 10개의 전사 인자 즉, 세포 증식 및 생존, 증식, 분화 또는 아폽토시스의 중요 지표로서 제공되는, TFAP2A, NOC2L, MYBL2, MSC, HOXA13, H2AFY, ETV4, E2F4, CCNA1, 및 BRD8이, 스플라이싱 변이체를 발현함을 확인하였다.
실시예 10
위암에 대한 시그내쳐 유전자 및 병기
상기 실시예 9에서 설명한 바와 같이, 다수의 유전자가, 효율적인 RFE-SVM 방법을 이용하여 그 발현 패턴이 암과 기준 조직에서 구별될 수 있는 것으로 동정되었다. 도 7(a)는 1 내지 100의 k에 대해 선별된 최적 k-유전자 마커에 대한 분류 정확도를 요약한 것이다. 이 도면으로부터, 28-유전자 마커군이 모든 k에 대해 최고인 것을 알 수 있는데, 각각 암과 기준 조직에 대해 일치율이 95.9% 및 97.9%였다(그 유전자 명칭은 표 7 참조).
RFE-SVM-기반 절차의 디자인은 분류 정확도, 안정성 및 재현성을 고려하며, 따라서 결과는 상당히 일반화가능하다. 모든 k-유전자 조합을 거쳐서 최고의 k-유전자 마커군에 대한 철저한 조사를 또한 수행하였고, 이는 선형 SVM 접근법을 이용하여, 모든 k <= 8에 대한 RFE-SVM 방법의 산출 효율 상실의 대가로 전반적으로 최적인 마커를 찾는 것을 보장한다(Vapnik, 1995). 동정된 k-유전자 마커의 성과는 리브-원-아웃(leave-one-out) 및 5-교차 검증법 둘 모두를 이용해 평가하였다. 도 7(a)에 도시한 바와 같이, 이렇게 동정된 k-유전자 마커(k=1...8)의 최고 정확도는 일관적으로 RFE-SVM 방법에 의한 것보다 양호하다. 이러한 분석법은 이들 최고 마커 유전자가 다음의 기지의 경로; 세포 주기, ECM-수용체 상호작용, DNA 복제의 CDK 조절, 및 TNFR1 신호전달 경로와 연관됨을 시사한다(상세 설명은 표 7 참조).
흥미로운 관찰결과는 일부 마커가 일정 환자 군에서는 매우 충분하게 수행되지만, 다른 군, 예컨대 상이한 성별 및 연령 환자에서는 그렇지 않다는 것이다. 이는 연령과 성별이 유전자 발현 수준에 상당한 영향을 준다는, 상기 실시예 6에 기술한 관찰결과와 일관적이다. 이러한 문제를 극복하기 위해, 상이한 성별에 대한 마커 조사를 개별적으로 수행하였다. 2 성별군에 대한 마커의 상세 목록을 표 7에 제공하였으며, 상위 성별-특이적 마커는 여성의 경우 LIPG, INHBA, MFAP2 및 TTYH3을 포함하고, 남성의 경우 WNT2, CD276 및 MFAP2를 포함한다.
초기 단계 암 샘플(제I기 및 제II기)에 대한 유사 분석을 또한 수행하였고, 초기 위암에 고유한 유망한 다수의 마커가 동정되었다. 예를 들어, HOXB9, HIST1H3F, TMEM25 및 CLDN3 등의 유전자가 모든 초기 암 조직에서 일관적으로 차별적인 발현을 보였지만, 진행성 암에서는 어떠한 유사한 차별적 발현도 관찰되지 않았다. 표 7은 초기 암에 대한 그 분류 정확도와 함께 최고 k-유전자 마커군을 열거하였다. 전반적으로, 최고 단일-유전자 마커는 각각 암에 대해 100% 그리고 기준 조직에 대해 88.9%로 최대 94.4%의 분류 일치도를 획득할 수 있음이 확인되었다. 이러한 수치는 최고 2-유전자 마커를 이용시 97.3%까지 향상된다.
예측 유전자 마커의 일반성을 조사하기 위해, 이들 분류 정확도를 다른 그룹의 위암에 대한 이전 공개된 대량 마이크로어레이 데이타세트에 대해 검토하였다. [Xin et al ., 2003]에 의한 GSE2701에서, 이 실험의 k-유전자 마커의 성공률은 k가 1 내지 7일 때 81.7% 내지 100% 범위였다. Kim 데이타세트(Kim et al., 2007)로부터의 초기 병기 샘플에 대해 평가시, 이 실험의 단일-유전자 마커 예컨대 TFF3, CLDN4, MDK 및 MUC13은 그 초기 병기 샘플의 80%(15 중 12)에 대해 일관적으로 차별적인 발현 패턴을 보였다. 전체적인 이들 결과는 동정된 조직 마커가 대체로 적용가능함을 의미한다.
예측된 유전자 마커의 스플라이싱 변이체를 조사하였고 가능한 마커로서 다수의 스플라이싱 변이체가, 기준 조직 대비 암에서 과발현 또는 저발현되는, 동정된 유전자 마커 및 그 예측되는 스플라이싱 변이체를 기초로 예측되었다. 상세한 결과를 표 7에 열거하였지만, 몇몇 스플라이싱 변이체 마커를 여기에 열거한다. 과발현되는 스플라이싱 변이체는 LMNB2:000111111111, WNT2:11111, WNT2:00111, LIPG:1111111110 및 LIPG:1111110000이고, 저발현되는 스플라이싱 변이체는 AQP4:111110, GRIA4:0001111110000000 및 ESRRG:0111110110000000이며, i번째 위치의 "1"은 스플라이싱 변이체에서 유전자의 i-번째 엑손 존재를 나타내고, "0"은 부재를 나타낸다. 표 7은 일반 마커, 초기 병기 특이적 및 성별 특이적 마커를 포함하는, 상이한 카테고리에 대해 예측된 상위 다섯 1-, 2-, 3- 및 4-유전자 마커의 검출 정확도를 나타낸 것이다. 정확도(Acc.)는 100회 5-교차-검증법(CV) 검출 정확도의 방식으로 측정하였다.
예측된 마커의 검출 정확도 (5-CV)
일반 마커 Acc. 초기 병기 I-II(단독) Acc. 남성 단독 Acc. 여성 단독 Acc.
1 CD276 80.1 HIST1H3F 94.4 WNT2 79.8 LIPG 91.3
TTYH3 80.1 CCL20 94.4 CD276 78.7 INHBA 86.9
LIPG 78.7 HIST1H3F 94.4 MFAP2 77.7 MFAP2 86.9
LMNB2 78.7 C2orf40* 94.4 TTYH3 77.7 TTYH3 86.9
WNT2 78.1 HOXB13 88.9 PON2 76.6 RUNX1 86.9
COL1A1 77.4 CLDN3 88.9 HOXB9 75.5 GPER* 86.9
PON2 77.4 HOXB9 88.9 CDH3 75.5 GKN1* 86.9
2 CST1- ITGB8 81.5 SCN7A- IKIP 94.4 MYOC-BHLHB2 90.4 INTU-LIPG 97.8
CST1- AGT 81.5 HIST1H4I-TFCP2L1 94.4 DPT-VASH1 88.3 C16orf53-LIPG 97.8
MMP1-INHBA 80.8 FAM129A-TREM1 94.4 MAMDC2-MMP2 87.2 Gcom1-GPRIN3 97.8
MMP1-COL1A1 80.1 MYO1B-MYH11 94.4 CFD-THY1 86.2 CST7-LIPG 95.6
LIPG-WNT2 83.9 WNT3-NUDCD1 94.4 DGKB-WNT2 86.2 CRABP2-UCKL1 95.6
LIPF-CD276 82.2 TMEM25-HOXB5 94.4 C2orf40-PLXDC1 85.1 HOXB9- LIPG 95.6
COL10A1-LIPG 80.8 MMP1-MFAP2 88.9 DPT-COL1A1 85.1 CLDN1- LIPG 95.6
3 AGTRL1-DPT-MMP1 89.7 SCN7A-IKIP-HIST1H3F 94.4 CD44-DPT-AGTRL1 93.6 GIF*- PID1- LRRIQ1 100
TIMP2-DPT-COL10A1 89.1 SCN7A-IKIP-C2orf40 94.4 GGTLA1-DPT-NID1 92.5 FCGR3A- C16orf53- LIPG 100
DPT-THY1- LIPF 88.4 HIST1H4I-TFCP2L1 94.4 LOC202051-CGNL1-THY1 92.5 SLC15A3-PAICS-FAM123A 100
THBS2- DPT-C19orf40 88.4 SCN7A-IKIP-RYR2 88.9 FRMD1-MAMDC2-RASAL2 92.5 SLC15A3-LIPG-TPD52 97.8
TIMP2- DPT- CLIC1 88.4 SCN7A-IKIP-C2orf40 88.9 HOXB9-RYR2-CD109 91.5 SLC15A3-LIPG-SPON2 95.7
MYOC-CD44-HIST2H2AB 88.4 SCN7A-IKIP- CCL20 88.9 PDZRN4-INHBA-AGTRL1 91.5 SLC15A3-MYOC-CD3EAP 95.7
4 CXorf36-DPT-CD44-BST2 94.5 GAL3ST4-PPA1-HOXA13- HIST1H3F 94.4 RYR2-HMCN1-HOXB9-MT1M 95.7 EPDR1-GIF*-TEAD4- OR1L1 100
PDGFRB-MYOC-HFM1-PGRMC2 93.8 - - TGM2-PARK2-RASGRF2-PI16 95.7 KIAA1199-DUSP10-LYCAT-ADHFE1 100
SLC5A5- ANGPTL3-MMP1- DPT 93.1 - - MEX3D-DPT-C10orf72-C10orf129 95.7 FCGR3A-PGRMC2- GLIS3-TMEM40 100
COL10A1-LIPG-DTP-HOXB13 92.0 - - NR0B2-BTG2-CTSA-DBT 95.7 CKMT2- CCL18- MICALL1- LRRIQ1 100
CLDN1- MMP1- SULT2A1-TRIM 90.6 - - IRX3-ADCYAP1R1-FADS2-RUNX1 95.7 PTGIR- GAL3ST4- PTPRS- XAF1 100
(*표시된 유전자는 기준 대부 암에서 하향 조절되는 것이다. "-": 보다 적은 k를 갖는 조합 마커가 이미 100% 또는 미변화된 최고검출 정확도 또는 우리 샘플이면 k-유전자 마커를 여기서는 생략하였다)
실시예 11
혈액-분비 단백질의 예측을 위한 컴퓨터 방법의 개발
컴퓨터 방법이 순환계로 분비될 수 있는 인간 단백질을 예측하기 위해 개발되었다(Cui et al ., 2008). 이 방법의 기본 개념은 인간 혈청에서 검출되는 임의의 단백질과 상동성이 아닌 단백질 세트 및 기지의 혈액 분비 단백질 세트를 수집하는 것이다. 다음으로, 분류자는 2 세트를 구별하도록 트레이닝된다. 단백질 서열로부터 산출할 수 있는 다수의 특징들이 조사되고 2 세트간에 최고의 식별력을 제공할 수 있는 특징을 동정하였다.
트레이닝 데이타를 수집하기 위한 출발점은 혈장 단백질체 프로젝트(Plasma Proteome Project)(PPP)(Omenn et al ., 2005)에 의해 수집된, 인간 혈청에서 검출된 ?16,000 단백질을 함유하는 데이타셋트이다. Swissprot 및 SPD 데이타베이스(Chen et al., 2005)의 1,620 인간 분비 단백질도 수집하였다. PPP에 대해 이러한 목록을 비교하여, 양쪽 세트에 속하는, 305개 단백질이 천연 혈액 단백질이 아님을 확인하였다. 따라서, 이들 305개 단백질은 혈액으로 분비되는 것으로 판단되며 양성 세트로서 사용되었다. 다음으로, PPP와 중복되지 않는 Pfam의 각 패밀리(Bateman et al., 2002)에서 대표물이 선별되었고, 26,962개 단백질이 음성 세트로서 수집되었다. 양성 및 음성 세트를 이어서 트레이닝 및 테스트 세트로 분류하였다.
2 세트를 구별할 수 있는 특징을 찾기 위해, 대체로 하기 4개 카테고리에 속하는 50이 넘는 특징을 조사하였다: (i) 일반적인 서열 특정 예컨대 아미노산 조성 및 디-펩티드 조성(Reczko et al ., 1994; Bhasin et al ., 2004); (ii) 물리화학적 특성 예컨대 가용성, 무질서 영역 및 전하, (iii) 구조적 특성 예컨대 2차 구조 정보 및 용매 접근성, 및 (iv) 특정 도메인/모티프 예컨대 신호 펩티드, 경막 영역 및 트윈-아르기닌 신호 펩티드 모티프(TAT).
이들 특징을 이용하여, 서포트 벡터 머신(SVM)-기반 분류자를 트레이닝하여 카우시안 커널을 이용해 음성 트레이닝 데이타와 양성을 식별하였다(Platt et al ., 1999; Keerthi et al ., 2001). 초기 SVM 성과를 기초로, 중복 특징 제거(recursive feature elimination; RFE)라고 하는, 특징-선별 과정을 적용하여 분류 목적과 무관하거나 또는 무시할만한 특징들을 제거하였다. 특정 선별 과정은 공통 스코어링 계획 및 유전자-순위 일관성 평가를 기초로 반복적으로 무관한 특징을 제거한다(Tang et al ., 2007). 구체적으로, 각 반복시, RFE에 의해 최소 스코어(최저 순위)가 주어진 특징들을 특징 목록에서 제거한다. 이러한 과정은 분류 성과 수준을 유지하면서 최소의 특징 세트가 얻어질때까지 계속된다. 트레이닝 전반에서, 무작위 샘플링(Bell et al ., 1991)을 적용하여 트레이닝 및 테스트 세트를 생성시키고, 분류자는 주어진 트레이닝 및 테스트 세트를 기초로 트레이닝되었다. 이러한 과정은 500회 수행되었고 가장 대표적인 것을 선별물로서 선택하였다(Cui et al ., 2008). 이러한 과정 후, 분류에 가장 중요한 특징에는 경막 영역, 전하, TatP 모티프, 가용성, 신호 펩티드, 및 O-결합 글리코실화 모티프가 포함됨을 확인하였다.
선별된 특징을 기초로, SVM-기반 분류자는 유지하고, 교차검증하고 그 성과를 독립 평가 세트 상에서 테스트하였고, 혈액 분비 단백질의 90% 및 비혈액 분비 단백질의 98%를 올바르게 분류할 수 있다. 몇몇 부가의 데이타세트를 이용하여 분류자 서오가를 더욱 평가하였는데, 이들 각각은 최근에 동정된 혈액 분비 단백질 및 문헌에 보고된 것들을 포함한다. 테스트 결과는 평가 세트에 대한 것과 견줄만한 성과 통계치를 제공한다. 예를 들어, 질량 분광분석법에 의해 인간 혈청에서 검출된 122 단백질 목록이 광범위한 문헌 조사를 통해 수집되었다. 이들 단백질은 인간 암의 14 유형 중 1 이상에서 과도하게 발현되었고, 어떠한 것도 우리의 트레이닝 세트에 포함되지 않았다. 122 단백질 중 97(79.5%) 단백질이 상기 기술된 방법을 이용해 정확하게 예측되었다.
실시예 12
혈액 분비 단백질의 예측
모든 차별적으로 발현되는 유전자 중에서, 가능한 혈청 마커로서 혈류로 분비될 수있는 것들에 초점을 맞추었다. 컴퓨터 방법이 이러한 분비 단백질의 예측을 위해 개발되었다(Cui et al ., 2008). 이 예는 혈청으로 단백질 분비를 예측하기 위한 접근법을 기술한다. 그러나, 본원에 제시된 교시 및 지침을 기초로, 본원에 기술된 방법을 다른 생물학적 유체, 예컨대 이에 제한되는 것은 아니고, 타액, 척수액, 정액, 질액, 양수, 치은열구액, 및 안액으로 단백질의 분비를 예측하기 위해 쉽게 적합화시킬 수 있다는 것이 당분야에 공지임을 이해할 것이다.
위암에 대한 다수의 혈청 단백질 마커가 암 조직에서의 그들의 확인된 차별적 발현 및 혈액 분비 예측성을 기초로 예측되었다(Cui et al ., 2008). 이러한 예측된 혈청 마커는 다음의 3개 카테고리로 분류된다: (a) 위암에 대한 일반 마커, (b) 초기 병기 암에 특이적인 마커, 및 (c) 성별-특이적 마커. 표 8은 군으로 조합하여 또는 개별적으로 가장 유망한 것으로 여겨지는 단백질을 나타낸 것이다. 이들 및 다른 유망한 마커 단백질에 대한 상세 정보는 표 9에 열거하였다.
이들 예측된 혈청 마커 중에서, MMP1, MUC13 및 CTSB는 암과 기준 조직 간에 유효한 유전자 식별자이지만, 이들은 다른 암 예컨대 유방암, 난소암, 폐암 및 결정암에서 과발현되기 때문에 위암에만 특이적인 것은 아니다(Poola et al ., 2008). 그러나, LIPF, GAST, GIF, GHRL 및 GKN2는 위조직 특이적이고, 따라서, 특히 다른 마커와 함께 사용시, 위암에 유망한 혈청 마커이다.
위암에 대해 가장 유망한 예측 마커의 예
혈청 마커 병기 특이성 성별 특이성
일반 초기 여성 남성
MMP1 매트릭스 메탈로프로테아제 1 프리프로단백질
MUC13 뮤신-13
CTSB 카텝신 B
GKN2 가스트로카인-2
GHRL 식욕-조절 호르몬(Ghrelin)
LIPF 위 트리아실글리세롤 리파아제 (위 리파아제)
LIPG 내피 리파아제
LIMK1 LIM 도메인 키나아제 1
GAST 가스트린
GIF 위 고유 인자
AZGP1 아연-알파-2-당단백질
(†는 유전자가 우수한 분류 정확도를 갖지만 성별-비의존적임을 의미한다).
암, 및 관련 질환에서의 기능 주석, 및 발현 특이성을 포함한, 18개 예측 마커의 상세 정보
유전자
심볼
단백질
[AC]
질량 (kDa) FC 세포하 위치& 혈류 내 존재 (주석*/우리 예측) AS 암에서 보고된 발현
(정상 대비)
관련 질환
MMP1 매트릭스 메탈로프로테아제 1 프리프로단백질 [Q53G97] 44.8 7 세포외 공간 & (1/1) 유방; 결장; 혀; 두경부에서 중간정도 과발현; 폐; 방광암 암, 심혈관 질환, 간계 질환, 염증성 질환, 신경성 질환
COL10A1 콜라겐 알파-1(X) 사슬 [Q03692] 66.2 3 분비; 세포외 매트릭스 & (1/1) 결장; 유방암 결합조직 질환, 피부과 질환, 염증성 질환, 근골격계 질환
CLDN1 클라우딘-1 [O95832] 22.7 4 원형질막 & (0/1) 정상피종 및 난소암에서 중간정도 과발현 암, 피부과 질환 및 병태, 위장 질환
TOP2A DNA 토포이소머라아제 2-알파 EC=5.99.1.3 [P11388] 174.4 3 세포질; 핵 & (1/0) 방광; 뇌; 간 암 항원 제시, 암, 피부과 질환 및 병태, 위장 질환
CST1 시스타틴-SN 전구체 [P01037] 16.4 12 분비 & (0/1) 방광에서 중간정도 과발현; 두경부;정상피종 암, 신경성 질환
COL1A1 콜라겐 알파-1(I) 사슬 [P02452] 138.9 3 세포외 공간 & (1/1) 정상피종; 뇌에서 중간정도 과발현; 두경부; 위 암 항원 제시, 청각 질환, 암, 심혈관 질환, 결합조직 질환, 간계 질환, 염증 반응
MUC13 뮤신-13 [Q9H3R2] 54.6 2 분비 & (1/1) 상피 암 조직, 특히 위장 및 호흡기에서 고발현 암, 위장 질환
CTSB 카텝신 B [P07858] 37.8 1.8 리소솜 & (1/1) 자궁경부, 내막, 간 흑색종 및 췌장암에서 고발현 암, 심혈관 질환, 결합조직 질환, 피부과 질환, 내분비계 질환, 위장 질환, 혈액 질환, 간계 질환, 감염성 질환, 염증 반응, 신경성 질환, 신장 및 비뇨기 질환, 호흡 질환, 근골격계 질환
GKN2 가스트로카인-1
[Q86XP6]
22.0 3 분비 & (0/1) 유방 암에서 약간 상향조절 및 폐암에서 약간 하향조절 위 암, 크론병
GHRL 식욕-조절 호르몬(Ghrelin) [Q9UBU3] 12.9 9 분비 & (0/1) 직결장, 간 및 췌장 암에서 중간정도 발현 항원 제시, 암, 심혈관 질환, 내분비계 질환, 간계 질환, 염증성 질환, 염증 반응, 신경성 질환, 영양성 질환, 유기체 손상 및 이상성, 생리적 질환, 생식계 질환, 근골격계 질환
LIPF 위 트리아실글리세롤 리파아제 (위 리파아제) [P07098] 45.2 5 분비 & (0/1) 난소암에서 약간 상향조절, 및 유방암에서 하향조절 심혈관 질환, 내분비계 질환, 대사 질환, 영양성 질환, 호흡성 질환
LIPG 내피 리파아제 [Q9Y5X9] 56.8 3 분비 & (1/1) 뇌, 난소 및 두경부암에서 약간 상향조절; 백혈병에서 약간 하향조절 항원 제시, 심혈관 질환, 염증 반응
LIMK1 LIM 도메인 키나아제 1 [P53667] 72.6 1.8 세포질 & (0/1) 림프종 암 및 흑색종에서 중간정도 상향조절 암, 심혈관 질환, 피부과 질환, 발달 장애, 내분비계 질환, 유전 질환, 혈액 질환, 신경성 질환, 생식계 질환
GAST 가스트린 [P01350] 11.4 1.1 분비 & (0/1) 위암에서 발현 암, 크론병, 졸링거-엘리슨 증후군
TIP47(M6PRBP1) 만노스-6-포스페이트 수용체-결합 단백질 1 [O60664] 47.0 1.3 세포질, 엔도솜 막 & (1/1) 유방, 자궁경부, 직결장, 자궁 내막, 췌장 악성, 신장, 고환, 위 암 및 악성 신경교종 자궁경부 이형성증, 암
PDGFRB 베타-유형 혈소판-유래 성장 인자 수용체 [P09619] 124.0 2 막 & (1/1) 악성 신경교종, 난소암에서 중간 암, 심혈관 질환, 피부과 질환, 내분비계 질환, 위장 질환, 혈액 질환, 간계 질환, 면역 질환, 염증성 질환, 신경성 질환, 안과 질환, 신장 및 비뇨기 질환, 생식계 질환, 호흡성 질환, 근골격계 질환
GIF 위 고유 인자
[P27352]
45.4 12 분비 & (0/1) 대부분의 암 조직에서 하향조절되지만, 평활근육종에서는 중간정도 상향조절 유전 질환, 혈액 질환, 대사 질환
AZGP1 아연-알파-2-당단백질 [P25311] 33.9 3 분비 & (1/1) 전립선 암 및 유방암에서 고발현 염증성 질환, 호흡성 질환
(FC: 배수 변화; 주석*은 IPA 주석을 기초로 한다; AS: 검출된 대체 스플라이싱 변이체. 암 발현 정보는 Oncomine 웹사이트와 Proteinatlas 웹사이트에서 얻음).
실시예 13
예측된 혈청 마커의 실험적 검증
질량 분광분석과 웨스턴 블랏 분석의 조합 접근법을 이용하여 예측된 혈청 단백질 마커를 검증하였다. 혈청 샘플을 처리하여 12개의 가장 풍부한 단백질(알부민, IgG, α1-항트립신, IgA, IgM, 트랜스페린, 햅토글로불린, α1-산 당단백질, α2-마크로글로불린, HDL(아포지단백질 A-1 & A-II) 및 피브리노겐)을 항체 컬럼(ProteomeLab™ IgY-12 고용량 단백질체 분류 키트(Beckman Coulter))를 이용해 제거하였다. 이들 12개의 고도로 풍부한 단백질의 특이적 제거는 인간 혈청 또는 혈장 유래의 총 단백질 질량 중 96%를 감소시킨다. 예측되는 생체마커는 전체 단백질 질량 중 나머지 4%에 존재하며, 따라서, 분리 단계 덕분에 동정이 보다 용이해진다.
12개의 가장 풍부한 단백질의 면역포획이후, 비특이적 결합 단백질을 컬럼으로부터 용리하고 회수한다. 특이적으로 결합된 단백질을 또한 이들이 가능한 생체마커를 위한 담체로서 제공되는지 확인하기 위한 추가 분석을 위해 컬럼으로부터 용리할 수 있다.
웨스턴 분석을 위해, 단백질 샘플을 100℃에서 5분간 항온반응시키고, 4 내지 20% 구배 폴리아크릴아미드 겔(Bio-Rad)을 사용해 SDS-PAGE를 통해 분리시킨 후, PVDF 막으로 이동시켰다. TBST(10mM Tris HCl, pH 7.5, 150mM NaCl, 0.05% 폴리옥시에틸렌 솔비탄 모노라우레이트(Tween-20) [wt/vol]) 중 3% 탈지분유로 2시간 동안 실온에서 비특이적 결합 부위를 블로킹한 후, 막을 밤새 4℃에서 TBST 중 1.5% 탈지분유 중 1차 항체(각각 항체별로 다양하게, 1:200, 1:500, 1:3000, 1:10000로 희석)와 항온반응시켰다. TBST로 3회 세척 후, 막을 2차 항체를 함유하는 TBST 중 1.5% 탈지 분유에서 2시간 동안 실온에서 항온반응시켰다. 막에 대해 이후 웨스턴 섬광 화학발광 시약 플러스(Perkin Elmer, USA)를 사용해 강화된 화학발광 반응을 실시하였다. MagicMark 웨스턴 단백질 표준물(Invitrogen, Karlsruhe, Germany)을 사용해 분자량을 확인하였다. ECL 막 영상은 ImageJ 1.34s 소프트웨어(NIH 웹사이트에서 이용가능)의 겔 분석 기증을 이용해 단백질 농도를 정량하기 위해 평가하였다. 항체는 Abnova, Inc.(Taipei, Taiwan), Santa Cruz Biotechnology, Inc.(Santa Cruz, CA) 및 Abcam, Inc.(Cambridge, MA)에서 구매하였다. 예측되는 스프라이싱 변이체를 항체 선별에 사용하였다. 가장 풍부한 스플라이싱 이소폼이 너무 짧아 임의의 항원 영역(에피토프)를 포괄하기가 어렵다면, 마커는 전체 길이 단백질에 대해 특이적으로 설계뙨 항체를 통해 검출될 수 없다. 따라서, 이러한 항체는 그 에피토프 영역이 예측되는 스플라이싱 변이체의 분석을 기초로 대부분의 전사체에 의해 포괄되는 것을 선택하였다.
MS 실험을 2가지 다른 접근법을 통해 겔로부터 추출된 단백질에 대해 수행하였다. 서열분석 등급, 변형 트립신으로 분해한 후, 단백질 샘플에 대해 Apollo II나노전자분무소스에 적합화된 9.4T Bruker Apex IV QeFTMS(Billerica, MA)에 직접 결합된 75 ㎛ C-18 역상 컬럼이 구비된 Agilent 1100 시리즈 HPLC를 이용하는 온라인 HPLC 분석을 수행하였다. CAD(Collisionally activated dissociation)를 이온 해리를 위해 사용하였고, 단백질 단편화는 충돌 가스로스 아르곤을 이용하고, 이후 ICR 분석기 셀에 주입하여 수행하였다. 데이타 분석은 단백질 동정을 위한 단백질 프로스펙터 웹사이트 상의 MS-태그 프로그램 및 Bruker 데이타 분석 소프트웨어를 이용하여 수행하였다. 동시에, 동일 샘플을 단백질체-등급 트립신(Promega)으로 분해하고 LTQ 선형 이온 트랩 질량 분광계(Thermo Electron, San Jose, CA)에 직접 접속된 Agilent 1100 모세관 LC(Pal Alto, CA)에서 분석하였다. 펩티드 샘플은 5 ㎛ 직경의 C18 비드가 충전된 50 ㎛ 컬럼(New Objective, Woburn, MA)에 의해 PicoFrit 8-cm 상의 N2 정압을 이용해 적재시켰다. 펩티드는 200 nL/분의 유속으로 이동상 B로 구성된 총 용액의 5% 내지 60%의 55분 선형 구배 동안 질량 분광계로 컬럼으로부터 용리되었다. 장치는 15초의 반복 기간 및 3의 반복 계측으로 각 MS 스캔으로부터 9의 가장 풍부한 전구체 이온 상에서 MS/MS 스펙트럼을 얻도록 설정하였다. 동적 배지는 20초간 가능하였고, 데이타 분석은 Mascot(matrixscience 웹사이트 참조) 로 수행하였다(도 8).
검증 세트는 9명의 위암 환자(4명 초기 및 5명 진행성 암) 및 5 연령- 및 성별-매칭된 대조군으로부터의 혈청 샘플로 구성된다. 이러한 검증 세트는 독립적인 평가 세트로서, 질량 분광 분석용으로 모집된 것에 소수의 추가 샘플을 포함한다. 20개의 가장 유망한 후보 마커가 우리의 컴퓨터에 의한 예측을 기반으로 하는 웨스턴 블랏 분석을 위해 선별되었으며, 이중 4개가 상기 MS 분석에 의해 검출되었다. 이들 단백질 중 15개가 혈청 샘플에서 확인되었는데, MS 기반 분석에 의해 검출된 2개가 포함된다(TOP2A 및 AZGP1). 이들 중, 7개(GKN2, MUC13, LIPF, GIF, AZGP1, CTSB 및 COL10A1)는 도 9에 도시된 바와 같이 대조군 샘플과 암 환자의 혈청 간에 어느 정도 차등적인 존재량을 보였다.
도 9에 도시된 바와 같이, 2유형의 잠재적인 마커가 존재한다: (1) 진행성 암에서 증가/감소된 존재량의 단백질. 예를 들어, 뮤신-13은 진행성 암 혈청에서 그 존재량이 증가된 것으로 보이며, 발암, 이동성 및 세포 형태에 영향을 주는 몇몇 신호전달 경로에서 역할을 하는, 기도 및 위장관의 선단면을 덮는 당단백질이다. 일반적인 암 마커로서 사용될 수 있지만, 초기 단계 암 검출에는 비효율적일 수 있다. 위 리파아제(LIPF) 및 DNA 토포이소머라아제 2-알파(TOP2A)도 진행 단계 암 혈청에서 차별적으로 발현되는데 각각 발현이 감소 및 증가된다. (2) 암 혈청에서 발현이 감소되는, 초기 암에서 차별적으로 발현되는 단백질, 즉 GKN2, COL10A1 및 AZTP1은 제I기 암을 포함하여, 우리의 테스트에서 초기 샘플의 절반에서 그 존재량이 변화하였기 때문에 초기 암 검출에 효과적일 수 있다.
이러한 유망한 마커 중에서, CTSB는 강능한 위암 마커로서 제안되었었는데(Ebert et al ., 2005; Poon et al ., 2006), 차별적인 존재량을 보였지만 우리 샘플 전반에서 일관적이지는 않았다; MMP1 및 TOP2A는 일반적으로 암과 관련된 것으로 이미 보고된바 있다(Poola et al ., 2005); 본원에 기술된 데이타는 이를 뒷받침한다. GKN2 및 LIPF는 위 조직 특이적이다; COL10A1 및 GAST는 대체로 다른 질환 또는 면역 반응과 연관될 수 있다.
이들 개별 단백질의 조합은 강력한 조합 마커로서 고려되었다. 조합 마커의 상세한 정량 분석은 이들 단백질의 정확한 양 측정이 없기 때문에 어렵지만, 분류 정확도는 웨스턴 블랏 데이타로부터의 추정 단백질 존재량을 기초로 대량 평가되었다. 표 4에 도시된 바와 같이, 열거된 k-단백질 마커는 개별 혈청 마커보다 더욱 개선된 분류 정확도를 제공한다. 하기 표 10은 k-단백질 혈청 마커의 상세 목록을 제공한다.
5-교차 검증 정확도를 기초로, 유전자-수준과 단백질-수준에서 평가된, 검증된 k-단백질 마커의 검출 정확도
k 마커 검출 정확도
단백질-수준 유전자-수준
1 GIF 0.867 0.726
GKN2 0.80 0.705
MUC13 0.667 0.613
2 GIF+LIPF 0.933 0.746
GIF+COL10A1 0.867 0.732
GIF+TOP2A 0.80 0.732
3 GIF+LIPF+MUC13 0.933 0.733
LIPF+GIF+AZGP1 0.867 0.719
COL10A1+GKN2+GIF 0.80 0.753
4 LIPF+GIF+MUC13+AZGP1 0.933 0.767
LIPF+GIF+MUC13+COL10A1 0.933 0.788
LIPF+GIF+MUC13+GKN2 0.80 0.740
일부 인자가 웨스턴 블랏 결과에 영향을 줄 수 있음을 주목한다. 예를 들어, 이러한 인자 중 하나는 상이한 스플라이싱 이소폼이 각 관련 단백질의 일반적인 전체 길이 형태에 대해 설계된 항체에 대해 반드시 유사한 결합 친화성을 갖지는 않는다는 것이다. 마커 예컨대 MMP1, LIPG, LIPF 및 CTSB는 모두 기술된 예측결과를 기초로 스플라이싱 변이체를 갖는다. 따라서, 적절한 항체가 예측된 스플라이싱 변이체를 기초로 선택되었다.
실시예 14
소변에서 암 마커의 동정
트레이닝 및 테스트 데이타의 수집. 주요 소변 단백질체학 연구(Adachi et al . 2006)에서 동정된 1,500 단백질 세트를 양성 트레이닝 데이타로서 사용하였다. 총 1,313 인간 단백질이 SwissProt 기탁 ID를 사용해 이 단백질체학 연구에서 동정되었고 트레이팅 세트에 포함되었다. 독립적인 테스트 세트를 위해, 3개의 다른 주요 소변 단백질체학 연구 유래 데이타(Pieper et al ., 2004; Castagna et al ., 2005; Wang et al ., 2006)를 사용하여, 트레이팅 세트와 중복되지 않는 총 460 인간 단백질을 포함시켰다.
음성 트레이팅 및 테스트 데이타세트를 위해, 선택된 단백질이 Pfam(Finn et al ., 2008)의 동일 패밀리-크기 분포를 따르도록 하기 위해, [Cui et al ., 2008]에 기술된 선별 과정에 따라 양성 데이타와 중복되지 않는 Pfam 패밀리로부터 단백질을 수집하였다. 그 결과, 2 세트간에 임의의 중복없이, 각각 트레이닝 및 테스트 세트에 대해 2,627 및 2,148 단백질이 선별되었다.
특징 산출 및 선별. SwissProt 데이타베이스로부터 검색된 각 단백질 서열에 대해, 18개 특징을 산출하였다. 이들 특징 중 일부는 이들을 나타내기 위해 복수의 특징값을 필요로하며, 예를 들어, 단백질 서열의 아미노산 조성을 나타내기 위해 20개 특징값이 필요하며, 따라서, 18개 특징은 243개 특징값을 이용해 나타낸다. 표 11은 18개 특징과 이들 각각을 표시하기 위해 사용된 특징값의 수를 열거한 것이다. 18개 특징은 인터넷에서 이용가능하면 예측 서버 또는 인하우스 프로그램을 이용해 계산하였다.
특징 목록은 소변 배출에 대해 이용가능한 정보를 기초로 선택된, 소변 배출 단백질 및 비소변 배출 단백질을 구별하는데 강력히 유용하다. 어떠한 것이 실제 유용한지 검토하기 위해, 243개 특징값 중 유용한 특징을 선별하기 위해 LIBSVM(Library for Support Vector Machines)에 제공된 특징 선별 도구를 사용하였다. LIBSVM는 지원 벡터 분류(C-SVC, nu-SVC), 회귀(epsilon-SVR, nu-SVR), 및 분포도 추정(1-클래스 SVM)을 위한 통합 소프트웨어이다. 이 특징 선별 도구는 우리의 분류 문제와 각 특징값의 관련성 순위를 측정하기 위해 F-스코어(Chang & Lin 2001)를 산출한다. 사전선별된 한계값보다 낮은 F-스코어를 갖는 모든 특징을 제거하였고, 나머지 특징을 분류 문제에 유용한 것으로 간주하였다.
초기 분류 모델에 사용된 특징 요약
특징 부류 특징명 및 특징값 특징 산출에 사용된 프로그램
서열 특징 서열 길이(1)
AA 조성(20)
Fldbin (Prilusky et al. 2005), Profeat (Li et al., 2006)
물리화학적 특성 소수성(21), 정규화 반데르발스 부피(21), 극성(21), 분극성(21), 전하(21), 2차 구조(21), 용매 접근성(21), 슈도-AA 지시자(50) 국지적 산출, Profeat (Li et al., 2006): 3개 지시자: 조성, 전이 및 분포 이용
언폴딩성(1), 전하(1), 소수성(1), 무질서 영역의 #(1), 최장 무질서 영역(1), 무질서 잔기의 #(1), PI(1), MW (1), 전하(2), 무질서 영역의 비율(1) Fldbin (Prilusky et al., 2005), Swiss (Gasteiger et al., 2003), 국지적 산출
모티프 경막 도메인(1), 트윈-아르기닌 신호 펩티드(1), 경막 도메인(알파 헬릭스, 또는 베타 배럴)(2), 글리코실화 수 및 존재(N&O 결합)(4) TMB-Hunt (Bendtsen et al., 2005; Garrow et al. 2005), TatP (Bendtsen et al., 2005), phobius (Kall et al., 2007), NetOgly (Julenius et al., 2005), NetNGly (Gupta et al., 2004)
구조적 옵션 2. 243
2차 구조 정보(4), 회전 반경(1), 반경(1) SSCP (Eisenhaber et al., 1995), 회전 반경, 국지적 산출
DAVID 바이오인포매틱스 리소스 웹서버를 사용하여 모든 예측된 소변 배출 단백질에 대한 기능 집중 분석을 실시하였다. 기능 주석 클러스터링 분석은 기본값으로서 인간 단백질을 이용해 수행하였다. 그룹 당 전체 집중 스코어는 각 클러스터에 대한 EASE 스코어를 통해 결정하였다(Dennis et al ., 2003; Huang et al ., 2009).
KOBAS 웹서버(Mao et al ., 2005; Wu et al ., 2006)를 사용하여 예측되는 소변 배출 단백질 중에서 통계적으로 집중되고(enriched) 불충분하게 표시된(underrepresented) 경로를 찾았다. KOBAS는 서열 세트를 선택하고 BLAST 서열 유사도를 기초로 KEGG 오르쏠로지 용어로 주석을 달았다. 주석이 달린 KO 용어를 이후 모든 인간 단백질에 대해 비교하였다. 비율 조성 면에서 2배 이상 변화가 존재하면 경로를 집중 또는 불충분표시로 간주하였다.
전이 단계인 10명의 위암 환자(7 남성, 3 여성)와 10명의 성별-일치된 건강한 사람으로부터의 소변 샘플을 중국, 창춘 소재 길림 대학의 의학 대학에서 수집하였다. 이들 샘플을 곧바로 동결건조하고 사용준비가 될때까지 보관하였다. 샘플을 재구성하고 3,000 상대 원심력에서 25분간 4℃에서 원심분리하여 세포 성분을 제거하였다. 상등액을 수집하고 추가 사용까지 -80℃에 보관하였다. 이어서 샘플을 Slide-A-Lyzer 투석 카세트(Thermo Fisher Scientific, Rockford, IL)를 사용해 Millipore 초순수에 대해 4℃에서 투석하였다(3 완충액 교체 후 밤새 투석). 단백질 농도는 표준물로서 소혈청 알부민과 Bio-Rad 단백질 어세이(Bio-Rad, Hercules, CA)를 사용해 측정하였다.
신호 펩티드 및 2차 구조가 소변 배출 단백질의 핵심 특징이다. F-스코어-기반 특징 선별을 위해, 특징값의 수가 74일 때 최고 정확도가 관찰되었다. 이들 74 특징값을 이용해, SVM-기반 분류를 리트레이닝하였다. 선별된 특징 중에, 배출 단백질에 가장 차별적인 것은 신호 펩티드의 존재였다. ER을 통해 분비되는 단백질이 신호 펩티드를 가지며 특정 신호 펩티드에 따라 그들의 목적지로 수송된다는 것은 공지이고; 따라서, 대부분의 배출 단백질은 이러한 특징을 가진다. 다른 두드러진 특징은 2차 구조의 유형(들)이었다; 2차 구조와 연관된 몇몇 특징값은 상위 74 중에 포함되었고, 알파 헬릭스의 비율이 74 중에서 2위였다.
단백질 전하는 배출 단백질에 대해 상위에 랭크되는 단백질이었다. 이는 전하가 단백질이 신장 사구체막을 통해 여과되는지 확인하는 인자라는 일반적인 이해와 일관된다. 그러나, 단백질의 분자 크기는 232에 랭크되었고, 분류 문제와 무관한 것으로 확인되었다.
하기 표 12에 나타낸 바와 같이, 2 분류자를 트레이닝하였다. 모델 1은 특이성은 높지만 민감성이 낮은 반면, 모델 2는 보다 균형있는 성과를 보였다. 양성 및 음성 트레이닝 데이타의 불균형적인 수로 인해, 정확도가 모델의 성능을 결정하는 최고 수단이 아닐 수 있다. 따라서, 매튜의 상관 계수를 분류 품질의 척도로서 사용한다.
트레이닝에 대한 트레이닝 모델의 성능
세트 모델 TP TN FP FN SEN SP ACC MCC
트레이닝 1 792 2493 134 341 0.7403 0.9490 0.8794 0.5228
트레이닝 2 1164 2230 297 149 0.8865 0.8869 0.8868 0.5697
독립적 1 360 1983 165 100 0.7826 0.9232 0.8984 0.4500
독립적 2 404 1838 310 56 0.87820 0.85567 0.85966 0.39358
SBM-기반 트레이닝에 의해 유추된 바와 같은 양성 및 음성 트레이닝 데이타 사이의 분리 초평면으로부터의 단백질 거리와 예측 신뢰도 간에 직접 상관성이 존재한다. 구체적으로, 분리 초평면으로부터 거리가 멀수록, 정확한 예측 가능성이 높아진다(도 10). 가이드로서 신뢰 구간을 이용하여, 실험 검증을 위한 소수의 단백질을 선별할 수 있다.
위암 데이타에 트레이닝된 분류 모델 적용. 소변에서 위암에 대한 가능한 생체마커를 동정하기 위해, 본원에서 개발된 트레이닝 모델을 Affymetrix 인간 엑손 어레이 1.0(Cui et al ., 2009) 상의 동일 80명 환자에서 유래하는 80개 매칭 비암성 위조직 및 80개 위암 조직에 대한 160 엑손 어레이를 기초로 동정된 2,048개의 차별적으로 발현되는 유전자 세트에 적용하였다. 2,048 단백질 중에서, 480개가 모델 1에 의해 소변으로 배출될 것으로 예측되었고; 이들 480 단백질 중에서, 11개 단백질은 신뢰도가 98% 이상으로, 이들이 소변으로 배출될 가능성이 높은 것으로 나타났다. 480개 중에서 총 203개 단백질은 신뢰도가 92% 이상으로, 이 또한 고도로 신뢰할만한 예측으로 간주하였다.
기능성 및 경로 집중 분석은 어떠한 유형의 단백질이 소변에서 발견될 수 있는지 결정하는데 도움이 되도록 모든 480개 단백질에 대해 수행하였다. 구체적으로, 분석결과가 특정한 기능군 또는 경로에 집중되는 것을 시사하면, 그 그룹에서 생체마커를 찾는 기회가 증가된다. 기능 및 경로 집중 분석은 기본값으로서 온전한 인간 단백질을 사용하여, 각각 DAVID(Dennis et al ., 2003) 및 KOBAS(Wu et al ., 2006) 웹 서버를 이용해 분석하였다.
DAVID에 의한 기능 집중 분석은 480개 단백질 중 가장 집중된 기능군에 세포외 매트릭스(ECM)이 포함됨을 밝혀주었다. ECM은 세포 증식 및 이동성에 영향을 주어 암 진행에서 중요한 역할을 한다. ECM에서 리간드와 세포 표면 수용체간 상호작용은 세포 탈착과 이동에 영향을 줄 뿐만 아니라, ECM은 또한 세포가 부착하고 성장할 수 있는 주형으로서 제공된다(Ashkenas et al ., 1996; McKinnell et al ., 2006). ECM 분자의 조성, 세포 유형, 및 세포-표면 수용체 조성은 인테그린을 통해 신호를 전달하여 세포 증식을 촉진하거나 또는 억제할 수 있다(Stein & Pardee 2004). 따라서, ECM에 관여하는 단백질은 위암뿐만 아니라, 모든 유형의 다른 암에서도 중요한 소변 생체마커일 수 있다. 전체적으로, 480개 단백질 중 164개가 이 군에 속한다.
다음으로 가장 집중된 군은 세포 부착에 관여하는 단백질이다. 세포 부착 단백질은 암 성장의 원인이 되는 인자로 잘 알려져 있다. 예를 들어, 세포는 서로에 그리고 ECM에 부착되지만, 종양이 형성되면, 세포는 1차 종양으로부터 해리되어 전이를 위해 림프계로 침입한다. 결과적으로, 암종 세포는 세포 부착 분자, 예컨대 E-카데린을 발현할 수 없고, 그들의 특징적 형태를 상실하여 침윤성이된다(Frixen et al ., 1991). 동정된 480개 단백질 중에서, 93개가 이러한 군에 속하고, 따라서 소변에서 세포 부착 생체마커의 발견에 대해 신중한 낙관론을 제공한다. 다른 집중된 기능군은 발생, 세포 이동성, 방어/염증 반응, 및 혈관 발생/혈관생성에 관여하는 단백질을 포함한다. 도 11은 기능성 집중 분석의 전체 결과를 도시한 것이다.
480개 단백질의 경로 집중 분석은 일정 경로가 기본값, 전체 인간 단백질 세트와 비교하여 통계적으로 집중(도 12) 또는 불충분표시(도 13)됨을 보여주었다. 480개 단백질 중에서, 20% 이상이 암 형성 및 발생에 반응하여 면역계에 의해 축발될 수 있는, 세포 항원 경로에 관여하였다. 암 발생에서 면역계의 기능은, 충분히 이해되지 않고 있는데, 특히 암 발생 및 진행에서의 역설적인 역할을 할 수 있기 때문이다. 예를 들어, 항종양 후천성 면역 반응의 활성화는 종양 성장과 발생을 억제할 수 있지만, 침습성 림프구의 존재비는 보다 호의적인 예후와 상관되는 반면, 침윤성 선천성 면역 세포의 존재비 증가는 혈관생성 증가 및 불충분한 예후와 상관있다(de Visser et al ., 2006).
항원 경로에 단백질의 집중은 그들의 혈류에 대한 용이한 접근성때문에 놀랍지는 않다. 혈액 순환계에서, 이들은 세포내 단백질과 달리, 사구체를 통해 쉽게 여과될 수 있다. 이는 발견될 수 있는 항원 암 마커가 더 존재함을 의미한다. 펩티다아제, 세포 부착 분차, 및 CAM 리간드는 암 진행에서의 그들의 역할때문에 예상되는 바와 같이, 경로 분석에서 과표시되었다.
대부분의 불충분표시된 단백질은 세포내 단백질이다(도 13). 예를 들어, 단빅잴 키나아제 경로는 480개 단백질에서 유의하게 불충분표시된다. 단백질 키나아제는 핵심적인 세포내 프로세스, 예컨대 이온 수송, 세포 증식, 호르몬 반응, 아폽토시스, 대사, 전사, 및 세포골격 재배열 및 세포 이동에 관여한다(Malumbres & Barbacid, 2007). 키나아제 활성의 탈조절은 보통 종양 성장을 초래한다. 예를 들어, 많은 키나아제 돌연변이가 암 발생의 원인이 되는 '드라이버' 돌연변이라는 증거가 있다(Greenman et al ., 2009); 또한, 돌연변이된 단백질 키나아제의 억제제는 암 치료에서 효능을 보였다(Sawyers, 2004). 암 진행에서의 그 핵심 역할과 무관하게, 단백질 키나아제 경로의 불충분표시는 이들 단백질이 세포내에 존재하고 따라서 소변으로 분비되지 않을 수 있다는 사실에 기인한다.
항체 어레이 스크리닝. 위암 조직 및 정상 조직간에 차별적으로 발현되는 2,048개 유전자 중에서, 26개 단백질이 274 항체 어레이에 포함되었다(도 14). 이들 26개 단백질 중에서, 7개(FGF7, CD14, MMP9, MMP2, MMP10, TREM1, CEACAM1)는 우리 모델에서 분비될 것으로 예측되었다. 항체 어레이 데이타는 분비가 예측되는 7개 단백질 중 6개가 1 이상의 샘플 소변에 존재함을 보여주었다. 그러나, MMP10은 어떠한 6개 샘플에서도 검출되지 않았는데, 이는 거짓 양성임을 의미한다. 그럼에도, 모델은 분비되는 소변 단백질 예측에서 정확하였다.
항체 어레이로부터, 10개 단백질(Fit3-리간드, EGF-R, sgp130, PDGF AA, 황체형성 호르몬, Tim-3, Trappin-2, CEA, CEACAM1, FSH)은 정상 샘플과 비교하여, 모든 암 샘플에서 실질적으로 하향조절되는 것으로 확인되었고(도 14), 이들은 위암에서 농도가 감소되지만, 가능한 새로운 생체마커일 수 있음을 의미한다. 이들 10개 단백질 중, CEACAM1은 위암과 기준 샘플간 차별적으로 발현되는 2,048개 유전자의 데이타세트에 포함되는 유일한 단백질이었다(Cui et al ., 2009). 이 단백질은 모델에 의해 분비되는 것으로 에측되어 가능한 생체마커를 소변에서 동정하는데 이 모델이 성공적임을 의미한다.
웨스턴 블랏 분석을 소수의 예측되는 소변 분비 단백질에 대해 수행하엿다. 3개 단백질, MUC13, COL10A1 및 EL이 소변 분비 예측 순위 및 단백질 기능을 기초로 선별되었다. 경막 뮤신 MUC13은 위암 조직에서 상향조절되는 것으로 확인되었고 잠재적인 진단 및 치료 표적으로서 제안되었다(Shimamura et al ., 2005). 이것은 세포 부착, 조정, 세포 신호전달, 화학주성, 상체 치유 및 뮤신/성장 인자 상호작용에 관여할 것 같은 3개 EGF-유사 도메인을 갖는다(Williams et al ., 2001; N'Dow et al ., 2004).
MUC13(58kD)은 소변으로 분비될 것으로 예측되었고, 웨스턴 블랏으로 이러한 예측을 확인하였다. 도 15에 도시한 바와 같이, MUC13은 위암 환자와 대조군 둘 모두의 소변 샘플에 존재하였다. 밴드의 상대 정량은 ImageJ 소프트웨어를 이용해 결정하였고, 여기서 각 레인을 분석하였고 피커 하 면적을 결정하여 비고하였다. 마이크로어레이 데이타가 MUC13이 mRNA 수준에서 차이를 보이는 것으로 밝혀주었지만, 웨스턴 블랏 밴드의 정량 결과는 58 kDa 밴드에서의 암샘플과 대조군 샘플간에 유의한 차이가 보이지 않았다. 이 밴드가 55-75K 사이에 위치하기 때문에, 이러한 결과는 이 단백질이 온전하게, 거의 온전한 형태로 분비됨을 시사한다.
COL10A1는 거대한 C 말단 및 N 말단 도메인을 갖는 동종삼량체 콜라겐이다(Gelse et al ., 2003). 이 단백질은 하부 비대성 구역의 석회화 프로세스에 관여하는 것으로 여겨지며, 유리질 연골의 추정 무기화 구역에 국재하는 것으로 확인되었다(Schmid & Linsenmayer, 1987; Kwan et al ., 1989; Kirsch & Mark, 1992; Alini et al ., 1994). 유방암과 난소암 조직에서 과발현되는 것으로 확인되었다(Ferguson et al ., 2005). 우리의 마이크로어레이 데이타는 또한 COL10A1이 위암 조직에서 과발현되는 것을 보여주었다.
COL10A(66 kD)에 대한 웨스턴 블랏은 37-50 kD 사이에 선명한 밴드를 보여주었고, 이러한 결과는 이 단백질이 아마도 1 이상의 절단에 의해 불완전한 형태로 소변에서 대부분 발견된다는 것을 의미한다(도 16). 위암 샘플의 평균 강도는 대조군 샘플과 비교하여 ?50% 더 높았다.
내피 리파아제(EL)(55 kD)는 내피 세포에 의해 생성되고 일반 지질 대사의 그 합성 부위에서 기능한다(Choi et al ., 2002; Ishida et al ., 2003). 몇몇 연구들은 이 단백질이 HDL 수준 제어의 결정적 인자이고 EL 및 HDL 발현 간에 역관계가 존재함을 보여주었다(Ishida et al ., 2003; Jin et al ., 2003; Ma et al., 2003). EL은 또한 인간 아테롬성 동맥경화 병변의 마크로파지와 연관되어 있고; EL의 억제는 인간 마크로파지에서의 프로염증성 사이토카인의 발현을 감소시키고 세포내 지질 농도를 감소시켰다(Qiu et al ., 2007).
이 단백질은 임의의 암과 연관되지는 않지만, 이 단백질이 우리의 마이크로어레이 데이타 분석을 기초로 위암 조직에서 상향조절되는 것으로 확인되었다(Cui et al ., 2009). 흥미롭게도, EL에 대한 웨스턴 블랏은 정상 샘플과 비교하여 위암 환자의 소변 샘플에서 그 존재비가 실질적으로 감소됨을 보여주었다(도 17). 구체적으로, EL은 모든 3개의 대조군 샘플에서 검출되었지만 위암 샘플에서는 EL이 거의 보이지 않거나 또는 전혀 보이지 않았다. 놀랍게도, 밴드가 100 kDa 이상에서 검출되었는데, 이러한 결과는 EL이 헤드-투-테일 입체 구조의 동종이량체, 활성형으로 소변에 분비되었음을 의미한다(Griffon et al ., 2009); 어떠한 샘플에서도 다른 밴드가 관찰되지 않았다.
실시예 15
마커 동정을 위한 항체 어레이 실험
단백질 어레이 실험이 또한 3명의 위암 개체 및 3명의 대조군으로부터 얻은 혈청 샘플에 대해 바이오틴 표지-기반 항체 어레이를 이용하여 수행되었다. 바이오틴-표지-기반 어레이 실험을 위해, 각 혈청 샘플을 투석한 후, 제조사의 지시(Pierce, Rockford, IL, USA)에 따라 바이오틴 표지화 단계를 수행하였고, 이때 단백질의 1차 아민이 바이오틴화된다. 바이오틴 표지된 단백질(혈청 샘플 중 50 ㎕)을 이어서 항체 칩과 실온에서 2시간 동안 항온반응시켰다(RayBio?Biotin Label-Based Antibody Arrays, RayBiotech , Inc. U.S.A). HRP-스트렙타비디 또는 형광발광 염료-스트렙타비딘과 항온반응 후, 신호는 형광발광 또는 화학발광에 의해 시각화하고, 이어서 스캔 어레이 레이저 공초점 슬라이드 스캐너(PerkinElmer Life Science)로 영상화하였다. 모든 어레이 실험은 3회 반복하였다.
507개의 기지 인간 단백질의 존재비를 측정하였는데, (항-) 염증성 사이토카인, 케모카인, 아디포카인, 매트릭스 메탈로프로테이나아제, 혈관생성 인자, 성장 및 분화 인자, 세포 부착 분자 및 가용성 수용체가 여기에 포함되었다. 이 분석은 위암과 대조군 샘플간에 발현이 고도로 유의하게 차이나는 103개 단백질을 동정하였고, 그중에 28개 단백질이 암샘플에 더 많이 존재하였고 반면 나머지는 대조군 샘플 대비 암에서 그 존재량이 더 적은 것으로 확인되었다. 존재비 차이 분포는 도 19에 도시하였고, 이들 단백질 명칭 목록을 표 13에 열거하였다.
이들 103개 단백질 중 오직 하나(CCL28)만이 우리의 질량 분광분석법으로 검출되었는데, 샘플에 이 신호전달 단백질의 존재량이 비교적 낮았기 때문인듯하다. 이 실험을 기초로, 항체 어레이가 단백질 마커를 강력하게 검출할 수 있는 한편, 그 특이성은 우려될 수 있다고 결론내릴 수 있다.
바이오틴 표지-기반 항체 어레이를 통한 대조군 혈청 대비 암 혈청에서 차별적 존재량으로 동정된 103개 단백질
단백질 ID 평균
대조군
평균
배수
변화
인슐리신/IDE 96.7 747.3 7.7
IL-20 R 알파 199.0 1314.0 6.6
IL-31 RA 41.3 263.0 6.4
IL-16  244.3 1404.3 5.7
SDF-1 / CXCL12 1584.3 7729.3 4.9
SCF 585.3 2782.7 4.8
IL-17RC 29.0 120.0 4.1
TECK / CCL25 49.0 195.0 4.0
RELT / TNFRSF19L 73.7 262.0 3.6
IL-18 BPa  1622.3 5707.0 3.5
TGF-알파 54.7 185.3 3.4
FGF-12 101.7 344.3 3.4
IL-17RD 1039.0 3473.0 3.3
GRO 1057.7 3534.0 3.3
DR3 / TNFRSF25 43.3 142.3 3.3
EGF R / ErbB1 145.7 406.3 2.8
IL-12 R 베타 1 177.7 473.0 2.7
IL-1 알파 1360.0 3331.0 2.4
IL-17R 832.0 1945.3 2.3
IL-4 R 8509.3 19494.3 2.3
IL-8 1766.7 3823.3 2.2
MCP-1 725.0 1548.3 2.1
RANTES 158.0 290.0 1.8
그랜자임 A 1019.0 1717.0 1.7
IL-5 1205.3 1996.3 1.7
크레멘-2 391.0 622.0 1.6
오스테오프로테게린 / TNFRSF11B 4484.7 7127.3 1.6
Siglec-9 43881.7 64277.7 1.5
MIP-1b 233.3 151.3 -1.5
인히빈 A  210.0 134.0 -1.6
MCP-2 551.7 338.0 -1.6
TGF-베타2  941.3 546.3 -1.7
TRAIL R1 / DR4 / TNFRSF10A 862.7 495.3 -1.7
NGF R  217.3 123.3 -1.8
BMP-15 562.0 314.7 -1.8
BAFF R / TNFRSF13C 413.7 228.7 -1.8
TRANCE  270.3 147.7 -1.8
B7-1 /CD80 961.3 508.7 -1.9
뉴로필린-2 565.0 294.7 -1.9
NT-4  415.0 209.0 -2.0
FGF 염기성 896.7 450.7 -2.0
MCP-3 587.7 291.7 -2.0
CTLA-4 /CD152 557.3 271.3 -2.1
BD-1 250.0 117.3 -2.1
EGF 1850.7 867.7 -2.1
IFN-알파 / 베타 R1 352.7 163.3 -2.2
VE-카데린 412.0 187.7 -2.2
IL-2 R 알파  1129.3 508.3 -2.2
엔도글린 / CD105 1140.3 510.0 -2.2
PARC / CCL18 488.7 217.7 -2.2
CCR1 556.3 243.7 -2.3
림포탁틴 / XCL1 301.0 130.3 -2.3
TLR3 1029.3 445.3 -2.3
림포톡신 베타 R / TNFRSF3 271.0 116.3 -2.3
TIMP-4 477.7 201.0 -2.4
아디포넥틴 / Acrp30 4485.0 1860.3 -2.4
CCR2 510.3 209.3 -2.4
FADD 282.0 115.7 -2.4
바소린 372.0 152.0 -2.4
TRAIL / TNFSF10 513.7 208.7 -2.5
CXCR5 /BLR-1 600.7 239.3 -2.5
IL-1 R4 /ST2 1342.0 532.3 -2.5
LIF  267.7 103.3 -2.6
VEGF-C  430.7 165.0 -2.6
CCR4 639.0 244.7 -2.6
IL-2 R 감마 396.3 151.3 -2.6
MMP-3 207.3 78.7 -2.6
뉴르투린 1021.7 381.3 -2.7
BMP-3 1039.0 387.3 -2.7
ICAM-1 100.7 36.3 -2.8
HVEM / TNFRSF14 123.3 43.7 -2.8
IL-22 R 243.0 84.7 -2.9
WIF-1 882.7 301.3 -2.9
PDGF-BB 203.7 67.7 -3.0
IFN-알파 / 베타 R2 509.3 164.7 -3.1
E-셀렉틴 341.7 109.0 -3.1
Tie-1 231.7 73.3 -3.2
IGF-I SR 932.0 287.3 -3.2
IL-1 R6 / IL-1 Rrp2 501.3 154.0 -3.3
IL-3 R 알파 610.7 174.7 -3.5
CCL28 / VIC 682.0 193.7 -3.5
IL-15 R 알파 282.0 80.0 -3.5
NT-3  648.7 178.3 -3.6
Tie-2 5343.7 1468.0 -3.6
안지오포이어틴-1 814.7 219.7 -3.7
MIP-3 알파 766.3 202.7 -3.8
GFR 알파-3 307.3 75.3 -4.1
Glut1 165.0 40.3 -4.1
PDGF-AB 526.0 124.7 -4.2
CXCR3 1713.3 384.3 -4.5
DANCE 395.7 86.7 -4.6
MFRP 736.3 146.7 -5.0
CCR3 1279.0 240.0 -5.3
VEGF-B 996.0 166.0 -6.0
CXCR4 (푸신) 1138.3 183.3 -6.2
PLUNC 137.0 20.3 -6.7
BLC / BCA-1 / CXCL13 5564.3 422.7 -13.2
sFRP-4 173.3 12.7 -13.7
EMAP-II 6165.7 383.0 -16.1
RANK / TNFRSF11A 381.7 20.3 -18.8
CXCR2 / IL-8 RB 27292.0 1048.3 -26.0
IL-22 BP 37.7 1.3 -28.3
VEGF-D  13874.7 320.0 -43.4
실시예 16
다른 암에 대한 마커 동정
위암 이외에도, 상기 개요를 서술한 컴퓨터 방법 및 부가의 도구가 공개 활용 암 마이크로어레이 데이타를 이용해 다른 암에 적용되었다. 이러한 실험을 위해, 8개 암 유형에 대한 마이크로어레이 유전자 발현 데이타를 인터넷 상의 데이타 베이스로부터 수집되었는데, 간암(Chen et al ., 2002), 전립선 암(Lapointe et al ., 2004), 폐암(Garber et al ., 2001), 신장암(Sarwal et al., 2001), 직결장암(Giacomini et al ., 2005), 유방암(Dairkee et al ., 2004), 난소암(Schaner et al ., 2003) 및 췌장암(Iacobuzio-Donahue et al ., 2003)이고, 각각은 샘플 크기가 비교적 크다.
각 데이타세트에 대해, 암과 기준 조직간에 최고로 구별될 수 있는 상위 100개 마커를 상기 개략한 동일 절차를 이용해, 마커로서 1-, 2-, 3-, 4- 및 5-유전자를 이용해 예측한다. 도 18은 83 전립선암 조직 및 50 기준 전립선 조직을 구별하는데 있어, 각각 최고 1-유전자 및 2-유전자 마커에 의한 분류 정확도를 도시한 것이다(데이타의 2/3은 5-교차 검증을 이용해, 트레이닝용으로 나머지 1/3은 테스트용으로 사용하였다). 전립선암의 경우, 최고의 3가지 1-유전자 마커는 AMACR, ITPR1 및 ACPP였고, 각각 분류 정확도가 88.0%, 86.1% 및 85.7%이고, 최고의 3가지 2-유전자 마커는 ITGA9-SPG3A, CREB3L4-ITGA9 및 BLNK-ITGA9이며, 분류 정확도가 모두 98.0%이다. 흥미로운 관찰결과는 광범위하게 사용되는 PSA는 암과 기준 조직 간 식별력 면에서 우리의 1-유전자 마커 목록에서 167번째 위치에 랭크되었다. 이는 전립선암 및 양성 전립선 이형성증을 식별하는 PSA의 용인되는 제한성과 일관된다. 상위 마커 후보물 중에서, AMACR은 최근에 몇몇 그룹에 의해 전립선암에 대한 강력한 혈청 마커로서 동정되었다(Bradford et al ., 2006). 유사한 분석이 상기 목록의 다른 7개 암 유형에 대해 또한 수행되었다.
실시예 17
공개 마이크로어레이 데이타에 대한 검색을 통해 예측된 유전자 마커의 특이성 분석
예측된 유전자 마커가 위암에 특이적인지 검토하기 위해, 생체마커 평가 시스템을 개발하여, 인간 질환에 대한 GEO(Barrett et al ., 2005), Oncomine(Rhodes et al ., 2004), 및 SMD (Sherlock et al ., 2001) 데이타베이스의 공개 마이크로어레이 데이타세트에 대해 각 예측 마커를 검색하였다. 각각의 예측 마커, 개별 유전자 또는 유전자군과, 그들의 발현 배수 변화 정보에 대해, 후속 검색을 수행하였다. 유전자 마커가 복수 질환에서 실질적으로 양성 예측율(현재 30%로 설정)을 제공하면, 그 마커는 암에 특이적인 것으로 간주하지 않았고 따라서 후보 목록에서 제거된다.
실시예 18
차별적으로 발현되는 유전자/전사체 검출용 알고리즘
이 실험의 목표는 특정 유전자가 대부분의 환자에서, 그 발현 변화를 k-배 변화 또는 그 이상 변화를 보이지 않는 가설(H 0 )을 검증하는 것이다(p-값<0.05). 특정 유전자가 암에서 일정한 발현 수준 변화를 보이지 않는다는 가설 H 0 를 검토하기 위해, 이 가설의 거부는 암에 대한 변질 홀드를 의미한다. N[i] 및 C[i](i = l...m)는 i-번째 환자의 기준 및 암 조직에서의 유전자 발현으로 놓고, m은 모든 환자의 수로 한다. 가설 H 0 가 참이면, 확률 P(N[i]>C[i]) = P(N[i]<C[i]) = 0.5이고, 유전자의 발현은 연속적인 무작위 변수로 가정한다. KN[i]/C[i]>0.5인 환자의 수라 하면, 중심 극한 정리를 기초로, 무작위 변수 K/m는 평균=0.5 및 표준 편차 = 0.5/√m이거나, 또는 X = 2K/√m은 표준 정상 분포 N(0,1)를 갖는다. 따라서, p-값은 P(X > 2K exp/√m)로서 추정할 수 있고, 이 식에서 K expP(N[i]>C[i])인 실험적으로 관찰된 환자의 수이다.
실시예 19
위암의 공개 마이크로어레이 데이타
샘플 분포의 편향으로 인해 야기되는 불일치를 없애기 위해, GEO 데이타베이스로부터의 위암에 대한 2가지 공개 마이크로어레이 데이타세트를 비교 실험을 위해 다운로드하였다: 하나(Kim 데이타세트)(Kim et al ., 2007)는 다양한 병기, 암유형 및 암 분화도에 대한, 한국에서의 50명 위암 환자의 유전자 발현 프로파일을 측정한 것이다. 미가공 데이타는 정상 샘플의 평균값에 대하여 산출된 각 종양에 대한 log2 배수 변화값으로 제공된다; 다른 하나(Xin 데이타세트, GSE2701)(Chen et al ., 2003)는 공통 기준(CRG)에 대해 44K 인간 어레이를 이용해 분석된, 총 126의 홍콩에서 수집된 위암 환자 종양 및 정상 조직의 유전자 발현을 측정한 것이다. 처음 세트는 정규화되었고 log 변형되었으며, 우리는 Xin 데이타세트를 (Sharma et al ., 2008)에 기술된 동일한 절차에 따라 사전처리하였다.
한국에서의 50명 위암 환자의 유전자 발현 데이타인, Kim 데이타세트를 이용하여 초기 단계 마커를 평가하였고, 100 위암 및 24 기준 조직의 유전자 발현 데이타인 Xin 데이타세트는 우리가 제안한 유전자 마커의 일반성을 평가하는데 사용하였다.
실시예 20
생략 엑손 바로 직전의 인트론에 대한 스플라이싱용 기지 cis 조절 모티프 맵핑
스플라이싱 조절에 관여하는 것으로 여겨지는 362개 인트론 cis 조절 모티프를 수집하였다(Wang et al ., 2008). [Wang et al ., 2008]의 실험에서, 엑손의 바로 상류 인트론 영역(5' 스플라이싱 부위에 대해 -150 내지 -30 nt)에 이러한 cis 조절 모티프가 집중되어 있음을 보여주었고, 개괄적으로 이는 엑손이 다르게 스플라이싱될 수 있음을 의미한다. 추가 분석은 이러한 조절 모티프의 존재 수가 많은 것과 엑손의 엑손-생략 이벤트 발생이 높은 것이 연관됨을 시사하였다. 따라서, 각 엑손에 대해 상기 정의된 인트론 영역 내 이들 조절 모티프의 존재(100% 서열 일치)가 계측되었다.
상기 명세서에 언급된 모든 출판물 및 특허를 참조하여 본원에 포함시킨다. 본 발명의 다른 구체예는 본원에 개시된 발명의 실시 및 명세서 내용으로부터 당분야의 지식을 갖는 이들에게 명백하다. 명세서 및 실시예는 예로서만 생각되며, 본 발명의 진정한 범주 및 정신은 첨부된 청구항에 표시된 것이다.
[참조문헌]
Figure pct00006
Figure pct00007
Figure pct00008
Figure pct00009
Figure pct00010
Figure pct00011
Figure pct00012
Figure pct00013
Figure pct00014
Figure pct00015

Claims (38)

  1. 암 검출을 위한 혈청 단백질 마커를 결정하는 방법으로서,
    (a) 암 샘플 및 기준 샘플을 얻는 단계;
    (b) 암 샘플과 기준 샘플 간에 차별적으로 발현되는 1 이상의 유전자를 결정하는 단계;
    (c) 상기 1 이상의 유전자의 생성물인 1 이상의 단백질을 동정하는 단계;
    (d) 1 이상의 단백질이 생물학적 유체로 분비될 가능성을 예측하는 단계; 및
    (e) 생물학적 유체로 분비될 것으로 예측되는 1 이상의 단백질의 존재를, 생물학적 유체에서 검출하는 단계로서, 생물학적 유체에서 1 이상의 단백질의 검출은 암의 검출을 구성하는 것인 단계
    를 포함하는 결정 방법.
  2. 제1항에 있어서, 암 샘플 또는 기준 샘플은 조직 샘플을 포함하는 것인 결정 방법.
  3. 제1항에 있어서, 암 샘플과 기준 샘플 간 1 이상의 유전자의 발현이 1.5배 이상 변화되는 것인 결정 방법.
  4. 제1항에 있어서, 암 샘플과 기준 샘플 간 1 이상의 유전자 발현이 2배 이상 변화되는 것인 결정 방법.
  5. 제1항에 있어서, 1 이상의 유전자의 발현이 기준 샘플과 비교하여 암 샘플에서 증가되는 것인 결정 방법.
  6. 제1항에 있어서, 1 이상의 유전자의 발현이 기준 샘플과 비교하여 암 샘플에서 감소되는 것인 결정 방법.
  7. 제1항에 있어서, 암 샘플과 기준 샘플 간에 차별적으로 발현되는 1 이상의 유전자를 결정하는 단계는 암 샘플과 기준 샘플로부터 전체 RNA의 단리를 포함하는 것인 결정 방법.
  8. 제7항에 있어서, 암 샘플과 기준 샘플 간에 차별적으로 발현되는 1 이상의 유전자를 결정하는 단계는 암 샘플과 기준 샘플로부터 단리된 RNA의 마이크로어레이 분석을 더 포함하는 것인 결정 방법.
  9. 제1항에 있어서, 암 샘플과 기준 샘플 간에 차별적으로 생성되는 1 이상의 단백질의 특징을 동정하는 단계를 더 포함하는 것인 결정 방법.
  10. 제9항에 있어서, 암 샘플과 기준 샘플 간에 차별적으로 생성되는 1 이상의 단백질의 특징을 동정하는 단계는 기준 샘플 대비 암 샘플에서 차별적으로 발현되는 유전자의 동정을 포함하는 것인 결정 방법.
  11. 제9항에 있어서, 암 샘플과 기준 샘플 간에 차별적으로 생성되는 1 이상의 단백질의 특징을 동정하는 단계는 기준 샘플 대비 암 샘플에서 차별적으로 발현되는 유전자의 스플라이싱 변이체의 동정을 포함하는 것인 결정 방법.
  12. 제9항에 있어서, 암 샘플과 기준 샘플 간에 차별적으로 생성되는 1 이상의 단백질의 특징을 동정하는 단계는 암 샘플과 기준 샘플을 구별할 수 있는 마커 유전자의 동정을 포함하는 것인 결정 방법.
  13. 제9항에 있어서, 예측 단계는 암 샘플과 기준 샘플 간에 차별적으로 생성되는 1 이상의 단백질의 동정된 특징의 이용을 포함하고, 상기 특징은 생물학적 유체로 분비되는 것으로 알려진 단백질 세트에 존재하는 특성에 해당되는 것인 결정 방법.
  14. 제13항에 있어서, 생물학적 유체로 분비되는 것으로 알려진 단백질 세트에 존재하는 특성은 일반적인 서열 특징, 물리화학적 특성, 구조적 특성, 및 도메인과 모티프를 포함하는 것인 결정 방법.
  15. 제14항에 있어서, 일반적인 서열 특징은 아미노산 조성, 서열 길이, 디-펩티드 조성, 서열 순서, 정규화 모로-브로토(Moreau-Broto) 자기상관 및 기어리(Geary) 자기상관을 포함하는 것인 결정 방법.
  16. 제14항에 있어서, 물리화학적 특성은 소수성, 정규화 반데르발스 부피, 극성, 분극성, 전하, 2차 구조, 용매 접근성, 가용성, 언폴딩성, 무질서 영역, 전체 전하, 및 친수성을 포함하는 것인 결정 방법.
  17. 제14항에 있어서, 구조적 특성은 2차 구조 정보 및 형상을 포함하는 것인 결정 방법.
  18. 제14항에 있어서, 도메인과 모티프는 신호 펩티드, 경막 도메인, 글리코실화, 및 트윈-아르기닌 신호 펩티드 모티프(TAT)를 포함하는 것인 결정 방법.
  19. 제1항에 있어서, 검출 단계는 생물학적 유체의 질량 분광분석을 포함하는 것인 결정 방법.
  20. 제1항에 있어서, 검출 단계는 생물학적 유체의 웨스턴 블랏 분석을 포함하는 것인 결정 방법.
  21. 제1항에 있어서, 검출 단계는 생물학적 유체의 MS/MS 분석을 포함하는 것인 결정 방법.
  22. 제1항에 있어서, 검출 단계 전에, 생물학적 유체에 가장 풍부하게 존재하는 단백질의 제거 단계를 더 포함하는 것인 결정 방법.
  23. 제22항에 있어서, 항체 컬럼을 이용해 생물학적 유체에 가장 풍부하게 존재하는 단백질을 제거하는 것을 포함하는 것인 결정 방법.
  24. 제23항에 있어서, 생물학적 유체에 가장 풍부하게 존재하는 단백질을 제거한 후 항체 컬럼으로부터 비특이적 결합 단백질을 용리하는 것을 더 포함하는 것인 결정 방법.
  25. 제23항에 있어서, 추가 분석을 위해 항체 컬럼으로부터 특이적 결합 단백질을 용리하는 것을 더 포함하는 것인 결정 방법.
  26. 제22항에 있어서, 생물학적 유체에 가장 풍부하게 존재하는 단백질은 알부민, IgG, α1-산 당단백질, α2-마크로글로불린, HDL(아포리포단백질 A-1 및 A-II), 및 피브리노겐을 포함하는 것인 결정 방법.
  27. 제1항에 있어서, 생물학적 유체는 혈청, 타액, 혈액, 소변, 척수액, 정액, 질액, 양수, 치은열구액, 또는 안액 중 1 이상인 결정 방법.
  28. 제1항에 있어서, 암은 위암, 췌장암, 폐암, 난소암, 간암, 결장암, 직결장암, 유방암, 비인두암, 콩팥암, 자궁경부암, 뇌암, 방광암, 신장암, 및 전립선암, 흑색종, 및 편평세포 암종을 포함하는 것인 결정 방법.
  29. 제1항에 있어서, 단백질은 인간 단백질인 결정 방법.
  30. (a) 환자로부터 생물학적 유체를 얻는 단계; 및
    (b) 1 이상의 마커 단백질의 존재를 생물학적 유체에서 검출하는 단계로서, 1 이상의 마커 단백질은 암 샘플과 기준 샘플 간에 차별적으로 발현되는 1 이상의 유전자의 생성물이고, 1 이상의 마커 단백질은 생물학적 유체로 분비될 것으로 예측되어 실험적으로 검증되며, 생물학적 유체에서 1 이상의 마커 단백질의 검출은 암의 검출을 구성하는 것인 단계
    를 포함하는, 암이 있는 환자의 진단 방법.
  31. (a) 피험체로부터 생물학적 유체를 얻는 단계; 및
    (b) 생물학적 유체에서 1 이상의 마커 단백질의 수준을 측정하는 단계로서, 1 이상의 마커 단백질은 암 샘플과 기준 샘플 간에 차별적으로 발현되는 1 이상의 유전자의 생성물이고, 1 이상의 마커 단백질은 생물학적 유체로 분비될 것으로 예측되어 실험적으로 검증되며, 표준 수준에 대한 생물학적 유체에서 1 이상의 마커 단백질의 차별적 발현은 암을 의미하는 것인 단계
    를 포함하는, 암이 있는 피험체의 진단 방법.
  32. 제31항에 있어서, 차별적 발현은 표준 수준에 대한 생물학적 유체 중 1 이상의 단백질 수준의 증가를 포함하는 것인 진단 방법.
  33. 제31항에 있어서, 차별적 발현은 표준 수준에 대한 생물학적 유체 중 1 이상의 단백질 수준의 감소를 포함하는 것인 진단 방법.
  34. 제31항에 있어서, 1 이상의 마커 단백질은 MUC13, GKN2, COL10A, AZTP1, CTSB, LIPF, GIF, EL 및 TOP2A로 이루어진 군에서 선택되는 것인 진단 방법.
  35. MUC13, GKN2, COL10A, AZTP1, CTSB, LIPF, GIF, EL 및 TOP2A로 이루어진 군에서 선택되는 1 이상의 단백질을 포함하는 암 동정용 마커로서, 표준 수준에 대한 피험체로부터 얻은 생물학적 유체에서 1 이상의 단백질의 차별적 발현이 피험체에 암의 존재를 의미하는 것인 암 동정용 마커.
  36. 제32항에 있어서, 차별적 발현은 표준 수준에 대한 생물학적 유체 중 1 이상의 단백질 수준의 증가를 포함하는 것인 마커.
  37. 제32항에 있어서, 차별적 발현은 표준 수준에 대한 생물학적 유체 중 1 이상의 단백질 수준의 감소를 포함하는 것인 마커.
  38. 피험체에서 암을 검출하기 위한 키트로서,
    (a) 생물학적 유체에서 단백질에 특이적으로 결합하는 1 이상의 제1 항체로서, 상기 단백질이 MUC13, GKN2, COL10A, AZTP1, CTSB, LIPF, GIF, EL 및 TOP2A로 이루어진 군에서 선택되는 것인 1 이상의 제1 항체;
    (b) 1 이상의 제1 항체에 특이적으로 결합하는 제2 항체; 및 경우에 따라
    (c) 기준 샘플
    을 포함하는 키트.
KR1020117023701A 2009-03-09 2010-02-19 위암 진단용 단백질 마커의 동정 KR20120034593A (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US15868309P 2009-03-09 2009-03-09
US61/158,683 2009-03-09
US24134709P 2009-09-10 2009-09-10
US61/241,347 2009-09-10

Publications (1)

Publication Number Publication Date
KR20120034593A true KR20120034593A (ko) 2012-04-12

Family

ID=42728661

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020117023701A KR20120034593A (ko) 2009-03-09 2010-02-19 위암 진단용 단백질 마커의 동정

Country Status (4)

Country Link
US (1) US20120053080A1 (ko)
KR (1) KR20120034593A (ko)
CN (1) CN102348979A (ko)
WO (1) WO2010104662A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101441013B1 (ko) * 2011-06-30 2014-09-18 충남대학교산학협력단 유방암 진단용 바이오마커

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2751570A4 (en) * 2011-08-31 2015-08-12 Oncocyte Corp METHOD AND COMPOSITIONS FOR THE TREATMENT AND DIAGNOSIS OF CANCER
WO2013142721A1 (en) * 2012-03-21 2013-09-26 The Regents Of The University Of Colorado, A Body Corporate Compositions and methods for preventing or treating acute kidney injury using proton pump inhibitors
US20150105289A1 (en) * 2013-10-15 2015-04-16 The Regents Of The University Of Michigan Biomarkers for lower urinary tract symptoms (luts)
CN103525941A (zh) * 2013-10-29 2014-01-22 上海市奉贤区中心医院 Cthrc1基因在制备检测/治疗宫颈癌药物中的应用
MY191654A (en) 2015-07-01 2022-07-05 Immatics Biotechnologies Gmbh Novel peptides and combination of peptides for use in immunotherapy against ovarian cancer and other cancers
GB201511546D0 (en) 2015-07-01 2015-08-12 Immatics Biotechnologies Gmbh Novel peptides and combination of peptides for use in immunotherapy against ovarian cancer and other cancers
EP3411401A1 (en) 2016-02-03 2018-12-12 Oncobiologics, Inc. Buffer formulations for enhanced antibody stability
EP3411719A1 (en) * 2016-02-04 2018-12-12 Oncobiologics, Inc. Methods for identifying and analyzing amino acid sequences of proteins
CN105886656B (zh) * 2016-06-24 2019-11-12 河北医科大学第四医院 Gif基因在食管鳞癌诊治中的应用
CN106519007B (zh) * 2016-12-12 2019-07-02 王家祥 一种单链多肽及其在制备用于预防和治疗胃癌的药物中的应用
WO2018174863A1 (en) * 2017-03-21 2018-09-27 Mprobe Inc. Methods and composition for detecting early stage colon cancer with rna-seq expression profiling
CN108445097A (zh) * 2017-03-31 2018-08-24 北京谷海天目生物医学科技有限公司 弥漫型胃癌的分子分型、用于分型的蛋白标志物及其筛选方法和应用
US10837970B2 (en) 2017-09-01 2020-11-17 Venn Biosciences Corporation Identification and use of glycopeptides as biomarkers for diagnosis and treatment monitoring
US20210285952A1 (en) * 2017-12-01 2021-09-16 Cornell University Nanoparticles and distinct exosome subsets for detection and treatment of cancer
CN111705120A (zh) * 2019-03-18 2020-09-25 上海市精神卫生中心(上海市心理咨询培训中心) 一种检测人类mif基因catt重复序列纯合子的试剂盒及步骤
CN110146705B (zh) * 2019-04-28 2022-05-13 北京谷海天目生物医学科技有限公司 检测早期胃癌的试剂盒或芯片、胃癌蛋白标志物在制备试剂盒和/或芯片中的应用
CN110261618B (zh) * 2019-06-14 2021-08-31 上海四核生物科技有限公司 Sprr4蛋白作为胃癌血清生物标志物的应用及其试剂盒
CN110837859A (zh) * 2019-11-01 2020-02-25 越亮传奇科技股份有限公司 一种融合多维度医疗数据的肿瘤精细分类系统及方法
CN112379097B (zh) * 2020-10-22 2022-07-26 上海良润生物医药科技有限公司 Cst1-ctsb复合物作为结肠直肠癌诊断标志物的应用
CN112415200B (zh) * 2020-12-01 2022-07-26 瑞博奥(广州)生物科技股份有限公司 一种在胃炎患者中检测胃癌自身抗体的生物标志物组合及应用
CN112597311B (zh) * 2020-12-28 2023-07-11 东方红卫星移动通信有限公司 一种基于低轨卫星通信下的终端信息分类方法及系统
CN112746107A (zh) * 2020-12-30 2021-05-04 北京泱深生物信息技术有限公司 胃癌相关生物标志物及其在诊断中的应用

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7229774B2 (en) * 2001-08-02 2007-06-12 Regents Of The University Of Michigan Expression profile of prostate cancer
EP2311980A1 (en) * 2002-08-20 2011-04-20 Millennium Pharmaceuticals, Inc. Compositions, kits, and methods for identification, assessment, prevention, and therapy of cervical cancer
CN1852974A (zh) * 2003-06-09 2006-10-25 密歇根大学董事会 用于治疗和诊断癌症的组合物和方法
CN1908189A (zh) * 2005-08-02 2007-02-07 博奥生物有限公司 体外辅助鉴定肠型胃癌及其分化程度的方法与专用试剂盒

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101441013B1 (ko) * 2011-06-30 2014-09-18 충남대학교산학협력단 유방암 진단용 바이오마커

Also Published As

Publication number Publication date
WO2010104662A1 (en) 2010-09-16
US20120053080A1 (en) 2012-03-01
CN102348979A (zh) 2012-02-08

Similar Documents

Publication Publication Date Title
KR20120034593A (ko) 위암 진단용 단백질 마커의 동정
Xie et al. Salivary microRNAs show potential as a noninvasive biomarker for detecting resectable pancreatic cancer
Chakraborty et al. Current status of molecular markers for early detection of sporadic pancreatic cancer
Liu et al. A pilot study of new promising non-coding RNA diagnostic biomarkers for early-stage colorectal cancers
JP6415547B2 (ja) 膵臓癌診断用組成物およびこれを用いた膵臓癌診断方法
ES2647154T3 (es) Combinaciones de biomarcadores para tumores colorrectales
EP2771481B1 (en) Marker genes for prostate cancer classification
US20090298061A1 (en) Diagnostic Methods for the Prediction of Therapeutic Success, Recurrence Free and Overall Survival in Cancer Therapy
EP2942724A2 (en) Method for in vitro diagnosing a complex disease
Neagu et al. Patented biomarker panels in early detection of cancer
JP2011526487A (ja) 乳癌のゲノムフィンガープリント
Mazza et al. Clinical significance of circulating miR-1273g-3p and miR-122-5p in pancreatic cancer
Fan et al. Identification of the up-regulation of TP-alpha, collagen alpha-1 (VI) chain, and S100A9 in esophageal squamous cell carcinoma by a proteomic method
TWI651536B (zh) 一種用以診斷及預斷癌症的方法
Yu et al. Extracellular vesicle-transported long non-coding RNA (LncRNA) X inactive-specific transcript (XIST) in serum is a potential novel biomarker for colorectal cancer diagnosis
CN110229899B (zh) 用于结直肠癌早期诊断或预后预测的血浆标记物组合
Li et al. Screening and validating the core biomarkers in patients with pancreatic ductal adenocarcinoma
Frantzi et al. Recent progress in urinary proteome analysis for prostate cancer diagnosis and management
US20130345077A1 (en) Diagnosis of lymph node involvement in rectal cancer
Deng et al. Comprehensive analysis of serum tumor markers and BRCA1/2 germline mutations in Chinese ovarian cancer patients
Jin et al. Proteomic analysis of the papillary thyroid microcarcinoma
Watanabe et al. Prediction of lymphovascular space invasion in endometrial cancer using the 55-gene signature selected by DNA microarray analysis
KR20210016362A (ko) 결장암 예측 바이오마커로서의 l1td1
Schummer et al. Breast cancer genomics: normal tissue and cancer markers
US20150011411A1 (en) Biomarkers of cancer

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid