KR20010081098A - 유전자 발현 패턴의 탐지 및 분류를 강화하기 위한공통-조절 유전자세트를 이용하는 방법 - Google Patents

유전자 발현 패턴의 탐지 및 분류를 강화하기 위한공통-조절 유전자세트를 이용하는 방법 Download PDF

Info

Publication number
KR20010081098A
KR20010081098A KR1020017005252A KR20017005252A KR20010081098A KR 20010081098 A KR20010081098 A KR 20010081098A KR 1020017005252 A KR1020017005252 A KR 1020017005252A KR 20017005252 A KR20017005252 A KR 20017005252A KR 20010081098 A KR20010081098 A KR 20010081098A
Authority
KR
South Korea
Prior art keywords
profile
gene
biological
genes
cell
Prior art date
Application number
KR1020017005252A
Other languages
English (en)
Inventor
스테펜에이치. 프랜드
롤란드 소토우그톤
유동 헤
Original Assignee
추후제출
로제타 인파마틱스 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US09/179,569 external-priority patent/US6203987B1/en
Priority claimed from US09/220,275 external-priority patent/US6950752B1/en
Application filed by 추후제출, 로제타 인파마틱스 인코포레이티드 filed Critical 추후제출
Publication of KR20010081098A publication Critical patent/KR20010081098A/ko

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/68Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
    • G01N33/6803General methods of protein analysis not limited to specific proteins or families of proteins
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6809Methods for determination or identification of nucleic acids involving differential detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6834Enzymatic or biochemical coupling of nucleic acids to a solid phase
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Organic Chemistry (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Analytical Chemistry (AREA)
  • Immunology (AREA)
  • Biochemistry (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Microbiology (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Urology & Nephrology (AREA)
  • Hematology (AREA)
  • Biomedical Technology (AREA)
  • Cell Biology (AREA)
  • Pathology (AREA)
  • General Physics & Mathematics (AREA)

Abstract

본 발명은 생물학적 반응 패턴의 향상된 탐지 방법을 제공한다. 본 발명의 한 구체예에서, 유전자는 발현의 공통-조절에 따른 기본 유전자세트로 분류한다. 유전자세트내 개별 유전자의 발현은 투영 공정으로 유전자세트에 대한 단일 유전자 발현 수치로 표시한다. 향상된 감도로 생물학적 반응을 비교 및 탐지하기 위한 기초로서 개별 유전자의 전사비율보다는 오히려 유전자세트의 발현 수치를 사용한다. 본 발명의 다른 구체예에서, 생물반응은 생물프로파일의 유사성에 따라 분류한다. 본 발명의 방법은 약물 개발과 발견분야에 분야에서 특히 유용하다. 가령, 본 발명의 방법은 향상된 감도로 생물반응을 비교하는데 사용할 수 있다. 이들 방법에 따른 비교되는 생물반응에는 돌연변이 또는 온도변화에 대한 생물반응과 같은 단일 섭동 및 특정 약물을 이용한 적정과 같은 등급화된 섭동에 대한 반응이 포함된다. 상기 방법은 또한, 특정 형태의 생물반응과 연관된 세포구성성분(특히, 유전자)을 동정하는데 유용하다. 본 발명은 또한, 하나 또는 복수의 특정 유전자세트에 영향을 주는 섭동, 예를 들면 신규한 약물 또는 돌연변이를 확인하는데 사용한다. 본 발명은 또한, 생물반응 데이터에서 실험적인 아티팩트를 제거하는데 사용한다.

Description

유전자 발현 패턴의 탐지 및 분류를 강화하기 위한 공통-조절 유전자세트를 이용하는 방법{METHODS FOR USING CO-REGULATED GENESETS TO ENHANCE DETECTION AND CLASSIFICATION OF GENE EXPRESSION PATTERNS}
수십년에 걸쳐, 임의의 시점에 다수 전사체의 발현 수준을 모니터할 수 있는 몇 가지 기술이 개발되었다(S초둠 et al., 1995, Quantitative monitoring of gene expression patterns with a complementary DNA micro-array, Science 270:67-470; Lockhart et al., 1996, Expression moitoring by hybridization to high-density oligonucleotide arrays, Nature Biotechnology 14:1675-1680; Blanchard et al., 1996, Sequence to array: Probing the genome's secrets, Nature Biotechnology 14, 1649; U.S. Patent 5,569,588, issued October 29, 1996 to Asaby et al.entitled "Methods for Drug Screening"). 전체 게놈이 공지된 생물에서는 세포내 모든 유전자의 전사체를 분석하는 것이 가능하다. 게놈에 대한 지식을 늘려가고 있는 다른 생물, 예를 들면 사람에서는 세포내 다수의 유전자를 동시에 모니터하는 것이 가능하다.
이런 모니터링 기술은 다양한 질병과 병리 상태에서 상향 또는 하향 조절되는 유전자의 동정, 세포내 상태를 신호하는 구성원의 분석, 다양한 약물에 대한 표적의 동정에 적용되고 있다(Friend and Hartwell, U.S. Provisional Patent Application Serial No. 60/039,124, filed on February 28, 1997; Stoughton, U.S. Patent Application Serial No. 09/099,722, filed on June 19, 1998; Stoughton and Friend U.S. Patent Application Serial No. 09/074,983, filed on May 8, 1998; Friend and Hartwell, U.S. Provisional Patent Application Serial No. 60/056,109, filed on August 20, 1997; Stoughton and Friend U.S. Provisional Patent Application Serial No. 60/084,742(May 8, 1998), 60/090,004(June 19, 1998), 60/090,046(June 19, 1998)).
다양한 세포구성성분의 수준은 약물 치료 및 세포 생물상태의 다른 섭동에 반응하여 변화되는 것으로 알려져 있다. 이런 복수의 "세포구성성분"의 측정에는 섭동의 효과 및 세포 생물상태에 대한 이들의 효과에 관한 다수의 정보가 담겨있다. 이런 측정에는 전술한 형태의 유전자 발현 수준의 측정이 포함되고, 또한 다른 세포구성요소의 수준(예, 단백질 함량 또는 단백질 활성수준등)이 포함될 수 있다. 이런 측정의 집합은 세포 생물상태의 "프로파일"로 통칭한다.
세포구성성분의 수는 포유동물의 경우 수백만개에 달한다. 따라서, 특정 세포의 프로파일은 매우 복잡하다. 임의의 섭동 약물은 소수 또는 다수 세포구성성분의 함량 또는 활동수준을 변화시킬 수 있다. 이에 따라, 임의의 섭동에 대한 반응 결과를 예상할 수 없는 경우, 섭동 작용을 완전 또는 부분적으로 특성화하기 위하여 105개 구성성분의 반응을 개별적으로 측정해야 한다. 측정 오류 및 생물반응 데이터의 복잡성으로 인해, 이와 같은 생물반응 데이터의 분석은 까다로운 작업이다.
프로파일 변화를 정량하는 현재의 기술은 오탐지, 탐지 실패 또는 부정확한 정량측정과 같은 측정 오류가 상당히 높다. 따라서, 당분야에는 생물 발현 패턴에서 구조의 탐지를 향상시키는 방법이 요구된다. 특히, 세포구성성분의 측정 세트, 예를 들면 세포 생물상태의 프로파일에서 그룹과 구조를 파악하는 것이 필요하다. 이런 구조의 예에는 상이한 유전자의 발현 수준 조절간의 연관, 상이한 약물 또는 상이한 약물 후보간의 연관, 약물 및 일단의 유전자 조절간의 연관이 포함된다.
이 글에서 언급한 간행물은 본 발명의 선행 기술이 아니다.
3. 본 발명의 요약
본 발명은 다양한 섭동에 대한 생물계의 반응, 예로써 약물, 약물 후보 또는 생물경로를 탐침하기 위한 실험조건에 대한 반응상의 구조 및 특정 질병이나 이상 또는 특정 질병이나 이상의 치료에 상응하는 생물계 변화의 향상된 탐지방법을 제공한다. 본 발명의 방법은 약물 발견, 약물 치료 모니터링, 유전자 분석, 임상적진단 분야에서 광범위하게 적용할 수 있다. 본 발명은 또한, 생물반응 패턴의 향상된 탐지, 약물 발견, 약물 요법의 모니터링, 유전자 분석, 임상적 진단을 실시하기 위한 장치 및 컴퓨터 명령을 제공한다.
본 발명의 한 측면은 세포구성성분(유전자 전사체와 단백질 활성과 같은 측정가능 생물 변수)을 세포구성성분간의 공통-변수에 기초한 그룹으로 분류하는 방법을 제공한다. 각 그룹은 섭동에 반응하여 공통-변동되는 세포구성성분을 보유한다. 이들 그룹은 세포구성성분의 세트라고 한다.
일부 특정 구체예에서, 유전자는 전사체의 공통-변수, 아마도 공통-조절에 따라 분류한다. 공통-변동되는 유전자 그룹은 유전자세트라고 한다. 군집 분석 또는 다른 통계적 분류 방법을 이용하여, 다양한 섭동에 반응하는 유전자 전사의 공통-변동을 분석한다. 적절한 구체예에서, 군집 분석 또는 다른 통계학적 분류 방법은 신규한 "거리" 또는 "유사성" 단위를 이용하여, 다양한 섭동에 따른 2개이상 유전자(또는 다른 세포구성성분)의 유사성(즉, 공통-변동)을 평가한다. 특정 구체예에서, 다양한 세포내 섭동하에 수득된 유전자 프로파일(예, 다수 유전자의 전사비율 집합)에 군집 알고리즘을 적용하여, 일정 수준의 공통-조절을 보이는 세포구성성분을 연관시키는 "유사성 트리" 또는 "군집 트리"를 구성한다. 유전자세트는 상이한 수준에서 분기 조직상의 군집 트리 전체를 컷팅(cutting)하여, 군집 트리의 분지에 특정한다. 일부 구체예에서, 컷팅 수준은 측정하는 유전자에 대하여 예상되는 개별 반응 경로의 수에 기초하여 선택한다. 다른 구체예에서, 트리는 개별 분지간의 최소 거리값 측면에서 개별적으로 구분되기 때문에 다수의 분지로구분된다.
적절한 일부 구체예에서, 개별적인 분지를 정의하기 위하여 객관적인 통계검사를 활용한다. 이런 통계검사의 전형적인 예는 검사한 전체 섭동에서 각 유전자 반응에 대한 섭동 지수의 몬테칼로 임의화를 활용하는 것이다. 적절한 일부 구체예에서, 경계값(cutoff value)은 분지화가 95% 신뢰 수준에서 유의성을 보이도록 설정한다. 특정 구체예에서, 1개 또는 2개 유전자 군집은 버린다. 다른 구체예에서, 1개 또는 2개 유전자의 소형 군집은 유전자세트에 포함시킨다. 좀더 구체적으로, 본 발명의 적절한 통계검사는 (a) 전술한 군집 분석 또는 다른 통계학적 기술로 측정한 군집(즉, 유전자세트와 같은 세포구성성분 세트)의 응집도의 수치를 구하고; (b) 수득된 압축도 수치 및 증가된 군집에서 재분류된 세포구성성분의 응집도의 추정 수치를 비교하는 것으로 구성된다. 이런 비교는 일반적으로, 2개 군집 세트의 응집도 차이를 측정하는 것으로 구성된다. 더 나아가, 검사한 전체 섭동에서 각 유전자 반응에 대한 섭동 지수의 몬테칼로 임의화를 활용하여, 응집도 차이의 통계학적 분포를 구한다. 이후, 응집도의 실제적인 차이의 통계학적 유의성은 응집도의 실제적인 차이와 몬테칼로 임의화에 따른 응집도 차이의 통계학적 분포를 비교하여 측정할 수 있다.
군집 세트에서 섭동의 다양성이 증가함에 따라, 분명하게 구별할 수 있는 유전자세트가 다수 소규모화된다. 하지만, 본 발명자들은 훨씬 대량의 실험세트에도 불구하고, 일관성을 유지하는 유전자세트가 있음을 발견하였다. 이들 유전자세트는 비감소 유전자세트라 한다. 본 발명의 일부 구체예에서, 이들 비감소 유전자세트를 얻기 위하여 다수의 다양한 섭동을 이용한다.
통계적으로 유래된 유전자세트는 공통-조절되는 또는 구성원을 확인하기 위하여, 또는 좀더 엄격하게 공통-조절되는 하부그룹을 확인하기 위하여, 조절 서열 정보를 이용하여 세밀히 구분한다. 이런 구체예에서, 유전자 세트는 개별적인 생물 실험 섭동, 예를 들면, 특정 돌연변이, 특정 생장 조건 또는 특정 화합물에 대한 반응 패턴으로 정의할 수 있다. 통계학적으로 유래된 유전자세트는 유전자 조절의 생물학적 지식에 기초하여 추가로 구분할 수 있다. 다른 구체예에서, 유전자의 유전자세트로의 분류는 유전자의 공지된 조절 기작에 기초한다. 유전자세트를 정의하기 위하여, 조절 영역의 서열 상동성을 활용한다. 일부 구체예에서, 공통 프로모터 서열을 보유하는 유전자를 한 유전자세트로 구분한다.
적절한 구체예에서, 본 발명의 군집 분석과 통계학적 분류방법은 2개이상의 세포구성성분(즉, 2개이상의 유전자)에 대한 발현 수준의 유사성 수치를 제공하는 객관적이고 정량적인 "유사성" 또는 "거리"함수를 이용하여, 예로써 개별 유전자 전사 수준의 공통-변동을 분석한다. 따라서, 본 발명은 유전자 전사체 수준의 공통-변동을 비롯한 세포구성성분의 공통-변동을 분석하는데 특히 유용한 신규한 유사성 또는 거리 함수를 제공한다. 본 발명은 또한, 본 발명의 방법에 의해 수득된 세포구성성분 또는 유전자세트의 유의성을 평가하기 위한 객관적인 통계검사(특히, 몬테칼로 과정)를 제시한다. 최종적으로, 본 발명의 군집 방법은 세포구성성분 및 이들의 유사성에 따른 생물 프로파일의 군집에 동등하게 적용할 수 있다. 다른 측면에서, 본 발명은 계표 데이터 세트의 양 차원에서 동시 군집을 위한 방법을 제공한다. 적절한 구체예에서, 데이터 세트는 상이한 조건, 섭동 또는 여러 쌍의 조건에 따른 복수 세포구성성분의 수준 또는 수준 변화를 표시하는 수치의 목록이다.
본 발명의 다른 측면은 공통-변동 세포구성성분 세트에 기초하여 생물샘플의 상태(또는 생물반응)를 표현하는 방법을 제공한다. 일부 구체예에서, 세포구성성분의 복수 수치를 포함하는 프로파일은 공통-변동 기초의 세포구성성분 세트의 정의에 따른 복수의 세포구성성분 세트 수치를 보유하는 투영(projection) 프로파일로 변환시킨다. 적절한 일부 구체예에서, 세포구성성분의 세트 수치는 세포구성성분 세트상의 세포구성성분 수치의 평균이다. 다른 구체예에서, 세포구성성분 세트의 수치는 선형 투영 공정으로부터 유도한다. 투영 공정은 좀더 작고 생물학적으로 좀더 의미있는 좌표 세트에서 프로파일을 표현하는데, 각 세포구성성분 세트에서 이들을 평균하여 측정 오차의 효과를 줄이고, 상기 프로파일의 생물학적 해석을 보조한다.
본 발명의 방법은 유전자 발현 프로파일의 분석에 특히 유용하다. 일부 구체예에서, 다수 유전자의 전사비율 집합과 같은 유전자 발현 프로파일은 투영된 유전자 발현 프로파일로 변환시킨다. 투영된 유전자 발현 프로파일은 유전자세트 발현 수치의 집합이다. 일부 구체예에서, 각 유전자세트내 유전자의 전사비율을 평균하여 변환을 달성한다. 다른 구체예에서, 다른 선형 투영 공정을 사용할 수 있다.
본 발명의 다른 측면에서, 세포구성성분 세트의 수치, 특히 유전자세트 발현 수치를 비교하는 방법을 제공한다. 일부 구체예에서, 생물계의 10개이상, 바람직하게는 100개이상. 좀더 바람직하게는 1,000개 이상 유전자의 발현을 모니터한다. 공지된 약물을 이용하여, 유전자세트에 대한 공지된 약물 반응 프로파일을 얻는다. 약물 후보 또한, 상기 시스템에 적용하여, 유전자세트에 대한 약물 후보 반응 프로파일을 얻는다. 이후, 약물 후보의 반응 프로파일은 공지된 약물 반응 프로파일과 비교하여, 상기 약물 후보가 공지된 약물에 대한 반응과 유사한 반응을 유도하는 지를 확인한다.
다른 구체예에서, 투영 프로파일의 비교는 객관적인 유사성 수치를 이용하여 달성한다. 적절한 구체예에서, 객관적인 수치는 비교되는 2개 프로파일의 투영을 나타내는 벡터간의 일반화 각도('정규화 스칼라 곱')이다. 다른 구체예에서, 투영 프로파일은 이에 대한 각 유전자세트와 연관된 진폭에 분계점을 적용하여 분석한다. 유전자세트의 변화가 분계점이 이상인 경우, 유전자세트에 변화가 존재한다고 밝힌다.
본 발명의 방법은 또한, 측정된 세포구성성분의 반응 유사성에 따라 생물반응 프로파일을 분류하는데 사용할 수 있다. 다른 구체예에서, 본 발명은 세포구성성분(예, 유전자)을 공통-변동 세트(예, 유전자세트)로 분류하기 위하여 전술한 군집 분석 또는 다른 통계학적 분류 방법으로, 세포구성성분 반응의 유사성 정도에 따라 생물반응(즉, 반응 프로파일)을 분류하는 방법을 제공한다. 이런 방법은 예로써, 다양한 섭동에 대한 생물계 반응에서 구조의 향상된 탐지에 사용할 수 있다. 또한, 본 발명은 생물반응 프로파일 데이터의 "2-차원" 분석방법을 제공한다. 이런 방법은 (1) 프로파일 데이터에 따른 공통-변동의 정도에 따라 세포구성성분(예,유전자)을 분류하고; (2) 세포구성성분 반응의 유사성에 따라 반응 프로파일을 분류하는 것으로 구성된다.
본 발명의 군집 방법은 특정 세포구성성분 또는 세포구성성분의 특정 그룹에 영향을 주는 섭동(예, 약물, 약물 후보 또는 유전자 돌연변이)을 동정 또는 특성화하는데 특히 유용하다. 가령, 군집 방법은 세포구성성분(예, 유전자와 단백질) 및/또는 유전자세트와 같은 공통-변동 세포구성성분의 세트를 확인하는데 사용할 수 있는데, 상기 유전자세트의 발현 또는 함량 변화는 특정 질병 상태 또는 하나이상 약물의 효과와 같은 특정 생물효과와 연관한다. 또한, 본 발명의 군집 방법은 특정 생물 반응 또는 경로에 관여하는 세포구성성분(예, 유전자 또는 유전자 전사체)을 동정하는데 유용하다. 따라서, 본 발명은 전술한 군집 분석 방법으로, 특정 생물 반응 또는 경로와 연관된 세포구성성분(예, 유전자 또는 유전자 전사체)을 동정하는 방법을 제공한다. 또한, 본 발명은 전술한 군집 분석 방법으로, 생물학적 "섭동", 예를 들면, 생물계를 "섭동하여" 특정 세포구성성분 또는 세포구성성분의 특정 그룹에 영향을 주는 약물, 약물 후보 또는 유전자 돌연변이를 확인하는 방법을 제공한다. 본 발명의 방법에 의해 확인되는 세포구성성분과 섭동은 공지 또는 미지의 것이다. 따라서, 본 발명은 사전에 공지된 유전자와 약물/약물 후보를 비롯하여, 관심있는 특정 생물효과와 연관된 것으로 알려지지 않았던 신규한 유전자와 약물/약물 후보를 확인하는 방법을 제공한다.
본 발명의 방법은 측정된 생물 프로파일(즉, 세포구성성분의 복수 수치로 구성되는 측정 프로파일)로부터 하나 또는 복수의 아티팩트(artifact)를 제거하는데사용할 수 있다. 따라서, 본 발명은 측정된 생물 프로파일로부터 하나 또는 복수의 아티팩트 패턴을 삭제하여 측정된 생물 프로파일로부터 이런 아티팩트를 제거하는 방법을 제공하는데, 여기서 각 아티팩트 패턴은 특정 아티팩트에 상응한다.
본 발명의 방법은 군집 분석과 투영 공정을 실행할 수 있는 컴퓨터 시스템으로 실시한다. 일부 구체예에서, 컴퓨터 시스템은 컴퓨터 판독가능 프로그램 코드를 포함하는 컴퓨터-사용가능 매체를 보유한다. 상기 컴퓨터 코드는 데이터베이스로부터 기본 유전자세트의 정의를 검색하고, 유전자 발현 프로파일을 검색된 정의에 따라 투영된 유전자 프로파일로 변환시킨다.
본 발명은 1998년 12월 23일 제출된 출원 09/220,275의 일부 계속 출원이고, 상기 출원은 1998년 10월 27일 제출된 출원 09/179,569의 일부 계속 출원이다.
본 발명은 섭동에 대한 생물반응의 향상된 탐지 방법에 관한다. 특히, 본 발명은 특정 유전자 조절의 탐지하고 세포내 유전자 발현의 복합 패턴을 유발하는 화합물의 작용을 좀더 정확하게 분류하는 능력을 향상시키기 위하여 생물 발현 패턴상의 구조를 분석하는 방법에 관한다.
도1은 군집 분석의 구체예를 보여준다.
도2는 투영 공정을 보여준다.
도3은 전형적인 유전자세트 데이터베이스 관리 시스템을 보여준다.
도4A는 수용체 활성화에 대한 2가지 상이한 가능반응을 보여준다.
도4B-D는 시간에 따라 개별행동을 보이는 효모 유전자의 3가지 주요 군집을 보여준다.
도5는 본 발명의 구체예에 유용한 컴퓨터 시스템을 보여준다.
도6은 48개 mRNA 수준으로, 18번 실험 목록에서 작동하는 'hclust' 알고리즘으로부터 유래된 군집 트리를 보여준다.
도7은 34회 실험으로부터 유래된 군집 트리를 보여준다.
도8A-E는 투영 프로파일의 개별 요소의 진폭을 보여준다.
도9는 FK506(16㎍/㎖) 처리의 프로파일 및 기본 유전자 세트를 만드는데 사용된 34회 실험 각각의 프로파일을 연관시킨 결과를 보여준다.
도10은 상향 조절되는 유전자 그룹(G1, G2, G3)과 하향 조절되는 유전자 그룹(G4, G5, G6)을 포함하는 전형적인 신호 캐스케이드를 보여준다.
도11은 hclust 알고리즘으로, 34번의 섭동 반응 프로파일로 발현 수준을 측정한 185개 유전자중에서 군집(즉, 유전자세트)을 동정하여 수득된 군집 트리를 보여준다.
도12는 군집 소분류에 유의성을 부여하기 위한 몬테칼로 방법의 전형적인 2-차원 구체예를 보여준다.
도13은 상이한 농도의 약물 FK506에 대한 맥주 효모균(S. cerevisiae)의 최대 반응 유전자의 전사 반응을 보여준다.
도14는 도13의 적정 곡선을 투영하여 수득된 투영 적정 곡선을 보여준다.
도15는 도14에서 각 유전자세트에 대하여 유래된 2개의 힐(hill) 계수, n과 u0의 수치주위에서 카이 제곱으로 플롯(plot)하였다.
도16A-D는 본 발명에 따른 방법의 적용 예를 보여준다; 도16A는 34회의 개별 섭동 실험(수직축)에서 측정한 맥주 효모균(S. Cerevisiae)의 185개 유전자 전사체(수평축)의 그레이(gray) 척도 디스플레이다; 도16B는 'hclust' 알고리즘을 이용하여 도16A의 유전자 전사체를 군집하여 수득된 공통-조절 트리를 보여준다; 도16C는 전사체(수평축)가 도16B에서 정의된 유전자세트에 따라 재-정렬된 동일 실험 데이터를 보여준다; 도16D는 실험 인덱스(수직축)가 반응 프로파일의 유사성에 따라 재-정렬된 실험 데이터를 보여준다.
도17은 유전자 전사체(수평축)와 실험 인덱스(수직축)가 유사성에 따라 정렬된 도16의 데이터를 보여준다; 개별 유전자세트는 모의 색상 이미지 위쪽에 기술하고 반면, 각 유전자세트가 연관하는 생물 경로/반응은 이미지 아래쪽에 나타낸다; 수직축상의 라벨은 각 실험을 간략하게 제시한다.
도18은 맥주 효모균(S. cerevisiae)에서 유전자 YJL107c의 결실효과를 측정하는 비오염 실험체의 발현 프로파일과 아티팩트(역전사동안 약간의 RNA 농축대조군)로 오염시킨 동일 실험체의 상관관계를 보여준다.
도19는 유전자 발현비율 대 평균 발현 수준으로 플롯한 프로파일을 보여주는데, 이는 하이브리드형성 샘플 제조동안 역전사과정에서 약간의 RNA 농축대조군에 상응한다.
도20은 맥주 효모균(S. cerevisiae)에서 유전자 YJL107c의 결실효과를 측정하는 비오염 실험체의 발현 프로파일과 아티팩트(역전사동안 약간의 RNA 농축대조군)로 오염시킨 동일 실험체의 상관관계를 보여주는데, 여기서 오염된 실험체로부터 얻은 데이터는 도19의 반응 프로파일을 아티팩트의 "주형"으로 이용하여 "명확하게" 하였다.
5. 상세한 설명
본 단락은 본 발명의 상세한 설명 및 이의 용도를 제시한다. 본 명세서는본 발명에 따른 일반적 방법의 몇몇 실례를 상세하고 특이적으로 설명하기 위한 것이다. 이들 실례는 무제한적이고, 관련된 개변은 당업자에게 자명하다.
본 공개공보는 유전자 발현 프로파일, 전사비율, 전사수준등을 언급하고 있지만, 본 발명의 방법이 임의의 생물학적 반응 프로파일의 분석에 유용하다는 것은 당업자가 인지할 수 있다. 특히, 당업자는 본 발명에 따른 방법이 단백질 함량 또는 단백질 활성 수준의 수치를 포함하나 이에 국한되지 않은 다른 세포구성성분의 수치로 구성되는 생물 프로파일에도 동등하게 적용될 수 있다는 것을 인지할 것이다.
5.1. 도입
세포 또는 다른 생물샘플의 상태는 단락 5.1.1에서 정의한 바와 같이 세포구성성분(임의의 측정가능한 생물변수)으로 나타낸다. 이들 세포구성성분은 섭동에 반응하여 변동된다. 세포구성성분의 그룹은 특정 섭동에 반응하여 공통-변동될 수 있다. 따라서, 본 발명의 한 측면은 공통-변동 세포구성성분을 분류하는 방법을 제공한다. 공통-변동 세포구성성분의 각 그룹은 세포구성성분 세트라 한다. 본 발명은 개별 세포성분보다는 오히려 세포구성성분 세트를 이용하여 생물샘플의 상태를 좀더 효율적으로 나타낼 수 있다는 본 발명자들의 발견에 부분적으로 기초한다. 또한, 세포구성성분보다는 오히려 공통-변동 세포구성성분 세트의 반응측면에서 생물샘플의 반응을 좀더 효율적으로 분석할 수 있다는 본 발명의 발견에 기초한다.
본 발명의 적절한 일부 구체예에서, 유전자는 발현 조절에 따라 기본 유전자세트로 분류한다. 유전자세트내 개별유전자의 전사비율을 합하여, 투영 공정에 의한 유전자세트에 대한 단일 유전자 발현 수치를 구한다. 이후, 향상된 감도로 생물학적 반응을 비교 및 탐지하기 위한 기초로서 개별 유전자의 전사비율보다는 오히려 유전자세트의 발현 수치를 사용한다.
본 단락은 먼저, 세포구성성분의 측면에서 생물상태와 생물반응의 표현에 관한 배경을 제시한다. 다음으로, 본 발명의 개요와 무-제한적 개관을 제시하고, 본 발명의 방법에 따른 생물상태와 생물반응의 표현을 소개한다. 다음 단락은 본 발명의 무-제한적 구체예를 좀더 상세하게 제시한다.
5.1.1 생물상태의 정의
이 글에서 사용되는 "생물샘플"에는 세포, 조직, 기관 또는 다핵생물이 포함된다. 생물샘플은 예로써 시험관내 세포 또는 조직 배양액으로부터 유래할 수 있다. 대안으로, 생물샘플은 살아있는 생물 또는 단일 세포 생물의 개체군으로부터 유래할 수 있다.
생물샘플의 상태는 세포구성성분의 함량, 활성 또는 구조로 측정할 수 있다. 이 글에서 생물샘플의 상태는 약물 또는 다른 섭동의 효과를 특성화하는 것을 비롯한 의도한 목적에 따라 세포 또는 미생물을 특성화하는데 충분한 세포구성성분 집합의 상태로부터 취한다. 본 공개공보에서 "세포구성성분"은 임의의 측정가능한 생물변수를 포괄하기 위하여 광의로 정의한다. 이들 세포구성성분에 대한 수치 및/또는 관찰결과는 함량(즉, 생물샘플에서 양 또는 농도), 활성 또는 변형상태(예, 인산화), 또는 생물샘플의 생태와 관련된 다른 수치일 수 있다. 다양한 구체예에서, 본 발명에는 상이한 세포구성요소 집합에 대한 이런 수치 및/또는 관찰결과가 포함된다. 이들 상이한 세포구성성분 집합은 이후, 생물샘플의 생물상태의 양상이라 한다.
생물샘플(예, 세포 또는 세포 배양액)의 생물상태의 한가지 양상은 전사상태다. 실제로, 전사상태는 본 발명에서 측정되는 생물상태의 바람직한 양상이다. 생물샘플의 전사상태에는 임의 조건하의 세포에서 RNA 종류 구성성분, 특히 mRNA의 본질 및 함량이 포함된다. 가급적, 생물샘플에서 전체 RNA 종류 구성성분중 상당한 분취량을 측정하지만, 관심있는 약물 또는 다른 섭동의 작용을 특성화하기 위하여 충분한 분취량을 측정한다. 샘물샘플의 전사상태는 임의 기존의 유전자 발현 기술로 cDNA 함량을 측정하여 용이하게 측정할 수 있다. 본 발명의 특히 바람직한 구체예는 다수 유전자의 mRNA 또는 전사수준의 측정에 DNA 배열을 활용하는 것이다.
본 발명에서 주로 측정하는 생물샘플의 생물상태의 다른 양상은 변역 상태다. 생물샘플의 번역상태에는 임의 조건항의 생물샘플에서 단백질 종류 구성성분의 본질 및 함량이 포함된다. 가급적, 생물샘플에서 전체 단백질 종류 구성성분중 상당한 분취량을 측정하지만, 관심있는 약물 또는 다른 섭동의 작용을 특성화하기 위하여 충분한 분취량을 측정한다. 당업자에게 공지된 바와 같이, 번역 상태는 종종 활성상태를 대변한다.
본 발명은 생물샘플의 생물상태의 "혼합" 양상에 대하여 개변가능한데, 여기서 생물샘플의 상이한 양상의 수치는 합친다. 가령, 하나의 혼합 양상에서 특정RNA 종류의 함량과 특정 단백질 종류의 함량은 다른 단백질 종류의 활성의 수치와 합친다. 또한, 본 발명은 측정가능한 생물샘플의 생물상태의 다른 양상에도 개변시킬 수 있다.
생물샘플(예, 세포 또는 세포 배양액)의 생물상태는 일부 세포구성성분의 프로파일로 나타낸다. 세포구성성분의 이런 프로파일은 벡터 S로 나타낼 수 있다.
S = [S1, .. Si, .. Sk] (1)
여기서, Si
은i번째 세포구성성분의 수준, 예를 들면 유전자 i의 전사 수준 또는 단백질 i의 활성 수준이다.
일부 구체예에서, 세포구성성분은 연속변수로 측정한다. 가령, 전사비율은 시간단위당 합성되는 분자의 수로 측정한다. 전사비율은 또한, 조절비율의 퍼센트로 측정할 수 있다. 하지만, 일부 구체예에서 세포구성성분은 범주형 변수로 측정할 수 있다. 가령, 전사비율은 "온(on)" 또는 "오프(off)"로 측정할 수 있는데, 여기서 "온"수치는 사전결정된 분계점이상의 전사비율을 가리키고, "오프"수치는 분계점이하의 전사비율을 가리킨다.
5.1.2. 생물반응의 표현
섭동, 예를 들면, 약물 도포에 대한 생물샘플의 반응은 생물샘플의 생물상태의 변화를 관철하여 측정할 수 있다. 반응 프로파일은 세포구성요소의 변화의 집합이다. 본 발명에서, 섭동 m에 대한 생물샘플(예, 세포 또는 세포배양액)의 반응프로파일은 벡터 v(m)으로 정의한다.
v(m)= [v1 (m), .. vi (m), .. vk (m)] (2)
여기서, vi m은 섭동 m하의 세포구성성분 i의 반응 진폭이다. 본 발명의 적절한 일부 구체예에서, 약물, 약물 후보 또는 임의의 섭동의 적용에 대한 생물반응은 2개이상의 유전자, 바람직하게는 10개이상의 유전자, 좀더 바람직하게는 100개이상의 유전자, 가장 바람직하게는 1,000개이상의 유전자의 전사수준에서 유도된 변화로 측정한다.
본 발명의 일부 구체예에서, 반응은 섭동전후에 생물변수사이의 차이다. 적절한 일부 구체예에서, 반응은 섭동을 가한 전후에 세포구성성분의 비율로 정의한다. 다른 구체예에서, 반응은 섭동후 시간의 함수일 수 있다, 즉 v(m)= v(m)(t). 가령, v(m)(t)는 섭동전과 섭동후 t 시점에서 세포구성성분의 차이 또는 비율일 수 있다.
적절한 일부 구체예에서, 유전자의 반응이 측정 오차의 지식으로부터 측정된 분계점 진폭 또는 신뢰수준이하일 경우 vi m은 0으로 설정한다. 이런 구체예에서, 측정된 반응이 분계점이하인 세포구성성분은 반응수치를 0으로 정하는 반면, 측정된 반응이 분계점이상인 세포구성성분은 반응수치를 유지한다. 이런 반응 벡터의 절단은 다수의 작은 반응이 측정 오차에 의해 압도될 것으로 예상되는 경우에 유용한 전략이다. 전단후의 반응 벡터 v(m)은 유사한 섭동의 존재에 대한 '대응 탐지기'에 근접한다(Van Trees, 1968, Detection, Estimation, and Modulation Theory Vol.I, Wiley & Sons). 절단수준이 탐지의 목적과 측정 오차에 기초하여 설정될 것임은 당업자에게 자명하다. 가령, 일부 구체예에서 전사수준 변화가 2배, 바람직하게는 4배 낮은 유전자는 수치를 0으로 정한다.
적절한 일부 구체예에서, 다양한 수준의 강도로 섭동을 가한다. 가령, 반응을 관찰하기 위하여 생물샘플에 상이한 양의 약물을 사용할 수 있다. 이런 구체예에서, 섭동반응은 섭동 강도 u의 단일 모수적 "모델"함수로 각각을 어림함으로써 보간할 수 있다. 전사상태 데이터를 어림하는데 적합한 전형적인 모델 함수는 힐 함수로, 이는 조정가능 변수 a, u0, n을 보유한다.
H(u) =(3)
조정가능 변수는 섭동 반응의 각 세포구성성분에 대하여 독립적으로 선택한다. 가급적, 각 세포구성성분에 대한 조정가능 변수는 모델 함수(예, 힐 함수, 방정식 3)와 상응하는 실험 데이터의 차이의 스퀘어 합이 최소화되도록 선택한다. 바람직한 모수 조정 방법은 당분야에 최소 제곱 핏(fit)으로 알려져 있다. 다른 가능 모델 함수는 다항식 핏팅(fitting), 예를 들면 다양한 공지된 종류의 다항식에 기초한다. 모델 핏팅과 생물반응에 관한 좀더 자세한 설명은 Friend와 Stoughten, Methods of Determining Protein Activity Levels Using Gene Expression Profiles, U.S. Provisional Application Serial No. 60/084,742, May8, 1998에서 제시한다.
5.1.3. 본 발명의 개관
본 발명은 생물상태와 생물반응의 향상된 탐지, 분류, 패턴 인식을 위한 방법을 제공한다. 본 발명자들은 생물상태와 반응 수치, 다시 말하면 세포구성성분 및 세포구성성분의 변화를 공통-변동 세트로 분류할 수 있다는 것을 발견하였다. 이들 공통-변동 세트의 측면에서 생물상태와 반응을 표현하면, 생물상태와 반응의 프로파일을 나타내는데 많은 도움이 된다.
본 발명의 한 측면은 공통-변동 세포구성성분 세트를 정의하는 방법을 제공한다. 도1은 본 발명에서 이런 측면의 전형적인 구체예의 개요도다. 먼저, 생물샘플(또는 생물샘플의 개체군)은 다양한 섭동(101)에 처리한다. 생물샘플은 상이한 섭동하에 순차적으로 반복 검사하거나, 또는 다수의 생물샘플을 사용하고 이들 생물샘플 각각을 하나의 섭동에 대하여 검사할 수 있다. 약물과 같은 특정 형태의 섭동의 경우, 상이한 용량의 섭동을 가할 수 있다.
적절한 일부 구체예에서, 다수의 데이터 세트를 만들기 위한 섭동으로 상이한 화학적 화합물, 돌연변이, 온도 변화등을 사용한다. 대부분의 경우에, 5개이상, 바람직하게는 10이상, 좀더 바람직하게는 50개이상, 가장 바람직하게는 100개이상의 상이한 섭동을 이용한다.
본 발명의 적절한 구체예에서, 군집 분석에 사용되는 생물샘플은 관심있는 임의 종류와 동일한 형태 및 동일한 종류다. 가령, 사람 신장 세포의 분석에 유용한 세포구성성분 세트를 정의하기 위하여, 사람 신장 세포를 검사한다. 다른 적절한 구체예에서, 군집 분석에 사용되는 생물샘플은 동일 형태 또는 동일 종류가 아니다. 가령, 사람 조직 분석에 유용한 특정 효모 세포구성성분을 정의하기 위하여 효모 세포를 사용할 수 있다.
섭동처리하는 생물샘플은 세포구성성분(수준, 활성 또는 구조 변화등)(102)에 대하여 모니터한다. 이 글에서 이들 생물샘플은 연습 샘플로 칭하고, 수득된 데이터는 연습 데이터로 칭한다. 이 글에서 사용된 "모니터링"에는 연속 측정 및 종결시점 측정이 포함된다. 일부 구체예에서, 생물샘플의 세포구성성분은 연속으로 측정한다. 다른 구체예에서, 섭동전후의 세포구성성분을 측정하고 비교한다. 다른 구체예에서, 세포구성성분은 섭동없이 생물샘플의 대조군에서 측정하고, 몇몇 실험 그룹의 세포구성성분을 측정하고, 이를 상기 대조군과 비교한다. 섭동에 따른 세포구성성분의 변화를 탐지하는 본 발명의 방법에서 다른 실험적 설계도 적합할 수 있다는 것은 당업자에게 자명하다.
다양한 섭동에 대한 세포구성성분의 반응을 분석하여, 공통-변동 세트(103)를 얻는다. 데이터는 먼저, 단락 5.2에서 제시한 방법에 따른 군집 분석으로 분류하여, 섭동에 대한 세포구성성분의 반응(104)의 유사성을 묘사하는 군집 트리를 얻는다. 경계값은 세트(분지)의 수와 조사된 세포구성요소가 관여하는 공지된 경로(105)의 수가 가급적 일치하도록 설정한다. 경로수가 미정인 일부 구체예에서, 세포구성성분은 최대수의 개별 분지(또는 세트)로 군집시킨다.
세포구성성분 세트는 선행기술(106)로부터 수득된 생물경로와 조절경로에 관한 지식을 활용하여 세밀하게 구분한다. 반대로, 본 발명의 군집 분석법은 복합성생물 경로를 기술하는데 유용하다.
본 발명의 다른 측면에서, 생물샘플의 생물상태와 생물반응은 세포구성성분 세트에 대한 통합 수치로 나타낸다. 도2에서 제시한 구체예에서, 생물샘플(201)의 세포구성성분(202)은 3개의 사전정의된 세포구성성분 세트(203),(204),(205)로 분류한다. 특정 세포구성성분 세트내 세포구성성분(202)의 수치를 합쳐, 세트 수치(206),(207),(208)를 얻는다. 세포구성성분 수치를 세트 수치로 변환시키는 단계는 "투영(projection)"이라 한다. 이런 투영 공정은 좀더 작고 생물학적으로 좀더 의미있는 좌표 세트에서 프로파일을 표현하는데, 각 세포구성성분 세트에서 이들을 평균하여 측정 오차의 효과를 줄이고, 상기 프로파일의 생물학적 해석을 보조한다.
세트 수치를 이용하는 경우 개별 세포구성성분 세트를 합침으로 인한 정보의 손실을 야기하지 않는다. 세트내 세포구성성분이 공통-변동되기 때문에, 개별 세포구성성분은 합쳐진 세트 수치만큼의 정보를 제공하지 못한다. 대부분의 경우, 이런 단계에서 프로파일의 정량적 서술은 전체 프로파일에서 긴밀하게 표시되는 각각의 개별 반응 패턴(임의의 유전자세트에서 통합된 변화)의 진폭을 나타내는 100개 리스트로부터 10개정도의 리스트로 줄어든다.
하지만, 세포구성성분 수치의 세트 수치로의 전환은 측정오차 및 임의 오차를 감소시켜 패턴 탐지를 향상시킴으로써, 다수의 이점을 제공한다.
본 발명의 다른 측면은 단순화된 서술, 또는 약물 발견, 진단, 유전자 분석, 다른 용도에서 프로파일의 세포구성성분 세트로의 '투영'을 이용하는 방법을 제공한다. 세포구성성분 세트, 특히 적절한 일부 구체예에서 유전자세트의 측면에서 표현된 반응 프로파일은 좀더 정확하게 비교할 수 있다. 본 발명의 일부 구체예에서, 미지의 섭동(예, 약물 후보)에 대한 생물샘플의 유전자세트 반응 프로파일은 다수의 공지된 섭동으로 만든 유전자세트 프로파일과 비교한다. 미지 섭동의 약리학적 활성과 같은 생물학적 특성은 이의 반응 프로파일과 공지된 프로파일의 유사성을 검사하여 측정할 수 있다. 일부 구체예에서, 객관적인 유사성 수치를 사용한다. 특히 바람직한 구체예에서, 객관적인 수치는 비교되는 2개 프로파일의 투영을 나타내는 벡터간의 일반화 각도('정규화 스칼라 곱')이다. 다른 구체예에서, 투영 프로파일에 대한 각 유전자세트와 관련된 진폭은 분계점으로 감추어, 상기 유전자세트내 변화의 유무를 나타낸다. 이것은 개별적으로 탐지되는 유전자세트의 개별 세포구성성분에 기초한 것에 비하여, 상기 유전자세트내 변화의 좀더 민감한 탐지기가 될 것이다. 이것은 또한, 상기 유전자세트내 변화의 진폭을 좀더 정확하게 모니터할 수 있다. 따라서, 특이적 생물섭동의 존재를 좀더 민감하게 탐지할 수 있고, 상이한 화합물 또는 섭동의 작용 기전사이의 유사성은 좀더 효율적으로 파악할 수 있다.
5.2. 특정 구체예: 기본 유전자세트의 정의
본 단락에서, 적절한 구체예를 상세히 설명한다. 기본 유전자세트를 본 발명의 구체적 실례로 사용하지만, 본 발명이 유전자세트와 유전자 발현에 국한되지 않고 다양한 형태의 세포구성성분의 분석에 이용될 수 있다는 것은 당업자에게 자명하다.
본 발명의 특정 측면은 공통-조절되는 유전자를 유전자세트로 군집시키는 방법을 제공한다. 본 단락은 공통-조절되는 유전자를 군집시키는 방법을 좀더 자세하게 설명한다.
5.2.1 공통-조절되는 유전자와 유전자세트
특정 유전자는 그룹형태로 발현을 증가 또는 감소시키는 경향이 있다. 유전자는 유사한 조절 서열 패턴, 즉 전사인자 결합부위를 보유하는 경우 전체적으로 이들의 전사비율을 증가 또는 감소시키는 경향이 있다. 이것은 특정 신호 입력에 대한 통합된 반응 기작이다(Madhani and Fink, 1998, The riddle of MAP kinase signaling specificity, Transactions in Genetics 14:151-155; Arnone and Davidson, 1997, The hardwiring of development: organization and function of genomic regulatory systems, Development 124:1851-1864). 필요 단백질 또는 세포구조의 상이한 성분을 생산하는 개별 유전자는 공통-변동되는 경향이 있다. 복제된 유전자(Wagner, 1996, Genetic redundancy caused by gene duplications and its evolution in networks of transcriptional regulations, Biol. Cybern. 74:557-567) 또한, 돌연변이가 조절 영역에서 기능적 발산을 유도하지 않은 정도까지 공통-변동되는 경향이 있다. 또한, 조절 서열이 한정적이기 때문에(Yuh et al., 1998, Genomic cis-regulatory logic: experimental and computational analysis of a sea urchin gene, Science 279:1986-1902), 2개의 유전자가 공통적인 모듈을 많이 보유할수록, 전사비율을 공통-변동시킬 것으로 예상되는 조건의 다양성이 증가한다. 보조-활성물질이 관여한다는 점에서, 모듈간의 분리 역시 중요한 결정인자다. 요약하면, 임의의 한정된 조건 세트에서 유전자가 완전히 독립적으로 변동되지는 않고, 공통-변동되는 유전자와 단백질의 단순화된 부분집합이 존재한다. 이들 공통-변동되는 유전자세트는 수학적 의미에서, 모든 프로파일 변화를 한정된 조건 세트내에서 설명하는 완전한 기초가 된다. 본 발명의 한 측면은 유전자를 공통-변동 유전자 그룹으로 분류하는 것이다. 이들 그룹 또는 유전자세트의 반응 분석은 탐지 감도와 분류 정확도를 증가시킨다.
5.2.2. 군집 분석에 의한 유전자세트 분류
본 발명의 다수 용도를 위해, 광범위한 조건에서 공통-조절되는 기본 유전자세트를 파악하는 것이 바람직하다. 이로써, 본 발명의 방법은 예상 특성을 충분히 파악하지 못한 다수 종류의 프로파일에 적합하게 실행할 수 있다. 이런 기본 유전자세트를 동정하는 적절한 구체예에는 군집 알고리즘이 포함된다(Fukunaga, 1990, Statistjcal Pattern Rocognition, 2nd Ed., Academic Press, San Diego; Everitt, 1974, Cluster Analysis, London: Heinemann Educ. Books; Hartigan, 1975, Clustering Algorithms, New York: Wiley; Sneath and Sokal, 1973, Numerical Taxonomy, Freeman; Anderberg, 1973, Cluster Analysis for Applications, Academic Press: New York).
군집 분석을 활용하는 일부 구체예에서, 다수 유전자의 발현은 생물샘플을 다양한 섭동에 처리하여 모니터한다(단락 5.8 참조). 유전자 발현 수치를 포함하고 있는 데이터 목록을 군집 분석에 이용한다. 광범위한 조건에서 공통-변동되는 유전자를 포함하는 기본 유전자세트를 얻기 위하여, 10개이상, 바람직하게는 50개이상, 가장 바람직하게는 100이상의 섭동 또는 조건을 이용한다. 군집 분석은 m x k 차원을 보유하는 데이터 목록상에서 실시하는데, 여기서 m은 조건 또는 섭동의 총수이고, k는 측정된 유전자 수다.
다수의 군집 알고리즘이 군집 분석에 유용하다. 군집 알고리즘은 군집을 형성하는 객체간의 차별성 또는 거리를 활용한다. 일부 구체예에서, 사용하는 거리는 다차원 공간에서 유클리드 거리다.
(4)
여기서, I(x,y)는 유전자 X와 유전자 Y(또는 임의의 다른 세포구성성분 X와 Y)간 거리이고; Xi와 Yi는 섭동i하의 유전자 발현 반응이다. 유클리드 거리를 제곱하여, 더 멀리 떨어져 있는 객체를 점진적으로 가중할 수 있다. 대안으로, 거리값은 유전자 X와 Y간의 맨해튼 거리인데, 이것은 다음과 같이 제시한다:
(5)
다시 한번, Xi와 Yi는 섭동i하의 유전자 발현 반응이다. 거리의 일부 다른 정의는 쳬비세프 거리, 거듭곱(power) 거리, 불일치 백분율이다. 차원에 대한 데이터가 성격적으로 절대적이기 때문에, I(x,y)=(Xi≠Yi)의 수치/i로 정의되는 불일치 백분율이 본 발명에 특히 적합하다. 세포반응의 범주에서 특히 유용한 다른 유용한 거리 정의는 I=1-r인데, 여기서 r은 정규화 스칼라 곱 XㆍY/|X||Y|으로 불리는 반응 벡터 X,Y간의 상관계수다. 특히, 스칼라 곱 XㆍY는 다음의 방정식으로 정의한다:
(6)
|X|=(XㆍX)1/2, |Y|=(YㆍY)1/3.
좀더 바람직하게는, 거리 척도는 공통-변동 및/또는 공통-조절되는 유전자를 비롯한 공통-변동 및/또는 공통-조절되는 세포구성성분을 확인하기 위한 생물학적 물음에 적합하다. 가령, 적절한 구체예는 유전자 X와 Y의 가중 스칼라 곱으로 구성되는 상관계수를 갖는 거리 척도 I=1-r이다. 특히 적절한 구체예에서, rv는 다음의 방정식으로 정의한다:
(7)
여기서, sigma { 1}^{(X) } 와 sigma { i}^{(Y) }는 실험 i에서 유전자 X와 Y의 측정과 관련된 표준오차다.
상기 정상 스칼라 곱과 가중 스칼라 곱의 상관계수는 +1(이는 2개의 반응 벡터가 완벽하게 상관하며 실질적으로 동일하다는 것을 시사)과 -1(이는 2개의 반응 벡터가 "역상관" 또는 "안티-센스"(즉, 반대)라는 것을 시사)사이에서 유동한다. 이들 상관계수는 본 발명의 구체예에서 특히 적절한데, 여기서 세포구성성분 세트 또는 군집은 동일 신호의 반응을 갖는 구성성분을 탐색한다.
다른 구체예에서, 동일 생물반응 또는 경로에서 공통-조절되는 또는 이에 관여하지만, 유사한 반응과 역상관 반응으로 구성되는 세포구성성분 세트 또는 군집을 확인하는 것이 바람직하다. 가령, 도10은 캐스케이드를 보여주는데, 여기서 신호는 G1, G2, G3으로 확인된 몇몇 유전자를 상향-조절하는 전사인자를 활성화시킨다. 도10에서 제시한 예에서, G3의 산물은 몇몇 상이한 유전자, 예를 들면 G4, G5, G6의 억제 요소다. 따라서, 동일한 세포구성성분 세트 또는 군집의 일부로 6개 유전자 G1-G6를 동정할 수 있다. 이런 구체예에서, 상관계수로 전술한 바와 같은 정규화된 또는 가중된 스칼라 곱의 절대 수치, 즉 |r|을 이용하는 것이 바람직하다.
다른 구체예에서, 공통-조절 및/또는 공통-변동되는 세포구성성분(예, 유전자)간의 관계는 다중 생물경로(즉, 신호경로)가 동일 세포구성성분에 집중되어 상이한 결과가 산출되는 경우에는 더욱 복합해진다. 이런 구체예에서, 상관계수 r=r(change)를 활용하는 것이 바람직한데, 이는 신호에 상관없이 공통-변동 및/또는 공통-조절되는 세포구성성분을 확인할 수 이DT다. 방정식 9에서 명시한 상관계수는 이런 구체예에서 특히 유용하다.
(8)
다양한 군집 연결 규칙이 본 발명의 방법에 유용하다. 단일 연결(최근접이웃방법)은 2개의 가장 가까운 객체간의 거리를 측정한다. 대조적으로, 완전 연결방법은 상이한 군집에서 임의 2개의 객체간의 최대 거리로 거리를 측정한다. 이런 방법은 유전자 또는 다른 세포구성성분이 자연적으로 구별되는 "클럼프(clumps)"를 구성하는 경우에 특히 유용하다. 대안으로, 비가중된 쌍-그룹 평균은 2개의 상이한 군집에서 객체의 모든 쌍간의 평균거리로 거리를 정의한다. 이런 방법 또한, 유전자 또는 다른 세포구성성분을 군집하여 자연적으로 구별되는 "클럼프"를 구성하는데 매우 유용하다. 최종적으로, 가중된 쌍-그룹 평균 방법을 사용할 수 있다. 이런 방법은 각 군집의 크기가 가중치로 사용되는 것을 제외하고 비가중된 쌍-그룹 평균 방법과 동일하다. 이런 방법은 군집 크기가 현저하게 변동되는 구체예에서 특히 유용하다(Sneath and Sokal, 1973, Numerical taxonomy, San Francisco: W. H. Freeman & Co.). 비가중된ㆍ가중된 쌍-그룹 중심 및 Ward 법과 같은 다른 군집 연결 또한, 본 발명의 일부 구체예에 유용하다(Ward, 1963, J. Am. Stat Assn, 58:236; Hartigan, 1975, Clustering Algorithms, New York: Wiley).
특히 적절한 구체예에서, 군집 분석은 hclust 루틴(예, 소프트웨어 패키지 S-Plus의 'hclust' 루틴, MathSoft, Inc. Cambridge, MA)을 이용하여 실시한다. S-Plus의 hclust 알고리즘에 의한 군집 '트리' 출력의 예는 도6에 제시한다(실시예 1, 단락 6.1 참조). 상기 경우에 데이터 세트에는 상이한 약물 처리 및 사람의 면역억제와 상동한 맥주 효모균(S. cerevisiae) 생화학 경로와 관련된 유전자 돌연변이를 비롯한 18번의 실험이 포함된다. 측정된 6000개이상의 mRNA 수준의 세트는 먼저, 한번이상의 실험에서 4개이상 인자의 반응 진폭을 갖는 유전자만을 선별함으로써 48개로 감소시킨다. 이런 초기 축소선별은 대부분의 실험에서 다수 유전자의작은 반응을 압도하는 측정 오차의 교란효과를 상당히 감소시킨다. 이후, 생성된 18 x 48 데이터 목록에서 hlust를 이용한 군집을 실시하여, 도6에 보이는 군집 트리를 만든다. 군집 세트에서 실험의 수와 다양성이 증가할수록, 유의성있는 반응(측정오차 수준이상)을 보이는 측정된 세포구성성분의 비율이 또한 증가하고, 궁극적으로 대부분 또는 전체 세포구성성분 세트가 제 1 축소선별에서 존속되고 군집 트리로 표현된다. 그 다음, 트리로부터 유래된 유전자세트는 세포구성성분 세트를 좀더 완벽하게 포함하게 된다.
군집 세트에서 섭동의 다양성이 증가할수록, 명확하게 구분되는 유전자세트가 좀더 다수 소규모화된다. 하지만, 본 발명자들은 훨씬 대량의 실험세트에도 불구하고, 일관성을 유지하는 유전자세트가 있음을 발견하였다. 이들 유전자세트는 비감소 유전자세트라 한다. 본 발명의 일부 구체예에서, 이들 비감소 유전자세트를 얻기 위하여 다수의 다양한 섭동을 이용한다. 가령, 도6의 왼쪽에 위치한 유전자세트 No.1은 훨씬 대량의 섭동 조건에서 군집을 실시하는 경우에도 발견된다. 군집분석을 위해 전술한 18번의 실험을 비롯한 365개 효모 조건의 데이터 세트를 사용하였다. 섭동 조건에는 상이한 농도에서 상이한 처리 시간후에 측정된 약물 처리, 다양한 유전자에서 유전자 돌연변이에 대한 반응, 약물 처리와 돌연변이의 복합, 성장조건(예, 온도, 밀도, 칼슘농도)의 변화가 포함된다. 이들 조건 대부분은 18-실험 세트에 사용되는 면역억제제와 무관하다; 하지만, 유전자세트는 일관성을 유지한다. 유전자세트 No.2와 No.3 또한, 부분적으로 일관성을 유지한다.
유전자세트는 상이한 수준에서 트리 전체를 컷팅하여, 트리에서 다수의 소규모 분지 또는 소수의 대규모 분지에 기초하여 정의한다-도6에서 대시 기호로 표시한 실례 참조. 경계값의 선택은 예상되는 개별 반응 경로의 수와 일치하도록 한다. 경로 수에 관한 사전 정보가 전혀 없는 경우, 트리는 실제로 구별가능한 수만큼의 분지로 세분해야 한다. '실제로 구별가능한'은 개별 분지간의 최소 거리값으로 정의한다. 도6에서, 이런 거리는 2개의 분지를 연결하는 수평 커넥터의 수직 좌표다. 일반적으로, 수치는 0.2 내지 0.4가 되고, 여기서 0은 완전 상관관계이고 1은 0 상관관계인데, 상기 수치는 연습 세트에서 데이터 질이 퇴보하거나 또는 실험의 회수가 줄어드는 경우 커지고, 데이터 질이 향상되고 실험의 회수가 증가하는 경우 작아진다.
가급적, '실제로 구별가능한'은 트리에서 각 분기에 대한 통계학적 유의성의 객관적인 검사로 정의할 수 있다. 본 발명의 한 측면에서, 전체 실험 세트에서 각 세포구성성분 반응에 대한 실험 인덱스의 몬테칼로 임의화를 이용하여 객관적인 검사를 정의한다.
일부 구체예에서, 객관적인 검사는 다음과 같은 방식으로 정의한다:
pki는 실험 i에서 구성성분 k의 반응이다. Ⅱ(i)는 실험 인덱스의 임의 치한이다. 다수(100 내지 1000)의 상이한 임의 치환 각각에 대하여, pkⅡ(i)를 구성한다. 원 트리의 각 분지에서, 각각의 치환을 위해
(1) 치환되지 않은 원 데이터에 사용되는 동일 알고리즘('hclut')으로 계층적인 군집을 실시하고;
(2) 1개 군집에서 2개 군집으로 진행되는 군집 센터에 대하여 전체 산포(scatter)에서 향상비율f를 계산한다:
(9)
여기서, Dk는 지정 군집의 중심(평균)과 연관하는 구성성분 k에 대한 거리 척도의 제곱이다. 어깨 글자 1 또는 2는 이것이 전체 분지의 중심과 연관하는 지 또는 2개의 소군집중에서 적합한 군집의 중심과 연관하는 지를 시사한다. 군집 과정에서 사용되는 거리 함수 D의 정의는 상당히 자유롭다. 이들 예에서, D=1-r인데, 여기서 r은 전체 실험 세트에서 한 구성성분의 반응과 다른 반응(또는 평균 군집 반응)간의 상관계수다.
몬테칼로 과정에서 수득된 향상비율의 분포는 특정 분지화에는 유의성이 없다는 귀무가설하의 분포 추정값이다. 이후, 치환되지 않은 데이터를 이용한 상기 분지화에 대한 실제적인 향상비율은 귀무가설의 누적확률분포와 비교하여 유의성을 지정한다. 표준 편차는 귀무가설 분포에 대하여 로그 정규모델을 핏팅하여 유도한다.
도6의 분지에서 보인 수치는 표준편차에서 각 분지의 유의성이다. 2이상의 숫자는 분지가 95% 신뢰수준에서 유의성이 있다는 것을 시사한다. 가령, 도6에서 보인 수평 경계값을 사용하고 2개이상의 구성원이 경계값이하인 분지들만이 유전자세트로 수용되는 경우, 도6에서 3개의 유전자세트를 얻는다. 이들 3개의 유전자세트는 칼슘 단백질, PDR 유전자, Gcn4 전사인자가 관여하는 경로를 반영한다. 따라서, 군집 분석으로 정의한 유전자세트는 잠재적인 생물학적 유의성을 갖는다.
좀더 자세히 말하면, 임의 군집 방법 또는 알고리즘의 분류 방법의 통계학적 신뢰도를 측정하기 위하여 객관적인 통계검사를 이용한다. 바람직하게는, 계층적ㆍ비계층적 군집 방법에 유사한 검사를 이용한다. 좀더 바람직하게는, 이용하는 통계학적 검사는 (a) 본 발명의 군집 방법중 하나로 측정한 군집 응집도의 척도를 수득하고; (b) 수득된 응집도 척도 및 증가된 군집에서 재분류된 세포구성성분 응집도의 가정 척도를 비교하는 것으로 구성된다. 가령, 계층적 군집 알고리즘(예, hclust)를 사용하는 예에서, 응집도의 이런 가정 척도는 군집 트리에서 두 번째로 가장 낮은 분지(예, 도11에서 LEVEL 2보다는 LEVEL 1)에서 선택된 군집에 대한 응집도 척도로 구성된다. 대안으로, N 군집을 만들기 위하여 비-계층적 군집 방법 또는 알고리즘을 이용하는 구체예에서 응집도의 가정 척도는 동일 방법으로 N+1 군집에서 수득된 응집도다.
군집 응집도는 "군집 평균"으로부터 군집 요소의 평균 제곱 거리 또는 군집 평균으로부터 요소의 평균 제곱 거리의 역수로 정량적 세분한다. 특정 군집의 군집 평균은 일반적으로, 군집내 전체 요소의 반응 벡터의 평균으로 정의한다. 하지만, 군집 알고리즘의 거리 계량형을 평가하는데 정규화된 또는 가중된 스칼라 곱의 절대값을 사용하는 특정 구체예(즉, I=1-|r|)에서, 군집 평균의 이런 정의는 문제점이 발생한다. 좀더 일반적으로, 상기 평균의 정의는 반응 벡터가 반대방향이어서 전술한 군집 평균이 0이 되는 구체예에서 문제점이 발생한다. 따라서, 이런 구체예에서는 군집내 요소의 모든 쌍간의 평균 제곱 거리와 같은 상이한 정의의 군집 응집도를 선택하는 것이 바람직하다. 대안으로, 군집 응집도는 군집내 모든 다른 요소에 대한 군집의 각 요소(예, 세포구성성분)의 평균 거리(좀더 바람직하게는, 평균 거리의 역수)로 구성되도록 정의할 수 있다.
바람직하게는, 군집 응집도와 가정 응집도를 비교하는 (b)단계는 증가된 군집에서 변화된 응집도에 대한 비-모수적 통계분포를 만드는 것으로 구성된다. 좀더 바람직하게는, 이런 분포는 실제 데이터를 모방하지만 내재된 군집 구조를 보유하지 않은 모델(즉, "귀무가설"모델)을 이용하여 만든다. 가령, 이런 분포는 (a) 각 세포구성성분 X에 대한 섭동 실험 인덱스i를 임의화하고, (b) N에서 N+1(비-계층적 군집 방법)로 군집의 수를 증가시키거나 또는 군집을 정의하는 분지 수준을 증가시킴으로써 각 분포에 대하여 발생하는 응집도 변화를 계산하여 만든다.
이런 과정은 군집 방법의 전형적인 비-계층적 구체예에 대하여 도12에서 도식하였는데, 여기서 섭동 벡터는 2차원이고(즉, 2번의 섭동 실험, i = 1,2), 길이|X|=2를 갖는다. 따라서, 이들 반응 벡터는 도12에서, 2차원 공간에 점으로 나타낸다. 본 실시예에서, 2개의 군집을 명확하게 구부할 수 있다. 이들 2개의 군집은 도12A에서 나타내는데, 이들은 원형 군집과 아령 모양 군집으로 구성된다. 군집 중심은 삼각형(▲)으로 표시한다. 도12의 섭동 벡터 분포가 상응하는 중심을 갖는 3가지 군집(도12B)으로 세밀하게 구별될 수 있음은 당업자에게 자명하다. 도12B에서 2개의 새로운 군집 각각이 도12의 아형형 1개 군집보다 훨씬 응집되어 있다는 것은 당업자에게 자명하다. 하지만, 이런 응집도 증가가 통계학적으로 유의성이 없을 수도 있기 때문에 실제적인 또는 독특한 세포구성성분 세트를 지시하지 않을 수 도 있다. 특히, 본 실시예에서 N 군집 세트의 응집도는 군집 중심으로부터 각 요소의 평균 제곱 거리의 역수, 즉 1/D(N) mean로 정의한다. 일반적으로, 추가적인 "실제" 세포구성성분 세포의 존재여부에 상관없이 D(N+1) mean< D(N) mean이다. 따라서, 본 발명의 통계학적 방법은 본 실시예에서 군집의 수가 N=2에서 N+1=3으로 증가될 때 발생하는 응집도 증가의 통계학적 유의성을 평가하는데 사용할 수 있다.
한 구체예에서, 증가된 응집도는 다음의 방적식으로 정의되는 모수 E로 제시한다:
(10)
하지만, 본 발명의 통계학적 방법에 다른 정의를 사용할 수 있음은 당업자에게 자명하다. 일반적으로, E의 정확한 정의는 별로 중요하지 않은데, 그 이유는 이것이 군집 응집도 증가와 단조적으로 연관하기 때문이다.
본 발명의 통계방법은 E의 유의성을 분석하는 방법을 제공한다. 특히, 이들 방법은 실제 실험 데이터에 대한 실제적인 응집도 증가(E0) 및 임의 치환된 데이터로부터 측정된 E값의 경험적 분포를 비교하여, E의 분석을 위한 경험적 분포를 제공한다. 도12에서 기술한 2차원 실례에서, 이런 이동은 먼저, 각 반응 벡터에서 섭동 인덱스 i=1,2를 동등 확률로 임의교체하는 것으로 구성된다. 좀더 구체적으로, 세분되는 각 군집에서 벡터의 좌표(즉, 인덱스)는 도12C에서 보인 바와 같이 좌표축을 군집 중심으로 평행이동시켜, 군집 중심부근으로 "반영한다". 이런 공정의 결과는 도12D에서 2차원 실례로 제시한다. 둘째, 임의 치환된 데이터는 본 발명의 군집 알고리즘, 가장 바람직하게는 원 군집을 측정하기 위하여 사용된 동일 군집 알고리즘으로 재-평가하여, 치환된 데이터에 대한 신규한 군집을 측정하고 이들 신규한 군집에 대한 E값을 평가한다(즉, 하나 또는 복수의 신규한 군집을 분할하기 위해). 수회의 몬테칼로 실험에서 상기 1과 2 단계를 반복하여, E값의 분포를 구하였다. 몬테칼로 실험의 회수는 바람직하게는 50 내지 1000, 좀더 바람직하게는 50 내지 100이다. 최종적으로, 응집도에서 실제적인 증가(E0)는 E값의 경험적 분포와 비교하였다. 가령, x가 E0보다 큰 E값을 갖는 M 몬테칼로 모의실험을 실시하는 경우, 군집 수에서 신뢰수준은 1-x/M으로부터 평가할 수 있다. 특히, M=100이고 x=4인 경우, 증가된 군집에서 실제적인 유의성이 없는 신뢰수준은 1-4/100=96%이다.
상기 방법은 계층적 군집 또는 복수의 요소(예, 2개이상의 세포구성성분)로 구성되는 구체예에도 균등하게 적용할 수 있다. 군집 트리의 예는 도11에서 제시한다. 이런 군집 트리는 현저한 반응을 보이는 185개 세포구성성분으로 구성되는 34개 섭동 반응 프로파일에 대하여 hclust 알고리즘을 이용하여 수득하였다. 상기 트리의 LEVEL 2에서 분지로 정의되는 군집을 이용하여, 몬테칼로 모의실험을 100외 실시하여 34개 실험 인덱스를 임의화하고, 트리상의 각 분지에서 응집도 E상의 향상에 대한 경험적 분포를 구하였다. 각 분지에서 응집도의 실제적인 증가(E0)는 상응하는 분포와 비교하였다. 도11에서 이들 비교는 각 분지상의 수치로 표시한다.특히, 이들 수치는 E0이 E의 평균값을 초과하는 분포에서 표준편차의 수치를 나타낸다. 표시된 유의성은 분지의 독립적으로 측정된 생물학적 유의성과 상응한다. 가령, 도7에 숫자 5(바닥 라벨)로 표시한 주요 분지는 칼리뉴린 단백질로 조절되는 유전자로 구성되는 반면, 숫자 7로 라벨된 분지는 주로, Gcn4 전사인자로 조절되는 유전자로 구성된다.
본 발명의 몬테칼로 방법은 섭동 인덱스i 치환의 측면에서 예시하였지만, 이런 방법이 세포구성성분 인덱스와 무관한 생물반응 데이터를 치환하는데 사용될 수 있다는 것은 당업자에게 자명하다. 가령, 일부 구체예에서 세포구성성분 X에 대한 반응 프로파일 데이터는 섭동 인덱스와 동시에 또는 이를 대신하여 시간 인덱스 x를 갖는 시간의 함수, 즉, X(t)이다. 이런 구체예에서, 본 발명의 몬테칼로 방법은 시간 인덱스 t를 치환함으로써 사용할 수 있다.
본 발명에 따른 군집 분석방법의 다른 측면은 다음의 단락에서 기술하는 프로파일 투영에 사용하기 위한 기본 벡터의 정의를 제공한다.
기본 벡터 V 세트는 k x n 차원을 보유하는데, 여기서 k는 유전자 수이고 n은 유전자세트 수다.
(11)
V(n) k는 기본 벡터 n에서 유전자 인덱스 k의 진폭 기여다. 다른 구체예에서,유전자 k가 유전자 n의 일부이면 V(n) k=1이고, 유전자 k가 유전자 n의 일부가 아니면 V(n) k= 0다. 일부 구체예에서, V(n) k는 유전자세트를 정의하기 위하여 사용되는 연습 데이터 세트에서, 유전자세트n내 유전자 k의 반응에 비례한다.
적절한 일부 구체예에서, 요소 V(n) k는 정규화시키는데, 각 기본 벡터 V(n)는 유전자세트n내 유전자 수의 제곱근으로 나눔으로써 단일 길이를 갖게 된다.
이로써 직교(군집 트리를 컷팅하여 유래된 유전자세트는 분리된다) 및 직교정규(단위 길이)한 기본 벡터가 만들어진다. 이런 정규화의 선택으로, 프로파일상의 무작위 측정 오차는 진폭이 각 n에 필적하는 방식으로 V(n) k에 투영된다. 정규화는 대규모 유전자세트가 유사성 계산의 결과를 지배하지 못하도록 예방한다.
5.2.3 조절 기작에 기초한 유전자세트 분류
유전자세트는 유전자의 조절기작에 기초하여 정의할 수 있다. 조절 영역이 동일한 전사인자 결합부위를 보유하는 유전자는 공통-조절될 가능성이 높다. 적절한 일부 구체예에서, 관심있는 유전자의 조절 영역은 공유된 전사인자 결합부위를 해독하는 다중 정렬 분석을 이용하여 분석한다(Stormo and Hartzell, 1989, Identifying protein binding sites from unaligned DNa fragments, Proc Natl Acad Sci 86:1183-1187; Hertz and Stormo, 1995, Identification of consensus patterns in unaligned DNA and protein sequences: a large-deviation satisticalbasis for penalizing gaps, Proc of 3rd Intl Conf on Bioinformatics and Genome Research, Lim and Cantor, eds., World Scientific Publishing Co., Ltd. Singapore, pp. 201-216). 실시예 3에서와 같이, 20개 유전자에서 Gcn4에 반응하는 공통 프로모터 서열이 광범위한 섭동에서 공통-조절되는 20개 유전자를 담당할 수 있다.
유전자의 공통-조절은 동일 전사인자에 대한 결합부위를 보유하는 것들에 국한시키지 않는다. 공통-조절(공통-변동)되는 유전자들은 상류/하류 관계를 가질 수 있는데, 여기서 상류 유전자 산물은 하류 유전자의 활성을 조절한다. 당업자가 인지하는 바와 같이, 유전자 조절 네트워크는 다수 존재한다. 본 발명의 방법이 특정 종류의 유전자 조절 기작에 국한되지 않는다는 것은 당업자에게 자명하다. 이것이 섭동에 따른 활성변화의 측면에서 2개의 유전자를 공통-조절하는 조절 기작으로부터 유래될 수 있다면, 2개의 유전자는 하나의 유전자세트로 군집할 수 있다.
관심있는 유전자에 관한 조절의 완전한 이해가 부족하기 때문에, 조절 기작 지식과 군집 분식을 통합하여 좀더 규정된 유전자세트를 유도하는 것이 바람직하다. 가령, 일부 경우에 군집 분석에서 확인된 통계학적으로 유의성있는 유전자세트는 생물학적으로 유의성있는 유전자세트, 예를 들면 조절 기작 연구에서 확인된 유전자세트와 비교한다. 적절한 일부 구체예에서, K-는 관심있는 유전자의 조절이 부분적으로 공지된 경우 유전자를 집락하는데 군집이 사용될 수 있다는 것을 의미한다. K-는 군집이 다수의 유전자세트가 조절기작의 이해를 통해 사전결정되는 경우에 특히 유용하다는 것을 의미한다. 일반적으로, K-는 군집을 억제하여 원하는수의 군집을 정확하게 생산한다는 것을 의미한다. 따라서, 프로모터 서열 비교에서 측정된 유전자가 3개의 유전자세트로 분류되는 경우, K-는 군집간의 최대 구분을 보이는 3개의 유전자세트를 정확하게 만드는데 군집이 사용될 수 있다는 것을 의미한다.
5.2.4. 유전자세트와 유전자 정의 데이터베이스의 세분
상기와 같이 파악된 유전자세트는 공통 조절서열 패턴의 검색, 공통-조절에 대한 문헌 조사, 서열상동성, 공지된 공유기능을 비롯한 정보를 확증하는 몇몇 자료로 세밀하게 구분할 수 있다.
데이터베이스는 유전자의 세밀한 구별에 특히 유용하다. 일부 구체예에서, 유전자세트의 집락 분석을 위한 기초 데이터를 포함하는 데이터베이스는 지속적으로 유전자 정의를 갱신하는데 사용한다. 도3은 동적 유전자 데이터베이스의 한 구체예를 보여준다. 섭동 실험의 데이터(301)는 섭동 데이터베이스 관리시스템(308)상의 데이터 목록(302)로 입력한다. 기본 벡터형태의 유전자세트 정의는 섭동 데이터베이스상의 갱신된 데이터를 기초로 하여, 군집 분석(303) 및 생물경로 정의(305,306)를 이용하여 지속적으로 산출한다. 생성된 유전자세트 정의 데이터 목록(304)은 갱신된 유전자세트 정의를 포함한다.
유전자세트 정의는 생물경로 데이터베이스를 세밀하게 구별(307)하는데 유용하다. 유전자세트 정의 목록은 사용자-입력된 투영 요구에 의해 접근가능하다. 사용자(313)는 발현 프로파일을(311)을 입력함으로써 데이터베이스 관리 시스템에 접근할 수 있다. 데이터베이스 관리 시스템은 발현 프로파일을 투영된 발현 프로파일로 투영한다(310)(단락 5.3 참조). 사용자-입력된 발현 프로파일은 섭동 데이터 목록(302)에 선택적으로 추가한다.
이런 동적 데이터베이스는 섭동 데이터의 제한된 제 1 세트에 유용한 유전자세트 정의를 제공한다는 점에서 생산적이다. 동적으로 갱신되는 데이터베이스는 유전자세트 정의를 지속적으로 세밀하게 구별하여 좀더 유용한 유전자세트 정의를 제공하고, 따라서 더 많은 섭동 데이터를 얻을 수 있다.
동적 유전자세트 정의 데이터베이스의 일부 구체예에서, 섭동 데이터와 유전자세트 정의 데이터는 디지털 컴퓨터 저장 매체에서 일련의 관련 목록에 저장된다. 가급적, 데이터베이스는 고객/서버의 분산된 시스템 환경에서 구현되어, 다중사용과 원거리 접근이 가능하다. 접근 통제와 이용 관리는 데이터베이스 시스템의 일부 구체예에서 구현된다. 관련 데이터베이스 관리 시스템과 고객/서브 환경은 당분야에 공지된 것이다(Nath, 1995, The Guide to SQL Server, 2nded., Addison-Wesley Publishing Co.).
5.3. 기본 유전자세트에 기초한 유전자 발현 프로파일의 표현
본 발명의 한 측면은 유전자의 발현 수치를 유전자세트에 대한 발현 수치로 변환시키는 방법을 제공한다. 상기 공정은 투영이라 한다. 일부 구체예에서, 투영은 다음과 같다:
P=[P1,..Pi,..Pll]=pㆍV (12)
여기서, p는 발현 프로파일이고, P는 투영 프로파일이고, Pi는 유전자세트i에 대한 발현 수치이고, V는 기본 벡터의 사전정의된 세트이다. 기본 벡터는 방정식 7에서 다음과 같이 사전에 정의되었다(단락 5.2.2):
(13)
여기서, V(n) k는 기본 벡터 n의 세포구성성분 인덱스 k의 진폭이다.
적절한 구체예에서, 유전자세트 발현의 수치는 유전자세트내 유전자의 발현 수치 평균이다. 다른 구체예에서, 평균을 가중하여 고도 발현되는 유전자가 유전자세트 수치를 압도하지 못하도록 한다.
5.4. 투영 프로파일의 용도
투영 프로파일, 즉, 유전자세트에서 발현되는 생물상태 또는 생물반응은 다수의 이점을 제공한다. 본 단락은 투영 프로파일을 이용한 분석 방법을 제공하는 본 발명의 다른 측면을 기술한다.
5.4.1. 투영 프로파일의 이점
투영 프로파일을 이용할 때의 장점중의 하나는 투영 프로파일이 측정오차에 덜 민감하다는 것이다. 각 세포구성성분에 대한 독립된 측정오차를 추정할 때, 투영 프로파일 요소에서 표준오차 비율은 개별 세포구성성에 대한 평균 표준오차 비율보다 Mn -1/2배이고, 여기서 Mn은 n번째 유전자세트에서 세포구성성분 수다. 따라서, 세포구성성분의 평균 하향 또는 상향-조절이 x 표준오차에서 유의성이 있는 경우, 투영 프로파일 요소는 Mn 1/2x 표준오차에서 유의성이 있다. 이는 평균값의 신호-대-잡음에 대한 표준 결과다; 평균화는 탐지 확률과 오경보간의 현저한 차이를 유발한다(Van Trees, 1968, Detection, Estimation, and Modulation Theory Vol I. Wiley & Sons).
투영 프로파일의 다른 장점은 데이터세트 크기를 줄일 수 있다는 것이다. 가령, 48개 유전자데이터는 3개의 유전자세트로 나타내고(실시예 2), 194개 유전자 데이터세트는 9개의 유전자세트로 나타낸다(실시예 3) 이런 데이터 크기의 감소는 프로파일의 분석을 상당히 용이하게 한다.
투영 프로파일의 또 다른 장점은 투영 프로파일이 기초적 생태를 보존하는 경향이 있다는 것이다. 가령, 도6은 48개 유전자의 군집 트리를 보여준다. 각각 칼시누린 단백질, PDR 유전자, Gcn4 전사인자가 연관하는 3가지 경로에 상응하는 3개의 유전자세트를 확인한다(실시예 1).
5.4.2. 프로파일 비교와 분류
기본 유전자세트가 선택되면, i로 인덱스되는 프로파일의 임의 세트에 대한 투영 프로파일 Pl를 구할 수 있다. Pi간의 유사성은 2가지 이유로, 원 프로파일간보다 더 분명하게 나타난다. 첫째, 외인성 유전자상의 측정 오차가 배제되거나 또는 결국 평균에 도달한다. 둘째, 기본 유전자세트는 프로파일 Pl의 생태를 보존하고 따라서 개별 반응 성분에 대한 대응탐지기가 된다. 프로파일의 분류와 군집은 S라고 하는 객관적인 유사성 계량형에 기초하는데, 여기서 한가지 유용한 정의는다음과 같다:
Sij=S(Pi,Pj)=PiㆍPj/(|Pi||Pj|) (14)
상기 정의는 벡터 Pi와 Pj간의 정규화된 코사인 각도다. 이는 Pl와 Pj간의 통상적인 상관계수의 투영형이다. 프로파일 Pi는 Sij가 최대가 되는 다른 프로파일 Pj와 매우 유사하다. 새로운 프로파일은 공지된 생물 유의성의 프로파일, 예를 들면, 공지된 약물에 대한 반응 프로파일 또는 특정 생물경로에서 섭동에 대한 유사성에 따라 분류할 수 있다. 새로운 프로파일 세트는 거리 계량형을 이용하여 군집할 수 있다:
Dij=I-Sij(15)
여기서, 상기 군집은 좀더 큰 원공간의 전체 반응 수치 세트상의 군집과 상동하지만, 측정오차 효과의 감소 및 관련 생태의 향상된 보존과 같은 장점이 있다.
임의 관찰된 유사성(Sij)의 통계학적 유의성은 무-상관관계의 귀무가설하에 만들어진 경험적 확률분포를 이용하여 평가할 수 있다. 상기 분포는 원 프로파일 P에서 구성성분 인덱스의 다양한 임의 치환에 대하여 투영 방정식(9)과 (10)를 실시하여 만든다.
다시 말하면, 정렬된 세트 pk는 pIi(k)로 대체하는데, 여기서 Ⅱ(k)는 ~100 내지 1000개의 상이한 임의 치환이다. 우연히 발생하는 유사성(Sij)의 확률은 치환의 비율이 되는데, 상기 치환에 대한 유사성(Sij)(치환된)은 원래의 치환되지 않은 데이터를 이용하여 관찰되는 유사성을 초과한다.
5.4.3. 본 발명의 한 측면은 약물 발견 방법을 제공한다. 한 구체예에서, 유전자세트는 군집 분석으로 정의한다. 유전자세트내 유전자는 관심있는 조건에서 잠재적으로 공통-조절된다. 공통-조절되는 유전자는 추가로, 조절경로에 잠재적으로 관계하는지 조사한다. 조절 경로에 관여하는 유전자의 동정은 신규한 약물의 설계와 선별에 유용한 정보를 제공한다.
본 발명의 일부 구체예에서, 약물 작용 경로를 확인하기 위하여 유전자세트 정의와 투영을 사용한다. 한 구체예에서, 약물의 이용에 따른 다수 유전자의 발현 변화를 측정한다. 발현 변화 프로파일은 유전자세트 발현 변화 프로파일로 투영한다. 일부 경우에, 유전자세트 각각은 한정된 생물 목적의 특정 경로를 나타낸다. 다른 경우에, 발현 변화 프로파일은 다수의 경로를 섭동하여 수득된 투영 프로파일의 데이터베이스와 비교한다. 투영 프로파일이 공지된 섭동으로부터 유래된 투영프로파일과 유사하다면, 약물의 작용경로는 공지된 섭동과 동일한 것으로 표시한다. 약물 작용 경로의 확인은 약물 발견에 유용하다(Stoughton and Fried, Methods for Identifying pathways of Drug Action, U.S.Patent Application No. 09/074,983). 한 구체예에서, 원하는 약물 활성은 특정 유전자 조절 경로에 영향을 준다. 이런 구체예에서, 약물 후보는 조절 경로에 상응하는 유전자세트에 영향을 주는 영향에 대하여 선별한다. 다른 구체예에서, 원하는 신규한 약물은 기존의 약물의 대체한다. 이런 구체예에서, 약물 후보의 투영 프로파일은 기존 약물의 투영 프로파일과 비교하여, 어떤 약물 후보가 기존의 약물과 유사한 활성을 보유하는지 측정한다.
일부 구체예에서, 본 발명의 방법은 경로 분지와 동태를 해독하는데 사용한다(Friend and Hartwell, Drug Screening Method, U.S. Provisional Application No. 60/056,109, filed on August 20, 1998). 수용체가 리간드에 자극(또는 차단)되는 경우, 하향 경로의 여기(excitation)는 수용체와 리간드 상호작용의 정확한 시간 프로파일과 분자 도메인에 따라 달라질 수 있다. 별개 리간드의 상이한 효과의 간단한 실례는 작용물질, 부분적인 작용물질, 네거티브 길항물질, 길항물질에 대한 반응간의 표현형 차이로, 이는 수용체에 대한 상이한 분자도메인의 공유 대 비공유 결합 및 활성에 반응하여 발생할 것으로 생각된다(Ross, Pharmacodynamics: Mechanisms of Drug Action and the Relationship between Drug Concentration and Effect, in The Pharmacological Basis of Therapeutics(Gilman et al. ed.), McGraw Hill, New York, 1996).
도4A는 경로 캐스케이드의 2가지 상이한 반응을 보여준다.
본 발명의 일부 구체예에서, G 단백질-결합된 수용체(GPCRs) 또는 다른 수용체에 대한 리간드는 반응 유전자에서 수용체 상호작용에 대하여 관찰된 시간 반응을 단순화시키는 본 발명의 투영 방법을 이용하여 조사할 수 있다. 적절한 일부 구체예에서, 관련된 유전자세트와 시간 프로파일을 밝힌다. 다수 유전자의 시간 반응의 프로파일은 사전정의된 유전자세트에 투영하여, 시간 반응의 투영 프로파일을 구한다. 투영 공정으로 관찰된 반응을 단순화시켜, 상이한 시간 반응을 좀더 정확하게 탐지하고 구별한다.
도4B는 몇몇 시점에서 시간 반응 프로파일에 의한 유전자 군집의 예를 제시한다. 실험은 효모α 교미 페로몬으로 효모 교미 경로(전술한 바와 동일한 동일 균주, 방법등)의 활성화하는 것이다. 전체 효모 유전자에 대한 발현 반응은 대조군(가성 처리)과 비교하였다. 베이스라인은 처리직후, 처리후 15분, 30분, 45분, 60분, 90분, 120분에 측정하였다. 이런 특정 시점에서 실험은 군집 분석을 위한 실험 세트를 제공하였다. 각 라인은 하나의 실험을 나타낸다. 별표가 표시되어 있는 라인은 군집 공정에서 적은 양으로 실시한 실험을 나타낸다. 3개의 주요 군집은 도4B에 제시하는데, 이들은 전체적으로 시간의 추이에 따라 별개의 움직임을 보인다. 제 1 그룹(초기)은 STE12 전사인자에 대응하고, 제 2 그룹(적응)은 지속적으로 처리하면 약화(반응의 감소)되는 STE2와 STE12와 같은 주요 신호 경로의 구성원을 보유하고, 제 3 그룹(세포 주기)은 교미 반응에 의한 세포 주기 섭동과 연관한다.
인덱스에 구성성분과 시점을 포함하는 증폭된 기본 벡터를 정의하는 것이 가능하다. 이들 벡터로의 투영으로, 특정 유전자 그룹의 반응 및 특이적 시간 프로파일의 진폭을 찾아낼 수 있다. 따라서, 여러 시점의 발현 프로파일을 증폭된 기본 벡터에 투영함으로써 도4B의 제 3 그룹에서 보인 것들과 같은 반응을 효율적으로 탐지할 수 있는데, 상기 벡터의 요소는 제 3 그룹에 포함되는 유전자에 대해서만 영(zero)이 아니었고, 상기 벡터의 진폭(0이 아님)은 제 3 그룹에서 시간 반응의 프로파일에 따른 시간 인덱스로 변동된다.
5.4.4. 진단 용도
본 발명의 한 측면은 사람, 동물, 식물의 질병의 진단하는 방법을 제공하는 것이다. 이들 방법은 질병의 진행과 치료의 효율을 모니터하는데 유용하다.
본 발명의 한 구체예에서, 환자의 질병 조직의 생검과 같은 환자 세포 샘플은 다수 유전자의 발현에 대하여 분석한다. 유전자 발현 프로파일은 유전자세트의 정의에 따라 유전자세트 발현 수치의 프로파일로 투영한다. 이후, 투영된 프로파일은 참고 투영 프로파일을 포함하는 참고 데이터베이스와 비교한다. 환자의 투영 프로파일이 데이터베이스상의 암 프로파일과 가장 유사한 경우, 환자의 질병 조직은 암으로 진단한다. 유사하게, 최적 대합이 다른 질병 또는 질환의 프로파일인 경우, 이런 다른 질병 또는 질환의 진단이 이루어진다.
다른 구체예에서, 조직 샘플은 환자의 종양에서 얻는다. 조직샘플은 관심있는 다수 유전자의 발현에 대하여 분석한다. 유전자 발현 프로파일은 유전자세트의 정의에 따라 유전자세트 발현 수치의 프로파일로 투영한다. 투영된 프로파일은 동일 종양으로부터 사전에 구한 투영 프로파일과 비교하여, 유전자세트에서 발현 변화를 확인한다. 참고 라이브러리를 이용하여, 유전자세트 변화가 종양 진행을 시사하는 지를 측정한다. 다른 질병 또는 질환을 계획하는데 유사한 방법을 사용한다. 치료중인 환자로부터 수득된 프로파일에서 유전자세트 발현 수치의 변화는 치료전의 투영 프로파일과 투여후의 투영 프로파일을 비교함으로써, 치료의 효율을 모니터하는데 사용할 수 있다.
5.4.5 군집 분석에 의한 반응 프로파일 분류
본 발명의 방법은 세포구성성분(예, 유전자)을 공통-변동(예, 공통-조절)의정도에 따라 집락하는 것에 국한시키지 않는다. 특히, 세포구성성분의 공통-변동을 분석하기 위한 전술한 군집 분석과 다른 통계학적 분류 방법은 또한, 생물반응 프로파일을 분석하고 생물반응의 유사성에 따라 이런 프로파일을 분류 또는 집락하는데 사용할 수 있다. 따라서, 단락 2.2.2에서 세포구성성분 "벡터"x={Xi}(여기서, i는 반응프로파일 인덱스)를 분석하기 위한 방법을 기술하는데, 단락 2.2.2에서 밝힌 방법과 방정식은 또한, 반응프로파일 벡터 v(m)={vi (m)}(여기서, m은 반응 프로파일 인덱스, i는 세포구성성분 인덱스)를 분석하는데 사용할 수 있다.
이런 분석은 상기 단락 5.2.2에서 밝힌 'hclust'를 비롯한 정확하게 동일한 군집 알고리즘 및 정확하게 동일한 계량형을 이용하여 실시할 수 있다. 가령, 단락 5.2.2는 거리 계량형 I=1-r(여기서, r은 정규화된 스칼라 곱 XㆍY/|X||Y|) 을 이용하여 세포구성성분 벡터 X와 Y를 비교 설명한다. 동일한 거리 계량형은 r=v(m)ㆍv(n)|v(m)||v(n)|을 평가함으로써, 반응 프로파일 벡터 v(m)과 v(n)을 평가하는데 사용할 수 있음은 당업자에게 자명하다. 다른 거리 계량형과 유의성 검사를 비롯하여 단락 5.2.2에서 전술한 군집 방법의 다른 측면의 유사한 적용 또한, 당업자에게 자명하다.
본 발명의 분석방법에는 "2-차원" 군집 분석이 포함된다. 이런 2-차원 군집분석 방법은 (1) 생물프로파일에서 공통-변동되는 세트로 세포구성성분을 집락하고, (2) 유사한 세포구성성분에 영향을 주는(가급적, 유사한 방식으로) 세트로 생물프로파일을 집락하는 것으로 구성된다. 2개의 집락 단계는 임의 순서로 전술한 방법에 따라 실시할 수 있다.
이런 2-차원 군집 기술은 전술한 바와 같이, 관심있는 특정 유전자와 섭동의 세트를 확인하는데 유용하다. 가령, 본 발명의 2-차원 군집 기술은 세포구성성분의 세트(즉, 발현 수준 또는 함량의 변화) 및/또는 관심있는 특정 생물효과(약물 효과 또는 특정 질병이나 질병 상태)와 관련된 실험의 세트를 확인하는데 사용할 수 있다. 본 발명의 2-차원 군집 기술은 예로써 관심있는 특정 생물경로와 관련된 세포구성성분 및/또는 실험의 세트를 확인하는데 사용할 수 있다.
또한, 전술한 2-차원 군집 기술은 관심있는 특정 세포구성성분의 발현이나 함량의 수준 변화 또는 관심있는 세포구성성분(예, 특정 유전자세트)의 특정 공통-변동 세트에서 변화를 야기하는 섭동을 확인하는데 사용할 수 있다. 가령, 본 발명의 적절한 구체예에서, 이런 세포구성성분 및/또는 섭동 세트는 관심있는 특정 생물반응에 대한 공통 프로파일을 측정하는데 사용한다. 다른 구체예에서, 이런 세포구성성분 및/또는 섭동 세트의 확인은 세포구성성분을 분류하는 좀더 정확한 표시, 예를 들면 관심있는 특정 생물경로 또는 반응에 관여하는 유전자의 동정을 제공한다.
따라서, 본 발명의 다른 적절한 구체예는 세포구성성분, 특히 유전자(예, 신규한 유전자) 또는 유전자세트를 확인하는 방법을 제공하는데, 상기 세포구성성분의 변화(예, 발현 또는 함량의 변화)는 관심있는 특정 생물효과, 예를 들면, 특정 생물경로, 하나이상 약물의 효과, 특정 질병이나 질병 상태 또는 특정 치료나요법(예, 특정 약물 치료 또는 약물 요법)과 연관한다. 이런 세포구성성분은 전술한 군집-분석 방법에 따라 확인한다. 이런 세포구성성분(예, 유전자)은 미지의 세포구성성분 또는 관심있는 생물효과와 연관된 것으로 알려지지 않았던 공지의 세포구성성분일 수 있다.
가령, 전술한 2-차원 군집 방법을 이용하여 질병이나 질병 상태와 관련된 세포구성성분을 확인하는 특정 구체예에서 특정 질병이나 질병상태와 연관된 섭동으로 집락하는 생물프로파일을 확인하고 검사하여, 이런 프로파일에서 지속적으로 변화(예, 발현 또는 함량의 수준에서)되는 세포구성성분 및/또는 세포구성성분 세트(예, 유전자세트)를 확인할 수 있다. 이런 세포구성성분은 특정 질병이나 질병상태에 대한 마크(예, 유전자와 유전자세트의 경우에 유전자 마크)로서 유용하다. 특히, 환자로부터 얻은 생물샘플에서 관찰되는 이런 마크(발현 또는 함량의 수준)의 변화는 상기 환자의 특정 질병이나 질병상태를 진단하는데 사용할 수 있다. 마크(예, 질병이나 질병상태)로서 유용하고 본 발명에서 적절한 이들 세포구성성분은 관심있는 특정 생물효과(예, 특정 질병이나 질병상태)와 연관된 섭동에서 변화(예, 발현 또는 함량의 수준에서)되지만 다른 섭동, 다시 말하면, 관심있는 특정 생물효과와 무관한 섭동에서는 변화되지 않는 세포구성성분이다.
본 발명은 또한, 반응프로파일(예, 공통 프로파일)의 세포구성세트 및/또는 군집을 반복적으로 세밀하게 구별하는 방법을 제공한다. 특히, 본 발명의 군집 분석으로 확인하는 각 세포구성성분 세트 및/또는 프로파일에서 주도적 특색은 이들의 요소를 0 또는 세트의 데이터 평균값으로 설정함으로써 말소시킬 수 있다. 주도적 특색의 말소는 예로써 말소할 특징을 수동으로 선택하여 또는 반응 진폭이 선택된 분계점이상인 요소를 자동적으로 말소함으로써, 사용자가 실시할 수 있다. 이후, 세포구성성분 및/또는 프로파일 데이터에 본 발명의 군집 분석 방법을 적용한다. 이런 반복적인 미세 구별방법은 주도적 특색으로 인해 확인되지 않는 흥미롭지만 좀더 복잡한 세포구성성분 및/또는 실험적 연관을 확인하는데 사용할 수 있다.
좀더, 일반적으로, 본 발명의 군집 방법은 생물(또는 다른)데이터의 임의 N-차원 배열의 각 차원을 집락하는데 사용할 수 있는데, 여기서 N은 임의의 양수다. 가령, 일부 구체예에서 생물 데이터는 t시간후 섭동m에 따른 세포구성성분i의 변화를 설명하는 수식 v(m) i(t)의 매트릭스(또는 목록)로 구성될 수 있다. 본 발명의 군집 방법은 이런 구체예에서, (1) 세포구성성분 인덱스i, (2) 섭동반응 인덱스m, (3) 시간 인덱스t로 집락하는데 사용할 수 있다. 다른 구체예는 당업자에게 자명하다.
5.4.6. 프로파일 아티팩트의 제거
상기 단락 5.2에서 밝힌 방법을 비롯하여 본 발명의 투영 방법은 또한, 생물프로파일 데이터로부터 원치않는 반응 성분(즉, "아티팩트")을 제거하는데 사용할 수 있다. 이런 프로파일 데이터를 구할 때, 세포구성성분의 측정된 패턴(즉, 측정된 유전자 발현 패턴)을 야기하는 하나 또는 복수의 통제불가능 변수가 종종 발생하는데, 이런 변수는 측정 과정의 아티팩트로서 측정되는 실제 생물상태 또는반응(예, 섭동반응)의 일부가 아니다. 생물프로파일 데이터에서 아티팩트를 만드는 전형적인 변수에는 세포배양 밀도, 온도, 하이브리드형성 온도, 전체 RNA의 농도, 하이브리드형성 약물이 포함되지만, 이들에 국한시키지 않는다.
가령, Di Risi등(1997, Science 278:680-686)은 혐기성 성자에서 호기성 성장으로의 변화(즉, "2단계 이동")동안 맥주 효모군(S. cerevisiae) cDNA 수준의 미소배열을 이용한 측정을 제시한다. 하지만, 2개의 명목상 동일한 세포 배양액중 하나가 다른 것보다 더 많이 2단계 이동으로 진행되는 경우, 이들의 발현 비율은 이동과 연관된 전사변화를 반영하게 된다. 이런 아티팩트는 원하는 실제적인 전사 반응의 측정에 잠재적으로 혼란을 야기할 수 있다. 이들 아티팩트는 데이터에서 패턴을 제거 또는 억제함으로써 "퇴출"시킬 수 있다.
적절한 구체예에서, 데이터상의 아티팩트 패턴이 공지된다. 일반적으로, 아티팩트 패턴은 유전자에 관한 임의 지식 및 이런 아티팩트와 관련된 반응의 상대적 진폭으로부터 측정할 수 있다. 가령, 아티팩트 패턴은 추정 사역 변수의 의도적 섭동 실험으로부터 유래할 수 있다. 다른 구체예에서, 아티팩트 패턴은 아티팩트가 자발적으로 발생하는 컨트롤 실험의 군집 분석으로부터 유래할 수 있다.
이런 적절한 구체예에서, 공지된 아티팩트의 기여는 예로써 프로파일에서 아티팩트 n의 기여에 대한 최적 척도화 계수 αn를 측정함으로써, 측정된 생물프로파일 p={pi}이로부터 삭감한다. 가급적, 계수 αn은 측정된 프로파일 및 아티팩트의 척도화된 기여간 차이의 목적 함수를 최소화시키는 αn값을 측정하여 파악한다. 가령, 계수 αn은 최소제곱 최소화로 측정할 수 있다:
(16)
여기서, An,j은 세포구성성분i의 측정에 대한 아티팩트 n의 진폭이다. wi는 세포구성성분i(즉, pi)의 측정값의 상대적 확실성 또는 유의성에 따라 사용자가 선택할 수 있는 선택적 가중인자다.
아티팩트가 효과적으로 제거된 "깨끗해진"프로파일 P(clean)은 다음의 방정식으로 제시한다:
(17)
여기서, 계수 αn은 상기 방정식 16에서 측정한다.
다른 구체예에서, 프로파일 P는 상이한 증증도의 아티팩트 시그니처(signature) As={As,i}의 라이브러리와 비교할 수 있다. 이런 구체예에서, "깨끗해진"프로파일은 프로파일 P에 대하여 최대 유사성을 갖는 특정 주형을 측정하기 위한 라이브러리와의 패턴 대합으로 측정한다. 이런 구체예에서, 깨끗해진 프로파일은 { p}`_{i } ^{(clean) } = { p}_{k} - { A}_{s,i }로 제시하는데, 시그니처 As는 다음의 방정식으로 측정한다:
(18)
5.4.7. 투영된 적정 곡선
많은 경우에, 특정 섭동에 대한 복수등급의 노출수준에서 생물계의 반응을 측정하는 것이 바람직하다. 가령, 약물 발견 공정동안 예로써 약물 또는 약물 후보의 치료요법적 및/또는 독성효과를 측정하기 위하여, 특정 약물 또는 약물 후보에 대한 등급화된 노출 수준에서 생물계의 반응을 측정하는 것이 바람직하다. 다른 경우에, 하기 단락 5.8에서 밝힌 방법으로 특정 유전자 또는 유전자 산물의 등급화된 발현의 생물계에 대한 효과를 측정하는 것이 바람직하다. 가령, 도13은 상이한 농도의 약물 FK506에 대한 맥주 효모균(S.cerevisiae)의 최대 반응 유전자의 전사반응을 보여준다(Marton et al., 1998, Nature MEdecine 4:1293-1301).
본 발명의 방법은 또한, 이런 "적정 반응"을 공통-변동 세포구성성분 세트(예, 융전자세트)로 투영하는데 사용할 수 있다. 이런 "적정 반응"은 일반적으로, 특정 섭동에 대한 등급화된 노출 수준(즉, 도13에서 설명한 바와 같이 약물 FK506에 대한 등급화된 노출수준)에서 복수의 생물반응으로 구성된다. 따라서, 투영된 적정 반응은 단락 5.2와 5.3에서 전술한 임의 방법에 따라 각 수준의 섭동(예, 각 농도의 약물)에서 수득된 생물반응 프로파일을 투영하여 만든다. 가령, 도15는 도13의 투영된 반응 곡선을 보여준다. 상기 특정 실례에서, 투영은 정규화로 각 유전자세트의 반응을 평균하여 각 기본 유전자세트의 길이 동일해지도록 하는 것으로 구성된다(상기 단락 5.3 참조)
적절한 구체예에서, 투영된 적정 반응은 예로써 섭동의 일부 모델 함수에 대하여 핏팅(fitting)함으로써 보간(interpolation)한다. 가령, 도14에서 투영된 적정 반응 곡선은 상기 방정식 3에서 보인 형태의 힐 함수에 핏팅한다. 하지만, 당분야에 공지된 다른 함수를 사용할 수도 있다. 대안으로, 투영된 적정 반응 곡선은 스플라인-핏팅으로 보간할 수 있는데, 여기서 각 투영된 적정 곡선은 하기 방정식에서와 같이 측정된 데이터값을 곱한 적합한 스플라인 보간 함수 S의 결과를 합산하여 보간한다:
(19)
변수 "u"는 섭동(예, 약물 노출 수준 또는 농도)의 임의값을 의미하는데, 여기서 투영된 적정 반응 P가 평가된다. 변수 "ul"는 섭동의 개별값을 의미하는데, 여기서 반응 프로파일이 실제로 측정된다. 일반적으로, S는 투영된 적정 반응 함수에서 예상되는 구조에 특이적인 폭을 보유하는 제한적 서포트의 평활 또는 조각별 연속 함수다. 보간되는 투영된 적정 반응 함수가 점근값의 10%에서 90%로 상승하는 거리에서 폭은 선택할 수 있다. S 함수에는 선형과 가우스 보간이 포함된다.
특정 유전자세트가 다른 유전자세트보다 FK506의 상이한 임계 농도(방정식 3에서 u0로 제시)에서 상이한 거듭곱 로우(law) 지수(방정식 3에서 n)로 반응한다는 것은 도13에 비하여 도14에서 보인 투영된 유전자세트 적정 반응으로부터 명확하게 알 수 있다. 도15는 각 유전자세트에 대하여 유도된 2개의 힐 계수(방정식 3에서 u0과 n)의 카이-제곱된 플랏(plot) 값의 형세를 보여준다. 상기 플랏은 도14에 나타난 가시적 구별이 통계학적으로 유의성이 있다는 것을 보여준다. 특히, 힐 계수는 가파른 양 곡선(즉, 거듭곱 로우 지수 n, 수직축) 및 임계농도(u0, 수평축)에서 구별된다.
예상한대로, 적정 반응 프로파일상의 상이한 유전자세트는 생물학적으로 유의성이 있다. 가령, 맥주 효모균(S.cerevisiae)의 유전자 결손 균주에 FK506을 이용하는 지지 실험 및 유저낮 조절 서열 영역의 분석은 FK506에서 맥주 효모균(S. cerevisiae)의 적정 반응에 대하여 도14에서 확인된 유전자세트는 생물학적 동질성을 보유한다(Marton et al., supra). 이런 동질성은 도14에서 주해로 표시한다. 따라서, 상이한 유전자세트의 적정 움직임 또한, 상이한 생물경로를 암시한다. 가령, 도14에서 "GCN4-의존성" 표지된 곡선은 전사인자 Gcn4를 통해 반응이 매개되는 유전자세트의 반응인 반면(Marton et al., supra), 도14에서 "GCN4-독립성" 표지된 좀더 완만한 반응은 칼시누린 또는 Gcn4 단백질의 존재에 상관없이 FK506에 반응하는 유전자세트다.
다른 경우에, 시간 간격동안 생물샘플의 상태를 측정하는 것이 바람직하다. 특히, 특정 생물공정 또는 효과와 연관하여 시간추이에 따라 변화되는 샘플의 생물상태를 모니터하는 것이 바람직하다. 이런 생물공정에는 유사분열, 감수분열, 세포분열이 포함되지만, 이들에 국한되지 않는다. 시간 간격동안 발생하는 샘플의 생물상태 변화에는 또한, 하나이상 약물에 대한 노출 또는 환경 변화와 같은 특정 섭동에 따른 변화가 포함된다. 시간 과정동안 샘플의 생물상태 변화를 모니터하는 것은 관심있는 생물공정 또는 효과가 발생하는 시간 간격의 복수 측정으로 구성될 수 있다. 본 발명의 방법은 생물상태의 이런 "시간 측정"을 공통-변동 세포구성성분 세트(예, 유전자세트)로 투영하는데 사용할 수 있다. 특히, 적정 반응을 측정하기 위하여 전술한 방법에 따라 이런 시간 측정을 분석할 수 있다는 것은 당업자에게 자명하다.
5.4.8. 미소배열에서 유전자세트의 용도
본 발명의 유전자세트는 또한, 미소배열의 설계와 제조에 유용하다. 특히, 본 발명의 방법을 이용하여, 당업자는 미소배열에 대한 프로브를 선택하고 제조할 수 있는데, 여기서 미소배열은 게놈상의 일부 유전자와 유전자세트상의 일부 유전자에 대한 특이적인 개별 프로브를 보유한다. 이런 구체예에서, 비소배열은 하나이상의 개별 프로브를 보유하는데, 이들 각각은 원하는 수의 유전자세트에 대한 단일 유전자세트상의 발현 산물(예, mRNA, cDNA 또는 cRNA)과 하이브리드를 형성한다. 가령, 세포 또는 미생물의 전체 게놈에서 전체 또는 대부분 유전자의 발현 변화는 전체 또는 대부분의 게놈 유전자를 대표하는 유전자세트 그룹의 발현을 측정함으로써, 단일 미소배열에서 대용물을 이용하여 모니터할 수 있다. 이런 미소배열은 선택된 프로브를 이용하여 하기 단락5.7에서 밝힌 바대로 제조하는데, 이는 본 발명의 일부다.
가령, 적절한 구체예에서 유전자세트는 상기 단락에서 전술한 바와 같이 관심있는 생물샘플(예, 세포 또는 미생물)에 대하여 확인한다. 일반적으로, 확인되고 미소배열에 프로브가 나타나는 유전자세트의 수는 50 내지 1,000개다. 하지만, 미소배열에 프로브가 나타나는 유전자세트의 수는 바람직하게는 500개미만, 좀더 바람직하게는 100 내지 500개, 좀더 바람직하게는 100 내지 200개다. 이후, 확인된 유전자세트로부터 대표 유전자를 선별하고, 각 대표 유전자의 핵산 서열과 하이브리드를 형성하는 프로브를 만든다. 바람직하게는, 10개정도의 대표 유전자를 각유전자세트로부터 선별한다. 좀더 바람직하게는, 미소배열에 프로브가 나타나는 각 유전자세트로부터 선택되는 대표 유전자의 수는 5개, 4개, 3개 또는 2개다. 가장 바람직하게는, 미소배열에 하나 또는 복수의 프로브가 나타나는 각 유전자세트로부터 1개의 대표 유전자를 선별한다. 하나이상의 유전자세트, 바람직하게는 대부분 또는 전체 유전자세트에서, 미소배열에 프로브가 나타나는 대표 유전자의 수는 유전자세트상의 전체 유전자수보다 적다. 적절한 구체예에서, 미소배열에 프로브가 나타나는 대표 유전자는 세포 또는 미생물에서 확인된 모든 유전자세트로부터 선별한다. 다른 구체예에서, 미소배열에 프로브가 나타나는 대표 유전자는 관심있는 하나 또는 복수의 특정 생물상태와 연관하는 유전자세트에서만 선별한다. 가령, 특정 구체예에서 대표 유전자는 특정 질병 또는 질병상태와 연관된 유전자세트로부터 선별한다. 다른 구체예에서, 대표 유전자는 발현 변화가 약물 또는 치료요법적 효능과 연관된 유전자세트 또는 발현 변화가 약물 저항성 또는 치료요법적 실패와 연관하는 유전자세트를 비롯하여 발현 변화가 특정 약물 또는 특정 요법과 연관하는 유전자세트로부터 선별한다. 따라서, 특정 구체예에서 미소배열에 프로브가 존재하는 유전자세트의 전체 수는 1,000개미만, 500개미만, 200개미만, 100개미만, 50개미만, 30개미만, 20개미만 또는 10개미만이 된다.
5.5 컴퓨터 실행
전술한 소단락에서 밝힌 분석 방법은 다음의 컴퓨터 시스템 및 다음의 프로그램과 방법을 이용하여 실시한다. 도5는 본 발명에 따른 분석 방법의 실행에 적합한 전형적인 컴퓨터 시스템을 보여준다. 컴퓨터 시스템(501)은 내부 요소로 구성되고, 외부 요소에 연결되어 있다. 이 컴퓨터 시스템의 내부 요소에는 주기억장치(503)와 상호연결된 프로세서(502)가 포함된다. 가령, 컴퓨터 시스템(501)은 200 MHz이상의 Intel Pentium-기반의 프로세서 및 32MB이상의 주기억장치로 구성될 수 있다.
외부 요소에는 대량 저장 장치(504)가 포함된다. 이런 대량 저장장치에는 하나 또는 복수의 하드디스크(일반적으로 프로세서와 메모리와 함께 포장되어 있음)다. 이런 하드디스크는 1GB이상의 저장용량을 보유한다. 다른 외부요소에는 사용자 인터페이스 장치(505)가 포함되는데, 이는 모니터와 키보드, 지시 장치(506)(예, "마우스") 또는 다른 그래픽 입력 장치들이다. 프린트 장치(508) 또한, 컴퓨터(501)에 부착할 수 있다.
일반적으로, 컴퓨터 시스템(501)은 또한, 네트워크 링크(507)에 연결되어 있는데, 이것은 다른 로컬 컴퓨터 시스템, 리모트 컴퓨터 시스템 또는 광역 통신 네트워크(예, 인터넷)와의 Ethernet 연결의 일부가 된다. 이런 네트워크 연결을 통해 컴퓨터 시스템(501)은 다른 컴퓨터 시스템과 자료와 작업을 공유할 수 있다.
이런 시스템의 동작동안 몇 가지 소프트웨어가 메모리로 로드(load)되는데, 상기 소프트웨어는 당업자에게는 표준이고, 본 발명에는 특별하다. 이들 소프트웨어는 총체적으로 본 발명의 방법에 따라 컴퓨터 시스템을 작동시킨다. 이들 소프트웨어는 대량 저장 장치(504)에 일반적으로 저장된다. 소프트웨어 요소(510)는 운영체제를 제공하는데, 이것은 컴퓨터 시스템(501)과 이의 네트워크 상호연결의관리를 담당한다. 이런 운영체제로는 Microsoft WindowsTM계열, 예를 들면, Windows 95, Windows 98, Windows NT를 사용할 수 있다. 소프트웨어 요소(511)는 이 운영체제상에서 존재하는 공통언어와 기능을 제공하여, 본 발명에 특이적 방법을 실행하기 위한 프로그램을 보조한다. 본 발명의 분석방법을 프로그램하기 위하여 다수의 저급 또는 고급 컴퓨터 언어를 사용할 수 있다. 명령은 실행시간동안 해독되거나 또는 다른 언어로 번역된다. 적절한 언어에는 C, C++ 또는 JAVA?등이 포함된다. 가장 적절하게는, 본 발명의 방법은 수학적 소프트웨어 패키지로 프로그램하고, 상기 소프트웨어 패키지는 사용되는 대수를 비롯하여 방정식의 입력과 고-수준의 처리가 가능하여 사용자는 자유롭게 개별 방정식 또는 대수를 프로그램할 수 있다. 이런 패키지에는 Matlab(Mathworks(Natick, MA)), MAthematica(Wolfram Research (Champaign, Illinois)) 또는 S-Plus(Math Soft (Seattle, Washington))가 포함된다.
이런 컴퓨터 시스템을 사용하여 본 발명의 방법을 실행하는 전형적인 예에서, 사용자는 먼저 발현 프로파일을 컴퓨터 시스템(501)으로 로드한다. 이들 데이터는 모니터(505)와 키보드(506)로부터, 네트워크 커넥션(507)으로 연결된 다른 컴퓨터 시스템으로부터, 또는 이동가능한 저장매체(예, CD-ROM 또는 플로피디스크)로부터 사용자가 직접 입력할 수 있다. 그 다음, 사용자는 공통-변동 유전자를 유전자세트로 군집하는 단계를 실행하는 발현 프로파일 분석 소프트웨어(512)를 실행시킨다.
다른 구체예에서, 사용자는 먼저 발현 프로파일 데이터를 컴퓨터 시스템으로 로드한다. 유전자세트 프로파일 정의는 저장매체(504)로부터 또는 네트워크(507)를 통해 원거리 컴퓨터(가급적, 동적 유전자세트 데이터베이스 시스템)로부터 메모리로 로드된다. 그 다음, 사용자는 발현 프로파일을 투영된 발현 프로파일로 변환시키는 단계를 실행하는 투영 소프트웨어(512)를 실행시킨다.
또 다른 구체예에서, 사용자는 먼저 투영된 프로파일을 메모리로 로드한다. 이후, 사용자는 참고 프로파일을 메모리로 로드한다. 그 다음, 사용자는 프로파일을 객관적으로 비교하는 단계를 실시하는 비교 소프트웨어를 실행시킨다.
본 발명은 또한, 유전자세트 정의, 투영, 투영된 프로파일의 분석을 위한 소프트웨어를 제공한다. 소프트웨어의 한 구체예에는 본 발명의 군집 분석을 실행할 수 있는 모듈이 포함된다. 상기 모듈은 컴퓨터 시스템의 프로세서가 (a) 섭동 실험 데이터 목록을 접수하고; (b) 유전자세트 선별을 위한 기준을 접수하고; (c) 섭동데이터를 군집 트리로 집락하고; (d) 군집 트리 및 유전자세트 선별을 위한 기준에 기초하여 유전자세트를 정의하는 단계를 실행하도록 할 수 있다.
소프트웨어의 다른 구체예에는 컴퓨터 시스템의 프로세서가 (a) 유전자세트 정의를 접수하고; (b) 발현 프로파일을 접수하고; (c) 유전자세트 정의 및 발현 프로파일에 기초하여 투영된 프로파일을 계산하는 단계를 실행하도록 함으로써, 투영 공정을 실시할 수 있는 모듈이 포함된다.
소프트웨어의 또 다른 구체예에는 컴퓨터 시스템의 프로세서가 (a) 생물샘플의 투영된 프로파일을 접수하고; (b) 참고 프로파일을 접수하고; (c) 두 프로파일간 유사성의 객관적으로 측량하는 단계를 실행하도록 함으로써, 비교 공정을 실시할 수 있는 모듈이 포함된다.
본 발명의 분석 방법을 실행하기 위한 대체 시스템과 방법은 당업자에게 자명하고, 첨부된 청구항에 포함된다. 특히, 첨부된 청구항에는 당업자가 쉽게 인식할 수 있는 본 발명의 방법을 실행하는 대체 프로그램이 포함된다.
5.6 분석 키트 실행
적절한 구체예에서, 본 발명의 방법은 생물샘플의 반응 또는 상태를 측정하기 위한 키트를 사용하여 실시할 수 있다. 이런 키트에는 하기 단락에서 밝힌 미소배열이 포함된다. 이런 키트에 포함되는 미소배열에는 고형상, 예를 들면 프로브가 하이브리드를 형성하는 또는 고형상의 공지된 위치에 속박되는 면으로 구성된다. 가급적, 이들 프로브는 공지된 상이한 서열의 핵산으로 구성되는데, 핵산 각각은 RNA 종류 또는 이로부터 유래된 cDNA 종류와 하이브리드를 형성할 수 있다. 특히, 본 발명에 키트에 포함되는 프로브는 상기 키트로 활성을 측정하는 특정 단백질에 대한 섭동에 반응하여 증가 또는 감소하는 것으로 공지된 RNA 종류로부터 유래된 핵산 서열과 특이적으로 하이브리드를 형성할 수 있다. 가급적, 본 발명의 키트에 포함되는 프로브에는 상기 키트로 활성을 측정하는 특정 단백질에 대한 섭동에 반응하여 증가되지 않는 RNA 종류와 하이브리드를 형성하는 핵산이 배제된다.
적절한 구체예에서, 본 발명의 키트에는 전술한 데이터베이스와 같은 유전자세트 정의 데이터베이스 또는 네트워크로 연결된 원거리 컴퓨터로부터 전술한 데이터를 이용할 수 있는 접근 인증장치가 포함된다
다른 적절한 구체예에서, 본 발명의 키트에는 발현 프로파일 투영 및 상기 소단락에서 전술하고 도5에서 예시한 것과 같은 컴퓨터 시스템의 메모리로 로드될 수 있는 소프트웨어가 포함된다. 본 발명의 키트에 포함되는 발현 프로파일 분석 소프트웨어는 전술한 발현 프로파일 분석 소프트웨어(512)와 사실상 동일하다.
본 발명의 분석방법을 실시하기 위한 다른 키트는 당업자에게 자명하고 첨부된 청구항에 포함된다. 특히, 첨부된 청구항에 본 발명에 따른 방법을 실행하기 위한 대안 프로그램이 포함된다는 것은 당업자에게 자명하다.
5.7. 생물반응을 결정하는 방법
본 발명은 다양한 섭동에 대한 생물계의 반응을 측정하는 능력을 활용한다. 본 단락은 생물반응을 측정하기 위한 일부 방법을 제공한다. 당업자가 인지하는 바와 같이, 본 발명은 생물계의 반응을 측정하기 위한 다음의 특정 방법에 국한되지 않는다.
5.7.1 DNA 배열을 이용한 전사체 분석
본 발명은 유전자 발현 프로파일의 분석에 특히 유용하다. 본 발명의 한 측면은 유전자 발현의 상관관계에 기초하여 공통-조절 유전자를 정의하는 방법을 제공한다. 본 발명의 일부 구체예는 유전자의 전사비율을 측정하는데 기초한다.
전사비율은 다음의 소단락에서 밝힌 핵산 또는 핵산유사 프로브의 배열과의 하이브리드형성 기술, 또는 이후의 소단락에서 밝힌 다른 유전자 발현 기술로 측정할 수 있다. 측정에 상관없이, 결과는 DNA 발현비율을 반영하는 RNA 함량 비율(RNA 분해비율에서 차이부재)을 나타내는 수치를 포함하는 전사체 또는 반응데이터의 절대적 또는 상대적 양이다.
본 발명의 다른 구체예에서, 전사상태를 제외한 다른 생물상태의 측면(예, 번역상태, 활성상태 또는 혼합측면)을 측정할 수 있다.
가급적, 전사상태의 측정은 본 소단락에서 밝힌 전사체 배열과 하이브리드 형성으로 실시한다. 전사상태 측정의 다른 방법은 이후의 소단락에서 제시한다.
적절한 구체예에서, 본 발명은 "전사체 배열"(이후 "미소배열")을 이용한다. 전사체 배열은 생물샘플에서 전사상태를 분석하는데, 특히 관심있는 약물에 대한 등급화된 노출 수준 또는 관심있는 생물경로에 대한 등급화된 섭동에서 생물샘플의 전사상태를 측정하는데 사용할 수 있다.
한 구체예에서, 전사체 배열은 세포에 존재하는 mRNA 전사체(예, 전체 세포 mRNA로부터 합성된 형광표지된 cDNA)를 나타내는 검출가능 폴리뉴클레오티드를 미소배열과 하이브리드를 형성함으로써 생산한다. 미소배열은 세포 또는 미생물의 게놈에서 다수 유전자, 바람직하게는 대부분 또는 거의 모든 유전자의 산물에 대한 결합(예, 하이브리드형성)부위의 배열이 정렬되어 있는 면이다. 미소배열은 다수의 방법으로 만들 수 있는데, 이중 몇몇 방법을 하기에 설명한다. 생산방법에 상관없이, 미소배열은 특정 특성을 공유한다. 배열은 재생가능하기 때문에, 임의 배열의 다중 사본 생산이 가능하고 상호간의 비교가 용이하다. 가급적, 미소배열은 결합(예, 핵산 하이브리드형성)조건하에 안정한 물질로 구성된다. 가급적, 미소배열은 5㎠ 내지 25㎠, 바람직하게는 12 내지 13㎠의 소형이다. 하지만, 대량의 상이한 프로브를 동시에 평가하기 위해서 더 큰 배열과 더 작은 배열을 설계할 수 있다.
가급적, 미소배열상의 임의 결합부위 또는 독특한 결합부위집합은 세포 또는 미생물의 단일 유전자 또는 유전자 전사체의 산물(예, 특이적 mRNA 또는 이로부터 유래된 특이적인 cDNA)과 특이적으로 결합(예, 하이브리드형성)한다. 하지만, 전술한 바와 같이 전체적으로 다른 관련된 또는 유사한 서열은 임의 결합부위와 교차 하이브리드형성된다.
본 발명의 방법에서 사용되는 미소배열 및 조성물에는 하나 또는 복수의 검사 프로브가 포함되는데, 이들 각각은 탐지되는 RNA 또는 DNA의 서열과 상보적인 폴리뉴클레오티드 서열을 보유한다. 가급적, 각 프로브는 상이한 핵산 서열을 보유하고, 배열의 고체면에서 각 프로브의 위치는 공지된다. 실제로, 미소배열은 바람직하게는 접근가능한 배열이고, 좀더 바람직하게는 위치적으로 접근가능한 배열이다. 좀더 구체적으로, 배열의 각 프로브는 고체면상의 공지되고 사전결정된 위치에 존재하여, 각 프로브의 실체(즉, 서열)는 배열(즉, 지지체 또는 표면)상의 위치로부터 결정할 수 있다.
바람직하게는, 미소배열에서 프로브의 밀도는 100개이상의 상이한(즉, 비-상동한)프로브/1㎠이다. 좀더 바람직하게는, 본 발명의 방법에서 사용되는 미소배열은 550개이상의 프로브/1㎠, 1,000개이상의 프로브/1㎠, 1,500개이상의 프로브/1㎠ 또는 2,000개이상의 프로브/1㎠이다. 특히 적절한 구체예에서, 미소배열은 고밀도 배열이고, 바람직하게는 2,500개이상의 상이한 프로브/1㎠ 밀도를 보유한다. 따라서, 본 발명에서 사용되는 미소배열은 바람직하게는 2,500개이상, 5,000개이상,10,000개이상, 15,000개이상, 20,000이상, 25,000개이상, 50,000개이상 또는 55,000개이상의 상이한(즉, 비-상동한) 프로브를 보유한다.
한 구체예에서, 미소배열은 각 위치가 유전자에 의해 인코드되는 산물(즉, mRNA 또는 이로부터 유래된 cDNA)에 대한 개별 결합부위를 나타내는 배열(즉, 매트릭스)다. 가령, 다양한 구체예에서 본 발명의 미소배열은 50%미만의 미생물 게놈 유전자에 의해 인코드되는 산물에 대한 결합부위로 구성될 수 있다. 대안으로, 본 발명의 미소배열은 50%이상, 75%이상, 85%이상, 90%이상, 95%이상, 99%이상 또는 100%의 미생물 게놈 유전자에 의해 인코드되는 산물, 또는 전술한 확률의 게놈 유전자를 포함하는 유전자세트의 대표 유전자에 대한 결합부위를 보유할 수 있다. 다른 구체예에서, 본 발명의 미소배열은 미생물 세포에 의해 발현되는 유전자중 50%미만, 50%이상, 75%이상, 85%이상, 90%이상, 95%이상, 99%이상 또는 100%에 의해 인코드되는 유전자 산물, 또는 전술한 확률의 게놈 유전자를 포함하는 유전자세트의 대표 유전자에 대한 결합부위를 보유할 수 있다. 결합부위는 특정 RNA가 특이적으로 하이브리드를 형성할 수 있는 DNA 또는 DNA 유사체일 수 있다. DNA 또는 DNA 유사체는 합성 저량체, 전장 cDNA, 비전장 cDNA 또는 이들의 단편일 수 있다.
가급적, 본 발명에 사용되는 미소배열은 관심있는 약물의 작용과 관련된 또는 관심있는 생물경로상의 하나 또는 복수 유전자에 대한 결합부위(즉, 프로브)를 보유한다. "유전자"는 미생물, 또는 다중세포 미생물의 일부 세포에서 메신저 RNA가 전사되는 50개이상, 75 또는 99개 아미노산 잔기의 서열을 인코드하는 개방해독틀(ORF)로 동정할 수 있다. 게놈에서 유전장의 수는 세포 또는 미생물에 의해 발현되는 mRNA 수로부터 추정하거나 또는 공지된 게놈 영역을 외삽하여 추정할 수 있다. 관심있는 미생물의 게놈의 서열분석이 완료되면, ORF 수를 측정할 수 있고, mRNA 코딩 영역은 DNA 서열 분석으로 확인할 수 있다. 가령, 맥주 효모균(Saccharomyces cerevisiae)의 유전자가 전장서열이 분석되었는데, 99개이상의 아미노산 잔기 서열을 인코드하는 ORF는 6275개인 것으로 보고되고 있다. 이들 ORF의 분석에서, 단백질 산물을 인코드할 가능성이 있는 ORF는 5,885개인 것으로 밝혀졌다(Goffeau et al., 1996, Science 274:546-567). 대조적으로, 사람 게놈은 105개의 유전자를 보유하고 있는 것으로 평가된다.
인지하는 바와 같이, 세포의 RNA에 상보적인 cDNA를 만들고, 하이브리드조건하에 이를 미소배열과 하이브리드형성시키는 경우, 임의 특정 유전자에 상응하는 배열 위치와의 하이브리드형성 수준은 세포에서 유전자로부터 전사된 mRNA의 우세를 반영한다. 가령, 전체 세포 mRNA에 상보적인 검출가능하게 표지된(예, 형광단으로) cDNA가 미소배열과 하이브리드를 형성하는 경우, 세포에서 전사되지 않는 유전자에 상응하는(즉, 유전자의 산물과 특이적으로 결합할 수 있는) 배열 위치에는 신호(예, 형광신호)가 거의 존재하지 않고, 인코드된 mRNA가 우세한 유전자는 상대적으로 강한 신호를 보유한다.
적절한 구체예에서, 2개의 상이한 세포로부터 cDNA는 미소배열의 결합위치와 하이브리드를 형성한다. 약물 반응의 경우에, 한 생물샘플은 약물에 노출시키고, 동일 종류의 다른 생물샘플은 약물에 노출시키지 않는다. 경로반응의 경우에, 한세포는 경로섭동에 노출시키고, 동일 종류의 다른 세포는 경로섭동에 노출시키지 않는다. 2개의 세포형 각각으로부터 유래된 cDNA는 상이하게 표지하여 이들을 구별한다. 한 구체예에서, 약물 처리한(또는 경로섭동에 노출시킨) 세포의 cDNA는 플루오레세인-표지된 dNTP를 이용하여 합성하고, 약물에 노출되지 않은 제 2 세포의 cDNA는 로다민-표지된 dNTP를 이용하여 합성한다. 2가지 cDNA를 혼합하고 미소배열에 하이브리드형성시키는 경우, 각 cDNA 세트로부터 신호의 상대적 강도는 배열상의 각 위치로부터 결정하고, 특정 mRNA 함량의 상대적 차이를 탐지한다.
전술한 실례에서, 약물-처리한(또는 경로섭동한)세포의 cDNA는 형광단을 자극하는 경우 녹색 형광을 나타내고, 처리하지 않은 세포의 cDNA는 적색 형광을 나타낸다. 결과로, 약물 처리가 세포에서 특정 mRNA의 상대적 함량에 대한 직접적인 또는 간접적인 효과를 보이지 않는 경우, mRNA는 양 세포에서 동등하게 우세하고, 역전사후 적색-표지된 cDNA와 녹색-표지된 cDNA는 동등하게 우세하게 된다. 미소배열과 하이브리드를 형성할 때, RNA 종류에 대한 결합부위는 양 형광단에 특이적인 파장(합쳐지면 갈색으로 보임)을 방출한다. 대조적으로, 약물-노출 세포가 세포에서 mRNA의 우세를 직접적으로 또는 간접적으로 증가시키는 약물로 처리되는 경우, 녹색 대 적색 형광의 비율이 증가하게 된다. 약물이 mRNA 우세를 감소시키는 경우, 비율이 감소하게 된다.
유전자 발현에서 변형을 한정하기 위한 2색 형광 표지화 및 탐지 전략의 사용은 Shena et al., 1995, Quantitative monitoring of gene expression patterns with a complementary DNA microarray, Science 270:467-470에서 제시한다. 2개의상이한 형광단으로 표지된 cDNA를 사용할 때의 장점은 2개의 세포상태에서 각 배열된 유전자에 상응하는 mRNA 수준의 직접적이고 내부적인 조절 비교를 실시할 수 있다고 실험조건(예, 하이브리드형성 조건)에서 경미한 차이로 인한 변이가 이후의 분석에 영향을 주지 않는다는 점이다. 하지만, 인지하는 바와 같이 단일 세포의 cDNA를 사용하고, 약물-처리된 또는 경로-섭동된 세포 및 처리하지 않은 세포에서 특정 mRNA의 절대량을 비교하는 것도 가능하다.
5.7.1.1. 미소배열을 위한 핵산 준비
상기에서 언급한 것과 같이, 특정 동종 cDNA가 특이적으로 하이브리드하는 "결합 부위"는 주로 결합 부위에 부착된 핵산 또는 핵산 유도체이다. 한 구체예에서, 미소 배열의 결합 부위는 유기체 게놈에 있는 각 유전자의 적어도 일부에 상응하는 DNA 폴리뉴클레오티드이다. 이와 같은 DNA는 게놈 DNA, cDNA(e.g., by RT-PCR) 또는 클론된 서열에서 유전자 단편의 폴리메라제 사슬 연장 반응(PCR)으로 얻을 수 있다. PCR 프라이머는 유전자 또는 cDNA의 공지의 서열을 기초로 하여 선별되는데, 이와 같은 선별로 독특한 단편이 증폭되게 된다(가령, 미소배열에 있는 임의 다른 단편과 동일한 서열 10개 염기이상 공유하지 않는 단편). 컴퓨터 프로그램은 요구되는 특이성 및 최적의 증폭 성질을 가지는 프라이머를 고안하는데 유용하다(Oligo version 5.0(National Biosciences)). 매우 긴 유전자에 상응하는 결합 부위인 경우에, 유전자의 3' 단부 부근에 있는 단편을 증폭시키는 것이 바람직한데, oligo-dT 프라임된 cDNA 프로브가 미소배열에 하이브리드되는 경우에, 전체 길이의 프로브보다는 효과가 적다. 일반적으로 미소배열상에 있는 각 유전자 단편은 50bp 내지 50,000bp, 적절하게는 50bp 내지 2000bp, 가장 일반적으로는 100bp 내지 1000bp가 되고, 통상적으로는 길이가 300bp 내지 800bp가 된다. PCR 방법은 Innis et al. eds., 1990, PCR Protocols: A Guide to Methods and Applications, Academic Press Inc., San Diego, CA에 잘 알려져 있고, 설명되어 있다. 컴퓨터 제어된 로봇 시스템이 핵산을 분리하고 증폭시키는데 유용하다.
본 발명의 방법 및 조성물에 이용되는 미소배열을 위한 폴리뉴클레오티드 프로브를 만드는데 이용할 수 있는 또 다른 적절한 수단은 N-인산염 또는 포스포라미디트 화학물질(Froehler et al., 1986, Nucleic Acid Res. 14:5399-5407; McBride et al., 1983, Tetrahedron Lett. 24:246-248)을 이용하는 등의 방법으로 합성 폴리뉴클레오티드 또는 올리고뉴클레오티드를 합성하는 것이다. 합성 서열은 일반적으로 길이가 4 내지 500개 염기가 되고, 좀더 적절하게는 길이가 15 내지 500개 염기, 또는 적절하게는 4 내지 200개 염기가 되고, 가장 적절하게는 15 내지 150개 염기가 되고, 또한, 20 내지 50개 염기가 적절할 수 있다. 더 짧은 올리고뉴클레오티드 프로브를 이용하는 구체예의 경우에, 길이가 40개미만의 합성 핵산 서열이 바람직하고, 적절하게는 길이가 15 내지 30개미만의 것이 바람직하다. 더 긴 올리고뉴클레오티드 프로브를 이용하는 구체예의 경우에, 합성 핵산 서열은 길이가 40 내지 80개, 적절하게는 길이가 40 내지 70개, 좀더 적절하게는 길이가 50 내지 60개가된다. 일부 구체예에서, 합성 핵산에는 이노신과 같은 비-천연 염기가 포함되나 이에 국한시키지는 않는다. 상기에서 설명한 것과 같이, 하이브리드 반응을 위한 결합부위로 핵산 유사체가 이용될 수 있다. 적절한 핵산 유사체는 펩티드 핵산이다(Egholm et al., 1993, Nature 363:566-568; U.S.Patent No. 5,539,083).
또 다른 구체예에서, 결합(하이브리드반응) 부위는 플라스미드, 유전자의 파아지 클론, cDNAs(발현된 서열 태그) 또는 삽입물질(Nguyen et al., 1995, Differential gene expression in the murine thymus assayed by quantitative hybridization of arrayed cDNA clones, Genomics 29:207-209)로 만들 수 있다. 또 다른 구체예에서, 결합 부위의 폴리뉴클레오티드는 RNA이다.
5.7.1.2. 고형 표면에 핵산의 결합
핵산 또는 유사체는 고형 서포트에 부착되는데, 이때 서포트는 유리, 플라스틱(가령, 폴리프로필렌, 나일론), 폴리아크릴아미드, 나트로셀룰로오즈 또는 다른 물질이 될 수 있다. 표면에 핵산을 부착시키는 적절한 방법은 Schena et al., 1995, Quantitative monitoring of gene expression patterns with a complementary DNA microarray, Science 270:467-470에서 설명하고 있는 것과 같이, 유리판에 프린트하는 방법이다. 이 방법은 cDNA 미소 배열을 준비하는데 특히 유용하다(DeRisi et al., 1996, Use of a cDNA microarray to analyze gene expression paterns in human cancer, Nature Genetics 14:457-460; Shalon et al., 1996, A DNA microarray system for analyzing complex DNA samples using two-color fluorescent probe hybridization, Genome Res. 6:639-645; and Schena et al., 1995, Paralle이 human genome analysis; microarray-based expression of 1000 genes, Proc. Natl. Acad. Sci. USA 93:10539-11286).
미소배열을 만드는데 적절한 두 번째 방법으로는 고밀도 올리고뉴클레오티드배열을 만드는 것이다. in situ 합성을 위한 사진 평판 기술을 이용하여 표면상에 정해진 위치에서 한정된 서열에 상보적인 수천개 올리고뉴클레오티드를 포함하는 배열을 생산하는 기술이 공지되어 있다(Fodor et al., 1991, Light-directed spatially addressable parallel chemical synthesis, Science 251:767-773; Pease et al., 1994, Light-directed oligonucleotide arrays for rapid DNA sequence analysis, Proc. NA시. Acad. Sci. USA 91:5022-5026; Lockhart et al., 1996, Expression monitoring by hybridization to high-density oligonucleotide arrays, Nature Biotech 14:1675; U.S. Patent Nos. 5,578,832; 5,556,752; and 5,510,270) 또는 한정된 올리고뉴클레오티드의 침착 및 신속한 합성을 위한 다른 방법도 공지되어 있다(Blanchard et al., 1996, High-Density Oligonucleotide arrays, Biosensors & Bioelectronics 11:687-90). 이와 같은 방법을 이용하는 경우에, 공지 서열의 올리고뉴클레오티드(가령, 20-mers)는 유도화된 유리 슬라이드와 같은 표면상에서 직접적으로 합성될 수 있다. 통상, 생성된 배열상에는 각 표적 전사체에 대한 다수의 프로브가 포함된다. 올리고뉴클레오티드 프로브는 또 다르게 접합된 mRNAs를 감지하거나 다양한 형태의 기준으로 이용되는데 선택된다.
배열을 만드는 다른 적절한 방법은 U.S. patent application Serial No. 09/008,120 filed on January 16, 1998, "Chemical Synthesis Using Solvent Microdroplets"에서 설명하는 것과 같은 고형 상에서 바로 올리고뉴클레오티드를 합성할 수 있는 잉크젯 프린트 공정을 이용하는 것이다.
미소배열을 만드는 또 다른 방법으로 마스킹((Maskos and Southern, 1992,Nuc. Acids Res. 20:1679-1684))을 이용할 수 있다. 예를 들면, 임의 형태의 배열을 나일론 하이브리드 반응 막에 도트 블랏(Sambrook et al., Molecular Cloning-A Laboratory Manual (2nd Ed.), Vol. 1-3, Cold Spring Harbor Laboratory, Cold Spring Harbor, New York, 1989)을 이용할 수 있는데, 이들은 당업자가 잘 인지할 수 있는 기술이며, 하이브리드 반응 용적이 작아야 하기 때문에, 매우 작은 배열이 바람직하다.
특허 적절한 구체예에서, 본 발명에 이용된 미소배열은 Blanchard International Patent Publication No. WO 98/41531, September 24, 1998; Blanchard et al., 1996, Biosensors and Bioeletronics 11:687-690; Blanchard, 1998, in Svnthetic DNA Arrays in Genetic Engineering, Vol. 20, J.K. Setlow, ed., Plenum Press, New York at pages 111-123에서 설명하고 있는 방법 및 시스템을 이용하는 것과 같이, 올리고뉴클레오티드 합성을 위한 잉크 제트 프린트 장치를 이용하여 만드는 것이다. 특이적인 것으로는 이와 같은 미소배열에 있는 올리고뉴클레오티드 프로브는 프로필렌 카르보네이트와 같은 높은 표면 장력 용매 작응 방물 배열에 각 프로브 서열을 위한 개별 뉴클레오티드를 연속적으로 침착시켜 적절하게 합성할 수 있다. 작은 방울은 매우 작은 양으로(100pL 또는 50pL 그 이하), 미소배열상에 서로 분리되어 있어(소수성 도메인), 배열 요소의 위치를 한정시키는 원형 표면 장력 웰을 만든다.
5.7.1.3. 폴리뉴클레오티드 분자의 표적
전체 폴리 (A)+RNA를 만드는 방법은 Sambrook et al.,에 잘 공지되어 있다.한 구체예에서, RNA는 본 발명에서 원하는 다양한 형태의 세포로부터 구아니디움 티오시아네이트 용혈 및 CsCl 원심분리를 이용하여 추출할 수 있다(Chirgwin et al., 1979, Biochemistry 18:5294-5299). Polu(A)+RNA는 oligo-dT 셀롤로오즈로 선별하여 선택될 수 있다(Sambrook et al., supra). 원하는 세포에는 야생형 세포, 약물에 노출된 야생형 세포, 변형된 세포, 약물에 노출된 변형된 세포가 포함된다.
라벨된 cDNA는 mRNA에서 oligo dT 프라임된 또는 무작위-프라임된 역전사에 의해 준비할 수 있는데, 이들 모두다 당분야에 공지된 것이다(Klug and Berger 1987, Methods Enzymol. 152:316-325). 역전사는 감지가능한 라벨, 대부분 바람직하게는 형광으로 라벨된 dNTP것과 같은 라벨이 결합된 dNTP 존재하에서 실행된다. 또는, 분리된 mRNA는 라벨된 dNTP 존재하에서 이중 가닥 cDNA in vitro 전사에 의해 합성된 안티센스 RNA로 전환될 수 있다(Lockhart et al., 1996, Expression monitoring by hybridization to high-density oligonucleotie arrays, Nature Biotech. 14:1675). 또 다른 구체예에서, cDNA 또는 RNA 프로브는 감지가능한 라벨이 없는 상태에서 합성될 수 있고, 바리오티닐화된 dNTO 또는 rNTP를 연속적으로 결합시키거나 이와 유사한 수단(가령, 바이오틴 포살렌 유도체를 RNA에 광-교차 결합)을 이용하고, 라벨된 스트렙타아비딘(가령, 피코에리틴-공액된 스트렙타아비딘) 또는 이의 등가체를 첨가하는 것으로 실행할 수 있다.
형광-라벨된 프로브를 이용하는 경우에, 많은 적절한 형광단이 공지되어 있는데, 예를 들면, 플로오르레신, 리사민, 피코에리틴, 로다민(Perkin ElmerCetus), Cy2, Cy3, Cy3.5, Cy5, Cy5.5, Cy7, FluorX(Amersham) 및 기타(Kricka, 1992, Nonisotopic DNA Probe Techniques, Academic Press San Diego, CA)등이 포함된다. 형광단 쌍은 이들을 용이하게 구별할 수 있도록 하기 위해 별개의 발광 스펙트럼을 가지는 것을 선택해야 한다는 것은 인지할 수 있을 것이다.
또 다른 구체예에서, 플로레신 라벨 이외의 다른 라벨을 이용할 수 있다. 예를 들면, 방사능 활성 라벨 또는 별개의 발광 스펙트럼을 가지는 방사능 활성 라벨 쌍을 이용할 수 있다(Zhao et al., 1995, High density cDNA filter analysis: a novel approach for large-scale, quantitative analysis of gene expression, Gene 156:207; Pietu et al., 1996, Novel gene transcripts preferentially expressed in human muscles revealed by quantitative hybridization of a high density cDNA array, Genome Res. 6:492). 그러나, 방사능 활성 입자의 분산 때문에, 넓은 공간의 결합 부위에 필요한 경우에는 방사능동위원소를 이용하는 것이 다소 부적절할 수 있다.
한 구체예에서, 라벨된 cDNA는 0.5mM dGTP, dATP and dCTP plus 0.1mM dTTP, 및 형광 데옥시리보뉴클레오티드(0.1mM Rhodamine 110 UTP (Perken Elmer Cetus) 또는 0.1mM Cy3 dUTP(Amersham) + 역전사효소(SuperScriptTMII, LTI Inc.)를 포함하는 혼합물에 42℃에서 60min동안 배양시키면 합성할 수 있다.
5.7.1.4. 미소배열에 하이브리드 반응
핵산 하이브리드 반응 및 세척 조건을 최적으로 선택하여, 특정 배열 부위에프로브가 "특이적으로 결합" 또는 "특이적으로 하이브리드"되도록 하는데, 예를 들면, 프로브는 상보적인 핵산 서열을 가지는 서열 배열 부위에는 하이브리드하여 결합하나, 비상보적인 핵산 서열을 가지는 부위에는 하이브리드되지 않도록 하는 것이다. 여기에서 이용된 것과 같이, 한 개의 폴리뉴클레오티드 서열은 다른 것에 상보적인 것으로 간주하는데, 짧은 폴리뉴클레오티드가 25염기이하인 경우에 표준 염기쌍 규칙을 이용하면 미스매치가 없고, 짧은 폴리뉴클레오티드가 25개 염기보다 긴 경우에, 5% 정도의 미스매치가 있다. 적절하게는, 폴리뉴클레오티드는 완전하게 상보적이다(미스매치가 없다). 특정 하이브리드 조건에 따라 네거티브 기준을 포함하는 하이브리드 검사를 실행함으로써 특이적인 하이브리드 반응을 얻을 수 있다는 것을 쉽게 설명할 수 있다(Shalon et al., supra, and Chee et al., supra).
적절한 하이브리드 조건은 길이(가령, 올리고내 폴리뉴클레오티드가 200개 염기 이상), 라벨된 프로브 및 고정된 폴리뉴클레오티드 또는 올리고뉴클레오티드 타입(가령, RNA, DNA, PNA)에 따라 달라진다. 핵산에 대한 특정 하이브리드 조건(가령, 엄밀도)에 대한 일반적인 변수는 Sambrook et al.,Ausubel et al., 1987, Current Protocols in Molecular Biology, Greene Publishing and Wiley-Interscience, New York에서 설명하고 있다. S초둠 et al.,의 cDNA 미소배열을 이용하는 경우에, 전형적인 하이브리드 반응 조건은 5 X SSC + 0.2% SDS에서 65℃ 4시간 하이브리드 반응 후에, 낮은 엄밀도의 세척 완충액(1 X SSC plus 0.2% SDS)에서 25℃에서 세척하고, 이어서, 높은 엄밀도의 세척 완충액(0.1 X SSc plus 0.2% SDS)에서 10분간 25℃에서 세척한다(Shena et al., 1996, Proc. Natl. Acad. Sci.USA, 93:10614). 유용한 하이브리드 반응 조건은 Tijessen, 1993, Hybridization With Nucleic Acid Probes, Elsevier Science Publishers B.V. and Kricka, 1992, Nonisotopic DNA Probe Techniques, Academic Press San Diego, CA에서 제공하고 있다.
5.7.1.5. 시그널 감지 및 데이터 분석
형광으로 라벨된 프로브를 이용할 경우에, 전사 배열 각 부위에 형광 발광은 공촛점 레이저 현미경으로 스캔하여 적절하게 감지할 수 있다. 한 구체예에서, 적절한 여기 라인을 이용한 별도 스캔을 이용된 두 개 형광단 각각에서 실행한다. 또는, 두 개 형광단에 특이적인 파장에서 동시에 견본 조명을 허용하는 레이저를 이용하여, 두 개 형광단으로부터 발생되는 발광을 동시에 분석할 수 있다(Shalon et al., 1996, A DNA microarray system for analyzing complex DNA samples using two-color fluorescent probe hybridization, Genome Research 6:639-645). 적절한 구체예에서, 배열은 컴퓨터 제어된 X-Y 단계를 가지는 레이저 형광 스캐너를 이용하여, 각 배열을 스캔한다. 두 개 형광단의 연속적인 여기는 멀티-라인, 혼합된 가스 레이저를 이용하여 실행할 수 있는데, 방출된 광은 파장으로 분리시키고, 두 개의 광멀티플라이어 튜브를 이용하여 감지할 수 있다. 형광 레이저 스캐닝 장치는 Schena et al., 1996, Genome Res. 6:639-645에서 설명하고 있다. 또는, Ferguson et al., 1996, Nature Biotech. 14:1681-1684에서 설명하는 광섬유-번들을 이용하여 동시에 여러 부위에서 풍부한 양의 mRNA를 모니터할 수 있다.
시그널이 레코드되고, 적절한 구체예에 따르면, 컴퓨터를 이용하여 시그널을12비트 아날로그 내지 디지털 보오드를 이용하여 분석하였다. 한 구체예에서, 스캔된 이미지는 그래픽 프로그램(Hijaak Graphics Suite)을 이용하여, 얼룩을 제거하고, 상 그리딩 프로그램을 이용하여 분석함으로써, 각 부위에 있는 파장에서 평균 하이브리드반응 스프레드쉬트를 만들 수 있다. 필요한 경우에, 두 개 형광 채널사이에 겹쳐지는 것에 대해 실험적으로 결정된 교정을 할 수 있을 것이다. 전사 배열상에 있는 임의 특정 하이브리드 반응 부위의 경우에, 두 개 형광단의 방출 비율을 계산할 수 있을 것이다. 그 비율은 동족 유전자의 절대적인 발현 수준과는 무관하나 유전자 발현이 약물 투여, 유전자 결손 또는 임의 다른 테스트된 사건에 의해 상당히 조절될 경우에 유용하다.
본 발명의 방법에 따르면, 두 가지 생물학적 샘플내에 있는 mRNA의 상대적인 양의 풍부함을 섭동으로 기록하고, 그 크기를 결정하거나(예를 들면, 풍부함은 테스트된 2가지 mRNA에서 상이하다) 또는 섭동되지 않는다고 기록할 수 있다(가령, 관련된 양이 동일하다). 다양한 구체예에서, 2가지 RNA 소스의 차이가 약 25%(한 소스에서 RNA는 다른 소스에 있는 것보다 25% 풍부)인 경우, 적절하게는 50%, 좀더 바람직하게는 2배, 3배, 5배 정도되는 경우 섭동으로 기록한다.
적절하게는 양성 또는 음성으로 섭동을 확인하는 것에 추가하여, 섭동의 크기를 결정하는 것이 유익하다. 이는 상기에서 설명하는 것과 같이 상이한 라벨링에 이용되는 두 개 형광단의 방출 비율을 계산하거나 당업자에 이미 공지된 유사한 방법으로 실행할 수 있다.
5.7.2. 경로 반응 및 유전자세트
본 발명의 한 구체예에서, 유전자세트는 특정 경로에 섭동의 유전자 발현 반응을 관찰함으로써 결정할 수 있다. 본 발명의 한 구체예에서, 관심이 가는 생물학적 샘플의 전사 상태를 반영하는 전사 배열은 관심이 되는 다른 샘플에 mRNA에 각 상응하는 두 개의 다르게 라벨된 프로브 혼합물을 미소배열에 하이브리드하면 만들 수 있다. 본 발명에 따라, 두 개 샘플은 동일한 타입으로 예를 들면 동일한 종 및 균주가 되나, 매우 적은 수(1, 2, 3, 4, 5, 바람직하게는 1개)의 장소도 유전학적으로 다를 수 있다. 또는, 동일한 유전자이나 이들의 환경적인 역사가 다를 수 있다(약물에 노출된 경우와 약물에 노출이 안된 경우). 유전자 발현이 매우 연관이 있는 경우의 유전자를 유전자세트에 속한다고 할 수 있다.
본 발명의 한 특징에서, 상당수의 섭동에 반응하여 유전자 발현 변화를 이용하여 유전자 세트를 정의하는 목적의 집단 나무를 작제한다. 적절하게는, 섭동은 상이한 경로를 표적으로 해야 한다. 경로 섭동에 반응하는 발현 반응을 측정하기 위해, 생물학적 샘플이 원하는 경로의 등급 섭동에 속하게 된다. 섭동에 노출된 샘플과 섭동에 노출안된 샘플을 이용하여 전사 배열을 작제하는데, 이를 이용하여 변형된 발현을 가지는 mRNA를 발견하고, 섭동에 노출된 것으로 인하여 변동 정도를 찾을 수 있다. 따라서, 섭동-반응 관계를 얻을 수 있다.
등급이 있는 약물 노출 및 등급이 있는 섭동 기준 변수의 수준 밀도는 개별 유전자 반응에서 기울기 및 구조에 따라 달라지는데, 반응에서 가파른 부분의 경사가 클수록 반응을 결정하는데 필요한 수준이 더 조밀해야 한다.
또한, 실험 오차를 줄이기 위해, 2색의 차등 하이브리드 실험에서 형광 라벨을 뒤집어 개별 유전자 또는 배열 스팟 위치에 특정한 성향을 줄여야 한다. 환언하면, 측정될 두 개의 세포로부터 한 개 표지된 mRNA의 유전자 발현을 우선 측정하고(예를 들면, 처음 형광단을 가지는 섭동된 세포와 제 2 형광단을 가지는 섭동안된 세포의 표지화), 그 다음 역으로 라벨된 두 개 세포의 유전자 발현을 측정하는 것이다(예를 들면, 섭동된 세포는 제 2 형광단으로, 섭동안된 세포는 제 1 형광단으로 표지화). 노출 수준 및 섭동 기준 변수 수준에 대해 여러번 측정함으로써 추가 실험 오차 기준을 얻을 수 있다. 적절히 샘플링을 함으로써 이용된 스플라인 함수의 폭을 선택함으로써 교환하여, 반응 기능에서 구조의 상실 및 오차의 평균사이에 반응 데이터를 삽입할 수 있다.
5.7.3. 등급 섭동 반응 데이터의 측정
등급 반응 데이터를 측정하기 위해, 세포는 등급 수준의 약물, 이해관계에 있는 약물 후보 또는 다른 섭동의 등급 강도에 노출시킨다. 세포를 in vitro에서 생장시키면, 화합물은 통상 영양 배지상에 첨가된다. 이스트의 경우에, 초기 로그 상에서 이스트를 수확하는데, 그 이유는 발현 패턴이 이시기에 수확시점에 대해 상대적으로 감응성이 떨어지기 때문이다. 몇 가지 수준의 약물 또는 다른 화합물을 첨가하였다. 이용된 특정 수준은 약물의 특정 성질에 따라 달라지지만, 통상적으로 1ng/㎖ 내지 100㎎/㎖가 된다. 일부 경우에는 약물이 DMSO와 같은 용매에 용해될 수 있다.
약물에 노출된 세포 및 약물에 노출안된 세포를 이용하여 전사 배열을 만들 수 있는데, 이를 측정하여, 약물에 노출로 인하여 다른 발현 패턴을 나타내는 mRNA를 찾을 수 있다. 따라서, 약물 반응을 수득할 수 있다.
경로 반응의 측정이 유사하기 때문에, 약물 반응의 경우는 두 가지 색의 차등 하이브리드 반응에서 역으로 라벨된 것으로 측정할 수 있다. 또한, 이용된 약물 노출 수준은 약물 반응 부위를 신속하게 변화시킴으로써 충분한 해상도를 제공하는 것이 바람직하다(예를 들면 약물 노출의 약 10배 수준으로).
5.7.4. 전사 상태 측정을 위한 다른 방법
세포의 전사 상태는 당분야에 공지된 다른 유전자 발현 기술을 이용하여 측정할 수 있다. 이와 같은 몇 가지 기술은 전기영동 분석을 위한 한정된 복합성을 가지는 제한 단편 푸울(pool)을 만드는데, 이와 같은 방법은 파아징 프라이머와 이중 제한 효소 처리를 복합시키는 것이나(European Patent O 534858 Al, filed September 24, 1992, by Zabeau et al) 또는 한정된 mRNA 말단에 가장 근접한 부위를 가지는 제한 단편을 선택하는 방법(Prashar et al., 1996, Proc. Natl. Acad. Sci. USA 93:659-663). 다른 방법으로 통계학적으로 샘플 cDNA 푸울, 예를 들면, 각 cDNA를 확인하기 위해 다중 cDNA에서 충분한 염기(가령, 20-50개 염기)를 서열분석하거나 또는 정해진 mRNA 말단에 대해 공지의 위치에서 형성된 짧은 태그(가령 9-10개 염기)를 서열분석하는 것이다(Velculescu, 1995, Science 270:484-487).
5.7.5. 다른 생물학적 상태의 측정
본 발명의 다양한 구체예에서, 전사 상태이외의 다른 생물학적 상태 예를 들면 해독 상태, 활성 상태 또는 혼합 상태를 측정하여 약물 및 경로 반응을 얻을 수 있다. 이 단락에서는 이와 같은 구체예에 대해 상세히 설명하기로 한다.
5.7.5.1. 해독 상태 측정에 기초한 구체예
해독 상태 측정은 몇 가지 방법에 따라 실행할 수 있다. 예를 들면, 단백질의 전체 게놈 모니터(가령, "proteome", Goffeau et al., supra)은 미소배열을 만들어 실행할 수 있는데, 이때 결합 부위는 고정된 적절하게는 세포 게놈에 의해 인코드된 다수의 단백질 종에 특이적인 단클론성 항체로 구성된다. 적절하게는 항체는 인코드된 단백질의 실제 분취물에 존재하거나 이해관계가 있는 약물의 작용에 대해 관련된 단백질에 존재한다. 단클론성 항체를 만드는 방법은 잘 공지되어 있다(Harlow and Lane 1988, Antibodies: A Laboratory Manual, Cold Spring Harbor, New York). 적절한 구체예에서, 단클론 항체는 세포의 게놈 서열에 기초하여 고안된 합성 펩티드 단편에 대해 생성된다. 이와 같은 항체 배열을 이용하여, 세포에 있는 단백질은 배열과 접촉하게되고, 공지의 방법으로 이와 같은 결합을 검사하게 된다.
또는, 단백질은 2차원 겔 전기영동 시스템에 의해 분리될 수 있다. 2차원 겔 전기영동은 당분야에 잘 공지된 것으로 일반적으로 제1차원에서 등전 포커싱을 한 후에, 2차원상에서 SDS-PAGE 겔 전기영동을 하는 것이다(Hames et al., 1990, Gel Electrophoresis of Proteins: A Practical Approach, IRL Press, New York; Shevchenko et al., 1996, Proc. Nat'l Acad. Sci. USA 93:1440-1445; Sagliocco et al., 1996, Yeast 12:1519-1533; Lander, 1996, Science 274:536-539). 전기영동 결과를 다양한 기술을 이용하여 분석하는데, 예를 들면, 질량 스펙트럼 기술, 다클론성 항체 및 단클론성 항체를 이용한 웨스턴 블랏 및 이뮤노블랏 분석, 내부및 N-말단 마이크로-서열화등을 이용하여 분석할 수 있다. 이와 같은 기술을 이용하여, 주어진 생리학적 조건 가령, 약물에 노출된 세포(이스트), 특정 유전자의 결손 또는 과다 발현으로 인하여 변형된 세포등의 조건하에서 생성된 모든 단백질의 실질적인 분취물을 확인하는 것이 가능하다.
5.7.5.2. 다른 생물학적 상태에 기초한 구체예
본 발명의 방법은 유전자 발현 프로파일과 관련된 구체예로 설명할 수 있지만, 본 발명의 방법은 모니터할 임의 세포 구성에 이용할 수 있다.
특히, 약물 작용과 같은 섭동의 특징과 관련된 단백질의 활성을 측정할 수 있는데, 본 발명의 구체예는 이와 같은 관찰에 기초한 것이다. 활성 측정은 측징을 조사할 특정 활성에 적합한 임의 기능적인, 생화학적인 또는 물리적인 수단을 이용하여 실행할 수 있다. 활성이 화학적인 형질변환과 연관이 있는 경우에, 세포 단백질은 천연 물질과 접촉시키고, 형질변환 비율을 측정한다. 활성이 다량체 단위와 관련이 있다면, 예를 들어 활성화된 DNA 결합 복합체와 DNA가 연합된 단위와 관련이 있는 경우에, 전사된 mRNA 양과 같은 연합된 단백질의 양 또는 부차적인 양을 측정할 수 있다. 또한, 기능적인 활성만 공지된 경우에, 예를 들면 세포 순환 기준에서 기능 수행을 관찰할 수 있을 것이다. 그러나, 단백질 활성에서의 변화는 본 발명의 전술한 방법으로 분석한 반응 데이터를 만든다.
또 다른 무제한적인 구체예에서, 반응 데이터는 세포의 혼합된 생물학적 상태로 구성된다. 반응 데이터는 특정 mRNA 양에서의 변화, 특정 단백질 양에서의 변화, 특정 단백질 활성에서의 변화로 구성될 수 있다.
5.8. 세포 상태를 검사하는 방법
본 발명의 한 특징은 다양한 세포 성분을 분석하는 방법을 제공하는 것이다. 본 발명의 방법은 세포 상태를 검사하도록 고안된 섭동에 대한 생물학적 샘플의 반응을 분석하는데 유용하다. 이 단락에서는 세포 상태를 점검하는 방법을 설명한다.
다양한 세포 수준에서 세포 상태의 표적화된 섭동 방법이 당분야에 상당히 많이 공지되어 있으며, 응용하고 있다. 특정 세포 성분(가령, 유전자 발현, RNA 농도, 단백질 양, 단백질 활성등)을 특이적으로 표적화시키고, 변형시킬 수 있는 임의 방법(가령, 등급의 증가 또는 활성의 증가 또는 감소 및 저해등을 이용)을 세포 단계 섭동을 실행하는데 이용할 수 있다. 세포구성성분의 제어가능한 변형은 변형된 세포구성성분에서 유래된 세포 단계를 제어하여 혼란시킬 수 있다. 적절한 변형 방법은 각 다양한 세포 성분을 개별적으로 표적화시킬 수 있고, 가장 적절하게는 이와 같은 세포 성분의 실제 부분을 표적화시킬 수 있다.
다음의 방법은 이전에 설명한 것과 같이 본 발명의 방법 단계에서 이용된 세포 반응을 발생시키는 세포 상태 섭동을 만들고, 세포 구성분을 변형시키는데 이용할 수 있는 실시예이다. 본 발명은 세포 상태에 대한 조절가능한 섭동을 만드는 다른 방법에 적용시킬 수 있고, 특히 세포 상태가 기인된 세포 성분에 대해 조절가능한 섭동을 만드는 방법에 적용시킬 수 있다.
세포 상태 섭동은 적절하게는 임의 유기체에서 유도된 임의 세포 형 세포에서 만들어지는데, 이는 게놈 또는 발현된 서열 정보를 이용하고, 이 방법은 특정유전자의 발현을 제어 변형시킬 수 있도록 한다. 게놈 서열화는 몇가지 사람을 포함하는 진핵 유기체, 선충류,Arbidopsis및 파리에서 진행중에 있다. 적절한 구체예에서, 본 발명은 이스트를 이용하여 실시하고 있는데, 맥주 효모균(S. cerevisiae)가 가장 적절한데 그 이유는 맥주 효모균(S. cerevisiae)의 전체 게놈의 서열이 이미 결정되었기 때문이다. 또한, 잘 정립된 방법을 이용하여, 이스트 유전자의 발현을 조절 변형시킬 수 있다. 효모중 적절한 균주는 맥주 효모균(S. cerevisiae)으로써, 이스트 게놈 서열이 잘 공지되어 있는데, 예를 들면, 균주 S288C 또는 이의 실질적인 동종 유도체등이 있다(Nature 369, 371-8(1994); P.N.A.S. 92:3809-13(1995); E.M.B.O.J. 13:5795-3809(1994), Science 265:2077-2082(1994); E.M.B.O.J. 15:2031-49(1996). 그러나, 다른 균주를 이용해도 된다. 이스트 균주는 American Type Culture Collection, Manassa, Virgina에서 구할 수 있다. 이스트를 조작하는 표준 기술은 C. Kaiser, S. Michaelis, & A. Mitchell, 1994, Methods in Yeast Genetics: A Cold Spring Harbor Laboratory Course Manual, Cold Spring Harbor Laboratory Press, New York; and Sherman et al., 1986, Methods in Yeast Genetics; A Laboratory Manual, Cold Spring Harbor Laboratory, Cold Spring Harbor New York에서 설명하고 있다.
다음에 설명하는 방법은 적정가능한 발현 시스템의 이용, 트랜스펙션 또는 바이러스 트랜스덕션 시스템의 이용, RNA 양 또는 활성에 직접적인 변형, 단백질 양에 직접적인 변형 및 약물(또는 일반적으로 화학적 부분)의 이용을 포함하는 단백질 활성의 직접적인 변형등이 포함된다.
5.8.1. 적정가능한 발현 시스템
출아 맥주 효모균(Saccharomyces cerevisiae)에 이용할 수 있는 몇 가지 공지의 적정가능한 또는 조절가능한 발현 시스템의 하나를 본 발명에 이용할 수 있다(Mumberg et al., 1994, Regulatable promoter of Saccharomyces cerevisiae: comparison of transcriptional activity and their use for heterologous expression, Nucl. Acids Res. 22:5767-5768). 통상적으로 유전자 발현은 전사 조절과 조절가능한 외생 프로모터에 의해 이의 염색체상에 조절하여 배치시킬 프로모터를 이용하여 조절할 수 있다. 효모에서 가장 흔히 이용하는 조절가능한 프로모터는 GAL1 프로모터(Johnston et al., 1984, Sequences that regulate the divergent GaL1-GaL10 promoter in Saccharomyces cerevisiae, Mol Cell. Biol. 8:1440-1448)이다. GAL1 프로모터는 생장 배지에 포도당 존재하에 강력하게 얻제되고, 포도당의 양이 줄고, 갈락토즈의 양이 증가되면서 이것이 점차 발현 수준이 증가되는 방식으로 변환된다. GLA1 프로모터는 통상적으로 원하는 유전자상에서 발현 조절을 5-100배 범위내에서 실현시킨다.
다른 자주 이용되는 프로모터 시스템에는 MET25 프로모터(Kerjan et al., 1986, Nucleotide sequence of the Saccharomyces cerevisiae MET25 gene, Nucl. Acids. Res. 14:7861-7871)가 있는데 이는 생장 배지에 메티오닌이 없는 경우에 유도되고, CUP1 프로모터는 구리에 의해 유도되는 프로모터이다(Mascorro-Gallardo et al., 1996, Construction of a CUP1 promoter-based vector to modulate gene expression in Saccharomyces cerevisiae, Gene 172:169-170). 이와 같은 모든 프로모터 시스템은 유전자 발현을 조절하여 생장 배지상에 조절가능한 부분의 양을 증가시키면 증가된다.
상기 언급한 발현 시스템의 한 가지 단점은 프로모터 활성 조절(이는 탄소원의 변화, 특정 아미노산의 제거)은 다른 유전자의 발현 수준을 독립적으로 변경시키는 세포 생리에서 다른 변화를 야기시킨다. 최근에 개발된 이스트용 시스템인 Tet 시스템은 상당한 정도로 완화시킨다(Gari et al., 1997, set of vectors with a tetracycline-regulatable promoter system for modulated gene expression in Saccharomyces cerevisiae, Yease 13:837-838). Tet 프로모터는 포유류 발현 시스템에서 채택되는 것(Gossen et al., 1995, Transcriptional activation by tetracyclines in mammalian cells, Proc. Nat. Acad. Sci. USA 89:5547-5551)으로 이는 항생제 테트라사이클린의 농도 또는 구조적으로 관련된 화합물 독시사이클린의 농도에 의해 조절된다. 따라서, 독시사이클린의 없는 경우에, 프로모터는 상당 수준의 발현을 유도하고, 독시사이클린의 양을 증가시키면 프로모터 활성 억제가 증가된다. 중간 수준의 유전자 발현은 중간 수준의 약물을 첨가하여 정체 상태에서 얻을 수 있다. 또한, 프로모터 활성을 최대로 억제시키는 독시사이클린 수준(10 micrograms/㎖)은 야생형 이스트 세포상에 생장 속도에는 상당한 영향을 주지 못한다(Gari et al., 1997, A set of vectors with a tetracycline-regulatable promoter system for modulated gene expression in Saccharomyces cerevisiae, Yeast 13:837-848).
포유류 세포에서, 유전자 발현을 적정하는 몇가지 수단을 이용할 수있다(Spencer, 1996, Creating conditional mutations in mammals, Trends Genet. 12:181-187). 상기에서 언급한 것과 같이, Tet 시스템은 광범위하게 이용되는데, 이의 고유형에서, "전위 시스템"은 독시사이클린을 첨가시키면 전사가 억제되는 것이고, "후위 시스템"은 독시사이클린을 첨가시키면 전사를 자극하는 것이다(Gossen et al., 1995, Proc. Natl. Acad. Sci. USA 89:5547-5551; Hoffmann et al., 1997, Nucl. Acids. Res. 25:1078-1079; Hofmann et al., 1996, 1996, Proc. Natl. Acad. Sci. USA 83:5185-5190; Paulus et al., 1996, Journal of Virology 70:62-67). 포유류 세포에서 또 다른 흔히 이용되는 조절가능한 프로모터 시스템은 Evans 및 그의 동료들이 개발한 엑디손-유도가능한 시스템인데,(No et al., 1996, Ecdysone-inducible gene expression in mammalian cella and transgenic mice, Proc: Nat. Acad. Sci. USA 93:3346-3351), 이때 발현은 배양된 세포에 첨가되는 뮤리스테론의 수준에 따라 조절된다. 마지막으로 발현은 "화학물질에 의해 유도된 이량체화반응(CID)" 시스템(Schreiber, Crabtree이 개발(Belshaw et al., 1996, Controlling protein association and subcellular localization with a synthetic ligand that induces heterodimerization of proteins, Proc. Nat. Acad. Sci. USA 93:4604-4607; Spencer, 1996, Creating conditional mutations in mammals, Trends Genet. 12:181-187))을 이용하여 조절할 수 있고 이스트에서도 이와 유사한 시스템이 존재한다. 이와 같은 시스템에서, 이해관계가 있는 유전자를 CID-반응성 프로모터의 제어하에 두고, 두 개의 다른 하이브리드 단백질을 발현시킬 수 있는 세포에 트랜스펙션시키는데, 다른 단백질중 하나는 FKBP12에 융합된 DNA 결합 도메인으로 구성되어, FK506에 결합한다. 다른 하이브리드 단백질에는 FKBP12에 융합할 수 있는 전사 활성 도메인을 포함한다. CID 유도 분자는 FK1012로, DNA 결합 및 전사 활성 하이브리드 단백질에 동시에 모두 결합할 수 있는 FK506의 동종 이량체 부분이 된다. FK1012 존재하에서, 조절된 유전자의 등급 전사를 활성화시킬 수 있다.
상기에서 설명하는 각 포유류 발현 시스템의 경우에, 당분야에 당업자에 공지된 것과 같이, 이해관계가 있는 유전자는 조절가능한 프로모터하에 두고, 항생제 저항성 유전자와 함께 이와 같은 구조에 정착할 수 있는 플라스미드를 배양된 포유류 세포에 트랜스펙션시킨다. 일반적으로, 플라스미드 DNA는 게놈에 결합되어, 약물 저항성 콜로니를 선별하고, 조절된 유전자의 적절한 발현에 대해 선별한다. 또는, 조절된 유전자를 pCEP4(Invitrogen, Inc)와 같은 에피좀 플라스미드내에 삽입시킬 수 있는데, 이 pCEP4에는 플라스미드 복제를 위해 필요한 입스타인-바 바이러스 성분을 포함하고 있다.
적절한 구체예에서, 적정가능한 발현 시스템 예를 들면 상기에서 설명한 것과 같은 발현 시스템은 이에 상응하는 내생 유전자 또는 유전자 활성이 부족한 세포 또는 유기체로 도입시키는데 이용되는데, 가령 유기체는 내생 유전자가 파괴되었거나 결손된 것을 말한다. 이와 같은 "녹아웃"을 만드는 방법은 당분야에 잘 공지되어 있다(Pettitt et al., 1996, Development 122:4149-4157; Spradling et al., 1995, Proc. Natl. Acad. Sci. USA, 92:10824-10830; Ramircz-Solis et al., 1993, Methods Enzymol. 225:855-878; and Thomas et al., 1987, Cell 51:503-512).
5.8.2. 포유류 세포의 트랜스펙션 시스템
표적 유전자의 트랜스펙션 또는 바이러스 트랜스덕션은 포유류 세포에 생물학적 세포 상태에 조절가능한 섭동을 도입시킬 수 있다. 바람직하게는 표적 유전자의 트랜스펙션 또는 트랜스덕션은 이해관계가 있는 표적 유전자를 원래 발현시킬 수 없는 세포에 이용할 수 있다. 이와 같은 비-발현 세포는 세포에서 특이적으로 변형된 표적 유전자를 정상적으로 발현시킬 수 없는 조직에서 유도된다. 이해관계가 있는 표적 유전자는 많은 포유류 발현 플라스미드 예를 들면, pcDNA3.1+/-시스템(Invitrogen, Inc.) 또는 레트로바이러스 벡터중 하나에 클론시켜, 비-발현 숙주 세포내로 도입시킬수 있다. 표적 유전자를 발현시키는 트랜스펙tus된 또는 트랜스덕션된 세포는 발현 벡터에 의해 인코드된 약물 저항성 표식을 선별하여 분리시킬 수 있다. 유전자 전사 수준은 트랜스펙션 양에 영향을 받는다. 이와 같은 방식으로 표적 유전자의 수준을 다양하게 하는 효과에 대해 조사할 수 있다.
이와 같은 방법을 이용하는 특정 예는 src-족 단백질 티로신 카이나제, lck, T 세포 수용체 활성 세포 상태의 주요 성분을 표적으로 하는 약물을 찾는 것이다(Anderson et al., 1994, Involvement of the Protein tyrosine kinase p56(lck) in T cell signaling and thymocyte development, Adv. Immunol. 56:171-178). 이와 같은 효소의 저해물질은 강력한 면역억제 약물로 관심이 집중되고 있다(Hanke, 1996, Discovery of a Novel, Potent, and src family-selective tyrosine kinase inhibitor, J. Biol Chem 271:695-701). Jurkat T세포주(JcaM1)의 특정 돌연변이는 lck 카이나제를 발현시키지 않는 것에 이용할 수 있다(straus et al., 1992, Genetic evidence for the involvement of the lck tyrosine kinase in signal transduction through the T Cell antigen receptor, Cell 70:585-593). 따라서, 트랜스펙션 또는 트랜스덕션에 의해 Ick 유전자를 JCaM1내로 도입시키면, lck 카이나제에 의해 조절되는 T 세포 활성화 세포 상태의 특정한 섭동을 허용한다는 것이다. 트랜스펙션, 트랜스덕션 및 섭동 수준의 효과는 약량과 관련이 있다. 방법은 섭동된 유전자를 정상적으로 발현시키지 않는 세포에서 단백질 양 및 유전자 발현 섭동을 제공하는데 일반적으로 유용하다.
5.8.3. RNA 양 및 활성을 변형시키는 방법
현재 RNA 양 및 활성을 변형시키는 방법은 3가지 범주, 즉, 리보자임, 안티센스 종 및 RNA 아파타머에 속한다(Good et al., 1997, Gene Therapy 4:45-54). 이와 같은 범주에 세포의 노출 또는 응용으로 RNA 양의 조절가능한 섭동을 허용하다.
리보자임은 RNA 절단 반응을 촉매시킬 수 있는 RNA이다(Cech, 1987, Science 236:1532-1539; PCT International Publication WO 90/11364, published October 4, 1990; Sarver et al., 1990, Science 247:1222-1225). "헤어핀" 및 "헤머헤드" RNA 리보자임은 특정 표적 mRNA를 특이적으로 절단하도록 고안된 것이다. 리보자임 활성을 가지는 짧은 RNA 분자를 고안하는 규칙이 정립되어 있는데, 이는 매우 서열 특이적인 방식으로 다른 RNA 분자를 절단할 수 있고, 다양한 모든 종류의 RNA에 대해 표적이 될 수 있다(Haseloff et al., 1988, Nature 334:585-591; Koizumiet al., 1988, FEBS Lett., 228:228-230; Koizumi et al., 1988, FEBS Lett., 239:285-288). 리보자임 방법은 세포에서 발현을 유도할 수 있는 세포를 작은 RNA 리보자임 분자에 노출시키는 것과 연관이 있다(Grassi and Marini, 1996, Annals of Medicine 28:499-510; Gibson, 1996, Cancer and Metastasis Reviews 15:287-299).
리보자임은 mRNA를 절단하는데 효과적인 방식으로 in vivo에서 규칙적으로 발현되어, 세포에서 mRNA 양을 변형시킨다(Cotten et al., 1989, Ribozyme mediated destruction of RNA in vivo, The EMBO J. 8:3861-3866). 특히, 이전에 규칙에 의해 고안되고, 표준 포스포라미디트 화학물질에 의해 합성된 리보자임 코딩 DNA 서열을 안티코돈 부분 및 tRNA를 인코드하는 유전자 루프에 있는 제한 효소부위에 결찰시키고, 그 다음 당분야에 공지의 방법으로 이해관계가 있는 세포에 형질도입시켜 발현시킨다. 바람직하게는, 유도성 프로모터(가령, 글루코코르티코이드 또는 테트라사이클린 반응 요소)를 이와 같은 구조에 도입시켜, 리보자임 발현을 선택적으로 조절한다. tDNA(가령, tRNAs를 인코드하는 유전자)는 이와 같은 방법에 유용한데, 그 이유는 이들의 크기가 작고, 전사 빈도가 높고, 조직의 다른 부분에 독특하게 발현되기 때문이다. 따라서, 리보자임은 임의 mRNA를 실제 절단하도록 고안되고, 세포는 이와 같은 리보자임 서열을 코딩하는 DNA로 형질변환되어, 조절가능하고 효과적으로 촉매활성을 가지는 리보자임이 발현된다. 따라서, 세포에서 임의 RNA 종류의 양은 변동된다.
또 다른 구체예에서, 표적 RNA(바람직하게는 mRNA)종의 활성 특히 이의 전사활성은 안티센스 핵산을 조절하여 응용시키면 저해를 조절할 수 있다. 여기에서 이용된 "안티센스" 핵산은 표적 RNA의 서열-특이적인 부분(가령, 비-poly A)(이의 해독 개시 부분)에 하이브리드 할 수 있는 핵산을 말하는 것으로 예를 들면, 코딩 또는 넌-코딩 부분에 상보적인 일부 서열에 의해 하이브리드될 수 있다. 본 발명의 안티센스 핵산은 이중 가닥 또는 단일 가닥, RNA 또는 DNA 또는 이의 변형 및 유도체가 되는 올리고뉴클레오티드가 되고, 이는 조절가능한 방식으로 세포에 바로 투여되거나 표적 RNA의 해독을 동요시키는데 충분한 양의 외생에서 도입된 서열에 의해 세포내에서 생산될 수 있는 방식으로 만들어진다.
바람직하게는, 안티센스 핵산은 적어도 6개의 뉴클레오티드이고, 적절하게는 올리고뉴클레오티드(범위가 6 내지 약 200개의 올리고뉴클레오티드)이다. 특정 방식에서, 올리고뉴클레오티드는 적어도 10개 뉴클레오티드, 적어도 15개 뉴클레오티드, 적어도 100개 뉴클레오티드 또는 적어도 200개 뉴클레오티드가 된다. 올리고뉴클레오티드는 DNA 또는 RNA 또는 키메라 혼합물 또는 이의 유도체 또는 변형체, 단일-가닥 또는 이중 가닥이 될 수 있다. 올리고뉴클레오티드는 염기, 당부분, 또는 인산염 부분에서 변형될 수 있다. 올리고뉴클레오티드에는 펩티드, 세포막을 통한 수송을 실행시킬 수 있는 물질과 같은 다른 첨부 기(Letsinger et al., 1989, Proc. Natl. Acad. Sci. U.S.A. 86:6553-6556; Lemaitre et al., 1987, Proc. Natl. Acad. Sci. 84:648-652; PCT Publication No. WO 88/09810, December 15, 1988), 하이브리드반응 자극 절단 물질(Krol et al., 1988, BioTechniques 6:958-976), 삽입 물질(Zon, 1988, Pharm. Res. 5:539-549)등이 포함될 수 있다.
본 발명의 적절한 측면에서, 안티센스 올리고뉴클레오티드는 단일 가닥 DNA로 제공된다. 올리고뉴클레오티드는 당업자에 공지된 구조의 임의 위치에서 변형될 수 있다.
안티센스 올리고뉴클레오티드는 다음에서 선택된 적어도 한 개의 변형된 염기 부분으로 구성될 수 있는데, 예를 들면, 5-플로오르우라실, 5-브로모우라실, 5-클로로우라실, 5-요오드우라실, 하이포산틴, 산틴, 4-아세틸시토신, 5-(카르복시하이드록시메틸)우라실, 5-카르복시메틸아미노메틸-2-티오우리딘, 5-카르복시메틸아미노메틸우라실, 디하이드로우라실, 베타-D-갈락토실퀴노신, 이노신, N6-이소펜틸아데닌, 1-메틸구아닌, 1-메틸이노신, 2,2-디메틸구아닌, 2-메틸아데닌, 2-메틸구아닌, 3-메틸시토신, 5-메틸시토신, N6-아데닌, 7-메틸구아닌, 5-메틸아미노메틸우라실, 5-메톡시아미노메틸-2-티오우라실, 베타-D-만노실뷔노신, 5'-메톡시카르복시메틸우라실, 5-메톡시우라실, 2-메틸티오-N6-이소펜틸아데닌, 우라실-5-옥시아세트산(v), 위부톡신, 슈도우라실, 퀴노신, 2-티오시토신, 5-메틸-2-티오우라실, 2-티오우라실, 4-티오우라실, 5-메틸우라실, 우라실-5-옥시아세트산 메틸에스테르, 우라실-5-옥시아세트산(v), 5-메틸-2-티오우라실, 3-(3-아미노-3-N-2-카르복시프로필)우라실, (acp3)w, 2,6-디아미노퓨린등이 포함되나 이에 국한되지는 않는다.
또 다른 구체예에서, 올리고뉴클레오티드는 아라비노즈, 2-플로로아라비노즈, 실로즈, 헥소즈에서 선택된 당 부분으로 구성된다.
또 다른 구체예에서, 올리고뉴클레오티드는 다음에서 선택된 적어도 하나의 변형된 기본구조로 구성되는데, 포스포로티오네이트, 포스포로디티오네이트, 포스포라미도티오에이트, 포스포라미데이트, 포스포로디아미데이트, 메틸포스포네이트, 알킬 포스포트리에스테르, 포름아세탈 또는 이의 유사체등이 있다.
또 다른 구체예에서, 올리고뉴클레오티드는 2-α아노머 올리고뉴클레오티드가 된다. α-아노머 올리고뉴클레오티드는 상보적인 RNA와 함께 특정 이중 가닥의 하이브리드를 만드는데, 이때 통상의 β단위와는 달리, 가닥은 서로 나란하게 되어 있다(Gautier et al., 1987, Nucl. Acids Res. 15:6625-6641).
올리고뉴클레오티드는 다른 분자, 가령, 펩티드, 하이브리드 반응을 촉진시키는 교차 결합 물질, 수송 물질, 하이브리드 반응을 촉진시키는 절단 물질에 공액될 수 있다.
본 발명의 안티센스 핵산은 표적 RNA 종의 적어도 일부분에 상보적인 서열로 구성된다. 그러나, 절대적인 상보성이 바람직하지만, 반드시 그럴 필요는 없다. 여기에서 언급하는 것과 같은 "RNA의 적어도 일부분에 상보적인" 서열은 RNA에 하이브리드 할 수 있는 능력을 가진 충분한 상보성을 말하며, 안정한 이중 나선을 형성하는 것을 의미하는 것으로, 이중-가닥 안티센스 핵산의 경우에, 이중 나선 DNA의 한 가닥은 테스트하고, 삼중 나선 형성에 대해서도 검사해야 한다. 하이브리드 하는 능력은 안티센스 핵산의 상보성 정도 및 길이에 따라 달라진다. 일반적으로 하이브리드되는 핵산의 길이가 길수록, 표적 RNA와 염기 미스매치가 증가되고, 안정한 이중 나선(경우에 따라서는 삼중나선이 형성됨)이 형성될 수 있다. 당업자는 하이브리드된 복합체의 용융점을 결정하기 위해 표준 과정을 이용하여 미스매치 정도를 확인할 수 있다. 표적 RNA의 해독을 저해하는데 효과적인 안티센스 핵산의양은 표준 검사 기술을 이용하여 결정할 수 있다.
본 발명의 올리고뉴클레오티드는 당업자에 공지된 표준 방법을 이용하여 합성할 수 있는데, 가령, 자동화된 DNA 분석기(가령, Biosearch, Applied Biosystem,에서 이용할 수 있는 것)를 이용하여 분석할 수 있다. 예를 들면, Stein et al.(1988, Nucl. Acids Res. 16:3209)의 방법을 이용하여 포스포로티오에이트 올리고뉴클레오티드를 합성할 수 있고, 조정된 포어 유리 고분자 서포트를 이용하여 메틸포스포네이트 올리고뉴클레오티드를 준비할 수 있다(Sarin et al., 1988, Proc. Natl. Acad. Sci. U.S.A. 85:7448-7451). 또 다른 구체예에서, 올리고뉴클레오티드는 2'-O-메틸리보뉴클레오티드(Inoue et al., 1987, Nucl. Acids Res. 15:6131-6148) 또는 키메라 RNA-DNA 유사체(Inoue et al., 1987, FEBS Lett. 215:327-330)가 될 수 있다.
합성된 안티센스 올리고뉴클레오티드는 조절된 방식으로 세포에 투여될 수 있다. 안티센스 올리고뉴클레오티드는 세포가 취하게 될 조절된 수준에서 세포의 생장 환경에 위치할 수 있다. 당분야에 공지의 방법을 이용하여 안티센스 올리고뉴클레오티드를 섭취하는 것을 지원할 수 있다.
또 다른 구체예에서, 본 발명의 안티센스 핵산은 외생 서열의 전사에 의해 세포내에서 조절되며 발현된다. 예를 들면, 벡터는 세포가 취할 수 있도록 in vivo에 도입되어, 벡터 또는 이의 일부분이 전사되어, 본 발명의 안티센스 핵산(RNA)이 생성된다. 이와 같은 벡터에는 안티센스 핵산을 인코드하는 서열을 포함할 수 있다. 이와 같은 벡터는 전사되어 원하는 안티센스 RNA를 생산하기 위해 전사되는 한 에피좀으로 남아있거나 또는 염색체에 결합되어 있다. 이와 같은 벡터는 당분야에 표준 재조합 DNA 기술에 의해 작제될 수 있다. 벡터는 플라스미드, 바이러스 또는 당분야에 포유류 세포에서 복제 및 발현에 이용될 수 있는 공지의 다른 것이 될 수 있다. 안티센스 RNA를 인코드하는 서열의 발현은 원하는 세포에서 당업자에 공지된 프로모터를 이용하여 실행될 수 있다. 이와 같은 프로모터에는 유도성 프로모터 또는 구성 프로모터가 될 수 있다. 대부분 바람직하게는 프로모터는 안티센스 올리고뉴클레오티드의 조절된 발현을 얻기위해 외생 물질을 투여하여 조절 또는 유도되는 것이 된다. 이와 같은 조절가능한 프로모터에는 Tet 프로모터가 포함된다. 포유류 세포에 이용될 수 있는 프로모터로는 SV40 초기 프로모터 부분(Bernoist and Charmbon, 1981, Nature 290:304-310), Rous sarcoma virus의 3' 긴 말단 반복부분에 포함된 프로모터(Yamamoto et al., 1980, Cell 22:787-797); 허피스 티미딘 카이나제 프로모터(Wagner et al., 1981, Proc. Natl. Acad. Sci. U.S.A. 78:1441-1445); 메탈로티오닌 유전자의 조절 서열(Brinster et al., 1982, Nature 296:39-42)등이 된다.
따라서, 안티센스 핵산은 임의 mRNA 서열을 표적으로 하도록 고안되고, 세포는 이와 같은 안티센스 서열을 코딩하는 핵산에 노출되거나 이로 형질변환되어 안티센스의 효과적이고 조절가능한 양이 발현되도록 한다. 따라서, 세포에서 실제 RNA의 해독 양은 조절가능한 방식으로 동요된다.
마지막으로, 추가 구체예에서, RNA 압터머는 세포에 도입되거나 발현된다. RNA 압타머는 단백질 가령, 해독을 특이적으로 저해시킬 수 있는 Tat 및 Rev RNA(Good et al., 1997, Gene Therapy 4:45-54) 단백질의 특정 RNA 리간드가 된다.
5.8.4. 단백질 양을 변형시키는 방법
단백질의 양을 변형시키는 방법에는 단백질 분해 속도를 변형시키는 것, 항생제를 이용하는 방법(고유 표적 단백질 종의 활성에 영향을 주는 단백질에 결합하는)등이 있다. 단백질 종의 분해 속도를 증가(또는 감소)시키면 종의 양이 감소(또는 증가)된다. 특정 약물에 노출 또는 온도를 상승시켜 이에 반응하여 표적 단백질의 분해 속도를 조절하여 증가시키는 방법을 이용할 수 있다. 예를 들면, 한 가지 방법으로 열에 의해 유도가능한 또는 약물에 의해 유도가능한 N-말단 부분을 이용할 수 있는데, 이때 고온(37℃)에서 신속하게 단백질 분해를 촉진시키는 분해 시그날에 노출된 N-말단 디그론(degron) 부분이 되거나 낮은 온도(23℃)에서 신속한 분해를 방지하는 숨어있는 단백질 부분이 될 수 있다(Dohmen et. al, 1994, Science 263:1273-1276). 이와 같은 예시적인 드그론으로는 Arg-DHFRts뮤린 디하이드로폴레이트 환원효소의 변이체로, N-말단의 Val이 Arg로 치환되고, 66번위치의 Pro는 Leu로 치환된 것이다. 이와 같은 방법에 따라, 표적 단백질 P에 대한 유전자는 당분야에 공지된 표준 유전자 표적 방법으로 융합 단백질 Ub-Arg-DHFRts-P("Ub"는 유비퀴논을 말하는 것이다)을 인코드하는 유전자로 대체될 수 있다(Lodish et al., 1995, Molecular Biology of the Cell, W.H.Freeman and Co., New York, especially chap 8)
N-말단 유비퀴논은 N-말단 데그론에 노출 해독후에 신속하게 절단된다. 저온에서, Arg-DHFRts에 있는 리신은 노출되지 않고, 융합 단백질의 유비퀴톤화 반응이 일어나지 않고, 분해는 느리게 일어나며, 활성 표적 단백질 수준은 높다. 고온에서(메토트렉세이트가 없는 상태에서), ARg-DHFRts의 내부에 있는 리신은 노출되지 않고, 분해는 신속하게 일어나고, 활성 표적 단백질 수준은 낮다. 분해의 열 활성화 반응은 메토트렉세이트 노출에 의해 차단을 조절할 수 있다. 이와 같은 방법은 약물 및 온도 변화와 같은 다른 유도 인자에 반응하는 다른 N-말단 부분에 적용시킬 수 있다.
표적 단백질 양 및 직접 또는 간접적인 이들의 활성은 (중화)항체에 의해 감소될 수 있다. 이와 같은 항체에 조절 노출시킴으로써, 단백질 양/활성이 조절 변형될 수 있다. 예를 들면, 단백질 표면상에 적절한 에피토프에 대한 항체는 양을 감소시키고 따라서, 야생형 응집안된 형과 비교하였을 때 활성이 적은 또는 최소한의 활성을 가지는 야행형 활성형을 형성하여, 표적 단백질 야생형의 활성을 간접적으로 감소시킨다. 또는 항체는 활성부위와의 직접적인 상호작용 또는 활성 부위에 기질의 접근을 차단시켜 단백질 활성을 직접적으로 감소시킨다. 역으로, 특정 경우에, 활성 항체는 단백질 및 이의 활성 부위와 상호작용하여 생성 활성을 증가시킨다. 어떤 경우이건 간에, 항체는 특정 단백질 종에 대해 생성되고, 이들의 효과를 선별할 수 있다. 항체의 효과를 검사하고, 표적 단백질 종 농도 및 활성을 상승 또는 낮추는 항체를 선택할 수 있다. 이와 같은 검사는 당분야에 공지된 표준 방법(이뮤노에세이)에 의해 표적 단백질의 활성 또는 야생형 양의 농도를 결정할수 있다. 야생형의 네트 활성은 표적 단백질의 공지 활성에 적절한 검사 방법을 이용하여 검사할 수 있다.
항체는 다양한 방법으로 세포내에 도입될 수 있는데, 예를 들면, 세포로 항체를 미아크로인젝션(Morgan., 1988, Immunology Today 9:84-86), 세포로 원하는 항체를 인코드하는 하이브리도마 mRNA를 형질도입시키는 것 등이 포함된다(Burke et al., 1984, Cell 36:847-858). 추가로, 재조합 항체를 조작하여, 표적 단백질 에 결합하는 비-임파구 세포 형에서 발현되거나 표적 단백질 활성을 차단시킬 수 있다(Biocca et al., 1995, Trends in Cell Biology 5:248-252). 바람직하게는, 항체의 발현은 Tet 프로모터와 같은 조절가능한 프로모터의 제어하에 있다. 첫 단계는 표적 단백질에 적절한 특이성을 가지는 특정 단클론 항체를 선별하는 것이다. 그 다음 선택된 항체의 가변성 부위를 인코드하는 서열을 다양하게 조작된 항체 포맷 가령, 전체 항체, Fab 단편, Fv 단편, 단일 쇄 Fv 단편(VH및 VL부분은 펩티드 연결물질에 의해 연결될 수 있다)("ScFv"단편), 디아바디(다른 특이성을 가지는 두 개의 연합된 ScFv 단편)등(Hayden et al., 1997, Current Opinion in Immunology 9:210-212)을 포함하는 다양한 항체 포맷에 클론될 수 있다. 다양한 포맷의 세포내에서 발현되는 항체는 이들을 다양한 공지의 세포내 리더 서열(Bradbury et al., 1995, Antibody Engineering (vol.2)(Borrebaeck ed.), pp 295-361 IRL Press)와 융합시켜 발현시킴으로써 세포 구획(가령, 세포질, 핵, 미토콘드리아)으로 표적화시킬 수 있다. 특히, ScFv 포맷은 세포조직 표적화에 적합한 것으로 보인다.
항체 타입에는 다클론성, 단클론성, 키메라, 단일 쇄, Fab 단편 및 Fab 발현 라이브러리가 포함되나 이에 국한되지는 않는다. 당분야에 공지된 다양한 공정을 이용하여 표적 단백질에 대한 다클론성 항체를 생산할 수 있다. 항체 생산을 위해, 표적 단백질로 면역주사하여 면역화시킬 수 있는데, 다양한 숙주 동물은 토끼, 생쥐, 들쥐등과 같은 숙주 동물등이 포함되나 이에 국한되지는 않는다. 다양한 어쥬번트를 이용하여 면역 반응을 증가시킬 수 있는데, 이는 숙주에 따라 달라질 수 있으며, 어쥬번트에는 플루언트(컴플리트 및 인컴플리드), 알루미늄 하이드록시드와 같은 미네랄 겔, 리소레시틴과 같은 표면 활성 물질, 플로닉 폴리올, 폴리안이온, 펩티드, 오일 에멸젼, 디니트로페놀, 및 바실러스 칼메트-구네린(BCG) 과 같은 사람의 어쥬번트 및 코리네박테리움 파르붐등이 포함되나 이에 국한시키지는 않는다.
표적 단백질에 대한 단클론 항체를 준비하기 위해서, 배양물에서 연속 세포주에 의해 항체 분자를 만들 수 있는 임의 기술을 이용할 수 있다. 이와 같은 기술에는 Kohler and Milstein(1975, Nature 256:495-497)이 개발한 하이브리도마 기술; 하망의 B-세포 하이브리도마 기술(Kozbor et al., 1983, Immunology Today 4:72); 사람의 단클론 항체를 생산하기 위한 EBV 하이브리도마 기술(Cole et al., 1985, in Monoclonal Antibodies and Cancer Therapy, Alan R. Liss, Inc. pp77-96). 본 발명의 추가 구체예에서, 단클론 항체는 무균 동물을 이용하는 최신 기술로 만들어질 수 있다(PCT/US90/02545). 발명에 따르면, 사람의 항체를 이용할 수 있고, 사람의 하이브리도마를 이용하여 얻을 수도 있고(Cote et al., 1983,Proc. Natl. Acad. Sci. USA 80:2026-2030) EBV 바이러스로 in vitro에서 사람 B 세포를 형질도입시킬 수 있다(Cole et al., 1985, in Monoclonal Antibodies and Cancer Therapy, Alan R. Liss, Inc., pp. 77-96). 사실, 본 발명에 따르면, "키메라 항체" 생산에서 개발된 기술(Morrison et al., 1984, Proc. Natl. Acad. Sci. USA 81:6851-6855; Neuberger et al., 1984, Nature 312:604-608; Takeda et al., 1985, Nature 314:452-454) 즉, 적절한 생물학적 활성을 가지는 사람 항체 분자에서 얻은 유전자와 함께 표적 단백질에 특이적인 생쥐 항체 분자에서 취한 유전자를 접합시키는 것을 이용할 수 있는데, 이와 같은 항체 또한 본 발명의 범위에 속한다.
또한, 단클론 항체가 유익한 경우에, 이는 파아지 디스플레이 기술을 이용하여, 큰 항체 라이브러리에서 선택될 수 있다(Marks et al., 1992, J. Biol. Chem. 267:16007-16010). 이와 같은 기술을 이용하여, 최고 1012개 다른 항체로 된 라이브러리를 필라멘트성 파아지의 표면에 발현시켜, 단클론 항체의 선별에 이용할 수 있는in vitro면역계에서 "single pot"를 만들 수 있다(Griffiths et al., 1994, EMBO J. 13:3245-3260). 이와 같은 라이브러리에서 항체 선별은 공지의 기술을 이용하여 실시할 수 있는데 예를 들면, 고정된 표적 단백질에 파아지를 접촉시키거나, 표적에 결합된 파아지를 클로닝하거나 원하는 항체 포맷을 발현시키는 적절한 벡터로 다양한 항체 부위를 인코드하는 서열을 서브클로닝시키는 것 등이 포함된다.
본 발명에 따르면, 단일 쇄 항체를 생산하는데 설명되는 기술(U.S. Patent 4,946,778)을 채택하여, 표적 단백질에 특이적인 단일 쇄 항체를 만들 수 있다. 본 발명의 추가 구체예는 Fab 발현 라이브러리를 작제하는데 설명되는 기술을 이용하여(Huse et al., 1989, Science 246:1275-1281), 표적 단백질에 대해 원하는 특이성을 가지는 단클론 Fab 단편을 신속하고 용이하게 확인할 수 있다.
표적 단백질의 이디오타입을 포함하는 임의 항체 단편은 당분야의 통상적인 기술을 이용하여 만들 수 있다. 예를 들면, 이와 같은 단편에는 F(ab')2단편은 항체 분자를 펩신으로 처리하여 만들 수 있고, Fab' 단편은 F(ab')2의 이황화결합 다리를 환원시켜 만들고, Fab 단편은 파파인 및 환원 물질로 항체 분자를 처리하여 만들 수 있고, Fv 단편 등이 있다.
항체를 생산하는데 있어서, 원하는 항체의 선별은 공지의 기술을 이용한다(ELISA(Hershkowitz, 1987, Nature 329:219-222)). 표적 단백질에 특이적인 항체를 선별하기 위해, 발생된 하이브리도마 또는 표적 단백질에 결합할 수 있는 항체의 파아지 디스플레이 항체 라이브러리를 검사할 수 있다
5.8.5. 단백질 활성을 변형시키는 방법
단백질 활성을 직접 변형시키는 방법에는 우성 네거티브 돌연변이, 특정 약물(본 출원의 개념에서 이용되는 약물) 또는 화학적인 부분 및 이전에 논의된 항체를 이용하는 것이 포함된다.
우성 네거티브 돌연변이는 내생 유전자 또는 돌연변이 외생 유전자에 대한돌연변이로써, 세포에서 발현되었을 때, 표적된 단백질 종의 활성을 파괴시킨다. 표적된 단백질의 구조 및 활성에 따라서, 표적 활성을 파괴시키는 우성 네거티브 돌연변이를 작제하는 적절한 전략을 선택하는 일반적인 룰이 있다(Perlmutter et al., 1996, Current Opinion in Immunology 8:285-290). 활성 단량체를 형성하는 경우에, 비활성 형이 과다 발현되면 표적 단백질의 네트 활성을 상당히 감소시키는데 충분한 천연 기질 또는 리간드에 경쟁이 야기된다. 이와 같은 과다 발현은 돌연변이 유전자와 증가된 활성을 가지는 프로모터(적절하게는 조절가능한 또는 유도성 프로모터)와 연합시켜 얻을 수 있다. 또는, 활성 부위 잔기에 변화를 만들어 실제 표적 리간드와 비가역적인 연합이 일어날 수 있다. 이는 활성 부위 세린 잔기를 치환시켜 특정 티로신 카이나제를 이용하여 얻을 수 있다(Nocka et al., 1990, The EMBO J. 9:1805-1813). 활성 다중형의 경우에, 몇 가지 전략이 우성 네거티브 돌연변이를 선별하는 것을 유도할 수 있다. DNA 결합 도메인은 DNA 결합 단위에서 제거할 수 있거나 활성 단위에서 활성 도메인을 제거할 수 있다. 또한 이와 같은 경우에, DNA 결합 도메인 단위는 활성 단위와 연합을 시키는 도메인 없이 발현된다. 따라서, DNA 결합 부위는 임의 가능한 활성 발현없이 묶이게 된다. 특정 타입의 단위는 정상적으로 활성을 하는 동안에 모양 변화가 있는데, 정확한 단위 발현으로 생성된 복합체는 비활성이 된다. 추가 예에서, 세포 기작 예를 들면 세포 이동, 유사분열 과정, 세포 구조등에 관계하는 단백질은 일반적으로 몇 가지 타입의 많은 소단위가 연합된 것이다. 이와 같은 구조는 흔히 구조적 결합을 가지는 단량체를 포함시켜 파괴에 감응성이 매우 높다. 이와 같은 돌연변이 단량체는 관련 단백질 활성을 파괴시키고, 세포에서 조절 발현될 수 있다.
우성 네거티브 돌연변이에 추가하여, 온도(도는 다른 외인성 인자)에 감응성이 있는 돌연변이 표적 단백질은 당분야에 공지의 돌연변이 생성 과정 또는 선별 과정에 의해 발견될 수 있다.
또한, 당업자는 표적 단백질을 저해하고, 항체 결합을 발현시키는 것을 또 다른 우선 네거티브 전략으로 이용할 수 있을 것이다.
마지막으로, 특정 표적 단백질이 활성은 외생 약물 또는 리간드에 노출되어 조절 변형될 수 있다. 적절한 경우에, 약물은 세포에서 약물은 세포에 있는 한 개의 표적 단백질하고만 상호작용하여 한 개의 표적 단백질의 활성만을 변형시키는 것으로 알려져 있다. 다양한 양에 세포를 노출시키는 경우 이 단백질에서 기인되는 등급 섭동의 원인이 된다. 이와 같은 변형은 활성의 증가 또는 감소가 될 수 있다. 또한 약물은 별도의 구별되는 겹쳐지지 않는 효과를 가지는 몇 개의 표적 단백질(2-5)의 활성을 변경시키는 것으로 공지되어 있다. 이와 같은 약물에 노출로 표적 단백질에 기인된 몇 가지 세포 상태에 대해 섭동의 원인이 된다.
6. 실시예
다음의 실시예는 기존의 본 발명을 설명하는 것이나 다음의 설명에 한정시키지는 않는다.
6.1. 실시예 1: 공동 조절에 의한 결합된 유전자 세트
이 실시예는 본 발명의 결합 방법의 한 구체예를 설명한다.
6.1.1. 재료 및 방법
전사 측정;
이스트(Saccharomyces cerevisiae, 균주 YPH499) Sikorski and Hieter, 1989, A system of shuttle vectors and yeast host strains designated for efficient manipulation of DNA in saccharomyces cerevisiae, Genetics 122:19-27) 세포는 YAPD상에서 30℃에서 생장시키고(OD6001.0(±0.2)), 페놀/클로로포름 및 0.1% SDS에서 표준 공정(Ausubel et al., 1995, Current Priotocols in Molecular Biology, Greene Publishing and Wiley-Interscience, New York, Ch. 13)을 이용하여, 세포를 파괴시켜, 총 RNA를 준비한다. Poly(A)+RNA는 oligo-dT 셀룰로오즈(New England Biolabs)상에서 친화력 크로마토그래피에 의해 선별한다(Sambrook et al.(Molecular Cloning-A Laboratory Manual(2nd Ed.), Vol.1, Cold Spring Harbor Laboratory, Cold Spring Harbor, New York, 1989). 처음 가닥 cDNA 합성은 2㎍ poly(A)+RNA 및 SuperScriptTMII 역 전사효소(Gibco-BRL)를 이용하여 제조업자의 지시에 따라 실시하는데, 단 데옥시리보뉴클레오티드는 다음의 농도로 제공된다; dA, dG, dC는 각각 500㎛이고, dT는 100㎛가 되고, Cy3-dUTP 또는Cy5-dUTP(Amersham)는 100㎛가 된다. cDNA 합성 반응은 90분간 42-44℃에서 실시하고, 그 다음 RNA는 RNAse H 2 unit를 첨가하여 분해시키고, cDNA 생성물은 두 번의 연속된 원심분리 투석(M1CROCON-30 마이크로농축기(Amicon))으로 정제하였다.
99개 아미노산 이상(공개된 이스트 게놈 서열에 기초. Goffeau et al., 1996, Science 274:546-567)의 폴리펩티드를 인코드하는 맥주 효모균(S. cerevisiae)게놈에서 각 ORF에 대해 서열에서 상응하는 이중 가닥 DNA 폴리뉴클레오티드는 이스트 게놈 DNA의 폴리메라제 사슬 반응(PCR) 증폭에 의해 만들 수 있다. 두 개 PCR 프라이머는 다음의 2가지 기준에 따라 ORF 각각의 내부에서 선별할 수 있다;(i) 증폭된 단편은 300-800bp이고; (ii) 이들 단편중 어느 것도 10개 이상의 연속 뉴클레오티드 부분을 가지지 않는다. 컴퓨터 프로그램을 이용하여 PCR 프라이머를 고안한다. 증폭은 96 웰 미량적정 플레이트에서 실시한다. 생성된 DNA 단편은 Shalon et al., 1996, Genome Research 6:639-645의 방법을 이용하여 유리 현미경 슬라이드 상에서 프린트된다.
형광으로 라벨된 cDNAs(2-6㎍)는 4 X SSC + 담체로 이용되는 1㎍/㎖ tRNA에 재현탁시키고, 0.45㎛ 필터를 이용하여 여과시킨다(Millipore, Bedfor, MA). SDS는 0.3%가 되도록 첨가시키고, 100℃에서 2분간 가열시킨다. 프로브는 냉각시키고, 바로 실시예 6.2에서 설명하는 것과 같이 만들어진 미소배열에 하이브리드시킨다(65℃에서 4시간). 하이브리드안된 프로브는 1 X SSC+0.1% SDS에서 실온, 1-2분간 세척하여 제거한다. 미소배열은 앞에서 설명한 것과 같이 형광 레이져-스캐닝 장치를 이용하여 스캔하고(Schena et al., 1995, Science 270:467-470; Schena et al., 1995, Proc. Natl. Acad. Sci. USA 93:10539-11286), 그 결과(섭동 위치 포함)를 기록한다.
섭동;
이 실시예는 사람과 면역 억제가 상동성인 이스트S. cerevisaie생화학 경로에 관련된 상이한 약물 처리 및 유전자 돌연변이를 포함하는 18개 실험과 관련된다. 두 개 약물, FK506 및 사이클로포린을 다양한 유전자 결손과 복합하여 각각 50㎍/㎖ 및 1㎍/㎖ 농도로 이용한다. 유전자 CNA1 및 CNA2은 칼시뉴린의 촉매 소단위를 인코드한다(Cardenas et al., 1994, Yeast as model T cells, in Perspectives in Drug Discovery and Design, 2:103-126). 18가지 다른 실험 조건은 표 1에 나타내었다.
결합 분석;
6000개 이상의 mRNA 수준 측정으로 된 세트는 18 실험중 적어도 한 개에서 4배이상의 반응 크기를 가지는 유전자만을 선택함으로써 48개로 줄였다. 초기 선별로 측정 오류 영향을 상당히 줄였으며, 대부분의 실험에서 대부분 유전자의 작은 반응을 설명한다.
hclust 루틴을 이용하여 결합은 생성된 데이터 표 18(실험)x 48(유전자)에서 실행하였다. 코드 "hclust"는 Windows NT에서 S-plus 4.0을 이용하여 작동된다. 거리는 1-r로써, 이때 r은 상관계수(표준화된 도트 생성물)이다. 각 브랜치 노드의 통계학적인 유의성은 Monte Carlo 과정을 이용하여 계산할 수 있다. 배치된 데이터의 100회 실현으로 각 분기점에서 실제 개선 기록을 유도할 수 있다. 배열안된 데이터의 경우는 표준 편차에 의해 나타내고, 이는 도 6에서 값을 나타내었다.
6.1.2. 결과 및 토의
도 6에서는 18x48 데이터 테이블에서 "hclust" 알고리즘에서 유도된 결합을 나타낸다. 48개 유전자는 다양한 분기점으로 결합될 수 있다. 두 개 분기점을 결합시키는 수평 연결부분에 있는 수직 좌표는 분기점간의 거리를 나타낸다. 일반적인 값이 0.2-0.4 범위에 있고, 이때 0은 완전한 상관관계를 말하고, 1은 상관관계가 없다는 것을 말한다. 분기점에서 수는 통계학적인 유의성을 말한다. 2이상인 경우는 분기점이 95% 신뢰성 수준에서 유의성이 있다는 것을 말한다.
도 6에서 수평선은 유전자 세트를 정의하기 위한 경계값을 말한다. 이 수준은 상수 세트가 된다. 두 개 또는 그 이상의 멤버로 구성된 분기점은 추가 분석에서 무시한다. 세 개 또는 그 이상의 멤버를 가지는 세 개 유전자 세트는 이 경계값에 한정한다. 경계값에서 나타난 값(표준 편차)은 설명한 것과 같이 유도할 수 있고, 세 개의 분지는 실제 구별되는 것을 볼 수 있다. 결합은 칼시뉴린 단백질, PDR 유전자, Gcn4 전사 인자와 관련된 경로에 상응하고, 이는 결합 분석으로 상응하는 유전자 조절 경로를 가지는 유전자세트를 만들 수 있다는 것을 말하는 것이다(Marton et al., Drug Target validation and identification of secondary drug target effects using DNA microarrays, Nature Medicine 4:1293-1301).
6.2. 실시예 2: 유전자 세트의 평균 반응을 이용하여 반응 패턴 감지를 강화
이 실시예에서는 유전자 세트의 평균화로 특정 반응 패턴 감지를 강화시키는 것을 설명한다.
도 6의 결합 분석 결과에서 유전자세트 3은 Gcn4 전사 인자에 의해 조절되는 유전자와 관계된다. 이는 문헌 및 개별 유전자에 조절 부분의 5'의 다중 서열 배열 분석으로 증명되었다(Stormo and Hartzell, 1989, Identifying protein binding sites from unaligned DNA fragments, Proc Natl Acad Sci 86:1183-1187; Hertz and Stormo, 1995, Identification of consensus patterns in unaligned DNA and protein sequences: a large-deviation statistical basis for penalizing gaps, Proc of 3rd Intl Cof on Bioinformatics and Genome Research, Lim and Cantor, eds., World Scientific Publishing Co., Ltd. Singapore, pp. 201-216). 유전자세트 3에 있는 32개 유전자중 20개는 Gcn4에 적절한 공통의 프로모터 서열을 가지고 있다. 이와 같은 20을 이용하여 유전자 세트를 한정시킬 수 있다. 고농도에서 이와 같은 경로를 타격하는 것으로 공지된 약물 FK506의 적정에 대한 반응 프로파일을 이와 같은 유전자 세트상에서 계획할 수 있다. 생성된 반응은 표2에서 "유전자세트"로 표시하였다, 이때 개별 유전자의 반응(Log10(발현 비율)을 나타내었다. NaN은 데이터를 이용할 수 없다는 의미가 된다. "Geneset" 반응은 1.6㎍/㎖에서 매우 유의성이 있었고(3>sigma), 이 농도 및 더 높은 농도에서 개별 유전자 반응보다 훨씬 유의성이 있었다.
6.3. 실시예 3: 약물 활성의 개선된 분류
실시예 1에서 언급한 것과 같은 18 실험 데이터는 면역억제 약물 FK506 및 사이클로스포린 A 및 이와 같은 약물의 활성과 관련된 유전자에 돌연변이 및 면역억제와 연관이 없는 약물-하이드록시우레아, 3-아미노트레아졸, 메토트렉세이트-를 포함하는 다양한 섭동을 이용하여 추가 16회 실험과 복합시켰다. 표 3에 실험 조건을 나타내었다.
결합 분석은 복합된 데이터 세트를 이용하여 실행하였다. 처음 유전자의 선택은 34회 실험에서 4회 이상에서 유의성 있는 반응을 가지는 유전자를 이용하여 실행하는데, 이 분계점은 2배 상향 또는 하향 조절이상의 적으로 한정할 수 있고, 유의성 수준은 99% 이상이 된다. 이와 같은 선별로 194개 유전자를 얻는다. 다소엄밀도가 낮은 분계점을 이용하면 더 많은 유전자를 얻고, 유전자세트의 생물학적인 동정과 혼돈되고, 데이터를 포함하는 더 많은 측정 오류를 얻을 것이다. 그러나, 최종 결과는 이 분계점에 감응성이 크지는 않다.
도 7에서 볼 수 있는 것과 같은 결합 나무가 제공된다면 S-Plus의 'hclust' 과정을 이용할 수 있다. 도 7에서 볼 수 있는 것과 같이 절단 수준 D=0.4에서 16개 유전자세트가 있다. 이들 16개중에서, 7개는 두 개 유전자 혹은 그 이하의 것으로 구성된다. 이와 같은 작은 결합을 무시하면, 도 7에서 볼 수 있는 것과 같이 1-9번까지 9개 주요 결합을 볼 수 있다. 절단 수준 이상에서 생성된 모든 분기점은 유의성이 있고(2시그마 이상-각 노드의 번호 참고), 결합은 실제 별개의 것이 된다.
면역억제 약물 경로에 의해 정의된 유전자세트는 비-면역억제 약물 반응 데이터가 복합되었더라고 다시 확인하였다.
유전자세트 2에는 도 6의 유전자세트 1의 칼시뉴린 의존성 유전자를 포함하는 반면에, 유전자세트 4에는 도 6에서 볼 수 있는 유전자세트 3의 Gen4-의존성 유전자를 포함하고 있다.
16㎍/㎖ 농도에서 FK506에 대한 반응을 얻을 수 있고, 반응 프로파일은 "미지" 프로파일로 이용할 수 있다. 반응 프로파일은 34개 실험의 결합 분석을 이용하여 정의된 유전자세트로 투영될 수 있다. 결합 세트의 개별 실험으로부터 34개 프로파일을 기초에 투영시킨다.
16㎍/㎖ 농도에서 FK506에 대한 투영된 프로파일을 결합 세트의 34개 투영된프로파일 각각과 비교하였다. 이들 비교한 것중에 5개는 도 8A-8E에서 설명하고 있고, 하기에서 좀더 상세하게 설명될 것이다.
미지의 투영된 프로파일과 34개의 실험에서 투영된 프로파일사이에 상관관계는 식 10(Section 5.4.2.)을 이용하여 계산하고, 이는 도 9에서 (-0-)로 나타내었다.
비교를 위해, 투영없이 계산된 상관계수(-△-)와 투영은 없으나, 95% 신뢰성 수준에서 상형-또는 하향 조절된 유전자에 한정된 것, 두 개 프로파일 하나 또는 다른 하나에 약 2배인 것으로 상관계수를 나타내었다(-◇-).
일반적으로, 투영된 상관계수는 투영안된 것을 추척하는데, 더 큰 값을 나타낸다. 더 큰 값은 유전자세트상에 투영하는 동안에 발생되는 측정 오차를 평균한 것이다. 이와 같은 개별적인 측정 오차는 투영안된 상관계수를 낮은 쪽으로 치우치게 하고, 이와 같은 편향은 투영 과정에 의해 감소된다.
투영된 프로파일의 상관계수는 고유 프로파일 반응이 매우 약하거나 노이즈가 많을 경우에 오차가 더 큰 것으로 보인다. 이는 실험 1,2,7,8을 포함하는 약물의 일부 낮은 농도의 경우가 이렇다. 실험 2에서, 예를 들면, 투영된 네거티브 상관계수는 0.45이고, 투영안된 상관계수는 0에 가깝다. 이는 상관계수가 노이즈가 우세하기 때문이다. 도 8A에서는 HU로 3.1mM(회색 막대)를 처리하는 경우에 매우 약한 투영된 프로파일을 나타낸다.
도 8B는 도 9에서 50㎍/㎖에서 FK506의 실험 No.25와 16㎍/㎖에서(알려지지 않음) FK506의 비교를 위한 투영된 프로파일의 요소를 제공한다. 투영된 프로파일은 도 9에 있는 매우 높은 상관치와 상당히 일치한다. 가장 큰 반응은 Geneset 7에서 있었고, 이는 높은 약물 농도에서 자극된 아미노산 결핍에 생물학적으로 상응한다. 유전자 세트 5에서의 반응은 약물의 주요 표적, 칼시뉴린 단백질을 통하여 중개된다. 이와 같은 반응은 낮은 농도의 약물(도 8C, FK506 1㎍/㎖)에서 있으나, 유전자세트 7 및 다른 유전자세트에서의 반응은 상당히 감소되었다. 이와 같은 생물학적 해석은 약물 활성에서 즉각적인 지원이 된다. 약물의 농도가 높을수록 2차적인(아마도 원하지 않는) 경로를 자극하는 것으로 결론을 낼 수 있다. 이와 같은 경로의 주요 중개물질중에 하나는 도 8A에서 나열된 실험 34의 도면 8D 회색 프로파일에서 볼 수 있는 것과 같이 전사인자 Gcn4인 것으로 판명되었다. 여기에서, 유전자세트 2,3에서의 활성은 GCN4 유전자의 결손으로 제거될 수 있다.
그러나, 투영된 프로파일을 이용한 블라인드 분류는 개선되었다. 투영된 상관계수에서는 모르는 것에 대해 그 다음에 가장 근접한 것이 50㎍/㎖에서 가장 잘 대응되는 -cph+/-FK506의 상위 두 개이다. 이는 유전자 CPH1에가 유전적으로 결손된 세포를 약물로 처리한 것이다. 이와 같은 유전자는 FK506 활성에 필수적인 것은 아니자만, 반응을 상당히 변화시키지는 못한다. 따라서, 투영된 프로파일은 정확하게 16㎍/㎖에서 미지의 FK506와 매우 유사한 것으로 보인다. 그러나, 투영안된 상관계수는 최적 대응되는 '-cna +/-FK506(50㎍/㎖) 바로 위에 실험 6배열이 되어 두 번째 최적 대응이 된다. 이와 같은 실험은 주요 표적 칼시뉴우린이 유전적으로 결손된 세포를 약물로 처리한 것이다. 이와 같은 경우에, 칼시뉴우린에 의해 중개되는 유전자세트 5에 반응은 사라지고(도 8E), 다른 반응은 남아있게 된다.이와 같은 중요한 생물학적 차이는 도 8E의 투영된 요소에 반영된 것이다. 따라서, 생물학적 유사성은 비투영된 방법보다는 본 발명의 방법을 이용하여 투영된 상관계수에 기초한 경우에 신뢰성이 더 크다는 것이다.
6.4. 실험 4: 생물학적 반응 프로파일의 분류 개선
실시예 3에서 설명하는 34개 실험 데이터는 2차원 결합 분석을 통하여 분석할 수 있다. 특히, 결합 분석은 우선 실시예 3에서 설명하는 것과 같이 유전자세트를 확인하기 위한 데이터로 실행한다. 그 다음 S-Plus의 'hclust'를 다시 하고. 이때 생물학적 반응의 유사성에 따라 생물학적 반응을 정리할 수 있다.
이 분석 결과는 도 16에서 설명한다. 도 16A에서는 34-실험(수직축)에서 측정된 감소된 유전자 전사(수평축) 다수를 나타내는 것이다. 따라서, 도 16A의 각 줄은 특정 섭동(특정 약물에 노출)에 대해 유전자 전사 반응을 나타내는 것이다. 도 16의 상단에 있는 회색 눈금 막대에서 볼 수 있는 것과 같이 측정된 발현 비율을 로그로 나타낸 것이다. 특히, 검정색은 전사의 상향(+1)을 나타내는 반면 흰색은 하향 조절(-1)을 나타내고, 중간 회색 눈금(0)은 발현의 변화가 없다는 것을 말한다. 도 16B는 실시예 3에서 설명한 유전자세트로 유전자 전사 나무의 공동-제어를 설명하는 것이다(도 16A의 칼럼). 이와 같은 공동 조절 나무에서 나타낸 칼럼 색인 순서를 이용하여 도 16C에 나타낸 디스플레이를 만들기 위해 도 16A에 칼럼을 재배열시킨다. 동일한 결합 알고리즘을 도 16C의 배열에 적용시킬 수 있고, 배열 색인을 유사하게 재배열시켜 도 16D를 얻는다.
도 16A 및 16D를 비교하면, 재배열을 한 후에 큰 구조가 명백해진다. 도16D에서 수직줄에서 유전자세트를 바로 확인할 수 있을 뿐 아니라 도 16D의 수평줄에서도 특정 유전자세트의 활성을 확인할 수 있다. 도 17은 도 16D의 세부도면으로 도 16D의 재배열에서 유전자세트 배당을 상세하게 나타낸다. 예를 들면, 도 17의 "CNA" 수직줄은 칼시뉴우린 의존성 유전자세트로써, 세포에서 면역억제성 약물과 관련된 모든 실험에서 영향을 받았는데(가령, 전사 억제), 단 약물의 중간 표적 또는 칼시뉴우린 자체는 돌연변이로 제거되었다. 큰 수평 줄을 제공하는 실험은 대부분 Gcn4-의존성인 유전자세트를 모두 활성화시킨다. 이는 이와 같은 실험을 Gcn4가 결손된 실험으로 구성된 도 17의 상위 두 개 줄과 비교하였을 때 명백하게 알 수 있다.
6.5. 실시예 4: 투영 프로파일 아티팩트
두 개 실험을 실시예 1에서 설명하는 역 전자 과정에 따라 실시하는데, 이때 YJL107c 유전자의 결손 효과를 측정하였다. 두 개 실험중 한 개에서, 과정에서 RNA 농도는 의도적으로 낮게 조절하여 아티팩트에 의해 오염된 반응 프로파일 데이터가 발생된다. 두 개 프로파일간에 상관관계는 식 7에 의해 결정되는데, 이는 도 18에 나타내었다. 별표(*)는 90%이상의 신뢰 수준에서 두 개 실험중 한 개에서 상향 또는 하향 조절되는 전사를 나타낸다. 두 실험간에 상관계수는 0.82이다.
역전사 과정에서 RNA 농도를 조절을 잘 못하는 것을 특징으로 하는 인공 주형은 맥주 효모균(S. cerevisiae)에서 전사 수준을 측정하여 만들 수 있는데, 이때 RNA 농도는 의도적으로 다양하게 한다. 따라서, 반응 프로파일을 얻을 수 있는데, 이때 "섭동"은 사실 역전사 과정에서 RNA 농도의 변화가 된다. 이와 같은 주형은유전자 발현 비율에 대해 평균 발현 수준으로 도 19에 나타내었다. 90% 신뢰성 범위에서 하향 또는 상향 조절되는 전사체는 이들의 이름을 붙이고, 한 개-시그마 오차 막대를 가진다.
오염된 YJL107c 결손 실험에 상응하는 반응 프로파일은 이와 같은 인공 주형으로 깨끗하게 할 수 있다. 특히, 식 16에 최소 제곱에 의해 가장 적합한 계산 상수를 결정할 수 있고, "깨끗해진" 반응 프로파일은 식 17에 따라 이와 같은 계수로 만들 수 있다. "깨끗한" YJL107c 결손 실험 및 이에 상응하는 "오염안된" 실험사이에 계수는 도 20에 나타내었다. 농도는 0.87로 개선되었다. 유의성있는 아티팩트가 없는 경우에, 무작위 측정 오차가 될 수 있는 다른 원인은 프로파일에서 정상적으로 반복되는 측정사이에 상관계수로 약 0.90가 된다. 따라서, 0.82 내지 0.87 사이의 개선은 개선이 최대가 됨을 나타내는 것으로, 임의 아티팩트 제거 기술이 가능하다는 것이다.
7. 참고문헌
여기에서 언급하는 모든 문헌은 전체 참고문헌으로 첨부하고, 이때 각 개별 공보 또는 특허 및 특허 출원이 참고문헌을 가지는 것과 동일한 목적으로 이용된다.
본 발명의 범위를 벗어나지 않고, 당업자는 본 발명의 많은 수정 및 변화가 가능함을 인지할 것이다. 여기에서 설명하는 특정 구체예는 실시예를 위해 제공된 것으로 본 발명은 다음의 청구범위에 한정시킨다.

Claims (77)

  1. 생물샘플을 분석하는 방법에 있어서, 상기 방법은 샘플에서 세포구성성분의 복수 수치로 이루어지는 제 1 프로파일을 투영 프로파일로 변환시키는 것으로 구성되고, 상기 투영 프로파일은 공통-변동의 기본 세포구성성분 세트의 정의에 따른 복수의 세포구성성분 세트 수치를 보유하고, 여기서 상기 정의는 복수의 상이한 섭동하의 세포구성성분의 공통-변동에 기초하고, 상기 변환은 제 1 프로파일을 기본 세포구성성분 세트로 투영하는 것으로 구성되는 것을 특징으로 하는 방법.
  2. 제 1항에 있어서, 복수의 상이한 섭동은 5개이상의 상이한 섭동으로 구성되는 것을 특징으로 하는 방법.
  3. 제 2항에 있어서, 복수의 상이한 섭동은 10개이상의 상이한 섭동으로 구성되는 것을 특징으로 하는 방법.
  4. 제 3항에 있어서, 복수의 상이한 섭동은 50개이상의 상이한 섭동으로 구성되는 것을 특징으로 하는 방법.
  5. 제 4항에 있어서, 복수의 상이한 섭동은 100개이상의 상이한 섭동으로 구성되는 것을 특징으로 하는 방법.
  6. 제 1항에 있어서, 투영 프로파일로 생물샘플의 상태를 표시하는 단계가 추가로 포함되는 것을 특징으로 하는 방법.
  7. 제 1항에 있어서, 투영 프로파일과 참고 투영 프로파일을 비교하고, 투영 프로파일과 참고 프로파일사이의 유사성 또는 차이를 표시하는 단계가 추가로 포함되는 것을 특징으로 하는 방법.
  8. 제 1항에 있어서, 정의는 복수의 상이한 섭동하에 세포구성성분의 공통-변동에 기초하는 것을 특징으로 하는 방법.
  9. 제 8항에 있어서, 정의는 복수 섭동하의 세포구성성분의 군집 분석으로 유래된 유사성 트리(tree)로 규정하는 것을 특징으로 하는 방법.
  10. 제 9항에 있어서, 세포구성성분은 유사성 트리의 분지(branch)로 정의하는 것을 특징으로 하는 방법.
  11. 제 10항에 있어서, 분지는 전체 트리에 컷팅(cutting) 수준을 적용하여 선별하고, 컷팅 수준은 세포구성성분에 의해 나타나는 생물경로의 예상수로 결정되는 것을 특징으로 하는 방법.
  12. 제 10항에 있어서, 분지간의 구별은 95% 신뢰수준에서 통계학적 유의성을 달성하는 것을 특징으로 하는 방법.
  13. 제 12항에 있어서, 통계학적 유의성은 섭동 인덱스의 몬테칼로 임의화를 이용한 검사로 평가하는 것을 특징으로 하는 방법.
  14. 제 13항에 있어서, 몬테칼로 임의화를 이용한 검사는 다음과 같이 구성되는 것을 특징으로 하는 방법:
    (a) 세포구성성분의 군집 분석에서 실제적인 향상비율을 측정하고;
    (b) 각 세포구성성분에 대한 각 섭동의 몬테칼로 임의화로 치환된 세포구성성분을 만들고;
    (c) 치환된 세포구성성분에 대한 군집 분석을 실시하고;
    (d) 치환된 세포구성성분의 군집 분석에서 향상비율을 측정하고;
    (e) 치환된 세포구성성분을 만들고 치환된 세포구성성분에 대한 군집 분석을 실시하는 단계를 반복하여 향상비율의 분포를 수득하고;
    여기서, 통계학적 유의성은 실제적인 향상비율 및 향상비율의 분포를 비교하여 측정한다.
  15. 제 12항에 있어서, 통계학적 유의성은 하나 또는 복수의 섭동에 대한 생물반응의 시간 인덱스의 몬테칼로 임의화를 이용한 검사로 평가하는 것을 특징으로 하는 방법.
  16. 제 10항, 11항 또는 12항에 있어서, 정의된 세포구성성분 세트는 세포구성성분사이의 생물학적 관계에 기초하여 세밀하게 구분하는 것을 특징으로 하는 방법.
  17. 제 1항에 있어서, 정의는 하기와 같은 것을 특징으로 하는 방법:
    여기서, V(n) K는 세포구성요소 세트 n에 대한 세포구성성분 k의 분포이다.
  18. 제 17항에 있어서, 변환 단계는 하기 방정식의 실행으로 구성되는 것을 특징으로 하는 방법:
    P=[P1,..Pi,..Pll]=pㆍV
    여기서, Pi는 세포구성성분 세트 수치 i이고, 벡터 P는 세포구성성분의 프로파일이다.
  19. 제 1항에 있어서, 세포구성성분 세트 수치 각각은 상응하는 세포구성성분 세트내 세포구성성분 수준의 평균값인 것을 특징으로 하는 방법.
  20. 제 1항에 있어서, 세포구성성분 세트 수치 각각은 상응하는 세포구성성분 세트내 세포구성성분 수준의 가중 평균인 것을 특징으로 하는 방법.
  21. 제 1항에 있어서, 복수의 수치는 단일 벡터 크기로 표준화시키는 것을 특징으로 하는 방법.
  22. 제 1항에 있어서, 세포구성성분의 수치는 섭동에 대한 생물샘플의 반응 수치인 것을 특징으로 하는 방법.
  23. 생물샘플을 분석하는 방법에 있어서,
    (a) 생물샘플에서 세포구성성분의 복수 수치로 이루어지는 제 1 프로파일을 투영 프로파일로 변환시키고, 상기 투영 프로파일은 공통-변동의 기본 세포구성성분 세트의 정의에 따른 복수의 세포구성성분 세트 수치를 보유하고, 여기서 상기 변환은 제 1 프로파일을 기본 세포구성성분 세트로 투영하는 것으로 구성되고;
    (b) 투영 프로파일과 참고 프로파일을 비교하고;
    (c) 투영 프로파일과 참고 프로파일사이의 유사성과 차이를 표시하는 것을 특징으로 하는 방법.
  24. 제 23항에 있어서, 정의는 세포구성성분의 공통-조절로부터 유래되는 것을특징으로 하는 방법.
  25. 제 23항에 있어서, 정의는 복수의 상이한 섭동하의 세포구성성분의 공통-변동에 기초하는 것을 특징으로 하는 방법.
  26. 제 23항에 있어서, 정의는 하기와 같은 것을 특징으로 하는 방법:
    여기서, V(n) K는 세포구성요소 세트 n에 대한 세포구성성분 k의 분포이다.
  27. 제 17항에 있어서, 변환 단계는 하기 방정식의 실행으로 구성되는 것을 특징으로 하는 방법:
    P=[P1,..Pi,..Pll]=pㆍV
    여기서, Pi는 세포구성성분 세트 수치 i이고, 벡터 P는 세포구성성분의 프로파일이다.
  28. 제 23항에 있어서, 세포구성성분 세트 수치 각각은 상응하는 세포구성성분 세트내 세포구성성분 수준의 평균값인 것을 특징으로 하는 방법.
  29. 제 23항에 있어서, 세포구성성분 세트 수치 각각은 상응하는 세포구성성분 세트내 세포구성성분 수준의 가중 평균인 것을 특징으로 하는 방법.
  30. 제 23항에 있어서, 복수의 수치는 단일 벡터 크기로 표준화시키는 것을 특징으로 하는 방법.
  31. 제 23항에 있어서, 세포구성성분의 수치는 섭동에 대한 생물샘플의 반응 수치인 것을 특징으로 하는 방법.
  32. 생물샘플을 분석하는 방법에 있어서, 상기 방법은 샘플에서 세포구성성분의 복수 수치로 이루어지는 제 1 프로파일을 투영 프로파일로 변환시키는 것으로 구성되고, 상기 투영 프로파일은 공통-변동의 기본 세포구성성분 세트의 정의에 따른 복수의 세포구성성분 세트 수치를 보유하고, 여기서 상기 정의는 하기와 같이 표현되고:
    여기서, V(n) K는 세포구성요소 세트 n에 대한 세포구성성분 k의 분포이고, 상기 변환은 제 1 프로파일을 기본 세포구성성분 세트로 투영하는 것으로 구성되는 것을 특징으로 하는 방법.
  33. 제 32항에 있어서, 변환 단계는 하기 방정식의 실행으로 구성되는 것을 특징으로 하는 방법:
    P=[P1,..Pi,..Pll]=pㆍV
    여기서, Pi는 세포구성성분 세트 수치 i이고, 벡터 P는 세포구성성분의 프로파일이다.
  34. 생물샘플을 분석하는 방법에 있어서, 상기 방법은 샘플에서 세포구성성분의 복수 수치로 이루어지는 제 1 프로파일을 투영 프로파일로 변환시키는 것으로 구성되고, 상기 투영 프로파일은 공통-변동의 기본 세포구성성분 세트의 정의에 따른 복수의 세포구성성분 세트 수치를 보유하고, 세포구성성분 세트 수치 각각은 상응하는 세포구성성분 세트내 세포구성성분 수준의 가중 평균이고, 여기서 상기 변환은 제 1 프로파일을 기본 세포구성성분 세트로 투영하는 것으로 구성되는 것을 특징으로 하는 방법.
  35. 생물샘플을 분석하는 방법에 있어서, 상기 방법은 샘플에서 세포구성성분의 복수 수치로 이루어지는 제 1 프로파일을 투영 프로파일로 변환시키는 것으로 구성되고, 상기 투영 프로파일은 공통-변동의 기본 세포구성성분 세트의 정의에 따른 복수의 세포구성성분 세트 수치를 보유하고, 복수의 수치는 단일 벡터 크기로 표준화시키고, 여기서 상기 변환은 제 1 프로파일을 기본 세포구성성분 세트로 투영하는 것으로 구성되는 것을 특징으로 하는 방법.
  36. 반응의 유사성에 따라 생물반응 프로파일을 분류하는 방법에 있어서, 반응 프로파일에서 복수의 측정된 세포구성성분의 유사성에 기초하여 유사한 반응 프로파일을 정의하는 것으로 구성되는 것을 특징으로 하는 방법.
  37. 제 36항에 있어서, 반응 프로파일에서 복수의 측정된 세포구성성분 유사성의 군집 분석으로 유래된 군집 트리를 구성하는 단계를 추가로 포함하는 것을 특징으로 하는 방법.
  38. 제 37항에 있어서, 생물반응 프로파일의 그룹은 군집 트리의 분지로 정의하는 것을 특징으로 하는 방법.
  39. 제 36항에 있어서, 생물반응 프로파일 그룹의 통계학적 유의성을 측정하는 것으로 구성되는 것을 특징으로 하는 방법.
  40. 제 39항에 있어서, 생물반응 프로파일 그룹의 통계학적 유의성은 객관적인 통계 검사로 측정하는 것을 특징으로 하는 방법.
  41. 제 40항에 있어서, 객관적인 통계 검사는 다음과 같이 구성되는 것을 특징으로 하는 방법:
    (a) 생물반응 프로파일의 군집 분석에서 실제적인 향상비율을 측정하고;
    (b) 각 반응 프로파일에 대한 각 세포구성성분의 몬테칼로 임의화로 치환된 반응 프로파일을 만들고;
    (c) 치환된 반응 프로파일에 대한 군집 분석을 실시하고;
    (d) 치환된 반응 프로파일의 군집 분석에서 향상비율을 측정하고;
    (e) 치환된 반응 프로파일을 만들고 치환된 반응 프로파일에 대한 군집 분석을 실시하는 단계를 반복하여 향상비율의 분포를 수득하고;
    여기서, 통계학적 유의성은 실제적인 향상비율 및 향상비율의 분포를 비교하여 측정한다.
  42. 생물샘플을 분석하는 방법에 있어서,
    (a) 생물샘플의 세포구성성분은 생물샘플로부터 수득되는 생물 프로파일에서 공통-변동되는 세포구성성분 세트로 분류하고;
    (b) 생물샘플로부터 수득된 생물 프로파일은 유사한 세포구성성분에 영향을 주는 생물 프로파일 세트로 분류하는 것을 특징으로 하는 방법.
  43. 제 42항에 있어서, 특정 생물효과와 연관된 하나 또는 복수의 세포구성성분은 세포구성성분 세트로부터 확인하는 것을 특징으로 하는 방법.
  44. 제 42항에 있어서, 특정 생물효과와 연관된 하나 또는 복수의 생물 프로파일은 생물 프로파일 세트로부터 확인하는 것을 특징으로 하는 방법.
  45. 제 43항 또는 44항에 있어서, 특정 생물효과는 생물경로인 것을 특징으로 하는 방법.
  46. 제 43항 또는 44항에 있어서, 특정 생물효과는 질병 또는 질병 상태인 것을 특징으로 하는 방법.
  47. 제 43항 또는 44항에 있어서, 특정 생물효과는 하나 또는 복수 약물의 처리효과인 것을 특징으로 하는 방법.
  48. 제 43항에 있어서, 생물샘플의 세포구성성분은 복수의 유전자로 구성되고, 특정 생물효과와 연관된 하나 또는 복수의 유전자를 동정하는 것을 특징으로 하는 방법.
  49. 제 46항에 있어서, 동정된 하나 또는 복수의 유전자는 공지된 유전자인 것을 특징으로 하는 방법.
  50. 제 46항에 있어서, 동정된 하나 또는 복수의 유전자는 미지의 유전자인 것을 특징으로 하는 방법.
  51. 제 42항에 있어서, 특정 생물효과와 관련된 하나 또는 복수의 섭동은 생물 프로파일의 세트로부터 확인하는 것을 특징으로 하는 방법.
  52. 제 49항에 있어서, 하나 또는 복수의 섭동은 약물 또는 약물 후보인 것을 특징으로 하는 방법.
  53. 제 50항에 있어서, 하나 또는 복수의 섭동은 유전자 돌연변이인 것을 특징으로 하는 방법.
  54. 제 50항에 있어서, 약물 또는 약물 후보는 공지된 약물 또는 약물 후보인 것을 특징으로 하는 방법.
  55. 제 51항에 있어서, 유전자 돌연변이는 공지된 유전자 돌연변이인 것을 특징으로 하는 방법.
  56. 제 50항에 있어서, 약물 또는 약물 후보는 미지의 약물 또는 약물후보인 것을 특징으로 하는 방법.
  57. 제 51항에 있어서, 유전자 돌연변이는 미지의 유전자 돌연변이인 것을 특징으로 하는 방법.
  58. 데이터의 N-차원 배열을 분석하는 방법에 있어서, N은 양수이고, 데이터의 N-차원 배열의 각 요소는 N 인덱스를 보유하고, 상기 방법은 각 인덱스를 데이터의 N-차원 배열내 공통-변동되는 데이터 세트로 분류하는 것으로 구성되는 것을 특징으로 하는 방법.
  59. 제 56항에 있어서, 각 세트는 각 인덱스의 군집 분석으로 유래된 유사성 트리로 정의하는 것을 특징으로 하는 방법.
  60. 세포구성성분의 복수 수치로 구성되는 측정된 생물프로파일로부터 하나 또는 복수의 아티팩트를 제거하는 방법에 있어서, 상기 측정된 생물프로파일로부터 하나 또는 복수의 아티팩트 패턴을 삭제하는 것으로 구성되고, 여기서 하나 또는 복수의 아티팩트 패턴 각각은 특정 아티팩트에 상응하는 것을 특징으로 하는 방법.
  61. 제 58항에 있어서, 하나 또는 복수의 아티팩트 패턴 각각은 하나 또는 복수의 아티팩트 패턴이 상응하는 특정 아티팩트와 관련된 유전자 및 반응의 상대적 진폭에 관한 지식으로 제공하는 것을 특징으로 하는 방법.
  62. 제 58항에 있어서, 하나 또는 복수의 아티팩트 패턴은 하나 또는 복수의 아티팩트 패턴이 상응하는 특정 아티팩트의 추정 사역 변수의 섭동 실험으로 제공하는 것을 특징으로 하는 방법.
  63. 제 58항에 있어서, 하나 또는 복수의 아티팩트 패턴은 컨트롤 생물프로파일의 군집 분석으로 제공하고, 상기 컨트롤 생물프로파일은 하나 또는 복수의 아티팩트 패턴이 상응하는 특정 아티팩트가 발생하는 실험동안 세포구성성분의 복수 수치로 구성되는 것을 특징으로 하는 방법.
  64. 제 58항에 있어서, 하나 또는 복수의 아티팩트 패턴은 척도화 계수로 척도하고, 하나 또는 복수의 아티팩트 패턴 각각은 특정 척도화 계수를 보유하는 것을 특징으로 하는 방법.
  65. 제 62항에 있어서, 척도화 계수는 측정된 프로파일 및 척도화된 하나이상 아티팩트 패턴의 총합간 차이의 목적 함수 수치를 최소화시키는 특정 척도화 계수 각각의 수치를 측정하는 방법으로 결정하는 것을 특징으로 하는 방법.
  66. 제 63항에 있어서, 목적 함수는 최소제곱 최소화인 것을 특징으로 하는 방법.
  67. 제 58항에 있어서, 하나 또는 복수의 아티팩트 패턴 각각은 아티팩트 시그니처(signature)의 라이브러리로부터 선택하고, 상기 아티팩트 시그니처는 하나 또는 복수 아티팩트 각각의 중증도 수준에 상응하는 것을 특징으로 하는 방법.
  68. 제 65항에 있어서, 아티팩트 시그니처는 측정된 프로파일 및 하나이상 아티팩트 패턴의 총합간 차이의 목적 함수 수치를 최소화시키는 아티팩트 시그니처를 측정하는 방법으로 선택하는 것을 특징으로 하는 방법.
  69. 제 1항에 있어서, 복수의 상이한 섭동은 특정 섭동에 대한 복수의 등급화된 노출 수준인 것을 특징으로 하는 방법.
  70. 제 67항에 있어서, 특정 섭동은 약물 또는 약물 후보인 것을 특징으로 하는 방법.
  71. 제 1항에 있어서, 정의는 일정 시간동안 세포구성성분의 공통-변동에 기초하는 것을 특징으로 하는 방법.
  72. 폴리뉴클레오티드 프로브 배열에 있어서, 상기 배열은 하나이상의 면을 보유하는 지지체 및 복수의 상이한 폴리뉴클레오티드 프로브로 구성되고, 여기서 각각의 상이한 폴리뉴클레오티드 프로브는
    (a) 표면상의 상이한 위치에서 지지체 면에 부착되고;
    (b) 상이한 뉴클레오티드 서열로 구성되고;
    (c) 복수 유전자세트의 단일 유전자세트내 특정 유전자의 발현 산물과 하이브리드를 형성하고, 이때
    (i) 상기 복수 유전자세트는 생물샘플을 생물샘플로부터 수득된 생물
    프로파일에서 공통-변동되는 유전자세트로 분류하는 방법으로
    제공하고;
    (ii) 유전자세트내 상이한 특정 유전자의 발현 산물과 하이브리드를
    형성하는 각 유전자세트에 대한 상이한 폴리뉴클레오티드 프로브의
    수는 유전자세트내 전체 유전자 수보다 적은 것을 특징으로 하는 방법.
  73. 제 74항에 있어서, 복수의 상이한 폴리뉴클레오티드 프로브는 50 내지 1,000개의 상이한 유전자세트의 유전자 발현 산물과 하이브리드를 형성하는 것을 특징으로 하는 배열.
  74. 제 74항에 있어서, 복수의 상이한 폴리뉴클레오티드 프로브는 100 내지 500개의 상이한 유전자세트의 유전자 발현 산물과 하이브리드를 형성하는 것을 특징으로 하는 배열.
  75. 제 74항에 있어서, 복수의 상이한 폴리뉴클레오티드 프로브는 100 내지 200개의 상이한 유전자세트의 유전자 발현 산물과 하이브리드를 형성하는 것을 특징으로 하는 배열.
  76. 제 72항에 있어서, 각각의 특정 유전자는 상이한 유전자세트로부터 선택되는 것을 특징으로 하는 배열.
  77. 제 72항에 있어서, 복수의 상이한 폴리뉴클레오티드 프로브는 임의의 유전자세트의 10개 유전자의 발현 산물과 하이브리드를 형성하는 것을 특징으로 하는 배열.
KR1020017005252A 1998-10-27 1999-10-27 유전자 발현 패턴의 탐지 및 분류를 강화하기 위한공통-조절 유전자세트를 이용하는 방법 KR20010081098A (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US09/179,569 US6203987B1 (en) 1998-10-27 1998-10-27 Methods for using co-regulated genesets to enhance detection and classification of gene expression patterns
US09/220,275 US6950752B1 (en) 1998-10-27 1998-12-23 Methods for removing artifact from biological profiles
US09/179,569 1998-12-23
US09/220,275 1998-12-23
PCT/US1999/025025 WO2000024936A1 (en) 1998-10-27 1999-10-27 Methods for using co-regulated genesets to enhance detection and classification of gene expression patterns

Publications (1)

Publication Number Publication Date
KR20010081098A true KR20010081098A (ko) 2001-08-27

Family

ID=26875445

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020017005252A KR20010081098A (ko) 1998-10-27 1999-10-27 유전자 발현 패턴의 탐지 및 분류를 강화하기 위한공통-조절 유전자세트를 이용하는 방법

Country Status (11)

Country Link
EP (1) EP1124992A4 (ko)
JP (1) JP2002528095A (ko)
KR (1) KR20010081098A (ko)
AU (1) AU773456B2 (ko)
BR (1) BR9914913A (ko)
CA (1) CA2348837A1 (ko)
HU (1) HUP0104050A2 (ko)
IL (1) IL142840A0 (ko)
IS (1) IS5929A (ko)
NO (1) NO20012036L (ko)
PL (1) PL347495A1 (ko)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9183349B2 (en) 2005-12-16 2015-11-10 Nextbio Sequence-centric scientific information management
EP1964037A4 (en) 2005-12-16 2012-04-25 Nextbio SYSTEM AND METHOD FOR MANAGING SCIENTIFIC INFORMATION KNOWLEDGE
WO2009111581A1 (en) 2008-03-04 2009-09-11 Nextbio Categorization and filtering of scientific data
AU2010205493A1 (en) * 2009-01-19 2011-09-08 Sistemic Scotland Limited Methods employing non-coding RNA expression assays
JP5133368B2 (ja) * 2010-05-30 2013-01-30 株式会社 ワールドフュージョン 発現データ予測システム
WO2015198620A1 (ja) * 2014-06-23 2015-12-30 オリンパス株式会社 組織地図作成方法
CN112036754B (zh) * 2020-06-30 2022-09-16 上海即科智能技术集团有限公司 基于区块链的金融大数据风控系统
CN117933579B (zh) * 2024-03-25 2024-06-25 中国农业科学院草原研究所 一种高效人工草地综合管理方法

Also Published As

Publication number Publication date
HUP0104050A2 (hu) 2002-03-28
CA2348837A1 (en) 2000-05-04
EP1124992A4 (en) 2006-09-06
PL347495A1 (en) 2002-04-08
AU1451700A (en) 2000-05-15
NO20012036L (no) 2001-06-25
JP2002528095A (ja) 2002-09-03
EP1124992A1 (en) 2001-08-22
NO20012036D0 (no) 2001-04-25
IL142840A0 (en) 2002-03-10
IS5929A (is) 2001-04-27
AU773456B2 (en) 2004-05-27
BR9914913A (pt) 2001-10-16

Similar Documents

Publication Publication Date Title
US6468476B1 (en) Methods for using-co-regulated genesets to enhance detection and classification of gene expression patterns
US6203987B1 (en) Methods for using co-regulated genesets to enhance detection and classification of gene expression patterns
US6950752B1 (en) Methods for removing artifact from biological profiles
US6370478B1 (en) Methods for drug interaction prediction using biological response profiles
US6801859B1 (en) Methods of characterizing drug activities using consensus profiles
US6165709A (en) Methods for drug target screening
US6324479B1 (en) Methods of determining protein activity levels using gene expression profiles
KR20010043420A (ko) 약물 작용의 경로를 확인하는 방법
KR20010053030A (ko) 유전자발현 프로파일을 이용하여 질병상태와 치료요법을모니터하는 방법
EP1141411A1 (en) Statistical combining of cell expression profiles
US20040091933A1 (en) Methods for genetic interpretation and prediction of phenotype
KR20010081098A (ko) 유전자 발현 패턴의 탐지 및 분류를 강화하기 위한공통-조절 유전자세트를 이용하는 방법
WO2000039337A9 (en) Methods for robust discrimination of profiles
WO2002002741A2 (en) Methods for genetic interpretation and prediction of phenotype

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid