KR20020075265A - 임상 진단 서비스를 제공하는 방법 - Google Patents

임상 진단 서비스를 제공하는 방법 Download PDF

Info

Publication number
KR20020075265A
KR20020075265A KR1020020015124A KR20020015124A KR20020075265A KR 20020075265 A KR20020075265 A KR 20020075265A KR 1020020015124 A KR1020020015124 A KR 1020020015124A KR 20020015124 A KR20020015124 A KR 20020015124A KR 20020075265 A KR20020075265 A KR 20020075265A
Authority
KR
South Korea
Prior art keywords
database
analysis
biological sample
genetic material
sample
Prior art date
Application number
KR1020020015124A
Other languages
English (en)
Inventor
아트킨스데이비드
Original Assignee
오르토-클리니칼 다이아그노스틱스, 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 오르토-클리니칼 다이아그노스틱스, 인코포레이티드 filed Critical 오르토-클리니칼 다이아그노스틱스, 인코포레이티드
Publication of KR20020075265A publication Critical patent/KR20020075265A/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/22Social work or social welfare, e.g. community support activities or counselling services
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Genetics & Genomics (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Business, Economics & Management (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Tourism & Hospitality (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Economics (AREA)
  • Child & Adolescent Psychology (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

본 발명은 임상 진단 서비스를 제공하는 방법에 관한 것이다. 이 방법은 생물학적 샘플을 수집하는 단계, 수집한 샘플의 유전자 물질의 적어도 일부 조성, 유전자 물질의 작용 또는 단백질을 측정하기 위하여 생물학적 샘플을 분석하는 단계, 분석 결과를 보고하는 단계(예컨대, 건강관리 공급자에게 보고), 및 분석을 통해 얻은 정보를 후속되는 생물학적 샘플의 분석에 통합시키는 단계를 포함한다. 이와 같은 분석을 통해 얻은 정보는 예를 들어 사용된 정보 산물의 알고리듬이나 데이터베이스 성분을 향상시키기 위하여 그 정보를 사용하여 후속 분석에 통합시키거나, 또는 분석의 통계학적 신뢰성을 향상시키는데 사용할 수 있다. 본 발명은 이러한 방법을 수행하기 위한 데이터베이스 시스템 및 장치 역시 제공한다.

Description

임상 진단 서비스를 제공하는 방법{Method for providing clinical diagnostic services}
본 발명은 임상 진단학 및 실험 의약 분야에 관한 것이다.
유전자를 기초로 한 진단학은 빠르게 임상 실험의 표준 도구가 되어가고 있다. 이러한 진단학은 생리학적 증상, 질병 상태 또는 질병의 성향을 일부 양태의 유전자 조성이나 유기체내 유전자 물질의 작용과 상호관련시키기 위하여 시도하고 있다. 이러한 시도에는 서열 삽입, 결실 또는 불일치와 같은 유전자 돌연변이의 존재 유무를 기초로 한 분석을 포함한다. 또한, 특정 발현이 상향-조절되는지 또는 하향-조절되는지의 여부와 같이, 개체 또는 개체 일부(예컨대, 세포)내에서 일어나는 유전자 발현 방식에 대한 정보를 포함할 수도 있다.
상기 진단 방법의 유용성은 전술한 바와 같이 상호관련시키는데 사용된 생물정보학 시스템의 위력의 함수이다. 대부분의 이들 생물정보학 시스템은 사용자에게 소정 형식의 서열(뉴클레오타이드 염기 또는 아미노산)을 제출할 것을 요구한다. 그 다음, 이 시스템은 상기 서열을 다른 공지 서열과 비교하거나 유전자 발현 프로필을 다른 발현 패턴과 비교하기 위한 알고리듬을 이용한다. 그 다음, 공지된 서열과 샘플 서열의 서열 유사성 및 프로필 유사성을 다양한 규칙에 따라 비교하거나 "스코어를 기록(scored)"한다. 미지의 샘플과 비교되는 서열이 어떤 생리학적 효과를 가진 것으로 알려져 있고 증상이나 질병 상태를 나타내는 경우라면, 시스템내 공지 서열과 유사한 미지 샘플이 그 증상이나 질병 상태를 갖는다라고 말할 수 있다. 서열 유사성을 분석하기 위하여 알고리듬을 사용하는 생물정보학 시스템으로는 BLAST 및 FASTA 컴퓨터 프로그램을 포함한다. 공지된 증상을 반영하는 유전자 정보와 미지 샘플의 유전자 정보를 비교하는데 사용되는 데이터베이스의 확고함이 중요하다.
또한, 생물정보학 시스템의 알고리듬 양태는 진단학의 유용성에 영향을 미친다. 한 서열이 다른 한 서열과 유사한 경우를 측정하는데 사용되는 프로그래밍 논리적, 통계적 및 수학적 관계는 진단적 판단 및 예후적 판단시 보조인자로서 이 시스템의 유용성에 중요하다. 하지만, 생물정보학에는 서열의 동일성과 발현에 대한 기능성 탓으로 여겨지는 보다 더 기본적인 생물학적 성분이 있다. 당해 증상과 유전자 정보 사이의 관계가 정확하게 알려져 있다면 이것은 복잡한 문제가 아닐 것이다. 물론, 이는 이러한 경우는 아니다. 일부 질병이나 증상은 특정 유전자 프로필과 직접적인 상관관계가 있는 것으로 알려져 있지만, 대부분의 질병이나 증상은 전혀 알려져 있지 않거나 단지 불완전하게 알려져 있다. 질병 상태 또는 증상을 적절히 평가할 수 있는 가능성은 그 증상과 관련이 있는 유전자 프로필의 인자들이보다 많이 측정되는 경우 증가된다. 예를 들어, p53 돌연변이는 결장직장암과 같은 특정 암에서 흔히 관찰되는 증례이지만, 지금까지 특정 p53 돌연변이 또는 p53 돌연변이 그룹이 결장직장암을 명확하게 진단하는데 사용될 수는 없었다[참조: p53 as a Marker for Colorectal Cancer, Asco on Line, http://www.asco.org/prof/pp/html/m_tumor8.htm]. 몇몇은 DNA 메틸화와 같은 표성(epigenetic) 변화가 또한 결장직장암과 관련있는 진단적 또는 예후적 가치가 있을 수 있다고 추측하였다[참조: Pharoah and Caldas, Molecular Genetics and the Assessment of Human Cancers, Expert Reviews in Molecular Medicine, http://www-crmm.cbcu.cam.ac.uk/99000526h.htm]. 따라서, p53 돌연변이 및 특정 부위의 DNA 메틸화 양자의 존재가 결장직장암을 정확하게 진단할 수 있는 가능성을 증가시키는 것으로 고찰되기도 하였다. 또 다른 프로필 인자가 확인되면, 정상 유전자 물질과 질병에 걸린 유전자 물질을 비교하는데 사용한 데이터베이스 및 알고리듬은 이러한 개선점을 인식하도록 갱신되어야 한다.
진단 서비스는 일반적으로 건강관리 공급자의 지시나 요구에 따라 실험실들에서 제공하는 것이다. 실험실은 건강관리 공급자로부터 환자 샘플을 받은 다음, 진단 분석을 실시하고 결과를 수득한 뒤, 그 결과를 환자 또는 건강관리 공급자에게 연락한다. 이 모델은 유전자에 기초한 진단학, 예컨대 유전자 물질의 증폭에 의존적인 진단학에도 적용된다. 전술한 바와 같이 유전자에 기초한 시험 결과의 분석은 확고한 데이터베이스의 알고리듬 조작을 수반한다. 이 알고리듬은 유전자 프로필에 대한 신규 정보가 수득될 때마다 주기적으로 갱신될 수 있으나, 임상적정보가 조사되어 그 정보 산물에 통합될 때까지는 기다려야 한다. 따라서, 그 공정은 최대 두갈래로 나뉘어진다. 일반적인 공정의 일 양태에서 환자의 유전자 물질이 분석된다. 당해 공정의 전혀 별개의 양태에서는 분석에 사용된 정보 산물을 창출하여, 분석을 수행하는 제3자가 이용가능하도록 한다. 이와 같은 공정하에서 데이터베이스의 확고함, 분석을 수행하는데 사용되는 알고리듬의 위력, 및 이 공정에서 얻어지는 결과의 신뢰 구간을 지속적으로 향상시킬 수 있는 방법은 없다.
진단 정보를 처리하기 위한 강력한 알고리듬을 창출하는 한가지 방법으로서 인공신경망(ANN)이 제안되었다. 미국 특허 제6,058,322호(Nishikawa) 및 미국 특허 제5,769,074호(Barnhill)에 예시되어 있다. ANN은 기존의 문제점을 해결하지는 못한다.
반힐(Barnhill)에 의해 개시된 바와 같은 ANN은 각 데이터 성분에 유의성이 부여되도록 훈련된 망과 다양한 데이터를 비교한다. 예를 들어, 전립선 암의 진단을 위해 샘플을 분석하는 경우, 망이 고찰하도록 훈련된 2가지 데이터 성분은 PSA와 연령이다. 망은 한 연령에서의 소정의 PSA 농도가 다른 연령에서의 동일한 PSA 농도 보다 암 존재의 지표인자로서 가중치가 주어질 수 있도록 훈련될 수 있다.
이러한 ANN은 사례들을 토대로 다변량(가중치) 수학적 모델을 만든 뒤, 이 모델을 실제 증례에 적용함으로써 다변량 문제를 해결한다. 이 과정을 일반적으로 훈련(training)이라고 한다. 망 자체는 데이터를 비교하는데 사용하기 위하여 궁극적으로 최선의 규칙을 선택할 수 있다. 하지만, ANN은 사용을 위해 준비하기 전에 소정의 통계적 요건(예, 신뢰도 수준 및 예상하는 양성값)이 충족되도록 훈련되어야 한다. 이러한 점에서 상기 반힐 특허에 개시된 바와 같은 ANN은 정적이다. 데이터는 훈련용, 시험용 또는 샘플 증례로서 각각 사용되고 있고, 훈련은 연속 공정이 아니다.
반힐 특허의 또 다른 특징은 실시된 비교가 훈련 과정의 부분으로서 통계적 분석을 통해 도달한 "정상" 값에 반드시 기초해야 한다는 점이다. 훈련 행위 자체는 정상 범위를 결정하거나 설정하는 행위이다. 일단 훈련되면, ANN을 조회하여 이러한 정상값과 실제 환자의 데이터를 비교하여 진단 또는 예후를 평가하게 된다. ANN의 알고리듬 양태와는 별개로, 이것이 예를 들어 PSA와 같은 전형적인 혈청 마커의 임상 측정에 관한 데이터의 다소 표준적 처리이다. ANN이 없다면, 담당의사는 상기 혈청 마커의 수준을 참조용으로 제공된 정상값과 단순히 비교할 것이다. ANN의 위력은 사람이 동시에 고찰하기 어려운 많은 변수를 설명하도록 정상 범위를 형성시킨다는 점이다.
ANN은 진단 알고리듬 및 데이터베이스의 임상 사용 동안 진단 또는 예후와 유전자 프로필 사이의 관계를 향상시키기 위하여 유전자 관련 지표인자(예, 특정 결실 서열, 표성 돌연변이)의 수 및/또는 유의성을 확대 또는 축소시키는 과정이 없다.
미국 특허 제6,056,690호(Roberts)는 진단학적 결정 지지 도구를 제작하는데 있어서 베이시안 망(Bayesian networks)의 사용에 대하여 제안하고 있다. 베이시안 망은 또한 신뢰망(belief networks) 또는 원인 개연망이라고도 불리고 불확실성하에 추리하기 위하여 개연론을 보강물로서 사용한다. 이러한 추리를 설명하는 베이시안 망의 능력은 대부분의 ANN에 비하여 중요한 차이가 있다. 그럼에도 불구하고, 로버츠는 이 시스템의 임상적 사용의 함수로서 추리 공정 자체를 향상시키는 방안에 대해서는 제안하지 않고 있다.
미국 특허 제5,966,711호(Adams)는 결과 표로부터 데이터베이스와 알고리듬을 갱신하기 위하여 자발적인 정보 제공자의 사용에 대하여 제안하고 있다. 이 특허는 서로 상호작용하는 알고리듬과 데이터베이스 시스템의 구조에 관한 것이다. 이 시스템에서 갱신된 성분은 기본 시스템이 보조를 필요로 할 때, 예를 들어 서열 조사 결과 밀접한 일치성을 나타내지 않을 때 기본 시스템과 정보를 교환할 수 있다. 이 특허에서는 디몬 갱신 프로그램을 만들기 위해 사용한 데이터의 유효성 입증이나 또는 데이터의 소스에 대해서는 설명하지 않고 있다. 유효성 입증없이 샘플 크기의 증가에 기초하여 통계적 신뢰성을 향상시킬 것으로 예상되는 조작은 문제를 일으킬 수도 있다. 예를 들어, 디몬 프로그램이 기본 시스템에 없으면서 유효성이 입증되지 않은 유전자 발현 데이터를 포함한다면, 그 프로그램의 사용은 사실상 생성된 결과에 불확실성을 부가할 것이다. 더욱이, 이 특허에서는 통계적 신뢰성의 증가가 심지어 가능한지도 나타내지 않고 있다. 이것은 디몬이 기본 시스템에 사전에 제공되지 않은 정보 단계 및 프로그래밍 단계만을 끼워 넣는데 사용되기 때문이다. 하지만, 이미 존재하는 정보를 재도입시켜 샘플 크기를 증가시키고 이로부터 통계적 신뢰성을 얻기 위해 상기 디몬을 사용하는 방법에 대해서는 전혀 언급되어 있지 않다.
미국 특허 제5,024,699호는 환자의 시험 결과를 입력하고 이에 기초하여 환자에게 임상적 조언을 제공하는 시스템의 설립에 대하여 제안하고 있다. 이 특허는 이 결과에 기초하여 의약 투여량 알고리듬을 변화시키는 방법에 대하여 기술하고 있다. 이 경우에 알고리듬은 결과를 입력시킨 환자에게만 관련이 있다. 이는 데이터가 전체 환자의 수집물을 통해서 해석되는 방식에 영향을 미치는 체계적인 알고리듬이 아니다.
분석적 진단 서비스를 제공하는 방법은 이 서비스를 제공하는데 사용되는 정보 산물의 위력과 유용성을 지속적으로 갱신시키는 방법이 유리할 것이다. 다양한 소스의 진단학적 정보를 조합하는 능력은 유전자에 기초한 진단학의 정밀성과 정확성을 증가시킬 것이다. 또한, 진단학적 서비스를 관련 과제를 분배하여 전달하는 방법 역시 수행되는 서비스의 효율, 적기 및 품질을 향상시킬 것이다.
도 1은 본 발명의 방법을 설명하는 흐름도이다.
본 발명은, 생물학적 샘플의 유전자 물질의 적어도 일부 조성, 당해 유전자 물질의 작용 또는 단백질을 측정하기 위하여 생물학적 샘플을 시험하여 얻어진 결과를 분석하는 단계, 이러한 분석을 통해 얻어진 정보를 후속되는 생물학적 샘플의 분석에 통합시키는 단계를 포함하여, 임상 진단 서비스를 제공하는 방법을 제공한다. 분석 결과는 제3자(즉, 건강관리 공급자)에게 통보될 수 있다.
본 발명의 또 다른 양태는 생물학적 샘플을 수집하는 단계, 수집한 샘플의유전자 물질의 적어도 일부 조성, 당해 유전자 물질의 작용 또는 단백질을 측정하기 위하여 생물학적 샘플을 분석하는 단계, 분석 결과를 보고하는 단계(예컨대, 건강관리 공급자에게 보고), 및 분석을 통해 얻은 정보를 후속되는 생물학적 샘플의 분석에 통합시키는 단계를 포함하여, 임상 진단 서비스를 제공하는 방법을 제공한다. 이와 같은 분석을 통해 얻은 정보는, 예를 들어 사용된 정보 산물의 알고리듬이나 데이터베이스 성분을 향상시키기 위하여 그 정보를 사용하여 후속 분석에 통합시키거나 분석의 통계학적 신뢰성을 향상시키는데 사용할 수 있다.
본 발명은 또한 이러한 방법을 이용하기 위한 시스템 및 이러한 시스템에 유용한 제조 물품(예컨대, 알고리듬을 실행하고 데이터베이스를 조작하는 지침서를 포함하는 컴퓨터 판독가능한 매체)도 제공한다.
용어 정의 :
본 명세서를 통해 사용된 용어는 다음과 같다:
"내부 데이터베이스"는 샘플의 서열이나 프로필이 비교되는 생체분자 서열(예컨대, 뉴클레오타이드 및 아미노산)을 포함하는 데이터베이스를 의미한다. 이 데이터베이스는 소정의 서열이 관찰된 라이브러리와 같은 서열과 관련된 정보, 이 서열과 관련된 가능한 유전자에 관한 설명적 정보, 이 서열과 관련된 생리학적 표현, 및 샘플 서열이나 유전자 물질의 작용을 증상이나 질병 상태와 관련짓는데 유용한 기타 다른 정보를 포함할 수 있다. 또한, 이 데이터베이스는 세포 또는 조직의 종류마다 특징적인 유전자 발현 패턴, 세포 또는 조직의 종류마다 특징적인 DNA메틸화 패턴, 또는 세포 또는 조직 종류마다 특징적인 임의의 다른 유전성 또는 체세포 유래의 유전자 변이를 포함할 수 있다. 이러한 내부 데이터베이스는 매립된 데이터 구조인 생체분자의 서열을 나타내는 정보이거나 또는 필요한 경우 내부 데이터베이스에 의해 평가되는 별도의 분리된 데이터베이스에서 관찰되는 서열 데이터베이스 성분이다.
"분석용 데이터베이스(analytical database)"는 특성 규명이 요구되는 세포 또는 조직에 대한 일부 정보를 측정하는 방법에서 참조물로서 사용되는 내부 데이터베이스의 일군이다. 예를 들어, 환자로부터 분리된 세포 또는 조직이 이 세포 또는 조직의 숙주에게 유익할 수 있는 몇가지 형태의 의학적 개입을 필요로 하는 세포 또는 조직의 특징을 나타내는지의 여부를 측정하는 것이 유리할 수 있다. 이러한 종류의 분석은 선별성, 진단적, 예후적이라고 할 수 있고, 모니터링 절차일 수도 있다. 임의의 분석용 데이터베이스의 주요 특징은, 데이타베이스에 포함된 데이터가 적어도 부분적으로 조직화되어, 피검체의 정보가 특성이 규명된 참조물과 비교되고, 피검체 물질에 관하여 소정 수준의 신뢰도로 결론이 얻어질 수 있다는 점이다.
"발견용 데이터베이스(discovery database)"는 광범위한 소스에서 수집된 서열 또는 패턴 데이터를 함유하는 내부 데이터베이스의 일군이다. 발견용 데이터베이스를 분석하여 분석용 데이터베이스의 성분으로서 유용성이 있을 수 있는 서열이나 패턴을 확인한다. 일단 발견용 데이터베이스의 성분이 유의적인 측정 수준에 도달하면, 분석용 데이터베이스에 넣는다. 이것은 사전에 프로그램된 규칙에 따라일어날 수 있다. 발견용 데이터베이스는 다중 매개변수를 동시 또는 후속적으로 이용하여 다중 조회를 허용하는 수준의 체계를 갖고 있다. 일반적으로, 발견용 데이터베이스에 입력된 데이터에는 임상 정보가 주석으로 첨부된 유전자 데이터를 포함할 것이다. 이것은 환자의 사생활 보호에 관하여 현재 허용되는 상태를 반영한다. 예를 들어, 의심되는 전립선 종양에서 얻은 생검의 RNA 발현 프로필은 그 발현 데이터가 환자의 의학적 병력과 현 질병 상태의 전체 프로필과 전자적으로 연결되어 있다면 상기 데이터베이스에 도입될 수 있다. 이후 환자에 대한 데이터를 수집하여 그 패턴의 주석 부분에 첨가하는 기작을 사용할 수 있다. 환자에 관한 데이터는 익명이거나 코드화될 수 있고 데이터베이스로의 입력도 코드화될 수 있다(예컨대, 이하에 여러 문맥에서 기술된 태그 사용). 코드가 환자나 담당의사에게 전달되고 발표시 새 데이터는 코드에 첨부되어 전달된다. 이러한 코드는 주석을 정확하게 배치시키는 역할을 한다. 코드를 가진 자, 즉 담당의사 또는 환자만이 신원을 확인할 수 있는(환자와 관련하여) 데이터에 접근할 수 있다.
"참조용 패턴" 또는 "참조 서열"은 발견용 데이터베이스에서 확인되고 진단적 또는 예후적 유용성이 있는 것으로 밝혀진 서열이나 패턴이다. 참조 서열이나 패턴은 일반적으로 발견용 데이터베이스에서 발견된 후 의학적 실습에 사용하기 위하여 분석용 데이터베이스로 전송된다. 참조 물질의 흐름은 발견용 데이터베이스로 부터 분석용 데이터베이스로 단일방향성인 것이 일반적이지만, 참조 서열이나 패턴의 전체 또는 일부로서 결정되어야 하는 서열이나 패턴의 흐름은 분석용 데이터베이스로 입력된 후 발견용 데이터베이스로 전송되거나 또는 발견용 데이터베이스로 직접 입력될 수 있다.
"외부 데이터베이스"는 내부 데이터베이스의 외부에 위치한 데이터베이스를 의미한다. 일반적으로, 이 데이터베이스는 내부 데이터베이스를 유지하는 기업과는 상이한 기업에 의해 유지된다. 본 발명에 있어서, 외부 데이터베이스는 주로 내부 데이터베이스에 저장된 다양한 서열에 대한 정보를 수득하기 위하여 사용되는 것이다. 외부 데이터베이스는 유전자 발현 데이터베이스에 저장된 약간의 설명적 정보를 제공하기 위하여 사용될 수 있다. 바람직한 구체예로서, 외부 데이터베이스는 진뱅크(GenBank)이고 관련 데이터베이스는 국립 의학 도서관의 일부인 국립 생명공학 정보 센터[National Center for Biotechnology Information(NCBI)]에 보존되어 있다. GenPept는 진뱅크의 모든 단백질 데이터베이스를 포함하는 관련된 공개 단백질-서열 데이터베이스이다. 외부 데이터베이스의 다른 예로는 시애틀에 있는 프레드 헛친슨 캔서 리서치 센터(Fred Hutchinson Cancer Research Center)에서 운영하고 있는 Blocks 데이터베이스 및 제네바대학에서 운영하고 있는 Swiss-Prot 사이트를 포함한다.
"기록"은 데이터베이스 표에 입력하는 것을 의미한다. 각 기록은 1 이상의 영역 또는 속성을 포함한다. 제시된 기록은 기록의 1차 양식으로 알려진 하나의 영역 또는 속성 또는 이의 조합으로 특이적으로 기재할 수 있다.
"서열"은, 핵산인 경우에, 포함되는 순서에 따라 핵산을 구성하는 1 이상의 뉴클레오타이드를 의미한다. 단백질인 경우에, 포함되는 순서에 따라 단백질을 구성하는 1 이상의 아미노산을 의미한다.
"패턴"은 공지 및 샘플 유전자 물질 또는 단백질 구조(예, 아미노산 서열) 사이의 비교의 기반을 형성하는 서열 또는 서열 그룹을 의미한다. 패턴은 일군의 유전자 서열의 작용일 수 있다. 예를 들어, 패턴은, 관찰된 작용이 아폽토시스와 같은 특이적 생리학적 활성의 특징 또는 진단성을 나타내거나, 또는 질병 발생의 특징을 나타내는 경우 일정 유전자 군의 상대적 유전자 발현 활성일 수 있다. 또한, 상대적 유전자 발현 수준의 패턴은 암세포 또는 암조직의 가능한 발생 과정을 나타낼 수 있다. 이러한 종류의 패턴을 때로 세포 또는 종양 프로필, 유전자 신호 또는 발현 프로필이라 부르기도 한다. 따라서, 패턴을 측정하는 행위를 일반적으로 프로필링이라고 부른다. 또한, 패턴은 표성 변화와 같은 유전자 물질의 다른 구조적 또는 작용적 인식 특징을 포함할 수 있다. 예를 들어, 패턴은 일군의 유전자의 DNA 메틸화 상태일 수 있다. 메틸화 패턴은 복수 유전자의 상대적인 저메틸화 또는 과메틸화 상태일 수 있으며, 이러한 메틸화 패턴은 아폽토시스와 같은 특이적 생리학적 활성의 특징 또는 진단성을 나타내거나 질병 발생의 특징을 나타낼 수 있다. 또한, DNA 메틸화 패턴은 암세포 또는 암조직의 가능한 발생 과정의 지표일 수 있다. 패턴은 또한 단일 뉴클레오타이드 다형성(SNP: Single Nucleotide Polymorphism) 그룹과 같은 유전자 변화 또는 돌연변이의 그룹일 수 있다. 예를 들어, SNP가 재생가능하여 개체의 게놈내에 공존하는 것으로 관찰되고 이러한 SNP 그룹이 상호관련적이고/이거나 예측적이라는 확신이 있다면, 이 SNP는 패턴을 구성한다. SNP 패턴은 게놈을 통해 이격된 SNP를 포함하거나 또는 공동으로 유전된 SNP가 결합 불균형 상태에 있는 반수체를 형성할 수 있다. 패턴은 또한 전술한 임의의 유전학 현상으로부터 안출될 수 있는 보존적인 동시 현상을 포함할 수 있다. 예를 들어, 패턴은 특정 유전자 중의 SNP, 20개의 규정된 유전자의 특이적인 상대적 발현 수준, 염색체 결실의 재현가능한 결실(예컨대, 이형접합성의 상실) 및 일정 염색체의 과메틸화 영역을 포함할 수 있다. 이와 같은 현상의 수집물을 패턴화하는 일정한 특징은 모든 유전자 변화를 보유하는 동일 개체내의 총체적인 표현형이나 질병의 예측, 진단 또는 예후에 도움을 준다.
유전자 물질의 "작용"은 서열을 명시하는 방식을 의미한다. 핵산 서열의 경우, 유전자 또는 서열의 발현은 그 서열의 작용의 하나의 척도이다.
서열 분석
핵산 서열을 측정하는 방법은 현재 공지되어 있다. 1차 뉴클레오타이드 서열분석은 디데옥시 종결 서열분석법을 비롯한 다수의 방법으로 완성할 수 있다. RNA 또는 DNA의 상대적 농도의 존재 유무 또는 정량 분석은 노던, 서던 블롯팅, 원 위치(in situ) 하이브리드화, 슬롯 또는 도트 블롯팅을 비롯한 많은 공지된 방법으로 완성할 수 있다. 보다 최근에는, 다양한 서열이 존재하는지, 그리고 동정화된 유전자가 발현되는지를 측정하기 위하여 마이크로어레이(microarray) 기법을 사용하였다. 이러한 마이크로어레이 기법의 몇가지 예는, 본원에 참조로서 각각 인용된, 미국 특허 제6,004,755호; 제6,051,380호; 제5,837,832호에 찾아볼 수 있다. 이 방법은 일반적으로 표지된 다수의 올리고뉴클레오타이드가 결합되는 기질을 이용한다. 결합된 올리고뉴클레오타이드에 상보적인 서열을 함유하는 샘플을 기질이 결합된 올리고뉴클레오타이드와 접촉시킨 경우, 이 방법은 하이브리드화가 일어났는지를 나타내는 일부 신호 형태를 이용한다. 예를 들어, 용액계 분자, 일반적으로 샘플은 표지될 수 있고 표지의 존재는 형광현미경 또는 방사선사진술로 검측한다. 대안적으로, 두 분자가 결합하여 형광과 같은 몇몇 검측가능한 현상을 생성하기도 한다. 마이크로어레이계 방법은 많은 여러 기술(예컨대, 일부는 수동적이고, 다른 일부는 능동적임)을 이용할 수 있지만, 모두 다수의 서열을 동시에 동정하고 특성규명하는 효력을 갖고 있다. 평행한 다수의 서열을 분석하기 위하여 cDNA 서열분석, 유전자 발현의 연속 분석(Serial Analysis of Gene Expression; SAGE) 및 특정 올리고뉴클레오타이드가 태그화된 비드에 결합되어 있는 용액계 어레이의 사용을 비롯한 기타 다른 방법을 사용할 수 있다. 용액 하이브리드화 후, 하이브리드화의 작용은 일정 범위의 공개된 방법으로 검측한다. 핵산 서열을 측정하는 임의의 방법이 본 발명의 실시와 함께 사용될 수 있지만, 전술한 마이크로어레이 접근법과 같은 고도의 병행 방법이 가장 바람직하다. 아미노산 서열을 측정하는 방법 역시 잘 알려져 있다.
본 발명의 방법을 실시하기 위하여, 서열 정보 또는 유전자 발현 프로필을 수득한다. 따라서, 일부 시점에서 환자의 샘플이 수득되어야 한다. 서열 정보를 측정하기 위하여 샘플을 분석할 수만 있다면 사용될 수 있는 샘플의 종류에는 제한이 없다. 따라서, 샘플은 순환혈액, 조직 생검, 세정, 서열을 포획할 수 있는 임의의 다른 방법으로 수득할 수 있다. 이와 같이 샘플을 추출하는 일련의 방법이 가능하다.
서열 정보는 다양한 방법으로 생성 및 제시될 수 있다. 예를 들어, 형광 표지된 올리고뉴클레오타이드를 결합시킨 마이크로어레이를 사용한다면, 판독기를 사용하여 각각 결합된 샘플의 올리고뉴클레오타이드를 그래프로 도시할 수 있다. 이 그래프는 각각의 검출가능한 현상의 강도가 측정가능하도록 디지털화할 수 있다. 이것은 RNA 절편의 생성 측정이 중요한 지표인 경우, 유전자 발현 분석에 매우 유용할 수 있다. 대안적으로, PCR 반응을 1회 이상 실시하여 특정 절편이 존재하는지를 간단히 알아낼 수도 있다. 그 다음, 정보는 표, 데이터베이스 등으로 정리할 수 있다.
본 발명의 실시에는 서열 정보 또는 유전자 발현 프로필을 나타내는 모든 방법을 사용할 수 있다.
생물정보학
전술한 바와 같이 생물정보학 시스템의 진단학적 유용성은 대부분 샘플 서열이나 발현 패턴을 공지된 서열이나 공지된 발현 패턴과 비교 또는 일치시키는 방법으로부터 얻어진다. 이러한 목적을 위해 다양한 기법을 이용할 수 있다. 구조 데이터(예, 게놈 서열) 및 발현 데이터(예, 유전자 발현 프로필)의 비교는, 공지된 패턴과 샘플 패턴 사이에 패턴의 일치가 이루어지기 때문에, 동일하거나 유사한 접근법을 사용하여 실시할 수 있다. 조회 서열(서열 목록의 서열)로서 환자 샘플의 뉴클레오타이드 서열 데이터를 사용하여, 이전에 동정된 서열을 함유하는 데이터베이스를 상동성(유사성) 영역에 대하여 조사할 수 있다. 이러한 데이터베이스의예로는 진뱅크(GeneBank)와 EMBL이 있다.
사용될 수 있는 1가지 상동성 조사 알고리듬은 문헌[D.J.Lipman and W.R.Pearson, entitled "Rapid and Sensitive Protein Similarity Searches", Science, 227, 1435(1985)]에 개시된 알고리듬이다. 이 알고리듬에서 상동성 영역은 2단계 방식으로 조사된다. 제1 단계에서 최고의 상동성 영역은 상동성 스코어 표를 사용하여 일치 스코어를 계산하여 결정한다. 이 단계에서는 매개변수 "Ktup"를 사용하여 두 서열을 비교하기 위해 이동되는 최소 윈도우 크기를 설정한다. Ktup는 또한 서열 중에서 최고의 상동성 영역을 추출하기 위해 일치를 이루어야 하는 염기의 수를 설정한다. 이 단계에서는 삽입이나 결실을 적용하지 않았고 상동성은 초기(INIT) 값으로 나타내었다. 제2 단계에서 상동성 영역은 가능한 결실부를 첨가하기 위해 갭을 삽입하여 최고의 일치 스코어가 얻어지도록 정렬한다. 제1 단계에서 얻어지는 일치 스코어를, 상동성 스코어 표와 삽입 스코어 표를 사용하여 다시 계산하여 최종 결과에서 최적(OPT)값을 얻는다.
두 서열 사이의 DNA 상동성은 도트 매트릭스 상동성 플롯을 제작하는 Harr 방법[Needleman, S.B. and Wunsch, C.O., J.Mol.Biol. 48:443(1970)]을 사용하여 그래프로 조사할 수 있다. 이 방법은 상동성 영역 대 반복 영역을 측정하는데 유용할 수 있는 2차원 플롯을 생산한다.
그러나, 바람직한 구체예 군에서 샘플 및 참조용 패턴에서 얻어지는 핵산 서열과 발현 데이터 사이의 비교는, Factura 소프트웨어(Applied Biosystems Inc.에서 시판)로 알려진 소프트웨어를 비롯하여 INHERIT 670 Sequence AnalysisSystem(Applied Biosystems Inc.에서 시판; 미국 캘리포니아 포스터 시티 소재)으로 알려진 시판용 컴퓨터 프로그램에서 환자의 샘플로부터 얻어진 데이터를 처리하여 수행한다. 상기 팩추라(Factura) 프로그램은 각 샘플 서열을 전처리하여 폴리-A 테일 및 반복성 GAG 및 CCC 서열과 같은 목적 서열일 가능성이 없는 부분을 "삭제"한다. 저급의 조사 프로그램을 작성하여 상기 "저급 정보" 서열을 차폐하거나 BLAST와 같은 프로그램은 저급 정보 서열을 무시할 수 있다.
INHERIT 670 Sequence Analysis System으로 수행되는 알고리듬에서, 상동성 영역을 측정하기 위하여 패턴 스페시피케이션 랭귀지(Pattern Specification Language(TRW Inc. 개발))를 사용한다. "INHERIT 분석이 서열 비교하는 방식을 측정하는 3개의 매개변수, 즉 윈도우 크기, 윈도우 오프셋 및 오류 허용오차가 있다. 윈도우 크기는 조회 서열이 분할된 절편의 길이를 나타내는 것이다. 윈도우 오프셋은 이전 절편의 개시점에서부터 계수하여 다음 절편(비교될 절편)이 개시되는 위치를 나타내는 것이다. 오류 허용오차는 특정된 단어 길이 상에서 허용되는 삽입, 결실 및/또는 치환의 총 수를 나타내는 것이다. 오류 허용오차는 0 내지 6 사이의 임의의 정수로 설정될 수 있다. 디폴트 설정값은 윈도우 허용오차=20, 윈도우 오프셋=10, 오류 허용오차=3이다."[참조: INHERIT Analysis Users Manual.pp2-15. Version 1.0. Applied Biosystems, Inc. October, 1991]. 이러한 3개의 매개변수의 조합을 사용하여 상동성 영역을 포함하는 서열을 데이터베이스에서 조사하고 적당한 서열을 초기값으로 스코어를 기록한다. 이어서, 도트 매트릭스 상동성 플롯을 사용하여 상기 상동성 영역을 조사하여, 상동성 영역 대 반복 영역을 결정한다.스미드-워터만(Smith-Waterman) 정렬을 사용하여 상동성 연구 결과를 나타낼 수 있다. INHERIT 소프트웨어는 UNIX 운영 체계로 프로그램된 Sun 컴퓨터 시스템에 의해 실행될 수 있다.
INHERIT 대신에 사용할 수 있는 조사 프로그램으로는 BLAST 프로그램, GCG(판매원: Genetics Computer Group, WI) 및 Dasher 프로그램(Temple Smith, Boston University, Boston, MA)을 포함한다. 뉴클레오타이드 서열은 진뱅크, EMBL 또는 통상의 내부 데이터베이스 예컨대, GENESEQ, (판매원: Intelligenetics, Mountain View, CA) 또는 유전자에 대한 다른 내부 데이터베이스에 대하여 조사될 수 있다.
BLAST(Basic Local Alignment Search Tool: 기본 국재 정렬 조사 기구) 프로그램 및 스미드-워터만(Smith-Waterman) 알고리듬은 두 서열 사이의 갭이 없는 유사성 영역을 조사한다. 이를 수행하기 위하여 (1) 두 서열의 유사 영역간의 정렬(alignment), (2) 서열간의 동일성%을 측정한다. 정렬은 실질적인 유사성 영역을 염기끼리 일치시켜 계산한다. 이 영역에서 동일한 염기는 +5로 스코어를 기록하고 불일치 염기는 -4로 스코어를 기록한다(핵산의 경우). 스코어가 충분히 높은 연속 염기의 영역은 높은 스코어 기록 쌍(High Scoring Paris: "HSP")으로 간주한다. BLAST에서 최고 HSP의 스코어(BLAST 스코어로 부르기도 함)는 결과로서 제공된다. 또한, 정렬의 경우와 마찬가지로, 각 HSP 마다 동일성%을 계산하여 BLAST 결과로서 제공한다. 마지막으로, 각 HSP 마다 P값을 계산한다. P값은 관찰된 유사성이 무작위적 발생에 의해 생성되었을 것이라는 확률을 나타낸다. 보다 낮은 P값은 관찰된 유사성이 무작위적 현상 때문이 아니라는 보다 큰 확신을 나타낸다.
프로덕트 스코어(Product Score)는 BLAST 결과 매개변수의 표준화된 요약을 나타내고, 조회 서열과 일치 서열 사이의 정렬의 특성을 나타내는데 사용한다. 구체적으로, 프로덕트 스코어는 BLAST 일치의 강도를 나타내는 표준화된 값으로서, BLAST 정렬의 특성과 단편적 중첩 사이의 균형을 나타낸다.
수많은 다른 서열 일치/분석 알고리듬이 이용가능하다. 예를 들어, FASTA 법은 먼저 해싱(hashing)이라고 하는 공정에서 짧은 완전한 일치 서열의 최대수를 비교한다. 최고 일치성 서열을 그 다음 제1 비교에서 사용한 기준과는 다른 별도의 기준에 따라 일치를 기록하는 제2 분석으로 처리한다. 마지막으로 최고 일치성 서열을 정렬시키고 정렬의 근접성에 관한 매개변수를 기반으로 한 스코어를 제공한다.
본 발명의 일 양태에 있어서, 일치성 알고리듬 및 관련된 데이터베이스는 증상이나 질병 상태의 진단, 예후 또는 단계화에 도달하는데 사용되는 시스템의 일부를 포함할 수 있다. 이 시스템의 또 다른 양태는 각 샘플의 분석동안 평가되는 서열이 후속되는 샘플 서열을 비교하는데 사용되는 분석용 데이터베이스에 통합되도록 계속 갱신되는 내부 데이터베이스이다. 즉, 환자 샘플 분석으로부터 발생된 서열은 이후에 참조용 패턴에 통합시킨다.
환자 샘플의 핵산 서열 또는 유전자 발현 프로필을 공지된 서열 또는 프로필과 일치시키는데 사용되는 데이터베이스는 동정된 서열에 임상적 의미를 부여하기 위하여 그 서열과 임상적 결과를 상호관련짓는다. 이와 같은 상호관련성은 저장한 뒤 상동성을 측정하는데 사용된 동일한 데이터베이스로부터 처리되거나 또는 별도의 데이터베이스에 저장 및 유지하고 여기에 상동성 결정 데이터베이스와 알고리듬을 결부시킨다. 일예로서, 아직 밝혀지지 않은 다른 핵산 서열의 존재 유무와 함께 her-2-neu 유전자의 증폭을 나타내는 핵산 서열은 환자에게서 침습 유방암이 발병되고 있음을 나타낼 수 있다. 이와 마찬가지로, 유전자의 상승된 발현 또는 상당히 감소된 발현 또한 세포 종류의 무한 증식을 나타낼 수 있다. 이 서열들이나 유전자 발현 프로필과 환자 샘플의 서열이나 프로필 사이에 상동성이나 패턴 유사성이 형성되면, 분석용 데이터베이스에서 그 서열 또는 프로필에 원인을 둔 임상적 의미와 상기 서열 또는 프로필을 조합시킨다. 그 다음 임상적 결과(즉, 정보)가 생성되어, her-2-neu 유전자의 경우에 환자에게서 침습 유방암이 발병되고 있다는 것을 시사한다.
유전자 발현 프로필의 설정은 예컨대 종양이 확인된 적이 있는 환자가 재발할 수 있는지를 예측하는데 유용한 다음과 같은 공정을 통해 수행한다. (1) 구별가능한 관계를 한정하는 단계(예컨대, 재발 또는 생존), (2) 목적 패턴을 예측하는 활성에 대하여 각 유전자의 스코어를 기록하고, 이 스코어들의 통계적 유의성을 평가하는 단계, (3) 정보를 제공하는 유전자의 서브세트를 선택하는 단계, (4) 이 서브세트를 기반으로 한 예측 법칙을 구축하는 단계, (5) 그 법칙을 초기 데이터 세트 및 독립된 데이터에서 유효성을 확인하는 단계를 포함하는 클래스 예상 모델을 설정한다. 이러한 도식은 다양한 종양 유래의 데이터를 분석하는데 성공적이었다. 이 방법은 일반적으로 스코어의 선택, 유효범위의 계산 및 법칙 구축의 정확한 방법에 따라 달라진다.
특정 유전자 발현 마커를 선택하기 위하여, 각 유전자를 암의 지표이거나 암과 관련이 있는 유전자의 마이크로어레이 상에서 두 클래스의 목적하는 구별성을 지닌 각 유전자의 "유사성"에 따라 스코어를 기록한다. 상이한 거리 및 치수는 상기 스코어로서 이용될 수 있다. 이 공정으로부터, 유전자 목록이 만들어지고 또 다른 고려 사항에 따라 더욱 축소시켜 시그니춰(signature) 서브세트를 만든다.
이와 같이 축소된 시그니춰 서브세트의 목록으로부터 예측인자(predictor)를 제작한다. 이 예측인자에서, 유전자 각각은 클래스(재발 또는 생존) 중 하나에 가중된 표를 던지고, 더 많은 표(일정 승리 한계치 이상)를 받은 클래스는 예측을 얻게 된다. 각 유전자의 표의 가중치(weight)는 그 스코어로 알 수 있는 그 "특성"과 새 샘플에서의 발현 수준에 따라 달라진다. 각 클래스에 던져진 표를 합하고 비교하여 승리 클래스 뿐만 아니라 승리 한계의 척도인 예측 강도를 결정한다. 샘플은 예측 강도가 소정 한계치 이상인 경우에만 승리 클래스에 할당한다.
예측인자는 대부분의 분류 방법이 예측인자의 설정시 사용된 실시예에서 양호하게 작용하는 바, 유효성을 교차 확인하고, 바람직하게는 독립된 데이터 세트와 함께 평가한다. 샘플은 유효성 확인을 위해 2 이상의 그룹으로 나눌 수 있다. 또는, 일반적으로 사용되는 유효성 교차 확인 방법, 예컨대 Leave-One-Out Cross Validation(LOOCV)법이 사용될 수 있다. 또한, 환자의 예후 데이터와 평가된 마커 발현 사이의 관련성을 시험하기 위하여 다변량 분석법을 적용할 수 있다.
발현 정보를 비교하기 위한 예시적 방법은 다음과 같다: 표지된 cDNA 분자를 상보적인 핵산 서열과 표지(예, 형광인)를 포함하는 마이크로어레이에 하이브리드화한다. 이 마이크로어레이를 그 다음 스캐닝하고 스폿의 강도를 기록한다. 그 다음 강도 데이터의 행렬을 제조한다.
그 다음, 참조용 유전자 발현 벡터를 제조한다. 구별될 샘플의 그룹을 나타내기 위하여 A, B,...Z를 사용하고, 각 그룹에 대한 참조 유전자를 각각 제작하는데 사용된 샘플의 수를 나타내기 위하여 a,b,...z를 사용하였다. 따라서, 기호 A21은 A 그룹의 샘플 1에 존재하는 2번째 유전자의 발현 강도를 나타낸다. 각 샘플이 n 크기의 유전자와 마이크로어레이 상에 하이브리드하였다면, 다음 행렬 A, B,...Z는 각각 그룹 A, B,...Z 전체의 발현 데이터를 나타낸다.
그 다음, 각 행렬에서 각 유전자의 기하학적 평균 발현 값을 계산하여, 다음과 같은 행렬이 제조되도록 한다[A1(geomean)이 그룹 A내의 유전자 1의 세트{A11A12... A1n}의 기하학적 평균값인 경우]:
참조용 유전자 발현 벡터는 그 벡터들의 기하학적 평균값이다.
여기에서은 {A1(geomean)B1(geomean)... Z1(geomean)}의 기하학적 평균값이다.
참조용 유전자 발현 벡터를 제조한 후, 본래의 데이터 세트를, 각 유전자에 대한 참조용 유전자 발현값에 상대적인 비율을 log를 취해 변환시킨다. 그 결과, 행렬 {A' B' ... Z'}이 얻어진다.
여기에서이고이다. 이 값들은 각 유전자의 평균값에 대한 증가 또는 감소 배율을 나타낸다.
구별력이 약한 유전자를 그 다음 행렬 {A' B'...Z'}로부터 제거한다. l에서 n까지의 유전자 i의 경우, 유전자 i의 구별력 값 {A'i1, A'i2, ... A'ia, B'i1, B'i2, ... B'ib, Z'i1, Z'i2, ...Z'iz} 이 절대수로서 한계값(바람직한 구체예에서 ln3) 보다 크지 않다면, 모든 행렬로부터 유전자 i를 제거한다. 다시 말하면, 진단학적으로 관련있는 유전자가 고찰되도록 하기 위해서, 구별력값은 한계값(바람직하게는 ln3)보다 크거나 동일하게 절대값으로서 모든 행렬에서 1 이상의 값이어야 한다. 구별력이 약한 유전자를 제거한 행렬은 이제 행렬 {A" B" ...Z"}이 된다.
그 다음, 각각 얻어진 행렬 {A" B" ...Z"}에 시그니춰 추출 알고리듬을 적용하여 다음과 같은 시그니춰를 창출한다. 이 경우에 사용된 알고리듬을 맥스코(Maxcor) 알고리듬이라 부르고 각 그룹 {A" B" ... Z"} 마다 각각 작용한다. 행렬내 종렬의 각 쌍에 있어서, 평균(하기에 제시함) 보다 높고, 평균이고, 낮게 좌표적으로 표현된 유전자는 각각 1, 0 및 -1로 표시하여 쌍을 나타내는 가중치 벡터를 산출하였다. 행렬 A"에 있어서, a(a-1)/2 쌍별 계산을 실시한다. 그룹 A의 시그니춰라고 불리기도 하는 최종 평균 가중치 벡터는 행렬 A"의 모든 a(a-1)/2 가중치 벡터의 평균값을 취하여 계산한다. 따라서, 시그니춰는 A"와 동수의 유전자를 포함하고 그 값은 [-1,1]내에 포함되는 것이어야 한다. 여기에서 -1과 1은 모든 그룹의 평균값에 비하여 각각 저농도 및 고농도로 일정하게 발현되는 유전자를 나타낸다.
전술한 쌍별 계산은 좌표 종렬 c1 및 c2를 취하고, c1i
(여기에서,은 횡렬 c1의 평균값이고 Sc1은 표준 편차임)이 되도록 각 값을 표준화하여 실시한다. c1' 및 c2'에 있는 각 유전자 쌍의 경우, 그 곱셈값을 벡터 p12에 저장하고, p12내의 각 값은 최저값에서 부터 최고값까지 분류된다. 그 다음, 공칭 컷오프 값(바람직한 구체예에서 0.5)을 사용하여 p12내에서 곱셈값이 보다 큰 모든 유전자를 수집한다. 그 다음 종렬 c1 및 c2내의 값을 사용하는 이 유전자 세트의 피어슨(Pearson) 상호관련 계수를 계산한다. 그 후, 상호관련 계수가 통계적 관련성이 있는 수(바람직한 구체예에서 0.8)보다 커질 때까지 컷오프 값을 증가시킨다. 이것이 완료되면 이 기준을 충족하는 유전자 세트는 c1' 및 c2'내의 두 유전자 값이 양성이면 1, 두 유전자 값이 음성이면 -1로 지정한다. c1' 및 c2'내의 다른 모든 유전자는 0으로 나타낸다. 그 결과 얻어지는 벡터는 쌍을 나타내는 가중치 벡터이다. -1 및 1 값은 모든 그룹의 평균치에 비하여 저수준 또는 고수준으로 일정하게 발현되는 유전자를 나타낸다.
일단 시그니춰가 제조되면, 미지 샘플을 이에 대하여 스코어를 기록한다. 스코어를 기록하기 전에, 구별력이 약한 샘플 S내의 유전자는 제거하여 남아있는 횡렬은 시그니춰 벡터의 횡렬과 동일해져 샘플 벡터 S"를 창출한다. 스코어는 S"내 각 유전자와 시그니춰 벡터내 그 가중치의 곱셈값의 합이다. 예를 들어, 샘플 벡터 S"와 시그니춰 벡터 A" 사이의 스코어는이다. 표준화된 스코어는 (스코어-무작위적 스코어의 평균)/무작위적 스코어의 표준편차이고, 여기에서 무작위적 스코어는 S"와 유전자 위치가 무작위적인 시그니춰 벡터 사이의 스코어이다. 일반적으로, 100개의 무작위적 스코어를 만들어 평균값과 표준편차를 계산한다. 높은 스코어는 미지 샘플이 시그니춰가 유래된 샘플을 포함하거나 관련이 있음을 나타낸다.
또 다른 시그니춰 추출 알고리듬도 사용할 수 있다. 일 예는 평균 Log 비율 접근법이다. 이 알고리듬은 각 그룹/행렬 {A" B" ... Z"}에 각각 작용한다. 각 행렬에 있어서 시그니춰 벡터는 행렬의 횡렬 평균값이다. 따라서, 그룹 {A" B"...Z"}에 대한 시그니춰 벡터는 다음과 같다:
여기에서는 {A"11, A"12...A"1a}의 평균값이다.
이 접근법을 사용한 미지 샘플의 스코어 기록은 다음과 같이 실시한다. 스코어 기록 전에, 샘플 유전자 발현 벡터는 창출된 참조용 유전자 발현 벡터에 상대적인 비율의 log값을 취하여 변환시킨다. 예를 들어, 샘플 S =의 변환은 S'=을 창출한다. (여기에서 S'1이다)
그 다음, 구별력이 약한 유전자는 제거하여 남아있는 횡렬은 시그니춰 벡터의 횡렬과 동일해져 샘플 벡터 S"를 창출한다. 각 시그니춰에 대한 스코어는 S"와 시그니춰 벡터 사이의 유클리디안(Euclidean) 거리를 취하여 계산한다. 표준화된 스코어는 (스코어-무작위적 스코어의 평균)/무작위적 스코어의 표준편차이고, 여기에서 무작위적 스코어는 S"와 유전자 위치가 무작위적인 시그니춰 벡터 사이의 유클리디안 거리이다.
또한, 환자의 데이터는 전술한 조작을 수행하는데 사용된 데이터베이스(들)및 알고리듬을 향상시키는데 사용할 수 있다. 데이터베이스는 발견용 데이터베이스로부터 얻어지는 환자의 서열이나 패턴에 대한 정보를 분석용 데이터베이스에 통합시켜 향상시킨다. 이것은 샘플 크기를 증가시켜 일치 공정(임상적 의미와 서열 사이)의 통계적 신뢰성을 향상시킨다. 이것은 서열이나 패턴이 음성이나 양성의 임상 결과의 지표로서 보고되든지의 여부에 관계없이 사실이며, 단 그 결과는 정확하다. 또한, 일부 샘플은 이것이 비교되는 데이터베이스에서 서열이나 패턴에 존재하지 않는 서열이나 패턴을 보유할 것이다. 이러한 서열이나 패턴은 동일한 서열 프로필을 가진 향후의 샘플이 분석될 때 일치성을 증강시키는 추가 특징을 제공할 수 있다.
또한, 추가 신뢰성이 추가 패턴 일치의 사용을 통해 달성될 수 있는지 여부를 고찰한다. 즉, 신뢰성의 상이한 수준은 상이한 패턴과의 일치 때문일 수 있다. 따라서, 특정 진단에 도달하기 위한 최소 패턴 일치가 설정되었다면, 다이아몬드 모델(이하 설명됨)에서 과잉으로 간주되는 추가 일치의 존재 유무를 사용하여 그 결과의 신뢰성을 향상시킬 수 있다.
미국 특허 제5,692,220호(Diamond)는 알고리듬내에 일정 패턴을 포함하는지를 고려하는 경우 간단한 질문 세트를 제안한다. 먼저, 고찰 중인 패턴과 양성 일치를 형성하기 위하여 입력 데이터의 어떤 최소 세트가 제공되어야만 하는지를 묻는다. 그 다음, 패턴이 존재한다면 그 패턴을 추가 고찰에서 삭제, 즉 배제시키는 입력 데이터의 모든 단품, 또는 조합이 있는지를 묻는다. 마지막으로, 비교용으로 이미 프로그램된 다른 패턴이 고찰중인 패턴 보다 계층상 낮은 것인지를 묻는다.즉, 다른 패턴들이 고찰 중인 패턴에 의해 "철회"될 수 있는 것인지를 묻는다.
본 발명에서는, 마지막 2가지 질문에 대하여 서열 정보와 임상적 의미를 상호관련짓는 알고리듬이 변형되어야 하는지 아닌지, 그리고 어떻게 변형되어야 하는지를 결정하는 방법의 일부분으로서 응답하고 있다. 다이아몬드 모델하에서는, 패턴이 다른 패턴에 의해 철회될 수 있다면 보다 넓은 패턴을 사용할 것이다. 하지만, 보다 많은 패턴을 따라 일치된 데이터에 보다 높은 스코어를 부여하여 추가 신뢰성이 얻어질 수 있다면, 두 패턴을 모두 사용하는 것이 바람직할 것이다. 다수의 패턴 일치와 반대되는 것으로서 외견상 명확한 단일 일치를 사용할 것인지 아닌지를 고찰하는 경우에도 전술한 바와 마찬가지이다. 다이아몬드 모델은 가능하다면 단일 일치만을 사용하는 것을 제안한다. 하지만, 본 발명에서는 다수의 비교점을 사용함으로써 통계적으로 유의적인 보다 큰 신뢰성이 달성될 수 있다면 단일 일치의 사용은 바람직하지 않을 것이다.
도 1은 신뢰성을 향상시키기 위하여 발현 프로필 데이터를 진단/예후 알고리듬에 통합시키는 방법을 예시하는 흐름도이다. 신뢰성 수준, 적당한 샘플 크기 등의 고찰사항을 계산하는 통계학적 기구는 모두 잘 알려져 있다. 이 방법들을 실행가능한 컴퓨터 코드로 프로그래밍하는 방법 또한 컴퓨터 프로그래밍 분야의 전문가에게는 통상적이며 용이하게 달성될 수 있다. 이 공정을 환자 데이터의 처리와 함께 연속 및/또는 예비프로그램된 공정으로서 수행하는 행위는 본 발명의 일 양태이다. 이러한 예시적인 공정은 건강관리 공급자 또는 환자 샘플의 분석을 요구하는 다른 관련있는 제3자에 의해 단계 (100)에서 개시된다. 단계 (200)에서, 샘플이수득되고 실험실 분석을 수행하는 물리적 조작 단계가 건강관리 공급자, 실험실 또는 데이터베이스 시스템을 운영하는 제3자에 의해 수행된다. 이 단계의 최점은 서열 정보가 유래되는 유전자 물질 또는 단백질 물질의 추출 과정이다. 이 정보를 그 다음 단계 (300)에서 참조용 서열과의 비교 및 알고리듬을 통한 질문을 통해 분석한다. 참조 서열은 분석용 데이터베이스(1000)에 저장한다. 분석 수행에 사용되는 알고리듬은 데이터베이스 (1000)에 있는 프로그래밍 지시의 일부로서 수행될 수 있거나 또는 데이터베이스 (1000)에 조회 및 조작하도록 만들어진 독립적인 컴퓨터 프로그램에서 별도의 일련의 지시를 통해 작동될 수 있다. 단계 (300)에서의 분석은 결과인, 단계 (310)를 생성한다. 이 결과는 진단, 예후 또는 다른 임상적 관련 정보를 제공하기에 충분한 참조용 패턴과 일치성이 있는지를 나타낸다. 이 시스템은 일치 공정이 이전에 확인되지 못한 모든 패턴을 확인하는지 또는 이 샘플에서 이전에 확인된 패턴의 확인 (또는 그 부재)이 추가의 통계적 가치를 제공하는 지를 조회한다(단계320). 추가의 통계적 가치는 예를 들어 증가된 신뢰성 또는 예측력이 달성되도록 샘플 크기를 증가시켜 수득할 수 있다. 결과는 단계 (400) 또는 단계 (410)에서 결과를 요구하는 제3자 또는 이러한 결과가 전달되도록 지정된 곳으로 보고한다. 이 결과는 전자 통신을 통해 또는 임의의 다른 방식으로 건강관리 공급자에게 직접 전달될 수 있다. 패턴은 임상적 유의성이 있는 것으로서 이전에 확인된 바 없는 패턴을 보유하거나, 또는 보다 일반적인 경우로서 임상적 상태와 잠재적으로 관련이 있는 것으로 이전에 확인된 바 있으나 관계에 충분한 신뢰성이 형성되어 있지 않은 패턴이 나타나면 패턴을 태그화한다. 이러한 태그화는 단계(510)에서 일어난다. 태그화된 패턴은 발견용 데이터베이스 DB 2000의 단계(600)에 저장된다. 건강관리 공급자 (단계 700) 또는 공급할 위치에 있는 자로부터 임상 상태를 확인받으면, 그 데이터로부터 태그를 제거한다(단계 800). 그 다음 패턴을 발견용 데이터베이스(2000)에서 분석용 데이터베이스(1000)으로 이동시켜 후속 분석에서 참조 시그니춰로서 사용한다. 이 공정은 예를 들어 1 이상의 신규 패턴이 패턴 일치 알고리듬으로 확인되고 패턴의 상이한 부분이 별도의 확인을 필요로 하는 다른 임상적 정보와 상호관련이 있다.
본 발명의 방법은 종래 기술의 표준 진단 방법(예컨대 임상 화학 및 EIA 분석) 및 ANN에 사용된 것과 같은 의미에서 정상 범위의 설정에 의존적인 것이 아니다. 질병 상태 또는 증상을 나타내는 단일 또는 일정 핵산 또는 단백질 패턴의 경우에, 마커(예, 유전자)의 임의의 존재는 임상적 의미가 있다. 한편, 마커의 조합이 임상 진단에 사용되거나 또는 통계적 신뢰성이 일군의 마커로 인한 경우, 미지 또는 샘플이 비교되는 패턴은 지속적으로 변화할 수 있다. 패턴을 "정규형"으로 볼 수 있는 정도에 있어서, 고전적인 진단 의학에서 측정된 피분석물과 통상적으로 관련된 정규형과는 다른 동적 정규형이 있다. 이 정규형은 계속적으로 갱신되고 유효성이 확인된다.
환자 샘플에서 얻은 패턴을 분석용 데이터베이스의 참조용 패턴의 알고리듬 및 데이터베이스에 첨가하는 것은 약간의 문제를 일으킬 수 있다. 예를 들어, 종래 관찰된 바 없는 패턴이 어떻게 진단을 지지하는데 사용될 수 있는지, 어떻게 진단시 신뢰성을 약화시키는지 또는 어떻게 종래 결정할 수 없는 진단을 암시하는지 알수 있는가 하는 점이다. 본 발명의 가장 바람직한 구체예에 있어서, 초기 분석시 데이터베이스에 대하여 일치되는 서열은 몇몇 지표를 갖추고 있어(예컨대, 데이터 성분으로 "태그화"되어 있음), 진단이 독립적으로 확인된 적이 없음을 나타낸다. 이러한 가장 바람직한 구체예에서, 태그화된 서열은 발견용 데이터베이스에 존재한다. 샘플이 공지된 패턴과 일치성이 있는 서열을 나타내기도 하지만, 질병 상태 또는 신체 증상과 상호관련되지 않은 패턴을 보이기도 한다. 독립적으로, 공지된 패턴과 미지 패턴의 혼합물을 함유하는 다른 유사 패턴으로 실험을 수행한다. 미리 확인된 패턴과의 일치성에 기반을 둔 결과가 보고되지만 미지 패턴은 후속 샘플 서열을 분석하는 과정에 통합시키지는 않는다. 태그화된 데이터는 데이터 표 또는 데이터베이스(예컨대, 발견용 데이터베이스)에 전달할 수 있다. 신체 증상이나 질병 상태를 확인하는 정보를 얻고, 미지의 패턴과 소정의 임상적 증상과의 연관성이 형성되면, 지표("태그")를 제거하고 서열을 일치 공정에 완전히 통합시키거나 일치성 알고리듬을 유도하는 통계값에 통합시킨다. 새로 첨가된 패턴에 통계적 유효값을 부여하는데에는 내부 기록기를 사용할 수 있다. 즉, 패턴의 동시 발생에 대한 1차적 "확인" 및 질병 상태의 독립적인 확인은 값을 지정해주거나 그 패턴이 일정 진단에 관련이 있을 것으로 의심된다는 주석을 부칠 수 있다. 패턴을 다시 관찰하여 질병이나 증상의 존재와 상호관련성이 얻어지면 상이한 지표인자, 예컨대 질병 상태 또는 신체 증상의 가능성이 있음을 의미하는 지표인자를 부친다. 이 과정은 패턴의 존재와 질병 상태 또는 증상 사이의 관계가 공지된 통계적 방법 및 기준에 따라 정립될 때까지 실시할 수 있다.
데이터베이스에서 이 과정은 다음과 같이 수행될 수 있다:
1. 특성이 규명된 대량의 환자 샘플을 처리하여 서열이나 패턴을 확인한다. 예를 들어, 2가지 다른 종류의 세포 또는 조직을 나타내는 약 200 내지 400가지 샘플의 대량 수집물을 수집하고, 서열 또는 패턴 데이터를 발견용 데이터베이스에 입력한다. 발견용 데이터베이스는 생물정보학 방법을 사용하여 그 데이터가 유용하게 사용되는 방식으로 2종 이상의 상이한 세포 또는 조직을 구별하는 패턴이 검측될 때까지 분석한다.
2. 당해의 변동성과 관련된 패턴들의 충분한 범위를 한정하는데 필요한 데이터 세트를 분석용 데이터베이스로 전송한다. 이 데이터베이스는 "차단"되어 있고 환자의 임상 진단시 임상적 참조 기구로서 사용된다.
3. 소정의 패턴을 측정하도록 고안된 기구로 새 환자를 분석하여 진단을 실시한다. 이 신규 데이터를 분석용 데이터베이스에 대하여 비교하고 환자의 샘플과 참조용 패턴 사이의 유사성에 근거하여 통계적 평가를 실시한다.
4. 동시에 환자의 패턴을 발견용 데이터베이스에 입력한다. 이 신규 데이터를 모든 이전 데이터와 조합한다. 신규 패턴에 대하여 발견용 데이터베이스를 주기적으로 검토하는 동안에도, 새로 제출된 패턴들을 신규 데이터 세트에 포함시킨다. 결국 발견용 세트의 통계값이 증가하고 참조용 패턴의 통계 효력도 증가한다.
5. 발견용 데이터베이스에서 참조용 패턴이 얻어지고 이 패턴이 이전의 패턴들보다 통계적으로 우수한 경우 마다, 신규 패턴들이 분석용 데이터베이스를 대체하고 참조용 패턴으로서 작용한다.
바람직한 구체예에서, 발견용 데이터베이스와 분석용 데이터베이스 사이의 경계는 "분명"하다. 두 데이터베이스 사이에 어떤 물리적 분리가 형성되어 있는 것은 아니지만 분석용 도메인은 발견용 데이터베이스내에서 서브세트로 한정된다. 발견용 데이터베이스를 분석하여 분석용 데이터베이스의 참조용 패턴을 갱신하는 방법은 연속적이다.
이 방법의 중요한 변수는 상이한 패턴에 초점을 맞춘 여러 발견용 데이터베이스가 있는 경우이다. 예를 들어, 별도의 발견용 데이터베이스는 상이한 기관의 암에 초점을 둘 수 있다. 발견용 데이터베이스를 각각의 분석용 데이터베이스로 연속적으로 개량하여 얻어지는 셔플링(shuffling) 데이터 뿐만 아니라 별도의 데이터베이스를 병합시켜 하나의 대형 발견용 데이터베이스를 형성할 수도 있다. 다중 패턴의 조합시, 특히 관련 여부에 관계없이 표현형적 특징에 관한 정보를 주석으로 단 경우에는, 신규 표현형에 유용한 참조물인 전혀 새로운 패턴이 나타날 수도 있다.
태그화/태그제거 과정은 다양한 방식으로 실시될 수 있다. 적당한 디지털화된 명령을 통해 태그화 및/또는 태그제거 공정에 수동적 영향을 줄 수 있다. 예를 들어, 분석의 수혜자에게 통지할 때, 수혜자는 유전자 시험(예, 생검 및 세포 분석)과는 다른 수단을 통해 확인하면 임상 진단의 데이터베이스 운영자에게 통지하도록 권고될 수 있다. 분석 요청자가 분석 제공자와 전자 통신이 가능한 경우에는, 간단하게 접속하여 요청자가 확인 데이터를 데이터베이스에 직접 입력하여 태그를 제거하는 방식을 실시할 수 있다. 물론, 분석의 확인이 이루어질 수 없는 경우도있음을 고려해야 한다. 이런 경우에, 태그화된 데이터는 태그화 상태로 유지되거나, 따로 폐기되거나 또는 분석과 관련된 통계적 보고에 영향을 미치는데 사용될 수 있다(예컨대, 결과의 신뢰성을 저하시키는데 사용될 수 있다). 이러한 선택 방안 중 어느 것을 사용하여도 프로그래밍 견지에서는 간단한 문제이며 당업자라면 용이하게 수행할 수 있다.
바람직한 구체예
본 발명의 방법은 다양한 방식으로 실시될 수 있다. 샘플 수집, 분석, 보고, 데이터 수집, 데이터베이스 및 분석 개량 공정들은 다양하게 조합될 수 있다. 가장 바람직한 조합은 최고의 성능을 요구하는 기능들에 관여하는 다양한 당사자들의 최고의 능력을 일치시키는 것이다. 또한, 효율도 고찰되어야 한다. 가장 효율적인 방식은 분석 공정이 전술한 방식으로 계속적으로 개량되는 복잡한 알고리듬으로 대형 데이터베이스를 저장하고 조작하는 것과 관련된 필요조건들이 제공된 1 또는 몇몇의 집중된 위치에서 실시되는 것이다. 이것은 하드웨어 및 소프트웨어의 유지 및 갱신 문제를 용이하게 하고, 가장 중요하게는 알고리듬 및 데이터베이스에 대한 개량내용을 배포하는 것과 관련된 필요조건을 제한한다는 점이다. 이와 같은 맥락에서, 패턴을 얻기 위한 샘플 시험(즉, 실제 실험실 단계)은 상기 작업들이 일반적으로 최상으로 형성되고 이러한 활동을 수행할 직원을 두고 있는 지역 병원이나 조회 실험실에서 최선으로 수행될 수 있다.
가장 바람직한 방법으로는, 건강관리 공급자가 적당한 형식으로 환자 샘플을수득하는 것이다. 이것은 의심되는 질병이나 증상에 따라 달라질 수 있다. 예를 들어, 시험이 유방암에 대한 것인 경우에는 유방 조직의 생검 샘플이 적당한 샘플인 반면, 시험이 일반적인 선별방법인 경우에는 전혈 샘플이 가장 바람직할 것이다. 어떤 경우든지 적당한 샘플의 선택은 당업자에게는 당연한 것이며 이용가능한 분석 방식의 선택에 따라 달라질 수 있다.
샘플을 수집한 후, 건강관리 공급자는 적당한 조건(예, 적당한 보존제와 첨가제를 함유하는 튜브에서) 하에 샘플을 본 명세서에서 설명된 생물정보학 시스템을 이용하여 분석에 필요한 패턴을 수득할 수 있는 실험실로 보낸다. 이 패턴을 수득하는 분석은 바람직하게는, 필수적인 것은 아니지만, 동일한 주체에 의해 제공되고, 핵산 또는 단백질 마이크로어레이를 포함한다. 이러한 장치는 현재 잘 알려져 있다. 그 용도에 대해서는 다음과 같은 많은 특허들에 설명되어 있다: 미국 특허 제5,143,854호, 제5,288,644호, 제5,324,633호, 제5,432,049호, 제5,470,710호; 제5,492,806호; 제5,503,980호; 제5,510,270호; 제5,525,464호; 제5,547,839호; 제5,580,732호; 제5,661,028호; 제5,848,659호; 및 제5,874,219호; 이 문헌들은 본 명세서에 참고 인용된 것이다. 데이터 형식은 패턴의 디지털 방식의 표현이 바람직하다. 이것은 Gene Expression Markup Language(GEML™, Rosetta Inpharmatics, Kirkland, Washington)로 추가 포맷팅하기에 적당하다. 이 언어는 유전자 발현 시스템, 데이터베이스 및 기구 중에서 상호변환이 가능한, 공개되고 입증된 개방 형식이다. 또한, 이 형식은 무한수의 태그를 허용한다[참조: Gene Expression Markup Language(GEML™). A Common Data Format for Gene Expression Data andAnnotation Interchange, Rosetta Inpharmatics, www.geml.org/docs/GEML.pdf(2000)]. 이것은 이후 임상 결과의 확인 및 데이터 익명화(각각 이하에 상세히 기술됨)에 태그화 데이터를 용이하게 이용할 수 있도록 한다.
수득한 패턴은 임의의 입력 형태(예컨대, 패턴을 디지털화 할 수 있는 컴퓨터로 스캐닝하여 입력함)로 제공된 다음, 생물정보학 시스템의 운영자에 의해서 분석될 수 있다. 그 분석 결과(예상 진단 또는 증상을 가진 서열/패턴)는 그 다음 요청자에게 전달한다. 이와 동시에, 생물정보학 시스템과 연관된 데이터베이스에 패턴을 임시 보관한다. 바람직하게는, 이는 상기한 바와 같이 임시로 태그화되고 발견용 데이타베이스에 저장된다. 그 다음, 요청자는 생물정보학 시스템의 운영자에게 확인 정보를 다시 보내준다. 확인이 가능하다면, 패턴 및 이 패턴으로부터 수집될 수 있는 모든 새로운 정보는 참조 서열로서 분석용 데이터베이스의 일부분이 된다. 일부 경우에 이것은 발현 데이터의 수령으로, 다른 임상적 평가를 이미 수행한 바 있는 건강관리 공급자의 진단을 확인하므로 동시에 일어난다. 이 데이터로만 이루어진다면, 분석의 통계적 신뢰성은 샘플 크기의 증가를 통해 향상될 것이다. 이 데이터베이스는 보다 확고해질 것이다.
또 다른 바람직한 구체예에서, 실험실 또는 건강관리 공급자는 필요한 샘플을 수득한다. 이 샘플을 분석시와 동일한 조직체로 평가한다. 이것은, 분석 형식과 이 분석에 요구된 입력 형식이 보다 쉽게 조정될 수 있기 때문에, 몇몇 장점을 갖고 있다. 그 다음 식별된 패턴의 분석과 전술한 데이터/알고리듬 개량은 유사한방식으로 실시할 수 있다.
분석될 패턴이 상이한 위치로 전송되어야 하는 임의 방법에서(예컨대, 실험실에서 분석을 실시하고 수득된 패턴을 생물정보학 운영자에게 보내주는 경우), 공정을 신속하게 하기 위하여 전자 통신을 이용할 수 있다. 이러한 목적에 인터넷과 다른 네트워크 시스템이 용이하게 이용될 수 있다는 것을 당업자라면 잘 알고 있을 것이다.
본 발명의 장치는 특수하게 프로그램된 일반용 컴퓨터들로 배열했을 때 최선으로 제조되고 사용된다. 이 구체예에서 데이터베이스 시스템(전술한 바와 같이 작용하도록 하는 프로그래밍 지시와 함께 발견용 및 분석용 데이터베이스의 조합)은 본 명세서에 기술된 기능을 수행하도록 특수하게 프로그램된 1 이상의 컴퓨터 조합을 통해 그 기능을 수행한다. 프로그래밍 지시는 하드-드라이브, 네트워크, 광학 또는 자기광학 물질 및 이러한 용도에 일반적으로 사용되는 기타 다른 물질과 같이 컴퓨터 운영에 적합한 모든 매체에 통합시킬 수 있다. 본 명세서에 설명된 공정을 수행하기 위한 컴퓨터 지시가 기록된 매체를 포함하는 제품 또한 본 발명의 또 다른 구체예이다.
본 발명에 의해, 유전자에 기초한 진단학의 정밀성과 정확성을 증가시킨 분석적 임상 진단 서비스가 제공된다.

Claims (20)

  1. a) 생물학적 샘플을 수집하는 단계,
    b) 수집한 샘플의 유전자 물질의 적어도 일부 조성, 당해 유전자 물질의 작용 또는 단백질을 측정하기 위하여 생물학적 샘플을 분석하는 단계,
    c) 상기 생물학적 샘플의 분석 결과를 보고하는 단계, 및
    d) 생물학적 샘플의 분석을 통해 얻은 정보를 후속되는 생물학적 샘플의 분석에 통합시키는 단계를 포함하여, 임상 진단 서비스를 제공하는 방법.
  2. 제1항에 있어서, 생물학적 샘플로부터 유전자 물질을 추출하는 단계를 포함하는 것이 특징인 방법.
  3. 제1항에 있어서, 생물학적 샘플로부터 단백질을 추출하는 단계를 포함하는 것이 특징인 방법.
  4. 제2항에 있어서, 생물학적 샘플의 수집 단계 및 이 생물학적 샘플로부터 유전자 물질의 추출 단계는 실험실 또는 건강관리 공급자에 의해 실시되고, 유전자 물질의 조성 또는 작용을 측정하기 위한 분석 단계 및 얻은 정보를 후속 분석에 통합시키는 단계는 상기 수집 및 추출 단계를 실시한 실험실 또는 건강관리 공급자가 아닌 주체에 의해 수행되는 것이 특징인 방법.
  5. 제3항에 있어서, 생물학적 샘플의 수집 단계 및 이 생물학적 샘플로부터 단백질의 추출 단계는 실험실 또는 건강관리 공급자에 의해 실시되고, 단백질의 조성, 농도 또는 작용을 측정하기 위한 분석 단계 및 얻은 정보를 후속 분석에 통합시키는 단계는 상기 수집 및 추출 단계를 실시한 실험실 또는 건강관리 공급자가 아닌 주체에 의해 수행되는 것이 특징인 방법.
  6. 제2항에 있어서, 유전자 물질의 적어도 일부분을 증폭시키는 단계를 추가로 포함하는 것이 특징인 방법.
  7. 제2항에 있어서, 분석 단계가 마이크로어레이(microarray)와 함께 실시되는 것이 특징인 방법.
  8. 제2항에 있어서, 수집 및 추출 단계가 실험실 또는 건강관리 공급자에 의해 실시되고, 유전자 물질의 조성 또는 작용을 측정하기 위한 분석 단계 및 얻은 정보를 후속 분석에 통합시키는 단계는 상기 수집 및 추출 단계를 실시한 실험실 또는 건강관리 공급자가 아닌 주체에 의해 수행되는 것이 특징인 방법.
  9. 제3항에 있어서, 수집 및 추출 단계가 실험실 또는 건강관리 공급자에 의해 실시되고, 분석 및 통합 단계가 상기 수집 및 추출 단계를 실시한 실험실 또는 건강관리 공급자가 아닌 주체에 의해 수행되는 것이 특징인 방법.
  10. 제1항에 있어서, 분석이, 패턴 정보를 포함하는 데이터베이스와 유전자 물질, 이의 작용 또는 단백질을 비교함으로써 수행되는 것이 특징인 방법.
  11. 제1항에 있어서, 생물학적 샘플의 후속 분석에 정보를 통합시키는 단계가 분석 결과의 통계적 유효성을 변화시키는 것임이 특징인 방법.
  12. 제10항에 있어서, 생물학적 샘플의 후속 분석에 정보를 통합시키는 단계가 데이터베이스를 변화시키는 것임이 특징인 방법.
  13. 제10항에 있어서, 생물학적 샘플의 후속 분석에 정보를 통합시키는 단계가 비교 단계를 수행하는데 사용된 알고리듬을 변화시키는 것임이 특징인 방법.
  14. 제1항에 있어서, 소정의 생리적 증상이나 질병의 존재 유무 또는 정도의 가능성을 측정하기 위해 유전자 물질의 조성 또는 작용에 기반을 둔 분석 결과 및 상기 유전자 물질의 조성 또는 작용에 직접적으로 기반을 두지 않는 분석 결과를 사용하여, 유전자 물질의 조성이나 작용에 직접적인 기반을 두지 않는 추가 분석을 수행하는 단계를 추가로 포함하는 것이 특징인 방법.
  15. 발견용 데이터베이스에 입력된 제1 데이터가 분석용 데이터베이스를 변화시켜, 이 데이터의 입력에 이어 제공된 진단, 예후 또는 치료적 모니터링 정보로 인하여 상이한 통계적 유효성이 제공되거나 제1 데이터와는 전혀 다르게 분석되도록 하는 것이 특징인, 임상적 진단, 예후 또는 치료적 모니터링을 제공하기 위한, 발견용 데이터베이스와 분석용 데이터베이스를 포함하는 데이터베이스 시스템.
  16. 제15항에 기재된 데이터베이스 시스템을 통해 작동하는 1 이상의 일반용 컴퓨터를 포함하는 장치.
  17. 제15항에 기재된 데이터베이스 시스템의 1 이상의 성분으로 프로그램된 컴퓨터 판독가능한 매체를 포함하는 제품.
  18. (a) 피검체로부터 유전자 물질을 수득하는 단계;
    (b) 상기 유전자 물질의 발현 패턴을 측정하는 단계;
    (c) 임상적 진단, 예후 또는 치료적 모니터링을 제공하기 위한 발견용 데이터베이스와 분석용 데이터베이스를 포함하는 데이터베이스 시스템을 사용하여 생리적 증상 또는 질병 상태와 상기 발현 패턴을 상호관련시키는 단계; 및
    (d) 유전자 물질에 대한 정보를 상기 데이터베이스에 통합시켜 그 정보가 분석용 데이터베이스를 변화시키는 단계를 포함하여, 생리적 증상 또는 질병 상태를 진단하는 방법.
  19. 제18항에 있어서,
    (e) 정상 조직에서 얻은 정상 샘플과 질병이 있는 사람 조직에서 얻은 질병 샘플에 대하여 단계 (a) 내지 (d)를 수행하여, 정상인 조직으로부터 정상의 참조용 유전자 분석을 수득하고 질병 조직으로부터 질병에 걸린 참조용 유전자 분석을 수득하는 단계;
    (f) 상기 정상의 참조용 유전자 분석과 질병에 걸린 참조용 유전자 전사체 이미지 분석을 데이터베이스에 저장하는 단계;
    (g) 피검체로부터 피검체 샘플을 수득하고 이 피검체 샘플로부터 (a) 내지 (d) 단계를 수행하여 유전자 분석을 수득하는 단계; 및
    (h) 피검체 샘플의 유전자 분석을 알고리듬적으로 구동되는 장치로 처리하여 데이터베이스에 기초한 환자 샘플과 비슷한 1 이상의 참조용 분석 결과를 확인하는 단계를 추가로 포함하는 것이 특징인 방법.
  20. 제18항에 있어서, 단계 (d)가 연속적으로 수행되는 것이 특징인 방법.
KR1020020015124A 2001-03-20 2002-03-20 임상 진단 서비스를 제공하는 방법 KR20020075265A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US27723701P 2001-03-20 2001-03-20
US60/277,237 2001-03-20

Publications (1)

Publication Number Publication Date
KR20020075265A true KR20020075265A (ko) 2002-10-04

Family

ID=23059987

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020020015124A KR20020075265A (ko) 2001-03-20 2002-03-20 임상 진단 서비스를 제공하는 방법

Country Status (10)

Country Link
US (1) US20020179097A1 (ko)
EP (1) EP1244047A3 (ko)
JP (1) JP2003021630A (ko)
KR (1) KR20020075265A (ko)
CN (1) CN1385702A (ko)
AR (1) AR033055A1 (ko)
AU (1) AU784645B2 (ko)
BR (1) BR0201823A (ko)
CA (1) CA2377213A1 (ko)
MX (1) MXPA02003027A (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004032017A1 (en) * 2002-10-01 2004-04-15 Yonsei University Liver cancer forecasting system for early diagnosis and control method thereof
WO2017086675A1 (ko) * 2015-11-19 2017-05-26 연세대학교 산학협력단 대사 이상 질환 진단 장치 및 그 방법
KR20190012269A (ko) * 2011-07-13 2019-02-08 더 멀티플 마이얼로머 리서치 파운데이션, 인크. 데이터 수집 및 분배 방법
US11069431B2 (en) 2017-11-13 2021-07-20 The Multiple Myeloma Research Foundation, Inc. Integrated, molecular, omics, immunotherapy, metabolic, epigenetic, and clinical database

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003050533A1 (en) * 2001-12-10 2003-06-19 Ardais Corporation Systems and methods for obtaining data correlated patient samples
US20040142326A1 (en) * 2002-10-11 2004-07-22 International Business Machines Corporation Method and apparatus for deriving a reference sequence for expressing a group genome
GB0307999D0 (en) * 2003-04-07 2003-05-14 Glaxo Group Ltd A system
WO2005032350A2 (en) * 2003-10-02 2005-04-14 University Of South Florida Determinationof phenotype of cancer and of precancerous tissue
US7788040B2 (en) 2003-12-19 2010-08-31 Siemens Medical Solutions Usa, Inc. System for managing healthcare data including genomic and other patient specific information
US9191215B2 (en) * 2003-12-30 2015-11-17 Entrust, Inc. Method and apparatus for providing authentication using policy-controlled authentication articles and techniques
US8135595B2 (en) * 2004-05-14 2012-03-13 H. Lee Moffitt Cancer Center And Research Institute, Inc. Computer systems and methods for providing health care
US20060136143A1 (en) * 2004-12-17 2006-06-22 General Electric Company Personalized genetic-based analysis of medical conditions
US8768629B2 (en) 2009-02-11 2014-07-01 Caris Mpi, Inc. Molecular profiling of tumors
EP3399450A1 (en) 2006-05-18 2018-11-07 Caris MPI, Inc. System and method for determining individualized medical intervention for a disease state
US20080228699A1 (en) 2007-03-16 2008-09-18 Expanse Networks, Inc. Creation of Attribute Combination Databases
US20090043752A1 (en) * 2007-08-08 2009-02-12 Expanse Networks, Inc. Predicting Side Effect Attributes
US20090198733A1 (en) * 2008-02-01 2009-08-06 Microsoft Corporation Healthcare resource locator
RU2010150771A (ru) * 2008-05-12 2012-06-20 Конинклейке Филипс Электроникс Н.В. (Nl) Медицинская аналитическая система
US7917438B2 (en) * 2008-09-10 2011-03-29 Expanse Networks, Inc. System for secure mobile healthcare selection
US8200509B2 (en) * 2008-09-10 2012-06-12 Expanse Networks, Inc. Masked data record access
US20100070292A1 (en) * 2008-09-10 2010-03-18 Expanse Networks, Inc. Masked Data Transaction Database
US20100063830A1 (en) * 2008-09-10 2010-03-11 Expanse Networks, Inc. Masked Data Provider Selection
US20100076950A1 (en) * 2008-09-10 2010-03-25 Expanse Networks, Inc. Masked Data Service Selection
US8255403B2 (en) * 2008-12-30 2012-08-28 Expanse Networks, Inc. Pangenetic web satisfaction prediction system
US20100169313A1 (en) * 2008-12-30 2010-07-01 Expanse Networks, Inc. Pangenetic Web Item Feedback System
US8386519B2 (en) 2008-12-30 2013-02-26 Expanse Networks, Inc. Pangenetic web item recommendation system
US8108406B2 (en) 2008-12-30 2012-01-31 Expanse Networks, Inc. Pangenetic web user behavior prediction system
US20100169262A1 (en) * 2008-12-30 2010-07-01 Expanse Networks, Inc. Mobile Device for Pangenetic Web
EP3276526A1 (en) 2008-12-31 2018-01-31 23Andme, Inc. Finding relatives in a database
WO2012059839A2 (en) * 2010-11-01 2012-05-10 Koninklijke Philips Electronics N.V. In vitro diagnostic testing including automated brokering of royalty payments for proprietary tests
US9134202B2 (en) * 2012-01-26 2015-09-15 Cryoxtract Instruments, Llc Robotic end effector for frozen aliquotter and methods of taking a frozen aliquot from biological samples
CN105512508B (zh) * 2014-09-22 2018-05-15 深圳华大基因研究院 自动生成基因检测报告的方法及装置
US10685744B1 (en) 2017-06-30 2020-06-16 Allscripts Software, Llc Computing system for genetic databank application

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5840484A (en) * 1992-07-17 1998-11-24 Incyte Pharmaceuticals, Inc. Comparative gene transcript analysis
US6114114A (en) * 1992-07-17 2000-09-05 Incyte Pharmaceuticals, Inc. Comparative gene transcript analysis
WO1996012187A1 (en) * 1994-10-13 1996-04-25 Horus Therapeutics, Inc. Computer assisted methods for diagnosing diseases
WO1996023078A1 (en) * 1995-01-27 1996-08-01 Incyte Pharmaceuticals, Inc. Computer system storing and analyzing microbiological data
US5876926A (en) * 1996-07-23 1999-03-02 Beecham; James E. Method, apparatus and system for verification of human medical data
US5966711A (en) * 1997-04-15 1999-10-12 Alpha Gene, Inc. Autonomous intelligent agents for the annotation of genomic databases
US6073140A (en) * 1997-07-29 2000-06-06 Acxiom Corporation Method and system for the creation, enhancement and update of remote data using persistent keys
US6024699A (en) * 1998-03-13 2000-02-15 Healthware Corporation Systems, methods and computer program products for monitoring, diagnosing and treating medical conditions of remotely located patients
ID28800A (id) * 1998-05-01 2001-07-05 Barnhill Technologies Llc Sebelum-pemrosesan dan pusat pemrosesan untuk meningkatkan penemuan pengetahuan menggunakan mesin vektor penyanggah
US6789069B1 (en) * 1998-05-01 2004-09-07 Biowulf Technologies Llc Method for enhancing knowledge discovered from biological data using a learning machine
CA2372163A1 (en) * 1999-05-19 2000-11-23 Whitehead Institute For Biomedical Research A method and relational database management system for storing, comparing, and displaying results produced by analyses of gene array data
US6716579B1 (en) * 1999-06-11 2004-04-06 Narayan Baidya Gene specific arrays, preparation and use

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004032017A1 (en) * 2002-10-01 2004-04-15 Yonsei University Liver cancer forecasting system for early diagnosis and control method thereof
KR20190012269A (ko) * 2011-07-13 2019-02-08 더 멀티플 마이얼로머 리서치 파운데이션, 인크. 데이터 수집 및 분배 방법
US10559048B2 (en) 2011-07-13 2020-02-11 The Multiple Myeloma Research Foundation, Inc. Methods for data collection and distribution
WO2017086675A1 (ko) * 2015-11-19 2017-05-26 연세대학교 산학협력단 대사 이상 질환 진단 장치 및 그 방법
US11069431B2 (en) 2017-11-13 2021-07-20 The Multiple Myeloma Research Foundation, Inc. Integrated, molecular, omics, immunotherapy, metabolic, epigenetic, and clinical database

Also Published As

Publication number Publication date
AU784645B2 (en) 2006-05-18
MXPA02003027A (es) 2003-08-20
CA2377213A1 (en) 2002-09-20
CN1385702A (zh) 2002-12-18
AU2754002A (en) 2002-09-26
EP1244047A3 (en) 2005-06-01
JP2003021630A (ja) 2003-01-24
AR033055A1 (es) 2003-12-03
EP1244047A2 (en) 2002-09-25
US20020179097A1 (en) 2002-12-05
BR0201823A (pt) 2002-12-10

Similar Documents

Publication Publication Date Title
KR20020075265A (ko) 임상 진단 서비스를 제공하는 방법
US20200395100A1 (en) Population based treatment recommender using cell free dna
JP7368483B2 (ja) 相同組換え欠損を推定するための統合された機械学習フレームワーク
JP5966109B1 (ja) 遺伝子分析用人工知能システム
JP6420543B2 (ja) ゲノムデータ処理方法
US6303297B1 (en) Database for storage and analysis of full-length sequences
US20230114581A1 (en) Systems and methods for predicting homologous recombination deficiency status of a specimen
US20140040264A1 (en) Method for estimation of information flow in biological networks
JP2014508994A5 (ko)
JP7041614B6 (ja) 生体データにおけるパターン認識のマルチレベルアーキテクチャ
JP2007102709A (ja) 遺伝子診断用のマーカー選定プログラム、該プログラムを実行する装置及びシステム、並びに遺伝子診断システム
US20020064792A1 (en) Database for storage and analysis of full-length sequences
Han et al. Novel algorithms for efficient subsequence searching and mapping in nanopore raw signals towards targeted sequencing
KR20220086458A (ko) 유전자 데이터 공유를 위한 차세대 염기 서열 분석 방법, 차세대 염기 서열 분석 장치 및 차세데 염기 서열 분석 프로그램
WO2018088635A1 (ko) 유전체내 암 특이적 진단 마커 검출
Evans et al. Genetic variant pathogenicity prediction trained using large-scale disease specific clinical sequencing datasets
KR20200106643A (ko) 바코드 서열 정보 기반 고민감도 유전변이 탐지 및 레포팅 시스템
dos Santos Valente Development of computational tools for the integrated analysis of DNA microarray data with applications in cancer research
Sarantidis Algorithms to Explore the Chromosomal Clustering of Genes
EP2430579A2 (en) Device and method for comparing molecular signatures

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application