KR20140051461A - 흡연 상태를 결정하기 위한 방법 및 조성물 - Google Patents

흡연 상태를 결정하기 위한 방법 및 조성물 Download PDF

Info

Publication number
KR20140051461A
KR20140051461A KR1020147008340A KR20147008340A KR20140051461A KR 20140051461 A KR20140051461 A KR 20140051461A KR 1020147008340 A KR1020147008340 A KR 1020147008340A KR 20147008340 A KR20147008340 A KR 20147008340A KR 20140051461 A KR20140051461 A KR 20140051461A
Authority
KR
South Korea
Prior art keywords
marker
data set
data
smoking
quantitative expression
Prior art date
Application number
KR1020147008340A
Other languages
English (en)
Inventor
스티븐 로젠버그
마이클 레이드 엘라쇼프
필립 베이네크
제임스 에이. 윙로브
Original Assignee
카디오디엑스, 아이엔씨.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 카디오디엑스, 아이엔씨. filed Critical 카디오디엑스, 아이엔씨.
Publication of KR20140051461A publication Critical patent/KR20140051461A/ko

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6827Hybridisation assays for detection of mutation or polymorphism
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/118Prognosis of disease development
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/158Expression markers
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/16Primer sets for multiplex assays
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Abstract

본 명세서에서는 말초혈액 마커들로서 그 발현 레벨(expression levels)이 흡연 상태와 연관된 것을 제공한다. 본 명세서는 매우 정보제공적인 마커(informative markers)들을 사용하여 개발된 예측 모델들과 함께, 마커들을 사용하여 개체의 흡연 상태에 대한 생화학적 써로게이트(biochemical surrogate)를 제공하는 시스템, 키트, 및 방법을 제공한다.

Description

흡연 상태를 결정하기 위한 방법 및 조성물{METHODS AND COMPOSITIONS FOR DETERMINING SMOKING STATUS}
[관련 출원들에 대한 상호 참조]
본 출원은 그 전체가 본 명세서에서 참조로 포함되는 2011년 8월 29일에 출원된 미국 가출원 번호 61/528,616호의 이익을 주장한다.
[분야]
본 발명은 마커 발현 측정량(measurements)에 기반하여 흡연 상태를 결정하는 예측 모델, 그들의 사용 방법, 및 그들의 실행을 위한 컴퓨터 시스템 및 소프트웨어에 관한 것이다.
[관련 기술의 설명]
흡연은 세계에서 예방할 수 있는 사망의 주된 원인으로서, 이는 세계적으로 1년에 5백만명이 넘는 사망을 야기하고, 이러한 사망 중 500,000명까지는 미국에서 발생한다(비특허문헌 1, 2). 흡연은 인간의 건강에 해로운 것으로 보여지며, 다양한 형태의 암들(폐, 췌장) 및 심혈관계/폐 질환(죽상동맥경화증(atherosclerosis), 만성 폐쇄성 폐질환(chronic obstructive pulmonary disease))을 포함하는 다중 질환들의 위험을 증가시킨다(비특허문헌 3, 4, 5). 담배 연기(Cigarette smoke)는 4,000개가 넘는 화합물을 포함하며, 이들 중 많은 것들은 발암성 또는 독성인 것으로 보여지며; 이러한 화합물들은 폐포(pulmonary alveoli)를 거쳐 순환계에 유입될 수 있고, 신체의 다른 장기들로 분산되며, 손상을 야기한다(비특허문헌 6). 이러한 과정 중에, 면역 시스템의 순환 세포들(circulatory cells)이 이러한 화합물들에 노출되며, 이는 확립된 기술들을 사용하여 평가될 수 있는 유전자 발현의 변화를 야기할 수 있다.
[충족되지 않는 임상적 및 과학적 요구]
코티닌은 니코틴의 대사산물이며 담배 흡연자들의 혈액 및 소변에서 나타난다. 혈액 또는 소변에서 코티닌의 생화학적 측정치들은 그러므로 흡연 상태의 마커를 제공하나, 전문적인 검정들이 필요하다. 정량적 RNA 측정물들 또는 핵산 시퀀싱 반응들과 같이 쉽게 이용가능하고 일반적인 분자 생물학 툴(tools)들을 사용하는 일반적인 검정은 흡연 상태를 결정하는 독립적인 방법을 제공하며 환자 샘플로부터 수득된 핵산 기반 측정들의 병렬적 또는 복합적 순서들의 부분으로서 수행될 수 있다.
Mathers CD, Loncar D. PLoS Med 2006, 3(11):e442 Centers for Disease Control and Prevention.Smoking-Attributable Mortality, Years of Potential Life Lost, and Productivity Losses-United States, 2000-2004. Morbidity and Mortality Weekly Report 2008, 57(45):1226-8 Sherman CB. Med Clin North Am 1992, 76(2):355-375. Newcomb PA, Carbone PP. Med Clin North Am 1992, 76(2):305-331. McBride PE. Med Clin North Am 1992, 76(2):333-353. Charlesworth et al. BMC Medical Genomics 2010, 3:29 The MAQC Consortium, Nat. Biotechnol. 2006, 4(9):1151-1161. Huber, P. Robust Statistics, Wiley Series in Probability and Statistics, 1981. Draper, NR., Smith H. Applied Regression Analysis, Wiley Series in Probability and Statistics, 1981. Vartiainen, E., J Epidemiol Community Health 2002, 56:167-170. Forey, B.A., Thornton, A.J., Lee, P.N., BMC Pulm Med 2011,11:36-96. Brody, J.S., Steiling K., Annu Rev Physiol 2011, 73:437-456.
본 명세서에 기재된 것은 개체로부터 수득된 샘플을 점수화(scoring)하는 컴퓨터-실행 방법으로서, 상기 점수는 개체의 흡연 상태를 나타내는 것이며, 상기 방법은: 상기 샘플과 연관된 데이터세트를 수득하는 단계로서, 상기 데이터세트는 마커1, 마커2, 마커3, 마커4, 및/또는 마커5 중 하나 이상에 대한 정량적 발현 데이터를 포함하며, 상기 마커1은 CLDND1 또는 IL7R이고, 상기 마커2는 LRRN3 또는 CCR7이고, 상기 마커 3은 MUC1 또는 FOXP3이고, 상기 마커4는 GOPC 또는 MCM3이며, 상기 마커5는 LEF1 또는 CCR7인 단계; 및 컴퓨터 프로세서에 의해 해석 함수(interpretation function)를 사용하여 상기 데이터세트로부터 점수를 결정하는 단계로서, 상기 점수는 상기 개체의 흡연 상태를 나타내는 것인 단계;를 포함하는 방법이다.
일부 구현예에서, 상기 데이터세트는 마커1, 마커2, 마커3, 마커4, 및/또는 마커5에 대한 정량적 발현 데이터를 포함하며, 상기 마커1은 CLDND1이고, 상기 마커2는 LRRN3이고, 상기 마커3은 MUC1이고, 상기 마커4는 GOPC이고, 상기 마커5는 LEF1이다. 일부 구현예에서, 상기 데이터세트는 마커1, 마커2, 마커3, 마커4, 및 마커5 중 둘 이상에 대한 정량적 발현 데이터를 포함한다. 일부 구현예에서, 상기 데이터세트는 마커1, 마커2, 마커3, 마커4, 및 마커5 중 셋 이상에 대한 정량적 발현 데이터를 포함한다. 일부 구현예에서, 상기 데이터세트는 마커1, 마커2, 마커3, 마커4, 및 마커5 중 넷 이상에 대한 정량적 발현 데이터를 포함한다. 일부 구현예에서, 상기 데이터세트는 마커1, 마커2, 마커3, 마커4, 및 마커5에 대한 정량적 발현 데이터를 포함한다.
일부 구현예에서, 상기 방법은 컴퓨터 프로세서에 의해 개체의 흡연-관련 질병의 발병 위험(risk)을 상기 점수에 기반하여 결정하는 단계를 더 포함한다. 일부 구현예에서, 상기 흡연-관련 질병은 만성 폐쇄성 폐질환(chronic obstructive pulmonary disease), 만성 기관지염(chronic bronchitis), 기종(emphysema), 폐암, 및/또는 천식(asthma)이다.
일부 구현예에서, 상기 데이터세트는 표 1로부터 선택된 1개 이상, 2개 이상, 3개 이상, 4개 이상, 5개 이상, 6개 이상, 7개 이상, 8개 이상, 9개 이상, 10개 이상, 11개 이상, 12개 이상, 13개 이상, 14개 이상, 15개 이상, 16개 이상, 17개 이상, 18개 이상, 19개 이상, 또는 20개 이상의 추가 마커들에 대한 정량적 발현 데이터를 포함한다.
일부 구현예에서, 상기 데이터세트는 상기 점수를 계산하는데 사용되는 임상적 요인(clinical factor)을 더 포함한다. 일부 구현예에서, 상기 임상적 요인은 성별(gender) 및 고혈압(hypertension)으로 구성된 군으로부터 선택된다. 일부 구현예에서, 상기 임상적 요인은 성별이다.
일부 구현예에서, 상기 해석 함수는 예측 모델에 기반한다. 일부 구현예에서, 상기 예측 모델은 부분 최소 자승법 모델(partial least squares model), 로지스틱 회귀 모델(logistic regression model), 선형 회귀 모델(linear regression model), 선형 판별 분석 모델(linear discriminant analysis model), 리지 회귀 모델(ridge regression model), 및 트리-기반 반복 분할 모델(tree-based recursive partitioning model)로 구성된 군으로부터 선택된다. 일부 구현예에서, 상기 해석 함수는 log(pr(Smoker)/(1-Pr(Smoker)) = 15.78306 + 0.3876 * SEX - 3.3368 * CLDND1-3.4034*LRRN3-1.4847 * MUC1 + 5.9209 * GOPC + 2.27166 * LEF1이며, 상기 SEX는 남성이면 1, 여성이면 0이고 Pr은 개연성(probability)이다. 일 구현예에서, 상기 해석 함수는 표 7에 설명된 것들로 구성된 해석 함수의 군으로부터 선택된 해석함수이다.
일부 구현예에서, 상기 샘플과 연관된 상기 데이터 세트를 수득하는 단계는 상기 샘플을 수득하는 단계 및 상기 샘플을 가공하여 실험적으로 상기 데이터 세트를 결정하는 단계를 포함한다. 일부 구현예에서, 상기 샘플과 연관된 상기 데이터 세트를 수득하는 단계는 상기 샘플을 가공하여 실험적으로 상기 데이터 세트를 결정한 제3자로부터 직접 또는 간접적으로 상기 데이터 세트를 받는 단계를 포함한다.
일부 구현예에서, 상기 데이터세트는 기억 장치(storage memory)상에 저장된 상태로 수득된 것이다. 일부 구현예에서, 상기 정량적 발현 데이터는 혼성화 데이터(hybridization data)로부터 온 것이다. 일부 구현예에서, 상기 정량적 발현 데이터는 폴리머라아제 연쇄 반응 데이터(polymerase chain reaction data)로부터 온 것이다. 일부 구현예에서, 상기 정량적 발현 데이터는 서열 데이터(sequence data)로부터 온 것이다.
또한 본 명세서에 기재된 것은 개체로부터 수득된 샘플을 점수화하는 컴퓨터-실행 방법으로서, 상기 방법은: 상기 샘플과 연관된 데이터세트를 수득하는 단계로서, 상기 데이터세트는 점수를 계산하는데 사용되는 임상적 요인 및CLDND1, IL7R, LRRN3, CCR7, MUC1, FOXP3, GOPC, MCM3, LEF1, 및 CCR7으로 구성된 군으로부터 선택된 하나 이상의 마커에 대한 정량적 발현 레벨 값들을 포함하는 것인 단계; 및 컴퓨터 프로세서에 의해 해석 함수를 사용하여 상기 데이터세트로부터 점수를 결정하는 단계로서, 상기 점수는 상기 개체의 흡연 상태를 나타내는 것인 단계;를 포함하는 방법이다. 일부 구현예에서, 상기 데이터세트는CLDND1, LRRN3, MUC1, GOPC, 및 LEF1에 대한 정량적 발현 데이터를 포함한다. 일부 구현예에서, 상기 데이터 세트는 둘 이상의 마커들에 대한 정량적 발현 데이터를 포함한다. 일부 구현예에서, 상기 데이터세트는 셋 이상의 마커에 대한 정량적 발현 데이터를 포함한다. 일부 구현예에서, 상기 데이터세트는 넷 이상의 마커에 대한 정량적 발현 데이터를 포함한다. 일부 구현예에서, 상기 데이터세트는 다섯 이상의 마커에 대한 정량적 발현 데이터를 포함한다.
또한 본 명세서에 기재된 것은 개체로부터 수득된 샘플을 점수화 하는 시스템으로서, 상기 점수는 상기 개체의 흡현 상태를 나타내고, 상기 시스템은: 상기 샘플과 연관된 데이터세트를 저장하기 위한 기억 장치로서, 상기 데이터세트는 마커1, 마커2, 마커3, 마커4, 및/또는 마커5 중 하나 이상에 대한 정량적 발현 데이터를 포함하며, 상기 마커1은 CLDND1 또는 IL7R이고, 상기 마커2는 LRRN3 또는 CCR7이고, 상기 마커 3은 MUC1 또는 FOXP3이고, 상기 마커4는 GOPC 또는 MCM3이며, 상기 마커5는 LEF1 또는 CCR7인 기억 장치; 및 해석 함수를 사용하여 상기 데이터세트의 점수를 결정하기 위한 기억장치와 통신적으로(communicatively) 연결된(coupled to) 프로세서;를 포함하며, 상기 점수는 상기 개체의 흡연 상태를 나타내는 것인 시스템이다.
또한 본 명세서에 기재된 것은 컴퓨터-실행가능한 프로그램 코드를 저장하는 컴퓨터-판독가능한 저장 매체로서, 상기 프로그램 코드는: 상기 샘플과 연관된 데이터세트를 저장하기 위한 프로그램 코드로서, 상기 데이터세트는 마커1, 마커2, 마커3, 마커4, 및/또는 마커5 중 하나 이상에 대한 정량적 발현 데이터를 포함하며, 상기 마커1은 CLDND1 또는 IL7R이고, 상기 마커2는 LRRN3 또는 CCR7이고, 상기 마커 3은 MUC1 또는 FOXP3이고, 상기 마커4는 GOPC 또는 MCM3이며, 상기 마커5는 LEF1 또는 CCR7인 프로그램 코드; 및 해석 함수를 사용하여 상기 데이터세트로부터 점수를 결정하기 위한 프로그램 코드로서, 상기 점수는 상기 개체의 흡연 상태를 나타내는 것인 프로그램 코드;를 포함하는 저장 매체이다.
또한 본 명세서에 기재된 것은 개체로부터 수득된 샘플을 점수화하는 방법으로서, 상기 점수는 개체의 흡연 상태를 나타내는 것이며, 상기 방법은: 개체로부터 샘플을 수득하는 단계로서, 상기 샘플은 복수의 분석물(analytes)들을 포함하는 단계; 샘플을 시약(reagent)과 접촉시키는 단계; 시약과 복수의 분석물들간의 복수의 복합체들을 생성하는(generating) 단계; 복수의 복합체들을 검출(detecting)하여 상기 샘플과 연관된 데이터세트를 수득하는 단계로서, 상기 데이터세트는 마커1, 마커2, 마커3, 마커4, 및/또는 마커5 중 하나 이상에 대한 정량적 발현 데이터를 포함하며, 상기 마커1은 CLDND1 또는 IL7R이고, 상기 마커2는 LRRN3 또는 CCR7이고, 상기 마커 3은 MUC1 또는 FOXP3이고, 상기 마커4는 GOPC 또는 MCM3이며, 상기 마커5는 LEF1 또는 CCR7인 단계; 및 해석 함수를 사용하여 상기 데이터세트로부터 점수를 결정하는 단계로서, 상기 점수는 개체의 흡연 상태를 나타내는 것인 단계;를 포함하는 방법이다.
또한 본 명세서에 기재된 것은 개체로부터 수득된 샘플을 점수화하는 키트로서, 상기 점수는 개체의 흡연 상태를 나타내는 것이며, 상기 키트는: 개체로부터 수득된 샘플로부터 마커1, 마커2, 마커3, 마커4, 및/또는 마커5 중 하나 이상에 대한 정량적 발현 데이터를 결정하기 위한 복수의 시약들을 포함하는 시약의 세트로서, 상기 마커1은 CLDND1 또는 IL7R이고, 상기 마커2는 LRRN3 또는 CCR7이고, 상기 마커 3은 MUC1 또는 FOXP3이고, 상기 마커4는 GOPC 또는 MCM3이며, 상기 마커5는 LEF1 또는 CCR7인 시약의 세트; 및 샘플로부터 얻은 데이터세트에서 정량적 발현 데이터를 결정하는데 복수의 시약들을 사용하는 것에 대한 설명서를 포함하며, 상기 설명서는 컴퓨터 프로세서에 의해 해석 함수를 사용하여 상기 데이터세트로부터 점수를 결정하는 것에 대한 지시를 포함하고, 상기 점수는 개체의 흡연 상태를 나타내는 것인 키트이다.
구현예에서, 본 발명은 표 1에 열거된 하나 이상의 마커들에 대한 정량적 발현 데이터를 포함하는 데이터세트의 사용을 통해 개체의 흡연 상태를 결정하는 방법으로서, 상기 데이터세트를 분석하여 마커의 발현 레벨을 결정하는 것에 의해 개체의 흡연 상태를 결정하는 방법이고, 상기 마커의 발현 레벨은 개체의 흡연 상태와 정(positively) 또는 부(negatively)의 관계가 있어 그로부터 상기 개체의 흡연 상태를 결정하는 것인 방법을 제공한다. 구현예에서, 상기 개체의 흡연 상태는 만성 폐쇄성 폐질환(chronic obstructive pulmonary disease), 만성 기관지염(chronic bronchitis), 기종(emphysema), 폐암, 또는 천식(asthma)과 같은 흡연-관련 질병의 발병 위험(risk)을 평가하는데 사용될 수 있다. 구현예에서, 상기 분석 단계는 마커의 발현 레벨과 임계값(threshold value)을 비교하는 것에 의해 수행된다. 다른 구현예에서, 데이터세트는 표 1로부터 선택된 2개 이상, 3개 이상, 4개 이상, 5개 이상, 6개 이상, 7개 이상, 8개 이상, 9개 이상, 10개 이상, 11개 이상, 12개 이상, 13개 이상, 14개 이상, 15개 이상, 16개 이상, 17개 이상, 18개 이상, 19개 이상, 또는 20개 이상의 추가 마커들에 대한 정량적 발현 데이터를 포함한다. 상기 마커는 흡연 상태와 (positively) 또는 부(negatively)의 관계가 있을 수 있으며, 상기 마커의 상기 발현 레벨은 비-흡연자와 비교하여 흡연자에게서 증가되거나 또는 감소될 수 있다. 다른 측면에서, 본 발명의 방법은 하나 이상의 컴퓨터들 상에서 실행된다. 일부 구현예에서, 상기 데이터세트는 샘플을 분석하여 실험적으로 발현 값들을 결정하는 것에 의해 수득된다. 다른 구현예에서, 상기 데이터세트는 상기 샘플을 가공하여 실험적으로 상기 데이터를 결정한 제3자로부터 직접 또는 간접적으로 수득된다. 상기 데이터세트 내의 상기 데이터는 qRT-PCR 검정, 혼성화 검정, 또는 시퀀싱 반응 검정(sequencing reaction assay)과 같은 뉴클레오티드-기반 검정을 사용하여 만들어진 측정치들을 반영할 수 있다. 일부 구현예에서, 본 발명의 방법은 컴퓨터 프로세서를 사용하여 실행 된다. 본 발명은 또한 개체의 흡연 상태를 결정하는 시스템을 망라한다. 상기 시스템은 상기 데이터세트를 저장하기 위한 기억 장치(storage memory), 및 상기 데이터세트를 분석하여 상기 마커의 상기 발현 레벨을 결정하기 위한 기억 장치와 통신적으로(communicatively) 연결된(coupled to) 프로세서를 포함한다. 다른 구현예에서, 본 발명은 개체로부터 수득된 샘플과 연관된 데이터세트를 저장하기 위한 컴퓨터-실행가능한 프로그램 코드를 저장한 컴퓨터-판독가능한 저장 매체로서, 데이터세트가 표 1로부터 선택된 마커에 대한 정량적 발현 데이터를 포함하며 프로그램코드는 상기 데이터세트를 분석하여 상기 마커의 발현 레벨을 결정하기 위한 것이며, 상기 발현 레벨은 상기 개체의 흡연 상태와 정(positively) 또는 부(negatively)의 관계가 있는 컴퓨터-판독가능한 저장 매체를 포함한다. 또 다른 구현예에서, 본 발명의 시스템은 표 1에서 선택된 마커에 대한 임계값을 포함하는 데이터세트를 저장하기 위한 기억 장치를 포함한다. 상기 임계값은 비-흡연 개체 또는 비-흡연 개체군으로부터 수득된 발현 데이터와 연관될 수 있다. 본 발명의 또 다른 구현예는 개체의 흡연 상태를 결정하는데 사용하기 위한 키트로서, 상기 개체로부터 수득된 샘플로부터 표 1로부터 선택된 마커에 대한 정량적 발현 데이터를 결정하기 위한 시약들의 세트 및 상기 시약을 사용하여 상기 샘플들로부터 정량적 발현 데이터를 결정하고 상기 데이터를 분석하여 상기 마커의 발현 레벨을 결정하는 것에 대한 설명서를 포함하며, 상기 마커의 발현 레벨은 상기 개체의 흡연 상태와 정(positively) 또는 부(negatively)의 관계가 있는 것인 키트를 포함한다. 상기 설명서는 분석에서의 사용을 위한 임계값 및/또는 흡연 상태를 나타내는 점수를 생성하기 위한 해석 함수를 더 포함할 수 있다. 키트는 표 1로부터 선택된 하나 이상의 마커, 예를 들어, 2개 이상, 2개 이상, 3개 이상, 4개 이상, 5개 이상, 6개 이상, 7개 이상, 8개 이상, 9개 이상, 10개 이상, 11개 이상, 12개 이상, 13개 이상, 14개 이상, 15개 이상, 16개 이상, 17개 이상, 18개 이상, 19개 이상, 또는 20개 이상의 마커들에 대한 시약들을 포함할 수 있다. 본 발명의 구현예들은 또한 정량적 발현 데이터 상에서 작동하여(operate) 개체의 흡연 상태를 나타내는 점수를 생성하는 예측 모델들 및 연관된 해석 함수들을 포함한다(incorporate). 예측 모델은 부분 최소 자승법 모델(partial least squares model), 로지스틱 회귀 모델(logistic regression model), 선형 회귀 모델(linear regression model), 선형 판별 분석 모델(linear discriminant analysis model), 리지 회귀 모델(ridge regression model), 및 트리-기반 반복 분할 모델(tree-based recursive partitioning model)일 수 있다. 특정한 구현예에서, 마커들은 CDND1, LRRN3, MUC1, GOPC, 또는 LEF1, 또는 표 1로부터 선택된 마커들로서 그 발현이 CDND1, LRRN3, MUC1, GOPC, 및 LEF1과 관련된 마커들을 포함한다. 일부 구현예에서, 해석 함수는 log(pr(Smoker)/(1-Pr(Smoker)) = 15.78306 + 0.3876 * SEX - 3.3368 * CLDND1-3.4034*LRRN3-1.4847 * MUC1 + 5.9209 * GOPC + 2.27166 * LEF1이며, 상기 SEX는 남성이면 1, 여성이면 0이고 Pr은 개연성(probability)이다. 다른 구현예에서, 상기 해석 함수는 표 7에 설명된 해석 함수이다.
이런 저런 특징들, 측면들, 및 본 발명의 이점들은 하기 설명 및 첨부된 도면들과 관련하여 더 잘 이해될 것이며: 도 1은 흡연자 및 비-흡연자 카테고리들에서 샘플들의 예측 모델의 적용에 의해 분류간의 관계 및 동일한 샘플들에 대한 평균 코티닌(cotinine) 레벨들을 나타내는 그래프이다.
일반적으로, 청구 범위 및 상세한 설명에서 사용된 용어들은 본 기술분야의 통상의 기술자에 의해 이해되는 보통의 의미로서 이해되는 것으로 의도된다. 특정한 용어들은 추가적인 명확성을 제공하기 위해 하기에 정의된다. 보통의 의미와 제공된 정의가 서로 충돌하는 경우, 제공된 정의들이 사용되어야 한다.
용어 “Ct”는 사이클 임계값(cycle threshold)을 나타내며 형광값(fluorescent value)이 설정된 임계값 위에 있는 경우에 PCR 사이클 수로서 정의된다. 그러므로, 낮은 Ct 값은 발현의 높은 레벨과 일치하고, 높은 Ct 값은 발현의 낮은 레벨과 일치한다.
용어 “Cp”는 교차점(crossing point)을 나타내며 리얼 타임 PCR(real time PCR) 기구, 예를 들어, 라이트사이클러(LightCycler)에서 보통의 증폭 곡선(standard’s amplification curve)의 최적 로그-선형 부분(best fit of the log-linear portion), 및 노이즈 밴드(백그라운드 형광 측정치에 따라 설정된)의 교차 지점(intersection)으로서 정의된다.
용어 “FDR”은 오류 발견율(false discovery rate)를 의미한다. FDR은 무작위로-치환된 데이터세트들을 분석하고 주어진 유의 수준(p-value) 임계값에서 평균 유전자수(average number of genes)를 표로 작성하는 것에 의해 추정될 수 있다.
용어 “GL””GM”및”GU”는 각각 알고리즘 개발 데이터 세트(Algorithm Development data set)에서 유전자에 대한 Cp의 1번째 백분위수, 중간, 및 99번째 백분위수를 나타낸다.
용어 “마커”또는”마커들”은 지질, 지질단백질, 단백질, 사이토카인, 케모카인, 성장 인자, 펩타이드, 핵산, 유전자, 및 올리고뉴클레오티드와 함께, 그들의 관련된 복합체, 대사산물, 돌연변이체, 변이체, 동질이상체(polymorphisms), 변형체(modifications), 단편, 서브유닛, 분해 산물, 성분(elements), 및 다른 분석물 또는 샘플-유래된 측정물(measures)을 제한 없이 망라한다. 이러한 돌연변이, 복제수에서의 변이 및/또는 전사 변이체가 예측 모델을 생성하는데 유용하거나, 또는 관련된 마커들(예를 들어 대안적 전사체, 핵산 또는 단백질의 비-돌연변이 버전 등)을 이용하여 개발된 예측 모델들에서 유용한 상황에서, 마커는 또한 돌연변이된 단백질, 돌연변이된 핵산, 복제수에서의 변이(variations in copy numbers), 및/또는 전사 변이체(transcript variants)를 포함한다.
용어들 “매우 상관된 유전자 발현(highly correlated gene expression)”또는”매우 상관된 마커 발현(highly correlated marker expression)”은 관상 동맥 질환(coronary artery disease)의 예측 모델에서 그들의 교환 가능한 사용을 허용하는데 충분한 정도의 상관성(correlation)을 가지는 유전자 또는 마커의 발현 값들을 나타낸다. 예를 들어, 발현값 X를 가지는 유전자 x가 예측 모델을 구성하는데 사용되었다면, 발현값 Y를 가지는 매우 상관된 유전자 y는 본 명세서의 이익 및 본 기술분야에서 통상의 지식을 가지는 자에게 쉽게 명백한 간단한 방법으로 예측 모델에서 치환될 수 있다. 가령 유전자들 x 및 y의 발현값들 사이의 대략 선형 관계가 Y = a + bX 라면, X는 예측 모델에서 (Y-a)/b로 치환될 수 있다. 비-선형 상관성에 있어서, 비슷한 수학적 변형이 유전자 y의 발현값을 유전자 x의 상응하는 발현값으로 효과적으로 전환하는데 사용될 수 있다. 용어 “매우 상관된 마커(highly correlated marker)”또는”매우 상관된 치환 마커(highly correlated substitute marker)”는 예를 들어, 상기 표준(criteria)들에 기반한 예측 모델에서 치환 될 수 있거나 및/또는 예측 모델에 첨가될 수 있는 마커들을 나타낸다. 매우 상관된 마커는 2 가지 이상의 방법들로 사용될 수 있다: (1) 오리지널(original) 마커(들)에 대한 매우 상관된 마커(들)의 치환(substitution) 및 흡연 상태를 예측하기 위한 새로운 모델의 생성에 의한 방법; 또는 (2) 흡연 상태를 예측하기 위한 기존 모델(existing model)에서 오리지널 마커(들)에 대한 매우 상관된 마커(들)의 치환에 의한 방법.
용어 “포유류(mammal)”는 인간 및 비-인간 모두를 망라하며 인간, 비-인간 영장류, 개과(canines), 고양이과(felines), 쥐과(murines), 소과(bovines), 말과(equines), 및 돼지과(porcines)를 포함하나 이에 제한되지는 않는다.
용어 “메타유전자(metagene)”는 그 발현 값들이 결합되어 예측 모델에서 구성 요소로서 사용될 수 있는 단일 값(single value)을 생성하는 유전자들의 세트를 나타낸다(Brunet, J.P., et al. Proc. Natl. Acad. Sciences 2004;101(12):4164-9).
용어 “샘플”은 정맥천자(venipuncture), 배설물(excretion), 사정(ejaculation), 마사지(massage), 생체 검사(biopsy), 바늘 흡인(needle aspirate), 세척 샘플(lavage sample), 부스러기(scraping), 외과적 절개(surgical incision), 중재적시술(intervention) 또는 본 기술 분야에 알려진 다른 수단들을 포함하는 수단들에 의해 개체로부터 채취된 단일 세포 또는 다중 세포들 또는 세포들의 단편들 또는 체액의 분취량(aliquot of body fluid)을 포함할 수 있다.
용어 “개체(subject)”는 세포, 조직, 또는 유기체, 인간 또는 비-인간, 체내(in-vivo), 체외(ex vivo), 또는 시험관내(in vitro)인지 여부, 남성 또는 여성을 망라한다.
용어 “샘플과 연관된 데이터세트를 수득하는 단계(obtaining a dataset associated with a sample)”는 하나 이상의 샘플로부터 결정된 데이터의 세트를 수득하는 단계를 망라한다. 데이터세트를 수득하는 단계는 샘플들 수득하고, 상기 샘플을 가공하여 실험적으로 데이터를 결정하는 단계를 망라한다. 상기 구절은 또한 데이터 세트를 예를 들어 상기 샘플을 가공하여 실험적으로 상기 데이터세트를 결정한 제3자로부터 받는 단계를 망라한다. 추가적으로, 상기 구절은 하나 이상의 데이터베이스 또는 하나 이상의 간행물(publication) 또는 데이터베이스들과 간행물들의 조합으로부터 데이터를 발굴(mining)하는 단계를 망라한다. 데이터세트는 본 기술분야의 통상의 기술자에 의해서 기억 장치 상에 저장된 것을 포함하는 다양한 공지된 방법들을 통해 수득될 수 있다.
상기 상세한 설명 및 첨부된 청구 범위에서 사용된 것으로서, 단수 형태 “a,””an,”및”the”는 문맥에서 명백히 다르게 나타내지 않는 한 복수형 대상(plural referents)들을 포함한다는 것을 주의해야 한다.
방법
마커들 및 임상적 요인들
본 발명의 하나 이상의 마커들의 양(quantity)은 값(value)으로서 나타낼 수 있다. 값은 조건 하에서 샘플의 평가(evaluation)로부터 기인한 하나 이상의 숫자 값(numerical values)들 일 수 있다. 상기 값들은 예를 들어 실험실에서 수행된 검정에 의해 샘플로부터 측정물(measures)들을 실험적으로 수득하는 것에 의해 수득 될 수 있고, 또는 대안적으로, 실험실과 같은 서비스 제공자로부터 데이터세트를 수득하거나, 또는 데이터세트가 예를 들어 기억 장치상에 저장된 데이터베이스 또는 서버로부터 수득하는 것에 의해 수득될 수 있다.
구현예에서, 하나 이상의 마커의 양은 조건 하에서 샘플의 평가로부터 기인한 표 1에 설명된 유전자들의 발현 레벨들과 연관된 하나 이상의 숫자 값들일 수 있다. 표 1의 컬럼 라벨(column labels)들은 하기를 나타낸다: “프로브 이름”은 애질런트 인간 전체 유전체 어레이(Agilent Human Whole Genome Arrays) (Agilent Technologies, Santa Clara, CA)에서 설립한 프로브들의 이름을 나타내며; “유전자 이름”은 인간 유전체 기구(Human Genome Organization, HUGO) 유전자 명명 위원회(Gene Nomenclature Committee)(HGNC)에 의해 제공된 가이드라인들에 따른 인간 유전자들의 이름들을 나타낸다. 기탁 번호(들)(accession number(s)) 및 별칭들(aliases)과 같은, 각 인간 유전자에 대한 추가 정보는 HGNC genenames.org 웹사이트 상의 검색 페이지에 유전자 이름을 기입하는 것에 의해 찾을 수 있다. 예를 들어, 용어 “LRRN3”를 2011년 8월 10일에 HGNC 웹사이트의 간편 검색 영역(Simple Search field)에 기입하면 승인된 유전자 이름인 LRRN3(leucine rich repeat neuronal 3), LRRN3의 서열 기탁 IDs(GenBank AB060967; RefSeq: NM 001099658), 및 LRRN3에 대한 이전의 심볼(previous symbols)들 또는 동의어들(FIGLER5, FLJ11129, NLRR3)이 나온다. 추가적인 인간 유전자 이름들은 하기 실시예 섹션에 제공된다. 본 기술분야에서 통상의 기술자는 표 1에 제공된 유전자 이름 정보가 본 발명에서 바이오마커들로서 사용되는 유전자들을 분명하게 식별한다는 점을 인식하며, 통상의 기술자는 지나친 실험을 수행하지 않아도 명명된 유전자에 대한 단백질 및 핵산 서열 정보를 수득하는데 표 1의 유전자 이름 정보를 사용하는 것이 가능하다. 이러한 정보는 통상의 기술자가 본 명세서에 기재된 방법들 중 하나를 사용하여 이러한 마커들에 대한 정량적 발현 레벨 데이터를 쉽게 수득하는 것을 가능하게 한다. “스모킹 로그 오즈(Smoking Log Odds)”는 흡연 상태와 바이오마커의 연관성(association)의 표준 통계적 측정(standard statistical measure)을 나타낸다. 표 1에서 양의 값은 상기 마커가 흡연 상태와 정(positively)의 관계가 있음을 나타내며, 반면 음의 값은 상기 마커가 흡연 상태와 부(negatively)의 관계가 있음을 나타낸다(즉, 상기 마커는 음의(“비-흡연”) 흡연 상태와 연관된 것임). 따라서, 발현이 흡연 증가에 따라 감소한다면, 상기 마커는 음의 값(negative value)을 가지며, 발현이 흡연 증가에 따라 증가한다면, 상기 마커는 표 1의 양의 값(positive value)을 가진다. “흡연 p”는 흡연 상태와 마커의 연관성(정 또는 부(positive or negative))의 통계적 유의 수준(statistical significance)을 나타낸다.
구현에에서, 마커의 연관된 값은 개체로부터 수득한 샘플과 연관된 데이터세트에 포함될 수 있다. 데이터세트는 표 1에 설명된 2개 이상, 3개 이상, 4개 이상, 5개 이상, 6개 이상, 7개 이상, 8개 이상, 9개 이상, 10개 이상, 11개 이상, 12개 이상, 13개 이상, 14개 이상, 15개 이상, 16개 이상, 17개 이상, 18개 이상, 19개 이상, 20개 이상, 21개 이상, 22개 이상, 23개 이상, 24개 이상, 25개 이상, 26개 이상, 27개 이상, 28개 이상, 29개 이상, 30개 이상의 마커(들)의 마커 발현 값을 포함할 수 있다. 데이터세트는 표 1에 설명된 마커들의 서브세트 또는 완전한 세트와 함께 흡연 상태와 정 또는 부의 관계가 있는 것으로 현재 알려져 있거나 또는 나중에 밝혀지는 다른 마커들을 포함할 수 있다. 예를 들어, 데이터세트는 SASH1, P2RY6, MUC1, LRRN3, MGAT3, 및 CLDND1에 대한 발현 값들을 포함할 수 있다. 다른 구현예에서, 데이터세트는 CLDND1, LRRN3, MUC1, GOPC, 및 LEF1에 대한 발현 값들을 포함할 수 있다. 다른 조합들은 하기 실시예 섹션에서 더 자세하게 기재되어 있다. 데이터세트는 또한 임상적 요인, 예를 들어 성별(gender)과 마커들에 대한 발현 값들을 조합(combine)할 수 있다. 데이터세트는 또한 마커들에 대한 발현 값들을 개체의 성별(subject’s sex)의 지표(즉, 개체가 남성 또는 여성인지에 대한 지표)와 조합할 수 있다. 데이터세트는 또한 마커들에 대한 발현 값들을 개체의 고혈압 상태의 지표와 조합할 수 있다.
다른 구현예에서, 본 발명은 개체와 연관된 샘플을 수득하는 단계로서, 상기 샘플은 하나 이상의 마커들을 포함하는 단계를 포함한다. 상기 샘플은 개체 또는 제3자, 예를 들어 전문 의료진(medical professional)에 의해서 수득될 수 있다. 전문 의료진들의 예들에는 의사(physicians), 응급구조사(emergency medical technicians), 간호사, 최초 대응자(first responders), 심리학자(psychologists), 의료 물리 직원(medical physics personnel), 임상 간호사(nurse practitioners), 외과 의사(surgeons), 치과 의사(dentists), 및 본 기술분야의 통상의 기술자에게 알려져 있는 다른 명백한 전문 의료진들을 포함한다. 상기 샘플은 체액(bodily fluid), 예를 들어 양수(amniotic fluid), 수양액(aqueous humor), 담즙(bile), 림프(lymph), 모유(breast milk), 간질액(interstitial fluid), 혈액, 혈장(blood plasma), 귀지(cerumen)(earwax), 쿠퍼액(Cowper’s fluid)(pre-ejaculatory fluid), 유미(chyle), 유미즙(chime), 여성 사정액(female ejaculate), 생리혈(menses), 점액(mucus), 침(saliva), 소변(urine), 구토물(vomit), 눈물, 질 윤활액(vaginal lubrication), 땀(sweat), 혈청, 정액(semen), 피지(sebum), 고름(pus), 흉수(pleural fluid), 뇌척수액(cerebrospinal fluid), 윤활액(synovial fluid), 세포내액(intracellular fluid), 및 유리체액(vitreous humour)으로부터 수득될 수 있다. 구현예에서, 상기 샘플은 전문 의료인이 개체로부터 주사기와 같은 것에 의해 혈액을 채취하는 것인 채혈에 의해서 수득된다. 상기 체액은 그런 뒤 검정(assay)을 사용하여 하나 이상의 마커들의 값을 결정하는데 테스트될 수 있다. 하나 이상의 마커들의 값은 그런 뒤 본 발명의 방법들을 사용하여 검정을 수행하는 동일한 파티(same party)에 의해 평가될 수 있고 또는 본 발명의 방법들을 사용하는 평가를 위해 제3자에게 보내질 수 있다.
흡연 상태는 특정한 흡연-관련 질병 위험(smoking-related disease risks)들과 관련된 것으로 잘 알려져 있다. 이들은 만성 폐쇄성 폐질환(chronic obstructive pulmonary disease, COPD), 만성 기관지염(chronic bronchitis), 기종(emphysema), 폐암, 천식(asthma)을 포함한다(비특허문헌 11, 12). 따라서, 본 발명의 방법들은 독립적인 위험 인자를 제공하여 하나 이상의 흡연-관련 질병들의 개개의 발병 위험(individual’s risk)을 평가하는데 사용될 수 있다. 본 발명의 방법으로부터 얻은 결과는 흡연 상태를 사용하여 흡연-관련 질병 위험을 평가하는 여러 진단 과정의 어느 하나에 반영될 수 있다. 이러한 결과들은 예를 들어 의사, 보험업자(insurance carrier) 또는 하나 이상의 흡연-관련 질병들의 개개의 발병 위험을 평가하는데 관심이 있는 다른 존재(entity)에게 환자의 히스토리 데이터를 제공하는 것에서, 개개의 자가-보고된 흡연 상태 대신에 또는 이에 덧붙여 사용될 수 있다.
해석 함수
구현예에서, 해석 함수는 예측 모델에 의해서 생긴 함수일 수 있다. 해석 함수는 또한 복수의 예측 모델들로부터 생길 수 있다. 구현예에서, 함수는 하기의 형태를 취할 수 있다: log(pr(Smoker)/(1-Pr(Smoker)) = 15.78306 + 0.3876 * SEX - 3.3368 * CLDND1-3.4034*LRRN3-1.4847 * MUC1 + 5.9209 * GOPC + 2.27166 * LEF1이며, 상기 SEX는 남성이면 1, 여성이면 0이고 Pr은 개연성(probability)이다. 다른 해석 함수들은 표 7에 설명되어 있다.
구현예에서, 예측 모델은 부분 최소 자승법 모델(partial least squares model), 로지스틱 회귀 모델(logistic regression model), 선형 회귀 모델(linear regression model), 선형 판별 분석 모델(linear discriminant analysis model), 리지 회귀 모델(ridge regression model), 및 트리-기반 반복 분할 모델(tree-based recursive partitioning model)을 포함할 수 있다. 구현예에서, 예측 모델은 또한 서포트 벡터 머신(Support Vector Machines), 2차 판별 분석(quadratic discriminant analysis), 라쏘 회귀 모델(LASSO regression model)을 포함할 수 있다. 통계 학습의 요소(Elements of Statistical Learning, Springer 2003, Hastie, Tibshirani, Friedman)를 인용하며; 이는 그 전체가 모든 목적으로서 본 명세서에 참조로 포함된다. 예측 모델 성능(performance)은 곡선 아래 면적(area under the curve, AUC)에 의해 분석(be characterized) 될 수 있다. 구현에에서, 예측 모델 성능은 0.68 내지 0.70 범위인 AUC에 의해서 분석된다. 구현예에서, 예측 모델 성능은 0.70 내지 0.79 범위인 AUC에 의해서 분석된다. 구현예에서, 예측 모델 성능은 0.80 내지 0.89 범위인 AUC 에 의해서 분석된다. 구현예에서, 예측 모델 성능은 0.90 내지 0.99 범위인 AUC 에 의해서 분석된다. 해석 함수들은 하기 실시예들에 나타낸 것으로서 정보제공적 마커(informative markers)들의 조합들을 사용하거나, 또는 그 발현이 흡연 상태와 매우 상관된 단일 유전자를 사용하여 개발될 수 있다. 특정 구현예에서, 단일 유전자에 기반하여 분류하는 방법은 로지스틱 회귀 또는 선형 판별 분석(LDA)을 사용하여 개발된다.
검정
하나 이상의 마커들에 대한 검정의 예들은 시퀀싱된 분자(sequenced molecules)들의 수를 세어서 그 수를 사용하여 발현 레벨을 결정하는 시퀀싱-기반 검정, 마이크로어레이, DNA 검정을 포함한다. 시퀀싱된 분자들은 mRNA 전사체들과 일치하는 cDNAs 일 수 있다. 다른 검정은 폴리머라아제 연쇄 반응(PCR), RT-qPCR, 시퀀싱 검정, 서던 블롯(Southern blots), 노던 블롯(Northern blots), 항체-결합 검정(antibody-binding assays), 효소면역측정법(enzyme-linked immunosorbent assays, ELISAs), 유동세포분석법(flow cytometry), 프로틴 검정(protein assays), 웨스턴 블롯(Western blots), 비탁분석법(nephelometry), 비탁법(turbidimetry), 크로마토그래피, 질량분석법, 예를들어 RIA, 면역 형광법(immunofluorescence), 면역 화학 발광법(immunochemiluminescence), 면역 전기화학 발광법(immunoelectrochemiluminescence), 또는 경쟁적 면역분석법(competitive immunoassays), 면역침강법(immunoprecipitation)을 포함하나 이에 제한되지는 않는 면역분석법(immunoassays)을 포함하며, 상기 검정은 하기 실시예 섹션에 기재되어 있다. 검정으로부터 얻은 정보는 정량적일 수 있으며 본 발명의 컴퓨터 시스템으로 보내질 수 있다. 상기 정보는 또한 패턴들 또는 형광성(fluorescence)을 관찰하는 것과 같은 정량적인 것일 수 있으며, 이는 사용자에 의해서 또는 리더(reader)또는 컴퓨터 시스템에 의해서 자동적으로 정량적 측정치(quantitative measure)로 해석될 수 있다. 구현예에서, 상기 개체는 또한 컴퓨터 시스템에 검정 정보이외의 정보, 임상적 요인(예를 들어, 성별)과 같은 정보를 제공할 수 있다.
RT-qPCR을 사용하여 발현 레벨들을 평가하는 것뿐만 아니라, 마이크로어레이 또는 RNA 시퀀싱과 같은 다른 양상(modalities)들이 사용될 수 있다. 예를 들어, RT-qPCR 데이터에 기반한 예측 모델을 마이크로어레이 데이터로 크로스워크(crosswalk)하기 위해서는, 상기 어레이 데이터를 먼저 표준 정규화(standard normalization)에 적용해야 한다. 그런 뒤 회귀선(regression line)을 맞추어(fit) 그 어레이 값으로부터 각 모델 유전자들에 대한 PCR 값을 예측한다. 각 회귀에서 맞춰진 값들은 그런 뒤 예측변수들(predictors)로서 흡연 모델에 삽입된다(inserted). 예측 모델을 RNA 시퀀싱으로 크로스워크하기 위해, 모델 유전자들의 표적화된 리-시퀀싱이 차세대 시퀀싱 플랫폼(platform)을 사용하여 달성된다. 로 서열 리드들(Raw sequence reads)은 각각의 표적화된 유전자들, 및 커버리지 뎁스(depth of coverage)를 계산하는것에 의해 평가된 로 발현 레벨들(raw expression levels)에 대해서 정렬된다. 로 값(Raw values)들은 샘플 당 로 서열(raw sequences)들의 총 개수 및 표적 유전자의 길이에 의해 정규화 된다. 그런 뒤 회귀선을 맞추어 그 정규화된 서열 값들로부터 각 모델 유전자들에 대한 PCR 값을 예측한다. 각 회귀에서 맞춰진 값들은 흡연 모델에 예측변수들로서 삽입된다.
정보제공적 마커 그룹들( Informative marker groups )
본 출원에서 이름, 기탁 번호, 또는 서열로 식별된 구체적이고, 예시적인 마커들에 덧붙여, 본 명세서에 예시된 서열들에 대해서 90% 이상 또는 95% 이상 또는 97% 이상 또는 그 이상의 상동성(identity)을 가지거나, 또는 예시된 유전자들 또는 서열들로 인코딩 된 서열들에 대해 90% 이상 또는 95% 이상 또는 97% 이상 또는 그 이상의 상동성의 서열들을 가지는 단백질들을 인코딩하는 변이 서열들의 발현 값들을 사용하여 샘플들을 점수화하고 선택적으로, 분류하는 흡연 상태의 작동 가능한 모든 예측 모델들 및 그들의 사용을 위한 방법들이 본 발명의 범주 내에 포함된다. 서열 상동성(sequence identity)의 퍼센트는 예를 들어, 본 기술분야의 통상의 기술자에게 잘 알려지고 스테판 에프.(Stephen F. Altschul et al., J. Mol. Biol. 215:403-410 (1990))에 기재되어 있는 것으로서, 미국국립보건원(National Institutes of Health)에 의해서 유지되는 미국 국가생물공학센터(National Center for Biotechnology Information) 웹사이트에서 이용가능 한 BLASTn, 및 BLASTp를 포함하는 알고리즘을 사용하여 결정될 수 있다. 하기에 기재된 바와 같이, 본 발명의 일 구현예에 따르면, 예시적인 마커 발현 값에 더하여 또는 그 대신에 예시적 마커 발현 값의 발현과 매우 상관된 것으로 이미 알려졌거나 또는 나중에 발견되는 마커 발현 측정량(marker expression measurement)을 사용하여 샘플들을 점수화하고 선택적으로, 분류하는 모든 작동 가능한 예측 모델들 및 그 모델들의 사용을 위한 방법들이 제공된다. 본 발명의 목적을 위해, 상기 매우 상관된 유전자들은 청구된 발명들의 실제 범위(literal scope) 내인 것으로 고려되거나 또는 대안적으로 예시적인 마커들에 대한 균등물(equivalents)들로서 망라되는 것으로 고려된다. 예시적인 마커들의 발현 값들과 매우 상관된 발현 값들을 가지는 마커들의 식별, 및 예측 모델의 구성요소로서 그들의 사용은 본 기술분야의 통상의 기술 수준 내이다. 하기 실시예 섹션은 매우 상관된 마거들을 식별하고 흡연 상태의 예측 모델들에서 알고리즘 마커들을 이들로 치환하기 위한 방법들의 많은 예시들 및 샘플들을 점수화하고 선택적으로, 분류하는 그들의 사용을 위한 방법들의 많은 예시들을 제공한다.
컴퓨터 실행
일 구현예에서, 컴퓨터는 칩셋(chipset)과 연결된 하나 이상의 프로세서를 포함한다. 또한 칩셋에 연결된 것은 메모리, 기억 장치(storage device), 키보드, 그래픽 어댑터(graphics adapter), 위치결정장치(pointing device), 및 네트워크 어댑터(network adapter)이다. 디스플레이는 그래픽 어댑터와 연결된다. 일 구현예에서, 칩셋의 기능성은 메모리 컨트롤러 허브(memory controller hub) 및 I/O 컨트롤러 허브에 의해서 제공된다. 다른 구현예에서, 상기 메모리는 칩셋 대신에 프로세서와 직접적으로 연결된다.
기억 장치는 하드 드라이브, 씨디롬(compact disk read-only memory, CD-ROM), DVD, 또는 고체-상태 기억 장치(solid-state memory device)와 같은 것으로서 데이터를 보유하는 것이 가능한 장치이다. 상기 메모리는 프로세서에 의해 사용되는 명령(instructions) 및 데이터를 보유한다. 상기 위치결정장치는 마우스, 트랙볼, 또는 다른 타입의 위치결정장치일 수 있고, 이는 컴퓨터 시스템에 데이터를 입력하는데 키보드와 함께 사용된다. 상기 그래픽 어댑터는 디스플레이(display)에 이미지들 및 다른 정보들을 나타낸다. 상기 네트워크 어댑터는 컴퓨터 시스템을 로컬 또는 광역 네트워크(local or wide area network)와 연결한다.
본 기술분야에 알려져 있는 바와 같이, 컴퓨터는 상기에 기재된 것과 별개 및/또는 다른 구성요소들을 가질 수 있다. 추가적으로, 상기 컴퓨터는 특정 구성요소들을 결여할 수 있다. 또한, 상기 기억 장치는 로컬 및/또는 컴퓨터로부터 떨어진 것(저장 지역 통신망(storage area network, SAN) 내에 구현된 것과 같은)일 수 있다.
본 기술분야에 알려져 있는 바와 같이, 상기 컴퓨터는 본 명세서에 기재된 기능성을 제공하기 위한 컴퓨터 프로그램 모듈(modules)들을 실행(execute)하는데 적합하게 된다(adapted to). 본 명세서에서 사용된 바와 같이, 용어 “모듈(module)”은 특정한 기능성을 제공하도록 활용된 컴퓨터 프로그램 로직(logic)을 나타낸다. 따라서, 모듈은 하드웨어, 펌웨어(firmware), 및/또는 소프트웨어에서 실행될 수 있다. 일 구현예에서, 프로그램 모듈들은 기억 장치상에 저장되고, 메모리내에 로딩되고(loaded), 프로세서에 의해서 실행된다.
둘 이상의 핵산 또는 폴리펩티드 서열들의 내용에서, 용어 퍼센트 “상동성(idendity)”는 하기에 기재된 서열 비교 알고리즘들 중 하나(예를 들어, BLASTP 및 BLASTN 또는 통상의 기술자에게 이용 가능한 다른 알고리즘들)를 사용하거나 또는 육안 검사(visual inspection)에 의해서 측정된 것으로서, 최대 상응성(maximum correspondence)에 대해 비교 및 정렬하였을 때에, 동일한 뉴클레오티드들 또는 아미노산 잔기들의 특정한 퍼센트를 가지는 둘 이상의 서열들 또는 서브서열들(subsequences)을 나타낸다. 본 출원에 따라서, 상기 퍼센트”상동성”은 예를 들어 기능성 도메인(functional domain)에 걸쳐서 대비되는 서열의 부위(region of the sequence)에 걸쳐서 존재하거나, 또는, 대안적으로, 대비되는 두 개의 서열들의 총 길이에 걸쳐서 존재한다.
서열 비교를 위해, 전형적으로 하나의 서열은 대비되는 테스트 서열들에 대한 기준 서열(reference sequence)로서 작용한다. 서열 비교 알고리즘을 사용하는 경우, 테스트 및 기준 서열들은 컴퓨터에 입력되고, 필요하다면 서브서열 좌표들(subsequence coordinates)이 지정되고, 그리고 서열 알고리즘 프로그램 파라미터(parameters)들이 지정된다. 상기 서열 비교 알고리즘은 그런 뒤 지정된 프로그램 파라미터들에 기반하여, 기준 서열에 대한 테스트 서열(들)의 퍼센트 서열 상동성을 계산한다.
비교를 위한 서열들의 최적 정렬(Optimal alignment)이 예를 들어 로컬 호몰로지 알고리즘(the local homology algorithm of Smith & Waterman, Adv. Appl. Math. 2:482 (1981)), 호몰로지 정렬 알고리즘(the homology alignment algorithm of Needleman & Wunsch, J. Mol. Biol. 48:443 (1970)), 유사성 방법에 대한 탐색(the search for similarity method of Pearson & Lipman, Proc. Nat'l. Acad. Sci. USA 85:2444 (1988)), 이러한 알고리즘의 컴퓨터화된 실행법들(computerized implementations of these algorithms)( GAP, BESTFIT, FASTA, and TFASTA in the Wisconsin Genetics Software Package, Genetics Computer Group, 575 Science Dr., Madison, Wis.), 또는 육안 검사(일반적으로 Ausubel et al., infra를 인용)에 의해서 수행될 수 있다.
퍼센트 서열 상동성 및 서열 유사성을 결정하는데 적절한 알고리즘의 한 예시는 앨트슐 등(Altschul et al., J. Mol. Biol. 215:403-410 (1990)에 기재되어 있는 BLAST 알고리즘이다. BLAST 분석을 수행하기 위한 소프트웨어는 미국 국가생물공학센터(National Center for Biotechnology Information)를 통해서 공개적으로 이용가능하다.
본 명세서에 기재된 존재들(entities)의 구현예들은 본 명세서에 기재된 것들과 다른 및/또는 별개인 모듈들을 포함할 수 있다. 또한, 모듈에 기여된 기능성은 다른 구현예에서 다른 또는 별개인 모듈들에 의해 수행될 수 있다. 또한, 이러한 기재는 종종 용어 “모듈”을 명확성 및 편의성의 목적들을 위해 생략한다.
키트
본 발명은 표 1로부터 선택된 하나 이상의 마커에 대한 정량적 발현 데이터를 결정하기 위한 키트들 및 상기 데이터를 사용하여 개체의 흡연 상태를 결정하기 위한 설명서들을 제공한다. 선택적으로, 상기 키트는 포장재(packaging)를 포함할 수 있다. 상기 키트는 표 1로부터 선택된 하나 이상의 마커들의 발현 레벨들을 결정하기 위한 qRT-PCR 검정, 혼성화 검정(hybridization assay), 또는 시퀀싱 검정(sequencing assay)과 같은 뉴클레오티드-기반 검정을 수행하기 위한 시약들을 포함 할 수 있다. 상기 키트는 본 명세서에 기재된 다른 타입의 검정들을 수행하기 위한 시약들을 포함할 수 있다. 상기 시약들은 프로브들 및 표 4에 나열된 것들과 같은 프라이머들, 또는 다른 유사한 시약들일 수 있다. 상기 시약들은 표 1 또는 표 2에서 식별된 프로브들과 같은 프로브들일 수 있다. 상기 설명서는 정량적 발현 데이터를 작동하는데 사용되는 해석 함수를 포함할 수 있다. 상기 해석함수는 예측 모델로부터 생성될 수 있다. 상기 설명서는 흡연 개체 또는 흡연 개체군으로부터 결정될 수 있는 임계값, 또는 비-흡연 개체 또는 비-흡연 개체군으로부터 결정될 수 있는 임계값을 포함할 수 있다. 상기 설명서는 흡연 상태를 결정하기 위해 정량적 발현 데이터를 임계값에 대해 비교하는 방법을 포함할 수 있다.
실시예
하기는 본 발명을 수행하기 위한 구체적인 구현예들의 예시들이다. 상기 예시들은 예시적인 목적을 위해 제공되었으며, 본 발명의 범주를 어떠한 방법으로든 제한하고자 하는 의도가 아니다. 사용된 숫자들(예를 들어, 양, 온도, 등)에 대한 정확도를 보장하고자 노력하였으나, 실험 오차 및 편차가, 물론, 허용되어야 한다.
본 발명의 실행(practice)은 다르게 나타내지 않는 한, 본 기술분야 내의 단백질 화학(protein chemistry), 생화학, 재조합 DNA 기술들 및 약리학(pharmacology)의 통상적인 방법들을 사용할 것이다. 이러한 기술들은 하기 문헌들에서 완전히 설명된다. 예를 들어 T.E. Creighton, Proteins: Structures and Molecular Properties (W.H. Freeman and Company, 1993); A.L. Lehninger, Biochemistry (Worth Publishers, Inc., current addition); Sambrook, et al., Molecular Cloning: A Laboratory Manual (2nd Edition, 1989); Methods In Enzymology (S. Colowick and N. Kaplan eds., Academic Press, Inc.); Remington's Pharmaceutical Sciences, 18th Edition (Easton, Pennsylvania: Mack Publishing Company, 1990); Carey and Sundberg Advanced Organic Chemistry 3 rd Ed. (Plenum Press) Vols A and B(1992)를 인용한다.
재료 및 방법
통계학적 방법
모든 통계학적 방법들은 R 소프트웨어 패키지를 사용하여 수행하였다. 상기 사용된 통계학적 방법들은 하기에 더 자세히 기재되고 참고되어 있다.
유전자 선택(Gene Selection)
RT-PCR에 대한 유전자들을 중요성(significance), 폴드-체인지(fold-change), 경로 분석(pathway analysis), 및 문헌 뒷받침(literature support)에 기반하여 선택하였다. 유전자에 기반한 계층적 클러스터링: 유전자 상관성들은 RT-PCR 유전자들이 다중 클러스터들을 나타냄을 보장한다(Hierarchical clustering based on gene: gene correlations ensured that RT-PCR genes represented multiple clusters). 정규화 유전자들을 낮은 분산(low variance), 적당한 고 발현(moderate to high expression), 및 케이스와 현저한 연관이 없는: 조절 상태(control status), 성별, 나이, 또는 세포 수(cell counts)에 기반하여 선택하였다.
PCR 통계적 분석
임상적/인구통계학적 요인들(Clinical/demographic factors)을 흡연 상태 연관성에 대해서 일변량 및 다변량 로지스틱 회귀(univariate and multivariate logistic regression)를 사용하여 평가하였다. 흡연 상태 및 다른 임상적/인구통계학적 요인들과 유전자 발현 연관성을 로버스트 로지스틱 회귀(robust logistic regression)에 의해서 평가하였다(비조정 및 성별/나이 조정).7
전제 유전체 마이크로어레이 분석(Whole Genome Microarray Analysis)
단계 I - 프리딕트발견( PREDICT DISCOVERY )
본 발명자들은 관상 동맥 질환과 상관된 유전자 발현 시그니쳐(gene expression signatures)들을 식별하도록 디자인 된 전향적 임상 실험(prospective clinical trial, PREDICT)에 등록된 210명의 카테터 실험실(catheter lab) 환자들로부터 분리한 RNA에 대해서 전체 유전체 마이크로어레이 분석을 수행하였다. 혈액을 카테터 설치(catheterization)시에 팍스젠(PAXgen) 튜브에서 채취하였다. RNA를 아젠코트 알엔어드밴스 시스템(Agencourt RNAdvance system)을 이용하는 자동화된 방법에 의해서 분리하였고, 리보그린(Ribogreen)(Invitrogen (now Life Technologies), Carlsbad, CA)을 이용하여 정량화하였다. RNA를 제조자(Agilent, Santa Clara, CA)에 의해 추천된 방법들을 사용하여 Cy3으로 표적화하였고 전체 유전체 어레이에 대해 혼성화하였다(Agilent Human Whole Genome Arrays).
어레이 정규화
어레이 정규화를 위해 애질런트 처리된 신호 값들을 100의 절삭평균으로 규모화하였고 그런 뒤 로그2로 변형하였다(Agilent processed signal values for array normalization were scaled to a trimmed mean of 100 and then log2 transformed). 표준 어레이 QC 메트릭스(Standard array QC metrics)(퍼센트 프레센트(percent present), 페어와이즈 상관성(pairwise correlation), 및 신호 강도)를 질적 평가(quality assessment)를 위해 사용하였으며, 그 결과로 210명의 프리딕트(PREDICT) 샘플들의 12명이 배제되었다(resulting in 12 of 210 PREDICT samples being excluded).
어레이 분석
프리딕트 어레이를 위해, 주어진 페어링된 디자인(given the paired design), 조건부 로지스틱 회귀(conditional logistic regression)를 사용하였다. 오류 발견율(False discovery rates)들을 다중 비교(multiple comparisons)들을 설명하는데 사용하였다. 고이스트(GOEAST)를 유전자 온톨리지(GO) 용어들의 과다-표현(over-representation)을 결정하는데 사용하였다.
어레이 특징 데이터(Array feature data)를 애질런트 특징 추출 소프트웨어(Agilent Feature Extraction software)를 사용하여 추출하였고 변위치 정규화(quantile normalization)를 사용하여 정규화하였다.
알고리즘 계산 및 변형(Algorithm Calculation and Transformation)
데이터 전처리 및 QC 단계들(Data Preprocessing and QC Steps)
1) 각 알고리즘 유전자/샘플을 위해 3개로 만든 웰들 중앙값을 컴퓨터화 한다(The median of triplicate wells for each algorithm gene/sample was computed)
a. 하나의 웰이 콜을 가지지 않으면(If one well had no call), 두 개의 남은 웰들 중 중앙값을 사용한다
b. 두 개 또는 세 개의 웰들이 콜을 가지지 않으면, 알고리즘 유전자는 그 샘플에 대해서 콜을 받지 못한 것이다
2) 알고리즘 유전자 SD’s의 중앙값(median)을 컴퓨터화 하였다. 이 값이 .15보다 크다면, 샘플은 높은 복제 SD(High Replicate SD)에 실패한 것이다
3) 각 알고리즘 유전자 i를 위해, 최저 Cp 값(floor Cp value)을 GLi보다 낮은 값들을 GLi로 교체하여 생성하였다. 이 값은 알고리즘 개발 세트(Algorithm Development set)에서 그 유전자에 대한 Cp의 첫 번째 백분위수를 나타낸다(This value represents the 1st percentile of Cp for that gene in the Algorithm Development set).
4) 각 알고리즘 유전자 i를 위해, 최대 Cp 값(ceiling Cp value)을 GUi보다 큰 값들을 GUi로 교체하여 생성하였다. 이 값은 알고리즘 개발 세트에서 그 유전자에 대한 Cp의 99번째 백분위수를 나타낸다.
5) 각 알고리즘 유전자 i를 위해, 그 Cp 값 및 GMi 간의 차이의 절대값ㅇ르 컴퓨터화하였고, GMi는 알고리즘 개발 세트에서 그 유전자에 대한 중앙값 Cp를 나타낸다. 이 값은 알고리즘 유전자들에 걸쳐서 총합으로 된다. 총합이 27.17보다 크다면, 샘플은 범위 밖의 발현 프로파일(Expression Profile Out of Range)에 실패한 것이다. 27.17은 알고리즘 개발 세트 내에서 이러한 메트릭(metric)의 가장 큰 값을 나타낸다.
특정한 경우들에서, 알고리즘 점수는 개체에 대해서 계산되지는 않는다. 이에 대한 이유들은 낮은 팍스진®(PAXgene®) 튜브 혈액 부피, 실험실 QC 실패, 등을 포함하였다. 이러한 개체들이 분석 세트에 포함되지는 않더라도, 이러한 실패들의 발생의 빈도를 표로 작성하였다.
그 발현 레벨들이 흡연과 상관된 유전자들을 식별하기 위해, 로버스트 선형 모델을 종속 변수로서 사용된 흡연 상태 및 독립 변수들로서 나이, 성별, 및 유전자 발현과 함께 사용하였다(비특허문헌 8). 표 1은 4988개의 프로브들(4214개의 유전자들을 대표하는)을 포함하며 이는 흡연 상태와의 현저한 상관성을 나타낸다(p<0.05). 1933개의 프로브들을 흡연자들에서 하향-조정(down-regulated)하였고(음의 흡연 로그 오즈에 의해서 나타낸 것) 3055개를 상향-조정(up-regulated)하였다(양의 흡면 로그 오즈에 의해서 나타낸 것)(표 1).
Figure pct00001
Figure pct00002
Figure pct00003
Figure pct00004
Figure pct00005
Figure pct00006
Figure pct00007
Figure pct00008
Figure pct00009
Figure pct00010
Figure pct00011
Figure pct00012
Figure pct00013
Figure pct00014
Figure pct00015
Figure pct00016
Figure pct00017
Figure pct00018
Figure pct00019
Figure pct00020
Figure pct00021
Figure pct00022
Figure pct00023
Figure pct00024
Figure pct00025
Figure pct00026
Figure pct00027
Figure pct00028
Figure pct00029
Figure pct00030
Figure pct00031
Figure pct00032
Figure pct00033
Figure pct00034
Figure pct00035
Figure pct00036
Figure pct00037
Figure pct00038
Figure pct00039
Figure pct00040
Figure pct00041
Figure pct00042
Figure pct00043
Figure pct00044
Figure pct00045
Figure pct00046
Figure pct00047
Figure pct00048
Figure pct00049
Figure pct00050
Figure pct00051
Figure pct00052
Figure pct00053
Figure pct00054
Figure pct00055
Figure pct00056
Figure pct00057
Figure pct00058
Figure pct00059
Figure pct00060
Figure pct00061
Figure pct00062
Figure pct00063
Figure pct00064
Figure pct00065
Figure pct00066
Figure pct00067
Figure pct00068
Figure pct00069
Figure pct00070
Figure pct00071
Figure pct00072
Figure pct00073
Figure pct00074
Figure pct00075
Figure pct00076
Figure pct00077
Figure pct00078
Figure pct00079
Figure pct00080
Figure pct00081
Figure pct00082
Figure pct00083
Figure pct00084
Figure pct00085
Figure pct00086
Figure pct00087
Figure pct00088
Figure pct00089
Figure pct00090
Figure pct00091
Figure pct00092
Figure pct00093
Figure pct00094
Figure pct00095
Figure pct00096
Figure pct00097
Figure pct00098
Figure pct00099
Figure pct00100
Figure pct00101
Figure pct00102
Figure pct00103
Figure pct00104
작은 숫자의 유전자들은(36) 하나 이상의 연관된 프로브를 가지며, 그들의 하나 이상의 프로브들은 상향-조절을 나타내고 하나 이상의 것들은 하향-조절로 나타내어진 것이다.
프리딕트(PREDICT) 실험에 등록된 150명의 여성 카테터 실험실 환자들로부터 분리된 RNA 에 대한 그 다음의 마이크로어레이 분석에서, RT-qPCR를 통한 추가적인 평가를 위해 자가-보고된 흡연 상태와 그들의 연관성에 기인하여 6개의 유전자들을 선택하였다: SASH1; P2RY6; MUC1; LRRN3; MGAT3; 및 CLDND1.
생물학적으로 주석이 달리고(biologically annotated) 비-제로 발현(non-zero expression)을 가지는 마이크로어레이 프로브들 중에서, 이들은 흡연 상태와 가장 강한 절대적 상관성(r>0.425)을 나타내므로 선택되었다. 이들 모두는 흡연 상태에서 더 높은 발현을 가진다. 이러한 6개의 RT-qPCR 프로브 디자인들 중에서 5개는 성공적이었다; MGAT3에 대한 디자인은 그렇지 않았으며, 이 유전자는 포함되지 않았다. 이러한 5개의 유전자들을 세트 1(Set 1)로서 지정하였다. 세트 1 마커들(및 MGAT3)에 대한 상응하는 애질런트 전체 유전체 어레이 프로브들 및 유전자 이름은 표 2에 제공되어 있다.
프로브 유전자 이름
A_23_P93442 SASH1
A_23_P64611 P2RY6
A_23_P137856 MUC1
A_23_P31376 LRRN3
A_24_P245838 MGAT3 (사용되지 않음)
A_23_P155556 CLDND1
단계 II - RT-qPCR 분석.
1039명의 프리딕트 환자들로부터 분리된 RNA의 RT-qPCR 분석에서, 세트 1의 유전자들을 포함하는 261개의 유전자들을 흡연 상태의 연관성에 대해 평가하였다(표 3). 상기 추가적인 255개의 유전자들을 관상 동맥 질환, 연관된 특성들(예를 들어, 지질 레벨들)과의 연관성을 위해 또는 세포 마커들로서 선택하였다(The additional 255 genes were selected for association with coronary disease, associated traits (e.g., lipid levels) or as cell markers). 261개의 유전자들에 대한 발현 값들을 ACLY 및 TFCP2의 평균으로 정규화하였고; 값들이 0.01 및 0.99 변위치를 넘어가면 각 유전자들에 대한 발현 값들을 생략하였다(truncated). 유전자들 중에서, 135개는 나이- 및 성별-조절된 로지스틱 회귀 모델에서 흡연 상태와 현저한 연관성을 나타냈고; 80개의 현저한 어레이 유전자들 중 59개는 qRT-PCR에 의해서 현저한 채로 남았다. 이러한 세트 중에서, 3개(HIST1H2AC, NONO, PAPD4)이외에 모두가 유전자 발현의 방향성(directionality)에서 어레이 데이터에 일치하였다. LRRN3은 흡연 상태와 가장 현저하게 연관된 유전자로서 남았으며, CLDND1, SASH1, P2RY6가 그 뒤를 이었다(p<0.001). 하기 표 3에서 유전자들 GNAS 및 FTH1에 대해서, 유전자 심볼에서 “x”접미사는 주어진 유전자에 대한 검정이 엑손 서열에 대해서 디자인된 것임을 나타내고; 유전자 심볼에서 “n”접미사는 주어진 유전자에 대한 검정이 인트론 서열에 대해서 디자인된 것임을 나타낸다는 것을 유의해야 한다.
261개의 유전자 세트
ABCA1 ABCG1 ABLIM1 ACLY ACOX2 ADORA3 AF086547
AF161365 AF289562 AGER AGPAT3 AK2 AKAP8L AKNA
ALS2CR2 AMN ANAPC5 ANKRD55 ANP32C APEX1 APOE
APOL4 AQP9 AR ARG1 ARHGEF10L ASGR1 ATP5G3
B3GAT1 BPNT1 C5AR1 C5orf4 C6ORF25 CALML4 CAPN10
CASP5 CAT CCL2 CCL5 CCNB1 CCND2 CCR3
CCR7 CD11B CD161 CD163 CD177 CD19 CD1D
CD248 CD33 CD34 CD3D CD44 CD45RA CD62P
CD63 CD79B CD8 CD83 CD84 CD86 CDCA7
CENTB5 CLDND1 CLEC4E CMTM5 COL13A1 COX4I1 COX6C
CPA3 CR2 CR596746 CREB1 CRIP1 CX3CR1 CXCR5
CXXC1 CYP4F2 DGKA DGKH DIAPH1 DIAPH2 DPYSL4
DTD1 DUSP6 E01979 ELF1 EMR1 ENPP3 EPHB1
ESR1 EXOC3L2 F11R FAM20B FANK1 FOXP3 FTH1n
FTH1x GALNT3 GAPDH GATA2 GFOD1 GNASn GNASx
GOPC GPER GPR56 GPX4 GTFCP2 GUSB GZMB
HDAC10 HDC HDLBP HIST1H2AC HMGN3 HMOX1 HNRNPF
HNRNPH2 HNRPF IFI27 IFIT3 IFNAR1 IL13RA1 IL17RC
IL18RAP IL3RA IL4 IL6 IL7R IL8RB ILK
IQCE IRF7 ITGA2B ITPK1 KCNE1 KCNE3 KLRC4
LDLR LEF1 LEMD2 LIN9 LITAF LOC440461 LPCAT1
LRP1 LRRC25 LRRN3 LTK LY75 MBOAT7 MCM3
MFSD9 MIER1 MPEG1 MRPL11 MRPS12 MS4A7 MSN
MTCH1 MUC1 MYLIP NBPF11 NCF4 NCOR2 ND3
NDUFA1 NDUFS7 NEFH NELL2 NF1 NISCH NME1
NMI NONO NRCAM NUDT16 OLIG1 OPRL1 OSBPL6
P2RY6 PACSIN2 PAPD4 PDGFD PDGFRB PDK1 PECAM1
PECR PFKFB2 PLA2G6 PLCD1 POLD3 PPP2R2B PTX3
RAB32 RABGAP1L RAD54B RBM17 RHCE RNPS1 RORC
RP9 RPL28 RPP14 RPS4Y1 S100A12 S100A8 SAMD3
SASH1 SCML4 SECISBP2 SEPX1 SERGEF SERPINB2 SETD2
SF3B5 SFRS10 SILV SIRT2 SIRT4 SLAMF7 SNRPA
SOAT2 SORCS3 SORT1 SPECC1 SPHAR SPIB SPOCK2
SREBF1 SRP9 SSRP1 STX10 SYNE1 TARDBP TFCP2
TFIP11 TLR2 TLR4 TMC8 TMED9 TMEFF2 TMTC3
TNFAIP6 TNFRSF10C TNFRSF17 TNXB TOP2A TP53BP1 TPOR
TRAF2 TREML4 TXNDC5 UCK2 VCAN VEZF1 WDR18
ZNF16 ZNF3
개별적 마커들에 대한 구별 임계값들의 결정(Determining Discriminating Threshold Values for Individual Markers).
특정 구현예에서, 흡연 상태는 단일 마커 또는 마커들의 그룹의 발현 레벨을 분석하고 비-흡연 개체 또는 비-흡연 개체군에서 동일한 마커 또는 마커들의 발현 레벨의 분석에 의해서 확립된 임계값 레벨과 발현 레벨이 현저하게 다른지 여부를 결정하는 것에 의해서 결정된다. 마커 또는 마커들에 대한 개체의 값과 임계값 간의 현저한 차이가 흡연 상태를 나타낸다. 역으로, 방법들은 흡연 개체 또는 비-흡연 개체군을 사용하여 임계값들을 설정하도록 개발될 수 있다. 이러한 구현예에서 현저한 차이는 테스트 샘플을 제공하는 개체의 비-흡연 상태를 나타낸다.
실시예 1 - 예측 모델링 .
흡연 상태에 대한 예측 모델을 스텝와이즈 포워드 로지스틱 회귀(stepwise forward logistic regression)(비특허문헌 9)를 종속 변수로서 흡연상태 및 독립 변수들로서 나이, 성별, 및 유전자 발현과 함께 사용하여 구축하였다. 환자는 그들의 자가-보고된 흡연 상태가 현재 흡연자였거나 또는 최근에 끊은 사람(지난 2개월 이내)인 경우 흡연자로서 정의되었다. 세트 2로서 지정된 모델로 5개의 유전자들을 선택하였다. 세트 1의 3개 유전자들을 상기 모델에 의해 선택하였다(CLDND1, LRRN3, MUC1). 남은 2개의 유전자들(GOPC, LEF1)을 259개의 유전자 분석에 각각 CAD 연관성에 기인하고 CD8+ 나이브 세포 마커로서 포함시켰다(The remaining 2 genes (GOPC, LEF1) were included in the 259 gene analysis due to CAD association and as a CD8+ naive cell marker, respectively). 세트 2 유전자들의 발현 레벨들을 평가하는데 사용된 프로브 및 프라이머 서열들은 표 4에 주어져있다.
레퍼런스 서열(RefSeq) 유전자이름 정방향 프라이머 서열(Forward Primer Sequence) 5’ -> 3’ 역방향 프라이머 서열(Reverse Primer Sequence) 5’-> 3’ 리포터 서열(Reporter Sequence)5’-> 3’
NM_019895 CLDND1 GCCACGGGCATTCTCCAT(SEQ ID NO:1) CATAACAACTTACTGAGCCCAGTGT(SEQ ID NO:2) CACAGACCTGCAAGGAG(SEQ ID NO:3)
NM_018334 LRRN3 CTGCCTCTCTCCAGAAATGAACT(SEQ ID NO:4) CTCACCTAATGCAAAGGTTGGTTTC(SEQ ID NO:5) ATAGCTGTGTCCACCATCAC(SEQ ID NO:6)
NM_016269 LEF1 CAAGAATGACAGCTGCCTACATCT(SEQ ID NO:7) GCTGCCTTGGCTTTGCA(SEQ ID NO:8) TCGTTTTCCACCATGTTTC(SEQ ID NO:9)
NM_002456 MUC1 CCCCTAGCAGTACCGATCGTA(SEQ ID NO:10) GCTGCTGCCACCATTACCT(SEQ ID NO:11) CCCCTATGAGAAGGTTTC(SEQ ID NO:12)
NM_020399 GOPC GTGCTAGTTGCAAAGACACAAGTG(SEQ ID NO:13) ATGTGTGTCAGTTACTGCCTTCTT(SEQ ID NO:14) CTTGTAATACTTTGATTTCCC(SEQ ID NO:15)
결과 모델 공식은:
log(pr(Smoker)/(1-Pr(Smoker)) = 15.78306 + 0.3876 * SEX - 3.3368 * CLDND1-3.4034*LRRN3-1.4847 * MUC1 + 5.9209 * GOPC + 2.27166 * LEF1이며, 상기 SEX는 남성이면 1, 여성이면 0이고; Pr은 개연성(probability)인 것이다.
자가-보고된 상태를 예측하기 위해, 상기 모델은 텐-폴드 교차-타당화(ten-fold cross-validation)에서 0.932의 평균 AUC를 가진다. 0.5의 컷오프 개연성(cutoff probability)에서, 모델의 맞춰진 민감도는 0.784이었고, 0.953의 특이도를 가졌다(At a cutoff probability of 0.5, the fitted sensitivity of the model was 0.784, with a specificity of 0.953). 모델 성능에 대한 더 자세한 것은 표 5에 제공되어 있다. 모델 성능을 0.82의 AUC(95% CI 0.65-0.94), 0.63의 민감도 및 0.94의 특이도와 함께, 180명의 종속적 프리딕트 개체들을 사용하여 검증하였다.
자가-보고된 상태(Self-Reported Status) 환자들의 수(Number of Patients) 예측된 상태(Predicted Status) 퍼센트 일치도(Percent Agreement)
흡연자(Smoker) 비-흡연자(Non-Smoker)
현재 흡연자(Current Smoker) 195 157 38 81%
최근에 끊었음(Quit Recently) 27 17 10 62%
예전 흡연자(Former) 341 29 312 91%
전혀 흡연한적 없음(Never) 476 9 467 98%
총(Total) 1039 92%
실시예 2 - 교차- 타당화된 서브-모델 개발( Cross - Validated Sub - Model Development ).
텐-폴드 교차-타당화된 서브-모델들을 실시예 1에 기재되어 있는 방법(즉, 스텝와이즈 포워드 로지스틱 회귀(비특허문헌 9))을 종속 변수로서 흡연 상태, 독립 변수들로서 나이, 성별, 및 유전자 발현과 함께 사용하여 세트 2의 모든 서브 세트들에 대해서 개발하였다. 이러한 서브-모델들의 성능은 표 6에 설명되어 있다.
Figure pct00105
이러한 서브 모델들에 상응하는 방정식들은 하기 표 7에 설명되어 있다. 이들은 실시예 1에 설명된 방적식으로서 유사한 방법으로 적용되고 log (Pr(Smoker)/(1-Pr(Smoker))를 푸는데 사용된다. 예를 들어, 서브모델 1과 연관된 공식은: log (Pr(Smoker)/(1-Pr(Smoker)) = 3.411334 + 0.5660 * SEX -6.4940 * CLDND1이며, 상기 SEX는 남성이면 1, 여성이면 0이고 Pr은 개연성(probability)인 것이다.
서브모델(Submodel) 절편(Intercept) 성별(Sex) CLDND1 LRRN3 MUC1 GOPC LEF1
1 3.411334 0.565969 -6.49396 NA NA NA NA
2 2.61478 0.780253 NA -2.10677 NA NA NA
3 4.59527 0.77818 -4.1712 -1.57259 NA NA NA
4 12.42875 0.737512 NA NA -2.17005 NA NA
5 10.20879 0.720202 -5.61562 NA -1.18637 NA NA
6 14.47653 1.083409 NA -2.00953 -1.93001 NA NA
7 12.45022 0.974022 -3.09362 -1.62647 -1.36313 NA NA
8 -0.38902 0.418774 NA NA NA -1.10845 NA
9 1.325027 0.380818 -7.88323 NA NA 4.903013 NA
10 0.111031 0.596036 NA -2.50111 NA 5.231238 NA
11 1.244433 0.489895 -5.84709 -2.00238 NA 8.606524 NA
12 12.67808 0.759998 NA NA -2.15908 -0.51445 NA
13 7.773203 0.526467 -7.04575 NA -1.11259 4.773315 NA
14 12.25793 0.896207 NA -2.44872 -2.01558 5.763504 NA
15 8.447132 0.668232 -4.84284 -2.04127 -1.2398 8.471973 NA
16 -2.17829 0.638749 NA NA NA NA -1.08098
17 2.884638 0.642944 -6.26935 NA NA NA -0.3679
18 9.671707 0.281206 NA -4.00991 NA NA 3.595369
19 10.37175 0.348651 -3.40865 -3.29712 NA NA 3.179526
20 11.03694 0.960992 NA NA -2.10223 NA -0.94278
21 9.67367 0.793541 -5.41932 NA -1.17746 NA -0.33745
22 21.94679 0.513516 NA -3.91827 -1.96486 NA 3.721327
23 20.054 0.495412 -2.06062 -3.48288 -1.59925 NA 3.436186
24 -3.00575 0.623444 NA NA NA 1.096089 -1.22835
25 -1.1565 0.541509 -7.78844 NA NA 6.953846 -1.13715
26 7.568068 0.186808 NA -4.12955 NA 3.364823 3.332477
27 6.490723 0.234579 -4.69859 -3.21159 NA 6.318137 2.42355
28 10.076 0.94251 NA NA -2.11189 1.354226 -1.12336
29 5.007036 0.6789 -7.00759 NA -1.03156 6.641832 -1.06194
30 19.86698 0.431392 NA -4.06979 -2.02711 3.946928 3.407628
실시예 3 - 매우-상관된 치환 마커들을 사용하는 교차-타당화된 모델들(Cross-Validated Models using Highly-Correlated Substitute Markers).
모델들을 실시예 1에 기재된 상기 모델에 기반하여 그 마커들 중 하나를 매우 상관된 마커로 치환한 개발하였으며; 매우 상관된 마커를 선택하기 위한 기준을 오리지날 유전자에 대한 최대(피어슨(Pearson)) 상관성 R로 하였다. 표8은 텐-폴드 교차-타당화된 모델들에서 평균 AUC를 나타내며 상기 흡연 모델에서 각 유전자는 흡연 모델에 이미 포함되지는 않았던 253개의 연구 유전자들로부터 선택된 유전자로 대체되었다. 상관성(R 값들로서 표현되는)은 또한 표 8에 포함된다.
오리지널(Original) 치환물(Substitute) AUC R2
CLDND1 IL7R 0.928 0.5127363
LRRN3 CCR7 0.868 0.703982
MUC1 FOXP3 0.927 0.4166257
GOPC MCM3 0.925 0.7775874
LEF1 CCR7 0.928 0.944785
실시예 4 - 정보제공적 마커들에 대한 임계값 결정(Threshold Determinations for Informative Markers).
흡연 및 비-흡연군에서 259개의 마커들의 정보제공적 세트의 보고된 평균 Cts 및 표준 편차들을 표 9에 나타내었다. 이러한 값들을 상기 “단계 II - RT-qPCR 분석”섹션에 기재되어 있는 바와 같이 정규화하고 생략하였다.
유전자( Gene ) 비-흡연 평균(Non-Smoking Mean) 비 흡연 표준편차(Non-Smoking St Dev) 흡연 평균(Smoking Mean) 흡연 표준편차(Smoking St Dev)
TFCP2 1.125596 0.146217 1.105504054 0.148529952
RPS4Y1 -0.58487 3.237528 -0.976826087 2.669099207
GTFCP2 8.710473 0.735477 8.733363964 0.757677366
TNFRSF10C -4.27986 0.431794 -4.388873423 0.4331237
ARHGEF10L 2.367465 0.336897 2.373927477 0.312019963
B3GAT1 2.755056 0.910727 3.151548198 0.919998385
NCF4 -2.16508 0.393844 -2.307054955 0.393445844
HNRPF -1.5215 0.144993 -1.556747072 0.139517389
ARG1 1.896007 0.874045 1.784203829 0.93971967
ADORA3 3.659335 0.778664 3.622131757 0.814026083
NDUFS7 0.084403 0.135686 0.089475676 0.120693414
APOL4 -0.28188 0.268937 -0.255613739 0.254215689
IL4 7.562976 0.786824 7.549558559 0.852439085
LTK 3.114488 0.753085 3.043172072 0.67187502
CD79B 0.250163 0.569544 0.208981757 0.527849968
IL8RB -4.71562 0.442697 -4.816301577 0.432829152
AGPAT3 0.390438 0.263195 0.484493243 0.254724623
SLAMF7 -0.26956 0.414154 -0.046911036 0.423108735
CASP5 2.893515 0.7591 2.706239189 0.77556682
AQP9 -3.43946 0.462339 -3.556288288 0.475855099
NEFH 6.085764 0.514344 6.031367117 0.443362656
CLDND1 0.829002 0.181864 0.561819144 0.214623193
APOE 8.127503 0.709796 8.113110135 0.673617206
CD86 1.959998 0.302797 2.046366441 0.298524984
SF3B5 0.095047 0.108356 0.100627928 0.096233737
OSBPL6 7.668752 0.804047 7.788405631 0.857836177
DIAPH1 -1.49705 0.149158 -1.473285586 0.155703854
KCNE1 6.368764 0.603992 6.46412973 0.571747072
ITGA2B 0.1201 0.773454 0.441109009 0.831043434
SPECC1 1.06176 0.413616 1.255337838 0.38707037
RAD54B 6.403795 0.489584 6.311536486 0.518046685
KCNE3 0.166354 0.393329 0.140327027 0.357144726
ATP5G3 -1.42123 0.145889 -1.418379279 0.143869165
DGKH 3.37517 0.307179 3.30683964 0.291443203
CD8 -0.69421 0.74527 -0.759033108 0.65653581
TLR4 -1.67978 0.429446 -1.725411261 0.422643199
GFOD1 2.834806 0.359844 3.040817342 0.36979134
TXNDC5 0.753651 0.533727 0.572440315 0.570311476
CD163 3.743367 0.430262 3.726241441 0.436296063
SYNE1 2.892392 0.46739 2.990459459 0.468410152
LRRN3 2.299103 0.628185 1.285129955 0.73670413
NCOR2 1.384834 0.140541 1.404293243 0.133145991
CD161 -0.08199 0.475383 0.14259009 0.425363955
MUC1 6.462191 0.40658 6.144355856 0.39716938
NUDT16 1.923331 0.291711 1.976746622 0.280701617
MSN -4.0388 0.193462 -4.027445946 0.201631799
CRIP1 -2.36444 0.378105 -2.382880405 0.35234144
PFKFB2 3.664807 0.394426 3.727288063 0.37890164
KLRC4 0.377383 0.672051 0.540327928 0.661954652
RAB32 1.562078 0.267471 1.571133333 0.252166164
S100A12 -2.76593 0.677066 -3.010933784 0.69557978
LPCAT1 -1.48829 0.231926 -1.418833784 0.211848873
DUSP6 -1.29352 0.297617 -1.239263964 0.308498732
ESR1 7.119984 0.558057 7.205291892 0.612637061
CR2 4.48686 0.754381 4.386742342 0.68565516
IL6 8.632731 0.937011 8.512101802 0.785070037
ACLY -1.02098 0.068758 -1.014087838 0.060962216
GPX4 -0.88231 0.32922 -0.823274324 0.30745841
CLEC4E -1.13914 0.597314 -1.032295946 0.610510227
CD248 6.698602 0.849312 6.458838964 0.789709524
CAT -2.26215 0.405814 -2.243329505 0.430694321
PDGFRB 3.577047 0.772309 3.776035135 0.847678191
IL18RAP -1.22419 0.768513 -1.265853829 0.777313528
CD45RA -4.42276 0.214768 -4.436934234 0.216347649
TNFRSF17 5.601019 0.87457 5.292971171 0.843997637
CD33 1.214859 0.413968 1.242921622 0.409814846
CXCR5 2.855219 0.674005 2.66262455 0.606519631
IL7R -2.14918 0.416869 -2.345188739 0.346727152
LITAF -3.41176 0.374577 -3.508939865 0.364043265
RPP14 1.878987 0.122101 1.869304955 0.111592671
HMOX1 2.681434 0.375634 2.814602928 0.396654231
AF289562 5.437364 0.508596 5.043204955 0.499503353
CD3D -0.10736 0.391777 -0.217402027 0.336372984
TNFAIP6 0.680172 0.76847 0.54751036 0.76836694
RPL28 -5.753 0.196765 -5.816542793 0.192424138
AF161365 4.458622 1.613475 4.409285135 1.560077908
ACOX2 7.980393 0.812675 8.10778536 0.857615003
GPER 8.049317 0.95915 8.113020495 0.842408025
ASGR1 4.751193 0.421625 4.700075676 0.390829125
P2RY6 6.372312 0.544723 5.775368919 0.647766148
NRCAM 8.080202 1.387639 7.662772297 1.24874828
S100A8 -6.87861 0.444134 -7.01310518 0.455958669
SASH1 4.045093 0.606764 3.364506982 0.608530939
LRRC25 -1.12352 0.307479 -1.11460518 0.305827143
SPIB 6.591512 0.707007 6.469470721 0.616648066
GUSB 1.391091 0.157754 1.403323649 0.15751305
SIRT4 6.620658 0.33789 6.515320721 0.312679991
PECAM1 -1.04633 0.374087 -1.060084234 0.370758328
TMC8 -0.40109 0.251376 -0.43226509 0.226331544
CD11B -0.53127 0.344585 -0.569431081 0.352877908
SERPINB2 4.522124 0.59019 4.325362387 0.618927823
LEMD2 2.978249 0.154894 2.935083559 0.149951186
EPHB1 3.085858 0.447108 3.047672523 0.448540067
HDLBP -0.51087 0.254057 -0.466999775 0.238503356
SPHAR 4.240357 0.256746 4.254421847 0.258094618
IQCE 2.379599 0.301142 2.411414189 0.312543713
WDR18 2.22436 0.255728 2.187703604 0.238715854
AF086547 6.523929 0.669136 6.286678604 0.605289131
CD34 10.44413 0.902898 10.63648287 0.956125811
OPRL1 1.441805 0.302414 1.415645045 0.304292652
IFI27 0.508477 1.519958 0.632646396 1.842287337
MIER1 4.027133 0.306648 4.035628378 0.293707719
RHCE 7.279536 0.838124 7.589659459 0.965013379
LY75 0.691582 0.299268 0.697472748 0.304303778
ND3 -3.54007 0.48996 -3.409531952 0.504735744
CCL5 -3.36958 0.413112 -3.218958559 0.423076316
SIRT2 -0.04306 0.138889 0.010926351 0.136992705
SETD2 0.476999 0.155674 0.475031081 0.157287376
CD44 -4.02499 0.173881 -4.064556532 0.192543812
MRPS12 2.080735 0.223968 2.064821847 0.20866223
SCML4 4.63569 0.316513 4.528416441 0.306553769
MBOAT7 -3.98951 0.370947 -4.066620721 0.381900653
MS4A7 0.626127 0.468409 0.940858108 0.484871439
MCM3 1.07203 0.201976 1.043799324 0.184269323
STX10 -1.55852 0.282992 -1.606639414 0.289111205
EXOC3L2 6.625546 0.700683 6.828664865 0.741545034
HIST1H2AC -2.27576 0.373767 -2.171192117 0.366012602
RNPS1 2.634163 0.199824 2.602028604 0.17485955
PDK1 0.090928 0.273011 0.055498649 0.285614552
DTD1 3.321172 0.236266 3.331502027 0.226797101
FAM20B 1.00578 0.414103 1.169663739 0.421967935
CD19 2.053676 0.750295 1.980651577 0.666407872
PACSIN2 -0.30731 0.326557 -0.35651036 0.341105287
RP9 3.565285 0.24521 3.548375676 0.22211064
TARDBP -1.02328 0.119876 -1.053574099 0.116215742
ALS2CR2 -4.54852 0.561263 -4.236203153 0.627862018
CXXC1 0.110369 0.132436 0.067280631 0.118963183
COX6C 3.640311 0.269763 3.644170946 0.252033897
OLIG1 0.988353 0.534205 1.05028964 0.535547788
TPOR 4.40245 0.74843 4.697403604 0.773724715
SFRS10 0.168181 0.152397 0.16718964 0.149542633
MTCH1 -1.09532 0.169724 -1.063543018 0.175957267
CD177 5.014015 1.818601 4.498923198 1.891294359
GOPC 0.646138 0.12817 0.643237838 0.124815442
LOC440461 5.207979 0.474061 5.134113288 0.454574163
HNRNPH2 -1.30821 0.266402 -1.330696622 0.269339044
SAMD3 1.319707 0.434309 1.488155856 0.409620231
CALML4 1.773353 0.261768 1.845455856 0.252942821
GAPDH -2.61194 0.243281 -2.699326577 0.259566984
AMN 7.202804 0.536499 7.077812613 0.490848497
PAPD4 -0.31633 0.183545 -0.273289865 0.183674711
AKNA -2.55266 0.166677 -2.570526351 0.160783134
LIN9 4.832509 0.237713 4.834842342 0.234018534
CD83 3.311019 0.373875 3.394490766 0.372174066
SRP9 2.858857 0.28931 2.884091441 0.290261374
RBM17 0.871725 0.141758 0.841051126 0.145092009
IFNAR1 -0.35189 0.32553 -0.430553829 0.337870386
SECISBP2 0.580786 0.189824 0.622390541 0.185196636
SSRP1 0.479218 0.179224 0.439537162 0.168708193
EMR1 0.418363 0.520399 0.523793468 0.527656388
C6ORF25 -1.23839 0.652059 -0.972559459 0.69920626
NISCH 0.77996 0.13702 0.729527027 0.137049257
F11R -1.02868 0.289412 -0.997102928 0.281548075
CMTM5 1.223707 0.623909 1.53599482 0.696096375
IL3RA 2.855232 0.721332 2.939437838 0.696488388
RABGAP1L -1.53732 0.432924 -1.383878378 0.393545877
PPP2R2B 3.781557 0.552527 3.995704955 0.538368454
GALNT3 1.388498 0.308642 1.407643018 0.304585505
ILK -0.74977 0.246929 -0.65746509 0.253023787
CCR3 7.841666 0.889357 7.86578018 0.91647511
ELF1 -2.53641 0.182335 -2.54412973 0.190380181
FOXP3 2.035403 0.463382 1.697540541 0.494839978
NMI -0.56271 0.360461 -0.613682432 0.376996873
SNRPA 0.105145 0.146042 0.055614865 0.138100561
AKAP8L -0.60328 0.163987 -0.587923423 0.163914758
C5AR1 -2.61855 0.399434 -2.662788514 0.403387089
NDUFA1 -0.67182 0.162867 -0.660734685 0.148177014
E01979 -2.67616 0.259085 -2.665088063 0.249054895
SEPX1 -0.41993 0.406557 -0.493091892 0.38564448
CD62P 3.721248 0.649737 4.118711486 0.729052333
IFIT3 0.23842 1.18242 0.283440991 1.339833454
COX4I1 -2.39436 0.174301 -2.446354054 0.163642322
TREML4 4.697655 2.126498 4.64068964 2.084084981
RORC 3.63029 0.696619 3.4194 0.685704776
MRPL11 2.532977 0.187339 2.484686261 0.180963152
CD63 -2.35276 0.250825 -2.370822072 0.250794382
SOAT2 6.686092 0.806516 6.242241216 0.798995643
DIAPH2 3.474493 0.212862 3.472038288 0.19935658
MFSD9 2.573817 0.52283 2.564026351 0.542160873
CAPN10 2.830346 0.166177 2.791031982 0.153554063
CD1D 1.050567 0.316671 1.040843018 0.330610282
TMED9 -0.21229 0.130832 -0.211245721 0.118317659
ZNF16 4.413172 0.221988 4.373307883 0.204724333
TFIP11 2.28308 0.22865 2.249861937 0.204377495
IL17RC 6.244819 0.563749 6.349556757 0.53490333
DPYSL4 6.707837 1.504658 6.688766892 1.432249514
SREBF1 6.569555 0.38363 6.448862613 0.411325066
LRP1 0.36794 0.312214 0.33545473 0.304482084
LEF1 -0.79958 0.504772 -0.997103604 0.448617038
GNASx -4.06309 0.36153 -3.939269369 0.368916188
TRAF2 3.207773 0.202676 3.146210811 0.190548656
TNXB 3.631028 0.641216 3.895052703 0.656759548
FTH1n 0.086012 0.326464 0.049940541 0.345079008
ANKRD55 4.234666 0.453042 4.296562387 0.469057567
NME1 2.191169 0.300938 2.113855631 0.28579282
ABCG1 0.795011 0.574699 0.618190541 0.498685501
CREB1 -1.0601 0.186553 -1.016782432 0.179594748
FANK1 8.816375 0.668986 8.401322072 0.652855298
UCK2 3.130967 0.227908 3.164131306 0.232735251
TLR2 -1.11483 0.451642 -1.125605631 0.473311795
CYP4F2 -2.15939 0.576827 -2.237032658 0.546386676
NELL2 1.129627 0.570065 0.88444009 0.521224197
PLCD1 2.158703 0.214572 2.099186486 0.194407111
SPOCK2 -1.29809 0.306079 -1.402984685 0.256893671
GATA2 1.273369 0.55071 1.295314865 0.596428823
CCR7 0.156229 0.56791 0.02839009 0.498479516
IL13RA1 -0.96071 0.410738 -0.980468468 0.43047763
DGKA -1.64074 0.300994 -1.751491892 0.27504889
GPR56 -0.92342 0.64933 -0.527438063 0.648358113
ITPK1 7.333648 0.612266 7.396810586 0.585007453
ENPP3 5.341159 0.668836 5.311447072 0.666695156
POLD3 2.040477 0.194494 2.071801802 0.18729534
CD84 0.047531 0.239851 0.043278604 0.215592269
VCAN -0.86714 0.384889 -0.938474775 0.388425453
APEX1 1.429239 0.203455 1.390574324 0.190065635
SERGEF 3.37937 0.170243 3.339512162 0.161181778
CENTB5 3.529176 0.187672 3.458763964 0.187462574
PLA2G6 2.834793 0.214971 2.806927252 0.19310565
C5orf4 0.738108 0.682775 1.144945495 0.711108489
SORCS3 7.373485 1.000594 7.37939009 0.939232025
PTX3 5.298692 0.390884 5.291436937 0.412715615
TOP2A 5.19909 0.392742 5.302955405 0.42955525
BPNT1 2.155689 0.167464 2.12165518 0.153651361
CDCA7 4.126752 0.397615 4.039365991 0.387128426
TP53BP1 2.634165 0.173978 2.584755405 0.150807134
CCL2 6.833726 1.067369 6.733059955 1.16394245
PDGFD 4.513274 0.524896 4.875308559 0.520526123
FTH1x -6.87578 0.354032 -6.81383018 0.353371039
COL13A1 7.693673 1.1374 8.254777477 1.340729243
ANAPC5 0.032274 0.150999 0.051391216 0.133450456
ABLIM1 -0.17644 0.367444 -0.253376802 0.329312755
ZNF3 2.035715 0.151311 2.054795721 0.144119692
GZMB -1.05518 0.624452 -0.731598423 0.624933093
NONO -1.62749 0.100734 -1.655666216 0.095555294
ANP32C -1.5067 0.331052 -1.562725676 0.329978103
IRF7 -1.30634 0.443322 -1.362412838 0.501576497
SORT1 0.920913 0.328125 1.019922973 0.317628966
MYLIP 1.088378 0.348307 1.012116441 0.318602651
PECR 3.488009 0.19168 3.399232658 0.185450566
MPEG1 -2.09217 0.301773 -2.074497297 0.277890276
VEZF1 -0.05276 0.132662 -0.073274324 0.131847334
HDC 1.560602 0.690624 1.625079054 0.738798879
AK2 0.544261 0.13758 0.539173423 0.134652631
CX3CR1 -1.63698 0.387206 -1.362444144 0.435806138
NBPF11 -3.13942 0.239579 -3.21753491 0.225299542
TMTC3 4.02985 0.206131 4.011082658 0.196227961
CCNB1 5.382786 0.330228 5.398343694 0.337211144
NF1 1.12147 0.211252 1.063884685 0.195504155
GNASn 3.615647 0.186252 3.554693243 0.161860477
LDLR 2.695296 0.392241 2.661415766 0.40418233
HMGN3 1.341151 0.226634 1.373718468 0.221852704
AGER 0.292687 0.267322 0.208092568 0.249055818
CPA3 3.98113 0.674483 3.986708559 0.706708609
AR 6.420052 0.782809 7.024873874 0.833609715
CCND2 -0.30664 0.25641 -0.425374324 0.231373464
ABCA1 2.431074 0.659182 2.240588739 0.61039595
HDAC10 0.429343 0.166129 0.38398964 0.149463325
CR596746 1.470934 0.223389 1.43511464 0.217549784
HNRNPF -1.16791 0.145766 -1.202212162 0.138139227
실시예 5 -예측 모델들의 생화학적 타당화(Biochemical Validation of Predictive Models).
자가-보고된 흡연 상태의 정확도에 대해 확인하기 위해, 생화학적 방법을 사용하였다. 니코틴의 상대적으로 안정한 대사 산물인 코티닌의 레벨은 자가-보고된 흡연 상태와 상관성을 나타내었으며 효소면역측정법(enzyme-linked immunoassays, ELISA)(비특허문헌 10)에 의해서 쉽게 측정될 수 있다. 20개의 샘플들을 총 수로 검정하였다: 자가-보고된 비-흡연자들로부터의 10개의 샘플들은 유전자 발현에 의한 0.3% 미만의 맞춰진 흡연 개연성을 가지며(Ten samples from self-reported non-smokers with less than 0.3% fitted probability of smoking by gene expression), 자가-보고된 흡연자들로부터의 10개의 샘플들은 유전자 발현에 의한 99% 초과의 맞춰진 흡연 개연성을 가진다(ten samples from self-reported smokers with a greater than 99% fitted probability of smoking by gene expression). 낮은 코티닌 레벨을 가지는 1 개의 자가-보고된 흡연자 외에는 자가-보고된 상태와 코티닌 레벨들 간에서 강한 일치성이 나타났다(도 1).
10 ng/ml의 임계값을 사용하면, 코티닌 레벨들은 0.89의 AUC(95% CI 0.81-0.97), 0.81의 민감도 및 0.97의 특이도를 제공했다. 중간의 일치성(Moderate concordance)이 유전자 발현 모델 및 코티닌간에 관찰되었고(91% 일치도(agreement), 95% CI 85.97-94.83, 카파(kappa) = 0.53); 상기 두 방법들 모두는 양의 흡연 상태를 보고하였고, 85%(11명)의 개체들은 자가-보고된 흡연자들, 1명은 최근에 끊었음, 그리고 1명은 예전 흡연자(former smoker)이었다.
인용문헌 진술에 의한 통합(Incorporation by reference statement)
과학적 발행물들, 출간된 특허 출원들, 및 등록된 특허들을 포함하는 본 명세서에 인용된 모든 인용문헌들은 모든 목적으로서 그 전체가 본 명세서에 참조로 포함된다.
SEQUENCE LISTING <110> CARDIODX, INC. <120> METHODS AND COMPOSITIONS FOR DETERMINING SMOKING STATUS <130> IF14P045US <150> 61/528,616 <151> 2011-08-29 <160> 15 <170> PatentIn version 3.5 <210> 1 <211> 18 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic primer <400> 1 gccacgggca ttctccat 18 <210> 2 <211> 25 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic primer <400> 2 cataacaact tactgagccc agtgt 25 <210> 3 <211> 17 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic reporter oligonucleotide <400> 3 cacagacctg caaggag 17 <210> 4 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic primer <400> 4 ctgcctctct ccagaaatga act 23 <210> 5 <211> 25 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic primer <400> 5 ctcacctaat gcaaaggttg gtttc 25 <210> 6 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic reporter oligonucleotide <400> 6 atagctgtgt ccaccatcac 20 <210> 7 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic primer <400> 7 caagaatgac agctgcctac atct 24 <210> 8 <211> 17 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic primer <400> 8 gctgccttgg ctttgca 17 <210> 9 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic reporter oligonucleotide <400> 9 tcgttttcca ccatgtttc 19 <210> 10 <211> 21 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic primer <400> 10 cccctagcag taccgatcgt a 21 <210> 11 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic primer <400> 11 gctgctgcca ccattacct 19 <210> 12 <211> 18 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic reporter oligonucleotide <400> 12 cccctatgag aaggtttc 18 <210> 13 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic primer <400> 13 gtgctagttg caaagacaca agtg 24 <210> 14 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic primer <400> 14 atgtgtgtca gttactgcct tctt 24 <210> 15 <211> 21 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic reporter oligonucleotide <400> 15 cttgtaatac tttgatttcc c 21

Claims (225)

  1. 개체로부터 수득된 샘플을 점수화하는(scoring) 컴퓨터-실행 방법으로서,
    상기 점수는 개체의 흡연 상태를 나타내는 것이며, 상기 방법은:
    상기 샘플과 연관된 데이터세트를 수득하는 단계로서, 상기 데이터세트는 마커1, 마커2, 마커3, 마커4, 및/또는 마커5 중 하나 이상에 대한 정량적 발현 데이터를 포함하며, 상기 마커1은 CLDND1 또는 IL7R이고, 상기 마커2는 LRRN3 또는 CCR7이고, 상기 마커 3은 MUC1 또는 FOXP3이고, 상기 마커4는 GOPC 또는 MCM3이며, 상기 마커5는 LEF1 또는 CCR7인 단계; 및
    컴퓨터 프로세서에 의해 해석 함수(interpretation function)를 사용하여 상기 데이터세트로부터 점수를 결정하는 단계로서, 상기 점수는 상기 개체의 흡연 상태를 나타내는 것인 단계;를 포함하는 방법.
  2. 제1항에 있어서,
    상기 데이터세트는 마커1, 마커2, 마커3, 마커4, 및 마커5에 대한 정량적 발현 데이터를 포함하며, 상기 마커1은 CLDND1이고, 상기 마커2는 LRRN3이고, 상기 마커3은 MUC1이고, 상기 마커4는 GOPC이고, 상기 마커5는 LEF1인 방법.
  3. 제1항에 있어서,
    상기 데이터세트는 마커1, 마커2, 마커3, 마커4, 및 마커5 중 둘 이상에 대한 정량적 발현 데이터를 포함하는 것인 방법.
  4. 제1항에 있어서,
    상기 데이터세트는 마커1, 마커2, 마커3, 마커4, 및 마커5 중 셋 이상에 대한 정량적 발현 데이터를 포함하는 것인 방법.
  5. 제1항에 있어서,
    상기 데이터세트는 마커1, 마커2, 마커3, 마커4, 및 마커5 중 넷 이상에 대한 정량적 발현 데이터를 포함하는 것인 방법.
  6. 제1항에 있어서,
    상기 데이터세트는 마커1, 마커2, 마커3, 마커4, 및 마커5에 대한 정량적 발현 데이터를 포함하는 것인 방법.
  7. 제1항 내지 제6항 중 어느 한 항에 있어서,
    상기 방법은 컴퓨터 프로세서에 의해 개체의 흡연-관련 질병의 발병 위험(risk)을 상기 점수에 기반하여 결정하는 단계를 더 포함하는 방법.
  8. 제7항에 있어서,
    상기 흡연-관련 질병은 만성 폐쇄성 폐질환(chronic obstructive pulmonary disease), 만성 기관지염(chronic bronchitis), 기종(emphysema), 폐암, 및/또는 천식(asthma)인 방법.
  9. 제1항 내지 제8항 중 어느 한 항에 있어서,
    상기 데이터세트는 표 1로부터 선택된 1개 이상, 2개 이상, 3개 이상, 4개 이상, 5개 이상, 6개 이상, 7개 이상, 8개 이상, 9개 이상, 10개 이상, 11개 이상, 12개 이상, 13개 이상, 14개 이상, 15개 이상, 16개 이상, 17개 이상, 18개 이상, 19개 이상, 또는 20개 이상의 추가 마커들에 대한 정량적 발현 데이터를 포함하는 방법.
  10. 제1항 내지 제9항 중 어느 한 항에 있어서,
    상기 데이터세트는 상기 점수를 계산하는데 사용되는 임상적 요인(clinical factor)을 더 포함하는 방법.
  11. 제10항에 있어서,
    상기 임상적 요인은 성별(gender) 및 고혈압(hypertension)으로 구성된 군으로부터 선택된 방법.
  12. 제11항에 있어서,
    상기 임상적 요인은 성별인 방법.
  13. 제1항 내지 제12항 중 어느 한 항에 있어서,
    상기 해석 함수는 예측 모델에 기반한 방법.
  14. 제13항에 있어서,
    상기 예측 모델은 부분 최소 자승법 모델(partial least squares model), 로지스틱 회귀 모델(logistic regression model), 선형 회귀 모델(linear regression model), 선형 판별 분석 모델(linear discriminant analysis model), 리지 회귀 모델(ridge regression model), 및 트리-기반 반복 분할 모델(tree-based recursive partitioning model)로 구성된 군으로부터 선택된 방법.
  15. 제1항 내지 제14항 중 어느 한 항에 있어서,
    상기 해석 함수는 log(pr(Smoker)/(1-Pr(Smoker)) = 15.78306 + 0.3876 * SEX - 3.3368 * CLDND1-3.4034*LRRN3-1.4847 * MUC1 + 5.9209 * GOPC + 2.27166 * LEF1이며, 상기 SEX는 남성이면 1, 여성이면 0이고 Pr은 개연성(probability)인 방법.
  16. 제1항 내지 제15항 중 어느 한 항에 있어서,
    상기 해석 함수는 표 7에 설명된 것들로 구성된 해석 함수의 군으로부터 선택된 해석함수인 방법.
  17. 제1항 내지 제16항 중 어느 한 항에 있어서,
    상기 샘플과 연관된 상기 데이터 세트를 수득하는 단계는 상기 샘플을 수득하는 단계 및 상기 샘플을 가공하여 실험적으로 상기 데이터 세트를 결정하는 단계를 포함하는 방법.
  18. 제1항 내지 제17항 중 어느 한 항에 있어서,
    상기 샘플과 연관된 상기 데이터 세트를 수득하는 단계는 상기 샘플을 가공하여 실험적으로 상기 데이터 세트를 결정한 제3자로부터 직접 또는 간접적으로 상기 데이터 세트를 받는 단계를 포함하는 방법.
  19. 제1항 내지 제18항 중 어느 한 항에 있어서,
    상기 데이터세트는 기억 장치(storage memory)상에 저장된 상태로 수득된 것인 방법.
  20. 제1항 내지 제19항 중 어느 한 항에 있어서,
    상기 정량적 발현 데이터는 혼성화 데이터(hybridization data)로부터 온 것인 방법.
  21. 제1항 내지 제20항 중 어느 한 항에 있어서,
    상기 정량적 발현 데이터는 폴리머라아제 연쇄 반응 데이터(polymerase chain reaction data)로부터 온 것인 방법.
  22. 제1항 내지 제21항 중 어느 한 항에 있어서,
    상기 정량적 발현 데이터는 서열 데이터(sequence data)로부터 온 것인 방법.
  23. 개체로부터 수득된 샘플을 점수화하는 컴퓨터-실행 방법으로서, 상기 방법은:
    상기 샘플과 연관된 데이터세트를 수득하는 단계로서, 상기 데이터세트는 점수를 계산하는데 사용되는 임상적 요인 및CLDND1, IL7R, LRRN3, CCR7, MUC1, FOXP3, GOPC, MCM3, LEF1, 및 CCR7으로 구성된 군으로부터 선택된 하나 이상의 마커에 대한 정량적 발현 레벨 값들을 포함하는 것인 단계; 및
    컴퓨터 프로세서에 의해 해석 함수를 사용하여 상기 데이터세트로부터 점수를 결정하는 단계로서, 상기 점수는 상기 개체의 흡연 상태를 나타내는 것인 단계;를 포함하는 방법.
  24. 제23항에 있어서,
    상기 데이터세트는CLDND1, LRRN3, MUC1, GOPC, 및 LEF1에 대한 정량적 발현 데이터를 포함하는 방법.
  25. 제23항에 있어서,
    상기 데이터 세트는 둘 이상의 마커들에 대한 정량적 발현 데이터를 포함하는 방법.
  26. 제23항에 있어서,
    상기 데이터세트는 셋 이상의 마커에 대한 정량적 발현 데이터를 포함하는 방법.
  27. 제23항에 있어서,
    상기 데이터세트는 넷 이상의 마커에 대한 정량적 발현 데이터를 포함하는 방법.
  28. 제23항에 있어서,
    상기 데이터세트는 다섯 이상의 마커에 대한 정량적 발현 데이터를 포함하는 방법.
  29. 제23항 내지 제28항 중 어느 한 항에 있어서,
    상기 방법은 컴퓨터 프로세서에 의해 개체의 흡연-관련 질병의 발병 위험(risk)을 상기 점수에 기반하여 결정하는 단계를 더 포함하는 방법.
  30. 제29항에 있어서,
    상기 흡연-관련 질병은 만성 폐쇄성 폐질환(chronic obstructive pulmonary disease), 만성 기관지염(chronic bronchitis), 기종(emphysema), 폐암, 및/또는 천식(asthma)인 방법.
  31. 제23항 내지 제30항 중 어느 한 항에 있어서,
    상기 데이터세트는 표 1로부터 선택된 1개 이상, 2개 이상, 3개 이상, 4개 이상, 5개 이상, 6개 이상, 7개 이상, 8개 이상, 9개 이상, 10개 이상, 11개 이상, 12개 이상, 13개 이상, 14개 이상, 15개 이상, 16개 이상, 17개 이상, 18개 이상, 19개 이상, 또는 20개 이상의 추가 마커들에 대한 정량적 발현 데이터를 포함하는 방법.
  32. 제23항 내지 제31항 중 어느 한 항에 있어서,
    상기 임상적 요인은 성별(gender) 및 고혈압(hypertension)으로 구성된 군으로부터 선택된 방법.
  33. 제32항에 있어서,
    상기 임상적 요인은 성별인 방법.
  34. 제23항 내지 제33항 중 어느 한 항에 있어서,
    상기 해석 함수는 예측 모델에 기반한 방법.
  35. 제34항에 있어서,
    상기 예측 모델은 부분 최소 자승법 모델(partial least squares model), 로지스틱 회귀 모델(logistic regression model), 선형 회귀 모델(linear regression model), 선형 판별 분석 모델(linear discriminant analysis model), 리지 회귀 모델(ridge regression model), 및 트리-기반 반복 분할 모델(tree-based recursive partitioning model)로 구성된 군으로부터 선택된 방법.
  36. 제23항 내지 제35항 중 어느 한 항에 있어서,
    상기 해석 함수는 log(pr(Smoker)/(1-Pr(Smoker)) = 15.78306 + 0.3876 * SEX - 3.3368 * CLDND1-3.4034*LRRN3-1.4847 * MUC1 + 5.9209 * GOPC + 2.27166 * LEF1이며, 상기 SEX는 남성이면 1, 여성이면 0이고 Pr은 개연성(probability)인 방법.
  37. 제23항 내지 제36항 중 어느 한 항에 있어서,
    상기 해석 함수는 표 7에 설명된 것들로 구성된 해석 함수의 군으로부터 선택된 해석함수인 방법.
  38. 제23항 내지 제37항 중 어느 한 항에 있어서,
    상기 샘플과 연관된 상기 데이터 세트를 수득하는 단계는 상기 샘플을 수득하는 단계 및 상기 샘플을 가공하여 실험적으로 상기 데이터 세트를 결정하는 하는 단계를 포함하는 방법.
  39. 제23항 내지 제 38항 중 어느 한 항에 있어서,
    상기 샘플과 연관된 상기 데이터 세트를 수득하는 단계는 상기 샘플을 가공하여 실험적으로 상기 데이터 세트를 결정한 제3자로부터 직접 또는 간접적으로 상기 데이터 세트를 받는 단계를 포함하는 방법.
  40. 제23항 내지 제39항 중 어느 한 항에 있어서,
    상기 데이터세트는 기억 장치상에 저장된 상태로 수득된 방법.
  41. 제23항 내지 제40항 중 어느 한 항에 있어서,
    상기 정량적 발현 데이터는 혼성화 데이터(hybridization data)로부터 온 것인 방법.
  42. 제23항 내지 제41항 중 어느 한 항에 있어서,
    상기 정량적 발현 데이터는 폴리머라아제 연쇄 반응 데이터(polymerase chain reaction data)로부터 온 것인 방법.
  43. 제23항 내지 제42항 중 어느 한 항에 있어서,
    상기 정량적 발현 데이터는 서열 데이터(sequence data)로부터 온 것인 방법.
  44. 개체로부터 수득된 샘플을 점수화 하는 시스템으로서, 상기 점수는 상기 개체의 흡현 상태를 나타내고, 상기 시스템은:
    상기 샘플과 연관된 데이터세트를 저장하기 위한 기억 장치로서, 상기 데이터세트는 마커1, 마커2, 마커3, 마커4, 및/또는 마커5 중 하나 이상에 대한 정량적 발현 데이터를 포함하며, 상기 마커1은 CLDND1 또는 IL7R이고, 상기 마커2는 LRRN3 또는 CCR7이고, 상기 마커 3은 MUC1 또는 FOXP3이고, 상기 마커4는 GOPC 또는 MCM3이며, 상기 마커5는 LEF1 또는 CCR7인 기억 장치; 및
    해석 함수를 사용하여 상기 데이터세트의 점수를 결정하기 위한 기억장치와 통신적으로(communicatively) 연결된(coupled to) 프로세서를 포함하며, 상기 점수는 상기 개체의 흡연 상태를 나타내는 것인 시스템.
  45. 제44항에 있어서,
    상기 데이터세트는 마커1, 마커2, 마커3, 마커4, 및 마커5에 대한 정량적 발현 데이터를 포함하며, 상기 마커1은 CLDND1이고, 상기 마커2는 LRRN3이고, 상기 마커3은 MUC1이고, 상기 마커4는 GOPC이고, 상기 마커5는 LEF1인 시스템.
  46. 제44항에 있어서,
    상기 데이터세트는 마커1, 마커2, 마커3, 마커4, 및 마커5 중 둘 이상에 대한 정량적 발현 데이터를 포함하는 것인 시스템.
  47. 제44항에 있어서,
    상기 데이터세트는 마커1, 마커2, 마커3, 마커4, 및 마커5 중 셋 이상에 대한 정량적 발현 데이터를 포함하는 것인 시스템.
  48. 제44항에 있어서,
    상기 데이터세트는 마커1, 마커2, 마커3, 마커4, 및 마커5 중 넷 이상에 대한 정량적 발현 데이터를 포함하는 것인 시스템.
  49. 제44항에 있어서,
    상기 데이터세트는 마커1, 마커2, 마커3, 마커4, 및 마커5에 대한 정량적 발현 데이터를 포함하는 것인 시스템.
  50. 제44항 내지 제49항 중 어느 한 항에 있어서,
    상기 방법은 컴퓨터 프로세서에 의해 개체의 흡연-관련 질병의 발병 위험(risk)을 상기 점수에 기반하여 결정하는 단계를 더 포함하는 시스템.
  51. 제50항에 있어서,
    상기 흡연-관련 질병은 만성 폐쇄성 폐질환(chronic obstructive pulmonary disease), 만성 기관지염(chronic bronchitis), 기종(emphysema), 폐암, 및/또는 천식(asthma)인 시스템.
  52. 제44항 내지 제51항 중 어느 한 항에 있어서,
    상기 데이터세트는 표 1로부터 선택된 1개 이상, 2개 이상, 3개 이상, 4개 이상, 5개 이상, 6개 이상, 7개 이상, 8개 이상, 9개 이상, 10개 이상, 11개 이상, 12개 이상, 13개 이상, 14개 이상, 15개 이상, 16개 이상, 17개 이상, 18개 이상, 19개 이상, 또는 20개 이상의 추가 마커들에 대한 정량적 발현 데이터를 포함하는 시스템.
  53. 제44항 내지 제52항 중 어느 한 항에 있어서,
    상기 데이터세트는 상기 점수를 계산하는데 사용되는 임상적 요인(clinical factor)을 더 포함하는 시스템.
  54. 제53항에 있어서,
    상기 임상적 요인은 성별(gender) 및 고혈압(hypertension)으로 구성된 군으로부터 선택된 시스템.
  55. 제54항에 있어서,
    상기 임상적 요인은 성별인 시스템.
  56. 제44항 내지 제55항 중 어느 한 항에 있어서,
    상기 해석 함수는 예측 모델에 기반한 시스템.
  57. 제56항에 있어서,
    상기 예측 모델은 부분 최소 자승법 모델(partial least squares model), 로지스틱 회귀 모델(logistic regression model), 선형 회귀 모델(linear regression model), 선형 판별 분석 모델(linear discriminant analysis model), 리지 회귀 모델(ridge regression model), 및 트리-기반 반복 분할 모델(tree-based recursive partitioning model)로 구성된 군으로부터 선택된 시스템.
  58. 제44항 내지 제57항 중 어느 한 항에 있어서,
    상기 해석 함수는 log(pr(Smoker)/(1-Pr(Smoker)) = 15.78306 + 0.3876 * SEX - 3.3368 * CLDND1-3.4034*LRRN3-1.4847 * MUC1 + 5.9209 * GOPC + 2.27166 * LEF1이며, 상기 SEX는 남성이면 1, 여성이면 0이고 Pr은 개연성(probability)인 시스템.
  59. 제44항 내지 제58항 중 어느 한 항에 있어서,
    상기 해석 함수는 표 7에 설명된 것들로 구성된 해석 함수의 군으로부터 선택된 해석함수인 시스템.
  60. 제44항 내지 제59항 중 어느 한 항에 있어서,
    상기 샘플과 연관된 상기 데이터 세트를 수득하는 단계는 상기 샘플을 수득하는 단계 및 상기 샘플을 가공하여 실험적으로 상기 데이터 세트를 결정하는 단계를 포함하는 시스템.
  61. 제44항 내지 제60항 중 어느 한 항에 있어서,
    상기 샘플과 연관된 상기 데이터 세트를 수득하는 단계는 상기 샘플을 가공하여 실험적으로 상기 데이터 세트를 결정한 제3자로부터 직접 또는 간접적으로 상기 데이터 세트를 받는 단계를 포함하는 시스템.
  62. 제44항 내지 제61항 중 어느 한 항에 있어서,
    상기 데이터세트는 기억 장치상에 저장된 상태로 수득된 것인 시스템.
  63. 제44항 내지 제62항 중 어느 한 항에 있어서,
    상기 정량적 발현 데이터는 혼성화 데이터(hybridization data)로부터 온 것인 시스템.
  64. 제44항 내지 제63항 중 어느 한 항에 있어서,
    상기 정량적 발현 데이터는 폴리머라아제 연쇄 반응 데이터(polymerase chain reaction data)로부터 온 것인 시스템.
  65. 제44항 내지 제64항 중 어느 한 항에 있어서,
    상기 정량적 발현 데이터는 서열 데이터(sequence data)로부터 온 것인 시스템.
  66. 컴퓨터-실행가능한 프로그램 코드를 저장하는 컴퓨터-판독가능한 저장 매체로서, 상기 프로그램 코드는:
    상기 샘플과 연관된 데이터세트를 저장하기 위한 프로그램 코드로서, 상기 데이터세트는 마커1, 마커2, 마커3, 마커4, 및/또는 마커5 중 하나 이상에 대한 정량적 발현 데이터를 포함하며, 상기 마커1은 CLDND1 또는 IL7R이고, 상기 마커2는 LRRN3 또는 CCR7이고, 상기 마커 3은 MUC1 또는 FOXP3이고, 상기 마커4는 GOPC 또는 MCM3이며, 상기 마커5는 LEF1 또는 CCR7인 프로그램 코드; 및
    해석 함수를 사용하여 상기 데이터세트로부터 점수를 결정하기 위한 프로그램 코드로서, 상기 점수는 상기 개체의 흡연 상태를 나타내는 것인 프로그램 코드;를 포함하는 저장 매체.
  67. 제66항에 있어서,
    상기 데이터세트는 마커 마커1, 마커2, 마커3, 마커4, 및 마커5에 대한 정량적 발현 데이터를 포함하며, 상기 마커1은 CLDND1이고, 상기 마커2는 LRRN3이고, 상기 마커3은 MUC1이고, 상기 마커4는 GOPC이고, 상기 마커5는 LEF1인 매체.
  68. 제66항에 있어서,
    상기 데이터세트는 마커1, 마커2, 마커3, 마커4, 및 마커5 중 둘 이상에 대한 정량적 발현 데이터를 포함하는 것인 매체.
  69. 제66항에 있어서,
    상기 데이터세트는 마커1, 마커2, 마커3, 마커4, 및 마커5 중 셋 이상에 대한 정량적 발현 데이터를 포함하는 것인 매체.
  70. 제66항에 있어서,
    상기 데이터세트는 마커1, 마커2, 마커3, 마커4, 및 마커5 중 넷 이상에 대한 정량적 발현 데이터를 포함하는 것인 매체.
  71. 제66항에 있어서,
    상기 데이터세트는 마커1, 마커2, 마커3, 마커4, 및 마커5에 대한 정량적 발현 데이터를 포함하는 것인 매체.
  72. 제66항 내지 제71항 중 어느 한 항에 있어서,
    컴퓨터 프로세서에 의해 개체의 흡연-관련 질병의 발병 위험(risk)을 상기 점수에 기반하여 결정하는 것을 더 포함하는 매체.
  73. 제72항에 있어서,
    상기 흡연-관련 질병은 만성 폐쇄성 폐질환(chronic obstructive pulmonary disease), 만성 기관지염(chronic bronchitis), 기종(emphysema), 폐암, 및/또는 천식(asthma)인 매체.
  74. 제66항 내지 제73항 중 어느 한 항에 있어서,
    상기 데이터세트는 표 1로부터 선택된 1개 이상, 2개 이상, 3개 이상, 4개 이상, 5개 이상, 6개 이상, 7개 이상, 8개 이상, 9개 이상, 10개 이상, 11개 이상, 12개 이상, 13개 이상, 14개 이상, 15개 이상, 16개 이상, 17개 이상, 18개 이상, 19개 이상, 또는 20개 이상의 추가 마커들에 대한 정량적 발현 데이터를 포함하는 매체.
  75. 제66항 내지 제74항 중 어느 한 항에 있어서,
    상기 데이터세트는 상기 점수를 계산하는데 사용되는 임상적 요인(clinical factor)을 더 포함하는 매체.
  76. 제75항에 있어서,
    상기 임상적 요인은 성별(gender) 및 고혈압(hypertension)으로 구성된 군으로부터 선택된 매체.
  77. 제76항에 있어서,
    상기 임상적 요인은 성별인 매체.
  78. 제66항 내지 제77항 중 어느 한 항에 있어서,
    상기 해석 함수는 예측 모델에 기반한 매체.
  79. 제78항에 있어서,
    상기 예측 모델은 부분 최소 자승법 모델(partial least squares model), 로지스틱 회귀 모델(logistic regression model), 선형 회귀 모델(linear regression model), 선형 판별 분석 모델(linear discriminant analysis model), 리지 회귀 모델(ridge regression model), 및 트리-기반 반복 분할 모델(tree-based recursive partitioning model)로 구성된 군으로부터 선택된 매체.
  80. 제66항 내지 제79항 중 어느 한 항에 있어서,
    상기 해석 함수는 log(pr(Smoker)/(1-Pr(Smoker)) = 15.78306 + 0.3876 * SEX - 3.3368 * CLDND1-3.4034*LRRN3-1.4847 * MUC1 + 5.9209 * GOPC + 2.27166 * LEF1이며, 상기 SEX는 남성이면 1, 여성이면 0이고 Pr은 개연성(probability)인 매체.
  81. 제66항내지 제80항 중 어느 한 항에 있어서,
    상기 해석 함수는 표 7에 설명된 것들로 구성된 해석 함수의 군으로부터 선택된 해석함수인 매체.
  82. 제66항 내지 제81항 중 어느 한 항에 있어서,
    상기 샘플과 연관된 상기 데이터 세트를 수득하는 단계는 상기 샘플을 수득하는 단계 및 상기 샘플을 가공하여 실험적으로 상기 데이터 세트를 결정하는 단계를 포함하는 매체.
  83. 제66항 내지 제 82항 중 어느 한 항에 있어서,
    상기 샘플과 연관된 상기 데이터 세트를 수득하는 단계는 상기 샘플을 가공하여 실험적으로 상기 데이터 세트를 결정한 제3자로부터 직접 또는 간접적으로 상기 데이터 세트를 받는 단계를 포함하는 매체.
  84. 제66항 내지 제88항 중 어느 한 항에 있어서,
    상기 데이터세트는 기억 장치상에 저장된 상태로 수득된 것인 매체.
  85. 제66항 내지 제84항 중 어느 한 항에 있어서,
    상기 정량적 발현 데이터는 혼성화 데이터(hybridization data)로부터 온 것인 매체.
  86. 제66항 내지 제85항 중 어느 한 항에 있어서,
    상기 정량적 발현 데이터는 폴리머라아제 연쇄 반응 데이터(polymerase chain reaction data)로부터 온 것인 매체.
  87. 제66항 내지 제 86항 중 어느 한 항에 있어서,
    상기 정량적 발현 데이터는 서열 데이터(sequence data)로부터 온 것인 매체.
  88. 개체로부터 수득된 샘플을 점수화하는 방법으로서, 상기 점수는 개체의 흡연 상태를 나타내는 것이며, 상기 방법은:
    개체로부터 샘플을 수득하는 단계로서, 상기 샘플은 복수의 분석물(analytes)들을 포함하는 단계;
    샘플을 시약(reagent)과 접촉시키는 단계;
    시약과 복수의 분석물들간의 복수의 복합체들을 생성하는(generating) 단계;
    복수의 복합체들을 검출(detecting)하여 상기 샘플과 연관된 데이터세트를 수득하는 단계로서, 상기 데이터세트는 마커1, 마커2, 마커3, 마커4, 및/또는 마커5 중 하나 이상에 대한 정량적 발현 데이터를 포함하며, 상기 마커1은 CLDND1 또는 IL7R이고, 상기 마커2는 LRRN3 또는 CCR7이고, 상기 마커 3은 MUC1 또는 FOXP3이고, 상기 마커4는 GOPC 또는 MCM3이며, 상기 마커5는 LEF1 또는 CCR7인 단계; 및
    해석 함수를 사용하여 상기 데이터세트로부터 점수를 결정하는 단계로서, 상기 점수는 개체의 흡연 상태를 나타내는 것인 단계;를 포함하는 방법.
  89. 제88항에 있어서,
    상기 데이터세트는 마커 마커1, 마커2, 마커3, 마커4, 및 마커5에 대한 정량적 발현 데이터를 포함하며, 상기 마커1은 CLDND1이고, 상기 마커2는 LRRN3이고, 상기 마커3은 MUC1이고, 상기 마커4는 GOPC이고, 상기 마커5는 LEF1인 방법.
  90. 제88항에 있어서,
    상기 데이터세트는 마커1, 마커2, 마커3, 마커4, 및 마커5 중 둘 이상에 대한 정량적 발현 데이터를 포함하는 것인 방법.
  91. 제88항에 있어서,
    상기 데이터세트는 마커1, 마커2, 마커3, 마커4, 및 마커5 중 셋 이상에 대한 정량적 발현 데이터를 포함하는 것인 방법.
  92. 제88항에 있어서,
    상기 데이터세트는 마커1, 마커2, 마커3, 마커4, 및 마커5 중 넷 이상에 대한 정량적 발현 데이터를 포함하는 것인 방법.
  93. 제88항에 있어서,
    상기 데이터세트는 마커1, 마커2, 마커3, 마커4, 및 마커5에 대한 정량적 발현 데이터를 포함하는 것인 방법.
  94. 제88항 내 지 제93항 중 어느 한 항에 있어서,
    상기 방법은 컴퓨터 프로세서에 의해 개체의 흡연-관련 질병의 발병 위험(risk)을 상기 점수에 기반하여 결정하는 단계를 더 포함하는 방법.
  95. 제94항에 있어서,
    상기 흡연-관련 질병은 만성 폐쇄성 폐질환(chronic obstructive pulmonary disease), 만성 기관지염(chronic bronchitis), 기종(emphysema), 폐암, 및/또는 천식(asthma)인 방법.
  96. 제88항 내지 제95항 중 어느 한 항에 있어서,
    상기 데이터세트는 표 1로부터 선택된 1개 이상, 2개 이상, 3개 이상, 4개 이상, 5개 이상, 6개 이상, 7개 이상, 8개 이상, 9개 이상, 10개 이상, 11개 이상, 12개 이상, 13개 이상, 14개 이상, 15개 이상, 16개 이상, 17개 이상, 18개 이상, 19개 이상, 또는 20개 이상의 추가 마커들에 대한 정량적 발현 데이터를 포함하는 방법.
  97. 제88항 내지 제96항 중 어느 한 항에 있어서,
    상기 데이터세트는 상기 점수를 계산하는데 사용되는 임상적 요인(clinical factor)을 더 포함하는 방법.
  98. 제97항에 있어서,
    상기 임상적 요인은 성별(gender) 및 고혈압(hypertension)으로 구성된 군으로부터 선택된 방법.
  99. 제98항에 있어서,
    상기 임상적 요인은 성별인 방법.
  100. 제88항 내지 제99항 중 어느 한 항에 있어서,
    상기 해석 함수는 예측 모델에 기반한 방법.
  101. 제100항에 있어서,
    상기 예측 모델은 부분 최소 자승법 모델(partial least squares model), 로지스틱 회귀 모델(logistic regression model), 선형 회귀 모델(linear regression model), 선형 판별 분석 모델(linear discriminant analysis model), 리지 회귀 모델(ridge regression model), 및 트리-기반 반복 분할 모델(tree-based recursive partitioning model)로 구성된 군으로부터 선택된 방법.
  102. 제88항 내지 제101항 중 어느 한 항에 있어서,
    상기 해석 함수는 log(pr(Smoker)/(1-Pr(Smoker)) = 15.78306 + 0.3876 * SEX - 3.3368 * CLDND1-3.4034*LRRN3-1.4847 * MUC1 + 5.9209 * GOPC + 2.27166 * LEF1이며, 상기 SEX는 남성이면 1, 여성이면 0이고 Pr은 개연성(probability)인 방법.
  103. 제88항 내지 제102항 중 어느 한 항에 있어서,
    상기 해석 함수는 표 7에 설명된 것들로 구성된 해석 함수의 군으로부터 선택된 해석함수인 방법.
  104. 제88항 내지 제103항 중 어느 한 항에 있어서,
    상기 정량적 발현 데이터는 혼성화 데이터(hybridization data)로부터 온 것인 방법.
  105. 제88항 내지 제104항 중 어느 한 항에 있어서,
    상기 정량적 발현 데이터는 폴리머라아제 연쇄 반응 데이터(polymerase chain reaction data)로부터 온 것인 방법.
  106. 제88항 내지 제105항 중 어느 한 항에 있어서,
    상기 정량적 발현 데이터는 서열 데이터(sequence data)로부터 온 것인 방법.
  107. 개체로부터 수득된 샘플을 점수화하는 키트로서, 상기 점수는 개체의 흡연 상태를 나타내는 것이며, 상기 키트는:
    개체로부터 수득된 샘플로부터 마커1, 마커2, 마커3, 마커4, 및/또는 마커5 중 하나 이상에 대한 정량적 발현 데이터를 결정하기 위한 복수의 시약들을 포함하는 시약의 세트로서, 상기 마커1은 CLDND1 또는 IL7R이고, 상기 마커2는 LRRN3 또는 CCR7이고, 상기 마커 3은 MUC1 또는 FOXP3이고, 상기 마커4는 GOPC 또는 MCM3이며, 상기 마커5는 LEF1 또는 CCR7인 시약의 세트; 및
    샘플로부터 얻은 데이터세트에서 정량적 발현 데이터를 결정하는데 복수의 시약들을 사용하는 것에 대한 설명서;를 포함하며, 상기 설명서는 컴퓨터 프로세서에 의해 해석 함수를 사용하여 상기 데이터세트로부터 점수를 결정하는 것에 대한 지시를 포함하고, 상기 점수는 개체의 흡연 상태를 나타내는 키트.
  108. 제107항에 있어서,
    상기 데이터세트는 마커 마커1, 마커2, 마커3, 마커4, 및 마커5에 대한 정량적 발현 데이터를 포함하며, 상기 마커1은 CLDND1이고, 상기 마커2는 LRRN3이고, 상기 마커3은 MUC1이고, 상기 마커4는 GOPC이고, 상기 마커5는 LEF1인 키트.
  109. 제107항에 있어서,
    상기 데이터세트는 마커1, 마커2, 마커3, 마커4, 및 마커5 중 둘 이상에 대한 정량적 발현 데이터를 포함하는 것인 키트.
  110. 제107항에 있어서,
    상기 데이터세트는 마커1, 마커2, 마커3, 마커4, 및 마커5 중 셋 이상에 대한 정량적 발현 데이터를 포함하는 것인 키트.
  111. 제107항에 있어서,
    상기 데이터세트는 마커1, 마커2, 마커3, 마커4, 및 마커5 중 넷 이상에 대한 정량적 발현 데이터를 포함하는 것인 키트.
  112. 제107항에 있어서,
    상기 데이터세트는 마커1, 마커2, 마커3, 마커4, 및 마커5에 대한 정량적 발현 데이터를 포함하는 것인 키트.
  113. 제107항 내지 제112항 중 어느 한 항에 있어서,
    상기 키트는 컴퓨터 프로세서에 의해 개체의 흡연-관련 질병의 발병 위험(risk)을 상기 점수에 기반하여 결정하는 것에 대한 설명서를 더 포함하는 키트.
  114. 제113항에 있어서,
    상기 흡연-관련 질병은 만성 폐쇄성 폐질환(chronic obstructive pulmonary disease), 만성 기관지염(chronic bronchitis), 기종(emphysema), 폐암, 및/또는 천식(asthma)인 키트.
  115. 제107항 내지 제114항 중 어느 한 항에 있어서,
    상기 데이터세트는 표 1로부터 선택된 1개 이상, 2개 이상, 3개 이상, 4개 이상, 5개 이상, 6개 이상, 7개 이상, 8개 이상, 9개 이상, 10개 이상, 11개 이상, 12개 이상, 13개 이상, 14개 이상, 15개 이상, 16개 이상, 17개 이상, 18개 이상, 19개 이상, 또는 20개 이상의 추가 마커들에 대한 정량적 발현 데이터를 포함하는 키트.
  116. 제107항 내지 제115항 중 어느 한 항에 있어서,
    상기 데이터세트는 상기 점수를 계산하는데 사용되는 임상적 요인(clinical factor)을 더 포함하는 키트.
  117. 제116항에 있어서,
    상기 임상적 요인은 성별(gender) 및 고혈압(hypertension)으로 구성된 군으로부터 선택된 키트.
  118. 제117항에 있어서,
    상기 임상적 요인은 성별인 키트.
  119. 제107항 내지 제118항 중 어느 한 항에 있어서,
    상기 해석 함수는 예측 모델에 기반한 방법.
  120. 제119항에 있어서,
    상기 예측 모델은 부분 최소 자승법 모델(partial least squares model), 로지스틱 회귀 모델(logistic regression model), 선형 회귀 모델(linear regression model), 선형 판별 분석 모델(linear discriminant analysis model), 리지 회귀 모델(ridge regression model), 및 트리-기반 반복 분할 모델(tree-based recursive partitioning model)로 구성된 군으로부터 선택된 키트.
  121. 제1항 내지 제120항 중 어느 한 항에 있어서,
    상기 해석 함수는 log(pr(Smoker)/(1-Pr(Smoker)) = 15.78306 + 0.3876 * SEX - 3.3368 * CLDND1-3.4034*LRRN3-1.4847 * MUC1 + 5.9209 * GOPC + 2.27166 * LEF1이며, 상기 SEX는 남성이면 1, 여성이면 0이고 Pr은 개연성(probability)인 키트.
  122. 제107항 내지 제121항 중 어느 한 항에 있어서,
    상기 해석 함수는 표 7에 설명된 것들로 구성된 해석 함수의 군으로부터 선택된 해석함수인 키트.
  123. 제107항 내지 제122항 중 어느 한 항에 있어서,
    상기 정량적 발현 데이터는 혼성화 데이터(hybridization data)로부터 온 것인 키트.
  124. 제107항 내지 제123항 중 어느 한 항에 있어서,
    상기 정량적 발현 데이터는 폴리머라아제 연쇄 반응 데이터(polymerase chain reaction data)로부터 온 것인 키트.
  125. 제107항 내지 제124항 중 어느 한 항에 있어서,
    상기 정량적 발현 데이터는 서열 데이터(sequence data)로부터 온 것인 키트.
  126. 개체의 흡연 상태를 결정하는 방법으로서, 상기 방법은:
    상기 개체로부터 수득된 샘플과 연관된 데이터세트를 수득하는 단계로서, 상기 데이터세트는 표 1로부터 선택된 마커에 대한 정량적 발현 데이터를 포함하는 단계; 및
    상기 데이터세트를 분석하여 상기 마커의 발현 레벨을 결정하는 단계로서, 상기 마커의 상기 발현 레벨은 상기 개체의 흡연 상태와 정(positively) 또는 부(negatively)의 관계가 있어 그로부터 상기 개체의 흡연 상태를 결정하는 단계;를 포함하는 방법.
  127. 제126항에 있어서,
    상기 방법은 상기 개체의 결정된 흡연 상태를 이용하여 상기 개체의 흡연-관련 질병의 발병 위험(risk)을 평가하는 단계를 더 포함하는 방법.
  128. 제127항에 있어서,
    상기 흡연-관련 질병은 만성 폐쇄성 폐질환(chronic obstructive pulmonary disease), 만성 기관지염(chronic bronchitis), 기종(emphysema), 폐암, 및 천식(asthma)으로 구성된 군으로부터 선택된 것인 방법.
  129. 제126항에 있어서,
    상기 분석 단계는 상기 마커의 상기 결정된 발현 레벨을 임계값(threshold value)과 비교하는 단계를 더 포함하며, 상기 결정된 발현 레벨과 상기 임계값의 차이는 양의(positive) 흡연 상태를 나타내는 것인 방법.
  130. 제129항에 있어서,
    상기 임계값은 비-흡연 개체 또는 비-흡연 개체군으로부터 수득된 발현 데이터와 연관된 것인 방법.
  131. 제126항에 있어서,
    상기 분석 단계는 해석 함수를 상기 마커의 상기 결정된 레벨에 적용하여 점수를 생성하는 단계를 더 포함하며, 상기 점수는 상기 개체의 흡연 상태를 나타내는 것인 방법.
  132. 제131항에 있어서,
    상기 방법은 상기 개체의 상기 결정된 흡연 상태를 이용하여 상기 개체의 흡연-관련 질병의 발병 위험(risk)을 평가하는 단계를 더 포함하는 방법.
  133. 제132항에 있어서,
    상기 흡연-관련 질병은 만성 폐쇄성 폐질환(chronic obstructive pulmonary disease), 만성 기관지염(chronic bronchitis), 기종(emphysema), 폐암, 및 천식(asthma)으로 구성된 군으로부터 선택된 것인 방법.
  134. 제131항에 있어서,
    상기 해석 함수는 표 7에 설명된 것들로 구성된 해석 함수의 군으로부터 선택된 해석함수인 방법.
  135. 제126항에 있어서,
    상기 데이터세트는 표 1로부터 선택된 2개 이상, 3개 이상, 4개 이상, 5개 이상, 6개 이상, 7개 이상, 8개 이상, 9개 이상, 10개 이상, 11개 이상, 12개 이상, 13개 이상, 14개 이상, 15개 이상, 16개 이상, 17개 이상, 18개 이상, 19개 이상, 또는 20개 이상의 추가 마커들에 대한 정량적 발현 데이터를 포함하는 방법.
  136. 제135항에 있어서,
    상기 분석 단계는 해석 함수를 상기 마커의 상기 결정된 레벨에 적용하여 점수를 생성하는 단계를 더 포함하며, 상기 점수는 개체의 흡연 상태를 나타내는 것인 방법.
  137. 제136항에 있어서,
    상기 해석 함수는 표 7에 설명된 것들로 구성된 해석 함수의 군으로부터 선택된 해석함수인 방법.
  138. 제136항에 있어서,
    상기 해석 함수는 log(pr(Smoker)/(1-Pr(Smoker)) = 15.78306 + 0.3876 * SEX - 3.3368 * CLDND1-3.4034*LRRN3-1.4847 * MUC1 + 5.9209 * GOPC + 2.27166 * LEF1이며, 상기 SEX는 남성이면 1, 여성이면 0이고 Pr은 개연성(probability)인 방법.
  139. 제126항에 있어서,
    상기 마커의 상기 발현 레벨은 상기 개체의 상기 흡연 상태와 정의 관계가 있는 것인 방법.
  140. 제129항에 있어서,
    상기 마커의 상기 발현 레벨은 상기 임계값보다 현저하게 큰 것인 방법.
  141. 제126항에 있어서,
    상기 마커의 상기 발현 레벨은 상기 개체의 상기 흡연 상태와 부의 관계가 있는 것인 방법.
  142. 제129항에 있어서,
    상기 마커의 상기 발현 레벨은 상기 임계값보다 현저하게 작은 것인 방법.
  143. 제126항에 있어서,
    상기 방법은 하나 이상의 컴퓨터들 상에서 실행되는 것인 방법.
  144. 제126항에 있어서,
    상기 샘플과 연관된 상기 데이터 세트를 수득하는 단계는 상기 샘플을 수득하는 단계 및 상기 샘플을 가공하여 실험적으로 상기 데이터 세트를 결정하는 단계를 포함하는 방법.
  145. 제126항에 있어서,
    상기 샘플과 연관된 상기 데이터 세트를 수득하는 단계는 상기 샘플을 가공하여 실험적으로 상기 데이터 세트를 결정한 제3자로부터 직접 또는 간접적으로 상기 데이터 세트를 받는 단계를 포함하는 방법.
  146. 제126항에 있어서,
    상기 정량적 발현 데이터는 뉴클레오티드-기반 검정(nucleotide-based assay)으로부터 수득된 것인 방법.
  147. 제146항에 있어서,
    상기 정량적 발현 데이터는 qRT-PCR 검정, 혼성화 검정으로부터 수득되거나 또는 시퀀싱 반응(sequencing reaction)에 의해서 수득된 것인 방법.
  148. 개체의 흡연 상태를 결정하는 방법으로서, 상기 방법은:
    상기 개체로부터 샘플을 수득하는 단계로서, 상기 샘플은 표 1로부터 선택된 마커를 포함하는 단계;
    상기 샘플을 시약과 접촉시키는 단계;
    상기 시약 및 상기 마커간의 복합체를 생성하는 단계;
    상기 복합체를 검출하여 상기 샘플과 연관된 데이터를 수득하는 단계로서, 상기 데이터세트는 상기 마커에 대한 정량적 발현 데이터를 포함하는 단계; 및
    상기 데이터세트를 분석하여 상기 마커의 발현 레벨을 결정하는 단계로서, 상기 마커의 상기 발현 레벨은 상기 개체의 흡연 상태와 정(positively) 또는 부(negatively)의 관계가 있어 그로부터 상기 개체의 흡연 상태를 결정하는 단계;를 포함하는 방법.
  149. 제148항에 있어서,
    상기 방법은 상기 개체의 결정된 흡연 상태를 이용하여 상기 개체의 흡연-관련 질병의 발병 위험(risk)을 평가하는 단계를 더 포함하는 방법.
  150. 제149항에 있어서,
    상기 흡연-관련 질병은 만성 폐쇄성 폐질환(chronic obstructive pulmonary disease), 만성 기관지염(chronic bronchitis), 기종(emphysema), 폐암, 및 천식(asthma)으로 구성된 군으로부터 선택된 것인 방법.
  151. 제148항에 있어서,
    상기 분석 단계는 상기 마커의 상기 결정된 발현 레벨을 임계값(threshold value)과 비교하는 단계를 더 포함하며, 상기 결정된 발현 레벨과 상기 임계값의 차이는 양의(positive) 흡연 상태를 나타내는 것인 방법.
  152. 제151항에 있어서,
    상기 임계값은 비-흡연 개체 또는 비-흡연 개체군으로부터 수득된 발현 데이터와 연관된 것인 방법.
  153. 제148항에 있어서,
    상기 분석 단계는 해석 함수를 상기 마커의 상기 결정된 레벨에 적용하여 점수를 생성하는 단계를 더 포함하며, 상기 점수는 상기 개체의 흡연 상태를 나타내는 것인 방법.
  154. 제153항에 있어서,
    상기 해석 함수는 표 7에 설명된 것들로 구성된 해석 함수의 군으로부터 선택된 해석함수인 방법.
  155. 제148항에 있어서,
    상기 데이터세트는 표 1로부터 선택된 2개 이상, 3개 이상, 4개 이상, 5개 이상, 6개 이상, 7개 이상, 8개 이상, 9개 이상, 10개 이상, 11개 이상, 12개 이상, 13개 이상, 14개 이상, 15개 이상, 16개 이상, 17개 이상, 18개 이상, 19개 이상, 또는 20개 이상의 추가 마커들에 대한 정량적 발현 데이터를 포함하는 방법.
  156. 제155항에 있어서,
    상기 분석 단계는 해석 함수를 상기 마커의 상기 결정된 레벨에 적용하여 점수를 생성하는 단계를 더 포함하며, 상기 점수는 개체의 흡연 상태를 나타내는 것인 방법.
  157. 제156항에 있어서,
    상기 해석 함수는 표 7에 설명된 것들로 구성된 해석 함수의 군으로부터 선택된 해석함수인 방법.
  158. 제156항에 있어서,
    상기 해석 함수는 log(pr(Smoker)/(1-Pr(Smoker)) = 15.78306 + 0.3876 * SEX - 3.3368 * CLDND1-3.4034*LRRN3-1.4847 * MUC1 + 5.9209 * GOPC + 2.27166 * LEF1이며, 상기 SEX는 남성이면 1, 여성이면 0이고 Pr은 개연성(probability)인 방법.
  159. 제148항에 있어서,
    상기 마커의 상기 발현 레벨은 상기 개체의 상기 흡연 상태와 정의 관계가 있는 것인 방법.
  160. 제151항에 있어서,
    상기 마커의 상기 발현 레벨은 상기 임계값보다 현저하게 큰 것인 방법.
  161. 제148항에 있어서,
    상기 마커의 상기 발현 레벨은 상기 개체의 상기 흡연 상태와 부의 관계가 있는 것인 방법.
  162. 제151항에 있어서,
    상기 마커의 상기 발현 레벨은 상기 임계값보다 현저하게 작은 것인 방법.
  163. 개체의 흡연 상태를 결정하는 컴퓨터-실행 방법으로서, 상기 방법은:
    상기 개체로부터 수득된 샘플과 연관된 데이터세트를 기억 장치에 저장하는 단계로서, 상기 데이터세트는 표 1로부터 선택된 마커들에 대한 정량적 발현 데이터를 포함하는 단계; 및
    컴퓨터 프로세서에 의해 상기 데이터세트를 분석하여 상기 마커의 상기 발현 레벨을 결정하는 단계로서, 상기 마커의 상기 발현 레벨은 상기 개체의 흡연 상태와 정(positively) 또는 부(negatively)의 관계가 있어 상기 개체의 흡연 상태를 결정하는 단계;를 포함하는 방법.
  164. 제163항에 있어서,
    상기 방법은 상기 개체의 결정된 흡연 상태를 이용하여 상기 개체의 흡연-관련 질병의 발병 위험(risk)을 평가하는 단계를 더 포함하는 방법.
  165. 제164항에 있어서,
    상기 흡연-관련 질병은 만성 폐쇄성 폐질환(chronic obstructive pulmonary disease), 만성 기관지염(chronic bronchitis), 기종(emphysema), 폐암, 및 천식(asthma)으로 구성된 군으로부터 선택된 것인 방법.
  166. 제163항에 있어서,
    상기 분석 단계는 상기 마커의 상기 결정된 발현 레벨을 임계값(threshold value)과 비교하는 단계를 더 포함하며, 상기 결정된 발현 레벨과 상기 임계값의 차이는 양의(positive) 흡연 상태를 나타내는 것인 방법.
  167. 제166항에 있어서,
    상기 임계값은 비-흡연 개체 또는 비-흡연 개체군으로부터 수득된 발현 데이터와 연관된 것인 방법.
  168. 제163항에 있어서,
    상기 분석 단계는 해석 함수를 상기 마커의 상기 결정된 레벨에 적용하여 점수를 생성하는 단계를 더 포함하며, 상기 점수는 상기 개체의 흡연 상태를 나타내는 것인 방법.
  169. 제168항에 있어서,
    상기 해석 함수는 표 7에 설명된 것들로 구성된 해석 함수의 군으로부터 선택된 해석함수인 방법.
  170. 제163항에 있어서,
    상기 데이터세트는 표 1로부터 선택된 2개 이상, 3개 이상, 4개 이상, 5개 이상, 6개 이상, 7개 이상, 8개 이상, 9개 이상, 10개 이상, 11개 이상, 12개 이상, 13개 이상, 14개 이상, 15개 이상, 16개 이상, 17개 이상, 18개 이상, 19개 이상, 또는 20개 이상의 추가 마커들에 대한 정량적 발현 데이터를 포함하는 방법.
  171. 제170항에 있어서,
    상기 분석 단계는 해석 함수를 상기 마커의 상기 결정된 레벨에 적용하여 점수를 생성하는 단계를 더 포함하며, 상기 점수는 상기 개체의 흡연 상태를 나타내는 것인 방법.
  172. 제171항에 있어서,
    상기 해석 함수는 표 7에 설명된 것들로 구성된 해석 함수의 군으로부터 선택된 해석함수인 방법.
  173. 제171항에 있어서,
    상기 해석 함수는 log(pr(Smoker)/(1-Pr(Smoker)) = 15.78306 + 0.3876 * SEX - 3.3368 * CLDND1-3.4034*LRRN3-1.4847 * MUC1 + 5.9209 * GOPC + 2.27166 * LEF1이며, 상기 SEX는 남성이면 1, 여성이면 0이고 Pr은 개연성(probability)인 방법.
  174. 제163항에 있어서,
    상기 마커의 상기 발현 레벨은 상기 개체의 상기 흡연 상태와 정의 관계가 있는 것인 방법.
  175. 제166항에 있어서,
    상기 마커의 상기 발현 레벨은 상기 임계값보다 현저하게 큰 것인 방법.
  176. 제163항에 있어서,
    상기 마커의 상기 발현 레벨은 상기 개체의 상기 흡연 상태와 부의 관계가 있는 것인 방법.
  177. 제166항에 있어서,
    상기 마커의 상기 발현 레벨은 상기 임계값보다 현저하게 작은 것인 방법.
  178. 개체의 흡연 상태를 결정하는 시스템으로서, 상기 시스템은:
    상기 개체로부터 수득된 샘플과 연관된 데이터베이스를 저장하기 위한 기억 장치로서, 상기 데이터베이스는 표 1로부터 선택된 마커에 대한 정량적 발현 데이터를 포함하는 기억 장치; 및
    상기 데이터세트를 분석하여 상기 마커의 발현 레벨을 결정하기 위한 기억 장치와 통신적으로 연결된 프로세서로서, 상기 마커의 상기 발현 레벨은 상기 개체의 흡연 상태와 정(positively) 또는 부(negatively)의 관계가 있어 그로부터 상기 개체의 흡연 상태를 결정하는 것인 프로세서;를 포함하는 시스템.
  179. 제178항에 있어서,
    상기 프로세서는 상기 개체의 상기 결정된 흡연 상태를 사용하여 상기 개체의 흡연-관련 질병의 발병 위험(risk)를 평가하도록 프로그램 된 것인 시스템.
  180. 제179항에 있어서,
    상기 흡연-관련 질병은 만성 폐쇄성 폐질환(chronic obstructive pulmonary disease), 만성 기관지염(chronic bronchitis), 기종(emphysema), 폐암, 및 천식(asthma)으로 구성된 군으로부터 선택된 것인 시스템.
  181. 제178항에 있어서,
    상기 시스템은 표 1로부터 선택된 마커들에 대한 임계값을 포함하는 데이터세트를 저장하기 위한 기억 장치를 더 포함하는 시스템.
  182. 제181항에 있어서,
    상기 임계값은 비-흡연 개체 또는 비-흡연 개체군으로부터 수득된 발현 데이터와 연관된 것인 시스템.
  183. 제178항에 있어서,
    상기 샘플과 연관된 상기 데이터세트는 표 1로부터 선택된 2개 이상, 3개 이상, 4개 이상, 5개 이상, 6개 이상, 7개 이상, 8개 이상, 9개 이상, 10개 이상, 11개 이상, 12개 이상, 13개 이상, 14개 이상, 15개 이상, 16개 이상, 17개 이상, 18개 이상, 19개 이상, 또는 20개 이상의 추가 마커들에 대한 정량적 발현 데이터를 포함하는 시스템.
  184. 제178항에 있어서,
    상기 프로세서는 해석 함수를 상기 마커의 상기 결정된 레벨에 적용하여 점수를 생성하도록 프로그램 된 것이며, 상기 점수는 상기 개체의 흡연 상태를 나타내는 것인 시스템.
  185. 제184항에 있어서,
    상기 해석 함수는 표 7에 설명된 것들로 구성된 해석 함수의 군으로부터 선택된 해석함수인 시스템.
  186. 제183항에 있어서,
    상기 프로세서는 해석 함수를 상기 마커의 상기 결정된 레벨에 적용하여 점수를 생성하도록 프로그램 된 것이며, 상기 점수는 상기 개체의 흡연 상태를 나타내는 것인 시스템.
  187. 제186항에 있어서,
    상기 해석 함수는 log(pr(Smoker)/(1-Pr(Smoker)) = 15.78306 + 0.3876 * SEX - 3.3368 * CLDND1-3.4034*LRRN3-1.4847 * MUC1 + 5.9209 * GOPC + 2.27166 * LEF1이며, 상기 SEX는 남성이면 1, 여성이면 0이고 Pr은 개연성(probability)인 시스템.
  188. 컴퓨터-실행가능한 프로그램 코드를 저장하는 컴퓨터-판독가능한 저장 매체로서, 상기 프로그램 코드는:
    개체로부터 수득된 샘플과 연관된 데이터세트를 저장하기 위한 프로그램 코드로서, 상기 데이터세트는 표 1로부터 선택된 마커에 대한 정량적 발현 데이터를 포함하는 프로그램 코드; 및
    상기 데이터세트를 분석하여 상기 마커의 발현 레벨을 결정하기 위한 프로그램 코드로서, 상기 마커의 상기 발현 레벨은 상기 개체의 흡연 상태와 정(positively) 또는 부(negatively)의 관계가 있어 그로부터 상기 개체의 흡연 상태를 결정하는 프로그램 코드;를 포함하는 컴퓨터-판독가능한 저장 매체.
  189. 제188항에 있어서,
    상기 저장 매체는 상기 결정된 흡연 상태에 기반하여 상기 개체의 흡연-관련 질병의 발병 위험(risk)을 평가하기 위한 프로그램 코드를 더 포함하는 컴퓨터-판독가능한 저장 매체.
  190. 제189항에 있어서,
    상기 흡연-관련 질병은 만성 폐쇄성 폐질환(chronic obstructive pulmonary disease), 만성 기관지염(chronic bronchitis), 기종(emphysema), 폐암, 및 천식(asthma)으로 구성된 군으로부터 선택된 것인 컴퓨터-판독가능한 저장 매체.
  191. 제188항에 있어서,
    상기 저장 매체는 해석 함수를 상기 결정된 발현 레벨에 적용하여 점수를 생성하기 위한 프로그램 코드를 더 포함하며, 상기 점수는 상기 개체의 흡연 상태를 나타내는 것인 컴퓨터-판독가능한 저장 매체.
  192. 제191항에 있어서,
    상기 해석 함수는 표 7에 설명된 것들로 구성된 해석 함수의 군으로부터 선택된 해석함수인 컴퓨터-판독가능한 저장 매체.
  193. 제191항에 있어서,
    상기 해석 함수는 log(pr(Smoker)/(1-Pr(Smoker)) = 15.78306 + 0.3876 * SEX - 3.3368 * CLDND1-3.4034*LRRN3-1.4847 * MUC1 + 5.9209 * GOPC + 2.27166 * LEF1이며, 상기 SEX는 남성이면 1, 여성이면 0이고 Pr은 개연성(probability)인 컴퓨터-판독가능한 저장 매체.
  194. 개체의 흡연 상태를 결정하는데 사용하기 위한 키트로서, 상기 키트는:
    상기 개체로부터 수득된 샘플로부터 표 1로부터 선택된 마커에 대한 정량적 발현 데이터를 결정하기 위한 시약들의 세트; 및
    상기 시약들의 세트를 사용하여 상기 샘플로부터 정량적 발현 데이터를 결정하고 상기 데이터 세트를 분석하여 상기 마커의 발현 레벨을 결정하는 것에 대한 설명서;를 포함하며, 상기 마커의 상기 발현 레벨은 상기 개체의 흡연 상태와 정(positively) 또는 부(negatively)의 관계가 있어 그로부터 상기 개체의 흡연 상태를 결정하는 것인 키트.
  195. 제194항에 있어서,
    상기 설명서는 상기 개체의 결정된 흡연 상태를 이용하여 개체의 흡연-관련 질병의 발병 위험(risk)을 평가하는 것에 대한 설명서를 더 포함하는 키트.
  196. 제195항에 있어서,
    상기 흡연-관련 질병은 만성 폐쇄성 폐질환(chronic obstructive pulmonary disease), 만성 기관지염(chronic bronchitis), 기종(emphysema), 폐암, 및 천식(asthma)으로 구성된 군으로부터 선택된 것인 키트.
  197. 제194항에 있어서,
    상기 설명서는 뉴클레오티드-기반 검정을 수행하는 것에 대한 설명서를 더 포함하는 키트.
  198. 제194항에 있어서,
    상기 정량적 발현 데이터는 표 1로부터 선택된 2개 이상, 3개 이상, 4개 이상, 5개 이상, 6개 이상, 7개 이상, 8개 이상, 9개 이상, 10개 이상, 11개 이상, 12개 이상, 13개 이상, 14개 이상, 15개 이상, 16개 이상, 17개 이상, 18개 이상, 19개 이상, 또는 20개 이상의 추가 마커들에 대한 데이터를 포함하는 키트.
  199. 개체의 흡연 상태를 결정하는데 사용하기 위한 키트로서, 상기 키트는:
    상기 개체로부터 수득된 샘플로부터 표 1로부터 선택된 마커에 대한 정량적 발현 데이터를 결정하기 위한 복수의 시약들로 본질적으로 구성된(consisting essentially of) 시약들의 세트; 및
    상기 복수의 시약들을 사용하여 상기 샘플로부터 정량적 발현 데이터를 결정하고 상기 데이터세트를 분석하여 상기 마커의 발현 레벨을 결정하는 것에 대한 설명서;를 포함하며, 상기 마커의 상기 발현 레벨은 상기 개체의 흡연 상태와 정(positively) 또는 부(negatively)의 관계가 있어 그로부터 상기 개체의 흡연 상태를 결정하는 것인 키트.
  200. 제199항에 있어서,
    상기 설명서는 상기 개체의 결정된 흡연 상태를 이용하여 개체의 흡연-관련 질병의 발병 위험(risk)을 평가하는 것에 대한 설명서를 더 포함하는 키트.
  201. 제200항에 있어서,
    상기 흡연-관련 질병은 만성 폐쇄성 폐질환(chronic obstructive pulmonary disease), 만성 기관지염(chronic bronchitis), 기종(emphysema), 폐암, 및 천식(asthma)으로 구성된 군으로부터 선택된 것인 키트.
  202. 제36항에 있어서,
    상기 설명서는 뉴클레오티드-기반 검정을 수행하는 것에 대한 설명서를 더 포함하는 키트.
  203. 제16항에 있어서,
    상기 정량적 발현 데이터는 표 1로부터 선택된 2개 이상, 3개 이상, 4개 이상, 5개 이상, 6개 이상, 7개 이상, 8개 이상, 9개 이상, 10개 이상, 11개 이상, 12개 이상, 13개 이상, 14개 이상, 15개 이상, 16개 이상, 17개 이상, 18개 이상, 19개 이상, 또는 20개 이상의 추가 마커들에 대한 데이터를 포함하는 키트.
  204. 개체로부터 수득된 샘플을 점수화하는 컴퓨터-실행 방법으로서, 상기 점수는 상기 개체의 흡연 상태를 나타내며, 상기 방법은:
    상기 샘플과 연관된 데이터세트를 수득하는 단계로서, 상기 데이터세트는 표 1로부터 선택된 복수의 마커들에 대한 정량적 발현 데이터를 포함하는 단계; 및
    컴퓨터 프로세서에 의해 해석 함수를 사용하여 상기 데이터세트로부터 점수를 결정하는 단계로서, 상기 점수는 개체의 흡연 상태를 나타내는 것인 단계;를 포함하는 방법.
  205. 제204항에 있어서,
    상기 방법은 상기 점수에 기반하여 개체의 흡연-관련 질병의 발병 위험(risk)을 컴퓨터 프로세서에 의해 결정하는 단계를 더 포함하는 방법.
  206. 제204항에 있어서,
    상기 흡연-관련 질병은 만성 폐쇄성 폐질환(chronic obstructive pulmonary disease), 만성 기관지염(chronic bronchitis), 기종(emphysema), 폐암, 및 천식(asthma)으로 구성된 군으로부터 선택된 것인 방법.
  207. 제204항에 있어서,
    상기 데이터세트는 표 1로부터 선택된 2개 이상, 3개 이상, 4개 이상, 5개 이상, 6개 이상, 7개 이상, 8개 이상, 9개 이상, 10개 이상, 11개 이상, 12개 이상, 13개 이상, 14개 이상, 15개 이상, 16개 이상, 17개 이상, 18개 이상, 19개 이상, 또는 20개 이상의 추가 마커들에 대한 정량적 발현 데이터를 포함하는 방법.
  208. 제204항에 있어서,
    상기 해석 함수는 예측 모델에 기반한 방법.
  209. 제208항에 있어서,
    상기 예측 모델은 부분 최소 자승법 모델(partial least squares model), 로지스틱 회귀 모델(logistic regression model), 선형 회귀 모델(linear regression model), 선형 판별 분석 모델(linear discriminant analysis model), 리지 회귀 모델(ridge regression model), 및 트리-기반 반복 분할 모델(tree-based recursive partitioning model)로 구성된 군으로부터 선택된 방법.
  210. 제204항에 있어서,
    상기 샘플과 연관된 상기 데이터세트를 수득하는 단계는 상기 샘플을 수득하는 단계 및 상기 샘플을 가공하여 실험적으로 상기 데이터 세트를 결정하는 단계를 포함하는 방법.
  211. 제204항에 있어서,
    상기 샘플과 연관된 상기 데이터세트를 수득하는 단계는 상기 샘플을 가공하여 실험적으로 상기 데이터 세트를 결정한 제3자로부터 직접 또는 간접적으로 상기 데이터 세트를 받는 단계를 포함하는 방법.
  212. 제204항에 있어서,
    상기 정량적 발현 데이터는 혼성화 데이터(hybridization data)로부터 유래된 것인 방법.
  213. 제204항에 있어서,
    상기 정량적 발현 데이터는 폴리머라아제 연쇄 반응 데이터(polymerase chain reaction data)로부터 유래된 것인 방법.
  214. 제204항에 있어서,
    상기 정량적 발현 데이터는 서열 데이터(sequence data)로부터 유래된 것인 방법.
  215. 제204항에 있어서,
    상기 데이터세트는 표 1로부터 선택된 한 개 이상, 두 개 이상, 세 개 이상, 네 개 이상, 또는 다섯 개 이상의 마커들로부터 얻은 데이터를 포함하는 방법.
  216. 제215항에 있어서, 상기 마커들은 CDND1, LRRN3, MUC1, GOPC, 또는 LEF1, 또는 표 1로부터 선택된 마커들로서 그 발현이 CDND1, LRRN3, MUC1, GOPC, 및 LEF1과 관련된 것인 마커들을 포함하는 방법.
  217. 제216항에 있어서,
    그 발현이 CLDND1와 관련된 상기 마커는 IL7R인 방법.
  218. 제216항에 있어서,
    그 발현이 LRRN3와 관련된 상기 마커는 CCR7인 방법.
  219. 제216항에 있어서,
    그 발현이 MUC1 와 관련된 상기 마커는 FOXP3인 방법.
  220. 제216항에 있어서,
    그 발현이 GOPC 와 관련된 상기 마커는 MCM3인 방법.
  221. 제216항에 있어서,
    그 발현이 LEF1 와 관련된 상기 마커는 CCR7인 방법.
  222. 제215항에 있어서,
    상기 데이터세트는 표 1로부터 선택된 5개 이상의 마커들을 포함하는 방법.
  223. 제222항에 있어서,
    상기 5개 이상의 마커들은 CLDND1, LRRN3, MUC1, GOPC, 및 LEF1, 또는 그 발현이 CLDND1, LRRN3, MUC1, GOPC, 및 LEF1와 관련된 마커들인 방법.
  224. 제222항에 있어서,
    상기 해석 함수는 log(pr(Smoker)/(1-Pr(Smoker)) = 15.78306 + 0.3876 * SEX - 3.3368 * CLDND1-3.4034*LRRN3-1.4847 * MUC1 + 5.9209 * GOPC + 2.27166 * LEF1이며, 상기 SEX는 남성이면 1, 여성이면 0이고 Pr은 개연성(probability)인 방법.
  225. 제215항에 있어서,
    상기 해석 함수는 표 7에 설명된 것들로 구성된 해석 함수의 군으로부터 선택된 해석함수인 방법.
KR1020147008340A 2011-08-29 2012-08-24 흡연 상태를 결정하기 위한 방법 및 조성물 KR20140051461A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201161528616P 2011-08-29 2011-08-29
US61/528,616 2011-08-29
PCT/US2012/052303 WO2013032917A2 (en) 2011-08-29 2012-08-24 Methods and compositions for determining smoking status

Publications (1)

Publication Number Publication Date
KR20140051461A true KR20140051461A (ko) 2014-04-30

Family

ID=47757128

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020147008340A KR20140051461A (ko) 2011-08-29 2012-08-24 흡연 상태를 결정하기 위한 방법 및 조성물

Country Status (12)

Country Link
US (2) US20150178462A1 (ko)
EP (1) EP2751290A4 (ko)
JP (1) JP2014531202A (ko)
KR (1) KR20140051461A (ko)
CN (1) CN103890193A (ko)
AU (1) AU2012300375A1 (ko)
BR (1) BR112014004768A2 (ko)
CA (1) CA2846837A1 (ko)
EA (1) EA201490533A1 (ko)
IL (1) IL231131A0 (ko)
SG (1) SG11201400243PA (ko)
WO (1) WO2013032917A2 (ko)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103389376B (zh) * 2013-08-21 2015-08-19 中南大学湘雅医院 评估肝细胞癌临床分期和预后的试剂盒及ecscr的应用
PL3084664T3 (pl) * 2013-12-16 2020-10-05 Philip Morris Products S.A. Układy i sposoby do przewidywania statusu palenia u osobnika
CN105214077B (zh) * 2014-06-03 2019-02-05 浙江阿思科力生物科技有限公司 Usp33在肿瘤中的应用
CA2954169A1 (en) * 2014-07-14 2016-01-21 Allegro Diagnostics Corp. Methods for evaluating lung cancer status
CN104651354B (zh) * 2015-01-21 2017-12-15 田小利 Scml4基因序列及表达改变检测及其在冠心病预测中的应用
US10308719B2 (en) * 2015-01-26 2019-06-04 The University Of Chicago IL13Rα2 binding agents and use thereof in cancer treatment
CN105296658A (zh) * 2015-11-30 2016-02-03 北京泱深生物信息技术有限公司 Alkbh2基因在缺血性脑卒中诊断中的应用
EP3475911A1 (en) * 2016-06-22 2019-05-01 Swiss Reinsurance Company Ltd. Life insurance system with fully automated underwriting process for real-time underwriting and risk adjustment, and corresponding method thereof
EP3513344A1 (en) * 2016-09-14 2019-07-24 Philip Morris Products S.a.s. Systems, methods, and gene signatures for predicting a biological status of an individual
CN106801095A (zh) * 2017-02-14 2017-06-06 徐州市中心医院 Prrt1基因在制备冠心病诊断产品中的应用
CN107937521B (zh) * 2017-11-19 2019-01-04 武汉迈特维尔生物科技有限公司 用于检测肾上腺皮质癌的试剂盒
CN108611413B (zh) * 2018-03-30 2021-10-01 青岛泱深生物医药有限公司 一种帕金森相关生物标志物及其应用
CN108303547A (zh) * 2018-02-07 2018-07-20 北京泱深生物信息技术有限公司 一种用于诊断慢性阻塞性肺疾病的分子标志物
CN108070649A (zh) * 2018-02-07 2018-05-25 北京泱深生物信息技术有限公司 Kcne1基因在诊断慢性阻塞性肺疾病中的应用
RU2690393C1 (ru) * 2018-05-29 2019-06-04 Федеральное государственное бюджетное научное учреждение "Научно-исследовательский институт комплексных проблем гигиены и профессиональных заболеваний" Способ прогнозирования вероятности развития атеросклероза у шахтеров с хроническим пылевым бронхитом
CN109055522A (zh) * 2018-07-03 2018-12-21 吉林大学 C4orf38在制备用于检测或治疗神经性疼痛的产品中的应用
CN111500733B (zh) * 2020-05-27 2022-03-08 中国人民解放军军事科学院军事医学研究院 外周血单核细胞中用于非小细胞肺癌早期诊断的分子标记物
CN111856031B (zh) * 2020-07-21 2023-04-28 国家烟草质量监督检验中心 通过测定外周血中性粒细胞中蛋白的表达来鉴定烟碱暴露的潜在生物标志物的方法
CN114231529B (zh) * 2021-11-17 2023-08-01 中国科学院昆明动物研究所 一种人pkmyt1ar基因及其应用

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7102429B2 (en) * 2002-06-28 2006-09-05 Motorola, Inc. RF amplifier with enhanced efficiency
JP2007516693A (ja) * 2003-06-09 2007-06-28 ザ・リージェンツ・オブ・ザ・ユニバーシティ・オブ・ミシガン 癌の治療および診断のための組成物および方法
CN1852974A (zh) * 2003-06-09 2006-10-25 密歇根大学董事会 用于治疗和诊断癌症的组合物和方法
DE102004003612B4 (de) * 2004-01-25 2015-01-08 grapho metronic Meß- und Regeltechnik GmbH Verfahren und Auswertung eines Bildes von einem vorbestimmten Ausschnitt eines Druckerzeugnisses
AU2007223788B2 (en) * 2006-03-09 2012-11-29 The Trustees Of Boston University Diagnostic and prognostic methods for lung disorders using gene expression profiles from nose epithelial cells
WO2008063521A2 (en) * 2006-11-13 2008-05-29 The General Hospital Corporation Gene-based clinical scoring system
US20100119474A1 (en) * 2007-03-06 2010-05-13 Cornell University Chronic obstructive pulmonary disease susceptibility and related compositions and methods
WO2010120914A1 (en) * 2009-04-14 2010-10-21 Cardiodx, Inc. Predictive models and method for assessing age

Also Published As

Publication number Publication date
EA201490533A1 (ru) 2014-08-29
US20150178462A1 (en) 2015-06-25
CA2846837A1 (en) 2013-03-07
WO2013032917A3 (en) 2013-06-13
EP2751290A2 (en) 2014-07-09
US20190311808A1 (en) 2019-10-10
SG11201400243PA (en) 2014-03-28
WO2013032917A2 (en) 2013-03-07
CN103890193A (zh) 2014-06-25
IL231131A0 (en) 2014-03-31
EP2751290A4 (en) 2015-07-15
BR112014004768A2 (pt) 2019-09-24
AU2012300375A1 (en) 2014-03-20
JP2014531202A (ja) 2014-11-27

Similar Documents

Publication Publication Date Title
KR20140051461A (ko) 흡연 상태를 결정하기 위한 방법 및 조성물
JP6854272B2 (ja) 遺伝子の変異の非侵襲的な評価のための方法および処理
Sood et al. A novel multi-tissue RNA diagnostic of healthy ageing relates to cognitive health status
US11756655B2 (en) Population based treatment recommender using cell free DNA
Ninomiya et al. Distinct microRNAs expression profile in primary biliary cirrhosis and evaluation of miR 505-3p and miR197-3p as novel biomarkers
US20210002728A1 (en) Systems and methods for detection of residual disease
US9122777B2 (en) Method for determining coronary artery disease risk
EP3316875B1 (en) Methods to diagnose acute respiratory infections
JP2018504138A (ja) 機械学習および高次元転写データを使用して経気管支生検における特発性肺線維症を診断するシステムおよび方法
US20130317083A1 (en) Non-coding transcripts for determination of cellular states
US20230175058A1 (en) Methods and systems for abnormality detection in the patterns of nucleic acids
US20230348980A1 (en) Systems and methods of detecting a risk of alzheimer&#39;s disease using a circulating-free mrna profiling assay
WO2013049152A2 (en) Methods for evaluating lung cancer status
US20220073986A1 (en) Method of characterizing a neurodegenerative pathology
CN111051511A (zh) 用于与生物靶相关的表征的靶相关分子
EP3084664B1 (en) Systems and methods for predicting a smoking status of an individual
JP2023516633A (ja) メチル化シークエンシングデータを使用したバリアントをコールするためのシステムおよび方法
US20110039710A1 (en) Apparatus and methods for applications of genomic microarrays in screening, surveillance and diagnostics
JP7165098B2 (ja) 動脈硬化のリスクを判定する方法
Gallardo-Gómez et al. Serum methylation of GALNT9, UPF3A, WARS, and LDB2 as non-invasive biomarkers for the early detection of colorectal cancer and premalignant adenomas
JP2022534236A (ja) 多重オミックス分析を利用した鬱病または自殺危険の予測用マーカー発掘方法、鬱病または自殺危険の予測用マーカー、及び多重オミックス分析を利用した鬱病または自殺危険の予測方法
ES2922728T3 (es) Normalización matemática de conjuntos de datos de secuencias
JP7138073B2 (ja) 注意欠陥多動性症候群のリスクを判定する方法
US20230340569A1 (en) Methods for detecting primary immunodeficiency
JP6980907B2 (ja) 無細胞核酸から得られた配列分析データに係わる背景対立因子の頻度分布を生成する方法、及びそれを利用して無細胞核酸から変異を検出する方法

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid