KR102136180B1 - 분류 시스템 및 이의 키트를 이용하여 폐 질환을 식별 및 진단하는 방법 - Google Patents

분류 시스템 및 이의 키트를 이용하여 폐 질환을 식별 및 진단하는 방법 Download PDF

Info

Publication number
KR102136180B1
KR102136180B1 KR1020137031742A KR20137031742A KR102136180B1 KR 102136180 B1 KR102136180 B1 KR 102136180B1 KR 1020137031742 A KR1020137031742 A KR 1020137031742A KR 20137031742 A KR20137031742 A KR 20137031742A KR 102136180 B1 KR102136180 B1 KR 102136180B1
Authority
KR
South Korea
Prior art keywords
delete delete
biomarker
biomarkers
training data
classification
Prior art date
Application number
KR1020137031742A
Other languages
English (en)
Other versions
KR20140024916A (ko
Inventor
로버트 티. 스트리퍼
엘즈비에타 이즈빅카
조엘 미칼렉
크리스 로우덴
Original Assignee
캔서 프리벤션 앤 큐어, 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 캔서 프리벤션 앤 큐어, 리미티드 filed Critical 캔서 프리벤션 앤 큐어, 리미티드
Publication of KR20140024916A publication Critical patent/KR20140024916A/ko
Application granted granted Critical
Publication of KR102136180B1 publication Critical patent/KR102136180B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/53Immunoassay; Biospecific binding assay; Materials therefor
    • G01N33/574Immunoassay; Biospecific binding assay; Materials therefor for cancer
    • G01N33/57407Specifically defined cancers
    • G01N33/57423Specifically defined cancers of lung
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/53Immunoassay; Biospecific binding assay; Materials therefor
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/53Immunoassay; Biospecific binding assay; Materials therefor
    • G01N33/574Immunoassay; Biospecific binding assay; Materials therefor for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16ZINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS, NOT OTHERWISE PROVIDED FOR
    • G16Z99/00Subject matter not provided for in other main groups of this subclass
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2800/00Detection or diagnosis of diseases
    • G01N2800/60Complex ways of combining multiple protein biomarkers for diagnosis

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Immunology (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Pathology (AREA)
  • Hematology (AREA)
  • Molecular Biology (AREA)
  • Urology & Nephrology (AREA)
  • Chemical & Material Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Databases & Information Systems (AREA)
  • Biotechnology (AREA)
  • Biochemistry (AREA)
  • Analytical Chemistry (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Medicinal Chemistry (AREA)
  • Food Science & Technology (AREA)
  • Microbiology (AREA)
  • Cell Biology (AREA)
  • Oncology (AREA)
  • Hospice & Palliative Care (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

본 발명은 폐 질환, 가령 비-소세포 폐암 또는 반응성 기도 질환을 진단하는 데에 유용한 바이오마커 및 바이오마커의 조합을 제공한다. 이들 바이오마커의 측정은 서포트 벡터 머신(support vector machine) 또는 AdaBoost와 같은 분류 시스템 내로 입력되어 개체가 폐 질환을 가질 가능성을 결정하는 것을 보조한다. 바이오마커 및 바이오마커의 조합을 탐지하기 위한 물질을 포함한 키트, 그리고 폐 질환을 진단하는 것을 보조하는 시스템이 또한 제공된다.

Description

분류 시스템 및 이의 키트를 이용하여 폐 질환을 식별 및 진단하는 방법{METHODS OF IDENTIFICATION AND DIAGNOSIS OF LUNG DISEASES USING CLASSIFICATION SYSTEMS AND KITS THEREOF}
발명의 배경
(a) 발명의 분야
본 발명은 바이오마커 및 이의 키트, 그리고 바이오마커에 기반하여 질환의 존재 또는 부재의 가능성을 결정하는 것을 보조하는 시스템을 이용한 폐 질환의 탐지, 식별, 및 진단과 관련된다. 더욱 특이적으로, 본 발명은 특이적 바이오마커의 발현 수준을 측정하고 그리고 서포트 벡터 머신(support vector machine)과 같은 분류 시스템 내로 이들 측정을 입력하는 것에 의한 비-소세포 폐암 및 반응성 기도 질환의 진단과 관련된다.
(b) 관련 기술의 설명
인간 폐 조직의 병리
호흡기계의 병리, 가령 천식 및 폐암은 수백만 명의 미국인에게서 발병한다. 실제로, American Lung Association®은 2000만명의 미국인이 천식을 앓고 있다는 것을 보고한다. American Cancer Society, Inc.는 2007년에만 229,400 건의 새로운 호흡기계 암 사례 및 164,840건의 암으로 인한 사망을 추산하였다. 여전히 국한되어있는 동안 암이 탐지될 때 모든 암 사례의 5년 생존율은 46%이지만, 폐 암 환자의 5년 생존율은 단지 13%이다. 이에 상응하여, 질환이 퍼지기 전에 단지 16%의 폐암이 발견된다. 폐암은 일반적으로 암세포의 병리에 기반하여 두 가지 주요 유형으로 분류된다. 각각의 유형은 변형되어 암이 되는 세포의 유형에 따라 명명된다. 소세포 폐암은 인간 폐 조직내 소세포로부터 유래되는 반면에, 비-소-세포 폐암은 일반적으로 소-세포 유형이 아닌 모든 폐암을 포함한다. 비-소세포 폐암은 치료가 모든 비-소-세포 유형과 일반적으로 동일하기 때문에 함께 그룹화 된다. 이와 함께, 비-소-세포 폐암, 또는 NSCLC는 모든 폐암 중 약 75%를 차지한다.
폐암 환자의 낮은 생존율에서 주요 요인은 폐암이 조기에 진단하기 어렵다는 사실이다. 폐암을 진단하거나 또는 인간내 이의 존재를 식별하는 현재 방법은 X-레이, 컴퓨터 단층촬영 (CT) 스캔 및 종양의 존재 또는 부재를 물리적으로 결정하기 위한 폐의 유사 검사로 제한된다. 따라서, 폐암의 진단은 상당한 시간 동안 분명해지거나 또는 존재하였던 증상에만 반응하여, 그리고 질환이 물리적으로 탐지가능한 질량을 생성하기에 충분히 길게 인간내 존재하고 난 후, 이루어진다.
유사하게도, 천식을 탐지하는 현재 방법은 전형적으로 반복되는 천명, 기침, 및 흉부 압박과 같은 증상이 나타나고 오랜 후에 수행된다. 천식을 탐지하는 현재 방법은 폐 기능 검사, 가령 폐활량 검사 또는 유발 검사(challenge test)에 전형적으로 제한된다. 더욱이, 이들 검사는 종종 내과 의사에 의해 지시되어 기타 병리 또는 반응성 기도 질환, 가령 만성 폐쇄성 폐질환 (COPD), 기관지염, 폐렴, 및 울혈성 심부전을 제외시키 위한 다수의 기타 검사와 함께 수행된다.
분류 시스템
다양한 분류 시스템, 가령 데이터 분석 및 데이터 마이닝(data mining) 에 대한 기계 학습 기법은 패턴을 인식하고 그리고 부적절한 데이터에 불과할 수 도 있는 기타 정보의 존재내 대량 데이터 베이스 내에 함유된 중요 정보를 추출할 수 있는 것에 대해 광범위하게 탐구되었다. 기계 학습은 공지된 분류로 데이터를 이용하여 트레이닝되어 일반화될 수 있는 알고리즘을 포함한다. 이후 트레이닝된 학습 기계 알고리즘은 알려지지 않은 결과의 경우에 결과를 예상하도록, , 학습된 패턴에 따라 데이터를 분류하도록 적용될 수 있다. 신경 네트워크, 은닉 마르코브 모델(hidden Markov model), 신뢰성 네트워크 및 커넬(kernel) 기반 분류기, 가령 서포트 벡터 머신을 포함하는 기계 학습 방법은 대량의 데이터, 잡음 패턴 및 일반 이론의 부재에 의해 특징화된 문제에 대해 유용하다.
패턴 분류, 회귀 및 클러스터링(clustering) 문제에 대한 많은 성공적인 기법은 패턴 쌍의 유사성을 측정하기 위한 커넬에 의존한다. 이들 커넬은 일반적으로 벡터 또는 실수(real number)로서 대표될 수 있는 패턴으로 정의된다. 예를 들어, 선형 커넬, 방사형 기반 커넬, 및 다항식 커넬 모두 실제 벡터 쌍의 유사성을 측정한다. 데이터가 이 방식으로, 실수의 서열로서 가장 대표될 수 있을 때 이러한 커넬이 적합하다. 커넬의 선택은 특징 공간내 테이터의 대표 선택과 상응한다. 많은 적용에서, 패턴은 더 큰 정도의 구조를 갖는다. 이들 구조는 활용되어 학습 알고리즘의 성능을 개선시킬 수 있다. 기계 학습 적용에서 일반적으로 발생하는 구조화된 데이터 유형의 예시는 스트링(string), 다큐먼트(document), 트리(tree), 그래프(graph), 가령 웹사이트 또는 화학 분자, 신호, 가령 마이크로어레이 발현 프로파일(microarray expression profile), 스텍트라(spectra), 이미지(image), 시공간(spatio-temporal) 데이터, 관계 데이터 및 생화학적 농도 등이다.
분류 시스템은 의학 분야에서 이용되어 왔다. 예를 들어, 의학적 질병의 발생을 진단하고 예측하는 방법은 다양한 컴퓨터 시스템 및 분류 시스템, 가령 서포트 벡터 머신을 이용하여 제안되어왔다. 가령, 미국 특허 번호 제7,321,881호; 제7,467,119호; 제7,505,948호; 제7,617,163호; 제7,676,442호; 제7,702,598호; 제7,707,134호; 및 제7,747,547호를 참조하며, 상기 문헌은 이들 전체로 참조로서 본 명세서에 편입된다. 하지만, 이들 방법은 인간 폐 조직의 병리, 가령 비-소 폐암 및/또는 반응성 기도 질환을 진단하고 및/또는 예측하는 데에서 높은 수준의 정확성을 제공하지는 않는다.
이에 따라서, 해당 분야에는 인간 폐 조직의 병리를, 특히 그들의 발달 초기에 진단하는 간편하고 신뢰할 수 있는 방법이 존재하지 않는다. 추가로, 특정 폐 조직 병리의 존재를 보여줄 수 있는, 오늘 날 이용할 수 있는 혈액 검사가 없다. 따라서, 질환의 진행 중 초기에 폐암의 존재를 확인하기 위한 방법을 개발하는 것이 바람직하다. 임상적으로 분명한 증상의 조기 출현 전에 천식 및 비-소세포 폐암을 진단하고, 그리고 서로로부터 및 감염과 같은 기타 폐 질환으로부터 그들을 구분하기 위한 방법을 개발하는 것도 마찬가지로 바람직하다.
본 발명의 바람직한 구체예의 요약
본 발명은 다양한 분류 시스템, 가령 서포트 벡터 머신을 이용하여 대상내 특정 바이오마커를 평가하는 강력한 방법을 제공함에 의한 이들 요구에 대해 다룬다.
본 발명은 우선 대상의 생리학적 샘플을 얻는 단계; 그 다음 상기 샘플내 다수의 바이오마커의 바이오마커 척도를 측정하는 단계; 그리고 최종으로 분류 시스템을 이용한 바이오마커 척도에 기반하여 샘플을 분류하는 단계를 포함하는 대상에서 생리학적 특징규명 방법을 제공하며, 여기서 샘플의 분류는 대상에서 질환 상태의 변화, 또는 생리학적 상태 또는 조건과 연관(correlate)된다. 전형적으로, 분류 시스템은 기계 학습 시스템, 바람직하게는 커넬 또는 분류 및 회귀 트리 기반 분류 시스템, 그리고 더욱 바람직하게는 서포트 벡터 머신 (SVM) 또는 AdaBoost이다.
한 가지 구체예에서, 생리학적 특징규명 방법은 대상에서 비-소세포 폐암의 존재 또는 부재, 또는 비-소세포 폐암의 발달 단계에 대한 진단에 대해 제공한다. 또 다른 구체예에서, 이러한 생리학적 특징규명 방법은 대상에서 반응성 기도 질환, 가령 천식 또는 폐쇄성 폐 질환에 대한 진단을 제공한다. 또 다른 구체예에서, 이러한 생리학적 특징규명 방법은 대상에서 폐 질환에 대한 진단을 제공하며, 여기서 다수의 바이오마커는 상기 샘플에서, 반응성 기도 질환 및 비-소세포 폐암의 징후를 구별하는 것을 보조하는 마커, 반응성 기도 질환에 대한 다수의 바이오마커, 및 비-소세포 폐암에 대한 다수의 바이오마커를 포함하고, 다수의 바이오마커는 동일하지 않으며; 그리고 샘플은 세 가지 분류 시스템을 이용한 바이오마커 척도에 기반하여 분류되고, 여기서 샘플의 세 가지 방식 분류는 대상내, (i) 반응성 기도 질환 및 비-소세포 폐암; (ii) 반응성 기도 질환의 존재 또는 부재; 및 (iii) 비-소세포 폐암의 존재 또는 부재의 징후를 구별하는 것을 보조하며; 따라서 대상은 세 가지 분류 중 두 가지에서 찾은 조건에 의존하여, (1) 반응성 기도 질환; (2) 비-소세포 폐암, 또는 (3) 질환의 부재를 갖는 것이 결정된다.
본 발명은 바이오마커 세트(set) 각각의 다수의 바이오마커 척도를 포함하는 검사 데이터를 분류하는 방법을 또한 제공하며, 방법은 포유류 검사 대상내 바이오마커 세트에 대한 다수의 바이오마커 척도를 포함하는 검사 데이터를 받는 단계; 이후 전자적으로 저장된 트레이닝 데이터 벡터 세트를 이용하여 트레이닝된 서포트 벡터 머신의 전자적 표현을 이용하여 검사 데이터를 평가하는 단계, 여기서 트레이닝 데이터 벡터 각각은 개별적인 포유류를 나타내고 포유류 각각에 대한 바이오마커 세트 중 바이오마커 각각의 바이오마커 척도를 포함하고, 추가로 트레이닝 데이터 벡터는 포유류 각각의 질환 상태에 대한 분류를 포함함; 그리고 최종적으로 평가 단계에 기반하여 포유류 검사 대상의 분류를 출력하는 단계를 포함한다. 바람직하게, 포유류 검사 대상은 인간이다. 또 다른 방식에서, 평가하는 단계는 전자적으로 저장된 트레이닝 데이터 벡터 세트에 접속하는 단계를 포함한다.
또 다른 방식에서, 본 발명은 서포트 벡터 머신을 트레이닝하는 방법을 제공하여 바이오마커 세트 각각의 다수의 바이오마커 척도를 포함하는 검사 데이터의 분류를 위한 모델을 만들고, 방법은 전자적으로 저장된 트레이닝 데이터 벡터 세트에 접속하는 단계, 여기서 트레이닝 데이터 벡터 각각은 개별적인 인간을 나타내고 인간 각각에 대한 바이오마커 세트 중 바이오마커 각각의 바이오마커 척도를 포함하며, 추가로 트레이닝 데이터 벡터 각각은 인간 각각의 질환 상태에 대한 분류를 포함함, 및 서포트 벡터 머신의 전자적 표현을 트레이닝하기 위해 전자적으로 저장된 트레이닝 데이터 벡터 세트를 이용하는 단계를 포함한다. 그 다음에, 본 발명은 인간 검사 대상내 바이오마커 세트에 대한 다수의 바이오마커 척도를 포함하는 검사 데이터를 받는 단계 및 트레이닝된 서포트 벡터 머신의 전자적 표현을 이용하여 검사 데이터를 평가하는 단계 (, 트레이닝된 서포트 벡터 머신에 의해 생성된 모델); 및 최종적으로 평가 단계에 기반하여 인간 검사 대상의 분류를 출력하는 단계를 제공한다.
또 다른 구체예에서, 본 발명은 바이오마커 세트 각각의 다수의 바이오마커 척도를 포함하는 검사 데이터를 분류하는 방법을 제공한다. 방법은 인간 검사 대상에 대한 검사 데이터를 받는 단계를 포함하고, 여기서 검사 데이터는 바이오마커 세트 중 적어도 바이오마커 각각의 바이오마커 척도를 포함한다. 또한 방법은 전자적으로 저장된 제1 트레이닝 데이터 벡터 세트를 이용하여 트레이닝된 서포트 벡터 머신의 전자적 표현을 이용하여 검사 데이터를 평가하는 단계를 포함하고, 여기서 제1 트레이닝 데이터 벡터 세트의 트레이닝 데이터 벡터 각각은 개별적인 인간을 나타내고 인간 각각에 대한 바이오마커 세트 중 적어도 바이오마커 각각의 바이오마커 척도를 포함한다. 또한 제1 트레이닝 데이터 벡터 세트의 트레이닝 데이터 벡터 각각은 인간 각각의 질병 상태에 대한 분류를 포함한다. 방법은 평가 단계에 기반하여 인간 검사 대상의 분류를 출력하는 단계를 추가로 포함한다. 이 구체예에서, 바이오마커 세트내 바이오마커 각각은 (A) 바이오마커 각각에 대한 두 그룹의 농도 척도의 주변 분포의 중심집중 경향의 함수에 따라서 가장 큰 것부터 가장 작은 것까지 순서화된 바이오마커의 초기 세그먼트(segment)에 있거나, 여기서 순서화된 바이오마커의 초기 세그먼트는 제2 트레이닝 데이터 벡터 세트의 정확한 분류 퍼센트에 대하여 순서화된 바이오마커의 다른 초기 세그먼트 중 최대이고, 그리고 제2 트레이닝 데이터 벡터 세트의 트레이닝 데이터 벡터 각각은 개별적인 인간을 나타내고 인간 각각에 대한 바이오마커 세트 중 적어도 바이오마커 각각의 바이오마커 척도를 포함하고, 추가로 제2 트레이닝 데이터 벡터 세트의 트레이닝 데이터 벡터 각각은 인간 각각의 질환 상태에 대한 분류를 포함함, 또는 (B) (A)에서 식별된 바이오마커의 초기 세그먼트내 바이오마커에 대한 일차(first order) 상호작용자이다.
전형적으로, 본 발명의 방법은 질환 상태의 존재 또는 부재에 대하여 검사 대상을 분류하며, 여기서 질환 상태는 바람직하게는 폐 질환, 더욱 바람직하게는 비-소세포 폐암 또는 반응성 기도 질환, 가령 천식이다. 바이오마커 척도는 실시예에서 설명된 바이오마커로부터 선택된 적어도 하나의 단백질의 혈장 농도 척도를 포함할 수 있다. 바람직하게, 바이오마커 척도는 적어도 4개의 별개의 바이오마커의 혈장 농도를 포함하거나 또안 대안으로 바이오마커 척도는 적어도 6개의 별개의 바이오마커 또는 심지어 적어도 10개의 별개의 바이오마커 또는 적어도 18개의 별개의 바이오마커의 혈장 농도를 포함한다. 트레이닝 벡터 세트는 적어도 30개의 벡터, 50개의 벡터, 또는 심지어 100개의 벡터를 포함할 수 있다. 하나의 방식에서, 분류기는 선형 커넬, 방사형 기반 커넬, 다항식 커넬, 균일 커넬, 삼각형 커넬, Epanechnikov 커넬, 사차 (바이웨이트(biweight)) 커넬, 트리큐브 (트리웨이트(triweight)) 커넬, 및 코사인 커넬에서 선택에서 선택된 하나 이상의 커넬 함수를 포함하는 서포트 벡터 머신이다. 또 다른 방식에서, 분류기는 가령, ID3 또는 C4.5에 기반한 초기 분류기로부터 AdaBoost를 이용하여 개발된다.
또한 본 발명은 바이오마커 세트 각각의 다수의 바이오 마커 척도를 포함하는 검사 데이터를 분류하기 위한 시스템을 제공하며, 여기서 시스템은 컴퓨터를 포함하고, 컴퓨터는 전자적으로 저장된 트레이닝 데이터 벡터 세트를 이용하여 트레이닝될 수 있는 서포트 벡터 머신의 전자적 발현을 포함하며, 여기서 트레이닝 데이터 벡터 각각은 개별적인 인간을 나타내고 인간 각각에 대한 바이오마커 세트 중 바이오마커 각각의 바이오마커 척도를 포함하고, 추가로 트레이닝 데이터 벡터 각각은 인간 각각의 질환 상태에 대한 분류를 포함하고, 전자적으로 저장된 트레이닝 데이터 벡터 세트는 컴퓨터와 작동가능하게 커플링되고, 또한 컴퓨터는 인간 검사 대상내 바이오마커 세트에 대한 다수의 바이오마커 척도를 포함하는 검사 데이터를 받기 위해 구성되고, 그리고 추가로 컴퓨터는 트레이닝 후 서포트 벡터 머신의 전자적 표현을 이용하여 검사 데이터를 평가하고 평가에 기반하여 인간 검사 대상의 분류를 출력하기 위해 구성된다.
또 다른 구체예에서, 본 발명은 바이오마커 세트 각각의 바이오마커 척도를 포함하는 검사 데이터를 분류하기 위한 시스템을 제공하며, 여기서 시스템은 검사 대상의 질환 상태에 대해 검사 데이터를 분류하기 위해 트레이닝된 서포트 벡터 머신의 전자적 표현을 차례로 포함하는 컴퓨터를 포함하며, 트레이닝은 전자적으로 저장된 트레이닝 데이터 벡터 세트에 기반하고, 트레이닝 데이터 벡터 각각은 개별적인 인간을 나타내고 인간 각각에 대한 바이오마커 세트 중 바이오마커 각각의 바이오마커 척도를 포함하고, 추가로 트레이닝 데이터 벡터는 인간 각각의 질환 상태에 대한 분류를 포함하며; 컴퓨터는 인간 검사 대상내 바이오마커 세트에 대한 다수의 바이오마커 척도를 포함하는 검사 데이터를 받기 위해 구성되고, 추가로 컴퓨터는 서포트 벡터 머신의 트레이닝된 전자적 표현을 이용하여 검사 데이터를 평가하고 평가에 기반하여 인간 검사 대상의 분류를 출력하기 위해 구성된다.
임의의 구체예에서, 본 발명의 시스템은 상기 설명된 임의의 방법을 수행하는 데에 적합하다. 특정한 방식에서, 시스템의 임의의 구체예에서 컴퓨터는 (a) 바이오마커 수퍼세트내 바이오마커 각각에 대하여, 바이오마커 각각에 대한 두 그룹의 농도 척도의 주변 분포 간의 거리를 계산, 여기서 다수의 거리가 발생됨; (b) 거리에 따라서 바이오마커 수퍼세트(superset)내 바이오마커를 순서화, 여기서 순서화된 바이오마커 세트가 발생됨; (c) 순서화된 바이오마커 세트의 다수의 초기 세그먼트 각각에 대하여, 트레이닝 데이터에 기반한 모델 정합(model fit)의 척도를 계산; (d) 모델 정합의 최대 척도에 따라서 순서화된 바이오마커 세트의 초기 세그먼트를 선택; 여기서 순서화된 바이오마커 세트의 바람직한 초기 세그먼트가 선택됨; (e) 바이오마커의 눌 세트로 시작해서, 순서화된 바이오마커 세트의 바람직한 초기 세그먼트로부터의 추가적인 바이오마커를 재귀적으로 첨가하여 바이오마커 서브세트(subset)를 만들기, 여기서 (1) 이의 첨가가 바람직한 초기 세그먼트에 남아있는 바이오마커 중에서 모델 정합을 최대로 개선시킨다면, 그리고 (2) 이의 첨가가 적어도 예정된 역치만큼 모델 정합을 개선시킨다면, 추가적인 바이오마커 각각은 존재하는 바이오마커 서브세트에 첨가됨; 및 (f) 추가적인 바이오마커가 예정된 역치만큼 모델 정합의 척도를 초과하는 모델 정합의 척도를 야기하지 않는 경우 존재하는 바이오마커 서브세트에 바이오마커를 첨가하는 것을 중지, 여기서 바이오마커 서브세트가 선택됨, 하기 위해 구성된 논리를 이용하여 바이오마커 수퍼세트로부터 바이오마커 세트를 선택하기 위해 추가로 구성될 수 있다.
본 명세서에서 제공된 방법 및 시스템은 전형적으로 90% 이상의 정확성 (가령, 감수성 및 특이성)을 가진 폐 병리 (가령, 암, 천식)를 진단하고 예측할 수 있다. 이들 결과는 폐 병리, 가령 비-소세포 폐암을 진단하고 예측하기 위한 현재 이용가능한 방법보다 유의적인 진보를 제공한다.
도면의 간단한 설명
도 1A은 실시예 1에서의 정상 (NO) 모집단내 바이오마커의 평균 형광 강도 수준, 그리고 표준 편차 및 상대 표준 편차를 보여준다.
도 1B는 실시예 1에서의 비-소세포 폐암 (LC) 모집단내 바이오마커의 평균 형광 강도 수준, 그리고 표준 편차 및 상대 표준 편차를 보여준다.
도 1C는 실시예 1에서의 천식 (AST) 모집단내 바이오마커의 평균 형광 강도 수준, 그리고 표준 편차 및 상대 표준 편차를 보여준다.
도 1D는 실시예 1에서의 AST 모집단 NO 모집단, LC 모집단 NO 모집단, 및 AST 모집단 LC 모집단내 바이오마커 각각에 대한 형광 강도의 평균에서의 변화 퍼센트를 보여준다.
도 2A는 실시예 1에서의 정상 (NO) 여성 모집단내 바이오마커의 평균 형광 강도 수준, 그리고 표준 편차 및 상대 표준 편차를 보여준다.
도 2B는 실시예 1에서의 비-소세포 폐암 (LC) 여성 모집단내 바이오마커의 평균 형광 강도 수준, 그리고 표준 편차 및 상대 표준 편차를 보여준다.
도 2C는 실시예 1에서의 천식 (AST) 여성 모집단내 바이오마커의 평균 형광 강도 수준, 그리고 표준 편차 및 상대 표준 편차를 보여준다.
도 2D는 실시예 1에서의 AST 모집단 NO 여성 모집단, LC 모집단 NO 여성 모집단, 및 AST 모집단 LC 여성 모집단내 바이오마커 각각에 대한 형광 강도의 평균에서의 변화 퍼센트를 보여준다.
도 3A는 실시예 1에서의 정상 (NO) 남성 모집단내 바이오마커의 평균 형광 강도 수준, 그리고 표준 편차 및 상대 표준 편차를 보여준다.
도 3B는 실시예 1에서의 비-소세포 폐암 (LC) 남성 모집단내 바이오마커의 평균 형광 강도 수준, 그리고 표준 편차 및 상대 표준 편차를 보여준다.
도 3C는 실시예 1에서의 천식 (AST) 남성 모집단내 바이오마커의 평균 형광 강도 수준, 그리고 표준 편차 및 상대 표준 편차를 보여준다.
도 3D는 실시예 1에서의 AST 모집단 NO 남성 모집단, LC 모집단 NO 남성 모집단, 및 AST 모집단 LC 남성 모집단내 바이오마커 각각에 대한 형광 강도의 평균에서의 변화 퍼센트를 보여준다.
도 4는 실시예 1에서의 AST 여성 모집단과 비교하여 AST 남성 모집단, LC 여성 모집단과 비교하여 LC 남성 모집단, 및 NO 여성 모집단과 비교하여 NO 남성 모집단내 바이오마커 각각에 대해 형광 강도의 평균에서의 변화 퍼센트를 보여준다.
도 5는 HGF (간세포 성장 인자)에 대한 다양한 분자의 관계를 보여준다. 이 도면은 ARIADNE PATHWAY STUDIO®에 의해 만들어졌다.
도 6은 Adaboost에 대한 ROC 커브를 보여준다.
도 7은 SVM에 대한 ROC 커브를 보여준다.
도 8은 남성에 대해 제한이 있는 Adaboost에 대한 ROC 커브를 보여준다.
도 9는 여성에 대해 제한이 있는 Adaboost에 대한 ROC 커브를 보여준다.
도 10은 Adaboost 모델에 기반한 가변적인 선택 플롯(plot)을 보여준다.
도 11은 남성에 대한 Adaboost 모델에 기반하여 가변적인 선택 플롯을 보여준다.
도 12는 여성에 대한 Adaboost 모델에 기반하여 가변적인 선택 플롯을 보여준다.
도 13은 Adaboost 모델의 정확성 분포를 보여준다.
도 14는 Adaboost 모델의 감수성 분포를 보여준다.
도 15는 Adaboost 모델의 특이성 분포를 보여준다.
본 발명의 상세한 설명
본 발명은 바이오마커를 이용한 폐 질환의 탐지, 식별, 및 진단의 다양한 방법과 관련된다. 이들 방법은 대상이 비-소세포 폐암 및/또는 반응성 기도 질환 (가령, 천식, 만성 폐쇄성 폐 질환 등)을 가질 가능성을 결정하기 위해 특이적 바이오마커의 바이오마커 척도를 측정하는 단계 및 분류 시스템에서 이들 바이오마커 척도를 이용하는 단계를 포함한다. 또한 본 발명은 폐 질환의 가능성을 결정하는 것을 보조하기 위한 시스템의 구성요소로서, 이들 바이오마커를 탐지하기 위한 탐지제를 포함한 키트, 또는 이들 바이오마커의 바이오마커 척도를 측정하기 위한 수단을 포함한다.
예시적인 바이오마커는 내과 의사에 의해 확인된 바와 같이, 비-소세포 폐암 또는 천식인 것으로 진단받은 모집단에서의 환자, 그리고 비-소세포 폐암 및/또는 천식으로 진단받은 환자의 혈장내 59개의 선택된 바이오마커의 발현 수준을 측정함으로써 식별되었다. 이 방법은 실시예 1에서 상세설명된다.
정의
본 명세서에서 사용된 바와 같이, "바이오마커" 또는 "마커"는 생물학적 시스템의 생리학적 상태의 특징적인 지표로서 객관적으로 측정될 수 있는 생물학적 분자이다. 본 개시의 목적을 위하여, 생물학적 분자는 이온, 소분자, 펩티드, 단백질, 번역-후 변형 함유 펩티드 및 단백질, 뉴클레오시드, RNA 및 DNA를 포함한 뉴클레오티드 및 폴리뉴클레오티드, 글리코단백질, 리포단백질, 그리고 다양한 공유 및 비-공유 변형의 이들 유형의 분자를 포함한다. 생물학적 분자는 생물학적 시스템의 기능에 고유한, 특징적인, 및/또는 필수적인 임의의 이들 독립체를 포함한다. 다수의 바이오마커는 폴리펩티드이지만, 그들은 또한 폴리펩티드로서 발현된 유전자 산물의 번역-후 형태로 나타나는 mRNA 또는 변형된 mRNA일 수 있거나, 폴리펩티드의 번역-후 변형을 포함할 수 있다.
본 명세서에서 사용된 바와 같이, "바이오마커 척도(biomarker measure)"는 질환의 존재 또는 부재를 특징짓는 데에 유용한 바이오마커와 관련된 정보이다. 이러한 정보는 농도이거나 또는 농도에 비례하거나, 그렇지 않으면 조직 또는 생물학적 유동체내 바이오마커 발현의 정성적 또는 정량적 징후를 제공하는 측정된 값을 포함할 수 있다. 바이오마커 각각은 벡터 공간의 차원으로서 나타날 수 있으며, 여기서 벡터 각각은 특정한 대상과 연관된 다수의 바이오마커 척도로 구성된다.
본 명세서에서 사용된 바와 같이, "서브세트"은 적절한 서브세트이고, "수퍼세트"는 적절한 수퍼세트이다.
본 명세서에서 사용된 바와 같이, "대상"은 임의의 동물을 의미하지만, 바람직하게는 포유류, 예를 들면, 인간이다. 많은 구체예에서, 대상은 폐 질환을 가진, 또는 가질 위험이 있는 인간 환자일 것이다.
본 명세서에서 사용된 바와 같이, "생리학적 샘플"은 생물학적 유동체 및 조직으로부터의 샘플을 포함한다. 생물학적 유동체는 전체 혈액, 혈장, 혈청, 가래, 오줌, 땀, 림프, 및 폐포 세정을 포함한다. 조직 샘플은 고형 폐 조직 또는 기타 고형 조직으로부터의 생검, 림프절 생검 조직, 전이성 병소의 생검을 포함한다. 생리학적 샘플을 얻는 방법은 잘 알려져 있다.
본 명세서에서 사용된 바와 같이, "탐지제(detection agent)"는 본 명세서에서 설명된 바이오마커를 특이적으로 탐지하는 시약 및 시스템을 포함한다. 탐지제는 시약, 가령 관심 샘플에 존재할 수 있는 특정 마커 또는 다른 마커를 구별하는 데에 충분한 특정 마커 또는 마커들에 대하여 특이적인 친화도를 갖는 항체, 핵산 프로브, 압타머(aptamer),렉틴, 또는 기타 시약, 및 상기 설명된 바와 같은 결합의 용도를 만드는 센서 또는 그렇지 않으면 고정화 시약을 포함하는 센서와 같은 시스템을 포함한다.
일차 상호작용자
생명을 유지하기 위해 필수적인 다수의 세포 및 유기체의 생리학적 기능을 촉진하고 조절하기 위해서, 생물학적 분자는 서로 상호작용해야만 한다. 이들 상호작용은 통신(communication)의 유형으로 간주될 수 있다. 이 통신에서 다양한 생물학적 분자는 메시지로 간주될 수 있다. 이들 분자는, 그들의 신호 전달 기능의 필수적인 부분으로서, 생물학적 분자의 기타 유형을 포함하는 매우 다양한 표지와 필수적으로 상호작용한다.
상호작용 분자의 한 가지 유형은 일반적으로 수용체로서 공지된다. 이러한 수용체는 분자와 또한 상호작용하는 리간드를 결합시킨다. 직접적인 분자간 상호작용의 또 다른 유형은 효소에 보조-인자 또는 알로스테릭(allosteric) 효과기의 결합이다. 이들 분자간 상호작용은 함께 작동하여 세포 및 유기체의 필수적인 삶의 기능을 수행하고 조절하는 신호전달 분자의 네트워크를 형성한다. 이들 상호작용 분자 각각은 본 발명의 전문용어 내에 있는 바이오마커이다. 본 발명의 특정한 바이오마커는 특정한 바이오마커 수준과 협동하는 방식으로 수준이 증가하거나 감소한 기타 바이오마커와 생리학적으로 연결된다. 이들 기타 연결된 바이오마커는 본 발명의 특정한 바이오마커와 관련하여 "일차 상호작용자"로 불린다.
"일차 상호작용자"는 특정한 생물학적 분자와 직접적으로 상호작용하는 이들 분자 독립체이다. 예를 들면, 약물 모르핀은 아편 수용체와 직접적으로 상호작용하며 이는 궁극적으로 통증 감각의 약화를 야기한다. 따라서, 아편 수용체는 "일차 상호작용자"의 정의 하에 일차 상호작용자이다. 일차 상호작용자는 그들이 상호작용하는 통신 경로에서 상기 바이오마커의 업스트림 및 다운스트림 바로 옆자리 이웃을 포함한다. 이들 독립체는 직접적인 (또는 간접적인) 조절, 발현, 화학 반응, 분자 합성, 결합, 프로모터 결합, 단백질 변형 및 분자 수송을 포함하지만 이에 제한되지 않는 관계에 의해 연결될 수 있는 단백질, 핵산 및 소분자를 포함한다. 수준이 협동되는 바이오마커의 그룹은 해당 분야의 통상의 기술자와 생리학 및 세포 생물학에 대해 많이 아는 사람들에게 잘 공지된다. 실제로, 특정한 바이오마커에 대한 일차 상호작용자는 해당 분야에서 공지되고 여러 가지 데이터베이스 및 이용가능한 생물정보학 소프트웨어, 가령 ARIADNE PATHWAY STUDIO®, ExPASY Proteomics Server Qlucore Omics Explorer, Protein Prospector, PQuad, ChEMBL 등을 사용하여 찾을 수 있다. (가령, ARIADNE PATHWAY STUDIO®, Ariadne, Inc., <www.ariadne.genomics.com> 또는 ChEMBL Database, European Bioinformatics Institute, European Molecular Biology Laboratory, <www.ebi.ac.uk>를 참조).
일차 상호작용자 바이오마커는 발현 수준이 또 다른 바이오마커와 협동하는 것들이다. 따라서, 특정한 바이오마커의 수준에 관한 정보 ("바이오마커 척도")는 특정한 바이오마커와 협동된 일차 상호작용자의 수준을 측정하는 것으로부터 유래된다. 통상의 기술자는 특정한 바이오마커 대신에 또는 이외에 이용된 일차 상호작용자의 수준이 특정 바이오마커의 행동과 일치하여 정의되고 재현가능한 방식으로 다양할 것이라는 점을 당연히 확인할 것이다.
본 발명은 본 명세서에서 설명된 임의의 방법이 대안적으로, 특정한 바이오마커의 일차 상호작용자를 이용하여 수행될 수 있다는 점을 제공한다. 예를 들어, 본 발명의 몇 가지 구체예는 HGF의 바이오마커 척도를 측정하는 단계를 포함하는 생리학적 특징규명 방법에 대해 제공한다. 이와 같이, 본 발명은 HGF의 일차 상호작용자의 바이오마커 척도를 측정하는 단계를 포함하는 생리학적 특징규명 방법에 대해 또한 제공한다. HGF의 일차 상호작용자는 도 5에서 식별된 것들 (가령, INS, EGF, MIF)을 포함하지만, 이에 제한되지 않는다. 이에 따라서, 본 발명의 간주 내에, 특정한 바이오마커 척도는 특정한 바이오마커의 일차 상호작용자로 치환될 수 있다.
바이오마커 척도 결정
바이오마커 척도는 전형적으로 단백질 또는 폴리펩티드인, 발현 산물의 정량적 측정과 일반적으로 관련된 정보이다. 본 발명은 RNA (번역-전) 또는 단백질 수준 (전사-후 변형을 포함할 수도 있음)에서의 바이오마커 척도를 측정하는 것을 고려한다. 특정하게, 본 발명은 전사, 번역, 전사-후 변형, 또는 단백질 분해의 규모 또는 정도의 수준에서 증가 또는 감소를 반영하는 바이오마커 농도에서의 변화를 측정하는 것을 고려하고, 여기서 이들 변화는 특정한 질환 상태 또는 질환의 진행과 연관된다.
정상적인 대상에 의해 발현되는 많은 단백질은 질환 또는 질병, 가령 비-소세포 폐암 또는 천식을 가진 대상에서 더 큰 정도 또는 더 적은 정도로 발현될 것이다. 해당 분야의 통상의 기술자는 대부분의 질환이 다수의, 상이한 바이오마커에서 변화를 나타낸다는 점을 인식할 것이다. 이에 따라서, 질환은 다수의 마커의 발현 패턴에 의해 특징지어질 수 있다. 다수의 바이오마커에 대한 발현 수준의 측정은 발현 패턴의 관찰을 용이하게 하고, 이러한 패턴은 개별적인 바이오마커의 탐지보다 더욱 세심하고 더욱 정확한 진단을 제공한다. 패턴은 기타 특정 바이오마커에서 비정상적인 감소와 함께 동시에 몇 가지 특정 바이오마커의 비정상적인 상승을 포함할 수 있다.
본 발명에 따라서, 생리학적 샘플은 샘플내 바이오마커 척도가 샘플이 수집된 대상에서 바이오마커의 농도에 비례한다는 점을 확인하는 방식으로 대상으로부터 수집된다. 측정된 값이 샘플내 바이오마커의 농도와 비례하도록 측정이 이루어진다. 이들 조건을 만족하는 샘플 추출 기술 및 측정 기술을 선택하는 것은 해당 분야의 통상의 기술자에게 있다.
통상의 기술자는 바이오마커 척도를 측정하기 위한 다양한 방법이 개별적인 바이오마커에 대해 해당 분야에서 공지된다는 점을 이해할 것이다. Instrumental Methods of Analysis, Seventh Edition, 1988을 참조한다. 이러한 결정은 멀티플렉스(multiplex) 또는 매트릭스-기반 형식, 가령 다중화된 면역어세이로 수행될 수 있다.
바이오마커 척도를 측정하는 수많은 방법이 해당 분야에서 공지된다. 이러한 결정을 위한 방식은 방사-면역 어세이, 효소-결합 면역흡착 어세이 (ELISA), 가시적인 또는 자외선 빛을 통한 방사측정 또는 분광계 탐지를 이용한 고압 액체 크로마토그래피, 질량 분광계 정성적 및 정량적 분석, 웨스턴 블롯팅, 방사능, 형광, 또는 화학발광 프로브 또는 핵산의 탐지 수단에 의해 정량적으로 가시화되는 1 또는 2 차원 겔 전기영동, 흡수성 또는 형광 광도측정을 이용한 항체-기반 탐지, 임의의 많은 화학발광 리포터 시스템의 발광에 의한 양의 측정, 효소 어세이, 면역침전 또는 면역-포획 어세이, 고체 및 액체 상 면역어세이, 단백질 어레이 또는 칩, DNA 어레이 또는 칩, 플레이트 어세이, 측정을 허용하는 결합 친화도를 갖는 분자, 가령 압타머 및 분자 각인 폴리머를 이용하는 어세이, 및 임의의 기타 적합한 기술에 의한 바이오마커 농도의 임의의 기타 정량 분석적 측정, 그리고 임의의 설명된 탐지 기술 또는 기기 장치의 기기 작동을 포함하지만, 이에 제한되지 않는다.
바이오마커 척도를 측정하는 단계는 해당 분야에 공지된 임의의 수단, 특히 상기 논의된 이들 수단에 의해 수행될 수 있다. 바람직한 구체예에서, 바이오마커 척도를 측정하는 단계는 항체를 이용한 면역어세이를 수행하는 단계를 포함한다. 해당 분야의 통상의 기술자는 본 발명에서 사용하기 위한 적절한 항체를 쉽게 선택할 수 있다. 선택된 항체는 관심 항원에 대해 바람직하게도 선택적이고 (, 특정한 바이오마커에 대해 선택점임) 상기 항원에 대해 높은 결합 특이성을 가지고, 그리고 다른 항원과 최소한의 교차-반응성을 갖는다. 관심 항원에 결합하는 항체의 능력은 예를 들어, 효소-결합 면역흡착 어세이 (ELISA), 유동 세포계수법, 및 면역조직화학과 같은 공지된 방법에 의해 측정될 수 있다. 더욱이, 항체는 관심 항원에 대해 상대적으로 높은 결합 특이성을 가져야 한다. 항체의 결합 특이성은 공지된 방법, 가령 면역침전에 의해 또는 시험관내 결합 어세이, 가령 방사면역어세이 (RIA) 또는 ELISA에 의해 측정될 수 있다. 관심 항원을 높은 결합 특이성 및 최소한의 교차-반응성으로 결합시킬 수 있는 항체를 선택하기 위한 방법의 개시가 예를 들어, 미국 특허 번호 제7,288,249호에서 제공되며, 상기 문헌은 이의 전체로 참조로서 본 명세서에 편입된다. 폐 질환에 대한 바이오마커의 바이오마커 척도는 분류 스템, 가령 서포트 벡터 머신에 대한 입력으로서 사용될 수 있다.
각각의 바이오마커는 벡터 공간의 차원으로서 나타날 수 있으며, 여기서 각각의 벡터는 특정한 대상과 연관된 다수의 바이오마커 척도로 구성된다. 따라서, 벡터 공간의 차원수는 바이오마커 세트의 크기와 상응한다. 다수의 바이오마커의 바이오마커 척도의 패턴은 다양한 진단 및 예측 방법에서 이용될 수 있다. 본 발명은 이러한 방법을 제공한다. 예시적인 방법은 분류 시스템, 가령 서포트 벡터 머신을 포함한다.
분류 시스템
본 발명은 다른 것들 중에서, 다수의 계속적으로 분포된 바이오마커에 기반하여 암 또는 천식으로서 폐 병리를 예측하는 것과 관련된다. 몇 가지 분류 시스템에 대하여 (가령, 서포트 벡터 머신), 예측은 3-단계 과정일 수 있다. 첫 번째 단계에서, 분류기는 미리-결정된 데이터 세트를 설명함으로써 형성된다. 이것은 "학습 단계"이고 "트레이닝(training)" 데이터로 수행된다.
트레이닝 데이터베이스는 인간 각각의 질환 상태에 대한 분류와 연관된 다수의 인간에 대하여 다수의 바이오마커 척도를 반영하는 데이터의 컴퓨터-시행된 저장이다. 저장된 데이터의 형식은 단층 파일, 데이터베이스, 표, 또는 해당 분야에서 공지된 임의의 기타 복구가능한 데이터 저장고 형식일 수 있다. 예시적인 구체예에서, 검사 데이터는 다수의 벡터로서 저장되고, 벡터 각각은 개별적인 인간과 상응하고, 벡터 각각은 인간의 질환 상태에 대한 분류와 함께 다수의 바이오마커에 대한 다수의 바이오마커 척도를 포함한다. 전형적으로, 벡터 각각은 다수의 바이오마커 척도에서 바이오마커 척도 각각에 대한 엔트리(entry)를 함유한다. 트레이닝 데이터베이스는 이의 내용물이 공인된 독립체 (가령, 인간 이용자 또는 컴퓨터 프로그램)에 의해 원격으로 복구될 수 있도록 네트워크, 가령 인터넷에 연결될 수 있다. 대안으로, 트레이닝 데이터베이스는 네트워크-분리 컴퓨터에 위치될 수 있다.
선택적인 두 번째 단계에서, 분류기는 "검증" 데이터베이스로 적용되고 그리고 감수성 및 특이성을 포함한, 다양한 정확성 척도가 관찰된다. 예시적인 구체예에서, 트레이닝 데이터베이스의 단지 일부가 학습 단계를 위해 이용되고, 트레이닝 데이터베이스의 남아있는 부분은 검증 데이터베이스로서 이용된다. 세 번째 단계에서, 대상으로부터의 바이오마커 척도는 분류 시스템에 제시되고, 이는 대상에 대해 계산된 분류 (가령, 질환 상태)를 출력한다.
여러 가지 방법은 결정 트리, Bayesian 분류기, Bayesian 신뢰성 네트워크, k-최근접 이웃 분류기, 사례-기반 추론, 및 서포트 벡터 머신을 포함한 분류기를 형성하는 것에 대해 해당 분야에서 공지된다 (Han J & Kamber M, 2006, Chapter 6, Data Mining, Concepts and Techniques, 2nd Ed. Elsevier: Amsterdam.). 바람직한 구체예에서, 본 발명은 서포트 벡터 머신의 용도와 관련된다. 하지만, 본 명세서에서 설명된 바와 같이, 해당 분야에서 공지된 임의의 분류 시스템이 사용될 수 있다.
서포트 벡터 머신
서포트 벡터 머신 (support vector machine, SVM)은 해당 분야에서 공지된다. 예를 들어, 의학적 질병 발생을 진단하고 예측하는 방법은 서포트 벡터 머신을 이용하여 제안되어왔다. 가령, 미국 특허 번호 제7,505,948호; 제7,617,163호; 및 제7,676,442호를 참조하고, 상기 문헌은 이들의 전체로 참조로서 본 명세서에 편입된다.
일반적으로, SVM은 대상 당 바이오마커 측정의 한 가지 k-차원 벡터 (k-투플이라고 불림)에 기반하여 둘 이상의 질환 카테고리로 n 명의 대상 각각을 분류하는 데에서 이용하기 위한 모델을 제공한다. SVM은 먼저, 커넬 함수를 이용하여 k-투플을 동일하거나 더 높은 차원의 공간 내로 변형시킨다. 커넬 함수는 카테고리가 초평면을 이용하여 원래의 데이터 공간에서 가능한 것보다 더 분리될 수 있는 공간 내로 데이터를 투영시킨다. 카테고리 간에 어떤 것을 구별해야 할지에 대해 초평면을 결정하기 위하여, 질환 카테고리 사이의 경계에 가장 가깝게 있는 서포트 벡터 세트가 선택될 수 있다. 이후 초평면은 서포트 벡터와 초평면 사이의 거리가 부정확한 예측을 불리하게 하는 비용함수의 경계 내에서 최대가 되도록 공지된 SVM 기술에 의해 선택된다. 이 초평면은 예측에 관하여 데이터를 선택적으로 분리시키는 것이다 (Vapnik, 1998 Statistical Learning Theory. New York: Wiley). 이후 임의의 새로운 관찰결과는 관찰결과가 초평면에 관해 있는 것에 기반하여, 관심 카테고리 중 임의의 하나에 속하는 것으로서 분류된다. 두 개 이상의 카테고리가 고려될 때, 모든 카테고리에 대하여 쌍으로 프로세스(process)가 수행되고 이들 결과는 결합되어 모든 카테고리를 구별하기 위한 규칙을 형성한다.
예시적인 구체예에서, Gaussian Radial Basis Function (RBF)1 [1RBF 함수는 k(x,x') = exp(-σ∥x-x'∥2)이고 여기서 x 및 x'는 두 개의 k-투플이다.] (Vapnik, 1998)로서 공지된 커넬 함수가 이용된다. 다수의 다른 정의된 커넬 함수, 가령 다항식 또는 S자형(sigmoid) 커넬 중 어느 것을 선택해야 할지에 대해 어떠한 선험적 지식도 존재하지 않을 때 RBF가 종종 이용된다 (Han J. & Kamber M., page 343). RBF는 본래의 공간을 무한 차원의 새로운 공간 내로 투영시킨다. R 통계적 언어로 본 주제 및 이의 실행의 논의는 Karatzoglou et al.에 있다 (Support Vector Machines in R. Journal of Statistical Software, 2006)). 본 명세서에서 설명된 모든 SVM 통계적 계산은 통계적 소프트웨어 프로그래밍 언어 및 환경 R 2.10.0을 이용하여 수행되었다 (www.r-project.org). SVM는 kernlab 패키지내 ksvm() 함수를 이용하여 정합되었다.
다음 설명은 서포트 벡터 머신에 대한 몇 가지 표기법 (Cristianini N, Shawe-Taylor J. An Introduction to Support Vector Machines and other kernel-based learning methods, 2000, p. 106), 그리고 서포트 벡터 머신이 다수의 그룹으로부터의 관찰결과를 구별하는 방법의 개요를 제공한다.
주어진 트레이닝 샘플 또는 트레이닝 데이터 베이스가 제공된다.
Figure 112013109183583-pct00001
여기서, i=1,...,l, x i 는 바이오마커 척도의 벡터이고 y i 는 그룹의 지표이며, 여기서 x i 는 (가령, 정상, 비-소세포 폐암, 천식)에 속하고, 특징 공간은 커넬 K (x,z)에 의해 함축적으로 정의된다. 파라미터 α*가 다음 2차 최적화 문제를 해결하는 것으로 가정한다:
Figure 112013109183583-pct00002
Figure 112013109183583-pct00003
이고,
여기서 b *는 α i * ≠0로 임의의 i에 대해
Figure 112013109183583-pct00004
이 되도록 선택된다.
Figure 112013109183583-pct00005
에 의해 주어진 결정 규칙은 다음 최적화 문제를 해결하는 커넬 K (x,z)에 의해 함축적으로 정의된 특징 공간내 초평면과 동일하고
Figure 112013109183583-pct00006
여기서 가변적인 슬랙,
Figure 112013109183583-pct00007
는 기하학적 마진(margin)에 관련하여 정의되고
Figure 112013109183583-pct00008
여기서 S v 는 α>0인 지수의 세트이다 (상응하는 x i 는 서포트 벡터로 불림).
데이터가 분류되어야 하는 그룹이 하나 이상 있다면, 모델은 특정한 그룹에 대해 투표한 서브-모델 각각을 가진 그룹 (일련의 서브-모델) 사이에서 쌍으로 정합된다. 관찰결과는 가장 많은 투표수를 가진 그룹에 속하는 것으로 결정된다.
본 발명의 새로운 측면을 형성하는 하나의 커넬 함수는 다음과 같이 정의된다:
Figure 112013109183583-pct00009
p는 벡터 x i 의 길이이고 v는 예정된 상수 (자유도)임.
(8)이 실제로 유효한 커넬인지 확인하기 위하여, l=2에 대한
Figure 112013109183583-pct00010
에서 정의된 매트릭스 K를 고려한다.
Figure 112013109183583-pct00011
를 언급함으로써 이 매트릭스는 양의 정부호(positive definite)인 것을 보여줄 수 있으며, 여기서 α1 및 α2x 1x 2에 대해 임의의 2차원 벡터 a의 요소이다. l=2인 경우에 대해 귀납법 및 유사한 논리로, 매트릭스 K는 양의 정부호인 것으로 밝혀지고, 그리고 머서(Mercer) 정리에 의해, 함수 K (x,z) 유효한 커넬 함수이다.
기타 적합한 커넬 함수는 선형 커넬, 방사형 기반 커넬, 다항식 커넬, 균일 커넬, 삼각형 커넬, Epanechnikov 커넬, 사차 (바이웨이트) 커넬, 트리큐브 (트리웨이트) 커넬, 및 코사인 커넬을 포함하지만, 이에 제한되지 않는다.
기타 분류 시스템
서포트 벡터 머신은 데이터 상에서 이용될 수 있는 많은 가능한 분류기 중 하나이다. 비-제한 예시를 통하여, 그리고 하기 논의된 바와 같이, 기타 방법, 가령 나이브 베이즈(Bayes) 분류기, 분류 트리, k-최근접 이웃 분류기 이 서포트 벡터 머신을 트레이닝하고 입증하는 데에 이용되는 동일한 데이터 상에서 이용될 수 있다.
나이브 베이즈 분류기
베이즈 분류기 세트는
Figure 112013109183583-pct00012
인 베이즈 정리에 기반한 분류기 세트이다.
이 유형의 모든 분류기는 관찰결과가 상기 관찰결과에 대한 데이터가 주어진 종류에 속할 확률을 찾고자 모색한다. 가장 높은 확률을 가진 종류는 각각의 새로운 관찰결과가 부여된 것이다.
이론적으로, 베이즈 분류기는 분류기 중에서 가장 낮은 오류율을 갖는다. 실행 시, 이러한 점은 베이즈 분류기에 적용할 때 데이터에 대한 가정에 위배되기 때문에 항상 발생하지는 않는다.
나이브 베이즈 분류기는 베이즈 분류기 중 한 가지 예시이다. 각각의 종류는 데이터가 주어진 기타 종류와는 관계가 없다는 가정을 함으로써 분류에서 이용되는 확률의 계산을 단순화한다.
나이브 베이즈 분류기는 분류의 주입 및 속도의 용이성 때문에 많은 탁월한 항-스팸 필터(anti-spam filter)에서 이용되지만, 요구되는 가정이 실행시 거의 충족되지 않는다는 결점이 있다.
본 명세서에서 논의된 바와 같은 나이브 베이즈 분류기를 실시하기 위한 도구는 통계적 소프트웨어 컴퓨팅 언어 및 환경, R에 대해 이용가능하다. 예를 들어, R 패키지 "e1071", 버전 1.5-25는 나이브 베이즈 분류기를 만들고, 프로세싱하고 그리고 이용하기 위한 도구를 포함한다.
신경망
신경망을 고려하기 위한 하나의 방식은 가중된 유향 그래프(weighted directed graph)와 같이, 여기서 가장자리 및 이들 무게는 영향력을 나타냄, 각각의 정점은 이것이 연결된 다른 정점 위에 있다는 점이다. 신경망에 대해 두 부분이 있다: 입력 층 (데이터로 형성됨) 및 출력 층 (값, 이 경우에서는 예측되어야 할 종류). 입력 층 및 출력 층 사이는 숨겨진 정점의 네트워크이다. 신경망이 설계되는 방식에 의존하여, 입력 층 및 출력 층 사이의 여러 가지 정점이 있을 수 있다.
신경망은 인공 지능 및 데이터 마이닝에서 광범위하게 이용되지만 모델인, 신경망 생성이 데이터에 과도하게 정합할 것이라는 위험성이 있다 (, 모델은 현재 데이터에 매우 잘 정합할 것이지만, 미래의 데이터에는 잘 정합하지 않을 것임). 본 명세서에서 논의된 바와 같은 신경망을 실시하기 위한 도구는 통계적 소프트웨어 컴퓨팅 언어 및 환경, R에 대해 이용가능하다. 예를 들어, R 패키지 "e1071", 버전 1.5-25는 신경망을 만들고, 프로세싱하고 그리고 이용하기 위한 도구를 포함한다.
k -최근접 이웃 분류기
최근접 이웃 분류기는 기억-기반 분류기의 서브세트이다. 이들은 새로운 관찰결과를 분류하기 위하여 트레이닝 세트 안에 무엇이 있는지를 "기억"해야만 하는 분류기이다. 최근접 이웃 분류기는 모델이 정합되어야하는 것을 요구하지 않는다.
k-최근접 이웃 (knn) 분류기를 만들기 위하여, 다음 단계가 수행된다:
1. 분류되어야 하는 관찰결과에서부터 트레이닝 세트내 각각의 관찰결과까지의 거리를 계산한다. 임의의 유효한 측정기준을 이용하여 거리가 계산되지만, Euclidian 및 Mahalanobis2 [2Mahalanobis 거리는 관찰결과내 변수 사이의 공분산을 고려하는 측정기준이다.] 거리가 종종 이용된다.
2. 그룹 각각에 속하는 k 최근접 관찰결과 중에서 관찰결과 수를 센다.
3. 가장 높은 수를 가진 그룹은 새로운 관찰결과가 부여되는 그룹이다.
최근접 이웃 알고리즘은 두 점 사이에서 거리가 계산되어야하지만 임의의 두 그룹 사이에서 임의로 거리를 정의함으로써 극복될 수 있는 요구 때문에 카테고리 데이터를 다루는 데에 있어 문제점을 가진다. 알고리즘의 이 종류는 또한 규모 및 측정기준에서의 변화에 민감하다. 이들 사안을 염두에 두고, 최근접 이웃 알고리즘은, 특히 대규모 데이터 세트에서 매우 강력할 수 있다.
본 명세서에서 논의된 바와 같은 k-최근접 이웃 분류기를 실시하기 위한 도구는 통계적 소프트웨어 컴퓨팅 언어 및 환경, R에 대해 이용가능하다. 예를 들어, R 패키지 "e1071", 버전 1.5-25는 k-최근접 이웃 분류기를 만들고, 프로세싱하고 그리고 이용하기 위한 도구를 포함한다.
분류 트리
분류 트리는 특징 선택을 갖춘 쉽게 해석가능한 분류기이다. 분류 트리는 서브공간 각각에서 한 가지 종류로부터 관찰 비율을 최대화하기 위하여 이러한 방식으로 데이터 공간을 재귀적으로 스플릿(split)한다.
데이터 공간을 재귀적으로 스플릿하는 프로세스는 정점 각각에서 검사되는 조건을 갖는 2진 트리(binary tree)를 형성한다. 새로운 관찰결과는 리프(leaf)에 도달할 때까지 트리의 가지에 따라서 분류된다. 리프 각각에서, 확률은 주어진 종류에 속하는 관찰결과에 부여된다. 가장 높은 확률을 가진 종류는 새로운 관찰결과가 분류되는 것이다.
분류 트리는 필수적으로 결정 트리이며, 상기 결정 트리의 속성은 통계적 언어로 프레임화된다. 그들은 매우 유동적이지만, 매우 잡음이 있다 (오차 분산은 기타 방법과 비교하여 큼).
본 명세서에서 논의된 바와 같은 분류 트리를 실시하기 위한 도구는 통계적 소프트웨어 컴퓨팅 언어 및 환경, R에 대해 이용가능하다. 예를 들어, R 패키지 "트리", 버전 1.0-28은 분류 트리를 만들고, 프로세싱하고 그리고 이용하기 위한 도구를 포함한다.
랜덤 포레스트(Random Forest)
분류 트리는 전형적으로 잡음이 있다. 랜덤 포레스트는 많은 트리의 평균을 취함으로써 이 잡음을 감소시키려고 시도한다. 그 결과는 분류 트리와 비교하여 오차가 분산을 감소시킨 분류기이다.
포레스트를 증가시키기 위해, 다음 알고리즘이 이용된다:
1. b=1 내지 B에 대하여, 여기서 B는 포레스트에서 증가되어야할 트리수임,
a. 부트스트랩(bootstrap) 샘플3 [3부트스트랩 샘플은 관찰된 데이터로부터 관찰된 데이터와 동일한 관찰결과 수로 교체하여 인출한 샘플이다.]을 인출함.
b. 부트스트랩 샘플 상에서, 분류 트리, T b 를 증가시킴.
2. 세트 { T b } 1 B 를 출력함. 이 세트가 랜덤 포레스트임.
랜덤 포레스트를 이용하여 새로운 관찰결과를 분류하기 위해, 랜덤 포레스트내 분류 트리 각각을 이용하여 새로운 관찰결과를 분류한다. 새로운 관찰결과가 분류 트리 중에서 가장 흔하게 분류되는 종류는 랜덤 포레스트가 새로운 관찰결과를 분류하는 종류이다.
랜덤 포레스트는 분류 트리에서 발견되는 많은 문제점을 감소시키지만, 판독성을 떨어뜨린다.
본 명세서에서 논의된 바와 같은 랜덤 포레스트를 실시하기 위한 도구는 통계적 소프트웨어 컴퓨팅 언어 및 환경, R에 대해 이용가능하다. 예를 들어, R 패키지 "랜덤 포레스트", 버전 4.6-2는 랜덤 포레스트를 만들고, 프로세싱하고 그리고 이용하기 위한 도구를 포함한다.
AdaBoost (적응 부스팅)
Adaboost는 대상 당 측정의 한 가지 k-차원 벡터 (k-투플로 불림)에 기반하여 각각의 n 명 대상을 둘 이상4 [4Adaboost는 관찰결과가 속할 수 있는 두 가지 카테고리가 있을 때만 기술적으로 작동한다. g>2 카테고리에 대하여, 그룹에 속하는 것 또는 그렇지 않은 것으로서 관찰결과를 분류하는 (g/2) 모델이 형성되어야 한다. 이후 이들 모델로부터의 결과는 결합되어 특정 관찰결과의 그룹 구성원 관계를 예측할 수 있다.]의 질환 카테고리로 분류하는 방식을 제공한다. AdaBoost는 랜덤보다는 낫지만, 불량하고, 예측 성능5 [5본 맥락에서 예측 성능은 잘못분류된 관찰결과의 비율로서 정의된다.]을 갖는 일련의 "약한" 분류기를 취하고 그리고 그들을 결합시켜 우수한 분류기를 만든다. Adaboost가 이용하는 약한 분류기는 분류 및 회귀 트리 (CART)이다. CART는 영역 내에 있는 새로운 관찰결과 모두가 특정한 카테고리 수준에 대해 부여되는 영역으로 데이터 공간을 재귀적으로 분할한다. Adaboost는 데이터세트의 가중된 버전에 기반하여 일련의 CART를 만들어내며, 여기서 무게는 이전 반복에서의 분류기의 성능에 의존한다 (Han J & Kamber M, (2006). Data Mining, Concepts and Techniques, 2nd Ed. Elsevier: Amsterdam).
데이터를 분류하는 방법
본 발명은 개체로부터 얻은 데이터 (검사 데이터, , 바이오마커 척도)를 분류하는 방법에 대해 제공한다. 이들 방법은 트레이닝 데이터를 준비하거나 얻는 단계, 그리고 상기 설명된 분류 시스템 중 하나를 이용하여, 개체로부터 얻은 검사 데이터를 평가하는 단계 (트레이닝 데이터와 비교하여)를 포함한다. 바람직한 분류 시스템은 학습 기계, 가령 서포트 벡터 머신 또는 AdaBoost 분류기이다. 분류 시스템은 검사 데이터에 기반하여 개체의 분류를 출력한다.
검사 데이터는 임의의 바이오마커 척도, 가령 다수의 바이오마커의 혈장 농도 측정일 수 있다. 한 가지 구체예에서, 본 발명은 다음을 포함하는 검사 데이터를 분류하는 방법을 제공하며, 검사 데이터는 바이오마커 세트 각각의 다수의 혈장 농도 척도인 바이오마커 척도를 포함한다: (a) 전자적으로 저장된 트레이닝 데이터 벡터 세트에 접속하는 단계, 여기서 트레이닝 데이터 벡터 각각 또는 k-투플은 개별적인 인간을 나타내고 바이오마커 척도, 가령 인간 각각에 대한 바이오마커 세트 각각의 혈장 농도 척도를 포함하고, 추가로 트레이닝 데이터는 인간 각각의 질환 상태에 대한 분류를 포함함; (b) 전자적으로 저장된 트레이닝 데이터 벡터 세트를 이용하여 서포트 벡터 머신의 전자적 표현을 트레이닝하는 단계; (c) 인간 검사 대상에 대한 다수의 혈장 농도 척도를 포함하는 검사 데이터를 받는 단계; (d) 서포트 벡터 머신의 전자적 표현을 이용하여 검사 데이터를 평가하는 단계; 및 (e) 평가 단계에 기반하여 인간 검사 대상의 분류를 출력하는 단계. 또 다른 구체예에서, 본 발명은 다음을 포함하는 검사 데이터를 분류하는 방법을 제공하고, 여기서 검사 데이터는 바이오마커 세트 각각의 다수의 혈장 농도 척도인 바이오마커를 포함한다: (a) 전자적으로 저장된 트레이닝 데이터 벡터 세트에 접속하는 단계, 여기서 트레이닝 데이터 벡터 각각 또는 k-투플은 개별적인 인간을 나타내고 바이오마커 척도, 가령 인간 각각에 대한 바이오마커 세트 각각의 혈장 농도 척도를 포함하고, 추가로 트레이닝 데이터는 인간 각각의 질환 상태에 대한 분류를 포함함; (b) 전자적으로 저장된 트레이닝 데이터 벡터 세트를 이용하여 Adaboost를 통한 분류기를 만드는 단계; (c) 인간 검사 대상에 대한 다수의 혈장 농도 척도를 포함하는 검사 데이터를 받는 단계; (d) AdaBoost 분류기를 이용하여 검사 데이터를 평가하는 단계; 및 (e) 평가 단계에 기반하여 인간 검사 대상의 분류를 출력하는 단계. 본 발명에 따른 출력하는 단계는 인간-판독가능 형태의 전자 표시(electronic display)에서 표시되는 단계를 포함한다.
질환 상태에 대한 분류는 질환 상태의 존재 또는 부재일 수 있다. 본 발명에 따른 질환 상태는 폐 질환, 가령 비-소세포 폐암 또는 반응성 기도 질환 (가령, 천식)일 수 있다.
트레이닝 벡터 세트는 적어도 20, 25, 20, 35, 50, 75, 100, 125, 150개 또는 그 이상의 벡터를 포함할 수 있다.
데이터를 분류하는 방법은 본 명세서에서 설명된 임의의 방법으로 이용될 수 있다는 점이 이해될 것이다. 특히, 본 명세서에서 설명된 데이터를 분류하는 방법은 생리학적 특징규명 방법 및 폐 질환, 가령 비-소세포 폐암 및 반응성 기도 질환 (가령, 천식)을 진단하는 방법에서 이용될 수 있다.
감소된 수의 바이오마커를 이용하여 데이터를 분류하는 단계
또한 본 발명은 감소된 바이오마커 세트를 포함하는 데이터 (가령 개체로부터 얻은 검사 데이터)를 분류하는 방법에 대해 제공한다. 즉, 트레이닝 데이터는 줄어들어 선택된 바이오마커 서브세트를 위한 바이오마커 척도의 서브세트를 외에 모두를 제외할 수 있다. 이와 같이, 검사 데이터는 동일한 선택된 바이오마커 세트로부터 바이오마커 척도의 서브세트로 제한될 수 있다.
한 가지 구체예에서, 본 발명은 다음을 포함하는 검사 데이터를 분류하는 방법을 제공하며, 여기서 검사 데이터는 바이오마커 세트 각각의 다수의 혈장 농도 척도인 바이오마커 척도를 포함한다: (a) 전자적으로 저장된 트레이닝 데이터 벡터 세트에 접속하는 단계, 여기서 트레이닝 데이터 벡터는 개별적인 인간을 나타내고 인간 각각에 대한 바이오마커 세트 중 바이오마커 각각의 바이오마커 척도를 포함하고, 추가로 트레이닝 데이터 벡터는 인간 각각의 질환 상태에 대한 분류를 포함함; (b) 바이오마커 세트로부터 바이오마커 서브세트를 선택하는 단계; (c) 전자적으로 저장된 트레이닝 데이터 벡터 세트의 바이오마커 서브세트로부터 데이터를 이용하여, 학습 기계, 가령 서포트 벡터 머신의 전자적 표현을 트레이닝하는 단계; (d) 인간 검사 대상에 대한 다수의 혈장 농도 척도를 포함하는 검사 데이터를 받는 단계; (d) 학습 기계의 전자적 표현을 이용하여 검사 데이터를 평가하는 단계; 및 (e) 평가 단계에 기반하여 인간 검사 대상의 분류를 출력하는 단계.
바람직한 구체예에서, 바이오마커 서브세트를 선택하는 단계는 다음을 포함한다: (i) 바이오마커 세트내 바이오마커 각각에 대하여, 두 그룹의 바이오마커 농도 척도의 주변 분포 간의 거리를 계산하는 단계, 여기서 다수의 거리가 발생됨; (ii) 거리에 따라서 바이오마커 세트내 바이오마커를 순서화하는 단계, 여기서 순서화된 바이오마커 세트가 발생됨; (iii) 순서화된 바이오마커 세트의 다수의 초기 세그먼트 각각에 대하여, 트레이닝 데이터에 기반한 학습 기계에 대한 모델 정합의 척도를 계산; (iv) 모델 정합의 최대 척도에 따라서 순서화된 바이오마커 세트의 초기 세그먼트를 선택하는 단계; 여기서 순서화된 바이오마커 세트의 바람직한 초기 세그먼트가 선택됨; (v) 바이오마커의 눌 세트로 시작해서, 순서화된 바이오마커 세트의 바람직한 초기 세그먼트로부터의 추가적인 바이오마커를 재귀적으로 첨가하여 바이오마커 서브세트를 만드는 단계, 여기서 (a) 이의 첨가가 바람직한 초기 세그먼트에 남아있는 바이오마커 중에서 모델 정합을 최대로 개선시킨다면, 그리고 (b) 이의 첨가가 적어도 예정된 역치만큼 모델 정합을 개선시킨다면, 추가적인 바이오마커 각각은 존재하는 바이오마커 서브세트에 첨가됨; 및 (vi) 추가적인 바이오마커가 예정된 역치만큼 모델 정합의 척도를 초과하는 모델 정합의 척도를 야기하지 않는 경우 존재하는 바이오마커 서브세트에 바이오마커를 첨가하는 것을 중지하는 단계, 여기서 바이오마커 서브세트가 선택됨.
본 명세서에서 설명된 방법, 키트, 및 시스템은 선택된 다수의 바이오마커의 바이오마커 척도를 측정하는 단계를 포함한다. 바람직한 방식에서, 방법은 실시예에서 설명된 바이오마커 중 임의의 3개의 특정한 바이오마커의 서브세트의 바이오마커 척도를 측정하는 단계를 포함한다. 대안으로, 방법은 실시예에서 설명된 바이오마커 중 적어도 4, 5, 6, 또는 7개의 특정한 바이오마커의 서브세트의 바이오마커 척도를 측정하는 단계를 포함한다. 대안으로, 방법은 실시예에서 설명된 바이오마커 중 적어도 8, 9, 10, 11, 12, 또는 13개의 특정한 바이오마커의 서브세트의 바이오마커 척도를 측정하는 단계를 포함한다. 대안으로, 방법은 실시예에서 설명된 바이오마커 중 적어도 14, 15, 16, 17, 18, 19, 20개 또는 그 이상의 (가령, 59개) 특정한 바이오마커의 서브세트의 바이오마커 척도를 측정하는 단계를 포함한다. 당연히, 통상의 기술자는 관심 질환과 연관되는지 안 되는지에 대해 추가적인 바이오마커의 바이오마커 척도를 동시에 결정하는 것이 본 발명의 계획 내에 있음을 인식할 것이다. 이들 추가적인 바이오마커 척도의 결정은 본 발명에 따른 대상의 분류를 방지하지 않을 것이다.
바이오마커 서브세트는 본 명세서에서 설명된 감소 방법을 이용함으로써 결정될 수 있다. 예를 들어, 본 발명은 모델 정합의 가장 높은 척도에 기여하고 따라서 높은 정확성의 예측가능성을 유지하는 바이오마커 서브세트를 찾기 위한 다양한 선택 알고리즘 (가령, F_SSFS)을 제공한다. 실시예 7-10은 특정한 바이오마커 서브세트의 감소된 모델을 보여준다.
바람직한 방식에서, 바이오마커는 모델 정합의 가장 높은 척도에 기여하는 바이오마커를 함유한 컴퓨터 계산 서브세트로부터 선택된다. 이들 바이오마커가 포함되는 한, 본 발명은 반드시 기여하지는 않는 어느 정도의 추가적인 바이오마커의 포함을 저해하지 않는다. 모델이 본 명세서에서 설명된 바와 같이 고안되는 한, 분류 모델에서 이러한 추가적인 바이오마커 척도를 포함하는 것도 검사 데이터의 분류를 저해하지 않을 것이다. 기타 구체예에서, 4, 5, 6, 7, 8, 9, 10, 12, 15, 20, 25, 30, 35, 40 또는 50 개 이하의 바이오마커의 바이오마커 척도가 대상에 대해 결정되며, 동일한 수의 바이오마커는 트레이닝 단계에서 이용된다.
또 다른 방식에서, 선택된 바이오마커는 모델 정합의 척도에 최소한으로 기여한 바이오마커가 제거된 컴퓨터 계산 서브세트로부터 선택된다. 이들 선택된 바이오마커가 포함되는 한, 본 발명은 반드시 기여하지는 않는 어느 정도의 추가적인 바이오마커의 포함을 저해하지 않는다. 모델이 본 명세서에서 설명된 바와 같이 고안되는 한, 분류 모델에서 이러한 추가적인 바이오마커를 포함하는 것도 검사 데이터의 분류를 저해하지 않을 것이다. 기타 구체예에서, 4, 5, 6, 7, 8, 9, 10, 12, 15, 20, 25, 30, 35, 40 또는 50 개 이하의 바이오마커의 바이오마커 척도가 대상에 대해 결정되며, 동일한 수의 바이오마커는 트레이닝 단계에서 이용된다.
본 명세서에서 설명된 바이오마커의 다양한 조합은 또한 키트를 설계하기 위한 방법 및 본 명세서에서 설명된 키트 및 시스템에 적용할 수 있다는 점이 또한 이해될 것이다. 또 다른 구체예에서, 트레이닝된 모델을 이용하여 관찰결과 또는 검사 데이터를 분류하기 위해, 학습 기계, 가령 서포트 벡터 머신에 의해 이용되는 바이오마커 수는 임의의 다수의 그룹으로 확장된 Lee의 F_SSFS 방법 (Lee, 2009)을 이용하여 감소된다. F_SSFS 방법은 (i) 모델에서 유지되어야할 좋은 후보자인 변수 세트를 결정하고; 그리고 (ii) 그룹 간의 변수값 사이의 분리를 정량화하는 그들의 F-점수6 [6가변적인 i th 의 F-점수는
Figure 112013109183583-pct00013
로서 정의되고, 여기서 g는 그룹 수이고 n j 는 그룹 j로부터의 관찰결과 수이다.]의 기반으로 후보자를 선택한다. 전진 모델 선택은 학습 기계 정확성에서 그들의 향상의 기반으로 모델에 첨가된 변수를 가진 이 가변적인 세트에 적용된다. 본 명세서에서 예시화된 바와 같이, 변수는 바이오마커이고 그룹은 폐 병리 카테고리이다. 예시적인 학습 기계는 SVM 및 AdaBoost 분류기를 포함한다.
바이오마커 서브세트를 선택하기 위한 상이한 기술이 현재 개시된다. 이 기술을 위한 예시적인 알고리즘은 다음 단계로 구성된다:
1. 다음은 트레이닝 데이터 벡터 세트와 관련되며, 이의 각각은 분류를 포함한다. 바이오마커, g r 각각에 대하여, 바이오마커 세트 G에서 r= 1,..., p는 트레이닝 데이터 벡터 각각과 연관된 실증적 분류에 의해 정의된 두 개의 그룹의 바이오마커 g r 내 주변 분포 간의 거리 측정기준을 계산한다,
Figure 112013109183583-pct00014
(11)에서, 용어 m은 고려사항 하에 그룹의 수이다. 서포트 벡터 머신과 같은 학습 기계를 이용한 대부분의 예시에서, m=2이다. 용어
Figure 112013109183583-pct00015
는 트레이닝 데이터 벡터 r 세트내 g r 의 바이오마커 척도의 중간값을 나타낸다. 용어
Figure 112013109183583-pct00016
는바이오마커 g r s-th 그룹의 중간값을 나타내며, 여기서 그룹 각각은 트레이닝 데이터 벡터 분류에 따라 정의된다. 용어 x r,s (0.75)x r,s (0.25)는 각각 (바이오마커 g r 에 대하여), s-th 그룹 분포의 상부 및 하부 사분위수를 나타낸다. s에 의해 인덱싱된(indexed) 두 개의 그룹을 정의하기 위해 실증적인 트레이닝 데이터 벡터 분류를 이용한 대안은 모든 바이오마커를 시행하여 별개의 그룹으로 트레이닝 벡터 각각을 분류하는 서포트 벡터 머신의 초기 런(run)을 이용하기 위함이라는 점에 주목한다.
2. (11)에서 따른 이들 평가에 따라서 가장 큰 것에서부터 가장 작은 것까지 바이오마커를 순서화한다.
3.
Figure 112013109183583-pct00017
에 의해 컷오프 인덱스 세트를 정의하며, 여기서 p는 벡터의 차원이다.
4. K t K 각각에 대하여, 트레이닝된 학습 기계와 연관된 모델내 제1 K t 바이오마커를 유지하고, 점수에 따라 순서화 (내림차순)하고, 그리고 모델 정합 (가령, 감수성 또는 정확성)의 척도를 계산한다. 다시 말해, 바이오마커의 초기 세그먼트를 유지하고, 모델에서 (11)에 따라 순서화하고, 그리고 모델 정합, 가령 정확하게-분류된 검사 벡터의 퍼센트의 척도를 계산한다. (모델 정합의 기타 척도는 정확성, 감수성, 특이성, 양성 예측값, 및 음성 예측값을 포함한다, 가령, 표 2를 참조) 이것은 KK t 에 대하여 바이오마커의 초기 세그먼트 각각 (, (11)에 따라 순서화된, 제1 바이오마커에서 최대 K t -th 바이오마커까지)에 대해 수행된다. K t 와 연관된 모델이 가장 높은 척도의 모델 정합을 갖도록 K'를 K t 가 되게 한다.
5.
Figure 112013109183583-pct00018
세트를 정의한다.
6. 바이오마커가 없는 모델로 시작하여, 각각 모델에 현재 없는 g r G'에 대하여, g r 을 첨가하고 모델 정합의 선택된 척도를 계산한다. 이후 바이오마커를 제거하고 세트내 다음 바이오마커를 첨가한다.
7. 단계 6에서, 모델 정합에서 가장 높은 주변 개선을 가지고, 그 개선이 예정된 역치 이상이라면, 바이오마커를 첨가한다. 예를 들어, 모델 정합 측정기준으로서 정확하게-분류된 검사 벡터의 퍼센트에 대하여, 역치는 0.0005, 0.0001, 0.005, 0.001, 0.05, 0.01, 0.5, 또는 0.1일 수 있다. 이전 문장에서, 수는 절대 수로서, 즉 퍼센트 없이 나타난다; 따라서, 예를 들면, 0.0005 = 0.05%.
8. 바이오마커가 단계 7에서 첨가된다면, 단계 5로 돌아간다. 그렇지 않으면, 알고리즘의 이전 반복으로부터의 세트, 또는 단계 7에서 정의된 바와 같은 첨가에 대한 기준에 바이오마커가 충족하지 않는다면 눌 세트는 모델에서 이용되기 위한 감소된 바이오마커 세트이다. 따라서, 단계 6 및 7의 제1 반복은 단일 바이오마커를 모델에 첨가하고 (바이오마커가 역치 기준을 충족하지 않는다면) 그리고 차후 반복 각각은 역치 기준에 따라 프로세스가 멈출 때까지 추가적인 바이오마커를 첨가한다. 이에 따라서, 단계 6-8은 감소된 바이오마커 세트를 선택하기 위한 재귀적 알고리즘을 제공한다.
따라서, 상기 단계 1과 2는 주변 분포에 따라서 바이오마커를 순서화하는 단계가 지시된다. 특히, 바이오마커는 트레이닝 벡터 세트내 두 그룹의 바이오마커 척도의 주변 분포의 중심집중 경향 (가령, 중간 값) 간의 거리에 따라서 순위 지정될 수 있다. (대체 중심집중 경향, 가령 최빈수(mode) 또는 평균이 중앙값 대신에 이용될 수 있다.) 그룹 각각은 분류에 상응하고, 이들 분류는 트레이닝 데이터 그 자체 내에 함유된 실증적 분류로부터 얻을 수 있거나, 또는 그들은 모든 바이오마커를 활용하는 학습 기계의 초기 런으로부터 얻을 수 있다. 따라서, 바이오마커는 두 개의 그룹 간의 바이오마커 척도의 구별 능력의 기능으로서 순위 지정되며, 여기서 두 개의 그룹은 실증적이거나 또는 학습 기계의 초기 런에 의해 발생되었는지에 대하여, 분류에 상응한다.
상기 단계 3, 4 및 5는 선택되는 초기 세그먼트가 다른 초기 세그먼트 중 트레이닝 벡터 세트에 대해 가장 최적의 모델 정합을 갖도록 주변-분포-점감적으로-순서화된 바이오마커의 초기 세그먼트를 선택하는 단계가 지시된다. 이 초기 세그먼트는 최종, 감소된 바이오마커 세트가 단계 6, 7 및 8에 따라 선택되는 바이오마커의 보편집합으로서 역할할 것이다.
단계 6, 7 및 8은 바이오마커가 없는 경우를 기반으로 시작하여, 바이오마커를 모델에 재귀적으로 첨가하는 단계가 지시된다. 연속적으로 첨가된 바이오마커는 그들의 주변-분포 순서와 관계없이 모델 정합에 대해 그들의 기여에 따라서 선택된다. 기본 단계는 모델 내에 있게 하기 위해 바이오마커의 공집합을 고려하기 위함이다. 재귀 단계에 대하여, 추가적인 바이오마커를 첨가할 지에 대하여 결정하기 위해, 학습 기계는 모델내 현재 바이오마커 세트와 함께 남아있는 바이오마커 각각을 위해 발생된다. 존재하는 바이오마커에 첨가될 때 가장 정확한 학습 기계에 상응하는 남아있는 바이오마커는 순차적인 첨가를 위한 후보자이다. 모델 정합에 대한 후보 바이오마커의 기여가 역치를 능가하는 한, 이는 차례대로 첨가된다. 순차적으로 첨가하는 바이오마커의 이러한 프로세스는 가장 양호한 남아있는 바이오마커가 예정된 역치를 넘어 모델 정합을 개선하는 것을 실패할 때까지 계속된다.
요약하자면, 이 프로세스는 단계 1-5에서 바이오마커의 초기 보편집합을 선택하는 것으로써 시작하고, 이후 단계 6, 7 및 8에 따라 이 보편집합으로부터 궁극적인 감소된 바이오마커 세트를 선택하기 위해 진행한다.
대안으로, 감소된 바이오마커 세트는 단계 5에서 정의된 수퍼세트가 되기 위해, 수퍼세트로부터의 바이오마커 각각을 첨가하는 대신, 바이오마커를 각각을 하나하나씩 제거하기 위해, 그리고 모델 정합의 척도를 계산하기 위해 단계 6에서 정의된 초기 모델을 변화시킴으로써 유래될 수 있다. 차후에, 모델 정합의 척도가 예정된 역치보다 크게 감소되지 않도록 모델 정합 척도의 최소한의 감소를 가진 바이오마커를 제거하기 위해 단계 7를 변화시킨다. 이후, 단계 8을 수행하고 여기서 중지 조건은 단계 7의 바이오마커 첨가의 결핍과는 대조적으로 단계 7의 바이오마커 제거의 결핍이 된다.
데이터로부터 추정된 바람직한 바이오마커 세트를 이용한 학습 기계를 제공하는 것 외에도, 상기 바이오마커 서브세트 선택 알고리즘은 고려되는 상기 바이오마커의 관련 및 연관성을 설명할 수 있다. 이를 성취하기 위해, 상기 알고리즘내 단계 7에서의 역치를 제거하고 알고리즘 반복 각각에서의 이전 반복에 의해 제시된 모델과 관련된 정확성에서 그들의 주변 개선의 순위 또는 반복 각각 및 이를 선행하는 반복 사이의 정확성의 증가에 따라 첨가된 바이오마커를 저장한다.
바이오마커의 감소된 세트 또는 서브세트를 이용한 데이터를 분류하는 방법은 본 명세서에서 설명된 임의의 방법에서 이용될 수 있다는 점이 이해될 것이다. 특히, 본 명세서에서 설명된 감소된 수의 바이오마커를 이용한 데이터를 분류하는 방법이 생리학적 특징규명을 위한 방법 및 폐 질환 가령, 비-소세포 폐암 및 반응성 기도 질환 (가령, 천식)을 진단하는 방법에서 이용될 수 있다. 감소된 수의 바이오마커 외에, 바이오마커가 또한 첨가될 수 있다. 이들 추가적인 바이오마커는 진단에 기여하거나 또는 진단을 증진시킬 수 있거나 그렇지 않을 수 있다.
진단 또는 예측 어세이에서 이용하기 위한 바이오마커 선택은 특정 바이오마커 및 그들의 일차 상호작용자 사이의 공지된 관계를 이용하여 용이하게 될 수 있다. 본 발명에 의해 식별된 많은 바이오마커는, 모두는 아니더라도, 세포 또는 유기체의 다양한 통신 경로에 참여한다. 정상으로부터의 통신 경로의 한 가지 구성 요소의 편차는 통신 경로의 기타 구성원에서 관련된 편차를 수반하는 것으로 예상된다. 통상의 기술자는 다양한 데이터베이스 및 이용가능한 생물정보학 소프트웨어 (가령, ARIADNE PATHWAY STUDIO®, Ariadne, Inc., <www.ariadne.genomics.com> 또는 ChEMBL Database, European Bioinformatics Institute, European Molecular Biology Laboratory, <www.ebi.ac.uk>를 참조)를 이용하여 통신 경로의 구성원을 쉽게 연결할 수 있다. 다수의 바이오마커 수준을 결정하는 것에 기반한 진단 방법은 바이오마커 수준을 측정함으로써 제공되는 정보를 최대화할 가능성이 있으며, 여기서 다수의 바이오마커는 대다수에서 다른 것과 동일한 통신 경로에 있지 않은 몇 가지 바이오마커를 포함한다. 대안적인 구체예에서, 선택된 서브세트내 임의의 바이오마커는 동일한 통신 경로로부터 또 다른 바이오마커로 대체될 수 있다 (, 바이오마커의 일차 상호작용자). 서포트 벡터 머신 구체예에서, 바이오마커에 대해 일차 상호작용자를 대체하는 것은 대체된 바이오척도를 이용하여 서포트 벡터 머신을 재-트레이닝하는 것을 포함할 수 있다.
생리학적 특징규명 방법
본 발명은 하기 설명된 바와 같은 다양한 모집단에서 개체의 생리학적 특징규명을 위한 방법이 지시된다. 본 명세서에서 이용된 바와 같이, 본 발명에 따른 생리학적 특징규명 방법은 특정한 폐 질환을 진단하는 방법, 개체가 치료적 개입에 반응을 보일 가능성을 예측하는 방법, 개체가 개별적 폐 질환에 대한 위험이 있는 지에 대해 측정하는 방법, 환자 질환의 심각한 정도를 카테고리화하기 위한 방법, 그리고 공통적으로 몇 가지 증상을 갖는 질환을 구분하기 위한 방법을 포함한다. 일반적으로, 이들 방법은 본 명세서에서 설명된 특정한 바이오마커의 바이오마커 척도를 측정하는 단계 및 분류 시스템, 가령 서포트 벡터 머신에서 이들 값을 이용하여 이들 생리학적 특성 중 하나에 따라 개체를 분류하는 단계에 의존한다.
A. 일반적 모집단을 특징규명하는 단계
본 발명은 대상의 생리학적 샘플내 다수의 바이오마커의 바이오마커 척도를 측정하는 단계를 포함하는, 대상에서 생리학적 특징규명 방법을 제공하며, 여기서 다수의 마커의 발현 패턴은 질환 상태 (가령, 비-소세포 폐암에서의 단계) 또는 조건에서의 변화 또는, 생리학적 상태 또는 조건과 연관된다. 바람직한 구체예에서, 다수의 바이오마커의 발현 패턴은 폐 질환, 가령 비-소세포 폐암 또는 반응성 기도 질환을 나타내거나, 또는 반응성 기도 질환 또는 비-소세포 폐암을 구별하는 것을 보조한다. 바람직하게, 다수의 바이오마커는 기계 학습 알고리즘, 가령 서포트 벡터 머신을 통하여 트레이닝 분석에 기반하여 선택된다. 트레이닝 데이터는 수많은 대상에 대한 다수의 바이오마커, 그리고 개별적인 대상에 대한 질환 카테고리화 정보 (가령, 방정식 (1)의 yi ), 그리고 선택적으로, 대상의 기타 특성, 가령 성별, 인종, 연령, 흡연 내력, 근무 경력 을 포함할 것이다. 또 다른 바람직한 구체예에서, 바이오마커의 발현 패턴은 대상이 특정한 질환 또는 질병을 가지거나 가질 수 있는 증가된 가능성과 연관된다. 더욱 바람직한 구체예에서, 대상에서 다수의 바이오마커의 바이오마커 척도를 측정하는 방법은 대상이 폐 질환, 가령 비-소세포 폐암 또는 반응성 기도 질환 (가령, 천식)을 발달시키거나, 가지거나 또는 가질 수 있는 가능성에서의 증가를 탐지한다. 발현 패턴은 패턴 인식을 위한 해당 분야에서 공지된 임의의 기술에 의해 특징규명될 수 있다. 다수의 바이오마커는 실시예 1에서 설명된 바이오마커의 임의의 조합을 포함할 수 있다.
한 가지 구체예에서, 대상은 비-소세포 암 또는 반응성 기도 질환 (가령, 천식, 만성 폐쇄성 폐 질환 )의 폐 질환에 대한 위험이 있다. "위험이 있는" 대상은 개인적인 또는 가족 병력, 행동, 질병-유발 물질에 노출 (가령, 발암물질), 또는 몇 가지 다른 원인때문에, 증상이 없지만 대부분의 모집단보다 질환을 발달시킬 가능성이 더 있는 이들 개체를 포함한다. "위험이 있는" 개체는 개체에 대해 측정된 위험 요인을 종합함으로써 전통적으로 식별된다. 본 발명은 관련된 바이오마커의 바이오마커 척도를 측정함으로써 "위험이 있는" 개체의 증진된 특성에 대해 제공한다.
상기 설명된 구체예는 실시예에서 설명된 바이오마커의 목록에 의해 예시화된다. 이들 바이오마커의 서브세트, 가령 실시예 1-9에서 설명된 것들은 임의의 설명된 구체예에서 이용될 수 있다는 점이 이해될 것이다. 다른 바이오마커에 대한 바이오마커 척도는 통상의 기술자의 재량에 포함될 수 있다.
B. 남성 모집단을 특징규명하는 단계
바람직한 구체예에서, 본 발명은 남성 대상의 생리학적 샘플내 다수의 바이오마커의 바이오마커 척도를 측정하는 단계를 포함하는 남성 대상에서 생리학적 특징규명 방법을 제공하며, 여기서 다수의 마커의 발현 패턴은 질환 상태 (가령, 비-소세포 폐암에서의 단계) 또는 조건에서의 변화 또는, 생리학적 상태 또는 조건과 연관된다. 또 다른 바람직한 구체예에서, 다수의 바이오마커의 발현 패턴은 폐 질환, 가령 비-소세포 폐암 또는 반응성 기도 질환을 나타내거나, 또는 반응성 기도 질환 또는 비-소세포 폐암을 구별하는 것을 보조한다. 바람직하게, 다수의 바이오마커는 문제의 질환 상태를 갖는 것으로서 식별된 다수의 남성 대상에 대한 및 질환을 갖지 않은 것으로 공지된 유사한 수에 대한 바이오마커 척도를 포함하는 트레이닝 데이터의 수집에 기반하여 선택된다. 이후 이들 트레이닝 데이터는 기계 학습 알고리즘, 가령 서포트 벡터 머신에 의해 분석된다. 발현 패턴은 패턴 인식을 위한 해당 분야에서 공지된 임의의 기술에 의해 특징규명될 수 있다. 다수의 바이오마커는 실시예 1-5 또는 7-8과 같은 실시예에서 설명된 바이오마커의 임의의 조합을 포함할 수 있다.
한 가지 구체예에서, 남성 대상은 비-소세포 암 또는 반응성 기도 질환 (가령, 천식, 만성 폐쇄성 폐 질환 )의 폐 질환에 대한 위험이 있다. "위험이 있는" 대상 및 개체는 상기 논의된다.
C. 여성 모집단을 특징규명하는 단계
본 발명은 또한 여성 대상에서 생리학적 특징규명 방법을 제공한다. 바람직한 구체예에서, 본 발명은 여성 대상의 생리학적 샘플내 다수의 바이오마커의 바이오마커 척도를 측정하는 단계를 포함하는 여성 대상에서 생리학적 특징규명 방법에 대해 제공하며, 여기서 다수의 마커의 발현 패턴은 질환 상태 (가령, 비-소세포 폐암에서의 단계) 또는 조건에서의 변화 또는, 생리학적 상태 또는 조건과 연관된다. 또 다른 바람직한 구체예에서, 다수의 바이오마커의 발현 패턴은 폐 질환, 가령 비-소세포 폐암 또는 반응성 기도 질환을 나타내거나, 또는 반응성 기도 질환 또는 비-소세포 폐암을 구별하는 것을 보조한다. 이들 구체예의 방법은 트레이닝 데이터 세트내 대상은 여성이라는 점을 제외하고, 상기 설명된 것들과 유사하다. 다수의 바이오마커는 실시예 1-4, 6-7, 및 9와 같은 실시예에서 설명된 바이오마커의 임의의 조합을 포함할 수 있다.
한 가지 구체예에서, 여성 대상은 비-소세포 암 또는 반응성 기도 질환 (가령, 천식, 만성 폐쇄성 폐 질환 )의 폐 질환에 대한 위험이있다. "위험이 있는" 대상 및 개체는 상기 논의된다.
폐 질환
본 발명은 폐 질환에 대한 다양한 진단 및 예측 방법에 대해 제공한다. 특히, 본 발명은 반응성 기도 질환 및 특히 반응성 TH2 및 TH17 세포와 연관된 질병을 진단하는 방법을 제공한다. 반응성 기도 질환은 천식, 만성 폐쇄성 폐 질환, 알레르기성 비염, 낭포성 섬유증, 기관지염, 또는 다양한 생리학적 및/또는 환경적 자극에 대한 과-반응성을 나타내는 기타 질환을 포함한다. 특히, 본 발명은 천식 및 만성 폐쇄성 폐 질환을 진단하는, 더욱 특히 천식을 진단하는 방법에 대해 제공한다.
본 발명은 비-소세포 폐암을 진단하는 방법을 또한 제공한다. 이들 방법은 본 명세서에서 설명된 다수의 바이오마커의 바이오마커 척도를 측정하는 단계를 포함하며, 여기서 바이오마커는 비-소 폐암의 존재 또는 발달의 징후이다. 예를 들어, 본 명세서에서 설명된 바이오마커의 바이오마커 척도는 비-소 폐암의 진전, 전-암 병변의 존재, 또는 비-소폐암의 단계의 정도를 측정하는 데에 이용될 수 있다.
특정한 구체예에서, 대상은 비-소세포 폐암 또는 반응성 기도 질환의 하나 이상의 증상을 나타내는 이들 개체로부터 선택된다. 증상은 기침, 숨가쁨, 천명, 흉통, 및 객혈; 팔 바깥쪽 아래로 흐르는 어깨 통증 또는 쉰 목소리를 야기하는 성대의 마비; 삼키는 데에 있어 어려움을 유발할 수 있는 식도의 침범을 포함할 수 있다. 대형 기도가 방해된다면, 폐 일부의 붕괴가 발행할 수 있고 농양 또는 폐렴을 초래하는 감염을 야기할 수 있다. 뼈로의 전이는 극심한 통증을 초래할 수 있다. 뇌로의 전이는 흐릿한 시야 두통, 발작, 또는 뇌졸중, 가령 신체 부분에서 감각의 약화 또는 손실과 일반적으로 연관되는 증상을 포함하는 신경계 증상을 야기할 수 있다. 폐 암은 종양 세포에 의한 호르몬-유사 물질의 생산의 원인이 되는 증상을 종종 초래한다. NSCLC에서 나타나는 일반적인 부종양 증후군은 혈류내 칼슘이 상승되도록 야기하는 부갑상선 호르몬 유사 물질의 생산이다. 천식은 기침, 특히 밤에, 천명, 숨가쁨, 및 흉부 압박의 느낌, 통증 또는 압박과 같은 증상을 전형적으로 초래한다. 따라서, 천식의 많은 증상은 NSCLC에 대해 일반적이라는 점이 분명하다.
반응성 기도 질환을 진단하는 방법
본 발명은 하기 설명된 바와 같이 다양한 모집단내 개체에서 반응성 기도 질환을 진단하는 방법이 지시된다. 일반적으로, 이들 방법은 본 명세서에서 설명된 바와 같이 특정한 바이오마커의 바이오마커 척도를 측정하는 단계, 및 분류 시스템, 가령 서포트 벡터 머신을 이용하여 바이오마커 척도를 분류하는 단계에 의존한다.
A. 일반적인 모집단에 대한 측정
본 발명은 (a) 대상의 생리학적 샘플을 얻는 단계; (b) 상기 샘플에서, 본 명세서에서 설명된 바와 같이, 다수의 바이오마커의 바이오마커 척도를 측정하는 단계; 및 (c) 분류 시스템을 이용한 바이오마커 척도에 기반하여 샘플을 분류하는 단계를 포함하는, 대상내 반응성 기도 질환을 방법에 대해 제공하며, 여기서 샘플의 분류는 대상내 반응성 기도 질환을 나타낸다.
바람직한 구체예에서, 본 발명은 대상의 생리학적 샘플내 다수의 바이오마커의 바이오마커 척도를 측정하는 단계를 포함하는 대상내 반응성 기도 질환을 진단하는 방법에 대해 제공하며, 여기서 다수의 마커의 발현 패턴은 반응성 기도 질환을 나타내거나 또는 반응성 기도 질환 상태에서의 변화와 연관된다. 바람직하게, 다수의 바이오마커는 기계 학습 알고리즘, 가령 서포트 벡터 머신을 통하여 트레이닝 데이터의 분석에 기반하여 선택된다. 트레이닝 데이터는 수많은 대상에 대한 다수의 바이오마커 척도, 그리고 개별적인 대상에 대한 질환 카테고리화, 그리고 선택적으로, 대상의 기타 특성, 가령 성별, 인종, 연령, 흡연 내력, 근무 경력 을 포함할 것이다. 또 다른 바람직한 구체예에서, 발현 패턴은 대상이 반응성 기도 질환을 가지거나 또는 가질 수 있는 증가된 가능성과 연관된다. 발현 패턴은 패턴 인식을 위한 해당 분야에서 공지된 임의의 기술에 의해 특징규명될 수 있다. 다수의 바이오마커는 실시예 1에서 설명된 바이오마커의 임의의 조합을 포함할 수 있다.
적어도 한 가지 구체예에서, 대상은 반응성 기도 질환에 대한 위험이 있다. 한 가지 구체예에서, 반응성 기도 질환과 연관된 특정한 바이오마커의 바이오마커 척도는 개체에 대해 결정되고, 그리고 정상적인 모집단에 대해 예상되는 것들과는 다른 수준은 개체가 "위험이 있는" 것임을 제시한다. 또 다른 구체예에서, 대상은 반응성 기도 질환의 하나 이상의 증상을 나타내는 이들 개체로부터 선택된다.
B. 남성 모집단에 대한 측정
본 발명은 남성 대상에서 반응성 기도 질환을 진단하는 방법에 대해 제공한다. 이들 구체예에 대한 방법은 대상이 트레이닝 데이터 및 샘플 둘 모두에 대해서 남성인 것을 제외하고는, 상기 설명된 것들과 유사하다.
C. 여성 모집단에 대한 측정
본 발명은 여성 대상에서 반응성 기도 질환을 진단하는 방법에 대해 제공한다. 이들 구체예에 대한 방법은 대상이 트레이닝 데이터 및 샘플 둘 모두에 대해서 여성인 것을 제외하고는, 상기 설명된 것들과 유사하다.
비-소세포 폐암을 진단하는 방법
본 발명은 하기 설명된 바와 같은 다양한 모집단의 개체에서 비-소세포 폐암을 진단하는 방법이 지시된다. 일반적으로, 이들 방법은 본 명세서에서 설명된 바와 같은 특정한 바이오마커의 바이오마커 척도를 측정하는 단계, 및 분류 시스템, 가령 서포트 벡터 머신을 이용하여 바이오마커 척도를 분류하는 단계에 의존한다.
A. 일반적인 모집단에 대한 측정
본 발명은 (a) 대상의 생리학적 샘플을 얻는 단계; (b) 상기 샘플에서, 본 명세서에서 설명된 바와 같이, 다수의 바이오마커의 바이오마커 척도를 측정하는 단계; 및 (c) 분류 시스템을 이용한 바이오마커 척도에 기반하여 샘플을 분류하는 단계를 포함한 대상내 비-소세포 폐암을 진단하는 방법에 대해 제공하며, 여기서 샘플의 분류는 대상내 비-소세포 폐암의 존재 또는 발달을 나타낸다.
바람직한 구체예에서, 본 발명은 대상의 생리학적 샘플내 다수의 바이오마커의 바이오마커 척도를 측정하는 단계를 포함한 대상내 비-소세포 폐암을 진단하는 방법에 대해 제공하며, 여기서 다수의 마커의 발현 패턴은 비-소세포 폐암을 나타내고 또는 비-소세포 폐암 질병 상태 (, 임상 또는 진단 단계)에서 변화와 연관된다. 바람직하게, 다수의 바이오마커는 기계 학습 알고리즘, 가령 서포트 벡터 머신을 통해 트레이닝 데이터의 분석에 기반하여 선택된다. 트레이닝 데이터는 수많은 대상에 대한 다수의 바이오마커 척도, 그리고 개체 대상에 대한 질환 카테고리화 그리고 선택적으로, 대상의 기타 특성, 가령 성별, 인종, 연령, 흡연 내력, 근무 경력 을 포함할 것이다. 또 다른 바람직한 구체예에서, 발현 패턴은 개체가 비-소세포 폐암을 가지거나 또는 가질 수 있는 증가된 가능성과 연관된다. 발현 패턴은 패턴 인식을 위한 해당 분야에서 공지된 임의의 기술에 의해 특징규명될 수 있다. 다수의 바이오마커는 실시예 1에서 설명된 바이오마커의 임의의 조합을 포함할 수 있다.
한 가지 구체예에서, 대상은 비-소세포 폐암에 대한 위험이 있다. 또 다른 구체예에서, 대상은 비-소세포 폐암의 하나 이상의 증상을 나타내는 이들 개체로부터 선택된다.
B. 남성 모집단에 대한 측정
본 발명은 남성 대상에서 비-소세포 폐암을 진단하는 방법에 대해 제공한다. 이들 구체예에 대한 방법은 대상이 트레이닝 데이터 및 샘플 둘 모두에 대해서 남성인 것을 제외하고는, 상기 설명된 것들과 유사하다.
C. 여성 모집단에 대한 측정
본 발명은 여성 대상에서 비-소세포 폐암을 진단하는 방법에 대해 제공한다. 이들 구체예에 대한 방법은 대상이 트레이닝 데이터 및 샘플 둘 모두에 대해서 여성인 것을 제외하고는, 상기 설명된 것들과 유사하다.
비-소세포 폐암 및 반응성 기도 질환을 구별하는 방법
본 발명은 하기 설명된 바와 같은 다양한 모집단의 개체에서 폐 질환을 진단하는 방법이 지시된다. 일반적으로, 이들 방법은 반응성 기도 질환 및 비-소세포 폐암의 징후를 구별하는 특정한 바이오마커의 바이오마커 척도를 측정하는 단계, 및 분류 시스템, 가령 서포트 벡터 머신을 이용하여 바이오마커 척도를 분류하는 단계에 의존한다.
A. 일반적인 모집단에 대한 측정
본 발명은 다수의 바이오마커의 상기 대상내 바이오마커 척도를 측정하는 단계를 포함하는 대상내 폐 질환을 진단하는 방법에 대해 제공하며, 여기서 상기 다수의 바이오마커의 바이오마커 척도는 반응성 기도 질환 및 비-소세포 폐암의 징후를 구별하는 것을 보조한다. 한 가지 구체예에서, 대상은 반응성 기도 질환 및/또는 비-소세포 폐암을 가지는 것으로서 진단되었다. 예를 들어, 진단은 대상의 생리학적 샘플내 적어도 하나의 바이오마커의 바이오마커 척도에 의해 결정될 수 있으며, 여기서 적어도 하나의 바이오마커의 바이오마커 척도는 반응성 기도 질환 및/또는 비-소세포 폐암을 나타낸다.
본 발명은 (a) 대상의 생리학적 샘플을 얻는 단계; (b) 상기 샘플에서, 본 명세서에서 설명된 바와 같이, 반응성 기도 질환 및 비-소세포 폐암의 징후를 구별하는 것을 보조하는 다수의 바이오마커, 반응성 기도 질환에 대한 다수의 바이오마커, 및 비-소세포 폐암에 대한 다수의 바이오마커의 바이오마커 척도를 측정하는 단계, 여기서 상기 다수의 바이오마커는 동일하지 않음; (c) 분류 시스템을 이용한 바이오마커 척도에 기반하여 샘플을 분류하는 단계, 여기서 샘플의 분류는 대상내, (i) 반응성 기도 질환 및 비-소세포 폐암; (ii) 반응성 기도 질환의 존재 또는 부재; 및 (iii) 비-소세포 폐암의 존재 또는 부재의 징후를 구별하는 것을 보조함; 및 (d) 세 가지 분류 중 두 가지에서 찾은 조건에 의존하여, (1) 반응성 기도 질환; (2) 비-소세포 폐암, 또는 (3) 질환의 부재를 갖는 대상을 측정하는 단계를 포함하는 대상내 폐 질환을 진단하는 방법에 대해 제공한다.
바람직하게, 다수의 바이오마커는 기계 학습 알고리즘, 가령 서포트 벡터 머신을 통해 트레이닝 데이터의 분석에 기반하여 선택된다. 트레이닝 데이터는 수많은 대상에 대한 다수의 바이오마커 척도, 그리고 개별적인 대상에 대한 질환 카테고리화, 그리고 선택적으로, 대상의 기타 특성, 가령 성별, 인종, 연령, 흡연 내력, 근무 경력 을 포함할 것이다. 바람직한 구체예에서, 발현 패턴은 대상이 비-소 폐암 또는 반응성 기도 질환을 가지는 증가된 가능성과 연관된다. 발현 패턴은 패턴 인식을 위한 해당 분야에서 공지된 임의의 기술에 의해 특징규명될 수 있다. 다수의 바이오마커는 실시예 1에서 설명된 바이오마커의 임의의 조합을 포함할 수 있다.
한 가지 구체예에서, 대상은 비-소세포 폐암 및/또는 반응성 기도 질환에 대한 위험이 있다. 또 다른 구체예에서, 대상은 비-소 폐암 및/또는 반응성 기도 질환의 하나 이상의 증상을 나타내는 이들 개체로부터 선택된다.
본 발명은 (a) 비-소세포 폐암 또는 반응성 기도 질환에 대해 위험이 있는 대상의 생리학적 샘플을 얻는 단계; (b) 상기 샘플에서, 본 명세서에서 설명된 바와 같이, 상기 대상이 비-소세포 폐암 또는 반응성 기도 질환의 위험이 있는 가능성을 구분하는 것을 보조하는 다수의 바이오마커의 상기 개체내 바이오마커 척도를 측정하는 단계, (c) 분류 시스템을 이용한 바이오마커 척도에 기반하여 샘플을 분류하는 단계, 여기서 샘플의 분류는 대상내, (i) 반응성 기도 질환 및 비-소세포 폐암; (ii) 반응성 기도 질환의 존재 또는 부재; 및 (iii) 비-소세포 폐암의 존재 또는 부재의 징후를 구별하는 것을 보조함; 및 (d) 세 가지 분류 중 두 가지에서 찾은 조건에 의존하여, (1) 반응성 기도 질환; (2) 비-소세포 폐암, 또는 (3) 질환의 부재로부터 발달하거나 또는 고통 받을 위험이 있는 대상을 측정하는 단계를 포함하는, 개체가 비-소세포 폐암 또는 반응성 기도 질환으로부터 발달되거나 또는 고통 받을 위험이 있는 가능성을 구분하는 것을 보조하기 위한 진단 방법을 또한 제공한다.
바람직하게, 다수의 바이오마커는 기계 학습 알고리즘, 가령 서포트 벡터 머신을 통해 트레이닝 데이터의 분석에 기반하여 선택된다. 트레이닝 데이터는 수많은 대상에 대한 다수의 바이오마커 척도, 그리고 개별적인 대상에 대한 질환 카테고리화, 그리고 선택적으로, 대상의 기타 특성, 가령 성별, 인종, 연령, 흡연 내력, 근무 경력 을 포함할 것이다. 바람직한 구체예에서, 발현 패턴은 대상이 비-소 폐암 또는 반응성 기도 질환을 가지는 증가된 가능성과 연관된다. 발현 패턴은 패턴 인식을 위한 해당 분야에서 공지된 임의의 기술에 의해 특징규명될 수 있다. 다수의 바이오마커는 실시예 1에서 설명된 바이오마커의 임의의 조합을 포함할 수 있다.
한 가지 구체예에서, 대상은 비-소 폐암 또는 반응성 기도 질환의 하나 이상의 증상을 나타내는 이들 개체로부터 선택된다. "위험이 있는" 대상과 관련된 방법은 상기 설명되고 그것에 관련된 방법이 본 명세서에서 고려된다.
B. 남성 모집단에 대한 측정
본 발명은 남성 대상에서 폐 질환을 진단하는 방법에 대해 제공한다. 이들 구체예에 대한 방법은 대상이 트레이닝 데이터 및 샘플 둘 모두에 대해서 남성인 것을 제외하고는, 상기 설명된 것들과 유사하다.
C. 여성 모집단에 대한 측정
본 발명은 여성 대상에서 폐 질환을 진단하는 방법에 대해 제공한다. 이들 구체예에 대한 방법은 대상이 트레이닝 데이터 및 샘플 둘 모두에 대해서 여성인 것을 제외하고는, 상기 설명된 것들과 유사하다.
특징규명을 위한 시스템을 설계하는 방법
A. 일반적인 모집단
본 발명은 (a) 다수의 바이오마커를 선택하는 단계; (b) 상기 다수의 바이오마커의 바이오마커 척도를 측정하기 위한 수단을 선택하는 단계; 및 (c) 바이오마커 척도를 측정하기 위한 상기 수단 및 바이오마커 척도를 분석하여 대상이 폐 질환으로부터 고통받을 가능성을 측정하기 위한 수단을 포함하는 시스템을 설계하는 단계를 포함하는 대상내 폐 질환을 진단하기 위한 시스템을 설계하기 위한 방법을 또한 제공한다.
본 발명은 (a) 다수의 바이오마커를 선택하는 단계; (b) 상기 다수의 바이오마커의 바이오마커 척도를 측정하기 위한 수단을 선택하는 단계; 및 (c) 바이오마커 척도를 측정하기 위한 상기 수단 및 바이오마커 척도를 분석하여 대상이 비-소세포 폐암으로부터 고통받을 가능성을 측정하기 위한 수단을 포함하는 시스템을 설계하는 단계를 포함하는 비-소세포 폐암을 진단하기 위한 시스템을 설계하기 위한 방법을 또한 제공한다.
본 발명은 (a) 다수의 바이오마커를 선택하는 단계; (b) 상기 다수의 바이오마커의 바이오마커 척도를 측정하기 위한 수단을 선택하는 단계; 및 (c) 바이오마커 척도를 측정하기 위한 상기 수단 및 바이오마커 척도를 분석하여 대상이 반응성 기도 질환으로부터 고통받을 가능성을 결정하기 위한 수단을 포함하는 시스템을 설계하는 단계를 포함하는 대상내 반응성 기도 질환을 진단하기 위한 시스템을 설계하기 위한 방법을 또한 제공한다.
본 발명은 (a) 다수의 바이오마커를 선택하는 단계; (b) 상기 다수의 바이오마커의 바이오마커 척도를 측정하기 위한 수단을 선택하는 단계; 및 (c) 바이오마커 척도를 측정하기 위한 상기 수단 및 바이오마커 척도를 분석하여 대상이 반응성 기도 질환으로부터 고통받을 가능성을 결정하기 위한 수단을 포함하는 시스템을 설계하는 단계를 포함하는 대상내 비-소세포 폐암 또는 반응성 기도 질환을 진단하기 위한 시스템을 설계하기 위한 방법을 또한 제공한다. 바람직한 방법에서, 다수의 바이오마커는 비-소세포 폐암에 대한 바이오마커, 반응성 기도 질환에 대한 바이오마커, 및 비-소세포 폐암 및 반응성 기도 질환을 구분하는 것을 보조하는 바이오마커를 포함한다.
상기 방법에서, 단계 (b) 및 (c)는 대안적으로, (b) 상기 다수의 바이오마커를 탐지하기 위한 탐지제를 선택하고, (c)다수의 바이오마커를 탐지하기 위한 상기 탐지제를 포함하는 시스템을 설계함으로써 수행될 수 있다.
B. 남성 모집단
본 발명은 남성 대상내 폐 질환을 진단하는 것을 보조하기 위한 시스템을 설계하기 위한 방법을 또한 제공한다. 이들 구체예에 대한 방법은 상기 설명된 것들과 유사하다.
C. 여성 모집단
본 발명은 여성 대상내 폐 질환을 진단하는 것을 보조하기 위한 시스템을 설계하기 위한 방법을 또한 제공한다. 이들 구체예에 대한 방법은 상기 설명된 것들과 유사하다.
키트
본 발명은 본 명세서에서 설명된 다수의 바이오마커의 바이오마커 척도를 측정하기 위한 수단을 포함한 키트를 제공한다. 본 발명은 본 명세서에서 설명된 다수의 바이오마커를 탐지하기 위한 탐지제를 포함하는 키트를 또한 제공한다.
다수의 바이오마커는 비-소세포 폐암에 대한 바이오마커, 반응성 기도 질환에 대한 바이오마커, 및/또는 비-소세포 폐암 및 반응성 기도 질환을 구별하는 것을 보조하는 바이오마커를 포함할 수 있다. 바람직하게, 이들 바이오마커는 본 명세서에서 설명된 방법에 의해 결정된 감소된 바이오마커 세트이다.
본 발명은 (a) 비-소세포 폐암에 대한 다수의 바이오마커의 바이오마커 척도를 측정하기 위한 제1 수단; 및 (b) 반응성 기도 질환을 나타내는 다수의 바이오마커의 바이오마커 척도를 측정하기 위한 제2 수단을 포함하는 키트를 또한 제공하며, 여기서 (a) 및 (b)에서의 상기 바이오마커는 동일하지 않다.
본 발명은 (a) 비-소세포 폐암에 대한 다수의 바이오마커를 탐지하기 위한 탐지제; 및 (b) 반응성 기도 질환에 대한 다수의 바이오마커를 탐지하기 위한 탐지제를 포함하는 키트를 또한 제공하며, 여기서 (a) 및 (b)에서의 상기 바이오마커는 동일하지 않다.
본 발명은 (a) 비-소세포 폐암에 대한 다수의 바이오마커의 바이오마커 척도를 측정하기 위한 제1 수단; (b) 반응성 기도 질환에 대한 다수의 바이오마커의 바이오마커 척도를 측정하기 위한 제2 수단; 및 (c) 비-소세포 폐암 및 반응성 기도 질환을 구별하는 것을 보조하는 다수의 바이오마커의 바이오마커 척도를 측정하기 위한 제3 수단을 포함하는 키트를 또한 제공하며, 여기서 (a), (b), 및 (c)에서의 상기 바이오마커는 동일하지 않다.
본 발명은 (a) 비-소세포 폐암에 대한 다수의 바이오마커를 탐지하기 위한 탐지제; 및 (b) 반응성 기도 질환에 대한 다수의 바이오마커를 탐지하기 위한 탐지제; 및 (c) 비-소세포 폐암 및 반응성 기도 질환을 구별하는 것을 보조하는 다수의 바이오마커를 탐지하기 위한 탐지제를 포함하는 키트를 또한 제공하며, 여기서 (a), (b), 및 (c)에서의 상기 바이오마커는 동일하지 않다.
본 발명은 특정한 다수의 바이오마커의 탐지를 요구하는 임의의 방법을 위해 상기 설명된 바이오마커의 임의의 특정한 조합을 탐지하기 위한 수단을 포함하는 키트를 고려한다는 점이 이해될 것이다.
시스템
본 발명은 본 발명의 방법을 수행하는 것을 보조하는 시스템에 대해 제공한다. 예시적인 시스템은 트레이닝 데이터 세트 및/또는 검사 데이터 세트를 저장하기 위한 저장 장치 및 학습 기계, 가령 AdaBoost 분류기 또는 SVM을 실행하기 위한 컴퓨터를 포함한다. 컴퓨터는 데이터베이스로부터 트레이닝 데이터 세트를 수집하기 위해, 트레이닝 데이터 세트를 사전-프로세싱하기 위해, 사전 프로세싱된 검사 데이터 세트를 이용하여 학습 기계를 트레이닝하기 위해 그리고 트레이닝된 학습 기계의 검사 출력을 받는 것에 대하여, 검사 출력이 최적해(optimal solution)인지를 결정하기 위해 검사 출력을 후-프로세싱하기 위해 또한 작동될 수 있다. 이러한 사전-프로세싱은 예를 들어, 명확하게 잘못된 엔트리를 탐지하고 제거하기 위해 데이터를 시각적으로 검사하는 단계, 적절한 표준량으로 나눔으로써 데이터를 정상화하는 단계, 및 데이터가 각각의 알고리즘에서 사용하기 위해 적절한 형태인 것을 확인하는 단계를 포함할 수 있다. 예시적인 시스템은 원격 소스(remote source)로부터 검사 데이터 세트 및 트레이닝 데이터 세트를 받기 위한 통신 장치를 또한 포함할 수 있다. 이러한 경우에, 컴퓨터는 트레이닝 데이터 세트의 사전-프로세싱에 앞서 저장 장치에 트레이닝 데이터 세트를 저장하기 위해 및 검사 데이터 세트의 사전-프로세싱에 앞서 저장 장치에 검사 데이터 세트 저장하기 위해 작동될 수 있다. 예시적인 시스템은 후-프로세싱된 검사 데이터를 보여주기 위한 디스플레이 장치를 또한 포함할 수 있다. 예시적인 시스템의 컴퓨터는 상기 설명된 추가적인 기능을 수행하기 위해 추가로 작동될 수 있다.
본 명세서에서 사용된 바와 같이, 용어 "컴퓨터"는 적어도 하나의 메모리를 이용하는 적어도 한 가지 하드웨어 처리기를 포함하는 것으로 이해되기 위함이다. 적어도 하나의 메모리는 명령(instruction) 세트를 저장할 수 있다. 명령은 컴퓨터의 메모리 또는 메모리들 안에 영구적으로 또는 임시로 저장될 수 있다. 처리기는 데이터를 처리하기 위하여 메모리 또는 메모리들 안에 저장된 명령을 실행한다. 명령 세트는 특정한 작업 또는 작업들, 가령 본 명세서에서 설명된 이들 작업을 수행하는 여러 가지 명령을 포함할 수 있다. 특정한 작업을 수행하기 위한 이러한 명령 세트는 프로그램, 소프트웨어 프로그램, 또는 단순 소프트웨어로서 특징될 수 있다.
상기 언급된 바와 같이, 컴퓨터는 데이터를 처리하기 위해 메모리 또는 메모리들 안에 저장된 명령을 실행한다. 데이터의 이러한 프로세싱은 예를 들어, 컴퓨터의 사용자 또는 사용자들에 의한 명령어에, 이전 프로세싱에, 또 다른 컴퓨터 및/또는 임의의 기타 입력에 의한 요구에 응답할 수 있다.
적어도 부분적으로 구체예를 시행하는 데에 이용되는 컴퓨터는 범용 컴퓨터일 수 있다. 하지만, 컴퓨터는 임의의 매우 다양한 기타 기술을 또한 활용할 수 있는데, 이는 마이크로컴퓨터, 미니-컴퓨터 또는 메인프레임 예를 들어, 프로그래밍된 마이크로프로세서, 마이크로-컨트롤러, 주변 직접 회로 소자, CSIC (Customer Specific Integrated Circuit) 또는 ASIC (Application Specific Integrated Circuit) 또는 기타 직접 회로, 논리 회로, 디지털 신호 처리기, 프로그램 가능 논리 장치, 가령 FPGA, PLD, PLA 또는 PAL, 또는 본 발명의 프로세스 중 적어도 몇 가지 단계를 실행할 수 있는 임의의 기타 장치 또는 장치의 배열을 포함한 컴퓨터 시스템인, 특수 목적 컴퓨터를 포함한다.
본 발명의 방법을 실시하기 위해서, 컴퓨터의 처리기 및/또는 메모리는 동일한 지리적 장소에 물리적으로 위치된다는 것이 필수적이지 않다는 점이 이해된다. 즉, 컴퓨터에 의해 이용되는 각각의 처리기 및 메모리는 지리학적으로 별개의 위치에 위치될 수 있고 임의의 적합한 방식으로 통신하기 위해 연결될 수 있다. 추가적으로, 각각의 처리기 및/또는 메모리는 장비의 상이한 물리적 조각으로 구성될 수 있다는 점이 이해된다. 이에 따라서, 처리기는 한 위치에서 장비의 하나의 단일 조각이라는 점 및 메모리는 또 다른 위치에서 장비의 또 다른 단일 조각이라는 점이 필수적인 것은 아니다. 즉, 예를 들어, 처리기는 두 개의 상이한 물리적 위치에서 장비의 두 개 이상의 조각일 수 있다는 점이 고려된다. 장비의 두 개 이상의 별개의 조각은 임의의 적합한 방식으로, 가령 네트워크에 연결될 수 있다. 추가적으로, 메모리는 두 개 이상이 물리적 위치에서 메모리의 둘 이상의 부분을 포함할 수 있다.
다양한 기술은 여러 가지 컴퓨터, 처리기 및/또는 메모리 간의 통신을 제공하는 데에, 그리고 임의의 기타 엔티티(entity)와 통신하도록; 가령, 추가 명령을 얻기 위해서 또는 예를 들어 원격 메모리 저장고에 접속하고 이용하기 위해서, 본 발명의 처리기 및/또는 메모리를 허용하는 데에 이용될 수 있다. 이러한 통신을 제공하는 데에 이용되는 이러한 기술은 예를 들어, 통신을 제공하는 네트워크, 인터넷(Internet), 인트라넷(Intranet), 엑스트라넷(Extranet), LAN, 이더넷(Ethernet), 또는 임의의 클라이언트 서버 시스템(client server system)을 포함할 수도 있다. 이러한 통신 기술은 예를 들어, TCP/IP, UDP, 또는 OSI와 같은 임의의 적합한 프로토콜을 이용할 수 있다.
추가로, 본 발명의 시행 및 작동에서 이용되는 컴퓨터 명령 또는 명령 세트는 컴퓨터가 명령을 판독할 수 있도록 적합한 형태로 존재한다.
몇 가지 구체예에서, 다양한 사용자 인터페이스(interface)는 활용되어 인간 사용자가 적어도 부분적으로 구체예를 시행하는 데에 이용되는 컴퓨터 또는 기계와 상호연결되도록 할 수 있다. 사용자 인터페이스는 다이아로그 스크린(dialogue screen)의 형태로 존재할 수 있다. 사용자 인터페이스는 임의의 마우스(mouse), 터치 스크린(touch screen), 키보드(keyboard), 음성 판독기(voice reader), 음성 인식기(voice recognizer), 다이아로그 스크린, 메뉴 박스(menu box), 목록, 체크박스(checkbox), 토글 스위치(toggle switch), 푸시버튼(pushbutton) 또는 명령 세트를 처리하고 및/또는 컴퓨터에 정보를 제공함에 따라 사용자가 컴퓨터 작동에 관한 정보를 받도록 하는 임의의 기타 장치를 또한 포함할 수 있다. 이에 따라서, 사용자 인터페이스는 사용자와 컴퓨터 간의 통신을 제공하는 임의의 장치이다. 사용자 인터페이스를 통해 사용자에 의해 컴퓨터에 제공된 정보는 예를 들어 명령어, 데이터 선택, 또는 몇 가지 기타 입력의 형식으로 존재할 수 있다.
본 발명의 사용자 인터페이스는 인간 사용자보다는, 또 다른 컴퓨터와 상호작용, 가령, 정보를 전달하고 받을 수 있다는 점이 또한 고려된다. 이에 따라서, 기타 컴퓨터는 사용자로서 특징될 수 있다. 추가로, 본 발명의 시스템 및 방법에서 활용되는 사용자 인터페이스는 인간 사용자와 부분적으로 상호작용하면서도, 또 다른 컴퓨터 또는 컴퓨터들과 부분적으로 상호작용할 수 있다는 점이 고려된다.
다음 실시예는 본 명세서에서 개시된 본 발명의 다양한 방식을 예시화하기 위해 제공되지만, 이들은 어느 방식으로도 본 발명에 제한하는 것으로 의도되지 않는다.
실시예 1 - 서포트 벡터 머신을 이용한 데이터 수집 및 분석
샘플 수집
지원자로부터 인간 혈액 샘플을 수집하였다. 비-소세포 폐암 또는 천식을 가졌는지 알려지지 않은 개체로부터 288개의 샘플을 수집하였다. 이들 샘플은 "정상적인 모집단"을 포함하고, 상기 모집단으로서 본 명세서에서 언급된다. 천식을 가진 것으로 공지된 및 내과 의사에 의해 상기 천식으로 진단된 개체로부터 180개의 혈액 샘플을 수집하였다. 이들 샘플은 "천식 모집단"을 포함하고, 상기 모집단으로서 본 명세서에서 언급된다. 비-소세포 폐암을 가진 것으로 공지된 및 내과 의사에 의해 상기 폐암으로 진단된 개체로부터 360개의 혈액 샘플을 수집하였다. 이들은 "폐암 모집단"을 포함하고, 상기 모집단으로서 본 명세서에서 언급된다. 샘플의 데모그래픽(demographic) 및 상태는 하기 표에 제공된다.
Figure 112013109183583-pct00019
변형된 발현 수준은 폐암 또는 천식과 연관된다는 것으로 간주되는 바이오마커를 선택하기 위해 연구를 수행하였다. 본 명세서에서 사용된 "폐암"은 비-소 세포 폐암으로 공지되는 이들 폐암을 포함하는 것으로 의도된다. 연구, 방법론, 및 얻은 데이터는 아래에서 설명되고 WO/2010/105235에서 제시되며, 상기문헌은 이의 전체로 참조로서 본 명세서에 편입된다.
다음 59개의 바이오마커를 검사하기 위해 선택하였다: CD40, 간세포 성장 인자 ("HGF"), I-TAC ("CXCL11"; "케모카인 (C-X-C 모티프) 리간드 11", "인터페론-유도성 T-세포 알파 화학유인물질"), 렙틴 ("LEP"), 기질금속단백질 분해효소 ("MMP") 1, MMP 2, MMP3, MMP 7, MMP 8, MMP 9, MMP 12, MMP 13, CD40 용해성 리간드 ("CD40 리간드"), 상피 성장 인자 ("EFG"), 에오탁신 ("CCL11"), 프랙탈킨, 과립구 집락 자극 인자 ("G-CSF"), 과립구 대식세포 집락 자극 인자 ("GM-CSF"), 인터페론 γ ("IFN γ"), 인터루킨 ("IL") 1α, IL-1β, IL-1ra, IL-2, IL-4, IL-5, IL-6, IL-7, IL-8, IL-10, IL-12(p40), IL-12(p70), IL-13, IL-15, IL-17, IP-10, 단핵구 화학주성 단백질 1 ("MCP-1"), 대식세포 염증 단백질 ("MIP") 1α, MIP-1β, 형질전환 성장 인자 α ("TGF α"), 종양 괴사 인자 α ("TNF α"), 혈관 내피 성장 인자 ("VEGF"), 인슐린 ("Ins"), C-펩티드, 글루카곤 유사 단백질-1/아밀린 ("GLP-1/아밀린"), 아밀린 (전체), 글루카곤, 아디포넥틴, 플라스미노겐 활성 저해제 1 ("PAI-1"; "세르핀") (활성/전체), 레시스틴 ("RETN"; "xcp1"), sFas, 용해성 Fas 리간드 ("sFasL"), 대식세포 이동 저해 Factor ("MIF"), sE-셀렉틴, 용해성 혈관세포 부착 분자 ("sVCAM"), 용해성 세포내 부착 분자 ("sICAM"), 미엘로퍼옥시다아제 ("MPO"), C-반응성 단백질 ("CRP"), 혈청 아밀로이드 A ("SAA"; "SAA1"), 및 혈청 아밀로이드 P ("SAP").
데이터 수집
자동화된 비드-기반 기술을 이용한 정량적 다중화된 면역어세이인, Luminex의 xMAP 기술을 이용하여 혈장 표본을 분석함으로써 각각의 59개의 바이오마커에 대해 정상, 천식 및 폐암 모집단 각각에 대한 혈장 표본을 스크리닝하였다.
바이오마커, 즉 Millipore의 인간 사이토카인/케모카인 (Cat# MPXHCYTO-60K, 인간 내분비 (Cat# HENDO-65K), 인간 혈청 아디포카인 (Cat# HADKI-61K), 인간 패혈증/아폽토시스 (Cat# HSEP-63K), 인간 심혈관 패널 1 (Cat# HCVD1-67AK) 및 인간 심혈관 패널 2 (HCVD2-67BK), R&D 시스템, Inc.의 인간 플루오로카인 MAP 프로파일링 기반 키트 B (Cat# LUB00) 및 인간 플루오로카인 MAP MMP 프로파일링 기반 키트 (Cat# LMP000)를 스크리닝하는 데에 Luminex xMAP 기술로 여러 가지 상이한 어세이 키트를 이용하였다. Panomics' Procarta 사이토카인 키트 (Cat# PC1017)도 또한 이용하였다. 두 가지 상이한 키트로부터 PAI-1 및 렙틴에 대한 항체를 이용하였다. Millipore로 PAI-1A 및 렙틴1에 대한 항체를 생산하였다. Panomics로 PAI-1B에 대한 항체를 생산하였다.
다중화된 면역어세이에 기인한 형광 강도 수준을 모집단 각각에 대한 혈장 표본 각각을 위해 각각의 59개의 바이오마커에 대한 바이오마커 척도로서 기록하였다. 기록된 형광 강도는 샘플내 상응하는 바이오마커의 농도와 비례하고, 또한 샘플이 수집된 시점에 개체내 이의 발현의 정도와 비례한다. 모집단 각각에 대한 바이오마커 각각과 연관된 형광 강도 수준에 대한 평균, 표준 편차, 및 상대 표준 편차를 계산하였다. 도 1A 내지 1C는 정상 (NO), 비-소세포 폐암 (LC), 및 천식 (AST) 모집단내 바이오마커 척도 각각에 대한 평균, 표준 편차 및 상대 표준 편차를 보여주고, 반면에 도 1D는 이들 모집단 중 임의의 두 가지 사이의 특정한 바이오마커 척도의 수준 간의 평균 변화를 보여준다.
또한 얻은 데이터를 성별에 따라 분리하였다.
도 2A-2C는 정상 (NO), 비-소세포 폐암 (LC), 및 천식 (AST) 여성 모집단내 바이오마커의 평균 형광 강도 수준을 보여준다. 도 2D는 AST NO 여성 모집단, LC NO 여성 모집단, 및 AST LC 여성 모집단내 각각의 바이오마커 척도의 평균에서의 변화 퍼센트를 보여준다.
도 3A-3D에서 남성 모집단에 관하여 동일한 정보를 보여준다.
그 다음, 여성 및 남성 모집단 데이터를 비교하였다. 도 4는 AST 여성 모집단과 비교하여 AST 남성 모집단, LC 여성 모집단과 비교하여 LC 남성 모집단, 및 NO 여성 모집단과 비교하여 NO 남성 모집단내 각각의 바이오마커 척도의 평균에서의 변화 퍼센트를 보여준다.
내과 의사의 진단에 기반하여, 환자의 실증적 분류로 식별된 특정한 환자의 샘플내 바이오마커 각각에 대한 형광 강도 데이터로 Luminex 어세이로부터의 데이터를 데이터 저장고에 전자적으로 저장하였다.
데이터 분석
서포트 벡터 머신 알고리즘을 통한 데이터의 분석을 다음 단계를 이용하여 완성하였다:
1. 저장 장치로부터 프로세싱 장치 내로 데이터 세트를 판독하였다.
2. 데이터를 사전-처리하여 상기 데이터를 모델 선택 알고리즘 및 서포트 벡터 머신에서 이용하기 적합하게 만들었다.
3. 두 그룹으로 데이터를 무작위로 분할하였다: 트레이닝 세트 및 검증 세트.
4. 서포트 벡터 머신 알고리즘을 트레이닝 데이터 세트에 대하여 수행하여 모델을 만들었다. 본 명세서에서 설명된 모든 SVM 통계적 계산을 통계적 소프트웨어 프로그래밍 언어 및 환경 R 2.10.0을 이용하여 수행하였다 (www.r-project.org). kernlab 패키지내 ksvm() 함수를 이용하여 SVM을 정합시켰다.
5. 검증 데이터 세트로부터의 데이터를 이전 단계에서 만들어진 모델을 통하여 후-프로세싱하여 예상되는 분류를 계산하였다. 예상되는 분류를 검사 세트 샘플의 실증적 분류와 비교하여 모델 정합의 척도, 가령 정확성, 감수성, 특이성, 양성 예측 값 및 음성 예측 값을 계산하였고, 여기서 감수성은 대상이 질병에 걸린 것을 고려하여 질병에 걸린 것으로 예상되는 확률이고, 특이성은 대상이 질병에 걸리지 않은 것을 고려하여 질병에 걸리지 않는 것으로 예상되는 확률이고, 양성 예측 값은 대상이 질병에 걸린 것으로 예상되는 것을 고려하여 대상이 질병에 걸릴 확률이고, 음성 예측 값은 대상이 질병에 걸리지 않은 것으로 예상되는 것을 고려하여 대상이 질병에 걸리지 않을 확률이고, 그리고 정확성은 정확한 예측의 확률이다.
완전한 데이터를 갖는 787명의 대상이 있었다. 그들은 분석에서만 이용되었다. 트레이닝 세트에는 398명의 대상이 있었고 검사 세트에는 389명의 대상이 있었다.
분석이 완전 데이터-세트에서 수행되었을 때, 389명의 대상 중 344명을 정확하게 분류하여 0.88 (SE: 0.017)의 정확성을 제공하였다 (표 1을 참조). 암에 걸린 대상 및 모든 다른 대상 사이의 대조를 보면, 서포트 벡터 머신의 감수성은 0.98 (SE: 0.007)이었고 음성 예측 값은 0.99 (SE: 0.008)였다. (표 2를 참조).
Figure 112013109183583-pct00020
Figure 112013109183583-pct00021
실시예 2 - 폐암 데이터의 분석
서포트 벡터 머신은 천식 대상을 제외한 실시예 1로부터의 데이터 세트에 또한 정합하였다. 암 및 비-질환 대상으로만 구성된 데이터에 대하여, 실시예 1에서 설명된 바와 같이, 단계 1-5를 수행하였다. 결과적 서포트 벡터 머신은 0.92 (SE: 0.016)의 감수성 및 0.92 (SE: 0.015)의 특이성을 가졌다 (표 3, 4를 참조).
Figure 112013109183583-pct00022
Figure 112013109183583-pct00023
실시예 3 - 상이한 검사 세트를 이용한 분석
Luminex 어세이로부터 실시예 1에서 수집된 데이터를 실시예 1에서 설명된 단계 1-5를 이용하여 한 번 더 분석하였다. 새로운 트레이닝 세트 및 검사 세트에 개별적인 샘플로부터의 데이터를 무작위로 부여하였다. 트레이닝 세트에는 398명의 대상이 있었고 검사 세트에는 389명의 대상이 있었다.
샘플이 천식인지, 암인지, 또는 정상인지 예측하기 위해, 실시예 1에서 설명된 59개의 바이오마커를 성별과 함께 검토하였다. 결과는 아래에서 보여준다.
Figure 112013109183583-pct00024
실시예 4 - 폐암 데이터의 분석
서포트 벡터 머신은 천식 대상을 제외한 실시예 3로부터의 트레이닝 데이터 세트에 또한 정합하였다. 천식 환자를 제외한 검증 데이터 세트를 이용하여, 실시예 1에서 데이터 분석 프로토콜의 단계 1-5로 생산된 결과는 아래에서 보여준다.
Figure 112013109183583-pct00025
실시예 5 - 폐암 데이터 (남성)의 분석
남성 샘플이 암인지 또는 정상인지 예측하기 위해, 실시예 3으로부터의 데이터 세트를 이용하여, 59개의 바이오마커를 검토하였다. 실시예 1의 5 단계 프로토콜에 따라서 데이터를 분석하였고, 결과는 아래에서 보여준다.
Figure 112013109183583-pct00026
이후 남성 및 여성 샘플이 암인지 또는 정상인지 예측하기 위해 발생된 모델을 검토하였다. 결과는 아래에서 보여준다.
Figure 112013109183583-pct00027
실시예 6 - 폐암 데이터 (여성)의 분석
여성 샘플이 암인지 또는 정상인지 예측하기 위해, 실시예 3으로부터의 데이터 세트를 이용하여, 59개의 바이오마커를 검토하였다. 실시예 1의 데이터 분석 프로토콜의 단계 1-5를 여성 환자로부터의 데이터에만 적용시켰다. 결과는 아래에서 보여준다. 결과는 아래에서 보여준다.
Figure 112013109183583-pct00028
이후 남성 및 여성 샘플이 암인지 또는 정상인지 예측하기 위해 동일한 모델을 검토하였다. 결과는 아래에서 보여준다.
Figure 112013109183583-pct00029
실시예 7 - 선택 알고리즘 (바이오마커; 암 및 정상)
실시예 1-6에서의 결과는 59개의 바이오마커를 포함하는 모델과 관련된다. 본 명세서에서 논의된 바와 같이, 선택 알고리즘을 이용함으로써 예측의 정확성을 유의적으로 감소시킴없이 바이오마커 수를 감소시킬 수 있다. 바이오마커 선택 알고리즘을 수행하여 서포트 벡터 머신에서 이용되어야 할 바이오마커를 찾았다.
두 개의 폐 병리 카테고리 (암, 정상)를 특징화하기 위해, 상기 설명된 8-단계 바이오마커 선택 알고리즘을 이용하여 4개의 바이오마커 모델 (EGF, sCD40 리간드, IL-8, 및 MMP-8)을 선택하였다. 단계 2 사전-프로세싱이 선택 알고리즘에 의해 선택된 4개의 바이오마커 외에도 모든 바이오척도를 제외하는 단계를 포함하였다는 점을 제외하고, 5 단계 프로토콜에 따라서 실시예 1로부터의 데이터를 처리하였다. 모델 정합 척도는, 하기 설명된 바와 같이 95%의 정확성, 93%의 감수성, 및 87%의 특이성을 보여주었다.
Figure 112013109183583-pct00030
실시예 8 - 선택 알고리즘 (바이오마커 및 남성; 암 및 정상)
실시예 7에서 설명된 바와 같이 바이오마커를 제한하는 프로세스를 남성 환자에 대한 값만 포함한 실시예 1로부터의 데이터 서브세트에 적용시켰다. 8-단계 바이오마커 선택 알고리즘을 이용하여, 5개의 바이오마커 모델 (EGF, IL-8, Sfas, MMP-9, 및 PAI-17[7원래의 데이터세트에서 2 개의 변수는 PAI-1로 명명되었다. 이것은 그것들 중 두 번째인, Panomics 키트의 PAI-1 바이오마커이다.])을 선택하여 남성에서 두 개의 폐 병리 카테고리 (암, 정상)를 하기 나타난 바와 같이, 100%의 정확성, 100%의 감수성, 및 100%의 특이성으로, 특징화하였다.
Figure 112013109183583-pct00031
이후 남성 및 여성 샘플이 암인지 정상인지 예측하기 위해 동일한 고려사항 (, 5개의 바이오마커의 서브세트 및 남성)을 검토하였다. 결과는 아래에서 보여준다.
Figure 112013109183583-pct00032
실시예 9 - 선택 알고리즘 (바이오마커 및 여성; 암 및 정상)
실시예 7에서 설명된 바와 같이 바이오마커를 제한하는 프로세스를 여성 환자에 대한 값만 포함한 실시예 1로부터의 데이터 서브세트에 적용시켰다. 8-단계 바이오마커 선택 알고리즘을 이용하여, 3개의 바이오마커 모델 (EGF, sCD40 리간드, IL-8)을 선택하여 여성에서 두 개의 폐 병리 카테고리 (암, 정상)를 하기 나타난 바와 같이, 100%의 정확성, 100%의 감수성, 및 100%의 특이성으로, 특징화하였다.
Figure 112013109183583-pct00033
이후 남성 및 여성 샘플이 암인지 정상인지 예측하기 위해 동일한 고려사항 (즉, 3개의 바이오마커의 서브세트 및 여성)을 검토하였다. 결과는 아래에서 보여준다.
Figure 112013109183583-pct00034
실시예 10 - AdaBoost를 이용한 데이터 수집 및 분석
데이터 사안
받은 데이터는 실시예 1에 대해 설명한 바와 같은 Luminex로부터의 비가공 바이오마커 농도 출력이었다. Luminex로부터의 데이터 출력은 형광 수준, 다수의 사건, 집합된 형광 수준, 트리밍된 형광 수준, 정상화된8 [8여기서 정상화된은 표준 곡선 상에서 농도에 관찰된 형광을 맞춤으로써 농도에 대한 관찰된 형광으로부터 변형된 것을 의미한다.] 바이오마커 농도, 집합된 정상화된 바이오마커 농도 및 트리밍된 바이오마커 농도를 포함하였다. 본 명세서에서 설명된 분석을 위하여, 정상화된 바이오마커 농도를 이용하였다. 단백질 정량화의 검사는 단백질의 전체량에 관하여 샘플이 거의 일치되고 따라서 바이오마커 수준을 추가로 정상화9 [9여기서 정상화는 샘플 중에서 단백질 수준의 차이를 설명하기 위해 인수로 곱한 것을 의미한다.]할 필요가 없다는 점을 보여주었다.
다음 86개의 바이오마커 각각에 대해 바이오마커 정량화 데이터를 수집하였다: 뇌 유래 신경영양 인자 ("BDNF"), B 림프구 화학유인물질 ("BLC"), Cutaneous T-세포 유인 케모카인 ("CTACK"), 에오탁신-2, 에오탁신-3, 그랜자임-B, 간세포 성장 인자 ("HGF"), I-TAC ("CXCL11"; "케모카인 (C-X-C 모티프) 리간드 11", "인터페론-유도성 T-세포 알파 화학유인물질"), 렙틴 ("LEP"), 백혈병 저해 인자 ("LIF"), 대식세포 집락-자극 인자 ("MCSF"), 감마 인터페론에 의해 유도된 모노카인 ("MIG"), 대식세포 염증 단백질-3α ("MIP-3α"), 신경 성장 인자 β("NGF-β"), 용해성 리간드 ("CD40 리간드"), 상피 성장 인자 ("EFG"), 에오탁신 ("CCL11"), 프랙탈킨, 섬유아세포 성장 인자 염기성 ("FGF-염기성"), 과립구 집락 자극 인자 ("G-CSF"), 과립구 대식세포 집락 자극 인자 ("GM-CSF"), 인터페론 γ ("IFN γ"), IFN-ω, IFN-α2, IFN-β, 인터루킨 ("IL") 1a, IL-1β, IL-1ra, IL-2, IL-2ra, IL-3, IL-4, IL-5, IL-6, IL-7, IL-8, IL-9, IL-10, IL-12(p40), IL-12(p70), IL-13, IL-15, IL-16, IL-17, IL-17a, IL-17F, IL-20, IL-21, IL-22, IL-23(p19), IL-27, IL-31, IP-10, 단핵구 화학주성 단백질 1 ("MCP-1"), 대식세포 염증 단백질 ("MIP") 1α, MIP-1β, 중성구-활성 펩티드 78 ("ENA-78"), 오스테오프로테그린 ("OPG"), 태반 성장 인자 ("PIGF"), 혈소판-유래 성장 인자 아단위 B 호모이합체 ("PDGFBB"), 활성시 조절, 정상 T-세포 발현, 및 분비 (Regulated upon Activation, Normal T-cell Expressed, and Secreted, "RANTES"), 줄기세포 성장 인자 ("SCGF"), 기질세포 유래 인자 1 ("SDF-1"), 용해성 Fas 리간드 ("Sfas-리간드"), 핵 인자 κ-B 리간드의 용해성 수용체 활성자 ("sRANKL"), 서비빈, 형질전환 성장 인자 a ("TGF α"), TGF-β, 종양 괴사 인자 a ("TNF α"), TNF-β, TNF 수용체 1 ("TNFR-I"), TNF-관련 아폽토시스-유도 리간드 ("TRAIL"), 혈관 내피 성장 인자 ("VEGF"), 아디포넥틴, 플라스미노겐 활성자 저해제 1 ("PAI-1"; "세르핀") (활성/전체), 레시스틴 ("RETN"; "xcp1"), sFas, 용해성 Fas 리간드 ("sFasL"), 대식세포 이동 저해 인자 ("MIF"), sE-셀렉틴, 용해성 혈관세포 부착 분자 ("sVCAM"), 용해성 세포내 부착 분자 ("sICAM"), 미엘로퍼옥시다아제 ("MPO"), 혈청 아밀로이드 A ("SAA" ; "SAA1")
대상 각각에 대하여, 세 가지 샘플 전체를 각각의 86개의 바이오마커 상에서 측정하였다. 분류의 목적을 위하여, 샘플 각각에 대한 카테고리를 부여하는 모델을 만들었다. 대상에 대한 임의의 샘플이 암으로 간주되었다면, 대상은 암을 갖는 것으로 추정하였다. 병리를 결정하는 이 방법은 투표와 같은 기타 가능한 방법보다 더 보존적이다.
탐지의 상한치 보다 위인 바이오마커 농도를 탐지의 상한치와 동일하게 설정하였다. 탐지의 하한치 아래의 바이오마커 농도를 탐지의 하한치와 동일하게 설정하고 2의 제곱근으로 나누었다. 이 해결법은 임시방편이고 진(true) 바이오마커 분포의 불편 추정치를 산출할 수 없다. 상기 해결법은 적절하게, 탐지의 상한치 또는 하한치의 바이오마커 값의 분포에서 점 질량(point mass)을 형성하는 효과를 갖는다. SVM은 비-파라미터적(non-parametric)이고 AdaBoost는 일련의 트리에 기반하므로, 상기 언급된 이 임시방편 해결법의 결점은 적용되지 않는다. 성별, 나이, 그리고 흡연을 모든 분류 모델에 포함시켰다.
결과
데이터: 폐 병리 카테고리, y (NSCLC, 정상), 및 86-투플의 연속적으로 분포된 바이오마커, x는 3배 (총 1634개 샘플, 암: 546, 암 없음: 1088)로 수행되는 각각의 544명의 대상 (암: 180, 암 없음: 364) 대해 이용가능하였다. 샘플에 대한 데이터 (y,x)는 관찰결과로서 언급된다. 544명의 대상 (1634개의 샘플)을 무작위로 트레이닝 (N = 209; 626개 샘플) 및 검증 (N = 335; 1008개 샘플) 세트로 분할하였다 (표 5).
Figure 112013109183583-pct00035
모델: 현재 연구에서, 단계 3a는 SVM 및 AdaBoost를 이용하였다. 본 명세서에서 제시된 결과는 모든 바이오마커와 데모그래픽 정보를 이용하는 모델에 대한 것이다 (544명의 대상, 대상 당 3개의 샘플로 하여 1643개의 샘플, 및 86개의 바이오마커). 바이오마커만 함유한 서브세트 및 모델 또는 바이오마커 전체 패널의 서브세트를 또한 검토하였다. AdaBoost는 SVM과 비교할 때 우수한 성능을 가졌고 따라서 AdaBoost를 엄밀하게 탐구하였다.
통계적 방법: 폐 병리 카테고리를 가진 바이오마커 각각의 분포에서 변동의 통계적 유의성을 Kruskal-Wallis 검사로 평가하였다. 모든 통계적 검사는 5%의 유의성 수준을 가진 양측성(two-sided)이었다. 비율에 대해 95% 상 하의 신뢰 경계를 컴퓨터 처리하는 데에 Jefferies 방법을 이용하였다. 샘플 당 기준으로 분석할 때 자기상관은 무시되었고 그리고 모든 분석에서, 다수의 비교에 대해 보정이 없었다.
모델 성능: 검증 세트내 샘플에 대해 모델의 예측을 검사함으로써 또는 대상 수준에서 샘플 예측을 모음으로써 모델 성능을 측정할 수 있다. 샘플 수준 예측을 모으기 위하여, 상기 예측으로부터 하나의 샘플이 암을 갖는 것으로 예측되었다면 대상은 암을 갖는 것으로 예측되었다. 데이터를 모으기 위한 다른 방법도 있지만, 이 실시예에서는, 감수성 (진 양성율이라고도 공지됨) 및 특이성 (1-위(false) 양성율)을 최대화시키는 방법을 선택하였다.
하나를 제외한 모든 바이오마커 (IP-10)은 유의한 변동을 나타내었다. 샘플 당 기준으로 성별에 관한 바이오마커 대조는 22개의 바이오마커가 유의한 변동을 나타내었다는 점을 보여주었다 (아디포넥틴, IL.27, IL.2ra, IL.31, LIF, MPO, PIGF, SCF, sE 셀렉틴, sFas.리간드, TNFR.II, ENA.78, 에오탁신, 프랙탈린, GCSF, GM.CSF, IL.15, I.TAC, 렙틴, MIP.1b, 레시스틴, IL.21). 샘플 당 기준으로 데이터베이스에서 인종 (백인, 흑인)에 의한 바이오마커 대조는 53개의 바이오마커가 유의한 변동을 나타내었다는 점을 보여주었다. 샘플 당 기준으로 데이터베이스에서 암과 암 없음의 대조는 하나를 제외한 모든 (IP.10) 바이오마커에 대해 유의한 변동을 발견하였다.
샘플 당 기준에서의 예측에 관하여 (표 6 내지 9), SVM은 전반적으로 Adaboost와 비교하여 열등한 성능을 나타내었다 [SVM: 감수성=0.78 (0.02), 95% 신뢰 구간 (0.74, 0.82), 특이성=0.92 (0.01), 95% CI (0.90, 0.94), Adaboost: 감수성=0.86 (0.02), 95% CI (0.82, 0.89), 특이성=0.93 (0.01), 95% CI (0.90, 0.94)]. Adaboost 성능은 남성 (표 10 및 11)에 대해 그리고 여성(표 12 및 13)에 대해 제한할 때 유사하였다 [남성: 감수성=0.87 (0.02), 95% CI (0.82, 0.91), 특이성=0.95 (0.01), 95% CI (0.92, 0.97), 여성: 감수성=0.82 (0.03), 95% CI (0.76, 0.87), 특이성=0.94 (0.01), 95% CI (0.90, 0.96)].
Figure 112013109183583-pct00036
Figure 112013109183583-pct00037
Figure 112013109183583-pct00038
Figure 112013109183583-pct00039
Figure 112013109183583-pct00040
Figure 112013109183583-pct00041
Figure 112013109183583-pct00042
Figure 112013109183583-pct00043
대상 당 기준에서의 예측에 관하여 (표 14 내지 17), SVM은 전반적으로 Adaboost와 비교하여 열등한 성능을 나타내었다 [SVM: 감수성=0.79 (0.04), 95% 신뢰 구간 (0.70, 0.85), 특이성=0.92 (0.02), 95% CI (0.88, 0.95), Adaboost: 감수성=0.87 (0.03), 95% CI (0.80, 0.92), 특이성=0.93 (0.02), 95% CI (0.88, 0.96)]. Adaboost 성능은 남성 (표 18 및 19)에 대해 그리고 여성(표 20 및 21)에 대해 제한할 때 유사하였다 [남성: 감수성=0.95 (0.02), 95% CI (0.89, 0.98), 특이성=0.87 (0.04), 95% CI (0.76, 0.93), 여성: 감수성=0.95 (0.02), 95% CI (0.90, 0.98), 특이성=0.74 (0.06), 95% CI (0.61, 0.83)].
Figure 112013109183583-pct00044
Figure 112013109183583-pct00045
Figure 112013109183583-pct00046
Figure 112013109183583-pct00047
Figure 112013109183583-pct00048
Figure 112013109183583-pct00049
Figure 112013109183583-pct00050
Figure 112013109183583-pct00051
수신자 작동 특성 (ROC) 곡선 및 곡선 하 영역 (AUC)은 Adaboost 및 SVM에 대하여 도 1 및 2에서 보여준다; Adaboost AUC는 0.98이고 SVM AUC는 0.96이다. 남성 및 여성에 대한 Adaboost ROC 곡선은 도 3 및 4에서 보여준다. 남성에 대한 AUC는 0.98이고 여성에 대한 AUC는 0.95이다. Adaboost 가변적 중요 플롯은 도 5에서 보여준다; Adaboost 모델에서 세 가지 가장 중요한 변수는 CTACK, MSCF, 및 에오탁신.3이다. 남성에 대한 제한이 있는 Adaboost 가변적 중요 플롯은 도 6에서 보여준다; 세 가지 가장 중요한 변수는 MCSF, CTACK, 및 에오탁신.3이다. 여성에 대한 제한이 있는 Adaboost 가변적 중요 플롯은 도 7에서 보여준다; 세 가지 가장 중요한 변수는 MCSF, FGF.염기성, 및 CTACK이다.
AdaBoost의 성능은 데이터 세트가 트레이닝 및 검증 세트로 무작위 분할하는 인공물이 아니라는 점을 확인하기 위하여, 200개의 무작위 분할을 만들었고 그리고 분할 각각에 대하여, 모델은 정합하였다. 이들 200개 모델의 성능 분포는 도 8 내지 10에서 요약된다. Adaboost의 성능은 일정하게 양호한 것으로 나타나며 이는 Adaboost에 대한 인용된 성능 통계는 유효하다는 점을 제시한다.
논의
이들 데이터는 성별에 의한 제한없이 및 제한으로 Adaboost 분류기에 대하여 우수한 예측의 일정한 패턴을 나타낸다. 기타 분석은 a) 바이오마커만을 이용하여 암을 모형화하는 단계, b) 바람직하게 도 5-7의 결과에 기반하여, 더욱 바람직하게는 이들 도면에서 0.004보다 높은, 더욱 바람직하게는 0.006, 더욱 더 바람직하게는 0.008. 더욱 더 바람직하게는 0.01의 점수를 갖는 바이오마커를 포함하여, 양호한 예측 질을 가지지만 수적으로 적은 최적 바이오마커 서브세트를 만드는 단계, c) 이 실시예의 결과를 실시예 1-9의 결과들과 비교하는 단계를 포함해야 한다.
실시예 11 - 비-소세포 폐암에 대한 진단 검사
진단 정보가 바람직한 환자로부터 생물학적 유동체의 샘플을 얻는다. 바람직하게 샘플은 혈청 또는 혈장이다. 실시예 1-10 중 어느 하나로부터의 바이오마커 각각의 샘플내 농도를 측정한다: 샘플로부터 바이오마커 각각의 측정된 농도를 서포트 벡터 머신에서의 트레이닝 데이터를 이용하여 결정된 방정식에 입력한다. 방정식에 의해 측정된 값이 양성이라면, 이는 비-소세포 폐암을 나타내고, 그리고 값이 음성이라면, 이는 비-소세포 폐암의 부재를 나타낸다.
실시예 12 남성 대상내 비-소세포 폐암에 대한 진단 검사
진단 정보가 바람직한 남성 환자로부터 생물학적 유동체의 샘플을 얻는다. 바람직하게 샘플은 혈청 또는 혈장이다. 실시예 1-5, 7-8 또는 10 중 어느 하나로부터의 바이오마커 각각의 샘플내 농도를 측정한다: 샘플로부터 바이오마커 각각의 측정된 농도를 서포트 벡터 머신에서의 트레이닝 데이터를 이용하여 결정된 방정식에 입력한다. 방정식에 의해 측정된 값이 양성이라면, 이는 비-소세포 폐암을 나타내고, 그리고 값이 음성이라면, 이는 비-소세포 폐암의 부재를 나타낸다.
실시예 13 - 남성 대상내 비-소세포 폐암에 대한 대안적인 검사
본 명서세에서 설명된 많은 바이오마커는, 모두는 아니더라도 상기 설명된 부류의 통신 경로에 참여한다. 몇몇 바이오마커는 일차 상호작용자로서 서로 관련된다. 진단 또는 예측 어세이에서 이용하기 위한 바이오마커 선택은 특정한 바이오마커 및 그들의 일차 상호자용자 간의 공지된 관계를 이용하여 용이하게 할 수 있다. HGF (간세포 성장 인자) 및 기타 바이오마커 간의 공지된 통신 관계는 ARIADNE PATHWAY STUDIO®에 의해 발생된 도 5에서 볼 수 있다. 도 5는 HGF (간세포 성장 인자)의 일차 상호작용자가 sFasL (용해성 Fas 리간드), PAI-1 (세르핀 플라스미노겐 활성자 저해제 1) (활성/전체), Ins (인슐린; C-펩티드를 또한 포함함), EGF (상피 성장 인자), MPO (미엘로퍼옥시다아제), 및 MIF (대식세포 이동 저해 인자)를 포함한다는 점을 보여준다. 기타 상호작용자 (일차가 아님)는 RETN (레시스틴, xcp1), SAA1 (혈청 아밀로이드 A, SAA), CCL11 (에오탁신), LEP (렙틴) 및 CXCL11 (케모카인 (C-X-C 모티프) 리간드 11, 인터페론-유도성 T-세포 알파 화학유인물질 (I-TAC) 또는 인터페론-감마-유도성 단백질 9 (IP-9))를 포함한다. 추가로, 도 5는 두 개의 바이오마커 MMP1 및 MMP-8 (기질금속단백질 분해효소 1 및 8)은 HGF를 이용한 통신 경로 상에 있지 않다는 점을 보여준다.
진단 정보가 바람직한 환자로부터 생물학적 유동체의 샘플을 얻었다. 바람직하게 샘플은 혈청 또는 혈장이다. 오직 선택된 바이오마커의 샘플내 농도를 측정하였다. HGF는 서포트 벡터 머신에서 이용하기 위해 선택된 바이오마커 중 하나라는 것을 가정하고, 이후 HGF의 임의의 일차 상호작용자 (가령, MIF, EGF, )의 농도는 HGF를 대신할 수 있다. 이에 따라서, 서포트 벡터 머신은 HGF를 대체한 일차 상호 작용자로 트레이닝 데이터에 대해 재-수행한다. 이후 이 모델을 환자 샘플에 적용시킨다. 방정식에 의해 측정된 값이 양성이라면, 이는 비-소세포 폐암을 나타내고, 값이 음성이라면, 이는 비-소세포 폐암의 부재를 나타낸다.
실시예 14 - 비-소세포 폐암 및 반응성 기도 질환 구별
비-소세포 폐암 및 반응성 기도 질환을 구별하기 위하여, 일련의 세 가지 측정이 이루어졌다: (1) 비-소세포 폐암의 존재 또는 부재 평가; (2) 반응성 기도 질환의 존재 또는 부재 평가; 및 (3) 비-소세포 폐암 또는 반응성 기도 질환 평가. 다음과 같이 이들 평가를 수행하였다.
진단 정보가 바람직한 환자로부터 생물학적 유동체의 샘플을 얻었다. 바람직하게 샘플은 혈청 또는 혈장이다. 실시예 1-10 중 어느 하나로부터의 바이오마커 샘플내 농도를 측정한다. 샘플로부터 바이오마커 각각의 측정된 농도를 서포트 벡터 머신에서의 트레이닝 데이터를 이용하여 결정된 방정식에 입력한다. 방정식에 의해 측정된 값이 양성이라면, 이는 비-소세포 폐암을 나타내고, 그리고 값이 음성이라면, 이는 비-소세포 폐암의 부재를 나타낸다.
이후 실시예 1-10 중 어느 하나로부터의 바이오마커 샘플내 농도를 측정한다. 샘플로부터 바이오마커 각각의 측정된 농도를 서포트 벡터 머신에서의 트레이닝 데이터를 이용하여 결정된 방정식에 입력한다. 방정식에 의해 측정된 값이 양성이라면, 이는 반응성 기도 질환을 나타내고, 그리고 값이 음성이라면, 이는 반응성 기도 질환의 부재를 나타낸다.
이후 실시예 1-10 중 어느 하나로부터의 바이오마커 샘플내 농도를 측정한다. 샘플로부터 바이오마커 각각의 측정된 농도를 서포트 벡터 머신에서의 트레이닝 데이터를 이용하여 결정된 방정식에 입력한다. 방정식에 의해 측정된 값이 양성이라면, 이는 비-소세포 폐암을 나타내고, 그리고 값이 음성이라면, 이는 반응성 기도 질환을 나타낸다.
양성 및 음성 점수를 분석함으로써 이들 결과를 추가로 평가한다. 특히, 환자가 비-소세포 폐암, 반응성 기도 질환을 가지고 있는지 또는 질환의 부재인지에 대한 결정은 질환이 세 가지 점수 중 두 가지에서 발견된다는 점에 의존한다. 예를 들어, 첫 번째 및 세 번째 검사가 양성이라면, 환자는 비-소세포 폐암을 갖는 것으로 진단될 수 있다. 첫 번째 및 두 번째 검사가 음성이라면, 환자는 비-소세포 폐암 또는 반응성 기도 질환을 가지지 않는 것으로서 진단될 수 있다.
본 개시에 포함된 방정식, 공식 및 관계는 예시적이고 대표적이며 그리고 제한되는 것을 의미하지는 않는다. 본 명세서에 개시된 임의로 주어진 방정식에 의해 설명된 동일한 현상을 나타내기 위해 대체 방정식이 이용될 수 있다. 특히, 본 명세서에 개시된 방정식은 오류-정정 항, 고-차 항을 첨가함으로써 또는 그렇지 않으면 부정확성을 설명함으로써, 정수 또는 변수에 대한 상이한 명칭을 이용함으로써, 또는 상이한 식을 이용함으로써 변형될 수 있다. 방정식의 기타 변형, 치환, 교체, 또는 개조가 수행될 수 있다.
본 명세서에서 언급된 모든 공개공보, 특허, 및 발행된 특허 출원은 각각 개별적인 공개공보, 특허, 또는 발행된 특허 출원이 참조로서 편입되기 위해 특이적으로 그리고 개별적으로 명시되었던 것과 같이 동일한 정도로, 이들 전체로 참조로서 본 명세서에 편입된다.

Claims (104)

  1. 삭제
  2. 삭제
  3. 삭제
  4. 삭제
  5. 삭제
  6. 삭제
  7. 삭제
  8. 삭제
  9. 삭제
  10. 삭제
  11. 삭제
  12. 삭제
  13. 삭제
  14. 삭제
  15. 삭제
  16. 삭제
  17. 삭제
  18. 삭제
  19. 삭제
  20. 삭제
  21. 삭제
  22. 삭제
  23. 삭제
  24. 삭제
  25. 삭제
  26. 삭제
  27. 삭제
  28. 삭제
  29. 삭제
  30. 삭제
  31. 삭제
  32. 삭제
  33. 삭제
  34. 삭제
  35. 삭제
  36. 삭제
  37. 삭제
  38. 삭제
  39. 삭제
  40. 삭제
  41. 삭제
  42. 삭제
  43. 삭제
  44. 삭제
  45. 삭제
  46. 삭제
  47. 삭제
  48. 삭제
  49. 삭제
  50. 삭제
  51. 삭제
  52. 삭제
  53. 삭제
  54. 삭제
  55. 삭제
  56. 삭제
  57. 삭제
  58. 삭제
  59. 삭제
  60. 삭제
  61. 삭제
  62. 삭제
  63. 삭제
  64. 삭제
  65. 삭제
  66. 삭제
  67. 삭제
  68. 삭제
  69. 삭제
  70. 삭제
  71. 삭제
  72. 삭제
  73. 삭제
  74. 삭제
  75. 삭제
  76. 삭제
  77. 삭제
  78. 삭제
  79. 삭제
  80. 삭제
  81. 삭제
  82. 삭제
  83. 삭제
  84. 삭제
  85. 삭제
  86. 삭제
  87. 삭제
  88. (a) 대상으로부터의 생리학적 샘플에서 적어도 4개의 바이오마커의 발현 수준을 결정하는 단계로서,
    4개의 바이오마커가 기질금속단백질분해효소("MMP") 1, MMP 7, MMP 9, 에오탁신("CCL11"), 인터루킨("IL") 13, IP-10, 글루카곤 유사 단백질-1/아밀린("GLP-1/아밀린"), 아디포넥틴, 플라스미노겐 활성 저해제 1("PAI-1"; "세르핀")(활성/전체), 미엘로퍼옥시다아제("MPO"), 혈청 아밀로이드 A("SAA"), 단핵구 화학주성 단백질 1("MCP-1"), I-TAC, 상피 성장 인자("EGF") 및 IL-12(p70)로 이루어진 군에서 선택되고,
    바이오마커가 펩티드, 단백질, 번역-후 변형 함유 펩티드, 번역-후 변형 함유 단백질, 또는 이들의 조합이며,
    생리학적 샘플이 전체 혈액, 혈장, 혈청, 또는 이들의 조합인 단계, 및
    (b) 분류기를 포함하는 기계 학습 시스템을 이용하여 바이오마커 측정치에 기초하여 샘플을 분류하는 단계로서,
    분류기가 랜덤 포레스트(Random Forest) 또는 아다부스트(AdaBoost), 또는 랜덤 포레스트의 앙상블이고,
    샘플의 분류가 대상에서 비-소세포 폐암의 존재 또는 발생을 나타내는 것인 단계
    를 포함하는, 대상에서 비-소세포 폐암의 존재를 결정하는 것을 보조하는 방법.
  89. 제88항에 있어서, 기계 학습 시스템이 랜덤 포레스트인 방법.
  90. 제88항에 있어서, 기계 학습 시스템이 아다부스트인 방법.
  91. 제88항에 있어서, 바이오마커 측정치가 적어도 6개 또는 적어도 10개의 바이오마커를 포함하는 것인 방법.
  92. 제88항에 있어서, 분류는 하기의 a~f를 실행하도록 구성된 논리(logic)를 이용하여 바이오마커 수퍼세트(superset)로부터 바이오마커 세트를 선택하도록 구성된 컴퓨터에 의해 수행되는 것인 방법:
    a. 바이오마커 수퍼세트내 각 바이오마커에 대하여, 각 바이오마커에 대한 두 그룹의 농도 측정치의 주변 분포 간의 거리를 계산함으로써, 다수의 거리가 발생됨;
    b. 거리에 따라서 바이오마커 수퍼세트내 바이오마커를 순서화함으로써, 순서화된 바이오마커 세트가 발생됨;
    c. 순서화된 바이오마커 세트의 다수의 초기 세그먼트 각각에 대하여, 트레이닝 데이터에 기초한 모델 정합(model fit)의 척도를 계산함;
    d. 모델 정합의 최대 척도에 따라서 순서화된 바이오마커 세트의 초기 세그먼트를 선택함으로써, 순서화된 바이오마커 세트의 바람직한 초기 세그먼트가 선택됨;
    e. 바이오마커의 눌 세트(null set)로 시작해서, 순서화된 바이오마커 세트의 바람직한 초기 세그먼트로부터의 추가적인 바이오마커를 재귀적으로 추가하여 바이오마커 서브세트(subset)를 생성하며, 각 추가적인 바이오마커는, (1) 이의 추가가 바람직한 초기 세그먼트에 남아있는 바이오마커 중에서 모델 정합을 개선시킨다면, 그리고 (2) 이의 추가가 적어도 예정된 역치만큼 모델 정합을 개선시킨다면, 기존의 바이오마커 서브세트에 추가됨;
    f. 추가적인 바이오마커가 예정된 역치만큼 모델 정합의 척도를 초과하는 모델 정합의 척도를 야기하지 않는 경우 기존의 바이오마커 서브세트에 바이오마커를 추가하는 것을 중지함으로써, 바이오마커 서브세트가 선택됨.
  93. 제88항에 있어서, 분류 단계는, 인간 시험 대상에 대한 시험 데이터를 수신하고 전자적으로 저장된 제1 트레이닝 데이터 벡터 세트를 이용하여 트레이닝된 아다부스트 및/또는 랜덤 포레스트 분류기의 전자적 표현을 이용하여 시험 데이터를 평가하도록 프로그래밍된 전자 컴퓨터를 포함하는 시스템을 이용하여 수행되며, 시험 데이터는 바이오마커 세트의 적어도 각 바이오마커의 바이오마커 측정치를 포함하고, 제1 트레이닝 데이터 벡터 세트의 각 트레이닝 데이터 벡터는 개별적인 인간을 나타내고 각각의 인간에 대한 바이오마커 세트의 적어도 각 바이오마커의 바이오마커 측정치를 포함하며, 제1 트레이닝 데이터 벡터 세트의 각 트레이닝 데이터 벡터는 각각의 인간의 질환 상태에 대한 분류를 추가로 포함하고;
    컴퓨터는 서포트 벡터 머신의 전자적 표현에 기초하여 인간 시험 대상의 분류를 출력하도록 추가적으로 프로그래밍되며; 바이오마커 세트의 각 바이오마커는 (A) 각 바이오마커에 대한 두 그룹의 농도 측정치의 주변 분포의 중심집중 경향의 함수에 따라서 가장 큰 것부터 가장 작은 것까지 순서화된 바이오마커의 초기 세그먼트에 있으며, 순서화된 바이오마커의 초기 세그먼트는 제2 트레이닝 데이터 벡터 세트의 정확한 분류 퍼센트에 대하여 순서화된 바이오마커의 다른 초기 세그먼트 중 최대이고, 제2 트레이닝 데이터 벡터 세트의 각 트레이닝 데이터 벡터는 개별적인 인간을 나타내고 각각의 인간에 대한 바이오마커 세트의 적어도 각 바이오마커의 바이오마커 측정치를 포함하며, 제2 트레이닝 데이터 벡터 세트의 각 트레이닝 데이터 벡터는 각각의 인간의 질환 상태에 대한 분류를 추가로 포함하는 것인 방법.
  94. 제93항에 있어서, 바이오마커 세트의 각 바이오마커는, 눌 세트로 시작해서, 추가적인 바이오마커의 추가가 제2 트레이닝 데이터 벡터 세트의 정확한 분류 퍼센트를 적어도 5%의 역치만큼 증가시키지 않을 때까지, 제2 트레이닝 데이터 벡터 세트의 정확한 분류 퍼센트를 최대로 개선시키는 바이오마커를 이전 세트에 재귀적으로 추가함으로써 발생된 바이오마커 세트에 있는 것인 방법.
  95. 제88항에 있어서, 바이오마커가 면역어세이로 측정되는 것인 방법.
  96. 제88항에 있어서, 바이오마커의 세트가 아포리포단백질("Apo") A1, ApoA2, ApoB, ApoC2, ApoE, CD40, D-이합체, 인자-VII, 인자-VIII, 인자-X, 단백질-C, 조직 플라스미노겐 활성자("TPA"), 뇌 유래 신경영양 인자("BDNF"), B 림프구 화학유인물질("BLC"), 케모카인 (C-X-C 모티프) 리간드 1("GRO-1"), 피부 T-세포 유인 케모카인("CTACK"), 에오탁신-2, 에오탁신-3, 그랜자임-B, I-TAC("CXCL11"; 케모카인 (C-X-C 모티프) 리간드 11), 인터페론-유도성 T-세포 알파 화학유인물질, 단핵구-특이 케모카인 3("MMP-3"), 대식세포 집락-자극 인자("MCSF"), 대식세포 염증 단백질-3α("MIP-3α"), 기질금속단백질분해효소("MMP") 1, MMP 2, MMP 3, MMP 7, MMP 8, MMP 9, MMP 12, MMP 13, CD40, 신경 성장 인자 β("NGF-β"), 상피 성장 인자("EGF"), 에오탁신("CCL11"), 프랙탈킨, 섬유아세포 성장 인자 염기성("FGF-염기성"), 과립구 집락 자극 인자("G-CSF"), 과립구 대식세포 집락 자극 인자("GM-CSF"), 인터페론 γ("IFN γ"), IFN-ω, IFN-α2, IFN-β, 인터루킨("IL") 1α, IL-1β, IL-1ra, IL-2, IL-2ra, IL-3, IL-6, IL-12(p40), IL-13, IL-15, IL-17, IL-17a, IL-17F, IL-20, IL-21, IL-22, IL-23(p19), IL-27, IL-31, IP-10, 대식세포 염증 단백질("MIP") 1α, MIP-1β, 중성구-활성 펩티드 78("ENA-78"), 오스테오프로테그린("OPG"), 태반 성장 인자("PIGF"), 줄기세포 성장 인자("SCGF"), 기질세포 유래 인자 1("SDF-1"), 핵 인자 κ-B 리간드의 용해성 수용체 활성자("sRANKL"), 서비빈, 형질전환 성장 인자 α("TGF α"), TGF-β, 종양 괴사 인자 α("TNF α"), TNF-β, TNF 수용체 1("TNFR-I"), TNFR-II, TNF-관련 아폽토시스-유도 리간드("TRAIL"), 트롬보포이에틴("TPO"), 혈관 내피 성장 인자("VEGF"), 인슐린("Ins"), C-펩티드, 글루카곤 유사 단백질-1/아밀린("GLP-1/아밀린"), 아밀린(전체), 글루카곤, 아디포넥틴, 플라스미노겐 활성자 저해제 1("PAI-1"; "세르핀")(활성/전체), sFas, sE-셀렉틴, 용해성 혈관 세포 부착 분자("sVCAM"), C-반응성 단백질("CRP"), 또는 혈청 아밀로이드 P("SAP")의 바이오마커 중 적어도 하나를 더 포함하는 것인 방법.
  97. 삭제
  98. 삭제
  99. 삭제
  100. 삭제
  101. 삭제
  102. 삭제
  103. 삭제
  104. 삭제
KR1020137031742A 2011-04-29 2012-04-30 분류 시스템 및 이의 키트를 이용하여 폐 질환을 식별 및 진단하는 방법 KR102136180B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201161480802P 2011-04-29 2011-04-29
US61/480,802 2011-04-29
US201261619279P 2012-04-02 2012-04-02
US61/619,279 2012-04-02
PCT/US2012/035842 WO2012149550A1 (en) 2011-04-29 2012-04-30 Methods of identification and diagnosis of lung diseases using classification systems and kits thereof

Publications (2)

Publication Number Publication Date
KR20140024916A KR20140024916A (ko) 2014-03-03
KR102136180B1 true KR102136180B1 (ko) 2020-07-22

Family

ID=47072811

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020137031742A KR102136180B1 (ko) 2011-04-29 2012-04-30 분류 시스템 및 이의 키트를 이용하여 폐 질환을 식별 및 진단하는 방법

Country Status (10)

Country Link
US (2) US9952220B2 (ko)
EP (3) EP2702411A4 (ko)
JP (4) JP2014514572A (ko)
KR (1) KR102136180B1 (ko)
CN (3) CN105005680B (ko)
AU (2) AU2012249288C1 (ko)
CA (2) CA3120217A1 (ko)
HK (1) HK1247286A1 (ko)
IL (3) IL278227B (ko)
WO (1) WO2012149550A1 (ko)

Families Citing this family (54)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012006632A2 (en) 2010-07-09 2012-01-12 Somalogic, Inc. Lung cancer biomarkers and uses thereof
JP2012520469A (ja) 2009-03-12 2012-09-06 キャンサー・プリヴェンション・アンド・キュア,リミテッド 性別に基づく疾病の識別・評価・予防及び治療を含む、肺病の識別・評価・予防及び治療の方法並びにそのキット
BR112013003391B8 (pt) 2010-08-13 2022-10-25 Somalogic Inc Método para diagnosticar câncer pancreático em um indivíduo
EP2971054A4 (en) 2013-03-14 2017-04-12 Otraces Inc. A method for improving disease diagnosis using measured analytes
US11976329B2 (en) 2013-03-15 2024-05-07 Veracyte, Inc. Methods and systems for detecting usual interstitial pneumonia
JP6250351B2 (ja) * 2013-09-30 2017-12-20 シスメックス株式会社 好酸球性気道炎症に関する情報の取得方法およびそのような情報を取得するためのマーカー
WO2015066564A1 (en) * 2013-10-31 2015-05-07 Cancer Prevention And Cure, Ltd. Methods of identification and diagnosis of lung diseases using classification systems and kits thereof
WO2015108863A1 (en) * 2014-01-14 2015-07-23 Rush University Medical Center Angiogenesis biomarkers associated with disease progression in lung cancer
EP2899543A1 (en) * 2014-01-28 2015-07-29 Predemtec GmbH Biomarker and methods for early diagnosis of Alzheimer's disease
WO2015164772A1 (en) * 2014-04-25 2015-10-29 Rush University Medical Center Circulating insulin-like growth factor (igf)-associated proteins for the detection of lung cancer
CN103954755B (zh) * 2014-04-30 2017-04-05 广东省结核病控制中心 一种结核分枝杆菌潜伏感染的诊断试剂盒
CN105306657B (zh) 2014-06-20 2019-07-26 中兴通讯股份有限公司 身份识别方法、装置及通讯终端
CN104198694A (zh) * 2014-09-18 2014-12-10 复旦大学附属华山医院 一种诊断试剂盒和使用该诊断试剂盒鉴别结核病与肿瘤的方法
JP2017530356A (ja) 2014-09-26 2017-10-12 ソマロジック, インコーポレイテッドSomaLogic, Inc. 心血管系のリスクイベントの予測及びその使用
CN107206043A (zh) * 2014-11-05 2017-09-26 维拉赛特股份有限公司 使用机器学习和高维转录数据在经支气管活检上诊断特发性肺纤维化的系统和方法
WO2016094330A2 (en) * 2014-12-08 2016-06-16 20/20 Genesystems, Inc Methods and machine learning systems for predicting the liklihood or risk of having cancer
US9870449B2 (en) * 2015-02-24 2018-01-16 Conduent Business Services, Llc Methods and systems for predicting health condition of human subjects
US20160283686A1 (en) * 2015-03-23 2016-09-29 International Business Machines Corporation Identifying And Ranking Individual-Level Risk Factors Using Personalized Predictive Models
CN104866713B (zh) * 2015-05-12 2018-02-13 南京霁云信息科技有限公司 基于增量局部鉴别子空间嵌入的川崎病和发烧诊断系统
CN104897893A (zh) * 2015-06-10 2015-09-09 复旦大学附属华山医院 一种基于结核特异性il-31检测的诊断结核分枝杆菌感染的试剂盒
CN105404887B (zh) * 2015-07-05 2019-04-09 中国计量大学 一种基于随机森林的白细胞五分类方法
JP6605415B2 (ja) * 2015-08-26 2019-11-13 ヴァイアヴィ・ソリューションズ・インコーポレイテッド 分光法を用いる識別
CN108290058B (zh) 2015-09-17 2023-05-16 美国安进公司 使用il23途径生物标志物预测il23拮抗剂的临床应答
US11972336B2 (en) 2015-12-18 2024-04-30 Cognoa, Inc. Machine learning platform and system for data analysis
CN108780663B (zh) * 2015-12-18 2022-12-13 科格诺亚公司 数字个性化医学平台和系统
RU2021137343A (ru) * 2016-01-22 2022-01-26 Отрэйсис, Инк. Системы и способы улучшения диагностики заболеваний
CN105944082B (zh) * 2016-06-13 2017-08-25 浙江生创精准医疗科技有限公司 骨保护素单独或与其他细胞因子联合在治疗肝纤维化中的用途
WO2018017355A1 (en) * 2016-07-22 2018-01-25 Case Western Reserve University Methods and apparatus for predicting benefit from immunotherapy using tumoral and peritumoral radiomic features
CN106645739B (zh) * 2016-08-22 2019-07-02 深圳华晓静生物科技有限公司 一种最优超平面的构建方法、动态优化系统和构建装置
KR101853118B1 (ko) * 2016-09-02 2018-04-30 주식회사 바이오인프라생명과학 피험체의 폐암 진단을 위한 복합 바이오마커군, 이를 이용하는 폐암 진단용 키트, 복합 바이오마커군의 정보를 이용하는 방법 및 이를 수행하는 컴퓨팅 시스템
CN106528668B (zh) * 2016-10-23 2018-12-25 哈尔滨工业大学深圳研究生院 一种基于可视化网络的二阶代谢质谱化合物检测方法
JP6997778B2 (ja) * 2016-11-10 2022-02-10 エフ・ホフマン-ラ・ロシュ・アクチェンゲゼルシャフト 距離に基づく腫瘍分類
EP3542368A1 (en) * 2016-11-21 2019-09-25 Sensome Characterizing and identifying biological structure
CN106897570B (zh) * 2017-03-02 2021-05-11 山东师范大学 一种基于机器学习的慢性阻塞性肺疾病测试系统
US10546237B2 (en) * 2017-03-30 2020-01-28 Atomwise Inc. Systems and methods for correcting error in a first classifier by evaluating classifier output in parallel
CN110709936A (zh) * 2017-04-04 2020-01-17 肺癌蛋白质组学有限责任公司 用于早期肺癌预后的基于血浆的蛋白质概况分析
EP3665694A4 (en) * 2017-08-09 2021-04-21 Otraces Inc. SYSTEMS AND METHODS FOR IMPROVING DISEASE DIAGNOSIS BY MEASUREMENT OF ANALYTES
KR20200095465A (ko) * 2017-10-18 2020-08-10 벤 바이오사이언시스 코포레이션 진단 및 치료 모니터링을 위한 생물학적 매개변수의 식별 및 용도
KR101951727B1 (ko) * 2018-02-02 2019-02-26 (주)바이오인프라생명과학 멀티 암 판별을 위한 컴퓨팅 방법 및 이를 이용한 컴퓨팅 장치
CN112292697A (zh) * 2018-04-13 2021-01-29 弗里诺姆控股股份有限公司 用于生物样品的多分析物测定的机器学习实施方式
CN108802379B (zh) * 2018-06-14 2021-04-16 北京市心肺血管疾病研究所 一组用于判断主动脉夹层预后的分子标志物组
WO2020006547A1 (en) * 2018-06-30 2020-01-02 20/20 Genesystems, Inc Cancer classifier models, machine learning systems and methods of use
EP4369356A3 (en) * 2018-11-30 2024-07-24 Caris MPI, Inc. Next-generation molecular profiling
WO2020131658A1 (en) * 2018-12-19 2020-06-25 University Of Pittsburgh-Of The Commonwealth System Of Higher Education Computational systems pathology spatial analysis platform for in situ or in vitro multi-parameter cellular and subcellular imaging data
EP3904495A4 (en) * 2018-12-27 2022-09-21 HORIBA, Ltd. BLOOD ANALYSIS DEVICE, COMPUTER PROGRAM AND BLOOD ANALYSIS METHOD
JP7526188B2 (ja) * 2019-01-08 2024-07-31 カリス エムピーアイ インコーポレイテッド ゲノムプロファイリングの類似性
CN112748191A (zh) * 2019-10-30 2021-05-04 深圳脉图精准技术有限公司 诊断急性疾病的小分子代谢物生物标志物及其筛选方法和应用
JP2023504270A (ja) 2019-12-02 2023-02-02 カリス エムピーアイ インコーポレイテッド 汎がんのプラチナ反応予測子
CN111351942B (zh) * 2020-02-25 2024-03-26 北京尚医康华健康管理有限公司 肺癌肿瘤标志物筛选系统及肺癌风险分析系统
CN111879940B (zh) * 2020-04-28 2022-02-01 中国科学院微生物研究所 肺结核标志物及应用
CN111505315B (zh) * 2020-05-07 2023-04-11 杭州师范大学 一种蛋白组合式标志物在制备儿童哮喘诊断试剂中的应用
CN112226503A (zh) * 2020-10-19 2021-01-15 西北大学 Cxcl10和hgf的组合作为肺炎及其感染源检测标志物的应用
CN113299388B (zh) * 2021-05-12 2023-09-29 吾征智能技术(北京)有限公司 基于发热伴皮疹的跨模态医学生物特征认知疾病的系统
CN117743957B (zh) * 2024-02-06 2024-05-07 北京大学第三医院(北京大学第三临床医学院) 一种基于机器学习的Th2A细胞的数据分选方法及相关设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060088894A1 (en) 2002-05-10 2006-04-27 Eastern Virginia Medical School Prostate cancer biomarkers
US20070092917A1 (en) 1998-05-01 2007-04-26 Isabelle Guyon Biomarkers for screening, predicting, and monitoring prostate disease
US20080109389A1 (en) 2006-11-02 2008-05-08 Polyak Roman A Classification Tool
US20080235165A1 (en) 2003-07-24 2008-09-25 Movellan Javier R Weak hypothesis generation apparatus and method, learning aparatus and method, detection apparatus and method, facial expression learning apparatus and method, facial enpression recognition apparatus and method, and robot apparatus
JP2009501318A (ja) 2005-06-24 2009-01-15 ザ ボード オブ トラスティーズ オブ ザ リーランド スタンフォード ジュニア ユニバーシティ アテローム動脈硬化性心血管疾患の診断およびモニタリングのための方法ならびに組成物
US20100009386A1 (en) * 2007-09-11 2010-01-14 Cancer Prevention And Cure, Ltd. Methods of identification, assessment, prevention and therapy of lung diseases and kits thereof
WO2010030697A1 (en) * 2008-09-09 2010-03-18 Somalogic, Inc. Lung cancer biomarkers and uses thereof
JP2010523979A (ja) 2007-04-05 2010-07-15 オーレオン ラボラトリーズ, インコーポレイテッド 医学的状態の処置、診断および予測のためのシステムおよび方法
US20100250275A1 (en) 2007-10-18 2010-09-30 Canon Kabushiki Kaisha Diagnosis support apparatus, method of controlling diagnosis support apparatus, and program therefor

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7617163B2 (en) 1998-05-01 2009-11-10 Health Discovery Corporation Kernels and kernel methods for spectral data
CN1192796C (zh) * 1999-02-12 2005-03-16 斯克里普斯研究学院 联合应用抗血管生成和免疫治疗以治疗肿瘤和转移的方法
PT1157041E (pt) 1999-03-01 2005-10-31 Genentech Inc Anticorpos para terapia e diagnostico de cancro
TW200413725A (en) 2002-09-30 2004-08-01 Oncotherapy Science Inc Method for diagnosing non-small cell lung cancers
US7467119B2 (en) 2003-07-21 2008-12-16 Aureon Laboratories, Inc. Systems and methods for treating, diagnosing and predicting the occurrence of a medical condition
US7505948B2 (en) 2003-11-18 2009-03-17 Aureon Laboratories, Inc. Support vector regression for censored data
WO2005086068A2 (en) 2004-02-27 2005-09-15 Aureon Laboratories, Inc. Methods and systems for predicting occurrence of an event
US20090204334A1 (en) * 2004-03-30 2009-08-13 Eastern Virginia Medical School Lung cancer biomarkers
US20060154276A1 (en) * 2004-05-13 2006-07-13 Prometheus Laboratories Inc. Methods of diagnosing inflammatory bowel disease
GB0412301D0 (en) * 2004-06-02 2004-07-07 Diagenic As Product and method
EP1831684A4 (en) * 2004-11-30 2009-03-11 Veridex Llc PROGNOSTICS OF LUNG CANCER
CN1300580C (zh) * 2004-12-31 2007-02-14 中国人民解放军第306医院 检测肝癌血清特征蛋白的质谱模型及其制备方法和应用
US7707134B2 (en) 2005-01-14 2010-04-27 Siemens Medical Solutions Usa, Inc. System and method for molecular diagnosis of depression based on boosting classification
WO2007026773A1 (ja) * 2005-08-31 2007-03-08 Kurume University 医用診断処理装置
AU2005337803B2 (en) * 2005-10-29 2013-04-18 Bayer Intellectual Property Gmbh Process for determining one or more analytes in samples of biological origin having complex composition, and use thereof
US9347945B2 (en) 2005-12-22 2016-05-24 Abbott Molecular Inc. Methods and marker combinations for screening for predisposition to lung cancer
US20080133141A1 (en) * 2005-12-22 2008-06-05 Frost Stephen J Weighted Scoring Methods and Use Thereof in Screening
US8026055B2 (en) * 2006-11-15 2011-09-27 University Health Network Materials and methods for prognosing lung cancer survival
WO2009036123A1 (en) 2007-09-11 2009-03-19 Cancer Prevention And Cure, Ltd. Method of identifying biomarkers in human serum indicative of pathologies of human lung tissues
US7747547B1 (en) 2007-10-31 2010-06-29 Pathwork Diagnostics, Inc. Systems and methods for diagnosing a biological specimen using probabilities
CN101896817A (zh) * 2007-12-10 2010-11-24 霍夫曼-拉罗奇有限公司 用于结直肠癌的标记物组
BRPI0906858B8 (pt) * 2008-01-18 2021-07-27 Harvard College métodos in vitro para detectar a presença de uma célula de câncer em um indivíduo e para identificar uma assinatura específica de tumor em um indivíduo tendo câncer.
CN102037355A (zh) * 2008-03-04 2011-04-27 里奇诊断学股份有限公司 基于多重生物标记物板块诊断和监测抑郁症
CN101587125B (zh) * 2008-05-21 2013-07-24 林标扬 高表达癌症标记物和低表达组织器官标记物组合试剂盒
CN101475984A (zh) * 2008-12-15 2009-07-08 江苏命码生物科技有限公司 一种非小细胞肺癌检测标记物及其检测方法、相关生物芯片和试剂盒
JP2012520469A (ja) 2009-03-12 2012-09-06 キャンサー・プリヴェンション・アンド・キュア,リミテッド 性別に基づく疾病の識別・評価・予防及び治療を含む、肺病の識別・評価・予防及び治療の方法並びにそのキット
CN101988059B (zh) * 2009-07-30 2014-04-02 江苏命码生物科技有限公司 胃癌检测标记物及其检测试剂盒和生物芯片
CN101942502B (zh) * 2009-12-24 2014-09-17 北京命码生科科技有限公司 胰腺癌标记物及其检测方法、试剂盒和生物芯片
WO2015066564A1 (en) * 2013-10-31 2015-05-07 Cancer Prevention And Cure, Ltd. Methods of identification and diagnosis of lung diseases using classification systems and kits thereof

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070092917A1 (en) 1998-05-01 2007-04-26 Isabelle Guyon Biomarkers for screening, predicting, and monitoring prostate disease
US20060088894A1 (en) 2002-05-10 2006-04-27 Eastern Virginia Medical School Prostate cancer biomarkers
US20080235165A1 (en) 2003-07-24 2008-09-25 Movellan Javier R Weak hypothesis generation apparatus and method, learning aparatus and method, detection apparatus and method, facial expression learning apparatus and method, facial enpression recognition apparatus and method, and robot apparatus
JP2009501318A (ja) 2005-06-24 2009-01-15 ザ ボード オブ トラスティーズ オブ ザ リーランド スタンフォード ジュニア ユニバーシティ アテローム動脈硬化性心血管疾患の診断およびモニタリングのための方法ならびに組成物
US20080109389A1 (en) 2006-11-02 2008-05-08 Polyak Roman A Classification Tool
JP2010523979A (ja) 2007-04-05 2010-07-15 オーレオン ラボラトリーズ, インコーポレイテッド 医学的状態の処置、診断および予測のためのシステムおよび方法
US20100009386A1 (en) * 2007-09-11 2010-01-14 Cancer Prevention And Cure, Ltd. Methods of identification, assessment, prevention and therapy of lung diseases and kits thereof
US20100250275A1 (en) 2007-10-18 2010-09-30 Canon Kabushiki Kaisha Diagnosis support apparatus, method of controlling diagnosis support apparatus, and program therefor
WO2010030697A1 (en) * 2008-09-09 2010-03-18 Somalogic, Inc. Lung cancer biomarkers and uses thereof

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Yue Fan et al, Journal of proteome (web published 2010.12.17.), vol. 10, no. 3, pp. 1361-1373.

Also Published As

Publication number Publication date
AU2017245307B2 (en) 2019-10-10
CN105005680B (zh) 2019-08-02
US9952220B2 (en) 2018-04-24
KR20140024916A (ko) 2014-03-03
AU2012249288C1 (en) 2017-12-21
IL261313A (en) 2018-10-31
JP2022136138A (ja) 2022-09-15
JP2014514572A (ja) 2014-06-19
CA2834383A1 (en) 2012-11-01
JP2020064078A (ja) 2020-04-23
US20140024553A1 (en) 2014-01-23
IL229070B (en) 2018-08-30
CN105005680A (zh) 2015-10-28
AU2012249288A1 (en) 2013-11-14
WO2012149550A1 (en) 2012-11-01
CN103703371A (zh) 2014-04-02
IL229070A0 (en) 2013-12-31
AU2017245307A1 (en) 2017-10-26
AU2012249288B2 (en) 2017-07-06
EP2702411A1 (en) 2014-03-05
IL261313B (en) 2020-11-30
CN110444287A (zh) 2019-11-12
IL278227B (en) 2022-07-01
CN110444287B (zh) 2024-02-06
EP2702411A4 (en) 2015-07-22
CA3120217A1 (en) 2012-11-01
HK1247286A1 (zh) 2018-09-21
JP2018200322A (ja) 2018-12-20
IL278227A (ko) 2020-12-31
EP3249408A1 (en) 2017-11-29
US20190072554A1 (en) 2019-03-07
EP3825693A1 (en) 2021-05-26

Similar Documents

Publication Publication Date Title
KR102136180B1 (ko) 분류 시스템 및 이의 키트를 이용하여 폐 질환을 식별 및 진단하는 방법
JP7250693B2 (ja) 初期ステージの肺がん診断のための血漿ベースのタンパク質プロファイリング
WO2015066564A1 (en) Methods of identification and diagnosis of lung diseases using classification systems and kits thereof
JP7431760B2 (ja) 癌分類子モデル、機械学習システム、および使用方法
KR102094326B1 (ko) 위장암의 위험을 평가하는 방법 및 시스템
EP2272044A2 (en) Inflammatory biomarkers for monitoring depression disorders
EP3861349A1 (en) A method for differentially diagnosing in vitro a bipolar disorder and a major depressive disorder
WO2021247577A1 (en) Methods and software systems to optimize and personalize the frequency of cancer screening blood tests
Santos et al. Modeling differential rates of aging using routine laboratory data; Implications for morbidity and health care expenditure
Khalfallah et al. Cytokines as Biomarkers in Psychiatric Disorders: Methodological Issues
CN118299054A (zh) 一种基于机器学习的危重症患者急性肾损伤发生预警系统
Dubey Machine Learning Methods for Biosignature Discovery

Legal Events

Date Code Title Description
AMND Amendment
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant