KR20190038608A - 다사티닙 반응 예측 모델들 및 이를 위한 방법들(dasatinib response prediction models and methods therefor) - Google Patents

다사티닙 반응 예측 모델들 및 이를 위한 방법들(dasatinib response prediction models and methods therefor) Download PDF

Info

Publication number
KR20190038608A
KR20190038608A KR1020197006335A KR20197006335A KR20190038608A KR 20190038608 A KR20190038608 A KR 20190038608A KR 1020197006335 A KR1020197006335 A KR 1020197006335A KR 20197006335 A KR20197006335 A KR 20197006335A KR 20190038608 A KR20190038608 A KR 20190038608A
Authority
KR
South Korea
Prior art keywords
way
path
data
entity
coefficients
Prior art date
Application number
KR1020197006335A
Other languages
English (en)
Inventor
크리스토퍼 더블유. 제토
스티븐 찰스 벤즈
찰스 조셉 바스케
Original Assignee
난토믹스, 엘엘씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 난토믹스, 엘엘씨 filed Critical 난토믹스, 엘엘씨
Publication of KR20190038608A publication Critical patent/KR20190038608A/ko

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61KPREPARATIONS FOR MEDICAL, DENTAL OR TOILETRY PURPOSES
    • A61K31/00Medicinal preparations containing organic active ingredients
    • A61K31/33Heterocyclic compounds
    • A61K31/395Heterocyclic compounds having nitrogen as a ring hetero atom, e.g. guanethidine or rifamycins
    • A61K31/495Heterocyclic compounds having nitrogen as a ring hetero atom, e.g. guanethidine or rifamycins having six-membered rings with two or more nitrogen atoms as the only ring heteroatoms, e.g. piperazine or tetrazines
    • A61K31/505Pyrimidines; Hydrogenated pyrimidines, e.g. trimethoprim
    • A61K31/506Pyrimidines; Hydrogenated pyrimidines, e.g. trimethoprim not condensed and containing further heterocyclic rings
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61KPREPARATIONS FOR MEDICAL, DENTAL OR TOILETRY PURPOSES
    • A61K45/00Medicinal preparations containing active ingredients not provided for in groups A61K31/00 - A61K41/00
    • A61K45/06Mixtures of active ingredients without chemical characterisation, e.g. antiphlogistics and cardiaca
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/53Immunoassay; Biospecific binding assay; Materials therefor
    • G01N33/574Immunoassay; Biospecific binding assay; Materials therefor for cancer
    • G01N33/57484Immunoassay; Biospecific binding assay; Materials therefor for cancer involving compounds serving as markers for tumor, cancer, neoplasia, e.g. cellular determinants, receptors, heat shock/stress proteins, A-protein, oligosaccharides, metabolites
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • G16B5/20Probabilistic models
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/106Pharmacogenomics, i.e. genetic variability in individual responses to drugs and drug metabolism
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/136Screening for pharmacological compounds
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2800/00Detection or diagnosis of diseases
    • G01N2800/52Predicting or monitoring the response to treatment, e.g. for selection of therapy based on assay results in personalised medicine; Prognosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Biotechnology (AREA)
  • Molecular Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Immunology (AREA)
  • Biomedical Technology (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Analytical Chemistry (AREA)
  • Data Mining & Analysis (AREA)
  • Hematology (AREA)
  • Urology & Nephrology (AREA)
  • Medicinal Chemistry (AREA)
  • General Physics & Mathematics (AREA)
  • Cell Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Genetics & Genomics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Food Science & Technology (AREA)
  • Microbiology (AREA)
  • Veterinary Medicine (AREA)
  • Pathology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Biochemistry (AREA)

Abstract

고려되는 시스템들 및 방법들은 다수의 그리고 별개의 세포 유형들 및 약물들에 대한 반응 예측자(response predictor)들의 라이브러리를 구축하기 위해 선험적으로(a priori) 알려진 세포주 유전체학(cell line genomics) 및 약물 반응 데이터를 활용한다. 그리고 선택되는 반응 예측자들의 통계적 분석이 다른 약물들에 비해 예측력에서 현저한 이득을 가지는 반응 예측자를 가지는 약물을 식별하기 위해 활용된다. 그리고 이렇게 식별되는 반응 예측자의 엔티티 계수(Entity coefficient)들은 실제 환자의 오믹스 시그네쳐(omic signature)에 기초하는 경로 모델의 출력에 적용된다.

Description

다사티닙 반응 예측 모델들 및 이를 위한 방법들(DASATINIB RESPONSE PREDICTION MODELS AND METHODS THEREFOR)
본 발명의 기술분야는 반응 예측자(response predictor)(바람직하게는 고-정확도 이득인) 엔티티 계수(entity coefficient)들을 이용하여 추가적으로 처리되는 경로 모델 정보에 기초하여 약물에 대한 환자의 약물 반응들을 예측하는 시스템들 및 방법들이다.
경로들의 연산 모델링의 다양한 시스템들 및 방법들이 본 기술분야에 알려져 있다. 예를 들어, 몇몇 알고리즘들(예를 들어, GSEA, SPIA, 및 패소로올지스트(PathOlogist))은 문헌(literature)으로부터 선별되는 경로들을 사용하여 변경되는 관심 경로들을 성공적으로 식별할 수 있다. 또 다른 툴(tool)들은 문헌에서 선택되는 상호작용들로부터 원인 그래프(causal graph)들을 구성하고 그리고 발현 프로파일(expression profile)들을 설명하기 위해 이러한 그래프들을 이용한다. 아라크네(ARACNE), 민디(MINDy) 및 코네시크(CONEXIC)와 같은 알고리즘들은 유전자 전사 정보(및 코네시크의 경우, 복제-수(copy-number))를 취하여 암 샘플들의 셋을 통해 가능성있는 전사 드라이버(transcriptional driver)들을 식별한다. 그러나 이러한 툴들은 단일한 관심 타겟들을 식별하는 기능 네트워크들로 상이한 드라이버들을 그룹화 하려고 시도하지 않는다. 암에서의 상호 배타적 모듈들(Mutual Exclusivity Modules in Cancer) 및 넷박스(NetBox)와 같은 몇몇의 더 새로운 경로 알고리즘들은 암에서의 데이터 통합의 문제를 해결하려고 시도하여 샘플들의 발암 가능성(oncogenic potential)에 대해 중요한 다수의 데이터 유형들을 통해 네트워크들을 식별한다.
이러한 툴들은 네트워크를 찾기 위해 경로들을 통한 적어도 몇몇의 제한되는 통합을 허용하지만, 이들은 일반적으로 조절 정보 및 관련되는 경로들 또는 경로들의 네트워크에서의 하나 이상의 생리적 효과들과의 이러한 조절 정보의 연관성을 제공하지 못한다. 성능을 향상시키기 위한 시도로, GIENA는 단일 생물학적 경로 내에서 조절장애인(dysregulated) 유전자 상호작용들을 찾지만 상호작용들의 특성이나 방향에 관한 사전 지식 또는 경로의 토폴로지(topology)를 고려하지 않는다. 또한, 이러한 모델링 시스템들의 상대적으로 불완전한 특성으로 인해, 특히 다수의 경로들 및/또는 경로 엘리먼트들의 상호작용들이 조사되는 경우, 예측 분석이 종종 불가능할 수 있다.
보다 최근에는, 생체 내(in vivo) 경로들의 인 실리코(in silico) 경로 모델을 획득하기 위해 개선된 시스템들 및 방법들이 기술되고, 예시적인 시스템들 및 방법들은 국제특허공보 제2011/139345호 및 국제특허공보 제2013/062505호에 기술된다. 이러한 모델들의 추가적인 개선은 상이한 경로 엘리먼트들과 경로들 사이의 교차-상관관계(cross-correlation)들을 식별하는 것을 돕기 위한 방법들을 개시하는 국제특허공보 제2014/059036호(총괄하여 "패러다임(PARADIGM)"으로 지칭됨)에서 제공되었다. 이러한 모델들은 예를 들어, 다양한 경로들을 통한 신호들의 흐름 및 다양한 신호 경로들의 상호연결성들에 대한 중요한 통찰을 제공하지만, 이러한 모델링을 사용하는 수많은 양상들은 인정받지 못하거나 또는 인식되지도 않는다.
본 명세서에서의 모든 간행물들 및 특허 출원들은 각각의 개별 간행물 또는 특허 출원이 구체적으로 그리고 개별적으로 참조로 포함되도록 나타나는 것과 동일한 정도로 참조로 포함된다. 통합되는 참조에서의 용어의 사용 또는 정의가 본 명세서에서 제공되는 해당 용어의 정의와 상반되거나 또는 일치하지 않는 경우, 본 명세서에서 제공되는 해당 용어의 정의가 적용되고 그리고 참조에서의 해당 용어의 정의는 적용되지 않는다.
또한 추가적인 진보는 국제특허공보 제2014/193982호에서 기술되는 바와 같이 패러다임(PARADIGM)으로부터의 통찰을 이용하여 만들어졌다. 여기서, 다수의 모델들이 다수의 별개인 데이터 셋들을 수신하고 그리고 질병 세포들의 치료 파라미터(예를 들어, 약물로의 치료)의 상태(예를 들어, 민감성 또는 내성)와 관련되는 별개인 데이타 셋들에서 결정 경로 엘리먼트(determinant pathway element)들을 식별하는 머신 러닝 시스템(machine learning system)으로부터 획득된다. 이러한 시스템은 유리하게는 가능성있는 치료 모달리티(treatment modality)들에 대한 통찰을 제공한다. 그러나, 머신 러닝 시스템으로부터 획득되는 매우 많은 수의 잠재적으로 유효한 모델들은 치료 결과에 대한 간단한 예측을 어렵게 만든다.
한편, 미국특허출원 제2004/0193019호에 기술되는 바와 같이, 판별 분석-기반 패턴 인식은 특정 생물학적 프로파일 정보를 치료 결과 정보와 상관시키는 모델을 생성하기 위해 활용되었다. 그리고 예측 모델은 치료에 대한 가능한 반응들을 순위화하는데 사용된다. 이러한 방법들이 환자- 특이적 프로파일 정보에 기초하여 가능한 결과들을 평가하는데 도움이 될 수 있지만, 분석은 일반적으로 판별 분석에 사용되는 파라미터들에 의해 편향(biased)된다. 또한, 이러한 분석은 대응하는 약물들 및 질병 조건들에 대한 이력 데이터(historical data)만을 고려하고 그리고 다른 비-관련 질병 조건들에서만 효과가 있다고 알려진 약물들의 발견을 제한한다. 또한, 대응하는 약물들 및 질병 조건들의 이력 데이터의 이용 가능성은 이러한 방법들의 유용성을 더 제한하는 경향이 있다.
결과적으로, 대부분의, 전체는 아니라도, 인 실리코(in silico) 예측 시스템들 및 방법들은 비-환자 소스들로부터의 경험적인 인 비트로(in vitro) 데이터 또는 치료 옵션들과의 선택되는 경로 활성들에서의 교란들의 알려진 상관관계들에 기초한다. 또한, 머신 러닝이 패턴들을 식별하는데 사용되는 경우, 러닝 시스템들의 고유한 편향(inherent bias)들은 환자의 특정 상황과 필수적으로 일치하지 않는 방식으로 출력을 왜곡(skew)하는 경향이 있다는 것이 이해되어야 한다.
따라서, 특정한 약물 반응들의 예측을 위한 다양한 시스템들 및 방법들이 본 기술 분야에 공지되어 있지만, 높은 신뢰성을 가지는 약물에 대한 간단하고 강력한 치료 예측을 허용하고, 그리고 또한 환자 특이적 방식으로 치료 반응의 예측을 허용하는 시스템들 및 방법들에 대한 수요가 존재한다.
본 출원은 2016년 8월 03일 출원된 미국 가출원 번호 제62/370,657호에 대한 우선권을 주장한다.
본 발명의 주제는 다수의 선험적으로(a priori) 알려진 세포주 유전체(cell line genomic)들 및 약물-반응 데이터가 복수의 엔티티 계수(entity coefficient)들을 가지는 다수의 반응 예측자들을 구축하기 위해 사용되는 다양한 디바이스들, 시스템들, 방법들에 관한 것이다. 최고 성능의 반응 예측자(들)의 엔티티 계수들은 경로 모델의 출력을 수정하여 치료 결과를 예측하기 위해 사용된다. 유리하게는, 이러한 시스템들 및 방법들은 다수의 경로 요소 및 상호연결성들을 통합할 수 있고, 환자 데이터 상에 기초하고, 그리고 단일의 사전선택된 모델의 사용으로 인해 분석적 편향을 방지할 수 있다.
본 발명의 주제의 일 양상에서, 본 발명자들은 복수의 반응 예측자(response predictor)들을 제공하는 단계-각각의 상기 반응 예측자들은 약물(drug)과 관련되고 그리고 복수의 경로 엘리먼트들 및 연관 엘리먼트(associated entity coefficient)들을 가짐-을 포함하는 복수의 반응 예측자들을 프로세싱하는 방법을 고려한다. 다른 단계에서, 정확도 이득 메트릭(accuracy gain metric)이 단일 반응 예측자를 선택하기 위해 대응하는 널 모델(null model)에 관한 각각의 반응 예측자들에 대해 계산되고, 적어도 환자 종양의 경로 모델 출력 및 선택된 반응 예측자의 연관 엔티티 계수들 및 경로 엘리먼트들의 서브셋은 스코어(예를 들어, 약물을 이용한 치료에 대한 민감도 스코어)를 계산하기 위해 사용된다. 가장 일반적으로, 대응하는 널 모델들은 널 모델들이 생성되는 상기 반응 예측자들의 계산에 사용되지 않는 랜덤하게 선택되는 데이터셋들을 이용하여 계산된다.
가장 일반적으로, 상기 복수의 반응 예측자들은 적어도 1,000개, 또는 적어도 10,000개, 또는 적어도 100,000개의 반응 예측자들이다. 엔티티 계수에 대한 경로 요소는 조절 RAN(regulatory RNA), 면역 신호 컴포넌트(immune signaling component), 세포 분화 인자(cell differentiation factor), 세포 증식 인자(cell proliferation factor), 세포사멸 신호 컴포넌트(apoptosis signaling component), 혈관신생 인자(angiogenesis factor), 및/또는 세포주기 체크포인트 컴포넌트(cell cycle checkpoint component)이다.
상기 정확도 이득 메트릭에 관하여 상기 정확도 이득은 정확도값(accuracy value), 정확도 이득(accuracy gain), 성능 메트릭(performance metric), 곡선하면적 메트릭(area under curve metric), R2값(R2 value), p-값 메트릭(p-value metric), 실루엣 계수(silhouette coefficient), 및 혼동 행렬(confusion matrix)을 사용하여 결정될 수 있다는 것이 일반적으로 고려된다. 또한, 복수의 반응 예측자는 적어도 2 개, 또는 적어도 4 개, 또는 적어도 6 개, 또는 적어도 10 개의 상이한 머신 러닝 분류기를 사용하여 구성되고(established), 그리고 적합한 머신 러닝 분류기들은 선형 커널 서포트 벡터 머신(linear kernel support vector machine), 1 차 또는 2차 다항 커널 서포트 벡터 머신(first or second order polynomial kernel support vector machine), 릿지 회귀(ridge regression), 엘라스틱넷 알고리즘(elastic net algorithm), 순차 최소 최적화 알고리즘(sequential minimal optimization algorithm), 랜덤 포레스트 알고리즘(random forest algorithm), 나이브 베이즈 알고리즘(naive Bayes algorithm), 및 NMF 예측자 알고리즘(NMF predictor algorithm)을 포함하는 것이 일반적으로 고려된다.
상기 연관 엔티티 계수들 및 경로 엘리먼트들의 서브셋은 일반적으로 1 내지 50개 사이의 엔티티 계수들을 포함하고, 그리고 상기 환자 종양의 상기 경로 모델 출력은 상기 선택되는 반응 예측자에서 상기 경로 엘리먼트들의 서브셋과 동일한 경로 엘리먼트들을 포함한다.
따라서, 상이한 관점에서 보는 경우, 본 발명자들은 또한 약물(예를 들어, 화학요법 약물(chemotherapeutic drug))을 사용하여 환자의 치료 결과를 예측하기 위해 상기 환자의 종양의 경로 모델의 출력을 이용하는 방법을 고려한다. 가장 일반적으로, 이러한 방법은 상기 약물을 사용하여 상기 환자에 대한 치료 결과 스코어를 예측하기 위해 상기 종양의 상기 경로 모델에서 대응하는 경로 엘리먼트들의 출력 값들에 대한 인자들로서 약물에 대한 고-정확도 이득 반응 예측자에서의 복수의 경로 엘리먼트들의 엔티티 계수들을 사용하는 단계를 포함할 것이다. 바람직하게는, 상기 종양의 상기 경로 모델은 상기 환자의 오믹스 데이터(omics data)를 사용하여 계산되고, 그리고 복수의 경로 엘리먼트들 및 연관 출력값들을 포함하고, 그리고 상기 고-정확도 이득 반응 예측자는 대응하는 널 모델에 대한 사전결정된 최소 정확도 이득을 가지는 것이 더 바람직하다. 또한, 상기 고-정확도 이득 반응 예측자는 복수의 반응 예측자들로부터 선택되고, 각각의 상기 반응 예측자들은 상기 약물과 관련되는 것이 바람직하다.
이러한 방법의 일반적인 양상에서, 상기 복수의 엔티티 계수들은 1 내지 50개 사이의 상기 고-정확도 이득 반응 예측자의 엔티티 계수들이고, 그리고/또는 상기 복수의 엔티티 계수들은 엔티티 계수들의 서브셋이고 그리고 상기 고-정확도 이득 반응 예측자의 모든 엔티티 계수들의 상위 3분위를 포함한다. 본 발명의 주제를 제한하는 것은 아니지만, 상기 경로 모델은 확률적 경로 모델이고, 특히 패러다임(PARADIGM)인 것이 일반적으로 바람직하다.
이러한 고려되는 방법에서 상기 사전결정된 최소 정확도 이득은 상기 널 모델에 대해 적어도 50%이고, 상기 널 모델은 바람직하게는 상기 널 모델이 생성되는 상기 고-정확도 이득 반응 예측자의 계산에 사용되지 않은 랜덤하게 선택되는 데이터셋들을 사용하여 계산된다. 또한, 상기 복수의 반응 예측자들은 비교적 큰 수일 수 있고, 따라서 적어도 1,000개, 또는 적어도 10,000개, 또는 적어도 100,000개의 반응 예측자들일 수 있고, 이는 가장 일반적으로 적어도 두개의 상이한 머신 러닝 분류기들(예를 들어, 선형 커널 서포트 벡터 머신, 1 차 또는 2차 다항 커널 서포트 벡터 머신, 릿지 회귀, 엘라스틱넷 알고리즘, 순차 최소 최적화 알고리즘, 랜덤 포레스트 알고리즘, 나이브 베이즈 알고리즘, 및 NMF 예측자 알고리즘, 등)을 이용하여 구성된다.
따라서, 본 발명의 주제의 예시적인 일 양상에서, 다사티닙(dasatinib)을 이용한 환자의 종양의 치료에 대한 치료 결과를 예측하는 방법이 고려된다. 이러한 고려되는 방법은 바람직하게는 (a) 상기 환자의 상기 종양의 오믹스 데이터를 획득하는 단계, (b) 상기 종양에 대한 경로 모델 출력, 상기 오믹스 데이터 및 경로 모델을 사용하는 경로 분석 엔진에 의해 계산하는 단계-상기 경로 출력은 복수의 경로 엘리먼트들 및 연관 활성화 값들을 포함함-, 및 (c) 상기 환자에 대한 상기 치료 결과를 예측하기 위해 상기 경로 모델 출력의 대응하는 경로 엘리먼트들의 활성화 값들에 대한 인자들로서 각각의 경로 엔티티들의 복수의 엔티티 계수들을 적용하는 단계를 포함할 것이다. 이러한 방법들을 위한 상기 경로 엔티티들 및 각각의 엔티티 계수들은 바람직하게는 MIR34A_(miRNA): -0.10545895; ETS1: -0.094264817; 5_8_S_rRNA_(rna) : 0.086044958; CEBPB_(이량체)_(복합체): 0.067691407; FOSL1: -0.067263561; CEBPB: 0.066698569; JUN/FOS_(복합체): -0.064549881; Fra1/JUN_(복합체): -0.060403293; FOXA2: 0.059755319; FOS: -0.059560833; E2F1: -0.050992273; AP1_(복합체): -0.049823492; 아노이키스(anoikis)_(추출(abstract)): -0.04853399; FOXA1: 0.035994367; dNp63a_(사량체)_(복합체): -0.033478521; TP63: -0.02956134; MYC: 0.026847479; TP63-2: -0.026423542; E2F-1/DP-1_(복합체): -0.023462081; MYB: 0.022211938; TAp63g_(사량체)_(복합체): 0.019789929; HIF1A/ARNT_(복합체): 0.019222267; JUN/JUN-FOS_(복합체): -0.019184424; MYC/Max_(복합체): -0.018553276; XBP1-2: -0.017009915; DNA_바인딩의 음성_조절_(abstract): -0.016224139; PPARGC1A: -0.015525361; p53_사량체_(복합체): -0.013881353; TP63-5: 0.011860936; p53_(사량체)_(복합체): -0.011120564; FOXM1: 0.010515289; MIR146A_(miRNA) -0.004588203; MIR200A_(miRNA): 0.004570842; MIR22_(miRNA): -0.00455296; MIRLET7G_(miRNA): -0.004534414; MIR26A1_(miRNA): -0.004515057; MIR141_(miRNA): 0.004494806; MIR338_(miRNA): 0.004473776; MIR23B_(miRNA): -0.004452502: MIR9-3_(miRNA): 0.004432174; MIR26B_(miRNA): -0.004414627; MIR429_(miRNA): 0.004401701; MIR26A2_(miRNA): -0.004393525; MIR17_(miRNA): 0.004385947; DLEU2_(rna): -0.004376141; DLEU1_(rna): -0.004337657; TP53 : -0.003302879; JUN: 0.003189085; NOTCH4_(rna): 0.002218066; 및 E2F1/DP_(복합체): 0.000376653로 이루어진 그룹으로부터 선택된다.
또 다른 고려되는 양상들에서, 본 발명자들은 또한 경로 모델의 출력을 수정하여 환자에 대한 치료 결과를 예측하기 위한 고-정확도 이득 반응 예측자의 복수의 엔티티 계수들의 용도를 고려하고, 여기서 상기 고-정확도 이득 반응 예측자는 약물과 연관되고, 그리고 상기 경로 모델은 상기 환자의 오믹스 데이터를 사용한다.
가장 일반적으로, 상기 복수의 엔티티 계수들은 1 내지 50 개 사이의 상기 고-정확도 이득 반응 예측자의 엔티티 계수들이고, 그리고 상기 복수의 엔티티 계수들은 엔티티 계수들의 서브셋이고 그리고 상기 고-정확도 이득 반응 예측자의 모든 엔티티 계수들의 상위 3분위를 포함한다. 전술한 바와 같이, 상기 경로 모델은 확률적 경로 모델(예를 들어, 패러다임(PARADIGM))이고, 그리고 상기 약물은 화학요법 약물인 것이 일반적으로 바람직하다.
본 발명의 주제의 다양한 목적들, 특징들, 양상들 및 장점들이 동일한 번호들이 동일한 컴포넌트들을 나타내는 첨부되는 도면들과 함께, 바람직한 실시예들의 다음의 상세한 설명들로부터 보다 명확해질 것이다.
도면 1a 내지 1c는 본 명세서에서 고려되는 반응 예측자들의 예시적인 양상들을 개략적으로 도시한다.
도 2는 본 발명의 주제에 따른 프로세스를 예시적으로 그리고 개략적으로 도시한다.
도 3은 널 모델에 비해 더 높은 정확도 이득을 가지는 반응들/모델들이 더 낮은 정확도 이득을 갖는 것들의 좌측에 위치하는 계산되는 치료 반응들/테스트 모델들의 순위화된 리스트들을 예시적으로 도시한다. 가장 왼쪽의 계산되는 치료 반응/테스트 모델은 가장 높은 정확도 이득을 가지는 다사티닙에 대한 환자의 민감도를 예측한다.
도 4는 상이한 경로 모델들 및 오믹스 입력을 이용하는 상이한 계산들에 대한 정확도 이득들의 예시적인 결과들을 나타낸다.
도 5는 인간 TCGA 종양 조직 유형으로 분류되는 다사티닙 민감도의 예시적인 표현이다.
도 6은 특정 인간 TCGA 종양들로 분류되는 다사티닙 민감도의 예시적인 표현이다.
본 발명자는 경로 모델 분석들로부터 다량의 반응 예측자들의 생성이 고-정확도 모델들의 식별에 유용할 뿐만 아니라 환자의 특이적 오믹스 데이터에 기초하여 환자에 대한 치료 결과의 예측에 유용한 엔티티 계수들를 획득하기 위해 사용될 수 있다는 것을 발견했다. 상이한 관점으로 볼 때, 다수의 실험적으로, 선별되는, 및/또는 실제 치료 데이터(예를 들어, 알려진 오믹스 데이터의, 그리고 질병 및 약물 치료에 대한 알려진 결과의 다양한 조건들 및 약물들)에 대한 경로 분석들 상에 머신 러닝은 특정 약물을 이용하는 특정한 치료 결과를 연관시키는 엔티티 계수들을 차례로 제공하는 반응 예측 모델들을 제공할 것이다. 이러한 엔티티 계수들은 환자가 해당 약물로 치료되는 경우 가능성있는 치료 결과를 예측하기 위해 실제 환자 오믹스 데이터에 기초하여 경로 모델 출력에 대한 인자들로서 사용될 수 있다.
일 예로, 이하에서 보다 상세하게 더 기술되는 바와 같이, 본 발명자는 먼저 총계가 다수의 조직 유형들로부터 유래되는 약 1,000개의 세포주(cell line)들인, 비교적 많은 수의 게놈-와이드 어세이(genome-wide assay)(일반적으로, RNA 발현 레벨들, DNA 서열 정보 및 복제-수 정보를 포함함)들을 획득했다. 그리고 추측 경로 활성들(Inferred pathway activities)(IPAs)은 패러다임 소프트웨어를 사용하여 발현 및 복제-수 데이터에 기초하여 생성되었다. 또 다른 단계에서, 본 발명자는 또한 이러한 세포주들에서 대략적으로 140개의 컴파운드들에 대한 약물 반응 데이터(GI50)를 획득했고, 그리고 다수의 교차-검증된 반응 예측자들이 탑모델(Topmodel) 소프트웨어에서 각각의 컴파운드에 대해 구축되었다. 특히, 테스트된 세포주들에 대해, 타사티닙은 다수의 모델들에서 교차-검증된 정확도들을 관찰함으로써 가장 정확하게 예측되는 약물 반응이였고, 그리고 상위의 다사티닙 반응 예측 모델들이 추가적으로 분석되었다. 일 분석에서, 또한 이하에서 보다 상세하게 나타나는 바와 같이, 상위의 다사티닙 반응 예측 반응 모델은 신경계 세포 유형들에서 예측적인 유용성을 가지는 것으로 증명되었고(demonstrated), 이는 또한 상위의 반응 예측 모델이 원발암(primary cancer) 환자 데이터에 대해 테스트되는 경우(TCGA)에 결과(finding)들에 의해 검증되었다. 특히, 다사티닙은 급성 림프성 백혈병(acute lymphoblastic leukemia)의 치료에 대해 승인된 약물이다. 따라서, 고려되는 시스템들 및 방법들은 약물의 용도가 알려지거나 승인되지 않은 조건에서 약물을 이용한 치료에 대한 치료 결과의 예측을 허용한다. 또한, 이렇게 식별되는 반응 예측 모델의 엔티티 계수들은 환자의 실제 오믹스 데이터를 이용하여 환자에 대한 치료 결과를 예측하는데 사용될 수 있다는 것이 주목되어야 한다.
이러한 문맥에서, 압도적인 양의 머신 러닝된 예측 모델들은 오믹스 데이터셋들로부터 준비되는 다양한 오믹스 데이터셋들 및/또는 경로 모델들 에 기초하여 예측(예를 들어, 민감도) 스코어의 계산을 허용하도록 준비될 수 있다는 것이 이해되어야 한다. 불행하게도, 이러한 모델들의 전부는 예를 들어, 생검 샘플들 또는 세포 배양들과 함께 사용되는 약물, 오믹스 데이터를 획득하기 위한 특정한 세포 배양들 또는 생검 샘플들의 사용, 머신 러닝 및 경로 구축에서의 수학적 가정들에 기반함으로 인해, 다양한 고유한 편향들을 가진다. 그럼에도 불구하고, 이러한 모델들의 전부는 실제 세포 생물학적 프로세스들에 기초하고 그리고 따라서 적어도 잠재적으로 가치있는 통찰들을 제공한다. 그러나, 어떠한 모델이 특정 약물이 환자에게 의도되는 치료 결과를 가질 가능성이 있는지 여부를 예측하는 특정한 경로 모델 또는 환자 오믹스 샘플에 매치(match)를 제공할 것인지에 관하여 다양한 모델들 중 어느 것도 어떠한 안내(guidance)를 제공하지 않는다.
본 발명자는 이제 실제 환자 데이터, 그리고 특히 환자의 데이터로부터 경로 모델들을 매칭하기 위한 시스템들 및 방법들을 발견하였고, 이는 특정 약물을 이용하여 해당 환자의 가능성 있는 치료 결과의 계산을 차례로 허용하는, 대응하는 널 모델에 대한 바람직하게 높은 정확도의 이득을 가지는 약물-특이적 반응 예측자들을 이용한다. 이러한 맥락에서, 도 1a에 간략화된 바와 같이, 예시적인 반응 예측자(예측 모델)은 민감도 또는 예측 스코어를 내놓는 머신 러닝 알고리즘으로부터 획득되는 다변수 방정식으로 보여질 수 있다. 특히, 도 1b에 예시적으로 더 도시되는 바와 같이, 반응 예측자는 약물에 노출되는 조직 또는 세포 배양으로부터 생성되는 경로 모델들 및/또는 오믹스 데이터를 이용하는 머신 러닝 알고리즘을 이용하여 생성된다. 도 1b에 나타나는 바와 같이, 세포들 또는 조직이 약물에 노출되고 그리고 민감도가 가장 일반적으로 음성 또는 다른 대조되는 대조군(예를 들어, 약물을 이용하지 않은 또는 상이한 세포 유형을 가지는)과의 비교에 의해, 관찰된다(예를 들어, IC50, EC50 등으로 정량화되거나, 또는 민감성 또는 내성으로 정량적으로 평가됨). 그리고 세포들/조직으로부터의 경로 모델들 및/또는 오믹스 데이터는 트레이닝 데이터로서 관찰되는 인자들과 함께 머신 러닝 알고리즘에서 사용되어 반응 예측자에 도달하게 된다. 물론 동일한 오믹스 데이터 및/또는 경로 모델들 및 관찰되는 인자들은 하나 이상의 머신 러닝 알고리즘에서 트레이닝 데이터로 사용될 수 있다는 것이 이해되어야 하고, 그리고 알려진 모든 머신 러닝 알고리즘들이 본 명세서에서의 용도에 적합한 것으로 여겨진다는 것이 이해되어야 한다. 결과적으로, 한 셋의 인 비트로 실험들은 훈련된 모델(즉, 각각의 머신 러닝 알고리즘들에 의해 생성되는 반응 예측자들)들의 다양성을 제공한다는 것이 이해되어야 한다. 본 기술분야에 잘 알려진 바와 같이, 이용가능한 데이터는 트레이닝된 모델들을 획득하기 위해 평가 셋 및 트레이닝 셋으로 분할되거나, 또는 모든 데이터가 완전히 트레이닝된 모델을 얻기 위해 사용될 수 있다. 상이한 관점에서 볼 때, 그리고 도 1c에 개략적으로 도시되는 바와 같이, 반응 예측자는 약물에 대한 조직 또는 세포의 민감성이 알려진 경우, 약물이 알려진 경우, 그리고 오믹스 데이터 및/또는 경로 모델이 조직 또는 세포로부터 쉽게 획득되는 경우 트레이닝 데이터를 이용하는 머신 러닝 알고리즘들을 이용하여 생성될 수 있다. 그리고 이렇게 생성되는 트레이닝된 모델들은 트레이닝 데이터로서 동일한 데이터셋으로부터 획득될 수 있는 평가 데이터를 사용하여 검증될 수 있고, 그리고 이전과 마찬가지로, 약물에 대한 조직 또는 세포의 민감성이 알려지거나, 약물이 알려지거나, 그리고 오믹스 데이터 및/또는 경로 모델이 조직 또는 세포들로부터 쉽게 획득된다. 따라서, 수많은 인 비트로 테스트들은 환자의 오믹스 데이터 또는 경로 모델들과의 계산을 위해 사용될 수 있는 매우 다양한 반응 예측자들에 대한 기초를 형성할 수 있다는 것이 이해되어야 한다. 반응 예측자들과 함께 환자 오믹스 데이터 또는 경로 모델들을 이용하는 것은 약물에 대해 예측되는 반응 스코어(예측되는 치료 결과, 또는 예측되는 민감도)를 제공할 것이다.
가장 유리하게는, 고려되는 시스템들 및 방법들은 약물들 및 세포들 또는 조직 유형들과 관련되는 증가하는 수의 오믹스 정보를 이용하는 것이 인식되어야 한다. 또한, 본 명세서에서 제시되는 예들이 다수의 그리고 별개의 약물들 및 세포주들에 기초하는 반면, 반응 예측자들은 단일 약물(일반적으로 별개의 반응 프로파일들과 함께 복수의 별개의 질병에 걸린(예를 들어, 암) 세포주들과 함께)에만 관련되는 치료 데이터, 선별되는 데이터, 세포들의 오믹스 데이터로부터 구축될 수 있다. 조사되는 특정 약물(들)에 관계없이, 그리고 이러한 정보를 이용하여, 방대한 수의 각각의 반응 예측자들이 준비될 수 있고, 그리고 따라서 반응 예측자들의 컬렉션(collection)이 특정한 암 유형 및/또는 치료 약물에 제한될 필요는 없다는 것이 인식되어야 한다. 예를 들어, 이하에서 보다 상세하게 더 설명되는 바와 같이, 본 발명자들은 경로 모델 오믹스 데이터로서 공개적으로 이용가능한 소스들(예를 들어, CCLE 발현, CCLE 복제수, 생거 발현(sanger expression), 생거 복제수)로부터 상이한 오믹스 데이터셋들을 획득하였고, 또한 139개의 상이한 약물들이 보고되었던 10개의 상이한 입력 데이터 컬렉션들이 되도록 인자-그래프-기반 경로 모델(여기에서는 패러다임)에서 동일한 오믹스 데이터를 사용했다. 이러한 경로 모델들 및 알려진 약물 반응들은 13개의 상이한 머신 러닝 알고리즘들(선형 커널 SVM, 1 차 다항 커널 SVM, 2차 다항 커널 SVM, 릿지 회귀(ridge regression), 라쏘(Lasso), 엘라스틱넷(elastic net), 순차 최소 최적화 (sequential minimal optimization), 랜덤 포레스트(random forest), J48 트리즈, 나이브 베이즈(naive Bayes), JRip 룰즈(JRip rules), 및 NMF 예측자(NMF predictor))을 거쳐, 총 176,112개의 반응 예측자들을 생성한다(resulting in).
이러한 문맥에서 각각의 유형의 반응 예측자는 고유한 편향들 또는 가정들을 포함하고, 이는 동일한 데이터 상에 트레이닝 되는 경우에도 생성되는(resulting) 반응 예측자가 다른 유형들의 반응 예측자들에 대해 어떻게 작동하는지에 영향을 줄 수 있다. 따라서, 상이한 반응 예측자들은 동일한 데이터셋을 이용하는 경우 상이한 예측들/정확도 이득들을 생성할 것이다. 이전에는, 예측 결과를 향상하기 위한 시도로, 단일 머신 러닝 알고리즘들이 동일한 데이터셋 상에 정확한 예측을 증가시키도록 최적화되었었다. 그러나, 알고리즘들의 고유한 편향으로 인해, 이러한 최적화는 예측가능성에서 정확성(즉, '동전 던지기(coin flip'에 대한 정확한 예측 능력)을 필수적으로 증가시키지 않을 것이다. 이러한 편향은 대응하는 널 모델에 대한 의도되는 예측력을 가지는 것들을 이렇게 트레이닝되는 반응 예측자들로부터 선택함으로써 그리고 연관 메타데이터와 함께 질병-특이적 데이터셋들 상의 상이한 기본이 되는 이론들 및 분류기들을 가지는 수많은 다양한 반응 예측자들을 트레이닝함으로써 극복될 수 있다.
물론, 상술한 것은 단지 비교적 제한적인 데이터의 셋을 가지는 예시적인 시나리오이고, 그리고 수많은 추가적인 데이터(예를 들어, 인 비트로 데이터, 임상 실험 데이터, 리서치 데이터, 치료 데이터 등)이 활용될 수 있어, 각각 이들의 개별적인 약물들과 조합되고, 각각 반응 예측자들의 매우 많은 개수들에 도달하도록(예를 들어, 100,000 내지 500,000개 사이, 또는 500,000 내지 1,000,000개 사이, 또는 1,000,000 내지 5,000,000개 사이, 또는 5,000,000 내지 10,000,000개 사이, 및 더 많이) 상이한 머신 러닝 알고리즘들로 계산된다. 명확한 바와 같이, 이러한 계산들은 컴퓨팅 인프라가 없이 다수의 인간 수명들을 훨씬 초과한다.
또한 쉽게 이해되는 바와 같이, 컴퓨팅 인프라를 이용하는 경우에도, 이러한 큰 데이터량들은 환자의 실제 데이터셋(오믹스 데이터 또는 경로 모델)이 세포 또는 조직 배양의 데이터셋과 함께 정렬되어야 하는 엄청난 계산 노력을 요구할 것이다. 본 발명자들은 이제 반응 예측자들의 방대한 컬렉션들이 시뮬레이팅되는 널 셋 및 실제 환자 데이터셋(오믹스 데이터 또는 경로 모델)을 이용하여, 단일 반응 예측자에 대한 두개의 예측되는 반응들을 계산함에 의해 개념적으로 간단한 방식으로 효과적으로 그리고 신속하게 분석될 수 있는 것을 발견했다. 그리고 예측되는 반응들 간의 상이함들은 임의의 단일 반응 예측자의 성능을 평가하는데 사용된다. 이러한 방식으로, 비교적 단순한 계산들만이 요구되고 그리고 상대적으로 적은 양의 시간으로 수행될 수 있으며, 이는 반응 예측자들이 비교적 단순하기 때문이다.
결과적으로, 본 명세서에 제시되는 본 발명의 주제는 인간의 능력들을 넘어서, 방대한 양들의 디지털 데이터에 대해 작동하기 위한 컴퓨팅 디바이스(들)의 구성 및 구조를 가능하게 한다는 것이 주목되어야 한다. 디지털 데이터가 치료 결과들 및 오믹스 데이터의 머신-트레이닝된 컴퓨터 모델들을 나타낼 수 있지만, 디지털 데이터는 현실-세계 항목들의, 실제 항목들이 아닌, 하나 이상의 디지털 모델들의 표현(representation)이라는 것이 이해되어야 한다. 오히려, 본 명세서에 개시되는 바와 같이 디바이스들을 적절히 구성하거나 또는 프로그래밍함으로써, 컴퓨팅 디바이스들의 메모리에서 이러한 디지털 모델들의 인스턴스화(instantiation)를 통해, 컴퓨팅 디바이스들은 인간의 능력을 넘는 방식으로 디지털 데이터 또는 모델들을 처리할 수 있다는 것이 이해되어야 한다. 또한, 컴퓨팅 디바이스들은 이러한 구성없이 선험적인 능력들이 부족하다. 또한, 본 발명의 주제는 복잡한 오믹스 연산들의 계산적 분석에 대해 고유한 문제들을 현저하게 개선/경감시키고, 적절한 모델 선택을 위한 안내를 제공하고 그리고 선험적으로 선택되는 머신 러닝 알고리즘으로 인한 편향을 제거한다는 것이 이해되어야 한다.
상이한 관점으로 볼 때, 컴퓨터 기술에서 본 시스템들 및 방법들은 오믹스 데이터에 대한 컴퓨팅 모델들에 고유한 문제들을 해결하는데 사용된다는 것이 이해되어야 한다. 따라서, 컴퓨터 없이, 상기 문제, 및 본 발명의 주제가 존재하지 않는다. 보다 구체적으로, 본 명세서에 제시되는 시스템들 및 방법들은 다른 것들 보다 더 큰 정확도 이득을 가지는 하나 이상의 약물-특이적 반응 예측자들 모델들을 생성하고(result in), 이는 치료 결과 예측의 신속한 결정을 위한 엔티티 계수들을 제공하고, 궁극적으로 실제 환자 데이터에 기초하여 예측 결과들을 생성하는 것에 있어서 짧은 레이턴시를 가져온다(leading).
머신 러닝 시스템, 분석 엔진, 또는 컴퓨터를 나타내는 임의의 언어는 서버들, 인터페이스들, 시스템들, 데이터베이스들, 에이전트들, 피어들, 엔진들, 컨트롤러들, 모듈들, 또는 개별적으로 또는 집합적으로 작동하는 컴퓨팅 디바이스들의 다른 유형들을 포함하여, 임의의 적합한 컴퓨터 디바이스들의 조합을 포함하도록 판독되어야 한다는 것이 주목되어야 한다. 누구든 컴퓨팅 디바이스들이 유형의, 비-일시적 컴퓨터 판독가능 저장 매체(예를 들어, 하드 드라이브, FPGA, PLA, 솔리드 스테이트 드라이브, RAM, 플래시, ROM, 등) 상에 저장되는 소프트웨어 명령들을 실행하도록 구성되는 프로세서를 포함한다는 것을 이해할 것이다. 소프트웨어 명령들은 개시되는 장치에 대해 이하에서 논의되는 바와 같이 역할들, 책임들 또는 다른 기능을 제공하기 위해 컴퓨팅 디바이스를 프로그래밍하거나 또는 구성한다. 또한, 개시되는 기술들은 프로세서로 하여금 컴퓨터-기반 알고리즘들, 프로세스들, 방법들, 또는 다른 명령들의 실행과 관련되는 개시되는 단계들을 실행하도록 하는 소프트웨어 명령들을 저장하는 비-일시적 컴퓨터 판독가능 매체를 포함하는 컴퓨터 프로그램 제품으로 구현될 수 있다. 몇몇의 실시예들에서, 다양한 서버들, 시스템들, 데이터베이스들, 또는 인터페이스들은 가능한 HTTP, HTTPS, AES, 공개-개인 키 교환들, 웹 서비스 API들, 공지된 금융 거래 프로토콜들, 또는 다른 전자 정보 교환 방법들에 기초하여, 표준화된 프로토콜들 또는 알고리즘들을 이용하여 데이터를 교환한다. 디바이스들 간의 데이터 교환들은 패킷-교환 네트워크, 인터넷, LAN, WAN, VPN, 또는 다른 유형의 패킷 교환 네트워크, 회로 스위칭 네트워크, 및/또는 셀 스위칭 네트워크를 통해 실행될 수 있다.
본 명세서에서 그리고 이하의 청구항들을 통해 사용되는 바와 같이, 시스템, 엔진, 서버, 디바이스, 모듈, 또는 다른 컴퓨팅 엘리먼트가 메모리에서의 데이터 상에 기능들을 실행하거나 또는 수행하도록 구성되는 것으로 기술되는 경우, “구성되는(configured to)” 또는 “프로그래밍되는(programmed to)”의 의미는 메모리에 저장되는 데이터 객체들 또는 타겟 데이터 상에 동작하거나 또는 기능들의 셋을 실행하기 위해 컴퓨팅 엘리먼트의 메모리에 저장되는 소프트웨어 명령들의 셋에 의해 프로그래밍되는 하나 이상의 컴퓨팅 엘리먼트의 코어들 또는 프로세서들로 정의된다.
도 2의 흐름도는 본 발명의 주제에 따라 일반적인 워크플로우를 예시적으로 도시한다. 여기서, 제 1 단계에서, 오믹스 및/또는 경로 모델 데이터 및 약물 반응들이 알려진 복수의 세포/조직/환자 데이터가 선별된다. 물론, 이러한 데이터의 선별에 적합한 모든 공지된 정보의 형태들이 본 명세서에서의 용도에 적합한 것으로 여겨지고 그리고 이는 의료 서비스 제공자, 연구실, 병원, 학술 기관, 및/또는 보험 회사로부터의 환자 데이터를 포함하는 것으로 이해되어야 한다. 따라서, 데이터는 분석 디바이스 또는 데이터베이스부터의 전자 포맷이거나 또는 인쇄될 수 있다. 또한, 데이터는 필수적으로 인간 연구들로부터 유래할 필요는 없고, 비-인간의 기원(예를 들어, 설치류, 유인원 등)일 수 있다는 것이 이해되어야 한다. 마찬가지로, 데이터는 세포 또는 조직 배양들로부터 유래될 수 있다. 또한, 데이터가 로우(raw) 또는 오믹스 데이터인 경우, 이러한 데이터는 일반적으로 경로 분석 시스템으로 프로세싱될 것이고, 그리고 특히 바람직한 경로 모델 시스템들은 인자 그래프-기반 시스템들(예를 들어, 패러다임)을 포함할 수 있다. 또한, 데이터는 또한 세포들, 조직, 또는 환자를 치료하기 위해 사용되는 약물들 또는 약물에 관한 정보를 포함할 뿐만 아니라 적절한 결과 기술자(descriptor)(예를 들어, 사람에 대한 관해(remission), 재발(relapse), 무병생존(disease free survival), 부분적 또는 완전 반응, 조직들 또는 세포들에 대한 약물 민감성)를 포함한다.
고려되는 일 예시로, 초기 데이터는 각각의 세포주들에 대한 특정 약물에 대해 알려진 민감도를 가지는 특정 암 세포 유형(예를 들어, 흑생종(melanoma))의 별개의 종양 세포주들의 컬렉션으로부터 선별될 수 있다. 이러한 민감도들은 실험적으로 결정되거나, 또는 문헌으로부터 선별될 수 있다. 대안적으로 또는 추가적으로, 특정 암 세포 유형의 별개의 종양 세포주들의 컬렉션을 이용하는 대신, 데이터는 특정 암 세포 유형의 생검 샘플들로부터 선별될 수 있고, 그리고 약물에 대한 민감도는 환자가 약물을 이용하는 치료를 받는 경우에 환자 치료 결과로부터 추론되거나, 또는 인 비트로에서 결정될 수 있다. 고려되는 다른 예시로서, 데이터는 오믹스 데이터가 특정 약물에 대한 알려진 민감도를 가지는 조직들 또는 세포들에 대해 이용가능한 경우 공개되는 소스들(예를 들어, 임상 실험들, 과학 논문들, 주석이 달린 오믹스 데이터베이스들, 등)로부터 선별될 수 있다. 추가적인 예시들로, 세포들 또는 조직들은 필수적으로 동일한 암 유형으로 유래될 필요는 없고, 실제로 다수의 그리고 별개의 암 유형들(예를 들어, 신경계의 암들, 폐, 소화계, 비뇨생식계, 피부, 신장, 유방, 갑상선, 혈액, 골, 췌장, 연조직 등의 암들)로부터 유래될 수 있다. 마찬가지로, 세포들의 알려진 민감도는 단일 약물로 제한될 필요는 없고, 다수의 약물 민감도들이 동일한 분석에서 사용될 수 있다는 것이 이해되어야 한다. 상이한 관점에서 볼 때, 알려진 민감도 또는 다른 결과 예측자들을 가지는 다수의 세포주들/조직/생검들의 용도는 복수의 별개의 반응 예측자들을 생성하기 위해 입력 데이터로 활용될 수 있다.
가장 일반적으로, 초기 데이터의 소스에 따라, 데이터는 전체 게놈 시퀀싱 데이터(whole genome sequencing data), 엑솜 시퀀싱 데이터(exome sequencing data), RNA 시퀀싱 및/또는 전사 단계 데이터(RNA sequencing and/or transcription level data), 정략적 프로테오믹스 데이터(quantitative proteomics data), 및/또는 단백질 활성 데이터(protein activity data)와 같은 오믹스 데이터일 수 있다. 그리고 바람직하게는, 이들 데이터는 경로 활성 데이터를 획득하기 위해 프로세싱되고, 그리고 모든 알려진 경로 분석 방법들 및 알고리즘들이 GSEA, SPIA, 패소로올지스트(PathOlogist), 아라크네(ARACNE), 민디(MINDy), 코넥시크(CONEXIC), 넷박스(NetBox), 및 메모(MEMo)를 포함하여, 본 명세서에서의 용도에 적합한 것으로 여겨진다. 그러나, 특히 바람직한 양상들에서, 경로 분석은 고-처리량의 게놈 데이터 상에 경로 추론을 위한 인자 그래프 프레임워크인, 패러다임(PARADIGM)을 이용하여 수행된다. 여기서, 유전자는 그 생산물들 및 유전자의 알려진 활성 및 발현을 인코딩하는 상호연결되는 변수들의 셋으로서 인자 그래프에 의해 모델링되어, 증거로서 많은 유형의 오믹스 데이터의 통합을 허용한다. 이러한 방법은 경로의 활성들(예를 들어, 내부 유전자 상태들, 상호작용들 또는 고-레벨 '출력들(outputs)')이 확률적 추론을 이용하여 환자 내에서 변경되는 정도의 예측을 허용한다(예를 들어, Bioinformatics. 2010 Jun 15; 26(12): i237-i245 참조). 오믹스 데이터 상에 경로 분석은 유리하게는 그리고 실질적으로 머신 러닝을 통해 프로세싱되는 데이터의 용량을 감소시킨다는 것이 주목되어야 한다. 대신, 경로 분석(특히 패러다임(PARADIGM)이 활용되는 경우)은 경로 엘리먼트(예를 들어, 유전자, 단백질, 단백질 복합체)가 수치 인자 또는 값들과 관련되는 상대적으로 단순한 데이터 구조를 제공한다.
이러한 정보(예를 들어, 일반적으로 음성 대조군 및/또는 다른 파라미터 또는 메타데이터와 함께, 특정한 세포들 또는 조직들에 대한 경로 모델 및 약물 반응)를 사용하여, 반응 예측자는 특정 머신 러닝 알고리즘을 이용하여 계산될 수 있다. 그러나, 가장 바람직한 양상들에서, 수많은 추가적인 반응 예측자들이 별개의 반응 예측자들의 라이브러리를 획득하기 위해 다수의 별개의 다른 머신 러닝 알고리즘들을 이용하여 동일한 정보 상에 생성된다. 상술한 바와 같이, 추가적인 상이한 약물들, 오믹스 데이터셋들, 경로 모델링, 및 세포 유형들은 추가적인 다수의 상이한 머신 러닝 알고리즘들과 함께 사용될 수 있고, 이는 이용가능한 반응 예측자들의 수를 기하급수적으로 증가시킬 것이다. 실제로, 이러한 조합론(combinatorics)을 사용하여, 반응 예측자들의 개수는, 단일 약물에 대해서도, 쉽게 1,000개, 보다 일반적으로 적어도 10,000개, 더 보다 일반적으로 적어도 100,000개의 반응 예측자를 초과할 수 있고, 이들 모두는 반응 예측자 라이브러리로 수집될 수 있다는 것이 인식되어야 한다. 그러나, 반응 예측자는 도 1a에 예시적으로 도시되는 바와 같이 비교적 간단하고 그리고 작은 데이터/파일 크기를 가진다. 본질적으로, 반응 예측자는 다수의 경로 엘리먼트들 및 연관 인자들을 포함하여 그리고 생검 또는 세포의 측정되는 오믹스 데이터를 이용하여 민감도(또는 다른 결과 측정) 스코어의 간단한 계산을 허용하는 다-변수 방정식으로 보여질 수 있다.
반응 예측자들이 생성되면, 각각의 예측 반응자들에 대한 예측 품질이 평가될 수 있고, 그리고 가장 바람직하게는 랜덤 선택을 초과하는 예측력을 가지는 반응 예측자들이 유지된다. 상이한 관점으로 볼 때, 다양한 반응 예측 모델들이 정확도에서 그들의 이득에 대해 평가될 수 있다. 쉽게 이해될 수 있는 바와 같이, 정확도를 평가하는 수많은 방식들이 있고, 그리고 특정 선택은 이용되는 알고리즘들 및 메트릭들에 상에 적어도 부분적으로 의존할 수 있다. 예를 들어, 적합한 메트릭들은 정확도값(accuracy value), 정확도 이득(accuracy gain), 성능 메트릭(performance metric), 또는 다른 대응하는 모델의 측정을 포함한다.
추가적인 예시적인 메트릭들은 곡선하면적 메트릭(area under curve metric), R2값(R2 value), p-값 메트릭(p-value metric), 실루엣 계수(silhouette coefficient), 혼동 행렬(confusion matrix), 또는 반응 예측자의 특성에 관련된 다른 메트릭을 포함한다. 정확도 분포 또는 반응 예측자들의 수에 따라, 예측에 사용되는 반응 예측자는 상위 모델(예를 들어, 최고 정확도 이득, 또는 최고 정확도 스코어 등을 가지는)으로, 또는 상위 n-분위(3분위, 4분위, 5분위, 등)으로, 또는 전체 모델들의 상위 n%(상위 5%, 상위 10%, 등)으로 선택될 수 있다는 것이 이해되어야 한다. 예를 들어, 고 정확도 이득 모델들은 일반적으로 정확도 이득의 상위 4분위에 속한다.
그리고 각각의 반응 예측자들 또는 반응 예측자들의 라이브러리(양쪽 모두는 일반적으로 상술한 바와 같이 랜덤 선택을 초과하는 최소 예측력을 이용하여 선택된다)는 데이터베이스에서 각각의 반응 예측자들에 대한 널 모델을 이용하여 실제 환자 데이터에 대한 높은 예측 스코어를 가지는 매치들의 통계적 선택을 위해 사용될 수 있다. 보다 구체적으로, 널 모델들은 랜덤하게 선택되는 데이터셋들의 적당한 개수(예를 들어, 100 내지 500개, 또는 500 내지 1,000개, 또는 1,000 내지 10,000개)를 이용하여 각각의 예측 반응자들에 대해 계산된다. 가장 일반적으로 이러한 데이터셋들은 예측 반응자들의 계산에 사용되지만, 널 모델이 생성되는 예측 반응자의 계산에 사용되지 않는 오믹스 데이터 및/또는 경로 모델 데이터를 포함한다. 예상될 수 있는 바와 같이, 이렇게 계산되는 널 모델들은 추가적인 결과들의 순위화 및 정규화를 위해 추가적으로 사용될 수 있는, 관련이 없거나 또는 대략적으로 매칭되는(poorly-matched) 경로 모델들 또는 오믹스 데이터에 대한 배경 신호 분포(background signal distribution)(예를 들어, 평균 또는 표준 편차)를 제공할 수 있다.
예를 들어, 하나의 반응 예측자가 랜덤하게 선택되는 데이터셋들(배경 신호)에 대한 평균 예측 스코어 및 알려진 결과 및 알려진 데이터 셋에 대한 높은 예측 스코어(예를 들어, 높은 레벨의 민감성 또는 내성)를 예측하는 상황에서, 높은 스코어는 표준화된 스코어에 도달하도록 배경 신호 분포를 이용하여 조정되는 로우(raw) 스코어로 표시된다. 이러한 표준화된 스코어는 특정 세포 또는 조직의 약물로 원래 계산되는 바와 같은 반응 예측자의 성능(performance)을 가지는 알려진 데이터셋의 적합성을 특징으로 한다는 것이 이해되어야 한다. 따라서, 널 모델 및 대응하는 테스트 모델 또는 상위 모델(대응하는 모델들 중 최고 정확도 이득을 가지는 모델) 및 로우 스코어에서의 상이함, 그리고 보다 바람직하게는 표준화된 스코어에서의 상이함의 비교는 순위화를 위해 이용될 수 있다. 상위 순위의 반응 예측자(다수의 약물들이 테스트되는 경우, 각각의 약물에 대한)들이 경로 엔티티들 및 연관 엔티티 계수들과 함께, 식별된다. 이렇게 선택되는 반응 예측자(들)는 다양한 방식들로, 그리고 특히 실제 환자 오믹스 및 경로 분석 데이터에 기초하는 약물에 대한 치료 반응의 예측을 위해 사용될 수 있다. 따라서, 달리 표시되지 않는 한, 본 명세서에 사용되는 용어 “고-정확도 이득 반응 예측자(high-accuracy gain response predictor)”는 반응 예측자들의 표준화된 순위에서 상위 3분위의 순위를 가지는 반응 예측자를 지칭한다.
상술한 바와 같이, 각각의 반응 예측자는 비교적 간단한 데이터 구조를 가지고 그리고 대응하는 엔티티 계수들(일반적으로 수치값)과 함께 복수의 엔티티 지정자(desinator)(예를 들어, MIR34A, AP1 복합체, TP63, 등)들을 열거한다는 것이 특히 이해되어야 한다. 원하는 경우, 엔티티의 기능(예를 들어, 세포주기, 세포사멸 등; 알려지지 않는 기능은 null로 표시됨)이 이하의 표 1에서 반응 예측자에 대해 예시적으로 나타나는 바와 같이 포함될 수 있다.
엔티티/패러다임라벨 계수 기능
MIR34A_(miRNA) -0.10545895 NULL
ETS1 -0.094264817 NULL
5_8_S_rRNA_(rna) 0.086044958 NULL
CEBPB_(이량체)_(복합체) 0.067691407 면역 신호
FOSL1 -0.067263561 JUN/FOS 패밀리
CEBPB 0.066698569 면역 신호
JUN/FOS_(복합체) -0.064549881 JUN/FOS 패밀리
Fra1/JUN_(복합체) -0.060403293 JUN/FOS 패밀리
FOXA2 0.059755319 분화
FOS -0.059560833 JUN/FOS 패밀리
E2F1 -0.050992273 증식
AP1_(복합체) -0.049823492 JUN/FOS 패밀리
anoikis_(추출) -0.04853399 세포사멸
FOXA1 0.035994367 분화
dNp63a_(사량체)_(복합체) -0.033478521 세포-주기 체크포인트
TP63 -0.02956134 세포-주기 체크포인트
MYC 0.026847479 세포사멸
TP63-2 -0.026423542 세포-주기 체크포인트
E2F-1/DP-1_(복합체) -0.023462081 증식
MYB 0.022211938 증식
TAp63g_(사량체)_(복합체) 0.019789929 세포-주기 체크포인트
HIF1A/ARNT_(복합체) 0.019222267 혈관 신생
JUN/JUN-FOS_(복합체) -0.019184424 JUN/FOS 패밀리
MYC/Max_(복합체) -0.018553276 세포사멸
XBP1-2 -0.017009915 면역 신호
negative_regulation_of_DNA_binding_(추출) -0.016224139 세포-주기 체크포인트
PPARGC1A -0.015525361 NULL
p53_사량체_(복합체) -0.013881353 세포-주기 체크포인트
TP63-5 0.011860936 세포-주기 체크포인트
p53_(사량체)_(복합체) -0.011120564 세포-주기 체크포인트
FOXM1 0.010515289 세포-주기 체크포인트
MIR146A_(miRNA) -0.004588203 NULL
MIR200A_(miRNA) 0.004570842 NULL
MIR22_(miRNA) -0.00455296 NULL
MIRLET7G_(miRNA) -0.004534414 NULL
MIR26A1_(miRNA) -0.004515057 NULL
MIR141_(miRNA) 0.004494806 NULL
MIR338_(miRNA) 0.004473776 NULL
MIR23B_(miRNA) -0.004452502 NULL
MIR9-3_(miRNA) 0.004432174 NULL
MIR26B_(miRNA) -0.004414627 NULL
MIR429_(miRNA) 0.004401701 NULL
MIR26A2_(miRNA) -0.004393525 NULL
MIR17_(miRNA) 0.004385947 NULL
DLEU2_(rna) -0.004376141 종양-억제
DLEU1_(rna) -0.004337657 종양-억제
TP53 -0.003302879 세포-주기 체크포인트
JUN 0.003189085 JUN/FOS 패밀리
NOTCH4_(rna) 0.002218066 혈관 신생
E2F1/DP_(복합체) 0.000376653 증식
반응 예측자들을 이용하여, 실제 환자의 경로 모델 출력으로부터 획득되는 환자 데이터는 반응 예측자들에서의 대응하는 경로 엔티티들에 대한 엔티티 계수들을 이용하여 프로세싱될 수 있다는 것이 인식되어야 한다. 예를 들어, 제 1 경로 엔티티(예를 들어, AP1)에 대한 경로 모델 출력(환자 오믹스 데이터에 기초함)이 제 1 값인 경우, 상기 제 1 값은 제 1 수정값 등을 생성하도록 반응 예측자에서의 대응하는 계수(예를 들어, AP1에 대한 계수)에 의해 수정될 수 있다. 전체의 수정되는 출력 엔티티 값들(대응하는 계수들에 의해 수정되는)은 치료 결과에 대해 계산되는 예측(예를 들어, 약물 민감도에 대한 양수값)에 대응하는, 민감도(또는 다른 결과 측정) 스코어가 계산되는 모델들에 대응하는 수치적 표시를 제공할 것이다.
추가적으로 고려되는 양상들에서, 본 명세서에 제시되는 시스템들 및 방법들은 반응 예측에 대한 바람직하게 높은 정도의 정확도를 가지는 하나 이상의 약제(pharmaceutical agent)(다수의 세포주들이 다수의 임상 약물들 또는 약물 후보들에 노출되는 경우 개발 파이프라인(development pipeline)에서의 임상 약물들 또는 약물 후보들)들을 식별하는데 사용될 수도 있다는 것이 이해되어야 한다. 이러한 식별은 특히 다수의 약물들이 개발 중에 있고 그리고 고려되는 시스템들 및 방법들이 바람직하게 높은 정도의 정확도로 예측될 수 있는 민감도(또는 다른 결과 측정)를 가지는 것으로 약물을 식별하는 경우 특히 유리하다. 또한, 고려되는 시스템들 및 방법들은 또한 이하에 보다 상세하게 나타나는 바와 같이 이전에 인정되거나 인식되지않았던 표시(indication)에서 약물을 식별하는데 적합하다. 요약하면, 고려되는 시스템들 및 방법들은 다수의 표시들에 대한 다수의 약물들이 테스트되는 경우 이용될 수 있다. 반응 예측 모델들은 약물 당, 그리고 약물에 의한 최고 정확도 이득에 따라 최종적으로 순위화된다.
이러한 계산은 예측 반응자들의 단순화된 데이터 구조로 인해 신속하고 그리고 일반적으로 수행되는 바와 같이 환자 데이터가 인 비트로 모델 데이터를 따르도록 시도되는 머신 러닝 프로세스를 요구하지 않을 것이라는 것이 특히 이해되어야 한다.
예시
이하의 표 2에 나타나는 바와 같은 다양한 상이한 머신 러닝 분류기들과 함께, 약물들에 대한 각각의 연관되는 활성들, 및 상이한 약물들에 노출되는, 상이한 세포 유형들의 알려진 게놈 데이터셋으로부터 구축되는 반응 예측자들, 및 교모세포종(glioblastoma)으로 진단되는 환자들로부터의 다양한 경로 데이터(예를 들어, 패러다임) 및 오믹스 데이터(예를 들어, 전사 및 복제수)에 기초하여, 다사티닙이 교모세포종으로 진단되는 환자들에 적합한 약물로 식별되었다.
유형들 개수
게놈 데이터셋
CCLE 복제수
CCLE 발현 패러다임
CCLE 복제수 패러다임
CCLE 발현 & 복재수패러다임
생거 발현
생거 복제수
생거 발현 패러다임
생거 복제수 패러다임
생거_발현&복제수 패러다임
CCLE 발현








10 (8320 샘플들)
약물들
681640
A-443654
A-770041
...
WZ-1-84
XMD8-85
Z-LLNle-CHO
ZM-447439
17-AAG







139
분류기들
1차 다항 커널 SVM
2차 다항 커널 SVM
릿지 회긔
라쏘
엘라스틱넷
순차 최소 최적화
랜덤 포레스트
J48 트리즈
나이브 베이즈
JRip 룰즈
하이퍼파이프즈
NMF예측자
피쳐 선택들
선형 커널 SVM












4개의 레벨들의 분산 필터들
13












4
보다 구체적으로, 상술한 데이터셋들, 약물들, 및 분류기들을 이용하여, 29,352개의 완전히 트레이닝된 약물 반응 모델들이 구축되고, 146,760개의 추가적인 평가 모델들이 구축되고(5-배수 CV(5-fold CV)로), 그리고 176,112개의 전체 모델들이 분석되어, 다양한 약물들에 대한 많은 수의 반응 예측자들을 산출했다(yielding). 교모세포종 환자들로부터의 게놈-스케일 데이터는 마이크로어레이 또는 시퀀싱 기술을 통해 개별적인 암 샘플들로부터 수집되었다. 어떠한 데이터 유형이 최선의 예측들을 제공할 것인지 평가하기 위해 동일한 샘플들(예를 들어 발현 프로파일 및 복제-수 평가) 상에 독립적인 어세이들이 수행되었다. 이러한 환자 데이터는 인자-그래프-기반 모델(패러다임)에 통합되었다. 오믹스 데이터 증거가 주어지는 경로 네트워크들에 대한 가장 가능성 있는 상태가 추정되고, 그리고 추론되는 경로 활동들(즉, 경로 모델이 각각의 경로 엘리먼트들에 대한 활동들로 성립됨(established))로서 보고된다. 이러한 문맥에서, 고려되는 시스템들 및 방법들은 단일 모델의 예측 최적화에 기초하지 않고, 치료 예측과의 선택되는 오믹스 파라미터들의 최적의 상관관계들의 식별에 기초하지도 않는다는 것이 특히 이해되어야 한다.
실제 환자 데이터 및 예측자 데이터베이스에서 반응 예측자들을 이용하여, 널 모델들은 1,000개의 랜덤하게 선택되는 데이터셋들로 각각의 반응 예측자에 대해 계산되고, 그리고 평균 및 표준 편차가 각각의 널 모델에 대해 기록되었다. 그리고 테스트 모델들은 각각의 반응 예측자들에 대해 환자 데이터셋들을 이용하여 계산되고, 그리고 결과들은 각각의 널 모델들로부터의 결과들을 이용하여 표준화되었다. 도 3은 표준화되는 스코어들의 순위를 예시적으로 도시한다. 여기서, 각각의 수직선은 특정 약물로 그룹화된, 여러 반응 예측자들에 대한 평균, 최소, 및 최대 결과들을 나타낸다. 도 3으로부터 볼 수 있는 바와 같이, 좌측의 반응 예측자들이 보다 일관적으로 정확하게 예측되었고, 가장 일관적으로 예측된 약물은 교모세포종으로 진단되는 환자들에 대한 다사티닙이다. 특히 다사티닙은 원래 오랄 Bcr-Abl 티로신 키나아제 억제제(oral Bcr-Abl tyrosine kinase inhibitor)(“필라델피아 염색체”(Philadelphia chromosome) 단백질을 억제하는)로 개발되었고 그리고 만성 골수성 백혈병(chronic myelogenous leukemia) 및 필라델피아 염색체-양성 급성 림프성 백혈병(Philadelphia chromosome-positive acute lymphoblastic leukemia)에 1차 라인 사용(first line use)이 승인되었다. 물론, 상술한 프로세스는 교모세포종의 치료에 효과적인 것으로 알려지거나 추측되는 약물만을 이용하여, 그리고 상이한 교모세포종(또는 다른 선택되는 암) 암 세포주들 또는 생검들만을 이용하여, 교모세포종(또는 다른 선택되는 암)으로부터의 데이터만을 초기 데이터로 포함하도록 수정될 수 있다는 것이 이해되어야 한다. 그리고 이러한 수정되는 프로세스는 오직 특정 약물 및 교모세포종에 특이적인 반응 예측자들을 산출한다. 또한, 상술한 프로세스는 교모세포종의 치료에 효과적인 것으로 알려지거나 추측되는(선택적으로) 다수의 상이한 약물들 및 상이한 교모세포종(또는 다른 선택되는 암) 암 세포주들 또는 생검들만을 이용하여, 교모세포종(또는 다른 선택되는 암)으로부터의 데이터만을 초기 데이터로 포함하도록 수정될 수 있다. 그리고 이러한 수정되는 프로세서들은 다수의 약물 후보들 및 교모세포종(또는 다른 선택되는 암)에 특이적인 반응 예측자들을 산출할 것이다.
따라서, 환자의 약물에 대한 반응이 (a) 약물 타겟의 인지 불능(agnostic
)인 방식으로 그리고 (b) 환자의 오믹스 데이터/경로 모델들의 기초로 예측될 수 있고, 이는 각각의 모델들이 특정한 오믹스 데이터/경로 모델들의 셋의 기능에 따라 약물 반응을 예측하도록 최적화되는 예측 모델들의 컬렉션에 대한 입력 데이터로 사용되는 경우이다. 또한, 대응하는 널 모델들에 대해 예측되는 결과들을 비교함으로써, 배경을 넘어 통계적으로 관련되는 예측들이 보고되고, 이는 반응 예측들의 순위화를 허용한다. 추가적으로, 환자 데이터가 고유한 편향들을 임포팅(import)하지 않도록 보장하기 위해, 환자 데이터 및 널 모델이 유사하게 분포되도록 보장하기 위해 널 모델들에 대해 기술되는 바와 같은 방식으로 분류되는 환자 데이터로부터 치환(permutation)들이 생성될 수도 있다.
본 명세서에서의 용도에 적합한 경로 모델들 및 오믹스 데이터에 관하여, 모든 오믹스 데이터 및 경로 모델들이 적합한 것으로 여겨지고, 그리고 예시적인 오믹스 데이터는 시퀀싱 데이터, 특히 종양 대 정상 데이터(전체 게놈 시퀀싱 데이터, 엑솜 시퀀싱 데이터 등과 같은)를 포함한다. 또한, 적합한 오믹스 데이터는 또한 전사체학적 데이터(transcriptomics data) 및 프로테오믹스 데이터를 포함한다. 마찬가지로, 적합한 경로 분석들은 유전자 셋 부양 분석(Gene Set Enrichment Analysis, GSEA, Broad Institute) 기반 모델들, 시그널링 패스웨이 임팩트 분석(Signaling Pathway Impact Analysis, SPIA, Bioconductor) 기반 모델들, 및 패소로올지스트 패스웨이 모델들(PathOlogist pathway models, NCBI) 뿐만 아니라 인자-그래프 기반 모델들, 그리고 특히 국제특허공보 제2011/139345A2호, 국제특허공보 제2013/062505A1호, 및 국제특허공보 제2014/059036호에 기술되는 바와 같은 패러다임(PARADIGM))을 포함하고, 모두 본 명세서에 참조로 통합된다. 도 4는 경로 모델들 및 오믹스 데이터의 유형의 기능에 따라 평균 정확도를 나타내는 예시적인 비교 결과들을 제공한다. 명확하게 볼 수 있는 바와 같이, 최고 정확도는 경로 모델을 획득하기 위해 패러다임을 이용하여 프로세싱되었던 생거 발현 데이터를 이용하여 달성되었다. 유사하게는 최고 정확도는 대응하는 경로 모델을 획득하기 위해 패러다임(PARADIGM)을 이용하여 다시 프로세싱되는, 생거 발현 및 복제수 데이터를 이용하여 달성되었다. 특히, 경로 모델링 없이 생거 발현 데이터만으로도 비교적 높은(다소 어느정도 낮지만) 정확도를 제공하기도 했다.
패러다임을 이용하여 프로세싱되거나 또는 그 자체의(per se) 복제수 오믹스 데이터는 어느정도 낮은 순위였다.
이렇게 획득되는 예측들의 정확도는 세포주들에 대한 경로 모델들 및 오믹스 데이터를 이용하여 교차-검사(cross-checked)되었고, 그 결과들은 도 5에 도시된다. 여기서 조정되는 민감도 스코어들은 민감도 데이터가 이용가능한 예측들을 표시하는 채워진 원(solid circle)들, 민감도 데이터가 이용가능하지 않는 예측들을 표시하는 비워진 원들로 그려졌고, 부정확한 예측들에 대해 X로 라벨링되었다. 특히, 신경 세포주에서 다사티닙에 대한 예측 정확도는 교모세포종 환자들에 대한 예측과 일치하는, 77.8%였다.
타사티닙 내성이 정확하게 예측될 수 있을 뿐만 아니라 도 5로부터 취해질 수 있다는 것이 동일하게 주목할만 하다. 유사한 교차 검사는 도 6에서 볼 수 있는 바와 같은 트레이닝 세포주 패널(training cell line panel)에 대응하는 조직들에서 TCGA 샘플들로부터 주 환자 데이터를 이용하여 수행되었다. 조직 효과들은 세포주와 환자 데이터 사이에 유사하게 작용한다는 것을 주목하자. 예를 들어, 신경계 라인(neural system line)들과 유사하게, GBM 환자 샘플들은 반응자(responder) 및 비-반응자(non-responder) 서브셋들을 포함할 것으로 예측되었다. 또한, 다사티닙은 인간 신장 투명 세포 암종(renal clear cell carcinoma)에 대한 훌륭한 대안적인 약물 후보일 수 있다는 것이 주목되어야 한다. 가장 일반적으로, 반응 예측자들이 신경 종양들에 대해 특히 정확한 것으로 나타나는 바와 같이, 환자 데이터는 신경 종양(예를 들어, 교모세포종)으로 진단되는 환자로부터 획득될 것이다. 이를 위해, 종양이 생검될 수 있고 그리고 오믹스 데이터가 조직 샘플에 대해, 바람직하게는 매칭되는 정상 대조군에 대해 결정될 수 있다. 그리고 오믹스 데이터는 반응 예측자에서 엔티티들에 대응하는 엔티티들에 대한 데이터를 포함하는 경로 모델을 획득하기 위해 패러다임(또는 다른 적합한 경로 분석 소프트웨어)에서 프로세싱된다. 그리고 환자 패러다임 값들은 대응하는 엔티티 계수들에 적용되고 그리고 환자로부터의 실제 경로 데이터 및 반응 예측자 엔티티 계수들에 기초하는 결과가 반응 예측자와 관련되는 치료 결과를 표시할 것이다.
상기 표 1의 엔티티 계수들을 더 참조하여, 다사티닙에 대한 상위-순위의(또는 의도되는) 반응 예측자에 대한 이렇게 획득되는 계수들의 몇몇(그리고 바람직하게는 전체)은 실제 환자 데이터와 함께 사용될 수 있다. 따라서, 다사티닙을 이용한 교모세포종의 치료에 대한 반응 예측자는 적어도 둘, 또는 적어도 셋, 또는 적어도 다섯, 또는 적어도 일곱, 또는 적어도 열개의 다음의 엔티티들 및 선택적으로 각각의 계수들을 포함할 수 있다(여기서 엔티티:계수들의 쌍들로 나열됨): MIR34A_(miRNA): -0.10545895; ETS1: -0.094264817; 5_8_S_rRNA_(rna) : 0.086044958; CEBPB_(이량체)_(복합체): 0.067691407; FOSL1: -0.067263561; CEBPB: 0.066698569; JUN/FOS_(복합체): -0.064549881; Fra1/JUN_(복합체): -0.060403293; FOXA2: 0.059755319; FOS: -0.059560833; E2F1: -0.050992273; AP1_(복합체): -0.049823492; anoikis_(abstract): -0.04853399; FOXA1: 0.035994367; dNp63a_(사량체)_(복합체): -0.033478521; TP63: -0.02956134; MYC: 0.026847479; TP63-2: -0.026423542; E2F-1/DP-1_(복합체): -0.023462081; MYB: 0.022211938; TAp63g_(사량체)_(복합체): 0.019789929; HIF1A/ARNT_(복합체): 0.019222267; JUN/JUN-FOS_(복합체): -0.019184424; MYC/Max_(복합체): -0.018553276; XBP1-2: -0.017009915; negative_regulation_of_DNA_binding_(추출): -0.016224139; PPARGC1A: -0.015525361; p53_사량체_(복합체): -0.013881353; TP63-5: 0.011860936; p53_(사량체)_(복합체): -0.011120564; FOXM1: 0.010515289; MIR146A_(miRNA) -0.004588203; MIR200A_(miRNA): 0.004570842; MIR22_(miRNA): -0.00455296; MIRLET7G_(miRNA): -0.004534414; MIR26A1_(miRNA): -0.004515057; MIR141_(miRNA): 0.004494806; MIR338_(miRNA): 0.004473776; MIR23B_(miRNA): -0.004452502: MIR9-3_(miRNA): 0.004432174; MIR26B_(miRNA): -0.004414627; MIR429_(miRNA): 0.004401701; MIR26A2_(miRNA): -0.004393525; MIR17_(miRNA): 0.004385947; DLEU2_(rna): -0.004376141; DLEU1_(rna): -0.004337657; TP53 : -0.003302879; JUN: 0.003189085; NOTCH4_(rna): 0.002218066; 및 E2F1/DP_(복합체): 0.000376653.
본 명세서에서의 용도에 적합한 추가적인 고려사항은 2014년 05월 28일에 출원된 국제특허공보 제2014/193982호, 2016년 01월 19일 출원된 국제특허공보 제2016/118527호, 2016년 6월 15일에 출원된 국제특허공보 제2016/205377호에 개시되며, 모두 본 명세서에 참조로 통합된다.
이하의 청구범위를 통해 그리고 본 명세서의 기술에 사용되는 바와 같이, “하나의(a)” “하나의(an)” 및 “상기(the)”의 의미는 문맥에서 명백하게 달리 지시하지 않는 한 복수의 참조를 포함한다. 또한, 본 명세서에서 사용되는 바와 같이, “에서(in)”의 의미는 문맥에서 명백하게 달리 지시하지 않는 한 “에서(in)” 및 “상에(on)”를 포함한다. 본 명세서에서 사용되는 바와 같이, 문맥에서 달리 지시하지 않는 한, 용어 “커플링되는(coupled to)”는 직접 결합(두 엘리먼트들이 서로 접촉하면서 서로 결합) 및 간접 결합(적어도 하나의 추가적인 엘리먼트가 두 엘리먼트 사이에 위치) 양쪽 모두를 포함하는 것으로 의도된다. 따라서, 용어들 “에 커플링되는(coupled to)” 및 “과 커플링되는(coupled with)”는 동일하게 사용된다. 마지막으로, 문맥이 달리 지시하지 않는 한, 본 명세서에 기재되는 모든 범위들은 그들의 종단점들을 포함하는 것으로 해석되어야 하고, 그리고 개방형 범위들은 상업적으로 실용적인 값들을 가지도록 해석되어야 한다. 유사하게, 모든 값들의 목록들은 문맥이 달리 지시하지 않는 한 중간값을 포함하는 것으로 간주되어야 한다.
이미 기술된 것들 이외의 수많은 변형들이 본 명세서에서의 발명의 개념들에 벗어나지 않고 가능하다는 것이 본 기술분야의 통상의 기술자들에게 명백할 것이다. 따라서, 본 발명의 주제는 첨부된 청구범위를 제외하고 제한되지 않는다. 또한, 명세서 및 청구항들 양쪽의 해석에 있어서, 모든 용어들은 문맥에 따라 가능한 가장 넓은 방식으로 해석되어야 한다. 특히, 용어들 “포함하다(comprises)” 및 “포함하는(comprising)”은 참조되는 엘리먼트들, 컴포넌트들, 또는 단계들이 명시적으로 참조되지 않는 다른 엘리먼트들, 컴포넌트들, 또는 단계들과 함께 결합되거나, 또는 활용될 수 있다는 것을 나타내는, 비-배타적인 방식으로 엘리먼트들, 컴포넌트들, 또는 단계들을 언급하는 것으로 해석되어야 한다. 명세서의 청구항들이 A, B, C …. 및 N으로 이루어지는 그룹으로부터 선택되는 적어도 하나의 어떤 것을 지칭하는 경우, 문장은 그룹으로부터 A 더하기 N, 또는 B 더하기 N 등이 아닌 오직 하나의 엘리먼트를 요구하는 것으로 해석되어야 한다.

Claims (35)

  1. 복수의 반응 예측자(response predictor)들을 처리하는 방법으로서,
    복수의 반응 예측자들을 제공하는 단계-각각의 상기 반응 예측자들은 약물과 관련되고 그리고 복수의 경로 엘리먼트(pathway elements)들 및 연관 엔티티 계수(associated entity coefficient)들을 가짐-;
    단일 반응 예측자를 선택하기 위해 대응하는 널 모델(null model)에 관한 각각의 반응 예측자들에 대한 정확도 이득 메트릭(accuracy gain metric)을 계산하는 단계; 및
    스코어를 계산하기 위해 환자 종양의 경로 모델 출력 및 상기 선택된 반응 예측자의 연관 엔티티 계수들 및 경로 엘리먼트들의 서브셋을 적어도 사용하는 단계;
    를 포함하는,
    방법.
  2. 제 1 항에 있어서,
    상기 복수의 반응 예측자들은 적어도 1,000개의 반응 예측자들인,
    방법.
  3. 제 1 항에 있어서,
    상기 복수의 반응 예측자들은 적어도 100,000개의 반응 예측자들인,
    방법.
  4. 제 1 항에 있어서,
    상기 엔티티 계수에 대한 상기 경로 엘리먼트들은 조절 RAN(regulatory RNA), 면역 신호 컴포넌트(immune signaling component), 세포 분화 인자(cell differentiation factor), 세포 증식 인자(cell proliferation factor), 세포사멸 신호 컴포넌트(apoptosis signaling component), 혈관신생 인자(angiogenesis factor), 및 세포주기 체크포인트 컴포넌트(cell cycle checkpoint component)로부터 선택되는,
    방법.
  5. 제 1 항에 있어서,
    상기 정확도 이득 메트릭은 정확도값(accuracy value), 정확도 이득(accuracy gain), 성능 메트릭(performance metric), 곡선하면적 메트릭(area under curve metric), R2값(R2 value), p-값 메트릭(p-value metric), 실루엣 계수(silhouette coefficient), 및 혼동 행렬(confusion matrix)로 이루어지는 그룹으로부터 선택되는,
    방법.
  6. 제 1 항에 있어서,
    상기 복수의 반응 예측자들은 적어도 2개의 상이한 머신 러닝 분류기들을 사용하여 구성되는(established),
    방법.
  7. 제 6 항에 있어서,
    상기 적어도 2개의 상이한 머신 러닝 분류기들은, 선형 커널 서포트 벡터 머신(linear kernel support vector machine), 1 차 또는 2차 다항 커널 서포트 벡터 머신(first or second order polynomial kernel support vector machine), 릿지 회귀(ridge regression), 엘라스틱넷 알고리즘(elastic net algorithm), 순차 최소 최적화 알고리즘(sequential minimal optimization algorithm), 랜덤 포레스트 알고리즘(random forest algorithm), 나이브 베이즈 알고리즘(naive Bayes algorithm), 및 NMF 예측자 알고리즘(NMF predictor algorithm)으로 이루어지는 그룹으로부터 선택되는,
    방법.
  8. 제 1 항에 있어서,
    상기 대응하는 널 모델은 상기 널 모델이 생성되는 상기 반응 예측자의 계산에 사용되지 않는 랜덤하게 선택되는 데이터셋들을 사용하여 계산되는,
    방법.
  9. 제 1 항에 있어서,
    상기 연관 엔티티 계수들 및 경로 엘리먼트들의 서브셋은 1 내지 50개 사이의 엔티티 계수들을 포함하는,
    방법.
  10. 제 1 항에 있어서,
    상기 환자 종양의 상기 경로 모델 출력은 상기 선택되는 반응 예측자에서 상기 경로 엘리먼트들의 서브셋과 동일한 경로 엘리먼트들을 포함하는,
    방법.
  11. 제 1 항에 있어서,
    상기 스코어는 상기 약물을 이용한 치료에 대한 민감도 스코어인,
    방법.
  12. 약물을 사용하여 환자의 치료 결과를 예측하기 위해 상기 환자의 종양의 경로 모델의 출력을 이용하는 방법으로서,
    상기 약물을 사용하여 상기 환자에 대한 치료 결과 스코어를 예측하기 위해 상기 종양의 상기 경로 모델에서 대응하는 경로 엘리먼트들의 출력 값들에 대한 인자들로서 약물에 대한 고-정확도 이득 반응 예측자에서의 복수의 경로 엘리먼트들의 엔티티 계수들을 사용하는 단계;
    를 포함하고,
    상기 종양의 상기 경로 모델은 상기 환자의 오믹스 데이터(omics data)를 사용하여 계산되고, 그리고 복수의 경로 엘리먼트들 및 연관 출력값들을 포함하고;
    상기 고-정확도 이득 반응 예측자는 대응하는 널 모델에 대한 사전결정된 최소 정확도 이득을 가지고; 그리고
    상기 고-정확도 이득 반응 예측자는 복수의 반응 예측자들로부터 선택되고, 각각의 상기 반응 예측자들은 상기 약물과 관련되는,
    방법.
  13. 제 12 항에 있어서,
    상기 복수의 엔티티 계수들은 1 내지 50개 사이의 상기 고-정확도 이득 반응 예측자의 엔티티 계수들을 가지는,
    방법.
  14. 제 12 항에 있어서,
    상기 복수의 엔티티 계수들은 엔티티 계수들의 서브셋이고 그리고 상기 고-정확도 이득 반응 예측자의 모든 엔티티 계수들의 상위 3분위를 포함하는,
    방법.
  15. 제 12 항에 있어서,
    상기 경로 모델은 확률적(probabilistic) 경로 모델인,
    방법.
  16. 제 12 항에 있어서,
    상기 경로 모델은 패러다임(PARADIGM)인,
    방법.
  17. 제 12 항에 있어서,
    상기 사전결정된 최소 정확도 이득은 상기 널 모델에 대해 적어도 50%인,
    방법.
  18. 제 12 항에 있어서,
    상기 널 모델은 상기 널 모델이 생성되는 상기 고-정확도 이득 반응 예측자의 계산에 사용되지 않은 랜덤하게 선택되는 데이터셋들을 사용하여 계산되는,
    방법.
  19. 제 12 항에 있어서,
    상기 복수의 반응 예측자들은 적어도 100,000개의 반응 예측자들인,
    방법.
  20. 제 12 항에 있어서,
    상기 복수의 반응 예측자들은 적어도 2개의 상이한 머신 러닝 분류기들을 사용하여 구성되는,
    방법.
  21. 제 20 항에 있어서,
    상기 적어도 2개의 상이한 머신 러닝 분류기들은, 선형 커널 서포트 벡터 머신(linear kernel support vector machine), 1 차 또는 2차 다항 커널 서포트 벡터 머신(first or second order polynomial kernel support vector machine), 릿지 회귀(ridge regression), 엘라스틱넷 알고리즘(elastic net algorithm), 순차 최소 최적화 알고리즘(sequential minimal optimization algorithm), 랜덤 포레스트 알고리즘(random forest algorithm), 나이브 베이즈 알고리즘(naive Bayes algorithm), 및 NMF 예측자 알고리즘(NMF predictor algorithm)으로 이루어지는 그룹으로부터 선택되는,
    방법.
  22. 제 12 항에 있어서,
    상기 약물은 화학요법 약물(chemotherapeutic drug)인,
    방법.
  23. 다사티닙(dasatinib)을 이용한 환자의 종양의 치료에 대한 치료 결과를 예측하는 방법으로서,
    상기 환자의 상기 종양의 오믹스 데이터를 획득하는 단계;
    상기 종양에 대한 경로 모델 출력, 상기 오믹스 데이터 및 경로 모델을 사용하는 경로 분석 엔진에 의해 계산하는 단계-상기 경로 출력은 복수의 경로 엘리먼트들 및 연관 활성화 값들을 포함함-; 및
    상기 환자에 대한 상기 치료 결과를 예측하기 위해 상기 경로 모델 출력의 대응하는 경로 엘리먼트들의 활성화 값들에 대한 인자들로서 각각의 경로 엔티티들의 복수의 엔티티 계수들을 적용하는 단계;
    를 포함하고,
    상기 경로 엔티티들 및 각각의 엔티티 계수들은 MIR34A_(miRNA): -0.10545895; ETS1: -0.094264817; 5_8_S_rRNA_(rna) : 0.086044958; CEBPB_(이량체)_(복합체): 0.067691407; FOSL1: -0.067263561; CEBPB: 0.066698569; JUN/FOS_(복합체): -0.064549881; Fra1/JUN_(복합체): -0.060403293; FOXA2: 0.059755319; FOS: -0.059560833; E2F1: -0.050992273; AP1_(복합체): -0.049823492; 아노이키스(anoikis)_(추출(abstract)): -0.04853399; FOXA1: 0.035994367; dNp63a_(사량체)_(복합체): -0.033478521; TP63: -0.02956134; MYC: 0.026847479; TP63-2: -0.026423542; E2F-1/DP-1_(복합체): -0.023462081; MYB: 0.022211938; TAp63g_(사량체)_(복합체): 0.019789929; HIF1A/ARNT_(복합체): 0.019222267; JUN/JUN-FOS_(복합체): -0.019184424; MYC/Max_(복합체): -0.018553276; XBP1-2: -0.017009915; DNA_바인딩의 음성_조절_(추출): -0.016224139; PPARGC1A: -0.015525361; p53_사량체_(복합체): -0.013881353; TP63-5: 0.011860936; p53_(사량체)_(복합체): -0.011120564; FOXM1: 0.010515289; MIR146A_(miRNA) -0.004588203; MIR200A_(miRNA): 0.004570842; MIR22_(miRNA): -0.00455296; MIRLET7G_(miRNA): -0.004534414; MIR26A1_(miRNA): -0.004515057; MIR141_(miRNA): 0.004494806; MIR338_(miRNA): 0.004473776; MIR23B_(miRNA): -0.004452502: MIR9-3_(miRNA): 0.004432174; MIR26B_(miRNA): -0.004414627; MIR429_(miRNA): 0.004401701; MIR26A2_(miRNA): -0.004393525; MIR17_(miRNA): 0.004385947; DLEU2_(rna): -0.004376141; DLEU1_(rna): -0.004337657; TP53 : -0.003302879; JUN: 0.003189085; NOTCH4_(rna): 0.002218066; 및 E2F1/DP_(복합체): 0.000376653로 이루어진 그룹으로부터 선택되는,
    방법.
  24. 제 23 항에 있어서,
    상기 경로 모델은 확률적 경로 모델인,
    방법.
  25. 제 23 항에 있어서,
    상기 경로 모델은 패러다임(PARADIGM)인,
    방법.
  26. 제 23 항에 있어서,
    상기 환자의 상기 오믹스 데이터는 복제수 데이터(copy number data), 발현 레벨 데이터(expression level data), DNA 서열 데이터(DNA sequence data), 및 변이 데이터(mutation data) 중 적어도 하나를 포함하는,
    방법.
  27. 제 23 항에 있어서,
    상기 환자에 대한 상기 치료 결과는 다사티닙에 대한 민감도인,
    방법.
  28. 제 23 항에 있어서,
    상기 종양은 신경 종양(neural tumor)인,
    방법.
  29. 경로 모델의 출력을 수정하여 환자에 대한 치료 결과를 예측하기 위해 고-정확도 이득 반응 예측자의 복수의 엔티티 계수들을 이용하여 종양 치료 정보를 제공하는 방법으로서,
    상기 고-정확도 이득 반응 예측자는 약물과 연관되고, 그리고
    상기 경로 모델은 상기 환자의 오믹스 데이터를 사용하는,
    방법.
  30. 제 29 항에 있어서,
    상기 복수의 엔티티 계수들은 1 내지 50 개 사이의 상기 고-정확도 이득 반응 예측자의 엔티티 계수들인,
    방법.
  31. 제 29 항에 있어서,
    상기 복수의 엔티티 계수들은 엔티티 계수들의 서브셋이고 그리고 상기 고-정확도 이득 반응 예측자의 모든 엔티티 계수들의 상위 3분위를 포함하는,
    방법.
  32. 제 29 항에 있어서,
    상기 경로 모델은 확률적 경로 모델인,
    방법.
  33. 제 29 항에 있어서,
    상기 경로 모델은 패러다임(PARADIGM)인,
    방법.
  34. 제 29 항에 있어서,
    상기 약물은 화학요법 약물인,
    방법.
  35. 제 29 항에 있어서,
    상기 환자의 오믹스 데이터는 복제수 데이터, 발현 레벨 데이터, DNA 서열 데이터, 및 변이 데이터 중 적어도 하나를 포함하는,
    방법.
KR1020197006335A 2016-08-03 2017-08-03 다사티닙 반응 예측 모델들 및 이를 위한 방법들(dasatinib response prediction models and methods therefor) KR20190038608A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201662370657P 2016-08-03 2016-08-03
US62/370,657 2016-08-03
PCT/US2017/045378 WO2018027076A1 (en) 2016-08-03 2017-08-03 Dasatinib response prediction models and methods therefor

Publications (1)

Publication Number Publication Date
KR20190038608A true KR20190038608A (ko) 2019-04-08

Family

ID=61069603

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020197006335A KR20190038608A (ko) 2016-08-03 2017-08-03 다사티닙 반응 예측 모델들 및 이를 위한 방법들(dasatinib response prediction models and methods therefor)

Country Status (8)

Country Link
US (1) US20180039732A1 (ko)
EP (1) EP3494504A4 (ko)
JP (1) JP2019527894A (ko)
KR (1) KR20190038608A (ko)
CN (1) CN109952611A (ko)
AU (1) AU2017305499A1 (ko)
CA (1) CA3032421A1 (ko)
WO (1) WO2018027076A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111695464A (zh) * 2020-06-01 2020-09-22 温州大学 一种基于融合核的线性核化特征空间成组性的建模方法

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109937452B (zh) 2016-08-25 2023-04-11 南托米克斯有限责任公司 免疫疗法标志及其用途
CN108595909A (zh) * 2018-03-29 2018-09-28 山东师范大学 基于集成分类器的ta蛋白靶向预测方法
US11769592B1 (en) * 2018-10-07 2023-09-26 Cerner Innovation, Inc. Classifier apparatus with decision support tool
US11749404B1 (en) 2018-10-08 2023-09-05 Cerner Innovation, Inc. Decision support tool for venous thromboembolism (VTE)
CN112819495A (zh) * 2019-11-18 2021-05-18 南京财经大学 一种基于随机多项式核的用户购物意图预测方法
TWI762853B (zh) * 2020-01-06 2022-05-01 宏碁股份有限公司 利用自動化機制挑選影響力指標的方法及電子裝置
CN112001035B (zh) * 2020-09-21 2024-02-23 南京航空航天大学 基于特征工程与岭回归机翼结构变形重构方法
CN116110509B (zh) * 2022-11-15 2023-08-04 浙江大学 基于组学一致性预训练的药物敏感性预测方法和装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9342657B2 (en) * 2003-03-24 2016-05-17 Nien-Chih Wei Methods for predicting an individual's clinical treatment outcome from sampling a group of patient's biological profiles
US10192641B2 (en) * 2010-04-29 2019-01-29 The Regents Of The University Of California Method of generating a dynamic pathway map
AU2013315128B2 (en) * 2012-09-14 2019-01-03 Memorial Sloan-Kettering Cancer Center Genes associated with dasatinib sensitivity
KR101626487B1 (ko) * 2012-10-09 2016-06-01 파이브3 제노믹스, 엘엘씨 생물학적 경로 내의 조절 상호작용의 학습 및 확인을 위한 시스템 및 방법
DK3005199T3 (da) * 2013-05-28 2019-10-14 Five3 Genomics Llc Paradigme-medikament respons netværk
CN107548498A (zh) * 2015-01-20 2018-01-05 南托米克斯有限责任公司 用于反应预测高级别膀胱癌中的化疗的系统和方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111695464A (zh) * 2020-06-01 2020-09-22 温州大学 一种基于融合核的线性核化特征空间成组性的建模方法

Also Published As

Publication number Publication date
CA3032421A1 (en) 2018-02-08
AU2017305499A1 (en) 2019-02-14
EP3494504A4 (en) 2020-07-22
CN109952611A (zh) 2019-06-28
EP3494504A1 (en) 2019-06-12
US20180039732A1 (en) 2018-02-08
JP2019527894A (ja) 2019-10-03
WO2018027076A1 (en) 2018-02-08

Similar Documents

Publication Publication Date Title
Sayed et al. A nested genetic algorithm for feature selection in high-dimensional cancer microarray datasets
KR20190038608A (ko) 다사티닙 반응 예측 모델들 및 이를 위한 방법들(dasatinib response prediction models and methods therefor)
Quazi Artificial intelligence and machine learning in precision and genomic medicine
Gao et al. DeepCC: a novel deep learning-based framework for cancer molecular subtype classification
AU2016280074B2 (en) Systems and methods for patient-specific prediction of drug responses from cell line genomics
Bravo-Merodio et al. -Omics biomarker identification pipeline for translational medicine
Badwan et al. Machine learning approaches to predict drug efficacy and toxicity in oncology
Guo et al. Medusa structure of the gene regulatory network: dominance of transcription factors in cancer subtype classification
Smith et al. Identification of early liver toxicity gene biomarkers using comparative supervised machine learning
Ayed et al. Biological representation of chemicals using latent target interaction profile
Tuo et al. Membrane computing with harmony search algorithm for gene selection from expression and methylation data
Bhowmick et al. Identification of tissue-specific tumor biomarker using different optimization algorithms
Strunz et al. Network-assisted disease classification and biomarker discovery
Huang et al. Classifying breast cancer subtypes on multi-omics data via sparse canonical correlation analysis and deep learning
Karagiannaki et al. Learning biologically-interpretable latent representations for gene expression data: pathway activity score learning algorithm
Zhang et al. Finding disagreement pathway signatures and constructing an ensemble model for cancer classification
Kontio et al. Scalable nonparametric prescreening method for searching higher-order genetic interactions underlying quantitative traits
Mallavarapu et al. R-pathcluster: Identifying cancer subtype of glioblastoma multiforme using pathway-based restricted boltzmann machine
Li et al. Detecting disease-associated genomic outcomes using constrained mixture of Bayesian hierarchical models for paired data
Dhillon et al. HBS–STACK: hierarchical biomarker selection and stacked ensemble model for biomarker identification and cancer prediction on multi-omics
Dlamini et al. The Application of AI in Precision Oncology: Tailoring Diagnosis, Treatment, and the Monitoring of Disease Progression to the Patient
Deswal et al. Precision medicine
Neil et al. Assessing Metabolic Markers in Glioblastoma Using Machine Learning: A Systematic Review. Metabolites 2023, 13, 161
Mallavarapu Identifying Cancer Subtypes Using Unsupervised Deep Learning
Kaynar et al. PiDeeL: Pathway-Informed Deep Learning Model for Survival Analysis and Pathological Classification of Gliomas

Legal Events

Date Code Title Description
A201 Request for examination
WITB Written withdrawal of application