KR20200043486A - 패러다임 약물 반응 네트워크 - Google Patents

패러다임 약물 반응 네트워크 Download PDF

Info

Publication number
KR20200043486A
KR20200043486A KR1020207010236A KR20207010236A KR20200043486A KR 20200043486 A KR20200043486 A KR 20200043486A KR 1020207010236 A KR1020207010236 A KR 1020207010236A KR 20207010236 A KR20207010236 A KR 20207010236A KR 20200043486 A KR20200043486 A KR 20200043486A
Authority
KR
South Korea
Prior art keywords
data
data set
path
patient
drug
Prior art date
Application number
KR1020207010236A
Other languages
English (en)
Inventor
스티븐 찰스 벤츠
크리스토퍼 스제토
Original Assignee
파이브3 제노믹스, 엘엘씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 파이브3 제노믹스, 엘엘씨 filed Critical 파이브3 제노믹스, 엘엘씨
Publication of KR20200043486A publication Critical patent/KR20200043486A/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B99/00Subject matter not provided for in other groups of this subclass
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Public Health (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Physiology (AREA)
  • Bioethics (AREA)
  • Epidemiology (AREA)
  • Data Mining & Analysis (AREA)
  • Genetics & Genomics (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Primary Health Care (AREA)
  • Pathology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

다수의 세포 또는 조직 샘플로부터의 오믹 데이터(omics data)가 상기 세포 또는 조직의 치료 매개변수(예를 들어, 특정 약물에 대한 저항성)와 연관된 경로 요소를 동정하기 위해 사용되는 시스템 및 방법이 제공된다. 그렇게 동정된 경로 요소는 그 후에 치료 매개변수과 관련해서 재-평가된 변형된 데이터 세트를 제공하기 위해 통계적 인자 그래프 모델에서 인실리코(in silico) 조절된다. 이러한 시스템 및 모델은 미치료(treatment-naive) 환자를 위한 다약제 치료의 권고에 특히 유용하다.

Description

패러다임 약물 반응 네트워크{Paradigm drug response networks}
본 출원은 2013년 5월 28일에 출원되어 일련번호 61/828,145 및 2013년 12월 20일에 출원되어 일련번호 61/919,289를 갖는 미국 가출원의 우선권을 주장한다.
본 발명의 분야는 연산 모델링(computational modeling) 및 경로 모델의 용도, 특히 치료적 권고의 개발에 유용한 경로 요소를 동정하기 위한 경로 모델의 인실리코 조정(modulation)에 관한 것이다.
배경 기술은 본 발명을 이해하는데 유용할 수 있는 정보를 포함한다. 본원에 제공된 임의의 정보가 선행 기술이거나 현재 청구된 발명과 관련이 있고, 또는 구체적으로 또는 함축적으로 언급된 임의의 공개가 선행 기술임을 시인하는 것은 아니다.
경로의 연산 모델링의 다양한 시스템 및 방법이 당해 기술분야에 공지되어 있다. 예를 들어, 일부 알고리즘(예를 들어, GSEA, SPIA, 및 PathOlogist)은 문헌으로부터 큐레이트된(curated) 경로를 사용하여 변경된 관심 경로를 성공적으로 동정하는 것이 가능하다. 또 다른 툴(tools)은 문헌에서 큐레이트된 상호작용으로부터 캐주얼 그래프(casual graph)를 구성하고 발현 프로파일을 설명하기 위하여 이러한 그래프를 사용한다. 예를 들어, ARACNE, MINDy 및 CONEXIC과 같은 알고리즘은 한 세트의 암 샘플 전체에서 가능성 있는 전사 드라이버(driver)를 동정하기위한 전사 정보(및 CONEXIC의 경우, 복제수)를 포함한다. 그러나, 이러한 툴은 상이한 드라이버를 관심 단일 표적을 동정하는 기능적 네트워크로 분류하는 시도를 하지 않는다. 넷박스(NetBox) 및 상호 배타성 모듈(Mutual Exclusivity Modules)과 같은 일부 새로운 알고리즘은 암에서 데이터 통합 문제의 해결을 시도하고, 그로써 샘플의 발암 가능성의 핵심인 다중 데이터 유형의 전체에서 네트워크를 동정한다.
이러한 툴이 네트워크를 찾기 위하여 경로 전체에서 적어도 일부 제한된 통합을 허용하지만, 일반적으로 관련 경로 또는 경로 네트워크에 하나 이상의 효과를 갖는 조절 정보 및 이러한 정보의 관련성을 제공하는데 실패한다. 마찬가지로, GINEA는 단일 생물학적 경로 내에서 조절 곤란(dysregulated) 유전자 상호작용을 찾으나, 경로의 위상(topology) 또는 지시에 대한 사전 지식 또는 상호작용의 성질을 고려하지 않는다. 게다가, 이러한 모델링 시스템의 상대적으로 불완전한 성질로 인해, 특히 다중 경로 및/또는 경로 요소의 상호작용이 연구 중인 경우, 예측 분석은 종종 불가능하다.
더욱 최근에, 다양한 향상된 시스템 및 방법이 생체내 경로의 인실리코 경로 모델을 수득하기 위해 기재되었으며, 예시적인 시스템 및 방법이 WO 2011/139345호 및 WO 2013/062505호에 기재되었다. 이러한 모델의 추가의 개선이 상이한 경로 요소 및 경로 중에서 교차-상관관계를 동정하는 것을 보조하는 방법을 개시하는 WO 2014/059036호에 제공된다 (본원에서 일괄하여 "패러다임[PARADIGM]"으로 언급됨). 이러한 모델이, 예를 들어, 다양한 신호 경로의 상호연관성 및 다양한 경로를 통한 신호 흐름에 유용한 통찰력을 제공하지만, 이러한 모델링을 이용한 수많은 양태는 이해되지 않거나 또는 심지어 인식되지 않았다.
각 개별 공개 또는 특허 출원이 참고로서 구체적 및 개별적으로 포함되는 것이 지시된 바와 같이 본원에 개시된 모든 공개는 동일한 범위로 참고로서 포함된다. 포함된 참고의 용어의 정의 또는 사용이 본원에 제공된 용어의 정의와 일치하지 않거나 반대인 경우, 본원에 제공된 용어의 정의가 적용되고 참고에서 그 용어의 정의는 적용되지 않는다.
따라서, 목적하는 치료적 결과를 예측하는 것을 보조하기 위해 시뮬레이션된 상태(예를 들어, 시뮬레이션된 치료적 간섭)에 대한 이환된 세포 또는 조직에서 하나 이상의 경로의 인실리코 반응을 예측하기 위한 향상된 연산 모델 및 방법을 제공할 필요가 여전히 존재한다.
본 발명의 청구대상은 환자 샘플 및 선험적인 경로 모델로부터 수득된 오믹 데이터를 사용하는 치료적 성과의 인실리코 예측을 위한 장치, 시스템, 및 방법에 대한 것이다. 바람직한 양태에서, 치료적 결과의 예측은 치료적 접근을 시뮬레이션하기 위한 경로 모델의 인실리코 조절에 근거하고, 시뮬레이션의 성과는 치료적 권고를 준비하기 위해 이용된다.
발명의 청구대상의 하나의 양태에서, 본 발명자들은 따라서 세포의 오믹 데이터로부터 파생된 데이터 세트의 인실리코 분석 방법을 고려한다. 바람직한 방법은 특히 경로 모델 데이터베이스를 기계 학습 시스템 및 경로 분석 엔진에 정보적으로 연결하는 단계를 포함하는데, 여기서 경로 모델 데이터베이스는 다수의 별개의 이환된 세포의 오믹 데이터로부터 파생된 다수의 별개의 데이터세트를 각각 저장하며, 각각의 데이터 세트는 복수의 경로 요소 데이터를 포함한다. 기계 학습 시스템을 그후에 복수의 별개의 데이터 세트의 적어도 일부를 수용하고 이환된 세포의 치료 매개변수 (예를 들어, 약물을 이용한 치료)의 상태(예를 들어, 민감성 또는 저항성)와 연관된 별개의 데이터 세트에서 결정자 경로 요소를 동정한다. 추가의 단계에서, 경로 분석 엔진은 그후에 이환된 세포로부터 적어도 하나의 별개의 데이터 세트를 수용하며, 데이터 세트에서 결정자 경로 요소는 그후에 변형된 데이터 세트를 그렇게 생성하기 위해서 경로 분석 엔진에서 조절된다. 기계 학습 시스템은 그후에 이환된 세포에 대한 치료 매개변수의 상태의 변화를 동정하기 위해 변형된 데이터 세트를 사용한다. 바람직하거나 필요한 경우, 본원의 시스템 및 방법은 또한 데이터세트를 전-처리(pre-processing)하는 추가적인 단계 (예를 들어, 특징 선택, 데이터 변환, 메타데이터 변환, 및/또는 트레이닝 및 확증 데이터세트로의 분할)를 포함할 것이 고려된다.
가장 전형적으로, 종양 질환으로 진단된 환자의 환자 샘플로부터 적어도 하나의 별개의 데이터 세트가 생성되지만, 하나 이상의 다른 데이터 세트는 그 환자로부터가 아닌 세포를 함유한 별개의 세포 배양으로부터 생성된다. 세포 배양으로부터의 세포는 환자의 종양 질환과 동일한 종양 유형임이 언급되어야 한다(예를 들어, 상기 환자 및 유방암 세포 또는 조직으로부터 유래되지 않은 다양한 유방암 세포주[cell line]). 더 나아가, 환자가 종양 질환에 대해서 치료되지 않았을 것이라는 점이 인식되어야 한다. 또다른 관점로부터 고찰되었을 때, 고려되는 시스템 및 방법은 치료를 심지어 개시하기 전에 환자 오믹 데이터에 근거하여 최적화된 성과를 내기에 적합한 약물 조합을 예측하기에 적합하다. 발명의 청구대상을 제한하지 않으면서, 환자에 대한 치료적 권고를 포함하는 출력 데이터가 생성되는 것이 일반적으로 바람직하다. 따라서, 고려되는 방법은 또한 상태의 변화가 미리 결정된 문턱값을 초과할 때 결정자 경로 요소를 표적하는(targeting) 약물을 동정하는 단계를 포함할 것이다.
상이한 관점에서 고찰되었을 때, 복수의 별개의 이환된 세포는 약물에 대한 세포의 민감도와 관련해서(또는 방사선, 열 치료 등을 포함하는 다른 치료 기법) 서로 상이함이 인식되어야 한다. 예를 들어, 별개의 이환된 세포의 제1 세트는 약물을 이용한 치료 민감성일 수 있는 반면, 별개의 이환된 세포의 제2 세트는 상기 약물을 이용한 치료에 저항성일 수 있다.
오믹 데이터와 관련하여, 모든 공지된 오믹 데이터가 적합한 것으로 여겨지며 바람직한 오믹 데이터는 특히 유전자 복제수 데이터, 유전자 돌연변이 데이터, 유전자 메틸화 데이터, 유전자 발현 데이터, RNA 스플라이스(splice) 정보 데이터, siRNA 데이터, RNA 번역 데이터, 및/또는 단백질 활성 데이터를 포함한다. 마찬가지로, 수많은 데이터 포맷이 본원의 용도에 적절한 것으로 간주되지만, 특히 바람직한 데이터 포맷은 패러다임 데이터세트이다. 결정자 경로 요소는 상당히 다양할수 있으나, 특히 바람직한 결정자 경로 요소는 유전자의 발현 상태, 단백질의 단백질 수준, 및/또는 단백질의 단백질 활성을 포함한다.
따라서, 본 발명자들은 또한 기계 학습 시스템 및 경로 분석 엔진과 정보적으로 연결된 경로 모델 데이터베이스를 포함할 세포의 오믹 데이터로부터 파생된 데이터 세트의 인실리코 분석을 위한 시스템을 고려한다. 가장 전형적으로, 경로 모델 데이터베이스는 복수의 별개의 이환된 세포의 오믹 데이터로부터 파생된 복수의 별개의 데이터 세트를 각각 저장하도록 프로그램될 것이며, 각각의 데이터 세트는 복수의 경로 요소 데이터를 포함할 것이다. 기계 학습 시스템은 그후에 경로 모델 데이터베이스로부터 복수의 별개의 데이터 세트를 수용하도록 프로그램되며, 추가로 이환된 세포의 치료 매개변수의 상태와 연관된 복수의 별개의 데이터 세트에서 결정자 경로 요소를 동정하도록 프로그램된다. 가장 전형적으로, 경로 분석 엔진은 이환된 세포로부터 적어도 하나의 별개의 데이터 세트를 수용하도록 프로그램되며 추가로 이환된 세포로부터 변형된 데이터 세트를 생성하기 위해 적어도 하나의 별개의 데이터 세트에서 결정자 경로 요소를 조정하도록 프로그램되고, 기계 학습 시스템은 변형된 데이터 세트를 사용하여 이환된 세포에 대한 치료 매개변수의 상태 변화를 동정하도록 프로그램된다. 전형적으로, 시스템은 환자에 대한 치료적 권고를 포함하는 출력 데이터를 생성하도록 추가로 프로그램된다.
위에서 언급된 바와 같이, 적어도 하나의 별개의 데이터 세트는 종양 질환을 갖는 환자의 환자 샘플로부터 생성되고, 다수의 다른 별개의 데이터 세트는 그 환자로부터가 아닌 세포를 포함한 별개의 세포 배양으로부터 생성되는 것이 또한 고려된다. 바람직하게는, 환자는 종양 질환에 대해 치료 받아본 적이 없다.
상이한 관점에서 고찰되면, 본 발명자들은 또한 경로 모델 데이터베이스가 기계 학습 시스템 및 경로 분석 엔진에 연결된 컴퓨터 시스템이 다음의 단계를 포함하는 방법을 수행하도록 야기하는 프로그램 명령을 포함하는 비-일시적인(non-transient) 컴퓨터 판독가능 매체를 고려한다: (a) 복수의 별개의 이환된 세포의 오믹 데이터로부터 각각 파생된 복수의 별개의 데이터 세트를 경로 모델 데이터베이스로부터 기계 학습 시스템으로 전송하는 단계로, 각각의 데이터 세트가 복수의 경로 요소 데이터를 포함하는 단계; (b) 이환된 세포의 치료 매개변수의 상태와 연관된 복수의 별개의 데이터 세트에서 결정자 경로 요소를 기계 학습 시스템으로 동정하는 단계; (c) 이환된 세포로부터 적어도 하나의 별개의 데이터 세트를 경로 분석 엔진으로 수용하는 단계; (d) 이환된 세포로부터 변형된 데이터 세트를 생성하기 위해 적어도 하나의 별개의 데이터 세트에서 결정자 경로 요소를 경로 분석 엔진으로 조절하는 단계; 및 (e) 이환된 세포에 대한 치료 매개변수의 상태의 변화를 기계 학습 시스템에 의해 변형된 데이터 세트를 사용하여 동정하는 단계.
가장 전형적으로, 오믹 데이터는 유전자 복제수 데이터, 유전자 돌연변이 데이터, 유전자 메틸화 데이터, 유전자 발현 데이터, RNA 스플라이스 정보 데이터, siRNA 데이터, RNA 번역 데이터, 및/또는 단백질 활성 데이터를 포함할 수 있으며, 특히 고려되는 별개의 데이터 세트는 패러다임 데이터세트이다.
발명의 청구대상의 다양한 목적, 특징, 양태 및 이점이 동일한 숫자가 동일한 구성요소를 나타내는 첨부된 도면과 함께, 하기의 바람직한 실시 형태의 상세한 설명으로부터 더욱 명백해질 것이다.
도 1A 및 도 1B는 좌측 패널(panel)에 선택된 약물(1A 시스플라틴[cisplatin]; 1B 겔다나마이신[Geldanamycin])에 대한 유방암 세포주의 민감도를 도시하고, 우측 패널에 선택된 약물과 연관되는 세포주에서 경로 요소의 활성을 개략적으로 도시한다.
도 1C는 GI50에 표현되는 바와 같은 시스플라틴에 대한 다양한 유방암 세포주의 민감도(상부 패널) 및 동일한 세포에 대한 유전자 발현/조절에 대한 상응하는 열지도(heat map)를 도시한다(하부 패널).
도 2A는 각각의 유전자가 통계적 인자 그래프 모델을 통해서 표시되는 경로 모델 시스템을 개략적으로 도시한다.
도 2B는 도 2A의 경로 요소의 인실리코 조절 및 관련 후속 효과를 개략적으로 보여준다.
도 2C는 예시적인 경로 모델링 시스템에서의 약제학적 간섭 시뮬레이션을 개략적으로 도시한다.
도 2D는 본 발명의 청구대상에 따른 유의성 분석 및 변화 측정을 개략적으로 도시한다.
도 3은 대장암 세포주에서 유전자의 인실리코 녹다운을 위한 생체내 확증 실험을 개략적으로 도시한다.
도 4는 본 발명의 청구대상에 따른 작업흐름(workflow)의 도해이다.
도 5A는 IGFBP2가 녹아웃된 다양한 암 세포주의 인실리코 조작 후에 시스플라틴 민감도의 예측된 변화에 대한 예시적인 출력이다.
도 5B는 TP53INP1가 녹아웃된 다양한 암 세포주의 인실리코 조작 후에 GSK923295 민감도의 예측된 변화에 대한 예시적인 출력이다.
도 5C는 ARHGEF25가 녹아웃된 다양한 암 세포주의 인실리코 조작 후에 파스카플리신 민감도의 예측된 변화에 대한 예시적인 출력이다.
본원에 참고로서 포함되는 WO2011/139345호, WO/2013/062505호, 및 WO/2014/059036호에 더욱 상세하게 기재된 바와 같이, 최근 개발된 경로 분석 시스템 및 방법에 기초하여, 본 발명자들은 이제 경로 분석 및 경로 모델 변형이 약물 치료 옵션을 동정하고/하거나 상태, 및 특히 종양 질환의 치료-관련 매개변수(예를 들어, 특정한 치료에 대한 약물 저항성 및/또는 민감도)의 결정자이거나 그와 연관된 경로 요소를 표적하는 약물 치료를 시뮬레이션하기 위해 인실리코 사용될 수 있음을 고려한다.
더욱 구체적으로, 동정된 경로 요소는 목적하는 효과가 달성될 수 있는지 여부를 검정하기 위해서 경로 분석 시스템 및 방법을 사용하여 인실리코 조절되거나 변형된다. 예를 들어, 약물 저항성에 대한 경로 모델이 특정 요소의 과-발현을 상태의 발병에 결정적이라고 동정하는 경우(예를 들어, 특정한 약물에 대한 약물 저항성), 그로인해 동일한 경로 분석 시스템 및 방법에서 상기 요소의 인실리코 감소가 잠재적으로 세포를 약물 민감도에도 역전되게 할 수 있는지 검정하기 위해서 상기 요소의 발현 수준이 인실리코 감소될 수 있다. 이러한 접근은 다수의 가능한 종양 변형체를 나타내는 다수의 세포주가 이미 이용 가능한 경우에 특히 유용하다. 이러한 경우에, 경로 분석이 세포주-특이적 경로 모델의 수집물을 수득하기 위해 세포주 각각에 대하여 수행될 수 있다. 그러한 수집물은, 환자 샘플에 대한 데이터가 수집물과 동일한 데이터 스페이스(space) 안에서 분석될 수 있기 때문에 환자 샘플로부터 수득된 데이터와 비교하는데 특히 유용하고, 이는 궁극적으로 그 환자를 위한 치료 표적의 동정을 가능케 한다. 따라서, 다른 이점 중에서, 고려되는 시스템 및 방법은 종양 샘플로부터 환자 데이터의 분석이 환자가 실제로 약물 치료를 경험하기 전에 다약제 치료를 동정하는 것을 허용한다.
따라서, 다양한 관점으로부터 고찰되면, 본 발명자들은 환자의 이환된 세포 및/또는 조직로부터 수득한 다양한 오믹 데이터가 해당 세포 및/또는 조직에 대한 민감도 프로파일을 결정하기 위해 연산 접근법에 사용될 수 있음을 발견했으며, 여기서 프로파일은 다양한 유사하게 이환된 세포(예를 들어, 유방암 세포)의 경로 및/또는 경로 요소의 선험적인 동정에 근거한다. 가장 바람직하게는, 선험적으로 동정된 경로(들) 및/또는 경로 요소(들)은 특정한 약제학적 간섭 및/또는 치료 섭생에 대한 저항성 및/또는 민감도과 연관되어 있다. 일단 민감도 프로파일이 확립되면, 치료는 선험적으로 동정된 경로(들) 및/또는 경로 요소(들)로부터 직접적으로 예측될 수 있고, 혹은 동정된 경로 및/또는 경로 요소는 약제학적 간섭 및/또는 치료 섭생에 대한 가능성 있는 결과를 예측하는 것을 보조하기 위해 공지된 경로 모델링 시스템 및 방법을 사용하여 인실리코 조절될 수 있다.
컴퓨터에 지시된 임의의 언어가 서버, 인터페이스(interfaces), 시스템, 데이터베이스, 에이전트(agents), 피어(peers), 엔진, 컨트롤러(controllers), 또는 개별적으로 또는 집합적으로 작동하는 다른 유형의 연산(computing) 장치를 포함하는 연산 장치의 임의의 적합한 조합을 포함하는 것으로 이해되어야 함이 언급되어야 한다. 연산 장치는 유형의(tangible), 비-일시적인 컴퓨터가 판독 가능한 저장 매체 (예를 들어, 하드 드라이브[hard drive], 솔리드 스테이트 드라이브[solid state drive], 램[RAM], 플래쉬[flash], 롬[ROM] 등)에 저장된 소프트웨어 명령을 실행하도록 설계된 프로세서를 포함함을 인식해야 한다. 소프트웨어 명령은 바람직하게는 개시된 장치(apparatus)와 관련해서 하기에 논의되는 바와 같이 역할, 책임, 또는 다른 기능을 제공하기 위해 연산 장치를 구성한다. 특히 바람직한 실시 형태에서, 다양한 서버, 시스템, 데이터베이스, 또는 인터페이스는 가능한 HTTP, HTTPS, AES, 관-민 키 교환(public-private key exchanges), 웹 서비스 API, 공지된 금융 거래 프로토콜, 또는 다른 전자적 정보 교환 방법에 근거한 표준화된 프로토콜 또는 알고리즘을 사용하여 데이터를 교환한다. 데이터 교환은 바람직하게는 인터넷, 랜(LAN), WAN, VPN, 또는 다른 유형의 패킷 교환망과 같은 패킷-교환망 상에서 이루어진다.
대부분의 암환자는 거의 단일요법(monotherapy)에 적용되지 않지만, 특정한 약물 조합에 대한 반응의 정확한 예측은 암요법에서 가장 난해한 과제중에 하나이다. 다수의 가능성 있는 약물 조합이 존재하지만, 현재는 특정 암에 대한 임의의 소정의 조합을 입증하기 위한 통계적으로 유의미한 데이터가 거의 없다. 오히려, 대부분의 현행 조합 요법은 독립적인 경로를 표적하도록 수동으로-선택된다. 안타깝게도, 조합 요법을 디자인하는 현행 방법이 다소 실용적이지만, 상승적(synergetic) 이중 요법을 위한 후보 약물을 동정하기 위한 정확한 통계적 접근법이 없기 때문에 이들은 피상적인 경향이 있다. 더욱이, 약물 반응의 메커니즘이 반드시 독립적인 것은 아니기 때문에, 단일요법에 대한 예측을 수치적으로 조합하는 것이 조합의 결과를 정확하게 예측하지는 않을 것이다.
이러한 단점을 해결하기 위해, 본 발명자들은 이제 단일요법 예측자(predictor)를 이용해 경로 안내된 학습을 도입하는 시스템 및 방법을 개발했다. 하기에 더욱 상세히 기재된 바와 같이, 공지된 경로 모델링 시스템(바람직하게는 패러다임)은 (동일한 종양 유형의)치료 저항성 및 치료 민감성인 세포의 다중 세포주 데이터로부터의 경로 활성을 추측하기 위해 사용되는 것이 일반적으로 바람직하다. 그렇게 개발된 경로 활성 데이터는 그후에 또한 추가로 더욱 상세히 하기에 논의되는 접근법(탑모델[topmodel])에서 약물 반응의 예측 모델을 구축하는데 사용되며, 각각의 약물에 대한 상위 예측 모델은 어떤 유전자가 저항성에 대해 자주 높은 비중을 갖는지 결정하기 위해 조사된다. 이러한 유전자는 그후에 공지된 경로 모델링 시스템(바람직하게는 패러다임)에서 부동작 위치(off-position)로 인실리코 고정되며, 활성이 재-추론되는데, 이는 사실상 생체내 약물 간섭의 예상된 효과를 인실리코 시뮬레이션한다. 탑모델은 그후에 새롭게 추론된 후-간섭(post-intervention) 데이터를 재평가하는데 사용된다. 쉽게 인식될 수 있는 바와 같이, 재평가가 약물 저항성의 예측으로부터 약물 민감도의 예측으로의 변화를 나타는 경우에, 인실리코 시뮬레이션된 간섭은 생체내 치료에 대한 치료적 권고로 해석될 수 있다.
다음으로, 본 발명자들은 공지된 유방암 세포주 데이터 및 이들 세포에 대한 개별적인 약물 반응 프로파일의 큰 패널을 사용하는 이러한 시스템 및 방법의 실현 가능성을 증명하였다. 이중 요법의 효과를 시뮬레이션하기 위해서, 본 발명자들은 하기에 추가로 기재된 바와 같이 경로 모델링 시스템 데이터 상에서 트레이닝된 고도로 정확한 약물 반응 모델을 사용했으며, 추정으로 저항성과 연관되었던 유전자 후보에 대해 이들 경로 모델링 시스템-기반 모델을 조사했다. 이들 저항성-연관 특징은 이러한 유전자의 작용에 대해 표적 약물 간섭의 효과를 시뮬레이션하기 위한 대용품으로서 경로 모델링 시스템에서 인실리코 침묵된다. 그렇게 수득된 모델은 그후에 민감성으로의 변화에 대한 후-간섭 데이터세트를 재평가하는데 사용되었다. 만약 변화가 관찰되면, 모델이 인실리코 예측한 약물 반응이 제1 의 약물을 후보 유전자에 대한 제2 의, 논거(rationale)-기반 표적 약물 요법과 조합함으로써 생체내에서 강화될 가능성이 있다고 추론된다.
이러한 방법에서 약물/특징-KO 조합의 효과를 예측하는 것은 고도로 정확한, 선형 분류기를 필요로 한다는 것이 인식되어야 한다. 가장 바람직하게는, 그러한 분류기는 경로 모델링 시스템 데이터(바람직하게는 패러다임 데이터)를 입력으로 사용하여 전-간섭 및 후-간섭 데이터에 조작 없이 이들의 적용을 허용한다. 나아가, 선형 모델은 또한 특징 계수에 대한 조사가 그에 대한 간섭을 시뮬레이션하기 위해 저항성-연관된 특징을 선택하도록 허용할 것이다.
약물 반응 예측기 모델 구축: 임상적 설정에 사용하도록 조장된 예측 모델은 고성능이어야 한다. 그러한 예측 모델을 개발하기 위해서 다수의 상층권(competing) 모델이 전형적으로 생성된다. 이러한 다수의 상층권 모델의 성능은 최선의 성능을 선택하도록 비교될 필요가 있지만, 이러한 성능을 비교하는 방법 이 종종 만족스럽지 못하다: 전형적으로 비교 간의 매개변수가 너무 다양하여 실제적으로 무의미하다. 일부 기계-학습 비교 툴이 제어(controlling)하는 매개변수를 다루기 위해 개발되었다. 예를 들어, '사이키트-학습(scikit-learn)' 및 'WEKA'와 같은 소프트웨어는 매우 신속하게 이론적인 예측 정확도를 수집하도록 고안된다. 그러나, 실행 시간을 단축하기 위해서, 그러한 소프트웨어는 단지 일시적으로 휘발성 메모리에 데이터의 최소한의 표시를 보유한다. 그들의 설계에 의해, 새로운 예측 알고리즘이 이를 비교에 추가하기 위해 그들의 소프트웨어 내부에서 실행되어야 한다. 이는 종종 기존의 코드를 기계-학습 파이프라인(pipeline) 코드의 언어로 번역하는 번거로운 작업을 필요로 한다(사이키트-학습을 위한 파이썬[python], 및 WEKA를 위한 자바[Java]). 이러한 소프트웨어 툴의 범위 밖에서 개발된 알고리즘에의 비교는 여전히 극도로 어렵다.
이러한 어려움의 적어도 일부를 극복하기 위해서, 본 발명자들은 이제 데이터에 적용된 기계-학습 알고리즘으로부터 데이터 관리를 분리시키는(decouples) 툴("탑모델")을 개발했으며, 이는 유연하고, 고 처리량 파이프라인을 제공한다. 탑모델은 데이터를 판독하고, 트레이닝 및 확증 분할(validation splitting)를 수행하며, 모든 데이터 및 메타데이터 변환을 수행하고, 그후에 이러한 데이터를 이종의(disparate) 소프트웨어 패키지에 의해 요구되는 다양한 포맷으로 기록한다. 이러한 방법으로 정확하게 동일한 트레이닝 및 확증 데이터가 상이한 언어로 실행되는 상이한 알고리즘에 노출된다. 탑모델은 그후에 결과를 취합하고 그들을 통합된 포맷으로 표시한다. 요약하면, 탑모델은 임의의 일반적인 저장 포맷(로컬 또는 클라우드 저장 서비스에)에 저장된 데이터를 엑세스함으로써(accessing) 데이터를 취합하고, 그후에 데이터 및 메타데이터가 멀티스레드(multithreaded)의 전처리를 거치고, 데이터가 그후에 개별적인 기계-학습 패키지에 의해 요구되는 파일 포맷으로 기록되는 전처리 단계를 수행한다. 이러한 전처리는 포맷 사이에서 일관되고 전파되는(seeded)(따라서 재생가능한) 것으로 언급되어야 한다. 또 다른 단계에서, 트레이닝 및 평가가, 트레이닝 데이터 상에서 트레이닝되고, 확증 데이터에 대해 평가된 각각의 분류기로 수행된다. 이는 바람직하게는 클러스터(cluster) 상에서 수행되서, 처리량을 실질적으로 증가시킨다. 평가 모델에 더해, 완전히-트레이닝된(fully-trained) 모델이 전체 입력 데이터세트 상에 구축된다. 추가의 저장 및 표시 단계에서, 각각의 알고리즘 및 그의 매개변수가 평가되고, 이러한 평가는 (사용자 인터페이스로부터 쿼리가능한[quaryable])데이터베이스에 저장될 수 있는 통합된 파일 포맷으로 수집된다. 마지막으로, 인터페이스는 신규 데이터에 대해 완전히 트레이닝된 모델을 실행하기 위한 함수를 정의하고, 사용자는 인터페이스를 통해서 그들의 데이터를 업로드할 수 있고 예측을 수용할 수 있다.
데이터 취합 단계와 관련하여, 예측 모델을 구축하기 위해, 고품질의 데이터세트와 그들의 관련 메타데이터가 수집될 필요가 있음이 언급된다. 마이크로어레이(microarray) 데이터의 많은 수집물이 공유 상태(public domain)로 존재한다. 진 익스프레션 옴니버스(Gene Expression Omnibus; GEO)와 같은 사이트는 사실상 수백개의 큰 코호트(cohort)를 위해 필수적인 연관된 메타데이터를 보유한 데이터 공유 창고가 되었다. 또한 SU2C 및 TCGA와 같은 그들 자체의 데이터-공유 서비스를 제공하는 대규모의 데이터-생성 컨소시엄(consortium)이 존재한다. 그러나, 각각의 저장 사이트가 그들 고유의 쿼리 시스템, 파일 포맷, 사용 정책 등을 가지고 있기 때문에 이러한 데이터세트를 수집하는 것은 상당한 수고를 요구한다는 것이 인식되어야 한다. 이러한 시스템은 지속적으로 업그레이드된다. 프로그램적으로 이러한 데이터세트를 직접적으로 엑세스하는 것은 극도로 취약하다. 따라서, 이러한 데이터-공유 보관소로부터 직접적으로 엑세스하는 대신에, 탑모델은 임의의 일반적으로-사용되는 포맷으로부터 데이터 및 메타데이터 둘 모두를 판독하도록 설계된다. 이는 탭-제한된(delimited) 파일을 판독하고, BED 파일, mySQL 데이터베이스를 엑세스하고, SQLite 데이터베이스를 판독하는 것을 포함한다. 더욱이, 탑모델 C 라이브러리(library)는 원격으로 호스트된(hosted) 데이터베이스 뿐만 아니라 국소로 호스트된 데이터베이스 둘 모두에 엑세스할 수 있다.
데이터 전처리와 관련하여, 동등해지는 모델 성능 비교의 경우에, 트레이닝을 위해 기계-학습 패키지에 노출된 데이터가 일관되어야 함이 언급된다. 데이터가 일관됨을 보장하기 위해서, 탑모델은 데이터를 기계-학습 패키지에 노출시키기 전에 모든 데이터 전처리를 실행한다. 데이터 전처리는 특징 선택, 데이터 변환, 및 메타데이터 변환, 및 트레이닝 및 확증 데이터세트로의 분할을 포함한다. 인식되어야 하듯이, 특징 선택은 견고성(robustness)을 증가시키기 위한 일반적인 전략이다. 입력 특징-스페이스를 감소시키는 것은 신호보다 소음이 모델화되는 '차원의 저주'(curse of dimensionality)를 경감할 수 있다. 특징 선택 (특징 감축의 반대로서)은 구체적으로 현행의 데이터세트로부터 덜 유익한 특징을 도태시키는(culling) 것이다. 현행의 탑모델의 구현은 최소 분산에 의한 필터링(filtering), 가변성(variance)의 순위, 최소 정보 획득 비율, 및 정보 획득 순위를 지원한다. 더욱이, 본 발명자들은 데이터를 관심 하위 그룹 사이의 가변성을 증가시키는 스페이스로 변환시키는 것이 예측 성능을 향상시킬 수 있음을 인식하였다. 새로운 특징 스페이스로 전환하는 데이터 변환은 특징이 추적되도록 허용하기 위해 바람직하게는 탑모델로의 입력에 앞서 수행된다. 그러나, 탑모델은 원본 데이터세트 특징 스페이스를 유지하는 많은 데이터 변환을 지원한다: 신호에 의한 이산, 순위, 유의성 문턱값, 및 불 방식의(Boolean) 발현.
쉽게 인식될 수 있듯이, 임상적 반응 변수를 해석하는 많은 방법이 있다. 임상적 반응 변수의 해석은 IC50 데이터와 같은 연속 변수를 이진 분류 알고리즘에 사용하기 위한 이진 데이터 (응답 대. 비-응답)로 전환할 때 특히 적절하다: 분할에 대한 다수의 상이한 문턱값은 동일하게 합리적인 선택일 수 있다. 탑모델은 따라서 중간값 부근 분할, 전체 사분위수, 신호, 순위, 사용자-정의된 문턱값, 및 불 방식의 발현에 의해서를 비롯한 많은 메타데이터 이산 스킴(schemes)을 지지하도록 설계된다. 예측 견고성을 입증하기 위한 많은 기술이 존재한다. 게다가, 상이한 예측 업무는 상이한 견고성 매트릭스(matrix)를 사용해야 한다. 예를 들어, LOOCV는 매우 작은 코호트에 대해서 RRS보다 더욱 적절하다. 탑모델은 따라서 또한 많은 상이한 확증 방법을 지지하도록 설계된다. 견고성을 측정하기 위해 사용된 기술은 탑모델 파이프라인의 매개변수로 여겨진다.
조합으로 취해질 때, 데이터 소스(source), 데이터 특징 선택, 데이터 변환, 및 메타데이터 변환, 및 확증 방법 중의 선택은 입력의 큰 잠재적 스페이스를 묘사한다. 이러한 전처리 단계에 대한 처리 시간 및 저장 필요 공간은 상당하고, 탑모델은 따라서 연산(compute) 클러스터에 엑세스 가능한 큰 저장 시스템을 필요로 한다. 탑모델은 트레이닝 및 확증 파일을 크고 여분의 용량을 갖는 하이브(hive) 저장 시스템으로 출력한다. 하이브는 또한 연산 클러스터에 엑세스 가능하도록 탑재되며, 이들 파일을 직접적으로 트레이닝에 이용 가능하게한다. 탑모델은 전처리 시간을 감축하기 위해 여러 기술을 사용한다. 데이터세트를 각각의 모델에 대해서 매번 다운로드하는 대신에, 탑모델은 데이터를 한번 다운로드하고 메모리에 보유한다. 데이터의 내부 복사본은 특징 선택 및 변환을 수행하는데 사용된다. 이러한 데이터 조작 단계는 어떤 작업도 반복되지 않도록 구속된다(chained). 부가적으로, 탑모델 전처리 모듈은 멀티-스레디드된다. 스레딩(Threading)은 전처리 단계를 동시에 실행하도록 허용하여, 시간을 절약하면서, 반면 메모리는 여전히 공유하며, 이는 반복 작업을 피하는데 도움을 줄 수 있다.
전처리는 연구되는 매개변수의 수와 함께 기하급수적으로 증가한다. 다수의 특징 선택 방법 및 다수의 데이터 변환을 이용해 다수의 데이터세트를 연구할 때 전처리는 탑모델 파이프라인에서 병목(bottleneck)이 될 수 있다. 현행의 멀티-스레디드 접근법은 수천개의 고유한 데이터세트 조작을 수시간 내에 생성할 수 있다.
트레이닝 및 평가와 관련하여, 탑모델은 모델을 구축하고 검정하는데 매우 단순한 '트레이닝(train)' 및 '분류(classify)' 명령을 사용하며, 탑모델의 모든 기계-학습 패키지는 UNIX와 같은 명령으로부터 실행됨이 인식되어야 한다. 지원되는 패키지는 2개의 실행가능한 명령을 가져야한다: 트레이닝 명령, 및 분류 명령. 트레이닝 명령은 입력으로 적어도 하나의 데이터 파일을 수용해야하고 출력으로 적어도 하나의 모델 파일을 수용해야한다. 분류 명령은 입력으로 적어도 하나의 데이터 파일 및 하나의 모델 파일을 수용해야하고 출력으로 적어도 하나의 결과 파일을 수용해야 한다. 이는 쉽게 지원되는 기계-학습 알고리즘에 대한 매우 일반적인 개요다. 예를 들어, '트레이닝' 및 '분류' 실행가능한 명령은 svm-라이트를 위한 박스에서 나온다. 이러한 방법으로 명령-라인(command-line)을 실행하지 않는 다른 알고리즘에 대해서, 본 발명자들은 작은 래퍼(wrappers)를 개발하였다. 예를 들어, glmnet 모델 (즉, 리지 회귀[ridge-reggression], 라쏘[lasso], 및 엘라스틱-넷[elastic-net])은 명령 라인 인터페이스를 갖도록 전형적으로 R 내부로부터 실행된다. 본 발명자들은 2개의 작은 R 모듈을 개발하였는데, 하나는 트레이닝에 대한 것이고 다른 하나는 분류에 대한 것이며, 이는 배치(batch) 모드에서 R을 사용한 명령 라인으로부터 실행될 수 있다.
트레이닝 모델: 트레이닝 모델은 탑모델 파이프라인에서 연산적으로 가장 고가의 단계이다. 수천개의 특징을 가진 데이터세트에 대한 트레이닝 복합 모델 (예를 들어, 다항식 커널 지원-벡터 기계)은 본 발명의 군집 클러스터 노드를 완료하는데 수시간이 걸릴 수 있다 (쿼드코어 인텔 제온 프로세서[quadcore Intel Xeon processors]). 탑모델에서는 모델별로 적어도 2개의 트레이닝 잡(training job)이 존재한다: 성능을 평가하기 위한 한 세트의 트레이닝 잡(예를 들어, 교차-검증 모델), 및 전체 데이터세트를 입력으로 사용하는 하나의 완전히-트레이닝된 모델. 전처리 단계 때문에, 트레이닝 모델은 완전히 평행해질 수 있다. 모든 모델은 본 발명의 클러스터 시스템의 독립적인 노드 상에서 트레이닝된다. 이러한 트레이닝 잡을 분리함으로써, 많은 수천개의 모델을 생성하는데 걸리는 시간이 대부분 클러스터의 크기로 제한된다.
분류: 탑모델에는 모델별로 적어도 3개의 분류 잡이 존재한다: 확증 데이터세트에 대한 평가를 위한 한 세트의 분류 잡, 트레이닝 데이터세트의 재-조사를 위한 한 세트의 분류 잡, 및 완전히-트레이닝된 모델을 조사하기 위한 하나의 분류 잡. 트레이닝과 유사하게, 모든 분류 단계는 클러스터에서 평행하게 실행될 수 있다(트레이닝 완료 후). 분류는 트레이닝과 비교하여 상대적으로 적은 연산-자원을 사용한다.
평가 모델: 모든 분류가 완료된 후에 탑모델의 모듈이 이종의 기계-학습 패키지에 의해 생성된 결과 파일을 판독하고 상기 정보를 통합된 리포팅 포맷으로 전환한다. 모델별로 하나의 리포트 파일이 생성되고, 하이브에 저장된다. 이는 모델-별 단계이므로 클러스터에서도 또한 실행될 수 있다. 이러한 리포트 포맷은 어떤 샘플이 트레이닝에 사용되었는지, 어떤 미처리(raw) 예측 점수가 분류 알고리즘으로부터 나왔는지, 및 트레이닝 및 검정 코호트 둘 모두에서 예측의 정확성이 얼마나 되는지를 기재한다. 선형 모델의 경우 이러한 포맷은 또한 예측 모델에 최대 200개의 유전자 이름 및 그들의 계수를 포함한다.
저장 결과: 모든 평가가 완료된 후에, 탑모델의 모듈이 모든 결과를 단일의 통합된 리포트 파일로 취합한다. 상기 파일은 모든 예측 업무, 특징 선택 방법, 데이터 변환, 메타데이터 소집단화, 및 모델 통계를 기재한다. 이러한 결과를 취합하는 탑모델 모듈은 고유성에 대해 각각의 정보 입력을 점검하여, 결과에 중복이 없다는 것을 보증한다. 이러한 리포트 파일은 탑모델 결과의 파일-기반 데이터베이스로서 기능한다. 바람직한 양태에서, 탑모델의 또다른 모듈은 웹으로부터 쿼리될 수 있는 데이터베이스에 이러한 탑모델 결과를 반영한다. 데이터베이스로부터 쿼리된 결과의 표시를 허용하는 사용자 인터페이스가 그후에 제공된다.
탑모델을 사용한 예측: 완전히-트레이닝된 모델이 신규 사용자-제출된 데이터를 예측하기 위해 사용될 수 있다. 탑모델 사용자-인터페이스를 사용하여, 사용자는 그들의 샘플에 대해 탭-제한된 데이터를 업로드할 수 있다. 탑모델 CGI는 그들의 데이터를 로컬 템포러리 스크래치 스페이스(local temporary scratch space)에 저장한다. 그후에 사용자 데이터로부터의 특징을 요청된 모델에 매치시킨다. 사용자의 데이터의 값이 분실된 경우에 널(null) 값이 삽입된다 . 요청된 모델은 그후 탑모델 C 라이브러리의 모듈을 사용하여 사용자 데이터를 점수 매기는 데 사용된다. 상기 점수는 JSON 포맷으로 탑모델 사용자-인터페이스로 다시 보고되고, 사용자 데이터는 디스크로부터 지워진다. JSON 포맷의 예측 점수는 탑모델 사용자-인터페이스에 의해 수용되며 플롯으로 나타난다. 이러한 플롯에는 사용자 제출 데이터 및 적용된 모델 간의 특징에서 중복을 나타내는 파이-차트(pie-chart)가 포함된다. 부가적으로 트레이닝 데이터세트로부터의 예측 점수는 또한 진양성(true positive) 및 진음성(true negative) 예로부터의 컨텍스트(context)를 제공하도록 플롯팅된다.
발명의 청구대상의 추가로 고려되는 양태에서, 및 특히 상기 고려되는 시스템 및 방법의 관점에서, 시스템 및 방법은 또한 새로운 치료적 화합물의 작용 및/또는 표적의 메커니즘을 동정하는데 적합할 것임이 인식되어야 한다. 예를 들어, 다수의 개별적인 세포 및/또는 조직 (전형적으로 이환된 세포 또는 조직)이 잠재적 치료적 효과를 평가하기 위해 하나 이상의 후보 화합물에 노출된다. 가장 전형적으로, 이러한 효과는 다수의 개별적인 세포 및/또는 조직 각각에 대해 GI50, IC50, 아폽토시스의 유도, 표현형 변화 등으로 측정될 것이며, 본원에 기재된 바와 같은 기계 학습이 그 세포 및/또는 조직의 데이터 세트에서 하나 이상의 결정자 경로 요소를 동정하기 위해 이용된다. 이러한 동정은 새로운 치료적 화합물에 대한 잠재적 표적 및/또는 메커니즘으로 용이하게 이끌것이다. 또한, 고려되는 시스템 및 방법은 또한 새로운 치료적 화합물의 효능을 증가시킬 수 있는 제2 약물 (예를 들어, 공지된 화학요법 약물)을 동정하기에 적합할 것이다. 결과적으로, 본원에 기재된 시스템 및 방법을 사용하여, 상승작용적 새로운 약물/공지된 약물 조합이 동정될 수 있을 뿐만 아니라, 작용의 모드 및 분자 표적이 새로운 약물에 대해 동정될 수 있음이 인식되어야 한다.
동일한 방식으로, 그에 대한 약제학적 화합물이 존재하지 않는 기존의 약물에 대한 새로운 표적이 동정될 수 있음이 인식되어야 한다. 예를 들어, 본원에서 제공되는 시스템 및 방법이 특정한 경로 요소를 그에 대한 현행의 약물이 존재하지 않는 성공적인 치료에 대한 결정자 경로 요소로 지시하는 경우, 합리적 약물 설계가 그렇게 동정된 이들 결정자 경로 요소를 특이적으로 표적하는 예비적이고 심지어 활성인 약제학적 화합물(예를 들어, 항체, 효소 억제제 등)을 개발하는데 이용될 수 있다.
따라서, 본 발명자들은 또한 약물 표적 및/또는 작용의 메커니즘의 동정을 위한 세포의 오믹 데이터로부터 파생된 데이터 세트의 인실리코 분석의 방법을 고려한다. 이러한 방법은 경로 모델 데이터베이스를 기계 학습 시스템 및 경로 분석 엔진에 정보적으로 연결하는 단계를 전형적으로 포함할 것인데, 여기서 경로 모델 데이터베이스는 후보 화합물(예를 들어, 화학요법의 약물, 항체, 키나아제[kinase] 억제제 등)로 치료된 다수의 및 별개의 세포의 오믹 데이터로부터 파생된 다수의 개별적인 데이터 세트를, 각각 저장하며, 각각의 데이터 세트는 복수의 경로 요소 데이터를 포함한다. 기계 학습 시스템은 그후에 별개의 데이터 세트를 수용할 것이며, 기계 학습 시스템은 기재된 바와 같이 후보 화합물의 세포로의 실질적인 투여와 연관된 개별적인 데이터 세트에서 결정자 경로 요소를 동정할 것이다. 또다른 단계에서, 경로 분석 엔진은 세포로부터 적어도 하나의 개별적인 데이터 세트를 수용할 것이며 개별적인 데이터 세트에서 결정자 경로 요소를 특정 경로 또는 약물 치료 가능한(druggable) 표적과 연관시킬(associating) 것이다. 그렇게 동정된 특정 경로 또는 약물 치료 가능한 표적은 그후에 후보 화합물을 특정 경로 또는 약물 치료 가능한 표적과 상관시키는(correlate) 출력으로 사용된다(예를 들어, 리포트 파일을 선택적으로 시각적인 표현과 함께). 방법이 그후에 그렇게 동정된 새로운 정보를 이미 기재된 방식으로 사용할 수 있음이 또한 인식되어야 한다. 예를 들어, 경로 분석 엔진은 세포로부터 변형된 데이터 세트를 생성하기 위해 데이터 세트의 새롭게 동정된 결정자 경로 요소를 조정하는데 사용될 수 있으며, 기계 학습 시스템은 그후에 세포에 대한 치료 매개변수의 상태의 변화를 동정할 수 있다(변형된 데이터 세트를 기반으로).
실시예
공지된 바와 같이, 이환 조직의(예를 들어, 유방암의) 상이한 세포주는 특정한 약물 치료에 대한 반응으로 매우 상이한 발현 및 조절 환경을 갖는다. 예를 들어, 유방암의 일부 유형(예를 들어, 기저의, 비기저의)은 도 1A의 플롯에 도시되는 바와 같이 시스플라틴에 대한 별개의 민감도를 갖는 반면, 유방암의 다른 유형(ERBB2AMP, 비ERBB2AMP)은 도 1B의 플롯에 도시되는 바와 같이 겔다나마이신에 대한 별개의 민감도를 가질 것이다. 플롯의 우측에 위치한 도 1A 및 B에 대한 상응하는 도해는 각각의 세포/약물 치료에 대한 상응하는 예시적 경로 정보를 도시하는데, 여기서 연속선은 전사 활성화를 나타내고, 단속선은 키나아제 활성화를 나타내며, 선의 말단에서 막대는 억제 효능을 나타낸다.
1C의 상부 패널은 시스플라틴에 대한 다양한 유방암 세포주의 약물 민감도의 더욱 자세한 상세도를 나타내는 반면, 하부 패널은 암세포의 경로 내에 다양한 표적 요소(y-축에 나타남, 또한 도 1A의 도해를 참고한다)와 관련해서 동일한 세포주(x-축에 나타남) 내의 발현/조절의 열지도를 보여준다. 쉽게 인식되듯이, 발현 및 유전자 조절은 시스플라틴에 대한 민감성 또는 저항성과 연관된 명백한 패턴 없이, 세포주 별로 실질적으로 상이하다. 따라서, 풍부한 게놈의 정보가 이용 가능하다고 하더라도, 통상의 기술자에게는 이러한 데이터로부터 적합한 치료 전략 또는 권장을 동정하기 위한 효율적인 또는 심지어 유익한 안내가 부족하다.
본 실시예에서는, 본원에서 고려되는 시스템 및 방법(탑모델)의 유효성을 입증하는데 적합한 데이터세트를 제공하기 위해 50개의 유방암 세포주의 패널이 사용되었다. 여러 전장-유전체(genome-wide) 분석으로부터 데이터를 수득하는 것에 더해, 138개의 약물들에 대한 반응이 이러한 세포주들에서 분석되었다. 그 결과, 많은 다수의 예측 난제들(prediction challenges)이 코호트 효과를 일정하게 유지하면서 본 데이터세트에서 분석될 수 있었다. 더욱 구체적으로, 50개의 유방암 세포주에 대하여 아피매트릭스 엑손 마이크로어레이(Affymetrix Exon) 발현 데이터 및 아피매트릭스 지놈 와이드(Affymetrix Genome Wide) SNP 6.0 마이크로어레이 복제수를 수득하였고 및 이러한 데이터를 공지된 경로 모델링 시스템를 사용하는 경로 작용을 추측하기 위해 사용하였다(WO 2011/139345호 및 WO 2013/062505호에 기재된 바와 같음). 그러한 발현 및 복제수 데이터의 변환으로부터 생성된 데이터는 본원에서 고려되는 시스템 및 방법(탑모델)에 사용하기에 적절한 샘플에 의한 경로-특성(pathway-features)의 매트릭스이다. 게놈 데이터에 더해, 138개의 약물들에 대한 IC50 약물 반응 데이터(GI50, 아맥스[Amax], 아카리[ACarea], 여과된 아카리, 및 최대 투여랑)가 수득되었다.
하기 표에 기재된 바와 같이 이러한 데이터는 탑모델 파이프라인에서 약물 반응 분류기(민감성 대. 저항성)를 구축하는데 사용되었다. 조합하여 이러한 매개변수들은 유망한 129,168개의 완전히-트레이닝된 모델들을 기술한다. 각각의 모델이 5x3배 교차-검증에 의해 검증되기 때문에 이는 완전히-트레이닝된 모델 당 추가의 15개의 모델, 또는 1,937,520개의 추가적인 평가 모델의 트레이닝을 필요로 한다. 트레이닝되는 모델의 총개수는 2백만개를 초과한다.
데이터세트 엑손 발현, SNP6 복제수, 패러다임
메타데이터세트 138 약물 반응 IC50
하위 집단화 중간값 IC50, 중간값 GI50, 중간값 아맥스, 중간값 아카리, 중간값 여과된 아카리, 중간값 최대 투여랑
분류기 NMF예측기, SVM라이트 (선형커널[kernel]), SVM라이트 (제1 차 다항식 커널), SVM라이트 (제2 차 다항식 커널), WEKA SMO, WEKA j48 트리(trees), WEKA 하이퍼파이프(hyperpipes), WEKA 랜덤 포레스트(random forests), WEKA 단순 베이즈(naive Bayes), WEKA JRip 룰(rules), glmnet 라쏘, glmnet 리지 회귀, glmnet 엘라스틱-넷
특징 선택 방법 없음, 변화 순위 (20개 특징), 변화 순위 (200개 특징), 변화 순위 (2000개 특징)
검증 방법 5x3배 교차-검증
위에서 언급된 유방암 세포주 데이터의 경우에, 각각의 약물(138개의 이용 가능한 약물들 중에서)에 대해 가장 정확한 선형 모델이 추가의 분석을 위해 선택되었으며, 각각의 모델에 대해서 최대 200개의 저항성-연관된 특징이 이러한 선형 모델의 계수들을 검사하고 가장 높은 순위의 특징을 보고함으로써 추출되었다. 본 경로의 17,325개의 특징 중에서 5,065개가 138개의 약물 반응 모델 중에서 적어도 하나에 의해 저항성과 연관된 것으로 선택되었다. 이러한 5,065개의 특징 중에서 가장 빈번하게 저항성과 연관되었던 200개가 인실리코 녹아웃(knock-out)에 대해 선택되었다.
인실리코 경로 조절: WO 2011/139345, WO 2013/062505, 및 WO 2014/059036에 기재된 바와 같은 바람직한 경로 모델링 시스템은 관찰된 생물학적 데이터(오믹 데이터)를 센트럴 도그마(central dogma) 모듈(전형적으로 큐레이트된 선험적으로[a priori] 공지된 경로 정보에 근거함)에 피팅하고, 그후에 이들이 안정된 상태로 수렴할 때까지 다수의 모듈이 각자에게 신호를 전파하도록 허용함으로써 추론된 경로 작용을 습득한다. 2A는 유전자가 통계적 인자 그래프 모델을 통해서 대표되는 경로 모델(패러다임)의 도해를 제공한다.
쉽게 인식되어야 하듯이, 이러한 경로 모델링 시스템은 또한 표적이 된 간섭의 효과를 시뮬레이션하는데 사용될 수 있다. 예를 들어, 2B에 개략적으로 도시된 바와 같이 유전자의 유전자 침묵(gene silencing)의 경우, 센트럴 도그마 모듈의 표적 mRNA 노드(node)는 억압된 상태로 강제될 수 있고, 경로 작용은 재-추론될 수 있다. 부가적으로, 녹다운(knocked-down) mRNA 노드는 그의 부모 노드로부터 분리될(disconnected) 수 있고, 이는 낮은 mRNA 상태가 그의 억압된 상태를 표적 유전자의 전사 조절자에 허위로 역-전파하는 것을 억제할 것이다. 추가로 개략적인 실시예가 도 2C에 제공되는데, 패널(a)에서 경로 작용을 모델링하고 추론하는 것을 유리하게 허용하는 인자 그래프로서 예시적인 경로가 표현된다. 증거 노드는 발현 데이터 및 복제수 데이터와 같은 전장-유전체 분석(전형적으로 오믹 데이터)으로부터 파생된 데이터를 사용하여 정주된다(populated). 따라서, 이들 노드로부터의 신호는 인자 그래프를 통해서 전파된다. 패널(b)는 간섭 시뮬레이션을 개략적으로 보여준다. 표적이 된 특징(유전자 발현의 녹아웃)에서, 증거 노드는 분리되고 mRNA 노드는 하향-조절된 상태로 고정된다.
상기 시스템을 사용하여, 유방암 세포주에서 모든 200개의 저항성 관련 특징에 대하여 간섭 시뮬레이션이 수행되었으며, 이는 각각이 표적이 된 유전자 침묵의 효과를 대표하는 200개의 새로운 '후-간섭' 데이터세트를 생성한다. 이중 간섭의 효과를 정량하기 위해, 약물-반응 모델이 전- 및 후-간섭 데이터세트 모두에 적용되었으며 예측된 저항성에서의 변화(shift)가 관찰되었다. 이러한 변화의 규모는 얼마나 많은 특징 간섭이 모델이 예측하는 단일요법 반응에 대해 상승작용을 하는지 나타낸다.
유의성 분석 및 변화 측정: 결과를 추가로 미세-조정하기 위해 하기의 유의성 분석을 수행하였다. 상기의 유방암 예에서, 분석을 위해 선택된 각각의 선형 모델은 200개의 특징을 저항성-관련된 것으로 지명할 수 있다. 5,000개 초과의 후보 전체 목록으로부터 단지 상위 200개만 선택되었기때문에, 각각의 선형 모델은 선택된 일부 특징 및 선택되지 않은 다른 특징을 포함하였다. 평균적으로, 소정의 선형 모델은 200개의 저항성-관련 세트 중에서 3개의 특징을 갖는다. 따라서, 임의의 소정의 반응 모델의 경우에, 그 모델과 관련이 없는 약 197개의 시뮬레이션된 녹다운 데이터세트의 풀(pool)이 존재하며, 이는 실험적인 널 분포를 생성하는데 사용된다. 그후에 각각의 약물에 대한 탑모델이 모든 특징 녹다운 데이터세트에 적용되며, 분석된 약물과 관련이 없는 모델은 도 2D에 개략적으로 도시된 것처럼 선택된 각각의 유전자의 유의성을 함께 측정하기 위한 백그라운드(background) 모델을 생성한다. 여기서, 패널(a)는 개략적으로 약물-반응 모델 A, B, 및 C를 도시하는데, 각각은 이전에 저항성-관련으로 동정된 최대 200개의 유전자들을 포함하며, 일부 유전자들은 모델 A, B, 및 C 사이에서 중복될 수 있다. 모델 C로부터 약물/특징-KO 조합을 분석할 때, 모든 유전자, x는, 널 모델에서 세트 x ∈ {A U B - C} 로부터 사용된다. 패널(b)에서 모델 C는 모든 유전자 x ∈ {A U B - C} 및 모든 샘플 i ∈ N에 적용된다. 각각의 특징-KO/약물/샘플 조합에 대한 변화의 양 Δx,c,i는 백그라운드 모델에 기록된다. 모델 C는 또한 각각의 유전자 y ∈ {C}에 적용되고, 변화의 양, Δy,c,j가 기록된다. 패널(c)에 나타난 바와 같이, 선택된 약물/유전자/샘플 조합에서 변화의 양이 그 후에 관련이 없는 유전자들로부터의 백그라운드 분포에 대한 유의성을 위해 측정된다.
이러한 개념적인 접근법을 검증하기 위해, 본 발명자은 도 3에 개략적으로 도시된 바와 같은 한 세트의 실험에서 대장암 세포주 HT29를 사용하였다. 제1 시험관내(in vitro) 실험에서, GFP(green fluorescent protein; 녹색 형광 단백질)에 대한 siRNA가 음성 대조군(HT29 세포가 GFP를 발현하지 않으므로)으로서 이 세포에서 발현되었고, 반면 제2 시험관내 실험에서는, GNAI3에 대한 siRNA가 이 세포에서 고유의(native) GNAI3 발현을 녹다운시키기위해 발현되었다. 오믹 데이터(유전자 복제수, 발현 수준, 프로테오믹스 데이터)를 2개의 시험관내 실험 모두에 대해 수득하였고, 패러다임을 사용하여 경로 분석을 수행하였다. 독립적인 인실리코 실험에서, GNAI3을 인위적으로 '발현 안됨'으로 설정하였고, 시험관내 GNAI3-녹다운 세포에서 관찰된 실험 조건이 시험관내 GFP-녹다운 세포에 비해 인실리코 GNAI3-녹다운 세포와 더욱 밀접하게 상관되는지 확인하기 위해 도 3에 도시된 바와 같이 대응표본 T-검정(paired T-tests)을 수행하였다. 흥미롭게도, 인실리코 결과는 상대적으로 높은 정도의 통계적 유의성을 가지고 시험관내 결과에 대응하였다. 따라서, 상기 접근법의 잠재적 유용성이 분명하게 나타났다.
상기를 고려하여, 4는 본원에 제공되는 발명의 청구대상의 전형적인 실시 형태를 개략적으로 도시한다. 여기서, 세포 유형은 동일하지만 약물 민감도는 상이한(예를 들어, 민감성 대. 저항성, GI50 값을 통해서 및 이를 기초로 하여 표현되는 바와 같음) 오믹 데이터 (바람직하게는 패러다임 데이터 세트)는 상기에 기술된 바와 같이 약물에 대한 저항성 및/또는 민감도를 부여하는 추정의 경로 요소를 그렇게 동정하기 위해 탑모델을 사용하는 기계 학습 팜(farm)에서 기계 학습 분석에 적용된다. 일단 동정되면, 하나 이상의 추정의 경로 요소는 그후에 인위적으로 인실리코 조절되고(여기서는 시뮬레이션된 녹다운으로), 그렇게 수득된 데이터세트는 변형이 약물에 대한 민감도의 변화를 초래하는지의 여부(및 어느 정도인지)를 예측하기 위한 추가의 분석에 적용된다. 분석의 결과는 그후에 약물 저항성에서 목적하는 변화를 제공하거나 또는 그에 기여할 경로 요소의 동정을 허용하는 출력 양식으로 제공된다. 도 4의 예에서, 유방암 세포에서 IGFBP2의 녹다운시 시스플라틴에 대한 민감도의 계산된/시뮬레이션된 변화가 각각의 세포주에 대해서 화살표를 사용하여 표시된다. 도 5A-5C는 이전에 동정된 유방암 세포의 경로 요소의 발현에서의 계산된/시뮬레이션된 변화의 함수로 약물 민감도의 변화에 대해 예측된 결과를 나타낸다. 더욱 구체적으로, 5A는 시스플라틴 민감도를 나타내고 경로 요소는 IGFB2이며, 5B는 GSK923295 민감도를 나타내고 경로 요소는 TP53INP1인 반면, 5C는 파스카플리신(fascaplysin) 민감도를 나타내고 경로 요소는 ARHGEF25이다.
물론, 상기 실시예들은 단지 발명의 청구대상의 예시를 제공하는 것으로 이해되어야 하며 이를 제한하는 것으로 간주되어서는 안된다. 실제로, 실시예는 단지 단일 경로 요소 조절의 분석만을 제공하지만, 다중 경로 요소들이 동시에, 또는 연속하여 조절될 수 있다는 것이 이해되어야 한다. 더 나아가, 녹다운 변화가 논의되었지만, 모든 변형들(예를 들어, 상향, 하향, [이종의 또는 다르게는 재조합] 유전자 발현)이 본원에 사용하기에 적합한 것으로 간주되는 것으로 인식되어야 한다. 그러한 변형은 핵산 수준(예를 들어, 녹다운, 녹아웃, 결실, 강화된 발현, 강화된 안정성 등) 및/또는 단백질 수준 (예를 들어, 항체, 재조합 발현, 주입 등을 통해)에 대한 직접적인 발현제, 또는 조정 성분(예를 들어, 발현 자극제, 전사 억제제 등을 공급함에 의해)을 통한 간접적인 변형들 일 수 있다.
더 나아가, 상기 실시예는 단일 경로 또는 경로 네트워크를 간섭하기 위해 사용되지만, 서로에게 기능적으로 연관되든 아니든 다중 경로에 영향을 주는 인실리코생체내(in vivo) 조작이 또한 고려되는 점이 언급되어야 한다. 마찬가지로, 경로 조작은 또한 목적하는 결과가 인위적으로 설정되고, 후속 분석이 그후에 목적하는 결과로 이어지도록 변형될 수 있는 매개변수를 동정하기 위해 수행될 수 있음이 인식되어야 한다. 더욱이, 패러다임이 특히 바람직한 경로 모델 시스템이자만, 모든 경로 모델링 시스템이 본원에서 사용하기에 적합한 것으로 간주됨이 이해되어야 한다. 가장 전형적으로, 이러한 모델링 시스템은 적어도 하나의 선험적으로 공지된 컴포넌트를 가질 것이다.
이와 같이, 약물 반응 네트워크의 방법의 특정 실시 형태 및 적용이 개시되었다. 이미 기재된 것들 이외의 다수의 더 많은 변형이 본원의 발명 개념을 벗어나지 않으면서 가능하다는 것이 통상의 기술자에게 자명해야만 한다. 발명의 청구대상은, 따라서, 첨부된 청구범위의 사상을 제외하거는 제한되지 않는다. 또한, 명세서 및 청구범위 둘 모두를 해석하는데 있어서, 모든 용어는 맥락과 일치하고 가능한 한 넓은 방식으로 해석되어야 한다. 특히, 용어 "포함하다" 및 "포함하는 "은 요소, 성분, 또는 단계를 비-배타적인 방식으로 언급하는 것으로 해석되어야 하는데, 이는 언급된 요소, 성분, 또는 단계가 존재하거나, 활용되거나, 명백히 언급되지 않은 다른 요소, 성분, 또는 단계와 조합될 수 있음을 나타낸다. 명세서 청구범위가 A, B, C … 및 N으로 이루어진 그룹으로부터 선택된 적어도 하나의 무언가를 언급할 때, 이 문구는 A 더하기 N, 또는 B 더하기 N 등이 아니라, 상기 그룹으로부터 단지 하나의 요소만을 요구하는 것으로 해석되어야 한다.

Claims (20)

  1. 세포의 오믹 데이터(omics data)로부터 파생된 데이터 세트의 인실리코 분석 방법으로서,
    정보적으로 경로 모델 데이터베이스를 기계 학습 시스템 및 경로 분석 엔진에 연결하는 단계로, 상기 경로 모델 데이터베이스는 종양(neoplastic) 질환을 갖는 환자의 환자 샘플의 오믹 데이터로부터 파생된 데이터 세트를 저장하며, 상기 데이터 세트는 복수의 경로 요소(pathway element) 데이터를 포함하는, 단계;
    상기 기계 학습 시스템에 의하여 상기 데이터 세트를 수용하는 단계;
    상기 환자 샘플의 치료 매개변수의 상태와 연관된 상기 데이터 세트에서 결정자(determinant) 경로 요소를 상기 기계 학습 시스템에 의하여 동정하는 단계;
    상기 경로 분석 엔진에 의하여 상기 데이터 세트를 수용하는 단계;
    상기 환자 샘플로부터 변형된(modified) 데이터 세트를 생성하기 위해 상기 경로 분석 엔진에 의하여 상기 데이터 세트에서 결정자 경로 요소를 조절하는 단계; 및
    상기 기계 학습 시스템에 의하여, 상기 변형된 데이터 세트를 사용하여 상기 환자 샘플에 대한 치료 매개변수의 상태의 변화를 동정하는 단계;를 포함하는,
    방법.
  2. 제1항에 있어서, 상기 경로 모델 데이터베이스는, 상기 환자로부터가 아닌 복수의 별개의 이환 세포의 오믹 데이터로부터 각각 파생된 복수의 별개의 데이터 세트를 추가로 저장하는, 방법.
  3. 제2항에 있어서,
    상기 환자로부터가 아닌 별개의 이환 세포는 상기 환자의 종양 질환과 동일한 종양 유형인, 방법.
  4. 제2항에 있어서,
    상기 복수의 별개의 이환된 세포가 약물에 대한 상기 세포의 민감도와 관련하여 서로 상이한, 방법
  5. 제4항에 있어서,
    상기 복수의 별개의 이환된 세포의 제1 세트가 약물을 이용한 치료에 민감성이며, 상기 복수의 별개의 이환된 세포의 제2 세트가 상기 약물을 이용한 치료에 저항성인, 방법
  6. 제1항에 있어서,
    상기 환자에 대한 치료적 권고를 포함하는 출력 데이터를 생성하는 단계를 추가로 포함하는, 방법
  7. 제1항에 있어서,
    상기 상태의 변화가 미리 결정된 문턱값을 초과할 때, 상기 결정자 경로 요소를 표적하는 약물을 동정하는 단계를 추가로 포함하는, 방법.
  8. 제1항에 있어서,
    상기 오믹 데이터가 유전자 복제수 데이터, 유전자 돌연변이 데이터, 유전자 메틸화 데이터, 유전자 발현 데이터, RNA 스플라이스(splice) 정보 데이터, siRNA 데이터, RNA 번역 데이터, 및 단백질 활성 데이터로 이루어진 그룹으로부터 선택되는, 방법.
  9. 제1항에 있어서,
    상기 데이터 세트가 패러다임(PARADIGM) 데이터세트인, 방법.
  10. 제1 항에 있어서,
    상기 결정자 경로 요소가 유전자의 발현 상태, 단백질의 단백질 수준 및/또는 단백질의 단백질 활성인, 방법.
  11. 제1항에 있어서,
    상기 치료 매개변수가 약물을 이용한 치료이고, 상기 상태가 약물에 대한 민감성 또는 약물에 대한 저항성인, 방법.
  12. 제1항에 있어서,
    상기 상태의 변화가 약물에 대한 저항성으로부터 약물에 대한 민감성으로의 변화인, 방법.
  13. 제1항에 있어서,
    특징 선택, 데이터 변환, 메타데이터 변환 및/또는 트레이닝 및 확증 데이터세트로의 분할(splitting)을 포함하는, 상기 데이터세트를 전-처리하는 단계를 추가로 포함하는, 방법.
  14. 기계 학습 시스템 및 경로 분석 엔진에 정보적으로 연결된 경로 모델 데이터베이스를 포함하는, 세포의 오믹 데이터로부터 파생된 데이터 세트의 인실리코 분석을 위한 시스템으로서,
    상기 경로 모델 데이터베이스가 종양 질환을 가지는 환자의 환자 샘플의 오믹 데이터로부터 파생된 데이터 세트를 저장하도록 프로그램되며, 상기 데이터 세트는 복수의 경로 요소 데이터를 포함하고;
    상기 기계 학습 시스템은 상기 경로 모델 데이터베이스로부터 상기 데이터 세트를 수용하도록 프로그램되며, 또한 상기 기계 학습 시스템은 상기 환자 샘플의 치료 매개변수의 상태와 연관된 상기 데이터 세트에서 결정자 경로 요소를 동정하도록 추가로 프로그램되고;
    상기 경로 분석 엔진은, 상기 데이터 세트를 수용하도록 프로그램되고, 또한 상기 환자 샘플로부터 변형된 데이터 세트를 생성하기 위하여 상기 데이터 세트에서 상기 결정자 경로 요소를 조절하도록 추가로 프로그램되고;
    상기 기계 학습 시스템은 상기 변형된 데이터 세트를 사용하여 상기 환자 샘플에 대한 치료 매개변수의 상태의 변화를 동정하도록 프로그램되는,
    시스템.
  15. 제14항에 있어서,
    상기 경로 모델 데이터베이스는, 상기 환자로부터가 아닌 복수의 별개의 이환 세포의 오믹 데이터로부터 각각 파생된 복수의 별개의 데이터 세트를 추가로 저장하도록 프로그램된, 시스템.
  16. 제15항에 있어서,
    상기 환자로부터가 아닌 별개의 이환 세포는 상기 환자의 종양 질환과 동일한 종양 유형인, 시스템.
  17. 제14항에 있어서,
    상기 기계 학습 시스템이 상기 환자에 대한 치료적 권고를 포함하는 출력 데이터를 생성하도록 프로그램된, 시스템.
  18. 경로 모델 데이터베이스가 기계 학습 시스템 및 경로 분석 엔진에 연결된 컴퓨터 시스템이 하기의 단계를 포함하는 방법을 수행하도록 야기하는 프로그램 명령을 포함하는 비-일시적인(non-transient) 컴퓨터 판독가능 매체:
    상기 경로 모델 데이터베이스로부터 상기 기계 학습 시스템으로 종양 질환을 가진 환자의 환자 샘플의 오믹 데이터로부터 파생된 데이터 세트를 전송하는 단계로, 상기 데이터 세트가 복수의 경로 요소 데이터를 포함하는, 단계;
    상기 환자 샘플의 치료 매개변수의 상태와 연관된 상기 데이터 세트에서 결정자 경로 요소를 상기 기계 학습 시스템에 의하여 동정하는 단계;
    상기 환자 샘플의 치료 매개변수의 상태와 연관된 상기 데이터 세트를, 상기 경로 분석 엔진에 의하여 수용하는 단계;
    상기 환자 샘플로부터 변형된 데이터 세트를 생성하기 위해 상기 데이터 세트에서 상기 결정자 경로 요소를 상기 경로 분석 엔진에 의하여 조절하는 단계; 및
    상기 기계 학습 시스템에 의하여, 상기 변형된 데이터 세트를 사용하여 상기 이환된 세포에 대한 치료 매개변수의 상태의 변화를 동정하는 단계.
  19. 제18항에 있어서,
    상기 오믹 데이터가 유전자 복제수 데이터, 유전자 돌연변이 데이터, 유전자 메틸화 데이터, 유전자 발현 데이터, RNA 스플라이스 정보 데이터, siRNA 데이터, RNA 번역 데이터, 및 단백질 활성 데이터로 이루어진 그룹으로부터 선택되는, 비-일시적인 컴퓨터 판독가능 매체.
  20. 제18항에 있어서,
    상기 데이터 세트가 패러다임 데이터세트인, 비-일시적인 컴퓨터 판독가능 매체.
KR1020207010236A 2013-05-28 2014-05-28 패러다임 약물 반응 네트워크 KR20200043486A (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201361828145P 2013-05-28 2013-05-28
US61/828,145 2013-05-28
US201361919289P 2013-12-20 2013-12-20
US61/919,289 2013-12-20
PCT/US2014/039832 WO2014193982A1 (en) 2013-05-28 2014-05-28 Paradigm drug response networks

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020157036823A Division KR102100985B1 (ko) 2013-05-28 2014-05-28 패러다임 약물 반응 네트워크

Publications (1)

Publication Number Publication Date
KR20200043486A true KR20200043486A (ko) 2020-04-27

Family

ID=51989370

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020207010236A KR20200043486A (ko) 2013-05-28 2014-05-28 패러다임 약물 반응 네트워크
KR1020157036823A KR102100985B1 (ko) 2013-05-28 2014-05-28 패러다임 약물 반응 네트워크

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020157036823A KR102100985B1 (ko) 2013-05-28 2014-05-28 패러다임 약물 반응 네트워크

Country Status (11)

Country Link
US (1) US20160103949A1 (ko)
EP (2) EP3564958A1 (ko)
JP (3) JP6216044B2 (ko)
KR (2) KR20200043486A (ko)
CN (2) CN107818242B (ko)
AU (4) AU2014274224B2 (ko)
CA (1) CA2920608C (ko)
DK (1) DK3005199T3 (ko)
ES (1) ES2740323T3 (ko)
IL (2) IL242813B (ko)
WO (1) WO2014193982A1 (ko)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160084363A (ko) 2013-06-28 2016-07-13 난토믹스, 엘엘씨 진단 검사의 확인을 위한 경로 분석
EP3149641A4 (en) 2014-05-30 2018-01-24 Nantomics, LLC Systems and methods for comprehensive analysis of molecular profiles across multiple tumor and germline exomes
AU2016209478B2 (en) 2015-01-20 2019-03-07 Nantomics, Llc Systems and methods for response prediction to chemotherapy in high grade bladder cancer
US10546019B2 (en) 2015-03-23 2020-01-28 International Business Machines Corporation Simplified visualization and relevancy assessment of biological pathways
WO2016205377A1 (en) * 2015-06-15 2016-12-22 Nantomics, Llc Systems and methods for patient-specific prediction of drug responses from cell line genomics
US20170193157A1 (en) * 2015-12-30 2017-07-06 Microsoft Technology Licensing, Llc Testing of Medicinal Drugs and Drug Combinations
TW201803598A (zh) 2016-06-30 2018-02-01 南特細胞公司 Nant癌症疫苗
CN109952611A (zh) * 2016-08-03 2019-06-28 南托米克斯有限责任公司 达沙替尼响应预测模型及其方法
JP7071976B2 (ja) * 2016-11-28 2022-05-19 コーニンクレッカ フィリップス エヌ ヴェ 抗生物質感受性の分析的予測
CN111742370A (zh) * 2017-05-12 2020-10-02 密歇根大学董事会 个体和队列药理学表型预测平台
CN107346372A (zh) * 2017-06-19 2017-11-14 苏州班凯基因科技有限公司 一种应用于基因突变解读的数据库及其构建方法
US20190095584A1 (en) * 2017-09-26 2019-03-28 International Business Machines Corporation Mechanism of action derivation for drug candidate adverse drug reaction predictions
US11823773B2 (en) * 2018-04-13 2023-11-21 Nant Holdings Ip, Llc Nant cancer vaccine strategies
TWI787500B (zh) 2018-04-23 2022-12-21 美商南特細胞公司 新抗原表位疫苗及免疫刺激組合物及方法
US11564980B2 (en) 2018-04-23 2023-01-31 Nantcell, Inc. Tumor treatment method with an individualized peptide vaccine
WO2020136133A1 (en) * 2018-12-23 2020-07-02 F. Hoffmann-La Roche Ag Tumor classification based on predicted tumor mutational burden
US10515715B1 (en) 2019-06-25 2019-12-24 Colgate-Palmolive Company Systems and methods for evaluating compositions
GB202010922D0 (en) * 2020-07-15 2020-08-26 Univ London Queen Mary Method
US11481235B2 (en) 2021-01-11 2022-10-25 Evicore Healthcare MSI, LLC Database framework model transformation for pathway identification
US20230086047A1 (en) * 2021-09-20 2023-03-23 Verséa Holdings Inc. Platform for mapping compounds for pre-clinical effectiveness to predict clinical effectiveness for treating conditions
WO2023231202A1 (zh) * 2022-05-31 2023-12-07 医渡云(北京)技术有限公司 数字细胞模型的构建方法及装置、介质、设备、系统

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1158447A1 (en) * 2000-05-26 2001-11-28 GMD- Forschungszentrum Informationstechnik GmbH Method for evaluating states of biological systems
WO2003087766A2 (en) * 2002-04-05 2003-10-23 The Government Of The United States Of America, As Represented By The Secretary Of The Department Of Health And Human Services Methods of diagnosing potential for metastasis or developing hepatocellular carcinoma and of identifying therapeutic targets
EP1550074A4 (en) * 2002-08-22 2009-10-21 Agency Science Tech & Res COLLECTIVE PROBABILITY PREDICTION FROM EMERGING MODELS
CA2500526A1 (en) * 2002-10-01 2004-04-15 Luke V. Schneider Artificial intelligence for analyzing hypothetical models
EP1552472A4 (en) * 2002-10-15 2008-02-20 Univ California METHODS AND SYSTEMS FOR IDENTIFYING FUNCTIONAL REACTION PATHWAYS
US7524653B2 (en) * 2003-05-09 2009-04-28 University Of Pittsburgh - Of The Commonwealth System Of Higher Education Small interfering RNA libraries and methods of synthesis and use
FI117067B (fi) * 2003-07-04 2006-05-31 Medicel Oy Informaationhallintajärjestelmä biokemiallista informaatiota varten
JP2007052766A (ja) * 2005-07-22 2007-03-01 Mathematical Systems Inc パスウェイ表示方法、情報処理装置及びパスウェイ表示プログラム
EP2062181A2 (en) * 2006-08-28 2009-05-27 Dan Theodorescu Prediction of an agent's or agents' activity across different cells and tissue types
US20090105962A1 (en) * 2007-06-14 2009-04-23 The Regents Of The University Of Michigan Methods and systems for identifying molecular pathway elements
US8301393B2 (en) * 2008-02-19 2012-10-30 The Regents Of The University Of California Methods and systems for genome-scale kinetic modeling
CN100589122C (zh) * 2008-03-11 2010-02-10 浙江大学 基于模型的聚类法与贝叶斯网络法的基因芯片数据分析法
US8521555B2 (en) * 2009-12-09 2013-08-27 Hartford Fire Insurance Company System and method using a predictive model for nurse intervention program decisions
EP2550365B1 (en) * 2010-03-22 2018-07-04 Stemina Biomarker Discovery, Inc. Predicting human developmental toxicity of pharmaceuticals using human stem-like cells and metabolomics
US10192641B2 (en) * 2010-04-29 2019-01-29 The Regents Of The University Of California Method of generating a dynamic pathway map
EP2564340B1 (en) * 2010-04-29 2020-01-08 The Regents of The University of California Pathway recognition algorithm using data integration on genomic models (paradigm)
CN102154478B (zh) * 2010-09-21 2013-03-20 上海市精神卫生中心 亚综合征抑郁基因表达诊断芯片
EP2680925B1 (en) * 2011-03-02 2019-11-20 Berg LLC Interrogatory cell-based assays and uses thereof
EP2907039B1 (en) 2012-10-09 2018-12-19 Five3 Genomics, LLC Systems and methods for learning and identification of regulatory interactions in biological pathways

Also Published As

Publication number Publication date
JP6374073B2 (ja) 2018-08-15
CA2920608C (en) 2018-07-24
EP3005199B1 (en) 2019-07-24
AU2017202808A1 (en) 2017-05-18
JP6638030B2 (ja) 2020-01-29
IL242813B (en) 2018-07-31
AU2014274224A1 (en) 2016-01-21
AU2016203009A1 (en) 2016-05-26
JP2016532921A (ja) 2016-10-20
IL260313A (en) 2018-08-30
CA2920608A1 (en) 2014-12-04
CN105556523B (zh) 2017-07-11
AU2014274224B2 (en) 2016-06-09
JP2018022511A (ja) 2018-02-08
CN107818242B (zh) 2022-01-04
ES2740323T3 (es) 2020-02-05
EP3564958A1 (en) 2019-11-06
CN105556523A (zh) 2016-05-04
AU2019203757A1 (en) 2019-06-20
US20160103949A1 (en) 2016-04-14
KR20160042825A (ko) 2016-04-20
AU2016203009B2 (en) 2017-03-23
WO2014193982A1 (en) 2014-12-04
JP2018190441A (ja) 2018-11-29
EP3005199A4 (en) 2017-05-10
EP3005199A1 (en) 2016-04-13
KR102100985B1 (ko) 2020-04-16
AU2017202808B2 (en) 2019-03-14
IL260313B (en) 2020-03-31
CN107818242A (zh) 2018-03-20
JP6216044B2 (ja) 2017-10-18
DK3005199T3 (da) 2019-10-14

Similar Documents

Publication Publication Date Title
KR102100985B1 (ko) 패러다임 약물 반응 네트워크
AU2018200276B2 (en) Ensemble-based research recommendation systems and methods
AU2016280074B2 (en) Systems and methods for patient-specific prediction of drug responses from cell line genomics
Sibieude et al. Fast screening of covariates in population models empowered by machine learning
US20180039732A1 (en) Dasatinib response prediction models and methods therefor
Huang et al. A split-and-merge deep learning approach for phenotype prediction
CN111684532A (zh) 用于差异药物发现的方法和系统
Hua et al. PGS: a dynamic and automated population-based genome structure software
RU2799750C2 (ru) Биоинформационные системы, устройства и способы для выполнения вторичной и/или третичной обработки
González-Álvarez et al. Parallelizing and optimizing a hybrid differential evolution with Pareto tournaments for discovering motifs in DNA sequences

Legal Events

Date Code Title Description
A107 Divisional application of patent