KR20150083997A - 생물학적 경로 내의 조절 상호작용의 학습 및 확인을 위한 시스템 및 방법 - Google Patents
생물학적 경로 내의 조절 상호작용의 학습 및 확인을 위한 시스템 및 방법 Download PDFInfo
- Publication number
- KR20150083997A KR20150083997A KR1020157011205A KR20157011205A KR20150083997A KR 20150083997 A KR20150083997 A KR 20150083997A KR 1020157011205 A KR1020157011205 A KR 1020157011205A KR 20157011205 A KR20157011205 A KR 20157011205A KR 20150083997 A KR20150083997 A KR 20150083997A
- Authority
- KR
- South Korea
- Prior art keywords
- path
- parameters
- model
- tissue
- correlation
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
- G16B5/20—Probabilistic models
-
- G06F19/24—
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
-
- G06F15/18—
-
- G06F19/12—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/10—Gene or protein expression profiling; Expression-ratio estimation or normalisation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/50—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Biotechnology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Molecular Biology (AREA)
- Physiology (AREA)
- Public Health (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Bioethics (AREA)
- Genetics & Genomics (AREA)
- Biomedical Technology (AREA)
- Pathology (AREA)
- Primary Health Care (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Apparatus Associated With Microorganisms And Enzymes (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Computational Linguistics (AREA)
Abstract
고려되는 시스템과 방법은 확률 그래프 모델을 사용하여 생물학적 경로 내의 조절 상호작용의 기계 학습 및 식별을 제공하며, 특히 조절 파라미터 간의 상호작용의 식별을 제공한다.
Description
본 출원은 2012년 10월 9일자로 출원된 제 61/711,491호, 2012년 11월 26일자로 출원된 제 61/729,958호, 및 2013년 1월 18일자로 출원된 제 61/754,175호의 공동 계류중인 미국 가출원에 대한 우선권을 주장한다.
본 발명의 분야는 오믹스 데이터의 전산 분석이며, 특히 경로 분석을 위한 학습 알고리즘 및 경로 분석의 용도에 관한 것이다.
높은 처리량의 유전자 스크리닝의 출현으로 인해, 세포의 분자 상태를 수집한 점점 더 많은 데이터 집합이 획득되었으며, 이러한 진전은 암에서 변경되는 세포 기전의 식별과 이해를 증가시켰다. 예를 들어, 특정 종양 내에서 자주 변경되는 핵심 대상의 식별은 지난 20년 동안 40가지 이상의 표적 치료의 개발로 이어졌다. 불행하게도, 대부분의 경우 대다수의 이들 약물의 반응률은 50% 이하이며, 이들 약물의 영향을 받는 경로의 불완전한 이해를 의미한다. 내성 기전의 대표적인 예는 EGFR 변경된 결장암 종양 내에서의 RAS 경로의 활성화이고, 여기서 변이된 KRAS는 EGFR 경로와는 독립적인 성장 신호를 제공하는 RAS 캐스케이드를 구조적으로 활성화시킴으로써, 세툭시맙(cetuximab) 요법과 같은 EGFR 차단 요법을 크게 무효화시킨다. 따라서, 세포 신호전달 네트워크 내에서 종양형성 신호가 이동하는 핵심 경로에 대해, 세툭시맙의 경로 방해의 인식이 불완전한 것으로 보인다.
현재 경로 수준에서 오믹스 데이터를 통합하기 위한 수많은 전산 도구를 이용할 수 때문에, 이러한 명백한 불완전한 지식은 훨씬 더 성가시다. 다양한 도구 중에서, 몇 가지 알고리즘(예를 들어, GSEA, SPIA, 및 PathOlogist)은 문헌으로부터 큐레이션된(curated) 경로를 사용하여 관심 있는 변경된 경로를 성공적으로 식별할 수 있다. 또 다른 도구는 문헌에서 큐레이션된 상호작용으로부터 인과 그래프를 구성하였고, 발현 양상을 설명하기 위해 이들 그래프를 사용하였다. ARACNE, MINDy 및 CONEXIC과 같은 알고리즘은 일련의 암 샘플에 걸쳐 예상되는 전사 드라이버를 식별하기 위해 유전자 전사 정보(및 CONEXIC의 경우, 복제수)를 받아들인다. 그러나, 이러한 도구는 다양한 드라이브를 관심 있는 단일 표적들을 식별하는 기능 네트워크로 분류하려고 하지 않는다. NetBox 및 Mutual Exclusivity Modules in Cancer(MEMo)와 같은 일부 새로운 경로 알고리즘은 암의 데이터 통합의 문제를 해결함으로써 샘플의 종양형성 가능성의 핵심인 다수의 데이터 유형에 걸쳐 네트워크를 식별하려고 한다. 이러한 도구는 네트워크를 발견하기 위해 경로에 걸쳐 적어도 일부 제한된 통합을 허용하지만, 이들은 일반적으로 관련 경로 또는 경로의 네트워크에서 조절 정보 및 이러한 정보와 하나 이상의 효과와의 연관성을 제공하지 못한다. 마찬가지로, GIENA는 하나의 생물학적 경로 내에서 조절이상 유전자 상호작용을 찾지만 상호작용의 방향이나 성격에 대한 경로 또는 사전 지식의 토폴로지를 고려하지 않는다.
게놈 분석 외에, 확률 그래프 모델이 베이지안 네트워크(Bayesian Networks) 및 마코브 랜덤 필드(Markov Random Fields) 형태로 랜드마크 사용과 함께 네트워크 분석에서 광범위하게 사용되어왔다. 몇 가지 방법이 관련 네트워크를 포함하는 다양한 수단을 통해 데이터로부터 상호작용을 성공적으로 학습하였다. 보다 최근에, PARADIGM(Pathway Recognition Algorithm using Data Integration on Genomic Models(게놈 모델에 대한 데이터 통합을 사용하는 경로 인식 알고리즘))은 WO2011/139345 및 WO/2013/062505에 개시된 게놈 분석 도구이며 큐레이션된 경로 데이터베이스 상에서 다수의 게놈 데이터를 통합하기 위해 확률 그래프 모델을 사용한다. 이러한 모델 시스템은 바람직하게 개별 샘플이 단독으로 또는 관심 있는 코호트(cohort)의 맥락 내에서 평가될 수 있게 한다. 그러나, 이용 가능한 데이터세트의 제한된 크기가 상호작용 파라미터의 강력한 추정을 막음에 따라, 이러한 도구에서의 기댓값 최고치(expectation-maximization, EM) 파라미터 학습은 관측 데이터 파라미터에 대해 기본적으로 수행되기만 하였다. 그 결과, 도구는 특정 경로 부분 내의 활성에 영향을 미칠 수 있는 많은 요인들의 상호작용과 상호관계의 분석을 허용하지 않았으며, 따라서 세포 신호전달 네트워크를 통한 신호 흐름의 개선된 해결을 제공하지 못했다.
따라서, 생물학적 경로 내의 조절 상호작용을 학습하고 식별하는 많은 시스템 및 방법이 본 기술분야에 공지되어 있음에도 불구하고, 이들 모두 또는 거의 모두는 하나 이상의 단점을 갖는다. 예를 들어, 지금까지 알려진 분석 도구는 경로의 통로에서 활성을 조절하는 파라미터의 상호작용의 강도와 방향을 식별하지 못하며, 또한 신호 흐름의 예측 및/또는 경로 활성의 방해를 허용하지 못할 뿐만 아니라, 파라미터 또는 경로 인자의 잠재적인 차별적 사용을 식별하지 못한다. 다른 관점에서 보면, 현재 알려진 도구는 일반적으로 오직 개별 유전자 활성을 고려하지만, 조절 링크에 관련된 통계를 검토하지 못하고, 따라서 오직 동적 모델보다는 정적 모델을 제공한다. 그 결과, 알려진 모델은, 완전히 다른 경로를 사용함에도, 네트워크 내에서 다양한 조절자(regulator)가 유사한 세포 표현형을 생성하는 방법에 대한 검토를 허용하지 않는다. 따라서, 생물학적 경로 내의 조절 상호작용의 학습 및 식별을 위한 개선된 시스템 및 방법에 대한 필요성이 여전히 존재한다.
본 발명은, 경로 모델이 각각의 통로를 통해 서로 결합하는 다수의 경로 인자를 갖는, 확률 그래프 모델을 사용하여 생물학적 경로 내의 조절 상호작용을 학습하고 식별하기 위한 다양한 시스템 및 방법에 관한 것이다. 고려되는 시스템과 모델 내의 통로는, 다수의 관련된 조절 파라미터의 함수로서 통로를 따라 활성을 제어하는 조절 노드를 갖는 것으로 표현된다.
조절 파라미터 간의 상호작용의 상관관계는 오믹 데이터세트 및/또는 경로 모델을 기반으로 추론된다. 따라서, 식별된 상호작용의 상관관계는 이제 경로의 통로에서 활성을 조절하는 파라미터의 상호작용의 강도와 방향을 식별할 수 있게 한다. 그 결과, 고려되는 시스템 및 모델은 신호 흐름의 예측 및/또는 경로 활성의 방해뿐만 아니라 파라미터 또는 경로 인자의 잠재적인 차별적 사용을 가능하게 한다. 다른 관점에서 보면, 고려되는 시스템과 방법은 하나 이상의 경로를 통해 (심지어 차별적인) 신호 흐름뿐만 아니라 다양한 (실제 또는 모의) 시나리오 하에서 신호 흐름의 예측을 위해 사용될 수 있는 동적 경로 모델을 제공한다.
본 발명의 주제의 일 양태에서, 학습 엔진은 하나 이상의 오믹 데이터세트(예를 들어, 전체 게놈 데이터, 부분 게놈 데이터, 또는 상이한 시퀀스 객체)를 수용하는 오믹 입력 인터페이스를 포함한다. 오믹 처리 모듈은 인터페이스에 결합되고, (a) 다수의 경로 인자(예를 들어, DNA 서열, RNA 서열, 단백질, 단백질 기능)를 갖는 경로 모델에 액세스하고, 여기서 다수의 조절 파라미터의 함수로서 통로를 따라 활성을 제어하는 조절 노드를 갖는 통로를 통해 상기 다수의 경로 인자 중 적어도 두 개의 인자가 서로 결합되고, (b) 오믹 입력 인터페이스를 통해 적어도 하나의 오믹 데이터세트를 획득하고, (c) 상기 적어도 하나의 오믹 데이터세트와 경로 모델을 기반으로 다수의 조절 파라미터 간의 일련의 상호작용의 상관관계를 추론하고, 및 (d) 상기 상호작용의 상관관계를 기반으로 경로 모델을 업데이트하도록 구성된다. 가장 일반적으로, 학습 엔진은 게놈 데이터베이스, BAM 서버, 또는 시퀀싱 장치를 더 포함할 수 있거나 이에 결합된다.
일부 실시형태에서, 경로 인자는 DNA 서열을 포함하고, 조절 파라미터는 전사 인자, 전사 활성인자, RNA 폴리머라제 서브유닛, 시스-조절 인자, 트랜스-조절 인자, 아세틸화 히스톤, 메틸화 히스톤, 및/또는 억제인자이다. 다른 실시형태에서, 경로 인자는 RNA 서열을 포함하고, 조절 파라미터는 개시 인자, 번역 인자, RNA 결합 단백질, 리보솜 단백질, siRNA, 및/또는 폴리A 결합 단백질이며, 또 다른 실시형태에서, 경로 인자는 단백질을 포함하고, 조절 파라미터는 인산화, 아실화, 단백질 가수분해 분할, 및 적어도 하나의 제 2 단백질과의 연관이다.
특히 바람직한 양태에서, 오믹 처리 모듈은 확률 모델을 사용하여 상호작용의 상관관계를 추론하도록 구성되며, 확률 모델은 상호의존적 및/또는 독립적 조절 모델을 사용한다. 또한, 확률 모델이 다수의 조절 파라미터와 통로의 활성 간의 의존성의 유의성 및/또는 통로의 활성을 고려한 조절 파라미터 간의 조건부 의존성의 유의성을 더 결정하는 것이 일반적으로 바람직하다. 또한, 확률 모델이 조절 파라미터에 대한 상호작용의 징후를 더 결정하는 하는 것이 고려된다.
따라서, 그리고 다른 관점에서 보면, 본 발명자들은 또한 경로 모델을 생성하는 방법을 고려하며, 상기 방법은 오믹 입력 인터페이스를 통해 적어도 하나의 오믹 데이터세트(예를 들어, 전체 게놈 데이터, 부분 게놈 데이터, 또는 상이한 시퀀스 객체)를 획득하는 단계를 포함한다. 고려되는 방법은 또한 오믹 처리 모듈을 통해 다수의 경로 인자를 갖는 경로 모델에 액세스하는 단계를 포함하며, 여기서 다수의 조절 파라미터의 함수로서 통로를 따라 활성을 제어하는 조절 노드를 갖는 통로를 통해 상기 다수의 경로 인자 중 적어도 두 개의 인자가 서로 결합되고, 및 오믹 처리 모듈을 통해, 상기 적어도 하나의 오믹 데이터세트와 경로 모델을 기반으로 다수의 조절 파라미터 간의 일련의 상호작용의 상관관계를 추론하는 단계를 포함한다. 또 다른 단계에서, 상기 경로 모델은 상호작용의 상관관계를 기반으로 업데이트된다. 가장 일반적으로, 상기 오믹 데이터세트는 게놈 데이터베이스, BAM 서버, 또는 시퀀싱 장치로부터 획득된다.
본 발명의 주제의 또 다른 양태에서, 상기 추론 단계는 확률 모델을 기반으로 하며, 가장 바람직하게 상기 확률 모델은 상호의존적 및/또는 독립적 조절 모델을 사용한다. 또한, 고려되는 방법은 상기 다수의 조절 파라미터와 통로의 활성 간의 의존성의 유의성 및/또는 통로의 활성을 고려한 조절 파라미터 간의 조건부 의존성의 유의성을 결정하는 단계를 포함한다. 이러한 방법은 조절 파라미터에 대한 상호작용의 징후를 결정하는 단계를 더 포함하는 것이 또한 바람직하다.
본 발명의 주제의 또 다른 양태에서, 경로 모델 내의 조절 노드의 조절 파라미터에 대한 서브타입 특이 상호작용의 상관관계를 식별하는 방법은 오믹 입력 인터페이스를 통해 서브타입의 조직을 나타내는 적어도 하나의 오믹 데이터세트를 획득하는 단계, 및 오믹 처리 모듈을 통해 다수의 경로 인자를 갖는 경로 모델에 액세스하는 또 다른 단계를 포함하고, 여기서 다수의 조절 파라미터의 함수로서 통로를 따라 활성을 제어하는 조절 노드를 갖는 통로를 통해 상기 다수의 경로 인자 중 적어도 두 개의 인자가 서로 결합된다. 고려되는 방법은 또한 상기 오믹 처리 모듈을 통해, 다수의 조절 파라미터 간의 상호작용의 확률 분석에 의해 서브타입의 조직을 나타내는 상기 적어도 하나의 오믹 데이터세트로부터 서브타입의 상호작용의 상관관계를 유도하는 단계; 및 상기 유도된 서브타입의 상호작용의 상관관계를 상기 경로 모델에 제공하는 또 다른 단계를 포함한다. 특히 바람직한 양태에서, 상기 서브타입의 조직은 약물 내성 조직, 전이 조직, 약물로 치료된 조직, 또는 조직의 클론 변형이다.
필요한 경우, 고려되는 방법은 체외, 인-실리코(in-silico), 및 체내 실험 중 적어도 하나를 이용하여 상기 유도된 서브타입의 상호작용의 상관관계를 입증하는 단계를 더 포함할 수 있다.
본 발명의 주제의 또 다른 양태에서, 본 발명자들은 서브타입 특이 조직에 속하는 조직을 나타내는 오믹 데이터세트를 분류하는 방법을 고려한다. 이러한 방법은 일반적으로 오믹 입력 인터페이스를 통해 상기 조직을 나타내는 상기 오믹 데이터세트를 획득하는 단계 및 상기 오믹 데이터세트에 대해, 경로 모델 내의 조절 노드의 다수의 조절 파라미터 간의 일련의 상호작용의 상관관계를 유도하는 또 다른 단계를 포함할 수 있다. 또 다른 단계에서, 상기 유도된 일련의 상호작용의 상관관계를, 알려진 서브타입 특이 조직과 관련된 선험적으로 알려진 일련의 상호작용의 상관관계에 매칭시키고, 상기 조직을 나타내는 오믹 데이터세트가 상기 알려진 서브타입 특이 조직에 속하는지 분류하기 위해 상기 매칭을 이용한다.
가장 바람직하게, 상기 획득 단계는 알려지지 않은 조절 특성을 갖는 조직의 조직 샘플(예를 들어, 종양 샘플)로부터 상기 조직을 나타내는 오믹 데이터세트를 생성하는 단계를 포함하며, 상기 알려진 서브타입 특이 조직은 약물 내성 조직, 전이 조직, 약물로 치료된 조직, 또는 조직의 클론 변형이다.
본 발명의 주제의 또 다른 양태에서, 본 발명자들은 다수의 경로 인자를 갖는 경로 모델 내에서 약물 표적을 식별하는 방법을 고려하며, 여기서 다수의 조절 파라미터의 함수로서 통로를 따라 활성을 제어하는 조절 노드를 갖는 통로를 통해 상기 다수의 경로 인자 중 적어도 두 개의 인자가 서로 결합된다. 이러한 방법은 (a) 오믹 입력 인터페이스를 통해 조직을 나타내는 오믹 데이터세트를 획득하는 단계, (b) 상기 오믹 데이터세트에 대해, 경로 모델 내의 조절 노드의 다수의 조절 파라미터 간의 일련의 상호작용의 상관관계를 유도하는 단계; 및 (c) 상기 상호작용의 상관관계를 방해하는 것으로 예상되는, 통로의 활성에 영향을 미치는 약물을 식별하는 단계를 포함할 수 있다. 가장 일반적으로, 상기 조절 노드는 단백질의 전사, 번역, 및 번역 후 변형 중 적어도 하나에 영향을 미치고, 상기 약물은 상업적으로 이용 가능한 약물이고 알려진 작용 모드를 갖는다.
본 발명의 주제의 또 다른 양태에서, 본 발명자들은 다수의 경로 인자를 갖는 경로 모델 내에서 표적 경로를 식별하는 방법을 고려하며, 여기서 다수의 조절 파라미터의 함수로서 통로를 따라 활성을 제어하는 조절 노드를 갖는 통로를 통해 상기 다수의 경로 인자 중 적어도 두 개의 인자가 서로 결합된다. 이러한 방법은 바람직하게 오믹 입력 인터페이스를 통해 조직을 나타내는 오믹 데이터세트를 획득하는 단계, 상기 오믹 데이터세트에 대해, 경로 모델 내의 조절 노드의 다수의 조절 파라미터 간의 일련의 상호작용의 상관관계를 유도하는 또 다른 단계; 및 상기 상호작용의 상관관계에 대한 약물의 알려진 효과를 기반으로 상기 표적 경로로서 경로를 식별하는 또 다른 단계를 포함한다.
가장 바람직하게, 상기 알려진 효과는 키나아제에 대한 억제 효과, 수용체에 대한 억제 효과, 및 전사에 대한 억제 효과 중 적어도 하나이다. 그 밖의 적절한 표적 경로 중에서, 특히 고려되는 표적 경로는 칼슘/칼모듈린 조절된 경로, 사이토카인 경로, 케모카인 경로, 성장 인자 조절된 경로, 호르몬 조절된 경로, MAP 키나아제 조절된 경로, 포스포타아제 조절된 경로, 및 Ras 조절된 경로를 포함한다. 이러한 방법은 상기 식별된 경로를 기반으로 치료 조언을 제공하는 단계를 더 포함할 수 있다.
따라서, 고려되는 방법은 또한 약물의 치료 효과를 인-실리코 시뮬레이션하는 방법을 포함할 수 있으며, 상기 방법은 다수의 경로 인자를 갖는 경로 모델을 획득하는 단계를 포함하며, 여기서 다수의 조절 파라미터의 함수로서 통로를 따라 활성을 제어하는 조절 노드를 갖는 통로를 통해 상기 다수의 경로 인자 중 적어도 두 개의 인자가 서로 결합된다. 고려되는 방법은 적어도 하나의 조절 파라미터에 영향을 미치는 것으로 알려진 약물을 식별하는 단계, 및 오믹 처리 모듈을 통해 그리고 상기 약물의 알려진 효과를 기반으로, 상기 경로 모델 내의 조절 노드, 활성, 및 조절 파라미터 중 적어도 하나를 인-실리코에서 변경하는 또 다른 단계, 및 상기 경로 모델 내에서 변경의 이차 효과를 결정하는 또 다른 단계를 더 포함할 수 있다. 가장 일반적으로, 상기 이차 효과는 상기 경로 모델 내의 또 다른 경로 노드, 또 다른 활성, 및 또 다른 조절 파라미터 내에 있다.
본 발명의 주제의 다양한 목적, 특징, 양태 및 장점은, 동일한 참조번호가 동일한 구성요소를 나타내는 첨부한 도면과 함께, 바람직한 실시형태의 다음의 상세한 설명으로부터 더욱 명백해질 것이다.
도 1은 본 발명의 주제에 따른 학습 엔진의 예시적인 개략도이다.
도 2A는 본 발명의 주제에 따른 팩터 그래프 구조의 예시적인 개략도이고, 도 2B는 전사, 번역, 및 활성화 노드에 대한 대안적인 조절 모드를 개략적으로 도시한다.
도 3A는 전체 TCGA 코호트에 걸쳐 학습된 각각의 상호작용에 대한 WPMI 벡터의 주성분 분석(principal component analysis, PCA)의 예시적인 그래프이고, 도 3B는 경로에서 활성화와 억제로 표시된 유의한 링크의 클러스터 멤버십을 도시하며, 도 3C는 강력한 억제에서 강력한 활성화까지의 범위를 나타내는 클러스터의 중심의 WPMI 값의 열지도(heatmap)를 도시한다.
도 4A 및 도 4B는 유용한(informative) 초기화(4A) 및 평탄한(flat) 초기화(4B)에 따른 유의한 링크의 WPMI 값에 대한 클러스터 멤버십의 막대 그래프이다.
도 5A는 완전 조건부 확률을 학습하는 실행의 각각의 EM 단계에서 아래의 검정을 실패한 고유 자식 노드의 비율을 나타낸 예시적인 그래프이고, 도 5B는 일관성의 트리플렛 대 비일관성의 트리플렛의 예를 나타내는 개략도이다.
도 6A 내지 도 6C는 다양한 분석 방법을 사용하는 경로 분석에 대한 카플란-마이어(Kaplan-Meier) 생존 곡선을 나타내는 예시적인 그래프이다.
도 7는 G-점수 순위를 나타내는 예시적인 열지도이다.
도 8A 및 도 8B는 PPARA-RXRA와 TAp73a로부터의 활성 링크에 대한 조직으로 분류된 WPMI 신호를 나타내는 예시적인 그래프이다.
도 2A는 본 발명의 주제에 따른 팩터 그래프 구조의 예시적인 개략도이고, 도 2B는 전사, 번역, 및 활성화 노드에 대한 대안적인 조절 모드를 개략적으로 도시한다.
도 3A는 전체 TCGA 코호트에 걸쳐 학습된 각각의 상호작용에 대한 WPMI 벡터의 주성분 분석(principal component analysis, PCA)의 예시적인 그래프이고, 도 3B는 경로에서 활성화와 억제로 표시된 유의한 링크의 클러스터 멤버십을 도시하며, 도 3C는 강력한 억제에서 강력한 활성화까지의 범위를 나타내는 클러스터의 중심의 WPMI 값의 열지도(heatmap)를 도시한다.
도 4A 및 도 4B는 유용한(informative) 초기화(4A) 및 평탄한(flat) 초기화(4B)에 따른 유의한 링크의 WPMI 값에 대한 클러스터 멤버십의 막대 그래프이다.
도 5A는 완전 조건부 확률을 학습하는 실행의 각각의 EM 단계에서 아래의 검정을 실패한 고유 자식 노드의 비율을 나타낸 예시적인 그래프이고, 도 5B는 일관성의 트리플렛 대 비일관성의 트리플렛의 예를 나타내는 개략도이다.
도 6A 내지 도 6C는 다양한 분석 방법을 사용하는 경로 분석에 대한 카플란-마이어(Kaplan-Meier) 생존 곡선을 나타내는 예시적인 그래프이다.
도 7는 G-점수 순위를 나타내는 예시적인 열지도이다.
도 8A 및 도 8B는 PPARA-RXRA와 TAp73a로부터의 활성 링크에 대한 조직으로 분류된 WPMI 신호를 나타내는 예시적인 그래프이다.
본 발명자들은 조절 파라미터의 상호관계가 통계적으로 결정되는 확률 그래프 경로 모델이 구현될 수 있다는 것을 발견하였다. 그 결과, 고려되는 시스템과 방법의 분석 및 시뮬레이션은 크게 개선된 정확도를 제공하며, 다양한 경로 및/또는 하위 조직 내에서의 조절 인자의 차별적 사용의 식별을 허용한다.
따라서, 코호트 내의 관심 있는 표현형 내에서 크게 다른 사용 분포를 이용하여 조절 링크를 식별함으로써, 완전히 다른 경로를 사용함에도, 네트워크 내에서 다양한 조절자가 유사한 세포 표현형을 생성하는 방법을 이제 검토할 수 있다는 것에 주목해야 한다. 또한, 코호트의 개별 샘플 또는 부분집합이 각각의 조절 노드에 대해 이전에 학습된 파라미터의 분포를 따르는 방식을 확립하기 위해 상기 학습된 파라미터를 통계적 검정의 근거로 사용할 수 있다.
다음의 논의 전체에서, 서버, 서비스, 인터페이스, 포탈, 플랫폼, 또는 컴퓨팅 장치로 형성된 기타 시스템에 대해 다양한 참조가 이루어질 것이다. 이러한 용어의 사용은 컴퓨터 판독 가능한 유형의 비일시적인 매체 상에 저장된 소프트웨어 명령을 실행시키도록 구성된 적어도 하나의 프로세서를 갖는 하나 이상의 컴퓨팅 장치를 나타내는 것으로 간주되는 것을 이해해야 한다. 예를 들어, 서버는 개시된 역할, 책임 또는 기능을 수행하는 방식으로 웹 서버, 데이터베이스 서버, 또는 그 밖의 유형의 컴퓨터 서버로 작동하는 하나 이상의 컴퓨터를 포함할 수 있다.
예를 들어, 도 1은 학습 엔진(110)을 포함하는 생태계(100)를 예시적으로 도시하고 있다. 학습 엔진(110)은 하나 이상의 경로 모델(150)로 인한 하나 이상의 오믹 데이터세트(135)를 처리하도록 구성된다. 학습 엔진(110)은 두 개의 주요 구성요소, 즉, 오믹 인터페이스(120)와 오믹 처리 모듈(170)을 포함하며, 학습 엔진(110)은 오믹 인터페이스(120)를 통해 관심 있는 데이터세트를 획득하고, 오믹 처리 모듈(170)은 데이터세트를 분석하기 위해 구성된다. 도시된 예에서, 학습 엔진(110)은, 아마도 HTTP 서버 팜일 수 있는, 네트워크(115)(예를 들어, 인터넷, WAN, LAN, VPN, National Lamba Rail (URL www.nlr.net 참조) 등)를 통해 액세스할 수 있는 컴퓨팅 장치로 도시되어 있다. 일부 실시형태에서, 학습 엔진(110)은 유료 네트워크(115)를 통해 서비스를 제공한다. 예를 들어, 학습 엔진(110)은 클라우드 기반의 서비스형 플랫폼(Platform-as-a-Service (PaaS), 서비스형 인프라(Infrastructure-as-a-Service (IaaS), 서비스형 소프트웨어(Software-as-a-Service (SaaS), 또는 다른 유형의 서비스를 통해 분석가(170) 또는 다른 사용자에게 하나 이상의 오믹 입력 인터페이스(120)를 노출시킬 수 있다. 다른 실시형태에서, 학습 엔진(110)은 후술하는 바와 같이 학습 엔진(110)의 역할과 책임을 수행하는 하나 이상의 소프트웨어 명령 패키지를 실행하도록 구성되고 분석가(170)와 관련된 로컬 컴퓨팅 장치일 수 있다.
오믹 입력 인터페이스(120)는 하나 이상의 오믹 데이터세트(135)를 수신하도록 구성된 컴퓨팅 인터페이스를 나타낸다. 인터페이스(120)의 일례는 네트워크(115)를 통해 데이터세트(135)를 수신할 수 있는 HTTP 서버를 포함할 수 있다. 예를 들어, 데이터세트(135)는 직렬화 형식(예를 들어, XML), BAMBAM 형식, 또는 HTTP 서버를 통해 전송될 수 있는 적절한 형식의 파일을 포함할 수 있다. 다른 실시형태에서, 인터페이스(120)는 원격 절차 호출로서 네트워크(115)를 통해 또는 심지어 로컬 라이브러리 함수 호출을 통해 데이터 구조 또는 이들의 참조가 학습 엔진(110)으로 전달될 수 있는 응용 프로그램 인터페이스(Application Program Interface, API)의 형태를 취할 수 있다. 오믹 입력 인터페이스(120)는 아마도 데이터베이스로 작동하는 하나 이상의 오믹 데이터세트 소스(130)에 결합되도록 구성될 수 있다는 것을 이해해야 한다. 일부 실시형태에서, 학습 엔진(110)은 오믹 입력 인터페이스(120)에 결합된 게놈 데이터베이스 또는 시퀀싱 장치를 포함할 수 있다.
오믹 데이터세트(135)는 광범위한 오믹 데이터를 포함할 수 있다. 더욱 바람직한 실시형태에서, 오믹 데이터세트(135)는 게놈 데이터, 아마도 전체 게놈 데이터, 부분 게놈 데이터, 상이한 시퀀스 객체, 또는 그 밖의 게놈 데이터를 나타낸다. 게다가, 오믹 데이터세트(135)는 또한 단백질체학, 대사체학, 지질체학, 키노믹스(kinomics), 또는 그 밖의 오믹 데이터 양식을 나타낼 수 있다.
처리 모듈(170)은 오믹 입력 인터페이스(120)에 결합되고 경로 모델(150)에 대해 데이터세트(135)를 분석하도록 구성된 컴퓨팅 장치의 적어도 일부를 나타낸다. 처리 모듈(170)의 일 양태는, 아마도 경로 모델 데이터베이스(140) 또는 다른 모델 소스로부터 하나 이상의 경로 모델(150)에 액세스할 수 있는 기능을 포함한다. 일부 실시형태에서, 오믹 처리 모듈(170)은 또한 경로 모델 데이터베이스(140)에 액세스하기 위한 활용 오믹 입력 인터페이스(120)를 포함할 수 있다.
경로 모델(150)은, 아마도 팩터 그래프 형태인, 모델링되는 표적 오믹 시스템의 활성의 디지털 모델을 나타낸다. 각각의 경로 모델(150)은 집합적으로 경로 인자(151)라고 하는 다수의 경로 인자(151A 내지 151N)를 포함한다. 경로 인자(151)는 활성이 발생하는 통로를 따른 단계를 나타낸다. 적어도 두 개의 경로 인자(151), 즉, 예를 들어 도시된 경로 인자(151A 및 151B) 사이에, 일반적으로 조절 노드(153)라고 하는 조절 노드(153A)로 나타난 조절 노드가 있다. 도시되지는 않았지만, 경로 인자(151) 각각의 세트 사이에 추가의 조절 노드(153)가 있을 수 있다. 따라서, 적어도 두 개의 경로 인자(151), 예를 들어, 경로 인자(151A 및 151B)는 도시된 조절 노드(153A)인 조절 노드(153)를 갖는 통로를 통해 서로 결합된다. 경로 모델(150)의 조절 노드(153)는 일반적으로 조절 파라미터(155)라고 하는 하나 이상의 조절 파라미터(155A)의 함수로서 인자들 간의 통로를 따라 활성을 제어한다. 경로 모델(150)은 실질적인 임의의 수의 경로 인자(151), 조절 노드(153), 및 조절 파라미터(155)를 포함할 수 있다는 것을 이해해야 한다. 일례로서, 경로 인자(151)가 DNA 서열, RNA 서열, 단백질, 단백질 기능, 또는 그 밖의 활성 인자를 포함하는 시나리오를 고려해 보자.
하나의 경로 인자(151)가 DNA 서열을 포함하는 시나리오에서, 조절 파라미터(155)는 전사 인자, 전사 활성인자, RNA 폴리머라제 서브유닛, 시스-조절 인자, 트랜스-조절 인자, 아세틸화 히스톤, 메틸화 히스톤, 억제인자(repressor), 또는 그 밖의 활성 파라미터를 포함할 수 있다. 또한, 하나의 경로 인자(151)가 RNA 서열을 포함하는 시나리오에서, 조절 파라미터(155)는 개시 인자, 번역 인자, RNA 결합 단백질, 리보솜 단백질, siRNA, 폴리A 결합 단백질, 또는 그 밖의 RNA 활성 파라미터를 포함할 수 있다. 또한, 하나의 경로 인자(151)가 단백질을 포함하는 시나리오에서, 조절 파라미터(155)는 인산화, 아실화, 단백질 가수분해 분할, 또는 적어도 하나의 제 2 단백질과의 연관을 포함할 수 있다.
오믹 처리 모듈(170)은 다수의 조절 파라미터 간의 일련의 상호작용의 상관관계(160)를 추론하기 위해 데이터세트(135)와 함께 경로 모델(150)을 활용한다. 상호작용의 상관관계(160)를 추론하기 위해 활용될 수 있는 모델 유형의 일례는 다수의 원시 데이터세트(135)에 걸쳐 조절 파라미터의 쌍을 비교하도록 오믹 처리 모듈(170)을 구성하는 확률 모델을 포함한다. 일부 실시형태에서, 조절 노드(153)는, 학습 엔진(110)이 부모를 고려한 자식의 완전 조건부 확률을 학습하는, 상호의존적(co-dependent) 조절 모델을 기반으로 작동한다. 그 밖의 경우, 조절 노드(153)는, 학습 엔진(110)이 부모를 고려한 자식 노드의 확률을 계산하기 위해 나이브 베이즈(Naive Bayes) 가정을 이용하여 조건부 확률을 학습하는, 독립적 조절 모델을 기반으로 작동할 수 있다.
고려되는 확률 모델은 다수의 조절 파라미터(155)와 해당 통로의 활성 간의 의존성의 유의성 또는 통로의 활성을 고려한 조절 파라미터 간의 조건부 의존성의 유의성을 결정하도록 더 구성된다. 예를 들어, 조건부 확률이 계산되거나 또는 달리 설정되면, 오믹 처리 모듈(170)은 유의성을 결정하기 위해 G-검정을 활용할 수 있다. 또한, 확률 모델은 조절 파라미터에 대한 상호작용의 징후를 결정하도록 더 구성될 수 있다. 상호작용의 상관관계(160)가 설정되면, 경로 모델(150)은 학습된 상호작용의 관계를 반영하도록 업데이트될 수 있다. 그 결과, 학습 엔진은 일반적으로 하나 이상의 오믹 데이터세트를 수신하는 오믹 입력 인터페이스를 포함한다는 것을 이해해야 한다. 이러한 오믹 입력 인터페이스는, 가장 일반적인 경우, 오믹 처리 모듈에 오믹 정보를 제공하는 다양한 장치 또는 시스템에 결합될 수 있다. 예를 들어, 오믹 정보는 공개된 데이터, 게놈, RNomic, 및/또는 단백체 데이터베이스, 오믹 정보 데이터베이스(예를 들어, TCGA)뿐만 아니라 DNA, RNA, 및/또는 단백질 서열 데이터베이스, 시퀀싱 장치, BAM 서버 등을 포함하는 오믹 데이터를 제공하는 그 밖의 장치, 서비스, 및 네트워크의 출력 파일로부터 유래할 수 있다. 그 결과, 데이터의 형식은 크게 변경될 수 있고 전체 게놈 데이터, 부분 게놈 데이터, 또는 상이한 시퀀스 객체로 제공될 수 있다는 것을 이해해야 한다.
가장 일반적으로, 오믹 처리 모듈은 인터페이스에 정보적으로 결합되고, (a) 다수의 경로 인자(예를 들어, DNA 서열, RNA 서열, 단백질, 단백질 기능)를 갖는 경로 모델에 액세스하고, 여기서 다수의 조절 파라미터의 함수로서 통로를 따라 활성을 제어하는 조절 노드를 갖는 통로를 통해 상기 다수의 경로 인자 중 적어도 두 개의 인자가 서로 결합되고, (b) 오믹 입력 인터페이스를 통해 적어도 하나의 오믹 데이터세트를 획득하고, (c) 상기 적어도 하나의 오믹 데이터세트와 경로 모델을 기반으로 다수의 조절 파라미터 간의 일련의 상호작용의 상관관계를 추론하고, 및 (d) 상기 상호작용의 상관관계를 기반으로 경로 모델을 업데이트하도록 구성된다.
상기 (a)를 위한 경로 모델이 일련의 오믹 데이터로부터 생성될 수 있고, 또는 이전의 결정으로부터 획득될 수 있다는 것을 인식해야 한다. 따라서, 고려되는 시스템 및 방법은 오믹 처리 모듈에 결합되는 저장 모듈을 포함하며, 상기 저장 모듈은 하나 이상의 이전에 결정된 경로 모델을 저장한다. 상기 저장된 경로 모델은 "정상적인" 조직 또는 병든 조직에 해당할 수 있다는 것을 또한 인식해야 한다. 경로 모델이 병든 조직인 경우, 병든 조직은 하위 특성(sub-trait)으로 특징지어지는 특정 서브타입(예를 들어, 특정 약물에 치료 내성을 갖는 서브타입, 전이 조직으로부터 나온 서브타입 등)일 수 있다는 것을 또한 이해해야 한다. 오믹 데이터는 다양한 방식으로 인터페이스를 통해 제공될 수 있다는 것이 또한 고려된다. 예를 들어, 데이터는 단일 파일로 또는 별개 파일들의 모음으로 제공될 수 있으며, 이는 서비스 제공자에 의해 이전에 저장된 라이브러리로부터, 또는 시퀀싱 장치 또는 서열 분석 시스템으로부터 제공될 수 있다. 따라서, 학습 엔진은 게놈 데이터베이스, BAM 서버, 또는 시퀀싱 장치를 더 포함할 수 있거나 이에 결합될 수 있다.
특정 통로에 따라, 경로 인자의 특성이 현저하게 변화하고 이와 함께 조절 파라미터의 특성 또한 변화한다는 것에 주목해야 한다. 일반적으로, 그러나, 조절 파라미터는 경로 인자로부터 하류 인자로의 통로를 통해 신호의 흐름을 결정할 것이라는 것에 주목해야 한다. 예를 들어, 경로 인자가 DNA 서열이거나 이를 포함하는 경우, 고려되는 조절 파라미터는 DNA 서열의 전사(또는 다른 역할)에 영향을 미치는 세포일 것이다. 따라서, DNA 서열에 대한 고려되는 조절 파라미터는 하나 이상의 전사 인자, 전사 활성인자, RNA 폴리머라제 서브유닛, 시스-조절 인자, 트랜스-조절 인자, (탈)아세틸화 히스톤, (탈)메틸화 히스톤, 및/또는 억제인자를 포함한다. 마찬가지로, 경로 인자가 RNA 서열이거나 이를 포함하는 경우, 적절한 조절 파라미터는 RNA의 번역(또는 다른 활성)에 영향을 미치는 요인을 포함한다는 것이 고려된다. 그 결과, 이러한 조절 파라미터는 개시 인자, 번역 인자, RNA 결합 단백질, 리보솜 RNA 및/또는 단백질, siRNA, 및/또는 폴리A 결합 단백질을 포함한다. 동일한 방식으로, 경로 인자는 단백질이거나 이를 포함하는 경우, 해당 단백질의 활성에 영향을 미치는 모든 요인은 적절한 조절 파라미터로 간주되며 따라서 다른 단백질(예를 들어, 활성화된 복합체 또는 차별적인 활성을 갖는 복합체를 형성하기 위해 단백질과 상호작용하는 단백질), 화학적 변형(예를 들어, 인산화, 아실화, 단백질 가수분해 분할 등)을 포함할 수 있다.
조절 파라미터 간의 일련의 상호작용의 상관관계의 추론에 대해, 이러한 추론은 오믹 데이터세트 및/또는 경로 모델을 기반으로 한다는 것이 일반적으로 고려되며, 아래에 더욱 상세하게 명시된 바와 같이 확률 모델(예를 들어, 상호의존적 및/또는 독립적 조절 모델)을 이용하여 추론이 수행되는 것이 또한 일반적으로 고려된다 잠재적으로 매우 많은 가능한 상호 작용의 상관관계로 인해, 오믹 처리 모듈은 조절 파라미터(단일 노드의)와 통로의 활성 간의 의존성의 유의성 및/또는 통로의 활성을 고려한 조절 파라미터(단일 노드의) 간의 조건부 의존성의 유의성의 수준을 결정할 것이라는 것이 여전히 더욱 고려된다. 이러한 방식으로, 마찬가지로 아래에서 더욱 상세하게 논의되는 바와 같이 통계적으로 가장 높은 유의성을 갖는 상호작용의 상관관계에 분석 초점이 주어질 수 있다.
본 발명의 주제를 제한하지 않고, 본 발명자들은 또한 상호작용의 상관관계와 이들의 유의성이 조절 파라미터에 대한 상호작용의 징후(양성/활성 또는 음성/억제)를 결정하는 통계학적 처리에 의해 더 정제될 수 있다는 것을 발견하였다. 이렇게 결정된 상호작용의 상관관계 및 통로에 대한 이들의 영향을 이용하는 것은 이제 경로의 네트워크 및 이러한 경로를 통한 신호의 흐름의 상당히 개선된 이해를 제공할 것이다.
따라서, 그리고 다른 관점에서 보면, 경로 모델은 오믹 입력 인터페이스를 통해 적어도 하나의 오믹 데이터세트(예를 들어, 전체 게놈 데이터, 부분 게놈 데이터, 또는 상이한 시퀀스 객체)를 획득함으로써 생성될 수 있다는 것을 이해해야 한다. 오믹 처리 모듈은 이후 다수의 경로 인자를 갖는 (예를 들어, 이전에 결정된) 경로 모델에 액세스하며, 여기서 다수의 조절 파라미터의 함수로서 통로를 따라 활성을 제어하는 조절 노드를 갖는 통로를 통해 상기 다수의 경로 인자 중 적어도 두 개의 인자가 서로 결합된다. 오믹 처리 모듈은 이후 오믹 데이터세트 및/또는 경로 모델을 기반으로 다수의 조절 파라미터 간의 일련의 상호작용의 상관관계를 추론하며, 경로 모델은 이후 상호작용의 상관관계를 기반으로 업데이트된다.
마찬가지로, 고려되는 시스템과 방법을 사용하여, 경로 모델 내의 조절 노드의 조절 파라미터에 대한 서브타입 특이 상호작용의 상관관계를 식별할 수 있다는 것을 인식해야 한다. 앞에서와 같이, 서브타입의 조직을 나타내는 적어도 하나의 오믹 데이터세트가 오믹 입력 인터페이스를 통해 획득되며, 오믹 처리 모듈은 이전에 결정된 경로 모델에 액세스한다. 서브타입의 상호작용의 상관관계는 이후 아래에서 더욱 상세하게 설명되는 바와 같이 다수의 조절 파라미터 간의 상호작용의 확률 분석에 의해 서브타입의 조직을 나타내는 오믹 데이터세트로부터 오믹 처리 모듈을 통해 유도되며, 유도된 서브타입의 상호작용의 상관관계는 이후 경로 모델 내에 제공(또는 통합)된다. 모든 종류의 서브타입의 조직이 본원에서 사용하기에 적합한 것으로 간주되는 반면, 특히 고려되는 서브타입은 약물 내성 조직, 전이 조직, 약물로 치료된 조직, 및/또는 조직의 클론 변형을 포함한다. 이후, 유도된 서브타입의 상호작용의 상관관계를 입증하기 위해 실험 및/또는 이론적 실험(예를 들어, 체외, 인-실리코(in-silico), 체내)이 수행될 수 있다. 물론, 그리고 이러한 방법의 구성요소와 이러한 방법에 대해, 위에서 제공되고 아래에서 설명되는 것과 같은 동일한 고려사항이 적용된다.
더욱 상세하게, 본원에 제시된 확률 그래프 모델에서, 샘플로부터의 생물학적 분자(예를 들어, 단백질, mRNA, 복합체 및 작은 생체분자)의 상태가 변수로 제공된다. 예를 들어, 모든 유전자에 대해, 해당 유전자의 게놈 복제수, 해당 유전자로부터 전사된 mRNA, 해당 유전자에서 유도된 단백질, 및 대부분의 경우, 유전자의 생물학적 활성에 해당하는 비물리적인 추가 변수(경로 내에서 주석이 달리는 바와 같이)에 대해 변수가 사용되며, 이들은 단백질의 번역 후 변형에 의해 조절될 수 있다. 변수는 또한 세포사멸과 같은 일반적으로 경로 내에서 주석이 달리는 더욱 추상적인 상태를 나타내는 것들에 포함될 수 있다.
분자의 상태(예를 들어, 유전자 전사 조절, 단백질 인산화, 복합체 형성)를 변경하는 인과관계의 상호작용은 조절 변수에서 조절된 변수로 향한 에지로서 표현된다. 따라서, 모델의 확률 그래프 내의 각각의 변수 Y에 대해, 변수의 상태를 이의 모든 조절자로 결부시키는 공동 확률 모델로 인자가 도입된다: F(Y|X 1 ,X 2 ,...,X N ), 여기서 X 1 내지 X N 는 Y를 조절하는 변수. 이 인자는 부모(Y),ΣyεF(Y=y|Parents (Y)) = 1의 각각의 설정에 대한 조건부 확률 테이블이다. 게놈 복제수 또는 유전자 발현과 같은 개별 변수의 관측은 마찬가지로 조건부 확률 테이블인 인자(F(Y|X)에 의해 잠재 변수로 연결되는 별도의 변수로 모델링된다. 전체의 공동 확률 상태는 다음과 같다:
여기서 Z는 경로 내에서 조절 사이클로 인해 필요한 정규화 상수.
샘플에 대한 관측을 감안할 때, 10-9의 수렴 허용오차와 SEQFIX 업데이트 스케줄로 확률 공간(대수 공간과는 반대)에서 수행되는 추론과 함께 libDAI에서 구현되는 루피 신뢰 전파(loopy belief propagation)를 이용하여 각각의 비관측 변수의 주변 분포를 해결할 수 있다. 모든 F 함수에 대한 파라미터는 libDAI에서 기댓값 최대화를 통해 기계 학습 과정에서 학습되며, 연속적인 로그 확률 비율이 10-10 이하일 때 멈춘다.
본 발명자들은 전형적인 팩터 그래프 구조를 도시한 도 2A에 도시된 바와 같이 각각의 유전자의 전사, 번역 및 단백질 조절 상태에 해당되는 각각의 유전자의 센트럴 도그마(central dogma)에 새로운 변수를 도입하였다는 것을 이해해야 한다. 이 센트럴 도그마는 각각의 단백질 암호화 유전자가 동일한 센트럴 도그마 구조를 갖는 것을 의미하며, 따라서 모든 유전자 사이에 파라미터를 공유할 수 있다. 조절 프로그램은 이후 각각의 유전자에 대해 전사, 번역, 및 단백질 조절 변수에서 모델링된다.
조절 모델
이전에 개발된 알고리즘(본원에 참조로 포함된 WO 2013/062505 and WO 2011/139345에 개시)은 조절 노드가 알고리즘에 의해 처리되는 방법을 변경함으로써 확장되었다. 팩터 그래프를 구성하고 다양한 유형의 데이터 간의 비교를 허용하기 위해, 이전에 개발된 알고리즘은 입력 데이터를 일부 대조군에 대해 down, up, 또는 normal로 이산화한다. 조절 노드는 DNA로부터 활성 단백질로의 통로를 따라 일부 지점에서 주어진 유전자의 조절에 관여하는 모든 유전자의 활성 신호를 수집한다. 이들 신호는 인자를 통해 유전자의 센트럴 도그마에 연결되는 단일 변수에서 수집된다. 이전에 개발된 알고리즘에서, 조절 노드는 활성화 또는 억제 신호가 전달되었는지를 결정하기 위해 단순히 입력 신호를 투표로 결정한다.
반대로, 본 발명의 주제에 따른 시스템과 방법에서, 부모 노드(X 1 ,…, X N )의 설정을 고려하여 전달된 자식 변수(Y)의 각각의 설정의 확률이 기계 학습 과정을 이용하여 학습된다. 다음에서, 상호의존적 조절 모델과 독립적 조절 모델이 비교되며, 전사, 번역 및 활성화 노드에 대한 대안적인 조절 모델을 도시한 도 2B에 예시적으로 도시되어 있다. 상호의존적 조절 모델에서, 부모를 고려한 자식의 완전 조건부 확률 테이블이 학습되는 반면, 독립적 조절 모델에서는 개별 링크의 조건부 확률이 학습되고 부모를 고려한 자식 노드와 확률을 계산하기 위해 나이브 베이즈 가정이 사용된다.
더욱 상세하게, 상호의존적 조절 모델에서는, 부모와 자식의 모든 가능한 설정에 대해 조건부 확률 테이블 내에 파라미터로서 확률이 직접 저장된다. 그에 반해서, 독립적 조절 모델에서는, P(Y)와 P( X i |Y)가 파라미터로 사용되고, 파라미터의 생성물은 다음 확률을 발견하기 위해 계산된다:
여기서 Z는 P( X 1 ,…, X N )에 해당하는 정규화 상수이다. 독립적 조절 모델에 대한 파라미터를 초기화하기 위해, P(Y)에 down, up, 또는 normal의 동등 확률이 주어지며, P( X 1 |Y)에 대한 초기 확률은 경로 내의 링크의 주석을 기반으로 설정된다. 활성인자로서 주석에 표시된 링크에 대해 P( down | down ) = P( normal | normal ) = P(up|up) = 0.8이고, 억제인자에 대해서는 P( down | up ) = P( normal | normal ) = P(up|down) = 0.8이며, 그 밖의 모든 설정의 모든 확률은 0.1로 설정된다. 경로로부터의 이러한 사전 지식을 이용하는 중요성을 평가하기 위해 모든 설정에 걸쳐 균일 분포를 사용하여 검정을 수행하였다. 상호의존적 조절 모델에서 EM 학습에 대한 초기 파라미터로서 이전에 개발된 알고리즘에서와 같이 동일한 단순 투표 절차를 사용하였다. ε = 0.001인 경우, 99.9%의 확률이 투표에서 승리하는 자식 상태에 배치되고 0.05%의 확률이 초기 확률로서 다른 상태에 배치된다는 결론이 나온다.
게다가, 본 발명자들은 또한 단백질과 활성 상태 사이에 복합체와 유전자 가족의 "활성화" 조절을 허용하였다. 구체적으로, 각각의 가족과 복합체는 이제 단일 인자 F(활성/조절, 가족/복합체)로 연결된 가족/복합체, 조절, 및 활성의 삼인조 변수로 모델링된다. 가족 또는 복합체의 조절자는 상호의존적 또는 독립적 조절 모델에 의해 활성 변수에 연결된다. 가족 또는 복합체의 구성요소는, ε = 0.001일 때, 최대 잡음 또는 최소 잡음 인자를 사용하여 가족/복합체 변수에 연결된다. 그에 반해 이전에 개발된 알고리즘에서는 최소 잡음 또는 최대 잡음 인자만이 사용되었다.
조절 통계
본 발명자들은 조절 링크(제 1 방정식)의 부모와 자식 간의 의존성의 통계적 유의성뿐만 아니라 자식 분포(제 2 방정식)를 고려한 부모 간의 조건부 의존성의 통계적 유의성을 결정하기 위해 G-검정을 사용했다:
G-검정은 Χ 2 분포를 따름으로써 각각 부모-자식 검정과 부모-부모 검정에 대한 4 및 12의 자유도를 갖는 Χ 2 분포를 사용하여 P-값을 찾을 수 있다는 것에 주목해야 한다. P-값은 오류 발견률(false discovery rate, FDR)에 대해 조정되며, 조정된 P<0.05를 갖는 링크는 유의한 것으로 간주하였다. G-검정(상호 정보에 비례함)은 상호작용이 얼마나 강한지에 대해서는 유용한 정보를 제공하기는 하지만, 상호작용(양성 상호작용인 활성화 및 음성 상호작용인 억제)의 징후에 대한 세부사항을 제공하지는 않는다.
이러한 정보를 획득하기 위해, 본 발명자들은 부모와 자식 간의 피어슨 상관관계(Pearson correlation) 및 가중 점별(weighted pointwise) 상호 정보 또는 부모와 자식의 가능한 모든 설정에서의 WPMI(아래의 식 참조)를 계산하였다. 상관관계는 결합 분포(P( X i ,Y) = P( X i |Y)P(Y))를 사용하여 계산되었으며, 유의성은 피셔 변환(Fisher transformation)을 사용하여 계산하였다. 또한 세 개의 노드가 일관성의 또는 비일관성의 피드 포워드 루프를 형성하는지를 결정하기 위해 자식을 고려한 두 부모 간의 상관관계를 계산하였다. 그룹 간의 G-검정 결과를 비교하기 위해, 우리는 각각의 그룹에서 G 통계의 순위의 차이를 취했다. 그룹 구성원의 5000개의 임의의 순열을 가지고 순열 검정을 수행한 후 FDR을 조정하여 이 통계의 유의성을 계산하였다. 순열에서 관측된 것들보다 큰 차이에 대해 가장 낮은 가능성의 P-값을 상한으로 사용하였다.
따라서, WPMI는 단순히 G-점수 합계의 각각의 개별 인자이고, 9개의 WPMI 값의 벡터는 열지도를 해석하기 쉽도록 배치될 수 있다는 것을 인식해야 한다. 데이터에 가장 잘 맞는 클러스터의 수를 찾기 위한 HOPACH 클러스터링 알고리즘 (Bioconductor사)을 사용하여 데이터를 분석할 수 있다. 이는 클러스터된 각각의 일련의 IPL에 대한 클러스터의 다양한 수를 초래한다. 모든 데이터세트 간에 일정한 수를 갖는 클러스터링을 찾기 위해, 본 발명자들은 가장 근접한 큰 클러스터에 작은 클러스터 멤버를 재할당함으로써 가장 작은 클러스터를 붕괴시키고, 모든 클러스터링에 걸쳐 일정한 수의 클러스터를 얻는 방식으로 작은 클러스터를 붕괴시켰다. 이 방법은 또한 우리의 비교에 걸쳐서 클러스터의 크기를 일정하게 유지시키는 역할을 하였다.
실시예
경로 모델을 생성하기 위한 다양한 방식이 있으며, 대표적인 모델은 2012년 2월 27일자 BioPAX Level 3 양식으로 다운로드한, Reactome, PID, 및 BioCarta의 NCI PID 파싱으로부터 생성하였다. 이 경로 모델은 7111개의 단백질, 52개의 RNA 유전자, 15개의 miRNA 유전자, 7813개의 복합체, 1574개의 유전자 가족, 및 586번의 추상적인 생물학적 과정을 포함하였다. 분자의 활성 상태를 변경시키는(3266번의 억제) 8603번의 상호작용, 2120개의 전사 활성화 링크, 및 397개의 전사 억제 링크가 있었고, 7813개의 복합체에 대해 24129개의 구성요소 및 1574개의 유전자 가족의 7170 멤버가 있었다.
본 발명자들은 본 발명의 시스템과 방법에 의해 학습된 상호작용에 관련된 유전자에 대해 유전자 세트 농축을 수행하기 위해 DAVID를 사용하였다. DAVID에 의해 인식된 유전자의 수를 최대화하기 위해, 유전자 복합체와 가족을 이들의 구성요소 유전자로 분열시켰다. 링크에 관련된 유전자에 대한 농축은 큐레이션된 경로 내의 모든 유전자의 배경과 비교하였다.
N개의 부모를 갖는 완전 조건부 확률 테이블은 부모와 자식의 모든 3N+1개의 가능한 설정에 대한 확률을 저장할 것이다. 큐레이션된 경로 내의 일부 중심 유전자가 >30개의 조절자를 가지므로, 이들 테이블의 크기가 엄청나게 커지는 것을 방지하기 위해 자식 노드에 부착될 수 있는 부모 노드의 수는 5개로 제한하였다. 5개 이상의 단백질로 조절된 유전자에 대해, 이 제한을 유지하기 위해 중간 노드를 그래프에 첨가하였다. 따라서, 10개의 조절자를 갖는 유전자는 두 개의 중간 노드를 가질 것이며, 다섯 개의 조절자는 각각의 중간 노드에 부착된다.
11개의 조직 유형으로부터 유전자 발현과 복제수 데이터를 갖는 1936개의 TCGA 종양 샘플의 데이터세트를 사용하여, 상호작용과 조절 상호작용을 학습하였으며, 상호작용의 유의성을 G-검정에 의해 결정하였고, 상호작용의 징후를 상기한 바와 같은 상관관계 값으로 결정하였다. 단백질을 조절하는 경로 모델 내의 9139개의 상호작용 중에서, 7631개(83.5%)가 0.05의 FDR에서 유의한 것으로 확인되었다. 전체의 TCGA 코호트에 걸쳐 학습된 각각의 상호작용에 대한 WPMI의 주성분 분석(principal component analysis, PCA)은 강력한 억제에서 강력한 활성화로의 기울기를 밝혔다. 예시적인 주성분 분석이 도 3A 내지 도 3C에 도시되어 있다. 여기서, 패널(A)는 조절 링크의 주성분 분석을 도표로 도시하고 있으며, 여기서 각각의 점은 두 개의 주성분 상의 링크에 대한 9개의 WPMI 점수의 투사이다. 볼록포(convex hull)는 (투시되지 않은) WPMI 점수에 대해 수행된 k-평균 클러스터링의 멤버십을 나타내며, 클러스터의 수는 각 클러스터의 중심에 배치되어 있다. 패널(B)는 경로 내의 활성화와 억제로 표시된 유의한 링크의 클러스터 멤버십을 도시하고 있으며, 패널(C)는 강력한 억제(1)에서 강력한 활성화(5)까지의 범위를 나타내는 클러스터의 중심의 WPMI 값의 열지도를 도시한다. WPMI 벡터의 k-평균 클러스터링은 강력한 활성화에서 강력한 억제까지에 이르는 표준 상호작용 유형을 나타내는 이 기울기를 따라 클러스터를 찾았다. 7631개의 유의한 링크 중에서, 중심이 경로에 주석이 달린 링크와는 반대의 방향으로 가는 클러스터 내에 78개(1%)가 배치되었다. 다양한 WPMI 벡터는 EM이 활성인자와 억제인자뿐만 아니라 더욱 복잡한 조절 패턴과 유사한 새로운 상호작용 체제를 학습할 수 있었다는 것을 보여준다.
통계적 상관관계법을 사용하여, 이후 본 발명자들은 활성화 또는 억제로서 각각의 상호작용을 평가하였고 경로 모델 내에서 주석이 달린 상호작용 유형과 비교하였다. 유의한 상관관계와 G-점수 모두를 갖는 7357개의 링크가 있었으며, 이중 219개의 링크(3%)의 상관관계가 경로 내의 조절의 방향과 일치하지 않았다. 이는 두 검정에 의해 유의하고 큐레이션된 링크와 일치하는 7138개의 링크(78%)를 남긴다. 본 발명자들은 일부 링크가 높은 상관관계 값을 갖지만 우리의 G-검정으로부터는 낮은 유의성을 갖는 또한 발견하였으며, 이는 부모 또는 자식 분포가 단일 상태를 크게 선호하는 경우에서 일반적으로 관측되었다.
본 발명의 방법에 의해 학습된 링크 중에서, 1197개의 링크가 유의한 상관관계와 G-점수를 가졌고 복합체 또는 가족을 포함하지 않았다. 이들 링크 중 51개(4.3%)에 대해, 상관 계수의 징후가 문헌과 일치하지 않았다. 한편, 유전자 발현 양상만 보면, 1058개의 비-복합체 비-가족 링크가 유의한 상관관계를 갖는 것으로 나타났으나, 470개(44%)는 경로 진입의 징후와 일치하지 않았다. 두 번째 비교를 위해, 가족 및 복합체의 구성요소인 모든 유전자를 이들 가족 및 복합체에 의해 조절된 유전자에 직접 연결시킴으로써 복합체 및 가족을 경로에서 제거하였다. 이 평탄화 절차는 200921개의 링크를 유발하였다. 우리는 이들 링크 중 165258개가 유의하게 상호 관련된 유전자 발현 양상을 갖고, 링크 중 81558개(49.4%)가 경로 내의 링크의 방향과 일치하지 않는 상관관계를 갖는 것을 발견하였다. 이러한 결과는 본 발명의 방법에 의해 학습된 링크가 유전자 발현 양상보다는 문헌 내의 링크의 방향과 더욱 양호하게 일치한다는 것을 보여준다.
TCGA 난소암(OV) 환자(M=416)로부터 학습된 WPMI 점수에 대해서만 그리고 복합체와 가족 활성화 조절 없이 PCA와 클러스터링 분석을 실행한 결과 도 3A 및 도 3C에 도시된 PCA 및 클러스터 중심과 매우 유사한 결과를 나았으나, 활성인자로 주석이 달리고 억제인자로 학습된 또는 그 반대의 경우도 같은 덜 유의한 링크 및 높은 비율의 링크가 발견되었다(도 4A). P( X i |Y) = 1/3의 평탄한 초기화가 사용된 경우(도 4B), 본 발명자들은 클러스터 중심이 다시 활성화에서 억제로의 기울기로 맵핑되고, 방향 정보를 포함하는 초기 설정과 일치하지 않은 덜 유의한 링크 및 높은 비율의 링크 방향이 있다는 것을 발견하였다.
도 2에 나타낸 나이브 베이즈 독립성 가정을 검정하기 위해, TCGA 난소암 샘플 상에서 독립적 및 상호의존적 조절 모델 모두를 사용하여 본 발명의 개념에 따른 시스템 및 방법을 실행하였다. 본 발명자들은 실행의 각각의 EM 단계에서 계산된 기댓값에 대해 조건부 독립성 가정을 검정하였다 (도 5A 참조). 도 5A는 완전 조건부 확률을 학습하는 실행의 각각의 EM 단계에서 아래의 검정을 실패한 고유 자식 노드의 비율을 나타낸다(범례: i. 자식을 고려한 임의의 두 부모의 조건부 독립성의 유의성의 검정. ii. 검정 i 및 실패한 적어도 하나의 부모가 자식에 유의하게 링크됨. iii. 검정 i 및 실패한 트리플이 비일관성임. 검정 iv. 검정 i, ii 및 iii). 학습의 모든 단계에서 적은 공동조절자가 서로에 대해 의존적인 것이 밝혀졌다. 자신의 전사를 조절하는 전사인자와 같은, 경로 내의 작은 피드백 루프로 인해, 독립성 가정은 어떤 경우 실패할 것이라는 것을 예상할 것 이다. 또한, 단 하나의 분자에 의해 달라지는 두 개의 매우 유사한 복합체가 동일한 자식 노드를 공동 조절하는 것은 매우 일반적이며, 이 경우 충돌이 없음에도 조건부 독립성 검증이 실패할 것이라는 것을 또한 예상할 것이다. 그 결과, 본 발명자들은 두 개의 공동조절자가 독립성 검정을 실패하는 경우를 도 5B에 개략적으로 도시한 바와 같이 "일관성" 및 "비일관성" 경우로 구분한다. 도 5B는 일관성의 트리플렛 대 비일관성의 트리플렛의 예를 개략적으로 도시하고 있다. 화살표는 양성 상관관계(활성화)에 대한 뾰족한 머리와 음성 상관관계(억제)에 대한 평평한 머리와의 상관관계에 해당한다. 부모 간의 상호작용은 문헌에서 발견되지 않으며, 따라서 이러한 상호작용의 방향이 알려지지 않았기 때문에 양면 화살표가 사용되었다.
또한, 두 개의 공동조절자 중 하나가 다른 조절자의 강도로 인해 유의하지 않은 조절자라고 하더라도 두 개의 공동조절자는 독립성 검정을 실패할 수 있다. 따라서 본 발명자들은 또한 공동조절자 모두가 자신에 대해서는 유의한 경우의 부분집합을 고려하였으며, 가중 투표 방식으로 생성된 초기 파라미터가 거의 50%의 자식 노드를 조건부 독립성 검정에서 실패하게 하지만, EM 알고리즘이 파라미터 설정을 학습할 가능성이 많기 때문에, 더욱 적은 수의 노드가 검정에 실패한다는 것을 검정은 보여준다. 우리의 모든 검정을 결합하면, ~5%의 자식 노드만이 의미 있는 방식으로 상호의존적인 조절자를 가질 가능성이 높은 것을 알 수 있다.
난소암 샘플을 사용하여, 본 발명자들은 이전에 개발된 알고리즘(WO 2013/062505 and WO 2011/139345 참조)에 의해 생성된 단백질 활성 예측과 상호의존적 및 독립적 조절 모델 모두로부터의 예측을 더 클러스터링하였다. 이후 이들 클러스터가 상당히 다른 생존 양태를 갖는지를 확인하기 위해 이들 클러스터에 카플란-마이어(Kaplan-Meier) 분석을 수행하였다(도 6). 여기서, 통합 경로 활성에 의해 클러스터링된 TCGA 난소 코호트 내의 416명의 환자의 카플란-마이어 생존 곡선을 이전에 개발된 알고리즘(도 6A), 조절 노드의 본 발명에 따른 알고리즘 학습 완전 조건부 테이블(도 6B), 및 단일 링크의 본 발명에 따른 알고리즘 학습 조건부 확률 및 나이브 베이즈 가정(도 6C)을 이용하여 도시하고 있다. 본 발명자들은 독립적 조절 모델 활성 예측을 사용하여 생성된 클러스터가 이들의 생존에 의해 가장 잘 분리될 수 있다는 것을 발견하였다(로그-순위 P = 2.0x10-4). 본 발명자들은 또한 P( X i |Y)에 대한 평탄한 초기 설정과 함께 독립적 조절 모델을 사용하여 이 검증을 수행하였으며, 이전에 개발된 알고리즘보다 열악하게 수행되는 것을 발견하였다. 다시, 이는 학습 방법이 평탄한 초기 상호작용 설정을 사용할 때 손실되는 상호작용의 유형에 대한 사전 지식을 필요로 한다는 것을 보여준다.
도 7는 조직 내에서의 상관관계 점수에 의해 각각의 상호작용에 색을 입히고 이의 유의성에 비례하도록 포화도를 설정함으로써 가장 유의한 조직-차별적인 링크 사용을 도시하고 있다. TP53, MYC/MAX, HIF1A/ARNT, TAp73a, E2F1 및 PPARA-RXRA을 포함하는 핵심 암 유전자 및 복합체에 의해 조절된 링크에 대해 가장 강력한 차별적인 G-점수가 나타나있다. 특히 관심 있는 것은 GBM[뇌와 KIRC(신장)] 내에서 주로 상이한 PPARA-RXRA에 의해 조절된 링크 및 OV(난소) 내에서의 그리고 낮은 정도의 UCEC(자궁 내막)에서의 TAp73a 조절 링크이다. 도 8A 및 도 8B는 PPARA-RXRA와 TAp73a로부터의 활성 링크에 대한 조직으로 분류된 WPMI 신호의 그래프이고, 크게 증가된 가중치가 활성 사선 상에서 발견되며, 이는 이들 조직에서 활성인자로서의 이들 링크의 증가된 사용을 나타낸다. 부모 노드로서 PPARA:RXRA를 갖는 링크에 대한 WPMI 값을 나타내는 도 8A로부터 알 수 있듯이, GBM와 KIRC 내에 더욱 강력한 활성화 신호가 있는 반면, 도 8B는 부모 노드로서 TAp73a를 갖는 링크에 대한 WPMI 값을 보여주며, 이는 OV에서의 활성화를 나타낸다.
TAp73a 활성의 서명은 잠재적으로 p73 발현과 연관된 발병의 여성 생식성 또는 호르몬성 패턴을 나타낸다. TAp73은 세포사멸의 세포 주기 억제인자 및 유도인자의 발현을 촉진하며, 이들 중 하나는 종양형성 유전자 BCL2의 활성의 억제인자 역할을 하는 종양 억제인자 BAX이다. BCL2는 장액성 난소암에서 고도로 발현하는 것을 알려져 있으며, 여기서 그 결과는 TAp73가 고도로 발현하고 BAX 발현(및 따라서 BCL2 억제)의 강력한 프로모터이긴 하지만, 그럼에도 종양형성의 지연에 비효과적이고, 이는 BCL2의 분자 억제가 동일하게 비효과적인 것을 시사한다는 것을 보여준다. 당연히, 장액성 난소암에서의 높은 BCL2 발현에도 불구하고 BCL2의 저분자 억제인자를 이용하는 난소암의 단일 약품 치료는 지금까지 성공하지 못했으며, 이는 이러한 유형의 암에서 TAp73 매개 활성의 하류 봉쇄 또는 감쇠를 시사한다. 거의 모든 장액성 난소 샘플이 여기서 아마도 종양형성의 상류 전환을 시사할 뿐만 아니라 아마도 TAp73 과발현 또는 증가된 활성을 극복하는 p53에서의 돌연변이를 갖는 것을 주목하는 것이 중요하다. 그 밖의 그룹은 GBM 및 KIRC 모두에서의 PPARA-RXRA activity 활성의 중요성 및 PPARA 작용제인 페노피브레이트(fenofibrate)에 대한 민감성을 추가로 보여주었다. 본 분석을 통해 식별된 조직 특이 신호는 현재의 TCGA 데이터세트의 맥락에서 검토할 때 고유한 것으로 보이는 최근의 생물학적 발견을 반복하는 것으로 나타났다.
전체 TCGA 코호트(표 1 참조)에 걸쳐 학습된 가장 유의한 링크는 포크헤드 박스(forkhead box) 전자인자 A1, p53 및 에스트로겐 수용체 알파를 포함하는 다수의 알려진 암 유전자이다. 가장 높은 G-점수를 갖는 50개의 상호작용에 관련된 유전자에 대해 DAVID를 이용한 유전자 세트 농축을 수행하기 위해, 본 발명자들은 가족과 복합체를 이들의 구성 유전자로 대체하였다. 이는 상위 50개 링크로부터 DAVID에 의해 인식된 112개의 고유 유전자를 생성하였다. 이들 유전자는 "암에서의 경로", "세포사멸", "Jak-STAT 신호전달 경로" 및 "MAPK 신호전달 경로"를 포함하는 다수의 관련 KEGG 용어뿐만 아니라 다수의 다양한 암 유형 특이 용어에 대해 유의하게 농축되는(P<1e-7) 것으로 밝혀졌다. 본 발명자들은 이후 이러한 결과를, 경로 내에서 링크되는 유전자의 유전자 발현 상관관계를 단지 검토함으로써 발견될 수 있는 것들과 비교하였다. 본 발명자들은 본 발명의 알고리즘에 의해 생성된 유전자 세트와 비교할 만한 크기(N=119)의 고유 유전자 세트를 얻기 위해 평탄화 경로로부터 피어슨 상관관계에 의한 상위 200개 유전자 발현 쌍을 취할 필요가 있었다. 두 유전자 세트가 생물학적 과정(GOTERM_BP_FAT)에 대한 유전자 온톨로지(Ontology) 용어에 대해 유사한 농축을 생성하였지만, 학습된 링크와 FDR를 사용한 것보다 유전자 발현 상관관계를 사용함으로써 보다 적은 KEGG 용어가 발견되었다(FDR<0.05에서 46개 대 20개). 두 개의 세트 간에 중첩되는 KEGG 용어는 결정된 세트에서 낮은 FDR을 가졌다. 경로 내에서 가족과 복합체의 평탄화가 이러한 결과를 편향되게 하지 않는다는 것을 보장하기 위해, 본 발명자들은 오직 경로 내에서 비-가족, 비-복합체 링크에 대해서만 이러한 분석을 반복하였으며, 유사한 결과를 확인하였다(FDR<0.05에서 학습된 링크에 대해 발견된 20개 KEGG 용어 대 발현 상관관계에 대해 발견된 3개).
부모 | 자식 | g-점수 | 방향 |
FOXA1 | SFTPA(가족): txreg | 3247.197 | ↑ |
HNF1A | HNF4A(가족): txreg | 3208.440 | ↑ |
GATA1 | 알파-글로빈(가족): txreg | 3065.885 | ↑ |
ONECUT1 | HNF1B(가족): txreg | 3008.945 | ↑ |
p53 테트라머(복합체) | MDM2:txrega | 2931.148 | ↑ |
KLF4 | 프리프로그렐린(가족): txreg | 2914.620 | ↑ |
PDX1 | NR5A2(가족): txreg | 2872.275 | ↑ |
p53 테트라머(복합체) | SFN:txrega | 2811.958 | ↑ |
ER 알파 호모다이머(복합체) | 알파 튜불린(가족): txreg | 2781.369 | ↑ |
FOXM1 | CENPA: txreg | 2739.028 | ↑ |
모든 링크에 대한 P-값은 1e-323 이하임.
a 중간 노드.
본 발명자들은 또한 서브타입 간의 조절 차이를 일부 파악하기 위해 유방암의 서브타입 간의 링크의 강도를 비교하였다(표 2 참조). 이러한 비교뿐만 아니라 조직 간의 다른 비교는 활성화에서 억제로의 방향을 완전히 전환시키는 링크를 발 강력한 활성에서 중성으로 변경되는 것)을 자주 관찰하였다. 방향이 거의 변경되지 않기 때문에, 본 발명자들은 링크의 G-점수 유의성 간의 차이를 단순히 지켜보는 것이 유익하다는 것을 발견하였다. 본 발명자들은 샘플 크기에 대한 G-점수의 의존성을 조정하기 위해 G-점수의 순위 차이를 사용하여 그룹들을 비교하였다. 가장 높은 순위 차이를 갖는 많은 링크들이 동일한 부모를 가졌다. 그러한 이유로, 표 2는 한 부모 기준으로 가장 높은 순위 차이를 갖는 링크를 보여준다. 기저 종양에서 강력한 상위 10개 링크 중 9개에서, HIF1A가 부모였고, 내강형(luminal) A 종양에서 강력한 상위 네 개의 링크는 부모로서 CEBPB를 가졌다.
부모 | 자식 | P-값 기저 | P-값 내강형 | 순위 차이 | 방향 |
HIF1A/ARNT(복합체) | HK1 | 1.61e-3 | 0.834 | 7826 | ↑ |
E2F3/DP/TFE3(복합체) | PRM1 | 9.20e-3 | 0.854 | 7632 | ↑ |
MYB | PPP3CA | 3.09e-2 | 0.493 | 5203 | ↑ |
E2F1/DP(복합체) | WASF1 | 3.48e-2 | 0.459 | 4924 | ↑ |
E2F1/DP/PCAF(복합체) | TP73 | 6.59e-3 | 0.343 | 4225 | ↑ |
CEBPB | HSP90B1 | 0.879 | 9.65e-3 | 6275 | ↑ |
JUN | AChR(가족) | 0.833 | 0.0256 | 4742 | ↑ |
SP1 | CDKN2C | 0.771 | 5.94e-4 | 4700 | 유의성 없음 |
DNA 손상(추상적) | SERPINB5 | 0.808 | 0.0300 | 4264 | ↑ |
LEF1/베타 카테닌/ PITX2(복합체) |
LEF1 | 0.775 | 9.18e-3 | 4250 | ↑ |
(주: 이 표에서 모든 순위 차이의 조정된 P는 <4.8e-4였다. 모든 에지는 전사 활성인자로서 주석을 달았다. 전체 표는 보충 자료이다.
임상적으로 관련된 활성과 링크 강도를 확인하기 위해, 본 발명자들은 에스트로겐 수용자-양성(ER+) 유방암 환자를 검사하였고, 코호트를 가장 잘 분할하는 특징들의 최적의 수를 확인하기 위해 링크 g-점수와 IPL 모두에 대해 TCGA 생존 데이터의 조절된 조정화 콕스 회귀(regularized Cox regression) 분석을 수행하였다. 최소 람다에서, 콕스넷(coxnet) 모델은 ER+ 유방암 환자를 가장 잘 분할하는 아홉 개의 특징을 포함하였다(표 3 참조). 아홉 개의 특징 중 네 개는 잠재적 예후 마커로서 이들 점수의 독립성을 나타내는 링크 g-점수였다.
특징 | 콕스 위험도 계수 |
GLI2A→GLI1 | 0.08484 |
HIF1A/ARNT(복합체)→CP | 0.07835 |
MYB→CEBPB | 0.00462 |
E2F1/DP(복합체)→SIRT1 | -0.00072 |
p300/CBP(복합체) | -0.00204 |
SDC3 | -0.04840 |
p300/CBP/RELA/p50(복합체) | -0.11126 |
TAp73a(테트라머)(복합체) | -0.11301 |
TCF1E/베타 카테닌(복합체) | -0.16129 |
(주: 에지는 →에 의해 식별되며, 발견된 모든 에지는 경로 내의 전사 활성인자로 주석을 달았다.
CEBPB와 HIF1A/ARNT는 표 2 및 표 3 모두에서 나타났다. CEBPB는 종양 진행, 나쁜 예후, 및, ER 음성 상태와 관련된 전사 인자이다. 또한, CEBPB 에 의해 조절되고 표 2에 나타난 열 충격 단백질인 HSP90B1의 과발현은 원격 전이와 관련되었으며 좋은 징후와는 다르게 유방암 환자의 전체 생존율을 감소시켰다. HSP90B1는 비테스펜(vitespen)이란 상표명으로 흑색종에 대한 면역요법으로서 임상 실험을 겪었다. HIF1A/ARNT 과발현은 ER- 및 PR- 유방암과 임상적으로 관련이 있으며, 여기서 접합 변형체는 감소된 무전이 생존과 관련이 있다. 기저 종양이 일반적으로 ER-이고 내강형 A 종양이 일반적으로 ER+이기 때문에, 차별적인 링크 강도는 기저 종양에서 접합 변형체의 발생 증가로 인한 것일 수 있다. 기저 및 내강형 종양 간의 G-점수 링크의 차이에 의한 상위 두 개의 링크는 HK1와 HK2(헥소키나아제)를 활성화시키는 HIF1A/ARNT이고, HK2는 포도당 대사와 세포사멸에 관여하며 유방암의 뇌 전이뿐만 아니라 개두술(craniotomy) 이후의 열악한 생존과 관련이 있다. 이러한 발견은 종양의 서브타입을 대조하고 임상적 변수를 예측하는 서브타입 내의 링크를 검색함으로써 서로 관련된 링크를 찾을 수 있는 가능성을 나타낸다.
상기에 근거하여, 고려되는 시스템 및 방법은 문헌으로부터 큐레이션된 조절 상호작용의 강도와 징후를 학습하기 위해 다수의 오믹스 데이터의 결합을 허용한다는 것을 이해해야 한다. 조건부 독립성의 가정은 모델 복잡도를 감소시킬 수 있고 기존의 데이터세트를 사용하여 조절 파라미터의 효율적인 추정을 가능하게 한다. 게다가, 본 발명자들은 또한 독립성 가정이 대부분의 세포 조절 프로그램에 대해 유효한 것을 입증하였다. 또한, 독립성 가정이 지속되지 않는 경우, 상호의존적 조절 프로그램을 적절하게 프로그래밍하는 더욱 복잡한 인자로 독립성 인자가 대체될 수 있다는 것이 고려된다. 이들 학습된 파라미터가 적용될 때, 단순이 샘플의 코호트에 걸쳐 가장 강력한 링크를 검토함으로써 또는 상호작용이 관심 있는 표현형 간에 변경되는 방식을 검토함으로써 생물학적 통찰을 얻을 수 있다.
암의 서브타입이 다양한 상호작용을 사용하기는 하지만, 하나의 상호작용은 일반적으로 특정 종양에서 사용될 때마다 일관된 징후를 갖는다는 것을 또한 이해해야 한다. 또한, 상호작용의 징후가 경로 데이터베이스에 걸쳐 BioPAX 언어로 주석이 달리는 다양한 방식에도 불구하고, 학습된 상호 작용의 징후와 데이터베이스 내의 상호작용의 징후의 일치는 경로 데이터베이스가 이미 성공적으로 그리고 정확하게 문헌에서 수많은 해중 실험의 목록을 작성하였음을 나타낸다.
또한, 공동조절자의 독립성은 모델 추론과 파라미터 학습에 대해 전산상의 이점을 제공하고 또한 모델 해석에 도움을 준다는 것을 이해해야 한다. 조절 모델의 인수분해 가능성은 로그 선형 선형성에 해당한다. 그러나, 모델에서 다수의 조절자는 복합체이고, 복잡한 생성 인자는 비선형적인 최대 잡음 함수이다. 따라서, 조절 비선형성은 물리적 복합체를 표시함으로써 여전히 팩터 그래프 내에 인코딩될 수 있다. 이는 경로 내의 대부분의 조절 링크의 물리적 해석에 대한 타당성을 부여하며, 진정으로 독립적인 물리적 실체가 복합체로서 포착되는 한, 독립성 조절자의 경쟁적인 결합은 선형으로 결합해야 한다. 이러한 물리적 해석이 사실이라면, 측정된 물리적 결합 상수와 결정된 상호작용 점수의 상대적인 강도 사이에 관련성이 있어야 한다. 독립성 가정이 지속되지 않는 경우, P(Y|X 1 )P(Y|X 2 )를 P(Y|X 1 , X 2 )와 같은 인자로 대체함으로써 모델링 될 수 있는 잠재적인 공동인자가 있을 가능성이 높다.
고려되는 방법과 시스템은 조직의 서브타입 간의 상호작용의 상관관계를 구별할 수 있기 때문에, 본 발명자들은 또한 서브타입 특이 조직에 속하는(예를 들어, 특정 약물과 관련하여 치료 내성 종양에 속하는) 조직(예를 들어, 종양 생체검사로부터 얻어짐)을 나타내는 오믹 데이터세트를 분류하는 방법을 고려한다. 상기한 방법과 유사하게, 고려되는 방법은 우선 오믹 입력 인터페이스를 통해 조직을 나타내는 오믹 데이터세트를 획득하고, 이후 오믹 데이터세트에 대해 경로 모델 내에서 경로 노드의 다수의 조절 파라미터 간의 일련의 상호작용의 상관관계를 유도할 것이다. 그렇게 유도된 일련의 상호작용의 상관관계를 이후 알려진 서브타입 특이 조직과 관련된 선험적으로 알려진 일련의 상호작용의 상관관계에 매칭시키고, 원하는 경우, 오믹 데이터세트의 분류를 위해(예를 들어, 알려진 서브타입 특이 조직을 나타내는지 그리고 서브타입에 속하는 조직을 분류하기 위해) 상기 매칭을 이용한다. 따라서, 고려되는 시스템과 방법이 하나 이상의 상호작용의 상관관계 서명만을 근거로 서브타입의 관점에서 조직의 특성화를 가능하게 할 것이라는 것을 이해해야 한다. 그 밖의 고려되는 조직의 서브타입 중에서, 특히 유리한 서브타입은 약물 내성 조직, 전이 조직, 약물로 치료된 조직, 또는 조직의 클론 변형을 포함한다.
또한, 고려되는 시스템과 방법이 신호전달 경로 및/또는 경로 네트워크를 통해 신호 흐름의 식별을 가능하게 하기 때문에, 고려되는 시스템과 방법은 또한 경로 모델 내에서 약물 표적(druggable target)을 식별하는데 유용할 수 있다는 것을 이해해야 한다. 이러한 식별은 일반적으로 (a) 오믹 입력 인터페이스를 통해 조직을 나타내는 적어도 하나의 오믹 데이터세트를 획득하는 단계, (b) 오믹 데이터세트에 대해, 경로 모델 내의 조절 노드의 다수의 조절 파라미터 간의 일련의 상호작용의 상관관계를 유도하는 단계, (c) 상기 상호작용의 상관관계를 방해하는 것으로 예상되는, 통로의 활성에 영향을 미치는 약물을 식별하는 단계를 포함한다. 가장 일반적으로, 상기 조절 노드는 단백질의 전사, 번역, 및 번역 후 변형 중 적어도 하나에 영향을 미치고, 상기 약물은 상업적으로 이용 가능한 약물이고 알려진 작용 모드를 갖는다.
따라서, 경로의 조절 파라미터 간의 특정 상호작용의 상관관계가 알려짐에 따라, 조직을 나타내는 오믹 데이터세트 및 오믹 데이터세트에 대해 경로 모델 내의 조절 노드의 조절 파라미터 간의 일련의 상호작용의 상관관계의 유도를 이용하여 경로 모델 내의 표적 경로를 용이하게 식별할 수 있다. 약물이 상호작용의 상관관계에 대해 알려진 효과를 갖는 경우, 상기 약물은 표적 경로를 표적으로 하기 위해 사용될 수 있다. 예를 들어, 약물의 알려진 효과는 키나아제에 대한 억제 효과, 수용체에 대한 억제 효과, 및 전사에 대한 억제 효과일 수 있다. 따라서, 그리고 그 밖의 적절한 표적 경로, 특히 고려되는 표적 경로는 칼슘/칼모듈린 조절된 경로, 사이토카인 경로, 케모카인 경로, 성장 인자 조절된 경로, 호르몬 조절된 경로, MAP 키나아제 조절된 경로, 포스포타아제 조절된 경로, 및 Ras 조절된 경로를 포함한다. 경로 분석의 결과에 따라, 치료 장치는 식별된 경로를 근거로 할 수 있다.
또한, 치료는 실제로 환자에 대해 수행될 필요는 없지만, 경로의 조절 파라미터 간의 하나 이상의 특정 상호작용의 상관관계가 알려지면 시뮬레이션될 수 있다는 것을 이해해야 한다. 따라서, 고려되는 방법은 또한 약물의 치료 효과를 인-실리코 시뮬레이션하는 방법을 포함할 것이고, 상기 방법은 다수의 경로 인자를 갖는 경로 모델을 획득하는 단계를 포함하고, 여기서 다수의 조절 파라미터의 함수로서 통로를 따라 활성을 제어하는 조절 노드를 갖는 통로를 통해 상기 다수의 경로 인자 중 적어도 두 개의 인자가 서로 결합된다. 고려되는 방법은 또한 적어도 하나의 조절 파라미터에 영향을 미치는 것으로 알려진 약물을 식별하는 단계, 및 오믹 처리 모듈을 통해 그리고 상기 약물의 알려진 효과를 기반으로, 상기 경로 모델 내의 조절 노드, 활성, 및 조절 파라미터 중 적어도 하나를 인-실리코에서 변경하는 또 다른 단계, 및 상기 경로 모델 내에서 변경의 이차 효과를 결정하는 단계를 더 포함할 것이다. 가장 일반적으로, 상기 이차 효과는 상기 경로 모델 내의 또 다른 경로 노드, 또 다른 활성, 및 또 다른 조절 파라미터 내에 있다.
본원에 개시된 본 발명의 개념을 벗어나지 않고 상기한 것 이외에 더욱 많은 변경이 가능하다는 것은 본 기술분야의 숙련자에게 명백하다. 본 발명의 주제는 따라서 첨부된 청구항의 사상을 제외하고는 제한되지 않는다. 또한, 명세서와 청구항 모두를 해석하는데 있어서, 모든 용어는 맥락과 일치하는 가장 넓은 가능한 방식으로 해석되어야 한다. 특히, "포함하다" 및 "포함하는"이란 용어는 비배타적인 방식으로 요소, 성분, 또는 단계를 언급하는 것으로 해석되어야 하며, 언급된 요소, 성분, 또는 단계는 존재하거나, 활용되거나, 또는 명백하게 언급되지 않은 다른 요소, 성분 또는 단계와 결합될 수 있다는 것을 나타낸다. 청구항이 A, B, C … 및 N으로 이루어진 군에서 선택되는 적어도 하나의 무엇을 언급하는 경우, 텍스트는, A와 N, 또는 B와 N이 아닌 것과 같이, 상기 군에서 단지 하나의 요소만을 필요로 하는 것으로 해석되어야 한다.
Claims (34)
- 학습 엔진에 있어서, 상기 학습 엔진은
다수의 오믹 데이터세트를 수신하도록 구성되는 오믹 입력 인터페이스; 및
상기 인터페이스에 결합되는 오믹 처리 모듈을 포함하고, 상기 오믹 처리 모듈은
- 다수의 경로 인자를 갖는 경로 모델에 액세스하고, 여기서 다수의 조절 파라미터의 함수로서 통로를 따라 활성을 제어하는 조절 노드를 갖는 통로를 통해 상기 다수의 경로 인자 중 적어도 두 개의 인자가 서로 결합되고,
- 상기 오믹 입력 인터페이스를 통해 적어도 하나의 오믹 데이터세트를 획득하고,
- 상기 적어도 하나의 오믹 데이터세트와 경로 모델을 기반으로 다수의 조절 파라미터 간의 일련의 상호작용의 상관관계를 추론하고, 및
- 상기 상호작용의 상관관계를 기반으로 경로 모델을 업데이트하도록 구성되는 것을 특징으로 하는 학습 엔진.
- 제 1 항에 있어서,
상기 오믹 데이터세트는 전체 게놈 데이터, 부분 게놈 데이터, 또는 상이한 시퀀스 객체를 포함하는 것을 특징으로 하는 학습 엔진.
- 제 1 항 또는 제 2 항에 있어서,
상기 오믹 입력 인터페이스에 결합된 게놈 데이터베이스 또는 시퀀싱 장치를 더 포함하는 것을 특징으로 하는 학습 엔진.
- 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
상기 경로 인자는 DNA 서열, RNA 서열, 단백질, 및 단백질 기능 중 적어도 하나를 포함하는 것을 특징으로 하는 학습 엔진.
- 제 1 항 내지 제 4 항 중 어느 한 항에 있어서,
상기 경로 인자는 DNA 서열을 포함하고, 상기 다수의 조절 파라미터 중 적어도 하나는 전사 인자, 전사 활성인자, RNA 폴리머라제 서브유닛, 시스-조절 인자, 트랜스-조절 인자, 아세틸화 히스톤, 메틸화 히스톤, 및 억제인자로 이루어진 군에서 선택되는 것을 특징으로 하는 학습 엔진.
- 제 1 항 내지 제 5 항 중 어느 한 항에 있어서,
상기 경로 인자는 RNA 서열을 포함하고, 상기 다수의 조절 파라미터 중 적어도 하나는 개시 인자, 번역 인자, RNA 결합 단백질, 리보솜 단백질, siRNA, 및 폴리A 결합 단백질로 이루어진 군에서 선택되는 것을 특징으로 하는 학습 엔진.
- 제 1 항 내지 제 6 항 중 어느 한 항에 있어서,
상기 경로 인자는 단백질을 포함하고, 상기 다수의 조절 파라미터 중 적어도 하나는 인산화, 아실화, 단백질 가수분해 분할, 및 적어도 하나의 제 2 단백질과의 연관으로 이루어진 군에서 선택되는 것을 특징으로 하는 학습 엔진.
- 제 1 항 내지 제 7 항 중 어느 한 항에 있어서,
상기 오믹 처리 모듈은 확률 모델을 사용하여 상호작용의 상관관계를 추론하도록 구성되는 것을 특징으로 하는 학습 엔진.
- 제 8 항에 있어서,
상기 확률 모델은 상호의존적 조절 모델을 사용하는 것을 특징으로 하는 학습 엔진.
- 제 8 항 또는 제 9 항에 있어서,
상기 확률 모델은 독립적 조절 모델을 사용하는 것을 특징으로 하는 학습 엔진.
- 제 10 항에 있어서,
상기 확률 모델은 다수의 조절 파라미터와 통로의 활성 간의 의존성의 유의성 및/또는 통로의 활성을 고려한 조절 파라미터 간의 조건부 의존성의 유의성을 더 결정하는 것을 특징으로 하는 학습 엔진.
- 제 11 항에 있어서,
상기 확률 모델은 조절 파라미터에 대한 상호작용의 징후를 더 결정하는 것을 특징으로 하는 학습 엔진.
- 경로 모델을 생성하는 방법에 있어서, 상기 방법은
오믹 입력 인터페이스를 통해 적어도 하나의 오믹 데이터세트를 획득하는 단계;
오믹 처리 모듈을 통해 다수의 경로 인자를 갖는 경로 모델에 액세스하는 단계, 여기서 다수의 조절 파라미터의 함수로서 통로를 따라 활성을 제어하는 조절 노드를 갖는 통로를 통해 상기 다수의 경로 인자 중 적어도 두 개의 인자가 서로 결합되고,
상기 오믹 처리 모듈을 통해, 상기 적어도 하나의 오믹 데이터세트와 경로 모델을 기반으로 다수의 조절 파라미터 간의 일련의 상호작용의 상관관계를 추론하는 단계; 및
상기 상호작용의 상관관계를 기반으로 경로 모델을 업데이트하는 단계를 포함하는 것을 특징으로 하는 방법.
- 제 13 항에 있어서,
상기 오믹 데이터세트는 전체 게놈 데이터, 부분 게놈 데이터, 또는 상이한 시퀀스 객체를 포함하고, 상기 오믹 데이터세트는 게놈 데이터베이스, BAM 서버, 또는 시퀀싱 장치로부터 획득되는 것을 특징으로 하는 방법.
- 제 13 항 또는 제 14 항에 있어서,
상기 추론 단계는 확률 모델을 기반으로 하는 것을 특징으로 하는 방법.
- 제 15 항에 있어서,
상기 확률 모델은 상호의존적 및/또는 독립적 조절 모델을 사용하는 것을 특징으로 하는 방법.
- 제 16 항에 있어서,
상기 다수의 조절 파라미터와 통로의 활성 간의 의존성의 유의성 및/또는 통로의 활성을 고려한 조절 파라미터 간의 조건부 의존성의 유의성을 결정하는 단계를 더 포함하는 것을 특징으로 하는 방법.
- 제 17 항에 있어서,
상기 조절 파라미터에 대한 상호작용의 징후를 결정하는 단계를 더 포함하는 것을 특징으로 하는 방법.
- 경로 모델 내의 조절 노드의 조절 파라미터에 대한 서브타입 특이 상호작용의 상관관계를 식별하는 방법에 있어서, 상기 방법은
오믹 입력 인터페이스를 통해 서브타입의 조직을 나타내는 적어도 하나의 오믹 데이터세트를 획득하는 단계;
오믹 처리 모듈을 통해 다수의 경로 인자를 갖는 경로 모델에 액세스하는 단계, 여기서 다수의 조절 파라미터의 함수로서 통로를 따라 활성을 제어하는 조절 노드를 갖는 통로를 통해 상기 다수의 경로 인자 중 적어도 두 개의 인자가 서로 결합되고;
상기 오믹 처리 모듈을 통해, 다수의 조절 파라미터 간의 상호작용의 확률 분석에 의해 서브타입의 조직을 나타내는 상기 적어도 하나의 오믹 데이터세트로부터 서브타입의 상호작용의 상관관계를 유도하는 단계; 및
상기 유도된 서브타입의 상호작용의 상관관계를 상기 경로 모델에 제공하는 단계를 포함하는 것을 특징으로 하는 방법.
- 제 19 항에 있어서,
상기 서브타입의 조직은 약물 내성 조직, 전이 조직, 약물로 치료된 조직, 또는 조직의 클론 변형인 것을 특징으로 하는 방법.
- 제 19 항에 있어서,
체외, 인-실리코(in-silico), 및 체내 실험 중 적어도 하나를 이용하여 상기 유도된 서브타입의 상호작용의 상관관계를 입증하는 단계를 더 포함하는 것을 특징으로 하는 방법.
- 서브타입 특이 조직에 속하는 조직을 나타내는 오믹 데이터세트를 분류하는 방법에 있어서, 상기 방법은
오믹 입력 인터페이스를 통해 상기 조직을 나타내는 상기 오믹 데이터세트를 획득하는 단계;
상기 오믹 데이터세트에 대해, 경로 모델 내의 조절 노드의 다수의 조절 파라미터 간의 일련의 상호작용의 상관관계를 유도하는 단계;
상기 유도된 일련의 상호작용의 상관관계를, 알려진 서브타입 특이 조직과 관련된 선험적으로 알려진 일련의 상호작용의 상관관계에 매칭시키는 단계; 및
상기 조직을 나타내는 오믹 데이터세트가 상기 알려진 서브타입 특이 조직에 속하는지 분류하기 위해 상기 매칭을 이용하는 단계를 포함하는 것을 특징으로 하는 방법.
- 제 22 항에 있어서,
상기 획득 단계는 알려지지 않은 조절 특성을 갖는 조직의 조직 샘플로부터 상기 조직을 나타내는 오믹 데이터세트를 생성하는 단계를 포함하는 것을 특징으로 하는 방법.
- 제 22 항 또는 제 23 항에 있어서,
상기 조직 샘플은 종양 조직 샘플인 것을 특징으로 하는 방법.
- 제 22 항 내지 제 24 항 중 어느 한 항에 있어서,
상기 알려진 서브타입 특이 조직은 약물 내성 조직, 전이 조직, 약물로 치료된 조직, 또는 조직의 클론 변형인 것을 특징으로 하는 방법.
- 다수의 경로 인자를 갖는 경로 모델 내에서 약물 표적(druggable target)을 식별하는 방법에 있어서, 여기서 다수의 조절 파라미터의 함수로서 통로를 따라 활성을 제어하는 조절 노드를 갖는 통로를 통해 상기 다수의 경로 인자 중 적어도 두 개의 인자가 서로 결합되고, 상기 방법은
오믹 입력 인터페이스를 통해 조직을 나타내는 오믹 데이터세트를 획득하는 단계;
상기 오믹 데이터세트에 대해, 경로 모델 내의 조절 노드의 다수의 조절 파라미터 간의 일련의 상호작용의 상관관계를 유도하는 단계; 및
상기 상호작용의 상관관계를 방해하는 것으로 예상되는, 통로의 활성에 영향을 미치는 약물을 식별하는 단계를 포함하는 것을 특징으로 하는 방법.
- 제 26 항에 있어서,
상기 조절 노드는 단백질의 전사, 번역, 및 번역 후 변형 중 적어도 하나에 영향을 미치는 것을 특징으로 하는 방법.
- 제 26 항에 있어서,
상기 약물은 상업적으로 이용 가능한 약물이고 알려진 작용 모드를 갖는 것을 특징으로 하는 방법.
- 다수의 경로 인자를 갖는 경로 모델 내에서 표적 경로를 식별하는 방법에 있어서, 여기서 다수의 조절 파라미터의 함수로서 통로를 따라 활성을 제어하는 조절 노드를 갖는 통로를 통해 상기 다수의 경로 인자 중 적어도 두 개의 인자가 서로 결합되고, 상기 방법은
오믹 입력 인터페이스를 통해 조직을 나타내는 오믹 데이터세트를 획득하는 단계;
상기 오믹 데이터세트에 대해, 경로 모델 내의 조절 노드의 다수의 조절 파라미터 간의 일련의 상호작용의 상관관계를 유도하는 단계; 및
상기 상호작용의 상관관계에 대한 약물의 알려진 효과를 기반으로 상기 표적 경로로서 경로를 식별하는 단계를 포함하는 것을 특징으로 하는 방법.
- 제 29 항에 있어서,
상기 알려진 효과는 키나아제에 대한 억제 효과, 수용체에 대한 억제 효과, 및 전사에 대한 억제 효과 중 적어도 하나인 것을 특징으로 하는 방법.
- 제 29 항에 있어서,
상기 표적 경로는 칼슘/칼모듈린 조절된 경로, 사이토카인 경로, 케모카인 경로, 성장 인자 조절된 경로, 호르몬 조절된 경로, MAP 키나아제 조절된 경로, 포스포타아제 조절된 경로, 또는 Ras 조절된 경로인 것을 특징으로 하는 방법.
- 제 29 항에 있어서,
상기 식별된 경로를 기반으로 치료 조언을 제공하는 단계를 더 포함하는 것을 특징으로 하는 방법.
- 약물의 치료 효과를 인-실리코 시뮬레이션하는 방법에 있어서, 상기 방법은
다수의 경로 인자를 갖는 경로 모델을 획득하는 단계, 여기서 다수의 조절 파라미터의 함수로서 통로를 따라 활성을 제어하는 조절 노드를 갖는 통로를 통해 상기 다수의 경로 인자 중 적어도 두 개의 인자가 서로 결합되고;
적어도 하나의 조절 파라미터에 영향을 미치는 것으로 알려진 약물을 식별하는 단계;
오믹 처리 모듈을 통해 그리고 상기 약물의 알려진 효과를 기반으로, 상기 경로 모델 내의 조절 노드, 활성, 및 조절 파라미터 중 적어도 하나를 인-실리코에서 변경하는 단계;
상기 경로 모델 내에서 변경의 이차 효과를 결정하는 단계를 포함하는 것을 특징으로 하는 방법.
- 제 33 항에 있어서,
상기 이차 효과는 상기 경로 모델 내의 또 다른 경로 노드, 또 다른 활성, 및 또 다른 조절 파라미터 내에 있는 것을 특징으로 하는 방법.
Applications Claiming Priority (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201261711491P | 2012-10-09 | 2012-10-09 | |
US61/711,491 | 2012-10-09 | ||
US201261729958P | 2012-11-26 | 2012-11-26 | |
US61/729,958 | 2012-11-26 | ||
US201361754175P | 2013-01-18 | 2013-01-18 | |
US61/754,175 | 2013-01-18 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020167014062A Division KR102085071B1 (ko) | 2012-10-09 | 2013-10-09 | 생물학적 경로 내의 조절 상호작용의 학습 및 확인을 위한 시스템 및 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20150083997A true KR20150083997A (ko) | 2015-07-21 |
KR101626487B1 KR101626487B1 (ko) | 2016-06-01 |
Family
ID=50477862
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020167014062A KR102085071B1 (ko) | 2012-10-09 | 2013-10-09 | 생물학적 경로 내의 조절 상호작용의 학습 및 확인을 위한 시스템 및 방법 |
KR1020157011205A KR101626487B1 (ko) | 2012-10-09 | 2013-10-09 | 생물학적 경로 내의 조절 상호작용의 학습 및 확인을 위한 시스템 및 방법 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020167014062A KR102085071B1 (ko) | 2012-10-09 | 2013-10-09 | 생물학적 경로 내의 조절 상호작용의 학습 및 확인을 위한 시스템 및 방법 |
Country Status (10)
Country | Link |
---|---|
US (1) | US20150262082A1 (ko) |
EP (2) | EP2907039B1 (ko) |
JP (4) | JP6157628B2 (ko) |
KR (2) | KR102085071B1 (ko) |
CN (2) | CN104838372B (ko) |
AU (2) | AU2013329319B2 (ko) |
CA (1) | CA2888125A1 (ko) |
ES (1) | ES2709053T3 (ko) |
IL (1) | IL238228B (ko) |
WO (1) | WO2014059036A1 (ko) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6216044B2 (ja) | 2013-05-28 | 2017-10-18 | ファイヴ3 ゲノミクス,エルエルシー | Paradigm薬剤反応ネットワーク |
AU2014302070B2 (en) | 2013-06-28 | 2016-09-15 | Nantomics, Llc | Pathway analysis for identification of diagnostic tests |
EP3149641A4 (en) * | 2014-05-30 | 2018-01-24 | Nantomics, LLC | Systems and methods for comprehensive analysis of molecular profiles across multiple tumor and germline exomes |
JP2018507470A (ja) | 2015-01-20 | 2018-03-15 | ナントミクス,エルエルシー | 高悪性度膀胱癌の化学療法に対する奏効を予測するシステムおよび方法 |
CA2989815A1 (en) * | 2015-06-15 | 2016-12-22 | Nantomics, Llc | Systems and methods for patient-specific prediction of drug responses from cell line genomics |
US20180247010A1 (en) * | 2015-08-27 | 2018-08-30 | Koninklijke Philips N.V. | Integrated method and system for identifying functional patient-specific somatic aberations using multi-omic cancer profiles |
AU2017290803A1 (en) | 2016-06-30 | 2019-01-24 | Nant Holdings Ip, Llc | Nant cancer vaccine |
WO2018027076A1 (en) * | 2016-08-03 | 2018-02-08 | Nantomics, Llc | Dasatinib response prediction models and methods therefor |
WO2019112966A2 (en) * | 2017-12-04 | 2019-06-13 | Nantomics, Llc | Subtyping of tnbc and methods |
KR102153161B1 (ko) * | 2017-12-21 | 2020-09-08 | 한국과학기술원 | 확률 그래프 기반의 서열 데이터 연관성 학습 방법 및 시스템 |
US11823773B2 (en) | 2018-04-13 | 2023-11-21 | Nant Holdings Ip, Llc | Nant cancer vaccine strategies |
TW202345890A (zh) | 2018-04-23 | 2023-12-01 | 美商南特細胞公司 | 新抗原表位疫苗及免疫刺激組合物及方法 |
US11564980B2 (en) | 2018-04-23 | 2023-01-31 | Nantcell, Inc. | Tumor treatment method with an individualized peptide vaccine |
CN109448782A (zh) * | 2018-11-13 | 2019-03-08 | 电子科技大学 | 一种在基因工程实验教学中激发学生想象力的游戏方法及系统 |
US11915832B2 (en) | 2018-12-24 | 2024-02-27 | Medirita | Apparatus and method for processing multi-omics data for discovering new drug candidate substance |
KR102336311B1 (ko) * | 2019-11-15 | 2021-12-08 | 한국과학기술원 | 딥러닝을 이용한 암의 예후 예측 모델 |
CN112289389B (zh) * | 2020-11-05 | 2022-08-30 | 中南大学 | 一种影响靶向治疗药物疗效的评估模型 |
WO2022196971A1 (ko) * | 2021-03-18 | 2022-09-22 | 주식회사 온코크로스 | 세포 레벨의 정보로부터 조직 레벨의 정보를 추정하는 방법 및 그 장치 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060293859A1 (en) * | 2005-04-13 | 2006-12-28 | Venture Gain L.L.C. | Analysis of transcriptomic data using similarity based modeling |
US20070130206A1 (en) * | 2005-08-05 | 2007-06-07 | Siemens Corporate Research Inc | System and Method For Integrating Heterogeneous Biomedical Information |
US20100179798A1 (en) * | 2008-12-10 | 2010-07-15 | Strand Life Sciences Pvt Ltd. | Method for Predicting Organ Toxicity and a System Thereof |
US20120041683A1 (en) * | 2010-04-29 | 2012-02-16 | Vaske Charles J | Pathway recognition algorithm using data integration on genomic models (PARADIGM) |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6132969A (en) * | 1998-06-19 | 2000-10-17 | Rosetta Inpharmatics, Inc. | Methods for testing biological network models |
US7003403B1 (en) * | 2000-06-15 | 2006-02-21 | The United States Of America As Represented By The Department Of Health And Human Services | Quantifying gene relatedness via nonlinear prediction of gene |
US20030130798A1 (en) * | 2000-11-14 | 2003-07-10 | The Institute For Systems Biology | Multiparameter integration methods for the analysis of biological networks |
DE10358332A1 (de) * | 2003-12-12 | 2005-07-21 | Siemens Ag | Verfahren, Computerprogramm mit Progammcode-Mitteln und Computerprogramm-Produkt zur Analyse eines regulatorischen genetischen Netzwerks einer Zelle |
US7739053B2 (en) * | 2004-01-15 | 2010-06-15 | New York University | System and process of determining a biological pathway based on a treatment of a biological specimen |
JP2007052766A (ja) * | 2005-07-22 | 2007-03-01 | Mathematical Systems Inc | パスウェイ表示方法、情報処理装置及びパスウェイ表示プログラム |
US20090319450A1 (en) * | 2006-07-14 | 2009-12-24 | Reiji Teramoto | Protein search method and device |
WO2008088860A2 (en) * | 2007-01-18 | 2008-07-24 | University Of Southern California | Polymorphisms in the egfr pathway as markers for cancer treatment |
WO2008157459A2 (en) * | 2007-06-14 | 2008-12-24 | The Regents Of The University Of Michigan | Methods and systems for identifying molecular pathway elements |
EP2653561B1 (en) * | 2007-08-03 | 2016-03-02 | The Ohio State University Research Foundation | Ultraconserved regions encoding ncRNAs |
JP2009057337A (ja) * | 2007-08-31 | 2009-03-19 | Dainippon Sumitomo Pharma Co Ltd | メタボロームデータの解析方法および代謝関与マーカー |
EP2239675A1 (en) * | 2009-04-07 | 2010-10-13 | BIOCRATES Life Sciences AG | Method for in vitro diagnosing a complex disease |
US10192641B2 (en) * | 2010-04-29 | 2019-01-29 | The Regents Of The University Of California | Method of generating a dynamic pathway map |
CN102184346A (zh) * | 2011-05-09 | 2011-09-14 | 天津大学 | 组织特异性相互作用拓扑网络构建与分析方法 |
-
2013
- 2013-10-09 JP JP2015536870A patent/JP6157628B2/ja not_active Expired - Fee Related
- 2013-10-09 KR KR1020167014062A patent/KR102085071B1/ko active IP Right Grant
- 2013-10-09 AU AU2013329319A patent/AU2013329319B2/en not_active Ceased
- 2013-10-09 KR KR1020157011205A patent/KR101626487B1/ko active IP Right Grant
- 2013-10-09 EP EP13846109.0A patent/EP2907039B1/en not_active Not-in-force
- 2013-10-09 CA CA2888125A patent/CA2888125A1/en not_active Withdrawn
- 2013-10-09 CN CN201380064123.5A patent/CN104838372B/zh not_active Expired - Fee Related
- 2013-10-09 CN CN201811144282.7A patent/CN109616210A/zh active Pending
- 2013-10-09 WO PCT/US2013/064160 patent/WO2014059036A1/en active Application Filing
- 2013-10-09 EP EP18205363.7A patent/EP3471103A1/en not_active Withdrawn
- 2013-10-09 ES ES13846109T patent/ES2709053T3/es active Active
- 2013-10-09 US US14/434,745 patent/US20150262082A1/en not_active Abandoned
-
2015
- 2015-04-12 IL IL238228A patent/IL238228B/en unknown
-
2017
- 2017-06-06 JP JP2017111952A patent/JP6374057B2/ja not_active Expired - Fee Related
-
2018
- 2018-07-18 JP JP2018134832A patent/JP6611873B2/ja not_active Expired - Fee Related
-
2019
- 2019-05-24 AU AU2019203658A patent/AU2019203658A1/en not_active Withdrawn
- 2019-10-29 JP JP2019196270A patent/JP2020039343A/ja not_active Abandoned
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060293859A1 (en) * | 2005-04-13 | 2006-12-28 | Venture Gain L.L.C. | Analysis of transcriptomic data using similarity based modeling |
US20070130206A1 (en) * | 2005-08-05 | 2007-06-07 | Siemens Corporate Research Inc | System and Method For Integrating Heterogeneous Biomedical Information |
US20100179798A1 (en) * | 2008-12-10 | 2010-07-15 | Strand Life Sciences Pvt Ltd. | Method for Predicting Organ Toxicity and a System Thereof |
US20120041683A1 (en) * | 2010-04-29 | 2012-02-16 | Vaske Charles J | Pathway recognition algorithm using data integration on genomic models (PARADIGM) |
Also Published As
Publication number | Publication date |
---|---|
JP2017199389A (ja) | 2017-11-02 |
AU2013329319A1 (en) | 2015-04-30 |
ES2709053T3 (es) | 2019-04-15 |
CA2888125A1 (en) | 2014-04-17 |
JP6157628B2 (ja) | 2017-07-05 |
JP6611873B2 (ja) | 2019-11-27 |
KR20160072842A (ko) | 2016-06-23 |
KR102085071B1 (ko) | 2020-03-05 |
JP2018195325A (ja) | 2018-12-06 |
CN104838372B (zh) | 2018-11-02 |
CN109616210A (zh) | 2019-04-12 |
IL238228A0 (en) | 2015-06-30 |
JP2015534697A (ja) | 2015-12-03 |
EP2907039A1 (en) | 2015-08-19 |
JP6374057B2 (ja) | 2018-08-15 |
JP2020039343A (ja) | 2020-03-19 |
AU2019203658A1 (en) | 2019-06-13 |
WO2014059036A1 (en) | 2014-04-17 |
EP2907039B1 (en) | 2018-12-19 |
US20150262082A1 (en) | 2015-09-17 |
IL238228B (en) | 2020-03-31 |
CN104838372A (zh) | 2015-08-12 |
EP2907039A4 (en) | 2016-06-15 |
AU2013329319B2 (en) | 2019-03-14 |
KR101626487B1 (ko) | 2016-06-01 |
EP3471103A1 (en) | 2019-04-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101626487B1 (ko) | 생물학적 경로 내의 조절 상호작용의 학습 및 확인을 위한 시스템 및 방법 | |
McDowell et al. | Clustering gene expression time series data using an infinite Gaussian process mixture model | |
JP6638030B2 (ja) | Paradigm薬剤反応ネットワーク | |
Xie et al. | Penalized mixtures of factor analyzers with application to clustering high-dimensional microarray data | |
Chang et al. | SIGNATURE: a workbench for gene expression signature analysis | |
EP3494504A1 (en) | Dasatinib response prediction models and methods therefor | |
Zhu et al. | MetaDCN: meta-analysis framework for differential co-expression network detection with an application in breast cancer | |
Jiao et al. | DART: Denoising Algorithm based on Relevance network Topology improves molecular pathway activity inference | |
Ni et al. | Bayesian hierarchical varying-sparsity regression models with application to cancer proteogenomics | |
Cai et al. | Bayesian network marker selection via the thresholded graph Laplacian Gaussian prior | |
Rian et al. | Genome-scale mechanistic modeling of signaling pathways made easy: A bioconductor/cytoscape/web server framework for the analysis of omic data | |
Tissier et al. | Improving stability of prediction models based on correlated omics data by using network approaches | |
Tavakkolkhah et al. | Detection of network motifs using three-way ANOVA | |
Denis et al. | Evaluation of hierarchical models for integrative genomic analyses | |
Ding et al. | Comparison of Statistical Tests and Power Analysis for Phosphoproteomics Data | |
Deng et al. | Integrative analysis of multiple types of genomic data using an accelerated failure time frailty model | |
Kontio et al. | Scalable nonparametric prescreening method for searching higher-order genetic interactions underlying quantitative traits | |
Yang et al. | CoDP: cooperative driver pathways discovery with matrix factorization and tri-random walk | |
Zhang et al. | Finding disagreement pathway signatures and constructing an ensemble model for cancer classification | |
Parvandeh | Epistasis Network and Machine Learning Methods for the Analysis of Biological Large Data | |
Tian et al. | GEE‐TGDR: A Longitudinal Feature Selection Algorithm and Its Application to lncRNA Expression Profiles for Psoriasis Patients Treated with Immune Therapies | |
Huang et al. | Network based prediction model for genomics data analysis | |
Kızılaslan et al. | A Weibull Mixture Cure Frailty Model for High-dimensional Covariates | |
Hsu | Copy number and gene expression: Stochastic modeling and therapeutic application |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
A302 | Request for accelerated examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20190516 Year of fee payment: 4 |