KR20220159405A - 치료에 대한 반응자 결정 방법 및 시스템 - Google Patents

치료에 대한 반응자 결정 방법 및 시스템 Download PDF

Info

Publication number
KR20220159405A
KR20220159405A KR1020227036068A KR20227036068A KR20220159405A KR 20220159405 A KR20220159405 A KR 20220159405A KR 1020227036068 A KR1020227036068 A KR 1020227036068A KR 20227036068 A KR20227036068 A KR 20227036068A KR 20220159405 A KR20220159405 A KR 20220159405A
Authority
KR
South Korea
Prior art keywords
gene
genes
data
determining
genetic data
Prior art date
Application number
KR1020227036068A
Other languages
English (en)
Inventor
원 장
징 허
Original Assignee
리제너론 파마슈티칼스 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 리제너론 파마슈티칼스 인코포레이티드 filed Critical 리제너론 파마슈티칼스 인코포레이티드
Publication of KR20220159405A publication Critical patent/KR20220159405A/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • G16B5/20Probabilistic models

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioethics (AREA)
  • Physiology (AREA)
  • Chemical & Material Sciences (AREA)
  • Public Health (AREA)
  • Analytical Chemistry (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • General Factory Administration (AREA)
  • Electrotherapy Devices (AREA)

Abstract

환자를 반응자 또는 비반응자로 분류하기 위한 방법, 시스템 및 장치가 기술된다.

Description

치료에 대한 반응자 결정 방법 및 시스템
관련 출원에 대한 상호 참조
본 출원은 2020년 3월 17일에 출원된 미국 특허 가출원 제62/990,814호의 이익을 주장하며, 그 전체는 참조로서 본원에 통합된다.
머신 러닝(machine learning) 이용이 직면하는 가장 큰 문제 중 하나는, 크고, 어노테이션된(annotated) 데이터세트의 이용가능성이 부족하다는 것이다. 데이터 어노테이션은 비용이 많이 들고 시간 소모적일 뿐만 아니라 전문가 관찰자의 가용성에 매우 의존한다. 제한된 양의 훈련 데이터는, 종종 과대 적합(overfitting)을 피하도록 훈련하기 위한 매우 많은 양의 데이터를 필요로 하는 지도 머신 러닝(supervised machine learning) 알고리즘의 성능을 억제할 수 있다. 지금까지, 이용 가능한 데이터로부터 가능한 한 많은 정보를 추출하는 데 많은 노력을 기울여 왔다. 특히, 크고, 어노테이션된 데이터세트의 부족을 겪는 하나의 분야는 유전자 발현 데이터 같은, 생물학적 데이터(예: 임상 데이터)의 분석이다. 유전자 데이터(예: 유전자 발현 데이터)를 분석하여 치료에 대한 환자 반응을 예측하는 능력은 환자 치료에 매우 중요하다. 그러나, 많은 경우에, 머신 러닝 알고리즘을 훈련하여 환자 반응을 정확하게 예측하기에는 불충분한 데이터가 이용 가능하다.
따라서, 머신 러닝 애플리케이션에 사용하기 위한 관련 유전자 데이터 세트를 결정하고 활용하기 위한 개선된 시스템 및 방법이 필요하다. 따라서, 치료에 대한 환자 반응을 예측하는 것을 포함하여, 예측하기 위한 머신 러닝 애플리케이션을 훈련하기 위한 유전자 데이터 세트를 결정하고 활용하도록 개선된 능력을 갖는 컴퓨터 구현 시스템 및 방법을 제공하는 것이 본 발명의 목적이다.
이하의 일반적인 설명 및 하기의 상세한 설명은 모두 예시적이고 설명하기 위한 것일 뿐이며 제한적이지 않다는 것을 이해해야 한다.
일 실시예에서, 복수의 유전자와 연관된 제1 유전자 데이터를 결정하는 단계, 상기 복수의 유전자와 연관된 제2 유전자 데이터를 결정하는 단계로, 상기 복수의 유전자는 복수의 종양 시료로부터 시퀀싱되고, 상기 복수의 종양 시료 중 각각의 종양 시료는 반응자 또는 비반응자로 표지되는, 단계, 상기 제1 유전자 데이터 및 상기 제2 유전자 데이터에 기반하여, 예측 모델에 대한 복수의 피처부를 결정하는 단계, 상기 제2 유전자 데이터의 제1 부분에 기초하여, 상기 복수의 피처부에 따른 예측 모델을 훈련하는 단계, 상기 제2 유전자 데이터의 제2 부분에 기반하여, 상기 예측 모델을 테스트하는 단계, 및 상기 테스트에 기반하여, 상기 예측 모델을 출력하는 단계를 포함하는 방법이 개시된다.
일 실시예에서, 대상체에 대한 복수의 유전자와 연관된 베이스라인 유전자 데이터를 수신하는 단계로, 상기 복수의 유전자는 대상체의 종양으로부터 시퀀싱되는, 단계, 예측 모델에, 상기 베이스라인 유전자 데이터를 제공하는 단계, 및 상기 예측 모델에 기반하여, 대상체가 치료적 치료의 후보인지를 결정하는 단계를 포함하는 방법이 개시된다.
일 실시예에서, 복수의 유전자와 연관된 베이스라인 유전자 발현 데이터를 결정하는 단계로, 상기 복수의 유전자는 복수의 종양 시료와 연관되고, 상기 복수의 종양 시료 중 각각의 종양 시료는 반응자 또는 비반응자로 표지되는, 단계, 상기 복수의 유전자에 기반하여, 전사 조절자 유전자 데이터를 결정하는 단계, 상기 전사 조절자 유전자 데이터 및 상기 복수의 유전자에 기반하여, 전사 조절자(TR) 네트워크를 생성하는 단계, 상기 TR 네트워크 및 상기 베이스라인 유전자 발현 데이터에 기반하여, 전사 조절자 유전자 세트의 각각의 전사 조절자 유전자와 연관된 농축도 점수를 결정하는 단계, 및 상기 농축도 점수에 기반하여, 상기 전사 조절자 유전자 세트의 하나 이상의 예측 전사 조절자 유전자를 결정하는 단계를 포함하는 방법이 개시된다.
추가적인 이점은 하기와 같이 본 명세서에 부분적으로 제시되거나 실시를 통해 알 수 있을 것이다. 이점은 첨부된 청구범위에 특별히 언급된 요소 및 조합에 의해 실현되고 달성될 것이다.
본 명세서에 통합되고 본 명세서의 일부를 구성하는 첨부 도면은 본원에 설명되는 방법 및 시스템의 원리를 설명하는 역할을 하며, 첨부 도면 중:
도 1은 예시적인 방법을 도시하고;
도 2는 예시적인 머신 러닝 시스템을 도시하고;
도 3은 예시적인 머신 러닝 방법을 도시하고;
도 4는 베이스라인 및 치료-중 유전자 발현 데이터를 획득하기 위한 예시적인 타임라인을 도시하고;
도 5는 정규화된 면역 마커 유전자 발현을 도시하고;
도 6a는 모든 환자(반응자 및 비반응자)에 대한 베이스라인 유전자 발현 데이터와 치료-중 유전자 발현을 비교함으로써 결정된 차등 발현된 유전자를 도시하고;
도 6b는 오직 쌍을 이룬 반응자에 대한 베이스라인 유전자 발현 데이터와 치료-중 유전자 발현을 비교하여 결정된 차등 발현된 유전자를 도시하고;
도 6c는 오직 쌍을 이룬 비반응자에 대한 베이스라인 유전자 발현 데이터와 치료-중 유전자 발현을 비교하여 결정된 차등 발현된 유전자를 도시하고;
도 7은 우측의 히트맵이 오직 반응자 쌍으로부터 중첩된 차등 발현된 유전자 중 상위 50개의 차등 발현된 유전자를 보여줌을 도시하고;
도 8은 베이스라인 반응자와 베이스라인 비반응자 사이의 차등 발현된 유전자를 도시하고;
도 9는 엄선된 질환 불문 유전자(disease agnostic gene) 세트 데이터를 도시하고;
도 10은 엄선된 질환 불문 유전자 세트 데이터만을 사용하여 식별된 예측 유전자를 도시하고;
도 11은 예시적인 상위 성능 유전자 시그니처를 도시하고;
도 12는 예시적인 상위 성능 유전자 시그니처의 성능을 도시하고;
도 13은 예측 전사 조절자 유전자를 식별하기 위한 예시적인 시스템 생물학 방법에 대한 예시적인 방법을 도시하고;
도 14는 시스템 생물학 방법으로부터 식별된 예시적인 예측 전사 조절자 유전자 데이터를 도시하고;
도 15는 예시적인 연산 장치의 블록도를 도시하고;
도 16은 예시적인 방법을 도시하고;
도 17은 예시적인 방법을 도시하고; 그리고
도 18은 예시적인 방법을 도시한다.
본 명세서 및 첨부된 청구범위에서 사용된 바와 같이, 단수 형태("a", "an" 및 "the")는 문맥상 달리 언급하지 않는 한 복수의 지시 대상을 포함한다. 범위는 "약" 하나의 특정 값, 및/또는 "약" 또 다른 특정 값까지로서 본원에서 표현될 수 있다. 이러한 범위가 표현될 때, 또 다른 구성은 하나의 특정 값에서 및/또는 다른 하나의 특정 값까지를 포함한다. 유사하게, 값이 근사값으로 표현될 때, 선행하는 "약"의 사용에 의해, 특정 값은 다른 구성을 형성하는 것으로 이해될 것이다. 범위 각각의 종점들(endpoints)은 타 종점과 관련하여 유의할 뿐 아니라 타 종점과 독립적으로 유의하다는 것이 추가로 이해될 것이다.
"선택적" 또는 "선택적으로"는, 후속으로 기재된 사건 또는 상황이 발생하거나 발생하지 않을 수 있고, 그 기재가 상기 사건 또는 상황이 발생하는 경우 및 발생하지 않는 경우를 포함함을 의미한다.
본 명세서의 상세한 설명 및 청구범위 전체에 걸쳐, "포함하다"라는 단어 및 "포함하는" 및 "포함하고"와 같은 이의 변화형은 "포함하지만 이에 한정되지 않는"을 의미하며, 예를 들어, 다른 구성요소, 정수 또는 단계를 배제하고자 하는 것은 아니다. "예시적인"은 "~의 일례"를 의미하며, 바람직한 또는 이상적인 구성의 표시를 나타내고자 하는 것은 아니다. "~와 같은"은 제한적인 의미로 사용되지 않고 설명을 목적으로 사용된다.
구성요소의 조합, 서브세트, 상호작용, 군 등이 기재될 때, 각각의 다양한 개별적 및 집합적 조합과 순열에 대한 구체적인 언급이 명시적으로 열거되지 않을 수도 있지만, 각각이 본원에 구체적으로 고려되고 기술되어 있는 것으로 이해한다. 이는 기재된 방법의 단계를 포함하지만 이에 한정되지 않는 본 출원의 모든 부분에 적용된다. 따라서, 수행될 수 있는 다양한 추가의 단계들이 존재하는 경우, 이들 추가의 단계 각각은 임의의 특정 구성 또는 구성들의 조합으로 수행될 수 있는 것으로 이해된다.
당업자에 의해 이해되는 바와 같이, 하드웨어, 소프트웨어, 또는 소프트웨어와 하드웨어의 조합이 구현될 수 있다. 또한, 저장 매체에 구현된 프로세서 실행 가능 명령어(예를 들어, 컴퓨터 소프트웨어)를 갖는 컴퓨터 판독 가능 저장 매체(예를 들어, 비일시적) 상의 컴퓨터 프로그램 제품. 하드 디스크, CD-ROM, 광학 저장 장치, 자기 저장 장치, 멤레지스터, 비휘발성 랜덤 액세스 메모리(NVRAM), 플래시 메모리, 또는 이들의 조합을 포함하는, 임의의 적절한 컴퓨터 판독 가능 저장 매체가 사용될 수 있다.
본 출원 전반에 걸쳐, 블록도 및 흐름도에 대한 참조가 이루어진다. 블록도 및 흐름도 예시의 각각의 블록, 및 블록도 및 흐름도의 블록들의 조합은 각각 프로세서 실행 가능 명령어에 의해 구현될 수 있는 것으로 이해될 것이다. 이들 프로세서 실행 가능 명령어는 범용 컴퓨터, 특수 목적 컴퓨터, 또는 다른 프로그래밍가능한 데이터 처리 장치 상에 로딩되어 머신(machine)을 생성할 수 있으며, 이에 따라 컴퓨터 또는 다른 프로그래밍가능한 데이터 처리 장치에서 실행되는 프로세서 실행 가능 명령어는 흐름도 블록 또는 블록들에 명시된 기능을 구현하기 위한 디바이스를 생성한다.
컴퓨터 또는 다른 프로그래밍가능한 데이터 처리 장치가 특정 방식으로 기능하도록 지시할 수 있는 이들 프로세서 실행 가능 명령어는 또한 컴퓨터 판독가능 메모리에 저장될 수 있으며, 이에 따라 컴퓨터 판독가능 메모리에 저장된 프로세서 실행 가능 명령어는 흐름도 블록 또는 블록들에 명시된 기능을 구현하기 위한 프로세서 실행 가능 명령어를 포함하는 제조 용품을 생성한다. 프로세서 실행 가능 명령어는 또한 컴퓨터 또는 다른 프로그래밍가능한 데이터 처리 장치 상에 로딩되어 일련의 작동 단계가 컴퓨터 또는 다른 프로그래밍가능한 장치 상에서 수행되게 하여 컴퓨터 구현 프로세스를 생성할 수 있으며, 이에 따라 컴퓨터 또는 다른 프로그래밍가능한 장치 상에서 실행되는 프로세서 실행 가능 명령어는 흐름도 블록 또는 블록들에 명시된 기능을 구현하기 위한 단계를 제공할 수 있다.
블록도 및 흐름도의 블록은 명시된 기능을 수행하기 위한 디바이스들의 조합, 명시된 기능을 수행하기 위한 단계들의 조합 및 명시된 기능을 수행하기 위한 프로그램 명령어 수단을 지원한다. 블록도 및 흐름도의 각각의 블록, 및 블록도 및 흐름도의 블록들의 조합은 명시된 기능 또는 단계를 수행하는 특수 목적 하드웨어 기반 컴퓨터 시스템, 또는 특수 목적 하드웨어와 컴퓨터 명령어의 조합에 의해 구현될 수 있는 것으로 또한 이해될 것이다.
질병에 대한 약물의 치료 반응 예측을 위한 머신 러닝 분류자를 생성하기 위한 방법 및 시스템이 기술된다. 머신 러닝(ML)은 명시적으로 프로그래밍되어 있지 않고 학습할 수 있는 능력을 컴퓨터에게 부여하는 컴퓨터 과학의 하위 분야이다. 머신 러닝 플랫폼은, 나이브 베이즈 분류자(naive Bayes classifier), 지지 벡터 머신, 의사결정 트리, 신경망 등을 포함하지만, 이에 한정되지 않는다. 일 실시예에서, 베이스라인(치료-전) 유전자 발현 데이터는 치료 전의 복수의 환자에 대해 수득될 수 있고, 치료-중 유전자 발현 데이터는 치료 중인 복수의 환자에 대해 수득될 수 있다. 치료에 반응하고 치료에 반응하지 않은 환자를 정할 수도 있다. 일 실시예에서, 베이스라인 유전자 발현 데이터 및/또는 치료-중 유전자 발현 데이터를 분석하여 하나 이상의 예측 유전자를 결정할 수도 있다. 하나 이상의 예측 유전자는 환자가 약물에 대한 반응자 또는 비반응자일 가능성을 예측할 수 있다. 일 실시예에서, 베이스라인 유전자 발현 데이터, 치료-중 유전자 발현 데이터, 및/또는 하나 이상의 다른 연구로부터의 엄선된 유전자 세트 농축도 데이터를 분석하여 하나 이상의 예측 유전자를 결정할 수도 있다. 일 실시예에서, 하나 이상의 대사 경로와 연관된 유전자 발현을 분석하여 하나 이상의 예측 유전자를 결정할 수도 있다.
일 실시예에서, (도 1에 도시됨) 예측 모델을 생성하는 방법(100)이 개시되며, 상기 방법은 110에서 복수의 유전자와 연관된 제1 유전자 데이터를 결정하는 단계, 120에서 복수의 유전자와 연관된 제2 유전자 데이터를 결정하는 단계, 상기 제1 유전자 데이터 및 상기 제2 유전자 데이터에 기반하여, 130에서 예측 모델에 대한 복수의 피처부를 결정하는 단계, 및 상기 복수의 피처부에 기반하여, 140에서 예측 모델을 생성하는 단계를 포함한다.
제1 유전자 데이터는 복수의 유전자 목록, 유전자 목록과 연관된 서열 데이터, 농축도 데이터 및/또는 기타 등등 중 하나 이상을 포함할 수 있다. 제1 유전자 데이터 내의 복수의 유전자는 제1 복수의 종양 시료와 연관될 수 있다. 제1 복수의 종양 시료의 각각의 종양 시료는 치료에 대한 반응자 또는 비반응자로서 표지될 수 있다.
제1 유전자 데이터는, 엄선된 질환 불문 유전자 세트 데이터가 후술하는 바와 같은 제2 유전자 데이터와 동일한 치료와 연관될 수 있지만, 동일하거나 상이한 질환과 연관될 수 있기 때문에, 엄선된 질환 불문 유전자 세트 데이터로서 지칭될 수 있다. 일 실시예에서, 엄선된 질환 불문 유전자 세트 데이터는 후술하는 제2 유전자 데이터와 동일한 치료 또는 동일한 질환과 연관되지 않을 수 있지만, 면역 세포 유형/기능 유전자 세트, 종양 미세환경 구성요소 및 신호전달 유전자 세트, 또는 암 세포 증식 및 DNA 복구 유전자 세트와 같은, 유전자 세트의 하나 이상의 카테고리와 연관될 수 있다. 엄선된 질환 불문 유전자 세트 데이터는 제2 유전자 데이터와 공통적으로 적어도 하나의 유전자를 함유할 수 있다.
110에서 제1 유전자 데이터를 결정하는 단계는, 최근 공개문헌 및/또는 공개적으로 이용 가능한 데이터베이스를 포함하는, 다양한 소스로부터 획득될 수 있는 엄선된 질환 불문 유전자 세트 데이터를 다운로드/획득/수신하는 단계를 포함할 수 있다. 엄선된 질환 불문 유전자 세트 데이터는 상이한 병태(예: 흑색종, 유방암, 폐암, 난소암 등)와 연관된 다수의 유전자 데이터 세트를 포함할 수 있고, 다양한 데이터 유형 및/또는 플랫폼(예: 벌크 RNA-seq, 단일 세포 RNA-seq, NanoString 등)으로부터 생성될 수 있다. 본원에 기술된 방법은 예측자 유전자의 식별을 개선하기 위해 엄선된 질환 불문 유전자 세트 데이터를 이용할 수 있다.
제2 유전자 데이터는 복수의 유전자 목록, 유전자 목록과 연관된 서열 데이터, 농축도 데이터 및/또는 기타 등등 중 하나 이상을 포함할 수 있다. 제2 유전자 데이터 내의 복수의 유전자는 제2 복수의 종양 시료로부터 시퀀싱될 수 있다. 제2 복수의 종양 시료의 각각의 종양 시료는 반응자 또는 비반응자로 표지될 수 있다. 120에서 복수의 유전자와 연관된 제2 유전자 데이터를 결정하는 단계는 제2 복수의 종양 시료와 연관된 각각의 종양에 대한 베이스라인(치료-전) 유전자 발현 수준을 결정하는 단계를 포함할 수 있다. 각각의 종양은 치료제, 및 치료-후로 치료될 수 있고, 어느 종양이 치료제에 대한 반응자 또는 비반응자인지 결정될 수 있다. 그런 다음, 각각의 종양에 대한 베이스라인 (치료-전) 유전자 발현 수준을 반응자 또는 비반응자로 표지하고 제2 유전자 데이터로서 저장할 수 있다. 일 실시예에서, 베이스라인 유전자 발현 데이터 및 치료-중 유전자 발현 데이터는 RNA-Seq 데이터, TCR-seq 데이터, DNA-seq 데이터, 및/또는 이미징 데이터 중 하나 이상을 포함할 수 있다. RNA-Seq 데이터는 생물학적 시료에서 RNA의 존재 및 양을 나타낼 수 있다. TCR-seq 데이터는 생물학적 시료에서 T 세포 수용체의 존재 및 양을 나타낼 수 있다. DNA-seq 데이터는 생물학적 시료에서 DNA 및/또는 돌연변이의 존재 및 양을 나타낼 수 있다.
제1 유전자 데이터 및 제2 유전자 데이터에 기반하여, 130에서 예측 모델에 대한 복수의 피처부를 결정하고, 복수의 피처부에 기반하여, 140에서 예측 모델을 생성하는 것은 도 2 도 3과 관련하여 기재되어 있된다.
일 실시예에서, 예측 모델(예: 머신 러닝 분류자)은 환자의 베이스라인 유전자 발현 데이터를 분석하는 것에 기반하여 환자를 반응자 또는 비반응자로 분류하기 위해 생성될 수 있다. 예측 모델은 제1 유전자 데이터(예를 들어, 엄선된 질환 불문 유전자 세트 데이터) 및 제2 유전자 데이터(예를 들어, 베이스라인 유전자 발현 데이터 및/또는 치료-중 유전자 발현 데이터)에 따라 훈련될 수 있다. 베이스라인 유전자 발현 데이터 및 치료-중 유전자 발현 데이터는 약물/치료로 치료한 동일한 환자 코호트가 관여하는 단일 연구에 관한 것일 수 있다. 엄선된 질환 불문 유전자 세트 데이터는 베이스라인 유전자 발현 데이터와 공통적으로 적어도 하나의 유전자를 함유할 수 있고, 동일하거나 상이한 약물/치료로 치료되고 동일하거나 상이한 질환을 갖는 상이한 환자 코호트(들)가 관여하는 하나 이상의 상이한 연구에 관한 것일 수 있다. 일 실시예에서, 베이스라인 유전자 발현 데이터, 치료-중 유전자 발현 데이터, 및/또는 엄선된 질환 불문 유전자 세트 데이터 중 하나 이상으로부터 예측 모델의 하나 이상의 피처부가 추출될 수 있다. 일 실시예에서, 베이스라인 유전자 발현 데이터의 일부 및/또는 엄선된 질환 불문 유전자 세트 데이터의 일부 중 하나 이상의 조합으로부터 예측 모델의 하나 이상의 피처부가 추출될 수 있다.
도 2에 도시된 바와 같이, 머신 러닝 기술을 사용하여, 훈련 모듈(220)에 의한 하나 이상의 훈련 데이터 세트(210A-210B)의 분석에 기반하여, 베이스라인 유전자 발현 데이터를 반응자 또는 비반응자와 연관되는 것으로 분류하도록 구성되는 적어도 하나의 머신 러닝 기반 분류자(230)를 훈련하도록 구성된 시스템(200)이 본원에 기술된다. 일 실시예에서, 훈련 데이터 세트(210A)(예를 들어, 제1 유전자 데이터)는 하나 이상의 연구(예를 들어, 유전자의 하나 이상의 목록)로부터 엄선된 질환 불문 유전자 세트 데이터를 포함할 수 있다. 일 실시예에서, 훈련 데이터 세트(210A)는 엄선된 질환 불문 유전자 세트 데이터만 포함하거나 엄선된 질환 불문 유전자 세트 데이터의 일부만 포함할 수 있다. 일 실시예에서, 훈련 데이터 세트(210B)(예를 들어, 제2 유전자 데이터) 표지된 베이스라인 유전자 발현 데이터를 포함할 수 있다. 일 실시예에서, 훈련 데이터 세트(210B)는 표지된 베이스라인 유전자 발현 데이터만 포함하거나 표지된 베이스라인 유전자 발현 데이터의 일부만 포함할 수 있다. 표지는 반응자 및 비반응자를 포함할 수 있다.
각 환자에 대한 제2 유전자 데이터가 훈련 데이터 세트(210B) 또는 테스트 데이터 세트에 무작위로 할당될 수 있다. 일부 실시예에서, 훈련 데이터 세트 또는 테스트 데이터 세트에 대한 데이터의 할당은 완전히 무작위적이지 않을 수도 있다. 이 경우에, 배정 동안, 상이한 반응자/비반응자 상태를 갖는 유사한 수의 환자가 각각의 훈련 및 테스트 데이터 세트에 있도록 보장하는 것과 같은, 하나 이상의 기준이 사용될 수 있다. 일반적으로, 반응자/비반응자 상태의 분포가 훈련 데이터 세트 및 테스트 데이터 세트에서 다소 유사하도록 보장하면서, 데이터를 훈련 또는 테스트 데이터 세트에 할당하기 위해 임의의 적절한 방법이 사용될 수 있다. 일 실시예에서, 표지된 베이스라인 유전자 발현 데이터의 75%는 훈련 데이터 세트(210B)에 할당될 수 있고, 표지된 베이스라인 유전자 발현 데이터의 25%는 테스트 데이터 세트에 할당될 수 있다.
일 실시예에서, 훈련 모듈(220)은 하나 이상의 피처부 선택 기술에 따라 훈련 데이터 세트(210A)에서 제1 유전자 데이터(예를 들어, 엄선된 질환 불문 유전자 세트 데이터)로부터 피처부 세트를 추출함으로써 머신 러닝 기반 분류자(230)를 훈련할 수 있다. 일 실시예에서, 훈련 모듈(220)은, 양성 예(예: 반응자)의 통계적으로 유의한 피처부 및 음성 예(예: 비반응자)의 통계적으로 유의한 피처부를 포함하는 훈련 데이터 세트(210B)에서 제2 유전자 데이터(예: 표지된 베이스라인 유전자 발현 데이터)에 하나 이상의 피처부 선택 기술을 적용하여 훈련 데이터 세트(210A)로부터 수득된 피처부 세트를 추가로 정의할 수 있다.
일 실시예에서, 훈련 모듈(220)은 다양한 방식으로 훈련 데이터 세트(210A) 및/또는 훈련 데이터 세트(210B)로부터 피처부 세트를 추출할 수 있다. 훈련 모듈(220)은 매번 상이한 피처부-추출 기술을 사용하여, 여러 번 피처부 추출을 수행할 수 있다. 일 실시예에서, 상이한 기술을 사용하여 생성된 피처부 세트는 각각 상이한 머신 러닝 기반 분류 모델(240)을 생성하는 데 사용될 수 있다. 일 실시예에서, 최고 품질 메트릭을 갖는 피처부 세트가 훈련에 사용하기 위해 선택될 수 있다. 훈련 모듈(220)은, 새로운 데이터가 반응자 또는 비반응자와 연관되는지 여부를 표시하도록 구성된 하나 이상의 머신 러닝 기반 분류 모델(240A-240N)을 구축하기 위해 피처부 세트(들)를 사용할 수 있다.
일 실시예에서, 훈련 데이터 세트(210B)를 분석하여, 훈련 데이터 세트(210B)에서 환자의 반응자/비반응자 상태와 측정된 유전자 발현 수준 사이의 임의의 의존성, 연관성, 및/또는 상관관계를 결정할 수 있다. 확인된 상관관계는 상이한 반응자/비반응자 상태와 연관된 시료에 대해 차등 발현되는 유전자 목록의 형태를 가질 수 있다. 일 실시예에서, 훈련 데이터 세트(210A)를 분석하여 훈련 데이터 세트(210B)와 공통적으로 적어도 하나의 유전자를 갖는 유전자의 하나 이상의 목록을 결정할 수 있다. 유전자는 머신 러닝 맥락에서 피처부(또는 변수)로서 간주될 수 있다. 본원에서 사용되는 바와 같이, 용어 "피처부"는 데이터 아이템이 하나 이상의 구체적인 카테고리에 속하는지 여부를 결정하는 데 사용될 수 있는 데이터 아이템의 임의의 특징을 지칭할 수 있다. 예로서, 본원에 기술된 피처부는 하나 이상의 유전자를 포함할 수 있다.
일 실시예에서, 피처부 선택 기술은 하나 이상의 피처부 선택 규칙을 포함할 수 있다. 하나 이상의 피처부 선택 규칙은 유전자 발생 규칙을 포함할 수 있다. 유전자 발생 규칙은, 훈련 데이터 세트(210A)에서 어느 유전자가 임계 횟수에 걸쳐 발생하는지 결정하고, 임계값을 만족시키는 유전자를 후보 피처부로서 식별하는 것을 포함할 수 있다. 예를 들어, 훈련 데이터 세트(210A)에서 2회 이상 나타나는 임의의 유전자는 후보 피처부로서 간주될 수 있다. 2회 미만으로 나타나는 임의의 유전자는 피처부로서 고려에서 제외될 수 있다.
일 실시예에서, 하나 이상의 피처부 선택 규칙은 발현 수준 규칙을 포함할 수 있다. 발현 수준 규칙은, 훈련 데이터 세트(210B)의 베이스라인 유전자 발현 데이터 중 어느 유전자가 발현 임계값을 초과하는 발현 수준을 갖는지 결정하고, 임계값을 만족시키는 유전자를 후보 피처부로서 식별하는 것을 포함할 수 있다. 예를 들어, 2 TPM(Transcripts Per Million) 이상인 발현 수준을 갖는 임의의 유전자가 후보 피처부로서 간주될 수 있다. 2 TPM 미만의 발현 수준을 갖는 임의의 유전자는 피처부로서 고려로부터 배제될 수 있다.
일 실시예에서, 하나 이상의 피처부 선택 규칙은 유의성 규칙을 포함할 수 있다. 유의성 규칙은 훈련 데이터 세트(210B)의 베이스라인 유전자 발현 데이터로부터, 반응자 유전자 발현 데이터 및 비반응자 유전자 발현 데이터를 결정하는 것을 포함할 수 있다. 훈련 데이터 세트(210B)의 베이스라인 유전자 발현 데이터가 반응자 또는 비반응자로서 표지됨에 따라, 표지는 반응자 유전자 발현 데이터 및 비반응자 유전자 발현 데이터를 결정하는 데 사용될 수 있다. 반응자 유전자 발현 데이터에서 유전자의 유전자 발현 수준을 비반응자 유전자 발현 데이터에서 동일한 유전자의 유전자 발현 수준과 비교할 수 있다. 통계적으로 유의한(예를 들어, p-값) 차등 발현을 갖는 유전자가 비교에 기반하여 결정될 수 있다. 예를 들어, 임계값 미만의 p-값을 갖는 차등 발현을 갖는 유전자는 후보 피처부로서 선택될 수 있다. 임계값은, 예를 들어 0.1일 수 있다. 임계값 이상의 p-값을 갖는 차등 발현을 갖는 유전자는 피처부로서 고려에서 제외될 수 있다.
일 실시예에서, 하나 이상의 피처부 선택 규칙은 종양 돌연변이 부담(TMB) 규칙을 포함할 수 있다. TMB 규칙은 훈련 데이터 세트(210A) 및/또는 훈련 데이터 세트(210B)에 함유된 각각의 유전자에 대한 TMB 값을 결정하는 것을 포함할 수 있다. TMB의 값은 피처부로서 사용될 수 있다.
일 실시예에서, 단일 피처부 선택 규칙이 선택 피처부에 적용될 수 있거나, 다수의 피처부 선택 규칙이 선택 피처부에 적용될 수 있다. 일 실시예에서, 피처부 선택 규칙은 캐스케이딩 방식으로 적용될 수 있고, 피처부 선택 규칙은 특정 순서로 적용되고 이전 규칙의 결과에 적용될 수 있다. 예를 들어, 유전자 발생 규칙은 훈련 데이터 세트(210A)에 적용되어 유전자의 제1 목록을 생성할 수 있다. 발현 수준 규칙은 제1 유전자 목록에 적용되어, 훈련 데이터 세트(210B)에서의 발현 수준 규칙을 충족하는 유전자를 결정하고, 제2 유전자 목록을 생성할 수 있다. 유의성 규칙은 제2 유전자 목록의 유전자에 적용되어, 제2 유전자 목록 중 어느 유전자가 훈련 데이터 세트(210B)에서 유의성 규칙을 충족하는지 결정하고 최종 후보 유전자(특징) 목록을 생성할 수 있다.
최종 후보 유전자 목록은 하나 이상의 후보 유전자 시그니처(예를 들어, 환자가 반응자인지 비반응자인지를 예측하는 데 사용될 수 있는 유전자 군)를 결정하기 위한 추가적인 피처부 선택 기술에 따라 분석될 수 있다. 임의의 적절한 연산 기술은 필터, 래퍼 및/또는 임베디드 방법과 같은 임의의 피처부 선택 기술을 사용하여 후보 유전자 시그니처를 식별하는 데 사용될 수 있다. 일 실시예에서, 하나 이상의 후보 유전자 시그니처는 필터 방법에 따라 선택될 수 있다. 필터 방법은, 예를 들어, 피어슨(Pearson) 상관관계, 선형 구별 분석, 분산 분석(ANOVA), 카이 제곱, 이들의 조합 등을 포함한다. 필터 방법에 따른 피처부의 선택은 임의의 머신 러닝 알고리즘과는 무관하다. 대신에, 피처부는 결과 변수(예를 들어, 반응자/비반응자)와의 상관관계에 대한 다양한 통계 테스트에서의 점수에 기반하여 선택될 수 있다.
일 실시예에서, 하나 이상의 후보 유전자 시그니처는 래퍼 방법에 따라 선택될 수 있다. 래퍼 방법은 피처부의 서브세트를 사용하고 피처부의 서브세트를 사용하여 머신 러닝 모델을 훈련하도록 구성될 수 있다. 이전 모델에서 도출된 추론에 기초하여, 서브세트로부터 피처부를 추가 및/또는 삭제할 수 있다. 래퍼 방법은, 예를 들어, 정방향 피처부 선택, 역방향 피처부 제거, 재귀적 피처부 제거, 이들의 조합 등을 포함한다. 일 실시예에서, 정방향 피처부 선택은 하나 이상의 후보 유전자 시그니처를 식별하는 데 사용될 수 있다. 정방향 피처부 선택은 머신 러닝 모델에서 피처부 없이 시작하는 반복적 방법이다. 각각의 반복에서, 새로운 변수의 추가가 머신 러닝 모델의 성능을 개선하지 않을 때까지 모델을 가장 잘 개선하는 피처부가 추가된다. 일 실시예에서, 역방향 제거는 하나 이상의 후보 유전자 시그니처를 식별하는 데 사용될 수 있다. 역방향 제거는 머신 러닝 모델의 모든 피처부로 시작하는 반복적 방법이다. 각각의 반복에서, 피처부의 제거에 대한 개선이 관찰되지 않을 때까지 최소한의 유의한 피처부가 제거된다. 일 실시예에서, 반복적 피처부 제거는 하나 이상의 후보 유전자 시그니처를 식별하는 데 사용될 수 있다. 재귀적 피처부 제거는 최상의 성능의 피처부 서브세트를 찾는 것을 목표로 하는 탐욕 최적화 알고리즘(greedy optimization algorithm)이다. 반복적 피처부 제거는 반복적으로 모델을 생성하고, 각 반복 시 최상의 또는 최악의 성능 피처부를 따로 둔다. 재귀적 피처부 제거는 모든 피처부가 소진될 때까지 피처부가 남아있는 다음 모델을 구성한다. 그 다음, 재귀적 피처부 제거는 그 제거의 순서를 기준으로 피처부의 순위를 매긴다.
일 실시예에서, 하나 이상의 후보 유전자 시그니처는 임베디드 방법에 따라 선택될 수 있다. 임베디드 방법은 필터 및 래퍼 방법의 품질을 결합한다. 임베디드 방법에는, 예를 들어, 최소 절대치 수렴과 선택 연산자(LASSO, Least Absolute Shrinkage and Selection Operator) 및 릿지 회귀가 포함되며, 이는 오버피팅을 감소시키기 위한 페널화 기능을 구현한다. 예를 들어, LASSO 회귀는 계수 크기의 절대값에 해당하는 페널티를 추가하는 L1 정규화를 수행하고, 릿지 회귀는 계수 크기의 제곱에 해당하는 페널티를 추가하는 L2 정규화를 수행한다.
훈련 모듈(220)이 피처부 세트(들)를 생성한 후, 훈련 모듈(220)은 피처부 세트(들)에 기초하여 머신 러닝 기반 분류 모델(240)을 생성할 수 있다. 머신 러닝 기반 분류 모델은 머신 러닝 기술을 사용하여 생성되는 데이터 분류를 위한 복잡한 수학적 모델을 지칭할 수 있다. 일 실시예에서, 이러한 머신 러닝 기반 분류자는 경계 피처부를 나타내는 지지 벡터의 맵을 포함할 수 있다. 예로서, 경계 피처부는 피처부 세트로부터 선택될 수 있고/있거나, 피처부 세트에서 최고 순위의 피처부를 나타낼 수 있다.
일 실시예에서, 훈련 모듈(220)은 훈련 데이터 세트(210A) 및/또는 훈련 데이터 세트(210B)로부터 추출된 피처부 세트를 사용하여 각 분류 카테고리(예를 들어, 반응자, 비반응자)에 대한 머신 러닝 기반 분류 모델(240A-240N)을 구축할 수 있다. 일부 예에서, 머신 러닝 기반 분류 모델((240A-240N)은 단일 머신 러닝 기반 분류 모델(240)로 조합될 수 있다. 유사하게, 머신 러닝 기반 분류자(230)는 단일 또는 복수의 머신 러닝 기반 분류 모델(240)을 함유하는 단일 분류자 및/또는 단일 또는 복수의 머신 러닝 기반 분류 모델(240)을 함유하는 다수의 분류자를 나타낼 수 있다.
추출된 피처부(예를 들어, 하나 이상의 후보 유전자 및/또는 후보 유전자의 최종 목록으로부터 유래된 후보 유전자 시그니처)는 머신 러닝 접근법, 예컨대 판별 분석; 결정 트리; 최근접 이웃(NN) 알고리즘(예: k-NN 모델, 복제자 NN 모델, 등); 통계 알고리즘(예: 베이즈 네트워크(Bayesian network), 등); 클러스터링 알고리즘(예: k-평균, 평균-시프트, 등); 신경망(예를 들어, 저수지 네트워크, 인공 신경망, 등); 지지 벡터 머신(SVM); 로지스틱 회귀 알고리즘; 선형 회귀 알고리즘; 마르코프(Markov) 모델 또는 사슬; 주 성분 분석(PCA, principal component analysis) (예: 선형 모델의 경우); 다층 퍼셉트론(MLP, multi-layer perceptron) ANN(예: 비선형 모델의 경우); 복제 저수지 네트워크 (예: 비선형 모델의 경우, 일반적으로 시계열용); 랜덤 포레스트 분류; 이들의 조합 및/또는 기타 등등을 사용하여 훈련된 분류 모델에 결합될 수 있다. 결과적인 머신 러닝 기반 분류자(230)는 환자를 부류(반응자/비반응자)에 할당하기 위해 후보 유전자 시그니처에서 유전자의 발현 수준을 사용하는 결정 규칙 또는 맵핑을 포함할 수 있다.
후보 유전자 시그니처 및 머신 러닝 기반 분류자(230)를 사용하여 테스트 데이터 세트에서 테스트 시료의 반응자/비반응자 상태를 예측할 수 있다. 일 실시예에서, 각각의 테스트 시료에 대한 결과는, 상응하는 시험 시료가 예측된 반응자/비반응자 상태에 속할 가능성 또는 확률에 대응하는 신뢰 수준을 포함한다. 신뢰 수준은 0과 1 사이의 값일 수 있으며, 이는 대응하는 시험 시료가 반응자/비반응자 상태에 속할 가능성을 나타낸다. 일 실시예에서, 2개의 상태(예를 들어, 반응자 및 비반응자)가 있을 때, 신뢰 수준은 값 p에 대응할 수 있으며, 이는 특정 시험 시료가 첫번째 상태에 속할 가능성을 지칭한다. 이 경우, 값 1-p는 특정 시험 시료가 두번째 상태에 속할 가능성을 지칭할 수 있다. 일반적으로, 다수의 신뢰 수준이 각각의 테스트 시료 및 2개 초과의 상태가 있을 때의 각각의 후보 유전자 시그니처에 대해 제공될 수 있다. 각각의 시험 시료에 대해 수득된 결과를 각각의 시험 시료에 대해 알려진 반응자/비반응자 상태와 비교함으로써 상위 성능 후보 유전자 시그니처를 결정할 수 있다. 일반적으로, 상위 성능 후보 유전자 시그니처는 알려진 반응자/비반응자 상태와 거의 일치하는 결과를 가질 것이다.
상위 성능 후보 유전자 시그니처는 개체의 반응자/비반응자 상태를 예측하는 데 사용될 수 있다. 예를 들어, 잠재적 환자에 대한 베이스라인 유전자 발현 데이터를 결정/수신할 수 있다. 잠재적 환자에 대한 베이스라인 유전자 발현 데이터는, 상위 성능 후보 유전자 시그니처에 기반하여, 잠재적 환자를 반응자로서 또는 비반응자로서 분류할 수 있는 머신 러닝 기반 분류자(230)에 제공될 수 있다. 반응자로 분류되는 경우, 잠재적 환자는 약물/치료로 치료받을 수 있다. 비반응자로 분류되는 경우, 잠재적 환자에게 대체 치료를 제공할 수 있다.
도 3은 훈련 모듈(220)을 사용하여 머신 러닝 기반 분류자(230)를 생성하기 위한 예시적인 훈련 방법(300)을 도시하는 흐름도이다. 훈련 모듈(220)은 감독, 비 감독 및/또는 반 감독(예, 강화 기반) 머신 러닝 기반 분류 모델(240)을 구현할 수있다. 도 3에 도시된 방법(300)은 감독 러닝 방법의 일 예이고; 훈련 방법의 이러한 예의 변형은 이하에서 논의되지만, 다른 훈련 방법은 비 감독 및/또는 반 감독 머신 러닝 모델을 훈련하기 위해 유사하게 구현될 수 있다.
훈련 방법(300)310에서 환자의 하나 이상의 집단의 제1 유전자 데이터(예를 들어, 유전자 목록, 발현 데이터 등) 및 환자의 하나 이상의 다른 집단의 제2 유전자 데이터를 결정(예를 들어, 액세스, 수신, 검색 등)할 수 있다. 제1 유전자 데이터는 하나 이상의 데이터세트를 포함할 수 있으며, 각각의 데이터세트는 특정 연구와 연관된다. 각각의 연구는 제2 유전자 데이터와 공통적으로 하나 이상의 유전자를 포함할 수 있다. 각각의 연구는 동일한 약물/치료를 수반할 수도, 그렇지 않을 수도 있으며, 동일하거나 상이한 질환/상태와 연관될 수도 있고 그렇지 않을 수도 있다. 일부 환자 중복이 발생할 수 있는 것으로 고려되지만, 각각의 연구는 상이한 환자 집단을 포함할 수 있다. 일 실시예에서, 각각의 데이터세트는 차등 발현된 유전자의 목록을 포함할 수 있다. 제2 유전자 데이터는 하나 이상의 데이터세트를 함유할 수 있으며, 각각의 데이터세트는 제1 유전자 데이터 세트의 데이터세트와 상이한 특정 연구와 연관된 것이다. 각각의 연구는 제1 유전자 데이터와 공통적으로 하나 이상의 유전자를 포함할 수 있다. 각각의 연구는 동일한 약물/치료를 수반할 수도, 그렇지 않을 수도 있으며, 동일하거나 상이한 질환/상태와 연관될 수도 있고 그렇지 않을 수도 있다. 일부 환자 중복이 발생할 수 있는 것으로 고려되지만, 각각의 연구는 상이한 환자 집단을 포함할 수 있다. 일 실시예에서, 각각의 데이터세트는 차등 발현된 유전자의 표지된 목록을 포함할 수 있다. 또 다른 실시예에서, 각각의 데이터세트는 표지된 베이스라인 유전자 발현 데이터를 포함할 수 있다. 또 다른 실시예에서, 각각의 데이터세트는 표지된 치료-중 유전자 발현 데이터를 추가로 포함할 수 있다. 표지는 반응자 또는 비반응자를 포함할 수 있다. 유전자 발현 데이터는 전체 엑솜 시퀀싱 데이터, 전체 게놈 시퀀싱 데이터, RNA-seq 데이터, 이들의 조합 등을 포함할 수 있다. 유전자 발현 데이터는 환자의 생물학적 시료에 존재하는 유전자의 식별 및 발현 수준을 포함할 수 있다. 예를 들어, RNA-seq 데이터의 경우, 생물학적 시료에서의 RNA의 양 및 서열은 차세대 시퀀싱(NGS)을 사용하여 결정될 수 있다.
훈련 방법(300)320에서, 훈련 데이터 세트 및 테스트 데이터 세트를 생성할 수 있다. 훈련 데이터 세트 및 테스트 데이터 세트는 제2 유전자 데이터로부터 개별 환자의 표지된 유전자 발현 데이터를 훈련 데이터 세트 또는 테스트 데이터 세트에 무작위로 할당함으로써 생성될 수 있다. 일부 구현예에서, 훈련 또는 시험 시료로서 환자를 할당하는 것은 완전히 무작위적이지 않을 수 있다. 일 실시예에서, 특정 연구를 위한 표지된 베이스라인 유전자 발현 데이터만이 훈련 데이터 세트 및 테스트 데이터 세트를 생성하는 데 사용될 수 있다. 일 실시예에서, 특정 연구를 위한 대부분의 표지된 베이스라인 유전자 발현 데이터가 훈련 데이터 세트를 생성하는 데 사용될 수 있다. 예를 들어, 특정 연구를 위한 표지된 베이스라인 유전자 발현 데이터의 75%가 훈련 데이터 세트를 생성하는 데 사용될 수 있고, 25%가 테스트 데이터 세트를 생성하는 데 사용될 수 있다. 또 다른 실시예에서, 특정 연구를 위한 표지된 치료-중 유전자 발현 데이터만이 훈련 데이터 세트 및 테스트 데이터 세트를 생성하는 데 사용될 수 있다.
훈련 방법(300)은, 330에서, 예를 들어, 상이한 분류(예: 반응자 대 비반응자) 사이에서 구별하기 위해 분류자에 의해 사용될 수 있는 하나 이상의 피처부를 결정(예: 추출, 선택 등)할 수 있다. 하나 이상의 피처부는 유전자 세트를 포함할 수 있다. 일 실시예에서, 훈련 방법(300)은 제1 유전자 데이터로부터 세트 피처부를 결정할 수 있다. 또 다른 실시예에서, 훈련 방법(300)은 제2 유전자 데이터로부터 피처부 세트를 결정할 수 있다. 또 다른 실시예에서, 피처부 세트는 훈련 데이터 세트 및 테스트 데이터 세트의 표지된 유전자 데이터와 연관된 연구보다 상이한 연구로부터의 유전자 데이터로부터 결정될 수 있다. 즉, 상이한 연구로부터의 유전자 데이터(예를 들어, 엄선된 질환 불문 유전자 데이터)는 머신 러닝 모델을 훈련하기 위한 것이 아니라, 피처부 결정을 위해 사용될 수 있다. 일 실시예에서, 훈련 데이터 세트는 하나 이상의 피처부를 결정하기 위해 상이한 연구로부터의 유전자 데이터와 함께 사용될 수 있다. 상이한 연구로부터의 유전자 데이터는, 훈련 데이터 세트를 사용하여 추가로 감소될 수 있는, 초기 피처부 세트를 결정하는 데 사용될 수 있다.
훈련 방법(300)340에서 하나 이상의 피처부를 사용하여 하나 이상의 머신 러닝 모델을 훈련할 수 있다. 일 실시예에서, 머신 러닝 모델은 감독 학습을 사용하여 훈련될 수 있다. 또 다른 실시예에서, 비 감독 학습 및 반 감독을 포함하는, 다른 머신 러닝 기술이 사용될 수 있다. 340에서 훈련된 머신 러닝 모델은 해결되어야 할 문제 및/또는 훈련 데이터 세트에서 이용 가능한 데이터에 따라 상이한 기준에 기반하여 선택될 수 있다. 예를 들어, 머신 러닝 분류자는 상이한 정도의 편향을 겪을 수 있다. 따라서, 하나 이상의 머신 러닝 모델이 340에서 훈련될 수 있고, 350에서 최적화되고, 개선되고, 교차 검증될 수 있다.
훈련 방법(300)360에서 하나 이상의 머신 러닝 모델을 선택하여 예측 모델을 구축할 수 있다(예를 들어, 머신 러닝 분류자). 예측 모델은 테스트 데이터 세트를 사용하여 평가될 수 있다. 예측 모델은 370에서 테스트 데이터 세트를 분석하고 분류 값 및/또는 예측 값을 생성할 수 있다. 380에서 분류 및/또는 예측 값이 평가되어 이러한 값이 원하는 정확도 수준을 달성했는지 여부를 결정할 수 있다. 예측 모델의 성능은 예측 모델에 의해 표시된 복수의 데이터 포인트의 다수의 참 양성, 거짓 양성, 참 음성 및/또는 거짓 음성 분류에 기반하여 다수의 방식으로 평가될 수 있다. 예를 들어, 예측 모델의 거짓 양성은 실제로 비반응자였던 반응자로 환자를 예측 모델이 부정확하게 분류한 횟수를 지칭할 수 있다. 역으로, 예측 모델의 거짓 음성은, 실제로, 환자가 반응자였을 때, 머신 러닝 모델이 하나 이상의 환자를 비반응자로 분류한 횟수를 지칭할 수 있다. 참 음성 및 참 양성은 예측 모델이 하나 이상의 환자를 반응자 또는 비반응자로 정확하게 분류한 횟수일 수 있다. 이 측정과 관련된 것은 회상 및 정밀도의 개념이다. 일반적으로, 회상은 참 양과 거짓 음의 합에 대한 참 양의 비율을 지칭하며, 이는 예측 모델의 민감도를 정량화한다. 유사하게, 정밀도는 참 양성과 거짓 양성의 합에 대한 참 양성의 비율로 지칭한다.
이러한 원하는 정확도 수준에 도달할 때, 390에서 훈련 단계가 종료되고 예측 모델이 출력될 수 있다; 그러나, 원하는 정확도 수준에 도달하지 않을 때, 훈련 방법(300)의 후속 반복은, 예를 들어 더 큰 유전자 발현 데이터의 콜렉션을 고려하는 것과 같은 변형으로 310에서 시작하여 수행될 수 있다.
도 4 질병에 대해 약물로 치료받은 환자 코호트로부터 획득한 유전자 발현 데이터(예를 들어, RNA-seq 데이터)를 보여준다 (CSCC 데이터). 환자 코호트는 피부 편평세포암(CSCC)의 치료를 위해 48주에 걸쳐 세미플리맙(Cemiplimab)으로 치료되었다. 코호트의 모든 환자는 치료를 시작하기 전에 베이스라인, 치료-전 스크리닝을 거쳤다. 베이스라인(치료-전) 스크리닝 동안, 각 환자의 종양의 생검 시료를 수득하였으며, 차세대 시퀀싱(NGS) 기법을 사용하여 각각의 생검 시료를 시퀀싱하였다. 따라서, 각 환자에 대한 베이스라인 유전자 발현 데이터를 치료-전에 (예: 1일차) 얻었다. 치료가 시작된 후, 각 환자의 종양의 또 다른 생검 시료를 수득하고, NGS 기법을 사용하여 각각의 생검 시료를 시퀀싱하여 치료-중 유전자 발현 데이터를 수득하였다. 따라서, 각 환자에 대한 치료-중 유전자 발현 데이터를 치료 기간 중에 (예: 29일차) 수득하였다. 세미플리맙 및 CSCC의 맥락에서 결정되는 것으로 기술되었지만, 본원에 기술된 방법 및 시스템은 임의의 치료 및 임의의 병태에도 적용될 수 있음을 이해해야 한다. 따라서, 임의의 약물/치료 및 임의의 질환/병태에 대해 베이스라인 유전자 발현 데이터 및 치료-중 유전자 발현 데이터가 결정될 수 있다. 베이스라인 유전자 발현 데이터 및 치료-중 유전자 발현 데이터는 RNA-Seq 데이터, TCR-seq 데이터, DNA-seq 데이터, 및/또는 이미징 데이터 중 하나 이상을 포함할 수 있다.
치료 후, 환자를 반응자 또는 비반응자로 분류하였다. 종양 부피가 30% 넘게 감소한 것으로 나타난 경우, 환자를 반응자로 계수할 수 있다. 종양 부피의 감소율(예를 들어, 10%, 20%, 40%, 50%, 60%, 70%, 80%, 100%)을 변화시키는 것을 포함하여, 환자를 반응자 또는 비반응자로 분류하기 위해 다른 기법이 사용될 수 있다. 그런 다음, 각 환자에 대한 베이스라인 유전자 발현 데이터 및 치료-중 유전자 발현 데이터를 반응자 또는 비반응자로 표지하였다.
세미플리맙의 치료 효과는 특정 면역 세포 마커 유전자의 발현 증가다. 도 5에 도시된 바와 같이, CSCC에서 추론된 면역 마커 유전자 발현은 세미플리맙이 면역 세포 서브세트의 침윤을 증가시키는 경향이 있음을 시사하며, 이는 반응자에서 더욱 두드러진다. 도 6a는 모든 환자(반응자 및 비반응자)에 대한 베이스라인 유전자 발현 데이터와 치료-중 유전자 발현을 비교하여 결정된 차등 발현 유전자를 보여준다. 도 6b는 반응자에 대해서만 베이스라인 유전자 발현 데이터 및 치료-중 유전자 발현을 비교하여 결정된 차등 발현된 유전자를 보여준다. 도 6c는 비반응자에 대해서만 베이스라인 유전자 발현 데이터 및 치료-중 유전자 발현을 비교하여 결정된 차등 발현된 유전자를 보여준다. 도 6b 도 6c는 반응자가 비반응자에 비해 더 큰 유전자 발현 변화를 갖는다는 것을 나타낸다.
표지된 베이스라인 유전자 발현 데이터 및/또는 표지된 치료-중 유전자 발현 데이터의 비교 및 분석은 하나 이상의 예측 유전자를 결정할 수 있다. 도 7은 반응자와 비반응자 사이의 중첩의 상위 50개의 약력학 유전자를 보여준다. 반응자에 대한 252개의 식별된 예측 유전자와 비반응자에 대한 14개의 식별된 예측 유전자 중에서, 2개의 예측 유전자만이 반응자와 비반응자 간에 공통적이었다. 도 8에 도시된 바와 같이, 베이스라인 반응자와 베이스라인 비반응자 간에 차등 발현된 유전자를 식별하려는 시도는 통계적으로 유의한 유전자를 거의 나타내지 않는다. 이종 베이스라인 시료로부터의 베이스라인 유전자 발현 데이터 결과를 사용하여 충분한 예측 유전자를 결정할 수 없는 것, 예를 들어, 종양 순도는 종종 정량화되지 않으며, 생검 부위는 종종 환자 간에 일관성이 없다(예를 들어, 피부, 폐, 머리, 목 등). 그 결과는 조직 특이적인 차등 발현된 유전자를 식별하는 것이다. 결과적으로, 이 단일 연구로부터의 베이스라인 유전자 발현 데이터에 따라 베이스라인 머신 러닝 분류자를 생성하는 것이 어렵다.
일 실시예에서, 동일한 약물/치료를 포함하는 다른 연구로부터의 엄선된 질환 불문 유전자 세트 데이터를 분석하여 예측 유전자의 식별을 개선할 수 있다. 엄선된 질환 불문 유전자 세트 데이터는 최근의 공개문헌을 포함하는, 다양한 소스로부터 수득될 수 있다. 엄선된 질환 불문 유전자 세트 데이터는 상이한 병태(예를 들어, 흑색종, 유방암, 폐암, 난소암 등)와 연관된, 다수의 유전자 세트 데이터를 포함할 수 있고, 다양한 데이터 유형 및/또는 플랫폼(예를 들어, 벌크 RNA-seq, 단일 세포 RNA-seq, NanoString 등)으로부터 생성될 수 있다. 엄선된 질환 불문 유전자 세트는 CSCC 데이터와 공통적으로 적어도 하나의 유전자를 포함한다.
본 예시에서, 엄선된 질환 불문 유전자 세트는 다음 공개문헌 중 하나 이상으로부터 결정되었다:
· [2018][Journal of ImmnoTherapy of Cancer][Turan T. 외][Immune oncology immune responsiveness and the theory of everything]
· [2005][Richard D. Wood 외][Human DNA repair genes, 2005]
· [2017][Cell Reports][Charoentong P. 외][Pan-cancer Immunogenomic Analyses Reveal Genotype-Immunophenotype Relationships and Predictors of Response to Checkpoint Blockade]
· [2017][Wouter Hendrickx 외][Identification of genetic determinants of breast cancer immune phenotypes by integrative genome scale analysis]
· [2012][CancerImmImmunotherapy][Ji R. 외][An immune-active tumor microenvironment favors clinical response to ipilimumab]
· [2013][JCO][Ulloba-Montoya F. 외][Predictive Gene Signature in MAGE-A3 Antigen-Specific Cancer Immunotherapy]
· [2018][Nature Medicine][Peng Jiang][Signatures of T cell dysfunction and exclusion predict cancer immunotherapy response Nat Medicine Aug 2018]
· [2018][Nature Medicine][Noam Auslander][Robust prediction of response to immune checkpoint blockade therapy in metastatic melanoma Nat Medicine Aug 2018]
· [2018][NatMedicine][Savas.P. 외][Single-cell profiling of breast cancer T cells reveals a tissue-resident memory subset associated with improved prognosis]
· [2018][Cell][Jerby-Arnon L. 외 ][Signature of T cell exclusion and ICI resistance Cancer Cell 2018]
엄선된 질환 불문 유전자 세트 데이터가 도 9에 도시되어 있다. 엄선된 질환 불문 유전자 세트 데이터가 분류될 수 있다. 예를 들어, 질환 불문 유전자 세트 데이터는 면역 세포 유형/기능 유전자 세트, 종양 미세환경 성분 및 신호 전달 유전자 세트, 및 암 세포 증식 및 DNA 복구 유전자 세트로서 분류될 수 있다. 원래 수득된 베이스라인 유전자 발현 데이터 및 치료-중 유전자 발현 데이터에서와 같이, 엄선된 질환 불문 유전자 세트 데이터만을 사용하여 베이스라인 반응자와 베이스라인 비반응자 사이에서 차등 발현된 유전자를 식별하려는 시도는 통계적으로 유의한 유전자를 거의 나타내지 않는다. 도 10은, 엄선된 질환 불문 유전자 세트 데이터만을 사용하여 식별된 예측 유전자가 CSCC 코호트의 임상 결과를 부분적으로만 설명함을 보여준다.
본원에 기술된 머신 러닝 기술을 베이스라인 유전자 발현 데이터 및 엄선된 질환 불문 유전자 세트 데이터에 적용하였다. 도 11은 전술한 머신 러닝 기술을 사용하여 생성된 상위 성능 유전자 시그니처를 보여준다. 도 11은 상위 성능 예측 유전자 시그니처의 정규화된 유전자 발현을 보여준다. 환자 시료는 도 11의 상단에서 R(반응자) 또는 NR(비반응자)로서 식별된다. 도 11은, 상위 성능 예측 유전자 시그니처의 더 높은 발현을 갖는 환자(도 11의 짙은 적색)는 반응자(오렌지색)가 될 가능성이 더 높은 반면, 상위 성능 예측 유전자 시그니처의 더 낮은 발현을 갖는 환자(도 11의 짙은 청색)는 비반응자(스카이블루)가 될 가능성이 더 높다는 것을 보여준다.
도 12는 교차 검증에 기반하여 그리고 테스트 데이터 세트에 적용된 바와 같이 머신 러닝 모델 훈련 동안 환자를 분류하는 데 있어서 유전자 시그니처의 성능을 보여준다. 수신자 조작 곡선(ROC, Receiver Operation Curve)의 곡선하 면적(AUC)은 분류 방법의 성능을 나타낸다.
일 실시예에서, 도 13은 예측 전사 조절자 유전자를 식별하기 위한 시스템 생물학 접근법에 대한 방법(1300)을 도시한다.
1310에서 전사 조절자 네트워크가 생성될 수 있다. 전사 조절자 데이터는 유전자 온톨로지(GO, Gene Ontology) 소스로부터 수득될 수 있다. 전사 조절자 데이터는 전사 조절자 유전자로서 식별된 유전자 및 GO에서 주석으로 표시된 다른 유전자의 전사에 영향을 미칠 수 있는 임의의 유전자의 목록을 포함할 수 있다. 전사 조절자 네트워크는, 예를 들어, ARACNE(포유류 세포 맥락에서 유전자 조절 네트워크의 재구성을 위한 알고리즘)에 의해 생성될 수 있다. 전사 조절자 네트워크는 복수의 노드 -여기서 각각의 노드는 유전자(전사 조절자 유전자 또는 표적 유전자)임 -, 및 복수의 에지 -여기서 2개의 노드 사이의 에지가 관계를 나타낼 수 있음-를 포함할 수 있다. 관계는 하나 이상의 표적 유전자와 연관된 전사 조절자 유전자를 나타낼 수 있다. 관계는, 예를 들어, "~의 전사 조절자" 또는 "전사가 ~에 의해 조절된다"를 포함할 수 있다. 일 실시예에서, 베이스라인 유전자 발현 데이터는 전사 조절자 데이터를 필터링하는 데 사용될 수 있다. 유전자 발현 데이터 및 전사 조절자 데이터의 표적 유전자 모두에 존재하는 유전자가 식별될 수 있다. 식별된 유전자 및 연관된 전사 조절자 유전자는 전사 네트워크를 생성하는 데 사용될 수 있다. 일 실시예에서, 전사 조절자 유전자와 이들의 표적 유전자를 연결하는 전사 네트워크가 구성되도록 유전자 발현 데이터 내의 임의의 다른 유전자와 전사 조절자 유전자 간의 관계를 결정하기 위한 상호 정보 기반 방법이 제공된다.
1320에서 전사 조절자 네트워크가 정제될 수 있다. 전사 조절자 네트워크를 정제하는 단계는 우연히 발생했을 가능성이 있는 하나 이상의 에지를 제거하는 것을 포함할 수 있다. 정제는 네트워크를 구성하기 위해 사용된 유전자 발현 데이터에서의 시료의 수 및 시료 수를 고려하여 신뢰성 있게 발견되는 각 네트워크 연결의 확률의 연산에 기반하여 수행될 수 있다. 예를 들어, 네트워크 연결은 무작위로 순열될 수 있고, 그 네트워크 연결이 관찰될 확률이 결정될 수 있다. 통계적으로 유의하지 않은(예를 들어, p-값보다 높은) 확률을 갖는 임의의 네트워크 연결이 제거될 수 있다.
1330에서, 순차적으로, 또는 병렬로, 베이스라인 유전자 발현 데이터에서 각 대상체에 대한 유전자는 베이스라인 유전자 발현 데이터로부터 유래된 발현에 의해 순위가 매겨질 수 있다. 1340에서, 전사 조절자 네트워크 및 유전자의 순위 목록에 기반하여, 순위가 매겨진 유전자를 표적으로 하는 전사 조절자 유전자가 결정될 수 있다. 전사 네트워크는 유전자의 순위 목록에서도 발견되는 표적 유전자 세트와 연관된 노드를 식별하기 위해 횡단될 수 있다. 표적 유전자 세트와 연관된 전사 조절자 유전자를 식별하기 위해 그 노드로부터 흐르는 에지가 결정될 수 있다.
1350에서, 베이스라인 유전자 발현 데이터의 각 대상체에 대해, 해당 대상체와 연관된 각각의 전사 조절자 유전자에 대한 농축도 점수가 결정될 수 있다. 전사 조절자 유전자에 대한 농축도 점수는 전사 네트워크에서 식별된 전사 표적 유전자의 유전자 발현 순위에 기초할 수 있다.
전사 조절자 유전자 각각에 대한 농축도 점수는 1360에서 비교될 수 있다. 예를 들어, 베이스라인 반응자 비반응자 간의 전사 조절자 유전자에 대한 농축도 점수의 비가 결정될 수 있다.
1370에서 하나 이상의 예측 전사 조절자 유전자가 결정될 수 있다. 하나 이상의 예측 전사 조절자 유전자는 주어진 전사 조절자 유전자에 대한 농축도 점수의 비율의 통계적 유의성을 평가함으로써 결정될 수 있다. 통계적으로 유의한 농축도 점수의 비율을 갖는 전사 조절자 유전자가 예측 전사 조절자 유전자로서 식별될 수 있다.
하나 이상의 예측 전사 조절자 유전자는 치료적 치료 후보를 식별하는 데 사용될 수 있다. 베이스라인 유전자 발현 데이터는 새로운 대상체로부터 수득될 수 있다. 베이스라인 유전자 발현 데이터의 순위를 매길 수 있고, 네트워크에 기초한 예측 전사 조절자 유전자의 표적 유전자를 수집한 다음, 농축도 점수를 연산하여 예측 전사 조절자 유전자의 활성을 식별하였다. 대상체가 하나 이상의 예측 전사 조절자 유전자의 농축도 점수를 보유하는 경우, 대상체는 치료적 치료의 후보이다.
도 14는 전술한 CSCC 코호트 베이스라인 시료를 사용하여 결정된 바와 같은 예시적인 상위 예측 전사 조절자 유전자 및 이들의 농축도 점수를 보여준다.
도 15는 네트워크(1504)를 통해 연결된 연산 장치(1501) 및 서버(1502)의 비제한적인 예를 포함하는 환경(1500)을 도시하는 블록도이다. 일 측면에서, 임의의 기술된 방법의 일부 또는 모든 단계는 본원에서 기술된 바와 같은 연산 장치에서 수행될 수 있다. 연산 장치(1501)는, 훈련 모듈(220), 훈련 데이터(210)(예를 들어, 표지된 베이스라인 유전자 발현 데이터, 표지된 치료-중 유전자 발현 데이터, 및/또는 엄선된 질환 불문 유전자 세트 데이터) 중 하나 이상을 저장하도록 구성된 하나 이상의 컴퓨터를 포함할 수 있다. 서버(1402)는 유전자 데이터(1524)(예를 들어, 엄선된 질환 불문 유전자 세트 데이터)를 저장하도록 구성된 하나 또는 다수의 컴퓨터를 포함할 수 있다. 다수의 서버(1502)는 네트워크(1504)를 통해 연산 장치(1501)와 통신할 수 있다.
연산 장치(1501) 및 서버(1502)는, 하드웨어 아키텍처의 관점에서, 일반적으로 프로세서(1508), 메모리 시스템(1510), 입력/출력(I/O) 인터페이스(1512), 및 네트워크 인터페이스(1514)를 포함하는, 디지털 컴퓨터일 수 있다. 이들 부품(1508, 1510, 1512, 및 1514)은 로컬 인터페이스(1516)를 통해 통신 가능하게 결합된다. 로컬 인터페이스(1516)는, 예를 들어 당업계에 공지된 바와 같이, 하나 이상의 버스 또는 다른 유선 또는 무선 연결일 수 있지만, 이에 한정되지 않는다. 로컬 인터페이스(1516)는 통신을 가능하게 하기 위한, 컨트롤러, 버퍼(캐시), 드라이버, 리피터, 및 수신기와 같은, 단순화를 위해 생략된 추가 요소들을 가질 수 있다. 또한, 로컬 인터페이스는 전술한 부품들 간의 적절한 통신을 가능하게 하기 위한 어드레스, 컨트롤 및/또는 데이터 연결을 포함할 수 있다.
프로세서(1508)는, 특히 메모리 시스템(1510)에 저장된, 소프트웨어를 실행하기 위한 하드웨어 장치일 수 있다. 프로세서(1508)는 임의의 맞춤 제작 또는 시판중인 프로세서, 중앙 처리 유닛(CPU), 연산 장치(1501) 및 서버(1502)와 연관된 여러 프로세서 중 보조 프로세서, 반도체 기반 마이크로프로세서(마이크로칩 또는 칩 세트 형태), 또는 일반적으로 소프트웨어 명령어를 실행하기 위한 임의의 장치일 수 있다. 연산 장치(1501) 및/또는 서버(1502)가 작동 중일 때, 프로세서(1508)는 메모리 시스템(1510) 내에 저장된 소프트웨어를 실행하고, 메모리 시스템(1510)과 데이터를 통신하고, 소프트웨어에 따라 연산 장치(1501) 및 서버(1502)의 동작을 대략적으로 제어하도록 구성될 수 있다.
I/O 인터페이스(1512)는 하나 이상의 장치 또는 부품으로부터 사용자 입력을 수신하고/하거나 이들에 시스템 출력을 제공하는 데 사용될 수 있다. 사용자 입력은, 예를 들어 키보드 및/또는 마우스를 통해 제공될 수 있다. 시스템 출력은 디스플레이 장치 및 프린터(미도시)를 통해 제공될 수 있다. I/O 인터페이스(1512)는, 예를 들어, 직렬 포트, 병렬 포트, 소형 컴퓨터 시스템 인터페이스(SCSI), 적외선(IR) 인터페이스, 무선 주파수(RF) 인터페이스, 및/또는 범용 직렬 버스(USB) 인터페이스를 포함할 수 있다.
네트워크 인터페이스(1514)는 네트워크(1504) 상에서 연산 장치(1501) 및/또는 서버(1502)로부터 송신하고 수신하는 데 사용될 수 있다. 네트워크 인터페이스(1514)는, 예를 들어, 10BaseT 이더넷 어댑터, 100BaseT 이더넷 어댑터, LAN PHY 이더넷 어댑터, 토큰 링 어댑터, 무선 네트워크 어댑터(예, WiFi, 셀룰러, 위성), 또는 임의의 다른 적절한 네트워크 인터페이스 장치를 포함할 수 있다. 네트워크 인터페이스(1514)는 네트워크(1504) 상에서 적절한 통신을 가능하게 하기 위한 어드레스, 컨트롤 및/또는 데이터 연결을 포함할 수 있다.
메모리 시스템(1510)은 휘발성 메모리 요소(예를 들어, 무작위 액세스 메모리(DRAM, SRAM, SDRAM 등과 같은 RAM)) 및 비휘발성 메모리 요소(예를 들어, ROM, 하드 드라이브, 테이프, CDROM, DVDROM 등) 중 임의의 하나 또는 조합을 포함할 수 있다. 또한, 메모리 시스템(1510)은 전자, 자기, 광학 및/또는 다른 유형의 저장 매체를 통합할 수 있다. 메모리 시스템(1510)은, 다양한 부품들이 서로 원격에 위치하지만 프로세서(1508)에 의해 액세스될 수 있는, 분산 아키텍처를 가질 수 있음을 주목한다.
메모리 시스템(1510) 내의 소프트웨어는 하나 이상의 소프트웨어 프로그램을 포함할 수 있으며, 이들 각각은 논리적 기능을 구현하기 위한 실행가능 명령어의 순서 목록을 포함한다. 도 15의 예에서, 연산 장치(1501)의 메모리 시스템(1510) 내의 소프트웨어는 훈련 모듈(220)(또는 그의 하위 부품), 훈련 데이터(220), 및 적절한 운영 체제(O/S)(1518)을 포함할 수 있다. 도 15의 예에서, 서버(1502)의 메모리 시스템(1510) 내의 소프트웨어는 유전자 데이터(1524), 및 적절한 운영 체제(O/S)(1518)을 포함할 수 있다. 운영 체제(1518)는 본질적으로 다른 컴퓨터 프로그램의 실행을 제어하고, 일정관리, 입력-출력 컨트롤, 파일 및 데이터 관리, 메모리 관리, 및 통신 컨트롤 및 관련 서비스를 제공한다.
예시를 위해, 응용 프로그램 및 운영 체제(1518)와 같은 다른 실행 가능 프로그램 컴포넌트가 본 명세서에 별개의 블록으로 도시되어 있지만, 이러한 프로그램 및 컴포넌트는 연산 장치(1501) 및/또는 서버(1502)의 상이한 저장 컴포넌트에 다양한 시간에 상주할 수 있는 것으로 인식된다. 훈련 모듈(220)의 구현은 일정 형태의 컴퓨터 판독가능 매체에 저장되거나 이를 통해 전송될 수 있다. 임의의 개시된 방법이 컴퓨터 판독가능 매체 상에 구현된 컴퓨터 판독가능 명령어에 의해 수행될 수 있다. 컴퓨터 판독가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 이용 가능한 매체일 수 있다. 한정하고자 하는 것이 아니라 예로서, 컴퓨터 판독가능 매체는 "컴퓨터 저장 매체" 및 "통신 매체"를 포함할 수 있다. "컴퓨터 저장 매체"는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 또는 다른 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현되는 휘발성 및 비휘발성, 착탈식 및 비착탈식 매체를 포함할 수 있다. 예시적인 컴퓨터 저장 매체는 RAM, ROM, EEPROM, 플래시 메모리 또는 다른 메모리 기술, CD-ROM, 디지털 다용도 디스크(DVD) 또는 다른 광 저장 장치, 자기 카세트, 자기 테이프, 자기 디스크 저장 장치 또는 다른 자기 저장 장치, 또는 원하는 정보를 저장하는 데 사용될 수 있고 컴퓨터에 의해 액세스될 수 있는 임의의 다른 매체를 포함할 수 있다.
일 실시예에서, 훈련 모듈(220)도 16에 도시된, 방법(1600)을 수행하도록 구성될 수 있다. 방법(1600)은 단일 연산 장치, 복수의 전자 장치 등에 의해 전체적으로 또는 부분적으로 수행될 수 있다. 방법(1600)1610에서 복수의 유전자와 연관된 제1 유전자 데이터를 결정하는 단계를 포함할 수 있다. 제1 유전자 데이터는 복수의 상이한 데이터 세트로부터의 유전자 데이터로 구성될 수 있다. 제1 유전자 데이터는 공개 데이터 소스로부터 검색될 수 있고, 복수의 유전자는 면역 세포 유형/기능 유전자 세트, 종양 미세환경 컴포넌트 및 신호 전달 유전자 세트, 또는 암 세포 증식 및 DNA 복구 유전자 세트 중 하나 이상을 포함한다.
방법(1600)1620에서 복수의 유전자와 연관된 제2 유전자 데이터를 결정하는 단계를 포함할 수 있다. 복수의 유전자는 복수의 종양 시료로부터 시퀀싱될 수 있다. 복수의 종양 시료의 각각의 종양 시료는 반응자 또는 비반응자로 표지될 수 있다. 복수의 유전자와 연관된 제2 유전자 데이터를 결정하는 단계는 복수의 종양 시료와 연관된 각각의 종양에 대한 베이스라인 유전자 발현 수준을 결정하는 단계, 복수의 종양 시료와 연관된 각각의 종양을 치료제로 치료하는 단계, 치료 후에, 복수의 종양 시료와 연관된 어느 종양이 치료제에 대한 반응자 또는 비반응자인지 결정하는 단계, 복수의 종양 시료와 연관된 각각의 종양에 대해 베이스라인 유전자 발현 수준을 반응자 또는 비반응자로서, 표지하는 단계, 및 표지된 베이스라인 유전자 발현 수준에 기반하여, 제2 유전자 데이터를 생성하는 단계를 포함할 수 있다.
방법(1600)1630에서 제1 유전자 데이터 및 제2 유전자 데이터에 기반하여 예측 모델에 대한 복수의 피처부를 결정하는 단계를 포함할 수 있다. 제1 유전자 데이터 및 제2 유전자 데이터에 기반하여, 예측 모델에 대한 복수의 피처부를 결정하는 단계는, 제1 유전자 데이터로부터, 복수의 상이한 데이터 세트 중 2개 이상에 존재하는 유전자를 제1 후보 유전자 세트로서 결정하는 단계, 제2 유전자 데이터로부터, 복수의 종양 시료의 적어도 절반에서 2 TPM(Transcripts Per Million) 이상으로 발현된 제1 후보 유전자 세트의 유전자를 제2 후보 유전자 세트로서 결정하는 단계, 및 제2 유전자 데이터로부터, 반응자와 비반응자 간의 발현 수준이 통계적으로 유의하게 증가한 제2 후보 유전자 세트의 유전자를 제3 후보 유전자 세트로서 결정하는 단계를 포함할 수 있고, 여기서 복수의 피처부는 제3 후보 유전자 세트를 포함한다. 제1 유전자 데이터 및 제2 유전자 데이터에 기반하여, 예측 모델에 대한 복수의 피처부를 결정하는 단계는, 제3 후보 유전자 세트에 대해, 제3 후보 유전자 세트와 연관된 복수의 종양 각각에 대한 종양 돌연변이 부담(TMB) 값을 결정하는 단계, 및 TMB 값에 기반하여, 제4 후보 유전자 세트를 결정하는 단계를 포함할 수 있고, 여기서 복수의 피처부는 제4 후보 유전자 세트를 포함한다.
방법(1600)1640에서, 제2 유전자 데이터의 제1 부분에 기반하여, 복수의 피처부에 따른 예측 모델을 훈련하는 것을 포함할 수 있다. 제2 유전자 데이터의 제1 부분에 기반하여, 복수의 피처부에 따른 예측 모델을 훈련하는 것은 반응자를 나타내는 유전자 시그니처를 결정하게 한다.
방법(1600)1650에서, 제2 유전자 데이터의 제2 부분에 기반하여, 예측 모델을 시험하는 것을 포함할 수 있다. 방법(1600)1660에서, 시험에 기반하여 예측 모델을 출력하는 단계를 포함할 수 있다.
일 실시예에서, 훈련 모듈(220)도 17에 도시된, 방법(1700)을 수행하도록 구성될 수 있다. 방법(1700)은 단일 연산 장치, 복수의 전자 장치 등에 의해 전체적으로 또는 부분적으로 수행될 수 있다. 방법(1700)1710에서 대상체에 대한 복수의 유전자와 연관된 베이스라인 유전자 데이터를 수신하는 단계를 포함할 수 있다. 복수의 유전자는 대상체의 종양으로부터 시퀀싱될 수 있다. 방법(1700)1720에서 베이스라인 유전자 데이터를 예측 모델에 제공하는 단계를 포함할 수 있다. 방법(1700)1730에서 예측 모델에 기반하여, 대상체가 치료적 치료의 후보인지 결정하는 단계를 포함할 수 있다. 방법(1700)은 치료적 치료로 대상체를 치료하는 단계를 추가로 포함할 수 있다.
방법(1700)은 예측 모델을 훈련하는 단계를 더 포함할 수 있다.
예측 모델을 훈련하는 단계는 복수의 유전자와 연관된 제1 유전자 데이터를 결정하는 단계, 복수의 유전자와 연관된 제2 유전자 데이터를 결정하는 단계로, 복수의 유전자는 복수의 종양 시료로부터 시퀀싱되고, 복수의 종양 시료 중 각각의 종양 시료는 반응자 또는 비반응자로 표지되는, 단계, 제1 유전자 데이터 및 제2 유전자 데이터에 기반하여, 예측 모델에 대한 복수의 피처부를 결정하는 단계, 제2 유전자 데이터의 제1 부분에 기반하여, 복수의 피처부에 따른 예측 모델을 훈련하는 단계, 제2 유전자 데이터의 제2 부분에 기반하여, 예측 모델을 테스트하는 단계, 및 테스트에 기반하여, 예측 모델을 출력하는 단계를 포함할 수 있다.
제1 유전자 데이터는 공개 데이터 소스로부터 검색될 수 있고, 복수의 유전자는 면역 세포 유형/기능 유전자 세트, 종양 미세환경 컴포넌트 및 신호 전달 유전자 세트, 또는 암 세포 증식 및 DNA 복구 유전자 세트 중 하나 이상을 포함할 수 있다. 제1 유전자 데이터는 복수의 상이한 데이터 세트로부터의 유전자 데이터로 구성될 수 있다.
제1 유전자 데이터 및 제2 유전자 데이터에 기반하여, 예측 모델에 대한 복수의 피처부를 결정하는 단계는, 제1 유전자 데이터로부터, 복수의 상이한 데이터 세트 중 2개 이상에 존재하는 유전자를 제1 후보 유전자 세트로서 결정하는 단계, 제2 유전자 데이터로부터, 복수의 종양 시료의 적어도 절반에서 2 TPM(Transcripts Per Million) 이상으로 발현된 제1 후보 유전자 세트의 유전자를 제2 후보 유전자 세트로서 결정하는 단계, 및 제2 유전자 데이터로부터, 반응자와 비반응자 간의 발현 수준이 통계적으로 유의하게 증가한 제2 후보 유전자 세트의 유전자를 제3 후보 유전자 세트로서 결정하는 단계를 포함할 수 있고, 여기서 복수의 피처부는 제3 후보 유전자 세트를 포함한다.
제1 유전자 데이터 및 제2 유전자 데이터에 기반하여, 예측 모델에 대한 복수의 피처부를 결정하는 단계는, 제3 후보 유전자 세트에 대해, 제3 후보 유전자 세트와 연관된 복수의 종양 각각에 대한 종양 돌연변이 부담(TMB) 값을 결정하는 단계, 및 TMB 값에 기반하여, 제4 후보 유전자 세트를 결정하는 단계를 포함할 수 있고, 여기서 복수의 피처부는 제4 후보 유전자 세트를 포함한다.
복수의 유전자와 연관된 제2 유전자 데이터를 결정하는 단계는 복수의 종양 시료와 연관된 각각의 종양에 대한 베이스라인 유전자 발현 수준을 결정하는 단계, 복수의 종양 시료와 연관된 각각의 종양을 치료제로 치료하는 단계, 치료 후에, 복수의 종양 시료와 연관된 어느 종양이 치료제에 대한 반응자 또는 비반응자인지 결정하는 단계, 복수의 종양 시료와 연관된 각각의 종양에 대해 베이스라인 유전자 발현 수준을 반응자 또는 비반응자로서, 표지하는 단계, 및 표지된 베이스라인 유전자 발현 수준에 기반하여, 제2 유전자 데이터를 생성하는 단계를 포함할 수 있다.
제2 유전자 데이터의 제1 부분에 기반하여, 복수의 피처부에 따른 예측 모델을 훈련하는 것은 반응자를 나타내는 유전자 시그니처를 결정하게 한다.
일 실시예에서, 훈련 모듈(220)도 18에 도시된, 방법(1800)을 수행하도록 구성될 수 있다. 방법(1800)은 단일 연산 장치, 복수의 전자 장치 등에 의해 전체적으로 또는 부분적으로 수행될 수 있다. 방법(1800)1810에서 복수의 유전자와 연관된 베이스라인 유전자 발현 데이터를 결정하는 단계를 포함할 수 있다. 복수의 유전자는 복수의 종양 시료와 연관될 수 있고, 복수의 종양 시료의 각각의 종양 시료는 치료제/치료에 대한 반응자 또는 비반응자로 표지될 수 있다. 베이스라인 유전자 발현 데이터를 결정하는 단계는 복수의 종양 시료와 연관된 각각의 종양에 대한 베이스라인 유전자 발현 수준을 결정하는 단계, 복수의 종양 시료와 연관된 각각의 종양을 치료제로 치료하는 단계, 치료 후에, 복수의 종양 시료와 연관된 어느 종양이 치료제에 대한 반응자 또는 비반응자인지 결정하는 단계, 복수의 종양 시료와 연관된 각각의 종양에 대해 베이스라인 유전자 발현 수준을 반응자 또는 비반응자로서, 표지하는 단계, 및 표지된 베이스라인 유전자 발현 수준에 기반하여, 베이스라인 유전자 발현 데이터를 생성하는 단계를 포함할 수 있다.
방법(1800)1820에서 복수의 유전자에 기반하여, 전사 조절자 유전자 데이터를 결정하는 단계를 포함할 수 있다. 복수의 유전자에 기반하여, 전사 조절자 유전자 데이터를 결정하는 단계는, 전사 기능을 갖는 임의의 유전자에 대한 유전자 온톨로지 데이터베이스를 쿼리하는 단계, 쿼리에 기반하여, 하나 이상의 전사 조절 유전자 및 연관된 표적 유전자를 결정하는 단계, 및 하나 이상의 전사 조절 유전자 및 연관된 표적 유전자에 기반하여, 전사 조절자 유전자 데이터를 생성하는 단계를 포함할 수 있다.
방법(1800)1830에서 전사 조절자 유전자 데이터 및 복수의 유전자에 기반하여, 전사 조절자(TR) 네트워크를 생성하는 단계를 포함할 수 있다. 전사 조절 유전자 데이터 및 복수의 유전자에 기반하여, TR 네트워크를 생성하는 단계는 복수의 노드를 생성하는 단계로, 여기서 복수의 노드 중 각각의 노드는 전사 조절자 유전자 또는 표적 유전자를 나타내는, 단계, 복수의 노드 중 둘 이상을 하나 이상의 에지와 연결하는 단계로, 여기서 각각의 에지는 전사 조절자 유전자 및 표적 유전자 사이의 관계를 나타내는, 단계 및 복수의 노드 및 하나 이상의 에지를 TR 네트워크로서 저장하는 단계를 포함할 수 있다. 관계는 전사 조절자 유전자가 표적 유전자의 전사를 조절하는 것을 나타낼 수 있다. 방법(1800)은 TR 네트워크를 정제하는 단계를 더 포함할 수 있다. TR 네트워크를 정제하는 단계는 우연히 발생했을 가능성이 있는 하나 이상의 에지를 삭제하는 단계를 포함할 수 있다.
방법(1800)1840에서 TR 네트워크 및 베이스라인 유전자 발현 데이터에 기반하여, 전사 조절자 유전자 세트의 각각의 전사 조절자 유전자와 연관된 농축도 점수를 결정하는 단계를 포함할 수 있다. 전사 조절자 유전자 세트의 각각의 전사 조절자 유전자와 연관된 농축도 점수는 전사 조절자 유전자와 연관된 베이스라인 유전자 발현 데이터에서 하나 이상의 유전자와 연관된 하나 이상의 농축도 점수에 기초할 수 있다.
방법(1800)1850에서 농축도 점수에 기반하여, 전사 조절자 유전자 세트의 하나 이상의 예측 전사 조절자 유전자를 결정하는 단계를 포함할 수 있다. 농축도 점수에 기반하여, 전사 조절자 유전자 세트의 하나 이상의 예측 전사 조절자 유전자를 결정하는 단계는, 전사 조절자 유전자 세트의 각각의 전사 조절자 유전자에 대한 반응자 대 비반응자의 농축도 점수 비율을 결정하는 단계, 및 반응자와 통계적으로 유의한 연관성을 갖는 전사 조절자 유전자 세트의 전사 조절자 유전자를 하나 이상의 예측 전사 조절자 유전자로서 결정하는 단계를 포함할 수 있다.
방법(1800)은 대상체에 대한 추가 베이스라인 유전자 발현 데이터를 결정하는 단계, 추가 베이스라인 유전자 발현 데이터에서 하나 이상의 예측 전사 조절자 유전자의 존재를 결정하는 단계, 및 추가 베이스라인 유전자 발현 데이터에서 하나 이상의 예측 전사 조절자 유전자의 존재에 기반하여, 대상체가 치료적 치료의 후보인지 결정하는 단계를 추가로 포함할 수 있다.
실시예 1: 복수의 유전자와 연관된 제1 유전자 데이터를 결정하는 단계, 상기 복수의 유전자와 연관된 제2 유전자 데이터를 결정하는 단계로, 여기서 상기 복수의 유전자는 복수의 종양 시료로부터 시퀀싱되고, 여기서 상기 복수의 종양 시료 중 각각의 종양 시료는 반응자 또는 비반응자로 표지되는, 단계, 상기 제1 유전자 데이터 및 상기 제2 유전자 데이터에 기반하여, 예측 모델에 대한 복수의 피처부를 결정하는 단계, 상기 제2 유전자 데이터의 제1 부분에 기반하여, 상기 복수의 피처부에 따른 예측 모델을 훈련하는 단계, 상기 제2 유전자 데이터의 제2 부분에 기반하여, 상기 예측 모델을 테스트하는 단계, 및 상기 테스트에 기반하여, 상기 예측 모델을 출력하는 단계를 포함하는, 방법.
실시예 2: 선행하는 실시예 중 어느 하나에서와 같은 실시예로, 상기 복수의 유전자와 연관된 제1 유전자 데이터를 결정하는 단계는 공개 데이터 소스로부터 제1 유전자 데이터를 검색하는 단계를 포함한다.
실시예 3: 선행하는 실시예 중 어느 하나에서와 같은 실시예로, 상기 복수의 유전자는 면역 세포 유형/기능 유전자 세트, 종양 미세환경 컴포넌트 및 신호 전달 유전자 세트, 또는 암 세포 증식 및 DNA 복구 유전자 세트 중 하나 이상을 포함한다.
실시예 4: 선행하는 실시예 중 어느 하나에서와 같은 실시예로, 상기 복수의 유전자와 연관된 제1 유전자 데이터를 결정하는 단계는, 상기 제2 유전자 데이터에 기반하여, 상기 복수의 유전자를 결정하는 단계, 상기 복수의 유전자에 기반하여, 상기 복수의 유전자 중 적어도 하나의 유전자를 포함하는 하나 이상의 유전자 데이터 세트를 결정하는 단계, 및 상기 하나 이상의 유전자 데이터 세트에 기반하여, 상기 제1 유전자 데이터를 생성하는 단계를 포함한다.
실시예 5: 선행하는 실시예 중 어느 하나에서와 같은 실시예로, 상기 제1 유전자 데이터는 복수의 상이한 유전자 데이터 세트로부터의 유전자 데이터로 구성된다.
실시예 6: 선행하는 실시예 중 어느 하나에서와 같은 실시예로, 상기 복수의 유전자와 연관된 제2 유전자 데이터를 결정하는 단계는, 상기 복수의 종양 시료와 연관된 각각의 종양에 대한 베이스라인 유전자 발현 수준을 결정하는 단계, 상기 복수의 종양 시료와 연관된 각각의 종양을 치료제로 치료하는 단계, 치료 후에, 상기 복수의 종양 시료와 연관된 어느 종양이 치료제에 대한 반응자 또는 비반응자인지 결정하는 단계, 상기 복수의 종양 시료와 연관된 각각의 종양에 대해 상기 베이스라인 유전자 발현 수준을 반응자 또는 비반응자로서, 표지하는 단계, 및 상기 표지된 베이스라인 유전자 발현 수준에 기반하여, 상기 제2 유전자 데이터를 생성하는 단계를 포함한다.
실시예 7: 실시예 5 내지 6 중 어느 하나에서와 같은 실시예로, 상기 제1 유전자 데이터 및 상기 제2 유전자 데이터에 기반하여, 상기 예측 모델에 대한 복수의 피처부를 결정하는 단계는, 상기 제1 유전자 데이터로부터, 상기 복수의 상이한 유전자 데이터 세트 중 2개 이상에 존재하는 유전자를 제1 후보 유전자 세트로서 결정하는 단계, 상기 제2 유전자 데이터로부터, 상기 복수의 종양 시료의 적어도 절반에서 2 TPM(Transcripts Per Million) 이상으로 발현된 제1 후보 유전자 세트의 유전자를 제2 후보 유전자 세트로서 결정하는 단계, 및 상기 제2 유전자 데이터로부터, 반응자와 비반응자 간의 발현 수준이 통계적으로 유의하게 증가한 제2 후보 유전자 세트의 유전자를 제3 후보 유전자 세트로서 결정하는 단계를 포함하고, 여기서 상기 복수의 피처부는 상기 제3 후보 유전자 세트를 포함한다.
실시예 8: 실시예 5 내지 7 중 어느 하나에서와 같은 실시예로, 상기 제1 유전자 데이터 및 제2 유전자 데이터에 기반하여, 상기 예측 모델에 대한 복수의 피처부를 결정하는 단계는, 상기 제3 후보 유전자 세트에 대해, 상기 제3 후보 유전자 세트와 연관된 복수의 종양 각각에 대한 종양 돌연변이 부담(TMB) 값을 결정하는 단계, 및 상기 TMB 값에 기반하여, 제4 후보 유전자 세트를 결정하는 단계를 포함하고, 여기서 상기 복수의 피처부는 상기 제4 후보 유전자 세트를 포함한다.
실시예 9: 선행하는 실시예 중 어느 하나에서와 같은 실시예로, 상기 제2 유전자 데이터의 제1 부분에 기반하여, 상기 복수의 피처부에 따른 예측 모델을 훈련하는 단계는 반응자를 나타내는 유전자 시그니처를 결정하게 한다.
실시예 10: 대상체에 대한 복수의 유전자와 연관된 베이스라인 유전자 데이터를 수신하는 단계로, 상기 복수의 유전자는 상기 대상체의 종양으로부터 시퀀싱되는, 단계, 예측 모델에, 상기 베이스라인 유전자 데이터를 제공하는 단계, 및 상기 예측 모델에 기반하여, 상기 대상체가 치료적 치료의 후보인지를 결정하는 단계를 포함한다.
실시예 11: 상기 예측 모델을 훈련하는 단계를 추가로 포함하는, 실시예 10에서와 같은 실시예.
실시예 12: 상기 예측 모델을 훈련하는 단계를 추가로 포함하는, 실시예 10 내지 11 중 어느 하나에서와 같은 실시예.
실시예 13: 실시예 10 내지 12 중 어느 하나에서와 같은 실시예로, 상기 예측 모델을 훈련하는 단계는, 상기 복수의 유전자와 연관된 제1 유전자 데이터를 결정하는 단계, 상기 복수의 유전자와 연관된 제2 유전자 데이터를 결정하는 단계로, 여기서 상기 복수의 유전자는 복수의 종양 시료로부터 시퀀싱되고, 여기서 상기 복수의 종양 시료 중 각각의 종양 시료는 반응자 또는 비반응자로 표지되는, 단계, 상기 제1 유전자 데이터 및 상기 제2 유전자 데이터에 기반하여, 상기 예측 모델에 대한 복수의 피처부를 결정하는 단계, 상기 제2 유전자 데이터의 제1 부분에 기반하여, 상기 복수의 피처부에 따른 예측 모델을 훈련하는 단계, 상기 제2 유전자 데이터의 제2 부분에 기반하여, 상기 예측 모델을 테스트하는 단계, 및 상기 테스트에 기반하여, 상기 예측 모델을 출력하는 단계를 포함한다.
실시예 14: 실시예 13에서와 같은 실시예로, 상기 복수의 유전자와 연관된 제1 유전자 데이터를 결정하는 단계는, 상기 제2 유전자 데이터에 기반하여, 상기 복수의 유전자를 결정하는 단계, 상기 복수의 유전자에 기반하여, 상기 복수의 유전자 중 적어도 하나의 유전자를 포함하는 하나 이상의 유전자 데이터 세트를 결정하는 단계, 및 상기 하나 이상의 유전자 데이터 세트에 기반하여, 상기 제1 유전자 데이터를 생성하는 단계를 포함한다.
실시예 15: 실시예 13 내지 14에서와 같은 실시예로, 상기 제1 유전자 데이터는 복수의 상이한 유전자 데이터 세트로부터의 유전자 데이터로 구성된다.
실시예 16: 실시예 13 내지 15 중 하나에서와 같은 실시예로, 상기 복수의 유전자와 연관된 제2 유전자 데이터를 결정하는 단계는, 상기 복수의 종양 시료와 연관된 각각의 종양에 대한 베이스라인 유전자 발현 수준을 결정하는 단계, 상기 복수의 종양 시료와 연관된 각각의 종양을 치료제로 치료하는 단계, 치료 후에, 상기 복수의 종양 시료와 연관된 어느 종양이 치료제에 대한 반응자 또는 비반응자인지 결정하는 단계, 상기 복수의 종양 시료와 연관된 각각의 종양에 대해 상기 베이스라인 유전자 발현 수준을 반응자 또는 비반응자로서, 표지하는 단계, 및 상기 표지된 베이스라인 유전자 발현 수준에 기반하여, 상기 제2 유전자 데이터를 생성하는 단계를 포함한다.
실시예 17: 실시예 14 내지 16 중 하나에서와 같은 실시예로, 상기 제1 유전자 데이터 및 상기 제2 유전자 데이터에 기반하여, 상기 예측 모델에 대한 복수의 피처부를 결정하는 단계는, 상기 제1 유전자 데이터로부터, 상기 복수의 상이한 유전자 데이터 세트 중 2개 이상에 존재하는 유전자를 제1 후보 유전자 세트로서 결정하는 단계, 상기 제2 유전자 데이터로부터, 상기 복수의 종양 시료의 적어도 절반에서 2 TPM(Transcripts Per Million) 이상으로 발현된 제1 후보 유전자 세트의 유전자를 제2 후보 유전자 세트로서 결정하는 단계, 및 상기 제2 유전자 데이터로부터, 반응자와 비반응자 간의 발현 수준이 통계적으로 유의하게 증가한 제2 후보 유전자 세트의 유전자를 제3 후보 유전자 세트로서 결정하는 단계를 포함하고, 여기서 상기 복수의 피처부는 상기 제3 후보 유전자 세트를 포함한다.
실시예 18: 실시예 14 내지 17 중 하나에서와 같은 실시예로, 상기 제1 유전자 데이터 및 제2 유전자 데이터에 기반하여, 상기 예측 모델에 대한 복수의 피처부를 결정하는 단계는, 상기 제3 후보 유전자 세트에 대해, 상기 제3 후보 유전자 세트와 연관된 복수의 종양 각각에 대한 종양 돌연변이 부담(TMB) 값을 결정하는 단계, 및 상기 TMB 값에 기반하여, 제4 후보 유전자 세트를 결정하는 단계를 포함하고, 여기서 상기 복수의 피처부는 상기 제4 후보 유전자 세트를 포함한다.
실시예 19: 실시예 10 내지 18 중 하나에서와 같은 실시예로, 상기 제2 유전자 데이터의 제1 부분에 기반하여, 상기 복수의 피처부에 따른 예측 모델을 훈련하는 단계는 반응자를 나타내는 유전자 시그니처를 결정하게 한다.
실시예 20: 복수의 유전자와 연관된 베이스라인 유전자 발현 데이터를 결정하는 단계로, 상기 복수의 유전자는 복수의 종양 시료와 연관되고, 상기 복수의 종양 시료 중 각각의 종양 시료는 반응자 또는 비반응자로 표지되는, 단계, 상기 복수의 유전자에 기반하여, 전사 조절자 유전자 데이터를 결정하는 단계, 상기 전사 조절자 유전자 데이터 및 상기 복수의 유전자에 기반하여, 전사 조절자(TR) 네트워크를 생성하는 단계, 상기 TR 네트워크 및 상기 베이스라인 유전자 발현 데이터에 기반하여, 전사 조절자 유전자 세트의 각각의 전사 조절자 유전자와 연관된 농축도 점수를 결정하는 단계, 및 상기 농축도 점수에 기반하여, 상기 전사 조절자 유전자 세트의 하나 이상의 예측 전사 조절자 유전자를 결정하는 단계를 포함하는, 방법.
실시예 21: 실시예 20에서와 같은 실시예로, 베이스라인 유전자 발현 데이터를 결정하는 단계는, 상기 복수의 종양 시료와 연관된 각각의 종양에 대한 베이스라인 유전자 발현 수준을 결정하는 단계, 상기 복수의 종양 시료와 연관된 각각의 종양을 치료제로 치료하는 단계, 치료 후에, 상기 복수의 종양 시료와 연관된 어느 종양이 치료제에 대한 반응자 또는 비반응자인지 결정하는 단계, 상기 복수의 종양 시료와 연관된 각각의 종양에 대해 상기 베이스라인 유전자 발현 수준을 반응자 또는 비반응자로서, 표지하는 단계, 및 상기 표지된 베이스라인 유전자 발현 수준에 기반하여, 상기 베이스라인 유전자 발현 데이터를 생성하는 단계를 포함한다.
실시예 22: 실시예 20 내지 21 중 하나에서와 같은 실시예로, 상기 복수의 유전자에 기반하여, 상기 전사 조절자 유전자 데이터를 결정하는 단계는, 전사 기능을 갖는 임의의 유전자에 대한 유전자 온톨로지 데이터베이스를 쿼리하는 단계, 상기 쿼리에 기반하여, 하나 이상의 전사 조절 유전자 및 연관된 표적 유전자를 결정하는 단계, 및 상기 하나 이상의 전사 조절 유전자 및 상기 연관된 표적 유전자에 기반하여, 상기 전사 조절자 유전자 데이터를 생성하는 단계를 포함한다.
실시예 23: 실시예 20 내지 22 중 하나에서와 같은 실시예로, 상기 전사 조절 유전자 데이터 및 상기 복수의 유전자에 기반하여, 상기 TR 네트워크를 생성하는 단계는 복수의 노드를 생성하는 단계로, 여기서 상기 복수의 노드 중 각각의 노드는 전사 조절자 유전자 또는 표적 유전자를 나타내는, 단계, 상기 복수의 노드 중 둘 이상을 하나 이상의 에지와 연결하는 단계로, 여기서 각각의 에지는 전사 조절자 유전자 및 표적 유전자 사이의 관계를 나타내는, 단계 및 상기 복수의 노드 및 상기 하나 이상의 에지를 TR 네트워크로서 저장하는 단계를 포함한다.
실시예 24: 실시예 20 내지 23 중 하나에서와 같은 실시예로, 관계는 전사 조절자 유전자가 표적 유전자의 전사를 조절하는 것을 나타낸다.
실시예 25: 상기 TR 네트워크를 정제하는 단계를 추가로 포함하는, 실시예 20 내지 24 중 하나에서와 같은 실시예.
실시예 26: 실시예 25에서와 같은 실시예로서, 상기 TR 네트워크를 정제하는 단계는 우연히 발생했을 가능성이 있는 하나 이상의 에지를 삭제하는 단계를 포함한다.
실시예 27: 실시예 20 내지 26 중 하나에서와 같은 실시예로, 전사 조절자 유전자 세트의 각각의 전사 조절자 유전자와 연관된 농축도 점수는 상기 전사 조절자 유전자와 연관된 베이스라인 유전자 발현 데이터에서 하나 이상의 유전자와 연관된 하나 이상의 농축도 점수에 기초한다.
실시예 28: 실시예 20 내지 27 중 하나에서와 같은 실시예로, 상기 농축도 점수에 기반하여, 상기 전사 조절자 유전자 세트의 하나 이상의 예측 전사 조절자 유전자를 결정하는 단계는, 상기 전사 조절자 유전자 세트의 각각의 전사 조절자 유전자에 대한 반응자 대 비반응자의 농축도 점수 비율을 결정하는 단계, 및 반응자와 통계적으로 유의한 연관성을 갖는 전사 조절자 유전자 세트의 전사 조절자 유전자를 상기 하나 이상의 예측 전사 조절자 유전자로서 결정하는 단계를 포함한다.
실시예 29: 대상체에 대한 추가 베이스라인 유전자 발현 데이터를 결정하는 단계, 상기 추가 베이스라인 유전자 발현 데이터에서 하나 이상의 예측 전사 조절자 유전자의 존재를 결정하는 단계, 및 상기 추가 베이스라인 유전자 발현 데이터에서 상기 하나 이상의 예측 전사 조절자 유전자의 존재에 기반하여, 대상체가 치료적 치료의 후보인지 결정하는 단계를 추가로 포함하는, 실시예 20 내지 28 중 하나에서와 같은 실시예.
본 방법 및 시스템은 바람직한 실시예 및 특정 실시예와 관련하여 설명되었지만, 본원의 실시예는 모든 면에서 제한적이 아니라 예시적이므로 본 발명의 범주가 제시된 특정 실시예에 한정되는 것으로 의도되지 않아야 한다.
달리 명시적으로 언급되지 않는 한, 본원에 기재된 임의의 방법은 그 단계가 특정 순서로 수행될 것을 요구하는 것으로서 간주되도록 의도되지 않는다. 따라서, 방법 청구항이 방법의 단계들이 따라야 할 순서를 실제로 나열하지 않거나, 단계들이 특정 순서로 한정될 것을 청구범위 또는 명세서에서 달리 구체적으로 기재하지 않는 한, 어떤 면에서도 순서가 이에 따라 추론되는 것으로 의도되지 않는다. 이는, 다음을 포함하여, 해석을 위한 모든 가능한 비 명시적 근거를 포함한다: 단계 또는 작동 순서의 배치에 관한 논리적 문제; 문법적 구조 또는 구두점에서 파생된 명백한 의미; 명세서에 기술된 실시예의 수 또는 유형.
다양한 변형 및 변화가 범위 또는 사상을 벗어나지 않고 이루어질 수 있다는 것이 당업자에게 명백할 것이다. 다른 실시예가 본 명세서 및 본 명세서에 개시된 실시의 고려로부터 당업자에게 명백할 것이다. 본 명세서 및 실시예는 단지 예시적인 것으로만 간주되어야 하며, 진정한 범주 및 사상은 다음의 청구범위에 의해 표시된다.

Claims (38)

  1. 방법으로서,
    복수의 유전자와 연관된 제1 유전자 데이터를 결정하는 단계;
    상기 복수의 유전자와 연관된 제2 유전자 데이터를 결정하는 단계로, 여기서 상기 복수의 유전자는 복수의 종양 시료로부터 시퀀싱되고, 여기서 상기 복수의 종양 시료 중 각각의 종양 시료는 반응자 또는 비반응자로 표지되는, 단계;
    상기 제1 유전자 데이터 및 상기 제2 유전자 데이터에 기반하여, 예측 모델에 대한 복수의 피처부를 결정하는 단계;
    상기 제2 유전자 데이터의 제1 부분에 기반하여, 상기 복수의 피처부에 따른 예측 모델을 훈련하는 단계;
    상기 제2 유전자 데이터의 제2 부분에 기반하여, 상기 예측 모델을 테스트하는 단계; 및
    상기 테스트에 기반하여, 상기 예측 모델을 출력하는 단계를 포함하는, 방법.
  2. 제1항에 있어서, 상기 복수의 유전자와 연관된 제1 유전자 데이터를 결정하는 단계는 공개 데이터 소스로부터 제1 유전자 데이터를 검색하는 단계를 포함하는, 방법.
  3. 제1항 또는 제2항에 있어서, 상기 복수의 유전자는 면역 세포 유형/기능 유전자 세트, 종양 미세환경 컴포넌트 및 신호 전달 유전자 세트, 또는 암 세포 증식 및 DNA 복구 유전자 세트 중 하나 이상을 포함하는, 방법.
  4. 제1항 내지 제3항 중 어느 한 항에 있어서, 상기 복수의 유전자와 연관된 제1 유전자 데이터를 결정하는 단계는,
    상기 제2 유전자 데이터에 기반하여, 상기 복수의 유전자를 결정하는 단계;
    상기 복수의 유전자에 기반하여, 상기 복수의 유전자 중 적어도 하나의 유전자를 포함하는 하나 이상의 유전자 데이터 세트를 결정하는 단계; 및
    상기 하나 이상의 유전자 데이터 세트에 기반하여, 상기 제1 유전자 데이터를 생성하는 단계를 포함하는, 방법.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서, 상기 제1 유전자 데이터는 복수의 상이한 유전자 데이터 세트로부터의 유전자 데이터로 구성되는, 방법.
  6. 제1항 내지 제5항 중 어느 한 항에 있어서, 상기 복수의 유전자와 연관된 제2 유전자 데이터를 결정하는 단계는,
    상기 복수의 종양 시료와 연관된 각각의 종양에 대한 베이스라인 유전자 발현 수준을 결정하는 단계;
    상기 복수의 종양 시료와 연관된 각각의 종양을 치료제로 치료하는 단계;
    치료 후에, 상기 복수의 종양 시료와 연관된 어느 종양이 치료제에 대한 반응자 또는 비반응자인지 결정하는 단계;
    상기 복수의 종양 시료와 연관된 각각의 종양에 대해 상기 베이스라인 유전자 발현 수준을 반응자 또는 비반응자로서, 표지하는 단계; 및
    상기 표지된 베이스라인 유전자 발현 수준에 기반하여, 상기 제2 유전자 데이터를 생성하는 단계를 포함하는, 방법.
  7. 제5항 또는 제6항에 있어서, 상기 제1 유전자 데이터 및 상기 제2 유전자 데이터에 기반하여, 상기 예측 모델에 대한 복수의 피처부를 결정하는 단계는,
    상기 제1 유전자 데이터로부터, 상기 복수의 상이한 유전자 데이터 세트 중 2개 이상에 존재하는 유전자를 제1 후보 유전자 세트로서 결정하는 단계;
    상기 제2 유전자 데이터로부터, 상기 복수의 종양 시료의 적어도 절반에서 2 TPM(Transcripts Per Million) 이상으로 발현된 제1 후보 유전자 세트의 유전자를 제2 후보 유전자 세트로서 결정하는 단계; 및
    상기 제2 유전자 데이터로부터, 반응자와 비반응자 간의 발현 수준이 통계적으로 유의하게 증가한 제2 후보 유전자 세트의 유전자를 제3 후보 유전자 세트로서 결정하는 단계를 포함하고,
    여기서 상기 복수의 피처부는 상기 제3 후보 유전자 세트를 포함하는, 방법.
  8. 제7항에 있어서, 상기 제1 유전자 데이터 및 상기 제2 유전자 데이터에 기반하여, 상기 예측 모델에 대한 복수의 피처부를 결정하는 단계는,
    상기 제3 후보 유전자 세트에 대해, 상기 제3 후보 유전자 세트와 연관된 복수의 종양 각각에 대한 종양 돌연변이 부담(TMB) 값을 결정하는 단계; 및
    상기 TMB 값에 기반하여, 제4 후보 유전자 세트를 결정하는 단계를 포함하고,
    여기서 상기 복수의 피처부는 상기 제4 후보 유전자 세트를 포함하는, 방법.
  9. 제1항 내지 제8항 중 어느 한 항에 있어서, 상기 제2 유전자 데이터의 제1 부분에 기반하여, 상기 복수의 피처부에 따른 예측 모델을 훈련하는 단계는 반응자를 나타내는 유전자 시그니처를 결정하게 하는, 방법.
  10. 프로세서에 의해 실행될 때, 상기 프로세서로 하여금 제1항 내지 제8항 중 어느 한 항의 방법을 수행하게 하는, 프로세서 실행가능 명령어를 저장하는 하나 이상의 비일시적 컴퓨터 판독가능 매체.
  11. 시스템으로서,
    제1항 내지 제8항 중 어느 한 항의 방법을 수행하도록 구성된 연산 장치; 및
    복수의 피처부를 수신하도록 구성된 예측 모델을 포함하는, 시스템.
  12. 장치로서,
    하나 이상의 프로세서; 및
    상기 하나 이상의 프로세서에 의해 실행될 때, 상기 장치로 하여금 제1항 내지 제8항 중 어느 한 항의 방법을 수행하게 하는, 프로세서 실행가능 명령어를 저장하는 메모리를 포함하는, 장치.
  13. 방법으로서,
    대상체에 대한 복수의 유전자와 연관된 베이스라인 유전자 데이터를 수신하는 단계로, 상기 복수의 유전자는 상기 대상체의 종양으로부터 시퀀싱되는, 단계;
    예측 모델에, 상기 베이스라인 유전자 데이터를 제공하는 단계; 및
    상기 예측 모델에 기반하여, 상기 대상체가 치료적 치료의 후보인지를 결정하는 단계를 포함하는, 방법.
  14. 제13항에 있어서, 상기 치료적 치료로 상기 대상체를 치료하는 단계를 추가로 포함하는, 방법.
  15. 제13항 또는 제14항에 있어서, 상기 예측 모델을 훈련하는 단계를 추가로 포함하는, 방법.
  16. 제15항에 있어서, 상기 예측 모델을 훈련하는 단계는,
    상기 복수의 유전자와 연관된 제1 유전자 데이터를 결정하는 단계;
    상기 복수의 유전자와 연관된 제2 유전자 데이터를 결정하는 단계로, 여기서 상기 복수의 유전자는 복수의 종양 시료로부터 시퀀싱되고, 여기서 상기 복수의 종양 시료 중 각각의 종양 시료는 반응자 또는 비반응자로 표지되는, 단계;
    상기 제1 유전자 데이터 및 상기 제2 유전자 데이터에 기반하여, 상기 예측 모델에 대한 복수의 피처부를 결정하는 단계;
    상기 제2 유전자 데이터의 제1 부분에 기반하여, 상기 복수의 피처부에 따른 예측 모델을 훈련하는 단계;
    상기 제2 유전자 데이터의 제2 부분에 기반하여, 상기 예측 모델을 테스트하는 단계; 및
    상기 테스트에 기반하여, 상기 예측 모델을 출력하는 단계를 포함하는, 방법.
  17. 제16항에 있어서, 상기 복수의 유전자와 연관된 제1 유전자 데이터를 결정하는 단계는,
    상기 제2 유전자 데이터에 기반하여, 상기 복수의 유전자를 결정하는 단계;
    상기 복수의 유전자에 기반하여, 상기 복수의 유전자 중 적어도 하나의 유전자를 포함하는 하나 이상의 유전자 데이터 세트를 결정하는 단계; 및
    상기 하나 이상의 유전자 데이터 세트에 기반하여, 상기 제1 유전자 데이터를 생성하는 단계를 포함하는, 방법.
  18. 제16항 또는 제17항에 있어서, 상기 제1 유전자 데이터는 복수의 상이한 유전자 데이터 세트로부터의 유전자 데이터로 구성되는, 방법.
  19. 제16항 내지 제18항 중 어느 한 항에 있어서, 상기 복수의 유전자와 연관된 제2 유전자 데이터를 결정하는 단계는,
    상기 복수의 종양 시료와 연관된 각각의 종양에 대한 베이스라인 유전자 발현 수준을 결정하는 단계;
    상기 복수의 종양 시료와 연관된 각각의 종양을 치료제로 치료하는 단계;
    치료 후에, 상기 복수의 종양 시료와 연관된 어느 종양이 치료제에 대한 반응자 또는 비반응자인지 결정하는 단계;
    상기 복수의 종양 시료와 연관된 각각의 종양에 대해 상기 베이스라인 유전자 발현 수준을 반응자 또는 비반응자로서, 표지하는 단계; 및
    상기 표지된 베이스라인 유전자 발현 수준에 기반하여, 상기 제2 유전자 데이터를 생성하는 단계를 포함하는, 방법.
  20. 제18항 또는 제19항에 있어서, 상기 제1 유전자 데이터 및 상기 제2 유전자 데이터에 기반하여, 상기 예측 모델에 대한 복수의 피처부를 결정하는 단계는,
    상기 제1 유전자 데이터로부터, 상기 복수의 상이한 유전자 데이터 세트 중 2개 이상에 존재하는 유전자를 제1 후보 유전자 세트로서 결정하는 단계;
    상기 제2 유전자 데이터로부터, 상기 복수의 종양 시료의 적어도 절반에서 2 TPM(Transcripts Per Million) 이상으로 발현된 제1 후보 유전자 세트의 유전자를 제2 후보 유전자 세트로서 결정하는 단계; 및
    상기 제2 유전자 데이터로부터, 반응자와 비반응자 간의 발현 수준이 통계적으로 유의하게 증가한 제2 후보 유전자 세트의 유전자를 제3 후보 유전자 세트로서 결정하는 단계를 포함하고,
    여기서 상기 복수의 피처부는 상기 제3 후보 유전자 세트를 포함하는, 방법.
  21. 제20항에 있어서, 상기 제1 유전자 데이터 및 상기 제2 유전자 데이터에 기반하여, 상기 예측 모델에 대한 복수의 피처부를 결정하는 단계는,
    상기 제3 후보 유전자 세트에 대해, 상기 제3 후보 유전자 세트와 연관된 복수의 종양 각각에 대한 종양 돌연변이 부담(TMB) 값을 결정하는 단계; 및
    상기 TMB 값에 기반하여, 제4 후보 유전자 세트를 결정하는 단계를 포함하고,
    여기서 상기 복수의 피처부는 상기 제4 후보 유전자 세트를 포함하는, 방법.
  22. 제16항 내지 제21항 중 어느 한 항에 있어서, 상기 제2 유전자 데이터의 제1 부분에 기반하여, 상기 복수의 피처부에 따른 예측 모델을 훈련하는 단계는 반응자를 나타내는 유전자 시그니처를 결정하게 하는, 방법.
  23. 프로세서에 의해 실행될 때, 상기 프로세서로 하여금 제13항 내지 제22항 중 어느 한 항의 방법을 수행하게 하는, 프로세서 실행가능 명령어를 저장하는 하나 이상의 비일시적 컴퓨터 판독가능 매체.
  24. 시스템으로서,
    제13항 내지 제22항 중 어느 한 항의 방법을 수행하도록 구성된 연산 장치; 및
    베이스라인 유전자 데이터를 수신하도록 구성된 예측 모델을 포함하는, 시스템.
  25. 장치로서,
    하나 이상의 프로세서; 및
    상기 하나 이상의 프로세서에 의해 실행될 때, 상기 장치로 하여금 제13항 내지 제22항 중 어느 한 항의 방법을 수행하게 하는, 프로세서 실행가능 명령어를 저장하는 메모리를 포함하는, 장치.
  26. 방법으로서,
    복수의 유전자와 연관된 베이스라인 유전자 발현 데이터를 결정하는 단계로, 상기 복수의 유전자는 복수의 종양 시료와 연관되고, 상기 복수의 종양 시료 중 각각의 종양 시료는 반응자 또는 비반응자로 표지되는, 단계;
    상기 복수의 유전자에 기반하여, 전사 조절자 유전자 데이터를 결정하는 단계;
    상기 전사 조절자 유전자 데이터 및 상기 복수의 유전자에 기반하여, 전사 조절자(TR) 네트워크를 생성하는 단계;
    상기 TR 네트워크 및 상기 베이스라인 유전자 발현 데이터에 기반하여, 전사 조절자 유전자 세트의 각각의 전사 조절자 유전자와 연관된 농축도 점수를 결정하는 단계; 및
    상기 농축도 점수에 기반하여, 상기 전사 조절자 유전자 세트의 하나 이상의 예측 전사 조절자 유전자를 결정하는 단계를 포함하는, 방법.
  27. 제26항에 있어서, 베이스라인 유전자 발현 데이터를 결정하는 단계는,
    상기 복수의 종양 시료와 연관된 각각의 종양에 대한 베이스라인 유전자 발현 수준을 결정하는 단계;
    상기 복수의 종양 시료와 연관된 각각의 종양을 치료제로 치료하는 단계;
    치료 후에, 상기 복수의 종양 시료와 연관된 어느 종양이 치료제에 대한 반응자 또는 비반응자인지 결정하는 단계;
    상기 복수의 종양 시료와 연관된 각각의 종양에 대해 상기 베이스라인 유전자 발현 수준을 반응자 또는 비반응자로서, 표지하는 단계; 및
    상기 표지된 베이스라인 유전자 발현 수준에 기반하여, 상기 베이스라인 유전자 발현 데이터를 생성하는 단계를 포함하는, 방법.
  28. 제26항 또는 제27항에 있어서, 상기 복수의 유전자에 기반하여, 상기 전사 조절자 유전자 데이터를 결정하는 단계는,
    전사 기능을 갖는 임의의 유전자에 대한 유전자 온톨로지 데이터베이스를 쿼리하는 단계;
    상기 쿼리에 기반하여, 하나 이상의 전사 조절 유전자 및 연관된 표적 유전자를 결정하는 단계; 및
    상기 하나 이상의 전사 조절 유전자 및 상기 연관된 표적 유전자에 기반하여, 상기 전사 조절자 유전자 데이터를 생성하는 단계를 포함하는, 방법.
  29. 제26항 내지 제28항 중 어느 한 항에 있어서, 상기 전사 조절 유전자 데이터 및 상기 복수의 유전자에 기반하여, 상기 TR 네트워크를 생성하는 단계는,
    복수의 노드를 생성하는 단계로, 여기서 상기 복수의 노드 중 각각의 노드는 전사 조절자 유전자 또는 표적 유전자를 나타내는, 단계;
    상기 복수의 노드 중 둘 이상을 하나 이상의 에지와 연결하는 단계로, 여기서 각각의 에지는 전사 조절자 유전자 및 표적 유전자 사이의 관계를 나타내는, 단계; 및
    상기 복수의 노드 및 상기 하나 이상의 에지를 TR 네트워크로서 저장하는 단계를 포함하는, 방법.
  30. 제29항에 있어서, 상기 관계는 전사 조절자 유전자가 표적 유전자의 전사를 조절하는 것을 나타내는, 방법.
  31. 제29항 또는 제30항에 있어서, 상기 TR 네트워크를 정제하는 단계를 추가로 포함하는, 방법.
  32. 제31항에 있어서, 상기 TR 네트워크를 정제하는 단계는 우연히 발생했을 가능성이 있는 하나 이상의 에지를 삭제하는 단계를 포함하는, 방법.
  33. 제26항 내지 제32항 중 어느 한 항에 있어서, 상기 전사 조절자 유전자 세트의 각각의 전사 조절자 유전자와 연관된 농축도 점수는 상기 전사 조절자 유전자와 연관된 베이스라인 유전자 발현 데이터에서 하나 이상의 유전자와 연관된 하나 이상의 농축도 점수에 기초하는, 방법.
  34. 제26항 내지 제33항 중 어느 한 항에 있어서, 상기 농축도 점수에 기반하여, 상기 전사 조절자 유전자 세트의 하나 이상의 예측 전사 조절자 유전자를 결정하는 단계는,
    상기 전사 조절자 유전자 세트의 각각의 전사 조절자 유전자에 대한 반응자 대 비반응자의 농축도 점수 비율을 결정하는 단계; 및
    반응자와 통계적으로 유의한 연관성을 갖는 전사 조절자 유전자 세트의 전사 조절자 유전자를 상기 하나 이상의 예측 전사 조절자 유전자로서 결정하는 단계를 포함하는, 방법.
  35. 제26항 내지 제34항 중 어느 한 항에 있어서,
    대상체에 대한 추가 베이스라인 유전자 발현 데이터를 결정하는 단계;
    상기 추가 베이스라인 유전자 발현 데이터에서 하나 이상의 예측 전사 조절자 유전자의 존재를 결정하는 단계; 및
    상기 추가 베이스라인 유전자 발현 데이터에서 상기 하나 이상의 예측 전사 조절자 유전자의 존재에 기반하여, 대상체가 치료적 치료의 후보인지 결정하는 단계를 추가로 포함하는, 방법.
  36. 프로세서에 의해 실행될 때, 상기 프로세서로 하여금 제26항 내지 제35항 중 어느 한 항의 방법을 수행하게 하는, 프로세서 실행가능 명령어를 저장하는 하나 이상의 비일시적 컴퓨터 판독가능 매체.
  37. 시스템으로서,
    제26항 내지 제35항 중 어느 한 항의 방법을 수행하도록 구성된 연산 장치; 및
    복수의 유전자와 연관된 베이스라인 유전자 발현 데이터를 출력하도록 구성된 데이터 출력 장치를 포함하는, 시스템.
  38. 장치로서,
    하나 이상의 프로세서; 및
    상기 하나 이상의 프로세서에 의해 실행될 때, 상기 장치로 하여금 제26항 내지 제35항 중 어느 한 항의 방법을 수행하게 하는, 프로세서 실행가능 명령어를 저장하는 메모리를 포함하는, 장치.














KR1020227036068A 2020-03-17 2021-03-17 치료에 대한 반응자 결정 방법 및 시스템 KR20220159405A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202062990814P 2020-03-17 2020-03-17
US62/990,814 2020-03-17
PCT/US2021/022792 WO2021188694A1 (en) 2020-03-17 2021-03-17 Methods and systems for determining responders to treatment

Publications (1)

Publication Number Publication Date
KR20220159405A true KR20220159405A (ko) 2022-12-02

Family

ID=75439556

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020227036068A KR20220159405A (ko) 2020-03-17 2021-03-17 치료에 대한 반응자 결정 방법 및 시스템

Country Status (9)

Country Link
US (1) US20210295952A1 (ko)
EP (1) EP4121964A1 (ko)
JP (1) JP2023518424A (ko)
KR (1) KR20220159405A (ko)
CN (1) CN115668381A (ko)
AU (1) AU2021237626A1 (ko)
CA (1) CA3172185A1 (ko)
IL (1) IL296568A (ko)
WO (1) WO2021188694A1 (ko)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017161188A1 (en) * 2016-03-16 2017-09-21 The Regents Of The University Of California Detection and treatment of anti-pd-1 therapy resistant metastatic melanomas
US20190360051A1 (en) * 2017-02-17 2019-11-28 Stichting Vumc Swarm intelligence-enhanced diagnosis and therapy selection for cancer using tumor- educated platelets
US20190214136A1 (en) * 2017-07-11 2019-07-11 Regents Of The University Of Minnesota Predictive biomarkers of drug response in malignancies

Also Published As

Publication number Publication date
CA3172185A1 (en) 2021-09-23
EP4121964A1 (en) 2023-01-25
IL296568A (en) 2022-11-01
US20210295952A1 (en) 2021-09-23
CN115668381A (zh) 2023-01-31
JP2023518424A (ja) 2023-05-01
AU2021237626A1 (en) 2022-11-10
WO2021188694A1 (en) 2021-09-23

Similar Documents

Publication Publication Date Title
Lee et al. Review of statistical methods for survival analysis using genomic data
Iniesta et al. Machine learning, statistical learning and the future of biological research in psychiatry
Azadifar et al. Graph-based relevancy-redundancy gene selection method for cancer diagnosis
Wang et al. Fast clustering using adaptive density peak detection
Baştanlar et al. Introduction to machine learning
Alloghani et al. Implementation of machine learning algorithms to create diabetic patient re-admission profiles
US11574718B2 (en) Outcome driven persona-typing for precision oncology
Padula et al. Machine learning methods in health economics and outcomes research—the PALISADE checklist: a good practices report of an ISPOR task force
Kourou et al. A machine learning-based pipeline for modeling medical, socio-demographic, lifestyle and self-reported psychological traits as predictors of mental health outcomes after breast cancer diagnosis: An initial effort to define resilience effects
Luo et al. Identifying disease-gene associations with graph-regularized manifold learning
US10665347B2 (en) Methods for predicting prognosis
Vitali et al. Patient similarity by joint matrix trifactorization to identify subgroups in acute myeloid leukemia
Novianti et al. Factors affecting the accuracy of a class prediction model in gene expression data
Chen et al. Improved interpretability of machine learning model using unsupervised clustering: predicting time to first treatment in chronic lymphocytic leukemia
Kowald et al. Transfer learning of clinical outcomes from preclinical molecular data, principles and perspectives
De Riso et al. Artificial intelligence for epigenetics: towards personalized medicine
Khakabimamaghani et al. Substra: supervised bayesian patient stratification
Wang et al. Benchmarking automated cell type annotation tools for single-cell ATAC-seq data
US20210295952A1 (en) Methods and systems for determining responders to treatment
Chandrakar et al. Design of a novel ensemble model of classification technique for gene-expression data of lung cancer with modified genetic algorithm
Robinson et al. Machine learning in epigenetic diseases
Povoa et al. A Multi-Learning Training Approach for distinguishing low and high risk cancer patients
Tiwari et al. Breast cancer survival prediction using machine learning
Qian et al. A recursive framework for predicting the time-course of drug sensitivity
US20240185974A1 (en) Systems and method for electronic evaluation of responders and non-responders for one or more drugs

Legal Events

Date Code Title Description
A201 Request for examination