KR20230008020A - 분자 바이오마커 데이터세트 전반에 걸친 예측 서명의 견고성 및 전송가능성 평가 - Google Patents

분자 바이오마커 데이터세트 전반에 걸친 예측 서명의 견고성 및 전송가능성 평가 Download PDF

Info

Publication number
KR20230008020A
KR20230008020A KR1020227028760A KR20227028760A KR20230008020A KR 20230008020 A KR20230008020 A KR 20230008020A KR 1020227028760 A KR1020227028760 A KR 1020227028760A KR 20227028760 A KR20227028760 A KR 20227028760A KR 20230008020 A KR20230008020 A KR 20230008020A
Authority
KR
South Korea
Prior art keywords
molecular biomarkers
signature
datasets
output
computer program
Prior art date
Application number
KR1020227028760A
Other languages
English (en)
Inventor
미하 스타즈도하르
루카 아우섹
마차즈 즈가넥
라파엘 로젠가르텐
Original Assignee
제니알리스 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 제니알리스 인코포레이티드 filed Critical 제니알리스 인코포레이티드
Publication of KR20230008020A publication Critical patent/KR20230008020A/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/112Disease subtyping, staging or classification
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/158Expression markers
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • Theoretical Computer Science (AREA)
  • Public Health (AREA)
  • Databases & Information Systems (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Organic Chemistry (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Genetics & Genomics (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Bioethics (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Analytical Chemistry (AREA)
  • Molecular Biology (AREA)
  • Immunology (AREA)
  • Primary Health Care (AREA)
  • Microbiology (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Hospice & Palliative Care (AREA)
  • Oncology (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

본 발명의 개시의 구현예는 유전자 및 다른 분자 바이오마커 서명의 분석에 관한 것이고, 보다 구체적으로, 유전체, 단백질체, 또는 대사체 데이터세트 전반에 걸친 예측 서명의 견고성 및 전송가능성을 평가하는 것에 관한 것이다.

Description

분자 바이오마커 데이터세트 전반에 걸친 예측 서명의 견고성 및 전송가능성 평가
관련 출원에 대한 교차 참조
[0001] 본 출원은 2020년 1월 21일에 출원된 미국 가출원 번호 62/963,735호의 이익을 주장하며, 이는 그 전체가 본원에 참조로서 포함된다.
[0002] 본 발명의 개시의 구현예는 유전자 및 다른 분자 바이오마커 서명의 분석에 관한 것이고, 보다 구체적으로, 유전체, 단백질체, 또는 대사체 데이터세트전반에 걸친 예측 서명의 견고성 및 전송가능성(transferability)을 평가하는 것에 관한 것이다.
[0003] 본 발명의 개시의 구현예에 따르면, 전송가능한 분자 바이오마커 서명을 결정하기 위한 방법 및 컴퓨터 프로그램 제품이 제공된다. 다양한 구현예에서, 적어도 하나의 서명이 판독된다. 각각의 서명은 제1 복수의 분자 바이오마커를 복수의 출력 분류 중 하나와 관련시킨다. 복수의 데이터세트 각각에 대해, 제1 복수의 분자 바이오마커 각각의 발현 값은 복수의 출력 분류 각각에 대해 표준화되어, 각각이 제1 복수의 분자 바이오마커 중 하나, 복수의 출력 분류 중 하나, 및 복수의 데이터세트 중 하나와 관련된 복수의 표준화된 발현을 산출한다. 제1 복수의 분자 바이오마커 각각에 대해, 상기 분자 바이오마커와 관련된 표준화된 발현 사이에 쌍별 비교가 수행된다. 각각의 쌍별 비교는 동일한 출력 분류 및 상이한 데이터세트와 관련된 표준화된 발현 사이에서 이루어지며, 이에 의해 복수의 분자 바이오마커 각각에 대한 전송가능성 스코어를 결정한다. 제1 복수의 분자 바이오마커는 이의 전송가능성 스코어에 기초하여 순위가 매겨진다. 제2 복수의 분자 바이오마커는 제1 복수의 분자 바이오마커에 전송가능성 스코어 임계값을 적용함으로써 제1 복수의 분자 바이오마커로부터 생성된다.
[0004] 일부 구현예에서, 제1 복수의 분자 바이오마커 각각은 유전자이다. 일부 구현예에서, 제1 복수의 분자 바이오마커 각각은 단백질이다. 일부 구현예에서, 각각의 서명은 맵핑 함수를 포함한다. 일부 구현예에서, 각각의 서명은 복수의 시냅스 가중치를 포함한다. 일부 구현예에서, 각각의 출력 분류는 표현형을 포함한다. 일부 구현예에서, 표현형은 질병 표현형이다. 일부 구현예에서, 상기 표준화는 분위수 표준화를 포함한다. 일부 구현예에서, 상기 표준화는 미리 결정된 참조 분포에 대한 것이다. 일부 구현예에서, 쌍별 비교를 수행하는 것은 콜모고로프-스미르노프(Kolmogorov-Smirnov) 통계를 계산하는 것을 포함한다.
[0005] 일부 구현예에서, 전송가능성 스코어를 결정하는 것은 쌍별 비교의 평균을 계산하는 것을 포함한다. 일부 구현예에서, 복수의 데이터세트는 복수의 플랫폼 기술 각각으로부터 유래된 적어도 하나의 데이터세트를 포함한다. 일부 구현예에서, 플랫폼 기술은 마이크로어레이 및 RNA-시퀀싱을 포함한다. 일부 구현예에서, 플랫폼 기술은 질량 분광법, ELISA, 항체 어레이, 펩티드 핑거프린팅, 및/또는 단백질 바코딩을 포함한다. 일부 구현예에서, 복수의 데이터세트 각각은 동일한 생물학적 샘플로부터 유래된다.
[0006] 본 발명의 개시의 구현예에 따르면, 프로그램 명령어가 구현된 컴퓨터 판독 가능한 저장 매체를 포함하는 컴퓨팅 노드가 제공된다. 프로그램 명령어는 컴퓨팅 노드의 프로세서에 의해 실행되어 프로세서가 다음과 같은 방법을 수행하게 한다. 제1 서명이 판독된다. 제1 서명은 제1 복수의 분자 바이오마커를 복수의 출력 분류 중 제1 출력 분류와 관련시킨다. 복수의 데이터세트 각각에 대해, 제1 복수의 분자 바이오마커 각각의 발현 값은 복수의 출력 분류 각각에 대해 표준화되어, 각각이 제1 복수의 분자 바이오마커 중 하나, 복수의 출력 분류 중 하나, 및 복수의 데이터세트 중 하나와 관련된 복수의 표준화된 발현을 산출한다. 제1 복수의 분자 바이오마커 각각에 대해, 상기 분자 바이오마커와 관련된 표준화된 발현 사이에 쌍별 비교가 수행된다. 각각의 쌍별 비교는 동일한 출력 분류 및 상이한 데이터세트와 관련된 표준화된 발현 사이에서 이루어지며, 이에 의해 복수의 분자 바이오마커 각각에 대한 전송가능성 스코어를 결정한다. 제1 복수의 분자 바이오마커는 이의 전송가능성 스코어에 기초하여 순위가 매겨진다. 제2 복수의 분자 바이오마커는 제1 복수의 분자 바이오마커에 전송가능성 스코어 임계값을 적용함으로써 제1 복수의 분자 바이오마커로부터 생성된다.
[0007] 일부 구현예에서, 제1 복수의 분자 바이오마커 각각은 유전자이다. 일부 구현예에서, 제1 복수의 분자 바이오마커 각각은 단백질이다. 일부 구현예에서, 각각의 서명은 복수의 시냅스 가중치를 포함한다. 일부 구현예에서, 각각의 서명은 맵핑 함수를 포함한다. 일부 구현예에서, 각각의 출력 분류는 표현형을 포함한다. 일부 구현예에서, 표현형은 질병 표현형이다. 일부 구현예에서, 상기 표준화는 분위수 표준화를 포함한다. 일부 구현예에서, 상기 표준화는 미리 결정된 참조 분포에 대한 것이다. 일부 구현예에서, 쌍별 비교를 수행하는 것은 콜모고로프-스미르노프 통계를 계산하는 것을 포함한다.
[0008] 일부 구현예에서, 전송가능성 스코어를 결정하는 것은 쌍별 비교의 평균을 계산하는 것을 포함한다. 일부 구현예에서, 복수의 데이터세트는 복수의 플랫폼 기술 각각으로부터 유래된 적어도 하나의 데이터세트를 포함한다. 일부 구현예에서, 플랫폼 기술은 마이크로어레이 및 RNA-시퀀싱을 포함한다. 일부 구현예에서, 플랫폼 기술은 질량 분광법, ELISA, 항체 어레이, 펩티드 핑거프린팅, 및/또는 단백질 바코딩을 포함한다. 일부 구현예에서, 복수의 데이터세트 각각은 동일한 생물학적 샘플로부터 유래된다.
[0009] 다양한 구현예에서, 프로그램 명령어가 구현된 컴퓨터 판독 가능한 저장 매체가 제공되고, 프로그램 명령어는 프로세서에 의해 실행되어 프로세서가 다음과 같은 방법을 수행하게 한다. 적어도 하나의 서명이 판독된다. 각각의 서명은 제1 복수의 분자 바이오마커를 복수의 출력 분류 중 하나와 관련시킨다. 복수의 데이터세트 각각에 대해, 제1 복수의 분자 바이오마커 각각의 발현 값은 복수의 출력 분류 각각에 대해 표준화되어, 각각이 제1 복수의 분자 바이오마커 중 하나, 복수의 출력 분류 중 하나, 및 복수의 데이터세트 중 하나와 관련된 복수의 표준화된 발현을 산출한다. 제1 복수의 분자 바이오마커 각각에 대해, 상기 분자 바이오마커와 관련된 표준화된 발현 사이에 쌍별 비교가 수행된다. 각각의 쌍별 비교는 동일한 출력 분류 및 상이한 데이터세트와 관련된 표준화된 발현 사이에서 이루어지며, 이에 의해 복수의 분자 바이오마커 각각에 대한 전송가능성 스코어를 결정한다. 제1 복수의 분자 바이오마커는 이의 전송가능성 스코어에 기초하여 순위가 매겨진다. 제2 복수의 분자 바이오마커는 제1 복수의 분자 바이오마커에 전송가능성 스코어 임계값을 적용함으로써 제1 복수의 분자 바이오마커로부터 생성된다.
[0010] 일부 구현예에서, 제1 복수의 분자 바이오마커 각각은 유전자이다. 일부 구현예에서, 제1 복수의 분자 바이오마커 각각은 단백질이다. 일부 구현예에서, 각각의 서명은 복수의 시냅스 가중치를 포함한다. 일부 구현예에서, 각각의 서명은 맵핑 함수를 포함한다. 일부 구현예에서, 각각의 출력 분류는 표현형을 포함한다. 일부 구현예에서, 표현형은 질병 표현형이다. 일부 구현예에서, 상기 표준화는 분위수 표준화를 포함한다. 일부 구현예에서, 상기 표준화는 미리 결정된 참조 분포에 대한 것이다. 일부 구현예에서, 쌍별 비교를 수행하는 것은 콜모고로프-스미르노프 통계를 계산하는 것을 포함한다.
[0011] 일부 구현예에서, 전송가능성 스코어를 결정하는 것은 쌍별 비교의 평균을 계산하는 것을 포함한다. 일부 구현예에서, 복수의 데이터세트는 복수의 플랫폼 기술 각각으로부터 유래된 적어도 하나의 데이터세트를 포함한다. 일부 구현예에서, 플랫폼 기술은 마이크로어레이 및 RNA-시퀀싱을 포함한다. 일부 구현예에서, 플랫폼 기술은 질량 분광법, ELISA, 항체 어레이, 펩티드 핑거프린팅, 및/또는 단백질 바코딩을 포함한다. 일부 구현예에서, 복수의 데이터세트 각각은 동일한 생물학적 샘플로부터 유래된다.
[0012] 본 발명의 개시의 구현예에 따르면, 데이터세트 전반에 걸친 예측 서명의 견고성 및 전송가능성을 평가하기 위한 방법 및 컴퓨터 프로그램 제품이 제공된다. 다양한 구현예에서, 방법은 적어도 하나의 서명을 판독한다. 각각의 서명은 제1 복수의 분자 바이오마커를 복수의 출력 분류 중 하나와 관련시킨다. 복수의 데이터세트 각각에 대해, 데이터세트의 쌍 각각은 상이한 플랫폼 기술 및 생물학적 샘플로부터 유래되고, 데이터세트 쌍 사이의 제1 복수의 분자 바이오마커 각각에 대한 상관 계수가 결정된다. 복수의 출력 분류 각각에 대해, 데이터세트의 쌍 사이의 제1 복수의 분자 바이오마커 각각에 대한 분류-특이적 상관 계수가 결정된다. 제1 복수의 분자 바이오마커는 각각의 상관 계수 및 분류-특이적 상관 계수에 기초하여 순위가 매겨진다. 제2 복수의 분자 바이오마커는 제1 복수의 분자 바이오마커로부터 생성된다. 제2 복수의 분자 바이오마커를 복수의 출력 분류 중 제1 출력 분류와 관련시키는 전송 가능한 서명이 제공된다.
[0013] 도 1a-b는 본 발명의 개시의 구현예에 따른 분자 바이오마커의 예시적인 그룹 및 관련 그룹을 예시한다.
[0014] 도 2a-b는 본 발명의 개시의 구현예에 따른 유전자 발현의 RNA 추출 및 정량을 예시한다.
[0015] 도 3은 본 발명의 개시의 구현예에 따른 유전자 전송가능성을 보장하는 방법을 예시한다.
[0016] 도 4는 본 발명의 개시의 구현예에 따른 제공된 데이터세트에서 샘플 전반에 걸친 발현 값의 분포에 대한 분위수 변환의 영향을 예시한다.
[0017] 도 5a-c는 본 발명의 개시의 구현예에 따른 표현형 표지에 의해 그룹화된 예시적인 유전자 발현 값의 분포를 예시한다.
[0018] 도 6은 본 발명의 개시의 구현예에 따른 표현형 표지와 데이터세트 사이의 비교를 예시한다.
[0019] 도 7은 본 발명의 개시의 구현예에 따른 쌍별 콜모고로프-스미르노프 통계를 예시한다.
[0020] 도 8은 본 발명의 개시의 구현예에 따른 특징 전송가능성에 대한 메트릭(metric)의 계산이다.
[0021] 도 9는 본 발명의 개시의 구현예에 따른 순위에 의한 유전자 분류를 반영하는 누적 확률의 그래프이다.
[0022] 도 10은 본 발명의 개시의 구현예에 따른 특징 전송가능성을 결정하는 방법을 예시하는 흐름도이다.
[0023] 도 11은 본 발명의 개시의 구현예에 따른 마이크로어레이와 RNA-seq TPM 발현 사이의 스피어만(Spearman) 상관 계수의 샘플-별 순위 플롯이다.
[0024] 도 12는 본 발명의 개시의 구현예에 따른 마이크로어레이와 RNA-seq TPM 발현 사이의 전송가능성 메트릭으로서 스피어만 상관 계수를 갖는 순위 플롯이다.
[0025] 도 13a-b는 본 발명의 개시의 구현예에 따른 마이크로어레이와 RNA-seq TPM 발현 사이의 전송가능성 메트릭으로서 스피어만 상관 계수를 사용한 유전자의 순위 플롯이다.
[0026] 도 14는 본 발명의 개시의 구현예에 따른 마이크로어레이와 RNA-seq TPM 발현 사이의 스피어만 상관 계수의 플롯이다.
[0027] 도 15a-b는 본 발명의 개시의 구현예에 따른 유전자 순위에 의한 예시적인 전송가능성 통계의 플롯이다.
[0028] 도 16a-b는 본 발명의 개시의 구현예에 따른 유전자 순위에 대한 예시적인 전송가능성 통계의 플롯이다.
[0029] 도 17은 본 발명의 개시의 구현예에 따른 유전자 순위에 대한 예시적인 전송가능성 통계의 플롯이다.
[0030] 도 18은 본 발명의 개시의 구현예에 따른 유전자 순위에 대한 예시적인 전송가능성 통계의 플롯이다.
[0031] 도 19는 본 발명의 개시의 구현예에 따른 유전자 순위에 대한 예시적인 전송가능성 통계의 플롯이다.
[0032] 도 20은 본 발명의 개시의 구현예에 따른 유전자 순위에 대한 예시적인 전송가능성 통계의 플롯이다.
[0033] 도 21은 본 발명의 개시의 일 구현예에 따른 컴퓨팅 노드를 도시한다.
[0034] 유전자 서명(또는 유전자 발현 서명)은 변경되거나 변경되지 않은 생물학적 과정 또는 병원성 의학적 상태의 결과로서 발생하는 독특하게 특징적인 유전자 발현 패턴을 갖는 세포 내의 유전자의 단일 또는 조합된 그룹이다. 유전자 서명은 추가로 유전자 사이의 관계가 일부 세트의 파라미터, 가중치, 값 또는 규칙에 의해 정의되는 것을 필요로 한다.
[0035] 도 1은 이러한 관계를 예시한다. 도 1a에서, 유전자의 예시적인 그룹이 예시되어 있다. 도 1b에서, 예시적인 값을 통해 여러 예시적인 유전자를 관심 그룹에 관련시키는 트리가 제공된다.
[0036] 유전자 서명은 특정 질병에 대한 유전자 서명이 바이오마커로서 사용될 수 있는 정밀 의학에 중요하며, 이는 다른 적용 중에서 질병의 존재를 진단하고, 질병 유형을 분류하고, 어떤 환자가 특정 치료에 가장 반응할 가능성이 높은지 예측하는 데 유용하다.
[0037] 유전자 서명은 생물학적 샘플로부터 유전자 발현(전형적으로, 메신저 RNA(mRNA) 존재비)을 측정하는 데이터세트로부터 정의될 수 있다. 도 2a는 세포로부터 RNA의 추출을 예시한다. 이들은 실험 샘플 또는 환자 유래 샘플, 예를 들어, 채혈 또는 종양 생검으로부터 수집된 세포를 포함할 수 있다. 생물정보학 및 생물통계학 분야 내의 다양한 수학적 접근법이 특정 데이터세트에 대한 유전자 서명을 정의하는데 사용될 수 있다. 유전자 서명은 GSEA(Gene Set Enrichment Analysis)와 같은 소프트웨어 도구를 사용하여, 또는 차등 유전자 발현 분석 또는 경로 분석을 통해 생성될 수 있다. 이러한 도구는 출발점으로서 특정 유전자 발현 데이터세트에 의존한다. 대안적으로, 유전자는 가설된 작용 메커니즘에 기초하여 수동으로 열거될 수 있다.
[0038] 유전자 발현 데이터세트는 마이크로어레이 또는 RNA-시퀀싱, 또는 이들의 파생물과 같은 플랫폼 기술로부터 생성될 수 있다. 도 2b는 일단 유전 물질이 추출되면 유전자 발현을 정량화하기 위한 여러 접근법을 예시한다. 그러나, 하나의 데이터세트에 정의된 유전자 서명은 다른 데이터세트에서 고려될 때 반드시 발현의 동일한 분포 또는 패턴을 나타내지 않을 것이다. 여러 요인이 단독으로 또는 함께 데이터세트 사이에 유전자 서명을 전송하는 능력을 제한할 수 있으며, 예를 들어:
1. 미가공 생물학적 샘플의 시퀀싱 라이브러리로의 처리는 물질 취급, 라이브러리 화학, 조성 등으로부터 유래하는 불일치 및 편향을 도입할 수 있고;
2. 데이터를 생성하는데 사용되는 시퀀싱 또는 어레이 플랫폼 기술은 직접적인 데이터 비교에서 비호환성을 생성할 수 있고;
3. 환자/생물학적 샘플의 인구통계(예를 들어, 연령, 성별), 사전 치료, 또는 실험적 특성은 교란 요인을 도입할 수 있고;
4. 상기 또는 다른 요인들 중 임의의 것에서의 의도하지 않은 변동으로부터 유래하는 일반적인 배치(batch) 효과가 있을 수 있다.
[0039] 따라서, 유전자 서명은 다른 데이터세트에 적용될 수 없으며, 새로운 데이터세트에 대한 적용 가능성을 보장하기 위한 단계를 거치지 않고는 이의 유용성을 유지할 것으로 예상될 수 없다. 다시 말해서, 유전자 서명은 전송가능성을 평가하고 수정하지 않고는 한 데이터세트에서 다른 데이터세트로 전송될 수 없다.
[0040] 이는 진단, 예후 및 예측 유전자 서명의 승인 및 상업화에 대한 문제를 야기한다. 유전자 서명을 새로 생성된 데이터세트(예를 들어, 새로운 환자 샘플)로 일반화하는 능력이 없으면, 유전자 서명은 실질적으로 쓸모없게 될 것이고 규제 승인 또는 임상 적용에 확실히 가치가 없게 될 것이다.
[0041] 이 문제에 대한 접근은 수동 및 반-수동 접근으로 분리될 수 있다. 전자는 유전자 서명이 새로운 데이터세트로 전송될 때 결과에 대해 온전성 검사 및 후각 검사(즉, 경험 기반 휴리스틱)를 수행하기 위해 도메인 전문가에 의한 큐레이션에 의존한다. 이는 매우 주관적이며 오류와 편견이 생기기 쉽다. 또한, 이러한 수동 접근법은 상업적 규모로 적용될 수 없으며, 진단 제품의 규제 승인에도 적합하지 않다. 대안적으로, 편향된 인간 입력에 대한 이러한 의존성을 감소시키기 위해 다양한 수학적 접근법이 사용될 수 있다. 예를 들어, 주성분 분석(Principal Component Analysis: PCA) 기반 접근법은 유전자 서명을 데이터세트에 걸쳐 비교할 수 있는 요약 스코어로 감소시키는데 사용될 수 있다. 그러나, 이러한 방법은 복합 서명, 다중 이벤트를 설명하는 서명이 PCA와 잘 작동하지 않는다는 근본적인 한계를 갖는다. 암과 같은 복잡한 질병의 맥락에서, 종종 유전자 서명은 많은 세포, 유전 및 화학적 실체의 상호작용으로부터 발생하므로, PCA-기반 방법은 적절하지 않을 수 있다. 또 다른 접근법은 고함량 데이터에 대해 학습된 제로섬 회귀 서명을 사용하며, 여기서 가중치는 하나의 데이터세트에서 다음 데이터세트로 유지된다.
[0042] 따라서, 정밀 의학은 유전자 서명을 하나의 데이터세트에서 데이터 생성 기술 및 환자 샘플 소스에 대해 강력한 다른 데이터세트로 전송하기 위한 방법을 필요로 한다. 이러한 방법은 데이터 출처 및 분포 특성의 가정을 최소화해야 하며, 복잡한 생물학을 나타내는 유전자 서명에 적용 가능해야 한다.
[0043] 대안적인 접근법의 이러한 단점 및 다른 단점을 다루기 위해, 본 발명의 개시는 하나 이상의 유전자 발현 데이터세트에 대한 분류 또는 회귀 모델을 훈련시킴으로써 유전자 서명을 자율적으로 구성하는 지도 학습 시스템 및 방법을 제공하며, 따라서 모델은 데이터세트 기술, 미가공 생물학적 샘플의 처리, 및 다른 배치 효과에 대해 불가지론적이며, 예측 작업을 위해 다른 별개의 데이터세트에 적용될 수 있다.
[0044] 다양한 구현예에서, 유전자 발현은 Illumina 또는 IonTorrent에 의한 RNA-시퀀싱, HTG Edge-seq, Nanostring, qPCR, 또는 마이크로어레이를 포함하나 이에 제한되지 않는 임의의 전사체학 플랫폼 기술을 사용하여 측정된 것으로 가정된다. 특정 유전자 세트(또는 유전체의 모든 유전자)에서 각각의 유전자에 대한 발현 값은 표준 생물정보학 프로그램(예를 들어, Genialis, Inc.에 의해 제공되는 것을 포함하는 당 분야에 공지된 RNA-Seq 방법 및 파이프라인)을 사용하여 계산된 것으로 추가로 가정된다.
[0045] 마찬가지로, 하기에 제공된 다양한 예는 유전자 발현 데이터에 관한 것이지만, 본원에 설명된 기술은 일반적으로 유전자, 단백질, 및 대사산물을 포함하는 분자 바이오마커에 적용 가능하다. 예를 들어, 단백질체 데이터에 관한 구현예에서, 단백질 발현은 질량분광법, ELISA, 항체 어레이, 펩티드 핑거프린팅, 단백질 바코딩 또는 생물학적 샘플로부터 복수의 단백질의 단백질 서열을 추론하기 위한 다른 유사한 방법을 포함하나 이에 제한되지 않는 임의의 단백질체학 플랫폼 기술을 사용하여 측정된 것으로 가정된다. 특정 서명의 각 단백질(또는 단백질체의 모든 단백질)에 대한 값은 표준 생물정보학 프로그램(예를 들어, Genialis, Inc.에 의해 제공되는 것을 포함하는 당 분야에 공지된 단백질체학 방법 및 파이프라인)을 사용하여 계산된 것으로 추가로 가정된다.
[0046] 지도 학습 시스템 및 방법의 다양한 구현예에서, 입력은 데이터세트로부터의 발현 행렬, 및 유전자의 목록(예를 들어, 수백 개 이하의 유전자) 또는 다른 분자 바이오마커, 예를 들어, 단백질을 포함한다. 출력은 분자 바이오마커와 관련된 유전자 서명 함수 또는 다른 서명 함수이다.
[0047] 서명 함수는 훈련 샘플의 세트로 구성된 표지된 훈련 데이터로부터 추론된다. 각각의 샘플은 입력 대상(예를 들어, 유전자 발현의 벡터) 및 원하는 출력 값(이산적이거나 연속적일 수 있음)으로 구성된 쌍이다. 하나 이상의 연속 값 출력은 비닝(binning), 임계값(thresholding), 승자 독식(winner-take-all), 및 다양한 다른 방법에 의한 분류로 변환될 수 있음이 이해될 것이다. 훈련 데이터는 다른 별개의 데이터세트로부터의 새로운 샘플을 맵핑하는데 사용될 수 있는 추론된 함수를 생성하기 위해 분석된다. 추론된 유전자 서명 함수는 사용되는 특정 기계 학습 방법에 따라 다양한 형태를 취할 수 있다. 예를 들어, 서명 함수는 샘플로부터의 입력 발현 행렬에 적용 가능한 행렬 연산자일 수 있다. 또 다른 예에서, 서명 함수는 인공 신경망에 대한 시냅스 가중치의 세트일 수 있다.
[0048] 다양한 구현예에서, 인공 신경망, 랜덤 포레스트, 지원 벡터 머신, 및 로지스틱 회귀와 같은 지도 학습 기술이 이용된다. 다양한 추가적인 지도 학습 기술이 본 발명의 개시에 따라 사용하기에 적합하다는 것이 이해될 것이다. 스태킹(stacking)과 같은 앙상블 기술은 정확도를 개선시키기 위해 다양한 구현예에서 사용된다. 특히 파라미터 조정에서 과적합을 피하기 위해 특별한 주의를 기울여야 한다. 훈련 및 시험 데이터세트는 별개의 겹치지 않는 샘플 세트를 포함해야 한다. 샘플은 교차-검증, 배깅(부트스트랩 집계) 또는 다른 접근법을 사용하여 분할될 수 있다.
[0049] 일부 구현예에서, 특징 벡터가 학습 시스템에 제공된다. 입력 특징에 기초하여, 학습 시스템은 하나 이상의 출력을 생성한다. 일부 구현예에서, 학습 시스템의 출력은 특징 벡터이다.
[0050] 일부 구현예에서, 학습 시스템은 SVM을 포함한다. 다른 구현예에서, 학습 시스템은 인공 신경망을 포함한다. 일부 구현예에서, 학습 시스템은 훈련 데이터를 사용하여 사전 훈련된다. 일부 구현예에서, 훈련 데이터는 소급 데이터이다. 일부 구체예에서, 소급 데이터는 데이터 저장소에 저장된다. 일부 구현예에서, 학습 시스템은 이전에 생성된 출력의 수동 큐레이션을 통해 추가로 훈련될 수 있다.
[0051] 일부 구현예에서, 학습 시스템은 훈련된 분류기이다. 일부 구현예에서, 훈련된 분류기는 랜덤 결정 포레스트이다. 그러나, 선형 분류기, 지원 벡터 머신(SVM), 또는 순환 신경망(RNN)과 같은 신경망을 포함하는 다양한 다른 분류기가 본 발명의 개시에 따라 사용하기에 적합하다는 것이 이해될 것이다.
[0052] 적합한 인공 신경망은 순방향 신경망, 방사형 기저 함수 네트워크, 자가-조직화 맵, 학습 벡터 양자화, 순환 신경망, 홉필드 네트워크, 볼츠만 머신, 에코 상태 네트워크, 장단기 메모리, 양방향 순환 신경망, 계층적 순환 신경망, 확률적 신경망, 모듈식 신경망, 연관 신경망, 심층 신경망, 심층 신뢰 신경망, 합성곱 신경망, 합성곱 심층 신뢰 신경망, 대형 메모리 저장 및 검색 신경망, 딥 볼츠만 머신, 딥 스태킹 네트워크, 텐서 딥 스태킹 네트워크, 스파이크 및 슬래브 제한 볼츠만 머신, 복합 계층적-딥 모델, 딥 코딩 네트워크, 다층 커널 머신, 또는 딥 Q-네트워크를 포함하나 이에 제한되지는 않는다.
[0053] 도 3을 참조하면, 본 발명의 개시의 구현예에 따라 유전자 전송가능성을 보장하는 방법이 예시된다. 301에서, 발현 값의 분위수 표준화가 수행된다. 302에서, 특징 전송가능성 통계의 계산이 수행된다. 303에서, 특징(예를 들어, 유전자)은 전송가능성 임계값에 의해 필터링된다.
[0054] 예시의 목적으로, 하기 실시예는 예시적인 데이터를 이용한다. 본 발명의 개시는 다양한 데이터세트 및 표지에 적용 가능하며, 이러한 실시예는 제한하기보다는 예시적이라는 것이 이해될 것이다. 본 실시예에서, 유전자 발현 데이터는 하기 데이터세트로부터 취한다: 아시아 암 연구 그룹(Asian Cancer Research Group; ACRG); 암 유전체 아틀라스(The Cancer Genome Atlas; TCGA); 및 싱가포르 코호트(Singapore Cohort; SING).
[0055] 이러한 데이터세트의 개별 샘플은 하기 표현형 부류로서 추가로 표지된다: 표현형 1, 표현형 2, 표현형 3, 표현형 4.
[0056] 분위수 표준화는 통계적 특성이 동일한 2개의 분포를 만들기 위한 기술이다. 도 4는 제공된 데이터세트에서 샘플 전반에 걸친 발현 값의 분포에 대한 분위수 변환의 영향을 예시한다. 데이터세트는 균일 분포, 가우스 분포, 또는 포아송 분포와 같은 표준 통계 분포 중 하나인 참조 분포에 대해 표준화된다. 참조 분포는 무작위로 생성되거나 분포의 누적 분포 함수로부터 정규 샘플을 취함으로써 생성될 수 있다. 임의의 참조 분포가 사용될 수 있다.
[0057] 모든 유전자 발현 데이터세트는 차례로 동일한 참조 분포로 표준화된다. 변환은 각각의 특징(하나의 유전자의 발현 값)에 독립적으로 적용된다. 먼저 특징의 누적 분포 함수의 추정치를 사용하여 원래 값을 균일 분포에 맵핑한다. 획득된 값은 이후 관련 분위수 함수를 사용하여 원하는 출력 분포에 맵핑된다.
[0058] 절차의 견고성은 샘플의 수에 따라 대수적으로 증가한다. 유전자 서명의 염기-수준 성능을 보장하기 위해서는 데이터세트당 수십 개의 샘플(약 30개 이상)이 필요하다. 유전자 서명의 전체 성능은 분위수 표준화되는 샘플의 수가 수백 중반에 도달함에 따라 점진적으로 증가하고 평탄화된다.
[0059] 다양한 구현예에서, 분위수 표준화는 지도 학습에서 전처리 절차로서 사용되며, 따라서 과적합을 피하기 위해 특별한 주의가 취해져야 한다. 분위수 표준화 파라미터는 샘플의 훈련 세트에 피팅된 다음, 시험 및 검증 샘플을 변환하는 데 사용되어야 한다. 시험 및 검증 샘플은 분위수 표준화의 파라미터를 피팅에서 제외해야 한다.
[0060] 전송 가능한 특징(유전자)은 표적 변수(표현형 또는 결과 표지)가 제공된 데이터세트 사이에 유전자 발현 값의 유사한 분포를 가져야 한다. 그러나, 일부는 크게 상이하며 유전자 서명에서 제외되어야 한다. 차이는 기술(예를 들어, RNA-seq 대 마이크로어레이), 실험 편향, 집단 편향, 및 다른 효과에 기인할 수 있다.
[0061] 도 5a-c에서, 예시적인 유전자 발현 값의 분포는 4개의 표현형 표지(범례 내)에 의해 그룹화된다. 첫 번째 행: 유전자 CCL3, 두 번째 행: 유전자 IFNA2. 도 5a-c는 각각 ACRG, TCGA 및 SING 데이터세트를 나타낸다. 발현 값은 균일 분포로 분위수 표준화된다(각각의 데이터세트 내에서 개별적으로). CCL3의 유전자 발현 추정치의 분포는 데이터세트 간에 일치하지만, IFNA2에 대해서는 일치하지 않는다.
[0062] 본 발명의 개시는 유전자 발현 데이터세트의 분포의 쌍별 비교로부터 획득된 시험 통계의 감소된 세트로서 정의된 특징 전송가능성에 대한 메트릭을 제공한다.
[0063] 시험 통계는 표적 변수가 범주형인지, 연속형인지, 아니면 기타인지에 따라 선택되어야 한다. 하기 예시적인 경우에, 메타데이터는 범주형이다(표현형 1 내지 4). 특징 전송가능성은 데이터세트 사이의 유전자 발현의 표현형-특이적 분포의 쌍별 콜모고로프-스미르노프 검정의 집계(예를 들어, 산술 평균)로부터 유래된다. 이 과정은 도 6에 예시되어 있으며, 여기서 4개의 표현형 표지는 제1 데이터세트와 제2 데이터세트 사이 및 제1 데이터세트와 제3 데이터세트 사이에서 쌍별 방식으로 비교된다. 집계는 또한 중간 또는 최소-최대 범위 특성을 고려함으로써 달성될 수 있고, 가장 적절한 유형의 집계는 경험적으로 계산될 수 있다.
[0064] 콜모고로프-스미르노프(K-S) 검정은 두 샘플의 경험적 분포 함수 사이의 거리를 정량화하는 연속적인 1차원 확률 분포의 동등성에 대한 비모수 검정이다. K-S 통계는 2개의 결합 누적 분포 함수 사이의 최대 차이로 정의된다. K-S 통계의 산술 평균은 4개의 표현형에 의해 그룹화된 발현 값의 분포 사이의 평균 거리를 나타낸다.
[0065] 도 7은 쌍별 콜모고로프-스미르노프 통계를 예시한다. 밝은 선과 어두운 선은 각각 경험적 분포 함수에 해당하고, 검은색 화살표는 K-S 통계에 의해 포착된 분포의 차이를 표시한다.
[0066] 이 메트릭을 사용하여, 유전자 발현의 불일치 분포를 갖는 특징을 제거함으로써 데이터세트 편향을 감소시킬 수 있다. 각 유전자에 대해, 표현형 및 데이터세트 쌍의 각 조합에 대해 하나씩, 다수의 K-S 통계가 계산된다. 각 유전자에 대한 단일 전송가능성 스코어를 획득하기 위해, K-S 통계는 표현형 및 데이터세트 쌍에 걸쳐 집계될 필요가 있다. 일반적인 집계 방법 중에서, 산술 평균은 이러한 예시적인 데이터세트에 대해 잘 작동하였다. 그러나, 중간값, 최소값 및 최대값과 같은 대안적인 방법이 일부 구현예에서 사용될 수 있음이 이해될 것이다.
[0067] 도 8을 참조하면, 본 발명의 개시의 구현예에 따른 특징 전송가능성에 대한 메트릭의 계산이 예시된다. 801에서, K-S 검정의 배터리는 a) 모든 표현형/결과 부류에 걸친 유전자 발현 값; 및 b) 2개의 데이터세트 쌍(ACRG-TCGA, TCGA-SING)에 대해 계산된다. 이러한 예시적인 경우, 표현형/출력 부류는 표현형 1, 표현형 2, 표현형 3, 표현형 4를 포함한다. 802에서, 8개의 K-S 검정의 평균이 계산된다.
[0068] 803에서, K-S 통계가 특정 서명의 모든 유전자에 대해 플롯팅되고 순위가 매겨진다. 804에서, 순위가 매겨진 유전자 목록은 임계값 설정된다. 일부 구현예에서, 임계값 설정은 K-S 통계의 빠르게 증가하는 꼬리의 시작 직전의 지점(X-축 상의 지점)을 선택함으로써 수행된다. 낮은 K-S 통계(1에 가장 가까운 순위)를 갖는 유전자가 가장 전송 가능한 것으로 간주된다. 일부 구현예에서, 임계값 설정은 표준 변환 표를 사용하여 K-S 통계를 p-값으로 변환하고 p-값 컷오프를 선택함으로써(x-축이 아니라 y-축에서 임계값을 설정함으로써) 수행된다. 다중 가설 검정을 위해 수정한 후, 유용한 p-값 임계값을 자신 있게 선택할 수 있다.
[0069] 805에서, K-S 또는 p-값 임계값을 충족하지 않는 유전자는 서명으로부터 제거된다.
[0070] 도 9를 참조하면, 순위에 의한 분류 유전자를 반영하는 누적 확률의 그래프가 제공된다. 이 경우, 임계값 정적 값은 98보다 큰 값에서 곡선 기울기의 급격한 증가에 기반하여 유전자 순위 98(예시 서명에서 125개의 유전자 중)로 설정된다. 따라서, 순위가 99 내지 125인 유전자를 "전송 불가능한" 것으로 분류하고 이를 모델에서 제거할 것이다.
[0071] 임계값은 변곡점을 확인하기 위해 전송가능성 곡선의 이차 도함수를 결정함으로써 자동으로 추론될 수 있다. 이러한 임계값을 찾기 위한 다양한 기술이 알려져 있음이 이해될 것이다. 예를 들어, 일부 구현예에서, 평균은 슬라이딩 윈도우를 사용하여 취해진다. 일부 구현예에서, 임계값은 곡선의 기울기의 미리 결정된 변화에 따라 설정된다. 일부 구현예에서, 임계값은 기울기 변화의 분포에 기초하여 경험적으로 결정된다.
[0072] 본원에 설명된 방법은 유전자 발현 데이터가 예측 가능성에 대해 평가되는 임의의 약학적 또는 진단적 R&D 설정에 적용될 수 있다. 예를 들어, 이 방법으로부터의 전송 가능한 유전자 서명 출력은 약물에 대한 동반 진단(Cdx) 또는 실험실 개발 검정(Lab Developed Test; LDT)의 기초를 형성할 수 있다. 따라서, 전송 가능한 유전자 서명은 임상 실무자에 의해 치료 시점에 배치되는 승인된 진단 시험의 기초를 형성할 수 있다. 대안적으로, 전송 가능한 유전자 서명은 조기 약물 발견 R&D를 위한 잠재적인 약물 표적의 목록을 구성할 수 있다. 전송 가능한 유전자 서명은 환자 인구통계에 강력하기 때문에, 이는 약물 재포지셔닝을 평가하는데 사용될 수 있다. 마지막으로, 적응증 확장을 안내하기 위한, 즉 특정 약물 또는 요법의 효능을 시험할 새로운 질병 영역을 확인하기 위한 방법을 사용할 수 있다.
[0073] 상기 기재된 바와 같이, 모델의 특징으로서 작용하는 유전자 발현 서명의 유전자가 상이한 파생을 갖는 데이터세트(예를 들어, 상이한 데이터 생성 기술 플랫폼, 질병, 환자 코호트 등)에 걸쳐 일관되게 거동하는지 여부를 결정하기 위한 방법이 제공된다.
[0074] 일부 경우에, 2개의 상이한 기술 플랫폼에 의해 생성된 유전자 발현 데이터는 동일한 생체 표본에 대해 이용 가능할 것이다. 예를 들어, 특정 세포주 라이브러리(예를 들어, Broad/Novartis에 의한 암 세포주 백과사전(Cancer Cell Line Encyclopedia; CCLE))는 유전자 발현 마이크로어레이 및 RNA-시퀀싱 둘 모두에 의해 프로파일링되었다. 마찬가지로, 마이크로어레이에 의해 이전에 분석된 아카이브 종양 생검은 RNA 시퀀싱(예를 들어, 특히, 암 유전체 아틀라스(The Cancer Genome Atlas; TCGA))에 의해 새롭게 분석될 수 있다. 마이크로어레이 데이터로부터 유래된 유전자 서명 또는 예측 모델을 새로 생성된 RNAseq 데이터에 적용하기 위한 문제는 유전자 특징이 이러한 기술에 걸쳐 전송될 수 있는지 여부를 결정하는 것이다. 이러한 문제를 극복하는 것은 잠재적으로 가치 있는 이력 데이터세트, 또는 이전 세대 발현 기술에 대해 수행된 임의의 데이터 및 분석을 사용하는 데 필수적이다. 'omics 프로파일링의 빠른 변화 속도를 감안할 때, 중요한 데이터세트는 몇 년마다 쓸모없게 될 위험이 있다. 이들은 특징 전송가능성을 결정하기 위해 본원에 설명된 방법을 사용하여 소생되고 이월될 수 있다.
[0075] 도 10을 참조하면, 유전자 서명 및 마이크로어레이 및 RNA-seq에 의해 생성된 쌍을 이루는 유전자 발현의 데이터세트가 주어지면, 특징 전송가능성에 대한 기술 플랫폼 및 생물학적 파생(예를 들어, 질병 유형)의 영향을 평가하기 위한 예시적인 방법이 제공된다.
[0076] 1001에서, 상이한 기술 플랫폼에 의해 분석된 샘플 사이의 일치가 결정된다. 샘플의 각 쌍에 대해, 서명 유전자의 마이크로어레이와 RNA-seq 발현 사이에 스피어만 상관 계수가 계산된다. 샘플은 스피어만 상관 계수에 의해 내림차순으로 정렬된다. 각 샘플 쌍에 대해 스피어만 상관 계수는 샘플 순위의 함수로 플롯팅된다. 특정 임계값 미만의 일치를 갖는 샘플은 배제되거나, 변동의 원인을 결정하기 위해 개별적으로 검사될 수 있다. 이 단계에서, 모든 샘플은 질병 유형에 관계없이 함께 처리된다.
[0077] 예시적인 데이터세트는 170개 유전자의 서명, 및 CCLE로부터의 140쌍의 세포주 샘플로부터의 마이크로어레이 및 RNA-seq 데이터를 포함한다. 이러한 140개의 샘플 쌍은 3개의 상이한 암 유형에 상응한다: 110개의 위암, 22개의 육종, 및 8개의 중피종.
[0078] 도 11을 참조하면, 마이크로어레이와 RNA-seq TPM(백만 당 전사물 표준화(Transcript Per Million normalization)) 발현 사이의 스피어만 상관 계수에 기반하여 샘플별 순위 플롯이 제공된다. 이는 고려되는 모든 질병 유형: 위암, 육종, 및 중피종을 포함한다. 이 분석은 거의 모든 샘플에 대해, 그리고 포함된 모든 질병 유형으로부터 마이크로어레이와 RNA-seq TPM 발현 사이의 비교적 높은 일치를 보여준다. 샘플의 스피어만 상관 계수는 산업 표준에 따라 대부분 R S = 0.8에 가깝다.
[0079] 육안 검사시, 0.75 미만의 샘플은 나머지로부터 현저하게 떨어지므로 이를 제거하는 것을 고려할 수 있다. 그러나, 상기 기재된 바와 같이 컷오프 값을 결정하기 위해 다양한 통계적 방법이 사용될 수 있음이 이해될 것이다.
[0080] 1002에서, 모든 샘플 쌍에 걸쳐 가장 큰 일치를 나타내는 유전자가 결정된다. 각 유전자에 대해, 쌍을 이룬 샘플의 마이크로어레이와 RNA-seq 발현 사이에 스피어만 상관 계수가 계산된다. 유전자는 스피어만 상관 계수에 의해 내림차순으로 정렬된다. 각 유전자에 대해, 스피어만 상관 계수는 유전자 순위의 함수로 플롯팅된다.
[0081] 도 12를 참조하면, 마이크로어레이와 RNA-seq TPM 발현 사이의 전송가능성 메트릭으로서 스피어만 상관 계수를 갖는 170개 유전자의 순위 플롯이 제공된다. 각 포인트는 유전자를 나타낸다. 각 상관 계수는 모든 샘플 쌍(이 예에서, 위암, 육종 및 중피종 대상체(총 140명))에 걸쳐 계산된다. 좌측 y-축(큰 원)은 전술한 샘플에 걸쳐 계산된 마이크로어레이와 RNA-seq TPM 발현 사이의 스피어만 상관 계수에 해당한다. 우측 y-축(작은 원)은 상기 언급된 샘플에 걸쳐 계산된 중간 미가공 RNA-seq 수 + 1에 상응한다.
[0082] 마이크로어레이로부터 유래된 발현과 RNA-seq 사이의 유전자-별 상관관계는 상위 약 125개 유전자에 대해 선형으로 감소한 후 빠르게 감소한다. 가장 낮은 순위를 갖는 유전자는 가장 큰 상관관계를 갖는다(이 데이터세트에서, CXCL8(R S = 0.98)). 임계값은 선형 기울기가 변하는(초선형 또는 지수 감쇠로) 좌측 수직 축에 설정될 수 있다. 상기 예에서, 이러한 변곡점은 R S = 0.60 부근에서 발생하므로, 순위 > 약 125를 갖는 모든 유전자는 분석으로부터 제거될 수 있다.
[0083] 마이크로어레이와 RNA-seq TPM 발현 사이의 상관관계는 유전자의 발현 수준에 의해 부분적으로 설명될 수 있다. 10 미만의 중간 미가공 RNA-seq 수를 갖는 제대로 발현되지 않은 유전자는 대부분 상관관계 R S < 0.2를 나타낸다. 다른 한편으로, 100개 이상의 중간 미가공 수를 갖는 유전자의 발현은 종종 마이크로어레이와 RNA-seq 사이에 충분히 상관관계가 있다(R S > 0.6). 따라서, 이러한 오버레이는 최소 유전자 발현 임계값의 결정을 가능하게 할 수 있으며, 그 미만으로는 특정 유전자가 배제될 수 있다.
[0084] 1003에서, 유전자/샘플 순위에 대한 생물학적 인자(기술 플랫폼과 대조적으로)의 기여가 결정된다. 각각의 유전자에 대해, 각각의 질병에 대해 별도로, 쌍을 이룬 샘플의 마이크로어레이와 RNA-seq 발현 사이에 스피어만 상관 계수가 계산된다. 이 예에서, 커버되는 질병은 위암, 육종 및 중피종이다. 유전자는 스피어만 상관 계수에 의해 내림차순으로 정렬된다. 각각의 유전자에 대해, 스피어만 상관 계수는 가장 많은 샘플을 갖는 질병 유형의 유전자 순위의 함수로서 플롯팅된다(이 경우, 위암이 가장 흔한 유형임).
[0085] 도 13a를 참조하면, 마이크로어레이와 RNA-seq TPM 발현 사이의 전송가능성 메트릭으로서 스피어만 상관 계수를 사용하는 유전자의 순위 플롯이 제공된다. 각 포인트는 유전자를 나타낸다. 각각의 상관 계수는 각각의 생물학적 질환 또는 질병(이 경우, 위암, 육종 및 중피종)으로부터의 샘플에 대해 개별적으로 쌍에 걸쳐 계산된다.
[0086] 스피어만 상관 계수의 상기 계산은 가장 널리 퍼진 것이 아니라 모든 질병 유형에 기반한 유전자 순위를 사용하여 반복된다.
[0087] 도 13b를 참조하면, 유전자가 단지 가장 우세한 것 대신에 모든 3개 적응증의 대상체에 걸친 상관관계에 기초하여 x-축에서 순위가 매겨진 대안적인 플롯이 제공된다.
[0088] 도 13a에 비해 도 13b의 산란은 일치의 변동이 생물학적 조건에 의해 주도되는 정도를 나타낸다. 이는 유전자 서명 개발의 목표가, 예를 들어, 범암 진단과 같은 조건에 걸쳐 유전자 패널로서 작용할 수 있는 다용도 특징 세트를 생성하는 것이라면 중요한 관찰이다.
[0089] 1004에서, 상관 계수 사이의 일치가 질병 적응증에 걸쳐 조사된다. 각각의 유전자에 대해, 단계 1003에서와 같이 쌍을 이룬 샘플의 마이크로어레이와 RNA-seq 발현 사이에 스피어만 상관 계수가 계산된다. 조건(B, C, ... Z)을 나타내는 샘플의 상관 계수는 조건 A의 상관 계수의 함수로서 플롯팅된다. 이 예에서, B = 육종, C = 중피종, 및 A = 위암이다. 이러한 조건 중 하나가 명백히 가장 우세하다면, 이는 독립 변수로 작용할 수 있다. 조건이 더 고르게 분포되어 있으면, 어떤 조건이 독립 변수로 작용하는지 회전하면서 분석을 반복해야 한다.
[0090] 도 14를 참조하면, 조건 B & C(육종 및 중피종)의 마이크로어레이와 RNA-seq TPM 발현 사이의 스피어만 상관 계수는 조건 A(위암)에 대한 동일한 상관 계수의 함수로서 제시된다. 각 포인트는 유전자에 해당한다.
[0091] 샘플 쌍 간에 가장 일관되게 높은 상관 관계가 있는 유전자는 우측 상단에 클러스터링된다. (X,Y = 0.6,0.6)으로 그려진 상자는 생물학적 조건(예를 들어, 질병)에 걸쳐 유익한 특징을 게이트할 것이다. 이 분석은 단계 1002에서 임계값 접근을 확인한다.
[0092] 일부 구현예에서, 입력 서명에서 가장 일관되게 고도로 상관된 유전자(또는 다른 분자 바이오마커)는 1005에서 전송 가능한 서명을 유도하기 위해 유지된다. 그러나, 상기 설명된 일치 방법은 상기 설명된 전송가능성 통계(KS) 방법과 조합될 수 있다. 예를 들어, 전송가능성 통계는 1005에서 결정된 고도로 상관된 바이오마커 각각에 대해 1006에서 계산될 수 있다. 대안적으로, 각각의 방법을 사용한 서명은 1005, 1006에서 병렬로 계산된 후, 1007에서 집계 서명으로 조합될 수 있다. 집계 서명은 2개의 입력 서명의 합집합 또는 교집합을 취함으로써 결정될 수 있다.
[0093] 모든 샘플에 걸친 각 유전자의 발현은 균일 분포로 분위수-변환된다. 각 유전자에 대해, 콜모고로프-스미르노프 검정 통계는 분위수-표준화된 발현의 분포를 사용하여 모든 생물학적 조건(예를 들어, 위암, 육종 및 중피종)에 대한 모든 샘플 쌍에서 계산된다. 유전자는 콜모고로프-스미르노프 통계에 의해 오름차순으로 분류된다. 각각의 유전자 및 질병 적응증의 조합에 대해, 콜모고로프-스미르노프 통계는 유전자 순위의 함수로서 플롯팅된다.
[0094] 도 15a를 참조하면, 유전자 순위에 의한 콜모고로프-스미르노프 통계의 플롯이 제공된다. 이는 샘플의 A-B, A-C, 및 B-C(위암, 육종 및 중피종) 서브셋 사이의 유전자에 의한 발현 분포의 전송가능성을 나타낸다.
[0095] 유전자의 최상의 전송가능성은 A-B(위암 및 육종) 간에 일관되게 달성된다. A-C(위암 및 중피종) 사이의 전송가능성은 B-C(육종 및 중피종) 사이의 전송가능성과 유사하다. 유전자 순위의 함수로서 K-S 통계의 경향은 대부분 선형이다. K-S 통계의 값은 전송가능성이 기껏해야 의심스러운 영역으로 매우 빠르게 증가한다(이 예에서, KS > 0.5). 상기 기재된 바와 같이, 변곡점에 기반하여 컷-오프를 설정하는 대신, 이는 미리 결정된 또는 경험적 전송가능성 통계 값에 기반하여 설정될 수 있다. 또한, K-S 통계는 임계값을 설정하기 위해 P-값 또는 다른 확률로 변환될 수 있음이 이해될 것이다.
[0096] 도 15b를 참조하면, 유전자 순위에 의한 콜모고로프-스미르노프 통계의 플롯이 제공된다. 이는 확장된 입력 유전자 세트에서 샘플의 A-B, A-C, 및 B-C(위암, 육종 및 중피종) 서브셋 사이의 유전자에 의한 발현 분포의 전송가능성을 예시한다. 이러한 확장된 특징 세트에서 위암과 육종 사이의 질병간 전송가능성이 관찰/확인된다.
[0097] 도 16a-b를 참조하면, 분위수 표준화의 유용성의 증거가 제공된다. 이러한 실시예에서, A-B(위암-육종) 질병 비교를 위해 상기 설명된 바와 동일한 KS 순위 방법이 적용된다. 3개의 발현 전처리 방법이 비교된다: TPM 표준화, z-스코어(TPM+1) 및 TPM-표준화된 발현의 분위수 변환.
[0098] 도 16a는 3개의 발현 전처리 방법에 대한 위암과 육종 사이의 유전자에 의한 발현 분포의 전송가능성을 보여준다.
[0099] 도 16b는 확장된 특징 세트를 사용하여 3개의 발현 전처리 방법에 대한 위암과 육종 사이의 유전자에 의한 발현 분포의 전송가능성을 보여준다.
[0100] 분위수 변환(1603)은 z-스코어(1602)가 뒤따르고 전처리가 없는(1601) 우수한 성능을 나타낸다. 상기 결과는 모든 쌍별 조건 비교에 걸쳐 요약될 수 있다.
[0101] 상기 방법의 추가적인 유용성은 치료적 표현형에 기반하여 상이한 질병의 샘플 사이의 전송가능성을 추정하는 것이다. 예를 들어, 약물 민감성을 예측하는 유전자가 약물 내성을 예측하는 유전자보다 더 전송 가능한지 여부를 질문할 수 있다. 따라서, 입력 샘플은 표현형 표지에 의해 계층화되고, 전송가능성 통계는 이전과 같이 2개의 조건(하기, 위암과 육종 사이) 사이에서 계산된다.
[0102] 도 17을 참조하면, 개별적으로 샘플의 각 반응 그룹에 대한 위암과 육종 사이의 유전자에 의한 발현 분포의 전송가능성을 예시하는 그래프가 제공된다.
[0103] 유전자(특징)가 "내성" 표현형의 세포주에 대해 더 전송될 수 있다는 관찰은 약물 내성을 담당하는 생물학적 경로가 질병 상태(위 대 육종) 간에 보존되는 반면, 약물 민감성에 기여하는 생물학적 경로는 더 이질적임을 시사한다.
[0104] 이러한 방식으로, 특징 전송가능성 방법은 제공된 특징 세트로부터 어떤 약물 반응 표현형이 가장 확실하게 예측될 수 있는지의 추론을 가능하게 한다.
[0105] 상기 기재된 바와 같이, 본원에 제공된 특징 전송가능성 방법은 광범위하게 적용 가능하다. 몇 가지 추가 실시예가 뒤따른다.
[0106] 데이터 생성 플랫폼에 걸친 전송가능성
[0107] 첫 번째 실시예에서, 상이한 시간에 상이한 치료 이력을 갖는 별개의 환자 하위집단으로부터 유래된 마이크로어레이와 RNA-seq 플랫폼 사이의 전송가능성이 평가된다.
[0108] 이 실시예에서 사용된 데이터세트는 다음과 같다:
1) ACRG (아시아 암 연구 그룹)
· 위암 대상체(N=300)는 이전에 화학요법 및/또는 방사선을 받는 2차 또는 그 이상이었다.
· Affymetrix 마이크로어레이; GEO GSE62254, GSE62717; Cristescu et al 2015
2) TCGA (암 유전체 아틀라스)
· 위암 대상체(N=388)는 여러 치료 라인의 혼합이었다.
· RNA-seq; Portal.gdc.cancer.gov에서의 데이터; Cancer Genome Atlas Research Network 2014
3) 싱가포르 코호트
· 위암 대상체(N=192)는 여러 치료 라인의 혼합이었다.
· Affymetrix 마이크로어레이 플랫폼; GEI(GSE15459); Lei et al 2013
[0109] 도 18을 참조하면, K-S 통계 대 유전자 순위의 플롯이 제공된다. 본 발명자는 125개의 서명 유전자에 대한 K-S 통계를 계산하였다. 순위에 의해 정렬될 때, 순위 98에서 K-S 통계 기울기의 초기 증가를 관찰할 수 있다. 따라서, 나머지 27개의 유전자는 전송 불가능한 것으로 간주되어 모델로부터 제거될 수 있다.
[0110] 데이터 플랫폼, 질병 조직 유형에 걸친 전송가능성
[0111] 이 실시예에서, 난소/부인과 및 항-VEGF 데이터세트 사이의 전송가능성은 하기 축에서 평가된다 - 플랫폼: 마이크로어레이, 엑솜 RNA-seq, 및 총 RNA-seq; 조직 유형: 난소/부인과 및 위암.
[0112] 이 실시예에서 사용된 데이터세트는 다음과 같다:
1) 독점 임상 시험(항-VEGF/DLL4 요법, 난소 및 부인과 암)
· 항-VEGF/항DLL4 이중특이적 + 파클리탁셀의 조합물로 치료된 난소암을 갖는 4+ 계통 백금 내성 환자의 단일 군 1b 상 연구
· RNA-seq(서브셋 N=30); 데이터가 게시되지 않음
2) ACRG (아시아 암 연구 그룹)
· 위암 대상체(N=300)는 이전에 화학요법 및/또는 방사선을 받는 2차 또는 그 이상이었다.
· Affymetrix 마이크로어레이; GEO GSE62254, GSE62717; Cristescu et al 2015
3) 독점적인 위 VEGF
· 위 및 GEJ 암, 혼합된 이전 치료 이력, 100% 아시아인 인구통계를 갖는 대상체
· 항-VEGF 라무시루맙으로 치료됨
· RNA-seq(N=48); 데이터가 게시되지 않음
4) ICON7
· 난소암을 갖는 대상체
· 화학요법 + 베바시주맙(항-VEGF)으로 치료됨
· 마이크로어레이(N=380); GEO 수탁 GSE140082)
[0113] 도 19를 참조하면, K-S 통계 대 유전자 순위의 플롯이 제공된다. 본 발명자는 160개의 서명 유전자(상기로부터의 98개의 유전자 및 별도의 서명으로부터의 62개의 유전자)에 대한 K-S 통계를 계산하였다. 순위에 의해 정렬될 때, 순위 136에서 K-S 통계 기울기의 초기 증가를 관찰할 수 있다. 따라서, 나머지 26개의 유전자는 "전송 불가능한" 것으로 간주되어 모델로부터 제거될 수 있다. 도 20은 유사하게 전송가능성 통계의 임계값을 보여준다(예를 들어, 변곡점에 위치함).
[0114] 이제 도 21을 참조하면, 컴퓨팅 노드의 예의 개략도가 제시된다. 컴퓨팅 노드(10)는 적합한 컴퓨팅 노드의 단지 하나의 예일 뿐이며, 본원에 설명된 구현예의 사용 또는 기능의 범위에 대한 임의의 제한을 시사하려는 것이 아니다. 그럼에도 불구하고, 컴퓨팅 노드(10)는 구현되고/되거나 상기 기재된 임의의 기능을 수행할 수 있다.
[0115] 컴퓨팅 노드(10)에는 다수의 다른 범용 목적 또는 특수 목적 컴퓨팅 시스템 환경 또는 구성으로 동작하는 컴퓨터 시스템/서버(12)가 있다. 컴퓨터 시스템/서버(12)와 함께 사용하기에 적합할 수 있는 잘 알려진 컴퓨팅 시스템, 환경, 및/또는 구성의 예는 개인용 컴퓨터 시스템, 서버 컴퓨터 시스템, 씬(thin) 클라이언트, 씩(thick) 클라이언트, 핸드헬드 또는 랩탑 장치, 멀티프로세서 시스템, 마이크로프로세서-기반 시스템, 셋톱 박스, 프로그램 가능한 소비자 전자 제품, 네트워크 PC, 미니컴퓨터 시스템, 메인프레임 컴퓨터 시스템, 및 상기 시스템 또는 장치 중 임의의 것을 포함하는 분산형 클라우드 컴퓨팅 환경 등을 포함하나 이에 제한되지는 않는다.
[0116] 컴퓨터 시스템/서버(12)는 컴퓨터 시스템에 의해 실행되는 프로그램 모듈과 같은 컴퓨터 시스템-실행 가능한 명령어의 일반적인 맥락에서 설명될 수 있다. 일반적으로, 프로그램 모듈은 특정 태스크를 수행하거나 특정 추상 데이터 유형을 구현하는 루틴, 프로그램, 객체, 컴포넌트, 로직, 데이터 구조 등을 포함할 수 있다. 컴퓨터 시스템/서버(12)는 태스크가 통신 네트워크를 통해 연결된 원격 처리 장치에 의해 수행되는 분산형 클라우드 컴퓨팅 환경에서 실행될 수 있다. 분산형 클라우드 컴퓨팅 환경에서, 프로그램 모듈은 메모리 저장 장치를 포함하는 로컬 및 원격 컴퓨터 시스템 저장 매체 둘 모두에 위치할 수 있다.
[0117] 도 21에 제시된 바와 같이, 컴퓨팅 노드(10)의 컴퓨터 시스템/서버(12)는 범용 컴퓨팅 장치의 형태로 제시된다. 컴퓨터 시스템/서버(12)의 구성요소는 하나 이상의 프로세서 또는 처리 유닛(16), 시스템 메모리(28), 및 시스템 메모리(28)를 포함하는 다양한 시스템 구성요소를 프로세서(16)에 연결하는 버스(18)를 포함할 수 있지만, 이에 제한되지 않는다.
[0118] 버스(18)는 메모리 버스 또는 메모리 컨트롤러, 주변 버스, 가속 그래픽 포트, 및 임의의 다양한 버스 아키텍처를 사용하는 프로세서 또는 로컬 버스를 포함하는 임의의 여러 유형의 버스 구조 중 하나 이상을 나타낸다. 예로서, 비제한적으로, 이러한 아키텍처는 산업 표준 아키텍쳐(Industry Standard Architecture; ISA) 버스, 마이크로 채널 아키텍쳐(Micro Channel Architecture; MCA) 버스, 인핸스드 ISA(EISA) 버스, 비디오 전자공학 표준위원회(Video Electronics Standards Association; VESA) 로컬 버스, 주변장치 구성요소 상호연결(Peripheral Component Interconnect; PCI) 버스, 주변장치 구성요소 상호연결 익스프레스(Peripheral Component Interconnect Express; PCIe), 및 어드밴스드 마이크로콘트롤 버스 아키텍쳐(Advanced Microcontroller Bus Architecture; AMBA)를 포함한다.
[0119] 컴퓨터 시스템/서버(12)는 전형적으로 다양한 컴퓨터 시스템 판독 가능 매체를 포함한다. 이러한 매체는 컴퓨터 시스템/서버(12)에 의해 액세스 가능한 임의의 이용 가능한 매체일 수 있고, 이는 휘발성 및 비-휘발성 매체, 착탈식 및 비-착탈식 매체 둘 모두를 포함한다.
[0120] 시스템 메모리(28)는 랜덤 액세스 메모리(RAM)(30) 및/또는 캐시 메모리(32)와 같은 휘발성 메모리의 형태로 컴퓨터 시스템 판독 가능 매체를 포함할 수 있다. 컴퓨터 시스템/서버(12)는 다른 제거 가능한/비-제거 가능한, 휘발성/비-휘발성 컴퓨터 시스템 저장 매체를 추가로 포함할 수 있다. 단지 예로서, 저장 시스템(34)은 비-제거 가능한 비-휘발성 자기 매체(제시되지 않고 전형적으로 "하드 드라이브"로 지칭됨)로부터 판독 및 이로의 기록을 위해 제공될 수 있다. 제시되지는 않았지만, 제거 가능한 비-휘발성 자기 디스크(예를 들어, "플로피 디스크")로부터 판독 및 이로의 기록을 위한 자기 디스크 드라이브, 및 제거 가능한 비-휘발성 광 디스크, 예를 들어, CD-ROM, DVD-ROM 또는 다른 광학 매체로부터 판독 또는 이로의 기록을 위한 광 디스크 드라이브가 제공될 수 있다. 이러한 예에서, 각각은 하나 이상의 데이터 매체 인터페이스에 의해 버스(18)에 연결될 수 있다. 하기에서 추가로 도시되고 설명될 바와 같이, 메모리(28)는 본 발명의 개시의 구현예의 기능을 수행하도록 구성된 프로그램 모듈의 세트(예를 들어, 적어도 하나)를 갖는 적어도 하나의 프로그램 제품을 포함할 수 있다.
[0121] 프로그램 모듈(42)의 세트(적어도 하나)를 갖는 프로그램/유틸리티(40)는 비제한적으로, 운영 체제, 하나 이상의 애플리케이션 프로그램, 다른 프로그램 모듈, 및 프로그램 데이터에 의해 메모리(28)에 저장될 수 있다. 각각의 운영 체제, 하나 이상의 애플리케이션 프로그램, 다른 프로그램 모듈, 및 프로그램 데이터 또는 이들의 일부 조합은 네트워킹 환경의 구현을 포함할 수 있다. 프로그램 모듈(42)은 일반적으로 본원에 설명된 바와 같은 구현예의 기능 및/또는 방법을 수행한다.
[0122] 컴퓨터 시스템/서버(12)는 또한 키보드, 포인팅 장치, 디스플레이(24) 등과 같은 하나 이상의 외부 장치(14); 사용자가 컴퓨터 시스템/서버(12)와 상호작용할 수 있게 하는 하나 이상의 장치; 및/또는 컴퓨터 시스템/서버(12)가 하나 이상의 다른 컴퓨팅 장치와 통신할 수 있게 하는 임의의 장치(예를 들어, 네트워크 카드, 모뎀 등)와 통신할 수 있다. 이러한 통신은 입력/출력(I/O) 인터페이스(22)를 통해 발생할 수 있다. 여전히, 컴퓨터 시스템/서버(12)는 네트워크 어댑터(20)를 통해 근거리 통신망(LAN), 일반 광역 통신망(WAN), 및/또는 공중 네트워크(예를 들어, 인터넷)와 같은 하나 이상의 네트워크와 통신할 수 있다. 도시된 바와 같이, 네트워크 어댑터(20)는 버스(18)를 통해 컴퓨터 시스템/서버(12)의 다른 구성요소와 통신한다. 제시되지는 않았지만, 다른 하드웨어 및/또는 소프트웨어 구성요소가 컴퓨터 시스템/서버(12)와 함께 사용될 수 있음이 이해되어야 한다. 예는 마이크로코드, 장치 드라이버, 중복 처리 유닛, 외부 디스크 드라이브 어레이, RAID 시스템, 테이프 드라이브, 및 데이터 아카이브 저장 시스템 등을 포함하나 이에 제한되지 않는다.
[0123] 본 발명의 개시는 시스템, 방법, 및/또는 컴퓨터 프로그램 제품으로서 구현될 수 있다. 컴퓨터 프로그램 제품은 프로세서로 하여금 본 발명의 개시의 양태를 수행하게 하기 위한 컴퓨터 판독가능 프로그램 명령어를 갖는 컴퓨터 판독가능 저장 매체(또는 매체들)를 포함할 수 있다.
[0124] 컴퓨터 판독 가능한 저장 매체는 명령어 실행 장치에 의한 사용을 위한 명령어를 보유하고 저장할 수 있는 유형의 장치일 수 있다. 컴퓨터 판독 가능한 저장 매체는, 예를 들어, 전자 저장 장치, 자기 저장 장치, 광학 저장 장치, 전자기 저장 장치, 반도체 저장 장치, 또는 이들의 임의의 적합한 조합일 수 있지만, 이에 제한되지 않는다. 컴퓨터 판독 가능한 저장 매체의 보다 구체적인 예의 비-배타적인 목록은 휴대용 컴퓨터 디스켓, 하드 디스크, 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM), 소거 가능한 프로그램 가능한 판독-전용 메모리(EPROM 또는 플래시 메모리), 정적 랜덤 액세스 메모리(SRAM), 휴대용 콤팩트 디스크 판독-전용 메모리(CD-ROM), 디지털 다용도 디스크(DVD), 메모리 스틱, 플로피 디스크, 펀치-카드 또는 명령어가 기록된 그루브의 융기 구조와 같은 기계적으로 인코딩된 장치, 및 이들의 임의의 적합한 조합을 포함한다. 본원에서 사용되는 컴퓨터 판독 가능 저장 매체는 전파 또는 다른 자유롭게 전파하는 전자기파, 도파관을 통해 전파하는 전자기파 또는 다른 전송 매체(예를 들어, 광섬유 케이블을 통과하는 광 펄스), 또는 와이어를 통해 전송되는 전기 신호와 같은 그 자체로 일시적인 신호로 해석되어선 안 된다.
[0125] 본원에 설명된 컴퓨터 판독 가능한 프로그램 명령어는 컴퓨터 판독 가능한 저장 매체로부터 각각의 컴퓨팅/처리 장치로, 또는 네트워크, 예를 들어, 인터넷, 근거리 통신망, 광역 네트워크 및/또는 무선 네트워크를 통해 외부 컴퓨터 또는 외부 저장 장치로 다운로드될 수 있다. 네트워크는 구리 전송 케이블, 광전송 섬유, 무선 전송, 라우터, 방화벽, 스위치, 게이트웨이 컴퓨터 및/또는 에지 서버를 포함할 수 있다. 각각의 컴퓨팅/처리 장치의 네트워크 어댑터 카드 또는 네트워크 인터페이스는 네트워크로부터 컴퓨터 판독 가능한 프로그램 명령어를 수신하고, 각각의 컴퓨팅/처리 장치 내의 컴퓨터 판독 가능한 저장 매체에 저장하기 위해 컴퓨터 판독 가능한 프로그램 명령어를 포워딩한다.
[0126] 본 발명의 개시의 작업을 수행하기 위한 컴퓨터 판독 가능한 프로그램 명령어는 어셈블러 명령어, 명령어-세트-아키텍처(ISA) 명령어, 기계 명령어, 기계 의존적 명령어, 마이크로코드, 펌웨어 명령어, 상태-설정 데이터, 또는 Smalltalk, C++ 등과 같은 객체 지향 프로그래밍 언어, 및 "C" 프로그래밍 언어 또는 유사한 프로그래밍 언어와 같은 통상적인 절차적 프로그래밍 언어를 포함하는 하나 이상의 프로그래밍 언어의 임의의 조합으로 작성된 소스 코드 또는 객체 코드일 수 있다. 컴퓨터 판독 가능한 프로그램 명령어는 완전히 사용자의 컴퓨터 상에서, 부분적으로 사용자의 컴퓨터 상에서, 독립형 소프트웨어 패키지로서, 부분적으로 사용자의 컴퓨터 상에서 및 부분적으로 원격 컴퓨터 상에서 또는 전체적으로 원격 컴퓨터 또는 서버 상에서 실행될 수 있다. 후자의 시나리오에서, 원격 컴퓨터는 근거리 통신망(LAN) 또는 광역 통신망(WAN)을 포함하는 임의의 유형의 네트워크를 통해 사용자의 컴퓨터에 연결될 수 있거나, 외부 컴퓨터에 대한 연결(예를 들어, 인터넷 서비스 제공자를 사용하여 인터넷을 통해)이 이루어질 수 있다. 일부 구현예에서, 예를 들어, 프로그램 가능한 논리 회로, 필드-프로그래밍 가능 게이트 어레이(field-programmable gate arrays; FPGA), 또는 프로그래밍 가능 로직 어레이(programmable logic arrays; PLA)를 포함하는 전자 회로는 본 발명의 개시의 양태를 수행하기 위해 전자 회로를 개인화하기 위해 컴퓨터 판독 가능한 프로그램 명령어의 상태 정보를 이용함으로써 컴퓨터 판독 가능 프로그램 명령어를 실행할 수 있다.
[0127] 본 발명의 개시의 양태는 본 발명의 개시의 구현예에 따른 방법, 장치(시스템), 및 컴퓨터 프로그램 제품의 흐름도 예시 및/또는 블록 다이어그램을 참조하여 본원에 설명된다. 흐름도 예시 및/또는 블록 다이어그램의 각 블록, 및 흐름도 예시 및/또는 블록 다이어그램의 블록들의 조합은 컴퓨터 판독 가능한 프로그램 명령어에 의해 구현될 수 있음이 이해될 것이다.
[0128] 이러한 컴퓨터 판독 가능한 프로그램 명령어는 범용 컴퓨터, 특수 목적 컴퓨터, 또는 다른 프로그램 가능한 데이터 처리 장치의 프로세서에 제공되어, 컴퓨터의 프로세서 또는 다른 프로그램 가능한 데이터 처리 장치를 통해 실행되는 명령어가 흐름도 및/또는 블록 다이어그램 블록 또는 블록들에 명시된 기능/동작을 구현하기 위한 수단을 생성하도록 하는 기계를 생성할 수 있다. 이러한 컴퓨터 판독 가능한 프로그램 명령어는 또한 컴퓨터, 프로그램 가능한 데이터 처리 장치, 및/또는 다른 디바이스가 특정 방식으로 기능하도록 지시할 수 있는 컴퓨터 판독 가능한 저장 매체에 저장될 수 있으며, 이에 따라 내부에 명령어가 저장된 컴퓨터 판독 가능한 저장 매체는 흐름도 및/또는 블록 다이어그램 블록 또는 블록들에 명시된 기능/작용의 양태를 구현하는 명령어를 포함하는 제조 물품을 포함한다.
[0129] 컴퓨터 판독 가능한 프로그램 명령어는 또한 컴퓨터, 다른 프로그래밍 가능한 데이터 처리 장치, 또는 다른 장치에 로딩되어, 일련의 작업 단계가 컴퓨터, 다른 프로그램 가능한 장치 또는 다른 장치에서 수행되어, 컴퓨터, 다른 프로그래밍 가능한 장치, 또는 다른 장치에서 실행되는 명령어가 흐름도 및/또는 블록 다이어그램 블록 또는 블록들에 명시된 기능/작용을 구현하도록 하는 컴퓨터 구현 프로세스를 생성할 수 있다.
[0130] 도면의 흐름도 및 블록 다이어그램은 본 발명의 개시의 다양한 구현예에 따른 시스템, 방법, 및 컴퓨터 프로그램 제품의 가능한 구현의 아키텍처, 기능, 및 동작을 예시한다. 이와 관련하여, 흐름도 또는 블록 다이어그램의 각각의 블록은 특정 논리 기능(들)을 구현하기 위한 하나 이상의 실행 가능한 명령어를 포함하는 모듈, 세그먼트, 또는 명령어의 일부를 나타낼 수 있다. 일부 대안적인 구현에서, 블록에 언급된 기능은 도면에 언급된 순서와 다르게 발생할 수 있다. 예를 들어, 연속하여 제시된 2개의 블록은, 실제로, 실질적으로 동시에 실행될 수 있거나, 관련된 기능에 따라 블록이 때때로 역순으로 실행될 수 있다. 또한, 블록 다이어그램 및/또는 흐름도 예시의 각 블록, 및 블록 다이어그램 및/또는 흐름도 예시에서의 블록들의 조합은 특정 기능 또는 작용을 수행하거나 특수 목적 하드웨어 및 컴퓨터 명령어의 조합을 수행하는 특수 목적 하드웨어-기반 시스템에 의해 구현될 수 있음이 주목될 것이다.
[0131] 본 발명의 개시의 다양한 구현예의 설명은 예시의 목적으로 제시되었지만, 개시된 구현예를 망라하거나 제한하려는 것은 아니다. 설명된 구현예의 범위 및 사상을 벗어나지 않으면서 많은 수정 및 변형이 당업자에게 명백할 것이다. 본원에서 사용되는 용어는 구현예의 원리, 시장에서 발견되는 기술에 대한 실질적인 적용 또는 기술적 개선을 가장 잘 설명하거나, 당업자가 본원에 개시된 구현예를 이해할 수 있게 하기 위해 선택되었다.

Claims (75)

  1. 제1 서명을 판독하는 단계로서, 제1 서명이 제1 복수의 분자 바이오마커를 복수의 출력 분류 중 제1 출력 분류와 관련시키는, 단계;
    복수의 데이터세트 각각에 대해, 복수의 출력 분류 각각에 대한 제1 복수의 분자 바이오마커 각각의 발현 값을 표준화하여, 각각이 제1 복수의 분자 바이오마커 중 하나, 복수의 출력 분류 중 하나, 및 복수의 데이터세트 중 하나와 관련된 복수의 표준화된 발현을 산출하는 단계;
    제1 복수의 분자 바이오마커 각각에 대해, 상기 분자 바이오마커와 관련된 표준화된 발현 사이의 쌍별 비교를 수행하고, 각각의 쌍별 비교가 동일한 출력 분류 및 상이한 데이터세트와 관련된 표준화된 발현 사이의 것이며, 이에 의해 복수의 분자 바이오마커 각각에 대한 전송가능성(transferability) 스코어를 결정하는 단계;
    각각의 전송가능성 스코어에 기초하여 제1 복수의 분자 바이오마커의 순위를 매기는 단계;
    전송가능성 스코어 임계값을 제1 복수의 분자 바이오마커에 적용함으로써 제1 복수의 분자 바이오마커로부터 제2 복수의 분자 바이오마커를 생성하는 단계; 및
    전송 가능한 서명을 제공하는 단계로서, 전송 가능한 서명이 제2 복수의 분자 바이오마커를 복수의 출력 분류 중 제1 출력 분류와 관련시키는, 단계를 포함하는,
    방법.
  2. 제1항에 있어서, 제1 복수의 분자 바이오마커 각각이 유전자인 방법.
  3. 제1항에 있어서, 제1 복수의 분자 바이오마커 각각이 단백질인 방법.
  4. 제1항에 있어서, 각각의 서명이 맵핑 함수를 포함하는 방법.
  5. 제1항에 있어서, 각각의 서명이 복수의 시냅스 가중치를 포함하는 방법.
  6. 제1항에 있어서, 각각의 출력 분류가 표현형을 포함하는 방법.
  7. 제6항에 있어서, 표현형이 질병 표현형인 방법.
  8. 제1항에 있어서, 상기 표준화가 분위수 표준화를 포함하는 방법.
  9. 제1항에 있어서, 상기 표준화가 미리 결정된 참조 분포에 대한 것인 방법.
  10. 제1항에 있어서, 쌍별 비교를 수행하는 것이 콜모고로프-스미르노프(Kolmogorov-Smirnov) 통계를 계산하는 것을 포함하는 방법.
  11. 제1항에 있어서, 전송가능성 스코어를 결정하는 것이 쌍별 비교의 평균을 계산하는 것을 포함하는 방법.
  12. 제1항에 있어서, 복수의 데이터세트가 복수의 플랫폼 기술 각각으로부터 유래된 적어도 하나의 데이터세트를 포함하는 방법.
  13. 제12항에 있어서, 플랫폼 기술이 마이크로어레이 및 RNA-시퀀싱을 포함하는 방법.
  14. 제12항에 있어서, 플랫폼 기술이 질량 분광법, ELISA, 항체 어레이, 펩티드 핑거프린팅, 및/또는 단백질 바코딩을 포함하는 방법.
  15. 제12항에 있어서, 복수의 데이터세트 각각이 동일한 생물학적 샘플로부터 유래되는 방법.
  16. 프로그램 명령어가 구현된 컴퓨터 판독 가능한 저장 매체를 포함하는 컴퓨팅 노드를 포함하는 시스템으로서, 상기 프로그램 명령어가 상기 컴퓨팅 노드의 프로세서에 의해 실행되어 상기 프로세서가,
    제1 서명을 판독하는 단계로서, 제1 서명이 제1 복수의 분자 바이오마커를 복수의 출력 분류 중 제1 출력 분류와 관련시키는, 단계;
    복수의 데이터세트 각각에 대해, 복수의 출력 분류 각각에 대한 제1 복수의 분자 바이오마커 각각의 발현 값을 표준화하여, 각각이 제1 복수의 분자 바이오마커 중 하나, 복수의 출력 분류 중 하나, 및 복수의 데이터세트 중 하나와 관련된 복수의 표준화된 발현을 산출하는 단계;
    제1 복수의 분자 바이오마커 각각에 대해, 상기 분자 바이오마커와 관련된 표준화된 발현 사이의 쌍별 비교를 수행하고, 각각의 쌍별 비교가 동일한 출력 분류 및 상이한 데이터세트와 관련된 표준화된 발현 사이의 것이며, 이에 의해 복수의 분자 바이오마커 각각에 대한 전송가능성 스코어를 결정하는 단계;
    각각의 전송가능성 스코어에 기초하여 제1 복수의 분자 바이오마커의 순위를 매기는 단계;
    전송가능성 스코어 임계값을 제1 복수의 분자 바이오마커에 적용함으로써 제1 복수의 분자 바이오마커로부터 제2 복수의 분자 바이오마커를 생성하는 단계; 및
    전송 가능한 서명을 제공하는 단계로서, 전송 가능한 서명이 제2 복수의 분자 바이오마커를 복수의 출력 분류 중 제1 출력 분류와 관련시키는, 단계를 포함하는 방법을 수행하게 하는,
    시스템.
  17. 제16항에 있어서, 제1 복수의 분자 바이오마커 각각이 유전자인 시스템.
  18. 제16항에 있어서, 제1 복수의 분자 바이오마커 각각이 단백질인 시스템.
  19. 제16항에 있어서, 각각의 서명이 복수의 시냅스 가중치를 포함하는 시스템.
  20. 제16항에 있어서, 각각의 서명이 맵핑 함수를 포함하는 시스템.
  21. 제16항에 있어서, 각각의 출력 분류가 표현형을 포함하는 시스템.
  22. 제21항에 있어서, 표현형이 질병 표현형인 시스템.
  23. 제16항에 있어서, 상기 표준화가 분위수 표준화를 포함하는 시스템.
  24. 제16항에 있어서, 상기 표준화가 미리 결정된 참조 분포에 대한 것인 시스템.
  25. 제16항에 있어서, 쌍별 비교를 수행하는 것이 콜모고로프-스미르노프 통계를 계산하는 것을 포함하는 시스템.
  26. 제16항에 있어서, 전송가능성 스코어를 결정하는 것이 쌍별 비교의 평균을 계산하는 것을 포함하는 시스템.
  27. 제16항에 있어서, 복수의 데이터세트가 복수의 플랫폼 기술 각각으로부터 유래된 적어도 하나의 데이터세트를 포함하는 시스템.
  28. 제27항에 있어서, 플랫폼 기술이 마이크로어레이 및 RNA-시퀀싱을 포함하는 시스템.
  29. 제27항에 있어서, 플랫폼 기술이 질량 분광법, ELISA, 항체 어레이, 펩티드 핑거프린팅, 및/또는 단백질 바코딩을 포함하는 시스템.
  30. 제27항에 있어서, 복수의 데이터세트 각각이 동일한 생물학적 샘플로부터 유래되는 시스템.
  31. 전송 가능한 분자 바이오마커 서명을 결정하기 위한 컴퓨터 프로그램 제품으로서, 상기 컴퓨터 프로그램 제품이 프로그램 명령어가 구현된 컴퓨터 판독 가능한 저장 매체를 포함하고, 상기 프로그램 명령어가 프로세서에 의해 실행되어 상기 프로세서가,
    제1 서명을 판독하는 단계로서, 제1 서명이 제1 복수의 분자 바이오마커를 복수의 출력 분류 중 제1 출력 분류와 관련시키는, 단계;
    복수의 데이터세트 각각에 대해, 복수의 출력 분류 각각에 대한 제1 복수의 분자 바이오마커 각각의 발현 값을 표준화하여, 각각이 제1 복수의 분자 바이오마커 중 하나, 복수의 출력 분류 중 하나, 및 복수의 데이터세트 중 하나와 관련된 복수의 표준화된 발현을 산출하는 단계;
    제1 복수의 분자 바이오마커 각각에 대해, 상기 분자 바이오마커와 관련된 표준화된 발현 사이의 쌍별 비교를 수행하고, 각각의 쌍별 비교가 동일한 출력 분류 및 상이한 데이터세트와 관련된 표준화된 발현 사이의 것이며, 이에 의해 복수의 분자 바이오마커 각각에 대한 전송가능성 스코어를 결정하는 단계;
    각각의 전송가능성 스코어에 기초하여 제1 복수의 분자 바이오마커의 순위를 매기는 단계;
    전송가능성 스코어 임계값을 제1 복수의 분자 바이오마커에 적용함으로써 제1 복수의 분자 바이오마커로부터 제2 복수의 분자 바이오마커를 생성하는 단계; 및
    전송 가능한 서명을 제공하는 단계로서, 전송 가능한 서명이 제2 복수의 분자 바이오마커를 복수의 출력 분류 중 제1 출력 분류와 관련시키는, 단계를 포함하는 방법을 수행하게 하는,
    컴퓨터 프로그램 제품.
  32. 제31항에 있어서, 제1 복수의 분자 바이오마커 각각이 유전자인 컴퓨터 프로그램 제품.
  33. 제31항에 있어서, 제1 복수의 분자 바이오마커 각각이 단백질인 컴퓨터 프로그램 제품.
  34. 제31항에 있어서, 각각의 서명이 맵핑 함수를 포함하는 컴퓨터 프로그램 제품.
  35. 제31항에 있어서, 각각의 서명이 복수의 시냅스 가중치를 포함하는 컴퓨터 프로그램 제품.
  36. 제31항에 있어서, 각각의 출력 분류가 표현형을 포함하는 컴퓨터 프로그램 제품.
  37. 제36항에 있어서, 표현형이 질병 표현형인 컴퓨터 프로그램 제품.
  38. 제31항에 있어서, 상기 표준화가 분위수 표준화를 포함하는 컴퓨터 프로그램 제품.
  39. 제31항에 있어서, 상기 표준화가 미리 결정된 참조 분포에 대한 것인 컴퓨터 프로그램 제품.
  40. 제31항에 있어서, 쌍별 비교를 수행하는 것이 콜모고로프-스미르노프 통계를 계산하는 것을 포함하는 컴퓨터 프로그램 제품.
  41. 제31항에 있어서, 전송가능성 스코어를 결정하는 것이 쌍별 비교의 평균을 계산하는 것을 포함하는 컴퓨터 프로그램 제품.
  42. 제31항에 있어서, 복수의 데이터세트가 복수의 플랫폼 기술 각각으로부터 유래된 적어도 하나의 데이터세트를 포함하는 컴퓨터 프로그램 제품.
  43. 제42항에 있어서, 플랫폼 기술이 마이크로어레이 및 RNA-시퀀싱을 포함하는 컴퓨터 프로그램 제품.
  44. 제42항에 있어서, 복수의 데이터세트 각각이 동일한 생물학적 샘플로부터 유래되는 컴퓨터 프로그램 제품.
  45. 제1 서명을 판독하는 단계로서, 제1 서명이 제1 복수의 분자 바이오마커를 복수의 출력 분류 중 제1 출력 분류와 관련시키는, 단계;
    데이터세트 쌍 각각이 상이한 플랫폼 기술로부터 유래되고, 데이터세트 쌍 각각이 동일한 생물학적 샘플로부터 유래되는 데이터세트 쌍 각각에 대해, 데이터세트 쌍 사이의 제1 복수의 분자 바이오마커 각각에 대한 상관 계수를 결정하는 단계;
    복수의 출력 분류 각각에 대해, 데이터세트의 쌍 사이의 제1 복수의 분자 바이오마커 각각에 대한 분류-특이적 상관 계수를 결정하는 단계;
    각각의 상관 계수 및 분류-특이적 상관 계수에 기초하여 제1 복수의 분자 바이오마커의 순위를 매기는 단계;
    순위 임계값을 제1 복수의 분자 바이오마커에 적용함으로써 제1 복수의 분자 바이오마커로부터 제2 복수의 분자 바이오마커를 생성하는 단계; 및
    전송 가능한 서명을 제공하는 단계로서, 전송 가능한 서명이 제2 복수의 분자 바이오마커를 복수의 출력 분류 중 제1 출력 분류와 관련시키는, 단계를 포함하는,
    방법.
  46. 제45항에 있어서, 제1 복수의 분자 바이오마커 각각이 유전자인 방법.
  47. 제45항에 있어서, 제1 복수의 분자 바이오마커 각각이 단백질인 방법.
  48. 제45항에 있어서, 각각의 서명이 맵핑 함수를 포함하는 방법.
  49. 제45항에 있어서, 각각의 서명이 복수의 시냅스 가중치를 포함하는 방법.
  50. 제45항에 있어서, 각각의 출력 분류가 표현형을 포함하는 방법.
  51. 제50항에 있어서, 표현형이 질병 표현형인 방법.
  52. 제45항에 있어서, 플랫폼 기술이 마이크로어레이 및 RNA-시퀀싱을 포함하는 방법.
  53. 제45항에 있어서, 플랫폼 기술이 질량 분광법, ELISA, 항체 어레이, 펩티드 핑거프린팅, 및/또는 단백질 바코딩을 포함하는 방법.
  54. 프로그램 명령어가 구현된 컴퓨터 판독 가능한 저장 매체를 포함하는 컴퓨팅 노드를 포함하는 시스템으로서, 상기 프로그램 명령어가 상기 컴퓨팅 노드의 프로세서에 의해 실행되어 상기 프로세서가,
    제1 서명을 판독하는 단계로서, 제1 서명이 제1 복수의 분자 바이오마커를 복수의 출력 분류 중 제1 출력 분류와 관련시키는, 단계;
    데이터세트 쌍 각각이 상이한 플랫폼 기술로부터 유래되고, 데이터세트 쌍 각각이 동일한 생물학적 샘플로부터 유래되는 데이터세트 쌍 각각에 대해, 데이터세트 쌍 사이의 제1 복수의 분자 바이오마커 각각에 대한 상관 계수를 결정하는 단계;
    복수의 출력 분류 각각에 대해, 데이터세트의 쌍 사이의 제1 복수의 분자 바이오마커 각각에 대한 분류-특이적 상관 계수를 결정하는 단계;
    각각의 상관 계수 및 분류-특이적 상관 계수에 기초하여 제1 복수의 분자 바이오마커의 순위를 매기는 단계;
    순위 임계값을 제1 복수의 분자 바이오마커에 적용함으로써 제1 복수의 분자 바이오마커로부터 제2 복수의 분자 바이오마커를 생성하는 단계; 및
    전송 가능한 서명을 제공하는 단계로서, 전송 가능한 서명이 제2 복수의 분자 바이오마커를 복수의 출력 분류 중 제1 출력 분류와 관련시키는, 단계를 포함하는 방법을 수행하게 하는,
    시스템.
  55. 제54항에 있어서, 제1 복수의 분자 바이오마커 각각이 유전자인 시스템.
  56. 제54항에 있어서, 제1 복수의 분자 바이오마커 각각이 단백질인 시스템.
  57. 제54항에 있어서, 각각의 서명이 복수의 시냅스 가중치를 포함하는 시스템.
  58. 제54항에 있어서, 각각의 서명이 맵핑 함수를 포함하는 시스템.
  59. 제54항에 있어서, 각각의 출력 분류가 표현형을 포함하는 시스템.
  60. 제59항에 있어서, 표현형이 질병 표현형인 시스템.
  61. 제54항에 있어서, 플랫폼 기술이 마이크로어레이 및 RNA-시퀀싱을 포함하는 시스템.
  62. 제54항에 있어서, 플랫폼 기술이 질량 분광법, ELISA, 항체 어레이, 펩티드 핑거프린팅, 및/또는 단백질 바코딩을 포함하는 시스템.
  63. 전송 가능한 분자 바이오마커 서명을 결정하기 위한 컴퓨터 프로그램 제품으로서, 상기 컴퓨터 프로그램 제품이 프로그램 명령어가 구현된 컴퓨터 판독 가능한 저장 매체를 포함하고, 상기 프로그램 명령어가 프로세서에 의해 실행되어 상기 프로세서가,
    제1 서명을 판독하는 단계로서, 제1 서명이 제1 복수의 분자 바이오마커를 복수의 출력 분류 중 제1 출력 분류와 관련시키는, 단계;
    데이터세트 쌍 각각이 상이한 플랫폼 기술로부터 유래되고, 데이터세트 쌍 각각이 동일한 생물학적 샘플로부터 유래되는 데이터세트 쌍 각각에 대해, 데이터세트 쌍 사이의 제1 복수의 분자 바이오마커 각각에 대한 상관 계수를 결정하는 단계;
    복수의 출력 분류 각각에 대해, 데이터세트의 쌍 사이의 제1 복수의 분자 바이오마커 각각에 대한 분류-특이적 상관 계수를 결정하는 단계;
    각각의 상관 계수 및 분류-특이적 상관 계수에 기초하여 제1 복수의 분자 바이오마커의 순위를 매기는 단계;
    순위 임계값을 제1 복수의 분자 바이오마커에 적용함으로써 제1 복수의 분자 바이오마커로부터 제2 복수의 분자 바이오마커를 생성하는 단계; 및
    전송 가능한 서명을 제공하는 단계로서, 전송 가능한 서명이 제2 복수의 분자 바이오마커를 복수의 출력 분류 중 제1 출력 분류와 관련시키는, 단계를 포함하는 방법을 수행하게 하는,
    컴퓨터 프로그램 제품.
  64. 제63항에 있어서, 제1 복수의 분자 바이오마커 각각이 유전자인 컴퓨터 프로그램 제품.
  65. 제63항에 있어서, 제1 복수의 분자 바이오마커 각각이 단백질인 컴퓨터 프로그램 제품.
  66. 제63항에 있어서, 각각의 서명이 맵핑 함수를 포함하는 컴퓨터 프로그램 제품.
  67. 제63항에 있어서, 각각의 서명이 복수의 시냅스 가중치를 포함하는 컴퓨터 프로그램 제품.
  68. 제63항에 있어서, 각각의 출력 분류가 표현형을 포함하는 컴퓨터 프로그램 제품.
  69. 제68항에 있어서, 표현형이 질병 표현형인 컴퓨터 프로그램 제품.
  70. 제63항에 있어서, 플랫폼 기술이 마이크로어레이 및 RNA-시퀀싱을 포함하는 컴퓨터 프로그램 제품.
  71. 제63항에 있어서, 복수의 데이터세트 각각이 동일한 생물학적 샘플로부터 유래되는 컴퓨터 프로그램 제품.
  72. 제1항의 방법에 따라 제1 전송가능성 서명을 결정하는 단계;
    제45항의 방법에 따라 제2 전송가능성 서명을 결정하는 단계;
    제1 및 제2 전송가능성 서명의 교집합을 결정함으로써 제3 전송가능성 서명을 결정하는 단계를 포함하는,
    방법.
  73. 제1항의 방법에 따라 제1 전송가능성 서명을 결정하는 단계;
    제45항의 방법에 따라 제2 전송가능성 서명을 결정하는 단계;
    제1 및 제2 전송가능성 서명의 합집합을 결정함으로써 제3 전송가능성 서명을 결정하는 단계를 포함하는,
    방법.
  74. 제1항의 방법에 따라 제1 전송가능성 서명을 결정하는 단계;
    제45항의 방법을 제1 전송가능성 서명에 적용하여 제2 전송가능성 서명을 결정하는 단계를 포함하는,
    방법.
  75. 제45항의 방법에 따라 제1 전송가능성 서명을 결정하는 단계;
    제1항의 방법을 제1 전송가능성 서명에 적용하여 제2 전송가능성 서명을 결정하는 단계를 포함하는,
    방법.
KR1020227028760A 2020-01-21 2021-01-21 분자 바이오마커 데이터세트 전반에 걸친 예측 서명의 견고성 및 전송가능성 평가 KR20230008020A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202062963735P 2020-01-21 2020-01-21
US62/963,735 2020-01-21
PCT/US2021/014400 WO2021150743A2 (en) 2020-01-21 2021-01-21 Evaluating the robustness and transferability of predictive signatures across molecular biomarker datasets

Publications (1)

Publication Number Publication Date
KR20230008020A true KR20230008020A (ko) 2023-01-13

Family

ID=76857181

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020227028760A KR20230008020A (ko) 2020-01-21 2021-01-21 분자 바이오마커 데이터세트 전반에 걸친 예측 서명의 견고성 및 전송가능성 평가

Country Status (7)

Country Link
US (1) US20210225460A1 (ko)
EP (1) EP4094260A4 (ko)
JP (1) JP2023511237A (ko)
KR (1) KR20230008020A (ko)
AU (1) AU2021209888A1 (ko)
CA (1) CA3168490A1 (ko)
WO (1) WO2021150743A2 (ko)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2796272C (en) * 2010-04-29 2019-10-01 The Regents Of The University Of California Pathway recognition algorithm using data integration on genomic models (paradigm)
JP6895971B2 (ja) * 2015-09-10 2021-06-30 クラウン バイオサイエンス,インコーポレイテッド(タイツァン) 疾患の組織学的診断および処置方法

Also Published As

Publication number Publication date
EP4094260A2 (en) 2022-11-30
WO2021150743A2 (en) 2021-07-29
JP2023511237A (ja) 2023-03-16
EP4094260A4 (en) 2024-02-21
WO2021150743A3 (en) 2021-09-02
CA3168490A1 (en) 2021-07-29
AU2021209888A1 (en) 2022-09-15
US20210225460A1 (en) 2021-07-22

Similar Documents

Publication Publication Date Title
Lee et al. Review of statistical methods for survival analysis using genomic data
US10339464B2 (en) Systems and methods for generating biomarker signatures with integrated bias correction and class prediction
Sathyanarayanan et al. A comparative study of multi-omics integration tools for cancer driver gene identification and tumour subtyping
Lancashire et al. An introduction to artificial neural networks in bioinformatics—application to complex microarray and mass spectrometry datasets in cancer studies
CA2877430C (en) Systems and methods for generating biomarker signatures with integrated dual ensemble and generalized simulated annealing techniques
Land Jr et al. Partial least squares (PLS) applied to medical bioinformatics
Papoutsoglou et al. Automated machine learning optimizes and accelerates predictive modeling from COVID-19 high throughput datasets
Sekaran et al. Predicting autism spectrum disorder from associative genetic markers of phenotypic groups using machine learning
Lock et al. Bayesian genome-and epigenome-wide association studies with gene level dependence
US20210225460A1 (en) Evaluating the robustness and transferability of predictive signatures across molecular biomarker datasets
Liu et al. Glassonet: Identifying discriminative gene sets among molecular subtypes of breast cancer
Eng et al. Discrete mixture modeling to address genetic heterogeneity in time-to-event regression
Thenmozhi et al. Distributed ICSA clustering approach for large scale protein sequences and Cancer diagnosis
Iqbal et al. A framework for the RNA-Seq based classification and prediction of disease
Wu et al. Stacked autoencoder based multi-omics data integration for cancer survival prediction
Kuznetsov et al. Statistically weighted voting analysis of microarrays for molecular pattern selection and discovery cancer genotypes
KR20210059325A (ko) 딥러닝을 이용한 암의 예후 예측 모델
US20210295952A1 (en) Methods and systems for determining responders to treatment
Akbulut et al. Classification of colorectal cancer based on gene sequencing data with XGBoost model: An application of public health informatics
Zollinger et al. Meta-analysis of incomplete microarray studies
Sauvé et al. Baseline Acute Myeloid Leukemia Prognosis Models using Transcriptomic and Clinical Profiles by Studying the Impacts of Dimensionality Reductions and Gene Signatures on Cox-Proportional Hazard
WO2022185028A1 (en) Evaluation framework for target identification in precision medicine
Ghaleb et al. Bladder Cancer Microarray Analysis and Biomarker Discovery Using Machine Learning
López et al. 20089 Computational Pipelines and Workflows in Bioinformatics
WO2024077119A1 (en) Systems and methods for performing methylation-based risk stratification for myelodysplastic syndromes