KR20180094150A - 암 돌연변이의 기능적 검증을 위한 rna 분석 시스템 및 방법 - Google Patents

암 돌연변이의 기능적 검증을 위한 rna 분석 시스템 및 방법 Download PDF

Info

Publication number
KR20180094150A
KR20180094150A KR1020187023501A KR20187023501A KR20180094150A KR 20180094150 A KR20180094150 A KR 20180094150A KR 1020187023501 A KR1020187023501 A KR 1020187023501A KR 20187023501 A KR20187023501 A KR 20187023501A KR 20180094150 A KR20180094150 A KR 20180094150A
Authority
KR
South Korea
Prior art keywords
mutation
genes
dataset
genomic
mutant
Prior art date
Application number
KR1020187023501A
Other languages
English (en)
Inventor
존 재커리 샌본
Original Assignee
파이브3 제노믹스, 엘엘씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 파이브3 제노믹스, 엘엘씨 filed Critical 파이브3 제노믹스, 엘엘씨
Publication of KR20180094150A publication Critical patent/KR20180094150A/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • G06F19/18
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G06F19/22
    • G06F19/28
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/20Heterogeneous data integration
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/40Encryption of genetic data

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioethics (AREA)
  • Genetics & Genomics (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

본원의 시스템 및 방법은, 게놈/엑솜내 암 관련 돌연변이를, 특히 돌연변이가 3'-말단 넌센스 돌연변이인 경우에, 그 돌연변이를 가진 발병된 유전자의 전사 수준과 상호 연관시킴으로써, 게놈/엑솜 데이타를 트랜스크립톰 데이타와 통합한다.

Description

암 돌연변이의 기능적 검증을 위한 RNA 분석 시스템 및 방법 {SYSTEMS AND METHODS FOR RNA ANALYSIS IN FUNCTIONAL CONFIRMATION OF CANCER MUTATIONS}
본 출원은, 2014년 3월 25일자 미국 가출원 제 61/970054호에 대한 우선권을 주장하는, 2015년 3월 25일자 미국 특허 출원 제 14/668518호에 대해 우선권을 주장한다. 이들 문헌과 이들 문헌에 인용된 다른 참고문헌들은 그 전체가 원용에 의해 본 명세서에 포함된다. 또한, 언급된 참고문헌에서 용어에 대한 정의나 사용이 본원에 제시된 용어의 정의와 일치하지 않거나 상충되는 경우, 본원에 제시된 용어에 대한 정의가 적용되며, 참고문헌에 따른 용어 정의는 적용되지 않는다.
본 발명의 기술 분야는 오믹스 (omics) 분석, 특히 암 진단 및 치료와 관련된 RNA 유전체학 (RNomics)이다.
배경기술에 대한 내용은 본 발명을 이해하는데 유용할 수 있는 정보를 포함한다. 본원에 제공된 어떤 정보도 현재 청구된 본 발명에 대한 선행 기술이거나 또는 관련있음을 용인하는 것은 아니며, 구체적으로 또는 암묵적으로 언급된 어떤 간행물이 선행 기술임을 용인하는 것은 아니다.
합리적이고 비교적 신속한 전체 게놈 서열분석이 출현함에 따라, DNA 수준에서 방대한 양의 상세한 지식들이 이용가능해지고 있다. 그러나, 데이타의 의미있는 분석은 대부분의 경우 엄청난 양의 정보와 기본 체제 및 컴퓨터 처리 알고리즘의 부족으로 인해 지연되고 있다. 이러한 문제는, 조직 및 심지어 세포 수준에서의 분석, 특히 RNA 유전체학과 프로테오믹스에 추가적인 오믹스 정보가 이용가능한 경우, 더 심각해진다. 즉, 이러한 다른 데이타와의 통합 단계가 다수의 예후 예측, 진단 및 치료적 접근에서 속도를 제한하는 단계가 되고 있다.
최근 들어, 예를 들어 US 2012/0059670 및 US 2012/0066001에 기술된 바와 같이, 게놈 데이타의 고 성능 서열 분석은 환자의 종양과 매칭되는 건강한 조직 간의 점증적인 차별적 정렬 (incremental differential alignment) 및 비교를 통해 실질적으로 더욱 효율적으로 되어 가고 있다. 이러한 정보는 WO/2011/139345 및 WO/2013/062505에서 이미 개시된 경로 인지 알고리즘 (pathway recognition algorithm)을 이용해 추가적으로 분석될 수 있다. 그러나, 이러한 발전된 툴을 이용하더라도, 종양 게놈내 특정 돌연변이 무리의 존재가, 돌연변이된 유전자가 실제 발현되는 것을 예견하거나, 발현된 경우, 그러한 돌연변이가 어떤 효과를 발휘하게 되는 지를, 반드시 예견하지는 못한다. RNA 유전체학에서 발견된 사실 그 자체가 도움이될 수도 있지만, 이러한 결과 그 자체만으로는, 게노믹스 및 프로테오믹스에서 수득되는 상황별 추가적인 데이타 없이는, 정보적 가치가 높지 않을 것이다.
즉, 오믹스 데이타를 분석하기 위한 수많은 시스템들과 방법들이 선행 기술 분야에 공지되어 있지만, 여전히 오믹스 분석과 다양한 오믹스 플랫폼에서 수집된 정보의 통합에 개선이 필요한 실정이다.
본 발명의 내용은 RNA 유전체학 정보를 다양한 분석 시스템, 특히 게놈 분석을 이용해 통합하는 시스템 및 방법과, 신생물 질환에 대한 다양한 마커들의 동정에 관한 것이다. 보다 구체적으로, 본 발명자들은, 게놈 또는 엑솜 (exome) 수준에서 환자 및 종양 특이적 돌연변이들을, 대응되는 RNA에 대한 전사 수준에서의 분석, 특히 그러한 돌연변이가 악성과 관련있는 것으로 공지된 선택 유전자에서 넌센스 돌연변이인 경우에, 이의 전사 수준에서의 분석과 연관시킬 수 있다는 것을 발견하게 되었다.
본원의 일 측면에서, 오믹스 데이타 처리 방법은, 게놈 데이타 세트와 트랜스트립톰 데이타 세트가 저장된 데이타베이스를 분석 엔진과 정보적으로 커플링 (coupling)하는 단계를 포함한다. 일반적으로 고려되는 방법에서, 게놈 데이타 세트는 환자의 질병에 걸린 조직 (예, 암성 조직)에서 하나 이상의 유전자의 돌연변이를 나타내고 이 돌연변이는 환자의 정상 조직을 기준으로 하며, 트랜스크립톰 데이타 세트는 환자의 질병에 걸린 조직에서 상기 하나 이상의 유전자의 돌연변이 및 발현 수준을 나타내고, 이러한 돌연변이 및 발현 수준은 환자의 정상 조직을 기준으로 한다. 고려되는 방법의 다른 단계로서, 돌연변이를 이용해 (예, 돌연변이가 동일한 위치에 있는 경우), 트랜스크립톰 데이타 세트를 게놈 데이타 세트와 연관시키고, 이 돌연변이를 넌센스 돌연변이로 동정하기 위해, 서열 분석 엔진이 사용된다. 돌연변이가 넌센스 돌연변이로 동정되면, 하나 이상의 유전자의 3'-말단 영역내에서 이 돌연변이의 위치를 동정하고, 상기 하나 이상의 유전자의 발현 수준을 동정하기 위해, 서열 분석 엔진이 추가로 사용된다. 본 방법의 또 다른 단계로서, 분석 엔진은, 돌연변이의 위치와 발현 수준을 이용해 오믹스 데이타베이스에 오믹스 기록을 업데이트하거나 또는 생성한다.
본 발명의 내용을 제한하는 것은 아니지만, 추가로 고려되는 방법은, 서열 데이타베이스 또는 서열분석 디바이스를 서열 분석 엔진과 정보적으로 커플링하는 단계와, 서열 분석 엔진을 이용해 트랜스크립톰 데이타 세트와 게놈 데이타 세트를 생성하는 또 다른 단계를 포함할 수 있다. 가장 전형적으로, 트랜스크립톰 데이타 세트와 게놈 데이타 세트는 차별적인 다른 서열 객체 (differential sequence object)이지만, 반드시 그럴 필요는 없다. 또한, 트랜스크립톰 데이타는 cDNA 또는 polyA+RNA로부터 수득되는 것으로 고려된다.
본 방법의 다른 측면에서, 오믹스 기록은, 동정된 위치가 유전자의 3'-말단 영역 (예, 말단 엑손 3개, 말단 엑손 2개)내 위치하거나 및/또는 동정된 발현 수준이 정상 조직과 비교해 발현 수준이 높을 경우에, 업데이트될 것이다. 고려되는 기타 유전자들 중에서도, 특히 적합한 유전자로는 CDKN2A, ARID1A, FAT1, TP53, PTEN, AHNAK, SRRM2, RASA1, PIK3R1 및 MRPL32가 있다.
따라서, 다른 관점에서 살펴보면, 오믹스 기록 컴퓨터 시스템은 하나 이상의 프로세서, 및 상기 프로세스와 커플링되어 있는 하나 이상의 메모리를 포함하며, 상기 메모리는 (1) 환자의 발병된 조직에서, 환자의 정상 조직을 기준으로 하나 이상의 유전자에 대한 돌연변이를 나타내는 게놈 데이타 세트 및 (2) 환자의 발병된 조직에서, 환자의 정상 조직을 기준으로 하나 이상의 유전자에 대한 돌연변이 및 발현 수준을 나타내는 트랜스크립톰 데이타를 저장하도록 구성되어 있다. 고려되는 시스템은 오믹스 데이타베이스와 정보적으로 커플링된 분석 엔진을 더 포함할 것이며, 이 분석 엔진은, 하나 이상의 메모리에 저장된 소프트웨어 명령에 따라 하나 이상의 프로세서에서 실행가능하며, 프로세서가, (a) 돌연변이를 이용해 게놈 데이타 세트와 트랜스크립톰 데이타 세트를 연관시키고; (b) 돌연변이를 넌센스 돌연변이로서 동정하고; 넌센스 돌연변이로서 돌연변이 동정시: 상기 하나 이상의 유전자의 3'-말단 영역에서 돌연변이의 위치를 동정하고; 그리고 상기 하나 이상의 유전자의 발현 수준을 동정하고; (c) 동정된 위치 및 발현 수준을 이용해 오믹스 데이타 베이스에서 오믹스 기록을 업데이트하도록, 구성된다.
고려되는 컴퓨터 시스템에 대한 다른 측면에서, 트랜스크립톰 데이타 세트와 게놈 데이타 세트 중 하나 이상은 차별적인 서열 객체이거나, 및/또는 발병된 조직은 암성 조직이다. 가장 전형적으로는, 트랜스크립톰 데이타 세트는 polyA+RNA 또는 cDNA 분석을 토대로 한다. 이미 앞에서 언급된 바와 같이, 동정된 위치가 유전자의 3'-말단 영역내 어느 위치이거나 및/또는 동정된 발현 수준이 정상 조직의 발현 수준 보다 높은 경우에는, 오믹스 기록을 업데이트할 수 있다.
또한, 유전자는 암-관련 유전자, 예를 들어, CDKN2A, ARID1A, FAT1, TP53, PTEN, AHNAK, SRRM2, RASA1, PIK3R1 및/또는 MRPL32인 것도 고려된다. 따라서, 오믹스 기록은 진단 (예, 신생물 질환의 진단)을 확증하거나 또는 치료 옵션 (예, 신생물 질환에 대한 치료 옵션)을 권고하기 위해 업데이트할 수 있다.
본 발명의 내용에 대한 다양한 대상, 특징, 측면 및 이점들은 아래에 상세히 기술된 바람직한 구현예들을 첨부된 도면과 더불어 참조함으로써 보다 명확해질 것이다. 도면에서 동일 번호는 동일 요소를 나타낸다.
도 1은 본 발명의 내용에 따른 오믹스 기록 컴퓨터 시스템에 대한 예시적인 개략도이다.
도 2는 선택 암의 체세포 돌연변이 프로파일을 나타낸 그래프이다.
도 3a - 3d는 특정 암에서 선택 유전자의 돌연변이 유형과 발생율을 상세히 나타낸 그래프이다.
도 4는 돌연변이 대립유전자의 침묵 돌연변이 대 전체 돌연변이 비율 (DNA vs. RNA)을 나타낸 산점도이다.
도 5는 돌연변이 대립유전자의 미스센스 돌연변이 대 전체 돌연변이 비율 (DNA vs. RNA)을 나타낸 산점도이다.
도 6은 돌연변이 대립유전자의 넌센스 돌연변이 대 전체 돌연변이 피율 (DNA vs. RNA)을 나타낸 산점도이다.
도 7은 침묵 돌연변이의 돌연변이 위치별 발현 수준을 나타낸 그래프이다.
도 8은 미스센스 돌연변이의 돌연변이 위치별 발현 수준을 나타낸 그래프이다.
도 9는 넌센스 돌연변이의 돌연변이 위치별 발현 수준을 나타낸 그래프이다.
도 10은 CDKN2A 유전자에서 넌센스 돌연변이 위치에 따라 넌센스 돌연변이를 가진 고도로 발현된 RNA를 표시한 그래프이다.
도 11은 ARID1A 유전자에서 넌센스 돌연변이 위치에 따라 넌센스 돌연변이를 가진 고도로 발현된 RNA를 표시한 그래프이다.
도 12는 FAT1 유전자에서 넌센스 돌연변이 위치에 따라 넌센스 돌연변이를 가진 고도로 발현된 RNA를 표시한 그래프이다.
도 13은 TP53 유전자에서 넌센스 돌연변이 위치에 따라 넌센스 돌연변이를 가진 고도로 발현된 RNA를 표시한 그래프이다.
도 14는 PTEN 유전자에서 넌센스 돌연변이 위치에 따라 넌센스 돌연변이를 가진 고도로 발현된 RNA를 표시한 그래프이다.
본 발명자들은, 암 조직에서의 게놈 돌연변이들이 RNA로 균등하게 전사되지 않고, 암 관련 유전자에서 특정 돌연변이 유형, 특히 넌센스 돌연변이가, 구체적으로 돌연변이가 암 관련 유전자의 3'-말단 영역에 위치할 때, 전사율이 더 높다는 것을, 알게 되었다. 특히, 이러한 고도로 전사되는 유전자들은 2종 이상의 암 타입에 관여하는 것으로 확인되었다. 이에, 본 발명자들은 게놈 정보와 트랜스크립톰 정보 통합을 토대로 다양한 암에 대한 진단 및 치료용 분자 마커 검출 시스템 및 방법을 생각하게 되었다. 다른 관점에서 살펴보면, 환자에서 특이적으로 다량 전사되는 돌연변이된 RNA (특히 넌센스 돌연변이된 RNA)를, 다양한 암을 확인 (presence), 치료 및/또는 예방하기 위한 진단 도구로서, 동정 및/또는 사용할 수 있다. 이를 위해, 오믹스 데이타와 오믹스 기록 컴퓨터 시스템을 처리하는 다양한 방법들이 아래에서 보다 상세하게 기술 및 논의된다.
컴퓨터 관련 모든 표현은 서버, 인터페이스, 시스템, 데이타베이스, 에이전트, 피어 (peer), 엔진, 컨트롤러, 모듈 또는 그외 개별 또는 집합적으로 작동되는 컴퓨팅 디바이스 타입 등의, 컴퓨팅 디바이스들의 모든 적절한 조합을 포함하는 것으로 판독되어야 함에 유념하여야 한다. 컴퓨팅 디바이스는 실재적이고 비-일시적인 컴퓨터 판독가능한 저장 매체 (예, 하드 드라이브, FPGA, PLA, SSD (solid state drive), RAM, flash, ROM, 등)에 저장된 소프트웨어 명령을 실행하도록 구성된 프로세서를 포함하는 것으로 이해하여야 한다. 소프트웨어 명령은, 컴퓨팅 디바이스가 언급된 장치에 대한 후술한 역할, 책무 또는 기타 기능을 제공하도록, 구성 또는 프로그래밍한다. 나아가, 언급된 기법들은, 컴퓨터-기반의 알고리즘, 프로세스, 방법 또는 기타 명령의 이행과 관련된, 언급된 단계들을 프로세서가 실행하도록 하는 소프트웨어 명령들을 저장하고 있는 비-일시적인 컴퓨터 판독가능한 매체를 포함하는 컴퓨터 프로그램 제품으로서 구현될 수 있다. 일부 구현예에서, 다양한 서버, 시스템, 데이타베이스 또는 인터페이스는 어쩌면 HTTP, HTTPS, AES, 공개키-비밀 키 교환 (public-private key exchanges), 웹 서비스 API, 공개된 금융 거래 프로토콜 또는 그외 전자 정보 교환법에 기반한, 표준 프로토콜 또는 알고리즘을 이용해 데이타를 교환한다. 디바이스 간 데이타 교환은 패킷 교환식 네트워크 (packet-switched network), 인터넷, LAN, WAN, VPN 또는 그외 패킷 교환식 네트워크 (packet-switched network) 타입; 회로 교환식 네트워크 (circuit switched network); 셀 교환식 네트워크 (cell switched network); 또는 그외 타입의 네트워크에서 수행될 수 있다.
본원의 설명과 첨부된 청구항 전체에 사용되는 바와 같이, 시스템, 엔진, 서버, 디바이스, 모듈 또는 그외 연산 소자 (computing element)가 메모리에 저장된 데이타에 대해 기능을 수행 또는 실행하도록 구성된 것으로서 기술되어 있다면, "구성된" 또는 "프로그래밍된"의 의미는, 연산 소자의 하나 이상의 프로세서 또는 코어들이, 메모리에 저장된 타겟 데이타 또는 데이타 객체에 대해 작동하거나 또는 기능 세트를 실행하도록, 연산 소자의 메모리에 저장된 소프트웨어 명령 세트에 의해 프로그래밍되는 것으로서 정의된다.
예를 들어, 오믹스 기록 컴퓨터 시스템 및 오믹스 데이타 처리 방법에 대해 고려되는 일 구현예를 도 1에 나타낸다. 도 1에서, 오믹스 기록 컴퓨터 시스템 (100)은 메모리 (110) 및 상기 메모리와 커플링된 프로세서 (140)를 포함한다. 메모리 (110)에는 게놈 데이타 세트 (120)와 트랜스크립톰 데이타 세트 (130)가 저장된다. 다른 예로 또는 부가적으로, 게놈 데이타 세트 및/또는 트랜스크립톰 데이타 세트는 또한 분석 엔진 (150)의 데이타 세트 생성기 (151)로부터 제공받을 수도 있다. 이 경우, 서열 원 데이타는 오믹스 데이타를 생성하는 서열분석 디바이스 (170) 및/또는 서열 데이타베이스로부터 제공될 수 있다. 게놈 데이타 세트 (120) 및 트랜스크립톰 데이타 세트 (130)의 소스와 상관없이, 프로세서가 데이타 세트들에 대해 다양한 기능과 작동을 제공하는 분석 엔진 (150)으로서 작동하도록 구성하기 위해, 소프트웨어 명령 (112)이 프로세서 (140)에서의 실행을 위해 메모리에 저장되는 것이 고려된다. 예를 들어, 분석 엔진 (150)은 돌연변이를 이용해 게놈 데이타 세트와 트랜스크립톰 데이타 세트를 연관짓기 (예, 데이타 세트를 게놈내 공통 위치의 돌연변이와 페어링 또는 연관지음) 위한 데이타 세트 연관화를 위한 모듈 (module for data set association) (152)을 포함한다. 분석 엔진은 돌연변이 유형 (예, 침묵 또는 넌센스 돌연변이)을 동정하기 위한 돌연변이 동정 모듈 (154), 유전자 또는 전사체에서 돌연변이 위치를 동정하기 위한 위치 동정 모듈 (156) 및 돌연변이 전사체의 발현 수준을 (예, 동일 환자의 매치되는 비-돌연변이 전사체와 비교해) 동정하는 발현 수준 동정 모듈 (158)을 더 포함할 수 있다. 넌센스 돌연변이인 것으로 돌연변이가 동정되면, 돌연변이 위치를 (예, 유전자의 3'-말단 영역내에 위치되어 있는 지를) 동정하고, 그 유전자의 발현 수준을 확인한다. 마지막으로, 동정된 위치와 발현 수준을 이용해 오믹스 데이타베이스 (160)의 오믹스 기록을 업데이트한다.
본원에서 고려되는 게놈 데이타 세트는 다양한 정보를 포함할 수 있으며, 다양한 방식으로 포맷화 (formatted) 될 수 있다. 즉, 적합한 게놈 데이타 세트는 서열분석 디바이스 또는 원 데이타 저장 디바이스로부터 수득되는 원 데이타를 포함할 수 있다. 물론, 원 데이타는 여러 방식으로 사전-가공될 수 있는 것으로 이해되어야 한다. 예를 들어, 원 데이타는 (예, PCT/US14/65562에 기술된 바와 같이) 데이타 전송 개선을 위해 사전-가공될 수 있거나, 및/또는 후속 처리 (downstream processing)를 쉽게 하도록 포맷화될 수 있다. 특히 바람직한 포맷은 BAM, SAM 및 FASTA 포맷이다. 원 데이타 또는 사전-가공된 데이타가 제공되는 경우, 데이타 세트 생성기로 이들 데이타를 전술한 적합한 포맷으로 변환할 수 있다. 일부 측면에서, 게놈 데이타 세트는 발병된 조직과 건강한 조직 둘다에서 매칭되는 DNA 서열 정보를 포함하는 데이타 세트이다. 이러한 데이타 세트들에서 구체적인 서열의 길이는 본 발명의 내용을 제한하지 않지만, 데이타 세트는 상대적으로 작은 세그먼트 (예, 30 - 100, 30 - 300, 30 - 500, 30 - 700 등) 또는 긴 세그먼트 (예, 1kb - 10 kb, 10kb - 100 kb, 100 kb - 500kb, 500 kb - 2 mb, 2mb - 10 mb 등)로 된 얼라이먼트 (alignment)를 포함할 수 있음에 유념하여야 한다. 다른 측면에서, 게놈 데이타 세트는 전형적으로 US20120059670 및 US20120066001에서 논의된 바와 같이 BAM 파일들의 동기 (synchronous) 및 점증식 얼라이먼트 (incremental alignment)로부터 수득되는, 차별적인 서열 객체이다. 특히 고려되는 차별적인 서열 객체는 전형적으로 게놈 또는 엑솜내 특정 위치에 대해 (예, 염색체 상의 염기 위치, 특정 유전자내 위치, 특정 엑손내 위치 등과 관련하여) 돌연변이 (예, 전이, 전환 (transversion), 결손, 삽입, 재정렬 등)를 동정하는 것을 포함할 것이며, 이때 돌연변이는 동일 환자로부터 유래되는 매칭된 대응 샘플을 기준으로 한다 (예, 돌연변이는 동일 도너의 발병된 조직 대 대응되는 건강한 조직임). 게놈 데이타 세트는 복수의 소스 재료들로부터 생성될 수 있으며, 바람직한 소스 재료로는 전체 게놈 서열 및 엑솜 고함유 게놈 서열 (exome enriched genome sequence) (또는 인 실리코로 계산된 엑솜 서열 (exome sequences calculated in silico))이 있음을, 또한 이해하여야 한다. 소스 재료와는 상관없이, 고려되는 게놈 데이타 세트는 서열 정보, 위치 정보, 유전자 정보, 참조 게놈에 대한 참조 정보 (reference information to a reference genome), 카피 수, 리드 서포트 (read support) 및 퀄러티 스코어 중 하나 이상, 보다 전형적으로는, 2 이상을 포함할 것이다. 게놈 데이타 세트는, 바람직하게는, 매칭되는 서열들에 대해, 즉 발병된 조직의 서열과 건강한 조직의 해당 서열에 대해 상기한 정보를 포함할 것이다. 다른 관점에서 살펴보면, 게놈 데이타 세트는 동일 환자의 건강한 조직과 발병된 조직에서 수득되는 DNA 서열 차이에 대해, 구체적인 차이 정보를 제공할 것이다.
마찬가지로, 트랜스크립톰 데이타 세트는 상당히 달라질 수 있으며, 서열분석 디바이스 또는 원 데이타 저장 디바이스에서 유래된 원 데이타를 포함할 수 있는 것으로 고려된다. 전술한 바와 같이, 이들 데이타는 PCT/US14/65562에 기술된 바와 같이 그룹핑을 위해 사전-가공되거나, 또는 후속 처리를 쉽게 하기 위해 포맷화될 수 있다. 특히 바람직한 포맷은 BAM, SAM 및 FASTA 포맷이다. 원 데이타 또는 사전-가공된 데이타가 제공되는 경우, 데이타 세트 생성기로 이들 데이타를 전술한 적합한 포맷으로 변환할 수 있다. 일부 측면에서, 트랜스크립톰 데이타 세트는 발병된 조직과 건강한 조직 둘다에 대한 매칭되는 RNA 서열 정보를 포함하는 데이타 세트이다. 이러한 데이타 세트들에서 구체적인 서열의 길이는 본 발명의 내용을 제한하지 않지만, 데이타 세트는 상대적으로 작은 세그먼트 (예, 30 - 100, 30 - 300, 30 - 500, 30 - 700 등) 또는 긴 세그먼트 (예, 1kb - 5 kb, 5 kb - 20 kb, 20 kb - 100 kb 등)로 된 얼라이먼트 (alignment)를 포함할 수 있음에 유념하여야 한다. 다른 측면에서, 게놈 데이타 세트는 전형적으로 US20120059670 및 US20120066001에서 논의된 바와 같이 BAM 파일들의 동기 (synchronous) 및 점증식 얼라이먼트 (incremental alignment)로부터 수득되는, 차별적인 서열 객체이다. 전술한 바와 같이, 특히 고려되는 차별적인 서열 객체는 전형적으로 RNA, mRNA 또는 일차 RNA 전사체내 구체적인 위치 (예, 염색체 또는 일차 전사체 상의 염기 위치, 특정 유전자내 위치, 특정 엑손내 위치, 특이적인 스플라이스 변이체 등)와 관련하여, 돌연변이 (예, 전이, 변환, 결손, 삽입, 재정렬 등)를 동정하는 것을 포함할 것이며, 이때 돌연변이는 동일 환자로부터 유래되는 매칭되는 대응 샘플을 기준으로 한다 (예, 돌연변이는 동일 도너의 발병된 조직 대 대응되는 건강한 조직임). 트랜스크립톰 데이타 세트는 수많은 소스 재료들로부터 생성될 수 있으며, 바람직한 소스 재료로는 (바람직하게는 역 전사된) mRNA 및 일차 전사체 (hnRNA)가 있다. RNA 서열 정보는 역 전사된 polyA+-RNA로부터 수득되며, 이는 동일 환자의 종양 샘플 및 이의 매칭되는 정상 (건강한) 샘플로부터 수득된 것이다. 또한, 동일 환자의 샘플은 DNA 분석 뿐만 아니라 조직 또는 세포-기반의 프로테오믹 분석에도 사용될 수 있음에 유념하여야 한다. 마찬가지로, polyA+-RNA는 전형적으로 트랜스크립톰의 예시로서 바람직하지만, 다른 형태의 RNA (hn-RNA, 비-폴리아데닐화된 RNA, siRNA, miRNA, 등)도 본원에 사용하기에 적합한 것임에 유념하여야 한다. 재료에 관계없이, 트랜스크립톰 데이타 세트는 적어도 서열 정보, 위치 정보, 유전자 정보, 참조 게놈에 대한 참조 정보, 전사 수준, 리드 서포트 및/또는 퀄리티 스코어 등을 포함할 것이다. 또한, 트랜스크립톰 데이타 세트는 전형적으로 매칭되는 서열들, 즉 동일 환자의 발병된 조직의 서열과 건강한 조직의 해당 서열에 대해, 상기한 정보를 포함할 것이다.
또 다른 고려되는 측면에서, 게놈 데이타 세트와 트랜스크립톰 데이타 세트는 (전형적으로 동일한 도너/환자로부터 유래된) 발병 조직과 대응되는 건강한 조직의 DNA 및 RNA 정보를 포함하는 단일한 데이타 세트로 조합될 수 있다. 이 경우, 조합된 오믹스 데이타 세트는, 각각의 DNA 및 RNA BAM 파일들을, 발병된 조직과 이와 매칭되는 건강한 조직의 DNA 서열 및 RNA 서열 둘다에 대해, 적어도 서열, 돌연변이 위치, 카피 수, 발현 수준 등과 관련하여, 특정 서열 또는 유전자 차이가 포함된 차별적인 서열 객체를 형성하는 위치 동기화된 점증식 얼라이먼트 (location synchronized incremental alignment)로 준비되는 것이 특히 바람직하다.
게놈 데이타 세트 및/또는 트랜스크립톰 데이타 세트의 생성에 있어 특히 고려되는 측면에서, 종양 RNA 및 이와 매칭되는 RNA의 동시 분석은, 바람직하게는 US 2012/0059670 및 US 2012/0066001에 기술된 알고리즘과 방법을 이용해 수행하는 것으로 고려되며, 이들 문헌은 본원에 의해 본 명세서에 포함된다. 또한, 종양 DNA 및 이와 매칭되는 DNA의 분석은 동일 환자 샘플을 이용해 수행할 수 있으며, 따라서 동일 환자에 대한, 그리고 동일한 샘플로부터 게놈 및 트랜스크립톰 (RNA 유전체학) 데이타를 제공할 수 있는 것으로 이해되어야 한다. 이들 데이타는, 이후, WO/2011/139345 및 WO/2013/062505에 언급된 시스템 및 방법을 이용해 추가로 처리함으로써, 경로 관련 데이타 (pathway relevant data)를 수득할 수 있으며, 상기한 특허들은 원용에 의해 본 명세서에 포함된다. 즉, 환자에 대한 단일 경로 분석을 단일한 환자 샘플 및 이와 매칭되는 대조군에서 수행할 수 있어, 싱글 오믹스 분석과 비교해 분석 데이타를 현저하게 개선 및 향상시킬 수 있음을 주지하여야 한다. 또한, 동일한 분석 방법들은 추가적인 오믹스 데이타 (예, 프로테오믹 데이타) 및/또는 환자의 특이 병력 데이타 (예, 기존 오믹스 데이타, 현재 또는 과거 약학적 치료 등)를 이용해 더욱 다듬을 수 있다. 아울러, 다양한 그외 소스, 예를 들어 다양한 상업적인 서열분석 센터 및/또는 학술 기관으로부터 추가적인 데이타를 입수할 수 있다는 것도 유념하여야 한다. 이들 데이타를 기반으로, 보다 정확한 진단 또는 예측을 행할 수 있을 뿐만 아니라, 개선된 경로 분석을 토대로 하는 치료 옵션을 제공할 수 있다.
본원의 시스템 및 방법에 사용되는 해당 조직과 관련하여, 일반적으로, 2 이상의 개별 조직이 게놈 및 트랜스크립톰 데이타 세트 생성에 사용되는 것으로 고려된다. 예를 들어, 제1 조직이 발병된 조직 (예, 신생물, 암성, 감염된, 외상 등)인 경우, 제2 조직은 동일 유형의 장기 또는 조직으로부터 유래되거나 또는 유래되지 않을 수 있는, 비-발병 조직이다. 다른 예로 또는 부가적으로, 제1 조직과 제2 조직은 둘다 발병된 조직이나, 치료 효과, 질환의 진행 또는 회복 등을 확인 또는 규명하기 위해 서로 다른 시기에 취해진 것일 수 있다.
고려되는 분석 엔진은 전형적으로 돌연변이를 이용해 게놈 데이타 세트와 트랜스크립톰 데이타 세트를 연관짓는 (예, 게놈 데이타 세트와 트랜스크립톰 데이타 세트를 게놈의 공통 위치에서의 돌연변이와 페어링하거나 또는 연관지음), 데이트 세트 연관화 모듈을 포함할 것이다. 다른 관점에서 살펴보면, 게놈 데이타 세트와 트랜스크립톰 데이타 세트는, 대응되는 서열 또는 위치를 게놈 데이타 세트와 트랜스크립톰 데이타 세트 간에 비교할 수 있고, 게놈 데이타 세트와 트랜스크립톰 데이타 세트가 공통 돌연변이를 포함하도록 정렬된다. 따라서, 연관화 모듈은, 전형적으로 발병된 조직 및 건강한 조직에 대해, DNA 정보를 이와 대응되는 RNA 정보와 배열시키거나, 또는 차별적인 서열 객체가 제공된 경우에는, 연관화 모듈은 발병된 조직의 DNA와 건강한 조직의 DNA 간의 차별적인 서열 객체내 대응되는 돌연변이를 발병된 조직의 RNA와 건강한 조직의 RNA 간의 차별적인 서열 객체와 배열시킨다. 이 방법에서, 특정 위치의 특정 돌연변이와 관련된 모든 해당 정보 (예, 돌연변이 유형, 돌연변이의 서열 정보, 카피 수 정보, 전사 수준 정보 등)는 향후 분석을 위해 연관지을 수 있는 것으로 인지하여야 한다.
고려되는 분석 엔진은 추가적으로 게놈 데이타 세트와 트랜스크립톰 데이타 세트에서 임의의 돌연변이를 동정 및/또는 분류하는, 돌연변이 동정 모듈을 포함할 것이며, 이때 동정 및 분류는 적어도 넌센스 돌연변이 동정을 포함하며, 추가적으로 미스센스 돌연변이 및/또는 침묵 돌연변이의 동정을 포함한다. 물론, 돌연변이와 관련된 추가적인 정보 역시 동정 및/또는 분류할 수 있음에 유념하여야 하며, 이러한 추가적인 정보에 대한 전형적인 예로는 프래임 쉬프트 정보 (frame shift information), 전위 정보 (translocation information), 얼터너티브 스플라이싱 정보 (alternative splicing information), 재정렬 정보 등이 있다.
본 발명의 내용에 대해 추가로 고려되는 측면에서, 분석 엔진은 돌연변이가 발생된 유전자에서 동정된 돌연변이의 위치를 동정하도록 구성되는 모듈과, 돌연변이가 있는 유전자의 발현 (전사) 수준을 (전형적으로, 트랜스크립톰 데이타 세트에 제공된 정보를 이용해) 동정하도록 구성되는 추가의 모듈을 포함할 것이다. 예를 들어, 아래에 보다 상세히 기술된 바와 같이, 위치 동정은, 돌연변이가 넌센스 돌연변이인 경우, 돌연변이의 중요성을 분석하는데 적절할 수 있다. 즉, 위치 정보는 돌연변이가 유전자 및/또는 전사체의 3'-말단 영역에 위치되는 것으로서의 동정 또는 검증을 포함할 수 있다. 본원에서, 용어 "3'-말단 영역"은 서열의 3'-말단 50%, 3'-말단 40%, 3'-말단 30%, 3'-말단 20% 또는 3'-말단 10%에 해당되는 위치를 의미한다. 다른 관점에서 살펴보면, 용어 "3'-말단 영역"은 또한 3'-말단 엑손, 또는 3'-말단의 마지막 엑손 2개 또는 3'-말단의 마지막 엑손 3개를 의미할 수 있다.
본 발명자들의 아래 발견 사실에 입각하여, 환자에 대한 오믹스 기록은 게놈/트랜스크립톰 합동 분석으로 수득되는 정보에 기반하여 업데이트하거나 또는 생성할 수 있다. 예를 들어, 오믹스 기록은, 게놈 및 트랜스크립톰내 돌연변이가 유전자의 넌센스 돌연변이이고, 그 유전자의 전사 수준이 대응되는 비변형된 유전자의 전사 수준 보다 높을 경우, 업데이트할 수 있다. 적합한 오믹스 데이타베이스는 전형적으로 복수의 환자로부터 수득되는 오믹스 기록을 포함할 것이며, 이를 이용해 원 데이타, 가공 처리된 데이타, 게놈 데이타 세트, 트랜스크립톰 데이타 세트, 차별적인 서열 객체, BAM 파일 등을 저장할 수 있다.
따라서, 전술한 내용 및 아래 실시예에 비추어, 고려되는 시스템과 방법이 게놈 및 트랜스크립톰 정보에 입각하여 잠재적인 암 치료 및 진단용 분자 마커를 동정하기 위한 새로운 방안을 쉽게 제공할 것임을 이해하여야 한다. 다른 관점에서 살펴보면, 본 발명자들은, 게놈 돌연변이 및 이와 대응되는 RNA 발현 수준을 환자 특이적으로 동정함으로써, 고도로 전사된 돌연변이된 RNA (특히, 넌센스 돌연변이 RNA)를 다양한 암의 존재, 치료 또는 예방을 위한 진단 도구로서 검증 및/또는 사용할 수 있는 것으로 생각한다.
예를 들어, 표 1에 예시된 바와 같이, TCGA는 13가지 타입의 암에 대해 매우 많은 수의 엑손 페어 데이타 (총 > 5,000)와 대응되는 RNA 서열 (총 > 3,900)을 제공해준다. 이 데이타를 이용해, 상세히 후술한 바와 같이 여러번 DNA/매칭되는 RNA 분석들을 수행하였다.
Figure pat00001
표 1
TCGA 유래 데이타를 추가로 분석하여 상기 표 1에 열거된 암에 대한 다양한 체세포 돌연변이 프로파일을 수득하였고, Mb 당 돌연변이 빈도를 도 2에 예시적으로 도시하였다. 알 수 있는 바와 같이, 대부분의 돌연변이 빈도는 101 수준이며, 실질적으로 비슷한 시그모이드형 분산 패턴을 가진다. 도 3은, 종양 타입 당 가장 많이 돌연변이된 유전자와 해당 돌연변이 타입 (미스센스, 넌센스, 프래임 쉬프트, 인-프래임)을 나타낸, 암 타입별 선택 유전자의 체세포 돌연변이 프로파일에 대한 상세도를 예시적으로 제공해준다. 또한, 도 3은 돌연변이 발생 빈도가 가장 높은 유전자들에서 단일 종양 타입에 잠재적인 돌연변이 타입 연관성도 나타낸다. 알 수 있는 바와 같이, 전체 종양 타입들 간에는 실질적인 편향성 또는 특이적인 연관성이 확인되지 않는다.
전사와 관련하여, 본 발명자들은, 아래 표 2에서 알 수 있는 바와 같이, 게놈의 돌연변이가 상당수 (>80%) 트랜스크립톰에서도 발현/발견되고, 돌연변이의 특정 타입 (예, 침묵, 미스센스, 넌센스)에 대한 명백한 실질적인 편향은 없다는 것에 주목하였다. 표 2에서 알 수 있는 바와 같이, 넌센스 돌연변이의 전체 점유율은 검출된 전체 돌연변이들의 약 5%였고, 침목 돌연변이의 전체 점유율은 검출된 전체 돌연변이들의 약 28%였고, 미스센스 돌연변이의 전체 점유율은 검출된 전체 돌연변이들의 약 67%였다. 본원에서, 용어 "검출된"은 하나 이상의 리드 서포팅 돌연변이 대립유전자가 RNA-Seq 데이타에서 발견되었음을 의미하며, 용어 "부재"는 RNA-Seq 데이타에서 돌연변이 대립유전자가 검출되지 않았음을 의미한다. 또한, 표 2의 데이타는 오직 신뢰성 >=20인 돌연변이를 고려하였고, 20개 이상의 리드가 RNA-Seq서 위치를 커버링한다.
Figure pat00002
표 2
4 - 6은 침묵 돌연변이 (도 4), 미스센스 돌연변이 (도 5) 및 넌센스 돌연변이 (도 6)에 대한 DNA MAF (Mutant Allele Fraction) 대 RNA 게놈-와이드 분석 결과를 나타낸 것으로, 침묵 돌연변이 및 미스센스 돌연변이의 경우 전사에서 유의한 편향성은 전체 돌연변이와 비교해 없는 것으로 보인다. 그러나, 상기 표 2에 반영된 바와 같이, 돌연변이된 DNA 부분이 도 5에 구체적으로 나타낸 바와 같이 RNA로 전사되지 않는 점에 유념하여야 한다. 특히, 도 6은 돌연변이된 DNA의 전사가 감소/이루어지지 않는 방향으로 약간의 편향성을 보이는데, 이에 본 발명자들은 이러한 명백한 편향성에 대한 가능성 있는 기전을 분석하게 되었다. 놀랍게도, 전사율을 각 돌연변이 타입별 돌연변이 위치에 따라 그래프로 작성하였을 때, 도 7 - 9에서 볼 수 있는 바와 같이 침묵 돌연변이와 미스센스 돌연변이들에서는 유사하게 실질적인 편향성은 없는 것으로 관찰되었지만, 도 9에 나타낸 바와 같이, 넌센스 돌연변이의 경우 유전자의 3'-말단 영역에서, 특히 말단의 마지막 엑손 2개에서는 현저하게 높은 수준으로 발현되었다.
정밀 조사에서, 게놈-와이드 전사 분석에서 나타난 돌연변이 타입의 명백한 편향성 부재와는 대조적으로, 암 샘플들에서 수개의 선택 유전자들이 아래 표 3에 나타낸 바와 같이 유전자가 넌센스 돌연변이를 가지는 구별되는 고 발현 패턴을 나타내었다.
Figure pat00003
표 3
흥미롭게도, 이들 돌연변이 유전자의 상당 비율이 편평 세포암과 관련되어 있었다. 도 10 - 14는, 전사율이 정상 보다 높고 이러한 고 발현이 유전자/전사체의 3'-말단 영역에 위치된 넌센스 돌연변이와 조합되어 있는, 선택 유전자에 대한 분석 결과를 예시적으로 도시한다. 이들 도에서, 점선은 고도로 발현된 유전자의 역치 (즉, 돌연변이 리드 서포트가 기준의 50% 이상에 랭킹됨)를 표시한다. 이들 데이타를 기초로, 상기 돌연변이 유전자들은 조합된 암에 대한 예후 또는 진단 마커로서 쉽게 활용될 것임을 이해할 수 있다. 따라서, 고수준으로 전사되는 넌센스 돌연변이 (특히 유전자의 3'-말단 영역에 돌연변이가 위치한 경우)는 다양한 암을 진단 및 치료하기 위한 분자 마커 검출 시스템 및 방법에 이용될 수 있는 것으로 이해되어야 한다.
따라서, 오믹스 분석 방법에 대한 구체적인 구현예 및 활용예들이 기술되어 있다. 당해 기술 분야의 당업자라면, 본 발명의 개념으로부터 이탈하지 않으면서도 전술한 내용 이외의 수많은 추가적인 수정들이 가능하다는 것을 알 것이다. 이에, 본 발명의 내용은 첨부된 청구항의 범위를 제외하고는 한정되지 않는다. 또한, 명세서와 청구항을 해석함에 있어, 모든 용어들은 문맥상 가능한 가장 광의적인 방식으로 해석되어야 한다. 특히, 용어 "포함한다" 및 "포함하는"은 요소, 성분 또는 단계를 비-제한적인 방식으로 언급하는 것으로 해석되어야 하며, 언급된 요소, 성분 또는 단계들이 본원에 명시되지 않은 다른 요소, 성분 또는 단계와 함께 존재 또는 활용되거나 또는 조합될 수 있다는 것을 의미한다. 본 명세서에서 청구항이 A, B, C ... 및 N으로 이루어진 군으로부터 선택되는 어떤 것들 중 하나 이상을 언급하는 경우, 이는 상기 군에 속하는 오직 하나의 요소만을 요구하는 것으로 해석되며, A + N 또는 B + N 등은 아니다.

Claims (20)

  1. 암 마커를 확인하기 위한 방법으로서,
    게놈 데이타 세트(genomic data set)와 트랜스크립톰 데이타 세트(transcriptomic data set)를 저장하는 데이타베이스를 서열 분석 엔진과 정보적으로 커플링(coupling)하는 단계로서,
    상기 게놈 데이타 세트는 환자의 발병된 조직(diseased tissue)에서 하나 이상의 유전자에 대한 돌연변이를 나타내며,
    상기 트랜스크립톰 데이타 세트는 상기 환자의 발병된 조직에서 하나 이상의 유전자의 발현 수준을 나타내는, 커플링하는 단계;
    상기 서열 분석 엔진을 사용하여,
    (a) 하나 이상의 돌연변이 유전자의 트랜스크립톰 데이타 세트를 하나 이상의 돌연변이 유전자의 게놈 데이타 세트와 연관(association)시키고,
    (b) 하나 이상의 돌연변이 유전자의 돌연변이를 넌센스 돌연변이로서 동정하고, 상기 넌센스 돌연변이를 가진 하나 이상의 돌연변이 유전자의 발현 수준을 동정하고,
    (c) 상기 넌센스 돌연변이를 가진 하나 이상의 돌연변이 유전자의 발현 수준이 환자의 정상 조직에서보다 높은 것으로 동정되면, (d) 상기 서열 분석 엔진에 의해, 하나 이상의 돌연변이 유전자를 암 마커로서 동정하여 오믹스 데이타베이스 내의 오믹스 기록을 업데이트 또는 생성하는 단계
    를 포함하는, 암 마커를 확인하기 위한 방법.
  2. 제1항에 있어서,
    상기 게놈 데이타 세트 내의 하나 이상의 유전자의 돌연변이가 환자의 정상 조직을 기준으로 하는, 암 마커를 확인하기 위한 방법.
  3. 제1항에 있어서,
    상기 게놈 데이타 세트 내의 하나 이상의 유전자의 돌연변이가 환자 특이적인 것인, 암 마커를 확인하기 위한 방법.
  4. 제1항에 있어서,
    상기 하나 이상의 유전자의 발현 수준이 환자의 정상 조직을 기준으로 하는, 암 마커를 확인하기 위한 방법.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서,
    상기 서열 분석 엔진은 하나 이상의 유전자의 돌연변이의 위치를 동정하도록 더 사용되는, 암 마커를 확인하기 위한 방법.
  6. 제1항 내지 제4항 중 어느 한 항에 있어서,
    상기 오믹스 기록은 암의 확인(presence), 치료 또는 예방을 결정하도록 하나 이상의 돌연변이 유전자의 사용을 더 나타내는, 암 마커를 확인하기 위한 방법.
  7. 제1항 내지 제4항 중 어느 한 항에 있어서,
    상기 하나 이상의 돌연변이 유전자는 2개 이상의 구별되는 암에서 돌연변이되는, 암 마커를 확인하기 위한 방법.
  8. 제1항 내지 제4항 중 어느 한 항에 있어서,
    상기 하나 이상의 돌연변이 유전자는 4개 이상의 구별되는 암에서 돌연변이되는, 암 마커를 확인하기 위한 방법.
  9. 제1항 내지 제4항 중 어느 한 항에 있어서,
    상기 하나 이상의 돌연변이 유전자의 게놈 데이타 세트와 상기 하나 이상의 돌연변이 유전자의 트랜스크립톰 데이타 세트의 연관은, 대응되는 서열 또는 위치가 상기 게놈 데이타 세트와 상기 트랜스크립톰 데이타 세트 간에 비교될 수 있도록 정렬함으로써 수행되는, 암 마커를 확인하기 위한 방법.
  10. 제1항 내지 제4항 중 어느 한 항에 있어서,
    상기 하나 이상의 돌연변이 유전자의 게놈 데이타 세트와 상기 하나 이상의 돌연변이 유전자의 트랜스크립톰 데이타 세트의 연관은, 상기 게놈 데이타 세트와 상기 트랜스크립톰 데이타 세트를 조합함으로써 수행되는, 암 마커를 확인하기 위한 방법.
  11. 오믹스 레코드 컴퓨터 시스템으로서,
    하나 이상의 프로세서;
    상기 프로세서와 커플링되는 하나 이상의 메모리로서,
    환자의 발병된 조직에서 하나 이상의 유전자의 돌연변이를 나타내는 게놈 데이타 세트,
    환자의 발병된 조직에서 하나 이상의 유전자의 발현 수준을 나타내는 트랜스크립톰 데이타 세트를 저장하도록 구성되는, 하나 이상의 메모리; 및
    게놈 데이타 세트와 트랜스크립톰 데이타 세트를 저장하는 오믹스 데이타베이스와 정보적으로 커플링되고, 상기 하나 이상의 메모리에 저장된 소프트웨어 명령에 따라 하나 이상의 프로세서에서 실행가능한, 서열 분석 엔진
    을 포함하며,
    상기 서열 분석 엔진은, 상기 프로세서가,
    (a) 하나 이상의 돌연변이 유전자의 트랜스크립톰 데이타 세트를 하나 이상의 돌연변이 유전자의 게놈 데이타 세트와 연관시키고,
    (b) 하나 이상의 돌연변이 유전자의 돌연변이를 넌센스 돌연변이로서 동정하고, 상기 넌센스 돌연변이를 가진 하나 이상의 돌연변이 유전자의 발현 수준을 동정하고,
    (c) 상기 넌센스 돌연변이를 가진 하나 이상의 돌연변이 유전자의 발현 수준이 환자의 정상 조직에서보다 높은 것으로 동정되면, (d) 상기 서열 분석 엔진에 의해, 하나 이상의 돌연변이 유전자를 암 마커로서 동정하여 오믹스 데이타베이스 내의 오믹스 기록을 업데이트 또는 생성하도록 구성되는,
    오믹스 레코드 컴퓨터 시스템.
  12. 제11항에 있어서,
    상기 게놈 데이타 세트 내의 하나 이상의 유전자의 돌연변이가 환자의 정상 조직을 기준으로 하는, 오믹스 레코드 컴퓨터 시스템.
  13. 제11항에 있어서,
    상기 게놈 데이타 세트 내의 하나 이상의 유전자의 돌연변이가 환자 특이적인 것인, 오믹스 레코드 컴퓨터 시스템.
  14. 제11항에 있어서,
    상기 하나 이상의 유전자의 발현 수준이 환자의 정상 조직을 기준으로 하는, 오믹스 레코드 컴퓨터 시스템.
  15. 제11항 내지 제14항 중 어느 한 항에 있어서,
    상기 서열 분석 엔진은 하나 이상의 유전자의 돌연변이의 위치를 동정하도록 더 사용되는, 오믹스 레코드 컴퓨터 시스템.
  16. 제11항 내지 제14항 중 어느 한 항에 있어서,
    상기 오믹스 기록은 암의 확인, 치료 또는 예방을 결정하도록 하나 이상의 돌연변이 유전자의 사용을 더 나타내는, 오믹스 레코드 컴퓨터 시스템.
  17. 제11항 내지 제14항 중 어느 한 항에 있어서,
    상기 하나 이상의 돌연변이 유전자는 2개 이상의 구별되는 암에서 돌연변이되는, 오믹스 레코드 컴퓨터 시스템.
  18. 제11항 내지 제14항 중 어느 한 항에 있어서,
    상기 하나 이상의 돌연변이 유전자는 4개 이상의 구별되는 암에서 돌연변이되는, 오믹스 레코드 컴퓨터 시스템.
  19. 제11항 내지 제14항 중 어느 한 항에 있어서,
    상기 하나 이상의 돌연변이 유전자의 게놈 데이타 세트와 상기 하나 이상의 돌연변이 유전자의 트랜스크립톰 데이타 세트의 연관은, 대응되는 서열 또는 위치가 상기 게놈 데이타 세트와 상기 트랜스크립톰 데이타 세트 간에 비교될 수 있도록 정렬함으로써 수행되는, 오믹스 레코드 컴퓨터 시스템.
  20. 제11항 내지 제14항 중 어느 한 항에 있어서,
    상기 하나 이상의 돌연변이 유전자의 게놈 데이타 세트와 상기 하나 이상의 돌연변이 유전자의 트랜스크립톰 데이타 세트의 연관은, 상기 게놈 데이타 세트와 상기 트랜스크립톰 데이타 세트를 조합함으로써 수행되는, 오믹스 레코드 컴퓨터 시스템.
KR1020187023501A 2014-03-25 2015-03-25 암 돌연변이의 기능적 검증을 위한 rna 분석 시스템 및 방법 KR20180094150A (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201461970054P 2014-03-25 2014-03-25
US61/970,054 2014-03-25
PCT/US2015/022521 WO2015148689A1 (en) 2014-03-25 2015-03-25 Systems and methods for rna analysis in functional confirmation of cancer mutations
US14/668,518 US10192027B2 (en) 2014-03-25 2015-03-25 Systems and methods for RNA analysis in functional confirmation of cancer mutations
US14/668,518 2015-03-25

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020167029659A Division KR101890792B1 (ko) 2014-03-25 2015-03-25 암 돌연변이의 기능적 검증을 위한 rna 분석 시스템 및 방법

Publications (1)

Publication Number Publication Date
KR20180094150A true KR20180094150A (ko) 2018-08-22

Family

ID=54190756

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020167029659A KR101890792B1 (ko) 2014-03-25 2015-03-25 암 돌연변이의 기능적 검증을 위한 rna 분석 시스템 및 방법
KR1020187023501A KR20180094150A (ko) 2014-03-25 2015-03-25 암 돌연변이의 기능적 검증을 위한 rna 분석 시스템 및 방법

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020167029659A KR101890792B1 (ko) 2014-03-25 2015-03-25 암 돌연변이의 기능적 검증을 위한 rna 분석 시스템 및 방법

Country Status (9)

Country Link
US (2) US10192027B2 (ko)
EP (1) EP3129908B1 (ko)
JP (2) JP6384930B2 (ko)
KR (2) KR101890792B1 (ko)
CN (2) CN109979526B (ko)
AU (2) AU2015236054B2 (ko)
CA (1) CA2946289C (ko)
IL (2) IL248021B (ko)
WO (1) WO2015148689A1 (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101874390B1 (ko) * 2013-09-26 2018-07-04 파이브3 제노믹스, 엘엘씨 바이러스-연관 종양을 위한 시스템, 방법, 및 조성물
CN105671187B (zh) * 2016-04-08 2020-06-05 南方医科大学 一组用于头颈部鳞状细胞癌分子分型的基因及其应用
KR20200013731A (ko) * 2017-06-01 2020-02-07 난토믹스, 엘엘씨 전이성 삼중 음성 유방암 환자에서의 포괄적 -오믹스 프로파일링을 통한 종양 및 시간적 불균일성 조사(investigating tumoral and temporal heterogeneity through comprehensive -omics profiling in patients with metastatic triple negative breast cancer)
JP2021197100A (ja) * 2020-06-18 2021-12-27 国立研究開発法人産業技術総合研究所 情報処理システム、情報処理方法、同定方法及びプログラム

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IL124620A0 (en) * 1995-12-18 1998-12-06 Myriad Genetics Inc Chromosome 13-linked breast cancer susceptibility gene
US6486299B1 (en) * 1998-09-28 2002-11-26 Curagen Corporation Genes and proteins predictive and therapeutic for stroke, hypertension, diabetes and obesity
KR20020064298A (ko) 1999-10-13 2002-08-07 시쿼넘, 인코포레이티드 다형성 유전 마커를 동정하기 위한 데이타베이스 및 이의제조 방법
US7668658B2 (en) * 1999-10-13 2010-02-23 Sequenom, Inc. Methods for generating databases and databases for identifying polymorphic genetic markers
CA2453985A1 (en) 2001-07-17 2003-04-03 Incyte Genomics, Inc. Receptors and membrane-associated proteins
WO2003023404A1 (en) 2001-09-12 2003-03-20 The Walter And Eliza Hall Institute Of Medical Research A method of diagnosis and treatment and agents useful for same
US7402389B2 (en) * 2004-02-24 2008-07-22 The Translational Genomics Research Institute (Tgen) Compositions and methods for prognosis of cancers
JP2008536480A (ja) * 2005-02-17 2008-09-11 ダナ−ファーバー キャンサー インスティテュート,インコーポレイテッド 癌の同定、評価、予防、および治療用組成物、キット、および方法、ならびに癌の治療法
JP2009501237A (ja) * 2005-03-14 2009-01-15 ボード オブ リージェンツ オブ ザ ユニバーシティー オブ テキサス システム 生物活性fus1ペプチドおよびナノ粒子−ポリペプチド複合体
CN1920054A (zh) 2006-06-23 2007-02-28 南京中医药大学附属医院 乳腺癌基因1(brca1)突变检测分析
US20100021886A1 (en) * 2007-02-01 2010-01-28 Yixin Wang Methods and Materials for Identifying the Origin of a Carcinoma of Unknown Primary Origin
CN102203295A (zh) * 2008-09-03 2011-09-28 约翰霍普金斯大学 胰腺肿瘤发生的通路及遗传性胰腺癌基因
EP3216874A1 (en) * 2008-09-05 2017-09-13 TOMA Biosciences, Inc. Methods for stratifying and annotating cancer drug treatment options
CA2797291C (en) * 2010-04-22 2020-08-11 British Columbia Cancer Agency Branch Novel biomarkers and targets for ovarian carcinoma
KR102136041B1 (ko) 2010-04-29 2020-07-20 더 리젠츠 오브 더 유니버시티 오브 캘리포니아 게놈 모델에 대한 데이터 통합을 이용하는 경로 인지 알고리즘 (paradigm)
US10192641B2 (en) 2010-04-29 2019-01-29 The Regents Of The University Of California Method of generating a dynamic pathway map
WO2011149534A2 (en) * 2010-05-25 2011-12-01 The Regents Of The University Of California Bambam: parallel comparative analysis of high-throughput sequencing data
US9646134B2 (en) 2010-05-25 2017-05-09 The Regents Of The University Of California Bambam: parallel comparative analysis of high-throughput sequencing data
EP2614161B1 (en) * 2010-09-09 2020-11-04 Fabric Genomics, Inc. Variant annotation, analysis and selection tool
EP2681337B1 (en) * 2011-03-02 2018-04-25 Decode Genetics EHF Brip1 variants associated with risk for cancer
EP2670866A4 (en) * 2011-04-05 2015-09-02 Translational Genomics Res Inst BIOMARKERS AND METHODS OF USE
US20130184999A1 (en) * 2012-01-05 2013-07-18 Yan Ding Systems and methods for cancer-specific drug targets and biomarkers discovery
RS56773B1 (sr) * 2012-01-13 2018-04-30 Univ Wuerzburg J Maximilians Dvojna bipartitna funkcionalna komplementacija izazvana antigenom
LU91940B1 (en) * 2012-02-03 2013-08-05 Univ Luxembourg Method for obtaining integrated genomic, transcriptomic, proteomic and/or metabolomic information from a single unique biological sample

Also Published As

Publication number Publication date
EP3129908A4 (en) 2017-11-29
AU2015236054B2 (en) 2019-11-21
AU2015236054A1 (en) 2016-11-03
CA2946289A1 (en) 2015-10-01
JP2019003667A (ja) 2019-01-10
US10192027B2 (en) 2019-01-29
CA2946289C (en) 2018-08-07
IL248021B (en) 2018-07-31
JP6384930B2 (ja) 2018-09-05
CN106852176A (zh) 2017-06-13
AU2020201237A1 (en) 2020-03-12
IL260314A (en) 2018-08-30
KR20170054324A (ko) 2017-05-17
WO2015148689A1 (en) 2015-10-01
CN109979526A (zh) 2019-07-05
IL260314B (en) 2020-03-31
EP3129908B1 (en) 2021-07-21
CN109979526B (zh) 2023-11-24
JP2017522661A (ja) 2017-08-10
US20190121937A1 (en) 2019-04-25
KR101890792B1 (ko) 2018-08-22
US20150278435A1 (en) 2015-10-01
EP3129908A1 (en) 2017-02-15

Similar Documents

Publication Publication Date Title
Kahles et al. Comprehensive analysis of alternative splicing across tumors from 8,705 patients
Stachler et al. Paired exome analysis of Barrett's esophagus and adenocarcinoma
Kleinman et al. Fusion of TTYH1 with the C19MC microRNA cluster drives expression of a brain-specific DNMT3B isoform in the embryonal brain tumor ETMR
US20210057042A1 (en) Systems and methods for detecting cellular pathway dysregulation in cancer specimens
KR101945093B1 (ko) 다중 종양 및 생식세포 유전자 엑솜에 걸친 분자 프로파일의 종합 분석을 위한 시스템 및 방법
US20200395097A1 (en) Pan-cancer model to predict the pd-l1 status of a cancer cell sample using rna expression data and other patient data
Singh et al. The landscape of chimeric RNAs in non-diseased tissues and cells
US20190121937A1 (en) Systems and Methods For RNA Analysis In Functional Confirmation Of Cancer Mutations
Hasan et al. Uncovering missed indels by leveraging unmapped reads
Aoto et al. DEclust: A statistical approach for obtaining differential expression profiles of multiple conditions
US20230326554A1 (en) Identifying treatment response signatures
Park Segmentation-free inference of cell types from in situ transcriptomics data
Conway et al. A cfDNA methylation-based tissue-of-origin classifier for cancers of unknown primary
Aoto Genome and transcriptome analysis for the process of cancer progression
JP2023551795A (ja) 非ヒトメタゲノム経路解析によるがん診断および分類
CN111492435A (zh) 替莫唑胺反应预测因子和方法
Alkhateeb Machine Learning Approaches for Cancer Analysis

Legal Events

Date Code Title Description
A107 Divisional application of patent
E902 Notification of reason for refusal