KR20220107117A - 유전자 융합의 신속한 검출 - Google Patents

유전자 융합의 신속한 검출 Download PDF

Info

Publication number
KR20220107117A
KR20220107117A KR1020217031225A KR20217031225A KR20220107117A KR 20220107117 A KR20220107117 A KR 20220107117A KR 1020217031225 A KR1020217031225 A KR 1020217031225A KR 20217031225 A KR20217031225 A KR 20217031225A KR 20220107117 A KR20220107117 A KR 20220107117A
Authority
KR
South Korea
Prior art keywords
read
data
gene fusion
alignment unit
fusion candidate
Prior art date
Application number
KR1020217031225A
Other languages
English (en)
Inventor
비라즈 데쉬판데
요한 펠릭스 빌헬름 슐레진저
션 트루옹
존 쿠퍼 로데이
마이클 루엘
세브린 캐트루
라미 메히오
Original Assignee
일루미나, 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 일루미나, 인코포레이티드 filed Critical 일루미나, 인코포레이티드
Publication of KR20220107117A publication Critical patent/KR20220107117A/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/251Fusion techniques of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Genetics & Genomics (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

생물학적 샘플에서 유전자 융합을 식별하기 위한 컴퓨터 프로그램들을 포함하는 방법들, 시스템들, 및 장치들이 개시된다. 본 방법은, 복수의 정렬된 판독물을 표현하는 제1 데이터를 획득하는 액션, 획득된 제1 데이터 내에 포함된 복수의 융합 후보를 식별하는 액션, 복수의 융합 후보를 필터링하여 융합 후보들의 필터링된 세트를 결정하는 액션, 융합 후보들의 필터링된 세트의 각각의 특정 융합 후보에 대해, 하나 이상의 컴퓨터에 의해, 특정 융합 후보를 표현하는 추출된 특징부 데이터를 포함하는 머신 러닝 모델에의 입력을 위한 입력 데이터를 생성하는 액션, 생성된 입력 데이터를, 융합 후보가 유효 유전자 융합일 가능성을 표현하는 출력 데이터를 생성하도록 트레이닝된 머신 러닝 모델에의 입력으로서 제공하는 액션, 및 출력 데이터에 기초하여 특정 융합 후보가 유효 유전자 융합에 대응하는지 여부를 결정하는 액션을 포함할 수 있다.

Description

유전자 융합의 신속한 검출
관련 출원의 상호 참조
본 출원은 2019년 12월 5일자로 출원된 미국 특허 가출원 제62/944,304호의 이익을 주장하고, 이는 전체적으로 본 명세서에 참조에 의해 원용된다.
유전자 융합들은 암과 같은 질병의 치료에 있어서 중요한 진단 및 치료 표적인 종양발생 유발인자(oncogenic driver)로서 사용될 수 있다.
본 발명의 일 혁신적인 태양에 따르면, 생물학적 샘플에서 하나 이상의 유전자 융합을 식별하기 위한 컴퓨터 구현 방법이 개시된다. 일 태양에서, 방법은, 하나 이상의 컴퓨터에 의해, 판독물 정렬 유닛으로부터 복수의 정렬된 판독물을 표현하는 제1 데이터를 획득하는 액션; 하나 이상의 컴퓨터에 의해, 획득된 제1 데이터 내에 포함된 복수의 유전자 융합 후보를 식별하는 액션; 하나 이상의 컴퓨터에 의해, 복수의 유전자 융합 후보를 필터링하여 유전자 융합 후보들의 필터링된 세트를 결정하는 액션; 유전자 융합 후보들의 필터링된 세트의 각각의 특정 유전자 융합 후보에 대해: 하나 이상의 컴퓨터에 의해, 머신 러닝 모델에의 입력을 위한 입력 데이터를 생성하는 액션 - 입력 데이터를 생성하는 액션은, (i) 판독물 정렬 유닛에 의해 특정 유전자 융합 후보가 정렬되었던 표준 서열의 하나 이상의 세그먼트들, 및 (ii) 판독물 정렬 유닛의 출력에 기초하여 생성된 데이터를 포함하는 데이터로부터 특정 유전자 융합 후보를 표현하기 위해 특징부 데이터를 추출하는 액션을 포함함 -; 하나 이상의 컴퓨터에 의해, 생성된 입력 데이터를 머신 러닝 모델에의 입력으로서 제공하는 액션 - 머신 러닝 모델은, (i) 판독물 정렬 유닛에 의해 특정 유전자 융합 후보가 정렬되었던 표준 서열의 하나 이상의 세그먼트들, 및 (ii) 판독물 정렬 유닛의 출력에 기초하여 생성된 데이터를 표현하는 입력 데이터를 프로세싱하는 머신 러닝 모델에 기초하여 유전자 융합 후보가 유효 유전자 융합일 가능성을 표현하는 출력 데이터를 생성하도록 트레이닝되었음 -; 하나 이상의 컴퓨터에 의해, 생성된 입력 데이터를 프로세싱하는 머신 러닝 모델에 기초하여 머신 러닝 모델에 의해 생성된 출력 데이터를 획득하는 액션; 및 하나 이상의 컴퓨터에 의해, 특정 융합 후보가 출력 데이터에 기초하여 유효 유전자 융합 후보에 대응하는지 여부를 결정하는 액션을 포함할 수 있다.
다른 버전들은 컴퓨터 판독가능 저장 디바이스들 상에 인코딩된 명령들에 의해 정의되는 방법들의 액션들을 수행하기 위한 대응하는 시스템들, 장치, 및 컴퓨터 프로그램들을 포함한다.
이들 및 다른 버전들은 선택적으로 하기의 특징부들 중 하나 이상을 포함할 수 있다. 예를 들어, 일부 구현예들에서, 입력 데이터를 생성하는 액션은 판독물 정렬 유닛에 의해 특정 유전자 융합 후보가 정렬되었던 표준 서열의 세그먼트들의 주석들을 서술하는 주석 데이터를 포함하는 특징부 데이터를 추출하는 액션을 추가로 포함한다. 그러한 구현예들에서, 머신 러닝 모델은, (i) 판독물 정렬 유닛에 의해 특정 유전자 융합 후보가 정렬되었던 표준 서열의 하나 이상의 세그먼트들, (ii) 판독물 정렬 유닛에 의해 특정 유전자 융합 후보가 정렬되었던 표준 서열의 세그먼트들의 주석들을 서술하는 주석 데이터, 및 (iii) 판독물 정렬 유닛의 출력에 기초하여 생성된 데이터를 표현하는 입력 데이터를 프로세싱하는 머신 러닝 모델에 기초하여 유전자 융합 후보가 유효 유전자 융합 후보일 가능성을 표현하는 출력 데이터를 생성하도록 트레이닝되었다.
일부 구현예들에서, 하나 이상의 컴퓨터에 의해, 획득된 제1 데이터 내에 포함된 복수의 유전자 융합 후보를 식별하는 액션은, 하나 이상의 컴퓨터에 의해, 복수의 분할-판독물 정렬을 식별하는 액션을 포함할 수 있다.
일부 구현예들에서, 하나 이상의 컴퓨터에 의해, 획득된 제1 데이터 내에 포함된 복수의 유전자 융합 후보를 식별하는 액션은, 하나 이상의 컴퓨터에 의해, 복수의 부조화 판독물(discordant read) 쌍 정렬을 식별하는 액션을 포함한다.
일부 구현예들에서, 판독물 정렬 유닛은, 하드웨어 로직 회로들을 사용하여 구성되는 하나 이상의 프로세싱 엔진들의 세트를 사용하여 구현되고, 하드웨어 로직 회로들은, 하드웨어 로직 회로들을 사용하여, (i) 제1 판독물을 표현하는 데이터를 수신하기 위한, (ii) 제1 판독물을 표현하는 데이터를 표준 서열의 하나 이상의 부분들에 맵핑하여 하나 이상의 매칭되는 표준 서열 위치들을 식별하기 위한, (iii) 제1 판독물에 대한 매칭되는 표준 서열 위치들 각각에 대응하는 하나 이상의 정렬 스코어들을 생성하기 위한, (iv) 하나 이상의 정렬 스코어들에 기초하여 제1 판독물에 대한 하나 이상의 후보 정렬들을 선택하기 위한, 그리고 (v) 제1 판독물에 대한 후보 정렬을 표현하는 데이터를 출력하기 위한 동작들을 수행하도록 물리적으로 배열되었다.
일부 구현예들에서, 판독물 정렬 유닛은, 하나 이상의 중앙 프로세싱 유닛(central processing unit: CPU)들 또는 하나 이상의 그래픽 프로세싱 유닛(graphics processing unit: GPU)들을 사용하여, 하나 이상의 CPU들 또는 하나 이상의 GPU들로 하여금, (i) 제1 판독물을 표현하는 데이터를 수신하게 하고, (ii) 제1 판독물을 표현하는 데이터를 표준 서열의 하나 이상의 부분들에 맵핑하여 제1 판독물에 대한 하나 이상의 매칭되는 표준 서열 위치들을 식별하게 하고, (iii) 제1 판독물에 대한 매칭되는 표준 서열 위치들 각각에 대응하는 하나 이상의 정렬 스코어들을 생성하게 하고, (iv) 하나 이상의 정렬 스코어들에 기초하여 제1 판독물에 대한 하나 이상의 후보 정렬들을 선택하게 하고, (v) 제1 판독물에 대한 후보 정렬을 표현하는 데이터를 출력하게 하는 소프트웨어 명령들을 실행함으로써 하나 이상의 프로세싱 엔진들의 세트를 사용하여 구현된다.
일부 구현예들에서, 방법은, 판독물 정렬 유닛에 의해, 아직 정렬되지 않은 복수의 판독물을 수신하는 액션, 판독물 정렬 유닛에 의해, 복수의 판독물의 제1 서브세트를 정렬하는 액션, 및 판독물 정렬 유닛에 의해, 정렬된 판독물들의 제1 서브세트를 메모리 디바이스에 저장하는 액션을 추가로 포함할 수 있다. 그러한 구현예들에서, 하나 이상의 컴퓨터에 의해, 판독물 정렬 유닛으로부터 복수의 정렬된 판독물을 표현하는 제1 데이터를 획득하는 액션은, 하나 이상의 컴퓨터에 의해, 정렬된 판독물들의 제1 서브세트를 메모리 디바이스로부터 획득하고, 판독물 정렬 유닛이 아직 정렬되지 않은 복수의 판독물의 제2 서브세트를 정렬하는 동안 청구항 제1항의 동작들 중 하나 이상의 동작들을 수행하는 액션을 포함할 수 있다.
일부 구현예들에서, 판독물 정렬 유닛의 출력에 기초하여 생성된 데이터는 변이체 대립유전자 빈도 카운트, 고유 판독물 정렬들의 카운트, 전사체에 걸친 판독물 커버리지, MAPQ 스코어, 또는 부모 유전자들 사이의 상동관계를 나타내는 데이터 중 임의의 하나 이상의 것들을 포함할 수 있다.
일부 구현예들에서, 출력 데이터에 기초하여 특정 융합 후보가 유효 유전자 융합 후보에 대응하는지 여부를 결정하는 액션은, 하나 이상의 컴퓨터에 의해, 출력 데이터가 미리결정된 임계치를 만족시키는지 여부를 결정하는 액션, 및 출력 데이터가 미리결정된 임계치들을 만족시킨다고 결정한 것에 기초하여, 특정 융합 후보가 유효 유전자 융합 후보에 대응한다고 결정하는 액션을 포함할 수 있다.
일부 구현예들에서, 출력 데이터에 기초하여 특정 융합 후보가 유효 유전자 융합 후보에 대응하는지 여부를 결정하는 액션은, 하나 이상의 컴퓨터에 의해, 출력 데이터가 미리결정된 임계치를 만족시키는지 여부를 결정하는 액션, 및 출력 데이터가 미리결정된 임계치들을 만족시키지 않는다고 결정한 것에 기초하여, 특정 융합 후보가 유효 유전자 융합 후보에 대응하지 않는다고 결정하는 액션을 포함할 수 있다.
본 발명의 이들 및 다른 혁신적인 태양들은 상세한 설명, 첨부 도면 및 청구범위의 관점에서 용이하게 명백하다.
도 1은 유효 유전자 융합들의 신속한 검출을 위한 시스템의 일례의 블록도이다.
도 2는 유효 유전자 융합들의 신속한 검출을 수행하기 위한 프로세스의 일례의 흐름도이다.
도 3은 유효 유전자 융합들의 신속한 검출을 위한 시스템의 다른 예의 블록도이다.
도 4는 유효 유전자 융합들의 신속한 검출을 위한 시스템을 구현하는 데 사용될 수 있는 시스템 컴포넌트들의 블록도이다.
본 발명은 유전자 융합들을 신속하게 검출하기 위한 시스템들, 방법들, 장치들, 컴퓨터 프로그램들, 또는 이들의 임의의 조합에 관한 것이다. 소정 유전자 융합들의 존재는 특정 질병의 중요한 지표들, 특정 질병에 대한 특정 치료법의 사용을 시사하는 지표, 또는 이들의 조합일 수 있다. 예를 들어, 소정 유전자 융합들은 특정 유형의 암, 예를 들어, 예컨대 급성 및 만성 골수성 백혈병, 골수이형성 증후군(myelodysplastic syndrome, MDS), 연조직 육종, 또는 그에 대한 치료의 지표들일 수 있다. 본 발명은 각각의 융합 후보가 유효 유전자 융합인지 여부를 결정하기 위해 프로세싱되는 다수의 유전자 융합 후보(본 명세서에서 "융합 후보들"로도 지칭됨)를 감소시키기 위해 필터링 엔진을 사용함으로써 정확한 유전자 융합들을 신속하게 검출할 수 있다. 이러한 필터링 엔진은 후속 분석을 위한 융합 후보들의 높은 정확도 선택을 가능하게 하면서, 또한, 유효 유전자 융합들을 식별하기 위해 소비될 필요가 있는 계산 리소스들의 감소를 달성하는데, 이는 후보 유전자 융합들의 필터링된 서브세트만이 본 명세서에서 기술되는 바와 같은 추가 다운스트림 프로세싱을 위해 진행될 수 있기 때문이다.
감소된 후보 유전자 융합 세트는 또한, 다른 기술적 이점들을 제공한다. 예를 들어, 현재 개시되는 방법들 및 시스템들은 모든 유전자 융합 후보들을 프로세싱하고 스코어링하는 종래의 방법들에 비해 감소된 런타임(runtime)을 제공한다. 그의 동작들을 수행하기 위한 감소된 런타임은 또한, 직접적으로, 프로세싱 리소스들(예컨대, CPU 또는 GPU 리소스들)의 소비, 메모리 사용량, 및 전력 소비 면에서의 감소를 초래한다. 필터링 엔진이 종래의 방법들에 비해 감소된 런타임을 제공하지만, 현재 개시되는 방법들 및 시스템들은 또한, 런타임을 감소시키기 위한 다른 방식들을 제공할 수 있다. 예를 들어, 일부 구현예들에서, 후보 유전자 융합을 프로세싱하는 데 사용되는 메타데이터의 맵핑, 정렬, 및 생성을 수행하기 위해 하드웨어 가속 판독물 정렬 유닛을 사용함으로써 심지어 런타임의 추가 감소가 달성될 수 있다.
도 1은 유효 유전자 융합들의 신속한 검출을 위한 시스템(100)의 일례의 블록도이다. 시스템(100)은 핵산 서열분석 디바이스(110), 메모리(120), 2차 분석 유닛(130), 융합 후보 식별 모듈(140), 융합 후보 필터링 모듈(150), 특징부 세트 생성 모듈(160), 머신 러닝 모델(170), 유전자 융합 결정 모듈(180), 출력 애플리케이션 프로그램 인터페이스(application program interface, API) 모듈(190), 및 출력 디스플레이(195)를 포함할 수 있다. 도 1의 예에서, 이들 컴포넌트들 각각은 핵산 서열분석 디바이스(110) 내에 구현되는 것으로 기술된다. 그러나, 본 발명은 그러한 실시예들로 제한되지 않는다.
그 대신, 일부 구현예들에서, 도 1에 기술된 컴포넌트들 중 하나 이상은 핵산 서열분석 디바이스(110) 외부의 컴퓨터 상에서 실행될 수 있다. 예를 들어, 일부 구현예들에서, 2차 분석 모듈들은 핵산 서열분석 디바이스(110) 내에 구현될 수 있고, 융합 후보 식별 모듈(140), 융합 후보 필터링 모듈(150), 특징부 세트 생성 모듈(160), 머신 러닝 모델(170), 유전자 융합 결정 모듈(180), 및 출력 애플리케이션 프로그램 인터페이스(API) 모듈(190)은 하나 이상의 상이한 컴퓨터들에서 구현될 수 있다. 그러한 구현예들에서, 하나 이상의 상이한 컴퓨터들 및 핵산 서열분석 디바이스는 하나 이상의 유선 네트워크들, 하나 이상의 무선 네트워크들, 또는 이들의 조합을 사용하여 통신가능하게 커플링될 수 있다.
본 명세서의 목적들을 위해, 용어 "모듈"은, 본 명세서에 의해 각자의 모듈에 기인하는 기능을 실현하는 데 사용될 수 있는 하나 이상의 소프트웨어 컴포넌트들, 하나 이상의 하드웨어 컴포넌트들, 또는 이들의 임의의 조합을 포함한다. 대체적으로, 본 명세서에 기술된 바와 같은 "모듈"은 본 명세서에 기술된 모듈의 기능을 실현하기 위해 하나 이상의 프로세서들을 사용하여 소프트웨어 명령들을 실행한다. 프로세서는 중앙 프로세싱 유닛(central processing unit, CPU), 그래픽 프로세싱 유닛(graphics processing unit, GPU) 등을 포함할 수 있다.
마찬가지로, 본 명세서에서 사용되는 바와 같은 용어 "유닛"은, 본 명세서에 의해 각자의 유닛에 기인하는 기능을 실현하는 데 사용될 수 있는 하나 이상의 소프트웨어 컴포넌트들, 하나 이상의 하드웨어 컴포넌트들, 또는 이들의 임의의 조합을 포함한다. 대체적으로, 본 명세서에 기술된 바와 같은 "유닛"은 프로세싱 엔진들로서 배열된 하드웨어 내장형 디지털 로직 게이트들 또는 하드웨어 내장형 디지털 로직 블록들과 같은 하나 이상의 하드웨어 컴포넌트들을 사용하여 본 명세서에 기술된 유닛의 기능을 실현하는 동작들을 수행한다. 그러한 하드웨어 내장형 디지털 로직 게이트들 또는 하드웨어 내장형 디지털 로직 회로들은 필드 프로그래밍가능 게이트 어레이(field programmable gate array, FPGA), 주문형 집적 회로(application specific integrated circuit, ASIC) 등을 포함할 수 있다.
핵산 서열분석 디바이스(110)(본 명세서에서 서열분석 디바이스(110)로도 지칭됨)는 1차 핵산 서열 분석을 수행하도록 구성된다. 1차 분석을 수행하는 것은, 서열분석 디바이스(110)에 의해, 혈액 샘플, 조직 샘플, 객담, 또는 핵산 샘플과 같은 생물학적 샘플(105)을 수용하는 것, 및 서열분석 디바이스(110)에 의해, 수용된 생물학적 샘플의 핵산 서열의 뉴클레오타이드들의 순서를 각각 표현하는 하나 이상의 판독물들(112)과 같은 출력 데이터를 생성하는 것을 포함할 수 있다. 일부 구현예들에서, 핵산 서열분석기(110)에 의한 서열분석은 다수의 판독 사이클에서 수행될 수 있으며, 이때 하나 이상의 제1 판독물들을 생성하는 제1 판독 사이클 "Read 1"이 핵산 서열 단편의 제1 단부로부터의 뉴클레오타이드들의 순서를 표현하고, 하나 이상의 제2 판독물들을 생성하는 제2 판독 사이클 "Read 2"가 핵산 서열 단편들 중 하나의 핵산 서열 단편의 다른 단부들로부터의 뉴클레오타이드들의 순서를 표현한다. 일부 구현예들에서, 판독물들은 길이가 대략 80 내지 120개 뉴클레오타이드들의 짧은 판독물들일 수 있다. 그러나, 본 발명은 임의의 특정 뉴클레오타이드 길이의 판독물들로 제한되지 않는다. 그 대신, 본 발명은 임의의 뉴클레오타이드 길이의 판독물들을 위해 사용될 수 있다.
일부 구현예들에서, 생물학적 샘플(105)은 DNA 샘플을 포함할 수 있고, 핵산 서열분석기(110)는 DNA 서열분석기를 포함할 수 있다. 그러한 구현예들에서, 핵산 서열분석기에 의해 생성된 판독물 내의 서열분석된 뉴클레오타이드들의 순서는 구아닌(G), 시토신(C), 아데닌(A), 및 티민(T) 중 하나 이상을 임의의 조합으로 포함할 수 있다. 일부 구현예들에서, 핵산 서열분석기(110)는 생물학적 샘플(105)의 RNA 판독물들을 생성하는 데 사용될 수 있다. 이러한 구현예들에서, 이것은 RNA-seq 프로토콜들을 사용하여 발생할 수 있다. 예로서, 생물학적 샘플(105)은 역-전사 효소(reverse transcriptase enzyme)를 사용하여 상보적 DNA(complementary DNA, cDNA)를 형성하기 위해 역-전사를 사용하여 사전프로세싱될 수 있다. 다른 구현예들에서, 핵산 서열분석기(110)는 RNA 서열분석기를 포함할 수 있고, 생물학적 샘플은 RNA 샘플을 포함할 수 있다. cDNA를 사용하여 또는 RNA 서열기를 통해 생성된 RNA 판독물들은 C, G, A 및 우라실(U)로 구성될 수 있다. 본 명세서에 기술된 도 1의 예는 RNA 판독물들의 생성 및 분석을 참조하여 기술된다. 그러나, 본 발명은 DNA 또는 RNA 판독물들을 포함하는 임의의 유형의 핵산 서열 판독물들을 생성 및 분석하는 데 사용될 수 있다.
서열분석 디바이스(110)는 대량 병렬 서열분석 기술의 사용을 통해 초고(ultra-high) 처리량, 확장성, 및 속도를 달성하는 방식으로 주어진 샘플에 대한 판독물들(112-1, 112-2, 112-n) - 여기서, "n"은 0 초과의 임의의 양의 정수임 - 과 같은 서열 판독물들을 생성하도록 구성되는 차세대 서열분석기(next generation sequencer, NGS)를 포함할 수 있다. NGS는 전체 게놈들의 신속한 서열분석을 가능하게 하고, 면밀히 서열화된 타깃 영역들로 확대하기 위한 능력, RNA 서열분석(RNA-Seq)을 이용하여 신규한 RNA 변이체들 및 접합(splice) 부위들을 발견하기 위한 능력, 또는 유전자 발현 분석, 전-게놈(genome-wide) DNA 메틸화 및 DNA-단백질 상호작용들과 같은 유전자 외적 인자들의 분석, 희귀한 체세포 변이체들 및 종양 하위클론을 연구하기 위한 그리고 예컨대 인간들의 또는 환경에서의 미생물 다양성을 연구하기 위한 암 샘플들의 서열분석을 위한 mRNA들을 정량화하기 위한 능력을 가능하게 한다.
서열분석 디바이스(110)는 생물학적 샘플(105)을 서열분석할 수 있고, A, C, T, 및 G를 사용하여 표현되는 판독물들의 대응하는 세트를 생성할 수 있다. 이어서, 서열분석 디바이스는 역-전사를 수행하여, 대응하는 RNA 서열을 표현하는 cDNA 서열을 생성할 수 있다. 이들 RNA 서열 판독물들(112-1, 112-2, 112-n)은 서열분석 디바이스(110)에 의해 출력되고 메모리 디바이스(120)에 저장된다. 일부 구현예들에서, RNA 서열 판독물들(112-1, 112-2, 112-n)은 메모리 디바이스(120) 내에의 판독물들(112-1, 112-2, 112-n)의 저장 전에 더 작은 크기의 데이터 기록물들로 압축될 수 있다. 메모리 디바이스(120)는 2차 분석 유닛(130), 융합 후보 식별 모듈(140), 융합 후보 필터링 모듈(150), 특징부 세트 생성 모듈(160), 머신 러닝 모델(170), 유전자 융합 결정 모듈(180), 및 출력 API 모듈(190)을 포함하는 도 1의 컴포넌트들 각각에 의해 액세스가능할 수 있다 각자의 모듈들은 제1 모듈의 출력을 제2 모듈에 제공하는 것으로 묘사될 수 있지만, 그러한 특징부의 실제적인 구현은 메모리(120)와 같은 메모리 디바이스에 출력을 저장하는 제1 모듈, 및 메모리 디바이스로부터의 저장된 출력에 액세스하고 액세스된 출력을 자신의 입력으로서 프로세싱하는 제2 모듈을 포함할 수 있다.
2차 분석 유닛(130)은 메모리 디바이스(120)에 저장된 판독물들(112-1, 112-2, 112-n)에 액세스할 수 있고, 판독물들(112-1, 112-2, 112-n)에 대해 하나 이상의 2차 분석 동작들을 수행할 수 있다. 일부 구현예들에서, 판독물들(112-1, 112-2, 112-n)은 압축된 데이터 기록물들로 메모리 디바이스(120)에 저장될 수 있다. 그러한 구현예들에서, 2차 분석 유닛은 판독 기록물들에 대해 2차 분석 동작들을 수행하기 전에 압축된 판독 기록물에 대해 압축해제 동작들을 수행할 수 있다. 2차 분석 동작들은 표준 게놈에 하나 이상의 판독물들을 맵핑하는 것, 표준 게놈에 하나 이상의 판독물들을 정렬시키는 것, 또는 둘 모두를 포함할 수 있다. 일부 구현예들에서, 2차 분석 동작들은 또한 변이체 호출(variant calling) 동작들을 포함할 수 있다. 2차 분석 동작들의 수행에 더하여, 2차 분석 유닛(130)은 또한, 분류 동작들을 수행하도록 구성될 수 있다. 분류 동작들은, 예를 들어, 정렬된 판독물들이 맵핑되었던 표준 게놈에서의 위치에 기초하여 2차 분석 유닛에 의해 정렬된 판독물들을 순서화하는 것을 포함할 수 있다.
도 1의 예와 같은 일부 구현예들에서, 2차 분석 유닛(130)은 메모리(132) 및 프로그래밍가능 로직 디바이스(134)를 포함할 수 있다. 프로그래밍가능 로직 디바이스(134)는 판독물 정렬 유닛(136)과 같은 하나 이상의 2차 분석 동작 유닛들을 포함하도록 동적으로 구성될 수 있는 하드웨어 로직 회로들을 가질 수 있고, 하드웨어 로직 회로들을 사용하여 하나 이상의 2차 분석 동작들을 수행하는 데 사용될 수 있다. 판독물 정렬 유닛(136)과 같은 2차 분석 동작 유닛을 포함하도록 프로그래밍가능 로직 디바이스(134)를 동적으로 구성하는 것은, 예를 들어, 프로그래밍가능 로직 디바이스(134)에 하나 이상의 명령들을 제공하는 것을 포함할 수 있는데, 이는 프로그래밍가능 로직 디바이스(134)가, 프로그래밍가능 로직 디바이스(134)의 하드웨어 로직 게이트들을, 판독물 정렬 유닛(136)의 기능을 하드웨어 로직으로 실현하도록 구성되는 하드웨어 내장형 디지털 로직 구성으로 배열하게 한다.
프로그래밍가능 로직 디바이스(134)의 동적 구성을 트리거하는 하나 이상의 동작들은, 컴파일된 하드웨어 기술 언어(hardware description language, HDL) 코드, 프로그래밍가능 로직 디바이스(134)가 컴파일된 하드웨어 기술 언어 코드에 기초하여 자신을 구성하기 위한 하나 이상의 명령들 등을 포함할 수 있다. 프로그래밍가능 로직 디바이스(134)의 동적 구성을 트리거하는 그러한 동작들은, 서열분석 디바이스(110)에 의해 실행되는 제어 프로그램, 또는 제어 프로그램을 호스팅하는 다른 컴퓨터에 의해 프로그래밍가능 로직 디바이스(134)에 생성 및 전개될 수 있다. 일부 구현예들에서, 제어 프로그램은 메모리(120)와 같은 메모리 디바이스에 명령들이 상주하는 소프트웨어 모듈일 수 있다. 프로그래밍가능 로직 디바이스(134)를 구성하기 위한 명령 하드웨어 기술 언어 코드 또는 다른 명령들을 생성 및 전개하는 제어 프로그램의 기능은 하나 이상의 CPU들 또는 하나 이상의 GPU들과 같은 하나 이상의 프로세서들을 사용하여 제어 프로그램 소프트웨어 모듈을 실행함으로써 실현될 수 있다.
판독물 정렬 유닛(136)의 기능은 서열분석 디바이스(110)에 의해 메모리(120)에 저장되었던 RNA 판독물들(112-1, 112-2, 112-n)과 같은 하나 이상의 제1 판독물들을 획득하는 것, 획득된 제1 판독물들(112-1, 112-2, 112-n)을 표준 서열의 하나 이상의 표준 서열 위치들에 맵핑하는 것, 및 이어서, 맵핑된 제1 판독물들(112-1, 112-2, 112-n)을 표준 서열에 정렬시키는 것을 포함할 수 있다. 즉, 맵핑 스테이지는 특정 판독물과 매칭되는 획득된 제1 판독물들의 각각의 특정 판독물에 대한 일정 세트의 후보 표준 서열 위치들을 식별할 수 있다. 이어서, 정렬 스테이지는 후보 표준 서열 위치들 각각을 스코어링할 수 있고, 최고 정렬 스코어를 갖는 특정 표준 서열 위치를 특정 판독물에 대한 정확한 정렬로서 선택할 수 있다. 표준 서열은 공지된 게놈에 대응하는 조직화된 일련의 뉴클레오타이드들을 포함할 수 있다.
제어 프로그램으로부터의 하나 이상의 명령들에 응답하여, 프로그래밍가능 로직 디바이스(134)의 하드웨어 로직 게이트들을 배열하는 것은, 판독물 정렬 유닛(136)의 디지털 로직 기능들을 실행하기 위해, AND 게이트들, OR 게이트들, NOR 게이트들, XOR 게이트들, 또는 이들의 임의의 조합과 같은 로직 게이트들을 구성하는 것을 포함할 수 있다. 대안적으로 또는 추가적으로, 하드웨어 로직 게이트들을 배열하는 것은 가산, 승산, 비교 등을 포함하는 복잡한 컴퓨팅 동작들을 수행하기 위해 맞춤가능 하드웨어 로직 유닛들을 포함하는 동적으로 구성된 로직 블록들을 포함할 수 있다. 하드웨어 로직 게이트들, 로직 블록들, 또는 이들의 조합의 정확한 배열은 제어 프로그램으로부터 수신된 명령들에 의해 정의된다. 수신된 명령들은 컴파일된 하드웨어 기술 언어(HDL) 프로그램 코드를 포함할 수 있거나 또는 이로부터 도출될 수 있으며, 이러한 컴파일된 하드웨어 기술 언어 프로그램 코드는 엔티티에 의해 기록되었고, 프로그래밍가능 로직 디바이스(134) 내에 프로그래밍되어야 하는 2차 분석 동작 유닛의 개략적인 레이아웃을 정의한다. HDL 프로그램 코드는 초고속 집적 회로 하드웨어 기술 언어(Very High Speed Integrated Circuit Hardware Description Language, VHDL), Verilog 등과 같은 언어로 기록되는 프로그램 코드를 포함할 수 있다. 엔티티는 HDL 프로그램 코드를 작성한 1인 이상의 인간 사용자들, HDL 프로그램 코드를 생성한 하나 이상의 인공지능형 에이전트(artificially intelligent agent)들, 또는 이들의 조합을 포함할 수 있다.
프로그래밍가능 로직 디바이스(134)는 임의의 유형의 프로그래밍가능 로직 디바이스를 포함할 수 있다. 예를 들어, 프로그래밍가능 로직 디바이스(134)는 하나 이상의 필드 프로그래밍가능 게이트 어레이(FPGA)들, 하나 이상의 복합 프로그래밍가능 로직 디바이스(complex programmable logic device, CPLD)들, 또는 하나 이상의 프로그래밍가능 로직 어레이(programmable logic array, PLA)들, 또는 이들의 조합을 포함할 수 있으며, 이들은 특정 작업흐름을 실행하기 위해 제어 프로그램에 의해, 필요에 따라, 동적으로 구성가능 및 재구성가능하다. 예를 들어, 일부 구현예들에서는, 전술된 바와 같이, 프로그래밍가능 로직 디바이스(134)를 판독물 정렬 유닛(136)으로서 사용하는 것이 바람직할 수 있다. 그러나, 다른 구현예들에서는, 프로그래밍가능 로직 디바이스(134)를 사용하여, 변이체 호출 기능들 또는 은닉 마르코프 모델(Hidden Markov Model, HMM) 유닛과 같은 변이체 호출을 지원하는 기능들을 수행하는 것이 바람직할 수 있다. 또 다른 구현예들에서, 프로그래밍가능 로직 디바이스(134)는 또한, 압축 및 압축해제와 같은 일반적인 컴퓨팅 태스크들을 지원하도록 동적으로 구성될 수 있는데, 그 이유는 프로그래밍가능 로직 디바이스(134)의 하드웨어 로직이 이들 태스크들 및 앞서 식별된 다른 태스크들을, 하나 이상의 프로세싱 유닛들(150)에 의해 실행되는 소프트웨어 명령들을 사용하는 동일한 태스크들의 수행보다 훨씬 더 빨리 수행할 수 있기 때문이다. 일부 구현예들에서, 프로그래밍가능 로직 디바이스(134)는 상이한 동작들을 수행하기 위해 런타임 동안에 동적으로 재구성될 수 있다.
예로서, 일부 구현예들에서, 프로그래밍가능 로직 디바이스(134)는, 메모리 디바이스(120 또는 132)에 저장된 제1 판독물들(112-1, 112-2, 112-n)의 압축된 버전을 표현하는 데이터에 액세스하기 위해 압축해제 유닛으로서 동적으로 구성되는 FPGA를 사용하여 구현될 수 있다. 2차 분석 유닛(130)은 압축해제 유닛을 사용하여, (예컨대, 핵산 서열분석기로부터 수신된 판독물들이 압축되는 경우) 제1 판독물들(112-1, 112-2, 112-n)을 표현하는 압축된 데이터를 압축해제할 수 있다. 압축해제 유닛은 메모리(120 또는 132)에 압축해제된 판독물들을 저장할 수 있다. 그러한 구현예들에서, FPGA는 이어서, 판독물 정렬 유닛(136)으로서 동적으로 재구성될 수 있고, 메모리(132 또는 120)에 이제 저장되는 압축해제된 제1 판독물들(112-1, 112-2, 112-n)의 맵핑 및 정렬을 수행하는 데 사용될 수 있다. 판독물 정렬 유닛(136)은 이어서, 메모리(132 또는 120) 내의 맵핑되고 정렬된 판독물들을 표현하는 데이터를 저장할 수 있다. 일련의 동작들이 압축해제 및 맵핑 및 정렬 동작들을 포함하는 것으로 기술되지만, 본 발명은 그들 동작을 수행하는 것으로 또는 그들 동작만으로 제한되지 않는다. 그 대신, 프로그래밍가능 로직 디바이스(134)는 본 명세서에 기술된 기능을 실현하기 위해, 필요에 따라, 임의의 순서로 임의의 동작 유닛의 기능을 수행하도록 동적으로 구성될 수 있다.
도 1의 예는 판독물 정렬 유닛(136)을 구현하기 위해 프로그래밍가능 로직 디바이스(134)의 형태의 하드웨어 로직 디바이스를 사용하는 2차 분석 유닛(130)을 기술한다. 그러나, 본 발명은 판독물 정렬 유닛(136)을 구현하기 위해 프로그래밍가능한 로직 디바이스들을 사용하는 것으로 제한되지 않는다. 그 대신, 다른 유형들의 집적 회로들이 2차 분석 유닛(130)의 하드웨어 내장형 디지털 로직 내의 판독물 정렬 유닛(136)을 구현하는 데 사용될 수 있다. 예를 들어, 일부 구현예들에서, 2차 분석 유닛(143)은 하나 이상의 2차 분석 동작 유닛들의 기능을 구현하기 위해 하나 이상의 주문형 집적 회로(ASIC)들을 사용하도록 구성될 수 있다. 재프로그래밍가능하지 않지만, 하나 이상의 ASIC들은, 2차 분석 동작들의 성능을 가속 및 병렬화하기 위해 판독물 정렬 유닛(136), 변이체 호출 유닛, 변이체 호출 계산 지원 유닛 등과 같은 하나 이상의 2차 분석 동작 유닛들의 맞춤형 하드웨어 로직으로 설계될 수 있다. 일부 구현예들에서, 하나 이상의 2차 분석 동작 유닛들의 기능을 실현하는 2차 분석 유닛(130)의 하드웨어 내장형 로직 회로들로서의 하나 이상의 ASIC들의 사용은 FPGA와 같은 프로그래밍가능 로직 디바이스를 사용하는 것보다 훨씬 더 빠를 수 있다. 따라서, 당업자는 본 명세서에 기술된 실시예들 중 임의의 실시예에서의 FPGA와 같은 프로그래밍가능 로직 디바이스 대신에 ASIC이 사용될 수 있음을 이해할 것이다. ASIC들이 채용되어야 하는 구현예들의 경우, ASIC에 의해 수행되어야 하는 각각의 2차 분석 동작 유닛에 대해 전용 ASIC 또는 단일 ASIC의 전용 로직 그룹들이 채용될 필요가 있을 것이다. 예로서, 판독물 정렬을 위한 하나 이상의 ASIC들, 압축해제를 위한 하나 이상의 ASIC들, 압축을 위한 하나 이상의 ASIC들, 또는 이들의 조합. 대안적으로, 동일한 기능이 또한, 동일한 ASIC 내의 전용 로직 그룹들로 달성될 수 있다.
또한, 도 1 및 도 3의 시스템들(100, 300)을 참조하여 논의된 본 발명의 예들이 각각, 프로그래밍가능 로직 디바이스 내의 판독물 정렬 유닛(136)의 하드웨어 구현예의 사용을 참조하여 기술된다. 또한, 하나 이상의 ASIC들이 판독물 정렬 엔진 또는 다른 2차 분석 동작 유닛들을 구현하는 데 사용될 수 있음이 상기에서 나타내진다. 그러나, 본 발명은 그러한 2차 분석 동작들을 구현하기 위한 하드웨어 유닛들의 사용으로 제한되지 않는다. 그 대신, 일부 구현예들에서, 판독물 정렬, 압축, 또는 압축해제와 같은 프로그래밍가능 로직 디바이스에 의해 수행되는 것으로 본 명세서에 기술된 동작들 중 임의의 동작들이 또한, 하나 이상의 소프트웨어 모듈들을 사용하여 구현될 수 있다.
도 1의 예를 참조하면, 시스템(100)의 실행은 서열분석 디바이스(110)가 생물학적 샘플(105)을 서열분석하는 것으로 시작할 수 있다. 생물학적 샘플을 서열분석하는 것은, 서열분석 디바이스(110)에 의해, 생물학적 샘플(105)에 존재하는 뉴클레오타이드들의 순서화된 서열들의 데이터 표현인 판독물 서열들을 생성하는 것을 포함할 수 있다. 시스템(100)이 DNA 판독물들을 프로세싱하도록 구성되는 경우, 서열분석 디바이스(110)에 의해 생성된 판독물들은 메모리(120)에 저장될 수 있다.
대안적으로, 일부 구현예들에서, 시스템(100)이 RNA 판독물들을 프로세싱하도록 구성되는 경우, 서열분석 디바이스(110)는 역-전사 효소를 사용하여 상보적 DNA(cDNA)를 형성하기 위해 역-전사를 사용하여 생물학적 샘플(110)의 사전프로세싱을 수행하도록 구성될 수 있다. 도 1의 예에서의 구현예와 같은 그러한 구현예들에서, 서열분석 디바이스(110)에 의해 생성된 판독물들은 RNA 판독물들(112-1, 112-2, 112-n)을 포함한다. 다른 구현예들에서, 핵산 서열분석기(110)는 RNA 서열분석기를 포함할 수 있고, 생물학적 샘플은 RNA 샘플을 포함할 수 있다. RNA 판독물들이 cDNA를 사용하는 DNA 서열분석 디바이스에 의해 생성되든 또는 RNA 서열분석기를 통해 생성되든, RNA 판독물들은 각각 C, G, A, 및 U로 구성된 뉴클레오타이드들의 서열을 포함한다. 판독물들(112-1, 112-2, 112-n)은 압축 또는 비압축 포맷으로 메모리(120)에 저장될 수 있다.
시스템(100)의 실행은 2차 분석 유닛(130)이 메모리(120)에 저장된 판독물들(112-1, 112-2, 112-n)을 획득하는 것으로 계속될 수 있다. 일부 구현예들에서, 2차 분석 유닛(130)은 메모리 디바이스(120) 내의 판독물들(112-1, 112-2, 112-n)에 액세스할 수 있고, 액세스된 판독물들(112-1, 112-2, 112-n)을 2차 분석 유닛(130)의 메모리(132)에 저장할 수 있다. 다른 구현예들에서, 제어 프로그램에 의한, 판독물들(112-1, 112-2, 112-n)의 서열분석이 완료되었고 2차 분석 유닛(130)이 2차 분석 동작들을 수행하는 데 이용가능하다는 결정 시에, 제어 프로그램은 판독물들(112-1, 112-2, 112-n)을 2차 분석 유닛(130)의 메모리(132)에 로딩할 수 있다.
판독물들(112-1, 112-2, 112-n)이 압축되는 경우, 2차 분석 유닛(130)은, 메모리(132 또는 120) 내의 판독물들(112-1, 112-2, 112-n)에 액세스하기 위해, 판독물들(112-1, 112-2, 112-n)을 압축해제하기 위해, 그리고 이어서, 압축해제된 판독물들(112-1, 112-2, 112-n)을 메모리(132 또는 120)에 저장하기 위해, 프로그래밍가능 로직 디바이스(134)를 압축해제 유닛으로서 동적으로 구성할 수 있다. 일부 구현예들에서, 2차 분석 유닛은 프로그래밍가능 로직 디바이스를 동적으로 재구성할 수 있고, 제어 프로그램으로부터의 명령들에 응답하여 압축해제를 수행할 수 있다.
판독물들(112-1, 112-2, 112-n)이 압축되지 않은 경우, 2차 분석 유닛(130)은 메모리(132 또는 120)로부터의 판독물들에 액세스할 수 있고, 판독물 정렬 동작들을 수행할 수 있다. 일부 구현예들에서, 2차 분석 유닛(130)은, 프로그래밍가능 로직 디바이스(134)를 구성하거나 재구성하여 판독물 정렬 유닛(136)을 포함할 것, 그리고 이어서, 판독 정렬 유닛(136)을 사용하여 판독물들(112-1, 112-2, 112-n)의 정렬을 수행할 것을 2차 분석 유닛(130)에 명령하는 명령을 제어 프로그램으로부터 수신할 수 있다. 대안적으로, 다른 구현예들에서, 프로그래밍가능 로직 디바이스는 판독물 정렬 유닛(136)을 포함하도록 그리고 판독물 정렬 유닛(136)을 사용하여 판독물들(112-1, 112-2, 112-n)의 정렬을 수행하도록 이미 구성되었을 수 있다. 또 다른 구현예들에서, 2차 분석 유닛(130)은 판독물 정렬을 수행하도록 구성되는 ASIC를 포함할 수 있고, 이어서, ASIC를 사용하여 판독물들(112-1, 112-2, 112-n)의 정렬을 수행할 수 있다.
2차 분석 유닛(130)은 유전자 융합 분석과 병행하여 판독물 정렬 동작들을 수행하도록 구성될 수 있다. 예를 들어, 2차 분석 유닛(140)은 정렬되지 않은 서열분석 디바이스(110)에 의해 생성된 판독물들의 제1 배치를 획득할 수 있고, 판독물 정렬 유닛(136)을 사용하여 판독물들의 제1 배치를 정렬할 수 있고, 프로그래밍된 로직 디바이스(136)의 하드웨어 구성으로 구현될 수 있거나, 또는 프로그램 명령들을 실행함으로써 소프트웨어로 구현될 수 있는 분류 엔진을 사용하여 정렬된 판독물들을 분류할 수 있고, 이어서, 메모리 디바이스(132, 130)에의 저장을 위해 정렬되고 분류된 판독물들의 제1 배치를 출력할 수 있다. 일부 구현예들에서, 메모리(132)는, 판독물 정렬 유닛에 의해 프로세싱될 데이터를 로딩하고 이어서 판독물 정렬 유닛(136)에 의해 출력되었던 데이터를 오프로딩하는 2차 분석 유닛(132)을 위한 로컬 캐시로서 기능할 수 있다. 따라서, 일단 정렬된 판독물들의 제1 배치가 판독물 정렬 유닛(136)에 의해 메모리(132)로 출력되었다면, 정렬된 판독물들의 제1 배치가 분류되고, 이어서, 메모리(120)로 출력될 수 있다. 이어서, 융합 후보 식별 모듈(140)은, 메모리(120)로부터의 정렬되고 분류된 판독물들의 제1 배치에 액세스할 수 있으며, 2차 분석 유닛(130)이 서열분석 디바이스(110)에 의해 생성되었고 이전에 정렬되지 않은 판독물들의 제2 배치에 대해 정렬 동작들을 수행하는 동안, 정렬되고 분류된 판독물들의 제1 배치를 프로세싱하기 시작할 수 있다. 이러한 프로세스는 판독물들의 각각의 배치가 시스템(100)을 통해 프로세싱될 때까지 반복적으로 수행될 수 있다. 이러한 예가 정렬되고 분류되는 배치들을 갖는 것으로 기술되어 있지만, 정렬된 판독물들의 배치들이 또한 분류되어야 한다는 본 발명의 어떠한 요건도 없다. 그 대신, 정렬되고 분류된 판독물들의 사용은, 후술되는 바와 같이, 감소된 런타임과 같은 성능 향상을 획득하기 위한 노력으로 시스템(100) 또는 시스템(300)에 채용될 수 있다.
융합 후보 식별 모듈(140)은 판독물 정렬 유닛(136)에 의해 정렬되었던 정렬되고 분류된 판독물들의 배치를 획득할 수 있고, 정렬되고 분류된 판독물들의 배치가 하나 이상의 유전자 융합 후보들을 포함하는지 여부를 결정할 수 있다. 일부 구현예들에서, 수신된 배치가 정렬되고 분류된 판독물들을 포함하는 경우, 융합 후보 식별 모듈(140)은 배치에 대응하는 게놈 간격이 적어도 하나의 융합 후보의 정지점(breakpoint)과 중첩되는 배치의 분류된 판독물들을 평가할 수 있다. 이것은 다운스트림 분석을 필요로 하는 융합 후보들의 수를 감소시킬 수 있다. 다른 구현예들에서, 수신된 배치가 분류되지 않았던 정렬된 판독물들을 포함하는 경우, 융합 후보 식별 모듈(140)은 배치 내의 정렬된 판독물들 각각을 평가하여, 정렬된 판독물이 융합 후보인지 여부를 결정할 수 있다. 일부 구현예들에서, 융합 후보 식별 모듈(140)에 의해, 판독물들의 배치가 하나 이상의 융합 후보들을 포함하는지 여부를 결정하는 동작은, 융합 후보 식별 모듈(140)에 의해, 결정하는 것을 포함하며, 여기서 판독물들의 배치는 하나 이상의 분할-판독물 정렬들, 하나 이상의 부조화 판독물 쌍들, 하나 이상의 소프트-클립핑된(soft-clipped) 정렬들, 또는 이들의 조합을 포함한다.
일부 구현예들에서, 융합 후보 식별 모듈(140)은 분할-판독물 정렬들을 융합 후보들로서 식별하도록 구성될 수 있다. 융합 후보 식별 모듈(140)은 정렬된 판독물들의 배치 내의 각각의 특정 판독물이 정렬되었던 표준 서열의 유전자들을 분석함으로써 분할-판독물 정렬들을 식별할 수 있다. 융합 후보 식별 모듈(140)이, 판독물이 단일 유전자와 맵핑한다고 결정하는 경우, 융합 후보 식별 모듈(140)은 판독물이 분할-판독물이 아니라고 결정할 수 있다. 대안적으로, 융합 후보 식별 모듈(140)이, 판독물이 2개의 상이한 유전자들에 정렬한다고 결정하는 경우, 판독물은 분할-판독물인 것으로 결정될 수 있다. 그러한 구현예들에서, 분할-판독물은 융합 후보인 것으로 결정될 수 있다. 판독물은, 예를 들어, 판독물의 뉴클레오타이드들의 제1 서브세트가 표준 게놈의 제1 부모 유전자에 대해 정렬되고 판독물의 뉴클레오타이드들의 제2 서브세트가 표준 게놈의 제2 부모 유전자에 대해 정렬되는 경우, 2개의 상이한 판독물들에 정렬하는 것으로 결정될 수 있다. 일부 구현예들에서, 뉴클레오타이드들의 제1 서브세트는 판독물의 프리픽스(prefix)일 수 있고, 뉴클레오타이드들의 제2 서브세트는 판독물의 서픽스(suffix)일 수 있다. 융합 후보 식별 모듈(140)이 분할-판독물들을 식별하도록 구성되는 경우, 분할-판독물들을 식별하는 데이터는, 만약에 있다면, 메모리 디바이스(120)에 저장될 수 있다.
일부 구현예들에서, 융합 후보 식별 모듈(140)은 융합 후보들로서 부조화 판독물 쌍들을 식별하도록 구성될 수 있다. 융합 후보 식별 모듈(140)은 정렬된 판독물들의 배치 내의 각각의 특정 판독물 쌍이 정렬되었던 표준 서열의 유전자들을 분석함으로써 부조화 판독물 쌍들을 식별할 수 있다. 판독물 쌍이 표준 서열에 정렬하고, 정렬의 배향 및 범위가 예상 배향 및 범위인 경우, 판독물 쌍은 부조화 판독물이 아닌 것으로 결정된다. 대안적으로, 판독물 쌍이 표준 서열에 정렬하고, 정렬의 배향 또는 범위가 예상되지 않는 경우, 판독물 쌍은 부조화 판독물 쌍인 것으로 결정된다. 그러한 구현예들에서, 판독물 쌍의 하나의 판독물이 하나의 부모 유전자에 맵핑하고 다른 판독물이 다른 부모 유전자에 맵핑하는 경우, 부조화 판독물은 융합 후보인 것으로 결정될 수 있다. 융합 후보 식별 모듈(140)이 부조화 판독물들을 식별하도록 구성되는 경우, 부조화 판독물들을 식별하는 데이터는, 만약에 있다면, 메모리 디바이스(120)에 저장될 수 있다.
일부 구현예들에서, 융합 후보 식별 모듈(140)은 소프트-클립핑된 정렬들을 식별하도록 구성될 수 있다. 융합 후보 식별 모듈(140)은 정렬된 판독물들의 배치 내의 각각의 특정 정렬된 판독물이 정렬되었던 표준 서열의 유전자들을 분석함으로써 소프트-클립핑된 정렬들을 식별할 수 있다. 일부 구현예들에서, 융합 후보 식별 모듈(140)은 판독물이 전체적으로 표준 게놈 내의 단일 위치에 정렬되는지 여부를 결정할 수 있다. 융합 후보 식별 모듈(140)이, 판독물이 전체적으로 표준 게놈 내의 단일 위치에 정렬되었다고 결정하는 경우, 융합 후보 식별 모듈(140)은 판독물이 소프트-클립핑된 판독물이 아니라고 결정할 수 있다. 대안적으로, 융합 후보 식별 모듈(140)이, 판독물의 일부분만이 표준 게놈에 정렬된다고 결정하는 경우, 융합 후보 식별 모듈(140)은 판독물이 소프트-클립핑된 판독물이라고 결정할 수 있다. 판독물의 정렬된 부분이 하나의 부모 유전자에 맵핑하고 정렬되지 않은 부분이 다른 부모 유전자와 유사한 서열을 갖는 것으로 결정되는 경우, 소프트-클립핑된 판독물은 융합 후보인 것으로 결정된다. 융합 후보 식별 모듈(140)이 소프트-클립핑된 판독물들을 식별하도록 구성되는 경우, 소프트-클립핑된 판독물들을 식별하는 데이터는, 만약에 있다면, 유전자 융합 후보로서 메모리 디바이스(120)에 저장될 수 있다.
융합 후보 필터링 모듈(150)은 융합 후보 식별 모듈(140)에 의해 식별된 융합 후보들의 세트를 설명하는 데이터를 획득할 수 있다. 일부 구현예들에서, 융합 후보 필터링 모듈은 메모리 디바이스(120)에 액세스할 수 있고, 메모리 디바이스(120)로부터 융합 후보들을 설명하는 데이터를 획득할 수 있다. 다른 구현예들에서, 융합 후보 필터링 모듈은 융합 후보 식별 모듈(140)과 같은 선행 모듈의 출력으로부터 융합 후보들을 설명하는 데이터를 수신할 수 있다. 융합 후보 필터링 모듈(150)은, 유전자 융합 후보들의 전체 세트보다 작은 유전자 융합 후보들의 필터링된 세트를 식별하기 위해, 하나 이상의 필터들을 사용하여, 융합 후보들의 세트를 설명하는 데이터를 필터링할 수 있다. 일부 구현예들에서, 이들 필터들은 단일 스테이지에서 적용된다. 예를 들어, 하나 이상의 필터들 각각이 적용될 수 있고, 융합 후보들의 세트 내의 각각의 융합 후보는 하나 이상의 필터들 각각에 대해 평가될 수 있다. 그러나, 다른 구현예들에서, 멀티스테이지 필터링 접근법들이 채용될 수 있다. 그러한 구현예들에서, 하나 이상의 필터들의 제1 세트가 융합 후보 식별 모듈(140)에 의해 식별된 융합 후보들의 초기 세트에 적용된다. 이어서, 하나 이상의 필터들의 제2 세트가, 제1 필터링 스테이지의 적용 후에 남아 있는 필터링된 융합 후보들의 제1 세트에 적용된다. 추가적인 필터링 스테이지들이 또한, 융합 후보들의 최적의 필터링된 세트를 달성하기 위해 필요에 따라 적용될 수 있다.
일부 구현예들에서, 융합 후보 필터링 모듈(150)은 짧은 판독물 서열분석 동안 사용되는 높은 심도들의 커버리지로부터 기인하는 중복 융합 후보들을 처리하기 위해 융합 후보들의 세트를 필터링할 수 있다. 예를 들어, 30x 서열분석으로부터 발생하는 파일업(pileup)이, 융합 후보 식별 모듈(140)이, 중복되는 최대 30개의 융합 후보들을 식별하는 결과를 가져올 수 있다. 융합 후보 필터링 모듈(150)은 중복들을 확인하기 위해 융합 후보들의 특성들에 필터를 적용함으로써 그러한 중복 융합 후보들을 제거할 수 있다. 예를 들어, 융합 후보 필터링 모듈(150)은, 다수의 융합 후보가 동일한 부모 유전자에 정렬되는지, 동일한 또는 유사한 정지점에 걸쳐 있는 표준 게놈의 일부분에 정렬되는지, 또는 이들의 조합인지를 결정할 수 있다. 융합 후보 필터링 모듈(150)이, 동일한 부모 유전자에 정렬되거나, 동일한 또는 유사한 정지점에 걸쳐 있는 표준 게놈의 일부분에 정렬되거나, 또는 이들의 조합인 다수의 융합 후보를 식별하는 경우, 융합 후보 필터링 모듈(150)은 융합 후보들이 중복이라고 결정할 수 있고, 융합 후보들 중 하나의 융합 후보만을 대표 융합 후보로서 선택할 수 있다. 그러한 경우들에 있어서, 동일한 부모 유전자에 정렬되거나, 동일한 또는 유사한 정지점에 걸쳐 있는 표준 게놈의 일부분에 정렬되거나, 또는 이들의 조합인 남아 있는 융합 후보들은 추가 다운스트림 분석 없이 폐기될 수 있다. 이어서, 대표 융합 후보는 메모리 디바이스(120)와 같은 메모리 디바이스 내의 필터링된 융합 후보들의 세트에 추가될 수 있다.
대안적으로 또는 추가적으로, 융합 후보 필터링 모듈(150)은 하나 이상의 규칙 조건들에 기초하여 융합 후보들의 세트를 필터링할 수 있다. 예를 들어, 융합 후보 필터링 모듈(150)은 각각의 융합 후보를 분석할 수 있으며, 융합 후보가 필터링 모듈들(150)에 의해 채용된 하나 이상의 규칙 조건들을 만족시키는 하나 이상의 속성들을 갖는지 여부를 결정할 수 있다. 일부 구현예들에서, 하나 이상의 규칙 조건들은 융합 후보의 각각의 부분의 정렬의 위치, 융합 후보에 의해 걸쳐져 있는 정지점에 대한 정렬의 중첩 거리, 융합 후보의 정렬의 배향, 융합 후보의 판독물 정렬 품질, 융합 후보의 추가적인 맵핑 위치, 또는 이들의 임의의 조합을 포함할 수 있다.
예로서, 하나 이상의 규칙 조건들은 정렬 위치에 기초하여 융합 후보들을 필터링하기 위해 융합 후보 필터링 모듈(150)에 의해 사용될 수 있다. 일부 구현예들에서, 예를 들어, 융합 후보 필터링 모듈(150)은 정렬의 폭(span)이 미리결정된 개수 초과의 뉴클레오타이드들만큼 융합 정지점을 가로지르는 방식으로, 표준 서열에 정렬된 판독물을 갖는 융합 후보들을 필터링하는 규칙 조건을 사용하도록 구성될 수 있다. 일부 구현예들에서, 이러한 규칙 조건의 미리결정된 수의 뉴클레오타이드들은 8개의 뉴클레오타이드들일 수 있다. 대안적으로 또는 추가적으로, 융합 후보 필터링 모듈(150)은 표준 서열 상의 정렬의 폭이 융합 정지점의 미리결정된 임계 수의 뉴클레오타이드들에 이르지 않는 방식으로, 표준 서열에 정렬된 판독물을 갖는 융합 후보들을 필터링하도록 구성될 수 있다. 일부 구현예들에서, 이러한 규칙 조건에 대한 미리결정된 임계 수의 뉴클레오타이드들은 50개의 뉴클레오타이드들일 수 있다. 대안적으로 또는 추가적으로, 융합 후보 필터링 모듈(150)은, 2개의 융합 정지점들에서의 판독물의 정렬된 부분들이 적어도 미리결정된 수의 뉴클레오타이드들을 공유하는 방식으로, 표준 서열에 정렬된 판독물을 갖는 융합 후보들을 필터링하는 규칙 조건을 사용하도록 구성될 수 있다. 일부 구현예들에서, 미리결정된 수의 공유된 뉴클레오타이드는 적어도 8개의 뉴클레오타이드들을 포함할 수 있다.
다른 예로서, 하나 이상의 규칙 조건들은 배향에 기초하여 융합 후보들을 필터링하기 위해 융합 후보 필터링 모듈(150)에 의해 사용될 수 있다. 일부 구현예들에서, 예를 들어, 융합 후보 필터링 모듈(150)은, 부모 유전자들 중 적어도 하나의 유전자의 뉴클레오타이드 서열이 융합 전사체에서 반전됨을 나타내는 정렬의 배향을 갖는 융합 후보들을 필터링하는 규칙 조건을 사용하도록 구성될 수 있다.
다른 예로서, 하나 이상의 규칙 조건들은 맵핑 품질에 기초하여 융합 후보들을 필터링하기 위해 융합 후보 필터링 모듈(150)에 의해 사용될 수 있다. 일부 구현예들에서, 예를 들어, 융합 후보 필터링 모듈(150)은 미리결정된 임계치를 만족시키지 않는 맵핑 품질 스코어를 갖는 판독물 정렬을 갖는 융합 후보들을 필터링하는 규칙 조건을 사용하도록 구성될 수 있다.
다른 예로서, 하나 이상의 규칙 조건들은 추가적인 맵핑 위치들에 기초하여 융합 후보들을 필터링하기 위해 융합 후보 필터링 모듈(150)에 의해 사용될 수 있다. 일부 구현예들에서, 예를 들어, 융합 후보 필터링 모듈(150)은 융합 후보의 판독물의 일부분이 표준 서열의 다수의 위치에 맵핑한다는 결정에 기초하여 융합 후보들을 필터링하는 규칙 조건을 사용하도록 구성될 수 있다. 일부 구현예들에서, 융합 후보 필터링 모듈(150)은 상동 유전자들인 것으로 주석이 달린 위치들을 배제하도록 구성될 수 있다.
하나 이상의 규칙 조건들 각각을 만족시키는 융합 후보들은 메모리 디바이스(120)와 같은 메모리 디바이스 내의 필터링된 융합 후보들의 세트에 추가될 수 있다. 하나 이상의 규칙 조건들 각각을 만족시키지 않는 융합 후보들은 추가 다운스트림 분석 없이 폐기될 수 있다. 일부 구현예들에서, 융합 후보들의 규칙 조건 기반 필터링은 제1 스테이지 중복제거 필터의 적용 후에 제2 스테이지 필터로서 적용될 수 있다. 다른 구현예들에서, 융합 후보들의 규칙 조건 기반 필터링은 필터링의 제1 스테이지로서 적용될 수 있고, 이어서, 중복제거 필터가 제2 스테이지 필터로서 적용될 수 있다. 다른 구현예들에서, 규칙 조건 기반 필터링은 사전의 중복제거 필터링 없이 단일 스테이지 필터로서 적용될 수 있다. 이들 규칙 조건들 중 하나 이상의 규칙 조건들에 기초하여 융합 후보들을 필터링하는 것은, 추가로 다운스트림으로 프로세싱될 필요가 있는 융합 후보들의 수를 상당히 감소시킬 수 있다.
다운스트림 프로세싱은 융합 후보 필터링 모듈(150)에 의해 출력된 융합 후보들의 필터링된 세트 내의 각각의 융합 후보에 대해 수행될 수 있다. 다운스트림 프로세싱은 특징부 세트 생성 모듈(160), 머신 러닝 모델(170), 유전자 융합 결정 모듈(180), 및 출력 API 모듈(190)의 실행을 포함한다. 그러한 다운스트림 프로세싱은 후보 융합 후보가 유효 유전자 융합에 대응하는지 여부를 결정하는 데 사용될 수 있다.
특징부 세트 생성 모듈(160)은 특징부 추출을 수행할 데이터 속성들의 세트를 식별하기 위해 다수의 데이터 소스로부터의 데이터에 의존(draw on)할 수 있다. 이들 데이터 소스들은, (i) 융합 후보의 판독물(들), (ii) 융합 후보의 판독물들이 정렬되었던 표준 서열 위치들의 부분(들), 및 (iii) 특정 유전자 융합 후보가 정렬되었던 표준 게놈의 세그먼트들의 주석들을 포함하는, 융합 후보에 관한, 메모리(120) 내에 저장된 속성 데이터를 포함한다. 일부 구현예들에서, 주석들은 유전자 엑손(exon) 주석들, 상동 유전자들의 존재를 나타내는 주석들, 부화된 유전자(enriched gene)들의 목록을 나타내는 주석들, 또는 이들의 조합을 포함할 수 있다.
특징부 세트 생성 모듈(160)이, 정렬 프로세스 동안에 판독물 정렬 유닛(136)에 의해 생성되는 데이터를 또한 포함할 수 있는 데이터 소스들. 일부 구현예들에서, 특징부 세트 생성 모듈(160)은 융합 후보의 정렬 동안 판독물 정렬 유닛(136)에 의해 생성된 데이터로부터 특징부 데이터를 도출할 수 있다. 예를 들어, 특징부 세트 생성 모듈(160)은, 판독물 정렬 유닛(136)에 의해 생성된 데이터로부터, 변이체 대립유전자 빈도 카운트, 고유 판독물 정렬들의 카운트, 전사체에 걸친 판독물 커버리지, MAPQ 스코어, 부모 유전자들 사이의 상동관계를 나타내는 데이터, 또는 이들의 조합과 같은 정보를 도출할 수 있다.
특징부 세트 생성 모듈(160)은, 다수의 데이터 소스로부터 인출되는 융합 후보의 전술된 속성들 중 하나 이상의 속성을 표현하는 특징부 데이터를 생성하기 위해, 그리고 머신 러닝 모델(170)에의 입력을 위해 특징부 데이터를 하나 이상의 데이터 구조들(162)에 인코딩하기 위해 사용될 수 있다. 예를 들어, 일부 구현예들에서, 융합 후보의 속성들로부터 추출된 특징부들의 전체 세트는 머신 러닝 모듈(170)에 통합시킨 단일 벡터(162)에 인코딩될 수 있다. 예를 들어, 분할-판독물 또는 소프트-클립핑된 정렬들의 시나리오에서, 이들 유형들의 융합 후보들의 속성들로부터 추출된 특징부들 각각은 단일 벡터들(162)에 인코딩될 수 있다.
다른 구현예들에서, 융합 후보들의 속성들로부터 추출되는 특징부 데이터는 다수의 벡터에 인코딩될 수 있다. 그러한 시나리오에서, 입력 벡터(162)는 입력 벡터들(162a, 162b)의 쌍으로 구성될 수 있다. 예를 들어, 분할-판독물 융합 후보의 시나리오에서, 분할-판독물의 프리픽스의 뉴클레오타이드들을 표현하는 특징부, 프리픽스가 정렬하는 표준 서열의 세그먼트를 포현하는 특징부들, 및 프리픽스에 관련한 전술된 속성들로부터 추출된 임의의 다른 특징부들, 또는 이들의 임의의 조합을 포함하는 분할-판독물의 프리픽스에 관련된 속성들로부터 추출된 특징부들 각각은 입력 벡터(162a)에 인코딩될 수 있다. 마찬가지로, 그러한 구현예에서, 분할-판독물의 서픽스의 뉴클레오타이드들을 표현하는 특징부들, 서픽스가 정렬하는 표준 서열의 세그먼트를 표현하는 특징부들, 및 서픽스에 관련한 전술된 속성들로부터 추출된 임의의 다른 특징부들, 또는 이들의 임의의 조합을 포함하는 분할-판독물의 서픽스에 관련된 속성들로부터 추출된 특징부들 각각은 입력 벡터(162b)에 인코딩될 수 있다. 다른 예로서, 부조화 판독물 쌍이 융합 후보로서 식별될 때, 부조화 판독물 쌍의 제1 판독물을 표현하는 추출된 특징부들, 그것이 정렬되었던 표준 서열의 부분을 표현하는 추출된 특징부들, 부조화 판독물 쌍의 제1 판독물에 관련된 속성들로부터 추출된 특징부들, 또는 이들의 임의의 조합이 입력 벡터(162a)에 인코딩될 수 있다. 마찬가지로, 그러한 예에서, 부조화 판독물 쌍의 제2 판독물을 표현하는 추출된 특징부들, 그것이 정렬되었던 표준 서열의 부분을 표현하는 추출된 특징부들, 부조화 판독물 쌍의 제2 판독물에 관련된 속성들로부터 추출된 특징부들, 또는 이들의 임의의 조합이 입력 벡터(162b)에 인코딩될 수 있다.
하나 이상의 벡터(162) 각각은 생성된 특징부 데이터를 수치적으로 표현할 수 있으며, 이때 특징부 데이터는 융합 후보로부터 추출된 특징부들 중 임의의 특징부 또는 융합 후보에 관련된 판독물 정렬 유닛(136)으로부터 수신된 데이터로부터 추출된 특징부들 중 임의의 특징부를 포함하고, 메모리(120)에 저장된다. 예를 들어, 각각의 벡터(162 또는 162a, 162b)는 특정 융합 후보의 특정 판독물의 특정 특징부에 각각 대응하는 복수의 필드를 포함할 수 있다. 특정 융합 후보에 따라, 이것은, 전술된 바와 같이, 하나 이상의 입력 벡터를 생성할 수 있다. 특징부 세트 생성 모듈(160)은 융합 후보의 특정 판독물의 속성들에서 특정 특징부가 표현되었던 범위를 서술하는 필드들 각각에 대한 수치 값을 결정할 수 있다. 필드들 각각에 대한 결정된 수치 값들은 융합 후보의 판독물들의 속성들을 표현하는 생성된 특징부 데이터를 하나 이상의 각자의 벡터(162)에 인코딩하기 위해 사용될 수 있다. 융합 후보의 대응하는 판독물들을 수치적으로 표현하는 생성된 하나 이상의 벡터(162a, 162b)는 머신 러닝 모델(170)에의 입력들로서 제공된다. 일부 구현예들에서, 융합 후보에 대해 다수의 개념적 벡터가 생성된다 하더라도, 다수의 개념적 벡터는 머신 러닝 모델(170) 내에 입력될 수 있는 단일 벡터(162)에 접할 수 있다. 그러한 구현예들에서, 다수의 벡터가 (i) 프리픽스의 특징부들이 제1 벡터에 할당되고 서픽스의 특징부들이 제2 벡터에 할당되는 소정 분할-판독물 구현예들에서, 또는 (ii) 부조화 쌍 구현예들에서 보증되었다면, 단일 벡터의 제1 부분은 개념적 제1 벡터에 대응할 수 있고, 단일 벡터의 제2 부분은 개념적 제2 벡터에 대응할 수 있다.
머신 러닝 모델(170)은 융합 후보의 특징부들을 표현하는 입력된 하나 이상의 입력 벡터(162)의 프로세싱에 기초하여 융합 후보가 유효 유전자 융합에 대응할 가능성을 생성하도록 트레이닝된 심층 신경 네트워크를 포함할 수 있다. 유효 유전자 융합은 하나의 부모 유전자의 프리픽스를 다른 부모 유전자의 서픽스와 연결하는 게놈에서의 재배열로 인해 다수의 유전자로부터의 서열을 포함하는 키메라 전사체(chimeric transcript)이다. 본 발명과 관련하여, 예를 들어 머신 러닝 모델에 의해 생성된 출력 데이터(178)가 미리결정된 임계치를 만족시키는 경우, 유효 유전자 융합이 모델(170)에 의해 예측된 것으로 결정될 것이다. 머신 러닝 모델(170)은 입력 데이터를 수신하기 위한 입력 층(172), 입력 층(172)을 통해 수신된 입력 데이터를 프로세싱하기 위한 하나 이상의 은닉 층들(174a, 174b, 174c), 및 출력 데이터(178)를 제공하기 위한 출력 층(176)을 포함할 수 있다. 각각의 은닉 층(174a, 174b, 174c)은 하나 이상의 가중치들 또는 다른 파라미터들을 포함한다. 각자의 은닉 층(174a, 174b, 174c) 각각의 가중치들 또는 다른 파라미터들은 트레이닝 동안 조정되어, 트레이닝된 심층 신경 네트워크가, 머신 러닝 모델(170)이 하나 이상의 입력 벡터(162)을 프로세싱하는 것에 기초하여 하나 이상의 입력 벡터(162)이 유효 유전자 융합을 표현할 가능성을 나타내는 원하는 타깃 출력(178)을 생성하도록 할 수 있다.
머신 러닝 모델(170)은 다수의 상이한 방식으로 트레이닝될 수 있다. 일 구현예에서, 머신 러닝 모델(170)은, (i) 유효 융합 후보들의 속성들로부터 추출된 특징부들을 표현하는 하나 이상의 입력 벡터과 (ii) 무효 융합 후보들의 속성들로부터 추출된 특징부들을 표현하는 하나 이상의 입력 벡터 사이를 구별하도록 트레이닝될 수 있다. 일부 구현예들에서, 그러한 트레이닝은 트레이닝 벡터들의 라벨링된 쌍들을 사용하여 달성될 수 있다. 각각의 트레이닝 벡터는 트레이닝 융합 후보를 표현할 수 있고, 상기의 하나 이상의 입력 벡터(162)과 동일한 유형들의 특징부 데이터로 구성될 수 있다. 그러한 구현예들에서, 융합 후보들의 속성들로부터 추출된 특징부들을 표현하는 하나 이상의 입력 벡터(162)은 유효 유전자 융합 또는 무효 유전자 융합인 것으로 라벨링될 수 있다. 일부 구현예들에서, 유효 유전자 융합 라벨 또는 무효 유전자 융합 라벨은 수치 값으로 표현될 수 있다. 예를 들어, 일부 구현예들에서, 유효 유전자 융합 라벨은 "1"일 수 있고, 무효 유전자 융합 라벨은 "0"일 수 있다. 다른 구현예들에서, 예를 들어, 유효 유전자 융합 라벨은 미리결정된 임계치를 만족시키는 "0"과 "1" 사이의 숫자일 수 있고, 무효 유전자 융합 라벨은 미리결정된 임계치를 만족시키지 않는 "0"과 1 "사이의 숫자일 수 있다. 그러한 구현예들에서, 숫자가 미리결정된 임계치를 만족시키거나 만족시키지 않게 되는 크기는, 입력 벡터들의 트레이닝 쌍이 유효 유전자 융합 또는 무효 유전자 융합을 표현하는 신뢰의 레벨의 표시이다. 일부 구현예들에서, 미리결정된 임계치를 만족시키는 것은 미리결정된 임계치를 초과하는 것을 포함할 수 있다. 그러나, 구현예들은 또한, 임계치를 만족시키는 것이 미리결정된 임계치를 초과하지 않는 것을 의미하도록 구성될 수 있다. 그러한 구현예들은, 예를 들어, 비교기 및 파라미터들 둘 모두가 부정되었던 구현예들을 포함할 수 있다.
트레이닝 동안, 하나 이상의 트레이닝 벡터들의 각각의 라벨링된 세트가 머신 러닝 모델(170)에의 입력으로서 제공되어, 머신 러닝 모델(170)에 의해 프로세싱되며, 이어서, 머신 러닝 모델(170)에 의해 생성된 트레이닝 출력은 하나 이상의 트레이닝 벡터들의 각각의 라벨링된 세트에 대한 예측된 라벨을 결정하는 데 사용된다. 트레이닝 융합 후보에 대한 판독물들의 쌍에 대응하는 라벨링된 하나 이상의 트레이닝 벡터들에 대한 머신 러닝 모델의 프로세싱에 기초하여 머신 러닝 모델(170)에 의해 생성된 예측된 라벨은 트레이닝 융합 후보에 대한 하나 이상의 판독물들(또는 판독 부분들)에 대응하는 하나 이상의 트레이닝 벡터들에 대한 트레이닝 라벨과 비교될 수 있다. 이어서, 머신 러닝 모델(170)의 파라미터들은 예측된 라벨들과 트레이닝 라벨들 사이의 차이들에 기초하여 조정될 수 있다. 이러한 프로세스는, 트레이닝 융합 후보에 대응하는 하나 이상의 트레이닝 벡터들의 세트의 프로세싱에 기초하여 머신 러닝 모델(170)에 의해 생성된 예측된 융합 후보 라벨들이, 미리결정된 레벨의 에러 내에서, 각자의 트레이닝 융합 후보에 대응하는 하나 이상의 트레이닝 벡터들의 세트의 트레이닝 라벨들과 매칭될 때까지, 각자의 트레이닝 융합 후보에 대응하는 복수의 라벨링된 트레이닝 벡터(들) 각각에 대해 반복적으로 계속될 수 있다.
일부 구현예들에서, 라벨링된 트레이닝 융합 후보들은 하나 이상의 인간 사용자들에 의해 검토되고 라벨링된 트레이닝 융합 후보들의 라이브러리로부터 획득될 수 있다. 그러나, 다른 구현예들에서, 라벨링된 트레이닝 융합 후보들은 시뮬레이터에 의해 생성되고 라벨링된 트레이닝 융합 후보를 포함할 수 있다. 그러한 구현예들에서, 시뮬레이터는 머신 러닝 모델(170)을 트레이닝시키는 데 사용될 수 있는 상이한 카테고리들의 트레이닝 융합 후보들의 분포들을 생성하는 데 사용될 수 있다. 대체적으로, 런타임 머신 러닝 모델(170)이 단일 입력 벡터(162)를 수용해야 하고, 이때 융합 후보에 대한 추출된 특징부 각각이 단일 입력 벡터(162)에 인코딩되는 경우, 머신 러닝 모델(170)은 상기의 트레이닝 프로세스를 사용하여 입력 벡터(162)와 동일한 특징부들의 단일 입력 벡터를 사용하여 트레이닝될 것이다. 마찬가지로, 런타임 머신 러닝 모듈(170)이, 전술된 바와 같이, 2개의 트레이닝 벡터들(162a, 162b)을 수용해야 하는 경우, 머신 러닝 모델(170)은, 각각이 상기의 입력 벡터들(162a, 162b)의 동일한 대응하는 특징부들을 갖는 2개의 입력 벡터들을 사용하여 트레이닝될 것이다. 즉, 런타임 시에 프로세싱될 입력 벡터들의 유형은 전술된 트레이닝 프로세스를 사용하여, 모델(170)을 트레이닝시키는 데 사용될 동일한 시간의 벡터들이다.
융합 후보의 속성들로부터 추출된 특징부들에 대응하는 입력 데이터(162)의 프로세싱 동안, 각각의 은닉 층(174a, 174b, 174c)의 출력은 활성화 벡터를 포함할 수 있다. 각자의 은닉 층 각각에 의해 출력된 활성화 벡터는 심층 신경 네트워크의 후속 층들을 통해 전파될 수 있고, 출력 데이터(178)를 생성하기 위해 출력 층에 의해 사용될 수 있다. 도 1의 예에서, 머신 러닝 모델(170)은, 각각이 융합 후보의 판독물들 중 하나의 판독물에 대응하는 별개의 입력 벡터들(162a, 162b)의 머신 러닝 모델 프로세싱에 기초하여 머신 러닝 모델(170)에 의해 생성된 조합된 스코어를 표현하는 출력 데이터(178)를 생성하도록 트레이닝된다. 이러한 조합된 스코어(178)는 궁극적으로, 최종 은닉 층(174c)으로부터의 수신된 활성화 벡터에 대해 트레이닝된 머신 러닝 모델(170)의 출력 층(176)에 의해 수행되는 계산들에 기초하여 트레이닝된 머신 러닝 모델의 출력 층(176)에 의해 생성된다.
트레이닝된 머신 러닝 모델(170)에 의해 생성된 출력 데이터(178)는, 그것이, 하나 이상의 입력 벡터(162)에 대응하는 융합 후보가 유효 융합 후보임을 나타내는지 여부를 결정하기 위해 유전자 융합 결정 모듈(180)에 의해 평가될 수 있다. 일부 구현예들에서, 출력 데이터(178)는 트레이닝된 머신 러닝 모델(170)에 의해 유전자 융합 결정 모듈(180)에 제공될 수 있다. 다른 구현예들에서, 시스템(100)은 유전자 융합 결정 모듈(180)에 의한 후속 액세스를 위해, 트레이닝된 머신 러닝 모델(170)의 출력(178)을 메모리 디바이스(120)와 같은 메모리 디바이스에 저장할 수 있다.
유전자 융합 결정 모듈(180)은 머신 러닝 모델(170)에 의해 생성된 출력 데이터(178)를 획득할 수 있고, 출력 데이터(178)를 평가하여, 출력 데이터(178)에 기초하여, 입력 벡터들(162a, 162b)의 쌍(162)에 대응하는 융합 후보가 유효 유전자 융합인지 여부를 결정할 수 있다. 일부 구현예들에서, 유전자 융합 결정 모듈(180)은 머신 러닝 모델에 의해 생성된 출력 데이터(178)를 미리결정된 임계치와 비교함으로써, 하나 이상의 입력 벡터(162)에 대응하는 융합 후보가 유효 유전자 융합인지 여부를 결정할 수 있다. 유전자 융합 결정 모듈(180)이, 출력 데이터(178)가 미리결정된 임계치를 만족시킨다고 결정하는 경우, 유전자 융합 결정 모듈(180)은 하나 이상의 입력 벡터(162)에 대응하는 융합 후보가 유효 유전자 융합이라고 결정할 수 있다. 대안적으로, 유전자 융합 결정 모듈(180)이, 출력 데이터(178)가 미리결정된 임계치를 만족시키지 않는다고 결정하는 경우, 유전자 융합 결정 모듈(180)은 하나 이상의 입력 벡터(162)에 대응하는 융합 후보가 유효 유전자 융합이 아니라고 결정할 수 있다.
일부 구현예들에서, 유전자 융합 결정 모듈(180)은 머신 러닝 모델(170)에 의해 생성된 출력 데이터(178)의 유전자 융합 결정 모듈(180)의 평가에 기초하여 유전자 융합 결정 모듈(180)에 의해 이루어진 결정의 결과들을 나타내는 출력 데이터(182)를 생성할 수 있다. 이러한 출력 데이터(182)는 하나 이상의 입력 벡터(162)에 대응하는 유전자 융합 후보를 식별하는 데이터, 및 유전자 융합 결정 모듈(180)의 결정을 식별하는 데이터를 포함할 수 있다. 유전자 융합 결정 모듈(180)의 결정을 식별하는 데이터는 하나 이상의 입력 벡터(162)에 대응하는 유전자 융합 후보가 유효 유전자 융합인지 또는 무효 유전자 융합인지를 나타내는 데이터를 포함할 수 있다. 일부 구현예들에서, 출력 데이터(182)는 단지, 출력 데이터(178)에 기초하여 식별된 유효 유전자 융합들의 목록, 출력 데이터(178)에 기초하여 식별된 무효 유전자 융합들의 목록, 어떠한 유효 유전자 융합들도 식별되지 않았음을 나타내는 데이터, 또는 이들의 임의의 조합만을 나타낼 수 있다. 일부 구현예들에서, 이러한 출력 데이터(182)는 다른 컴퓨팅 모듈에 의한 후속 사용을 위해, 사용자 디바이스로의 후속 출력을 위해, 등을 위해 메모리(182)에 저장될 수 있다.
대안적으로 또는 추가적으로, 유전자 융합 결정 모듈(180)은 출력 애플리케이션 프로그래밍 인터페이스(API) 모듈(190)에 입력으로서 제공될 수 있는 출력 데이터(184)를 생성할 수 있다. 출력 데이터(184)는, 출력 디스플레이가, 하나 이상의 입력 벡터(162)에 대응하는 유전자 융합 후보가 유효 유전자 융합인지 또는 무효 유전자 융합인지를 나타내는 출력을 디스플레이하게 할 것을 출력 API에 명령할 수 있다. 일부 구현예들에서, 명령들은, 출력 API 모듈(190)이, 메모리 디바이스(120)에 저장된 출력 데이터(182)에 액세스하게, 그리고 출력 디스플레이(195)에 커플링된 컴퓨팅 디바이스에 의해 렌더링될 때, 출력 디스플레이(195)가 (i) 하나 이상의 입력 벡터(162)에 대응하는 융합 후보를 식별하는 데이터 및 (ii) 식별된 융합 후보가 유효 유전자 융합인지 또는 무효 유전자 융합인지를 나타내는 데이터를 디스플레이하게 하는 렌더링 데이터를 생성하게 할 수 있다. 이것은, 출력 디스플레이(195)가, 메모리(184)에 저장된 출력 데이터(182) 중 임의의 출력 데이터를 디스플레이하게 하는 것을 포함할 수 있다. 일부 구현예들에서, 이러한 출력은 리포트의 형태로 디스플레이될 수 있다.
일부 구현예들에서, 유전자 융합 결정 모듈(180)은 유전자 융합 후보들의 필터링된 세트의 각각의 융합 후보에 대해 수행되는 다운스트림 프로세싱의 수행에 기초하여 각각의 유전자 융합 후보에 대한 출력 데이터(182)를 메모리 디바이스(120)에 저장한다. 그러한 구현예들에서, 유전자 융합 결정 모듈(180)은, 일단 각각의 융합 후보의 다운스트림 프로세싱이 완료되면, 유전자 융합 후보들의 필터링된 세트의 각각의 융합 후보마다 메모리(120)에 저장된 유전자 융합 분석의 결과들을 출력할 것을 출력 API 모듈(190)에만 명령할 수 있다. 그러한 시나리오에서, 출력 디스플레이(195) 상에서의 디스플레이를 위해 제공되는 출력(192)은 유효 유전자 융합의 목록, 무효 유전자 융합들의 목록, 또는 둘 모두를 포함할 것이다. 다른 구현예들에서, 유전자 융합 결정 모듈(180)은, 그 특정 융합 후보에 대한 다운스트림 프로세싱의 완료 시에, 출력 API 모듈(190)이, 만약에 있다면, 식별된 유전자 융합들의 목록을 나타내는 결과 데이터를 출력하게 할 수 있다.
다른 유형들의 출력(192)이 출력 API 모듈(190)에 의해 제공될 수 있다. 예를 들어, 일부 구현예들에서, 출력(192)은, 프린터와 같은 다른 디바이스가, (i) 하나 이상의 벡터(162)에 대응하는 융합 후보를 식별하는 데이터 및 (ii) 식별된 융합 후보가 유효 유전자인지 여부를 나타내는 데이터를 포함하는 리포트를 출력하게 하는 데이터일 수 있다. 다른 구현예들에서, 이러한 출력 데이터(192)는, 스피커가, (i) 하나 이상의 벡터(162)에 대응하는 융합 후보를 식별하는 데이터 및 (ii) 식별된 융합 후보가 유효 유전자인지 여부를 나타내는 데이터를 포함하는 오디오 데이터를 출력하게 할 수 있다. 다른 유형들의 출력 데이터가 또한, 출력 API 모듈(190)에 의해 트리거될 수 있다.
일부 구현예들에서, 출력 디스플레이(195)는 서열분석 디바이스(110)의 디스플레이 패널일 수 있다. 다른 구현예들에서, 출력 디스플레이(195)는 하나 이상의 네트워크들을 사용하여 서열분석 디바이스(110)에 접속되는 사용자 디바이스의 디스플레이 패널일 수 있다. 실제로, 서열분석 디바이스(110)는 출력 데이터(192)를, 임의의 디스플레이를 갖는 임의의 디바이스로 전달하는 데 사용될 수 있다.
도 2는 유효 유전자 융합들의 신속한 검출을 수행하기 위한 프로세스(200)의 일례의 흐름도이다. 시스템(100)과 같은 시스템은, 하나 이상의 컴퓨터를 사용하여 판독물 정렬 유닛(210)으로부터 복수의 정렬된 판독물을 표현하는 제1 데이터를 획득함으로써 프로세스(200)의 실행을 시작할 수 있다. 시스템은 획득된 제1 데이터 내에 포함된 복수의 유전자 융합 후보를 식별할 수 있다(220). 시스템은 복수의 유전자 융합 후보를 필터링하여 유전자 융합 후보들의 필터링된 세트를 결정할 수 있다(230).
시스템은 유전자 융합 후보들의 필터링된 세트의 특정 유전자 융합 후보를 획득할 수 있다(240). 시스템은 머신 러닝 모델에의 입력을 위한 입력 데이터를 생성할 수 있으며, 여기서 입력 데이터를 생성하는 것은 (i) 판독물 정렬 유닛에 의해 특정 유전자 융합 후보가 정렬되었던 표준 서열의 하나 이상의 세그먼트들, 및 (ii) 판독물 정렬 유닛의 출력에 기초하여 생성된 데이터를 포함하는 데이터로부터 특정 유전자 융합 후보를 표현하기 위해 특징부 데이터를 추출하는 것을 포함한다(250).
시스템은 생성된 입력 데이터를 머신 러닝 모델에의 입력으로서 제공할 수 있으며, 여기서 머신 러닝 모델은, (i) 판독물 정렬 유닛에 의해 특정 유전자 융합 후보가 정렬되었던 표준 게놈의 세그먼트들, 및 (ii) 판독물 정렬 유닛의 출력에 기초하여 생성된 데이터를 표현하는 입력 데이터를 프로세싱하는 머신 러닝 모델에 기초하여 유전자 융합 후보가 유효 유전자 융합일 가능성을 표현하는 출력 데이터를 생성하도록 트레이닝되었다(260). 시스템은 입력 데이터를 프로세싱하는 머신 러닝 모델에 기초하여 머신 러닝 모델에 의해 생성된 출력 데이터를 획득할 수 있다(270). 시스템은 출력 데이터에 기초하여 특정 융합 후보가 유효 유전자 융합 후보에 대응하는지 여부를 결정할 수 있다(280).
스테이지(280)의 완료 시에, 시스템은 융합 후보들의 필터링된 세트의 다른 융합 후보가 평가되어야 하는지 여부를 결정할 수 있다(290). 시스템이, 평가되어야 하는 융합 후보들의 필터링된 세트의 다른 융합 후보가 있다고 결정하는 경우, 시스템은 스테이지(240)에서 프로세스(200)의 실행을 계속할 수 있다. 대안적으로, 시스템이, 평가되어야 하는 융합 후보들의 필터링된 세트의 다른 융합 후보가 없다고 결정하는 경우, 시스템은 스테이지(295)에서 프로세스의 실행을 종료할 수 있다. 융합 후보들의 세트의 세트가 고갈되지 않았다면, 융합 후보들의 필터링된 세트 내에 다른 융합 후보가 존재할 수 있다.
도 3은 유효 유전자 융합들의 신속한 검출을 위한 시스템(300)의 다른 예의 블록도이다. 시스템(300)은, 시스템(300)이 서열분석 디바이스(110)를 사용하여 RNA(또는 DNA) 서열 판독물들(112)을 생성하고, 2차 분석 유닛(130)을 사용하여 RNA 서열 판독물들(112)을 표준 서열에 정렬시키고, 융합 후보 식별 모듈(140)을 사용하여 융합 후보들을 식별하고, 융합 후보 필터링 모듈(150)을 사용하여 다운스트림 분석을 위한 융합 후보들의 필터링된 세트를 결정하고, 이어서, 융합 후보들의 필터링된 세트의 다운스트림 분석을 수행하여, 특징부 세트 생성 모듈(160), 머신 러닝 모델(170), 유전자 융합 결정 모듈(190), 및 출력 API 모듈(190)을 사용하여 유효 유전자 융합들을 식별한다는 점에서 시스템(100)과 동일한 기능들을 수행한다. 이들 기능 유닛들, 모듈들, 또는 모델 각각은 도 1의 시스템(100)의 설명에서 그것들에 기인했던 것과 동일한 기능들을 수행한다.
시스템(300)과 시스템(100) 사이의 차이는, 융합 후보들의 필터링된 세트의 융합 후보 식별, 융합 후보 필터링, 및 다운스트림 분석이 서열분석 디바이스(110) 내에서가 아니라 상이한 컴퓨터(320) 상에서 수행된다는 것이다. 따라서, 시스템(300)과 시스템(100) 사이의 차이들은, 컴퓨터(320)에 의해 패키징되지 않은 네트워크(310)를 사용하여 유전자 융합 분석을 위해 정렬된 판독물들이 패킹되고 컴퓨터(320)에 통신되는 방법, 및 유전자 융합 결과들이 패키징되고, 출력을 위한 대응하는 디스플레이를 갖는 다른 디바이스로 송신되는 방법에 있다.
보다 상세하게는, 서열분석 디바이스(110)는 생물학적 샘플(105)을 서열분석할 수 있고, RNA 판독물들(112-1, 112-2, 112-n)을 생성할 수 있으며, 여기서 "n"은 시스템(100)을 참조하여 기술된 바와 같이 0 초과의 임의의 양의 정수이다. RNA 판독물들이 일례로서 사용되고 있지만, 시스템은 또한 DNA 판독물들에 대해 동일한 프로세스들을 수행할 수 있다. 서열분석 디바이스(110)는 메모리(120)에 판독물들(112-1, 112-2, 112-n)을 저장할 수 있다. 일부 구현예들에서, 판독물들(112-1, 112-2, 112-n)은 압축된 포맷의 것일 수 있다.
2차 분석 유닛(130)은 판독물들(112-1, 112-2, 112-n)을 획득할 수 있고, 판독물들(112-1, 112-2, 112-n)을 2차 분석 유닛(130)의 메모리(132)에 저장할 수 있다. 일부 구현예들에서, 이것은 서열분석 디바이스(110)의 제어 프로그램이 판독물들(112-1, 112-2, 112-n)을 2차 분석 유닛(130)의 메모리(132) 내로 스트리밍하는 것을 포함할 수 있다. 다른 구현예들에서, 2차 분석 유닛(130)은 판독물들(112-1, 112-2, 112-n)을 요청할 수 있다. 판독물들(112-1, 112-2, 112-n)이 압축되는 경우, 2차 분석 유닛(130)의 프로그래밍가능 로직 디바이스(134)는 압축해제 유닛(138)으로서 상태 B로 구성될 수 있고, 판독물들(112-1, 112-2, 112-n)을 압축해제하는 데 사용될 수 있다. 이어서, 프로그래밍가능 로직 디바이스(134)는 판독물 정렬 유닛으로서 상태 A로 재구성될 수 있고, 판독물들(112-1, 112-2, 112-n)을 표준 서열에 정렬시키는 데 사용될 수 있다.
2차 분석 유닛(130)은 압축 유닛으로서 상태 B로 다시 재구성될 수 있고, 압축 유닛을 사용하여 정렬된 판독물들을 압축하여 컴퓨터(320)로의 송신을 위해 정렬된 판독물들을 준비할 수 있다. 이러한 예에서, 정렬된 판독물들의 제1 배치의 압축은, 정렬된 판독물들뿐만 아니라, 유전자 융합 분석에 사용될 정렬된 판독물들에 관련된 판독물 정렬 유닛(136)에 의해 생성된 데이터도 압축하는 것을 포함한다. 이러한 데이터는 도 1의 시스템(100)을 참조하여 기술되며, 예를 들어, 변이체 대립유전자 빈도 카운트, 고유 판독물 정렬들의 카운트, 전사체에 걸친 판독물 커버리지, MAPQ 스코어, 부모 유전자들 사이의 상동관계를 나타내는 데이터, 또는 이들의 조합을 포함할 수 있다. 또한, 정렬된 판독물들의 제1 배치에 압축될 수 있는 다른 데이터는, (i) 융합 후보의 판독물들, (ii) 융합 후보의 판독물들이 정렬되었던 표준 서열 위치들의 부분, 및 (iii) 특정 유전자 융합 후보가 정렬되었던 표준 게놈의 세그먼트들의 주석들을 포함할 수 있다. 일부 구현예들에서, 주석들은 유전자 엑손 주석들, 상동 유전자들의 존재를 나타내는 주석들, 부화된 유전자들의 목록을 나타내는 주석들, 또는 이들의 조합을 포함할 수 있다.
정렬된 판독물들을 압축한 후에, 2차 분석 유닛(130)은 압축된 판독물들의 제1 배치를 메모리(120)에 저장할 수 있다. 이어서, 서열분석 디바이스(110)는 정렬된 판독물들의 제1 배치(125)를 유전자 융합 분석을 위해 네트워크(310)를 가로질러 컴퓨터(320)로 송신할 수 있다. 네트워크(310)는 하나 이상의 유선 네트워크들, 하나 이상의 무선 네트워크들, 또는 이들의 조합을 포함할 수 있다. 상이한 구현예들에서, 네트워크(310)는 유선 이더넷, 유선 광네트워크, LAN, WAN, 셀룰러 네트워크, 인터넷, 또는 이들의 조합 중 하나 이상일 수 있다. 일부 구현예들에서, 컴퓨터(320)는 원격 클라우드 서버일 수 있다. 그러나, 다른 구현예들에서, 컴퓨터(320)는 직접 이더넷 접속, USB-C 접속 등과 같은 직접 접속을 통해 서열분석 디바이스(110)에 접속될 수 있다. 도 300의 이러한 예에서 통신 전에 판독물들의 제1 배치가 압축되지만, 압축이 사용되어야 하는 어떠한 요건도 없다. 그 대신, 네트워크 대역폭의 소모를 감소시키고 저장 비용들을 최소화시키기 위한 방법으로서 압축이 제공되며, 이는 게놈들의 큰 데이터 크기들을 다룰 때 상당한 기술적 이득들 및 감소된 비용들을 제공할 수 있다.
일부 구현예들에서, 정렬된 판독물들의 제1 배치는 샘플(105)에 대해 생성된 판독물들의 전체 세트를 포함한다. 다른 구현예들에서, 정렬된 판독물들의 제1 배치는 샘플(105)에 대해 생성된 판독물들의 전체 세트의 일부분일 뿐이고, 병렬 프로세싱을 용이하게 하기 위해 배치 프로세싱 시스템이 사용될 수 있다. 예를 들어, 일부 구현예들에서, 2차 분석 유닛이 정렬된 판독물들의 제1 배치를 메모리(120)에 저장한 후에, 2차 분석 유닛(130)은 메모리(132)에 저장하기 위해 아직 정렬되지 않은 판독물들의 제2 배치를 획득한다. 이어서, 2차 분석 유닛(130)은, 판독물들의 제2 배치가 압축된 경우에 압축해제를 수행할 수 있고, 컴퓨터(320)가 판독물들의 제1 배치의 유전자 융합 분석을 수행하고 있는 동안에 판독물들의 제2 배치의 정렬을 수행할 수 있다. 판독물들의 배치 프로세싱을 통해 용이하게 되는 그러한 병렬 프로세싱은 샘플(105)의 판독물들에 대한 유효 유전자 융합들을 결정하기 위해 필요한 시스템(300)의 런타임을 상당히 감소시킬 수 있다.
컴퓨터(320)는 네트워크(310)를 통해 판독물들(125)의 제1 배치를 수신할 수 있고, 판독물들의 제1 배치를 메모리(320)에 저장할 수 있다. 판독물들(125)의 제1 배치가 압축되는 경우, 컴퓨터(320)는 압축/압축해제 모듈(325)을 사용하여, 판독물들의 제1 배치를 압축해제하고 판독물들의 제1 배치를 메모리(320)에 저장할 수 있다. 이어서, 컴퓨터(320)는 도 1의 시스템(100)을 참조하여 기술된 것과 동일한 방식으로, 융합 후보 식별 모듈(140), 융합 후보 필터링 모듈(150), 특징부 세트 생성 모듈(160), 머신 러닝 모델(170), 유전자 융합 결정 모듈(180), 및 출력 API 모듈(190)의 유전자 융합 분석 파이프라인을 실행할 수 있다.
출력(192)은 네트워크(310)를 통해 다수의 상이한 디바이스에 제공될 수 있다. 예로서, 출력 데이터는 서열분석기의 디스플레이(195) 상에서의 출력을 위해 서열분석 디바이스로 송신될 수 있다. 대안적으로 또는 추가적으로, 출력(192)은 네트워크(310)를 통해 사용자 디바이스(330)의 디스플레이 상에서의 디스플레이를 위해 제공될 수 있다. 사용자 디바이스(330)는 스마트폰, 태블릿 컴퓨터, 랩톱 컴퓨터, 데스크톱 컴퓨터, 또는 디스플레이를 갖는 임의의 다른 컴퓨터를 포함할 수 있다. 대안적으로 또는 추가적으로, 출력(192)은 또한, 네트워크(310)를 통해 프린터(340)를 통한 출력을 위해 제공될 수 있다. 그러한 구현예들에서, 출력은 결정된 유효 유전자 융합들의 하드카피 리포트일 수 있다.
도 4는 유전자 융합들의 신속한 검출을 위한 시스템을 구현하는 데 사용될 수 있는 시스템 컴포넌트들의 블록도이다.
컴퓨팅 디바이스(400)는 랩톱, 데스크톱, 워크스테이션, 개인 휴대 정보 단말기, 서버, 블레이드 서버, 메인프레임, 및 다른 적합한 컴퓨터와 같은 다양한 형태들의 디지털 컴퓨터들을 나타내도록 의도된다. 컴퓨팅 디바이스(450)는 개인 휴대 정보 단말기, 셀룰러 전화, 스마트폰, 및 다른 유사한 컴퓨팅 디바이스들과 같은 다양한 형태들의 모바일 디바이스들을 나타내도록 의도된다. 추가적으로, 컴퓨팅 디바이스(400 또는 450)는 범용 직렬 버스(Universal Serial Bus, USB) 플래시 드라이브들을 포함할 수 있다. USB 플래시 드라이브들은 운영 체제들 및 다른 애플리케이션들을 저장할 수 있다. USB 플래시 드라이브들은 다른 컴퓨팅 디바이스의 USB 포트 내로 삽입될 수 있는 무선 송신기 또는 USB 커넥터와 같은 입력/출력 컴포넌트들을 포함할 수 있다. 본 명세서에 도시된 컴포넌트들, 그들의 접속들 및 관계들, 및 그들의 기능들은 단지 예들일 뿐이며, 본 명세서에서 설명되고/되거나 청구되는 본 발명들의 구현예들을 제한하고자 하는 것은 아니다.
컴퓨팅 디바이스(400)는 프로세서(402), 메모리(404), 저장 디바이스(406), 메모리(404) 및 고속 확장 포트들(410)에 접속되는 고속 인터페이스(408), 및 저속 버스(414) 및 저장 디바이스(408)에 접속되는 저속 인터페이스(412)를 포함한다. 컴포넌트들(402, 404, 406, 408, 410, 412) 각각은 다양한 버스들을 사용하여 상호접속되고, 공통 마더보드 상에 또는 적합한 다른 방식으로 장착될 수 있다. 프로세서(402)는, 고속 인터페이스(408)에 커플링된 디스플레이(416)와 같은 외부 입력/출력 디바이스 상에 GUI에 대한 그래픽 정보를 디스플레이하기 위해 메모리(404) 내에 또는 저장 디바이스(408) 상에 저장된 명령들을 포함하는, 컴퓨팅 디바이스(400) 내의 실행을 위한 명령들을 프로세싱할 수 있다. 다른 구현예들에서, 다수의 프로세서 및/또는 다수의 버스가 다수의 메모리 및 메모리의 유형들과 함께 적절하게 사용될 수 있다. 또한, 다수의 컴퓨팅 디바이스(400)가 접속될 수 있는데, 이때 각각의 디바이스는, 예컨대 서버 뱅크, 블레이드 서버들의 그룹, 또는 멀티-프로세서 시스템으로서, 필요한 동작들의 부분들을 제공한다.
메모리(404)는 컴퓨팅 디바이스(400) 내에 정보를 저장한다. 일 구현예에서, 메모리(404)는 휘발성 메모리 유닛 또는 유닛들이다. 다른 구현예에서, 메모리(404)는 비휘발성 메모리 유닛 또는 유닛들이다. 메모리(404)는 또한, 자기 또는 광 디스크와 같은 다른 형태의 컴퓨터 판독가능 매체일 수 있다.
저장 디바이스(408)는 컴퓨팅 디바이스(400)를 위한 대용량 저장소를 제공할 수 있다. 일 구현예에서, 저장 디바이스(408)는 컴퓨터 판독가능 매체, 예컨대 플로피 디스크 디바이스, 하드 디스크 디바이스, 광 디스크 디바이스, 또는 테이프 디바이스, 플래시 메모리 또는 다른 유사한 솔리드 스테이트 메모리 디바이스, 또는 저장 영역 네트워크 내의 디바이스들 또는 다른 구성들을 포함하는 디바이스들의 어레이일 수 있거나 이들을 포함할 수 있다. 컴퓨터 프로그램 제품이 정보 캐리어 내에 유형적으로 구현될 수 있다. 컴퓨터 프로그램 제품은 또한, 실행될 때 전술된 것들과 같은 하나 이상의 방법들을 수행하는 명령들을 포함할 수 있다. 정보 캐리어는 메모리(404), 저장 디바이스(408), 또는 프로세서(402) 상의 메모리와 같은 컴퓨터 또는 머신 판독가능 매체이다.
고속 제어기(408)는 컴퓨팅 디바이스(400)에 대한 대역폭 집약적 동작들을 관리하는 한편, 저속 제어기(412)는 더 낮은 대역폭 집약적 동작들을 관리한다. 기능들의 그러한 할당은 단지 일례이다. 일 구현예에서, 고속 제어기(408)는, 예컨대 그래픽 프로세서 또는 가속기를 통해 메모리(404), 디스플레이(416)에, 그리고 다양한 확장 카드들(도시되지 않음)을 수용할 수 있는 고속 확장 포트들(410)에 커플링된다. 그러한 구현예에서, 저속 제어기(412)는 저장 디바이스(408) 및 저속 확장 포트(414)에 커플링된다. 다양한 통신 포트들, 예컨대 USB, 블루투스, 이더넷, 무선 이더넷을 포함할 수 있는 저속 확장 포트는 하나 이상의 입력/출력 디바이스들, 예컨대 키보드, 포인팅 디바이스, 마이크로폰/스피커 쌍, 스캐너, 또는 스위치나 라우터와 같은 네트워킹 디바이스에, 예를 들어 네트워크 어댑터를 통해 커플링될 수 있다. 컴퓨팅 디바이스(400)는, 도면에 도시된 바와 같이, 다수의 상이한 형태로 구현될 수 있다. 예를 들어, 그것은 표준 서버(420)로서, 또는 그러한 서버들의 그룹으로 다수회 구현될 수 있다. 그것은 또한 랙 서버 시스템(424)의 일부로서 구현될 수 있다. 더욱이, 그것은 랩톱 컴퓨터(422)와 같은 개인용 컴퓨터에서 구현될 수 있다. 대안적으로, 컴퓨팅 디바이스(400)로부터의 컴포넌트들은 디바이스(450)와 같은 모바일 디바이스(도시되지 않음) 내의 다른 컴포넌트들과 조합될 수 있다. 그러한 디바이스들 각각은 컴퓨팅 디바이스(400, 450) 중 하나 이상을 포함할 수 있고, 전체 시스템은 서로 통신하는 다수의 컴퓨팅 디바이스(400, 450)로 구성될 수 있다.
컴퓨팅 디바이스(400)는, 도면에 도시된 바와 같이, 다수의 상이한 형태로 구현될 수 있다. 예를 들어, 그것은 표준 서버(420)로서, 또는 그러한 서버들의 그룹으로 다수회 구현될 수 있다. 그것은 또한 랙 서버 시스템(424)의 일부로서 구현될 수 있다. 더욱이, 그것은 랩톱 컴퓨터(422)와 같은 개인용 컴퓨터에서 구현될 수 있다. 대안적으로, 컴퓨팅 디바이스(400)로부터의 컴포넌트들은 디바이스(450)와 같은 모바일 디바이스(도시되지 않음) 내의 다른 컴포넌트들과 조합될 수 있다. 그러한 디바이스들 각각은 컴퓨팅 디바이스(400, 450) 중 하나 이상을 포함할 수 있고, 전체 시스템은 서로 통신하는 다수의 컴퓨팅 디바이스(400, 450)로 구성될 수 있다.
컴퓨팅 디바이스(450)는, 다른 컴포넌트들 중에서도, 프로세서(452), 메모리(464), 및 디스플레이(454), 통신 인터페이스(466), 및 송수신기(468)와 같은 입력/출력 디바이스를 포함한다. 디바이스(450)에는 또한, 추가적인 저장소를 제공하기 위해, 마이크로 드라이브 또는 다른 디바이스와 같은 저장 디바이스가 제공될 수 있다. 컴포넌트들(450, 452, 464, 454, 466, 468) 각각은 다양한 버스들을 사용하여 상호접속되고, 몇몇 컴포넌트들은 공통 마더보드 상에 또는 적합한 다른 방식으로 장착될 수 있다.
프로세서(452)는 메모리(464)에 저장된 명령들을 포함하는, 컴퓨팅 디바이스(450) 내의 명령들을 실행시킬 수 있다. 프로세서는 별개의 그리고 다수의 아날로그 및 디지털 프로세서를 포함하는 칩들의 칩셋으로서 구현될 수 있다. 더욱이, 프로세서는 다수의 아키텍처 중 임의의 것을 사용하여 구현될 수 있다. 예를 들어, 프로세서(410)는 CISC(Complex Instruction Set Computer) 프로세서, RISC(Reduced Instruction Set Computer) 프로세서, 또는 MISC(Minimal Instruction Set Computer) 프로세서일 수 있다. 프로세서는, 예를 들어, 디바이스(450)의 다른 컴포넌트들의 조정, 예컨대 사용자 인터페이스들의 제어, 디바이스(450)에 의해 실행되는 애플리케이션들, 및 디바이스(450)에 의한 무선 통신을 제공할 수 있다.
프로세서(452)는 디스플레이(454)에 커플링된 디스플레이 인터페이스(456) 및 제어 인터페이스(458)를 통해 사용자와 통신할 수 있다. 디스플레이(454)는, 예를 들어, TFT(Thin-Film-Transistor Liquid Crystal Display) 디스플레이 또는 OLED(Organic Light Emitting Diode) 디스플레이, 또는 다른 적합한 디스플레이 기술일 수 있다. 디스플레이 인터페이스(456)는 그래픽 및 다른 정보를 사용자에게 제시하기 위해 디스플레이(454)를 구동시키기 위한 적합한 회로부를 포함할 수 있다. 제어 인터페이스(458)는 사용자로부터 커맨드들을 수신할 수 있고 이들을 프로세서(452)에 제출하기 위해 변환할 수 있다. 더욱이, 디바이스(450)의 다른 디바이스들과의 근거리 통신을 가능하게 하도록, 프로세서(452)와 통신하는 외부 인터페이스(462)가 제공될 수 있다. 외부 인터페이스(462)는, 예를 들어, 일부 구현예들에서 유선 통신을 위해, 또는 다른 구현예들에서 무선 통신을 위해 제공될 수 있고, 다수의 인터페이스가 또한 사용될 수 있다.
메모리(464)는 컴퓨팅 디바이스(450) 내에 정보를 저장한다. 메모리(464)는 컴퓨터 판독가능 매체 또는 매체들, 휘발성 메모리 유닛 또는 유닛들, 또는 비휘발성 메모리 유닛 또는 유닛들 중 하나 이상으로서 구현될 수 있다. 확장 메모리(474)는 또한, 예를 들어, SIMM(Single In Line Memory Module) 카드 인터페이스를 포함할 수 있는 확장 인터페이스(472)를 통해 디바이스(450)에 제공되고 접속될 수 있다. 그러한 확장 메모리(474)는 디바이스(450)에 대한 여분의 저장 공간을 제공할 수 있거나, 디바이스(450)에 대한 애플리케이션들 또는 다른 정보를 또한 저장할 수 있다. 구체적으로, 확장 메모리(474)는 전술된 프로세스들을 수행하거나 보완하기 위한 명령들을 포함할 수 있고, 보안 정보를 또한 포함할 수 있다. 따라서, 예를 들어, 확장 메모리(474)는 디바이스(450)를 위한 보안 모듈로서 제공될 수 있고, 디바이스(450)의 보안 사용을 허용하는 명령들로 프로그래밍될 수 있다. 더욱이, 보안 애플리케이션들은, 추가 정보와 함께, SIMM 카드들 - 예컨대, 식별 정보를 SIMM 카드에 해킹불가능한 방식으로 둠 - 을 통해 제공될 수 있다.
메모리는, 하기에 논의되는 바와 같이, 예를 들어 플래시 메모리 및/또는 NVRAM 메모리를 포함할 수 있다. 일 구현예에서, 컴퓨터 프로그램 제품이 정보 캐리어 내에 유형적으로 구현된다. 컴퓨터 프로그램 제품은, 실행될 때 전술된 것들과 같은 하나 이상의 방법들을 수행하는 명령들을 포함한다. 정보 캐리어는, 예를 들어 송수신기(468) 또는 외부 인터페이스(462)를 통해 수신될 수 있는 메모리(464), 확장 메모리(474), 또는 프로세서(452) 상의 메모리와 같은 컴퓨터 또는 머신 판독가능 매체이다.
디바이스(450)는, 필요한 경우 디지털 신호 프로세싱 회로부를 포함할 수 있는 통신 인터페이스(466)를 통해 무선으로 통신할 수 있다. 통신 인터페이스(466)는, 특히 GSM 음성 통화, SMS, EMS, 또는 MMS 메시징, CDMA, TDMA, PDC, WCDMA, CDMA2000, 또는 GPRS와 같은 다양한 모드들 또는 프로토콜들 하에서 통신을 제공할 수 있다. 그러한 통신은, 예를 들어 무선 주파수 송수신기(468)를 통해, 일어날 수 있다. 더욱이, 단거리 통신은 예컨대 블루투스, Wi-Fi, 또는 다른 그러한 송수신기(도시되지 않음)를 사용하여 일어날 수 있다. 더욱이, GPS(Global Positioning System) 수신기 모듈(470)이 추가적인 내비게이션 및 로케이션 관련 무선 데이터를 디바이스(450)에 제공할 수 있고, 이는 디바이스(450) 상에서 실행되는 애플리케이션들에 의해 적절하게 사용될 수 있다.
디바이스(450)는 또한, 오디오 코덱(460)을 사용하여 청각적으로 통신할 수 있는데, 이는 사용자로부터 구두 정보(spoken information)를 수신할 수 있고 그것을 사용가능한 디지털 정보로 변환할 수 있다. 오디오 코덱(460)은 마찬가지로, 예컨대 디바이스(450)의 핸드셋(handset)에서, 예컨대 스피커를 통해, 사용자를 위한 가청 사운드를 생성할 수 있다. 그러한 사운드는 음성 전화 통화들로부터의 사운드를 포함할 수 있고, 기록된 사운드, 예컨대 음성 메시지들, 음악 파일들 등을 포함할 수 있고, 또한, 디바이스(450) 상에서 동작하는 애플리케이션들에 의해 생성된 사운드를 포함할 수 있다.
컴퓨팅 디바이스(450)는, 도면에 도시된 바와 같이, 다수의 상이한 형태로 구현될 수 있다. 예를 들어, 그것은 셀룰러 전화기(480)로서 구현될 수 있다. 그것은 또한, 스마트폰(482), 개인 휴대 정보 단말기, 또는 다른 유사한 모바일 디바이스의 일부로서 구현될 수 있다.
본 명세서에서 설명되는 시스템들 및 방법들의 다양한 구현예들은 디지털 전자 회로부, 집적 회로부, 특수 설계된 ASIC(application specific integrated circuit), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 그러한 구현예들의 조합들로 실현될 수 있다. 이들 다양한 구현예들은, 저장 시스템, 적어도 하나의 입력 디바이스, 및 적어도 하나의 출력 디바이스로부터 데이터 및 명령들을 수신하고 그들에 데이터 및 명령들을 송신하도록 커플링된, 전용 또는 범용일 수 있는, 적어도 하나의 프로그래밍가능 프로세서를 포함하는 프로그래밍가능 시스템 상에서 실행가능한 그리고/또는 해석가능한 하나 이상의 컴퓨터 프로그램들에서의 구현예를 포함할 수 있다.
이러한 컴퓨터 프로그램들(프로그램들, 소프트웨어, 소프트웨어 애플리케이션들 또는 코드로도 알려짐)은 프로그래밍가능 프로세서에 대한 머신 명령들을 포함하고, 고레벨 절차 및/또는 객체 지향적 프로그래밍 언어로, 그리고/또는 어셈블리/머신 언어로 구현될 수 있다. 본 명세서에 사용되는 바와 같이, 용어 "머신 판독가능 매체", "컴퓨터 판독가능 매체"는, 머신 판독가능 신호로서 머신 명령들을 수신하는 머신 판독가능 매체를 포함하는, 프로그래밍가능 프로세서에 머신 명령들 및/또는 데이터를 제공하는 데 사용되는, 임의의 컴퓨터 프로그램 제품, 장치 및/또는 디바이스, 예를 들어 자기 디스크, 광 디스크, 메모리, PLD(Programmable Logic Device)를 지칭한다. 용어 "머신 판독가능 신호"는 머신 명령들 및/또는 데이터를 프로그래밍가능 프로세서에 제공하는 데 사용되는 임의의 신호를 지칭한다.
사용자와의 상호작용을 제공하기 위해, 본 명세서에서 설명되는 시스템들 및 기법들은 디스플레이 디바이스, 예컨대, 사용자에게 정보를 디스플레이하기 위한 CRT(cathode ray tube) 또는 LCD(liquid crystal display) 모니터, 및 사용자가 컴퓨터에 입력을 제공할 수 있게 하는 키보드 및 포인팅 디바이스, 예컨대 마우스 또는 트랙볼을 갖는 컴퓨터 상에서 구현될 수 있다. 다른 종류의 디바이스들이 또한, 사용자와의 상호작용을 제공하기 위해 사용될 수 있는데; 예를 들어, 사용자에게 제공된 피드백은 임의의 형태의 감각 피드백, 예컨대 시각적 피드백, 청각적 피드백, 또는 촉각적 피드백일 수 있고; 사용자로부터의 입력은 음향, 스피치, 또는 촉각적 입력을 포함하는 임의의 형태로 수신될 수 있다.
본 명세서에서 설명되는 시스템들 및 기법들은, 예컨대 데이터 서버로서 백 엔드(back end) 컴포넌트를 포함하는, 또는 미들웨어 컴포넌트, 예컨대 애플리케이션 서버를 포함하는, 또는 프론트 엔드(front end) 컴포넌트, 예컨대 그래픽 사용자 인터페이스 또는 사용자가 본 명세서에서 설명되는 시스템들 및 기법들의 구현과 상호작용할 수 있게 하는 웹 브라우저를 갖는 클라이언트 컴퓨터를 포함하는, 또는 그러한 백 엔드, 미들웨어, 또는 프론트 엔드 컴포넌트들의 임의의 조합을 포함하는 컴퓨팅 시스템에서 구현될 수 있다. 시스템의 컴포넌트들은 디지털 데이터 통신의 임의의 형태 또는 매체, 예컨대 통신 네트워크에 의해 상호접속될 수 있다. 통신 네트워크들의 예들은 근거리 네트워크("LAN"), 광역 네트워크("WAN"), 및 인터넷을 포함한다.
컴퓨팅 시스템은 클라이언트들 및 서버들을 포함할 수 있다. 클라이언트 및 서버는 대체적으로 서로 원격이며, 전형적으로 통신 네트워크를 통해 상호작용한다. 클라이언트와 서버의 관계는, 각각의 컴퓨터들 상에서 실행되고 서로에 대해 클라이언트-서버 관계를 갖는 컴퓨터 프로그램들에 의해 발생한다.
다른 실시예들
다수의 실시예가 기술되었다. 그럼에도 불구하고, 본 발명의 사상 및 범주로부터 벗어남이 없이 다양한 변경들이 이루어질 수 있다는 것이 이해될 것이다. 더욱이, 도면들에 묘사된 논리 흐름들은 바람직한 결과들을 달성하기 위해 도시된 특정 순서, 또는 순차적 순서를 요구하지 않는다. 더욱이, 다른 단계들이 제공될 수 있거나, 설명된 흐름들로부터 단계들이 제거될 수 있고, 다른 컴포넌트들이 설명된 시스템들에 추가되거나 그로부터 제거될 수 있다. 따라서, 다른 실시예들이 하기의 청구범위의 범주 내에 있다.

Claims (30)

  1. 생물학적 샘플에서 하나 이상의 유전자 융합을 식별하기 위한 컴퓨터 구현 방법으로서,
    하나 이상의 컴퓨터에 의해, 판독물 정렬 유닛으로부터 복수의 정렬된 판독물을 표현하는 제1 데이터를 획득하는 단계;
    하나 이상의 컴퓨터에 의해, 상기 획득된 제1 데이터 내에 포함된 복수의 유전자 융합 후보를 식별하는 단계;
    하나 이상의 컴퓨터에 의해, 상기 복수의 유전자 융합 후보를 필터링하여 유전자 융합 후보들의 필터링된 세트를 결정하는 단계;
    상기 유전자 융합 후보들의 필터링된 세트의 각각의 특정 유전자 융합 후보에 대해:
    하나 이상의 컴퓨터에 의해, 머신 러닝 모델에의 입력을 위한 입력 데이터를 생성하는 단계로서,
    (i) 상기 판독물 정렬 유닛에 의해 상기 특정 유전자 융합 후보가 정렬되었던 표준 서열의 하나 이상의 세그먼트들, 및
    (ii) 상기 판독물 정렬 유닛의 출력에 기초하여 생성된 데이터
    를 포함하는 데이터로부터 상기 특정 유전자 융합 후보를 표현하기 위해 특징부 데이터를 추출하는 단계
    를 포함하는, 상기 입력 데이터를 생성하는 단계;
    하나 이상의 컴퓨터에 의해, 상기 생성된 입력 데이터를 상기 머신 러닝 모델에의 입력으로서 제공하는 단계로서, 상기 머신 러닝 모델은, (i) 상기 판독물 정렬 유닛에 의해 상기 특정 유전자 융합 후보가 정렬되었던 표준 서열의 하나 이상의 세그먼트들, 및 (ii) 상기 판독물 정렬 유닛의 출력에 기초하여 생성된 데이터를 표현하는 입력 데이터를 프로세싱하는 상기 머신 러닝 모델에 기초하여 유전자 융합 후보가 유효 유전자 융합일 가능성을 표현하는 출력 데이터를 생성하도록 트레이닝된, 상기 생성된 입력 데이터를 상기 머신 러닝 모델에의 입력으로서 제공하는 단계;
    하나 이상의 컴퓨터에 의해, 상기 생성된 입력 데이터를 프로세싱하는 상기 머신 러닝 모델에 기초하여 상기 머신 러닝 모델에 의해 생성된 출력 데이터를 획득하는 단계; 및
    하나 이상의 컴퓨터에 의해, 상기 특정 융합 후보가 상기 출력 데이터에 기초하여 유효 유전자 융합 후보에 대응하는지 여부를 결정하는 단계
    를 포함하는, 방법.
  2. 제1항에 있어서,
    상기 입력 데이터를 생성하는 단계는 상기 판독물 정렬 유닛에 의해 상기 특정 유전자 융합 후보가 정렬되었던 상기 표준 서열의 세그먼트들의 주석들을 서술하는 주석 데이터를 포함하는 특징부 데이터를 추출하는 단계를 추가로 포함하고;
    상기 머신 러닝 모델은,
    (i) 상기 판독물 정렬 유닛에 의해 상기 특정 유전자 융합 후보가 정렬되었던 표준 서열의 하나 이상의 세그먼트들,
    (ii) 상기 판독물 정렬 유닛에 의해 상기 특정 유전자 융합 후보가 정렬되었던 표준 서열의 세그먼트들의 주석들을 서술하는 주석 데이터, 및
    (iii) 상기 판독물 정렬 유닛의 출력에 기초하여 생성된 데이터
    를 표현하는 입력 데이터를 프로세싱하는 상기 머신 러닝 모델에 기초하여 유전자 융합 후보가 유효 유전자 융합 후보일 가능성을 표현하는 출력 데이터를 생성하도록 트레이닝된, 방법.
  3. 제1항 또는 제2항에 있어서, 하나 이상의 컴퓨터에 의해, 상기 획득된 제1 데이터 내에 포함된 복수의 유전자 융합 후보를 식별하는 단계는, 하나 이상의 컴퓨터에 의해, 복수의 분할-판독물 정렬을 식별하는 단계를 포함하는, 방법.
  4. 제1항 내지 제3항 중 어느 한 항에 있어서, 하나 이상의 컴퓨터에 의해, 상기 획득된 제1 데이터 내에 포함된 복수의 유전자 융합 후보를 식별하는 단계는, 하나 이상의 컴퓨터에 의해, 복수의 부조화 판독물(discordant read) 쌍 정렬을 식별하는 단계를 포함하는, 방법.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서, 상기 판독물 정렬 유닛은 하드웨어 로직 회로들을 사용하여 구성되는 하나 이상의 프로세싱 엔진들의 세트를 사용하여 구현되고, 상기 하드웨어 로직 회로들은, 상기 하드웨어 로직 회로들을 사용하여,
    (i) 제1 판독물을 표현하는 데이터를 수신하기 위한 동작,
    (ii) 상기 제1 판독물을 표현하는 데이터를 표준 서열의 하나 이상의 부분들에 맵핑하여 하나 이상의 매칭되는 표준 서열 위치들을 식별하기 위한 동작,
    (iii) 상기 제1 판독물에 대한 상기 매칭되는 표준 서열 위치들 각각에 대응하는 하나 이상의 정렬 스코어들을 생성하기 위한 동작,
    (iv) 상기 하나 이상의 정렬 스코어들에 기초하여 상기 제1 판독물에 대한 하나 이상의 후보 정렬들을 선택하기 위한 동작, 및
    (v) 상기 제1 판독물에 대한 후보 정렬을 표현하는 데이터를 출력하기 위한 동작
    을 수행하도록 물리적으로 배열된, 방법.
  6. 제1항 내지 제4항 중 어느 한 항에 있어서, 상기 판독물 정렬 유닛은 하나 이상의 중앙 프로세싱 유닛(central processing unit, CPU)들 또는 하나 이상의 그래픽 프로세싱 유닛(graphics processing unit, GPU)들을 사용하여, 상기 하나 이상의 CPU들 또는 하나 이상의 GPU들로 하여금,
    (i) 제1 판독물을 표현하는 데이터를 수신하게 하고,
    (ii) 상기 제1 판독물을 표현하는 데이터를 표준 서열의 하나 이상의 부분들에 맵핑하여 상기 제1 판독물에 대한 하나 이상의 매칭되는 표준 서열 위치들을 식별하게 하고,
    (iii) 상기 제1 판독물에 대한 상기 매칭되는 표준 서열 위치들 각각에 대응하는 하나 이상의 정렬 스코어들을 생성하게 하고,
    (iv) 상기 하나 이상의 정렬 스코어들에 기초하여 상기 제1 판독물에 대한 하나 이상의 후보 정렬들을 선택하게 하고,
    (v) 상기 제1 판독물에 대한 후보 정렬을 표현하는 데이터를 출력하게 하는
    소프트웨어 명령들을 실행함으로써 하나 이상의 프로세싱 엔진들의 세트를 사용하여 구현되는, 방법.
  7. 제1항 내지 제6항 중 어느 한 항에 있어서,
    상기 판독물 정렬 유닛에 의해, 아직 정렬되지 않은 복수의 판독물을 수신하는 단계;
    상기 판독물 정렬 유닛에 의해, 상기 복수의 판독물의 제1 서브세트를 정렬하는 단계; 및
    상기 판독물 정렬 유닛에 의해, 상기 정렬된 판독물들의 제1 서브세트를 메모리 디바이스에 저장하는 단계
    를 추가로 포함하고,
    하나 이상의 컴퓨터에 의해, 판독물 정렬 유닛으로부터 복수의 정렬된 판독물을 표현하는 제1 데이터를 획득하는 단계는, 하나 이상의 컴퓨터에 의해, 상기 정렬된 판독물들의 제1 서브세트를 상기 메모리 디바이스로부터 획득하고, 상기 판독물 정렬 유닛이 아직 정렬되지 않은 복수의 판독물의 제2 서브세트를 정렬하는 동안 제1항의 동작들 중 하나 이상의 동작들을 수행하는 단계를 포함하는, 방법.
  8. 제1항 내지 제7항 중 어느 한 항에 있어서, 상기 판독물 정렬 유닛의 출력에 기초하여 생성된 상기 데이터는 변이체 대립유전자 빈도 카운트, 고유 판독물 정렬들의 카운트, 전사체에 걸친 판독물 커버리지, MAPQ 스코어, 또는 부모 유전자들 사이의 상동관계를 나타내는 데이터 중 임의의 하나 이상의 것들을 포함하는, 방법.
  9. 제1항 내지 제8항 중 어느 한 항에 있어서, 상기 출력 데이터에 기초하여 상기 특정 융합 후보가 유효 유전자 융합 후보에 대응하는지 여부를 결정하는 단계는,
    하나 이상의 컴퓨터에 의해, 상기 출력 데이터가 미리결정된 임계치를 만족시키는지 여부를 결정하는 단계; 및
    상기 출력 데이터가 상기 미리결정된 임계치들을 만족시킨다고 결정한 것에 기초하여, 상기 특정 융합 후보가 유효 유전자 융합 후보에 대응한다고 결정하는 단계
    를 포함하는, 방법.
  10. 제1항 내지 제9항 중 어느 한 항에 있어서, 상기 출력 데이터에 기초하여 상기 특정 융합 후보가 유효 유전자 융합 후보에 대응하는지 여부를 결정하는 단계는,
    하나 이상의 컴퓨터에 의해, 상기 출력 데이터가 미리결정된 임계치를 만족시키는지 여부를 결정하는 단계; 및
    상기 출력 데이터가 상기 미리결정된 임계치들을 만족시키지 않는다고 결정한 것에 기초하여, 상기 특정 융합 후보가 유효 유전자 융합 후보에 대응하지 않는다고 결정하는 단계
    를 포함하는, 방법.
  11. 생물학적 샘플에서 하나 이상의 유전자 융합을 식별하기 위한 시스템으로서,
    하나 이상의 컴퓨터 및 명령들을 저장하는 하나 이상의 저장 디바이스들을 포함하되, 상기 명령들은 상기 하나 이상의 컴퓨터에 의해 실행될 때, 상기 하나 이상의 컴퓨터로 하여금,
    하나 이상의 컴퓨터에 의해, 판독물 정렬 유닛으로부터 복수의 정렬된 판독물을 표현하는 제1 데이터를 획득하는 동작;
    하나 이상의 컴퓨터에 의해, 상기 획득된 제1 데이터 내에 포함된 복수의 유전자 융합 후보를 식별하는 동작;
    하나 이상의 컴퓨터에 의해, 상기 복수의 유전자 융합 후보를 필터링하여 유전자 융합 후보들의 필터링된 세트를 결정하는 동작;
    상기 유전자 융합 후보들의 필터링된 세트의 각각의 특정 유전자 융합 후보에 대해:
    하나 이상의 컴퓨터에 의해, 머신 러닝 모델에의 입력을 위한 입력 데이터를 생성하는 동작으로서,
    (i) 상기 판독물 정렬 유닛에 의해 상기 특정 유전자 융합 후보가 정렬되었던 표준 서열의 하나 이상의 세그먼트들, 및
    (ii) 상기 판독물 정렬 유닛의 출력에 기초하여 생성된 데이터
    를 포함하는 데이터로부터 상기 특정 유전자 융합 후보를 표현하기 위해 특징부 데이터를 추출하는 동작을 포함하는, 상기 입력 데이터를 생성하는 동작;
    하나 이상의 컴퓨터에 의해, 상기 생성된 입력 데이터를 상기 머신 러닝 모델에의 입력으로서 제공하는 동작으로서, 상기 머신 러닝 모델은, (i) 상기 판독물 정렬 유닛에 의해 상기 특정 유전자 융합 후보가 정렬되었던 표준 서열의 하나 이상의 세그먼트들, 및 (ii) 상기 판독물 정렬 유닛의 출력에 기초하여 생성된 데이터를 표현하는 입력 데이터를 프로세싱하는 상기 머신 러닝 모델에 기초하여 유전자 융합 후보가 유효 유전자 융합일 가능성을 표현하는 출력 데이터를 생성하도록 트레이닝된, 상기 생성된 입력 데이터를 상기 머신 러닝 모델에의 입력으로서 제공하는 동작;
    하나 이상의 컴퓨터에 의해, 상기 생성된 입력 데이터를 프로세싱하는 상기 머신 러닝 모델에 기초하여 상기 머신 러닝 모델에 의해 생성된 출력 데이터를 획득하는 동작; 및
    하나 이상의 컴퓨터에 의해, 상기 특정 융합 후보가 상기 출력 데이터에 기초하여 유효 유전자 융합 후보에 대응하는지 여부를 결정하는 동작
    을 수행하게 하도록 동작가능한, 시스템.
  12. 제11항에 있어서,
    상기 입력 데이터를 생성하는 동작은 상기 판독물 정렬 유닛에 의해 상기 특정 유전자 융합 후보가 정렬되었던 상기 표준 서열의 세그먼트들의 주석들을 서술하는 주석 데이터를 포함하는 특징부 데이터를 추출하는 동작을 추가로 포함하고;
    상기 머신 러닝 모델은,
    (i) 상기 판독물 정렬 유닛에 의해 상기 특정 유전자 융합 후보가 정렬되었던 표준 서열의 하나 이상의 세그먼트들,
    (ii) 상기 판독물 정렬 유닛에 의해 상기 특정 유전자 융합 후보가 정렬되었던 표준 서열의 세그먼트들의 주석들을 서술하는 주석 데이터, 및
    (iii) 상기 판독물 정렬 유닛의 출력에 기초하여 생성된 데이터
    를 표현하는 입력 데이터를 프로세싱하는 상기 머신 러닝 모델에 기초하여 유전자 융합 후보가 유효 유전자 융합 후보일 가능성을 표현하는 출력 데이터를 생성하도록 트레이닝된, 시스템.
  13. 제11항 또는 제12항에 있어서, 하나 이상의 컴퓨터에 의해, 상기 획득된 제1 데이터 내에 포함된 복수의 유전자 융합 후보를 식별하는 동작은, 하나 이상의 컴퓨터에 의해, 복수의 분할-판독물 정렬을 식별하는 동작을 포함하는, 시스템.
  14. 제11항 내지 제13항 중 어느 한 항에 있어서, 하나 이상의 컴퓨터에 의해, 상기 획득된 제1 데이터 내에 포함된 복수의 유전자 융합 후보를 식별하는 동작은, 하나 이상의 컴퓨터에 의해, 복수의 부조화 판독물 쌍 정렬을 식별하는 동작을 포함하는, 시스템.
  15. 제11항 내지 제14항 중 어느 한 항에 있어서, 상기 판독물 정렬 유닛은 하드웨어 로직 회로들을 사용하여 구성되는 하나 이상의 프로세싱 엔진들의 세트를 사용하여 구현되고, 상기 하드웨어 로직 회로들은, 상기 하드웨어 로직 회로들을 사용하여,
    (i) 제1 판독물을 표현하는 데이터를 수신하기 위한 동작,
    (ii) 상기 제1 판독물을 표현하는 데이터를 표준 서열의 하나 이상의 부분들에 맵핑하여 하나 이상의 매칭되는 표준 서열 위치들을 식별하기 위한 동작,
    (iii) 상기 제1 판독물에 대한 상기 매칭되는 표준 서열 위치들 각각에 대응하는 하나 이상의 정렬 스코어들을 생성하기 위한 동작,
    (iv) 상기 하나 이상의 정렬 스코어들에 기초하여 상기 제1 판독물에 대한 하나 이상의 후보 정렬들을 선택하기 위한 동작, 및
    (v) 상기 제1 판독물에 대한 후보 정렬을 표현하는 데이터를 출력하기 위한 동작
    을 수행하도록 물리적으로 배열된, 시스템.
  16. 제11항 내지 제14항 중 어느 한 항에 있어서, 상기 판독물 정렬 유닛은 하나 이상의 중앙 프로세싱 유닛(CPU)들 또는 하나 이상의 그래픽 프로세싱 유닛(GPU)들을 사용하여, 상기 하나 이상의 CPU들 또는 하나 이상의 GPU들로 하여금,
    (i) 제1 판독물을 표현하는 데이터를 수신하게 하고,
    (ii) 상기 제1 판독물을 표현하는 데이터를 표준 서열의 하나 이상의 부분들에 맵핑하여 상기 제1 판독물에 대한 하나 이상의 매칭되는 표준 서열 위치들을 식별하게 하고,
    (iii) 상기 제1 판독물에 대한 상기 매칭되는 표준 서열 위치들 각각에 대응하는 하나 이상의 정렬 스코어들을 생성하게 하고,
    (iv) 상기 하나 이상의 정렬 스코어들에 기초하여 상기 제1 판독물에 대한 하나 이상의 후보 정렬들을 선택하게 하고,
    (v) 상기 제1 판독물에 대한 후보 정렬을 표현하는 데이터를 출력하게 하는
    소프트웨어 명령들을 실행함으로써 하나 이상의 프로세싱 엔진들의 세트를 사용하여 구현되는, 시스템.
  17. 제11항 내지 제16항 중 어느 한 항에 있어서, 상기 동작들은,
    상기 판독물 정렬 유닛에 의해, 아직 정렬되지 않은 복수의 판독물을 수신하는 동작;
    상기 판독물 정렬 유닛에 의해, 상기 복수의 판독물의 제1 서브세트를 정렬하는 동작; 및
    상기 판독물 정렬 유닛에 의해, 상기 정렬된 판독물들의 제1 서브세트를 메모리 디바이스에 저장하는 동작
    을 추가로 포함하고,
    하나 이상의 컴퓨터에 의해, 판독물 정렬 유닛으로부터 복수의 정렬된 판독물을 표현하는 제1 데이터를 획득하는 동작은, 하나 이상의 컴퓨터에 의해, 상기 정렬된 판독물들의 제1 서브세트를 상기 메모리 디바이스로부터 획득하고, 상기 판독물 정렬 유닛이 아직 정렬되지 않은 복수의 판독물의 제2 서브세트를 정렬하는 동안 제11항의 동작들 중 하나 이상의 동작들을 수행하는 동작을 포함하는, 시스템.
  18. 제11항 내지 제17항 중 어느 한 항에 있어서, 상기 판독물 정렬 유닛의 출력에 기초하여 생성된 상기 데이터는 변이체 대립유전자 빈도 카운트, 고유 판독물 정렬들의 카운트, 전사체에 걸친 판독물 커버리지, MAPQ 스코어, 또는 부모 유전자들 사이의 상동관계를 나타내는 데이터 중 임의의 하나 이상의 것들을 포함하는, 시스템.
  19. 제11항 내지 제18항 중 어느 한 항에 있어서, 상기 출력 데이터에 기초하여 상기 특정 융합 후보가 유효 유전자 융합 후보에 대응하는지 여부를 결정하는 동작은,
    하나 이상의 컴퓨터에 의해, 상기 출력 데이터가 미리결정된 임계치를 만족시키는지 여부를 결정하는 동작; 및
    상기 출력 데이터가 상기 미리결정된 임계치들을 만족시킨다고 결정한 것에 기초하여, 상기 특정 융합 후보가 유효 유전자 융합 후보에 대응한다고 결정하는 동작
    을 포함하는, 시스템.
  20. 제11항 내지 제19항 중 어느 한 항에 있어서, 상기 출력 데이터에 기초하여 상기 특정 융합 후보가 유효 유전자 융합 후보에 대응하는지 여부를 결정하는 동작은,
    하나 이상의 컴퓨터에 의해, 상기 출력 데이터가 미리결정된 임계치를 만족시키는지 여부를 결정하는 동작; 및
    상기 출력 데이터가 상기 미리결정된 임계치들을 만족시키지 않는다고 결정한 것에 기초하여, 상기 특정 융합 후보가 유효 유전자 융합 후보에 대응하지 않는다고 결정하는 동작
    을 포함하는, 시스템.
  21. 하나 이상의 컴퓨터에 의해 실행가능한 명령들을 포함하는 소프트웨어를 저장하는 비일시적 컴퓨터 판독가능 매체로서, 상기 명령들은, 그러한 실행 시, 상기 하나 이상의 컴퓨터로 하여금,
    판독물 정렬 유닛으로부터 복수의 정렬된 판독물을 표현하는 제1 데이터를 획득하는 동작;
    상기 획득된 제1 데이터 내에 포함된 복수의 유전자 융합 후보를 식별하는 동작;
    상기 복수의 유전자 융합 후보를 필터링하여 유전자 융합 후보들의 필터링된 세트를 결정하는 동작;
    상기 유전자 융합 후보들의 필터링된 세트의 각각의 특정 유전자 융합 후보에 대해:
    머신 러닝 모델에의 입력을 위한 입력 데이터를 생성하는 동작으로서,
    (i) 상기 판독물 정렬 유닛에 의해 상기 특정 유전자 융합 후보가 정렬되었던 표준 서열의 하나 이상의 세그먼트들, 및
    (ii) 상기 판독물 정렬 유닛의 출력에 기초하여 생성된 데이터
    를 포함하는 데이터로부터 상기 특정 유전자 융합 후보를 표현하기 위해 특징부 데이터를 추출하는 동작을 포함하는, 상기 입력 데이터를 생성하는 동작;
    상기 생성된 입력 데이터를 상기 머신 러닝 모델에의 입력으로서 제공하는 동작으로서, 상기 머신 러닝 모델은, (i) 상기 판독물 정렬 유닛에 의해 상기 특정 유전자 융합 후보가 정렬되었던 표준 서열의 하나 이상의 세그먼트들, 및 (ii) 상기 판독물 정렬 유닛의 출력에 기초하여 생성된 데이터를 표현하는 입력 데이터를 프로세싱하는 상기 머신 러닝 모델에 기초하여 유전자 융합 후보가 유효 유전자 융합일 가능성을 표현하는 출력 데이터를 생성하도록 트레이닝된, 상기 생성된 입력 데이터를 상기 머신 러닝 모델에의 입력으로서 제공하는 동작;
    상기 생성된 입력 데이터를 프로세싱하는 상기 머신 러닝 모델에 기초하여 상기 머신 러닝 모델에 의해 생성된 출력 데이터를 획득하는 동작; 및
    상기 특정 융합 후보가 상기 출력 데이터에 기초하여 유효 유전자 융합 후보에 대응하는지 여부를 결정하는 동작
    을 포함하는 동작들을 수행하게 하는, 컴퓨터 판독가능 매체.
  22. 제21항에 있어서,
    상기 입력 데이터를 생성하는 동작은 상기 판독물 정렬 유닛에 의해 상기 특정 유전자 융합 후보가 정렬되었던 상기 표준 서열의 세그먼트들의 주석들을 서술하는 주석 데이터를 포함하는 특징부 데이터를 추출하는 동작을 추가로 포함하고;
    상기 머신 러닝 모델은,
    (i) 상기 판독물 정렬 유닛에 의해 상기 특정 유전자 융합 후보가 정렬되었던 표준 서열의 하나 이상의 세그먼트들,
    (ii) 상기 판독물 정렬 유닛에 의해 상기 특정 유전자 융합 후보가 정렬되었던 표준 서열의 세그먼트들의 주석들을 서술하는 주석 데이터, 및
    (iii) 상기 판독물 정렬 유닛의 출력에 기초하여 생성된 데이터
    를 표현하는 입력 데이터를 프로세싱하는 상기 머신 러닝 모델에 기초하여 유전자 융합 후보가 유효 유전자 융합 후보일 가능성을 표현하는 출력 데이터를 생성하도록 트레이닝된, 컴퓨터 판독가능 매체.
  23. 제21항 또는 제22항에 있어서, 상기 획득된 제1 데이터 내에 포함된 복수의 유전자 융합 후보를 식별하는 동작은, 하나 이상의 컴퓨터에 의해, 복수의 분할-판독물 정렬을 식별하는 동작을 포함하는, 컴퓨터 판독가능 매체.
  24. 제21항 내지 제23항 중 어느 한 항에 있어서, 상기 획득된 제1 데이터 내에 포함된 복수의 유전자 융합 후보를 식별하는 동작은, 하나 이상의 컴퓨터에 의해, 복수의 부조화 판독물 쌍 정렬을 식별하는 동작을 포함하는, 컴퓨터 판독가능 매체.
  25. 제21항 내지 제24항 중 어느 한 항에 있어서, 상기 판독물 정렬 유닛은 하드웨어 로직 회로들을 사용하여 구성되는 하나 이상의 프로세싱 엔진들의 세트를 사용하여 구현되고, 상기 하드웨어 로직 회로들은, 상기 하드웨어 로직 회로들을 사용하여,
    (i) 제1 판독물을 표현하는 데이터를 수신하기 위한 동작,
    (ii) 상기 제1 판독물을 표현하는 데이터를 표준 서열의 하나 이상의 부분들에 맵핑하여 하나 이상의 매칭되는 표준 서열 위치들을 식별하기 위한 동작,
    (iii) 상기 제1 판독물에 대한 상기 매칭되는 표준 서열 위치들 각각에 대응하는 하나 이상의 정렬 스코어들을 생성하기 위한 동작,
    (iv) 상기 하나 이상의 정렬 스코어들에 기초하여 상기 제1 판독물에 대한 하나 이상의 후보 정렬들을 선택하기 위한 동작, 및
    (v) 상기 제1 판독물에 대한 후보 정렬을 표현하는 데이터를 출력하기 위한 동작
    을 수행하도록 물리적으로 배열된, 컴퓨터 판독가능 매체.
  26. 제21항 내지 제24항 중 어느 한 항에 있어서, 상기 판독물 정렬 유닛은 하나 이상의 중앙 프로세싱 유닛(CPU)들 또는 하나 이상의 그래픽 프로세싱 유닛(GPU)들을 사용하여, 상기 하나 이상의 CPU들 또는 하나 이상의 GPU들로 하여금,
    (i) 제1 판독물을 표현하는 데이터를 수신하게 하고,
    (ii) 상기 제1 판독물을 표현하는 데이터를 표준 서열의 하나 이상의 부분들에 맵핑하여 상기 제1 판독물에 대한 하나 이상의 매칭되는 표준 서열 위치들을 식별하게 하고,
    (iii) 상기 제1 판독물에 대한 상기 매칭되는 표준 서열 위치들 각각에 대응하는 하나 이상의 정렬 스코어들을 생성하게 하고,
    (iv) 상기 하나 이상의 정렬 스코어들에 기초하여 상기 제1 판독물에 대한 하나 이상의 후보 정렬들을 선택하게 하고,
    (v) 상기 제1 판독물에 대한 후보 정렬을 표현하는 데이터를 출력하게 하는
    소프트웨어 명령들을 실행함으로써 하나 이상의 프로세싱 엔진들의 세트를 사용하여 구현되는, 컴퓨터 판독가능 매체.
  27. 제21항 내지 제26항 중 어느 한 항에 있어서, 상기 동작들은,
    상기 판독물 정렬 유닛에 의해, 아직 정렬되지 않은 복수의 판독물을 수신하는 동작;
    상기 판독물 정렬 유닛에 의해, 상기 복수의 판독물의 제1 서브세트를 정렬하는 동작; 및
    상기 판독물 정렬 유닛에 의해, 상기 정렬된 판독물들의 제1 서브세트를 메모리 디바이스에 저장하는 동작
    을 추가로 포함하고,
    판독물 정렬 유닛으로부터 복수의 정렬된 판독물을 표현하는 제1 데이터를 획득하는 동작은, 상기 정렬된 판독물들의 제1 서브세트를 상기 메모리 디바이스로부터 획득하고, 상기 판독물 정렬 유닛이 아직 정렬되지 않은 복수의 판독물의 제2 서브세트를 정렬하는 동안 제21항의 동작들 중 하나 이상의 동작들을 수행하는 동작을 포함하는, 컴퓨터 판독가능 매체.
  28. 제21항 내지 제27항 중 어느 한 항에 있어서, 상기 판독물 정렬 유닛의 출력에 기초하여 생성된 상기 데이터는 변이체 대립유전자 빈도 카운트, 고유 판독물 정렬들의 카운트, 전사체에 걸친 판독물 커버리지, MAPQ 스코어, 또는 부모 유전자들 사이의 상동관계를 나타내는 데이터 중 임의의 하나 이상의 것들을 포함하는, 컴퓨터 판독가능 매체.
  29. 제21항 내지 제28항 중 어느 한 항에 있어서, 상기 출력 데이터에 기초하여 상기 특정 융합 후보가 유효 유전자 융합 후보에 대응하는지 여부를 결정하는 동작은,
    상기 출력 데이터가 미리결정된 임계치를 만족시키는지 여부를 결정하는 동작; 및
    상기 출력 데이터가 상기 미리결정된 임계치들을 만족시킨다고 결정한 것에 기초하여, 상기 특정 융합 후보가 유효 유전자 융합 후보에 대응한다고 결정하는 동작
    을 포함하는, 컴퓨터 판독가능 매체.
  30. 제21항 내지 제29항 중 어느 한 항에 있어서, 상기 출력 데이터에 기초하여 상기 특정 융합 후보가 유효 유전자 융합 후보에 대응하는지 여부를 결정하는 동작은,
    상기 출력 데이터가 미리결정된 임계치를 만족시키는지 여부를 결정하는 동작; 및
    상기 출력 데이터가 상기 미리결정된 임계치들을 만족시키지 않는다고 결정한 것에 기초하여, 상기 특정 융합 후보가 유효 유전자 융합 후보에 대응하지 않는다고 결정하는 동작
    을 포함하는, 컴퓨터 판독가능 매체.
KR1020217031225A 2019-12-05 2020-12-04 유전자 융합의 신속한 검출 KR20220107117A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201962944304P 2019-12-05 2019-12-05
US62/944,304 2019-12-05
PCT/US2020/063496 WO2021113779A1 (en) 2019-12-05 2020-12-04 Rapid detection of gene fusions

Publications (1)

Publication Number Publication Date
KR20220107117A true KR20220107117A (ko) 2022-08-02

Family

ID=74004162

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020217031225A KR20220107117A (ko) 2019-12-05 2020-12-04 유전자 융합의 신속한 검출

Country Status (12)

Country Link
US (1) US20210193254A1 (ko)
EP (1) EP4070320A1 (ko)
JP (1) JP2023503739A (ko)
KR (1) KR20220107117A (ko)
CN (1) CN113574603A (ko)
AU (1) AU2020398180A1 (ko)
BR (1) BR112021018933A2 (ko)
CA (1) CA3131487A1 (ko)
IL (1) IL286129A (ko)
MX (1) MX2021012019A (ko)
SG (1) SG11202109079YA (ko)
WO (1) WO2021113779A1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024086499A1 (en) * 2022-10-17 2024-04-25 University Of Washington Systems and methods for detecting fusion genes from sequencing data
CN115662520B (zh) * 2022-10-27 2023-04-14 黑龙江金域医学检验实验室有限公司 Bcr/abl1融合基因的检测方法及相关设备

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3169806B1 (en) * 2014-07-18 2019-05-01 Life Technologies Corporation Systems and methods for detecting structural variants
CN106795568A (zh) * 2014-10-10 2017-05-31 因维蒂公司 测序读段的de novo组装的方法、系统和过程
US10354747B1 (en) * 2016-05-06 2019-07-16 Verily Life Sciences Llc Deep learning analysis pipeline for next generation sequencing
BR112019009830A2 (pt) * 2016-11-16 2019-08-13 Illumina Inc métodos para realinhamento de leitura de dados de sequenciamento
US10964410B2 (en) * 2017-05-25 2021-03-30 Koninklijke Philips N.V. System and method for detecting gene fusion
WO2018231860A1 (en) * 2017-06-12 2018-12-20 Grail, Inc. Alignment free filtering for identifying fusions
CN107267646A (zh) * 2017-08-02 2017-10-20 广东国盛医学科技有限公司 一种基于下一代测序的多基因融合检测方法
US20200105373A1 (en) * 2018-09-28 2020-04-02 10X Genomics, Inc. Systems and methods for cellular analysis using nucleic acid sequencing
EP4369356A2 (en) * 2018-11-30 2024-05-15 Caris MPI, Inc. Next-generation molecular profiling
CN110322925B (zh) * 2019-07-18 2021-09-03 杭州纽安津生物科技有限公司 一种预测融合基因产生新生抗原的方法

Also Published As

Publication number Publication date
JP2023503739A (ja) 2023-02-01
EP4070320A1 (en) 2022-10-12
AU2020398180A1 (en) 2021-09-16
US20210193254A1 (en) 2021-06-24
SG11202109079YA (en) 2021-09-29
WO2021113779A1 (en) 2021-06-10
CA3131487A1 (en) 2021-06-10
IL286129A (en) 2021-10-31
BR112021018933A2 (pt) 2022-06-21
MX2021012019A (es) 2021-10-26
CN113574603A (zh) 2021-10-29

Similar Documents

Publication Publication Date Title
JP6850874B2 (ja) タンパク質結合部位予測の方法、装置、設備及び記憶媒体
US20190169695A1 (en) Methods and systems for detecting sequence variants
WO2015081754A1 (en) Genome compression and decompression
JP2019535057A5 (ko)
Dunn et al. Squigglefilter: An accelerator for portable virus detection
CN108985008A (zh) 一种快速比对基因数据的方法和比对系统
US20210193254A1 (en) Rapid Detection of Gene Fusions
WO2022082879A1 (zh) 基因测序数据处理方法和基因测序数据处理装置
US20150142334A1 (en) System, method and computer-accessible medium for genetic base calling and mapping
KR20230101760A (ko) 품질 점수 압축
US20150255090A1 (en) Method and apparatus for detecting speech segment
JP2022533492A (ja) ハッシュテーブルゲノムマッピングのための柔軟性のあるシード伸長
Sadasivan Accelerated Systems for Portable DNA Sequencing
Alser et al. Going from molecules to genomic variations to scientific discovery: Intelligent algorithms and architectures for intelligent genome analysis
US20210313009A1 (en) Hardware accelerated k-mer graph generation
RU2818363C1 (ru) Быстрое обнаружение слияний генов
Bryant et al. Rapid protein-protein interaction network creation from multiple sequence alignments with Deep Learning
WO2018019138A1 (zh) 一种数据处理的方法和装置
CN110059180B (zh) 文章作者身份识别及评估模型训练方法、装置及存储介质
US20210285043A1 (en) Incremental secondary analysis of nucleic acid sequences
Chen et al. Prediction of apoptosis protein subcellular localization with multilayer sparse coding and oversampling approach
Asgari et al. Probabilistic variable-length segmentation of protein sequences for discriminative motif mining (DiMotif) and sequence embedding (ProtVecX)
US20190050531A1 (en) Dna sequence processing method and device
WO2023225221A1 (en) Machine learning system for predicting gene cleavage sites background
Vera-Parra et al. Performance Assessment by Stages of Main Genomic De-Novo Assemblers Based Upon De Bruijn Graphs