KR20210099099A

KR20210099099A - 생어 시퀀싱을 위한 딥 베이스콜러

Info

Publication number: KR20210099099A
Application number: KR1020217021125A
Authority: KR
Inventors: 용 츄; 스테파니 슈나이더; 라일란 샤이퍼; 데이비드 우
Original assignee: 라이프 테크놀로지스 코포레이션
Priority date: 2018-12-10
Filing date: 2019-12-10
Publication date: 2021-08-11
Anticipated expiration: 2039-12-10
Also published as: US20220013193A1; KR102781611B1; WO2020123552A1; CN113168890A; EP3895171A1; JP7230208B2; CN113168890B; JP2022512221A

Abstract

생어 시퀀싱을 위한 딥 베이스콜러 시스템 및 연관 방법이 제공된다. 방법은 딥 머신 러닝을 사용한다. 딥 러닝 모델은 분석된 트레이스에 기초하여 스캔 레이블링 확률을 결정하는 데 사용된다. 신경망은 연결주의 임시 분류(CTC) 손실 함수를 최소화하기 위해 최적의 매핑 함수를 학습하도록 훈련된다. CTC 함수는 타겟 시퀀스와 예측된 스캔 레이블링 확률을 정합시켜 손실을 계산하는 데 사용된다. 디코더는 최대 확률로 시퀀스를 생성한다. 프리픽스 빔 탐색을 사용하는 베이스콜 위치 파인더는 CTC 레이블링 확률을 통해 스캔 범위를 찾은 후 각 호출된 염기에 대한 스캔 범위 내에서 피크 레이블링 확률의 위치를 스캔하는 데 사용된다. 품질 값(QV)은 품질 스코어를 찾기 위해 QV 조회 테이블에 대한 인덱스로 CTC 레이블링 확률로부터 계산된 특징 벡터를 사용하여 결정된다.

Description

생어 시퀀싱을 위한 딥 베이스콜러

본 개시내용은 일반적으로 베이스콜링을 위한 시스템, 장치, 및 방법에 관한 것으로, 보다 구체적으로 생어 시퀀싱 분석에서 딥 머신 러닝을 사용하는 베이스콜링을 위한 시스템, 장치, 및 방법에 관한 것이다.

모세관 전기영동(CE) 유전자 분석기를 이용한 생어 시퀀싱은 여러 연구 영역에서 다양한 애플리케이션을 지원하기 위해 고도의 정확성, 장독 능력, 및 유연성을 제공하는 골드 스탠다드 DNA 시퀀싱 기술이다. CE 유전자 분석기로 생어 시퀀싱에 대한 베이스콜러 및 품질 값(QV)의 정확도는 성공적인 시퀀싱 프로젝트에 필수적이다. 레거시 베이스콜러는 시퀀싱 플랫폼 및 애플리케이션을 지원하기 위해 완전히 통합된 베이스콜링 솔루션을 제공하기 위해 개발되었다. 원래는 긴 플라스미드 클론(순수 염기)을 베이스콜링하도록 설계된 후에 변이형 식별을 지원하기 위해 혼합 염기 데이터를 베이스콜링하도록 나중에 확장되었다.

그러나, 명백한 혼합 염기는 예측된 QV가 높더라도 순수 염기로 불리는 경우가 있으며, 순수 염기가 혼합 염기로 잘못 불리우는 위양성도 염료 블롭, 폴리메라아제 슬리피지 및 프라이머 불순물로 인한 n-1 피크, 이동성 시프트 등과 같은 시퀀싱 아티팩트로 인해 상대적으로 자주 발생한다. 분명히, 혼합 염기에 대한 베이스콜링 및 QV 정확도는 단일 뉴클레오티드 다형성(SNP) 및 이형접합 삽입 결실 변이형(het indel)과 같은 변이형을 식별하기 위한 시퀀싱 애플리케이션을 지원하도록 개선될 필요가 있다. 5' 및 3' 말단에서 레거시 베이스콜러의 베이스콜링 정확도는 또한 5' 및 3' 말단에서 낮은 해상도 및 이동성 시프트로 인해 상대적으로 낮다. 레거시 베이스콜러는 또한 길이가 150 염기 쌍(bps)보다 짧은, 특히 100 bps보다 짧은, 앰플리콘을 베이스콜링하는 데 어려움을 겪으며 평균 피크 간격, 평균 피크 폭, 간격 곡선, 및/또는 폭 곡선을 추정하지 못해 때때로 오류율이 증가한다.

그러므로, 베이스콜링 알고리즘이 생어 시퀀싱 데이터의 더 높은 충실도를 제공하고, 변이형 식별을 개선하고, 판독 길이를 증가시키고, 시퀀싱 애플리케이션의 시퀀싱 비용을 절약할 수 있도록 혼합 염기 및 5'와 3' 말단에 대한 개선된 베이스콜링 정확도가 매우 바람직하다.

변성 모세관 전기영동은 당업자에게 잘 알려져 있다. 개요에서, 핵산 샘플은 모세관의 입구 단부에서 모세관의 변성 분리 매체로 주입되고, 전기장은 모세관 단부에 적용된다. 폴리메라아제 연쇄 반응(PCR) 혼합물 또는 기타 샘플과 같은 샘플의 상이한 핵산 성분은 전기영동 특성의 차이로 인해 상이한 속도로 검출기 지점으로 이동한다. 결과적으로, 이들은 상이한 시간에 검출기(일반적으로, 자외선(UV) 또는 형광 검출기)에 도달한다. 결과는 일련의 검출된 피크로 표시되며, 이 경우 각 피크는 이상적으로 하나의 핵산 성분 또는 샘플 종을 나타낸다. 피크 영역 및/또는 피크 높이는 혼합물에서 성분의 초기 농도를 나타낸다.

아티팩트 피크를 포함하여 임의의 주어진 피크의 크기는 대부분 DNA와 같은 핵산에 의한 UV 흡수 또는 핵산과 연관된 하나 이상의 레이블로부터의 형광 방출에 기초하여 광학적으로 결정된다. 핵산 CE 검출에 적용 가능한 UV 및 형광 검출기는 당업계에 잘 알려져 있다.

CE 모세관 자체는 흔히 석영이지만, 당업자에게 알려진 다른 재료를 사용할 수 있다. 단일 및 다중 모세관 능력 둘 모두를 갖춘 다수의 CE 시스템을 상업적으로 이용 가능하다. 본원에 기재된 방법은 핵산 샘플의 CE를 변성시키기 위한 임의의 장치 또는 시스템에 적용 가능하다.

프리 솔루션에서 상이한 크기의 폴리뉴클레오티드에 대해 전하 대 마찰 드래그 비율이 동일하기 때문에, 전기영동 분리에는 체질(즉, 분리) 매체가 필요하다. 적용 가능한 CE 분리 매트릭스는 핵산 CE를 변성시키는 데 필요한 변성제의 존재와 호환되며, 그 일반적인 예는 8M 요소이다.

미세유체 분리(유리, 실리콘 또는 기타 기판 내에 또는 그 상에 에칭된 마이크로 채널을 통해 분리가 수행됨) 또는 단일 또는 다중 원통형 모세관을 사용하는 모세관 전기영동을 통한 분리에 기초한 베이스콜링 시스템과 같은, 베이스콜링 애플리케이션에서 사용하기 위한 시스템 및 방법을 설명한다.

임의의 특정 요소 또는 동작의 논의를 용이하게 식별하기 위해, 참조 부호에서 가장 중요한 숫자 또는 숫자들은 해당 요소가 처음 소개되는 도면 부호를 참조한다.
도 1은 일 실시예에 따른 CE 장치(100)를 도시하고 있다.
도 2는 일 실시예에 따른 CE 시스템(200)을 도시하고 있다.
도 3은 일 실시예에 따른 CE 프로세스(300)를 도시하고 있다.
도 4는 일 실시예에 따른 CE 프로세스(400)를 도시하고 있다.
도 5는 일 실시예에 따른 기본적인 심층 신경망(500)을 도시하고 있다.
도 6은 일 실시예에 따른 인공 뉴런(600)을 도시하고 있다.
도 7은 일 실시예에 따른 순환 신경망(700)을 도시하고 있다.
도 8은 일 실시예에 따른 양방향 순환 신경망(800)을 도시하고 있다.
도 9는 일 실시예에 따른 장단기 메모리(900)를 도시하고 있다.
도 10은 일 실시예에 따른 베이스콜러 시스템(1000)을 도시하고 있다.
도 11은 일 실시예에 따른 스캔 레이블 모델 훈련 방법(1100)을 도시하고 있다.
도 12는 일 실시예에 따른 QV 모델 훈련 방법(1200)을 도시하고 있다.
도 13은 본 발명의 실시예를 포함할 수 있는 컴퓨팅 장치(1300)의 예시적인 블록도이다.

본원에서 사용된 용어는 달리 명시적으로 또는 문맥에 의해 명시되지 않는 한 기술을 의미하는 일반적인 의미로 해석되어야 한다.

이러한 문맥에서 "품질 값"은 주어진 베이스콜이 오류에 있을 가능성의 추정치(또는 예측)를 지칭한다. 통상적으로, 품질 값은 Phred 프로그램에 의해 확립된 관습에 따라 조정되고: QV = -10 log10(Pe), 여기서 Pe는 호출이 오류에 있을 것으로 예상되는 확률을 나타낸다. 품질 값은 기본 호출 및 합의 호출 알고리즘의 확실성의 측정치이다. 값이 높을수록 알고리즘 오류 가능성은 낮아진다. 샘플 품질 값은 샘플의 기본별 품질 값을 지칭하며 합의 품질 값은 합의별 품질 값이다.

이러한 문맥에서 "시그모이드 함수"는 f(x)=1/(exp(-x)) 형태의 함수를 지칭한다. 시그모이드 함수는 인공 신경망에서 활성화 함수로 사용된다. 광범위한 입력 값을 0-1 범위 또는 때때로 -1 내지 1로 매핑하는 속성이 있다.

이러한 문맥에서 "모세관 전기영동 유전자 분석기"는 음으로 하전된 DNA 단편이 양극을 향해 이동하도록 샘플이 로딩된 모세관에 전기장을 적용하는 기기를 지칭한다. DNA 단편이 매체를 통과하는 속도는 분자량에 반비례한다. 이러한 전기영동 프로세스는 하나의 염기 해상도에서 확장 생성물을 크기별로 분리할 수 있다.

이러한 문맥에서 "이미지 신호"는 데이터 실행 중에 염기를 식별하는 데 사용되는 염료 중 하나로부터 형광의 강도 판독을 지칭한다. 신호 강도 번호는 샘플 파일의 주석보기에 표시된다.

이러한 맥락에서 "예시적인 상용 CE 장치"는 특히 Applied Biosystems, Inc. (ABI) 유전자 분석기 모델 310(단일 모세관), 3130(4 모세관), 3130xL(16 모세관), 3500(8 모세관), 3500xL(24 모세관), 3730(48 모세관), 및 3730xL(96 모세관), Agilent 7100 장치, Prince Technologies, Inc.의 PrinCE™ 모세관 전기영동 시스템, Lumex, Inc.의 Capel-105™ CE 시스템, 및 Beckman Coulter의 P/ACE™ MDQ 시스템을 포함한다.

이러한 문맥에서 "염기 쌍"은 DNA 시퀀스에서 상보적인 뉴클레오티드를 지칭한다. 티민(T)은 아데닌(A)에 상보적이며 구아닌(G)은 사이토신(C)에 상보적이다.

이러한 문맥에서 "ReLU"는 입력의 양의 부분으로 정의된 활성화 함수인 정류기 함수를 지칭한다. 램프 함수로도 알려져 있으며 전기 신호 이론에서 반파 정류와 유사하다. ReLU는 심층 신경망에서의 대중적 활성화 함수이다.

이러한 문맥에서 "이형접합 삽입 결실 변이형"은 단일 뉴클레오티드 다형성을 나타낸다.

이러한 문맥에서 "이동성 시프트"는 다르게 레이블링된 반응 확장 생성물과 연관된 상이한 형광 염료 분자의 존재에 의해 부과되는 전기영동 이동성 변화를 지칭한다.

이러한 문맥에서 "변이형"은 합의 시퀀스가 제공된 참조 시퀀스와 다른 염기를 지칭한다.

이러한 문맥에서 "폴리메라아제 슬리피지"는 DNA 복제 동안 트리뉴클레오티드 또는 디뉴클레오티드 확대 또는 수축을 야기하는 돌연변이 형태이다. 슬리피지 이벤트는 일반적으로 반복적인 뉴클레오티드(탠덤 반복)의 시퀀스가 복제 부위에서 발견될 때 일어난다. 탠덤 반복은 뉴클레오티드의 빈번한 삽입 및 결실이 일어날 수 있는 게놈의 불안정한 영역이다.

이러한 문맥에서 "앰플리콘"은 PCR 반응의 생성물을 지칭한다. 통상적으로, 앰플리콘은 DNA의 짧은 조각이다.

이러한 문맥에서 "베이스콜"은 형광 신호의 각 피크(A, C, G, T, 또는 N)에 뉴클레오타이드 염기의 할당을 지칭한다.

이러한 문맥에서 "미가공 데이터"는 4개의 형광 염료 각각에 대해 수집된 형광 강도(신호)를 표시하는 다색 그래프를 지칭한다.

이러한 문맥에서 "기본 간격"은 한 피크에서 다음 피크까지의 데이터 포인트 수를 지칭한다. 음수 간격 값 또는 적색으로 표시된 간격 값은 샘플 및/또는 분석 파라미터에 문제가 있음을 나타낸다.

이러한 맥락에서 "분리 또는 체질 매체"는 겔을 포함하지만, 선형 폴리아크릴아미드, 하이드록시알킬 셀룰로오스(HEC), 아가로스, 및 셀룰로오스 아세테이트 등과 같은 비겔 액체 폴리머를 사용할 수 있다. 모세관 전기영동에 사용될 수 있는 다른 분리 매체는 특히 폴리(N,N'-디메틸 아크릴아미드)(PDMA), 폴리에틸렌 글리콜(PEG), 폴리(비닐피롤리돈)(PVP), 폴리에틸렌 옥사이드, 다당류 및 플루로닉 폴리올과 같은 수용성 폴리머; 다양한 폴리비닐 알코올(PVAL) 관련 폴리머, 폴리 에테르-물 혼합물, 리오트로픽 폴리머 액정 등을 포함하나 이에 제한되지는 않는다.

이러한 문맥에서 "아담(Adam) 옵티마이저"는 훈련 데이터에 기초하여 반복적으로 네트워크 가중치를 업데이트하기 위해 고전적인 확률적 경사 하강법 절차 대신 사용될 수 있는 최적화 알고리즘을 지칭한다. 확률적 경사 하강법은 모든 가중치 업데이트에 대해 단일 학습률(알파라고 함)을 유지하며 학습률은 훈련 중에 변경되지 않는다. 학습률은 각 네트워크 가중치(파라미터)에 대해 유지되고 학습이 전개됨에 따라 별도로 조정된다. 아담은 확률적 경사 하강법의 다른 두 확장의 장점을 조합한 것이다. 구체적으로, 희소 기울기 관련 문제(예를 들어, 자연어 및 컴퓨터 비전 문제)에 대한 성능을 향상시키는 파라미터별 학습률을 유지하는 적응형 기울기 알고리즘(AdaGrad), 및 가중치에 대한 최근 기울기 크기의 평균(예를 들어, 얼마나 빠르게 변화하는지)에 기초하여 조정되는 파라미터별 학습률도 유지하는 제곱 평균 제곱근 전파(RMSProp)이다. 이는 알고리즘이 온라인 및 비정상 문제(예를 들어, 잡음)에서 잘 작동함을 의미한다. 아담은 AdaGrad와 RMSProp 양자의 이점을 실현한다. RMSProp에서와 같이 평균 제1 모멘트(평균)에 기초하여 파라미터 학습률을 조정하는 대신, 아담은 기울기의 제2 모멘트(비중심 분산)의 평균도 사용한다. 구체적으로, 알고리즘은 기울기와 제곱 기울기의 지수 이동 평균을 계산하고 파라미터 beta1 및 beta2는 이러한 이동 평균의 감쇠율을 제어한다. 이동 평균의 초기 값 및 1.0(권장)에 가까운 beta1 및 beta2 값은 모멘트 추정치가 제로(0)로 편향된다. 이러한 편향은 편향 보정된 추정치를 계산하기 전에 먼저 편향된 추정치를 계산함으로써 극복된다.

이러한 문맥에서 "쌍곡 탄젠트 함수"는 tanh(x)=sinh(x)/cosh(x) 형태의 함수를 지칭한다. 탄(tanh) 함수는 인공 신경망에서의 대중적 활성화 함수이다. 시그모이드와 마찬가지로, 탄 함수도 시그모이드형("s"형상)이지만, 대신 범위 (-1, 1)의 값을 출력한다. 따라서, 탄에 대한 강한 음의 입력치는 음의 출력치에 매핑할 것이다. 부가적으로, 제로 값의 입력치만이 제로에 가까운 출력치에 매핑된다. 이러한 속성은 훈련 중에 네트워크가 "고착"될 가능성을 줄인다.

이러한 문맥에서 "상대 형광 유닛"은 DNA 분석과 같은 전기영동 방법에서의 측정을 지칭한다. "상대 형광 유닛"은 형광 검출을 이용하는 분석에 사용되는 측정 유닛이다.

이러한 맥락에서 "CTC 손실 함수"는 타이밍이 가변적인 시퀀스 문제를 해결하기 위해 LSTM 네트워크와 같은 순환 신경망(RNN)을 훈련하기 위한, 연결주의 시간 분류, 일종의 신경망 출력 및 관련 스코어링 함수를 지칭한다. CTC 네트워크는 연속 출력(예를 들어, 소프트맥스)을 가지며, 이는 레이블의 확률을 모델링하기 위해 훈련을 통해 적합하게 된다. CTC는 경계와 타이밍을 학습하려고 시도하지 않고: 레이블 시퀀스는 블랭크를 무시하고 정렬만 다를 경우에 동등한 것으로 간주된다. 동등한 레이블 시퀀스는 여러 방식으로 발생할 수 있으므로, 스코어링은 사소하지 않은 작업이 된다. 다행히, 이를 위한 효율적인 순방향-역방향 알고리즘이 있다. 그 후, CTC 스코어를 역전파 알고리즘에 사용하여 신경망 가중치를 업데이트할 수 있다. CTC 적합 신경망에 대한 대안적인 접근법은 은닉 마르코프 모델(HMM)을 포함한다.

이러한 문맥에서 "폴리메라아제"는 중합을 촉매하는 효소를 지칭한다. DNA 및 RNA 폴리메라아제는 다른 단일 가닥 DNA 또는 RNA를 템플릿으로 사용하여 자유 뉴클레오티드로부터 단일 가닥 DNA 또는 RNA를 (각각) 구축한다.

이러한 문맥에서 "샘플 데이터"는 시퀀싱 기기에서 단일 레인 또는 모세관의 출력을 지칭한다. 샘플 데이터는 시퀀싱 분석인 SeqScape 및 다른 시퀀싱 분석 소프트웨어에 입력된다.

이러한 문맥에서 "플라스미드"는 염색체와는 독립적으로 복제할 수 있는 세포의 유전적 구조를, 통상적으로 박테리아 또는 원생동물의 세포질에 있는 작은 원형 DNA 가닥을 지칭한다. 플라스미드는 유전자의 실험실 조작에서 많이 사용된다.

이러한 문맥에서 "빔 탐색"은 제한된 세트에서 가장 유망한 노드를 확대하여 그래프를 탐사하는 휴리스틱 탐색 알고리즘을 지칭한다. 빔 탐색은 메모리 요건을 줄이는 최상의 우선 탐색 최적화이다. 최상의 우선 탐색은 일부 휴리스틱에 따라 모든 부분적인 솔루션(상태)을 정리하는 그래프 탐색이다. 그러나, 빔 탐색에서는 소정 수의 최상의 부분 솔루션만이 후보로서 유지된다. 따라서, 탐욕 알고리즘이다. 빔 탐색은 너비 우선 탐색을 사용하여 탐색 트리를 구축한다. 트리의 각 수준에서, 현재 수준의 상태의 모든 후속 작업을 생성하여 휴리스틱 비용의 증가 순서로 분류한다. 그러나, 각 수준(빔 폭이라고 함)에서 최상 상태의 소정 수 β만 저장한다. 해당 상태만이 다음에 확대된다. 빔 폭이 클수록 프루닝되는 상태가 줄어든다. 무한 빔 폭을 사용하면, 어떠한 상태도 프루닝되지 않고 빔 탐색은 너비 우선 탐색과 동일하다. 빔 폭은 탐색을 수행하는 데 필요한 메모리를 바운딩한다. 목표 상태가 잠재적으로 프루닝될 수 있으므로, 빔 탐색은 완전성(솔루션이 있는 경우 알고리즘이 솔루션으로 종료된다는 보장)을 희생한다. 빔 탐색이 최적은 아니다(즉, 최상의 솔루션을 찾을 것이라는 보장이 없음). 일반적으로, 빔 탐색은 발견된 제1 솔루션을 반환한다. 기계 번역에 대한 빔 탐색은 다른 경우이고: 구성된 최대 탐색 깊이(즉, 번역 길이)에 도달하면, 알고리즘은 다양한 깊이에서 탐색 중에 발견된 솔루션을 평가하고 최상의 솔루션(가장 확률이 높은 솔루션)을 반환할 것이다. 빔 폭은 고정되거나 가변적일 수 있다. 가변 빔 폭을 사용하는 한 가지 접근법은 폭이 최소인 상태에서 시작한다. 솔루션이 발견되지 않는 경우, 빔은 넓어지고 절차가 반복된다.

이러한 문맥에서 "생어 시퀀서"는 포스포디에스테르 결합 형성에 필수적인 3'-히드록실기가 없는 뉴클레오티드 염기 유사체인 2',3'-디데옥시뉴클레오티드를 포함하는 DNA 폴리메라아제의 능력을 이용하는 DNA 시퀀싱 프로세스를 지칭한다. 생어 디데옥시 시퀀싱은 DNA 템플릿, 시퀀싱 프라이머, DNA 폴리메라아제, 데옥시뉴클레오타이드(dNTP), 디데옥시뉴클레오타이드(ddNTP), 및 반응 버퍼를 필요로 한다. 각각 방사성 레이블링된 뉴클레오티드 및 ddA, ddC, ddG, 또는 ddT를 포함하는 4개의 별도 반응이 설정된다. 어닐링, 레이블링, 및 종료 단계는 별도의 히트 블록에 대해 수행된다. DNA 합성은 DNA 폴리메라아제가 최적의 효소 활성을 갖는 온도인 37℃에서 수행된다. DNA 폴리메라아제는 사슬 연장의 각 단계에서 데옥시뉴클레오타이드 또는 대응하는 2',3'-디데옥시뉴클레오타이드를 추가한다. 데옥시뉴클레오타이드 또는 디데옥시뉴클레오타이드가 추가되는지 여부는 두 분자의 상대적인 농도에 좌우된다. 데옥시뉴클레오타이드(A, C, G, 또는 T)가 3' 말단에 추가되면, 사슬 연장이 계속될 수 있다. 그러나, 디데옥시뉴클레오타이드(ddA, ddC, ddG, 또는 ddT)가 3' 말단에 추가되면, 모세관에 의한 사슬 연장 4 DNA 시퀀싱이 종료된다. 생어 디데옥시 시퀀싱은 3' 말단에서 디데옥시뉴클레오타이드로 종료된 다양한 길이의 확장 생성물을 형성한다.

이러한 문맥에서 "단일 뉴클레오티드 다형성"은 DNA 시퀀스에서 단일 염기 쌍의 변화를 지칭한다.

이러한 문맥에서 "혼합 염기"는 2, 3, 또는 4개의 염기를 포함하는 1 염기 위치를 지칭한다. 이러한 염기에는 적절한 IUB 코드가 할당된다.

이러한 문맥에서 "소프트맥스 함수"는 합계가 x 세트를 차지하는 f(xi)=exp(xi)/sum(exp(x)) 형태의 함수를 지칭한다. 소프트맥스는 인공 신경망의 상이한 레이어(종종 출력 레이어)에서 해당 레이어에 대한 입력 분류를 예측하는 데 사용된다. 소프트맥스 함수는 'n'개의 상이한 이벤트에 대한 이벤트 xi의 확률 분포를 계산한다. 일반적인 의미에서, 이 함수는 가능한 모든 타겟 클래스에 대한 각 타겟 클래스의 확률을 계산한다. 계산된 확률은 타겟 클래스가 입력에 표현되는지를 예측하는 데 유용하다. 소프트맥스 사용의 주요 이점은 출력 확률 범위이다. 범위는 0 내지 1일 것이며, 모든 확률의 합은 1과 같을 것이다. 다중 분류 모델에 소프트맥스 함수를 사용하는 경우, 각 클래스의 확률을 반환하고 타겟 클래스는 높은 확률을 가질 것이다. 이 공식은 주어진 입력 값의 지수(e- )와 입력에서 모든 값의 지수 값의 합을 계산한다. 그 후, 입력 값의 지수와 지수 값의 합의 비율이 소프트맥스 함수의 출력이다.

이러한 문맥에서 "노이즈"는 각 염료에 대한 평균 배경 형광 강도를 지칭한다.

이러한 문맥에서 "역전파"는 네트워크에서 사용될 가중치의 계산에 필요한 기울기를 계산하기 위해 인공 신경망에서 사용되는 알고리즘을 지칭한다. 일반적으로 딥 신경망을 훈련시키는 데 사용되며, 이 용어는 하나보다 많은 은닉 레이어가 있는 신경망을 지칭한다. 역전파의 경우, 손실 함수는 케이스가 네트워크를 통해 전파된 후 네트워크 출력과 예상 출력 간의 차이를 계산한다.

이러한 문맥에서 "데큐 맥스 파인더"는 최대 값을 결정하기 위해 양단 큐를 이용하는 알고리즘을 지칭한다.

이러한 문맥에서 "게이트형 순환 유닛(GRU)"은 순환 신경망에서 게이팅 메커니즘을 지칭한다. GRU는 LSTM보다 작은 데이터 세트에 대해 더 양호한 성능을 발휘할 수 있다. 출력 게이트가 없기 때문에 LSTM보다 파라미터가 적다. https://en.wikipedia.org/wiki/Gated_recurrent_unit 참조

이러한 문맥에서 "순수 염기"는 기본 호출자에 대한 할당 모드를 지칭하며, 이 경우 기본 호출자는 A, C, G, 및 T를 변수 대신 위치에 결정한다.

이러한 문맥에서 "프라이머"는 PCR 반응에서 DNA 폴리메라아제의 프라이밍 부위로서 역할을 하는 DNA의 짧은 단일 가닥을 지칭한다.

이러한 문맥에서 비용 함수 또는 오류 함수(가우스 오류 함수와 혼동하지 말 것)로도 지칭되는 "손실 함수"는 하나 이상의 변수 값을 해당 값과 연관된 일부 "비용"을 직관적으로 나타내는 실수에 매핑하는 함수이다.

도 1을 참조하면, 일 실시예에서 CE 장치(100)는 전압 바이어스 소스(102), 모세관(104), 바디(114), 검출기(106), 샘플 주입 포트(108), 히터(110), 및 분리 매체(112)를 포함한다. 샘플은 히터(110)에 의해 주변 온도보다 높은 온도에서 유지되는 샘플 주입 포트(108)로 주입된다. 일단 주입된 샘플은 분리 매체(112)와 치합하고 성분 분자로 분할된다. 성분은 검출기(106)에 도달할 때까지 전압 바이어스 소스(102)에 의해 확립된 전기장의 영향으로 모세관(104)을 통해 이동한다.

도 2를 참조하면, 일 실시예에서 CE 시스템(200)은 형광 레이블링된 샘플(220)을 초기에 포함하는 소스 버퍼(218), 모세관(222), 대상 버퍼(226), 파워 서플라이(228), 프로세서(208)를 포함하는 컴퓨팅 장치(202), 베이스콜러 알고리즘(204)을 포함하는 메모리(206), 및 제어기(212)를 포함한다. 소스 버퍼(218)는 모세관(222)을 통해 대상 버퍼(226)와 유체 연통한다. 파워 서플라이(228)는 소스 버퍼(218) 및 대상 버퍼(226)에 전압을 인가하여 소스 버퍼(218)의 애노드(230) 및 대상 버퍼(226)의 캐소드(232)를 통해 전압 바이어스를 생성한다. 파워 서플라이(228)에 의해 인가된 전압은 컴퓨팅 장치(202)에 의해 작동되는 제어기(212)에 의해 구성된다. 소스 버퍼(218) 근처의 형광 레이블링된 샘플(220)은 전압 구배에 의해 모세관(222)을 통해 당겨지고 샘플 내의 DNA 단편의 광학 레이블링된 뉴클레오티드는 광학 센서(224)를 통과할 때 검출된다. 형광 레이블링된 샘플(220) 내의 상이한 크기의 DNA 단편은 그 크기로 인해 서로 다른 시간에 모세관을 통해 당겨진다. 광학 센서(224)는 이미지 신호로서 뉴클레오타이드 상의 형광 레이블을 검출하고 이미지 신호를 컴퓨팅 장치(202)에 전달한다. 컴퓨팅 장치(202)는 이미지 신호를 샘플 데이터로서 집합하고 메모리(206)에 저장된 베이스콜러 알고리즘(204)을 이용하여 신경망(210)을 작동시켜 샘플 데이터를 처리된 데이터로 변환하고 디스플레이 장치(214)에 표시될 전기영동도(216)를 생성한다.

도 3을 참조하면, CE 프로세스(300)는 파워 서플라이(306)에 의해 버퍼(302)에 인가되는 전압을 제어하기 위해 구성 제어(318)를 제어기(308)에 전달하는 컴퓨팅 장치(312)를 포함한다. 준비된 형광 레이블링된 샘플이 소스 버퍼에 추가된 후, 제어기(308)는 전압 바이어스/전기적 기울기를 생성하는 버퍼에 전압(322)을 인가하기 위해 작동 제어(320)를 파워 서플라이(306)에 전달한다. 인가된 전압에 의해 형광 레이블링된 샘플(324)은 버퍼(302) 사이의 모세관(304)을 통해 이동하고 광학 센서(310)를 통과한다. 광학 센서(310)는 모세관을 통과하고 이미지 신호(326)를 컴퓨팅 장치(312)에 전달하는 DNA 단편의 뉴클레오타이드 상의 형광 레이블을 검출한다. 컴퓨팅 장치(312)는 추가 처리를 위해 신경망(314)에 전달되는 샘플 데이터(328)를 생성하기 위해 이미지 신호(326)를 집합한다. 신경망(314)은 샘플 데이터(328)(예를 들어, 신호 값)를 처리하여 컴퓨팅 장치(312)에 다시 전달되는 처리된 데이터(330)(예를 들어, 클래스)를 생성한다. 컴퓨팅 장치(312)는 이어서 디스플레이 장치(316)에 전기영동도를 표시하기 위해 디스플레이 제어(332)를 생성한다.

도 4를 참조하면, CE 프로세스(400)는 적어도 하나의 형광 레이블링된 샘플을 시퀀싱하기 위해 모세관 전기영동 기기 작동 파라미터를 구성하는 단계를 포함한다(블록 402). 기기의 구성은 일련의 샘플을 실행하기 위한 플레이트 설정을 생성하거나 가져오고 수집된 이미징 데이터의 처리를 돕기 위해 플레이트 샘플에 레이블을 할당하는 단계를 포함할 수 있다. 프로세스는 또한 소정 시간에 전압 인가를 시작하기 위해 제어기에 구성 제어를 전달하는 단계를 포함할 수 있다. 블록 404에서, CE 프로세스(400)는 형광 레이블링된 샘플을 기기에 로딩한다. 샘플이 기기에 로딩된 후, 기기는 플레이트 웰로부터 모세관으로 샘플을 이송한 후 모세관 전기영동 프로세스의 초반에 시작 버퍼에 모세관을 위치시킬 수 있다. 블록 406에서, CE 프로세스(400)는 모세관의 대향 단부에 위치된 버퍼 용액에 전압을 인가하여 샘플을 모세관에 로딩한 후 기기 실행을 시작하여, 형광 레이블링된 샘플의 DNA 단편을 시작 버퍼로부터 대상 버퍼로 이송하기 위해 전기적 기울기를 형성하고 광학 센서를 횡단한다. 블록 408에서, CE 프로세스(400)는 DNA 단편이 광학 센서를 통해 대상 버퍼를 향해 이동할 때 DNA 단편의 뉴클레오티드 상의 개별 형광 신호를 검출하고 이미지 신호를 컴퓨팅 장치에 전달한다. 블록 410에서, CE 프로세스(400)는 광학 센서로부터 컴퓨팅 장치에 이미지 신호를 집합하고 뉴클레오타이드 DNA 단편의 형광 강도에 대응하는 샘플 데이터를 생성한다. 블록 412에서, CE 프로세스(400)는 특정 시점에서 DNA 단편에 호출된 염기의 식별을 돕기 위해 신경망의 활용을 통해 샘플 데이터를 처리한다. 블록 414에서, CE 프로세스(400)는 디스플레이 장치를 통해 전기영동도를 통해 처리된 데이터를 표시한다.

기본적인 심층 신경망(500)은 생물학적 뇌에서 뉴런을 느슨하게 모델링하는 인공 뉴런이라고 불리는 연결된 유닛 또는 노드의 모음에 기초한다. 생물학적 뇌의 시냅스처럼 각 연결은 하나의 인공 뉴런에서 다른 뉴런으로 신호를 전송할 수 있다. 신호를 수신하는 인공 뉴런은 신호를 처리한 후 이에 연결된 추가 인공 뉴런에 신호를 보낼 수 있다.

일반적인 구현에서, 인공 뉴런 사이의 연결 시 신호는 실수이고, 각 인공 뉴런의 출력은 입력 합계의 일부 비선형 함수(활성화 함수)에 의해 계산된다. 인공 뉴런 사이의 연결을 '에지' 또는 축삭이라고 한다. 인공 뉴런과 에지는 통상적으로 학습이 진행됨에 따라 조정되는 가중치를 갖는다. 가중치는 연결 시 신호의 강도를 증가 또는 감소시킨다. 인공 뉴런은 임계치(트리거 임계치)를 가질 수 있어, 집합 신호가 해당 임계치를 초과하는 경우에만 신호가 전송된다. 통상적으로, 인공 뉴런은 레이어로 집합된다. 서로 다른 레이어는 그 입력에 대해 서로 다른 종류의 변형을 수행할 수 있다. 신호는 아마도 은닉 레이어(504)로 불리우는 하나 이상의 중간 레이어를 횡단한 후에 제1 레이어(입력 레이어(502))로부터 마지막 레이어(출력 레이어(506))로 이동한다.

도 6을 참조하면, 선행 뉴런으로부터 입력을 수신하는 인공 뉴런(600)은 다음 구성요소로 이루어진다:

· 입력 x_i;

· 입력에 적용된 가중치 w_i;

· 학습 기능에 의해 변경되지 않는 한 고정 상태로 유지되는 선택적 임계치(b); 및

· 존재한다면, 이전 뉴런 입력 및 임계치로부터 출력을 계산하는 활성화 함수(602).

입력 뉴런은 선행자를 갖지 않지만 전체 네트워크에 대한 입력 인터페이스로서 역할을 한다. 유사하게, 출력 뉴런은 후속자를 갖지 않으므로 전체 네트워크의 출력 인터페이스로서 역할을 한다.

네트워크는 연결을 포함하며, 각 연결은 한 레이어의 뉴런 출력을 다음 레이어의 뉴런 입력으로 이송한다. 각 연결은 입력 x를 전달하고 가중치 w가 할당된다.

활성화 함수(602)는 종종 선행 뉴런의 입력의 가중 값의 곱의 합의 형태를 갖는다.

학습 규칙은 네트워크에 대한 주어진 입력이 선호하는 출력을 생성하기 위해 신경망의 파라미터를 수정하는 규칙 또는 알고리즘이다. 이러한 학습 프로세스는 통상적으로 네트워크 내의 뉴런 및 연결의 가중치 및 임계치를 수정하는 단계를 포함한다.

도 7은 순환 신경망(700)(RNN)을 도시하고 있다. 변수 x[t]는 단계 t에서의 입력이다. 예를 들어, x[1]은 문장의 제2 단어에 대응하는 원-핫 벡터일 수 있다. 변수 s[t]는 단계 t에서의 은닉 상태이다. 네트워크의 "메모리"이다. 변수 s[t]는 이전 은닉 상태 및 현재 단계에서의 입력에 기초하여 계산된다: s[t]=f(Ux[t] + Ws[t-1]). 활성화 함수 f는 일반적으로 tanh 또는 ReLU와 같은 비선형성이다. 제1 은닉 상태를 계산하는 데 필요한 입력 s(-1)은 통상적으로 모두 제로(0)로 초기화된다. 변수 o[t]는 단계 t에서의 출력이다. 예를 들어, 문장에서 다음 단어를 예측하기 위해, 이는 어휘 전반에 걸친 확률 벡터일 것이다: o[t]=softmax(Vs[t]).

도 8은 양방향 순환 신경망(800)(BRNN)을 도시하고 있다. BRNN은 단계에서의 출력이 시퀀스에서 이전 입력뿐만 아니라 미래 요소에 좌우될 수 있는 상황을 위해 설계된다. 예를 들어, 시퀀스에서 누락 단어를 예측하기 위해, BRNN은 좌우 문맥 둘 모두를 고려할 것이다. BRNN은 출력 Y가 RNN 및 입력 X 둘 모두의 은닉 상태 S에 기초하여 계산되는 2개의 RNN으로 구현될 수 있다. 도 8에 도시된 양방향 순환 신경망(800)에서, 각 노드 A는 통상적으로 그 자체가 신경망이다. 딥 BRNN은 BRNN과 유사하지만 노드 A당 다수의 레이어를 갖는다. 실제로, 이는 더 높은 학습 능력을 가능하게 하지만 또한 단일 레이어 네트워크보다 더 많은 훈련 데이터를 필요로 한다.

도 9는 장단기 메모리(900)(LSTM)가 있는 RNN 아키텍처를 도시하고 있다.

모든 RNN은 반복 노드 사슬의 형태를 가지며, 각 노드는 신경망이다. 표준 RNN에서, 이러한 반복 노드는 탄(tanh) 활성화 함수가 있는 단일 레이어와 같은 구조를 갖는다. 이는 상단 다이어그램에 도시되어 있다. LSTM도 이러한 사슬형 디자인을 갖지만, 반복 노드 A는 일반 RNN과 다른 구조를 갖는다. 단일 신경망 레이어를 갖는 대신, 통상적으로 4개가 있으며 레이어는 특정 방식으로 상호 작용한다.

LSTM에서, 각 경로는 전체 벡터를 하나의 노드의 출력으로부터 다른 노드의 입력으로 전달한다. 점선 박스 외부의 원으로 표시된 함수는 벡터 추가와 같은 점별 연산을 나타내는 반면, 점선 박스 내부의 시그모이드 및 탄 박스는 학습된 신경망 레이어이다. 병합하는 라인은 연결을 나타내는 반면, 라인 분기는 복사되는 값을 나타내며 그 복사본은 다른 위치로 이동한다.

LSTM의 중요한 특징은 장단기 메모리(900)의 상단을 종관하는 수평 라인인 셀 상태 Ct이다(하단 다이어그램). 셀 상태는 컨베이어 벨트와 유사하다. 약간의 작은 선형 상호 작용만으로 전체 사슬에 걸쳐 실행된다. 신호가 그대로 전달되는 것은 전적으로 가능하다. LSTM은 게이트로 불리는 구조에 의해 신중하게 조절되는 셀 상태에 정보를 추가하거나 제거할 수 있다. 게이트는 선택적으로 셀을 통해 정보를 전달하는 방식이다. 통상적으로 시그모이드 신경망 레이어와 점별 곱셈 연산을 사용하여 형성된다.

시그모이드 레이어는 0과 1 사이의 숫자를 출력하여 각 구성요소가 통과해야 하는 정도를 설명한다. 값 0은 "아무것도 통과하지 못함"을 의미하고 값 1은 "모든 것을 통과"를 의미한다. LSTM은 세포 상태를 보호하고 제어하기 위해 3개의 시그모이드 게이트를 갖는다.

도 10을 참조하면, 베이스콜러 시스템(1000)은 입력 세그멘터(1002), 스캔 레이블 모델(1004), 어셈블러(1006), 디코더(1008), 품질 값 모델(1010), 및 시퀀서(1012)를 포함한다.

입력 세그멘터(1002)는 입력 트레이스 시퀀스, 윈도우 크기, 및 스트라이드 길이를 수신한다. 입력 트레이스 시퀀스는 모세관 전기영동(CE) 기기로부터 수집된 염료 상대 형광 유닛(RFU)의 시퀀스이거나 또는 직접 CE 기기에 수집된 미가공 스펙트럼 데이터일 수 있다. 입력 트레이스 시퀀스는 다수의 스캔을 포함한다. 윈도우 크기는 스캔 레이블 모델(1004)에 대한 입력당 스캔 수를 결정한다. 스트라이드 길이는 스캔 레이블 모델(1004)에 대한 윈도우 또는 입력의 수를 결정한다. 입력 세그멘터(1002)는 입력 트레이스 시퀀스, 윈도우 크기, 및 스트라이드 길이를 이용하여 스캔 레이블 모델(1004)로 전송될 입력 스캔 윈도우를 생성한다.

스캔 레이블 모델(1004)은 입력 스캔 윈도우를 수신하고 모든 스캔 윈도우에 대한 스캔 레이블 확률을 생성한다. 스캔 레이블 모델(1004)은 하나 이상의 훈련된 모델을 포함할 수 있다. 모델은 스캔 레이블 확률을 생성하는 데 이용되도록 선택될 수 있다. 모델은 GRU(게이트형 순환 유닛)와 같은 LSTM 또는 유사한 유닛의 하나 이상의 레이어를 갖는 BRNN일 수 있다. 모델은 도 8, 도 9(삭제됨), 및 도 9에 도시된 것과 유사한 구조를 가질 수 있다. 모델은 입력 스캔 윈도우에서 모든 스캔에 대한 레이블 확률을 출력하는 LSTM BRNN의 출력 레이어로서 소프트맥스 레이어를 추가로 이용할 수 있다. 스캔 레이블 모델(1004)은 도 11에 도시된 프로세스에 따라 훈련될 수 있다. 스캔 레이블 확률은 그 후 어셈블러(1006)로 전송된다.

어셈블러(1006)는 스캔 레이블 확률을 수신하고 모든 스캔 윈도우에 대한 레이블 확률을 함께 조합하여 시퀀싱 샘플의 전체 트레이스에 대한 레이블 확률을 구성한다. 조합된 스캔 윈도우에 대한 스캔 레이블 확률은 그 후 디코더(1008) 및 품질 값 모델(1010)로 전송된다.

디코더(1008)는 조합된 스캔 윈도우에 대한 스캔 레이블 확률을 수신한다. 그 후, 디코더(1008)는 스캔 레이블 확률을 입력 트레이스 시퀀스에 대한 베이스콜에 디코딩한다. 디코더(1008)는 시퀀싱 샘플에 대한 베이스콜을 찾기 위해 조합된 레이블 확률에 대한 프리픽스 빔 탐색 또는 다른 디코더를 이용할 수 있다. 입력 트레이스 시퀀스 및 조합된 스캔 윈도우에 대한 베이스콜은 그 후 시퀀서(1012)로 전송된다.

품질 값 모델(1010)은 조합된 스캔 윈도우에 대한 스캔 레이블 확률을 수신한다. 그 후, 품질 값 모델(1010)은 추정된 베이스콜링 오류 확률을 생성한다. 추정된 베이스콜링 오류 확률은 다음 식에 의해 Phred 스타일의 품질 스코어로 변환될 수 있다: QV = -10 x log (Probability of Error). 품질 값 모델(1010)은 컨벌루션 신경망일 수 있다. 품질 값 모델(1010)은 로지스틱 회귀 레이어가 있는 수 개의 은닉 레이어를 가질 수 있다. 시그모이드 함수와 같은 가설 함수는 입력 스캔 확률에 기초하여 추정된 오류 확률을 예측하기 위해 로지스틱 회귀 레이어에서 이용될 수 있다. 품질 값 모델(1010)은 이용되도록 선택될 수 있는 하나 이상의 훈련된 모델을 포함할 수 있다. 선택은 최소 평가 손실 또는 오류율에 기초할 수 있다. 품질 값 모델(1010)은 도 12에 도시된 프로세스에 따라 훈련될 수 있다. 그 후, 추정된 베이스콜링 오류 확률은 조합된 스캔 윈도우에 대한 베이스콜과 연관된다.

시퀀서(1012)는 입력 트레이스 시퀀스, 조합된 스캔 윈도우, 및 추정된 베이스콜링 오류 확률에 대한 베이스콜을 수신한다. 그 후, 시퀀서(1012)는 CTC 네트워크로부터의 출력 레이블 확률 및 디코더로부터의 베이스콜에 기초하여 베이스콜에 대한 스캔 위치를 찾는다. 시퀀서(1012)는 데큐 맥스 파인더 알고리즘을 이용할 수 있다. 따라서, 시퀀서(1012)는 출력 베이스콜 시퀀스 및 추정된 오류 확률을 생성한다.

일부 실시예에서, 예를 들어 노이즈, 스파이크, 염료 블롭 또는 다른 데이터 아티팩트 또는 시뮬레이션된 시퀀싱 트레이스를 추가하는 데이터 증강 기술이 활용될 수 있다. 이러한 기술은 베이스콜러 시스템(1000)의 강건성을 향상시킬 수 있다. 생성적 적대망(GAN)은 이러한 기술을 구현하는 데 이용될 수 있다.

도 11을 참조하면, 스캔 레이블 모델 훈련 방법(1100)은 데이터 세트를 수신한다(블록 1102). 데이터 세트는 순수 염기 데이터 세트 및 혼합 염기 데이터 세트를 포함할 수 있다. 예를 들어, 순수 염기 데이터 세트는 ~49M 베이스콜을 포함할 수 있고 혼합 염기 데이터 세트는 ~13.4M 베이스콜을 포함할 수 있다. 혼합 염기 데이터 세트는 경우에 따라 혼합 염기가 있는 주로 순수 염기로 구성될 수 있다. 데이터 세트에서 각 샘플의 경우, 전체 트레이스를 스캔 윈도우로 분할한다(블록 1104). 각 스캔 윈도우에는 500 스캔이 있을 수 있다. 트레이스는 전처리된 염료 RFU의 시퀀스일 수 있다. 부가적으로, 각 샘플에 대한 스캔 윈도우를 250 스캔만큼 시프팅하여 훈련 시 스캔 위치의 편향을 최소화할 수 있다. 그 후, 주석이 달린 베이스콜을 각 스캔 윈도우에 대해 결정한다(블록 1106). 이들은 훈련 중에 타겟 시퀀스로서 이용된다. 그 후, 훈련 샘플을 구성한다(블록 1108). 이들 각각은 500 스캔 및 각각의 주석이 달린 베이스콜이 있는 스캔 윈도우를 포함할 수 있다. 하나 이상의 LSTM 레이어를 갖는 BRNN을 초기화한다(블록 1110). BRNN은 게이트형 순환 유닛(GRU)과 같은 LSTM과 유사한 다른 유닛을 이용할 수 있다. 소프트맥스 레이어는 입력 스캔 윈도우에서 모든 스캔에 대한 레이블 확률을 출력하는 LSTM BRNN의 출력 레이어로서 이용될 수 있다. 그 후, 훈련 샘플을 BRNN에 적용한다(블록 1112). 입력 스캔 윈도우에서 모든 스캔에 대한 레이블 확률을 출력한다(블록 1114). 출력 스캔 레이블 확률과 타겟의 주석이 달린 베이스콜 사이의 손실이 계산된다. 연결주의 시간 분류(CTC) 손실 함수는 출력 스캔 레이블 확률과 타겟의 주석이 달린 베이스콜 사이의 손실을 계산하는 데 이용될 수 있다. 그 후, 훈련 샘플의 미니 배치를 선택한다(블록 1118). 미니 배치는 각 훈련 단계에서 훈련 데이터 세트로부터 무작위로 선택될 수 있다. 훈련 샘플의 미니 배치에 대한 CTC 손실을 최소화하기 위해 네트워크의 가중치를 업데이트한다(블록 1120). 아담 옵티마이저 또는 다른 경사 하강법 옵티마이저를 이용하여 가중치를 업데이트할 수 있다. 그 후, 네트워크를 모델로서 저장한다(블록 1122). 일부 실시예에서, 모델은 특정 훈련 단계 동안 저장된다. 스캔 레이블 모델 훈련 방법(1100)은 그 후 소정 수의 훈련 단계에 도달했는지 여부를 결정한다(판단 블록 1124). 그렇지 않다면, 스캔 레이블 모델 훈련 방법(1100)은 업데이트된 가중치를 갖는 네트워크를 이용하여 블록 1112으로부터 재수행된다(즉, 네트워크의 다음 반복). 소정 수의 훈련 단계가 수행되면, 저장된 모델을 평가한다(블록 1126). 평가는 훈련 프로세스에 포함되지 않은 검증 데이터 세트에서 독립적인 샘플 서브세트를 이용하여 수행될 수 있다. 그 후, 훈련된 모델로부터의 최소 평가 손실 또는 오류율에 기초하여 최상의 훈련된 모델을 선택한다. 이러한 모델(들)은 베이스콜러 시스템(1000)에 의해 이용될 수 있다.

일부 실시예에서, 예를 들어 생성적 적대망(GAN)에 의해 노이즈, 스파이크, 염료 블롭 또는 다른 데이터 아티팩트 또는 시뮬레이션된 시퀀싱 트레이스를 추가하는 데이터 증강 기술이 모델의 강건성을 향상시키는 데 활용될 수 있다. 또한, 훈련 중에 드롭 아웃 또는 가중치 감쇠와 같은 다른 기술을 사용하여 모델의 일반성을 개선할 수 있다.

도 12를 참조하면, QV 모델 훈련 방법(1200)은 훈련된 네트워크 및 디코더를 이용하여 스캔 레이블 확률, 베이스콜, 및 이들의 스캔 위치를 계산한다(블록 1202). 훈련된 네트워크 및 디코더는 도 10에 도시된 것일 수 있다. 훈련 샘플을 QV 훈련을 위해 구성한다(블록 1204). 각 베이스콜에 대한 중앙 스캔 위치 주변의 스캔 확률을 이용할 수 있으며 모든 베이스콜은 올바른 베이스콜 또는 잘못된 베이스콜의 두 가지 범주로 할당될 수 있다. 로지스틱 회귀 레이어가 있는 수 개의 은닉 레이어를 갖는 컨벌루션 신경망(CNN)이 훈련되도록 이용될 수 있다(블록 1206). CNN 및 로지스틱 회귀 레이어를 초기화할 수 있다. 추정된 오류 확률을 입력 스캔 확률에 기초하여 예측할 수 있다(블록 1208). 시그모이드 함수와 같은 가설 함수는 입력 스캔 확률에 기초하여 추정된 오류 확률을 예측하기 위해 로지스틱 회귀 레이어에서 이용될 수 있다. 예측된 오류 확률과 베이스콜 범주 사이의 손실을 계산한다(블록 1210). 로지스틱 손실(또는 교차 엔트로피 손실이라고 함)과 같은 로지스틱 회귀에 대한 비용 함수를 사용하여 예측된 오류 확률과 베이스콜 범주 사이의 손실을 계산할 수 있다.

그 후, 훈련 샘플의 미니 배치를 선택한다(블록 1212). 미니 배치는 각 훈련 단계에서 훈련 데이터 세트로부터 무작위로 선택될 수 있다. 훈련 샘플의 미니 배치에 대한 로지스틱 손실을 최소화하기 위해 네트워크의 가중치를 업데이트한다(블록 1214). 아담 옵티마이저 또는 다른 경사 하강법 옵티마이저를 이용하여 가중치를 업데이트할 수 있다. 그 후, 네트워크를 모델로서 저장한다(블록 1216). 일부 실시예에서, 모델은 특정 훈련 단계 동안 저장된다. QV 모델 훈련 방법(1200)은 그 후 소정 수의 훈련 단계에 도달했는지 여부를 결정한다(판단 블록 1218). 그렇지 않다면, QV 모델 훈련 방법(1200)은 업데이트된 가중치를 갖는 네트워크를 이용하여 블록 1206으로부터 재수행된다(즉, 네트워크의 다음 반복). 소정 수의 훈련 단계가 수행되면, 저장된 모델을 평가한다(블록 1220). 모델은 훈련 프로세스에 포함되지 않은 검증 데이터 세트에서 독립적인 샘플 서브세트에 의해 평가될 수 있다. 선택된 훈련된 모델은 평가 손실 또는 오류율이 최소인 모델일 수 있다.

도 13은 본 발명의 실시예를 포함할 수 있는 컴퓨팅 장치(1300)의 예시적인 블록도이다. 도 13은 본원에 설명된 기술 프로세스의 양태를 수행하기 위한 기계 시스템의 예시일 뿐이며 청구범위의 적용 범위를 제한하지 않는다. 당업자는 다른 변형, 수정, 및 대안을 인식할 것이다. 일 실시예에서, 컴퓨팅 장치(1300)는 통상적으로 모니터 또는 그래픽 사용자 인터페이스(1302), 데이터 처리 시스템(1320), 통신 네트워크 인터페이스(1312), 입력 장치(들)(1308), 출력 장치(들)(1306) 등을 포함한다.

도 13에 도시된 바와 같이, 데이터 처리 시스템(1320)은 버스 서브시스템(1318)을 통해 다수의 주변 장치와 통신하는 하나 이상의 프로세서(들)(1304)를 포함할 수 있다. 이러한 주변 장치는 입력 장치(들)(1308), 출력 장치(들)(1306), 통신 네트워크 인터페이스(1312), 및 휘발성 메모리(1310) 및 비휘발성 메모리(1314)와 같은 저장 서브시스템을 포함할 수 있다.

휘발성 메모리(1310) 및/또는 비휘발성 메모리(1314)는 컴퓨터 실행 가능 명령어를 저장할 수 있고, 이에 따라 프로세서(들)(1304)에 의해 적용되고 이에 의해 실행될 때 본원에 개시된 프로세스의 실시예를 구현하는 로직(1322)을 형성할 수 있다.

입력 장치(들)(1308)는 데이터 처리 시스템(1320)에 정보를 입력하기 위한 장치 및 메커니즘을 포함한다. 이들은 키보드, 키패드, 모니터 또는 그래픽 사용자 인터페이스(1302)에 통합된 터치 스크린, 음성 인식 시스템과 같은 오디오 입력 장치, 마이크, 및 기타 유형의 입력 장치를 포함할 수 있다. 다양한 실시예에서, 입력 장치(들)(1308)는 컴퓨터 마우스, 트랙볼, 트랙 패드, 조이스틱, 무선 원격, 드로잉 태블릿, 음성 명령 시스템, 아이 트랙킹 시스템 등으로 구현될 수 있다. 입력 장치(들)(1308)를 통해 통상적으로 사용자는 버튼 등의 클릭과 같은 명령을 통해 모니터 또는 그래픽 사용자 인터페이스(1302)에 나타나는 객체, 아이콘, 제어 영역, 텍스트 등을 선택할 수 있다.

출력 장치(들)(1306)는 데이터 처리 시스템(1320)으로부터 정보를 출력하기 위한 장치 및 메커니즘을 포함한다. 이들은 모니터 또는 그래픽 사용자 인터페이스(1302), 스피커, 프린터, 적외선 LED 등을 포함할 수 있을 뿐만 아니라 당업계에 잘 알려져 있다.

통신 네트워크 인터페이스(1312)는 통신 네트워크(예를 들어, 통신 네트워크(1316)) 및 데이터 처리 시스템(1320) 외부의 장치에 인터페이스를 제공한다. 통신 네트워크 인터페이스(1312)는 다른 시스템으로부터 데이터를 수신하고 이에 데이터를 전송하기 위한 인터페이스로서 역할을 할 수 있다. 통신 네트워크 인터페이스(1312)의 실시예는 이더넷 인터페이스, 모뎀(전화, 위성, 케이블, ISDN), (비동기) 디지털 가입자 회선(DSL), 파이어와이어, USB, 블루투스 또는 WiFi와 같은 무선 통신 인터페이스, 근거리 통신 무선 인터페이스, 셀룰러 인터페이스 등을 포함할 수 있다.

통신 네트워크 인터페이스(1312)는 안테나, 케이블 등을 통해 통신 네트워크(1316)에 결합될 수 있다. 일부 실시예에서, 통신 네트워크 인터페이스(1312)는 데이터 처리 시스템(1320)의 회로 보드 상에 물리적으로 통합될 수 있거나, 일부 경우에 "소프트 모뎀" 등과 같은 소프트웨어 또는 펌웨어로 구현될 수 있다.

컴퓨팅 장치(1300)는 HTTP, TCP/IP, RTP/RTSP, IPX, UDP 등과 같은 프로토콜을 사용하여 네트워크를 통한 통신을 가능하게 하는 로직을 포함할 수 있다.

휘발성 메모리(1310) 및 비휘발성 메모리(1314)는 본원에 설명된 프로세스의 양태를 구현하기 위해 로직을 형성하는 컴퓨터 판독 가능 데이터 및 명령어를 저장하도록 구성된 유형 매체의 예이다. 다른 유형의 유형 매체는 리무버블 메모리(예를 들어, 플러그형 USB 메모리 장치, 모바일 장치 SIM 카드), CD-ROMS와 같은 광학 저장 매체, DVD, 플래시 메모리와 같은 반도체 메모리, 비일시적 리드 온리 메모리(ROMS), 배터리 지원 휘발성 메모리, 네트워크 저장 장치 등을 포함한다. 휘발성 메모리(1310) 및 비휘발성 메모리(1314)는 본 발명의 범위에 속하는 개시된 프로세스 및 다른 실시예의 기능을 제공하는 기본 프로그래밍 및 데이터 구조를 저장하도록 구성될 수 있다.

본 발명의 실시예를 구현하는 로직(1322)은 컴퓨터 판독 가능 명령어를 저장하는 휘발성 메모리(1310) 및/또는 비휘발성 메모리(1314)에 의해 형성될 수 있다. 이러한 명령어는 휘발성 메모리(1310) 및/또는 비휘발성 메모리(1314)로부터 판독될 수 있고 프로세서(들)(1304)에 의해 실행될 수 있다. 휘발성 메모리(1310) 및 비휘발성 메모리(1314)는 또한 로직(1322)에 의해 사용되는 데이터를 저장하기 위한 저장소를 제공할 수 있다.

휘발성 메모리(1310) 및 비휘발성 메모리(1314)는 프로그램 실행 중 명령어 및 데이터를 저장하기 위한 메인 랜덤 액세스 메모리(RAM) 및 리드 온리 비일시적 명령어가 저장되는 리드 온리 메모리(ROM)를 비롯하여 다수의 메모리를 포함할 수 있다. 휘발성 메모리(1310) 및 비휘발성 메모리(1314)는 프로그램 및 데이터 파일을 위해 영구(비휘발성) 스토리지를 제공하는 파일 저장 서브시스템을 포함할 수 있다. 휘발성 메모리(1310) 및 비휘발성 메모리(1314)는 리무버블 플래시 메모리와 같은 리무버블 저장 시스템을 포함할 수 있다.

버스 서브시스템(1318)은 데이터 처리 시스템(1320)의 다양한 구성요소 및 서브시스템이 의도대로 서로 통신하게 할 수 있는 메커니즘을 제공한다. 통신 네트워크 인터페이스(1312)가 단일 버스로서 개략적으로 도시되어 있지만, 버스 서브시스템(1318)의 일부 실시예는 다수의 별개의 버스를 이용할 수 있다.

컴퓨팅 장치(1300)가 스마트폰, 데스크톱 컴퓨터, 랩톱 컴퓨터, 랙 장착형 컴퓨터 시스템, 컴퓨터 서버, 또는 태블릿 컴퓨터 장치와 같은 장치일 수 있음은 당업자에게 기꺼이 명백할 것이다. 당업계에 일반적으로 알려진 바와 같이, 컴퓨팅 장치(1300)는 다수의 네트워크화된 컴퓨팅 장치의 모음으로서 구현될 수 있다. 더 나아가, 컴퓨팅 장치(1300)는 통상적으로 해당 기술 분야에 잘 알려진 유형 및 특성을 갖는 운영 체제 로직(미도시)을 포함할 것이다.

예시적인 실시예

새로운 딥 러닝 기반 베이스콜러인 딥 베이스콜러는 특히 5' 및 3' 말단에서 혼합 베이스콜링 정확도 및 순수 베이스콜링 정확도를 개선하고 모세관 전기영동 기기에서 생어 시퀀싱 데이터의 판독 길이를 늘리기 위해 개발되었다.

장단기 메모리(LSTM) 유닛이 있는 양방향 순환 신경망(BRNN)은 CE 기기로부터 수집된 염료 RFU(상대 형광 유닛)의 입력 시퀀스를 베이스콜의 출력 시퀀스로 변환하여 생어 시퀀싱 데이터를 베이스콜링하도록 성공적으로 엔지니어링되었다. 순수 염기 데이터 세트에 대해 ~49M 베이스콜 및 혼합 염기 데이터 세트에 대해 ~13.4M 베이스콜을 포함하는 대규모의 주석이 달린 생어 시퀀싱 데이터 세트를 사용하여 새로운 딥 러닝 기반 베이스콜러를 훈련하고 테스트했다.

다음은 딥 베이스콜러에 사용되는 알고리즘의 예시적인 작업 흐름이다.

1. 순수 또는 혼합 염기 데이터 세트의 각 샘플의 경우, 전체 분석된 트레이스, 전처리된 염료 RFU(상대 형광 유닛)의 시퀀스를 길이가 500 스캔인 스캔 윈도우로 분할한다. 각 샘플에 대한 스캔 윈도우를 250 스캔만큼 시프팅하여 훈련 시 스캔 위치의 편향을 최소화할 수 있다.

2. 훈련 중 타겟 시퀀스로서 각 스캔 윈도우에 대해 주석이 달린 베이스콜을 결정한다.

3. 훈련 샘플을 구성하고, 이들 각각은 500 스캔 및 각각의 주석이 달린 베이스콜이 있는 스캔 윈도우를 구성할 수 있다.

4. 훈련될 네트워크로서 GRU(게이트형 순환 유닛)와 같은 LSTM 또는 유사한 유닛의 하나 이상의 레이어를 갖는 양방향 순환 신경망(BRNN)을 사용한다.

5. 입력 스캔 윈도우에서 모든 스캔에 대한 레이블 확률을 출력하는 LSTM BRNN의 출력 레이어로서 소프트맥스 레이어를 사용한다.

6. 연결주의 시간 분류(CTC) 손실 함수를 적용하여 출력 스캔 레이블 확률과 타겟의 주석이 달린 베이스콜 사이의 손실을 계산한다.

7. 경사 하강법 옵티마이저를 사용하여 위에서 설명된 네트워크의 가중치를 업데이트해서 각 훈련 단계에서 훈련 데이터 세트로부터 무작위로 선택되는 훈련 샘플의 미니 배치에 대한 CTC 손실을 최소화한다.

8. 미리 정해진 수의 훈련 단계에 도달할 때까지 훈련 프로세스를 계속하고 지정된 훈련 단계에 대해 훈련된 네트워크를 저장한다.

9. 훈련 프로세스에 포함되지 않은 검증 데이터 세트에서 독립적인 샘플 서브세트에 의해 훈련 프로세스 중에 저장되는 훈련 모델을 평가한다. 최소 평가 손실 또는 오류율이 있는 훈련된 모델을 최상의 훈련된 모델로서 선택한다.

10. 시퀀싱 샘플의 경우, 전체 트레이스를 500 스캔이 250 스캔만큼 시프팅되는 스캔 윈도우로 분할한다. 선택된 훈련된 모델을 해당 스캔 윈도우에 적용하여 모든 스캔 윈도우에 대한 스캔 레이블 확률을 출력한다.

11. 모든 스캔 윈도우에 대한 레이블 확률을 함께 조합하여 시퀀싱 샘플의 전체 트레이스에 대한 레이블 확률을 구성한다.

12. 시퀀싱 샘플에 대한 베이스콜을 찾기 위해 조합된 레이블 확률에 대한 프리픽스 빔 탐색 또는 다른 디코더를 사용한다.

13. 데큐 맥스 파인더 알고리즘을 사용하여 CTC 네트워크로부터의 출력 레이블 확률 및 디코더로부터의 베이스콜에 기초하여 모든 베이스콜에 대한 스캔 위치를 찾는다.

14. 위에서 설명된 딥 러닝 모델은 베이스콜러(예를 들어, KB 베이스콜러)에 의한 처리 전에 CE 기기에서 직접 수집된 미가공 트레이스(미가공 염료 RFU의 시퀀스) 또는 미가공 스펙트럼 데이터에 적용될 수 있다.

15. 예를 들어 생성적 적대망(GAN)에 의해 노이즈, 스파이크, 염료 블롭 또는 다른 데이터 아티팩트 또는 시뮬레이션된 시퀀싱 트레이스를 추가하는 데이터 증강 기술은 훈련된 딥 베이스콜러의 강건성을 향상시키는 데 사용될 수 있다.

16. 훈련 중, 드롭 아웃 또는 가중치 감쇠와 같은 기술을 사용하여 훈련된 딥 베이스콜러의 일반성을 개선할 수 있다.

다음은 딥 베이스콜러의 품질 값(QV) 알고리즘에 대한 예시 세부사항이다.

1. 훈련 세트에서 모든 샘플에 훈련된 CTC 네트워크 및 디코더를 적용하여 스캔 레이블 확률, 베이스콜 및 이들의 스캔 위치를 획득/계산한다.

2. 각 베이스콜에 대한 중앙 스캔 위치 주변의 스캔 확률을 이용하여 QV 훈련을 위한 훈련 샘플을 구성하고 모든 베이스콜을 올바른 베이스콜 또는 잘못된 베이스콜의 두 가지 범주로 할당한다.

3. 로지스틱 회귀 레이어가 있는 수 개의 은닉 레이어를 갖는 컨벌루션 신경망을 훈련될 네트워크로서 사용한다.

4. 시그모이드 함수와 같은 가설 함수는 입력 스캔 확률에 기초하여 추정된 오류 확률을 예측하기 위해 로지스틱 회귀 레이어에서 사용될 수 있다. 로지스틱 손실(또는 교차 엔트로피 손실이라고 함)과 같은 로지스틱 회귀에 대한 비용 함수를 사용하여 예측된 오류 확률과 베이스콜 범주 사이의 손실을 계산할 수 있다.

5. 아담 옵티마이저 또는 다른 경사 하강법 옵티마이저를 사용하여 위에서 설명된 네트워크의 가중치를 업데이트해서 각 훈련 단계에서 훈련 데이터 세트로부터 무작위로 선택되는 훈련 샘플의 미니 배치에 대한 로지스틱 손실을 최소화한다.

6. 미리 정해진 수의 훈련 단계에 도달할 때까지 훈련 프로세스를 계속하고 지정된 훈련 단계에 대해 훈련된 네트워크를 저장한다.

7. 훈련 프로세스에 포함되지 않은 검증 데이터 세트에서 독립적인 샘플 서브세트에 의해 훈련 프로세스 중에 저장되는 훈련 모델을 평가한다. 최소 평가 손실 또는 오류율이 있는 훈련된 모델을 최상의 훈련된 모델로서 선택한다.

8. 훈련된 QV 모델은 베이스콜 위치 주변의 스캔 확률을 입력으로서 취한 후, 다음 식에 의해 Phred 스타일의 품질 스코어로 변환될 수 있는 추정된 베이스콜링 오류 확률을 출력한다:

QV = -10 x log (Probability of Error).

딥 베이스콜러는 위에서 설명된 딥 러닝 접근법을 사용하여 스캔 확률, 이들의 스캔 위치를 갖는 베이스콜 및 품질 값을 생성할 수 있다.

대안적인 실시예

LSTM BRNN 또는 주의 메커니즘이 있거나 없는 인코더-디코더 모델과 같은 시퀀스 대 시퀀스 아키텍처가 있는 GRU BRNN과 같은 유사한 네트워크는 생어 시퀀싱 데이터를 베이스콜링하기 위해 사용될 수도 있다.

세그먼트 순환 신경망(SRNN)은 딥 베이스콜러에도 사용될 수 있다. 이러한 접근법에서, 양방향 순환 신경망은 입력 트레이스 또는 입력 트레이스 세그먼트의 연속 서브시퀀스에 대한 "세그먼트 임베딩"을 계산하는 데 사용되며, 이는 출력 베이스콜과의 호환성 스코어를 정의하는 데 사용될 수 있다. 그 후, 호환성 스코어를 통합하여 세그먼트의 입력 및 베이스콜의 세분화에 대한 조인트 확률 분포를 출력한다.

음성 인식에서 멜 주파수 켑스트럼 계수(MFCC)와 유사한 중첩된 스캔 세그먼트의 주파수 데이터를 딥 베이스콜러에 대한 입력으로서 사용할 수 있다. 단순 컨벌루션 신경망 또는 기타 단순 네트워크를 중첩된 스캔 세그먼트에서 사용하여 국부적 특징을 학습한 후, LSTM BRNN 또는 유사한 네트워크에 대한 입력으로서 사용되어 딥 베이스콜러를 훈련시킬 수 있다.

스캔 및 베이스콜이 정렬되거나 베이스콜에 대한 스캔 경계가 훈련 데이터 세트에 대해 알려진 경우, 소프트맥스 교차 엔트로피 손실 함수와 같은 CTC 손실 이외의 손실 함수를 LSTM BRNN 또는 유사한 네트워크와 함께 사용할 수 있으며, 이러한 네트워크를 훈련하여 스캔을 베이스콜로 분류할 수 있다. 대안적으로, R-CNN(영역 기반 컨벌류션 신경망)과 같은 컨벌루션 신경망을 훈련하여 스캔을 분할한 후 각 스캔 세그먼트를 베이스콜링할 수 있다.

구현 및 추가 용어

본원에 사용된 용어는 관련 기술에서의 일반적인 의미 또는 문맥에서 사용에 의해 표시되는 의미와 부합되어야 하지만, 명시적 정의가 제공되는 경우 해당 의미가 우선적이다.

이러한 문맥에서 "회로"는 적어도 하나의 이산 전기 회로를 갖는 전기 회로, 적어도 하나의 집적 회로를 갖는 전기 회로, 적어도 하나의 주문형 집적 회로를 갖는 전기 회로, 컴퓨터 프로그램에 의해 구성된 범용 컴퓨팅 장치(예를 들어, 본원에 설명된 프로세스 또는 장치를 적어도 부분적으로 수행하는 컴퓨터 프로그램에 의해 구성된 범용 컴퓨터, 또는 본원에 설명된 프로세스 또는 장치를 적어도 부분적으로 수행하는 컴퓨터 프로그램에 의해 구성된 마이크로프로세서)를 형성하는 회로, 메모리 장치(예를 들어, 랜덤 액세스 메모리의 형태)를 형성하는 회로, 또는 통신 장치(예를 들어, 모뎀, 통신 스위치, 또는 광학 전기 장비)를 형성하는 회로를 지칭한다.

이러한 문맥에서 "펌웨어"는 리드 온리 메모리 또는 매체에 저장된 프로세서 실행 가능 명령어로 구현된 소프트웨어 로직을 지칭한다.

이러한 문맥에서 "하드웨어"는 아날로그 또는 디지털 회로로 구현된 로직을 지칭한다.

이러한 문맥에서 "로직"은 재료 및/또는 재료 에너지 구성을 통해 장치의 작동에 영향을 주도록 적용될 수 있는 제어 및/또는 절차 신호, 및/또는 설정 및 값(예를 들어, 저항, 임피던스, 정전용량, 인덕턴스, 전류/전압 정격 등)을 포함하는 기계 메모리 회로, 비일시적 기계 판독 가능 매체, 및/또는 회로를 지칭한다. 자기 매체, 전자 회로, 전기 및 광학 메모리(휘발성 및 비휘발성 모두), 및 펌웨어는 로직의 예이다. 로직은 구체적으로, 순수한 신호 또는 소프트웨어 그 자체는 배제한다(그러나, 소프트웨어를 포함하여 물질의 구성을 형성하는 기계 메모리를 배제하지 않음).

이러한 문맥에서 "소프트웨어"는 기계 메모리(예를 들어, 읽기/쓰기 휘발성 또는 비휘발성 메모리 또는 매체)에서 프로세서 실행 가능 명령어로 구현된 로직을 지칭한다.

본원에서, "하나의 실시예" 또는 "일 실시예"에 대한 언급은 반드시 동일한 실시예를 지칭하는 것은 아니지만, 동일할 수도 있다. 문맥 상 명백히 달리 요구되지 않는 한, 설명 및 청구범위 전체에 걸쳐 "포함하다", "포함하는" 등의 단어는 배타적이거나 철저한 의미가 아닌 포괄적인 의미로, 즉 "포함하지만 이에 제한되지 않는" 의미로, 해석되어야 한다. 단수 또는 복수를 사용하는 단어는 또한 단일 또는 복수로 명시적으로 제한되지 않는 한 각각 복수 또는 단수를 포함한다. 부가적으로, "여기", "위", "아래" 및 이와 유사한 의미의 단어는 이러한 적용분야에서 사용될 때 이러한 적용분야의 특정 부분이 아닌 전체로서 이러한 적용분야를 지칭한다. 청구범위에서 둘 이상의 항목 목록과 관련하여 "또는"이란 단어를 사용하는 경우 해당 단어는 다음과 같은 단어의 모든 해석을 포함한다: 하나 또는 다른 항목으로 명시적으로 제한되지 않는 한 목록의 항목, 목록의 모든 항목 및 목록의 항목의 임의의 조합. 본원에서 명시적으로 정의되지 않은 모든 용어는 관련 기술(들)의 당업자에 의해 일반적으로 이해되는 통상적인 의미를 갖는다.

본원에 설명된 다양한 로직 기능 연산은 이러한 연산 또는 기능을 반영하는 명사 또는 명사구를 사용하여 언급되는 로직으로 구현될 수 있다. 예를 들어, 연관 연산은 "연관자"또는 "상관자"에 의해 수행될 수 있다. 마찬가지로, 전환은 "스위치"에 의해 수행되고 선택은 "선택기"에 의해 수행되고, 등등으로 이루어질 수 있다.

Claims

신경망 제어 시스템으로서,
생어 시퀀서(Sanger Sequencer)에 결합되고 생물학적 샘플에 대한 트레이스(trace)를 생성하는 트레이스 생성기;
상기 트레이스를 스캔 윈도우로 분할하기 위한 세그멘터(segmenter);
상기 스캔 윈도우를 시프팅시키기 위한 얼라이너(aligner);
훈련에 사용하기 위해 타겟의 주석이 달린(annotated) 베이스콜(basecall)을 생성하기 위해 상기 스캔 윈도우의 각각에 대한 연관된 주석이 달린 베이스콜을 결정하기 위한 로직(logic);
양방향 순환 신경망(BRNN)으로서, 상기 BRNN은,
적어도 하나의 장단기 메모리(LSTM) 또는 일반 순환 유닛(GRU) 레이어(layer);
스캔 윈도우에서 모든 스캔에 대한 스캔 레이블(label) 확률을 출력하도록 구성된 출력 레이어; 및
상기 출력 스캔 레이블 확률과 상기 타겟의 주석이 달린 베이스콜 사이의 손실을 계산하기 위한 CTC 손실 함수를 포함하는, 양방향 순환 신경망(BRNN); 및
상기 BRNN의 가중치를 업데이트하여 각 훈련 단계에서 상기 타겟의 주석이 달린 베이스콜로부터 무작위로 선택된 훈련 샘플의 미니배치(minibatch)에 대한 손실을 최소화하기 위해 상기 BRNN에 대해 폐쇄 루프 피드백 제어로 구성된 경사 하강법 옵티마이저(gradient descent optimizer)를 포함하는, 신경망 제어 시스템.
제1항에 있어서,
250 스캔만큼 시프팅된 500 스캔을 포함하는 상기 스캔 윈도우의 각각을 더 포함하는, 시스템.
제1항에 있어서,
상기 전체 트레이스에 대한 레이블 확률을 생성하기 위해 모든 스캔 윈도우에 대한 상기 레이블 확률을 조합하기 위한 집합자(aggregator)를 더 포함하는, 시스템.
제3항에 있어서,
상기 CTC 손실 함수 및 상기 베이스콜의 출력에 기초하여 상기 베이스콜에 대한 스캔 위치를 식별하기 위한 데큐 맥스 파인더(dequeue max finder) 알고리즘을 더 포함하는, 시스템.
제3항에 있어서,
상기 전체 트레이스에 대한 상기 레이블 확률을 상기 생물학적 샘플에 대한 베이스콜로 변환하기 위한 프리픽스 빔 탐색 디코더(prefix beam search decoder)를 더 포함하는, 시스템.
제5항에 있어서, 상기 베이스콜은 상기 생물학적 샘플의 5' 및 3' 말단에 있는, 시스템.
제1항에 있어서, 상기 트레이스는 미가공 염료 RFU의 시퀀스인, 시스템.
제1항에 있어서, 상기 트레이스는 하나 이상의 모세관 전기영동 유전자 분석기로부터 수집된 미가공 스펙트럼 데이터인, 시스템.
제1항에 있어서,
상기 트레이스에 노이즈를 투입하도록 구성된 적어도 하나의 생성적 적대망(generative adversarial network)을 더 포함하는, 시스템.
제1항에 있어서,
상기 트레이스에 스파이크를 투입하도록 구성된 적어도 하나의 생성적 적대망을 더 포함하는, 시스템.
제1항에 있어서,
상기 트레이스에 염료 블롭 아티팩트(dye blob artifact)를 투입하도록 구성된 적어도 하나의 생성적 적대망을 더 포함하는, 시스템.
프로세스 제어 방법으로서,
생어 시퀀서를 작동하여 생물학적 샘플에 대한 트레이스를 생성하는 단계;
상기 트레이스를 스캔 윈도우로 분할하는 단계;
상기 스캔 윈도우를 시프팅하는 단계;
타겟의 주석이 달린 베이스콜을 생성하기 위해 상기 스캔 윈도우의 각각에 대한 연관된 주석이 달린 베이스콜을 결정하는 단계;
양방향 순환 신경망(BRNN)에 상기 스캔 윈도우를 입력하는 단계로서, 상기 BRNN은,
적어도 하나의 장단기 메모리(LSTM) 또는 일반 순환 유닛(GRU) 레이어;
스캔 윈도우에서 모든 스캔에 대한 스캔 레이블 확률을 출력하도록 구성된 출력 레이어; 및
상기 출력 스캔 레이블 확률과 상기 타겟의 주석이 달린 베이스콜 사이의 손실을 계산하기 위한 CTC 손실 함수를 포함하는, 양방향 순환 신경망(BRNN)에 상기 스캔 윈도우를 입력하는 단계; 및
상기 BRNN의 가중치를 업데이트하여 각 훈련 단계에서 상기 타겟의 주석이 달린 베이스콜로부터 무작위로 선택된 훈련 샘플의 미니배치에 대한 손실을 최소화하기 위해 상기 손실을 폐쇄 루프 피드백 제어로 구성된 경사 하강법 옵티마이저를 통해 상기 BRNN에 적용하는 단계를 포함하는, 프로세스 제어 방법.
제12항에 있어서,
250 스캔만큼 시프팅된 500 스캔을 포함하는 상기 스캔 윈도우의 각각을 더 포함하는, 방법.
제12항에 있어서,
상기 전체 트레이스에 대한 레이블 확률을 생성하기 위해 모든 스캔 윈도우에 대한 상기 레이블 확률을 조합하는 단계를 더 포함하는, 방법.
제14항에 있어서,
상기 CTC 손실 함수 및 상기 베이스콜의 출력에 기초하여 상기 베이스콜에 대한 스캔 위치를 식별하는 단계를 더 포함하는, 방법.
제14항에 있어서,
상기 전체 트레이스에 대한 상기 레이블 확률을 상기 생물학적 샘플에 대한 베이스콜로 디코딩하는 단계를 더 포함하는, 방법.
제16항에 있어서, 상기 베이스콜은 상기 생물학적 샘플의 16' 및 3' 말단에 있는, 방법.
제12항에 있어서, 상기 트레이스는 미가공 염료 RFU의 시퀀스 또는 하나 이상의 모세관 전기영동 유전자 분석기로부터 수집된 미가공 스펙트럼 데이터 중 하나인, 방법.
제12항에 있어서,
상기 트레이스에 하나 이상의 노이즈, 스파이크, 또는 염료 블롭 아티팩트를 투입하도록 구성된 적어도 하나의 생성적 적대망을 더 포함하는, 방법.
시퀀싱 샘플을 베이스콜링하기 위해 네트워크를 훈련하는 방법으로서,
복수의 시퀀싱 샘플에서의 각 샘플에 대해, 전처리된 상대 형광 유닛(RFU)의 시퀀스를 복수의 스캔 윈도우로 분할하는 단계로서, 제1 소정 수의 스캔은 제2 소정 수의 스캔만큼 시프팅되는, 단계;
상기 복수의 스캔 윈도우의 각 스캔 윈도우에 대해 주석이 달린 베이스콜을 결정하는 단계;
복수의 훈련 샘플을 구성하는 단계로서, 상기 복수의 훈련 샘플에서의 각 훈련 샘플은 상기 제1 소정 수의 스캔 및 상기 각각의 주석이 달린 베이스콜을 갖는 상기 스캔 윈도우를 포함하는, 단계;
복수의 반복(iteration)의 각각에 대해,
i) 상기 복수의 훈련 샘플의 서브세트를 무작위로 선택하는 단계,
ii) 상기 복수의 훈련 샘플의 선택된 서브세트를 신경망이 수신하는 단계로서, 상기 신경망은,
복수의 장단기 메모리(LSTM) 유닛 또는 게이트형 순환 유닛(GRU)의 하나 이상의 은닉 레이어(hidden layer),
출력 레이어, 및
복수의 네트워크 요소를 포함하고, 각 네트워크 요소는 하나 이상의 가중치와 연관되는, 상기 복수의 훈련 샘플의 선택된 서브세트를 신경망이 수신하는 단계,
iii) 상기 출력 레이어가 상기 복수의 훈련 샘플의 선택된 서브세트에서 상기 훈련 샘플의 모든 스캔에 대한 레이블 확률을 출력하는 단계,
iv) 상기 출력 레이블 확률과 상기 각각의 주석이 달린 베이스콜 사이의 손실을 계산하는 단계,
v) 상기 복수의 훈련 샘플의 선택된 서브세트에 대한 상기 손실을 최소화하기 위해 네트워크 옵티마이저(network optimizer)를 사용하여 상기 복수의 네트워크 요소의 가중치를 업데이트하는 단계,
vi) 훈련된 네트워크를 복수의 훈련된 네트워크에 저장하는 단계,
vii) 상기 훈련된 네트워크를 검증 데이터 세트로 평가하는 단계; 및
viii) 소정 수의 훈련 단계에 도달하거나 검증 손실 또는 오류율이 더 이상 개선될 수 없을 때까지 단계 i)로 복귀하는 단계;
상기 훈련 샘플의 선택된 서브세트에 포함되지 않은 복수의 샘플의 독립적인 서브세트를 사용하여, 상기 복수의 훈련된 네트워크에 대한 평가 손실 또는 오류율을 계산하는 단계; 및
상기 복수의 훈련된 네트워크로부터 최상의 훈련된 네트워크를 선택하는 단계를 포함하고, 상기 최상의 훈련된 네트워크는 최소 평가 손실 또는 오류율을 갖는, 시퀀싱 샘플을 베이스콜링하기 위해 네트워크를 훈련하는 방법.
제20항에 있어서,
시퀀싱 샘플을 수신하는 단계;
상기 시퀀싱 샘플의 전체 트레이스를 제2 복수의 스캔 윈도우로 분할하는 단계로서, 상기 제1 소정 수의 스캔은 상기 제2 소정 수의 스캔만큼 시프팅되는, 단계;
상기 선택된 훈련된 네트워크에 상기 제2 복수의 스캔 윈도우를 제공함으로써, 상기 제2 복수의 스캔 윈도우에 대한 스캔 레이블 확률을 출력하는 단계;
상기 시퀀싱 샘플의 전체 트레이스에 대한 레이블 확률을 생성하기 위해 상기 제2 복수의 스캔 윈도우에 대한 상기 스캔 레이블 확률을 조합하는 단계;
상기 조합된 스캔 레이블 확률에 기초하여 상기 시퀀싱 샘플에 대한 베이스콜을 결정하는 단계;
상기 스캔 레이블 확률 및 상기 베이스콜에 기초하여 상기 결정된 베이스콜 모두에 대한 스캔 위치를 결정하는 단계; 및
상기 결정된 베이스콜 및 상기 결정된 스캔 위치를 출력하는 단계를 더 포함하는, 방법.
일련의 시퀀싱 베이스콜의 품질 평가를 위한 방법으로서,
복수의 샘플에 대한 스캔 레이블 확률, 베이스콜, 및 스캔 위치를 수신하는 단계;
상기 복수의 샘플에서 각 샘플에 대한 각 베이스콜의 중앙 스캔 위치 주변의 상기 스캔 레이블 확률을 사용하여 상기 복수의 샘플에 기초하여 복수의 훈련 샘플을 생성하는 단계;
상기 복수의 훈련 샘플 중 각 샘플의 각 베이스콜에 범주(category)를 할당하는 단계로서, 상기 범주는 정확 또는 부정확 중 하나에 대응하는, 단계;
복수의 반복의 각각에 대해,
i) 상기 복수의 훈련 샘플의 서브세트를 무작위로 선택하는 단계,
ii) 상기 복수의 훈련 샘플의 선택된 서브세트를 신경망이 수신하는 단계로서, 상기 신경망은,
하나 이상의 은닉 레이어,
출력 레이어, 및
복수의 네트워크 요소를 포함하고, 각 네트워크 요소는 가중치와 연관되는, 상기 복수의 훈련 샘플의 선택된 서브세트를 신경망이 수신하는 단계,
iii) 상기 출력 레이어가 가설 함수를 사용해서 상기 스캔 레이블 확률에 기초하여 예측된 오류 확률을 출력하는 단계;
iv) 상기 예측된 오류 확률과 상기 복수의 훈련 샘플의 서브세트의 각 샘플의 각 베이스콜에 대한 상기 할당된 범주 사이의 손실을 계산하는 단계;
v) 상기 복수의 훈련 샘플의 선택된 서브세트에 대한 상기 손실을 최소화하기 위해 네트워크 옵티마이저를 사용하여 상기 복수의 네트워크 요소의 가중치를 업데이트하는 단계;
vi) 상기 신경망을 복수의 훈련된 네트워크에 훈련된 네트워크로서 저장하는 단계; 및
vii) 소정 수의 훈련 단계에 도달하거나 검증 손실 또는 오류가 더 이상 개선될 수 없을 때까지 단계 i)로 복귀하는 단계;
상기 훈련 샘플의 선택된 서브세트에 포함되지 않은 복수의 샘플의 독립적인 서브세트를 사용하여, 상기 복수의 훈련된 네트워크에 각 훈련된 네트워크에 대한 평가 손실 또는 오류율을 계산하는 단계; 및
상기 복수의 훈련된 네트워크로부터 최상의 훈련된 네트워크를 선택하는 단계를 포함하고, 상기 최상의 훈련된 네트워크는 최소 평가 손실 또는 오류율을 갖는, 일련의 시퀀싱 베이스콜의 품질 평가를 위한 방법.
제22항에 있어서,
입력 샘플의 베이스콜 위치 주변의 스캔 레이블 확률을 수신하는 단계;
상기 입력 샘플의 베이스콜 위치 주변의 스캔 레이블 확률을 상기 선택된 훈련된 네트워크에 제공함으로써 상기 입력 샘플에 대한 오류 확률을 출력하는 단계;
상기 출력된 오류 확률에 기초하여 복수의 품질 스코어를 결정하는 단계; 및
상기 복수의 품질 스코어를 출력하는 단계를 더 포함하는, 방법.