KR20210145115A

KR20210145115A - 인공 지능 기반 염기 호출

Info

Publication number: KR20210145115A
Application number: KR1020217003269A
Authority: KR
Inventors: 키쇼르 자가나탄; 존 랜달 고벨; 아미랄리 키아
Original assignee: 일루미나, 인코포레이티드
Priority date: 2019-03-21
Filing date: 2020-03-21
Publication date: 2021-12-01
Also published as: US20220292297A1; KR20210142529A; IL279522A; JP2022535306A; EP3942070A1; MX2020014288A; IL279533A; JP2022525267A; MX2020014299A; EP3942073A2; BR112020026433A2; IL279525A; SG11202012441QA; AU2020241905A1; BR112020026408A2; EP3942074A2; BR112020026455A2; SG11202012463YA; US20230268033A1; JP2022526470A

Abstract

개시된 기법은 신경 네트워크를 통해 입력 데이터를 프로세싱하고 입력 데이터의 대안의 표현을 생성한다. 입력 데이터는 서열분석 런의 하나 이상의 서열분석 사이클들 각각에 대해 사이클별 이미지 데이터를 포함한다. 사이클별 이미지 데이터는 각자의 서열분석 사이클에서 캡처된 하나 이상의 분석물들 및 그들의 주변 배경의 세기 방출물들을 묘사한다. 개시된 기법은 출력 층을 통해 대안의 표현을 프로세싱하고 출력을 생성하며, 출력에 기초하여 서열분석 사이클들 중 하나 이상의 서열분석 사이클에서 분석물들 중 하나 이상의 분석물을 염기 호출한다.

Description

인공 지능 기반 염기 호출

우선권 출원

본 출원은 하기의 출원들에 대한 우선권 또는 그의 이익을 주장한다:

발명의 명칭이 "Training Data Generation for Artificial Intelligence-Based Sequencing"이고 2019년 3월 21일자로 출원된 미국 가특허 출원 제62/821,602호(대리인 문서 번호 ILLM 1008-1/IP-1693-PRV);

발명의 명칭이 "Artificial Intelligence-Based Generation of Sequencing Metadata"이고 2019년 3월 21일자로 출원된 미국 가특허 출원 제62/821,618호(대리인 문서 번호 ILLM 1008-3/IP-1741-PRV);

발명의 명칭이 "Artificial Intelligence-Based Base Calling"이고 2019년 3월 21일자로 출원된 미국 가특허 출원 제62/821,681호(대리인 문서 번호 ILLM 1008-4/IP-1744-PRV);

발명의 명칭이 "Artificial Intelligence-Based Quality Scoring"이고 2019년 3월 21일자로 출원된 미국 가특허 출원 제62/821,724호(대리인 문서 번호 ILLM 1008-7/IP-1747-PRV);

발명의 명칭이 "Artificial Intelligence-Based Sequencingg"이고 2019년 3월 21일자로 출원된 미국 가특허 출원 제62/821,766호(대리인 문서 번호 ILLM 1008-9/IP-1752-PRV);

발명의 명칭이 "Training Data Generation for Artificial Intelligence-Based Sequencing"이고 2019년 6월 14일자로 출원된 네덜란드 출원 제2023310호(대리인 문서 번호 ILLM 1008-11/IP-1693-NL);

발명의 명칭이 "Artificial Intelligence-Based Generation of Sequencing Metadata"이고 2019년 6월 14일자로 출원된 네덜란드 출원 제2023311호(대리인 문서 번호 ILLM 1008-12/IP-1741-NL);

발명의 명칭이 "Artificial Intelligence-Based Base Calling"이고 2019년 6월 14일자로 출원된 네덜란드 출원 제2023312호(대리인 문서 번호 ILLM 1008-13/IP-1744-NL);

발명의 명칭이 "Artificial Intelligence-Based Quality Scoring"이고 2019년 6월 14일자로 출원된 네덜란드 출원 제2023314호(대리인 문서 번호 ILLM 100814/IP-1747-NL); 및

발명의 명칭이 "Artificial Intelligence-Based Sequencing"이고 2019년 6월 14일자로 출원된 네덜란드 출원 제2023316호(대리인 문서 번호 ILLM 100815/IP-1752-NL);

발명의 명칭이 "Training Data Generation for Artificial Intelligence-Based Sequencing"이고 2020년 3월 20일자로 출원된 미국 특허 출원 제16/825,987호(대리인 문서 번호 ILLM 1008-16/IP-1693-US);

발명의 명칭이 "Training Data Generation for Artificial Intelligence-Based Sequencing"이고 2020년 3월 20일자로 출원된 미국 특허 출원 제16/825,991호(대리인 문서 번호 ILLM 1008-17/IP-1741-US);

발명의 명칭이 "Artificial Intelligence-Based Base Calling"이고 2020년 3월 20일자로 출원된 미국 특허 출원 제16/826,126호(대리인 문서 번호 ILLM 1008-18/IP-1744-US);

발명의 명칭이 "Artificial Intelligence-Based Quality Scoring"이고 2020년 3월 20일자로 출원된 미국 특허 출원 제16/826,134호(대리인 문서 번호 ILLM 1008-19/IP-1747-US);

발명의 명칭이 "Artificial Intelligence-Based Sequencingg"이고 2020년 3월 21일자로 출원된 미국 특허 출원 제16/826,168호(대리인 문서 번호 ILLM 1008-20/IP-1752-PRV);

발명의 명칭이 "Training Data Generation for Artificial Intelligence-Based Sequencing"이고 동시에 출원되었으며 PCT 공개 번호 WO ____________로서 후속 공개된 PCT 특허 출원 번호 PCT___________(대리인 문서 번호 ILLM 100821/IP-1693-PCT).

발명의 명칭이 "Artificial Intelligence-Based Generation of Sequencing Metadata"이고 동시에 출원되었으며 PCT 공개 번호 WO ____________로서 후속 공개된 PCT 특허 출원 번호 PCT___________(대리인 문서 번호 ILLM 1008-22/IP-1741-PCT);

발명의 명칭이 "Artificial Intelligence-Based Quality Scoring"이고 동시에 출원되었으며 PCT 공개 번호 WO ____________로서 후속 공개된 PCT 특허 출원 번호 PCT___________(대리인 문서 번호 ILLM 1008-24/IP-1747-PCT); 및

발명의 명칭이 "Artificial Intelligence-Based Sequencing"이고 동시에 출원되었으며 PCT 공개 번호 WO ____________로서 후속 공개된 PCT 특허 출원 번호 PCT___________(대리인 문서 번호 ILLM 100825/IP-1752-PCT).

우선권 출원들은 이로써 모든 목적들을 위해 본 명세서에 완전히 설명된 것처럼 참고로 포함된다.

참조 문헌들

하기는 모든 목적들을 위해 본 명세서에 완전히 설명된 것처럼 참고로 포함된다.

발명의 명칭이 "Systems and Devices for Characterization and Performance Analysis of Pixel-Based Sequencing"이고 2019년 5월 16일자로 출원된 미국 가특허 출원 제62/849,091호(대리인 문서 번호 ILLM 1011-1/IP-1750-PRV);

발명의 명칭이 "Base Calling Using Convolutions"이고 2019년 5월 16일자로 출원된 미국 가특허 출원 제62/849,132호(대리인 문서 번호 ILLM 1011-2/IP-1750-PR2);

발명의 명칭이 "Base Calling Using Compact Convolutions"이고 2019년 5월 16일자로 출원된 미국 가특허 출원 제62/849,133호(대리인 문서 번호 ILLM 1011-3/IP-1750-PR3);

발명의 명칭이 "Artificial Intelligence-Based Base Calling of Index Sequences"이고 2020년 2월 20일자로 출원된 미국 가특허 출원 제62/979,384호(대리인 문서 번호 ILLM 1015-1/IP-1857-PRV);

발명의 명칭이 "Artificial Intelligence-Based Many-To-Many Base Calling"이고 2020년 2월 20일자로 출원된 미국 가특허 출원 제62/979,414호(대리인 문서 번호 ILLM 1016-1/IP-1858-PRV);

발명의 명칭이 "Knowledge Distillation-Based Compression of Artificial Intelligence-Based Base Caller"이고 2020년 2월 20일자로 출원된 미국 가특허 출원 제62/979,385호(대리인 문서 번호 ILLM 1017-1/IP-1859-PRV);

발명의 명칭이 "Multi-Cycle Cluster Based Real Time Analysis System"이고 2020년 2월 20일자로 출원된 미국 가특허 출원 제62/979,412호(대리인 문서 번호 ILLM 1020-1/IP-1866-PRV);

발명의 명칭이 "Data Compression for Artificial Intelligence-Based Base Calling"이고 2020년 2월 20일자로 출원된 미국 가특허 출원 제62/979,411호(대리인 문서 번호 ILLM 1029-1/IP-1964-PRV);

발명의 명칭이 "Squeezing Layer for Artificial Intelligence-Based Base Calling"이고 2020년 2월 20일자로 출원된 미국 가특허 출원 제62/979,399호(대리인 문서 번호 ILLM 1030-1/IP-1982-PRV);

문헌[Liu P, Hemani A, Paul K, Weis C, Jung M, Wehn N. 3D-Stacked Many-Core Architecture for Biological Sequence Analysis Problems. Int J Parallel Prog. 2017; 45(6):142060];

문헌[Z. Wu, K. Hammad, R. Mittmann, S. Magierowski, E. Ghafar-Zadeh, and X. Zhong, "FPGA-Based DNA Basecalling Hardware Acceleration," in Proc. IEEE 61st Int. Midwest Symp. Circuits Syst., Aug. 2018, pp. 10981101];

문헌[Z. Wu, K. Hammad, E. Ghafar-Zadeh, and S. Magierowski, "FPGA-Accelerated 3rd Generation DNA Sequencing," in IEEE Transactions on Biomedical Circuits and Systems, Volume 14, Issue 1, Feb. 2020, pp. 65-74];

문헌[Prabhakar et al., "Plasticine: A Reconfigurable Architecture for Parallel Patterns," ISCA '17, June 2428, 2017, Toronto, ON, Canada];

문헌[M. Lin, Q. Chen, and S. Yan, "Network in Network," in Proc. of ICLR, 2014];

문헌[L. Sifre, "Rigid-motion Scattering for Image Classification, Ph.D. thesis, 2014];

문헌[L. Sifre and S. Mallat, "Rotation, Scaling and Deformation Invariant Scattering for Texture Discrimination," in Proc. of CVPR, 2013];

문헌[F. Chollet, "Xception: Deep Learning with Depthwise Separable Convolutions," in Proc. of CVPR, 2017];

문헌[X. Zhang, X. Zhou, M. Lin, and J. Sun, "ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices," in arXiv:1707.01083, 2017];

문헌[K. He, X. Zhang, S. Ren, and J. Sun, "Deep Residual Learning for Image Recognition," in Proc. of CVPR, 2016];

문헌[S. Xie, R. Girshick, P. Dolla'r, Z. Tu, and K. He, "Aggregated Residual Transformations for Deep Neural Networks," in Proc. of CVPR, 2017];

문헌[A. G. Howard, M. Zhu, B. Chen, D. Kalenichenko, W. Wang, T. Weyand, M. Andreetto, and H. Adam, "Mobilenets: Efficient Convolutional Neural Networks for Mobile Vision Applications," in arXiv:1704.04861, 2017];

문헌[M. Sandler, A. Howard, M. Zhu, A. Zhmoginov, and L. Chen, "MobileNetV2: Inverted Residuals and Linear Bottlenecks," in arXiv:1801.04381v3, 2018];

문헌[Z. Qin, Z. Zhang, X. Chen, and Y. Peng, "FD-MobileNet: Improved MobileNet with a Fast Downsampling Strategy," in arXiv:1802.03750, 2018];

문헌[Liang-Chieh Chen, George Papandreou, Florian Schroff, and Hartwig Adam. Rethinking atrous convolution for semantic image segmentation. CoRR, abs/1706.05587, 2017];

문헌[J. Huang, V. Rathod, C. Sun, M. Zhu, A. Korattikara, A. Fathi, I. Fischer, Z. Wojna, Y. Song, S. Guadarrama, et al. Speed/accuracy trade-offs for modern convolutional object detectors. arXiv preprint arXiv:1611.10012, 2016];

문헌[S. Dieleman, H. Zen, K. Simonyan, O. Vinyals, A. Graves, N. Kalchbrenner, A. Senior, and K. Kavukcuoglu, "WAVENET: A GENERATIVE MODEL FOR RAW AUDIO," arXiv:1609.03499, 2016];

문헌[S.

. Arik, M. Chrzanowski, A. Coates, G. Diamos, A. Gibiansky, Y. Kang, X. Li, J. Miller, A. Ng, J. Raiman, S. Sengupta and M. Shoeybi, "DEEP VOICE: REAL-TIME NEURAL TEXT-TO-SPEECH," arXiv:1702.07825, 2017];

문헌[F. Yu and V. Koltun, "MULTI-SCALE CONTEXT AGGREGATION BY DILATED CONVOLUTIONS," arXiv:1511.07122, 2016];

문헌[K. He, X. Zhang, S. Ren, and J. Sun, "DEEP RESIDUAL LEARNING FOR IMAGE RECOGNITION," arXiv:1512.03385, 2015];

문헌[R.K. Srivastava, K. Greff, and J. Schmidhuber, "HIGHWAY NETWORKS," arXiv: 1505.00387, 2015];

문헌[G. Huang, Z. Liu, L. van der Maaten and K. Q. Weinberger, "DENSELY CONNECTED CONVOLUTIONAL NETWORKS," arXiv:1608.06993, 2017];

문헌[C. Szegedy, W. Liu,Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, and A. Rabinovich, "GOING DEEPER WITH CONVOLUTIONS," arXiv: 1409.4842, 2014];

문헌[S. Ioffe and C. Szegedy, "BATCH NORMALIZATION: ACCELERATING DEEP NETWORK TRAINING BY REDUCING INTERNAL COVARIATE SHIFT," arXiv: 1502.03167, 2015];

문헌[J. M. Wolterink, T. Leiner, M. A. Viergever, and I.

, "DILATED CONVOLUTIONAL NEURAL NETWORKS FOR CARDIOVASCULAR MR SEGMENTATION IN CONGENITAL HEART DISEASE," arXiv:1704.03669, 2017];

문헌[L. C. Piqueras, "AUTOREGRESSIVE MODEL BASED ON A DEEP CONVOLUTIONAL NEURAL NETWORK FOR AUDIO GENERATION," Tampere University of Technology, 2016];

문헌[J. Wu, "Introduction to Convolutional Neural Networks," Nanjing University, 2017];

문헌["Illumina CMOS Chip and One-Channel SBS Chemistry", Illumina, Inc. 2018, 2 pages];

문헌["skikit-image/peak.py at master", GitHub, 5 pages], [2018-11-16자로 검색됨]. 인터넷 <URL: https://github.com/scikit-image/scikit-image/blob/master/skimage/feature/peak.py#L25>으로부터 검색됨;

문헌["3.3.9.11. Watershed and random walker for segmentation", Scipy lecture notes, 2 pages], [2018-11-13자로 검색됨]. 인터넷 <URL: http://scipy-lectures.org/packages/scikit-image/auto_examples/plot_segmentations.html>으로부터 검색됨;

문헌[Mordvintsev, Alexander and Revision, Abid K., "Image Segmentation with Watershed Algorithm", Revision 43532856, 2013, 6 pages], [2018-11-13자로 검색됨]. 인터넷 <URL: https://opencv-python-tutroals.readthedocs.io/en/latest/py_tutorials/py_imgproc/py_watershed/py_watershed.html>으로부터 검색됨;

문헌[Mzur, "Watershed.py", 25 October 2017, 3 pages], [2018-11-13자로 검색됨]. 인터넷 <URL: https://github.com/mzur/watershed/blob/master/Watershed.py>으로부터 검색됨;

문헌[Thakur, Pratibha, et. al. "A Survey of Image Segmentation Techniques", International Journal of Research in Computer Applications and Robotics, Vol.2, Issue.4, April 2014, Pg.: 158165];

문헌[Long, Jonathan, et. al., "Fully Convolutional Networks for Semantic Segmentation", : IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol 39, Issue 4, 1 April 2017, 10 pages];

문헌[Ronneberger, Olaf, et. al., "U-net: Convolutional networks for biomedical image segmentation." In International Conference on Medical image computing and computer-assisted intervention, 18 May 2015, 8 pages];

문헌[Xie, W., et. al., "Microscopy cell counting and detection with fully convolutional regression networks", Computer methods in biomechanics and biomedical engineering: Imaging & Visualization,6(3), pp.283-292, 2018];

문헌[Xie, Yuanpu, et al., "Beyond classification: structured regression for robust cell detection using convolutional neural network", International Conference on Medical Image Computing and Computer-Assisted Intervention. October 2015, 12 pages];

문헌[Snuverink, I. A. F., "Deep Learning for Pixelwise Classification of Hyperspectral Images", Master of Science Thesis, Delft University of Technology, 23 November 2017, 19 pages];

문헌[Shevchenko, A., "Keras weighted categorical_crossentropy", 1 page], [2019-01-15자로 검색됨]. 인터넷 <URL: https://gist.github.com/skeeet/cad06d584548fb45eece1d4e28cfa98b>으로부터 검색됨;

문헌[van den Assem, D.C.F., "Predicting periodic and chaotic signals using Wavenets", Master of Science Thesis, Delft University of Technology, 18 August 2017, pages 3-38];

문헌[I. J. Goodfellow, D. Warde-Farley, M. Mirza, A. Courville, and Y. Bengio, "CONVOLUTIONAL NETWORKS", Deep Learning, MIT Press, 2016]; 및

문헌[J. Gu, Z. Wang, J. Kuen, L. Ma, A. Shahroudy, B. Shuai, T. Liu, X. Wang, and G. Wang, "RECENT ADVANCES IN CONVOLUTIONAL NEURAL NETWORKS," arXiv:1512.07108, 2017].

기술분야

개시된 기술은 지능의 에뮬레이션을 위한; 그리고 불확실성 추리 시스템들(예컨대, 퍼지 논리 시스템들), 적응적 시스템들, 기계 학습 시스템들, 및 인공 신경 네트워크들을 포함하는, 인공 지능 유형 컴퓨터들 및 디지털 데이터 프로세싱 시스템들, 및 대응하는 데이터 프로세싱 방법들 및 제품들(즉, 지식 기반 시스템들, 추리 시스템들, 및 지식 획득 시스템들)에 관한 것이다. 특히, 개시된 기술은 데이터를 분석하기 위한 심층 콘볼루션(deep convolutional) 신경 네트워크들과 같은 심층 신경 네트워크들을 사용하는 것에 관한 것이다.

이 섹션에서 논의되는 주제는 단지 이 섹션 내에서의 그의 언급의 결과로서 종래기술이라고 가정되어서는 안 된다. 유사하게, 이 섹션에서 언급되거나 배경기술로서 제공되는 주제와 연관된 문제는 종래기술에서 이전에 인식되었다고 가정되어서는 안 된다. 이 섹션에서의 주제는 단지 상이한 접근법들을 표현할 뿐이며, 그 접근법들 자체는 청구되는 기술의 구현들에 또한 대응할 수 있다.

심층 신경 네트워크들은, 하이-레벨 특징부들을 연속으로 모델링하기 위해 다수의 비선형 및 복잡한 변환 층들을 사용하는 일정 유형의 인공 신경 네트워크들이다. 심층 신경 네트워크들은 파라미터들을 조정하기 위해 관측된 출력과 예측된 출력 사이의 차이를 전달하는 역전파(backpropagation)를 통해 피드백을 제공한다. 심층 신경 네트워크들은 대용량 트레이닝 데이터세트들, 병렬형 및 분산형 컴퓨팅의 전력, 및 정교한 트레이닝 알고리즘들의 이용가능성을 진화시켰다. 심층 신경 네트워크들은 컴퓨터 비전, 스피치 인식, 및 자연 언어 프로세싱과 같은 다수의 도메인들에서 주요한 발전들을 용이하게 하였다.

콘볼루션 신경 네트워크(convolutional neural network, CNN)들 및 순환 신경 네트워크(recurrent neural network, RNN)들은 심층 신경 네트워크들의 컴포넌트들이다. 콘볼루션 신경 네트워크들은, 콘볼루션 층들, 비선형 층들, 및 풀링(pooling) 층들을 포함하는 아키텍처에 의한 이미지 인식에서 특히 성공하였다. 순환 신경 네트워크들은 퍼셉트론(perceptron)들, 장단기 메모리 유닛(long short-term memory unit)들, 및 게이트형 순환 유닛들과 같은 빌딩 블록들 사이에서 주기적 접속들을 갖는 입력 데이터의 순차적 정보를 활용하도록 설계된다. 또한, 심층 시공간 신경 네트워크들, 다차원 순환 신경 네트워크들, 및 콘볼루션 자동 인코더들과 같은 많은 다른 긴급 심층 신경 네트워크들이 제한된 상황들에 대해 제안되었다.

심층 신경 네트워크들을 트레이닝시키는 목표는 각각의 층에서의 가중치 파라미터들의 최적화이며, 이는 더 단순한 특징부들을 복잡한 특징부들로 점진적으로 조합하여, 가장 적합한 계층적 표현들이 데이터로부터 학습될 수 있게 한다. 최적화 프로세스의 단일 사이클이 하기와 같이 조직화된다. 먼저, 트레이닝 데이터세트가 주어지면, 순방향 패스는 각각의 층에서의 출력을 순차적으로 계산하고, 기능 신호들을 네트워크를 통해 전방으로 전파한다. 최종 출력 층에서, 목적 손실 함수(objective loss function)가 추론된 출력들과 주어진 라벨들 사이의 에러를 측정한다. 트레이닝 에러를 최소화하기 위해, 역방향 패스는 연쇄 법칙(chain rule)을 사용하여 에러 신호들을 역전파하고, 신경 네트워크 전체에 걸쳐서 모든 가중치들에 대해 기울기들을 계산한다. 마지막으로, 가중치 파라미터들은 확률적 경사 하강법(stochastic gradient descent)에 기초하여 최적화 알고리즘들을 사용하여 업데이트된다. 배치(batch) 경사 하강법은 각각의 완전한 데이터세트에 대한 파라미터 업데이트들을 수행하는 반면, 확률적 경사 하강법은 데이터 예들의 각각의 소규모 세트에 대한 업데이트들을 수행함으로써 확률적 근사치들을 제공한다. 몇몇 최적화 알고리즘들은 확률적 경사 하강법으로부터 유래한다. 예를 들어, Adagrad와 Adam의 트레이닝 알고리즘들은, 각각의 파라미터에 대한 기울기들의 업데이트 빈도 및 모멘트들에 기초하여 학습률들을 적응적으로 수정하면서 확률적 경사 하강법을 수행한다.

심층 신경 네트워크들의 트레이닝에 있어서의 다른 핵심 요소는 규칙화(regularization)인데, 이는 오버피팅(overfitting)을 피하고 따라서 양호한 일반화 성능을 달성하도록 의도된 전략들을 지칭한다. 예를 들어, 가중치 감쇠(decay)는 가중치 파라미터들이 더 작은 절대값들에 수렴하도록 목적 손실 함수에 패널티 항을 추가한다. 드롭아웃(dropout)은 트레이닝 동안 신경 네트워크들로부터 은닉 유닛들을 랜덤하게 제거하며, 가능한 서브네트워크들의 앙상블로 간주될 수 있다. 드롭아웃의 능력들을 향상시키기 위해, 새로운 활성화 함수 maxout, 및 rnnDrop으로 지칭되는 순환 신경 네트워크들에 대한 드롭아웃의 변형이 제안되었다. 더욱이, 배치 정규화(batch normalization)는 미니-배치 내에서의 각각의 활성화를 위한 스칼라 특징부들의 정규화를 통해, 그리고 각각의 평균 및 분산을 파라미터들로서 학습하는 것을 통해 새로운 규칙화 방법을 제공한다.

순차형 데이터가 다차원 및 고차원임을 고려하면, 심층 신경 네트워크들은 그들의 넓은 적용가능성 및 향상된 예측력(prediction power) 때문에 생명정보학 연구에 대해 큰 장래성을 갖는다. 콘볼루션 신경 네트워크들은 모티프(motif) 발견, 병원성 변이체 확인, 및 유전자 발현 추론과 같은, 유전체학에서의 서열 기반 문제들을 해결하기 위해 채택되었다. 콘볼루션 신경 네트워크들은 DNA를 연구하는 데 특히 유용한 가중치 공유 전략을 사용하는데, 그 이유는 그것이 유의한 생물학적 기능들을 갖는 것으로 추정되는 DNA 내의 짧은 재발 국소 패턴들인 서열 모티프들을 캡처할 수 있기 때문이다. 콘볼루션 신경 네트워크들의 특질(hallmark)은 콘볼루션 필터들의 사용이다.

정교하게 설계되고 수동으로 제작된 특징부들에 기초하는 전통적인 분류 접근법들과는 달리, 콘볼루션 필터들은, 원시 입력 데이터를 유익한 정보를 주는 지식의 표현에 맵핑시키는 프로세스와 유사하게, 특징부들의 적응적 학습을 수행한다. 이러한 의미에서, 콘볼루션 필터들은 일련의 모티프 스캐너들로서의 역할을 하는데, 그 이유는 그러한 필터들의 세트가 트레이닝 절차 동안 입력 내의 관련 패턴들을 인식하고 그 자신들을 업데이트할 수 있기 때문이다. 순환 신경 네트워크들은 단백질 또는 DNA 서열들과 같은 다양한 길이들의 순차적 데이터에서 장거리 의존성들을 캡처할 수 있다.

따라서, 템플릿 생성 및 염기 호출(base calling)을 위한 원칙에 입각한 심층 학습 기반 프레임워크를 사용할 기회가 유발된다.

고처리량(high-throughput) 기술의 시대에서, 노력에 대해 최저 비용으로 최고 수율의 해석가능한 데이터를 축적하는 것은 유의한 도전으로 남아 있다. 클러스터 형성을 위해 브리지 증폭을 활용하는 것들과 같은 핵산 서열분석의 클러스터 기반 방법들은, 핵산 서열분석의 처리량을 증가시키는 목표를 향해 소중한 기여를 하였다. 이들 클러스터 기반 방법들은 고체 지지체 상에 고정화된 핵산의 조밀한 개체군을 서열분석하는 것에 의존하고, 전형적으로, 고체 지지체 상의 별개의 위치들에 위치해 있는 다수의 클러스터들을 동시에 서열분석하는 과정에 생성된 광학 신호들을 디콘볼루션하기 위한 이미지 분석 소프트웨어의 사용을 수반한다.

그러나, 그러한 고체상 핵산 클러스터 기반 서열분석 기술들은, 여전히, 달성될 수 있는 처리량의 양을 제한하는 상당한 장애물들에 직면한다. 예를 들어, 클러스터 기반 서열분석 방법들에서, 공간적으로 해결되기에는 서로 물리적으로 너무 가깝거나 또는 고체 지지체 상에서 사실상 물리적으로 중첩하는 2개 이상의 클러스터들의 핵산 서열들을 결정하는 것은 장애물이 될 수 있다. 예를 들어, 현재 이미지 분석 소프트웨어는 2개의 중첩 클러스터들 중 어느 것으로부터 광학 신호가 발산되었는지를 결정하기 위한 소중한 시간 및 계산 리소스들을 요구할 수 있다. 그 결과로서, 획득될 수 있는 핵산 서열 정보의 수량 및/또는 품질에 대해 다양한 검출 플랫폼들에 대한 절충들이 불가피하다.

고밀도 핵산 클러스터 기반 게놈 방법들이 또한 게놈 분석의 다른 영역들로 연장된다. 예를 들어, 핵산 클러스터 기반 게놈은 서열분석 응용, 진단 및 스크리닝, 유전자 발현 분석, 후성 분석, 다형성(polymorphism)의 유전 분석 등에서 사용될 수 있다. 이들 핵산 클러스터 기반 게놈 기술들 각각은, 역시, 긴밀하게 근접해 있거나 공간적으로 중첩하는 핵산 클러스터들로부터 생성된 데이터를 분해하는 능력이 없을 때 제한된다.

명백히, 유전체학(예컨대, 임의의 그리고 모든 동물, 식물, 미생물 또는 기타 생물학적 종들 또는 개체군들의 게놈 특성 기술을 위함), 약물 유전체학, 전사체학, 진단, 예후, 생물 의학 위험 평가, 임상 및 연구 유전학, 개인맞춤형 의학, 약물 효능 및 약물 상호작용 평가, 수의학, 농업, 진화 및 생물 다양성 연구, 양식, 임업, 해양학, 생태 및 환경 관리, 및 기타 목적을 포함한 매우 다양한 용도들에 대해 신속하고 비용 효과적으로 획득될 수 있는 핵산 서열분석 데이터의 수량 및 품질을 증가시킬 필요성이 남아 있다.

개시된 기술은 고처리량 핵산 서열분석 기술들에서 처리량의 레벨을 증가시키는 것을 포함한 이들 및 유사한 필요성들을 해결하는 신경 네트워크 기반 방법들 및 시스템들을 제공하고, 다른 관련 이점들을 제공한다.

특허 또는 출원 파일은 컬러로 작성된 적어도 하나의 도면을 포함한다. 컬러 도면(들)을 갖는 이러한 특허 또는 특허 출원 공보의 사본들은 요청 및 필요한 요금의 지불 시에 청(Office)에 의해 제공될 것이다. 컬러 도면은, 또한, Supplemental Content 탭을 통해 PAIR에서 입수가능할 수 있다.
도면에서, 유사한 도면 부호는, 대체로, 상이한 도면들 전체에 걸쳐서 유사한 부분들을 지칭한다. 또한, 도면은 반드시 축척대로인 것은 아니며, 그 대신, 대체적으로, 개시된 기술의 원리들을 예시할 시에 강조된다. 하기의 설명에서, 개시된 기술의 다양한 구현예들이 하기의 도면을 참조하여 기술된다.
도 1은 하나의 구현예에 따른, 염기 호출을 위한 RTA 염기 호출자에 의해 사용되는 프로세싱 단계들을 도시한다.
도 2는 개시된 신경 네트워크 기반 염기 호출자를 사용하여 염기 호출하는 하나의 구현예를 도시한다.
도 3은 신경 네트워크 기반 템플릿 생성기의 출력으로부터 식별된 클러스터 중심들의 위치/포지션 정보를, 서브픽셀 도메인으로부터 픽셀 도메인으로, 변환하는 하나의 구현예이다.
도 4는 사이클 특정 및 이미지 채널 특정 변환들을 사용하여 참조 클러스터 중심들로부터 소위 "변환된 클러스터 중심들"을 도출하는 하나의 구현예이다.
도 5는 신경 네트워크 기반 염기 호출자에 공급되는 입력 데이터의 일부인 이미지 패치를 도시한다.
도 6은 단일 표적 클러스터가 신경 네트워크 기반 염기 호출자에 의해 염기 호출되고 있을 때 거리 채널(distance channel)에 대한 거리 값들을 결정하는 하나의 구현예를 도시한다.
도 7은 픽셀들과 표적 클러스터 사이에서 계산된 거리 값들을 픽셀별로 인코딩하는 하나의 구현예를 도시한다.
도 8a는 다수의 표적 클러스터들이 신경 네트워크 기반 염기 호출자에 의해 동시에 염기 호출되고 있을 때 거리 채널에 대한 거리 값들을 결정하는 하나의 구현예를 도시한다.
도 8b는 표적 클러스터들 각각에 대해, 픽셀 중심-최근접 클러스터 중심 거리들에 기초하여 결정된 일부 최근접 픽셀들을 도시한다.
도 9는 클러스터들 중 최근접 클러스터와 픽셀들 사이에서 계산된 최소 거리 값들을 픽셀별로 인코딩하는 하나의 구현예를 도시한다.
도 10은 본 명세서에서 "클러스터 형상 데이터"로 지칭되는 픽셀-클러스터 분류/속성/카테고리화를 사용하는 하나의 구현예를 도시한다.
도 11은 클러스터 형상 데이터를 사용하여 거리 값들을 계산하는 하나의 구현예를 도시한다.
도 12는 할당된 클러스터들과 픽셀들 사이에서 계산된 거리 값들을 픽셀별로 인코딩하는 하나의 구현예를 도시한다.
도 13은 상이한 서열분석 사이클들에 대한 데이터의 프로세싱을 분리하는 데 사용되는 신경 네트워크 기반 염기 호출자의 특화된 아키텍처의 하나의 구현예를 도시한다.
도 14는 분리형 콘볼루션(convolution)들의 하나의 구현예를 도시한다.
도 15a는 조합형 콘볼루션들의 하나의 구현예를 도시한다.
도 15b는 조합형 콘볼루션들의 다른 구현예를 도시한다.
도 16은 각각의 콘볼루션 층이 콘볼루션 필터들의 뱅크를 갖는 신경 네트워크 기반 염기 호출자의 콘볼루션 층들의 하나의 구현예를 도시한다.
도 17은 이미지 채널들을 보충하는 스케일링 채널의 2개의 구성들을 도시한다.
도 18a는 적색 이미지 및 녹색 이미지를 생성하는 단일 서열분석 사이클에 대한 입력 데이터의 하나의 구현예를 도시한다.
도 18b는 이미지 채널들로부터 생성된 특징 맵들에 혼입되는 부가적인 바이어스를 공급하는 거리 채널들의 하나의 구현예를 도시한다.
도 19a, 도 19b, 및 도 19c는 단일 표적 클러스터를 염기 호출하는 하나의 구현예를 도시한다.
도 20은 다수의 표적 클러스터들을 동시에 염기 호출하는 하나의 구현예를 도시한다.
도 21은 복수의 연속적인 서열분석 사이클들에서 다수의 표적 클러스터들을 동시에 염기 호출하여, 이에 의해, 다수의 표적 클러스터들 각각에 대한 염기 호출 서열을 동시에 생성하는 하나의 구현예를 도시한다.
도 22는 단일 클러스터 염기 호출 구현예에 대한 차원수 다이어그램을 도시한다.
도 23은 다수의 클러스터들의 단일 서열분석 사이클의 염기 호출 구현예에 대한 차원수 다이어그램을 도시한다.
도 24는 다수의 클러스터들의 다수의 서열분석 사이클들의 염기 호출 구현예에 대한 차원수 다이어그램을 도시한다.
도 25a는 다중 사이클 입력 데이터의 예시적인 어레이형 입력 구성을 도시한다.
도 25b는 다중 사이클 입력 데이터의 예시적인 스택형 입력 구성을 도시한다.
도 26a는 이미지 패치의 픽셀들을 리프레이밍(reframing)하여, 중심 픽셀에서 염기 호출된 표적 클러스터의 중심을 중심에 두는 하나의 구현예를 도시한다.
도 26b는 (i) 중심 픽셀의 중심이 표적 클러스터의 중심과 일치하고 (ii) 비-중심 픽셀들이 표적 클러스터의 중심으로부터 등거리에 있는 다른 예시적인 리프레이밍된/시프트된 이미지 패치를 도시한다.
도 27은 표준 콘볼루션 신경 네트워크 및 리프레밍형 입력을 사용하여 현재 서열분석 사이클에서 단일 표적 클러스터를 염기 호출하는 하나의 구현예를 도시한다.
도 28은 표준 콘볼루션 신경 네트워크 및 정렬형 입력을 사용하여 현재 서열분석 사이클에서 다수의 표적 클러스터들을 염기 호출하는 하나의 구현예를 도시한다.
도 29는 표준 콘볼루션 신경 네트워크 및 정렬형 입력을 사용하여 복수의 서열분석 사이클들에서 다수의 표적 클러스터들을 염기 호출하는 하나의 구현예를 도시한다.
도 30은 신경 네트워크 기반 염기 호출자를 트레이닝시키는 하나의 구현예를 도시한다.
도 31a는 신경 네트워크 기반 염기 호출자로서 사용되는 하이브리드 신경 네트워크의 하나의 구현예를 도시한다.
도 31b는 현재 은닉된 상태 표현들을 생성하기 위해 하이브리드 신경 네트워크의 순환 모듈에 의해 사용되는 3D 콘볼루션(3D convolution)들의 하나의 구현예를 도시한다.
도 32는 염기 호출될 일련의 t개의 서열분석 사이클들 중에서 단일 서열분석 사이클에 대한 사이클별 입력 데이터를, 콘볼루션 모듈의 콘볼루션 층들의 캐스케이드를 통해, 프로세싱하는 하나의 구현예를 예시한다.
도 33은 단일 서열분석 사이클의 사이클별 입력 데이터를, 콘볼루션 모듈의 콘볼루션 층들의 캐스케이드에 의해 생성된 그의 대응하는 콘볼루션된 표현들과 혼합하는 하나의 구현예를 도시한다.
도 34는 연속적인 서열분석 사이클들의 편평한 혼합 표현들을 스택으로서 배열하는 하나의 구현예를 도시한다.
도 35a는 도 34의 스택을 순방향 및 역방향으로의 3D 콘볼루션들의 순환 응용에 적용시키고, 일련의 t개의 서열분석 사이클들 내의 t개의 서열분석 사이클들 각각에서 클러스터들 각각에 대한 염기 호출들을 생성하는 하나의 구현예를 도시한다.
도 35b는 3D 콘볼루션들을 적용하는 장단기 메모리(long short-term memory, LSTM) 네트워크의 입력 게이트, 활성화 게이트, 망각 게이트(forget gate), 및 출력 게이트를 통해, 편평한 혼합 표현들의 그룹들을 포함하는 3D 입력 볼륨 x(t)를 프로세싱하는 하나의 구현예를 도시한다. LSTM 네트워크는 하이브리드 신경 네트워크의 순환 모듈의 일부이다.
도 36은 신경 네트워크 기반 염기 호출자를 트레이닝시키는 데 사용되는 트레이닝 데이터에서 트라이뉴클레오티드(3-mer)를 밸런싱하는 하나의 구현예를 도시한다.
도 37은 신경 네트워크 기반 염기 호출자에 대한 RTA 염기 호출자의 염기 호출 정확도를 비교한다.
도 38은 RTA 염기 호출자의 타일-대-타일 일반화(tile-to-tile generalization)를, 동일한 타일 상의 신경 네트워크 기반 염기 호출자의 것과 비교한다.
도 39는 RTA 염기 호출자의 타일-대-타일 일반화를, 동일한 타일 상의 그리고 상이한 타이들 상의 신경 네트워크 기반 염기 호출자의 것과 비교한다.
도 40은 또한 RTA 염기 호출자의 타일-대-타일 일반화를, 상이한 타일들 상의 신경 네트워크 기반 염기 호출자의 것과 비교한다.
도 41은 신경 네트워크 기반 염기 호출자에 입력으로서 공급되는 이미지 패치들의 상이한 크기들이 염기 호출 정확도에 어떻게 영향을 주는지를 도시한다.
도 42, 도 43, 도 44, 및 도 45는 A. baumanni와 E. coli로부터의 트레이닝 데이터에 대한 신경 네트워크 기반 염기 호출자의 레인-대-레인 일반화(lane-to-lane generalization)를 도시한다.
도 46은 도 42, 도 43, 도 44, 및 도 45와 관련하여 위에서 논의된 레인-대-레인 일반화에 대한 에러 프로파일을 도시한다.
도 47은 도 46의 에러 프로파일에 의해 검출된 에러의 소스를 녹색 채널에서의 낮은 클러스터 세기에 귀속시킨다.
도 48은 2개의 서열분석 런들(Read 1 및 Read 2)에 대한 RTA 염기 호출자 및 신경 네트워크 기반 염기 호출자의 에러 프로파일들을 비교한다.
도 49a는 4개의 상이한 기구들 상에서의 신경 네트워크 기반 염기 호출자의 런-대-런 일반화(run-to-run generalization)를 도시한다.
도 49b는 동일한 기구 상에서 실행되는 4개의 상이한 런들에 대한 신경 네트워크 기반 염기 호출자의 런-대-런 일반화를 도시한다.
도 50은 신경 네트워크 기반 염기 호출자를 트레이닝시키는 데 사용되는 트레이닝 데이터의 게놈 통계자료들을 도시한다.
도 51은 신경 네트워크 기반 염기 호출자를 트레이닝시키는 데 사용되는 트레이닝 데이터의 게놈 콘텍스트를 도시한다.
도 52는 긴 판독물들(예컨대, 2 × 250)을 염기 호출하는 데 있어서 신경 네트워크 기반 염기 호출자의 염기 호출 정확도를 도시한다.
도 53은 신경 네트워크 기반 염기 호출자가 이미지 패치들에 걸쳐서 중심 클러스터 픽셀(들) 및 그의 이웃 픽셀들에 어떻게 주목하는지에 대한 하나의 구현예를 도시한다.
도 54는 하나의 구현예에 따른, 신경 네트워크 기반 염기 호출자를 트레이닝시키고 러닝시키는 데 사용되는 다양한 하드웨어 컴포넌트들 및 구성들을 도시한다. 다른 구현예들에서, 상이한 하드웨어 컴포넌트들 및 구성들이 사용된다.
도 55는 신경 네트워크 기반 염기 호출자를 사용하여 수행될 수 있는 다양한 서열분석 태스크들을 도시한다.
도 56은 t-SNE(t-Distributed Stochastic Neighbor Embedding)에 의해 시각화된 산포도(scatter plot)이고, 신경 네트워크 기반 염기 호출자의 염기 호출 결과들을 보여준다.
도 57은 품질 스코어링(quality scoring)을 위해 신경 네트워크 기반 염기 호출자에 의해 만들어진 염기 호출 신뢰도 확률들을 선택하는 하나의 구현예를 도시한다.
도 58은 신경 네트워크 기반 품질 스코어링의 하나의 구현예를 도시한다.
도 136a 및 도 59b는 신경 네트워크 기반 염기 호출자에 의해 만들어진 염기 호출 신뢰도 예측들과 품질 스코어들 사이의 대응성에 대한 하나의 구현예를 도시한다.
도 60은 추론 동안 신경 네트워크 기반 염기 호출자에 의해 만들어진 염기 호출 신뢰도 예측들로부터 품질 스코어들을 추론하는 하나의 구현예를 도시한다.
도 61은 서열분석 이미지들로부터 도출된 입력 데이터를 프로세싱하고 품질 표시들을 직접 생성하기 위해 신경 네트워크 기반 품질 스코러(scorer)를 트레이닝시키는 하나의 구현예를 도시한다.
도 62는 추론 동안 신경 네트워크 기반 품질 스코러의 출력들로서 품질 표시들을 직접 생성하는 하나의 구현예를 도시한다.
도 63a 및 도 63b는 서열분석 시스템의 하나의 구현예를 도시한다. 서열분석 시스템은 구성가능한 프로세서를 포함한다.
도 63c는 염기 호출 센서 출력들과 같은 서열분석 시스템으로부터의 센서 데이터의 분석을 위한 시스템의 간략화된 블록도이다.
도 64a는 호스트 프로세서에 의해 실행되는 런타임 프로그램의 기능들을 포함한 염기 호출 동작의 태양들을 보여주는 간략화된 도면이다.
도 64b는 도 63c에 도시된 것과 같은 구성가능한 프로세서의 구성의 간략화된 도면이다.
도 65는 본 명세서에 개시된 기술을 구현하기 위해 도 63a의 서열분석 시스템에 의해 사용될 수 있는 컴퓨터 시스템이다.
도 66은 데이터 정규화 및 데이터 증강을 포함할 수 있는 데이터 프리-프로세싱의 상이한 구현예들을 도시한다.
도 67은, 신경 네트워크 기반 염기 호출자가 박테리아 데이터에 대해 트레이닝되고 인간 데이터에 대해 테스트될 때, 도 66의 데이터 정규화 기법(DeepRTA(정상)) 및 데이터 증강 기법(DeepRTA(증강))이 염기 호출 에러 비율을 감소시킨다는 것을 도시하며, 여기서 박테리아 데이터 및 인간 데이터는 동일한 검정을 공유한다(예컨대, 둘 모두가 인트론 데이터를 포함함).
도 68은, 신경 네트워크 기반 염기 호출자가 비-엑손 데이터(예컨대, 인트론 데이터)에 대해 트레이닝되고 엑손 데이터에 대해 테스트될 때, 도 66의 데이터 정규화 기법(DeepRTA(정상)) 및 데이터 증강 기법(DeepRTA(증강))이 염기 호출 에러 비율을 감소시킨다는 것을 도시한다.

하기의 논의는 어느 당업자라도 개시된 기술을 제조하고 사용할 수 있게 하도록 제시되며, 특정 응용예 및 그의 요건들의 맥락에서 제공된다. 개시된 구현예들에 대한 다양한 변형들은 당업자들에게 용이하게 명백할 것이며, 본 명세서에서 정의된 일반적인 원리들은 개시된 기술의 사상 및 범주로부터 벗어남이 없이 다른 구현예들 및 응용예들에 적용될 수 있다. 따라서, 개시된 기술은 도시된 구현예들로 제한되도록 의도되는 것이 아니라, 본 명세서에 개시된 원리들 및 특징들과 일치하는 가장 넓은 범주에 부합되어야 한다.

서론

염기들이 디지털 이미지들의 시퀀스들에서 분류될 때, 신경 네트워크는 과거 및 미래의 사이클들의 이미지 채널들과 함께 현재 사이클에서의 다수의 이미지 채널들을 프로세싱한다. 클러스터에서, 가닥들 중 일부는 이위상 태깅(out-of-phase tagging)이 프리-페이징(pre-phasing) 또는 페이징(phasing)으로서 알려져 있는 합성의 주요 과정에 앞서서 또는 그 뒤에서 러닝될 수 있다. 경험적으로 관찰된 프리-페이징 및 포스트-페이징(post-phasing)의 낮은 레이트들이 주어지면, 프리-페이징 및 포스트-페이징으로부터 비롯된 신호 내의 거의 모든 잡음이, 현재, 과거 및 미래 사이클들에서, 즉 단 3개의 사이클들에서, 디지털 이미지들을 프로세싱하는 신경 네트워크에 의해 다루어질 수 있다.

현재 사이클에서의 디지털 이미지 채널들 중에서, 사이클 내의 이미지들을 정렬시키기 위한 신중한 정합이 정확한 염기 분류에 강하게 기여한다. 다른 에러 소스들 중에서도, 불일치하는 조명 소스들과 파장들의 조합은 측정된 클러스터 중심 위치들에서 작고 정정가능한 차이를 생성한다. 병진, 회전 및 스케일링을 갖는 일반적인 아핀 변환이, 이미지 타일에 걸친 클러스터 중심들을 정밀한 정렬이 되게 하는 데 사용될 수 있다. 아핀 변환은, 이미지 데이터를 리프레이밍하기 위해 그리고 클러스터 중심들에 대한 오프셋들을 해결하기 위해 사용될 수 있다.

이미지 데이터를 리프레이밍하는 것은, 전형적으로 아핀 변환을 적용함으로써, 이미지 데이터를 보간하는 것을 의미한다. 리프레이밍은 관심 클러스터 중심을 픽셀 패치의 중심 픽셀의 가운데에 놓을 수 있다. 또는, 그것은 이미지를 템플릿과 정렬시켜서, 이미지 수집 동안 지터(jitter) 및 다른 불일치들을 극복할 수 있다. 리프레이밍은 픽셀 패치 내의 모든 픽셀들의 세기 값들을 조정하는 것을 수반한다. 이중 선형 및 쌍삼차(bi-cubic) 보간 및 가중된 영역 조정들은 대안의 전략들이다.

일부 구현예들에서, 클러스터 중심 좌표들은 추가 이미지 채널로서 신경 네트워크에 공급될 수 있다.

거리 신호들은 또한 염기 분류에 기여할 수 있다. 몇몇 유형들의 거리 신호들은 클러스터 중심들로부터의 영역들의 분리를 반영한다. 최강 광학 신호는 클러스터 중심과 일치하는 것으로 간주된다. 클러스터 주연부를 따른 광학 신호는 때때로 근처 클러스터로부터의 표류 신호를 포함한다. 신호 성분의 기여가 클러스터 중심으로부터의 그의 분리에 따라 감쇠될 때 분류는 더 정확한 것으로 관찰되었다. 작동하는 거리 신호들은 단일 클러스터 거리 채널, 다중 클러스터 거리 채널, 및 다중 클러스터 형상 기반 거리 채널을 포함한다. 단일 클러스터 거리 채널은 중심 픽셀에 클러스터 중심을 갖는 패치에 적용된다. 이어서, 패치 내의 모든 영역들의 거리는 중심 픽셀에서 클러스터 중심으로부터의 거리이다. 중심 픽셀과 동일한 클러스터에 속하지 않는 픽셀들은 계산된 거리를 제공하는 대신에 배경으로서 플래깅될 수 있다. 다중 클러스터 거리 채널은 가장 가까운 클러스터 중심까지의 각각의 영역의 거리를 미리 계산한다. 이는 소정 영역을 잘못된 클러스터 중심에 접속시키는 잠재력을 갖지만, 그 잠재력은 낮다. 다중 클러스터 형상 기반 거리 채널은 영역들(서브픽셀들 또는 픽셀들)을, 맞닿은 영역들을 통해, 동일한 염기 분류를 생성하는 픽셀 중심과 연관시킨다. 일부 계산 비용으로, 이는 잘못된 픽셀까지의 거리를 측정할 가능성들을 회피시킨다. 거리 신호들에 대한 다중 클러스터 및 다중 클러스터 형상 기반 접근법들은, 미리 계산을 적용받고 이미지 내의 다수의 클러스터들과 함께 사용하는 이점을 갖는다.

형상 정보는 잡음으로부터 신호를 분리하여 신호 대 잡음비를 개선하기 위해 신경 네트워크에 의해 사용될 수 있다. 위의 논의에서, 영역 분류에 대한 그리고 거리 채널 정보를 공급하는 것에 대한 여러 접근법들이 식별되었다. 접근법들 중 임의의 접근법에서, 영역들은 클러스터 에지들을 한정하기 위해 배경으로서, 즉 클러스터의 일부가 아닌 것으로서 마킹될 수 있다. 신경 네트워크는 불규칙한 클러스터 형상들에 관한 결과적인 정보를 이용하도록 트레이닝될 수 있다. 거리 정보 및 배경 분류는 조합될 수 있거나, 또는 개별적으로 사용될 수 있다. 접해 있는 클러스터로부터 신호들을 분리하는 것은 클러스터 밀도가 증가함에 따라 점점 더 중요할 것이다.

병렬 프로세싱의 스케일을 증가시키는 것에 대한 한 가지 방향은 이미징된 매체 상의 클러스터 밀도를 증가시키는 것이다. 밀도를 증가시키는 것은 인접한 이웃을 갖는 클러스터를 판독할 때 배경 잡음을 증가시키는 불리한 면을 갖는다. (예컨대, 3 × 3 픽셀들의) 임시 패치 대신, 형상 데이터를 사용하는 것은, 예를 들어, 클러스터 밀도가 증가함에 따라 신호 분리를 유지하는 것을 돕는다.

개시된 기술의 하나의 태양을 적용하면, 염기 분류 스코어들은, 또한, 품질을 예측하기 위해 레버리징될 수 있다. 개시된 기술은 분류 스코어들을, 직접적으로 또는 예측 모델을 통해, 전통적인 생어(Sanger) 또는 프레드(Phred) 품질 Q-스코어들과 상관시키는 것을 포함한다. Q20, Q30 또는 Q40과 같은 스코어들은, Q = -10 log₁₀ P에 의해, 염기 분류 에러 확률들과 대수적으로 관련된다. 클래스 스코어들과 Q 스코어들의 상관은 다중 출력 신경 네트워크 또는 다변량 회귀 분석을 사용하여 수행될 수 있다. 염기 분류 동안, 품질 스코어들의 실시간 계산의 이점은, 결함이 있는(flawed) 서열분석 런이 조기에 종결될 수 있다는 것이다. 출원인은 런들을 종결시키는 우발적(희귀한) 결정들이 분석 서열을 통해 그 경로의 1/8 내지 1/4에서 이루어질 수 있음을 알아내었다. 종결시키는 결정은 50개의 사이클들 후에 또는 25 내지 75개의 사이클들 후에 이루어질 수 있다. 달리 300 내지 1000개의 사이클들을 러닝할 순차적 프로세스에서, 조기 종결은 실질적인 리소스 절감들을 초래한다.

특화된 콘볼루션 신경 네트워크(CNN) 아키텍처들이 다수의 사이클들에 걸쳐서 염기들을 분류하는 데 사용될 수 있다. 하나의 특화는 프로세싱의 초기 층들 동안 디지털 이미지 채널들 간의 분리를 수반한다. 콘볼루션 필터 스택들은, 사이클들 간의 프로세싱을 분리하여, 상이한 사이클들로부터의 디지털 이미지 세트들 사이의 크로스-토크를 방지하도록 구조화될 수 있다. 사이클들 간의 프로세싱을 분리하기 위한 동기(motivation)는, 상이한 사이클들에서 촬영된 이미지들이 잔차 정합 에러를 갖고, 따라서, 서로에 대해 오정렬되어 랜덤 병진 오프셋들을 갖는다는 것이다. 이는, 센서의 모션 단계의 움직임들의 유한한 정확도로 인해, 그리고, 또한, 상이한 주파수 채널들에서 촬영된 이미지들이 상이한 광학 경로들 및 파장들을 갖기 때문에 발생한다.

연속적인 사이클들로부터의 이미지 세트들을 사용하는 것에 대한 동기는, 특정 사이클에서 신호들에 대한 프리-페이징 및 포스트-페이징의 기여가 2차 기여라는 것이다. 결과적으로, 콘볼루션 신경 네트워크가 이미지 수집 사이클들 중에 디지털 이미지 세트들의 하위 층 콘볼루션을 구조적으로 분리하는 것이 도움이 될 수 있다는 것이다.

콘볼루션 신경 네트워크 구조는, 또한, 클러스터링에 관한 정보를 다루는 데 있어서 특화될 수 있다. 클러스터 중심들 및/또는 형상들에 대한 템플릿들은 콘볼루션 신경 네트워크가 디지털 이미지 데이터와 조합하는 추가 정보를 제공한다. 클러스터 중심 분류 및 거리 데이터는 사이클들에 걸쳐서 반복적으로 적용될 수 있다.

콘볼루션 신경 네트워크는 이미지 필드 내의 다수의 클러스터들을 분류하도록 구조화될 수 있다. 다수의 클러스터들이 분류될 때, 픽셀 또는 서브픽셀에 대한 거리 채널은, 픽셀 또는 서브픽셀이 속하는 맞닿은 클러스터 중심에 대하여 또는 가장 가까운 클러스터 중심에 대하여 거리 정보를 더 콤팩트하게 함유할 수 있다. 대안으로, 각각의 픽셀 또는 서브픽셀에 대해, 또는 클러스터 중심을 포함하는 적어도 각각의 픽셀 또는 서브픽셀에 대해 큰 거리 벡터가 공급될 수 있는데, 이는 클러스터 중심으로부터, 주어진 픽셀에 대한 콘텍스트인 모든 다른 픽셀들까지의 완전한 거리 정보를 제공한다.

템플릿 생성과 염기 호출의 일부 조합들은 영역 가중화에 대한 변형들을 사용하여 거리 채널을 대체할 수 있다. 이제, 템플릿 생성기의 출력이 어떻게 거리 채널 대신에 직접적으로 사용될 수 있는지에 대한 논의로 전환한다.

픽셀 값 변형에 대한 템플릿 이미지들의 직접 적용에 영향을 미치는 3개의 고려사항들을 논의한다: 이미지 세트들이 픽셀 도메인에서 프로세싱되는지 서브픽셀 도메인에서 프로세싱되는지; 어느 도메인에서든, 영역 가중치들이 어떻게 계산되는지; 그리고 서브픽셀 도메인에서, 템플릿 이미지를 마스크로서 적용하여, 보간된 세기 값들을 변형하는 것.

픽셀 도메인에서 염기 분류를 수행하는 것은, 업샘플링으로부터 비롯되는, 16배와 같은 계산 증가를 가져 요구하지 않는 이점을 갖는다. 픽셀 도메인에서, 심지어 콘볼루션들의 상부 층조차도, 불필요한 계산들을 취소하기 위해 로직을 추가하는 대신에, 수집되지 않을 계산들의 수행을 정당화시키기에 충분한 클러스터 밀도를 가질 수 있다. 거리 채널 없이 템플릿 이미지 데이터를 직접적으로 사용하는, 픽셀 도메인에서의 예들로 시작한다.

일부 구현예들에서, 분류는 특정 클러스터에 초점을 둔다. 이러한 경우들에 있어서, 클러스터의 주연부 상의 픽셀들은, 어느 인접한 클러스터가 분류 초점인지에 따라, 상이한 변형된 세기 값들을 가질 수 있다. 서브픽셀 도메인 내의 템플릿 이미지는 중첩 픽셀이 2개의 상이한 클러스터들에 세기 값을 부여함을 나타낼 수 있다. 2개 이상의 인접한 또는 접해 있는 클러스터들 둘 모두가 픽셀과 중첩할 때 광학 픽셀을 "중첩 픽셀"로 지칭하며; 둘 모두는 광학 픽셀로부터 판독하는 세기에 기여한다. 빗물의 흐름들을 리지(ridge) 라인에서 상이한 워터셰드들로 분리한 이름을 따서 명명된 워터셰드 분석은 심지어 접해 있는 클러스터들도 분리시키도록 적용될 수 있다. 클러스터별 단위로 분류를 위해 데이터가 수신될 때, 템플릿 이미지는 클러스터들의 주연부를 따른 중첩 픽셀들에 대한 세기 데이터를 변형하는 데 사용될 수 있다. 중첩 픽셀들은 어느 클러스터가 분류 초점인지에 따라 상이한 변형된 세기들을 가질 수 있다.

픽셀의 변형된 세기는, 어웨이(away) 클러스터(즉, 픽셀이 묘사하는 세기 방출물들을 갖는 비-홈 클러스터)와는 대조적으로, 홈 클러스터(즉, 픽셀이 속하는 클러스터, 또는 픽셀이 주로 묘사하는 세기 방출물들을 갖는 클러스터)에 대한 중첩 픽셀에서의 서브픽셀 기여에 기초하여 감소될 수 있다. 5개의 서브픽셀들이 홈 클러스터의 일부이고 2개의 서브픽셀들이 어웨이 클러스터의 일부임을 가정한다. 그러면, 7개의 서브픽셀들이 홈 클러스터 또는 어웨이 클러스터에 세기를 부여한다. 홈 클러스터에 초점을 두는 동안, 하나의 구현예에서, 중첩 픽셀은 7/16만큼 세기가 감소되는데, 그 이유는 16개의 서브픽셀들 중 7개가 홈 클러스터 또는 어웨이 클러스터에 세기를 부여하기 때문이다. 다른 구현예에서, 세기는 홈 클러스터에 기여하는 서브픽셀들의 영역을 서브픽셀들의 총 수로 나눈 것에 기초하여, 5/16만큼 감소된다. 제3 구현예에서, 세기는 홈 클러스터에 기여하는 서브픽셀들의 영역을 기여하는 서브픽셀들의 총 영역으로 나눈 것에 기초하여, 5/7만큼 감소된다. 후자의 2개의 계산들은 초점이 어웨이 클러스터로 전환될 때 변경되어, 분자가 "2"인 분율을 생성한다.

물론, 거리 채널이 클러스터 형상들의 서브픽셀 맵과 함께 고려되고 있는 경우, 세기의 추가 감소가 적용될 수 있다.

일단 분류 초점인 클러스터에 대한 픽셀 세기들이 템플릿 이미지를 사용하여 변형되었다면, 변형된 픽셀 값들은 신경 네트워크 기반 분류기의 층들을 통해 콘볼루션되어, 변형된 이미지들을 생성한다. 변형된 이미지들은 연속적인 서열분석 사이클들에서 염기들을 분류하는 데 사용된다.

대안으로, 픽셀 도메인에서의 분류는 이미지의 청크(chunk) 내의 모든 픽셀들 또는 모든 클러스터들에 대해 병렬로 진행될 수 있다. 픽셀 값의 단 하나의 변형만이 중간 계산들의 재사용가능성들을 보장하기 위해 이러한 시나리오에서 적용될 수 있다. 세기의 더 작은 감쇠가 요구되는지 아니면 더 큰 감쇠가 요구되는지에 따라, 위에 주어진 분율들 중 임의의 것이 픽셀 세기를 변형하는 데 사용될 수 있다.

일단 이미지 청크에 대한 픽셀 세기들이 템플릿 이미지를 사용하여 변형되었다면, 픽셀들 및 주변 콘텍스트가 변형된 이미지들을 생성하기 위해 신경 네트워크 기반 분류기의 층들을 통해 콘볼루션될 수 있다. 이미지 청크에 대해 콘볼루션들을 수행하는 것은 콘텍스트를 공유했던 픽셀들 간의 중간 계산들의 재사용을 허용한다. 변형된 이미지들은 연속적인 서열분석 사이클들에서 염기들을 분류하는 데 사용된다.

이러한 설명은 서브픽셀 도메인에서의 영역 가중치들의 적용에 대해 유사할 수 있다. 유사점은 가중치들이 개별 서브픽셀들에 대해 계산될 수 있다는 것이다. 가중치들은 광학 픽셀의 상이한 서브픽셀 부분들에 대해 동일할 수 있지만, 그러해야 하는 것은 아니다. 중첩 픽셀의 5개 및 2개 서브픽셀들을 각각 갖는 홈 클러스터 및 어웨이 클러스터의 상기 시나리오를 반복하면, 홈 클러스터에 속하는 서브픽셀에 대한 세기의 할당은 픽셀 세기의 7/16, 5/16 또는 5/7일 수 있다. 또한, 거리 채널이 클러스터 형상들의 서브픽셀 맵과 함께 고려되고 있는 경우, 세기의 추가 감소가 적용될 수 있다.

일단 이미지 청크에 대한 픽셀 세기들이 템플릿 이미지를 사용하여 변형되었다면, 서브픽셀들 및 주변 콘텍스트가 변형된 이미지들을 생성하기 위해 신경 네트워크 기반 분류기의 층들을 통해 콘볼루션될 수 있다. 이미지 청크에 대해 콘볼루션들을 수행하는 것은 콘텍스트를 공유했던 서브픽셀들 간의 중간 계산들의 재사용을 허용한다. 변형된 이미지들은 연속적인 서열분석 사이클들에서 염기들을 분류하는 데 사용된다.

다른 대안은, 서브픽셀 도메인에서, 템플릿 이미지를 이진 마스크로서 적용하여, 서브픽셀 도메인 내에 보간된 데이터를 이미징하는 것이다. 템플릿 이미지는 클러스터들 사이에 배경 픽셀을 요구하도록, 또는 상이한 클러스터들로부터의 서브픽셀들이 접해 있게 하도록 배열될 수 있다. 템플릿 이미지는 마스크로서 적용될 수 있다. 마스크는 보간된 픽셀이 보간법에 의해 할당된 값을 유지하는지, 또는 그것이 템플릿 이미지에서 배경으로 분류되는 경우, 배경 값(예컨대, 0)을 수신하는지의 여부를 결정한다.

또한, 일단 이미지 청크에 대한 픽셀 세기들이 템플릿 이미지를 사용하여 마스킹되었다면, 서브픽셀들 및 주변 콘텍스트가 변형된 이미지들을 생성하기 위해 신경 네트워크 기반 분류기의 층들을 통해 콘볼루션될 수 있다. 이미지 청크에 대해 콘볼루션들을 수행하는 것은 콘텍스트를 공유했던 서브픽셀들 간의 중간 계산들의 재사용을 허용한다. 변형된 이미지들은 연속적인 서열분석 사이클들에서 염기들을 분류하는 데 사용된다.

개시된 기술의 특징들은 공유된 콘텍스트 내에서 임의의 수의 클러스터들을 분류하도록 조합가능하여, 중간 계산들을 재사용한다. 광학 픽셀 해상도로, 하나의 구현예에서, 약 10%의 픽셀들이 분류될 클러스터 중심들을 보유한다. 레거시 시스템들에서, 3 × 3 광학 픽셀들은, 불규칙하게 형상화된 클러스터들의 관찰을 고려하여, 클러스터 중심에 대한 잠재적인 신호 기여자들로서 분석을 위해 그룹화되었다. 심지어 상부 콘볼루션 층으로부터 멀리 떨어진 하나의 3 × 3 필터조차도, 클러스터 밀도들이, 광학 픽셀들 중 실질적으로 절반 초과의 광학 픽셀들로부터의 광학 신호들을 클러스터 중심들에 있는 픽셀들로 롤업할 가능성들이 있다. 슈퍼 샘플링된 해상도에서만, 상부 콘볼루션 층에 대한 클러스터 중심 밀도가 1% 미만으로 떨어진다.

공유된 콘텍스트는 일부 구현예들에서 실질적이다. 예를 들어, 15 × 15 광학 픽셀 콘텍스트가 정확한 염기 분류에 기여할 수 있다. 등가의 4x 업샘플링된 콘텍스트는 60 × 60 서브픽셀들일 것이다. 콘텍스트의 이러한 규모는 신경 네트워크가 이미징 동안의 불균일한 조명 및 배경의 영향들을 인식하는 것을 돕는다.

개시된 기술은 하위 콘볼루션 층에 있는 소형 필터들을 사용하여, 템플릿 입력 내의 클러스터 경계들과 디지털 이미지 입력에서 검출된 경계들을 조합한다. 클러스터 경계들은 신경 네트워크가 배경 조건들로부터의 신호를 분리시키는 것을 돕고, 배경에 대한 이미지 프로세싱을 정규화한다.

개시된 기술은 실질적으로 중간 계산들을 재사용한다. 20 내지 25개의 클러스터 중심들이 15 × 15 광학 픽셀들의 콘텍스트 영역 내에 나타난다고 가정한다. 그러면, 제1 층 콘볼루션들은 블록별 콘볼루션 롤업들에서 20 내지 25회 재사용될 것이다. 재사용 인자는, 광학 해상도에서의 재사용 인자가 1x 미만으로 떨어지는 제1 시간인, 끝에서 두 번째 층까지 층별로 감소된다.

다수의 콘볼루션 층들로부터의 블록별 롤업 트레이닝 및 추론은 픽셀들 또는 서브픽셀들의 블록에 연속적인 롤업들을 적용한다. 블록 주연부 둘레에는, 제1 데이터 블록의 롤업 동안 사용되는 데이터가 롤업들의 제2 블록과 중첩하고 그에 대해 재사용될 수 있는 중첩 구역이 있다. 블록 내에는, 중첩 구역에 의해 둘러싸인 중심 영역에서, 픽셀 값들, 및 롤업될 수 있고 재사용될 수 있는 중간 계산들이 있다. 중첩 구역에서, 콘텍스트 필드의 크기를, 예를 들어 3 × 3 필터의 적용에 의해 15 × 15로부터 13 × 13으로 점진적으로 감소시키는 콘볼루션 결과들은, 콘볼루션된 값들을 보유하는 동일한 메모리 블록에 기록되어, 블록 내에서의 기초 계산들의 재사용을 손상시키지 않고서 메모리를 보존할 수 있다. 더 큰 블록들을 사용하면, 중첩 구역에서의 중간 계산들을 공유하는 것은 더 적은 리소스들을 필요로 한다. 더 작은 블록들을 사용하면, 중첩 구역들에서 중간 계산들을 공유하도록 다수의 블록들을 병렬로 계산하는 것이 가능할 수 있다.

더 큰 필터들 및 확장들은 콘볼루션 층들의 수를 감소시킬 것인데, 이는, 하위 콘볼루션 층들이 템플릿 및/또는 디지털 이미지 데이터에서 클러스터 경계들에 반응한 후에, 분류를 손상시키지 않고서 계산 속도를 높일 수 있다.

템플릿 데이터에 대한 입력 채널들은 템플릿 구조가 디지털 이미지 필드 내의 다수의 클러스터 중심들을 분류하는 것과 일치하게 하도록 선택될 수 있다. 전술된 2개의 대안들은 이러한 일관성 기준을 만족시키지 않는다: 전체 콘텍스트에 걸친 리프레이밍 및 거리 맵핑. 리프레이밍은 단 하나의 클러스터의 중심을 광학 픽셀의 중심에 배치한다. 다수의 클러스터들을 분류하기 위해 더 양호한 것은 클러스터 중심들을 보유하는 것으로 분류된 픽셀들에 대해 중심 오프셋들을 공급하는 것이다.

거리 맵핑은, 제공되는 경우, 모든 픽셀이 전체 콘텍스트에 걸쳐서 그 자신의 거리 맵을 갖지 않는 한, 전체 콘텍스트 영역을 가로질러 수행하기가 어렵다. 더 간단한 거리 맵들은 디지털 이미지 입력 블록으로부터 다수의 클러스터들을 분류하기 위한 유용한 일관성을 제공한다.

신경 네트워크가 클러스터의 경계에 있는 픽셀들 또는 서브픽셀들의 템플릿에서의 분류로부터 학습할 수 있으므로, 거리 채널은, 클러스터 중심 오프셋 채널이 동반되는, 2원 또는 3원 분류를 공급하는 템플릿에 의해 대체될 수 있다. 사용될 때, 거리 맵은 픽셀(또는 서브픽셀)이 속하는 클러스터 중심으로부터의 픽셀의 거리를 제공할 수 있다. 또는 거리 맵은 가장 가까운 클러스터 중심까지의 거리를 제공할 수 있다. 거리 맵은 배경 픽셀들에 할당된 플래그 값으로 2원 분류를 인코딩할 수 있거나, 또는 그것은 픽셀 분류와는 별개의 채널일 수 있다. 클러스터 중심 오프셋들과 조합되면, 거리 맵은 3원 분류를 인코딩할 수 있다. 일부 구현예, 특히, 하나 또는 2개의 비트들로 픽셀 분류들을 인코딩하는 구현예들에서, 적어도 개발 동안, 픽셀 분류를 위해 그리고 거리를 위해 별개의 채널들을 사용하는 것이 바람직할 수 있다.

개시된 기술은 상위 층들에 일부 계산 리소스들을 절약하기 위한 계산의 감소를 포함할 수 있다. 클러스터 중심 오프셋 채널 또는 3원 분류 맵은 픽셀 중심의 궁극적인 분류에 기여하지 않는 픽셀 콘볼루션들의 중심들을 식별하는 데 사용될 수 있다. 많은 하드웨어/소프트웨어 구현예들에서, 추론 동안 룩업을 수행하고 콘볼루션 롤업을 스킵하는 것은, 3 × 3 필터를 적용하기 위해 심지어 9회의 곱셈들 및 8배의 덧셈들을 수행하는 것보다 상위 층(들)에서 더 효율적일 수 있다. 병렬 실행을 위해 계산들을 파이프라인화하는 맞춤형 하드웨어에서, 모든 픽셀은 파이프라인 내에서 분류될 수 있다. 이어서, 클러스터 중심 맵은 최종 콘볼루션 후에, 클러스터 중심들과 일치하는 픽셀들에 대해서만 결과들을 수집하기 위해 사용될 수 있는데, 그 이유는 궁극적 분류가 그들 픽셀들에 대해서만 요구되기 때문이다. 또한, 광학 픽셀 도메인에서, 현재 관찰된 클러스터 밀도들에서, 픽셀들의 약 10%에 대한 롤업된 계산들이 수집될 것이다. 4x 업샘플링된 도메인에서, 일부 하드웨어 상에서, 스킵된 콘볼루션들로부터 더 많은 층들이 이득을 얻을 수 있는데, 그 이유는 상부 층 내의 서브픽셀 분류들의 1% 미만이 수집될 것이기 때문이다.

신경 네트워크 기반 염기 호출

도 1은 하나의 구현예에 따른, 염기 호출을 위한 RTA 염기 호출자에 의해 사용되는 프로세싱 단계들을 도시한다. 도 1은, 또한, 2개의 구현예들에 따른, 염기 호출을 위한 개시된 신경 네트워크 기반 염기 호출자에 의해 사용되는 프로세싱 단계들을 도시한다. 도 1에 도시된 바와 같이, 신경 네트워크 기반 염기 호출자(218)는 RTA 염기 호출자에 의해 사용되는 프로세싱 단계들 중 다수를 제거함으로써 염기 호출 프로세스를 간소화(streamline)할 수 있다. 능률화는 염기 호출 정확도 및 스케일을 개선한다. 신경 네트워크 기반 염기 호출자(218)의 제1 구현예에서, 그것은 신경 네트워크 기반 템플릿 생성기(1512)의 출력으로부터 식별된 클러스터 중심들의 위치/포지션 정보를 사용하여 염기 호출을 수행한다. 제2 구현예에서, 신경 네트워크 기반 염기 호출자(218)는 염기 호출을 위해 클러스터 중심들의 위치/포지션 정보를 사용하지 않는다. 제2 구현예는 패턴화된 플로우 셀 설계가 클러스터 생성을 위해 사용될 때 사용된다. 패턴화된 플로우 셀은 공지된 기점 위치들에 대해 정밀하게 포지셔닝된 나노웰들을 포함하고, 패턴화된 플로우 셀 상에 미리 배열된 클러스터 분포를 제공한다. 다른 구현예들에서, 신경 네트워크 기반 염기 호출자(218)는 랜덤 플로우 셀들 상에서 생성된 클러스터들을 염기 호출한다.

이제, 신경 네트워크가 서열분석 이미지들을 염기 호출들에 맵핑하도록 트레이닝되는 신경 네트워크 기반 염기 호출에 대한 논의로 전환한다. 논의는 하기와 같이 정리된다. 먼저, 신경 네트워크로의 입력들이 기술된다. 이어서, 신경 네트워크의 구조 및 형태가 기술된다. 마지막으로, 신경 네트워크의 출력들이 기술된다.

입력

도 2는 신경 네트워크(206)를 사용하여 염기 호출하는 하나의 구현예를 도시한다.

주요 입력: 이미지 채널들

신경 네트워크(206)로의 주요 입력은 이미지 데이터(202)이다. 이미지 데이터(202)는 서열분석 런 동안 서열분석기(222)에 의해 생성된 서열분석 이미지들(108)로부터 도출된다. 하나의 구현예에서, 이미지 데이터(202)는 서열분석 이미지들(222)로부터 추출된 n × n 이미지 패치들을 포함하는데, 여기서 n은 1 내지 10,000 범위의 임의의 수이다. 서열분석 런은 대응하는 m개의 이미지 채널들에 대한 서열분석 사이클당 m개의 이미지(들)를 생성하고, 이미지 패치는 특정 서열분석 사이클에 대한 이미지 데이터를 준비하기 위해 m개의 이미지(들) 각각으로부터 추출된다. 4-, 2-, 및 1-채널 화학들과 같은 상이한 구현예들에서, m은 4 또는 2이다. 다른 구현예들에서, m은 1, 3, 또는 4 초과이다. 이미지 데이터(202)는, 일부 구현예들에서는, 광학 픽셀 도메인 내에 있고, 다른 구현예들에서는, 업샘플링된 서브픽셀 도메인 내에 있다.

이미지 데이터(202)는 다수의 서열분석 사이클들(예컨대, 현재 서열분석 사이클, 하나 이상의 선행 서열분석 사이클들, 및 하나 이상의 연속적인 서열분석 사이클들)에 대한 데이터를 포함한다. 하나의 구현예에서, 이미지 데이터(202)는 3개의 서열분석 사이클들에 대한 데이터를 포함하여서, 염기 호출될 현재(시간 t) 서열분석 사이클에 대한 데이터에 (i) 좌측 플랭킹/콘텍스트/이전/선행/우선(시간 t-1) 서열분석 사이클에 대한 데이터, 및 (ii) 우측 플랭킹/콘텍스트/다음/연속적/후속(시간 t+1) 서열분석 사이클에 대한 데이터가 동반되도록 한다. 다른 구현예들에서, 이미지 데이터(202)는 단일 서열분석 사이클에 대한 데이터를 포함한다.

이미지 데이터(202)는 하나 이상의 클러스터들 및 그들의 주변 배경의 세기 방출물들을 묘사한다. 하나의 구현예에서, 단일 표적 클러스터가 염기 호출되어야 할 때, 각각의 이미지 패치가 그의 중심 픽셀 내의 표적 클러스터의 중심을 포함하는 방식으로 이미지 패치들이 서열분석 이미지들(108)로부터 추출되며, 그 개념은 본 명세서에서 "표적 클러스터가 중심이 되는 패치 추출(target cluster-centered patch extraction)"로 지칭된다.

이미지 데이터(202)는 세기 채널들(이미지 채널들로도 칭해짐)을 사용하여 입력 데이터(204)에서 인코딩된다. 특정 서열분석 사이클에 대해 서열분석기(222)로부터 획득된 m개의 이미지들 각각에 대해, 별개의 이미지 채널은 그의 세기 데이터를 인코딩하는 데 사용된다. 예를 들어, 서열분석 런이 각각의 서열분석 사이클에서 적색 이미지 및 녹색 이미지를 생성하는 2-채널 화학을 사용한다는 것을 고려하면, 입력 데이터(204)는 (i) 적색 이미지에서 캡처된 하나 이상의 클러스터들 및 그들의 주변 배경의 세기 방출물들을 묘사하는 n × n 픽셀들을 갖는 제1 적색 이미지 채널, 및 (ii) 녹색 이미지에서 캡처된 하나 이상의 클러스터들 및 그들의 주변 배경의 세기 방출물들을 묘사하는 n × n 픽셀들을 갖는 제2 녹색 이미지 채널을 포함한다.

하나의 구현예에서, 바이오센서는 광 센서들의 어레이를 포함한다. 광 센서는 바이오센서의 검출 표면 상의 대응하는 픽셀 영역(예컨대, 반응 사이트/웰(well)/나노웰)으로부터의 정보를 감지하도록 구성된다. 픽셀 영역 내에 배치된 분석물은 픽셀 영역, 즉 연관된 분석물과 연관된다고 한다. 서열분석 사이클에서, 픽셀 영역에 대응하는 광 센서는 연관된 분석물로부터 방출물들/광자들을 검출/캡처/감지하도록, 그리고 이에 응답하여, 각각의 이미징된 채널에 대한 픽셀 신호를 생성하도록 구성된다. 하나의 구현예에서, 각각의 이미징된 채널은 복수의 필터 파장 대역들 중 하나에 대응한다. 다른 구현예에서, 각각의 이미징된 채널은 서열분석 사이클에서 복수의 이미징 사건들 중 하나에 대응한다. 또 다른 구현예에서, 각각의 이미징된 채널은 특정 레이저를 사용하는 조명과 특정 광학 필터를 통한 이미징의 조합에 대응한다.

광 센서들로부터의 픽셀 신호들은 바이오센서에 커플링된 신호 프로세서로 (예컨대, 통신 포트를 통해) 전달된다. 각각의 서열분석 사이클 및 각각의 이미징된 채널에 대해, 신호 프로세서는 대응하는 광 센서들로부터 획득된 픽셀 신호들을 각각 묘사/포함/표시/표현/특성화하는 픽셀들을 갖는 이미지를 생성한다. 이러한 방식으로, 이미지 내의 픽셀은 하기에 대응한다: (i) 픽셀에 의해 묘사된 픽셀 신호를 생성한 바이오센서의 광 센서, (ii) 대응하는 광 센서에 의해 검출되고 픽셀 신호로 변환된 방출물들을 갖는 연관된 분석물, 및 (iii) 연관된 분석물을 보유하는 바이오센서의 검출 표면 상의 픽셀 영역.

예를 들어, 서열분석 런이 2개의 상이한 이미징된 채널들, 즉 적색 채널 및 녹색 채널을 사용하는 것을 고려한다. 이어서, 각각의 서열분석 사이클에서, 신호 프로세서는 적색 이미지 및 녹색 이미지를 생성한다. 이러한 방식으로, 서열분석 런의 일련의 k개의 서열분석 사이클들 동안, 적색 및 녹색 이미지들의 k개의 쌍들을 갖는 시퀀스가 출력으로서 생성된다.

적색 및 녹색 이미지들 내의 픽셀들(즉, 상이한 이미징된 채널들)은 서열분석 사이클 내에서 일대일 대응을 갖는다. 이는, 적색 및 녹색 이미지들의 쌍 내의 대응하는 픽셀들이, 비록 상이한 이미징된 채널들에서라도, 동일한 연관된 분석물에 대한 세기 데이터를 묘사한다는 것을 의미한다. 유사하게, 적색 및 녹색 이미지들의 쌍들에 걸친 픽셀들은 서열분석 사이클들 사이에 일대일 대응을 갖는다. 이는, 적색 및 녹색 이미지들의 상이한 쌍들 내의 대응하는 픽셀들이, 비록 서열분석 런의 상이한 획득 사건들/시간단계들(서열분석 사이클들)의 경우라 하더라도, 동일한 연관된 분석물에 대한 세기 데이터를 묘사한다는 것을 의미한다.

적색 및 녹색 이미지들 내의 대응하는 픽셀들(즉, 상이한 이미징된 채널들)은, 제1 적색 채널 및 제2 녹색 채널에서의 세기 데이터를 표현하는 "사이클별 이미지(per-cycle image)"의 픽셀로 간주될 수 있다. 픽셀 영역들의 서브세트, 즉 바이오센서의 검출 표면의 영역(타일)에 대한 픽셀 신호들을 묘사하는 픽셀들을 갖는 사이클별 이미지는 "사이클별 타일 이미지"로 칭해진다. 사이클별 타일 이미지로부터 추출된 패치는 "사이클별 이미지 패치"로 칭해진다. 하나의 구현예에서, 패치 추출은 입력 준비자에 의해 수행된다.

이미지 데이터는 서열분석 런의 일련의 k개의 서열분석 사이클들 동안 생성된 사이클별 이미지 패치들의 시퀀스를 포함한다. 사이클별 이미지 패치들 내의 픽셀들은 연관된 분석물들에 대한 세기 데이터를 포함하고, 세기 데이터는 연관된 분석물들로부터의 방출물들을 검출하도록 구성된 대응하는 광 센서들에 의해 하나 이상의 이미징된 채널들(예컨대, 적색 채널 및 녹색 채널)에 대해 획득된다. 하나의 구현예에서, 단일 표적 클러스터가 염기 호출될 때, 사이클별 이미지 패치들은 표적 연관된 분석물에 대한 세기 데이터를 포함하는 중심 픽셀에 중심을 두고, 사이클별 이미지 패치들 내의 비-중심 픽셀들은 표적 연관된 분석물에 인접한 연관된 분석물들에 대한 세기 데이터를 포함한다. 하나의 구현예에서, 이미지 데이터는 입력 준비자에 의해 준비된다.

비-이미지 데이터

다른 구현예에서, 신경 네트워크 기반 염기 호출자(218) 및 신경 네트워크 기반 품질 스코러(6102)로의 입력 데이터는 분자 연장(molecule extension) 동안 수소 이온들의 방출에 의해 유도된 pH 변화들에 기초한다. pH 변화들이 검출되고, (예컨대, Ion Torrent의 경우에) 포함된 염기들의 수에 비례하는 전압 변화로 변환된다.

또 다른 구현예에서, 신경 네트워크 기반 염기 호출자(218) 및 신경 네트워크 기반 품질 스코러(6102)로의 입력 데이터는, 염기의 아이덴티티를 결정하는 동안 분석물이 나노포어를 통과하거나 그의 애퍼처 근처를 지날 때 바이오센서들을 사용하여 전류의 중단을 측정하는 나노포어 감지로부터 구축된다. 예를 들어, Oxford Nanopore Technologies(ONT) 서열분석은 하기의 개념에 기초한다: 나노포어를 경유하여 멤브레인을 통해 DNA(또는 RNA)의 단일 가닥을 전달하고, 멤브레인에 걸친 전압차를 적용한다. 포어에 존재하는 뉴클레오티드는 포어의 전기 저항에 영향을 줄 것이며, 따라서, 시간 경과에 따른 전류 측정치들은 포어를 통과하는 DNA 염기들의 서열을 나타낼 수 있다. 이러한 전류 신호(플롯(plot)될 때 그의 외관으로 인한 '굴곡선(squiggle)')는 ONT 서열분석기에 의해 수집되는 원시 데이터이다. 이러한 측정치들은 (예를 들어) 4 ㎑ 주파수에서 취해진 16-비트 정수 데이터 획득(DAC) 값으로서 저장된다. 초당 약 450개의 염기 쌍들의 DNA 가닥 속도에 의해, 이는 평균적으로 염기당 대략 9개의 원시 관찰물(observation)들을 제공한다. 이어서, 이러한 신호는 개별 판독물들에 대응하는 열린 포어 신호에서의 중단부들을 식별하도록 프로세싱된다. 원시 신호의 이러한 신장부(stretch)들은 염기 호출된다 - DAC 값들을 DNA 염기들의 서열로 변환하는 프로세스. 일부 구현예들에서, 입력 데이터는 정규화 또는 스케일링된 DAC 값들을 포함한다.

보충 입력: 거리 채널들

이미지 데이터(202)에는 보충 거리 데이터(거리 채널들로도 칭해짐)가 동반된다. 거리 채널들은 이미지 채널들로부터 생성된 특징 맵들에 포함되는 부가적인 바이어스를 공급한다. 이러한 부가적인 바이어스는 염기 호출 정확도에 기여하는데, 그 이유는 그것이 거리 채널들에서 픽셀별로 인코딩되는 픽셀 중심-대-클러스터 중심(들) 거리들에 기초하기 때문이다.

"단일 표적 클러스터" 염기 호출 구현예에서, 입력 데이터(204)에서의 각각의 이미지 채널(이미지 패치)에 대해, 보충 거리 채널은, 그의 중심 픽셀을 포함하고 염기 호출될 표적 클러스터의 중심으로부터 그의 픽셀들의 중심들의 거리들을 식별한다. 거리 채널은, 이에 의해, 이미지 패치의 중심 픽셀로부터 이미지 패치의 픽셀들의 각자의 거리들을 나타낸다.

"다중 클러스터" 염기 호출 구현예에서, 입력 데이터(204)에서의 각각의 이미지 채널(이미지 패치)에 대해, 보충 거리 채널은 픽셀과 각각의 클러스터들 사이의 중심-대-중심 거리들에 기초하여 선택된 클러스터들 중 최근접 클러스터로부터의 각각의 픽셀의 중심-대-중심 거리를 식별한다.

"다중 클러스터 형상 기반" 염기 호출 구현예에서, 입력 데이터(204)에서의 각각의 이미지 채널(이미지 패치)에 대해, 보충 거리 채널은 각각의 클러스터 픽셀을 단 하나의 클러스터로 분류하는 것에 기초하여 선택되는 할당된 클러스터로부터의 각각의 클러스터 픽셀의 중심-대-중심 거리를 식별한다.

보충 입력: 스케일링 채널

이미지 데이터(202)에는 상이한 클러스터 크기들 및 불균일한 조명 조건들을 고려하는 보충 스케일링 데이터(스케일링 채널로도 칭해짐)가 동반된다. 스케일링 채널은, 또한, 이미지 채널들로부터 생성된 특징 맵들에 포함되는 부가적인 바이어스를 공급한다. 이러한 부가적인 바이어스는 염기 호출 정확도에 기여하는데, 그 이유는 그것이 스케일링 채널에서 픽셀별로 인코딩되는 중심 클러스터 픽셀(들)의 평균 세기들에 기초하기 때문이다.

보충 입력: 클러스터 중심 좌표들

일부 구현예들에서, 신경 네트워크 기반 템플릿 생성기(1512)의 출력으로부터 식별된 클러스터 중심(들)의 위치/포지션 정보(216)(예컨대, x-y 좌표들)는 신경 네트워크(206)에 보충 입력으로서 공급된다.

보충 입력: 클러스터 속성 정보

일부 구현예들에서, 신경 네트워크(206)는, 보충 입력으로서, 어느 픽셀들 또는 서브픽셀들이 배경 픽셀들 또는 서브픽셀들, 클러스터 중심 픽셀들 또는 서브픽셀들, 및 동일한 클러스터를 묘사하는/그에 기여하는/그에 속하는 클러스터/클러스터 내부 픽셀들 또는 서브픽셀들인지를 분류하는 클러스터 속성 정보를 수신한다. 다른 구현예들에서, 감쇠 맵, 2원 맵, 및/또는 3원 맵 또는 이들의 변형은 신경 네트워크(206)에 보충 입력으로서 공급된다.

프리-프로세싱: 세기 변형

일부 구현예들에서, 입력 데이터(204)는 거리 채널들을 포함하지 않지만, 대신에, 신경 네트워크(206)는, 입력으로서, 신경 네트워크 기반 템플릿 생성기(1512)의 출력, 즉, 감쇠 맵, 2원 맵, 및/또는 3원 맵에 기초하여 변형되는 변형된 이미지 데이터를 수신한다. 그러한 구현예들에서, 이미지 데이터(202)의 세기들은 거리 채널들의 부재를 처리하도록 변형된다.

다른 구현예들에서, 이미지 데이터(202)는 하나 이상의 무손실 변환 동작들(예컨대, 콘볼루션들, 디콘볼루션들, 푸리에 변환들)을 적용받고, 생성된 변형된 이미지 데이터는 입력으로서 신경 네트워크(206)에 공급된다.

네트워크 구조 및 형태

신경 네트워크(206)는 본 명세서에서 "신경 네트워크 기반 염기 호출자"(218)로도 지칭된다. 하나의 구현예에서, 신경 네트워크 기반 염기 호출자(218)는 다층 퍼셉트론(multilayer perceptron, MLP)이다. 다른 구현예에서, 신경 네트워크 기반 염기 호출자(218)는 피드포워드 신경 네트워크이다. 또 다른 구현예에서, 신경 네트워크 기반 염기 호출자(218)는 완전 접속 신경 네트워크이다. 추가 구현예에서, 신경 네트워크 기반 염기 호출자(218)는 완전 콘볼루션 신경 네트워크이다. 다른 추가 구현예에서, 신경 네트워크 기반 염기 호출자(218)는 시맨틱 세그먼트화 신경 네트워크이다.

하나의 구현예에서, 신경 네트워크 기반 염기 호출자(218)는 복수의 콘볼루션 층들을 갖는 콘볼루션 신경 네트워크(CNN)이다. 다른 구현예에서, 그것은 장단기 메모리(LSTM) 네트워크, 양방향 LSTM(Bi-LSTM), 또는 게이트형 순환 유닛(GRU)과 같은 순환 신경 네트워크(RNN)이다. 또 다른 구현예에서, 그것은 CNN 및 RNN 둘 모두를 포함한다.

또 다른 구현예들에서, 신경 네트워크 기반 염기 호출자(218)는 1D 콘볼루션, 2D 콘볼루션, 3D 콘볼루션, 4D 콘볼루션, 5D 콘볼루션, 확장형 또는 아트로스 콘볼루션, 전치 콘볼루션, 깊이별 분리가능 콘볼루션, 포인트별 콘볼루션, 1 × 1 콘볼루션, 그룹 콘볼루션, 편평형 콘볼루션, 공간 및 교차 채널 콘볼루션, 셔플 그룹형 콘볼루션, 공간 분리가능 콘볼루션, 및 디콘볼루션을 사용할 수 있다. 그것은 하나 이상의 손실 함수들, 예컨대 로지스틱 회귀(logistic regression)/로그(log) 손실, 다중클래스 교차-엔트로피(multi-class cross-entropy)/소프트맥스 손실, 이진 교차-엔트로피(binary cross-entropy) 손실, 평균 제곱 에러(mean-squared error) 손실, L1 손실, L2 손실, 평활한(smooth) L1 손실, 및 Huber 손실을 사용할 수 있다. 그것은 임의의 병렬성(parallelism), 효율성, 및 압축 스킴들, 예컨대 TFRecords, 압축 인코딩(예컨대, PNG), 샤딩(sharding), 맵 변환을 위한 병렬 호출, 배칭(batching), 프리페칭(prefetching), 모델 병렬성, 데이터 병렬성, 및 동기식/비동기식 SGD를 사용할 수 있다. 그것은 업샘플링 층, 다운샘플링 층, 순환 접속, 게이트 및 게이트형 메모리 유닛(예컨대, LSTM 또는 GRU), 잔차 블록, 잔차 접속, 하이웨이 접속, 스킵 접속, 핍홀(peephole) 접속, 활성화 함수(예컨대, ReLU(rectifying linear unit), 리키 ReLU(leaky ReLU), ELU(exponential liner unit), 시그모이드 및 tanh(hyperbolic tangent)와 같은 비선형 변환 함수), 배치 정규화 층, 규칙화 층, 드롭아웃, 풀링 층(예컨대, 최대 또는 평균 풀링), 글로벌 평균 풀링 층, 및 감쇠 메커니즘을 포함할 수 있다.

신경 네트워크 기반 염기 호출자(218)는 입력 데이터(204)를 프로세싱하고, 입력 데이터(204)의 대안의 표현(208)을 생성한다. 대안의 표현(208)은 일부 구현예들에서 콘볼루션된 표현이고, 다른 구현예들에서 은닉된 표현이다. 이어서, 대안의 표현(208)은 출력(212)을 생성하도록 출력 층(210)에 의해 프로세싱된다. 출력(212)은, 아래에서 논의되는 바와 같이, 염기 호출(들)을 생성하는 데 사용된다.

출력

하나의 구현예에서, 신경 네트워크 기반 염기 호출자(218)는 특정 서열분석 사이클에 대한 단일 표적 클러스터에 대한 염기 호출을 출력한다. 다른 구현예에서, 그것은 특정 서열분석 사이클에 대한 복수의 표적 클러스터들 내의 각각의 표적 클러스터에 대한 염기 호출을 출력한다. 또 다른 구현예에서, 그것은 복수의 서열분석 사이클들 내의 각각의 서열분석 사이클에 대한 복수의 표적 클러스터들 내의 각각의 표적 클러스터에 대한 염기 호출을 출력하여, 이에 의해, 각각의 표적 클러스터에 대한 염기 호출 서열을 생성한다.

거리 채널 계산

이제, 클러스터 중심(들)의 적절한 위치/포지션 정보(예컨대, x-y 좌표들)가 거리 채널들의 거리 값들을 계산하는 데 사용하기 위해 어떻게 획득되는지에 대한 논의로 전환한다.

좌표들의 다운스케일링

도 3은 신경 네트워크 기반 템플릿 생성기(1512)의 출력으로부터 식별된 클러스터 중심들의 위치/포지션 정보를, 서브픽셀 도메인으로부터 픽셀 도메인으로, 변환하는 하나의 구현예이다.

클러스터 중심 위치/포지션 정보는, 신경 네트워크 기반 염기 호출에 대해, 적어도, (i) 중심 픽셀들에서 염기 호출될 표적 클러스터들의 중심들을 포함하는 이미지 패치들을 서열분석 이미지들(108)로부터 추출함으로써 입력 데이터를 구성하기 위해, (ii) 중심 픽셀을 포함하는 표적 클러스터의 중심으로부터 이미지 패치의 픽셀들의 중심들의 거리들을 식별하는 거리 채널을 구성하기 위해, 그리고/또는 (iii) 신경 네트워크 기반 염기 호출자(218)에 대한 보충 입력(216)으로서 사용된다.

일부 구현예들에서, 클러스터 중심 위치/포지션 정보는 업샘플링된 서브픽셀 해상도의 신경 네트워크 기반 템플릿 생성기(1512)의 출력으로부터 식별된다. 그러나, 일부 구현예들에서, 신경 네트워크 기반 염기 호출자(218)는 광학 픽셀 해상도에 있는 이미지 데이터에 대해 동작한다. 따라서, 하나의 구현예에서, 클러스터 중심 위치/포지션 정보는, 신경 네트워크 기반 템플릿 생성기(1512)에 입력으로서 공급되는 이미지 데이터를 업샘플링하기 위해 사용된 동일한 업샘플링 인자만큼 클러스터 중심들의 좌표들을 다운스케일링함으로써 픽셀 도메인으로 변환된다.

예를 들어, 입력으로서 신경 네트워크 기반 템플릿 생성기(1512)에 공급된 이미지 패치 데이터가 일부 초기 서열분석 사이클들로부터 업샘플링 인자 f만큼 서열분석 이미지들(108)을 업샘플링함으로써 도출되는 것을 고려한다. 이어서, 하나의 구현예에서, 포스트-프로세서(1814)에 의해 신경 네트워크 기반 템플릿 생성기(1512)에 의해 생성되고 템플릿/템플릿 이미지(304)에 저장된 클러스터 중심들(302)의 좌표들은 f(제수)로 나뉜다. 이러한 다운스케일링된 클러스터 중심 좌표들은 본 명세서에서 "참조 클러스터 중심들"(308)로 지칭되고, 템플릿/템플릿 이미지(304)에 저장된다. 하나의 구현예에서, 다운스케일링은 다운스케일러(306)에 의해 수행된다.

좌표들의 변환

도 4는 사이클 특정 및 이미지 채널 특정 변환들을 사용하여 참조 클러스터 중심들(308)로부터 소위 "변환된 클러스터 중심들"(404)을 도출하는 하나의 구현예이다. 그렇게 하기 위한 동기가 먼저 논의된다.

상이한 서열분석 사이클들에서 촬영된 서열분석 이미지들은 오정렬되고, 서로에 대해 랜덤 병진 오프셋들을 갖는다. 이는, 센서의 모션 단계의 움직임들의 유한한 정확도로 인해, 그리고, 또한, 상이한 이미지/주파수 채널들에서 촬영된 이미지들이 상이한 광학 경로들 및 파장들을 갖기 때문에 발생한다. 결과적으로, 참조 클러스터 중심들과 서열분석 이미지들에서의 클러스터 중심들의 위치들/포지션들 사이에 오프셋이 존재한다. 이러한 오프셋은, 상이한 서열분석 사이클들에서 캡처된 이미지들 사이에서, 그리고 상이한 이미지 채널들에서의 동일한 서열분석 사이클에서 캡처된 이미지들 내에서 변화한다.

이러한 오프셋을 처리하기 위해, 사이클 특정 및 이미지 채널 특정 변환들이 참조 클러스터 중심들에 적용되어, 각각의 서열분석 사이클의 이미지 패치들에 대한 각자의 변환된 클러스터 중심들을 생성한다. 사이클 특정 및 이미지 채널 특정 변환들은 이미지 상관을 사용하여 전체 6-파라미터 아핀 변환(예컨대, 병진, 회전, 스케일링, 전단, 우측 반사, 좌측 반사) 또는 프로크루스테스(Procrustes) 변환(예컨대, 병진, 회전, 스케일링, 선택적으로 종횡비로 연장)을 결정하는 이미지 정합 프로세스에 의해 도출되며, 이들의 추가 세부사항들은 첨부물들 1, 2, 3, 및 4에서 찾을 수 있다.

예를 들어, 4개의 클러스터 중심들에 대한 참조 클러스터 중심들이

이고, 서열분석 런이 각각의 서열분석 사이클에서 적색 이미지 및 녹색 이미지가 생성되는 2-채널 화학을 사용하는 것을 고려한다. 이어서, 예시적인 서열분석 사이클 3에 대해, 사이클 특정 및 이미지 채널 특정 변환들은 적색 이미지에 대해

이고, 녹색 이미지에 대해

이다.

유사하게, 예시적인 서열분석 사이클 9에 대해, 사이클 특정 및 이미지 채널 특정 변환들은 적색 이미지에 대해

이고, 녹색 이미지에 대해

이다.

이어서, 서열분석 사이클 3의 적색 이미지에 대한 변환된 클러스터 중심들

은 변환

을 참조 클러스터 중심들

에 적용함으로써 도출되고, 서열분석 사이클 3의 녹색 이미지에 대한 변환된 클러스터 중심들

은 변환

을 참조 클러스터 중심들

에 적용함으로써 도출된다.

유사하게, 서열분석 사이클 9의 적색 이미지에 대한 변환된 클러스터 중심들

은 변환

을 참조 클러스터 중심들

에 적용함으로써 도출되고, 서열분석 사이클 9의 녹색 이미지에 대한 변환된 클러스터 중심들

은 변환

을 참조 클러스터 중심들

에 적용함으로써 도출된다.

하나의 구현예에서, 변환들은 변환기(402)에 의해 수행된다.

변환된 클러스터 중심들(404)은 템플릿/템플릿 이미지(304) 내에 저장되고, 각각, (i) (예컨대, 패치 추출기(406)에 의해) 대응하는 서열분석 이미지들(108)로부터의 패치 추출을 행하기 위해, (ii) 거리 공식

에서, 대응하는 이미지 패치들에 대한 거리 채널들을 계산하기 위해, 그리고 (iii) 염기 호출되고 있는 대응하는 서열분석 사이클에 대한 신경 네트워크 기반 염기 호출자(218)로의 보충 입력으로서 사용된다. 다른 구현예들에서, 거리 제곱(distance squared), e^거리(e^-distance), 및 e^거리 제곱(e^-distance squared)과 같은 상이한 거리 공식이 사용될 수 있다.

이미지 패치

도 5는 신경 네트워크 기반 염기 호출자(218)에 공급되는 입력 데이터의 일부인 이미지 패치(502)를 도시한다. 입력 데이터는 서열분석 런의 일련의 서열분석 사이클들 동안 생성된 사이클별 이미지 패치 세트들의 시퀀스를 포함한다. 시퀀스 내의 각각의 사이클별 이미지 패치 세트는 하나 이상의 이미지 채널들 중 각자의 이미지 채널에 대한 이미지 패치를 갖는다.

예를 들어, 서열분석 런이 각각의 서열분석 사이클에서 적색 이미지 및 녹색 이미지를 생성하는 2-채널 화학을 사용하고, 입력 데이터가 서열분석 런의 일련의 3개의 서열분석 사이클들에 걸쳐 있는 데이터를 포함하는 것을 고려한다: 염기 호출될 현재(시간 t) 서열분석 사이클, 이전(시간 t-1) 서열분석 사이클, 및 다음(시간 t+1) 서열분석 사이클.

이어서, 입력 데이터는 사이클별 이미지 패치 세트들의 하기의 시퀀스를 포함한다: 현재 서열분석 사이클에서 캡처된 적색 및 녹색 서열분석 이미지들로부터 각각 추출된 현재 적색 이미지 패치 및 현재 녹색 이미지 패치를 갖는 현재 사이클 이미지 패치 세트, 이전 서열분석 사이클에서 캡처된 적색 및 녹색 서열분석 이미지들로부터 각각 추출된 이전 적색 이미지 패치 및 이전 녹색 이미지 패치를 갖는 이전 사이클 이미지 패치 세트, 및 다음 서열분석 사이클에서 캡처된 적색 및 녹색 서열분석 이미지들로부터 각각 추출된 다음 적색 이미지 패치 및 다음 녹색 이미지 패치를 갖는 다음 사이클 이미지 패치 세트.

각각의 이미지 패치의 크기는 n × n일 수 있는데, 여기서 n은 1 내지 10,000 범위의 임의의 수일 수 있다. 각각의 이미지 패치는 광학 픽셀 도메인 내에 또는 업샘플링된 서브픽셀 도메인 내에 있을 수 있다. 도 5에 도시된 구현예에서, 추출된 이미지 페이지(502)는 복수의 클러스터들 1 내지 m 및 그들의 주변 배경을 커버/묘사하는 픽셀들에 대한 픽셀 세기 데이터를 갖는다. 또한, 예시된 구현예에서, 이미지 패치(502)는 그의 중심 픽셀에서 염기 호출되는 표적 클러스터의 중심을 포함하는 방식으로 추출된다.

도 5에서, 픽셀 중심들은 흑색 직사각형으로 묘사되고 정수 위치/포지션 좌표들을 가지며, 클러스터 중심들은 자주색 원으로 묘사되고 부동 소수점 위치/포지션 좌표들을 갖는다.

단일 표적 클러스터에 대한 거리 계산

도 6은 단일 표적 클러스터가 신경 네트워크 기반 염기 호출자(218)에 의해 염기 호출되고 있을 때 거리 채널에 대한 거리 값들(602)을 결정하는 하나의 구현예를 도시한다. 표적 클러스터의 중심은, 신경 네트워크 기반 염기 호출자(218)에 입력으로서 공급되는 이미지 패치들의 중심 픽셀들에 포함된다. 거리 값들은 픽셀 단위로 계산되어, 각각의 픽셀에 대해, 그의 중심과 표적 클러스터의 중심 사이의 거리가 결정되게 한다. 따라서, 거리 값은 입력 데이터의 일부인 이미지 패치들 각각에서 각각의 픽셀에 대해 계산된다.

도 6은 특정 이미지 패치에 대한 3개의 거리 값들(d1, dc, dn)을 보여준다. 하나의 구현예에서, 거리 값들(602)은 하기의 거리 공식을 사용하여 계산된다:

, 이는 변환된 클러스터 중심들(404)에 대해 연산된다. 다른 구현예들에서, 거리 제곱, e^거리, 및 e^거리 제곱과 같은 상이한 거리 공식이 사용될 수 있다.

다른 구현예들에서, 이미지 패치들이 업샘플링된 서브픽셀 해상도에 있을 때, 거리 값들(602)은 서브픽셀 도메인에서 계산된다.

따라서, 단일 표적 클러스터 염기 호출 구현예에서, 거리 채널들은 염기 호출되는 표적 클러스터에 대해서만 계산된다.

도 7은 픽셀들과 표적 클러스터 사이에서 계산된 거리 값들(602)을 픽셀별로 인코딩(702)하는 하나의 구현예를 도시한다. 하나의 구현예에서, 입력 데이터에서, 거리 채널의 일부로서의 거리 값들(602)은 각각의 대응하는 이미지 채널(이미지 패치)을 "픽셀 거리 데이터"로서 보충한다. 적색 이미지 및 녹색 이미지가 서열분석 사이클마다 생성되는 예로 되돌아가면, 입력 데이터는 적색 이미지 채널 및 녹색 이미지 채널을 각각 픽셀 거리 데이터로서 보충하는 적색 거리 채널 및 녹색 거리 채널을 포함한다.

다른 구현예들에서, 이미지 패치들이 업샘플링된 서브픽셀 해상도에 있을 때, 거리 채널들은 서브픽셀 단위로 인코딩된다.

다수의 목표 클러스터들에 대한 거리 계산

도 8a는 다수의 표적 클러스터들 1-m이 신경 네트워크 기반 염기 호출자(218)에 의해 동시에 염기 호출되고 있을 때 거리 채널에 대한 거리 값들(802)을 결정하는 하나의 구현예를 도시한다. 거리 값들은, 각각의 픽셀에 대해, 그의 중심과 다수의 클러스터들 1-m 각각의 각자의 중심들 사이의 거리가 결정되고 (적색의) 최소 거리 값이 픽셀에 할당되도록 픽셀 단위로 계산된다.

따라서, 거리 채널은, 픽셀과 각각의 클러스터들 사이의 중심-대-중심 거리들에 기초하여 선택된 클러스터들 중 최근접 클러스터로부터의 각각의 픽셀의 중심-대-중심 거리를 식별한다. 예시된 구현예에서, 도 8a는 2개의 픽셀들 및 4개의 클러스터 중심들에 대한 픽셀 중심-대-클러스터 중심 거리들을 도시한다. 픽셀 1은 클러스터 1에 가장 근접하고, 픽셀 n은 클러스터 3에 가장 근접한다.

하나의 구현예에서, 거리 값들(802)은 하기의 거리 공식을 사용하여 계산된다:

다른 구현예들에서, 이미지 패치들이 업샘플링된 서브픽셀 해상도에 있을 때, 거리 값들(802)은 서브픽셀 도메인에서 계산된다.

따라서, 다중 클러스터 염기 호출 구현예에서, 거리 채널들은 복수의 클러스터들 중에서 최근접 클러스터에 대해 계산된다.

도 8b는, 표적 클러스터들 1 내지 m 각각에 대해, 픽셀 중심-대-최근접 클러스터 중심 거리들(804)(d1, d2, d23, d29, d24, d32, dn, d13, d14 등)에 기초하여 결정된 일부 최근접 픽셀들을 보여준다.

도 9는 클러스터들 중 최근접 클러스터와 픽셀들 사이에서 계산된 최소 거리 값들을 픽셀별로 인코딩(902)하는 하나의 구현예를 도시한다. 다른 구현예들에서, 이미지 패치들이 업샘플링된 서브픽셀 해상도에 있을 때, 거리 채널들은 서브픽셀 단위로 인코딩된다.

클러스터 형상들에 기초한 다수의 표적 클러스터들에 대한 거리 계산

도 10은, 본 명세서에서 "클러스터 형상 데이터" 또는 "클러스터 형상 정보"로 지칭되는 픽셀-대-클러스터 분류/속성/카테고리화(1002)를 사용하여, 다수의 표적 클러스터들 1 내지 m이 신경 네트워크 기반 염기 호출자(218)에 의해 동시에 염기 호출되고 있을 때 거리 채널에 대한 클러스터 거리 값들(1102)을 결정하는 하나의 구현예를 도시한다. 먼저, 클러스터 형상 데이터가 어떻게 생성되는지에 대한 간략한 검토가 이어진다.

위에서 논의된 바와 같이, 신경 네트워크 기반 템플릿 생성기(1512)의 출력은 픽셀들을, 배경 픽셀들, 중심 픽셀들, 및 동일한 클러스터를 묘사하는/그에 기여하는/그에 속하는 클러스터/클러스터 내부 픽셀들로서 분류하는 데 사용된다. 이러한 픽셀-대-클러스터 분류 정보는, 픽셀 중심들과 클러스터 중심들 사이의 거리들에 관계없이, 각각의 픽셀을 단 하나의 클러스터에만 귀속시키는 데 사용되고, 클러스터 형상 데이터로서 저장된다.

도 10에 도시된 구현예에서, 배경 픽셀들은 회색으로 착색되고, 클러스터 1에 속하는 픽셀들은 황색으로 착색되고(클러스터 1 픽셀들), 클러스터 2에 속하는 픽셀들은 녹색으로 착색되고(클러스터 2 픽셀들), 클러스터 3에 속하는 픽셀들은 적색으로 착색되고(클러스터 3 픽셀들), 클러스터 m에 속하는 픽셀들은 청색으로 착색된다(클러스터 m 픽셀들).

도 11은 클러스터 형상 데이터를 사용하여 거리 값들(1102)을 계산하는 하나의 구현예를 도시한다. 먼저, 클러스터 형상들을 처리하지 않고서 계산된 거리 정보가 에러가 왜 일어나기 쉬운지를 설명한다. 이어서, 클러스터 형상 데이터가 이러한 제한을 어떻게 극복하는지를 설명한다.

클러스터 형상 데이터를 사용하지 않는 "다중 클러스터" 염기 호출 구현예에서(도 8a, 도 85b 및 도 9), 픽셀에 대한 중심-대-중심 거리 값은 복수의 클러스터들 중에서 최근접 클러스터에 대해 계산된다. 이제, 클러스터 A에 속하는 픽셀이 클러스터 A의 중심으로부터 더 멀리 떨어져 있지만 클러스터 B의 중심에 더 가까울 때의 시나리오를 고려한다. 그러한 경우에, 클러스터 형상 데이터 없이, 픽셀은, (그것이 정말로 속하는) 클러스터 A에 대하여 거리 값을 할당받는 대신, (그것이 속하지 않는) 클러스터 B에 대해 계산된 거리 값을 할당받는다.

"다중 클러스터 형상 기반" 염기 호출 구현예는, 원시 이미지 데이터에 정의되고 신경 네트워크 기반 템플릿 생성기(1512)에 의해 생성되는 바와 같은, 진정한 픽셀-대-클러스터 맵핑을 사용함으로써 이를 회피시킨다.

2개의 구현예들 사이의 대조는 픽셀들(34, 35)에 관하여 알 수 있다. 도 8b에서, 픽셀들(34, 35)의 거리 값들은, 클러스터 형상 데이터를 처리하지 않고서, 클러스터 3의 최근접 중심에 대해 계산된다. 그러나, 도 11에서, 클러스터 형상 데이터에 기초하여, 픽셀들(34, 35)의 거리 값들(1102)은 (그들이 실제로 속하는) 클러스터 2에 대해 계산된다.

도 11에서, 클러스터 픽셀들은 클러스터 세기들을 묘사하고, 배경 픽셀들은 배경 세기들을 묘사한다. 클러스터 거리 값들은 각각의 클러스터 픽셀을 클러스터들 중 단 하나의 클러스터로 분류하는 것에 기초하여 선택되는 클러스터들 중 할당된 클러스터로부터의 각각의 클러스터 픽셀의 중심-대-중심 거리를 식별한다. 일부 구현예들에서, 배경 픽셀들은 미리 결정된 배경 거리 값, 예컨대 0 또는 0.1, 또는 일부 다른 최소 값을 할당받는다.

하나의 구현예에서, 위에서 논의된 바와 같이, 클러스터 거리 값들(1102)은 하기의 거리 공식을 사용하여 계산된다:

다른 구현예들에서, 이미지 패치들이 업샘플링된 서브픽셀 해상도에 있을 때, 클러스터 거리 값들(1102)은 서브픽셀 도메인에서 계산되고, 클러스터 및 배경 속성(1002)은 서브픽셀 단위로 발생한다.

따라서, 다중 클러스터 형상 기반 염기 호출 구현예에서, 거리 채널들은 복수의 클러스터들 중에서 할당된 클러스터에 대해 계산된다. 할당된 클러스터는, 원시 이미지 데이터에 정의된 진정한 픽셀-대-클러스터 맵핑에 따라, 각각의 클러스터 픽셀을 클러스터들 중 단 하나의 클러스터로 분류하는 것에 기초하여 선택된다.

도 12는 할당된 클러스터들과 픽셀들 사이에서 계산된 거리 값들(1002)을 픽셀별로 인코딩하는 하나의 구현예를 도시한다. 다른 구현예들에서, 이미지 패치들이 업샘플링된 서브픽셀 해상도에 있을 때, 거리 채널들은 서브픽셀 단위로 인코딩된다.

심층 학습은 다층화된 신경 네트워크(many-layered neural network)들을 사용하는 강력한 기계 학습 기법이다. 컴퓨터 비전 및 이미지 프로세싱 도메인들에서의 하나의 특히 성공적인 네트워크 구조는 콘볼루션 신경 네트워크(CNN)이며, 여기서 각각의 층은 입력 텐서(tensor)(이미지형 다차원 조밀 어레이)로부터 상이한 형상의 출력 텐서로의 피드-포워드 콘볼루션 변환들을 수행한다. CNN들은, 트레이닝이 최대 3-D 또는 4-D의 어레이들 상에서 빠르게 이루어지는 범용 그래픽 프로세싱 유닛(graphics processing unit, GPU)들의 출현 및 이미지들의 공간 상관으로 인해 이미지형 입력에 특히 적합하다. 이들 이미지형 속성들을 활용하는 것은 지원 벡터 기계(support vector machine, SVM) 또는 다층 퍼셉트론(MLP)과 같은 다른 학습 방법들에 비해 우수한 경험적 성능을 초래한다.

이미지 데이터 및 보충 거리 및 스케일링 데이터 둘 모두를 다루기 위해 표준 CNN을 증강하는 특화된 아키텍처를 도입한다. 더 많은 상세사항들은 하기와 같다.

특화된 아키텍처

도 13은 상이한 서열분석 사이클들에 대한 데이터의 프로세싱을 분리하는 데 사용되는 신경 네트워크 기반 염기 호출자(218)의 특화된 아키텍처의 하나의 구현예를 도시한다. 특화된 아키텍처를 사용하기 위한 동기가 먼저 기술된다.

위에서 논의된 바와 같이, 신경 네트워크 기반 염기 호출자(218)는 현재 서열분석 사이클, 하나 이상의 선행 서열분석 사이클들, 및 하나 이상의 연속적인 서열분석 사이클들에 대한 데이터를 프로세싱한다. 추가 서열분석 사이클들에 대한 데이터는 서열 특정 콘텍스트를 제공한다. 신경 네트워크 기반 염기 호출자(218)는 트레이닝 동안 서열 특정 콘텍스트를 학습하고, 그들을 염기 호출한다. 더욱이, 프리 및 포스트 서열분석 사이클들에 대한 데이터는 현재 서열분석 사이클에 대한 프리-페이징 및 페이징 신호들의 2차 기여를 제공한다.

공간 콘볼루션 층들

그러나, 위에서 논의된 바와 같이, 상이한 서열분석 사이클들에서 그리고 상이한 이미지 채널들에서 캡처된 이미지들은 오정렬되어 있고, 서로에 대해 잔차 정합 에러를 갖는다. 이러한 오정렬을 처리하기 위해, 특화된 아키텍처는 서열분석 사이클들 사이의 정보를 혼합하지 않고 단지 서열분석 사이클 내의 정보만을 혼합하는 공간 콘볼루션 층을 포함한다.

공간 콘볼루션 층들은, 콘볼루션들의 "전용 비공유" 서열을 통해 복수의 서열분석 사이클들 각각에 대해 데이터를 독립적으로 프로세싱함으로써 분리를 조작하는 소위 "분리형 콘볼루션들"을 사용한다. 분리형 콘볼루션들은, 임의의 다른 서열분석 사이클의 데이터 및 생성된 특징 맵들에 걸쳐서 콘볼루션하지 않고서, 단지 주어진 서열분석 사이클, 즉, 인트라-사이클(intra-cycle)만의 데이터 및 생성된 특징 맵들에 걸쳐서 콘볼루션한다.

예를 들어, 입력 데이터는 (i) 염기 호출될 현재(시간 t) 서열분석 사이클에 대한 현재 데이터, (ii) 이전(시간 t-1) 서열분석 사이클에 대한 이전 데이터, 및 (iii) 다음(시간 t+1) 서열분석 사이클에 대한 다음 데이터를 포함하는 것을 고려한다. 이어서, 특화된 아키텍처는 3개의 별개의 데이터 프로세싱 파이프라인들(또는 콘볼루션 파이프라인들), 즉, 현재 데이터 프로세싱 파이프라인, 이전 데이터 프로세싱 파이프라인, 및 다음 데이터 프로세싱 파이프라인을 개시한다. 현재 데이터 프로세싱 파이프라인은 현재(시간 t) 서열분석 사이클에 대한 현재 데이터를 입력으로서 수신하고, 이를 복수의 공간 콘볼루션 층들을 통해 독립적으로 프로세싱하여 최종 공간 콘볼루션 층의 출력으로서 소위 "현재 공간적으로 콘볼루션된 표현"을 생성한다. 이전 데이터 프로세싱 파이프라인은 이전(시간 t-1) 서열분석 사이클에 대한 이전 데이터를 입력으로서 수신하고, 이를 복수의 공간 콘볼루션 층들을 통해 독립적으로 프로세싱하여 최종 공간 콘볼루션 층의 출력으로서 소위 "이전에 공간적으로 콘볼루션된 표현"을 생성한다. 다음 데이터 프로세싱 파이프라인은 다음(시간 t+1) 서열분석 사이클에 대한 다음 데이터를 입력으로서 수신하고, 이를 복수의 공간 콘볼루션 층들을 통해 독립적으로 프로세싱하여 최종 공간 콘볼루션 층의 출력으로서 소위 "다음에 공간적으로 콘볼루션된 표현"을 생성한다.

일부 구현예들에서, 현재, 이전, 및 다음 프로세싱 파이프라인들은 병렬로 실행된다.

일부 구현예들에서, 공간 콘볼루션 층들은 특화된 아키텍처 내의 공간 콘볼루션 네트워크(또는 서브네트워크)의 일부이다.

시간 콘볼루션 층들

신경 네트워크 기반 염기 호출자(218)는 서열분석 사이클들, 즉, 인터-사이클(inter-cycle)들 사이의 정보를 혼합하는 시간 콘볼루션 층들을 추가로 포함한다. 시간 콘볼루션 층들은 공간 콘볼루션 네트워크로부터 그들의 입력들을 수신하고, 각자의 데이터 프로세싱 파이프라인들에 대해 최종 공간 콘볼루션 층에 의해 생성되는 공간적으로 콘볼루션된 표현들 상에서 동작한다.

시간 콘볼루션 층들의 인터-사이클 동작가능성 자유는, 공간 콘볼루션 네트워크에 입력으로서 공급되는 이미지 데이터 내에 존재하는 오정렬 속성이 공간 콘볼루션 층들의 시퀀스에 의해 수행되는 분리형 콘볼루션들의 캐스케이드에 의해, 공간적으로 콘볼루션된 표현들로부터 제거된다(purged out)는 사실로부터 나온다.

시간 콘볼루션 층들은 슬라이딩 윈도우 단위로 연속적인 입력들에서 입력 채널들에 걸쳐서 그룹별로 콘볼루션하는 소위 "조합형 콘볼루션들"을 사용한다. 하나의 구현예에서, 연속적인 입력들은 이전 공간 콘볼루션 층 또는 이전 시간 콘볼루션 층에 의해 생성되는 연속적인 출력들이다.

일부 구현예들에서, 시간 콘볼루션 층들은 특화된 아키텍처 내의 시간 콘볼루션 네트워크(또는 서브네트워크)의 일부이다. 시간 콘볼루션 네트워크는 그의 입력들을 공간 콘볼루션 네트워크로부터 수신한다. 하나의 구현예에서, 시간 콘볼루션 네트워크의 제1 시간 콘볼루션 층은 서열분석 사이클들 사이의 공간적으로 콘볼루션된 표현들을 그룹별로 조합한다. 다른 구현예에서, 시간 콘볼루션 네트워크의 후속 시간 콘볼루션 층들은 이전 시간 콘볼루션 층들의 연속적인 출력들을 조합한다.

최종 시간 콘볼루션 층의 출력은 출력을 생성하는 출력 층에 공급된다. 출력은 하나 이상의 서열분석 사이클들에서의 하나 이상의 클러스터들을 염기 호출하는 데 사용된다.

다음으로, 분리형 및 조합형 콘볼루션들에 대한 더 상세한 논의가 이어진다.

분리형 콘볼루션들

순방향 전파 동안, 특화된 아키텍처는 2개의 단계들에서 복수의 입력들로부터의 정보를 프로세싱한다. 제1 단계에서, 입력들 사이의 정보의 혼합을 방지하기 위해 분리 콘볼루션들이 사용된다. 제2 단계에서, 입력들 사이의 정보를 혼합하기 위해 조합형 콘볼루션들이 사용된다. 제2 단계로부터의 결과들은 복수의 입력들에 대한 단일 추론을 행하는 데 사용된다.

이는, 콘볼루션 층이 배치(batch) 내의 다수의 입력들을 동시에 프로세싱하고 배치 내의 각각의 입력에 대한 대응하는 추론을 행하는 배치 모드 기법과는 상이하다. 대조적으로, 특화된 아키텍처는 복수의 입력들을 단일 추론에 맵핑한다. 단일 추론은 4개의 염기들(A, C, T, G) 각각에 대한 분류 스코어와 같은 하나 초과의 예측을 포함할 수 있다.

하나의 구현예에서, 입력들은, 각각의 입력이 상이한 시간 스텝에서 생성되고 복수의 입력 채널들을 갖도록 시간 순서화를 갖는다. 예를 들어, 복수의 입력들은 하기 3개의 입력들을 포함할 수 있다: 시간 스텝(t)에서 현재 서열분석 사이클에 의해 생성되는 현재 입력, 시간 스텝(t-1)에서 이전 서열분석 사이클에 의해 생성된 이전 입력, 및 시간 스텝(t+1)에서 다음 서열분석 사이클에 의해 생성되는 다음 입력. 다른 구현예에서, 각각의 입력은 하나 이상의 이전 콘볼루션 층들에 의해 현재, 이전, 및 다음 입력들로부터 각각 도출되고, k개의 특징 맵들을 포함한다.

하나의 구현예에서, 각각의 입력은 다음의 5개의 입력 채널들을 포함할 수 있다: (적색의) 적색 이미지 채널, (황색의) 적색 거리 채널, (녹색의) 녹색 이미지 채널, (자주색의) 녹색 거리 채널, 및 (청색의) 스케일링 채널. 다른 구현예에서, 각각의 입력은 이전 콘볼루션 층에 의해 생성된 k개의 특징 맵들을 포함할 수 있고, 각각의 특징 맵은 입력 채널로서 취급된다.

도 14는 분리형 콘볼루션들의 하나의 구현예를 도시한다. 분리형 콘볼루션들은 콘볼루션 필터를 각각의 입력에 병렬로 인가함으로써 복수의 입력들을 한꺼번에 프로세싱한다. 분리형 콘볼루션들을 사용하면, 콘볼루션 필터는 동일한 입력에서 입력 채널들을 조합하고, 상이한 입력들에서 입력 채널들을 조합하지 않는다. 하나의 구현예에서, 동일한 콘볼루션 필터가 병렬로 각각의 입력에 적용된다. 다른 구현예에서, 상이한 콘볼루션 필터가 병렬로 각각의 입력에 적용된다. 일부 구현예들에서, 각각의 공간 콘볼루션 층은 병렬로 각각의 입력에 각각 적용되는 k개의 콘볼루션 필터들의 뱅크를 포함한다.

조합형 콘볼루션들

조합형 콘볼루션들은, 상이한 입력들의 대응하는 입력 채널들을 그룹화하고 각각의 그룹에 콘볼루션 필터를 적용함으로써, 상이한 입력들 사이의 정보를 혼합한다. 대응하는 입력 채널들의 그룹화 및 콘볼루션 필터의 적용은 슬라이딩 윈도우 단위로 발생한다. 이러한 상황에서, 윈도우는, 예를 들어 2개의 연속적인 서열분석 사이클들에 대한 출력들을 표현하는 2개 이상의 연속적인 입력 채널들에 걸쳐 있다. 윈도우가 슬라이딩 윈도우이기 때문에, 대부분의 입력 채널들이 2개 이상의 윈도우들에서 사용된다.

일부 구현예들에서, 상이한 입력들은 선행 공간 또는 시간 콘볼루션 층에 의해 생성된 출력 시퀀스로부터 유래한다. 출력 시퀀스에서, 상이한 입력들은 연속적인 출력들로서 배열되고, 따라서, 다음 시간 콘볼루션 층에 의해 연속적인 입력들로서 보여진다. 이어서, 다음 시간 콘볼루션 층에서, 조합형 콘볼루션들은 연속적인 입력들에서 대응하는 입력 채널들의 그룹들에 콘볼루션 필터를 적용한다.

하나의 구현예에서, 연속적인 입력들은, 시간 스텝(t)에서 현재 서열분석 사이클에 의해 현재 입력이 생성되고, 시간 스텝(t-1)에서 이전 서열분석 사이클에 의해 이전 입력이 생성되고, 시간 스텝(t+1)에서 다음 서열분석 사이클에 의해 다음 입력이 생성되도록 시간 순서화를 갖는다. 다른 구현예에서, 각각의 연속적인 입력은 하나 이상의 이전 콘볼루션 층들에 의해 현재, 이전, 및 다음 입력들로부터 각각 도출되고, k개의 특징 맵들을 포함한다.

콘볼루션 필터의 깊이 B는, 대응하는 입력 채널들이 슬라이딩 윈도우 단위로 콘볼루션 필터에 의해 그룹별로 콘볼루션되는 연속적인 입력들의 수에 의존적이다. 다시 말하면, 깊이B는 각각의 슬라이딩 윈도우에서의 연속적인 입력들의 수 및 그룹 크기와 동일하다.

도 15a에서, 2개의 연속적인 입력들로부터의 대응하는 입력 채널들이 각각의 슬라이딩 윈도우에서 조합되고, 따라서 B = 2이다. 도 15b에서, 3개의 연속적인 입력들로부터의 대응하는 입력 채널들이 각각의 슬라이딩 윈도우에서 조합되고, 따라서 B = 3이다.

하나의 구현예에서, 슬라이딩 윈도우들은 동일한 콘볼루션 필터를 공유한다. 다른 구현예에서, 상이한 콘볼루션 필터가 각각의 슬라이딩 윈도우에 사용된다. 일부 구현예들에서, 각각의 시간 콘볼루션 층은 슬라이딩 윈도우 단위로 연속적인 입력들에 각각 적용되는 k개의 콘볼루션 필터들의 뱅크를 포함한다.

필터 뱅크들

도 16은 각각의 콘볼루션 층이 콘볼루션 필터들의 뱅크를 갖는 신경 네트워크 기반 염기 호출자(218)의 콘볼루션 층들의 하나의 구현예를 도시한다. 도 16에서, 5개의 콘볼루션 층들이 도시되어 있으며, 이들 각각은 64개의 콘볼루션 필터들의 뱅크를 갖는다. 일부 구현예들에서, 각각의 공간 콘볼루션 층은 k개의 콘볼루션 필터들의 뱅크를 가지며, 여기서 k는 1, 2, 8, 64, 128, 256 등과 같은 임의의 수일 수 있다. 일부 구현예들에서, 각각의 시간 콘볼루션 층은 k개의 콘볼루션 필터들의 뱅크를 가지며, 여기서 k는 1, 2, 8, 64, 128, 256 등과 같은 임의의 수일 수 있다.

이제, 보충 스케일링 채널 및 그것이 계산되는 방법에 대한 논의로 전환한다.

스케일링 채널

도 17은 이미지 채널들을 보충하는 스케일링 채널의 2개의 구성들을 도시한다. 스케일링 채널은 신경 네트워크 기반 염기 호출자(218)에 공급되는 입력 데이터에 픽셀별로 인코딩된다. 상이한 클러스터 크기들 및 불균일한 조명 조건들은 광범위한 클러스터 세기들이 추출되는 결과를 가져온다. 스케일링 채널에 의해 공급되는 부가적인 바이어스는 클러스터 세기들이 클러스터들에 걸쳐서 비슷해지게 한다. 다른 구현예들에서, 이미지 패치들이 업샘플링된 서브픽셀 해상도에 있을 때, 스케일링 채널은 서브픽셀 단위로 인코딩된다.

단일 표적 클러스터가 염기 호출되고 있을 때, 스케일링 채널은 모든 픽셀들에 동일한 스케일링 값을 할당한다. 다수의 표적 클러스터들이 동시에 염기 호출되고 있을 때, 스케일링 채널들은 클러스터 형상 데이터에 기초하여 픽셀들의 그룹들에 상이한 스케일링 값들을 할당한다.

스케일링 채널(1710)은 모든 픽셀들에 대해 동일한 스케일링 값(s1)을 갖는다. 스케일링 값(s1)은 표적 클러스터의 중심을 포함하는 중심 픽셀의 평균 세기에 기초한다. 하나의 구현예에서, 평균 세기는 표적 클러스터에 대한 A 및 T 염기 호출을 생성했던 2개 이상의 선행 서열분석 사이클들 동안 관찰된 중심 픽셀의 세기 값들을 평균함으로써 계산된다.

스케일링 채널(1708)은 클러스터 형상 데이터에 기초하여 대응하는 클러스터들에 귀속되는 각자의 픽셀 그룹들에 대한 상이한 스케일링 값들(s1, s2, s3, sm)을 갖는다. 각각의 픽셀 그룹은 대응하는 클러스터의 중심을 포함하는 중심 클러스터 픽셀을 포함한다. 특정 픽셀 그룹에 대한 스케일링 값은 그의 중심 클러스터 픽셀의 평균 세기에 기초한다. 하나의 구현예에서, 평균 세기는 대응하는 클러스터에 대한 A 및 T 염기 호출을 생성했던 2개 이상의 선행 서열분석 사이클들 동안 관찰된 중심 클러스터 픽셀의 세기 값들을 평균함으로써 계산된다.

일부 구현예들에서, 배경 픽셀들은, 0 또는 0.1, 또는 일부 다른 최소 값일 수 있는 배경 스케일링 값(sb)을 할당받는다.

하나의 구현예에서, 스케일링 채널들(1706) 및 그들의 스케일링 값들은 세기 스케일러(1704)에 의해 결정된다. 세기 스케일러(1704)는 선행 서열분석 사이클들로부터의 클러스터 세기 데이터(1702)를 사용하여 평균 세기들을 계산한다.

다른 구현예들에서, 보충 스케일링 채널은 입력으로서 상이한 방식으로, 예컨대 신경 네트워크 기반 염기 호출자(218)의 마지막 층에 또는 그에 앞서서, 신경 네트워크 기반 염기 호출자(218)의 하나 이상의 중간 층들에 또는 그들에 앞서서, 그리고 그것을 픽셀별로 인코딩하는 대신에 단일 값으로서 제공되어, 이미지 크기를 매칭시킬 수 있다.

이제, 신경 네트워크 기반 염기 호출자(218)에 공급되는 입력 데이터에 대한 논의로 전환한다.

입력 데이터: 이미지 채널들, 거리 채널들, 및 스케일링 채널

도 18a는 적색 이미지 및 녹색 이미지를 생성하는 단일 서열분석 사이클에 대한 입력 데이터(1800)의 하나의 구현예를 도시한다. 입력 데이터(1800)는 하기를 포함한다:

적색 이미지로부터 추출된 이미지 패치 내의 픽셀들에 대한 (적색의) 적색 세기 데이터(1802). 적색 세기 데이터(1802)는 적색 이미지 채널에 인코딩된다.

적색 세기 데이터(1802)를 픽셀별로 보충하는 (황색의) 적색 거리 데이터(1804). 적색 거리 데이터(1804)는 적색 거리 채널에 인코딩된다.

녹색 이미지로부터 추출된 이미지 패치 내의 픽셀들에 대한 (녹색의) 녹색 세기 데이터(1806). 녹색 세기 데이터(1806)는 녹색 이미지 채널에 인코딩된다.

녹색 세기 데이터(1806)를 픽셀별로 보충하는 (자주색의) 녹색 거리 데이터(1808). 녹색 거리 데이터(1808)는 녹색 거리 채널에 인코딩된다.

적색 세기 데이터(1802) 및 녹색 세기 데이터(1806)를 픽셀별로 보충하는 (청색의) 스케일링 데이터(1810). 스케일링 데이터(1810)는 스케일링 채널에 인코딩된다.

다른 구현예들에서, 입력 데이터는 더 적은 또는 더 많은 수의 이미지 채널들 및 보충 거리 채널들을 포함할 수 있다. 하나의 예에서, 4-채널 화학을 사용하는 서열분석 런에 대해, 입력 데이터는 각각의 서열분석 사이클에 대한 4개의 이미지 채널들 및 4개의 보충 거리 채널들을 포함한다.

이제, 거리 채널들과 스케일링 채널이 염기 호출 정확도에 어떻게 기여하는지에 대한 논의로 전환한다.

부가적인 바이어싱

도 18b는 이미지 채널들로부터 생성된 특징 맵들에 포함되는 추가 바이어스를 공급하는 거리 채널들의 하나의 구현예를 도시한다. 이러한 부가적인 바이어스는 염기 호출 정확도에 기여하는데, 그 이유는 그것이 거리 채널들에서 픽셀별로 인코딩되는 픽셀 중심-대-클러스터 중심(들) 거리들에 기초하기 때문이다.

평균적으로, 약 3 × 3 픽셀들은 하나의 클러스터를 포함한다. 클러스터의 중심에서의 밀도는 프린지(fringe)에서보다 더 높을 것으로 예상되는데, 그 이유는 클러스터가 실질적 중심 위치로부터 외향으로 성장하기 때문이다. 주변 클러스터 픽셀들은 근처 클러스터들로부터의 충돌 신호들을 포함할 수 있다. 따라서, 중심 클러스터 픽셀은 최대 세기 영역으로 간주되고, 클러스터를 신뢰성 있게 식별하는 비콘(beacon)의 역할을 한다.

이미지 패치의 픽셀들은 복수의 클러스터들(예컨대, 10 내지 200개의 클러스터들) 및 그들의 주변 배경의 세기 방출물들을 묘사한다. 추가 클러스터들은 더 넓은 반경으로부터의 정보를 포함하며, 이미지 패치에 세기 방출물들이 묘사되는 기본 염기를 식별함으로써 염기 호출 예측에 기여한다. 다시 말하면, 클러스터들의 그룹으로부터의 세기 방출물들은 개별 염기(A, C, T, 또는 G)에 할당될 수 있는 세기 패턴을 누적 생성한다.

보충 거리 채널들에서 클러스터 중심(들)으로부터의 각각의 픽셀의 거리를 콘볼루션 필터들에 명시적으로 전달하는 것이 염기 호출 정확도를 더 높이는 결과를 가져온다는 것을 관찰한다. 거리 채널들은, 어느 픽셀들이 클러스터 중심들을 포함하는지 그리고 어느 픽셀들이 클러스터 중심들로부터 더 멀리 떨어져 있는지를 콘볼루션 필터들에 전달한다. 콘볼루션 필터들은 이러한 정보를 사용하여, (a) 중심 클러스터 픽셀들, 그들의 이웃 픽셀들, 및 이들로부터 도출된 특징 맵들에 (b) 주연부 클러스터 픽셀들, 배경 픽셀들, 및 이들로부터 도출된 특징 맵들보다 더 많이 주목함으로써 그의 적절한 소스 클러스터에 서열분석 신호를 할당한다. 주목의 하나의 예에서, 거리 채널들은 (a)로부터 생성된 특징 맵들에 포함되는 양의 부가적인 바이어스들을 공급하지만, (b)로부터 생성된 특징 맵들에 포함되는 음의 부가적인 바이어스들을 공급한다.

거리 채널들은 이미지 채널들과 동일한 차원수를 갖는다. 이는 콘볼루션 필터들이 국소 수용 필드 내의 이미지 채널들 및 거리 채널들을 개별적으로 평가하고 평가를 지속적으로 조합하는 것을 허용한다.

단일 표적 클러스터가 염기 호출되고 있을 때, 거리 채널들은 이미지 패치들의 중심에서 하나의 중심 클러스터 픽셀만을 식별한다. 다수의 표적 클러스터들이 동시에 염기 호출되고 있을 때, 거리 채널들은 이미지 패치들에 걸쳐서 분포된 다수의 중심 클러스터 픽셀들을 식별한다.

중심 픽셀에서 염기 호출될 단일 표적 클러스터의 중심을 포함하는 이미지 패치에 대해 "단일 클러스터" 거리 채널이 적용된다. 단일 클러스터 거리 채널은 단일 표적 클러스터에 대한 이미지 패치 내의 각각의 픽셀의 중심-대-중심 거리를 포함한다. 이러한 구현예에서, 이미지 패치는, 또한, 단일 표적 클러스터에 인접한 추가 클러스터들을 포함하지만, 추가 클러스터들은 염기 호출되지 않는다.

각자의 중심 클러스터 픽셀들에서 염기 호출될 다수의 표적 클러스터들의 중심들을 포함하는 이미지 패치에 대해 "다중 클러스터" 거리 채널이 적용된다. 다중 클러스터 거리 채널은 다수의 표적 클러스터들 중에서 최근접 클러스터에 대한 이미지 패치 내의 각각의 픽셀의 중심-대-중심 거리를 포함한다. 이는 잘못된 클러스터에 대한 중심-대-중심 거리를 측정할 잠재력을 갖지만, 그 잠재력은 낮다.

각자의 중심 클러스터 픽셀들에서 염기 호출될 다수의 표적 클러스터들의 중심들을 포함하고 픽셀-대-클러스터 속성 정보가 공지되어 있는 이미지 패치에 대해 "다중 클러스터 형상 기반" 거리 채널이 적용된다. 다중 클러스터 거리 채널은 다수의 표적 클러스터들 중에서 그것이 속하거나 귀속되는 클러스터에 대한 이미지 패치 내의 각각의 클러스터 픽셀의 중심-대-중심 거리를 포함한다. 계산된 거리를 고려하는 대신에, 배경 픽셀들이 배경으로서 플래깅될 수 있다.

도 18b는, 또한, 이미지 채널들로부터 생성된 특징 맵들에 포함되는 추가 바이어스를 공급하는 스케일링 채널의 하나의 구현예를 도시한다. 이러한 부가적인 바이어스는 염기 호출 정확도에 기여하는데, 그 이유는 그것이 스케일링 채널에서 픽셀별로 인코딩되는 중심 클러스터 픽셀(들)의 평균 세기들에 기초하기 때문이다. 거리 채널들의 상황에서의 부가적인 바이어싱에 관한 논의가 유사하게 스케일링 채널에 적용된다.

부가적인 바이어싱의 예

도 18b는, 부가적인 바이어스들이 어떻게 거리 및 스케일링 채널들로부터 도출되고 이미지 채널들로부터 생성된 특징 맵들 내에 통합되는지의 일례를 추가로 도시한다.

도 18b에서, 콘볼루션 필터 i (1814)는 2개의 이미지 채널들(1802, 1806), 2개의 거리 채널들(1804, 1808), 및 스케일링 채널(1810)에 걸쳐서 (자홍색의) 국소 수용 필드(1812)를 평가한다. 거리 및 스케일링 채널들이 개별적으로 인코딩되기 때문에, 채널 특정 콘볼루션 커널들(또는 특징 검출기들)(1816a 내지 1816e) 각각의 중간 출력들(1816a 내지 1816e)(플러스 바이어스(1816f))이 로컬 수용 필드(1812)에 대한 최종 출력/특징 맵 요소(1820)로서 채널별로 누산(1818)될 때, 부가적인 바이어싱이 발생한다. 이러한 예에서, 2개의 거리 채널들(1804, 1808)에 의해 공급되는 부가적인 바이어스들은 각각 중간 출력들(1816b, 1816d)이다. 스케일링 채널(1810)에 의해 공급되는 부가적인 바이어스는 중간 출력(1816e)이다.

부가적인 바이어싱은, 염기 호출을 위해 더 중요하고 신뢰성있는 것으로 간주되는 이미지 채널들에서의 그들 특징들, 즉, 중심 클러스터 픽셀들 및 그들의 이웃 픽셀들의 픽셀 세기들을 더 많이 강조함으로써 특징 맵 컴파일링 프로세스를 유도한다. 트레이닝 동안, 실측 자료 염기 호출들과의 비교로부터 계산된 기울기들의 역전파는 콘볼루션 커널들의 가중치들을 업데이트하여, 중심 클러스터 픽셀들 및 그들의 이웃 픽셀들에 대한 더 강한 활성화들을 생성하게 한다.

예를 들어, 국소 수용 필드(1812)에 의해 커버된 인접 픽셀들의 그룹 내의 픽셀이 클러스터 중심을 포함한다는 것을 고려하면, 거리 채널들(1804, 1808)은 클러스터 중심에 대한 픽셀들의 근접성을 반영한다. 결과적으로, 세기 중간 출력들(1816a, 1816c)이 채널별 누산(1818)에서 거리 채널 부가적인 바이어스들(1816b, 1816d)과 병합될 때, 그 결과는 픽셀들의 양으로 바이어싱된 콘볼루션된 표현(1820)이 된다.

대조적으로, 국소 수용 필드(1812)에 의해 커버되는 픽셀들이 클러스터 중심 근처에 있지 않은 경우, 거리 채널들(1804, 1808)은 클러스터 중심으로부터의 그들의 분리를 반영한다. 결과적으로, 세기 중간 출력들(1816a, 1816c)이 채널별 누산(1818)에서 거리 채널 부가적인 바이어스들(1816b, 1816d)과 병합될 때, 그 결과는 픽셀들의 음으로 바이어싱된 콘볼루션된 표현(1820)이 된다.

유사하게, 스케일링 채널(1810)로부터 도출된 스케일링 채널 부가적인 바이어스(1816e)는 픽셀들의 콘볼루션된 표현(1820)을 양으로 또는 음으로 바이어싱할 수 있다.

명료성을 위해, 도 18b는 단일 서열분석 사이클에 대한 입력 데이터(1800) 상의 단일 콘볼루션 필터 i(1814)의 적용을 도시한다. 당업자는, 논의가 다수의 콘볼루션 필터들(예컨대, k개의 필터들의 필터 뱅크 - 여기서, k는 8, 16, 32, 64, 128, 256 등일 수 있음)로, 다수의 콘볼루션 층들(예컨대, 다수의 공간 및 시간 콘볼루션 층들)로, 그리고 다수의 서열분석 사이클들(예컨대, t, t+1, t-1)로 연장될 수 있다.

다른 구현예들에서, 거리 및 스케일링 채널들은, 개별적으로 인코딩되는 대신에, 이미지 채널들에 직접적으로 적용되어, 변조된 픽셀 곱셈을 생성하는데, 이는 거리 및 스케일링 채널들 및 이미지 채널들이 동일한 차원수를 갖기 때문이다. 추가 구현예들에서, 요소별 곱셈 동안 이미지 채널들에서 가장 중요한 특징들을 검출하기 위해 거리 및 이미지 채널들에 기초하여 콘볼루션 커널들의 가중치들이 결정된다. 또 다른 구현예들에서, 제1 층에 공급되는 대신에, 거리 및 스케일링 채널들은 다운스트림 층들 및/또는 네트워크들에(예컨대, 완전 접속 네트워크 또는 분류 층에) 보조 입력으로서 제공된다. 또 다른 구현예들에서, 거리 및 스케일링 채널들은 제1 층에 공급되고, (예컨대, 잔차 접속을 통해) 다운스트림 층들 및/또는 네트워크들에 재공급된다.

위의 논의는 k개의 입력 채널들을 갖는 2D 입력 데이터에 대한 것이다. 3D 입력으로의 확장이 당업자에 의해 이해될 것이다. 간단히 말하면, 체적 입력은 치수들 k × l × w × h를 갖는 4D 텐서이며, 이때 l은 추가 치수, 즉 길이이다. 각각의 개별 커널은 4D 텐서에서 스위프된 4D 텐서이며, 그 결과 3D 텐서로 된다(채널 치수는 그것이 가로질러 스위프되지 않기 때문에 붕괴된다).

다른 구현예들에서, 입력 데이터(1800)가 업샘플링된 서브픽셀 해상도에 있을 때, 거리 및 스케일링 채널들은 서브픽셀 단위로 개별적으로 인코딩되고, 부가적인 바이어싱은 서브픽셀 레벨에서 발생한다.

특화된 아키텍처 및 입력 데이터를 사용한 염기 호출

이제, 특화된 아키텍처 및 입력 데이터가 신경 네트워크 기반 염기 호출을 위해 어떻게 사용되는지에 대한 논의로 전환한다.

단일 클러스터 염기 호출

도 19a, 도 19b, 및 도 19c는 단일 표적 클러스터를 염기 호출하는 하나의 구현예를 도시한다. 특화된 아키텍처는 3개의 서열분석 사이클들, 즉, 염기 호출될 현재(시간 t) 서열분석 사이클, 이전(시간 t-1) 서열분석 사이클, 및 다음(시간 t+1) 서열분석 사이클에 대한 입력 데이터를 프로세싱하고, 현재(시간 t) 서열분석 사이클에서 단일 표적 클러스터에 대한 염기 호출을 생성한다.

도 19a 및 도 19b는 공간 콘볼루션 층들을 도시한다. 도 19c는 일부 다른 비-콘볼루션 층들과 함께 시간 콘볼루션 층들을 도시한다. 도 19a 및 도 19b에서, 수직 점선들은 특징 맵들로부터 공간 콘볼루션 층들을 획정하고, 수평 점선들은 3개의 서열분석 사이클들에 대응하는 3개의 콘볼루션 파이프라인들을 획정한다.

각각의 서열분석 사이클에 대해, 입력 데이터는 차원수 n × n × m의 텐서(예컨대, 도 18a에서의 입력 텐서(1800))를 포함하며, 여기서 n은 정사각형 텐서의 폭 및 높이를 표현하고, m은 입력 채널들의 수를 표현하여, 3개의 사이클들에 대한 입력 데이터의 차원수를 n × n × m × t로 만든다.

여기서, 각각의 사이클별 텐서는, 그의 이미지 채널들의 중심 픽셀에서, 단일 표적 클러스터의 중심을 포함한다. 그것은, 또한, 특정 서열분석 사이클에서의 이미지 채널들 각각에서 캡처된, 단일 표적 클러스터, 일부 인접 클러스터들, 및 그들의 주변 배경의 세기 방출물들을 묘사한다. 도 19a에는, 2개의 예시적인 이미지 채널들, 즉, 적색 이미지 채널 및 녹색 이미지 채널이 도시되어 있다.

각각의 사이클별 텐서는, 또한, 대응하는 이미지 채널들(예컨대, 적색 거리 채널 및 녹색 거리 채널)을 보충하는 거리 채널들을 포함한다. 거리 채널들은 단일 표적 클러스터에 대한 대응하는 이미지 채널들 내의 각각의 픽셀의 중심-대-중심 거리를 식별한다. 각각의 사이클별 텐서는 이미지 채널들 각각에서 세기 값들을 픽셀별로 스케일링하는 스케일링 채널을 추가로 포함한다.

특화된 아키텍처는 5개의 공간 콘볼루션 층들 및 2개의 시간 콘볼루션 층들을 갖는다. 각각의 공간 콘볼루션 층은 차원수 j × j × ∂의 k개의 콘볼루션 필터들의 뱅크를 사용하여 분리형 콘볼루션들을 적용하며, 여기서 j는 정사각형 필터의 폭 및 높이를 표현하고, ∂는 그의 깊이를 표현한다. 각각의 시간 콘볼루션 층은 차원수 j × j × α의 k개의 콘볼루션 필터들의 뱅크를 사용하여, 조합형 콘볼루션들을 적용하며, 여기서 j는 제곱 필터의 폭 및 높이를 표현하고, α는 그의 깊이를 표현한다.

특화된 아키텍처는 사전 분류 층들(예컨대, 편평형 층 및 조밀한 층) 및 출력 층(예컨대, 소프트맥스 분류 층)을 갖는다. 사전 분류 층들은 출력 층에 대한 입력을 준비한다. 출력 층은 현재(시간 t) 서열분석 사이클에서 단일 표적 클러스터에 대한 염기 호출을 생성한다.

지속적으로 감소하는 공간 차원수

도 19a, 도 19b 및 도 19c는, 또한, 콘볼루션 필터들에 의해 생성되는 생성된 특징 맵들(콘볼루션된 표현들 또는 중간 콘볼루션된 표현들 또는 콘볼루션된 특징들 또는 활성화 맵들)을 도시한다. 사이클별 텐서들로부터 시작하여, 생성된 특징 맵들의 공간 차원수는 하나의 콘볼루션 층으로부터 다음 콘볼루션 층까지 일정한 스텝 크기로 감소하며, 그 개념은 본 명세서에서 "지속적으로 감소하는 공간 차원수"로 지칭된다. 도 19a, 도 19b, 및 도 19c에서, 그 둘의 예시적인 일정한 스텝 크기가 지속적으로 감소하는 공간 차원수를 위해 사용된다.

지속적으로 감소하는 공간 차원수는 하기의 공식에 의해 표현된다: "현재 특징 맵 공간 차원수 = 이전 특징 맵 공간 차원수 - 콘볼루션 필터 공간 차원수 + 1". 지속적으로 감소하는 공간 차원수는, 콘볼루션 필터들이, 중심 클러스터 픽셀들 및 그들의 이웃 픽셀들에 대한 처리 집중도(focus of attention)를 점진적으로 좁히고 중심 클러스터 픽셀들 및 그들의 이웃 픽셀들 사이의 국소 의존성들을 캡처하는 특징들을 갖는 특징 맵들을 생성하게 한다. 이는, 이어서, 중심들이 중심 클러스터 픽셀들에 포함되는 클러스터들을 정확하게 염기 호출하는 것을 돕는다.

5개의 공간 콘볼루션 층들의 분리형 콘볼루션들은 3개의 서열분석 사이클들 사이의 정보의 혼합을 방지하고, 3개의 별개의 콘볼루션 파이프라인들을 유지한다.

2개의 시간 콘볼루션 층들의 조합형 콘볼루션들은 3개의 서열분석 사이클들 사이의 정보를 혼합한다. 제1 시간 콘볼루션 층은, 최종 공간 콘볼루션 층에 의해 다음 및 현재 서열분석 사이클들에 대해 각각 생성되는 다음 및 현재 공간적으로 콘볼루션된 표현들에 걸쳐서 콘볼루션한다. 이는 제1 시간 출력을 안출한다. 제1 시간 콘볼루션 층은, 또한, 최종 공간 콘볼루션 층에 의해 현재 및 이전 서열분석 사이클들에 대해 각각 생성된 현재 및 이전 공간적으로 콘볼루션된 표현들에 걸쳐서 콘볼루션한다. 이는 제2 시간 출력을 안출한다. 제2 시간 콘볼루션 층은 제1 및 제2 시간 출력들에 걸쳐서 콘볼루션하고, 최종 시간 출력을 생성한다.

일부 구현예들에서, 최종 시간 출력은 편평한 층에 공급되어 편평한 출력을 생성한다. 이어서, 편평한 출력은 조밀한 층에 공급되어, 조밀한 출력을 생성한다. 조밀한 출력은 현재(시간 t) 서열분석 사이클에서 단일 표적 클러스터에 대한 염기 호출을 생성하도록 출력 층에 의해 프로세싱된다.

일부 구현예들에서, 출력 층은, 현재 서열분석 사이클에서 단일 표적 클러스터에 포함된 염기가 A, C, T, 및 G일 가능성들(분류 스코어들)을 생성하고, 그 가능성들에 기초하여 염기를 A, C, T, 또는 G로서 분류한다(예컨대, 도 19a에서의 염기 A와 같은, 최대 가능성을 갖는 염기가 선택된다). 그러한 구현예들에서, 가능성들은 소프트맥스 분류 층에 의해 생성된 지수적으로 정규화된 스코어들이고, 합이 1이 된다.

일부 구현예들에서, 출력 층은 단일 표적 클러스터에 대한 출력 쌍을 도출한다. 출력 쌍은 현재 서열분석 사이클에서 단일 표적 클러스터 내에 포함된 염기의 클래스 라벨이 A, C, T, 또는 G인 것을 식별하고, 클래스 라벨에 기초하여 단일 표적 클러스터를 염기 호출한다. 하나의 구현예에서, 1, 0의 클래스 라벨은 A 염기를 식별하고, 0, 1의 클래스 라벨은 C 염기를 식별하고, 1, 1의 클래스 라벨은 T 염기를 식별하고, 0, 0의 클래스 라벨은 G 염기를 식별한다. 다른 구현예에서, 1, 1의 클래스 라벨은 A 염기를 식별하고, 0, 1의 클래스 라벨은 C 염기를 식별하고, 0.5, 0.5의 클래스 라벨은 T 염기를 식별하고, 0, 0의 클래스 라벨은 G 염기를 식별한다. 또 다른 구현예에서, 1, 0의 클래스 라벨은 A 염기를 식별하고, 0, 1의 클래스 라벨은 C 염기를 식별하고, 0.5, 0.5의 클래스 라벨은 T 염기를 식별하고, 0, 0의 클래스 라벨은 G 염기를 식별한다. 다른 추가 구현예에서, 1, 2의 클래스 라벨은 A 염기를 식별하고, 0, 1의 클래스 라벨은 C 염기를 식별하고, 1, 1의 클래스 라벨은 T 염기를 식별하고, 0, 0의 클래스 라벨은 G 염기를 식별한다.

일부 구현예들에서, 출력 층은 현재 서열분석 사이클에서 단일 표적 클러스터 내에 포함된 염기가 A, C, T, 또는 G인 것을 식별하는 단일 표적 클러스터에 대한 클래스 라벨을 도출하고, 클래스 라벨에 기초하여 단일 표적 클러스터를 염기 호출한다. 하나의 구현예에서, 0.33의 클래스 라벨은 A 염기를 식별하고, 0.66의 클래스 라벨은 C 염기를 식별하고, 1의 클래스 라벨은 T 염기를 식별하고, 0의 클래스 라벨은 G 염기를 식별한다. 다른 구현예에서, 0.50의 클래스 라벨은 A 염기를 식별하고, 0.75의 클래스 라벨은 C 염기를 식별하고, 1의 클래스 라벨은 T 염기를 식별하고, 0.25의 클래스 라벨은 G 염기를 식별한다.

일부 구현예들에서, 출력 층은 단일 출력 값을 도출하고, 염기들 A, C, T, 및 G에 대응하는 클래스 값 범위들에 대해 단일 출력 값을 비교하고, 비교에 기초하여, 특정 클래스 값 범위에 단일 출력 값을 할당하고, 할당에 기초하여 단일 표적 클러스터를 염기 호출한다. 하나의 구현예에서, 단일 출력 값은 시그모이드 함수를 사용하여 도출되고, 단일 출력 값은 0 내지 1의 범위이다. 다른 구현예에서, 0 내지 0.25의 클래스 값 범위는 A 염기를 표현하고, 0.25 내지 0.50의 클래스 값 범위는 C 염기를 표현하고, 0.50 내지 0.75의 클래스 값 범위는 T 염기를 표현하고, 0.75 내지 1의 클래스 값 범위는 G 염기를 표현한다.

당업자는, 다른 구현예들에서, 특화된 아키텍처가 더 적은 또는 더 많은 수의 서열분석 사이클들에 대한 입력 데이터를 프로세싱할 수 있고, 더 적은 또는 더 많은 수의 공간 및 시간 콘볼루션 층들을 포함할 수 있다는 것을 이해할 것이다. 또한, 입력 데이터의 차원수, 입력 데이터 내의 사이클별 텐서들, 콘볼루션 필터들, 생성된 특징 맵들, 및 출력은 상이할 수 있다. 또한, 콘볼루션 층 내의 콘볼루션 필터들의 수는 상이할 수 있다. 그것은 상이한 패딩 및 스트라이딩 구성들을 사용할 수 있다. 그것은 상이한 분류 함수(예컨대, 시그모이드 또는 회귀)를 사용할 수 있고, 완전 접속 층을 포함하거나 포함하지 않을 수 있다. 그것은 1D 콘볼루션, 2D 콘볼루션, 3D 콘볼루션, 4D 콘볼루션, 5D 콘볼루션, 확장형(dilated) 또는 아트로스(atrous) 콘볼루션, 전치(transpose) 콘볼루션, 깊이별 분리가능(depthwise separable) 콘볼루션, 포인트별(pointwise) 콘볼루션, 1 × 1 콘볼루션, 그룹 콘볼루션, 편평형(flattened) 콘볼루션, 공간 및 교차 채널(spatial and cross-channel) 콘볼루션, 셔플 그룹형(shuffled grouped) 콘볼루션, 공간 분리가능(spatial separable) 콘볼루션, 및 디콘볼루션을 사용할 수 있다. 그것은 하나 이상의 손실 함수들, 예컨대 로지스틱 회귀(logistic regression)/로그(log) 손실, 다중클래스 교차-엔트로피(multi-class cross-entropy)/소프트맥스 손실, 이진 교차-엔트로피(binary cross-entropy) 손실, 평균 제곱 에러(mean-squared error) 손실, L1 손실, L2 손실, 평활한(smooth) L1 손실, 및 Huber 손실을 사용할 수 있다. 그것은 임의의 병렬성(parallelism), 효율성, 및 압축 스킴들, 예컨대 TFRecords, 압축 인코딩(예컨대, PNG), 샤딩(sharding), 맵 변환을 위한 병렬 호출, 배칭(batching), 프리페칭(prefetching), 모델 병렬성, 데이터 병렬성, 및 동기식/비동기식 SGD를 사용할 수 있다. 그것은 업샘플링 층, 다운샘플링 층, 순환 접속, 게이트 및 게이트형 메모리 유닛(예컨대, LSTM 또는 GRU), 잔차 블록, 잔차 접속, 하이웨이 접속, 스킵 접속, 핍홀(peephole) 접속, 활성화 함수(예컨대, ReLU(rectifying linear unit), 리키 ReLU(leaky ReLU), ELU(exponential liner unit), 시그모이드 및 tanh(hyperbolic tangent)와 같은 비선형 변환 함수), 배치 정규화 층, 규칙화 층, 드롭아웃, 풀링 층(예컨대, 최대 또는 평균 풀링), 글로벌 평균 풀링 층, 및 감쇠 메커니즘을 포함할 수 있다.

단일 클러스터 염기 호출을 기술하였으나, 이제, 다중 클러스터 염기 호출에 대한 논의로 전환한다.

다중 클러스터 염기 호출

입력 데이터의 크기 및 플로우 셀 상의 클러스터 밀도에 따라, 10 내지 30만 개의 클러스터들 사이의 어디든지간에 입력 단위로 신경 네트워크 기반 염기 호출자(218)에 의해 동시에 염기 호출된다. 크기 10의 배치 또는 미니-배치를 사용하여, 이를 병렬 프로세서들 상에서 구현되는 데이터 병렬성 및/또는 모델 병렬성 전략들로 확장하는 것은, 100 내지 300만 개의 클러스터들이 배치별 단위 또는 미니-배치별 단위로 동시에 염기 호출되는 결과를 가져온다.

서열분석 구성(예컨대, 클러스터 밀도, 플로우 셀 상의 타일들의 수)에 따라, 타일은 2만 내지 30만 개의 클러스터들을 포함한다. 다른 구현예에서, Illumina의 NovaSeq 서열분석기는 타일 당 최대 4백만 개의 클러스터들을 갖는다. 따라서, 타일의 서열분석 이미지(타일 이미지)는 2만 내지 30만 개의 클러스터들 및 그들의 주변 배경으로부터의 세기 방출물들을 묘사할 수 있다. 따라서, 하나의 구현예에서, 전체 타일 이미지를 포함하는 입력 데이터를 사용하는 것은 30만 개의 클러스터들이 입력 단위로 동시에 염기 호출되는 결과를 가져온다. 다른 구현예에서, 입력 데이터 내의 크기 15 × 15 픽셀들의 이미지 패치들을 사용하는 것은 100개 미만의 클러스터들이 입력 단위로 동시에 염기 호출되는 결과를 가져온다. 당업자는, 이러한 수들이 서열분석 구성, 병렬성 전략, 아키텍처의 세부사항들(예컨대, 최적의 아키텍처 하이퍼파라미터들에 기초함) 및 이용가능한 계산에 따라 달라질 수 있다는 것을 이해할 것이다.

도 20은 다수의 표적 클러스터들을 동시에 염기 호출하는 하나의 구현예를 도시한다. 입력 데이터는 상기에 논의된 3개의 서열분석 사이클들에 대한 3개의 텐서들을 갖는다. 각각의 사이클별 텐서(예컨대, 도 18a에서의 입력 텐서(1800))는 특정 서열분석 사이클에서의 이미지 채널들 각각에서 캡처된 염기 호출될 다수의 표적 클러스터들 및 그들의 주변 배경의 세기 방출물들을 묘사한다. 다른 구현예들에서, 염기 호출되지 않은 일부 추가 인접 클러스터들이 또한 콘텍스트에 대해 포함된다.

다중 클러스터 염기 호출 구현예에서, 각각의 사이클별 텐서는 대응하는 이미지 채널들(예컨대, 적색 거리 채널 및 녹색 거리 채널)을 보충하는 거리 채널들을 포함한다. 거리 채널들은 다수의 표적 클러스터들 중에서 최근접 클러스터에 대한 대응하는 이미지 채널들 내의 각각의 픽셀의 중심-대-중심 거리를 식별한다.

다중 클러스터 형상 기반 염기 호출 구현예에서, 각각의 사이클별 텐서는 대응하는 이미지 채널들(예컨대, 적색 거리 채널 및 녹색 거리 채널)을 보충하는 거리 채널들을 포함한다. 거리 채널들은 다수의 표적 클러스터들 중에서 그것이 속하거나 귀속되는 클러스터에 대한 대응하는 이미지 채널들 내의 각각의 클러스터 픽셀의 중심-대-중심 거리를 식별한다.

각각의 사이클별 텐서는 이미지 채널들 각각에서 세기 값들을 픽셀별로 스케일링하는 스케일링 채널을 추가로 포함한다.

도 20에서, 각각의 사이클별 텐서의 공간 차원수는 도 19a에 도시된 것보다 크다. 즉, 도 19a에서의 단일 표적 클러스터 염기 호출 구현예에서, 각각의 사이클별 텐서의 공간 차원수는 15 × 15인 반면, 도 20에서의 다중 클러스터 염기 호출 구현예에서, 각각의 사이클별 텐서의 공간 차원수는 114 × 114이다. 추가 클러스터들의 세기 방출물들을 묘사하는 더 많은 양의 픽셀화된 데이터를 갖는 것은, 일부 구현예들에 따라, 다수의 클러스터들에 대해 동시에 예측되는 염기 호출들의 정확도를 개선한다.

리던던트 콘볼루션들의 회피

더욱이, 각각의 사이클별 텐서 내의 이미지 채널들은 서열분석 이미지들로부터 추출된 이미지 패치들로부터 획득된다. 일부 구현예들에서, 공간적으로 인접한(예컨대, 좌측, 우측, 상부, 및 저부 인접한) 추출된 이미지 패치들 사이에 중첩 픽셀들이 있다. 따라서, 하나의 구현예에서, 중첩 픽셀들은 리던던트 콘볼루션들에 종속되지 않으며, 이전 콘볼루션으로부터의 결과들은 중첩 픽셀들이 후속 입력들의 일부일 때 후속 인스턴스들에서 재사용된다.

예를 들어, 크기 n × n 픽셀들의 제1 이미지 패치가 서열분석 이미지로부터 추출되고, 크기 m × m 픽셀들의 제2 이미지 패치가, 또한, 동일한 서열분석 이미지로부터 추출되어, 제1 및 제2 이미지 패치들이 공간적으로 인접하고 o × o 픽셀들의 중첩 영역을 공유하게 한다는 것을 고려한다. 또한, o × o 픽셀들이 메모리에 저장되는 제1 콘볼루션된 표현을 생성하기 위해 제1 이미지 패치의 일부로서 콘볼루션된다는 것을 고려한다. 이어서, 제2 이미지 패치가 콘볼루션될 때, o × o 픽셀들은 다시 콘볼루션되지 않고, 대신에, 제1 콘볼루션된 표현이 메모리로부터 검색되고 재사용된다. 일부 구현예들에서, n = m이다. 다른 구현예들에서, 그들은 동일하지 않다.

이어서, 입력 데이터는 차원수 w × w × k의 최종 시간 출력을 생성하기 위해 특화된 아키텍처의 공간 및 시간 콘볼루션 층들을 통해 프로세싱된다. 여기서, 역시, 지속적으로 감소하는 공간 차원수 현상 하에서, 공간 차원수는 각각의 콘볼루션 층에서 2의 일정한 스텝 크기만큼 감소된다. 즉, 입력 데이터의 n × n 공간 차원수로 시작하여, 최종 시간 출력의 w × w 공간 차원수가 도출된다.

이어서, 공간 차원수 w × w의 최종 시간 출력에 기초하여, 출력 층은 유닛들의 w × w 세트 내의 각각의 유닛에 대한 염기 호출을 생성한다. 하나의 구현예에서, 출력 층은 유닛 단위로 4개의 염기들(A, C, T, G)에 대한 4-방향 분류 스코어들을 생성하는 소프트맥스 층이다. 즉, 도 20에 도시된 바와 같이, 유닛들의 w × w 세트 내의 각각의 유닛은 대응하는 소프트맥스 쿼드러플(softmax quadruple)에서의 최대 분류 스코어에 기초한 염기 호출을 할당받는다. 일부 구현예들에서, 유닛들의 w × w 세트는, 각각, 편평한 출력 및 조밀한 출력을 생성하기 위해 편평한 층 및 조밀한 층을 통해 최종 시간 출력을 프로세싱한 결과로서 도출된다. 그러한 구현예들에서, 편평한 출력은 w × w × k 요소들을 갖고, 조밀한 출력은 유닛들의 w × w 세트를 형성하는 w × w 요소들을 갖는다.

다수의 표적 클러스터들에 대한 염기 호출들은, 유닛들의 w × w 세트 내의 염기 호출된 유닛들 중 어느 것이 중심 클러스터 펙셀들, 즉 다수의 표적 클러스터들의 각자의 중심들을 포함하는 입력 데이터 내의 픽셀들과 일치하거나 그들에 대응하는지를 식별함으로써 획득된다. 주어진 표적 클러스터는 주어진 표적 클러스터의 중심을 포함하는 픽셀과 일치하거나 그에 대응하는 유닛의 염기 호출을 할당받는다. 다시 말하면, 중심 클러스터 픽셀들과 일치하지 않거나 그에 대응하지 않는 유닛들의 염기 호출들이 필터링아웃된다. 이러한 기능은, 일부 구현예들에서, 특화된 아키텍처의 일부인 염기 호출 필터링 층에 의해 조작될 수 있게 되거나, 또는 다른 구현예들에서, 포스트-프로세싱 모듈로서 구현된다.

다른 구현예들에서, 다수의 표적 클러스터들에 대한 염기 호출들은, 유닛들의 w × w 세트 내의 염기 호출된 유닛의 어느 그룹들이 동일한 클러스터를 커버하는지를 식별함으로써, 즉 동일한 클러스터를 묘사하는 입력 데이터 내의 픽셀 그룹들을 식별함으로써 획득된다. 이어서, 각각의 클러스터 및 그의 대응하는 픽셀 그룹에 대해, 각자의 4개의 염기 클래스들(A, C, T, G)의 분류 스코어들(소프트맥스 확률들)의 평균이 픽셀 그룹 내의 픽셀들에 걸쳐서 계산되고, 최고 평균 분류 스코어를 갖는 염기 클래스가 클러스터를 염기 호출하기 위해 선택된다.

트레이닝 동안, 일부 구현예들에서, 실측 자료 비교 및 에러 계산은 중심 클러스터 픽셀들과 일치하거나 그들에 대응하는 그러한 유닛들에 대해서만 발생하여, 그들의 예측된 염기 호출들이 실측 자료 표지들로서 식별되는 정확한 염기 호출들에 대해 평가되게 한다.

다중 클러스터 염기 호출을 기술하였으나, 이제, 다수의 클러스터들 및 다수의 사이클들의 염기 호출에 대한 논의로 전환한다.

다수의 클러스터들 및 다수의 사이클들의 염기 호출

도 21은 복수의 연속적인 서열분석 사이클들에서 다수의 표적 클러스터들을 동시에 염기 호출하여, 이에 의해, 다수의 표적 클러스터들 각각에 대한 염기 호출 서열을 동시에 생성하는 하나의 구현예를 도시한다.

상기에 논의된 단일 및 다중 염기 호출 구현예들에서, 하나의 서열분석 사이클(현재(시간 t) 서열분석 사이클)에서의 염기 호출은 3개의 서열분석 사이클들(현재(시간 t), 이전/좌측 플랭킹(시간 t-1), 및 다음/우측 플랭킹(시간 t+1) 서열분석 사이클들)에 대한 데이터를 사용하여 예측되며, 여기서 우측 및 좌측 플랭킹 서열분석 사이클들은 염기 트리플릿 모티프들에 대한 서열 특정 콘텍스트 및 프리-페이징 및 페이징 신호들의 2차 기여를 제공한다. 이러한 관계는 하기의 공식에 의해 표현된다: "데이터가 입력 데이터에 포함되는 서열분석 사이클들의 수(t) = 염기 호출되는 서열분석 사이클들의 수(y) + 우측 및 좌측 플랭킹 서열분석 사이클들의 수(x)".

도 21에서, 입력 데이터는 t개의 서열분석 사이클들에 대한 t개의 사이클별 텐서들을 포함하여, 그의 차원수를 n × n × m × t가 되게 하며, 여기서 n = 114, m = 5, t = 15이다. 다른 구현예들에서, 이러한 차원수들은 상이하다. t개의 서열분석 사이클들 중에서, t번째 서열분석 사이클 및 제1 서열분석 사이클은 x개의 우측 및 좌측 플랭킹 콘텍스트들로서의 역할을 하고, 그들 사이의 y개의 서열분석 사이클들이 염기 호출된다. 따라서, y = 13, × = 2, 및 t = y + x이다. 도 18a에서의 입력 텐서(1800)와 같은 각각의 사이클별 텐서는 이미지 채널들, 대응하는 거리 채널들, 및 스케일링 채널을 포함한다.

이어서, t개의 사이클별 텐서들을 갖는 입력 데이터는 특화된 아키텍처의 공간 및 시간 콘볼루션 층들을 통해 프로세싱되어 y개의 최종 시간 출력들을 생성하며, 이들 각각은 염기 호출되는 y개의 서열분석 사이클들 중 각자의 서열분석 사이클에 대응한다. y개의 최종 시간 출력들 각각은 w × w × k의 차원수를 갖는다. 여기서, 역시, 지속적으로 감소하는 공간 차원수 현상 하에서, 공간 차원수는 각각의 콘볼루션 층에서 2의 일정한 스텝 크기만큼 감소된다. 즉, 입력 데이터의 n × n 공간 차원수로 시작하여, y개의 최종 시간 출력 각각의 w × w 공간 차원수가 도출된다.

이어서, y개의 최종 시간 출력들 각각은 출력 층에 의해 병렬로 프로세싱된다. y개의 최종 시간 출력들 각각에 대해, 출력 층은 유닛들의 w × w 세트 내의 각각의 유닛에 대한 염기 호출을 생성한다. 하나의 구현예에서, 출력 층은 유닛 단위로 4개의 염기들(A, C, T, G)에 대한 4-방향 분류 스코어들을 생성하는 소프트맥스 층이다. 즉, 도 20에 도시된 바와 같이, 유닛들의 w × w 세트 내의 각각의 유닛은 대응하는 소프트맥스 쿼드러플에서의 최대 분류 스코어에 기초한 염기 호출을 할당받는다. 일부 구현예들에서, 유닛들의 w × w 세트는, y개의 최종 시간 출력들 각각에 대해, 대응하는 편평한 출력들 및 조밀한 출력들을 생성하기 위해 편평한 층 및 조밀한 층을 통해 나중에 각각 프로세싱하는 결과로서 도출된다. 그러한 구현예들에서, 각각의 편평한 출력은 w × w × k 요소들을 갖고, 각각의 조밀한 출력은 유닛들의 w × w 세트를 형성하는 w × w 요소들을 갖는다.

y개의 서열분석 사이클들 각각에 대해, 다수의 표적 클러스터들에 대한 염기 호출들은, 유닛들의 대응하는 w × w 세트 내의 염기 호출된 유닛들 중 어느 것이 중심 클러스터 펙셀들, 즉 다수의 표적 클러스터들의 각자의 중심들을 포함하는 입력 데이터 내의 픽셀들과 일치하거나 그들에 대응하는지를 식별함으로써 획득된다. 주어진 표적 클러스터는 주어진 표적 클러스터의 중심을 포함하는 픽셀과 일치하거나 그에 대응하는 유닛의 염기 호출을 할당받는다. 다시 말하면, 중심 클러스터 픽셀들과 일치하지 않거나 그에 대응하지 않는 유닛들의 염기 호출들이 필터링아웃된다. 이러한 기능은, 일부 구현예들에서, 특화된 아키텍처의 일부인 염기 호출 필터링 층에 의해 조작될 수 있게 되거나, 또는 다른 구현예들에서, 포스트-프로세싱 모듈로서 구현된다.

입력 단위로, 그 결과는, y개의 서열분석 사이클들 각각에서 다수의 표적 클러스터들 각각에 대한 염기 호출, 즉, 다수의 표적 클러스터들 각각에 대한 길이 y의 염기 호출 서열이다. 다른 구현예들에서, y는 20, 30, 50, 150, 300 등이다. 당업자는, 이러한 수들이 서열분석 구성, 병렬성 전략, 아키텍처의 세부사항들(예컨대, 최적의 아키텍처 하이퍼파라미터들에 기초함) 및 이용가능한 계산에 따라 달라질 수 있다는 것을 이해할 것이다.

말단-대-말단 차원수 다이어그램들

하기의 논의는 차원수 다이어그램들을 사용하여, 상기 데이터 차원수 변화들을 유발하는 데이터 연산자들의 차원수와 함께, 이미지 데이터로부터 염기 호출들을 생성하는 데 수반되는 기본 데이터 차원수 변화들의 상이한 구현예들을 예시한다.

도 22, 도 23, 및 도 24에서, 직사각형들은 공간 및 시간 콘볼루션 층들 및 소프트맥스 분류 층과 같은 데이터 연산자들을 표현하고, 둥근 코너 직사각형들은 데이터 연산자들에 의해 생성된 데이터(예컨대, 특징 맵들)를 표현한다.

도 22는 단일 클러스터 염기 호출 구현예에 대한 차원수 다이어그램(2200)을 도시한다. 입력의 "사이클 치수"가 3이고, 생성된 특징 맵들에 대해 제1 시간 콘볼루션 층에 이를 때까지 그것이 계속된다는 것에 유의한다. 3의 사이클 치수는 3개의 서열분석 사이클들을 제시하고, 그의 연속성은, 3개의 서열분석 사이클들에 대한 특징 맵들이 개별적으로 생성되고 콘볼루션되고, 3개의 서열분석 사이클들 사이에 어떠한 특징들도 혼합되지 않는다는 것을 표현한다. 분리형 콘볼루션 파이프라인들은 공간 콘볼루션 층들의 깊이별 분리형 콘볼루션 필터들에 의해 유발된다. 공간 콘볼루션 층들의 깊이별 분리형 콘볼루션 필터들의 "깊이 차원수"가 1이라는 것에 유의한다. 이는, 깊이별 분리형 콘볼루션 필터들이, 단지 주어진 서열분석 사이클, 즉, 인트라-사이클만의 데이터 및 생성된 특징 맵들에 걸쳐서 콘볼루션할 수 있게 하고, 그들이 임의의 다른 서열분석 사이클의 데이터 및 생성된 특징 맵들에 걸쳐서 콘볼루션하지 않게 하는 것이다.

대조적으로, 시간 콘볼루션 층들의 깊이별 조합형 콘볼루션 필터들의 깊이 차원수가 2라는 것에 유의한다. 이는, 깊이별 조합형 콘볼루션 필터들이, 다수의 서열분석 사이클들로부터 생성된 특징 맵들에 걸쳐서 그룹별로 콘볼루션할 수 있게 하고, 서열분석 사이클들 사이의 특징들을 혼합할 수 있게 하는 것이다.

또한, 2의 일정한 스텝 크기만큼의 "공간 차원수"에서의 일관된 감소에 유의한다.

또한, 4개의 요소들을 갖는 벡터는 4개의 염기들(A, C, T, G)에 대한 분류 스코어들(즉, 신뢰도 스코어들, 확률들, 가능성들, 소프트맥스 스코어들)을 생성하기 위해 소프트맥스 층에 의해 지수적으로 정규화된다. 최고(최대) 소프트맥스 스코어를 갖는 염기는 현재 서열분석 사이클에서 염기 호출되는 단일 표적 클러스터에 할당된다.

당업자는, 다른 구현예들에서, 예시된 차원수들이 서열분석 구성, 병렬성 전략, 아키텍처의 세부사항들(예컨대, 최적의 아키텍처 하이퍼파라미터들에 기초함) 및 이용가능한 계산에 따라 달라질 수 있다는 것을 이해할 것이다.

도 23은 다수의 클러스터들의 단일 서열분석 사이클의 염기 호출 구현예에 대한 차원수 다이어그램(2300)을 도시한다. 단일 클러스터 염기 호출에 대한 사이클, 깊이, 및 공간 차원수에 관한 상기 논의가 이 구현예에 적용된다.

여기서, 소프트맥스 층은 10,000개의 유닛들 각각에 대해 독립적으로 동작하며, 10,000개의 유닛들 각각에 대한 소프트맥스 스코어들의 각자의 쿼드러플을 생성한다. 쿼드러플은 4개의 염기들(A, C, T, G)에 대응한다. 일부 구현예들에서, 10,000개의 유닛들은 10,000개의 조밀한 유닛들로의 64,0000개의 편평한 유닛들의 변환으로부터 도출된다.

이어서, 10,000개의 유닛들 각각의 소프트맥스 스코어 쿼드러플로부터, 각각의 쿼드러플에서 최고 소프트맥스 스코어를 갖는 염기가 10,000개의 유닛들 중 각자의 유닛에 할당된다.

이어서, 10,000개의 유닛들 중에서, 현재 서열분석 사이클에서 동시에 염기 호출되는 2,500개의 표적 클러스터들의 각자의 중심들을 포함하는 2,500개의 중심 클러스터 픽셀들에 대응하는 그러한 2500개의 유닛들이 선택된다. 선택된 2,500개의 유닛들에 할당된 염기들은 이어서 2,500개의 표적 클러스터들 중 대응하는 표적 클러스터들에 할당된다.

도 24는 다수의 클러스터들의 다수의 서열분석 사이클들의 염기 호출 구현예에 대한 차원수 다이어그램(2400)을 도시한다. 단일 클러스터 염기 호출에 대한 사이클, 깊이, 및 공간 차원수에 관한 상기 논의가 이 구현예에 적용된다.

또한, 다중 클러스터 염기 호출에 대한 소프트맥스 기반 염기 호출 분류에 관한 상기 논의가 여기에서도 역시 적용된다. 그러나, 여기서, 2,500개의 표적 클러스터들의 소프트맥스 기반 염기 호출 분류는 염기 호출된 13개의 서열분석 사이클들 각각에 대해 병렬로 발생하여, 이에 의해, 2,500개의 표적 클러스터들 각각에 대한 13개의 염기 호출들을 동시에 생성한다.

어레이형 입력 v/s 스택형 입력

이제, 신경 네트워크 기반 호출자에 대한 다중 사이클 입력 데이터가 배열될 수 있는 2개의 구성들에 대한 논의로 전환한다. 제1 구성은 "어레이형 입력"으로 칭해지고, 제2 구성은 "스택형 입력"으로 칭해진다. 어레이형 입력은 도 25a에 도시되어 있고, 도 19a 내지 도 24과 관련하여 위에 논의되어 있다. 어레이형 입력은 별개의 컬럼/블록에서 각각의 서열분석 사이클의 입력을 인코딩하는데, 그 이유는 사이클별 입력들 내의 이미지 패치들이 잔차 정합 에러로 인해 서로에 대해 오정렬되기 때문이다. 특화된 아키텍처는 별개의 컬럼들/블록들 각각의 프로세싱을 분리하기 위해 어레이형 입력과 함께 사용된다. 또한, 거리 채널들은 일정 사이클 내의 이미지 패치들 사이의 그리고 사이클들에 걸친 이미지 패치들 사이의 오정렬들을 처리하기 위해 변환된 클러스터 중심들을 사용하여 계산된다.

대조적으로, 도 25b에 도시된 스택형 입력은 단일 컬럼/블록에서 상이한 서열분석 사이클들로부터의 입력들을 인코딩한다. 하나의 구현예에서, 이는 특화된 아키텍처를 사용할 필요성을 제거하는데, 그 이유는 스택형 입력 내의 이미지 패치들이 아핀 변환 및 세기 보간을 통해 서로 정렬되기 때문이며, 이들은 인터-사이클 및 인트라-사이클 잔차 정합 에러를 제거한다. 일부 구현예들에서, 스택형 입력은 모든 입력들에 대한 공통 스케일링 채널을 갖는다.

다른 구현예에서, 세기 보간은, 각각의 이미지 패치의 중심 픽셀의 중심이 염기 호출되는 단일 표적 클러스터의 중심과 일치하도록 이미지 패치들을 리프레이밍 또는 시프트하기 위해 사용된다. 이는 보충 거리 채널들을 사용할 필요성을 제거하는데, 그 이유는 비-중심 픽셀들 모두가 단일 표적 클러스터의 중심으로부터 등거리에 있기 때문이다. 거리 채널들을 갖지 않는 스택형 입력은 본 명세서에서 "리프레이밍형 입력"으로 지칭되고, 도 27에 도시되어 있다.

그러나, 리프레이밍은 다수의 클러스터들을 수반하는 염기 호출 구현예들에서 실현가능하지 않을 수 있는데, 그 이유는 이미지 패치들이 염기 호출되는 다수의 중심 클러스터 픽셀들을 포함하기 때문이다. 원거리 채널들이 없고 리프레이밍이 없는 스택형 입력은 본 명세서에서 "정렬형 입력"으로 지칭되며, 도 28 및 도 29에 도시되어 있다. 정렬형 입력은, (예컨대, 계산 제한들로 인해) 거리 채널들의 계산이 요구되지 않고 리프레이밍이 실현가능하지 않을 때 사용될 수 있다.

하기의 섹션은, 특화된 아키텍처 및 보충 거리 채널들을 사용하지 않고, 대신에, 표준 콘볼루션 층들 및 필터들을 사용하는 다양한 염기 호출 구현예들을 논의한다.

리프레이밍형 입력: 거리 채널들이 없는 정렬된 이미지 패치들

도 26a는 이미지 패치(2602)의 픽셀들을 리프레이밍(2600a)하여, 중심 픽셀에서 염기 호출된 표적 클러스터의 중심을 중심에 두는 하나의 구현예를 도시한다. 표적 클러스터의 (자주색의) 중심은 이미지 패치(2602)의 중심 픽셀 내에 속하지만, 도 2600a에 묘사된 바와 같이 중심 픽셀의 중심으로부터 (적색의) 오프셋에 있다.

오프셋을 제거하기 위해, 리프레이머(reframer)(2604)는 리프레이밍을 보상하도록 픽셀들의 세기를 보간함으로써 이미지 패치(2602)를 시프트시키고, 리프레이밍된/시프트된 이미지 패치(2606)를 생성한다. 시프트된 이미지 패치(2606)에서, 중심 픽셀의 중심은 표적 클러스터의 중심과 일치한다. 또한, 비-중심 픽셀들은 표적 클러스터의 중심으로부터 등거리에 있다. 보간법은 최근접 이웃 세기 추출, Gaussian 기반 세기 추출, 2 × 2 서브픽셀 영역의 평균에 기초한 세기 추출, 2 × 2 서브픽셀 영역 중 가장 밝은 것에 기초한 세기 추출, 3 × 3 서브픽셀 영역의 평균에 기초한 세기 추출, 이중선형 세기 추출, 쌍삼차 세기 추출, 및/또는 가중된 영역 커버리지에 기초한 세기 추출에 의해 수행될 수 있다. 이러한 기법들은 제목이 "Intensity Extraction Methods"인 첨부물에 상세히 기재되어 있다.

도 26b는 (i) 중심 픽셀의 중심이 표적 클러스터의 중심과 일치하고 (ii) 비-중심 픽셀들이 표적 클러스터의 중심으로부터 등거리에 있는 다른 예시적인 리프레이밍된/시프트된 이미지 패치(2600b)를 도시한다. 이들 2개의 인자들은 보충 거리 채널을 제공할 필요성을 제거하는데, 그 이유는 비-중심 픽셀들 모두가 표적 클러스터의 중심과 동일한 정도의 근접성을 갖기 때문이다.

도 27은 표준 콘볼루션 신경 네트워크 및 리프레밍형 입력을 사용하여 현재 서열분석 사이클에서 단일 표적 클러스터를 염기 호출하는 하나의 구현예를 도시한다. 예시된 구현예에서, 리프레이밍형 입력은 염기 호출되는 현재(t) 서열분석 사이클에 대한 현재 이미지 패치 세트, 이전(t-1) 서열분석 사이클에 대한 이전 이미지 패치 세트, 및 다음(t+1) 서열분석 사이클에 대한 다음 이미지 패치 세트를 포함한다. 각각의 이미지 패치 세트는 하나 이상의 이미지 채널들 중 각자의 이미지 채널에 대한 이미지 패치를 갖는다. 도 27은 2개의 이미지 채널들, 즉, 적색 채널 및 녹색 채널을 도시한다. 각각의 이미지 패치는 염기 호출되는 표적 클러스터, 일부 인접한 클러스터들, 및 그들의 주변 배경을 커버하는 픽셀들에 대한 픽셀 세기 데이터를 갖는다. 리프레이밍형 입력은 또한 공통 스케일링 채널을 포함한다.

리프레이밍형 입력은 어떠한 거리 채널들도 포함하지 않는데, 그 이유는 이미지 패치들이, 도 26a 및 도 26b와 관련하여 전술된 바와 같이, 표적 클러스터의 중심에 중심을 두도록 리프레이밍되거나 시프트되기 때문이다. 또한, 이미지 패치들은 인터-사이클 및 인트라-사이클 잔차 정합 에러를 제거하기 위해 서로 정렬된다. 하나의 구현예에서, 이는 아핀 변환 및 세기 보간법을 사용하여 이루어지며, 그 추가 세부사항들은 첨부물들 1, 2, 3, 및 4에서 찾을 수 있다. 이들 인자들은 특화된 아키텍처를 사용할 필요성을 제거하는데, 그 대신에, 표준 콘볼루션 신경 네트워크가 리프레이밍형 입력과 함께 사용된다.

예시된 구현예에서, 표준 콘볼루션 신경 네트워크(2700)는 표준 콘볼루션 필터들을 사용하는 7개의 표준 콘볼루션 층들을 포함한다. 이는, (데이터가 정렬되고, 혼합될 수 있기 때문에) 서열분석 사이클들 사이의 데이터의 혼합을 방지하기 위한 분리형 콘볼루션 파이프라인들이 없다는 것을 의미한다. 일부 구현예들에서, 지속적으로 감소하는 공간 차원수 현상은 표준 콘볼루션 필터들이 다른 픽셀들보다 더 많이 중심 클러스터 중심 및 그의 이웃 픽셀들에 주목하도록 교시하는 데 사용된다.

이어서, 리프레이밍형 입력은 표준 콘볼루션 층들을 통해 프로세싱되어 최종 콘볼루션된 표현을 생성한다. 최종 콘볼루션된 표현에 기초하여, 현재 서열분석 사이클에서의 표적 클러스터에 대한 염기 호출은, 도 19c와 관련하여 위에서 논의된 바와 같이, 편평한, 조밀한, 그리고 분류 층들을 사용하여 유사한 방식으로 획득된다.

일부 구현예들에서, 프로세스는 복수의 서열분석 사이클들에 걸쳐서 반복되어 표적 클러스터에 대한 염기 호출들의 서열을 생성한다.

다른 구현예들에서, 프로세스는 복수의 표적 클러스터들에 대한 복수의 서열분석 사이클들에 걸쳐서 반복되어 복수의 표적 클러스터들 중 각각의 표적 클러스터에 대한 염기 호출들의 서열을 생성한다.

정렬형 입력: 거리 채널들 및 리프레이밍이 없는 정렬된 이미지 패치들

도 28은 표준 콘볼루션 신경 네트워크 및 정렬형 입력을 사용하여 현재 서열분석 사이클에서 다수의 표적 클러스터들을 염기 호출하는 하나의 구현예를 도시한다. 리프레이밍은 여기서 실현가능하지 않은데, 그 이유는 이미지 패치들이 염기 호출되고 있는 다수의 중심 클러스터 픽셀들을 포함하기 때문이다. 그 결과, 정렬형 입력 내의 이미지 패치들은 리프레이밍되지 않는다. 또한, 보충 거리 채널들은, 하나의 구현예에 따라, 계산 고려사항들로 인해 포함되지 않는다.

이어서, 정렬형 입력은 표준 콘볼루션 층들을 통해 프로세싱되어 최종 콘볼루션된 표현을 생성한다. 최종 콘볼루션된 표현에 기초하여, 표적 클러스터들 각각에 대한 염기 호출은, 도 20과 관련하여 위에서 논의된 바와 같이, 편평한(선택적), 조밀한(선택적), 분류, 및 염기 호출 필터링 층들을 사용하여 유사한 방식으로 현재 서열분석 사이클에서 획득된다.

도 29는 표준 콘볼루션 신경 네트워크 및 정렬형 입력을 사용하여 복수의 서열분석 사이클들에서 다수의 표적 클러스터들을 염기 호출하는 하나의 구현예를 도시한다. 정렬형 입력은 표준 콘볼루션 층들을 통해 프로세싱되어, 염기 호출되는 y개의 서열분석 사이클들 각각에 대해 최종 콘볼루션된 표현을 생성한다. y개의 최종 콘볼루션된 표현들에 기초하여, 표적 클러스터들 각각에 대한 염기 호출은, 도 21과 관련하여 위에서 논의된 바와 같이, 편평한(선택적), 조밀한(선택적), 분류, 및 염기 호출 필터링 층들을 사용하여 유사한 방식으로 염기 호출되는 y개의 서열분석 사이클들 각각에 대해 획득된다.

당업자는, 다른 구현예들에서, 표준 콘볼루션 신경 네트워크가 더 적은 또는 더 많은 수의 서열분석 사이클들에 대한 리프레이밍형 입력을 프로세싱할 수 있고, 더 적은 또는 더 많은 수의 표준 콘볼루션 층들을 포함할 수 있다는 것을 이해할 것이다. 또한, 리프레이밍형 입력의 차원수, 리프레이밍형 입력 내의 사이클별 텐서들, 콘볼루션 필터들, 생성된 특징 맵들, 및 출력은 상이할 수 있다. 또한, 콘볼루션 층 내의 콘볼루션 필터들의 수는 상이할 수 있다. 그것은 1D 콘볼루션, 2D 콘볼루션, 3D 콘볼루션, 4D 콘볼루션, 5D 콘볼루션, 확장형(dilated) 또는 아트로스(atrous) 콘볼루션, 전치(transpose) 콘볼루션, 깊이별 분리가능(depthwise separable) 콘볼루션, 포인트별(pointwise) 콘볼루션, 1 × 1 콘볼루션, 그룹 콘볼루션, 편평형(flattened) 콘볼루션, 공간 및 교차 채널(spatial and cross-channel) 콘볼루션, 셔플 그룹형(shuffled grouped) 콘볼루션, 공간 분리가능(spatial separable) 콘볼루션, 및 디콘볼루션을 사용할 수 있다. 그것은 하나 이상의 손실 함수들, 예컨대 로지스틱 회귀(logistic regression)/로그(log) 손실, 다중클래스 교차-엔트로피(multi-class cross-entropy)/소프트맥스 손실, 이진 교차-엔트로피(binary cross-entropy) 손실, 평균 제곱 에러(mean-squared error) 손실, L1 손실, L2 손실, 평활한(smooth) L1 손실, 및 Huber 손실을 사용할 수 있다. 그것은 임의의 병렬성(parallelism), 효율성, 및 압축 스킴들, 예컨대 TFRecords, 압축 인코딩(예컨대, PNG), 샤딩(sharding), 맵 변환을 위한 병렬 호출, 배칭(batching), 프리페칭(prefetching), 모델 병렬성, 데이터 병렬성, 및 동기식/비동기식 SGD를 사용할 수 있다. 그것은 업샘플링 층, 다운샘플링 층, 순환 접속, 게이트 및 게이트형 메모리 유닛(예컨대, LSTM 또는 GRU), 잔차 블록, 잔차 접속, 하이웨이 접속, 스킵 접속, 핍홀(peephole) 접속, 활성화 함수(예컨대, ReLU(rectifying linear unit), 리키 ReLU(leaky ReLU), ELU(exponential liner unit), 시그모이드 및 tanh(hyperbolic tangent)와 같은 비선형 변환 함수), 배치 정규화 층, 규칙화 층, 드롭아웃, 풀링 층(예컨대, 최대 또는 평균 풀링), 글로벌 평균 풀링 층, 및 감쇠 메커니즘을 포함할 수 있다.

트레이닝

도 30은 신경 네트워크 기반 염기 호출자(218)를 트레이닝(3000)시키는 하나의 구현예를 도시한다. 특화된 아키텍처 및 표준 아키텍처 둘 모두를 사용하면, 신경 네트워크 기반 염기 호출자(218)는, 예측된 염기 호출들(3004)을 정확한 염기 호출들(3008)에 대해 비교하고 그 비교에 기초하여 에러(3006)를 계산하는 역전파 기반 기울기 업데이트 기법을 사용하여 트레이닝된다. 이어서, 에러(3006)는, 역방향 전파(3010) 동안 신경 네트워크 기반 염기 호출자(218)의 가중치들 및 파라미터들에 적용되는 기울기들을 계산하는 데 사용된다. 트레이닝(3000)은 ADAM과 같은 확률적 기울기 업데이트 알고리즘을 사용하여 트레이너(1510)에 의해 조작될 수 있게 된다.

트레이너(1510)는 트레이닝 데이터(3002)(서열분석 이미지들(108)로부터 도출됨)를 사용하여, 예측된 염기 호출들(3004)을 생성하는 순방향 전파(3012) 및 에러(3006)에 기초하여 가중치들 및 파라미터들을 업데이트하는 역방향 전파(3010)의 수천 및 수백만 회의 반복들에 걸쳐서 신경 네트워크 기반 염기 호출자(218)를 트레이닝시킨다. 트레이닝(3000)에 관한 추가 세부사항들은 제목이 "Deep Learning Tools"인 첨부물에서 찾을 수 있다.

CNN-RNN 기반 염기 호출자

하이브리드 신경 네트워크

도 31a는 신경 네트워크 기반 염기 호출자(218)로서 사용되는 하이브리드 신경 네트워크(3100a)의 하나의 구현예를 도시한다. 하이브리드 신경 네트워크(3100a)는 적어도 하나의 콘볼루션 모듈(3104)(또는 콘볼루션 신경 네트워크(CNN)) 및 적어도 하나의 순환 모듈(3108)(또는 순환 신경 네트워크(RNN))을 포함한다. 순환 모듈(3108)은 콘볼루션 모듈(3104)로부터의 입력들을 사용하고/하거나 수신한다.

콘볼루션 모듈(3104)은 하나 이상의 콘볼루션 층들을 통해 입력 데이터(3102)를 프로세싱하고, 콘볼루션 출력(3106)을 생성한다. 하나의 구현예에서, 입력 데이터(3102)는, 제목이 "입력"인 섹션에서 위에 논의된 바와 같이, 메인 입력으로서 이미지 채널들 또는 이미지 데이터만을 포함한다. 하이브리드 신경 네트워크(3100a)에 공급되는 이미지 데이터는 전술된 이미지 데이터(202)와 동일할 수 있다.

다른 구현예에서, 입력 데이터(3102)는, 이미지 채널들 또는 이미지 데이터에 더하여, 또한, 제목이 "입력"인 섹션에서 위에 논의된 바와 같이, 거리 채널들, 스케일링 채널, 클러스터 중심 좌표들, 및/또는 클러스터 속성 정보와 같은 보충 채널들을 포함한다.

이미지 데이터(즉, 입력 데이터(3102))는 하나 이상의 클러스터들 및 그들의 주변 배경의 세기 방출물들을 묘사한다. 콘볼루션 모듈(3104)은 콘볼루션 층들을 통해 서열분석 런의 일련의 서열분석 사이클들에 대한 이미지 데이터를 프로세싱하고, 이미지 데이터의 하나 이상의 콘볼루션된 표현들(즉, 콘볼루션된 출력(3106))을 생성한다.

일련의 서열분석 사이클들은 염기 호출되어야 하는 t개의 서열분석 사이클들에 대한 이미지 데이터를 포함할 수 있으며, 여기서 t는 1 내지 1000의 임의의 수이다. t가 15 내지 21일 때 정확한 염기 호출 결과들을 관찰한다.

순환 모듈(3110)은 콘볼루션된 출력(3106)을 콘볼루션하고, 순환 출력(3110)을 생성한다. 특히, 순환 모듈(3110)은 콘볼루션된 표현들 및 이전 은닉된 상태 표현들을 콘볼루션한 것에 기초하여 현재 은닉된 상태 표현들(즉, 순환 출력(3110))을 생성한다.

하나의 구현예에서, 순환 모듈(3110)은 콘볼루션된 표현들 및 이전 은닉된 상태 표현들에 3차원(3D) 콘볼루션들을 적용하고, 다음과 같이 수학적으로 공식화된 현재 은닉된 상태 표현들을 생성한다:

, 여기서

는 현재 시간 스텝

에서 생성된 현재 은닉된 상태 표현을 표현하고,

는 현재 시간 스텝

에서 현재 슬라이딩 윈도우에서의 입력 체적을 형성하는 콘볼루션된 표현들의 세트 또는 그룹을 표현하고,

는

에 적용되는 제1 3D 콘볼루션 필터의 가중치들을 표현하고,

는 이전 시간 스텝

에서 생성된 이전 은닉된 상태 표현을 표현하고,

는

에 적용되는 제2 3D 콘볼루션 필터의 가중치들을 표현한다.

일부 구현예들에서,

및

는 동일한데, 그 이유는 가중치들이 공유되기 때문이다.

이어서, 출력 모듈(3112)은 순환 출력(3110)에 기초하여 염기 호출들(3114)을 생성한다. 일부 구현예들에서, 출력 모듈(3112)은 하나 이상의 완전 접속 층들 및 분류 층(예컨대, 소프트맥스)을 포함한다. 그러한 구현예들에서, 현재 은닉된 상태 표현들은 완전 접속 층들을 통해 프로세싱되고, 완전 접속 층들의 출력들은 분류 층을 통해 프로세싱되어 염기 호출들(3114)을 생성한다.

염기 호출들(3114)은 클러스터들 중 적어도 하나의 클러스터에 대한 그리고 서열분석 사이클들 중 적어도 하나의 서열분석 사이클에 대한 염기 호출을 포함한다. 일부 구현예들에서, 염기 호출들(3114)은 클러스터들 각각에 대한 그리고 서열분석 사이클들 각각에 대한 염기 호출을 포함한다. 따라서, 예를 들어, 입력 데이터(3102)가 25개의 클러스터에 대한 그리고 15개의 서열분석 사이클들에 대한 이미지 데이터를 포함할 때, 염기 호출들(3102)은 25개의 클러스터들 각각에 대한 15개의 염기 호출들의 염기 호출 서열을 포함한다.

3D 콘볼루션들

도 31b는 현재 은닉된 상태 표현들을 생성하기 위해 하이브리드 신경 네트워크(3100b)의 순환 모듈(3110)에 의해 사용되는 3D 콘볼루션들(3100b)의 하나의 구현예를 도시한다.

3D 콘볼루션은, 입력 체적 내에 존재하는 각각의 복셀이 콘볼루션 커널의 등가 포지션 내의 복셀과 곱해지는 수학적 연산이다. 결국, 결과들의 합이 출력 체적에 가산된다. 도 31b에서, 3D 콘볼루션 연산의 표현을 관찰하는 것이 가능하며, 여기서 입력(3116)에서 하이라이트된 복셀들(3116a)은 커널(3118) 내의 그의 각자의 복셀들과 곱해진다. 이들 계산들 후에, 그들의 합(3120a)이 출력(3120)에 추가된다.

입력 체적의 좌표들이 (x, y, z)에 의해 주어지고, 콘볼루션 커널이 크기(P, Q, R)를 갖기 때문에, 3D 콘볼루션 연산은 수학적으로 다음과 같이 정의될 수 있다:

, 여기서

는 콘볼루션의 결과이고,

I 는 입력 체적이고,

K 는 콘볼루션 커널이고,

는 K의 좌표들이다.

바이어스 항은 명료성을 개선하기 위해 상기 방정식으로부터 생략된다.

3D 콘볼루션은, 2D 콘볼루션들과 같은 매트릭스들로부터 공간 정보를 추출하는 것에 더하여, 연속적인 매트릭스들 사이에 존재하는 정보를 추출한다. 이는, 그들이 3D 객체들의 공간 정보 및 순차적 이미지들의 세트의 시간 정보 둘 모두를 맵핑할 수 있게 한다.

콘볼루션 모듈

도 32는 콘볼루션 모듈(3104)의 콘볼루션 층들(3200)의 캐스케이드를 통해, 염기 호출될 일련의 t개의 서열분석 사이클들 중에서 단일 서열분석 사이클에 대해 사이클별 입력 데이터(3202)를 프로세싱하는 하나의 구현예를 예시한다.

콘볼루션 모듈(3104)은 콘볼루션 층들(3200)의 캐스케이드를 통해 사이클별 입력 데이터의 시퀀스 내의 각각의 사이클별 입력 데이터를 개별적으로 프로세싱한다. 사이클별 입력 데이터의 시퀀스는 염기 호출되어야 하는 서열분석 런의 일련의 t개의 서열분석 사이클들에 대해 생성되며, 여기서 t는 1 내지 1000의 임의의 수이다. 따라서, 예를 들어, 일련의 t개의 서열분석 사이클들이 15개의 서열분석 사이클들을 포함할 때, 사이클별 입력 데이터의 시퀀스는 15개의 상이한 사이클별 입력 데이터를 포함한다.

하나의 구현예에서, 각각의 사이클별 입력 데이터는 이미지 채널들(예컨대, 적색 채널 및 녹색 채널) 또는 이미지 데이터(예컨대, 전술된 이미지 데이터(202))만을 포함한다. 이미지 채널들 또는 이미지 데이터는 일련의 t개의 서열분석 사이클들 내의 각자의 서열분석 사이클에서 캡처된 하나 이상의 클러스터들 및 그들의 주변 배경의 세기 방출물들을 묘사한다. 다른 구현예에서, 각각의 사이클별 입력 데이터는, 이미지 채널들 또는 이미지 데이터에 더하여, 또한, 거리 채널들 및 스케일링 채널(예컨대, 전술된 입력 데이터(1800))과 같은 보충 채널들을 포함한다.

예시된 구현예에서, 사이클별 입력 데이터(3202)는 염기 호출될 일련의 t개의 서열분석 사이클들 중에서 단일 서열분석 사이클에 대해 2개의 이미지 채널들, 즉 적색 채널 및 녹색 채널을 포함한다. 각각의 이미지 채널은 크기 15 × 15의 이미지 패치에서 인코딩된다. 콘볼루션 모듈(3104)은 5개의 콘볼루션 층들을 포함한다. 각각의 콘볼루션 층은 크기 3 × 3의 25개의 콘볼루션 필터들의 뱅크를 갖는다. 또한, 콘볼루션 필터들은 입력 이미지들 또는 텐서들의 높이 및 폭을 보존하는 소위 SAME 패딩을 사용한다. SAME 패딩을 사용하면, 출력 특징 맵이 입력 특징들과 동일한 크기를 갖도록 패딩이 입력 특징부들에 추가된다. 대조적으로, 소위 VALID 패딩은 패딩 없음을 의미한다.

제1 콘볼루션 층(3204)은 사이클별 입력 데이터(3202)를 프로세싱하고, 크기 15 × 15 × 25의 제1 콘볼루션된 표현(3206)을 생성한다. 제2 콘볼루션 층(3208)은 제1 콘볼루션된 표현(3206)을 프로세싱하고, 크기 15 × 15 × 25의 제2 콘볼루션된 표현(3210)을 생성한다. 제3 콘볼루션 층(3212)은 제2 콘볼루션된 표현(3210)을 프로세싱하고, 크기 15 × 15 × 25의 제3 콘볼루션된 표현(3214)을 생성한다. 제4 콘볼루션 층(3216)은 제3 콘볼루션된 표현(3214)을 프로세싱하고, 크기 15 × 15 × 25의 제4 콘볼루션된 표현(3218)을 생성한다. 제5 콘볼루션 층(3220)은 제4 콘볼루션된 표현(3218)을 프로세싱하고, 크기 15 × 15 × 25의 제5 콘볼루션된 표현(3222)을 생성한다. SAME 패딩은 생성된 콘볼루션된 표현들(예컨대, 15 × 15)의 공간 치수들을 보존한다는 것에 유의한다. 일부 구현예들에서, 콘볼루션 층들 내의 콘볼루션 필터들의 수는 2의 거듭제곱, 예컨대 2, 4, 16, 32, 64, 128, 256, 512, 및 1024이다.

콘볼루션들이 더 깊어짐에 따라, 정보가 손실될 수 있다. 이를 처리하기 위해, 일부 구현예들에서, 스킵 접속들을 사용하여, (1) 오리지널 사이클별 입력 데이터를 재도입하고, (2) 앞선 콘볼루션 층들에 의해 추출된 저레벨 공간 특징들을 나중의 콘볼루션 층들에 의해 추출되는 고레벨 공간 특징들과 조합한다. 이것이 염기 호출 정확도를 개선한다는 것을 관찰한다.

도 33은 단일 서열분석 사이클의 사이클별 입력 데이터(3202)를, 콘볼루션 모듈(3104)의 콘볼루션 층들(3200)의 캐스케이드에 의해 생성된 그의 대응하는 콘볼루션된 표현들(3206, 3210, 3214, 3218, 3222)과 혼합(3300)하는 하나의 구현예를 도시한다. 콘볼루션된 표현들(3206, 3210, 3214, 3218, 3222)은 연결(concatenate)되어, 콘볼루션된 표현들(3304)의 시퀀스를 형성하는데, 이는 이어서 사이클별 입력 데이터(3202)와 연결되어, 혼합 표현(3306)을 생성한다. 다른 구현예들에서, 합산이 연결 대신에 사용된다. 또한, 혼합(3300)은 혼합기(3302)에 의해 조작될 수 있게 된다.

이어서, 편평화기(3308)가 혼합 표현(3306)을 편평화하고, 사이클별 편평한 혼합 표현(3310)을 생성한다. 일부 구현예들에서, 편평한 혼합 표현(3310)은 적어도 하나의 치수 크기를 사이클별 입력 데이터(3202) 및 콘볼루션된 표현들(3206, 3210, 3214, 3218, 3222)(예컨대, 15 × 1905, 즉, 동일한 로우별 치수)과 공유하는 고차원 벡터 또는 2차원(2D) 어레이이다. 이는 다운스트림 3D 콘볼루션들에서의 특징 추출을 용이하게 하는 데이터에서의 대칭성을 유도한다.

도 32 및 도 33은 염기 호출될 일련의 t개의 서열분석 사이클들 중에서 단일 서열분석 사이클에 대한 사이클별 이미지 데이터(3202)의 프로세싱을 도시한다. 콘볼루션 모듈(3104)은 t개의 서열분석 사이클들 각각에 대해 각자의 사이클별 이미지 데이터를 개별적으로 프로세싱하고, t개의 서열분석 사이클들 각각에 대해 각자의 사이클별 편평한 혼합 표현을 생성한다.

스태킹

도 34는 연속적인 서열분석 사이클들의 편평한 혼합 표현들을 스택(3400)으로서 배열하는 하나의 구현예를 도시한다. 예시된 구현예에서, 15개의 서열분석 사이클들에 대한 15개의 편평한 혼합 표현들(3204a 내지 3204o)이 스택(3400)에 스태킹된다. 스택(3400)은 3D 콘볼루션 필터의 동일한 수용 필드에서 공간 치수 및 시간 치수(즉, 다중 서열분석 사이클들) 둘 모두로부터 특징들을 이용가능하게 하는 3D 입력 체적이다. 스태킹은 스태커(3402)에 의해 조작될 수 있게 된다. 다른 구현예들에서, 스택(3400)은 임의의 차원수(예컨대, 1D, 2D, 4D, 5D 등)의 텐서일 수 있다.

순환 모듈

서열분석 데이터에서 장기 의존성들을 캡처하기 위해, 그리고, 특히, 프리-페이징 및 페이징으로부터의 교차-사이클 서열분석 이미지들에서의 2차 기여를 처리하기 위해 순환 프로세싱을 사용한다. 시간 스텝들의 사용 때문에 순차적 데이터의 분석을 위해 순환 프로세싱이 사용된다. 현재 시간 스텝에서의 현재 은닉된 상태 표현은 (i) 이전 시간 스텝으로부터의 이전 은닉된 상태 표현 및 (ii) 현재 시간 스텝에서의 현재 입력의 함수이다.

순환 모듈(3108)은 스택(3400)을 3D 콘볼루션들(즉, 순환 프로세싱(3500))의 순방향 및 역방향들로의 순환 응용에 적용시키고, 일련의 t개의 서열분석 사이클들 내의 t개의 서열분석 사이클들 각각에서 클러스터들 각각에 대한 염기 호출들을 생성한다. 3D 콘볼루션들은 슬라이딩 윈도우 단위로 스택(3400) 내의 편평한 혼합 표현들의 서브세트로부터 공간-시간 특징들을 추출하는 데 사용된다. 각각의 슬라이딩 윈도우(w)는 각자의 서열분석 사이클에 대응하고, 도 35a에서 오렌지색으로 하이라이트되어 있다. 일부 구현예들에서, w는 동시에 염기 호출되는 서열분석 사이클들의 총 수에 따라 1, 2, 3, 5, 7, 9, 15, 21 등으로 파라미터화된다. 하나의 구현예에서, w는 동시에 염기 호출되는 서열분석 사이클들의 총 수의 분율이다.

따라서, 예를 들어, 각각의 슬라이딩 윈도우가 15개의 편평한 혼합 표현들(3204a 내지 3204o)을 포함하는 스택(3400)으로부터의 3개의 연속적인 편평한 혼합 표현들을 포함하는 것으로 간주한다. 이어서, 제1 슬라이딩 윈도우에서 처음 3개의 편평한 혼합 표현들(3204a 내지 3204c)은 제1 서열분석 사이클에 대응하고, 제2 슬라이딩 윈도우에서 다음 3개의 편평한 혼합 표현들(3204b 내지 3204d)은 제2 서열분석 사이클에 대응하고, 등등이다. 일부 구현예들에서, 최종 편평한 혼합 표현(3204o)으로 시작하여, 최종 서열분석 사이클에 대응하는 최종 슬라이딩 윈도우에서 충분한 수의 편평한 혼합 표현들을 인코딩하기 위해 패딩이 사용된다.

각각의 시간 스텝에서, 순환 모듈(3108)은 (1) 현재 입력 x(t) 및 (2) 이전 은닉된 상태 표현 h(t-1)를 수용하고, 현재 은닉된 상태 표현 h(t)를 계산한다. 현재 입력 x(t)는 현재 슬라이딩 윈도우((w), 오렌지색) 내에 있는 스택(3400)으로부터의 편평한 혼합 표현들의 서브세트만을 포함한다. 따라서, 각각의 현재 입력 x(t)는, 각각의 시간 스텝에서, 복수의 편평한 혼합 표현들(예컨대, w에 따라, 1, 2, 3, 5, 7, 9, 15, 또는 21개의 편평한 혼합 표현들)의 3D 체적이다. 예를 들어, (i) 단일의 편평한 혼합 표현이 치수들 15 × 1905를 갖는 2차원(2D)이고, (ii) w가 7일 때, 각각의 현재 입력 x(t)는, 각각의 시간 스텝에서, 치수들 15 × 1905 × 7을 갖는 3D 체적이다.

순환 모듈(3108)은 제1 3D 콘볼루션(

)을 현재 입력 x(t)에 그리고 제2 3D 콘볼루션(

)을 이전 은닉된 상태 표현 h(t-1)에 적용하여, 현재 은닉된 상태 표현 h(t)를 생성한다. 일부 구현예들에서,

및

는 동일한데, 그 이유는 가중치들이 공유되기 때문이다.

게이트형 프로세싱

하나의 구현예에서, 순환 모듈(3108)은 장단기 메모리(LSTM) 네트워크 또는 게이트형 순환 유닛(GRU) 네트워크와 같은 게이트형 네트워크를 통해 현재 입력 x(t) 및 이전 은닉된 상태 표현 h(t-1)를 프로세싱한다. 예를 들어, LSTM 구현예에서, 이전 은닉된 상태 표현 h(t-1)와 함께, 현재 입력 x(t)는 LSTM 유닛의 4개의 게이트들, 즉 입력 게이트, 활성화 게이트, 망각 게이트, 및 출력 게이트 각각을 통해 프로세싱된다. 이는, 현재 입력 x(t) 및 이전 은닉된 상태 표현 h(t-1)에 3D 콘볼루션들을 적용하고 현재 은닉된 상태 표현 h(t)를 출력으로서 생성하는 LSTM 유닛을 통해, 현재 입력 x(t) 및 이전 은닉된 상태 표현 h(t-1)를 프로세싱(3500b)하는 하나의 구현예를 도시하는 도 35b에 예시되어 있다. 그러한 구현예에서, 입력, 활성화, 망각, 및 출력 게이트들의 가중치들은 3D 콘볼루션들을 적용한다.

일부 구현예들에서, 게이트형 유닛들(LSTM 또는 GRU)은 쌍곡선 탄젠트 및 시그모이드와 같은 비선형성/스쿼싱(squashing) 함수들을 사용하지 않는다.

하나의 구현예에서, 현재 입력 x(t), 이전 은닉된 상태 표현 h(t-1), 및 현재 은닉된 상태 표현 h(t)는 모두 동일한 차원수를 갖는 3D 체적이고, 3D 체적으로서 입력, 활성화, 망각, 및 출력 게이트들을 통해 프로세싱되거나 그들에 의해 생성된다.

하나의 구현예에서, 순환 모듈(3108)의 3D 콘볼루션들은 SAME 패딩과 함께, 3 × 3 크기의 25개의 콘볼루션 필터들의 뱅크를 사용한다. 일부 구현예들에서, 콘볼루션 필터들의 크기는 5 × 5이다. 일부 구현예들에서, 순환 모듈(3108)에 의해 사용되는 콘볼루션 필터들의 수는 2의 거듭제곱, 예컨대 2, 4, 16, 32, 64, 128, 256, 512, 및 1024에 의해 인수분해된다.

양방향 프로세싱

순환 모듈(3108)은 먼저 슬라이딩 윈도우 단위로 시작으로부터 끝까지(톱-다운으로) 스택(3400)을 프로세싱하고, 순방향 순회에 대한 현재 은닉된 상태 표현들(벡터들)의 시퀀스

를 생성한다.

순환 모듈(3108)은 이어서 슬라이딩 윈도우 단위로 끝으로부터 시작까지(바텀-업으로) 스택(3400)을 프로세싱하고, 역방향 순회에 대한 현재 은닉된 상태 표현들(벡터들)의 시퀀스

를 생성한다.

일부 구현예들에서, 양 방향들 모두에 대해, 각각의 시간 스텝에서, 프로세싱은 LSTM 또는 GRU의 게이트들을 사용한다. 예를 들어, 각각의 시간 스텝에서, 순방향 현재 입력 x(t)가 LSTM 유닛의 입력, 활성화, 망각, 및 출력 게이트들을 통해 프로세싱되어, 순방향 현재 은닉된 상태 표현

을 생성하고, 역방향 현재 입력 x(t)가 다른 LSTM 유닛의 입력, 활성화, 망각, 및 출력 게이트들을 통해 프로세싱되어, 역방향 현재 은닉된 상태 표현

을 생성한다.

이어서, 각각의 시간 스텝/슬라이딩 윈도우/서열분석 사이클에 대해, 순환 모듈(3108)은 대응하는 순방향 및 역방향 현재 은닉된 상태 표현들을 조합하고(연결하거나 합산하거나 평균화함), 조합된 은닉된 상태 표현

을 생성한다.

이어서, 조합된 은닉된 표현

는 조밀한 표현을 생성하기 위해 하나 이상의 완전 접속 네트워크들을 통해 프로세싱된다. 이어서, 조밀한 표현은 소프트맥스 층을 통해 프로세싱되어, 주어진 서열분석 사이클에서 클러스터들 각각에 혼입된 염기들이 A, C, T, 및 G일 가능성들을 생성한다. 염기들은 가능성들에 기초하여 A, C, T, 또는 G로서 분류된다. 이는, 병렬로 또는 순차적으로, 일련의 t개의 서열분석 사이클들 내의 t개의 서열분석 사이클들 각각(또는 각각의 시간 스텝/슬라이딩 윈도우)에 대해 이루어진다.

당업자는, 다른 구현예들에서, 하이브리드 아키텍처가 더 적은 또는 더 많은 수의 서열분석 사이클들에 대한 입력 데이터를 프로세싱할 수 있고, 더 적은 또는 더 많은 수의 콘볼루션 및 순환 층들을 포함할 수 있다는 것을 이해할 것이다. 또한, 입력 데이터의 차원수, 현재 및 이전 은닉된 표현들, 콘볼루션 필터들, 생성된 특징 맵들, 및 출력은 상이할 수 있다. 또한, 콘볼루션 층 내의 콘볼루션 필터들의 수는 상이할 수 있다. 그것은 상이한 패딩 및 스트라이딩 구성들을 사용할 수 있다. 그것은 상이한 분류 함수(예컨대, 시그모이드 또는 회귀)를 사용할 수 있고, 완전 접속 층을 포함하거나 포함하지 않을 수 있다. 그것은 1D 콘볼루션, 2D 콘볼루션, 3D 콘볼루션, 4D 콘볼루션, 5D 콘볼루션, 확장형(dilated) 또는 아트로스(atrous) 콘볼루션, 전치(transpose) 콘볼루션, 깊이별 분리가능(depthwise separable) 콘볼루션, 포인트별(pointwise) 콘볼루션, 1 × 1 콘볼루션, 그룹 콘볼루션, 편평형(flattened) 콘볼루션, 공간 및 교차 채널(spatial and cross-channel) 콘볼루션, 셔플 그룹형(shuffled grouped) 콘볼루션, 공간 분리가능(spatial separable) 콘볼루션, 및 디콘볼루션을 사용할 수 있다. 그것은 하나 이상의 손실 함수들, 예컨대 로지스틱 회귀(logistic regression)/로그(log) 손실, 다중클래스 교차-엔트로피(multi-class cross-entropy)/소프트맥스 손실, 이진 교차-엔트로피(binary cross-entropy) 손실, 평균 제곱 에러(mean-squared error) 손실, L1 손실, L2 손실, 평활한(smooth) L1 손실, 및 Huber 손실을 사용할 수 있다. 그것은 임의의 병렬성(parallelism), 효율성, 및 압축 스킴들, 예컨대 TFRecords, 압축 인코딩(예컨대, PNG), 샤딩(sharding), 맵 변환을 위한 병렬 호출, 배칭(batching), 프리페칭(prefetching), 모델 병렬성, 데이터 병렬성, 및 동기식/비동기식 SGD를 사용할 수 있다. 그것은 업샘플링 층, 다운샘플링 층, 순환 접속, 게이트 및 게이트형 메모리 유닛(예컨대, LSTM 또는 GRU), 잔차 블록, 잔차 접속, 하이웨이 접속, 스킵 접속, 핍홀(peephole) 접속, 활성화 함수(예컨대, ReLU(rectifying linear unit), 리키 ReLU(leaky ReLU), ELU(exponential liner unit), 시그모이드 및 tanh(hyperbolic tangent)와 같은 비선형 변환 함수), 배치 정규화 층, 규칙화 층, 드롭아웃, 풀링 층(예컨대, 최대 또는 평균 풀링), 글로벌 평균 풀링 층, 및 감쇠 메커니즘을 포함할 수 있다.

실험 결과들 및 관찰들

도 36은 신경 네트워크 기반 염기 호출자(218)를 트레이닝시키는 데 사용되는 트레이닝 데이터에서 트라이뉴클레오티드(3-mer)를 밸런싱하는 하나의 구현예를 도시한다. 밸런싱은 트레이닝 데이터 내의 게놈에 관한 통계자료들의 매우 적은 학습을 초래하고, 이어서 일반화를 개선한다. 열 맵(3602)은 "A. baumanni"로 칭해지는 제1 유기체에 대한 트레이닝 데이터에서 밸런싱된 3-mer를 보여준다. 히프 맵(heap map)(3604)은 "E. coli"로 칭해지는 제2 유기체에 대한 트레이닝 데이터에서 밸런싱된 3-mer를 보여준다.

도 37은 신경 네트워크 기반 염기 호출자(218)에 대한 RTA 염기 호출자의 염기 호출 정확도를 비교한다. 도 37에 도시된 바와 같이, RTA 염기 호출자는 2개의 서열분석 런들(Read: 1 및 Read: 2)에서 더 높은 에러 비율을 갖는다. 즉, 신경 네트워크 기반 염기 호출자(218)는 서열분석 런들 둘 모두에서 RTA 염기 호출자를 능가한다.

도 38은 RTA 염기 호출자의 타일-대-타일 일반화를, 동일한 타일 상의 신경 네트워크 기반 염기 호출자(218)의 것과 비교한다. 즉, 신경 네트워크 기반 염기 호출자(218)에 의해, 트레이닝에 데이터가 사용되는 동일한 타일에 대한 데이터에 대해 추론(테스팅)이 수행된다.

도 39는 RTA 염기 호출자의 타일-대-타일 일반화를, 동일한 타일 상의 그리고 상이한 타이들 상의 신경 네트워크 기반 염기 호출자(218)의 것과 비교한다. 즉, 신경 네트워크 기반 염기 호출자(218)는 제1 타일 상의 클러스터들에 대한 데이터에 대해 트레이닝되지만, 제2 타일 상의 클러스터들로부터의 데이터에 대해 추론을 수행한다. 동일한 타일 구현예에서, 신경 네트워크 기반 염기 호출자(218)는 타일 5 상의 클러스터들로부터의 데이터에 대해 트레이닝되고, 타일 5 상의 클러스터들로부터의 데이터에 대해 테스트된다. 상이한 타일 구현예에서, 신경 네트워크 기반 염기 호출자(218)는 타일 10 상의 클러스터들로부터의 데이터에 대해 트레이닝되고, 타일 5 상의 클러스터들로부터의 데이터에 대해 테스트된다.

도 40은 또한 RTA 염기 호출자의 타일-대-타일 일반화를, 상이한 타일들 상의 신경 네트워크 기반 염기 호출자(218)의 것과 비교한다. 상이한 타일 구현예들에서, 신경 네트워크 기반 염기 호출자(218)는 일단 타일 10 상의 클러스터들로부터의 데이터에 트레이닝되고 타일 5 상의 클러스터들로부터의 데이터에 대해 테스트되며, 이어서, 타일 20 상의 클러스터들로부터의 데이터에 대해 트레이닝되고 타일 5 상의 클러스터들로부터의 데이터에 대해 테스트된다.

도 41은 신경 네트워크 기반 염기 호출자(218)에 입력으로서 공급되는 이미지 패치들의 상이한 크기들이 염기 호출 정확도에 어떻게 영향을 주는지를 도시한다. 둘 모두의 서열분석 런들(Read: 1 및 Read: 2)에서, 패치 크기가 3 × 3으로부터 11 × 11로 증가함에 따라 에러 비율이 감소한다. 즉, 신경 네트워크 기반 염기 호출자(218)는 더 큰 이미지 패치들을 갖는 더 정확한 염기 호출들을 생성한다. 일부 구현예들에서, 염기 호출 정확도는 100 × 100 픽셀들 미만인 이미지 패치들을 사용함으로써 계산 효율에 대해 밸런싱된다. 다른 구현예들에서, 3000 × 3000 픽셀들(및 더 큰 픽셀)만큼 큰 이미지 패치들이 사용된다.

도 42, 도 43, 도 44, 및 도 45는 A. baumanni와 E. coli로부터의 트레이닝 데이터에 대한 신경 네트워크 기반 염기 호출자(218)의 레인-대-레인 일반화를 도시한다.

도 43을 참조하면, 하나의 구현예에서, 신경 네트워크 기반 염기 호출자(218)는 플로우 셀의 제1 레인 상의 클러스터들로부터 E. coli 데이터에 대해 트레이닝되고, 플로우 셀의 제1 레인 및 제2 레인 둘 모두 상의 클러스터들로부터 A. baumanni 데이터에 대해 테스트된다. 다른 구현예에서, 신경 네트워크 기반 염기 호출자(218)는 제1 레인 상의 클러스터들로부터 A. baumanni 데이터에 대해 트레이닝되고, 제1 레인 및 제2 레인 둘 모두 상의 클러스터들로부터 A. baumanni 데이터에 대해 테스트된다. 또 다른 구현예에서, 신경 네트워크 기반 염기 호출자(218)는 제2 레인 상의 클러스터들로부터 E. coli 데이터에 대해 트레이닝되고, 제1 레인 및 제2 레인 둘 모두 상의 클러스터들로부터 A. baumanni 데이터에 대해 테스트된다. 또 다른 구현예에서, 신경 네트워크 기반 염기 호출자(218)는 제2 레인 상의 클러스터들로부터 A. baumanni 데이터에 대해 트레이닝되고, 제1 레인 및 제2 레인 둘 모두 상의 클러스터들로부터 A. baumanni 데이터에 대해 테스트된다.

하나의 구현예에서, 신경 네트워크 기반 염기 호출자(218)는 플로우 셀의 제1 레인 상의 클러스터들로부터 E. coli 데이터에 대해 트레이닝되고, 플로우 셀의 제1 레인 및 제2 레인 둘 모두 상의 클러스터들로부터 E. coli 데이터에 대해 테스트된다. 다른 구현예에서, 신경 네트워크 기반 염기 호출자(218)는 제1 레인 상의 클러스터들로부터 A. baumanni 데이터에 대해 트레이닝되고, 제1 레인 및 제2 레인 둘 모두 상의 클러스터들로부터 E. coli 데이터에 대해 테스트된다. 또 다른 구현예에서, 신경 네트워크 기반 염기 호출자(218)는 제2 레인 상의 클러스터들로부터 E. coli 데이터에 대해 트레이닝되고, 제1 레인 상의 클러스터들로부터 E. coli 데이터에 대해 테스트된다. 또 다른 구현예에서, 신경 네트워크 기반 염기 호출자(218)는 제2 레인 상의 클러스터들로부터 A. baumanni 데이터에 대해 트레이닝되고, 제1 레인 및 제2 레인 둘 모두 상의 클러스터들로부터 E. coli 데이터에 대해 테스트된다.

도 43에서, 염기 호출 정확도(에러 비율에 의해 측정됨)는 2개의 서열분석 런들(예컨대, Read: 1 및 Read: 2)에 대한 이들 구현예들 각각에 대해 보여진다.

도 44을 참조하면, 하나의 구현예에서, 신경 네트워크 기반 염기 호출자(218)는 플로우 셀의 제1 레인 상의 클러스터들로부터 E. coli 데이터에 대해 트레이닝되고, 제1 레인 상의 클러스터들로부터 A. baumanni 데이터에 대해 테스트된다. 다른 구현예에서, 신경 네트워크 기반 염기 호출자(218)는 제1 레인 상의 클러스터들로부터 A. baumanni 데이터에 대해 트레이닝되고, 제1 레인 상의 클러스터들로부터 A. baumanni 데이터에 대해 테스트된다. 또 다른 구현예에서, 신경 네트워크 기반 염기 호출자(218)는 제2 레인 상의 클러스터들로부터 E. coli 데이터에 대해 트레이닝되고, 제1 레인 상의 클러스터들로부터 A. baumanni 데이터에 대해 테스트된다. 또 다른 구현예에서, 신경 네트워크 기반 염기 호출자(218)는 제2 레인 상의 클러스터들로부터 A. baumanni 데이터에 대해 트레이닝되고, 제1 레인 상의 클러스터들로부터 A. baumanni 데이터에 대해 테스트된다.

하나의 구현예에서, 신경 네트워크 기반 염기 호출자(218)는 플로우 셀의 제1 레인 상의 클러스터들로부터 E. coli 데이터에 대해 트레이닝되고, 제1 레인 상의 클러스터들로부터 E. coli 데이터에 대해 테스트된다. 다른 구현예에서, 신경 네트워크 기반 염기 호출자(218)는 제1 레인 상의 클러스터들로부터 A. baumanni 데이터에 대해 트레이닝되고, 제1 레인 상의 클러스터들로부터 E. coli 데이터에 대해 테스트된다. 또 다른 구현예에서, 신경 네트워크 기반 염기 호출자(218)는 제2 레인 상의 클러스터들로부터 E. coli 데이터에 대해 트레이닝되고, 제1 레인 상의 클러스터들로부터 E. coli 데이터에 대해 테스트된다. 또 다른 구현예에서, 신경 네트워크 기반 염기 호출자(218)는 제2 레인 상의 클러스터들로부터 A. baumanni 데이터에 대해 트레이닝되고, 제1 레인 상의 클러스터들로부터 E. coli 데이터에 대해 테스트된다.

도 44에서, 염기 호출 정확도(에러 비율에 의해 측정됨)는 2개의 서열분석 런들(예컨대, Read: 1 및 Read: 2)에 대한 이들 구현예들 각각에 대해 보여진다. 도 43과 도 44를 비교하면, 나중에 커버되는 구현예들이 50 내지 80%의 에러 감소를 가져온다는 것을 알 수 있다.

도 45를 참조하면, 하나의 구현예에서, 신경 네트워크 기반 염기 호출자(218)는 플로우 셀의 제1 레인 상의 클러스터들로부터 E. coli 데이터에 대해 트레이닝되고, 제2 레인 상의 클러스터들로부터 A. baumanni 데이터에 대해 테스트된다. 다른 구현예에서, 신경 네트워크 기반 염기 호출자(218)는 제1 레인 상의 클러스터들로부터 A. baumanni 데이터에 대해 트레이닝되고, 제2 레인 상의 클러스터들로부터 A. baumanni 데이터에 대해 테스트된다. 또 다른 구현예에서, 신경 네트워크 기반 염기 호출자(218)는 제2 레인 상의 클러스터들로부터 E. coli 데이터에 대해 트레이닝되고, 제1 레인 상의 클러스터들로부터 A. baumanni 데이터에 대해 테스트된다. 제2 제1 레인에서. 또 다른 구현예에서, 신경 네트워크 기반 염기 호출자(218)는 제2 레인 상의 클러스터들로부터 A. baumanni 데이터에 대해 트레이닝되고, 제2 레인 상의 클러스터들로부터 A. baumanni 데이터에 대해 테스트된다.

하나의 구현예에서, 신경 네트워크 기반 염기 호출자(218)는 플로우 셀의 제1 레인 상의 클러스터들로부터 E. coli 데이터에 대해 트레이닝되고, 제2 레인 상의 클러스터들로부터 E. coli 데이터에 대해 테스트된다. 다른 구현예에서, 신경 네트워크 기반 염기 호출자(218)는 제1 레인 상의 클러스터들로부터 A. baumanni 데이터에 대해 트레이닝되고, 제2 레인 상의 클러스터들로부터 E. coli 데이터에 대해 테스트된다. 또 다른 구현예에서, 신경 네트워크 기반 염기 호출자(218)는 제2 레인 상의 클러스터들로부터 E. coli 데이터에 대해 트레이닝되고, 제2 레인 상의 클러스터들로부터 E. coli 데이터에 대해 테스트된다. 또 다른 구현예에서, 신경 네트워크 기반 염기 호출자(218)는 제2 레인 상의 클러스터들로부터 A. baumanni 데이터에 대해 트레이닝되고, 제2 레인 상의 클러스터들로부터 E. coli 데이터에 대해 테스트된다.

도 45에서, 염기 호출 정확도(에러 비율에 의해 측정됨)는 2개의 서열분석 런들(예컨대, Read: 1 및 Read: 2)에 대한 이들 구현예들 각각에 대해 보여진다. 도 43과 도 45를 비교하면, 나중에 커버되는 구현예들이 50 내지 80%의 에러 감소를 가져온다는 것을 알 수 있다.

도 46은 도 42, 도 43, 도 44, 및 도 45와 관련하여 위에서 논의된 레인-대-레인 일반화에 대한 에러 프로파일을 도시한다. 하나의 구현예에서, 에러 프로파일은 녹색 채널 내의 A 및 T 염기들을 염기 호출하는 데 있어서의 에러를 검출한다.

도 47은 도 46의 에러 프로파일에 의해 검출된 에러의 소스를 녹색 채널에서의 낮은 클러스터 세기에 귀속시킨다.

도 48은 2개의 서열분석 런들(Read 1 및 Read 2)에 대한 RTA 염기 호출자 및 신경 네트워크 기반 염기 호출자(218)의 에러 프로파일들을 비교한다. 비교는 신경 네트워크 기반 염기 호출자(218)의 우수한 염기 호출 정확도를 확인한다.

도 49a는 4개의 상이한 기구들 상에서의 신경 네트워크 기반 염기 호출자(218)의 런-대-런 일반화를 도시한다.

도 49b는 동일한 기구 상에서 실행되는 4개의 상이한 런들에 대한 신경 네트워크 기반 염기 호출자(218)의 런-대-런 일반화를 도시한다.

도 50은 신경 네트워크 기반 염기 호출자(218)를 트레이닝시키는 데 사용되는 트레이닝 데이터의 게놈 통계자료들을 도시한다.

도 51은 신경 네트워크 기반 염기 호출자(218)를 트레이닝시키는 데 사용되는 트레이닝 데이터의 게놈 콘텍스트를 도시한다.

도 52는 긴 판독물들(예컨대, 2 × 250)을 염기 호출하는 데 있어서의 신경 네트워크 기반 염기 호출자(218)의 염기 호출 정확도를 도시한다.

도 53은 신경 네트워크 기반 염기 호출자(218)가 이미지 패치들에 걸쳐서 중심 클러스터 픽셀(들) 및 그의 이웃 픽셀들에 어떻게 주목하는지에 대한 하나의 구현예를 도시한다.

도 54는 하나의 구현예에 따른, 신경 네트워크 기반 염기 호출자(218)를 트레이닝시키고 러닝시키는 데 사용되는 다양한 하드웨어 컴포넌트들 및 구성들을 도시한다. 다른 구현예들에서, 상이한 하드웨어 컴포넌트들 및 구성들이 사용된다.

도 55는 신경 네트워크 기반 염기 호출자(218)를 사용하여 수행될 수 있는 다양한 서열분석 태스크들을 도시한다. 일부 예들은 품질 스코어링(QScoring) 및 변이체 분류를 포함한다. 도 55는, 또한, 신경 네트워크 기반 염기 호출자(218)가 염기 호출을 수행하는 일부 예시적인 서열분석 기구들을 열거한다.

도 56은 t-SNE(t-Distributed Stochastic Neighbor Embedding)에 의해 시각화된 산포도(5600)이고, 신경 네트워크 기반 염기 호출자(218)의 염기 호출 결과들을 보여준다. 산포도(5600)는 염기 호출 결과들이 64개(4³)개의 그룹들로 클러스터링됨을 보여주는데, 이때 각각의 그룹은 주로 특정 입력 3-mer(트라이뉴클레오티드 반복 패턴)에 대응한다. 이는, 신경 네트워크 기반 염기 호출자(218)가 적어도 3개의 서열분석 사이클들에 대한 입력 데이터를 프로세싱하고, 시퀀스 특정 모티프들을 학습하여 이전 및 연속적인 염기 호출들에 기초하여 현재 염기 호출을 생성하기 때문에 그러하다.

품질 스코어링

품질 스코어링은 각각의 염기 호출에 품질 스코어를 할당하는 프로세스를 지칭한다. 품질 스코어들은 서열분석 트레이스들의 예측 특징들의 값들을 품질 테이블에 기초한 확률로 변환하는 프레드 프레임워크에 따라 정의된다. 품질 테이블은 교정 데이터 세트들에 대한 트레이닝에 의해 획득되고, 서열분석 플랫폼의 특성들이 변화할 때 업데이트된다. 품질 스코어들의 확률적 해석은 변이체 호출 및 서열 조립과 같은 다운스트림 분석에서 상이한 서열분석 판독물들의 공정한 통합을 허용한다. 따라서, 품질 스코어들을 정의하기 위한 유효 모델이 임의의 염기 호출자에 대해 필수적이다.

먼저, 품질 스코어들이 무엇인지를 기술한다. 품질 스코어는 염기 호출에서 서열분석 에러의 확률의 척도이다. 고품질 스코어는 염기 호출이 더 신뢰성있고 부정확할 가능성이 적다는 것을 암시한다. 예를 들어, 염기의 품질 스코어가 Q30인 경우, 이러한 염기가 부정확하게 호출되는 확률은 0.001이다. 이는, 또한, 염기 호출 정확도가 99.9%임을 나타낸다.

하기의 표는 염기 호출 품질 스코어들과 그들의 대응하는 에러 확률, 염기 호출 정확률, 및 염기 호출 에러율 사이의 관계를 나타낸다:

이제, 품질 스코어들이 어떻게 생성되는지를 기술한다. 서열분석 런 동안, 품질 스코어는 모든 클러스터에 대해, 모든 타일 상에서, 모든 서열분석 사이클에 대해 각각의 염기 호출에 할당된다. Illumina 품질 스코어들은 2-단계 프로세스에서 각각의 염기 호출에 대해 계산된다. 각각의 염기 호출에 대해, 다수의 품질 예측기 값들이 계산된다. 품질 예측기 값들은 염기 호출들이 추출되는 클러스터들의 관찰가능한 속성들이다. 이들은 세기 프로파일들 및 신호대잡음비들과 같은 속성들을 포함하고, 염기 호출 신뢰성의 다양한 태양들을 측정한다. 그들은 염기 호출의 품질과 상관하도록 경험적으로 결정되었다.

품질 테이블 또는 Q-테이블로도 알려진 품질 모델은 품질 예측기 값들의 조합들을 열거하고, 이들을 대응하는 품질 스코어들과 관련짓는데; 이러한 관계는 경험적 데이터를 사용하여 교정 프로세스에 의해 결정된다. 새로운 품질 스코어를 추정하기 위해, 새로운 염기 호출에 대해 품질 예측기 값들이 계산되고, 미리 교정된 품질 테이블 내의 값들과 비교된다.

이제, 품질 테이블이 어떻게 교정되는지를 기술한다. 교정은, 다수의 기구들에서 서열분석된 다양한 잘 특징지어진 인간 및 비-인간 샘플들을 포함하는 경험적 데이터로부터 통계적 품질 테이블이 도출되는 프로세스이다. 프레드 알고리즘의 변형된 버전을 사용하면, 품질 테이블은 판독물들을 적절한 참조들에 대해 정렬시킴으로써 결정된 에러율들 및 원시 신호들의 특성들을 사용하여 개발되고 개량된다.

이제, 품질 테이블들이 왜 시간에 따라 변화하는지를 기술한다. 품질 테이블들은 화학의 버전들 및 특정 기구 구성들에 의해 생성된 런들에 대한 품질 스코어들을 제공한다. 새로운 하드웨어, 소프트웨어, 또는 화학 버전들과 같은 서열분석 플랫폼의 유의한 특성들이 변할 때, 품질 모델은 재교정을 필요로 한다. 예를 들어, 서열분석 화학반응의 개선들은 새로운 데이터를 정확하게 스코어링하기 위해 품질 테이블 재교정을 필요로 하는데, 이는 상당한 양의 프로세싱 시간 및 계산 리소스들을 소비한다.

신경 네트워크 기반 품질 스코어링

품질 예측기 값들 또는 품질 테이블들을 사용하지 않고, 대신에, 잘-교정된 신경 네트워크들의 예측들에 대한 신뢰도로부터 품질 스코어들을 추론하는 품질 스코어링에 대한 신경 네트워크 기반 기법들을 개시한다. 신경 네트워크들의 콘텍스트에서, "교정"은 주관적인 예측들과 경험적 장기간 빈도(long-run frequency)들 사이의 일관성 또는 상관을 지칭한다. 이는 확실성의 가장 흔한 개념이다: 신경 네트워크가, 시간의 90%에서, 특정 표지가 정확한 표지임을 주장하는 경우, 평가 동안, 90%가 정확할 확률이 주어지면, 모든 표지들 중 90%는 정확한 표지여야 한다. 교정은 정확도에 대한 직교 관심사항이라는 것에 유의한다: 신경 네트워크의 예측들은 정확할 수 있지만, 또한 잘못 교정될 수도 있다.

개시된 신경 네트워크들은 잘-교정되는데, 그 이유는 그들이 현실 세계 서열분석 런들의 염기 호출 도메인을 적절하게 모델링하는 다양한 서열분석 특성들을 갖는 대규모 트레이닝 세트들에 대해 트레이닝되기 때문이다. 특히, 다양한 서열분석 플랫폼들, 서열분석 기구들, 서열분석 프로토콜들, 서열분석 화학반응들, 서열분석 시약들, 클러스터 밀도들, 및 플로우 셀들로부터 획득된 서열분석 이미지들은 트레이닝 예들로서 사용되어, 신경 네트워크들을 트레이닝시킨다. 다른 구현예들에서, 상이한 염기 호출 및 품질 스코어링 모델들이 상이한 서열분석 플랫폼들, 서열분석 기구들, 서열분석 프로토콜들, 서열분석 화학반응들, 서열분석 시약들, 클러스터 밀도들, 및/또는 플로우 셀들에 대해 각각 사용된다.

4개의 염기 호출 클래스들(A, C, T, G) 각각에 대해, 다수의 서열분석 이미지들이, 넓은 범위의 서열분석 조건들 하에서 각자의 염기 호출 클래스를 대표하는 세기 패턴들을 식별하는 트레이닝 예들로서 사용된다. 이는, 이어서, 신경 네트워크들의 분류 능력들을 트레이닝에 존재하지 않는 새로운 클래스들로 확장시킬 필요성을 제거한다. 더욱이, 각각의 트레이닝 예는 판독물들을 적절한 참조들에 정렬하는 것에 기초하여 대응하는 실측 자료로 정확하게 표지된다. 그 결과는, 예측들에 대한 신뢰도가, 하기에 수학적으로 표현되는, 품질 스코어링에 대한 확실성 척도로서 해석될 수 있는 잘-교정된 신경 네트워크들이다.

는 염기 호출 클래스들 A, C, T, 및 G에 대한 클래스 라벨들의 세트를 표기하고, X는 입력들의 공간을 표기한다고 하자.

는 개시된 신경 네트워크들 중 하나가 입력

에 대해 예측하는 확률 분포를 표기하고,

는 신경 네트워크의 파라미터들을 표기한다고 하자. 정확한 표지

를 갖는 트레이닝 예

에 대해, 신경 네트워크는 표지

를 예측한다. 예측은,

경우에 정확도 스코어

를 얻고, 그렇지 않은 경우에 0을 얻고, 신뢰도 스코어

를 얻는다.

신경 네트워크

는 데이터 분포 D에 걸쳐서 잘-교정되어 있는데, 그 이유는 모든

및

에 걸쳐서,

인 확률이 α이기 때문이다. 예를 들어, D로부터의 샘플 중, 각각 신뢰도 0.8을 갖는100개의 예측들이 주어지면, 80개가 신경 네트워크

에 의해 정확하게 분류된다. 더 공식적으로,

는 D 상에서 신경 네트워크

의 예측들의 r 및 c 값들에 걸친 분포를 표기하고,

로서 표현되며, 여기서

는 α 근처의 0이 아닌 작은 구간을 표기한다.

잘-교정된 신경 네트워크들이 다양한 트레이닝 세트들에 대해 트레이닝되기 때문에, 품질 예측기 값들 또는 품질 테이블들과 달리, 이들은 기구 구성들 및 화학 버전들에 특정적이지 않다. 이는 2개의 이점들을 갖는다. 첫째, 상이한 유형들의 서열분석 기구들에 대해, 잘-교정된 신경 네트워크들은 별개의 교정 프로세스들로부터 상이한 품질 테이블들을 도출할 필요성을 제거한다. 둘째, 동일한 서열분석 기구에 대해, 이들은 서열분석 기구의 특성들이 변화할 때의 재교정의 필요성을 제거한다. 더 많은 상세사항들은 하기와 같다.

소프트맥스 신뢰도 확률들로부터의 품질 스코어들의 추론

제1 잘-교정된 신경 네트워크는, 서열분석 이미지들(108)로부터 도출된 입력 데이터를 프로세싱하고, 염기가 A, C, T, 및 G인 것에 대한 염기 호출 신뢰도 확률들을 생성하는 신경 네트워크 기반 염기 호출자(218)이다. 염기 호출 신뢰도 확률들은 또한 가능성들 또는 분류 스코어들로 간주될 수 있다. 하나의 구현예에서, 신경 네트워크 기반 염기 호출자(218)는 소프트맥스 함수를 사용하여, 소프트맥스 스코어들로서 염기 호출 신뢰도 확률들을 생성한다.

품질 스코어들은 신경 네트워크 기반 염기 호출자(218)의 소프트맥스 함수에 의해 생성된 염기 호출 신뢰도 확률들로부터 추론되는데, 그 이유는 소프트맥스 스코어들이 교정되고(즉, 그들이 실측 자료 정확도 가능성을 표현함), 따라서, 품질 스코어들에 자연스럽게 대응하기 때문이다.

트레이닝 동안 신경 네트워크 기반 염기 호출자(218)에 의해 생성된 염기 호출 신뢰도 확률들의 세트를 선택하고 그들의 염기 호출 에러율(또는 염기 호출 정확률)을 결정함으로써, 염기 호출 신뢰도 확률들과 품질 스코어들 사이의 대응성을 증명한다.

따라서, 예를 들어, 신경 네트워크 기반 염기 호출자(218)에 의해 생성된 염기 호출 신뢰도 확률 "0.90"을 선택한다. 신경 네트워크 기반 염기 호출자(218)가 0.90 소프트맥스 스코어로 염기 호출 예측을 행했을 때 다수의(예컨대, 10000 내지 1000000 범위의) 인스턴스들을 취한다. 다수의 인스턴스들이 확인 세트 또는 테스트 세트 중 어느 하나로부터 획득될 수 있다. 이어서, 다수의 인스턴스들 중 각자의 인스턴스들과 연관된 대응하는 실측 자료 염기 호출들에 대한 비교에 기초하여, 다수의 인스턴스들 중 얼마나 많은 인스턴스들에서 염기 호출 예측이 정확했는지를 결정한다.

염기 호출이 다수의 인스턴스들의 90%에서 정확하게 예측되었고, 착오호출(miscall)이 10%였음을 관찰한다. 이는, 0.90 소프트맥스 스코어에 대해, 염기 호출 에러율이 10%이고, 염기 호출 정확률이 90%이며, 이는 결국 품질 스코어 Q10에 대응한다는 것을 의미한다(상기 표 참조). 유사하게, 0.99, 0.999, 0.9999, 0.99999, 및 0.999999와 같은 다른 소프트맥스 스코어들에 대해, 각각 품질 스코어들 Q20, Q30, Q40, Q50, 및 Q60과의 대응성을 관찰한다. 이는 도 59a에 예시되어 있다. 다른 구현예들에서, 소프트맥스 스코어들과 품질 스코어들, 예컨대 Q9, Q11, Q12, Q23, Q25, Q29, Q37, 및 Q39 사이의 대응성을 관찰한다.

또한, 비닝된 품질 스코어들과의 대응성을 관찰한다. 예를 들어, 0.80 소프트맥스 스코어는 비닝된 품질 스코어 Q06에 대응하고, 0.95 소프트맥스 스코어는 비닝된 품질 스코어 Q15에 대응하고, 0.993 소프트맥스 스코어는 비닝된 품질 스코어 Q22에 대응하고, 0.997 소프트맥스 스코어는 비닝된 품질 스코어 Q27에 대응하고, 0.9991 소프트맥스 스코어는 비닝된 품질 스코어 Q33에 대응하고, 0.9995 소프트맥스 스코어는 비닝된 품질 스코어 Q37에 대응하고, 0.9999 소프트맥스 스코어는 비닝된 품질 스코어 Q40에 대응한다. 이는 도 59b에 예시되어 있다.

본 명세서에 사용되는 샘플 크기는 작은 샘플 문제들을 피하기 위해 크고, 예를 들어 10000 내지 1000000의 범위일 수 있다. 일부 구현예들에서, 염기 호출 에러율들(또는 염기 호출 정확률들)을 결정하는 데 사용되는 인스턴스들의 샘플 크기는 평가되는 소프트맥스 스코어에 기초하여 선택된다. 예를 들어, 0.99 소프트맥스 스코어에 대해, 샘플은 100개의 인스턴스들을 포함하고, 0.999 소프트맥스 스코어에 대해, 샘플은 1000개의 인스턴스들을 포함하고, 0.9999 소프트맥스 스코어에 대해, 샘플은 10000개의 인스턴스들을 포함하고, 0.99999의 소프트맥스 스코어에 대해, 샘플은 100000개의 인스턴스들을 포함하고, 0.999999의 소프트맥스 스코어에 대해, 샘플은 1000000개의 인스턴스들을 포함한다.

소프트맥스와 관련하여, 소프트맥스는 멀티클래스 분류를 위한 출력 활성화 함수이다. 공식적으로, 소위 소프트맥스 분류기를 트레이닝시키는 것은 진정한 분류기라기보다는 클래스 확률로의 회귀이며, 이는 그것이 클래스를 반환하는 것이 아니라 오히려 각각의 클래스의 가능성의 신뢰도 예측이기 때문이다. 소프트맥스 함수는 값들의 클래스를 취하고, 이들을 1로 합산하는 확률들로 변환한다. 소프트맥스 함수는 0 내지 1의 범위 내의 실제 값들의 K-차원 벡터에 대한 임의의 실제 값들의 K-차원 벡터를 스쿼싱한다. 따라서, 소프트맥스 함수를 사용하는 것은, 출력이 유효한 지수적으로 정규화된 확률 질량 함수(비-음성이고, 1로 합산함)인 것을 보장한다.

가 벡터

의 i번째 요소인 것으로 간주한다.

(

, 여기서

는 길이 n의 벡터이고, 여기서 n은 분류에 있어서의 클래스들의 수이다.) 이들 요소들은 0 내지 1의 값들을 갖고, 1로 합산하여, 그들이 유효 확률 분포를 표현하게 한다.

예시적인 소프트맥스 활성화 함수(5706)가 도 57에 도시되어 있다. 소프트맥스(5706)는

로서 3개의 클래스들에 적용된다. 3개의 출력들이 항상 1로 합산된다는 것에 유의한다. 따라서, 이들은 이산 확률 질량 함수를 한정한다.

분류에 사용될 때,

는 클래스 i에 있는 확률을 제공한다.

명칭 "소프트맥스"는 다소 혼란스러울 수 있다. 이 함수는 최대 함수보다 argmax 함수와 더 밀접하게 관련된다. 용어 "소프트"는 소프트맥스 함수가 연속적이고 구별가능하다는 사실로부터 유래한다. 그의 결과가 원-핫 벡터(one-hot vector)로서 표현되는 argmax 함수는 연속적이거나 구별가능하지 않다. 따라서, 소프트맥스 함수는 argmax의 "소프트형" 버전을 제공한다. 아마도, 소프트맥스 함수 "softargmax"를 호출하는 것이 더 좋을 것이지만, 현재 이름은 확립된 관례이다.

도 57은 품질 스코어링을 위해 신경 네트워크 기반 염기 호출자(218)의 염기 호출 신뢰도 확률들(3004)을 선택(5700)하는 하나의 구현예를 도시한다. 신경 네트워크 기반 염기 호출자(218)의 염기 호출 신뢰도 확률들(3004)은 분류 스코어들(예컨대, 소프트맥스 스코어들 또는 시그모이드 스코어들) 또는 회귀 스코어들일 수 있다. 하나의 구현예에서, 염기 호출 신뢰도 확률들(3004)은 트레이닝(3000) 동안 생성된다.

일부 구현예들에서, 선택(5700)은 양자화에 기초하여 행해지는데, 이는 염기 호출 신뢰도 확률들(3004)에 액세스하고 양자화된 분류 스코어들(5704)을 생성하는 양자화기(5702)에 의해 수행된다. 양자화된 분류 스코어들(5704)은 임의의 실수일 수 있다. 하나의 구현예에서, 양자화된 분류 스코어들(5704)은

로서 정의된 선택 공식에 기초하여 선택된다 다른 구현예에서, 양자화된 분류 스코어들(5704)은

로서 정의된 선택 공식에 기초하여 선택된다

도 58은 신경 네트워크 기반 품질 스코어링(5800)의 하나의 구현예를 도시한다. 양자화된 분류 스코어들(5704) 각각에 대해, 염기 호출 에러율(5808) 및/또는 염기 호출 정확률(5810)은 그의 염기 호출 예측들(3004)을 대응하는 실측 자료 염기 호출들(3008)에 대해 (예컨대, 다양한 샘플 크기를 갖는 배치들에 걸쳐) 비교함으로써 결정된다. 비교는 비교기(5802)에 의해 수행되며, 이는 이어서 염기 호출 에러율 결정기(5804) 및 염기 호출 정확률 결정기(5806)를 포함한다.

이어서, 양자화된 분류 스코어들(5704)과 품질 스코어들 사이의 대응성을 확립하기 위해, 피팅 결정기(5812)에 의해, 양자화된 분류 스코어들(5704)과 그들의 염기 호출 에러율(5808)(및/또는 그들의 염기 호출 정확률(5810)) 사이에 피팅이 결정된다. 하나의 구현예에서, 피팅 결정기(5812)는 회귀 모델이다.

피팅에 기초하여, 품질 스코어들은 상관기(5814)에 의해, 양자화된 분류 스코어들(5704)과 상관된다.

도 59a 및 도 59b는 신경 네트워크 기반 염기 호출자(218)에 의해 이루어진 염기 호출 신뢰도 예측들과 품질 스코어들 사이의 대응성(5900)의 하나의 구현예를 도시한다. 신경 네트워크 기반 염기 호출자(218)의 염기 호출 신뢰도 확률들은 분류 스코어들(예컨대, 소프트맥스 스코어들 또는 시그모이드 스코어들) 또는 회귀 스코어들일 수 있다. 도 59a는 품질 스코어들에 대한 품질 스코어 대응성 스킴(5900a)이다. 도 59b는 비닝된 품질 스코어들에 대한 품질 스코어 대응성 스킴(5900a)이다.

추론

도 60은 추론(6000) 동안 신경 네트워크 기반 염기 호출자(218)에 의해 만들어진 염기 호출 신뢰도 예측들로부터 품질 스코어들을 추론하는 하나의 구현예를 도시한다. 신경 네트워크 기반 염기 호출자(218)의 염기 호출 신뢰도 확률들은 분류 스코어들(예컨대, 소프트맥스 스코어들 또는 시그모이드 스코어들) 또는 회귀 스코어들일 수 있다.

추론(6000) 동안, 예측된 염기 호출(6006)은 그의 염기 호출 신뢰도 확률(즉, (적색의) 최고 소프트맥스 스코어)이 가장 대응하는 품질 스코어(6008)를 할당받는다. 일부 구현예들에서, 품질 스코어 대응성(5900)은 품질 스코어 대응 스킴들(5900a, 5900b)을 검색함으로써 작성되고, 품질 스코어 추론자(6012)에 의해 조작될 수 있게 된다.

일부 구현예들에서, 순도 필터(6010)는, 그의 호출된 염기에 할당된 품질 스코어(6008), 또는 연속적인 염기 호출 사이클들에 걸친 평균 품질 스코어가 미리 설정된 임계치 미만으로 떨어질 때 주어진 클러스터의 염기 호출을 종료한다.

추론(6000)은 배칭과 같은 병렬화 기법들을 포함하는, 순방향 전파(6014)의 수백, 수천, 및/또는 수백만 개의 반복들을 포함한다. 추론(6000)은 (서열분석 이미지들(108)로부터 도출된 이미지 채널들 및/또는 보충 채널들(예컨대, 거리 채널들, 스케일링 채널)에서) 입력 데이터를 포함하는 추론 데이터(6002)에 대해 수행된다. 추론(6000)은 테스터(6004)에 의해 조작될 수 있게 된다.

염기 호출 품질의 직접 예측

제2 잘-교정된 신경 네트워크는, 서열분석 이미지들(108)로부터 도출된 입력 데이터를 프로세싱하고 품질 표시를 직접 생성하는 신경 네트워크 기반 품질 스코러(6102)이다.

하나의 구현예에서, 신경 네트워크 기반 품질 스코러(6102)는 다층 퍼셉트론(MLP)이다. 다른 구현예에서, 신경 네트워크 기반 품질 스코러(6102)는 피드포워드 신경 네트워크이다. 또 다른 구현예에서, 신경 네트워크 기반 품질 스코러(6102)는 완전 접속 신경 네트워크이다. 추가 구현예에서, 신경 네트워크 기반 품질 스코러(6102)는 완전 콘볼루션 신경 네트워크이다. 다른 추가 구현예에서, 신경 네트워크 기반 품질 스코러(6102)는 시맨틱 세그먼트화 신경 네트워크이다.

하나의 구현예에서, 신경 네트워크 기반 품질 스코러(6102)는 복수의 콘볼루션 층들을 갖는 콘볼루션 신경 네트워크(CNN)이다. 다른 구현예에서, 그것은 장단기 메모리 네트워크(LSTM), 양방향 LSTM(Bi-LSTM), 또는 게이트형 순환 유닛(GRU)과 같은 순환 신경 네트워크(RNN)이다. 또 다른 구현예에서, 그것은 CNN 및 RNN 둘 모두를 포함한다.

또 다른 구현예들에서, 신경 네트워크 기반 품질 스코러(6102)는 1D 콘볼루션, 2D 콘볼루션, 3D 콘볼루션, 4D 콘볼루션, 5D 콘볼루션, 확장형 또는 아트로스 콘볼루션, 전치 콘볼루션, 깊이별 분리가능 콘볼루션, 포인트별 콘볼루션, 1 × 1 콘볼루션, 그룹 콘볼루션, 편평형 콘볼루션, 공간 및 교차 채널 콘볼루션, 셔플 그룹형 콘볼루션, 공간 분리가능 콘볼루션, 및 디콘볼루션을 사용할 수 있다. 그것은 하나 이상의 손실 함수들, 예컨대 로지스틱 회귀(logistic regression)/로그(log) 손실, 다중클래스 교차-엔트로피(multi-class cross-entropy)/소프트맥스 손실, 이진 교차-엔트로피(binary cross-entropy) 손실, 평균 제곱 에러(mean-squared error) 손실, L1 손실, L2 손실, 평활한(smooth) L1 손실, 및 Huber 손실을 사용할 수 있다. 그것은 임의의 병렬성(parallelism), 효율성, 및 압축 스킴들, 예컨대 TFRecords, 압축 인코딩(예컨대, PNG), 샤딩(sharding), 맵 변환을 위한 병렬 호출, 배칭(batching), 프리페칭(prefetching), 모델 병렬성, 데이터 병렬성, 및 동기식/비동기식 SGD를 사용할 수 있다. 그것은 업샘플링 층, 다운샘플링 층, 순환 접속, 게이트 및 게이트형 메모리 유닛(예컨대, LSTM 또는 GRU), 잔차 블록, 잔차 접속, 하이웨이 접속, 스킵 접속, 핍홀(peephole) 접속, 활성화 함수(예컨대, ReLU(rectifying linear unit), 리키 ReLU(leaky ReLU), ELU(exponential liner unit), 시그모이드 및 tanh(hyperbolic tangent)와 같은 비선형 변환 함수), 배치 정규화 층, 규칙화 층, 드롭아웃, 풀링 층(예컨대, 최대 또는 평균 풀링), 글로벌 평균 풀링 층, 및 감쇠 메커니즘을 포함할 수 있다.

일부 구현예들에서, 신경 네트워크 기반 품질 스코러(6102)는 신경 네트워크 기반 염기 호출자(218)와 동일한 아키텍처를 갖는다.

입력 데이터는 서열분석 이미지들(108)로부터 도출된 이미지 채널들 및/또는 보충 채널들(예컨대, 거리 채널들, 스케일링 채널)을 포함할 수 있다. 신경 네트워크 기반 품질 스코러(6102)는 입력 데이터를 프로세싱하고, 입력 데이터의 대안의 표현을 생성한다. 대안의 표현은 일부 구현예들에서 콘볼루션된 표현이고, 다른 구현예들에서 은닉된 표현이다. 이어서, 대안의 표현은 출력을 생성하도록 출력 층에 의해 프로세싱된다. 출력은 품질 표시를 생성하는 데 사용된다.

하나의 구현예에서, 동일한 입력 데이터가 신경 네트워크 기반 염기 호출자(218) 및 신경 네트워크 기반 품질 스코러(6102)로 공급되어, (i) 신경 네트워크 기반 염기 호출자(218)로부터의 염기 호출 및 (ii) 신경 네트워크 기반 품질 스코러(6102)로부터의 대응하는 품질 표시를 생성한다. 일부 구현예들에서, 신경 네트워크 기반 염기 호출자(218) 및 신경 네트워크 기반 품질 스코러(6102)는 말단-대-말단 역전파로 공동으로 트레이닝된다.

하나의 구현예에서, 신경 네트워크 기반 품질 스코러(6102)는 특정 서열분석 사이클에 대해 단일 표적 클러스터에 대한 품질 표시를 출력한다. 다른 구현예에서, 그것은 특정 서열분석 사이클에 대해 복수의 표적 클러스터들 내의 각각의 표적 클러스터에 대한 품질 표시를 출력한다. 또 다른 구현예에서, 그것은 복수의 서열분석 사이클들 내의 각각의 서열분석 사이클에 대해 복수의 표적 클러스터들 내의 각각의 표적 클러스터에 대한 품질 표시를 출력하여, 이에 의해, 각각의 표적 클러스터에 대한 품질 표시 서열을 생성한다.

하나의 구현예에서, 신경 네트워크 기반 품질 스코러(6102)는, 서열분석 이미지들(108)로부터의 데이터를 포함하는 트레이닝 예들에 대해 트레이닝되고 염기 호출 품질 실측 자료들로 표지되는 콘볼루션 신경 네트워크이다. 신경 네트워크 기반 품질 스코러(6102)는 콘볼루션 신경 네트워크(6102)의 염기 호출 품질 예측들(6104)을 염기 호출 품질 실측 자료들(6108)과 점진적으로 매칭시키는 역전파 기반 기울기 업데이트 기법을 사용하여 트레이닝된다. 일부 구현예들에서, 그것이 잘못된 염기 호출이었던 경우, 염기를 0으로 표지하고, 그렇지 않은 경우, 1로 표지한다. 결과적으로, 출력은 에러 확률에 대응한다. 하나의 구현예에서, 이는 서열 콘텍스트를 입력 특징들로서 사용하는 필요성을 제거한다.

콘볼루션 신경 네트워크(6102)의 입력 모듈은 하나 이상의 클러스터들에 대해 호출되는 하나 이상의 염기들의 품질을 결정하기 위해 하나 이상의 서열분석 사이클들에서 캡처된 서열분석 이미지들(108)로부터의 데이터를 콘볼루션 신경 네트워크(6102)로 공급한다.

콘볼루션 신경 네트워크(6102)의 출력 모듈은 콘볼루션 신경 네트워크(6102)에 의한 분석을, 하나 이상의 클러스터들에 대해 호출되는 하나 이상의 염기들의 품질을 식별하는 출력(6202)으로 변환한다.

하나의 구현예에서, 출력 모듈은 품질 상태가 고품질, 중간 품질(점선들로 나타내진 바와 같이, 선택적), 및 저품질일 가능성들을 생성하는 소프트맥스 분류 층을 추가로 포함한다. 다른 구현예에서, 출력 모듈은 품질 상태가 고품질 및 저품질일 가능성들을 생성하는 소프트맥스 분류 층을 추가로 포함한다. 당업자는 품질 스코어들을 상이하게 그리고 식별가능하게 버킷(bucket)하는 다른 클래스들이 사용될 수 있음을 이해할 것이다. 소프트맥스 분류 층은 품질이 복수의 품질 스코어들을 할당받는 것에 대한 가능성들을 생성한다. 가능성들에 기초하여, 품질은 복수의 품질 스코어들 중 하나로부터의 품질 스코어를 할당받는다. 품질 스코어들은 염기 호출 에러 확률들에 대수적으로 기초한다. 복수의 품질 스코어들은 Q6, Q10, Q15, Q20, Q22, Q27, Q30, Q33, Q37, Q40, 및 Q50을 포함한다. 다른 구현예에서, 출력 모듈은 품질을 식별하는 연속 값들을 생성하는 회귀 층을 추가로 포함한다.

일부 구현예들에서, 신경 네트워크 기반 품질 스코러(6102)는, 서열분석 이미지들(108)로부터의 데이터를 호출된 염기들에 대한 품질 예측기 값들로 보충하고, 서열분석 이미지들로부터의 데이터와 함께 품질 예측기 값들을 콘볼루션 신경 네트워크(6102)에 공급하는 보충 입력 모듈을 추가로 포함한다.

일부 구현예들에서, 품질 예측기 값들은 온라인 중첩, 순수도, 페이징, start5, 헥사머(hexamer) 스코어, 모티프 누적, 엔디니스(endiness), 대략적인 호모폴리머, 세기 감쇠, 끝에서 두 번째 순도, 배경과의 신호 중첩(signal overlap with bac㎏round, SOWB), 및/또는 시프트된 순수도 G 조정을 포함한다. 다른 구현예들에서, 품질 예측기 값들은 피크 높이, 피크 폭, 피크 위치, 상대적 피크 위치들, 피크 높이 양(ration), 피크 간격 양, 및/또는 피크 대응성을 포함한다. 품질 예측기 값들에 관한 추가 세부사항들은, 마치 본 명세서에 완전히 기술된 것처럼 참고로 포함되는 미국 특허 공개 제2018/0274023호 및 제2012/0020537호에서 찾을 수 있다.

트레이닝

도 61은 서열분석 이미지들(108)로부터 도출된 입력 데이터를 프로세싱하고 품질 표시들을 직접 생성하기 위해 신경 네트워크 기반 품질 스코러(6102)를 트레이닝(6100)시키는 하나의 구현예를 도시한다. 신경 네트워크 기반 품질 스코러(6102)는, 예측된 품질 표시들(6104)을 정확한 품질 표시들(6108)에 대해 비교하고 그 비교에 기초하여 에러(6106)를 계산하는 역전파 기반 기울기 업데이트 기법을 사용하여 트레이닝된다. 이어서, 에러(6106)는, 역방향 전파(6110) 동안 신경 네트워크 기반 품질 스코러(6102)의 가중치들 및 파라미터들에 적용되는 기울기들을 계산하는 데 사용된다. 트레이닝(6100)은 ADAM과 같은 확률적 기울기 업데이트 알고리즘을 사용하여 트레이너(1510)에 의해 조작될 수 있게 된다.

트레이너(1510)는 트레이닝 데이터(6112)(서열분석 이미지들(108)로부터 도출됨)를 사용하여, 예측된 품질 표시들을 생성하는 순방향 전파(6116) 및 에러(6106)에 기초하여 가중치들 및 파라미터들을 업데이트하는 역방향 전파(6110)의 수천 및 수백만 회의 반복들에 걸쳐서 신경 네트워크 품질 스코러(6102)를 트레이닝시킨다. 일부 구현예들에서, 트레이닝 데이터(6112)는 품질 예측기 값들(6114)로 보충된다. 트레이닝(6100)에 관한 추가 세부사항들은 제목이 "Deep Learning Tools"인 첨부물에서 찾을 수 있다.

추론

도 62는 추론(6200) 동안 신경 네트워크 기반 품질 스코러(6102)의 출력들로서 품질 표시들을 직접 생성하는 하나의 구현예를 도시한다. 추론(6200)은 배칭과 같은 병렬화 기법들을 포함하는, 순방향 전파(6208)의 수백, 수천, 및/또는 수백만 개의 반복들을 포함한다. 추론(6200)은 (서열분석 이미지들(108)로부터 도출된 이미지 채널들 및/또는 보충 채널들(예컨대, 거리 채널들, 스케일링 채널)에서) 입력 데이터를 포함하는 추론 데이터(6204)에 대해 수행된다. 일부 구현예들에서, 추론 데이터(6204)는 품질 예측기 값들(6206)로 보충된다. 추론(6200)은 테스터(6210)에 의해 조작될 수 있게 된다.

데이터 프리-프로세싱

일부 구현예들에서, 개시된 기술은, 이미지 데이터(202) 내의 픽셀들에 적용되고 프리-프로세싱된 이미지 데이터(202p)를 생성하는 프리-프로세싱 기법들을 사용한다. 그러한 구현예들에서, 이미지 데이터(202) 대신에, 프리-프로세싱된 이미지 데이터(202p)는 신경 네트워크 기반 염기 호출자(218)로의 입력으로서 제공된다. 데이터 프리-프로세싱은 데이터 프리-프로세서(6602)에 의해 조작될 수 있게 되는데, 이는 이어서 데이터 정규화기(6632) 및 데이터 증강기(6634)를 포함할 수 있다.

도 66은 데이터 정규화 및 데이터 증강을 포함할 수 있는 데이터 프리-프로세싱의 상이한 구현예들을 도시한다.

데이터 정규화

일 구현예에서, 데이터 정규화는 이미지 패치 단위로 이미지 데이터(202) 내의 픽셀들에 대해 적용된다. 이는 이미지 패치 내의 픽셀들의 세기 값들을 정규화하여, 생성된 정규화된 이미지 패치의 픽셀 세기 히스토그램이 0의 5번째 백분위수 및 1의 95번째 백분위수를 갖도록 하는 것을 포함한다. 즉, 정규화된 이미지 패치에서, (i) 픽셀들의 5%는 0 미만의 세기 값들을 갖고, (ii) 픽셀들의 다른 5%는 1 초과의 세기 값들을 갖는다. 이미지 데이터(202)의 각자의 이미지 패치들은 개별적으로 정규화될 수 있거나, 또는 이미지 데이터(202)는 모두 한꺼번에 정규화될 수 있다. 그 결과는, 프리-프로세싱된 이미지 데이터(202p)의 하나의 예인 정규화된 이미지 패치들(6616)이다. 데이터 정규화는 데이터 정규화기(6632)에 의해 조작될 수 있게 된다.

데이터 증강

하나의 구현예에서, 데이터 증강은 이미지 데이터(202) 내의 픽셀들의 세기 값들에 대해 적용된다. 이는 (i) 이미지 데이터(202) 내의 모든 픽셀들의 세기 값들을 동일한 스케일링 인자와 곱하는 것, 및 (ii) 이미지 데이터(202) 내의 모든 픽셀들의 스케일링된 세기 값들에 동일한 오프셋 값을 더하는 것을 포함한다. 단일 픽셀에 대해, 이는 하기 공식에 의해 표현될 수 있다:

증강 픽셀 세기(API) = aX + b

여기서 a는 스케일링 인자이고, X는 오리지널 픽셀 세기이고, b는 오프셋 값이고, aX는 스케일링된 픽셀 세기임

그 결과는, 또한, 프리-프로세싱된 이미지 데이터(202p)의 하나의 예인 증강된 이미지 패치들(6626)이다. 데이터 증강은 데이터 증강기(6634)에 의해 조작될 수 있게 된다.

도 67은, 신경 네트워크 기반 염기 호출자(218)가 박테리아 데이터에 대해 트레이닝되고 인간 데이터에 대해 테스트될 때, 도 66의 데이터 정규화 기법(DeepRTA(정상)) 및 데이터 증강 기법(DeepRTA(증강))이 염기 호출 에러 비율을 감소시킨다는 것을 도시하며, 여기서 박테리아 데이터 및 인간 데이터는 동일한 검정을 공유한다(예컨대, 둘 모두가 인트론 데이터를 포함함).

도 68은, 신경 네트워크 기반 염기 호출자(218)가 비-엑손 데이터(예컨대, 인트론 데이터)에 대해 트레이닝되고 엑손 데이터에 대해 테스트될 때, 도 66의 데이터 정규화 기법(DeepRTA(정상)) 및 데이터 증강 기법(DeepRTA(증강))이 염기 호출 에러 비율을 감소시킨다는 것을 도시한다.

다시 말하면, 도 66의 데이터 정규화 및 데이터 증강 기법들은 신경 네트워크 기반 염기 호출자(218)가 트레이닝 시에 보이지 않은 데이터에 대해 더 잘 일반화될 수 있게 하고, 따라서 오버피팅(overfitting)을 감소시킨다.

하나의 구현예에서, 데이터 증강은 트레이닝 및 추론 둘 모두 동안 적용된다. 다른 구현예에서, 데이터 증강은 트레이닝 동안에만 적용된다. 또 다른 구현예에서, 데이터 증강은 추론 동안에만 적용된다.

서열분석 시스템

도 63a 및 도 63b는 서열분석 시스템(6300A)의 하나의 구현예를 도시한다. 서열분석 시스템(6300A)은 구성가능한 프로세서(6346)를 포함한다. 구성가능한 프로세서(6346)는 본 명세서에 개시된 염기 호출 기법들을 구현한다. 서열분석 시스템은 "서열분석기"로도 지칭된다.

서열분석 시스템(6300A)은 생물학적 또는 화학적 물질 중 적어도 하나에 관련된 임의의 정보 또는 데이터를 획득하도록 동작할 수 있다. 일부 구현예들에서, 서열분석 시스템(6300A)은 벤치탑 디바이스 또는 데스크톱 컴퓨터와 유사할 수 있는 워크스테이션이다. 예를 들어, 원하는 반응들을 이행하기 위한 시스템들 및 컴포넌트들의 대부분(또는 전부)이 공통 하우징(6302) 내에 있을 수 있다.

특정 구현예들에서, 서열분석 시스템(6300A)은, 드 노보 서열분석(de novo sequencing), 전체 게놈들 또는 표적 게놈 영역들의 재서열분석, 및 메타게노믹스(metagenomics)를 포함하지만 이들로 제한되지 않는 다양한 응용들을 위해 구성된 핵산 서열분석 시스템이다. 서열분석기는 또한 DNA 또는 RNA 분석을 위해 사용될 수 있다. 일부 구현예들에서, 서열분석 시스템(6300A)은, 또한, 바이오센서 내의 반응 사이트들을 생성하도록 구성될 수 있다. 예를 들어, 서열분석 시스템(6300A)은 샘플을 수용하도록, 그리고 샘플로부터 도출된 클론 증폭된 핵산의 표면 부착 클러스터들을 생성하도록 구성될 수 있다. 각각의 클러스터는 바이오센서 내의 반응 사이트를 구성하거나 그의 일부일 수 있다.

예시적인 서열분석 시스템(6300A)은 바이오센서(6312) 내에서 원하는 반응들을 수행하기 위해 바이오센서(6312)와 상호작용하도록 구성된 시스템 리셉터클 또는 인터페이스(6310)를 포함할 수 있다. 도 63a에 대한 하기의 설명에서, 바이오센서(6312)는 시스템 리셉터클(6310) 내로 로딩된다. 그러나, 바이오센서(6312)를 포함하는 카트리지는 시스템 리셉터클(6310) 내로 삽입될 수 있고, 일부 상태들에서, 카트리지는 일시적으로 또는 영구적으로 제거될 수 있다는 것이 이해된다. 전술된 바와 같이, 카트리지는, 특히, 유체 제어 및 유체 저장 컴포넌트들을 포함할 수 있다.

특정 구현예들에서, 서열분석 시스템(6300A)은 바이오센서(6312) 내에서 다수의 병렬 반응들을 수행하도록 구성된다. 바이오센서(6312)는 원하는 반응들이 발생할 수 있는 하나 이상의 반응 사이트들을 포함한다. 반응 사이트들은, 예를 들어, 바이오센서의 고체 표면에 고정화되거나, 또는 바이오센서의 대응하는 반응 챔버들 내에 위치되는 비드들(또는 다른 이동가능한 기재들)에 고정화될 수 있다. 반응 사이트들은, 예를 들어, 클론 증폭된 핵산의 클러스터들을 포함할 수 있다. 바이오센서(6312)는 솔리드 스테이트 이미징 디바이스(예컨대, CCD 또는 CMOS 이미저) 및 이에 탑재되는 플로우 셀을 포함할 수 있다. 플로우 셀은, 서열분석 시스템(6300A)으로부터 용액을 수용하고 그 용액을 반응 사이트들을 향해 지향시키는 하나 이상의 플로우 채널들을 포함할 수 있다. 선택적으로, 바이오센서(6312)는 열 에너지를 플로우 채널 내로 또는 플로우 채널 밖으로 이송하기 위한 열 요소와 결합하도록 구성될 수 있다.

서열분석 시스템(6300A)은 생물학적 또는 화학적 분석을 위한 미리결정된 방법 또는 검정 프로토콜을 수행하기 위해 서로 상호작용하는 다양한 컴포넌트들, 조립체들, 및 시스템들(또는 서브시스템들)을 포함할 수 있다. 예를 들어, 서열분석 시스템(6300A)은 서열분석 시스템(6300A)의 다양한 컴포넌트들, 조립체들, 및 서브시스템들, 및 또한 바이오센서(6312)와 통신할 수 있는 시스템 제어기(6306)를 포함한다. 예를 들어, 시스템 리셉터클(6310)에 더하여, 서열분석 시스템(6300A)은, 또한, 서열분석 시스템(6300A)의 유체 네트워크 및 바이오센서(6312) 전체를 통해 유체의 유동을 제어하기 위한 유체 제어 시스템(6308); 생물검정 시스템에 의해 사용될 수 있는 모든 유체들(예컨대, 기체 또는 액체류)을 보유하도록 구성되어 있는 유체 저장 시스템(6314); 유체 네트워크, 유체 저장 시스템(6314), 및/또는 바이오센서(6312) 내의 유체의 온도를 조절할 수 있는 온도 제어 시스템(6304); 및 바이오센서(6312)를 조명하도록 구성되어 있는 조명 시스템(6316)을 포함할 수 있다. 전술된 바와 같이, 바이오센서(6312)를 갖는 카트리지가 시스템 리셉터클(6310) 내로 로딩되는 경우, 카트리지는 또한 유체 제어 및 유체 저장 컴포넌트들을 포함할 수 있다.

또한, 도시된 바와 같이, 서열분석 시스템(6300A)은 사용자와 상호작용하는 사용자 인터페이스(6318)를 포함할 수 있다. 예를 들어, 사용자 인터페이스(6318)는 사용자로부터의 정보를 디스플레이 또는 요청하기 위한 디스플레이(6320) 및 사용자 입력들을 수신하기 위한 사용자 입력 디바이스(6322)를 포함할 수 있다. 일부 구현예들에서, 디스플레이(6320) 및 사용자 입력 디바이스(6322)는 동일한 디바이스이다. 예를 들어, 사용자 인터페이스(6318)는 개인의 터치의 존재를 검출하도록, 그리고 또한 디스플레이 상의 터치의 위치를 식별하도록 구성된 터치 감응형 디스플레이를 포함할 수 있다. 그러나, 마우스, 터치패드, 키보드, 키패드, 핸드헬드 스캐너, 음성 인식 시스템, 모션 인식 시스템 등과 같은 다른 사용자 입력 디바이스들(6322)이 사용될 수 있다. 아래에서 더 상세히 논의되는 바와 같이, 서열분석 시스템(6300A)은 원하는 반응들을 수행하기 위해, 바이오센서(6312)(예컨대, 카트리지의 형태로 있음)를 포함하는 다양한 컴포넌트들과 통신할 수 있다. 서열분석 시스템(6300A)은, 또한, 사용자에게 원하는 정보를 제공하기 위해 바이오센서로부터 획득된 데이터를 분석하도록 구성될 수 있다.

시스템 제어기(6306)는 마이크로제어기들을 사용하는 시스템들, RISC(reduced instruction set computer), ASIC(application specific integrated circuit), FPGA(field programmable gate array), CGRA(coarse-grained reconfigurable architecture), 논리 회로, 및 본 명세서에 기술된 기능들을 실행시킬 수 있는 임의의 다른 회로 또는 프로세서를 포함하는, 임의의 프로세서 기반 또는 마이크로프로세서 기반 시스템을 포함할 수 있다. 상기의 예들은 단지 예시적인 것이며, 따라서, 어떠한 방식으로든, 용어 "시스템 제어기"의 정의 및/또는 의미를 제한하도록 의도되지 않는다. 예시적인 구현예에서, 시스템 제어기(6306)는 검출 데이터를 획득하는 것 및 분석하는 것 중 적어도 하나를 위해 하나 이상의 저장 요소들, 메모리들, 또는 모듈들에 저장된 명령어들의 세트를 실행시킨다. 검출 데이터는 픽셀 신호들의 복수의 시퀀스들을 포함하여, 수백만 개의 센서들(또는 픽셀들) 각각으로부터의 픽셀 신호들의 시퀀스가 많은 염기 호출 사이클들에 걸쳐서 검출될 수 있게 할 수 있다. 저장 요소들은 서열분석 시스템(6300A) 내의 정보 소스들 또는 물리적 메모리 요소들의 형태로 있을 수 있다.

명령어들의 세트는 본 명세서에 기술된 다양한 구현예들의 방법들 및 프로세스들과 같은 특정 동작들을 수행하도록 서열분석 시스템(6300A) 또는 바이오센서(6312)에 지시하는 다양한 커맨드들을 포함할 수 있다. 명령어들의 세트는, 유형적(tangible)인 비일시적 컴퓨터 판독가능 매체 또는 매체들의 일부를 형성할 수 있는 소프트웨어 프로그램의 형태로 있을 수 있다. 본 명세서에 사용되는 바와 같이, 용어들 "소프트웨어" 및 "펌웨어"는 상호교환가능하며, RAM 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 및 비휘발성 RAM(NVRAM) 메모리를 포함한, 컴퓨터에 의한 실행을 위한 메모리에 저장된 임의의 컴퓨터 프로그램을 포함한다. 상기의 메모리 유형들은 단지 예시적이며, 따라서, 컴퓨터 프로그램의 저장을 위해 사용가능한 메모리의 유형들에 대한 제한은 아니다.

소프트웨어는 시스템 소프트웨어 또는 애플리케이션 소프트웨어와 같은 다양한 형태들로 있을 수 있다. 또한, 소프트웨어는 별개의 프로그램들의 집합의 형태, 또는 더 큰 프로그램 내의 프로그램 모듈 또는 프로그램 모듈의 일부분의 형태로 있을 수 있다. 소프트웨어는 또한 객체 지향 프로그래밍 형태의 모듈식 프로그래밍을 포함할 수 있다. 검출 데이터를 획득한 후에, 검출 데이터는 서열분석 시스템(6300A)에 의해 자동으로 프로세싱될 수 있거나, 사용자 입력들에 응답하여 프로세싱될 수 있거나, 또는 다른 프로세싱 기계에 의해 이루어진 요청(예컨대, 통신 링크를 통한 원격 요청)에 응답하여 프로세싱될 수 있다. 예시된 구현예에서, 시스템 제어기(6306)는 분석 모듈(6344)을 포함한다. 다른 구현예들에서, 시스템 제어기(6306)는 분석 모듈(6344)을 포함하지 않고, 대신에, 분석 모듈(6344)에 액세스한다(예컨대, 분석 모듈(6344)은 클라우드 상에서 개별적으로 호스팅될 수 있다).

시스템 제어기(6306)는 통신 링크들을 통해 서열분석 시스템(6300A)의 바이오센서(6312) 및 다른 컴포넌트들에 접속될 수 있다. 시스템 제어기(6306)는 또한 현장외(off-site) 시스템들 또는 서버들에 통신가능하게 접속될 수 있다. 통신 링크들은 유선, 코드, 또는 무선일 수 있다. 시스템 제어기(6306)는 사용자 인터페이스(6318) 및 사용자 입력 디바이스(6322)로부터 사용자 입력들 또는 커맨드들을 수신할 수 있다.

유체 제어 시스템(6308)은 유체 네트워크를 포함하며, 유체 네트워크를 통한 하나 이상의 유체들의 유동을 지향시키고 조절하도록 구성된다. 유체 네트워크는 바이오센서(6312) 및 유체 저장 시스템(6314)과 유체 연통할 수 있다. 예를 들어, 선택 유체들이, 제어된 방식으로, 유체 저장 시스템(6314)으로부터 인출되고 바이오센서(6312)로 지향될 수 있거나, 또는 유체들이 바이오센서(6312)로부터 인출되어, 예를 들어, 유체 저장 시스템(6314) 내의 폐기물 저장조를 향해 지향될 수 있다. 도시되어 있지 않지만, 유체 제어 시스템(6308)은 유체 네트워크 내의 유체들의 유량 또는 압력을 검출하는 유동 센서들을 포함할 수 있다. 센서들은 시스템 제어기(6306)와 통신할 수 있다.

온도 제어 시스템(6304)은 유체 네트워크, 유체 저장 시스템(6314) 및/또는 바이오센서(6312)의 상이한 영역들에서의 유체들의 온도를 조절하도록 구성된다. 예를 들어, 온도 제어 시스템(6304)은, 바이오센서(6312)와 인터페이싱하고 바이오센서(6312) 내의 반응 사이트들을 따라 유동하는 유체의 온도를 제어하는 서모사이클러(thermocycler)를 포함할 수 있다. 온도 제어 시스템(6304)은, 또한, 서열분석 시스템(6300A) 또는 바이오센서(6312)의 고체 요소들 또는 컴포넌트들의 온도를 조절할 수 있다. 도시되어 있지 않지만, 온도 제어 시스템(6304)은 유체의 온도를 검출하기 위한 센서 또는 다른 컴포넌트들을 포함할 수 있다. 센서들은 시스템 제어기(6306)와 통신할 수 있다.

유체 저장 시스템(6314)은 바이오센서(6312)와 유체 연통하고, 내부에서 원하는 반응을 이행하는 데 사용되는 다양한 반응 컴포넌트들 또는 반응물들을 저장할 수 있다. 유체 저장 시스템(6314)은, 또한, 유체 네트워크 및 바이오센서(6312)를 세척 또는 세정하기 위한 그리고 반응물들을 희석하기 위한 유체들을 저장할 수 있다. 예를 들어, 유체 저장 시스템(6314)은 샘플들, 시약들, 효소들, 다른 생체분자들, 완충 용액들, 수성 및 비극성 용액들 등을 저장하기 위한 다양한 저장조들을 포함할 수 있다. 더욱이, 유체 저장 시스템(6314)은, 또한, 바이오센서(6312)로부터 폐기물들을 수용하기 위한 폐기물 저장조들을 포함할 수 있다. 카트리지를 포함하는 구현예들에서, 카트리지는 유체 저장 시스템, 유체 제어 시스템, 또는 온도 제어 시스템 중 하나 이상을 포함할 수 있다. 따라서, 그러한 시스템들에 관한 것으로 본 명세서에 기술된 컴포넌트들 중 하나 이상은 카트리지 하우징 내에 포함될 수 있다. 예를 들어, 카트리지는 샘플들, 시약들, 효소들, 다른 생체분자들, 완충 용액들, 수성 및 비극성 용액들, 폐기물 등을 저장하기 위한 다양한 저장소들을 가질 수 있다. 이와 같이, 유체 저장 시스템, 유체 제어 시스템 또는 온도 제어 시스템 중 하나 이상이 카트리지 또는 다른 바이오센서를 통해 생물검정 시스템과 제거가능하게 결합될 수 있다.

조명 시스템(6316)은 바이오센서를 조명하기 위한 광원(예컨대, 하나 이상의 LED들) 및 복수의 광학 컴포넌트들을 포함할 수 있다. 광원들의 예들은 레이저, 아크 램프, LED, 또는 레이저 다이오드를 포함할 수 있다. 광학 컴포넌트들은, 예를 들어, 반사기, 다이크로익(dichroic), 빔 스플리터, 시준기, 렌즈, 필터, 웨지, 프리즘, 거울, 검출기 등일 수 있다. 조명 시스템을 사용하는 구현예들에서, 조명 시스템(6316)은 여기 광을 반응 사이트들로 지향시키도록 구성될 수 있다. 하나의 예로서, 형광단들은 광의 녹색 파장들에 의해 여기될 수 있는데, 이는 여기 광의 그러한 파장이 대략 532 nm일 수 있기 때문이다. 하나의 구현예에서, 조명 시스템(6316)은 바이오센서(6312)의 표면의 표면 법선에 평행한 조명을 생성하도록 구성된다. 다른 구현예에서, 조명 시스템(6316)은 바이오센서(6312)의 표면의 표면 법선에 대해 오프각(off-angle)인 조명을 생성하도록 구성된다. 또 다른 구현예에서, 조명 시스템(6316)은 일부 평행 조명 및 일부 오프각 조명을 포함한 복수의 각도들을 갖는 조명을 생성하도록 구성된다.

시스템 리셉터클 또는 인터페이스(6310)는 기계적 방식, 전기적 방식 및 유체 방식 중 적어도 하나로 바이오센서(6312)와 결합하도록 구성된다. 시스템 리셉터클(6310)은 바이오센서(6312)를 통한 유체의 유동을 용이하게 하기 위해 바이오센서(6312)를 원하는 배향으로 보유할 수 있다. 시스템 리셉터클(6310)은, 또한, 바이오센서(6312)와 결합하도록 구성된 전기 접촉부들을 포함하여, 서열분석 시스템(6300A)이 바이오센서(6312)와 통신하고/하거나 바이오센서(6312)에 전력을 제공할 수 있게 할 수 있다. 또한, 시스템 리셉터클(6310)은 바이오센서(6312)와 결합하도록 구성된 유체 포트들(예컨대, 노즐들)을 포함할 수 있다. 일부 구현예들에서, 바이오센서(6312)는 기계적 방식으로, 전기적 방식으로, 그리고 또한 유체 방식으로 시스템 리셉터클(6310)에 제거가능하게 커플링된다.

또한, 서열분석 시스템(6300A)은 다른 시스템들 또는 네트워크들과 또는 다른 생물검정 시스템(6300A)과 원격으로 통신할 수 있다. 생물검정 시스템(들)(6300A)에 의해 획득된 검출 데이터는 원격 데이터베이스에 저장될 수 있다.

도 63b는 도 63a의 시스템에서 사용될 수 있는 시스템 제어기(6306)의 블록도이다. 하나의 구현예에서, 시스템 제어기(6306)는 서로 통신할 수 있는 하나 이상의 프로세서들 또는 모듈들을 포함한다. 프로세서들 또는 모듈들 각각은 특정 프로세스들을 수행하기 위한 알고리즘(예컨대, 유형적 그리고/또는 비일시적 컴퓨터 판독가능 저장 매체 상에 저장된 명령어들) 또는 서브알고리즘들을 포함할 수 있다. 시스템 제어기(6306)는, 개념적으로는 모듈들의 집합으로서 예시되지만, 전용 하드웨어 보드, DSP, 프로세서 등의 임의의 조합을 활용하여 구현될 수 있다. 대안으로, 시스템 제어기(6306)는 단일 프로세서 또는 다수의 프로세서들을 갖는 기성품(off-the-shelf) PC를 활용하여 구현될 수 있으며, 이때 기능 동작들은 프로세서들 사이에 분배된다. 추가 옵션으로서, 후술되는 모듈들은 소정의 모듈식 기능들이 전용 하드웨어를 활용하여 수행되는 하이브리드 구성을 활용하여 구현될 수 있는 반면, 나머지 모듈식 기능들은 기성품 PC 등을 활용하여 수행된다. 모듈들은 또한 프로세싱 유닛 내의 소프트웨어 모듈들로서 구현될 수 있다.

동작 동안, 통신 포트(6350)는 정보(예컨대, 커맨드들)를 바이오센서(6312)(도 63a) 및/또는 서브시스템들(6308, 6314, 6304)(도 63a)로 송신할 수 있거나 정보(예컨대, 데이터)를 그들로부터 수신할 수 있다. 구현예들에서, 통신 포트(6350)는 픽셀 신호들의 복수의 시퀀스들을 출력할 수 있다. 통신 링크(6334)는 사용자 인터페이스(6318)(도 63a)로부터 사용자 입력을 수신할 수 있고, 데이터 또는 정보를 사용자 인터페이스(6318)로 송신할 수 있다. 바이오센서(6312) 또는 서브시스템들(6308, 6314, 6304)로부터의 데이터는 생물검정 세션 동안 실시간으로 시스템 제어기(6306)에 의해 프로세싱될 수 있다. 추가로 또는 대안으로, 데이터는 생물검정 세션 동안 시스템 메모리에 일시적으로 저장될 수 있고, 실시간 또는 오프라인 동작보다 느리게 프로세싱될 수 있다.

도 63b에 도시된 바와 같이, 시스템 제어기(6306)는, 중앙 프로세싱 유닛(CPU)(6352)과 함께, 주 제어 모듈(6324)과 통신하는 복수의 모듈들(6326 내지 6348)을 포함할 수 있다. 주 제어 모듈(6324)은 사용자 인터페이스(6318)(도 63a)와 통신할 수 있다. 모듈들(6326 내지 6348)이 주 제어 모듈(6324)과 직접 통신하는 것으로 도시되어 있지만, 모듈들(6326 내지 6348)은 또한 서로, 사용자 인터페이스(6318), 및 바이오센서(6312)와 직접 통신할 수 있다. 또한, 모듈들(6326 내지 6348)은 다른 모듈들을 통해 주 제어 모듈(6324)과 통신할 수 있다.

복수의 모듈들(6326 내지 6348)은 서브시스템들(6308, 6314, 6304, 6316)과 각각 통신하는 시스템 모듈들(6328 내지 6332, 6326)을 포함한다. 유체 제어 모듈(6328)은 유체 제어 시스템(6308)과 통신하여, 유체 네트워크를 통한 하나 이상의 유체들의 유동을 제어하기 위해 유체 네트워크의 유동 센서들 및 밸브들을 제어할 수 있다. 유체 저장 모듈(6330)은 유체들이 낮을 때 또는 폐기물 저장소가 최대 용량에 또는 그 근처에 있을 때 사용자에게 통지할 수 있다. 유체 저장 모듈(6330)은, 또한, 온도 제어 모듈(6332)과 통신하여, 유체들이 원하는 온도로 저장될 수 있게 할 수 있다. 조명 모듈(6326)은 조명 시스템(6316)과 통신하여, 프로토콜 동안의 지정된 시간들에, 예컨대 원하는 반응들(예컨대, 결합 사건들)이 발생한 후에, 반응 사이트들을 조명할 수 있다. 일부 구현예들에서, 조명 모듈(6326)은 지정된 각도들로 반응 사이트들을 조명하기 위해 조명 시스템(6316)과 통신할 수 있다.

복수의 모듈들(6326-6348)은, 또한, 바이오센서(6312)와 통신하는 디바이스 모듈(6336) 및 바이오센서(6312)에 관한 식별 정보를 결정하는 식별 모듈(6338)을 포함할 수 있다. 디바이스 모듈(6336)은, 예를 들어, 시스템 리셉터클(6310)과 통신하여, 바이오센서가 서열분석 시스템(6300A)과 전기적 및 유체 접속을 확립하였음을 확인할 수 있다. 식별 모듈(6338)은 바이오센서(6312)를 식별하는 신호들을 수신할 수 있다. 식별 모듈(6338)은 다른 정보를 사용자에게 제공하기 위해 바이오센서(6312)의 아이덴티티를 사용할 수 있다. 예를 들어, 식별 모듈(6338)은 로트 번호, 제조 날짜, 또는 바이오센서(6312)로 실행될 것이 추천되는 프로토콜을 결정할 수 있고, 이어서, 디스플레이할 수 있다.

복수의 모듈들(6326-6348)은, 또한, 바이오센서(6312)로부터 신호 데이터(예컨대, 이미지 데이터)를 수신 및 분석하는 분석 모듈(6344)(신호 프로세싱 모듈 또는 신호 프로세서로도 칭해짐)을 포함한다. 분석 모듈(6344)은 검출/이미지 데이터를 저장하기 위한 메모리(예컨대, RAM 또는 플래시)를 포함한다. 검출 데이터는 픽셀 신호들의 복수의 시퀀스들을 포함하여, 수백만 개의 센서들(또는 픽셀들) 각각으로부터의 픽셀 신호들의 시퀀스가 많은 염기 호출 사이클들에 걸쳐서 검출될 수 있게 할 수 있다. 신호 데이터는 후속 분석을 위해 저장될 수 있거나, 또는 사용자에게 원하는 정보를 디스플레이하기 위해 사용자 인터페이스(6318)로 송신될 수 있다. 일부 구현예들에서, 신호 데이터는 분석 모듈(6344)이 신호 데이터를 수신하기 전에 솔리드 스테이트 이미저(예컨대, CMOS 이미지 센서)에 의해 프로세싱될 수 있다.

분석 모듈(6344)은 복수의 서열분석 사이클들 각각에서 광 검출기들로부터 이미지 데이터를 획득하도록 구성된다. 이미지 데이터는 광 검출기들에 의해 검출된 방출 신호들로부터 도출되고, 신경 네트워크 기반 품질 스코러(6102) 및/또는 신경 네트워크 기반 염기 호출자(218)를 통해 복수의 서열분석 사이클들 각각에 대한 이미지 데이터를 프로세싱하고, 복수의 서열분석 사이클 각각에서 분석물들 중 적어도 일부에 대한 염기 호출을 생성한다. 광 검출기들은 하나 이상의 오버헤드 카메라들(예컨대, 상부로부터 바이오센서(6312) 상의 클러스터들의 이미지들을 촬영하는 Illumina's GAIIx의 CCD 카메라)의 일부일 수 있거나, 또는 바이오센서(6312) 자체의 일부일 수 있다(예컨대, Illumina's iSeq의 CMOS 이미지 센서들은 바이오센서(6312) 상의 클러스터들의 하부에 놓이고, 저부로부터 클러스터들의 이미지들을 촬영한다).

광 검출기들의 출력은 서열분석 이미지들이며, 각각은 클러스터들 및 그들의 주변 배경의 세기 방출물들을 묘사한다. 서열분석 이미지들은 서열분석 동안 서열들 내의 뉴클레오티드 혼입의 결과로서 생성되는 세기 방출물들을 묘사한다. 세기 방출물들은 연관된 분석물들 및 그들의 주변 배경으로부터의 것이다. 서열분석 이미지들은 메모리(6348)에 저장된다.

프로토콜 모듈(6340, 6342)은 미리결정된 검정 프로토콜들을 이행할 때 서브시스템들(6308, 6314, 6304)의 동작을 제어하기 위해 주 제어 모듈(6324)과 통신한다. 프로토콜 모듈들(6340, 6342)은 미리결정된 프로토콜들에 따라 특정 동작들을 수행할 것을 서열분석 시스템(6300A)에 지시하기 위한 명령어들의 세트들을 포함할 수 있다. 도시된 바와 같이, 프로토콜 모듈은 SBS(sequencing-by-synthesis, 합성에 의한 서열분석) 프로세스를 수행하기 위한 다양한 커맨드들을 발행하도록 구성된 SBS 모듈(6340)일 수 있다. SBS에서, 템플릿 내의 뉴클레오티드의 서열을 결정하기 위해 핵산 템플릿을 따른 핵산 프라이머의 연장이 모니터링된다. 기초 화학적 프로세스는 중합화(예컨대, 폴리머라제 효소에 의해 촉매화되는 바와 같음) 또는 결찰(ligation)(예컨대, 리가아제 효소에 의해 촉매화됨)일 수 있다. 특정 폴리머라제 기반 SBS 구현예에서, 프라이머에 첨가되는 뉴클레오티드의 순서 및 유형의 검출이 템플릿의 서열을 결정하는 데 사용될 수 있도록 하는 템플릿 의존 방식으로, 형광 표지된 뉴클레오티드가 프라이머에 첨가된다(이에 의해, 프라이머를 연장함). 예를 들어, 제1 SBS 사이클을 개시하기 위해, 핵산 템플릿들의 어레이를 수용하는 플로우 셀 내로/플로우 셀을 통해 하나 이상의 표지된 뉴클레오티드, DNA 폴리머라제 등을 전달하기 위한 커맨드들이 제공될 수 있다. 핵산 템플릿들은 대응하는 반응 사이트들에 위치될 수 있다. 프라이머 연장이 표지된 뉴클레오티드가 포함되게 하는 그러한 반응 사이트들이 이미징 사건을 통해 검출될 수 있다. 이미징 사건 동안, 조명 시스템(6316)은 반응 사이트들에 여기 광을 제공할 수 있다. 선택적으로, 뉴클레오티드는, 일단 뉴클레오티드가 프라이머에 첨가되었다면, 추가 프라이머 연장을 종결시키는 가역적 종결 속성을 추가로 포함할 수 있다. 예를 들어, 가역적 종결자 모이어티를 갖는 뉴클레오티드 유사체가 프라이머에 첨가되어, 모이어티를 제거하기 위해 탈블록킹제(deblocking agent)가 전달될 때까지 후속 연장이 발생할 수 없게 할 수 있다. 따라서, 가역적 종결을 사용하는 구현예들에 대해, (검출이 발생하기 전 또는 발생한 후) 탈블록킹 시약을 플로우 셀에 전달하기 위한 커맨드가 제공될 수 있다. 다양한 전달 단계들 사이의 세척(들)을 달성하기 위해 하나 이상의 커맨드들이 제공될 수 있다. 이어서, 사이클은 n개의 뉴클레오티드에 의해 프라이머를 연장시키기 위해 n회 반복되어, 이에 의해, 길이 n의 서열을 검출할 수 있다. 예시적인 서열분석 기법들이, 예를 들어 문헌[Bentley et al., Nature 456:53-59 (20063)], WO 04/0163497호; US 7,057,026호; WO 91/066763호; WO 07/123744호; US 7,329,492호; US 7,211,414호; US 7,315,019호; US 7,405,2631호, 및 US 20063/01470630632호에 기재되어 있으며, 이들 각각은 본 명세서에 참고로 포함된다.

SBS 사이클의 뉴클레오티드 전달 단계의 경우, 단일 유형의 뉴클레오티드가 한 번에 전달될 수 있거나, 또는 다수의 상이한 뉴클레오티드 유형들이(예컨대, A, C, T 및 G가 함께) 전달될 수 있다. 단일 유형의 뉴클레오티드만이 한 번에 존재하는 뉴클레오티드 전달 구성의 경우, 상이한 뉴클레오티드는 별개의 표지들을 가질 필요가 없는데, 이는 그들이 개별화된 전달 시에 고유한 시간적 분리에 기초하여 구별될 수 있기 때문이다. 따라서, 서열분석 방법 또는 장치는 단일 컬러 검출을 사용할 수 있다. 예를 들어, 여기 소스는 단일 파장의 또는 단일 파장 범위 내의 여기만을 제공할 필요가 있다. 전달이 플로우 셀 내에 한 번에 존재하는 다수의 상이한 뉴클레오티드를 생성하는 뉴클레오티드 전달 구성의 경우, 상이한 뉴클레오티드 유형을 포함하는 부위들은 혼합물 내의 각자의 뉴클레오티드 유형들에 부착되는 상이한 형광 표지들에 기초하여 구별될 수 있다. 예를 들어, 4개의 상이한 뉴클레오티드가 사용될 수 있으며, 각각은 4개의 상이한 형광단들 중 하나를 갖는다. 하나의 구현예에서, 4개의 상이한 형광단들은 스펙트럼의 4개의 상이한 영역들에서의 여기를 사용하여 구별될 수 있다. 예를 들어, 4개의 상이한 여기 방사선 소스들이 사용될 수 있다. 대안으로, 4개 미만의 상이한 여기 소스들이 사용될 수 있지만, 단일 소스로부터의 여기 방사선의 광학적 여과가 플로우 셀에서 상이한 범위들의 여기 방사선을 생성하는 데 사용될 수 있다.

일부 구현예들에서, 4개 미만의 상이한 컬러들이 4개의 상이한 뉴클레오티드를 갖는 혼합물에서 검출될 수 있다. 예를 들어, 뉴클레오티드의 쌍들은 동일한 파장에서 검출될 수 있지만, 그 쌍의 하나의 구성원에 대해 다른 부재와 비교한 세기의 차이에 기초하여, 또는 그 쌍의 다른 구성원에 대해 검출된 신호와 비교한, 명백한 신호가 나타나거나 사라지게 하는 (예컨대, 화학적 변형, 광화학적 변형, 또는 물리적 변형을 통한) 그 쌍의 하나의 구성원에 대한 변화에 기초하여 구별될 수 있다. 4개 미만의 컬러들의 검출을 사용하여 4개의 상이한 뉴클레오티드를 구별하기 위한 예시적인 장치 및 방법들이, 예를 들어 미국 특허 출원 제61/5363,294호 및 제61/619,63763호에 기재되어 있으며, 이들은 그들 전체가 본 명세서에 참고로 포함된다. 2012년 9월 21일자로 출원된 미국 출원 제13/624,200호가 또한 전체가 본 명세서에 참고로 포함된다.

복수의 프로토콜 모듈들은, 또한, 바이오센서(6312) 내의 제품을 증폭시키기 위한 커맨드들을 유체 제어 시스템(6308) 및 온도 제어 시스템(6304)에 발행하도록 구성된 샘플 준비(또는 생성) 모듈(6342)을 포함할 수 있다. 예를 들어, 바이오센서(6312)는 서열분석 시스템(6300A)에 결합될 수 있다. 증폭 모듈(6342)은 필요한 증폭 컴포넌트들을 바이오센서(6312) 내의 반응 챔버들로 전달하라는 명령어들을 유체 제어 시스템(6308)에 발행할 수 있다. 다른 구현예들에서, 반응 사이트들은 증폭을 위한 일부 컴포넌트들, 예컨대 템플릿 DNA 및/또는 프라이머들을 이미 함유할 수 있다. 증폭 컴포넌트들을 반응 챔버들로 전달한 후에, 증폭 모듈(6342)은 알려진 증폭 프로토콜들에 따라 상이한 온도 단계들을 통해 순환할 것을 온도 제어 시스템(6304)에 지시할 수 있다. 일부 구현예들에서, 증폭 및/또는 뉴클레오티드 혼입은 등온적으로 수행된다.

SBS 모듈(6340)은 클론 앰플리콘(clonal amplicon)들의 클러스터들이 플로우 셀의 채널 내의 국소화된 영역들 상에 형성되는 브리지 PCR을 수행하라는 커맨드들을 발행할 수 있다. 브리지 PCR을 통해 앰플리콘들을 생성한 후, 앰플리콘들은 단일 가닥 템플릿 DNA 또는 sstDNA를 만들기 위해 "선형화"될 수 있고, 서열분석 프라이머는 관심 영역을 플랭킹하는 유니버셜 서열에 혼성화될 수 있다. 예를 들어, 합성 방법에 의한 가역적 종결자 기반 서열분석은 상기에 기재된 바와 같이 또는 하기와 같이 사용될 수 있다.

각각의 염기 호출 또는 서열분석 사이클은, 예를 들어 변형된 DNA 폴리머라제 및 4개의 유형들의 뉴클레오티드의 혼합물을 사용함으로써 달성될 수 있는 단일 염기에 의해 sstDNA를 연장할 수 있다. 상이한 유형들의 뉴클레오티드는 고유 형광 표지들을 가질 수 있고, 각각의 뉴클레오티드는 각각의 사이클에서 단일 염기 혼입만이 발생하는 것을 허용하는 가역적 종결자를 추가로 가질 수 있다. 단일 염기가 sstDNA에 첨가된 후, 여기 광은 반응 사이트들 위로 입사할 수 있고, 형광 방출물들이 검출될 수 있다. 검출 후에, 형광 표지 및 종결자는 sstDNA로부터 화학적으로 절단될 수 있다. 다른 유사한 염기 호출 또는 서열분석 사이클이 이어질 수 있다. 그러한 서열분석 프로토콜에서, SBS 모듈(6340)은 바이오센서(6312)를 통해 시약 및 효소 용액들의 유동을 지향시킬 것을 유체 제어 시스템(6308)에 지시할 수 있다. 본 명세서에 기술된 장치 및 방법들로 활용될 수 있는 예시적인 가역적 종결자 기반 SBS 방법들은, 미국 특허 출원 공개 제2007/0166705 A1호, 미국 특허 출원 공개 제2006/016363901 A1호, 미국 특허 제7,057,026호, 미국 특허 출원 공개 제2006/0240439 A1호, 미국 특허 출원 공개 제2006/026314714709 A1호, PCT 공개 공보 WO 05/0656314호, 미국 특허 출원 공개 제2005/014700900 A1호, PCT 공개 공보 WO 06/063B199호 및 PCT 공개 공보 WO 07/01470251호에 기재되어 있으며, 이들 각각은 그 전체가 본 명세서에 참고로 포함된다. 가역적 종결자 기반 SBS를 위한 예시적인 시약들이 미국 특허 제7,541,444호; 미국 특허 제7,057,026호; 미국 특허 제7,414,14716호; 미국 특허 제7,427,673호; 미국 특허 제7,566,537호; 미국 특허 제7,592,435호 및 WO 07/1463353663에 기재되어 있으며, 이들 각각은 전체가 본 명세서에 참고로 포함된다.

일부 구현예들에서, 증폭 및 SBS 모듈들은 단일 검정 프로토콜로 동작할 수 있는데, 여기서 예를 들어, 템플릿 핵산은 증폭되고, 후속으로, 동일한 카트리지 내에서 서열분석된다.

서열분석 시스템(6300A)은, 또한, 사용자가 검정 프로토콜을 재구성하는 것을 허용할 수 있다. 예를 들어, 서열분석 시스템(6300A)은 결정된 프로토콜을 수정하기 위한 옵션들을 사용자 인터페이스(6318)를 통해 사용자에게 제공할 수 있다. 예를 들어, 바이오센서(6312)가 증폭을 위해 사용될 것으로 결정되는 경우, 서열분석 시스템(6300A)은 어닐링 사이클을 위한 온도를 요청할 수 있다. 더욱이, 서열분석 시스템(6300A)은 사용자가 선택된 검정 프로토콜에 대해 대체적으로 수용가능하지 않은 사용자 입력들을 제공한 경우에 사용자에게 경고들을 발행할 수 있다.

구현예들에서, 바이오센서(6312)는 수백만 개의 센서들(또는 픽셀들)을 포함하고, 이들 각각은 연속적인 염기 호출 사이클들에 걸쳐서 픽셀 신호들의 복수의 시퀀스들을 생성한다. 분석 모듈(6344)은 픽셀 신호들의 복수의 시퀀스들을 검출하고, 이들을 센서들의 어레이 상의 센서들의 로우별 및/또는 컬럼별 위치에 따라 대응하는 센서들(또는 픽셀들)에 기인하게 한다.

도 63c는 염기 호출 센서 출력들과 같은 서열분석 시스템(6300A)으로부터의 센서 데이터의 분석을 위한 시스템의 간략화된 블록도이다. 도 63c의 예에서, 시스템은 구성가능한 프로세서(6346)를 포함한다. 구성가능한 프로세서(6346)는, 중앙 프로세싱 유닛(CPU)(6352)(즉, 호스트 프로세서)에 의해 실행되는 런타임 프로그램과 협력하여 염기 호출자(예컨대, 신경 네트워크 기반 품질 스코러(6102) 및/또는 신경 네트워크 기반 염기 호출자(218))를 실행시킬 수 있다. 서열분석 시스템(6300A)은 바이오센서(6312) 및 플로우 셀들을 포함한다. 플로우 셀들은 하나 이상의 타일들을 포함할 수 있는데, 여기서 유전 재료의 클러스터들은 클러스터들 내의 반응들이 유전 재료 내의 염기들을 식별하게 하는 데 사용되는 분석물 유동들의 시퀀스에 노출된다. 센서들은 플로우 셀의 각각의 타일 내의 시퀀스의 사이클 각각에 대한 반응들을 감지하여 타일 데이터를 제공한다. 유전자 서열분석은 데이터 집약적 동작이며, 이는 염기 호출 센서 데이터를, 염기 호출 동작 동안에 감지된 유전 재료의 각각의 클러스터에 대한 염기 호출들의 서열들로 변환한다.

이러한 예에서의 시스템은 런타임 프로그램을 실행시켜서 염기 호출 동작들을 조정하는 CPU(6352), 타일 데이터의 어레이들의 시퀀스들을 저장하기 위한 메모리(6348B), 염기 호출 동작에 의해 생성되는 염기 호출 판독물들, 및 염기 호출 동작들에서 사용되는 다른 정보를 포함한다. 또한, 이러한 예시에서, 시스템은 구성 파일(또는 파일들), 예컨대 FPGA 비트 파일들, 및 구성가능한 프로세서(6346)를 구성 및 재구성하기 위해 그리고 신경 네트워크들을 실행시키기 위해 사용되는 신경 네트워크들에 대한 모델 파라미터들을 저장할 메모리(6348A)를 포함한다. 서열분석 시스템(6300A)은 구성가능한 프로세서를 구성하기 위한 프로그램, 및 일부 실시예들에서, 신경 네트워크들을 실행하기 위한 재구성가능한 프로세서를 포함할 수 있다.

서열분석 시스템(6300A)은 버스(6389)에 의해 구성가능한 프로세서(6346)에 커플링된다. 버스(6389)는, 하나의 예에서 PCI-SIG(PCI Special Interest Group)에 의해 현재 유지되고 개발되는 PCIe(Peripheral Component Interconnect Express) 표준들과 호환가능한 버스 기술과 같은 고처리량 기술을 사용하여 구현될 수 있다. 또한, 이러한 예에서, 메모리(6348A)는 버스(6393)에 의해 구성가능한 프로세서(6346)에 커플링된다. 메모리(6348A)는 구성가능한 프로세서(6346)를 갖는 회로 보드 상에 배치된 온-보드 메모리일 수 있다. 메모리(6348A)는 염기 호출 동작에서 사용되는 데이터를 작동시키는 구성가능한 프로세서(6346)에 의한 고속 액세스를 위해 사용된다. 버스(6393)는, 또한, PCIe 표준들과 호환가능한 버스 기술과 같은 고처리량 기술을 사용하여 구현될 수 있다.

FPGA, CGRA, 및 다른 구성가능한 그리고 재구성가능한 디바이스들을 포함한 구성가능한 프로세서들은, 컴퓨터 프로그램을 실행하는 범용 프로세서를 사용하여 달성될 수 있었던 것보다 더 효율적이거나 더 빠르게 다양한 기능들을 구현하도록 구성될 수 있다. 구성가능한 프로세서들의 구성은, 때때로 비트스트림 또는 비트 파일로 지칭되는 구성 파일을 생성하기 위한 기능 설명을 컴파일하는 것, 및 구성 파일을 프로세서 상의 구성가능한 요소들에 분배하는 것을 수반한다. 구성 파일은, 데이터 흐름 패턴들, 분산형 메모리 및 다른 온-칩 메모리 리소스들의 사용, 룩업 테이블 콘텐츠들, 승산 및 누산(multiply-and-accumulate) 유닛들과 같은 구성가능한 실행 유닛들 및 구성가능한 논리 블록들의 동작들, 구성가능한 상호접속부들, 및 구성가능한 어레이의 다른 요소들을 설정하도록 회로를 구성함으로써, 구성가능한 프로세서에 의해 실행될 논리 기능들을 정의한다. 구성가능한 프로세서는, 구성 파일이 필드 내에서 변경될 수 있는 경우, 로딩된 구성 파일을 변경함으로써 재구성가능하다. 예를 들어, 구성 파일은, 구성가능한 또는 재구성가능한 프로세서 상의 구성가능한 요소들의 어레이 사이에 분포되는, 휘발성 SRAM 요소들에, 비휘발성 판독-기록 메모리 요소들에, 그리고 이들의 조합들에 저장될 수 있다. 다양한 상업적으로 입수가능한 구성가능한 프로세서들이 본 명세서에 기술된 바와 같은 염기 호출 동작에 사용하는 데 적합하다. 예들은, Google의 Tensor Processing Unit(TPU)™, 랙마운트 솔루션들, 예컨대 GX4 Rackmount Series™, GX9 Rackmount Series™, NVIDIA DGX-1™, Microsoft의 Stratix V FPGA™, Graphcore의 Intelligent Processor Unit (IPU)™, Snapdragon processors™을 갖는 Qualcomm의 Zeroth Platform™, NVIDIA의 Volta™, NVIDIA의 DRIVE PX™, NVIDIA의 JETSON TX1/TX2 MODULE™, Intel의 Nirvana™, Movidius VPU™, Fujitsu DPI™, ARM의 DynamicIQ™, IBM TrueNorth™, Testa V100s™을 갖는 Lambda GPU 서버, Xilinx Alveo™ U200, Xilinx Alveo™ U250, Xilinx Alveo™ U280, Intel/Altera Stratix™ GX2800, Intel/Altera Stratix™ GX2800, 및 Intel Stratix™ GX10M을 포함한다. 일부 예들에서, 호스트 CPU는 구성가능한 프로세서와 동일한 집적 회로 상에서 구현될 수 있다.

본 명세서에 기술된 실시예들은 구성가능한 프로세서(6346)를 사용하여 신경 네트워크 기반 품질 스코러(6102) 및/또는 신경 네트워크 기반 염기 호출자(218)를 구현한다. 구성가능한 프로세서(6346)에 대한 구성 파일은 HDL(high level description language) 또는 RTL(register transfer level) 언어 규격을 사용하여 실행될 논리 기능들을 특정함으로써 구현될 수 있다. 규격은 구성 파일을 생성하기 위해, 선택된 구성가능한 프로세서에 대해 설계된 리소스들을 사용하여 컴파일될 수 있다. 구성가능한 프로세서가 아닐 수 있는 ASIC에 대한 설계를 생성할 목적으로 동일한 또는 유사한 규격이 컴파일될 수 있다.

따라서, 구성가능한 프로세서(6346)에 대한 대안들은, 본 명세서에 기술된 모든 실시예들에서, 본 명세서에 기술된 바와 같은 신경 네트워크 기반 염기 호출 동작을 실행시키도록 구성된, 주문형 ASIC 또는 특수 목적 집적 회로 또는 집적 회로들의 세트를 포함하는 구성된 프로세서, 또는 SOC(system-on-a-chip) 디바이스, 또는 GPU(graphics processing unit) 프로세서 또는 CGRA 프로세서를 포함한다.

대체로, 신경 네트워크의 런들을 실행하도록 구성된 바와 같은, 본 명세서에 기술된 구성가능한 프로세서 및 구성된 프로세서들은 본 명세서에서 신경 네트워크 프로세서들로 지칭된다.

구성가능한 프로세서(6346)는, 이러한 예에서, CPU(6352)에 의해 실행되는 프로그램을 사용하여 로딩된 구성 파일에 의해 또는 다른 소스들에 의해 구성되며, 이는 염기 호출 기능을 실행하기 위한 구성가능한 프로세서 상에, 구성가능한 요소들(6391)(예컨대, LUT(look up table)들과 같은 CLB(configuration logic block)들, 플립플롭들, PMU(compute processing unit)들, 및 CMU(compute memory unit)들, 구성가능한 I/O 블록들, 프로그래밍가능한 상호접속부들)의 어레이를 구성한다. 이러한 예에서, 구성은, 버스들(6389, 6393)에 커플링되고 염기 호출 동작에 사용되는 요소들 사이에서 데이터 및 제어 파라미터들을 분배하기 위한 기능들을 실행하는 데이터 흐름 로직(6397)을 포함한다.

또한, 구성가능한 프로세서(6346)는 신경 네트워크 기반 템플릿 생성기(6102) 및/또는 신경 네트워크 기반 품질 스코러(218)를 실행시키기 위해 염기 호출 실행 로직(6397)을 갖도록 구성된다. 로직(6397)은 다중-사이클 실행 클러스터들(예컨대, 6379)을 포함하는데, 이는, 이러한 예에서, 실행 클러스터 1 내지 실행 클러스터 X를 포함한다. 다중-사이클 실행 클러스터들의 수는 동작의 원하는 처리량, 및 구성가능한 프로세서(6346) 상의 이용가능한 리소스들을 수반하는 트레이드오프에 따라 선택될 수 있다.

다중-사이클 실행 클러스터들은 구성가능한 프로세서(6346) 상의 구성가능한 상호접속부 및 메모리 리소스들을 사용하여 구현되는 데이터 흐름 경로들(6399)에 의해 데이터 흐름 로직(6397)에 커플링된다. 또한, 다중-사이클 실행 클러스터들은, 예를 들어 구성가능한 프로세서(6346) 상의 구성가능한 상호접속부 및 메모리 리소스들을 사용하여 구현된 제어 경로들(6395)에 의해 데이터 흐름 로직(6397)에 커플링되며, 이들은 이용가능한 실행 클러스터들을 나타내는 제어 신호들, 신경 네트워크 기반 품질 스코러(6102) 및/또는 신경 네트워크 기반 염기 호출자(218)의 런의 실행을 위한 입력 유닛들을 이용가능한 실행 클러스터들에 제공하기 위한 준비성(readiness), 신경 네트워크 기반 품질 스코러(6102) 및/또는 신경 네트워크 기반 염기 호출자(218)에 대한 트레이닝된 파라미터들을 제공하기 위한 준비성, 염기 호출 분류 데이터의 출력 패치들을 제공하기 위한 준비성, 및 신경 네트워크 기반 품질 스코러(6102) 및/또는 신경 네트워크 기반 염기 호출자(218)의 실행을 위해 사용되는 다른 제어 데이터를 제공한다.

구성가능한 프로세서(6346)는 트레이닝된 파라미터들을 사용하여 신경 네트워크 기반 품질 스코러(6102) 및/또는 신경 네트워크 기반 염기 호출자(218)의 런들을 실행시켜서, 염기 호출 동작의 감지 사이클들 동안 분류 데이터를 생성하도록 구성된다. 신경 네트워크 기반 품질 스코러(6102) 및/또는 신경 네트워크 기반 염기 호출자(218)의 런이 실행되어, 염기 호출 동작의 대상 감지 사이클 동안 분류 데이터를 생성한다. 신경 네트워크 기반 품질 스코러(6102) 및/또는 신경 네트워크 기반 염기 호출자(218)의 런은 N개의 감지 사이클들의 각자의 감지 사이클들로부터 타일 데이터의 N개의 어레이들을 포함하는 서열로 동작하며, 여기서 N개의 감지 사이클들은 본 명세서에 기술된 예들에서 시간 시퀀스 내의 동작마다 하나의 염기 포지션에 대한 상이한 염기 호출 동작들을 위한 센서 데이터를 제공한다. 선택적으로, N개의 감지 사이클들 중 일부는 실행되는 특정 신경 네트워크 모델에 따라, 필요한 경우, 시퀀스 이외일 수 있다. 수 N은 1 초과의 임의의 수일 수 있다. 본 명세서에 기술된 일부 예들에서, N개의 감지 사이클들의 감지 사이클들은 시간 시퀀스에서 대상 감지 사이클에 선행하는 적어도 하나의 감지 사이클 및 대상 사이클에 뒤이은 적어도 하나의 감지 사이클에 대한 감지 사이클들의 세트를 표현한다. 수 N이 5 이상의 정수인 예들이 본 명세서에 기술된다.

데이터 흐름 로직(6397)은 N개의 어레이들의 공간적으로 정렬된 패치들에 대해 타일 데이터를 포함하는 주어진 런에 대한 입력 유닛들을 사용하여, 신경 네트워크 기반 품질 스코러(6102) 및/또는 신경 네트워크 기반 염기 호출자(218)의 런들을 위한 타일 데이터 및 모델 파라미터들의 적어도 일부의 트레이닝된 파라미터들을 메모리(6348A)로부터 구성가능한 프로세서(6346)로 이동시키도록 구성된다. 입력 유닛들은 하나의 DMA 동작에서 직접 메모리 액세스 동작들에 의해 이동될 수 있거나, 또는 더 작은 유닛들에서, 전개된 신경 네트워크의 실행과 협력하여 이용가능한 시간 슬롯들 동안 이동될 수 있다.

본 명세서에 기술된 바와 같은 감지 사이클 동안의 타일 데이터는 하나 이상의 특징부들을 갖는 센서 데이터의 어레이를 포함할 수 있다. 예를 들어, 센서 데이터는 DNA, RNA, 또는 다른 유전 재료의 유전자 서열 내의 염기 포지션에서 4개의 염기들 중 하나를 식별하기 위해 분석되는 2개의 이미지들을 포함할 수 있다. 타일 데이터는, 또한, 이미지들 및 센서들에 관한 메타데이터를 포함할 수 있다. 예를 들어, 염기 호출 동작의 실시예들에서, 타일 데이터는 타일 상의 유전 재료의 클러스터의 중심으로부터 센서 데이터의 어레이 내의 각각의 픽셀의 거리를 나타내는 중심 정보로부터의 거리와 같은, 클러스터들과의 이미지들의 정렬에 관한 정보를 포함할 수 있다.

후술되는 바와 같은 신경 네트워크 기반 품질 스코러(6102) 및/또는 신경 네트워크 기반 염기 호출자(218)의 실행 동안, 타일 데이터는, 또한, 중간 데이터로 지칭되는, 신경 네트워크 기반 품질 스코러(6102) 및/또는 신경 네트워크 기반 염기 호출자(218)의 실행 동안 생성된 데이터를 포함할 수 있는데, 이는 신경 네트워크 기반 품질 스코러(6102) 및/또는 신경 네트워크 기반 염기 호출자(218)의 런 동안 재계산되기보다는 재사용될 수 있다. 예를 들어, 신경 네트워크 기반 품질 스코러(6102) 및/또는 신경 네트워크 기반 염기 호출자(218)의 실행 동안, 데이터 흐름 로직(6397)은 타일 데이터의 어레이의 주어진 패치에 대해 센서 데이터 대신에 중간 데이터를 메모리(6348A)에 기록할 수 있다. 이와 같은 실시예들이 더욱 상세하게 후술된다.

도시된 바와 같이, 염기 호출 동작의 감지 사이클들로부터 타일에 대한 센서 데이터를 포함하는 타일 데이터를 저장하는 런타임 프로그램에 의해 액세스가능한 메모리(예컨대, 6348A)를 포함하는, 염기 호출 센서 출력의 분석을 위한 시스템이 기술된다. 또한, 시스템은 메모리에 액세스하는 구성가능한 프로세서(6346)와 같은 신경 네트워크 프로세서를 포함한다. 신경 네트워크 프로세서는 감지 사이클들 동안 분류 데이터를 생성하기 위해 트레이닝된 파라미터들을 사용하여 신경 네트워크의 런들을 실행하도록 구성된다. 본 명세서에 기술된 바와 같이, 대상 사이클 동안 분류 데이터를 생성하기 위해, 대상 사이클을 포함하는 N개의 감지 사이클들의 각자의 감지 사이클들로부터의 타일 데이터의 N개의 어레이들의 시퀀스 상에서 신경 네트워크의 런이 동작하고 있다. 데이터 흐름 로직(908)은 N개의 감지 사이클들의 각자의 감지 사이클들로부터 N개의 어레이들의 공간적으로 정렬된 패치들에 대한 데이터를 포함하는 입력 유닛들을 사용하여 신경 네트워크의 런들을 위해 타일 데이터 및 트레이닝된 파라미터들을 메모리로부터 신경 네트워크 프로세서로 이동시키도록 제공된다.

또한, 신경 네트워크 프로세서가 메모리에 액세스하고 복수의 실행 클러스터들을 포함하는 시스템이 기술되는데, 복수의 실행 클러스터들 중의 실행 클러스터들은 신경 네트워크를 실행시키도록 구성된다. 데이터 흐름 로직(6397)은 메모리 및 복수의 실행 클러스터들 중의 실행 클러스터들에 액세스하여, 타일 데이터의 입력 유닛들을 복수의 실행 클러스터들 중 이용가능한 실행 클러스터들에 제공하고 - 입력 유닛들은 대상 감지 사이클을 포함하는 각자의 감지 사이클들로부터 타일 데이터의 어레이들의 N개의 공간적으로 정렬된 패치들을 포함함 -, 실행 클러스터들이 N개의 공간적으로 정렬된 패치들을 신경 네트워크에 적용하여 대상 감지 사이클의 공간적으로 정렬된 패치에 대한 분류 데이터의 출력 패치들을 생성하게 하며, 여기서 N은 1 초과이다.

도 64a는 호스트 프로세서에 의해 실행되는 런타임 프로그램의 기능들을 포함한 염기 호출 동작의 태양들을 보여주는 간략화된 도면이다. 이러한 도면에서, 플로우 셀로부터의 이미지 센서들의 출력은 라인들(6400) 상에서 이미지 프로세싱 스레드들(6401)에 제공되는데, 이는 개별 타일들에 대한 센서 데이터의 어레이에서의 정렬 및 배열 그리고 이미지들의 리샘플링과 같은 이미지들에 대한 프로세스들을 수행할 수 있고, 플로우 셀 내의 각각의 타일에 대한 타일 클러스터 마스크를 계산하는 프로세스들에 의해 사용될 수 있으며, 이는 플로우 셀의 대응하는 타일 상의 유전 재료의 클러스터들에 대응하는 센서 데이터의 어레이 내의 픽셀들을 식별한다. 이미지 프로세싱 스레드들(6401)의 출력들은 라인들(6402) 상에서 CPU 내의 디스패치 로직(6410)에 제공되는데, 이는 염기 호출 동작의 상태에 따라, 도 63c의 구성가능한 프로세서(6346)와 같은, 신경 네트워크 프로세서 하드웨어(6420)로의 고속 버스(6403) 상에서 또는 고속 버스(6405) 상에서 데이터 캐시(6404)(예컨대, SSD 저장소)로 타일 데이터의 어레이들을 라우팅한다. 프로세싱되고 변환된 이미지들은 이전에 사용되었던 감지 사이클들 동안 데이터 캐시(6404) 상에 저장될 수 있다. 하드웨어(6420)는 신경 네트워크에 의해 출력된 분류 데이터를 디스패치 로직(6464)에 반송하는데, 이는 데이터 캐시(6404)로, 또는 라인들(6411) 상에서, 분류 데이터를 사용하여 염기 호출 및 품질 스코어 계산들을 수행하는 스레드들(6402)로 정보를 전달하고, 염기 호출 판독물들에 대한 표준 포맷들로 데이터를 배열할 수 있다. 염기 호출 및 품질 스코어 계산들을 수행하는 스레드들(6402)의 출력들은, 라인들(6412) 상에서, 염기 호출 판독물들을 어그리게이션하고, 데이터 압축과 같은 다른 동작들을 수행하고, 고객들에 의한 활용을 위해, 생성된 염기 호출 출력들을 특정된 목적지들에 기록하는 스레드들(6403)로 제공된다.

일부 실시예들에서, 호스트는 신경 네트워크의 지원 시에 하드웨어(6420)의 출력의 최종 프로세싱을 수행하는 스레드들(도시되지 않음)을 포함할 수 있다. 예를 들어, 하드웨어(6420)는 다중 클러스터 신경 네트워크의 최종 층으로부터의 분류 데이터의 출력들을 제공할 수 있다. 호스트 프로세서는 염기 호출 및 품질 스코어 스레드들(6402)에 의해 사용하기 위한 데이터를 구성하기 위해 분류 데이터에 걸쳐, 소프트맥스 함수와 같은 출력 활성화 함수를 실행시킬 수 있다. 또한, 호스트 프로세서는 하드웨어(6420)에 입력되기 전에 타일 데이터의 배치 정규화와 같은 입력 동작들(도시되지 않음)을 실행시킬 수 있다.

도 64b는 도 63c의 것과 같은 구성가능한 프로세서(6346)의 구성의 간략화된 도면이다. 도 64b에서, 구성가능한 프로세서(6346)는 복수의 고속 PCIe 인터페이스들을 갖는 FPGA를 포함한다. FPGA는 도 63c를 참조하여 기술된 데이터 흐름 로직(6397)을 포함하는 래퍼(6490)를 갖도록 구성된다. 래퍼(6490)는 CPU 통신 링크(6477)를 통해 CPU에서의 런타임 프로그램과의 협력 및 인터페이스를 관리하고, DRAM 통신 링크(6497)를 통해 온-보드 DRAM(6499)(예컨대, 메모리(6348A))과의 통신을 관리한다. 래퍼(6490) 내의 데이터 흐름 로직(6397)은, N개의 사이클들 동안 온-보드 DRAM(6499) 상에서 타일 데이터의 어레이들을 클러스터(6485)로 순회(traverse)시킴으로써 검색된 패치 데이터를 제공하고, 온-보드 DRAM(6499)으로 다시 전달하기 위해 클러스터(6485)로부터 프로세스 데이터(6487)를 검색한다. 래퍼(6490)는, 또한, 타일 데이터의 입력 어레이들 및 분류 데이터의 출력 패치들 둘 모두에 대해, 온-보드 DRAM(6499)과 호스트 메모리 사이에서의 데이터의 이송을 관리한다. 래퍼는 라인(6483) 상의 패치 데이터를 할당된 클러스터(6485)로 이송한다. 래퍼는 라인(6481) 상의 가중치들 및 바이어스들과 같은 트레이닝된 파라미터들을 온-보드 DRAM(6499)으로부터 검색된 클러스터(6485)에 제공한다. 래퍼는 라인(6479) 상의 구성 및 제어 데이터를, CPU 통신 링크(6477)를 통해 호스트 상의 런타임 프로그램으로부터 제공되거나 그에 응답하여 생성되는 클러스터(6485)에 제공한다. 클러스터는, 또한, 라인(6489) 상의 상태 신호들을 래퍼(6490)에 제공할 수 있는데, 이들은 타일 데이터의 어레이들의 순회를 관리하여 공간적으로 정렬된 패치 데이터를 제공하기 위해 그리고 클러스터(6485)의 리소스들을 사용하여 패치 데이터에 걸쳐서 다중-사이클 신경 네트워크를 실행시키기 위해 호스트로부터의 제어 신호들과 협력하여 사용된다.

상기에서 언급된 바와 같이, 타일 데이터의 다수의 패치들 중 대응하는 패치들 상에서 실행시키기 위해 구성된, 래퍼(6490)에 의해 관리되는 단일 구성가능한 프로세서 상에 다수의 클러스터들이 있을 수 있다. 각각의 클러스터는 본 명세서에 기술된 다수의 감지 사이클들의 타일 데이터를 사용하여 대상 감지 사이클에서 염기 호출들에 대한 분류 데이터를 제공하도록 구성될 수 있다.

시스템의 예들에서, 필터 가중치들 및 바이어스들과 같은 커널 데이터를 포함하는 모델 데이터가 호스트 CPU로부터 구성가능한 프로세서로 전송되어, 모델이 사이클 수의 함수로서 업데이트될 수 있게 할 수 있다. 염기 호출 동작은, 대표적인 예의 경우에, 대략 수백개의 감지 사이클들을 포함할 수 있다. 염기 호출 동작은, 일부 실시예들에서, 쌍형성된 최종 판독물들을 포함할 수 있다. 예를 들어, 모델 트레이닝된 파라미터들은 20개의 사이클들(또는 다른 수의 사이클들)마다 1회, 또는 특정 시스템들 및 신경 네트워크 모델들에 대해 구현되는 업데이트 패턴들에 따라 업데이트될 수 있다. 타일 상의 유전 클러스터 내의 주어진 스트링에 대한 서열이 제1 말단부로부터 스트링 아래로(또는 위로) 연장되는 제1 부분, 및 제2 말단부로부터 스트링 위로(또는 아래로) 연장되는 제2 부분을 포함하는 쌍형성된 최종 판독물들을 포함하는 일부 실시예들에서, 트레이닝된 파라미터들은 제1 부분으로부터 제2 부분으로의 전이 시에 업데이트될 수 있다.

일부 예들에서, 타일에 대한 감지 데이터의 다수의 사이클들 동안의 이미지 데이터는 CPU로부터 래퍼(6490)로 전송될 수 있다. 래퍼(6490)는, 선택적으로, 감지 데이터의 일부 사전프로세싱 및 변환을 행할 수 있고, 정보를 온-보드 DRAM(6499)에 기록할 수 있다. 각각의 감지 사이클에 대한 입력 타일 데이터는, 타일당 감지 사이클당 4000 × 3000개 정도 또는 그 이상의 픽셀들 - 2개의 특징부들이 타일의 2개의 이미지들의 컬러들을 표현함 -, 및 픽셀당 특징부당 1 또는 2 바이트를 포함하는 센서 데이터의 어레이들을 포함할 수 있다. 수 N이 다중-사이클 신경 네트워크의 각각의 런에 사용될 3개의 감지 사이클들인 실시예의 경우, 다중-사이클 신경 네트워크의 각각의 런에 대한 타일 데이터의 어레이는 타일당 수백 메가바이트 정도를 소비할 수 있다. 시스템의 일부 실시예들에서, 타일 데이터는, 또한, 타일당 1회 저장된 DFC 데이터의 어레이, 또는 센서 데이터 및 타일들에 관한 다른 유형의 메타데이터를 포함한다.

동작 시에, 다중-사이클 클러스터가 이용가능할 때, 래퍼는 클러스터에 패치를 할당한다. 래퍼는 타일의 순회에서 타일 데이터의 다음 패치를 페치(fetch)하고, 적절한 제어 및 구성 정보와 함께 그것을 할당된 클러스터로 전송한다. 클러스터는, 적소에 작동 중인, 일부 시스템들에서 다수의 사이클들로부터의 패치들을 포함하는 데이터의 패치, 및 프로세싱의 현재 패치가 다양한 실시예들에서 핑퐁 버퍼 기법 또는 래스터 스캐닝 기법을 사용하여 마무리될 때 작동되어야 하는 데이터의 패치를 보유하기에 충분한 메모리를 구성가능한 프로세서 상에 갖도록 구성될 수 있다.

할당된 클러스터가 현재 패치에 대한 신경 네트워크의 그의 런을 완료하고 출력 패치를 생성할 때, 그것은 래퍼를 시그널링할 것이다. 래퍼는 할당된 클러스터로부터의 출력 패치를 판독할 것이거나, 또는 대안으로, 할당된 클러스터는 데이터를 래퍼로 푸시아웃할 것이다. 이어서, 래퍼는 DRAM(6499) 내의 프로세싱된 타일에 대한 출력 패치들을 어셈블할 것이다. 전체 타일의 프로세싱이 완료되었고, 데이터의 출력 패치들이 DRAM으로 이송되었을 때, 래퍼는 타일에 대한 프로세싱된 출력 어레이를 지정된 포맷으로 호스트/CPU로 다시 전송한다. 일부 실시예들에서, 온-보드 DRAM(6499)은 래퍼(6490) 내의 메모리 관리 로직에 의해 관리된다. 런타임 프로그램은, 실시간 분석을 제공하기 위해 연속적인 흐름 중 런에서의 모든 사이클들에 대한 타일 데이터의 모든 어레이들의 분석을 완료하도록 서열분석 동작들을 제어할 수 있다.

기술적 개선들 및 용어

염기 호출은 형광 표지된 태그의 분석물과의 합체 또는 그에 대한 부착을 포함한다. 분석물은 뉴클레오티드 또는 올리고뉴클레오티드일 수 있고, 태그는 특정 뉴클레오티드 유형(A, C, T, 또는 G)에 대한 것일 수 있다. 여기 광은 태그를 갖는 분석물을 향해 지향되고, 태그는 검출가능한 형광 신호 또는 세기 방출물을 방출한다. 세기 방출물은 분석물에 화학적으로 부착되는 여기 태그에 의해 방출된 광자들을 나타낸다.

청구범위를 비롯한 본 출원 전체에 걸쳐, "분석물들 및 그들의 주변 배경의 세기 방출물을 묘사하는 이미지, 이미지 데이터, 또는 이미지 영역들"과 같은 또는 이와 유사한 구절들이 사용될 때, 이들은 분석물들에 부착된 태그들의 세기 방출물들을 지칭한다. 당업자는, 부착된 태그들의 세기 방출물들이 태그들이 부착되는 분석물들의 세기 방출물들을 대표하거나 그들과 동등하고, 따라서, 상호교환가능하게 사용된다는 것을 인식할 것이다. 유사하게, 분석물들의 속성들은 분석물들에 부착된 태그들의 속성들 또는 부착된 태그들로부터의 세기 방출물들의 특성들을 지칭한다. 예를 들어, 분석물의 중심은 분석물에 부착된 태그에 의해 방출되는 세기 방출물들의 중심을 지칭한다. 다른 예에서, 분석물의 주변 배경은 분석물에 부착된 태그에 의해 방출되는 세기 방출물들의 주변 배경을 지칭한다.

특허, 특허 출원, 물품, 책, 논문, 및 웹페이지를 포함하지만 이들로 제한되지 않는, 본 출원에 인용된 모든 문헌 및 유사한 재료는, 그러한 문헌 및 유사한 재료들의 형식과는 관계 없이, 그들 전체가 명백히 참고로 포함된다. 포함된 문헌 및 유사한 재료들 중 하나 이상이, 정의된 용어들, 용어 사용, 기재된 기법들 등을 포함하지만 이로 제한되지 않는 본 출원과 상이하거나 그에 모순되는 경우에, 본 출원이 우선한다.

개시된 기술은 신경 네트워크들을 사용하여, 핵산 샘플, 예컨대 핵산 템플릿 또는 그의 상보체, 예를 들어 DNA 또는 RNA 폴리뉴클레오티드 또는 다른 핵산 샘플로부터 획득될 수 있는 핵산 서열 정보의 품질 및 양을 개선한다. 따라서, 개시된 기술의 소정의 구현예들은 이전에 이용가능한 방법론들에 비하여, 더 높은 처리량의 폴리뉴클레오티드 서열분석, 예를 들어 DNA 또는 RNA 서열 데이터의 더 높은 수집률들, 서열 데이터 수집에 있어서의 더 큰 효율성, 및/또는 그러한 서열 데이터를 획득하는 더 낮은 비용들을 제공한다.

개시된 기술은 신경 네트워크들을 사용하여, 고체상 핵산 클러스터의 중심을 식별하고, 그러한 클러스터들의 서열분석 동안 생성되는 광학 신호들을 분석하여, 서열분석 신호를 단일의 개별 소스 클러스터에 할당하기 위해 인접한, 접해 있는, 또는 중첩하는 클러스터들 사이를 명확하게 구별한다. 따라서, 이들 및 관련된 구현예들은, 중첩하는 또는 매우 조밀하게 이격된 인접한 클러스터들의 교락 효과들 - 이들로부터 발산하는 (예컨대, 핵산 서열분석에서 사용된 바와 같은) 중첩하는 신호들의 효과들을 포함함 - 로 인해, 유용한 정보가 그러한 영역들로부터 이전에 획득될 수 없었던 고밀도 클러스터 어레이들의 영역들로부터 서열 데이터와 같은 의미 있는 정보의 검색을 허용한다.

더 상세히 후술되는 바와 같이, 소정 구현예들에서, 본 명세서에 제공된 바와 같은 하나의 또는 복수의 핵산 클러스터를 고정화시킨 고체 지지체를 포함하는 조성물이 제공된다. 각각의 클러스터는 동일한 서열의 복수의 고정화된 핵산을 포함하며, 본 명세서에 제공된 바와 같은 검출가능한 중심 라벨을 갖는 식별가능한 중심을 가지며, 이에 의해 식별가능한 중심은 클러스터에서 주변 영역 내의 고정화된 핵산과 구별가능하다. 또한, 식별가능한 중심들을 갖는 그러한 클러스터들의 제조 및 사용 방법들이 본 명세서에 기술된다.

현재 개시된 구현예들은, 고처리량 핵산 서열분석, 광학 또는 다른 신호들을 별개의 소스 클러스터들에 할당하기 위한 이미지 분석 알고리즘들의 개발, 및 고정화된 핵산 클러스터의 중심의 인식이 바람직하고 유익한 다른 응용들과 같은, 클러스터 내의 실질적으로 중심인 위치의 포지션을 식별하거나, 결정하거나, 주석첨부하거나, 기록하거나, 또는 달리 할당하는 능력으로부터 이점들이 획득되는 많은 상황들에서 사용될 것이다.

소정 구현예들에서, 본 발명은 핵산 서열 결정(예를 들어, "서열분석")과 같은 고처리량 핵산 분석에 관련된 방법들을 고려한다. 예시적인 고처리량 핵산 분석들은, 제한 없이, 드 노보 서열분석, 재서열분석, 전체 게놈 서열분석, 유전자 발현 분석, 유전자 발현 모니터링, 후성 분석, 게놈 메틸화 분석, 대립유전자 특이적 프라이머 연장(APSE), 유전적 다양성 프로파일링, 전체 게놈 다형성 검색 및 분석, 단일 뉴클레오티드 다형성 분석, 혼성화 기반 서열 결정 방법들 등을 포함한다. 당업자는 다양한 상이한 핵산들이 본 발명의 방법들 및 조성물들을 사용하여 분석될 수 있음을 이해할 것이다.

본 발명의 구현예들이 핵산 서열분석과 관련하여 기술되어 있지만, 이들은 상이한 시점들, 공간 위치들 또는 다른 시간적 또는 물리적 관점들에서 획득된 이미지 데이터가 분석되는 어떠한 분야에도 적용가능하다. 예를 들어, 본 명세서에 기술된 방법들 및 시스템들은 마이크로어레이, 생물학적 시료, 세포, 유기체 등으로부터의 이미지 데이터가 상이한 시점들 또는 관점들에서 획득되고 분석되는 분자 생물학 및 세포 생물학의 분야에서 유용하다. 이미지들은 형광 현미경법, 광학 현미경법, 공초점 현미경법, 광학 이미징, 자기 공명 이미징, 단층촬영 스캐닝 등을 포함하지만 이로 제한되지 않는, 당업계에 공지된 임의의 수의 기법들을 사용하여 획득될 수 있다. 다른 예로서, 본 명세서에 기술된 방법들 및 시스템들은, 감시, 항공 또는 위성 이미징 기술들 등에 의해 획득된 이미지 데이터가 상이한 시점들 또는 관점들에서 획득되고 분석되는 경우에 적용될 수 있다. 방법들 및 시스템들은, 관찰되는 분석물들이 시야에서 서로에 대해 동일한 위치들에서 유지되는, 상기 시야에 대해 획득된 이미지들을 분석하는 데 특히 유용하다. 그러나, 분석물들은 별개의 이미지들에서 상이한 특성들을 가질 수 있는데, 예를 들어, 분석물들은 시야의 별개의 이미지들에서 상이하게 보일 수 있다. 예를 들어, 분석물들은 상이한 이미지들에서 검출된 주어진 분석물의 컬러, 상이한 이미지들에서 주어진 분석물에 대해 검출된 신호의 세기의 변화, 또는 심지어 하나의 이미지에서의 주어진 분석물에 대한 신호의 출현 및 다른 이미지에서의 분석물에 대한 신호의 소멸과 관련하여 상이하게 보일 수 있다.

본 명세서에 기술된 예들은 학문적 또는 상업적 분석을 위한 다양한 생물학적 또는 화학적 프로세스들 및 시스템들에서 사용될 수 있다. 보다 구체적으로, 본 명세서에 기술된 예들은, 지정된 반응을 나타내는 사건, 속성, 품질, 또는 특성을 검출하는 것이 요구되는 다양한 프로세스들 및 시스템들에서 사용될 수 있다. 예를 들어, 본 명세서에 기술된 예들은 광 검출 디바이스들, 바이오센서들, 및 그들의 컴포넌트들뿐만 아니라, 바이오센서들과 함께 작동하는 생물검정 시스템들을 포함한다. 일부 예들에서, 디바이스들, 바이오센서들 및 시스템들은 실질적으로 일체형인 구조에서 (제거가능하게 또는 고정식으로) 함께 커플링되는 하나 이상의 광 센서들 및 플로우 셀을 포함할 수 있다.

디바이스들, 바이오센서들 및 생물검정 시스템들은, 개별적으로 또는 집합적으로 검출될 수 있는 복수의 지정된 반응들을 수행하도록 구성될 수 있다. 디바이스들, 바이오센서들 및 생물검정 시스템들은 복수의 지정된 반응들이 동시에 발생하는 다수의 사이클들을 수행하도록 구성될 수 있다. 예를 들어, 디바이스들, 바이오센서들, 및 생물검정 시스템들은 효소 조작 및 광 또는 이미지 검출/획득의 반복적 사이클들을 통해 조밀한 어레이의 DNA 특징들을 서열분석하는 데 사용될 수 있다. 이와 같이, 디바이스들, 바이오센서들 및 생물검정 시스템들은 (예컨대, 하나 이상의 카트리지들을 통해) 반응 용액 내의 시약들 또는 다른 반응 성분들을 디바이스들, 바이오센서들 및 생물검정 시스템들의 반응 사이트들로 전달하는 하나 이상의 마이크로유체 채널을 포함할 수 있다. 일부 예들에서, 반응 용액은 약 5 이하, 또는 약 4 이하, 또는 약 3 이하의 pH를 포함하는 것과 같이 실질적으로 산성일 수 있다. 일부 다른 예들에서, 반응 용액은 약 8 이상, 또는 약 9 이상, 또는 약 10 이상의 pH를 포함하는 것과 같이 실질적으로 알칼리성/염기성일 수 있다. 본 명세서에 사용되는 바와 같이, 용어 "산도(acidity)" 및 그의 문법적 변형들은 약 7 미만의 pH 값을 지칭하며, 용어들 "염기도(basicity)", "알칼리도(alkalinity)" 및 이들의 문법적 변형들은 약 7 초과의 pH 값을 지칭한다.

일부 예들에서, 반응 사이트들은 균일한 또는 반복 패턴에서와 같이 미리결정된 방식으로 제공되거나 이격된다. 일부 다른 예들에서, 반응 사이트들은 랜덤하게 분포된다. 각각의 반응 사이트들은 하나 이상의 도광체들, 및 연관된 반응 사이트로부터의 광을 검출하는 하나 이상의 광 센서들과 연관될 수 있다. 일부 예들에서, 반응 사이트들은 반응 리세스들 또는 챔버들 내에 위치되며, 이는 그 안에서의 지정된 반응들을 적어도 부분적으로 구획화할 수 있다.

본 명세서에 사용되는 바와 같이, "지정된 반응"은 관심 분석물과 같은 관심 화학적 물질 또는 생물학적 물질의 화학적, 전기적, 물리적, 또는 광학적 속성(또는 품질) 중 적어도 하나에 있어서의 변화를 포함한다. 특정 예들에서, 지정된 반응은, 예를 들어, 관심 분석물과의 형광 표지된 생체분자의 합체와 같은 양성 결합 사건이다. 더욱 대체적으로, 지정된 반응은 화학적 변환, 화학적 변화, 또는 화학적 상호작용일 수 있다. 지정된 반응은 또한 전기적 속성들의 변화일 수 있다. 특정 예들에서, 지정된 반응은 분석물과의 형광 표지된 분자의 합체를 포함한다. 분석물은 올리고뉴클레오티드일 수 있고, 형광 표지된 분자는 뉴클레오티드일 수 있다. 표지된 뉴클레오티드를 갖는 올리고뉴클레오티드를 향해 여기 광이 지향될 때 지정된 반응이 검출될 수 있고, 형광단은 검출가능한 형광 신호를 방출한다. 대안의 예들에서, 검출된 형광은 화학발광 또는 생물발광의 결과이다. 지정된 반응은, 또한, 예를 들어 공여체 형광단을 수용체 형광단 부근으로 가져옴으로써 형광 공명 에너지 전달(fluorescence (또는

) resonance energy transfer, FRET)을 증가시킬 수 있거나, 공여체 형광단과 수용체 형광단을 분리시킴으로써 FRET를 감소시킬 수 있거나, 형광단으로부터 소광제(quencher)를 분리시킴으로써 형광을 증가시킬 수 있거나, 또는 소광제와 형광단을 병치시킴으로써 형광을 감소시킬 수 있다.

본 명세서에 사용되는 바와 같이, "반응 용액", "반응 성분" 또는 "반응물"은 적어도 하나의 지정된 반응을 획득하기 위해 사용될 수 있는 임의의 물질을 포함한다. 예를 들어, 잠재적인 반응 성분들은, 예를 들어, 시약들, 효소들, 샘플들, 다른 생체분자들, 및 완충 용액들을 포함한다. 반응 성분들은 반응 사이트로 용액 중에 전달될 수 있고/있거나 반응 사이트에 고정화될 수 있다. 반응 성분들은 반응 사이트에 고정화된 관심 분석물과 같은 다른 물질과 직접적으로 또는 간접적으로 상호작용할 수 있다. 상기에 언급된 바와 같이, 반응 용액은, (예컨대, 약 5 이하의 pH, 약 4 이하의 pH, 또는 약 3 이하의 pH를 포함하는) 실질적으로 산성일 수 있거나(즉, 비교적 높은 산도를 포함할 수 있음) 또는 (예컨대, 약 8 이상의 pH, 약 9 이상의 pH, 또는 약 10 이상의 pH를 포함하는) 실질적으로 알칼리성/염기성일 수 있다(즉, 비교적 높은 알칼리도/염기도를 포함할 수 있음).

본 명세서에 사용되는 바와 같이, 용어 "반응 사이트"는 적어도 하나의 지정된 반응이 발생할 수 있는 국소화된 영역이다. 반응 사이트는 물질이 위에 고정화될 수 있는 반응 구조물 또는 기재의 지지 표면들을 포함할 수 있다. 예를 들어, 반응 사이트는 반응 성분을 위에 갖는, 예컨대 핵산의 콜로니를 위에 갖는 반응 구조물(이는 플로우 셀의 채널 내에 포지셔닝될 수 있음)의 표면을 포함할 수 있다. 일부의 그러한 예들에서, 콜로니 내의 핵산은, 예를 들어 단일 가닥 또는 이중 가닥 템플릿의 클론 복제물들인 동일한 서열을 갖는다. 그러나, 일부 예들에서, 반응 사이트는, 예를 들어 단일 가닥 또는 이중 가닥 형태의 단일 핵산 분자만을 함유할 수 있다.

복수의 반응 사이트들은 반응 구조물을 따라 랜덤하게 분포되거나, 또는 미리결정된 방식으로(예컨대, 마이크로어레이들에서와 같은 매트릭스 내에서 나란히) 배열될 수 있다. 반응 사이트는, 또한, 지정된 반응을 구획화하도록 구성된 공간 영역 또는 체적을 적어도 부분적으로 한정하는 반응 챔버 또는 리세스를 포함할 수 있다. 본 명세서에 사용되는 바와 같이, 용어 "반응 챔버" 또는 "반응 리세스"는 (종종 플로우 채널과 유체 연통하는) 지지 구조물의 한정된 공간 영역을 포함한다. 반응 리세스는 주위 환경으로부터 또는 다른 공간 영역들로부터 적어도 부분적으로 분리될 수 있다. 예를 들어, 복수의 반응 리세스들이 검출 표면과 같은 공유된 벽들에 의해 서로 분리될 수 있다. 보다 구체적인 예로서, 반응 리세스들은 검출 표면의 내부 표면들에 의해 한정되는 만입부(indent), 피트(pit), 웰, 홈(groove), 캐비티(cavity) 또는 함몰부를 포함하는 나노웰들일 수 있고, 나노웰들이 플로우 채널과 유체 연통할 수 있도록 개구 또는 애퍼처를 가질 수 있다(즉, 개방된 면을 가질 수 있음).

일부 예들에서, 반응 구조물의 반응 리세스들은 고체들(반고체들을 포함함)이 그 안에 완전히 또는 부분적으로 삽입될 수 있도록 고체들에 대해 크기-설정되고 형상화된다. 예를 들어, 반응 리세스는 캡처 비드를 수용하도록 크기 -설정되고 형상화될 수 있다. 캡처 비드는 그 위에 클론 증폭된 DNA 또는 다른 물질들을 가질 수 있다. 대안으로, 반응 리세스들은 대략적인 개수의 비드들 또는 고체 기재들을 수용하도록 크기-설정되고 형상화될 수 있다. 다른 예로서, 반응 리세스들은 반응 리세스들 내로 유동할 수 있는 확산 또는 필터 유체들 또는 용액들을 제어하도록 구성된 다공성 겔 또는 물질로 충전될 수 있다.

일부 예들에서, 광 센서들(예컨대, 포토다이오드들)은 대응하는 반응 사이트들과 연관된다. 반응 사이트와 연관된 광 센서는, 지정된 반응이 연관된 반응 사이트에서 발생했을 때, 적어도 하나의 도광체를 통해 연관된 반응 사이트로부터의 광 방출들을 검출하도록 구성된다. 일부 경우들에 있어서, 복수의 광 센서들(예컨대, 광 검출 또는 카메라 디바이스의 여러 픽셀들)이 단일 반응 사이트와 연관될 수 있다. 다른 경우들에 있어서, 단일 광 센서(예컨대, 단일 픽셀)가 단일 반응 사이트와 또는 반응 사이트들의 그룹과 연관될 수 있다. 광 센서, 반응 사이트, 및 바이오센서의 다른 특징부들은 광의 적어도 일부가 반사되지 않고서 광 센서에 의해 직접 검출되도록 구성될 수 있다.

본 명세서에 사용되는 바와 같이, "생물학적 또는 화학적 물질"은 생체분자들, 관심 샘플들, 관심 분석물들, 및 다른 화학적 화합물(들)을 포함한다. 생물학적 또는 화학적 물질은 다른 화학적 화합물(들)을 검출, 확인, 또는 분석하기 위해 사용될 수 있거나, 또는 다른 화학적 화합물(들)을 연구 또는 분석하기 위한 중간체로서의 기능할 수 있다. 특정 예들에서, 생물학적 또는 화학적 물질은 생체분자를 포함한다. 본 명세서에 사용되는 바와 같이, "생체분자"는 생체중합체, 뉴클레오시드, 핵산, 폴리뉴클레오티드, 올리고뉴클레오티드, 단백질, 효소, 폴리펩티드, 항체, 항원, 리간드, 수용체, 다당류, 탄수화물, 폴리포스페이트, 세포, 조직, 유기체, 또는 이의 단편 또는 임의의 다른 생물학적으로 활성인 화학적 화합물(들), 예컨대 전술된 종들의 유사체 또는 모방체 중 적어도 하나를 포함한다. 추가 예에서, 생물학적 또는 화학적 물질 또는 생체분자는 다른 반응의 생성물을 검출하기 위해 커플링된 반응에서 사용되는 효소 또는 시약, 예컨대 효소 또는 시약, 예컨대 파이로서열분석(pyrosequencing) 반응에서 파이로포스페이트를 검출하는 데 사용되는 효소 또는 시약을 포함한다. 파이로포스페이트 검출에 유용한 효소들 및 시약들은, 예를 들어, 미국 특허 출원 공개 제2005/0244870 A1호에 기재되어 있으며, 이는 그 전체가 참고로 포함된다.

생체분자들, 샘플들, 및 생물학적 또는 화학적 물질들은 자연적으로 발생하는 것이거나 합성 물질일 수 있으며, 반응 리세스 또는 영역 내의 용액 또는 혼합물 중에 현탁될 수 있다. 생체분자들, 샘플들, 및 생물학적 또는 화학적 물질들은 또한 고체상 또는 겔 재료에 결합될 수 있다. 생체분자들, 샘플들, 및 생물학적 또는 화학적 물질들은 또한 약제학적 조성물을 포함할 수 있다. 일부 경우들에 있어서, 관심 대상인 생체분자들, 샘플들, 및 생물학적 또는 화학적 물질들은 표적들, 프로브들, 또는 분석물들로 지칭될 수 있다.

본 명세서에 사용되는 바와 같이, "바이오센서"는 반응 사이트들에서 또는 반응 사이트 근처에서 발생하는 지정된 반응들을 검출하도록 구성된 복수의 반응 사이트들을 갖는 반응 구조물을 포함하는 디바이스를 포함한다. 바이오센서는 솔리드 스테이트 광 검출 또는 "이미징" 디바이스(예컨대, CCD 또는 CMOS 광 검출 디바이스), 및 선택적으로, 그에 탑재되는 플로우 셀을 포함할 수 있다. 플로우 셀은 반응 사이트들과 유체 연통하는 적어도 하나의 플로우 채널을 포함할 수 있다. 하나의 특정 예로서, 바이오센서는 생물검정 시스템에 유체적으로 그리고 전기적으로 커플링하도록 구성된다. 생물검정 시스템은 미리결정된 프로토콜(예컨대, SBS)에 따라 반응 용액을 반응 사이트들로 전달할 수 있고, 복수의 이미징 사건들을 수행할 수 있다. 예를 들어, 생물검정 시스템은 반응 용액들이 반응 사이트들을 따라 유동하게 할 수 있다. 반응 용액들 중 적어도 하나는 동일하거나 상이한 형광 표지들을 갖는 4개의 유형들의 뉴클레오티드를 포함할 수 있다. 뉴클레오티드는 반응 사이트들에, 예컨대 반응 사이트들에서의 대응하는 올리고뉴클레오티드에 결합할 수 있다. 이어서, 생물검정 시스템은 여기 광원(예컨대, 발광 다이오드(LED)들과 같은 솔리드 스테이트 광원들)을 사용하여 반응 사이트들을 조명할 수 있다. 여기 광은 일정 범위의 파장들을 포함한 미리결정된 파장 또는 파장들을 가질 수 있다. 입사 여기 광에 의해 여기되는 형광 표지들은 광 센서들에 의해 검출될 수 있는 방출 신호들(예컨대, 여기 광과는 상이한, 그리고, 잠재적으로 서로 상이한 파장 또는 파장들의 광)을 제공할 수 있다.

본 명세서에서 사용될 때, 용어 "고정화된"은, 생체분자 또는 생물학적 또는 화학적 물질과 관련하여 사용될 때, 분자 레벨의 생체분자 또는 생물학적 또는 화학적 물질을 표면에, 예컨대 광 검출 디바이스 또는 반응 구조물의 검출 표면에 실질적으로 부착하는 것을 포함한다. 예를 들어, 생체분자 또는 생물학적 또는 화학적 물질은 비공유적 상호작용들(예컨대, 정전기력, 반 데르 발스, 및 소수성 계면들의 탈수), 및 작용기들 및 링커들이 생체분자들을 표면에 부착하는 것을 용이하게 하는 공유 결합 기법들을 포함하는 흡착 기법을 사용하여 반응 구조물의 표면에 고정화될 수 있다. 생체분자들 또는 생물학적 또는 화학적 물질들을 표면에 고정화시키는 것은 표면의 속성들, 생체분자 또는 생물학적 또는 화학적 물질을 운반하는 액체 매질, 및 생체분자들 또는 생물학적 또는 화학적 물질들 자체의 속성들에 기초할 수 있다. 일부 경우들에 있어서, 표면은 생체분자들(또는 생물학적 또는 화학적 물질들)을 표면에 고정화시키는 것을 용이하게 하도록 기능화될 수 있다(예컨대, 화학적으로 또는 물리적으로 개질될 수 있다).

일부 예들에서, 핵산이 반응 구조물에, 예컨대 그의 반응 리세스들의 표면들에 고정화될 수 있다. 특정 예들에서, 본 명세서에 기술된 디바이스들, 바이오센서들, 생물검정 시스템들 및 방법들은 천연 뉴클레오티드의 사용 및 또한 천연 뉴클레오티드와 상호작용하도록 구성된 효소의 사용을 포함할 수 있다. 천연 뉴클레오티드는, 예를 들어, 리보뉴클레오티드 또는 데옥시리보뉴클레오티드를 포함한다. 천연 뉴클레오티드는 모노-, 다이-, 또는 트라이-포스페이트 형태의 것일 수 있으며, 아데닌(A), 티민(T), 우라실(U), 구아닌(G) 또는 시토신(C)으로부터 선택된 염기를 가질 수 있다. 그러나, 전술된 뉴클레오티드의 비-천연 뉴클레오티드, 변형된 뉴클레오티드 또는 유사체들이 사용될 수 있음이 이해될 것이다.

상기에 언급된 바와 같이, 생체분자 또는 생물학적 또는 화학적 물질은 반응 구조물의 반응 리세스 내의 반응 사이트에 고정화될 수 있다. 그러한 생체분자 또는 생물학적 물질은 억지 끼워맞춤(interference fit), 접착, 공유 결합, 또는 포획을 통해 반응 리세스 내에 물리적으로 보유되거나 고정화될 수 있다. 반응 리세스들 내에 배치될 수 있는 물품들 또는 고체들의 예들은 중합체 비드, 펠릿, 아가로스 겔, 분말, 양자점, 또는 반응 챔버 내에 압축되고/되거나 보유될 수 있는 다른 고체를 포함한다. 소정 구현예들에서, 반응 리세스는 DNA 올리고뉴클레오티드에 공유 결합할 수 있는 하이드로겔 층으로 코팅되거나 충전될 수 있다. 특정 예들에서, 핵산 상부구조(superstructure), 예컨대 DNA 볼(ball)이, 예를 들어 반응 리세스의 내부 표면에의 부착에 의해 또는 반응 리세스 내의 액체 중에의 체류에 의해, 반응 리세스 내에 또는 반응 리세스에 배치될 수 있다. DNA 볼 또는 다른 핵산 상부구조가 수행되고, 이어서, 반응 리세스 내에 또는 반응 리세스에 배치될 수 있다. 대안으로, DNA 볼은 반응 리세스에서 원위치(in situ)에서 합성될 수 있다. 반응 리세스 내에 고정화된 물질은 고체, 액체, 또는 기체 상태일 수 있다.

본 명세서에 사용되는 바와 같이, 용어 "분석물"은 상대 위치에 따라 다른 점들 또는 영역들과 구별될 수 있는 패턴의 점 또는 영역을 의미하도록 의도된다. 개별 분석물은 특정 유형의 하나 이상의 분자들을 포함할 수 있다. 예를 들어, 분석물은 특정 서열을 갖는 단일 표적 핵산 분자를 포함할 수 있거나, 또는 분석물은 동일한 서열(및/또는 그의 상보적 서열)을 갖는 몇몇 핵산 분자들을 포함할 수 있다. 소정 패턴의 상이한 분석물들에 있는 상이한 분자들은 그러한 패턴의 분석물들의 위치들에 따라 서로 구별될 수 있다. 예시적인 분석물들은, 제한 없이, 기재 내의 웰, 기재 내의 또는 기재 상의 비드(또는 다른 입자), 기재로부터의 돌출부, 기재 상의 리지(ridge), 기재 상의 겔 재료의 패드, 또는 기재 내의 채널을 포함한다.

검출, 특성화, 또는 식별될 다양한 표적 분석물 중 임의의 것이 본 명세서에 기술된 장치, 시스템 또는 방법에 사용될 수 있다. 예시적인 분석물은 핵산(예컨대, DNA, RNA 또는 그의 유사체), 단백질, 다당류, 세포, 항체, 에피토프, 수용체, 리간드, 효소(예를 들어, 키나제, 포스파타제 또는 폴리머라제), 소분자 약물 후보물질, 세포, 바이러스, 유기체 등을 포함하지만, 이로 한정되지 않는다.

용어 "분석물", "핵산", "핵산 분자", 및 "폴리뉴클레오티드"는 본 명세서에서 상호교환가능하게 사용된다. 다양한 구현예들에서, 핵산은, 핵산 증폭, 핵산 발현 분석, 및/또는 핵산 서열 결정 또는 이들의 적합한 조합들을 포함하지만 이로 한정되지 않는 특정 유형들의 핵산 분석을 위해 본 명세서에 제공된 바와 같은 템플릿들(예컨대, 핵산 템플릿, 또는 핵산 핵산 템플릿에 상보적인 핵산 상보체)로서 사용될 수 있다. 소정 구현예들에서의 핵산은, 예를 들어, 3'-5' 포스포다이에스테르 또는 다른 결합(linkage)에서의 데옥시리보뉴클레오티드의 선형 중합체, 예컨대 데옥시리보핵산(DNA), 예를 들어, 단일 가닥 및 이중 가닥 DNA, 게놈 DNA, 복제 DNA 또는 상보적 DNA(cDNA), 재조합 DNA, 또는 임의의 형태의 합성 또는 변형된 DNA를 포함한다. 다른 구현예들에서, 핵산은, 예를 들어, 3'-5' 포스포다이에스테르 또는 다른 결합에서의 리보뉴클레오티드의 선형 중합체, 예컨대 리보핵산(RNA), 예를 들어, 단일 가닥 및 이중 가닥 RNA, 메신저(mRNA), 복제 RNA 또는 상보적 RNA(cRNA), 선택적으로 스플라이싱된 mRNA, 리보솜 RNA, 소핵소체 RNA(snoRNA), 마이크로 RNA(miRNA), 소간섭 RNA(sRNA), piwi RNA(piRNA), 또는 임의의 형태의 합성 또는 변형된 RNA를 포함한다. 본 발명의 조성물들 및 방법들에 사용되는 핵산은 길이가 다를 수 있으며, 온전한 또는 전장(full-length) 분자 또는 단편 또는 더 큰 핵산 분자의 더 작은 부분일 수 있다. 특정 구현예들에서, 핵산은, 본 명세서의 다른 곳에 기술된 바와 같이, 하나 이상의 검출가능한 표지들을 가질 수 있다.

용어들 "분석물", "클러스터", "핵산 클러스터", "핵산 콜로니", 및 "DNA 클러스터"는 상호교환가능하게 사용되며, 고체 지지체에 부착된 핵산 템플릿 및/또는 그의 상보체들의 복수의 복제물들을 지칭한다. 전형적으로 그리고 소정의 바람직한 구현예들에서, 핵산 클러스터는 5' 말단을 통해 고체 지지체에 부착된 템플릿 핵산 및/또는 그의 상보체의 복수의 복제물들을 포함한다. 핵산 클러스터들을 구성하는 핵산 가닥들의 복제물들은 단일 가닥 또는 이중 가닥 형태일 수 있다. 클러스터 내에 존재하는 핵산 템플릿의 복제물들은, 예를 들어, 표지 모이어티의 존재로 인해, 서로 상이한 대응하는 포지션들에 뉴클레오티드를 가질 수 있다. 대응하는 포지션들은, 또한, 우라실 및 티민에 대한 경우와 같이, 상이한 화학 구조를 갖지만 유사한 왓슨-크릭(Watson-Crick) 염기쌍 형성 속성들을 갖는 아날로그 구조들을 포함할 수 있다.

핵산의 콜로니들은 "핵산 클러스터들"로도 지칭될 수 있다. 핵산 콜로니들은 본 명세서의 다른 곳에서 더욱 상세히 기술되는 바와 같은 클러스터 증폭 또는 브리지 증폭 기법들에 의해 선택적으로 생성될 수 있다. 표적 서열의 다수의 반복부들이 단일 핵산 분자, 예컨대 회전환 증폭(rolling circle amplification) 절차를 사용하여 생성된 콘카타머(concatamer)에 존재할 수 있다.

본 발명의 핵산 클러스터들은 사용되는 조건들에 따라 상이한 형상들, 크기들 및 밀도들을 가질 수 있다. 예를 들어, 클러스터들은 실질적으로 둥근형, 다면형, 도넛형 또는 링형인 형상을 가질 수 있다. 핵산 클러스터의 직경은 약 0.2 μm 내지 약 6 μm, 약 0.3 μm 내지 약 4 μm, 약 0.4 μm 내지 약 3 μm, 약 0.5 μm 내지 약 2 μm, 약 0.75 μm 내지 약 1.5 μm, 또는 임의의 중간 직경이 되도록 설계될 수 있다. 특정 구현예에서, 핵산 클러스터의 직경은 약 0.5 μm, 약 1 μm, 약 1.5 μm, 약 2 μm, 약 2.5 μm, 약 3 μm, 약 4 μm, 약 5 μm, 또는 약 6 μm이다. 핵산 클러스터의 직경은, 클러스터를 생성하는 데 있어서 수행되는 증폭 사이클들의 수, 핵산 템플릿의 길이, 또는 클러스터들이 형성되는 표면에 부착된 프라이머들의 밀도를 포함하지만 이로 한정되지 않는 다수의 파라미터들에 의해 영향을 받을 수 있다. 핵산 클러스터들의 밀도는, 전형적으로 0.1/㎟, 1/㎟, 10/㎟, 100/㎟, 1,000/㎟, 10,000/㎟ 내지 100,000/㎟의 범위가 되도록 설계될 수 있다. 본 발명은, 부분적으로, 더 높은 밀도의 핵산 클러스터들, 예를 들어, 100,000/㎟ 내지 1,000,000/㎟ 및 1,000,000/㎟ 내지 10,000,000/㎟를 추가로 고려한다.

본 명세서에 사용되는 바와 같이, "분석물"은 시료 또는 시야 내의 관심 영역이다. 마이크로어레이 디바이스들 또는 다른 분자 분석용 디바이스들과 관련하여 사용될 때, 분석물은 유사한 또는 동일한 분자들에 의해 점유되는 영역을 지칭한다. 예를 들어, 분석물은 증폭된 올리고뉴클레오티드, 또는 동일하거나 유사한 서열을 갖는 폴리뉴클레오티드 또는 폴리펩티드의 임의의 다른 그룹일 수 있다. 다른 구현예들에서, 분석물은 시료 상의 물리적 영역을 점유하는 임의의 요소 또는 요소들의 그룹일 수 있다. 예를 들어, 분석물은 한 구획의 땅(parcel of land), 수역(body of water) 등일 수 있다. 분석물이 이미징될 때, 각각의 분석물은 약간의 영역을 가질 것이다. 따라서, 많은 구현예들에서, 분석물은 단지 하나의 픽셀만이 아니다.

분석물들 사이의 거리들은 많은 방식들로 기술될 수 있다. 일부 구현예들에서, 분석물들 사이의 거리들은 하나의 분석물의 중심으로부터 다른 분석물의 중심까지로 설명될 수 있다. 다른 구현예들에서, 거리들은 하나의 분석물의 에지로부터 다른 분석물의 에지까지로, 또는 각각의 분석물의 최외측의 식별가능한 지점들 사이로 설명될 수 있다. 분석물의 에지는 칩 상의 이론적 또는 실제의 물리적 경계로서, 또는 분석물의 경계 내부의 어떠한 지점으로서 설명될 수 있다. 다른 구현예들에서, 거리들은 시료 상의 고정된 지점과 관련하여 또는 시료의 이미지에서 설명될 수 있다.

대체적으로, 몇몇 구현예들이 분석 방법에 대하여 본 명세서에 기술될 것이다. 자동화된 또는 반자동화된 방식으로 방법들을 수행하기 위한 시스템들이 또한 제공된다는 것이 이해될 것이다. 따라서, 본 발명은 신경 네트워크 기반 템플릿 생성 및 염기 호출 시스템들을 제공하며, 여기서 시스템들은 프로세서; 저장 디바이스; 및 이미지 분석을 위한 프로그램을 포함할 수 있고, 프로그램은 본 명세서에 기술된 방법들 중 하나 이상을 수행하기 위한 명령어들을 포함한다. 따라서, 본 명세서에 기술된 방법들은, 예를 들어 본 명세서에 기술되거나 달리 당업계에 공지된 컴포넌트들을 갖는 컴퓨터 상에서 수행될 수 있다.

본 명세서에 기술된 방법들 및 시스템들은 다양한 객체들 중 임의의 것을 분석하는 데 유용하다. 특히 유용한 객체들은 부착된 분석물들을 갖는 고체 지지체들 또는 고체상 표면들이다. 본 명세서에 기술된 방법들 및 시스템들은 xy 평면에서 분석물들의 반복 패턴을 갖는 객체들에 대해 사용될 때 이점들을 제공한다. 일례는 세포, 바이러스, 핵산, 단백질, 항체, 탄수화물, 소분자(예컨대, 약물 후보물질), 생물학적으로 활성인 분자 또는 다른 관심 분석물들의 부착된 수집물을 갖는 마이크로어레이이다.

핵산 및 폴리펩티드와 같은 생물학적 분자들을 갖는 분석물들을 갖는 어레이들에 대해 증가하는 수의 응용들이 개발되어 왔다. 그러한 마이크로어레이들은 전형적으로 데옥시리보핵산(DNA) 또는 리보핵산(RNA) 프로브들을 포함한다. 이들은 인간들 및 다른 유기체들에 존재하는 뉴클레오티드 서열에 대해 특이적이다. 소정 응용들에서, 예를 들어, 개별 DNA 또는 RNA 프로브들이 어레이의 개별 분석물들에 부착될 수 있다. 공지된 사람 또는 유기체로부터의 것과 같은 테스트 샘플이 어레이에 노출되어, 표적 핵산(예컨대, 유전자 단편, mRNA 또는 이들의 앰플리콘)이 어레이 내의 각자의 분석물들에서의 상보적 프로브들에 혼성화되게 할 수 있다. 프로브들은 (예컨대, 표적 핵산 상에 존재하는 표지들로 인해 또는 분석물들에서 혼성화된 형태로 존재하는 프로브들 또는 표적들의 효소 표지화로 인해) 표적 특이적 프로세스에서 표지화될 수 있다. 이어서, 어레이는 어느 표적 핵산이 샘플 내에 존재하는지를 식별하기 위해 분석물들에 걸쳐서 광의 특정 주파수들을 스캐닝함으로써 검사될 수 있다.

생물학적 마이크로어레이들은 유전자 서열분석 및 유사한 응용들을 위해 사용될 수 있다. 대체적으로, 유전자 서열분석은 DNA 또는 RNA의 단편과 같은 일정 길이의 표적 핵산 내의 뉴클레오티드들의 순서를 결정하는 것을 포함한다. 비교적 짧은 서열들은 전형적으로 각각의 분석물에서 서열분석되고, 생성된 서열 정보는, 단편들이 도출되었던 훨씬 더 큰 대규모의 길이들의 유전자 재료의 서열을 신뢰성있게 결정하도록 하기 위해 서열 단편들을 함께 논리적으로 피팅하는 다양한 생물정보학 방법들에서 사용될 수 있다. 특성 단편들에 대한 자동화된 컴퓨터 기반 알고리즘들이 개발되어 왔으며, 더 최근에는, 게놈 맵핑(genome mapping), 유전자들 및 이들의 기능의 식별 등에서 사용되어 왔다. 마이크로어레이들은 게놈 함량을 특성화하는 데 특히 유용한데, 그 이유는 많은 수의 변이체들이 존재하고, 이것이 개별 프로브들 및 표적들에 대해 많은 실험들을 수행하는 것의 대안을 대체하기 때문이다. 마이크로어레이는 실용적 방식으로 그러한 조사들을 수행하기 위한 이상적인 포맷이다.

당업계에 공지된 다양한 분석물 어레이들("마이크로어레이들"로도 지칭됨) 중 임의의 것이 본 명세서에 기술된 방법 또는 시스템에 사용될 수 있다. 전형적인 어레이는 분석물들을 함유하며, 각각의 분석물은 개별 프로브 또는 프로브들의 집단을 갖는다. 후자의 경우에, 각각의 분석물에서의 프로브들의 집단은 전형적으로 균질하여 단일 종의 프로브를 갖는다. 예를 들어, 핵산 어레이의 경우에, 각각의 분석물은, 각각 공통 서열을 갖는 다수의 핵산 분자들을 가질 수 있다. 그러나, 일부 구현예들에서, 어레이의 각각의 분석물에서의 집단들은 불균질할 수 있다. 유사하게, 단백질 어레이들은, 전형적으로 단일 단백질 또는 단백질들의 집단을 갖는 분석물들을 가질 수 있지만, 동일한 아미노산 서열을 항상 갖는 것은 아니다. 프로브들은, 예를 들어 표면에 대한 프로브들의 공유 결합을 통해 또는 프로브들과 표면의 비공유적 상호작용(들)을 통해 어레이의 표면에 부착될 수 있다. 일부 구현예들에서, 핵산 분자들과 같은 프로브들은, 예를 들어, 본 명세서에 참고로 각각 포함된 미국 특허 출원 제13/784,368호 및 미국 특허 출원 공개 제2011/0059865 A1호에 기재된 바와 같이, 겔 층을 통해 표면에 부착될 수 있다.

예시적인 어레이들은, 제한 없이, Illumina, Inc.(미국 캘리포니아주 샌디에고 소재)로부터 입수가능한 BeadChip 어레이 또는 표면 상에 존재하는 비드들에 프로브들이 부착된 것들과 같은 다른 것들(예컨대, 표면 상의 웰들 내의 비드들), 예컨대 미국 특허 제6,266,459호; 제6,355,431호; 제6,770,441호; 제6,859,570호; 또는 제7,622,294호; 또는 PCT 공개 공보 WO 00/63437호에 기재된 것들을 포함하며, 상기 특허들 및 출원들 각각은 본 명세서에 참고로 포함된다. 사용될 수 있는 상업적으로 입수가능한 마이크로어레이들의 추가의 예들은, 예를 들어, Affymetrix® GeneChip® 마이크로어레이, 또는 때때로 VLSIPS™(Very Large Scale Immobilized Polymer Synthesis) 기술로 지칭되는 기법들에 따라 합성된 다른 마이크로어레이를 포함한다. 스폿형 마이크로어레이가, 또한, 본 발명의 일부 구현예들에 따른 방법 또는 시스템에서 사용될 수 있다. 예시적인 스폿형 마이크로어레이는 Amersham Biosciences로부터 입수가능한 CodeLink™ 어레이이다. 유용한 다른 마이크로어레이는 Agilent Technologies로부터 입수가능한 SurePrint™ Technology와 같은 잉크젯 프린팅 방법들을 사용하여 제조되는 것이다.

다른 유용한 어레이들은 핵산 서열분석 응용들에 사용되는 것들을 포함한다. 예를 들어, 문헌[Bentley et al., Nature 456:53-59 (2008)], WO 04/018497호; WO 91/06678호; WO 07/123744호; 미국 특허 제7,329,492호; 제7,211,414호; 제7,315,019호; 제7,405,281호, 또는 제7,057,026호; 또는 미국 특허 출원 공개 제2008/0108082 A1호에 기재된 것들과 같은, 게놈 단편들(종종 클러스터들로 지칭됨)의 앰플리콘들을 갖는 어레이들이 특히 유용하고, 상기 특허들 및 출원들 각각은 본 명세서에 참고로 포함된다. 핵산 서열분석에 유용한 다른 유형의 어레이는 에멀젼 PCR 기법으로부터 생성된 입자들의 어레이이다. 예들은 문헌[Dressman et al., Proc. Natl. Acad. Sci. USA 100:8817-8822 (2003)], WO 05/010145호, 미국 특허 출원 공개 제2005/0130173호 또는 미국 특허 출원 공개 제2005/0064460호에 기재되어 있고, 상기 출원들 각각은 전체가 본 명세서에 참고로 포함된다.

핵산 서열분석에 사용되는 어레이들은 종종 핵산 분석물들의 랜덤 공간 패턴들을 갖는다. 예를 들어, Illumina Inc.(미국 캘리포니아주 샌디에고 소재)로부터 입수가능한 HiSeq 또는 MiSeq 서열분석 플랫폼들은 랜덤 시딩 및 후속되는 브리지 증폭에 의해 핵산 어레이들이 형성되는 플로우 셀들을 활용한다. 그러나, 패턴화된 어레이들은 또한 핵산 서열분석 또는 다른 분석 응용들을 위해 사용될 수 있다. 예시적인 패턴화된 어레이들, 이들의 제조 방법들 및 이들의 사용 방법들이 미국 특허 제13/787,396호; 미국 특허 제13/783,043호; 미국 특허 제13/784,368호; 미국 특허 출원 공개 제2013/0116153 A1호; 및 미국 특허 출원 공개 제2012/0316086 A1호에 기재되어 있고, 상기 특허들 및 출원들 각각은 본 명세서에 참고로 포함된다. 그러한 패턴화된 어레이들의 분석물들은, 예를 들어 브리지 증폭을 통해, 균질한 콜로니의 후속 형성을 시딩하기 위해 단일 핵산 템플릿 분자를 캡처하는 데 사용될 수 있다. 이러한 패턴화된 어레이들은 핵산 서열분석 응용들에 특히 유용하다.

어레이 상의 분석물(또는 본 명세서의 방법 또는 시스템에 사용되는 다른 객체)의 크기는 특정 응용에 적합하도록 선택될 수 있다. 예를 들어, 일부 구현예들에서, 어레이의 분석물은 단일 핵산 분자만을 수용하는 크기를 가질 수 있다. 이러한 크기 범위 내의 복수의 분석물들을 갖는 표면은 단일 분자 분해능에서의 검출을 위해 분자들의 어레이를 구성하는 데 유용하다. 이러한 크기 범위의 분석물들은, 또한, 핵산 분자들의 콜로니를 각각 함유하는 분석물들을 갖는 어레이들에서 사용하는 데 유용하다. 따라서, 어레이의 분석물들 각각은 약 1 ㎟ 이하, 약 500 μm² 이하, 약 100 μm² 이하, 약 10 μm² 이하, 약 1 μm² 이하, 약 500 nm² 이하, 또는 약 100 nm² 이하, 약 10 nm² 이하, 약 5 nm² 이하, 또는 약 1 nm² 이하인 영역을 가질 수 있다. 대안으로 또는 추가로, 어레이의 분석물들은 약 1 ㎟ 이상, 약 500 μm² 이상, 약 100 μm² 이상, 약 10 μm² 이상, 약 1 μm² 이상, 약 500 nm² 이상, 약 100 nm² 이상, 약 10 nm² 이상, 약 5 nm² 이상, 또는 약 1 nm² 이상일 것이다. 사실상, 분석물은 상기에서 예시된 것들로부터 선택되는 상한과 하한 사이의 범위 내에 있는 크기를 가질 수 있다. 표면의 분석물들에 대한 몇몇 크기 범위들이 핵산과 관련하여 그리고 핵산의 스케일로 예시되었지만, 이들 크기 범위들 내의 분석물들은 핵산을 포함하지 않는 응용들을 위해 사용될 수 있음이 이해될 것이다. 분석물들의 크기는 반드시 핵산 응용들을 위해 사용되는 스케일로 한정될 필요는 없다는 것이 추가로 이해될 것이다.

분석물들의 어레이와 같은 복수의 분석물들을 갖는 객체를 포함하는 구현예들의 경우, 분석물들은 별개로 존재하여, 서로간에 공간들로 분리되어 있을 수 있다. 본 발명에 유용한 어레이는 최대 100 μm, 50 μm, 10 μm, 5 μm, 1 μm, 0.5 μm, 또는 그 미만의 에지-에지 거리에 의해 분리되는 분석물들을 가질 수 있다. 대안으로 또는 추가로, 어레이는 최소 0.5 μm, 1 μm, 5 μm, 10 μm, 50 μm, 100 μm, 또는 그 초과의 에지-에지 거리에 의해 분리되는 분석물들을 가질 수 있다. 이들 범위들은 분석물들에 대한 평균 에지-에지 간격뿐만 아니라 최소 또는 최대 간격에 적용될 수 있다.

일부 구현예들에서, 어레이의 분석물들은 개별적일 필요가 없고, 그 대신, 이웃 분석물들이 서로 접해 있을 수 있다. 분석물이 개별적이든 아니든, 분석물들의 크기 및/또는 분석물들의 피치는 어레이들이 원하는 밀도를 가질 수 있도록 변동될 수 있다. 예를 들어, 규칙적인 패턴의 평균 분석물 피치는 최대 100 μm, 50 μm, 10 μm, 5 μm, 1 μm, 0.5 μm, 또는 그 미만일 수 있다. 대안으로 또는 추가로, 규칙적인 패턴의 평균 분석물 피치는 최소 0.5 μm, 1 μm, 5 μm, 10 μm, 50 μm, 100 μm, 또는 그 초과일 수 있다. 이들 범위들은 마찬가지로 규칙적인 패턴에 대해서도 최대 또는 최소 피치에 적용될 수 있다. 예를 들어, 규칙적인 패턴에 대한 최대 분석물 피치는 최대 100 μm, 50 μm, 10 μm, 5 μm, 1 μm, 0.5 μm, 또는 그 미만일 수 있고/있거나; 규칙적인 패턴의 최소 분석물 피치는 최소 0.5 μm, 1 μm, 5 μm, 10 μm, 50 μm, 100 μm, 또는 그 초과일 수 있다.

어레이 내의 분석물들의 밀도는 또한 단위 면적당 존재하는 분석물들의 수의 관점에서 이해될 수 있다. 예를 들어, 어레이에 대한 분석물들의 평균 밀도는 최소 약 1x10³개의 분석물/㎟, 1x10⁴개의 분석물/㎟, 1x10⁵개의 분석물/㎟, 1x10⁶개의 분석물/㎟, 1x10⁷개의 분석물/㎟, 1x10⁸개의 분석물/㎟, 또는 1x10⁹개의 분석물/㎟, 또는 그 초과일 수 있다. 대안으로 또는 추가로, 어레이에 대한 분석물들의 평균 밀도는 최대 약 1x10⁹개의 분석물/㎟, 1x10⁸개의 분석물/㎟, 1x10⁷개의 분석물/㎟, 1x10⁶개의 분석물/㎟, 1x10⁵개의 분석물/㎟, 1x10⁴개의 분석물/㎟, 또는 1x10³개의 분석물/㎟, 또는 그 미만일 수 있다.

상기 범위들은, 예를 들어 분석물들의 어레이의 전부 또는 일부를 포함하는 규칙적인 패턴의 전부 또는 일부에 적용될 수 있다.

소정 패턴의 분석물들은 다양한 형상들 중 임의의 것을 가질 수 있다. 예를 들어, 어레이의 표면 상에서와 같은 2차원 평면에서 관찰될 때, 분석물들은 둥근형, 원형, 타원형, 직사각형, 정사각형, 대칭, 비대칭, 삼각형, 다각형 등으로 보일 수 있다. 분석물들은, 예를 들어 육각형 또는 직선 패턴을 포함하는 규칙적인 반복 패턴으로 배열될 수 있다. 원하는 레벨의 패킹을 달성하도록 패턴이 선택될 수 있다. 예를 들어, 둥근형 분석물들은 육각형 배열에서 최적으로 패킹된다. 물론, 다른 패킹 배열들이 또한 둥근형 분석물들에 사용될 수 있고, 그 반대도 마찬가지이다.

패턴은 패턴의 최소 기하학적 단위를 형성하는 서브세트에 존재하는 분석물들의 수의 관점에서 특성화될 수 있다. 서브세트는, 예를 들어, 최소 약 2, 3, 4, 5, 6, 10개 또는 그 초과의 분석물들을 포함할 수 있다. 분석물들의 크기 및 밀도에 따라, 기하학적 단위는 1 ㎟, 500 μm², 100 μm², 50 μm², 10 μm², 1 μm², 500 nm², 100 nm², 50 nm², 10 nm² 미만, 또는 그 미만의 면적을 점유할 수 있다. 대안으로 또는 추가로, 기하학적 단위는 10 nm², 50 nm², 100 nm², 500 nm², 1 μm², 10 μm², 50 μm², 100 μm², 500 μm², 1 ㎟ 초과, 또는 그 초과의 면적을 점유할 수 있다. 형상, 크기, 피치 등과 같은 기하학적 단위 내의 분석물들의 특성들은, 소정 어레이 또는 패턴의 분석물들과 관련하여, 본 명세서에서 더욱 대체적으로 기술된 것들로부터 선택될 수 있다.

분석물들의 규칙적인 패턴을 갖는 어레이는 분석물들의 상대 위치들에 대해 순서화될 수 있지만, 각각의 분석물의 하나 이상의 다른 특성에 대해서는 랜덤할 수 있다. 예를 들어, 핵산 어레이의 경우에, 핵산 분석물들은 그들의 상대 위치들에 대해 순서화될 수 있지만, 임의의 특정 분석물에 존재하는 핵산 종에 대한 서열의 지식에 대해서는 랜덤할 수 있다. 더 구체적인 예로서, 템플릿 핵산을 반복 패턴의 분석물들에 시딩하고 (예컨대, 클러스터 증폭 또는 브리지 증폭을 통해) 각각의 분석물에서의 템플릿을 증폭시켜 분석물에서의 템플릿의 복제물들을 형성함으로써 형성된 핵산 어레이들은 규칙적인 패턴의 핵산 분석물들을 가질 것이지만, 어레이에 걸쳐서 핵산들의 서열들의 분포에 관해서는 랜덤할 것이다. 따라서, 대체적으로 어레이 상의 핵산 재료의 존재의 검출은 분석물들의 반복 패턴을 안출할 수 있는 반면, 서열 특이적 검출은 어레이에 걸쳐서 신호들의 비-반복 분포를 안출할 수 있다.

패턴들, 순서, 랜덤성 등에 관한 본 명세서에서의 설명은 어레이들 상의 분석물들과 같은 객체들 상의 분석물들뿐만 아니라 이미지들 내의 분석물들과도 관련된다는 것이 이해될 것이다. 이와 같이, 패턴, 순서, 랜덤성 등은, 컴퓨터 판독가능 매체 또는 컴퓨터 컴포넌트, 예컨대 그래픽 사용자 인터페이스 또는 다른 출력 디바이스를 포함하지만 이로 제한되지 않는, 이미지 데이터를 저장, 조작 또는 통신하는 데 사용되는 다양한 포맷들 중 임의의 것으로 존재할 수 있다.

본 명세서에 사용되는 바와 같이, 용어 "이미지"는 객체의 전부 또는 일부의 표현을 의미하도록 의도된다. 표현은 광학적으로 검출되는 재생(reproduction)일 수 있다. 예를 들어, 이미지는 형광, 발광, 산란, 또는 흡수 신호들로부터 획득될 수 있다. 이미지에 존재하는 객체의 부분은 객체의 표면 또는 다른 xy 평면일 수 있다. 전형적으로, 이미지는 2차원 표현이지만, 일부 경우들에 있어서, 이미지 내의 정보는 3개 이상의 치수들로부터 도출될 수 있다. 이미지는 광학적으로 검출된 신호들을 포함할 필요가 없다. 비광학적 신호들이 대신 존재할 수 있다. 이미지는 본 명세서의 다른 곳에 기술된 것들 중 하나 이상과 같은 컴퓨터 판독가능 포맷 또는 매체에서 제공될 수 있다.

본 명세서에 사용되는 바와 같이, "이미지"는 시료 또는 다른 객체의 적어도 일부분의 재생 또는 표현을 지칭한다. 일부 구현예들에서, 재생은, 예를 들어 카메라 또는 다른 광학 검출기에 의해 생성되는 광학적 재생이다. 재생은 비-광학적 재생, 예를 들어, 나노포어 분석물들의 어레이로부터 획득된 전기 신호들의 표현 또는 이온-감수성 CMOS 검출기로부터 획득된 전기 신호들의 표현일 수 있다. 특정 구현예들에서, 비-광학적 재생들은 본 명세서에 기술된 방법 또는 장치로부터 배제될 수 있다. 이미지는, 예를 들어 100 μm, 50 μm, 10 μm, 5 μm, 1 μm 또는 0.5 μm 미만만큼 분리되는 것들을 포함하는 다양한 간격들 중 임의의 간격으로 존재하는 시료의 분석물들을 구별할 수 있는 해상도를 가질 수 있다.

본 명세서에 사용되는 바와 같이, "획득하는", "획득" 및 유사 용어들은 이미지 파일을 획득하는 프로세스의 임의의 부분을 지칭한다. 일부 구현예들에서, 데이터 획득은 시료의 이미지를 생성하는 것, 시료 내의 신호를 검색하는 것, 검출 디바이스가 신호의 이미지를 검색하거나 생성할 것을 지시하는것, 이미지 파일의 추가 분석 또는 변환을 위한 명령어들을 제공하는 것, 그리고 이미지 파일의 임의의 수의 변환들 또는 조작들을 포함할 수 있다.

본 명세서에 사용되는 바와 같이, 용어 "템플릿"은 신호들 또는 분석물들 사이의 위치 또는 관계의 표현을 지칭한다. 따라서, 일부 구현예들에서, 템플릿은 시료 내의 분석물들에 대응하는 신호들의 표현을 갖는 물리적 그리드이다. 일부 구현예들에서, 템플릿은 차트, 테이블, 텍스트 파일, 또는 분석물들에 대응하는 위치들을 나타내는 다른 컴퓨터 파일일 수 있다. 본 명세서에 제시된 구현예들에서, 상이한 참조점들에서 캡처된 시료의 이미지들의 세트에 걸쳐서 시료의 분석물들의 위치를 추적하기 위해 템플릿이 생성된다. 예를 들어, 템플릿은 x, y 좌표들의 세트, 또는 다른 분석물에 대한 하나의 분석물의 방향 및/또는 거리를 설명하는 값들의 세트일 수 있다.

본 명세서에 사용되는 바와 같이, 용어 "시료"는 이미지가 캡처되는 객체 또는 객체의 영역을 지칭할 수 있다. 예를 들어, 지표면의 이미지들이 촬영되는 구현예들에서, 한 구획의 땅이 시료일 수 있다. 생물학적 분자들의 분석이 플로우 셀에서 수행되는 다른 구현예들에서, 플로우 셀은 임의의 수의 세분들로 분할될 수 있으며, 이들 각각은 시료일 수 있다. 예를 들어, 플로우 셀은 다양한 플로우 채널들 또는 레인들로 분할될 수 있고, 각각의 레인은 이미징되는 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30, 40, 50, 60 70, 80, 90, 100, 110, 120, 140, 160, 180, 200, 400, 600, 800, 1000개, 또는 그 초과의 별개의 영역들로 추가로 분할될 수 있다. 플로우 셀의 하나의 예는 8개의 레인들을 가지며, 각각의 레인은 120개의 시료들 또는 타일들로 분할된다. 다른 구현예에서, 시료는 복수의 타일들 또는 심지어 전체 플로우 셀로 구성될 수 있다. 따라서, 각각의 시료의 이미지는 이미징되는 더 큰 표면의 영역을 표현할 수 있다.

본 명세서에 기술된 범위들 및 순차적 번호 목록들에 대한 참조들은 열거된 숫자들뿐만 아니라 열거된 숫자들 사이의 모든 실수들을 포함한다는 것이 이해될 것이다.

본 명세서에 사용되는 바와 같이, "참조점"은 이미지들 사이의 임의의 시간적 또는 물리적 구별을 지칭한다. 바람직한 구현예에서, 참조점은 시점이다. 더 바람직한 구현예에서, 참조점은 서열분석 반응 동안의 일정 시점 또는 일정 사이클이다. 그러나, 용어 "참조점"은 이미지들을 구별하거나 분리할 수 있는 각도, 회전, 시간, 또는 다른 양상들과 같은, 이미지들을 구별하거나 분리하는 다른 양상들을 포함할 수 있다.

본 명세서에 사용되는 바와 같이, "이미지들의 서브세트"는 한 세트 내의 이미지들의 그룹을 지칭한다. 예를 들어, 서브세트는 이미지들의 세트로부터 선택된 1, 2, 3, 4, 6, 8, 10, 12, 14, 16, 18, 20, 30, 40, 50, 60개 또는 임의의 수의 이미지들을 포함할 수 있다. 특정 구현예들에서, 서브세트는 이미지들의 세트로부터 선택된 1, 2, 3, 4, 6, 8, 10, 12, 14, 16, 18, 20, 30, 40, 50, 60개 또는 임의의 수의 이하의 이미지들을 포함할 수 있다. 바람직한 구현예에서, 이미지들은 4개의 이미지들이 각각의 사이클에 상관되는 하나 이상의 서열분석 사이클들로부터 획득된다. 따라서, 예를 들어, 서브세트는 4개의 사이클들을 통해 획득된 16개의 이미지들의 그룹일 수 있다.

염기는 뉴클레오티드 염기 또는 뉴클레오티드, A(아데닌), C(시토신), T(티민), 또는 G(구아닌)를 지칭한다. 본 출원은 "염기(들)" 및 "뉴클레오티드(들)"를 상호교환가능하게 사용한다.

용어 "염색체"는 DNA 및 단백질 성분들(특히, 히스톤)을 포함하는 염색질 가닥들로부터 유래된, 살아있는 세포의 유전-보유 유전자 운반체(heredity-bearing gene carrier)를 지칭한다. 종래의 국제적으로 인식되는 개별 인간 게놈 염색체 넘버링 시스템이 본 발명에 채용된다.

용어 "부위"는 참조 게놈 상의 고유 포지션(예컨대, 염색체 ID, 염색체 포지션 및 배향)을 지칭한다. 일부 구현예들에서, 부위는 서열 상의 잔기, 서열 태그, 또는 세그먼트의 포지션일 수 있다. 용어 "좌위(locus)"는 참조 염색체 상의 핵산 서열 또는 다형성의 특정 위치를 지칭하는 데 사용될 수 있다.

본 명세서에서 용어 "샘플"은, 전형적으로, 서열분석되고/되거나 페이징될(phased) 적어도 하나의 핵산 서열을 함유하는 핵산 또는 핵산 혼합물을 함유하는 생물학적 유체, 세포, 조직, 기관, 또는 유기체로부터 유래된 샘플을 지칭한다. 그러한 샘플들은 가래/구강액, 양수, 혈액, 혈액 분획물, 미세 니들 생검 샘플(예컨대, 외과용 생검, 미세 니들 생검 등), 소변, 복막액, 흉수, 조직 외식체, 기관 배양물 및 임의의 다른 조직 또는 세포 조제물, 또는 이들의 또는 이들로부터 단리된 분획물 또는 유도체를 포함하지만, 이들로 제한되지 않는다. 샘플은 종종 인간 대상(예컨대, 환자)으로부터 취해지지만, 샘플들은 개, 고양이, 말, 염소, 양, 소, 돼지 등을 포함하지만 이들로 한정되지 않는, 염색체들을 갖는 임의의 유기체로부터 취해질 수 있다. 샘플은 생물학적 소스로부터 획득된 그대로 직접 사용되거나, 또는 샘플의 특성을 변형시키기 위한 전처리 후에 사용될 수 있다. 예를 들어, 그러한 전처리는 혈액으로부터 혈장을 준비하는 것, 점성 유체들을 희석시키는 것 등을 포함할 수 있다. 전처리의 방법들은, 또한, 여과, 침전, 희석, 증류, 혼합, 원심분리, 동결, 동결건조, 농축, 증폭, 핵산 단편화, 방해 성분의 불활성화, 시약의 첨가, 용해 등을 수반할 수 있지만, 이들로 한정되지 않는다.

용어 "서열"은 서로 커플링된 뉴클레오티드들의 가닥을 포함하거나 표현한다. 뉴클레오티드는 DNA 또는 RNA에 기반할 수 있다. 하나의 서열은 다수의 하위서열들을 포함할 수 있다는 것이 이해되어야 한다. 예를 들어, (예컨대, PCR 앰플리콘의) 단일 서열은 350개의 뉴클레오티드를 가질 수 있다. 샘플 판독물은 이들 350개의 뉴클레오티드 내에 다수의 하위서열들을 포함할 수 있다. 예를 들어, 샘플 판독물은, 예를 들어, 20 내지 50개의 뉴클레오티드를 갖는 제1 및 제2 플랭킹 하위서열들을 포함할 수 있다. 제1 및 제2 플랭킹 하위서열들은 대응하는 하위서열(예컨대, 40 내지 100개의 뉴클레오티드)을 갖는 반복 세그먼트의 양측에 위치될 수 있다. 플랭킹 하위서열들 각각은 프라이머 하위서열(예컨대, 10 내지 30개의 뉴클레오티드)을 포함할 수 있다(또는 그의 부분들을 포함할 수 있다). 읽기의 용이함을 위해, 용어 "하위서열"은 "서열"로 지칭될 것이지만, 2개의 서열들이 공통 가닥 상에서 반드시 서로 분리되지는 않는다는 것이 이해된다. 본 명세서에 기술된 다양한 서열들을 구별하기 위하여, 서열들에는 상이한 라벨들(예컨대, 표적 서열, 프라이머 서열, 플랭킹 서열, 참조 서열 등)이 주어질 수 있다. "대립유전자"와 같은 다른 용어들에는 유사한 객체들 사이를 구별하기 위해 상이한 라벨들이 주어질 수 있다. 본 출원은 "판독물(들)" 및 "서열 판독물(들)"을 상호교환가능하게 사용한다.

용어 "쌍형성된-말단 서열분석(paired-end sequencing)"은 표적 단편의 양쪽 말단을 서열분석하는 서열분석 방법들을 지칭한다. 쌍형성된-말단 서열분석은 게놈 재배열들 및 반복적 세그먼트들뿐만 아니라 유전자 융합체들 및 신규한 전사체들의 검출을 용이하게 할 수 있다. 쌍형성된-말단 서열분석을 위한 방법은, PCT 공개 WO07010252호, PCT 출원 PCTGB2007/003798호 및 미국 특허 출원 공개 제2009/0088327호에 기재되어 있으며, 상기 출원들 각각은 본 명세서에 참고로 포함된다. 하나의 예에서, 일련의 동작들이 하기와 같이 수행될 수 있다; (a) 핵산들의 클러스터들을 생성하고; (b) 핵산들을 선형화하고; (c) 제1 서열분석 프라이머를 혼성화하고, 상기에 기재된 바와 같이, 연장, 스캐닝 및 탈블록킹의 반복된 사이클들을 수행하고; (d) 상보적인 복제물을 합성함으로써 플로우 셀 표면 상의 표적 핵산을 "역위"시키고; (e) 재합성된 가닥을 선형화하고; (f) 제2 서열분석 프라이머를 혼성화하고, 상기에 기재된 바와 같이, 연장, 스캐닝 및 탈블록킹의 반복된 사이클을 수행한다. 역위 동작은 단일 사이클의 브리지 증폭에 대해 전술된 바와 같이 시약을 전달하여 수행될 수 있다.

용어 "참조 게놈" 또는 "참조 서열"은 대상체로부터 식별된 서열들을 참조하기 위해 사용될 수 있는 임의의 유기체의, 부분적이든 완전하든, 임의의 특정의 공지된 게놈 서열을 지칭한다. 예를 들어, 인간 대상체에 사용되는 참조 게놈뿐만 아니라 많은 다른 유기체들이 ncbi.nlm.nih.gov.에서의 국립 생물공학 정보 센터(National Center for Biotechnology Information)에서 찾아질 수 있다. "게놈"은 핵산 서열들에서 발현되는, 유기체 또는 바이러스의 완전한 유전자 정보를 지칭한다. 게놈은 DNA의 유전자들 및 논코딩 서열들 둘 모두를 포함한다. 참조 서열은 그에 정렬된 판독물들보다 클 수 있다. 예를 들어, 그것은 최소 약 100배 더 크거나, 또는 최소 약 1000배 더 크거나, 또는 최소 약 10,000배 더 크거나, 또는 최소 약 105배 더 크거나, 또는 최소 약 106배 더 크거나, 또는 최소 약 107배 더 클 수 있다. 하나의 예에서, 참조 게놈 서열은 전장 인간 게놈의 것이다. 다른 예에서, 참조 게놈 서열은 염색체 13과 같은 특정 인간 염색체로 제한된다. 일부 구현예들에서, 참조 염색체는 인간 게놈 버전 hg19로부터의 염색체 서열이다. 이러한 서열들은 염색체 참조 서열들로 지칭될 수 있지만, 용어 "참조 게놈"은 이러한 서열들을 포함하도록 의도된다. 참조 서열들의 다른 예들은 임의의 종의 염색체, 하위-염색체 영역들(예를 들어, 가닥들) 등뿐만 아니라 다른 종의 게놈들을 포함한다. 다양한 구현예들에서, 참조 게놈은 다수의 개체들로부터 유래된 공통 서열 또는 다른 조합이다. 그러나, 소정 응용들에서, 참조 서열은 특정 개체로부터 취해질 수 있다. 다른 구현예들에서, "게놈"은, 또한, 소위 "그래프 게놈들"을 포함하는데, 이는 게놈 서열의 특정 저장 포맷 및 표현을 사용한다. 하나의 구현예에서, 그래프 게놈들은 선형 파일에 데이터를 저장한다. 다른 구현예에서, 그래프 게놈들은 선택적 서열들(예컨대, 작은 차이들을 갖는 염색체의 상이한 복제물들)이 그래프에서 상이한 경로들로서 저장되는 표현을 지칭한다. 그래프 게놈 구현예들에 관한 추가 정보는 https://www.biorxiv.org/content/biorxiv/early/2018/03/20/194530.full.pdf에서 찾을 수 있으며, 그 내용은 이로써 전체가 본 명세서에 참고로 포함된다.

용어 "판독물"은 뉴클레오티드 샘플 또는 참조물의 단편을 설명하는 서열 데이터의 수집물을 지칭한다. 용어 "판독물"은 샘플 판독물 및/또는 참조 판독물을 지칭할 수 있다. 필수적인 것은 아니지만, 전형적으로, 판독물은 샘플 또는 참조물 내의 인접 염기 쌍들의 짧은 서열을 표현한다. 판독물은 샘플 또는 참조 단편의 (ATCG에서의) 염기 쌍 서열에 의해 상징적으로 표현될 수 있다. 그것은 메모리 디바이스에 저장될 수 있으며, 판독물이 참조 서열과 매칭하는지 또는 다른 기준을 충족시키는지 여부를 결정하기 위해 경우에 따라 프로세싱될 수 있다. 판독물은 서열분석 장치로부터 직접 획득되거나 샘플에 관하여 저장된 서열 정보로부터 간접적으로 획득될 수 있다. 일부 경우들에 있어서, 판독물은, 예컨대 염색체 또는 게놈 영역 또는 유전자에 정렬되고 특이적으로 배정될 수 있는 더 큰 서열 또는 영역을 식별하는 데 사용될 수 있는 충분한 길이(예컨대, 최소 약 25 bp)의 DNA 서열이다.

차세대 서열분석 방법들은, 예를 들어 합성 기술에 의한 서열분석(Illumina), 파이로서열분석(454), 이온 반도체 기술(Ion Torrent 서열분석), 단일 분자 실시간 서열분석(Pacific Biosciences) 및 결찰에 의한 서열분석(SOLiD 서열분석)을 포함한다. 서열분석 방법들에 따라, 각각의 판독물의 길이는 약 30 bp 내지 10,000 bp 초과로 달라질 수 있다. 예를 들어, SOLiD 서열분석기를 사용한 DNA 서열분석 방법은 약 50 bp의 핵산 판독물들을 생성한다. 다른 예에서, Ion Torrent 서열분석은 최대 400 bp의 핵산 판독물들을 생성하고, 454 파이로서열분석은 약 700 bp의 핵산 판독물들을 생성한다. 또 다른 예에서, 단일 분자 실시간 서열분석 방법들은 10,000 bp 내지 15,000 bp의 판독물들을 생성할 수 있다. 따라서, 소정 구현예들에서, 핵산 서열 판독물들은 30 내지 100 bp, 50 내지 200 bp, 또는 50 내지 400 bp의 길이를 갖는다.

용어들 "샘플 판독물", "샘플 서열" 또는 "샘플 단편"은 샘플로부터의 관심 게놈 서열에 대한 서열 데이터를 지칭한다. 예를 들어, 샘플 판독물은 정방향 및 역방향 프라이머 서열을 갖는 PCR 앰플리콘으로부터의 서열 데이터를 포함한다. 서열 데이터는 임의의 선택 서열 방법으로부터 획득될 수 있다. 샘플 판독물은, 예를 들어, SBS 반응, 결찰에 의한 서열분석(sequencing-by-ligation) 반응, 또는 반복적 요소의 길이 및/또는 정체를 결정할 것을 요구하는 임의의 다른 적합한 서열분석 방법으로부터의 것일 수 있다. 샘플 판독물은 다수의 샘플 판독물들로부터 유래된 공통(예컨대, 평균된 또는 가중된) 서열일 수 있다. 소정 구현예들에서, 참조 서열을 제공하는 것은, PCR 앰플리콘의 프라이머 서열에 기초하여 관심 좌위를 식별하는 것을 포함한다.

용어 "원시 단편"은 샘플 판독물 또는 샘플 단편 내의 지정된 관심 포지션 또는 2차 관심 포지션과 적어도 부분적으로 중첩하는 관심 게놈 서열의 일부분에 대한 서열 데이터를 지칭한다. 원시 단편들의 비제한적인 예들은 이중체 스티치(duplex stitched) 단편, 단일체 스티치(simplex stitched) 단편, 이중체 비-스티치 단편 및 단일체 비-스티치 단편을 포함한다. 용어 "원시"는, 원시 단편이 샘플 판독물 내의 잠재적 변이체에 대응하고 그를 증명 또는 확인하는 지지 변이체를 나타내는지의 여부와는 관계없이, 원시 단편이 샘플 판독물 내의 서열 데이터와 어떠한 관계를 갖는 서열 데이터를 포함함을 나타내는 데 사용된다. 용어 "원시 단편"은, 그러한 단편이 샘플 판독물에서 변이체 호출을 입증하는 지지 변이체를 반드시 포함함을 나타내지는 않는다. 예를 들어, 샘플 판독물이 변이체 호출 애플리케이션에 의해 제1 변이체를 나타내도록 결정될 때, 변이체 호출 애플리케이션은, 하나 이상의 원시 단편들이, 샘플 판독물 내의 변이체를 고려하여 발생할 것으로 달리 예상될 수 있는 대응하는 유형의 "지지" 변이체가 결여되어 있다고 결정할 수 있다.

용어들 "맵핑", "정렬된", "정렬" 또는 "정렬하는"은 판독물 또는 태그를 참조 서열과 비교하고 이에 의해 참조 서열이 판독물 서열을 포함하는지의 여부를 결정하는 프로세스를 지칭한다. 참조 서열이 판독물을 포함하는 경우, 판독물은 참조 서열에 맵핑될 수 있거나, 또는 소정 구현예들에서, 참조 서열 내의 특정 위치에 맵핑될 수 있다. 일부 경우들에 있어서, 정렬은 판독물이 특정 참조 서열의 구성원인지의 여부(즉, 판독물이 참조 서열에 존재하는지 아니면 존재하지 않는지)를 간단히 알려준다. 예를 들어, 인간 염색체 13에 대한 참조 서열과 판독물의 정렬은 판독물이 염색체 13에 대한 참조 서열에 존재하는지의 여부를 알려줄 것이다. 이러한 정보를 제공하는 툴은 세트 멤버십 테스터(set membership tester)로 칭해질 수 있다. 일부 경우들에 있어서, 정렬은, 추가로, 판독물 또는 태그가 맵핑하는 참조 서열 내의 위치를 나타낸다. 예를 들어, 참조 서열이 전체 인간 게놈 서열인 경우, 정렬은 판독물이 염색체 13 상에 존재함을 나타낼 수 있고, 판독물이 염색체 13의 특정 가닥 및/또는 부위 상에 있음을 추가로 나타낼 수 있다.

용어 "인델(indel)"은 유기체의 DNA 내에서의 염기들의 삽입 및/또는 결실을 지칭한다. 마이크로-인델(micro-indel)은 1 내지 50개의 뉴클레오티드의 순(net) 변화를 야기하는 인델을 표현한다. 게놈의 코딩 영역들에서, 인델의 길이가 3의 배수가 아닌 한, 그것은 프레임시프트 돌연변이(frameshift mutation)를 생성할 것이다. 인델들은 점 돌연변이들과 대조될 수 있다. 인델은 뉴클레오티드를 삽입하고 서열로부터 삭제하는 반면, 점 돌연변이는 DNA 내의 뉴클레오티드들의 전체 수를 변화시키지 않고서 뉴클레오티드들 중 하나를 대체하는 치환의 형태이다. 인델은, 또한, TBM(Tandem Base Mutation, 탠덤 염기 돌연변이)과 대조될 수 있는데, TBM은 인접한 뉴클레오티드에서 치환으로서 정의될 수 있다(2개의 인접한 뉴클레오티드에서의 치환이 주로 관찰되었지만, 3개의 인접한 뉴클레오티드에서 치환이 관찰되었다).

용어 "변이체"는 핵산 참조물과는 상이한 핵산 서열을 지칭한다. 전형적인 핵산 서열 변이체는, 제한 없이, 단일 뉴클레오티드 다형성(single nucleotide polymorphism, SNP), 짧은 결실 및 삽입 다형성(Indel), 복제 수 변이(copy number variation, CNV), 미소부수체(microsatellite) 마커 또는 짧은 탠덤 반복체 및 구조적 변이를 포함한다. 체세포 변이체 호출은 DNA 샘플에서 낮은 빈도로 존재하는 변이체들을 식별하기 위한 노력이다. 체세포 변이체 호출은 암 치료와 관련하여 관심이 있다. 암은 DNA에서 돌연변이들의 축적에 의해 야기된다. 종양으로부터의 DNA 샘플은 대체적으로 불균질하며, 이는 일부 정상 세포들, 암 진행의 초기 단계에 있는 일부 세포들(돌연변이들이 더 적음), 및 일부 후기 단계 세포들(돌연변이들이 더 많음)을 포함한다. 이러한 이종성 때문에, (예컨대, FFPE 샘플로부터) 종양을 서열분석할 때, 체세포 돌연변이들은 종종 낮은 빈도로 출현될 것이다. 예를 들어, SNV는 주어진 염기를 커버하는 판독물들의 단지 10%에서만 관찰될 수 있다. 변이체 분류기에 의해 체세포 또는 생식세포계열(germline)로서 분류하려는 변이체는 본 명세서에서 "테스트 중인 변이체"로도 지칭된다.

용어 "잡음"은 서열분석 프로세스에서 그리고/또는 변이체 호출 애플리케이션에서 하나 이상의 에러들에 기인하는 오인된 변이체 호출을 지칭한다.

용어 "변이체 빈도"는 분율 또는 백분율로 표현된, 집단 내의 특정 좌위에서의 대립유전자(유전자의 변이체)의 상대 빈도를 표현한다. 예를 들어, 분율 또는 백분율은 그러한 대립유전자를 지니는 집단 내의 모든 염색체들의 분율일 수 있다. 예로서, 샘플 변이체 빈도는 개체로부터의 관심 게놈 서열에 대해 획득된 판독물들 및/또는 샘플들의 수에 대응하는 "집단"에 걸쳐서 관심 게놈 서열을 따르는 특정 좌위/포지션에서의 대립유전자/변이체의 상대 빈도를 표현한다. 다른 예로서, 기저선 변이체 빈도는 정상 개체들의 집단으로부터 하나 이상의 기저선 게놈 서열들에 대해 판독물들 및/또는 샘플들의 수에 해당하는 "집단"이 획득했던 하나 이상의 기저선 게놈 서열들을 따르는 특정 좌위/포지션에서의 대립유전자/변이체의 상대 빈도를 표현한다.

용어 "변이체 대립유전자 빈도(VAF)"는 변이체와 매칭하는 것으로 관찰된 서열분석된 판독물들을 표적 포지션에서의 전체 커버리지로 나눈 값의 백분율을 지칭한다. VAF는 변이체를 지니는 서열분석된 판독물들의 비율의 척도이다.

용어들 "포지션", "지정된 포지션", 및 "좌위"는 뉴클레오티드의 서열 내의 하나 이상의 뉴클레오티드의 위치 또는 좌표를 지칭한다. 용어들 "포지션", "지정된 포지션", 및 "좌위"는 또한 뉴클레오티드의 서열 내의 하나 이상의 염기 쌍들의 위치 또는 좌표를 지칭한다.

용어 "하플로타입(haplotype)"은 함께 유전되는 염색체 상의 인접한 부위들에서의 대립유전자들의 조합을 지칭한다. 하플로타입은, 만약 발생하였다면, 제공된 세트의 좌위들 사이에서 발생하였던 재조합 사건들의 수에 따라, 하나의 좌위, 수 개의 좌위, 또는 전체 염색체일 수 있다.

본 명세서에서 용어 "역치(threshold)"는 샘플, 핵산, 또는 그의 일부분(예컨대, 판독물)을 특성화하기 위한 컷오프로서 사용되는 수치 값 또는 비-수치 값을 지칭한다. 역치는 경험적 분석에 기초하여 달라질 수 있다. 역치는 측정되거나 계산된 값과 비교되어, 그러한 값을 발생시킨 소스가 특정 방식으로 분류되어야 하는지의 여부를 결정하게 할 수 있다. 역치 값은 경험적으로 또는 분석적으로 식별될 수 있다. 역치의 선택은 사용자가 분류를 행해야 하는 것으로 원하는 신뢰도의 레벨에 의존한다. 역치는 특정 목적을 위해(예컨대, 감도와 선택도의 균형을 맞추도록) 선택될 수 있다. 본 명세서에 사용되는 바와 같이, 용어 "역치"는 분석 과정이 변경될 수 있는 지점 및/또는 행동이 촉발될 수 있는 지점을 나타낸다. 역치는 미리결정된 수일 것이 요구되지 않는다. 대신에, 역치는, 예를 들어, 복수의 인자들에 기초하는 함수일 수 있다. 역치는 상황들에 적응적일 수 있다. 더욱이, 역치는 상한, 하한, 또는 한계들 사이의 범위를 나타낼 수 있다.

일부 구현예들에서, 서열분석 데이터에 기초하는 메트릭 또는 스코어가 역치와 비교될 수 있다. 본 명세서에 사용되는 바와 같이, 용어들 "메트릭" 또는 "스코어"는 서열분석 데이터로부터 결정되었던 값들 또는 결과들을 포함할 수 있거나, 또는 서열분석 데이터로부터 결정되었던 값들 또는 결과들에 기초한 함수들을 포함할 수 있다. 역치와 마찬가지로, 메트릭 또는 스코어는 상황들에 적응적일 수 있다. 예를 들어, 메트릭 또는 스코어는 정규화된 값일 수 있다. 스코어 또는 메트릭의 일례로서, 하나 이상의 구현예들은 데이터를 분석할 때 카운트 스코어들을 사용할 수 있다. 카운트 스코어는 샘플 판독물들의 수에 기초할 수 있다. 샘플 판독물들은 하나 이상의 필터링 단계들을 거쳤을 수 있으며, 이로써 샘플 판독물들이 적어도 하나의 공통 특성 또는 품질을 가질 수 있다. 예를 들어, 카운트 스코어를 결정하는 데 사용되는 샘플 판독물들 각각은 참조 서열과 정렬되었을 수 있거나, 또는 잠재적인 대립유전자로서 할당될 수 있다. 공통 특성을 갖는 샘플 판독물들의 수는 판독물 카운트를 결정하기 위해 카운팅될 수 있다. 카운트 스코어들은 판독물 카운트에 기초할 수 있다. 일부 구현예들에서, 카운트 스코어는 판독물 카운트와 동일한 값일 수 있다. 다른 구현예들에서, 카운트 스코어는 판독물 카운트 및 다른 정보에 기초할 수 있다. 예를 들어, 카운트 스코어는 유전자 좌위의 특정 대립유전자에 대한 판독물 카운트 및 유전자 좌위에 대한 판독물들의 총 수에 기초할 수 있다. 일부 구현예들에서, 카운트 스코어는 유전자 좌위에 대한 판독물 카운트 및 이전에 획득된 데이터에 기초할 수 있다. 일부 구현예들에서, 카운트 스코어들은 미리결정된 값들 사이의 정규화된 스코어들일 수 있다. 카운트 스코어는, 또한, 샘플의 다른 좌위들로부터의 판독물 카운트들의 함수 또는 관심 샘플과 동시에 러닝(running)되었던 다른 샘플들로부터의 판독물 카운트들의 함수일 수 있다. 예를 들어, 카운트 스코어는 특정 대립유전자의 판독물 카운트 및 샘플 내의 다른 좌위들의 판독물 카운트 및/또는 다른 샘플들로부터의 판독물 카운트들의 함수일 수 있다. 하나의 예로서, 다른 좌위들로부터의 판독물 카운트들 및/또는 다른 샘플들로부터의 판독물 카운트들은 특정 대립유전자에 대한 카운트 스코어를 정규화하는 데 사용될 수 있다.

용어들 "커버리지" 또는 "단편 커버리지"는 서열의 동일한 단편에 대한 샘플 판독물들의 수의 카운트 또는 다른 측정치를 지칭한다. 판독물 카운트는 대응하는 단편을 커버하는 판독물들의 수의 카운트를 나타낼 수 있다. 대안으로, 커버리지는 판독물 카운트를 이력 지식, 샘플의 지식, 좌위의 지식 등에 기초하는 지정된 인자와 곱함으로써 결정될 수 있다.

용어 "판독 깊이"(통상적으로 숫자에 이은 "×")는 표적 포지션에서의 중첩 정렬을 갖는 서열분석된 판독물들의 수를 지칭한다. 이는 종종(엑손, 유전자, 또는 패널과 같은) 한 세트의 구간들에 걸쳐서 컷오프를 초과하는 평균 또는 백분율로서 표현된다. 예를 들어, 임상 보고서에 따르면, 패널 평균 커버리지가 1,105×이고, 이때 표적화된 염기들의 98%가 100× 초과로 커버된다고 할 수 있다.

용어 "염기 호출 품질 스코어" 또는 "Q 스코어"는 단일의 서열분석된 염기가 정확할 확률에 반비례하는 0 내지 50 범위의 PHRED-스케일링된 확률을 지칭한다. 예를 들어, Q가 20인 T 염기 호출은 99.99%의 확률로 정확할 것으로 간주된다. Q < 20인 임의의 염기 호출은 저품질로 간주되어야 하고, 변이체를 지지하는 서열분석된 판독물들의 상당한 비율이 낮은 품질인 경우에 식별된 임의의 변이체는 잠재적으로 위양성(false positive)으로 간주되어야 한다.

용어 "변이체 판독물들" 또는 "변이체 판독물 수"는 변이체의 존재를 지지하는 서열분석된 판독물들의 수를 지칭한다.

"가닥형성(strandedness)"(또는 DNA strandedness)에 관하여, DNA 내의 유전자 메시지는 문자 A, G, C, 및 T의 문자열로서 표현될 수 있다. 예를 들어, 5' - AGGACA - 3'. 종종, 서열은 여기에 도시된 방향으로, 즉 5' 말단부가 좌측에 그리고 3' 말단부가 우측에 있는 방향으로 기록된다. DNA는 때때로 (소정 바이러스들에서와 같이) 단일 가닥 분자로서 발생할 수 있지만, 보통 이중 가닥 단위로서 DNA가 발견된다. 이는 2개의 역평행 가닥들을 갖는 이중 나선형 구조를 갖는다. 이러한 경우에, 단어 "역평행"은 2개의 가닥들이 평행하게 이어지지만 반대 극성을 갖는 것을 의미한다. 이중 가닥 DNA는 염기들 사이의 쌍형성에 의해 함께 유지되고, 쌍형성은 항상 아데닌(A)은 티민(T)과 쌍형성되고 시토신(C)은 구아닌(G)과 쌍형성되도록 한다. 이러한 쌍형성은 상보성으로 지칭되고, DNA의 하나의 가닥은 다른 가닥의 상보체라고 한다. 따라서, 이중 가닥 DNA는 하기와 같이 2개의 스트링들로서 표현될 수 있다: 5' - AGGACA - 3' 및 3' - TCCTGT - 5'. 2개의 가닥들은 반대 극성을 갖는다는 것에 주목하여야 한다. 따라서, 2개의 DNA 가닥들의 가닥형성은 참조 가닥 및 그의 상보체, 정방향 및 역방향 가닥들, 상부 및 하부 가닥들, 센스 및 안티센스 가닥들, 또는 왓슨 및 크릭 가닥들로 지칭될 수 있다.

판독물 정렬(판독물 맵핑으로도 칭해짐)은 서열이 게놈 내의 어디로부터 왔는지 알아내는 프로세스이다. 일단 정렬이 수행되면, 주어진 판독물의 "맵핑 품질" 또는 "맵핑 품질 스코어(MAPQ)"는 게놈 상의 그의 포지션이 정확할 확률을 정량화한다. 맵핑 품질은 P가 정렬이 정확하지 않을 확률인 PHRED 스케일로 인코딩된다. 확률은 하기와 같이 계산된다:

, 여기서 MAPQ는 맵핑 품질이다. 예를 들어, 40의 맵핑 품질 = 10의 -4승이고, 이는 판독이 부정확하게 정렬되었을 가능성이 0.01%인 것을 의미한다. 따라서, 맵핑 품질은, 판독물의 기본 품질, 참조 게놈의 복잡성, 및 쌍형성된 말단 정보와 같은 몇몇 정렬 인자들과 연관된다. 첫 번째에 관하여, 판독물의 기본 품질이 낮은 경우, 그것은 관찰된 서열이 부적절할 수 있고 따라서 그의 정렬이 부적절한 것을 의미한다. 두 번째에 관하여, 맵핑가능성(mappability)은 게놈의 복잡성을 지칭한다. 반복된 영역들은 맵핑하기가 더 어렵고, 이러한 영역들에 속하는 판독물들은 통상 낮은 맵핑 품질을 얻는다. 이러한 맥락에서, MAPQ는 판독물들이 고유하게 정렬되지 않고 그들의 실제 기원(real origin)이 결정될 수 없다는 사실을 반영한다. 세 번째에 관하여, 쌍형성된-말단 서열분석 데이터의 경우, 조화된 쌍(concordant pair)들은 잘 정렬될 가능성이 더 크다. 맵핑 품질이 높을수록, 정렬은 더 양호해진다. 양호한 맵핑 품질로 정렬된 판독은 판독된 서열이 양호하였고 높은 맵핑가능성 영역에서 미스매칭이 거의 없이 정렬되었음을 통상 의미한다. MAPQ 값은 정렬 결과들의 품질 제어로서 사용될 수 있다. 20 초과의 MAPQ로 정렬된 판독물들의 비율은 통상 하류 분석을 위한 것이다.

본 명세서에 사용되는 바와 같이, "신호"는, 예를 들어 이미지에서, 방출, 바람직하게는 광 방출과 같은 검출가능한 사건을 지칭한다. 따라서, 바람직한 구현예들에서, 신호는 이미지(즉, "스폿")에서 캡처되는 임의의 검출가능한 광 방출물을 나타낼 수 있다. 따라서, 본 명세서에 사용되는 바와 같이, "신호"는 시료의 분석물로부터의 실제 방출물을 지칭할 수 있고, 실제 분석물과 상관되지 않는 스퓨리어스(spurious) 방출물을 지칭할 수 있다. 따라서, 신호는 잡음으로부터 발생할 수 있고, 시료의 실제 분석물을 나타내지 않는 것으로서 나중에 폐기될 수 있다.

본 명세서에 사용되는 바와 같이, 용어 "클럼프(clump)"는 신호들의 그룹을 지칭한다. 특정 구현예들에서, 신호들은 상이한 분석물들로부터 도출된다. 바람직한 구현예에서, 신호 클럼프는 서로 클러스터링된 신호들의 그룹이다. 더 바람직한 구현예에서, 신호 클럼프는 하나의 증폭된 올리고뉴클레오티드에 의해 커버되는 물리적 영역을 나타낸다. 각각의 신호 클럼프는 이상적으로는, 몇몇 신호들(템플릿 사이클당 하나의 신호, 그리고 크로스-토크로 인해 가능한 더 많은 신호들)로서 관찰되어야 한다. 따라서, 2개의 (또는 그 이상의) 신호들이 신호들의 동일한 클럼프로부터의 템플릿에 포함되는 복제 신호들이 검출된다.

본 명세서에 사용되는 바와 같이, "최소", "최대", "최소화하다", "최대화하다" 및 이들의 문법적 변형들과 같은 용어는 절대 최대들 또는 최소들이 아닌 값들을 포함할 수 있다. 일부 구현예들에서, 값들은 근사 최대 및 근사 최소 값들을 포함한다. 다른 구현예들에서, 값들은 국소 최대 및/또는 국소 최소 값들을 포함할 수 있다. 일부 구현예들에서, 값들은 단지 절대 최대 또는 최소 값들만을 포함한다.

본 명세서에 사용되는 바와 같이, "크로스-토크"는 별개의 이미지에서 또한 검출되는 하나의 이미지에서의 신호들의 검출을 지칭한다. 바람직한 구현예에서, 크로스-토크는 방출된 신호가 2개의 별개의 검출 채널들에서 검출될 때 발생할 수 있다. 예를 들어, 방출된 신호가 하나의 컬러로 발생하는 경우, 그 신호의 방출 스펙트럼은 다른 컬러의 다른 방출된 신호와 중첩될 수 있다. 바람직한 구현예에서, 뉴클레오티드 염기들 A, C, G 및 T의 존재를 나타내는 데 사용되는 형광 분자들은 별개의 채널에서 검출된다. 그러나, A의 방출 스펙트럼과 C의 방출 스펙트럼이 중첩되기 때문에, C 컬러 신호의 일부는 A 컬러 채널을 사용한 검출 동안 검출될 수 있다. 따라서, A 신호와 C 신호 사이의 크로스-토크는 하나의 컬러 이미지로부터의 신호들이 다른 컬러 이미지에 나타날 수 있게 한다. 일부 구현예들에서, G와 T는 크로스-토크된다. 일부 구현예들에서, 채널들 사이의 크로스-토크의 양은 비대칭이다. 채널들 사이의 크로스-토크의 양은, 특히, 검출 채널의 크기 및 파장 범위의 선택뿐만 아니라 적절한 방출 스펙트럼을 갖는 신호 분자들의 선택에 의해 제어될 수 있다는 것이 이해될 것이다.

본 명세서에 사용되는 바와 같이, "정합하다", "정합함", "정합" 및 유사 용어는 제1 시점(time point) 또는 관점(perspective)으로부터의 이미지 또는 데이터 세트에서의 신호들을 다른 시점 또는 관점으로부터의 이미지 또는 데이터 세트에서의 신호들과 상관시키는 임의의 프로세스를 지칭한다. 예를 들어, 정합은 이미지들의 세트로부터의 신호들을 정렬하여 템플릿을 형성하는 데 사용될 수 있다. 다른 예에서, 정합은 다른 이미지들로부터의 신호들을 템플릿으로 정렬하는 데 사용될 수 있다. 하나의 신호는 다른 신호에 직접적으로 또는 간접적으로 정합될 수 있다. 예를 들어, 이미지 "S"로부터의 신호는 이미지 "G"에 직접 정합될 수 있다. 다른 예로서, 이미지 "N"으로부터의 신호가 이미지 "G"에 직접 정합될 수 있거나, 또는 대안으로, 이미지 "N"으로부터의 신호가 이미지 "G"에 이전에 정합되었던 이미지 "S"에 정합될 수 있다. 따라서, 이미지 "N"으로부터의 신호는 이미지 "G"에 간접적으로 정합된다.

본 명세서에 사용되는 바와 같이, 용어 "기점"은 객체 내의 또는 상의 참조물의 구별가능한 지점을 의미하도록 의도된다. 참조점은, 예를 들어, 마크, 제2 객체, 형상, 에지, 영역, 불규칙성, 채널, 피트(pit), 포스트 등일 수 있다. 참조점은 객체의 이미지에 또는 객체를 검출하는 것으로부터 도출된 다른 데이터 세트에 존재할 수 있다. 참조점은 객체의 평면 내의 × 및/또는 y 좌표에 의해 특정될 수 있다. 대안으로 또는 추가로, 참조점은 xy 평면에 직교하는 z 좌표에 의해 특정될 수 있어서, 예를 들어, 객체와 검출기의 상대 위치들에 의해 한정된다. 참조점에 대한 하나 이상의 좌표들은 객체의 하나 이상의 다른 분석물들 또는 객체로부터 도출된 이미지 또는 다른 데이터 세트에 대해 특정될 수 있다.

본 명세서에 사용되는 바와 같이, 용어 "광학 신호"는, 예를 들어 형광, 발광, 산란, 또는 흡수 신호들을 포함하도록 의도된다. 광학 신호들은 자외선(UV) 범위(약 200 내지 390 nm), 가시선(VIS) 범위(약 391 내지 770 nm), 적외선(IR) 범위(약 0.771 내지 25 마이크로미터), 또는 다른 범위의 전자기 스펙트럼에서 검출될 수 있다. 광학 신호들은 이러한 범위들 중 하나 이상의 범위의 모두 또는 일부를 배제하는 방식으로 검출될 수 있다.

본 명세서에 사용되는 바와 같이, 용어 "신호 레벨"은 원하는 또는 미리정의된 특성을 갖는 검출된 에너지 또는 코딩된 정보의 크기 또는 양을 의미하도록 의도된다. 예를 들어, 광 신호는 세기, 파장, 에너지, 주파수, 전력, 휘도 등 중 하나 이상에 의해 정량화될 수 있다. 다른 신호들은 전압, 전류, 전기장 강도, 자기장 강도, 주파수, 전력, 온도 등과 같은 특성들에 따라 정량화될 수 있다. 신호의 부재는 0의 신호 레벨 또는 잡음과 유의하게 구별되지 않는 신호 레벨인 것으로 이해된다.

본 명세서에 사용되는 바와 같이, 용어 "시뮬레이션하다"는 물리적인 사물이나 액션의 특성들을 예측하는 그 사물이나 액션의 표현 또는 모델을 생성하는 것을 의미하도록 의도된다. 표현 또는 모델은 많은 경우들에서 사물 또는 액션과 구별가능할 수 있다. 예를 들어, 표현 또는 모델은, 컬러, 사물의 전부 또는 일부로부터 검출된 신호들의 세기, 크기, 또는 형상과 같은 하나 이상의 특성에 관하여 사물과 구별가능할 수 있다. 특정 구현예들에서, 표현 또는 모델은 사물 또는 액션과 비교할 때 이상화되거나, 과장되거나, 소리가 약해지거나, 불완전할 수 있다. 따라서, 일부 구현예들에서, 모델의 표현은, 예를 들어 전술된 특성들 중 적어도 하나의 특성에 관하여 그것이 표현하는 사물 또는 액션과 구별가능할 수 있다. 표현 또는 모델은 본 명세서의 다른 곳에 기술된 것들 중 하나 이상과 같은 컴퓨터 판독가능 포맷 또는 매체에서 제공될 수 있다.

본 명세서에 사용되는 바와 같이, 용어 "특정 신호"는 배경 에너지 또는 정보와 같은 다른 에너지 또는 정보에 걸쳐서 선택적으로 관찰되는 검출된 에너지 또는 코딩된 정보를 의미하도록 의도된다. 예를 들어, 특정 신호는 특정 세기, 파장 또는 컬러에서 검출된 광학 신호; 특정 주파수, 전력 또는 필드 강도에서 검출된 전기 신호; 또는 분광법 및 분석 검출에 관련된 당업계에 알려진 다른 신호들일 수 있다.

본 명세서에 사용되는 바와 같이, 용어 "스와스(swath)"는 객체의 직사각형 부분을 의미하도록 의도된다. 스와스는 스트립의 최장 치수에 평행한 방향으로 객체와 검출기 사이의 상대적 움직임에 의해 스캐닝되는 장방형 스트립일 수 있다. 대체적으로, 직사각형 부분 또는 스트립의 폭은 그의 전체 길이를 따라 일정할 것이다. 객체의 다수의 스와스들은 서로 평행할 수 있다. 객체의 다수의 스와스들은 서로 인접하거나, 서로 중첩되거나, 서로 접해 있거나, 또는 사이 영역에 의해 서로 분리될 수 있다.

본 명세서에 사용되는 바와 같이, 용어 "분산"은 예상되는 것과 관찰되는 것 사이의 차이 또는 2개 이상의 관찰들 사이의 차이를 의미하도록 의도된다. 예를 들어, 분산은 예상된 값과 측정된 값 사이의 불일치일 수 있다. 분산은 표준 편차, 표준 편차의 제곱, 변동 계수 등과 같은 통계 함수들을 사용하여 표현될 수 있다.

본 명세서에 사용되는 바와 같이, 용어 "xy 좌표들"은 xy 평면 내의 위치, 크기, 형상 및/또는 배향을 특정하는 정보를 의미하도록 의도된다. 정보는, 예를 들어 직교좌표계에서의 수치 좌표들일 수 있다. 좌표들은 x축 및 y축 중 하나 또는 둘 모두에 대해 제공될 수 있거나, 또는 xy 평면 내의 다른 위치에 대해 제공될 수 있다. 예를 들어, 객체의 분석물의 좌표들은 객체의 기점 또는 다른 분석물의 위치에 대한 분석물의 위치를 특정할 수 있다.

본 명세서에 사용되는 바와 같이, 용어 "xy 평면"은 직선 축들 x 및 y에 의해 정의되는 2차원 영역을 의미하도록 의도된다. 검출기 및 검출기에 의해 관찰된 객체를 참조하여 사용될 때, 영역은 검출기와 검출되고 있는 객체 사이의 관찰 방향에 직교하는 것으로서 추가로 특정될 수 있다.

본 명세서에 사용되는 바와 같이, 용어 "z 좌표"는 xy 평면에 직교하는 축들을 따른 점, 선 또는 영역의 위치를 특정하는 정보를 의미하도록 의도된다. 특정 구현예들에서, z축은 검출기에 의해 관찰되는 객체의 영역에 직교한다. 예를 들어, 광학 시스템에 대한 초점 방향은 z축을 따라 특정될 수 있다.

일부 구현예들에서, 획득된 신호 데이터는 아핀 변환을 사용하여 변환된다. 일부 그러한 구현예들에서, 템플릿 생성은 컬러 채널들 사이의 아핀 변환들이 런들 사이에서 일관된다는 사실을 이용한다. 이러한 일관성 때문에, 디폴트 오프셋들의 세트가 시료 내의 분석물들의 좌표들을 결정할 때 사용될 수 있다. 예를 들어, 디폴트 오프셋 파일은 A 채널과 같은 하나의 채널에 대해 상이한 채널들에 대한 상대적 변환(시프트, 스케일, 스큐)을 포함할 수 있다. 그러나, 다른 구현예들에서, 컬러 채널들 사이의 오프셋들은 런 동안 및/또는 런들 사이에서 드리프트되어, 오프셋 구동형 템플릿 생성을 어렵게 만든다. 그러한 구현예들에서, 본 명세서에 제공된 방법들 및 시스템들은 오프셋이 없는(offset-less) 템플릿 생성을 활용할 수 있고, 이는 아래에서 추가로 설명된다.

상기 구현예들의 일부 태양들에서, 시스템은 플로우 셀을 포함할 수 있다. 일부 태양들에서, 플로우 셀은 타일들의 레인들 또는 다른 구성들을 포함하며, 여기서 타일들 중 적어도 일부의 타일은 분석물들의 하나 이상의 어레이들을 포함한다. 일부 태양들에서, 분석물들은 핵산들과 같은 복수의 분자들을 포함한다. 특정 태양들에서, 플로우 셀은 핵산들의 어레이에 표지된 뉴클레오티드 염기를 전달하여, 이에 의해 핵산을 포함하는 분석물에 대응하는 신호를 생성하도록 분석물 내의 핵산으로 혼성화된 프라이머를 연장시키도록 구성된다. 바람직한 구현예들에서, 분석물 내의 핵산들은 서로 동일하거나 실질적으로 동일하다.

본 명세서에 기술된 이미지 분석을 위한 시스템들 중 일부에서, 이미지들의 세트 내의 각각의 이미지는 컬러 신호들을 포함하고, 여기서 상이한 컬러는 상이한 뉴클레오티드 염기에 대응한다. 일부 태양들에서, 이미지들의 세트의 각각의 이미지는 적어도 4개의 상이한 컬러들로부터 선택되는 단일 컬러를 갖는 신호들을 포함한다. 일부 태양들에서, 이미지들의 세트의 각각의 이미지는 4개의 상이한 컬러들로부터 선택되는 단일 컬러를 갖는 신호들을 포함한다. 본 명세서에 기술된 시스템들 중 일부에서, 핵산들은 4개의 상이한 이미지들을 생성하도록 분자들의 어레이에 4개의 상이한 표지된 뉴클레오티드 염기들을 제공하여 - 각각의 이미지는 단일 컬러를 갖는 신호들을 포함하고, 여기서 신호 컬러는 4개의 상이한 이미지들 각각에 대해 상이함 -, 이에 의해 핵산 내의 특정 포지션에 존재하는 4개의 가능한 뉴클레오티드들에 대응하는 4개의 컬러 이미지들의 사이클을 생성함으로써 서열화될 수 있다. 소정 태양들에서, 시스템은 추가의 표지된 뉴클레오티드 염기들을 분자들의 어레이로 전달하여, 이에 의해 컬러 이미지들의 복수의 사이클을 생성하도록 구성되는 플로우 셀을 포함한다.

바람직한 구현예들에서, 본 명세서에 제공된 방법들은 프로세서가 데이터를 능동적으로 획득하고 있는지 여부 또는 프로세서가 낮은 활동 상태에 있는지 여부를 결정하는 것을 포함할 수 있다. 다수의 고품질 이미지들을 획득하고 저장하는 것은, 전형적으로, 대량의 저장 용량을 필요로 한다. 추가로, 일단 획득되고 저장되면, 이미지 데이터의 분석은 리소스 집약적이 될 수 있고, 추가적인 이미지 데이터의 진행 중인 획득 및 저장과 같은 다른 기능들의 프로세싱 용량을 저해할 수 있다. 따라서, 본 명세서에 사용되는 바와 같이, 용어 낮은 활동 상태는 주어진 시간에서의 프로세서의 프로세싱 용량을 지칭한다. 일부 구현예들에서, 낮은 활동 상태는 프로세서가 데이터를 획득하고/하거나 저장하지 않을 때 발생한다. 일부 구현예들에서, 일부 데이터 획득 및/또는 저장이 발생할 때 낮은 활동 상태가 발생하지만, 이미지 분석이 다른 기능들을 방해하지 않으면서 동시에 발생할 수 있도록 추가적인 프로세싱 용량이 남아 있다.

본 명세서에 사용되는 바와 같이, "충돌을 식별하는"은 다수의 프로세스들이 리소스들에 대해 경쟁하는 상황을 식별하는 것을 지칭한다. 일부 그러한 구현예들에서, 하나의 프로세스는 다른 프로세스에 비해 우선순위를 부여받는다. 일부 구현예들에서, 충돌은 시간, 프로세싱 용량, 저장 용량, 또는 우선순위가 주어지는 임의의 다른 리소스의 할당에 대한 우선순위를 부여할 필요성에 관련될 수 있다. 따라서, 데이터 세트를 분석하는 것 및 데이터 세트를 획득하고/하거나 저장하는 것과 같은 2개의 프로세스들 사이에 프로세싱 시간 또는 용량이 분산되어야 하는 일부 구현예들에서, 2개의 프로세스들 사이의 충돌이 존재하고 프로세스들 중 하나의 프로세스에 우선순위를 부여함으로써 해결될 수 있다.

이미지 분석을 수행하기 위한 시스템들이 또한 본 명세서에 제공된다. 시스템들은 프로세서; 저장 커패시터; 및 이미지 분석을 위한 프로그램을 포함할 수 있고, 프로그램은 저장을 위한 제1 데이터 세트 및 분석을 위한 제2 데이터 세트를 프로세싱하기 위한 명령어들을 포함하고, 여기서 프로세싱은 제1 데이터 세트를 획득하고/하거나 저장 디바이스에 저장하는 것 및 프로세서가 제1 데이터 세트를 획득하지 않을 때 제2 데이터 세트를 분석하는 것을 포함한다. 소정 태양들에서, 프로그램은, 제1 데이터 세트를 획득하고/하거나 저장하는 것과 제2 데이터 세트를 분석하는 것 사이의 충돌의 적어도 하나의 경우를 식별하기 위한; 그리고 제1 데이터 세트를 획득하고/하거나 저장하는 것이 우선순위를 부여받도록 이미지 데이터를 획득하고/하거나 저장하는 것을 지지하여 충돌을 해결하기 위한 명령어들을 포함한다. 소정 태양들에서, 제1 데이터 세트는 광학 이미징 디바이스로부터 획득된 이미지 파일들을 포함한다. 소정 태양들에서, 시스템은 광학 이미징 디바이스를 추가로 포함한다. 일부 태양들에서, 광학 이미징 디바이스는 광원 및 검출 디바이스를 포함한다.

본 명세서에 사용되는 바와 같이, 용어 "프로그램"은 태스크 또는 프로세스를 수행하기 위한 명령어들 또는 커맨드들을 지칭한다. 용어 "프로그램"은 용어 모듈과 상호교환가능하게 사용될 수 있다. 소정 구현예들에서, 프로그램은 커맨드들의 동일한 세트 하에서 실행된 다양한 명령어들의 컴필레이션(compilation)일 수 있다. 다른 구현예들에서, 프로그램은 별개의 배치(batch) 또는 파일을 지칭할 수 있다.

본 명세서에 기술된 이미지 분석을 수행하기 위한 방법들 및 시스템들을 이용하는 놀라운 효과들 중 일부가 하기에 기술된다. 일부 서열분석 구현예들에서, 서열분석 시스템의 유용성의 중요한 척도는 그의 전체 효율이다. 예를 들어, 하루에 생성된 맵핑가능 데이터의 양, 및 기구를 설치하고 실행시키는 총 비용은 경제적인 서열분석 해결책의 중요한 양태들이다. 맵핑가능 데이터를 생성하기 위한 시간을 감소시키고 시스템의 효율을 증가시키기 위해, 실시간 염기 호출이 기구 컴퓨터 상에서 가능해질 수 있고, 서열분석 화학반응 및 이미징과 병렬로 실행될 수 있다. 이는 서열분석 화학반응이 종료되기 전에 데이터 프로세싱 및 분석 중 많은 것이 완료될 수 있게 한다. 추가로, 이것은 중간 데이터에 필요한 저장소를 감소시킬 수 있고 네트워크를 가로질러 이동할 필요가 있는 데이터의 양을 제한할 수 있다.

서열 출력이 증가되었으나, 본 명세서에 제공된 시스템들로부터 네트워크로 그리고 2차 분석 프로세싱 하드웨어로 전송된 런별 데이터(data per run)는 실질적으로 감소하였다. 기구 컴퓨터 상에서 데이터를 변환(컴퓨터를 획득)함으로써, 네트워크 부하들이 급격히 감소된다. 이들 온-기구(on-instrument), 오프-네트워크(off-network) 데이터 감축 기법들 없이, DNA 서열분석 기구들의 그룹의 이미지 출력은 대부분의 네트워크를 손상시킬 것이다.

고처리량 DNA 서열분석 기구들의 광범위한 채택은 사용의 용이성, 다양한 애플리케이션들을 위한 지원, 및 거의 모든 실험실 환경에 대한 적합성에 의해 부분적으로 추진되어 왔다. 본 명세서에 제시된 매우 효율적인 알고리즘들은 유의한 분석 기능이 서열분석 기구들을 제어할 수 있는 간단한 워크스테이션에 추가될 수 있게 한다. 계산 하드웨어에 대한 요건들에서의 이러한 감소는 서열분석 출력 레벨들이 계속 증가함에 따라 훨씬 더 중요해지게 되는 몇몇 실제적인 이점들을 갖는다. 예를 들어, 단순한 타워 상에서 이미지 분석 및 염기 호출을 수행함으로써, 열 생성, 실험실 풋프린트, 및 전력 소비가 최소로 유지된다. 대조적으로, 다른 상업적인 서열분석 기술들은 최근, 최대 5배 더 많은 프로세싱 전력으로 1차 분석을 위해 그들의 컴퓨팅 인프라스트럭처를 증가시켰으며, 이는 열 출력 및 전력 소비에서 상응하는 증가를 초래하였다. 따라서, 일부 구현예들에서, 본 명세서에 제공된 방법들 및 시스템들의 계산 효율은 서버 하드웨어 비용을 최소로 유지하면서 고객들이 그들의 서열분석 처리량을 증가시킬 수 있게 한다.

따라서, 일부 구현예들에서, 본 명세서에 제시된 방법들 및/또는 시스템들은 상태 기계로서 작용하여, 각각의 시료의 개별 상태를 계속 추적하고, 시료가 다음 상태로 진행할 준비가 되어 있음을 그것이 검출할 때, 그것은 적절한 프로세싱을 행하고 시료를 그 상태로 진행시킨다. 바람직한 구현예에 따라 시료가 다음 상태로 진행할 준비가 된 때를 결정하기 위해 상태 기계가 파일 시스템을 모니터링하는 방법의 더 상세한 예가 하기 실시예 1에 기술되어 있다.

바람직한 구현예들에서, 본 명세서에 제공된 방법들 및 시스템들은 멀티 스레드되고(multi-threaded), 구성가능한 수의 스레드들로 작동할 수 있다. 따라서, 예를 들어 핵산 서열분석의 맥락에서, 본 명세서에 제공된 방법들 및 시스템들은 실시간 분석을 위한 라이브 서열분석 런 동안 배경에서 작동할 수 있거나, 또는 그것은 오프 라인 분석을 위해 기존의 이미지 데이터 세트를 사용하여 실행될 수 있다. 소정의 바람직한 구현예들에서, 본 방법들 및 시스템들은 각각의 스레드에, 그가 책임지고 있는 시료의 자신의 서브세트를 제공함으로써 멀티 스레딩을 처리한다. 이는 스레드 경쟁의 가능성을 최소화시킨다.

본 발명의 방법은 검출 장치를 사용하여 개체의 표적 이미지를 획득하는 단계를 포함할 수 있고, 여기서 이미지는 객체 상의 분석물들의 반복 패턴을 포함한다. 표면들의 고해상도 이미징이 가능할 수 있는 검출 장치가 특히 유용하다. 특정 구현예들에서, 검출 장치는 본 명세서에 기술된 밀도들, 피치들, 및/또는 분석물 크기들에서 분석물들을 구별하기에 충분한 해상도를 가질 것이다. 표면들로부터 이미지들 또는 이미지 데이터를 획득할 수 있는 검출 장치가 특히 유용하다. 예시적인 검출기들은 영역 이미지를 획득하면서 객체 및 검출기를 정적 관계로 유지하도록 구성된 것들이다. 스캐닝 장치가 또한, 사용될 수 있다. 예를 들어, 순차적 영역 이미지들을 획득하는 장치(예컨대, 소위 '스텝 앤 슛(step and shoot)' 검출기들)가 사용될 수 있다. 표면의 이미지를 구성하도록 데이터를 축적하기 위해 객체의 표면 위에 점 또는 선을 연속적으로 스캐닝하는 디바이스들이 또한 유용하다. 포인트 스캐닝 검출기들은 표면의 x-y 평면에서 래스터 모션을 통해 객체의 표면 위에 점(즉, 작은 검출 영역)을 스캐닝하도록 구성될 수 있다. 라인 스캐닝 검출기들은 객체의 표면의 y 치수를 따라 선을 스캐닝하도록 구성될 수 있고, 선의 최장 치수는 x 치수를 따라 발생한다. 검출 디바이스, 객체 또는 둘 모두가 스캐닝 검출을 달성하기 위해 이동될 수 있다는 것이 이해될 것이다. 예를 들어, 핵산 서열분석 애플리케이션들에서 특히 유용한 검출 장치는 미국 특허출원 공개 제2012/0270305 A1호; 제2013/0023422 A1호; 및 제2013/0260372 A1호; 및 미국 특허 제5,528,050호; 제5,719,391호; 제8,158,926호 및 제8,241,573호에 기술되어 있으며, 이들 각각은 본 명세서에 참고로 포함된다.

본 명세서에 개시된 구현예들은 소프트웨어, 펌웨어, 하드웨어, 또는 이들의 임의의 조합을 생성하기 위해 프로그래밍 또는 엔지니어링 기법들을 사용하는 방법, 장치, 시스템 또는 제조 물품으로서 구현될 수 있다. 본 명세서에 사용되는 바와 같이, 용어 "제조 물품"은 하드웨어 또는 컴퓨터 판독가능 매체, 예컨대 광학 저장 디바이스들, 및 휘발성 또는 비휘발성 메모리 디바이스들에서 구현된 코드 또는 로직을 지칭한다. 그러한 하드웨어는 FPGA들, CGRA들, ASIC들, CPLD(complex programmable logic device)들, PLA(programmable logic array)들, 마이크로프로세서들, 또는 다른 유사한 프로세싱 디바이스들을 포함할 수 있지만, 이로 제한되지 않는다. 특정 구현예들에서, 본 명세서에 기재된 정보 또는 알고리즘들은 비일시적 저장 매체에 존재한다.

특정 구현예들에서, 본 명세서에 기재된 컴퓨터 구현 방법은 객체의 다수의 이미지들이 획득되고 있는 동안 실시간으로 발생할 수 있다. 그러한 실시간 분석은 핵산 서열분석 응용들에 특히 유용하고, 여기서 핵산들의 어레이는 유체 및 검출 단계들의 반복되는 사이클들을 적용받는다. 서열분석 데이터의 분석은 종종 계산 집약적일 수 있어서, 다른 데이터 획득 또는 분석 알고리즘들이 프로세스 중에 있는 동안 실시간으로 또는 배경에서 본 명세서에 기재되어 있는 방법들을 수행하는 것이 유익할 수 있게 한다. 본 방법들과 함께 사용될 수 있는 예시적인 실시간 분석 방법들은, Illumina, Inc.(미국 캘리포니아주 샌디에이고 소재)로부터 입수가능한 MiSeq 및 HiSeq 서열분석 디바이스들에 대해 사용된 그리고/또는 본 명세서에 참고로 포함되어 있는 미국 특허출원 공개 제2012/0020537 A1호에 설명된 것들이다.

예시적인 데이터 분석 시스템은 하나 이상의 프로그래밍된 컴퓨터들에 의해 형성되며, 이때 프로그래밍은 본 명세서에 기술된 방법들의 하나 이상의 단계들을 수행하도록 실행되는 코드를 갖는 하나 이상의 기계 판독가능 매체에 저장된다. 하나의 구현예에서, 예를 들어, 시스템은 표적 객체들로부터 데이터를 획득하도록 구성되는 하나 이상의 검출 시스템들(예컨대, 광학 이미징 시스템들)에 대한 시스템의 네트워킹을 허용하도록 설계된 인터페이스를 포함한다. 인터페이스는, 적절한 경우, 데이터를 수신하고 컨디셔닝할 수 있다. 특정 구현예들에서, 검출 시스템은 디지털 이미지 데이터, 예를 들어 어레이 또는 다른 객체의 이미지를 함께 형성하는 개별 화상 요소들 또는 픽셀들을 나타내는 이미지 데이터를 출력할 것이다. 프로세서는 프로세싱 코드에 의해 정의된 하나 이상의 루틴들에 따라, 수신된 검출 데이터를 프로세싱한다. 프로세싱 코드는 다양한 유형들의 메모리 회로부에 저장될 수 있다.

현재 고려되는 구현예들에 따르면, 검출 데이터 상에서 실행된 프로세싱 코드는 데이터 내에서 가시적인 또는 인코딩된 개별 분석물들의 위치들 및 메타데이터뿐만 아니라, 분석물이 검출되지 않는 위치들(즉, 분석물이 없는 경우, 또는 기존의 분석물로부터 의미있는 신호가 검출되지 않는 경우)을 결정하기 위해 검출 데이터를 분석하도록 설계된 데이터 분석 루틴을 포함한다. 특정 구현예들에서, 어레이 내의 분석물 위치들은, 전형적으로, 이미징된 분석물들에 부착된 형광 염료들의 존재로 인해 비-분석물 위치들보다 더 밝게 보일 것이다. 분석물들은, 예를 들어 분석물에서의 프로브에 대한 표적이 검출되고 있는 어레이 내에 존재하지 않을 때, 그들의 주변 영역보다 더 밝게 보일 필요가 없음을 이해할 것이다. 개별 분석물들이 보이는 컬러는 이용되는 염료의 함수뿐만 아니라, 이미징 목적들을 위해 이미징 시스템에 의해 사용되는 광의 파장의 함수일 수 있다. 표적들이 결합되어 있지 않거나 또는 달리 특정 표지가 없는 분석물들은 마이크로어레이 내의 그들의 예상 위치와 같은 다른 특성들에 따라 식별될 수 있다.

일단 데이터 분석 루틴이 데이터 내의 개별 분석물들을 위치확인했다면, 일정 값 할당이 수행될 수 있다. 대체적으로, 값 할당은 대응하는 위치에서 검출기 컴포넌트들(예컨대, 픽셀들)에 의해 표현되는 데이터의 특성들에 기초하여 각각의 분석물에 디지털 값을 할당할 것이다. 즉, 예를 들어 이미징 데이터가 프로세싱될 때, 값 할당 루틴은, 특정 위치에서, 그 위치에서 픽셀들의 그룹 또는 클러스터에 의해 나타내진 바와 같이, 특정 컬러 또는 광의 파장이 검출되었음을 인식하도록 설계될 수 있다. 전형적인 DNA 이미징 애플리케이션에서, 예를 들어, 4개의 공통 뉴클레오티드들은 4개의 별개의 그리고 구별가능한 컬러들로 표현될 것이다. 이어서, 각각의 컬러에는 그 뉴클레오티드에 상응하는 값이 할당될 수 있다.

본 명세서에 사용되는 바와 같이, 용어 "모듈", "시스템," 또는 "시스템 제어기"는 하나 이상의 기능들을 수행하도록 동작하는 하드웨어 및/또는 소프트웨어 시스템 및 회로부를 포함할 수 있다. 예를 들어, 모듈, 시스템, 또는 시스템 제어기는 컴퓨터 메모리와 같은 유형적 및 비일시적 컴퓨터 판독가능 저장 매체 상에 저장된 명령어들에 기초하여 동작들을 수행하는 컴퓨터 프로세서, 제어기, 또는 다른 로직-기반 디바이스를 포함할 수 있다. 대안적으로, 모듈, 시스템, 또는 시스템 제어기는 하드와이어드 로직 및 회로에 기초하여 동작들을 수행하는 하드와이어드 디바이스를 포함할 수 있다. 첨부된 도면들에 도시된 모듈, 시스템, 또는 시스템 제어기는 소프트웨어 또는 하드와이어드 명령어들에 기초하여 동작하는 하드웨어 및 회로부, 동작들을 수행하도록 하드웨어에 지시하는 소프트웨어, 또는 이들의 조합을 나타낼 수 있다. 모듈, 시스템, 또는 시스템 제어기는 하나 이상의 프로세서들, 예컨대 하나 이상의 컴퓨터 마이크로프로세서들을 포함하고/하거나 그들과 접속되는 하드웨어 회로들 또는 회로부를 포함하거나 나타낼 수 있다.

본 명세서에 사용되는 바와 같이, 용어들 "소프트웨어" 및 "펌웨어"는 상호교환가능하며, RAM 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 및 비휘발성 RAM(NVRAM) 메모리를 포함한, 컴퓨터에 의한 실행을 위한 메모리에 저장된 임의의 컴퓨터 프로그램을 포함한다. 상기의 메모리 유형들은 단지 예들이며, 따라서, 컴퓨터 프로그램의 저장을 위해 사용가능한 메모리의 유형들에 대한 제한은 아니다.

분자 생물학 분야에서, 사용 중인 핵산 서열분석을 위한 프로세스들 중 하나의 프로세스는 SBS이다. 이 기법은 대량의 병렬 서열분석 프로젝트들에 적용될 수 있다. 예를 들어, 자동화된 플랫폼을 사용함으로써, 수십만 개의 서열분석 반응들을 동시에 수행하는 것이 가능하다. 따라서, 본 발명의 구현예들 중 하나의 구현예는 핵산 서열분석 동안 생성된 이미지 데이터를 획득하고, 저장하고, 그리고 분석하기 위한 기구들 및 방법들에 관한 것이다.

획득 및 저장될 수 있는 데이터의 양적인 면에서의 막대한 이득들은 능률적인 이미지 분석 방법들을 더욱 더 유익하게 만든다. 예를 들어, 본 명세서에 기술된 이미지 분석 방법들은 설계자들 및 최종 사용자들 둘 모두가 기존의 컴퓨터 하드웨어의 효율적인 사용을 할 수 있게 한다. 따라서, 급속히 증가하는 데이터 출력의 면에서 데이터를 프로세싱하는 계산 부담을 감소시키는 방법들 및 시스템들이 본 명세서에 제시된다. 예를 들어, DNA 서열분석 분야에서, 수율들은 최근 1년의 과정에 걸쳐서 15배 증가하였으며, 이제 DNA 서열분석 디바이스의 단일 런으로 수백 기가베이스(gigabase)에 도달할 수 있다. 계산 인프라스트럭처 요건들이 비례하여 성장하면, 대규모 게놈 스케일의 실험들은 대부분의 연구자들에게 이를 수 없는 상태로 남을 것이다. 따라서, 더 많은 원시 서열 데이터의 생성은 이차 분석 및 데이터 저장에 대한 필요성을 증가시켜서, 데이터 전송 및 저장의 최적화를 매우 가치있게 만들 것이다. 본 명세서에 제시된 방법들 및 시스템들의 일부 구현예들은 사용가능한 서열 데이터를 생성하는 데 필요한 시간, 하드웨어, 네트워킹, 및 실험실 인프라스트럭처 요건들을 감소시킬 수 있다.

본 발명은 다양한 방법들 및 방법들을 수행하기 위한 시스템들을 기술한다. 방법들 중 일부 방법들의 예들은 일련의 단계들로서 기술된다. 그러나, 구현예들은 본 명세서에 기술된 특정 단계들 및/또는 단계들의 순서로 제한되지 않는다는 것이 이해되어야 한다. 단계들이 생략될 수 있고/있거나, 단계들이 수정될 수 있고/있거나, 다른 단계들이 추가될 수 있다. 더욱이, 본 명세서에 기술된 단계들이 조합될 수 있거나, 단계들이 동시에 수행될 수 있거나, 단계들이 함께 수행될 수 있거나, 단계들이 다수의 하위 단계들로 분할될 수 있거나, 단계들이 상이한 순서로 수행될 수 있거나, 또는 단계들(또는 일련의 단계들)이 반복적인 방식으로 재수행될 수 있다. 또한, 상이한 방법들이 본 명세서에 기술되어 있지만, 상이한 방법들(또는 상이한 방법들의 단계들)이 다른 구현예들에서 조합될 수 있다는 것을 이해해야 한다.

일부 구현예들에서, 태스크 또는 동작을 수행"하도록 구성되는" 프로세싱 유닛, 프로세서, 모듈, 또는 컴퓨팅 시스템은 태스크 또는 동작을 수행하도록 특별히 구조화되어 있는 것(예컨대, 하나 이상의 프로그램들 또는 명령어들이 태스크 또는 동작을 수행하도록 맞춰지거나 의도되게 하는 것과 함께 그 상에 저장되거나 사용되게 하는 것, 및/또는 프로세싱 회로부의 배열이 태스크 또는 동작을 수행하도록 맞춰지거나 의도되게 하는 것)으로 이해될 수 있다. 명확함을 위해 그리고 의심을 피하기 위해, 범용 컴퓨터(이는 적절히 프로그래밍되는 경우 태스크 또는 동작을 수행"하도록 구성"될 수 있음)는 태스크 또는 동작을 수행하도록 특별히 프로그래밍되지 않거나 구조적으로 수정되지 않는다면, 또는 특별히 프로그래밍되거나 구조적으로 수정될 때까지 태스크 또는 동작을 수행"하도록 구성"되지 않는다.

더욱이, 본 명세서에 기술된 방법들의 동작들은, 동작들이 상업적으로 합리적인 기간 내에 당업자에 의해 또는 보통 사람에 의해 정신적으로 수행될 수 없도록 충분히 복잡할 수 있다. 예를 들어, 방법들은 그러한 사람이 상업적으로 합리적인 시간 내에 방법들을 완료할 수 없도록 비교적 복잡한 계산들에 의존적일 수 있다.

본 출원 전반에 걸쳐서 다양한 공개물들, 특허들 또는 특허 출원들이 참조되었다. 이들 공개물들의 개시 내용들은 그 전체가 본 발명이 속하는 최신의 기술을 더욱 완전히 설명하기 위하여 본 출원에 참고로 포함된다.

용어 "포함하는"은, 본 명세서에서, 언급된 요소들을 포함할 뿐만 아니라 임의의 추가적인 요소들을 추가로 포괄하는 개방형(open-ended)인 것으로 의도된다.

본 명세서에 사용되는 바와 같이, 용어 "각각의"는 아이템들의 콜렉션에 관하여 사용될 때, 콜렉션 내의 개별 아이템을 식별하도록 의도되지만, 반드시 콜렉션 내의 모든 아이템을 지칭하지는 않는다. 명시적 개시 또는 문맥이 명백히 달리 지시하면 예외들이 발생할 수 있다.

본 발명이 상기에 제공된 예들을 참조하여 설명되었지만, 본 발명으로부터 벗어남이 없이 다양한 변형들이 이루어질 수 있음이 이해되어야 한다.

본 출원에서 모듈들은 하드웨어로 또는 소프트웨어로 구현될 수 있고, 도면들에 도시된 바와 같이 정확하게 동일한 블록들로 분할될 필요가 없다. 일부는 또한 상이한 프로세서들 또는 컴퓨터들 상에서 구현될 수 있거나, 다수의 상이한 프로세서들 또는 컴퓨터들 사이에 분산될 수 있다. 또한, 모듈들 중 일부가, 달성된 기능에 영향을 주지 않고서 도면들에 도시된 것과 조합되어, 병렬로 또는 상이한 순서로 동작될 수 있다는 것이 이해될 것이다. 또한, 본 명세서에 사용되는 바와 같이, 용어 "모듈"은 "서브-모듈들"을 포함할 수 있는데, 그 자체는 본 명세서에서 모듈들을 구성하는 것으로 간주될 수 있다. 모듈들로서 지정된 도면들 내의 블록들은, 또한, 방법에서의 흐름도 단계들로서 생각될 수 있다.

본 명세서에 사용되는 바와 같이, 정보의 아이템의 "식별"은 그 정보의 아이템의 직접적인 규격을 반드시 필요로 하지는 않는다. 정보는, 하나 이상의 간접 층들을 통해 실제 정보를 단순히 지칭함으로써, 또는 함께 정보의 실제 아이템을 결정하기에 충분한 상이한 정보의 하나 이상의 아이템들을 식별함으로써 필드 내에서 "식별"될 수 있다. 또한, 용어 "특정하다"는 본 명세서에서 "식별하다"와 동일한 것을 의미하도록 사용된다.

본 명세서에 사용되는 바와 같이, 주어진 신호, 사건 또는 값은 주어진 신호, 사건 또는 값에 의해 영향을 받는 선행 신호, 사건 또는 값의 선행 신호, 사건 또는 값"에 의존적"이다. 개재되는 프로세싱 요소, 단계 또는 기간이 있는 경우, 주어진 신호, 사건 또는 값은 여전히 선행 신호, 사건 또는 값"에 의존적"일 수 있다. 개재되는 프로세싱 요소 또는 단계가 하나 초과의 신호, 사건 또는 값을 조합하는 경우, 프로세싱 요소 또는 단계의 신호 출력은 신호, 사건 또는 값 입력들 각각"에 의존적"인 것으로 고려된다. 주어진 신호, 사건 또는 값이 선행 신호, 사건 또는 값과 동일한 경우, 이는 주어진 신호, 사건 또는 값이 여전히 선행 신호, 사건 또는 값"에 의존적"인 것 또는 "의존하는" 것 또는 "기초하는" 것으로 고려되는 퇴보 사례일뿐이다. 다른 신호, 사건 또는 값에 대한 주어진 신호, 사건 또는 값의 "응답성"은 유사하게 정의된다.

본 명세서에 사용되는 바와 같이, "동시에" 또는 "병렬로"는 정확한 동시성을 요구하지는 않는다. 그것은, 개인들 중 하나의 개인의 평가가 개인들 중 다른 개인의 평가가 완료되기 전에 시작된다면 충분하다.

컴퓨터 시스템

도 65는 본 명세서에 개시된 기술을 구현하기 위해 서열분석 시스템(800A)에 의해 사용될 수 있는 컴퓨터 시스템(6500)이다. 컴퓨터 시스템(6500)은 버스 서브시스템(6555)을 통해 다수의 주변 디바이스들과 통신하는 적어도 하나의 중앙 프로세싱 유닛(CPU)(6572)을 포함한다. 이러한 주변 디바이스들은, 예를 들어 메모리 디바이스들 및 파일 저장 서브시스템(6536)을 포함하는 저장 서브시스템(6510), 사용자 인터페이스 입력 디바이스들(6538), 사용자 인터페이스 출력 디바이스들(6576), 및 네트워크 인터페이스 서브시스템(6574)을 포함할 수 있다. 입력 및 출력 디바이스들은 컴퓨터 시스템(6500)과의 사용자 상호작용을 허용한다. 네트워크 인터페이스 서브시스템(6574)은 다른 컴퓨터 시스템들에서의 대응하는 인터페이스 디바이스들에 대한 인터페이스를 포함하는 인터페이스를 외부 네트워크들에 제공한다.

하나의 구현예에서, 시스템 제어기(7806)는 저장 서브시스템(6510) 및 사용자 인터페이스 입력 디바이스들(6538)에 통신가능하게 링크된다.

사용자 인터페이스 입력 디바이스들(6538)은 키보드; 포인팅 디바이스들, 예컨대 마우스, 트랙볼, 터치패드, 또는 그래픽 태블릿; 스캐너; 디스플레이 안에 포함된 터치 스크린; 음성 인식 시스템들 및 마이크로폰들과 같은 오디오 입력 디바이스들; 및 다른 유형들의 입력 디바이스들을 포함할 수 있다. 대체적으로, "입력 디바이스"라는 용어의 사용은 정보를 컴퓨터 시스템(6500)에 입력하기 위한 모든 가능한 유형들의 디바이스들 및 방식들을 포함하도록 의도된다.

사용자 인터페이스 출력 디바이스들(6576)은 디스플레이 서브시스템, 프린터, 팩스 기계, 또는 오디오 출력 디바이스들과 같은 비시각적 디스플레이들을 포함할 수 있다. 디스플레이 서브시스템은 LED 디스플레이, 음극선관(CRT), 액정 디스플레이(LCD)와 같은 평면 디바이스, 프로젝션 장치, 또는 가시적인 이미지를 생성하기 위한 일부 다른 메커니즘을 포함할 수 있다. 디스플레이 서브시스템은 또한, 오디오 출력 디바이스들과 같은 비시각적 디스플레이를 제공할 수 있다. 대체적으로, "출력 디바이스"라는 용어의 사용은 정보를 컴퓨터 시스템(6500)으로부터 사용자에게 또는 다른 기계 또는 컴퓨터 시스템에 출력하기 위한 모든 가능한 유형들의 디바이스들 및 방식들을 포함하도록 의도된다.

저장 서브시스템(6510)은 본 명세서에 기술된 모듈들 및 방법들 중 일부 또는 전부의 기능을 제공하는 프로그래밍 및 데이터 구성들을 저장한다. 이들 소프트웨어 모듈들은, 대체적으로, 심층 학습 프로세서들(6578)에 의해 실행된다.

심층 학습 프로세서들(6578)은 GPU들, FPGA들, ASIC들, 및/또는 CGRA들일 수 있다. 심층 학습 프로세서들(6578)은 Google Cloud Platform™, Xilinx™, 및 Cirrascale™과 같은 심층 학습 클라우드 플랫폼에 의해 호스팅될 수 있다. 심층 학습 프로세서들(6578)의 예들은 Google의 Tensor Processing Unit(TPU)™, 랙마운트 솔루션들, 예컨대 GX4 Rackmount Series™, GX65 Rackmount Series™, NVIDIA DGX-1™, Microsoft의 Stratix V FPGA™, Graphcore의 Intelligent Processor Unit (IPU)™, Snapdragon processors™을 갖는 Qualcomm의 Zeroth Platform™, NVIDIA의 Volta™, NVIDIA의 DRIVE PX™, NVIDIA의 JETSON TX1/TX2 MODULE™, Intel의 Nirvana™, Movidius VPU™, Fujitsu DPI™, ARM의 DynamicIQ™, IBM TrueNorth™, Testa V100s™을 갖는 Lambda GPU 서버 등을 포함한다.

저장 서브시스템(6510)에 사용되는 메모리 서브시스템(6522)은 프로그램 실행 동안 명령어들 및 데이터의 저장을 위한 메인 랜덤 액세스 메모리(RAM)(6532) 및 고정된 명령어들이 저장되는 판독 전용 메모리(ROM)(6534)를 포함하는 다수의 메모리들을 포함할 수 있다. 파일 저장 서브시스템(6536)은 프로그램 및 데이터 파일들을 위한 영구 저장소를 제공할 수 있고, 하드 디스크 드라이브, 연관된 착탈가능 매체와 함께 플로피 디스크 드라이브, CD-ROM 드라이브, 광학 드라이브, 또는 착탈가능 매체 카트리지들을 포함할 수 있다. 소정 구현예들의 기능을 구현하는 모듈들은 저장 서브시스템(6510) 내의 파일 저장 서브시스템(6536)에 의해, 또는 프로세서에 의해 액세스가능한 다른 기계들에 저장될 수 있다.

버스 서브시스템(6555)은 컴퓨터 시스템(6500)의 다양한 컴포넌트들 및 서브시스템들이 의도된 대로 서로 통신하게 하기 위한 메커니즘을 제공한다. 버스 서브시스템(6555)이 개략적으로 단일 버스로서 도시되어 있지만, 버스 서브시스템의 대안적인 구현예들은 다수의 버스들을 사용할 수 있다.

컴퓨터 시스템(6500) 자체는 개인용 컴퓨터, 휴대용 컴퓨터, 워크스테이션, 컴퓨터 단말기, 네트워크 컴퓨터, 텔레비전, 메인프레임, 서버 팜, 약하게 네트워킹된 컴퓨터들의 광범위하게 분포된 세트, 또는 임의의 다른 데이터 프로세싱 시스템 또는 사용자 디바이스를 포함한 다양한 유형들의 것일 수 있다. 컴퓨터들 및 네트워크들의 변화하는(ever-changing) 특성으로 인해, 도 65에 묘사된 컴퓨터 시스템(6500)의 설명은 본 발명의 바람직한 구현예들을 예시하기 위한 특정 예로서만 의도된다. 도 65에 묘사된 컴퓨터 시스템보다 더 많은 또는 더 적은 컴포넌트들을 갖는 컴퓨터 시스템(6500)의 많은 다른 구성들이 가능하다.

특정 구현예들

신경 네트워크 기반 템플릿 생성 및 신경 네트워크 기반 염기 호출의 다양한 구현예들을 설명한다. 구현예의 하나 이상의 특징부들은 기본 구현예와 조합될 수 있다. 상호 배타적이지 않은 구현예들은 조합가능한 것으로 교시되어 있다. 구현예의 하나 이상의 특징부들은 다른 구현예들과 조합될 수 있다. 본 발명은 이러한 옵션들을 사용자에게 주기적으로 리마인드한다. 이러한 옵션들을 반복하는 인용들의 일부 구현예들로부터의 생략은 전술한 섹션들에 교시된 조합들을 제한하는 것으로서 간주되어서는 안된다 - 이들 인용들은 이로써 다음의 구현예들 각각에 참조로 통합된다.

염기 호출-단일 분석물 거리 채널

서열분석 런 동안 플로우 셀의 타일 상에서 합성된 분석물들을 염기 호출하는 신경 네트워크 구현 방법으로서, 서열분석 런은 복수의 서열분석 사이클들을 갖고, 복수의 서열분석 사이클들 각각은 하나 이상의 이미지들을 갖는 이미지 세트를 생성하고, 이미지들 각각은 하나 이상의 이미지 채널들 중 각자의 이미지 채널에서 분석물들 및 그들의 주변 배경의 세기 방출물들을 묘사하는, 방법을 개시한다. 본 방법은, 템플릿 이미지 내의 분석물들의 참조 중심들을 식별하기 위해 템플릿 생성기를 통해 복수의 서열분석 사이클들 중 초기 서열분석 사이클들에서 각각 생성된 초기 이미지 세트들을 프로세싱하는 단계를 포함한다. 본 방법은, 복수의 서열분석 사이클들 중 현재 서열분석 사이클에서 생성된 현재 이미지 세트, 복수의 서열분석 사이클들 중 현재 서열분석 사이클에 선행하는 복수의 서열분석 사이클들 중 하나 이상에서 각각 생성된 하나 이상의 선행 이미지 세트들, 및 복수의 서열분석 사이클들 중 현재 서열분석 사이클에 후행하는 복수의 서열분석 사이클들 중 하나 이상에서 각각 생성된 하나 이상의 후행 이미지 세트들의 각각 내의 하나 이상의 이미지들에 액세스하는 단계를 포함한다. 본 방법은, 현재, 선행, 및 후행 이미지 세트들 내의 이미지들 각각을 템플릿 이미지에 정합하여 사이클 특정 및 이미지 채널 특정 변환들을 결정하는 단계를 포함한다. 본 방법은, 각각의 이미지 내의 분석물의 변환된 중심을 식별하기 위해 분석물의 참조 중심에 변환을 적용하는 단계를 포함한다. 본 방법은, 염기 호출되는 분석물들 중 특정 분석물에 대해, 현재, 선행, 후행 이미지 세트들 내의 이미지들 각각으로부터 이미지 패치를 추출하여, 각각의 이미지 패치가 그의 중심 픽셀에 이미지들 중 각자의 이미지에서 식별된 분석물들 중 특정 분석물의 변환된 중심을 포함하고, 이미지 채널들 중 대응하는 이미지 채널에서 분석물들 중 특정 분석물, 분석물들 중 일부 인접한 분석물, 및 그들의 주변 배경의 세기 방출물들을 묘사하게 하는 단계를 포함한다. 본 방법은, 각각의 이미지 패치에 대해, 그의 중심 픽셀에 포함된 분석물들 중 특정 분석물의 변환된 중심으로부터 그의 픽셀의 중심들의 거리들을 식별하는 거리 정보를 생성하는 단계를 포함한다. 본 방법은, 거리 정보를 각각의 이미지 패치 내에 픽셀별로 인코딩함으로써 입력 데이터를 구성하는 단계를 포함한다. 본 방법은, 콘볼루션 신경 네트워크를 통해 입력 데이터를 콘볼루션하여 입력 데이터의 콘볼루션된 표현을 생성하는 단계를 포함한다. 본 방법은, 출력 층을 통해 콘볼루션된 표현을 프로세싱하여 복수의 서열분석 사이클들 중 현재 서열분석 사이클에서 분석물들 중 특정 분석물에 혼입된 염기가 A, C, T, 및 G일 가능성들을 생성하는 단계를 포함한다. 본 방법은, 가능성들에 기초하여 염기를 A, C, T, 또는 G로서 분류하는 단계를 포함한다.

다른 구현예들에 대해 특정 구현예 섹션에서 논의된 특징부들 각각은 이러한 구현예에 동일하게 적용된다. 위에서 나타낸 바와 같이, 모든 다른 특징부들은 여기에서 반복되지 않으며, 참고로 반복된 것으로 간주되어야 한다. 독자는, 이들 구현예들에서 식별된 특징부들이 다른 구현예들에서 식별된 기본 특징부들의 세트들과 어떻게 쉽게 조합될 수 있는지를 이해할 것이다.

하나의 구현예에서, 본 방법은, 각각의 이미지 패치에 대해, 그의 픽셀들 중 어느 것이 분석물들 중 특정 분석물을 커버하고 그의 픽셀들 중 어느 것이 특정 분석물을 커버하지 않는지를 식별하는 분석물-속성 정보를 생성하는 단계, 및 각각의 이미지 패치에 분석물-속성 정보를 픽셀별로 인코딩함으로써 입력 데이터를 구성하는 단계를 포함한다. 하나의 구현예에서, 분석물들 중 특정 분석물을 커버하는 픽셀들은 분석물-속성 정보 내의 0이 아닌 값을 할당받는다. 하나의 구현예에서, 분석물들 중 특정 분석물을 커버하지 않는 픽셀들은 분석물-속성 정보 내의 0 값을 할당받는다. 하나의 구현예에서, 본 방법은, 콘볼루션 신경 네트워크에 대한 입력으로서, 분석물들의 변환된 중심들의 포지션 좌표들을 제공하는 단계를 포함한다. 하나의 그러한 구현예에서, 입력은 콘볼루션 신경 네트워크의 제1 층으로 공급된다. 다른 그러한 구현예에서, 입력은 콘볼루션 신경 네트워크의 하나 이상의 중간 층들로 공급된다. 또 다른 그러한 구현예에서, 입력은 콘볼루션 신경 네트워크의 최종 층으로 공급된다. 하나의 구현예에서, 본 방법은, 콘볼루션 신경 네트워크에 대한 입력으로서, 이미지 패치의 픽셀들에 대응하는 스케일링 값들을 갖는 세기 스케일링 채널을 제공하는 단계를 포함한다. 그러한 구현예에서, 스케일링 값들은 분석물들 중 특정 분석물의 중심을 포함하는 이미지 패치의 중심 픽셀의 평균 세기에 기초한다. 하나의 구현예에서, 세기 스케일링 채널은 이미지 패치의 모든 픽셀들에 대해 동일한 스케일링 값을 픽셀별로 포함한다. 하나의 구현예에서, 중심 픽셀의 평균 세기는 이미지 채널들 중 대응하는 이미지 채널 각각에 대해 결정된다.

하나의 구현예에서, 중심 픽셀의 평균 세기는 분석물들 중 특정 분석물에 대한 A 및 T 염기 호출을 생성했던 2개 이상의 선행 서열분석 사이클들 동안 관찰된 중심 픽셀의 세기 값들을 평균함으로써 제1 이미지 채널에 대해 결정된다. 하나의 구현예에서, 중심 픽셀의 평균 세기는 분석물들 중 특정 분석물에 대한 A 및 C 염기 호출을 생성했던 2개 이상의 선행 서열분석 사이클들 동안 관찰된 중심 픽셀의 세기 값들을 평균함으로써 제2 이미지 채널에 대해 결정된다. 하나의 구현예에서, 중심 픽셀의 평균 세기는 분석물들 중 특정 분석물에 대한 A 염기 호출을 생성했던 2개 이상의 선행 서열분석 사이클들 동안 관찰된 중심 픽셀의 세기 값들을 평균함으로써 제1 이미지 채널에 대해 결정된다. 하나의 구현예에서, 중심 픽셀의 평균 세기는 분석물들 중 특정 분석물에 대한 G 염기 호출을 생성했던 2개 이상의 선행 서열분석 사이클들 동안 관찰된 중심 픽셀의 세기 값들을 평균함으로써 제2 이미지 채널에 대해 결정된다. 하나의 구현예에서, 중심 픽셀의 평균 세기는 분석물들 중 특정 분석물에 대한 T 염기 호출을 생성했던 2개 이상의 선행 서열분석 사이클들 동안 관찰된 중심 픽셀의 세기 값들을 평균함으로써 제3 이미지 채널에 대해 결정된다. 하나의 구현예에서, 중심 픽셀의 평균 세기는 분석물들 중 특정 분석물에 대한 C 염기 호출을 생성했던 2개 이상의 선행 서열분석 사이클들 동안 관찰된 중심 픽셀의 세기 값들을 평균함으로써 제3 이미지 채널에 대해 결정된다.

하나의 구현예에서, 서열분석 런은, 제1 판독물 프라이머 및 제2 판독물 프라이머를 사용하여 순방향 및 역방향으로 분석물들 내의 단편들의 양 말단들 모두를 서열분석하여, 이에 의해, 각각의 단편에 대한 판독물 쌍을 생성하는 쌍형성된 말단 서열분석을 구현하며, 판독물 쌍은 순방향 판독물 및 역방향 판독물을 갖는다. 하나의 구현예에서, 단편들의 양 말단들 모두는, 차례로 순방향 및 역방향 판독물들을 생성하도록 연속으로 서열분석된다. 하나의 구현예에서, 단편들의 양 말단들 모두는, 함께 순방향 및 역방향 판독물들을 생성하도록 동시에 서열분석된다. 하나의 구현예에서, 순방향 및 역방향 판독물들은 각각 단편들 중 하나 이상을 포함한다. 하나의 구현예에서, 단편들 중 하나 이상은 연속으로 서열분석된다. 하나의 구현예에서, 단편들 중 하나 이상은 동시에 서열분석된다. 하나의 구현예에서, 서열분석 런은, 단일 판독물 프라이머를 사용하여 하나의 방향으로 단편들을 서열분석하는 단일 판독물 서열분석을 구현한다. 하나의 구현예에서, 서열분석 런은 루프 내의 단편들의 이중 가닥 복제물들을 서열분석하는 원형 서열분석을 구현하고, 루프는 주어진 단편의 이중 가닥 복제물에 걸쳐서 다수회 반복된다. 하나의 구현예에서, 서열분석 런은 단편들의 스택형 복제물들을 서열분석하는 스택형 서열분석을 구현하고, 주어진 단편의 스택형 복제물들은 수직으로 또는 수평으로 스태킹된다. 하나의 구현예에서, 이미지 패치의 크기는 3 × 3 픽셀들 내지 10000 × 10000 픽셀들의 범위이다.

하나의 구현예에서, 변환된 중심은 부동 소수점 좌표 값이다. 그러한 구현예에서, 본 방법은, 라운딩 연산(rounding operation)을 사용하여 부동 소수점 좌표 값을 라운딩하여 변환된 중심에 대한 정수 좌표 값을 생성하는 단계, 및 그의 정수 좌표들과 변환된 중심에 대해 생성된 정수 좌표 값 사이의 중첩에 기초하여 중심 픽셀을 식별하는 단계를 포함한다. 하나의 구현예에서, 라운딩 연산은 바닥 함수(floor function), 천정 함수(ceil function), 및/또는 라운드 함수 중 적어도 하나이다. 하나의 구현예에서, 라운딩 연산은 정수 함수 및/또는 정수 플러스 부호(integer plus sign) 함수 중 적어도 하나이다. 하나의 구현예에서, 템플릿 생성기는 신경 네트워크 기반 템플릿 생성기이다. 하나의 구현예에서, 출력 층은 소프트맥스 층이고, 가능성들은, A, C, T, 및 G인, 복수의 서열분석 사이클들 중 현재 서열분석 사이클에서 분석물들 중 특정 분석물 내에 혼입된 염기의 지수적으로 정규화된 스코어 분포이다.

하나의 구현예에서, 이미지 채널들 중 각각의 이미지 채널은 복수의 필터 파장 대역들 중 하나이다. 다른 구현예에서, 이미지 채널들 중 각각의 이미지 채널은 복수의 이미지 사건들 중 하나이다. 하나의 구현예에서, 플로우 셀은 분석물들을 점유하는 웰들의 어레이를 갖는 적어도 하나의 패턴화된 표면을 갖는다. 다른 구현예에서, 플로우 셀은 적어도 하나의 비패턴화된 표면을 갖고, 분석물들은 비패턴화된 표면 위에 불균일하게 산란된다. 하나의 구현예에서, 이미지 세트는 4개의 이미지들을 갖는다. 다른 구현예에서, 이미지 세트는 2개의 이미지들을 갖는다. 또 다른 구현예에서, 이미지 세트는 하나의 이미지를 갖는다. 하나의 구현예에서, 서열분석 런은 4-채널 화학반응을 이용한다. 다른 구현예에서, 서열분석 런은 2-채널 화학반응을 이용한다. 또 다른 구현예에서, 서열분석 런은 1-채널 화학반응을 이용한다.

이 섹션에 기술된 방법의 다른 구현예들은 전술된 방법들 중 임의의 것을 수행하도록 프로세서에 의해 실행가능한 명령어들을 저장하는 비일시적 컴퓨터 판독가능 저장 매체를 포함할 수 있다. 이 섹션에 기술된 방법의 또 다른 구현예는 메모리, 및 메모리에 저장된 명령어들을 실행하여 전술된 방법들 중 임의의 것을 수행하도록 동작가능한 하나 이상의 프로세서들을 포함하는 시스템을 포함할 수 있다.

서열분석 런 동안 합성된 분석물들을 염기 호출하는 신경 네트워크 구현 방법을 개시한다. 본 방법은, 콘볼루션 신경 네트워크를 통해 입력 데이터를 콘볼루션하여 입력 데이터의 콘볼루션된 표현을 생성하는 단계를 포함한다. 입력 데이터는, 서열분석 런의 현재 서열분석 사이클에서 생성된 현재 이미지 세트, 현재 서열분석 사이클에 선행하는 서열분석 런의 하나 이상의 서열분석 사이클들에서 각각 생성된 하나 이상의 선행 이미지 세트들, 및 현재 서열분석 사이클에 후행하는 서열분석 런의 하나 이상의 서열분석 사이클들에서 각각 생성된 하나 이상의 후행 이미지 세트들 각각 내의 하나 이상의 이미지들로부터 추출된 이미지 패치들을 포함한다. 이미지 패치들 각각은, 대응하는 이미지 채널에서, 염기 호출되는 표적 분석물, 일부 인접한 분석물들, 및 그들의 주변 배경의 세기 방출물들을 묘사한다. 입력 데이터는, 이미지 패치들 각각에서 픽셀별로 인코딩되어 이미지 패치의 중심 픽셀에 위치된 표적 분석물의 중심으로부터 이미지 패치의 픽셀들의 중심들의 거리를 식별하는 거리 정보를 추가로 포함한다. 본 방법은, 출력 층을 통해 콘볼루션된 표현을 프로세싱하여 출력을 생성하는 단계를 포함한다. 본 방법은, 출력에 기초하여 현재 서열분석 사이클에서 표적 분석물을 염기 호출하는 단계를 포함한다.

하나의 구현예에서, 본 방법은, 출력 층을 통해 콘볼루션된 표현을 프로세싱하여, 현재 서열분석 사이클에서 표적 분석물 내에 혼입된 염기가 A, C, T, 및 G일 가능성들을 생성하는 단계, 및 가능성들에 기초하여 염기를 A, C, T, 또는 G로서 분류하는 단계를 포함한다. 하나의 구현예에서, 가능성들은, 소프트맥스 층에 의해 생성되는 지수적으로 정규화된 스코어들이다.

하나의 구현예에서, 본 방법은, 출력으로부터, A, C, T, 또는 G인, 현재 서열분석 사이클에서 표적 분석물 내에 혼입된 염기의 클래스 라벨을 식별하는 표적 분석물에 대한 출력 쌍을 도출하는 단계, 및 클래스 라벨에 기초하여 표적 분석물을 염기 호출하는 단계를 포함한다. 하나의 구현예에서, 1, 0의 클래스 라벨은 A 염기를 식별하고, 0, 1의 클래스 라벨은 C 염기를 식별하고, 1, 1의 클래스 라벨은 T 염기를 식별하고, 0, 0의 클래스 라벨은 G 염기를 식별한다. 다른 구현예에서, 1, 1의 클래스 라벨은 A 염기를 식별하고, 0, 1의 클래스 라벨은 C 염기를 식별하고, 0.5, 0.5의 클래스 라벨은 T 염기를 식별하고, 0, 0의 클래스 라벨은 G 염기를 식별한다. 또 다른 구현예에서, 1, 0의 클래스 라벨은 A 염기를 식별하고, 0, 1의 클래스 라벨은 C 염기를 식별하고, 0.5, 0.5의 클래스 라벨은 T 염기를 식별하고, 0, 0의 클래스 라벨은 G 염기를 식별한다. 다른 추가 구현예에서, 1, 2의 클래스 라벨은 A 염기를 식별하고, 0, 1의 클래스 라벨은 C 염기를 식별하고, 1, 1의 클래스 라벨은 T 염기를 식별하고, 0, 0의 클래스 라벨은 G 염기를 식별한다. 하나의 구현예에서, 본 방법은, 출력으로부터, A, C, T, 또는 G인, 현재 서열분석 사이클에서 표적 분석물 내에 혼입된 염기를 식별하는 표적 분석물에 대한 클래스 라벨을 도출하는 단계, 및 클래스 라벨에 기초하여 표적 분석물을 염기 호출하는 단계를 포함한다. 하나의 구현예에서, 0.33의 클래스 라벨은 A 염기를 식별하고, 0.66의 클래스 라벨은 C 염기를 식별하고, 1의 클래스 라벨은 T 염기를 식별하고, 0의 클래스 라벨은 G 염기를 식별한다. 다른 구현예에서, 0.50의 클래스 라벨은 A 염기를 식별하고, 0.75의 클래스 라벨은 C 염기를 식별하고, 1의 클래스 라벨은 T 염기를 식별하고, 0.25의 클래스 라벨은 G 염기를 식별한다. 하나의 구현예에서, 본 방법은, 출력으로부터, 단일 출력 값을 도출하는 단계, 단일 출력 값을 염기들 A, C, T, 및 G에 대응하는 클래스 값 범위들과 비교하는 단계, 비교에 기초하여, 특정 클래스 값 범위에 단일 출력 값을 할당하는 단계, 및 할당에 기초하여 표적 분석물을 염기 호출하는 단계를 포함한다. 하나의 구현예에서, 단일 출력 값은 시그모이드 함수를 사용하여 도출되고, 단일 출력 값은 0 내지 1의 범위이다. 다른 구현예에서, 0 내지 0.25의 클래스 값 범위는 A 염기를 표현하고, 0.25 내지 0.50의 클래스 값 범위는 C 염기를 표현하고, 0.50 내지 0.75의 클래스 값 범위는 T 염기를 표현하고, 0.75 내지 1의 클래스 값 범위는 G 염기를 표현한다.

서열분석 런 동안 플로우 셀의 타일 상에서 합성된 분석물들을 염기 호출하는 신경 네트워크 구현 방법으로서, 서열분석 런은 복수의 서열분석 사이클들을 갖고, 복수의 서열분석 사이클들 각각은 하나 이상의 이미지들을 갖는 이미지 세트를 생성하고, 이미지들 각각은 하나 이상의 이미지 채널들 중 각자의 이미지 채널에서 분석물들 및 그들의 주변 배경의 세기 방출물들을 묘사하는, 방법을 개시한다. 본 방법은, 템플릿 이미지 내의 분석물들의 참조 중심들을 식별하기 위해 템플릿 생성기를 통해 복수의 서열분석 사이클들 중 초기 서열분석 사이클들에서 각각 생성된 초기 이미지 세트들을 프로세싱하는 단계를 포함한다. 본 방법은, 복수의 서열분석 사이클들 중 현재 서열분석 사이클에서 생성된 현재 이미지 세트, 복수의 서열분석 사이클들 중 현재 서열분석 사이클에 선행하는 복수의 서열분석 사이클들 중 하나 이상에서 각각 생성된 하나 이상의 선행 이미지 세트들, 및 복수의 서열분석 사이클들 중 현재 서열분석 사이클에 후행하는 복수의 서열분석 사이클들 중 하나 이상에서 각각 생성된 하나 이상의 후행 이미지 세트들의 각각 내의 하나 이상의 이미지들에 액세스하는 단계를 포함한다. 본 방법은, 현재, 선행, 및 후행 이미지 세트들 내의 이미지들 각각을 템플릿 이미지에 정합하여 사이클 특정 및 이미지 채널 특정 변환들을 결정하는 단계를 포함한다. 본 방법은, 각각의 이미지 내의 분석물의 변환된 중심을 식별하기 위해 분석물의 참조 중심에 변환을 적용하는 단계를 포함한다. 본 방법은, 염기 호출되는 분석물들 중 특정 분석물에 대해, 현재, 선행, 후행 이미지 세트들 내의 이미지들 각각으로부터 이미지 패치를 추출하여, 각각의 이미지 패치가 그의 중심 픽셀에 이미지들 중 각자의 이미지에서 식별된 분석물들 중 특정 분석물의 변환된 중심을 포함하고, 이미지 채널들 중 대응하는 이미지 채널에서 분석물들 중 특정 분석물, 분석물들 중 일부 인접한 분석물, 및 그들의 주변 배경의 세기 방출물들을 묘사하게 하는 단계를 포함한다. 본 방법은, 각각의 이미지 패치에 대해, 그의 중심 픽셀에 포함된 분석물들 중 특정 분석물의 변환된 중심으로부터 그의 픽셀의 중심들의 거리들을 식별하는 거리 정보를 생성하는 단계를 포함한다. 본 방법은, 거리 정보를 각각의 이미지 패치 내에 픽셀별로 인코딩함으로써 입력 데이터를 구성하는 단계를 포함한다. 본 방법은, 콘볼루션 신경 네트워크를 통해 입력 데이터를 콘볼루션하여 입력 데이터의 콘볼루션된 표현을 생성하는 단계를 포함한다. 본 방법은, 출력 층을 통해 콘볼루션된 표현을 프로세싱하여 출력을 생성하는 단계를 포함한다. 본 방법은, 출력에 기초하여 복수의 서열분석 사이클들 중 현재 서열분석 사이클에서 분석물들 중 특정 분석물을 염기 호출하는 단계를 포함한다.

하나의 구현예에서, 본 방법은, 출력 층을 통해 콘볼루션된 표현을 프로세싱하여, 복수의 서열분석 사이클들 중 현재 서열분석 사이클에서 분석물들 중 특정 분석물 내에 혼입된 염기가 A, C, T, 및 G일 가능성들을 생성하는 단계, 및 가능성들에 기초하여 염기를 A, C, T, 또는 G로서 분류하는 단계를 포함한다.

하나의 구현예에서, 컴퓨터 구현 방법은, 신경 네트워크를 통해 입력 데이터를 프로세싱하고 입력 데이터의 대안의 표현을 생성하는 단계를 포함한다. 입력 데이터는 서열분석 런의 하나 이상의 서열분석 사이클들 각각에 대해 사이클별 이미지 데이터를 포함한다. 사이클별 이미지 데이터는 각자의 서열분석 사이클에서 캡처된 하나 이상의 분석물들 및 그들의 주변 배경의 세기 방출물들을 묘사한다. 본 방법은, 출력 층을 통해 대안의 표현을 프로세싱하고 출력을 생성하는 단계를 포함한다. 본 방법은, 출력에 기초하여 서열분석 사이클들 중 하나 이상의 서열분석 사이클에서 분석물들 중 하나 이상의 분석물을 염기 호출하는 단계를 포함한다.

하나의 구현예에서, 본 방법은, 사이클별 이미지 데이터의 픽셀들과 분석물들 중 하나 이상의 분석물들 사이의 거리를 식별하는 보충 거리 정보를 사이클별 이미지 데이터에 동반시키는 단계를 포함한다. 그러한 구현예에서, 거리들은 신경 네트워크 및 출력 층에 의한 프로세싱에 있어서 분석물들 중 하나 이상의 분석물들의 중심들, 형상들, 및/또는 경계들에 관한 콘텍스트를 통합한다. 하나의 구현예에서, 본 방법은, 사이클별 이미지 데이터의 픽셀들에 스케일링 값들을 할당하는 보충 스케일링 정보를 사이클별 이미지 데이터에 동반시키는 단계를 포함한다. 그러한 구현예에서, 스케일링 값들은 분석물들 중 하나 이상의 분석물들의 세기들의 분산을 고려한다.

염기 호출-다중 분석물 거리 채널

서열분석 런 동안 합성된 분석물들을 염기 호출하는 신경 네트워크 구현 방법을 개시한다. 본 방법은, 서열분석 런의 일련의 서열분석 사이클들 동안 생성된 사이클별 이미지 패치 세트들의 시퀀스를 포함하는 입력 데이터에 액세스하는 단계를 포함한다. 시퀀스 내의 각각의 사이클별 이미지 패치 세트는 하나 이상의 이미지 채널들 중 각자의 이미지 채널에 대한 이미지 패치를 갖는다. 각각의 이미지 패치는, 복수의 분석물들 및 그들의 주변 배경을 커버하는 픽셀들에 대한 픽셀 세기 데이터, 및 픽셀과 각각의 분석물들 사이의 중심-대-중심 거리에 기초하여 선택되는 분석물들 중 최근접 분석물로부터 각각의 픽셀의 중심-대-중심 거리를 식별하는 픽셀 거리 데이터를 갖는다. 본 방법은, 콘볼루션 신경 네트워크를 통해 입력 데이터를 콘볼루션하여 입력 데이터의 콘볼루션된 표현을 생성하는 단계를 포함한다. 본 방법은, 출력 층을 통해 콘볼루션된 표현을 프로세싱하여, 현재 서열분석 사이클에서 분석물들 중 각자의 분석물에 혼입된 염기가 A, C, T, 및 G일 가능성들을 식별하는 분석물들 각각에 대한 스코어 분포를 생성하는 단계를 포함한다. 본 방법은, 가능성들에 기초하여 분석물들 각각을 염기 호출하는 단계를 포함한다.

하나의 구현예에서, 픽셀 거리 데이터는 각각의 이미지 패치 내에 픽셀별로 인코딩된다. 하나의 구현예에서, 중심-대-중심 거리는, 분석물들의 변환된 중심들의 포지션 좌표들 및 픽셀 중심들의 포지션 좌표들을 사용하는 거리 공식으로부터 도출된다. 하나의 구현예에서, 본 방법은, 콘볼루션 신경 네트워크에 대한 입력으로서, 각각의 이미지 패치의 픽셀들에 대응하는 스케일링 값들을 갖는 세기 스케일링 채널들을 제공하는 단계를 포함하며, 스케일링 값들은 분석물들의 변환된 중심들을 포함하는 각각의 이미지 패치 내의 중심 픽셀들의 평균 세기들의 조합에 기초한다. 하나의 구현예에서, 세기 스케일링 채널들은 이미지 패치의 모든 픽셀들의 픽셀 세기 데이터에 동일한 스케일링 값들을 픽셀별로 적용한다. 하나의 구현예에서, 세기 스케일링 채널들은 픽셀 이웃 단위로 이미지 패치의 픽셀들의 픽셀 세기 데이터에 상이한 스케일링 값들을 픽셀별로 적용하여, 제1 중심 픽셀의 평균 세기로부터 도출된 제1 스케일링 값이 제1 중심 픽셀에 연속으로 인접하는 맞닿은 픽셀들의 제1 픽셀 이웃에 적용되고, 다른 중심 픽셀의 평균 세기로부터 도출된 다른 스케일링 값이 다른 중심 픽셀에 연속으로 인접하는 맞닿은 픽셀들의 다른 픽셀 이웃에 적용되게 한다. 하나의 구현예에서, 픽셀 이웃은 중심 픽셀들에 중심을 둔 m × n 픽셀 패치이고, 픽셀 패치는 3 × 3 픽셀들이다. 하나의 구현예에서, 픽셀 이웃은 중심 픽셀들에 중심을 둔 n-접속 픽셀 이웃이다. 하나의 구현예에서, 중심 픽셀들의 평균 세기들은 이미지 채널들 중 대응하는 이미지 채널 각각에 대해 결정된다. 하나의 구현예에서, 중심 픽셀들의 평균 세기들은 분석물들 중 각자의 분석물들에 대한 A 및 T 염기 호출을 생성했던 2개 이상의 선행 서열분석 사이클들 동안 관찰된 중심 픽셀들의 세기 값들을 평균함으로써 제1 이미지 채널에 대해 결정된다. 하나의 구현예에서, 중심 픽셀들의 평균 세기들은 분석물들 중 각자의 분석물들에 대한 A 및 C 염기 호출을 생성했던 2개 이상의 선행 서열분석 사이클들 동안 관찰된 중심 픽셀의 세기 값들을 평균함으로써 제2 이미지 채널에 대해 결정된다. 하나의 구현예에서, 중심 픽셀들의 평균 세기들은 분석물들 중 각자의 분석물들에 대한 A 염기 호출을 생성했던 2개 이상의 선행 서열분석 사이클들 동안 관찰된 중심 픽셀의 세기 값들을 평균함으로써 제1 이미지 채널에 대해 결정된다. 하나의 구현예에서, 중심 픽셀들의 평균 세기들은 분석물들 중 각자의 분석물들에 대한 G 염기 호출을 생성했던 2개 이상의 선행 서열분석 사이클들 동안 관찰된 중심 픽셀의 세기 값들을 평균함으로써 제2 이미지 채널에 대해 결정된다. 하나의 구현예에서, 중심 픽셀들의 평균 세기들은 분석물들 중 각자의 분석물들에 대한 T 염기 호출을 생성했던 2개 이상의 선행 서열분석 사이클들 동안 관찰된 중심 픽셀의 세기 값들을 평균함으로써 제3 이미지 채널에 대해 결정된다. 하나의 구현예에서, 중심 픽셀들의 평균 세기들은 분석물들 중 각자의 분석물들에 대한 C 염기 호출을 생성했던 2개 이상의 선행 서열분석 사이클들 동안 관찰된 중심 픽셀의 세기 값들을 평균함으로써 제3 이미지 채널에 대해 결정된다. 하나의 구현예에서, 본 방법은, 각각의 이미지 패치에 대해, 그의 픽셀들 중 어느 것이 분석물들을 커버하고 그의 픽셀들 중 어느 것이 분석물들을 커버하지 않는지를 식별하는 분석물-속성 정보를 생성하는 단계, 및 각각의 이미지 패치에 분석물-속성 정보를 픽셀별로 인코딩함으로써 입력 데이터를 구성하는 단계를 포함한다. 하나의 구현예에서, 분석물들을 커버하는 픽셀들은 분석물-속성 정보 내의 0이 아닌 값을 할당받는다. 하나의 구현예에서, 분석물들을 커버하지 않는 픽셀들은 분석물-속성 정보 내의 0 값을 할당받는다. 하나의 구현예에서, 각각의 이미지 패치의 크기는 3 × 3 픽셀들 내지 10000 × 10000 픽셀들의 범위이다. 하나의 구현예에서, 출력 층은 소프트맥스 층이고, 스코어 분포는 지수적으로 정규화된 스코어 분포이다.

서열분석 런 동안 합성된 분석물들을 염기 호출하는 신경 네트워크 구현 방법을 개시한다. 본 방법은, 서열분석 런의 일련의 서열분석 사이클들 동안 생성된 사이클별 이미지 패치 세트들의 시퀀스를 포함하는 입력 데이터에 액세스하는 단계를 포함한다. 시퀀스 내의 각각의 사이클별 이미지 패치 세트는 하나 이상의 이미지 채널들 중 각자의 이미지 채널에 대한 이미지 패치를 갖는다. 각각의 이미지 패치는, 복수의 분석물들 및 그들의 주변 배경을 커버하는 픽셀들에 대한 픽셀 세기 데이터, 및 픽셀과 각각의 분석물들 사이의 중심-대-중심 거리에 기초하여 선택되는 분석물들 중 최근접 분석물로부터 각각의 픽셀의 중심-대-중심 거리를 식별하는 픽셀 거리 데이터를 갖는다. 본 방법은, 콘볼루션 신경 네트워크를 통해 입력 데이터를 콘볼루션하여 입력 데이터의 콘볼루션된 표현을 생성하는 단계를 포함한다. 본 방법은, 출력 층을 통해 콘볼루션된 표현을 프로세싱하여 출력을 생성하는 단계를 포함한다. 본 방법은, 출력에 기초하여 현재 서열분석 사이클에서 분석물들 각각을 염기 호출하는 단계를 포함한다.

하나의 구현예에서, 본 방법은, 출력으로부터, 현재 서열분석 사이클에서 분석물들 중 각자의 분석물에 혼입된 염기가 A, C, T, 및 G일 가능성들을 식별하는 분석물들 각각에 대한 스코어 분포를 도출하는 단계, 및 가능성들에 기초하여 분석물들 각각을 염기 호출하는 단계를 포함한다. 하나의 구현예에서, 출력 층은 소프트맥스 층이고, 스코어 분포는 지수적으로 정규화된 스코어 분포이다. 하나의 구현예에서, 본 방법은, 출력으로부터, A, C, T, 및 G인, 현재 서열분석 사이클에서 분석물들 중 각자의 분석물 내에 혼입된 염기의 클래스 라벨을 식별하는 분석물들 각각에 대한 출력 쌍을 도출하는 단계, 및 클래스 라벨에 기초하여 분석물들 각각을 염기 호출하는 단계를 포함한다. 하나의 구현예에서, 본 방법은, 출력으로부터, 단일 출력 값을 도출하는 단계, 단일 출력 값을 염기들 A, C, T, 및 G에 대응하는 클래스 값 범위들과 비교하는 단계, 비교에 기초하여, 특정 클래스 값 범위에 단일 출력 값을 할당하는 단계, 및 할당에 기초하여 분석물들 각각을 염기 호출하는 단계를 포함한다. 하나의 구현예에서, 단일 출력 값은 시그모이드 함수를 사용하여 도출되고, 단일 출력 값은 0 내지 1의 범위이다.

염기 호출-다중 분석물 형상 기반 거리 채널

서열분석 런 동안 합성된 분석물들을 염기 호출하는 신경 네트워크 구현 방법을 개시한다. 본 방법은, 서열분석 런의 일련의 서열분석 사이클들 동안 생성된 사이클별 이미지 패치 세트들의 시퀀스를 포함하는 입력 데이터에 액세스하는 단계를 포함한다. 시퀀스 내의 각각의 사이클별 이미지 패치 세트는 하나 이상의 이미지 채널들 중 각자의 이미지 채널에 대한 이미지 패치를 갖는다. 각각의 이미지 패치는, 분석물 세기들을 묘사하는 분석물 픽셀들 및 배경 세기들을 묘사하는 배경 픽셀들을 사용하여 복수의 분석물들 및 그들의 주변 배경의 세기 방출물들을 묘사한다. 각각의 이미지 패치는, 각각의 분석물 픽셀을 분석물들 중 단 하나의 분석물로 분류하는 것에 기초하여 선택된 분석물들 중 할당된 분석물로부터 각각의 분석물 픽셀의 중심-대-중심 거리를 식별하는 분석물 거리 데이터로 인코딩된다. 본 방법은, 콘볼루션 신경 네트워크를 통해 입력 데이터를 콘볼루션하여 입력 데이터의 콘볼루션된 표현을 생성하는 단계를 포함한다. 본 방법은, 출력 층을 통해 콘볼루션된 표현을 프로세싱하여, 현재 서열분석 사이클에서 분석물들 중 각자의 분석물에 혼입된 염기가 A, C, T, 및 G일 가능성들을 식별하는 분석물들 각각에 대한 스코어 분포를 생성하는 단계를 포함한다. 본 방법은, 가능성들에 기초하여 분석물들 각각을 염기 호출하는 단계를 포함한다.

하나의 구현예에서, 분석물들은 다수의 분석물 픽셀들에 걸쳐 있는 불규칙한 형상들을 갖고, 픽셀-대-분석물 분류는 불규칙한 형상들에 기초한다. 하나의 구현예에서, 모든 배경 픽셀들은 분석물 거리 데이터에서 동일한 최소 중심-대-중심 거리를 할당받는다. 하나의 구현예에서, 모든 배경 픽셀들은 동일한 최소 세기를 할당받는다. 하나의 구현예에서, 각각의 분석물 픽셀은 신경 네트워크 기반 템플릿 생성기에 의해 생성된 감쇠 맵에 기초하여 분석물들 중 단 하나의 분석물로 분류된다. 그러한 구현예에서, 감쇠 맵은, 분석물들을 맞닿은 픽셀들의 분리된 영역들로서, 분석물들의 중심들을 분리된 영역들 중 각자의 분리된 영역들의 질량 중심들에 있는 중심 픽셀들로서, 그리고 그들의 주변 배경을 분리된 영역들 중 어떠한 것에도 속하지 않는 배경 픽셀들로서 식별한다. 하나의 구현예에서, 분리된 영역들 중 각자의 분리된 영역들 내의 맞닿은 픽셀들은 맞닿은 픽셀이 속하는 분리된 영역 내의 중심 픽셀로부터의 맞닿은 픽셀의 거리에 따라 가중된 세기 값들을 갖는다. 하나의 구현예에서, 분리된 영역들 중 각자의 분리된 영역들 내의 맞닿은 픽셀들은 동일한 분석물에 속하고 그를 공동-묘사(co-depict)하는 분석물 내부 픽셀들로서 카테고리화되고, 분석물 단위로 메모리에 저장된다. 하나의 구현예에서, 중심 픽셀들은 분리된 영역들의 각자의 분리된 영역들 내에 최고 세기 값들을 갖는다. 하나의 구현예에서, 배경 픽셀들 모두는 감쇠 맵에서 동일한 최저 세기 값을 갖는다. 하나의 구현예에서, 분석물 거리 데이터는 각각의 이미지 패치 내로의 픽셀별 인코딩이다. 하나의 구현예에서, 중심-대-중심 거리는, 분석물들의 변환된 중심들의 포지션 좌표들 및 픽셀 중심들의 포지션 좌표들을 사용하는 거리 공식으로부터 도출된다. 하나의 구현예에서, 분석물들의 변환된 중심들은 감쇠 맵에 의해 식별되는 분석물들의 중심들에 사이클 특정 및 이미지 채널 특정 변환들을 적용함으로써 도출된다.

하나의 구현예에서, 본 방법은, 콘볼루션 신경 네트워크에 대한 입력으로서, 각각의 이미지 패치의 픽셀들에 대응하는 스케일링 값들을 갖는 세기 스케일링 채널들을 제공하는 단계를 포함한다. 그러한 구현예에서, 스케일링 값들은 분석물들의 변환된 중심들을 포함하는 각각의 이미지 패치 내의 중심 픽셀들의 평균 세기들의 조합에 기초한다. 하나의 구현예에서, 세기 스케일링 채널들은 픽셀 그룹 단위로 이미지 패치의 픽셀들의 픽셀 세기 데이터에 상이한 스케일링 값들을 픽셀별로 적용하여, 제1 분석물의 중심을 포함하는 제1 중심 픽셀의 평균 세기로부터 도출된 제1 스케일링 값이 제1 분석물에 속하고 그를 공동 묘사하는 맞닿은 픽셀들의 제1 픽셀 그룹에 적용되고, 다른 분석물의 중심을 포함하는 다른 중심 픽셀의 평균 세기로부터 도출된 다른 스케일링 값이 다른 분석물에 속하고 그를 공동 묘사하는 맞닿은 픽셀들의 다른 픽셀 그룹에 적용되게 한다. 하나의 구현예에서, 중심 픽셀들의 평균 세기들은 이미지 채널들 중 대응하는 이미지 채널 각각에 대해 결정된다. 하나의 구현예에서, 본 방법은, 각각의 이미지 패치에 대해, 그의 픽셀들 중 어느 것이 분석물들을 커버하고 그의 픽셀들 중 어느 것이 분석물들을 커버하지 않는지를 식별하는 분석물-속성 정보를 생성하는 단계, 및 각각의 이미지 패치에 분석물-속성 정보를 픽셀별로 인코딩함으로써 입력 데이터를 구성하는 단계를 포함한다. 하나의 구현예에서, 분석물들을 커버하는 픽셀들은 분석물-속성 정보 내의 0이 아닌 값을 할당받는다. 다른 구현예에서, 분석물들을 커버하지 않는 픽셀들은 분석물-속성 정보 내의 0 값을 할당받는다.

서열분석 런 동안 합성된 분석물들을 염기 호출하는 신경 네트워크 구현 방법을 개시한다. 본 방법은, 서열분석 런의 일련의 서열분석 사이클들 동안 생성된 사이클별 이미지 패치 세트들의 시퀀스를 포함하는 입력 데이터에 액세스하는 단계를 포함한다. 시퀀스 내의 각각의 사이클별 이미지 패치 세트는 하나 이상의 이미지 채널들 중 각자의 이미지 채널에 대한 이미지 패치를 갖는다. 각각의 이미지 패치는, 분석물 세기들을 묘사하는 분석물 픽셀들 및 배경 세기들을 묘사하는 배경 픽셀들을 사용하여 복수의 분석물들 및 그들의 주변 배경의 세기 방출물들을 묘사한다. 각각의 이미지 패치는, 각각의 분석물 픽셀을 분석물들 중 단 하나의 분석물로 분류하는 것에 기초하여 선택된 분석물들 중 할당된 분석물로부터 각각의 분석물 픽셀의 중심-대-중심 거리를 식별하는 분석물 거리 데이터로 인코딩된다. 본 방법은, 콘볼루션 신경 네트워크를 통해 입력 데이터를 콘볼루션하여 입력 데이터의 콘볼루션된 표현을 생성하는 단계를 포함한다. 본 방법은, 출력 층을 통해 콘볼루션된 표현을 프로세싱하여 출력을 생성하는 단계를 포함한다. 본 방법은, 출력에 기초하여 현재 서열분석 사이클에서 분석물들 각각을 염기 호출하는 단계를 포함한다.

다른 구현예들에 대해 특정 구현예 섹션에서 논의된 특징부들 각각은 이러한 구현예에 동일하게 적용된다. 위에서 나타낸 바와 같이, 모든 다른 특징부들은 여기에서 반복되지 않으며, 참고로 반복된 것으로 간주되어야 한다. 독자는, 이들 구현예들에서 식별된 특징부들이 다른 구현예들에서 식별된 기본 특징부들의 세트들과 어떻게 쉽게 조합될 수 있는지를 이해할 것이다. 이 섹션에 기술된 방법의 다른 구현예들은 전술된 방법들 중 임의의 것을 수행하도록 프로세서에 의해 실행가능한 명령어들을 저장하는 비일시적 컴퓨터 판독가능 저장 매체를 포함할 수 있다. 이 섹션에 기술된 방법의 또 다른 구현예는 메모리, 및 메모리에 저장된 명령어들을 실행하여 전술된 방법들 중 임의의 것을 수행하도록 동작가능한 하나 이상의 프로세서들을 포함하는 시스템을 포함할 수 있다.

특화된 아키텍처

서로에 대해 정합 에러를 갖는 서열분석 이미지들을 사용하여 분석물들을 염기 호출하는 네트워크 구현 방법을 개시한다. 본 방법은, 서열분석 런의 일련의 서열분석 사이클들 동안 생성된 사이클별 이미지 패치 세트들의 시퀀스에 액세스하는 단계를 포함한다. 시퀀스는 사이클별 이미지 패치 세트들에 걸친 그리고 사이클별 이미지 패치 세트들 내의 이미지 패치들 사이의 정합 에러를 갖는다. 시퀀스 내의 각각의 이미지 패치는 일련의 서열분석 사이클들 내의 대응하는 서열분석 사이클에서 대응하는 이미지 채널 내의 염기 호출되는 표적 분석물, 일부 인접한 분석물들, 및 그들의 주변 배경의 세기 정보를 묘사한다. 시퀀스 내의 각각의 이미지 패치는 그의 중심 픽셀에 위치된 표적 분석물의 중심으로부터의 그의 픽셀들의 중심들의 거리들을 식별하는 거리 정보로 픽셀별로 인코딩된다. 본 방법은, 세기 및 거리 정보를 조합하고 서열분석 사이클 내에만 있고 서열분석 사이클들 사이에는 있지 않은 생성된 콘볼루션된 표현들을 조합하는 콘볼루션들을 적용하는 단계를 포함한, 제1 콘볼루션 서브네트워크를 통해 각각의 사이클별 이미지 패치 세트를 개별적으로 프로세싱하여, 각각의 서열분석 사이클에 대한 중간 콘볼루션된 표현을 생성하는 단계를 포함한다. 본 방법은, 중간 콘볼루션된 표현들을 조합하고 서열분석 사이클들 사이의 생성된 콘볼루션된 표현들을 조합하는 콘볼루션들을 적용하는 단계를 포함한, 제2 콘볼루션 서브네트워크를 통해 일련의 서열분석 사이클들 내의 연속적인 서열분석 사이클들에 대한 중간 콘볼루션된 표현들을 그룹별로 프로세싱하여, 일련의 서열분석 사이클들에 대한 최종 콘볼루션된 표현을 생성하는 단계를 포함한다. 본 방법은, 출력 층을 통해 최종 콘볼루션된 표현을 프로세싱하여 출력을 생성하는 단계를 포함한다. 본 방법은, 출력에 기초하여 현재 서열분석 사이클에서 표적 분석물을 염기 호출하는 단계를 포함한다.

하나의 구현예에서, 시퀀스 내의 각각의 이미지 패치는, 복수의 분석물들 및 그들의 주변 배경을 커버하는 픽셀들에 대한 픽셀 세기 데이터, 및 픽셀과 각각의 분석물들 사이의 중심-대-중심 거리에 기초하여 선택되는 분석물들 중 최근접 분석물로부터 각각의 픽셀의 중심-대-중심 거리를 식별하는 픽셀 거리 데이터를 갖는다. 그러한 구현예에서, 본 방법은, 출력에 기초하여 현재 서열분석 사이클에서 분석물들 각각을 염기 호출하는 단계를 포함한다. 하나의 구현예에서, 시퀀스 내의 각각의 이미지 패치는, 분석물 세기들을 묘사하는 분석물 픽셀들 및 배경 세기들을 묘사하는 배경 픽셀들을 사용하여 복수의 분석물들 및 그들의 주변 배경의 세기 방출물들을 묘사하고, 각각의 분석물 픽셀을 분석물들 중 단 하나의 분석물로 분류하는 것에 기초하여 선택된 분석물들 중 할당된 분석물로부터 각각의 분석물 픽셀의 중심-대-중심 거리를 식별하는 분석물 거리 데이터로 인코딩된다. 그러한 구현예에서, 본 방법은, 출력에 기초하여 현재 서열분석 사이클에서 분석물들 각각을 염기 호출하는 단계를 포함한다. 하나의 구현예에서, 본 방법은, 제1 콘볼루션 서브네트워크에 대한 입력으로서, 표적 분석물 및/또는 인접한 분석물들의 포지션 좌표들을 제공하는 단계를 포함한다. 하나의 구현예에서, 본 방법은, 제2 콘볼루션 서브네트워크에 대한 입력으로서, 표적 분석물 및/또는 인접한 분석물들의 포지션 좌표들을 제공하는 단계를 포함한다. 하나의 구현예에서, 본 방법은, 출력 층에 대한 입력으로서, 표적 분석물 및/또는 인접한 분석물들의 포지션 좌표들을 제공하는 단계를 포함한다.

정합 에러를 갖는 이미지 데이터를 사용하여 분석물들을 염기 호출하는 네트워크 구현 방법을 개시한다. 본 방법은, 서열분석 런의 일련의 서열분석 사이클들 동안 입력 데이터에 액세스하는 단계를 포함한다. 입력 데이터는 각각의 서열분석 사이클에 대한 이미지 텐서를 갖는다. 각각의 이미지 텐서는, 각각의 이미지 채널에 대해, 염기 호출되는 표적 분석물, 일부 인접한 분석물들, 및 주변 배경을 커버하는 픽셀들에 대한 픽셀 세기 데이터, 및 표적 분석물의 중심으로부터 픽셀들의 중심들까지의 거리들에 대한 픽셀 거리 데이터를 포함한, 하나 이상의 이미지 채널들에 대한 데이터를 갖는다. 입력 데이터는 이미지 텐서들에 걸친 픽셀들 사이의 교차 사이클 정합 에러, 및 이미지 텐서들 내의 픽셀들 사이의 교차 이미지 채널 정합 에러를 갖는다. 본 방법은, 서열분석 사이클 내에만 있고 서열분석 사이클들 사이에는 있지 않은, 픽셀 세기들 및 거리들을 조합하는 제1 공간 콘볼루션 층으로 시작하고, 일련의 서열분석 사이클들 내의 각각의 서열분석 사이클 내에만 있고 서열분석 사이클들 사이에는 있지 않은 선행 공간 콘볼루션 층들의 출력들을 조합하는 연속적인 공간 콘볼루션 층들로 계속되는 단계를 포함한, 공간 콘볼루션 층들의 시퀀스를 갖는 공간 콘볼루션 네트워크를 통해 각각의 입력 텐서를 개별적으로 프로세싱하여, 각각의 서열분석 사이클에 대해 공간 콘볼루션된 표현을 생성하는 단계를 포함한다. 본 방법은, 일련의 서열분석 사이클들 내의 서열분석 사이클들 사이에서 공간 콘볼루션된 표현들을 조합하는 제1 시간 콘볼루션 층으로 시작하고, 선행 시간 콘볼루션 층들의 연속적인 출력들을 조합하는 연속적인 시간 콘볼루션 층들로 계속되는 단계를 포함한, 시간 콘볼루션 층들의 시퀀스를 갖는 시간 콘볼루션 네트워크를 통해 연속적인 서열분석 사이클들에 대해 공간 콘볼루션된 표현들을 그룹별로 프로세싱하여, 일련의 서열분석 사이클들에 대해 시간 콘볼루션된 표현을 생성하는 단계를 포함한다. 본 방법은, 출력 층을 통해 시간 콘볼루션된 표현을 프로세싱하여 출력을 생성하는 단계를 포함한다. 본 방법은, 출력에 기초하여 현재 서열분석 사이클에서 표적 분석물을 염기 호출하는 단계를 포함한다.

하나의 구현예에서, 그룹별 프로세싱은 중첩하는 슬라이딩 윈도우들 내에서 연속적인 중간 콘볼루션된 표현들에 걸쳐서 콘볼루션하는 것을 추가로 포함한다. 하나의 구현예에서, 연속적인 시간 콘볼루션 층들은 중첩하는 슬라이딩 윈도우들 내에서 연속적인 출력들을 조합한다. 하나의 구현예에서, 픽셀 거리 데이터는 각각의 이미지 텐서 내로의 픽셀별 인코딩이다. 하나의 구현예에서, 시퀀스 내의 각각의 이미지 텐서는, 복수의 분석물들 및 그들의 주변 배경을 커버하는 픽셀들에 대한 픽셀 세기 데이터, 및 픽셀과 각각의 분석물들 사이의 중심-대-중심 거리에 기초하여 선택되는 분석물들 중 최근접 분석물로부터 각각의 픽셀의 중심-대-중심 거리를 식별하는 픽셀 거리 데이터를 갖는다. 하나의 구현예에서, 본 방법은, 출력에 기초하여 현재 서열분석 사이클에서 분석물들 각각을 염기 호출하는 단계를 포함한다. 하나의 구현예에서, 시퀀스 내의 각각의 이미지 텐서는, 분석물 세기들을 묘사하는 분석물 픽셀들 및 배경 세기들을 묘사하는 배경 픽셀들을 사용하여 복수의 분석물들 및 그들의 주변 배경의 세기 방출물들을 묘사하고, 각각의 분석물 픽셀을 분석물들 중 단 하나의 분석물로 분류하는 것에 기초하여 선택된 분석물들 중 할당된 분석물로부터 각각의 분석물 픽셀의 중심-대-중심 거리를 식별하는 분석물 거리 데이터로 인코딩된다. 하나의 구현예에서, 본 방법은, 출력에 기초하여 현재 서열분석 사이클에서 분석물들 각각을 염기 호출하는 단계를 포함한다. 하나의 구현예에서, 본 방법은, 제1 콘볼루션 서브네트워크에 대한 입력으로서, 표적 분석물 및/또는 인접한 분석물들의 포지션 좌표들을 제공하는 단계를 포함한다. 하나의 구현예에서, 본 방법은, 제2 콘볼루션 서브네트워크에 대한 입력으로서, 표적 분석물 및/또는 인접한 분석물들의 포지션 좌표들을 제공하는 단계를 포함한다. 하나의 구현예에서, 본 방법은, 출력 층에 대한 입력으로서, 표적 분석물 및/또는 인접한 분석물들의 포지션 좌표들을 제공하는 단계를 포함한다.

리프레이밍

서열분석 런 동안 합성된 분석물들을 염기 호출하는 신경 네트워크 구현 방법을 개시한다. 본 방법은, 서열분석 런의 일련의 서열분석 사이클들 동안 생성된 사이클별 이미지 패치 세트들의 시퀀스에 액세스하는 단계를 포함한다. 시퀀스 내의 각각의 사이클별 이미지 패치 세트는 하나 이상의 이미지 채널들 중 각자의 이미지 채널에 대한 이미지 패치를 갖는다. 각각의 이미지 패치는 염기 호출되는 표적 분석물, 일부 인접한 분석물들, 및 주변 배경을 커버하는 픽셀들에 대한 픽셀 세기 데이터를 갖는다. 본 방법은, 각각의 이미지 패치의 픽셀들을 리프레이밍하여 중심 픽셀 내의 표적 분석물의 중심을 중심에 두는 단계를 포함한다. 본 방법은, 콘볼루션 신경 네트워크를 통해 리프레이밍된 이미지 패치들을 콘볼루션하여 리프레이밍된 이미지 패치들의 콘볼루션된 표현을 생성하는 단계를 포함한다. 본 방법은, 출력 층을 통해 콘볼루션된 표현을 프로세싱하여 출력을 생성하는 단계를 포함한다. 본 방법은, 출력에 기초하여 현재 서열분석 사이클에서 표적 분석물을 염기 호출하는 단계를 포함한다.

하나의 구현예에서, 리프레이밍은 리프레이밍을 보상하기 위해 각각의 이미지 패치의 픽셀들의 세기 보간을 추가로 포함한다. 하나의 구현예에서, 세기 보간은 최근접 이웃 세기 추출, 가우스 기반 세기 추출, 2 × 2 서브픽셀 영역의 평균에 기초한 세기 추출, 2 × 2 서브픽셀 영역 중 가장 밝은 것에 기초한 세기 추출, 3 × 3 서브픽셀 영역의 평균에 기초한 세기 추출, 이중선형 세기 추출, 쌍삼차 세기 추출, 및/또는 가중된 영역 커버리지에 기초한 세기 추출 중 적어도 하나를 추가로 포함한다. 하나의 구현예에서, 리프레이밍 전에, 표적 분석물의 중심은 중심 픽셀의 중심으로부터의 오프셋에서 각각의 이미지 패치의 중심 픽셀에 위치된다. 하나의 구현예에서, 리프레이밍은 각각의 이미지 패치의 비-중심 픽셀들이 표적 분석물의 각자의 중심들로부터 등거리에 있는 것을 요구하는 것을 추가로 포함한다. 하나의 구현예에서, 시퀀스 내의 각각의 이미지 패치는, 복수의 분석물들 및 그들의 주변 배경을 묘사하는 픽셀들에 대한 픽셀 세기 데이터, 및 픽셀과 각각의 분석물들 사이의 중심-대-중심 거리에 기초하여 선택되는 분석물들 중 최근접 분석물로부터 각각의 픽셀의 중심-대-중심 거리를 식별하는 픽셀 거리 데이터를 갖는다. 하나의 구현예에서, 본 방법은, 출력에 기초하여 현재 서열분석 사이클에서 분석물들 각각을 염기 호출하는 단계를 포함한다. 하나의 구현예에서, 시퀀스 내의 각각의 이미지 패치는, 분석물 세기들을 묘사하는 분석물 픽셀들 및 배경 세기들을 묘사하는 배경 픽셀들을 사용하여 복수의 분석물들 및 그들의 주변 배경의 세기 방출물들을 묘사하고, 각각의 분석물 픽셀을 분석물들 중 단 하나의 분석물로 분류하는 것에 기초하여 선택된 분석물들 중 할당된 분석물로부터 각각의 분석물 픽셀의 중심-대-중심 거리를 식별하는 분석물 거리 데이터로 인코딩된다. 하나의 구현예에서, 본 방법은, 출력에 기초하여 현재 서열분석 사이클에서 분석물들 각각을 염기 호출하는 단계를 포함한다. 하나의 구현예에서, 본 방법은, 제1 콘볼루션 서브네트워크에 대한 입력으로서, 표적 분석물 및/또는 인접한 분석물들의 포지션 좌표들을 제공하는 단계를 포함한다. 하나의 구현예에서, 본 방법은, 제2 콘볼루션 서브네트워크에 대한 입력으로서, 표적 분석물 및/또는 인접한 분석물들의 포지션 좌표들을 제공하는 단계를 포함한다. 하나의 구현예에서, 본 방법은, 출력 층에 대한 입력으로서, 표적 분석물 및/또는 인접한 분석물들의 포지션 좌표들을 제공하는 단계를 포함한다.

플로우 셀 상의 분석물들을 염기 호출하는 신경 네트워크 구현 방법을 개시한다. 본 방법은, 플로우 셀 상의 분석물들을 합성하는 서열분석 런의 복수의 서열분석 사이클들에 걸쳐서 생성된 이미지 세트들의 시퀀스에 액세스하는 단계를 포함한다. 이미지 세트들의 시퀀스 내의 각각의 이미지는 플로우 셀의 비중첩 영역을 커버하고, 복수의 서열분석 사이클들 중 각자의 서열분석 사이클에서의 대응하는 이미지 채널에서 캡처된 비중첩 영역 상의 분석물들의 서브세트 및 그들의 주변 배경의 세기 방출물들을 묘사한다. 본 방법은, 이미지 세트들의 시퀀스로부터, 복수의 서열분석 사이클들 중 특정 서열분석 사이클에서 생성된 현재 이미지 세트, 복수의 서열분석 사이클들 중 특정 서열분석 사이클에 선행하는 복수의 서열분석 사이클들 중 하나 이상에서 각각 생성된 하나 이상의 선행 이미지 세트들, 및 복수의 서열분석 사이클들 중 특정 서열분석 사이클에 후행하는 복수의 서열분석 사이클들 중 하나 이상에서 각각 생성된 하나 이상의 후행 이미지 세트들을 선택함으로써, 분석물들의 서브세트의 특정 분석물에서 복수의 서열분석 사이클들 중 특정 서열분석 사이클에서 혼입된 뉴클레오티드 염기(A, C, T, 또는 G)를 결정하는 단계를 포함한다. 본 방법은, 선택된 이미지 세트들 각각 내의 이미지들로부터 이미지 패치들을 추출하는 단계를 포함한다. 이미지 패치들은 분석물들의 서브세트의 특정 분석물에 중심을 두고, 분석물들의 서브세트로부터의 추가 인접한 분석물들을 포함한다. 본 방법은, 콘볼루션 신경 네트워크의 하나 이상의 층들을 통해 이미지 패치들을 콘볼루션하여 이미지 패치들의 콘볼루션된 표현을 생성하는 단계를 포함한다. 본 방법은, 출력 층을 통해 콘볼루션된 표현을 프로세싱하여, 뉴클레오티드 염기가 A, C, T, 및 G일 가능성들을 생성하는 단계를 포함한다. 본 방법은, 가능성들에 기초하여 뉴클레오티드 염기를 A, C, T, 또는 G로서 분류하는 단계를 포함한다.

하나의 구현예에서, 본 방법은, 복수의 서열분석 사이클들 각각에 대해 선택, 추출, 콘볼루션, 프로세싱, 및 분류를 반복함으로써 복수의 서열분석 사이클들에 걸쳐서 분석물들의 서브세트의 특정 분석물에 대한 염기 호출들의 서열을 생성하는 단계를 포함한다. 하나의 구현예에서, 본 방법은, 분석물들의 서브세트 내의 복수의 분석물들 각각에 대한 복수의 서열분석 사이클들 각각에 대해 선택, 추출, 콘볼루션, 프로세싱, 및 분류를 반복함으로써 복수의 서열분석 사이클들에 걸쳐서 분석물들의 서브세트 내의 복수의 분석물들에 대한 염기 호출들의 서열을 생성하는 단계를 포함한다. 하나의 구현예에서, 플로우 셀의 비-중첩 영역은 타일이다. 하나의 구현예에서, 대응하는 이미지 채널은 복수의 필터 파장 대역들 중 하나이다. 하나의 구현예에서, 대응하는 이미지 채널은 복수의 이미지 사건들 중 하나이다.

다수 사이클들에서의 다수의 클러스터들의 동시 염기 호출

플로우 셀 상의 분석물들을 염기 호출하는 신경 네트워크 구현 방법을 개시한다. 본 방법은, 이미지 세트들의 시퀀스로부터 입력 이미지 데이터를 획득하는 단계를 포함한다. 이미지 세트들의 시퀀스는, 플로우 셀 상의 분석물들을 합성하는 서열분석 런의 복수의 서열분석 사이클들에 걸쳐서 생성된다. 이미지 세트들의 시퀀스 내의 각각의 이미지는 플로우 셀의 비중첩 영역을 커버하고, 복수의 서열분석 사이클들 중 각자의 서열분석 사이클에서의 대응하는 이미지 채널에서 캡처된 비중첩 영역 상의 분석물들의 서브세트 및 그들의 주변 배경의 세기 방출물들을 묘사한다. 본 방법은, 신경 네트워크의 하나 이상의 층들을 통해 입력 이미지 데이터를 프로세싱하여, 입력 이미지 데이터의 대안의 표현을 생성하는 단계를 포함한다. 본 방법은, 출력 층을 통해 대안의 표현을 프로세싱하여, 복수의 서열분석 사이클들 각각의 각각에서 분석물들의 서브세트 내의 분석물들 중 적어도 일부에 혼입된 뉴클레오티드 염기(A, C, T, 또는 G)를 식별하는 출력을 생성하여, 이에 의해, 복수의 서열분석 사이클들에 걸쳐서 분석물들의 서브세트 내의 분석물들 중 적어도 일부의 각각에 대한 염기 호출들의 서열을 생성하는 단계를 포함한다.

하나의 구현예에서, 출력 층은 소프트맥스 층이고, 출력은, A, C, T, 및 G인, 분석물들의 서브세트 내의 분석물들 중 적어도 일부의 각각에서 복수의 서열분석 사이클들 각각에 혼입된 뉴클레오티드 염기의 지수적으로 정규화된 스코어 분포이다. 하나의 구현예에서, 입력 이미지 데이터는 이미지 세트들의 시퀀스 내의 이미지들을 포함한다. 하나의 구현예에서, 입력 이미지 데이터는 이미지 세트들의 시퀀스 내의 이미지들 각각으로부터의 적어도 하나의 이미지 패치를 포함한다. 하나의 구현예에서, 신경 네트워크는 콘볼루션 신경 네트워크이다. 다른 구현예에서, 신경 네트워크는 잔차 신경 네트워크이다. 또 다른 구현예에서, 신경 네트워크는 순환 신경 네트워크이다.

순환 콘볼루션 기반 염기 호출

염기 호출을 위한 신경 네트워크 기반 시스템을 개시한다. 시스템은 순환 모듈 및 콘볼루션 모듈을 갖는 하이브리드 신경 네트워크를 포함한다. 순환 모듈은 콘볼루션 모듈로부터의 입력들을 사용한다. 콘볼루션 모듈은 하나 이상의 콘볼루션 층들을 통해 서열분석 런의 일련의 서열분석 사이클들에 대한 이미지 데이터를 프로세싱하고, 이미지 데이터의 하나 이상의 콘볼루션된 표현들을 생성한다. 이미지 데이터는 하나 이상의 분석물들 및 그들의 주변 배경의 세기 방출물들을 묘사한다. 순환 모듈은 콘볼루션된 표현들 및 이전 은닉된 상태 표현들을 콘볼루션한 것에 기초하여 현재 은닉된 상태 표현들을 생성한다. 출력 모듈은 분석물들 중 적어도 하나에 대한 그리고 현재 은닉된 상태 표현들에 기초한 서열분석 사이클들 중 적어도 하나에 대한 염기 호출을 생성한다.

염기 호출의 신경 네트워크 구현 방법을 개시한다. 본 방법은, 콘볼루션 신경 네트워크의 콘볼루션 층들의 캐스케이드를 통해 사이클별 입력 데이터의 시퀀스 내의 각각의 사이클별 입력 데이터를 개별적으로 프로세싱하는 단계를 포함한다. 사이클별 입력 데이터의 시퀀스가 서열분석 런의 일련의 서열분석 사이클들에 대해 생성되고, 각각의 사이클별 입력 데이터는 각자의 서열분석 사이클에서 캡처된 하나 이상의 분석물들 및 그들의 주변 배경의 세기 방출물들을 묘사하는 이미지 채널들을 포함한다. 본 방법은, 각각의 서열분석 사이클에 대해, 개별 프로세싱에 기초하여, 콘볼루션 층들 각각에서 콘볼루션된 표현을 생성하여, 이에 의해, 콘볼루션된 표현들의 시퀀스를 생성하고, 그의 사이클별 입력 데이터를 그의 대응하는 콘볼루션된 표현들의 시퀀스와 혼합하고, 혼합 표현을 생성하고, 그의 혼합 표현을 편평화하고, 편평한 혼합 표현을 생성하는 단계를 포함한다. 본 방법은, 연속적인 서열분석 사이클들의 편평한 혼합 표현들을 스택으로서 배열하는 단계를 포함한다. 본 방법은, 순환 신경 네트워크를 통해 스택을 순방향 및 역방향으로 프로세싱하는 단계를 포함하는데, 순환 신경 네트워크는 각자의 서열분석 사이클에 각각 대응하는 슬라이딩 윈도우 단위로 스택 내의 편평한 혼합 표현들의 서브세트에 걸쳐서 콘볼루션하고, (i) 스택에 걸친 현재 슬라이딩 윈도우 내의 편평한 혼합 표현들의 서브세트 및 (ii) 이전 은닉된 상태 표현에 기초하여, 각각의 서열분석 사이클에 대해 각각의 시간 스텝에서 현재 은닉된 상태 표현을 연속적으로 생성한다. 본 방법은, 스택을 순방향 및 역방향 방향으로 프로세싱한 결과들에 기초하여 서열분석 사이클들 각각에서 분석물들 각각을 염기 호출하는 단계를 포함한다. 순환 신경 네트워크는 LSTM 및 GRU와 같은 게이트형 순환 신경 네트워크일 수 있다.

본 방법은, 주어진 서열분석 사이클에서, 시간 스텝 단위로 주어진 서열분석 사이클의 순방향 및 역방향 현재 은닉된 상태 표현들을 조합하여 조합된 은닉된 상태 표현을 생성하고, 하나 이상의 완전 접속 네트워크들을 통해, 조합된 은닉된 상태 표현을 프로세싱하여 조밀한 표현을 생성하고, 소프트맥스 층을 통해, 조밀한 표현을 프로세싱하여 주어진 서열분석 사이클에서 분석물들 각각에 혼입된 염기들이 A, C, T 및 G일 가능성들을 생성하고, 가능성들에 기초하여 염기들을 A, C, T 또는 G로서 분류함으로써, 분석물들 각각을 염기 호출하는 단계를 포함한다. 하나의 구현예에서, 조합하는 것은 연결을 포함한다. 다른 구현예에서, 조합하는 것은 합산을 포함한다. 또 다른 구현예에서, 조합하는 것은 평균화를 포함한다.

하나의 구현예에서, 각각의 사이클별 입력 데이터는, 이미지 채널들을 보충하고 대응하는 이미지 채널들 내의 픽셀들과 하나 이상의 분석물 중심들 사이의 중심-대-중심 거리들을 포함하는 거리 채널들을 포함한다. 하나의 구현예에서, 각각의 사이클별 입력 데이터는, 이미지 채널들을 보충하고 이미지 채널들 내의 하나 이상의 픽셀들의 평균 세기들에 기초한 스케일링 값들을 포함하는 스케일링 채널을 포함한다. 하나의 구현예에서, 혼합은 콘볼루션된 표현들 및 사이클별 입력 데이터를 연결하는 것을 추가로 포함한다. 하나의 구현예에서, 혼합은 콘볼루션된 표현들 및 사이클별 입력 데이터를 합산하는 것을 추가로 포함한다. 하나의 구현예에서, 편평한 혼합 표현은 2차원 어레이이다. 하나의 구현예에서, 편평한 혼합 표현들의 서브세트는 3차원 체적이다. 하나의 구현예에서, 순환 신경 네트워크는 3차원 체적에 3차원 콘볼루션들을 적용한다. 하나의 구현예에서, 3차원 콘볼루션들은 SAME 패딩을 사용한다. 하나의 구현예에서, 콘볼루션 층들은 SAME 패딩을 사용한다. 하나의 구현예에서, 순환 신경 네트워크는, 입력 게이트, 활성화 게이트, 망각 게이트, 및 출력 게이트를 포함하는 장단기 메모리(LSTM) 네트워크이다. 그러한 구현예에서, 본 방법은, 입력 게이트, 활성화 게이트, 망각 게이트, 및 출력 게이트를 통해 (i) 스택에 걸친 현재 슬라이딩 윈도우에서의 편평한 혼합 표현들의 서브세트 및 (ii) 이전 은닉된 상태 표현을 프로세싱하는 단계, 및 각각의 서열분석 사이클에 대한 각각의 시간 스텝에서 현재 은닉된 상태 표현을 생성하는 단계를 포함한다. 입력 게이트, 활성화 게이트, 망각 게이트, 및 출력 게이트는, (i) 스택에 걸친 현재 슬라이딩 윈도우에서의 편평한 혼합 표현들의 서브세트 및 (ii) 이전 은닉된 상태 표현 상에 콘볼루션들을 적용한다.

하나의 구현예에서, 염기 호출하는 신경 네트워크 구현 방법은, 콘볼루션 모듈의 하나 이상의 콘볼루션 층들을 통해 서열분석 런의 일련의 서열분석 사이클들에 대한 이미지 데이터를 콘볼루션하는 단계, 및 이미지 데이터의 하나 이상의 콘볼루션된 표현들을 생성하는 단계를 포함한다. 이미지 데이터는 하나 이상의 분석물들 및 그들의 주변 배경의 세기 방출물들을 묘사한다. 본 방법은, 순환 모듈을 통해 콘볼루션된 표현들 및 이전 은닉된 상태 표현들을 콘볼루션하는 단계, 및 현재 은닉된 상태 표현들을 생성하는 단계를 포함한다. 본 방법은, 출력 모듈을 통해 현재 은닉된 상태 표현들을 프로세싱하는 단계, 및 분석물들 중 적어도 하나에 대한 그리고 서열분석 사이클들 중 적어도 하나에 대한 염기 호출을 생성하는 단계를 포함한다.

품질 스코어들의 추론

신경 네트워크 기반 염기 호출자에 의해 호출되는 염기들에 품질 스코어를 할당하는 컴퓨터 구현 방법을 개시한다. 본 방법은, 트레이닝 동안 트레이닝 데이터를 프로세싱한 것에 응답하여 신경 네트워크 기반 염기 호출자에 의해 생성되는 예측된 염기 호출들의 분류 스코어들을 양자화하는 단계를 포함한다. 본 방법은, 양자화된 분류 스코어들의 세트를 선택하는 단계를 포함한다. 본 방법은, 양자화된 분류 스코어들의 세트 내의 각각의 양자화된 분류 스코어에 대해, 그의 예측된 염기 호출들을 대응하는 실측 자료 염기 호출들과 비교함으로써 염기 호출 에러율을 결정하는 단계를 포함한다. 본 방법은, 양자화된 분류 스코어들과 그들의 염기 호출 에러율들 사이의 피팅을 결정하는 단계를 포함한다. 즉, 각각의 양자화된 분류 스코어에 대해, 양자화된 분류 스코어를 할당받는 트레이닝 데이터에 있어서의 트레이닝 예들의 세트가 결정된다. 트레이닝 예들의 결정된 세트 내의 각각의 트레이닝 예에 대해, 트레이닝 예에 대한 예측된 염기 호출은 트레이닝 예에 대한 실측 자료 염기 호출과 비교되고, 에러율은 특정 양자화된 분류 스코어에 에러율을 제공하기 위해 트레이닝 예들의 결정된 세트에 걸친 비교로부터 결정된다. 본 방법은, 피팅에 기초하여 품질 스코어들을 양자화된 분류 스코어들에 상관시키는 단계를 포함한다.

하나의 구현예에서, 양자화된 분류 스코어들의 세트는 트레이닝 동안 트레이닝 데이터를 프로세싱한 것에 응답하여 신경 네트워크 기반 염기 호출자에 의해 생성된 예측된 염기 호출들의 분류 스코어들의 서브세트를 포함하며, 분류 스코어들은 실수들이다. 하나의 구현예에서, 양자화된 분류 스코어들의 세트는 트레이닝 동안 트레이닝 데이터를 프로세싱한 것에 응답하여 신경 네트워크 기반 염기 호출자에 의해 생성된 예측된 염기 호출들의 분류 스코어들 모두를 포함하며, 분류 스코어들은 실수들이다. 하나의 구현예에서, 분류 스코어들은, 1로 합산되고 신경 네트워크 기반 염기 호출자의 소프트맥스 출력 층에 의해 생성되는 지수적으로 정규화된 소프트맥스 스코어들이다. 하나의 구현예에서, 양자화된 분류 스코어들의 세트는

로서 정의되고 소프트맥스 스코어들에 적용되는 선택 공식에 기초하여 선택된다. 하나의 구현예에서, 양자화된 분류 스코어들의 세트는

로서 정의되고 소프트맥스 스코어들에 적용되는 선택 공식에 기초하여 선택된다. 하나의 구현예에서, 본 방법은, 상관에 기초하여, 추론 동안 신경 네트워크 기반 염기 호출자에 의해 호출되는 염기들에 품질 스코어를 할당하는 단계를 포함한다. 하나의 구현예에서, 본 방법은, 추론 동안 신경 네트워크 기반 염기 호출자에 의해 호출되는 염기들에 품질 스코어 대응성 스킴을 적용한 것에 기초하여 품질 스코어들을 할당하는 단계를 포함한다. 그러한 구현예에서, 그 스킴은, 추론 동안, 추론 데이터를 프로세싱한 것에 응답하여 신경 네트워크 기반 염기 호출자에 의해 생성된 분류 스코어들의 범위들을 양자화된 분류 스코어들의 세트 내의 대응하는 양자화된 분류 스코어들에 맵핑한다. 하나의 구현예에서, 본 방법은, 추론 동안, 품질 스코어가 현재 염기 호출 사이클에 대한 설정된 임계치 미만인 분석물을 염기 호출하는 것을 중지시키는 단계를 포함한다. 하나의 구현예에서, 본 방법은, 추론 동안, 평균 품질 스코어가 연속적인 염기 호출 사이클들에 이후 설정된 임계치 미만인 분석물을 염기 호출하는 것을 중지시키는 단계를 포함한다. 하나의 구현예에서, 예측된 염기 호출들을 대응하는 실측 자료 염기 호출들과 비교하기 위해 사용되는 샘플 크기는 각각의 양자화된 분류 스코어에 특정적이다. 하나의 구현예에서, 예측된 염기 호출들을 대응하는 실측 자료 염기 호출들과 비교하기 위해 사용되는 샘플 크기는 각각의 양자화된 분류 스코어에 특정적이다. 하나의 구현예에서, 피팅은 회귀 모델을 사용하여 결정된다. 하나의 구현예에서, 본 방법은, 각각의 양자화된 분류 스코어에 대해, 그의 예측된 염기 호출들을 대응하는 실측 자료 염기 호출들과 비교함으로써 염기 호출 정확률을 결정하는 단계, 및 양자화된 분류 스코어들과 그들의 염기 호출 정확률 사이의 피팅을 결정하는 단계를 포함한다. 하나의 구현예에서, 대응하는 실측 자료 염기 호출들은 다수의 서열분석 기구들, 서열분석 화학반응, 및 서열분석 프로토콜들로 서열분석된 잘-특성화된 인간 및 비-인간 샘플들로부터 도출된다.

품질 스코어들의 예측

병렬로 동작하는 다수의 프로세서들 상에서 작동하고 메모리에 커플링되는 신경 네트워크 기반 품질 스코러를 개시한다. 본 시스템은, 다수의 프로세서들 상에서 작동하는 콘볼루션 신경 네트워크를 포함한다. 콘볼루션 신경 네트워크는 서열분석 이미지들로부터의 데이터를 포함하는 트레이닝 예들에 대해 트레이닝되고, 콘볼루션 신경 네트워크의 염기 호출 품질 예측들을 염기 호출 품질 실측 자료들과 점진적으로 매칭시키는 역전파 기반 기울기 업데이트 기법을 사용하여 염기 호출 품질 실측 자료들로 표지된다. 본 시스템은, 하나 이상의 분석물들에 대해 호출되는 하나 이상의 염기들의 품질 상태를 결정하기 위해, 다수의 프로세서들 중 적어도 하나 상에서 작동하고 하나 이상의 서열분석 사이클들에서 캡처된 서열분석 이미지들로부터의 데이터를 콘볼루션 신경 네트워크로 공급하는 콘볼루션 신경 네트워크의 입력 모듈을 포함한다. 본 시스템은, 다수의 프로세서들 중 적어도 하나 상에서 작동하고 콘볼루션 신경 네트워크에 의한 분석을 하나 이상의 분석물들에 대해 호출되는 하나 이상의 염기들의 품질 상태를 식별하는 출력으로 변환하는 콘볼루션 신경 네트워크의 출력 모듈을 포함한다.

하나의 구현예에서, 출력 모듈은 품질 상태가 고품질, 중간 품질, 및 저품질일 가능성들을 생성하는 소프트맥스 분류 층을 추가로 포함한다. 그러한 구현예에서, 가능성들에 기초하여, 품질 상태는 고품질, 중간 품질, 또는 저품질로 분류된다. 하나의 구현예에서, 소프트맥스 분류 층은 품질 상태가 복수의 품질 스코어들을 할당받는 것에 대한 가능성들을 생성한다. 그러한 구현예에서, 가능성들에 기초하여, 품질 상태는 복수의 품질 스코어들 중 하나로부터의 품질 스코어를 할당받는다. 하나의 구현예에서, 품질 스코어들은 염기 호출 에러 확률들에 대수학적으로 기초하고, 복수의 품질 스코어들은 Q6, Q10, Q43, Q20, Q22, Q27, Q30, Q33, Q37, Q40, 및 Q50을 포함한다. 하나의 구현예에서, 출력 모듈은 품질 상태를 식별하는 연속 값들을 생성하는 회귀 층을 추가로 포함한다. 하나의 구현예에서, 본 시스템은, 서열분석 이미지들로부터의 데이터를 호출된 염기들에 대한 품질 예측기 값들로 보충하고, 서열분석 이미지들로부터의 데이터와 함께 품질 예측기 값들을 콘볼루션 신경 네트워크에 공급하는 보충 입력 모듈을 포함한다. 하나의 구현예에서, 품질 예측기 값들은 온라인 중첩, 순수도, 페이징, start5, 헥사머 스코어, 모티프 누적, 엔디니스, 대략적인 호모폴리머, 세기 감쇠, 끝에서 두 번째 순도, 배경과의 신호 중첩(SOWB), 및/또는 시프트된 순수도 G 조정을 포함한다. 하나의 구현예에서, 품질 예측기 값들은 피크 높이, 피크 폭, 피크 위치, 상대적 피크 위치들, 피크 높이 비, 피크 간격 비, 및/또는 피크 대응성을 포함한다.

또한, 품질 스코어링의 신경 네트워크 구현 방법을 개시한다. 본 방법은, 하나 이상의 분석물들에 대해 호출되는 하나 이상의 염기들의 품질 상태를 결정하기 위해 하나 이상의 서열분석 사이클들에서 캡처된 서열분석 이미지들로부터의 데이터를 콘볼루션 신경 네트워크로 공급하는 단계를 포함한다. 콘볼루션 신경 네트워크는, 서열분석 이미지들로부터의 데이터를 포함하는 트레이닝 예들에 대해 트레이닝되고 염기 호출 품질 실측 자료들로 표지된다. 트레이닝은, 콘볼루션 신경 네트워크의 염기 호출 품질 예측들을 염기 호출 품질 실측 자료들과 점진적으로 매칭시키는 역전파 기반 기울기 업데이트 기법을 사용하는 것을 포함한다. 본 방법은, 콘볼루션 신경 네트워크에 의한 분석을 하나 이상의 분석물들에 대해 호출되는 하나 이상의 염기들의 품질 상태를 식별하는 출력으로 변환하는 단계를 포함한다.

하나의 구현예에서, 컴퓨터 구현 방법은, 신경 네트워크를 통해 하나 이상의 분석물들에 대한 입력 데이터를 프로세싱하고 입력 데이터의 대안의 표현을 생성하는 단계, 출력 층을 통해 대안의 표현을 프로세싱하여 출력을 생성하는 단계 - 출력은 분석물들 중 특정 분석물에 혼입된 염기가 A, C, T, 및 G일 가능성들을 식별함 -, 출력에 기초하여 분석물들 중 하나 이상에 대해 염기들을 호출하는 단계, 및 출력에 의해 식별된 가능성들에 기초하여 호출된 염기들의 품질을 결정하는 단계를 포함한다.

병렬로 동작하는 다수의 프로세서들 상에서 작동하고 메모리에 커플링되는 신경 네트워크 기반 품질 스코러를 개시한다. 본 시스템은, 다수의 프로세서들 상에서 작동하고, 서열분석 이미지들로부터의 데이터를 포함하는 트레이닝 예들에 대해 트레이닝되고, 신경 네트워크의 염기 호출 품질 예측들을 염기 호출 품질 실측 자료들과 점진적으로 매칭시키는 역전파 기반 기울기 업데이트 기법을 사용하여 염기 호출 품질 실측 자료들로 표지되는 신경 네트워크를 포함한다. 본 시스템은, 하나 이상의 분석물들에 대해 호출되는 하나 이상의 염기들의 품질 상태를 결정하기 위해, 다수의 프로세서들 중 적어도 하나 상에서 작동하고, 하나 이상의 서열분석 사이클들에서 캡처된 서열분석 이미지들로부터의 데이터를 신경 네트워크로 공급하는 신경 네트워크의 입력 모듈을 포함한다. 본 시스템은, 다수의 프로세서들 중 적어도 하나 상에서 작동하고, 신경 네트워크에 의한 분석을 하나 이상의 분석물들에 대해 호출되는 하나 이상의 염기들의 품질 상태를 식별하는 출력으로 변환하는 신경 네트워크의 출력 모듈을 포함한다.

항목들

본 발명은, 또한, 하기의 항목들을 포함한다:

항목 세트 1

1. 컴퓨터 구현 방법으로서,

신경 네트워크를 통해 입력 데이터를 프로세싱하고, 입력 데이터의 대안의 표현을 생성하는 단계 - 입력 데이터는 서열분석 런의 하나 이상의 서열분석 사이클들 각각에 대한 사이클별 데이터를 포함하고, 사이클별 데이터는 각자의 서열분석 사이클에서 하나 이상의 분석물들을 나타냄 -;

출력 층을 통해 대안의 표현을 프로세싱하고 출력을 생성하는 단계; 및

출력에 기초하여 서열분석 사이클들 중 하나 이상의 서열분석 사이클에서 분석물들 중 하나 이상의 분석물을 염기 호출하는 단계를 포함하는, 컴퓨터 구현 방법.

2. 항목 1에 있어서, 사이클별 데이터는 각자의 서열분석 사이클에서 주변 배경을 나타내는, 신경 네트워크 구현 방법.

3. 항목 1 또는 항목 2에 있어서, 입력 데이터는 이미지 데이터이고, 사이클별 데이터는 각자의 서열분석 사이클에서 캡처된 하나 이상의 분석물들 및 주변 배경을 나타내는 세기 방출물들을 포함하는, 신경 네트워크 구현 방법.

4. 항목 3에 있어서, 분석물들 중 하나 이상을 나타내는 세기 방출물들을 묘사하는 그러한 픽셀들과 사이클별 데이터의 픽셀들 사이의 거리들을 식별하는 보충 거리 정보를 사이클별 데이터에 동반시키는 단계를 추가로 포함하는, 컴퓨터 구현 방법.

5. 항목 3에 있어서, 사이클별 데이터의 픽셀들에 스케일링 값들을 할당하는 보충 스케일링 정보를 사이클별 데이터에 동반시키는 단계를 추가로 포함하는, 컴퓨터 구현 방법.

6. 항목 1에 있어서, 사이클별 데이터는 각자의 서열분석 사이클에서 검출된 전압 변화를 나타내는, 신경 네트워크 구현 방법.

7. 항목 1에 있어서, 사이클별 데이터는 각자의 서열분석 사이클에서 측정된 전류 신호를 나타내는, 신경 네트워크 구현 방법.

8. 복수의 서열분석 사이클들을 포함하는 서열분석 런 동안 합성된 분석물들을 염기 호출하는 신경 네트워크 구현 방법으로서,

콘볼루션 신경 네트워크를 통해 입력 데이터를 콘볼루션하여 입력 데이터의 콘볼루션된 표현을 생성하는 단계 -

입력 데이터는, 서열분석 런의 현재 서열분석 사이클에서 생성된 현재 이미지 세트, 현재 서열분석 사이클에 선행하는 서열분석 런의 하나 이상의 서열분석 사이클들에서 각각 생성된 하나 이상의 선행 이미지 세트들, 및 현재 서열분석 사이클에 후행하는 서열분석 런의 하나 이상의 서열분석 사이클들에서 각각 생성된 하나 이상의 후행 이미지 세트들 각각 내의 하나 이상의 이미지들로부터 추출된 이미지 패치들을 포함하고,

이미지 패치들 각각은 염기 호출되는 표적 분석물의 세기 방출물들을 묘사하고,

입력 데이터는 이미지 패치의 중심 픽셀로부터 이미지 패치의 픽셀들의 각자의 거리들을 나타내는 거리 정보를 추가로 포함함 -;

출력 층을 통해 콘볼루션된 표현을 프로세싱하여 출력을 생성하는 단계; 및

출력에 기초하여 현재 서열분석 사이클에서 표적 분석물을 염기 호출하는 단계를 포함하는, 신경 네트워크 구현 방법.

9. 항목 8에 있어서,

콘볼루션 신경 네트워크에 대한 입력으로서, 각자의 분석물들을 표현하는 이미지 영역들의 중심들의 포지션 좌표들을 제공하는 단계를 추가로 포함하고,

입력은 콘볼루션 신경 네트워크의 제1 층에 제공되고,

입력은 콘볼루션 신경 네트워크의 하나 이상의 중간 층들에 제공되고,

입력은 콘볼루션 신경 네트워크의 최종 층에 제공되는, 신경 네트워크 구현 방법.

10. 항목 8 또는 항목 9에 있어서,

콘볼루션 신경 네트워크에 대한 입력으로서, 이미지 패치들의 픽셀들에 대응하는 스케일링 값들을 갖는 세기 스케일링 채널을 제공하는 단계를 추가로 포함하고,

스케일링 값들은 각각이 특정 표적 분석물을 포함하는 이미지 패치들의 중심 픽셀들의 평균 세기에 기초하는, 신경 네트워크 구현 방법.

11. 항목 8 내지 항목 10 중 어느 한 항목에 있어서, 세기 스케일링 채널은 이미지 패치들의 모든 픽셀들에 대해 동일한 스케일링 값을 픽셀별로 포함하는, 신경 네트워크 구현 방법.

12. 항목 8에 있어서, 각각의 이미지 패치는, 각자의 픽셀들과 복수의 분석물들 중 최근접 분석물 사이의 거리를 나타내는 픽셀 거리 데이터를 추가로 포함하고, 복수의 분석물들 중 최근접 분석물은 픽셀과 분석물들 각각 사이의 중심-대-중심 거리에 기초하여 선택되는, 신경 네트워크 구현 방법.

13. 항목 8에 있어서, 각각의 이미지 패치는, 각각의 분석물 픽셀을 분석물들 중 단 하나의 분석물로 분류하는 것에 기초하여 선택되는 복수의 분석물들 중 할당된 분석물로부터의 각각의 분석물 픽셀의 거리를 식별하는 분석물 거리 데이터를 추가로 포함하는, 신경 네트워크 구현 방법.

14. 항목 8 내지 항목 13 중 어느 한 항목에 있어서, 콘볼루션 신경 네트워크를 통해 입력 데이터를 콘볼루션하여 입력 데이터의 콘볼루션된 표현을 생성하는 단계는,

세기 및 거리 정보를 조합하고 서열분석 사이클 내에만 있고 서열분석 사이클들 사이에는 있지 않은 생성된 콘볼루션된 표현들을 조합하는 콘볼루션들을 적용하는 단계를 포함한, 콘볼루션 신경 네트워크의 제1 콘볼루션 서브네트워크를 통해 각각의 사이클별 이미지 패치 세트를 개별적으로 프로세싱하여, 각각의 서열분석 사이클에 대한 중간 콘볼루션된 표현을 생성하는 단계; 및

중간 콘볼루션된 표현들을 조합하고 서열분석 사이클들 사이의 생성된 콘볼루션된 표현들을 조합하는 콘볼루션들을 적용하는 단계를 포함한, 콘볼루션 신경 네트워크의 제2 콘볼루션 서브네트워크를 통해 일련의 서열분석 사이클들 내의 연속적인 서열분석 사이클에 대한 중간 콘볼루션된 표현들을 그룹별로 프로세싱하여, 일련의 서열분석 사이클들에 대한 최종 콘볼루션된 표현을 생성하는 단계를 포함하고;

출력 층을 통해 콘볼루션된 표현을 프로세싱하여 출력을 생성하는 단계는 출력 층을 통해 최종 콘볼루션된 표현을 프로세싱하는 단계를 포함하는, 신경 네트워크 구현 방법.

15. 항목 8 내지 항목 14 중 어느 한 항목에 있어서, 각각의 이미지 패치의 픽셀들을 리프레이밍하여 중심 픽셀 내의 표적 분석물의 중심에 중심을 두어, 리프레이밍된 이미지 패치들을 생성하는 단계를 추가로 포함하고;

콘볼루션 신경 네트워크를 통해 입력 데이터를 콘볼루션하여 입력 데이터의 콘볼루션된 표현을 생성하는 단계는, 콘볼루션 신경 네트워크를 통해 리프레이밍된 이미지 패치들을 콘볼루션하여, 콘볼루션된 표현을 생성하는 단계를 포함하는, 신경 네트워크 구현 방법.

16. 항목 15에 있어서, 리프레이밍은 리프레이밍을 보상하기 위해 각각의 이미지 패치의 픽셀들의 세기 보간을 추가로 포함하는, 신경 네트워크 구현 방법.

17. 염기 호출하는 신경 네트워크 구현 방법으로서,

콘볼루션 신경 네트워크의 콘볼루션 층들의 캐스케이드를 통해 사이클별 입력 데이터의 시퀀스 내의 각각의 사이클별 입력 데이터를 개별적으로 프로세싱하는 단계 -

사이클별 입력 데이터의 시퀀스는 서열분석 런의 일련의 서열분석 사이클들에 대해 생성되고,

각각의 사이클별 입력 데이터는 각자의 서열분석 사이클에서 캡처된 하나 이상의 분석물들 및 그들의 주변 배경의 세기 방출물들을 묘사하는 이미지 채널들을 포함함 -;

각각의 서열분석 사이클에 대해,

개별 프로세싱에 기초하여, 콘볼루션 층들 각각에서 콘볼루션된 표현을 생성하여, 이에 의해, 콘볼루션된 표현들의 시퀀스를 생성하고,

그의 사이클별 입력 데이터를 그의 대응하는 콘볼루션된 표현들의 시퀀스와 혼합하고, 혼합 표현을 생성하고,

그의 혼합 표현을 편평화하고, 편평한 혼합 표현을 생성하는 단계;

연속적인 서열분석 사이클들의 편평한 혼합 표현들을 스택으로서 배열하는 단계;

순환 신경 네트워크를 통해 스택을 순방향 및 역방향으로 프로세싱하는 단계 - 순환 신경 네트워크는

각자의 서열분석 사이클에 각각 대응하는 슬라이딩 윈도우 단위로 스택 내의 편평한 혼합 표현들의 서브세트에 걸쳐서 콘볼루션하고,

(i) 스택에 걸친 현재 슬라이딩 윈도우 내의 편평한 혼합 표현들의 서브세트 및 (ii) 이전 은닉된 상태 표현에 기초하여, 각각의 서열분석 사이클에 대해 각각의 시간 스텝에서 현재 은닉된 상태 표현을 연속적으로 생성함 -; 및

스택을 순방향 및 역방향 방향으로 프로세싱한 결과들에 기초하여 서열분석 사이클들 각각에서 분석물들 각각을 염기 호출하는 단계를 포함하는, 신경 네트워크 구현 방법.

18. 항목 17에 있어서,

주어진 서열분석 사이클에서,

시간 스텝 단위로 주어진 서열분석 사이클의 순방향 및 역방향 현재 은닉된 상태 표현들을 조합하여 조합된 은닉된 상태 표현을 생성하고 - 조합은 연결 또는 합산 또는 평균화를 포함함 -;

하나 이상의 완전 접속 네트워크들을 통해 조합된 은닉된 상태 표현을 프로세싱하여 조밀한 표현을 생성하고;

소프트맥스 층을 통해 조밀한 표현을 프로세싱하여, 주어진 서열분석 사이클에서 분석물들 각각에 혼입된 염기들이 A, C, T, 및 G일 가능성들을 생성하고;

가능성들에 기초하여 염기들을 A, C, T, 또는 G로서 분류함으로써, 분석물들 각각을 염기 호출하는 단계를 추가로 포함하는, 신경 네트워크 구현 방법.

19. 염기 호출하기 위한 신경 네트워크 기반 시스템으로서,

순환 모듈 및 콘볼루션 모듈을 갖는 하이브리드 신경 네트워크 - 순환 모듈은 콘볼루션 모듈로부터의 입력들을 사용하고,

콘볼루션 모듈은 하나 이상의 콘볼루션 층들을 통해 서열분석 런의 일련의 서열분석 사이클들에 대해 이미지 데이터를 프로세싱하고 이미지 데이터의 하나 이상의 콘볼루션된 표현들을 생성하고, 이미지 데이터는 하나 이상의 분석물들 및 그들의 주변 배경의 세기 방출물들을 묘사하며,

순환 모듈은 콘볼루션된 표현들 및 이전 은닉된 상태 표현들을 콘볼루션한 것에 기초하여 현재 은닉된 상태 표현들을 생성함 -; 및

분석물들 중 적어도 하나에 대한 그리고 현재 은닉된 상태 표현들에 기초한 서열분석 사이클들 중 적어도 하나에 대한 염기 호출을 생성하는 출력 모듈을 포함하는, 신경 네트워크 기반 시스템.

20. 클러스터들을 염기 호출하는 컴퓨터 구현 방법으로서,

신경 네트워크를 통해 입력 데이터를 프로세싱하고 입력 데이터의 대안의 표현을 생성하는 단계

- 입력 데이터는 (i) 서열분석 런의 하나 이상의 서열분석 사이클들 각각에 대한 사이클별 데이터 및 (ii) 보충 거리 정보를 포함하고,

사이클별 데이터는 서열분석 사이클들 중 각자의 서열분석 사이클에서 캡처된 하나 이상의 클러스터들 및 주변 배경을 나타내는 세기 방출물들을 묘사하는 픽셀들을 포함하고,

사이클별 데이터에는 사이클별 데이터의 픽셀들 사이의 거리들을 식별하는 보충 거리 정보가 동반되고;

신경 네트워크에 의한 사이클별 데이터의 픽셀들의 프로세싱 동안, 보충 거리 정보는, 사이클별 데이터의 픽셀들 중 어느 것이 클러스터들의 중심들을 포함하고 사이클별 데이터의 픽셀들 중 어느 것이 클러스터들의 중심들로부터 더 멀리 떨어져 있는지를 신경 네트워크에 전달하는 부가적인 바이어스를 공급함 -;

출력에 기초하여 서열분석 사이클들 중 하나 이상에서 클러스터들 중 하나 이상을 염기 호출하는 단계를 포함하는, 컴퓨터 구현 방법.

21. 항목 20에 있어서, 부가적인 바이어스는 염기 호출의 정확도를 개선하는, 컴퓨터 구현 방법.

22. 항목 21에 있어서, 신경 네트워크는 주연부 클러스터 픽셀들, 배경 픽셀들, 및 이들로부터 도출된 대안의 표현들보다 중심 클러스터 픽셀들, 그들의 이웃 픽셀들, 및 이들로부터 도출된 대안의 표현들에 더 많이 주목함으로써 보충 거리 정보를 사용하여 서열분석 신호를 그의 적절한 소스 클러스터에 할당하는, 컴퓨터 구현 방법.

23. 클러스터들을 염기 호출하는 컴퓨터 구현 방법으로서,

신경 네트워크를 통해 입력 데이터를 프로세싱하고 입력 데이터의 대안의 표현을 생성하는 단계 - 입력 데이터는,

(i) 서열분석 사이클들 중 각자의 서열분석 사이클에서 하나 이상의 클러스터들을 나타내는 세기 방출물들을 묘사하는 픽셀들을 포함하는 서열분석 런의 하나 이상의 서열분석 사이클들 각각에 대한 사이클별 데이터, 및

(ii) 사이클별 데이터의 픽셀들 사이의 거리들을 식별하는 보충 거리 정보를 포함하고;

신경 네트워크에 의한 사이클별 데이터의 픽셀들의 프로세싱 동안, 보충 거리 정보는 사이클별 데이터를 동반하고, 사이클별 데이터의 픽셀들 중 어느 것이 클러스터들의 중심들을 포함하고 사이클별 데이터의 픽셀들 중 어느 것이 클러스터들의 중심들로부터 더 멀리 떨어져 있는지를 신경 네트워크에 전달함 -;

24. 항목 1에 있어서, 보충 거리 정보는 염기 호출의 정확도를 개선하는, 컴퓨터 구현 방법.

25. 항목 24에 있어서, 신경 네트워크는 주연부 클러스터 픽셀들, 배경 픽셀들, 및 이들로부터 도출된 대안의 표현들보다 중심 클러스터 픽셀들, 그들의 이웃 픽셀들, 및 이들로부터 도출된 대안의 표현들에 더 많이 주목함으로써 보충 거리 정보를 사용하여 서열분석 신호를 그의 적절한 소스 클러스터에 할당하는, 컴퓨터 구현 방법.

항목 세트 2

1. 컴퓨터 구현 방법으로서,

신경 네트워크 기반 염기 호출자를 통해 하나 이상의 분석물들에 대한 입력 데이터를 프로세싱하고 입력 데이터의 대안의 표현을 생성하는 단계;

출력 층을 통해 대안의 표현을 프로세싱하여 출력을 생성하는 단계 - 출력은 분석물들 중 특정 분석물에 혼입된 염기가 A, C, T, 및 G일 가능성들을 식별함 -;

출력에 기초하여 분석물들 중 하나 이상에 대한 염기들을 호출하는 단계; 및

출력에 의해 식별되는 가능성들에 기초하여 호출된 염기들의 품질 스코어들을 결정하는 단계를 포함하는, 컴퓨터 구현 방법.

2. 항목 1에 있어서, 가능성들에 기초하여 호출된 염기들의 품질 스코어들을 결정하는 단계는,

트레이닝 동안 트레이닝 데이터를 프로세싱한 것에 응답하여 신경 네트워크 기반 염기 호출자에 의해 생성되는 염기 호출들의 분류 스코어들을 양자화하는 단계;

양자화된 분류 스코어들의 세트를 선택하는 단계;

양자화된 분류 스코어들의 세트 내의 각각의 양자화된 분류 스코어에 대해, 그의 예측된 염기 호출들을 대응하는 실측 자료 염기 호출들과 비교함으로써 염기 호출 에러율을 결정하는 단계;

양자화된 분류 스코어들과 그들의 염기 호출 에러율들 사이의 피팅을 결정하는 단계; 및

피팅에 기초하여 품질 스코어들을 양자화된 분류 스코어들에 상관시키는 단계를 포함하는, 컴퓨터 구현 방법.

3. 항목 1 또는 항목 2에 있어서, 양자화된 분류 스코어들의 세트는 트레이닝 동안 트레이닝 데이터를 프로세싱한 것에 응답하여 신경 네트워크 기반 염기 호출자에 의해 생성된 예측된 염기 호출들의 분류 스코어들의 서브세트를 포함하고,

분류 스코어들은 실수들인, 컴퓨터 구현 방법.

4. 항목 1 내지 항목 3 중 어느 한 항목에 있어서, 양자화된 분류 스코어들의 세트는 트레이닝 동안 트레이닝 데이터를 프로세싱한 것에 응답하여 신경 네트워크 기반 염기 호출자에 의해 생성된 예측된 염기 호출들의 모든 분류 스코어들을 포함하고,

분류 스코어들은 실수들인, 컴퓨터 구현 방법.

5. 항목 1 내지 항목 4 중 어느 한 항목에 있어서, 분류 스코어들은, 1로 합산되고 신경 네트워크 기반 염기 호출자의 소프트맥스 출력 층에 의해 생성되는 지수적으로 정규화된 소프트맥스 스코어들인, 컴퓨터 구현 방법.

6. 항목 1 내지 항목 5 중 어느 한 항목에 있어서, 양자화된 분류 스코어들의 세트는

로서 정의되고 소프트맥스 스코어들에 적용되는 선택 공식에 기초하여 선택되는, 컴퓨터 구현 방법.

7. 항목 1 내지 항목 6 중 어느 한 항목에 있어서, 양자화된 분류 스코어들의 세트는

8. 항목 1 내지 항목 7 중 어느 한 항목에 있어서,

상관에 기초하여, 추론 동안 신경 네트워크 기반 염기 호출자에 의해 호출되는 염기들에 품질 스코어들을 할당하는 단계를 추가로 포함하는, 컴퓨터 구현 방법.

9. 항목 8에 있어서,

추론 동안 신경 네트워크 기반 염기 호출자에 의해 호출되는 염기들에 품질 스코어 대응성 스킴을 적용한 것에 기초하여 품질 스코어들을 할당하는 단계를 추가로 포함하고,

그 스킴은, 추론 동안, 추론 데이터를 프로세싱한 것에 응답하여 신경 네트워크 기반 염기 호출자에 의해 생성된 분류 스코어들의 범위들을, 양자화된 분류 스코어들의 세트 내의 대응하는 양자화된 분류 스코어들에 맵핑하는, 컴퓨터 구현 방법.

10. 항목 8 또는 항목 9에 있어서,

추론 동안, 품질 스코어가 현재 염기 호출 사이클에 대한 설정된 임계치 미만인 분석물을 염기 호출하는 것을 중지시키는 단계를 추가로 포함하는, 컴퓨터 구현 방법.

11. 항목 8 내지 항목 10 중 어느 한 항목에 있어서,

추론 동안, 평균 품질 스코어가 연속적인 염기 호출 사이클들 이후 설정된 임계치 미만인 분석물을 염기 호출하는 것을 중지시키는 단계를 추가로 포함하는, 컴퓨터 구현 방법.

12. 항목 8 내지 항목 11 중 어느 한 항목에 있어서, 예측된 염기 호출들을 대응하는 실측 자료 염기 호출들과 비교하기 위해 사용되는 샘플 크기는 각각의 양자화된 분류 스코어에 특정적인, 컴퓨터 구현 방법.

13. 항목 8 내지 항목 12 중 어느 한 항목에 있어서, 피팅은 회귀 모델을 사용하여 결정되는, 컴퓨터 구현 방법.

14. 항목 8 내지 항목 13 중 어느 한 항목에 있어서,

각각의 양자화된 분류 스코어에 대해, 그의 예측된 염기 호출들을 대응하는 실측 자료 염기 호출들과 비교함으로써 염기 호출 정확률을 결정하는 단계; 및

양자화된 분류 스코어들과 그들의 염기 호출 정확률들 사이의 피팅을 결정하는 단계를 추가로 포함하는, 컴퓨터 구현 방법.

15. 항목 8 내지 항목 14 중 어느 한 항목에 있어서, 대응하는 실측 자료 염기 호출들은 다수의 서열분석 기구들, 서열분석 화학반응, 및 서열분석 프로토콜들로 서열분석된 잘-특성화된 인간 및 비-인간 샘플들로부터 도출되는, 컴퓨터 구현 방법.

16. 신경 네트워크 기반 품질 스코러로서,

병렬로 동작하고 메모리에 커플링된 다수의 프로세서들;

다수의 프로세서들 상에서 작동하고, 서열분석 이미지들로부터의 데이터를 포함하는 트레이닝 예들에 대해 트레이닝되고, 신경 네트워크의 염기 호출 품질 예측들을 공지된 정확한 염기 호출들을 식별하는 염기 호출 품질 실측 자료들과 점진적으로 매칭시키는 역전파 기반 기울기 업데이트 기법을 사용하여 염기 호출 품질 실측 자료들로 표지되는 신경 네트워크;

하나 이상의 분석물들에 대해 호출되는 하나 이상의 염기들의 품질을 결정하기 위해, 다수의 프로세서들 중 적어도 하나 상에서 작동하고 하나 이상의 서열분석 사이클들에서 캡처된 서열분석 이미지들로부터의 데이터를 신경 네트워크로 공급하는 신경 네트워크의 입력 모듈; 및

다수의 프로세서들 중 적어도 하나 상에서 작동하고, 신경 네트워크에 의한 분석을 하나 이상의 분석물들에 대해 호출되는 하나 이상의 염기들의 품질을 식별하는 출력으로 변환하는 신경 네트워크의 출력 모듈을 포함하는, 신경 네트워크 기반 품질 스코러.

17. 항목 16에 있어서, 신경 네트워크는 콘볼루션 신경 네트워크인, 신경 네트워크 기반 품질 스코러.

18. 항목 16에 있어서, 출력 모듈은 품질이 고품질, 중간 품질, 및 저품질일 가능성들을 생성하는 소프트맥스 분류 층을 추가로 포함하고,

가능성들에 기초하여, 품질을 고품질, 중간 품질, 또는 저품질로서 분류하는 것을 추가로 포함하는, 신경 네트워크 기반 품질 스코러.

19. 항목 16에 있어서, 소프트맥스 분류 층은, 품질이 복수의 품질 스코어들을 할당받을 가능성들을 생성하고,

가능성들에 기초하여, 품질에 복수의 품질 스코어들 중 하나로부터의 품질 스코어를 할당하는 것을 추가로 포함하는, 신경 네트워크 기반 품질 스코러.

20. 항목 16 내지 항목 19 중 어느 한 항목에 있어서, 품질 스코어들은 염기 호출 에러 확률들에 대수적으로 기초하고,

복수의 품질 스코어들은 Q6, Q10, Q15, Q20, Q22, Q27, Q30, Q33, Q37, Q40, 및 Q50을 포함하는, 신경 네트워크 기반 품질 스코러.

21. 항목 16 내지 항목 20 중 어느 한 항목에 있어서, 출력 모듈은 품질을 식별하는 연속 값들을 생성하는 회귀 층을 추가로 포함하는, 신경 네트워크 기반 품질 스코러.

22. 항목 16 내지 항목 21 중 어느 한 항목에 있어서,

서열분석 이미지들로부터의 데이터를 호출된 염기들에 대한 품질 예측기 값들로 보충하고,

서열분석 이미지들로부터의 데이터와 함께, 품질 예측기 값들을 콘볼루션 신경 네트워크에 공급하는 보충 입력 모듈을 추가로 포함하는, 신경 네트워크 기반 품질 스코러.

23. 항목 22에 있어서, 품질 예측기 값들은 온라인 중첩, 순수도, 페이징, start5, 헥사머 스코어, 모티프 누적, 엔디니스, 대략적인 호모폴리머, 세기 감쇠, 끝에서 두 번째 순도, 배경과의 신호 중첩(SOWB), 및/또는 시프트된 순수도 G 조정을 포함하는, 신경 네트워크 기반 품질 스코러.

24. 항목 22에 있어서, 품질 예측기 값들은 피크 높이, 피크 폭, 피크 위치, 상대적 피크 위치들, 피크 높이 양, 피크 간격 양, 및/또는 피크 대응성을 포함하는, 신경 네트워크 기반 품질 스코러.

Claims

클러스터들을 염기 호출하는 컴퓨터 구현 방법으로서,
신경 네트워크를 통해 입력 데이터를 프로세싱하고 상기 입력 데이터의 대안의 표현을 생성하는 단계 - 상기 입력 데이터는,
(i) 서열분석 사이클들 중 각자의 서열분석 사이클에서 하나 이상의 상기 클러스터들을 나타내는 세기 방출물들을 묘사하는 픽셀들을 포함하는 서열분석 런의 하나 이상의 상기 서열분석 사이클들 각각에 대한 사이클별 데이터, 및
(ii) 상기 사이클별 데이터의 픽셀들 사이의 거리들을 식별하는 보충 거리 정보를 포함하고;
상기 신경 네트워크에 의한 상기 사이클별 데이터의 픽셀들의 프로세싱 동안, 상기 보충 거리 정보는 상기 사이클별 데이터를 동반하고, 상기 사이클별 데이터의 픽셀들 중 어느 것이 상기 클러스터들의 중심들을 포함하고 상기 사이클별 데이터의 픽셀들 중 어느 것이 상기 클러스터들의 중심들로부터 더 멀리 떨어져 있는지를 상기 신경 네트워크에 전달함 -;
출력 층을 통해 상기 대안의 표현을 프로세싱하고 출력을 생성하는 단계; 및
상기 출력에 기초하여 상기 서열분석 사이클들 중 하나 이상에서 상기 클러스터들 중 하나 이상을 염기 호출하는 단계를 포함하는, 컴퓨터 구현 방법.
제1항에 있어서, 상기 사이클별 데이터는 상기 서열분석 사이클들 중 각자의 서열분석 사이클에서 주변 배경을 나타내는, 컴퓨터 구현 방법.
제1항 또는 제2항에 있어서, 상기 보충 거리 정보는 상기 염기 호출의 정확도를 개선하는, 컴퓨터 구현 방법.
제3항에 있어서, 상기 신경 네트워크는 주연부 클러스터 픽셀들, 배경 픽셀들, 및 이들로부터 도출된 대안의 표현들보다 중심 클러스터 픽셀들, 그들의 이웃 픽셀들, 및 이들로부터 도출된 대안의 표현들에 더 많이 주목함으로써 상기 보충 거리 정보를 사용하여 서열분석 신호를 그의 적절한 소스 클러스터에 할당하는, 컴퓨터 구현 방법.
제1항에 있어서, 상기 사이클별 데이터의 픽셀들에 스케일링 값들을 할당하는 보충 스케일링 정보를 상기 사이클별 데이터에 동반시키는 단계를 추가로 포함하는, 컴퓨터 구현 방법.
제1항에 있어서, 상기 사이클별 데이터는 상기 각자의 서열분석 사이클에서 검출된 전압 변화를 나타내는, 컴퓨터 구현 방법.
제1항에 있어서, 상기 사이클별 데이터는 상기 각자의 서열분석 사이클에서 측정된 전류 신호를 나타내는, 컴퓨터 구현 방법.
복수의 서열분석 사이클들을 포함하는 서열분석 런 동안 합성된 클러스터들을 염기 호출하는 신경 네트워크 구현 방법으로서,
콘볼루션 신경 네트워크를 통해 입력 데이터를 콘볼루션하여 상기 입력 데이터의 콘볼루션된 표현을 생성하는 단계 -
상기 입력 데이터는, 상기 서열분석 런의 현재 서열분석 사이클에서 생성된 현재 이미지 세트, 상기 현재 서열분석 사이클에 선행하는 서열분석 런의 하나 이상의 서열분석 사이클들에서 각각 생성된 하나 이상의 선행 이미지 세트들, 및 상기 현재 서열분석 사이클에 후행하는 서열분석 런의 하나 이상의 서열분석 사이클들에서 각각 생성된 하나 이상의 후행 이미지 세트들 각각 내의 하나 이상의 이미지들로부터 추출된 이미지 패치들을 포함하고,
상기 이미지 패치들 각각은 염기 호출되는 표적 클러스터의 세기 방출물들을 묘사하고,
상기 입력 데이터는 상기 이미지 패치의 중심 픽셀로부터 상기 이미지 패치의 픽셀들의 각자의 거리들을 나타내는 거리 정보를 추가로 포함함 -;
출력 층을 통해 상기 콘볼루션된 표현을 프로세싱하여 출력을 생성하는 단계; 및
상기 출력에 기초하여 상기 현재 서열분석 사이클에서 상기 표적 클러스터를 염기 호출하는 단계를 포함하는, 신경 네트워크 구현 방법.
제8항에 있어서,
상기 콘볼루션 신경 네트워크에 대한 입력으로서, 각자의 클러스터들을 표현하는 이미지 영역들의 중심들의 포지션 좌표들을 제공하는 단계를 추가로 포함하고,
상기 입력은 상기 콘볼루션 신경 네트워크의 제1 층에 제공되고,
상기 입력은 상기 콘볼루션 신경 네트워크의 하나 이상의 중간 층들에 제공되고,
상기 입력은 상기 콘볼루션 신경 네트워크의 최종 층에 제공되는, 신경 네트워크 구현 방법.
제8항 또는 제9항에 있어서,
상기 콘볼루션 신경 네트워크에 대한 입력으로서, 상기 이미지 패치들의 픽셀들에 대응하는 스케일링 값들을 갖는 세기 스케일링 채널을 제공하는 단계를 추가로 포함하고,
상기 스케일링 값들은 각각이 특정 표적 클러스터를 포함하는 상기 이미지 패치들의 중심 픽셀들의 평균 세기에 기초하는, 신경 네트워크 구현 방법.
제8항 내지 제10항 중 어느 한 항에 있어서, 상기 세기 스케일링 채널은 상기 이미지 패치들의 모든 픽셀들에 대해 동일한 스케일링 값을 픽셀별로 포함하는, 신경 네트워크 구현 방법.
제8항에 있어서, 각각의 이미지 패치는, 각자의 픽셀들과 상기 복수의 클러스터들 중 최근접 클러스터 사이의 거리를 나타내는 픽셀 거리 데이터를 추가로 포함하고, 상기 복수의 클러스터들 중 최근접 클러스터는 상기 픽셀과 상기 클러스터들 각각 사이의 중심-대-중심 거리에 기초하여 선택되는, 신경 네트워크 구현 방법.
제8항에 있어서, 각각의 이미지 패치는, 각각의 클러스터 픽셀을 상기 클러스터들 중 단 하나의 클러스터만으로 분류한 것에 기초하여 선택되는 상기 복수의 클러스터들 중 할당된 클러스터로부터의 각각의 클러스터 픽셀의 거리를 식별하는 클러스터 거리 데이터를 추가로 포함하는, 신경 네트워크 구현 방법.
제8항 내지 제13항 중 어느 한 항에 있어서, 상기 콘볼루션 신경 네트워크를 통해 상기 입력 데이터를 콘볼루션하여 상기 입력 데이터의 콘볼루션된 표현을 생성하는 단계는,
세기 및 거리 정보를 조합하고 서열분석 사이클 내에만 있고 서열분석 사이클들 사이에는 있지 않은 생성된 콘볼루션된 표현들을 조합하는 콘볼루션들을 적용하는 단계를 포함한, 상기 콘볼루션 신경 네트워크의 제1 콘볼루션 서브네트워크를 통해 각각의 사이클별 이미지 패치 세트를 개별적으로 프로세싱하여, 각각의 서열분석 사이클에 대한 중간 콘볼루션된 표현을 생성하는 단계; 및
상기 중간 콘볼루션된 표현들을 조합하고 상기 서열분석 사이클들 사이의 생성된 콘볼루션된 표현들을 조합하는 콘볼루션들을 적용하는 단계를 포함한, 상기 콘볼루션 신경 네트워크의 제2 콘볼루션 서브네트워크를 통해 일련의 서열분석 사이클들 내의 연속적인 서열분석 사이클들에 대한 중간 콘볼루션된 표현들을 그룹별로 프로세싱하여, 상기 일련의 서열분석 사이클들에 대한 최종 콘볼루션된 표현을 생성하는 단계를 포함하고;
상기 출력 층을 통해 상기 콘볼루션된 표현을 프로세싱하여 상기 출력을 생성하는 단계는 상기 출력 층을 통해 상기 최종 콘볼루션된 표현을 프로세싱하는 단계를 포함하는, 신경 네트워크 구현 방법.
제8항 내지 제14항 중 어느 한 항에 있어서,
각각의 이미지 패치의 픽셀들을 리프레이밍하여 중심 픽셀 내의 상기 표적 클러스터의 중심에 중심을 두어, 리프레이밍된 이미지 패치들을 생성하는 단계를 추가로 포함하고;
상기 콘볼루션 신경 네트워크를 통해 상기 입력 데이터를 콘볼루션하여 상기 입력 데이터의 콘볼루션된 표현을 생성하는 단계는, 상기 콘볼루션 신경 네트워크를 통해 상기 리프레이밍된 이미지 패치들을 콘볼루션하여, 상기 콘볼루션된 표현을 생성하는 단계를 포함하는, 신경 네트워크 구현 방법.
제15항에 있어서, 상기 리프레이밍은 상기 리프레이밍을 보상하기 위해 각각의 이미지 패치의 픽셀들의 세기 보간을 추가로 포함하는, 신경 네트워크 구현 방법.
염기 호출하는 신경 네트워크 구현 방법으로서,
콘볼루션 신경 네트워크의 콘볼루션 층들의 캐스케이드를 통해 사이클별 입력 데이터의 시퀀스 내의 각각의 사이클별 입력 데이터를 개별적으로 프로세싱하는 단계 -
상기 사이클별 입력 데이터의 시퀀스는 서열분석 런의 일련의 서열분석 사이클들에 대해 생성되고,
각각의 사이클별 입력 데이터는 각자의 서열분석 사이클에서 캡처된 하나 이상의 클러스터들 및 그들의 주변 배경의 세기 방출물들을 묘사하는 이미지 채널들을 포함함 -;
각각의 서열분석 사이클에 대해,
상기 개별 프로세싱에 기초하여, 상기 콘볼루션 층들 각각에서 콘볼루션된 표현을 생성하여, 이에 의해, 콘볼루션된 표현들의 시퀀스를 생성하고,
그의 사이클별 입력 데이터를 그의 대응하는 콘볼루션된 표현들의 시퀀스와 혼합하고, 혼합 표현을 생성하고,
그의 혼합 표현을 편평화하고, 편평한 혼합 표현을 생성하는 단계;
연속적인 서열분석 사이클들의 편평한 혼합 표현들을 스택으로서 배열하는 단계;
순환 신경 네트워크를 통해 상기 스택을 순방향 및 역방향으로 프로세싱하는 단계 - 상기 순환 신경 네트워크는
각자의 서열분석 사이클에 각각 대응하는 슬라이딩 윈도우 단위로 상기 스택 내의 상기 편평한 혼합 표현들의 서브세트에 걸쳐서 콘볼루션하고,
(i) 상기 스택에 걸친 현재 슬라이딩 윈도우 내의 상기 편평한 혼합 표현들의 서브세트 및 (ii) 이전 은닉된 상태 표현에 기초하여, 각각의 서열분석 사이클에 대해 각각의 시간 스텝에서 현재 은닉된 상태 표현을 연속적으로 생성함 -; 및
상기 스택을 순방향 및 역방향 방향으로 프로세싱한 결과들에 기초하여 상기 서열분석 사이클들 각각에서 상기 클러스터들 각각을 염기 호출하는 단계를 포함하는, 신경 네트워크 구현 방법.
제17항에 있어서,
주어진 서열분석 사이클에서,
시간 스텝 단위로 상기 주어진 서열분석 사이클의 순방향 및 역방향 현재 은닉된 상태 표현들을 조합하여 조합된 은닉된 상태 표현을 생성하고 - 상기 조합은 연결 또는 합산 또는 평균화를 포함함 -;
하나 이상의 완전 접속 네트워크들을 통해 상기 조합된 은닉된 상태 표현을 프로세싱하여 조밀한 표현을 생성하고;
소프트맥스 층을 통해 상기 조밀한 표현을 프로세싱하여, 상기 주어진 서열분석 사이클에서 상기 클러스터들 각각에 혼입된 염기들이 A, C, T, 및 G일 가능성들을 생성하고;
상기 가능성들에 기초하여 상기 염기들을 A, C, T, 또는 G로서 분류함으로써, 상기 클러스터들 각각을 염기 호출하는 단계를 추가로 포함하는, 신경 네트워크 구현 방법.
염기 호출하기 위한 신경 네트워크 기반 시스템으로서,
순환 모듈 및 콘볼루션 모듈을 갖는 하이브리드 신경 네트워크 - 상기 순환 모듈은 콘볼루션 모듈로부터의 입력들을 사용하고,
상기 콘볼루션 모듈은 하나 이상의 콘볼루션 층들을 통해 서열분석 런의 일련의 서열분석 사이클들에 대해 이미지 데이터를 프로세싱하고 상기 이미지 데이터의 하나 이상의 콘볼루션된 표현들을 생성하고, 상기 이미지 데이터는 하나 이상의 클러스터들 및 그들의 주변 배경의 세기 방출물들을 묘사하며,
상기 순환 모듈은 상기 콘볼루션된 표현들 및 이전 은닉된 상태 표현들을 콘볼루션한 것에 기초하여 현재 은닉된 상태 표현들을 생성함 -; 및
상기 클러스터들 중 적어도 하나에 대한 그리고 상기 현재 은닉된 상태 표현들에 기초한 상기 서열분석 사이클들 중 적어도 하나에 대한 염기 호출을 생성하는 출력 모듈을 포함하는, 신경 네트워크 기반 시스템.