TWI812671B - 用於識別核酸之核苷酸之方法、系統及非暫時性電腦可讀儲存媒體以及用於訓練深度學習模型之方法及系統 - Google Patents

用於識別核酸之核苷酸之方法、系統及非暫時性電腦可讀儲存媒體以及用於訓練深度學習模型之方法及系統 Download PDF

Info

Publication number
TWI812671B
TWI812671B TW108102999A TW108102999A TWI812671B TW I812671 B TWI812671 B TW I812671B TW 108102999 A TW108102999 A TW 108102999A TW 108102999 A TW108102999 A TW 108102999A TW I812671 B TWI812671 B TW I812671B
Authority
TW
Taiwan
Prior art keywords
data
learning model
nucleic acid
nucleotide
deep learning
Prior art date
Application number
TW108102999A
Other languages
English (en)
Other versions
TW201935294A (zh
Inventor
強納森 M 羅斯伯格
麥可 梅爾
烏穆特 伊瑟
Original Assignee
美商寬騰矽公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 美商寬騰矽公司 filed Critical 美商寬騰矽公司
Publication of TW201935294A publication Critical patent/TW201935294A/zh
Application granted granted Critical
Publication of TWI812671B publication Critical patent/TWI812671B/zh

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • C12Q1/6874Methods for sequencing involving nucleic acid arrays, e.g. sequencing by hybridisation
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/62Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light
    • G01N21/63Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light optically excited
    • G01N21/64Fluorescence; Phosphorescence
    • G01N21/6428Measuring fluorescence of fluorescent products of reactions or of fluorochrome labelled reactive substances, e.g. measuring quenching effects, using measuring "optrodes"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/62Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light
    • G01N21/63Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light optically excited
    • G01N21/64Fluorescence; Phosphorescence
    • G01N21/6408Fluorescence; Phosphorescence with measurement of decay time, time resolved fluorescence
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/62Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light
    • G01N21/63Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light optically excited
    • G01N21/64Fluorescence; Phosphorescence
    • G01N21/645Specially adapted constructive features of fluorimeters
    • G01N21/6452Individual samples arranged in a regular 2D-array, e.g. multiwell plates
    • G01N21/6454Individual samples arranged in a regular 2D-array, e.g. multiwell plates using an integrated detector array
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/62Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light
    • G01N21/63Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light optically excited
    • G01N21/64Fluorescence; Phosphorescence
    • G01N21/645Specially adapted constructive features of fluorimeters
    • G01N21/648Specially adapted constructive features of fluorimeters using evanescent coupling or surface plasmon coupling for the excitation of fluorescence
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Software Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Analytical Chemistry (AREA)
  • General Physics & Mathematics (AREA)
  • Bioethics (AREA)
  • Public Health (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Immunology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Biochemistry (AREA)
  • Organic Chemistry (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Pathology (AREA)
  • Optics & Photonics (AREA)
  • Signal Processing (AREA)
  • Chemical Kinetics & Catalysis (AREA)

Abstract

本發明提供一種方法,其包含:自一或多個定序裝置獲得在核苷酸併入事件期間自與核苷酸相關聯之發光標籤偵測之原始資料;及處理該原始資料以執行由該一或多個定序裝置之一學習致能自動鹼基判定模組產生之鹼基判定與相關聯於該原始資料之實際值之一比較,其中該等鹼基判定自該原始資料識別一或多個個別核苷酸。基於該比較,使用至少一些該經獲得原始資料形成該學習致能自動鹼基判定模組之一更新,且使該更新可用於該一或多個定序裝置。

Description

用於識別核酸之核苷酸之方法、系統及非暫時性電腦可讀儲存媒體以及用於訓練深度學習模型之方法及系統
本發明一般而言係關於用於生物定序之自動化脈衝及鹼基判定方法,且更具體而言係關於用於定序裝置之機器學習致能脈衝及鹼基判定。
核酸(例如,去氧核糖核酸(DNA)、核糖核酸(RNA))之定序包含識別靶核酸中之個別核苷酸。一些核酸定序方法包含在個別核苷酸被併入至與靶核酸互補之核酸股中時識別該等個別核苷酸。接著,在定序程序期間識別之互補股之一系列核苷酸可允許識別靶核酸股之核苷酸序列。
根據一個態樣,提供一種用於識別一核酸之核苷酸之方法。該方法包括:使用至少一個電腦硬體處理器來執行:存取在該核酸之核苷酸併入事件期間自由與核苷酸相關聯之發光標籤之經偵測光發射獲得之資料;及將該資料作為輸入提供至一經訓練深度學習模型以獲得識別該核酸之核苷酸之輸出。
根據另一態樣,提供一種用於識別一核酸之核苷酸之系 統。該系統包括:至少一個電腦硬體處理器;及至少一個非暫時性電腦可讀儲存媒體,該至少一個非暫時性電腦可讀儲存媒體儲存指令,該等指令在由該至少一個電腦硬體處理器執行時致使該至少一個電腦硬體處理器執行:存取在該核酸之核苷酸併入事件期間自由與核苷酸相關聯之發光標籤之經偵測光發射獲得之資料;及將該資料作為輸入提供至一經訓練深度學習模型以獲得識別該核酸之核苷酸之輸出。
根據另一態樣,提供至少一種儲存指令之非暫時性電腦可讀儲存媒體。該等指令在由至少一個電腦硬體處理器執行時致使該至少一個電腦硬體處理器執行:存取在該核酸之核苷酸併入事件期間自由與核苷酸相關聯之發光標籤之經偵測光發射獲得之資料;及將該資料作為輸入提供至一經訓練深度學習模型以獲得識別該核酸之核苷酸之輸出。
根據另一態樣,提供一種用於訓練一深度學習模型以識別一核酸之核苷酸之方法。該方法包括:使用至少一個電腦硬體處理器來執行:存取在複數個核酸之核苷酸併入事件期間自由與核苷酸相關聯之發光標籤之經偵測光發射獲得之資料;及使用該資料及指定該複數個核酸中之至少一些該等核苷酸之資訊訓練該深度學習模型。
根據另一態樣,提供一種用於訓練一深度學習模型以識別一核酸之核苷酸之系統。該系統包括:至少一個電腦硬體處理器;及至少一個非暫時性電腦可讀儲存媒體,該至少一個非暫時性電腦可讀儲存媒體儲存指令,該等指令在由該至少一個電腦硬體處理器執行時致使該至少一個電腦硬體處理器執行:存取在複數個核酸之核苷酸併入事件期間自由與核苷酸相關聯之發光標籤之經偵測光發射獲得之資料;及使用該資料及指定該複數個核酸中之至少一些該等核苷酸之資訊訓練該深度學習模型。
根據另一態樣,提供至少一種儲存指令之非暫時性電腦可讀儲存媒體。該等指令在由至少一個電腦硬體處理器執行時致使該至少一個電腦硬體處理器執行:存取在核酸之核苷酸併入事件期間自由與核苷酸相關聯之發光標籤之經偵測光發射獲得之資料;及將該資料作為輸入提供至一經訓練深度學習模型以獲得識別該核酸之核苷酸之輸出。
根據另一態樣,提供一種用於識別一核酸之核苷酸之方法。該方法包括:使用至少一個硬體處理來器執行:存取自由與核苷酸相關聯之發光標籤之經偵測光發射獲得之資料,該等光發射回應於一系列光脈衝,針對至少一些該等光脈衝之各者,該資料包含該光脈衝之後的一時間週期中之複數個間隔之各者中偵測之一各自光子數目;及將該資料作為輸入提供至一經訓練機器學習模型以獲得識別該核酸之核苷酸之輸出。
根據另一態樣,提供一種用於識別一核酸之核苷酸之系統。該系統包括:至少一個電腦硬體處理器;及至少一個非暫時性電腦可讀儲存媒體,該至少一個非暫時性電腦可讀儲存媒體儲存指令,該等指令在由該至少一個電腦硬體處理器執行時致使該至少一個電腦硬體處理器執行:存取自由與核苷酸相關聯之發光標籤之經偵測光發射獲得之資料,該等光發射回應於一系列光脈衝,針對至少一些該等光脈衝之各者,該資料包含該光脈衝之後的一時間週期中之複數個間隔之各者中偵測之一各自光子數目;及將該資料作為輸入提供至一經訓練機器學習模型以獲得識別該核酸之核苷酸之輸出。
根據另一態樣,提供至少一種儲存指令之非暫時性電腦可讀儲存媒體。該等指令在由至少一個電腦硬體處理器執行時致使該至少一個電腦硬體處理器執行:存取自由與核苷酸相關聯之發光標籤之經偵測光 發射獲得之資料,該等光發射回應於一系列光脈衝,針對至少一些該等光脈衝之各者,該資料包含該光脈衝之後的一時間週期中之複數個間隔之各者中偵測之一各自光子數目;及將該資料作為輸入提供至一經訓練機器學習模型以獲得識別該核酸之核苷酸之輸出。
根據另一態樣,一種方法包含:利用一處理裝置獲得在核苷酸併入事件期間自與核苷酸相關聯之發光標籤偵測之原始資料;及應用一機器學習技術以自動地自該原始資料識別一或多個個別核苷酸。
根據另一態樣,一種方法包含:自一或多個定序裝置獲得在核苷酸併入事件期間自與核苷酸相關聯之發光標籤偵測之原始資料;及使用一運算裝置處理該原始資料以執行由該一或多個定序裝置之一學習致能自動鹼基判定模組產生之鹼基判定與相關聯於該原始資料之實際值之一比較,其中該等鹼基判定自該原始資料識別一或多個個別核苷酸;基於該比較,使用至少一些該經獲得原始資料形成該學習致能自動鹼基判定模組之一更新;及使該更新可用於該一或多個定序裝置。
100:生態系統
102:定序儀器/裝置
104:網路
106:資料庫
108:工作站
110:資料檢視
112:鹼基判定回饋
114:AI訓練
200:實例性程序
202:操作
204:操作
206:操作
208:操作
210:操作
300:定序系統
302:儀器
304:整合裝置
306:樣本槽
308:激發源
310:感測器
312:像素
314:整合裝置介面
316:使用者介面
318:電腦介面
320:外部運算裝置
322:處理裝置
324:激發能量
326:發射能量
900:邊界
1000:點
1100:方法
1102:操作
1104:操作
1106:操作
1108:操作
1110:操作
1202:區域
1204:區域
1400:卷積神經網路
1402:影像
1404:輸入層
1406:輸出層
1408:隱藏層
1410:卷積及池化層
1412:稠密層
1500:方法
1502:操作
1504:操作
1506:操作
1508:操作
1800:方法
1802:操作
1804:操作
1806:操作
2200:方法
2202:操作
2204:操作
2206:操作
3502:脈衝
3504:脈衝
3700:運算裝置
3702:處理器
3704:記憶體
3706:網路輸入/輸出(I/O)介面
3708:使用者I/O介面
3800:資料
3802:時間週期
3802A:第一時間間隔
3802B:第二時間間隔
3802C:第三時間間隔
3804:時間週期
3804A:第一時間間隔
3804B:第二時間間隔
3804C:第三時間間隔
3806:時間週期
3806A:第一時間間隔
3806B:第二時間間隔
3806C:第三時間間隔
3810:資料結構
3900:程序
3902:方塊
3904:方塊
3906:方塊
3910:程序
3912:方塊
3914:方塊
3916:方塊
4000:卷積神經網路(CNN)
4002:卷積層
4002A:輸入
4002B:輸出
4002C:輸出
4004:平坦化步驟
4006:softmax操作
4006A:經平坦化輸出/向量
4008:argmax操作
4010:輸出
4100:連接機制時間分類(CTC)擬合神經網路模型
4104:特徵提取器
4106:特徵值
4108:預測器
4110:概率矩陣
4112:CTC損失函數
4120:核酸定序器
4130:輸出
將參考下圖描述本申請案之各個態樣及實施例。應明白,圖不一定按比例繪製。多個圖中出現之項目在出現項目之全部圖中係由相同元件符號指示。
圖1係根據本文中所描述之技術之一些實施例之其中可採用使用學習致能鹼基判定之定序裝置之一實例性生態系統之一示意圖。
圖2係繪示根據本文中所描述之技術之一些實施例之用於在圖1之實例性生態系統內實施一良性循環之一實例性程序之一高階流程圖。
圖3係根據本文中所描述之技術之一些實施例之可結合實施一機器學習致能鹼基判定器之一方法之實施例使用之一實例性定序系統之一示意圖。
圖4係根據本文中所描述之技術之一些實施例之圖3中所繪示之實例性定序系統之一更詳細示意圖。
圖5A及圖5B係進一步詳細地繪示根據本文中所描述之技術之一些實施例之實例性定序機之一整合裝置之截面視圖。
圖6係根據本文中所描述之技術之一些實施例之在激發及分佈由一光偵測器偵測之時間分格(time bin)中之光子數目之後隨時間推移之光子發射之概率之一圖表。
圖7係根據本文中所描述之技術之一些實施例之在一核酸之定序期間由一光偵測器隨時間推移偵測之光強度之一圖表。
圖8係展示根據本文中所描述之技術之一些實施例之不同核苷酸之點叢集之作為核苷酸併入事件之一時間參數之強度對時間分格比之一圖表。
圖9係展示根據本文中所描述之技術之一些實施例之圖8中所展示之叢集之邊界及質心位置之一圖表。
圖10係繪示根據本文中所描述之技術之一些實施例之對應於一核苷酸併入事件之一點相對於不同核苷酸之質心位置之距離之強度對時間參數之一圖表。
圖11係根據本文中所描述之技術之一實施例之實施一學習致能鹼基判定器之一方法之一流程圖。
圖12係根據本文中所描述之技術之一些實施例之可為圖11 之方法之一輸入之一實例資料軌跡。
圖13係根據本文中所描述之技術之一些實施例之圖12中之脈衝資料之二維散點圖。
圖14係繪示根據本文中所描述之技術之一些實施例之經組態以分析一影像之一實例性卷積神經網路之層之一示意圖。
圖15係繪示根據本文中所描述之技術之一些實施例之實施一學習致能鹼基判定器之一方法之一流程圖。
圖16A至圖16D分別繪示根據本文中所描述之技術之一些實施例之四種鹼基類型之各者之脈衝軌跡資料之四個不同實例正規化2D矩陣表示。
圖17A至圖17D繪示根據本文中所描述之技術之一些實施例之鹼基特徵(base signature)之各者之一系列正規化時間分格1及時間分格2光子計數。
圖18係繪示根據本文中所描述之技術之一些實施例之實施一學習致能鹼基判定器之一方法之一流程圖。
圖19係展示根據本文中所描述之技術之一些實施例之由圖18之方法使用之時間分格1及時間分格2光子計數之原始軌跡之一實例之一圖表。
圖20A至圖20C係展示根據本文中所描述之技術之一些實施例之藉由將圖19之原始軌跡資料輸入至應用於不同大小窗上方之一卷積神經網路而產生之運行鹼基計數概率之圖表。
圖21繪示根據本文中所描述之技術之一些實施例之一頻譜圖及頻譜圖之一正規化幅度圖。
圖22係繪示根據本文中所描述之技術之一些實施例之實施一學習致能鹼基判定器之一方法之一流程圖。
圖23繪示根據本文中所描述之技術之一些實施例之具有相關聯鹼基標籤之一對單光子雪崩二極體(SPAD)輸入資料段。
圖24繪示根據本文中所描述之技術之一些實施例之具有相關聯鹼基標籤之一對經模擬輸入資料段。
圖25係根據本文中所描述之技術之一些實施例之與經模擬資料軌跡比較之一真實資料軌跡之一400訊框段。
圖26係根據本文中所描述之技術之一些實施例之自真實資料獲取之減除背景之時間分格比之一擬合分佈。
圖27係根據本文中所描述之技術之一些實施例之自真實資料獲取之作為高於基線之一比之鹼基強度之一擬合分佈。
圖28係根據本文中所描述之技術之一些實施例之圖26及圖27之分佈之一交叉。
圖29係根據本文中所描述之技術之一些實施例之一400訊框段上方之系統雜訊之一實例性圖表。
圖30係根據本文中所描述之技術之一些實施例之跨400訊框軌跡之長度模擬時間分格比之一實例性圖表。
圖31係根據本文中所描述之技術之一些實施例之使用圖29及圖30中之圖表將系統雜訊分成分格1及分格2分量之一實例性圖表。
圖32係根據本文中所描述之技術之一些實施例之隨機地放置於400訊框軌跡上之一清晰鹼基併入信號之一實例性圖表。
圖33係根據本文中所描述之技術之一些實施例之藉由將圖 32之隨機清晰信號軌跡添加至圖31之基線雜訊圖而產生之一經模擬軌跡之一實例性圖表。
圖34係根據本文中所描述之技術之一些實施例之其中假影應用於誇大位準之一經模擬軌跡之一實例性圖表。
圖35係展示根據本文中所描述之技術之一些實施例之似乎描繪一經融合脈衝之時間分格1及時間分格2光子計數之原始軌跡之一實例之一圖表。
圖36係根據本文中所描述之技術之一些實施例之用來使用圖22之基於CTC之模型直接地自圖35資料判定鹼基之一概率分佈。
圖37係可在實施本文中所描述之技術之一些實施例中使用之一繪示性運算裝置之一方塊圖。
圖38A繪示根據本文中所描述之技術之一些實施例之可自一核酸之核苷酸併入事件獲得之實例性資料。
圖38B係根據本文中所描述之技術之一些實施例之用於配置圖38A之資料之一實例資料結構。
圖39A係根據本文中所描述之技術之一些實施例之用於訓練一深度學習模型以識別一核酸之核苷酸之一實例性程序。
圖39B係根據本文中所描述之技術之一些實施例之使用一經訓練深度學習模型來識別一核酸之核苷酸之一實例性程序。
圖40係根據本文中所描述之技術之一些實施例之用於識別一核酸之核苷酸之一實例性卷積神經網路(CNN)之一結構。
圖41係根據本文中所描述之技術之一些實施例之用於識別一核酸之核苷酸之一實例性連接機制時間分類(CTC)擬合模型之一方塊 圖。
相關申請案之交叉參考
本申請案依據35 U.S.C.§ 119主張標題為「MACHINE LEARNING ENABLED PULSE AND BASE CALLING FOR SEQUENCING DEVICES」且在2018年1月26日申請之美國臨時申請案第62/622,754號之權利,該案之全部內容以引用方式併入本文中。
本文中所描述之實施例一般而言係關於核酸(諸如DNA及RNA)之定序,且特定而言係關於用於基於自一感測器獲得之資料自動地識別核苷酸之技術。核酸定序允許判定靶核酸中之核苷酸之順序及位置。一些核酸定序方法基於合成定序,其中核苷酸之身份在核苷酸被併入至與靶核酸互補之新合成核酸股中時判定。在定序期間,聚合酶(例如,DNA聚合酶)可耦合(例如,附接)至靶核酸分子之一引發位置,且經由聚合酶之作用將核苷酸添加或併入至引子,此通常可被稱為引子延伸反應(primer extension reaction)。
發明人已開發使用機器學習模型識別一核酸(例如,DNA及/或RNA)之核苷酸之新穎技術。使用機器學習模型來識別一核酸之核苷酸之習知技術可能需要人類(例如,領域專家)參與識別待自關於一核酸之核苷酸併入收集之資料提取之「有益」特徵。發明人已認知,難以識別可由一機器學習模型用來可靠地識別一核酸之核苷酸之一特徵集,因為如此做涉及通常被稱為「特徵工程」之程序,即候選功能集之重複試誤。最終,此「特徵工程」可能無法判定用於識別核苷酸之最佳特徵,從而導致 次佳識別效能。
發明人已開發無需手動地判定個別特徵以用於識別核苷酸之用於識別一核酸之核苷酸之機器學習技術。相反,在一些實施例中,使用深度學習技術以藉由以下步驟自動地學習經收集資料中之哪個資訊對核苷酸識別任務有益:訓練一深度學習模型以直接地(或結合輕微預處理)處理感測器資料;及使用經訓練深度學習模型以在核苷酸併入事件期間基於由發光標籤之經偵測光發射來識別核苷酸。
據此,一些實施例提供一種用於識別一核酸之核苷酸(例如,腺核苷、胸腺嘧啶、鳥嘌呤及/或胞嘧啶)之方法。該方法包括:(1)存取在核酸之核苷酸併入事件期間自由與核苷酸相關聯之發光標籤(例如,回應於光脈衝)之經偵測光發射獲得之資料;及(2)將資料作為輸入提供至一經訓練深度學習模型(例如,一遞迴式神經網路、一卷積神經網路及/或一連接機制時間分類擬合神經網路模型)以獲得識別核酸之核苷酸之輸出。
在一些實施例中,針對複數個核苷酸之各者,識別核酸之核苷酸之輸出包括指示核苷酸被併入至核酸中之概率之一各自時間系列值。在一些實施例中,針對複數個核苷酸之各者,識別核酸之核苷酸之輸出包括核苷酸被併入至核酸中之一概率;且該方法進一步包括當核酸中之複數個核苷酸中之一第一者被併入至核酸中之概率超過一臨限概率時,識別第一核苷酸。
在一些實施例中,電腦硬體處理器可藉由以下步驟將資料作為輸入提供至經訓練深度學習模型:將資料組織成時間週期;及針對時間週期之各者將資料作為輸入提供至經訓練深度學習模型以獲得指示核酸 之至少一個核苷酸之一對應輸出。在一些實施例中,針對複數個核苷酸之各者,對應於作為輸入提供至經訓練深度學習模型之資料之一各自時間週期之輸出指示核苷酸在該時間週期期間被併入至核酸中之一概率。
在一些實施例中,將資料作為輸入提供至經訓練深度學習模型包括:識別資料之複數個部分,各部分對應於核苷酸併入事件之一各自者;及將資料之複數個部分之各者作為一輸入提供至經訓練深度學習模型以獲得對應於資料之部分之一對應輸出。在一些實施例中,對應於資料之部分之輸出識別被併入至核酸中之一核苷酸。
在一些實施例中,提供一種用於識別一核酸之核苷酸(例如,腺核苷、胸腺嘧啶、鳥嘌呤及/或胞嘧啶)之方法。該方法包括使用至少一個硬體處理器來執行:存取自由與核苷酸(例如,腺核苷、胸腺嘧啶、鳥嘌呤及/或胞嘧啶)相關聯之發光標籤之經偵測光發射獲得之資料,光發射回應於一系列光脈衝,針對至少一些光脈衝之各者,資料包含光脈衝之後的一時間週期中之複數個間隔之各者中偵測之一各自光子數目;及將資料作為輸入提供至一經訓練機器學習模型(例如,一卷積神經網路及/或一連接機制時間分類擬合神經網路模型)以獲得識別核酸之核苷酸之輸出。
在一些實施例中,資料包含指示該系列光脈衝中之一第一光脈衝之後的一第一時間週期中之一第一時間間隔及一第二時間間隔之各者中之一各自光子數目之資料。在一些實施例中,資料進一步包含該系列光脈衝中之一第二光脈衝之後的一第二時間週期中之一第一時間間隔及一第二時間間隔之各者中之一各自光子數目。在一些實施例中,將資料作為輸入提供至經訓練機器學習模型包括將資料配置成具有行之一資料結構 (例如,一矩陣),其中:一第一行保持該系列光脈衝中之一第一光脈衝之後的一第一時間週期中之一第一時間間隔及一第二時間間隔之各者中之光子數目,且一第二行保持該系列光脈衝中之一第二光脈衝之後的一第二時間週期中之一第一時間間隔及一第二時間間隔之各者中之光子數目。在一些實施例中,將資料作為輸入提供至經訓練機器學習模型包括將資料配置成具有列之一資料結構(例如,一矩陣),其中列之各者保持對應於至少一些光脈衝之一各自間隔中之光子數目。在一些實施例中,將資料作為輸入提供至經訓練機器學習模型包括將資料配置成一影像,其中影像之各像素指定至少一些脈衝之一者之後的一時間週期之一間隔中偵測之一光子數目。
在一些實施例中,將資料作為輸入提供至經訓練機器學習模型包括:識別資料之複數個部分,各部分對應於核酸之核苷酸之一各自者;及將資料之複數個部分之各者作為一輸入提供至經訓練機器學習模型以獲得對應於資料之部分之一輸出。在一些實施例中,識別對應於核酸之一各自核苷酸之資料之一部分包括:比較資料之部分中之複數個間隔中之一第一者中之一光子數目與同資料之部分中之第一間隔分離之複數個間隔之至少一者中之一光子數目。
在一些實施例中,提供一種用於訓練一深度學習模型(例如,一卷積神經網路及/或一連接機制時間分類擬合神經網路)以識別一核酸之核苷酸(例如,腺核苷、胸腺嘧啶、鳥嘌呤及/或胞嘧啶)之方法。該方法包括:使用一電腦硬體處理器來執行:存取在複數個核酸之核苷酸併入事件期間自由與核苷酸相關聯之發光標籤之經偵測光發射獲得之資料;及使用資料及指定複數個核酸中之至少一些核苷酸之資訊訓練深度學習模 型。
在一些實施例中,使用資料及指定複數個核酸中之至少一些核苷酸之資訊訓練深度學習模型包括:將資料之至少一部分作為輸入提供至深度學習模型以獲得識別複數個核酸之至少一者之核苷酸之一輸出;及基於由輸出識別之至少一個核酸之核苷酸與由資訊指定之至少一個核酸之核苷酸之間的差異來訓練深度學習模型。
在一些實施例中,該方法進一步包括:重新訓練深度學習模型以獲得一經更新深度學習模型;及將深度學習模型之更新傳播至一或多個定序裝置。在一些實施例中,指定複數個核酸中之至少一些核苷酸之資訊包括複數個核酸之至少一者之一核苷酸序列且資料包含對應於至少一個核酸之核苷酸併入事件之資料,且訓練深度學習模型包含:逆轉至少一個核酸之核苷酸序列;及使用對應於至少一個核酸之併入事件之資料及至少一個核酸之經逆轉核苷酸序列訓練深度學習模型。
本文中所描述之技術將深度學習模型整合至定序裝置中以改良核酸(例如,DNA及/或RNA)之定序。該等技術訓練一深度學習模型以(例如,藉由一光偵測器)從自將核苷酸併入至核酸中獲得之定序資料(例如,發光標籤之經偵測光發射)識別特徵。接著可將經訓練深度學習模型整合至一定序裝置中且用來在合成核酸期間識別一核酸之核苷酸。經訓練深度學習模型之整合改良識別一核酸之核苷酸之準確度,且因此改良定序裝置對核酸進行定序之可靠性及準確度。
各核苷酸可與回應於激發而發射光且用來標示各種類型之核苷酸以區分不同類型之核苷酸之一發光分子(例如,螢光團)相關聯。例如,可使用一四標籤集來標示DNA中存在之核鹼基,使得該集之各標記 與不同核鹼基相關聯,例如,一第一標籤與腺嘌呤(A)相關聯,一第二標籤與胞嘧啶(C)相關聯,一第三標籤與鳥嘌呤(G)相關聯,且一第四標籤與胸腺嘧啶(T)相關聯。一標籤可透過直接地或經由一連接分子間接地將標籤接合至核苷酸而耦合至核苷酸。
隨著引子延伸反應發生,在將核苷酸併入至合成互補核酸中期間由聚合酶保留一核苷酸及其各自發光標籤。可在其中核苷酸被併入至合成核酸中且發射標籤之光特性之週期期間由光脈衝激發發光標籤。在一些實施例中,標籤直接地或透過連接分子間接地附接至一核苷酸之末端磷酸,使得標籤在核苷酸之併入期間經由聚合酶之作用而自核苷酸脫離或釋放(例如,磷酸鍵斷裂)。感測及分析由發光標籤回應於激發而發射之光可允許識別被併入之核苷酸。隨著引子延伸反應發生,針對添加至合成核酸之各後續核苷酸執行激發、感測及分析。可自合成核酸之互補序列判定靶核酸之序列。
由發光標籤發射之光可具有可用來區分標籤與其他標籤且因此識別一核苷酸之數個特性。此等特性包含強度(例如,發射光之概率)、一時間特性(例如,在激發之後光子發射概率之衰減速率、併入之脈衝持續時間及/或併入之前及/或之後的脈衝間持續時間)、一光譜特性(例如,(若干)經發射光波長)或其等任何組合。可由可偵測此等特性之一或多者之一光偵測器偵測由發光標籤發射之光。在於2015年8月7日申請且其全部內容據此以引用方式併入之標題為「INTEGRATED DEVICE FOR TEMPORAL BINNING OF RECEIVED PHOTONS」美國專利申請案第14/821,656號中描述一合適光偵測器之一實例。如其中所描述,光偵測器可具有偵測光子到達時間之能力,此可允許判定由標籤發射之光之時間特 性。偵測經發射光之時間特性繼而可允許區分發射具有不同時間特性之光之標籤。一時間特性之一項實例係亮度壽命(luminance lifetime)。發光分子(諸如螢光團)可回應於激發而發射光子。在激發發生之後,發光分子發射一光子之概率隨時間推移減小。概率之衰減速率可為指數的。「壽命」係概率隨時間推移衰減之速度之特性。一快速衰減被視為具有一短壽命,而一緩慢衰減被視為具有一長壽命。偵測由發光分子發射之光之時間特性可允許區分具有不同壽命之發光分子。用具有不同壽命之發光分子標示不同核苷酸可允許基於經偵測光之一時間特性來區分核苷酸。
前述美國專利申請案第14/821,656號中所描述之光偵測器可以奈秒或皮秒解析度偵測光子之到達時間,且可時間分格化入射光子之到達。由於光子之發射係概率性的,因此標籤可被激發複數次且可時間分格化任何所得光子發射。執行此一量測複數次允許填入光子在一激發事件之後到達之時間之一直方圖。可分析此資訊以計算經發射光之一時間特性,此繼而可允許基於時間特性來區分該標籤與另一標籤。
本文中所描述之系統、裝置及方法之實施例提供一種能夠分析來自一光偵測器之資料以基於經偵測光之特性對一核酸進行定序之定序儀器之生態系統。在一些實施例中,可實施此等技術以分析來自光偵測器之一資料串流,此可允許在光偵測器收集資料之同時即時對核酸進行定序。在一些實施例中,可實施此等技術以在獲取之後的稍後時間點分析來自光偵測器之資料。例如,可由一學習致能「脈衝判定器」及/或一學習致能「鹼基判定器」實施此等技術,其等可為定序儀器或其他裝置之軟體及/或硬體模組。在後文中進一步詳細地描述關於脈衝及鹼基判定之額外細節;然而,一般而言,一「脈衝判定器」分析原始感測器資料以識別出 現來自標籤之發光脈衝之時間週期,此表示一染料共軛核苷酸藉由聚合酶併入至寡核苷酸股中。一「鹼基判定器」分析在由脈衝判定器識別之時間週期期間偵測之光之特性以判定(determine)或「判定(call)」核苷酸之身份。隨著在使用期間由經部署定序儀器獲取更多資料,可採用一或多個資料處理技術以便分析學習致能脈衝/鹼基判定器之效能,且因此用其等之改良版本(該等改良版本亦可能經受繼續分析及重新訓練)更新或替換架構。用於分析資料之習知技術可涉及使用基於一系統之預期物理及化學之第一原理計算之模型。相反,本文中所描述之技術之一些實施例之機器學習技術可允許在模型中基於經觀察系統行為進行更新,包含自經獲取資料導出之經觀察系統行為,其可不同於用來產生一靜態模型之假定。
本文中所描述之技術可允許涉及直接地自原始強度軌跡識別鹼基之資料分析,此可消除或減少包含一脈衝判定步驟之需要。
首先參考圖1,描繪一實例性生態系統100之一示意圖,其中可採用使用學習致能鹼基判定之定序裝置。在後文中進一步詳細地描述關於可由定序裝置使用之實例學習架構之更多細節。在任何情況下,定序儀器/裝置(「定序器」)102可經部署於一或多個位置中且可取決於位置及實體資源條件以一有線或無線方式連接至一網路104。無論是即時還是在獲取之後的稍後時間點,自定序裝置102獲得之定序資料可經由一或多個網路104上載且儲存於一或多個資料庫106中。在一些實施例中,可上載定序資料作為個別時間分格之原始時間強度軌跡。例如,資料可包含一光偵測器之一第一分格之一時間強度軌跡(其具有由第一分格隨時間推移偵測之光子計數)及一光偵測器之一第二分格之一時間強度軌跡(其具有由第二分格隨時間推移偵測之光子計數)。在一些實施例中,可藉由透過經設 計以減小一資料大小之一函數傳遞原始時間強度軌跡來運算表示。該函數可自時間強度軌跡提取特徵,使得經提取特徵識別時間強度軌跡之內容資訊且包含於所得表示中。該表示可具有允許一鹼基判定器之後續實施之一格式。可在上載資料之前應用此一技術,且減小之資料大小可改良上載程序。
可經由一或多個工作站108存取定序資料以進行分析、註釋及訓練,以改良例如由定序裝置102利用之一或多個學習致能鹼基判定方法之準確度。有利地,可例如藉由經由一或多個網路104下載使定序裝置102可獲得鹼基判定演算法之週期性更新。應明白,(若干)其他運算裝置(例如,單個運算裝置、共置於單個實體位置中或定位於彼此遠離之多個實體位置中之多個運算裝置、一雲端運算系統之一或多個運算裝置部分等)可執行鹼基判定演算法之一些或全部態樣,因為本文中所描述之技術之態樣不限於此方面。在此等實施例中,(若干)其他運算裝置可接收鹼基判定演算法之週期性更新。儘管圖1描繪用來執行各種功能(諸如資料檢視110、鹼基判定回饋112及AI訓練114)之多個工作站108,但將明白,單個工作站108可執行一個、幾個或全部此等功能。圖1中之特定描繪對表示此一生態系統100中之一良性循環(circle)(或循環(cycle))有用,藉此隨著收集越來越多資料,裝置102隨時間推移改良效能,該資料繼而用來訓練及改良由裝置102使用之人工智慧。
現參考圖2,展示繪示用於實施圖1之實例性生態系統100內建議之一良性循環之一實例性程序200之一高階流程圖。如操作202處所指示,自經部署定序裝置獲取原始軌跡資料(例如,第一時間分格光子計數及第二時間分格光子計數)連同由使用者提供之預期鹼基判定之參考 序列(當此資訊可用時),且可將該資料傳輸至一中央儲存庫(例如,圖1中之資料庫106)。在此,一使用者可為例如同意傳輸匿名定序資料之一客戶或出於各種診斷目的之任一者執行定序運行之一R & D技術人員。可使用例如圖1中之一工作站108查看及下載原始資料。
接著,如操作204處所展示,可將來自經部署定序裝置之原始資料處理成適於學習之一形式。例如,此可能需要特徵計算(在將使用需要預計算之特徵之模型的情況下)及標籤指派。在此背景內容中,「標籤」指代對應於各光子強度軌跡之鹼基判定之真實值。在一項實施例中,標籤可經離散化以包含使用脈衝/鹼基判定模型之一先前迭代(學習致能或其他方式)導出之個別鹼基至時間脈衝事件之一對一映射。替代地,可透過運用一先前模型之脈衝/鹼基判定及與給定參考基因組之序列對準導出標籤,使得脈衝或軌跡段可與一或多個參考鹼基相關聯。在又一方法中,可使用無監督方法,其中僅保存參考序列,而不在處理期間嘗試與特定軌跡區域協調,且代替地在模型訓練期間使用一基於編輯距離之成本函數(例如,一神經雜湊函數)。可設想,可例如作為一次性工作或按照針對一最新存放資料之排程處理原始資料以產生經處理資料。
在操作206處,可對比傳入資料將當前生產學習致能脈衝/鹼基判定器基準化以追蹤其等隨時間推移之效能。利用此比較資訊,可如操作處208所指示般進行學習演算法之更新。此等更新可藉由例如關於新資料重新訓練一既有架構或引入待關於一些或全部可用最新資料進行訓練之新架構來實施。可藉由選擇經處理資料及一模型架構來對模型訓練進行排隊,由此產生具有經儲存權重之一經訓練模型。可隨著獲取資料自動地執行既有架構關於新資料之重新訓練及補充訓練,且如操作210處所指 示,追蹤效能以判定是否及/或何時具有經更新超參數及/或權重之模型之一新版本應被發佈且被上載至客戶定序裝置或雲端以處置客戶資料之分佈式分析。在此,可藉由選擇一經訓練模型及經處理資料來對模型評估進行排隊,因此產生預測及/或基準。可例如藉由準確度或其他度量來查看及/或分類此等基準,且可為模型建立一「排行榜」(例如,將同一測試集用於不同儀器/染料組等)。
形成用於追蹤鹼基判定器進展之此一系統之一個輔助益處係該系統可經設計為用來支援任何數目個學習計畫之一通用框架。例如,該系統可應用於其中期望鑑於不斷累積之新資料追蹤模型效能之任何任務。例如,該系統可用來訓練學習致能單核苷酸多態性(SNP)判定器、癌症預後預測器等。
將明白,本文中所描述之學習致能脈衝/鹼基判定演算法之準確度應隨著更多資料變得可用於訓練一模型以學習此等複雜型樣而增加。如本文進一步詳細地描述,可採用關於額外資料產生之額外技術。例如,可形成一資料模擬器以產生本質上無限量之資料,其模仿實際定序資料之一些易於觀察之宏觀性質。關於此經模擬資料訓練一模型允許在使用真實資料應用更深入訓練之前預設一些模型權重。在此「預訓練」之後,將一模型曝露於如何判定脈衝之大量實例,此係一項重大挑戰。接著,該模型將僅必須微調其在給定真實資料之一些更細微性質之情況下判定鹼基之能力。另外(且亦如下文進一步詳細地概述),資料擴增技術可應用於真實資料,包含查看各軌跡之前向及反向兩者(由此使資料加倍)以及擴展資料集以包含各信號窗之時間平移。
在一些實施例中,可反覆地更新學習致能脈衝/鹼基判定 器。在一些實施例中,可實施一學生-教師(student-teacher)訓練方法以週期性地重新訓練由一定序器使用之一或多個模型。該(等)模型可使用自一先前版本之模型獲得之資料及標籤來重新訓練。例如,可使用一訓練資料集訓練用於一定序器之一模型以獲得一第一經訓練模型。第一經訓練模型可被稱為「教師模型」。接著,可將教師模型用於使用來自一或多個核酸之併入事件之軌跡資料識別該(等)核酸之核苷酸。接著可使用識別該(等)核酸之核苷酸之模型之一或多個輸出及對應軌跡資料作為訓練資料來重新訓練模型以獲得一第二經訓練模型。第二經訓練模型可被稱為教師模型之「學生模型」。學生模型可比教師模型更準確地識別核酸。可週期性地執行此程序以更新一定序器之(若干)模型。此可考量定序器之槽(well)之物理特性之變化,且反覆地改良定序器之準確度。
現參考圖3,展示可結合後文中所描述之自動化機器學習致能脈衝及鹼基判定技術之實施例使用之一實例性定序系統300(例如,圖1之一定序器102)之一示意圖。然而,應理解,可在其他類型之定序系統中實施本文中所描述之技術。一般而言,實例性定序系統300包含經組態以與具有複數個樣本槽之一整合裝置304介接之一儀器302,其中一個別樣本槽306經組態以自放置於整合裝置304之表面上之一樣品(未展示)接納一樣本。一樣品可含有多個樣本,且在一些實施例中可含有不同類型之樣本。複數個樣本槽可具有一合適大小及形狀,使得該等樣本槽之至少一部分自一樣品接納一個樣本。在一些實施例中,一樣本槽內之該數目個樣本可分佈於若干樣本槽當中,使得一些樣本槽含有一個樣本,而其他樣本槽含有零個、兩個或更多個樣本。
在一些實施例中,一樣品可含有多個單股DNA模板,且一 整合裝置之一表面上之個別樣本槽可經定大小且塑形以接納單股DNA模板。單股DNA模板可分佈於整合裝置之樣本槽當中,使得整合裝置之樣本槽之至少一部分含有單股DNA模板。樣品亦可含有標誌dNTP,接著該等標誌dNTP進入樣本槽且可允許在核苷酸被併入至與樣本槽中之單股DNA模板互補之一DNA股中時識別核苷酸。在此一實例中,「樣本」可指代目前藉由聚合酶併入之單股DNA及標誌dNTP兩者。在一些實施例中,樣品可含有單股DNA模板且隨後在核苷酸被併入至一樣本槽內之一互補DNA股中時將標誌dNTPS引入至樣本槽。以此方式,當標誌dNTP被引入至一整合裝置之樣本槽時,可控制核苷酸併入之時序。
自與整合裝置之像素陣列分離之儀器302之一激發源308提供激發能量。至少部分地由整合裝置之元件引導激發能量朝向一或多個像素(圖1中未展示)以照明樣本槽306內之一照明區域。接著,一標籤可在定位於照明區域內時且回應於由激發能量照明而發射發射能量。在一些實施例中,一或多個激發源308係系統之儀器之部分,其中儀器302及整合裝置304之組件經組態以引導激發能量朝向一或多個像素。
接著,可由整合裝置304之一像素內之一或多個感測器310偵測由一樣本發射之發射能量。經偵測發射能量之特性可提供用於識別與該發射能量相關聯之標記之一指示。此等特性可包含任何合適類型之特性,包含由一感測器偵測之光子之一到達時間、由一感測器隨時間推移積累之一光子量及/或跨兩個或多個感測器之一光子分佈。在一些實施例中,一感測器310可具有允許偵測與一樣本之發射能量相關聯之一或多個時序特性(例如,螢光壽命)之一組態。感測器310可在一激發能量脈衝傳播通過整合裝置之後偵測一光子到達時間分佈,且該到達時間分佈可提供 樣本之發射能量之一時序特性之一指示(例如,螢光壽命之一代理)。在一些實施例中,一或多個感測器提供由標籤發射之發射能量之概率之一指示(例如,螢光強度)。在一些實施例中,複數個感測器可經定大小且經配置以擷取發射能量之一空間分佈。接著可使用來自一或多個感測器之輸出信號來自複數個標籤區分一標籤,其中複數個標籤可用來識別樣品內之一樣本。
藉由進一步繪示,圖4係圖3之實例性定序系統300之一更詳細示意圖。再者,系統300包含與一儀器302介接之一整合裝置304。在一些實施例中,儀器302可包含整合為儀器302之部分之一或多個激發源308。在一些實施例中,一激發源308可在儀器302及整合裝置304兩者外部,使得儀器302可經組態以自激發源308接收激發能量且將激發能量引導至整合裝置304。整合裝置304可使用用於接納整合裝置304且保持其精確地光學對準於激發源308之任何合適插座與儀器302介接。激發源308亦可定位於該儀器內且經組態以將激發能量提供至整合裝置304。亦如圖4中示意性地繪示,整合裝置304具有多個個別像素,其中像素312之至少一部分可執行一樣本之獨立分析。此等像素312可被稱為「被動源像素」,因為一像素自與該像素分離之一源308接收激發能量,其中該源激發複數個像素。一像素312具有經組態以接納一樣本之一樣本槽306及用於偵測由樣本回應於利用由激發源308提供之激發能量照明樣本而發射之發射能量之一感測器310。一樣本槽306可保持樣本接近整合裝置304之一表面以為將激發能量遞送至樣本及偵測來自樣本之發射能量提供便利。
用於將激發能量自激發源308引導且耦合至整合裝置304之樣本槽306之光學元件可被併入於整合裝置304及儀器302兩者中。此源至 槽元件可包含例如定位於整合裝置304上之一或多個光柵耦合器以將激發能量耦合至整合裝置304及波導以將激發能量自儀器302遞送至像素312中之樣本槽306。在一些實施例中,定位於整合裝置304上之元件可用來引導來自樣本槽306之發射能量朝向感測器310。樣本槽306、激發源至槽光學裝置之一部分及樣本槽至感測器光學裝置經定位於整合裝置304上。激發源308及源至槽組件之一部分經定位於儀器302中。在一些實施例中,單個組件可在將激發能量耦合至一樣本槽306及將發射能量自樣本槽306遞送至感測器310兩者中發揮作用。在以下專利申請案中描述用於將激發能量耦合至一樣本槽及/或將發射能量引導至一感測器以包含於一整合裝置中之合適組件之實例:(1)2015年8月7日申請之標題為「INTEGRATED DEVICE FOR PROBING,DETECTING AND ANALYZING MOLECULES」之美國專利申請案第14/821,688號;及(2)2014年11月17日申請之標題為「INTEGRATED DEVICE WITH EXTERNAL LIGHT SOURCE FOR PROBING,DETECTING,AND ANALYZING MOLECULES」之美國專利申請案第14/543,865號,且該兩案之全部內容以引用方式併入。
關於圖4之實施例中之複數個像素312,一個別像素312與其自身個別樣本槽306及至少一個感測器310相關聯。複數像素312可經配置成一陣列,且該陣列中可存在任何合適數目個像素。整合裝置304中之像素數目可在近似10,000個像素至1,000,000個像素之範圍內、或彼範圍內之任何值或值範圍。在一些實施例中,像素可經配置成一512像素×512像素陣列。整合裝置304及儀器302可包含用於處置與大像素陣列(例如,大於10,000個像素)相關聯之資料之多通道、高速通信鏈路(未展示)。
如圖4中進一步繪示,儀器302透過一整合裝置介面314與整合裝置304介接。整合裝置介面314可包含例如用來將整合裝置304定位及/或對準至儀器302以促進或改良來自激發源308之激發能量至整合裝置304之耦合之組件。激發源308可為經配置以將激發能量遞送至至少一個樣本槽之任何合適光源。在前述美國專利申請案第14/821,688號中描述合適激發源之實例。在一些實施例中,激發源308包含經組合以將激發能量遞送至整合裝置304之多個激發源。此多個激發源可經組態以產生多個激發能量或波長。整合裝置介面314可自整合裝置304之像素312中之感測器310接收讀出信號。整合裝置介面314可經設計使得整合裝置304藉由將整合裝置304固定至整合裝置介面314而附接至儀器302。
仍參考圖4,儀器302進一步包含用於控制儀器302之操作之一使用者介面316。使用者介面316經組態以允許一使用者將資訊輸入至儀器中,舉例而言諸如用來控制儀器之運作之命令及/或設定。在一些實施例中,使用者介面316可包含按鈕、開關、撥號盤及一語音命令麥克風。另外,使用者介面316可允許一使用者接收關於儀器及/或整合裝置之效能之回饋,諸如恰當對準及/或藉由來自整合裝置上之感測器之讀出信號獲得之資訊。在一些實施例中,使用者介面316可使用用來提供聽覺回饋之一揚聲器以及用於提供視覺回饋之指示燈及/或顯示螢幕提供回饋。在一些實施例中,儀器302包含用來與一外部運算裝置320連接之一電腦介面318。可使用任何合適電腦介面318及運算裝置320。例如,電腦介面318可為一USB介面或一FireWire介面。運算裝置320可為任何通用電腦,諸如一膝上型或桌上型電腦。電腦介面318促進儀器302與運算裝置320之間的資訊通信。用於控制及/或組態儀器302之輸入資訊可透過運算裝置 320與儀器302之電腦介面318通信來提供。另外,可由運算裝置320透過電腦介面318接收輸出資訊。此輸出資訊可包含例如關於儀器302及/或整合裝置312之效能之回饋以及來自感測器310之讀出信號之資訊。儀器302亦可包含用於分析自感測器310接收之資料及/或將控制信號發送至激發源308之一處理裝置322。在一些實施例中,處理裝置322可包括一通用處理器、一專用處理器(例如,一中央處理單元(CPU),諸如一或多個微處理器或微控制器核心、一場可程式化閘陣列(FPGA)、一特定應用積體電路(ASIC)、一客製積體電路、一數位信號處理器(DSP)或其等組合)。在一些實施例中,可由處理裝置322及外部運算裝置320兩者執行來自感測器310之資料之處理。在其他實施例中,可省略運算裝置320且可完全由處理裝置322執行來自感測器310之資料之處理。
現參考圖5A,展示繪示一列像素312之整合裝置304之一截面示意圖。各像素312包含一樣本槽306及一對應感測器310。感測器310可經對準且經定位至樣本槽306,使得感測器310接收由樣本槽312內之一樣本(未展示)發射之發射能量。前述美國專利申請案第14/821,656號中描述合適感測器之實例。
如先前所論述,耦合至整合裝置304之一激發源308可將激發能量提供至整合裝置304之一或多個像素。藉由進一步繪示,圖5B係繪示激發源308至整合裝置304之耦合以將激發能量324(其路徑係以虛線展示)提供至整合裝置304之樣本槽306之一截面示意圖。定位於整合裝置304外之組件(未展示)可用來將激發源308定位且對準至整合裝置。此等組件可包含例如光學組件,諸如透鏡、鏡子、稜鏡、孔徑、衰減器及/或光纖。額外機械組件亦可包含於儀器302中以允許控制一或多個對準組件。 此等機械組件可包含例如致動器、步進馬達及/或旋鈕。
整合裝置304包含引導激發能量324朝向整合裝置304中之像素312之組件。更具體而言,在各像素312內,激發能量經耦合至與該像素相關聯之樣本槽306。儘管圖5B繪示至一列像素312中之各樣本槽306之激發能量耦合,但在一些實施例中,激發能量可不耦合至一給定列中之全部像素312。在一些實施例中,激發能量可耦合至像素312之一部分或整合裝置304之一列像素312中之樣本槽306。激發能量324可照明定位於一樣本槽306內之一樣本。樣本可回應於由激發能量照明而達到一激發狀態。當一樣本處於一激發狀態時,樣本可發射發射能量326,如圖5B中所展示,繼而可由一感測器310偵測該發射能量326。在一些實施例中,感測器310可包含多個子感測器。
可將一待分析樣本引入至像素312之樣本槽306中。該樣本可為一生物樣本或任何其他合適樣本,諸如一化學樣本。此外,該樣本可包含多個分子且樣本槽306可經組態以隔離單個分子。在一些情況下,樣本槽306之尺寸可用來將單個分子限定於該樣本槽內,由此允許對單個分子執行量測。一激發源308可經組態以將激發能量遞送至樣本槽306中,以便在樣本位於樣本槽306內之一照明區域內時激發樣本或附接至樣本或以其他方式與樣本相關聯之至少一個發光標記。
當一激發源將激發能量遞送至一樣本槽時,該槽內之至少一個樣本可發光,且可由一感測器310偵測所得發射。如本文中所使用,片語「一樣本可發光」或「一樣本可發射輻射」或「來自一樣本之發射」意謂著一發光標誌、標記或報導體(reporter),樣本自身或與樣本相關聯之一反應產物可產生經發射輻射。
整合裝置304之一或多個組件可引導發射能量朝向一感測器310。發射能量或若干發射能量可由感測器310偵測且轉換為至少一個電信號。可沿透過整合裝置介面314連接至儀器302之整合裝置304之電路系統中之導線傳輸電信號,諸如已結合圖4描述。隨後可由定位於儀器302上或儀器302外之一合適運算裝置處理及/或分析電信號,諸如圖4中所展示之運算裝置320及/或處理裝置322。
在操作中,藉由使用激發源激發樣本槽內之樣本且利用感測器偵測來自樣本發射之信號來實行該等槽內之樣本之平行分析。來自一樣本之發射能量可由一對應感測器偵測且轉換為至少一個電信號。在一些實施例中,所得信號或若干信號可在整合裝置上處理,或傳輸至儀器以供由處理裝置及/或運算裝置處理。可與相關聯於其他像素之信號獨立地接收且處理來自一樣本槽之信號。
在一些實施例中,可用一或多個標記標示一樣本,且可由儀器辨別與標記相關聯之發射。例如,感測器可經組態以將來自發射能量之光子轉換成電子以形成可用來辨別取決於來自一特定標記之發射能量之一壽命之一電信號。藉由使用具有不同壽命之標記來標示樣本,可基於由感測器偵測之所得電信號來識別特定樣本。
一樣本可含有多種類型之分子且不同發光標記可與一分子類型唯一地相關聯。在激發期間或之後,發光標記可發射發射能量。可使用發射能量之一或多個性質來識別樣本中之一或多個類型之分子。用來區分分子類型之發射能量之性質可包含一螢光壽命值、強度及/或發射波長。一感測器可偵測光子(包含發射能量之光子),且提供指示此等性質之一或多者之電信號。在一些實施例中,來自一感測器之電信號可提供關於 跨一或多個時間間隔之一光子到達時間分佈之資訊。光子到達時間分佈可對應於在由一激發源發射一激發能量脈衝之後偵測一光子之時間。一時間間隔之一值可對應於在該時間間隔期間偵測之一光子數目。跨多個時間間隔之相對值可提供發射能量之一時間特性之一指示(例如,壽命)。分析一樣本可包含藉由比較一分佈內之兩個或兩個以上不同時間間隔之值來區分標記。在一些實施例中,可藉由判定跨一分佈中之全部時間分格之光子數目來提供一強度指示。
如本文中所使用之術語「核酸」通常指代包括一或多個核酸亞基之一分子。一核酸可包含選自腺核苷(A)、胞嘧啶(C)、鳥嘌呤(G)、胸腺嘧啶(T)及尿嘧啶(U)或其變體之一或多個亞基。在一些實例中,一核酸係去氧核糖核酸(DNA)或核糖核酸(RNA)或其衍生物。一核酸可為單股或雙股的。一核酸可能為環狀的。
如本文中所使用之術語「核苷酸」通常指代一核酸亞基,其可包含A、C、G、T或U、或其變體或類比物。核苷酸可包含可併入至一生長核酸股中之任何亞基。此亞基可為A、C、G、T或U,或特定於一或多個互補A、C、G、T或U,或與嘌呤(即,A或G或其變體或類比物)或嘧啶(即,C、T或U或其變體或類比物)互補之任何其他亞基。
核苷酸通常包含核苷及至少1、2、3、4、5、6、7、8、9、10或10個以上磷酸(PO3)基團。核苷酸可包含核鹼基、五碳糖(核糖或去氧核糖)及一或多個磷酸基團。核糖核苷酸係其中糖係核糖之核苷酸。去氧核糖核苷酸係其中糖係去氧核糖之核苷酸。核苷酸可為核苷單磷酸或核苷多磷酸。核苷酸可為去氧核苷多磷酸,諸如(例如)去氧核苷三磷酸,其可選自去氧腺苷三磷酸(dATP)、去氧胞苷三磷酸(dCTP)、去氧鳥苷三 磷酸(dGTP)、去氧尿苷三磷酸(dUTP)及去氧胸苷三磷酸(dTTP)dNTP,其等包含可偵測標籤(例如,螢光團)。
關於感測器310,一光偵測器可回應於將一標籤曝露於一激發源308(例如,藉由一雷射脈衝)而時間分格化來自標籤之入射光子之到達。可重複地激發一標籤,且可時間分格化來自標籤之入射光子之到達。作為一實例,在一10ms量測週期期間,可在一100MHz頻率下發射雷射激發脈衝以激發標籤。標籤可以一低概率發射一光子(例如,10,000次激發中之1次光子發射)。若標籤在一10ms週期內激發數次(例如,一百萬次),則可接收近似100個光子。在一些情況下,一標籤在曝露於一激發源之後可不被激發且在一激發事件之後不發射一光子,此可貢獻於低發射概率。如上文中所論述,可時間分格化入射光子相對於激發之到達時間。因而,一光偵測器可提供表示各時間分格中之光子數目之信號。
為了進一步繪示,圖6係展示其中一光偵測器將入射光子之到達時間分格化成八個時間分格之一實例之一圖表。因為光子發射概率隨時間推移衰減,所以與稍後時間分格相比,較早時間分格具有更多光子。藉由重複地激發標籤且偵測發射光子之時序,可填入近似表達光子發射概率隨時間推移之衰減之一直方圖,如圖6中所展示。
可由脈衝判定器藉由將表示各時間分格中接收之光子數目之值相加來計算量測週期(例如,10ms)內接收之光之強度。例如,如圖6中所展示,若光偵測器將入射光子之到達分格化成八個時間分格,則八個時間分格中接收之光子之數目經相加以判定強度。然而,可使用任何數目個時間分格。若光偵測器具有兩個時間分格,則表示兩個時間分格中接收之光子之數目之值經相加以判定強度。例如,若第一時間分格具有100個 光子且第二時間分格具有50個光子,則此等值可經相加以判定150個光子之一強度。替代地,出於量測總光子強度之目的,可存在一單獨時間分格。
可針對來自光偵測器之資料串流中之後續量測週期執行經接收光之強度之判定。例如,若光偵測器在10ms週期中執行量測,則可藉由將各10ms週期中之時間分格相加而針對各量測週期判定強度。因此,可判定表示隨時間推移接收之光之強度之資料。
在論述學習致能脈衝/鹼基架構之方法及實施例之前,根據背景考量非學習致能自動化方法以自如上文所獲得之原始感測器資料識別核苷酸可能係有用的。據此,圖7繪示表示依據時間變化之經接收光之強度之一實例軌跡之數分鐘。因為軌跡中存在明顯基線及方差且真實脈衝往往具有一低信雜比,所以識別對應於併入事件之脈衝可具挑戰性。因此,一種用來判定核苷酸之可能方法係對強度對時間資料運行一脈衝查找演算法以識別對應於併入事件發射光叢發之時間。
更具體而言,一種可能方法係對軌跡資料運行一變化點演算法,此判定何時發生信號之平均值及方差之偏移,例如,何時自背景(即,脈衝間)變為信號(即,脈衝)且反之亦然。在識別各變化點之後,一臨限值在變化點位準(例如,強度)之基礎上分離脈衝間區域(脈衝之間的區域)與脈衝區域。可利用直方圖、核密度估計或k平均值叢集手動地判定此臨限值。另一可能方法係分析軌跡之平均值/中值及方差,且接著將脈衝定義為特定數目個標準偏差或更高於平均值/中值之增加。又一可能方法係使用一狀態機,其處於一脈衝或脈衝間狀態且經判斷為在兩者之間交替。臨限值定義兩個種狀態之間的轉變。在一些實施例中,可發生判定經 判定脈衝之額外濾波,諸如移除未滿足一最小或最大持續時間臨限值(因為極短脈衝及極長脈衝往往係誤報)之脈衝。後兩種方法具有一額外益處,即其等可在獲取資料時操作資料,而一變化點演算法可能需要全部資料以便操作。
除基於經發射光之強度來識別對應於核苷酸併入事件之脈衝之外,亦可使用經發射光之其他特性來識別除強度之外或作為強度之替代物之脈衝。例如,作為使用強度之一替代物或除使用強度之外,亦可基於經發射光之(若干)時間特性識別脈衝。可用發射具有不同時間特性之光之分子標示不同核苷酸,且可分析時間特性以判定併入事件何時開始及結束。作為一特定實例,不同發光標籤可具有不同「壽命」或回應於激發之光子發射概率隨時間推移衰減之速率。經量測壽命之一變化可指示一併入事件之開始或結束。
在又一方法中,可使用強度及(若干)時間特性兩者來識別發生併入事件之時間。作為一實例,可使用一時間特性之變化以基於強度來精化脈衝之識別。首先,可針對各併入事件獲得光強度,且可藉由將各時間分格集中之時間分格相加來計算強度,如上文所論述。然而,強度無需藉由將時間分格相加來獲得,且可以一不同方式量測及/或判定。接著,對強度對時間資料運行一脈衝查找演算法以識別對應於併入事件發射光叢發之時間。接著,判定併入事件期間發射之光之(若干)時間參數。可基於(若干)時間參數來評估且可能精化經識別脈衝。例如,若識別一長脈衝(例如,具有大於一臨限量之一長度),則可評估脈衝期間發射之光之(若干)時間參數。若時間參數在脈衝期間顯著偏移(例如,改變達一個以上臨限量,或可指示不同核苷酸之一量),則初始脈衝判定可經修正以識 別兩個單獨脈衝而非一個長脈衝。發生時間參數偏移之時間可對應於兩個脈衝之間的一時間邊界。若時間參數在脈衝期間未顯著偏移(例如,未改變或改變達一相對小量),則初始脈衝判定可保持未改變。據此,可使用(若干)時間參數評估及/或精化基於強度之初始脈衝判定之結果。
在又其他方法中,可使用(若干)時間參數執行初始脈衝判定,且可使用強度資訊精化脈衝。無論實施哪種類型之脈衝查找演算法,脈衝判定器識別出現對應於併入事件之脈衝之時間。針對各脈衝,脈衝判定器可識別開始時間及停止時間、開始時間及持續時間或停止時間及持續時間。可分析出現此等脈衝之時間以識別發光標籤及因此其相關聯核苷酸。
在對來自光偵測器之一資料串流執行脈衝判定之後,接著可利用一鹼基判定器演算法以分析各併入事件之光之一或多個特性。在一種方法中,脈衝判定器可將出現脈衝之時間傳遞至鹼基判定器。視情況,脈衝判定器可將額外資訊傳遞至鹼基判定器,諸如關於各時間分格中接收之光子數目之資訊、各量測週期內之經計算強度或任何其他合適資訊。接著,舉例而言諸如可藉由將各時間分格集中之時間分格相加而針對各併入事件獲得強度,如上文所論述。替代地,鹼基判定器可直接地自脈衝判定器接收強度。
可在由脈衝判定器識別之併入事件之持續時間內正規化一強度。例如,若一併入事件持續長達一量測間隔之兩倍,則可藉由將兩個量測間隔之時間分格相加且除以2來計算強度。例如,若一併入事件持續20ms,量測週期係10ms且將光子分組至兩個時間分格中,則可藉由將第一量測之兩個時間分格中收集之光子以及第二量測之兩個時間分格中收 集之光子相加,接著除以2來計算強度。此一計算亦可被視為在20ms併入事件內之一平均強度之計算。
另外,可針對各併入事件判定一時間參數。時間參數可表示在激發之後由一標籤之光子發射概率隨時間推移之衰減。可使用任何合適時間參數。例如,可藉由將一指數擬合至時間分格來計算亮度壽命(例如,如圖6中所展示),且可使用亮度壽命作為時間參數。可比較不同時間分格之光子計數(或表示其之一值)以判定表示光子發射概率隨時間推移之衰減之一時間參數。例如,若將入射光子之到達分格化成兩個時間分格,則可計算兩個分格之光子計數之比,且可使用該比作為時間參數。在一種意義上,分格之比可為用於計算一亮度壽命之一代理。可以任何合適方式計算比。例如,若使用兩個時間分格,則可將在時間上最接近激發事件之時間分格之光子計數除以第二時間分格之光子計數以產生比。可正規化時間分格之光子計數或表示其之值(例如,藉由一時間分格集內之相加強度),且可使用正規化值來判定時間參數。替代地,可使用具有最大光子計數之時間分格作為時間參數。為了判定具有最大光子計數之時間分格,可將時間分格之光子計數彼此比較。作為具有兩個時間分格之一實例,可比較一第一時間分格之光子計數與一第二時間分格之光子計數。具有較高光子計數之分格可經選擇為一時間參數,且可用於區分發光分子。例如,一個發光分子可具有一相對短壽命,此可導致具有最大光子計數之第一時間分格(在時間上最接近激發事件),且另一發光分子可具有一相對長壽命,此可導致具有最大光子計數之另一時間分格(在時間上更遠離激發事件)。
藉由進一步繪示,圖8係描繪繪製為二維空間中之一點之 各併入事件之強度及時間參數之一圖表,其中強度及時間參數在各自軸上。在此實例中,將時間參數繪製於水平(x)軸上且將強度繪製於垂直(y)軸上。四個不同標籤可用於可基於強度、時間參數或兩者來區分彼此之核苷酸。如將自圖8注意到,繪製各併入事件之經量測強度及時間參數導致對應於四種核苷酸A、C、G及T之四個點叢集。
在一種方法中,可對點運行一叢集演算法以將各併入事件之點指派給四個叢集之一者。例如,叢集演算法可在n維空間中執行脈衝之k平均值叢集,其中k係4(A、C、G、T),且n係用於鹼基判定之度量之數目。替代地,可指派四個以上叢集,即,可執行其中k大於4之叢集。此在認識到在一些情況中可能無法充分解析叢集時可能係期望的,且將點分組成四個以上叢集可為有利的。在此一情況中,可將一個以上叢集指派給相同核苷酸。此外,可執行濾波以消除作為異常點之點。例如,若一點具有在一預期範圍外之一時間參數及/或強度,則其可自叢集演算法排除及/或可不被指派給任何核苷酸群組。
任何合適數目個點可經提供至叢集演算法,諸如大於50、大於100、大於500等。叢集演算法之結果係將各點分組至四個(或四個以上)叢集之一者中。在圖8之實例中,n=2,此係因為使用兩個度量,即強度及時間參數。圖8中繪製具有強度及時間分格比作為一時間參數之二維實例。然而,應明白可使用其他度量。
另一二維實例涉及獲得一時間參數及一光譜參數兩者,其中光譜參數而非強度在圖8之垂直(y)軸上。在此實例中,獲得關於針對各併入事件發射之光之光譜資訊且將該光譜資訊用於區分核苷酸。亦應明白,可使用任何數目個度量,而不限於兩個。例如,可獲得除強度及一時 間參數之外之一併入事件之光譜資訊,此可繪製為三維空間中之點,其中強度、時間參數及光譜資訊在各自軸上。
在將點分組之後,進一步精化群組可為有益的,其中可能具有比初始分組步驟中使用更多之度量。出於此目的,可使用一支援向量機(SVM)或其他監督分類器,且可使用叢集標籤作為初始訓練資料。可重複此程序,使用來自分類器之最新近迭代之結果作為下一迭代之訓練,直至其收斂。儘管可使用一叢集演算法來將點指派給叢集,但可在不使用一叢集演算法之情況下將點指派給群組。亦可在不運行一叢集演算法之情況下判定點群組之間的邊界。
在叢集之後,可將點叢集指派給核苷酸。可基於標籤之已知特性來執行此指派。例如,在圖8之圖表中,可能已知T之標籤具有一高強度及最低壽命,A之標籤具有一低強度及一中等壽命,G之標籤具有一高強度及一中等壽命,且C之標籤具有最高壽命及一高強度。可使用叢集相對於彼此之位置將點叢集指派給鹼基。例如,可將具有最低壽命之叢集指派給T,可將具有最高壽命之叢集指派給C,可將具有最低強度之叢集指派給A,且可將剩餘叢集指派給G。各叢集中之點可被指派其等叢集之核苷酸。藉由儲存關於執行強度及時間特性之各量測之時間之資訊,可對核苷酸股進行定序。
在一些實施例中,上文所描述之方法亦可應用於儀器校準。在一些實施例中,在執行一初始校準之後,可能不一定運行一叢集演算法以將全部點指派給核苷酸。代替地,可判定校準準則以將一點指派給一核苷酸類型。例如,藉由在校準期間執行一叢集演算法(例如,k平均值)而識別之叢集質心可用來識別一核酸之核苷酸。在一些實施例中,可 藉由使用與核酸之已知核苷酸相關聯之資料執行叢集來校準一定序器(例如,一定序裝置)。例如,一電腦系統可使用與一或多個已知DNA或RNA序列之核苷酸相關聯之軌跡資料。該系統可經組態以使用資料執行一叢集演算法以獲得可用來識別核苷酸之叢集質心。藉由利用與已知核苷酸相關聯之資料點執行叢集演算法,該系統可獲得更準確地區分不同核苷酸之叢集質心。自校準獲得之叢集質心可用於識別未知核苷酸。例如,該系統可判定一資料點距自校準判定之質心之各者之一距離(例如,歐幾里德距離),且基於經判定距離來識別資料點之核苷酸。例如,核苷酸可被識別為與接近資料點之質心相關聯之核苷酸。
作為一實例,在核苷酸之叢集或指派之後,可判定不同類型之核苷酸之間的邊界。如圖9中所繪示,邊界可為定義一相位空間之區域之函數。相位空間之軸可包含激發雷射脈衝之強度、時間參數、發射波長及/或激發波長。作為一實例,可選擇劃定不同核苷酸之間的邊界900之二維空間中之線段或曲線,如圖9中展示。在較高維空間中,邊界可為表面或較高維物件(稱為「超平面」)。一旦判定邊界900,點便可藉由評估其等相對於邊界之位置而被指派給核苷酸,且無需執行叢集。據此,在一些實施例中,一定序儀器可經校準以劃定邊界900。可使用與一核酸之定序期間相同之標籤集來執行校準程序。作為執行校準之另一實例,可判定叢集之質心,此可允許基於哪一叢集具有最接近一個別點之一質心而將點指派給核苷酸。無論判定之校準準則之類型為何,接著(例如,在該儀器之一記憶體中)儲存校準準則以供隨後使用。
在一些實施例中,可針對各個別槽執行一定序器之校準。一電腦系統可經組態以使用自一各自槽中之核苷酸併入獲得之資料針對該 槽執行一叢集演算法(例如,k平均值)。此可對定序器提供依定序器之各自槽微調之模型。在一些實施例中,可針對多個槽執行一定序器之校準。該系統可經組態以使用自定序器之多個槽中之核苷酸併入獲得之資料執行一叢集演算法。在一些實施例中,該系統可經組態以獲得可用於多個槽之一通用模型。在一些實施例中,該系統可經組態以精化個別槽之通用模型。例如,該系統可基於自一各自槽中之核苷酸併入獲得之資料來修改該槽之通用模型之叢集質心。校準多個槽之單個模型可具有需要來自各個別槽之更少資料之優點,且因此與訓練各個別槽之一單獨模型所需相比,可能需要更少運行時間來收集用於校準之資料。使用一通用模型之另一優點係與儲存一定序器之各槽之單獨模型所需相比,儲存單個模型可能需要較少記憶體。
可在任何合適時間執行校準。例如,在首次使用儀器之前、在使用一新標籤集後、在其中使用儀器之環境條件之一變化後或在考量儀器之組件之老化之一使用週期之後,可期望校準。亦可回應於來自一使用者之一請求(諸如藉由按壓儀器上之一按鈕或自另一裝置將一校準命令發送至儀器)或基於一排程自動地或在按需基礎上回應於儀器軟體判定效能係次佳而執行校準。一旦獲得校準準則,便可藉由相對於校準準則評估經偵測點來更快速地執行定序。
更具體而言,可由一鹼基判定器使用一演算法以基於一或多個校準準則來識別核苷酸。類似於上文所描述之鹼基判定,判定光之參數(例如,強度及一時間參數),使得可藉由使用經儲存校準資訊評估光之經量測參數(例如,強度及時間參數)來識別核苷酸。例如,若經儲存校準資訊包含核苷酸叢集之間的一或多個邊界,則可藉由比較點與邊界來將點 指派給核苷酸,此與執行叢集相比更具運算效率。作為另一實例,可藉由計算一點至核苷酸叢集之四個質心之各者之距離,接著將點指派給具有最接近質心之核苷酸來將點指派給核苷酸。圖10中所繪示此技術,圖10展示表示一經量測強度及時間參數之一點1000。圖10中亦展示對應於四個核苷酸之標籤之質心。為了判定哪一質心最接近,可計算自點1000至四個質心之各者之距離,且基於哪一質心經定位成距點1000之距離最短來指派核苷酸。如圖10之實例中所展示,點1000最接近對應於核苷酸「A」之標籤之質心。據此,判定點1000對應於核苷酸「A」。
以此方式識別核苷酸可包含對與併入事件相關聯之點之一第一部分執行叢集及使用校準準則來對點之一第二部分執行鹼基判定。第一部分可包含任何合適數目個點以在校準準則中提供所期望準確度位準。
另外,可判定一點對應於一特定類型之核苷酸之一可信度位準。作為一實例,可使用一點距一區域之一質心(諸如圖9中所展示之質心)之距離來判定點之一可信度位準。具有至質心之一小距離之點可具有指示點很可能被正確地識別為對應於核苷酸之一高可信度位準,而具有距質心之一較大距離或與另一者相比幾乎不更接近一個質心之點不太可能被正確地識別。在此實例中,可基於點與質心之間的距離或基於比較點與質心之間的距離同點與一或多個其他質心之間的距離來量化可信度位準。作為另一實例,若校準準則包含叢集之間的一或多個邊界,則可藉由判定點與一或多個邊界之間的距離來量化可信度位準。較接近一邊界之點可被給予一較低可信度位準。在一些實施例中,除儲存核苷酸識別自身之外,亦可儲存各核苷酸識別之可信度位準。
可信度位準亦可取決於校準準則及校準準則與校準資料適 當擬合的程度。校準準則與校準資料越準確地擬合,不同點之可信度位準可能越高。特定而言,可信度位準可取決於與一點相關聯之併入事件之持續時間,此係因為可信度位準可取決於由脈衝判定器識別之脈衝之信雜比。作為一實例,一長持續時間可指示脈衝判定器無法識別兩個後續併入事件,諸如相同核苷酸類型之併入事件。在一些實施例中,鹼基判定器可與脈衝判定器通信以請求脈衝判定器重新評估併入事件之持續時間。
在一些情況下,先前導出之邊界(例如,一SVM模型)可應用於新脈衝判定以判定在各脈衝判定事件併入之適當核苷酸。首先定標脈衝判定度量,接著,可應用先前導出之邊界以分類彼併入事件。為了導出跨來自多個像素之脈衝判定資料一般化之邊界,可能有必要在將彼等資料包含於校準資料集中之前定標(或正規化)來自陣列中之各像素之各脈衝判定資料集。藉由定標強度度量,藉由僅對強度叢集且使用彼等叢集之一或多者作為強度之平均值或中值,吾人可正規化全部傳入脈衝判定之強度度量。在校準階段以及鹼基判定階段兩者期間使用經儲存校準資料應用此定標或正規化。此具有無需針對陣列中之各像素產生邊界之益處(其係一效能改良),且能夠定標至極大陣列,其中全部資料通常無法立即擬合至RAM。一進一步益處係運行時間之一減少,此係因為較小數目個脈衝將需要藉由強度分離且定標或正規化至校準資料集。此方法亦允許在建立定標或正規化因子之前儲存且分組較少脈衝,因此允許在自像素陣列獲取資料時近即時地輸出鹼基判定。
至此,已描述用於非學習致能、基於演算法之脈衝及鹼基判定技術之各項實例,且可在2017年6月1日申請之標題為「PULSE CALLER AND BASE CALLER」之共同未決之美國專利申請案第 15/611,573號中找到關於該等技術之額外資訊。現進一步明白,此等程序亦可受益於各種機器學習及/或深度學習技術,且可藉由各種機器學習及/或深度學習技術而改良。
據此,本文中進一步揭示除其他態樣之外亦使用先前運行來訓練一模型以在未來運行中進行鹼基判定之一學習致能鹼基判定器之實施例。此繼而可實現改良經部署裝置隨時間推移之效能,因為此等經部署裝置受益於其等在每次使用時產生之資料。此外,本文中所描述之實施例改良鹼基判定準確度,此亦可使標準生物資訊應用更好。
現參考圖11,展示根據一實施例之實施一學習致能鹼基判定器之一方法1100之一流程圖。如圖11中所展示,方法1100藉由自一感測器獲取原始強度軌跡資料而在操作1102處開始。使用原始強度軌跡資料,接著可將脈衝識別為高於一背景雜訊位準之總強度軌跡之區域,如操作1104中所指示。此初始脈衝判定操作可以類似於上文所描述之彼等技術之一方式且如例如由圖12中所展示之軌跡所繪示般執行。在圖12中之1202及1204處指示兩個此等區域,但是將理解,此不一定係存在於其中之全部脈衝區域之一完整註釋。
使用脈衝資料,接著可計算或判定脈衝資料之性質以便實現鹼基判定。如上文所描述,一種以一無監督演算法方式處理脈衝資料之方法係計算強度及壽命值,且依二維散點圖繪製所得點(例如如圖13中所展示),且將該圖表劃分成四個叢集以指派鹼基。然而,在本實施例中,亦可使用除強度及壽命之外之其他性質。再次參考圖11,在操作1106處,方法1100判定經識別脈衝之若干性質(例如,強度、壽命,至一叢集結果中之4個質心之各者之距離、信號對背景值比、及z正規化強度及壽 命)。此外,代替以一演算法方式叢集此性質資料,方法1100接著繼續進行至操作1108以將一參考鹼基(已與一庫存鹼基判定對準)與各脈衝相關聯。接著,如操作1110處所展示,在給定經判定性質(特徵)之情況下,使用一經訓練機器學習演算法來預測鹼基。將明白,由經訓練機器學習演算法達成之結果取決於參考鹼基之對準之正確性。有利地,隨著關於更多資料訓練此一演算法,判定鹼基應變得更好。
諸如結合圖11所描述之一基於特徵之機器學習訓練鹼基判定器之一個值得注意之特性在於其取決於知道自各脈衝提取哪些特徵。即使在其中已知最重要特徵(例如,強度及壽命)之情況下,亦可存在計算或定量地判定特徵(例如,一脈衝長度內之最小值、最大值、平均值等)之多種方式。一脈衝軌跡之其他態樣可以可能有助於一機器學習訓練演算法之方式進行概述,但可設想此等概述僅係哪些資訊實際上將對演算法有幫助之「猜測工作」。據此,簡單地饋入原始脈衝軌跡值且使演算法判定如何最好地提取相關特徵可能係有利的。
例如,此一方法可透過使用卷積神經網路來實施。例如,在影像辨識領域中(例如,Facebook上之自動面部標誌或Tesla自動駕駛儀之障礙物偵測),針對一影像掃描具有經界定像素高度及寬度之若干濾波器,且執行計算以概述各窗之內容。使用此等卷積濾波器允許利用圖像之近端區域計算特徵。一常見應用係表明深度神經網路可如何執行其等自身特徵提取之面部辨識。當訓練一網路以區分物件時,提供原始影像。就此而言,一項常見實例係區分貓與狗。一卷積神經網路針對個別影像之各者運行其濾波器,且由此可推斷貓所共同的區分其等與狗之特徵(例如,眼睛形狀、鬍鬚等),儘管通常人類將無法理解中間網路表示。儘管結合影 像分析論述此等方法,但應明白,此等技術可應用於其他類型之資料,包含表示為對應於由一光偵測器產生之脈衝軌跡值之值之一陣列之資料。在此等實施方案中,一卷積神經網路可使用定序資料來訓練且自識別個別核苷酸之定序資料提取特徵,且經訓練卷積神經網路可應用經提取特徵來識別定序資料中之核苷酸,諸如後來獲取之定序資料。
圖38A繪示根據本文中所描述之技術之一些實施例之可自由與一核酸之核苷酸併入事件相關聯之發光標籤之光發射獲得之資料3800之一實例。例如,可由上文參考圖3所描述之定序系統300之一感測器310獲得資料3800。
資料3800指示一光脈衝之後的多個時間間隔之各者中偵測之一光子數目。一光子數目在本文中亦可被稱為「光子計數」。在圖38A中所繪示之實例中,資料3800包含三個光脈衝之後的時間間隔期間(例如,由定序系統300之感測器310)偵測之光子數目。一時間間隔在本文中可被稱為「分格」或「時間分格」。在圖38A中所繪示之實例中,資料3800包含:(1)第一脈衝之後的一時間週期3802之一第一時間間隔3802A、一第二時間間隔3802B及一第三時間間隔3802C中偵測之一光子數目;(2)第二脈衝之後的一時間週期3804之一第一時間間隔3804A、一第二時間間隔3804B及一第三時間間隔3804C中偵測之一光子數目;(3)第三脈衝之後的一時間週期3806之一第一時間間隔3806A、一第二時間間隔3806B及一第三時間間隔3806C中偵測之一光子數目。
在一些實施例中,一光脈衝之後的一時間週期中之時間間隔之各者可具有相等或實質上相等之持續時間。在一些實施例中,一光脈衝之後的時間週期中之時間間隔可具有變化持續時間。在一些實施例中, 資料可包含各光脈衝之後的固定數目個時間間隔中偵測之光子數目。儘管資料包含一光脈衝之後的各時間週期中之三個時間間隔,但資料可經分格化成任何合適數目個時間間隔,因為本文中所描述之技術之態樣不限於此方面。再者,儘管圖38A之實例展示三個光脈衝之後的三個時間週期之資料,但資料3800可包含任何合適數目個光脈衝之後的時間週期期間收集之資料,因為本文中所描述之技術之態樣不限於此方面。再者,儘管圖38A之實例展示一時間週期之間隔不相交,但在一些實施例中間隔可重疊。
圖38B繪示根據本文中所描述之技術之一些實施例之可作為輸入提供至一機器學習模型之來自圖38A之資料3800之一實例配置。例如,可產生資料結構3810作為一深度學習模型(例如,一神經網路)之輸入以獲得識別一核酸之核苷酸之一輸出。
如圖38B中所繪示,可將來自資料3800之光子數目配置成包含多個系列值之一資料結構3810。在一些實施例中,資料結構3810可為編碼一矩陣(例如,一陣列、一組連結列表等)之二維資料結構。該等系列值之各者可形成矩陣之一列或行。可明白,資料結構3810可被視為儲存一影像之值,其中影像之各「像素」對應於一對應光脈衝之後的一特定時間週期中之一各自時間間隔且像素之值指示該時間間隔期間偵測之光子數目。
在圖38B中所繪示之實例中,資料結構3810包含呈行之多個系列資料。各行在本文中亦可被稱為「訊框」。資料結構3810包含:(1)一第一訊框,其指定第一光脈衝之後的時間週期3802之時間間隔3802A至3802C中偵測之光子數目N11、N12、N13;(2)一第二訊框,其指定第二光 脈衝之後的時間週期3804之時間間隔3804A至3804C中偵測之光子數目N21、N22、N23;及(3)一第三訊框,其指定第三光脈衝之後的時間週期3806之時間間隔3806A至3806C中偵測之光子數目N31、N32、N33。儘管圖38B中所繪示之實例展示三個訊框,但資料結構3810可保存來自任何合適數目個訊框之資料,因為本文中所描述之技術之態樣不限於此方面。
在圖38B中所繪示之實例中,資料結構3810包含呈列之多個系列資料。各列指定各光脈衝之一特定分格中偵測之光子數目。資料結構3810包含一第一系列值,該第一系列值包含:(1)第一光脈衝之後的時間週期3802中之第一間隔3802A中之光子數目(N11);(2)第二光脈衝之後的時間週期3804中之第一間隔3804A中之光子數目(N21);及(3)第三光脈衝之後的時間週期3806中之第一間隔3806A中之光子數目(N31)。資料結構3810包含一第二系列值,該第二系列值包含:(1)第一光脈衝之後的時間週期3802中之第二間隔3802B中之光子數目(N12);(2)第二光脈衝之後的時間週期3804中之第二間隔3804B中之光子數目(N22);及(3)第三光脈衝之後的時間週期3806中之第二間隔3806B中之光子數目(N32)。資料結構3810包含一第三系列值,該第三系列值包含:(1)第一光脈衝之後的時間週期3802中之第三間隔3802C中之光子數目(N13);(2)第二光脈衝之後的時間週期3804中之第三間隔3804C中之光子數目(N23);及(3)第三光脈衝之後的時間週期3806中之第三間隔3806C中之光子數目(N33)。
圖39A繪示根據本文中所描述之技術之一些實施例之用於訓練一深度學習模型以識別一核酸之核苷酸之一實例性程序3900。可由任何合適電腦系統執行程序3900。例如,可由上文參考圖1所描述之工作站108執行程序3900。可執行程序3900以訓練本文中所描述之深度學習模 型。例如,可執行程序3900以訓練下文參考圖40所描述之卷積神經網路(CNN)4000。作為另一實例,可執行程序3900以訓練下文參考圖41所描述之連接機制時間分類(CTC)擬合神經網路模型4100。
在一些實施例中,深度學習模型可為一神經網路。例如,深度學習模型可為一卷積神經網路(CNN),其產生識別作為輸入提供至CNN之一資料集之核苷酸之一輸出。在一些實施例中,可單獨地訓練神經網路之部分。例如,深度學習模型可具有以一或多個特徵之值編碼輸入資料之一第一部分。深度學習模型可包含接收(若干)特徵之值作為輸入以產生識別一核酸之一或多個核苷酸之一輸出之一第二部分。
程序3900在方塊3902處開始,其中系統執行程序3900存取在核酸之核苷酸併入事件期間自由發光標籤之光發射獲得之訓練資料。在一些實施例中,在由一或多個定序器將核苷酸併入至核酸中期間,可由一或多個感測器(例如,(若干)光偵測器)收集資料。在一些實施例中,光發射可回應於一系列光脈衝。資料可包含光脈衝之各者之後的一時間週期之多個時間間隔中偵測之一光子數目。在一些實施例中,該系統可經組態以將資料配置成一或多個資料結構,諸如上文參考圖38B所描述之資料結構3810。
接著,程序3900繼續進行至方塊3904,其中該系統使用以下項訓練一深度學習模型:(1)方塊3902處存取之資料;及(2)指定核酸之一或多個核苷酸之資訊。本文中論述實例深度學習模型。在一些實施例中,指定核酸之一或多個核苷酸之資訊可包含核酸之各者之一預定核苷酸序列。在一些實施例中,該系統可經組態以藉由以下步驟訓練深度學習模型:(1)將方塊3902處存取之資料作為輸入提供至深度學習模型以獲得識 別核酸之核苷酸之輸出;及(2)基於由輸出識別之核苷酸與核酸之預定核苷酸之間的一差異來訓練深度學習模型。例如,該系統可經組態以基於經判定差異來更新深度學習模型之一或多個參數。
在一些實施例中,該系統可經組態以使用監督學習基於經標示訓練資料來訓練深度學習模型。例如,指定一或多個核酸之資訊可為方塊3902處獲得之資料之標籤。在一些實施例中,可將方塊3902處獲得之資料之一部分作為輸入提供至深度學習模型,且可比較對應於資料之部分之深度學習模型之輸出與資料之部分之一標籤。繼而,可基於深度學習模型之輸出與作為輸入提供至深度學習模型之資料之部分之標籤之間的差異來更新深度學習模型之一或多個參數。差異可提供深度學習模型在利用其當前參數集進行組態時執行再現標籤之適當程度之一量度。例如,可使用適於訓練神經網路之隨機梯度下降及/或任何其他迭代最佳化技術更新深度學習模型之參數。
在方塊3904處訓練深度學習模型之後,程序3900繼續進行至方塊3906,其中該系統儲存經訓練深度學習模型。該系統可儲存深度學習模型之一或多個經訓練參數之(若干)值。例如,深度學習模型可包含一或多個神經網路。該系統可儲存(若干)神經網路之經訓練權重之值。該系統可經組態以儲存經訓練深度學習模型以用於識別一核酸之核苷酸。
在一些實施例中,該系統可經組態以獲得新資料以重新訓練深度學習模型。例如,該系統可接收新訓練資料(例如,核酸序列及相關聯資料),該系統可使用該新訓練資料來更新神經網路之參數。在一些實施例中,該系統可經組態以使用由經訓練深度學習模型產生之一或多個輸出重新訓練深度學習模型。例如,由模型產生之(若干)輸出及對應輸入 資料可用作訓練資料。在一些實施例中,該系統可經組態以使用資料及識別核酸之核苷酸之輸出(例如,自執行下文參考圖39B所描述之程序3910獲得)反覆地更新經訓練深度學習模型。例如,該系統可經組態以將輸入資料提供至一第一經訓練深度學習模型(例如,一教師模型),且獲得識別一或多個核酸之一或多個核苷酸之一輸出。接著,該系統可使用輸入資料及輸出重新訓練深度學習模型以獲得一第二經訓練深度學習模型(例如,一學生模型)。
在一些實施例中,該系統可經組態以針對一定序器(例如,定序器304)之各槽訓練一單獨深度學習模型。可針對一各自槽使用自該槽獲得之資料來訓練一深度學習模型。可針對槽之特性調諧深度學習模型。在一些實施例中,該系統可經組態以訓練待用於識別一定序器之多個槽中之核酸之一通用深度學習模型。可使用自多個槽聚合之資料訓練通用深度學習模型。
圖39B繪示根據本文中所描述之技術之一些實施例之使用自程序3900獲得之一經訓練深度學習模型來識別一核酸之核苷酸之一實例性程序3910。可由任何合適電腦系統執行程序3910。例如,可由上文參考圖1所描述之工作站108執行程序3910。可使用本文中所描述之一或多個經訓練深度學習模型執行程序3910。例如,可使用下文參考圖40所描述之卷積神經網路(CNN)4000執行程序3910。作為另一實例,可使用下文參考圖41所描述之CTC擬合神經網路模型4100執行程序3900。
程序3910在方塊3912處開始,其中該系統存取在核酸之核苷酸併入事件期間自由發光標籤之光發射獲得之資料。在一些實施例中,該資料可自由一或多個感測器(例如,(若干)光偵測器)在由一定序器將核 苷酸併入至核酸中期間收集之資料獲得。在一些實施例中,光發射可回應於一系列光脈衝。資料可包含光脈衝之各者之後的一時間週期之多個時間間隔中偵測之一光子數目。例如,資料可為上文參考圖38A所描述之資料3800。在一些實施例中,該系統可經組態以將資料配置成上文參考圖38B所描述之一資料結構3810。
接著,程序3900繼續進行至方塊3912,其中該系統將方塊3906處存取之資料作為輸入提供至經訓練深度學習模型。在一些實施例中,該系統可經組態以將資料劃分至多個時間週期中,且將時間週期之各者之資料作為一系列輸入提供至經訓練深度學習模型以獲得各輸入之一對應輸出。例如,該系統可將資料之各部分作為輸入提供至CNN 4000,且獲得識別資料之部分之核苷酸之一輸出。在一些實施例中,該系統可經組態以提供資料作為輸入而不將其除以時間週期,且獲得識別核酸之核苷酸之一輸出。例如,該系統可將方塊3912處獲得之資料作為輸入提供至CTC擬合神經網路模型4100,且獲得識別核酸之一核苷酸序列之一輸出。
接著,程序3900繼續進行至方塊3916,其中該系統獲得識別核酸之核苷酸之一輸出。在一些實施例中,該系統可經組態以獲得多個時間週期之各者之一輸出。輸出可指示時間週期期間被併入至核酸中之核苷酸。例如,輸出可為指示在時間週期期間被併入至核酸中之各種核苷酸之概率之值。在一些實施例中,該系統可經組態以獲得識別核酸之核苷酸之單個輸出。例如,該系統可接收識別核酸之核苷酸之一字母序列。作為另一實例,該系統可接收各核苷酸之一系列概率。該系統可經組態以使用概率來識別核酸之核苷酸。
在方塊3910處自經訓練深度學習模型獲得識別核酸之核苷酸之輸出之後,程序3900返回至方塊3912,其中該系統再次開始執行程序3910以識別另一核酸之核苷酸。
藉由進一步繪示,圖14係繪示經組態以分析一影像1402之一實例性卷積神經網路1400之層之一示意圖。如所展示,該卷積神經網路包含用來接收影像1402之一輸入層1404、用來提供輸出之一輸出層1406及連接於輸入層1404與輸出層1406之間的複數個隱藏層1408。複數個隱藏層1408包含卷積及池化層1410以及稠密(dense)層1412。
輸入層1404可接收至卷積神經網路1400之輸入,該輸入可為影像1402。影像1402可具有一值矩陣,諸如來自兩個分格之一2xN光子計數矩陣。此外,輸入層1404之後可為一或多個卷積及池化層1410。一卷積層可包括在空間上比至卷積層之輸入(例如,影像1402)更小之一組濾波器(例如,具有一更小寬度及/或高度)。可將濾波器之各者與至卷積層之輸入進行卷積以產生指示彼濾波器在每個空間位置處之回應之一激勵圖(activation map)(例如,2維激勵圖)。卷積層之後可為對一卷積層之輸出進行下採樣以減小其尺寸之一池化層。
卷積及池化層1410之後可為稠密層1412。稠密層1412可包括一或多個層,各層具有自一先前層(例如,一卷積或池化層)接收一輸入且將一輸出提供至一後續層(例如,輸出層1406)之一或多個神經元。稠密層1412可被描述為「稠密」,因為一給定層中之神經元之各者可自一先前層中之各神經元接收一輸入且將一輸出提供至一後續層中之各神經元。稠密層1412之後可為提供卷積神經網路之輸出之一輸出層1406。輸出可為例如影像1402(或影像1402之任何部分)屬於來自一組類別(例如,不同核 苷酸)之哪種類別(例如,一核苷酸類型)之一指示。在核酸定序之背景內容中,一類別可對應於一特定類型之核苷酸(例如,A、G、T、C)。
應明白,圖14中所展示之卷積神經網路1400可僅為一項實例實施方案且可採用其他實施方案。例如,一或多個層可添加至圖14中所展示之卷積神經網路或自圖14中所展示之卷積神經網路移除。可添加至卷積神經網路之額外實例層包含:一整流線性單元(ReLU)層、一填充(pad)層、一串聯(concatenate)層及一提升(upscale)層。一提升層可經組態以對至該層之輸入進行上採樣。一ReLU層可經組態以將一整流器(有時稱為斜坡函數)作為一傳遞函數應用於輸入。一填充層可經組態以藉由填充輸入之一或多個尺寸來改變至層之輸入之大小。一串聯層可經組態以將多個輸入(例如,組合來自多個層之輸入)組合成單個輸出。
關於鹼基判定,圖15係繪示根據另一實施例之實施一學習致能鹼基判定器之一方法1500之一流程圖。代替判定及/或計算脈衝軌跡資料之特定性質,代替地以類似於影像之一方式分析及處理資料,且使用四種較低維資料類別(A、T、C、G)將資料饋送至一卷積神經網路(例如,圖14中之網路1400);即,一時間長度內之第一時間分格及第二時間分格中之光子計數。如圖15中所展示,方法1500藉由自一感測器獲取原始強度軌跡資料而在操作1502處開始。使用原始強度軌跡資料,接著可將脈衝識別為高於一背景雜訊位準之總強度軌跡之區域,如操作1504中所指示。應注意,操作1502及1504可分別類似於圖11之操作1102及1104,且另外,初始脈衝判定操作可以類似於上文所描述之彼等技術之一方式且如例如由圖12中展示之軌跡所繪示般執行。
在操作1506中,正規化脈衝軌跡資料以便產生輸入信號之 一正規化2D矩陣表示以應用於一卷積神經網路(例如,圖14中之網路1400)以如操作1508中所展示般進行鹼基判定。關於輸入信號之正規化,預期可使用若干方法來將原始軌跡轉變為一正規化範圍。例如,正規化可藉由對與一軌跡中之全部量測之平均值(z分數)之標準偏差之數目進行計數或此等策略之任何組合(例如,藉由首先經由z分數進行轉換且接著按比例調整至範圍-1至1)而在0與1之間、在-1與1之間線性地進行。藉由進一步繪示,圖16A至圖16D係四種較低維度資料類別(分別A、T、C、G)之實例,各類別在一時間長度內使用第一光子計數及第二光子計數(時間分格1、時間分格2)。更具體而言,圖16A繪示鹼基特徵A之脈衝軌跡資料(類似於影像)特性之正規化2D矩陣表示之四項實例;圖16B繪示鹼基特徵T之脈衝軌跡資料特性之正規化2D矩陣表示之四項實例;圖16C繪示鹼基特徵C之脈衝軌跡資料特性之正規化2D矩陣表示之四項實例;且圖16D繪示鹼基特徵G之脈衝軌跡資料特性之正規化2D矩陣表示之四項實例。脈衝軌跡資料之2D矩陣表示可被視為堆疊向量,其中個別向量對應於光偵測器之不同時間分格且一向量中之值對應於隨時間推移之光子計數。將神經網路之(若干)卷積濾波器應用於2D矩陣表示可涉及沿時間維度(諸如針對個別時間分格)及/或跨不同向量(諸如針對對應於相同時間之不同時間分格之值)傳遞一或多個卷積濾波器。在涉及正規化2D矩陣表示之實施例中,正規化可涉及基於向量中之最小值及/或最大值來按比例調整一向量,此可考量在獲得定序資料時使用之不同參數(例如,跨不同定序運行使用之雷射功率),使得所得正規化資料在一值範圍內。
現參考圖17A至圖17D,展示鹼基特徵之各者之一系列正規化時間分格1及時間分格2光子計數,其中圖17A繪示鹼基特徵A之一正 規化光子計數分佈;圖17B繪示鹼基特徵T之一正規化光子計數分佈;圖17C繪示鹼基特徵C之一正規化光子計數分佈;且圖17D繪示鹼基特徵G之一正規化光子計數分佈。圖17A、圖17B、圖17C及圖17D表示跨不同核苷酸之各者之全部軌跡之一光子計數概述且自資料導出,包含圖16A、圖16B、圖16C及圖16D中所展示之資料。將注意,正規化時間分格1及時間分格2光子計數之分佈反映可區分之鹼基特徵。儘管跨諸多孔徑計算之此等分佈中之分格之間存在重疊,但將注意,圖17A至圖17D之個別脈衝軌跡通常在於絕對光子計數中一致地上移及下移之此等值之間維持一良好間距。因此,脈衝軌跡可能係可由一卷積神經網路學習之特徵,尤其在給定人眼相當容易地觀察到趨勢(此繼而係一DL演算法將適當地執行之一良好指標)之情況下。
相對於圖11中之學習致能鹼基判定實施例,卷積神經網路「影像」方法可具有一更高效能上限且因而,將更多地受益於大量原始資料。即,可能需要更多資料來訓練一卷積模型,因為該演算法不僅必須學習如何預測標籤,而且其必須學習特徵自身之表示。在一基於特徵之模型中,一訓練者可饋送已知有益之模型特徵,因此僅需要學習標籤,因此使用較少資料。另一方面,一基於卷積之DL模型可能夠學習比人類訓練者可在給定足夠資料之情況下預先計算「更好」之特徵。
總之,可使用具備卷積神經網路之一深度學習鹼基判定演算法來執行稍微類似於面部辨識技術之一任務,以便識別雙光子時間分格空間中之鹼基。此解決方案可藉由預處理軌跡以提取脈衝事件且將自軌跡裁剪之各脈衝之一靜態快照饋送至一「影像處理」神經網路中而應用於原始脈衝資料。
至此,上文所描述之自動化脈衝及鹼基判定方法(包含採用深度學習技術及卷積神經網路之彼等方法)之各者首先在鹼基判定之前已自原始感測器資料併入某種方式之脈衝判定或脈衝識別。據此,本文中所描述之進一步方法提供用於一步到位地執行脈衝及鹼基判定之實施例。例如,此可允許一神經網路學習如何判定受助於來自各鹼基(A、C、T、G)之一脈衝「看似」何物之資訊之脈衝。此一方法可進一步幫助消除超過一給定強度臨限值但並非鹼基之特性之任何虛假閃爍(flicker)。
現參考圖18,展示繪示根據另一實施例之實施一學習致能鹼基判定器之一方法1800之一流程圖。通常,一鹼基判定卷積神經網路直接應用於較長軌跡。類似於先前實施例,方法1800藉由自一感測器獲取原始強度軌跡資料而在操作1802處開始。因為一神經網路預期一特定「影像」形狀作為輸入(例如,訓練該網路以辨識特定數目個訊框塊中之鹼基),所以方法繼續進行至操作1804以首先將強度軌跡資料分段成選定時間訊框寬度。在一項實施例中,可將資料分成50訊框塊,但應明白,可使用更多或更少數目個訊框塊。接著,在一給定訊框寬度內,方法1800在操作1806處應用一卷積神經網路以將資料轉換成跨各鹼基類型之一鹼基事件之時域之一運行概率。
圖40繪示根據本文中所描述之技術之一些實施例之用於識別一核酸之核苷酸之一卷積神經網路(CNN)4000之一實例結構。在一些實施例中,可藉由執行上文參考圖39A所描述之程序3900來訓練CNN4000。在一些實施例中,自程序3900獲得之經訓練CNN 4000可用來執行上文參考圖39B所描述之程序3910。在一些實施例中,可在上文參考圖18所描述之程序1800中使用卷積神經網路4000。
在圖40之實例實施例中,CNN 4000接收一輸入4002A。在一些實施例中,輸入4002A可為指定光脈衝之後的時間週期之時間間隔中之光子數目之一訊框集合。在一些實施例中,輸入4002A可經配置成一資料結構,諸如上文參考圖38B所描述之資料結構3810。在圖40之實例實施例中,輸入4002A包含形成一2x50輸入矩陣之兩個時間間隔之50個資料訊框。
在一些實施例中,CNN 4000包含一或多個卷積層4002,其中輸入4002A與一或多個濾波器進行卷積。在圖40之實例實施例中,輸入4002A與一第一卷積層中之一第一系列16個2x3濾波器進行卷積。與16個濾波器之卷積導致一16x48輸出4002B。在一些實施例中,CNN 4000可包含第一卷積層之後的一池化層。例如,CNN 4000可藉由採取第一卷積層之輸出之窗中之最大值來執行池化以獲得輸出4002B。
在圖40之實例實施例中,接著,第一卷積層之輸出4002B與一第二卷積層中之第二組一或多個濾波器進行卷積。輸出4002B與一組一或多個1x6濾波器進行卷積以獲得輸出4002C。在一些實施例中,CNN 4000可包含第二卷積層之後的一池化層(例如,一最大池化層)。
在圖40之實例實施例中,CNN 4000包含一平坦化步驟4004,其中平坦化卷積4002之輸出以產生一經平坦化輸出4006A。在一些實施例中,CNN 4000可經組態以藉由將一8x43輸出矩陣轉換成一維向量來平坦化輸出4002C。在圖40之實例實施例中,將8x43輸出4002C轉換成一1x344向量4006A。可將向量4006A輸入至一完全連接層中以產生各可能類別之一分數。在圖40之實例實施例中,可能類別係核苷酸腺核苷(A)、胞嘧啶(C)、鳥嘌呤(G)及胸腺嘧啶(T)、及空白(-)。接著對完全連接 層之輸出執行一softmax操作4006以獲得輸出4010。在一些實施例中,softmax操作4006可將類別之各者之分數轉換成一各自概率。接著對輸出4010執行一argmax操作4008以獲得一分類。argmax操作4008可在輸出4010中選擇具有最高概率之類別。例如,輸出可識別在由輸入4002A表示之一時間週期期間併入之核苷酸(例如,A、C、G或T)。作為另一實例,輸出可藉由輸出一空白分類(-)來識別在時間週期期間無核苷酸被併入至核酸中。
為了進一步繪示,圖19係展示時間分格1及時間分格2光子計數(例如,如自操作1802獲取)之一原始軌跡之一圖表。接著,利用此資料,圖20A至圖20C係展示藉由將原始軌跡資料輸入至應用於不同大小窗上方之一卷積神經網路而產生之運行鹼基計數概率之圖表。在所繪示之特定實例中,圖20A之圖表使用如上文所論述之50個訊框之一預測訊框寬度。圖20B使用25之一預測訊框寬度,且圖20C使用5之一預測訊框寬度。自此等實例,將注意,較小窗實際上產生更清晰概率峰值,因為其不太可能藉由在單個窗中擷取一個以上脈衝來混淆資料。另一方面,需要擷取足夠脈衝以便準確地判定鹼基存在一權衡。如圖20A至圖20C中進一步展示,以50%概率(由虛線所指示)之一簡單定限(simple thresholding)可為鹼基判定用途可接受的,因為其產生一實際可對準序列,但是鹼基判定準確度可能小於可藉由自原始感測器資料預分段及識別脈衝判定軌跡之先前描述技術所達成之鹼基判定準確度。替代地,可利用將一額外步驟添加至程序(類似於兩步脈衝判定及鹼基判定方法)之權衡調諧概率空間中之峰值判定參數。利用卷積執行脈衝判定之另一優點係其允許單獨地使用時間分格1值及時間分格2值兩者來預測脈衝發生之位置而非跨兩個分格之附加強 度,從而除鹼基判定之外亦可能導致更準確脈衝判定。
實施一學習致能鹼基判定器以在無預分段脈衝之情況下直接自一軌跡判定鹼基之另一可能方法利用語音辨識模型。語音辨識在諸多方面類似於鹼基判定。例如,連接機制時間分類(CTC)模型將語音片段(未確定長度之多維波形)視為輸入且標籤為未確定字母或音素清單視為標籤。一特殊成本函數允許將模型輸出對準/最佳化至未知長度之此等標籤。為了繪示此概念,圖21展示一對圖表,其中下圖表係口述短語「她把你的黑西裝在油膩的洗滌水中放了一整年」之一頻譜圖且上圖表描繪頻譜圖之一正規化幅度。
此係一鹼基判定問題之一極好類比,其中期望一網路自任何長度之波形學習可變數目個符號(鹼基判定)。此外,為此類型之資料饋送一演算法以進行訓練之能力可減輕一些預先對準資料問題以在逐脈衝基礎上指派確切標籤,且代替地在逐窗基礎上指派標籤,其中合理地確認已建立「錨點」,此意謂著與一參考序列之鹼基對準係良好的。
就此而言,圖22係繪示根據另一實施例之實施一學習致能鹼基判定器之一方法2200之一流程圖。類似於先前實施例,方法2200藉由自感測器獲取原始強度軌跡資料而在操作2202處開始。接著在操作2204中,在未首先預分段之情況下正規化強度軌跡資料。操作2204中應用之正規化程序可涉及正規化強度軌跡資料,使得資料中之值在一範圍內,以考量序列運行及用來獲得不同序列運行之參數之間的變動。接著將一連接機制時間分類模型應用於正規化強度軌跡資料,以自變化長度之波形識別鹼基判定,如操作2206中所展示。
發明人已成功地使用分段、單光子雪崩二極體(SPAD)輸入 資料訓練一鹼基判定模型以饋送此一模型。圖23繪示具有相關鹼基標籤之SPAD輸入資料之兩個此等段。另外,因為CTC模型可能極複雜,所以亦可模擬簡化資料,該簡化資料儘管與實際定序資料不類似,但仍匹配使用CTC獲得一初步解決方案所需之全部性質。在此,圖24中展示一對實例性模擬資料段。將注意,簡單地為各鹼基指派強度,其中時間分格1與時間分格2之間無差異。
圖41繪示根據本文中所描述之技術之一些實施例之用於識別一核酸之核苷酸之一連接機制時間分類(CTC)擬合神經網路模型4100之一實例。在一些實施例中,可藉由執行上文參考圖39A所描述之程序3900來訓練CTC擬合神經網路模型4100。在一些實施例中,自程序3900獲得之經訓練CTC擬合神經網路模型4100可用來執行上文參考圖39B所描述之程序3910。在一些實施例中,可在上文參考圖22所描述之程序2200中使用CTC擬合神經網路模型4100。
在圖41之實例實施例中,模型4100經組態以自一核酸定序器4120接收資料。例如,定序器4120可為上文參考圖3所描述之定序系統300。在一些實施例中,模型4100可經組態以接收由定序器4120產生之資料。可在核酸之核苷酸併入期間自由與核苷酸相關聯之發光標籤之經偵測光發射存取資料。在一些實施例中,資料可經配置為如上文參考圖38B所描述之多個系列光子及/或訊框數目。在一些實施例中,自定序器4120獲得之資料之部分可作為一系列輸入提供至模型4100。例如,模型4100可經組態以接收指定400個光脈衝之各者之後的兩個時間間隔中偵測之光子數目之一第一2x400輸入。
在圖41之實例實施例中,模型4100包含一特徵提取器 4104。在一些實施例中,該特徵提取器可為一經訓練自動編碼器之一編碼器。可訓練自動編碼器,且來自自動編碼器之解碼器可經實施為特徵提取器4104。該編碼器可經組態以將輸入編碼為一或多個特徵之值4106。
在圖41之實例實施例中,由特徵提取器4104判定之特徵值4106經輸入至一預測器4108中,該預測器4108輸出指示各可能類別之一系列概率值之一概率矩陣4110。在圖41之實例實施例中,該等類別包含可併入至一核酸中之核苷酸(例如腺嘌呤(A)、胞嘧啶(C)、鳥嘌呤(G)及胸腺嘧啶(T)、及空白(-))。作為一實例,預測器4108可輸出指示該等類別之各者之一系列50個概率值之一5x50矩陣。概率矩陣4110可用來產生一輸出4130,該輸出4130識別對應於自核酸定序器4120接收之資料之一核苷酸序列。在一些實施例中,可自概率矩陣4110判定核苷酸序列。例如,可執行一光束搜尋以獲得核苷酸之輸出4130。
在一些實施例中,可與預測器4108分離地訓練特徵提取器4104。例如,可藉由訓練一自動編碼器來獲得特徵提取器4104。接著,可將來自自動編碼器之編碼器用作特徵提取器4104。在一些實施例中,可使用CTC損失函數4112單獨地訓練預測器4108。CTC損失函數4112可訓練預測器4108以產生可用來產生輸出4130之一輸出。
在一些實施例中,可組合多個概率矩陣。可從自定序器4120獲得之資料存取一第二輸入。第二輸入可為自定序器4120獲得之資料之一第二部分。在一些實施例中,可藉由使自定序器4120獲得之資料移位達數個點來獲得第二輸入。例如,第二輸入可為藉由使自定序器4120獲得之資料移位達8個點而獲得之一第二400x2輸入矩陣。對應於第二輸入之一概率矩陣可自預測器4108獲得,且與對應於一第一輸入之一 第一概率矩陣組合。例如,可將第二概率矩陣添加至第一概率矩陣。作為另一實例,可使第二概率矩陣移位且將其添加至第一概率矩陣。接著可使用經組合概率矩陣來獲得識別一核酸之一核苷酸序列之輸出4130。
在一些實施例中,特徵提取器4104可為一神經網路。在一些實施例中,神經網路可為一卷積神經網路(CNN)。在一些實施例中,CNN可包含一或多個卷積層及一或多個池化層。CNN可包含一第一卷積層,其中來自定序器4120之輸入與一組濾波器進行卷積。例如,輸入可使用一1x1步幅與一組16個10x2濾波器進行卷積以產生一16x400x2輸出。一激勵函數可應用於第一卷積層之輸出。例如,一ReLU激勵函數可應用於第一卷積層之輸出。在一些實施例中,CNN可包含在第一卷積層之後的一第一池化層。在一些實施例中,CNN可對第一卷積層之輸出應用一maxpool操作。例如,具有一1x1步幅之一2x2濾波器可應用於一16x400x2輸出以獲得一200x1輸出。
在一些實施例中,CNN可包含一第二卷積層。第二卷積層可接收第一池化層之輸出作為一輸入。例如,第二卷積層可接收第一池化層之200x1輸出作為輸入。第二卷積層可涉及與第二組濾波器進行卷積。例如,在第二卷積層中,200x1輸入可與具有一1x1步幅之第二組16個10x1濾波器進行卷積以一產生16x200輸出。一激勵函數可應用於第二卷積層之輸出。例如,一ReLU激勵函數可應用於第二卷積層之輸出。在一些實施例中,CNN可包含在第二卷積層之後的一第二池化層。在一些實施例中,CNN可對第二卷積層之輸出應用一maxpool操作。例如,具有一4x1步幅之一4x1濾波器可應用於第二卷積層之16x200輸出以獲得一16x50輸出。
在一些實施例中,特徵提取器4104可為一遞迴式神經網路(RNN)。例如,特徵提取器4104可為經訓練以將自定序器4120接收之資料編碼為一或多個特徵之值之一RNN。在一些實施例中,特徵提取器4104可為一長短期記憶體(LSTM)網路。在一些實施例中,特徵提取器4104可為一門閘遞迴式單元(GRU)網路。
在一些實施例中,預測器4108可為一神經網路。在一些實施例中,神經網路可為一GRU網路。在一些實施例中,GRU網路可為雙向的。作為一實例,GRU網路可接收作為輸入提供至GRU網路之特徵提取器4104之16x50輸出。例如,GRU網路可具有產生一50x128輸出之64個隱藏層。在一些實施例中,GRU網路可使用一tanh激勵函數。在一些實施例中,預測器4108可包含一完全連接層。GRU網路之輸出可作為輸入提供至產生一5x50輸出矩陣之完全連接層。5x50矩陣可包含各可能輸出類別之一系列值。在一些實施例中,預測器4108可經組態以對完全連接層之輸出應用一softmax函數以獲得概率矩陣4110。
一經模擬資料集可能存在若干益處(無論是自真實雙分格SPAD資料還是整合晶片資料模擬),包含例如:(1)藉由幫助理解錯誤模式,且原始資料之分量「從頭開始」產生此等分量;(2)可用來形成新穎深度學習架構之無限資料之潛力;(3)在一開始用極簡單資料訓練深度學習模型(例如,高SNR、無假影),且接著在經模擬定序錯誤及雜訊中進行滴定以測定一模型可如何合適或不合適於偵測特定類型之信號假影之能力;及(4)關於經模擬資料預先訓練一些深度學習模型,且此後訓練真實資料以微調網路權重之潛力。然而,應明白,經模擬資料僅僅係用於探索模型及在大量真實資料可用之前處置大且錯誤豐富之資料之能力之一工具 及臨時替代(stand-in)。
圖25至圖34進一步詳細地繪示用於產生一經模擬軌跡之實施例。具體地參考圖25,繪示一真實軌跡之一400訊框段,其中期望能夠產生具有一類似字元之事物(但是不一定具有確切鹼基併入)。為了產生經模擬資料,描述各種信號特性之分佈可被使用且例如可自真實SPAD資料擬合。圖26及圖27分別係關於減除背景之時間分格比及鹼基強度(作為高於基線之一比)之擬合分佈之實例。如圖28之圖表中可見,使此兩個分佈交叉提供四個鹼基之間的更好區分。然而,在給定特定位準之SNR之情況下,A與C之間可能存在一些重疊。
使用此等及其他分佈,可藉由對一信號之元素進行分層來建構一軌跡。最初,考量系統雜訊(亦稱為泊松雜訊),其表示由裝置感測器讀取之光子,無論是否存在一鹼基併入事件。圖29中繪示一400訊框段上方之系統雜訊之一實例性圖表。另外,考量關於時間分格比之系統雜訊。即,正如來自併入信號之光子般,由偵測電路將背景雜訊光子分成分格1及分格2。然而,不存在引導雜訊光子之分格化之特定染料特性。因此,一種方法係將一分佈擬合至脈衝事件之外之時間分格比(分格2/(分格1+分格2)),且自此分佈隨機地汲取以跨軌跡長度模擬時間分格比。圖30中繪示一400訊框段上方之系統雜訊之此時間分格化之一實例性圖表。給定圖29之圖表中之雜訊之強度及圖30之圖表中之時間分格比,接著可將系統雜訊分成其分格1及分格2分量,如圖31之圖表中所展示。
在無雜訊之情況下,各鹼基併入應理想地產生本質上方波信號。對於一經模擬軌跡,一隨機起點放置於一給定模板上,且產生鹼基判定。接著,可基於對真實資料之擬合分佈來模擬脈衝之持續時間及時間 分格比以及脈衝間持續時間。圖32繪示隨機地放置於400訊框軌跡上之一清晰鹼基併入信號之一實例圖表。在一真實系統中,將同時存在雜訊及信號兩者,其中來自各者之光子在各分格中相加。因此,除基線雜訊之外無其他假影之一「清晰」軌跡將係信號及雜訊軌跡之一簡單相加。圖33繪示藉由將圖32之隨機清晰信號軌跡與圖31之基線雜訊圖表相加而產生之一實例經模擬軌跡。
與圖25之真實資料軌跡相比,圖33之經模擬資料軌跡有利地比較,且當需要清晰資料時可能有益於模型構建目的。另一方面,亦期望能夠在存在特定定序假影之情況下學習。可模擬之此等假影之實例包含但不一定限於:暗晶粒(導致丟失或半強度脈衝);經融合脈衝(未返回至脈衝之間的基線);閃爍脈衝(脈衝在中途中斷且此後恢復);基線跳躍(例如,歸因於染料黏附);雷射漂移(基線遞增/遞減)。一些此等假影可相加(例如,基線跳躍),而其他假影可相乘(例如,雷射漂移)。為了進一步繪示,圖34展示一經模擬軌跡之另一段,其中各上述假影應用於誇大位準。然而,一次僅加上一或兩個假影以測試一模型在可預測假影之一區(regime)中操作之能力可能更實際。
如上文所指示,訓練使用CTC損失函數最佳化之一深度學習模型之一個優點係消除脈衝判定步驟且直接地自原始軌跡預測鹼基的能力。此外,此一範例允許模型之輸入及輸出大小變化,此繼而允許饋送軌跡窗及對應鹼基窗之演算法實例。繼而,饋送鹼基之窗改良標示準確度。此外,在一模型經曝露於軌跡窗及對應鹼基窗之若干此等實例之後,該模型將藉由同時最佳化脈衝及鹼基判定來學習如何判定脈衝及鹼基。即,除在模型判定鹼基時考量脈衝之性質之外,模型可在其判定是否判定一脈衝 時考量鹼基之性質。藉由試圖將此方法一起結合成單個步驟,該演算法具有直接地在信號中找到As、Ts、Cs及Gs的能力,而無需脈衝判定。可用於決定判定一脈衝之一種類型之鹼基性質可包含一時間分格光子計數比。例如,若一潛在脈衝具有類似於針對一特定鹼基(例如,A、C、T、G)觀察到之一時間分格光子計數比之一時間分格光子計數比,則可藉由模型將潛在脈衝識別為特定鹼基。然而,若潛在脈衝不同於或不匹配針對特定鹼基觀察到之一時間分格光子計數比,則模型可拒絕潛在脈衝。
整合型(all-in-one)脈衝/鹼基判定器之又一進一步優點係模型可更容易地區分對於兩步脈衝及鹼基判定器而言可能困難之情況。例如,圖35繪示具有「經融合」脈衝之原始感測器軌跡資料,且圖36係使用基於CTC之模型直接地自圖35資料判定鹼基之對應概率分佈(其中0=A,1=C,2=G,3=T,且4=無鹼基)。如自圖35將注意到,最後兩個脈衝3502、3504看似融合在一起,此係一獨立脈衝判定器將難以處置之一情況(例如,其可將整個事件判定為單個脈衝)。然而,因為此看似經融合脈衝之兩個個別脈衝3502、3504具有完全不同之時間分格1及時間分格2特性(時間分格1在第一脈衝3502中較低且在第二脈衝3504中較高),所以整合型脈衝/鹼基判定器可區分此為兩個單獨脈衝(例如,不同鹼基之圖36之概率分佈中之兩個尖峰)。因此,該模型使用鹼基性質來判定脈衝。
在一些實施例中,可使用一或多個運算裝置實行本文中描述之技術。然而,實施例不限於利用任何特定類型之運算裝置操作。藉由進一步繪示,圖37係一繪示性運算裝置3700之一方塊圖。運算裝置3700可包含一或多個處理器3702及一或多個有形、非暫時性電腦可讀儲存媒體(例如,記憶體3704)。記憶體3704可將在執行時實施任何上文所描述之 功能之電腦程式指令儲存於一有形非暫時性電腦可記錄媒體中。(若干)處理器3702可經耦合至記憶體3704且可執行此等電腦程式指令以致使實現且執行功能。
運算裝置3700亦可包含一網路輸入/輸出(I/O)介面3706,該運算裝置可經由該網路輸入/輸出(I/O)介面3706與其他運算裝置通信(例如,透過一網路),且亦可包含一或多個使用者I/O介面3708,該運算裝置可經由該使用者I/O介面3708提供輸出給一使用者且自一使用者接收輸入。使用者I/O介面可包含裝置,諸如一鍵盤、一滑鼠、一麥克風、一顯示裝置(例如,一監視器或觸控螢幕)、揚聲器、一相機及/或各種其他類型之I/O裝置。
可以任何眾多方式實施上文所描述之實施例。例如,可使用硬體、軟體或其組合實施實施例。當在軟體中實施時,可在提供於單個運算裝置中或分佈於多個運算裝置當中之任何合適處理器(例如,一微處理器)或處理器集合上執行軟體程式碼。應明白,執行上文所描述之功能之任何組件或組件集合一般可被視為控制上文所論述之功能之一或多個控制器。可以眾多方式實施(諸如利用專用硬體,或利用使用微碼或軟體程式化以執行上文所敘述之功能之通用硬體(例如,一或多個處理器))一或多個控制器。
就此而言,應明白,本文中所描述之實施例之一項實施方案包括利用一電腦程式(即,複數個可執行指令)編碼之至少一個電腦可讀儲存媒體(例如,RAM、ROM、EEPROM、快閃記憶體或其他記憶體技術、CD-ROM、數位多功能光碟(DVD)或其他光碟儲存器、盒式磁帶(magnetic cassette)、磁帶、磁碟儲存器或其他磁性儲存裝置,或其他有 形、非暫時性電腦可讀儲存媒體),該電腦程式當在一或多個處理器上執行時執行一或多項實施例之上文所論述功能。電腦可讀媒體可為可攜帶的,使得儲存於其上之程式可經載入至任何運算裝置上以實施本文中所論述之技術之態樣。另外,應明白,參考當被執行時執行任何上文所論述功能之一電腦程式不限於一主機電腦上運行之一應用程式。實情係,本文中在一般意義上使用術語電腦程式及軟體以參考可用來程式化一或多個處理器以實施本文中所論述之技術之態樣之任何類型之電腦程式碼(例如,應用軟體、韌體、微碼或任何其他形式之電腦指令)。
本文中所描述之各種態樣可單獨地、組合地或以在前文中所描述之實施例中未明確論述之各種配置使用且因此其應用不限於前文描述中所陳述或圖式中所繪示之組件之細節及配置。例如,一項實施例中所描述之態樣可以任何方式與其他實施例中所描述之態樣組合。
再者,本文中所描述之技術可體現為一方法,已如上文所描述般(包含參考圖2、圖11、圖15、圖18、圖22及圖39A至圖39B)提供該方法之實例。可以任何合適方式對作為該方法之部分執行之動作進行排序。據此,可建構其中以不同於所繪示之一順序執行動作之實施例,其可包含同時執行一些動作,即使在繪示性實施例中被展示為循序動作。
在發明申請專利範圍中使用諸如「第一」、「第二」、「第三」等之序數術語以修飾一主張元件自身並非意指一個主張元件超過另一者之任何優先權、優先級或順序或執行一方法之動作之時間順序,而僅僅用作標籤以區分具有一特定名稱之一個主張元件與具有一相同名稱(但使用序數術語)之另一元件以區分主張元件。
再者,本文中所使用之片語及術語用於描述之目的且不應 被視為限制。本文中使用「包含」、「包括」或「具有」、「含有」、「涉及」及其等變動意謂涵蓋其等後列出之項及其等之等效物以及額外項。
在發明申請專利範圍以及上述說明書中,全部連接片語(transitional phrase)(諸如「包括」、「包含」、「攜帶」、「具有」、「含有」、「涉及」、「保持」、「由…組成」及類似者)應被理解為開放式,即,意謂著包含但不限於。僅連接片語「由…組成」及「本質上由…組成」應分別係封閉式或半封閉式連接片語。
200:實例性程序
202:操作
204:操作
206:操作
208:操作
210:操作

Claims (37)

  1. 一種用於識別一核酸之核苷酸之方法,該方法包括:使用至少一個電腦硬體處理器來執行:存取在該核酸之核苷酸併入事件期間自由與核苷酸相關聯之發光標籤之經偵測光發射獲得之資料,其中光發射係回應於一系列光脈衝,且該資料包含在至少一些該等光脈衝之各者之後偵測的光子數目;及將該資料作為輸入提供至一經訓練深度學習模型以獲得識別該核酸之核苷酸之輸出,其中將該資料作為輸入提供至該經訓練深度學習模型包括將該資料配置至具有行(columns)之一資料結構中,其中:一第一行保持(holds)該系列光脈衝中之一第一光脈衝之後的一第一時間週期中之一第一時間間隔及一第二時間間隔之各者中之一光子數目;及一第二行保持該系列光脈衝中之一第二光脈衝之後的一第二時間週期中之一第一時間間隔及一第二時間間隔之各者中之一光子數目。
  2. 如請求項1之方法,其中該經訓練深度學習模型包括一卷積神經網路(convolutional neural network)。
  3. 如請求項1之方法,其中該經訓練深度學習模型包括一連接機制時間 分類(connectionist temporal classification;CTC)擬合神經網路模型。
  4. 如請求項1之方法,其中針對複數個核苷酸之各者,識別該核酸之核苷酸之該輸出包括指示該核苷酸被併入至該核酸中之概率之一各自時間系列值。
  5. 如請求項1之方法,其進一步包括:其中針對複數個核苷酸之各者,識別該核酸之核苷酸之該輸出包括該核苷酸被併入至該核酸中之一概率;且該方法進一步包括當該核酸中之該複數個核苷酸之一第一核苷酸被併入至該核酸中之該概率超過一臨限概率時,識別該第一核苷酸。
  6. 如請求項1之方法,其中將該資料作為輸入提供至該經訓練深度學習模型包括:將該資料組織成複數個時間週期;及針對該複數個時間週期之各者將資料作為一輸入提供至該經訓練深度學習模型以獲得指示該核酸之至少一個核苷酸之一對應輸出。
  7. 如請求項6之方法,其中針對複數個核苷酸之各者,對應於作為輸入提供至該經訓練深度學習模型之一各自時間週期之一輸出指示該核苷酸在該時間週期內被併入至該核酸中之一概率之一值。
  8. 如請求項1之方法,其中將該資料作為輸入提供至該經訓練深度學習 模型包括:識別該資料之複數個部分,各部分對應於該等核苷酸併入事件之一各自者;及將該資料之該複數個部分之各者作為一輸入提供至該經訓練深度學習模型以獲得對應於該資料之該部分之一輸出。
  9. 如請求項8之方法,其中對應於該資料之該部分之該輸出識別被併入至該核酸中之核苷酸。
  10. 如請求項1之方法,其進一步包括:存取在複數個核酸之核苷酸併入事件期間自由與核苷酸相關聯之發光標籤之經偵測光發射獲得之訓練資料;及使用該訓練資料及指定該複數個核酸中之至少一些該等核苷酸之資訊執行訓練以獲得該經訓練深度學習模型。
  11. 如請求項1之方法,其中針對至少一些該等光脈衝之各者,該資料包含該光脈衝之後的一時間週期之複數個間隔之各者中偵測之一各自光子數目。
  12. 一種用於識別一核酸之核苷酸之系統,該系統包括:至少一個電腦硬體處理器;及至少一個非暫時性電腦可讀儲存媒體,該至少一個非暫時性電腦可讀儲存媒體儲存指令,該等指令在由該至少一個電腦硬體處理器執行時致 使該至少一個電腦硬體處理器執行:存取在該核酸之核苷酸併入事件期間自由與核苷酸相關聯之發光標籤之經偵測光發射獲得之資料,其中光發射係回應於一系列光脈衝,且該資料包含在至少一些該等光脈衝之各者之後偵測的光子數目;及將該資料作為輸入提供至一經訓練深度學習模型以獲得識別該核酸之核苷酸之輸出,其中將該資料作為輸入提供至該經訓練深度學習模型包括將該資料配置至具有行之一資料結構中,其中:一第一行保持該系列光脈衝中之一第一光脈衝之後的一第一時間週期中之一第一時間間隔及一第二時間間隔之各者中之一光子數目;及一第二行保持該系列光脈衝中之一第二光脈衝之後的一第二時間週期中之一第一時間間隔及一第二時間間隔之各者中之一光子數目。
  13. 一種儲存指令之非暫時性電腦可讀儲存媒體,至少一個該非暫時性電腦可讀儲存媒體之該等指令在由至少一個電腦硬體處理器執行時致使該至少一個電腦硬體處理器執行:存取在該核酸之核苷酸併入事件期間自由與核苷酸相關聯之發光標籤之經偵測光發射獲得之資料,其中光發射係回應於一系列光脈衝,且該資料包含在至少一些該等光脈衝之各者之後偵測的光子數目;及將該資料作為輸入提供至一經訓練深度學習模型以獲得識別該核酸之核苷酸之輸出,其中將該資料作為輸入提供至該經訓練深度學習模型包 括將該資料配置至具有行之一資料結構中,其中:一第一行保持該系列光脈衝中之一第一光脈衝之後的一第一時間週期中之一第一時間間隔及一第二時間間隔之各者中之一光子數目;及一第二行保持該系列光脈衝中之一第二光脈衝之後的一第二時間週期中之一第一時間間隔及一第二時間間隔之各者中之一光子數目。
  14. 一種用於訓練一深度學習模型以識別一核酸之核苷酸之方法,該方法包括:使用至少一個電腦硬體處理器來執行:存取在複數個核酸之核苷酸併入事件期間自由與核苷酸相關聯之發光標籤之經偵測光發射獲得之資料,其中光發射係回應於一系列光脈衝,且該資料包含在至少一些該等光脈衝之各者之後偵測的光子數目;及使用該資料及指定該複數個核酸中之至少一些該等核苷酸之資訊訓練該深度學習模型,其包括:將該資料之至少一部分作為輸入提供至該深度學習模型以獲得識別該複數個核酸之至少一個核酸之核苷酸之一輸出,其中將該資料之該至少一部分作為輸入提供至該深度學習模型包括將該資料配置至具有行之一資料結構中,其中:一第一行保持該系列光脈衝中之一第一光脈衝之後的一第一時間週期中之一第一時間間隔及一第二時間間隔之各者中之一光子數目;及 一第二行保持該系列光脈衝中之一第二光脈衝之後的一第二時間週期中之一第一時間間隔及一第二時間間隔之各者中之一光子數目。
  15. 如請求項14之方法,其中使用該資料及指定該複數個核酸之至少一些該等核苷酸之該資訊訓練該深度學習模型進一步包括:基於由該輸出識別之該至少一個核酸之該等核苷酸與由該資訊指定之該至少一個核酸之核苷酸之間的一差異來訓練該深度學習模型。
  16. 如請求項14或15之方法,其中進一步包括:重新訓練該深度學習模型以獲得一經更新深度學習模型;及將該深度學習模型之更新傳播至一或多個定序裝置。
  17. 如請求項14或15之方法,其中該深度學習模型包括一卷積神經網路。
  18. 如請求項14或15之方法,其中該深度學習模型包括一連接機制時間分類(CTC)擬合神經網路模型。
  19. 如請求項14或15之方法,其中指定該複數個核酸中之至少一些該等核苷酸之該資訊包括該至少一個核酸之一核苷酸序列,且該資料包含對應於該至少一個核酸之核苷酸併入事件之資料,且訓練該深度學習模型包括: 逆轉該至少一個核酸之該核苷酸序列;及使用對應於該至少一個核酸之核苷酸併入事件之該資料及該至少一個核酸之該經逆轉核苷酸序列訓練該深度學習模型。
  20. 如請求項14或15之方法,其進一步包括:存取在該複數個核酸之核苷酸併入事件期間自由與核苷酸相關聯之發光標籤之經偵測光發射獲得之資料;及將該資料作為輸入提供至該深度學習模型以獲得識別該核酸之核苷酸之輸出。
  21. 如請求項14或15之方法,其進一步包括:使用在該核酸之核苷酸併入事件期間自由與核苷酸相關聯之發光標籤之經偵測光發射獲得之該資料及識別該核酸之核苷酸之該輸出,重新訓練該深度學習模型。
  22. 如請求項14或15之方法,其中存取該資料包括獲得由複數個光偵測器收集之資料。
  23. 如請求項14或15之方法,其中該等光發射回應於一系列光脈衝,且針對至少一些該等光脈衝之各者,該資料包含該光脈衝之後的一時間週期之複數個間隔之各者中偵測之一各自光子數目。
  24. 一種用於訓練一深度學習模型以識別一核酸之核苷酸之系統,該系 統包括:至少一個電腦硬體處理器;及至少一個非暫時性電腦可讀儲存媒體,該至少一個非暫時性電腦可讀儲存媒體儲存指令,該等指令在由該至少一個電腦硬體處理器執行時致使該至少一個電腦硬體處理器執行:存取在複數個核酸之核苷酸併入事件期間自由與核苷酸相關聯之發光標籤之經偵測光發射獲得之資料,其中光發射係回應於一系列光脈衝,且該資料包含在至少一些該等光脈衝之各者之後偵測的光子數目;及使用該資料及指定該複數個核酸中之至少一些該等核苷酸之資訊訓練該深度學習模型,該訓練包括:將該資料之至少一部分作為輸入提供至該深度學習模型以獲得識別該複數個核酸之至少一個核酸之核苷酸之一輸出,其中將該資料之該至少一部分作為輸入提供至該深度學習模型包括將該資料配置至具有行之一資料結構中,其中:一第一行保持該系列光脈衝中之一第一光脈衝之後的一第一時間週期中之一第一時間間隔及一第二時間間隔之各者中之一光子數目;及一第二行保持該系列光脈衝中之一第二光脈衝之後的一第二時間週期中之一第一時間間隔及一第二時間間隔之各者中之一光子數目。
  25. 一種儲存指令之非暫時性電腦可讀儲存媒體,至少一個該非暫時性 電腦可讀儲存媒體之該等指令在由至少一個電腦硬體處理器執行時致使該至少一個電腦硬體處理器執行:存取在核酸之核苷酸併入事件期間自由與核苷酸相關聯之發光標籤之經偵測光發射獲得之資料,其中光發射係回應於一系列光脈衝,且該資料包含在至少一些該等光脈衝之各者之後偵測的光子數目;及將該資料作為輸入提供至一經訓練深度學習模型以獲得識別該核酸之核苷酸之輸出,其中將該資料作為輸入提供至該經訓練深度學習模型包括將該資料配置至具有行之一資料結構中,其中:一第一行保持該系列光脈衝中之一第一光脈衝之後的一第一時間週期中之一第一時間間隔及一第二時間間隔之各者中之一光子數目;及一第二行保持該系列光脈衝中之一第二光脈衝之後的一第二時間週期中之一第一時間間隔及一第二時間間隔之各者中之一光子數目。
  26. 一種用於識別一核酸之核苷酸之方法,該方法包括:使用至少一個電腦硬體處理器來執行:存取自由與核苷酸相關聯之發光標籤之經偵測光發射獲得之資料,該等光發射回應於一系列光脈衝,針對至少一些該等光脈衝之各者,該資料包含該光脈衝之後的一時間週期中之複數個間隔之各者中偵測之一各自光子數目;及將該資料作為輸入提供至一經訓練機器學習模型以獲得識別該核酸之核苷酸之輸出,其中將該資料作為輸入提供至該經訓練機器學習模型包括將該資料配置至具有行之一資料結構,其中: 一第一行保持該系列光脈衝中之一第一光脈衝之後的一第一時間週期中之一第一時間間隔及一第二時間間隔之各者中之一光子數目;及一第二行保持該系列光脈衝中之一第二光脈衝之後的一第二時間週期中之一第一時間間隔及一第二時間間隔之各者中之一光子數目。
  27. 如請求項26之方法,其中該資料包含指示該系列光脈衝中之該第一光脈衝之後的該第一時間週期中之該第一時間間隔及該第二時間間隔之各者中之一各自光子數目之資料。
  28. 如請求項27之方法,其中該資料進一步包含該系列光脈衝中之該第二光脈衝之後的該第二時間週期中之該第一時間間隔及該第二時間間隔之各者中之一各自光子數目。
  29. 如請求項26之方法,其中將該資料作為輸入提供至該經訓練機器學習模型包括將該資料配置成一影像,其中該影像之各像素指定該等至少一些脈衝之一者之後的一時間週期之一間隔中偵測之一光子數目。
  30. 如請求項26之方法,其中將該資料作為輸入提供至該經訓練機器學習模型包括將該資料配置成具有列之一資料結構,其中該等列之各者保持對應於該至少一些光脈衝之一各自間隔中之光子數目。
  31. 如請求項26之方法,其中將該資料作為輸入提供至該經訓練機器學習模型包括:識別該資料之複數個部分,各部分對應於該核酸之該等核苷酸之一各自者;及將該資料之該複數個部分之各者作為一輸入提供至該經訓練機器學習模型以獲得對應於該資料之該部分之一輸出。
  32. 如請求項31之方法,其中識別對應於該核酸之一各自核苷酸之該資料之一部分包括:比較資料之該部分中之該複數個間隔中之一特定間隔中之一光子數目與同資料之該部分中之該特定間隔分離之該複數個間隔之至少一者中之一光子數目。
  33. 如請求項26之方法,其中該經訓練機器學習模型包括一深度學習模型。
  34. 如請求項33之方法,其中該經訓練機器學習模型包括一卷積神經網路。
  35. 如請求項26之方法,其中該經訓練機器學習模型包括一連接機制時間分類(CTC)擬合神經網路模型。
  36. 如請求項26之方法,其進一步包括: 存取在複數個核酸之核苷酸併入事件期間自由與核苷酸相關聯之發光標籤之經偵測光發射獲得之訓練資料;及使用該訓練資料及指定該複數個核酸中之至少一些該等核苷酸之資訊訓練一機器學習模型以獲得該經訓練機器學習模型。
  37. 一種用於識別一核酸之核苷酸之系統,該系統包括:至少一個電腦硬體處理器;及至少一個非暫時性電腦可讀儲存媒體,該至少一個非暫時性電腦可讀儲存媒體儲存指令,該等指令在由該至少一個電腦硬體處理器執行時致使該至少一個電腦硬體處理器執行:存取自由與核苷酸相關聯之發光標籤之經偵測光發射獲得之資料,該等光發射回應於一系列光脈衝,針對至少一些該等光脈衝之各者,該資料包含該光脈衝之後的一時間週期中之複數個間隔之各者中偵測之一各自光子數目;及將該資料作為輸入提供至一經訓練機器學習模型以獲得識別該核酸之核苷酸之輸出,其中將該資料作為輸入提供至該經訓練機器學習模型包括將該資料配置至具有行之一資料結構,其中:一第一行保持該系列光脈衝中之一第一光脈衝之後的一第一時間週期中之一第一時間間隔及一第二時間間隔之各者中之一光子數目;及一第二行保持該系列光脈衝中之一第二光脈衝之後的一第二時間週期中之一第一時間間隔及一第二時間間隔之各者中之一光子數目。
TW108102999A 2018-01-26 2019-01-25 用於識別核酸之核苷酸之方法、系統及非暫時性電腦可讀儲存媒體以及用於訓練深度學習模型之方法及系統 TWI812671B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201862622754P 2018-01-26 2018-01-26
US62/622,754 2018-01-26

Publications (2)

Publication Number Publication Date
TW201935294A TW201935294A (zh) 2019-09-01
TWI812671B true TWI812671B (zh) 2023-08-21

Family

ID=65409521

Family Applications (1)

Application Number Title Priority Date Filing Date
TW108102999A TWI812671B (zh) 2018-01-26 2019-01-25 用於識別核酸之核苷酸之方法、系統及非暫時性電腦可讀儲存媒體以及用於訓練深度學習模型之方法及系統

Country Status (11)

Country Link
US (2) US11538556B2 (zh)
EP (1) EP3743918A1 (zh)
JP (1) JP2021511829A (zh)
KR (1) KR20200115590A (zh)
CN (1) CN111971748A (zh)
AU (1) AU2019211435A1 (zh)
BR (1) BR112020014542A2 (zh)
CA (1) CA3088687A1 (zh)
MX (1) MX2020007904A (zh)
TW (1) TWI812671B (zh)
WO (1) WO2019147904A1 (zh)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210116380A1 (en) * 2018-02-01 2021-04-22 University Of Pittsburgh-Of The Commonwealth System Of Higher Education Systems and methods for robust background correction and/or emitter localization for super-resolution localization microscopy
US11487997B2 (en) * 2018-10-04 2022-11-01 Visa International Service Association Method, system, and computer program product for local approximation of a predictive model
JP7230208B2 (ja) * 2018-12-10 2023-02-28 ライフ テクノロジーズ コーポレーション サンガーシーケンシングの深層ベースコーラ
US10699451B1 (en) * 2018-12-18 2020-06-30 Adobe Inc. Generating digital graphical representations reflecting multiple data series utilizing dynamic y-axes
US11347965B2 (en) 2019-03-21 2022-05-31 Illumina, Inc. Training data generation for artificial intelligence-based sequencing
US11210554B2 (en) 2019-03-21 2021-12-28 Illumina, Inc. Artificial intelligence-based generation of sequencing metadata
US11704573B2 (en) * 2019-03-25 2023-07-18 Here Global B.V. Method, apparatus, and computer program product for identifying and compensating content contributors
US11593649B2 (en) 2019-05-16 2023-02-28 Illumina, Inc. Base calling using convolutions
JP2023510578A (ja) 2020-01-14 2023-03-14 クアンタム-エスアイ インコーポレイテッド 寿命およびスペクトル特性評価用センサ
KR20220143854A (ko) * 2020-02-20 2022-10-25 일루미나, 인코포레이티드 인공 지능 기반 다-대-다 염기 호출
US20210265018A1 (en) * 2020-02-20 2021-08-26 Illumina, Inc. Knowledge Distillation and Gradient Pruning-Based Compression of Artificial Intelligence-Based Base Caller
US20210265016A1 (en) * 2020-02-20 2021-08-26 Illumina, Inc. Data Compression for Artificial Intelligence-Based Base Calling
KR20220148273A (ko) * 2020-03-02 2022-11-04 퀀텀-에스아이 인코포레이티드 다차원 신호 분석을 위한 통합 센서
WO2021229668A1 (ja) * 2020-05-12 2021-11-18 株式会社日立ハイテク 核酸分析装置、核酸分析方法及び機械学習方法
US11664090B2 (en) * 2020-06-11 2023-05-30 Life Technologies Corporation Basecaller with dilated convolutional neural network
CN113077078B (zh) * 2021-03-19 2023-10-31 中国科学院物理研究所 基于深度学习的超短激光脉冲相位预测方法及其系统
US20220336054A1 (en) 2021-04-15 2022-10-20 Illumina, Inc. Deep Convolutional Neural Networks to Predict Variant Pathogenicity using Three-Dimensional (3D) Protein Structures
US11995524B2 (en) * 2021-06-24 2024-05-28 Accenture Global Solutions Limited System and method for providing automatic guidance in data flow journeys
US20220415442A1 (en) * 2021-06-29 2022-12-29 Illumina Software, Inc. Signal-to-noise-ratio metric for determining nucleotide-base calls and base-call quality
CA3223746A1 (en) * 2021-07-28 2023-02-02 Rohan PAUL Quality score calibration of basecalling systems
CN117999359A (zh) * 2021-12-03 2024-05-07 深圳华大生命科学研究院 核酸样本的碱基识别方法及装置
WO2023115550A1 (en) 2021-12-24 2023-06-29 GeneSense Technology Inc. Deep learning based methods and systems for nucleic acid sequencing
CN114842914B (zh) * 2022-04-24 2024-04-05 山东大学 一种基于深度学习的染色质环预测方法及系统
US11846564B2 (en) * 2022-05-03 2023-12-19 Western Digital Technologies, Inc. Optical systems and methods for locating query symbols in a reference sequence
CN116137036B (zh) * 2023-04-19 2023-06-27 吉林省英华恒瑞生物科技有限公司 基于机器学习的基因检测数据智能处理系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005073407A1 (en) * 2003-10-07 2005-08-11 Ut-Battelle, Llc Advanced integrated circuit biochip
US20160133668A1 (en) * 2014-08-08 2016-05-12 Quantum-Si Incorporated Integrated device for temporal binning of received photons
TW201716440A (zh) * 2015-07-13 2017-05-16 H 朗德貝克公司 用於治療共核蛋白病的藥劑、用途及方法
US20170367640A1 (en) * 2014-10-21 2017-12-28 uBiome, Inc. Method and system for microbiome-derived diagnostics and therapeutics for conditions associated with microbiome taxonomic features

Family Cites Families (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU673245B2 (en) 1993-02-01 1996-10-31 Seq, Ltd. Methods and apparatus for DNA sequencing
US5814565A (en) 1995-02-23 1998-09-29 University Of Utah Research Foundation Integrated optic waveguide immunosensor
JP4566299B2 (ja) 1998-04-09 2010-10-20 シスメックス株式会社 赤芽球の分類計数方法
US6787308B2 (en) 1998-07-30 2004-09-07 Solexa Ltd. Arrayed biomolecules and their use in sequencing
AU5479599A (en) 1998-08-11 2000-03-06 Caliper Technologies Corporation Methods and systems for sequencing dna by distinguishing the decay times of fluorescent probes
DE19844931C1 (de) 1998-09-30 2000-06-15 Stefan Seeger Verfahren zur DNS- oder RNS-Sequenzierung
US7056661B2 (en) 1999-05-19 2006-06-06 Cornell Research Foundation, Inc. Method for sequencing nucleic acid molecules
WO2001084197A1 (en) 2000-04-28 2001-11-08 Edgelight Biosciences, Inc. Micro-array evanescent wave fluorescence detection device
US6917726B2 (en) 2001-09-27 2005-07-12 Cornell Research Foundation, Inc. Zero-mode clad waveguides for performing spectroscopy with confined effective observation volumes
FR2813121A1 (fr) 2000-08-21 2002-02-22 Claude Weisbuch Dispositif perfectionne de support d'elements chromophores
GB2382648B (en) 2001-12-11 2003-11-12 Amersham Pharm Biotech Uk Ltd System and method for time correlated multi-photon counting measurements
WO2005120204A2 (en) 2004-06-07 2005-12-22 The Regents Of The University Of California Method for single molecule fluorescence analysis
US7738086B2 (en) 2005-05-09 2010-06-15 The Trustees Of Columbia University In The City Of New York Active CMOS biosensor chip for fluorescent-based detection
US7426322B2 (en) 2005-07-20 2008-09-16 Searete Llc. Plasmon photocatalysis
US8975216B2 (en) 2006-03-30 2015-03-10 Pacific Biosciences Of California Articles having localized molecules disposed thereon and methods of producing same
US8207509B2 (en) 2006-09-01 2012-06-26 Pacific Biosciences Of California, Inc. Substrates, systems and methods for analyzing materials
WO2008028160A2 (en) 2006-09-01 2008-03-06 Pacific Biosciences Of California, Inc. Substrates, systems and methods for analyzing materials
FR2908888B1 (fr) 2006-11-21 2012-08-03 Centre Nat Rech Scient Dispositif pour la detection exaltee de l'emission d'une particule cible
EP2155855B1 (en) * 2007-06-06 2016-10-12 Pacific Biosciences of California, Inc. Methods and processes for calling bases in sequence by incorporation methods
EP3144672B1 (en) 2007-11-21 2018-08-22 Cosmosid Inc. Genome identification system
WO2009082706A1 (en) 2007-12-21 2009-07-02 The Trustees Of Columbia University In The City Of New York Active cmos sensor array for electrochemical biomolecular detection
US20110165652A1 (en) 2008-01-14 2011-07-07 Life Technologies Corporation Compositions, methods and systems for single molecule sequencing
DK3629011T3 (da) 2008-09-16 2024-01-29 Pacific Biosciences California Inc Integreret optisk indretning
CA2767521A1 (en) 2009-07-10 2011-01-13 Perkinelmer Health Sciences, Inc. Detecting multinucleotide repeats
US8278728B2 (en) 2009-10-17 2012-10-02 Florida Institute Of Technology Array of concentric CMOS photodiodes for detection and de-multiplexing of spatially modulated optical channels
CA2790393C (en) 2010-02-19 2019-03-12 Pacific Biosciences Of California, Inc. Integrated analytical system and method
US9670243B2 (en) 2010-06-02 2017-06-06 Industrial Technology Research Institute Compositions and methods for sequencing nucleic acids
US8865078B2 (en) 2010-06-11 2014-10-21 Industrial Technology Research Institute Apparatus for single-molecule detection
US20120015825A1 (en) * 2010-07-06 2012-01-19 Pacific Biosciences Of California, Inc. Analytical systems and methods with software mask
WO2012177792A2 (en) 2011-06-24 2012-12-27 Sequenom, Inc. Methods and processes for non-invasive assessment of a genetic variation
US9145623B2 (en) 2011-07-20 2015-09-29 Thermo Fisher Scientific Oy Transposon nucleic acids comprising a calibration sequence for DNA sequencing
JP5790242B2 (ja) 2011-07-25 2015-10-07 富士ゼロックス株式会社 故障予測装置及びプログラム
WO2013063382A2 (en) 2011-10-28 2013-05-02 Illumina, Inc. Microarray fabrication system and method
US9606060B2 (en) 2012-01-13 2017-03-28 California Institute Of Technology Filterless time-domain detection of one or more fluorophores
EP2831283A4 (en) 2012-03-30 2015-11-04 Pacific Biosciences California METHODS AND COMPOSITION FOR SEQUENCING MODIFIED NUCLEIC ACIDS
US9372308B1 (en) 2012-06-17 2016-06-21 Pacific Biosciences Of California, Inc. Arrays of integrated analytical devices and methods for production
CN104619894B (zh) 2012-06-18 2017-06-06 纽亘技术公司 用于非期望核酸序列的阴性选择的组合物和方法
EP4123294A1 (en) 2012-12-18 2023-01-25 Pacific Biosciences Of California, Inc. An optical analytical device
EP3000088A4 (en) 2013-05-23 2018-06-27 Iphenotype LLC Method and system for maintaining or improving wellness
EP3974814A1 (en) 2013-11-17 2022-03-30 Quantum-si Incorporated Integrated device with external light source for probing detecting and analyzing molecules
WO2015095066A1 (en) 2013-12-16 2015-06-25 Complete Genomics, Inc. Basecaller for dna sequencing using machine learning
US9765395B2 (en) 2014-04-28 2017-09-19 Nanomedical Diagnostics, Inc. System and method for DNA sequencing and blood chemistry analysis
WO2015173222A1 (en) 2014-05-12 2015-11-19 Roche Diagnostics Gmbh Rare variant calls in ultra-deep sequencing
CN106796175B (zh) 2014-08-08 2021-01-05 宽腾矽公司 用于探测、检测和分析分子的光学系统和检测芯片
US9885657B2 (en) 2014-08-08 2018-02-06 Quantum-Si Incorporated Integrated device with external light source for probing detecting and analyzing molecules
US9666748B2 (en) 2015-01-14 2017-05-30 International Business Machines Corporation Integrated on chip detector and zero waveguide module structure for use in DNA sequencing
US10487356B2 (en) 2015-03-16 2019-11-26 Pacific Biosciences Of California, Inc. Integrated devices and systems for free-space optical coupling
US10185803B2 (en) 2015-06-15 2019-01-22 Deep Genomics Incorporated Systems and methods for classifying, prioritizing and interpreting genetic variants and therapies using a deep neural network
MX2018014856A (es) 2016-06-01 2019-03-07 Quantum Si Inc Llamador de pulso y llamador de base.
US9922285B1 (en) 2017-07-13 2018-03-20 HumanCode, Inc. Predictive assignments that relate to genetic information and leverage machine learning models
US20220065785A1 (en) 2020-07-23 2022-03-03 Quantum-Si Incorporated System and method for detecting change points

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005073407A1 (en) * 2003-10-07 2005-08-11 Ut-Battelle, Llc Advanced integrated circuit biochip
US20160133668A1 (en) * 2014-08-08 2016-05-12 Quantum-Si Incorporated Integrated device for temporal binning of received photons
US20170367640A1 (en) * 2014-10-21 2017-12-28 uBiome, Inc. Method and system for microbiome-derived diagnostics and therapeutics for conditions associated with microbiome taxonomic features
TW201716440A (zh) * 2015-07-13 2017-05-16 H 朗德貝克公司 用於治療共核蛋白病的藥劑、用途及方法

Also Published As

Publication number Publication date
AU2019211435A1 (en) 2020-07-30
CN111971748A (zh) 2020-11-20
US20230207062A1 (en) 2023-06-29
EP3743918A1 (en) 2020-12-02
CA3088687A1 (en) 2019-08-01
US11538556B2 (en) 2022-12-27
WO2019147904A1 (en) 2019-08-01
MX2020007904A (es) 2020-09-07
BR112020014542A2 (pt) 2020-12-08
TW201935294A (zh) 2019-09-01
JP2021511829A (ja) 2021-05-13
KR20200115590A (ko) 2020-10-07
US20190237160A1 (en) 2019-08-01

Similar Documents

Publication Publication Date Title
TWI812671B (zh) 用於識別核酸之核苷酸之方法、系統及非暫時性電腦可讀儲存媒體以及用於訓練深度學習模型之方法及系統
US20200291467A1 (en) Pulse caller and base caller
JP6978519B2 (ja) ディープニューラルネットワークを使用したシーケンシング結果のクオリティの予測
US10023911B2 (en) Methods and processes for calling bases in sequence by incorporation methods
US8182993B2 (en) Methods and processes for calling bases in sequence by incorporation methods
BR112020026426A2 (pt) geração de metadados de sequenciamento baseada em inteligência artificial
EP3895171A1 (en) Deep basecaller for sanger sequencing
US20240013861A1 (en) Methods and systems for enhancing nucleic acid sequencing quality in high-throughput sequencing processes with machine learning
WO2023183937A1 (en) Sequence-to-sequence base calling
Swain et al. SpatialPrompt: spatially aware scalable and accurate tool for spot deconvolution and clustering in spatial transcriptomics