KR20210099099A - 생어 시퀀싱을 위한 딥 베이스콜러 - Google Patents
생어 시퀀싱을 위한 딥 베이스콜러 Download PDFInfo
- Publication number
- KR20210099099A KR20210099099A KR1020217021125A KR20217021125A KR20210099099A KR 20210099099 A KR20210099099 A KR 20210099099A KR 1020217021125 A KR1020217021125 A KR 1020217021125A KR 20217021125 A KR20217021125 A KR 20217021125A KR 20210099099 A KR20210099099 A KR 20210099099A
- Authority
- KR
- South Korea
- Prior art keywords
- scan
- network
- base call
- training
- loss
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/20—Sequence assembly
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biotechnology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Chemical & Material Sciences (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Bioethics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Public Health (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Organic Chemistry (AREA)
- Apparatus Associated With Microorganisms And Enzymes (AREA)
- Investigating, Analyzing Materials By Fluorescence Or Luminescence (AREA)
- Wood Science & Technology (AREA)
- Zoology (AREA)
- Immunology (AREA)
- Microbiology (AREA)
Abstract
Description
도 1은 일 실시예에 따른 CE 장치(100)를 도시하고 있다.
도 2는 일 실시예에 따른 CE 시스템(200)을 도시하고 있다.
도 3은 일 실시예에 따른 CE 프로세스(300)를 도시하고 있다.
도 4는 일 실시예에 따른 CE 프로세스(400)를 도시하고 있다.
도 5는 일 실시예에 따른 기본적인 심층 신경망(500)을 도시하고 있다.
도 6은 일 실시예에 따른 인공 뉴런(600)을 도시하고 있다.
도 7은 일 실시예에 따른 순환 신경망(700)을 도시하고 있다.
도 8은 일 실시예에 따른 양방향 순환 신경망(800)을 도시하고 있다.
도 9는 일 실시예에 따른 장단기 메모리(900)를 도시하고 있다.
도 10은 일 실시예에 따른 베이스콜러 시스템(1000)을 도시하고 있다.
도 11은 일 실시예에 따른 스캔 레이블 모델 훈련 방법(1100)을 도시하고 있다.
도 12는 일 실시예에 따른 QV 모델 훈련 방법(1200)을 도시하고 있다.
도 13은 본 발명의 실시예를 포함할 수 있는 컴퓨팅 장치(1300)의 예시적인 블록도이다.
Claims (23)
- 신경망 제어 시스템으로서,
생어 시퀀서(Sanger Sequencer)에 결합되고 생물학적 샘플에 대한 트레이스(trace)를 생성하는 트레이스 생성기;
상기 트레이스를 스캔 윈도우로 분할하기 위한 세그멘터(segmenter);
상기 스캔 윈도우를 시프팅시키기 위한 얼라이너(aligner);
훈련에 사용하기 위해 타겟의 주석이 달린(annotated) 베이스콜(basecall)을 생성하기 위해 상기 스캔 윈도우의 각각에 대한 연관된 주석이 달린 베이스콜을 결정하기 위한 로직(logic);
양방향 순환 신경망(BRNN)으로서, 상기 BRNN은,
적어도 하나의 장단기 메모리(LSTM) 또는 일반 순환 유닛(GRU) 레이어(layer);
스캔 윈도우에서 모든 스캔에 대한 스캔 레이블(label) 확률을 출력하도록 구성된 출력 레이어; 및
상기 출력 스캔 레이블 확률과 상기 타겟의 주석이 달린 베이스콜 사이의 손실을 계산하기 위한 CTC 손실 함수를 포함하는, 양방향 순환 신경망(BRNN); 및
상기 BRNN의 가중치를 업데이트하여 각 훈련 단계에서 상기 타겟의 주석이 달린 베이스콜로부터 무작위로 선택된 훈련 샘플의 미니배치(minibatch)에 대한 손실을 최소화하기 위해 상기 BRNN에 대해 폐쇄 루프 피드백 제어로 구성된 경사 하강법 옵티마이저(gradient descent optimizer)를 포함하는, 신경망 제어 시스템. - 제1항에 있어서,
250 스캔만큼 시프팅된 500 스캔을 포함하는 상기 스캔 윈도우의 각각을 더 포함하는, 시스템. - 제1항에 있어서,
상기 전체 트레이스에 대한 레이블 확률을 생성하기 위해 모든 스캔 윈도우에 대한 상기 레이블 확률을 조합하기 위한 집합자(aggregator)를 더 포함하는, 시스템. - 제3항에 있어서,
상기 CTC 손실 함수 및 상기 베이스콜의 출력에 기초하여 상기 베이스콜에 대한 스캔 위치를 식별하기 위한 데큐 맥스 파인더(dequeue max finder) 알고리즘을 더 포함하는, 시스템. - 제3항에 있어서,
상기 전체 트레이스에 대한 상기 레이블 확률을 상기 생물학적 샘플에 대한 베이스콜로 변환하기 위한 프리픽스 빔 탐색 디코더(prefix beam search decoder)를 더 포함하는, 시스템. - 제5항에 있어서, 상기 베이스콜은 상기 생물학적 샘플의 5' 및 3' 말단에 있는, 시스템.
- 제1항에 있어서, 상기 트레이스는 미가공 염료 RFU의 시퀀스인, 시스템.
- 제1항에 있어서, 상기 트레이스는 하나 이상의 모세관 전기영동 유전자 분석기로부터 수집된 미가공 스펙트럼 데이터인, 시스템.
- 제1항에 있어서,
상기 트레이스에 노이즈를 투입하도록 구성된 적어도 하나의 생성적 적대망(generative adversarial network)을 더 포함하는, 시스템. - 제1항에 있어서,
상기 트레이스에 스파이크를 투입하도록 구성된 적어도 하나의 생성적 적대망을 더 포함하는, 시스템. - 제1항에 있어서,
상기 트레이스에 염료 블롭 아티팩트(dye blob artifact)를 투입하도록 구성된 적어도 하나의 생성적 적대망을 더 포함하는, 시스템. - 프로세스 제어 방법으로서,
생어 시퀀서를 작동하여 생물학적 샘플에 대한 트레이스를 생성하는 단계;
상기 트레이스를 스캔 윈도우로 분할하는 단계;
상기 스캔 윈도우를 시프팅하는 단계;
타겟의 주석이 달린 베이스콜을 생성하기 위해 상기 스캔 윈도우의 각각에 대한 연관된 주석이 달린 베이스콜을 결정하는 단계;
양방향 순환 신경망(BRNN)에 상기 스캔 윈도우를 입력하는 단계로서, 상기 BRNN은,
적어도 하나의 장단기 메모리(LSTM) 또는 일반 순환 유닛(GRU) 레이어;
스캔 윈도우에서 모든 스캔에 대한 스캔 레이블 확률을 출력하도록 구성된 출력 레이어; 및
상기 출력 스캔 레이블 확률과 상기 타겟의 주석이 달린 베이스콜 사이의 손실을 계산하기 위한 CTC 손실 함수를 포함하는, 양방향 순환 신경망(BRNN)에 상기 스캔 윈도우를 입력하는 단계; 및
상기 BRNN의 가중치를 업데이트하여 각 훈련 단계에서 상기 타겟의 주석이 달린 베이스콜로부터 무작위로 선택된 훈련 샘플의 미니배치에 대한 손실을 최소화하기 위해 상기 손실을 폐쇄 루프 피드백 제어로 구성된 경사 하강법 옵티마이저를 통해 상기 BRNN에 적용하는 단계를 포함하는, 프로세스 제어 방법. - 제12항에 있어서,
250 스캔만큼 시프팅된 500 스캔을 포함하는 상기 스캔 윈도우의 각각을 더 포함하는, 방법. - 제12항에 있어서,
상기 전체 트레이스에 대한 레이블 확률을 생성하기 위해 모든 스캔 윈도우에 대한 상기 레이블 확률을 조합하는 단계를 더 포함하는, 방법. - 제14항에 있어서,
상기 CTC 손실 함수 및 상기 베이스콜의 출력에 기초하여 상기 베이스콜에 대한 스캔 위치를 식별하는 단계를 더 포함하는, 방법. - 제14항에 있어서,
상기 전체 트레이스에 대한 상기 레이블 확률을 상기 생물학적 샘플에 대한 베이스콜로 디코딩하는 단계를 더 포함하는, 방법. - 제16항에 있어서, 상기 베이스콜은 상기 생물학적 샘플의 16' 및 3' 말단에 있는, 방법.
- 제12항에 있어서, 상기 트레이스는 미가공 염료 RFU의 시퀀스 또는 하나 이상의 모세관 전기영동 유전자 분석기로부터 수집된 미가공 스펙트럼 데이터 중 하나인, 방법.
- 제12항에 있어서,
상기 트레이스에 하나 이상의 노이즈, 스파이크, 또는 염료 블롭 아티팩트를 투입하도록 구성된 적어도 하나의 생성적 적대망을 더 포함하는, 방법. - 시퀀싱 샘플을 베이스콜링하기 위해 네트워크를 훈련하는 방법으로서,
복수의 시퀀싱 샘플에서의 각 샘플에 대해, 전처리된 상대 형광 유닛(RFU)의 시퀀스를 복수의 스캔 윈도우로 분할하는 단계로서, 제1 소정 수의 스캔은 제2 소정 수의 스캔만큼 시프팅되는, 단계;
상기 복수의 스캔 윈도우의 각 스캔 윈도우에 대해 주석이 달린 베이스콜을 결정하는 단계;
복수의 훈련 샘플을 구성하는 단계로서, 상기 복수의 훈련 샘플에서의 각 훈련 샘플은 상기 제1 소정 수의 스캔 및 상기 각각의 주석이 달린 베이스콜을 갖는 상기 스캔 윈도우를 포함하는, 단계;
복수의 반복(iteration)의 각각에 대해,
i) 상기 복수의 훈련 샘플의 서브세트를 무작위로 선택하는 단계,
ii) 상기 복수의 훈련 샘플의 선택된 서브세트를 신경망이 수신하는 단계로서, 상기 신경망은,
복수의 장단기 메모리(LSTM) 유닛 또는 게이트형 순환 유닛(GRU)의 하나 이상의 은닉 레이어(hidden layer),
출력 레이어, 및
복수의 네트워크 요소를 포함하고, 각 네트워크 요소는 하나 이상의 가중치와 연관되는, 상기 복수의 훈련 샘플의 선택된 서브세트를 신경망이 수신하는 단계,
iii) 상기 출력 레이어가 상기 복수의 훈련 샘플의 선택된 서브세트에서 상기 훈련 샘플의 모든 스캔에 대한 레이블 확률을 출력하는 단계,
iv) 상기 출력 레이블 확률과 상기 각각의 주석이 달린 베이스콜 사이의 손실을 계산하는 단계,
v) 상기 복수의 훈련 샘플의 선택된 서브세트에 대한 상기 손실을 최소화하기 위해 네트워크 옵티마이저(network optimizer)를 사용하여 상기 복수의 네트워크 요소의 가중치를 업데이트하는 단계,
vi) 훈련된 네트워크를 복수의 훈련된 네트워크에 저장하는 단계,
vii) 상기 훈련된 네트워크를 검증 데이터 세트로 평가하는 단계; 및
viii) 소정 수의 훈련 단계에 도달하거나 검증 손실 또는 오류율이 더 이상 개선될 수 없을 때까지 단계 i)로 복귀하는 단계;
상기 훈련 샘플의 선택된 서브세트에 포함되지 않은 복수의 샘플의 독립적인 서브세트를 사용하여, 상기 복수의 훈련된 네트워크에 대한 평가 손실 또는 오류율을 계산하는 단계; 및
상기 복수의 훈련된 네트워크로부터 최상의 훈련된 네트워크를 선택하는 단계를 포함하고, 상기 최상의 훈련된 네트워크는 최소 평가 손실 또는 오류율을 갖는, 시퀀싱 샘플을 베이스콜링하기 위해 네트워크를 훈련하는 방법. - 제20항에 있어서,
시퀀싱 샘플을 수신하는 단계;
상기 시퀀싱 샘플의 전체 트레이스를 제2 복수의 스캔 윈도우로 분할하는 단계로서, 상기 제1 소정 수의 스캔은 상기 제2 소정 수의 스캔만큼 시프팅되는, 단계;
상기 선택된 훈련된 네트워크에 상기 제2 복수의 스캔 윈도우를 제공함으로써, 상기 제2 복수의 스캔 윈도우에 대한 스캔 레이블 확률을 출력하는 단계;
상기 시퀀싱 샘플의 전체 트레이스에 대한 레이블 확률을 생성하기 위해 상기 제2 복수의 스캔 윈도우에 대한 상기 스캔 레이블 확률을 조합하는 단계;
상기 조합된 스캔 레이블 확률에 기초하여 상기 시퀀싱 샘플에 대한 베이스콜을 결정하는 단계;
상기 스캔 레이블 확률 및 상기 베이스콜에 기초하여 상기 결정된 베이스콜 모두에 대한 스캔 위치를 결정하는 단계; 및
상기 결정된 베이스콜 및 상기 결정된 스캔 위치를 출력하는 단계를 더 포함하는, 방법. - 일련의 시퀀싱 베이스콜의 품질 평가를 위한 방법으로서,
복수의 샘플에 대한 스캔 레이블 확률, 베이스콜, 및 스캔 위치를 수신하는 단계;
상기 복수의 샘플에서 각 샘플에 대한 각 베이스콜의 중앙 스캔 위치 주변의 상기 스캔 레이블 확률을 사용하여 상기 복수의 샘플에 기초하여 복수의 훈련 샘플을 생성하는 단계;
상기 복수의 훈련 샘플 중 각 샘플의 각 베이스콜에 범주(category)를 할당하는 단계로서, 상기 범주는 정확 또는 부정확 중 하나에 대응하는, 단계;
복수의 반복의 각각에 대해,
i) 상기 복수의 훈련 샘플의 서브세트를 무작위로 선택하는 단계,
ii) 상기 복수의 훈련 샘플의 선택된 서브세트를 신경망이 수신하는 단계로서, 상기 신경망은,
하나 이상의 은닉 레이어,
출력 레이어, 및
복수의 네트워크 요소를 포함하고, 각 네트워크 요소는 가중치와 연관되는, 상기 복수의 훈련 샘플의 선택된 서브세트를 신경망이 수신하는 단계,
iii) 상기 출력 레이어가 가설 함수를 사용해서 상기 스캔 레이블 확률에 기초하여 예측된 오류 확률을 출력하는 단계;
iv) 상기 예측된 오류 확률과 상기 복수의 훈련 샘플의 서브세트의 각 샘플의 각 베이스콜에 대한 상기 할당된 범주 사이의 손실을 계산하는 단계;
v) 상기 복수의 훈련 샘플의 선택된 서브세트에 대한 상기 손실을 최소화하기 위해 네트워크 옵티마이저를 사용하여 상기 복수의 네트워크 요소의 가중치를 업데이트하는 단계;
vi) 상기 신경망을 복수의 훈련된 네트워크에 훈련된 네트워크로서 저장하는 단계; 및
vii) 소정 수의 훈련 단계에 도달하거나 검증 손실 또는 오류가 더 이상 개선될 수 없을 때까지 단계 i)로 복귀하는 단계;
상기 훈련 샘플의 선택된 서브세트에 포함되지 않은 복수의 샘플의 독립적인 서브세트를 사용하여, 상기 복수의 훈련된 네트워크에 각 훈련된 네트워크에 대한 평가 손실 또는 오류율을 계산하는 단계; 및
상기 복수의 훈련된 네트워크로부터 최상의 훈련된 네트워크를 선택하는 단계를 포함하고, 상기 최상의 훈련된 네트워크는 최소 평가 손실 또는 오류율을 갖는, 일련의 시퀀싱 베이스콜의 품질 평가를 위한 방법. - 제22항에 있어서,
입력 샘플의 베이스콜 위치 주변의 스캔 레이블 확률을 수신하는 단계;
상기 입력 샘플의 베이스콜 위치 주변의 스캔 레이블 확률을 상기 선택된 훈련된 네트워크에 제공함으로써 상기 입력 샘플에 대한 오류 확률을 출력하는 단계;
상기 출력된 오류 확률에 기초하여 복수의 품질 스코어를 결정하는 단계; 및
상기 복수의 품질 스코어를 출력하는 단계를 더 포함하는, 방법.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201862777429P | 2018-12-10 | 2018-12-10 | |
US62/777,429 | 2018-12-10 | ||
PCT/US2019/065540 WO2020123552A1 (en) | 2018-12-10 | 2019-12-10 | Deep basecaller for sanger sequencing |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20210099099A true KR20210099099A (ko) | 2021-08-11 |
KR102781611B1 KR102781611B1 (ko) | 2025-03-18 |
Family
ID=69138015
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020217021125A Active KR102781611B1 (ko) | 2018-12-10 | 2019-12-10 | 생어 시퀀싱을 위한 딥 베이스콜러 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20220013193A1 (ko) |
EP (1) | EP3895171A1 (ko) |
JP (1) | JP7230208B2 (ko) |
KR (1) | KR102781611B1 (ko) |
CN (1) | CN113168890B (ko) |
WO (1) | WO2020123552A1 (ko) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11676685B2 (en) | 2019-03-21 | 2023-06-13 | Illumina, Inc. | Artificial intelligence-based quality scoring |
US11210554B2 (en) | 2019-03-21 | 2021-12-28 | Illumina, Inc. | Artificial intelligence-based generation of sequencing metadata |
US11423306B2 (en) | 2019-05-16 | 2022-08-23 | Illumina, Inc. | Systems and devices for characterization and performance analysis of pixel-based sequencing |
US11593649B2 (en) | 2019-05-16 | 2023-02-28 | Illumina, Inc. | Base calling using convolutions |
IL295560A (en) | 2020-02-20 | 2022-10-01 | Illumina Inc | Artificial intelligence-based many-to-many base calling |
US11664090B2 (en) | 2020-06-11 | 2023-05-30 | Life Technologies Corporation | Basecaller with dilated convolutional neural network |
CN112001482B (zh) * | 2020-08-14 | 2024-05-24 | 佳都科技集团股份有限公司 | 振动预测及模型训练方法、装置、计算机设备和存储介质 |
CN112348789B (zh) * | 2020-11-03 | 2021-06-15 | 哈尔滨市科佳通用机电股份有限公司 | 一种列车锁扣丢失故障检测方法、系统及装置 |
US12217829B2 (en) | 2021-04-15 | 2025-02-04 | Illumina, Inc. | Artificial intelligence-based analysis of protein three-dimensional (3D) structures |
CN113435577B (zh) * | 2021-06-25 | 2023-12-26 | 安徽知陉智能科技有限公司 | 基于训练深度脉冲神经网络的梯度函数学习框架替换方法 |
CN113837036B (zh) * | 2021-09-09 | 2024-08-02 | 成都齐碳科技有限公司 | 生物聚合物的表征方法、装置、设备及计算机存储介质 |
CN113960090A (zh) * | 2021-10-15 | 2022-01-21 | 电子科技大学长三角研究院(湖州) | 基于LSTM神经网络算法的土壤Cd元素光谱定性分析方法 |
CN113821985B (zh) * | 2021-11-22 | 2022-02-22 | 中移(上海)信息通信科技有限公司 | 一种交通状态预测方法、装置及电子设备 |
CN114387645B (zh) * | 2021-12-29 | 2025-02-18 | 桂林远望智能通信科技有限公司 | 一种情绪识别方法、装置以及存储介质 |
CN115249479B (zh) * | 2022-01-24 | 2025-04-15 | 广州柯科医疗科技有限公司 | 基于brnn的电网调度复杂语音识别方法、系统及终端 |
WO2024124455A1 (zh) * | 2022-12-14 | 2024-06-20 | 深圳市华大智造软件技术有限公司 | 碱基分类模型的训练方法及系统、碱基分类方法及系统 |
CN115831219B (zh) * | 2022-12-22 | 2024-05-28 | 郑州思昆生物工程有限公司 | 一种质量预测方法、装置、设备及存储介质 |
CN117726621B (zh) * | 2024-02-05 | 2024-06-25 | 深圳赛陆医疗科技有限公司 | 基于深度学习的基因测序碱基质量评估方法、产品、设备及介质 |
CN118075873B (zh) * | 2024-04-19 | 2024-06-21 | 浙江口碑网络技术有限公司 | 基于无线网络数据的定位方法、数据处理方法 |
CN119398466B (zh) * | 2025-01-03 | 2025-04-04 | 北京珂阳科技有限公司 | 基于深度强化学习的半导体制造设备分组工作方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004527728A (ja) * | 2000-08-14 | 2004-09-09 | インサイト・ゲノミックス・インコーポレイテッド | ベースコーリング装置及びプロトコル |
WO2019147904A1 (en) * | 2018-01-26 | 2019-08-01 | Quantum-Si Incorporated | Machine learning enabled pulse and base calling for sequencing devices |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5916747A (en) * | 1995-06-30 | 1999-06-29 | Visible Genetics Inc. | Method and apparatus for alignment of signals for use in DNA based-calling |
JP5408380B1 (ja) * | 2013-06-17 | 2014-02-05 | 富士ゼロックス株式会社 | 情報処理プログラム及び情報処理装置 |
CN105980578B (zh) * | 2013-12-16 | 2020-02-14 | 深圳华大智造科技有限公司 | 用于使用机器学习进行dna测序的碱基判定器 |
US10373610B2 (en) * | 2017-02-24 | 2019-08-06 | Baidu Usa Llc | Systems and methods for automatic unit selection and target decomposition for sequence labelling |
CN108364028A (zh) * | 2018-03-06 | 2018-08-03 | 中国科学院信息工程研究所 | 一种基于深度学习的互联网网站自动分类方法 |
-
2019
- 2019-12-10 CN CN201980082101.9A patent/CN113168890B/zh active Active
- 2019-12-10 WO PCT/US2019/065540 patent/WO2020123552A1/en unknown
- 2019-12-10 US US17/312,168 patent/US20220013193A1/en active Pending
- 2019-12-10 EP EP19832518.5A patent/EP3895171A1/en active Pending
- 2019-12-10 JP JP2021533298A patent/JP7230208B2/ja active Active
- 2019-12-10 KR KR1020217021125A patent/KR102781611B1/ko active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004527728A (ja) * | 2000-08-14 | 2004-09-09 | インサイト・ゲノミックス・インコーポレイテッド | ベースコーリング装置及びプロトコル |
WO2019147904A1 (en) * | 2018-01-26 | 2019-08-01 | Quantum-Si Incorporated | Machine learning enabled pulse and base calling for sequencing devices |
Non-Patent Citations (2)
Title |
---|
H. Teng 외, "Chiron: translating nanopore raw signal directly into nucleotide sequence using deep learning", GigaScience, 7(5):giy037 (2018.04.10.)* * |
O. G. Mohammed 외, "Novel algorithms for accurate DNA base-calling", Journal of Biomedical Science and Engineering, 6(2):165-174 (2013.02.)* * |
Also Published As
Publication number | Publication date |
---|---|
US20220013193A1 (en) | 2022-01-13 |
KR102781611B1 (ko) | 2025-03-18 |
WO2020123552A1 (en) | 2020-06-18 |
CN113168890A (zh) | 2021-07-23 |
EP3895171A1 (en) | 2021-10-20 |
JP7230208B2 (ja) | 2023-02-28 |
CN113168890B (zh) | 2024-05-24 |
JP2022512221A (ja) | 2022-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102781611B1 (ko) | 생어 시퀀싱을 위한 딥 베이스콜러 | |
US11664090B2 (en) | Basecaller with dilated convolutional neural network | |
Alachiotis et al. | RAiSD detects positive selection based on multiple signatures of a selective sweep and SNP vectors | |
Aviran et al. | Modeling and automation of sequencing-based characterization of RNA structure | |
US8392126B2 (en) | Method and system for determining the accuracy of DNA base identifications | |
US20250061973A1 (en) | Methods for flow space quality score prediction by neural networks | |
US20190204296A1 (en) | Nanopore sequencing base calling | |
US11887699B2 (en) | Methods for compression of molecular tagged nucleic acid sequence data | |
CN111328419A (zh) | 基于深度学习的深度卷积神经网络预训练技术 | |
KR20160107237A (ko) | 판독물 맵핑에서 알려진 대립 유전자의 사용을 위한 시스템 및 방법 | |
Evans et al. | Estimating change-points in biological sequences via the cross-entropy method | |
US20200105375A1 (en) | Models for targeted sequencing of rna | |
Shen et al. | ParticleCall: A particle filter for base calling in next-generation sequencing systems | |
Wang et al. | WaveNano: a signal‐level nanopore base‐caller via simultaneous prediction of nucleotide labels and move labels through bi‐directional WaveNets | |
Chi Duong et al. | A rapid and reference-free imputation method for low-cost genotyping platforms | |
Kao et al. | naiveBayesCall: An efficient model-based base-calling algorithm for high-throughput sequencing | |
US20190318803A1 (en) | Reduction of surface nucleotide hybridization by optimizing a biosensor sensing surface area | |
Zhu et al. | Coral: a dual context-aware basecaller for nanopore direct RNA sequencing | |
Boža et al. | Precise Nanopore Signal Modeling Improves Unsupervised Single-Molecule Methylation Detection | |
KR20240072970A (ko) | 대치된 하플로타입을 사용한 그래프 참조 게놈 및 염기 결정 접근법 | |
CN117831630A (zh) | 为碱基识别模型构建训练数据集的方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0105 | International application |
Patent event date: 20210706 Patent event code: PA01051R01D Comment text: International Patent Application |
|
PA0201 | Request for examination | ||
PG1501 | Laying open of application | ||
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20240220 Patent event code: PE09021S01D |
|
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20241215 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20250311 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20250312 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration |