WO2024000312A1 - 碱基识别方法及系统、基因测序仪及存储介质 - Google Patents
碱基识别方法及系统、基因测序仪及存储介质 Download PDFInfo
- Publication number
- WO2024000312A1 WO2024000312A1 PCT/CN2022/102503 CN2022102503W WO2024000312A1 WO 2024000312 A1 WO2024000312 A1 WO 2024000312A1 CN 2022102503 W CN2022102503 W CN 2022102503W WO 2024000312 A1 WO2024000312 A1 WO 2024000312A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- base
- image
- brightness value
- groups
- angle
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 31
- 238000000018 DNA microarray Methods 0.000 claims abstract description 14
- 238000010606 normalization Methods 0.000 claims abstract description 8
- 238000004590 computer program Methods 0.000 claims description 13
- 238000007621 cluster analysis Methods 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 2
- 238000012163 sequencing technique Methods 0.000 abstract description 7
- 102000053602 DNA Human genes 0.000 description 6
- 108020004414 DNA Proteins 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000005284 excitation Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 108091008053 gene clusters Proteins 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical compound O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000011807 nanoball Substances 0.000 description 2
- RWQNBRDOKXIBIV-UHFFFAOYSA-N thymine Chemical compound CC1=CNC(=O)NC1=O RWQNBRDOKXIBIV-UHFFFAOYSA-N 0.000 description 2
- 229930024421 Adenine Natural products 0.000 description 1
- GFFGJBXGBJISGV-UHFFFAOYSA-N Adenine Chemical compound NC1=NC=NC2=C1N=CN2 GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 229960000643 adenine Drugs 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 229940104302 cytosine Drugs 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000003628 erosive effect Effects 0.000 description 1
- 238000005530 etching Methods 0.000 description 1
- 239000007850 fluorescent dye Substances 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 229940113082 thymine Drugs 0.000 description 1
Images
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/62—Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light
- G01N21/63—Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light optically excited
- G01N21/64—Fluorescence; Phosphorescence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Organic Chemistry (AREA)
- Physics & Mathematics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- General Physics & Mathematics (AREA)
- Wood Science & Technology (AREA)
- Analytical Chemistry (AREA)
- Biochemistry (AREA)
- General Health & Medical Sciences (AREA)
- Immunology (AREA)
- Zoology (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Biophysics (AREA)
- Biotechnology (AREA)
- Microbiology (AREA)
- Molecular Biology (AREA)
- Pathology (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- Genetics & Genomics (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
一种碱基识别方法及系统、基因测序仪及存储介质。碱基识别方法包括以下步骤:获取生物芯片在红光通道的第一图像和在绿光通道的第二图像(S1);根据第一图像和第二图像进行碱基分团,并初步识别每个团的碱基类别(S2);在所有团的碱基类别为至少两个的情况下,根据所有团的碱基类别对第一图像的亮度值和第二图像的亮度值进行调整(S3);分别对第一图像和第二图像进行归一化处理(S4);根据归一化后的第一图像和第二图像进行碱基分团,并再次识别每个团的碱基类别(S5)。碱基识别方法针对部分碱基类别缺失的待测序数据,能够准确地识别碱基类别,进而可以提高基因测序的准确性。
Description
本发明涉及基因测序领域,特别涉及一种碱基识别方法及系统、基因测序仪及存储介质。
基因测序是指分析特定DNA(脱氧核糖核酸)片段的碱基序列,即腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)以及鸟嘌呤(G)的排列方式。在一般的测序要求中,提供的数据都为A、T、C、G四类碱基平衡的数据,即四类碱基占比大致都为整体的25%。但是在有的测序要求中,待测序数据的碱基并不平衡,例如某一类或某几类的碱基缺失。
现有的碱基识别方法通常针对的是碱基平衡的数据,无法对碱基不平衡的待测序数据进行准确地识别,从而导致基因测序失败。
发明内容
本发明要解决的技术问题是为了克服现有碱基识别方法无法对碱基不平衡的待测序数据进行准确识别的缺陷,提供一种能够对碱基类别缺失的待测序数据进行准确识别的碱基识别方法及系统、基因测序仪及存储介质。
本发明的第一方面提供一种碱基识别方法,包括以下步骤:
获取生物芯片在红光通道的第一图像和在绿光通道的第二图像;
根据所述第一图像和所述第二图像进行碱基分团,并初步识别每个团的碱基类别;
根据所有团的碱基类别对所述第一图像的亮度值和所述第二图像的亮度值进行调整;
根据所述第一图像的最大亮度值和最小亮度值对所述第一图像进行归一化处理,以及根据所述第二图像的最大亮度值和最小亮度值对所述第二图像进行归一化处理;
根据归一化后的第一图像和第二图像进行碱基分团,并再次识别每个团的碱基类别。
可选地,所述根据所述第一图像和所述第二图像进行碱基分团,并初步识别每个团的碱基类别的步骤具体包括:
根据所述第一图像和所述第二图像计算二维直方图;其中,所述二维直方图的坐标轴分别对应所述第一图像的亮度值和所述第二图像的亮度值;
确定所述二维直方图中的独立区域,得到碱基分团结果;其中,每个独立区域对应一个团;
根据每个团的中心位置确定每个团的半径和角度;
根据每个团的半径和角度初步识别每个团的碱基类别。
可选地,所述根据所有团的碱基类别对所述第一图像的亮度值和所述第二图像的亮度值进行调整的步骤具体包括:
在所有团的碱基类别为至少两个的情况下,若缺少第一碱基,则对所述第一图像的最小亮度值和所述第二图像的最小亮度值进行限制处理;其中,所述第一碱基对应的团的半径小于预设值;和/或,
在所有团的碱基类别为至少两个的情况下,若缺少第二碱基,则根据所述第二图像的最大亮度值确定所述第一图像的最大亮度值;其中,所述第二碱基对应的团的半径大于等于所述预设值,且所述团的角度小于等于第一角度阈值;和/或,
在所有团的碱基类别为至少两个的情况下,若缺少第三碱基,则根据所述第一图像的最大亮度值确定所述第二图像的最大亮度值;其中,所述第三碱基对应的团的半径大于等于所述预设值,且所述团的角度大于等于第二角度阈值。
可选地,所述根据归一化后的第一图像和第二图像进行碱基分团,并再次识别每个团的碱基类别的步骤具体包括:
判断所有团的碱基类别中是否包括第一碱基;其中,所述第一碱基对应的团的半径小于预设值;
若是,则计算所述二维直方图中每个点的半径,并将半径小于预设值的点确定为属于所述第一碱基对应的团;识别其它团的碱基类别;
若否,则直接识别其它团的碱基类别。
可选地,根据以下步骤确定所述预设值:
根据所述二维直方图中每个点的半径计算半径直方图;
确定所述半径直方图中的局部极大值和局部极小值;
在所有局部极大值中确定两个最大的局部极大值;
在所述两个最大的局部极大值之间,查找最小的局部极小值;
将所述最小的局部极小值确定为所述预设值。
可选地,若初步识别的所有团的碱基类别包括第二碱基、第三碱基和第四碱基中的至少两个,则所述识别其它团的碱基类别的步骤具体包括:
计算属于其它团中每个点的角度;
根据所述其它团中每个点的角度计算角度直方图;
根据所述角度直方图识别其它团的碱基类别;
其中,所述第二碱基对应的团的半径大于等于预设值,且所述团的角度小于等于第一角度阈值,所述第三碱基对应的团的半径大于等于所述预设值,且所述团的角度大于等于第二角度阈值,所述第四碱基对应的团的半径大于等于所述预设值,且所述团的角度大于所述第一角度阈值且小于所述第二角度阈值。
可选地,所述计算属于其它团中每个点的角度的步骤具体包括:
若所有团的碱基类别中包括第一碱基,则根据所述第一碱基对应的团的中心位置计算其它团中每个点的角度;其中,所述第一碱基对应的团的半径 小于预设值。
可选地,所述根据所述角度直方图识别其它团的碱基类别的步骤具体包括:
确定所述角度直方图中谷值的位置;
根据所述角度直方图中每个点与所述谷值的位置关系识别其它团的碱基类别。
可选地,所述根据归一化后的第一图像和第二图像进行碱基分团,并再次识别每个团的碱基类别的步骤之后还包括:
根据再次识别的每个团的碱基类别对每个团进行聚类分析,以得到每个团的最终碱基类别。
本发明的第二方面提供一种碱基识别系统,包括:
图像获取模块,用于获取生物芯片在红光通道的第一图像和在绿光通道的第二图像;
初步识别模块,用于根据所述第一图像和所述第二图像进行碱基分团,并初步识别每个团的碱基类别;
图像处理模块,用于根据所有团的碱基类别对所述第一图像的亮度值和所述第二图像的亮度值进行调整;
归一化模块,用于根据所述第一图像的最大亮度值和最小亮度值对所述第一图像进行归一化处理,以及根据所述第二图像的最大亮度值和最小亮度值对所述第二图像进行归一化处理;
二次识别模块,用于根据归一化后的第一图像和第二图像进行碱基分团,并再次识别每个团的碱基类别。
本发明的第三方面提供一种基因测序仪,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现第一方面所述的碱基识别方法。
本发明的第四方面提供一种计算机可读存储介质,其上存储有计算机程 序,所述计算机程序被处理器执行时实现如第一方面所述的碱基识别方法。
本发明的积极进步效果在于:根据生物芯片在红光通道的第一图像和在绿光通道的第二图像对碱基类别进行初步识别,根据所有团的碱基类别对所述第一图像的亮度值和所述第二图像的亮度值进行调整,并根据第一图像的最大亮度值和最小亮度值对所述第一图像进行归一化处理,以及根据第二图像的最大亮度值和最小亮度值对所述第二图像进行归一化处理,根据归一化后的第一图像和第二图像进行碱基类别的二次识别。
针对部分碱基类别缺失的待测序数据,利用本发明提供的碱基识别方法能够准确地识别碱基类别,进而可以提高基因测序的准确性。另外,针对部分碱基类别缺失的情况,仍然可以对第一图像和第二图像进行归一化处理,不会影响后续Q值即品质因子的计算。
图1为本发明实施例1提供的一种碱基识别方法的流程图。
图2为本发明实施例1提供的步骤S2的一种详细流程图。
图3为本发明实施例1提供的一种二维直方图。
图4为本发明实施例1提供的一种经过腐蚀操作之后的二维直方图。
图5为本发明实施例1提供的一种编码示意图。
图6为本发明实施例1提供的步骤S5的一种详细流程图。
图7为本发明实施例1提供的一种半径直方图。
图8为本发明实施例1提供的一种第一碱基的识别效果图。
图9为本发明实施例1提供的一种碱基类别的最终识别效果图。
图10为本发明实施例1提供的一种碱基识别系统的结构框图。
图11为本发明实施例2提供的一种基因测序仪的结构示意图。
下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。
实施例1
图1为本实施例提供的一种碱基识别方法的流程示意图,该碱基识别方法可以由碱基识别系统执行,该碱基识别系统可以通过软件和/或硬件的方式实现,该碱基识别系统可以为基因测序仪的部分或全部。
下面以基因测序仪为执行主体介绍本实施例提供的碱基识别方法。如图1所示,本实施例提供的碱基识别方法可以包括以下步骤S1~S5:
步骤S1、获取生物芯片在红光通道的第一图像和在绿光通道的第二图像。
在具体实施中,基因测序仪具有红波长和绿波长的两根激光管,分别用于发出红色激发光和绿色激发光,用于激发DNA分子中的A、T、C和G四种碱基。生物芯片在红光通道形成第一图像,在绿光通道形成第二图像。在激发光激发碱基的过程中,这四种碱基通过携带不同的荧光染料可以实现发光或者不发光。在一个具体的例子中,T碱基只出现在第二图像上,C碱基只出现在第一图像上,A碱基同时出现在第一图像和第二图像上,第一图像和第二图像上都没有出现G碱基。在另一个具体的例子中,C碱基只出现在第二图像上,T碱基只出现在第一图像上,G碱基同时出现在第一图像和第二图像上,第一图像和第二图像上都没有出现A碱基。
需要说明的是,上述出现在图像上是和未出现在图像上是相对的,具体可以通过灰度值来确定。例如通过T碱基对应的第一图像的灰度值为0,以及对应的第二图像的灰度值为255,可以确定T碱基出现在第二图像上,未出现在第一图像上。又例如通过T碱基对应的第一图像的灰度值为2,以及对应的第二图像的灰度值为254,也可以确定T碱基出现在第二图像上,为出现在第一图像上。
其中,上述生物芯片也可以称为基因芯片或者DNA芯片。
步骤S2、根据所述第一图像和所述第二图像进行碱基分团,并初步识别每个团的碱基类别。
在可选的一种实施方式中,如图2所示,上述步骤S2具体包括以下步骤S21~S24:
步骤S21、根据所述第一图像和所述第二图像计算二维直方图。
其中,所述二维直方图的坐标轴分别对应所述第一图像的亮度值和所述第二图像的亮度值。在具体实施中,所述二维直方图的横纵分段段数可以为DNB点数开方。其中,DNB(DNA Nanoballs)为DNA纳米球分子,生物芯片上有规则排列的位点(例如纳米孔),位点可以在生物芯片上呈矩形排列,一个位点可以放置或吸附一个基因簇(例如,一个DNB或多个相同序列的DNA链)。位点中以基因簇为模板,每次生化循环新增多个相同碱基,可以通过不同光照组合生成的图像(例如第一图像、第二图像)判断该位点的碱基类型。
在如图3所示的二维直方图中,横坐标轴对应所述第一图像的亮度值,纵坐标轴对应所述第二图像的亮度值。
在具体实施中,为了提高初步识别碱基类别的准确性,可以对上述二维直方图进行去噪处理。具体地,对上述二维直方图按照从大到小的顺序进行排序,找到总DNB数的P分位点处的密度值,将二维直方图中小于所述密度值的位置均设为0,从而去除二维直方图中的离散点。其中,P分位点可以根据实际情况进行调整,例如可以取P70~P90。在一个具体的例子中,总DNB数为100,P分位点取P70,P70处的灰度值为10,那么将二维直方图中小于10的位置均设为0,从而得到经过去噪处理的二维直方图。
在具体实施中,为了进一步提高初步识别碱基类别的准确性,还可以对经过去噪处理的二维直方图进行腐蚀操作。具体地,将上述二维直方图中不为零的点均设为1,得到mask即模板,对mask进行点的腐蚀操作,可以得到如图4所示的结果。
步骤S22、确定所述二维直方图中的独立区域,得到碱基分团结果。其中,每个独立区域对应一个团。
在具体实施中,可以根据二维直方图的波谷确定独立区域。在一些例子中,独立区域也可以称为团。
步骤S23、根据每个团的中心位置确定每个团的半径和角度。
在具体实施中,可以根据二维直方图中某个团所有点横坐标的平均值和所有点纵坐标的平均值确定该团的中心位置。其中,为了提高计算的准确性,可以对该团进行八连通标定之后再计算该团的中心位置。进一步地,将二维直方图的坐标转换为极坐标,可以得到该团的半径和角度。
步骤S24、根据每个团的半径和角度初步识别每个团的碱基类别。
在具体实施中,若某个团的半径小于预设值,则可以识别该团的碱基类别为第一碱基。若某个团的半径大于等于所述预设值,且角度小于等于第一角度阈值,则可以识别该团的碱基类别为第二碱基。若某个团的半径大于等于所述预设值,且角度大于等于第二角度阈值,则可以识别该团的碱基类别为第三碱基。若某个团的半径大于等于所述预设值,以及角度大于第一角度阈值且小于第二角度阈值,则可以识别该团的碱基类别为第四碱基。
在步骤S2可选的其它实施方式中,还可以采用DBScan(Density-Based Spatial Clustering of Application with Noise)方法进行碱基分团。其中,DBScan是一种基于高密度连接区域的密度聚类方法。
在可选的一种实施方式中,上述步骤S2之后还包括:对碱基类别进行编码。在一个具体的例子中,第一碱基为G碱基,第二碱基为C碱基,第三碱基为T碱基,第四碱基为A碱基,采用二进制对碱基类别进行编码,如图5所示,A碱基对应第0位,C碱基对应第1位,G碱基对应第3位,T碱基对应第4位。假设初步识别的碱基类别包括A碱基、C碱基和T碱基,那么二进制编码为1011,对应标志位Flag的值为8+2+1=11。假设初步识别的碱基类别包括C碱基和T碱基,那么二进制编码为1010,对应标志位Flag 的值为8+2=10。本实施方式中,后续可以通过标志位Flag的值确定初步识别的所有团的碱基类别。
步骤S3、根据所有团的碱基类别对所述第一图像的亮度值和所述第二图像的亮度值进行调整。
在步骤S3的具体实施中,在所有团的碱基类别为至少两个的情况下:
若缺少第一碱基,则对所述第一图像的最小亮度值和所述第二图像的最小亮度值进行限制处理。其中,所述第一碱基对应的团的半径小于预设值。具体地,可以将所述第一图像的最小亮度值和所述第二图像的最小亮度值均设为较小的值,例如可以均设为0。
若缺少第三碱基,则根据所述第一图像的最大亮度值确定所述第二图像的最大亮度值。其中,所述第三碱基对应的团的半径大于等于所述预设值,且所述团的角度大于等于第二角度阈值。例如可以将所述第一图像的最大亮度值作为所述第二图像的最大亮度值。
若缺少第二碱基,则根据所述第二图像的最大亮度值确定所述第一图像的最大亮度值。其中,所述第二碱基对应的团的半径大于等于所述预设值,且所述团的角度小于等于第一角度阈值。例如可以将所述第二图像的最大亮度值作为所述第一图像的最大亮度值。
需要说明的是,若缺少第四碱基,则不对所述第一图像的最大亮度值和最小亮度值以及所述第二图像的最大亮度值和最小亮度值进行任何处理。
还需要说明的是,在所有团的碱基类别为一个的情况下,无需执行以下步骤S4和S5。
步骤S4、根据所述第一图像的最大亮度值和最小亮度值对所述第一图像进行归一化处理,以及根据所述第二图像的最大亮度值和最小亮度值对所述第二图像进行归一化处理。
在步骤S4可选的一种实施方式中,根据以下公式对所述第一图像进行归一化处理:
out_data_H
P=(in_data_H
P-minH)/(maxH-minH)
其中,in_data_H
P为第一图像中点P的亮度值,minH为第一图像的最小亮度值,maxH为第一图像的最大亮度值,out_data_H
P为归一化后第一图像中点P的亮度值,点P为第一图像中的任一点。
根据以下公式对所述第二图像进行归一化处理:
out_data_L
Q=(in_data_L
Q-minL)/(maxL-minL)
其中,in_data_L
Q为第二图像中点Q的亮度值,minL为第二图像的最小亮度值,maxL为第二图像的最大亮度值,out_data_L
Q为归一化后第二图像中点Q的亮度值,点Q为第二图像中的任一点。
步骤S5、根据归一化后的第一图像和第二图像进行碱基分团,并再次识别每个团的碱基类别。
在具体实施中,如图6所示,步骤S5可以包括以下步骤S51~S53:
步骤S51、判断所有团的碱基类别中是否包括第一碱基,若是,则执行步骤S52,若否,则执行步骤S53。其中,所述第一碱基对应的团的半径小于预设值。
步骤S52、计算所述二维直方图中每个点的半径,并将半径小于预设值的点确定为属于所述第一碱基对应的团。
在具体实施中,可以根据以下公式计算二维直方图中点M的半径R
M:
其中,x
M为点M的横坐标,y
M为点M的纵坐标。
在可选的一种实施方式中,根据以下步骤S52a~S52e确定所述预设值:
步骤S52a、根据所述二维直方图中每个点的半径计算半径直方图。
在具体实施中,可以统计二维图直方图中部分点的半径直方图。在一个具体的例子中,统计P1分位点到P99分位点之间的半径直方图。进一步地,还可以对半径直方图进行多点平滑处理,以去除半径直方图中的毛刺。
步骤S52b、确定所述半径直方图中的局部极大值和局部极小值。
在具体实施中,可以根据一个点相邻的点是否都小于该点来判断该点是否为局部极大值,若都小于,则确定该点为局部极大值。同理,可以根据一个点相邻的点是否都大于该点来判断该点是否为局部极小值,若都大于,则确定该点为局部极小值。
步骤S52c、在所有局部极大值中确定两个最大的局部极大值。
在具体实施中,可以对两个最大的局部极大值之间的间隔进行限制,以避免由于半径直方图分布异常造成上述预设值确定有误。在一个具体的例子中,要求两个最大的局部极大值之间的间隔必须大于Nth,其中,Nth可以根据半径直方图的横纵分段段数N进行设置。例如N=128,将Nth设置为128*20%。
步骤S52d、在所述两个最大的局部极大值之间,查找最小的局部极小值。
步骤S52e、将所述最小的局部极小值确定为所述预设值。
图7用于示出一种半径直方图。如图7所示,横坐标代表角度,纵坐标代表半径,两个最大的局部极大值分别为峰值pos1和峰值pos2,在峰值pos1和峰值pos2之间查找的最小的局部极小值为谷值pos3。本例子中,将谷值pos3确定为上述预设值。在如图8所示的二维直方图中,将半径小于预设值的点确定为属于第一碱基对应的团。其中,图8中圆形独立区域对应的团为第一碱基。
步骤S53、识别其它团的碱基类别。其中,其它团包括第二碱基对应的团、第三碱基对应的团以及第四碱基对应的团。
本实施方式中,在初步识别的所有团的碱基类别为至少两个且包括第一碱基的情况下,先识别第一碱基对应的团,再识别其它碱基对应的团。
在可选的一种实施方式中,若初步识别的所有团的碱基类别包括第二碱基、第三碱基和第四碱基中的至少两个,则上述步骤S53具体包括以下步骤S53a~S53c:
步骤S53a、计算属于其它团中每个点的角度。
在步骤S53a可选的一种实施方式中,若所有团的碱基类别中包括第一碱基,则根据第一碱基对应的团的中心位置计算其它团中每个点的角度。假设第一碱基为G碱基,具体地,根据以下公式计算其它团中点j的角度θ
j:
其中,x
j为点j在二维直方图中的横坐标,y
j为点j在二维直方图中的纵坐标,centerGH为G碱基对应的团的中心位置的横坐标,centerGL为G碱基对应的团的中心位置的纵坐标。需要说明的是,若x
j<0,则令θ
j=θ
j+180。
在步骤S53a可选的另一种实施方式中,若所有团的碱基类别中不包括第一碱基,则直接根据其它团中每个点在二维直方图中的横纵坐标计算角度。
步骤S53b、根据所述其它团中每个点的角度计算角度直方图。
在具体实施中,为了提高碱基识别的准确性,可以对角度直方图进行多点平滑处理,得到平滑的角度直方图。
步骤S53c、根据所述角度直方图识别其它团的碱基类别。
其中,所述第二碱基对应的团的半径大于等于预设值,且所述团的角度小于等于第一角度阈值,所述第三碱基对应的团的半径大于等于所述预设值,且所述团的角度大于等于第二角度阈值,所述第四碱基对应的团的半径大于等于所述预设值,且所述团的角度大于所述第一角度阈值且小于所述第二角度阈值。
在可选的一种实施方式中,根据所述角度直方图中的谷值识别其它团的碱基类别。上述步骤S53c具体包括:确定所述角度直方图中谷值的位置,并根据所述角度直方图中每个点与所述谷值的位置关系识别其它团的碱基类别。
本实施方式中,若初步识别的所有团的碱基类别包括第二碱基、第三碱基和第四碱基中的两个,则上述角度直方图中有1个谷值;若初步识别的所有团的碱基类别包括第二碱基、第三碱基和第四碱基中的三个,则上述角度直方图中有2个谷值。
图9用于示出一种碱基类别的最终识别结果。在如图9所示的二维直方图中,包括三个团,分别对应的碱基类别为G碱基、C碱基和T碱基。
在可选的另一种实施方式中,根据所述角度直方图中的峰值识别其它团的碱基类别。上述步骤S53c具体包括:确定所述角度直方图中峰值的位置,并根据所述角度直方图中每个点与所述峰值的位置关系识别其它团的碱基类别。
本实施方式中,若初步识别的所有团的碱基类别包括第二碱基、第三碱基和第四碱基中的两个,则上述角度直方图中有2个峰值;若初步识别的所有团的碱基类别包括第二碱基、第三碱基和第四碱基中的三个,则上述角度直方图中有3个峰值。
需要说明的是,若初步识别的所有团的碱基类别包括第二碱基、第三碱基和第四碱基中的一个,则上述步骤S53具体包括:以初步识别的碱基类别为准,无需进行碱基类别的二次识别。
为了进一步提高碱基识别的准确性,在上述步骤S5之后还可以包括:根据再次识别的每个团的碱基类别对每个团进行聚类分析,以得到每个团的最终碱基类别。具体地,可以采用GMM(高斯混合模型)聚类方法对每个团聚类分析,从而得到每个团的最终碱基类别。
本实施例还提供一种碱基识别系统60,如图10所示,包括图像获取模块61、初步识别模块62、图像处理模块63、归一化模块64以及二次识别模块65。
图像获取模块61用于获取生物芯片在红光通道的第一图像和在绿光通道的第二图像。
初步识别模块62用于根据所述第一图像和所述第二图像进行碱基分团,并初步识别每个团的碱基类别。
图像处理模块63用于根据所有团的碱基类别对所述第一图像的亮度值和所述第二图像的亮度值进行调整。
归一化模块64用于根据所述第一图像的最大亮度值和最小亮度值对所述第一图像进行归一化处理,以及根据所述第二图像的最大亮度值和最小亮度值对所述第二图像进行归一化处理。
二次识别模块65用于根据归一化后的第一图像和第二图像进行碱基分团,并再次识别每个团的碱基类别。
在可选的一种实施方式中,上述初步识别模块具体包括:
第一计算单元,用于根据所述第一图像和所述第二图像计算二维直方图;其中,所述二维直方图的坐标轴分别对应所述第一图像的亮度值和所述第二图像的亮度值;
第一确定单元,用于确定所述二维直方图中的独立区域,得到碱基分团结果;其中,每个独立区域对应一个团;
第二确定单元,用于根据每个团的中心位置确定每个团的半径和角度;
以及第一识别单元,用于根据每个团的半径和角度初步识别每个团的碱基类别。
在可选的一种实施方式中,上述图像处理模块具体用于在所有团的碱基类别为至少两个的情况下,若缺少第一碱基,则对所述第一图像的最小亮度值和所述第二图像的最小亮度值进行限制处理;其中,所述第一碱基对应的团的半径小于预设值。
在可选的一种实施方式中,上述图像处理模块具体用于在所有团的碱基类别为至少两个的情况下,若缺少第二碱基,则根据所述第二图像的最大亮度值确定所述第一图像的最大亮度值;其中,所述第二碱基对应的团的半径大于等于所述预设值,且所述团的角度小于等于第一角度阈值。
在可选的一种实施方式中,上述图像处理模块具体用于在所有团的碱基类别为至少两个的情况下,若缺少第三碱基,则根据所述第一图像的最大亮度值确定所述第二图像的最大亮度值;其中,所述第三碱基对应的团的半径大于等于所述预设值,且所述团的角度大于等于第二角度阈值。
在可选的一种实施方式中,上述二次识别模块具体包括判断单元、第二计算单元以及第二识别单元。
判断单元用于判断所有团的碱基类别中是否包括第一碱基,在是的情况下依次调用第二计算单元和第二识别单元,在否的情况下直接调用第二识别单元。其中,所述第一碱基对应的团的半径小于预设值。
第二计算单元用于计算所述二维直方图中每个点的半径,并将半径小于预设值的点确定为属于所述第一碱基对应的团。
第二识别单元用于识别其它团的碱基类别。
在可选的一种实施方式中,上述碱基识别系统还包括预设值确定模块,用于根据所述二维直方图中每个点的半径计算半径直方图;确定所述半径直方图中的局部极大值和局部极小值;在所有局部极大值中确定两个最大的局部极大值;在所述两个最大的局部极大值之间,查找最小的局部极小值;以及将所述最小的局部极小值确定为所述预设值。
在可选的一种实施方式中,若初步识别的所有团的碱基类别包括第二碱基、第三碱基和第四碱基中的至少两个,则上述第二识别单元具体用于计算属于其它团中每个点的角度;根据所述其它团中每个点的角度计算角度直方图;根据所述角度直方图识别其它团的碱基类别。其中,所述第二碱基对应的团的半径大于等于预设值,且所述团的角度小于等于第一角度阈值,所述第三碱基对应的团的半径大于等于所述预设值,且所述团的角度大于等于第二角度阈值,所述第四碱基对应的团的半径大于等于所述预设值,且所述团的角度大于所述第一角度阈值且小于所述第二角度阈值。
需要说明的是,本实施例中的碱基识别系统具体可以是单独的芯片、芯片模组或基因测序仪,也可以是集成于基因测序仪内的芯片或者芯片模组。
关于本实施例中描述的碱基识别系统包含的各个模块/单元,其可以是软件模块/单元,也可以是硬件模块/单元,或者也可以部分是软件模块/单元,部分是硬件模块/单元。
实施例2
图11为本实施例提供的一种基因测序仪的结构示意图。所述基因测序仪包括至少一个处理器以及与所述至少一个处理器通信连接的存储器。其中,所述存储器存储有可被所述至少一个处理器运行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行实施例1的碱基识别方法。图11显示的基因测序仪3仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
基因测序仪3的组件可以包括但不限于:上述至少一个处理器4、上述至少一个存储器5、连接不同系统组件(包括存储器5和处理器4)的总线6。
总线6包括数据总线、地址总线和控制总线。
存储器5可以包括易失性存储器,例如随机存取存储器(RAM)51和/或高速缓存存储器52,还可以进一步包括只读存储器(ROM)53。
存储器5还可以包括具有一组(至少一个)程序模块54的程序/实用工具55,这样的程序模块54包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
处理器4通过运行存储在存储器5中的计算机程序,从而执行各种功能应用以及数据处理,例如上述碱基识别方法。
基因测序仪3也可以与一个或多个外部设备7(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口8进行。并且,基因测序仪3还可以通过网络适配器9与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图11所示,网络适配器9通过总线6与基因测序仪3的其它模块通信。应当明白,尽管图11中未示出,可以结合基因测序仪3使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系 统、磁带驱动器以及数据备份存储系统等。
应当注意,尽管在上文详细描述中提及了基因测序仪的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
实施例3
本实施例提供一种存储有计算机程序的计算机可读存储介质,所述计算机程序被处理器执行时实现实施例1的碱基识别方法。
其中,可读存储介质可以采用的更具体可以包括但不限于:便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。
在可能的实施方式中,本发明还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在基因测序仪上运行时,所述程序代码用于使所述基因测序仪执行实现实施例1的碱基识别方法。
其中,可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码,所述程序代码可以完全地在基因测序仪上执行、部分地在基因测序仪上执行、作为一个独立的软件包执行、部分在基因测序仪上部分在远程设备上执行或完全在远程设备上执行。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。
Claims (12)
- 一种碱基识别方法,其特征在于,包括以下步骤:获取生物芯片在红光通道的第一图像和在绿光通道的第二图像;根据所述第一图像和所述第二图像进行碱基分团,并初步识别每个团的碱基类别;根据所有团的碱基类别对所述第一图像的亮度值和所述第二图像的亮度值进行调整;根据所述第一图像的最大亮度值和最小亮度值对所述第一图像进行归一化处理,以及根据所述第二图像的最大亮度值和最小亮度值对所述第二图像进行归一化处理;根据归一化后的第一图像和第二图像进行碱基分团,并再次识别每个团的碱基类别。
- 如权利要求1所述的碱基识别方法,其特征在于,所述根据所述第一图像和所述第二图像进行碱基分团,并初步识别每个团的碱基类别的步骤具体包括:根据所述第一图像和所述第二图像计算二维直方图;其中,所述二维直方图的坐标轴分别对应所述第一图像的亮度值和所述第二图像的亮度值;确定所述二维直方图中的独立区域,得到碱基分团结果;其中,每个独立区域对应一个团;根据每个团的中心位置确定每个团的半径和角度;根据每个团的半径和角度初步识别每个团的碱基类别。
- 如权利要求2所述的碱基识别方法,其特征在于,所述根据所有团的碱基类别对所述第一图像的亮度值和所述第二图像的亮度值进行调整的步骤具体包括:在所有团的碱基类别为至少两个的情况下,若缺少第一碱基,则对所述 第一图像的最小亮度值和所述第二图像的最小亮度值进行限制处理;其中,所述第一碱基对应的团的半径小于预设值;和/或,在所有团的碱基类别为至少两个的情况下,若缺少第二碱基,则根据所述第二图像的最大亮度值确定所述第一图像的最大亮度值;其中,所述第二碱基对应的团的半径大于等于所述预设值,且所述团的角度小于等于第一角度阈值;和/或,在所有团的碱基类别为至少两个的情况下,若缺少第三碱基,则根据所述第一图像的最大亮度值确定所述第二图像的最大亮度值;其中,所述第三碱基对应的团的半径大于等于所述预设值,且所述团的角度大于等于第二角度阈值。
- 如权利要求2所述的碱基识别方法,其特征在于,所述根据归一化后的第一图像和第二图像进行碱基分团,并再次识别每个团的碱基类别的步骤具体包括:判断所有团的碱基类别中是否包括第一碱基;其中,所述第一碱基对应的团的半径小于预设值;若是,则计算所述二维直方图中每个点的半径,并将半径小于预设值的点确定为属于所述第一碱基对应的团;识别其它团的碱基类别;若否,则直接识别其它团的碱基类别。
- 如权利要求3或4所述的碱基识别方法,其特征在于,根据以下步骤确定所述预设值:根据所述二维直方图中每个点的半径计算半径直方图;确定所述半径直方图中的局部极大值和局部极小值;在所有局部极大值中确定两个最大的局部极大值;在所述两个最大的局部极大值之间,查找最小的局部极小值;将所述最小的局部极小值确定为所述预设值。
- 如权利要求4所述的碱基识别方法,其特征在于,若初步识别的所有 团的碱基类别包括第二碱基、第三碱基和第四碱基中的至少两个,则所述识别其它团的碱基类别的步骤具体包括:计算属于其它团中每个点的角度;根据所述其它团中每个点的角度计算角度直方图;根据所述角度直方图识别其它团的碱基类别;其中,所述第二碱基对应的团的半径大于等于预设值,且所述团的角度小于等于第一角度阈值,所述第三碱基对应的团的半径大于等于所述预设值,且所述团的角度大于等于第二角度阈值,所述第四碱基对应的团的半径大于等于所述预设值,且所述团的角度大于所述第一角度阈值且小于所述第二角度阈值。
- 如权利要求6所述的碱基识别方法,其特征在于,所述计算属于其它团中每个点的角度的步骤具体包括:若所有团的碱基类别中包括第一碱基,则根据所述第一碱基对应的团的中心位置计算其它团中每个点的角度;其中,所述第一碱基对应的团的半径小于预设值。
- 如权利要求6所述的碱基识别方法,其特征在于,所述根据所述角度直方图识别其它团的碱基类别的步骤具体包括:确定所述角度直方图中谷值的位置;根据所述角度直方图中每个点与所述谷值的位置关系识别其它团的碱基类别。
- 如权利要求1所述的碱基识别方法,其特征在于,所述根据归一化后的第一图像和第二图像进行碱基分团,并再次识别每个团的碱基类别的步骤之后还包括:根据再次识别的每个团的碱基类别对每个团进行聚类分析,以得到每个团的最终碱基类别。
- 一种碱基识别系统,其特征在于,包括:图像获取模块,用于获取生物芯片在红光通道的第一图像和在绿光通道的第二图像;初步识别模块,用于根据所述第一图像和所述第二图像进行碱基分团,并初步识别每个团的碱基类别;图像处理模块,用于根据所有团的碱基类别对所述第一图像的亮度值和所述第二图像的亮度值进行调整;归一化模块,用于根据所述第一图像的最大亮度值和最小亮度值对所述第一图像进行归一化处理,以及根据所述第二图像的最大亮度值和最小亮度值对所述第二图像进行归一化处理;二次识别模块,用于根据归一化后的第一图像和第二图像进行碱基分团,并再次识别每个团的碱基类别。
- 一种基因测序仪,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-9中任一项所述的碱基识别方法。
- 一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-9中任一项所述的碱基识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2022/102503 WO2024000312A1 (zh) | 2022-06-29 | 2022-06-29 | 碱基识别方法及系统、基因测序仪及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2022/102503 WO2024000312A1 (zh) | 2022-06-29 | 2022-06-29 | 碱基识别方法及系统、基因测序仪及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2024000312A1 true WO2024000312A1 (zh) | 2024-01-04 |
Family
ID=89383478
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/CN2022/102503 WO2024000312A1 (zh) | 2022-06-29 | 2022-06-29 | 碱基识别方法及系统、基因测序仪及存储介质 |
Country Status (1)
Country | Link |
---|---|
WO (1) | WO2024000312A1 (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0648844A2 (en) * | 1993-09-20 | 1995-04-19 | Hitachi Electronics Engineering Co., Ltd. | Method of primary screening of carriers having abnormal genetic base sequences |
US6136543A (en) * | 1997-01-31 | 2000-10-24 | Hitachi, Ltd. | Method for determining nucleic acids base sequence and apparatus therefor |
CN102449167A (zh) * | 2009-05-26 | 2012-05-09 | 厦门大学 | 一种检测核酸序列变异的方法 |
CN106770114A (zh) * | 2016-12-23 | 2017-05-31 | 西安交通大学 | 一种高通量测序碱基荧光识别系统装置与方法 |
CN109117796A (zh) * | 2018-08-17 | 2019-01-01 | 广州市锐博生物科技有限公司 | 碱基识别方法及装置、生成彩色图像的方法及系统 |
CN111041076A (zh) * | 2018-10-11 | 2020-04-21 | 深圳华大生命科学研究院 | 气泡检测方法及系统、基因测序仪、计算机可读存储介质 |
CN113012757A (zh) * | 2019-12-21 | 2021-06-22 | 深圳市真迈生物科技有限公司 | 识别核酸中的碱基的方法和系统 |
-
2022
- 2022-06-29 WO PCT/CN2022/102503 patent/WO2024000312A1/zh unknown
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0648844A2 (en) * | 1993-09-20 | 1995-04-19 | Hitachi Electronics Engineering Co., Ltd. | Method of primary screening of carriers having abnormal genetic base sequences |
US6136543A (en) * | 1997-01-31 | 2000-10-24 | Hitachi, Ltd. | Method for determining nucleic acids base sequence and apparatus therefor |
CN102449167A (zh) * | 2009-05-26 | 2012-05-09 | 厦门大学 | 一种检测核酸序列变异的方法 |
CN106770114A (zh) * | 2016-12-23 | 2017-05-31 | 西安交通大学 | 一种高通量测序碱基荧光识别系统装置与方法 |
CN109117796A (zh) * | 2018-08-17 | 2019-01-01 | 广州市锐博生物科技有限公司 | 碱基识别方法及装置、生成彩色图像的方法及系统 |
CN111041076A (zh) * | 2018-10-11 | 2020-04-21 | 深圳华大生命科学研究院 | 气泡检测方法及系统、基因测序仪、计算机可读存储介质 |
CN113012757A (zh) * | 2019-12-21 | 2021-06-22 | 深圳市真迈生物科技有限公司 | 识别核酸中的碱基的方法和系统 |
Non-Patent Citations (1)
Title |
---|
ERHUI JIA, LI XIAO; ZHANG TAO; LI BIN; ZHAO LIHUA : "Peak matching in DNA base-calling based on dynamic programming ", ANALYTICAL INSTRUMENTATION, vol. 2, 28 March 2020 (2020-03-28), pages 70 - 76, XP093121900 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10354747B1 (en) | Deep learning analysis pipeline for next generation sequencing | |
US10689696B2 (en) | Methods and systems for analyzing image data | |
JP2005531853A (ja) | Snp遺伝子型クラスタリングのためのシステムおよび方法 | |
US20230207051A1 (en) | Unique mapper tool for excluding regions without one-to-one mapping between a set of two reference genomes | |
Jung et al. | An automatic block and spot indexing with k-nearest neighbors graph for microarray image analysis | |
US20220277811A1 (en) | Detecting False Positive Variant Calls In Next-Generation Sequencing | |
WO2024000312A1 (zh) | 碱基识别方法及系统、基因测序仪及存储介质 | |
CN114118730A (zh) | 一种电力企业业务流程的合规检测方法 | |
US9043249B2 (en) | Automatic chemical assay classification using a space enhancing proximity | |
WO2019132010A1 (ja) | 塩基配列における塩基種を推定する方法、装置及びプログラム | |
CN113628682B (zh) | 一种t790m和c797s顺反式突变类型识别及计算方法 | |
CN116189764A (zh) | 基于单细胞转录组测序数据的分析方法、装置及设备 | |
US20220336055A1 (en) | Deep Convolutional Neural Networks to Predict Variant Pathogenicity using Three-Dimensional (3D) Protein Structures | |
CN111863124B (zh) | 一种拷贝数变异检测方法、系统、存储介质、计算机设备 | |
CN114300045A (zh) | 基于对照组的半监督snp分型方法、装置和电子设备 | |
TW201913421A (zh) | 晶圓失效圖案分析方法 | |
Zhang et al. | CNV-PCC: An efficient method for detecting copy number variations from next-generation sequencing data | |
Bajcsy et al. | DNA microarray image processing | |
Giannakeas et al. | An automated method for gridding in microarray images | |
US11538555B1 (en) | Protein structure-based protein language models | |
US20230343413A1 (en) | Protein structure-based protein language models | |
CN113178233B (zh) | 大规模单细胞转录组数据高效聚类方法 | |
Wang et al. | Cnvabnn: an adaBoost algorithm and neural networks-based detection of copy number variations from NGS data | |
Zacharia et al. | An unsupervised and fully-automated image analysis method for cDNA microarrays | |
US20230095961A1 (en) | Graph reference genome and base-calling approach using imputed haplotypes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 22948427 Country of ref document: EP Kind code of ref document: A1 |