WO2024138733A1 - 基因组结构变异的检测方法、系统、设备及介质 - Google Patents
基因组结构变异的检测方法、系统、设备及介质 Download PDFInfo
- Publication number
- WO2024138733A1 WO2024138733A1 PCT/CN2022/144315 CN2022144315W WO2024138733A1 WO 2024138733 A1 WO2024138733 A1 WO 2024138733A1 CN 2022144315 W CN2022144315 W CN 2022144315W WO 2024138733 A1 WO2024138733 A1 WO 2024138733A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- haplotype
- sequencing
- sequence
- sequences
- information
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000012163 sequencing technique Methods 0.000 claims abstract description 165
- 102000054766 genetic haplotypes Human genes 0.000 claims abstract description 141
- 238000004458 analytical method Methods 0.000 claims abstract description 23
- 238000007671 third-generation sequencing Methods 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 11
- 238000001514 detection method Methods 0.000 abstract description 28
- 238000010586 diagram Methods 0.000 description 9
- 239000012634 fragment Substances 0.000 description 8
- 108090000623 proteins and genes Proteins 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 101001121408 Homo sapiens L-amino-acid oxidase Proteins 0.000 description 3
- 102100026388 L-amino-acid oxidase Human genes 0.000 description 3
- 210000000349 chromosome Anatomy 0.000 description 3
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000003780 insertion Methods 0.000 description 3
- 230000037431 insertion Effects 0.000 description 3
- 102100025230 2-amino-3-ketobutyrate coenzyme A ligase, mitochondrial Human genes 0.000 description 2
- 108010087522 Aeromonas hydrophilia lipase-acyltransferase Proteins 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000035772 mutation Effects 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 238000002864 sequence alignment Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 108700028369 Alleles Proteins 0.000 description 1
- 208000016718 Chromosome Inversion Diseases 0.000 description 1
- 101000827703 Homo sapiens Polyphosphoinositide phosphatase Proteins 0.000 description 1
- 206010068052 Mosaicism Diseases 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 102100023591 Polyphosphoinositide phosphatase Human genes 0.000 description 1
- 206010039101 Rhinorrhoea Diseases 0.000 description 1
- 101100012902 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) FIG2 gene Proteins 0.000 description 1
- 101100233916 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) KAR5 gene Proteins 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 208000037516 chromosome inversion disease Diseases 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000000178 monomer Substances 0.000 description 1
- 239000002773 nucleotide Substances 0.000 description 1
- 125000003729 nucleotide group Chemical group 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 102000054765 polymorphisms of proteins Human genes 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000005945 translocation Effects 0.000 description 1
Images
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/50—Mutagenesis
Definitions
- Genomic variations are generally divided into three categories: SNP (Single Nucleotide Polymorphisms), INDEL (Insertion and Deletion, referring to the insertion or deletion of a small sequence fragment at a certain position in the genome) and SV (Structural variation).
- SNP Single Nucleotide Polymorphisms
- INDEL Insert and Deletion, referring to the insertion or deletion of a small sequence fragment at a certain position in the genome
- SV Structural variation
- the technical problem to be solved by the present invention is to overcome the defect of limited SV detection size range and provide a method, system, device and medium for detecting genome structural variation.
- a method for detecting genomic structural variation comprising:
- the sequencing sequences belonging to the same haplotype are assembled to obtain haplotype sequences, and genomic structural variation analysis is performed based on the haplotype sequences.
- performing haplotype typing on the sequencing sequences according to the single base variation information of each sequencing sequence comprises:
- genomic structural variation analysis is performed based on haplotype sequences, including:
- obtaining a sequencing sequence of a sample to be detected includes:
- An acquisition module is used to acquire a sequencing sequence of a sample to be detected, where the number of the sequencing sequences is multiple;
- a typing module used for performing haplotype typing on the sequencing sequence according to the single base variation information in each sequencing sequence
- the analysis module is used to assemble sequencing sequences belonging to the same haplotype to obtain haplotype sequences, and perform genome structural variation analysis based on the haplotype sequences.
- a computer-readable storage medium on which a computer program is stored, and when the computer program is executed by a processor, the method for detecting genomic structural variation described in the first aspect is implemented.
- haplotype typing can be used to accurately perform haplotype typing on sequencing sequences before SV detection, sequencing sequences from different haplotype sources can be typed, and subsequent SV detection can be performed based on the haplotype sequences.
- the assembled haplotype sequences can accurately display the sources of the detected SVs.
- the assembled haplotype sequences have higher continuity and accuracy than the sequencing sequences themselves, are often more than 1MB in length, and can cover almost the entire SV size range, making the results of SV detection more complete and accurate.
- FIG3 is a schematic diagram of haplotype information of a method for detecting a gene structural variation provided by an exemplary embodiment of the present invention
- FIG5 is a schematic diagram of a seed extension of a gene structure variation detection method provided by an exemplary embodiment of the present invention.
- FIG6 is a schematic diagram of a method for detecting genome structural variation provided by an exemplary embodiment of the present invention.
- the single base variation information in this embodiment is SNP.
- the sequencing sequence is compared with the corresponding sites of the reference genome, and all bases in the sequencing sequence that are inconsistent with the reference genome are determined as single base variation information of the sequencing sequence, i.e., SNP.
- SNP can include heterozygous SNP.
- the sequencing sequence is AGTCTTAG
- the corresponding site of the reference genome is AGGCTTCG.
- the haplotype information is obtained by performing linkage analysis on the single-base variation information of all sequencing sequences.
- haplotype information refers to a combination of alleles of a group of associated SNPs located on a chromosome or in a certain region
- haplotype refers to the source of a group of haplotype information.
- the diploid genome includes the haplotype of the father, i.e., Dad in the figure, and the haplotype of the mother, i.e., Mom in the figure.
- the haplotype information of the father includes GTCCA
- the haplotype of the mother includes TAGTG.
- S112-1 Perform linkage strength analysis on the single-base variation information in the sample to be tested by seed extension to determine the haplotype information of the sample to be tested.
- the haplotype information of the sample to be tested is determined by performing SNP linkage strength analysis on all sequencing sequences in the sample to be tested.
- the haplotype information includes all SNPs belonging to the same haplotype in the sample to be tested.
- the haplotype information is the arrangement of SNPs with a linkage relationship.
- the linkage relationship between each SNP is provided by a long DNA fragment.
- multiple haplotype information of the sample to be tested such as AGTC and GCAT, and the corresponding haplotypes, can be obtained.
- performing genome structural variation analysis according to haplotype sequences in step S12 specifically includes:
- the haplotype sequence can contain multiple continuous sequencing sequences, so a more complete SV detection result can be obtained, and for the detection of a single SV, the breakpoint information of the SV can be obtained, that is, the start position to the end position of an SV.
- the accuracy of the sequencing sequence in the prior art it may not be possible to display a complete SV, that is, it is impossible to obtain the breakpoint information of the SV.
- FIG9 is a schematic diagram of the structure of an electronic device provided in this embodiment.
- FIG9 shows a block diagram of an exemplary electronic device 90 suitable for implementing the embodiment of the present invention.
- the electronic device 90 shown in FIG9 is only an example and should not bring any limitation to the functions and scope of use of the embodiment of the present invention.
- the present invention may also be implemented in the form of a program product, which includes a program code.
- the program product When the program product is run on a terminal device, the program code is used to enable the terminal device to execute a method for detecting genomic structural variation.
- the program code for executing the present invention may be written in any combination of one or more programming languages, and may be executed entirely on a user device, partially on a user device, as an independent software package, partially on a user device and partially on a remote device, or entirely on a remote device.
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Biotechnology (AREA)
- Organic Chemistry (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Genetics & Genomics (AREA)
- Analytical Chemistry (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Wood Science & Technology (AREA)
- Zoology (AREA)
- Immunology (AREA)
- Microbiology (AREA)
- Biochemistry (AREA)
- General Engineering & Computer Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
一种基因组结构变异的检测方法、系统、设备及介质,方法包括:获取待检测样本的测序序列,所述测序序列的数量为多个;根据每个所述测序序列中的单碱基变异信息对所述测序序列进行单体型分型;对所属于相同单体型的测序序列进行组装以得到单体型序列,并根据单体型序列进行基因组结构变异分析。组装得到的单体型序列在进行SV检测时由于包含了多个测序序列的数据,能够满足SV检测的读长需求,并使得SV检测的结果更加完整和准确。
Description
本发明涉及基因领域,尤其涉及一种基因组结构变异的检测方法、系统、设备及介质。
基因组变异一般分为三类:SNP(Single Nucleotide Polymorphisms,单核苷酸多态性)、INDEL(Insertion和Deletion的简称,指基因组的某个位置上所发生的小片段序列的插入或者删除)和SV(Structural variation,基因组结构变异)。
现有技术中通过二代测序能够有效检测出SNP和INDEL类型的变异,而由于二代测序读长的限制,基于二代测序得到的SV类型的检测结果并不准确。随着三代测序技术的发展,可以在一定程度上改善SV类型的变异检测结果,但是依然面临着以下问题:由于三代测序读长普遍在500bp~50kb范围,能检测到的SV大小往往也限制在50kb以内。
发明内容
本发明要解决的技术问题是为了克服SV检测大小范围受限的缺陷,提供一种基因组结构变异的检测方法、系统、设备及介质。
本发明是通过下述技术方案来解决上述技术问题:
第一方面,提供一种基因组结构变异的检测方法,所述方法包括:
获取待检测样本的测序序列,所述测序序列的数量为多个;
根据每个所述测序序列中的单碱基变异信息对所述测序序列进行单体型分型;
对所属于相同单体型的测序序列进行组装以得到单体型序列,并根据单 体型序列进行基因组结构变异分析。
可选地,根据每个所述测序序列的单碱基变异信息对所述测序序列进行单体型分型,包括:
获取每个测序序列中的单碱基变异信息;
确定与所述单碱基变异信息相匹配的单体型信息,将所述测序序列分型至对应的单体型,所述单体型信息通过对所有测序序列的单碱基变异信息进行连锁性分析得到。
可选地,获取每个测序序列的单碱基变异信息,包括:
将所述测序序列与参考基因组进行序列比对,将所述测序序列中所有与参考基因组不一致的碱基信息确定为所述测序序列的单碱基变异信息。
可选地,确定与所述单碱基变异信息相匹配的单体型信息,包括:
通过种子延伸对待检测样本中的单碱基变异信息进行连锁强度分析,以确定待检测样本的单体型信息;
将所述测序序列的单碱基变异信息与所述单体型信息进行匹配,以确定测序序列所属的单体型。
可选地,对所属于相同单体型的测序序列进行组装以得到单体型序列,包括:
对属于相同单体型的测序序列进行局部组装以得到单体型序列。
可选地,根据单体型序列进行基因组结构变异分析,包括:
将所述单体型序列与参考基因组进行序列比对,根据序列比对的结果确定所述单体型序列是否出现基因组结构变异。
可选地,获取待检测样本的测序序列,包括:
通过对所述待检测样本进行长读长测序得到所述待检测样本的测序序列。
第二方面,提供一种基因组结构变异的检测系统,所述系统包括:
获取模块,用于获取待检测样本的测序序列,所述测序序列的数量为多 个;
分型模块,用于根据每个所述测序序列中的单碱基变异信息对所述测序序列进行单体型分型;
分析模块,用于对所属于相同单体型的测序序列进行组装以得到单体型序列,并根据单体型序列进行基因组结构变异分析。
第三方面,提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现第一方面所述的基因组结构变异的检测方法。
第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的基因组结构变异的检测方法。
本发明的积极进步效果在于:通过单体型分型可以在SV检测前对测序序列准确地进行单体型分型,不同单体型来源的测序序列进行分型,并根据单体型序列进行后续的SV检测,组装后的单体型序列一方面可以准确展示检测到的SV的来源,另一方面,组装得到的单体型序列相对于测序序列本身,具备更高的连续性和准确性,往往长达1MB以上,可以覆盖几乎全部的SV大小范围,使得SV检测的结果更加完整和准确。
图1为本发明一示例性实施例提供的一种基因组结构变异的检测方法的流程图;
图2为本发明一示例性实施例提供的一种基因结构变异检测方法的步骤S11的流程图;
图3为本发明一示例性实施例提供的一种基因结构变异检测方法的单体型信息的示意图;
图4为本发明一示例性实施例提供的一种基因结构变异检测方法的步骤 S112的流程图;
图5为本发明一示例性实施例提供的一种基因结构变异检测方法的种子延伸示意图;
图6为本发明一示例性实施例提供的一种基因组结构变异的检测方法的示意图;
图7为本发明一示例性实施例提供的一种基因组结构变异的检测方法的单体型分型后的SNP示意图;
图8为本发明一示例性实施例提供的一种基因组结构变异的检测系统的模块图;
图9为本发明一示例性实施例提供的一种基电子设备的结构图。
下面通过示例性实施例的方式进一步说明本发明,但并不因此将本发明限制在的实施例范围之中。
在本实施例之前,对基因组结构变异进行简要说明,基因组结构变异即本实施例中的SV,SV包括长度在50bp以上的长片段序列的插入或者删除、染色体倒位,染色体内部或染色体之间的序列易位,拷贝数变异,以及一些形式更为复杂的变异。
另外,本实施例中的单碱基变异信息即SNP。
图1为本发明一示例性实施例提供的一种基因组结构变异的检测方法,参见图1,方法包括:
S10、获取待检测样本的测序序列,测序序列的数量为多个。
其中,测序序列通过对待检测样本进行长读长测序得到。
在一个实施例中,测序序列可以通过对待检测样本进行三代测序得到,三代测序的最长读长可以达到50kb,平均读长在15~20kb,由于SV三代测序得到的测序序列完整性更好,通过三代测序所得到的测序序列的 读长能够更好的支撑SV检测对读长的需求。
在一个实施例中,测序序列可以通过对待检测样本进行stLFR(Single tube Long Fragment Read,单管长片段序列)或10X Genomics(一种测序技术)等大片段DNA建库技术得到,其属于特殊的二代测序,测序序列的读长同样也能达到10kb~300kb。
在一个实施例中,测序序列还可以同时对待检测样本进行二代测序和三代测序得到。其中,基于二代测序得到的测序序列可以用于确定待检测样本的单体型,三代测序得到的测序序列用于对测序序列进行单体型分型和进行单体型序列的组装。三代测序得到的测序序列能够为SV检测提供长读长的需求,而二代测序得到的测序序列能够通过对三代测序序列进行精度校正,为序列比对和SV检测提供更高的准确度。
S11、根据每个测序序列中的单碱基变异信息对测序序列进行单体型分型。
在一个实施例中,参见图2,步骤S11具体包括:
S111、获取每个测序序列中的单碱基变异信息。
在一可实施方式中,将测序序列与参考基因组的对应位点进行序列比对,将测序序列中所有与参考基因组不一致的碱基确定为测序序列的单碱基变异信息,即SNP。其中,SNP可以包括杂合SNP。例如,测序序列为AGTCTTAG,参考基因组对应位点为AGGCTTCG,在进行序列比对时可以看到第三个位点和第七个位点的碱基型不匹配,此时可以将测序序列中第三个位点的碱基信息T和第七个位点的碱基信息A确定为SNP。
S112、确定与单碱基变异信息相匹配的单体型信息,将测序序列分型至对应的单体型,单体型信息通过对所有测序序列的单碱基变异信息进行连锁性分析得到。
其中,单体型信息指位于一条染色体上或某一区域的一组相关联SNP的等位基因的组合,单体型指一组单体型信息的来源。参见图3,以一个二倍 体基因组为例,该二倍体基因组包括父本的单体型,即图中Dad,和母本的单体型,即图中的Mom。父本的单体型信息包括GTCCA,母本的单体型包括TAGTG。
在一可实施方式中,参见图4,步骤S112具体包括:
S112-1、通过种子延伸对待检测样本中的单碱基变异信息进行连锁强度分析,以确定待检测样本的单体型信息。
在一个实施例中,通过对待检测样本中所有测序序列进行SNP的连锁强度分析确定待检测样本的单体型信息,单体型信息包括待检测样本中所有属于同一个单体型的SNP,单体型信息为具有连锁关系的SNP的排列。
其中,以图5为例,对种子延伸确定单体型信息做进一步说明:
通过对测序序列与参考基因组进行序列比对后,得到四个SNP,A1/G1、G2/C2、A3/T3、T4/C4。将第一组碱基A1和G1作为一对种子,将种子与其他SNP进行连锁强度计算,得到连锁强度最强的SNP,并在下一次延伸前,将该位点并入种子。继续将剩下的SNP并入种子,直至不再有SNP能与种子上的任何一个位点位于同一个长片段DNA上,最终得到AGTC和GCAT两个单体型信息。
每个SNP之间的连锁关系通过一个长片段DNA提供,通过对所有测序序列的SNP进行连锁强度分析,可以得到待检测样本的多个单体型信息,例如AGTC和GCAT,及对应的单体型。
在一可实施方式中,通过种子延伸确定单体型信息的测序序列可以是三代测序得到的测序序列,也可以是stLFR或10X Genomics等二代测序得到的测序序列。一般而言,通过三代测序得到的测序序列即可完成对待检测样本中单体型信息的确定,但由于stLFR的测序序列的读长最长可以达到300kb左右,三代测序得到的测序序列的读长是50kb,意味着stLFR可以跨过更长的纯和区域(即父本和母本完全相同的区域),二代测序得到的测序序列能够为三代测序得到的测序序列的单体型分型提供支持。使得得到的每 个单体型序列的连续性和准确度更高。
S112-2、将测序序列的单碱基变异信息与单体型信息进行匹配,以确定测序序列所属的单体型。
其中,将步骤S111中得到的单碱基变异信息映射至对应的单体型信息,即每个测序序列的SNP映射到单体型信息中对应的SNP,当测序序列的SNP成功映射到对应的单体型信息中对应的SNP时,则认为该测序序列属于该单体型信息对应的单体型。例如:单体型信息包括AGTCGTTTCGTTTAA,测序序列得到的单碱基变异信息包括CGTTTCGT,测序序列中的单碱基变异信息可以成功映射到单体型中的CGTTTCGT片段,此时可以认为该测序序列与该单体型信息相匹配,属于该单体型。
本实施例中,通过SV检测前对测序序列准确地进行单体型分型,可以确定每个测序序列所属的单体型,并根据单体型对测序序列进行组装得到单体型序列进行后续的SV检测,对于同一个单体型序列检测得到的SV,可以标记为来自同一个单体型,以确定SV的来源,能够为生物遗传多样性的分析、临床医学的诊断和分析,例如癌症,提供可靠稳定的基因检测依据。
S12、对所属于相同单体型的测序序列进行组装以得到单体型序列,并根据单体型序列进行基因组结构变异分析。
在一个实施例中,根据前序步骤可以得到每个单体型包含的测序序列。由于测序序列可以基于三代测序得到,也可以基于二代测序得到,因此同一个单体型的测序序列可能仅包含三代测序得到的测序序列,也可能同时包含二代测序得到的测序序列和三代测序得到的测序序列。
在一个实施例中,步骤S12中对测序序列进行组装具体包括:
对属于相同单体型的测序序列进行局部组装以得到单体型序列。
其中,局部组装得到的单体型序列相对原本的测序序列,长度更长,且准确度更高。
在一可实施方式中,当测序序列即包括三代测序序列和二代测序序列时, 首先通过对三代测序得到的测序序列进行局部组装得到单体型序列,再通过二代测序序列对三代测序序列的组装结果进行调整,得到准确度更高的单体型序列。具体地,通过对三代测序得到的测序序列进行组装得到单体型序列,当单体型的测序序列中还包括二代测序得到的测序序列时,将所述二代测序得到的测序序列匹配至单体型序列中的对应位置进行分析。例如单体型序列对应位置的碱基为AGTTCTG,而二代测序得到的测序序列的碱基为AGTTCAG,此时可以对单体型序列对应位置根据二代测序得到的测序序列进行修正,以使得单体型序列结果更加准确。
在一可实施方式中,通过Celera(一种长读长序列组装工具)或Canu(一种长读长序列组装工具)对测序序列进行组装,组装基于OLC原理,即overlap-layout-consensus,(重叠-排列-生成一致序列)思想。
在一个实施例中,步骤S12中根据单体型序列进行基因组结构变异分析具体包括:
将单体型序列与参考基因组的对应位置进行序列比对,得到BAM格式的比对文件,再利用svim工具对比对文件进行基因组结构变异的分析,得到多类检测结果,最后通过对结果进行筛选和过滤可以得到得更全面、更准确的基因组单体型的SV检测结果。
另外,由于SV检测是基于组装得到的单体型序列进行检测,单体型序列中能够包含多个连续的测序序列,能够得到更加完整的SV的检测结果,且对于单个SV的检测中,能够得到SV的断点信息,即一个SV的开始位置到结束位置。而现有技术中由于测序序列准确性的限制,可能无法对一条完整的SV进行展示,也即无法得到SV的断点信息。
本实施例中,通过局部组装可以将每一个单体型的测序序列组装成一条或多条长度超过1MB的连续性单体型序列,由于连续性单体型序列的长度和准确度相对于原始测序序列有大幅提升,因此它们比对到参考基因组的得到的SV结果将更加精准。另外,局部组装策略获得的单体型序列可以跨越 多个SV,因此本实施例检测SV的范围可以扩展到真正的大型SV,不再受制于测序序列本身的读长。
下面通过一具体实施方式对本实施例做进一步说明,参见图6:
步骤1,将国际标准品HG002作为测试样本,分别进行常规的三代测序(40X)和基于stLFR文库的二代测序(60X),总碱基量为300GB,总深度为100X。通过bwa(一种序列比对工具)将基于stLFR文库的二代测序序列比对到参考基因组后,得到有效覆盖率99.95%。进一步进行常规的变异检测,过滤得到测试样本中包含的252万个杂合SNP,用于后续的变异分型。根据种子延伸将这些杂合SNP进行单倍体分型,分型后的片段中位数长达11.35MB。
步骤2,我们利用minimap2(一种序列比对工具)继续将三代测序序列比对到参考基因组上,获得每一测序条序列所包含的杂合SNP。再根据步骤1中获得的单体型信息,将每个测序序列映射到正确的单体型上。同一个染色体区域内具有两个不同的单体型,它们分别具有独立的序列池。为了验证对三代测序得到的测序序列的单体型分型效果,我们将已经完成单体型分型的测序序列分别比对到参考基因组上,得到两个单体型的分型分型,参见图7,图7中每一行为一个测序序列,深色标志部分为杂合SNP。可以看到,杂合SNP特异性地分布在其中一个单体型上,没有出现嵌合情况,说明通过三代测序得到的侧序列的分型效果达到了令人满意的程度。
步骤3,我们对各个单体型的序列池中的序列进行局部组装,各个单体型之间互不影响。组装的总长度为5.4GB(2.6GB*2),基因组覆盖率96.4%,组装N50为1.1MB。
步骤4,基于组装得到的单体型序列,我们再次利用minimap2将它们比对到参考基因组上,再利用svim工具检测出初步的SV的检测结果,再进行去冗余操作,得到最终的SV数据集。将SV数据集与HG002国际标准集进行比较,评估其准确度(precision)、灵敏度(recall)以及F1分值,参见下表,可以看出,本实施例中对于SV检测的准确度相较于Sniffles得以大幅 度提升。其中,灵敏度=标准集中SV被检测的实际数量/标准集中SV总数,准确度=检测出的SV正确的数量/检测的出的全部SV数量,
图8为本发明一示例性实施例提供的一种基因组结构变异的检测系统的示意图,参见图8,系统包括:
获取模块81,用于获取待检测样本的测序序列,所述测序序列的数量为多个;
分型模块82,用于根据每个所述测序序列中的单碱基变异信息对所述测序序列进行单体型分型;
分析模块83,用于对所属于相同单体型的测序序列进行组装以得到单体型序列,并根据单体型序列进行基因组结构变异分析。
对于系统实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
图9为本实施例提供的一种电子设备的结构示意图。图9示出了适于用来实现本发明实施方式的示例性电子设备90的框图。图9显示的电子设备90仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图9所示,电子设备90可以以通用计算设备的形式表现,例如其可 以为服务器设备。电子设备90的组件可以包括但不限于:至少一个处理器91、至少一个存储器92、连接不同系统组件(包括存储器92和处理器91)的总线93。
总线93包括数据总线、地址总线和控制总线。
存储器92可以包括易失性存储器,例如随机存取存储器(RAM)921和/或高速缓存存储器922,还可以进一步包括只读存储器(ROM)923。
存储器92还可以包括具有一组(至少一个)程序模块924的程序工具925,这样的程序模块924包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
处理器91通过运行存储在存储器92中的计算机程序,从而执行各种功能应用以及数据处理。
电子设备90也可以与一个或多个外部设备94(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口95进行。并且,电子设备90还可以通过网络适配器96与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器96通过总线93与电子设备90的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备90使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。
应当注意,尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
本发明一示例性实施例一种计算机可读存储介质,其上存储有计算机程 序,其特征在于,所述计算机程序被处理器执行时实现上述实施例的基因组结构变异的检测方法。
其中,可读存储介质可以采用的更具体可以包括但不限于:便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。
在可能的实施方式中,本发明还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行实现基因组结构变异的检测方法。
其中,可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码,所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。
Claims (10)
- 一种基因组结构变异的检测方法,其特征在于,所述方法包括:获取待检测样本的测序序列,所述测序序列的数量为多个;根据每个所述测序序列中的单碱基变异信息对所述测序序列进行单体型分型;对所属于相同单体型的测序序列进行组装以得到单体型序列,并根据单体型序列进行基因组结构变异分析。
- 如权利要求1所述的基因组结构变异的检测方法,其特征在于,根据每个所述测序序列的单碱基变异信息对所述测序序列进行单体型分型,包括:获取每个测序序列中的单碱基变异信息;确定与所述单碱基变异信息相匹配的单体型信息,将所述测序序列分型至对应的单体型,所述单体型信息通过对所有测序序列的单碱基变异信息进行连锁性分析得到。
- 如权利要求2所述的基因组结构变异的检测方法,其特征在于,获取每个测序序列的单碱基变异信息,包括:将所述测序序列与参考基因组进行序列比对,将所述测序序列中所有与参考基因组不一致的碱基信息确定为所述测序序列的单碱基变异信息。
- 如权利要求2所述的基因组结构变异的检测方法,其特征在于,确定与所述单碱基变异信息相匹配的单体型信息,包括:通过种子延伸对待检测样本中的单碱基变异信息进行连锁强度分析,以确定待检测样本的单体型信息;将所述测序序列的单碱基变异信息与所述单体型信息进行匹配,以确定测序序列所属的单体型。
- 如权利要求1所述的基因组结构变异的检测方法,其特征在于,对所属于相同单体型的测序序列进行组装以得到单体型序列,包括:对属于相同单体型的测序序列进行局部组装以得到单体型序列。
- 如权利要求1所述的基因组结构变异的检测方法,其特征在于,根据单体型序列进行基因组结构变异分析,包括:将所述单体型序列与参考基因组进行序列比对,根据序列比对的结果确定所述单体型序列是否出现基因组结构变异。
- 如权利要求1所述的基因组结构变异的检测方法,其特征在于,获取待检测样本的测序序列,包括:通过对所述待检测样本进行长读长测序得到所述待检测样本的测序序列。
- 一种基因组结构变异的检测系统,其特征在于,所述系统包括:获取模块,用于获取待检测样本的测序序列,所述测序序列的数量为多个;分型模块,用于根据每个所述测序序列中的单碱基变异信息对所述测序序列进行单体型分型;分析模块,用于对所属于相同单体型的测序序列进行组装以得到单体型序列,并根据单体型序列进行基因组结构变异分析。
- 一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-7中任一项所述的基因组结构变异的检测方法。
- 一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7中任一项所述的基因组结构变异的检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2022/144315 WO2024138733A1 (zh) | 2022-12-30 | 2022-12-30 | 基因组结构变异的检测方法、系统、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2022/144315 WO2024138733A1 (zh) | 2022-12-30 | 2022-12-30 | 基因组结构变异的检测方法、系统、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2024138733A1 true WO2024138733A1 (zh) | 2024-07-04 |
Family
ID=91716280
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/CN2022/144315 WO2024138733A1 (zh) | 2022-12-30 | 2022-12-30 | 基因组结构变异的检测方法、系统、设备及介质 |
Country Status (1)
Country | Link |
---|---|
WO (1) | WO2024138733A1 (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012034251A2 (zh) * | 2010-09-14 | 2012-03-22 | 深圳华大基因科技有限公司 | 一种基因组结构性变异检测方法和系统 |
US20180135120A1 (en) * | 2015-04-02 | 2018-05-17 | The Jackson Laboratory | Comprehensive methods for detecting genomic variations |
CN108121897A (zh) * | 2016-11-29 | 2018-06-05 | 华为技术有限公司 | 一种基因组变异检测方法及检测装置 |
CN110021351A (zh) * | 2018-07-19 | 2019-07-16 | 深圳华大生命科学研究院 | 分析碱基连锁强度以及基因分型方法和系统 |
WO2022054178A1 (ja) * | 2020-09-09 | 2022-03-17 | 株式会社日立ハイテク | 個体ゲノムの構造変異検出方法及び装置 |
CN114250279A (zh) * | 2020-09-22 | 2022-03-29 | 上海韦翰斯生物医药科技有限公司 | 一种单倍型的构建方法 |
CN114496077A (zh) * | 2022-04-15 | 2022-05-13 | 北京贝瑞和康生物技术有限公司 | 用于检测单核苷酸变异和插入缺失的方法、设备和介质 |
CN114999573A (zh) * | 2022-04-14 | 2022-09-02 | 哈尔滨因极科技有限公司 | 一种基因组变异检测方法及检测系统 |
CN114999570A (zh) * | 2022-08-05 | 2022-09-02 | 苏州贝康医疗器械有限公司 | 一种不依赖于先证者的单体型构建方法 |
-
2022
- 2022-12-30 WO PCT/CN2022/144315 patent/WO2024138733A1/zh unknown
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012034251A2 (zh) * | 2010-09-14 | 2012-03-22 | 深圳华大基因科技有限公司 | 一种基因组结构性变异检测方法和系统 |
US20180135120A1 (en) * | 2015-04-02 | 2018-05-17 | The Jackson Laboratory | Comprehensive methods for detecting genomic variations |
CN108121897A (zh) * | 2016-11-29 | 2018-06-05 | 华为技术有限公司 | 一种基因组变异检测方法及检测装置 |
CN110021351A (zh) * | 2018-07-19 | 2019-07-16 | 深圳华大生命科学研究院 | 分析碱基连锁强度以及基因分型方法和系统 |
WO2022054178A1 (ja) * | 2020-09-09 | 2022-03-17 | 株式会社日立ハイテク | 個体ゲノムの構造変異検出方法及び装置 |
CN114250279A (zh) * | 2020-09-22 | 2022-03-29 | 上海韦翰斯生物医药科技有限公司 | 一种单倍型的构建方法 |
CN114999573A (zh) * | 2022-04-14 | 2022-09-02 | 哈尔滨因极科技有限公司 | 一种基因组变异检测方法及检测系统 |
CN114496077A (zh) * | 2022-04-15 | 2022-05-13 | 北京贝瑞和康生物技术有限公司 | 用于检测单核苷酸变异和插入缺失的方法、设备和介质 |
CN114999570A (zh) * | 2022-08-05 | 2022-09-02 | 苏州贝康医疗器械有限公司 | 一种不依赖于先证者的单体型构建方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sedlazeck et al. | Piercing the dark matter: bioinformatics of long-range sequencing and mapping | |
Tello et al. | NGSEP3: accurate variant calling across species and sequencing protocols | |
Guo et al. | Illumina human exome genotyping array clustering and quality control | |
McCormick et al. | RIG: Recalibration and interrelation of genomic sequence data with the GATK | |
US7584058B2 (en) | Genetic diagnosis using multiple sequence variant analysis | |
JP2019515369A (ja) | 遺伝的バリアント−表現型解析システムおよび使用方法 | |
JP7297774B2 (ja) | 構造変異の分析 | |
US20020077775A1 (en) | Methods of DNA marker-based genetic analysis using estimated haplotype frequencies and uses thereof | |
US20060257888A1 (en) | Genetic diagnosis using multiple sequence variant analysis | |
Huang et al. | Evaluation of variant detection software for pooled next-generation sequence data | |
Leonard et al. | Graph construction method impacts variation representation and analyses in a bovine super-pangenome | |
Chen et al. | Recent advances in sequence assembly: principles and applications | |
Lemay et al. | Combined use of Oxford Nanopore and Illumina sequencing yields insights into soybean structural variation biology | |
Lei et al. | Overview of structural variation calling: simulation, identification, and visualization | |
Meng et al. | Genome sequence assembly algorithms and misassembly identification methods | |
Hoang et al. | De novo assembly and characterizing of the culm-derived meta-transcriptome from the polyploid sugarcane genome based on coding transcripts | |
Sezerman et al. | Bioinformatics workflows for genomic variant discovery, interpretation and prioritization | |
Pook et al. | Increasing calling accuracy, coverage, and read-depth in sequence data by the use of haplotype blocks | |
WO2024138733A1 (zh) | 基因组结构变异的检测方法、系统、设备及介质 | |
WO2021053349A1 (en) | Kit and method of using kit | |
Weisburd et al. | Insights from a genome-wide truth set of tandem repeat variation | |
US20030211501A1 (en) | Method and system for determining haplotypes from a collection of polymorphisms | |
Song et al. | Conversion events in gene clusters | |
US20230368864A1 (en) | Haplotype-block-based imputation of genomic markers | |
Sorrentino et al. | PacMAGI: A pipeline including accurate indel detection for the analysis of PacBio sequencing data applied to RPE65 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 22969873 Country of ref document: EP Kind code of ref document: A1 |