WO2022087839A1 - 基于无创产前基因检测数据的亲缘关系判定方法和装置 - Google Patents

基于无创产前基因检测数据的亲缘关系判定方法和装置 Download PDF

Info

Publication number
WO2022087839A1
WO2022087839A1 PCT/CN2020/124079 CN2020124079W WO2022087839A1 WO 2022087839 A1 WO2022087839 A1 WO 2022087839A1 CN 2020124079 W CN2020124079 W CN 2020124079W WO 2022087839 A1 WO2022087839 A1 WO 2022087839A1
Authority
WO
WIPO (PCT)
Prior art keywords
kinship
child
mother
probability
relationship
Prior art date
Application number
PCT/CN2020/124079
Other languages
English (en)
French (fr)
Inventor
黄树嘉
李志超
蒋晓森
金鑫
尹烨
王洪琦
Original Assignee
深圳华大基因股份有限公司
深圳华大法医科技有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 深圳华大基因股份有限公司, 深圳华大法医科技有限公司 filed Critical 深圳华大基因股份有限公司
Priority to CN202080104999.8A priority Critical patent/CN116209777A/zh
Priority to PCT/CN2020/124079 priority patent/WO2022087839A1/zh
Publication of WO2022087839A1 publication Critical patent/WO2022087839A1/zh

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6888Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Organic Chemistry (AREA)
  • Analytical Chemistry (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Molecular Biology (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Physics & Mathematics (AREA)
  • Biochemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

一种基于无创产前基因检测数据的亲缘关系判定方法和装置,该方法包括:将待检儿童的全基因组测序数据比对到母亲无创产前基因检测测序数据库中;分别提取每名潜在母亲和待检儿童在指定位点集合上的可信碱基集;基于可信碱基集计算待检儿童与每名潜在母亲之间的遗传相似度;根据遗传相似度计算待检儿童与每名潜在母亲之间的亲缘概率,形成亲缘概率矩阵;根据亲缘概率矩阵,判定待检儿童与潜在母亲之间的确切的亲缘关系。通过无创产前基因检测数据集与儿童的全基因测序所得的基因序列比对,挖掘无创产前基因检测数据中的亲缘关系信息。

Description

基于无创产前基因检测数据的亲缘关系判定方法和装置 技术领域
本发明涉及亲权鉴定技术领域,尤其涉及一种基于无创产前基因检测数据的亲缘关系判定方法和装置。
背景技术
目前,司法亲权关系判定主要应用在两个场景中,一是亲子鉴定,二是走失儿童的寻回。这两个应用在司法上所用的方法是一样的,主要是通过短串联重复序列(short tandem repeat,STR)分型的方法来确定亲子关系。
具体来讲,STR分型方法首先检测13个或者大于13个特定的常染色体STR基因座,必要时需要继续检测Y染色体、X染色体、线粒体DNA的基因座,然后计算其累计亲权指数(CPI),最终得到检测结论。尽管STR被广泛应用于亲权鉴定,该方法存在实际应用上的缺陷。首先,STR在遗传过程的较高突变率,容易导致无法判断亲子关系或错误判断亲子关系的情况。其次,对于高度降解检材,基于毛细管电泳的STR检验可能无法获得全部基因座的完整分型结果,即使配合使用miniSTR试剂盒,也要求检材DNA长度在150bp以上。最后,STR分型方法往往只局限于二联体或三联体的亲权鉴定,并不适用于在人群中寻找对应的亲权关系。
人群中亲缘关系的判定是走失儿童寻回家庭最为重要的方面,但目前司法机关的STR数据库所包含的人群数量和范围存在一定的限制。对于那些尚未在司法机关录入STR数据的家庭来说,如果儿童走失,最后即使被公安机关寻回,也会由于数据上的缺失而导致无法为儿童找到其家庭。
除了短串联重复序列方法外,还有利用二代高通量测序技术(NGS)检测样本的单碱基多态性(SNP)位点,然后通过比对得出亲子关系的新型鉴定技术也在蓬勃发展中。尽管该方面更加全面,但是由于该方法成本较高,暂未被广泛推广,因此其原始的数据积累严重不足,难以在亲子寻回中发挥作用。
目前,无创产前基因检测(Noninvasive prenatal testing,NIPT)在临床上越来越成熟,在全国各大城市、区域上的推广越来越广泛。NIPT技术,又称为NIPS(noninvasive prenatal screening),是检测胎儿患有基因疾病可能性的方法。这项技术通过采集孕妇外周血提取游离DNA,采用高通量测序技术并结合生物信息分析,检测胎儿是否发生染色体非整倍体变异。目前,我国已有超过九百万孕妇进行了该项检测,人群覆盖范围广泛而且还在不断增长中。这个数据同时蕴含了母亲和少量胎儿的DNA信息。从原理上,将有可能基于这样的数据,协助司法机关为走失儿童寻回家庭。而且该数据还有两个明显的好处,一是人群精准,进行该检测的都是怀孕的母亲,是即将拥有小孩的家庭,这样的数据相比于其他无关群体在走失儿童寻回中将能发挥更大的作用;二是该检测数据还在全国范围内不断可持续地增长,这将为其在走失儿童寻回家庭的应用中,奠定一个源源不断的数据基础。但如何将该数据应用于该方面却尚未有明确的方法。
全基因组测序(Whole genome sequencing,WGS)是利用高通量测序平台对生物个体的基因组中的全部基因进行测序,测定其DNA的碱基序列。利用该技术可在全基因组水平上检测单核苷酸变异(SNV)、插入缺失(InDel)、拷贝数变异(CNV)和结构变异(SV)等多方面的突变信息。
发明内容
本发明的目的在于提供一种基于无创产前基因检测(NIPT)数据的亲缘关系判定方法和装置,通过NIPT数据集与儿童的全基因测序所得的基因序列比对,充分挖掘NIPT数据中的亲缘关系信息,以达到高效地在NIPT检测人群中进行亲缘关系判定的目的。
根据本发明的第一方面,本发明提供一种基于无创产前基因检测数据的亲缘关系判定方法,包括:
将待检儿童的全基因组测序数据比对到母亲无创产前基因检测测序数据库中,上述数据库中包含多名潜在母亲的基因测序数据;
分别提取每名潜在母亲和待检儿童在指定位点集合上的可信碱基集;
基于上述可信碱基集计算待检儿童与每名潜在母亲之间的遗传相似度;
根据上述遗传相似度计算待检儿童与每名潜在母亲之间的亲缘概率,形成亲缘概率矩阵;
根据上述亲缘概率矩阵,判定待检儿童与潜在母亲之间的确切的亲缘关系。
在优选实施例中,上述全基因组测序数据的测序深度为3X。
在优选实施例中,上述母亲的基因测序数据的测序深度为0.08X。
在优选实施例中,上述指定位点集合包括碱基比对质量值高于第一预设值,碱基质量值高于第二预设值,且位于基因多态性数据库中的二碱基多态性位点。
在优选实施例中,上述第一预设值是30,上述第二预设值是20,上述基因多态性数据库是百万中国人基因多态性数据库。
在优选实施例中,上述可信碱基集包括在指定位点集合上的多个可信碱基,上述可信碱基是覆盖在该指定位点上的测序读长最多的碱基。
在优选实施例中,上述遗传相似度通过如下公式计算:
Figure PCTCN2020124079-appb-000001
其中,n表示二碱基多态性位点的总个数,i表示待检儿童的编号,j表示上述母亲无创产前基因检测测序数据库中母亲的编号,d s表示位点遗传距离,PE s表示二碱基多态性位点s上母子碱基不同时的排除概率,p s表示二碱基多态性位点s的两种基因型中的一种基因型在人群中的频率。
上述公式中,“相同”表示儿童i和第j个母亲在位点s上的碱基相同,“不同”表示儿童i和第j个母亲在位点s上的碱基不同,“无覆盖”表示儿童i和第j个母亲的测序数据中没有在位点s上测到任何序列信息。
在优选实施例中,上述亲缘概率通过如下公式计算:
Figure PCTCN2020124079-appb-000002
其中,p代表儿童与母亲的亲缘概率,g mean是儿童与所有潜在母亲的遗传相似度的均值,std是儿童与所有潜在母亲遗传相似度的标准差,N(0,1)指均值为0、标准差为1的标准正态分布,Z g表示遗传相似度标准化之后的数值,N(0,1).cdf(Z g)表示Z g在标准正态分布上取得的概率值。
在优选实施例中,上述方法还包括:
将上述亲缘概率矩阵中母子关系特异性低的母亲样本移出上述亲缘概率矩阵,得到调整后的亲缘概率矩阵,再以调整后的亲缘概率矩阵,判定待检儿童与潜在母亲之间的确切的亲缘关系,其中上述母子关系特异性低是指上述母亲样本与所有待检儿童的遗传相似度都高于相似度阈值。
在优选实施例中,上述相似度阈值是0.9以上。
在优选实施例中,上述以调整后的亲缘概率矩阵,判定待检儿童与潜在母亲之间的确切的亲缘关系,包括:将亲缘概率大于亲缘概率阈值的母子组合判定为具有亲缘关系。
在优选实施例中,上述亲缘概率阈值是0.99以上。
根据本发明的第二方面,本发明提供一种基于无创产前基因检测数据的亲缘关系判定装置,包括:
数据获取单元,用于将待检儿童的全基因组测序数据比对到母亲无创产前基因检测测序数据库中,上述数据库中包含多名潜在母亲的基因测序数据;
可信碱基提取单元,用于分别提取每名潜在母亲和待检儿童在指定位点集合上的可信碱基集;
遗传相似度计算单元,用于基于上述可信碱基集计算待检儿童与每名潜在母亲之间的遗传相似度;
亲缘概率计算单元,用于根据上述遗传相似度计算待检儿童与每名潜在母亲之间的亲缘概率,形成亲缘概率矩阵;
亲缘关系判定单元,用于根据上述亲缘概率矩阵,判定待检儿童与潜在母亲之间的确切的亲缘关系。
根据本发明的第三方面,本发明提供一种计算机可读存储介质,其包括程序,该程序能够被处理器执行以实现如第一方面的方法。
本发明的亲缘关系判定方法,通过NIPT数据集与儿童的全基因测序所得的基因序列比对,充分挖掘NIPT数据中的亲缘关系信息,帮助失踪儿童寻亲,协助解决当前存在的走失儿童在被公安机关找回后却无法定位其家庭的难题,本发明拓展NIPT数据在司法方面的价值。
附图说明
图1为本发明实施例中基于无创产前基因检测数据的亲缘关系判定方法流程图;
图2为本发明实施例中基于无创产前基因检测数据的亲缘关系判定方法的示例性流程图;
图3为本发明实施例中基于无创产前基因检测数据的亲缘关系判定装置结构框图;
图4为本发明的一个实施例中计算得到的亲缘概率矩阵结果图;
图5为本发明的另一个实施例中计算得到的亲缘概率矩阵结果图;
图6为本发明的另一个实施例中调整得到的亲缘概率矩阵结果图。
具体实施方式
下面通过具体实施方式结合附图对本发明作进一步详细说明。在以下的实施方式中,很多细节描述是为了使得本发明能被更好的理解。然而,本领域技术人员可以毫不费力的认识到,其中部分特征在不同情况下是可以省略的,或者可以由其他材料、方法所替代。
另外,说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时,方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此,说明书和附图中的各种顺序只是为了清楚描述某一个实施例,并不意味着是必须的顺序,除非另有说明其中某个顺序是必须遵循的。
如图1所示,本发明实施例提供一种基于无创产前基因检测数据的亲缘关系判定方法,包括如下步骤:
S110:将待检儿童的全基因组测序数据比对到母亲无创产前基因检测测序数据库中,数据库中包含多名潜在母亲的基因测序数据。
本发明的亲缘关系判定方法,利用无创产前基因检测(NIPT)数据,借助已有的母亲NIPT数据库,与儿童的全基因组测序(WGS)所得的基因序列比对,充分挖掘NIPT数据中的亲缘关系信息,确定NIPT数据与走失儿童(即待检儿童)的亲缘关系,可以缩小寻亲筛查范围,协助司法机关帮助走失儿童完成寻亲。
本发明的亲缘关系判定方法,能够利用超低测序深度的NIPT数据(例如,测序深度可以低至0.08X),与全基因组测序(WGS)数据(测序深度可以低至3X)进行亲缘关系判定。
本发明实施例中,母亲无创产前基因检测测序数据库中包含多名潜在母亲的基因测序数据。潜在母亲即在孕期进行过无创产前基因检测,并将 其测序数据存储到数据库中的女性。
如图2所示,小孩的3X全基因组测序数据,通过数据质控(例如,使用SOAPnuke软件进行过滤)、比对(例如,使用BWA、Edico等软件进行比对),可以得到母亲NIPT数据与小孩全基因组测序数据的比对文件。
S120:分别提取每名潜在母亲和待检儿童在指定位点集合上的可信碱基集。
本发明实施例中,指定位点集合包括碱基比对质量值高于第一预设值,碱基质量值高于第二预设值,且位于基因多态性数据库中的二碱基多态性位点。例如,在本发明的一个实施例中,指定位点集合包括碱基比对质量值高于30,碱基质量值高于20,且位于百万中国人基因多态性数据库(CMDB)中的二碱基多态性位点。
本发明实施例中,依据上述标准提取出指定位点集合,然后再提取各位点的高可信碱基,形成可信碱基集(称为Germbase)。在本发明的一个实施例中,按照覆盖在指定位点上的测序读长(reads)的数量来提取可信碱基集。详细来讲,按照指定位点上的不同碱基所覆盖的测序读长(reads)的数量排序,测序读长(reads)覆盖最多的碱基最可信。但如果测序读长覆盖的碱基有ALT(非参考碱基,即发生突变与参考序列碱基不一样的碱基),且该ALT的测序读长(reads)数大于3,则记为ALT。如有多个ALT,则按照测序读长(reads)最多的为准。
如图2所示,通过该步骤分别得到待检儿童在指定位点集合上的可信碱基集(图中小孩Germbase),以及NIPT数据库中的母亲在指定位点集合上的可信碱基集(图中母亲Germbase数据库)。
S130:基于可信碱基集计算待检儿童与每名潜在母亲之间的遗传相似 度。
本发明的方法中,定义了母亲-小孩遗传相似度及其计算方式,用来定量描述每名潜在母亲与待检儿童两个样本间的亲缘关系。计算小孩与数据库中所有母亲的遗传相似度,再转换为亲缘概率,最终判定出最可能的亲缘关系。
根据遗传规律可知,任意一个母亲与小孩存在差异的碱基位点主要来源于小孩基因组的随机突变或者非亲缘关系这两种情况。依据哈迪-温伯格定律,可以推断,对于任意一个二碱基多态性位点i,假设有A和a两种基因型,基因型A和a在人群中的频率分别为p和q,其中q=1-p。假如二碱基多态性位点i上母子碱基不同,那么排除概率为:
Figure PCTCN2020124079-appb-000003
在遗传相似度的计算中,需要计算所有位点的累计排除概率,最终才能得到小孩与数据库中各个母亲的遗传相似度。
在本发明的一个实施例中,遗传相似度通过如下公式计算:
Figure PCTCN2020124079-appb-000004
其中,n表示二碱基多态性位点的总个数,i表示待检儿童的编号,j表示上述母亲无创产前基因检测测序数据库中母亲的编号,d s表示位点遗传距离,PE s表示二碱基多态性位点s上母子碱基不同时的排除概率,p s表示二碱基多态性位点s的两种基因型中的一种基因型在人群中的频率。
S140:根据遗传相似度计算待检儿童与每名潜在母亲之间的亲缘概率,形成亲缘概率矩阵。
在本发明的一个实施例中,亲缘概率通过如下公式计算:
Figure PCTCN2020124079-appb-000005
其中,p代表儿童与母亲的亲缘概率,g mean是儿童与所有潜在母亲的遗传相似度的均值,std是儿童与所有潜在母亲遗传相似度的标准差,N(0,1)指均值为0、标准差为1的标准正态分布,Z g表示遗传相似度标准化之后的数值,N(0,1).cdf(Z g)表示Z g在标准正态分布上取得的概率值,该值在本发明中定义为“亲缘概率”。
每个小孩在经过计算之后都会得到一组亲缘概率数据,用于描述小孩来自某个母亲的几率。计算出多名待检儿童与多名潜在母亲之间的亲缘概率,能够形成亲缘概率矩阵,该矩阵中包含每名待检儿童与每名名潜在母亲的亲缘概率数据。
在一些实施例中,亲缘概率矩阵中存在母子关系(M-C)特异性低的母亲样本,这些样本与所有待检儿童的遗传相似度都非常接近,例如,与所有待检儿童的遗传相似度都高于相似度阈值(例如,0.9以上)。这些样本对于亲缘关系判断作用较小。因此,在本发明的一个实施例中,本发明的方法还包括如下步骤:
将亲缘概率矩阵中母子关系特异性低的母亲样本移出亲缘概率矩阵,得到调整后的亲缘概率矩阵,再以调整后的亲缘概率矩阵,判定待检儿童与潜在母亲之间的确切的亲缘关系。
S150:根据亲缘概率矩阵,判定待检儿童与潜在母亲之间的确切的亲缘关系。
本发明中,在不存在母子关系特异性低的母亲样本的情况下,可以直 接用上一步计算得到的亲缘概率矩阵判定待检儿童与潜在母亲之间的确切的亲缘关系。在存在母子关系特异性低的母亲样本的情况下,以调整后的亲缘概率矩阵,判定待检儿童与潜在母亲之间的确切的亲缘关系。具体而言,在本发明的一个实施例中,将亲缘概率大于亲缘概率阈值(例如,0.99以上)的母子组合判定为具有亲缘关系。
例如,在本发明的一个实施例中,将亲缘概率矩阵中M-C特异性较低的NIPT数据移到备选矩阵中,然后在剩余的亲缘概率矩阵中将大于0.99的M-C组合判定为具有亲缘关系的组合。如果此时在这些样本中无法判定有效的亲缘关系,则进一步利用备选矩阵中的NIPT样本数据,重新检测异常NIPT样本后重新匹配。
本发明的亲缘关系判定方法,与传统基于串联重复序列(STR)的方法以及SNP方法相比,更有利于地域规模性推广,且NIPT检测已经逐渐成为临床的孕检筛查项目,用户基础日益增大,也是对原先被认为二次应用价值不大的NIPT数据的深层应用。另外,本发明的亲缘关系判定方法,无需母亲再次采样,节约成本。NIPT产品市场的飞速扩大,有助于数据量的积累,利于本应用进一步推广,且随着数据量的积累,本发明的亲缘关系判定方法的利用价值更加重要。
对应于本发明的亲缘关系判定方法,本发明实施例还提供一种基于无创产前基因检测数据的亲缘关系判定装置,如图3所示,包括:数据获取单元310,用于将待检儿童的全基因组测序数据比对到母亲无创产前基因检测测序数据库中,数据库中包含多名潜在母亲的基因测序数据;可信碱基提取单元320,用于分别提取每名潜在母亲和待检儿童在指定位点集合上的可信碱基集;遗传相似度计算单元330,用于基于可信碱基集计算待检儿童与每名潜在母亲之间的遗传相似度;亲缘概率计算单元340,用于 根据遗传相似度计算待检儿童与每名潜在母亲之间的亲缘概率,形成亲缘概率矩阵;亲缘关系判定单元350,用于根据亲缘概率矩阵,判定待检儿童与潜在母亲之间的确切的亲缘关系。
本领域技术人员可以理解,上述实施方式中各种方法的全部或部分功能可以通过硬件的方式实现,也可以通过计算机程序的方式实现。当上述实施方式中全部或部分功能通过计算机程序的方式实现时,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器、随机存储器、磁盘、光盘、硬盘等,通过计算机执行该程序以实现上述功能。例如,将程序存储在设备的存储器中,当通过处理器执行存储器中程序,即可实现上述全部或部分功能。另外,当上述实施方式中全部或部分功能通过计算机程序的方式实现时,该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中,通过下载或复制保存到本地设备的存储器中,或对本地设备的系统进行版本更新,当通过处理器执行存储器中的程序时,即可实现上述实施方式中全部或部分功能。
因此,本发明的一种实施例中提供一种计算机可读存储介质,包括程序,该程序能够被处理器执行以实现本发明的基于无创产前基因检测数据的亲缘关系判定方法。
以下通过实施例详细说明本发明的技术方案和效果,应当理解,实施例仅是示例性的,不能理解为对本发明的限制。
以下实施例,先后对15个家系以及15个小孩-1000个NIFTY数据展开两轮测试。
实施例1:
该家系的样本随机抽取自表征正常的母亲NIFTY(胎儿染色体异常无 创产前基因检测)数据以及小孩出生后WGS测序数据。
(1)首先将各个母亲NIFTY数据的比对文件截取至0.08X左右深度,将小孩的WGS数据截取至3X左右深度,以模拟使用场景。
(2)Germbase提取
首先,提取高质量的位点。选择那些比对质量值高于30,碱基质量值高于20,位于CMDB二碱基多态性位点上的碱基信息。
然后,提取样本的每个位点的高可信碱基集,即Germbase文件。依据覆盖每个位点上测序读长(reads)对应的碱基(Read bases),判断该位点最可信的碱基。
(3)母亲与小孩(M-C)匹配。计算母亲-小孩位于CMDB二态位点的遗传相似度,然后根据M-C间Germbase文件的遗传相似度所构成的遗传相似度矩阵,进一步计算亲缘概率矩阵。
(4)根据亲缘概率矩阵,判定亲缘关系。如图4所示,m1-m15表示母亲NIPT数据,c1-c15表示儿童WGS数据,家系与数字编号一一对应。测试结果表明15个家系的亲缘判定全部正确,符合预期。
实施例2
本实施例扩大样本范围,样本随机抽取自1000个正常的母亲NIFTY数据以及实施例1中15家系的母亲、小孩的WGS数据。
(1)首先将各个母亲NIFTY数据的比对文件截取至0.08X左右深度,将小孩的WGS数据截取至3X,以契合使用场景。
(2)Germbase提取
首先,提取高质量的位点。选择那些比对质量值高于30,碱基质量值高于20,位于CMDB二碱基多态性位点上的碱基信息。
然后,提取样本的每个位点的高可信碱基集,即Germbase文件。依据覆盖每个位点上测序读长(reads)对应的碱基(Read bases),判断该位点最可信的碱基。
(3)母亲与小孩(M-C)匹配。计算母亲-小孩位于CMDB二态位点的遗传相似度,然后根据M-C间Germbase文件的遗传相似度所构成的遗传相似度矩阵,进一步计算亲缘概率矩阵。
(4)根据亲缘概率矩阵,判定亲缘关系。如图5所示,初步的亲缘概率矩阵表明15个家系的亲缘判定概率明显最高,全部判定正确。但是1000人样本中存在部分样本出现特异性较低的情况,如810号样本,与所有小孩样本的遗传相似度都高于0.9。将此类样本剔除到备选数据库后,利用剩余数据库仍然可以正确判定m1-15与c1-c15的一一对应关系。如图6所示,展示了部分有代表性的结果。
以上应用了具体个例对本发明进行阐述,只是用于帮助理解本发明,并不用以限制本发明。对于本发明所属技术领域的技术人员,依据本发明的思想,还可以做出若干简单推演、变形或替换。

Claims (14)

  1. 一种基于无创产前基因检测数据的亲缘关系判定方法,其特征在于,所述方法包括:
    将待检儿童的全基因组测序数据比对到母亲无创产前基因检测测序数据库中,所述数据库中包含多名潜在母亲的基因测序数据;
    分别提取每名潜在母亲和待检儿童在指定位点集合上的可信碱基集;
    基于所述可信碱基集计算待检儿童与每名潜在母亲之间的遗传相似度;
    根据所述遗传相似度计算待检儿童与每名潜在母亲之间的亲缘概率,形成亲缘概率矩阵;
    根据所述亲缘概率矩阵,判定待检儿童与潜在母亲之间的确切的亲缘关系。
  2. 根据权利要求1所述的亲缘关系判定方法,其特征在于,所述全基因组测序数据的测序深度为3X。
  3. 根据权利要求1所述的亲缘关系判定方法,其特征在于,所述母亲的基因测序数据的测序深度为0.08X。
  4. 根据权利要求1所述的亲缘关系判定方法,其特征在于,所述指定位点集合包括碱基比对质量值高于第一预设值,碱基质量值高于第二预设值,且位于基因多态性数据库中的二碱基多态性位点。
  5. 根据权利要求4所述的亲缘关系判定方法,其特征在于,所述第一预设值是30,所述第二预设值是20,所述基因多态性数据库是百万中国人 基因多态性数据库。
  6. 根据权利要求1所述的亲缘关系判定方法,其特征在于,所述可信碱基集包括在指定位点集合上的多个可信碱基,所述可信碱基是覆盖在该指定位点上的测序读长最多的碱基。
  7. 根据权利要求1所述的亲缘关系判定方法,其特征在于,所述遗传相似度通过如下公式计算:
    Figure PCTCN2020124079-appb-100001
    其中,n表示二碱基多态性位点的总个数,i表示待检儿童的编号,j表示所述母亲无创产前基因检测测序数据库中母亲的编号,d s表示位点遗传距离,PE s表示二碱基多态性位点s上母子碱基不同时的排除概率,p s表示二碱基多态性位点s的两种基因型中的一种基因型在人群中的频率。
  8. 根据权利要求1所述的亲缘关系判定方法,其特征在于,所述亲缘概率通过如下公式计算:
    Figure PCTCN2020124079-appb-100002
    其中,p代表儿童与母亲的亲缘概率,g mean是儿童与所有潜在母亲的遗传相似度的均值,std是儿童与所有潜在母亲遗传相似度的标准差,N(0,1)指均值为0、标准差为1的标准正态分布,Z g表示遗传相似度标准化之后的数值,N(0,1).cdf(Z g)表示Z g在标准正态分布上取得的概率值。
  9. 根据权利要求1所述的亲缘关系判定方法,其特征在于,所述方法还包括:
    将所述亲缘概率矩阵中母子关系特异性低的母亲样本移出所述亲缘概率矩阵,得到调整后的亲缘概率矩阵,再以调整后的亲缘概率矩阵,判定待检儿童与潜在母亲之间的确切的亲缘关系,其中所述母子关系特异性低是指所述母亲样本与所有待检儿童的遗传相似度都高于相似度阈值。
  10. 根据权利要求9所述的亲缘关系判定方法,其特征在于,所述相似度阈值是0.9以上。
  11. 根据权利要求9所述的亲缘关系判定方法,其特征在于,所述以调整后的亲缘概率矩阵,判定待检儿童与潜在母亲之间的确切的亲缘关系,包括:将亲缘概率大于亲缘概率阈值的母子组合判定为具有亲缘关系。
  12. 根据权利要求11所述的亲缘关系判定方法,其特征在于,所述亲缘概率阈值是0.99以上。
  13. 一种基于无创产前基因检测数据的亲缘关系判定装置,其特征在于,所述装置包括:
    数据获取单元,用于将待检儿童的全基因组测序数据比对到母亲无创产前基因检测测序数据库中,所述数据库中包含多名潜在母亲的基因测序数据;
    可信碱基提取单元,用于分别提取每名潜在母亲和待检儿童在指定位点集合上的可信碱基集;
    遗传相似度计算单元,用于基于所述可信碱基集计算待检儿童与每名潜在母亲之间的遗传相似度;
    亲缘概率计算单元,用于根据所述遗传相似度计算待检儿童与每名潜在母亲之间的亲缘概率,形成亲缘概率矩阵;
    亲缘关系判定单元,用于根据所述亲缘概率矩阵,判定待检儿童与潜在母亲之间的确切的亲缘关系。
  14. 一种计算机可读存储介质,其包括程序,所述程序能够被处理器执行以实现如权利要求1至12任一项所述的方法。
PCT/CN2020/124079 2020-10-27 2020-10-27 基于无创产前基因检测数据的亲缘关系判定方法和装置 WO2022087839A1 (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202080104999.8A CN116209777A (zh) 2020-10-27 2020-10-27 基于无创产前基因检测数据的亲缘关系判定方法和装置
PCT/CN2020/124079 WO2022087839A1 (zh) 2020-10-27 2020-10-27 基于无创产前基因检测数据的亲缘关系判定方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2020/124079 WO2022087839A1 (zh) 2020-10-27 2020-10-27 基于无创产前基因检测数据的亲缘关系判定方法和装置

Publications (1)

Publication Number Publication Date
WO2022087839A1 true WO2022087839A1 (zh) 2022-05-05

Family

ID=81383404

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2020/124079 WO2022087839A1 (zh) 2020-10-27 2020-10-27 基于无创产前基因检测数据的亲缘关系判定方法和装置

Country Status (2)

Country Link
CN (1) CN116209777A (zh)
WO (1) WO2022087839A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117524308A (zh) * 2023-05-23 2024-02-06 公安部鉴定中心 用于推测人亲缘关系等级的snp位点组合及其应用

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103559427A (zh) * 2013-11-12 2014-02-05 高扬 一种用数字标识生物序列和推断物种亲缘关系的方法
CN106521017A (zh) * 2016-12-30 2017-03-22 中国医学科学院医学生物学研究所 用两核苷酸重复的微卫星鉴定人源亲缘关系的方法
CN107217095A (zh) * 2017-06-15 2017-09-29 广东腾飞基因科技股份有限公司 人类亲权鉴定用多重pcr引物组及检测方法
CN108491691A (zh) * 2018-03-23 2018-09-04 河北医科大学 亲缘关系鉴定方法及终端设备
CN108998507A (zh) * 2018-07-24 2018-12-14 陈梦麟 一种应用于人群复杂亲缘关系鉴定的无创高通量检测方法
CN109207600A (zh) * 2017-07-06 2019-01-15 深圳华大法医科技有限公司 鉴定生物样本间亲缘关系的方法和系统
CN109207606A (zh) * 2018-09-26 2019-01-15 西南民族大学 用于亲权鉴定的ssr位点的筛选方法和应用
CN111279420A (zh) * 2017-09-07 2020-06-12 瑞泽恩制药公司 用于利用基因组数据分析中的亲缘关系的系统和方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103559427A (zh) * 2013-11-12 2014-02-05 高扬 一种用数字标识生物序列和推断物种亲缘关系的方法
CN106521017A (zh) * 2016-12-30 2017-03-22 中国医学科学院医学生物学研究所 用两核苷酸重复的微卫星鉴定人源亲缘关系的方法
CN107217095A (zh) * 2017-06-15 2017-09-29 广东腾飞基因科技股份有限公司 人类亲权鉴定用多重pcr引物组及检测方法
CN109207600A (zh) * 2017-07-06 2019-01-15 深圳华大法医科技有限公司 鉴定生物样本间亲缘关系的方法和系统
CN111279420A (zh) * 2017-09-07 2020-06-12 瑞泽恩制药公司 用于利用基因组数据分析中的亲缘关系的系统和方法
CN108491691A (zh) * 2018-03-23 2018-09-04 河北医科大学 亲缘关系鉴定方法及终端设备
CN108998507A (zh) * 2018-07-24 2018-12-14 陈梦麟 一种应用于人群复杂亲缘关系鉴定的无创高通量检测方法
CN109207606A (zh) * 2018-09-26 2019-01-15 西南民族大学 用于亲权鉴定的ssr位点的筛选方法和应用

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
LIU SIYANG; HUANG SHUJIA; CHEN FANG; ZHAO LIJIAN; YUAN YUYING; FRANCIS STEPHEN STARKO; FANG LIN; LI ZILONG; LIN LONG; LIU RONG; ZH: "Genomic Analyses from Non-invasive Prenatal Testing Reveal Genetic Associations, Patterns of Viral Infections, and Chinese Population History", CELL, ELSEVIER, AMSTERDAM NL, vol. 175, no. 2, 4 October 2018 (2018-10-04), Amsterdam NL , pages 347, XP085496805, ISSN: 0092-8674, DOI: 10.1016/j.cell.2018.08.016 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117524308A (zh) * 2023-05-23 2024-02-06 公安部鉴定中心 用于推测人亲缘关系等级的snp位点组合及其应用

Also Published As

Publication number Publication date
CN116209777A (zh) 2023-06-02

Similar Documents

Publication Publication Date Title
US11560598B2 (en) Systems and methods for analyzing circulating tumor DNA
EP3359695B1 (en) Methods and applications of gene fusion detection in cell-free dna analysis
US9115401B2 (en) Partition defined detection methods
JP7299169B2 (ja) 体細胞突然変異のクローン性を決定するための方法及びシステム
CN109767810B (zh) 高通量测序数据分析方法及装置
CA3040930A1 (en) Methods of identifying somatic mutational signatures for early cancer detection
US20120208708A1 (en) Diagnosing fetal chromosomal aneuploidy using massively parallel genomic sequencing
CN105143466B (zh) 通过大规模平行rna测序分析母亲血浆转录组
US11581062B2 (en) Systems and methods for classifying patients with respect to multiple cancer classes
BR112018015913B1 (pt) método, implementado utilizando um sistema de computador compreendendo um ou mais processadores e sistema de memória, para determinar uma variação no número de cópia de uma sequência de ácido nucleico de interesse, e, sistema para avaliar o número de cópia de uma sequência de ácido nucleico de interesse
JP2019503191A (ja) 卵巣予備能および卵巣機能の低下の結果としての不妊を評価するための方法およびシステム
US20210065842A1 (en) Systems and methods for determining tumor fraction
JP2016504016A (ja) 選択された時点における妊娠の確率を判定するためのシステムおよび方法
US11929148B2 (en) Systems and methods for enriching for cancer-derived fragments using fragment size
US20190338349A1 (en) Methods and systems for high fidelity sequencing
HUE030510T2 (hu) Magzati kromoszómális aneuploidia diagnosztizálása genomszekvenálás alkalmazásával
CN113035273B (zh) 一种快速、超高灵敏度的dna融合基因检测方法
US20210407623A1 (en) Determining tumor fraction for a sample based on methyl binding domain calibration data
US20190073445A1 (en) Identifying false positive variants using a significance model
WO2020063052A1 (zh) 胎儿游离dna浓度获取方法、获取装置、存储介质及电子装置
WO2022087839A1 (zh) 基于无创产前基因检测数据的亲缘关系判定方法和装置
TWI781230B (zh) 使用針對標靶定序的定點雜訊模型之方法、系統及電腦產品
CN114067908B (zh) 一种评估单样本同源重组缺陷的方法、装置和存储介质
WO2019213810A1 (zh) 检测染色体非整倍性的方法、装置及系统
JP2022527316A (ja) ウィルスに関連した癌のリスクの層別化

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20959003

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 26/09/2023)