WO2023108430A1

WO2023108430A1 - 基于全基因组分析与基因组编辑的植物物种鉴定方法与应用

Info

Publication number: WO2023108430A1
Application number: PCT/CN2021/138005
Authority: WO
Inventors: 宋经元; 郝利军; 许文杰; 辛天怡; 齐桂红
Original assignee: 中国医学科学院药用植物研究所
Priority date: 2021-12-14
Filing date: 2021-12-14
Publication date: 2023-06-22
Also published as: CN115843318B; US20230193301A1; CN115843318A

Abstract

本发明公开了一种基于全基因组分析与基因组编辑的植物物种鉴定方法与应用，即GAGE法(Genome Analysis and Genome Editing)，所述方法具体包括：筛选待鉴定植物全基因组中带有PAM的序列，将其与混伪品及密切相关物种的基因组比对后选择仅存在于待鉴定植物基因组中的序列作为靶标序列，引入基因组编辑系统对其进行检测，根据所选靶标序列设计并合成crRNA(CRISPR RNA)，crRNA引导Cas蛋白与靶标序列结合形成复合体，之后Cas蛋白反式切割活性被激活并切割带有荧光信号基团的单链DNA，通过检测荧光信号鉴定植物物种。

Description

基于全基因组分析与基因组编辑的植物物种鉴定方法与应用

技术领域

本申请涉及植物物种鉴定技术领域，具体涉及一种基于全基因组分析与基因组编辑的植物物种鉴定方法和应用。

背景技术

人类社会出现伊始，植物物种鉴定就与自然探索、社会发展和科学研究息息相关。尽管地球植物总数目前尚无定论，但毫无疑问其数目巨大，对这些种类多样、分布广泛、复杂难辨植物进行鉴定和分类是一项长期而艰巨的任务。早期研究中，主要根据植物的形态特征，化学成分等表现型进行物种鉴定，但由于表现型受环境和生长阶段等因素影响，往往无法真正反映植物的本质——基因型。二十世纪八十年代以来，DNA测序数据的引入使得根据基因型进行植物物种鉴定成为可能。作为植物全部遗传信息的载体，全基因组是植物鉴定的理想数据库，根据全基因组进行鉴定也是植物物种鉴定未来的发展方向。以往由于全基因组资源缺乏，生信分析能力较弱等限制，分子生物学鉴定方法如DNA条形码技术往往只关注几个特定区域，没有充分挖掘和利用全基因组的鉴定潜力。随着测序技术不断迭代，越来越多的植物全基因组被发表，同时计算机软硬件的发展也大大增强了基因组分析能力，两者为实现从全基因组层面进行植物鉴定提供了有力支撑。

Clustered regularly interspaced short palindromic repeats(CRISPR)/CRISPR-associated proteins(CRISPR/Cas)系统自问世以来就备受关注，除了用于基因组编辑，Cas12a和Cas13a反式切割活性的发现和应用还将CRISPR/Cas系统引入鉴定领域。JenniferA.Doudna、张锋和王金等人先后开发了DETECTR、SHERLOCK和HOLMES等方法并将其成功应用于病毒和细菌的检测和鉴定。在CRISPR/Cas12a系统中，crRNA会特异性识别靶标序列并引导Cas12与之结合形成三元复合体，然后Cas12a反式切割活性被激活并切割荧光信号分子产生可被检测的荧光。该反应在37℃下进行，操作简单，仅需要恒温与荧光检测仪器。

然而，相关现有技术均受技术限制只能从特定基因区域内筛选带有PAM(Protospacer adjacent motif，前间隔序列临近基序)的靶标序列，由于可供筛选的基因数据库较小，能够获得的靶标序列极其有限，导致靶标序列的特异性不足，容易发生脱靶等失误，不能很好地满足不同物种鉴定的需求。全基因组包含着生物的全部遗传信息，是物种鉴定的理想数据库，通过全基因组比对筛选序列差异并据此进行鉴定是物种鉴定的未来发展方向。本发明(以下称为GAGE法)将全基因组分析(Genome Analysis)与基因组编辑(Genome Editing)策略相结合，首次实现了从全基因组层面进行植物物种鉴定。与现有技术相比，GAGE法通过从全基因组中筛选带有PAM的靶标序列，获得待鉴定植物的全部可能用于物种鉴定的带有PAM的靶标序列，充分挖掘了全基因组应用于物种鉴定的潜力，为后续通过与待鉴定植物基因组比对选择用于判定待检测植物与待鉴定植物同一性的带有PAM的特异性靶标序列提供了充足的候选靶标序列。考虑到基因组蕴含的巨大信息以及带有PAM的靶标序列分布的广泛程度，理论上GAGE法可筛选获得判定任意待检测植物与待鉴定植物同一性的带有PAM的特异性靶标序列，消除脱靶等失误风险，即GAGE法可准确判定任意待检测植物与待鉴定植物的同一性。

发明内容

为此，本申请提出一种基于全基因组分析与基因组编辑的植物物种鉴定方法，包括如下步骤：

步骤1.根据待鉴定植物的全基因组序列，构建小片段基因组文库。在一些实施方案中，将待鉴定植物的全基因组分成(L-K+1)个长度为K的片段以构成小片段基因组文库，并计算每个片段的拷贝数，再通过与基因组比对确定每个片段的基因组位置，其中L表示基因组长度，K表示文库片段长度。

步骤2.从待鉴定植物的全基因组中提取带有PAM的候选靶标序列，其中PAM(前间隔序列临近基序)可根据所选基因组编辑系统来确定，例如CRISPR/Cas12a系统可选择5'端带有TTTV或3'段带有VAAA的基序，此类知识为本领域技术人员所熟知，不再赘述。优选地，对小片段基因组文库中的每一个片段检测PAM基序，并提取带有PAM的候选靶标序列构建候选靶标序列库。

步骤3.将候选靶标序列与混伪品及密切相关物种的全基因组进行筛选比对，选择仅存在于所述待鉴定植物中的序列作为靶标序列，优选位于种内保守性高且种间差异性高区域的候选靶标序列。考虑脱靶效应，优选所述混伪品及密切相关物种的基因组中不包括与筛选得到的靶标序列存在至多n个碱基差异的序列，其中n大于等于3。优选地，可以通过增大n值以进一步提高靶标序列的特异性，或者可以通过调节n值，筛选得到预定数量范围内的靶标序列。

步骤4.根据选定的靶标序列，按照所选基因组编辑系统设计并合成CRISPR RNA(crRNA)。优选地，可以通过重复步骤3和4构建待鉴定植物相对于其混伪品及密切相关物种的靶标序列库及与其相匹配的crRNA序列库。

步骤5.提取待检测植物的基因组DNA，对其进行扩增并回收所述靶标序列作为DNA底物，或者以提取的待检测植物的基因组DNA直接作为DNA底物。例如，可以利用特异性扩增靶标序列的引物对待检测基因组DNA进行扩增并回收所述靶标序列作为DNA底物；或者利用特异性扩增包含靶标序列的DNA序列的引物对待检测基因组DNA进行扩增并回收包含靶标序列的DNA序列作为DNA底物。

步骤6.根据所选基因组编辑系统，使用包括Buffer，Cas蛋白，crRNA，nuclease-free water，DNA底物和荧光信号分子例如ssDNA reporter(荧光报告基因)在内的至少6个组分进行反应。

具体地，Buffer和Cas蛋白可根据选择的基因组编辑系统确定，以CRISPR/Cas12a系统为例，可选择NEBuffer 2.1和Lba Cas12a(Cpf1)，荧光信号分子选择Poly_A_FQ(5’-FAM-AAAAAAAAAA-BHQ-3’)，反应条件如下：

5.1配置以下反应体系

5.2在室温孵育30分钟

5.3.1以扩增后回收的靶标序列作为DNA底物

加入10μL扩增后回收的靶标序列(1ng/μL)和4μL Poly_A_FQ(400nM)后在37℃孵育并在0，3，6，9，12，15，25，35，45，60分钟时用酶标仪在λ _ex 483nm/λ _em 535nm(根据所选荧光信号分子确定)分别检测荧光值。

5.3.2以基因组DNA作为DNA底物

加入10μL基因组DNA(10ng/μL)和4μL Poly_A_FQ(400nM)后在37℃孵育60分钟，之后继续在37℃孵育并在0，3，6，9，12，15，25，35，45，60，75，105，135，165分钟时用酶标仪在λ _ex 483nm/λ _em 535nm(根据所选荧光信号分子确定)分别检测荧光值。

如检测结果与空白对照存在显著性差异(P＜0.01)则可判定待检测植物与待鉴定植物具有同一性，反之则不具同一性。

以下将结合附图对本发明(GAGE)作进一步说明，以充分说明本发明的目的、技术特征和技术效果。

附图说明

为了更清楚地说明本公开或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，以下附图仅仅是本公开的实施例，本发明的保护范围不限于此。

图1为本公开的GAGE法的流程图；

图2为西红花的候选靶标序列库；

图3为靶标序列特异性分析图；

图4为西红花ITS2区域中的靶标序列以及匹配的crRNA；

图5为本公开的GAGE法应用于西红花的荧光检测结果；

图6为以待检测植物的基因组DNA为DNA底物鉴定西红花的荧光检测结果。

具体实施方式

图1示出本申请的GAGE法的流程图，下面结合西红花的鉴定过程作为具体实施实例，进一步阐述本公开的GAGE方法。下列实施例中未注明具体条件的实验方法，均按照常规条件实施。

实施例1：西红花小片段基因组文库与靶标序列库的构建

西红花来源于鸢尾科番红花(Crocus sativus)的干燥柱头，是传统名贵中药材，具有活血化瘀、凉血解毒、解郁安神的功效。除了药用，西红花也被用作食品着色剂和香料，有“红色黄金”的美誉。西红花的伪品主要包括红花，莲须和玉米须等。

1.1构建西红花小片段基因组文库

选定西红花(Crocus sativus)的全基因组，将西红花全基因(L＝genome length)组用Jellyfish(v1.1.12)分成(L-25+1)个长度为25bp的序列，构建小片段基因组文库。

1.2构建西红花候选靶标序列库

从西红花小片段基因组文库中提取带有PAM(本实施例采用CRISPR/Cas12a系统，PAM的5’端带有TTTV或3’段带有VAAA)的序列构建候选靶标序列库。结果从西红花的全基因组中共筛选到178,043,117个候选靶标序列，去重后剩余59,282,259个。根据基因组注释信息，候选靶标序列约有85％位于注释区，15％位于非注释区。共有26,771,965个靶标序列位于编码区，21275个位于非编码，编码区中有1997115个位于蛋白质编码区，如图2所示。

实施例2：选择用于鉴定西红花的靶标序列

2.1筛选靶标序列

依据以下两点筛选原则：(1)从种内保守性高、种间差异性强的区域筛选靶标序列；(2)混伪品基因组中不包括与筛选得到的靶标序列存在至多n个碱基差异的序列，其中n大于等于3。

具体筛选步骤如下：(1)数据准备：从NCBI数据库(https://www.ncbi.nlm.nih.gov)下载所有已公布的西红花序列及其混伪品红花(Carthamus tinctorius)、莲(Nelumbo nucifera)、玉米(Zea mays)的全基因组序列；(2)西红花种内保守性候选靶点筛选：使用Bowtie(v1.1.0)将1.2中得到的西红花候选靶标序列与数据库下载的西红花序列进行比对，筛选二者完全匹配的序列作为西红花物种内保守候选靶标序列；(3)西红花种间特异性候选靶点筛选：使用Bowtie(v1.1.0)将(2)中得到的候选靶标序列与西红花混伪品基因组进行比对，筛选西红花与混伪品不存在3个以内碱基错配的序列作为选定的靶标序列库。图3示出选定靶标序列库的分析图。

本实施例从选定的靶标序列库中选择一条靶标序列，命名为Cs_target1，如图4所示，其位于西红花ITS2区域。

2.2设计靶标序列匹配的crRNA

根据选定基因组编辑系统以及crRNA设计原则，设计匹配Cs_target1的crRNA，命名为Cs_crRNA，如图4所示。

实施例3：扩增与纯化靶标序列

3.1植物DNA提取

西红花采集自河北定州，红花采集自新疆乌鲁木齐，莲采集自北京市药用植物研究所植物园，玉米采集自广西南宁。植物样品用球磨仪粉碎，然后按照TIANGEN公司提供的Plant Genomic DNAKit使用说明书提取总DNA。用0.8％琼脂糖凝胶电泳检测总DNA的完整性，然后用Nanodrop 2000C分光光度计检测其纯度和浓度。

3.2靶标序列扩增

因靶标序列所在的ITS2区域有通用引物，直接使用其通用引物扩增和纯化靶标序列。引物序列如下：

正向引物P1：5'-ATGGCGTTTTGTGACGAAG-3'

反向引物P2：5'-CTAGGAGGTGTGTGTGGGGA-3'

PCR反应总体积为50μL：25μL 2×Taq MasterMix，2μL primer(F/R)(10μM)，2μL total DNA samples，nuclease-free H ₂O补齐50μL。PCR反应条件为：95℃30S；35clycles：95℃5sec；58℃30sec；72℃2min；72℃10min；10℃保存。

3.3PCR产物纯化回收

PCR产物TIANGEN公司提供的Universal DNAPurification Kit使用说明书回收纯化，用2％琼脂糖凝胶电泳检测靶标序列的完整性，然后用Nanodrop 2000C分光光度计检测其纯度和浓度，回收的ITS2片段用作后续实验的DNA底物。

实施例4：GAGE鉴定西红花

使用Cs_crRNA作为crRNA，以西红花、红花、莲、玉米的ITS2片段作为DNA底物分别对应设置Cs(西红花)、Ct(红花)、Zm(莲)、Nn(玉米)和CK(空白对照)组。使用NEB公司的EnGen Lba Cas12a(Cpf1)进行实验，反应总体积为100μL：10μL 10×NEBuffer 2.1，2μL Lba Cas12a(20nM)，3μL Cs_crRNA(300nM)，10μL DNA底物(1ng/μL),4μL Poly_A_FQ(400nM)和71μL nuclease-free H ₂O。反应体系中先加入NEBuffer2.1,Lba Cas12a，Cs_crRNA和nuclease-free H ₂O在室温下孵育30分钟，之后加入DNA底物和Poly_A_FQ，在37℃孵育并在0，3，6，9，12，15，25，35，45，60分钟时用酶标仪在λ _ex 483nm/λ _em 535nm分别检测荧光。

结果见图5，只有Cs组产生了荧光信号，荧光值在25分钟左右达到最大并保持，与CK组有显著性差异(P＞0.01)。而Ct、Zm、Nn组与CK组一致，都没有荧光信号产生，荧光值与CK组无显著性差异(P＜0.01)。该结果说明GAGE法能准确方便地鉴定西红花。

实施例5：直接使用基因组DNA鉴别西红花

使用Cs_crRNA作为crRNA，以西红花、红花、莲、玉米的基因组DNA作为DNA底物分别设置Cs*、Ct*、Zm*、Nn*和CK组。使用NEB公司的EnGen Lba Cas12a(Cpf1)进行实验，反应总体积为100μL：10μL 10×NEBuffer 2.1，2μL Lba Cas12a(20nM)，3μL Cs_crRNA(300nM)，10μL DNA底物(10ng/μL),4μL Poly_A_FQ(400nM)和71μL nuclease-free H ₂O。反应体系中先加入NEBuffer 2.1,Lba Cas12a，Cs_crRNA和nuclease-free H ₂O在室温下孵育30分钟，之后加入DNA底物和Poly_A_FQ，在37℃孵育60分钟，之后继续在37℃孵育并在0，3，6，9，12，15，25，35，45，60，75，105，135，165分钟时用酶标仪在λ _ex 483nm/λ _em 535nm分别检测荧光。

结果见图6，只有Cs*组产生了荧光信号，且荧光值随时间增加，与CK组有显著性差异(P＞0.01)。而Ct*、Zm*、Nn*组与CK组一致，都没有荧光信号产生，荧光值与CK组无显著性差异(P＜0.01)，该结果说明GAGE方法中，不经扩增直接使用基因组DNA也准确方便地鉴定西红花。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的保护范围被限于这些实施例；在本公开的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本公开实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。本公开实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本公开实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

一种基于全基因组分析与基因组编辑的植物物种鉴定方法，其特征在于，包括如下步骤：

步骤1.根据待鉴定植物的全基因组序列，构建小片段基因组文库；

步骤2.从所述小片段基因组文库中提取带有PAM的候选靶标序列构建候选靶标序列库；

步骤3.将所述候选靶标序列与混伪品及密切相关物种的全基因组进行筛选比对，选择仅存在于所述待鉴定植物中的序列作为靶标序列；

步骤4.根据所述靶标序列设计并合成crRNA；

步骤5.提取待检测植物的基因组DNA，对其进行扩增并回收所述靶标序列作为DNA底物，或者以提取的待检测植物的基因组DNA直接作为DNA底物；

步骤6.根据所选基因组编辑系统，使用包括Buffer、Cas蛋白、crRNA、nuclease-free water、待检测植物DNA底物和ssDNAreporter在内的至少6个成分进行反应并进行荧光检测，如检测结果与空白对照存在显著性差异(P＜0.01)则判定待检测植物与待鉴定植物具有同一性，反之则不具同一性。
根据权利要求1所述的方法，其特征在于，步骤1的构建小片段基因组文库的方法包括：将待鉴定植物的全基因组分成(L-K+1)个长度为K的片段，所述片段构成小片段基因组文库，并计算其拷贝数，再通过与基因组比对确定每个片段的基因组位置，其中L表示基因组长度，K表示文库片段长度。
根据权利要求1所述的方法，其特征在于，步骤2所述的候选靶标序列是从待鉴定植物的全基因组范围内提取，而非局限于特定区域。
根据权利要求2所述的方法，其特征在于，步骤2还包括对所述小片段基因组文库中的每一个片段检测PAM基序，并提取带有PAM的候选靶标序列构建候选靶标序列库。
根据权利要求1所述的方法，其特征在于，步骤3还包括：将步骤2得到的候选靶标序列与待鉴定植物的混伪品及密切相关物种的全基因组进行比对，其中所述混伪品及密切相关物种的基因组中不包括与筛选得到的靶标序列存在至多n个碱基差异的序列，其中n大于等于3。
根据权利要求5所述的方法，其特征在于，通过调节n值，筛选得到预定数量范围内的靶标序列。
根据权利要求1所述的方法，其特征在于，步骤5还包括：利用特异性扩增所述靶标序列的引物对所述待检测植物基因组DNA进行扩增并回收所述靶标序列作为DNA底物；或者利用特异性扩增包含所述靶标序列的DNA序列的引物对所述待检测植物基因组DNA进行扩增并回收包含所述靶标序列的DNA序列作为DNA底物。
根据权利要求1所述的方法，其特征在于，步骤6所述的用于检测靶标序列的基因组编辑系统包括基于CRISPR/Cas策略的系统，优选CRISPR/Cas12a系统或CRISPR/Cas13a系统。
根据权利要求1所述的方法，其特征在于，所述方法还包括：通过重复步骤3和4构建所述待鉴定植物相对于其混伪品及密切相关物种的靶标序列库及与其相匹配的crRNA序列库。
一种根据权利要求1所述的方法用于鉴定植物物种的应用，其特征在于，包括：根据待检测植物的性状选择待鉴定植物，执行根据权利要求1所述的方法，根据所述荧光检测结果判定待检测植物与待鉴定植物的同一性。