WO2024138691A1 - 微生物物种鉴定方法、系统、设备及介质 - Google Patents

微生物物种鉴定方法、系统、设备及介质 Download PDF

Info

Publication number
WO2024138691A1
WO2024138691A1 PCT/CN2022/144179 CN2022144179W WO2024138691A1 WO 2024138691 A1 WO2024138691 A1 WO 2024138691A1 CN 2022144179 W CN2022144179 W CN 2022144179W WO 2024138691 A1 WO2024138691 A1 WO 2024138691A1
Authority
WO
WIPO (PCT)
Prior art keywords
abundance
microbial species
species
microbial
identified
Prior art date
Application number
PCT/CN2022/144179
Other languages
English (en)
French (fr)
Inventor
孙宇辉
黎宇翔
张勇
董宇亮
沈梦哲
曾涛
Original Assignee
深圳华大生命科学研究院
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 深圳华大生命科学研究院 filed Critical 深圳华大生命科学研究院
Priority to PCT/CN2022/144179 priority Critical patent/WO2024138691A1/zh
Publication of WO2024138691A1 publication Critical patent/WO2024138691A1/zh

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/70Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving virus or bacteriophage

Definitions

  • Microorganisms include bacteria, viruses, fungi, some small protozoa, microscopic algae, etc. They are small in size and closely related to humans. They cover many types of beneficial and harmful species, and are widely involved in many fields such as food, medicine, industry and agriculture, environmental protection, and sports.
  • a method for identifying a microbial species comprising:
  • the real existence of the microbial species is determined.
  • a microbial species identification system comprising:
  • the authenticity determination module is used to determine the authenticity of the microbial species obtained by preliminary identification based on the abundance values of the microbial species belonging to the same genus.
  • the preliminary identification module includes:
  • An acquisition unit used to acquire a long-read sequencing sequence of a sample to be identified
  • the alignment unit is used to align the long-read sequencing sequence with a pre-established feature sequence library to determine the preliminarily identified microbial species and the corresponding genus based on the alignment results.
  • the feature sequence library is used to characterize the mapping relationship between the feature sequence and the microbial species.
  • the authenticity determination module includes:
  • High-abundance species determination unit used to determine a high-abundance species from microbial species of the same genus
  • An authenticity determination unit is used to determine the authenticity of the preliminarily identified microbial species based on the abundance value of the microbial species and the abundance value of the high-abundance species.
  • the high-abundance species determination unit is further used to compare the abundance value of the microbial species belonging to the same genus with a preset abundance threshold, and when the abundance value of the microbial species is greater than the abundance threshold, the corresponding microbial species is determined as a high-abundance species;
  • the high-abundance species determination unit is further used to sort the microbial species belonging to the same genus according to their abundance values, and determine the microbial species with the highest abundance value as the high-abundance species.
  • the authenticity determination unit is further configured to:
  • a computer-readable storage medium stores a computer program, which, when executed by a processor, implements the method for identifying microbial species in the first aspect.
  • FIG1 is a flow chart of a method for identifying microbial species according to an exemplary embodiment of the present invention
  • FIG. 2 is a flow chart of step S101 of a method for identifying microbial species according to an exemplary embodiment of the present invention
  • FIG3 is a flow chart of step S102 of a method for identifying microbial species according to an exemplary embodiment of the present invention
  • FIG4 is a flow chart of identifying 16S rRNA provided by an exemplary embodiment of the present invention.
  • FIG5 is a schematic diagram of real species information and abundance information of bacterial species in a mixed bacterial sample provided by an exemplary embodiment of the present invention.
  • FIG8 is a schematic diagram of the accuracy and precision of identification results in units of species or genus provided by an exemplary embodiment of the present invention.
  • FIG. 10 is a structural diagram of an electronic device provided by an exemplary embodiment of the present invention.
  • the read length of the long read sequence can be greater than or equal to 50kb.
  • the sample to be identified contains sequencing sequences of other species, such as human sequences, in order to obtain the long-read sequencing sequence of the microbial species to be identified from the sample to be identified, and to make the sequencing depth of the long-read sequencing sequence of the microbial species and the obtained sequence length meet the requirements of microbial species identification.
  • the microbial species are preferably sequenced by sequence capture, and the specific steps are as follows: the sequencing sequence of the microbial species in the sample to be identified is sequence captured according to the characteristic sequence of the microbial species to be identified, and then the long-read sequencing sequence of the sample to be identified is obtained by long-read sequencing of the sequencing sequence obtained by sequence capture.
  • Sequence capture is to customize the characteristic sequences of microbial species into specific probes.
  • the probes are hybridized with the sequencing sequences of the identification samples on the sequence capture chip (or solution).
  • the sequence fragments of the sequencing sequences are then enriched and sequenced using long-read sequencing technology to ultimately obtain long-read sequencing sequences for each species to be identified in the identification sample.
  • long-read sequencing sequences of each microbial species in the identification sample can be obtained through sequence capture and long-read sequencing, which effectively solves the problem of insufficient sequencing depth and avoids the accuracy of species identification affected by insufficient sequencing depth in the subsequent identification process.
  • the sequencing read length of the long-read sequencing sequence in this embodiment can easily reach the level of 1kb to 50kb, which can provide sufficient sequencing length and sufficient sequencing depth for microbial species identification.
  • 16S RRNA exists in the characteristic sequences of all bacterial species, and the 16S RRNA of each different bacterial species contains a variable region and a constant region.
  • the constant region is common to all bacteria and has no difference between bacteria, which can reflect the relationship between bacterial species; the variable region has genus or species specificity, and the variable region has certain differences depending on the relationship between strains.
  • the variable region in 16S RRNA can reveal biological species information and is considered to be the most suitable indicator for bacterial phylogeny and classification identification.
  • primer sites can be designed according to the constant region, and the variable region can be amplified to obtain a 16S RRNA sequence library covering most bacterial species.
  • the comparison of the long-read sequencing sequence and the characteristic sequence is determined by the sequence similarity of the two.
  • the similarity is greater than or equal to the similarity threshold
  • the long-read sequencing sequence is considered to match the characteristic sequence
  • the similarity is less than the similarity threshold
  • the long-read sequencing sequence is considered to not match the characteristic sequence.
  • the value range of the similarity threshold can be between 0-1, which can be set according to the actual application scenario. The closer the similarity is to 1, the higher the degree of match between the two sequences.
  • the abundance value of each microbial species can be obtained by counting the long-read sequencing sequences of each microbial species in the sample to be identified.
  • some low-abundance species obtained in the preliminary identification are generally caused by the following two reasons: First, there are fewer long-read sequencing sequences of the microbial species in the sample to be identified, resulting in insufficient abundance values in the sequencing process, but the species belongs to the microbial species that actually exist in the sample to be identified; Second, due to the high similarity of the long-read sequencing sequences of microbial species in the same genus, in the process of determining the microbial species, the long-read sequencing sequences of other microbial species in the same genus are mistakenly identified as the long-read sequencing sequences of the microbial species, but the microbial species does not belong to the species that actually exist in the sample to be identified.
  • step S102 specifically includes:
  • determining a high-abundance species from microbial species of the same genus specifically comprises:
  • the present embodiment does not exclude the scheme of determining multiple high-abundance species, and the abundance multiples of the microbial species and the multiple high-abundance species may be calculated one by one to determine the authenticity of the microbial species.
  • S102-2 Determine the authenticity of the preliminarily identified microbial species based on the abundance value of the microbial species and the abundance value of the high-abundance species.
  • step S102-2 specifically includes:
  • the expected abundance multiple N is constructed based on the sequence similarity Z between the microbial species and the high-abundance species, and the expected abundance multiple N is negatively correlated with the sequence similarity Z.
  • the sequence similarity can be obtained by comparing the long-read sequencing sequences of the two microbial species.
  • the expected abundance multiple N 10 (1-Z%) * 100. Therefore, the higher the sequence similarity Z, the smaller the expected abundance multiple; the lower the sequence similarity Z, the greater the expected abundance multiple.

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Organic Chemistry (AREA)
  • Zoology (AREA)
  • Engineering & Computer Science (AREA)
  • Immunology (AREA)
  • Wood Science & Technology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Virology (AREA)
  • Biotechnology (AREA)
  • Microbiology (AREA)
  • Molecular Biology (AREA)
  • Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

一种微生物物种鉴定方法、系统、设备及介质,所述方法包括:确定待鉴定样本中初步鉴定得到的微生物物种及对应的属;根据属于同一个属的微生物物种的丰度值,确定初步鉴定得到的所述微生物物种的真实性。通过同属内的物种的丰度值比对以确定微生物物种存在的真实性,对于丰度值较低的物种,避免测序序列错误比对对微生物物种鉴定结果的影响,提高微生物物种鉴定的准确度。

Description

微生物物种鉴定方法、系统、设备及介质 技术领域
本发明涉及微生物领域,尤其涉及一种微生物物种鉴定方法、系统、设备及介质。
背景技术
微生物包括:细菌、病毒、真菌以及一些小型的原生生物、显微藻类等在内的一大类生物群体,它个体微小,与人类关系密切。涵盖了有益跟有害的众多种类,广泛涉及食品、医药、工农业、环保、体育等诸多领域。
传统的微生物物种鉴定主要是基于二代高通量测序,但是二代测序读长过短,无法对复杂环境下的多种微生物进行精确的物种鉴定,往往只能鉴定到“属(genus)”级别,在“种(species)”级别的鉴定精度难以满足临床和科研要求,且传统的微生物检测方法依赖数据库比对和映射关系进行粗糙地进行物种判断,而会导致近缘微生物物种鉴定出现假阳性问题,即样本中并不存在的某些微生物物种被错误地检测出来,从而引起准确度低下的问题。
发明内容
本发明要解决的技术问题是为了克服现有技术中传统微生物检测准确度低下的缺陷,提供一种微生物物种鉴定方法、系统、设备及介质。
本发明是通过下述技术方案来解决上述技术问题:
第一方面,提供一种微生物物种鉴定方法,所述方法包括:
确定待鉴定样本中初步鉴定得到的微生物物种及对应的属;
根据属于同一个属的微生物物种的丰度值,确定初步鉴定得到的所述微生物物种的真实性。
可选地,确定待鉴定样本中初步鉴定得到的微生物物种及对应的属,包括:
获取待鉴定样本的长读长测序序列;
将所述长读长测序序列与预先建立的特征序列库中的特征序列进行序列比对,以根据比对的结果确定初步鉴定的微生物物种及对应的属,所述特征序列库用于表征特征序列与微生物物种的映射关系。
可选地,获取待鉴定样本的长读长测序序列,包括:
通过对所述待鉴定样本进行序列捕获以获取所述待鉴定样本的长读长测序序列。
可选地,根据属于同一个属的微生物物种的丰度值,确定初步鉴定得到的所述微生物物种的真实性包括:
从同一个属的微生物物种中确定一个高丰度物种;
根据所述微生物物种的丰度值与所述高丰度物种的丰度值确定初步鉴定的所述微生物物种的真实性。
可选地,从同一个属的微生物物种中确定一个高丰度物种,包括:
对于属于同一个属的所述微生物物种的丰度值与丰度阈值进行比对,当同一个属内仅有所述微生物物种的所述丰度值大于丰度阈值时,将对应的所述微生物物种确定为高丰度物种;
可选地,从同一个属的所述微生物物种中确定一个高丰度物种,包括:
对于属于同一个属的所述微生物物种按照丰度值进行丰度值排序,将丰度值最高的所述微生物物种确定为高丰度物种。
可选地,根据所述微生物物种的丰度值与所述高丰度物种丰度值确定初步鉴定的所述微生物物种的真实性,包括:
根据所述微生物物种与所述高丰度物种的序列相似度构建预设丰度倍数,所述预期丰度倍数与序列相似度呈负相关;
根据所述高丰度物种的丰度值和同一个属的所述微生物物种的丰度值计算得到实际丰度倍数;
当所述实际丰度倍数小于所述预期丰度倍数时,确定所述微生物物种的真实存在。
第二方面,提供一种微生物物种鉴定系统,所述系统包括:
初步鉴定模块,用于确定待鉴定样本中初步鉴定得到的微生物物种及对应的属;
真实性确定模块,用于根据属于同一个属的微生物物种的丰度值,确定初步鉴定得到的所述微生物物种的真实性。
可选地,初步鉴定模块包括:
获取单元,用于获取待鉴定样本的长读长测序序列;
比对单元,用于将所述长读长测序序列与预先建立的特征序列库进行序列比对,以根据比对的结果确定初步鉴定的微生物物种及对应的属,所述特征序列库用于表征特征序列与微生物物种的映射关系。
可选地,真实性确定模块包括:
高丰度物种确定单元,用于从同一个属的微生物物种中确定一个高丰度物种;
真实性确定单元,用于根据所述微生物物种的丰度值与所述高丰度物种的丰度值确 定初步鉴定的所述微生物物种的真实性。
可选地,高丰度物种确定单元还用于对于属于同一个属的所述微生物物种的丰度值与预设的丰度阈值进行比对,当所述微生物物种的所述丰度值大于丰度阈值时,将对应的所述微生物物种确定为高丰度物种;
和/或,
高丰度物种确定单元还用于对于属于同一个属的所述微生物物种按照丰度值进行丰度值排序,将丰度值最高的所述微生物物种确定为高丰度物种。
可选地,真实性确定单元还用于:
根据所述微生物物种与所述高丰度物种的序列相似度构建预期丰度倍数,所述预期丰度倍数与序列相似度呈负相关;
根据所述高丰度物种的丰度值和同一个属的所述微生物物种的丰度值计算得到实际丰度倍数;
当所述实际丰度倍数小于所述预期丰度倍数时,确定所述微生物物种是真实存在。
第三方面,提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现第一方面所述的微生物物种鉴定方法。
第四方面一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的微生物物种鉴定方法。
本发明的积极进步效果在于:本发明通过同属内的物种的丰度值比对以确定微生物物种存在的真实性,对于丰度值较低的物种,避免长读长测序序列错误比对对微生物物种鉴定结果的影响,提高微生物物种鉴定的准确度。
附图说明
图1为本发明一示例性实施例提供的微生物物种鉴定方法的流程图;
图2为本发明一示例性实施例提供的微生物物种鉴定方法的步骤S101的流程图;
图3为本发明一示例性实施例提供的微生物物种鉴定方法的步骤S102的流程图;
图4为本发明一示例性实施例提供的鉴定16S rRNA的流程图;
图5为本发明一示例性实施例提供的混菌样本中细菌物种的真实物种信息和丰度信息的示意图;
图6为本发明一示例性实施例提供的同一个属内的微生物物种的序列相似度比对的示意图;
图7为本发明一示例性实施例提供的对混菌样本的微生物物种的鉴定结果的示意图;
图8为本发明一示例性实施例提供的以种或属为单位的鉴定结果的准确度和精度的示意图;
图9为本发明一示例性实施例提供的一种微生物物种鉴定系统的流程图;
图10为本发明一示例性实施例提供的一种电子设备的结构图。
具体实施方式
下面通过示例性实施例的方式进一步说明本发明,但并不因此将本发明限制在的实施例范围之中。
图1为本发明一示例性实施例提供的一种微生物物种鉴定方法,参见图1,方法包括:
S101、确定待鉴定样本中初步鉴定得到的微生物物种及对应的属。
在一个实施例中,参见图2,步骤S101具体包括:
S101-1、获取待鉴定样本的长读长测序序列。
其中,长读长序列的读长可以大于或等于50kb。
在一可实施方式中,待鉴定样本可以是包括多种微生物物种的长读长测序序列的样本,例如包括至少一种待检测的细菌、真菌等微生物长读长测序序列;也可以是包括多种微生物物种的长读长测序序列和其他物种的测序序列的混合样本,例如包括至少一种待检测的细菌、真菌等微生物长读长测序序列以及人源序列的样本。
在一可实施方式中,对待鉴定样本进行测序,以得到待鉴定的微生物物种的长读长测序序列。
在一可实施方式中,当待鉴定样本中包含其他物种的测序序列,例如人源序列时,为了从待鉴定样本中获得待鉴定的微生物物种的长读长测序序列,并使得对微生物物种的长读长测序序列的测序深度和得到的序列长度能够满足微生物物种鉴定的需求。本实施方式中优选采用序列捕获的方式对微生物物种进行测序,具体步骤如下:根据待鉴定微生物物种的特征序列对待鉴定样本中微生物物种的测序序列进行序列捕获,再通过对序列捕获得到的测序序列进行长读长测序得到待鉴定样本的长读长测序序列。
其中,特征序列根据所需进行鉴定的微生物物种确定,例如细菌的特征序列包括16S rRNA序列、23S rRNA序列等,真菌的特征序列包括18S DNA序列、1TS DNA序列等。
序列捕获是将微生物物种的特征序列定制成特异性探针,探针与鉴定样本的测序序列在序列捕获芯片(或溶液)进行杂交,然后把测序序列的序列片段进行富集后再利用 长读长测序技术进行测序,最终得到鉴定样本中每个待鉴定物种的长读长测序序列。
另外,为了使得测序得到的长读长测序序列能够满足微生物物种鉴定的需求,对于测序得到的长读长测序序列通过常规的过滤筛选等常规质控手段可以得到高质量的长读长测序序列。
在本实施例中,通过序列捕获和长读长测序能够获得鉴定样本中每个微生物物种的长读长测序序列,有效解决测序深度不足的问题,避免在后续地鉴定过程中由于测序深度不足影响物种鉴定的准确性。本实施例中长读长测序序列的测序读长可轻松达到1kb~50kb水平,能够为微生物物种鉴定提供足够的测序长度和足够的测序深度。
S101-2、将长读长测序序列与预先建立的特征序列库进行序列比对,以根据比对的结果确定初步鉴定的微生物物种及对应的属,特征序列库用于表征长读长测序序列与微生物物种的映射关系。
在一可实施方式,特征序列库根据需要进行鉴定的微生物物种进行构建,特征序列库中的特征序列与微生物物种具有一一映射关系。特征序列库包括细菌的16S RRNA序列库、23S RRNA序列库,真菌的18SDNA序列库、1TSDNA序列库。
以细菌为例,16S RRNA存在于所有细菌物种的特征序列中,且每个不同细菌物种的16S RRNA包含可变区和恒定区。其中,恒定区为所有细菌共有,且细菌间无差别,能反映细菌物种之间的亲缘关系;可变区具有属或种的特异性,可变区则随菌株间的亲缘关系不同而有一定的差异,16S RRNA中的可变区能够揭示生物物种信息,被认为是最适于细菌系统发育和分类鉴定的指标。本实施例中可以根据恒定区设计引物位点,扩增可变区获得涵盖绝大多数细菌物种的16S RRNA序列库。
在一可实施方式中,根据S101-1中得到的长读长测序序列与特征序列库中的特征序列进行比对,根据比对结果确定长读长测序序列对应的微生物物种。具体地,当长读长测序序列与至少一个特征序列相匹配时,确定其为该特征序列对应的微生物物种;对于无法与任一特征序列匹配上的长读长测序序列可以将其认为不属于任一微生物物种,并对该长读长测序序列进行舍弃。
另外,本实施方式中长读长测序序列和特征序列的比对通过两者的序列相似度进行确定。当相似度大于等于相似度阈值时,认为长读长测序序列与特征序列相匹配;当相似度小于相似度阈值时,认为长读长测序序列与特征序列不匹配。由于在测序过程中精度的影响,相似度阈值的取值范围可以在0-1之间,具体可根据实际应用场景进行设置。相似度越接近1,表征两者序列的匹配程度越高。
S102、根据属于同一个属的微生物物种的丰度值,确定初步鉴定得到的微生物物种 的真实性。
其中,对待鉴定样本中每个微生物物种的长读长测序序列进行统计可以得到每个微生物物种的丰度值。在初步鉴定的过程中,对于初步鉴定得到的某些低丰度物种一般由以下两种原因导致:其一、待鉴定样本中的该微生物物种的长读长测序序列较少,导致其测序过程中的丰度值不够,但该物种属于待鉴定样本中真实存在的微生物物种;其二、由于同一个属内微生物物种的长读长测序序列的相似度较高,在确定微生物物种的过程中,将同一个属内其他微生物物种的长读长测序序列错误地识别为该微生物物种的长读长测序序列,但该微生物物种不属于待鉴定样本中真实存在的物种。因此,对于初步鉴定的结果我们需要对这两种情况进行区分,对于前一种原因得到的微生物物种的鉴定结果需要进行保留,而对于后一种原因得到的微生物物种的鉴定结果需要进行筛除,以提高物种鉴定的准确度,避免错误比对造成微生物物种鉴定出现假阳性的问题。
在一个实施例中,参见图3,步骤S102具体包括:
S102-1、从同一个属的微生物物种中确定一个高丰度物种。
其中,同一个属内的微生物物种中可能存在多个丰度值高于丰度阈值的微生物物种,为了提升微生物物种鉴定的效率,首先需要从同一个属内确定一个高丰度物种作为计算标杆。
在一可实施方式中,从同一个属的微生物物种中确定一个高丰度物种具体包括:
对于属于同一个属的微生物物种的丰度值与预设的丰度阈值进行比对,当微生物物种的丰度值大于丰度阈值时,将对应的微生物物种确定为丰度初步合格物种。其中,丰度阈值可以根据实际应用场景进行选择。当同一个属内仅有一个丰度初步合格物种时,将该丰度初步合格物种确定为高丰度物种。
另外,需要说明的是,对于鉴定得到的丰度值大于丰度阈值的微生物物种是由足够丰度的长读长测序序列鉴定得到的,其鉴定结果的真实性较为准确,可以不需要通过预期丰度倍数和实际丰度倍数的比对确定该物种的真实性。
在一可实施方式中,从同一个属的微生物物种中确定一个高丰度物种具体包括:
对于属于同一个属的微生物物种按照丰度值进行丰度值排序,将丰度值最高的微生物物种确定为高丰度物种。在前序步骤中,存在同一个属内的物种可能存在多个丰度值大于丰度阈值的物种,为了提升物种鉴定的效率和精度,本实施例中筛选出丰度值最高的高丰度物种即可。
另外,本实施例中并不将确定多个高丰度物种的方案排除在外,可以根据微生物物种逐个与多个高丰度物种进行丰度倍数的计算,以确定该微生物物种的真实性。
S102-2、根据微生物物种的丰度值与高丰度物种的丰度值确定初步鉴定的微生物物种的真实性。
在一可实施方式中,步骤S102-2具体包括:
根据微生物物种与高丰度物种的序列相似度Z构建预期丰度倍数N,预期丰度倍数N与序列相似度Z呈负相关。其中,序列相似度可以根据两个微生物物种的长读长测序序列进行比对得到,具体地,预期丰度倍数N=10 (1-Z%)*100。因此,序列相似度Z越高,预期丰度倍数越小;序列相似度Z越低,预期丰度倍数越大。
根据高丰度物种的丰度值y和同一个属的微生物物种的丰度值x计算得到实际丰度倍数M,具体地,M=y/x。
当实际丰度倍数M小于预期丰度倍数N时,确定微生物物种在待鉴定样本中的真实存在。当实际丰度倍数M大于预期丰度倍数N时,确定微生物物种不真实存在,微生物物种的初步鉴定结果是由于同属内高丰度物种的长读长测序序列的序列相似度过高,导致同属内高丰度物种的长读长测序序列错误的比对到该微生物物种上而导致错误的鉴定结果,对于该类结果我们需要进行筛除。
下面通过一个具体实施方式对本实施例中提供的微生物物种鉴定方法做进一步说明,参见图4:
步骤41,我们构建了一个混菌样本,该样本由20个细菌物种组成。其中,混菌样本中细菌物种的真实物种信息和丰度信息参见图5,图5中,Species表征每个细菌物种,Genius表征每个细菌物种的属,Theor.Abud表征每个细菌物种在该混菌样本中的丰度值。
步骤42:对混菌样本进行16S rRNA特征序列捕获和长读长测序,并通过常规的质控手段,获得了全部细菌物种的16S rRNA的高质量全长序列,序列总数为10万条。利用minimap2工具(一种比对工具)将这些全长序列快速比对到我们自主构建的16S rRNA特征序列库中,特征序列库可以表征16S序列与细菌物种的映射关系,对该混菌样本进行初步鉴定,初步鉴定出76个物种。
步骤43,上述步骤鉴定出的76个物种,确定属于同一个“属”的微生物物种,并根据初步鉴定得到的丰度值确定同一个属内丰度值高于丰度阈值的微生物物种为高丰度物种。其中,丰度阈值设置为0.001。
实际上,同一个属内的微生物物种中可能存在多个丰度值高于丰度阈值的微生物物种,在进行序列相似度的比对过程中可以将所有低丰度物种与丰度值高于预设丰度预知的微生物物种进行比对,但在确定预期丰度倍数和实际丰度倍数的过程中,通过一个丰度值最高的高丰度物种作为计算标杆。
利用Blast工具(一种比对工具),在各个属内部,将初步鉴定的微生物物种的长读长测序序列与高丰度物种的长读长测序序列进行两两比对,获得物种间的序列相似度,具体参见图6,以Bacteroides(一种细菌的属)属内物种的序列比对为例,横轴和纵轴分别为进行比对的同一个属内的微生物物种,横轴与纵轴的交点表征两种微生物物种的序列相似度,例如Bacteroides sp.AR29与Bacteroides Uniforms的序列相似度为93%,另外,在Bacteroides属内,Bacteroides Uniforms为丰度值最高的细菌物种,即高丰度物种。
根据序列相似度计算得到每个微生物物种的预期丰度倍数。我们计算出每一个微生物物种与高丰度物种的实际丰度倍数,与预期丰度倍数进行比较,如果实际丰度倍数大于预期丰度倍数,则认为该微生物物种为假;如果实际丰度倍数小于预期丰度倍数,则认为它为真实存在的低丰度物种。根据这样的原则,我们最终获得了24个物种。
步骤44,根据步骤1中构建的细菌样本的物种信息,我们将24个最终鉴定得到的微生物物种与真实的物种信息进行比较,得到最终的微生物物种的鉴定结果,具体参见图7,即图中测试物种信息,图中Species表征每个细菌物种,Genius表征每个细菌物种的属,Theor.Abud表征每个细菌物种在该混菌样本中的丰度值,最右边一列为种或属的鉴定结果。
根据最终鉴定得到的微生物物种信息与真实物种信息计算“属”水平和“种”水平下的鉴定精度表现,参见图8,分别得到以种或属为单位的鉴定结果的准确度和精度。其中,灵敏度=真实物种信息中被鉴定出的微生物物种的实际数量/真实物种信息的全部数量;准确度=鉴定得到正确的微生物物种信息的数量/鉴定得到的全部微生物物种信息的数量。通过最终的准确度和精度的分析我们可以看出,本实施例中所提供的微生物物种鉴定方法使得微生物物种鉴定的准确度和精度相较于传统的鉴定方法得以提升。
图9为本发明一示例性实施例提供一种微生物物种鉴定系统,系统包括:
初步鉴定模块91,用于确定待鉴定样本中初步鉴定得到的微生物物种及对应的属;
真实性确定模块92,用于根据属于同一个属的微生物物种的丰度值,确定初步鉴定得到的微生物物种的真实性。
在一个实施例中,初步鉴定模块91包括:
获取单元,用于获取待鉴定样本的长读长测序序列;
第一比对单元,用于将长读长测序序列与预先建立的特征序列库进行序列比对,以根据比对的结果确定初步鉴定的微生物物种及对应的属,特征序列库用于表征长读长测序序列与微生物物种的映射关系。
在一个实施例中,获取单元用于通过对所述待鉴定样本进行序列捕获以获取所述待 鉴定样本的长读长测序序列。
在一个实施例中,真实性确定模块92包括:
高丰度物种确定单元,用于从同一个属的微生物物种中确定一个高丰度物种;
真实性确定单元,用于根据微生物物种的丰度值与高丰度物种的丰度值确定初步鉴定的微生物物种的真实性。
在一个实施例中,高丰度物种确定单元还用于对于属于同一个属的微生物物种的丰度值与预设的丰度阈值进行比对,当同一个属内仅有一个微生物物种的丰度值大于丰度阈值时,将对应的微生物物种确定为高丰度物种;
在一个实施例中,高丰度物种确定单元还用于对于属于同一个属的微生物物种按照丰度值进行丰度值排序,将丰度值最高的微生物物种确定为高丰度物种。
在一个实施例中,真实性确定单元还用于:
根据微生物物种与高丰度物种的序列相似度构建预期丰度倍数,预期丰度倍数与序列相似度呈负相关;
根据高丰度物种的丰度值和同一个属的微生物物种的丰度值计算得到实际丰度倍数;
当实际丰度倍数小于预期丰度倍数时,确定微生物物种是真实存在。
对于系统实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
图10为本发明一示例实施例提供一种电子设备,参见图10,示出了适于用来实现本发明实施方式的示例性电子设备100的结构图。图10显示的电子设备100仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图10所示,电子设备100可以以通用计算设备的形式表现,例如其可以为服务器设备。电子设备100的组件可以包括但不限于:上述至少一个处理器101、上述至少一个存储器102、连接不同系统组件(包括存储器102和处理器101)的总线103。
总线103包括数据总线、地址总线和控制总线。
存储器102可以包括易失性存储器,例如随机存取存储器(RAM)1021和/或高速缓存存储器1022,还可以进一步包括只读存储器(ROM)1023。
存储器102还可以包括具有一组(至少一个)程序模块1024的程序工具1025(或实用 工具),这样的程序模块1024包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
处理器101通过运行存储在存储器102中的计算机程序,从而执行各种功能应用以及数据处理,例如上述任一实施例所提供的方法。
电子设备100也可以与一个或多个外部设备104通信。这种通信可以通过输入/输出(I/O)接口105进行。并且,模型生成的电子设备100还可以通过网络适配器107与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器107通过总线103与模型生成的电子设备100的其它模块通信。应当明白,尽管图中未示出,可以结合模型生成的电子设备100使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。
应当注意,尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,程序被处理器执行时实现上述任一实施例所提供的方法。
其中,可读存储介质可以采用的更具体可以包括但不限于:便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。
在可能的实施方式中,本发明实施例还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在终端设备上运行时,程序代码用于使终端设备执行实现上述任一实施例的方法。
其中,可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码,程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。

Claims (10)

  1. 一种微生物物种鉴定方法,其特征在于,所述方法包括:
    确定待鉴定样本中初步鉴定得到的微生物物种及对应的属;
    根据属于同一个属的微生物物种的丰度值,确定初步鉴定得到的所述微生物物种的真实性。
  2. 如权利要求1所述的微生物物种鉴定方法,其特征在于,确定待鉴定样本中初步鉴定得到的微生物物种及对应的属,包括:
    获取待鉴定样本的长读长测序序列;
    将所述长读长测序序列与预先建立的特征序列库中的特征序列进行序列比对,以根据比对的结果确定初步鉴定的微生物物种及对应的属,所述特征序列库用于表征特征序列与微生物物种的映射关系。
  3. 如权利要求2所述的微生物物种鉴定方法,其特征在于,获取待鉴定样本的长读长测序序列,包括:
    通过对所述待鉴定样本进行序列捕获以获取所述待鉴定样本的长读长测序序列。
  4. 如权利要求1所述的微生物物种鉴定方法,其特征在于,根据属于同一个属的微生物物种的丰度值,确定初步鉴定得到的所述微生物物种的真实性包括:
    从同一个属的微生物物种中确定一个高丰度物种;
    根据所述微生物物种的丰度值与所述高丰度物种的丰度值确定初步鉴定的所述微生物物种的真实性。
  5. 如权利要求4所述的微生物物种鉴定方法,其特征在于,从同一个属的微生物物种中确定一个高丰度物种,包括:
    对于属于同一个属的所述微生物物种的丰度值与丰度阈值进行比对,当同一个属内仅有一个所述微生物物种的所述丰度值大于丰度阈值时,将对应的所述微生物物种确定为高丰度物种。
  6. 如权利要求4所述的微生物物种鉴定方法,其特征在于,从同一个属的微生物物种中确定一个高丰度物种,包括:
    对于属于同一个属的所述微生物物种按照丰度值进行丰度值排序,将丰度值最高的所述微生物物种确定为高丰度物种。
  7. 如权利要求4所述的微生物物种鉴定方法,其特征在于,根据所述微生物物种的丰度值与所述高丰度物种丰度值确定初步鉴定的所述微生物物种的真实性,包括:
    根据所述微生物物种与所述高丰度物种的序列相似度构建预期丰度倍数,所述预期 丰度倍数与序列相似度呈负相关;
    根据所述高丰度物种的丰度值和同一个属的所述微生物物种的丰度值计算得到实际丰度倍数;
    当所述实际丰度倍数小于所述预期丰度倍数时,确定所述微生物物种是真实存在。
  8. 一种微生物物种鉴定系统,其特征在于,所述系统包括:
    初步鉴定模块,用于确定待鉴定样本中初步鉴定得到的微生物物种及对应的属;
    真实性确定模块,用于根据属于同一个属的微生物物种的丰度值,确定初步鉴定得到的所述微生物物种的真实性。
  9. 一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-7中任一项所述的微生物物种鉴定方法。
  10. 一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7中任一项所述的微生物物种鉴定方法。
PCT/CN2022/144179 2022-12-30 2022-12-30 微生物物种鉴定方法、系统、设备及介质 WO2024138691A1 (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/CN2022/144179 WO2024138691A1 (zh) 2022-12-30 2022-12-30 微生物物种鉴定方法、系统、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2022/144179 WO2024138691A1 (zh) 2022-12-30 2022-12-30 微生物物种鉴定方法、系统、设备及介质

Publications (1)

Publication Number Publication Date
WO2024138691A1 true WO2024138691A1 (zh) 2024-07-04

Family

ID=91716240

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2022/144179 WO2024138691A1 (zh) 2022-12-30 2022-12-30 微生物物种鉴定方法、系统、设备及介质

Country Status (1)

Country Link
WO (1) WO2024138691A1 (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108334750A (zh) * 2018-04-19 2018-07-27 江苏先声医学诊断有限公司 一种宏基因组数据分析方法及系统
CN112489726A (zh) * 2020-11-10 2021-03-12 哈尔滨因极科技有限公司 基于16s微生物扩增测序数据的分析方法、装置及设备
CN112530519A (zh) * 2020-12-14 2021-03-19 广东美格基因科技有限公司 一种检测样本中微生物和耐药基因的方法和系统
CN113355438A (zh) * 2021-06-02 2021-09-07 深圳基因家科技有限公司 一种血浆微生物物种多样性评估方法、装置和存储介质
CN114023386A (zh) * 2021-10-26 2022-02-08 艾德范思(北京)医学检验实验室有限公司 宏基因组数据分析及特征菌筛选方法
CN114464253A (zh) * 2022-03-03 2022-05-10 予果生物科技(北京)有限公司 基于长读长测序进行实时病原检测的方法、系统和应用
CN114496089A (zh) * 2022-04-02 2022-05-13 北京大学人民医院 一种病原微生物鉴定方法
CN114613440A (zh) * 2022-03-29 2022-06-10 武汉明德生物科技股份有限公司 一种基于长读长测序数据的病原微生物分析方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108334750A (zh) * 2018-04-19 2018-07-27 江苏先声医学诊断有限公司 一种宏基因组数据分析方法及系统
CN112489726A (zh) * 2020-11-10 2021-03-12 哈尔滨因极科技有限公司 基于16s微生物扩增测序数据的分析方法、装置及设备
CN112530519A (zh) * 2020-12-14 2021-03-19 广东美格基因科技有限公司 一种检测样本中微生物和耐药基因的方法和系统
CN113689912A (zh) * 2020-12-14 2021-11-23 广东美格基因科技有限公司 基于宏基因组测序的微生物对比结果校正的方法和系统
CN113355438A (zh) * 2021-06-02 2021-09-07 深圳基因家科技有限公司 一种血浆微生物物种多样性评估方法、装置和存储介质
CN114023386A (zh) * 2021-10-26 2022-02-08 艾德范思(北京)医学检验实验室有限公司 宏基因组数据分析及特征菌筛选方法
CN114464253A (zh) * 2022-03-03 2022-05-10 予果生物科技(北京)有限公司 基于长读长测序进行实时病原检测的方法、系统和应用
CN114613440A (zh) * 2022-03-29 2022-06-10 武汉明德生物科技股份有限公司 一种基于长读长测序数据的病原微生物分析方法
CN114496089A (zh) * 2022-04-02 2022-05-13 北京大学人民医院 一种病原微生物鉴定方法

Similar Documents

Publication Publication Date Title
Alberdi et al. Diversity and compositional changes in the gut microbiota of wild and captive vertebrates: a meta-analysis
CN114121160B (zh) 一种检测样本中宏病毒组的方法和系统
CN110751984B (zh) 宏基因组或宏转录组测序数据自动化分析方法及系统
CN111710364B (zh) 一种菌群标记物的获取方法、装置、终端及存储介质
CN111242318B (zh) 基于异构特征库的业务模型训练方法及装置
CN109284369B (zh) 证券新闻资讯重要性的判定方法、系统、装置及介质
CN105740650A (zh) 一种快速准确鉴定高通量基因组数据污染源的方法
CN112151117A (zh) 一种基于时间序列宏基因组数据的动态观测装置及其检测方法
CN110444254B (zh) 一种菌群标记物的检测方法、检测系统及终端
CN114510487A (zh) 数据表合并方法、装置、设备及存储介质
WO2024138691A1 (zh) 微生物物种鉴定方法、系统、设备及介质
CN114496089B (zh) 一种病原微生物鉴定方法
Shirley et al. PISCES: a package for rapid quantitation and quality control of large scale mRNA-seq datasets
CN115943215A (zh) 用于分析微生物的存在的系统和方法
CN115938491A (zh) 一种用于临床病原诊断的高质量细菌基因组数据库构建方法及系统
WO2022183019A1 (en) Methods for mitigation of algorithmic bias discrimination, proxy discrimination and disparate impact
Guo et al. A novel edge effect detection method for real-time cellular analyzer using functional principal component analysis
CN110059180B (zh) 文章作者身份识别及评估模型训练方法、装置及存储介质
CN113095589A (zh) 一种人口属性确定方法、装置、设备及存储介质
CN116646010B (zh) 人源性病毒检测方法及装置、设备、存储介质
EP1691311A1 (en) Method, system and software for carrying out biological interpretations of microarray experiments
Kalinin et al. A versatile information retrieval framework for evaluating profile strength and similarity
CN117708569B (zh) 一种病原微生物信息的识别方法、装置、终端及存储介质
CN113760777B (zh) 应用程序压力测试方法、装置、设备及存储介质
CN117393171B (zh) 直肠癌术后lars发展轨迹预测模型构建方法及系统

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22969833

Country of ref document: EP

Kind code of ref document: A1