标记基因(标记基因筛选原理)

骑士&杨-。(2021).宏基因组分析器基准测试的挑战。自然方法,土井:https://doi.org/10.1038/s41592-021-01141-3

随着越来越多的研究揭示微生物组与人类健康的密切关系,宏基因组测序,尤其是全基因组鸟枪法测序(WMS),作为微生物组最重要的研究方法之一,在学术界和工业界得到了广泛的应用。为了解释高通量WMS数据,许多用于物种分类的生物信息学工具被开发出来,其中包括MetaPhlAn、北海巨妖、PathSeq等。,可以避免繁重的计算任务,如拼接,已被应用于大量的宏基因组研究物种。然而,目前对这些工具的正确评价和使用以及相应输出结果的解释还没有引起足够的重视。例如,不同工具的输出结果差异很大,研究者往往将其归因于不同工具使用的数据库的差异。然而,我们发现不同信息生成工具输出的“丰度类型”存在根本差异,这是信息生成工具之间分析结果差异的本质原因之一。忽略这种丰度类型的差异将改变信息生成工具的性能评估结果,并深刻影响宏基因组测序数据的解释。此外,这个问题还会严重阻碍元研究,影响交叉研究之间结果的可比性,导致微生物组研究的临床医学转化困难。

2021年5月13日,哈佛医学院的刘阳宇和加州大学圣地亚哥分校的Rob Knight发表了一篇题为《在Nature Methods上对宏基因组谱仪进行基准测试的挑战》的论文。通过数据模拟,本研究对宏基因组物种分类工具的输出结果进行了深度解读,创造性地提出了基于不同丰度类型(基于物种分类的序列或相对丰度)的双重评价标准,为解决微生物组研究中如何选择宏基因组物种分类工具的问题提供了重要依据,也为微生物组标准化研究提出了一系列建设性建议。

图:物种分类(标记基因,如MetaPhlAn2)和基于序列的方法(如Kraken2)存在巨大差异,主要受微生物基因组大小的影响。

在宏基因组测序分析中,序列丰度和分类丰度是两种不同类型的相对丰度。前者的序列丰度是计算属于某一物种的测序DNA在整个植物区系DNA中所占的百分比,后者的分类丰度则代表某一物种的个体在整个植物区系中所占的百分比。基因组学的物种分类工具根据其使用的数据库类型可以分为三类:DNA-to-DNA、DNA-to-Protein和DNA-to-Marker。通过设计一个简单的模拟菌群,我们发现不同工具的相对丰度类型并不一致。例如,DNA-to-DNA方法(代表软件北海巨妖和Bracken)的输出丰度类型是序列丰度,而DNA-to-Marker方法(代表软件MetaPhlAn和mOTUs)的输出丰度类型是物种丰度(如下图1所示)。

图一。三种物种定量方法的比较。a .模式图;b .两个基因组的模拟群落;c .不同软件的定量结果。

通过模拟数据,研究人员使用序列丰度和物种丰度作为金标准来评估宏基因组学中不同的物种分类工具。结果表明,当以序列丰度为金标准时,DNA-to-DNA法的结果优于DNA-to-Marker法,而以物种丰度为金标准时,结果则相反。因此,物种分类软件的性能与作为评价金标准的相对多度类型密切相关。

混淆序列丰度和物种丰度将对宏基因组数据的解释产生四个重要影响:

1.在物种组成分析方面:如果以序列丰度作为解释标准,就会高估大基因组物种,低估小基因组物种在植物区系中的真实数量。在复杂的菌群中,微生物基因组的大小变化很大。仅在细菌内部,基因组的差异理论上可以达到100倍,而微生物跨物种(如病毒和真菌)的基因组差异是不可估量的。了解序列丰度和物种丰度对于设定病原菌临床诊断的阈值是非常重要的。

2.在α多样性方面:与使用物种多度相比,如果以序列多度作为解释标准,样本的α多样性(Shannon、Simpson和Pielou的均匀度指数)会整体降低,但这种变化并不是严格一致的,部分样本的α多样性反而会增加。目前,宏基因组研究受到样本量的限制,会导致微生物样本α多样性排序的混乱,进而影响个体和群体间α多样性的一致性和可重复性。

3.在β多样性方面:通过设计模拟菌群,我们比较了基于不同β多样性分析方法(BC、rJSD、L1、L2、rAD)的两种不同相对丰度的样本之间的关系。通过检验,我们发现用序列多度描述的样品之间的关系与用物种多度描述的样品之间的关系不同,相关性为0.51-0.94。因此,通过将不同信息生成工具的输出结果作为下游分析的起点,可以获得不同的样本间或组间关系。

4.排序分析:排序分析是一种常用的宏基因组分析方法,通过将N维物种组成数据降维到二维或三维来比较和显示个体或群体之间的差异。对于同一批样品,基于序列多度和物种多度的排列分析结果差异较大。无论是NDMS方法、PCoA方法、t-SNE方法还是UMAP方法生成的二维散点图,其一致性分析都显示出很大的差异。也就是说,在基于不同信息生成工具的下游分析中,有可能组与组之间的差异是不可重复的。

通过严谨的论证和分析,量化了宏基因组学物种分类工具产生的两种相对多度类型的差异,对混淆两种多度类型的影响进行了全面系统的研究。由于大量未知微生物基因组和多倍体信息缺失,物种多度向序列多度的转换比较困难,往往达不到预期目标。因此,选择合适的宏基因组物种分类工具非常重要。目前,DNA-to-DNA方法(以北海巨妖为代表,产生序列丰度)和DNA-Marker方法(以MetaPhlAn为代表,产生物种丰度)都是宏基因组研究中的重要工具,并被应用于大量研究。虽然在方法一致的前提下,丰度的差异不会影响同一实验的组间比较,但必然会影响许多已发表的微生物组相关研究结论的可解释性,也会给回顾性荟萃分析带来巨大挑战。因此,我们呼吁微生物学领域的研究人员认真解读宏基因组测序的结果,严格区分相对丰度的类型,重新审视以往基于序列丰度的研究结论。鉴于物种多度的生物学和生态学意义,我们还建议您开发更多基于DNA-to-Marker方法的宏基因组学物种分类工具。

这篇论文的第一作者是哈佛医学院的孙正博士和加州大学圣地亚哥分校的黄石博士。罗布·奈特教授和刘阳宇教授是本文的通讯作者。

2.不同领域物种的序列和分类两个定量结果的相关分析。

图3。利用Bracken、Kraken2、mOTUs2和MetaPhlAn2软件对模拟群落不同估算方法的定量结果进行评价。

图4。基于序列和物种丰度计算α多样性

图5。两种定量方法对不同样本类型结果的排序分析。