linux lefse分析,LEfSe分析,你真的懂了么(Linux.org)
在微生物多样性分析中,LEfSe分析自从”出生“就倍受青睐,今天小昌宝宝
就跟大家唠唠这个高频出镜的LEfSe分析,从LEfSe的定义、结果、原理、涉及到的检验四个方面进行解释。
一LEfSe的定义
LEfSe分析即LDA Effect Size分析,是一种用于发现和解释高维度数据生物标识(基因、通路和分类单元等)的分析工具,可以进行两个或多个分组的比较,它强调统计意义和生物相关性,能够在组与组之间寻找具有统计学差异的生物标识(Biomarker)。
二LEfSe结果分析
一般地,在微生物多样性分析结果中,会出现两个图,一张表( LDA值分布柱状图、进化分支图及特征表)。
1. LDA值分布柱状图
这个条形图主要为我们展示了LDA score大于预设值的显著差异物种,即具有统计学差异的Biomaker,默认预设值为2.0(看横坐标,只有LDA值的绝对值大于2才会显示在图中);柱状图的颜色代表各自的组别,长短代表的是LDA score,即不同组间显著差异物种的影响程度。
2. 进化分支图:
小圆圈: 图中由内至外辐射的圆圈代表了由门至属的分类级别(最里面的那个黄圈圈是界)。不同分类级别上的每一个小圆圈代表该水平下的一个分类,小圆圈的直径大小代表了相对丰度的大小。
颜色: 无显著差异的物种统一着色为黄色,差异显著的物种Biomarker跟随组别进行着色,红色节点表示在红色组别中起到重要作用的微生物类群,蓝色节点表示在蓝色组别中起到重要作用的微生物类群。未能在图中显示的Biomarker对应的物种名会展示在右侧,字母编号与图中对应(为了美观,右侧默认只显示门到科的差异物种)。
3. 特征表:
第一列:Biomarker名称;
第二列:各组分丰度平均值中最大值的log10,如果平均丰度小于10的按照10来计算;
第三列:差异基因或物种富集的组名;
第四列:LDA值;
第五列:Kruskal-Wallis秩和检验的p值,若不是Biomarker用“-”表示。
三LEfSe分析原理
A. 首先在多组样本中采用的非参数因子Kruskal-Wallis秩和检验检测不同分组间丰度差异显著的物种;
B. 再利用Wilcoxon秩和检验检查在显著差异物种类中的所有亚种比较是否都趋同于同一分类级别;
C. 最后用线性判别分析(LDA)对数据进行降维和评估差异显著的物种的影响力(即LDA score)。
四LEfSe分析中的检验
参数检验与非参数检验的区别
参数检验:即总体分布类型已知,用样本指标对总体参数进行推断或作假设检验的统计检验方法。
非参数检验:即不考虑总体分布类型是否已知,不比较总体参数,只比较总体分布的位置是否相同的统计方法。
参数检验分类:T检验,方差分析,(要求:方差齐性、正态分布)。
选用非参数检验的情况有:①总体分布不易确定(即不知道是不是正态分布)
②分布呈非正态而无适当的数据转换方法③等级资料等。
一般地,微生物多样性分析中,样本群落分布不确定,多采用非参数检验。
1.秩和检验:
秩和检验是一种非参数检验法,它是一种用样本秩来代替样本值的检验法。根据样本分组的不同可分为两样本Wilcoxon秩和检验和多样本Kruskal-Wallis检验。
首先来了解几个容易搞混的词。
秩次(rank):秩统计量,是指全部观察值按从小到大排列的位序;
秩和(rank sum):同组秩次之和。秩和检验就是通过秩次的排序列求出秩和,进行假设检验。
a)Wilcoxon秩和检验(Wilcoxon rank sum test,也称为Mann-Whitney Test):
基本思想是:若检验假设成立,则两组的秩和不应相差太大。通过编秩,用秩次代替原始数据信息来进行检验。
原理就是不管样本中的数据到底是多少,将两样本数据混合后从小到大排序,然后按顺序赋秩,最小的赋为1,最大的赋为n1+n2,分别对两个样本求平均秩,如果两个样本的平均秩相差不大,则说明两个总体不存在显著差异;反之,若相差较大,先分别求出两个样本的秩和,再计算检验统计量(含量较小的样本秩和)和统计量(期望秩和,查T值表可知)的P值并作出决策。
补充材料:Wilcoxon秩和检验是由F. Wilcoxon于1945年提出,1947年,Mann和Wiltney对Wilcoxon秩和检验进行了补充,后面就有了Mann-Wiltney检验。
b) Kruskal-Wallis秩和检验:
原理与两样本Wilcoxon检验类似。不同的是Kruskal-Wallis秩和检验针对多组独立样本,且进行的是H检验;在实际秩和与期望秩和差值的基础上计算检验统计量,最后计算出统计量的P值并作出决策。需注意的是,多组样本差异显著时,应进行多样本的两两比较的秩和检验。
2.LDA:
LDA的全称是Linear Discriminant Analysis(线性判别分析),是一种supervised learning(有监督学习)。有些资料上也称为是Fisher’s Linear Discriminant,由Ronald Fisher发明自1936年,是在目前机器学习、数据挖掘领域经典且热门的一个算法。
LDA的思想可以用一句话概括,就是“投影后类内方差最小,类间方差最大”。简单来说就是一种投影,是将一个高维的点投影到一个低维空间,我们希望映射之后,不同类别之间的距离越远越好,同一类别之中的距离越近越好。
是不是很抽象哇,让小昌来帮你举个栗子吧。假设我们有两类数据:分别为红色和蓝色,如下图所示,这些数据特征是二维的,我们希望将这些数据投影到一维的一条直线,让每一种类别数据的投影点尽可能的接近,而红色和蓝色数据中心之间的距离尽可能的大。
从直观上可以看出,右图要比左图的投影效果好,因为右图的红色数据和蓝色数据各个较为集中,且类别之间的距离明显。左图则在边界处数据混杂。当然在实际应用中,我们的数据是多个类别的,我们的原始数据一般也是超过二维的,投影后的也一般不是直线,而是一个低维的超平面。
我们不生产知识,我们只是知识的搬运工。
参考资料:
Segata N, Izard J, Waldron L, et al. Metagenomic biomarker discovery and explanation[J]. Genome Biol, 2011, 12(6): R60.
http://www.cnblogs.com/pinard/p/6244265.html