[返回学习园地首页]·[所有跟帖]·[ 回复本帖 ] ·[热门原创] ·[繁體閱讀]·[版主管理]
扩增子测序结果中的统计差异检验
送交者: 董小骚很OK[♂★★骚年一呼百应★★♂] 于 2020-11-19 2:11 已读 1237 次 1 赞  

董小骚很OK的个人频道

常见差异检验方法 6park.com


6park.com

先前我们在介绍alpha多样性的时候,提到在不同样本间比较的过程中,不能单纯的比较数值的大小,必须要有差异显著性检验的结果作为基础。只有两组样本的alpha多样性指数统计学上具有显著差异的时候,才能说这两组样本的alpha多样性有所不同。 6park.com

不同情况下,我们比较组间差异所使用的统计学方法也是不一样的。 6park.com

下面来介绍一些常见的差异检验方法,Welch's t-test、t-test和One-way ANOVA是最常见的组间物种丰度差异检验方法,用来检验不同组间哪些物种的丰度具有显著的差异。 6park.com

Welch’s t-test和t-test用于比较两组样本的物种差异,One-way ANOVA用来比较3组及以上样本的物种差异。
6park.com

不同的统计学方法有不同的使用条件,主要是通过数据是否符合正态分布以及方差是否齐性来判断使用哪种差异检验方法。 6park.com

这三种差异检验在微生物群落研究的结果中通常会使用STAMP软件实现,结果就是这张图,通过条形展示物种在不同组样本中的丰度,带误差棒的散点图展示物种在不同组样本中的丰度变化倍数,结果中只会展示P值小于0.05的,也就是在组间丰度具有显著差异的物种。
6park.com

STAMP软件输出的差异检验结果图,只能显示两组样本的差异,因此虽然其提供了ANOVA检验的方法,但是在多组样本的结果中依然是只能显示组间两两比较的差异结果,这样在结果展示的时候就很不方便,所以通常来说3组及以上的数据在文章中使用该结果的频率较低。 6park.com

除了STAMP提供的3种差异检验方法之外,还有一种Wilcoxon秩和检验用来检验两组样本间微生物丰度的差异,其适用于数据不符合正态分布的情况。
6park.com

所有差异检验的结果均依赖于P值,P小于0.05表明物种的丰度在不同组间具有显著差异。 6park.com

选择适合的统计方法 6park.com

看到这里想必大家都有一个疑问:该怎么选择适合自己研究的统计学方法呢?这里提供了一个统计学方法选择的标准,大家可以根据自身数据的实际情况选择合适的统计学差异检验方法: 6park.com

Kolmogorov-Smirnov test:检验样本是否复合正态分布。 6park.com

F-test:检验不同组样本方差是否存在显著差异。 6park.com

T-test:样本量小于30、两组样本符合正态分布、两组样本总体方差相等,比较两组样本均值差异性。 6park.com

One-way ANOVA:与t-test使用条件一致,一种分组因素,检验多组样品的均值差异性。 6park.com

Wilcoxon秩和检验:两组样本不符合正态分布,检验均值差异性。 6park.com

Kruskal-Wallis test:多组样本不符合正态分布,一种分组因素,检验均值差异性。 6park.com

Two-way ANOVA:多组样本,两个分组因素,样本符合正态分布,并且样本总体方差相等,比较样本均值差异性。 6park.com

Fridman test:多组样本,两个分组因素,样本不符合正态分布,比较样本均值差异性。 6park.com

  6park.com

除了使用STAMP实现的物种丰度差异检验结果,在常规的分析结果中还会包含使用Metastat得到的物种丰度差异检验。 6park.com

同样都是差异检验,所使用的方法差别不大,Metastat的特点是对差异检验的结果使用FDR进行校正,从而降低了检验结果的假阳性率,得到的物种丰度差异结果更为准确。由于篇幅的限制关于检验结果校正的有关内容会在下一节“环境因子关联”中进行讲解。 6park.com

6park.com

因为进行了校正,所以最后得到的差异物种数目会有明显的下降,就我个人而言,如果STAMP得到的差异物种数目非常多,我会使用Metastat的结果在文章中进行表述。 6park.com

与STAMP一样,Metastat同样只适用于两组样本比较的结果展示,对于3组及以上的数据,视觉效果并不是很好。 6park.com

那么对于3组及3组以上的数据,我们用什么来展示差异物种呢?就是大名鼎鼎的LEfSe。LEfSe是LDA effect size分析,是一种用于发现和解释高维度数据生物标识的工具,能够在多组样本中识别到属于每个组的biomarker物种,也就是说在这个组中特异性富集的物种。 6park.com

LEfSe的结果包含3种不同的图:首先是条形图,通过不同的颜色展示结果中属于不同组的biomarker物种,条形的长度为根据该物种丰度计算得到的LDA统计值,一般认为LDA得分大于3的物种可以用于区分不同组的样本,也就是说LDA大于3的物种是在某一分组样本中特异性富集的。当然有时候我们也可能得到非常多的biomarker,这时候通常会通过提升LDA的阈值,以去除假阳性,提高差异检验的准确性。 6park.com

6park.com

LEfSe的第二个结果是进化分支树,图中由内向外辐射的圆圈代表由门至属的分类级别,不同分类级别上每个小圆圈代表了该水平下的一个分类,圆圈直径代表相对丰度大小。图中使用不同的颜色标注出属于不同组样本的biomarker物种。黄色代表无显著差异的物种,红色代表在红色组别中起重要作用的微生物类群,蓝色代表在蓝色组别中起重要作用的微生物类群,未在图中显示的biomarker物种名会展示在右侧。
6park.com

第三个结果是识别到的biomarker物种在不同组样本中的丰度分布情况,图中条形代表该物种在不同样本中的丰度,实线为该物种组内丰度的平均值,虚线为中位数。 6park.com

6park.com

当然LEfSe同样能够表示两组样本的物种丰度差异检验结果,只不过我个人觉得如果只有两组样本,使用STAMP或者Metastat的结果图可能会更为直观和清晰。 6park.com

在展示组间物种丰度差异的结果中,还有一个比较特殊的分析,就是三元相图,这个分析通过三角形的图形展示物种在三组样本间的丰度分布情况。 6park.com

说这个图比较特殊是因为这个图只能展示3组样本的差异,2组或4组都不行。图中三角形的每一个顶点代表一个或一组样本,图中的点表示物种,点的大小代表物种在所有样本中的平均丰度,点的颜色代表物种所属的高级分类学水平,点的位置表示物种在三组样品中的丰度差异。点越靠近某一顶点,表明该物种在这一组样本中丰度越高、而在其它组样本中丰度越低。 6park.com

喜欢董小骚很OK朋友的这个贴子的话, 请点这里投票,“赞”助支持!
[举报反馈]·[ 董小骚很OK的个人频道 ]·[-->>参与评论回复]·[用户前期主贴]·[手机扫描浏览分享]·[返回学习园地首页]
帖子内容是网友自行贴上分享,如果您认为其中内容违规或者侵犯了您的权益,请与我们联系,我们核实后会第一时间删除。

所有跟帖:        ( 主贴楼主有权删除不文明回复,拉黑不受欢迎的用户 )


用户名:密码:[--注册ID--]

标 题:

粗体 斜体 下划线 居中 插入图片插入图片 插入Flash插入Flash动画


     图片上传  Youtube代码器  预览辅助

手机扫描进入,浏览分享更畅快!

楼主本栏目热帖推荐:

>>>>查看更多楼主社区动态...






[ 留园条例 ] [ 广告服务 ] [ 联系我们 ] [ 个人帐户 ] [ 版主申请 ] [ Contact us ]