目前对剑桥论文“Phylogenetic network a
nalysis of SARS-CoV-2 genomes”的一些质疑(转载) 转发:大家都关心这个事 6park.com目前对剑桥论文“Phylogenetic network analysis of SARS-CoV-2 genomes”的一些质疑 6park.com鉴于之前在朋友圈发了一些没有经过仔细阅读和思考的评论,以及现在这篇文章受到的关注,有必要发一条梳理一下现在对它的主要质疑。这些质疑有的是从Twitter上看来的,我会试图说明它们的来源。 首先,讨论的对象是由剑桥大学古遗传学家Peter Forster为通讯作者,题为“Phylogenetic network analysis of SARS-CoV-2 genomes”,发表于PNAS。原文地址在https://doi.org/10.1073/pnas.2004999117 6park.com一部分的质疑集中于发表流程和作者之间的关系。 1) 一般来说一篇论文的发表会经历投稿-编辑筛选-同行评议-修改的流程。其中同行评议是审查稿件质量的关键。不过PNAS是美国科学院的会刊,除了正常的接受外部投稿流程以外,也接受其成员推荐稿件。成员推荐稿件也要求同行评议,不过发表的门槛通常比外部投稿流程低很多。本篇文章属于内部推荐稿件,由同样是剑桥大学的Colin Renfrew教授贡献。Colin Renfrew和Peter Forster同时在剑桥大学麦克唐纳德考古学研究所(McDonald Institute for Archaeological Research)任职。除了可以在文章本身中看到这些信息以外,在明翰大学微生物与传染研究所(Institute of Microbiology and Infection)教授Nick Loman的Twitter下可以看到相关质疑(https://twitter.com/pathogenomenick/status/1248247563997696000 ?s=20)。 2) 几位作者有同样的姓氏Forster,虽然这是一个常见姓氏,也有网友怀疑他们之间的亲属关系。 6park.com然后是文章本身的质量。 1) 首先文章中用到的数据来自公共数据库GISAID,也就是现在几乎所有类似序列分析的来源。由于COVID-19研究的时效性,各国研究者都在相对即时地上传和共享他们得到的病毒基因组序列。现在(4月11日)GISAID上有5894条新冠病毒数据,但文章作者只选取了160条来做分析。就算考虑到文章选数据的时间点(3月20日),以及他们筛选了组装完成度比较好的那些,这个数据覆盖还是太少了。 2) 然后是他们用的分析方法。由于他们的方法叙述非常不详尽,所以很难找出他们具体做了哪些分析。文章中提到他们主要使用了一个在古人类DNA领域常用的软件Network5011CS。但是因为这个软件的使用相对简单,算法相对比较古早,文章的工作量就很薄弱。见Daniel Croll教授的Tweeter质疑(https://twitter.com/danielcroll/status/1248532362033614849 ?s=20)“我知道怎么下载数据,以及本科生的时候就会用这个软件了,我也能发PNAS吗?” 3) 其次,文章内容对现在关于新冠病毒的序列认识其实没有什么贡献。一则nextstrain网站上有非常即时和全面的GISAID新冠数据分析(https://nextstrain.org/ncov)。二则此前已经有两篇相对质量好一点的序列分析文章,版纳植物园的预印本(http://www.chinaxiv.org/abs/202002.00033)和分成S型L型那篇发在《国家科学评论》上的(https://academic.oup.com/nsr/advance-article/doi/10.1093/nsr/nwaa036/5775463?searchresult=1)。 4) 文章里蝙蝠序列看上去和一月份的样品就差了大概17个突变,这显然和已知的情况不一样。来自Zach Hensel教授(https://twitter.com/alchemytoday/status/1248339550746927104 ?s=20)。 6park.com最后,即使这些质疑看上去不那么致命,从文章自身的逻辑也无法引申到“新冠病毒起源地不在中国”(这还是一个没有定论的问题)。因为受到选取的序列多寡影响,演化系统树节点上的序列多少是不一定的, 但是可靠的系统树分析会指向一个共同的拓扑结构。这个文章的树没有在大的拓扑结构上颠覆已知信息。
|