责编 | 兮
自从在2013年被Nature Methods杂志列为年度最重要的方法学进展以来【1】,短短几年来,单细胞测序,尤其是单细胞转录组测序,已经改变了很多领域的研究方式,使我们对生物的理解深入到单细胞层面。现在主流的单细胞测序方法已经可以一次测量上千个细胞的转录组,产生大量的数据。
在生产数据不成问题之后,摆在科研工作者面前的挑战就变成了如何分析这些海量的数据。单细胞转录组数据的分析主要可以分为两部分,数据预处理和下游分析。数据预处理包含很多可选的步骤,例如数据标准化(normalization),缺失值处理(imputation),数据整合(dataintegration)和去除批次效应(batch effect)。在进行预处理之后,获得的表达数据可以作为下游分析步骤的输入,例如差异表达分析,聚类(clustering)以及轨迹分析(trajectory analysis)。由于单细胞转录组数据和传统RNAseq的差异,针对传统RNAseq开发的方法可能不适用于单细胞数据。于是,开发针对单细胞转录组的数据分析方法成为了最近几年生物信息领域的热点话题。到今年为止,相关方法已经超过400个【2】。在大量的方法被开发之后,如何衡量不同方法的优劣又成为一个新的挑战。
为了解决这一问题,2019年5月27日澳大利亚沃尔特伊丽莎医学研究所的田鲁亦与副教授Matthew Ritchie在Nature Methods发表文章Benchmarking single cellRNA-sequencing analysis pipelines using mixture control experiments,通过设计实验,人工混合不同的细胞与RNA样本,建立了首个单细胞转录组基准数据集,并在此基础上,使用自己开发的CellBench软件,比较了3913个不同的方法组合,揭示不同的数据分析流程适用于不同类型的数据,指导了单细胞数据分析的方法选择。同时,该平台还可以用来帮助开发新软件和方法的研究者将他们的方法与已有的方法进行比较。
该研究产生的基准数据集主要分为两个部分,单细胞和通过混合产生的人工细胞(pseudo-cell)。经过培养后的最多5个肺癌细胞系经过混合后,用三种单细胞转录组方法:Drop-seq,10X和CEL-seq2进行了建库测序。使用多种不同的测序平台可以增大数据的异质性,确保所衡量的方法可以用于多种测序平台生成的数据。在使用单细胞的基础上,该研究又通过混合不同肺癌细胞系的细胞或RNA,生成了模拟单细胞转录组基因变化的人工细胞,并且通过基于384孔板的方法进行建库测序。这样生成的数据可以模拟细胞分化时转录组从一种细胞类型转变为另一种细胞类型的变化,可以用于衡量路径分析(trajectory analysis)方法的结果。总而言之,一共14个数据集被生成。由于所使用的肺癌细胞系的转录组已经被较好地了解,并且RNA和细胞的混合比例已知,所以研究者可以知道每个细胞的所属类群并且得到真实的标签。
在生成了基准数据集之后,该研究建立了一个可以在数据分析流程层面(pipeline level)比较方法的软件平台CellBench。与其他分析方法比较的研究不同的是,该研究通过CellBench比较了从数据预处理到下游分析的整个数据分析流程,研究了不同预处理对不同下游分析的影响。从数据分析流程来看,数据标准化和缺失值填补对聚类和路径分析都有正面的作用,有的方法普遍优于其他方法,例如Linnorm,Scran以及SAVER。然而缺失值填补会增大数据的批次效应,增加数据整合的难度。另外,有的缺失值填补方法,例如KNN smooth,还会引入假阳性和错误的细胞类群,所以应当谨慎使用。另外,Seurat包中的聚类方法普遍优于其他方法,但是在细胞混合数据集中略差于RaceID3。但是,Seurat包中的数据整合方法会在去除批次效应的同时,抹去数据的生物学变化(biological variation)。
沃尔特伊丽莎医学研究所博士生田鲁亦为文章的第一作者,副教授Matthew Ritchie和田鲁亦为文章的通讯作者。除了澳大利亚国立健康与医学研究理事会提供的基金以外,该研究还获得了陈·扎克伯格基金会(Chan Zuckerberg Initiative,CZI)的资助,是人类细胞图谱计划(HumanCell Atlas, HCA)前期项目的一部分【3】。该研究产生的数据以及使用的代码全部公开于Github,并将加入人类细胞图谱计划的数据中心。CellBench软件可在Bioconductor下载安装。
由于整个单细胞测序领域的飞速发展,传统杂志的审稿周期已经无法满足研究者快速跟进领域前沿的需要。越来越多的研究组会将文章的预印本(preprint)公开在以bioRxiv为首的预印本网站。这两年来许多单细胞测序领域的重量级文章都在正式发表前公开在了bioRxiv网站。本文所提到的研究也在去年10月在bioRxiv公开了初稿,受到了广泛关注(pdf download >3000),并且已经被其他文章所引用。值得注意的是,就在最近,两篇分别由意大利的Holger Heyn和美国的Aviv Regev领导的HCA数据集文章在bioRxiv公开【4,5】。和着重于数据分析流程比较的该研究不同的是,这两篇文章聚焦于比较不同的单细胞转录组测序方法以及不同数据平台的数据整合。
附属于墨尔本大学的沃尔特伊丽莎医学研究所(Walter and Eliza Hall Institute of Medical Research)是澳大利亚最古老的医学研究院,成立超过100年。现拥有15家分支机构,超过750名研究员。该研究所在转录组定量和差异表达分析方面的生物信息学研究享有盛誉,开发了包括limma (被引 4857),edgeR (被引 10848),featureCounts(被引 2507)在内的一系列被广泛使用的转录组分析软件包。
原文链接:
https://doi.org/10.1038/s41592-019-0425-8
制版人:小娴子
参考文献
1. https://www.nature.com/articles/nmeth.2801
2. www.scrna-tools.orghttps://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1006245
3. https://www.wehi.edu.au/news/melbourne-technology-boosts-effort-map-every-cell-human-body
4. https://www.biorxiv.org/content/10.1101/632216v1
5. https://www.biorxiv.org/content/10.1101/630087v1
BioArt,一心关注生命科学,只为分享更多有种、有趣、有料的信息。关注请长按上方二维码。投稿、合作、转载授权事宜请联系微信ID:bioartbusiness 或邮箱:sinobioart@bioart.com.cn。原创内容,未经授权,禁止转载到其它平台。