近日,中国科学院水生生物研究所领衔开发的系统发育分析平台PhyloSuite的相关论文“PhyloSuite: an integrated and scalable desktop platform for streamlined molecular sequence data management and evolutionary phylogenetics studies”在分子与演化生态学综合期刊Molecular Ecology Resources 发表。
系统发育分析是一项耗时、复杂的工作。为了推导出更接近真实演化历史的结果,研究者们通常需要进行多次分析以评估不同数据集、演化模型、建树方法及软件参数对建树结果的影响。另外,不同软件支持不同的输入格式,而不同文件格式之间转换繁琐,有时还需要通过终端命令行甚至编程实现。因此,批量、多核运行、文件格式自动转换以及流程化操作已成为大多数系统发育学者的迫切需求。
为解决上述问题,水生所王桂堂团队经过三年的努力,与福建农林大学副研究员高芳銮合作开发了一个操作简单、界面直观友好、无需编程基础、自动化输入输出的系统发育分析平台——PhyloSuite。该平台的主要特色包括:①支持Windows、Linux和MAC OSX三大操作系统跨平台运行;②灵活的序列提取功能,包括提取线粒体基因组、叶绿体基因组、核糖体rDNA基因(18S/28S)等,并且支持自定义提取;③整合了当下最流行、最常用的系统发育分析软件(如MAFFT、MACSE、HmmCleaner、PartitionFinder2、IQ-TREE和MrBayes等),并赋予它们批量、多核运行功能,大幅提高系统发育分析效率;④联合上下游分析软件,自动整理输入和输出文件;⑤流程化系统发育分析,只需输入文件并配置好参数,即可一键完成系统发育分析;⑥结合iTOL快速完成系统发育树美化;⑦支持大尺度范围内细胞器基因组的荟萃分析(meta-analysis);⑧NCBI氨基酸(Protein)和核苷酸(Nucleotide)数据库检索功能,方便获取相关的基因数据。
PhyloSuite门槛低,并配有相关资料、教程,可使初学者快速入门系统发育分析。更重要的是PhyloSuite针对基于基因组、转录组以及细胞器基因组(线粒体基因组、叶绿体基因组等)等的多基因联合分析,进行了一系列优化设计:①灵活的序列提取功能,可以快速从海量数据中挖掘到需要的信息;②新增多基因串联功能,可与下游分析完美结合。
该软件一经发布,就受到广泛好评,其GitHub网页以及bioRvix预印版累计引用达35次。
目前,PhyloSuite已协助完成基于线粒体基因组的鱼类寄生虫系统发育研究近20次,一系列相关成果已在Genome Biology and Evolution、BMC Genomics、BMC Evolutionary Biology、International Journal for Parasitology、International Journal of Biological Macromolecules 和Parasites & Vectors 等杂志上发表。
本项工作主要由博士研究生张东等人完成,通讯作者为研究员王桂堂和副研究员李文祥。该研究得到国家自然科学基金和国家大宗淡水鱼产业技术体系专项资金的资助。
图1:PhyloSuite界面与主要功能
图2:利用PhyloSuite完成的系统发育分析图例