目前,gutSMASH能够预测一系列已知和假定的基因簇,这些基因簇在功能上对肠道微生物组以及原则上对任何其他经常出现这种途径的微生物组(包括皮肤和口腔)都很有兴趣。
来自人类微生物群的厌氧细菌在高浓度下产生大量分子,可直接或间接影响宿主。这些分子的产生主要来源于它们的初级代谢,通常编码在代谢基因簇(MGCs)中。然而,尽管微生物源性初级代谢物很重要,但没有工具可以预测产生这些代谢物的基因簇。因此,我们最近引入了gutSMASH。gutSMASH可以预测41种不同的已知途径,包括参与生物能量学的MGCs,也可以预测新途径发现的候选途径。为了使该工具更加用户友好和易于访问,我们在这里介绍了gutSMASHweb服务器,托管于。用户可以输入GenBank程序集,也可以上传FASTA或GenBank格式的基因组文件。此外,用户可以启用附加分析以获得对预测MGCs的进一步了解。交互式HTML输出(可在线查看或下载以供离线使用)提供了一种用户友好的方式来浏览功能基因注释,并与参考基因簇以及其他基因组中预测的基因簇进行序列比较。因此,该web服务器为社区提供了一个简化且用户友好的界面,用于分析肠道微生物组的代谢潜力。
译名:gutSMASH web服务器自动识别来自肠道微生物群的初级代谢基因簇
一样,检测规则用于MGC识别,由构成给定代谢途径特征的Pfam组合组成。Pascal Andreu等人详细描述了检测规则的设计和验证。图1展示了gutSMASH遵循的不同步骤。根据用户指定的细菌基因组,gutSMASH首先通过迭代检测规则识别核心代谢基因。一旦确定了核心基因,每个原簇从每个侧翼延伸到包括辅助基因。然后,如果启用KnownClusterBlast或ClusterBlast选项,gutSMASH将通过将预测基因簇分别爆破到已知和特征化的MGC集合或更广泛的gutSMASH预测MGCs集合来执行MGCs比较基因组分析。接下来,如果需要,gutSMASH可以在功能上将基因分为八个不同的类别:核心生物合成、附加生物合成、运输相关、调节、抗性和其他(已在antiSMASH中发现)以及作为新添加的封装和电子运输相关基因。完成所有分析后,gutSMASH将写入结果并显示交互式输出。此外,web服务器还提供了将所有结果作为ZIP文件下载的选项。
gutSMASH的理想输入是Genbank或EMBL格式的带注释的核苷酸文件。用户可以手动上传GenBank/EMBL文件,或者只需输入GenBank程序集登录号,gutSMASH将自动使用NCBI FTP中带注释的组装基因组。或者,用户可以提供包含一个或多个序列的FASTA文件。在这种情况下,gutSMASH将预测基因并使用Prodigal注释基因组,并使用这些注释运行其余的分析。gutSMASH结果可以在浏览器中在线显示,也可以在本地下载。输出由几个交互式HTML页面组成,允许用户进一步探索结果。概述页面提供了所有预测MGC的信息,包括它们在基因组中的位置以及每个MGC所属的功能类别。主页还包含指向gutSMASH文档页面的链接()了解更多详细信息。此外,根据提交作业之前启用的选项,每个预测的MGC可以单独可视化,以便进一步检查其他MGC特定结果。除了HTML页面外,gutSMASH还生成带有KnownClusterBlast/ClusterBlast结果的纯文本文件(更多详细信息请参见“比较基因组分析”一节,以确定远缘同源物并评估MGC分类分布)和每个预测区域的Gen-Bank文件,以供进一步处理。
GutSMASH使用两个不同的数据库,KnownClusterBlast和ClusterBlast,查找与查询同源的MGCs。这种比较分析可以很好地显示MGC在人类微生物群细菌分类群中的分布,深入了解MGC结构(基因含量)的现存变化,并提供有关MGC功能的线索(使用基于同源性的推断)。
KnownClusterBlast模块旨在识别预测的MGCs和一组减少的具有遗传和生物化学特征的基因簇之间的相似性。为了设计这些已知途径的检测规则,分析了一组简化的已知途径。这些已知功能的MGCs序列包含在KnownClusterBlast数据库中,该数据库目前包含59个条目。因此,勾选KnownClusterBlast按钮允许用户识别哪些MGCs与这些参考MGCs同源并可能与之共享相同的功能,并详细研究其相似性和差异性。鉴于此选项的有用性,默认情况下会启用此选项。
为了建立集群数据库,可培养基因组参考(CGR)收集,人类微生物组项目(HM。