可进行全基因组级别的批量序列预测,也可进行宏基因组测序(三代测序)级别的巨量数据预测

工具介绍:CLEAN蛋白酶预测工具(在线或单机);

工具可批量进行全基因组级,三代测序级的序列分析;

        在线版每IP每次只能提交一个任务,序列数量有限;但是对于一般人而言,已经足够;

        单机版没有蛋白序列数量限制,但是需要  1)一定的Linux基础(要么学,要么花钱买方便),但最最重要的,还是这个工具的确是很好很出色;2)一台配置相对较高的电脑,笔记本台式机无所谓,重点是要配置高;根据原作者的提示,单机版运行时,内存应不少于12G,个人用48G的做了测试,没有问题,平稳运行;

||||\\\\分析服务

某鱼 检索“Interpro Pfam蛋白功能重批注-可开发P“某鱼 检索“蛋白表达亚细胞定位分析;全流程,可开发P某鱼 检索“病毒蛋白亚细胞定位“
某鱼 检索"Enzyme function prediciton using constrative learning 可开发P某鱼 检索:“signalp6 分泌信号肽预测 可开发P"
某鱼 检索“全基因组间序列比对,找差异表达序列
某鱼 检索“序列进化树作图,系统进化树作图;
某鱼 检索 “ pacbio测序数据分析,功能酶挖掘,可开发P

   
   

工具来源:

Science2023_Enzyme function prediction using contrastive learning

感谢原作者倾力打造的工具,提供了一个精准、又相对具有很高效率方案;极大地方便了广大科研工作者。

工具成功安装经验分享,详见博主专栏文章:

纯干货,CLEAN工具成功安装经历——蛋白酶精准预测工具

纯干货,CLEAN工具成功安装经历——蛋白酶精准预测工具-CSDN博客

个人用48G的做了测试,没有问题,平稳运行;

先上图,大家一览为快(前面几行是参数,抑或是格式不合适,报错,最后两行就正常工作了):

原文大致思路及工具过程如下:

实验方法

1. 开发机器学习算法CLEAN

  • 目的:为了更准确地为酶分配酶委员会(EC)编号,与现有的工具BLASTp相比,CLEAN在准确性、可靠性和灵敏度方面都有所提高。
  • 训练数据:使用UniProt的高质量数据训练,输入氨基酸序列,输出按可能性排名的酶功能(EC编号)列表。
  • 对比学习框架:CLEAN使用对比学习框架,目标是学习一个酶的嵌入空间,其中欧几里得距离反映功能相似性。
  • 训练过程:每个参考序列(锚点)与具有相同EC编号的序列(正样本)和具有不同EC编号的序列(负样本)一起采样。优先选择与锚点嵌入的欧几里得距离小的负序列,以提高训练效率。
  • 模型输入:使用语言模型ESM1b的蛋白表示作为前馈神经网络的输入,输出层产生精炼的、功能感知的输入蛋白嵌入。
  • 损失函数:使用对比损失函数,最小化锚点与正样本之间的距离,同时最大化锚点与负样本之间的距离。
  • 预测过程:通过平均训练集中属于该EC编号的所有序列的学习嵌入来获得EC编号簇中心的表示。然后,计算查询序列与所有EC编号簇中心之间的成对距离。与查询序列显著接近的EC编号簇的EC编号被预测为输入蛋白的EC编号。

2. 验证CLEAN的准确性和鲁棒性

  • 方法:通过广泛的计算机实验来验证CLEAN的准确性和鲁棒性。
  • 挑战:CLEAN被挑战为内部收集的未表征的卤酶(总共36个)注释EC编号,随后进行案例研究作为体外实验验证。

3. 与其他EC编号注释工具的基准测试

  • 比较工具:与六种最先进的EC编号注释工具[ProteInfer、DeepEC、BLASTp、DEEPre、CatFam和ECPred]进行比较。
  • 数据集:使用两个独立的数据集进行公平和严格的基准研究。

4. 理解CLEAN在注释未研究EC编号上的性能

  • 验证数据集:使用来自罕见EC编号的酶的验证数据集来测试假设,即与多标签分类框架相比,对比学习可以更好地处理EC编号的不平衡性质。

5. 实验验证

  • 概念验证研究:使用卤酶作为概念验证研究,验证CLEAN在分配EC编号方面的预测准确性。
  • 实验方法:使用高效液相色谱-质谱(HPLC-MS)分析和酶动力学分析来验证这些预测。

主要实验结果

1. CLEAN的性能

  • F1分数:在训练-测试分割中,CLEAN使用最大分离选择方法达到了0.865的F1分数,即使在10%序列相似性聚类时,CLEAN也达到了0.67的F1分数。
  • 基准测试:CLEAN在各种多标签准确性指标(包括精确度和召回率)方面都优于ProteInfer和DeepEC。

2. CLEAN在注释未研究EC编号上的性能

  • F1分数:CLEAN在包含超过1000个不同EC编号的3000多个样本的验证数据集上达到了0.817的F1分数。

3. 实验验证

  • 预测准确性:CLEAN在36个未完全注释的卤酶上的预测准确性在86.7%到100%之间,与其他六个常用计算工具相比,后者的预测准确性在11.1%到61.1%之间。
  • 功能区分:CLEAN能够区分具有相似生物催化反应的酶功能,即使在结构相似但功能不同的酶中。

意义

CLEAN的开发和验证表明,它在预测新发现蛋白的功能方面比现有的机器学习模型更精确和可靠,尤其是对于那些没有已知酶功能的蛋白。

CLEAN能够表征假设蛋白、纠正错误标记的蛋白,并且有效地识别酶的多功能性。

CLEAN的成功开发和验证为功能基因组学、酶工程、合成生物学、代谢工程和逆向生物合成等领域的研究提供了一个强大的工具,并且可以扩展到不限于酶活性的其他预测任务,如功能目录(FunCat)和基因本体(GO)。CLEAN的用户友好特性使其可以作为一个独立的工具在高通量方式中使用,也可以作为软件组件集成到其他计算平台中。CLEAN在预测未研究蛋白方面的优越性能将极大地扩展生物信息学工具箱,为未来的详细机制研究奠定基础。

个人对于该工具的理解毕竟有限,难免有疏漏及错误的地方,敬请见谅!!

有关该工具更加详细的应用,以及该工具的准确性,设计思路,请参考原始文献;

        附原文地址https://www.science.org/doi/abs/10.1126/science.adf2465

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐