文献名:Utilization of the Proteome Data Deposited in SRMAtlas for Validating the Existence of the Human Missing Proteins in GPM(利用SRMAtlas中的已有的蛋白质组数据验证GPM中人类缺失蛋白的存在)数据库
期刊名:journal of proteomeide
发表时间:2019.10.24工具
IF:3.780编码
单位:spa
1、日本Niigata大学翻译
2、开罗Al-Azhar大学设计
物种:人类blog
技术:生物信息学;LC-MS/MS资源
1、 概述开发
2012年以来,人类蛋白质组计划(HPP)致力于研究人类全部蛋白质。然而,根据neXtProt(2019−1)的最新发布,大约10%的人类基因仍然没有充分或没有实验证据证实它们在蛋白质水平上的翻译。它们被归类为缺失蛋白(PE2 - PE4)。为了进一步实现HPP的目标,开发了两步生物信息学策略,解决了如何利用与缺失蛋白相对应的SRMAtlas肽做为惟一参考,以探索它们在GPM中的自然对应物。第一步,咱们在GPM中搜索与缺失蛋白相对应的SRMAtlas肽,在35个不一样的蛋白质组学研究中,新发现了51个缺失蛋白。第二步,咱们根据合成肽和自然肽在SRMAtlas和GPM中的谱图进行比对,验证这些新发现的缺失蛋白。结果代表,经谱图匹配验证23个缺失蛋白中含有≥2个肽段。
2、 研究背景
人类蛋白质组计划是一项旨在对人类基因组中编码的全部人类蛋白质进行编目的世界性项目,经过对每一个已知的人类基因序列识别至少一种蛋白质,验证人类蛋白的存在。根据neXtProt数据库最新版本,17694个蛋白质(89.26%)在蛋白质水平上有足够的实验证据(PE1),而2129个蛋白质(10.74%)被认为是缺失的(PE2-PE4),没有实验证据。
缺少实验证据的缘由有:1、没有表达(沉默基因);2、在某些组织中没有表达;3、表达水平极低;4、具备极端的物化性质,影响蛋白的溶解和提取;5、存在未知修饰
目前对缺失蛋白的发现速度很慢。GPM(Global Proteome Machine)可从新分析与Peptide Atlas不一样的LC-MS/MS数据,综合利用它们的蛋白质组数据有可能加速缺失蛋白的发现。
SRMAtlas是迄今为止人类蛋白质组中最全面的实验资源,拥有166174个肽的实验数据,几乎涵盖全部缺失蛋白,本研究的主要目的是利用与缺失蛋白相对应的SRMAtlas肽的实验数据做为参考,以探索它们在GPM中的自然对应物。
3、 实验设计
分为两步策略:1、在GPM中寻找与缺失蛋白对应的SRMAtlas肽段(基于肽段一级氨基酸序列);2、基于SRMAtlas中的合成肽段和GPM中的自然肽段的谱图匹配验证新检测到的蛋白质肽段
4、 研究成果
一、 在SRMAtlas数据库中寻找与缺失蛋白相对应的肽段,利用最新的neXtProt缺失蛋白数据库,在SRMAtlas中检索到与1764个缺失蛋白相对应的8796个肽段,。
二、 利用neXtProt中的肽段惟一性检测工具检测与缺失蛋白相对应的肽段的惟一性,结果代表与1644个缺失蛋白相对应的6736个肽是长度≥9aa的惟一性肽段(table s1),2060个肽段被过滤掉。对6736个肽段的分布研究代表超过96%的是至少含有2个肽段(fig2A),这代表SRMAtlas数据库中不一样蛋白质组学的研究对验证缺失蛋白的存在是相当重要的。
三、 使用SRMAtlas数据检测和验证GPM中的人类缺失蛋白,基于氨基酸序列,编写了一个perl脚本在GPM中的1898569个肽中检索缺失蛋白对应的SRMAtlas中的肽。脚本返回匹配到的肽及其在GPM和SRMAtlas中的注释。结果是在GPM中检测到与307个缺失蛋白对应的449个肽段。89个缺失蛋白拥有至少2个自然肽段(fig2B),对89个缺失蛋白的的谱数中位数为每肽23个谱,一个肽段的最小谱数为5个谱。(fig3A)
另外,与GPM数据库中发现的缺失蛋白匹配的最佳PSMs的中位E-value是2400x10-8,最大E-value是9700x10-4(fig3B)。
四、 一些候选的PE1蛋白仅在某些蛋白质组学实验中被检出,有趣的是,观察这些蛋白在不一样组织和细胞系中的分布发现(fig4A),大脑是缺失蛋白最易被检出的区域之一,在一项关于人脑的研究中有6个缺失蛋白被明确。另外4个缺失蛋白在HEK293和HEK293 T细胞中被发现,代表这些细胞系可能为缺失蛋白的表达提供了温馨的环境(fig4B)。
5、检索SRMAtlas中“PE1候选蛋白”的光谱。在SRMAtlas中,经过SRMAtlas查询工具搜索“PE1候选蛋白”对应的肽段,从不一样的质谱源(QQQ、QTOF和QTRAP)检索这些肽段的片断离子。得到了123个与缺失蛋白对应的光谱。在母离子水平。咱们检查了GPM和SRMAtlas的一对光谱是否与具备相同母离子电荷和相同m/ z的相同肽序列在0.01 Da差别内匹配(fig5A)。结果代表,从QTOF、QQQ和QTRAP中分别获得的65、54和73个肽段光谱与GPM中的自然对应物光谱匹配良好。在碎片离子水平,与23个缺失蛋白对应的55个多肽有≥2个多肽 (表1)。值得注意的是,全部QQQ、QTRAP和QTOF光谱中,23个缺失蛋白所对应的碎片离子中,有74%存在m/z的0.02 Da的差别。
5、 结论讨论
SRMAtlas是惟一一个含有实验数据的数据库资源,这些实验数据都是针对那些与缺失蛋白质相关的肽段。利用这些数据对缺失蛋白的发现有重要做用。在GPM中搜索SRMAtlas中与缺失蛋白对应的肽,发现了123个自然肽段,它们与51个缺失蛋白匹配。此外,经过匹配GPM和SRMAtlas之间新发现的缺失蛋白的MS/MS谱,这51个缺失蛋白中的23拥有≥2个肽段且≥9aa。最后,咱们建议,挖掘更多的蛋白质组学研究之外的其余分析PeptideAtlas将帮助咱们发现更多缺失蛋白