(转)如何成为顶级生物信息学家?

每过一段时间就要读一遍,看看本身如今到底在哪一个等级了。php

前几天去南京参加两年一度的全国大会CCBSB2014,今年是第六届,见到许多熟识的前辈和老朋友,也结识了很多新朋友。相比于两年前在哈尔滨开的第五届大会,参会人数又多了100多。连大会特邀报告算上,总共76位学者作口头报告,其中30位学者我以前并不认识,这个比例正好是40%。领域里的大会小会,不管什么时候、何地,总有约40~50%的学者我不认识,这个比例近年来恒定不变,咱生信领域发展速度之快,因而可知一斑。70多位学者的报告所涉及的研究方向,大概至少有60多个,两位或者多位学者从事一个小的研究方向的现象,很是少见。昨晚和有11年交情的好友一块儿吃饭,你们回忆十年前国内生信开大会的场景,想了半天庆华来一句:那会儿你们好像没啥能够作的,哪像如今这么多问题啊!因此咱生信领域如今真实的场景是:火打着,油门踩到底,档挂到顶,无边无际的荒原,使劲的狂奔,勇往直前;有条件的开法拉利,没条件的开乐驰,实在没条件的蹬个三轮儿也行,反正地盘儿有的是,谁抢着算谁的。兄弟我对这一现象总结:圈地运动。讲这儿估计有人不高兴了:大家生信咋作的这么散呢?这个不是咱生信想作的散:问题实在太多,又不缺数据,本身感兴趣的问题都没解决,哪有时间管人家的东西啊?使劲儿的冲就得了。至于即将毕业,或者刚毕业的同行兄弟们,也别以为没肉吃了,你们就算这么裸奔,也远没有涵盖生信全部的方向,而且通常一个小领域往少了说能容纳10位学者不算挤,那咱这领域的规模扩大10倍也照样容得下。因此咱在这儿说一句:欢迎加入圈地运动(要不改为“生信欢迎您”?)。html

***************************************************************************算法

讲完废话讲正事。话说八号晚上参会的学者们开了一个“青年沙龙”,形式很活泼,讨论了各类问题,其中忘记谁提了个问题,大体就是怎么评价生物信息学者的水平。你们七嘴八舌说了半天,最后Shirley作总结,众人一听,有道理。因此回来以后Shirley就写了篇博文《Levelsof Bioinformatics Research》,建议同行兄弟们读读,推荐指数五星。由于咱生信算是比较新的研究领域,又是交叉学科,通常来讲正统搞计算的以为你在方法上没贡献,搞生物的又以为你其实也就是个修电脑的。话说到这,电话铃儿响了,二楼打电话让过去看一下电脑咋黑屏了。好嘛,蹬蹬蹬跑下楼,围着电脑琢磨了半天,明白了:插头没插紧。摆平,回办公室。所以交叉学科评价这是个问题,哪边儿都不讨好,给个酱油级的评价那已经算是给面子了。因此同行评议才合理,好在咱生信如今人也很多,创建同行评议的机制并不困难。兄弟我写博客属于踩西瓜皮式的写法,滑哪儿写哪儿,这篇咱尽可能忠于Shirley的原文,不改主要的观点。数据库

如何成为顶级的生物信息学家?看你的研究。因此Shirley将生物信息学研究(注意,不是生物信息学者本人)的水平划分红五个层次。此外,Shirley不区分生物信息学(Bioinformatics)和计算生物学(Computational biology),所以这两个概念不作区分。在这里咱再重复一遍,生物信息学和计算生物学的区别,就是西红柿炒蛋和蛋炒西红柿的区别,您要以为有区别,那看我嘴型:呵呵。工具

0级 (Level 0):为建模、而建模(modeling for modeling’s sake。简称:渣级。Shirley在博客里提到说“若是你记得功夫熊猫”,问题是我没记得这个,脑子里想的是《憨豆的黄金周》里那段nothing, nothing, nothing… 原博举的例子是,以前有人问:如今数据这么多,能建模的东西一大把,那咱们该干点啥呢?Shirley就问:你想解决啥问题?答:建模的问题。这就像我坐电梯看见认识的研究生,说小伙最近忙啥呢?答:作水稻呢。继续问:具体研究的啥?不高兴了,诧异:研究水稻啊!而后给我解释了半天中国要研究水稻的必要性。我…兄弟我天天吃米饭还固定要研究水稻三遍呢。原文解释,这个回答是OK的,若是科学家仅仅将本身当成数学家、统计学家、计算机科学家、物理学家,或者像我这样用嘴巴研究水稻的吃货,由于在这些学者各自的领域里,确实有许多好的理论建模问题。但若是这些学者是认真对待生物信息学的研究,这个回答不OK。许多0级生物信息学家们历来不读或者不发表生物学期刊上的论文,也不参加生物学的会议,所以这个级别属于“未入门级”。根据人以类聚,物以群分的原则,0级生物信息学家们一般只阅读本身或者其余0级生物信息学家的论文,而且,而且引用也是自引或者被同级别的学者引用。所以这类研究就是浪费资源。学习

1级(Level 1):给数据、能分析。简称:菜鸟级。这类研究通常是分析本身或者合做者实验室里未发表的数据,并试图得到新的生物学发现。相比与0级,这已经有很大的进步,而且是训练生物信息学者最好的途径之一。能够练习将已有的生物信息学技术来作出真正生物学发现的技巧,学习更多的生信技术和生物学知识,能够启发、衍生出2级和3级的好课题。评价1级科研的功底和水平要看数据有多复杂, 是否须要生信人员写一些程序和算法(而不是只用他人的工具),生信分析在整个研究中的有重要性 (最重要的假设发现是否是由生物信息分析出来的,文章中生信图表的个数),实验与计算的结合程度 (实验与计算 环环相扣,而不是高通量实验数据得到完跟个生信分析就拉倒),以及研究中生物学的发现是否是真的有意思,等等。所以兄弟个人见解是,1级虽然是“入门级”,但很是很是重要,全部生信专业研究生的必经之路,非生信领域的学者或学生,能达到1级中已可算是高手,进阶到1级上那就是百里挑一了。大数据

2级(Level 2):想新招、玩数据。简称:肉鸟级。具备2级水准的生信研究有:1) 设计方法解决生物医学相关大数据分析中普适、定量的问题。好比咱生信课本里经典的用于双序列比对的Smith-Waterman算法等等;2) 设计算法来分析新的高通量技术所得到的数据,例如华大基因设计的用于二代测序短读段 (read) 映射到基因组上的SOAP系列工具,这就是典型的2级工做;3) 从各类公共数据中经过整合创建数据库或数据资源。这个太多了,生信领域各类专业、精心注释的数据库,都属于2级的研究。2级比1级高的地方,在于1级只能帮助一个实验室或者固定的、极有限的合做者,而2级的工做则能够帮助数百甚至数千的生物学家。2级的工做没必要须发表在顶级的期刊上,时间会证实一切,好比分子进化领域的经典软件MEGA,每一年几千的引用跟玩儿同样。这些方法并不见得必需要很是新,利用已有的统计或者计算方法来解决新的生物学问题已经足够保证其新颖性,但必须尽量保证用户的友好性。开发者通常在发表以后还须要作很是很是多的工做,好比维护、升级,即便不在发表后续的论文。评价2级的生信研究工做不能数影响因子,但作的好却比较容易被领域承认(例如,华大基因发表NCS对咱搞生信的来讲未必承认,但人家的SOAP系列作的确定是专业水准的)。此外,2级的研究要作的好,生物信息学者通常须要专一于本身特定的方向,从而可以较好地了解领域内相关的、新的计算方法和实验技术。整体来讲,国内生信专业的博士毕业,通常起码要作出2级下水平的工做,总得有点儿新玩意儿,否则想毕业几乎是不可能的。而对于非生信领域的学者,从1级进阶到2级几乎是不可能的,咱生信人的饭碗,不是想砸就能砸的了的。因此对于业余票友们来讲,与其花精力试图进阶2级,还不如找专业学者合做更划算。ui

3级(Level 3):玩数据、做发现。简称:顶级。3级的生信研究通常是整合公共的高通量数据,利用至关精致的方法来作出生物学发现。所以这样的工做通常是从数据开始,实验验证结束。这就须要生物信息学家具备很是扎实的生物学知识,而且可以本身提出有意思的生物学问题。生物信息学家能够领导一个生物学的项目,而且实验学的合做者可以相信预测的正确性以及意义,并乐意开展实验验证。这个级别的研究通常都须要实验验证,否则顶级的期刊不收。对这类工做的评价,主要是看生物学的问题是否有意思,数据整合和分析是否有足够的技巧和合理性,而且也能够根据杂志发表期刊的档次(影响因子)来判断。例如我在《环形RNA分子:论开挂在生命科学研究中的重要性》提到的工做,这是典型的3级研究。从2级进阶到3级很困难,兄弟我目前正在努力中。spa

X级(Level X):玩科学、讲政治。简称:神级。在这个级别,生物信息学家要在巨型项目产生的海量数据的整合和模拟中发挥关键做用。作这个级别工做的生物信息学家通常具备良好的1级和2级的研究记录,而且在团队研究中要具备非凡的领导才能。这些工做通常都发表在顶级的期刊,而且引用极好,在研究过程当中要注意协调方方面面。尽管有时生信对于这些论文的发表是重要的,但每每数据自己可能比方法更重要。例如期刊判断论文要依据其数据量的大小以及潜在的引用,而不是生信。此外,这类工做更多的是反映第一做者老板们的领导力以及在领域里的地位,而不是第一做者的技术能力和创造力。因此X级论文的第一做者们每每并不会获得足够的承认。所以,这些工做中的一做在独立研究以后,每每是必须创建科学的声誉,而且与以前X级工做无关。学者参加一些X级的生信研究无可厚非,由于这些项目的成员通常在各自领域都是顶级学者。但若是学者只开展或者只发表X级的工做,那就代表该学者在政治方面的关注已经超过科学了。兄弟我举例:典型的X级生信研究工做如艾瑞克•兰德 (Eric Lander) 领衔的人类基因组草图的公布《Initialsequencing and analysis of the human genome》。艾瑞克是第一做者也是共同通信做者,由于这篇论文主要是他写的,因此数据也天然主要是他分析的。这篇论文影响深远,最重要的就是基本肯定了基因组学这类超级项目的研究范式以及论文的书写格式,例如这类论文通常不带后续的实验验证,因此也是有争议。这也就是为何国内总是讲华大在灌水的缘由,第一,华大显然是在灌水;第二,这个灌水模式是老外发明的;第三,那你很容易就能明白,其实老外灌的更狠;第四,你老外本身定的游戏规则,你还玩不过华大,那你得懂“愿赌服输”这个道理。设计

Shirley总结,对于生物信息学者来讲,通常从1级的研究开始,学习基本的生信技术;等到计算和生物学知识掌握差很少以后,能够尝试想2级和3级进阶,而且有可能也参与X级的研究。若是条件容许的话,通常有成就的生物信息学家的研究会从1级作到X级,不会专一某一个级别(因此搞生信研究不能挑食)。也有许多生信学者包括Shirley本人也在开始作实验而且产生实验数据,这样实验的内容要拿去跟实验学家的工做去比,而计算部分则可按照上述五个类别来评价。所以,当您再读基因组和生信的论文,能够带着“这是什么水平的生信工做”这个问题来阅读。尝试客观的评价生信工做,而不是数论文发表期刊的影响因子。

   注:本篇博文的观点不表明本人观点,但兄弟我对这些观点表示无比的赞同。从1级到2级,对于生信专业的研究生和教师们来讲不难,但2级到3级却极其困难,对于和我年龄至关的同行朋友来讲,要跨越这一步几乎是难比登天。以及迈这个坎的,恭喜;如我般还在苦苦修炼的,也没必要心急,武功练到境界了,破关也就是水到渠成的事情。同勉。

转载本文请联系原做者获取受权,同时请注明本文来自薛宇科学网博客。
连接地址:http://blog.sciencenet.cn/blog-404304-834869.html

相关文章
相关标签/搜索