剑气之争,聊聊算法岗位的门户之见!

你们好,今天给你们聊点有意思的。web

之前在读金庸先生《笑傲江湖》的时候,总以为有一个地方有点扯,就是华山派的剑气之争。按说有人喜欢耍贱(剑),有人喜欢用气,这实际上是我的喜爱,怎么会上升到门户纷争,还所以自相残杀呢?因此我以前的时候一直以为这个是金庸先生剧情须要,否则怎么会有风清扬传功令狐冲的情节呢?算法

可是当我长大了步入职场以后,我对这个问题发生了见解。由于我在工做岗位上也看到了一点门户之见的影子,虽不像小说里那样你死我活苦大仇深,可是仍是挺有意思的,因此今天就和你们聊聊这个话题。机器学习

就个人观察,职场当中的算法工程师也能够分为两派。一派是学院派,一派是实践派,下面和你们分别聊一聊。编辑器

学院派

学院派这个词应该不难理解,也能够理解成学术派。简而言之,就是喜欢从学术领域寻找解决方法或者是灵感,比较直接的体现就是看paper。学习

我发现这个派别和学历有一点关系,学历越高,越是根正苗红的身上的学院派风格越浓。言必称paper,口必提复现,常常给出的解决方案是,咱们能够follow一下某一篇论文当中的方法来尝试一下,看看是否可以解决当前的问题。平常的工做当中,也常常会抽空看看各种学术期刊和论文。spa

大到某某场景使用某某模型,小到某个特征如何处理,如何作采样,都势必要找到援引、出处。简而言之,咱们的一切作法都不是空穴来风的,都是有迹可循,能够找到理论凭证的。有点像是小说里的剑宗,很是看重套路(剑法),以为只要套路耍得好,就能够解决问题。反过来讲就是输了必定是剑招没练到家,或者是学的剑法不行,毫不是内功不济。设计

这个派别的好处是看起来比较光鲜,不管是学历仍是作法,都看起来很是高大上。言语当中也是中英夹杂,逼格甚高。说服力很强,不管是和外行交流仍是和上司汇报,只要当当当抛出几个术语和paper名称,就能够镇住场子。外人与之交谈,若是没有一点援引出处很难不心虚,以为本身的耍的是野狐禅好像登不上大雅之堂。orm

但缺点也很明显,只会耍套路实战每每很堪忧。道理也简单,由于咱们能找到的paper、期刊当中的真材实料其实很少。虽然paper当中会讲明model的设计方法甚至会附上代码,可是只有这些是一点用也没有的。中台的数仓、特征的设计和处理,这些真功夫的东西都是不会透露出来的。只仿照模型起到的效果很是很是有限,甚至一些极端状况下是有害的。ci

还有更重要的一点是,全部的paper都是不成体系的。我以前也写过几篇paper剖析,虽然都是推荐领域著名的paper。可是讲来说去基本上都只局限于模型这一块,关于整个推荐系统当中从上到下、从浅入深是没有一个完整的介绍和内容的。我我的感受读paper有一种管中窥豹的感受,对于大牛而言心中已经有了豹子的全图,瞄一眼看几个关键点就足够了。但对于大多数不那么资深的从业者来讲,想要经过这一孔见方窥得全图几乎是不可能的it

实践派

和学院派对立的就是实践派,也能够简单理解成野路子。

我以前在阿里的时候感受比较明显的就是阿里的企业文化比较崇尚野路子,你们能够听听它的标语,“什么平凡人作非凡事”,“由于相信因此看见”,就能够一窥端倪。

实践派的做风是实践出真知,无论那些条条框框的束缚。我讲一个我本身的故事给你们体会一下,我刚去阿里没多久的时候,那时候我也才刚入门,大约是读过几本机器学习书籍的水平吧。当时接到一个任务,让我预测一个用户喜爱的类目。彻底没有想过去看下paper里是怎么作的,或者是前人都有过哪些方案,全本身来。简单设计了一下方案和特征,大部分特征都是现成的,其中一些分布有点问题,我作了一些one-hot或者是multi-hot处理,而后随便套了一个还不错的模型(XGboost)。

我本身都以为作得太草率了,也可能我当时把作模型想得过高大上了,感受我这三板斧说不出来的low,很有些羞愧。我如今都还记得,我当时训练完初版的AUC是0.82,我当时也没以为有什么。其实以如今的眼光来看,这种场景下的预测AUC能上0.8,只有两个字就是离谱。简单看了一眼效果,感受还能够。又拿新的数据算了一下覆盖率,也很不错,大部分用户点击的类目都命中了。

更离谱的还在后面,这个模型作完以后我就抛在脑后了,但没想到的是从那以后就一直有各路大佬钉钉找我请教我这个模型是怎么作的,他们对比了一下本身的数据都以为很是准,想要学习学习。更夸张的是,后来听说要作一个广告预测模型,专门找了阿里妈妈广告算法的同窗来作,搞了半天还不如这个模型的效果好。我当时据说这事的时候,真的震惊得下巴都要掉下来了。

如今回想起来当初,虽然仍然有些难以想象,但冷静下来想一想,也是有一些缘由的。当时拍脑壳定的几个值和作法都定对了,好比正负样本比当时定的1:3,再好比当时正负样本的选择,以及一些分布不太均匀的特征作离散化处理等等,其实都是对的。只是当时基本上凭的感受和推测,不像如今这么底气足。

整体来讲实践派喜欢本身想方法,本身设计方案来解决问题,而不是一味参考paper。好比模型效果不太好,第一想法确定不是换一个模型或者是参考一下paper,想的必定是这个场景下还有哪些有用的特征,或者是模型的哪些参数是否是要调整一下。有点像是华山派当中的气宗,以气驭剑,实践决定理论,效果比如那些花拳绣腿管用。

个人思考

我以前是站实践派的,由于技术是为了业务服务的,在大小公司都是如此。也就是说有实际的效果和产出,比花里胡哨的先进技术有用得多。固然这当中有一部分缘由是由于我是本科生,没有通过正统的学术氛围的洗礼和锻炼。

后来随着我读过的paper愈来愈多,加上视野愈来愈开阔,我对这个问题有了新的想法。paper当中先进的巧妙的作法不少,若是弃之不顾,只是闭门造车也同样是不行的。其实这不是一个二选一的问题,一个优秀的算法工程师不该该只能解决问题,对于当今业界的发展状况以及前景都应该心中有数。既能解决实际问题,也能够展望行业发展,这个才能称得上是专业。因此如今对这个问题,我感受应该三七分红,三分学院派,七分实干家。

写这篇文章呢不是为了分个谁高谁低,只是给你们提供一个新的视野,审视一下自身对照一下他人,若是可以开阔一点视野,找到一点共鸣,突破一点桎梏就更好了。

今天的文章就到这里,衷心祝愿你们天天都有所收获。若是还喜欢今天的内容的话,请来一个三连支持吧~(点赞、关注、转发

相关文章
相关标签/搜索