浪叫兽的自我介绍 (完整版) 讲述一段如何进入大数据行业

你们好,我是智浪淘沙,在大数据比赛的圈子里你们喜欢称呼我为浪叫兽。git

我先作一个简单的且不如意的人生轨迹介绍把,出生农村的我,对本身的才智一直是很自信的。多是因为本身的天性,不会表达本身加不会循序渐进的喜欢上学习,我小学和初中都默默无闻,成绩也不怎么理想,可是始终好着面子,依然是以为本身很聪明,本身之后能干些大事。而时常被考分的现实所打击。进入高中后,人开始长高了,人也帅气了一点点,玩心也大了,学了学校的美术,音乐,播音主持,体育的专业课,其中美术多是一个星期,播音主持半学期,音乐半学期,体育好像一直到高三,可是没报专业考试。当过学生会主席,还有班长。高中很开心的过去了,高考也和最后一年的意料以内的事情同样,黄了。面试

毕业以后去了北京某某培训机构,学了两年的Linux运维,可是苦于性格放不开,年纪过小,当时还很排斥90后,固然还有学历过低,在北京处于很尴尬的地步,并没办法在北京落脚。算法

10年在深圳,作过销售,作过简单的电脑维护,12年回到长沙开上了图文店,天天起早贪黑,超过十二个小时的个体户工做,身心疲惫,萌生了再次进入职场的念头,15年在朋友的介绍下进入了电网系统内的一家运维单位,作网络运维,能够简单称为网管把。sql

15年入职网管,我心里是很激动的,终于踏上了求之不得的职场,认识了不少热心的同事,而且接触了很潮流的名词,股票投资,并学了假的波浪理论,假的缠论,假的量能理论,并花了2W了的学费,戒掉了股票投资。编程

一切从浪叫兽开始。flask

钱输了,人却没所以放弃对技术的研究,萌生了想法,但愿经过爬虫抓取股票的新闻,来分析新闻可能对股票产生某些信号。16年4月份在爬虫群里遇到了我Python的第一个老师,大鱼,我亲切的喊他为鱼神。在玩Python爬虫的同时,我学会了简单的flask 和echart。网络

对于历来不会Python的我,几个星期的学习下来,从Python爬虫,到将数据入库,还有用js的网页方法展现股票数据,就这样简单的完成了。激发了我对Python编程的爱好。并发

因为须要对数据进行处理,在Python的环境下须要学习一个叫pandas的库操做,我加入到了pandas群,遇到了人生中的启蒙叫兽,牛叫兽,在牛叫兽的耐心指导之下,我pandas的使用,还算很融会贯通了,由于个人提问多,短短的一个月,我就在pandas群里得到了叫兽的称呼,叫兽是QQ群的一种积分排名,刚恰好发言最多的人被称为叫兽,后面在网友chengxu等人的玩笑话之间,叫兽在我建的新群中继续获得了延续。框架

我喜欢被人称为浪叫兽,由于这是一个比较活跃的人才能在群里取得的头衔,在我看来我是多么的热爱学习才能得到这样的头衔。运维

当初牛叫兽说他想学机器学习,当时我很羡慕他的工资待遇,1W2左右把,在上海可能不高,可是对于在长沙待遇只有4000左右的我来讲,却显得那么的高不可攀。

既然牛叫兽说他想学机器学习,那我就跟他一块儿学呗,咱们建了一个群,并找了学习资料开始学习起来,当初我下载过一份黄博的机器学习笔记,并加入了他的群。在建群后我就在黄博的群里,拉了20多个朋友,加入了学习机器学习的生涯。

学了一个月左右把,群里的mat,说群主你这么好学,不如去玩玩比赛,而后他就发了科赛的网址,正好遇到了我人生中的第一场比赛,携程赛。

第一次比赛的我其实很逗比,没有使用过sklearn,xgboost,lgb,各类算法也只在一个月中看过几率图模型,统计学习方法,数学建模算法大全了解过一些基本知识。

上一个月和牛叫兽,chengxu,Silence,在群里交流的都是一些算法上的简单理解,还有hadoop,pyspark,sql。

还好Silence曾经玩过滴滴的比赛,好像排名还很靠前,只是由于要考英语证书,没时间指导我。我就厚脸皮的在携程赛的群里,不惧他人的嘲笑,用简单的散点图,和柱状图在群里用个人理解分析数据,并在交流的过程当中认识到了,李老师,钢的弦,世超,等等热心的伙伴。

依稀记得当时有yesboy(荣获“猜你喜欢”比赛冠军),说他使用的xgboost算法,在携程赛中得到了前5的地位,对我来讲xgboost是一个陌生的名词。

不少新人安装xgboost都要折腾半个月之久,我想都是不善于本身动手把,或者没人指导安装,勤劳好学的我,只花上了一天的功夫,安装好了git,mingw,编译xgboost,安装xgboost,并测试安装成功。无非就是在网上多搜索了一些文档把。

安装完成xgboost,他不过是一个冰冷的库,当时也很厌倦去网上搜索使用教程,不过说实在的,网上的教程也不是讲的携程赛的数据上怎么用,那就伸手党作一下把。

切换到黄博群里,黄博群里有一个,人称海淀吴彦祖,听说是玩kaggle的,猜测xgboost对他来讲确定很容易,这人必定很牛叉,果否则,我向他提问xgboost怎么玩,他也耐心的指导我,要调好参数,但是我是一脸蒙逼的问不下去问题,我压根没玩过,我怎么知道什么是参数,后面他的一句话让我在整个比赛生涯中都留下了思考,他说这一切都是套路。

Silence刚好有时间来玩比赛了,当时和世超,李老师(五个月就拿下了天池的数据科学家)mat,纳蓝,钢的弦,组了携程赛的小交流群,你们都很友善的指导我这个新人,一块儿交流学习,而正当此时,破特曼,以0.17 的bug成绩霸了携程赛的榜,好像又发现了一个新的大牛,便和他纠缠起来,请教他怎么弄的那么高的分,心有不甘把,为啥人家能这样高的分,我却不能,便在找到了海淀吴彦祖指导,我说xgboost的简单使用我已经会了,能不能在教教其它的,在不经意之间发现,海淀吴彦祖和破特曼竟然是队友。

终究是抱团打战的,不过世超最后也挤进了排行榜前十,钢的弦和yesboy也在前五了。

再次遇到超强组合是在今日头条上面,携程赛完了,比赛的热情却没有熄灭,在群里他们说今日头条赛是yin叔和老王的约战赛,当时想这两我的又是谁,既然能约战,那就有华山论剑的精彩,那就去凑凑热闹 ,报名了今日头条赛。

下载了今日头条数据,我始终排名在100多名,始终仍是找不到数据挖掘的关键。

在mat的带领下,我加入了DC一群,看到了老王开源的规则代码,在交流规则代码的过程当中,也在群里认识了苍老师,yin叔,和一些群友。

我当时并看不懂R,而牛叫兽在公司已经完成了hadoop的学习,并开始学习R作统计方面的学习,下载了老王的规则代码,便要牛叫兽帮忙翻译了R代码,翻译以后提交了答案,发现竟然跑到了前30名,瞬间以为老王好牛叉,简单的两三句代码竟然能让我突破那么多。

对老王萌生了仰慕之情,不过那都是想多学点技术了。

不过30,名有啥用,海淀吴彦祖和破特曼的组合都已经前十了。我和他们的差距真的太大了。

竞赛圈子说大很大,我历来不知道数据挖掘能有这样多的高手,在一直关注着比赛,并且此时我身边都是不少本科生,不少研究生,还有博士生了。

我不知道这意味着什么,可是仔细思考。我和他们的差距实在是太大了,不过我也坚信,我和他们一块儿交流,能有所收获,我要作的就是和携程赛同样,勇于交流个人想法,勇于和技术高的交流,在今日头疼赛中,我就继续保持了携程赛的风格了,便和知落,东哥,等等小伙伴,一块儿交流数据挖掘技术,并知道了交叉验证,网格搜索调参,还在知道了多模型融合,不过了解这些技术也并无让个人今日头条排名继续靠前。

机缘继续来自电网。

今日头条赛便不了了之的结束了,由于干不过人家嘛,提高不上去了,玩起来也没多少意思了。

继续在群友发布的信息下,知道了CCF要举办一场大赛,此次大赛有13个赛题,其中也有国家电网信通产业集团主办方出的用电异常行为分析赛题。

由于在电网系统下的公司工做,一个是想借由这次比赛得到经验,二是想经过好好的参与这次比赛,好转型数据挖掘岗位。便报名参加了此次用电异常行为分析赛题。

刚刚开始玩,发现第一名遥遥领先在排行榜,在技术交流群里也认识了这位可乐,和可乐的交流很开心,由于又发现了一个新大牛kaggle master 。当时我还在30多名的成绩把,在和技术群的群友交流的过程当中,学会了简单的特征工程,其实也就是普通的描述统计量,能够说是最简单的了。

排行榜玩了没多久,我惊奇的发现,破特曼和海淀吴彦祖和可乐并队了,好强悍的队伍,让我有一种冲动接近他们,甚至是超越他们,随即在交流群里,大喊一句谁和我一块儿干掉破特曼。

在交流之下,有小水,老王,苍老师,mat,钢的弦和我组了交流群,由于前期的比赛时间太长,并且只要前100名就能够进入小复赛。在短短的几天交流中,我从某位群友给的思路中学会了稍微高级一点的特征工程,并由此设计了生成高纬度特征的特征轮。

而复赛却没能和小水,老王,苍老师组队。我和mat,钢的弦,加上两位很是热爱数据挖掘的小伙伴,组队‘隐马尔科夫联盟’。

在努力学习和参考各类书籍的前提下,还有比胜过程中,金老师和我电网系统的一位朋友兼对手,对个人指导。咱们组最终得到了用电行为分析赛的第二名,并受邀答辩夺得了该赛题的二等奖。

不过,真正的实力总能压制着我,破特曼他们收获了该赛题的第一名,而且在线上的分数远超咱们。

在答辩的盛会上,见到了不少人,其中有中科院院士,以及各类机器学习,人工智能,数据挖掘的领军人物。

在用电赛会场,和我一直好奇的破特曼和吴彦祖线下的交流是很愉快的,还有很重要的是,在这次比赛中,见到了信通产业集团的领导,这也算是和企业直接进行交流了。

答辩赛后,信通产业集团的领导,很亲切的和咱们参赛成员进行交流,并给了名片,说欢迎各位人才加入信通产业集团。不过我深知我这点能力远远不够进入企业工做,一个比赛排名并不能说明我的能力,或许只是我我的运气好而已把。

经过此次比赛,不只仅为了工做把,并且也真正的感觉到了数据挖掘的魅力,对数据的处理,并经过掌握数据的规律,推进各类行业的发展,让数据成为行业的肥料,促使其茁壮成长。

答辩返程回家,我又开始了新的一轮比赛。

可能出于心里虚荣的膨胀,这里我也本身弄了一个小插曲,我喊群内的朋友发了一篇自媒体,并发在个人朋友圈中,没想到这文章引来我身边不少亲戚朋友的赞扬,并且所以直接得到了湖南本地企业的邀请,从事大数据技术的研发和建设,并开出了20一个月的待遇,不过很遗憾的是,我心里仍是很自卑的,一个是我没法接受如此好的待遇,二是我对金融行业并不了解,三是若是我带领团队,给企业带了损失,我也没有能力担此责任,出于这些想法,我仍是委婉的拒绝了这份offer。

可是对数据挖掘岗位的追求,让我没办法停下脚步继续参赛。

经过半年的学习和努力,苦心摸索技术,苦学记在心尖,拿到了CCF举办的用电赛第二名,大体了解了海淀吴彦祖说的套路,不过可能也是一些皮毛。

正好手头上还有一个比赛,DC的助学金比赛,我准备用我所学的数据清洗+特征轮+多模型+参数调优的常规数据挖掘套路玩助学金比赛,直接用上用电赛所总结的特征轮思路,加上简单的模型,我很快就得到了助学金排行榜的第二名,并喊上了前期交流的赤子之心,钢的弦,mat,还有我当初学pandas一块儿的伙伴 chengxu。组队“贝叶斯部落”,刚刚开始做为队长的我其实很自负,由于我自觉得熟悉的掌握了数据挖掘的套路,我对其它队友的指望仅仅是分配任务和但愿获得更好的业务特征,并在此时,信通产业集团邀请CCF获奖的参赛者,一块儿参加成果落地研讨会,并注明了洽谈就业意向。

这对我来讲又是一次重拾数据挖掘岗的机会,我和mat商讨,助学金的PPT由咱们两个一块儿再次称述。

在研讨会上,因为个人表现突出,我的比较活跃,并且个人奋斗事迹和对数据的直觉,让参会的来宾和信通产业集团的领导对我颇多赞扬。

因而我抓住了此次机遇,向领导请求进入信通产业集团旗下作大数据挖掘工做,从北京的研讨会归来,我很快的制做了一份我的简历,发送给信通产业集团的领导,领导二话不说当即将个人简历发送给了信通产业集团旗下的一个公司。

几个月的付出和努力,终于让我看到了回报,心里尽是高兴。随后没过多久就和HR取得了联系。由于此时已经接近年尾,HR说年后详谈面试和offer事宜。

正直过年,经过融合技术,在过年以前拿下了助学金第一名的排行榜。

年后,助学金比赛中个人特征+模型融合方案,很快的再次被破特曼,不思蜀组的BUG队超越。而此时他们也在DC的另外两场比赛取得了很是好的成绩,交通赛第一,金融赛忘记了。

已经逼近个人上限了,第一的位置被拱手相让了。此时我队友赤子之心爆发了,直接用了他的单模型+特征,霸了助学金第一,以超出第二名很是高的成绩,在助学金更换数据以前,霸榜了一个月之久。

换数据以后,多是由于以前并没用针对过咱们的最佳方案设计融合框架,助学金最后和三剑客并列第二的得分。第一被另外实力高强的小伙伴夺得。

在DC助学金比赛的过程当中,也认识了涛哥(固然涛哥在我去北京研讨会的时候面基过一次)等在企业从事大数据方向的工做的做业人员,并在交流中也得到了他们的内推,收获了京东和融360的算法工程师的面试。

时间很快来到了DC的线下答辩会场,在DC的安排下咱们参观了对数据挖掘,机器学习,神经网络有需求的公司,听了他们公司业务还有对大数据技术的需求,还有数据挖掘具体的应用场景和数据科学家们平时在数据方向作的工做。

答辩完,由yin叔喊话,咱们和神经网络keras群群主莫言,还有其余参赛选手包括老王,DC收割了三个比赛的两个第一,一个第二的BUG队,总计15人组起了饭局。

成员中,yin叔是在国企工做的老职工,以咱们的年纪都要尊称他为yin叔了,不管是在答辩会场,仍是在平时的群里交流,或者是咱们线下的交谈中,yin叔都是以兴趣为导向的玩着竞赛,各类敬佩之情油然而生。

组织饭局的莫言和他的室友,研究生还未毕业,就已收获了腾讯和大疆的正式offer,对神经网络有很深入的自我认知。还有老王,很可爱的博士,平易近人,已经在老牌外企得到很是自由的工做。固然还有BUG队,这次都已经第二次见面了,还有个人队友赤子之心,在部队的他也是由于对数学的追求,才来玩大数据比赛的,未成想过第一次参加比赛就得到如此好的成绩。固然还有不少在校和在职,还有和我同样刚要入职的朋友。

你们把酒交谈,交流各自的比赛经历,比赛心得,还有比胜过程中如何认识的其它伙伴,固然还有读书经历,找工做的经历,对大数据行业的想法。

自此从16年的4月份开始入门Python,到17年的3月份的经历,让我进入到了潮气蓬勃的大数据行业当中。

答辩回到湖南,接到了来着信通产业集团下的项目经理的电话,说咱们的项目在我如今所在的城市启动,项目是整套的大数据搭建 + 挖掘的项目,从汇总各个系统业务数据开始,也包括采购设备。对我来讲是很是可贵的机会。虽然咱们玩比赛不少都是得到的公司的算法工程师的面试,我深知那个是须要很专业的理论知识的,我也一直在比赛的过程当中读了很多于100本的书籍(固然不少都是略读),越玩比赛多了,反而更深知我离算法岗有多少距离。京东和融360 的算法工程师待遇颇高,可是我目前的水平是不能胜任的。

而信通产业集团的知遇之恩,还有我也一直在电力系统旗下的产业工做,我我的对电力系统仍是很有好感,我也相信如今的工做岗位给我也会带来一段很是丰富的人生经历。

本想写不少心得的,但一千个读者眼中有一千个哈莫雷特,我就最后简单的总结一下这一年的经历。

从比赛开始,我从单身到完婚,到有了小孩。并且一直都是在职玩比赛,其实不少时候,我仍是很累的。不过在比胜过程中,不管是遇到大牛的关照,仍是遇到比我更牛的“新人”,对的这里的“新人”只是第一次玩比赛而已,这些人都比我更具能力和天赋,我只是置身在他们中间,充当了一个媒介而已,个人人生被他们带动着往前发展,对于这一年的运气,我非常知足了。

努力的人不少,我只是运气好而已,虽然是运气,我仍是想把他说成是努力得来的。不能磨灭一个想努力的心态,好好努力过上本身能接受的生活就好 不须要很好 至少能说是平凡的一辈子。

此文已经有DF比赛平台约稿转载 写于2017年3月份

相关文章
相关标签/搜索