准备天天下班前都会花几分钟总结一下实习的每一天干了什么。html
本人是某大型农民工企业的人肉实习标记师,调参实习魔法师。c++
实习的最终目的:git
1.学会该公司的核心技术,后端的搜索技术,至少得掌握的七七八八。算法
2.可以靠实习期间学会的技术,找到一个算法工程师的工做。shell
早上入职。vim
中午食堂还挺好吃的,就是感受人好多的样子?后端
下午电脑有问题,拿给it服务部门从新配了个系统。架构
领到新手任务:熟悉一下shell脚本,重点能够看看awk。学习一下hadoop的使用,主要是streaming方式。框架
我找到的awk学习连接:http://coolshell.cn/articles/9070.html机器学习
今天的任务是学习hadoop。
中午简单给了我三个shell的练习题,让我练练手。
练习题连接:http://www.cnblogs.com/qscqesze/p/6774125.html
百度内部的度学堂很是赞,干货特别多。
新的akw学习地址:http://awk.readthedocs.io/en/latest/
晚上被拖去听核心技术去了,而后就和听天书同样,彻底听不懂。。。。
半天,shell从入门到跑路。
让我写爬虫,写个傻逼爬虫
肯定了本身的开发方式,本地写代码->gitlab->pull开发机->开发机调试的过程。
放了三天的假,回来一看原来的爬虫效率好低,重构了一下,效率一会儿就上来了。
而后扔在那儿爬了一上午。
我就去看公司内部的度学堂,去看了几节Hadoop的公开课,但实际上那些都是讲hadoop的原理,并无讲怎么用,尴尬……
感受之后只能结合任务,再来学习hadoop了。
下午去翻了翻sklearn的一些知识。
早上在作电子商务的做业,写了个京东的动态爬虫,抓了抓手机的参数。
下午当了一两个小时的人肉标记师,标了数据交过去,好像结果不太理想,mentor让我构造query去检查一下什么的。
而后我就把我以前的爬虫改了改,准备跑更多的数据出来,因而就扔在本地一直跑了。(公司的开发机并不能连外网。。
我顺手和某我的组队去玩了下腾讯的算法大赛,xjb处理了下数据,拿gdbr取跑了跑,log loss跑出来是0.24,感受仍是蛮好的。
我给我同窗推销我司的5折爱奇艺的时候,他觉得我号被盗了,差点就把我拉黑了,阿西吧(x
早上一来,就发现爬虫跑完了,比以前跑的数据多了400%,感受很强。
而后鼓捣腾讯的算法比赛,找了个magic feature,loss 跑到了0.12,感受也很强。
中午去听李彦宏演讲,见证了新使命的诞生,顺手拿了本书,虽然感受本身不会读。。
下午就作分层,造query。作完了,就去kaggle找了个算法比赛,把腾讯那边的比赛代码拿过去用了下,不过结果不太理想,感受本身还须要努力。
一早上都在人肉标数据,终于把这件事儿给干完了。
下午我以为我在搜索组,不能浪费了这个资源,因而找了个百度内部的搜索框架公开课,把搜索框架大概的看了一遍。
至少知道了百度的搜索的框架是什么,若是我要作搜索引擎,究竟应该怎么作什么的。
下班的时候,陪着学长去打台球,结果没位置,就直接滚回去了。
这周过的仍是蛮好的吧。
早上在干杂事,把qscoj的首页更新了,把cf的题解作了。
下午把爬虫这件事儿好像应该是弄完结了吧。
而后把腾讯的傻逼比赛调了调参数,弄到了0.11大关。
用公司安装xgboost,死活安装不上去,真是太气。。。
晚上去度学堂学技术把。
今天一天好像都在打杂,都在忙一些琐事,虽然本身确实在写代码,可是好像这些事儿学不到任何东西。。。
今天看到了hadoop是怎么用的了,感受好像是有点简单呀,至少使用难度很是低。。。
今天好像啥都没学会?诶不对,腾讯算法大赛混了件T-shirt。
看了下bs的一些教程,可是彻底看不懂啊,我以为这玩意儿没人讲,就很难看懂的= =
本身看了百度内部的人脸识别的教程,结果是教人如何使用API= =
GTMD内部调试工具,这个怎么能写的这么烂?第二次和第一次调试出来的结果还不同???难道我每次都得调试四五次,而后取最好的吗???GTMD百度,贼气
今天学会了xgboost。
早上造query,下午边造数据边跑腾讯算法大赛的模型,晚上专心调整参数。
早上没什么事儿干,就把腾讯模型从新跑了一遍,哇,玩了一早上提高了0.004的成绩,真TM棒。
我搞不懂那个腾讯比赛了,我每次都在进步,排名却愈来愈低,哎哟,心态炸了,心疼本身……
下午标数据,感受。
晚饭吃的沙拉,感受就是在吃草,看着像草,闻着像草,吃着也像草。我以为美帝人民竟然每天都吃这玩意儿,果真是生活在水生火热之中。
晚上拿xgboost,把kaggle的菜B比赛所有跑了一遍。
早上不停的标数据。
下午不停的跑模型。
晚上跑模型。。。
回家玩手游。。。
好颓废呀。。。
出题出题,出玲珑杯的题目中。。
早上写了一早上的标程
下午老大给了我几亿的数据,让我从这些数据中筛选出一些东西来。。
Emmmmmmmmmmmmmmmmmmmmmmmmmmmmm
我感受我就是在大海捞针呀。。。
手动玩了玩其中的200W数据,筛除了2000个,因而我只要重复这样筛选大概200次好像就作完了,真强。
晚上看电影
早上加中午出题,把玲珑杯糊弄过去了
下午大海捞针
晚上看公开课,学会了一些机器学习的奇淫技巧(x
好像一直忘记写了。。。
这几天在弄爬虫,标数据。
让我想办法,找到XX的官网数据,这简直是大海捞针。。。。
而后出完了玲珑杯的题目。
玩腾讯的傻逼比赛。
机器学习从入门到跑路。(x
以及天天晚上回去都在赶学习的做业T T
好像仍是忘记写了,一直在大海捞针,划水上班……
彻底忘了这个了。。
大海捞针弄完了,接了个新任务,任务大概就是要实现一个简单的搜索引擎。
query -> query进行分词 -> 计算每一个单词在url出现的权重 -> 分词结果进行合并获得query权值 -> 权值排序
不过这个里面的第二步和第三步都已经被实现了,我只须要实现1,4,5这三部分就行了。
百度里面我确实因为是短时间实习,因此并无接触到比较长线的项目,接触的大概都是一些可有可无,体力活偏多的东西。
不过我仍然学到了不少,很是感谢在百度的前辈。
印象比较深的就是跟着伟哥作的一个酒店相关数据收集的项目,虽然这个项目我以为很傻逼(x。可是我学到了,作事情必定要作完全,本身肯定无误以后,再去上交,以及遇到不懂的问题的时候,必定要及时和本身的leader沟通,不要本身闷着……
在百度里面,跟着铁头娃作了一个机器学习的比赛,让我完全入了机器学习的门,很是感谢铁头娃的不离不弃,到死都没有抛弃我这个拖油瓶。
以及熟悉了大公司的流程,也开阔了眼界,还趁着去了青岛旅游了一趟。这也是人生第一次看到海!
不得不说,百度食堂真的很好~
从后面来看,我应该是基本达到了最初本身定下的两个目标:了解搜索引擎,学习机器学习。
感谢骁哥推荐的一本搜索引擎架构的书,读了以后收获良多。
机器学习我以为我也成为了一个调包侠了(x
再次感谢前辈们,青山不改,绿水长流,往后江湖相见,自当杯酒言欢,我们就此别过。
----------------------------------分界线!!!!!!-------------------------------------
初步目标:找到一份工做!!!!
百度实习已经离职了,如今到了今日头条
今天是头条的第一天上班,leader给了我一个(超级超级大的)代码库,让我先看一天
而后我把git和vimrc都配置了
今日头条比较好的就是公司食堂是免费的,空调温度比百度的温度低一点,好评!
并且电脑发的是最新的macpro,感受超爽!
继续读代码,找leader把项目的业务流程熟悉了一遍。
不过真的很想吐槽啊,几万行的代码,注释不超过十句。。。全是c++,这怎么看= =【和别人讨论了一下,我感受是个人C++姿式水平过低
晚上帮人作了一下笔试题,感受本身宝刀未老(x
今日头条请假了,去百度把离职完全弄完了,和他们还一块儿吃了一顿午餐。
比较好玩的事情,我交接离职信息的时候,发现管这事儿的人不在,而后我就打电话给她。
而后我bb了一下子我交接的信息,而后她告诉我:“那个 我也离职了,你要不找XXX吧。”
对了,走以前,我去百度内部的超市,买了一个百度的卡套,算是留给本身的记念了吧~
看一天代码,不过效率很低,大概是由于本身蠢吧
而后顺便把google的笔试作了,最后的排名还能够