个人数据挖掘之路html
因为本科专业是生物信息(能够理解为生物统计学或者与基因数据相关的数据挖掘学科), 因此那时已经开始接触数据挖掘,对统计也算有必定的基础。记得大二的时候,我便开始学 用 matlab,而后玩弄 SVM,神经网络之类的机器学习算法作一些分析和实验。如今想一想那时 候可能连这些算法的基本概念都不是很清晰,算是皮毛都不懂。但有一点就是,让我对这类 算法不怎么畏惧,甚至于很是感兴趣。 本科的时候,发现本身对生物兴趣不大,却是对编程颇觉得是,因此读研又改学了计算机。 虽然,换了专业但我对数据挖掘仍然兴趣不减。在研究生阶段,涉及数据挖掘,机器学习, 高级数据库之类的课程个人成绩都是 90+,这至少说明我很用心。总之,读研这几年我也在 不断地规划着本身的数据挖掘之路。 然而,数据挖掘是门交叉学科,涉及的内容不少,并且还须要理论联系实际,要掌握起来其 实是很是困难的。我曾经很是幼稚地认为,数据挖掘无所不能,适用于各行各业,却忽视了 数据挖掘很是难以掌握的一面。首先,要构建完整的数据挖掘理论知识体系;其次,要可以 深刻到具体的行业或市场进行具体项目的实战。 至于学习数据挖掘的前景,推荐看看一篇博客, 扒一扒这个数据挖掘行业,黄油和面包 。这 篇文章算是资深人士对数据挖掘行业一点点小小的爆料,感受对于我这样的初学者来讲,有 着高屋建瓴的做用。python
发现 saslist面试
学习 sas 源于我当初想去金融行业作分析师的想法,而这个想法又是源自于本身的 MBTi 测 试的结论。算起来开始学 sas 应该是 10 年下半年的时候,我先是买了一本《 SAS 编程与数 据挖掘商业案例 》,后是看了《 The little SAS book (3rd) 》电子版,还有 SAS 认证考试 样题-123 题 。我还在 saslist 上创建起了 博客 ,分享了一些学习心得,还有找实习的一些经历。而我对 sas 的学习经历,也就集中在 10 年的下半年这段时间了。后来到了 11 年初, 偶然间看到统计之都上,举办第一届数据挖掘挑战赛的信息。我便花了 1 个多月去参加比赛, 再后来便去找实习。到如今不知道本身还会不会继续学习 sas,但 saslist 确实对个人数据 挖掘之路,起着承上启下的做用。在这里很容易让你融入一个学习数据分析,数据挖掘的圈 子,不少前辈们的精彩博文都对本身起着极大的鼓舞做用。算法
数据挖掘挑战赛数据库
评分指标采用的是NDCG@10。对这个指标并不陌生,由于去年还选修了Web数据挖掘那门课, 那位老师仍是从加拿大过来的,当时听得还挺认真,这里推荐一下他这门课的 主页 ,还有 他指定的两本教材:《 搜索引擎:信息检索实践 》,《 数据挖掘:概念与技术 》,后一本的书 的做者正是他的导师。原本一看这个题目是作推荐,因而我就想到了协同过滤,试了一下又发现不行,其实这些数据是很是稀疏的并且是冷启动的,后来又尝试了回归还有SVM,总之效果都不是太明显,感受是本身特征选得很差。赛后,看了别人的经验贴,竟然投票是最简单有效的,能够极大地提高预测精度。反正,我也是对数据挖掘都还没入门就去参加比赛了。此次比赛算是第一次 接触真实的用户数据,而且用来解决一个十分现实的问题。对推荐用户的预测精度的提高, 是能够直接带来可观的经济效益的。此次比赛的另外一个收获是,我开始学习python和看《 集体智慧编程 》这本书。如今好像又有腾讯赞助 2012 知识发现与数据挖掘挑战赛 ,感兴趣可 以去参与一下。编程
实习与工做网络
saslist还有一个好处,就是能够查看到一些数据分析相关的实习和找工信息。其实,这些信息仍是蛮管用的,我还所以拿到过人人网数据挖掘工程师的offer。在我看来,数据分析 相关的职位大体分三个板块:医药、金融和互联网。要去医药行业,能够多关注 胡江堂的博客 ,还有中南大学统计系的本科生 韩帅同窗的博客 。金融行业的话,能够多关注一下人大经 济论坛等;我当初投过一家叫discover的上海公司,好像是从大摩分出来的,专作信用卡这 一块的,面试的时候若是懂sas仍是有加分的,固然外企可能更注重是你这我的自己的一些 基本素质。由于,我最后仍是决定去互联网行业,因此个人就任经历也都集中在几家大的互 联网公司。机器学习
总结编程语言
我找工的经历,其实十分地短暂,也就集中在那几家互联网公司,这里也就不细说了。值得 一提的是除了我在实验室作的项目外,那次数据挖掘挑战赛的经历,每每会很是引人注意, 由于那个挑战赛是很是贴近互联网公司作数据挖掘的实际的。并且,参加比赛自己也说明你 原本的兴趣和积极性都比较高。工具
最后,再总结一下个人数据挖掘知识体系:
1. 统计学基础:《几率与数理统计》、《生物统计学》
2. 编程语言与工具:SAS、Matlab、Python、R 等;互联网公司,还须要 Linux Shell, Hadoop, C++, Java 语言等;
3. 数据挖掘理论:《集体智慧编程》(python)、《Web 数据挖掘》、《SAS 编程和数据挖 掘商业案例》,另外还推荐一些开放式课程,我认真学习过的有 CS229(stanford 的机器学 习课程)。
4. 参加贴近商业的比赛或者去实习。