参与文末话题讨论,每日赠送异步图书程序员
——异步小编算法
William Chen是Quora的一位数据科学家,在那里他协助Quora发展壮大,为这个世界分享知识。在拿到哈佛大学的统计和应用数学双学位以后,他直接成了一位数据科学家,也是世界上第一批在校期间接受了完整的数据科学课程而且最终在毕业以后直接加入了数据科学领域的学生之一。全职加入Quora以前,他曾经在Quora和Etsy作数据实习生。他很喜欢讲述各类与数据有关的故事,而且也在Quora上普遍地分享他的知识。数据库
William也是《数据科学家访谈录》的联合做者之一。编程
您能告诉咱们一些一路走来进入数据科学领域的故事吗?网络
在哈佛大学的第一年,我开始想要学习数学,不过最终选择了Joe Blitzstein的统计110课程。那门课改变了我思考不肯定性问题以及平常事务的方式,同时让我明白了直觉与沟通的价值。在那门课的影响下,我在第二年将专业转为统计学。数据结构
大二的时候,我开始四处寻找实习机会,期待能将本身的一些几率和统计知识用起来。我在当时主要只拥有理论知识,对于应用开发实在知识有限,当时我惊喜于Etsy主动邀请我加入他们公司实习,职位是一名数据分析师。这是我第一次尝试使用数据来提升公司业务——实习在各个方面都帮助了我成长,磨练了个人技术,让我成了一个初露头角的数据科学家。机器学习
Etsy是一个基于数据指标的公司,我可以清楚地看到而且理解Etsy公司的最重要核心业务主要是依赖于A/B测试的一些算法。你们在邮件中频繁地交流着各类统计知识,而且让我可以了解各类常见技术,知道以数据指标为业务驱动的科技公司的一些潜在软肋。异步
Etsy的数据展现效果很漂亮(D3的仪表板和高亮幻灯片桌面)。在那样一个重视可视化的公司环境下,我自学了ggplot2,开始制做本身的图片。在那段实习中我学到了不少东西——这是我做为数据科学家职业的第一步。数据结构和算法
在Etsy的实习结束后,我开始了本身的大三生涯。那一年,我回到哈佛,成了一名统计110课的助教(至关于协助本科生教学的助理)。工具
经过帮助人们解决他们遇到的几率问题,我意识到教授统计学可以帮助我改善个人沟通能力和讲故事的能力。这也颇有趣,而且我也更习惯去与别人分享本身的所学。
若是没有足够强大的编程知识供你实现本身的统计想法,你能够作的东西就会受到不少的限制。
大三那一年,我也开始上更多的计算机课程,我意识到了它们在数据科学中的重要做用。若是没有足够强大的编程知识供你实现本身的统计想法,你能够作的东西就会受到不少的限制。我意识到要想成为一名成功的数据科学家,统计和计算机二者都是不可或缺的,因此我经过上与这二者有关系的课程去尝试成为一名统计与计算机交叉领域的专家。
大三的时候,我也申请了一些实习,个人想法就是要使用本身的统计和编程技巧来帮助公司作出更好的决策。我收到了Quora的实习Offer而且接受了它,尽管我当时对于产品依然一无所知。
在Quora,我接触到更多的代码库,学习了更多关于软件工程的知识。我对本身的项目永远都很重视,而且也很是勤于思考它们。我接手的项目涉及公司新的增加计划,我喜欢Quora公司的自由度以及它对于员工的信任态度。我喜欢与他人打交道,也很喜欢那里的各类产品,因此我决定毕业以后回到Quora作全职工做。
大四时,我继续研究统计和各类编程工具,而且完成了个人毕业论文。
您在一开始为何选择了统计学而不是计算机科学?
我把大量的时间放在统计110和一大堆其余统计类课程中了——我喜欢这些课程,因此对我来讲彻底没有理由选择别的专业!
在Etsy公司实习期间,我亲眼看到了若是我只能作统计而没法作编程工做的话,工做能力将是多么有限。那年夏天,我花了很大力气学习使用R语言来分析数据。
我在大三和大四两年,差很少都选择了相同数目的统计和计算机科学课程。经过选修计算机课程,我能够更高效地作统计分析。我选择那些可以让我更好地应用统计的课程(机器学习、并行编程、网络开发、数据科学)或者只是由于它们是很是有趣的某些数学课题(数据结构和算法、经济学和计算机科学)。
个人主要兴趣依然是统计,但我很是重视计算机科学,由于它可以让我作更复杂的分析,生成可视化图片,同时处理大量的数据,并自动化不少个人工做,这样我就能够专一于很是有趣的一些问题了。
我甚至在大四上学期申请了计算机科学的第二学位。我刚好已经知足其毕业要求(这绝对是不当心的)而且足够去申请第二学位证了,由于我不须要作什么其余努力了,只须要作一些文件盖章工做就好了。
您能够更多地告诉咱们一些您在实习过程当中遇到的比较棘手的问题吗?
为以数据为中心的科技公司工做的一个使人兴奋的事情就是有不少潜在的项目须要你去解决。有不少数据能够分析,他们历来没有足够多的数据科学家去真正深刻研究其中的全部事情。我在实习期间的主要挑战,特别是在Quora,就是弄清楚如何考虑本身在作的一堆事情的优先级,尤为当本身同时在作许多项目的时候。
在Quora,我意识到我没法在同一时间处理全部事情,这是我在学校里作事情的方式。我意识到我须要优先考虑对公司影响最大的事情。若是我花了太多时间在某些软件上,就可能没有足够的时间去专一研究那些可能具备更高影响力的增加计划。
您如何看待人们说“数据科学是数学、统计和计算机科学的交叉学科”?您以为它们在其中的权重是怎样的?
我以为,编程和软件工程部分很是重要,由于你可能但愿本身去实现模型,编写仪表板,并以一些很新颖的方式去提取数据。你将是负责转移存储本身的数据的人。你将成为拥有端到端和全栈开发能力的人员,完成从提取数据到作成报告、展现给公司看的整个过程。
帕累托原则(Pareto principle)在这里充分发挥做用。80%的时间都是用于爬取数据、清理数据并编写代码进行分析。我在实习期间发现这个说法真的不假(特别在当时我是初入行的人)。出色的编码知识在这里尤为重要,能够节省大量的时间,让你也不那么容易遇到挫败感。
我要强调的是:获取数据并肯定如何处理数据须要花费大量的时间,并且这部分一般不须要任何统计知识。这部分大多数都是利用软件工程技术去清理数据,或者撰写高效的查询代码去数据库中移动和分析你的数据。编程在这里真的很重要。
有一件值得一提的有趣的事情是,在数据科学中使用的统计学与你在研究论文中读到的统计学真的不同。公司对于统计方法的选择有在速度、可解释性和可靠性方面的偏向,而不是理论上的天衣无缝。
你越是了解统计或者算法的底层机制和原理,你就能够越好地阐明本身正在作什么,并与团队的其余成员沟通。
虽然公司用到的统计学和数学可能并不复杂,数学和统计学的扎实基本功依然在你须要区分真实洞见和虚假结果的时候显得很是重要。此外,牢固的基本工和经验将让你有更好的直觉去思考如何解决公司中更为棘手的问题。你可能对于为何某个指标忽然降低有更好的直觉上的解释,或更清楚为何人们忽然选择了你的产品。
强大的统计数学和数学背景的另外一个好处是对沟通的贡献。你越是了解统计或者算法的底层机制和原理,你就能够越好地阐明本身正在作什么,并与团队的其余成员沟通。做为数据科学家,你的大部分工做都是向人们展现你以为在将来会有重大影响力的成果。沟通对于实现这一点很是重要。
一些数据科学岗位须要很是强大的统计或机器学习背景。由于它们可能须要你去开发feed自动推送或者其余推荐引擎,或须要你知道如何完成时间序列分析、基本的机器学习技术、线性回归和因果推理等问题。有不少种类的数据是须要更高级的统计方法才能完成分析的。
计算机科学、统计学和数学之间的平衡将取决于你的岗位,这是个人观察结论。
您如何看待目前大部分加入数据科学界的人都拥有博士学位这一现象?
数据科学是如今的一个新领域,招聘者正在寻找有能力成为数据科学家的人才。由于这是一个全新的领域,不是不少人在这方面有过经验,因此你必须找到一些可以表征他们在将来可以胜任这个工做的人才。拥有计算/定量的研究背景的博士们一般是一个很好的选择,由于他们已经作了大量的研究和数据工做。具备数据处理经验的博士和硕士生一般已经具有了数据科学界的不少素质:可以快速学习,提出问题,而且具备灵活性。
我认为公司在将来会开始招聘愈来愈多的本科生去担当数据科学家的角色,在5~10年内,将有更多符合数据科学这个领域需求的人才出现。哈佛大学有那么多的二年级学生,他们中确定有人想要成为数据科学家,例如当时大二的我。我认为他们也会将这看做一个充满但愿与激动人心的职业方向,我我的也是这么看的。
具备数据处理经验的博士和硕士生一般已经具有了数据科学界的不少素质:可以快速学习,提出问题,而且具备灵活性。
目前,有大量MOOC(公开在线课程)提供课程和证书,而世界各地的大学正在提供他们的第一个数据科学课程。例如,哈佛的第一个数据科学课程和第一个预测模型课程在2013——2014学年出现。这些课程对于想要学习数据知识的本科生来讲是完美的起点。
若是你想聘用数据科学家,就当下而言恐怕有经验的人真的很少,那些拥有博士和硕士学位的人是很好的候选人。这种状况可能会在将来五到十年内改变,由于会有更多的本科生也拥有合格的数据科学技能要求。
如今在Coursera已经有数据科学这个专业方向了,在哈佛,有Joe Blitzstein和Hanspeter Pfister在教授数据科学课程。Joe就是教授那门我所喜好的统计课的教授。
2014年春季,哈佛开设了一个预测建模课程。这是一个专一于Kaggle比赛的课程。这类课程对于想要从事数据领域工做的本科生来讲是完美的起点。
若是能够回到大学的时光,您会把更多的精力放在哪里?有什么您以为当时忽视了的东西?
我认为我在大学课程选择方面的最大遗憾是没有在大一学年选修编程课程。编程在数据科学中如此重要——除非是谷歌或亚马逊这样的巨大公司,不然几乎不会有纯粹的不用写代码的统计学家职位,由于这些巨大的公司可能须要专门研究统计人员。编程是很是重要的,你不能逃避它。
当谈及术语“数据科学”时,不少人担忧或者声称在这个领域有不少炒做,由于它被夸大了。您对这样的观点有什么见解?
如今对于数据科学的炒做确实有点过了,就像云计算和手机/本地化/社交平台热潮同样。然而,它被夸大并不意味着它并不重要。我认为在将来几年,炒做和泡沫将会不复存在,但数据科学的重要性不会。
您认为数据科学家的需求会随着软件工具的优化而渐渐消亡吗?
就我我的而言,我很喜欢各类新的软件工具。我认为数据科学家的工做将在将来几年内发生变化,由于程序工具会变得愈来愈好。
不过,我不认为数据科学家的需求将会减小,由于咱们老是须要可以解读结果的人,并将洞察力提炼成可行的计划来改善业务。数据科学永远不缺困难的问题——人们老是须要解释结果并交流想法。我认为数据科学就是这样——它将数据转化为可行的结论,用以改善产品和业务。
咱们老是须要可以解读结果的人,并将洞察力提炼成可行的计划来改善业务。
软件工具可能会使某些数据科学家作的工做被淘汰,由于一些创业公司会提供企业级别的全面解决方案,以及将某些数据方面的任务商业化。可是即便使用了新的工具,咱们也依然须要数据科学家去依赖人类智能使用这些工具。您将须要让您的数据科学家查看结果,并考虑如何直接帮助公司成长。
为了成为一名好的数据科学家,须要多学习多少领域内的专业知识?在多大程度上您须要了解人们在网上的行为?这是否会帮助您开发新的产品?
在Quora,我从事了一个涉及理解用户参与度的项目。鉴于我本身是Quora的狂热用户,因此我很努力地去思考这个问题。当你拥有领域知识时,你拥有的一个优点就是,你甚至能够在查看数据以前,就对你好奇的内容作出更好的假设。而后,你能够再去查看数据,以得到更好的直觉,了解你以前假设对或错的缘由。领域的专业知识和与之相关的直觉颇有帮助,特别是若是模型很复杂,或者须要将其呈现给内部观众时。领域专业知识有助于分享有价值的故事,帮助你解释产品中人类行为的驱动因素。这与Kaggle上的一些数据集真的不一样,那些数据有些甚至没有给出列名(由于隐私的缘由),致使你不能彻底了解你正在分析的数据。
当你拥有领域知识时,你拥有的一个优点就是,你甚至能够在查看数据以前,就对你好奇的内容作出更好的假设。
在求职的时候,您曾经在量化金融分析师与数据科学之间进行选择,最终选择了数据科学,这是为何呢?作出这个决定是出于什么考量?
我认为量化金融工程师和数据科学都是很好的选择。我很肯定数据科学对我来讲是正确的选择,由于我很乐于看到技术如何改变世界,使一切工做得更好。我以为我想成为其中的一部分。我以为若是想要作到这一点,我须要成为一个拥有广大客户群体的科技公司中的一员,在那里我可以帮助它开发一个驱动人们完成某件事情的产品。
我也很是喜欢数据科学中教学和沟通这两方面——在哈佛大学担任统计学110助教时,我发现本身很喜欢那份工做。数据科学有不少这样的教学和沟通。而在量化金融中,你只须要上报你在背后作出来的结果就好了。
我想成为一些数据理念的传播者,并说服人们数据是有用的。我以为科技行业很是有潜力的。对于科技来讲,数据是很是新的一个概念,而对于金融来讲,数据是一个很陈旧的概念了。可以在数据科学这个领域方兴未艾的时候踏足其中,我感到激情澎湃。我想与更多人一块儿,用技术去让人们的生活变得更好。
本文摘自《数据科学家访谈录》
《数据科学家访谈录》
Carl Shan(单研)等著
本书选取世界知名的25位数据科学家进行了深度的访谈,从不一样的视角和维度,将他们的智慧、经验、指导和建议凝聚成册。每一篇访谈都是一次深度的交流,涵盖了这些数据科学家最初从菜鸟起步,运用各类知识武装和充实本身,一直到最终成为一名卓有成效的数据科学家的全过程。
经过阅读本书中的访谈,能够造成对数据科学的宏观认识和了解,更深入地认识和体验数据科学家的角色,而且从这些前辈的过往经历中学到宝贵的知识和经验以应用于自身的成长和事业中。
扫码购买《数据科学家访谈录》e读版电子书,立减20元现金,输入优惠码:c4a86b-b ,至关于7.6元购书。
今日互动
你所了解的数据科学家入行门槛很高吗?截止时间6月29日17时,留言+转发本活动到朋友圈,小编将抽奖选出1名读者赠送纸书1本和2张e读版20元异步社区代金券,(留言点赞最多的自动得到一张)。
推荐阅读
长按二维码,能够关注咱们哟
天天与你分享IT好文。
在“异步图书”后台回复“关注”,便可免费得到2000门在线视频课程
点击阅读原文,购买《数据科学家访谈录》