假设展开讲,这个问题可以写一篇综述了。近期恰好有空。打算认真写写。php
1、数据科学家的起源
html
"数据科学"(DataScience)起初叫"datalogy "。python
最初在1966年由Peter Naur提出。用来取代"计算机科学"(丹麦人。2005年图灵奖得主,丹麦的计算机学会的正式名称就叫Danish Society of Datalogy。他是这个学会的第一任主席。Algol 60是不少后来的程序设计语言,包含今天那些不可缺乏的软件project工具的原型。git
图灵奖被以为是“计算科学界的诺贝尔奖”。)github
1996年,International Federation of Classification Societies (IFCS)国际会议召开。数据科学一词首次出现在会议(Data Science, classification, and related methods)标题里。算法
1998年,C.F. Jeff Wu作出题为“统计学=数据科学吗? 的演讲,建议统计更名数据的科学统计数据的科学家。 (吴教授于1987年得到COPSS奖。2000年在台湾被选为中研院院士。2004年做为第一位统计学者当选美国国家project院院士。也是第一位华人统计学者获此殊荣。spring
)数据库
2002年,国际科学理事会:数据委员会科学和技术(CODATA)開始出版数据科学杂志。编程
2003年。美国哥伦比亚大学開始公布数据科学杂志,主要内容涵盖统计方法和定量研究中的应用。网络
2005年,美国国家科学委员会发表了"Long-lived Digital Data Collections: Enabling Research and Education in the 21st Century",当中给出数据科学家的定义:
"the information and computer scientists, database and software and programmers, disciplinary experts, curators and expert annotators, librarians, archivists, and others, who are crucial to the successful management of a digital data collection"
信息科学与计算机科学家,数据库和软件project师,领域专家。策展人和标注专家。图书管理员。档案员等数字数据管理收集者都以可成为数据科学家。它们主要任务是:"进行富有创造性的查询和分析。"
2、数据科学家的定义
数据科学(Data Science)是从数据中提取知识的研究。关键是科学。数据科学集成了多种领域的不一样元素。包含信号处理,数学,几率模型技术和理论,机器学习,计算机编程。统计学。数据project,模式识别和学习。可视化,不肯定性建模。数据仓库,以及从数据中析取规律和产品的高性能计算。数据科学并不局限于大数据,但是数据量的扩大诚然使得数据科学的地位愈加重要。
数据科学的从业者被称为数据科学家。数据科学家经过精深的专业知识在某些科学学科解决复杂的数据问题。不远的未来。数据科学家们需要精通一门、两门甚至多门学科,同一时候使用数学,统计学和计算机科学的生产要素展开工做。因此数据科学家就如同一个team。
之前投资过Facebook,LinkedIn的格雷洛克风险投资公司把数据科学家描写叙述成“能够管理和洞察数据的人”。
在IBM的站点上,数据科学家的角色被形容成“一半分析师,一半艺术家”。他们表明了商业或数据分析这个角色的一个进化。
for example – a data scientist will most likely explore and examine data from multiple disparate sources. The data scientist will sift through all incoming data with the goal of discovering a previously hidden insight, which in turn can provide a competitive advantage or address a pressing business problem. A data scientist does not simply collect and report on data, but also looks at it from many angles, determines what it means, then recommends ways to apply the data.
2006年的6月份进入商务社交站点LinkedIn,当时LinkedIn仅仅有不到800万用户。高德曼在以后的研究中创造出新的模型。利用数据预測注冊用户的人际网络。
详细来说,他以用户在LinkedIn的我的资料。来找到和这些信息最匹配的三我的,并以推荐的形式显示在用户的使用页面上——这也就是咱们熟悉的"你可能认识的人(People you may know)"。
这个小小的功能让LinkedIn添加了数百万的新的页面点击量(数据挖掘的应用典型之中的一个推荐系统)。
数据科学家是project师和统计学家的结合体。从事这个职位要求极强的驾驭和管理海量数据的能力;同一时候也需要有像统计学家同样萃取、分析数据价值的本事。两者缺一不可。
数据科学家是具备极强分析能力和对统计和数学有很是深研究的数据project师。他们能从商业信息等其它复杂且海量的数据库中洞察新趋势。
所有的科学家都是数据学家。因为他们成天都在和海量数据打交道。在我眼中,数据学家是一半黑客加一半分析师。他们经过数据创建看待事物的新维度。数据学家必须能够用一仅仅眼睛发现新世界,用还有一仅仅眼睛质疑本身的发现。
我是bitly 首席科学家Hilary Mason的忠实崇拜者。关于这个新概念的定义我也想引用她的说法:数据科学家是能够利用各类信息获取方式、统计学原理和机器的学习能力对其掌握的数据进行收集、去噪、分析并解读的角色。
虽然数据科学家这个名称近期才開始在硅谷出现,但这个新职业的产生倒是基于人类上百年对数据分析的不断积累和衍生。
和数据科学家最接近的职业应该是统计学家,仅仅只是统计学家是一个成熟的定义且服务领域基本局限于政府和学界。数据科学家把统计学的精髓带到了不少其它的行业和领域。
假设从广义的角度讲,从事数据处理、加工、分析等工做的数据科学家、数据架构师和数据project师都可以笼统地称为数据科学家。而从狭义的角度讲,那些具备数据分析能力。精通各种算法,直接处理数据的人员才干够称为数据科学家。
最后引用Thomas H. Davenport(埃森哲战略变革研究院主任) 和 D.J. Patil(美国科学促进会科学与技术政策研究员,为美国国防部服务)的话来总结数据科学家需要具有的能力:
(问题转化能力)
(表现沟通能力)
(决策力)
3、数据科学家所需硬件技能
(1) 计算机科学
通常来讲。数据科学家大多要求具有编程、计算机科学相关的专业背景。简单来讲,就是对处理大数据所必需的Hadoop、Mahout等大规模并行处理技术与机器学习相关的技能。
(2) 数学、统计、数据挖掘等
除了数学、统计方面的素质以外,还需要具有使用SPSS、SAS等主流统计分析软件的技能。当中,面向统计分析的开源编程语言及其执行环境“R”近期备受瞩目。R的强项不只在于其包括了丰富的统计分析库,而且具有将结果进行可视化的高品质图表生成功能。并可以经过简单的命令来执行。此外,它还具有称为CRAN(The Comprehensive R Archive Network)的包扩展机制,经过导入扩展包就可以使用标准状态下所不支持的函数和数据集。
R语言尽管功能强大,但是学习曲线较为陡峭,我的建议从python入手,拥有丰富的statistical libraries,NumPy 。SciPy.org 。Python Data Analysis Library。matplotlib: python plotting。
(3) 数据可视化(Visualization)
信息的质量很是大程度上依赖于其表达方式。
对数字罗列所组成的数据中所包括的意义进行分析,开发Web原型。使用外部API将图表、地图、Dashboard等其它服务统一块儿来,从而使分析结果可视化,这是对于数据科学家来讲十分重要的技能之中的一个。
(4) 跨界为王
麦肯锡以为将来需要不少其它的“translators”,能够在IT技术,数据分析和商业决策之间架起一座桥梁的复合型人才是最被人需要的。
”translators“能够驱动整个数据分析战略的设计和运行。同一时候链接的IT 。数据分析和业务部门的团队。假设缺乏“translators“。即便拥有高端的数据分析策略和工具方法也是于事无补的。
The data strategists’combination of IT knowledge and experience making business decisions makes them well suited to define the data requirements for high-value business analytics. Data scientists combine deep analytics expertise with IT know-how to develop sophisticated models and algorithms. Analytic consultants combine practical business knowledge with analytics experience to zero in on high-impact opportunities for analytics.
天才的”translators“很罕见。但是你们可以各敬其职(三个臭皮匠臭死诸葛亮),数据战略家可以使用IT知识和经验来制定商业决策,数据科学家可以结合对专业知识的深刻理解使用IT技术开发复杂的模型和算法。分析顾问可以结合实际的业务知识与分析经验聚焦下一个行业爆点。
推荐关注:https://www.facebook.com/data4、数据科学家的培养
位于伊利诺伊州芝加哥郊外埃文斯顿市的美国名牌私立大学——西北大学(Northwestern University),就是当中之中的一个。西北大学决定从2012年9月起在其project学院下成立一个主攻大数据分析课程的分析学研究生院,并開始了招生工做。
西北大学对于成立该研究生院是这样解释的:“尽管仅仅要具有一些Hadoop和Cassandra的基本知识就很是easy找到工做,但拥有深刻知识的人才倒是十分缺少的。”
此外,该研究生院的课程计划以“传授和指导将业务引向成功的技能,培养能够领导项目团队的优秀分析师”为目标,授课内容在数学、统计学的基础上,融合了尖端计算机project学和数据分析。
课程估计将涵盖分析领域中基本的三种数据分析方法:预測分析、描写叙述分析(商业智能和数据挖掘)和规范分析(优化和模拟),详细内容例如如下。
(1) 秋学期
* 数据挖掘相关的统计方法(多元Logistic回归分析、非线性回归分析、判别分析等)
* 定量方法(时间轴分析、几率模型、优化)
* 决策分析(多目的决策分析、决策树、影响图、敏感性分析)
* 树立竞争优点的分析(经过项目和成功案例学习主要的分析理念)
(2) 冬学期
* 数据库入门(数据模型、数据库设计)
* 预測分析(时间轴分析、主成分分析、非參数回归、统计流程控制)
* 数据管理(ETL(Extract、Transform、Load)、数据治理、管理责任、元数据)
* 优化与启示(整数计划法、非线性计划法、局部探索法、超启示(模拟退火、遗传算法))
(3) 春学期
* 大数据分析(非结构化数据概念的学习、MapReduce技术、大数据分析方法)
* 数据挖掘(聚类(k-means法、切割法)、关联性规则、因子分析、存活时间分析)
* 其它。下面任选两门(社交网络、文本分析、Web分析、財务分析、服务业中的分析、能源、健康医疗、供应链管理、综合营销沟通中的几率模型)
(4) 秋学期
* 风险分析与运营分析的计算机模拟
* 软件层面的分析学(组织层面的分析课题、IT与业务用户、变革管理、数据课题、结果的展示与传达方法)
Data Science and Big Data Analytics Training,收费T_T。你们可以了解下学习路径)
(EMC的在线课程:
需要必定的数据基础。
5、数据科学家的前景
EMC - Leading Cloud Computing, Big Data, and Trusted IT Solutions,关于数据科学家的研究)
(EMC预測,依照眼下的状况数字宇宙以每两年一番的速度倍增,在2020年将到达44ZB(1ZB=1.1805916207174113e+21B)。
EMC作出了5点比較大胆的预測。
EMC预測在2017年左右新兴的市场将超越成熟市场,东亚国家是最具潜力的引爆点。(你们是否是有点小激动,前景一片光明)
[1].Data Scientists: The Definition of Sexy
[2].《大数据的冲击》. 城田真琴. 野村综合研究所创新开发部高级研究员、IT分析师,日本政府“智能云计算研究会”智囊团成员
[3].麦肯锡. Big data: The next frontier for innovation, competition, and productivity
[4].EMC. Executive Summary: Data Growth, Business Opportunities, and the IT Imperatives
[5].EMC Greenplum's Steven Hillion on What Is a Data Scientist?
[6].LinkedIn's Monica Rogati On "What Is A Data Scientist?"
[7].IBM - What is a Data Scientist?
[8].Data Science and Prediction
[9].The key word in “Data Science” is not Data, it is Science
[10].Data Science: How do I become a data scientist?
[11].A Practical Intro to Data Science
[12].解码数据科学家