《数据科学家访谈录》读书笔记

1、本书内容的介绍web

《数据科学家访谈录》是一本对当前全球最知名的25位数据科学家的深度采访,而后汇聚成册的访谈录,读者能够从中学习到这25位数据科学领域的大师的我的经历及其成长过程,以及在各自的职业生涯所面临的各类选项时所作出的选择,具备很高的参考价值。算法

这25位数据科学家大都拥有国外名校的博士学历文凭,可是大都不想继续从事科研工做,而是但愿可以将本身的科学研究成果应用到现实生活当中,从而让人们的生活变得更加美好,所以他们大都从学术界走向了工业界,这些大师从学术领域向工业领域转变的经历和过程很是值得学习和参考。虽然他们的专业研究领域各不相同,但数据科学这个研究方向把他们联系到一块儿,共同推进了数据科学领域的发展。他们各自所拥有的领域知识以及计算机专业技能,帮助他们在各自的研究应用领域得到丰硕成果,这也从另一个方面验证了数据科学实际上是一门理论与实践相结合的科学。数据库

此外,本书当中这些大师们给出的方法论和经验也一样很是值得读者学习和思考。好比去大公司仍是小公司的问题,Hillary认为应该是去那些能让你学到不少东西而且快速成长的公司。再好比作事情是从简单的开始仍是复杂的作起,DJ认为作事情要从简单的开始作起,而后慢慢开始作复杂而又艰难的事情。这样子作事情就会有一个好的开始,进而一步一步的完成。编程

总的来讲,《数据科学家访谈录》是一本经得起时间考验的好书,处于各类不一样阶段的人群均可以从本书当中获取知识和经验,并且每次阅读都会有新的认识和收获。网络

 

2、数据科学的组成机器学习

一、数学相关的基础知识(85%):异步

1)线性代数编程语言

2)几率论工具

3)微积分oop

4)统计学(工具)

5)机器学习(算法)

二、编程基础技能(15%):

1)SQL/NoSQL

2)Hadoop/Spark

3)R

4)主流编程语言,好比:C++/Java

5)主流脚本语言,好比:Python

6)Excel

 

3、数据科学的步骤

一、 获取数据

经过数据库、web接口、网络爬虫等获取网络上的数据(结构化和非结构化数据)。

二、 清洗数据

经过数值化、降维等手段去除数据噪音,实现数据的清洗。

三、 探索数据

在数据清洗工做的基础上,经过变量分析、处理缺失值、处理离群值等手段对数据进行初步的探索。

四、 数据建模

在探索数据工做的基础上,经过数学等工具创建合适的数据模型。有人认为好的数据模型是数据科学当中最核心的步骤,列出的优先级顺序是:高质量的数据>数据规模>好的数据模型。

五、 解释数据

数据可视化(D三、highcharts),经过可视化的web界面把数据和结论表达出来。

 

4、数据科学与大数据、人工智能的关系

大数据是一个内涵丰富的词汇,包含了技术、商业等因素的描绘,而数据科学是做为一门实实在在的应用科学而存在,是实现大数据应用的基础应用型学科,人工智能则是在数据科学的基础之上,向着让机器或程序有着相似人类智能的方向前进。所以数据科学是实现大数据的工具,是实现人工智能的基础。

数据科学也是一门理论与实践相结合的学科,而且有着与其它领域相互结合、共同发展的趋势。随着数据科学问题的规模愈来愈大,现代科研和应用更增强调拥有多领域、多学科背景的人进行团队合做,所以数据科学也有着软件工程的特征。

人工智能的基础是大数据(数据科学),大数据(数据科学)的基础是云计算。当前大数据技术已经与人工智能技术紧密结合,让各类程序和系统更加智能,从而进一步影响咱们的生活。

 

5、推荐资源

1)《集体智慧编程》

2)kaggle https://www.kaggle.com/,机器学习竞赛、编写和分享代码的平台

3)Quora 获取和分享知识的平台,相似于知乎

4)吴恩达的机器学习视频课程,https://www.coursera.org/learn/machine-learning

 

本文最初发表于异步社区:https://www.epubit.com/selfpublish/article/1281

相关文章
相关标签/搜索