大数据学习笔记总结

本身总结的这些知识点都是从赵勇编写的架构大数据-大数据技术及算法分析这本书上总结的。程序员

在接触这本书以前,本身对于大数据的概念还很模糊,对于大数据和云计算的差异仍是很不清楚,看完书以后,总结一下几点:算法

1)大数据主要侧重于数据的处理,流数据、批量数据、图计算等。在数据处理过程当中,批量的数据处理的表明工具是Hadoop,流数据的数据处理表明的是Storm技术,而图计算这种密集型的表明是Spark,Spark对于迭代算法的处理颇有效。网络

2)不管是Hadoop仍是Spark的架构原理都侧重于分为三部分:资源的管理、服务计算状态的监控、服务的运行。把数据处理、数据处理监控和资源管理分开,能够更容易地进行分布式系统的扩展。架构

3)本书主要从数据的存储、数据的处理和数据的应用三个方面进行介绍,每个方面结合如今的热门工具进行实情实景的分析。机器学习

4)我以为印象最深的部分是关于机器学习和深度学习的,和常规对算法的认识不一样,这些算法经过专业的数学知识进行计算后,瞬间以为本身做为一个985的程序员,有机会须要从新学习一下高数。分布式

5)最后一章电子商务与社会网络大数据分析,主要介绍了电子商务网站的推荐算法、推荐算法中数据的归一化处理和距离度量、类似度度量等工具

这是一本完整的读书笔记,但愿对你们有用,我会把本身XMind格式的读书笔记上传的oop