python数据科学导论--读书笔记01

一、大数据是数据集的总称,传统管理技术很难处理大型或复杂数据。大数据具备四大特色:高速,多样化,体积大和准确。数据库

二、数据科学是使用方法来分析由小数据集组成的庞大的大数据;编程

三、尽管数据科学流程不是线性的,但可分为如下步骤:安全

  a、设置研究目标;框架

  b、检索数据;机器学习

  c、数据准备;分布式

  d、数据探索;oop

  e、数据建模;学习

  f、展现与自动化测试

四、大数据技术不单单是Hadoop。它有许多不一样技术组成,能够分为如下几类:大数据

  a、文件系统;

  b、分布式编程框架;

  c、数据集成;

  d、数据库;

  e、机器学习;

  f、安全;

  g、工做流;

  h、基准测试;

  i、系统部署;

  j、服务开发

五、并非每一个大数据类别都须要数据科学家利用大量的数据。他们主要关注文件系统、分布式编程框架、数据库和机器学习。他们确实接触到其余部分,但这些都是其余职业领域。

六、数据能够有不一样的形式。主要有:

  a、结构和数据;

  b、非结构化数据;

  c、天然语言数据;

  d、计算机数据;

  e、图类数据;

  f、流数据’

相关文章
相关标签/搜索