例如,IDC 最近的报告预测称,到2020 年,全球数据量将扩大50倍。目前,大数据的规模尚是一个不断变化的指标,单一数据集的规模范围从几十TB到数PB不等。简而言之,存储1 PB数据将须要两万台配备50GB硬盘的我的电脑。此外,各类意想不到的来源都能产生数据。
高速描述的是数据被建立和移动的速度。在高速网络时代,经过基于实现软件性能优化的高速电脑处理器和服务器,建立实时数据流已成为流行趋势。企业不只须要了解如何快速建立数据,还必须知道如何快速处理、分析并返回给用户,以知足他们的实时需求。
大数据具备多层结构,这意味着大数据会呈现出多变的形式和类型。相较传统的业务数据,大数据存在不规则和模糊不清的特性,形成很难甚至没法使用传统的应用软件进行分析。传统业务数据随时间演变已拥有标准的格式,可以被标准的商务智能软件识别。目前,企业面临的挑战是处理并从各类形式呈现的复杂数据中挖掘价值。
第一,人们处理的数据从样本数据变成所有数据;第二,因为是全样本数据,人们不得不接受数据的混杂性,而放弃对精确性的追求;第三,人类经过对大数据的处理,放弃对因果关系的渴求,转而关注相关关系。事实上,大数据时代带给人们的思惟方式的深入转变远不止上述三个方面。
5.准备python编程环境
下载安装
https://www.python.org/
https://www.jetbrains.com/pycharm/download/#section=windows
基础学习
廖雪峰https://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000
菜鸟教程http://www.runoob.com/python3/python3-tutorial.html
6.简单的输入输出编程练习
设计完成一个Mad Libs游戏:
1).创造一个让人欢乐的有趣的故事;
2).提示伙伴输入相应类别的词;
3).将故事完整地输出。
代码:
language1=input('请输入一种编程语言:')
language2=input('请输入另外一种编程语言:')
print("\n对于一个优秀的工程师来讲,单单了解一种编程语言是远不足够的。\n因此咱们不单要学习一下{},还要学习一下{}".format(language1,language2))
运行结果: