为什么我们需要Apache Spark

时间 2020-12-26

原文原文链接

拥有大量数据，我们需要一种工具来快速消化它 Greg Rakozy在Unsplash上拍摄的照片数据无处不在。 IDC估计，2013年“数字宇宙”的大小为4.4 ZB（1万亿千兆字节）。目前，数字宇宙每年以40％的速度增长，而IDC预计到2020年，它的大小将达到44 ZB，相当于物理宇宙中每个恒星的单个数据。我们有很多数据，但我们并没有摆脱任何数据。我们需要一种方法来大规模存储越来越多的数