本文做为“存储基础知识”系列文章之一,将介绍大数据的概念和组成部分。算法
大数据是一个新提出的且在不断演化的概念,是指数据量超过了常规软件工具在可接受的时间内的抓取、存储、管理和处理能力。它即包括结构化数据,也包括非结构化数据。其数据的来源多种多样,能够来自商务应用处理、网页、视频、图像和社交媒体等。这些数据集一般须要实时地抓取和更新,以用于分析、预测性建模和决策等用途。架构
从大数据中吸收价值存在很大的机遇。大数据的生态系统(以下图所示)由如下元素组成:工具
一、从多个位置收集数据,并从收集的数据中生成数据(元数据)的设备。性能
二、数据收集器,收集来自设备和用户的数据。大数据
三、数据聚合工具,从收集的数据中吸收有意义的信息。设计
四、数据用户和买家,是指数据价值链中从他人收集或聚合的数据中收益的人群。视频
大数据的数据量、多样性、变化范围和复杂性超出了传统的IT设备和数据处理工具及方法的处理能力。对大数据进行实时分析须要新的方法、架构和工具,以提供高性能、大规模并行处理(MPP)数据平台和对数据集的复杂分析。数学
数据科学是一门新兴的学科,商业组织能够利用这门学科从大数据中获取商业价值。数据科学是多门学科(统计学、数学、数据可视化和计算机科学)的综合。数据科学家的职责是设计各类高级算法对海量数据进行分析,以寻找新的价值点,为更多的决策提供数据支持。数据可视化
不少领域和市场已经开始利用数据科学,从大数据的分析中获益。其中包括医学与科学研究、医疗医护、公共管理、欺诈检测、社交媒体、银行、保险公司,以及其余以数据为中心的实体。基础
帮助用户了解大数据相关概念。