[TOC] #参考java
#大数据概要 ##海量数据 量级: 1024K = 1M 1024m = 1G 1024G = 1P 1024P = 1E 1024E = 1Z 1024Z = 1Y 1024Y = 1NB ##大数据核心 存储:分布式(集群) 计算:分布式(集群)mysql
v:volumn,体量大(数据量大) v:variaty,样式多(数据种类繁多;结构化,半结构化,非结构化;json,xml,文本...) v:valueless,价值密度低(一行数据价值低,海量数据全量分析) v:velociy,速度快(数据产生快)算法
全量分析:throughput,吞吐量巨大的(矿石提炼黄金)sql
google:两篇论文(gfs + mapreduce)shell
#大数据生态系统 ##参考www.apache.org ##金字塔结构(由底往上) ###Linux(ubuntu / centos / redhat / macOS) ###java,jvm,scala (shell) ###hadoop生态系统 ####hadoop 分布式计算框架 hdfs(分布式文件系统) + yarn(资源调度框架) mapreduce:编程模型 ####hive:数据仓库 OSAP:在线事物分析 擅长:海量数据统计与分析 不擅长:高实时性,低延迟性 ####hbase:面向列族数据库 sql、oracle、mysql 是rdbms关系性数据库管理系统,面向行数据 面向列族:key-value存储;十亿行 x 十亿列,随机访问 + 实时读写 ####pig:mr程序编写系统 ####zookeeper:服务协同 HA:high availability,高可用性;不能单机部署 ####flume:日志收集系统 ####sqoop:tool(rdbms 与 hadoop 数据传输工具) ###spark生态圈 内存计算框架(快如闪电);没有分布式存储;替换hadoop的mapreduce; 在内存计算比hadoop快100倍,磁盘计算快10倍 大量可用内存,部署起码32G+ ####spark sql 类sql语言实现数据聚合,分析(hadoop的hive、pig) ####spark streaming 流计算(hadoop的strom) ####MLLib 机器学习 machine learning library:类库;算法 AlahGo(机器学习,神经网络,算法) ####GraphX 图计算 ###机器学习 数学知识 ####R 实验室产品,图表技术强悍 ####Mahout数据库
#大数据(参与者) ##门外汉(扯谈) ##企业boss(决策) ##专业技术人员apache