大数据处理框架html
Spark(Spark学习脑图)算法
- RDD数据库
- Spark SQL编程
- Spark Streaming数组
- MLLib网络
Hadoop数据结构
- HDFS (分布式文件系统)app
- Mapreduce(计算框架)框架
- Yarn(资源管理平台)机器学习
- Pig(piglatin 语句到 mapreduce 的映射)
- Hive(数据仓库,提供 SQL)
- Mahout(机器学习算法的 mapreduce 实现库)
Kafka
分布式消息队列(Message Queue)
高吞吐、可扩展
Kafka经过Zookeeper管理集群配置,选举leader
LinkedIn开发,开发语言Scala
Kafka Monitor:http://www.oschina.net/p/kafka-monitor(LinkedIn在2016年4月开源了其测试框架)
Storm(实时计算简介)
Twitter已经用Heron替换了Storm
ELK
ElasticSearch
Logstash
Kibana
数据库
SQL
MySQL
MongoDB (文档型)
Cassandra
Redis (KV型)
SQLite
bsddb
HBase
Neo4j (图型)
编程语言
Python
R
Ruby
数据分析挖掘
MATLAB
SPSS
SAS
数据可视化
R
D3.js
ECharts
Excle
人工智能
聚类
时间序列
推荐系统
回归分析
文本挖掘
决策树
支持向量机
贝叶斯分类
神经网络
算法
一致性
paxos
raft
gossip
数据结构
栈,队列,链表
散列表
二叉树,红黑树,B树
图
经常使用算法
排序(插入排序、桶排序、堆排序、快速排序)
最大子数组
最长公共子序列
最小生成树
最短路径
矩阵的存储和运算
云计算
云服务(SaaS、PaaS、IaaS)
Openstack
Docker
refer:
一、大数据技能图谱(在此基础上有所补充)