hadoop笔记一

 1.怎么作推荐系统:网络

推荐系统架构:在一个公司,要作一个推荐系统,要分三层:a:第一层,offline层,线下层,对海量数据进行离线加工的,例如:mapreduce。b:第二层,nearline层,线下和在线夹着的,容许你的数据有延迟的,可是不要延迟太大,利用流式处理技术,对实时产生的数据作加工,如storm。c:第三层,online层,在线层,负责在线计算,处理相对简单运算逻辑,例如在线引擎。架构

 

2.传统海量数据处理技术:传统hash、一致性hash。             大数据、大流量、大计算。框架

 

3.mapreduce基础:mapreduce思想就是分而治之。大数据

 

4.mapreduce讲解:orm

 

 

计算框架所处理的数据都是在HDFS上的,inputformat是一个mapreduce接口,做用是对hdfs上的数据进行切片、分块,分出来的每一块或者每一片均可以做为map的输入,reduce的输入时每个map的输出。         mapreduce慢在哪里?排序;还有数据要落地,磁盘io,网络io,读写。blog

 

 

相关文章
相关标签/搜索