初识hadoop

时间 2019-11-24

标签 hadoop 栏目 Hadoop 繁體版

原文原文链接

网格计算经过利用大量异构计算机（一般为台式机）的未用资源（CPU周期和磁盘存储），将其做为嵌入在分布式电信基础设施中的一个虚拟的计算机集群，为解决大规模的计算问题提供一个模型。html

志愿计算：web

捐献CPU周期shell

job tracker 的任务是追踪mapreduce 做业数据库

SEARCH 组成部分编程

crawler：下载网页，webmap 构建网络地图安全

indexer ：为最佳界面构建反向索引网络

hadoop技术栈：数据结构

序列化：框架

将结构化的对象转为字节流ssh

用于进程间的通讯和持久存储；

什么是序列化？序列化就是将数据结构或对象转换成二进制串的过程，也就是编码的过程。

什么是反序列化？将在序列化过程当中所生成的二进制串转换成数据结构或者对象的过程。

为何须要序列化？转换为二进制串后才好进行网络传输嘛！

为何须要反序列化？将二进制转换为对象才好进行后续处理！

从RPC的角度上看，主要看三点：1）通用性，好比是否能支持Map等复杂的数据结构；2）性能，包括时间复杂度和空间复杂度，因为RPC框架将会被公司几乎全部服务使用，若是序列化上能节约一点时间，对整个公司的收益都将很是可观，同理若是序列化上能节约一点内存，网络带宽也能省下很多；3）可扩展性，对互联网公司而言，业务变化飞快，若是序列化协议具备良好的可扩展性，支持自动增长新的业务字段，而不影响老的服务，这将大大提供系统的灵活度。

RPC（Remote Procedure Call Protocol）：http://www.cnblogs.com/LBSer/p/4853234.html

core ：一系列分布式文件系统和通用I/O组件和接口（序列化，JAVA RPC,持久化数据结构）

ARvo ：一种高效跨语言 rpc 数据序列系统，持久化数据存储

mapreduce ：分布式数据处理模式和执行环境，大型商用机集群

HDFS : 分布式文件系统

Pig ：一种数据流语言和运行环境，检索很是大的数据集。pig 运行在 mapreduce 和 Hdfs上

Hbase ：一个分布式的列存储的数据库，Hbase 使用hdfs做为底层存储，支持mapreduce批量式计算和点查询（随机读取）

Zookeeper ：一个分布式的高可用性的协调服务，提供分布式锁的服务用于构建分布式应用

Hive : 分布式数据仓库，管理hdfs中存储的数据，并提供SQL查询

Chukwa ：分布式数据收集和分析系统，运行hdfs中的存储数据的收集器，使用mapreduce生成报告

shell编程 awk

Map reduce逻辑数据流 shuffle“洗牌”

多个reduce任务的mapreduce数据流

客户端从HDFS读取数据

ssh 安全外壳协议

zookeeper: 目的是提供一些工具集，用来创建安全处理局部故障的分布式应用

计算一个网页的重要性：那些网页包含该网页指向的外向连接

有一段时间没作这方面的工做了，之前的草稿，发一下。