大数据---Ranger-1

时间 2019-12-05

标签数据 ranger 繁體版

原文原文链接

背景：从软通出来，告别华为外包，离开H区，进入了一家搞大数据的创业公司，感受周围都好陌生，记录下本身大数据的career！shell

2019-03-4新的征程-入职第一天：数据库

1、办理入职手续编程

公司人比较少，没有入职培训等操做；用了企业微信和企业邮箱，填下我的信息，而后开搞；安全

2、搭建Java开发环境和虚拟机、Linux、Xshell等服务器

Windows下使用Xshell时出现丢失msvcr110.dll等dll，可使用该连接解决https://blog.csdn.net/franck_lou/article/details/78438268 微信

3、学习编译Ranger工程，熟悉相关部署和使用网络

刚开始接触公司本身搭建的Ranger工程，感受好难受；Ranger是开源的，公司下载了源码并在原有结构上在增长新功能；Ranger里面好多组件都没用过，感受很陌生，难受马非，因而感受今天先弄明白这些东西时什么，以后再仔细研究它们时怎么存储数据、读/写文件和使用等。框架

一、Ranger 简介分布式

Apache Ranger提供一个集中式安全管理框架，它能够对Hadoop生态的组件如Hive、Hbase进行细粒度的数据访问控制；经过操做Ranger控制台，管理员能够轻松的经过配置策略来控制用户访问HDFS文件夹、HDFS文件、数据库、表和字段权限，这些策略能够为不一样的用户和组来设置，同时权限可与hadoop无缝对接；而且提供了Web UI方便管理员进行操做。工具

二、什么是Hbase

HBase是一种Hadoop数据库，常常被描述为一种稀疏的、分布式的、可持续化的、多维有序映射，它是基于行键、列键和时间戳创建索引的，是一个能够随机访问的存储和检索数据的平台；HBase不限制存储的数据种类，容许动态的、灵活的数据模型，不用SQL语言，也不强调数据之间的关系；HBase被设计成在一个服务器集群上运行，能够相应地横向扩展。

三、什么是Hive

a. Hive由Facebook实现并开源；
b. 是基于Hadoop的一个数据仓库工具；
c. 能够将结构化的数据映射为一张数据库表，并提供HQL(Hive SQL)查询功能；
d. 底层数据是存储在HDFS上的；
e. Hive的本质是将SQL 语句转换为MapReduce 任务执行，使不熟悉MapReduce的用户很方便的利用HQL处理和计算HDFS上的结构化的数据，适用于离线的批量数据计算；
f. MapReduce是一种编程模型，用于大规模数据集(大于1TB)的并行运算。

四、什么是YARN

Apache Hadoop YARN(Yet Another Resource Negotiator，另外一种资源协调者)是一种新的Hadoop资源管理器，它是一个通用资源管理系统，可为上层应用提供统一的资源管理和调度；它将资源管理和处理组件分开，它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大的好处。

五、什么是Hadoop

Hadoop是一个开源框架，它容许在整个集群使用简单编程模型计算机的分布式环境存储并处理大数据；它的目的是从单一的服务器到上千台机器的扩展，每个台机均可以提供本地计算和存储。

六、什么是KNOX

Knox是Apache Hadoop生态中REST API和应用的网关，Apache Knox是一个经过REST API和UI与Apache Hadoop部署交互的应用网关；Knox网关为全部与Hadoop集群的REST和HTTP交互提供
了一个单独的访问点。(REST描述的是在网络中client和server的一种交互形式)

七、什么是HDFS

HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目，是分布式计算中数据存储管理的基础，是基于流数据模式访问和处理超大文件的需求而开发的，能够运行于廉价的商用服务器上；它所具备的高容错性、高可靠性、高扩展性、高得到性和高吞吐率特征为海量数据提供了不怕故障的存储，为超大数据集(Large Data Set)的应用处理带来了不少便利。

4、吐槽

一、今天上班用的是win10系统，win10须要以管理员身份打开dos窗口，才能够修改执行某些特殊命令；

二、上班第一天没有把Ranger工程本身编译出来，难受；

三、第一天晚上就加班了，还被嫌弃了，要讲究工做效率，在上班时间完成任务，该加班的时候再加班，难受；

四、建议你们有事没事都下个虚拟机玩玩，Linux和Xshell等操做熟悉下吧，又被嫌弃了，难受马非。