Druid入门（1）—— 快速入门实时分析利器-Druid_0.17

时间 2020-02-11

标签 druid 入门快速实时分析利器 0.17 栏目 Java开源繁體版

原文原文链接

1、安装准备

本次安装的版本是截止2020.1.30最新的版本0.17.0web

软件要求

须要Java 8（8u92 +）以上的版本，不然会有问题sql
Linux，Mac OS X或其余相似Unix的操做系统（不支持Windows）数据库

硬件要求

Druid包括一组参考配置和用于单机部署的启动脚本：apache

nano-quickstart
micro-quickstart
small
medium
large
xlarge

单服务器参考配置

Nano-Quickstart：1个CPU，4GB RAM

启动命令： bin/start-nano-quickstart
配置目录： conf/druid/single-server/nano-quickstart

微型快速入门：4个CPU，16GB RAM

启动命令： bin/start-micro-quickstart
配置目录： conf/druid/single-server/micro-quickstart

小型：8 CPU，64GB RAM（〜i3.2xlarge）

启动命令： bin/start-small
配置目录： conf/druid/single-server/small

中：16 CPU，128GB RAM（〜i3.4xlarge）

启动命令： bin/start-medium
配置目录： conf/druid/single-server/medium

大型：32 CPU，256GB RAM（〜i3.8xlarge）

启动命令： bin/start-large
配置目录： conf/druid/single-server/large

大型X：64 CPU，512GB RAM（〜i3.16xlarge）

启动命令： bin/start-xlargejson
配置目录： conf/druid/single-server/xlarge服务器

咱们这里作测试使用选择最低配置便可nano-quickstartapp

2、下载安装包

访问官网：jvm

http://druid.io/如今也会跳转https://druid.apache.org/maven

或者直接访问https://druid.apache.org/ide

点击download进入下载页面：

选择最新版本: apache-druid-0.17.0-bin.tar.gz 进行下载

200多M

也能够选择下载源码包用maven进行编译

3、安装

上传安装包

在终端中运行如下命令来安装Druid：

tar -xzf apache-druid-0.17.0-bin.tar.gz
cd apache-druid-0.17.0

安装包里有这几个目录：

LICENSE和NOTICE文件
bin/* -脚本
conf/* -单服务器和集群设置的示例配置
extensions/* -扩展
hadoop-dependencies/* -Druid Hadoop依赖
lib/* -Druid库
quickstart/* -快速入门教程的配置文件，样本数据和其余文件

配置文件

#进入咱们要启动的配置文件位置：
cd conf/druid/single-server/nano-quickstart/

_common 公共配置

是druid一些基本的配置，好比元数据库地址各类路径等等

其余的是各个节点的配置

比较相似，好比broker

cd broker/

jvm配置

main配置

runtime运行时相关的配置

回到主目录

启动的conf在

cd conf/supervise/single-server

里面是不一样配置启动不一样的脚本

4、启动

回到主目录

./bin/start-nano-quickstart

启动成功：

访问

localhost:8888

看到管理页面

若是要修改端口，须要修改配置的端口和主目录下的

vi bin/verify-default-ports

5、加载数据

Druid提供了一个示例数据文件，其中包含2015年9月12日发生的Wiki的示例数据。

此样本数据位于quickstart/tutorial/wikiticker-2015-09-12-sampled.json.gz

示例数据大概是这样：

{
  "timestamp":"2015-09-12T20:03:45.018Z",
  "channel":"#en.wikipedia",
  "namespace":"Main",
  "page":"Spider-Man's powers and equipment",
  "user":"foobar",
  "comment":"/* Artificial web-shooters */",
  "cityName":"New York",
  "regionName":"New York",
  "regionIsoCode":"NY",
  "countryName":"United States",
  "countryIsoCode":"US",
  "isAnonymous":false,
  "isNew":false,
  "isMinor":false,
  "isRobot":false,
  "isUnpatrolled":false,
  "added":99,
  "delta":99,
  "deleted":0,
}

Druid加载数据分为如下几种：

加载文件
从kafka中加载数据
从hadoop中加载数据
自定义加载方式

咱们这样演示一下加载示例文件数据

一、进入localhost:8888 点击load data

二、选择local disk

三、选择Connect data

四、预览数据

Base directory输入quickstart/tutorial/

File filter输入 wikiticker-2015-09-12-sampled.json.gz

而后点击apply预览就能够看见数据了点击Next：parse data解析数据

五、解析数据

能够看到json数据已经被解析了继续解析时间

六、解析时间

解析时间成功以后两步是transform和filter 这里不作演示了直接next

七、确认Schema

这一步会让咱们确认Schema 能够作一些修改

因为数据量较小咱们直接关掉Rollup 直接下一步

八、设置分段

这里能够设置数据分段咱们选择hour next

九、确认发布

十、发布成功开始解析数据

等待任务成功

十一、查看数据

选择datasources 能够看到咱们加载的数据

能够看到数据源名称 Fully是彻底可用还有大小等各类信息

十二、查询数据

点击query按钮

咱们能够写sql查询数据了还能够将数据下载

Druid相关博文

什么是Druid

静下心来，努力的提高本身，永远都没有错。更多实时计算相关博文，欢迎关注实时流式计算