Druid实时大数据分析安装和配置(四)

前面几篇文章咱们初识了Druid,下面咱们就愉快的安装吧。。。

JAVA8安装

官网自行下载

Druid下载

下载地址:https://druid.apache.org/downloads.html


Zookeeper 的安装

下载地址:http://www.apache.org/dyn/closer.cgi/zookeeper

单机版安装部署

1.将安装包上传到服务器,并解压安装

tar -xzf apache-druid-0.16.0-incubating-bin.tar.gz -C /data

2.下载zookeeper安装包上传到服务器,并解压安装包到druid的根目录,并重名为zk

tar -xzf zookeeper-3.4.6.tar.gz -C /data/apache-druid-0.16.0-incubating

mv /data/apache-druid-0.16.0-incubating/zookeeper-3.4.6 /data /apache-druid-0.16.0-incubating/zk

3.进入druid的安装目录,执行单机启动脚本

cd /data/apache-druid-0.16.0-incubating

./bin/start-micro-quickstart

4.访问http://localhost:8888 查看druid管理界面

Druid实时大数据分析安装和配置(四)

Druid离线安装

本节以imply-1.3.1.tar.gz(Druid版本为0.9.1.1)为例,外部依赖采用默认配置。

DeepStorage->本地存储

Metadata Storage->Derby

Zookeeper->Imply安装包自带的zk服务”


1. 服务安装与启动

curl -O https://static.imply.io/release/imply-1.3.1.tar.gz

tar -xzf imply-1.3.1.tar.gz

cd imply-1.3.1

nohup bin/supervise -c conf/supervise/quickstart.conf > quickstart.log &”

2.服务停止与重启

bin/service --down

bin/service --restart ${服务名称}

安装与规划:


Druid实时大数据分析安装和配置(四)

由于Druid采用分布式设计,其中不同类型的节点各司其职,故在实际部署集群环境中首先需要对各类节点进行统一规划,从功能上划分为以下3个部分。

Master:管理节点,包含协调节点和统治节点,负责管理数据写入任务及容错相关处理。

Data:数据节点,包含历史节点和中间管理者,负责数据写入处理、历史数据的加载与查询。

Query:查询节点,包含查询节点和Pivot Web界面,负责提供数据查询接口和Web交互式查询功能。

在实际部署中,一方面,考虑到容错性问题,至少需要部署两个管理节点作为互备;另一方面,由于Druid支持横向扩展,故在使用初期考虑到机器资源有限,可以将管理节点和查询节点混合部署在同一台物理机器上,同时为了加速热点数据的查询,可以考虑加上历史节点,利用分层特性把小部分热点数据源放在管理节点所在机器上的历史节点中。而在部署机器选择上,管理节点和查询节点考虑选用多核大内存机器,比如16核CPU和64GB内存。由于数据节点还涉及历史数据的本地缓存,故需要更大的磁盘空间,若想获得更优的性能,推荐使用SSD存储设备。

数据节点配置调优

historical与middleManager配置:

JVM内存使用-Xmx和-Xms

druid.server.http.numThreads

druid.processing.buffer.sizeBytes

druid.processing.numThreads

druid.query.groupBy.maxIntermediateRows

druid.query.groupBy.maxResults

druid.server.maxSize和druid.segmentCache.locations(historical)

druid.worker.capacity(middleManager)

druid.server.tier(默认为_default_tier,自定义名称可以对数据存储做分层处理)

druid.server.priority(定义层对应的查询优先级)

查询节点配置调优

broker相关配置:

JVM内存使用-Xmx和-Xms

druid.server.http.numThreads

druid.cache.sizeInBytes

druid.processing.buffer.sizeBytes

druid.processing.numThreads

druid.query.groupBy.maxIntermediateRows

druid.query.groupBy.maxResults

配置说明如下。

Druid中查询节点和历史节点都提供了针对查询的本地LRU缓存机制,在配置方面broker和historical只需要在一种节点上开启缓存即可,推荐小集群(<20台机器)在查询节点上开启查询缓存,大集群在历史节点上开启查询缓存。

并发性能的调优更多的是通过调整相关处理的线程数来实现,查询涉及多个数据文件(Segment)的计算时,通常一个数据文件对应一个处理线程。

节点规划

这里以实际应用部署为例,机器类型分为以下两种。

Master机器:64GB内存、16核CPU、250GB磁盘空间。

Data机器:64GB内存、24核CPU、1TB磁盘空间。

初始搭建Druid集群选取Master机器2台、Data机器3台,其中Master机器作为管理和查询节点,Data机器作为数据节点,分别部署服务如下。

备注:考虑到时区问题,所有Druid相关的服务时区需要设置一致,这里统一配置为UTC+0800。


安装完成进行如下操作:

curl -L -H'Content-Type: application/json' -XPOST --data-binary @quickstart/wikipedia-top-pages.json http://localhost:8082/druid/v2/?pretty


bin/plyql --host localhost:8082 -v -q "SELECT page, SUM(count) AS Edits FROM wikiticker WHERE '2016-06-27T00:00:00' <= __time AND __time < '2016-06-28T00:00:00' GROUP BY page ORDER BY Edits DESC LIMIT 5


bin/generate-example-metrics | curl -XPOST -H'Content-Type: application/json' --data-binary @- http://localhost:8200/v1/post/metrics

展开阅读全文

页面更新:2024-04-14

标签:多核   离线   大数   历史数据   热点   节点   集群   线程   缓存   实时   时区   界面   内存   机器   性能   数据   历史   科技

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top