Druid实时大数据分析安装和配置(四)

前面几篇文章咱们初识了Druid，下面咱们就愉快的安装吧。。。

JAVA8安装

官网自行下载

Druid下载

下载地址：https://druid.apache.org/downloads.html

Zookeeper 的安装

下载地址：http://www.apache.org/dyn/closer.cgi/zookeeper

单机版安装部署

1.将安装包上传到服务器，并解压安装

tar -xzf apache-druid-0.16.0-incubating-bin.tar.gz -C /data

2.下载zookeeper安装包上传到服务器，并解压安装包到druid的根目录，并重名为zk

tar -xzf zookeeper-3.4.6.tar.gz -C /data/apache-druid-0.16.0-incubating

mv /data/apache-druid-0.16.0-incubating/zookeeper-3.4.6 /data /apache-druid-0.16.0-incubating/zk

3.进入druid的安装目录，执行单机启动脚本

cd /data/apache-druid-0.16.0-incubating

./bin/start-micro-quickstart

4.访问http://localhost:8888 查看druid管理界面

Druid离线安装

本节以imply-1.3.1.tar.gz（Druid版本为0.9.1.1）为例，外部依赖采用默认配置。

DeepStorage->本地存储

Metadata Storage->Derby

Zookeeper->Imply安装包自带的zk服务”

1. 服务安装与启动

curl -O https://static.imply.io/release/imply-1.3.1.tar.gz

tar -xzf imply-1.3.1.tar.gz

cd imply-1.3.1

nohup bin/supervise -c conf/supervise/quickstart.conf > quickstart.log &”

2．服务停止与重启

bin/service --down

bin/service --restart ${服务名称}

安装与规划：

由于Druid采用分布式设计，其中不同类型的节点各司其职，故在实际部署集群环境中首先需要对各类节点进行统一规划，从功能上划分为以下3个部分。

Master：管理节点，包含协调节点和统治节点，负责管理数据写入任务及容错相关处理。

Data：数据节点，包含历史节点和中间管理者，负责数据写入处理、历史数据的加载与查询。

Query：查询节点，包含查询节点和Pivot Web界面，负责提供数据查询接口和Web交互式查询功能。

在实际部署中，一方面，考虑到容错性问题，至少需要部署两个管理节点作为互备；另一方面，由于Druid支持横向扩展，故在使用初期考虑到机器资源有限，可以将管理节点和查询节点混合部署在同一台物理机器上，同时为了加速热点数据的查询，可以考虑加上历史节点，利用分层特性把小部分热点数据源放在管理节点所在机器上的历史节点中。而在部署机器选择上，管理节点和查询节点考虑选用多核大内存机器，比如16核CPU和64GB内存。由于数据节点还涉及历史数据的本地缓存，故需要更大的磁盘空间，若想获得更优的性能，推荐使用SSD存储设备。

数据节点配置调优

historical与middleManager配置：

JVM内存使用-Xmx和-Xms

druid.server.http.numThreads

druid.processing.buffer.sizeBytes

druid.processing.numThreads

druid.query.groupBy.maxIntermediateRows

druid.query.groupBy.maxResults

druid.server.maxSize和druid.segmentCache.locations（historical）

druid.worker.capacity（middleManager）

druid.server.tier（默认为_default_tier，自定义名称可以对数据存储做分层处理）

druid.server.priority（定义层对应的查询优先级）

查询节点配置调优

broker相关配置：

JVM内存使用-Xmx和-Xms

druid.server.http.numThreads

druid.cache.sizeInBytes

druid.processing.buffer.sizeBytes

druid.processing.numThreads

druid.query.groupBy.maxIntermediateRows

druid.query.groupBy.maxResults

配置说明如下。

Druid中查询节点和历史节点都提供了针对查询的本地LRU缓存机制，在配置方面broker和historical只需要在一种节点上开启缓存即可，推荐小集群（<20台机器）在查询节点上开启查询缓存，大集群在历史节点上开启查询缓存。

并发性能的调优更多的是通过调整相关处理的线程数来实现，查询涉及多个数据文件（Segment）的计算时，通常一个数据文件对应一个处理线程。

节点规划

这里以实际应用部署为例，机器类型分为以下两种。

Master机器：64GB内存、16核CPU、250GB磁盘空间。

Data机器：64GB内存、24核CPU、1TB磁盘空间。

初始搭建Druid集群选取Master机器2台、Data机器3台，其中Master机器作为管理和查询节点，Data机器作为数据节点，分别部署服务如下。

备注：考虑到时区问题，所有Druid相关的服务时区需要设置一致，这里统一配置为UTC+0800。

安装完成进行如下操作：

curl -L -H'Content-Type: application/json' -XPOST --data-binary @quickstart/wikipedia-top-pages.json http://localhost:8082/druid/v2/?pretty

bin/plyql --host localhost:8082 -v -q "SELECT page, SUM(count) AS Edits FROM wikiticker WHERE '2016-06-27T00:00:00' <= __time AND __time < '2016-06-28T00:00:00' GROUP BY page ORDER BY Edits DESC LIMIT 5

bin/generate-example-metrics | curl -XPOST -H'Content-Type: application/json' --data-binary @- http://localhost:8200/v1/post/metrics

展开阅读全文

页面更新：2024-04-14

标签：多核离线大数历史数据热点节点集群线程缓存实时时区界面内存机器性能数据历史科技

1 2 3 4 5

Druid实时大数据分析安装和配置(四)

JAVA8安装

单机版安装部署

Druid离线安装

安装与规划：

数据节点配置调优

查询节点配置调优

节点规划

Druid实时大数据分析查询(六)

为什么要选择RabbitMQ，RabbitMQ简介，各种MQ选型对比

Elasticsearch入个门？

Elasticsearch分词

Redis 21问，砖友们知道几个？

基于sanic的微服务基础架构

关于Redis性能的注意事项

Druid实时大数据分析介绍(一)

Druid实时大数据分析应用(二)

初识ElasticSearch

HTTP请求的数据结构

Python实现LRU算法

成都车展 | 领克09踏浪而来，惊喜亮相

2022铃木GSX-S1000GT发布：生化机械风脸谱，全能公升级跑旅登场

2022奥古斯塔F3 RR发布：大型定风翼上身，动力悬挂系统全面强化

Druid实时大数据分析查询(六)

关于Redis性能的注意事项

Druid实时大数据分析介绍(一)

Druid实时大数据分析应用(二)

HTTP请求的数据结构

MotoGP各车厂Misano测试出炉，黑科技倾巢而出

宝马公布M3旅行版油耗数据公布，测试车标语很霸气

沃尔沃汽车方锡智，大数据助力实现“让安全，更周全”

Redis基础数据结构与命令总结

Linux系统清除缓存