Presto在大数据领域的实践和探索

Facebook开源项目

Presto 是由 Facebook 开源的大数据分布式 SQL 查询引擎，适用于交互式分析查询，数据量支持GB到PB字节。还可以支持众多的数据源，包括 HDFS，RDBMS，Kafka等，而且提供了非常友好的接口开发数据源连接器。

presto的三个亮点

清晰的架构，是一个能够独立运行的系统，不依赖于任何其他外部系统。例如调度，presto自身提供了对集群的监控，可以根据监控信息完成调度。
简单的数据结构，列式存储，逻辑行，大部分数据都可以轻易的转化成presto所需要的这种数据结构。
丰富的插件接口，完美对接外部存储系统，或者添加自定义的函数。

Presto的架构

Presto查询引擎是一个Master-Slave的架构，由一个Coordinator节点，一个Discovery Server节点，多个Worker节点组成，Discovery Server通常内嵌于Coordinator节点中。Coordinator负责解析SQL语句，生成执行计划，分发执行任务给Worker节点执行。Worker节点负责实际执行查询任务。Worker节点启动后向Discovery Server服务注册，Coordinator从Discovery Server获得可以正常工作的Worker节点。如果配置了Hive Connector，需要配置一个Hive MetaStore服务为Presto提供Hive元信息，Worker节点与HDFS交互读取数据。

Presto的服务进程

Presto集群中有两种进程，Coordinator服务进程和worker服务进程。coordinator主要作用是接收查询请求，解析查询语句，生成查询执行计划，任务调度和worker管理。worker服务进程执行被分解的查询执行任务task。

Coordinator 服务进程部署在集群中的单独节点之中，是整个presto集群的管理节点，主要作用是接收查询请求，解析查询语句，生成查询执行计划Stage和Task并对生成的Task进行任务调度，和worker管理。Coordinator进程是整个Presto集群的master进程，需要与worker进行通信，获取最新的worker信息，有需要和client通信，接收查询请求。Coordinator提供REST服务来完成这些工作。

Presto集群中存在一个Coordinator和多个Worker节点，每个Worker节点上都会存在一个worker服务进程，主要进行数据的处理以及Task的执行。worker服务进程每隔一定的时间会发送心跳包给Coordinator。Coordinator接收到查询请求后会从当前存活的worker中选择合适的节点运行task。

从宏观层面概括了Presto的集群组件：1个coordinator，多个worker节点。用户通过客户端连接到coordinator，可以短可以是JDBC驱动或者Presto命令行cli。

Presto是一个分布式的SQL查询引擎，组装了多个并行计算的数据库和查询引擎（这就是MPP模型的定义）。Presto不是依赖单机环境的垂直扩展性。她有能力在水平方向，把所有的处理分布到集群内的各个机器上。这意味着你可以通过添加更多节点来获得更大的处理能力。

利用这种架构，Presto查询引擎能够并行的在集群的各个机器上，处理大规模数据的SQL查询。Presto在每个节点上都是单进程的服务。多个节点都运行Presto，相互之间通过配置相互协作，组成了一个完整的Presto集群。

上图展示了集群内coordinator和worker之间，以及worker和worker之间的通信。coordinator向多个worker通信，用于分配任务，更新状态，获得最终的结果返回用户。worker之间相互通信，向任务的上游节点获取数据。所有的worker都会向数据源读取数据。

Coordinator

Coordinator的作用是：

从用户获得SQL语句
解析SQL语句
规划查询的执行计划
管理worker节点状态

Coordinator是Presto集群的大脑，并且是负责和客户端沟通。用户通过PrestoCLI、JDBC、ODBC驱动、其他语言工具库等工具和coordinator进行交互。Coordinator从客户端接受SQL语句，例如select语句，才能进行计算。

每个Presto集群必须有一个coordinator，可以有一个或多个worker。在开发和测试环境中，一个Presto进程可以同时配置成两种角色。Coordinator追踪每个worker上的活动，并且协调查询的执行过程。Coordinator给查询创建了一个包含多阶段的逻辑模型，一旦接受了SQL语句，Coordinator就负责解析、分析、规划、调度查询在多个worker节点上的执行过程，语句被翻译成一系列的任务，跑在多个worker节点上。worker一边处理数据，结果会被coordinator拿走并且放到output缓存区上，暴露给客户端。一旦输出缓冲区被客户完全读取，coordinator会代表客户端向worker读取更多数据。worker节点，和数据源打交道，从数据源获取数据。因此，客户端源源不断的读取数据，数据源源源不断的提供数据，直到查询执行结束。

Coordinator通过基于HTTP的协议和worker、客户端之间进行通信。

Workers

Presto的worker是Presto集群中的一个服务。它负责运行coordinator指派给它的任务，并处理数据。worker节点通过连接器（connector）向数据源获取数据，并且相互之间可以交换数据。最终结果会传递给coordinator。 coordinator负责从worker获取最终结果，并传递给客户端。

Worker之间的通信、worker和coordinator之间的通信采用基于HTTP的协议。下图展示了多个worker如何从数据源获取数据，并且合作处理数据的流程。直到某一个worker把数据提供给了coordinator。

一层一层剥开你的心之Presto数据模型

Presto采取了三层表结构，我们可以和Mysql做一下类比：

catalog 对应某一类数据源，例如hive的数据，或mysql的数据
schema 对应mysql中的数据库
table 对应mysql中的表

在Presto中定位一张表，一般是catalog为根，例如：一张表的全称为 hive.testdata.test，标识 hive(catalog)下的 testdata(schema)中test表。

可以简理解为：数据源.数据库.数据表。

Presto为什么这么快？

完全基于内存的并行计算
流水线式的处理
本地化计算
动态编译执行计划
小心使用内存和数据结构
类BlinkDB的近似查询
GC控制

展开阅读全文

页面更新：2024-04-13

标签：数据数据结构数据源相互之间节点集群语句架构客户端进程作用领域通信引擎计划用户科技

1 2 3 4 5

Presto在大数据领域的实践和探索

Facebook开源项目

presto的三个亮点

Presto的架构

Presto的服务进程

Coordinator

Workers

Presto为什么这么快？

什么是DevOps？容器如何助力 DevOps？

起底加密货币诈骗之局

SQL Server在走下坡路，即将被PostgreSQL超越

java的jstack如何使用？(一)

java命令之jstack 线程Dump的分析

Google发表的三篇论文是如何影响大数据行业发展的？

如何使 Docker 和 Kubernetes 结合发挥容器的最大价值？

redis主从同步参数repl_backlog_size测算

java命令之jstack 使用实例

PostgreSQL V14.0 patch数量竟然达到220个

一文搞懂PostgreSQL中VACUUM 与 VACUUM FULL

为什么索引可以让查询变快？终于有人说清楚了

在阿里云上使用docker部署wordpress博客

java的jstack的使用命令和操作步骤

Flink中的时间语义与waterMark

Google发表的三篇论文是如何影响大数据行业发展的？

苏宁礼遇升级“互联网+福利”新模式，又一巨头闯进企业

看完最新IDC数据后，发现儿童电话手表品牌只有小天才和

直击用户痛点！新品Reno2摄像防抖功能不输GoPro

Wolfspeed 与致瞻科技采用SiC技术提升燃料电池汽车性

SiC MOSFET 在电动汽车领域的应用

半导体所4项科研成果入选国家“十三五”科技创新成就

百度网盘不买会员就限速遭用户吐槽，上线单次收费功能

中国特供大众纯电车，每年至少一款新车，大众的未来转型计

真的壕！韩国5G用户已达106万，85%订购顶级套餐