Flink面前，SparkStreaming根本不是对手？

计算引擎是整个大数据生态非常重要的一环，根据业务需求不同，大数据计算又分为离线批量计算和在线实时计算。比如基于MapReduce的海量计算属于离线计算范畴；基于ClickHouse的计算属于实时在线计算范畴。Flink就是一款既支持离线批量计算又支持实时在线计算引擎，无疑大数据开发/架构师必须具备的核心技能。

大数据起源于批处理，在批处理上，Spark有很深的积累。为了应对全球大量业务的实时需求，Spark也推出了流计算解决方案——SparkStreaming。但Spark毕竟不是一款纯流式计算引擎，所以在时效性等问题上，始终无法提供极致的流批一体体验。

而后起新秀Flink的基本数据模型则是数据流，以及事件(Event)的序列。数据流作为数据的基本模型，可以是无边界的无限“流”，即一般意义上的流处理；也可以是有边界的有限“流”，也就同时兼顾了批处理。

Flink本身带有的优势：

Flink支持高吞吐、低延迟、高性能的流处理；

Flink支持高度灵活的窗口（window）操作；

Flink支持有状态计算的exactly-once语义；

Flink提供DataStreamAPI和DataSetAPI。

Flink相比于Spark而言还有诸多明显优势：

支持高效容错的状态管理，保证在任何时间都能计算出正确的结果；

同时支持高吞吐、低延迟、高性能的分布式流式数据处理框架；

支持事件时间（Event Time）概念，事件即使无序到达甚至延迟到达，数据流都能够计算出精确的结果；

轻量级分布式快照（Snapshot）实现的容错，能将计算过程分布到单台并行节点上进行处理。

Spark 和 Flink 两个项目的核心 API 基本一致，Spark 在机器学习整合方面投入更多，Flink 在流处理方面更赞（这也是大家在 2016 年开始关注 Flink 的原因），当然二者最大的区别，也还在于对流式计算的支持。这句的潜在含义就是 Spark 存在的道理：尽管 Spark Steaming 现在和 Flink 相比优势不显，但它的生态更为丰富，除了 Streaming 还有 SQL、MLib、Graphx 等，同时目前 Spark 对 Kubernetes 云原生技术的原生支持更加到位。

本文部分素材源自：知乎、DataFunTalk

展开阅读全文

页面更新：2024-05-26

标签：在线离线数据流批处理分布式边界范畴批量实时面前对手生态状态优势事件

1 2 3 4 5

Flink面前，SparkStreaming根本不是对手？

数年之后，我们还是止步数据仓库，不懂“用户画像”（下）

嫦娥五号挖土成功！中国航天里程碑，满分实现四个“首次”

世界首个AI水墨画家，将传统中国山水画推向全新方向

爆三星跃居全球半导体市值第一，第三代半导体迎来应用大爆发

SolarWinds供应链攻击曝出第二个后门

来聊一聊数据安全运营

中国的企业服务市场走过了第一个“五年规划”

重释行业规则？英特尔oneAPI Gold交付，配XPU策略

“四代AlphaGo”论文，将成为广泛使用的强化学习算法？

“量子霸权”元年，价值到底有多少水分？

《政务区块链发展白皮书（2020年）》发布

深圳将出台国内数据类首部综合性立法，拟公共数据共享负面清单

2021风“云”再起 IDC发布关于中国云计算的10大预测

金融科技深植银行基因，转型数字化经营

Kaggle大奖斩获其6：用于筛选和分析文献的paperai

手机又卡机了，真想砸了它！学会这几招，轻松应对手机卡机问

“分布式云”又上榜Gartner战略技术趋势啦

定价最低的两款5G手机，红米10X和iQOO Z1x，谁更具优势？

回首2020那些不该轻易忘记的数据泄露事件

OPPO K7对比上一代K5，除了处理器，其他貌似没什么优势啊

1599价位绝对王者—真我Q3 Pro，你绝对找不到它的对手

重磅：一批华为Hilink生态新品悄然上架啦！你知道吗？

半年亏损再超6亿，新东方在线这钱"烧"得值不值？

招股书干货来了！详解京东物流的六大优势

百度腾讯掷重金砸向中文在线，2021年的网文战场要“变天