为什么要在大数据中使用Lambda 架构？

全球数字化每天以指数级增长，每天至少产生2.5 千亿（2500000000000 百万）字节的数据。从电商数据、自媒体、社交媒体网站、各种传感器、卫星、移动互联网、GPS 、北斗信号等开始，数据生成无处不在。随着科技的增长，数据在承几何倍数的增加。

Lambda架构是一个非常棒的设计框架，适用于使用流处理和批处理方法的大量数据处理。流式处理方法是指在数据处于运动状态时对其进行动态分析，而不会将其保留在存储区域中，而批处理方法适用于当数据已经处于静止状态时，意味着将其保留在数据库、数据仓库系统等存储区域中。 Lambda可以有效地利用架构来平衡延迟、吞吐量、缩放和容错，从而同时从批处理和实时流处理中获得全面准确的视图。

我们可以将整个大数据处理划分为两个不同的数据管道。一种是当数据处于静止状态时，这意味着从不同来源收集的大量数据以分布式方式存储或持久化，然后进行分析以获得准确的视图，以便做出业务决策。我们也可以将其称为批处理数据处理管道。

另一个是流式数据管道，可以在数据移动时进行分析。这里在实时数据流上运行计算。Apache Spark 是一个出色的框架。Spark 将实时数据流分成小批量，将它们保存在内存中，然后进行处理，最后将它们从内存中释放到数据流中。由于内存计算，延迟显着减少。

Lambda 架构可以分为四大层。正如我们在架构图中所见，从数据摄取开始到表示/视图或服务层。

在数据摄取或消费层，我们可以包括 Apache Kafka、Flume 等，它们负责从各种/多个来源收集数据。根据批量、实时流或两者结合处理数据的要求，这里会发生分叉，如 Lambda 符号 (λ)。
在批处理层中，所有数据在运行任何计算之前立即累积。在这里我们可以实现容错和复制，以防止任何数据丢失。Hadoop分布式文件系统（HDFS）可以考虑在这一层。
Streaming 或 Speed 层负责处理实时流数据，而不会在存储区域中保留任何数据。在这里，数据的处理发生在运动中。当数据进入或以特定的短时间间隔进入时，该层激活，随后生成实时视图，该视图被推送到下一层（服务层）。
最终，在称为服务层的这一层中，我们从流层和批处理层获得组合结果，可以有效地利用这些结果来提供统一的所需结果。我们将始终定期或实时地从批处理层和流层获取更新。

Lambda 架构是一种可插拔架构，按需处理，我们可以插入和拔出各种数量的数据生成源。

展开阅读全文

页面更新：2024-05-07

标签：架构数据数据流批处理数据处理分布式视图实时管道框架准确内存状态区域方法

1 2 3 4 5

为什么要在大数据中使用Lambda 架构？

五个技巧让黑客无功而返

25日！25日！25日！皇冠陆放展车到店

过减速带要不要踩刹车

儿童出行别再忽视这些细节

25日！25日！25日！皇冠陆放展车到店

皇冠传承与变革间每次焕新都是自我突破

雨天养护知识了解一下

刹车失灵前的八大征兆有了就要赶紧修

汽车维修保养需注意四样事不要去做

汽车保养小知识刹车系统与故障排除

洗车太勤会伤车漆需杜绝八大毁车行为

开车小常识如何开车是更高效率的

开车小常识如何开车是更高效率的

汽车第一次保养要多少时间保养好咋看

8种驾驶误区影响汽车生活

美国与德国就“北溪-2”天然气管道项目达成协议

广州部分区域将全天禁止电动自行车通行

能源央企整县分布式光伏争夺战，国家电网正式宣布加入

国家电网、南方电网大手笔投建能源大数据中心，15省有哪

如何检查和预防燃气管道泄漏？一旦发现燃气泄漏怎么处理

能够帮助考生轻松走进考场的五个简单方法，欲转从速

美国第一次登月测试将全面收集数据，假人模特身上的仪器

燃气管道表前后设计没依据

首批月球样品信息和科学探测数据发布，可在线申请借出样

市场监管总局近期发布四项食品快速检测方法