常规性能调优RDD优化

1 RDD复用

在对RDD进行算子时，要避免相同的算子和计算逻辑之下对RDD进行重复的计算，如图2-1所示：

图2-1 RDD的重复计算

对图2-1中的RDD计算架构进行修改，得到如图2-2所示的优化结果：

图2-2 RDD架构优化

2 RDD持久化

在Spark中，当多次对同一个RDD执行算子操作时，每一次都会对这个RDD以之前的父RDD重新计算一次，这种情况是必须要避免的，对同一个RDD的重复计算是对资源的极大浪费，因此，必须对多次使用的RDD进行持久化，通过持久化将公共RDD的数据缓存到内存/磁盘中，之后对于公共RDD的计算都会从内存/磁盘中直接获取RDD数据。

对于RDD的持久化，有两点需要说明：

第一，RDD的持久化是可以进行序列化的，当内存无法将RDD的数据完整地进行存放的时候，可以考虑使用序列化的方式减小数据体积，将数据完整存储在内存中。

第二，如果对于数据的可靠性要求很高，并且内存充足，可以使用副本机制，对RDD数据进行持久化。当持久化启用了副本机制时，对于持久化的每个数据单元都存储一个副本，放在其他节点上面，由此实现数据的容错，一旦一个副本数据丢失，不需要重新计算，还可以使用另外一个副本。

3 RDD尽可能早的filter操作

获取到初始RDD后，应该考虑尽早地过滤掉不需要的数据，进而减少对内存的占用，从而提升Spark作业的运行效率。

想要了解更多关于大数据技术内容欢迎关注尚硅谷教育！

大数据项目架构

大数据和云计算的关系

大数据技术生态体系

大数据JUC面试题

大数据相关手写代码面试题（整合完整版）

展开阅读全文

页面更新：2024-05-18

标签：硅谷都会算子作业副本节点磁盘架构持久常规机制内存性能完整操作数据技术科技

1 2 3 4 5

常规性能调优RDD优化

玩转Spark Sql优化之提交参数控制（三）

web前端js框架有哪些

重装上阵 | 尚硅谷Vue新版视频教程发布

Native、PC寄存器

Hive之数据仓库

尚硅谷RocketMQ视频教程发布，集齐3Q横扫中间件

SpringMV内容HttpMessageConverter原理

MySQL之排序分组优化索引的选择

Spring容器初始化和解决循环依赖问题的分析

SpringBoot优缺点

JavaScript 数组Array相关的属性和方法

玩转Spark Sql优化之使用堆外内存（二）

使用Change Stream实时同步MongoDB数据（下）

AngularJS 表达式

javascript中的继承方式

重装上阵 | 尚硅谷Vue新版视频教程发布

Hive之数据仓库

尚硅谷RocketMQ视频教程发布，集齐3Q横扫中间件

玩转Spark Sql优化之使用堆外内存（二）

使用Change Stream实时同步MongoDB数据（下）

英特尔重启晶圆代工业务，恐将加剧中美科技战？

Arm发布AMRv9指令集：IPC性能大涨30%！可供应华为

24.2亿元收购欧菲光两项资产，闻泰科技即将进入苹果供应

Java高级技术Maven依赖的传递性

Tomcat系统架构分析