JVM GC导致的shuffle文件拉取失败

在Spark作业中，有时会出现shuffle file not found的错误，这是非常常见的一个报错，有时出现这种错误以后，选择重新执行一遍，就不再报出这种错误。

出现上述问题可能的原因是Shuffle操作中，后面stage的task想要去上一个stage的task所在的Executor拉取数据，结果对方正在执行GC，执行GC会导致Executor内所有的工作现场全部停止，比如BlockManager、基于netty的网络通信等，这就会导致后面的task拉取数据拉取了半天都没有拉取到，就会报出shuffle file not found的错误，而第二次再次执行就不会再出现这种错误。

可以通过调整reduce端拉取数据重试次数和reduce端拉取数据时间间隔这两个参数来对Shuffle性能进行调整，增大参数值，使得reduce端拉取数据的重试次数增加，并且每次失败后等待的时间间隔加长。

代码清单4-1 JVM GC导致的shuffle文件拉取失败

val conf = new SparkConf()

.set(“spark.shuffle.io.maxRetries”, “60”)

.set(“spark.shuffle.io.retryWait”, “60s”)

想要了解更多关于大数据技术内容欢迎关注尚硅谷教育！

大数据项目架构

大数据HBase原理

大数据技术生态体系

大数据面试题整合

大数据的切片机制有哪些

展开阅读全文

页面更新：2024-03-23

标签：硅谷作业切片间隔架构清单次数原理机制生态错误参数文件时间数据技术科技

1 2 3 4 5

JVM GC导致的shuffle文件拉取失败

Web Services 平台元素

传紫光展锐完成新一轮53.5亿融资，2021年底申报科创板

TCL成立两家半导体公司，正式开启“造芯”之旅

芯片供应雪上加霜，旭化成放弃对旗下因火灾受损晶圆厂的修复

希捷违反对华为出口禁令？传美国商务部已展开调查

3年砸1000亿美元扩产？明年将暂停价格折扣？台积电回应来了

砸200亿美元建厂发力晶圆代工，英特尔要与台积电三星正面竞争

车厂太难了！瑞萨宣布4月下旬将停供车用芯片

美议员要求升级对中芯国际制裁，欲阻止其获得DUV光刻机等设备

历时四年，高通最终赢得反垄断诉讼！现有专利收费模式将继续

魅族18评测：软硬实力俱佳，体验暴爽的小屏真旗舰

自带“金钟罩”的远程办公协作利器，英特尔vPro平台揭秘

Arm公司公告的合作伙伴中没有华为

倒计时6天，“2021平板产业赋能教育装备创新峰会”即将举行

英特尔重启晶圆代工业务，恐将加剧中美科技战？

英特尔重启晶圆代工业务，恐将加剧中美科技战？

24.2亿元收购欧菲光两项资产，闻泰科技即将进入苹果供应

Java高级技术Maven依赖的传递性

Elasticsearch的核心原理

Tomcat系统架构分析

尚硅谷大数据-数仓图书版权输出中国台湾

SpringMVC课程之JSR303数据校验

尚硅谷《ClickHouse从入门到精通》视频教程发布

java技术教程IOC和DI

抛弃MIPS！龙芯自主指令系统架构正式发布：龙芯3A5000首发