玩转Spark Sql优化之使用堆外内存（二）

前言

承接上文，本文演示使用堆外内存及参数设置。

提到堆外内存，必须先去提到在yarn申请资源的单位，容器。在Spark on yarn模式中，一个容器到底会去申请多少内存资源是由堆外加上堆内两块内存决定的。

yarn的配置项里一个容器可以申请多大内存由yarn.scheduler.maximum-allocation-mb决定。而Spark当中则有

spark.executor.memoryOverhead,spark.executor.memory,spark.memory.offHeap.size

spark.executor.pyspark.memory,四个参数决定，也就是这四个参数相加的和不能大于yarn.scheduler.maximum-allocation-mb

的值(如果不使用pyspark可以忽略spark.executor.pyspark.memory此参数)。

三个参数：

1. spark.executor.memory: spark提交任务时指定的堆内内存。

2. spark.executor.memoryOverhead:spark堆外内存参数，内存额外开销，默认开启，默认值为spark.executor.memory*0.1并且会与最小值384mb做对比，取两个值较大的值。

3. spark.memory.offHeap.size:堆外内存参数，spark中默认关闭，

需要将spark.memory.enable.offheap.enable参数设置为true

测试参数控制

修改对应yarn参数配置，yarn.scheduler.maximum-allocation-mb修改为4G。

提交spark on yarn任务并指定参数,故意将

spark.executor.memoryOverhead+spark.executor.memory+spark.memory.offHeap.size 申请的资源大于4G

spark-submit --master yarn --deploy-mode client --driver-memory 1g  --num-executors 3 --executor-cores 4 --conf  spark.memory.offHeap.enabled=true --conf spark.memory.offHeap.size=2g  --executor-memory 2g --queue spark --class com.atguigu.sparksqltuning.SMBJoinTuning spark-sql-tuning-1.0-SNAPSHOT-jar-with-dependencies.jar

堆内内存申请为2g,spark.memory.offHeap.size堆外为2g,

spark.executor.memoryOverhead默认值2g*0.1在与384mb比较取最大值这时为384mb，三个参数相加大于4G，所以这时会提示错误

这时可修改参数，重新提交

spark-submit --master yarn --deploy-mode client --driver-memory 1g  --num-executors 3 --executor-cores 4 --conf  spark.memory.offHeap.enabled=true --conf spark.memory.offHeap.size=1g  --executor-memory 2g --queue spark --class com.atguigu.sparksqltuning.SMBJoinTuning spark-sql-tuning-1.0-SNAPSHOT-jar-with-dependencies.jar

堆外内存参数

spark.memory.offHeap.size和spark.executor.memoryOverhead两个参数都是控制堆外内存大小，在3.0之前的版本

spark.memory.offHeap.size此参数包含于spark.executor.memoryOverhead内也就是spark.memory.offHeap.size的参数值应小于spark.executor.memoryOverhead的参数。而到了3.0之后两块内存互相独立了，不再是包含关系。

查看2.4.5和3.0.0的yarn申请源码。

使用堆外内存缓存

import com.atguigu.sparksqltuning.MemoryTuning.CoursePay
import org.apache.spark.SparkConf
import org.apache.spark.sql.SparkSession
import org.apache.spark.storage.StorageLevel
object OFFHeapCache {


   def main(args: Array[String]): Unit = {
       val sparkConf = new SparkConf().setAppName("test")
       val sparkSession = SparkSession.builder().config(sparkConf).enableHiveSupport().getOrCreate()
       import sparkSession.implicits._
       val result = sparkSession.sql("select * from dwd.dwd_course_pay ").as[CoursePay]
        result.persist(StorageLevel.OFF_HEAP)
       result.foreachPartition((p: Iterator[CoursePay]) => p.foreach(item => println(item.orderid)))
        while (true) {
     }
   }
}

提交yarn任务查看Storage内存消耗

结论

何时使用堆外内存。堆外内存不受JVM垃圾收集器机制管理，有助于GC的开销，当需要缓存非常多GB的数据时可以考虑使用堆外内存，将数据缓存的工作交给堆外降低Java垃圾收集器带来的压力。让JAVA GC专心为应用程序计算工作，缓存交给堆外。

大数据和云计算的关系

大数据项目架构

大数据HBase原理

大数据技术生态体系

大数据面试题整合

展开阅读全文

页面更新：2024-05-21

标签：内存最大值上文开销缓存前言容器也就是垃圾参数两个关系数据工作资源科技

1 2 3 4 5

玩转Spark Sql优化之使用堆外内存（二）

使用Change Stream实时同步MongoDB数据（下）

AngularJS 表达式

javascript中的继承方式

前端面试js继承方式及其优缺点

Java TreeMap源码解析

JVM GC导致的shuffle文件拉取失败

Web Services 平台元素

传紫光展锐完成新一轮53.5亿融资，2021年底申报科创板

TCL成立两家半导体公司，正式开启“造芯”之旅

芯片供应雪上加霜，旭化成放弃对旗下因火灾受损晶圆厂的修复

希捷违反对华为出口禁令？传美国商务部已展开调查

3年砸1000亿美元扩产？明年将暂停价格折扣？台积电回应来了

砸200亿美元建厂发力晶圆代工，英特尔要与台积电三星正面竞争

车厂太难了！瑞萨宣布4月下旬将停供车用芯片

美议员要求升级对中芯国际制裁，欲阻止其获得DUV光刻机等设备

使用Change Stream实时同步MongoDB数据（下）

英特尔重启晶圆代工业务，恐将加剧中美科技战？

24.2亿元收购欧菲光两项资产，闻泰科技即将进入苹果供应

尚硅谷大数据-数仓图书版权输出中国台湾

SpringMVC课程之JSR303数据校验

发力5G平板市场，品网科技首发展锐5G平板解决方案

数据库的隔离级别

内存溢出与内存泄露

Doris从理论详解到千万级数据量场景使用（一）

IPFS分布式存储市场持续爆发，西部数据创新存储架构如何