Docker避坑指南：为啥应用使用内存没有超，却还是被OOM？

上一篇 Docker内核技术原理（八）之Cgroup内存限制文章中介绍了，如何通过cgroup现在容器内存占用。但在生产环境中却遇到一个问题：容器的内存占用RSS没有超，但却出现了OOM。如下图所示，最上面的绿线代码总的内存限制是7G，但RSS的才使用不到4G便出现了OOM，导致容器重启。

细心的童鞋可能发现，我这里说应用内存占用使用的是RSS，但实际上，应用的使用的内存占用，除了RSS以外，操作系统内核态维护的pagecache也算到了应用总的内存占用了。关于RSS请参考我之前发的：如何查看一个进程的内存占用。关于page cache我后续文章再详聊，这里只要知道它是操作系统为了加速磁盘读写做了一层缓存。当容器里面的应用程序读写文件的时候，就会先读写缓存，然后再异步读写磁盘。

其实我们可以通过之前文章中介绍的cgroup监控分别查看cache和rss的内存占用。

#cat memory.stat     
cache 4194889728  
rss 44

由于cache的是内核维护的，如果同一个文件被不同的程序读取了两次，只会缓存一次，那么这里就存在一个问题，这个缓存的内存占用算谁的？这里内核做了一个简单处理，谁先第一次读，就算谁的，这样先读文件的程序就会吃亏点，后读文件的进程就可以搭车蹭饭。但这只是统计的问题，无伤大雅。

问题的关键在于，这部分内存的管理并非是cgroup控制的，我们知道page cache通过水位线、脏页比例结合LRU控制内存的申请和释放行为，并不受cgroup控制。当cgroup内存总限制的比较小的时候，而此时物理机内存比较充裕，会导致大量page cache驻留在内存中，应用可用的内存就变得非常少，很容易导致OOM。RSS内存不足的时候，也无法自动通过cgroup释放page cache。

我们后来在自己的生成环境做了两个设置才暂时解决了这个问题，第一是调低了水位线，控制page cache的内存占用，第二是每天凌晨的时候，会执行一次drop cache的动作，这个动作会对性能造成影响，建议在业务低峰期执行。具体命令如下：

# sync; echo 1 > /proc/sys/vm/drop_caches

在内核4.2版本后，增加了per-cgroup的脏页平衡，在进行脏页平衡时，同时计算全局的脏页比例和进程所在cgroup的内存脏页比例，只要超过其中的任意一个，就需要进行脏页回写。如下图所示：

展开阅读全文

页面更新：2024-03-30

标签：内存无伤大雅水位缓存内核磁盘容器进程比例操作系统动作环境文件指南程序文章科技

1 2 3 4 5

Docker避坑指南：为啥应用使用内存没有超，却还是被OOM？

Docker内核技术原理（十二） root目录怎么就发生了切换

Docker内核技术原理（十一）cgroup磁盘限速

k8s从入门到精通（一）：kubeadm安装k8s集群

kubernetes面试题：为啥一个Pod里面搞多个容器？

容器开发面试题：简述OCI镜像格式，回答overlay你就挂了

不吹牛，50行Go代码，编写一个简单的容器

kubernetes面试题：ReadWriteOnce类型的PV，只能挂载一个Pod吗？

k8s从入门到精通（五）：一文搞定 kubectl 常用命令

kubernetes运维面试题：k8s为啥引入startup probe探针

kubernetes运维面试：Pod起不来，你怎么排查问题的？

Dockerfile踩坑，一行命令增加几百兆空间

有个问题你可能忽略了：SNAT 怎么处理回来的包？

kubernetes生产环境安全七条建议

k8s从入门到精通（四）：架构分析

kubernetes经典面试题：为啥k8s默认禁用了swap？

Docker内核技术原理（十二） root目录怎么就发生了切换

Docker内核技术原理（十一）cgroup磁盘限速

kubernetes面试题：为啥一个Pod里面搞多个容器？

容器开发面试题：简述OCI镜像格式，回答overlay你就挂了

不吹牛，50行Go代码，编写一个简单的容器

kubernetes生产环境安全七条建议

CES2021：那些极具未来感的黑科技产品

容器开发面试题：简述containerd拉镜像过程

容器高级面试题：如何给一个目录设置quota（配额）

Go避坑指南（一）：for-range 可变性