Docker内核技术原理（一）之namespace概述

Docker的空间隔离使用的是namespace（空间），它是内核提供的一种空间隔离，在一个空间下，每个进程看到的视图是一致的，相应的如果不在一个空间下看到资源视图是不一致的，举个例子，如果两个进程在同一个网络命令空间下，那么他们看到的网络信息（网卡、IP、路由等）是一样的，可以通过localhost的方式互相访问。常用的有6种namespace，在Linux 内核4.6之后又添加了Cgroup这namespace，5.6 之后又添加了时钟namespace。

Namespace	系统调用参数	隔离内容
UTS	CLONE_NEWUTS	主机名与域名
IPC	CLONE_NEWIPC	信号量、消息队列和共享内存
PID	CLONE_NEWPID	进程编号
Network	CLONE_NEWNET	网络设备、网络栈、端口等等
Mount	CLONE_NEWNS	挂载点（文件系统）
User	CLONE_NEWUSER	用户和用户组
Cgroup	CLONE_NEWCGROUP	Cgroup的根目录
Time	CLONE_NEWTIME	时钟

这里有个小细节，上面表格创建Mount Namespace的系统调用参数是CLONE_NEWNS，而不是CLONE_NEWMOUNT。从字面理解是创建一个命名空间的意思，这是由于历史原因导致的，因为Mount Namespace是第一个namespace，内核的开发者可能也没有预料到后续还有其它的namespace的加入，所以就先把CLONE_NEWNS给占用了。

可见，namespace的隔离其实并不充分，除了上面的隔离能力，其他的都一样。譬如，时钟在内核5.6版本之前，所有容器和操作系统都共享同一个时钟，如果修改了操作系统的时间，所有容器都时间都会变化。

namespace实现原理也非常简单，每个进程（task_struct）都有一个关于namespace的属性nsproxy，表示自己所属的namespace。

struct task_struct {  ... 
 /* namespaces */
struct nsproxy *nsproxy;
  ...
}

其中的nsproxy就是指向各种namespace的一个代理。如下所示：

当新进程被创建后会继承其父进程的namespace，这就是为啥一个容器里面的所有进程都共享namespace。在Linux集群上面，通过读取“/proc/进程ID/ns/”下的文件可以获取到每个进程对应的namespace。

展开阅读全文

页面更新：2024-03-05

标签：内核信号量都会用户组根目录视图时钟容器进程原理操作系统参数时间系统技术科技空间网络

1 2 3 4 5

Docker内核技术原理（一）之namespace概述

Serverless不是没有服务器

docker exec无法进入容器，咋办？

将kubernetes的推向更高的层级：OAM

k8s为啥引入一个Pause容器

Linux经典面试题：网卡接收数据后，经过几次拷贝才能到用户进程

梳理kube-proxy中iptables转发规则

http 重定向返回码 301 302 303 307 308 傻傻分不清

Linux经典面试题：如何查看一个进程的内存占用

Linux OOM的时候哪个程序会被干掉？

kubernetes经典面试：k8s健康检查是Pod维度还是端口维度

kubernetes经典面试题：简述Pod生命周期

华为宣布参加2020柏林国际电子消费品展览，宣布麒麟新芯片组

Apple Glass 可与其他设备进行连接，以进行准确的 AR 映射

一台售价近百万美元的音响有什么特殊的？

三星无线耳塞Buds Live 和 Plus的对比：谁更好？

docker exec无法进入容器，咋办？

k8s为啥引入一个Pause容器

Linux经典面试题：网卡接收数据后，经过几次拷贝才能到用

Linux经典面试题：如何查看一个进程的内存占用

中兴公司向全球输出的六项智能手机技术

俄罗斯准备在5G技术上与华为合作

OPPO 潜望镜相机技术可实现5倍光学变焦

小米公布 2021 年第三代屏下相机技术

Docker内核技术原理（六）之IPC Namespace

Docker内核技术原理（十）之联合文件系统