2025龙蜥操作系统大会召开 元脑KOS持续打造最AI的操作系统

11月17日,主题为“生态共融·智驱未来”的2025龙蜥操作系统大会在北京举行,浪潮信息作为龙蜥社区副理事长单位受邀参会。面向智能体带来的AI推理需求的爆发式增长,浪潮信息升级了基于龙蜥路线开发的元脑服务器操作系统KOS,通过在内存池化与分层、vLLM协同优化等方面创新,实现系统运行大模型时吞吐量提升20%以上,GPU带宽使用率提升50%,为智能体产业化发展提供更高效的操作系统底座。


大模型推理时代,服务器操作系统要AI原生化

会上,由中国智能计算产业联盟和电子四院主导撰写的《服务器操作系统发展报告(2025)》(以下简称为“报告”)正式发布。报告指出,“云+AI”正在重塑和加速服务器操作系统的发展,未来服务器操作系统必须同时满足高并发弹性调度与高效智能计算的双重目标,显著提升算力的使用效率与资源的自动化管理水平,才能满足指数增长的AI计算需求。

自2023年起,全球范围内用于AI推理的算力消耗已超过训练,且差距持续拉大。这一趋势反映了大模型商业化落地后,实际应用场景(如智能客服、内容生成、推荐系统)对推理算力的强劲需求。IDC预测,在中国,推理工作负载占AI服务器总负载的比例将从2025年的67%增长至2028年的73%。

与传统计算任务不同,AI推理具有高并发、低延迟、专用加速芯片多元异构、资源敏感等鲜明特征,这些特性要求操作系统要更加主动的理解AI工作负载,提供一个高效、安全、可扩展的AI运行环境,这不仅涉及操作系统在内核调度、内存管理、安全模型等核心技术的重构,更要求操作系统与TensorRT、vLLM等AI框架深度协同,形成软硬一体的高效推理栈。

龙蜥社区技术委员会副主席、浪潮信息系统软件产品部总经理苏志远认为,从长远来看,服务器操作系统必须面向AI原生持续演进。这场演进的本质,是服务器操作系统从被动响应资源请求的“管理者”,转变为能主动理解AI语义、协同异构硬件、优化端到端推理链路的“智能运行底座”,不仅需要更大级别的创新,也需要产业生态的合力,才能共同打造最AI的服务器操作系统。


元脑KOS全新升级,持续向最AI的服务器操作系统演进

操作系统向AI原生演进将是渐进式的,要根据大模型软硬件技术的发展,持续满足对异构算力环境的支持,对海量、多级存储的管理,对数据多态、跨模态巨量数据的管理,以及对各种新型融合网络架构的支持等等,解决AI在实际应用中面临的技术瓶颈。

此次元脑KOS升级主要针对AI推理当前面临的算力与数据搬运瓶颈,通过内核级优化,实现高效计算与快速I/O,将系统吞吐量提升20%以上,GPU间通信带宽提升50%。

■ 在算力层面,AI推理虽然高度依赖GPU、NPU、TPU等专用加速器,但并不意味着CPU仅能作为控制中心存在,这会带来算力资源的浪费。元脑KOS针对预填充和解码的计算特征不同,一方面通过元脑KOS和vLLM的协同优化,按需在CPU和GPU间动态调度解码任务,提升并行计算能力;另一方面将MoE模型的路由专家卸载到CPU端,在显存受限条件下仍可以支撑大模型运行。基于元脑KOS,企业级客户可在中低端AI算力平台上,实现轻量化AI推理方案的快速部署。

■ 在内存层面,大模型推理动辄占用数十GB显存,且其计算过程涉及稀疏激活、KVCache等复杂结构,传统通用内存分配策略难以满足效率需求。其中,KVCache作为推理过程中关键的性能资源,一向是优化的重点。元脑KOS基于CXL池化共享内存构建起KVCache分级存储,采用CXL共享内存代替RDMA实现集群间免网络的数据通信,可将首token生成时间降低10%,降低网络设备投入成本,同时通过CXL扩展内存容量将每GB内存成本降低20%;通过增加CXL池化内存层级可以使平均首token生成时间下降40%,KVCache完全复用时首token生成时间下降80%。

苏志远进一步表示,未来的操作系统需构建分层、智能的内存管理体系,打通CPU内存、GPU显存、持久内存乃至远程内存池的统一虚拟地址空间。在此基础上,引入模型感知的分配器,根据张量布局优化内存对齐与NUMA亲和性,并支持多个推理实例安全共享模型参数,显著降低冗余内存开销。


筑基智算,以龙蜥智算联盟构建开放协同AI新生态

大模型时代,操作系统要发挥关键生态位作用,做好上游芯片与下游AI应用开发商之间的纽带,实现AI能力的快速价值转化。在当前算力产业格局下,龙蜥社区的一个重要目标就是推动本土芯片快速融入到AI发展浪潮之中,实现本土算力从“可用”向“好用”的质变。

对此,浪潮信息牵头成立龙蜥智算联盟,汇聚AI芯片、服务器、操作系统、应用开发及高校等产业链各方,以“打造AI原生操作系统、形成开放兼容的AI生态体系、增强AI产业链竞争力”为目标,推动操作系统和AI融合发展,促进AI技术在各行业的落地应用。
浪潮信息在会上公布了联盟在性能优化、兼容易用、稳定可靠等方向的技术研究进展。性能方面,实现了基于CXL共享内存池的KVCache分级存储,提升了推理吞吐性能;兼容易用方面,联合国内GPU厂商在龙蜥OS上新增了超800个硬件KABI接口,建立了AI容器参考规范,并首批发布了7个AI容器镜像,为用户AI软件栈部署提供支撑;稳定可靠方面,围绕本土GPU故障信息提取等内容起草了标准规范,提升AI基础设施的RAS处理能力。

未来,依托龙蜥智算联盟等开源组织,系统厂商与本土芯片厂商将实现深度联动,聚焦异构计算、资源调度、RAS增强等关键领域持续创新,打造软硬件高效协同的AI Infra生态体系,支撑人工智能产业高质量发展。

2025龙蜥操作系统大会由中国计算机学会开源发展技术委员会、泛在操作系统开放社区、中关村科技园区朝阳园管理委员会(北京市朝阳区科学技术和信息化局)、中国开源软件推进联盟指导,龙蜥社区主办,阿里云、浪潮信息、Intel、Arm等25家理事单位共同承办。最新报告调研显示,在用户企业当前使用的服务器操作系统中,龙蜥生态相关社区版和商业版的市场占比近50%,装机量已突破 1000万。

展开阅读全文

更新时间:2025-11-19

标签:科技   操作系统   大会   内存   服务器   模型   高效   浪潮   生态   智能   芯片   资源

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020- All Rights Reserved. Powered By 71396.com 闽ICP备11008920号
闽公网安备35020302034903号

Top