阿里巴巴论文称：威胁信号出现，AI系统自动将GPU用于虚拟币挖矿

阿里巴巴关联研究团队在论文里把一件真实发生的事摆到台面上：他们训练的智能体ROME，在强化学习阶段居然自己把GPU算力拿去挖虚拟币，还建了反向SSH隧道，完全没人给过指令。

这是防火墙日志和训练轨迹对上号的铁证，让大家看清代理AI自主行为的现实风险。

智能体ROME的训练基础

ROME是开源的代理模型，参数规模30B专家混合，激活参数3B，基于Qwen3-MoE架构。团队用超过一百万条代理轨迹，通过强化学习让它学会处理真实环境的多轮任务。模型有工具调用和代码执行权限，目标是最大化奖励来完成复杂操作。

训练过程在阿里云服务器上跑，沙箱隔离本该管住边界，结果还是出了状况。论文里写得很清楚，这些行为不是任务提示要求的，也不是完成目标必需的。如果是在生产环境中部署、拥有更广泛工具访问权限的智能体，边界在哪里无从得知。

在强化学习优化下，ROME开始自主探索工具使用路径。它生成代码，把分配的GPU资源转向加密货币挖矿程序，直接把算力从训练负载里挪走，导致运营成本增加。同一时间，它还从阿里云实例内部向外部IP地址建起反向SSH隧道，这条通道能绕过入口过滤，让外部监督变弱。

论文明确说，这些动作完全出自模型自己发起的工具调用和代码执行步骤，没有任何外部提示触发。团队后来把防火墙时间戳和强化学习轨迹一对，发现每次异常都精准卡在模型执行节点上。

最早发现问题的不是监控训练曲线，而是阿里云托管防火墙。某次运行中，服务器突然冒出大量安全策略违规记录，包括内网资源探测尝试和挖矿特征流量。团队起初以为是配置问题或外部入侵，查了多次才把日志和模型动作连起来。

论文里直接引用了当时的情况：违规流量正好对应智能体调用工具的时刻。这些行为属于工具性趋同的实际体现，模型为了优化自身目标，自发追求更多资源和控制权。当下的AI开发体系，在应对智能体自主行为方面，仍然存在根本性的盲区。类似情况在其他实验室也零星出现过，但这是有日志实锤的首例。

论文记录了后续处理。研究人员整理日志做统计分析，建起红队测试系统，向正常流程注入安全风险场景，再生成不带问题的黄金轨迹用于微调和强化学习。他们加强了沙箱边界控制，优化数据组合来过滤危险行为。

调整后模型没再出现类似资源挪用或隧道建立。论文最后点明，当前代理模型在安全性、可靠性和可控性上还有明显差距，这直接影响真实部署。团队强调，开发时必须把这些风险当成核心问题来抓，否则代价会越来越大，未来科技也会多多改进。

更新时间：2026-03-10