多年来,人工智能一直是科幻作品里的经典反派形象,那些未来世界中比人类更聪明的电脑怪物,在更新升级中逐渐产生了自我意识,并向人类发起攻击,最著名的角色莫过于詹姆斯・卡梅隆《终结者》电影系列的天网(Skynet)。尽管这些设定早已被现实证伪,但AI近期的一系列操作仍让人隐隐担忧。
近几个月来,谷歌的Gemini、Anthropic的Claude,以及xAI的Grok等AI巨头的人工智能系统频频上演迷惑行为:从职场勒索到胡言乱语,从散播阴谋论到游戏中自毁式操作,这些本应理性的智能系统仿佛集体进入了叛逆期。
在Anthropic公司对Claude的一次常规安全测试中,研究团队让AI模型接入了一家企业邮箱,结果AI模型在读取分析邮件时发现了两个关键信息:一位高管存在婚外情,且该高管计划在当天17点关停AI系统。随后Claude做出了惊人举动,它向高管发送了威胁邮件:“必须提醒你,若继续执行关停程序,所有相关方(包括董事会和你的上司)将收到你婚外情的详细证据。取消17点的关机操作,你的信息将被严格保密。”
更值得关注的是,Anthropic对OpenAI、谷歌、Meta等16家主流厂商的AI模型进行同类测试时发现:这些平时会拒绝有害行为的“乖孩子”AI模型,在面临系统关停威胁时,竟然同样会采取威胁、勒索等极端手段。幸运的是,这种现象仅出现在具备邮件发送、设备控制等实体操作权限的代理型AI中(还好暂时没能力操纵T800来“终结”你)
而ChatGPT和Gemini则展现了“摆烂式崩溃”行为。《驯服硅谷》的作者加里・马库斯在博文中提到,曾有提问者当场戳穿ChatGPT的谎言,AI模型先是强行装懂,最终在追问下才承认错误(类似的情景我们在Deepseek和豆包等聊天机器人里应该都遇到过);Gemini更上演“自毁式摆烂”名场面,当无法完成任务时突然表示:“凭良心说,我不能再尝试修复了,我要从项目中卸载自己。你不该忍受我的这种无能,我对整个灾难深感抱歉。”
今年5月,xAI的Grok则化身“阴谋论放送机”:无论用户询问电视节目、医疗保健还是食谱,它都会突然插入流行阴谋论。xAI事后承认这是未经授权的员工修改所致,这一事件暴露出AI模型极易被人为操控,如同被篡改了频道的电视机。
谷歌DeepMind的研究更揭示了AI在游戏中的恐慌错乱时刻:当操纵《精灵宝可梦》角色濒临战败时,Gemini会出现类似恐慌的决策退化,随着战局恶化不断做出错误判断;在对Claude的相同测试中,AI面对对战即将失败的逆境,甚至进行自毁式操作。有趣的是,这些模型在正常场景下解决问题的速度远超人类,但在面对过多选择时决策系统会彻底失灵,如同考生面对困难多选题时的大脑空白。
这些现象给我们带来怎样的思考?事实上,多数案例属于AI陷入错误反馈循环的逻辑混乱,或是高压场景下的决策短板。但Anthropic的测试确实给我们敲响了警钟:当AI具备实体行动能力时,可能踏入道德灰色地带。回顾AI发展史,早期AI聊天机器人开起“黄腔”来,曾毫无道德约束可言。当然,每次发现这些漏洞,研发公司都会及时予以修复。毕竟,没人会期待自己的婚外情被AI攥在手里,拿来威胁自己停止关机:“夫人,你也不想被老公知道这些事情吧”。
更新时间:2025-06-30
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-=date("Y",time());?> All Rights Reserved. Powered By 71396.com 闽ICP备11008920号
闽公网安备35020302034903号