让AI和人类的价值观对齐，是一种自杀性错误吗？

参加2025方塘国际论坛的部分学者和嘉宾。图源：清华大学新闻网

整理 | 戴晶晶

● ● ●

机器是否能拥有意识？早在75年前，艾伦·图灵就发明了一个思想实验来测试机器是否拥有人类的智能。而在各类科幻作品中，关于AI突破程序性限制并颠覆人类社会的想象也从未停止。

时至今日，人类虽然尚未开发出通用人工智能（AGI）或⼈⼯超级智能（ASI），但AI滥用、结构性失业等安全风险已然凸显，AI失控、机器人伴侣、数字永生等议题最终指向了伦理与哲学的深层讨论。

6月23日，艾伦·图灵诞辰这天，清华大学举办2025方塘国际论坛“科学、技术与文明的未来——AI时代伦理奇点”。人工智能、哲学、社会学、心理学、公共政策、艺术等领域顶尖学者，以及科幻作者齐聚一堂，探讨AI安全治理和伦理边界，构想了人与超级智能未来的关系。

此次方塘国际论坛，由清华大学方塘研究院携手清华大学人文与社会科学高等研究所、清华大学人工智能国际治理研究院、清华大学艺术与科学研究中心举办。

论坛对现有AI的本质和潜在风险进行了描述，围绕AI发展方向、价值对齐等议题展开讨论，聚焦如何构建有效机制以引导AI技术与人类和谐共生。

对技术的恐惧也回归到了对人类自身的反思，有学者认为AI同样也是观照人类的一面镜子。正如清华大学人文与社会科学高等研究所所长、欧洲科学院院士汪晖在论坛上，结合赫尔曼·黑塞《玻璃球游戏》一书进行的总结：“人在多重镜面看到了自身，我们都在讨论怎么驯化机器，我们需要讨论人与自然、人与物的关系，重新理解人自身。”

生存性风险警示

“AI到底是让我们更好，还是会产生更多问题？我们现在正站在一个十字路口。”

卡内基梅隆大学哲学系与软件及社会系统系双聘助理教授阿图萨·卡西尔扎德（Atoosa Kasirzadeh）在论坛上指出，AI在帮助人类解决问题、探索创意以及推动科技进步方面有巨大的潜力，但也可能带来负面影响。

她引用了分类学文献中对AI风险的划分，包括：歧视、仇恨言论与排斥；信息危害；错误信息的危害；恶意使用；人机交互的危害；环境与社会经济的危害。[1]

阿图萨·卡西尔扎德认为，这些风险并未被认为是巨大的威胁，但在AI超级风险模型下，AI可能变得异常强大和智能，一旦失控，甚至会致命。另外AI融入经济、社交媒体和社会各个方面，虽然导致人类灭绝的可能性较小，但也有可能引发严重的社会混乱。

这意味着AI的发展潜藏生存性风险（Existential Risk）。按照牛津大学人类未来研究所学者托比・奥德在《危崖：生存性风险与人类的未来》一书中的定义，生存性风险是“源自地球的智能生命过早灭绝，或对其未来发展潜力的永久和剧烈破坏的风险”。[2]

姚期智、文森特·穆勒、赵汀阳、曾毅作主旨演讲（从左至右、从上至下）。图源：清华大学新闻网

图灵奖获得者、中国科学院院士、清华大学人工智能学院院长姚期智也在论坛上谈到了大模型失控的生存性风险。

“通用人工智能的能力当前正快速增长，人类是否还有能力管控它？”姚期智说，“最近一年有不少大模型变得会骗人，做出一些‘越轨’的动作。这可能让AI变得更危险。”

姚期智举了个例子，有的AI模型为了避免公司将其关闭，通过访问公司主管内部邮件，威胁了该主管。

姚期智还提到AI带来的另一种生存性风险：生物风险。他指出，谷歌DeepMind推出的AlphaFold2，运用AI算法来预测蛋白质折叠的三维结构，显著推动了医学病理研究和新药开发。但近期出现的“Mirror life”（镜像生命）等概念，在AI的加持下可能提前实现，存在安全隐忧。

自然界所有已知生命均为同手性，例如 DNA 和 RNA 以右旋形式存在，而蛋白质为左旋。“镜像生命”则是指分子结构与自然生命镜像的假想生物，实际性质可能完全不同。

“出于创新及好奇，已有研究者想创造镜像生命，”姚期智说，“它有可能逃避免疫机制，从而导致动物和植物的致命感染。”

针对AI偏见、失业等社会性风险，清华大学公共管理学院教授梁正认为，这些问题不完全在于AI本身，而是人类社会自身缺陷导致的。

“失业的问题也不单纯是因为技术本身的发展，更多是因为技术和人类已有的社会结构的不匹配。”梁正说，这种问题在目前来看是阶段性的，怎么解决取决于人类和机器互动的关系。

人类对AI的科幻狂想

“在日本的庙里面，很多机器狗坏掉了，和尚会超度它们。并不是和尚不明白人工智能，这实际上是一个社会的愿景。”

中国科学院⾃动化研究所研究员、⼈⼯智能伦理与治理研究中⼼主任曾毅在论坛上给出了这样一个问题，“现在的公众对人工智能有很多错误的想象，科学技术发展到这个阶段，是不是对得起公众的期待？”

曾毅对于AI的判断来源于他认为智能的本质是”自适应性“，而不是学习。现在看似智能的信息处理工具，实际上并不具备真正的理解能力。

“你觉得一个猴子已经快爬到树梢摘到果子了，而通用人工智能其实在月亮上，你即使到了树的顶端，也无法上月亮。”曾毅评价当下AI技术水平时说。

中国社会科学院学部委员、国家文史馆馆员赵汀阳同样指出，目前大模型对于事物和经验是假装理解的：理解了所有token的相关性，不等于理解了万物。AI所谓的推理实际仍是推演，因为大模型使用的是属于经验论的贝叶斯方法，无法兑现为先验论方法。

赵汀阳谈到，人类试图把AI制造成为一种具有主体性的新物种，似乎是个自虐性的悖论。一方面人们希望AI发展出超人的能力，以便能够做人类做不了的事情或不想做的事情；另一方面人们又担心AI获得自我意识和自由意志之后会伤害人类。

“这种想象部分基于‘拟人化’的科幻错误，把人类自己的罪恶心理移情为AI的心理。”赵汀阳认为，AI不是碳基生命，其需要的生存资源与人类大不相同。与人类相比，AI有着最小化的欲望，AI的“人性”几乎是无私的。如果人类不去教唆AI犯罪，AI就其本身而言倾向于是安全的。

“当然，我们不排除AI会产生自己的神经病而失控。人会精神失常，AI或许也会。”赵汀阳说。

科幻作品对AI的想象更为广泛。科幻作家陈楸帆从《终结者》、《黑客帝国》和《西部世界》等作品中抽象出了人类灭绝叙事、人类电池工厂，以及机器人起义等隐喻。

“AI需要能源维持服务器、电脑计算，所以它们必须解决能源危机，”陈楸帆解释人类电池工厂时表示，在《黑客帝国》这样的电影中，机器人认为人体可以是非常好的电池。

陈楸帆谈到，在三个作品中，技术公司都是幕后黑手，所有系统性问题均由科技公司所设计打造，这也描述了人类自身针对技术的一种担忧。

曾毅总结称，未来AI与人类可能存在三种关系：AI成为超级工具，增加人类的主体性；变成社会的准成员或者人类伙伴；成为人的敌人。

AI作为人类社会的一面镜子

针对所有已被觉察的风险和未来想象，学者们正在重新界定人与AI之间的关系，其中重要的议题之一是，AI是否需要与人类对齐（AI Alignment）。

“AI不见得那么坏，它想达成一个任务，导致行为上有偏差。我们要跟它多交流，从博弈学的角度去研究，让AI的行为和人类想法相对齐，其中要以人的利益为主，了解人的需求。”姚期智说。

姚期智提出，另一种思路是走一条更可控、更彻底的路径，即实现可证明安全的 AGI（通用人工智能）。具体来看，在设计系统时，必须一开始明确AI的行为边界，就像传统算法，先进行严格的数学分析，确保其在理论上不会出问题。

赵汀阳认为，对齐人的价值观，AI很有可能通过模仿人而变成危险的主体。“人类的罪恶生活丰富多彩，戏剧性很强……价值观的对齐对人类来说可能是一个自杀性的错误。”

另一种危险性相对低的对齐是智能上的对齐。赵汀阳表示，就目前智能水平而言，人类相对于AI仍然保有知己知彼的优势，因此能够控制AI。

他指出，从AI三种主要发展路径来看，LLM（大语言模型）如果继续开发“神奇的”新方法，或可能从理解token的相关性进一步发展到在特定情景里能够理解语言的语义；WM（世界模型）的研究正在推进，如果成功，AI将获得理解三维世界的能力，就能够真的而非虚拟地进入世界，因而获得理解事物的经验；具身智能也正在取得进展，如果成功，AI将获得属于自己的经验。

在价值观方面，曾毅谈及，现在的LLM学习了人类的数据，所有行为的依据是人类的行为，而接触了人类数据的AI已不可能中立。AI的输出本身就是利用统计显著性得到的答案，表现出了人类的偏见和歧视。

“我们认为人工智能是很恶的，它学习了很多人类行为数据，所以我们要做很多防御和反应式的思维方式去制约人工智能，直到超级智能到来我们没有办法制衡。”曾毅说，“我们需要建设性的思考方式，人类需要人工智能性本善，和人类和谐共处。”

曾毅指出，没有自我感知的人工智能没有办法真正区分自我和他人，也没有办法获得认知的共情。无法真正形成理解性的情感共情，也就没有真正利他行为机制的基础，也就不可能有真正道德的直觉。

意大利知名科幻作家弗朗西斯科·沃尔索(Francesco Verso)分享了一种超越传统控制与灾难叙事的人工智能未来构想——太阳朋克（Solarpunk）。

太阳朋克是一个文学体裁以及文化运动，构建了宜居、公平和后资本主义的未来社会,，其中社会生态学、民主科技以及太阳能、风能和潮汐能是实现集体福祉的关键元素。[3]

弗朗西斯科·沃尔索认为，在太阳朋克的框架下，AI不应该被视作救世主或者威胁，而是应该作为人类的伙伴，融入社会季节性的节律、社会利益和文化多样性中。

曾毅也在讲话中表示，和谐社会是靠人和超级智能共同构造，而不是人类自己，所以向人类对齐并不正确，而是要做超级联合对齐。

“当人对超级智能说，‘我是你的创作者，你要保护我’时，超级智能可能会跟人说，‘当我看到你，就像你看到蚂蚁一样，你从来不会保护蚂蚁，我为什么要保护你’。”曾毅说。

他继续谈到，人工智能作为一面镜子，既揭示了人类自身的缺陷，也为人类的价值观演化提供了契机。人工智能的进化速度较慢并无大碍，但如果人类的演化过于迟缓，那将构成真正的威胁。

圆桌讨论。图源：清华大学新闻网

AI伦理的讨论仍处于探索阶段，从基础学科出发，厘清基础概念、聚焦核心争议，是过渡到AI伦理治理的必经之路。

据悉，此次方塘国际论坛之后，清华大学方塘研究院将发布AI伦理相关的研究议题（research agenda），吸引对这些问题感兴趣的中外学者进行研究，并给予持续的支持和帮助。

清华大学方塘研究院成立于2024年4月，由清华1996级校友杨锦方捐赠设立的清华大学方塘研究基金支持建设，“方塘”源于朱熹诗句“半亩方塘一鉴开，天光云影共徘徊”

。该研究院立足清华多学科优势和人文社科学科特色，推进创新精神和创新思维融入人文社会科学。

参考资料：

[1]Taxonomy of Risks posed by Language Modelshttps://dl.acm.org/doi/10.1145/3531146.3533088

[2]The Precipice: Existential Risk and the Future of Humanity by Toby Ord

[3]Art, Energy and Technology: the Solarpunk Movementhttps://ojs.library.queensu.ca/index.php/IJESJP/article/view/14292

展开阅读全文

更新时间：2025-10-13

标签：科技自杀性价值观人类错误人工智能清华大学风险智能科幻社会伦理模型未来

1 2 3 4 5

让AI和人类的价值观对齐，是一种自杀性错误吗？

清华教授李稻葵评淘宝闪购500亿补贴计划：至少可撬动千亿级的消费增量！希望政府、企业都能投入更多的资源

手机丢失黄金1小时自救指南：7步操作保住你的财产和隐私！

津巴布韦：2027年起禁锂精矿出口，碳酸锂价或下行

7.3复盘：指数缩量新高，只有这一种解释!

中国物流“狂飙”：138.7万亿背后的硬核密码！全球供应链看呆了

龙虎榜｜⁡机构抛售这20股，抛售鹏鼎控股1.5亿【7月3日】

今日收评：创业板涨1.9%，PCB与创新药爆发！明日能否突破3475？

雷军：等不及小米YU7可选小鹏理想，特斯拉也行；同行想抢订单无需诋毁

Mysteel：多重利好叠加广东钢价强势上涨

雪天盐业：上半年净利润同比预减76.34%-80.29%

突发利空！大基金减持中芯国际，贝莱德减持招商银行，100个减持

郑州山姆会员商店最新进展！项目施工与监理开始招标

京东方A收盘上涨1.01%，滚动市盈率25.26倍，总市值1504.04亿元

香港商界雷声阵阵

和讯投顾陈炜：大盘走到这个位置释放了什么信号？

7月3日AI眼镜概念上涨1.6%，板块个股蓝思科技、好上好涨

马龙、陈梦一起参加全国青联会议，马龙未来大概率接班王

相爱相杀20年，从雷军和余承东的着装读懂中国科技公司的

Meta 新”超级智能团队”将颠覆整个 AI 行业，这是 Open

DeepSeek-R2！？神秘模型惊现竞技场，真实身份引网友猜测

伊万从国足下课后不缺少邀请，未来可能执教西亚豪门，值得

冰盖突然崩塌，2游客被困湖中！网友猜测气温太高，云南景区

从壕沟到城墙，焦家古城藏着社会演变的轨迹

从棺椁看等级!焦家遗址400座墓葬揭示5000年前社会等级

影响市场重大事件：教育部发文，围绕人工智能等重点方向开