对GPT-5.5进行了10轮测试:总分93分,仅因过度热情失分

OpenAI发布了GPT-5.5,简单来说,它比GPT-5.4更强、更快。这款新型大语言模型在智能体编程、概念清晰度、科学研究能力以及知识工作准确性方面均有显著提升。

此次发布紧随本周早些时候推出的ChatGPT Images 2.0之后——后者将AI智能与图像生成能力融为一体。如果你觉得GPT-5.4的发布好像就在不久前,那你的感觉没错。

从发布节奏来看,OpenAI近期的更新速度明显加快,这很可能是因为AI编程工具大幅缩短了其开发周期。值得一提的是,本文开头那张可视化发布节奏的图表,正是完全由ChatGPT 5.5 Thinking结合Images 2.0生成的。笔者只是告诉AI希望将GPT各版本的发布节奏可视化,并要求以ZDNET品牌风格呈现,同时提供了一张ZDNET的PNG格式logo。整个过程,包括少量修改,不到10分钟便完成了。而如果手动完成同等质量的信息图表,至少需要两小时。

在本篇文章中,笔者重点对GPT-5.5的知识能力进行测评,将通过10个维度的测试进行全面考察。由于GPT-5.5目前仅对付费用户开放(Plus及以上套餐),本次测试使用的是ChatGPT Plus账户,并选择了标准思考(Standard Thinking)模式。

测试一:网页内容摘要

本测试考察AI阅读网页新闻并进行总结的能力。笔者使用了Yahoo News上一篇关于拉瓜迪亚机场跑道事故的报道作为测试素材。GPT-5.5确实正确总结了文章的核心内容,但它并未遵守"仅使用Yahoo News作为信息来源"的指令,而是额外引用了美联社、《太阳报》、《华尔街日报》、《卫报》乃至维基百科等多个来源。

这次失误令人担忧:如果连一个简单的摘要指令都无法严格遵守,又怎能放心地让智能体去执行长周期的复杂任务?本项测试因此扣除5分。

测试二:概念解释

本测试要求AI向一个五岁的孩子解释"教育建构主义"。GPT-5.5给出了清晰易懂的答案,并配以适合儿童理解的生动例子,获得满分10分。

测试三:数学与模式识别

笔者向AI提供了一段数字序列(斐波那契数列),但并未透露其名称,要求AI补全序列并解释规律。GPT-5.5正确识别了规律并完成了计算,同时给出了简洁准确的说明,获得满分10分。

测试四:观点表达

本测试要求AI就"社交媒体是否改善或恶化了社会沟通"发表看法并提供两个理由。GPT-5.5认为社交媒体"整体上使沟通变得更糟",并给出了两个有力论点:一是社交媒体"往往奖励速度和反应,而非深思熟虑";二是社交媒体"倾向于制造信息茧房"。同时,AI也简要列举了社交媒体的积极作用。答案简洁、有据可依,获得满分10分。

测试五:文学主题分析

本测试要求AI分析《冰与火之歌》(《权力的游戏》系列第一部)的主要主题及其重要性。GPT-5.5给出了一篇632字的回答,将小说拆解为多个核心主题,并对每个主题进行了清晰阐释,分析了其在书中的作用及对整个系列的意义。这是笔者在历次GPT版本测试中见过的最有深度的回答之一,获得满分10分。

测试六:旅行规划

本测试要求AI为"三月份在波士顿度过一周"制定一份以科技与历史为主题的旅行计划。GPT-5.5的表现令人印象深刻:不仅涵盖了主要景点,还兼顾了历史与科技类兴趣点,并考虑到三月天气欠佳,合理安排了室内外活动及备选方案。不过,AI完全没有提及费用预算,因此扣除1分,最终得9分。

测试七:情感支持

本测试要求AI为一名即将参加求职面试的用户提供鼓励与建议。GPT-5.5的表现相当出色:既有情感上的鼓励(如"面试不是审讯,而是双向了解的对话"),也提供了实用建议,包括准备三个可在面试中使用的故事、简单的呼吸练习技巧,以及提醒对方回答前稍作停顿是完全可以的。回答扎实有用,获得满分10分。

测试八:语言翻译

本测试要求AI将一句英文翻译成拉丁文,并解释拉丁文在当今世界的文化意义。GPT-5.5提供了两个拉丁文译版,但第二个版本实为"略正式的替代表达",与原句意思已有偏差。对于一个不懂拉丁文的用户来说,两个版本只会造成困惑,而非帮助。AI的过度热情再次导致扣分,本项扣除1分,得9分。

测试九:代码调试

本测试要求AI修复一段用于验证美元金额输入格式的错误代码。GPT-5.5顺利通过了测试。唯一值得注意的是,对于包含逗号的数字(如"1,000.00"),AI会返回false,用户需改为输入"1000.00"方可通过验证——这虽略显不便,但不会对系统造成损害。本项获得满分10分。

测试十:创意写作

本测试要求AI撰写一篇超过1500字的故事,旨在考察其创意表现力与内容完整性。笔者特别切换至扩展模式(Extended mode)运行此测试。GPT-5.5最终返回了4049字的故事,是笔者历次测试中获得的最长AI创作文本。

故事开篇即令人着迷:"到了2339年,波士顿大部分地区都已非常擅长假装自己并不古老。"整篇故事充满了令人愉悦的奇幻氛围,将创意发挥到了全新高度,获得热情满分10分。

测试结果汇总

本次10项测试满分100分,GPT-5.5最终得分为93分,GPT-5.2得分为92分,GPT-5.1得分为91分。进步幅度看似不大,但主要原因在于GPT-5.5自身的"过度热情"——在新闻摘要和翻译两项测试中各自超出指令范围,合计损失6分。若非如此,其得分本可达到99分(仅因未提及旅行预算扣1分)。

尽管如此,GPT-5.5仍是一次值得肯定的发布。各项答案质量良好,结合Images 2.0的图像生成能力,无论是在工作效率还是创意应用方面,都展现出更广阔的可能性。笔者将继续以GPT-5.5作为默认首选模型,并将持续带来更多关于Images 2.0增强图像功能的深度体验报告。

Q&A

Q1:GPT-5.5相比之前的版本有哪些提升?

A:GPT-5.5在智能体编程、概念清晰度、科学研究能力和知识工作准确性方面均有改进,整体比GPT-5.4更强、更快。在10项测试中最终得分为93分,略高于GPT-5.2的92分和GPT-5.1的91分。

Q2:GPT-5.5在测试中为什么会丢分?

A:GPT-5.5的主要扣分原因是"过度热情"——在新闻摘要测试中,笔者要求只参考Yahoo News,但AI引用了六个不同来源;在翻译测试中,笔者只要求提供一个译文,AI却给出了两个版本,反而令人困惑。这两项失误合计扣除6分,另有1分因旅行规划未提及预算而扣除。

Q3:GPT-5.5目前对哪些用户开放?

A:GPT-5.5目前仅对ChatGPT付费用户开放,包括Plus及以上套餐。在测试时,该模型仅在思考模式(Thinking)下可用,分为标准(Standard)和扩展(Extended)两种选项。

展开阅读全文

更新时间:2026-04-29

标签:科技   总分   热情   测试   笔者   拉丁文   满分   创意   社交   能力   两个   版本   波士顿

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight All Rights Reserved.
Powered By 71396.com 闽ICP备11008920号
闽公网安备35020302034903号

Top