对GPT-5.5进行了10轮测试：总分93分，仅因过度热情失分

OpenAI发布了GPT-5.5，简单来说，它比GPT-5.4更强、更快。这款新型大语言模型在智能体编程、概念清晰度、科学研究能力以及知识工作准确性方面均有显著提升。

此次发布紧随本周早些时候推出的ChatGPT Images 2.0之后——后者将AI智能与图像生成能力融为一体。如果你觉得GPT-5.4的发布好像就在不久前，那你的感觉没错。

从发布节奏来看，OpenAI近期的更新速度明显加快，这很可能是因为AI编程工具大幅缩短了其开发周期。值得一提的是，本文开头那张可视化发布节奏的图表，正是完全由ChatGPT 5.5 Thinking结合Images 2.0生成的。笔者只是告诉AI希望将GPT各版本的发布节奏可视化，并要求以ZDNET品牌风格呈现，同时提供了一张ZDNET的PNG格式logo。整个过程，包括少量修改，不到10分钟便完成了。而如果手动完成同等质量的信息图表，至少需要两小时。

在本篇文章中，笔者重点对GPT-5.5的知识能力进行测评，将通过10个维度的测试进行全面考察。由于GPT-5.5目前仅对付费用户开放（Plus及以上套餐），本次测试使用的是ChatGPT Plus账户，并选择了标准思考（Standard Thinking）模式。

测试一：网页内容摘要

本测试考察AI阅读网页新闻并进行总结的能力。笔者使用了Yahoo News上一篇关于拉瓜迪亚机场跑道事故的报道作为测试素材。GPT-5.5确实正确总结了文章的核心内容，但它并未遵守"仅使用Yahoo News作为信息来源"的指令，而是额外引用了美联社、《太阳报》、《华尔街日报》、《卫报》乃至维基百科等多个来源。

这次失误令人担忧：如果连一个简单的摘要指令都无法严格遵守，又怎能放心地让智能体去执行长周期的复杂任务？本项测试因此扣除5分。

测试二：概念解释

本测试要求AI向一个五岁的孩子解释"教育建构主义"。GPT-5.5给出了清晰易懂的答案，并配以适合儿童理解的生动例子，获得满分10分。

测试三：数学与模式识别

笔者向AI提供了一段数字序列（斐波那契数列），但并未透露其名称，要求AI补全序列并解释规律。GPT-5.5正确识别了规律并完成了计算，同时给出了简洁准确的说明，获得满分10分。

测试四：观点表达

本测试要求AI就"社交媒体是否改善或恶化了社会沟通"发表看法并提供两个理由。GPT-5.5认为社交媒体"整体上使沟通变得更糟"，并给出了两个有力论点：一是社交媒体"往往奖励速度和反应，而非深思熟虑"；二是社交媒体"倾向于制造信息茧房"。同时，AI也简要列举了社交媒体的积极作用。答案简洁、有据可依，获得满分10分。

测试五：文学主题分析

本测试要求AI分析《冰与火之歌》（《权力的游戏》系列第一部）的主要主题及其重要性。GPT-5.5给出了一篇632字的回答，将小说拆解为多个核心主题，并对每个主题进行了清晰阐释，分析了其在书中的作用及对整个系列的意义。这是笔者在历次GPT版本测试中见过的最有深度的回答之一，获得满分10分。

测试六：旅行规划

本测试要求AI为"三月份在波士顿度过一周"制定一份以科技与历史为主题的旅行计划。GPT-5.5的表现令人印象深刻：不仅涵盖了主要景点，还兼顾了历史与科技类兴趣点，并考虑到三月天气欠佳，合理安排了室内外活动及备选方案。不过，AI完全没有提及费用预算，因此扣除1分，最终得9分。

测试七：情感支持

本测试要求AI为一名即将参加求职面试的用户提供鼓励与建议。GPT-5.5的表现相当出色：既有情感上的鼓励（如"面试不是审讯，而是双向了解的对话"），也提供了实用建议，包括准备三个可在面试中使用的故事、简单的呼吸练习技巧，以及提醒对方回答前稍作停顿是完全可以的。回答扎实有用，获得满分10分。

测试八：语言翻译

本测试要求AI将一句英文翻译成拉丁文，并解释拉丁文在当今世界的文化意义。GPT-5.5提供了两个拉丁文译版，但第二个版本实为"略正式的替代表达"，与原句意思已有偏差。对于一个不懂拉丁文的用户来说，两个版本只会造成困惑，而非帮助。AI的过度热情再次导致扣分，本项扣除1分，得9分。

测试九：代码调试

本测试要求AI修复一段用于验证美元金额输入格式的错误代码。GPT-5.5顺利通过了测试。唯一值得注意的是，对于包含逗号的数字（如"1,000.00"），AI会返回false，用户需改为输入"1000.00"方可通过验证——这虽略显不便，但不会对系统造成损害。本项获得满分10分。

测试十：创意写作

本测试要求AI撰写一篇超过1500字的故事，旨在考察其创意表现力与内容完整性。笔者特别切换至扩展模式（Extended mode）运行此测试。GPT-5.5最终返回了4049字的故事，是笔者历次测试中获得的最长AI创作文本。

故事开篇即令人着迷："到了2339年，波士顿大部分地区都已非常擅长假装自己并不古老。"整篇故事充满了令人愉悦的奇幻氛围，将创意发挥到了全新高度，获得热情满分10分。

测试结果汇总

本次10项测试满分100分，GPT-5.5最终得分为93分，GPT-5.2得分为92分，GPT-5.1得分为91分。进步幅度看似不大，但主要原因在于GPT-5.5自身的"过度热情"——在新闻摘要和翻译两项测试中各自超出指令范围，合计损失6分。若非如此，其得分本可达到99分（仅因未提及旅行预算扣1分）。

尽管如此，GPT-5.5仍是一次值得肯定的发布。各项答案质量良好，结合Images 2.0的图像生成能力，无论是在工作效率还是创意应用方面，都展现出更广阔的可能性。笔者将继续以GPT-5.5作为默认首选模型，并将持续带来更多关于Images 2.0增强图像功能的深度体验报告。

Q&A

Q1：GPT-5.5相比之前的版本有哪些提升？

A：GPT-5.5在智能体编程、概念清晰度、科学研究能力和知识工作准确性方面均有改进，整体比GPT-5.4更强、更快。在10项测试中最终得分为93分，略高于GPT-5.2的92分和GPT-5.1的91分。

Q2：GPT-5.5在测试中为什么会丢分？

A：GPT-5.5的主要扣分原因是"过度热情"——在新闻摘要测试中，笔者要求只参考Yahoo News，但AI引用了六个不同来源；在翻译测试中，笔者只要求提供一个译文，AI却给出了两个版本，反而令人困惑。这两项失误合计扣除6分，另有1分因旅行规划未提及预算而扣除。

Q3：GPT-5.5目前对哪些用户开放？

A：GPT-5.5目前仅对ChatGPT付费用户开放，包括Plus及以上套餐。在测试时，该模型仅在思考模式（Thinking）下可用，分为标准（Standard）和扩展（Extended）两种选项。

展开阅读全文

更新时间：2026-04-29

标签：科技总分热情测试笔者拉丁文满分创意社交能力两个版本波士顿

1 2 3 4 5

对GPT-5.5进行了10轮测试：总分93分，仅因过度热情失分

DeepSeek“吓崩”智谱和MiniMax，但摩根大通认为：V4打破算力束缚，是行业利好

中国高轨SAR卫星亮相！三颗卫星即可追踪全球，五角大楼无计可施

曾将中国拒之门外20年，如今求合作无门，巴铁拿到天宫票

美国前财长发出警告：如果没人买美债，后果可能比2008年更严重

京城再落重磅靴子！发改委大佬落马，远比想的可怕，圈内集体沉默

3天狂飙37%后今天暴跌20%!从国资借壳变高位套现,到底发生了什么?

金价下跌！今日金价及各大金店黄金价格（2026/04/27 10：00）

节前是持股还是持币？周一收盘点评，辩证来看，好赛道要敢于持股

主力抢筹，4.27主力资金最大买入个股名单

苏州2岁半宝宝写字看呆网友，拿石笔在地上写字干净利落，妈妈：家中没人擅长书法

女子怀孕因孕吐吃不下东西，买200元水果，被丈夫严厉指责后选择引产，直言“及时止损了”

危害极大！央视曝光：原料成分全是假的，国家早已禁用，竟公然售卖给儿童

解码孩子拒学之谜，浠水县第二实验中学这场讲座干货满满

2026年泸州月子中心，提前多久预订最划算？

美女歌唱家沦为贪官情妇：收巨额财物，半生奢靡放纵，下场太解气

等不及青州下个新版本了？就来燕云X苹果线下联动活动吧！

应急处理能力：选园不容忽视的关键要素

版本之子预定？四幻神之外的最强答案，“义心都督弓”打天

云顶之弈S17新赛季第二周阵容版本较冷门成型即锁血

美股大型科技股盘前涨跌互现，苹果跌0.6%

人工智能+教育创新发展大会在黄河科技学院举行

开放世界技术卷王！燕云携手Apple二次联动，青州版本画面

人最重要的能力是什么？

别跑空啦！黔南州科技馆5月1日-25日闭馆维护

华工科技成交额超100亿元