从ChatGPT之能谈应试之策

编者按：

新课改下，老教师的教学经验还有用吗？应对新高考，真的需要全然摆脱应试“套路”吗？ChatGPT的问世，带给了我们对教育的哪些思考？作为高考过来人、一直关注互联网与教育投资方向的孩子，发来了他的一些认识与感悟，现发于本公众号。愿对此类话题感兴趣的朋友拨冗垂阅，更期盼有机会与各位进一步交流沟通。

从业七八年时间里，无论是在美元基金还是腾讯，教育数字化的投资机会一直都是我重点关注的方向之一，今天也想借母亲的公众号来聊聊我对ChatGPT的认识，以及由此带来的对应试教育的一些思考，也算是抛砖引玉，希望能有更多教育行业的一线从业者们能够一起探讨这一新生事物会引发教育领域哪些变化。

首先，我尽可能简单地解释一下ChatGPT为什么有如此强大的能力。

据悉，ChatGPT的训练数据量超过3000亿个单词，涵盖了维基百科、书籍期刊以及海量被抓取的网页内容，并基于语言生成的训练目标，训练出了一个有着1750亿参数的语言模型来存储这些知识，我们称之为“大模型”，你可以把它理解成一个塞进了尽可能多知识且能以语言形式表达出来的智能大脑。为了让这个大脑里的知识能被人类所用，解决各种实际问题，ChatGPT的母公司OpenAI又引入了基于人类反馈的强化学习，可以简单理解为训练这个模型能够更好地理解人类以自然语言下的指令，并生成更详实、公正的答案，同时拒绝其知识范围之外的问题。因此，也就有了今天我们看到的可以写作文、写代码、回答各种问题甚至是陪聊你聊天的ChatGPT。

或许大家对前几年很流行的拍照搜题还有印象，这种抄作业神器本质上还是搜索引擎的逻辑，也就是去索引库里寻找和照片中题目一致或近似的答题结果，并不能灵活且针对性地给出答案。如果是个新题或者变型题，拍照搜题就两眼一抹黑了。

但ChatGPT则同时具备了知识和推理两种能力，并且有着非常良好的人机交互界面（对话式），这使得它能够应对各种题目并给出至少看上去合理的答案。甚至ChatGPT背后的大模型在训练数据规模大到一定程度之后，还会发生“涌现”现象（即模型的表现大幅提升），今天我尚不知道这种涌现背后的原因，但或许这也应了古人那句“书读百遍其义自见”吧。

我也曾试着让ChatGPT写过高考、模考作文，这个在母亲公众号此前的文章中做过分享，在经过一定引导调教之后效果还算可以。感兴趣的朋友可搜索微信公众号“研语灵言”查看“ChatGPT机器人将逼卷文科生？”“看ChatGPT写潍坊一模作文有感”等文章

我还让它做了中、英文的阅读理解题。大家不妨先来看ChatGPT做潍坊高三一模语文题的结果，原题可查看微信公众号“研语灵言”中的“潍坊高三一模考试语文真题及答案解析”：

再来看ChatGPT做2022年高考英语全国卷的结果：

从测试结果来看，中文阅读理解选择题做的一塌糊涂，英文阅读理解选择题则全对，这一方面可能和ChatGPT本身的训练数据96%是英文语料有关，同时也与中英文考试题本身的难度相关（毕竟我们的英文高考题可能也就是英美小学生的水平），当然，这也与ChatGPT本身的推理能力还不够强有关。

可这份测试结果引发了我对应试教育的另一个思考。大家可以看到，虽然ChatGPT在回答中文阅读理解选择题时大部分做错了，但也给出了自圆其说的选择原因，或许也不能完全算错，毕竟“一千个读者就有一千个哈姆雷特”，“理解”这事本无对错，只是变成了试题，那就必须分出个对错了。

再回到应试教育模式本身，无论是高考还是中考，其本质还是社会资源和阶层划分的一种选拔形式，而且是被几千年中国历史证明且被当下众多人认可的最优解。巴菲特和芒格的学生李录先生，就曾将以科举制为代表的“政治贤能制”称为人类历史上第二伟大发明。这种考试选拔机制，既能相对合理地分配社会资源，又保证一定的阶层流动性，让有学识的人在政治、经济、文化、科学等诸多领域发挥其才能。

回溯历史，封邦建国的周朝采取的是一种基于血缘传承的社会资源分配机制，如果你是一个穿越者不幸穿越到春秋时期，那在分封制+宗法制的周朝，你只能祈祷自己穿越到了一个贵族家庭的嫡长子身上。而到了战国时期，商鞅变法，以军功爵制打破了以血缘为基础的社会阶层承袭制度，才有了后来的“始皇吞二周而亡诸侯”。但如果你手无缚鸡之力，那穿越到秦国估计军功不一定能捞到，反而容易成为别人的军功。

再往后，汉代举孝廉，魏晋九品中正，其实依然是在探索更优的选拔机制，一直到隋唐科举制的应运而出，唐太宗才能感慨“天下英雄尽入吾毂中矣”，普通读书人也才有机会靠才学脱颖而出，“一日看尽长安花”。此后虽然屡有波折，但考试这种形式一直沿用下来，清末虽废了科举，可中山先生创立民国又讲五权分立，其一便是考试院的设立。及至现代，1977年恢复高考也依然被视作中华民族复兴最重要的一步之一。

可能也有人会说，考试就公平么？应该说，是最公平的，也是不公平的。

说其公平是因为它提供了一个社会上升通道，让普通人也能通过读书考试的方式改变个人及家庭的命运。范进同志苦读一生，一招中举便改变了全家的命运，而不是去喊王侯将相宁有种乎，玩走钢丝的买卖。就普通人来说，你我生在何处是“命”，能否遇到贵人，能否赶上时代的红利，能否抓到某个机会，那都叫“运”。小的是个人之运，大的是国运，然而只有中考、高考等考试才让许多人有机会逆天改“命”。

但考试它又不公平，否则黄巢也就不用落第之后写下那首“冲天香阵透长安，满城尽带黄金甲”，然后搅得李唐天下大乱了。黄巢这样的诗文才华，以及后来管理数十万人的优秀组织能力，竟然没考中科举，被逼得揭竿而起，一定是考试这种形式哪里出了点问题。

考试的出发点是分配社会资源、选拔优秀人才，所以选拔性考试的成绩分布必然是有分差的，所有人都加10分，等于都没提分，因为作为人口众多的发展中国家，我们的社会资源有限，中考、高考其实就如一个选拔器、分流器。

如何判定成绩呢？商鞅说，看砍的人头多少（军功）；汉武帝说，看孝不孝顺（举孝廉）；曹丕说，看家世品行（九品中正）；唐宋明清则看诗文、看八股（科举）。到了现代，考试成绩的判定越来越科学。

首先我们有丰富的学科设置，让大家尽可能学习更综合的知识；为了让大家学的东西变得可被考查，所以我们有统一的教学大纲、课程标准和教材，以确保所学的内容相对一致；然后考试院的专家们基于大纲或课程标准上不同知识能力点的重要性权重，出各地统一的试题并给出参考答案；最后找优秀的老师集中阅卷评分。这看上去已经很公平了，但问题是，对于很多非严谨推理型的学科，譬如语文，知识是灵活的，阅读和作文的理解也是灵活多元的，可参考答案是相对标准的，这就导致如果我们不按出题人的思路去理解阅读文本或作文题目，并按阅卷人可以接受的形式和答案去作答，那就不能满足参考答案里的得分点，难就难高分。

人文学科如何建立相对公平的阅卷标准，这是一个千古难题。唐代时就有行卷荐举之风，那首著名的“妆罢低眉问夫婿，画眉深巧入时无？”的诗名就叫《近试上张水部》，是唐人朱庆馀写给水部郎中张籍的行卷之作，以新妇自比，将张籍比作新郎，将主考官比作公婆，借以征求张籍意见，问自己是否符合主考官心意。到了宋代，甚至风气离谱到让米芾感慨“宋人多学权贵书”，不仅大家文风上要向考官靠拢，连作答的字迹都要模仿主考官，以至于欧阳修愤而谓之 “奴书”。

封建科举沿用的八股文，虽然让很多人不屑，但从王安石废诗赋取经义，再到明代逐渐形成严格固定的八股文格式，其一部分出发点就是标准化考试的评分标准，减弱评卷人个人好恶的影响。王安石将经义限定为考试内容，就如同我们今天的教学大纲和统一教材，尽可能把庞杂的知识限定到四书五经这样相对小的范围内，以方便出题考查。而八股文则如同今天被很多人鄙视但又屡试不爽的答题和作文模板、技巧，在相对统一化的条条框框里评价一个人学习能力的好坏，以公平大于个性发展也是没有办法的办法。

即便是在训练GPT大模型时，OpenAI的40个工作人员也是标注了数万级别的数据，标注好哪些答案是人类一般会选择的回答方式，从而让GPT学习如何更好地理解人类指令，以及什么样的回答更符合人类预期。以至于有人担心说，这40个人的价值标准和好恶会影响ChatGPT回答的价值观。

换个角度来想，连人工智能都要通过强化学习大量案例的手段来学习人类会出什么样的题，人类会喜欢什么样的答案，肉体凡胎的我们，不更应该去学习和理解出题人的思维方式，以及阅卷人的评判标准么？

正因如此，我一直鼓励母亲将她三十多年的教学经验总结出来，并以文章的形式输出留存。既然我们的考试评价体系是公平优先，那么就必然要尽可能的将考题和答案都收敛到小范围内，这样阅卷人才能够基于参考答案进行评分。而人文学科老师们总结的一些答题技巧与模板，其实就是从答题人角度出发，来让学生的作答与阅卷人的评分标准对齐，就如同ChatGPT甚至牺牲了一部分上下文学习能力，换取能和人类更好交互的能力，被OpenAI称之为“对齐税”。我们的学生今天去学习那些答题技巧和模板，本质是也是一种面对当下应试模式需交的“对齐税”。

以我浅显的认知看，首先，应试考查模式短期内依然不会改变，只能是小修小补，我们需坦然面对，答题技巧和模板依然奏效，多拿分改变命运这事不寒碜。

其次，大量的阅读以及结构化的输出很重要（可查看微信公众号"研语灵言”中“由ChatGPT谈阅读积累”），如同人工智能是基于输入-模型处理-输出的智能体一样，人对于知识的学习和使用也是这样一个闭环，应该有大量针对性地输入和输出，从而让我们的大脑留存下更好应对考试的模型，只输入不输出是无法完成闭环的。（费曼学习法可以了解一下）

最后，我也非常希望我们的老师、学生们都能积极体验和理解ChatGPT以及其背后的AI大模型，探讨其对教学、学科选择乃至专业选择，甚至人生发展的影响。

我们真的可能正在见证第四次工业革命的萌芽，这是一个有趣的事情，或许当我们这一代人老了的时候，再一次读到加西亚·马尔克斯在《百年孤独》开篇的那句话，回想起今天我们看到ChatGPT时的样子，也能会心一笑，因为科技的发展或许没有止境，但经典永恒。

“多年之后，面对行刑队，奥雷良诺·布恩地亚上校将会回想起，他父亲带他去见识冰块的那个遥远的下午。”——加西亚·马尔克斯《百年孤独》

展开阅读全文

页面更新：2024-05-30

标签：马尔克斯潍坊军功科举英文模型公众公平形式人类答案能力社会知识考试

1 2 3 4 5

从ChatGPT之能谈应试之策

2200个岗位“职”为你来，湖南铁道职院举行毕业生供需见面会

传世之作 - 唯有湘思似春色沈从文

严把征兵政考关田坝镇扎实开展春季征兵走访工作

财政部：当好“铁公鸡”、打好“铁算盘” 以“政府过紧日子”换“老百姓过好日子”

便引诗情到碧霄

毕马威中国顾问李慧琼：推进大湾区保险互联互通

智慧领“鲜” 大连海关助力特色农产品孢子叶出口走俏

20岁英雄女孩跨时空连线73岁大国工匠：学雷锋永远是种时尚

春天一起去吃火锅吧！餐饮业复苏火锅赛道迎来新局面

哔哩哔哩持续拉升现涨超5%

教育均衡发展能否实现？村镇学校现状调查

代表建议高考外语降至100分，耗费学生过多时间，网友：够用就行

年度个税汇算像开盲盒同样收入为何你能退税我却要补税

走出大山，走上高原

寄语！两会我想这样说！都是咱老百姓关心的事！

兴证全球基金童兰：由消费迈向制造稳步拓展能力圈

四川新闻联播丨全面增强履职尽责的能力本领

比起调整上限，公众更关心为什么要把钱放在个人养老金账

奥运知识科普互动国际奥委会的第一位女执委是谁？

拜登“毁台计划”吓破蔡英文胆？“疑美论”已成台湾主流

美团发布2022年骑手权益保障社会责任报告：624万骑手通

你们知道全球最励志的知识付费平台是哪吗

用考试系统如何组织岗位业务模拟考试

牢记新征程使命任务坚定不移推进全面从严治党为奋力

字节跳动模型大规模部署实战