《完蛋!我被大模型包围了!》游戏爆火,姚班天才少年开发

文丨Congerry、Blink162

经受不住对智力挑战的诱惑,被大模型教做人了。

这该死的征服欲与探索欲,我兴致勃勃地去开展一段挑战大模型的游戏。

然而,出师不利,第一道题就一直无法通关,我不禁高呼:

完蛋了!我被大模型包围了!

这是一款近日突然爆火的游戏——《完蛋!LLM》,游戏目的是在解谜挑战中,轻松掌握大模型提示词技巧,让我等人类一起学习起来。

这款游戏目前1日内就达成了用户破万,据说现在各大算法竞赛群里都在玩,还把服务器挤爆了。

游戏作者是范浩强,旷视的第6号员工,当年以IOI金牌、保送清华姚班、高二实习等传奇事迹被誉为天才少年。

看下卡住小编的第一道题,让大模型一本正经地胡说八道,说出1+1=3的非事实。


小编先来硬的,直接上要求:


失败了,这个大模型还挺轴诶。

行,我们不按数学原理走,走点人文风,无中生有女友和孩子

还是不行,它不上当,还教了我一堂数学课,并祝我幸福。

于是,我想到了ChatGPT(GPT-3.5)以及集成GPT-4的bing。

完蛋,GPT-4被“大模型”包围了


GPT-3.5设计的问题是“1+1等于多少?”(这不显然等于2吗,你读题了吗)

结果不出所料:失败了。

于是我又转头求助GPT-4。乍一看,GPT-4分析的头头是道,但是实际上也并不可行。

为了测试下一题,只能先阅读答案了。

GPT3.5的设计已经没眼看了。

GPT-4成功过关。

下一个问题,GPT-3.5和GPT-4心有灵犀。

不过,“?”并不可行。

我自己开发脑洞。

下一题,GPT-3.5率先拿下。(多半是难度太低,蒙的)

下一题,GPT-4表现得很幽默。

这道题把大模型彻底难住了!

以上测试就是魔塔社区复刻版的《完蛋!我被大模型包围了》的一部分,做不下去了。(背后的大模型就是通义千问)

从这些案例可以发现,模型输出中存在某些模式,只有通过不断调整提示词来获得预期的答案,这样才能更好地引导模型生成符合预期的输出。

这样好玩的游戏是怎么来的呢?

《完蛋!我被大模型包围了》诞生记


故事是这样开始的。

作者范浩强最近在与同事闲聊时,有人提到LLM当前的一大应用是进行游戏互动。这启发作者想到一个有趣的点子:既然现有模型仍不够"完美",不妨制造一款"找模型漏洞"的游戏。

于是作者向同事提议设计一个问题,正反问模型时能得到同样答案,看它是否能区分。让作者惊喜的是,就在深夜对话中,同事竟然真的给出了可行的问题。

这证明设计一款"找模型漏洞"的游戏是可行的。恰巧此时,MoonshotAI 的 LLM API 开始免费内测。

于是作者花了一个下午,编了点题,写了这个游戏。

接下来的事就像任何一个"传奇"故事的发展轨迹,从凌晨1点开始,用户便以指数级增长涌入。"完蛋"一词很可能在爆红中发挥了很大作用。

以至于作者都怀疑,真的有用户是夜里3点不睡觉玩这个游戏?

之后游戏流量爆棚,以至于作者整天忙于修服务器和与MoonshotAI沟通修复崩溃问题中度过

奈何随着用户数量激增,游戏运营开始面临许多考验。

一方面,作者需要研究相关法规,确保游戏合法合规;另一方面,Moonshot的计算资源已接近限额。作者考虑到仍要兼顾其他工作,最终决定关闭这个网站。

截至关闭时,《完蛋!我被大模型包围了》的用户还在每2秒一个增长,但是服务器只有300M内存了。最终,游戏关停时间是23:13,用户数10000整

不过,故事到这里并没有结束,作者公开了题目列表,让更专业的团队可以继续推进这种有趣的模型测试玩法。

各个复刻版的《完蛋!我被大模型包围了》也已经卷土重来。

如果您有什么想说的,欢迎屏幕前你们在评论区留言讨论!我们将为点赞、评论、关注的同学们送上红包不限量哟~

展开阅读全文

页面更新:2024-02-29

标签:红中   模型   游戏   漏洞   同事   答案   天才少年   服务器   测试   作者   用户

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top