RLHF把人逼到崩溃？DPO用“人类直觉”救场，AI训练终于不折腾了

财经摆渡人

精研出品

破浪前行，共探财富新局

大家好欢迎收看【古今财鉴】

最近跟圈里朋友喝咖啡，聊起那些越来越“像人”的AI大模型，他突然拍了下桌子，“你说这些玩意儿背后得折腾成什么样啊？”

这话真戳中了痛处咱们看到的“自然对话”“贴心回复”，背后可能是成百上千人趴在电脑前“打分打到手软”的结果。

今天就来聊聊，AI训练到底从什么时候开始，变成了一场“把人练废”的苦役？又是什么新方法让这事儿终于有了喘气的机会。

RLHF，看着优雅，干着要命的“评分地狱”

三年前刚接触RLHF的时候，我差点被那套理论绕晕人类标注好坏，模型试错纠正，一步步逼近最优解，听着就像给AI装了个“导航系统”。

可真到项目落地，才发现这“导航”背后全是坑。

去年我去参观过一个RLHF项目现场，三十多个标注员挤在格子间，电脑屏幕上全是“这个回答7.5分还是8分”的争论。

有人为“‘还行’和‘还不错’哪个更积极”吵了半小时，桌上的胃药和速溶咖啡堆成小山，最拼的一个姑娘直接把行军床搬到了公司。

本来想这只是个别现象，后来跟十个项目的负责人聊完才发现，这是行业通病。

你想啊，RLHF要先让训练师写一堆回答，再找几个人给这些回答排序，排完序还得训练个“奖励模型”，最后用PPO算法反复优化。

中间任何一步出问题，比如排序标准没统一，奖励模型算歪了，整个流程就得推倒重来。

有个算法工程师跟我吐槽，“有次优化到第三轮，模型突然开始说胡话，昨天还温文尔雅，今天直接回‘你这话问得没意义’。

查了三天才发现，是奖励模型把‘简洁’的权重算太高了。

”这种“模型性格突变”的情况，在RLHF项目里太常见了。

DPO，用“二选一”救命，AI训练突然“接地气”

就在大家都快被RLHF折腾疯的时候，DPO的出现像给闷热的房间开了扇窗。

这方法说起来特简单，别给回答打分了，直接扔两个选项给训练师，问“你更喜欢哪个？”就完事儿。

刚开始我还不信，觉得这也太敷衍了。

直到上个月帮朋友的团队搭DPO流程，亲眼看到效果。

他们做客服AI调教，之前用RLHF，标注员每天要给200条回复打分，人均加班两小时。

换成DPO后，让标注员在“回复A”和“回复B”里选“更像真人会说的”，一天轻松处理500条，下班准时走人。

为啥这么高效？后来琢磨明白了，人类天生就擅长“比较”。

你让我给“这个苹果甜不甜”打分，我可能说“7分”；但你拿两个苹果让我尝，我立马知道“左边这个更甜”。

DPO就是顺应了这种本能，把训练师从“假装机器打分”的状态里解放出来。

有个在高校教心理学的朋友听完，拍着大腿说，“这不就是‘社会比较理论’嘛！人对绝对数值没概念，但对相对差异贼敏感。

”你看教小孩说话，没人拿着语法书念“主谓宾结构占比60%”，都是指着猫说“这是猫”，指着狗说“这是狗”，小孩看多了自然就会了。

DPO把AI训练拉回了“人类教人类”的原始模式，反而更高效。

不是革命是妥协？DPO的“小心思”藏在这里

当然了，DPO也不是万能药。

前几天跟一个做医疗AI的团队聊，他们就摇头，“我们搞诊断建议，能说‘这个回答更舒服’吗？必须精确到‘这句话有没有遗漏禁忌症’‘那个建议是否符合临床指南’。”

这倒是实话。

DPO更像“瑞士军刀”，啥场景都能应付，但遇到需要“手术刀级”精度的活儿，还得靠RLHF。

比如金融AI的风险提示、法律AI的条款解读，这些领域容不得半点模糊，必须一条条抠细节、打分值，DPO的“二选一”就不够用了。

不过换个角度想，技术进步不就是这样？从来不是“谁取代谁”，而是“谁补位谁”。

就像当初汽车取代马车，但自行车至今没被淘汰各有各的场景。

DPO的聪明之处，是承认了“人类判断的模糊性”，没非要用算法把所有东西量化，反而保留了那份“说不清楚但感觉对”的直觉。

前阵子试了下用DPO调教的AI助手，问它“推荐个周末散心的地方”，它没直接甩景点名单，而是回“你平时喜欢热闹还是安静？最近有没有想看的风景？”这种带着“追问”的回复，比冷冰冰的列表舒服多了。

突然明白，AI要“像人”，首先得让训练它的过程“像人”少点机械打分，多点真实互动，毕竟机器学不会的，从来不是算法，而是人的温度。

说到底，DPO给行业提了个醒，咱们折腾AI，终极目标是让它服务人，不是让人反过来伺候流程。

从RLHF的“苦役”到DPO的“轻松”，表面是技术简化，骨子里是对“人性”的尊重。

以后AI训练的方向，可能不是搞出多复杂的算法，而是琢磨透“人到底怎么教东西”毕竟，最好的老师从来都不是打分机器，而是那个会说“你看这样是不是更好”的朋友。

展开阅读全文

更新时间：2025-12-18

标签：科技直觉人类模型算法苦役项目朋友高效流程机器胃药

1 2 3 4 5

360前高管曝帮周鸿祎“做假账至少几十亿”，周鸿祎、公司发声：完全背离事实，360集团将采取法律措施追究其责任

12月16日，360集团发布关于玉红恶意诋毁360集团创始人周鸿祎先生的严正声明：近日，玉红在多个微信群组内恶意诋毁360集团创始人周鸿祎先生及多位企业家，言辞极端失实，影响恶劣。36

存储芯片暴涨300%！AI驱动“以存代算”，电子产品集体涨价？

今年三季度以来，全球存储芯片市场出现一轮显著的价格上涨。根据第三方调研机构的数据，存储芯片两大主要类别DRAM（内存）与NAND Flash（闪存）的现货价格自9月以来累计涨幅已超过300%

别羡慕首富！马斯克的生活你真过不了：博主亲测3天，心态崩了

防走失，电梯直达安全岛来源：网易科技作者：辰辰试着像马斯克一样生活7天，结果第3天就崩了。这是一位博主在亲身体验马斯克同款作息后的真实感言。为什么会崩？因为这就不是正常人

央行还在买黄金

今年以来，因为黄金持续上涨，市场内外对于黄金和贵金属的讨论热度空前热烈。不过四季度开始，黄金价格冲高调整，不少投资者转为观望为主。在这个背景下，央行购金的动向成为了投资者

今天大A弱势下跌，明天（12月17日星期三）怎么走？

今天大盘低开低走，三大股指全数下跌，中盘股领跌，下跌的股票数量超过了4300只，三市的成交量略有萎缩。AEB概念、住宿餐饮是今天的强势概念。截至收盘，上证指数下跌了1.11%，深证成指

A股，今天突然跳水，原因是什么？

A股今天有点反常，同样是上周五美股下跌，给A股科技股带来了负面影响，然而昨天的盘面还出现了向上反攻，尽管随后走出了回落走势，不过沪指全天还算强劲，但是今天好像完全不一样了，隔夜

总投资30亿元！鄂尔多斯这一项目成功并网→

近日，全球单体容量最大的电化学独立储能电站——谷山梁100万千瓦/400万千瓦时独立储能电站项目成功并网，为新型电力系统的稳定运行、保障能源安全提供了关键支撑。谷山梁100万

美银警示：Robinhood(HOOD.US)联手做市商巨头Susquehanna垂直整合预测市场传统博彩业遭降维打击

智通财经APP获悉，当地时间12月16日，Robinhood (HOOD.US) 正式举办名为“YES/NO”的主题活动。此次活动不仅是其预测市场业务的深度升级，更被市场视为对传统博彩巨头(如DraftKin

临泉县荣宴商贸有限公司成立注册资本100万人民币

天眼查App显示，近日，临泉县荣宴商贸有限公司成立，法定代表人为李红，注册资本100万人民币，经营范围为许可经营项目：食品销售；酒制品生产；酒类经营；饮料生产；烟草制品零售（依法须经批准的

贪字当头！好牌打得稀烂，从盈利1000到水下亏100，真的要扇自己

今天又是红转绿的一天，一天的垃圾操作，不能再差了。。今天的操作又给自己一个大大的巴掌，真的是很好的机会没有把握住，现在从盈利1000到水下亏100，我真的我不知道自己为什么会这

美联储重要暗示！金价，又涨了！

当地时间周一，投资者普遍等候本周将要陆续出炉的美国月度非农就业报告和消费者价格指数等关键经济数据，对AI行业估值过高的担忧仍在蔓延，市场交投谨慎，美国三大股指周一集体收跌

三度出手！乌克兰无人机突袭俄石油钻井平台，关键设施遭损停产

俄乌冲突的战火已从陆地持续蔓延至海上能源核心区域，乌克兰对俄罗斯能源设施的打击力度正不断升级。一位安全消息人士向路透社透露，乌克兰方面出动两架远程无人机，成功袭击了

12.16操作：黄金、白酒、半导体以及医疗等板块操作

黄金：目前跌1.1％持续性还是差了一点，没能继续站稳4300美元关口，那还是先拿着。半导体：目前跌1.6％继续调整，不过还是在小区间内，可以考虑。白酒：目前跌0.2％资金转为防御，再加上茅

12.16基金|决定了！大龙今天含泪大调仓！

重要提醒！大龙尾盘如果基金操作有变动会在14:40之前发个帖子通知，每天记得看下哦，不要落下重要操作。开头大龙有话要说：毫无意外，周二A股还是个以往一样继续全线下跌，暂时没什么

世贸组织：全球价值链展现韧性正加速重构

△世贸组织总干事伊维拉（资料图）当地时间15日，世界贸易组织在瑞士日内瓦发布《2025年全球价值链发展报告》。该报告指出，尽管面临地缘政治紧张、金融不确定性、气候压力等现实因

上滑加载更多 ↓

RLHF把人逼到崩溃？DPO用“人类直觉”救场，AI训练终于不折腾了

RLHF，看着优雅，干着要命的“评分地狱”

DPO，用“二选一”救命，AI训练突然“接地气”

不是革命是妥协？DPO的“小心思”藏在这里

360前高管曝帮周鸿祎“做假账至少几十亿”，周鸿祎、公司发声：完全背离事实，360集团将采取法律措施追究其责任

存储芯片暴涨300%！AI驱动“以存代算”，电子产品集体涨价？

别羡慕首富！马斯克的生活你真过不了：博主亲测3天，心态崩了

央行还在买黄金

今天大A弱势下跌，明天（12月17日星期三）怎么走？

A股，今天突然跳水，原因是什么？

总投资30亿元！鄂尔多斯这一项目成功并网→

美银警示：Robinhood(HOOD.US)联手做市商巨头Susquehanna垂直整合预测市场传统博彩业遭降维打击

临泉县荣宴商贸有限公司成立注册资本100万人民币

贪字当头！好牌打得稀烂，从盈利1000到水下亏100，真的要扇自己

美联储重要暗示！金价，又涨了！

三度出手！乌克兰无人机突袭俄石油钻井平台，关键设施遭损停产

12.16操作：黄金、白酒、半导体以及医疗等板块操作

12.16基金|决定了！大龙今天含泪大调仓！

世贸组织：全球价值链展现韧性正加速重构

总投资30亿元！鄂尔多斯这一项目成功并网→

航天智造：军用爆破器材自动化项目预计2026年9月投产达

Meta领跑Apple蠢蠢欲动：智能眼镜成科技巨头下一个必争

预制菜都进化到这份上了？不仅口味逼真，还藏着这么多黑科

“镁代铝”成真，首批人形机器人镁合金电池盒交付

半导体黑科技登场！芯片晶体密度暴涨，科技游戏被改写

有趣的灵魂登上硬核大飞船！果壳携手深圳科技馆，“硬活儿

九牧荣获2025年度行业科技进步奖！

鄂尔多斯市谷山梁100万千瓦/400万千瓦时独立储能电站

转给冬天出门不戴帽子的朋友