LLMs Finetune系列(六)—全量参数对齐微调Reject Sample + PPO

LLMs Finetune系列(五) 讲解了 RAFT 全量参数对齐微调算法，RAFT 算法思路和Reject Sample 思路其实大差不差，基本可以认为只是换了一个叫法，本文讲解Llama2模型中全量参数对齐微调算法Reject Sample + PPO（原版论文中V5 实验效果最好，采用的方案），具体和前面讲解的RLHF 算法的区别如何，这里先上图：

图片来源：AI研究大牛Sebastian Raschka 博客

上图微调算法和RLHF 中不一致的部分做了明显的标识，具体体现在两个方面：

1.奖励 Reward 函数设置

2.Finetune 过程中添加Reject Sample 算法，也即RAFT 算法。

奖励函数

LLMs 对齐过程中，让大语言模型的无害性，有帮助性；针对这个问题，Llama2 训练了分别训练了两个奖励模型模型，一个是对无害性的奖励，一个是对帮助性奖励；在误差函数中添加新增了一个边际（margin）标签，significantly better、better、slightly better、negligibly better、unsure，这里和instruct-GPT不一样的是，对于每个prompt 只生成了两个结果（为了保证多样性，使用 2 个 model 生成 response，并使用不同的 temperature），而不是像instruct-GPT 原理图上画的生成A、B、C、D 四个结果，进行排序。

损失函数

具体在RLHF过程中，对两个奖励函数的使用如下：

PPO 的求解目标找到期望奖励最大时候的策略函数，也即LLMs

PPO目标函数

p 表示prompt ，g 表示生成结果，pi 的结果是一个概率

评价模型综

这里LOGIT 是sigmoid 函数的反向操作，WHITEN 操作是在样本批量维度，对奖励值进行标准化，查询到相关开源代码，其整体思路就是 (x-mean/std) 的变换：

def whiten(xs: torch.Tensor, shift_mean=True, distributed=True, group=None) -> torch.Tensor:
    """Whitens values"""
    if distributed and dist.is_initialized():
        mean, var, _ = get_global_statistics(xs, group=group)
    else:
        var, mean = torch.var_mean(xs)

    whitened = (xs - mean) * torch.rsqrt(var + 1e-8)
    if not shift_mean:
        whitened += mean
    return whitened

2.Reject Sample + PPO 算法交替进行

原文中讲述了这两种算法的不同：

Reject Sample 与PPO 异同

显著区别具体来讲Reject Sample 偏重于广度，PPO 算法偏重于深度

广度——在拒绝采样中，模型对给定的提示探索 K 个样本，进行finetune，而 PPO 只进行一次生成。

深度——在 PPO 中，在训练的第 t 步，样本是更新后的模型策略的函数，该策略来自前一步的梯度更新后的 t-1。在拒绝采样微调中，在应用类似于SFT的微调之前，根据模型的初始策略采样所有输出以收集新数据集。然而，由于我们应用了迭代模型更新，所以两种 RL 算法之间的基本差异不太明显。

从前面给出的图中，Llama2 对prompt 进行抽样，对每个样本生成多个输出，然后对一个prompt，多个生成gi 对，进行Reject Sample 微调，然后对每个Prompt 中的某一个生成g，进行PPO微调。

其实整个Llama2 算法在Reward 模型上做了较大的改进，整个过程的核心还是PPO 算法，而PPO 算法核心是Critic 网络和action（policy 策略网络的参数更新），在LLM 的应用上多了Reward 和 SFT 两个原始训练好的网络

PPO 算法

展开阅读全文

页面更新：2024-02-11

标签：参数广度样本算法函数模型思路策略两个系列网络

1 2 3 4 5

LLMs Finetune系列(六)—全量参数对齐微调Reject Sample + PPO

华为辟谣：拒绝富士康代工纯属造谣，呼吁公众勿信勿传

支付服务再升级便利境外来华人士消费

（科技）研究说没有大脑的水母也有学习能力

西媒：西班牙跻身太空国家俱乐部

首款“合肥造”量子计算机VR教学体验系统发布

今年冬春航季，博鳌机场计划运营30条国内航线

日媒：中国年轻一代智能手机用户正掀起一场汉字“革命”

导师在“天上”是一种什么体验

华为辟谣！

黄牛惊呆了！有人为买华为Mate X5直接下定问界新M7

最新热门手机排行榜公布谷歌新机Pixel 8 Pro拔头筹

FRB 20200317A！贵州本土团队首次发现快速射电暴

全球科技早报｜英特尔透露微软将推出Windows 12；Nature调查：仅4%的科学家认为AI是“必需品” ；日本即将公布AIGC的开发商监管准则；Meta向创作者支付数百万美元打造AI聊天机器人；

华为：网传“华为发布声明拒绝富士康代工请求”纯属造谣

为什么要买华为Mate60，买华为就是在救自己，这是真的吗？

中年男子失眠8年苦不堪言,松十三负氧离子睡眠系列助你

Aniye Records／2024春夏系列／米兰秀场直击

第26届北京科技交流学术月开幕，系列活动持续至月底

强化学习之父入局AGI创业！联手传奇程序员卡马克，不依赖

明日方舟凭什么火了这么多年？ - 公司系列2

原《神鬼寓言》系列开发商：制作游戏续集是种耻辱

系列广播剧《共富路·中医情》丨第一集《医者仁心》

海南环岛旅游驿站棋牌系列巡回赛开局之战在海口打响

59岁诞下双胞胎女儿的产妇：家里人气不旺，就搞两个人来玩

北疆之旅踩坑系列之-酒店住宿（我们北疆之旅的经验和教