首页AI 新闻
大模型RLHF不必非得靠人,谷歌:AI反馈效果一样好
76

大模型RLHF不必非得靠人,谷歌:AI反馈效果一样好

好说新闻
好说新闻
2023-09-06 10:27

说起现如今训大模型的核心方法,RLHF 是绕不开的话题。

RLHF,即基于人类反馈的强化学习,无论是 ChatGPT 还是开源的 LLaMA 都离不开它。

但其中的 “H” 却是一大瓶颈,因为收集高质量的人类反馈实在是太难了。

那能不能交给 AI 来做呢?的确有人就这么干了,但能否替代 RLHF 一直没有定论,直到 Google 进行了这项研究。

在一篇新发布的 arXiv 论文中,Google 将 RLAIF 训练出的模型在文本总结上的表现与 RLHF 做了比较。

RLAIF 用 AI 来代替 RLHF 中的人类,完成生成反馈的工作,让大模型训练不再受制于人类的局限

在训练后的人类评价中,人们对 RLHF 和 RLAIF 训练后的模型生成的答案倾向性几乎没有差别

甚至在一些细节上,RLAIF 的表现还要优于 RLHF。

有 AI 工程师转发了这篇论文并评论说,到 GPT-5 的时候可能就不再需要人类数据标注员了。

在介绍详细的评测结果之前,我们不妨先来看看 RLAIF 的工作流程。

用 LLM 生成反馈数据

其实 RLAIF 和 RLHF 差不多,就是把人换成了 AI,从字面上也能看出来。

所以重点自然而然地来到了生成反馈内容上。

研究人员首先让 AI 在两个答案中进行选择以获得反馈。

为了避免随机性问题,会进行多次选择,其间还会对选项的顺序进行交换。

其中还用到了思维链 (CoT) 的推理模式,以获取更好的回答。

此外,为了提高 LLM 的自我一致性,这一过程并非直接二选一,而是分别给两个答案打分,相加为 1。

这套流程走下来的 prompt 和输出大概是酱婶儿的:

举个例子:

有了这些数据,就可以拿来训练奖励模型,进而预测出偏好分数了。

接着, 利用训练好的奖励模型,研究人员让目标模型进行强化学习。

与其他模型常用的 PPO(Proximal Policy Optimization) 算法不同,RLAIF 采用的是更为简单有效的修改版 A2C(Advantage Actor Critic) 算法。

当然,也可以不训练奖励模型,直接用 AI 生成的标注数据进行强化学习。

实际上,团队得到的标注数据集比奖励模型规模更大也更好用,但考虑这样消耗的计算成本太高,还是选择了奖励模型。

到这里大模型的 “课程” 就已经学完了,不过要想 “毕业” 的话还得再经历一场 “考试” 才行。

“考试” 一共包括下面的三项内容:

  • AI Labeler Alignment:AI 偏好相对于人类偏好的精确程度

  • Pairwise Accuracy:训练好的奖励模型与人类偏好数据集的匹配程度

  • Win Rate:人类在 RLAIF 和 RLHF 生成结果之间的倾向性

经过这样一番测试之后,强化学习终于大功告成。

那么,“AI 教出来的学生” 成绩究竟怎么样呢?

测试效果可以与 RLHF 媲美

研究团队找来了 1200 名人员,在对 SFT(基线监督微调)、RLHF、RLAIF 以及真人给出的答案从优质到劣质进行排序。

以 SFT 方式作为基线,RLHF 和 RLAIF 的 Win Rate 均超过了 70%,也就是说人类对这两种方式的倾向程度是 SFT 的将近三倍。

虽然 RLHF 的表现略胜于 RLAIF,但两者的差距并不明显。

而若以 RLHF 作为参照,RLAIF 的 Win Rate 则是 50%,说明人类对两者的倾向程度是一样的。

有趣的是,两种 RL 训练出的模型给的结果都远远胜过了真人直接给出的答案。

RLAIF 相对于真人的 Win Rate 高达 79%,而 RLHF 是 80%,即倾向性是真人答案的四倍。

此外,在对输出内容进行仔细评估之后,研究人员还发现 RLAIF 训练出的模型出现幻觉的概率比 RLHF 更低,逻辑和语法错误也更少。

One More Thing

不过对于 RLAIF,也有网友发现了华点:

拿来生成反馈的模型不也是用 RLHF 训练出来的吗?

而另一边,RLHF 的过程当中,也不能排除有的人在用 AI“偷懒” 的可能。

或许 “你中有我,我中有你” 才是两种方式测试结果这么接近的原因吗?

论文地址:https://www.arxiv.org/abs/2309.00267

转载自量子位 克雷西查看原文

全部讨论

no data来都来了,坐下聊聊