首页AI 新闻
堪比 ChatGPT!Meta 华人提出「牧羊人」Shepherd,LLaMA 70 亿参数微调,评估模型生成给出建议
123

堪比 ChatGPT!Meta 华人提出「牧羊人」Shepherd,LLaMA 70 亿参数微调,评估模型生成给出建议

好说新闻
好说新闻
2023-08-15 13:57
大模型生成内容还需自我改进。Meta 提出的 Shepherd 模型,能够评估模型生成,给出建议。

近日,Meta AI 最新研究,提出了语言模型 Shepherd,专门用于评估模型响应并提出改进建议。

对此,研究人员通过社区反馈和人工标注,整体出一个高质量的反馈数据集,大约有 70 亿参数。

论文地址:https://arxiv.org/pdf/2308.04592.pdf

与 GPT-4 评估相比,Shepherd 的平均胜率为 53-87%,远高于其他竞品。

另外,在人类评估中,Shepherd 完全优于其他模型,平均水平与 ChatGPT 接近。

「牧羊人」Shepherd

当前,大模型已经变得越来越复杂,在生成连贯、有语境和语义的文本方面表现出了非凡的能力。

尽管取得了这些进步,大模型仍然经常犯错,产生不可靠和不连贯的输出。

因此,不断批判和改进生成方法,将是迈向更可靠语言模型的非常有益的一步。

在这项研究中,Meta 提出了一个语言模型 Shepherd,明确地针对批评模型(critique model)生成的输出,进行了调整。

当被要求完善输出时,Shepherd 可以指出具体的问题,如事实性、逻辑错误、连贯性和一致性,同时还能提出改进建议。

更具体地说,Shepherd 可以生成自然语言反馈,这些反馈不仅可以给出总体判断,或一般建议,还可以涉及深层次的领域知识,并提供可操作的改进意见。

Shepherd 整体框架

为了对 Shepherd 进行微调和评估,研究人员创建了一个高质量的反馈数据集,由两个不同的数据集组成:

(1) 社区反馈,从在线论坛中收集,以收集更多样化的互动;

(2) 人工标注的反馈,从不同类型任务中收集。

比如,从 Stack Exchange 和 Human Annotation 收集的训练数据示例。

Shepherd 模型

研究人员以 LLaMA-7B 为基础模型训练 Shepherd,并使用 AdamW 作为优化器,β1 = 0.9,β2 = 0.95,权重减少为 0.1。

然后,使用 1e-5 的学习率和 2000 个热身步骤,并将批大小设为 64,最大序列长度设为 2048。

训练数据的格式使用相同的模板,使用「### {field name}」来分隔不同的字段。

为每 50 个步骤保留检查点,共计 3000 个步骤。

研究人员手动检查生成的反馈是否能识别错误,或在 20 个示例的保留集上提出建设性建议,并选出 3 个最佳检查点。

然后,使用 GPT-4 评估协议,在保留的示例集上选出最佳检查点。

评估

为了检验 Shepherd 对模型生成的批判能力,研究人员将其与一系列最先进的语言模型进行了比较,包括 Alpaca-7B、SelFee-7B 和 ChatGPT。

通过使用 GPT-4 作为评估工具,同时进行人工评估和自动评估。

为了广泛覆盖 NLP 领域,研究人员精心挑选了 6 个公共数据集进行评估:

  • AlpacaFarm
  • FairEval
  • CommonsenseQA
  • OBQA
  • PIQA
  • TruthfulQA

这 6 个数据集涵盖了广泛的主题和推理技能集,包括常识推理、物理推理、数学推理等。

然后,研究人员从每个数据集的验证集 / 测试集中抽取 50 个实例,最终的评估集共有 300 个实例。

团队首先分析了,Shepherd 是否能比其他竞争模型生成更好的反馈。在如下图 2 和图 3 中分别展示了,使用 GPT-4 和人工评估的对比较结果。

在这两种评估设置中,Shepherd 明显优于 Alpaca、SelFee。

需要注意的是,Shepherd 和 SelFee 都是经过微调的 LLaMA-7B 模型,但是 SelFee 是在一个包含 178K 示例的数据集上进行微调的,而 Shepherd 只在一个包含 8K 示例的数据集上进行了微调。

根据 GPT-4 评估,Shepherd 的性能略高于 ChatGPT,而在人类评估中,Shepherd 的性能与 ChatGPT 相当。

总之,在数据集的组合上进行训练后,Shepherd 展示出令人印象深刻的结果,在多个下游任务中的表现优于 ChatGPT。

对社区反馈和人类标注的反馈数据的影响进行仔细检查后发现,社区数据比人类标注的数据信息量更大、更多样化,但却偏向于非正式性。

这些细微差别使 Shepherd 能够对不同的任务提供反馈。

同时,研究人员发现,包括用于微调的高质量人类标注数据可以提高模型性能。

然后,研究人员对 Shepherd 生成的反馈进行了,模型评估(GPT4)以及人工评估,并与最先进的基线进行了比较。

与其他模型相比,Shepherd 的评论通常更受青睐。

比如,Alpaca 倾向于对模型的所有回应给予积极反馈,从而导致大量错误反馈。

SelFee 倾向于提供模糊的反馈,不能准确指出错误,忽略模型的回答或直接回答问题,而不是批评回答。

ChatGPT 在不同的评估设置中更加稳定,并在提供正确判断的反馈方面做得更好。

作者介绍

共同一作有 2 个人。

Tianlu Wang

Tianlu Wang 是 Meta 人工智能研究的研究科学家。

她曾在弗吉尼亚大学获得了计算机科学博士学位,导师是 Vicente Ordóñez Román。在此之前,她还获得了浙江大学计算机科学学士学位。

Ping Yu

Ping Yu 是 FAIR 研究科学家。

曾在纽约州立大学布法罗分校获得了计算机博士学位,并在密歇根大学获得了计算工程硕士学位。

参考资料:

https://github.com/facebookresearch/Shepherd

https://huggingface.co/papers/2308.04592

转载自新智元 桃子查看原文

全部讨论

no data来都来了,坐下聊聊