首页AI 新闻
Llama2发布!全面解析性能、参数、架构与训练方法!
52

Llama2发布!全面解析性能、参数、架构与训练方法!

好说新闻
好说新闻
2023-07-19 00:41

Meta 宣布开源其大型语言模型 LLaMA 2,使其免费供商业和研究使用,并与 OpenAI 的免费使用的 GPT-4 展开正面竞争,GPT-4 为 ChatGPT 和 Microsoft Bing 等工具提供支持。 以下为根据 Meta 发布的论文整理的一些已知信息(模型特点):

  • Llama2 的性能和参数
  • 如何使用和限制条件
  • Llama2 的模型架构
  • Llama2 的训练方法

Llama2 的性能和参数

  • Llama2有三个大小的版本分别是7B 13B和70B
  • Llama 2 的训练数据比 Llama 1 多 40%,上下文长度是 Llama 1 的两倍。
  • 预训练的Token为2 万亿,上下文长度为4096
  • 据Meta所说,Llama 2 在许多外部基准测试中都优于其他开源语言模型,包括推理、编码、熟练程度和知识测试。

如何使用和限制条件

  • 与第一次泄漏的版本不同,这次Meta开放了商业使用的权限。
  • 日活大于7亿的产品需要单独申请商用权限
  • 不得使用 Llama 材料或 Llama 材料的任何输出或结果来改进任何其他大型语言模型。

Llama2 的模型架构

  • Llama 2-Chat 的基础是 Llama 2 系列预训练语言模型。Llama 2 使用标准的Transformer架构。
  • Llama 2-Chat 通过监督微调和强化学习人类反馈进行了优化。先进行监督微调,然后应用包括拒绝采样和PPO在内的强化学习算法进行迭代改进。
  • 采用了一些优化,比如预规范化、SwiGLU激活函数和旋转位置嵌入(RoPE)。
  • Llama 2-Chat有70亿、34亿、13亿和7亿参数的版本。训练使用公开可获得的数据,没有使用任何Meta用户数据。

Llama2 的训练方法论

  1. 预训练
  • 使用公开可获得的在线数据进行预训练,总计2万亿个标记。 对数据进行了清洗,移除了一些包含大量个人信息的网站。 采用标准的Transformer架构,以及一些优化如RoPE等。

2. 监督微调

  • 使用高质量的人工标注数据(约3万示例)进行监督微调。 优化回答标记,而不是提示标记。

3. 基于人类反馈的强化学习

  • 收集人类偏好数据: letting人类比较并选择更好的回复。 训练奖励模型,给回复打分。 使用拒绝抽样和PPO算法进行迭代调优。

4. 安全性

  • 收集安全/有帮助的数据进行监督微调。 训练独立的安全性奖励模型。 使用内容蒸馏等方法增强安全性。

5. 评估

  • 在4K提示上进行有用性人类评估,与ChatGPT等旗鼓相当。 在2K提示上进行安全性人类评估,优于多个基准模型。

👉点我申请下载官方模型

👉点我在Huggingface上下载Llama 2的模型

转载自Meta查看原文

全部讨论

no data来都来了,坐下聊聊