首页AI 新闻
杠上了!Code Llamas硬刚GPT-4
113

杠上了!Code Llamas硬刚GPT-4

麦满分
麦满分
2023-08-29 17:35

几天前,Wizard LM 和 Phind 发布了基于 Code Llama 的微调模型 WizardCoder 34B。目前,双方正就 Phind 是否使用了 Wizard LM 的WizardCoder 风格数据集来训练其 V1 模型展开激烈争论。不过,Phind 驳回了这一说法,但争论仍在继续!

每个人都在以 OpenAI 的 HumanEval, 为参考一句,试图在各种任务中击败 GPT-4。就在【Code Llama】(https://analyticsindiamag.com/metas-code-llama-is-here-but-unnaturally/) 发布两天后,Wizard LM 推出了【WizardCoder 34B】(https://github.com/nlpxucan/WizardLM/tree/main/WizardCoder),这是一个基于 Code Llama 的微调版本。该公司自豪地宣称,WizardCoder 34B 在 HumanEval 上的表现甚至优于 GPT-4、ChatGPT-3.5 和 Claude-2,初试通过率达到73.2%

但 Wizard LM 似乎试图欺骗开发人员,它非常鸡贼的规避了一个事实,它将 73.2% 的分数与 GPT-4 3 月份版本的 HumanEval 评级进行了比较,而不是与 8 月份版本的 HumanEval 评级进行比较(GPT-4 在 8 月份版本中取得了 82% 的)。

值得注意的是,根据 GPT4- 技术报告(2023/03/15),GPT-4 和 ChatGPT-3.5 的 HumanEval 结果分别为67.0 和 48.1**--这似乎很奇怪,OpenAI 官方 对 GPT-4 的 HumanEval 评分 比 Wizard LM 给出的还低。

不过,Wizard LM 并不是这场竞赛的唯一参与者。另一家初创公司Phind,也声称,他们的微调版本 CodeLlama-34B 和 CodeLlama-34B-Python,使用自己的 Phind 数据集,在 HumanEval](https://www.phind.com/blog/code-llama-beats-gpt4)上达到了[67.6% 和 69.5%]的通过率。这些数据几乎与 GPT-4 的数据相当。

终极基准:GPT-4

这清楚地表明,开源社区将 GPT-4 视为终极基准。随便翻翻 Meta 基于 LLM 的研究论文,他们都会将自己的结果与基于 GPT 的模型进行比较,尤其是 OpenAI 的 HumanEvals。

Meta 需要 OpenAI,在论文'Code Llama: Open Foundation Models for Code'中,'GPT'一词被使用了 37 次,而另一方面,OpenAI 在他们的'GPT-4 Technical Report'中没有使用'Meta'或'LLaMA'一词。如果开源社区不再与闭源模型进行比较,会发生什么情况呢?显然,OpenAI 创建的评估指标赋予了开源模型存在的意义,否则就很难评估它们的性能和地位。

在 Code Llama 的研究论文中,Meta 没有使用任何自己制定的评估指标。除了 HumanEval 之外,唯一采用的指标是谷歌创建的 MBPP(Mostly Basic Python Programming)。另一个值得注意的重要问题是,GPT-4 所做的不仅仅是编码任务。另一方面,Meta 正在为特定任务创建模型,并试图在这些特定任务中超越 GPT-4。

如果一个模型是专门为编码设计的,那么它就很有可能超越 GPT-4。Phind 在 HumanEval 上的表现也与 GPT-4 基本相同。此外,Code Llama 很有可能是使用 GPT-4 生成的数据集进行训练的。否则,一个开源模型要想与 GPT-4 相抗衡,将面临相当大的挑战。

HumanEval 是否足够权威?

Reddit 上一直在讨论 HumanEval 是否是衡量大型语言模型编码能力效率的合适参数。该主题称,HumanEval 解决了 Python 中的 160 个编程问题,这并不是人们对代码模型的全部期望,而且代码模型的实际使用情况也不是基于 160 个程序的单一数字所能反映的。

该主题进一步指出,HumanEval 无法捕捉代码解释、文档字符串生成、代码填充、SO 问题、编写测试等因素。X 的一位用户也表达了同样的观点,他说:"GPT-4的Python 代码能力远远超过任何一个开源 LLM"。"我尝试了不同的实际例子来创建最小的 flask 微服务(我在一堆 LLM 上进行了测试),GPT-4 仍然优于所有开源 LLM,"他补充道,并称赞了 GPT-4 在实际使用中的能力。

有趣的是,Wizard LM的高级研究员Can Xu回复称,他会研究并尝试改进模型。 “感谢您指出了潜在的改进点,我们将尽快研究现实生活中的例子,”徐说。

在另一次对话中,一位 X 用户表示,他发现这些模型基准往往不足以衡量模型在实际工作流程中的表现。 Phind 联合创始人 Michael Royzen 对此回应称,这是一项早期实验,旨在重现(并超越)论文中的“Unnatural CodeLlama”结果。他表示,未来将做更多工作以使这些模型做好生产准备。 “未来,我们将拥有不同 Code Llama 模型的专家组合,我认为这些模型在现实工作流程中将具有竞争力,”Royzen 乐观地补充道。

虽然开源模型可能尚未达到 GPT-4 的标准并且正在努力迎头赶上,但令人振奋的是看到他们正在与社区公开讨论并承认自己的缺点。 Wizard LM 和 Phind 在 X 上的讨论是一个好兆头,它表明开源社区非常敬业。

开源社区的这种透明度是迈向“负责任的人工智能”的积极一步。相比之下,OpenAI 则隐藏其商业秘密,让每个人都在猜测他们即将推出的计划。

全部讨论

no data来都来了,坐下聊聊