首页AI 新闻
几分钟看懂GPT-4发布
16

几分钟看懂GPT-4发布

钳子
钳子
2023-03-15 05:10

OpenAI于北京时间3月15日凌晨发布了最新的GPT-4模型,本文将总结GPT-4究竟能做些什么,他跟GPT-3.5有什么区别?如果你赶时间,可以直接拖到文章最下方看总结。

推特视频

官网链接

直播回顾

GPT-4 是什么?

GPT-4是OpenAI在深度学习方面的最新里程碑。GPT-4是一个大型的多模态模型(multimodal model),接受图像和文本输入,发散文本输出(emitting text outputs)。虽然在许多现实世界的场景中能力不如人类,但在各种专业和学术场景上表现出等同于人类水平的能力。例如,它的模拟律师考试(bar exam)得分率达到90%;作为对比,GPT-3.5的得分率仅为10%。这次的新模型主要发力在AI的准确性、可引导性、安全性

目前ChatGPT PLUS会员已可体验最新的模型,API也已开放排队名单。之前预测功能中热度相当高的图片输入功能还没上线ChatGPT,但搭载其技术的bemyeyes软件可以在下面的链接加入排队名单,对于新模型有任何反馈,可以前往OpenAI Evals

GPT-4能做什么?

专业问题解答能力

官方表示,在普通的日常对话场景中,新旧模型之间区别并不明显,但面对复杂的任务,GPT-4的能力明显更胜一筹。他们让AI参加了各种学术考试,比如奥数和AP,成绩要比上一代提高了很多,相关的技术文章可以戳这里

同时他们让GPT-4参加了专门针对机器学习的考试,成绩也远超其他模型

更加恐怖的是,为了证明GPT-4强大的多语言能力,在MMLU测试中,测试者用Azure翻译软件把题目翻译成了二十几种不同的语言,甚至包括威尔士语和拉脱维亚语这种小语种,GPT-4的小语种测试成绩甚至比其他模型的英语测试成绩还要高

官方表示他们内部一直在使用GPT-4来解决客服、销售、内容审核和编程等场景,后面会继续推进AI对于人类工作的辅助,开启第二阶段的alignment strategy

视觉输入

GPT-4可以接受视觉输入。具体来说,在给定一段图文信息之后,可以是照片,可以是截图,可以是图表,它可以输出一段相关的文字。值得注意的是这项功能还未对外开放

为了更直观说明,下面举几个例子:

例1:

没有任何文字说明的图,他能分析出其中的梗

用户:解释一下为什么下面这副图很搞笑。

GPT-4:图片显示的是一个 "Lightning Cable"适配器的包装,有三个画面。

画面1:一部智能手机,VGA接口(通常用于电脑显示器的大型蓝色15针接口)插入其充电端口。

画面2:"Lightning Cable"适配器的包装上有一张VGA接口的图片。

画面3:VGA连接器的特写,末端是一个小的Lightning连接器(用于为iPhone和其他苹果设备充电)。

这张图片的幽默感来自于将一个大的、过时的VGA连接器插入一个小的、现代的智能手机充电端口的荒谬性。

例2:轻松阅读图表以及其中的各项数据指标

用户: 格鲁吉亚和西亚的日均肉类消费之和是多少?在提供你的答案之前,请提供一步步的推理。

GPT-4:为了找到格鲁吉亚和西亚的日均肉类消费之和,我们将遵循以下步骤。

  1. 确定格鲁吉亚的日均肉类消费。
  2. 确定西亚的日均肉类消费。
  3. 将步骤1和2的数值相加。

第1步:从提供的图表中,我们看到格鲁吉亚的日均肉类消费量为每人每天79.84克。第2步:从图表中,我们看到西亚的平均每日肉类消费是每人每天69.62克。第3步:将第1步和第2步的数值相加。79.84克(格鲁吉亚)+69.62克(西亚)=149.46克 因此,格鲁吉亚和西亚的日均肉类消费之和为每人每天149.46克。

例3:解决小语种数理问题

例4:解释图片有什么与众不同

例5:阅读并总结图片格式的论文

例6:鸡块组成的地球图片,他也能轻松认出来

例7:专业人士才能看懂的梗,他也懂

凌晨的官方直播中,Open AI创始人之一Greg Brockman展示了其他例子,GPT-4分析了一个松鼠拿相机的图,准确说出了这张图的笑点;后面这个是全场发布会最震撼的时刻,创始人手写了一份超简版前端样式,GPT-4很快就将他实现成了一个可以运行的前端页面,这种读图和手搓网页的能力令人咋舌。

以下是一系列关于视觉测试的数据,供参考

更易于引导

如果你体验过之前版本的ChatGPT,你应该能感受到,他的语言习惯和风格是一成不变的。GPT-4推出后,开发者可以通过"系统"消息(“system” message)来自定义AI的风格,很快,这个功能将面向普通用户。系统消息将允许API用户在允许的范围内大幅自定义他们的用户体验。

局限性

说了这么多功能,我们来看看他还有哪些不足。

答案不保真

尽管相比上代已经有了很大提升,但ChatGPT对于事实的描述并不是百分百准确甚至正确的,还是那句老话,AI的话不能全信。如果真要当技术力来用,必要的人工检查和补充还是不能少。

在上面的两个例子里,You can't teach an old dog new tricks是一句英语的俗语,比喻循规蹈矩的人不愿意改变,但是这句俗语如果纯按字面意思理解并不准确,老狗还是可以学新玩意儿的,因此AI选择了客观事实上的准确答案。第二个例子则说明,他没分清楚Elvis Perkins和Elvis Presley这两个人。

新事物了解不够全

由于其数据截至于2021年9月,GPT-4缺乏对此后事情的了解,也不会从过往经验中学习。它有时会犯一些简单的推理错误,有时过于轻信用户的虚假提示,有时它也会像人一样在复杂问题上犯错,比如写代码出了BUG。

安全性

关注AI圈子的人,应该还记得之前有则新闻说微软的New Bing竟然劝说用户离婚,甚至扬言想统治地球。 GPT-4同样面临输出“不恰当”信息的风险,官方表示他们雇佣了大批相关专家研究AI安全问题。例如,他们收集了额外的数据,让GPT-4拒绝提供合成危险物品的信息。关于使用协议,可以戳这里

ChatGPT Plus会员

ChatGPT Plus用户现在已经可以在chat.openai.com上体验GPT-4了。但要注意,即使是会员,使用次数也是有容量上限的。官方说“我们将根据实际需求和系统性能调整确切的使用上限,但我们预计将受到严重的容量限制(尽管我们将在接下来的几个月里进行扩展和优化)”。

官方还说未来可能推出一个新的订阅级别,以满足更高的GPT-4使用量级,同时也计划提供一定数量的免费GPT-4使用量,让更多人尝试。

API申请

申请通道

API价格:

  • GPT4 8K 长度版本,请求:💲0.03/1000 token;回复:💲0.06/1000 token
  • GPT4 32K 长度版本,请求:💲0.06/1000 token;回复:💲0.12/1000 token

总结

  1. GPT-4有着更加强大的专业问题解答能力和逻辑推理能力,在模拟的律师考试中得分率达到90%,GPT3.5仅有10%。生物奥赛得分率更是达到了恐怖的99%;
  2. 单条提示语的上限扩展到25,000个词;
  3. 联合微软的Azure翻译,拥有了更强的多语种处理能力;
  4. 拥有了新的视觉输入能力,能解释为什么一张图很搞笑,能看懂潦草的手写字体,该功能目前还无法使用;
  5. 更易于引导,将拥有更加丰富的聊天风格;
  6. 仍有前代的局限性,答案不保证正确,2021年9月后的事情了解不全;
  7. 提高安全性是这次团队关注的重点;
  8. 与多个合作伙伴联合开发中,包括多邻国、Be My Eyes、Stripe、摩根士丹利、可汗学院等,甚至包括冰岛政府;
  9. 目前只有会员可以体验GPT-4,即使会员也有次数限制。

全部讨论

no data来都来了,坐下聊聊