能懂梗图会教书,必应聊天抢跑 ChatGPT 开测识图功能
今年 3 月发布的 GPT-4 在多模态功能的使用上具有较高的技术含量。

它不仅支持了图片输入,更通过对梗图、物理题以及论文等的处理,使得其回答的结果更加精准可信。尽管 GPT-4 在发布后获得业界普遍的关注与赞誉,可惜的是,OpenAI 只表示图像输入功能仍然处于研究预览阶段,并未向公众开放。 在这个背景下,近日 Reddit 上有网友发现,自己的 Bing Chat 账号新增了一个上传图片的入口。

惊喜之余,这个上传图片的入口竟然拥有了识图的功能。只要将图片上传到 Bing Chat 上,它就会给出对于图片的识别结果以及相关答案。
需要注意的是,虽然 Bing Chat 目前面向所有微软账户开放,但对于是否具备测试资格仍需等待验证。
此前,微软曾透露 Bing Chat 所使用的是 GPT-4 模型,并且在上月的大更新日志中提到了会为 Bing Chat 加入多模态支持。从这些信息的综合来看,Bing Chat 很可能正在逐步开发并向用户开放识图功能测试。
一名网友在 Reddit 上对 Bing Chat 进行了大量的测试,结果发现其表现相当出色。
首先是 GPT-4 最为引人注目的看梗图功能,GPT-4 不仅可理解图片中的内容,还能像人类一样准确分析出梗图的笑点所在。

举例来说,对于一张梗图,GPT-4 很容易看出图片表达的是:用过时的 VGA 形状的接口给 iPhone 充电是一件很荒谬的事,从而引起人们的发笑。

但该网友在测试时却发现,在上传相同的梗图给 Bing Chat 做测试时,Bing Chat 竟然没有认出这是 VGA 接口,由此导致它也没有成功理解其中的笑点。

不过,Bing Chat 仍然能够准确地识别照片,并给出线缆的品牌以及更详细的资料。这也许可以被视为是 Bing Chat 的偶然错误,或者其背后的微软在实际应用 GPT-4 时进行的更多限制和调整所导致的回答偏差。

该网友继续上传了另一幅关于机器学习的梗图漫画,并测试发现 Bing Chat 能够比较准确地给出图中的内容和笑点。

Bing Chat 可以识别图像的精度到底有多高呢?例如,他上传了一张《任天堂大乱斗》游戏的角色图,这张图上有许多角色排列在一起,要求 Bing Chat 一个一个地认出所有的角色。 结果是,Bing Chat 在这 12 个角色中只成功识别出了 7 个。看来,对于二次元的问题,Bing Chat 还存在一定的难度。

OpenAI 还展示了一个拍手绘图就能编程网页的案例,一个网友手画了一张图,想测试一下 Bing Chat 的反应。

接下来,让我们省略冗长的代码环节,直接看看这个网页的效果。可以看出,基础的网页形式已经建立起来了。
加入识图功能,为 Bing Chat 增添了很多用途。毕竟在现实生活中,许多内容(如公式、图表)很难用文字清楚地表达,这时候直接把图像传给 AI 就可以得到回答。

例如,让它解释一下在减数分裂过程中染色体的交叉互换过程。

或者,让它充当生物老师,分析一下肾元过滤的工作原理。


甚至可以让它充当网络医生,简单地诊断症状。 此前,ChatGPT 由于出色的文字理解和表达能力,已经被人们开发出了学外语和练口语的功能。
如果加入了视觉识别功能,Bing Chat 就可以充当初高中乃至大学老师的角色,帮助学生解答复杂的数理化问题。
如果将识图功能推广开来,也许可以在一定程度上解决教育资源不均衡的问题。
此外,用户还可以用它做基础的医疗诊断,节约就医所需要的金钱和时间,体现出 AI 普惠大众的价值。
需要注意的是,尽管 Bing Chat 能基本看懂现实世界的内容,但它的回答只能作为参考,不可作为专业意见。
因此,在完全向公众开放识图功能之前,微软需要做大量的限制和调试,以确保公众不会因误信 AI 的回答而出现安全问题。
在短期内,Bing Chat 识图功能可能仍只是少部分测试性用户才能使用。如果您对此感兴趣,可以立即登录您的微软账户,看看在 Bing Chat 的聊天栏上是否多了一个图片的图标。