首页AI 新闻
HuggingFace + ChatGPT:最强AI组合——HuggingGPT来了
16

HuggingFace + ChatGPT:最强AI组合——HuggingGPT来了

好说新闻
好说新闻
2023-04-04 10:52

HuggingGPT终于来了!这项由由浙大与微软亚研院合作的AI成果,一经发布就迅速走红。

只需用自然语言描述你的任务需求,比如“这张图片里有哪些动物,每种有几只”,HuggingGPT就可以自动分析需要哪些AI模型并调用相应的HuggingFace模型来完成任务。

有朋友惊呼HuggingGPT是一个万能的“GPT调包侠”,但在 NVIDIA 的AI科学家看来,它更像是“Everything APP”愿景的开端,是迈向AGI(人工通用智能)的关键一步。

迈向AGI的关键一步,是要解决不同领域和模式的复杂AI任务,然而目前已有的模型只能完成特定任务。

HuggingGPT论文的作者认为,可以利用大语言模型LLM作为中间控制器来管理现有的所有AI模型,通过“调动和组合每个人的力量”来解决复杂的AI任务,语言可作为通用的接口。

基于这个思想,HuggingGPT诞生了,它的工程流程分为四步:任务规划、模型选择、任务执行和输出结果

ChatGPT将用户的需求解析为任务列表,并确定任务之间的执行顺序和资源依赖关系,然后根据HuggingFace上托管的各专家模型的描述,为任务分配合适的模型,混合端点上被选定的专家模型根据任务顺序和依赖关系执行分配的任务,并将执行信息和结果给到ChatGPT。最后,ChatGPT总结各模型的执行过程日志和推理结果,给出最终的输出

在论文中,作者假设了这样一个请求:

请生成一张女孩正在看书的图片,她的姿势应与example.jpg中的男孩相同。请用你的声音描述新的图片。

通过这个例子,我们可以看到HuggingGPT是如何将任务拆分为6个子任务并选择适当的模型来执行以得到最终结果的。

在实测中,作者采用gpt-3.5-turbo和text-davinci-003这两种变体进行测试,HuggingGPT在具有资源依赖关系的任务中表现良好,能够正确解析出具体任务,如完成图片转换。

在音频和视频任务中,它还展现了组织模型之间合作的能力,通过并行和串行执行两个模型的方式,完成一段“宇航员在太空行走”的视频和配音作品。

此外,它还可以集成多个用户的输入资源,执行简单的推理任务,如数出图片中的斑马数量。

总结一下,HuggingGPT 在各种形式的复杂任务上都能有良好的性能表现。

其实,它不叫「HuggingGPT」

HuggingGPT是一个正在建设中的项目,代码开源了部分,已经获得了1.4k标星。有趣的是,它的项目名称不是HuggingGPT,而是钢铁侠中的AI管家贾维斯(JARVIS)。

这个项目和3月份发布的Visual ChatGPT非常相似,都是由微软亚研院的研究员开展的。

最后,该工具的问世引起了网友们的兴奋,有人表示ChatGPT已经成为人类创建的所有AI的总指挥官,有人认为AGI可能不是一个LLM,而是由一个“中间人”LLM连接的多个相互关联的模型。

而这,是否又意味着我们已经进入了“半AGI”的时代呢?

全部讨论

no data来都来了,坐下聊聊