一周 AI 要点:Google 推出全新大模型,再向 GPT-4 下战书
在这一周,谷歌 “开大了”,扔出了 PaLM 2 这颗大模型 “重磅炸弹”,在 Google I/O 2023 大会上展示了多项能力对比,再一次向 GPT-4 下了 “战书”。
谷歌推出 PaLM 2 大模型
现场演示有部分能力超越 GPT-4
5 月 11 日(周四),Google I/O 2023 大会如期而至,除了发布旗下搭载自研处理器的首款折迭屏手机 Pixel Fold 、Android 14 新系统外,本届大会的重头戏更多的是在 AI 领域。
其中,Google 隆重介绍了全新一代的大语言模型 PaLM 2,比起前代它在语言处理、推理和编码能力上有了很大的提升,据 Google 测试,PaLM 2 的部分能力表现(如数学)会比 GPT-4 还要好。
另外,能 “看懂和生成音视频内容” 的多模态特性、上至 “云” 下至 Android 本机运行的多规模版本 这两个特性,也是它的杀手锏。Google 也很清楚自己的现有优势,让 Android 插上 PaLM 2 的 “翅膀”,对自己的 AI 普及战略有很大的帮助。
随着 PaLM 2 的发布,迁移至 PaLM 2 模型的 Bard 也全面升级、不同于往日,不仅新增了图片问答功能,还取消了等候名单,宣布全面开放使用。
SD 开发商上线 Stable Animation SDK
「AI 动画」时代来临
Stable Diffusion 把人们带入了 “AI 绘画” 的时代。5 月 12 日(周五),又一次的 “AI 创作” 革命又要来了,SD 开发商 Stability AI 发布了 Stable Animation SDK,这是一个为艺术家和开发人员设计的工具,用于实现最先进的 Stable Diffusion 模型,生成惊人的动画。
据官网介绍,Stable Animation 用户目前可以通过 SDK 以 文字生成动画、文字输入 + 初始图像输入、输入视频 + 文字输入 3 种不同的方式来创建动画。
不过,目前我们暂时不能纯本地部署、运行它,而是需要通过 Stability AI 的算力、付出一定的金钱来进行使用,好在有媒体根据官方公式计算,1 块钱人民币就可以生成一段 100 帧的视频,如果仅是尝鲜试用的话价格还算 “平价”。
HuggingFace 推出官方版「HuggingGPT」
Transformers Agents API 来了
以前我们介绍过由 浙大 x 微软 推出的 “AI 调度台” HuggingGPT,用户只需用自然语言给到需求,HuggingGPT 就能利用 ChatGPT 来连接 HuggingFace 社区的各种 AI 模型来完成多模态复杂任务。
而现在 HuggingFace 官方也推出了官方版的 “HuggingGPT”——Transformers Agents API。通过这个 API,你可以控制 10 万多个 Hugging Face 模型来完成各种多模态任务。
简单举例,如果你想让 Transformers Agents 用声音告诉你图上画了什么,你要做的就是告诉指令,它则会把指令自动化为 Prompt 并调用模型、工具,和 HuggingGPT 的目的一样——努力去充当一个称职的 “调度台”。
尽管这离 “Everything APP” 的概念还为时尚早,但也多少往这个方向前进了一步。
「AI 孙燕姿」火爆全网
一起来了解背后的 AI 模型
最近,“AI 孙燕姿”走红 B 站、微博等社交网络,人们发现原来自己就能让 “孙燕姿” 唱出各种她没唱过的歌曲。
而这些歌声的背后,其实都源自于一项叫做 So-VITS-SVC 4.0 的 AI 模型。与各种要求较高的语言模型不同,So-VITS-SVC 4.0 对硬件的要求相对友好了不少,只要是显存 6G 以上的显卡就能自己训练、推理想要的人声模型。
简单来讲,我们只需要准备足够时长、干净清楚的训练原声(类似咱们 AI 画图 img2img 的垫图),做好格式处理,剩下的就能交给 显卡、时间和懒人包一键训练。
如果你已经拥有训练好的人声模型,那只要导入你需要他唱的歌曲干音,通过懒人包就可以在一两分钟内得到像是 “孙燕姿翻唱”、“周杰伦翻唱” 版本的 AI 大碟了。
当然,So-VITS-SVC 4.0 的开发者们也明确向大家强调,AI 模型的应用一定要遵纪守法、不侵害他人权利,只有在一定的规则之下,这项有趣的技术才能更好地发展。
本周AI应用推荐
Akuma:"一个快速创建“会说”“会动”纸片人的网站
👉 https://www.hayo.com/entry/3087
Copilot Hub:1秒钟将长视频变成易于传播的短视频
👉 https://www.hayo.com/entry/2988
Skybox Lab:用 prompts 生成 360°VR 场景
👉 https://www.hayo.com/entry/2940
News Minimalist:用 GPT-4 阅读 1000 篇新闻,选出最重要的新闻
👉 https://www.hayo.com/entry/2911
ChatGPT Adventure:基于ChatGPT的文字冒险游戏
👉 https://www.hayo.com/entry/2882
Call Annie:随时随地,和ChatGPT视频通话
👉 https://www.hayo.com/entry/2700
LLaVA:视觉对话模型,可达到 GPT4 85%的水平
👉 https://www.hayo.com/entry/2881
“AI 孙燕姿” 的走红告诉了科技从业者:原来 AI 原来可以这么 “接地气”,一下子被人们接受。AI 在不断求新求发展的同时,也应该更好地融入日常、服务大众。毕竟发展 AI 的是人,无论何时都应该记得 “以人为本”。
Because it's there.