GPT-4 大杀器谷歌 Gemini 来袭!26 位研发大佬名单曝出,祭出类 Midjourney 生图能力
据 The Information 爆料,谷歌已集结数百工程师团队,全新大杀器 Gemini 结合了 GPT-4、Midjourney、Stable Diffusion 三大模型的能力,即将于今年秋天上线。
谷歌的全新大杀器 Gemini,即将和全世界见面了!
据传,Gemini 不仅能像 GPT-4 一样可以进行文本对话,还融合了 Midjourney、Stable Diffusion 的能力,能够生成图像。
为了对抗 OpenAI,谷歌 CEO 劈柴在今年 4 月迈出了绝非寻常的一步,将拥有完全不同文化和代码的团队——谷歌大脑和 DeepMind 合并。
现在,集结了数百位工程师的谷歌复仇者联盟已经全军待命,日夜赶工,只为狙击 OpenAI 的 GPT-4,一举重夺 AI 领域的头把交椅。
谷歌创始人谢尔盖 · 布林也已重回战壕,亲自操刀 Gemini 的训练。
据称,今年秋天,Gemini 就会面世,而谷歌的考验也即将到来。
复仇者联盟名单已被曝出
押注 Gemini,打造 GPT-4 最强杀手
根据知情人士的爆料,Gemini 将 LLM 的文本能力与文生图的能力相结合。
也就是说,它相当于 GPT-4 和 Midjourney/Stable Diffusion 的合体版。
这也是外界首次听说,Gemini 具有如此强大的绘图能力。
另外,它还能够提供分析图表、创建带有文本描述的图形、使用文本或语音命令控制软件。
在 6 月底,谷歌 DeepMind CEO Hassabis 也曾爆料,Gemini 将结合进 AlphaGo 和大语言模型,而谷歌 DeepMind 已经准备好砸进数千万美元,甚至数亿。
Gemini 会整合使用了强化学习和树搜索的 AlphaGO,以及机器人、神经科学等领域的技术。
可以说,谷歌把重注押在了 Gemini 身上,Gemini 会为 Bard 聊天机器人提供动力,推动 Google Docs、Slides 等企业级应用。
另外,谷歌还希望通过云服务器租赁服务,向开发者收取访问 Gemini 的费用。
目前,谷歌云通过 Vertex AI 产品售卖对谷歌 AI 模型的访问
如果这些新功能实现,谷歌很有可能会赶上微软。
毕竟,微软在 AI 产品上已经领先不少,Office 365 应用中包含 AI 功能,其应用程序也会对用户出售对 ChatGPT 的访问权限。
彭博社风投分支 Bloomberg Beta 的 AI 初创企业投资人 James Cham 对彭博社表示,「过去 9 个月里,每个人都在问这样一个问题:什么时候才能有一家公司,看起来有赶超 OpenAI 的可能?」
「现在,终于似乎有一个模型,可以和 GPT-4 旗鼓相当了。」
谷歌,被迫走出舒适区
随着 OpenAI 的崛起,谷歌也不得不在保证核心搜索业务的情况下,试着推出新的技术了。
据内部人士透露,在推出 Gemini 之前,谷歌很可能就会在某些产品中使用它。
过去,谷歌会使比较简单的模型来改进搜索,但是像 Bard 以及 Gemini 这样的产品,需要通过分析大量图像和文本,来生成更像人类的回答。
如此海量数据所带来的潜在巨额服务器成本,也是谷歌必须要控制的。
更新之后的 Bard,更强大了
手握 YouTube 的优势
根据 The Information 报道,谷歌对 Gemini 进行了大量 YouTube 视频的训练。
并且,Gemini 还可以把音频和视频集成到模型自身,形成多模态能力,而后者,已经被许多研究者认为是 AI 的下一个前沿。
比如,根据 YouTube 视频训练的模型,可以帮助机械师根据视频诊断汽车的维修问题。
或者可以根据用户想要创建网站或应用程序的草图,来生成软件代码。此前,OpenAI 曾展示了 GPT-4 的这项功能,但目前尚未推出。
OpenAI 老板 Greg Brockman 曾演示 GPT-4 读图写网页代码的能力,但似乎鸽了
使用 YouTube 内容,还可以帮助谷歌开发更先进的文本转视频软件,根据用户想看的内容描述,自动生成详细的视频。
这类似于谷歌支持的初创公司 RunwayML 正在开发的技术,现在好莱坞的内容创作者们都在密切关注这项技术的发展。
Google DeepMind,发起全面反击
2011 年,谷歌创立了谷歌大脑(Google Brain),旨在构建起谷歌自己的 AI,来优化搜索的结果、广告精准投放,以及在 Gmail 中的自动填充等功能。
而位于伦敦的 DeepMind 则更多地致力于学术研究——2016 年 Alpha Go 以 4 比 1 的成绩战胜了李世石,这项工作被人们视为通向通用人工智能(AGI)道路上的重要里程碑。
谷歌除了会用 DeepMind 开发的软件提高数据中心的运行效率外,DeepMind 的工作并没有对其核心产品产生太大影响。
但在去年年底,一切都改变了。
2022 年 11 月,OpenAI 发布了 ChatGPT,短短几周内用户人数飙升到了数千万,之后更是达成了用户破亿最短时间的成就。
几个月内,OpenAI 的收入就达到数亿美元,并且在这期间微软新投资了 100 亿美元、数不清的资本热钱向着 OpenA 流去,OpenAI 的市值、知名度都达到了一个前所未有的高度。
这时,谷歌才意识到,自己在 AI 领域的领导地位已经岌岌可危了。
谷歌大脑 + DeepMind=?
今年 4 月,陷入被动的谷歌放出终极大招:谷歌大脑和 DeepMind 正式合并!
「王不见王」的两大部门居然合体了,这一举动也是让瓜众们惊掉了下巴。
合并后的 Google DeepMind 将由 DeepMind 首席执行官 Demis Hassabis 领导,而前谷歌 AI 负责人 Jeff Dean 接任首席科学家一职。
现在,至少有 26 名大佬正在负责 Gemini 的开发,这些人包括曾在谷歌大脑和 DeepMind 工作的研究人员。
知情人士称, DeepMind 的两位高管 Oriol Vinyals 和 Koray Kavukcuoglu,将和前谷歌大脑负责人 Jeff Dean 一起负责 Gemini 的开发。他们将监督数百名参与 Gemini 开发的员工。
另外,谷歌的联合创始人谢尔盖 · 布林也老将出马,久违地回归了。
谢尔盖 · 布林和拉里 · 佩奇
他一直在对 Gemini 模型进行评估,并帮助员工训练模型。
据爆料,在团队发现 Gemini 意外地接受了潜在攻击性内容的训练后,布林也参与到了重新训练模型的技术决策过程中。
「意外联姻」的阵痛
随着谷歌大脑和 DeepMind 的合并,新团队很快就遇到了非常严峻的问题——代码怎么合并,用谁家的软件开发?
毕竟,这两个部门的代码库在之前是完全独立的。
虽然双方在各让一步之后达成了妥协:
在模型的预训练阶段,使用谷歌大脑用于训练机器学习模型的软件 Pax 在后期阶段,使用 DeepMind 用于开发模型的软件 Core Model Strike
但据内部人士爆料,还是有不少员工因为不得不使用自己不熟悉的软件而愤愤不平。
除此之外,谷歌和 DeepMind 都针对 ChatGPT 开发了自己的模型。
DeepMind 着手开展了一个代号为 Goodall 的项目,旨在使用未公开模型 Chipmunk 的不同变体来开发一个与 ChatGPT 竞争的系统。而谷歌大脑则开发立项了 Gemini。
最终,DeepMind 决定放弃自己原先的努力,选择基于谷歌大脑的项目合作开发 Gemini。
有趣的是,在远程工作的政策上,据说谷歌大脑的态度也要比 DeepMind 宽松得多。
内耗、狼狈、反攻
比起 OpenAI 那边的形势一片大好,谷歌则陷入了一场精疲力尽的内耗中。
先是一连多个高级技术人才出走,如 Liam Fedus、Barret Zoph 和 Luke Metz 等在内的研究人员,纷纷选择加入 OpenAI。
虽然谷歌找回了一些人才:比如重新招回了 Jacob Devlin 和 Jack Rae。
Jacob Devlin 批评 Bard 的开发后,在今年 1 月份去了 OpenAI。而 Jack Rae 是前 DeepMind 的研究员,在 2022 年加入了 OpenAI。
此前,Devlin 向劈柴、Dean 等高管表达了对 Bard 团队使用 ChatGPT 数据训练的担忧,随后辞职
接着,谷歌为了对抗一枝独秀的 ChatGPT,也为了重回人工智能赛道领航者的地位,在今年 2 月的时候匆忙发布了聊天机器人 Bard。
然而,发布会却因一个低级的事实性错误惨遭翻车,导致公司的市值在一夜之间蒸发了千亿美元。
谷歌的第一次反攻,以狼狈收尾。
到了 5 月,谷歌 I/O 大会上发布了全新的 PaLM 2 模型,大大改进了 Bard 回答问题和生成代码的能力。
同时发布的,还有将生成式 AI 和自己传统搜索服务结合起来的 Search Generative Experience(SGE)。
简单来说,SGE 是一个类似 Bing Chat 的 AI 搜索服务,但并没有直接使用新的聊天窗口,而是将 AI 生成的内容集合在搜索结果中展示给用户。
也就是说,在搜索的同时,谷歌会利用 AI 为搜索的内容提供说明,回答用户提出的问题,帮用户做旅行规划等等。
而用户不再需要货比三家般的在多个链接之间来回跳转,也不用花心力去判断哪个链接背后的信息是真的,因为所有可用的内容都被集中到了 AI 收集到的回复之中。
在最近的更新中,谷歌添加了让 SGE 在 AI 生成的回复内容中附加图片和视频的功能,帮助用户更加直观的了解自己搜索的知识和信息。
就像 Bing Chat 一样,SGE 的 AI 响应中也会有标注了发布时间的链接,来支持由 AI 生成的回复内容。如果用户对于相关的信息感兴趣,点击链接就能更加全面地了解具体的内容。
在 AI 生成的回复中,对于很多知识性的信息和概念,用户能够直接通过鼠标的悬停,就能获取到概念准确的定义。
现在针对科学,历史,经济等知识性问题的 AI 回复,都已经上线这个功能。
而对于需要浏览很冗长的网页信息来学习或者了解信息的用户,SGE 还更新了一个网页内的 AI 概括功能——SGE while browsing。
这个功能相当于给用户提供了一个随时听候差遣的「大纲生成器」。对于任何篇幅比较长的网页内容,用户都可以用它来生成大纲,快速掌握要点。
在下方的 Explore the Page 部分,用户还能看到和页面内容相关的问题。如果用户对于问题感兴趣,直接点击,就能看到文章中内容是如何解答这些问题的。
然而,是由于谷歌保守的市场策略,SEG 目前只允许美国本土的用户采用 Waiting List 申请测试。
所以可能大部分用户甚至都不知道,谷歌已经推出了这样一个服务。
总之,据悉两部门合体后,至少测试了 21 项生成式 AI 工具,甚至还包含为用户提供生活建议和心理辅导的工具。
在去年紧急解雇了声称聊天 AI 有意识的工程师的谷歌,现在居然也开始探索这类「敏感」地带,可见真的是决定放手一搏了。
Gemini 项目,目前形势大好
不过,两个团队的合并,对于一些正在负责 Gemini 项目的工程师来说,确实是个不小的惊喜。
曾在 DeepMind 工作的 James Molloy 和 Tom Hennigan 与谷歌资深研究员 Paul Barham 一起负责基础设施。
Timothy Lillicrap 曾在 DeepMind 从事国际象棋和围棋方面的系统开发工作,而谷歌大脑的研究员 Emily Pitler 则领导一个团队,专注于使 LLM 具备处理数学或网络搜索等专门任务的能力。
但除了合并组织中的人员安排问题,Gemini 团队在开发过程中还面临着巨大的挑战,如确定可以用于模型训练的数据等。
因此,谷歌的律师们一直在密切评估这项训练工作。
在一个案例中,由于担心版权持有者的反对意见,律师们要求研究人员删除了来自教科书的训练数据。
而这些数据本可以帮助训练模型回答有关天文学或生物学等领域的问题。
不过,谷歌前高管、VC 公司 Felicis Ventures 的创始人 Aydin Senkut 评价 Gemini 的发布让他看到了「谷歌决心再次走在最前沿,而不是极度保守」。
Aydin Senkut 也十分赞同谷歌的决定:
「这是正确的方向。最终,他们会火的。」
参考资料:
https://www.theinformation.com/articles/the-forced-marriage-at-the-heart-of-googles-ai-race