首页AI 新闻
侵吞全球算力!谷歌 Gemini 被曝算力达 GPT-4 五倍,手握 TPU 王牌碾压 OpenAI
259

侵吞全球算力!谷歌 Gemini 被曝算力达 GPT-4 五倍,手握 TPU 王牌碾压 OpenAI

好说新闻
好说新闻
2023-08-29 15:25
知名的 SemiAnalysis 第三弹又来了!这次,作者爆料谷歌的 Gemini 消耗算力是 GPT-4 的整整 5 倍,手中没有足够 GPU 的人,在商业化战争中铁定出局。

今天,著名的 SemiAnalysis 分析师 Dylan Patel 和 Daniel Nishball,又来爆料行业内幕了。

而整个 AI 社区,再次被这次的消息所震惊:OpenAI 的算力比起谷歌来,只能说是小儿科——

谷歌的下一代大模型 Gemini,算力已达 GPT-4 的 5 倍!

根据 Patel 和 Nishball 的说法,此前屡屡被爆料将成为 GPT-4 大杀器的谷歌 Gemini,已经开始在新的 TPUv5 Pod 上进行训练了,算力高达~ 1e26 FLOPS,比训练 GPT-4 的算力还要大 5 倍。

如今,凭借着 TPUv5,谷歌已经成为了算力王者。它手中的 TPUv5 数量,比 OpenAI、Meta、CoreWeave、甲骨文和亚马逊拥有的 GPU 总和还要多!

虽然 TPUv5 在单芯片性能上比不上英伟达的 H100,但谷歌最可怕的优势在于,他们拥有高效、庞大的基础设施。

没想到,这篇爆料引来 Sam Altman 围观,并表示,「难以置信的是,谷歌竟然让那个叫 semianalysis 的家伙发布了他们的内部营销 / 招聘图表,太搞笑了。 」

有网友却表示,这仅是一篇评论性文章,并非实际新闻,完全是推测。

不过,此前 Dylan Patel 参与的两篇稿件,无一例外都被证实,并且引发了业内的轩然大波。无论是谷歌的内部文件泄漏事件(「我们没有护城河,OpenAI 也没有」)——

还是 GPT-4 的架构、参数等内幕消息大泄密——

下面让我们来仔细看看,这次的爆料文章,又将带来多少重磅内幕消息。

沉睡的巨人谷歌已经醒来

提出 Transformer 开山之作「Attention is all you need」的作者之一、LaMDA 和 PaLM 的关键参与者 Noam Shazeer,曾受 MEENA 模型的启发,写过一篇文章。

这篇文章远远领先于他的时代,但却被谷歌的决策者忽略了。

论文地址:https://arxiv.org/pdf/2001.09977.pdf

现在,谷歌拥有算力王国所有的钥匙,沉睡的巨人已经醒来,他们的向前迭代的速度已经无法阻挡,在 2023 年底,谷歌的算力将达到 GPT-4 预训练 FLOPS 的五倍。

谷歌是否会在不削减创造力、不改变现有商业模式的基础上在这条路上继续深耕?目前无人知晓。

「GPU 富豪」和「GPU 穷人」

现在,手握英伟达 GPU 的公司,可以说是掌握了最硬的硬通货。

OpenAI、谷歌、Anthropic、Inflection、X、Meta 这些巨头或明星初创企业,手里有 20 多万块 A100/H100 芯片,平均下来,每位研究者分到的计算资源都很多。

个人研究者,大概有 100 到 1000 块 GPU,可以玩一玩手头的小项目。

而到 2024 年底,GPU 总数可能会达到十万块。

现在在硅谷,最令顶级的机器学习研究者自豪的谈资,就是吹嘘自己拥有或即将拥有多少块 GPU。

在过去 4 个月内,这股风气越刮越盛,以至于这场竞赛已经被放到了明面——谁家有更多 GPU,大牛研究员就去哪儿。

Meta 已经把「拥有世界上第二多的 H100 GPU」,直接拿来当招聘策略了。

他们只能在更大的模型上来微调一些排行榜风格基准的小模型,这些模型的评估方法也很支离破碎,更强调的是风格,而不是准确性、有用性。

他们也不知道,只有拥有更大、更高质量的预训练数据集和 IFT 数据,才能让小开源模型在实际工作负载中得到改进。

「谁将获得多少 H100,何时获得 H100,都是硅谷现在的顶级八卦。」OpenAI 联合创始人 Andrej Karpathy 曾经这样感慨

是的,高效使用 GPU 很重要,许多 GPU 穷人把这一点忽视了。他们不关心规模效应的效率,也没有有效利用自己的时间。

到明年,世界就会被 350 万 H100 所淹没,而这些 GPU 穷人,将彻底与商业化隔绝。他们只能用手中的游戏用 GPU 来学习、做实验。

大部分 GPU 穷人仍然在使用密集模型,因为这就是 Meta 的 Llama 系列模型所提供的。

如果不是扎克伯格的慷慨,大部分开源项目会更糟。

如果他们真的关心效率,尤其是客户端的效率,他们会选择 MoE 这样的稀疏模型架构,并且在更大的数据集上进行训练,并且像 OpenAI、Anthropic、Google DeepMind 这样的前沿 LLM 实验室一样,采用推测解码。

处于劣势的公司应该把重点放在提高模型性能或减轻 token 到 token 延迟上,提高计算和内存容量要求,减少内存带宽,这些才是边缘效应所需要的。

然而,事实却恰恰相反,他们却过于关注内存容量限制或量化程度太高,却对模型实际质量的下降视而不见。

总的来说,现在的大模型排行榜,已经完全乱套了。

虽然闭源社区还有很多人在努力改进这一点,但这种开放基准毫无意义。

出于某种原因,人们对 LLM 排行榜有一种病态的痴迷,并且为一些无用的模型起了一堆愚蠢的名字,比如 Platypus 等等。

在以后,希望开源的工作能转向评估、推测解码、MoE、开放 IFT 数据,以及用超过 10 万亿个 token 清洗预训练数据,否则,开源社区根本无法与商业巨头竞争。

现在,在大模型之战的世界版图已经很明显:美国和中国会持续领先,而欧洲因为缺乏大笔投资和 GPU 短缺已经明显落后,即使有政府支持的超算儒勒 · 凡尔纳也无济于事。而多个中东国家也在加大投资,为 AI 建设大规模基础设施。

当然,缺乏 GPU 的,并不只是一些零散的小初创企业。

即使是像 HuggingFace、Databricks(MosaicML),以及 Together 这种最知名的 AI 公司,也依然属于「GPU 贫困人群」。

事实上,仅看每块 GPU 所对应的世界 TOP 级研究者,或者每块 GPU 所对应的潜在客户,他们或许是世界上最缺乏 GPU 的群体。

虽然拥有世界一流的研究者,但所有人都只能在能力低几个数量级的系统上工作。

虽然他们获得了大量融资,买入了数千块 H100,但这并不足以让他们抢占大部分市场。

你所有的算力,全是从竞品买的

在内部的各种超级计算机中,英伟达拥有着比其他人多出数倍的 GPU。

其中,DGX Cloud 提供了预训练模型、数据处理框架、向量数据库和个性化、优化推理引擎、API 以及英伟达专家的支持,帮助企业定制用例并调整模型。

如今,这项服务也已经吸引了来自 SaaS、保险、制造、制药、生产力软件和汽车等垂直行业的多家大型企业。

即便是不算上那些未公开的合作伙伴,仅仅是由安进(Amgen)、Adobe、CCC、ServiceNow、埃森哲(Accenture)、阿斯利康(AstraZeneca)、盖蒂图片社(Getty Images)、Shutterstock、晨星(Morningstar)、Evozyne、Insilico Medicine、Quantiphi、InstaDeep、牛津纳米孔(Oxford Nanopore)、Peptone、Relation Therapeutics、ALCHEMAB Therapeutics 和 Runway 等巨头组成的这份比其他竞争对手要长得多的名单,就已经足够震撼了。

作为行业中最有影响力的公司之一,HuggingFace 需要利用这一点来获得巨额投资,建立更多的模型、定制和推理能力。但在最近一轮的融资中,过高的估值让他们并没有得到所需的金额。

Databricks 虽然可以凭借着数据和企业关系迎头赶上。但问题在于,如果想要为超过 7,000 个客户提供服务,就必须将支出增加数倍。

不幸的是,Databricks 无法用股票来购买 GPU。他们需要通过即将开始的私募 / IPO 来进行大规模融资,并进一步用这些现金来加倍投资于硬件。

这里的关键在于,Databricks、HuggingFace 和 Together 明显落后于他们的主要竞争对手,而后者又恰好是他们几乎所有计算资源的来源。

也就是说,从 Meta 到微软,再到初创公司,实际上所有人都只是在充实英伟达的银行账户。

那么,有⼈能把我们从英伟达奴役中拯救出来吗?

是的,有⼀个潜在的救世主——谷歌。

谷歌算⼒之巅,OpenAI 不及一半

虽然内部也在使用 GPU,但谷歌的手中却握着其他「王牌」。

其中,最让业界期待的是,谷歌下一代大模型 Gemini,以及下一个正在训练的迭代版本,都得到了谷歌⽆与伦⽐的⾼效基础设施的加持。

早在 2006 年,谷歌就开始提出了构建人工智能专用基础设施的想法,并于 2013 年将这一计划推向高潮。

他们意识到,如果想大规模部署人工智能,就必须将数据中心的数量增加一倍。

因此,谷歌开始为 3 年后能够投入生产的 TPU 芯片去做准备。

最著名的项目 Nitro Program 在 13 年发起,专注于开发芯片以优化通用 CPU 计算和存储。主要的目标是重新思考服务器的芯片设计,让其更适合谷歌的人工智能计算工作负载。

自 2016 年以来,谷歌已经构建了 6 种不同的 AI 芯片,TPU、TPUv2、TPUv3、TPUv4i、TPUv4 和 TPUv5。

谷歌主要设计这些芯片,并与 Broadcom 进行了不同数量的中后端协作,然后由台积电生产。

TPUv2 之后,这些芯片还采用了三星和 SK 海力士的 HBM 内存。

在介绍 Gemini 和谷歌的云业务之前,爆料者先分享了关于谷歌疯狂扩张算力的一些数据——各季度新增加的⾼级芯⽚总数。

而对于谷歌来说,所有人都忽视了,谷歌拥有 TPUv4(PuVerAsh)、TPUv4 lite,以及内部使⽤的 GPU 的整个系列。

此外,TPUv5 lite 没有在这里算进去,尽管它可能是推理较⼩语⾔模型的主⼒。

如下图表中的增长,只有 TPUv5(ViperAsh)可视化。

实际上,谷歌拥有的 TPUv5 比 OpenAI、Meta、CoreWeave、甲骨文和亚马逊拥有的 GPU 总和还要多。

当然,就每个芯片方面的性能来说,TPUv5 与 H100 相比有显著的差距。

撇开这点不说,OpenAI 的算力只是谷歌的一小部分。与此同时,TPUv5 的构建能够大大提升训练和推理能⼒。

此外,谷歌全新架构的多模态大模型 Gemini,一直在以令人难以置信的速度迭代。

据称,Gemini 可以访问多个 TPU pod 集群,具体来讲是在 7+7 pods 上进行训练。

爆料者表示,初代的 Gemini 应该是在 TPUv4 上训练的,并且这些 pod 并没有集成最大的芯片数——4096 个芯⽚,而是使用了较少的芯片数量,以保证芯片的可靠性和热插拔。

如果所有 14 个 pod 都在合理的掩模场利用率(MFU)下使⽤了约 100 天,那么训练 Gemini 的硬件 FLOPS 将达到超过 1e26。

作为参考,爆料者在上次「GPT-4 架构」文章中曾详细介绍了 GPT-4 模型的 FLOPS 比 2e25 稍高一点。

而⾕歌模型 FLOPS 利⽤率在 TPUv4 上⾮常好,即使在⼤规模训练中,也就是 Gemini 的第⼀次迭代,远远⾼于 GPT-4。

尤其是,就模型架构优越方面,如增强多模态,更是如此。

真正令人震惊的是 Gemini 的下一次迭代,它已经开始在基于 TPUv5 的 pod 上进⾏训练,算力高达~ 1e26 FLOPS,这比训练 GPT-4 要大 5 倍。

据称,第⼀个在 TPUv5 上训练的 Gemini 在数据⽅⾯存在⼀些问题,所以不确定谷歌是否会发布。

这个~ 1e26 模型可能就是,公开称为 Gemini 的模型。

再回看上⾯的图表,这不是⾕歌的最终形态。⽐赛已经开始了,而⾕歌有着巨⼤的优势。

如果他们能够集中精力并付诸实施,至少在训练前的计算规模扩展和实验速度方面,他们终将胜出。

他们可以拥有多个比 OpenAI 最强大的集群,还要强大的集群。谷歌已经摸索了一次,还会再来一次吗?

当前,⾕歌的基础设施不仅满⾜内部需求,Anthopic 等前沿模型公司和⼀些全球最⼤的公司,也将访问 TPUv5 进⾏内部模型的训练和推理。

⾕歌将 TPU 迁移到云业务部门,并重新树立了商业意识,这让他们赢得了一些大公司的青睐果断战斗。

未来几个月,你将会看到谷歌的胜利。这些被推销的公司,有的会为它的 TPU 买单。

参考资料:

https://www.semianalysis.com/p/google-gemini-eats-the-world-gemini

转载自 新智元查看原文

全部讨论

no data来都来了,坐下聊聊