谷歌与 Meta 的 PyTorch 合作,挑战英伟达在人工智能领域的统治地位

最后更新: 12/17/2025
作者: C 源跟踪
  • 谷歌正在开发“TorchTPU”,使其人工智能芯片与 PyTorch 完全兼容,并简化从英伟达 GPU 的迁移。
  • 此举旨在将 TPU 打造成云端和本地部署的主流替代方案,从而减少对英伟达 CUDA 生态系统的依赖。
  • Google 正在与 PyTorch 的维护者 Meta 密切合作,并考虑开源部分技术栈以加快其普及速度。
  • 更强大的 PyTorch 支持可以降低企业实现 AI 基础设施多元化的成本和技术门槛。

人工智能硬件和软件生态系统

谷歌正在悄然重塑其 人工智能计算竞赛中的战略. 经过多年专注于自身内部结构之后,该公司现在真正重视使其人工智能芯片与 PyTorch 无缝协作,PyTorch 是一款开源工具包,已成为全球大多数人工智能开发人员的默认选择。

这一转变的核心是一个内部称为“项目”的项目 “TorchTPU”这项举措旨在缩小谷歌硬件构建方式与客户实际构建人工智能系统方式之间的差距。通过提升 PyTorch 在其张量处理单元 (TPU) 上的支持水平,谷歌希望逐步缩小这一差距。 英伟达通过其CUDA软件生态系统构建了巨大的优势。.

谷歌将TPU打造成英伟达GPU的强劲对手

谷歌的TPU长期以来一直被宣传为 专为人工智能工作负载量身定制的高性能芯片但它们的普及程度远不及英伟达的GPU。一个关键原因是,英伟达多年来致力于确保PyTorch在其硬件上拥有卓越的运行性能,而谷歌则主要专注于自身的工具和内部工作流程。

在Alphabet内部,TPU已经成为一种 谷歌云的关键增长引擎现在,通过其云平台出售这些芯片的使用权,已成为谷歌向投资者证明其人工智能投资可以转化为切实收入(而不仅仅是研究声望或实验性产品)的核心举措之一。

然而,单靠硬件本身并不能赢得开发者的青睐。有意向使用TPU的企业已经多次向谷歌反映过这一点。 软件兼容性一直是个棘手的问题。:那些已经高度标准化使用 PyTorch 的团队不想仅仅为了尝试一款新芯片而重新设计他们的代码或重新培训员工。

这就是 TorchTPU 的用武之地。该计划旨在从开发者的角度出发,让 TPU 感觉更易于使用。 使用 PyTorch 就像如今使用 Nvidia GPU 一样简单直接。目标是使现有的 PyTorch 模型和管道能够以最小的改动迁移过去,从而大幅降低使用 TPU 进行实验的成本和风险。

谷歌云发言人避免深入探讨技术细节,但证实其总体目标是为客户提供…… 它们在运行人工智能工作负载方面具有更大的灵活性无论他们选择哪种底层硬件。

TorchTPU 对 PyTorch 开发者的真正改变是什么?

PyTorch 最初由 Meta 创建和推广,现已成为 构建现代人工智能系统的事实上的标准框架硅谷及其他地区的大多数工程师并不手动编写英伟达、AMD 或谷歌芯片的内核;相反,他们依赖于 PyTorch 和类似的框架,这些框架提供了预构建的组件层和训练工具。

自 2016 年发布以来,PyTorch 的发展与以下因素密切相关: CUDA及其周边图书馆PyTorch 是许多华尔街分析师认为英伟达最重要的战略资产。英伟达的工程师投入巨资,确保 PyTorch 在其 GPU 上以最高效率运行,使其成为训练和部署大规模 AI 模型的首选方案。

相比之下,谷歌花了数年时间支持 贾克斯这是另一个软件框架,尤其受到其自身研发和产品团队的青睐。TPU 依赖于一个名为 的编译器层。 XLA 为了高效运行基于 Jax 的代码,谷歌内部的许多 AI 软件栈和性能优化都是围绕这种组合构建的。

结果是,两者之间的不匹配日益加剧。 谷歌自身如何使用其芯片 以及大多数外部客户偏好的工作方式。许多企业几乎完全采用 PyTorch 作为标准框架,这意味着迁移到 TPU 通常意味着工具、代码和开发人员技能方面的颠覆性变革。

谷歌正试图通过 TorchTPU 消除这种摩擦。该项目旨在实现 TPU 上全面支持 PyTorch这样一来,企业只需更改底层硬件目标,即可继续使用熟悉的库、训练循环和部署模式。这可以显著降低希望评估 TPU 性能或成本优势的团队的工程工作量和学习难度。

更多资源、开源软件和更深层次的承诺

据知情人士透露,TorchTPU 并非又一个无关紧要的实验项目。与之前一些尝试让 PyTorch 在 TPU 上运行的尝试不同,谷歌现在已经分配了多个 TPU 实例。 更多组织关注、预算和战略重要性 这项努力被视为其人工智能基础设施路线图的核心支柱,而不是一个小众的兼容性项目。

正在考虑的最值得注意的因素之一是 将软件栈的部分内容开源 TorchTPU 的背后是谷歌。通过向社区发布关键组件,谷歌希望加速其普及应用,吸引外部贡献者,并在那些希望其人工智能平台具有透明度和长期稳定性的大型客户中建立信任。

这种更加开放的态度也是为了安抚那些认为TPU支持与谷歌内部运作方式过于紧密相关的公司。让外部开发者有机会检查、扩展和调试TorchTPU组件,可能会带来意想不到的好处。 TPU 感觉不像是一个专有的孤岛 更像是 PyTorch 生态系统中的一等公民。

对企业而言,这在实际层面上意义重大。如果 TorchTPU 成功,可能会产生显著的影响。 降低从英伟达GPU迁移到谷歌TPU的成本这使得在不进行多年软件重写的情况下实现计算基础设施多样化变得更加可行。

客户多次向谷歌反映,必须切换到 Jax 的历史遗留问题是一大阻碍。PyTorch 已在人工智能开发者中占据主导地位,在瞬息万变的市场中,很少有组织愿意为了让团队切换到 Jax 而暂停产品路线图。 围绕新框架进行重新调整 只是为了使用其他硬件。

从内部硬件到广泛的企业产品

长期以来,Alphabet 将其大部分 TPU 容量保留了下来。 Google 内部使用它为搜索、翻译、推荐系统和早期人工智能研究提供支持。但这种情况在2022年开始转变,当时云计算部门被赋予了更大的权力来决定TPU的产品化和销售方式。

从那时起,TPU 的可用性通过 Google Cloud 的增长已大幅提升。随着企业对人工智能的兴趣日益浓厚,谷歌将其芯片定位为一种让客户无需管理自己紧密耦合的 GPU 集群即可利用高端计算能力的方式。

最近,谷歌更进一步, 直接销售TPU,供客户部署在自己的数据中心。不仅仅是通过其公共云。这种转变使得那些对监管或延迟有严格要求的大型组织能够将 TPU 集成到其本地基础设施中,同时还能受益于谷歌的硬件路线图。

此次扩张也重塑了谷歌的内部优先事项。该公司需要TPU容量,既是为了…… 运营自己的AI产品从 Gemini 聊天机器人到 AI 驱动的搜索功能,以及为外部 Google Cloud 客户(包括 Anthropic 等依赖租用 TPU 容量的知名 AI 公司)提供服务。

为了协调这一切,谷歌提升了人工智能基础设施领导层的地位:一位资深高管 阿明·瓦赫达 被任命为人工智能基础设施负责人,现在直接向首席执行官汇报工作。 孙大信桑达这一报道凸显了硬件和软件堆栈对于谷歌更广泛的人工智能雄心壮志的重要性。

与 Meta 合作,增强 PyTorch 在 TPU 上的运行能力

谷歌并非独自推进 TorchTPU 项目。据知情人士透露,该公司正与……密切合作。 Meta,PyTorch 的创建者和维护者为了加快对 TPU 的支持,并就有利于双方合作伙伴的技术方向达成一致。

两家公司之间的讨论包括一些安排,这些安排将使Meta受益。 获取更多 TPU 容量据报道,早期的提案将其定位为托管服务:谷歌将把芯片部署在 Meta 可以运行自己的软件和模型的环境中,而谷歌则负责大部分运营开销。

对于 Meta 而言,让 PyTorch 在更广泛的硬件上高效运行具有重要的战略意义。该公司有明确的动机来实现这一点。 降低推理成本,并摆脱对英伟达GPU的过度依赖这样做既可以降低自身支出,也可以增强未来芯片采购谈判中的议价能力。

通过与谷歌合作,Meta可以帮助确保PyTorch继续存在下去。 与硬件无关且经过广泛优化而不是被视为与单一供应商的生态系统紧密绑定。这反过来又巩固了 PyTorch 作为社区标准的地位,并使该框架对研究人员和企业都保持吸引力。

Meta公司迄今为止拒绝就这些具体安排发表公开评论,但是 利益一致性显而易见这家社交媒体和人工智能巨头希望有除英伟达之外的其他选择,而谷歌则希望 PyTorch 在其 TPU 上感觉像原生应用一样,以便更多客户愿意尝试使用它们。

逐渐削弱英伟达的CUDA优势

英伟达在人工智能领域的统治地位并非仅仅体现在强大的GPU产品上。多年来,该公司构建了一个庞大的软件栈——以GPU为核心——并与PyTorch等框架深度集成。这种软硬件结合的模式已成为尖端人工智能模型训练和推理的默认平台。

由于这种紧密的整合,许多组织都看到了 放弃英伟达既冒险又昂贵代码库、工作流程和员工专业知识都针对 CUDA 进行了优化,即使其他芯片在纸面上承诺更好的价格或性能,它们看起来也可能成为摩擦的来源。

谷歌的 TorchTPU 项目旨在直接削弱这一优势。如果 PyTorch 能够在 TPU 上以与在英伟达 GPU 上类似的便捷性和性能调优水平运行,企业将从中受益。 对于大型人工智能工作负载而言,这是一个可靠的替代方案。在人工智能计算需求爆炸式增长而供应受限的市场环境下,拥有另一个可靠的选择可能非常有吸引力。

与此同时,谷歌考虑开源 TorchTPU 堆栈的关键部分,这表明其发展模式与英伟达更为垂直整合的模式有所不同。通过共享更多底层软件,谷歌旨在…… 增强重视透明度和可移植性的开发者的信心.

虽然这并不能保证TPU一定会取代GPU,但确实改变了人们的考量。客户不再需要在英伟达成熟的生态系统和需要完整工具集迁移的替代方案之间做出选择,而是可以权衡…… 性能、成本和可用性 同时保持在熟悉的 PyTorch 环境中。

无论采用云端部署还是本地部署,这种转变都可能使组织更容易…… 混合搭配硬件供应商 随着时间的推移,他们不会默认将人工智能路线图锁定在单一供应商身上。

随着谷歌通过 TorchTPU 加深对 PyTorch 的投入,加大企业对 TPU 的访问力度,并加强与 Meta 的合作, 人工智能基础设施领域的竞争格局 情况正变得越来越复杂。英伟达凭借多年来在硬件和CUDA集成方面的优势仍然显著,但客户现在看到了更现实的途径,可以使其AI工作负载的运行地点以及底层计算成本实现多元化。

杀死开关
相关文章:
Nvidia 反驳“终止开关”指控和 AI 芯片政策建议
相关文章: