一年前 ,英伟达首席执行官黄仁勋向分析师表示,受新一代 Blackwell 人工智能芯片复杂度大幅提升的影响,其客户从前代人工智能服务器芯片向该款芯片的过渡过程颇具 “挑战性 ” 。他称 ,为提升芯片性能,“服务器机箱、系统架构、硬件配置 、供电系统等所有环节都必须做出调整”。
事实上,对于英伟达的一众核心客户而言 ,推动 Blackwell 服务器的落地与规模化运行,一度是令其倍感棘手的难题。据两名为 OpenAI 及其他大客户提供服务的英伟达员工、一名亲历相关问题处理的Meta公司员工透露,去年大部分时间里,OpenAI、Meta Platforms及其合作的云服务商始终难以稳定搭建并使用该类系统。而这些人士均表示 ,相比之下,客户在收到 Blackwell 之前的英伟达人工智能芯片后,数周内便能顺利完成部署并投入使用 。
英伟达核心客户在使用其 Blackwell 系列芯片(尤其是 Grace Blackwell 型号)时遭遇的种种难题 ,似乎并未对这家芯片巨头的业务造成严重冲击。英伟达仍是全球市值最高的企业,市值达 4.24 万亿美元,且目前已基本解决阻碍大客户快速大规模部署该系列芯片的诸多技术问题。
但倘若英伟达未来的新芯片仍出现类似的部署难题 ,谷歌等竞争对手或将迎来突围良机 —— 只要这些竞品厂商能帮助客户更快地大规模部署芯片,以支撑前沿人工智能技术的研发 。此类问题还可能导致难以实现芯片规模化落地的云服务商利润缩水,同时拖慢依托这些芯片研发更先进人工智能模型的 AI 企业的研发进度。
对于 OpenAI 、Meta这类客户而言 ,无法按预期规模搭建芯片集群,会限制其训练更大规模人工智能模型的能力。据一名英伟达员工透露,尽管英伟达的客户并未公开抱怨相关问题 ,但部分客户已私下向英伟达的对接人员表达了不满 。
为弥补给受挫客户带来的损失,据一名云服务商高管及一名参与相关协商的英伟达员工透露,英伟达去年针对 Grace Blackwell 芯片的相关问题,向客户提供了部分退款及折扣优惠。
英伟达及云服务商高管均表示 ,问题主要出在将 72 颗 Grace Blackwell 芯片组联的服务器上 —— 这类设计本是为了让芯片间的通信速度大幅提升,并实现单系统协同运行。该款服务器可与其他服务器互联互通,组成超大规模集群 ,为人工智能模型的高强度训练提供算力支持 。
英伟达一名发言人表示,公司已于 2024 年回应了有关 Grace Blackwell 系统部署进度缓慢的相关质疑,并当时发表声明称 ,该类系统是 “有史以来最先进的计算机”,其落地需要 “与客户开展联合工程研发 ”。
声明中还提到:“英伟达正与头部云服务商展开深度合作,其团队已成为我们工程研发体系和流程中不可或缺的一部分 ,相关工程迭代属于行业正常现象,也是我们预期中的环节。”
OpenAI 基础设施业务高管萨钦?卡蒂发表声明称,这家初创企业与英伟达的合作 “正完全按计划为我们的研发路线图提供算力支撑 。我们正将所有可用的英伟达芯片全面应用于模型训练和推理环节 ,这也推动了研发的快速迭代与产品落地,近期我们发布的多款模型便是最好的证明”。
成长的阵痛
有迹象表明,英伟达已从此次的部署难题中吸取了经验教训。公司不仅对现有 Grace Blackwell 系统进行了优化,还针对今年晚些时候即将推出的、基于 Vera Rubin 新一代芯片的服务器开展了改进工作。
据两名参与芯片设计的人士透露 ,英伟达去年推出了性能更强劲的 Grace Blackwell 芯片升级版,以确保其运行稳定性优于初代产品 。他们表示,这款名为 GB300 的升级版芯片 ,在散热能力、核心材料及连接器品质上均实现了提升。
一名了解具体情况的Meta员工称