一家芯片公司,猛追英伟达

当前的 AI 训练和一些 AI 推理集群有两个网络。后端网络将计算引擎组(通常是 GPU 加速器,通常是 Nvidia 的加速器)相互连接,以便它们可以共享工作和数据。


前端网络将计算引擎的 CPU 主机相互连接、连接到存储以及连接到外部世界。InfiniBand 已逐渐…图片来源

思科在其最近的财务报告中表示,其 Silicon One ASIC 在后端 AI 集群网络试验中得到了一定程度的应用,但它也看到企业在准备部署 AI 训练和推理系统时升级其系统和前端网络。Arista 现在在其客户中看到了类似但略有不同的模式,因为它正在等待 2025 年 AI 网络的以太网热潮。过去两年来,Arista…图片来源

首先,我们来谈谈数字,然后我们再谈谈 Arista 客户正在进行的转变,他们从去年年底和今年年初对 Etherlink 产品的试用,到最近的试点,再到预计在今年年底和明年的生产。第二季度,Arista 的产品收入增长 12.8% 至 14.2 亿美元,而其服务业务增长 35.3% 至 2.671 亿美元。软件订阅占销售额的 17.6%,增长 24.7% 至 3040 万美元。软件和服务(主要是硬件和软件产品的技术支持)合计销售额…图片来源

Arista 拥有雄厚的财力,可以在 AI 网络领域与思科和 Nvidia 的 Spectrum-X 以及 Quantum InfiniBand 一较高下,我们完全预料到这将会是一场激烈的竞争。正如我们之前报道的那样,我们认为,在 xAI 决定不在 Oracle Cloud Infrastructure 云上使用租用的 GPU 容量之后,Nvidia 已经通过其 Spectrum-X 以太网获得了该 xAI 集群 100,000 个 Nvidia H100 GPU 集群的后端网络…图片来源

但是,由于 AI 和少量 HPC 推动着每季度超过 30 亿美元的网络销售额(其中约 85% 是 InfiniBand),因此 AI 是 Arista 非常渴望进攻的真正目标。它希望从我们期望在企业中部署的具有数十个 GPU 的中等集群一直到拥有 100,000 个 GPU 的强大集群,并着眼于 UEC 一年前推出时为自己设定的 100 万个端点设计目标。以下是 Arista 从网络角度对 AI 前景的看法。首先,它声称其 Etherlink 7060X 交换机…图片来源

现在,对于拥有数百个运行 AI 训练的 XPU 的大型集群,Arista 建议使用单个模块化 7800R4 交换机,该交换机具有 576 个以 800 Gb/秒运行的端口或 1,152 个以 400 Gb/秒运行的端口,并在 XPU 之间提供单跳,不需要在 GPU 端口上进行拥塞控制或自适应路由。显然,上图显示的 XPU 数量不正确。当前的 7800R 交换机基于 Broadcom 的 Jericho 2c+ 和 Jericho 3-AI 交换机芯片。…图片来源

Arista 表示,单层 Etherlink 拓扑可以支持超过 10,000 个 XPU,而双层拓扑可以在单个结构中支持超过 100,000 个 XPU。当未来有兼容 UEC 的 DPU 可用时,Arista 表示它将支持这些 DPU,因为它们可以卸载交换机和集群主机节点上的拥塞控制和自适应路由功能,以提高网络性能。7800R4-AI 和 7700R4 DES 交换机自 6 月发布以来一直在进行客户测试,预计将在今年下半年上市。但是,正如 Ullal 所说,预计明年将推出 AI 集群。如果 Arista 收购 DPU 制造商或从头开始创建自己的 DPU,请不要感到惊讶。与此同时,Arista 可以与潜在的 AI 客户合作,升级他们的前端网络,为 AI 做好准备,就像思科所做的那样。参考链接



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

作者

ByteAILab

发布于

2024-08-27

更新于

2025-03-21

许可协议