内容提要
基准测试显示,Akamai Cloud 上运行的 NVIDIA RTX PRO™ 6000 Blackwell 的推理吞吐量最高可达 H100 的 1.63 倍;在 100 个并发请求下,每台服务器的处理能力高达 24,240 TPS。
Akamai Inference Cloud 基准测试
本周,Akamai 宣布推出 Akamai Inference Cloud。我们将 Akamai 在全球分布式架构方面的专业能力与 NVIDIA Blackwell AI 基础架构相结合,对释放 AI 真正潜力所需的加速计算进行了颠覆性的重构与扩展。
Akamai Inference Cloud 平台将 NVIDIA RTX PRO 服务器(搭载 NVIDIA RTX PRO 6000 Blackwell Server Edition GPU)、NVIDIA BlueField-3® DPU、NVIDIA AI Enterprise 软件与 Akamai 的分布式云计算基础架构及在全球拥有超过 4,400 个位置的全球边缘网络相结合。
高效、多功能且经过优化的 GPU
分布式推理和下一代智能体体验需要具备高效、多功能、并针对并发实时工作负载进行优化的 GPU。RTX PRO 6000 Blackwell 满足了所有这三个条件。其 FP4 精确模式可提供卓越的吞吐量,而功耗和成本只有数据中心级 GPU 的一小部分,因此可以跨数百个站点进行部署。
该架构支持在单个 GPU 上处理包括文本、视觉和语音在内的并发及多模态工作负载,从而减少了对专用加速器的需求,并限制了网络中不必要的数据移动。
NVIDIA RTX Pro 服务器针对以下工作负载进行了优化:智能体 AI、工业和物理 AI、科学计算、数据分析和模拟、视觉计算和企业级应用。
NVIDIA 强调,这些服务器可提供高达 6 倍的大语言模型 (LLM) 推理吞吐量、4 倍的合成数据生成速度、7 倍的基因组序列比对速度、3 倍的工程仿真吞吐量、4 倍实时渲染性能,以及 4 倍并发多实例 GPU 工作负载。
性能验证
为了验证性能,我们测试了 Akamai Cloud 上运行的 NVIDIA RTX Pro 6000 Blackwell Server Edition GPU,并将其与使用 NVIDIA LaunchPad 环境的 NVIDIA H100 NVL 96GB 进行了基准对比测试。
我们的目标是,了解下一代 RTX Pro 6000 GPU 在处理真实推理工作负载时的表现,并与当前行业黄金标准进行对比。
基准测试结果所示
基准测试结果证实了 Akamai Cloud 上运行的 NVIDIA RTX Pro 6000 Blackwell 的设计优势。
吞吐量比 H100 (FP8) 提高了 1.63 倍,这表明 RTX Pro 6000 Blackwell 在更小、更易于部署的占地面积内提供了数据中心级性能,是分布式环境的理想选择。
从 FP8 到 FP4 的 1.32 倍性能提升,展示了 NVIDIA 的精度效率如何直接转化为边缘侧更快、更具成本效益的推理能力。
在 100 以上并发请求下保持稳定性能,验证了该 GPU 在全局分布式推理场景中处理多租户、延迟敏感型工作负载的能力。
这些结果表明,Blackwell 的高能效和强大的多任务并行处理能力,使其非常适合作为 Akamai 构建分布式 AI 推理系统的底层硬件支撑,可在我们的全球网络中提供高吞吐量、低延迟和可扩展的性能。
基准测试概述
我们遵循 NVIDIA 的基准测试方法,在一致的负载条件下评估推理性能。在本文中,我们将详细介绍测试环境搭建、方法及主要发现,并讨论这些结果对于在 Akamai Cloud 上运行 AI 工作负载的意义。
测试环境搭建
为了评估 Akamai Cloud 上的 NVIDIA RTX Pro 6000 GPU,我们使用了 Llama-3.3-Nemotron-Super-49B-v1.5 模型。该大语言模型是 Meta Llama-3.3-70B-Instruct(即参考模型)的一个衍生版本。它是一个推理模型,经过了针对推理能力、人机对话偏好以及智能体任务(如 RAG 和工具调用)的后训练。
我们为同一个模型使用了两个 NVIDIA 推理微服务 (NIM) 配置文件,以比较不同精度模式,并了解它们对性能和效率的影响。这两个配置文件(tensorrt_llm-rtx6000_blackwell_sv-fp8-tp1-pp1-throughput-2bb5 和 tensorrt_llm-rtx6000_blackwell_sv-nvfp4-tp1-pp1-throughput-2bb5)相同,但精度设置除外。
第一个配置文件使用 FP8(8位浮点)精度,而第二个配置文件使用 NVIDIA 的 FP4(4位浮点)精度。NVIDIA 的 FP4 版本 (NVFP4) 由 NVIDIA Blackwell GPU 直接支持。
通过同时运行这两种配置,我们的目的是观察降低数值精度对吞吐量和延迟的影响。NVFP4 在精确度损失低于 1% 的情况下,带来了显著的性能和效率提升,从而实现更快、更低功耗的大规模推理,而 FP8 则提供更高的数值精度。对两者进行比较,有助于在实际工作负载中确定速度、效率与推理保真度之间的最佳权衡。
我们在位于 Akamai Cloud 洛杉矶数据中心的 NVIDIA RTX Pro 6000 Blackwell Server Edition GPU 上运行了测试。为了进行比较,我们使用了 NVIDIA LaunchPad 环境中的 NVIDIA H100 GPU。
方法
在此次基准测试中,我们运行了一次烟雾测试,旨在测量真实负载条件下的基线推理性能。每个请求处理 200 个输入词元并生成 200 个输出词元,代表了大语言模型中典型的简短提示词与响应交互。
为了测试可扩展性和一致性,我们执行了 100 次并发运行,从而观察系统在处理持续大量并行推理时的吞吐量和延迟表现。这种方法提供了一个受控但具有代表性的快照,展示了模型和硬件在生产级工作负载下的性能。
我们测量了两个关键指标:首个词元生成时间 (TTFT) 和每秒词元数 (TPS)。TTFT 以毫秒为单位,衡量模型在收到提示词后开始生成响应的速度——这是反映延迟和用户感知响应能力的重要指标。TPS 衡量整体吞吐量,显示系统开始生成后每秒可以生成多少个词元。
这两个指标共同提供了对真实世界性能的平衡视图,既反映了初始推理的速度,也反映了负载下的持续输出效率。
作为我们基准测试方法的一部分,我们运行了两组测试来评估 NVIDIA RTX 6000 Blackwell Server Edition GPU 的性能特征。
FP4 与 FP8 精度对比
我们在同一个模型上测试了两个 NIM 配置文件(一个使用 FP8 精度,另一个使用 FP4 精度)以衡量 NVIDIA 新型 FP4 (NVFP4) 量化技术对推理性能的影响。NVIDIA 已将 FP4 视为在效率和吞吐量方面的一项重大进步。RTX 6000 与 H100 GPU 对比
我们随后将 RTX 6000 Blackwell 的结果与在 NVIDIA LaunchPad 环境中运行的 H100 GPU 进行了比较,通过考察两个 NIM 配置文件来评估实际推理中的优势:FP8 和 FP4。这使我们能够评估 RTX 6000 不仅在不同精度模式下的表现,还能评估其相对于 NVIDIA 当前数据中心 GPU 标准的表现。
详细结果
我们确定最佳并发 (C) 级别为 100,也就是说,在 100 个同时推理请求中,我们观察到了最稳定和最具代表性的性能结果。在 C = 100 时,RTX 6000 从 FP8 精度切换到 FP4 精度带来了 1.32 倍的性能提升,展现了 NVIDIA FP4 量化技术的效率优势。
与使用 FP8 精度的 H100 相比,RTX Pro 6000 Blackwell Server 在 NVFP4 精度下实现了 1.63 倍的性能提升。即使在使用 FP8 精度时,Blackwell Server 也展现出 1.21 倍的性能优势,体现了超越旧版 FP8 格式的下一代推理优化能力。
总体而言,在此并发水平下,RTX Pro 6000 Blackwell 服务器实现了 3,030.01 词元/秒 (TPS) 的吞吐量,而结合我们的基础架构即服务 (IaaS) 虚拟机产品,这一数字可等效换算为高达 24,240.08 TPS,突显了 Blackwell 架构在 Akamai Cloud 上强大的推理性能和可扩展性。
测试 1:FP4 与 FP8 精度对比
RTX Pro 6000 Blackwell 从 FP8 到 FP4 的性能结果。
洛杉矶: NVIDIA RTX Pro 6000 Blackwell Server FP8
型号 |
NIM 模型配置文件 |
应用场景 |
并发 |
TTFT(毫秒) |
TPS |
|---|---|---|---|---|---|
nvidia/llama-3.3-nemotron-super-49b-v1.5 |
tensorrt_llm-rtx6000_blackwell_sv-fp8-tp1-pp1-throughput-2bb5 |
200_200 |
1 |
44.82 |
27.42 |
nvidia/llama-3.3-nemotron-super-49b-v1.5 |
tensorrt_llm-rtx6000_blackwell_sv-fp8-tp1-pp1-throughput-2bb5 |
200_200 |
100 |
102.03 |
2256.3 |
nvidia/llama-3.3-nemotron-super-49b-v1.5 |
tensorrt_llm-rtx6000_blackwell_sv-fp8-tp1-pp1-throughput-2bb5 |
200_200 |
200 |
138.66 |
3606.04 |
洛杉矶: NVIDIA RTX PRO 6000 Blackwell Server FP4
型号 |
NIM 模型配置文件 |
应用场景 |
并发 |
TTFT(毫秒) |
TPS |
FP4 增益 |
|---|---|---|---|---|---|---|
nvidia/llama-3.3-nemotron-super-49b-v1.5 |
tensorrt_llm-rtx6000_blackwell_sv-nvfp4-tp1-pp1-throughput-2bb5 |
200_200 |
1 |
47.92 |
29.68 |
1.08x |
nvidia/llama-3.3-nemotron-super-49b-v1.5 |
tensorrt_llm-rtx6000_blackwell_sv-nvfp4-tp1-pp1-throughput-2bb5 |
200_200 |
100 |
94.45 |
3030.01 |
1.32x |
nvidia/llama-3.3-nemotron-super-49b-v1.5 |
tensorrt_llm-rtx6000_blackwell_sv-nvfp4-tp1-pp1-throughput-2bb5 |
200_200 |
200 |
3663.26 |
3854.76 |
1.07x |
测试 2:RTX Pro 6000 Blackwell Server 与 H100 GPU 对比
H100 NVL FP8 与 RTX Pro 6000 Blackwell Server FP8 及 FP4 的性能结果对比。
LaunchPad:H100 NVL FP8
型号 |
NIM 模型配置文件 |
应用场景 |
并发 |
TTFT(毫秒) |
TPS |
|---|---|---|---|---|---|
nvidia/llama-3.3-nemotron-super-49b-v1.5 |
tensorrt_llm-h100_nvl-fp8-tp1-pp1-throughput-2321 |
200_200 |
1 |
39.52 |
42.46 |
nvidia/llama-3.3-nemotron-super-49b-v1.5 |
tensorrt_llm-h100_nvl-fp8-tp1-pp1-throughput-2321 |
200_200 |
100 |
1612.03 |
1863.08 |
nvidia/llama-3.3-nemotron-super-49b-v1.5 |
tensorrt_llm-h100_nvl-fp8-tp1-pp1-throughput-2321 |
200_200 |
200 |
12587.3 |
1828.03 |
LaunchPad:NVIDIA RTX PRO 6000 Blackwell Server FP8
型号 |
NIM 模型配置文件 |
应用场景 |
并发 |
TTFT(毫秒) |
TPS |
|---|---|---|---|---|---|
nvidia/llama-3.3-nemotron-super-49b-v1.5 |
tensorrt_llm-rtx6000_blackwell_sv-fp8-tp1-pp1-throughput-2bb5 |
200_200 |
1 |
59.61 |
19.52 |
nvidia/llama-3.3-nemotron-super-49b-v1.5 |
tensorrt_llm-rtx6000_blackwell_sv-fp8-tp1-pp1-throughput-2bb5 |
200_200 |
100 |
243.68 |
1040.33 |
nvidia/llama-3.3-nemotron-super-49b-v1.5 |
tensorrt_llm-rtx6000_blackwell_sv-fp8-tp1-pp1-throughput-2bb5 |
200_200 |
200 |
415.9 |
1344.73 |
LaunchPad:NVIDIA RTX PRO 6000 Blackwell Server FP4
型号 |
NIM 模型配置文件 |
应用场景 |
并发 |
TTFT(毫秒) |
TPS |
FP4 增益 |
|---|---|---|---|---|---|---|
nvidia/llama-3.3-nemotron-super-49b-v1.5 |
tensorrt_llm-rtx6000_blackwell_sv-nvfp4-tp1-pp1-throughput-2bb5 |
200_200 |
1 |
81.98 |
23.65 |
1.21x |
nvidia/llama-3.3-nemotron-super-49b-v1.5 |
tensorrt_llm-rtx6000_blackwell_sv-nvfp4-tp1-pp1-throughput-2bb5 |
200_200 |
100 |
344.24 |
1848.96 |
1.78x |
nvidia/llama-3.3-nemotron-super-49b-v1.5 |
tensorrt_llm-rtx6000_blackwell_sv-nvfp4-tp1-pp1-throughput-2bb5 |
200_200 |
200 |
6660.54 |
1997.3 |
1.49x |
结论
本次基准测试旨在评估 NVIDIA RTX Pro 6000 Blackwell Server Edition GPU 在 Akamai Cloud 上运行大语言模型推理的性能表现,并在相似假设条件下与 NVIDIA H100 GPU 进行对比。我们采用 NVIDIA 推荐的基准测试方法,测试了 FP8 和 FP4 两种精度模式,以理解性能、效率和延迟之间的权衡关系。
结果清楚地表明,FP4 带来了可量化的性能提升:在 RTX 6000 上,FP4 相比 FP8 的吞吐量提高了 1.32 倍。而与采用 FP8 精度的 H100 相比,RTX 6000(FP4 精度)实现了 1.63 倍的性能提升,突显了 Blackwell 架构在推理工作负载方面的潜力。
这些发现证明,在 Akamai 分布式云上运行的 RTX 6000 GPU,能够以更低的成本和延迟,为真实世界的 AI 推理提供高吞吐量和高效扩展能力。对于正在评估 GPU 选项的团队而言,这一组合在全球基础架构范围内提供了速度、效率与可及性之间的有力平衡。
获取访问权限
注册即可获得在 Akamai Inference Cloud 上使用 RTX Pro 6000 Blackwell Server Edition 的访问权限。
标签