大规模运行 AI 推理不再仅仅考虑模型的规模。当前面临的问题还包括:运行该模型的效率如何?处理真实数据的速度如何?需要多少基础架构来支持?
在对 Akamai Cloud 上的 NVIDIA RTX PRO™ 6000 Blackwell GPU 进行私有测试期间,Harmonic 利用基于图像、围绕 30 亿参数模型构建的高负载 AI 工作负载,对这些问题进行了验证。
结果显而易见:Harmonic 实现了高性能和高效的资源利用,同时能够在保持准确性的前提下推动模型优化。
“在私有测试期间,Akamai Cloud 上的 NVIDIA RTX PRO 6000 Blackwell GPU 使我们能够以高精度、高速度和高效率运行 AI 图像工作负载。我们能够快速处理大量图像,同时优化模型性能,并保持极低的误报率。这些结果让我们对在生产环境中扩展这些工作负载充满信心。”
— Harmonic 视频业务首席技术官 Moore Macauley
真实测试:准确、高效和高速
Harmonic 的工作负载并非简单的综合基准测试。这是一个生产级的图像处理管道,检测质量至关重要。
目标非常明确:
- 保持 30 亿参数模型的极低误报率
- 优化 GPU 利用率与内存占用
- 充分提高大图像批次的吞吐量
- 评估模型量化对性能与准确性的影响
Harmonic 发现,低内存占用、高张量利用率与大规模处理速度,是传统云 GPU 基础架构难以同时实现的。
低内存占用和高张量利用率
尽管模型规模庞大,但 Harmonic 观察到:
- GPU 内存使用率低于 10%
- 张量利用率始终保持在 70%~80%
这强烈表明,GPU 未受到内存限制的影响,工作负载能够充分利用张量核心实现高吞吐量推理。这意味着 Harmonic 可以运行复杂模型,而无需为了满足内存开销而过度配置基础架构。
大规模处理速度
- Harmonic 在一分钟内可处理 300 张图像
如此高的吞吐量表明,Akamai Cloud 上的 Blackwell GPU 可以支持实时或近乎实时的大规模 AI 处理,特别适用于 AI 驱动的生产系统——在这些系统中,低延迟和高可扩展性是成功的关键。
量化与性能兼顾
Harmonic 测试中最具说服力的发现之一是模型优化。
Harmonic 对比传统的 float16 精度,对模型进行了 4 位整数量化评估,并观察到,对于测试工作负载:
- 检测性能没有显著下降
- 内存效率略有提升
- 处理速度更快
通常,量化被视为效率与准确性之间的权衡。但 Harmonic 的结果表明,在 Blackwell GPU 上,先进的量化技术能够在不降低结果质量的前提下,提升性能表现。
团队可以:
- 运行更大的模型,占用更少内存
- 降低基础架构成本
- 在不降低结果质量的前提下提高吞吐量
这对于边缘和云端的 AI 工作负载至关重要
Harmonic 的测试凸显了更广泛的模式:现代 AI 工作负载需要专为提升推理效率而设计的基础架构,而不只是依赖原始算力。这一目标可通过以下方式实现:
- 高张量性能
- 高效的内存利用率
- 高级模型优化支持
- 大规模快速处理
Akamai Cloud 上的 Blackwell GPU 为必须持续运行、处理大量数据并保持高准确性的 AI 系统奠定了基础。这一点对于需要在更靠近用户、设备或数据源运行的 AI 工作负载尤为重要,因为在此类场景下,性能、效率和成本至关重要。
从私有测试到生产信心
对 Harmonic 而言,私有测试为验证其 AI 图像处理工作负载在 Akamai GPU 基础架构上能够高效、准确且高速运行提供了机会。
测试结果让他们确信,他们可以:
- 提升推理能力,而无需按比例扩展基础架构
- 使用量化技术积极优化模型
- 在提高吞吐量的同时,保持高水平的检测质量
这些都是团队在将 AI 从实验阶段推向生产环境时最为关注的特性。
了解详情
如果大规模高效运行 AI 工作负载是您业务的核心,您可以详细了解 Akamai Cloud 上的 NVIDIA Blackwell GPU 如何支持您的下一代推理。
标签