Akamai Cloud 기반 NVIDIA RTX Pro 6000 Blackwell 벤치마킹

Oct 30, 2025

Mo Tabares 그리고 Christiaan Lutzer

에 의해 작성

Mo Tabares

모 타바레스는 Akamai의 엔지니어링 담당 부사장입니다.

에 의해 작성

Christiaan Lutzer

크리스티안 루처는 Akamai의 시니어 프로덕트 아키텍트입니다.

요약 보고서

벤치마크에 따르면 Akamai Cloud에서 실행되는 NVIDIA RTX PRO™ 6000 Blackwell은 H100보다 최대 1.63배 높은 추론 처리량을 제공하며, 100개의 동시 요청에서 서버당 24,240 TPS를 달성합니다.

Akamai Inference Cloud 벤치마킹

이번 주, Akamai는 Akamai Inference Cloud의 출시를 발표했습니다. Akamai는 글로벌 분산 아키텍처에 대한 전문성과 NVIDIA Blackwell AI 인프라를 활용해 AI의 진정한 잠재력을 발휘하는 데 필요한 가속 컴퓨팅을 근본적으로 재고하고 확장합니다.

Akamai Inference Cloud 플랫폼은 NVIDIA RTX PRO™ 6000 Blackwell Server Edition GPU와 NVIDIA BlueField-3® DPU가 탑재된 NVIDIA RTX PRO 서버와 NVIDIA AI Enterprise 소프트웨어를 Akamai의 분산 클라우드 컴퓨팅 인프라 및 전 세계 4400곳 이상의 글로벌 엣지 네트워크와 결합합니다.

효율적이고, 다재다능하며, 최적화된 GPU

분산 추론과 차세대 에이전틱 경험에는 효율적이고, 다재다능하며, 동시 실시간 워크로드에 최적화된 GPU가 필요합니다. RTX PRO 6000 Blackwell은 이 세 가지 기준을 모두 충족합니다. FP4 정밀 모드는 데이터 센터급 GPU보다 더 적은 전력과 비용으로 탁월한 처리량을 제공하므로 수백 개의 사이트에 배포할 수 있습니다.

이 아키텍처는 단일 GPU에서 텍스트, 비전, 음성 등의 동시 및 멀티모달 워크로드를 지원해 전문 액셀러레이터의 필요성을 줄이고 네트워크에서 불필요한 데이터 이동을 제한합니다.

NVIDIA RTX Pro 서버는 에이전틱 AI, 산업 및 물리적 AI, 과학적 연산, 데이터 분석 및 시뮬레이션, 시각적 컴퓨팅, 기업 애플리케이션과 같은 워크로드에 최적화되어 있습니다.

NVIDIA는 해당 서버가 최대 6배 더 높은 대규모 언어 모델(LLM) 추론 처리량, 4배 더 빠른 합성 데이터 생성, 7배 더 빠른 게놈 시퀀스 정렬, 3배 더 높은 엔지니어링 시뮬레이션 처리량, 4배 더 높은 실시간 렌더링 성능, 4배 더 많은 동시 다중 인스턴스 GPU 워크로드를 제공한다고 강조합니다.

성능 검증

성능을 검증하기 위해 Akamai Cloud에서 실행되는 NVIDIA RTX Pro 6000 Blackwell Server Edition GPU를 테스트하고 NVIDIA LaunchPad 환경을 통해 NVIDIA H100 NVL 96GB와 비교해 벤치마킹했습니다.

목표는 실제 추론 워크로드에 대해 차세대 RTX Pro 6000 GPU의 성능이 현재 업계 표준 대비 얼마나 되는지 파악하는 것이었습니다.

벤치마크에서 보여주는 내용

벤치마크 결과, Akamai Cloud에 기반한 NVIDIA RTX Pro 6000 Blackwell의 설계상 장점이 확인되었습니다.

H100(FP8) 대비 1.63배의 처리량 증가는 RTX Pro 6000 Blackwell이 분산 환경에 적합한, 더 작고 배포가 용이한 크기로 데이터 센터급 성능을 제공한다는 것을 보여줍니다.
FP8을 FP4로 전환했을 때 1.32배가 높아진다는 것은 NVIDIA의 정밀 효율성이 엣지에서 더 빠르고 비용 효율적인 추론으로 직결된다는 것을 보여줍니다.
100개 이상의 동시 요청에서 성능을 유지했다는 점에서, 전 세계적으로 분산된 추론 환경에서 지연 시간에 민감한 멀티 테넌트 워크로드를 처리할 수 있는 해당 GPU의 능력이 검증됩니다.

이러한 결과는 Blackwell의 효율성과 동시성 이점이 글로벌 네트워크에 높은 처리량, 짧은 지연 시간, 확장 가능한 성능을 제공하는 Akamai의 분산형 추론 아키텍처에 이상적인 기반을 제공한다는 것을 보여줍니다.

벤치마크 개요

일관된 부하 조건에서 추론 성능을 평가하기 위해 NVIDIA의 벤치마킹 방법론을 따랐습니다. 이 게시물에서는 설정, 방법론, 주요 결과를 살펴보고 그 결과가 Akamai Cloud에서 AI 워크로드를 실행하는 데 있어 무엇을 의미하는지 논의합니다.

설정

Akamai Cloud에서 NVIDIA RTX Pro 6000 GPU를 평가하기 위해 Meta Llama-3.3-70B-Instruct(참조 모델)의 파생 LLM인 Llama-3.3-Nemotron-Super-49B-v1.5를 사용했습니다. 이는 추론, 사람의 채팅 선호도, RAG 및 툴 호출과 같은 에이전틱 작업에 대해 사후 학습된 추론 모델입니다.

동일한 모델에 두 개의 NVIDIA 추론 마이크로서비스(NIM) 프로필을 사용해 정밀 모드를 비교하고 이것이 성능 및 효율성에 미치는 영향을 파악했습니다. tensorrt_llm-rtx6000_blackwell_sv-fp8-tp1-pp1-throughput-2bb5 및 tensorrt_llm-rtx6000_blackwell_sv-nvfp4-tp1-pp1-throughput-2bb5 프로필은 정밀도 설정을 제외하고 동일합니다.

첫 번째는 FP8(8비트 부동 소수점) 정밀도를 사용하고, 두 번째는 NVIDIA의 FP4(4비트 부동 소수점)를 사용합니다. NVIDIA의 FP4 버전(NVFP4)은 NVIDIA Blackwell GPU에서 직접 지원됩니다.

두 가지를 모두 실행함으로써 수치 정밀도가 감소하면 처리량과 지연 시간이 어떤 영향을 받는지 관찰하는 것을 목표로 했습니다. NVFP4는 1% 미만의 정확도 손실로 성능과 효율성을 대폭 개선해 더 빠르면서도 낮은 전력으로 추론이 가능하고, FP8은 더 높은 수치 정확도를 제공합니다. 이 두 가지를 비교하면 실제 워크로드에 대한 속도, 효율성, 추론 충실도 간의 최상의 균형을 결정하는 데 도움이 됩니다.

테스트는 Akamai Cloud LAX 데이터 센터에 위치한 NVIDIA RTX Pro 6000 Blackwell Server Edition GPU에서 실행되었습니다. 비교를 위해 NVIDIA LaunchPad 환경을 사용하는 NVIDIA H100 GPU를 사용했습니다.

방법론

이 벤치마크에서는 현실적인 부하 조건에서 기준 추론 성능을 측정하도록 설계된 스모크 테스트를 실시했습니다. 각 요청은 200개의 인풋 토큰을 처리하고 200개의 아웃풋 토큰을 생성했으며, 이는 LLM에 대한 일반적인 짧은 프롬프트 및 응답 상호 작용을 나타냅니다.

확장성과 일관성을 테스트하기 위해 100건을 동시에 실행해 시스템이 지속적으로 방대한 양의 동시 추론을 처리할 때의 처리량과 지연 시간 동작을 관찰할 수 있었습니다. 이 접근 방식은 통제된 조건하에 프로덕션과 유사한 워크로드에서 모델과 하드웨어가 어떻게 작동하는지에 대한 전형적인 모습을 보여주었습니다.

TTFT(Time To First Token)와 TPS(Tokens Per Second)라는 두 가지 핵심 지표를 측정했습니다. 밀리초 단위로 측정되는 TTFT는 프롬프트를 수신한 후 모델이 응답을 생성하기 시작하는 속도를 반영합니다. 이는 지연 시간과 사용자 인지 응답성을 나타내는 중요한 지표입니다. TPS는 전체 처리량을 측정해 생성이 시작된 후 시스템이 초당 생성할 수 있는 토큰 수를 나타냅니다.

이러한 지표는 초기 추론 속도와 부하가 걸린 상태에서의 지속적인 아웃풋 효율성을 모두 반영하므로 실제 성능을 균형 있게 파악할 수 있습니다.

벤치마킹 방법론의 일환으로 NVIDIA RTX 6000 Blackwell Server Edition GPU의 성능 특성을 평가하기 위해 두 가지 테스트를 실행했습니다.

FP4와 FP8의 정밀도 비교
NVIDIA의 새로운 FP4(NVFP4) 양자화가 추론 성능에 미치는 영향을 측정하기 위해 동일한 모델에서 두 개의 NIM 프로필(하나는 FP8 정밀도를 사용하고 다른 하나는 FP4 정밀도를 사용)을 테스트했습니다. NVIDIA는 FP4가 효율성과 처리량을 크게 높일 수 있다는 점을 강조했습니다.
RTX 6000과 H100의 GPU 비교
그런 다음 RTX 6000 Blackwell 결과를 NVIDIA LaunchPad 환경에서 실행되는 H100 GPU와 비교해 두 개의 NIM 프로필, 즉 FP8과 FP4를 살펴보고 실제 추론 시 장점을 평가했습니다. 이를 통해 RTX 6000의 성능이 정밀 모드뿐만 아니라 NVIDIA의 현재 데이터 센터 GPU 표준과 비교해 얼마나 되는지 평가할 수 있었습니다.

상세 결과

최적의 동시성(C) 수준이 100이라는 것을 확인했습니다. 즉, 동시 추론 요청이 100개일 때 가장 안정적이고 대표적인 성능을 발휘하는 결과가 관찰되었습니다. C = 100에서 RTX 6000의 정밀도를 FP8에서 FP4로 변경한 결과, 1.32배 성능 개선이 이루어졌으며, 이는 NVIDIA의 FP4 양자화의 효율성 개선을 보여줍니다.

FP8 정밀도를 사용하는 H100에 비해 RTX Pro 6000 Blackwell Server는 NVFP4 정밀도에서 1.63배 개선된 성능을 제공했습니다. Blackwell Server는 FP8을 사용할 때도 1.21배 우위를 보이면서 이전 FP8 포맷을 넘어서는 차세대 추론 최적화를 선보였습니다.

종합적으로, 이 동시성 수준에서 RTX Pro 6000 Blackwell Server는 3,030.01 TPS(Tokens Per Second)를 달성했으며, Akamai의 IaaS(Infrastructure-as-a-Service) VM 제품 사용 시 최대 24,240.08 TPS를 발휘할 수 있다는 점에서 Akamai Cloud 기반 Blackwell 아키텍처의 강력한 추론 성능과 확장성을 여실히 보여줍니다.

테스트 1: FP8과 FP4의 정밀도 비교

RTX Pro 6000 Blackwell FP8과 FP4의 성능을 테스트한 결과입니다.

LAX: NVIDIA RTX Pro 6000 Blackwell Server FP8

모델	NIM 모델 프로필	사용 사례	동시성	TTFT(밀리초)	TPS
nvidia/llama-3.3-nemotron-super-49b-v1.5	tensorrt_llm-rtx6000_blackwell_sv-fp8-tp1-pp1-throughput-2bb5	200_200	1	44.82	27.42
nvidia/llama-3.3-nemotron-super-49b-v1.5	tensorrt_llm-rtx6000_blackwell_sv-fp8-tp1-pp1-throughput-2bb5	200_200	100	102.03	2256.3
nvidia/llama-3.3-nemotron-super-49b-v1.5	tensorrt_llm-rtx6000_blackwell_sv-fp8-tp1-pp1-throughput-2bb5	200_200	200	138.66	3606.04

LAX: NVIDIA RTX PRO 6000 Blackwell Server FP4

모델	NIM 모델 프로필	사용 사례	동시성	TTFT(밀리초)	TPS	FP4 사용 시 이득
nvidia/llama-3.3-nemotron-super-49b-v1.5	tensorrt_llm-rtx6000_blackwell_sv-nvfp4-tp1-pp1-throughput-2bb5	200_200	1	47.92	29.68	1.08x
nvidia/llama-3.3-nemotron-super-49b-v1.5	tensorrt_llm-rtx6000_blackwell_sv-nvfp4-tp1-pp1-throughput-2bb5	200_200	100	94.45	3030.01	1.32x
nvidia/llama-3.3-nemotron-super-49b-v1.5	tensorrt_llm-rtx6000_blackwell_sv-nvfp4-tp1-pp1-throughput-2bb5	200_200	200	3663.26	3854.76	1.07x

테스트 2: RTX Pro 6000 Blackwell Server와. H100 GPU의 비교

H100 NVL FP8과 RTX Pro 6000 Blackwell Server FP8/FP4의 성능을 비교한 결과입니다.

LaunchPad: H100 NVL FP8

모델	NIM 모델 프로필	사용 사례	동시성	TTFT(밀리초)	TPS
nvidia/llama-3.3-nemotron-super-49b-v1.5	tensorrt_llm-h100_nvl-fp8-tp1-pp1-throughput-2321	200_200	1	39.52	42.46
nvidia/llama-3.3-nemotron-super-49b-v1.5	tensorrt_llm-h100_nvl-fp8-tp1-pp1-throughput-2321	200_200	100	1612.03	1863.08
nvidia/llama-3.3-nemotron-super-49b-v1.5	tensorrt_llm-h100_nvl-fp8-tp1-pp1-throughput-2321	200_200	200	12587.3	1828.03

LaunchPad: NVIDIA RTX PRO 6000 Blackwell Server FP8

모델	NIM 모델 프로필	사용 사례	동시성	TTFT(밀리초)	TPS
nvidia/llama-3.3-nemotron-super-49b-v1.5	tensorrt_llm-rtx6000_blackwell_sv-fp8-tp1-pp1-throughput-2bb5	200_200	1	59.61	19.52
nvidia/llama-3.3-nemotron-super-49b-v1.5	tensorrt_llm-rtx6000_blackwell_sv-fp8-tp1-pp1-throughput-2bb5	200_200	100	243.68	1040.33
nvidia/llama-3.3-nemotron-super-49b-v1.5	tensorrt_llm-rtx6000_blackwell_sv-fp8-tp1-pp1-throughput-2bb5	200_200	200	415.9	1344.73

LaunchPad: NVIDIA RTX PRO 6000 Blackwell Server FP4

모델	NIM 모델 프로필	사용 사례	동시성	TTFT(밀리초)	TPS	FP4 사용 시 이득
nvidia/llama-3.3-nemotron-super-49b-v1.5	tensorrt_llm-rtx6000_blackwell_sv-nvfp4-tp1-pp1-throughput-2bb5	200_200	1	81.98	23.65	1.21x
nvidia/llama-3.3-nemotron-super-49b-v1.5	tensorrt_llm-rtx6000_blackwell_sv-nvfp4-tp1-pp1-throughput-2bb5	200_200	100	344.24	1848.96	1.78x
nvidia/llama-3.3-nemotron-super-49b-v1.5	tensorrt_llm-rtx6000_blackwell_sv-nvfp4-tp1-pp1-throughput-2bb5	200_200	200	6660.54	1997.3	1.49x

결론

이 벤치마크는 NVIDIA RTX Pro 6000 Blackwell Server Edition GPU가 Akamai Cloud에서 LLM 추론 시 어떤 성능을 발휘하는지, 그리고 같은 조건에서 NVIDIA H100 GPU에 비해 성능이 어떻게 되는지를 평가하는 것을 목적으로 했습니다. NVIDIA에서 권장하는 벤치마킹 방법론을 사용해 FP8 및 FP4 정밀 모드를 모두 테스트해 성능, 효율성, 지연 시간의 트레이드 오프(trade off)를 파악했습니다.

결과는 FP4가 RTX 6000의 FP8에 비해 처리량이 1.32배 개선되어 막대한 이득을 제공한다는 것을 명확히 보여줍니다. FP8의 H100과 비교했을 때, RTX 6000(FP4)은 1.63배 성능 개선을 달성했으며, 이는 추론 워크로드에 대한 Blackwell 아키텍처의 잠재력을 잘 보여줍니다.

이러한 결과는 실제 AI 추론 시, Akamai의 분산 클라우드에서 실행되는 RTX 6000 GPU가 더 낮은 비용과 지연 시간으로 높은 처리량과 효율적인 확장성을 제공할 수 있음을 입증합니다. GPU 옵션을 평가하는 팀의 경우, 이 조합을 통해 글로벌 인프라 거점에서 속도, 효율성, 접근성 사이의 탁월한 균형을 맞출 수 있습니다.