Executar inferência de IA em escala não é mais apenas sobre o tamanho do modelo. As perguntas de hoje incluem: com que eficiência você pode executar esse modelo, com que rapidez você pode processar dados do mundo real e de quanta infraestrutura você precisa para fazer isso?
Durante o teste beta privado das GPUs NVIDIA RTX™ PRO 6000 Blackwell na Akamai Cloud, a Harmonic colocou essas perguntas à prova com uma workload de IA exigente e baseada em imagens desenvolvida a partir de um modelo de 3 bilhões de parâmetros.
Os resultados foram claros: a Harmonic conquistou alto desempenho, uso eficiente de recursos e a capacidade de implantar técnicas de otimização de modelos sem sacrificar a precisão.
“Durante a versão beta privada, as GPUs NVIDIA RTX PRO 6000 Blackwell na Akamai Cloud nos permitiram executar nossas workloads de imagens de IA com precisão, velocidade e eficiência. Conseguimos processar grandes volumes de imagens rapidamente, otimizando nossos modelos para fins de desempenho e mantendo uma taxa de detecções falsas muito baixa. Os resultados nos deram confiança real no dimensionamento dessas workloads na produção.”
— Moore Macauley, CTO, Departamento de vídeo, Harmonic
O teste real: precisão, eficiência e velocidade
A workload da Harmonic não era uma referência sintética. Era um pipeline de processamento de imagens em nível de produção, onde a qualidade da detecção importava.
As metas eram diretas:
- Manter uma taxa de detecções falsas muito baixa com um modelo de parâmetros 3B
- Otimizar o uso das GPUs e a área ocupada da memória
- Maximizar a produtividade para grandes lotes de imagens
- Avaliar o impacto da quantização do modelo em questão de desempenho e precisão
O que a Harmonic encontrou foi uma combinação de baixo consumo de memória, alto uso de Tensor e velocidade de processamento em escala que é difícil de alcançar na infraestrutura tradicional de GPUs em nuvem.
Baixo consumo de memória e alto uso de Tensor
Apesar do tamanho do modelo, a Harmonic obteve:
- Uso de memória de GPUs abaixo de 10%
- Uso de Tensor consistentemente na faixa de 70% a 80%
Esse é um grande indicativo de que as GPUs não ficaram congestionadas por restrições de memória, e que a workload foi capaz de aproveitar totalmente os núcleos de Tensor para inferência de alta taxa de transferência. Em termos práticos, isso significa que a Harmonic pode executar modelos sofisticados sem precisar provisionar a infraestrutura apenas para acomodar sobrecarga de memória.
Velocidade de processamento em escala
- A Harmonic processou 300 imagens em menos de um minuto
Esse nível de taxa de transferência demonstra como as GPUs Blackwell na Akamai Cloud podem oferecer suporte ao processamento de IA em tempo real ou quase em tempo real em escala, tornando-as bem adequadas para sistemas de produção orientados por IA em que a baixa latência e a escalabilidade são essenciais para o sucesso.
Quantização sem compromisso
Uma das descobertas mais reveladoras do teste da Harmonic foi a otimização de modelos.
A Harmonic avaliou a quantização de números inteiros de 4 bits em relação à precisão tradicional do float16 e observou que para workloads de teste:
- Não houve perda significativa no desempenho de detecção
- Houve pequenos ganhos na eficiência da memória
- Houve aprimoramento da velocidade de processamento
Isso é importante porque a quantização é frequentemente vista como uma compensação entre eficiência e precisão. Os resultados da Harmonic mostram que nas GPUs Blackwell as técnicas avançadas de quantização podem melhorar as características de desempenho sem degradar a qualidade dos resultados.
Isso permite que as equipes:
- Executem modelos maiores em áreas menores
- Reduzam custos de infraestrutura
- Aumentem a produtividade sem sacrificar os resultados
Por que isso é importante para workloads de IA na edge e na nuvem
O teste de Harmonic destaca um padrão mais amplo: as workloads de IA modernas precisam de uma infraestrutura criada para eficiência de inferência, não apenas computação bruta. Isso se dá através da seguinte combinação:
- Alto desempenho de Tensor
- Uso eficiente da memória
- Suporte para otimização avançada de modelos
- Processamento rápido em escala
As GPUs Blackwell na Akamai Cloud fornecem uma base para sistemas de IA que devem operar continuamente, processar grandes volumes de dados e manter alta precisão. Isso é particularmente relevante para workloads de IA executadas próximas de usuários, dispositivos ou fontes de dados, em que o desempenho, a eficiência e o custo são importantes.
Do teste beta privado à confiança na produção
Para a Harmonic, o teste beta privado foi uma oportunidade para validar que suas workloads de processamento de imagens de IA poderiam ser executadas de forma eficiente, precisa e em alta velocidade na infraestrutura de GPUs da Akamai.
Os resultados deram a ela a confiança de que conseguiria:
- Dimensionar a inferência sem dimensionar a infraestrutura linearmente
- Otimizar modelos agressivamente usando quantização
- Manter a alta qualidade de detecção aumentando a produtividade
Essas são as características exatas que as equipes procuram ao mover a IA da experimentação para a produção.
Saiba mais
Se a execução eficiente de workloads de IA em escala for essencial para sua empresa, você pode saber mais sobre como as GPUs NVIDIA Blackwell na Akamai Cloud podem impulsionar sua próxima geração de inferência.
Tags