ÚLTIMAS NOTÍCIAS
SELECIONADO PARA VOCÊ
SEMANALMENTE
MANTENHA-SE NO TOPO

As melhores informações sobre criptomoedas direto na sua caixa de entrada.

A Nvidia expande os recursos de GPU para cargas de trabalho de IA do Kubernetes

PorJames KinotiJames Kinoti
Tempo de leitura: 2 minutos
Nvidia
  • A Nvidia impulsiona a IA no Kubernetes com o Picasso e enfrenta os desafios da GPU.
  • Soluções para otimização da utilização de GPUs e tolerância a falhas melhoram o desempenho do cluster.
  • A alocação dinâmica de recursos oferece aos desenvolvedores mais controle no Kubernetes.

A Nvidia, líder no fornecimento de unidades de processamento gráfico (GPUs), está reforçando seu suporte ao Kubernetes, a popular plataforma de orquestração nativa da nuvem, para aprimorar a implantação e o gerenciamento de cargas de trabalho de inteligência artificial (IA). Durante uma apresentação recente, a empresa revelou diversas iniciativas para otimizar a utilização de GPUs e o gerenciamento de recursos em ambientes Kubernetes.

Nvidia Picasso: Uma base para o desenvolvimento de IA

Em uma iniciativa significativa, a Nvidia apresentou o Nvidia Picasso, uma plataforma de IA generativa projetada para otimizar o desenvolvimento e a implementação de modelos fundamentais para tarefas de visão computacional. Construído sobre o Kubernetes, o Nvidia Picasso oferece suporte a todo o ciclo de vida do desenvolvimento de modelos, do treinamento à inferência. Essa iniciativa reforça o compromisso da Nvidia em promover a infraestrutura de IA, aproveitando o Kubernetes e contribuindo para o ecossistema nativo da nuvem.

A Nvidia está trabalhando ativamente para enfrentar os diversos desafios da execução de cargas de trabalho de IA em clusters Kubernetes. Três áreas principais de foco, destacadas pelo gerente de engenharia Sanjay Chatterjee, incluem posicionamento com reconhecimento de topologia, tolerância a falhas e otimização multidimensional.

O posicionamento com reconhecimento de topologia otimiza a utilização da GPU ao minimizar a distância entre os nós e as cargas de trabalho de IA em clusters de grande escala, aumentando a ocupação e o desempenho do cluster. O agendamento tolerante a falhas aprimora a confiabilidade das tarefas de treinamento ao detectar nós com falhas precocemente e redirecionarmaticas cargas de trabalho para nós íntegros, o que é crucial para evitar gargalos de desempenho e possíveis falhas. 

A otimização multidimensional equilibra as necessidades dos desenvolvedores com os objetivos de negócios, as considerações de custo e os requisitos de resiliência por meio de uma estrutura configurável que toma decisões determinísticas levando em conta as restrições globais em clusters de GPUs.

Alocação dinâmica de recursos (DRA): capacitando desenvolvedores

Kevin Klues, engenheiro sênior da Nvidia, discutiu a Alocação Dinâmica de Recursos (DRA), uma API do Kubernetes projetada para dar aos desenvolvedores terceirizados mais controle sobre a alocação de recursos. Em versão alfa, a DRA permite que os desenvolvedores selecionem e configurem recursos diretamente, aprimorando o controle sobre o compartilhamento de recursos entre contêineres e pods. Esse avanço significativo complementa os esforços da Nvidia para otimizar a utilização da GPU e o gerenciamento de recursos.

A mais recente oferta de GPU da Nvidia, a B200 Blackwell, promete dobrar o poder das GPUs existentes para treinamento de modelos de IA, com suporte de hardware integrado para resiliência. A Nvidia está empenhada em colaborar ativamente com a comunidade Kubernetes para aproveitar esses avanços e abordar os desafios de escalabilidade de GPUs de forma eficaz. A colaboração da empresa com a comunidade em mecanismos de baixo nível para gerenciamento de recursos de GPU reforça seu compromisso em aprimorar a escalabilidade e a eficiência de cargas de trabalho de IA aceleradas por GPU no Kubernetes.

O caminho a seguir

À medida que a Nvidia continua a inovar e expandir seus recursos de GPU para ambientes Kubernetes, a integração de cargas de trabalho de IA com o Kubernetes está prestes a atingir novos patamares. Embora o Kubernetes tenha se consolidado como uma plataforma preferencial para a implantação de modelos de IA, a Nvidia reconhece que ainda há trabalho a ser feito para desbloquear todo o potencial das GPUs na aceleração de cargas de trabalho de IA no Kubernetes. 

Graças aos esforços contínuos da Nvidia e da comunidade de desenvolvimento nativo da nuvem, o futuro reserva avanços promissores na implementação e gerenciamento de IA acelerados por GPU em ambientes Kubernetes.

Se você está lendo isto, já está um passo à frente. Continue assim assinando nossa newsletter.

Compartilhe este artigo

Aviso Legal. As informações fornecidas não constituem aconselhamento de investimento. CryptopolitanO não se responsabiliza por quaisquer investimentos realizados com base nas informações fornecidas nesta página. Recomendamostrona realização de pesquisas independentesdent /ou a consulta a um profissional qualificado antes de tomar qualquer decisão de investimento.

MAIS… NOTÍCIAS
INTENSIVO AVANÇADAS
CURSO