最新消息
为您精选
每周
保持领先

最优质的加密货币资讯直接发送到您的邮箱。.

英伟达扩展GPU功能以支持Kubernetes AI工作负载

经过詹姆斯·基诺蒂詹姆斯·基诺蒂
阅读时长:2分钟
英伟达
  • Nvidia 利用 Picasso 增强 Kubernetes 上的 AI 性能,并应对 GPU 挑战。.
  • 提高GPU利用率和容错能力的解决方案可以提升集群性能。.
  • 动态资源分配让开发者在 Kubernetes 中拥有更大的控制权。.

英伟达全球领先的图形处理器 (GPU) 供应商

Nvidia Picasso:人工智能发展的基础

英伟达推出一项意义重大的举措,推出生成式人工智能平台 Nvidia Picasso,旨在简化计算机视觉任务基础模型的开发和部署。Nvidia Picasso 基于 Kubernetes 构建,支持从训练到推理的整个模型开发生命周期。此举彰显了英伟达致力于通过利用 Kubernetes 推进人工智能基础设施建设,并为云原生生态系统做出贡献的决心。.

英伟达正积极应对在 Kubernetes 集群上运行 AI 工作负载所面临的各种挑战。工程经理 Sanjay Chatterjee 重点强调了三个主要关注领域:拓扑感知部署、容错和多维优化。.

拓扑感知放置通过最小化大规模集群中节点与 AI 工作负载之间的距离来优化 GPU 利用率,从而提高集群占用率和性能。容错调度通过及早检测故障节点并matic将工作负载重定向到健康节点来增强训练作业的可靠性,这对于防止性能瓶颈和潜在故障至关重要。. 

多维优化通过一个可配置的框架,在考虑 GPU 集群内全局约束的情况下做出确定性决策,从而平衡开发人员的需求与业务目标、成本考虑和弹性要求。.

动态资源分配 (DRA):赋能开发人员

出工程师 Kevin Klues 英伟达杰探讨了动态资源分配 (DRA),这是一个 Kubernetes API,旨在让第三方开发者更好地控制资源分配。在 alpha 测试阶段,DRA 允许开发者直接选择和配置资源,从而增强对容器和 Pod 之间资源共享的控制。这项重大进展是对英伟达优化 GPU 利用率和资源管理工作的有力补充。

英伟达最新推出的GPU产品B200 Blackwell,承诺将现有GPU的AI模型训练能力提升一倍,并内置硬件支持以增强系统弹性。英伟达正积极与Kubernetes社区合作,以充分利用这些技术进步并有效应对GPU扩展性方面的挑战。该公司与社区在GPU资源管理底层机制方面的合作,凸显了其致力于提升Kubernetes上GPU加速AI工作负载的可扩展性和效率的决心。.

前进的道路

随着英伟达不断创新并扩展其在 Kubernetes 环境中的 GPU 功能,将 AI 工作负载与 Kubernetes 集成有望达到新的高度。尽管 Kubernetes 已成为部署 AI 模型的首选平台,但英伟达也意识到,要充分发挥 GPU 在加速 Kubernetes 上 AI 工作负载方面的潜力,仍有许多工作要做。. 

在英伟达和云原生开发社区的共同努力下,未来在 Kubernetes 环境中 GPU 加速的 AI 部署和管理方面将取得令人瞩目的进展。.

如果你正在阅读这篇文章,你已经领先一步了。 订阅我们的新闻简报,继续保持领先优势

分享这篇文章

免责声明: 提供的信息并非交易建议。Cryptopolitan.com Cryptopolitan研究 对任何基于本页面信息进行的投资概不负责。我们tron您在做出任何投资决定前进行独立dent /或咨询合格的专业人士。

更多…新闻
深度 密码
学速成课程