阿里巴巴开源用于视频和图像生成的AI模型

经过

阅读时长：3分钟发布日期：2025年2月26日

阿里巴巴集团控股有限公司宣布，其视频和图像生成人工智能模型WAN 2.1现已作为开源平台向公众开放。此举有望促进人工智能技术的应用，并加剧该领域的竞争。.

阿里巴巴的这一决定与字节跳动和初创公司DeepSeek的策略不谋而合。今年早些时候，DeepSeek价格亲民的开源模型吸引了科技投资者的关注，其性能堪比OpenAI等老牌厂商，令资本密集型行业为之惊艳。

阿里巴巴发布了四款基于WAN 2.1架构的AI模型——T2V-1.3B、T2V-14B、I2V-14B-720P和I2V-14B-480P——它们能够根据文本和图像输入生成图像和视频。“14B”代表这些模型可以处理140亿个参数，使其能够处理更复杂的输入并产生更精确的结果。.

这些模型已在全球范围内通过阿里云的 ModelScope 和 HuggingFace 平台提供，供学术、研究和商业用途使用。.

今年1月，阿里巴巴推出了最新版本的视频和图像生成人工智能模型，并将其名称从Wanx缩短为Wan。该公司宣称该模型能够生成高度逼真的视觉效果。此后，阿里巴巴一直强调其在视频生成模型排行榜VBench上的领先地位，并在多对象交互等功能方面表现出色。.

周二，该公司发布了其推理模型 QwQ-Max 的预览版，并计划在正式发布时将其开源。.

开源人工智能开发的蓬勃发展正值竞争对手取得重大进展之际。TikTok 字节跳动最近宣布推出 OmniHuman，这是一款先进的人工智能系统，只需一张照片即可生成完整的全身视频。

OmniHuman 与其他类似人工智能系统最大的区别在于，它能够制作动态视频，视频中的人物可以自然地说话、做手势和移动。该系统已使用超过 19,000 小时的视频内容进行训练，并利用这些数据制作出在动作和表情方面模仿人类行为的视频。.

OmniHuman技术的首批演示之一是阿尔伯特·爱因斯坦的演讲视频。该视频一经发布到互联网上便迅速走红，这足以证明这项功能带来的巨大改变。.

虽然 OmniHuman 是第一个声称仅用一张图像就能生成逼真视频的 AI 系统，但其他系统使用几张图像也能达到类似的效果。.

首先，Pollo AI 是一款允许用户通过上传图片生成视频的工具。它使用简单，只需图片和文字提示，即可根据用户defi定义的风格创建视频。.

Canva 也拥有类似的 AI 视频生成器。它提供的模板和编辑功能，即使没有高级视频制作技能的用户也能轻松地使用图像创建 AI 生成的视频。.

Freepik 也提供类似的 AI 视频生成器，它提供多种生成模式和自定义选项，只需图像和提示即可创建引人入胜的视频。.

几天前，阿里巴巴宣布计划在未来三年内投资至少3800亿元人民币（520亿美元），以加强其云计算和人工智能基础设施。

这家互联网巨头（联合创始人为马云）将加大对人工智能和云计算基础设施的投资，超过过去十年的总和。随着不断演进的模型对计算能力的要求越来越高，阿里巴巴在其官方博客中表示，公司计划成为在现实世界中构建和部署人工智能的企业的首选合作伙伴。.

这项计划是中国在人工智能基础设施领域规模最大的投资之一，也凸显了阿里巴巴在该领域日益增长的雄心。但与此同时，投资者也担忧一些大型科技公司是否会高估未来对人工智能服务的需求，或者低估构建这些服务的资本成本。.

TD Cowen分析师周五指出，微软公司正在取消其在美国大量数据中心的租赁合同。此举可能反映出该公司担心其人工智能计算能力的建设是否超过了其长期实际需求。阿里巴巴的香港股票周一一度下跌3%。

其他大型科技公司，如 Meta Platforms Inc. 和 Amazon.com Inc.，也承诺投入数十亿美元来建设训练、开发和托管人工智能服务所需的数据中心。.

如果你正在阅读这篇文章，你已经领先一步了。订阅我们的新闻简报，继续保持领先优势。

分享这篇文章

免责声明：本页面提供的信息并非交易建议。Cryptopolitan.com对任何基于本页面信息进行的投资概不负责。我们tron您在做出任何投资决定前进行独立dent /或咨询合格的专业人士。Cryptopolitan研究

内利乌斯·艾琳

内利乌斯拥有工商管理和信息技术双学位，并在加密货币行业拥有五年经验。她也是 Bitcoin Dada）的毕业生。内利乌斯曾为多家主流媒体撰稿，包括 BanklessTimes、Cryptobasic 和 Riseup Media。.

分享这篇文章

更多…新闻

每天一份简洁明了的简报。