谷歌发布了名为 Whisk 的全新人工智能工具,它能够利用其他图像作为提示生成图像。与以往严重依赖冗长详细文字描述的工具不同,据报道允许用户上传图片来defi他们想要生成的图像的主题、场景和风格。
该工具还支持为每个输入项添加多张图片,为用户提供了极大的灵活性,方便他们进行实验。如果您没有图片素材,谷歌提供了一个骰子图标,可以自动在提示框中填充图片。
然而,这些占位符图片似乎也是由人工智能生成的。用户还可以添加一些文字来微调输出结果,但文本框是可选的。据该公司称,即使不添加文本框,Whisk 仍然可以生成结果。.
该工具会生成一张图片以及与之对应的用于创建该图片的文本提示。如果您喜欢生成的结果,可以将其收藏或下载。如果不满意,您可以通过编辑底层文本提示或生成全新的内容来对其进行改进。.
Imagen 3 为谷歌的 Whisk AI 提供支持
谷歌表示,Whisk 的设计初衷是“快速视觉探索,而非像素级精确编辑”。因此,虽然它灵活易用,但并非每次都能提供完美无瑕的结果。谷歌也承认该工具可能会“出现偏差”,所以才允许用户快速编辑以提高准确性。.
Whisk 采用谷歌最新的 Imagen 3 图像生成模型,该模型也是谷歌在发布这款工具时同时发布的。Imagen 3 为 Whisk 提供人工智能生成结果的能力,据称其底层技术能够提升输出结果的整体质量。.
除了 Imagen 3,谷歌还推出了其升级版视频生成模型 Veo 2。据报道,Veo 2 对电影拍摄的理解更胜一筹,并修复了诸如幻觉特征等常见问题——例如,人工智能 classic 多余手指”错误。.
该模型首先在谷歌的 VideoFX 平台上推出,目前仍在谷歌实验室进行有限测试。谷歌表示,Veo 2 最终将于 2025 年扩展到 YouTube Shorts 和其他谷歌产品。.
目前,该公司将Whisk定位为探索工具,而非专业编辑解决方案。它能否与OpenAI的DALL-E等竞争对手抗衡,还有待观察。.

