工具介绍
Whisk是Google Labs推出的一款创新的AI图像生成工具,它通过图像输入快速生成并重混创意图片。以下是Whisk的一些主要特点和功能:
- 图像驱动的生成:Whisk允许用户通过上传图像来确定主体、场景和风格,而不是使用文本提示,这为不擅长撰写文本提示的用户提供了更便捷的方式。
- 自动生成详细字幕:Gemini模型会自动为用户上传的图像编写详细的字幕描述,这些描述会被输入到Imagen 3模型中,以更好地捕捉图像的关键特征并生成符合用户意图的新图像。
- 创意重新混合:Whisk能够将不同的主体、场景和风格图像进行重新混合,创造出独特的设计,如数字玩偶、珐琅别针等各种创意产品。
- 本质捕捉而非复制:Whisk捕捉的是输入图像的本质特征,而不是精确复制,这使得生成的图像具有更多的创意变化空间,但也可能导致结果与用户预期不完全一致。
- 可编辑提示:用户可以查看和编辑底层的提示信息,以便根据自己的需求对生成的图像进行调整和优化,例如修改颜色、图案等特征。
- 适用场景:Whisk主要定位于创意探索,旨在帮助用户快速生成和迭代各种创意想法,而非用于精确的图像编辑。
- 技术原理:Whisk的背后是Google的Gemini视觉理解与描述模型和Imagen 3图像生成模型。Gemini模型负责为用户的图像生成详细的文字描述,这些描述精准捕捉了图片的主题、情感和风格特征。随后,这些描述被传递给Imagen 3模型,该模型基于这些丰富的信息,运用深度学习算法,创造出既符合用户意图又充满惊喜的新图像。
- 访问方式:目前,Whisk仅对美国用户(美国IP)开放,用户可在labs.google/whisk上使用该工具并提供反馈。
Whisk的推出,标志着Google在图像生成领域的一次重要布局,这款工具不仅简化了图像创作的流程,更在技术上实现了质的飞跃,为用户提供了一种独特的图像生成方法
工具地址
地址:https://blog.google/technology/google-labs/whisk/
使用地址:https://labs.google/fx/zh/tools/whisk
目前仅支持美国(ip)地区