继此前在 2025 I/O 开发者大会上发布新一代文生图模型 Imagen 4 系列后,日前谷歌方面宣布,该系列模型已上线 Gemini API 付费预览版,同时用户可通过 Google AI Studio 进行有限免费测试。
据了解,与 Imagen 3 相比,Imagen 4 系列支持 2K 分辨率的图像生成,并在细节捕捉上实现显著提升。此外 Imagen 4 系列在文本渲染方面取得突破,能够在图像中生成清晰、准确的文字,这也意味着其适用于需要嵌入自定义排版的设计场景,例如广告、漫画或邀请函等。
但需要注意的是,为了维护信任和透明度,Imagen 4 模型生成的所有图像将继续包含不可见的数字 SynthID 水印。
值得一提的是,日前谷歌方面还发布了首个可以直接部署在机器人上的视觉 - 语言 - 动作(VLA)模型 Gemini Robotics On-Device。据了解,作为 Gemini Robotics 系列的新成员,Gemini Robotics On-Device 可以帮助机器人更快、更高效地适应新任务和环境,同时无需持续的互联网连接。
面向开发者,谷歌方面还将发布 Gemini Robotics SDK,用于评估 Gemini Robotics On-Device 在其任务和环境中的表现。同时,开发者还可使用该 SDK 在谷歌 DeepMind 的 MuJoCo 物理模拟器中测试该模型,并快速将其适应到新领域。
【本文图片来自网络】