作者 | 李水青
编辑 | 心缘
智东西 8 月 19 日报道,今日,阿里推出 Qwen-Image-Edit,这是其此前 8 月 5 日推出的图像生成基础模型 Qwen-Image 的图像编辑版本。(阿里开源图像大模型,实测中文渲染能力绝了!精准搞定复杂字体排版,硬刚字节 OpenAI)
这下,PS 可能真的要被干掉了。如下图所示,用户可以通过 Qwen-Image-Edit 在图中添加指示牌,指定指示牌中上的文本为 "Welcome to Penguin Beach"。下面右图不仅准确生成了用户所需要素,指示牌下还生成了自然的倒影。
Qwen-Image-Edit 基于其 20B 的 Qwen-Image 模型进步训练,将 Qwen-Image 的文本渲染能力延展至图像编辑领域,实现了对图片中文字的精准编辑。同时,Qwen-Image-Edit 将输图像同时输到 Qwen2.5-VL(实现视觉语义控制)和 VAE Encoder(实现视觉外观控制),从而兼具语义与外观的双重编辑能。
Qwen-Image-Edit 的主要特性包括:
1、语义与外观双重编辑:Qwen-Image-Edit 不仅持 low-level(低阶)的视觉外观编辑,如元素的添加、删除、修改等,要求图片其他区域完全不变,也支持 high-level(高阶)的视觉语义编辑,如 IP 创作、物体旋转、风格迁移等,允许整体像素变化但保持语义一致。
2、精准字编辑:Qwen-Image-Edit 支持中英文双语文字编辑,可在保留原有字体、字号、风格的前提下,直接对图片中的文字进行增、删、改等操作。
3、强的基准性能:在多个公开基准测试中的评估表明,Qwen-Image-Edit 在图像编辑任务上具备 SOTA(最佳表现)性能,是一个强大的图像编辑基础模型。
目前,用户可以访问 Qwen Chat(chat.qwen.ai)并选择 " 图像编辑 " 功能,体验 Qwen-Image-Edit。本文通过实测及一些官方案例,发现 Qwen-Image-Edit 已经能实现比较准确的文本驱动图像编辑,比如在文字生成、视角切换、场景创设、背景变幻等方面都生成较精准,并且主体能保持较高一致性,光线和质感会随场景自然变化。不过,目前其在 Qwen Chat 和 Hugging Face 的免费体验都有次数限制,不能无限使用。
Qwen-Image-Edit 的一大亮点在于其语义和外观编辑功能,智东西对此进行了一手体验。
语义编辑是指在保留原始视觉语义的同时修改图像内容。
如下图所示,当智东西输入以下男士照片,并输入 " 在桌子上生成一个立牌,写着‘沐屿咖啡’ ",Qwen-Image-Edit 能输出准确的文字,人物保持了一致性,镜头拉近了一点,肤色略变黄了一些。
输入图片:
输入图片:
输出图片:
输入图片:
输入图片:
输入图片:
虽然编辑后的图像与输入图像(最左侧图像)的像素大部分不同,但水豚的形态一致性得到了完美保留。语义编辑功能可以让原创 IP 内容创作变得轻松便捷,且内容丰富多样。
语义编辑的另一个典型应用是风格转换。例如,给定一幅输入肖像,Qwen-Image-Edit 可以轻松地将其转换为各种艺术风格,例如吉卜力工作室的风格。此功能在虚拟化身创建等应用中具有重要价值。
除了语义编辑之外,外观编辑是另一种常见的图像编辑需求。外观编辑强调在添加、移除或修改特定元素时,保持图像的某些区域完全不变。开篇提到的案例展示了一个将招牌添加到场景中的案例。如图所示,Qwen-Image-Edit 不仅成功插入了招牌,还生成了相应的反射。
下面这个例子演示了如何从图像中去除细发丝和其他小物体。
三、精准文本编辑,链式修改书法错误
Qwen-Image-Edit 的另一大亮点在于其精准的文本编辑能力,这源于 Qwen-Image 在文本渲染方面的功底。
以下两个案例生动地展现了 Qwen-Image-Edit 在英文文本编辑方面的性能:
Qwen-Image-Edit 还可以直接编辑中文海报,不仅可以修改大标题文本,还可以对细小复杂的文本元素进行精确调整。
最终,演示员成功获取了完整正确的《兰亭集序》书法版本。
结语:AI 图像编辑更精准,降低视觉创作门槛
通过体验,我们发现 Qwen-Image-Edit 具备较强大的语义和外观编辑功能。尽管在连续多轮修改中,Qwen-Image-Edit 编辑的精准性和一致性仍有待提高,在草书等更复杂字体生成上有局限,并且使用次数有限制,但其目前已能实现大多物体增删、文字生成、角度转换等实用功能。
随着这一能力还在持续迭代,其有望推动图像生成领域的发展,降低视觉内容创作的技术门槛,并激发更多创新应用。