IT 之家 8 月 5 日消息,阿里通义千问团队今日宣布开源 Qwen-Image,这是一个 20B 的 MMDiT 模型,也是通义千问系列中首个图像生成基础模型,其在复杂文本渲染和精确图像编辑方面取得了显著进展。
文本渲染能力:Qwen-Image 在复杂文本渲染方面表现出色,支持多行布局、段落级文本生成以及细粒度细节呈现。无论是英语还是中文,均能实现高保真输出。
一致性的图像编辑能力:通过增强的多任务训练范式,Qwen-Image 在编辑过程中能保持编辑的一致性。
跨基准性能表现:在多个公开基准测试中的评估表明,Qwen-Image 在各类生成与编辑任务中均获得 SOTA。
通义千问团队在多个公开基准上对 Qwen-Image 进行了全面评估,包括用于通用图像生成的 GenEval、DPG 和 OneIG-Bench,以及用于图像编辑的 GEdit、ImgEdit 和 GSO。
Qwen-Image 在所有基准测试中均取得了最先进的性能。此外,在用于文本渲染的 LongText-Bench、ChineseWord 和 TextCraft 上的结果表明,Qwen-Image 在文本渲染方面表现尤为出色,特别是在中文文本渲染上,大幅领先现有的最先进模型。
宫崎骏的动漫风格。平视角拍摄,阳光下的古街热闹非凡。一个穿着青衫、手里拿着写着 " 阿里云 " 卡片的逍遥派弟子站在中间。旁边两个小孩惊讶的看着他。左边有一家店铺挂着 " 云存储 " 的牌子,里面摆放着发光的服务器机箱,门口两个侍卫守护者。右边有两家店铺,其中一家挂着 " 云计算 " 的牌子,一个穿着旗袍的美丽女子正看着里面闪闪发光的电脑屏幕;另一家店铺挂着 " 云模型 " 的牌子,门口放着一个大酒缸,上面写着 " 千问 ",一位老板娘正在往里面倒发光的代码溶液。
ModelScope:https://modelscope.cn/models/Qwen/Qwen-Image
Hugging Face:https://huggingface.co/Qwen/Qwen-Image
GitHub:https://github.com/QwenLM/Qwen-Image
Technical report:https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-Image/Qwen_Image.pdf
Demo:https://modelscope.cn/aigc/imageGeneration?tab=advanced