告别 AI “乱画图表”！港中文团队发布首个结构化图像生成编辑系统

AI 竟然画不好一张 " 准确 " 的图表？

AI 生图标杆如 FLUX.1、GPT-Image，已经能生成媲美摄影大片的自然图像，却在柱状图、函数图这类结构化图像上频频出错，要么逻辑混乱、数据错误，要么就是标签错位。

这背后是视觉生成领域的长期偏向：过度追求自然图像的美学效果，却忽视了结构化图像对 " 事实准确性 " 的核心需求。

更关键的是，现有视觉理解模型（如 Qwen-VL）已能精准解析图表数值、公式逻辑，而生成 / 编辑模型却难以匹配这种理解能力，形成显著能力鸿沟，严重阻碍了 " 能看又能画 " 的统一多模态模型发展。

对此，来自港中文 MMLab、北航、上交等校的联合团队提出了首个综合性解决方案，可应用于结构化视觉生成与编辑领域。

涵盖高质量数据集构建、轻量模型优化、专用评估基准三大模块，旨在让多模态模型不仅能看懂图，还会画准图。

下面是更多详细内容。

结构化图像的 " 三大能力刚需 " 与 " 一大发展瓶颈 "

结构化非自然图像（图表、公式、表格、示意图等）虽不像风景、人像图像那样 " 美观 "，却是教育、科研、办公的核心工具，其生成与编辑需满足三大刚性要求：

精准文本渲染：

例如公式符号无错漏、表格数值对齐、图表标签匹配；

复杂布局规划：

布局规划远比自然图像复杂，例如柱状图的轴范围适配数据、函数图像的曲线贴合定义域、流程图的节点连接无误；

多模态推理：

例如接到 " 将饼图转为折线图 " 指令时，需先理解原饼图的数值分布，再按折线图规则重构结构。

但现有方案完全无法满足这些需求：

数据端：

主流数据集（如 JourneyDB、OmniEdit）以自然图像为主，缺乏 " 代码 - 图像严格对齐 " 的结构化样本（如无法通过代码验证图表数值准确性）；

模型端：

统一多模态模型侧重自然图像的指令跟随，缺乏对细粒度结构化语义的理解（如分不清图表的 X 轴与 Y 轴逻辑）；

评估端：

CLIP Score、PSNR 等指标只关注像素或整体语义的相似性，无法衡量 " 数值是否正确 "" 标签是否匹配 " 这类细粒度准确性。

更关键的是，视觉理解与生成的 " 能力鸿沟 " 持续扩大 —— 模型能 " 看懂 " 图表里 " 类别 A 的数值是 5.2"，却 " 画不出 " 一个数值准确的同类图表，这成为统一多模态模型发展的关键卡点。

从 " 数据 " 到 " 基准 " 的全链条突破

为解决上述问题，论文构建了 " 数据 - 模型 - 基准 " 三位一体的解决方案，每一环都直击领域痛点：

1、数据层：130 万代码对齐的结构化样本库

结构化图像的 " 准确性 " 可通过代码精准定义（如 Matplotlib、LaTeX 的绘图代码），因此团队采用 " 代码驱动 " 思路构建数据集：

收集 200 万可执行绘图代码，覆盖数学函数、图表、表格等 6 类场景，执行代码生成 " 代码 - 图像对 "；

用 GPT-5 生成 " 双指令 "：既生成 " 视觉编辑指令 "（如 " 将函数 y=x 的阴影区间缩至 x ∈ [ -1,1 ] "），也生成对应的 " 代码编辑指令 "（如 " 修改 fill_between 条件为 x>=-1 且 x<=1"），确保编辑前后的图像与代码严格对齐；

最终筛选出 130 万高质量样本，并为每个样本添加 " 思维链标注 "（如生成任务的详细分析、编辑任务的多步推理过程），解决指令模糊问题。

△数据构建流程

2、模型层：轻量融合 VLM，兼顾结构化与自然图像能力

基于FLUX.1 Kontext（支持生成与编辑统一的扩散 Transformer），团队设计 " 轻量级 VLM 整合方案 "，避免传统重投影器的训练开销：

引入 Qwen-VL 来增强对结构化图像输入的理解能力，通过 " 轻量 MLP 连接器 " 将其提取的高层语义（如图表数值逻辑、公式符号关系）对齐到 FLUX.1 的特征空间，仅训练少量参数即可实现能力迁移；

采用 " 三阶段渐进训练 "：先对齐 VLM 与扩散模型特征（仅训 MLP），再混合自然图像与结构化数据训练（训 MLP+ 骨干），最后用带思维链的样本提升推理能力，确保模型不丢失自然图像生成能力。

△三阶段渐进式训练流程

3、基准层：StructBench 与 StructScore，精准评估 " 准确性 "

针对现有评估指标的缺陷，团队提出专用基准与指标：

StructBench 基准：包含 1714 个分层抽样样本，覆盖数学、图表、表格等 6 类任务，每个样本附带 " 细粒度 Q&A 对 "（如 "Q：柱状图 X 轴标签是什么？A：类别 1/2/3"），用于验证事实准确性；

△评估流程

StructScore 指标：通过 " 原子化 Q&A+ 开放回答评分 " 评估 —— 将图像属性拆分为单个开放式问答（避免多属性混淆），比较模型回答与标准答案的相似性进行赋分。生成任务看 Q&A 准确率，编辑任务则以 "0.1 × 视觉一致性 +0.9 × 指令遵循 " 加权（优先保证编辑有效性），该指标与人类偏好的皮尔逊相关系数超 0.9，远优于传统指标。

△皮尔逊相关系数对比显著缩小 " 理解 - 生成 " 鸿沟

研究人员将 15 个主流开源闭源模型进行对比，实验结果如下所示。

由此可见，本方案展现出明显优势：

闭源仍领先，但整体仍不令人满意：无论生成还是编辑，最佳模型的事实准确率约在 " 对半 " 附近，结构化视觉仍有大量提升空间；

数据比架构更关键：不同开源范式（扩散 / 自回归 / 离散扩散）与不同视觉编码器并无一方法 " 通吃 "；高质量、严格对齐、含推理标注的数据是决定性因素；

推理能力关键：在复杂任务（如图表类型转换）上尤为明显；给多种模型接入相同的 " 显式推理轨迹 " 也能持续提升，显示 " 扩展推理算力 " 对结构化生成 / 编辑至关重要。

而本项研究不单单是为了解决 "AI 画图表 " 的问题，还能够推动统一多模态模型发展：

填补领域空白：首次系统梳理结构化视觉生成的核心需求，构建首个全链条解决方案，让社区关注这一被忽视的重要方向；

突破能力瓶颈：通过 " 理解 - 生成 " 的能力对齐，为统一多模态模型（既能看又能画、既能解析又能创作）提供关键技术支撑；

落地实际需求：为教育领域自动生成数学图像、科研领域绘制实验图表、办公领域编辑表格等场景，提供 " 准确可靠 " 的 AI 工具。

研究团队希望为构化视觉生成领域打下第一块系统性基石，并期待更多研究者关注这一方向，共同推动多模态 AI 向 " 精准理解、可靠生成 " 迈进。

因为当 AI 能精准生成一张数值无误的图表、一笔不错的数学公式时，它才真正从 " 美化工具 " 走向 " 生产力工具 "。

论文链接：https://arxiv.org/pdf/2510.05091

项目链接：https://structvisuals.github.io/

GitHub 链接：https://github.com/zhuole1025/Structured-Visuals

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

点亮星标

科技前沿进展每日见

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

告别 AI “乱画图表”！港中文团队发布首个结构化图像生成编辑系统

宙世代

一起剪

相关阅读

高通亮相2025中国移动全球合作伙伴大会：骁龙平台落地多场景 成端侧AI强大支撑

小红书终于到了满地捡钱的阶段

《黑神话：悟空》官宣即将迎来更新！BUG修复 性能优化 安过MOD的注意了

全网最后一批躺赚博主，也被Al挤兑失业了

汽车供应商集体拒绝“无限期合同”

神秘交易员，成功押中诺贝尔和平奖归属

东鹏饮料：特饮之后，“下个百亿密码” 路在何方？

博主晒小米内部跑圈比赛排名：雷军这成绩都挤不进前10

宇树科技王兴兴：机器人在家庭生活、服务娱乐、公益场景的想象空间非常大

复出了？千万粉丝网红“蓝战非”多平台账号已被解封

有AI的Air！联想moto X70 Air月底发布：厚度不到6mm

华为FreeClip 2深度体验出炉：无感还好听，智能是亮点

小米连续两周排名中国手机市场销量第一！小米17系列销量已超100万台

2899元！小米智能门锁4 Pro双摄版发布：支持AI掌静脉+3D人脸识别

小米史上最高端直板机！小米17 Ultra双卫星版入网：支持天通一号+北斗短报文

最新评论

量子位

热门推荐

高通亮相2025中国移动全球合作伙伴大会：骁龙平台落地多场景成端侧AI强大支撑

《黑神话：悟空》官宣即将迎来更新！BUG修复性能优化安过MOD的注意了