关于ZAKER 合作
量子位 20小时前

告别 AI “乱画图表”!港中文团队发布首个结构化图像生成编辑系统

AI 竟然画不好一张 " 准确 " 的图表?

AI 生图标杆如 FLUX.1、GPT-Image,已经能生成媲美摄影大片的自然图像,却在柱状图、函数图这类结构化图像上频频出错,要么逻辑混乱、数据错误,要么就是标签错位。

这背后是视觉生成领域的长期偏向:过度追求自然图像的美学效果,却忽视了结构化图像对 " 事实准确性 " 的核心需求。

更关键的是,现有视觉理解模型(如 Qwen-VL)已能精准解析图表数值、公式逻辑,而生成 / 编辑模型却难以匹配这种理解能力,形成显著能力鸿沟,严重阻碍了 " 能看又能画 " 的统一多模态模型发展。

对此,来自港中文 MMLab、北航、上交等校的联合团队提出了首个综合性解决方案,可应用于结构化视觉生成与编辑领域。

涵盖高质量数据集构建、轻量模型优化、专用评估基准三大模块,旨在让多模态模型不仅能看懂图,还会画准图

下面是更多详细内容。

结构化图像的 " 三大能力刚需 " 与 " 一大发展瓶颈 "

结构化非自然图像(图表、公式、表格、示意图等)虽不像风景、人像图像那样 " 美观 ",却是教育、科研、办公的核心工具,其生成与编辑需满足三大刚性要求:

精准文本渲染:

例如公式符号无错漏、表格数值对齐、图表标签匹配;

复杂布局规划:

布局规划远比自然图像复杂,例如柱状图的轴范围适配数据、函数图像的曲线贴合定义域、流程图的节点连接无误;

多模态推理:

例如接到 " 将饼图转为折线图 " 指令时,需先理解原饼图的数值分布,再按折线图规则重构结构。

但现有方案完全无法满足这些需求:

数据端:

主流数据集(如 JourneyDB、OmniEdit)以自然图像为主,缺乏 " 代码 - 图像严格对齐 " 的结构化样本(如无法通过代码验证图表数值准确性);

模型端:

统一多模态模型侧重自然图像的指令跟随,缺乏对细粒度结构化语义的理解(如分不清图表的 X 轴与 Y 轴逻辑);

评估端:

CLIP Score、PSNR 等指标只关注像素或整体语义的相似性,无法衡量 " 数值是否正确 "" 标签是否匹配 " 这类细粒度准确性。

更关键的是,视觉理解与生成的 " 能力鸿沟 " 持续扩大 —— 模型能 " 看懂 " 图表里 " 类别 A 的数值是 5.2",却 " 画不出 " 一个数值准确的同类图表,这成为统一多模态模型发展的关键卡点。

从 " 数据 " 到 " 基准 " 的全链条突破

为解决上述问题,论文构建了 " 数据 - 模型 - 基准 " 三位一体的解决方案,每一环都直击领域痛点:

1、数据层:130 万代码对齐的结构化样本库

结构化图像的 " 准确性 " 可通过代码精准定义(如 Matplotlib、LaTeX 的绘图代码),因此团队采用 " 代码驱动 " 思路构建数据集:

收集 200 万可执行绘图代码,覆盖数学函数、图表、表格等 6 类场景,执行代码生成 " 代码 - 图像对 ";

用 GPT-5 生成 " 双指令 ":既生成 " 视觉编辑指令 "(如 " 将函数 y=x 的阴影区间缩至 x ∈ [ -1,1 ] "),也生成对应的 " 代码编辑指令 "(如 " 修改 fill_between 条件为 x>=-1 且 x<=1"),确保编辑前后的图像与代码严格对齐;

最终筛选出 130 万高质量样本,并为每个样本添加 " 思维链标注 "(如生成任务的详细分析、编辑任务的多步推理过程),解决指令模糊问题。

数据构建流程

2、模型层:轻量融合 VLM,兼顾结构化与自然图像能力

基于FLUX.1 Kontext(支持生成与编辑统一的扩散 Transformer),团队设计 " 轻量级 VLM 整合方案 ",避免传统重投影器的训练开销:

引入 Qwen-VL 来增强对结构化图像输入的理解能力,通过 " 轻量 MLP 连接器 " 将其提取的高层语义(如图表数值逻辑、公式符号关系)对齐到 FLUX.1 的特征空间,仅训练少量参数即可实现能力迁移;

采用 " 三阶段渐进训练 ":先对齐 VLM 与扩散模型特征(仅训 MLP),再混合自然图像与结构化数据训练(训 MLP+ 骨干),最后用带思维链的样本提升推理能力,确保模型不丢失自然图像生成能力。

三阶段渐进式训练流程

3、基准层:StructBench 与 StructScore,精准评估 " 准确性 "

针对现有评估指标的缺陷,团队提出专用基准与指标:

StructBench 基准:包含 1714 个分层抽样样本,覆盖数学、图表、表格等 6 类任务,每个样本附带 " 细粒度 Q&A 对 "(如 "Q:柱状图 X 轴标签是什么?A:类别 1/2/3"),用于验证事实准确性;

评估流程

StructScore 指标:通过 " 原子化 Q&A+ 开放回答评分 " 评估 —— 将图像属性拆分为单个开放式问答(避免多属性混淆),比较模型回答与标准答案的相似性进行赋分。生成任务看 Q&A 准确率,编辑任务则以 "0.1 × 视觉一致性 +0.9 × 指令遵循 " 加权(优先保证编辑有效性),该指标与人类偏好的皮尔逊相关系数超 0.9,远优于传统指标。

皮尔逊相关系数对比显著缩小 " 理解 - 生成 " 鸿沟

研究人员将 15 个主流开源闭源模型进行对比,实验结果如下所示。

由此可见,本方案展现出明显优势:

闭源仍领先,但整体仍不令人满意:无论生成还是编辑,最佳模型的事实准确率约在 " 对半 " 附近,结构化视觉仍有大量提升空间;

数据比架构更关键:不同开源范式(扩散 / 自回归 / 离散扩散)与不同视觉编码器并无一方法 " 通吃 ";高质量、严格对齐、含推理标注的数据是决定性因素;

推理能力关键:在复杂任务(如图表类型转换)上尤为明显;给多种模型接入相同的 " 显式推理轨迹 " 也能持续提升,显示 " 扩展推理算力 " 对结构化生成 / 编辑至关重要。

而本项研究不单单是为了解决 "AI 画图表 " 的问题,还能够推动统一多模态模型发展:

填补领域空白:首次系统梳理结构化视觉生成的核心需求,构建首个全链条解决方案,让社区关注这一被忽视的重要方向;

突破能力瓶颈:通过 " 理解 - 生成 " 的能力对齐,为统一多模态模型(既能看又能画、既能解析又能创作)提供关键技术支撑;

落地实际需求:为教育领域自动生成数学图像、科研领域绘制实验图表、办公领域编辑表格等场景,提供 " 准确可靠 " 的 AI 工具。

研究团队希望为构化视觉生成领域打下第一块系统性基石,并期待更多研究者关注这一方向,共同推动多模态 AI 向 " 精准理解、可靠生成 " 迈进。

因为当 AI 能精准生成一张数值无误的图表、一笔不错的数学公式时,它才真正从 " 美化工具 " 走向 " 生产力工具 "

论文链接:https://arxiv.org/pdf/2510.05091

项目链接:https://structvisuals.github.io/

GitHub 链接:https://github.com/zhuole1025/Structured-Visuals

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

点亮星标

科技前沿进展每日见

相关标签
ai

最新评论

没有更多评论了