文 | 字母 AI
五一假期前一天,DeepSeek 突然扔出来一份视觉多模态技术报告。
点开之前,我心里大概是有个预期的,无非就是具体能看到多远、看得多清楚。
毕竟过去一年,多模态模型基本都在往这个方向卷。OpenAI 讲 thinking with images,让模型在推理过程中裁剪、放大、旋转图片;Gemini、Claude 也都在想办法让模型处理更高分辨率、更复杂的视觉输入。
大家的共同假设是,只要模型看得更细,视觉推理自然就会更强。
但 DeepSeek 这份报告看下来,你会发现,他们完全走上了另一条路。
DeepSeek 没有把重点放在 " 让模型看到更多像素 " 上,他们把注意力放在了一个更底层的问题上。
就算模型已经看清楚了,但是它在推理过程中,你怎么能保证模型和你指的是同一个东西?
其实这是多模态推理里最容易被忽略的死穴。
人类看图时,可以用手指去标记对象。比如 " 这个人是谁谁谁 "、" 那个人是谁谁谁 "。但模型哪知道你说的这个是哪个?
模型只能用语言说 " 左边那个 "" 上面那个 "" 这条线 "。一旦画面复杂起来,语言指代就会漂移,推理也会跟着崩。
于是 DeepSeek 就说了,那就给模型一根 " 手指 " 不就完了?
它把点和边界框变成模型思考时的基本单位,让模型能够一边用这根赛博手指指着对象,一边进行推理。
01 从连续视觉到离散符号
DeepSeek 在这份技术报告里,提出了一个很有意思的问题。他们认为,多模态模型真正难的地方,不是看见图像,而是在连续推理过程中稳定地指向同一个视觉对象。
就比如你跟你的朋友说 " 菜市场里,张老太太的那个摊位卖的菜最新鲜 "。但是菜市场里老头老太太多了去了,哪个是张老太太?
但如果你直接用手指着说 " 就是那个 ",你朋友就会马上明白。
DeepSeek 将这个问题命名为 " 引用鸿沟 " ( Reference Gap ) 。
过去一年,几乎所有前沿多模态模型都在解决 " 感知鸿沟 " ( Perception Gap ) 这个问题。
假如说有一张照片放在你面前,如果照片太模糊、分辨率太低,你可能看不清楚里面的小字或者远处的细节。AI 也一样,如果输入的图像质量不够、处理方式不对,它就会 " 看不清 ",这就是感知鸿沟。
GPT、Claude、Gemini 这些模型不断提高分辨率,引入高分辨率裁剪、动态分块、多尺度处理,目的就是让模型能看到更多细节。
这个方向当然有价值,但 DeepSeek 在报告里指出,就算模型看得再清楚,在复杂的空间推理任务上,仍然会出现逻辑崩溃。
问题出在自然语言本身。
照片里有十几只狗,你说 " 左边那只狗 ",那模型就没办法理解你说的具体是哪只。
还有更绝的,如果你让模型数一下照片里狗的数量,那么模型在推理过程中很容易就搞不清楚自己已经数过哪些、还有哪些没数。
报告中还提到了迷宫导航这样极端的情况,纯语言根本无法准确描述不规则形状的路径和复杂的拓扑关系。
语言作为一种指代工具,在连续的视觉空间里天生就是模糊的。它擅长抽象概念和因果关系,但在空间定位和拓扑关系上,语言的表达能力存在根本性的局限。
可 DeepSeek 本身就是个通用的语言模型,那应该怎样解决呢?
于是就有了文章开头提到的这根 " 手指 "。
他们提出的核心概念是 " 视觉基元 " ( Visual Primitives ) ,具体来说就是把边界框(bounding boxes)和点(points)这两种计算机视觉里最基础的空间标记,提升为 " 思维的最小单位 "。
以前的多模态模型虽然也能画框标注物体,但只是在最后给你看个结果,证明 " 我找到了 "。就像考试时,你只交答案,不写解题过程。
也有一些研究让 AI 在思考过程中画框,但目的只是为了 " 看得更准 ",框框只是个辅助工具。就好比你做数学题时用草稿纸,草稿纸只是帮你算得更清楚,不是解题思路的一部分。
DeepSeek 要做的完全不同。
他们把这些空间标记直接嵌入到模型的推理过程中,让它们成为推理的有机组成部分。模型在思考的时候,不只是用语言描述 " 我看到了一只狗 ",还同时输出 " 我看到了一只狗,它在这里: [ [ x1,y1,x2,y2 ] ] "。
这个机制被 DeepSeek 称为 " 边推理边指向 " ( point while it reasons ) 。

技术报告里就给了这样一个例子:模型从起点出发,一路探索、回溯、再尝试,最后输出了一串完整的坐标路径,每个坐标都对应迷宫里走过的一个点。
这样一来,模型就不会在推理过程中 " 迷路 "。它不会搞不清楚自己在说什么、指什么。每个视觉对象都有了明确的空间锚点,推理过程变得可追踪、可验证。
这条技术路线和 OpenAI 的方向形成了有趣的对比。
OpenAI 在 o3 和 o4-mini 的官方介绍里明确提到了 "thinking with images" 的概念,即模型可以把图像纳入推理链,并通过裁剪、放大、旋转等方式处理图像。这个方向的重点是让图像本身成为思维链的一部分,模型可以在推理过程中生成新的图像、修改图像、对图像进行操作。
OpenAI 的路线强调的是通用能力,视觉、代码、搜索、文件、工具调用一起协作。模型拥有一个强大的 " 视觉工作台 ",可以灵活地处理各种视觉任务。
DeepSeek 的路线则更 " 符号化 " 一点。它让坐标进入思维链。模型在推理文本里显式写出边界框和点的坐标,把视觉对象变成推理时可复用的锚点。
这就导致,OpenAI 的视觉推理发生在内部,用户只能看到最终答案和必要解释,中间的视觉处理过程是黑箱。DeepSeek 则故意把中间视觉锚点显式化,让推理过程完全透明。
DeepSeek 这样做,好处是推理过程更容易被训练、检查和打分。这也让它更容易设计格式、质量和任务级奖励。尤其在迷宫、路径追踪这类任务中,可以对路径合法性、轨迹覆盖度等给出更细的反馈。
模型不只是学会输出正确答案,更是学会了用视觉基元进行推理的方法。
02 效率才是核心
DeepSeek 这份报告里有一个很容易被忽略但极其重要的细节,他们的模型在处理图像时,用的 token 数量远远少于其他前沿模型。
报告里有一张对比图,展示了不同模型处理一张 800 × 800 分辨率图像时消耗的 token 数量。
Gemini-3-Flash 约 1100 个,Claude-Sonnet-4.6 约 870 个,GPT-5.4 约 740 个,Qwen3-VL 约 660 个,DeepSeek 约 361 个,并在 KV 缓存里只保留约 90 个条目。
这个差距不是一点点。DeepSeek 用的 token 数量只有 Gemini 的 3 分之 1,KV 缓存条目更是只有 10 分之 1 左右。
这种极致的效率是怎么实现的?
DeepSeek 用了一个叫 " 压缩稀疏注意力 " ( Compressed Sparse Attention, CSA)的机制。
你可以这样理解,假如说你给朋友看一张全家福,你不会说 " 从左数第 237 个像素开始有一块红色区域…… ",你会直接说 " 左边是我妈,右边是我爸 "。
DeepSeek-ViT 先把图像压成更少的视觉 token,CSA 再把这些视觉 token 在 KV 缓存中的表示进一步压缩。
这个机制在 DeepSeek-V4-Flash 模型上就使用过,现在被应用到了视觉多模态之中。
具体的压缩流程是这样的。一张 756 × 756 的图像,包含 571536 个像素。这些像素首先经过 ViT 处理,以 14 × 14 的 patch size 切分,生成 2916 个 patch token。然后进行 3 × 3 的空间压缩,把每 9 个相邻的 token 沿着通道维度压缩成 1 个,变成 324 个视觉 token。
这 324 个 token 进入大语言模型进行预填充。最后,CSA 机制会把这些视觉 token 在 KV 缓存里再压缩 4 倍,最终只保留 81 个条目。
从 571536 个像素到 81 个 KV 缓存条目,整个压缩比达到了 7056 倍。
一般 AI 大厂都是在用暴力方法去堆计算资源,而 DeepSeek 则是在信息论层面去做取舍,只留下最直观易懂的信息。
其最直接的结果,就是推理速度变快了许多。
图像 token 数量直接影响模型的推理延迟。在自回归生成过程中,每生成一个新 token,模型都需要对之前所有 token 的 KV 缓存进行注意力计算。如果图像占用了 1000 个 token,那么每次生成都要对这 1000 个 token 做注意力。如果只占用 90 个,计算量就大幅减少。
对于需要实时响应的应用场景,比如机器人视觉、自动驾驶、实时视频分析,推理速度的提升起到了决定性作用。
然后它内存占用得也少。
KV 缓存是大模型推理的内存瓶颈。特别是在处理长上下文或批量推理的时候,KV 缓存会占用大量显存。DeepSeek 把视觉 token 的 KV 缓存压缩到 90 个条目,意味着可以在同样的硬件上处理更多图像,或者处理更长的多轮对话。
这对于实际部署非常重要。很多公司的多模态模型在实验室里表现很好,但一到实际部署就遇到成本问题。每张图片消耗的 token 越多,推理成本就越高,可支持的并发用户就越少。DeepSeek 的效率优势在规模化部署时会被放大。
同时也变相提高了模型的上下文容量。
如果一张图片要占用 1000 个 token,那么在一个 128k 的上下文窗口里,只能放 100 多张图片。如果只占用 300 个 token,就可以放 400 多张。这对于需要处理多图对话、长视频分析、大量文档理解的场景至关重要。
DeepSeek 的模型可以在一个对话里处理更多图像,可以对比分析几十张甚至上百张图片,可以追踪视频里的长期变化。
最关键的是训练成本。
虽然报告主要讲推理效率,但这种压缩机制在训练阶段同样有效。更少的视觉 token 意味着更小的计算图,更快的训练速度,更低的硬件要求。
DeepSeek 一直以 " 用更少资源做出更好效果 " 著称。从 R1 的强化学习训练,到 V4 的 MoE 架构,再到现在的视觉多模态,这种效率优先的哲学贯穿始终。
但这里有一个关键问题。压缩会不会损失信息?
DeepSeek 并没有否认压缩会带来信息损失。它的主张是,在这组空间推理和计数任务上,压缩后的表征仍然足够有效。
每一步压缩都在保留对推理最重要的信息,丢弃冗余和噪声。
其实前面提到的 DeepSeek 的视觉基元机制,它本身也是一种信息压缩。一个边界框用 4 个数字就能精确定位一个物体,一个点用 2 个数字就能标记一个位置。这些离散符号携带的信息密度远高于原始像素。
从实验结果看,这种压缩没有损害性能,反而在某些任务上带来了提升。
这说明对于很多视觉推理任务,瓶颈不在于看得不够清楚,而在于没有找到合适的表征方式。
这种效率优势还证明了多模态智能不一定需要更大的模型、更多的算力、更高的成本。
从 DeepSeek 时刻诞生至今,这家公司一直有一条暗线," 真正的智能不在于算力,而在于对问题本质的理解 "。
当你真正理解了视觉推理需要什么,你就不需要那么多 token。当你找到了合适的表征方式,你就不需要那么大的模型。
从这个角度看,DeepSeek 的极致效率不是目的,而是副产品。真正的目的是找到视觉推理的正确范式。效率只是证明了这个范式是对的。
03 未竟之事
DeepSeek 在报告的局限性部分,坦诚地列出了当前方法存在的几个问题。这些问题不是技术细节上的小瑕疵,而是指向了视觉推理的下一个阶段。
第一个问题是触发词依赖。
报告里明确说,当前的 " 用视觉基元思考 " 能力需要显式的触发词(explicit trigger words)才能激活。也就是说,模型还不能自然、自主地决定 " 什么时候该画框、打点 "。
它意味着模型还没有真正学会判断什么时候需要使用视觉基元,什么时候用语言就够了。
理想的情况是,模型应该能根据任务的性质自主决策。但当用户问 " 数一数图里有几只狗 " 的时候,模型应该自动切换到视觉基元模式,用边界框来辅助计数。
从技术上说,这需要在模型里建立一个元认知层。这个元认知层可以评估当前任务的复杂度,判断纯语言推理是否足够,决定是否需要调用视觉基元。
DeepSeek 目前还没有实现这个元认知层,但他们已经明确了方向。未来的版本可能会让模型学会自主决定推理策略,而不是依赖外部触发。
第二个问题是分辨率限制。
报告提到,受输入分辨率限制,模型在细粒度场景下的表现还不够好,输出的视觉基元有时不够精确。
这个问题和 DeepSeek 的效率优先策略有关。为了控制 token 数量,他们限制了视觉 token 的范围在 81 到 384 之间。对于超出这个范围的图像,会进行缩放处理。
这种设计在大部分场景下是合理的,但在一些需要极高精度的任务上就会遇到瓶颈。比如医疗影像分析需要识别微小的病灶,工业质检需要发现细微的瑕疵,这些场景对分辨率的要求很高。
DeepSeek 在报告里提到,这个问题可以通过整合现有的高分辨率方法来解决。也就是说,他们的视觉基元框架和传统的高分辨率裁剪方法不是对立的,而是互补的。
我觉得 DeepSeek 可以出个混合方案。
具体就是对于大部分常规任务,使用压缩的视觉表征和视觉基元推理,保持高效率。对于需要细粒度分析的局部区域,动态调用高分辨率裁剪,提取更详细的视觉信息。这样既保持了整体效率,又满足了局部精度需求。
这种混合方案的关键是让模型学会判断哪些区域需要高分辨率处理。于是这就又回到了刚才元认知的问题上。
第三个问题是跨场景泛化。
报告提到,用点作为视觉基元来解决复杂拓扑推理问题仍然很难,模型的跨场景泛化能力有限。
这个问题在迷宫导航和路径追踪任务上表现得比较明显。虽然 DeepSeek 在自己构建的测试集上达到了 66.9% 和 56.7% 的准确率,超过了其他模型,但这个数字本身还不够。
更重要的是,这些任务都是在合成数据上训练和测试的。迷宫是用算法生成的,路径追踪的曲线也是程序化绘制的。当模型遇到真实世界里的拓扑推理问题时,比如在真实地图上规划路径,在复杂管线图里追踪连接关系,表现可能会下降。
DeepSeek 的方法是通过大规模、高多样性的数据来提升泛化能力。他们爬取了 97984 个数据源,经过严格过滤后保留了 31701 个,最终得到超过 4000 万个样本。在迷宫和路径追踪任务上,他们也设计了多种拓扑结构、视觉风格、难度等级,试图覆盖尽可能多的变化。
然而数据多样性只是泛化能力的一部分。模型是否真正理解了拓扑推理的本质?还是说它只是记住了训练数据里的模式而已?
另外,DeepSeek 的视觉基元是一套新的表征系统,需要专门的数据格式、训练流程、评估方法。这和现有的多模态生态不完全兼容。
大部分多模态数据集和评测基准都是基于传统的 " 图像 + 文本 " 范式设计的,没有考虑视觉基元。如果要在这些基准上评测 DeepSeek 的模型,要么需要关闭视觉基元功能,要么需要重新设计评测方法。
其他研究者如果想复现或改进这个工作,需要重新构建整个数据和训练流程,门槛比较高。
DeepSeek 能在报告中谈及这些问题,说明他们对自己的工作有清醒的认识。
这可比给出完美答案更有价值。因为真正推动社会进步的,往往不是答案,而是问题。