豆包为什么要给 AI 助手「开眼」？

豆包，可以视频通话了。

自年初更新「实时语音通话」功能之后，这一功能就持续受到用户欢迎。现在在社交媒体上搜索豆包，排名前十的热门关键词中，有 6 个与「打电话」功能有关。大量和豆包通话相关的创意内容也受到了观众追捧。

随着视频能力上线，豆包的通话功能迎来了一次「升维」，变得更实用、好用。结合视频图像，很多即便模糊的语音输入，也能够更好地被 AI 理解，用户不需要再组织语言去描述眼前的信息。

视频通话是一个单点功能，但在这背后是语言能力、多模态能力、推理能力、知识库等等多个垂直领域的技术积累、整合，以及对成本和效率的平衡。

更重要的是，视频通话能力预示了 AI 助手更远的前景。当 AI 同时拥有了眼睛和耳朵，在未来更多硬件创新的支持下，还将解放更大的创新潜力。

帮你理解眼前一切的豆包

视频通话能力给豆包带来的，首先是多模态理解的能力提升和交互优化。

从最基础的「理解」场景开始，用户可以把手机摄像头对准任何信息，如信息版、菜单，让豆包给出翻译、解释。而且过程中，用户可以不断通过语言输入，来修正豆包的关注重点。

比如在一个博物馆里，当我们开启视频通话，问豆包这是什么，豆包首先会根据画面里的地标特征，识别出这是「新加坡国家美术馆」。然后我们如果继续追问，楼上挂着的横幅是什么意思，豆包又会给出具体展览信息的翻译和解释。

而在看展览的过程中，我们也可以举着手机，随时针对任何一幅作品向豆包发问。从基本的翻译作品信息，到问它作品风格具体属于哪一个派别，是否有模仿哪个艺术家的痕迹，豆包都能给出精准判断。

基于豆包给出的信息，我们也能进一步挖掘一些更深的隐藏关联。比如在新加坡国家美术馆里有一个法院拘留室的展示区域，问过豆包之后我发现，这里的关系在于，新加坡国家美术馆由原政府大厦和原最高法院大楼改建而成。前法院的拘留室曾用于关押候审的被告，在美术馆改建后，部分拘留室被保留了下来，成为了美术馆的一部分，供公众参观，让人们可以了解新加坡的司法历史。

除此之外，我们还可以和豆包讲讲自己对美术作品的一些理解和看法，进行观点碰撞。实际上，豆包已经具备一定的「纠错」能力，不是只会一味地顺从用户的理解。比如这里，当我引用了错误的类比，说这个作品像「蒙德里安」风格时，豆包能够纠正我的错误，告诉我实际像的是安迪 · 沃霍尔。之后我们还可以进一步探讨，为什么会出现这个错误。我们也可以引导豆包对作品进行批判性的解读和评价。

这里还有一个很关键的点，因为有了图像视觉信息作为辅助，很多时候即便我发出指令的声音很小，豆包并未完整识别我所说的句子的每一个字，但它依然能通过捕捉关键词，准确理解我的意图。

在旅行、观光、展览……等视觉信息占比更高的场景，最能体现出豆包视频通话能力的优势。我们可以随手举起手机，让豆包看到我们眼前的东西，从最基本的「这是什么？」出发，一点点挖掘出更多的信息和知识。比如让豆包根据周边的景色推理出我们在哪，推荐周边值得一去的景点、活动、特色饮食，这既具有实用价值也充满乐趣，适合出游不喜欢做严密的计划，喜欢遇到更多偶然惊喜的 P 人。

包括在餐厅吃饭，碰到那些「不知道该怎么吃」的情形，也很适合通过视频通话功能求助豆包。比如吃荞麦面的时候店员端上来一壶像热水一样的东西，这个时候豆包也轻松给出了正确答案，壶里装的是荞麦面汤，可以和酱汁混合在一起喝掉。

豆包的视频通话功能，相比普通的图像识别，最关键的优势依然在于它的「互动性」更强。基于单张图像的理解和推理，很可能出现各种理解偏差、错误。有了视频模式之后，即便豆包给出了一个比较可疑的回应，我们也可以通过换个角度，提供更多信息，来给豆包进行更多思考和修正的机会。

比如在这个场景下，我们想知道酒店的某个装置的作用，问豆包之后它首先以为我们问的是前面的熨衣板。经过进一步交互，它知道了我们想问的是后面的行李架，但因为角度问题，它将行李架错误理解成了健身器材，之后换个角度进一步追问并识别之后，豆包成功给出了行李架这一答案。

这是视频通话的功能的关键优势之一。当下任何 AI 大模型都不可避免地会有「幻觉」和错误。当用户精心编写了一大段 prompt 却没有得到自己想要的输出结果时，就会极大打击他们使用 AI 的积极性。但通过给到更多信息，提供更多角度的输入补充，就能让 AI 更接近我们需要的正确答案。可以说，在视频通话场景下，AI 和用户形成了互动的正向循环。

除了日常生活场景，豆包的视频通话功能还可以在学习、工作等各种场景发挥作用，特别是基于一些纸质的材料进行理解和修改。比如对多页的纸质资料进行总结，或对学科题目进行解答、纠错。

模型技术的「木桶理论」

「视频通话」的功能本身非常简洁，任何用户理解起来都没有门槛，但在这背后，其实需要复杂的技术作为支持。

豆包视频通话功能的核心来自「豆包视觉理解模型」的支持。2024 年 12 月，豆包首次发布视觉理解模型，为视频通话功能提供了模型能力基础。

除了视觉感知之外，豆包视觉理解模型还具备深度思考能力。这让豆包实际上还可以通过摄像头直接进行解学科题目、分析论文以及诊断代码等任务。这也是为什么在视频通话过程中豆包能同时结合「图像画面」和「用户语音指令」，精准理解用户意图。

豆包并不是第一个实现这一功能的 AI 助手，但想要同时拥有优秀的视觉理解能力，再基于视觉理解和用户指令，将不同模态的信息综合理解后，生成用户想要的信息，同时还要做到低延迟，这一切就有很高的技术门槛。

整个过程有点像「木桶理论」，一个模型必须同时做好多个方面，才能做到像一个真实的「AI 助手」一样，满足用户的需要。

为什么「视频通话」能解锁 AI 交互的更多创新？

今天，「视频通话」只是豆包的一个小功能。但实际上，视觉理解能力所蕴含的潜力和可能性还不止于此。

自诞生至今，大模型 AI 助手的交互都是「一问一答」式，用户输入 prompt，AI 生成反馈。这里最大的矛盾在于，整理编写 prompt 是有门槛的，且这个门槛比想象中更高，而一问一答式的交互又是断裂的，大家都很容易「把天聊死」，面对 AI 也一样。

而视觉图像的引入，则为人机交互建立了一个「语境」，且这个语境的建立不需要任何门槛，天然富含信息，用户只需要举起摄像头就行了。实际上，人类自身理解世界的过程中，我们最重要的信息接收器官也一直是眼睛。

通过豆包的视频通话功能，这一模式的有效性已经得到体现。通过连贯的互动加上视觉理解，用户和 AI 交互的过程变得更自然了，可以通过不断补充、解释，来接近自己想要的那个目标。这种用户和 AI 互相引导，对 propmt 进行不断修正，能极大增加 prompt 输入的带宽和精确度。

实际上，这早就是行业共识。自 AI 大模型技术诞生之后，几乎所有硬件创新都是在探索一种「摄像头 + 麦克风」的组合，从 AI Pin，到各种 AI 智能眼镜，都是在建立一种让 AI「看 + 听」的感知模式。只不过目前大部分这类硬件，都还无法在性能和效率上，做到像手机那么高的可行度。

当下我们在使用豆包的视频通话功能时，依然能感受到它被手机这个硬件载体限制着。比如我们很难长时间举着手机对准前方我们看到的东西，以及在一些公共场合也不便于大声说话，无法和 AI 充分进行语音沟通，这都是智能手机作为传统硬件的限制所在。

从豆包的「视频通话功能」已经可以看出，让 AI「看 + 听」的输入模式，可能代表 AI 交互的更多可能性。它在软件上完全是可行的，随着模型能力的进一步发展，结合硬件创新，或许将进一步改变我们与 AI 的交互方式。

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频剪辑

AI视频剪辑

AI智能客服

AI工具箱

AI写稿助手

AI口语陪练

我的订阅

豆包为什么要给 AI 助手「开眼」？

宙世代

一起剪

相关阅读

苹果被曝将推出系统级游戏应用 试图改变“Mac不能打游戏”印象

放弃“阿里”之名：阿里拆墙，虎鲸文娱“建房”？

真全面屏iPhone终于要来了！接下来的苹果新机外观一年一个样

3599元起 绿联NAS六盘位DXP6800发布：最高支持196TB

荣耀CEO李健官宣百万雄鹰计划：全球招募10位技术领军人才 上千名优秀毕业生

2025年的“裸眼3D掌机”，可以做成什么样？

穆胜：组织变革，就是要“项目化”

AI这场仗，蚂蚁决定这么打

芯片竞争已经是一场华人内战

微软立功！Chrome/Edge中手柄延迟大幅降低：体验媲美键鼠

腾讯混元发布语音数字人模型：仅需上传图像和音频 图中主角就能说话唱歌

行业首发！vivo S30 Pro mini支持希区柯克变焦实况：一键搞定

图片授权公司Getty Images斥资数百万美元对抗文生图AI公司

以环保为名：微软Surface新品取消标配充电器！想用还得再花几百

景联文科技完成数千万元Pre-A轮融资，布局公共数据生产运营

最新评论

极客公园

热门推荐

苹果被曝将推出系统级游戏应用试图改变“Mac不能打游戏”印象

3599元起绿联NAS六盘位DXP6800发布：最高支持196TB

荣耀CEO李健官宣百万雄鹰计划：全球招募10位技术领军人才上千名优秀毕业生

腾讯混元发布语音数字人模型：仅需上传图像和音频图中主角就能说话唱歌