大语言模型的局限在哪里?
AI 教母李飞飞这样说:
大自然中是没有语言存在的,你不会从天空中直接看到文字。
语言是一种纯粹的生成的信号。
然而,物理世界是客观存在的。所以提取、理解、生成 3D 世界的数据、实现空间智能和处理语言问题时截然不同。
她这段话意味着,大语言模型或许还不是真正的智能。
真正的智能将是信号感知、物理以及和现实世界相结合的产物。
空间智能可以借鉴语言模型,但仍存在本质差异
这场讨论的焦点在于,现在基于语言信号训练的模型到底懂不懂物理世界的常识。
首先,回顾一下李飞飞的说法。
她认为语言模型及当今的多模态语言模型的底层表示是一维的。它们在根本上就是操作于离散 token 的一维序列上,所以模型对于书面文本这种一维序列的表示是非常自然的。
虽然多模态大语言模型也能看图像,但它是将其他模态硬塞进这种一维 token 序列的底层表示中,这种一维且由人类生成的数据,可能无法很好地表示物理世界,造成信息损失。
如果直接让模型处理 3D 数据,那么表示类型与模型旨在执行的任务类型之间将会有更好的匹配。
除了这个维度上的差异,从更哲学的角度来说,她认为语言是一种纯粹由生成产生的信号。自然界中并不存在预设的语言形式,也就是说语言不能独立于人类之外。
大模型能够通过学习并反刍所输入的数据,无论输入什么样的数据,模型都能用足够的泛化能力处理语言任务。这是因为语言,或者说文本的本质允许模型在生成范式下表现得出色。
因此,要让模型倒推出 3D 世界的信息,并能够表示和生成它,在技术层面上,空间智能可以借鉴语言模型,但从哲学的范畴来看,这两者仍存在本质差异。
基于语言信号训练的模型在物理世界任务中表现差
比如用一个小实验来测试 Claude 3.5 Sonnet、GPT-4o、Gemini 1.5 Pro 三个多模态大模型的物理常识,并与人类儿童表现做对比。
结果发现模型只能搞定最简单的任务,稍难一点就不行了。
第二个实验是在第一个实验的基础上增加教学案例,比如演示正确做法,结果模型表现也没有明显的提升。
对比之后再看,这些大模型的表现远不及人类儿童,也比不上专门为这个环境测试的机器人。
Phy B 属于动态部分:修改 Phy A 中题目的数字,但不改变物理原理,用来测试大模型能不能进行灵活的物理推理。
结果显示,最厉害的模型在 Phy A 上的正确率只有 43%,而在 Phy B 中模型的平均准确率下降了 22.5%。
这说明模型并不是真懂物理。
人类对这些任务的正确率能达到 95.7%,而几个模型最高的正确率仅有 51%。在视觉感知上,大模型还远不及人类。
也得到了网友们的认同。
当然了,有正方就有反方。
有人先是反驳了关于语言的论述。
参考链接:
[ 1 ] https://x.com/rohanpaul_ai/status/1965242567085490547
[ 2 ] https://www.youtube.com/watch?v=vIXfYFB7aBI
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
专属 AI 产品从业者的实名社群,只聊 AI 产品最落地的真问题 扫码添加小助手,发送「姓名 + 公司 + 职位」申请入群~
进群后,你将直接获得:
最新最专业的 AI 产品信息及分析
不定期发放的热门产品内测码
内部专属内容与专业讨论
点亮星标
科技前沿进展每日见