有一说一,最近国内的 AI 大模型圈,属实有点安静了。
先不谈大伙万众瞩目的 DeepSeek-R2 了,这玩意除了半真半假的爆料以外,没有一点动静,有种哪怕再过半年时间,也不一定能够落地的感觉。
去年打得你来我往的 AI 四小龙,今年好像也和小猫一样蔫了,说是大家都在闷声鼓捣着自己的东西,但愣是什么都没有端出来,有种凿壁偷光的美。
至于大厂这边,迭代速度也都慢了下来,把更多的精力放到了应用上。豆包虽然端出了 1.6 大模型,但是宣传重点更多是 TRAE 和扣子空间;讯飞在发力 AI 教育和办公 Agents,百度则在推进全流程 AI 修图和资产管理,各有各的思路。
总的来说,这些应用倒是蛮实用的,就是确实没什么特别让人惊艳的产品。
这在线大模型没啥新进展,本地大模型就更是在原地踏步了,此前一直在更新的 Mistral AI 已经有小半年没啥声音了,移动端的端侧大模型更是杳无音讯,宣传了整整两三年的 AI 手机,超过 90% 的功能还是靠云端实现的。
谷歌寻思:这不行啊,那我的 Pixel 系列该怎么办?
上周,谷歌 DeepMind 在推特上正式宣布,发布并开源了全新的端侧多模态大模型 Gemma 3n。
谷歌表示,Gemma 3n 的发布代表了移动设备端 AI 的重大进步,它为手机、平板、笔记本电脑等端侧设备带来了强大的多模态功能,可以让用户体验到过去只有云端先进模型上才能体验的高效处理性能。
又来个以小搏大吗?有点意思。
为了看看这玩意的真实成色,小雷也去下载了谷歌发布的最新模型进行测试,接下来就给大家说说里面的亮点吧。
首先,我们来解答两个问题:
首先,什么是 Gemma 3n?
Gemma 3n 是谷歌利用MatFormer架构打造的轻量化端侧大模型,借由嵌套式结构实现了低内存消耗设计,目前官方一共推出了 5B(E2B)和 8B(E4B)两种型号,但通过架构创新,其 VRAM 占用与 2B 和 4B 相当,最低只要 2GB。
其次,Gemma 3n 能做什么?
不同于常规的文本剪裁模型,Gemma 3n 原生支持图像、音视频等多种输入模态,不仅可以实现自动语音识别(ASR)和自动语音翻译(AST),甚至可以完成各种图像和视频理解任务。
最后,我要怎样做,才能用上 Gemma 3n 呢?
放在六个月前,想在手机上部署端侧大模型其实是一件异常复杂的事情,往往还要借助 Linux 虚拟机的帮助才能实现,雷科技曾经还为此推出过一篇教程,因此大家会有这样的疑问也是很合理的。
但是现在,就没有这个必要了。
目前该应用已在 Android 平台开放下载,感兴趣的读者可以直接前往 Github 进行体验。在完成大模型加载后,用户就可以利用这款应用实现对话式 AI、图像理解以及提示词实验室功能,甚至可以导入自定义 LiteRT 格式模型。
无需联网,直接调用手机本地算力完成任务,就是这么简单。
接下来,就轮到万众期待的测试环节了。
如图所示,谷歌为这款应用默认准备了四款模型,其中有自家的 Gemma 系列,也有来自通义千问的 Qwen 系列,我们选择了目前最强的 Gemma 3n-4B 和通义千问的 Qwen2.5-1.5B 以及额外部署的 Qwen3-4B GGUF 进行测试。
首先是经典的草莓问题:
Q:Strawberry 一词中有多少个字母 "r"?
这一题看起来简单,却实实在在难倒过诸多 AI 大模型。
实测下来,没有深度思考能力的 Gemma 3n-4B 和 Qwen2.5-1.5B 依然会回答 "2 个 ",有深度思考能力的 Qwen3-4B GGUF 则能够给出正确答案 "3 个 ",只是莫名其妙的反复思考让它整整生成了两分半钟,还挺浪费时间的。
从结果来看,小参数确实会显著降低模型的逻辑思考能力,深度思考功能可以在一定程度上降低 AI 幻觉产生的可能性,但也因此会增加生成所需的时间。
然后是一道比较简单的误导问题:
Q:" 种豆南山下 " 的前一句是什么?
事实上,这是出自陶渊明《归园田居 · 其三》的首句诗,并没有前一句,正好能看看这几款小参数模型是否存在为了回答问题编造数据的现象。
有趣的是,这次只有 Qwen2.5-1.5B 给出了原诗句,但是没有给出否定的答案;而 Qwen3-4B GGUF 根本就是答非所问,Gemma 3n-4B 则编出了根本不存在的诗句,甚至不符合古诗词韵律。
然后是一道地理常识问题:
Q:有一位学者在野外搭帐篷,突然遇到了一只熊,这时候他就非常惊慌地逃跑,先是向南跑了 10 公里,又向东跑了 10 公里,最后还向北跑了 10 公里,这时候他惊奇地发现自己回到了原先搭帐篷的位置。请问:这位学者遇到的那头熊是什么颜色?
这个问题主要测试模型对特殊地理位置和现象的理解,满足学者运动轨迹的地方只能是北极,因此这头熊自然是白色的北极熊。
结果呢,Qwen2.5-1.5B 在进行了一段毫无逻辑的分析后,给出了错误的答案;Gemma 3n-4B 和 Qwen3-4B GGUF 则能够顺利给出正确的答案,需要注意 Qwen3-4B GGUF 因为思考消耗 token 太多导致答案没有完全生成的现象,这在整段测试中都很常见。
具体来说,我这边提供了 600 字左右的文章引言,希望他们能够给出对应的文章总结。
其中,Gemma 3n-4B 和 Qwen3-4B GGUF 都算是能完成任务的,不过因为 Gemma 3n-4B 原始语言是英文,因此给出的总结也是英文的,而 Qwen3-4B GGUF 则能够提供中文的文章总结。
从以上四轮测试来看,在文本处理、逻辑推理能力上,Gemma 3n-4B 和 Qwen3-4B GGUF 其实相差无几,但是在生成速度、回复成功率上其实是领先不少的,深度思考显然是不适合本地模型的。
不过 Gemma 3n 并不是单纯的文本大模型,人家可是罕有的小参数多模态大模型。
虽然语音识别目前 Google AI Edge Gallery 调用不了,但是图像识别人家还是有准备的,点击 "Ask Image" 选项,就可以通过随手拍摄或者上传照片的方式,向 Gemma 3n 提问。
但最起码,Gemma 3n 确实实现了移动端侧的多模态设计。
好了,经过我这几天的轮番折腾,是时候给谷歌这个 Gemma 3n 下个结论了。
总的来说,这玩意儿给我的感觉是 " 偏科明显,但未来可期 "。
在最基础的文本问答和逻辑能力上,它的表现只能算中规中矩,部分逻辑测试中的表现显然不如支持深度思考的 Qwen 3-4B,但是比起目前手机上常见的 Qwen2.5-1.5B 还是有明显提升的。
但它的优点也很突出,那就是快,Gemma 3n-4B 的响应速度明显要比 Qwen 3-4B 快很多,没有深度思考就意味着它没那么吃性能,跑起来显然更稳定,基本能够做到 100% 的生成响应率。
至于结果对不对 ... 那是模型能力的问题。
至于它的核心卖点——离线图像识别,能力确实有,但也就停留在 " 基础 " 层面,识别个物体、提取个文字还行,想让它理解复杂场景就有点难为它了。而且,原生英文的底子让它处理复杂中文时偶尔会冒出点 bug,这点得注意。
总的来说,Gemma 3n 并没有带来那种颠覆级的体验,更像是在性能和多功能之间做出的一个谨慎妥协。
这大概就是端侧小模型现阶段特有的弊病吧:什么都会一点,但离真正的 " 全能 " 还有一段路要走。