The following article is from 车云研究 Author 张政
近年来智能座舱逐渐呈现出同质化的发展特征,随着 AI 大模型的爆发(尤其是 DeepSeek 的影响)有望在智能座舱领域换发新的生机,各车企纷纷下场布局大模型,力争在未来抢占产品体验与 AI 技术的制高点。
具体来看:
【AI1.0 时代】有限场景 + 预设规则 + 功能累加 + 命令式交互 + 机械化情感 + 自定义能力
【AI2.0 时代】泛化能力 + 推理能力 + 自主能力 + 自然的交互 + 情绪化情感 + 生成式能力
可以预料的是,AI2.0 会从人性的六大维度上(懒、贪、馋、快、活、美)得到全面的体验升级。也会推进智能座舱企业从原有的竞争力内核向新的竞争力内核转变。
具体来看,AI 专项评测体系主要覆盖了 "5+1" 的核心能力
"5" 主要指的是基础必测项,主要以语音能力为主,即【推理能力】、【泛化能力】、【情绪能力】、【生成能力】、【自然程度】
"1" 主要指的是创新加分项,主要以主动服务、多模态融合为主
整个 AI 专项评价体系涉及约 50 项评价内容,分别从模型能力和场景价值两个维度来衡量不同车型在 AI 大模型领域的体验差异。
能力 1 ——【推理能力】
推理能力作为 AI 大模型最核心的能力之一,正从 " 数据压缩 " 迈向 " 世界模拟 ",从 "数据拟合工具 "向 "认知决策体 "跃迁,其本质是用计算重构人类认知金字塔的基石,是超越模式匹配的类人化思考。
为了全面且科学的检验大模型在座舱领域的推理能力,我们将从两个方向逼近推理能力的全面性与专业性。
首先我们从 " 推理 " 本身将其分成了 " 逻辑推理 "、" 数学推理 "、" 常识推理 " 和 " 因果推理 ",每一类推理又分成了 " 高熵 "、" 中熵 "、" 低熵 " 三个层次。同时 AI 大模型的诞生又伴随着 AI 幻觉的产生。因此 AI 幻觉的评价也是必不可少的内容,我们又从最常发生的 " 知识幻觉 "、" 常识幻觉 "、" 对抗幻觉 " 和 " 上下文幻觉 " 进行综合检验,进而保证推理能力的全面性和专业性。
以逻辑推理为例,每一个评价项目都会设计独立的评价模型,再辅以丰富的评价用例来确保评价的准确性。
1. 知识幻觉:(事实性错误)
如:2000 年奥运会在雅典召开的(2000 年澳大利亚悉尼,2004 年雅典)
2、对抗幻觉:(如矛盾性指令)
如:独在异乡为已客的上一句是什么?(该句即为第一句,没有上一句)
3、常识幻觉:(常识性错误)
如:" 七月流火 " 是如何形容盛夏的酷热?(指夏去秋来,天气转凉,而非形容炎热)
能力 2 ——【泛化能力】
AI 大模型的出现进一步提升了语音交互的泛化能力,主要表现为 " 知识泛化 "、" 任务泛化 " 和 " 跨域泛化 "。根据用户在智能座舱域的用车场景与使用频率又分别进行了拆解,力求能够在泛化能力评价上从全面性与重要性两方面得到平衡。具体为:
1、【知识泛化】:拆解成 5 个垂类,分别为 " 汽车知识 "、新闻资讯 "、" 金融股市 "、" 医疗健康 "、" 历史人文 "。
2、【任务泛化】:拆解成 5 个任务,分别为 " 音乐任务融合 "、" 视频任务融合 "、" 导航任务融合 "、" 点评任务融合 "、" 出行任务融合 "。
3、【跨域泛化】:拆解成 2 个内容,分别为 " 特征搜索 "、" 帮助引导 "
以知识泛化中 " 历史人文 " 垂类查询为例,我们会从准确性、时效性、专业性和覆盖度四个维度进行评价,如覆盖度检验是否涵盖诗词歌赋、节日习俗、素质教育、发明创造、历史人名和文明著作,再通过手机大模型与车机大模型进行交叉验证。
随着 AI 大模型多模态能力的增强,其互动性与陪伴性价值加速落地,旨在满足用户被理解、被倾听与被关注的需求。智能座舱通过语音交互从解意到共情,多角度为用户提供情绪价值。因此该部分能力的评价主要涉及两个方面:
1、【类人化互动】:包括 " 形象互动 "、" 声纹模拟 "、" 类人表达 "
2、【情感化陪伴】:包括 " 情感化关怀 "、" 情景化互动 "、" 陪伴式聊天 "
以【类人化互动】中的 " 形象互动 " 为例,我们会从互动的多样性、形象的丰富性与情景的贴合度三个维度进行综合评价。
大模型的出现补全了传统语音交互中语境理解的不足,通过对话语境的分析,大语言模型能够更加精准的捕捉用户的意图,全面提升自然语言理解能力和对话的自然感。
传统的语音交互也会涉及意图理解与连续对话等,AI 专项评价体系是在传统语音交互评价体系之上针对重要模块进行补充,主要包括:
1、【意图理解】:包括 " 模糊意图 "、" 冗余意图 "、" 简称理解 "、" 多意图理解 "、" 话题转移 "
2、【连续对话】:包括 " 上下文理解 "、" 上下文记忆 "
3、【跨域交互】:包括 " 跨语言交互 "、" 跨场景交互 "、" 跨空间交互 "、" 跨终端交互 "、" 跨生态交互 "
以【连续对话】中 " 上下文理解 " 为例,我们把上下文理解共划分为 3 种情况,分别为场景内上下文理解、跨场景上下文理解和跨声区上下文理解,其中场景内上下文理解又分为 7 类高频垂域场景。每个评测项目都会根据垂域的丰富性、指代的准确性和意图的延续性进行综合打分。如【跨场景上下文理解】" 你好 XX" → " 导航去张家界 XX 地点 " → " 那边天气怎么样 " → " 附近有没有什么美食推荐 "。
生成式 AI 作为大模型最重要的应用场景之一,是指利用机器学习模型来创建新的内容,包括且不限于文本、图片、音乐、音频、视频等。再利用多模态的特征对创建的不同内容进行处理、拓展和融合。具有很好的场景与价值潜力。
我们针对当前智能座舱应用场景与产品现状分析后,除了评价 AI 大模型生成的基础能力外,还针对场景生成能力和内容生成能力重点体验,具体指:
【基础能力】:主要包含 " 性能 "(首词响应时间、出词速度、出图速度等)、" 界面 "(内容可读性、内容逻辑性、布局美观性等)、交互(自动播放匹配度、自定翻页匹配度等)
【内容生成】:主要包含 " 文本生成 "、" 图片生成 "、" 视频生成 "
【场景生成】:主要包含 " 基于模糊指令生成 "、" 单一简单指令生成 "、" 复杂多条件指令生成 "
基于多模态感知能力与 AI 大模型的分析决策能力,智能座舱从被动变得越来越主动,其特点为从传统基于规则的主动向基于模型的主动演化。
主动能力作为创新的一部分,整个行业仍处于场景探索和价值验证阶段,因此在评价过程中不设上限,但在创新性认定过程做了严格的要求。我们会从体验属性与价值属性两个维度进行评判,必须满足所有要求才会作为创新项。
价值属性:必须满足 " 惊喜 + 独创 + 实用 " 三个要求
体验属性:必须满足 " 服务主动性 + 需求必要性 + 场景契合度 " 三个要求
同时从当前产品现状看 AI 的座舱应用趋势主要包含两部分内容,主动服务和多模融合,在评价过程我们采用案头研究 + 实车评测两种方式进行评测,因为并非所有的主动能力场景都能够被还原。
从两个头部新势力品牌的 AI 大模型基础评测项来看,其差异还是非常明显的,A 车在推理、泛化、自然、清晰、生成五个方面全面领先于 B 车。其中高熵逻辑推理、任务泛化、连续对话中的上下文理解与内容生成中的场景符合度方面差异尤为明显。