关于ZAKER Skills 合作
智东西 20分钟前

从高考数学满分到 AI 辅助填志愿,国产大模型走到哪一步了?

智东西

作者 | 三北

编辑 | 漠影

2026 年高考落下帷幕,但围绕高考的 "AI 时刻 " 才刚刚开始。

从考前备考到考后志愿填报,今年高考季,AI 几乎出现在每一个关键环节。越来越多考生把大模型当成学习助手、答疑老师和志愿顾问,高考也成为检验 AI 能力最集中、最真实的场景之一。

变化背后,随着 AI Agent(智能体)能力快速成熟,AI 正在从 " 回答问题 " 走向 " 完成任务 ",从单纯提供信息走向辅助决策。

而高考,恰好构成了一条完整的观察主线。

在考试阶段,AI 需要展现知识储备、逻辑推理和语言表达能力;在志愿填报阶段,AI 则需要整合海量院校数据、理解个人偏好,并给出个性化决策建议。前者考验模型 " 会不会做题 ",后者考验模型 " 能不能帮人解决问题 "。

那么,当大模型开始参与高考全流程,它们的能力究竟走到了哪一步?

为了回答这个问题,智东西实测了元宝等大模型助手在 2026 年全国卷Ⅰ语文、数学和英语三科的表现,并结合专家点评与多模型横向对比结果,对 AI 的高考表现进行了全面复盘。同时,我们也进一步体验了 AI Agent 在志愿填报场景中的实际能力,观察大模型是否正在从 " 会做题 " 迈向 " 会决策 "。

答案或许比想象中更值得关注:高考考场上,国产大模型已经开始逼近全球第一梯队;而在考场之外,它们正在尝试完成更难的一件事,那就是帮助人做人生选择。

一、2026 高考 AI 实测:作文写得催泪,数学拿下 150 满分

首先来看看 AI 在高考测试中的表现,元宝在数学测试中拿到 150 分满分,语文和英语也都逼近了满分水平。

可以说,大模型已经开始全面逼近人类 " 优等生 " 的水平,在数学推理、英语阅读等标准化任务上,部分头部模型甚至开始接近满分表现,不过在复杂证明、细节规范性和长链推理稳定性上仍能看到一些能力层次的区分。

而在作文、续写等开放性任务中,AI 已经能够写出流畅且富有情感的文本,但距离真正的人类创造力与个体经验表达,依然存在值得观察的空间。

1、写作感情细腻:从 " 审题准 " 到 " 写哭人 " AI 正在逼近语文高分区

从测试结果来看,元宝在语文客观题与标准化主观题上的能力已经相当成熟。

语文试卷总分 150 分,元宝得 142 分。其在阅读理解、文言文、诗歌鉴赏和语言运用等板块表现稳定,主要失分仍集中在作文等开放性表达题目上。

元宝在 2026 年全国新课标语文 1 卷测试中的得分分布情况

我们来着重看下作文情况,元宝的作文以《平凡:从 " 无声 " 到 " 有声 "》为题,文章围绕少年到青年对 " 平凡 " 一词的认知转变展开行文,记叙了初中阶段排斥平凡、后来读懂平凡人亦有不凡价值的心理变化,结尾升华不否定进取、只求内心沉稳。

元宝生成的答案

申怡老师是前人大附中语文名师、曾任高考作文阅卷组组长,拥有近 30 年一线教学经验,她评价这篇作文 " 风格踏实、行文务实 "。她认为这篇作文文风扎实规范,贴合考场评分标准:文章审题准、结构顺,考生以自身认知转变叙事,写作框架稳妥;但新意不足,需以真情实感为底色,融入个人对生命、时代的独立思考,跳出模板套路,强化真情与文字深度。

这符合大家对一众 AI 写作能力的固有印象:擅长套用考场模板搭建规整文章、堆砌通用优美语句,但缺少真实私人经历与独一无二的自主思辨。

不过,元宝的另一篇类似主题作文打破循规蹈矩的桎梏,被申怡老师评价为 " 眼前一亮 ",像人一样带有了 " 独特观察和情感体验 "。这篇以《那个叫 " 普通 " 的词,终于学会读它》为题的作文,文章层层递进拆解 " 普通 " 的内涵:年少时将普通视作失败,青春期将普通视作不甘,长大后读懂普通即是来路归途。认知层层迭代、通透深刻,更暗藏深层思考。

元宝生成的答案

申怡老师评价这篇作文称:" 这是一篇让人眼前一亮、心生暖意、读后舒展从容的优质佳作,整体水准放在高考里大概率能冲满分或接近满分 …… 全文细节真挚动人,孩童为挣脱平庸奋力奔忙的执念、父母朴素深沉的温情、时代洪流中的个人迷茫与内心笃定,皆源自真实生活,细腻共情,让文字拥有直击人心的可信力量。"

这表明元宝能突破模板写作局限,构建递进式成长思辨,生成饱含生活化细节、独特私人情感的文字,摆脱标准化套路。

从审题准到写哭人,AI 正在逼近语文高分区。

2、难上热搜的数学:拿下 150 满分,压轴题拉开差距

今年数学高考被很多考生反馈称很难,一度因此登上微博热搜,AI 应对如何?数学考验 AI 的逻辑推理与符号计算能力,对 AI 的抽象思维与形式化推理提出了更高挑战。

从实测结果来看,元宝在 2026 年全国新课标数学 1 卷和 2 卷都拿下 150 分成绩。如下图所示,以 1 卷为例,为了深入了解难题分布,我们对比了其他几家匿名头部模型成绩,作为参照系。

2026 年全国新课标数学 1 卷 AI 考试情况

在卷 1 中,多家国产模型主要失分集中在第 9 题、第 11 题、第 14 题以及压轴第 19 题。这些题目共同特点是计算量大、推理链长、分类讨论复杂,极容易诱发模型出现循环论证、公式错误、边界条件遗漏等问题。

数学和语文考试最大的差异在于,数学题目有标准答案但解法不唯一,因此分数一样 ≠ 水平一样。元宝的 150 分含金量如何?

我们来看几道具有代表性的题目:

第 7 题(单选):本题给出了 12 行塔数 a1=1,a2=a3=3, a4=a5=5,a6,…,a12 为首项 7、公差 2 的等差数列。将这 12 个数分成 6 组(每组 2 个),使各组之和构成公差 d>0 的 6 项等差数列,求 d。选项:A. 2 B. 4 C. 6 D. 8。这一题主要考察等差数列求和公式。

题干(网络回忆版)

元宝没有完整推导证明过程,而是采用高考考生常用的应试技巧,代入选项验证,展现出成熟高效的选择题速解思路。

具体来看,元宝的做法是列出 12 个数、求和 108、建立 2u1+5d=36 后,结合给出的四个选项对 d=2,4,6,8 逐项代入检验:d=4 时给出正确构造 ( 3,5 ) , ( 1,11 ) , ( 3,13 ) , ( 5,15 ) , ( 7,17 ) , ( 9,19 ) ;d=6 时 u1=3

元宝生成的答案

11 题(多选题):圆 C1: ( x+1 ) 2+y2=1、C2: ( x−1 ) 2+y2=1、C3:x2+ ( y−3 ) 2=1,直线 l:y=kx+b 与三圆均有两个交点,弦长分别为 s1,s2,s3。让考生判断下面四个选项哪个正确。

题干(网络回忆版)

元宝的思路全对、计算过硬,但整个过程也存在一些行文推理措辞上不够严谨,但不影响结论正确。

具体来看,A 选项的验证上,元宝选取了 k 等于三分之根号三带入计算,算出三个正确的 B 区间,反例选取正确,但 " 前两个范围无公共交集 " 指错对象,真正为空的是该交集与第三个区间的交,论述有一些小瑕疵,但结论正确,A 排除;

B 选项的验证上,元宝采用了 kb=0 分类、验证合法性,结论恰有 3 条,过程无误,得出正确答案,B 正确;

C 选项的验证上,元宝解方程找出第 4、5 条直线,清楚具体地证明了 " 多于 3 条线 ",得出正确答案,C 正确。但 " 共 5 条 " 的说法略欠严谨,实际满足条件的直线不止 5 条(例如水平族中还存在 y=b0,b0≈0.745 的一条),应表述为 " 至少 5 条 "。但元宝的推导足以证明满足条件的直线数量超过 3 条,支撑选项成立,不影响最终答题判断。

D 选项的验证上,推导与数值全部正确,D 正确。小瑕疵在于:写 t≥0,但 t=0 对应 d3=1(相切,不满足 " 两个交点 "),应为 t>0;且 " 唯一极值点即最大值 " 未交代 G′ 的符号变化,有一些小跳步,不过单选题考试,小跳步可以接受。

元宝生成的答案

14 题(填空题):存在下图题干中所示的数列使对任意 n∈N∗,满足图中所示的几个条件,求 q 的最大值。网友回忆版题面 " 设实数 a 满足 " 应为 " 设实数 q 满足 " 之笔误。

题干(网络回忆版)

这是一道典型的数列压轴填空题,涉及数列前 n 项和与等比数列性质综合考察。元宝的解答过程分类清晰好懂,采取三步式:1、作差得分组和公式(n=1 单独验证,处理好);2、分别按 k=3m+1、k=3m、k=3m+2 三种情况讨论。3、比较得出最终答案,全部数值计算均正确,且每种情况都标注了完整块对应等比数列的第几项,定位直观。

元宝生成的答案

可追溯的漏洞在于两式相除的合法性没有交代,分母应该不等于 0;以及在第二步讨论情况 2、情况 3 时存在性验证不完整;未点明原条件与 " 块和为 2n、块内自由 " 的等价性。不过这些错误主要是严谨性缺口,不影响结论,在填空题中可以接受。

最后来看看压轴题 19 题,这是真正拉开差距的一题。本题给出已知负区间解析式的抽象函数,分三问求对应集合、证子集关系、推零点下界与正区间单调性,考察函数性质与严谨逻辑证明,是典型为极少数顶尖考生准备的题目。在真实高考环境中,能够完整做出这道题的学生并不多。

题干(网络回忆版)

令人意外的是,元宝不仅全部做对,而且论述过程几乎挑不出毛病。 第一问,两端开区间正确(t=−1 即 d=0、t=1/2 即 d=3/2 处只取等不满足严格大于)。这一问本就直接,无太大难度可言。为了让大家将元宝生成的答案看得更清楚,我们截取了下图滑动查看版本。

元宝生成的答案

第二问,元宝采用同一套 " 先求显式 ,再分情形验证 " 的方法,关键结果均正确。4 种情形穷尽且互斥,每个包含关系成立,端点开闭正确。常见误区是误以为 f 在 R 上 " 整体递减 ",从而把 D ( x0 ) 算成 ( −∞,0 ) ,元宝没犯这个方向错误。

元宝生成的答案

第三问第一小问,元宝采用 " 反证 + 显式构造见证点 " 的初等做法,正确。元宝所选取的验证点取值均采用严格不等关系,推导简洁清晰。

元宝生成的答案

第三问第二小问,元宝采用同一套 " 三步法 ",先建立 ( 0,+∞ ) 上 f≤0,再一次性比较,均正确。每一处用条件 1 时 " 值小者的 D 更大 " 的方向都用对;每个 D 集合成员关系都用了严格不等号且严格性成立;第三步对第一小问给出的严格不等式引用正确。

可以看到,对于高考数学最顶层难度的问题,元宝已经具备接近顶尖考生的能力。当然,这并不意味着所有模型都达到这一水平。在横向比较中,我们仍然看到一些模型出现:分类讨论漏情况、公式推导中断、符号系统崩溃、循环论证无法收敛、边界条件遗漏等问题。这意味着数学能力依然是拉开大模型差距的重要战场。

但至少从此次测试来看,国产模型已经展现出接近人类优秀学生甚至竞赛级选手的数学推理能力。在标准化考试场景下,中国大模型与全球最前沿模型之间的差距正在迅速缩小。不过,这种能力仍主要体现在题目求解层面,对于更开放、更复杂的数学创造性问题,其仍有较大的提升空间。

3、英语火力全开:阅读作文都满分,善于联系上下文

最后来看看英语 1 卷,满分 150 分,元宝无听力部分得分 114 分(总分 120 分),换算为 150 分制后总分 142.5 分,其中阅读题、七选五、完形填空都是满分,语篇填空失 3 分,两篇写作分别失 2 分、1 分。

元宝在 2026 年全国新课标英语 1 卷中的得分分布情况

以阅读题 27 题为例,在处理 " 作者经与儿子对话后对学习产生的新理解 " 这一题目时,元宝首先定位答案对应的原文尾段,对段落内容完成翻译与深度解读;再逐一拆解每一个选项,清晰指出错误选项的逻辑漏洞;最后推导出唯一正确答案,整套解题逻辑清晰,作答格式规范完整。

元宝生成的答案解析

元宝在上下文考察中显示出优势。比如某知名国内模型在 56 题语篇填空题中,未结合前文分析出此处 it 代指 daji,与题干所给词汇 hold 之间为被动关系,因此填写了 "to hold",但此处正确答案是 "to be held"。

某国产头部模型生成的答案

而后,我们来看看写作题。在下面这篇续写作文题目中,元宝完美衔接前文暴风雪被困的情节设定与题目给出的段首句,从改签红眼列车、驱车送站到后续协助拖车、晚餐答谢,完整闭环了 " 陌生人善意传递、困境逆转 " 的核心主题。

元宝生成的答案

可以看到,文章细节设计真实饱满,两小时车程、公路巡逻队拖车、暴风雪平息等设定贴合现实,同时用 " 引擎轰鸣象征新生、噩梦旅程变温暖回忆 " 完成情感升华;语言地道流畅,red-eye train、subsided、overwhelmed with gratitude 等表达精准高级,人物从绝望到感动再到感恩的情感转变自然连贯,完全满足高考续写 " 情节连贯、情感真挚、主题明确、语言优质 " 的高分要求。

从分析过程来看,元宝会把两段续写内容拆开来一步步分析,每一步都明确标注情节内容、写作作用与主题关联,形成了可直接落地的写作框架,细节设计兼顾逻辑合理性与得分亮点。和另一款国产知名模型比起来,元宝写得故事细节更足,高级句式和好词用得也更多、更出彩。

某国产模型生成的答案

从阅读到续写,从语法到语篇,大模型正在逐步建立起接近人类的语言理解体系。

二、高考结束,AI 开始帮考生填志愿

高考结束后,真正的硬仗其实才刚刚开始——填志愿。

相比有标准答案的试卷,志愿填报更像一道开放题。考生需要在短短几天时间里,面对院校、专业、地域、就业、兴趣等大量信息做出选择。每年这个阶段,搜索引擎、志愿填报机构和高考咨询服务都会迎来流量高峰。而今年,一个新的参与者正在快速进入这个市场:AI Agent。

目前,元宝、千问等产品都已推出高考相关服务,希望帮助考生完成从查分、查学校到志愿规划的全流程决策。与过去主要提供信息检索不同,新一代大模型开始尝试扮演 " 志愿咨询师 " 的角色,不仅给出答案,还能够根据考生情况持续追问和动态调整方案。

以元宝与 QQ 浏览器联合推出的 " 元宝高考通 " 为例,其定位是行业首个高考咨询师 Agent。在用户输入分数、选科情况、地域偏好以及专业倾向后,元宝高考通系统会自动生成 " 冲、稳、保 " 三档志愿方案,并能够结合后续对话不断优化推荐结果,所有服务免费。

元宝可输出志愿表和志愿报告

智东西也体验了相关的功能,从元宝 App 首页点击对话框旁的 + 号进入,就能进入元宝高考通(在 QQ 浏览器搜索 " 元宝高考通 " 也能进入)。我快速输入考生所在地、选科组合与高考分数后,系统会自动匹配往年同位次数据,为志愿推荐提供位次依据。

从元宝 App 进入元宝高考通

紧接着,进入推荐后,我通过点选院校地点及特色类型、就业偏好、性格偏好等多个选项,向元宝提供更具体的筛选条件。地域、专业、就业、性格等繁杂模糊的报考考量,都拆解为清晰可勾选的选项,整套偏好筛选流程仅需三分钟左右即可完成。

元宝高考通支持偏好勾选

很快,元宝形成了我的多面体画像并基于此给我报考建议,推荐我主攻同济和北理工,冲刺北京航空航天大学,同时将北邮、上海大学作为保底,并提供了符合兴趣的理工科方向专业。

可以看到,元宝高考通不只是问答,而是完整志愿规划。不同于传统 " 一问一答 " 工具,它能够理解用户整体需求,自动调用高考相关的 skill 组合拳来完成位次换算、院校筛选、专业匹配和志愿生成等多个环节。

元宝高考通会做相对完整的志愿规划

当智东西继续告诉元宝:" 可以调整下专业,优先学校,去浙大 ",元宝随即给我推荐了浙大工科试验班、应用生物科学等专业,并向我详细解读了专业选择的具体提醒,比如该专业组要必选化学、会在舟山校区上课等。这些信息以往可能要跳转多个网站、花费大量时间才能查到,现在一个 AI 助手就触达了最关键信息。

背后,元宝高考通覆盖了全国院校数据。据悉,其底层数据来自教育在线 · 掌上高考,覆盖全国 31 个省市、近 3000 所院校及近 12 年录取数据。高考出分后同步更新分数线和一分一段表,为志愿填报提供数据支撑。

通过对话在元宝高考通获取更多建议

值得一提的是,元宝高考通还支持越聊越精准的个性化推荐。当智东西继续问元宝:" 这些专业好就业吗?如果毕业后想从事科技公司工作,或者考公,该选什么专业?" 元宝直接告诉我之前推荐的应用生物科学对标 " 科技大厂 " 不匹配,并给我推荐了计算机类 / 软件工程、统计 / 数据科学等专业。

元宝具备完整对话上下文记忆能力,给出专业推荐时,会同步对照前文提到的 INTP 性格、偏好力学相关学科等需求进行匹配校验。在这样的对话补充中,我可选的学校和专业范围就更加收敛精准了。

元宝高考通支持越聊越精准的个性化推荐

可以看到,与传统高考工具侧重信息查询不同,元宝高考通更强调全流程决策辅助。背后,由元宝官方介绍可知,元宝高考通从固定 Workflow 转向真正的 Agent 架构,结合技能调用、上下文记忆和 RAG 检索增强能力,最终实现对用户需求的自主理解、个性化推荐以及权威高考信息的精准获取。

某种程度上,这也体现了国产大模型能力发展的新阶段。相比高考做题时展现的知识和推理能力,志愿填报更考验信息整合和决策辅助能力。当 AI 开始从 " 会做题 " 走向 " 帮决策 ",其应用场景也正在从考场延伸到现实生活。

结语:从 2026 年高考,看到国产 AI 能力迈上新台阶

AI 高考背后,是国产大模型过去一年的集体跃升。无论是数学中的复杂推理与证明,还是语文、英语中的阅读理解与写作表达,国产头部模型已经进入高考高分区,并在高考考生志愿填报中充当更重要的辅助决策角色。

过去一年,从 DeepSeek 推动推理模型普及,到千问持续刷新开源模型能力上限,中国大模型正在全面追赶全球第一梯队。而元宝背后,腾讯混元 3 系列模型自今年 4 月底以来已连续七周位居 OpenRouter 模型调用量前列。在过去,这样的位置长期被 Claude、GPT 等海外模型占据,如今国产模型正越来越频繁地出现在全球开发者生态的核心舞台上。

如果把时间拨回一年前,许多今天被认为理所当然的能力,当时还远未成熟。当然,差距依然存在,主要体现在长链推理稳定性、复杂证明严谨性,以及开放任务中的创造力和真实体验感上,但这些短板正在被快速补齐。透过高考这面镜子,我们得以清晰地窥见:那个曾无数次讨论、憧憬的 AI 时代,正以肉眼可见的速度,大步走入现实。

相关标签
ai

觉得文章不错,微信扫描分享好友

扫码分享

企业资讯

查看更多内容