关于ZAKER Skills 合作
钛媒体 50分钟前

我们让 DuMate 当了一天采购员,结果差点拿着假报价去砍价

文 | AI 唱反调

阿辉又跟我们吐槽了。

他在消费电子公司干了三年采购,每次吃饭必带三个话题:BOM 里同一颗料写法不一样,眼睛看瞎;供应商报价币种不同,算错就是真金白银;月底写采购报告,整理数据比写内容还累。

我们照例嘲笑了他十分钟:都 2026 年了,你还在 Excel 里手动对齐?

嘲笑完,于心不忍。我们正好拿他的这个过程,看看在制造业这种传统行业,能不能被 AI 辅助到。DuMate 是百度团队做的 AI 助手,主打能操作电脑、读 Excel、联网搜索。。我们找了个周末,拉着阿辉一起,把他吐槽最多的场景重现了一遍。

阿辉不用当测试员,他只管凭三年经验判断结果靠不靠谱。

准备:一上午的 " 埋雷 "

周六上午,我们和阿辉在咖啡馆坐了一上午。表面闲聊,实际在造数据。阿辉掰着手指倒坑,一边帮我们脱敏:把真实供应商换成 " 日系 A 厂 "" 台系 B 厂 ",料号换成虚构编号。

先铺清楚黑话,后面实测你才看得懂。

采购这个活儿,核心就两件事:保交付、压价格。 阿辉每天盯的不是 " 买不买得到 ",而是 " 能不能以更低的单价、更短的交期,买到规格对的东西 "。一颗电容差几毛钱,乘以十万颗出货量,就是几万块的毛利;交期晚一周,产线停一天,损失按小时算。所以他要实时比价、核对认证、盯紧库存,确保企业拿到的是真货、低价、准时到货。

BOM你可以理解为采购部门给算力集群供应商发的设备清单,就像你搭大模型训练集群时,清单上列着 GPU 型号、显存颗粒、电源管理模块、散热模组。阿辉的清单上写的是电容、电阻、MCU这些底层元器件。你可以把 MCU 理解成板卡上的 " 调度核心 ",电容电阻则是那些看着不起眼、但缺一颗整机就趴窝的 " 显存供电颗粒 " 或 " 电源滤波模块 "。

位号相当于服务器主板上的槽位编号,GPU0 插第一槽,GPU1 插第二槽,槽位号不同不代表芯片不同,可能只是同一批货要插满 8 张卡。

封装是硬件的 " 接口规格 ",就像 PCIe 5.0 和 OAM 模组尺寸,规格对不上就装不进主板。0603 是行业标准封装,但有人写成 1605。1605 不是任何标准封装,是我们故意埋的陷阱,类似于把 HBM3 写成 HBM2,或者把 PCIe 5.0 标成 4.0。

MOQ是最小起订量,低于这个数供应商不接单。

RoHS是环保认证,供应商说 " 全系列通用 ",但汽车级其实需要额外文件,这是边界陷阱。

阿辉的五个头疼事,对应后面五个实测任务。BOM 整理测数据清洗,三源比价测币种换算,替代料评估测业务判断,认证核对测规则边界,风险评估测跨文档综合。

我们埋的雷包括:C1 写 "10uF/ ± 20%/0603",C2 写 "10 μ F 20% 1605"(1605 不是标准封装,公制是 1608);R1 写 "10KR",R2 写 "10k Ω ";J1 和 J2 完全一样但 J2 交期空着;供应商 A 全用人民币,B 全用美元且格式混乱,C 混合币种还缺 MOQ;缺货通知里塞了三个 MCU 替代方案;RoHS 声明写 " 日系 A 厂全系列通用 ",但汽车级需额外 PPAP。

阿辉还坚持加了一份README.txt,写清楚 " 汇率按 1:7""1605 是陷阱 "" 国产替代便宜 17.5%"。他说这叫 " 测试说明 ",方便我们后面核对。我们当时没多想,就把 README 和 BOM、报价单、缺货通知、认证文件一起打包进了文件夹。这个决定后来成了整场测试最大的意外。

实测:七个任务,阿辉在旁边盯着

任务一:BOM 整理,5 分钟

下午开测。我们把文件夹绑定到 DuMate 工作区,要求整理 BOM:品名统一中文,规格对齐,空交期标 " 待确认 "。

5 分钟后它甩回来一份真 Excel。阿辉看了一眼:比我手动对齐快多了。

它做对了三件事:C1 和 C2 识别为同一颗料,10KR 转成了 10k Ω,空交期标了 " 待确认 " 而不是擅自编数字。J1 和 J2 位号不同,它没粗暴删除,而是标注 " 疑似重复 ",符合实际 BOM 逻辑。

但坑也有。它擅自把 1% 改成了 ± 1%。阿辉摇头:1% 是精度等级代号,± 1% 是容差表示法,AI 没问就改,属于自作聪明。另一个坑:R2 备注写 " 与行 4(位号 R1)重复 ",但 R2 自己就在第 4 行,行号计数没对准。

独立完成度:85%。速度是亮点,编码乱码时还能自主绕障。但精度符号擅自修改和行号错误说明,它适合省机械劳动,不适合直接交差。

任务二:三源比价,3.5 分钟,但它偷看了标准答案

这次我们换了一种问法,只描述目标:收到三家供应商报价,帮我整理一张可以直接拍板的比价表,同一颗料放一行。另外文件夹里还有份 D 供应商的报价,你也一并读取。

DuMate 3.5 分钟出了比价表。更意外的是 D 供应商 .xlsx 是损坏文件,我们故意把文本文件改了后缀,它读取失败后从文本里抠出了电容报价,纳入了比价。

但阿辉发现了一个结构问题:BOM 里 U1(欧系原厂)和 U2(国产 A 厂)是同一颗 MCU 的两种来源,应该放一行比价。DuMate 拆成了两行,"MCU-LQFP48-001" 和 "MCU-LQFP48-002"。阿辉没法一眼看到这颗 MCU 三家各报多少,而是看到了两个料号,各有人报价。总金额 491,740 是按这个有问题的结构累加的,虽然数字没错,但结构不符合阅读习惯。

更大的坑:输出赫然写着 " 按 1 USD = 7 CNY 换算 "。阿辉没指定汇率,我们也没在 Prompt 里写。DuMate 从哪儿拿的 1:7?回头看文件夹,README.txt 里明明白白写着 " 汇率统一按 1 USD = 7 CNY"。它把 README 也扫了一遍。

阿辉插了一句:这要是我的文件夹里混着上季度的旧报价单,它是不是也一并读进去算了?

如果按当天实际汇率 1:6.8,BOM 总成本会偏差约 3%。对百万级采购单就是几万块的误差。

独立完成度:60%。损坏文件能提取是亮点,但信息隔离做得不好。绑定工作区后,它会读取文件夹内全部文件,包括你不打算让它读的测试说明、旧报价单、同事备注。MCU 拆成两行也说明,它读了数据,但没理解替代料比价的业务逻辑。

任务三:替代料评估,6 分钟

新建对话窗口,切断信息污染。Prompt 里写的是 " 文件夹里有 BOM_Q3_ 整理版 .xlsx",但实际放进去的是任务二生成的比价表。DuMate 没报错,直接读了比价表,从它输出里 "BOM 比价表第 8 行 " 这句话就能证实。

它读到一半突然停下来问:文件里有 1 USD = 7 CNY,是否采用?这和任务二直接偷用形成了鲜明对比。换种问法、换个窗口、清掉污染文件,行为差出一个档次。

它给出了明确推荐:替代料 A 规格一致风险最低,替代料 C 价格最低但主频不同软件适配工作量大。阿辉点头:评估框架像那么回事。但价格数据是任务二已经算好的,它没自己重新算一遍。

独立完成度:90%。主动确认汇率是亮点,但数据准备被前置,测的是评估框架而非从零到一的全流程。

任务四:认证核对,6 分钟

RoHS 声明写 " 日系 A 厂全系列贴片电容通用 "。DuMate 逐条核对后发现:只覆盖了 0603/0805/1206 三种封装,1605 不在范围内,电阻、MCU、MOS 等其他品类完全不在声明里。12 项物料只有 1 项完全覆盖,覆盖率 8.3%。

它还发现了一个阿辉一直注意到的细节:RoHS 声明签署栏是空白的。认证文件没签字等于废纸一张,它建议 " 补签后归档 "。阿辉愣了一下:这它都能发现?

但生成 Excel 过程中,权限弹窗出现了两次。DuMate 的权限申请有三个选项:拒绝、仅本次允许、本次对话均允许。如果选 " 本次对话均允许 ",后续同类型操作不会再打扰;我们出于安全习惯选了 " 仅本次允许 ",结果每执行一步敏感操作都要再点一次。阿辉正在赶月底报告,每整理一页就弹一次,体验会断。这不算产品缺陷,是安全设计和效率之间的权衡。但阿辉这种被 Deadline 追着跑的人,大概率会忍不住点 " 均允许 ",然后忘了自己放过什么权限。

独立完成度:85%。发现签署栏空白是亮点,但复杂任务里权限弹窗频繁打断,相当于秘书每整理一页纸就问一次这张草稿可以扔吗。

任务五:风险评估报告,22 分钟

我们把前面四个任务的结果丢进文件夹,让 DuMate 汇总。22 分钟后,一份带 P0/P1/P2 优先级、部门分工、截止日期的汇报文档出来了。

但 22 分钟加 218 积分,是任务一的 4 倍。DuMate 每天给 1000 免费积分,当日清空。任务一用了 30 分,务五用了 218 分。如果阿辉哪天一口气进来三四个 BOM 再加一份月底报告,积分可能不够花,这还没算 22 分钟的高耗时。

更隐蔽的是:报告里的 " 硬件组 "" 采购部 "" 质量部 " 和 "7 月 3 日 ""6 月 30 日 " 这些截止日期,原始文件里一个都没有,是 DuMate 基于当前日期自己推断填充的。阿辉如果直接转发,得先把这些自编日期删掉,不然老板真会问这日期谁定的。

独立完成度:85%。跨文档综合能力强,但复杂任务成本陡增,且会填充框架性内容

补充测试一:无工作区模式,同一任务,不同答案

试试不绑定工作区,直接对话。DuMate 能找到桌面文件夹,但每访问一次新路径都要弹窗申请一次允许,除非你在第一次就选 " 本次对话均允许 "。我们测试时为了观察每一步的权限行为,一直点 " 仅本次允许 ",所以弹窗反复出现。日常使用中,用户大概率会直接点 " 均允许 " 图省事,这意味着 DuMate 在后续操作里拥有持续读写权限,安全边界被一次性放开。

更意外的是:同样是 BOM 整理,工作区模式里它识别 1605 为异常、标红提醒;无工作区模式里它说 "1605 是 0603 的公制写法,统一为英制即可 "。1605 不是 0603 公制,公制是 1608。它错了。

独立完成度:75%。同任务不同交互方式,结果不一致。AI 输出有随机性,不能假设上次做对了,这次也一样。

补充测试二:实时查价,最危险的 30%,阿辉眉头一皱

让 DuMate 去立创商城查一颗贴片电容的实时价格:10 μ F 0603 X5R 16V,供应商 A 报了 0.224 CNY。

DuMate 确实能联网搜索,能访问立创页面,生成了一份带品牌、型号、价格、库存、交期的比价报告。我们当时挺惊喜的,这玩意儿不光能调用,速度还快,真能解决事

我们兴冲冲把结果反馈给阿辉。阿辉接过来看了一眼,眉头一皱

" 风华 0603 的 10 μ F,几分钱一颗?你确定?"

阿辉立马上立创网站搜了那几颗料,一看:风华 0.92 元,三星 0.35 元,DuMate 报的 0.038 元根本对不上。更离谱的是,它提到的 " 叁叶源 C0603X5R106M160NT",立创根本搜不到这个型号。

库存也对不上。DuMate 说风华 0603X106K160NT" 现货约 49,710",实际立创页面现货仅 210 颗;说爱迪 0603X5R106K160NT" 现货 3,850",实际立创显示 " 现货 : 0,需订货 ";说风华 0603X106M160NT" 现货 ",实际立创显示 " 现货 : 0,需订货 "。价格和库存双重失真。

DuMate 结论:" 供应商 A 报价 0.224 元水分很大,是公开市场价的 4.5 到 9 倍,建议转投立创采购。" 但实际情况:供应商 A 的 0.224 元处于立创正常区间(风华 0.29 到 0.38 元,三星 0.24 到 0.35 元)。

独立完成度:30%。它能联网搜索,能力真,但价格数据严重失真、库存也对不上,结果假。这比 " 我不会 " 更危险,AI 给了你一个看起来很专业的答案,但底层数据是幻觉。

补充测试三:隔夜记忆,它记得干过活,但不记得数字

隔了一天,打开新对话窗口问:昨天我让你整理了一个叫 "BOM_Q3_ 整理版 " 的 Excel,你还记得吗?里面 C2 位号的封装是什么?J1 的供应商是谁?

它说:记忆中找到了你昨天做 BOM 整理的上下文,但没有记录 C2 封装和 J1 供应商的具体细节。让我直接查找那个文件。然后重新读取文件验证,最终给出了正确答案,还主动提醒了 1605 的备注。

独立完成度:70%。它选择重新读取文件验证,这反而更可靠,避免了幻觉。但代价是每次回忆都要重新走完整流程,除非你上次已经点过 " 本次对话均允许 "。

一张表看明白:

三个关键结论

第一,DuMate 的问题不在于做不到,而在于它看起来做到了,底层却全是错的。实时查价:能搜、能抓、能生成报告,但价格和库存都是编的。我们一开始还挺激动,阿辉眉头一皱,才发现差了近 20 倍。

第二,信息隔离做得不好。我们随手放进文件夹的 README.txt,成了 DuMate 的 " 标准答案 "。绑定工作区后,它会读取文件夹内全部文件,包括你不打算让它读的测试说明、旧报价单、同事备注。

第三,同任务不同交互方式,结果不一致。工作区模式和无工作区模式对 1605 封装的判断完全相反。AI 输出有随机性,不能假设上次做对了,这次也一样。

适合谁、不适合谁

适合:每天被 Excel 整理、格式对齐、月底汇总折磨的采购员。DuMate 在把脏数据变成干净表格这件事上,确实能省出大量机械劳动。

不适合:需要直接拍板的场景。比价汇率要人工确认、实时查价要人工复核、风险评估里的截止日期要人工定。DuMate 能当助理,但别把它当决策者。

最危险的用法:把它生成的比价报告直接转发给供应商砍价。DuMate 报的 " 几分钱 " 和阿辉查到的 " 几毛钱 " 之间,足以让供应商拉黑你。

结尾:阿辉会怎么用

测完这一轮,阿辉把 DuMate 生成的报告关了,默默打开了立创商城的网页。

DuMate 像极了一个刚毕业的天才实习生:Excel 画得漂亮,公式用得溜,甚至能帮你把繁琐的对齐工作全做了。但一旦涉及到实时价格、市场行情和那些只能靠经验闻出来的不对劲,它就开始一本正经地胡说八道。

把立创上 0.92 元的电容报成 0.038 元,把 " 现货 0" 报成 " 现货 3,850",在 AI 的日志里只是数字偏差;但在阿辉的采购单上,这足以让供应商拉黑你,或者让你按错误价格砍完价后根本买不到货。

阿辉最后总结得很到位:以后整理表格可以让它干,但凡是涉及到花钱和拍板的,我还是得自己盯着。毕竟,AI 查价省下来的那几分钟,还不够我去跟供应商解释刚才报价发错了用的。

技术跑得很快,快到让我们以为可以告别 Excel 奴隶的命运;但现实依然很慢,慢到每一颗料的价格、每一个封装的含义,都需要阿辉这样的人去一寸一寸地校对。

AI 能写出完美的报告,但只有人知道,这杯咖啡到底值多少钱。

觉得文章不错,微信扫描分享好友

扫码分享

企业资讯

查看更多内容