APP下载

关于ZAKER

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

合作

差评 3小时前

连鲁迅都想不到，当代网友为了省钱开始说文言文了。。

经常用 AI 的朋友们都知道，要想 AI 用得爽，是得花钱的。大厂免费给你用的版本，很可能是阉割版，智力有问题，只会接住你的那种。

但这就有个问题了：AI 每次回答我，都用的是我花了钱的额度，有时候叽里咕噜说一堆，效率巨低，额度还唰唰掉，心疼啊。

所以有没有一种方法，能让 AI 回答你问题的时候，效率又高，还能省钱？

聪明的网友就想到了，汉语是世界上信息密度最高的语言，甚至文言文还是浓缩中的精华。。那我们用文言文跟 AI 聊天，对话篇幅大大减少，这算力省下来了，效率不就上来了，钱也扣得慢了，简直太完美了。

比如，把 " 我去，用户彻底怒了 " 改成 " 呜呼，客官震怒 "，把 " 你先别给我瞎 bb" 改成 " 何出此言 "，让 AI 也用古文回我。

有老哥已经直接询问 AI 了，答曰：可也。毕竟，古人拿文言文省竹简，又何尝不是一种省 token？

但也有人指出盲点：你省了 token，消耗的不也是自己大脑的 token 吗？

天纵之才也！

但实际上，江江经过一系列尝试后，可以给大家个结论了：

省 token 乎？谬也！

要搞清这个问题，我们得先知道，AI 的算力消耗其实看的不是字数，而是 token，可以理解为 AI 处理信息的最小单位。我们说的省钱、省算力，其实就是省 token。

于是，我们用 DeepSeek V3 的 token 计算器，做了几个实验，结果嘛，非常反直觉。

比如，" 用户彻底怒了 " 是 3 个 tokens，而 " 客官震怒 " 是 4 个 tokens。

" 永失吾爱 " 是 4 个 tokens，" 她永远不会回来了 " 却是 3 个 tokens。

甚至蒹葭苍苍 4 个字，就占了 6 个 tokens，陕西著名美食面，更是来到了惊人的 9 个 tokens。。

最神秘的还是 " 免费在线观看 " 这 6 个字，DeepSeek 那占 3 个 token，GPT 那它只占 1 个 token，没有人知道 GPT 到底在线观看了什么。

所以说，字数越少效率越高这事儿，还真是个纯纯的伪命题。

为啥会这样呢？这就得从计算机是如何存储文字的说起了。

一个汉字在经过计算机编码后，会占 3-4 个字节，常用的字占 3 字节，而那些特别生僻的字，3 字节放不下，就得占 4 个字节。而要把这些字节转化为 AI 能读懂的 token，还得靠模型内部算法，它的工作原理其实很像消消乐。

一开始，所有汉字都被拆成字节存放，此时一个字节就是一个 token。然后算法为了省算力，就会找那些相邻位置出现最频繁的字节，把它们合并成一个新的 token。

比如 " 你 "" 我 "" 他 " 这些汉字对应的字节，成天组队出现，算法就直接给他们合并了，所以这些字就只占 1 个 token。

甚至出现次数过多的词语，也会被合并成 1 个 token，比如 " 用户 "" 彻底 "" 疯狂 "，甚至 " 免费在线观看 " 这个词，都可以成为一个 token。

而那些出现几率少的字，比如 " 蒹 "" 葭 "" 饕 "" 餮 "，在训练数据里寥寥无几，BPE 找不出字节内在的关联，就像小学生把不认识的字写成拼音，那就只能保存为几个零散的 token 了，于是 1 个字就会等于多个 tokens。

而因为底层的编码方式，导致所有字符的编码最多 4 个字节，如果一个字巨生僻，打都打不出来，它就只能像金针菇一样，进去啥样出来还是啥样，不会被合并，所以，1 个汉字消耗 tokens 的最大值，就是 4 个。

因此，文言文爱用的那些古典生僻字词，在 token 的交易里，反而是奢侈品，每个字对 AI 来说都很烧脑。

那既然用文言文不省 token，那我要说啥语言才能省啊？

江江的结论是，没有结论。因为，不同模型的 tokenizer，也就是 token 计算器完全不一样。我们拿同样的文本在 OpenAI 和 DeepSeek 那里都跑了一下，结果就截然不同，同一个字在 OpenAI 这边可能是 2 个 token，在 DeepSeek 那边就是 1 个。

这是因为 token 怎么合并，取决于大模型的训练语料，而不同公司的训练语料构成差异巨大。

OpenAI 的模型早期以英文语料为主，在 token 合并上，自然对英文更慷慨；DeepSeek 等国产模型吃了大量中文语料，中文的高频组合见多了，自然就合并得更充分。

当然，模型也在不断进步，各家都在扩大多语言语料的覆盖，不同语言差距已经变得越来越小，所以除非你能把每个模型的 token 表背下来，不然咱不建议为了三瓜俩枣，抛弃自己舒服的交流方式。

如果非要给个建议，你可以试试用文言文的思路说白话文，比如 " 你吃饭了没有？" 说成 " 吃了否 "，" 你是不是有毛病 " 说成 " 毛病乎？"

用你自己的大脑模拟一下，找到耗 token 最少的表达方式，主观能动性不就来了！

但讲道理，还是不如少说废话，奥特曼就曾经说过，你们整天给 AI 说谢谢，搞得我们已经多花几千万刀了，与其在形式上下功夫省 token，不如从根源杜绝那些不必要的废话。

虽然我根本忍不住，谁能忍住不问候两句呢？

最后，其实还有个很有意思的视角。就算真有种信息密度大的语言，把 token 省了，最后费的还是你的脑子。

因为如果一种语言信息密度大，那也意味着，单个 token 表达的意思很多，歧义也会变大，咱就只能靠上下文理解来消歧，说白了 token 是省了，你还得自己费脑子理解。

比如，给你三分钟，你能读懂 " 用奶牛的牛牛牛奶，奶牛会不会被牛死 " 吗？

所以，其实 token 在某种意义上是守恒的，AI 省的越多，你大脑消耗的 token 越多，耗费的还是自己的储存的能量。

你想花钱更快，还是肚子饿得更快，就看你自己的选择了。

撰文：不咕

编辑：江江 & 面线

美编：素描

图片、资料来源：

小红书、X、部分图源自互联网

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 小红书陕西

相关阅读

英伟达游戏业务被边缘化玩家吐槽被抛弃

快科技 5小时前

DeepSeek据悉正首次洽谈外部资本，估值超100亿美元；台积电CEO：全力扩产仍难以满足强劲AI需求；斯坦福报告：中美顶级大模型差距“实质性消除”

钛媒体 7小时前

OpenAI人才流失加剧：三位高管同日离职

快科技 7小时前

“理想系”，开始批量生产独角兽

财经新闻 11小时前

三星停产两大内存

36氪 13小时前

第139届广交会观察：中国外贸如何从产品输出走向价值共生？

21世纪经济报道 13小时前

大力出奇迹！Intel终于拿出对付3D缓存的绝招：288MB bLLC大平层缓存暴力碾压AMD

快科技 15小时前

2025下半年旗舰机型销售情况出炉：iPhone 17系列最高

数码测评 16小时前

鸿蒙智行首款旗舰MPV智界V9内饰细节公布：配备吸顶屏、后排控制屏及智能冰箱

网通社汽车频道 13小时前

告别网盘套路！迅雷光鸭云盘宣布4月20日上线：不限速、永久免费2TB空间

快科技 20小时前

车主花946美元修车后故障灯仍亮，二次诊断发现仅需更换蒸发系统管路

网通社汽车频道 18小时前

华为王者归来！畅享90 Pro Max单周销量第一：超越iPhone 17

数码测评昨天

爱马仕橙谢幕！iPhone 18 Pro新配色偷跑：名为深樱桃色

快科技昨天

攻防技术同源！在 C3 安全大会上，亚信要用 AI 去对抗 AI

雷科技昨天

蓝厂续航之王来了！vivo Y600 Pro首发10200mAh蓝海电池：告别充电宝

快科技昨天

最新评论

没有更多评论了

差评

订阅

觉得文章不错，微信扫描分享好友

扫码分享

热门推荐

Blockchain News