
AI 巨头们突然在印度掐起来了。
为了争夺三哥的欢心,OpenAI、Google、Perplexity 纷纷大出血,先后在印度推出前所未有的免费订阅计划。
效果看得见。
根据市场情报公司 Sensor Tower 统计的数据,截至上周,ChatGPT 在印度的日活跃用户同比增长 607%,达到 7300 万,是美国用户数量的两倍多;Gemini 在印度的日活跃用户达到 1700 万,而美国的用户数量为 300 万。
显然,"Free" 的魔力比 "AGI" 大一万倍,贪小便宜是所有人的共性。
但究竟是谁占谁便宜,真不好说。

01、数字殖民
17 世纪,英、荷、法多国船队,为了香料、茶叶和棉花,先后进入印度的港口、成立东印度公司,从当地攫取了海量财富。
数百年后,OpenAI、Google 和 Perplexity 的数字船队,再一次驶入了这片次大陆。
这一次,他们要的是 Token。
为什么又来印度?
首先,是人口红利。
据 Epoch AI 的研究,高质量的英语文本数据可能在 2026 年枯竭,到 2028 年,互联网上所有高质量的文本数据都将被使用完毕。
同时,英文数据占比超 65%,但覆盖 70% 人口的非英语数据缺口达 83% ……
此时此刻,拥有超过 14 亿人口、22 种官方语言、以及成千上万种方言的印度,就成了 AI 时代最大的资源宝库。
印度用户独特的 Hinglish(印地语与英语的混合体)以及复杂的语码转换现象,为大模型提供了绝佳的训练材料。

大模型不读字,读的是 Token。
在早期的 GPT 模型中,英语的 Tokenization 效率极高,一个单词通常就是一个 Token。
但对于其他语言,比如印地语、马拉地语或泰卢固语,一个词可能被拆成 5-6 个 Token。
如此就造成了两个后果。
第一,推理成本太高。
同样的语义,印地语消耗的算力是英语的 3 倍。
第二,上下文窗口缩水。
同样的内存,能记住的印度语对话长度只有英语的 1/3。
比如,印度人是这样说话的:Arre bhai, model training ki efficiency literally exponential honi chahiye!
这种一句话里,至少无缝切换了三种语言,直击大语言模型的软肋。
按照传统的自然语言处理方法接收这种数据,会直接崩溃的。
但通过海量的印度用户交互数据,大模型正在学习一种超语言的表征能力,能更好地理解多模态数据。

这直接关系到模型运行的经济性。
谁先让印地语的 Token 压缩率接近英语,谁就能在印度的 B 端 API 市场上拥有定价权。
届时,连印度这个语言最复杂、体量最庞大的市场都跑通了,世界上其他地区还算问题吗?
随着海量印度数据的注入,大模型将变得不再那么 " 英语中心主义 "。
这不仅是政治正确,更是商业必须。
02、各显神通
为了抢夺印度的免费 " 矿工 ",各家的大方向都是免费。
但在具体策略上,有很大不同。
OpenAI 实施精准诱捕,把用户绑在生活场景里。
最经典的场景:接入 UPI 支付后,用户只需要输入 " 给妈妈转 500 卢比 " 就能直接交易,每一次支付行为都会生成 " 对话 - 决策 - 交易 " 的完整数据链。
同时,用 " 母语对话 " 痛点吸引用户:针对印地语语义准确率仅 82.3% 的短板,推出 7 种语言的广告片,直接拉动 46% 的月活用户每天打开 APP。
这导致美国本土用户和印度用户出现巨大倒挂。
美国用户是用来变现的(Plus 订阅),而印度用户是用来进化的。
这种 " 双轨制 " 策略,让 OpenAI 能够一边在华尔街讲收入故事,一边在实验室讲数据故事。
印度用户每用一次 GPT,就相当于给 OpenAI 贡献了 3 条高质量语料。

Gemini 在印度的日活一度低迷,但在与 Reliance Jio 共同推出 "18 个月免费 Gemini Pro" 后,DAU 很快飙升到 15%,达到 1700 万。
Reliance Jio 是何方神圣?
它是印度信实工业旗下的电信运营商,是数字基础设施垄断者,拥有数亿廉价 4G/5G 用户。
双方联手,新激活的 Jio 手机会默认安装 Gemini 插件,你连拒绝的选项都没有。
这些插件会悄悄收集 " 被动数据 ":天气查询积累季风气候数据,地图导航记录交通流规律,甚至相册备份都会被用来训练图像识别模型。
更关键的是,谷歌的优势在于安卓生态,而印度又是安卓的绝对主场。
安卓系统的日志权限让谷歌能获取用户的 APP 使用习惯,通过行为数据给用户打上 200 多个标签,再反哺模型优化推荐。
这不仅仅是为了云端训练,更是为了边缘计算的数据回流。
它不指望印度用户会问 Gemini 什么高端问题,而是你想用本地语言搜索哪家咖喱店,或者如何用孟加拉语写一封求职信。
这就够了!

既没有 OpenAI 的品牌光环,也没有 Google 的渠道霸权,所以它的逻辑是:先在印度攒够数据,再把矿卖给巨头。
印度可谓是全世界最卷的国家。
由于教育资源的不平衡,大量印度学生和职场新人将 AI 视为 " 超级导师 "。
Perplexity 联合 Airtel,花大价钱给 3.6 亿用户免费用 200 美元的 Pro 版,并默认开启 " 全量数据同步 ",用户的每一次搜索、提问、甚至修改回答的痕迹都会被记录。
这一操作直接让下载量暴涨 800%,每天新增 300 万条多语言语料,比去年涨了 4 倍多。
至今收集的数据若卖给微软,估值可达 10 亿美元。

比如三家都在玩的 " 游戏化激励 "。
ChatGPT 的 " 回答点赞 " 给积分,Gemini 的 " 每日签到 " 送存储空间,Perplexity 的 " 邀请好友 " 解锁高级功能。
这些设计都算不上新颖,但确实能让用户的停留时间更长:使用时长每增加 1 小时,产生的语料量就会翻 3 倍。
更狡猾的是 " 错误诱导 "。
企业方面会故意在回答里留小漏洞,引发用户主动纠错。
这些纠错数据能直接用于模型迭代,比人工标注的效率高 5 倍。
印度用户以为在帮 AI 进步,其实是当免费的数据质检员。
而在美国,这类质检员的时薪是 25 美元……
03、免费才是最贵的
在财务报表上,为大量印度免费用户提供算力支持,很明显是一笔巨额亏损。
但在 AI 研发部门的报表上,这又是极低成本的资产购入。
传统逻辑是:用户付费>运营成本 = 利润。
但 AI 训练的逻辑是:运营成本(算力)= 数据采集成本。
以 OpenAI 为例,如果直接去购买 7300 万人的多轮对话数据,费用至少是几十亿美元。
但现在,只需要支付推理时的电费。
这是一场以算力换智力的宏大套利。
对企业而言,这毫无疑问是划算的。
比如比哈尔邦用户常用的 " 拉贾斯坦语 ",全球能流利使用的仅 500 万人,但通过 ChatGPT 的对话收集,OpenAI 已积累 10 万条该语言的语料,让模型识别准确率从 65% 提升到 91%。
更珍贵的是文化语境。
宗教节日的祝福语、种姓制度的特殊称谓、地区性的俚语黑话等等,这些知识图谱的补全,是无法通过抓取通用网页数据集实现的,必须依靠人类 " 口口相传 " 给 AI。
根据谷歌 AI 实验室的报告:接入印度方言数据后,Gemini 的跨文化对话错误率下降了 43%。
那这些成果最大的功臣,印度用户又充当了什么角色呢?

虽然享受了免费的各种高科技服务,但他们实际上是在没有股权、没有工资的情况下,为 AI 公司构建护城河。
农民查 " 农药配比 ",贡献农业数据;小商贩算税率,补充金融科技语料;甚至家庭主妇问 " 剩菜改造食谱 ",都在丰富生活服务数据库……这些场景化数据的市场规模已超过 180 亿美元。
最直观的就是 ShareChat 的。
其用户上传的视频数据被用来训练 AI 质量评估模型,通过近万个视频的主观打分,让无参考质量评估的误差缩小到 0.2 分以内。
这些 " 标注数据 " 直接帮助 ShareChat 提升了 5% 的用户时长,估值冲到 28.8 亿美元,但参与打分的用户连优惠券都没有。
……
按 Counterpoint 的测算,印度 AI 用户平均每天产生 4.2 条有效语料,每条语料的标注成本约 0.2 美元,一年就是 306 美元。
扣除免费套餐的运营成本(每人每年 76 美元),每个 " 数据矿工 " 每年能给 AI 公司创造 230 美元的净价值。
以 ChatGPT 7300 万日活为例,一年就能贡献 167.9 亿美元的财富。
这比印度 2024 年全年的 AI 产业总产值还高。
更关键的是什么呢?
矿工永远变不成 " 矿场主人 "。
现在印度用户用的是免费 AI,未来当巨头关闭免费通道,他们就得交订阅费。
相当于矿工挖了一辈子矿,最后还要买自己挖的矿石。
目前的现状是:先发者拿走了数据,炼成了模型,然后把 API 卖回给印度的初创公司。
这已经是个完美的商业闭环,也是一个完美的剥削链条。
与 19 世纪印度给英国出口棉花,最后还要买英国布料的命运如出一辙。
04、尾声
就目前而言,印度市场的潜力,很可能是谷歌重归龙头地位的机会。
首先,谷歌有 YouTube 的视频数据、Maps 的地理数据、Android 的行为数据……维度比更倾向于单纯文本的 OpenAI 要丰富得多。
更关键的是语音交互数据。
众所周知,印度有大量文盲,最新的人数在 2.8 亿左右。
这些人群在互联网上的交流方式,首选只能是语音。
谷歌通过在语音识别和语音合成上的积累,结合本地运营向的支持和 Gemini 的多模态能力,可能在印度农村市场实现对 OpenAI 的 " 农村包围城市 "。
但说到这里,大家可能都有一种奇怪的感觉。
OpenAI 和谷歌的战争,战场居然在印度。
这跟日俄战争的战场在中国东北,有啥区别?
这已经涉及到数据主权问题。
印度政府已经意识到这一点。
印度电子和信息技术部最近也表明观点:不甘心只做数据的产地,想做 AI 的加工厂。
一旦莫迪政府决定收紧数据出境政策(类似 GDPR 的印度版 DPDP 法案),硅谷科技巨头的免费午餐可能会立刻结束。
这或许是未来最大的风险点之一。