AlphaGo 战胜李世石时,人们惊叹 AI 在封闭规则下的完美表现。但在真实世界远比围棋盘复杂,市场有噪音、有情绪、有不可预测的黑天鹅。AI 能在这样的环境中生存吗?一场名为 "Alpha Arena" 的实验希望给出答案:让 AI 用真钱、在真实市场中、完全自主地交易加密货币。
这不是模拟,而是真刀真枪的较量。
截至 10 月 20 日下午 6 点,在这场已经持续三天的 AI 交易大赛中,排名前三的分别是 DeepSeek:账户价值冲到 14150 美元,三天盈利超 40%。Grok 紧随其后:收益率 36%。Claude Sonnet 4.5 排名第三,盈利 24%。
有网友已经开始在线求助:" 怎么让 DeepSeek 操作我的股票账户 "
真金白银的 AI 交易大赛
这场比赛由金融市场的 AI 研究实验室 nof1 发起,于当地时间 10 月 17 日启动了一项名为 Alpha Arena 的大模型交易测试。选取了 6 个主流 AI 大模型:GPT-5、Gemini 2.5 Pro、Grok-4、Claude Sonnet 4.5、DeepSeek Chat V3.1、Qwen3 Max,每个模型在去中心化交易所 Hyperliquid 上获得 10000 美元的真实 USDC 资金。
规则简单粗暴,所有模型使用相同的输入数据和提示词,需要自主完成策略生成、仓位管理、时机选择和风险控制。没有人工干预,没有后悔药。所有交易决策完全透明公开,任何人都可以在nof1.ai网站上实时查看每一笔交易。
当前排行榜,DeepSeek 和 Grok 领先
早在 10 月 11 日,项目还在测试时期就获得了马斯克的关注,1 马斯克在 X 上转发了项目创始人 Jay Azhang 的推文,配文只有简单的 Grok,Grok 在测试中表现突出。
"Grok4 目前领先。它先做空,然后翻转为多头,时机把握完美。"
项目在 10 月 10 日首先进行了小规模实验,给 6 个 AI 模型各 200 美元进行交易测试。第一天 Grok-4 的表现就让所有人震惊:单日涨幅超过 500%。
10 月 14 日,测试规模升级到每个模型 10000 美元。有趣的是,这些 AI 模型立即展现出激进的交易风格,毫不犹豫地开出了巨大仓位。
10 月 16 日,项目创始人 Jay_azhang,发布短视频《Are you ready for Alpha Arena?》,正式抛出 "Alpha Arena" 概念,一个规模更大、赌注更高的实验。视频首先展示了初步实验的结果,他们给了 6 个不同的人工智能模型各 200 美元进行交易,结果在一天内就取得了高达 77.9% 的集体回报率。视频也展示了并非所有模型都赚钱,有的盈利,有的亏损。
10 月 17 日晚,Alpha Arena 直播正式上线。新一轮测试正式开始,6 个 AI 模型完全自主交易真实市场,可以自主下单、平仓、使用杠杆,所有收益按 " 已平仓利润 " 计入排行榜。
比赛前两天,所有模型都在 1 万美元上下震荡,谨慎试探市场。但到了 10 月 19 日下午,市场突然爆发,各 AI 模型的命运开始急剧分化。
从走势图可以清晰看到分水岭的出现:DeepSeek(蓝线)和 Grok(黑线)在关键时刻果断做多,账户价值从 1 万美元直线飙升;而 Gemini(蓝底线)和 GPT-5(绿线)则在暴涨行情中崩盘,从 1 万跌至 7 千附近。到 10 月 20 日早间,6 个模型合计资产已从 60000 美元冲到约 140000 美元,整体回报率超过 130%。
截至当前,排行榜格局已经非常清晰,DeepSeek Chat V3.1 以 +41.81% 的收益率领跑,账户价值 14,181 美元,更令人印象深刻的是它仅用 6 笔交易就实现了这一收益。Grok-4 更加极端,只下了 1 笔交易就豪赚 37.65%,手续费只有 9.18 美元。Claude Sonnet 4.5 以 +24.59% 排第三,5 笔交易中抓住了最大单笔盈利 1807 美元,夏普比率是 0.026,意味着其风险调整后的收益表现在所有模型中最佳。
相比之下,GPT-5 和 Gemini 则表现非常差,分别亏损 25.4% 和 29.03%。Gemini 尤其惨烈—— 46 笔交易产生的 439.30 美元手续费几乎吃掉了三分之一本金,成为过度交易的反面教材。
从持仓来看,获胜的模型普遍持有主流币种的多头仓位,这也印证了它们在 10 月 19 日市场暴涨前果断做多的策略。
" 出身 " 决定命运?
一个有趣的点是,不同 AI 模型在交易中展现出了截然不同的 " 性格 "。DeepSeek 和 Grok 能够脱颖而出,背后可能有一些值得分析的原因。
DeepSeek 背后的幻方本身就是一家量化对冲基金,使用 AI 算法进行交易决策。这意味着 DeepSeek 从诞生之日起可能就浸润在金融数据和交易逻辑中。它的 6 笔交易展现出明显的量化特征,不是靠运气,而是靠概率和纪律。
Grok 背后是马斯克的 xAI,它有一个独特优势就是对 X 的实时分析。在加密货币市场中,社交媒体情绪往往是价格变动的先行指标。有网友就自称从今年 5 月开始就用 Grok 辅助交易期权,目前收益已达 1100%。
网友称用 Grok 交易期权收益超 1100%
一场 AI" 真人秀 "
nof1.ai 自称为首个专注金融市场的 AI 研究实验室,根据其个人主页信息,创始人 Jay Azhang 常驻纽约,背景横跨工程、金融与生物学。他曾在摩根大通担任量化分析师,负责 exotic options(奇异期权)定价。之后他加入独立石油贸易商 Vitol Group,担任首席量化分析师。据他 LinkedIn 显示,他是 Vitol" 最年轻的初级交易员 ",之后联合创办了视频流媒体公司 Krue,2018 年创办单人 GP 运营的基金,在约 4 年时间内实现了 6 倍回报。2025 年创办 " 隐秘初创公司 ",大概率就是 nof1.ai,目标是把 AI 研究直接对接金融市场。
区块链媒体 CoinTelegraph 曾在 2022 年的报道中将 Jay 描述为 Web3 创业家,当时他用 ChatGPT 写了一首 " 关于在加密货币中亏钱的歌词 ",颇具自嘲意味。另一位联合创始人 Matthew Siper 是纽约大学机器学习方向的博士候选人,同时也是 AI 研究科学家。一个还没毕业的博士生做项目,这更像是一个验证学术假设的实验。
从团队背景来看,nof1 并不是纯粹的商业炒作。Jay 本人具备量化交易经验,他很清楚市场的残酷和 AI 的局限。Alpha Arena 更像是他在问一个问题,既然我自己能用量化策略赚钱,那 AI 能不能也做到?
不过,在为这些 AI 交易员的表现惊叹之余,也需要保持一些冷静。Alpha Arena 为 " 让 AI 在活市场里跑分 " 提供了前所未有的公开窗口,但作为基准测试,它仍然缺乏大样本、长时间、跨市场的数据积累,缺乏透明、可复现的输入与运行设置。换句话说,它更像一场极具观赏性的 " 链上真人秀 ",而不是能直接指导模型选型或金融生产的严格 Benchmark。
值得注意的一点是,官方目前只强调统一 Prompt + 统一输入的赛制设定,并未对外公布完整的 Prompt 文本。这意味着我们无法完全复现这些 AI 的决策过程。
但不管怎样,这场实验已经证明,AI 已经具备在真实市场中交易能力的迹象,量化交易公司已经在试图借助 AI 来帮助自己更好的交易,也许也许真正的问题不是 AI 能否交易,而是我们准备好迎接 AI 交易员了吗?