作者 | 程茜
编辑 | 漠影
生成式 AI 时代究竟该如何构建数据库?
智东西 5 月 20 日报道,刚刚过去的周六,OceanBase 2025 开发者大会上,我们找到了这家数据库厂商的答案——一体化数据底座。
OceanBase CEO 杨冰说:" 一体化数据底座指的是希望通过一体化产品、一体化引擎,同时处理 OLTP、OLAP 以及 AI 的混合负载。"
他们想要最终解决的难题就是 AI 的大爆发时代,数据库应当如何更好地存储、处理数据,从而更好地适应新时代需要,谋求更长远发展。
当下,企业的数据存储与处理正面临前所未有的挑战。一方面,大模型训练、实时推理等场景产生的海量异构数据,要求存储系统具备极高的容量弹性与跨模态管理能力;另一方面,数据处理需兼顾事务处理的实时性、分析决策的高效性及 AI 任务的复杂计算需求。
然而,传统数据基础设施与生成式 AI 下的数据需求割裂,产业亟需能整合多模态数据处理、海量数据处理等特征,并深度融合 AI 能力的新型数据底座。
在此背景下,国产数据库的主力玩家 OceanBase,已经在数据库转型之路上率先突围:宣布全面拥抱 AI,打造 "Data×AI" 核心能力、启动人才和组织体系升级,并围绕一体化数据底座为核心发布首款面向 AI 的应用产品 PowerRAG。
一、从 Data Infra 向 Data×AI Infra 跃迁,数据在 AI 时代的角色将如何重塑?
数据的特征会直接影响模型的性能、泛化能力和应用效果,但伴随着 AI 的发展,数据衍生出一系列亟待突破的全新挑战。蚂蚁集团 CTO 何征宇提到了四大挑战。
作为大模型训练基石的互联网公开数据即将枯竭,未来获取高质量数据的成本将逐步攀升。
严谨的行业数据稀缺且流动困难,存在三重特征:数字化进程滞后、数据质量要求严苛、核心数字化知识沉淀不足。
数据的质量评估难。评估的质量决定模型质量,但现有数据与模型质量评估方式,难以指导大模型训练摆脱 " 训模如炼丹 " 的窘境。
对于数据的重要性,何征宇一针见血指出:" 数据的边界决定了大模型的能力上限,所有的数据公司都将成为 AI 公司。"
与此同时,数据量的增长仍在突飞猛进。IDC 预测到 2028 年,受生成式 AI 等技术驱动,全球新生成数据量规模将达到 393.9ZB,其中企业数据规模和增速尤为凸显,全球企业级数据的数据量较 2023 年整体增长在 400% 以上。
因此,AI 正驱动数据基础设施 Data Infra 向 " 数据 ×AI" 的融合架构 Data×AI Infra 跃迁。
在生成式 AI 应用爆发之际,传统的数据基础设施的转型显得更为急迫。IDC 软件市场研究经理李凌霄提到,数据基础设施目前的负载割裂、云环境割裂、多模态割裂、技术债务正阻碍生成式 AI 落地。
传统 TP+AP 环境会造成长数据链条资源消耗、负载需求,无法在生成式 AI 场景下拥有实时支撑能力以及充分的计算资源;同时企业在不同云平台间的数据交互、加工、治理割裂;传统场景下专库专用的架构做异构数据间联合查询时,会造成性能消耗和响应延迟;企业需要在生成式 AI 时代,保持、延续其此前基础设施架构的完整。
其中,2023 年随着大模型发展而爆发的向量数据库,曾因擅长处理非结构化数据被视为企业最大化发挥数据价值的关键工具,但如今其难以独立解决复杂业务问题的弊端愈发凸显。
诸多企业实现向量融合的方式是在现有数据基础设施之上融合向量插件,很少会选择独立部署。杨传辉提到,向量数据库是一个临时态,因为用户在查询时往往会涉及向量、标量等混合数据,独立的向量数据库未来会被替代。
在大模型落地行至关键机遇期,数据和大模型能力如何融合,成为数据库领域企业决胜 AI 时代的核心竞争力分水岭。深耕数据库领域的 OceanBase 已经先行一步,开始探索构建适配 AI 时代的数据底座新范式。
二、两大思路加速一体化数据库转型,首发 AI 产品 PowerRAG
拥抱 AI 已经成为千行百业共识,一贯秉持稳扎稳打理念的 OceanBase 于今年 4 月底,宣布全面进入 AI 时代。
彼时,OceanBase CEO 杨冰发布全员信,宣布要打造 "Data×AI" 核心能力,加速打造 AI 时代数据底座。
具体来看,OceanBase 的 Data×AI 战略的关键是要实现数据与 AI 的融合,而一体化数据底座就是一体化数据库的延伸,其核心仍然是能不能做好数据处理。
这恰恰是 OceanBase 的核心优势所在。OceanBase 除了能够支持 OLTP 和 OLAP 传统数据库工作负载,还能支持 AI 领域工作负载,如半结构化数据 JSON 处理、向量数据库、混合检索以及 RAG 能力等。
从宏观角度来看,这些技术积淀为数据与模型的一体化融合提供了基础,成为大模型落地产生价值的关键所在。
一方面是要将数据融入模型里,希望通过提高数据质量、结构化程度,提升模型准确度、推理效率,让小模型也能有大效果,同时降低推理成本;
另一方面是希望将 AI 原生集成到数据库中,杨传辉阐述说这有两种融合方式,一是较为直观的在数据库里通过类似 AI function 方式直接集成大模型能力,另一种是实现 SQL+AI 的混合计算,分析、问答一体完成,这样的融合需要较长的时间来实现。
关于一体化数据底座布局的考量,OceanBase 在产品层面首发了面向 AI 的应用产品 PowerRAG,为开发者打造 AI 驱动的开箱即用 RAG 服务。
杨传辉说,他们首要解决的是 " 能用 " 问题,通过 RAG 方式提升大模型准确率,再逐步从 " 可用 " 推进到 " 好用 ",使得 AI 应用走向实际生产场景。
这只是 OceanBase 在应用层面探索的第一步。未来,OceanBase 将逐渐形成从算力、基础设施,到平台层、应用层、交付形态的一体化数据底座全方位布局。
三、15 年积淀,企业级分布式数据库能力已打下基础
这个势头正猛的国产数据库主力,经过 15 年的磨砺,已经淬炼出独特的 Data×AI Infra 方法论,构建起智能时代的核心竞争力。
成立自 2010 年的 OceanBase,是蚂蚁集团 100% 自研的原生分布式数据库,目前支持支付宝全部核心账务、核心支付系统,连续十余年稳定支撑双十一的高并发场景。
如今 OceanBase 取得的成绩可以用这几个数据加以概括:IDC 发布的《2024 年上半年中国分布式事务数据库软件市场跟踪报告》显示,OceanBase 占据独立数据库市场份额第一、市场整体第四;杨冰透露,目前 OceanBase 社区已经拥有超 2.5 万名开发者,突破 100 万下载次数、可统计的开源集群数超 5 万个。
从技术底座的布局看,OceanBase 最基本的企业级分布式数据库能力,为 AI 时代的海量数据处理分析打下基础。同时,其同步推进向量性能、混合检索等支持 AI 应用落地的核心基础设施发展。
从性能表现看,OceanBase 的性能已经达到开源向量数据库业界领先水平。杨传辉现场演示对比了 OceanBase 与业界主流的 3 款开源向量数据库,结果显示,OceanBase 的跑分超过其他三大业界主流开源向量数据库。
为帮助用户降低 AI 场景中常见的半结构化数据存储成本,OceanBase 引入针对 JSON 半结构化数据的压缩能力。经 OceanBase 测试, OceanBase 在 TPC-H 10G 数据集上 JSON 压缩比可达 MongoDB 的 3 倍。
同时,在技术布局的前瞻构建与用户需求的精准洞察之外,OceanBase 宣布了全维度拥抱 AI 的战略决断,并且即刻启动组织效能革新与人才结构升级的双轮驱动。
OceanBase CTO 杨传辉担任 AI 战略一号位,全面统筹 AI 战略制定和技术产品落地,同时成立 AI 平台与应用部、AI 引擎组等,将形成 AI 时代从一体化存储到一体化计算的全方位布局。
全面进入 AI 时代背后,是 OceanBase 打造 AI 时代一体化数据底座的技术底气与信心。
结语:OceanBase 全面拥抱 AI,数据库转型已先行一步
随着 AI 发展,数据库在智能生态中承载的能力正经历颠覆性变革,从传统的数据存储容器蜕变为驱动 AI 全流程的智能引擎。
数据库企业正以主动变革的姿态,将技术迭代转化为 AI 时代的增长引擎。OceanBase 希望由 " 数据库 " 向 " 数据底座 " 演进,形成全方位、一体化处理这些问题的解决方案,为 AI 时代的企业解决数据处理难题。