2025 年,开源 AI 模型 DeepSeek、OpenAI 推出的 GPT-4.5 引爆全球新一轮生成式 AI 热潮。
作为 AI 技术发展 " 数据、算法、算力 " 三大要素之一,数据已经成为推动 AI 技术发展的关键因素,也是数字时代的新型核心生产要素。
IDC 数据显示,2024 年,全球大数据 IT 总投资规模约为 3540 亿美元。预计到 2028 年,这一规模接近 6440 亿美元,五年复合增长率(CAGR)约 16.8%。其中,2028 年中国大数据 IT 支出规模预计为 621.7 亿美元,全球占比约 10%,复合增长率 24.9% 位居全球第一。而当前,中国的数据产量已经占全球数据总产量的 23%。
OceanBase CTO 杨传辉对钛媒体 AGI 表示,AI 时代来临,数据处理的边界得到进一步延伸,如多模态大模型图片、文本、视频等富媒体的无结构化数据规模增长。而且,数据扩展性、数据规模、碎片化等行业挑战不断加剧,OceanBase 希望形成一体化数据处理平台,解决客户需求和难题。
据悉,OceanBase 创立于 2010 年,是国内领先的一体化分布式数据库公司。2020 年,蚂蚁集团旗下的 OceanBase 成立北京奥星贝斯科技有限公司并开始商业化运作,陆续发布自研 OceanBase4.0、4.2、4.3 版本等系列技术产品和解决方案。目前,OceanBase 已助力金融、政务、运营商、零售、互联网等多个行业的 2000 多家客户实现关键业务系统升级。
2025 年 4 月,OceanBase CEO 杨冰发布全员信,宣布 OceanBase 将全面进入 AI 时代,打造 "DATA × AI" 核心能力,建设 AI 时代的一体化数据底座,蚂蚁集团接下来也将向 OceanBase 开放全部 AI 场景。同时,为保障战略推进,OceanBase 启动人才和组织体系升级,任命公司 CTO 杨传辉担任 AI 战略一号位,并成立 AI 平台与应用部、AI 引擎组等新部门。
5 月 17 日,OceanBase 将举办 2025 开发者大会,大会主题同样与 AI 相关。大会前夕,钛媒体 AGI 与 OceanBase CTO 杨传辉进行了一场独家对话。这也是杨传辉被任命为 OceanBase 公司 AI 战略一号位之后的首次公开对话。
杨传辉对钛媒体 AGI 表示,打造 "AI 时代的一体化数据底座 " 是 OceanBase 现有战略的自然延伸,这来自于市场需求以及 OceanBase 已经具备的产品技术能力。AI 时代下,数据规模和数据种类越来越复杂多样,数据库与 AI 的关系不是简单的 DATA+AI,应该是 DATA × AI,背后则是处理海量数据和不同结构数据的能力,以及将数据与模型融合的工程能力。作为一体化分布式数据库平台,OceanBase 将成为 AI 时代下的最好选择。
杨传辉强调,要实现这一目标,OceanBase 还面临不少挑战,包括技术创新、生态建设等,因此 OceanBase 需要不断把握策略定力,让时间和足够坚持来确保公司的未来发展。
" 我们坚信,AI 时代的一体化数据底座,一定能够满足用户需求。" 杨传辉称。
以下是钛媒体 AGI 和杨传辉独家交流速记整理(有部分删减):
钛媒体 AGI:最近许多公司都宣布加码 AI 战略,而 OceanBase 也提出战略升级到 "AI 时代的一体化数据底座 ",那么对于外界来说,如何思考 OceanBase 这个转变?
杨传辉:首先要明确的是,不是因为有 AI 热潮 OceanBase 才提出 AI 战略。本质上,要做 "AI 时代的一体化数据底座 ",是 OceanBase 现有战略的一个延伸。
原本数据库处理大部分是结构化数据,及少部分半结构化数据。随着 IT 发展,尤其 AI 时代来临后,数据处理的边界就得到了延伸,需要在数据层面直接处理无结构化的数据,如多模态大模型的图片、文本、视频等富媒体数据。同时,AI 大模型也使得数据规模变得比以前更大。
OceanBase 是一个原生分布式数据库,我们经历了双 11 海量数据场景考验,也具备金融场景数据库的稳定性安全性,同时我们的一体化能力又原生支持多种数据类型,提供向量能力,这种分布式和一体化产品特色,在 AI 时代的用武之地会变得更大。
所以,我们战略由一个 " 数据库 ",慢慢延伸成 " 数据底座 ",我们希望全方位、一体化处理结构化、半结构化、无结构化数据,同时数据库的研发团队天然具备 AI 基础设施的工程能力,我们希望将数据与模型也实现一体化融合,这是 DATA × AI 的关键。
从全球来看,最有名的数据库公司包括甲骨文 Oracle、Snowflake、Databricks 等,随着业务场景的不断变化和演进,它们也会随着趋势变化。如今 AI 时代下,我们也要确保 OceanBase 的未来会比今天更流行,在 AI 趋势下抓住新的应用场景。大家会发现 TP/AP 负载、向量、搜索等技术的边界会越来越模糊,最终企业需要 AI 时代下的一体化 " 数据底座 ",这会让 OceanBase 成为 AI 时代下最好的一个选择。
钛媒体 AGI:2024 年钛媒体和 ITvalue 举办的数字价值年会上,OceanBase CEO 杨冰提到 AI 对于数据库的重要性:一个是 AI for DB,一个是 DB for AI,如今,OceanBase 提出的 DATA × AI 是怎样一种新变化?
杨传辉:我们对数据库、AI 两者关系进行了深入思考,我们认为,两者不是简单的 DATA+AI,而应该是 DATA × AI。
一方面,客户的数据天然存储在 OceanBase 这类数据库,而 AI 大模型原本也具备 token 这类公有的通用数据,两者应该有更融合的化学反应。另一方面,大模型在技术层面主要分为算法能力、工程能力、数据能力、应用能力,在工程能力上,由于工作的本质都在于如何让数据处理更高效,解决计算、资源、效率等问题,除了数据能力外,数据库的研发团队也天然具备这一工程能力,这能够帮助 DATA 与 AI 技术进一步融合,也就是实现 DATA × AI,在开发者大会上我也会进一步阐释清楚。
钛媒体 AGI:目前,生成式 AI 技术面临数据量通货膨胀、数据孤岛碎片化严重、数据分析需求爆发等挑战,对于这些变化,OceanBase 做了哪些新的工作?
杨传辉:AI 确实给数据处理的工作带来了挑战,比如你提到的数据规模、数据孤岛、多模态挑战,尤其是数据规模会变得越来越大,对数据库的要求很高。
OceanBase 的分布式能力、一体化架构都能解决相关问题,但只是在个别问题上还没有做到完美,所以我们一直在坚持加强扩展性、工程能力等层面。
我们的 4.3 版本和 4.4 版本,基本上都沿着一体化方向继续前进。AI 时代更是一种延伸,变化在于,我们的发展会更大胆一些,例如更好地处理无结构化数据,进一步加强我们的向量能力等。
钛媒体 AGI:今年 OceanBase 开发者大会主题也是 AI,预计会有哪些发布?
杨传辉:首先,我们会发布 AI 相关的数据库产品和能力,在包括向量数据库等一体化数据底座的数据处理能力上有很大提升。无论在性能,还是性价比上,我们基本都达到了业界一流水平。
其次,我们会发布 RAG 服务。我们在 AI 领域原本就有很强的技术能力,将以 RAG 服务方式帮助企业通过一体化把自有数据和采用公开数据模型相结合,获得更大的业务价值。
最后,我们也会发布 OceanBase 自身应用大模型取得的成果。
钛媒体 AGI:现在做 AI 基座模型的企业越来越少,很多模型企业已经不再做预训练,而是做推理模型,或是行业模型,数据参数规模没有之前那么大了。那么,客户数据处理需求会持续不断吗?
杨传辉:这可能是两个问题。
第一,我是这么理解预训练技术的。本身预训练门槛越来越高,像考试考到 90 分以后,再往上评分就越来越难,需要更多的数据和工程能力积累。但是,我们也可以看到,也有很多企业对预训练模型进行更大的投入。未来我相信,少数几家公司还是会不断提升能力,尤其后续强化学习可以挖掘的空间很大。
第二,预训练和对数据的需求是两个问题,特别是对于 OceanBase 这样的一体化数据底座来说,我们的数据量会越来越大。因为数据底座的数据量跟预训练数据不一样,预训练可能是把 token 拿过来,但一体化数据底座的数据量取决于 AI 应用量级。AI 应用越多,数据量越大,而当下 AI 应用需求不断爆发,加上 AI 应用对数据需求、数据种类、数据结构需求不断增加,最终 AI 对数据的需求只会越来越大。
钛媒体 AGI:随着企业在使用大模型过程中越来越多采用自有数据,模型的 " 幻觉 " 未来会变为 0 吗?" 幻觉 " 会影响 AI 发挥价值吗?
杨传辉:模型的 " 幻觉 " 不能完全消除,但会降低 " 幻觉 "。
有时候我们需要换一种思维模式,AI 大模型原理是预测下一个 token,这就对算力的要求很高,是从很多词语当中进行选择。同时,AI 调用模型也是一个 " 炼丹 " 的过程,不是一个确定性问题,而是概率性问题。我们需要从两方面看待 " 幻觉 " 这件事。
一、随着 AI 推理训练、强化学习等技术发展,模型幻觉肯定会变得越来越低,而且语料准确率也会不断提升,它有一个技术红利。
二、尽管有幻觉因素,但今天的 AI 技术水平,已经能够在很多场景当中应用,未来慢慢还有很多新的产品浮出水面。未来 5 年,如果 AI 部分幻觉降低,另一部分的技术能力充分发挥出来,在各个应用场景里面使用,将会有非常巨大潜力。
钛媒体 AGI:要实现面向 AI 时代的一体化数据底座,OceanBase 还面临哪些挑战?未来的更大终极目标和发展前景有哪些?
杨传辉:挑战还是比较多的。
第一是技术本身的挑战。我们对于发展前景想得很清楚,OceanBase 优势也很多,但是如何真正让 DATA x AI,两者结合在一起,把幻觉、成本变得更低,让数据融入 AI,这本身的技术挑战就是世界级的,大家都在探索。
第二是生态的挑战。无论是数据底座,还是数据库,本质上还是要转化为千万家企业要用的技术产品,这是一个过程,涉及开源策略、商业策略、服务能力、生态层面等细节,这些都需要策略、时间和足够的坚持,一个都不能少。具体来说,策略包括两个部分:一是由数据库产品到 AI 时代的一体化数据底座,适应 AI 时代需求,让产品迭代速度更快、更敏捷;二是更加开放,锻炼研发团队能力,让团队扩展外部能力。
从数据库生态来讲,OceanBase 的开源社区已经是国内最强、最流行的数据库社区,但在全球我们还有差距,如何让生态真正做到 " 全球级 ",也是一个重要课题。
至于终极目标,我认为 OceanBase 无论是做数据库,还是做数据底座,本身依然专注于数据处理,这是我们的核心。随着数据种类,数据规模不断变化,OceanBase 要帮助用户完成数据处理,成为全球数据处理领域最好的一个选择,这个目标永远都没有变。
很多人认为,OceanBase 是强大的 " 分布式关系型数据库 ",但我们的未来在于做 AI 时代的一体化数据底座。所以我们不想把自己用 " 关系型数据库 " 的标准来卡在 " 舒适圈 " 里面。我们产品是一流的,我们工程能力是一流的,因此需要用一种更开放的心态看待最新的业务场景和数据。
我们坚信,AI 时代的一体化数据底座,一定能够满足用户需求。
(本文首发于钛媒体 App,作者|林志佳)