生成式 AI 技术变革,正驱使数据库厂商展开激烈竞争。
传统厂商长期占据主导地位,却也因云原生分布式数据库的冲击而有所动摇。当 AI 风暴再次搅动这个市场,数据库厂商纷纷调整数据战略,试图更加贴近企业客户使用 AI 的实际场景。新旧势力间的角逐,实际也让真实的客户加快享受到新时代红利。
在 Databricks 的案例库中流传着这样一个故事。来自中国的全球消费电子品牌安克创新,其数据团队曾遇到过一个棘手问题:受原有数仓的制约,无法对企业内部多个系统和应用数据进行统一治理,这导致团队将大量时间用于数据治理及相关的 Devops 落地,几乎没有时间挖掘更高价值的数据任务,比如用于支持生成式 AI 的创新。
安克创新用上了云湖仓,而针对这一产品的选型中,其团队放弃了 Snowflake,而选择 Databricks,其关键一点在于技术层面,前者并不符合团队对操作便捷性和基于同一平台实现数据、分析、AI 创新的需求。而基于 Databricks 的云湖仓产品 Delta Lake 实现 200TB 数据的统一数据底座后,安克创新又陆续用上了 Databricks 的其他产品:通过 Unity Catalog 实现表格式数据访问,基于 MLflow 实现 AI 应用自动化流程编排。准备就绪后,安克创新数据团队终于有机会去探索大模型驱动下的代码检索、自动生成 SQL、问答知识库等服务。
安克创新的选择背后,是以 Databricks 和 Snowflake 为首的两大数据分析与智能服务提供商所焦灼的领域——云湖仓。在表引擎、分析引擎、实时计算引擎、数据入湖工具、数据开发 DataOps 工具链、统一元数据管理等相关的引擎或组件,以及当下面向 AI 的大模型自研、AI 数据库层面,各方都展开了尤为激烈的竞争,以抢占市场先机。
过去两年间,其实很多企业都在尝试生成式 AI 应用,但直至今天,我们仍没有看到真正能大规模推广到企业中的 AI 案例。其核心问题在于生成式 AI 应用始终存在不准确或不相关的推理结果,也就是常称的 " 幻觉 " 问题。而结合上述案例实践能够进一步理解,减少模型幻觉的重要方法之一,是引入企业内部知识库,提高生成准确性和边界,这往往需要在 IT 基础设施和数据集成的统一性上下功夫。
看似技术引领了市场变革,其实不然。数据库市场的变局,是发展到一定程度必然面对的,并且早已箭在弦上。
1990~2020,被反复锤炼的一个技术名词
理解数据库市场这一切变化,还要从 " 仓 " 与 " 湖 " 说起。
作为一款分析型数据库,数据仓库(Data Warehouse)的出现已有几十年的历程,最早可以追溯到 20 世纪 60 年代,并且随着近些年大数据技术的发展而不断升级。
20 世纪 90 年代,在比尔 · 恩门 ( Bill Inmon ) 和拉尔夫 · 金博尔 ( Ralph Kimball ) 的推动下,数据仓库迅速发展。被誉为数据仓库之父的比尔 · 恩门在《构建数据库仓库》一书中给出其定义:一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。
这在当时,是一项重大创新,包括能够支持更快的商业智能(当时还谈不上 AI,更多是 BI),能更高效地处理结构化数据等,也存在明显缺点,如缺乏对非结构化数据的处理能力,处理大量数据需要较长时间。但这一技术方案,基本满足了当时大量处于初创阶段的中小企业或客户团队,对于处理有限数据和分析的诉求。
直至 21 世纪初,大数据的兴起给传统数据仓库带来了挑战。这一挑战首先暴露在谷歌、雅虎等互联网公司内部:后端有大量的业务系统支撑,同时也有支持 " 海量 " 数据服务的平台架构,但在数据分析、商业智能等方面,一直在使用传统的数据库 + 数据仓库作为底层支撑。传统的数据仓库无法处理大量非结构化数据,一旦遇到业务流量洪峰,数据仓库就会出现瓶颈,持续扩容也显得捉襟见肘。
从核心目标上讲,数据湖与数据仓库都是用于数据分析,以便为组织提供洞察,辅助业务决策,但二者仍有区分。数据湖通常存储用于高级分析应用的各类大数据,而数据仓库则存储用于基本商业智能、分析和报告用途的常规交易数据。
2003 年至 2006 年期间,谷歌相继发表文件分布式系统 GFS、并行计算框架 MapReduce 和 BigTable 论文,这 " 三驾马车 " 奠定了大数据技术的基石,开启了大数据技术发展大幕。随后,Hadoop 出现,它以 HDFS 分布式文件系统作为存储层,以 MapReduce 提供计算,为海量数据处理提供了一套全面的解决方案,并在雅虎的支持下,Hadoop 生态发展迅猛。
2010 年,Hadoop World 大会上 Pentaho 公司创始人詹姆斯 · 迪克森(James Dixon)率先提出 " 数据湖 " 的概念,以解决当时数据仓库处理大数据时所面临的的性能瓶颈。他指出:" 如果把数据集市想象成一个瓶装水仓库,经过清洁、包装和结构化处理,方便饮用,那么数据湖就是一个更自然状态的大型水库。数据湖的内容从源头入湖,用户可来湖中查看、潜入或取样。"
也就是说,数据湖一开始就将所有数据源的数据进行存储,包括离线的、在线的,结构化的、非结构化的,各类面向事务型的数据。同时,利用 Hadoop 等大数据处理技术,使得海量数据处理更容易。
从理论上讲,数据湖的出现在很大程度是符合时代的,并且在 2015 年得到比较大的发展。但由于许多企业构建数据湖的进展并没有想象中顺利,也一定程度上削弱了数据湖的普及。例如,当时的数据湖只解决存储问题,分析计算的问题依然需要数仓完成,放到今天,计算、存储是需要同时被解决的。另外,数据湖的实施和维护成本高,且需要经年累月与企业业务流程以及数据分析工具集成,才能实现其价值。
那么,能否实现 " 仓 "、" 湖 " 的优点兼具?即让数据仓库直接 ETL 数据湖里的数据,实现湖、仓的打通。2020 年,Databricks 公司对湖仓一体(DLH,Data Lakehouse)概念的提出,不仅让 Databricks 这家以开源 Spark 出名的公司再次出圈,也让业内看到了湖仓一体架构的优越性,众多数仓专家由此也开始了对数据湖功能兼容的大量技术探索。
谁在入局
Databricks 首先在 2020 年发表了一篇重要论文《A New Generation of Open Platforms that Unify Data Warehousing and Advanced Analytics》,将 " 湖仓一体 " 作为一种新颖的数据管理方法。据论文描述,该方法将数据仓库和数据湖整合到一个系统中,以更 " 湖仓一体 " 的方式运行,充分利用云存储服务的成本效益,这尤其对于同时使用 BI 工具和依赖数据科学 / 机器学习解决方案的大型企业有益。
在概念提出的最开始一段时间,确实只有 Databricks 一家商业公司提供湖仓产品,但很快,随着湖仓一体理念得到广泛关注,围绕湖仓的技术组件和产品方案,逐渐衍生出四股力量:
一是 MPP 数据库 Teradata 和基于 Hadoop 的 Cloudera 等老牌公司,二是三大云厂商的同类产品包括 Google BigQuery、Amazon Redshift、Azure Synapse Analytics;三是主打存算分离的云数仓(CDW)新贵 Snowflake,四是以数据湖开源表格式 Delta Lake、Apache Hudi 等为基础的商业公司 Databricks。
从技术路径上,与单独建仓或单独建湖的不同的是,前者无法保证数据湖与数据仓库中的数据一致性问题,湖仓一体是以数据仓库中支持数据湖特性,和以数据湖中支持数仓特性两大方向。例如,Snowflake、Amazon Redshift,以及国内的阿里云 MaxCompute 以前者为技术路径;而 Databricks、Uber 则以后者为技术路径。作为湖仓一体概念的提出者,Databricks 如今基于 Apache Spark、Delta Lake、MLflow 等开源组件构建了相对完整的产品方案,并且基于三方云平台,将湖仓产品集成售卖。
数据湖、数据仓库曾各自独立发展过一段时间,现如今,这两个技术方案已经走向融合。
根据 Fortune Business Insights 公布的《大数据分析市场报告,2021-2028 年》,目前大量初创公司正在争夺全球大数据分析市场的份额,预计 2028 年将达到 5497.3 亿美元。根据资本流动趋势和观察到的客户需求,大数据分析市场中最热门的领域无疑是数据仓库、数据湖、数据湖仓、数据网格、DataOps 和超快速大数据查询引擎。
中国信通院《数据库发展研究报告(2024)》指出,随着智能时代的到来,AI 大模型需要的存储底座需要具备高存储密度、高性能计算、数据安全保障等特点,能够对大规模数据进行高性能处理的湖仓一体技术成为 AI 大模型不可或缺的数据基础设施。原因在于两点:一是湖仓一体的设计为大模型提供了高性能数据处理底座,二是人工智能也使得仓内智能成为可能。
如果说传统数仓、数据湖能够向湖仓一体架构持续演进,其首要原因还是来自实际企业应用场景中,业务驱动的结果。那么,随着企业应用场景逐步推进到以 AIGC 的业务和应用中,AI 大模型在企业的快速推进正客观促成湖仓相关领域的厂商展开竞赛,笔者注意到,各股势力不光频繁展开性能拉练,也在试图通过技术收购整合、投入研发,企业客户也成为这场竞赛中的直接受益者。
过去一年,头部的数据库企业,甚至于大模型企业都已经在积极采取产品发布、或进行收购、合作的方式,抢占 AI 大模型时代的先机。
另外,在大模型技术爆发背景下,以及各方产业链上下游厂商的频繁较量中,战火也早已烧到了中国市场。
以阿里云湖仓架构为例,在数据存储层,基于数据平台、数仓和数据湖能力基础之上,进行仓内数据模型直接调用;在数据服务层,提供 RAG 服务、Data API 及模型管理能力;在场景应用层,湖仓可支持企业快速搭建知识库。
国内市场,除了阿里云、华为云等云厂商外,星环科技、滴普科技、柏睿数据、偶数科技等创业厂商也在过去一段时间展开了对湖仓一体架构的技术探索与产品落地。
但对比了品牌、产品技术、市场资源、客户基础、组织能力等多维度优势后,我们注意到,在湖仓领域,始终有两个无法忽视的竞对:Databricks 和 Snowflake。
两种路线的较量
其实两方势力的竞争成功与否,并不在于一地之得失,而在于有生力量之消长。Databricks 与 Snowflake 竞争的背后,也是两种技术路线的较量。
与外界现如今感知所不同的是,湖仓这一概念在被市场得到关注之前,Databricks 其实定位于基于 Apache Spark 构建的统一数据和分析平台,并且一直在缓慢且成功地发展其业务。只是在近些年,Databricks 开始从 Snowflake 等数仓厂商手中夺取了越来越多的市场份额。
而 Databricks 的最大亮点在于,它是以流数据处理为出发点,向上扩展自身 AI 能力,向下打造湖仓一体,通过不断完善 AI 基础架构,为最上层 AI 应用提供一个优化的承载平台。因而 Databricks 并非是一家数仓或数据库公司,而是构建 AI infra 的公司。
业务层面,Databricks 更专注于高级分析和处理复杂的数据处理任务,通常涉及数据科学或机器学习。这也使得 Databricks 一开始合作的客户通常具备数据工程能力,并认可其数据湖中支持数仓特性的技术路线。
技术层面,Databricks 做了许多能力建设。首先,Databricks 对其数据湖表格式开源项目 Delta Lake 投入了大量资金和,并且还是该开源项目的最大贡献者。
2024 年,Databricks 进一步收购 Iceberg 的商业公司 Tabular,进一步巩固其市场地位,要知道 Snowflake、Cloudera、AWS、Oracle、Salesforce 等众多厂商基于 Iceberg 构建。这一操作明显使 Snowflake 的处境更加艰难,并导致其不得不宣布将 Polaris Catalog 作为 Delta Lake 和 Iceberg 的直接开源替代方案,以对抗 Databricks 的影响。
其次,Databricks 成功解决了跨各种数据处理引擎的无缝互操作性这一重大挑战,消除了供应商锁定的问题。
此外,Databricks 从一开始就面向数据科学、人工智能领域持续探索,并构建了一系列数据与 AI 工具组件。如开发和维护 AI 生命周期管理开源平台 MLflow,用于进行机器学习模型的部署和训练;数据分析工具 Koalas,可让使用 Pandas 进行编程的数据科学家直接切换到 Spark 上,用于大型分布式集群应用。
2023 年,Databricks 开源了其首个大语言模型 dolly 2.0,为其后续推出大模型拉开了序幕。2023 年末,Databricks 以 13 亿美金收购大模型初创公司 Mosaic,以便 Databricks 现有的客户实现数据源无缝集成,提高构建数据服务的统一体验。通过对 MosaicML 的技术和团队整合,MosaicML 被全面整合进 Databricks 的湖仓产品中。
今年 3 月,Databricks 发布了一款 132B 混合专家模型 DBRX,该大模型由内部 Mosaic Research 团队开发,其人员一部分就来自于此前对 MosaicML 团队的收编而来。据 Databricks 透露,DBRX 完全基于 Databricks 平台开发,利用 Unity Catalog 等工具进行数据治理、Apache Spark 进行数据处理以及 Mosaic AI Training 进行模型训练和微调。正是这种深度集成,客户可以通过 API 访问 DBRX,从而无缝集成到现有工作流程和应用程序中。
从趋势上看,随着生成式 AI 应用的出现,市场需求显然已经在从数仓转向了更有利于 Databricks 的湖仓技术。Databricks 近期指出,已经有 200 多家客户从 Snowflake 迁移到 Databricks,其中有 8 家还是头部大客户。
另一个信号是,Databricks 和 Snowflake 之间的差距正在缩小。Databricks 宣布预计截至 2025 年 1 月 31 日第四季度的收入运行率将超过 30 亿美元,而 Snowflake 公布的 2025 财年产品营收实现 35 亿美元。
Databricks 已多次与 Snowflake 进行性能大战。2023 年,为了甩开膀子撕逼,双方甚至同意将 DeWitt 条款限制拿掉,即允许研究人员和科学在学术论文中明确使用其系统名称。
技术层面,Snowflake 针对结构化数据的存储和分析进行了优化,并高度重视数据仓库的易用性和可扩展性。同时,Snowflake 从 2022 年相继收购了 Applica、Streamlit、SnowConvert、Myst.AI 和 Neeva 等多家 AI 与数据领域初创公司,加大对 AI 分析和数据平台的投入。今年 4 月,Snowflake 发布了其开源大模型 Arctic,以 4800 亿参数 MoE 架构试图击败 Databricks 的 DBRX。此外,Snowflake 还与 Anthropic 等大模型厂商合作。去年 10 月,Snowflake 还与 Cloudera 实现集成,客户通过使用 Snowflake 的计算引擎和获得 Iceberg 支持的 Cloudera 湖仓一体架构,实现动态扩展分析与 AI 工作负载,同时降低成本。
与 Snowflake 同样技术路线的云厂商也开始频繁向外界证明,其核心产品能够跟上生成式 AI 和大模型的进步。
Google BigQuery 为解决湖仓统一治理,直接将治理功能嵌入到数仓中,而非单独工具或流程。近日的 Google Cloud Next 大会上,谷歌表示 Google BigQuery 自 2011 年面世以来,其客户数量已经是 Snowflake 和 Databricks 的五倍。
无论走哪种技术路径,无非是代表不同的商业利益群体,这种争论对于客户而言,都需要深入了解当前和未来的需求。可能某些场景下,Databricks 更广泛的功能使其更具优势,而在其他情况下,Snowflake 的易用性亦会成为其决定性因素。
暗流涌动
但最耐人寻味的,是双方在 AI 大模型时代达成的某些共识对整个数据库市场的震动。当其他老牌对手看到 Snowflake 和 Databricks 增强了对大模型的支持,也终于下场布局,新兴的初创公司也因数据库市场的搅动,开始重新找准市场定位。
不久前,Snowflake、Databricks 竞相展开对 AI RAG(检索增强生成)公司 VoyageAI 的收购。收购 Voyage 或将帮助前者提升自身平台的速度和性能。例如,Snowflake 已通过一项云服务向客户提供 Voyage 模型的访问权限,客户可以使用该服务构建 AI 应用。Databricks 此前也在努力为其相应的服务提供同样的访问权限。不过,随着 MongoDB 对 VoyageAI 的成功截胡,一切正朝着新的变局演变。
与此同时,新兴 AI 搜索初创公司 Glean 已经在瞄准这块市场,推出能够帮助企业更有效搜索数据库中数据的产品。值得关注的是,近期 Databricks 还被曝出拟将收购无服务器初创公司 Neon。
但更大的问题是,对于客户而言,企业对数据的诉求早已不在于记录信息、收集信息,更在于获得可行的见解,做出更明智、更快速的决策。在 AI 应用潮流和企业降本增效的驱使下,客户仍然需要花一定的精力和成本来做新数据库的尝试和迁移,同样面临极大风险。
数据库赛道也越来越卷了,尤其在国内市场,很多两三年前出现的初创公司或产品已消弭不少,诸多创业十年以上的数据库厂商也在频繁跟进技术基调更新产品。
而纷争角逐的核心主线是,在新赛道、新兴细分市场中,数据库厂商的核心机会仍然是解决客户的业务问题,而不是过度关注拿奖、追逐技术时尚,成为市场的投机者。(本文首发于钛媒体 APP,作者 | 杨丽,编辑 | 盖虹达)