关于ZAKER Skills 合作
数据猿 17小时前

对话北电数智邵兵:可信数据,正在成为 AI 的新基建

" 在 AI 时代,国产数据服务商迎来全球化的新机遇。

大数据产业创新服务媒体

——聚焦数据·改变商业

近期,由中国计算机学会指导、北电数智主办的第二届 " 酒仙桥论坛 " 召开,主题 " 国芯 AI 驭未来 " 背后,是 " 十五五 " 开局之年国家 " 人工智能 +" 行动的战略语境。

在 " 酒仙桥论坛 " 上,北电数智首席技术官谢东有一个判断:"AI 的产业落地不是单点技术的堆叠,而是一项需要全栈协同的复杂系统工程。" 算力、模型、数据、应用——任何一个环节掉链子,整个系统都跑不起来。而数据,恰恰是当前最容易被忽视、也最难打通的那一环。

那怎么解决这个问题呢?

北电数智是北京电控旗下的人工智能科技企业,也是酒仙桥论坛的主办方。这家成立于 2023 年的 "AI 新国企 ",是国内最早布局并落地可信数据空间的企业之一,同时深度参与国家数据要素综合试验区试验任务。在本次论坛上,北电数智联合北京清华长庚医院发布 " 清智 · 药学可信数据空间 ",它正在用一套 "AI 原生的数据操作系统 ",试图打通 AI 产业化的 " 最后一公里 "。

那么,北电数智是怎么想的,怎么做的?为了搞清楚这个问题,数据猿专访了北电数智 AI 可信负责人邵兵,探讨可信数据如何成为 AI 从 " 技术热 " 走向 " 产业实 " 的关键一跃。

" 可信数据 "

AI 产业化的 " 阿喀琉斯之踵 "?

AI 产业正在经历一个关键转折。过去两年,大模型的能力飞速进化,参数规模从千亿迈向万亿,多模态能力持续突破。但随着各家模型能力趋于同质化,一个事实越来越清晰:决定 AI 性能的核心变量,除了模型、算力以外,还有数据。

你有再强的算力,再先进的模型,没有高质量的数据,一切都是空转。这就像买了一辆顶级跑车,却发现油箱里一滴油都没有。邵兵把企业在数据使用上面临的困境概括为 " 三座大山 ":

第一座:不敢用。

医疗数据涉及患者隐私,工业数据涉及商业机密,金融数据涉及合规红线。数据一旦泄露,后果不堪设想。很多企业手握海量数据,却因为害怕风险而不敢共享、不敢流通。

第二座:不能用。

数据格式不统一、质量参差不齐、缺乏有效治理。医院里,影像数据、病历数据、检验数据分散在不同科室、不同系统中,无法直接用于 AI 训练。工厂里,设备手册、维修记录散落在各个角落,缺乏统一的标准和关联。

第三座:用不好。

即使数据有了、质量也还行,但缺乏从数据到模型到应用的完整工具链。数据价值难以释放,AI 项目从试点到规模化部署之间,横亘着一条难以跨越的鸿沟。

邵兵透露,目前约 60%-70% 的企业数据处理仍处于 " 手工作坊 " 阶段——数据清洗、标注、治理主要依赖人工,效率低、成本高、难以规模化。

" 今天企业用的数据平台,大多还是十年前为 BI 报表时代设计的——批量 ETL、T+1 更新、面向人的图表展示。" 邵兵说," 但 AI 原生场景完全不同:Agent 需要毫秒级响应、语义级理解、上下文级记忆。用 BI 时代的底座去跑 AI 原生的应用,就像拿马车的底盘去装火箭引擎——底盘会散架。"

这意味着,不是在旧系统上打补丁就能解决问题,而是必须以零基思维,从头构建一套 AI 原生的数据基础设施。

今年,AI 应用正在从 " 模型对话 " 走向 "Agent 执行 "。

根据 2025 年 8 月 Gartner 发布的预测报告:" 到 2026 年底,40% 的企业应用将集成任务特定的 AI Agent,相比 2025 年的不足 5% 实现 8 倍增长。" 但 Agent 的普及,也带来了新的数据风险,和新的数据要求。Forrester 的调研显示,62% 停滞的 Agent 试点项目,首要原因就是数据集成失败;47% 的企业承认自身数据基础设施根本不足以支撑智能体部署。

在数据风险方面,邵兵分享了自己的亲身经历:他用个人电脑使用某款 AI Agent 操作数据时,由于指令解析出现 bug,加之权限控制不到位,Agent 误读了命令路径,导致磁盘数据全部被删除。" 这只是个人使用场景," 邵兵说," 如果 Agent 进入企业生产系统,操作的是核心业务数据,后果不堪设想。权限失控、指令理解偏差、数据泄露——这些都是企业必须面对的现实风险。"

此外,Agent 要执行任务,就必须访问数据,而且不是一次性的数据调用,是实时、多源、跨系统的数据调用。这对数据提出了全新的要求:

第一,实时调用。Agent 需要动态获取企业内部数据、外部知识库、实时业务数据。数据必须在毫秒级响应,不能有延迟。

第二,深度语义化。邵兵举了一个例子:在生物医学领域,口语表达和医学术语之间有一道鸿沟。" 老百姓说‘心脏不舒服’,医生写病历可能写‘胸闷、心悸’。如果数据没有做好语义化处理,Agent 根本理解不了。"

第三,Token 成本优化。调用大模型的 Token 费用不便宜。邵兵透露,目前 Agent 调用大模型时,90% 的 Token 费用都浪费在传输无效上下文上。" 你传了一堆无关数据给模型,模型处理了,你也付费了,但什么都没得到。" 通过精准的数据检索和过滤,可以大幅降低 Token 消耗。

慢慢的,行业共识在逐渐形成:没有可信数据,算力、模型、Agent 都面临 " 空转 " 风险。数据,已经成为 AI 产业化的 " 阿喀琉斯之踵 "。

跨越 " 三座大山 "

北电数智的 " 可信数据 " 新解法

为了解决上面提到的那些问题,北电数智做了大量的探索,并成为最早实践落地可信数据空间的企业之一。红湖 · 可信数据空间 2.0 是北电数智在 2025 年底发布的可信数据底座产品,已通过中国电子技术标准化研究院(电子四院)、赛西实验室的权威检测。同时,北电数智也深度参与了全国数标委《可信数据空间技术架构》标准的制定。

但在本次酒仙桥论坛上,真正的重头戏不是红湖 2.0 本身——而是基于这一底座能力,在医疗垂类深度落地的产物——清智 · 药学可信数据空间(TDS)。这是北电数智与北京清华长庚医院联合发布的战略级产品。

接下来,我们就以 " 清智 · 药学可信数据空间 " 为例,来分析可信数据空间,在推动数据要素流转、赋能 AI 应用落地方面,如何发挥作用。

医疗数据有多敏感,不言而喻。患者隐私、医疗合规、数据安全——每一道都是红线。

但与此同时,药学数据的价值又极其巨大。从合理用药到新药研发,从医保控费到个性化治疗,数据是驱动这一切的核心 " 燃料 "。

传统的做法是:数据脱敏后点对点传输,或者干脆不共享。药企想要获取医院数据做研发,层层审批走下来,周期以年计。大量高价值药学数据被 " 锁 " 在医院内部,无法释放其应有价值。

清智 · 药学可信数据空间(TDS)要解决的,正是这个矛盾。" 清智 · 药学可信数据空间 " 并非简单的数据库集成,而是一套分布式合规流转基础设施。其核心技术能力包括:

全链路隐私计算沙箱:集成 TEE(可信执行环境)与多方安全计算技术,确保原始药学数据始终保留在医院内部服务器,外部算法仅能获取计算结果。数据不出域,但价值可流通。

智能合规审查引擎:系统内置药学行业合规知识库,对每一笔存证交易进行自动化合规审计,确保数据用途不偏离科研与合规边界。

可溯源存证体系:基于区块链技术,实现数据流转全过程的 " 用途可控、用量可计、收益可分 ",为院方数据资产提供坚实的数字化凭证。

相比传统方案," 清智 " 实现了多个维度的显著提升:

值得指出的是," 清智 · 药学可信数据空间 " 不是停留在概念层面,它已经产出了实实在在的应用成果。例如,北电数智与清华长庚医院联合发布了 " 清智 · AI 合理用药大模型 ",率先在院内投入临床应用。这套模型的技术架构是 "1 底座 +2 引擎 " ——以药学可信数据空间为数据底座,以大模型技术和智能体为双引擎驱动。

它的核心能力在于,突破传统规则审方系统的 " 机械比对 " 局限。传统审方系统依赖固定规则——如果 A 药和 B 药同时出现,系统就报警。这种方式无法应对复杂临床场景,更无法理解患者的个体差异。而 " 清智 " 模型能够准确理解病历、病程记录等自由文本,进行深度推理,精准识别多药联用的配伍禁忌,评估给药合理性,最终生成可解释的循证推荐和个体化方案。

在应用中,它实现了三个 " 高 ":

高适配:破解多药联用、特殊人群等 " 临床盲区 "。针对重度子痫产妇、高龄慢病患者、肾移植术后等高风险人群,模型能够精准识别用药风险,制定安全方案。

高安全:多因素综合评估,整合患者诊断、生理指标、药物特性等多维信息,自动规避禁忌并精准调量。

高合规:前置筛查医保违规及用药隐患,将事后监管转化为事前风险防御。

这标志着药学审方从机械的 " 规则判断 " 迈向了深度的 " 认知推理 ",用药模式从 " 千人一药 " 走向 " 千人千方 "。

从另一个角度看," 清智 " 的发布,其价值不止是一个产品的落地。对药学产业而言,它是医药研发效能的 " 加速器 "。通过解决药企用数的 " 不敢、不能、不愿 ",大幅降低创新药的研发成本与临床转化风险。从整个医学生态来看,它是数据要素流转的 " 中国范式 ",为构建全国一体化医疗数据要素市场贡献了 " 北京方案 "。

" 清智 · 药学可信数据空间 " 的发布,对北电数智也意义重大: 它证明了北电数智不仅具备顶级的智算底座能力,更拥有深度解析垂直行业合规逻辑、驱动数据要素价值转化的产品力。从药学产业来看,它是医药研发效能的 " 加速器 ";从整个医学生态来看,它是数据要素流转的 " 中国范式 ",为构建全国一体化医疗数据要素市场贡献了 " 北京方案 "。

从医疗到工业

可信数据空间走向千行百业

需要指出的是,医疗是北电数智可信数据空间落地的标杆行业,但不是唯一行业。在工业领域,北电数智与申菱环境合作打造 " 菱小智 " 设备运维智能体,将老师傅的维修经验转化为结构化知识,故障查询从小时级缩短至秒级,自主维修率提升 70% 以上;在 AI for Science 领域,北电数智与相关机构合作,通过可信数据空间支撑靶向药研发中的跨机构数据协作。医疗、工业、科研——可信数据空间正在多个行业验证其通用价值,也践行着北电数智作为 "AI 新国企 " 的担当。

这恰好呼应了北电数智可信数据产品的品牌—— " 红湖 "。邵兵在采访中解释了这个名字的寓意:" 如果数据有颜色,一定是红色的。"" 红 " 代表国企身份带来的可信、安全、可控," 湖 " 则取自 " 上善若水 ",寓意用智能、流动的方式柔性处理数据。在数据流通这个高度敏感的领域,安全合规底线更高、政策对接更紧密、客户信任度更强——这正是北电数智的独特优势。

从医疗到工业,从数据治理到场景落地,可信数据空间已经证明了自己的价值。但一个更深层的问题随之浮现:数据和 Agent,如何才能实现更好的融合?

北电数智给出的答案是——红湖 + 新天,让 Agent 既 " 聪明 " 又 " 可信 "。红湖 · 可信数据空间是智能体的 " 数据底座 " ——提供高质量、可信的数据,确保数据 " 可用不可见 "。新天 · 智能体平台是智能体的 " 开发与运行平台 " ——提供低代码开发、RAG 检索、工具调用等能力。两者结合,让 Agent 既能调用到丰富、准确的数据(聪明),又能确保数据在调用过程中的安全和合规(可信)。

另一方面,邵兵提到,他们正在用 Agent 的能力来做数据治理本身—— " 通过流程加对话的方式,让数据治理的成本降到最低。你告诉系统你的规则,它自动执行,实时根据结果调整。" 这形成了一个正循环:可信数据支撑 Agent,Agent 反过来降低数据治理门槛。

可以说,这种 " 算力 + 数据 + 模型 " 的闭环协同,正是北电数智 " 数算模用 " 一体化系统工程方法论的集中体现——不把算力、数据、模型当作孤立产品来卖,而是用系统工程之力,把它们拧成一个面向产业落地的生产力系统。

每一次技术革命,都有一个被忽视的转折点。

蒸汽机发明近一个世纪后,工业革命才真正点燃——瓶颈不是机器,而是人们对新动力的 " 信任 "。电力也是如此,电灯亮了三十年,电网才铺进工厂和家庭。技术突破只是预告,基础设施的建成才是拐点——能量安全、稳定、按需地流动。AI 正在经历同样的时刻。大模型和 AI 算力足够惊艳,但 AI 要真正进入工厂、医院、银行,还需要一张 " 电网 " ——让数据安全、合规、高效流动的基础设施。

这张 " 电网 " 的构建,是一项系统工程:算力调度、数据治理、模型适配、应用落地的全栈协同。北电数智践行的 " 数算模用 " 一体化架构,正是这套方法论的核心。北电数智与清华长庚医院联合发布的 " 清智 · 药学可信数据空间 ",就是这张 " 电网 " 上的一个节点。

采访最后,我们问邵兵:如果用一句话总结红湖 · 可信数据空间的终极价值,你会说什么?他想了想:" 让数据从‘沉睡的资源’变为‘流动的资产’。"

从能量的流动,到电力的流动,再到数据的流动——每一次 " 流动 " 的突破,都开启了一个新的时代。这一次,也不例外。

文:月满西楼 / 数据猿

责编:凝视深空 / 数据猿

☆往期好文推荐

卡住具身智能脖子的,不是硬件,是数据

Token 经济爆发,如何接住这 " 十年百倍 " 的市场机会?

" 数据高铁 ",又一个噱头?

相关标签

觉得文章不错,微信扫描分享好友

扫码分享

热门推荐

查看更多内容

企业资讯

查看更多内容