关于ZAKER 融媒体解决方案 合作 加入

华为宣布启动数据基础设施战略:发布并开源数据虚拟化引擎 HetuEngine

极客网 11-19

女士们、先生们、朋友们,大家上午好!欢迎大家来到深圳,参加首届全球数据基础设施论坛。

人类正迈入万物互联的智能时代,而数据将成为智能世界的关键生产资料。今天,我分享的主题是《打造 " 融合、智能、开放 " 数据基础设施,携手迈入智能时代》。

构建万物互联的智能世界

华为公司的愿景与使命是:" 把数字世界带入每个人、每个家庭、每个组织,构建万物互联的智能世界 "。在智能世界,算力成为新生产力,数据成为新生产资料,"5G、AI、云 " 成为新生产工具,将使能千行百业迈入智能时代。

两个月前,华为在全联接大会上发布了 " 一云两翼双引擎 " 的鲲鹏计算产业布局,基于 " 鲲鹏 + 昇腾 " 双引擎,全面启航计算战略,为世界提供最强算力。

" 一云 " 是指华为云,是生态伙伴发展的黑土地。" 两翼 " 是指智能计算和智能数据。数据作为鲲鹏产业中的关键一翼,华为将围绕数据构建端到端的能力,包括存、算、用的能力,通过 5G+ 云 +AI 能力,打造 " 融合、智能、开放 " 的数据基础设施,释放数据价值,让智能无所不及!

智能世界,从数据管理走向数据运营

首先,数据将驱动客户体验。当你打开一个 App,就会收到你感兴趣的内容推送。精准推送的背后,其实就是数据在驱动。比如快手,每天产生 1.2 亿个内容标签与用户画像实时匹配,数据运营实现内容精准推送。

其次,在企业经营活动中,数据驱动企业生产决策。以大港油田为例,在经历了 50 年持续开采后,面临资源枯竭、产量下降的挑战。2019 年以来,大港油田采用华为大数据和 AI 技术,利用测井曲线,结合经验模型生成了每口井的孔隙度、渗透率,找到了更多的新的油气层。通过数据运营,为长期稳产 500 万吨提供了决策支撑。

最后,我介绍下数据驱动企业流程简化。华为每年有近 300 万人次出差,以前出差涉及考勤、机票、酒店,包括报销等十几个申请流程,现在只需要一个流程就可以真正实现 " 说走就走 "。这是每天 45 万次后台数据关联碰撞的结果。数据运营,实现 " 让数据多跑路,员工少跑腿 "。

智能世界,需求与资源存在巨大落差

随着 5G、AI 和云的普及,数据量正以惊人的速度增长:从 1080P 到 4K、8K,视频数据量将提升 40 倍,从 4K 到 4K VR 要增加 6 倍以上;未来每辆自动驾驶汽车每天就会产生高达 64 TB 数据;深圳一个城市有超过 200 万摄像头,每天将产生 80 PB 数据,平均保存 30 天,大家希望保存更长时间;大量的数据过去只需存几天,现在需要保存几个月甚至永久保存。

根据预测,全球数据量将从 2018 年的 33 ZB 快速增长到 2025 年的 180 ZB。但是,产生的数据中仅有不到 2% 被保存,而被保存的数据中仅有不到 10% 被应用。

这些海量数据的增长背后是需要海量存储和计算的资源,数据增长是无限的,而存储资源却是有限的。

数据全生命周期,每比特价值最大,每比特成本最优

我们希望对数据的采、存、算、管、用实施端到端的整合和优化,让数据在全生命周期内更好用,数据的每比特发挥价值最大,数据的每比特成本最优!

打造 " 融合、智能、开放 " 数据基础设施

为实现这个追求,华为打造融合、智能、开放的数据基础设施,让数据系统从孤立走向融合,从复杂走向智能,从封闭走向开放:

通过 " 打破数据处理与数据存储的边界 ",实现数据高效共享和分析,降本增效。

通过 "AI+ 存储 + 云 ",实现数据全生命周期内智能管理和智能运营,让存储越用越快,价值越来越大。

通过 " 数据虚拟化引擎 ",统一 SQL 语法,像使用数据库一样使用大数据。

融合:使用极简

数据应用的核心包括存储和分析。烟囱式 IT 业务系统带来两个问题:存的时候会产生多个冗余副本,且数据无法流动,存储成本高;分析的时候会导致大量数据搬迁,分析效率低。

通过 10 余年技术积累和创新,华为在存储、数据库和大数据技术上实现了一系列突破,通过打破 4 堵墙,让数据的每比特发挥价值最大,数据的每比特成本最优。

打破存储内部系统墙:通过一套架构实现生产、分析、备份、归档的统一管理,一份数据在各个系统中平滑流动,减少拷贝,TCO 降低 30% 以上。

打破数据库与存储链路墙:通过算子下推实现近数据计算,减少存储层与计算层之间的数据交换,数据访问和处理性能提升 2 倍。

打破大数据与存储配置墙:通过存算分离实现资源灵活配置,计算不足扩计算,存储不足扩存储 。并通过弹性 EC、数据缩减技术减少冗余,整体 TCO 降低 30% 以上。

打破数据库与大数据协同墙:通过协同分析实现数据零搬迁,数据库和大数据共享一份数据,分析效率提升 100%。

智能:体验极致

过去,主要依靠人来完成设备配置和运维,运维人员经验和能力的高低决定了管理效率的优劣。华为基于 AI 芯片、存储和华为云的三层架构,通过云上训练和云下推理,让系统越用越快、越用越省。

依托昇腾处理器的 AI 能力,自动学习和识别 IO 流,提升 Cache 预取命中率,系统整体性能提升 20%。

依托鲲鹏处理器的多核算力,根据不同的数据类型,实时优化数据缩减算法,TCO 降低 25%。

结合华为云自身大规模运维运营经验,当前可以实现提前 14 天预测硬盘故障,提前 60 天预测性能瓶颈,提前 365 天预测容量不足,其中 30% 的故障可以自我修复。

开放:开发极简

随着业务类型日益增多,大量业务需要跨平台、跨数据源协同分析。这种场景下,最突出的 3 个问题是:找数难、取数难、用数难。

找数难:传统企业数据类型越来越多,结构化、半结构化、非结构化数据并存,缺少统一数据目录和全局数据视图,要在众多异构数据源中找到特定数据,好比大海捞针。

取数难:一个典型的分析业务通常依赖跨地域跨平台数据协同,需要从多个业务系统获取数据,这要经过多部门间协调、核实才能获取。

用数难:多业务分析需要多引擎协同,这将依赖多种数据访问技术,就需要开发人员掌握多种开发工具和语言,从而导致开发门槛变高,开发周期变长。

为了屏蔽数据类型差异、地域差异、语法差异,让数据治理简单,使用简单,华为推出了 " 河图引擎 "。

HetuEngine,从 " 大数据 " 走向 " 大数据库 "

我们将数据虚拟化引擎命名为河图,就是屏蔽数据基础设施的复杂度,让开发者像使用数据库一样使用大数据,复用现有的生态、工具和技能,提升开发效率 2 到 10 倍。" 大禹得河图后始见清明 ",传说中,大禹通过河图掌握河流山川复杂的地形地貌,顺利完成治水大业。

河图引擎,就是要让数据治理简单,使用简单,更方便的挖掘数据价值。它具备 4 个核心能力:

一个目录:通过元数据在线感知,构建 1000+ 异地异构数据源全局虚拟数据视图,打破数据孤岛,数据全局可视,解决企业找数难问题。

一个入口:通过开放的连接框架、5000 节点 SQL 引擎,实现 30 种异地异构数据源统一 SQL 访问,秒级获取,数据全局可得,解决企业取数难问题。

一份数据:通过 CarbonData 技术,实现一份数据多场景分析,多应用共享,数据零搬迁,数据全局可用,解决企业用数难问题。

统一安全:通过细粒度动态授权、敏感数据自动感知技术,实现异地异构数据源集中式安全配置与管控,数据全局可控,数据授权时间从天到秒,解决企业数据安全与合规问题。

开源河图引擎 HetuEngine

为了更好地发展数据产业,今天我宣布开源河图引擎,开源版本的河图引擎叫 openHetu,将于 2020 年 6 月上线。我们将开源内核,开发者可以基于开源代码进行定制,包括数据源扩展、SQL 执行策略等,实现应用快速对接,提升开发效率。

华为 Cloud & AI 产品与服务总裁侯金龙宣布开源数据虚拟化引擎 HetuEngine

华为始终践行 " 平台 + 生态 " 策略,通过硬件开放,软件开源,使能伙伴,共建开放、繁荣的鲲鹏计算产业生态,共同迈入智能时代。

谢谢大家!

以上内容由"极客网"上传发布 查看原文
极客网

极客网

科技使能新商业

订阅

觉得文章不错,微信扫描分享好友

扫码分享