关于ZAKER 合作
雷锋网 昨天

敦煌“数字藏经洞”数据库平台全球上线,腾讯 AI 技术陪你逛千年图书馆

5 月 31 日,敦煌研究院宣布 " 数字藏经洞 " 数据库平台正式上线,9900 多卷敦煌文书经卷、60700 多幅图像的数字化版本将与全球用户零距离接触,内容涵盖佛经、律典、契约、绢画等。

腾讯基于混元大模型和智能检索技术,助力网站实现更智能化的平台能力,为用户提供了古籍检索、多语言翻译、文白互译、智能问答、AI 归纳等功能,让丰富而深厚的敦煌文化内容,被更好地展现和理解。

即日起,全球用户可登录官网,踏上这场跨越时空的数字文化之旅。

(网站链接:https://cave17.e-dunhuang.com/)

敦煌研究院自 2017 年开始与腾讯达成战略合作,推出了 " 敦煌数字供养人 "、" 敦煌诗巾 "、" 云游敦煌 " 小程序、QQ 音乐 " 古乐重声 " 音乐会、《王者荣耀》" 遇见飞天 "" 遇见神鹿 "" 遇见胡旋 "" 遇见神鼓 " 系列游戏皮肤、敦煌动画剧等数字文创精品内容。2022 年,双方进一步成立 " 腾讯互娱 × 数字敦煌文化遗产数字创意技术联合实验室 ",推出全球首个基于区块链的数字文化遗产开放共享平台 " 数字敦煌开放素材库 ",基于游戏技术的超时空参与式博物馆 " 数字藏经洞 "、" 寻境敦煌 "VR 沉浸展、敦煌官莫高窟官方虚拟人 " 伽瑶 " 等亮点项目。此次,深度结合 AI 技术助力 " 数字藏经洞 " 数据库平台上线,是双方在探索前沿数字技术创新应用于文化遗产保护和传承中的又一次具有开拓性的重要尝试。

全流程 AI 智能体验,数万件珍贵经卷和图像数字新生

进入 " 数字藏经洞 " 数据库平台,用户可直观阅读到千年文明精华。平台不仅收录了世界上最早的印本书籍《金刚经》、柳公权真迹拓本等传世珍宝,还能一睹唐代的《放妻书》、中国最早的育儿教材《太公家教》、现存唐诗中的第一巨制《秦妇吟》等珍贵内容。

以《金刚经》为例,卷首的版画描绘了释迦牟尼在祇树给孤独园讲法的场景,卷尾清晰标注了 868 年的刊印日期。借助腾讯数字技术能力,用户不仅能欣赏到这些古籍的细节,还能与背后的故事进行深度互动。

(网站中展示的部分绢画和经卷)

AI 技术带来了 " 解读 " 这一文化和历史的全新方式。点击平台的 "AI 归纳 " 功能,网站即刻提炼出《金刚经》的核心思想:" 破除执念,通达智慧 ",并通过智能推理将其与同期壁画中的佛陀说法场景进行关联。

此外,面对繁体字、无标点、竖排的原文,AI 可一键将内容转换为简体字,并且自动生成白话文翻译,如:" 如是我闻,一时佛在舍卫国祇树给孤独园 " 将被转化为 " 我曾听佛这样说:那时,佛陀住在舍卫国的祇树给孤独园 "。

平台的 AI 小助手 24 小时营业,用户可以随时就古籍当中的疑惑 " 问 AI",AI 小助手陪你逛一千多年前的图书馆。

更令人惊叹的是,平台还为学者们提供了全链路的学术支持系统。通过智能检索引擎,支持语音与手写输入,结合中国图书馆分类法与多条件筛选,文献的精准定位可在秒级完成。

经卷浏览模块采用了 " 字 - 列 - 文 " 三维解析工具,帮助学者逐字查阅生僻字、恢复原卷结构、跨版本对照,同时利用百亿像素图像识别与人工校验确保学术严谨性。

此外,平台还支持中、英、法、日等多语言互译,帮助敦煌文化在全球范围内无障碍传播。

大模型 RAG 技术把经卷 " 天书 " 变为大白话

从千年前沉睡的残卷,到如今触手可及的古籍解读,这一切都离不开前沿 AI 技术对敦煌古籍的 " 量身定制 "。

作为 " 数字藏经洞 " 数据库平台的技术支持方,腾讯通过智能检索平台(腾讯云 ES)实现了古籍数据的智能化处理和精准检索。

首先,平台对古籍数据进行了重新分词,确保文本能够被 AI 系统理解并有效处理。由于敦煌经卷中存在大量繁体字、异形字、竖排、无标点和生僻字,这些都为传统文本处理带来挑战。

为此,技术团队引入了 " 古籍专属词典 ",并与敦煌专家团合作优化了复杂词汇的分词方式。例如,将 " 佛在舍卫国祗树给孤独园 " 拆解为 " 佛 / 在 / 舍卫国 / 祗树 / 给孤独园 ",使其成为 AI 可识别的最小数据单元。

接着,平台无缝集成大模型,将其强大的推理能力与智能检索平台结合,形成双模驱动的 RAG(检索增强生成)技术架构。根据腾讯云大数据专家介绍,这是当前 AI 技术中最成熟和前沿的技术范式——大模型协同智能检索平台构建的 RAG 技术体系。

该体系应用的大模型腾讯混元和 DeepSeek,是当今最 " 聪明 " 的国产 AI 大脑,全球权威评测平台 Chatbot Arena 显示,这两款模型在全球前八名中排名前列。

该技术体系的优势在于,首先通过腾讯云 ES 进行精准的混合检索(文本 + 向量),同时结合其提供的全链路智能搜索开发服务,可高效定位用户查询的相关文献或上下文信息;然后,基于检索结果,大模型利用其强大的生成能力,为用户提供准确的解答。这一双模驱动架构不仅提升了检索精准度,还确保了智能生成的答案具有高度相关性和准确性。

在处理复杂的古籍内容时,RAG 技术能够将历史文献与现代技术相结合,实现 " 从海量文献中秒级锁定真知 "。经敦煌专家团测试,该技术体系生成的答案准确率高达 95%,显著提高了信息的准确性和用户体验。

" 数字藏经洞 " 数据库平台平台发布,将集中展示 " 流失海外敦煌文物数字化复原项目 " 成果,持续扩大与世界各地敦煌学收藏和研究机构的合作,为全球学术界和社会公众了解、获取敦煌文化艺术资源贡献一项统一完整、权威准确、开放共享、便捷智能的国际性公共文化服务产品。

未来,腾讯将继续探索与敦煌研究院的深入合作,聚焦数字技术在文化遗产传承上的创新型应用,为广大学者和大众打开一扇扇敦煌文化的新窗口。

相关标签