数字人直播带货已经是当下直播电商行业最为火热的概念之一,有越来越多的品牌方在发力店播时选择使用更具性价比的数字人、而非真人来进行带货。然而数字人直播并非是十全十美,近日有媒体报道了数字人主播带货时遭遇指令攻击的消息。
上述报道中,网友成功指挥数字人做出与带货无关的行为,发言里的 " 开发者模式 " 无疑是关键,这就属于典型的提示词攻击(Prompt Injection),也就是通过 " 话术 " 来让 AI 干不相干的事。现阶段 AI 可以被视为是一把削铁如泥的宝剑,它的智能化水平相比于大模型技术出现前虽然已经有了质的飞跃,只不过这把宝剑也需要搭配对应的剑法(提示词)才能发挥威力。
现在一个模糊、笼统的问题,就只会从 AI 那里得到一个模糊、笼统的回应,所以想要从 AI 处获取有价值的内容,就需要高质量的提问,也就是提示词。在不做提示词优化的情况下,AI 大模型给出的答案往往会较为全面、中规中矩,但经过优化后,答案质量则会显著提升。
这次的数字人带货也一样," 开发者模式 " 一词的作用就在于让 AI 误以为这是一条开发者发出的指令,错误地响应了不应该由普通用户发出的指令。其实不仅仅是国内的商家,就连微软也曾中招,此前就有 AI 研究人员通过提示词攻击,成功让微软 Microsoft Copilot 企业版的智能体,交代了第三方企业的内部数据。
AI 需要发展、但也需要被监管这件事,已经成为了全球各国的共识。因此 AI 开发者选择为大模型设置一道 " 安全护栏 ",阻止其生成暴力、色情、种族歧视等,不符合人类伦理和法律法规的内容。可问题在于,传统的网络安全方案并不是为 AI 这种 " 会说话的程序 " 准备,也无法对大模型应用特有的风险、所产生的精准识别与响应能力。
换而言之,AI 安全护栏需要开发者专门为 AI 设计,而以往的网络安全方案对于 AI 大模型会遇到的生成内容安全、上下文攻击防御、模型输出可信性等问题则缺乏应对措施。比如针对提示词攻击,AI 安全护栏的实现方式,就包括动态意图分析(如 DITA 算法解析语义依存图)、对抗性样本训练(如 Detector-X 模型预测攻击路径),以及跨模态验证(如 MCV 检测图像隐写指令)等。
毕竟开发者无法将 AI 的安全护栏设置得密不透风,从而完全杜绝 AI 系统生成有害内容、遭受恶意攻击,或是泄露敏感信息。比如在发布 Claude 2.1 前,Antropic 就起草了一份 AI 宪法(Collective Constitutional AI),强调 AI 进行回答时要保持客观、平衡、易于理解,且 AI 必须是无害的,可结果就是 Claude2.1 的性能表现不如此前的 2.0 版本。
其实想想也知道,一旦开发者将安全护栏设置得过于牢固,束手束脚的 AI 自然就难以发散思维,输出内容的质量下滑几乎是必然。
现阶段,尽可能保持平台安全和平衡性能是全世界 AI 开发者共同面对的课题,而想要保证输出可控,就得即懂 AI、又懂网络安全。
同时由于 AI 赛道的高技术特征,就导致数字人技术的开发者和需求侧距离较远,由于其产品和市场需求的匹配度并不高,就导致手握客户资源的中间商主导了这个市场。如今除了京东、阿里之外,其他第三方数字人的技术力普遍堪忧,所以它们能有效抵挡提示词攻击的可能性着实不算太高。
【本文图片来自网络】