关于ZAKER 宙世代元宇宙 ZAKER智慧云 免费视频剪辑 合作 加入
钛媒体 2022-12-06

改 BUG、编故事、绘画,我不如 AI

文|光锥智能,作者 | 卢滢西,编辑|周文斌

【本文为钛媒体「钛客说」X「光锥智能」联合出品】

写代码、修复 BUG、编故事 ......

这些看似只有人类才能完成的任务,都出自同一个聊天机器人之手。

当地时间 11 月 30 日,OpenAI 发布了一个全新的对话式大规模语言模型 ChatGPT。作为 GPT-3.5 系列的主力模型之一,通过对话的形式,ChatGPT 可以回答后续问题、承认错误、挑战不正确的前提并拒绝不适当的请求。

这一模型在开放测试以后,迅速涌入了大批用户,并在社交媒体上晒出自己与 ChatGPT 的互动。有人用来给自己的猫写诗,有人用来给代码改 BUG,还有人问它关于人类的意义 ......12 月 5 日,OpenAI 首席执行官 Sam Altman 发推表示,OpenAI 训练的大型语言模型 ChatGPT 于上周三推出,目前已突破 100 万用户。

甚至于马斯克也为其称赞 "ChatGPT 非常好。我们离强大到危险的 AI 不远了。"

之所以 ChatGPT 能够引起如此大的反响,是因为这一次算法模型的升级让 AI 的认知智能更上一层台阶,换句话说,现阶段的 AI 能够对人类意图的理解更为深刻、准确。

让 AI 更懂人、更像人,一直是技术不断在攻克的难题,而同样作为生成式 AI(AIGC)中一员的 AI 绘画,也因为 Diffusion 扩散模型的加入,闯入了更多公众的视野。

只需要输入几个关键词,就能获得一幅由 AI 生成的绘画。今年以来,AI 绘画可谓是在社交媒体上赚足了眼球,从年初 Disco Diffusion 的流行,再到 8 月,由 AI 绘画程序 Midjourney 生成的《太空歌剧院》获奖,Stable Diffusion 扩散模型的使用,让 AI 绘画在图像细节的处理上更为出色。

如果将 ChatGPT 和 Stable Diffusion 模型两者进行 " 强强联合 ",便能够让模型更懂创作者的需求。一方面,利用 ChatGPT 强大的语言理解能力生成文本描述,另一方面,扩散模型能够最大程度保持图像的细节,既保留了图像中的语义结构,又能够生成高质量的 AI 绘画作品," 甲方爸爸 " 看了都直呼满意。

无论是 ChatGPT 还是 Diffusion 扩散模型,一个作为多轮对话模型,一个作为辅助多模态生成的模型,都让 AI 的能力从 " 机械执行 ",进阶到 " 创造性 ",这也意味着 AIGC 迎来了一个新的发展阶段。

" 我不如 AI",在多久后会成为现实?

01 生成式 AI 到底有多牛?

AI 给你改 BUG、编故事,是一种什么体验?

" 帮我以鲁迅的文笔写一段话,表达一下我现在因为疫情连门都不敢出的惨状,还有想吃火锅的心情 ",有网友在 ChatGPT 中输入一段自己的需求。几秒钟后,ChatGPT 就给出了一篇质量颇高的小作文。

除了让它写小作文以外,它还拥有解决数学、逻辑和编程问题的能力,有网友直呼:妈妈以后再也不用担心我的作业不会做了!

与此同时,ChatGPT 还能根据用户提出的调整建议不停地对回答内容进行修改,同时也能对不恰当的假设和要求提出挑战和拒绝。

一改 AI 智障的面孔,能让聊天机器人如此优秀,ChatGPT 究竟有哪些创新?

2020 年,OpenAI 推出自然语言模型 GPT-3,这是 ChatGPT 的上上一代产品,其在总结和简化文本方面表现出强大的能力,甚至还在《卫报》上公开发表过专栏文章,一时间引起了不小的轰动。

两年过去,就在众人对 GPT-4 翘首以盼的时候,OpenAI 在今年年初出其不意地先推出了 GPT-3.5,并训练了 InstructGPT 模型,能够帮助 GPT-3 输出的结果更为准确。

而 ChatGPT 则是 InstructGPT 的兄弟模型,同属于 GPT-3.5。虽然 ChatGPT 目前仍然处于测试阶段,并且还没有真正联网,但已经展现出了足够惊艳的性能。

这次 ChatGPT 的走红,除了有社交媒体裂变优势的助力以外,很重要的一个原因还是其跟上一代的 GPT-3 相比,在生成内容的效果上有了两方面的显著提升:一是有记忆功能,可以实现连续对话;二是能够更好的理解和完成人类的指令。

在对于人类指令的理解和执行上,可以发现,ChatGPT 生成的结果在尽可能地贴合人类的意图和期望,而 GPT-3 更像是设定好的套路模版。比如说同一个指令 " 写一首简短的关于青蛙的诗歌 ",右边 ChatGPT 的可读性明显要更强。

对比下来,GPT-3 的局限性在于不擅长逻辑的推理和决策,而在 ChatGPT 中,结果的反馈也成为了学习过程的一部分,实现了在认知智能层面上的提升。这一次 ChatGPT 的推出,大概率也是为了能够收集更多的用户数据反馈,以饲养模型,让 AI 更懂人类。

事实上,对于人类意图的理解一直都是 AI 难以横跨的一道坎。

就拿同样火热的 AI 绘画为例,能够出圈的一大原因是因为生成的作品 " 翻车 " 太厉害。把宠物识别成人,把人物识别成建筑 ... 画风开始偏离,诸如此类的乌龙开始频繁出现。

图片来源于网络,如有版权问题请联系我们

对于一些简单的人物和环境都无法准确识别、理解,更别提具有复杂意象的诗歌了。在某个 AI 绘画产品中,光锥智能输入 " 醉后不知天在水,满船清梦压星河 " 后,生成的结果也跟诗歌意境相差甚远。

不难发现,在 AI 绘画爆火背后,大多数软件对于如何保证准确的语义理解和图片生成能力的敏感度并不算高。

现阶段 AI 绘画的槽点虽然很多,但进步却是毋庸置疑的。据一位二次元画师透露,在今年年初的时候,圈子里的人对于 AI 绘画的印象还是 " 生成速度慢 "" 生成质量差 ",但谁也没想到 AI 能够在短短几个月时间进步神速。特别是今年 8 月,AI 绘画作品《太空歌剧院》的获奖,更是让大家炸开了锅," 从来没感觉到自己离失业那么近。" 二次元画师小元(化名)说道。

02 算法的迭代之路

从 " 人工智障 " 到 " 人工智能 ",背后是算法模型的几次大幅迭代。

从最早基于手写规则的简单学习,到神经网络的诞生,AI 开始像人脑一样学习,开始尝试大量数据。

图片来自真格基金分享

直到 2017 年,谷歌首次提出了 Transform 模型,取代了此前的 CNN 和 RNN 两种神经网络学习方式,这一模型的核心在于注意力机制,让 AI 在学习的过程中关注重点而非全部,大大降低了模型训练所需的时间。Transform 模型问世以后,很长一段时间里都是机器翻译领域的主流模型。

而将 Transform 模型拆开来看,可以分成编码器和解码器两个部分,编码器负责把自然语言序列转化成数学表达,而解码器则是负责把数学表达再转化为自然语言序列,即我们日常能够看得懂的语言。

OpenAI 的自然语言模型 GPT 就是属于后者。

从 2018 年推出了 GPT-1 之后,该自然语言模型系列一共经历了 3 次迭代。相较于 GPT-1,GPT-2 并没有太多结构上创新,只是数据更多了,参数从原来 1.17 亿增加到了 15 亿。而在 GPT-3 上,OpenAI 再一次加大了对于数据量的投入,训练参数直接达到了 1750 亿个,上千亿的参数和更类人的智能也让其成为了自然语言模型里程碑式的产物。

到了今天的主角 ChatGPT,再一次颠覆了 "AI 究竟能够多像人类 " 的认知。

上文提到,ChatGPT 现在更能理解人类的指令和意图,根本原因在于 ChatGPT 和 InstructGPT 都加入了 " 从人类反馈中强化学习 " 的训练方式。

相比于原来训练标注师单纯输入固定的结果模版,这种训练方式加入了人类有可能对于结果的反馈,并将不同的结果进行排序,通过奖励模型让 AI 不断地在人类的反馈中迭代、调整,这样一来,提前让 ChatGPT 与有可能的反馈产生交互,使得最后生成更符合人类指令或者意图的答案。

值得一提的是,虽然是兄弟模型,但 InstructGPT 无法判断人类下达的指令是否是不正当的,仍然存在一些 " 毒性 ",而优化过后的 ChatGPT 则能够意识到这一点,敢于质疑不正确的前提。

在算法模型的不断迭代下,加上数据量不断提升,"AI 越来越聪明,也越来越努力。"

同样,AI 绘画能够在今年爆火,也是因为底层技术实现了重大突破。

从识别用户输入的文字语义,再到生成一幅 AI 绘画作品,这其中的难点之一在于 AI 需要实现从文字到图像的跨模态生成。

让我们先把时间拨回 2014 年。彼时,GAN 对抗生成网络的提出标志着 AI 图像生成迈出了关键一步,但遗憾的是,GAN 生成的结果可控性差、图像分辨率较低、不能实现文字和图像之间的跨模态生成。

因此,CLIP 模型出现了。2021 年,OpenAI 提出了基于 NLP(自然语言理解)和 CV(计算机视觉)的多模态预训练算法 CLIP,可以将 CLIP 模型简单地理解为不同模态之间架起的一座桥梁。

不过,真正引爆 AI 绘画的,还是 Diffusion 扩散模型的应用。

扩散模型就是一种生成图像的方法,在正扩散过程中,给图像添加噪声,让图像变成了一堆随机的噪声,然后通过逆扩散给图像去噪,学习图像是如何生成的,相当于让 AI 换了一种学习画画的方式。

伴随着今年 Stability AI 对扩散模型的改进之后,模型的计算降低了对算力的要求和对内存的消耗,从前动辄半天、一天的生成速度已经快进到秒级别,这也是为什么在 Stable Diffusion 开源以后,AI 绘画能够迅速在 C 端走红的原因。

目前的 AIGC 已经能够实现文字、图像、音频以及视频等多领域、跨模态的内容生成。

招商证券认为,得益于深度学习模型的不断完善、开源模式的推动以及数字内容供给需求的不断增长,AIGC 将会呈现指数级的发展增速。在技术加持下,一场 AIGC 的变革正在酝酿。

03 寻找技术和商业化的交点

生成式 AI 的进步不断地给人以惊喜,在应用层,应该如何寻找技术和商业化的交点?

近日,ChatGPT 的火爆之余,马斯克在推特上也对 ChatGPT 提出了关键性的问题:每次对话的平均费用是多少?

而 OpenAI 首席执行官 Sam Altman 给出的回复是 " 每次对话的平均费用可能只有几美分 ",正试图找出更精确的测量方法并压缩费用。

类似于 ChatGPT 这样的对话式 AI 产品,最早出现在 2016 年。随着技术的发展,近些年来也被广泛运用在 AI 客服、虚拟数字人和电话营销等领域。不过,从效果上看,这些产品仍然不够智能,此前中国联通的 AI 客服冒充人工,还被用户识破发到网上调侃了一番。

此次 ChatGPT 的出现,不仅仅带来了技术的关键性变革,也让对话式 AI 产品的商业化前景变得更加清晰。

而相较于 ChatGPT,AI 绘画的商业化则走在更前面。

量子位智库发布的报告认为,多模态能力的提升将成为 AI 真正实现认知智能和决策智能的关键转折点,在未来 1-2 年," 文字 - 图像 " 的生成将快速落地。

从海外市场的情况来看,不仅有谷歌、Meta、微软等科技巨头跑步入场,随着 Stable Diffusion 的开源,一大批初创企业也如雨后春笋般涌现。

再看国内的情况,百度较早地嗅到了 AI 绘画的机会,在今年 8 月就发布了基于其飞桨、文心大模型的 AI 绘画软件文心一格,而初创企业里,也有盗梦师、TIAMAT、达利 AI、6pen 等公司开始冒尖。

现阶段 AI 绘画仍然处于大量投入的早期阶段,商业模式仍然在探索中。

就拿这次在 C 端爆火的众多 AI 绘画软件来看,光锥智能了解到,意间 AI 绘画是积分制,初始积分是 20,当积分消耗完毕后可以通过观看广告视频来继续获取积分;盗梦师、6pen 以及百度的文心一格都是免费生成一定数量的作品之后,按量进行收费。

总的来看,目前国内的 AI 绘画软件变现模式单一,且 C 端的用户大多数只是出于好奇心的尝试,愿意付费的仍是少数。根据 6pen 的调研,60% 的用户从未在 AI 绘画产品上有过付费行为,剩下 40% 的用户中,付费超过 100 元占比仅 10%。

C 端的付费意愿并不高,因此,诸如工业设计、游戏制作等 B 端场景或许会成为 AI 绘画未来的一个重要落地方向。

值得注意的是,AI 绘画如果真的在不久的将来实现大规模商业化落地,那么内容生产方式的变革也会进一步加速。

光锥智能向盗梦师的 To B 产品负责人李庆功了解到,过去专业设计师大多使用的都是 PS 这类的工具,但目前盗梦师已经在尝试研发面向专业生产场景的 AI 生成工具,这种全新的创作交互方式不仅能够让 AI 来执行设计流程,甚至于连设计师的灵感都可以由 AI 来提供。

这就意味着,跟原先被 AI 替代的单一、重复工种一样,AI 绘画的出现也会替代掉一部分的工作。谁会成为下一个被替代的?

04 结语

当我们在谈论 AI 时,我们究竟是在谈论什么?

从 AI 诞生之日起,它的任务就是要进一步解放生产力。顺着 AI 发展的脉络来看,通过不断模拟人脑的思考过程,AI 逐渐具有了对数据和语言的理解、推理、解释、归纳、演绎的能力,越来越像一个人类。

当然,目前的 AI 对于人脑的探索远远未触及核心情感层,但我们不得不承认,AI 正在酝酿着一场生产力的变革,而这必然会引起新一轮人类价值的转移。

回顾人类历史,每一次生产力变革的背后,技术都在不断地将人类从单一、繁重、重复的劳动中解放出来。从体力劳动开始,到脑力劳动,在这一过程当中,人类的劳动形式逐渐发生改变,并依次叠加。而伴随着 AI 往更高阶的智能进发的同时,另外一种劳动形式也顺势出现。

借用知乎上一位答主的话,那就是想象力劳动。

区别于脑力劳动,想象力劳动的核心在于灵感和创意的提供。

上文提到,ChatGPT 能够根据人类简短的指令生成代码、编写故事,AI 绘画也能够识别关键词的语义进行创作,本质上 AI 正在承担并且有能力承担一部分的人类劳动。因此,人类已经无需去思考其中的过程,只需要给 AI 提出问题、把自己的灵感告诉 AI 即可。

也正因为 AI 天然具有根据指令执行的机械思维,所以 AI 无法真正理解人的情感和多样性,即使 AI 可以替代程序员写代码、替代作家写故事,但是它所有的灵感来源依旧要从人类那里获得。

根据传播学者梅尼赛的研究,技术进步之后,引发社会变革的途径之一就是创造新机会和产生新问题,前者引发产业结构和社会结构的变化,而后者推动新制度的转型。

AI 作为新一代科技革命技术,它的进步也在不断反推人类去思考,我们的新问题、新机会在哪儿。(本文首发钛媒体 APP)

更多精彩内容,关注钛媒体微信号(ID:taimeiti),或者下载钛媒体 App

觉得文章不错,微信扫描分享好友

扫码分享

热门推荐

查看更多内容