关于ZAKER 合作
智东西 09-19

曝 OpenAI 大模型新进展!将推出多模态大模型,新项目 Gobi 筹备中

智东西(公众号:zhidxcom)

编译 | 陈佳慧

编辑 | 徐珊

智东西 9 月 19 日消息,据 The Information 报道,OpenAI 意图赶在谷歌推出多模态大语言模型 Gemini 前,发布其多模态大语言模型 GPT-Vision。而后,OpenAI 或许会推出一个更强大的多模态大模型,代号为 Gobi。

今年 3 月 OpenAI 发布的 GPT-4 已经融入了部分多模态功能,相较于 GPT-3.5 只能接受文本输入,GPT-4 还可以接受图像输入,但该视觉输入性能并不开放使用。而 Gobi 与 GPT-4 不同,Gobi 从一开始就是按多模态模型构建的,可以接受更多类型的信息输入并做出相应的处理。

OpenAI 与谷歌将多模态功能纳入大语言模型,可以将图像、文字、音频等不同形式的数据整合起来,让大语言模型更准确、更全面地处理用户所给信息,为用户提供便利。据 The Information 报道,OpenAI 与谷歌的多模态大语言模型之争,就像 AI 领域的苹果与安卓之争。这或许预示着 AI 大模型领域未来的发展趋势,同时也是 OpenAI 与谷歌抢占这项新技术的首发先机,提高用户影响力和技术引领地位的重要竞赛。

一、Gobi VS Gemini,OpenAI 与谷歌多模态大语言模型赛跑

此前有报道称,谷歌即将推出 Gemini,并且已经向一小批外部公司分享了这个项目。但据知情人士透露,OpenAI 正在争分夺秒地把公司最先进的 GPT-4 与多模态功能相结合,想要抢在谷歌之前发布 Gobi。并且,OpenAI 在今年 3 月发布 GPT-4 时,就对 GPT-4 中融入的多模态功能进行了预展示。不过,根据 The Information 报道,OpenAI 还没有开始训练 Gobi,因此现在还不知道 Gobi 最终能否成为 GPT-5。

对于 OpenAI 能否在多模态大语言模型方面超越谷歌,据 The Information 报道,目前,谷歌拥有来自谷歌搜索引擎和 YouTube 等平台的文本、图像、音频、视频等专有数据,这是谷歌相较于 OpenAI 发展多模态大语言模型的一项特殊优势。并且一位使用过 Gemini 早期版本的人士说,与现有的各种大语言模型相比,Gemini 产生的错误答案似乎更少。

▲ OpenAI 联合创始人 Greg Brockman 演示 GPT-4 中的多模态功能(来源:OpenAI 官网)

二、多模态功能肩负重任,被滥用的信息安全问题值得重视

在 3 月发布 GPT-4 预览多模态功能时,除了为盲人或低视力者开发技术的 Be My Eyes 公司,OpenAI 没有给其它公司提供多模态功能。到现在,OpenAI 才准备在更大范围内推出被称为 GPT-Vision 的功能。据 The Information 报道,OpenAI 可能会在 GPT-Vision 之后再推出 Gobi。

根据 The Information 报道,OpenAI 之所以耗费大量时间来推出 Gobi,主要是担心新的视觉功能会被坏人利用,例如通过自动解决验证码来冒充人类,或者通过人脸识别追踪人们。但现在,OpenAI 的工程师们似乎想到办法来缓解这个安全问题了。

谷歌的 Gemini 也面临同样的问题,当谷歌被问到采取了哪些措施防止 Gemini 被滥用时,谷歌的一位发言人称,谷歌在 7 月份做出过一系列承诺,以确保对其所有产品进行负责任的 AI 开发。

▲谷歌的新多模态大语言模型 Gemini

结语:多模态大模型之争或成下个 AIGC 焦点

多模态功能正被不断融入大语言模型,以提高大语言模型分析的精准度。如今,因 ChatGPT 名声大噪的 OpenAI 与 AI 老牌公司谷歌都致力于开发多模态大语言模型,可见其或许将成为 AI 大模型发展的未来趋势。

据 The Information 报道,这场 OpenAI 与谷歌的竞赛类似于 AI 版的苹果与安卓之争,而未来 Gobi 与 Gemini 的到来,将揭示 OpenAI 和谷歌的竞赛结果。

多模态大模型作为当前 AI 大模型领域的最新进展,OpenAI 与谷歌之间的多模态大模型之争不仅是科技竞争的焦点,也可能引发全球范围内关于技术应用、合作、监管和伦理等方面的重要讨论。

来源:The Information

最新评论

没有更多评论了

觉得文章不错,微信扫描分享好友

扫码分享