关于ZAKER 合作

新较量即将展开!OpenAI 试图抢在谷歌 Gemini 前发布多模态模型

财联社 9 月 19 日讯(编辑 周子意)随着秋季的临近,谷歌和 OpenAI 展开一场软件竞赛,旨在推出下一代 " 多模态(multimodal)" 大型语言模型(LLM)。

这些多模态模型可以处理图像和文本,例如,用户只需要给该模型发送一张网页草图,该模型就可以为网站生成代码,或者向用户提供可视图表的文本分析。

此前有报道称,谷歌正在接近这个目标,它已经与一小部分外部公司分享了其即将推出的 Gemini 多模态大型语言模型

但是如今,OpenAI 似乎想要抢在谷歌之前发布。据知情人士透露,这家人工智能初创公司正将其最先进的大型语言模型 GPT-4 与多模态功能相结合,这个更强大的多模态模型代号为 Gobi。

一场较量即将展开

与 GPT-4 不同,Gobi 从一开始就被设计为多模式,不过似乎 OpenAI 公司目前还没开始训练这个模型。

此外,随着关于 GPT-5 的传言逐渐传播开来,人们开始好奇 Gobi 是否就是 GPT-5,不过有分析人士称,现在就下定论还为时过早。

谷歌那边怎么样呢?考虑到谷歌拥有与文本、图像、视频和音频相关的专有数据(包括来自搜索和 YouTube 等消费产品的数据),这一优势将有利于谷歌向多模态模型的推动。

一位使用过 Gemini 早期版本的人士透露,与现有的模型相比,Gemini 似乎产生的错误答案更少。

无论如何,这场竞赛类似于人工智能版的苹果与安卓之争。而 Gemini 的到来将揭示谷歌和 OpenAI 之间的差距到底有多大。

对恶意使用的考量

OpenAI 此前在 3 月份发布 GPT-4 时曾预展示了多模态功能,但除了一家名为 "Be My Eyes" 的公司外,其没有向其他公司开放。Be My Eyes 是一家为盲人或视力低下的人提供技术的公司。

六个月后,OpenAI 公司准备在更大范围内推出被称为 GPT-Vision 的功能。据悉,OpenAI 可能会在 GPT-Vision 之后再推出 Gobi。

为什么隔了这么长时间才推出?信息安全问题是一个主要的考量因素

OpenAI 主要是担心新的视觉功能会被恶意利用,比如通过自动解决验证码来冒充人类,或者通过面部识别来跟踪人。但如今,OpenAI 的工程师们似乎已经接近于解决围绕这项新技术的法律担忧。

谷歌也有同样的困扰。不过对于大模型被恶意使用或滥用的问题,谷歌给出的回答是,该公司在 7 月份就做出了一系列承诺,以确保其所有产品都被负责任地开发。

最新评论

没有更多评论了
科创板日报

科创板日报

上交所科创板电报,股市行情报道

订阅

觉得文章不错,微信扫描分享好友

扫码分享

热门推荐

查看更多内容