财联社 9 月 19 日讯(编辑 周子意)随着秋季的临近,谷歌和 OpenAI 展开一场软件竞赛,旨在推出下一代 " 多模态(multimodal)" 大型语言模型(LLM)。
这些多模态模型可以处理图像和文本,例如,用户只需要给该模型发送一张网页草图,该模型就可以为网站生成代码,或者向用户提供可视图表的文本分析。
此前有报道称,谷歌正在接近这个目标,它已经与一小部分外部公司分享了其即将推出的 Gemini 多模态大型语言模型。
但是如今,OpenAI 似乎想要抢在谷歌之前发布。据知情人士透露,这家人工智能初创公司正将其最先进的大型语言模型 GPT-4 与多模态功能相结合,这个更强大的多模态模型代号为 Gobi。
一场较量即将展开
与 GPT-4 不同,Gobi 从一开始就被设计为多模式,不过似乎 OpenAI 公司目前还没开始训练这个模型。
此外,随着关于 GPT-5 的传言逐渐传播开来,人们开始好奇 Gobi 是否就是 GPT-5,不过有分析人士称,现在就下定论还为时过早。
谷歌那边怎么样呢?考虑到谷歌拥有与文本、图像、视频和音频相关的专有数据(包括来自搜索和 YouTube 等消费产品的数据),这一优势将有利于谷歌向多模态模型的推动。
一位使用过 Gemini 早期版本的人士透露,与现有的模型相比,Gemini 似乎产生的错误答案更少。
无论如何,这场竞赛类似于人工智能版的苹果与安卓之争。而 Gemini 的到来将揭示谷歌和 OpenAI 之间的差距到底有多大。
对恶意使用的考量
OpenAI 此前在 3 月份发布 GPT-4 时曾预展示了多模态功能,但除了一家名为 "Be My Eyes" 的公司外,其没有向其他公司开放。Be My Eyes 是一家为盲人或视力低下的人提供技术的公司。
六个月后,OpenAI 公司准备在更大范围内推出被称为 GPT-Vision 的功能。据悉,OpenAI 可能会在 GPT-Vision 之后再推出 Gobi。
为什么隔了这么长时间才推出?信息安全问题是一个主要的考量因素。
OpenAI 主要是担心新的视觉功能会被恶意利用,比如通过自动解决验证码来冒充人类,或者通过面部识别来跟踪人。但如今,OpenAI 的工程师们似乎已经接近于解决围绕这项新技术的法律担忧。
谷歌也有同样的困扰。不过对于大模型被恶意使用或滥用的问题,谷歌给出的回答是,该公司在 7 月份就做出了一系列承诺,以确保其所有产品都被负责任地开发。