Google AI
科技新闻讯 5月5日消息,一名谷歌高级研究员在游戏聊天应用与社区Discord分享的泄密文件中坦言,谷歌没有护城河,OpenAI也是如此,与开源人工智能的竞争将难以占据优势。
该工程师认为,谷歌与OpenAI的竞争分散了公司对开源技术快速发展的注意力。在开源社区,许多独立研究人员利用人工智能技术取得了快速和意想不到的进展。文件还提到,开源模型训练速度更快,可定制性更强,更私密,且比同类产品能力更出色。他们正在用100美元和130亿的参数做一些“谷歌1000万美元和540亿的参数难以企及”的事情,而且用时更短,只需要几周内就能做到。以下为文件内容摘要:
谷歌和OpenAI都没有护城河
我们对OpenAI进行了很多审视和思考,谁会跨越下一个里程碑?下一步会有什么行动?
令人不安的事实是,我们没有能力赢得这场军备竞赛,OpenAI也是如此。当我们争吵不休时,第三个派系已悄悄地抢了我们的饭碗。
我这里说的是开源。简而言之,它们会击败我们。今天,我们认为的“主要的开放问题”已得到解决,并且已被用户使用。仅举几例:
手机上的大型语言模型:人们以5 Tokens/秒的速度在Pixel 6上运行基础模型。
可扩展的个人人工智能:你可以在晚上用自己的笔记本电脑上微调生成个性化的人工智能助手。
负责任地发布:这个问题并没有“解决”,而是“避免”。有的网站充满没有任何限制的艺术模型,文字也不远了。
多模态性:目前的多模态ScienceQA SOTA是在一小时内训练完成的。
虽然我们的模型在质量上仍有微弱优势,但差距正在以惊人的速度缩校开源模型更快,更可定制,更私密,功能更强大。他们正在用100美元和130亿的参数做一些“谷歌1000万美元和540亿的参数难以企及”的事情。而且他们是在几周内完成的,而不是几个月。
这对我们有深远的影响:
--我们没有秘方。我们最大的希望是向谷歌外部人士学习并与他们合作。我们应该优先支持3P集成。
--当免费的、不受限制的替代品有着同等质量时,人们不会为受限制的产品付费。我们应该考虑我们真正的附加值是什么。
--巨型模型正在拖我们的后腿。从长远来看,最好的模型是可以快速迭代的模型。既然我们知道在小于200亿的参数范围内什么是可能的,我们就应该不仅仅是事后开发小型模型。
究竟发生了什么?
3月初,因为Meta的LLaMA被泄露给了公众,开源社区得到了他们第一个真正有能力的基础模型。它没有指令或对话调整,也没有RLHF。尽管如此,开源社区还是在短时间内理解了他们所得到的东西的意义。
随之而来的是海量创新的涌现,重大开发之间只有几天的时间间隔。如今,仅仅一个月后,就有了指令调整、量化、质量改进、人工评估、多模态、RLHF等变体,其中许多是相互依赖的。
最重要的是,他们已经解决了任何人都可以修补的缩放问题。许多新想法来自普通人。培训和实验的准入门槛已从主要研究机构的总产出降低至一个人、一个晚上和一台高性能的笔记本电脑。
为什么能预见到它的到来
从很多方面来说,这不应该让任何人感到惊讶。当前,当前开源大模型的复兴紧随生成图像模型的火热,开源社区并没有忘记这些相似之处,许多人把这称之为大型语言模型的“Stable Diffusion时刻”。
在这两种情况下,低成本的公众参与都是通过更便宜的微调机制实现的,这种机制低秩矩阵微调方法(LoRA),并结合了规模上的重大突破(如大模型Chinchilla)。在这两种情况下,获得足够高质量的模型引发了来自世界各地的个人和机构的一系列想法和迭代。在这两种情况下,这很快超过了开发大型语言模型的厂商。
这些贡献在图像生成领域至关重要,让Stable Diffusion走上了与Dall-E不同的道路。开放的模式带来了Dall-E没有的产品集成、市尝用户界面和创新。
效果是显而易见的:在文化影响方面,与OpenAI的解决方案相比,它迅速占据了主导地位,变得越来越相互依赖。同样的事情是否会发生在大型语言模型上还有待观察,但广泛的结构元素是相同的。
谷歌错过了什么?
推动开源软件最近大获成功的创新,直接解决了谷歌仍在努力需要解决的问题。更多地关注他们的工作可以帮助我们避免继续重复基础性的工作。
LoRA是一个非常强大的技术,我们应该多加注意,LoRA的工作原理是将模型更新表示为低秩因子化,这将更新矩阵的大小减少了许多。这使得模型的微调只需要一小部分的成本和时间。能够在几个小时内在消费类硬件上对语言模型进行个性化调整是一件大事,特别是对于那些涉及在近乎实时的情况下纳入新的和多样化的知识。虽然这项技术直接影响到谷歌一些雄心勃勃的项目,但它在谷歌内部并未得到充分的利用。
小模型迭代更快
LoRA的更新非常便宜,最普通的模型更新只需要100美元。这意味着几乎任何有想法的人都可以创造并传播它。对它训练的时间不到一天是正常的。按照这种速度,所有这些微调的累积效应很快就会克服一开始的规模劣势。事实上,就工程师工时而言,这些模型的改进速度远远超过了我们,最好的已经很大程度上与ChatGPT不相上下。专注于维护一些最大的模型实际上让谷歌处于劣势之中。
数据质量更为重要
数据质量的扩展性比大小更好体现在这些项目中。许多模型通过在小型、高质量的数据集上训练来节省时间。这表明在数据扩展规律有一定的灵活性,同时正迅速成为谷歌之外的标准训练方式。这两种方法在谷歌都不占优势,但幸运的是,这些高质量的数据集是开源的,可以免费使用。
不应与开源直接竞争
这一最新进展对我们的业务战略有着直接的影响。如果有免费、高质量的替代品,谁会为谷歌受限制的产品付费呢?我们不应该期望能够赶上。现代互联网在开放源码上运行是有原因的,开源有一些我们无法复制的显著优势。
谷歌更需要开源
保守谷歌的技术秘密一直是一个脆弱的命题。谷歌的研究人员定期跳槽到其他公司,所以我们可以假设他们知道我们所知道的一切,而且只要渠道畅通,他们就会继续这样做。
想要保持技术上的竞争优势变得更加困难,其他机构和公司并不是无力承担大型语言模型的尖端研究费用。世界各地的研究机构都在以彼此的工作为基础,以广度优先的方式探索解决方案空间,这远远超出了谷歌自己的能力。当外界的创新冲淡了谷歌机密技术的价值时,我们可以努力保守秘密,或者我们可以努力相互学习。
个人不会像企业一样受限
如今的创新大多发生在Meta泄露的模型之上。真正开放的模型会变得更好,这种情况将不可避免地发生变化,但关键是个人开发者不必等待。“个人使用”所提供的法律保护和起诉个人的不切实际意味着个人可以趁热获取这些技术。
认可生态系统:让开源社区为谷歌服务
矛盾的是,所有这些中唯一明显的赢家是Meta。因为泄露的模型出自Meta,该公司有效地获得了全球的免费劳动力。因为大多数开源创新都发生在Meta的架构之上,所以没有什么可以阻止该公司将创新直接整合到它的产品中。
拥有开源生态系统的价值怎么强调都不为过。谷歌已经在自己的开源产品中成功地使用了这种模式,比如Chrome和Android。通过拥有创新性的平台,谷歌巩固了自己作为思想领袖和方向制定者的地位,获得了塑造超越自身的想法的能力。
谷歌对模型控制得越紧,谷歌提供的开放式选择就越有吸引力。谷歌和OpenAI都倾向于防御性的发布模式,允许对如何使用模型保持严格的控制,但这种控制形同虚设。
谷歌应该在开源社区中确立自己的领袖地位,通过与更广泛的对话合作,而不是忽视,起到带头作用。这可能意味着采取一些不舒服的步骤,比如发布小型ULM变体的模型。这必然意味着放弃对我们模型的控制权。这种妥协是不可避免的,我们不能指望既推动创新又控制创新。
OpenAI会怎么样?
鉴于OpenAI目前的封闭政策,所有这些关于开源的讨论可能会让人觉得不公平。如果这家公司都不愿意,谷歌为什么要分享?但事实是,谷歌已经在通过不断流失高级研究人员的形式,与其他公司分享一切。在谷歌阻止这一趋势之前,保密是一个有争议问题。
最后,OpenAI并不重要。就开源问题而言,这家公司正在犯和谷歌一样的错误,它能否继续保持优势的能力必然受到质疑。除非OpenAI改变立场,否则开源替代方案能够并将最终超越它。至少就开源问题而言,谷歌可以先行。(无忌)