AI人工智能模型训练只需100美元!谷歌与微软谁将胜出?

牛财金
2023-05-06

2023年随着OpenAI推出ChatGPT聊天机器人,谷歌也推出了与ChatGPT竞争的聊天机器人Bard, 人工智能AI的应用成为全球关注的焦点话题。


谁将在这场创世纪的人工智能大战中胜出?


微软还是谷歌?


近日,谷歌AI高级工程师Sernau内部披露的文章显示,这场人工智能大战,可能和我们想象的不一样。现在牛财君就和大家一起来分享谷歌AI高级工程师对人工智能发展的看法。


以下就是Sernau文章的内容:


我们没有护城河,OpenAI 也没有


谷歌一直对OpenAI保持警觉。谁将跨越下一个里程碑?下一步会是什么?


但令人不安的事实是,谷歌无法赢得这场军备竞赛,OpenAI也无法。


当谷歌和OpenAI争吵不休的时候,第三方力量正在悄悄地偷吃我们的午餐。


当然,我说的是开源软件。简单地说,他们正在蚕食我们。我们认为主要的开源问题现在已经解决,人们已经掌握这些技术。


仅举几个例子:


手机上的LLM大型语言模型:人们正在Pixel 6上以每秒5个代币的速度运行基础模型。(牛财金注:Pixel 6是谷歌在2021年发布的一款旧手机)


可扩展的个人人工智能:你可以在晚上在笔记本电脑上微调个性化人工智能。


负责任的发布:这个问题与其说是“解决了”,不如说是“排除了”。整个网站上都是艺术模型,没有任何限制,文本也紧随其后。


多模态:当前的多模态 ScienceQA SOTA 在一小时就能完成训练。


虽然我们的模型在质量方面仍然有优势,但差距正在以惊人地速度缩小。开源模型更快、更可定制、更私密,而且性能更强。他们只用100美元和 130亿参数做到了我们使用 1000 美元和5400亿参数下也很难完成的事情。而且他们用的时间只有几周,而不是几个月。


这对我们意味着:


我们没有秘密武器。我们最好的方法是向 Google 外的其他人学习并与他们合作,应该优先考虑启用第三方集成。


当有免费、无限制的替代品时,人们不会为受限制的模型付费,我们应该考虑我们真正的增值在哪里。


庞大的模型正在拖慢我们前进的步伐。从长远来看,最好的模型是可以快速迭代的模型。既然我们知道在参数少于200亿的情况下有什么可能,我们应该更关注小型变体,而不是事后考虑。


AI领域发生了什么


三月初,随着Meta的LLaMA被泄露给公众,开源社区获得了他们的第一个真正有能力的基础模型。它没有指令或对话调谐,也没有RLHF。尽管如此,社区立即理解了他们所得到的东西的重要性。


(牛财君注:RLHF,Reinforcement Learning from Human Feedback,人类反馈强化学习


随之而来的是大量的创新,在重大开发之间只有几天的时间(完整的细分见时间表)。仅仅一个月后,我们就来到了这里,有指令调整、量化、质量改进、人工评估、多模态、RLHF等方面的变体,其中许多都是相互建立的。


CHATGPT4级别的LLM输出结果.jpg

图1. GPT-4级别的LLM输出结果                  来源:Imsys.org


最重要的是,他们已经解决了规模问题,让任何人都可以参与其中,许多新的想法来自普通人。实验和训练的门槛从一个大型机构降低到了一个人、一个夜晚或者一台强大的笔记本电脑。


为什么我们可以预见它的未来


从很多方面来说,这对任何人来说都不应该是一个意外。当前开源LLM的紧跟着图像生成的再次兴起。社区并没有忘记这些相似之处,许多人称这是LLM的“Stable Diffusion时刻”。


在以下两种情况下,低成本的公众参与得以实现:

1. 有一种称为低秩维度适应(Low rank adaptation,LoRA)的微调机制大大降低了成本;

2. 再加上规模方面的重大突破(图像合成的 Latent Diffusion, LLM 的 Chinchilla)。


在这两种情况下,获得足够高质量的模型引发了世界各地个人和机构的一系列想法和迭代,开源社区很快超过了大型玩家。


这些贡献在图像生成领域起到了关键作用,使 Stable Diffusion 走上了与 Dall-E 不同的道路。拥有开源模型导致了产品集成、市场、用户界面和创新,而Dall-E没有做到这一点。


效果是显而易见的:在影响方面,相对于 OpenAI 的解决方案,Stable Diffusion 迅速占领主导,让OpenAI逐渐变得越来越无关紧要。


LLM是否会发生同样的事情还有待观察,但广泛的结构要素是相同的。


谷歌错过了什么


近期开源社区创新的成功直接解决了我们仍在苦苦应对的问题。关注它们的工作可以帮我们避免重复做同样的事情。


LoRA是一种非常强大的技术,我们应该更加关注


LoRA 通过将模型更新表示为低秩因式分解(low-rank factorizations),将更新后的矩阵的大小减少了数千倍。这使得模型微调的成本和时间大大降低。能够在几个小时内在消费者硬件上对语言模型进行个性化设置是一件很重要的事情,尤其是对于那些需要近实时地融入新的、多样化的知识的人来说。


牛财金注:通过低秩因式分解,将参数矩阵分解成两个较小矩阵的乘积来逼近原始参数矩阵,降低模型的参数量。


这项技术在 Google 内部并未被重视,尽管它直接影响了我们一些最雄心勃勃的项目。


从头开始重新培训模型是一条艰难的道路


LoRA如此有效的部分原因是,就像其他形式的微调一样,它是可堆叠的。像指令调整这样的改进可以应用,然后随着其他贡献者增加对话、推理或工具使用,可以加以利用。虽然单独的微调是低秩的,但它们的总和不一定是,从而随着时间的推移对模型进行全秩更新。


这意味着,随着新的更好的数据集和任务的出现,该模型可以廉价地保持最新,而无需支付完整运行的成本。


相比之下,从头开始训练巨型模型不仅丢弃了预训练,还丢弃了已经进行过的迭代更新,在开源世界中,这些改进很快就会占据主导,使得进行全面重训练的成本极高。


我们应该考虑每个新的应用程序或想法是否真的需要一个全新的模型。如果我们确实有重大的架构改进,排除了直接重用模型权重,那么我们应该投资于更积极的升华形式,使我们能够尽可能多地保留上一代的功能。


从长远来看,如果我们能在小模型上更快地迭代,那么大模型就不如小模型


对于现在最流行的模型规模,LoRA更新的生产成本非常低,约100美元。这意味着几乎任何有想法的人都可以产出并分发。一天内的训练次数是常态。以这样的速度,用不了多久,所有这些微小的累积效应就会克服一开始在规模上的劣势。事实上,就工程师的工作时间而言,这些模型的改进速度远远超过了我们对最大的变体所能做的,最好的变体在很大程度上已经与ChatGPT无法区分。专注于维护地球上一些最大的模型实际上使我们处于不利地位。


数据质量优于数据规模


许多项目通过在小型、高度策划的数据集上进行培训来节省时间。这表明数据缩放定律具有一定的灵活性。这些数据集的存在遵循了《数据并不像你想的那样Data Doesn't Do What You Think》中的思路,它们正在迅速成为谷歌之外进行培训的标准方式。这些数据集是使用合成方法(例如,从现有模型中筛选最佳响应)和从其他项目中筛选来构建的,这两种方法在谷歌都不占主导地位。幸运的是,这些高质量的数据集是开源的,因此可以免费使用。


与开源直接竞争是一个赔本的买卖


最近的这一进展对我们的商业战略有着直接、直接的影响。如果有一个没有使用限制的免费、高质量的替代品,谁会为有使用限制的谷歌产品付费?


我们不应该期望能够赶上。现代互联网依靠开源运行是有原因的。开源有一些我们无法复制的显著优势。


开源软件和谷歌,谁更需要谁?


当然是谷歌更需要开源软件


保守我们的技术秘密一直是一个难题。谷歌的研究人员不断的跳槽去其他公司,所以我们可以假设他们知道我们所知道的一切,并且只要人员流动的管道畅通,他们就会继续这样做。


但是,由于LLM的尖端研究是可以负担的,因此在技术上保持竞争优势变得更加困难。世界各地的研究机构都在相互学习,,以广度优先的方式探索解决方案空间,远远超出我们自身的能力范围。我们试图紧紧守住机密,但外部创新会稀释它们的价值,或者我们可以试着互相学习。


个人不像公司那样受许可证的限制


这种创新大多发生在Meta泄露的模型之上。虽然随着真正开放的模型变得更好,这种情况将不可避免地发生变化,但关键是它们不必等待。法律保护保护个人使用,起诉个人不切实际,个人可以在这些技术火热的时候获得这些技术。


把自己当成客户,你就可以了解客户需求


观察人们在图像生成空间中创建的模型,从动画生成器到HDR风景,都有大量的创造力。这些模型是由那些深深沉浸在自己特定类别中的人使用和创建的,提供了我们无法企及的知识深度和同理心。


谷歌该怎么办?


拥有生态系统:让开源为我们服务


矛盾的是,在这一切中,唯一明显的赢家是元宇宙Meta。因为泄露的模型是他们的,他们实际上获得了整个星球的免费劳动力。由于大多数开源创新都是在他们的体系结构之上进行的,因此没有什么能阻止他们将其直接融入到产品中。


拥有生态系统的价值怎么强调都不为过。


谷歌本身已经成功地在其开源产品中使用了这种模式,如Chrome和Android。通过拥有创新的平台,谷歌巩固了自己作为思想领袖和方向制定者的地位,赢得了根据比自己更宏大的想法来塑造叙事的能力。


我们越是严格控制我们的模型,人们就越对开源替代方案感兴趣。谷歌和OpenAI都倾向于采取防御性的发布模式,以保持对模型使用方式的严格控制。但这种控制只是幻想,任何想要将 LLM 用于未经授权的目的的人都会选择免费提供的模型。


谷歌应该成为开源社区的领导者,通过与更广泛的对话合作而不是忽视对话来发挥领导作用。


这可能意味着要采取一些不舒服的步骤,比如发布小型单位语言模型ULM变体的模型。这必然意味着放弃对我们模型的一些控制。但这种妥协是不可避免的。我们不能指望既推动创新又控制创新。


结束语:OpenAI怎么样?


考虑到OpenAI目前的封闭政策,所有这些关于开源的讨论都会让人感到不公平。如果他们不愿意,为什么谷歌必须分享?但事实是,我们已经以源源不断的被挖走的高级研究人员的形式与他们分享了一切。在我们遏制这一趋势之前,保密是一个悬而未决的问题。


最终,OpenAI并不重要。相对于开源,他们正在犯与我们相同的错误,他们保持优势的能力必然受到质疑。除非他们改变立场,否则开源替代方案可以、而且最终会让它们黯然失色。至少在这方面,我们可以迈出第一步。


时间线


2023年2月24日-LLaMA启动

Meta推出LLaMA,开源代码,但不开源权重。在这一点上,LLaMA并没有调整指令或对话。与当前的许多模型一样,它是一个相对较小的模型(可在7B、13B、33B和65B参数下使用),已经训练了相对较长的时间,因此相对于其大小来说是非常有能力的。


2023年3月3日-不可避免的事情发生

不到一周,LLaMA就泄露给了公众。对社区的影响怎么强调都不为过。现有的许可证使其无法用于商业目的,但突然间,任何人都可以进行实验。从这一点来看,创新来得又快又难。


2023年3月12日,Toaster上的语言模型

一个多星期后,Artem Andreenko让模型制作树莓派Raspberry Pi。在这一点上,模型运行得太慢,不实用,因为权重必须在内存中进行分页。尽管如此,这为小型化努力带来的冲击奠定了基础。


2023年3月13日-笔记本电脑上的微调

第二天,斯坦福大学发布了Alpaca,它为LLaMA添加了指令调优。然而,更重要的是 Eric Wang 的 alpaca-lora 储库,它使用低阶微调“在单个RTX 4090显卡上数小时内”完成了此训练。


突然之间,任何人都可以微调模型来做任何事情,从而在低预算的微调项目中拉开了一场逐底竞争的序幕。论文自豪地描述了他们总共花费了几百美元。更重要的是,低等级更新可以轻松地与原始权重分开分发,从而使它们独立于 Meta 的原始许可。任何人都可以分享和应用它们。


2023年3月18日-现在很快

无GPU运行Georgi Gerganov 使用 4位量化,在 MacBook CPU 上运行 LLaMA。它是第一个速度足够实用的“无 GPU”解决方案。


2023年3月19日,13B 模型与 谷歌Bard 实现“平替”

第二天,多所大学联合发布了 Vicuna ,并使用 GPT-4 驱动的 eval 来提供模型输出的定性比较。虽然评估方法值得怀疑,但该模型实际上比早期变体更好。训练费用:300 美元。值得注意的是,他们能够使用来自 ChatGPT 的数据,同时绕过对其 API 的限制——他们只是对发布在 ShareGPT 等网站上的“令人印象深刻的”ChatGPT 对话示例进行了采样。


2023年3月25日-选择自己的模型

Nomic创建了GPT4All,它既是一个模型,更重要的是,它是一个生态系统。我们第一次看到模型(包括 Vicuna)聚集在一起。培训费用:100美元。


2023年3月28日-开源GPT-3

Cerebras(不要与我们自己的Cerebra混淆)使用Chinchilla隐含的最佳计算时间表和μ参数化暗示的最佳缩放来训练GPT-3架构。这在很大程度上优于现有的GPT-3克隆,并代表着首次确认在自然环境中使用μ-参数化。这些模型是从头开始训练的,这意味着社区不再依赖LLaMA。



2023年3月28日-一小时内的多式联运培训

LLaMA Adapter使用一种新的参数有效微调(PEFT)技术,在一小时的训练中引入了指令调整和多模态。令人印象深刻的是,他们只使用了120万个可学习的参数。该模型在多模态ScienceQA上实现了新的SOTA。


2023年4月3日-真正的人类无法区分的13B开放模型和ChatGPT

伯克利推出了考拉Koala,这是一种完全使用免费数据训练的对话模型。


他们采取了关键步骤,来测试他们的模型和 ChatGPT 之间的真实人类偏好。尽管ChatGPT仍有一定优势,但超过50%的用户要么更喜欢考拉,要么没有偏好。培训费用:100美元。


2023年4月15日-ChatGPT级别的开源RLHF

Open Assistant 启动了一个模型,更重要的是,启动了一个通过RLHF对齐的数据集。他们的模型在人类偏好方面与 ChatGPT 接近(48.3% 对 51.7%)。除了 LLaMA,他们还展示了这个数据集可以应用于 Pythia-12B,让人们可以选择使用完全开放的堆栈来运行模型。此外,由于数据集是公开可用的,因此对于小型实验者而言,RLHF 从无法实现变为廉价且容易。


后记:

这篇文章在 Twitter 等社交平台上引起了广泛关注,来自德克萨斯大学的教授 Alex Dimakis 的观点得到了不少人的认可:


我同意开源 AI 正在取得胜利的观点,这对世界和竞争激烈的生态系统来说都是好事。虽然在 LLM 领域还没有做到,但我们用 Open Clip 战胜了 OpenAI Clip,Stable Diffusion 确实比封闭模型更好;


你不需要庞大的模型,高质量的数据更加重要,API 背后的羊驼模型进一步削弱了护城河;


从一个拥有良好基础的模型和参数有效微调(PEFT)算法开始,比如 Lora 在一天内就能运行的很好,算法创新的大门终于打开了;


大学和开源社区应该组织更多的精选数据集,用来培训基础模型、并像 Stable Diffusion 那样建立社区。





相关阅读

突破!人工智能AI和分子机器联手,实现自动定制化学反应

再次打压!美国限制人工智能AI芯片出口中国

乘联会预计4月新能源乘用车销量同比暴增114%




分享