RLHF 并没有那么重要!Meta 最新 650 亿参数模型 LIMA,仅用 1000 个样本,实现与 GPT-4 相匹敌的性能。
人人都知,让 ChatGPT 称霸天下的秘密武器,就是人类反馈强化学习。
而现在,Meta AI 等机构的爆火研究 LIMA 直接打破这一规则,直言 RLHF 并没有那么重要!
论文一出,直接在 AI 圈炸了锅!
就连 LeCun 忍不住发推炫一番:LIMA:LLaMa-65B+1000 监督样本 = GPT-4 / Bard 级别的性能。
正如标题所称,LIMA 是「Less is More for Alignment」,暗示着一个强大的预训练 AI 模型,通过几个样本就足以实现高质量的结果。
而 LIMA 仅在 1000 个精心挑选的样本上微调 LLaMa-65B,而且无需 RLHF,就实现了与 GPT-4 和 Bard 相媲美的性能。
论文中,研究人员将这一突破称为「表面对齐假设」。
实验证明了,大语言模型在预训练阶段就已习得大部分知识,仅用有限的指令微调数据,足以教会模型产生高质量的内容。
高质量的数据就可以克服小样本量?训练这样模型的成本是多少,这是否意味着小型 LLM 玩家可以与 OpenAI / 谷歌竞争?
还有网友质疑,GPT-4 在 57% 情况中击败 LIMA,还能说性能相当?
RLHF 并非王者?
大语言模型经过预训练,能在大规模上预测下一个 token,让其学习通用表征。这些表征可以转移到几乎任何语言理解或生成任务中。
为了实现这种转移,人们已经提出各种「对齐」语言模型的方法,主要侧重在百万级 token 上进行指令调优。
而最近采用较多的是,从人类反馈中进行强化学习。这些反馈便是在与人类标注者进行数百万次互动中收集的。
ChatGPT 令人深刻的表现,主要归功于 RLHF。根据 OpenAI 的思路,RLHF 分为三步。
然而,现有的对齐方法代价是高昂的,需要大量算力,以及专门的数据才能实现像 ChatGPT 一样的性能。
Meta AI 却要逆行其道,证明了,一个预训练语言模型可以通过简单地微调精心挑选的 1000 个样本,就能实现强大的性能。
在此,研究人员提出「表面对齐假设」,假设「对齐」可以是一个简单的过程,。
在这个过程中,模型的知识和能力几乎完全是在预训练期间学习的,而「对齐」只告诉模型学习与用户交互的风格或格式
为了验证这个假设,Meta 等研究者挑选了 1000 个近似于真实用户提示,以及高质量响应的样本。
此外,研究者手动编写了 250 个提示和响应的样本,同时对任务的多样性进行了优化。
最后,研究人员对预训练 LLaMa 65B 模型在 1000 个样本集上进行微调,并进行了人类评估。
评估结果
Meta 将 LIMA 与 5 个模型基准进行了比较:
Alpaca 65B—— 利用 52,000 个样本对 LLaMa 65B 微调后得到的大模型
DaVinci003—— 基于 RLHF 训练的大语言模型
Bard—— 基于谷歌的 PaLM 模型
Claude—— 通过强化学习 Constitutional AI 训练的 52B 参数模型
GPT-4—— 目前使用 RLHF 训练的最强的模型
为了比较 LIMA 和其他 SOTA 模型,Meta 为每个测试提示生成一个单一的响应。
然后,要求人类参与者将 LIMA 的输出与每个基准进行比较,并标记他们更喜欢哪一个。
在人类偏好研究中,尽管 Alpaca 65B 的训练数据量是 LIMA 的 52 倍,但它产生的输出往往比 LIMA 的不如人意。
让人大跌眼镜的是,DaVinci003 也是同样的情况,虽然程度较小。该模型使用了 RLHF 进行训练,这本应是一种更优越的对齐方法。
而 Bard 在 42% 的时间中,其产生的回答优于 LIMA。这也意味着,剩下的 58% 时间里,LIMA 的响应至少和 Bard 一样优秀。
最后,研究者发现,虽然 Claude 和 GPT-4 通常表现得比 LIMA 更好,但在一些情况下,LIMA 实际上能产生更好的回答。
另外,讽刺的是,在 GPT-4 的偏好研究中,有 19% 的时间,GPT-4 更喜欢 LIMA 的输出。
「表面对齐假设」
Meta 将这一发现定义为「表面对齐假设」。
它表明,所谓预训练后的对齐阶段,主要是让模型学会一种特定的风格或格式,这种风格或格式在与用户交互时可以被模型回忆起来。
因此,「微调」更多是关于风格,而不是实质。
LIMA 的结果表明,实际上,利用简单的方法就可以解决对齐和微调 AI 模型这类复杂问题。
这与诸如 OpenAI 的 RLHF 那些,特别繁琐和复杂的微调过程,形成了鲜明的对比。
不过,LIMA 也不是万能的。Meta 认为,该方法存在两个明显的局限:
第一,用高质量的示例构建数据集是一种非常具有挑战性的方法,很难扩展。
第二,LIMA 并不像已经有产品的模型那样强大,比如 GPT-4。
团队表示,虽然 LIMA 的生成结果,在大部分情况下质量都很高。但一个「对抗性的提示」或一个「不走运的样本」,依然会让模型产生不理想的答案。
Yann LeCun 对 GPT-4 和类似模型背后努力的相对贬值采取了务实的看法。
他将大型语言模型看作是近期的一个元素,至少在中期内不会「在没有重大变化」的情况下发挥作用。
以上,主要评估是根据最先进的模型对 LIMA 进行评估,但需要明确的是,其中一些模型实际上已经在训练期间使用了数百万真实用户的提示。
对此,研究人员通过手动分析 50 个随机示例来进行绝对的评估。
并将每个示例标记成 3 个类别:Fail,响应不符合提示符的要求;Pass,响应符合;Excellent,对提示提供了优秀的响应。
实验结果显示,50% 的 LIMA 回答被认为是优秀的,它能够遵循所有的 50 个分析提示中的 44 个。
如下,LIMA 针对育儿建议和生成食谱的示例进行的输出。
另外,一个仅在 1000 个样本上微调的模型在多轮对话中表现又如何?
在零样本上,LIMA 的响应出奇地连贯,并引用了前面对话的信息。在 10 次对话中,LIMA 有 3 次未能遵循提示。
为了提高对话能力,研究人员收集了 30 个多轮对话。其中 10 个是由作者手动编写,20 个来自 Stack Exchange,并根据助手风格进行编辑。
研究者使用组合的 1,030 个示例对预训练模型进行微调,得到一个新版本的 LIMA,并针对相同的提示进行了 10 次实时对话。
实验发现加入这 30 个示例后生成质量显著提升,优质响应比例从 45.2%提高到 76.1%!
LIMA 如何以「少」胜「多」
团队通过消融实验,研究了训练数据多样性、质量和数量的影响。
Meta 发现,为了对齐目的,提高输入多样性和输出质量有可测量的正面效应,而单独增加数量却没有。
实验设置
团队在各种数据集上微调了一个拥有 70 亿参数的 LLaMa 模型,并控制了相同的超参数。
团队对每个测试集提示抽取 5 个回应,并通过让 ChatGPT在 1-6 的 Likert 量表上评级回应的帮助性来评估回应质量。
多样性
为了测试提示多样性的影响,同时控制质量和数量,团队比较了在质量过滤后的 Stack Exchange 数据和 wikiHow 数据上的训练效果。
图 5 显示,更多样的 Stack Exchange 数据显著提升了模型的性能。
质量
为了测试响应质量的影响,团队从 Stack Exchange 抽取了 2000 个没有任何质量或风格过滤的示例,并比较了在这个数据集和过滤后的数据集上训练的模型。
图 5 显示,在过滤和未过滤的数据源上训练的模型之间存在着 0.5 点的差异。
数量
在众多机器学习设置中,都会采用增加示例数量的策略,来提升性能。
为了测试其影响,团队从 Stack Exchange 中抽取了呈指数增长的训练集。
但实际上,如图 6 所示,数据翻倍的训练集并未改善响应质量。
如此一来也暗示了,对齐的规模法则不必然只受数量影响,而更可能是在保持高质量响应的同时,提升提示的多样性。
作者介绍
Chunting Zhou 是 Meta AI 的一名研究科学家。
2022 年 5 月,她在卡内基梅隆大学语言技术研究所获得博士学位,在那里从事自然语言处理工作,导师是 Graham Neubig。Zhou 的主要研究兴趣在于自然语言处理和机器学习的交叉领域,并对开发对分布变化具有鲁棒性的方法感兴趣,目的是学习模型能够在各种群体中表现统一。
此外,Zhou 还研究生成模型,及其在自然语言处理任务中的应用。
参考资料:
郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。
,在戴尔科技集团全球大会上,戴尔科技集团发布新的DellAPEX产品,涵盖云平台、公有云存储软件、客户端设备和计算;并正式推出边缘运营软件平台DellNativeEdge,旨在帮助企业简化并优化边缘的...
,美东时间周二,埃隆·马斯克在采访中谈到了他如何管理自己的日程安排。 马斯克表示,他的一天通常是漫长和复杂的,涉及到许多角色的转换,这种转换让他感到十分痛苦。 马斯克解释,他通常会把自己的日程安排...
感谢IT之家网友软媒新友1933769、雨雪载途的线索投递! ,今天下午OPPO举行了OPPOReno10系列新品发布会,正式发布了OPPOReno10、OPPOReno10Pro和OPPOReno...
五月天演唱会在即,网上“求票”的人多了起来。 社交媒体上的留言从此前的“宁可鸟巢门口站,也不能让黄牛赚”“没有买卖就没有黄牛的存在”,渐渐变成“礼貌求855以内价位连座,黄牛别沾边,接受轻微溢价”。...
5月24日,博鳌亚洲论坛在广东珠海发布《博鳌亚洲论坛创新报告2022》,并宣布博鳌亚洲论坛国际科技与创新论坛第三届大会将于今年9月19日至20日在珠海举办。 博鳌亚洲论坛秘书长李保东介绍,2022年...
图集
PICTURES最新
NEWS热搜
SEARCHAurora是意大利首席笔类制造商,成立于1919年...
2017年10月24日,瑞士奢华腕表品牌雅克德罗(J...
TAGHEUER泰格豪雅Aquaracer竞潜系列越...
说到三次入华的捷尼赛思,相信依然有很多的消费者对它不...