ChatGPT背后算法—RLHF都有哪些必读论文

2023-08-14 大全 22 作者：考证青年

AI TIME欢迎每一位AI爱好者的加入！

有多火？

用一个通俗易懂的话来表达，就是爱豆中的鹿晗、蔡徐坤、杨超越；脱口秀界的李诞、徐志胜；足球界的梅西、C罗、姆巴佩...

前段时间，发表了一篇博客，详细讲解了背后的技术原理—RLHF。

RLHF，全称： from Human ，即从人类反馈中学习强化学习。

RLHF是一个具有挑战性的概念，因为它涉及多模型训练过程和不同的部署阶段。在语言模型流行之前， RLHF 就已经有相关的研究出现。

首先，我们来看看4篇早于语言模型的关于 RLHF 的论文：

1. TAMER： an Agent via 论文详情页

提出了一个学习的代理，其中人类提供迭代采取的行动的分数以学习奖励模型。

2. from - Human 论文详情页

本文研究了使用积极和消极回归的互动学习行为的问题，并就此提出了实验结果：证明了这种假设是否是真的,即人类教练对于做出一个决定不受教练目前政策的影响。

作者认为,除了普遍的现象外,政策依赖的回归还使得应该从中获益的训练策略可供借鉴。基于这个洞察,本文介绍了由人类主导的主动角色批评算法(COACH)学习的算法。最后,本文表明,即使在没有嘈杂的照片特征的情况下,COACH也能成功地学习多个行为,即使是有噪音的图像特征。

3. Deep from Human 论文详情页

本文展示了如何成功训练复杂的创新行为，这些行为和环境比以前从人类反馈中学习到的任何事情都要复杂得多，这大大降低了人类监督成本,使其能够应用于最先进的RL系统。

论文表明,我们可以成功地训练复杂的新行为。这些行为和环境比以前从人类反馈中学习到的任何事情都更复杂。

_算法毕业论文_算法论文怎么写

此外，还提出了一种新的基于经验的方法来解决复杂的机器翻译任务。该方法不需要获得奖励函数,但可以有效地解决复杂的机器翻译。这种方法将人类监督成本大幅削减,从而可用于实际应用。

4. Deep TAMER: Agent in High- State 论文详情页

论文扩展了TAMER框架，其中使用深度神经网络对奖励预测进行建模。

具体来说，论文提出一种新的深度激励学习算法,它利用大脑神经网络的表示能力来学习复杂任务。证明了这种方法在仅15分钟内训练一个比人类好得多的agent的能力,并使用这项技术培训了一个比人类好得多的agent。

随着语言模型的流行，更是掀起了刷屏网络的热潮，RLHF对语言模型的性能影响得到更加充分的展现。

1. Fine- from Human 论文详情页

这是一篇研究奖励学习对四项特定任务影响的早期论文。

本文将奖励学习应用于四个自然语言任务:①继续文本,②情感③描述的语言④摘要任务。本文提出了一种新的生成训练方法,该方法利用了人类对标记器的启发式训练，并展示了如何将自然语言的训练应用于句法和句子摘要。

2. to with human 论文详情页

本文提到：机器学习研究人员越来越依赖于训练和评估数据与指标。所以这篇文章展示了如何训练一个模型来预测人类的参考摘要,并通过优化总结策略来提高这些摘要的质量。本文收集了一个大型、高质量的摘要数据集,训练了一个模型来人类偏好的摘要，以及使用激励学习来调整总结政策,并发现我们的模型明显优于仅依赖监督学习。

3. : - - with human 论文详情页

本文将GPT-3改进为回答长形式问题时使用环境的任务。通过设置任务,这样人类就可以执行任务,并使用学习来训练模型。为了使事实的事实精确性更容易,模型必须在搜索时收集参考。本文的模型应用于雷丁问答的eli5数据集。

4. : to with 论文详情页

本文使用RLHF训练 LM 以返回带有特定引用的答案。本篇文章从人类偏好中归纳出的再现学习来训练开放书QA模型。模块能够生成高质量的回答,并且在不确定的情况下拒绝回答所有问题。然而,在反对派真证QA数据集上的分析表明,引用只是总体安全和信誉战略的一小部分。

5. : , low 论文详情页

_算法论文怎么写_算法毕业论文

大规模数据分析框架正在转向为短任务时间和更大的并行性。为了在合适的机器上安排数百万个任务,需要在适当的机器上部署数百万个任务。本文证明了一种分散式、随机抽样方法可以提供接近最优性能,而避免中央化的设计带来的延迟性和可扩展性限制。

6. Laws for Model ：研究学习偏好模型在 RLHF 中的缩放特性。论文详情页

本文研究了黄金奖励模型的评分变化,在预测人类偏好时,使用一种固定的"黄金标准"奖励模型扮演人类角色。本文发现,这种关系依赖于不同方法的不同函数形式,并且在每个情况下其权重呈不同的顺序。本文还探讨了对这些实证结果对理论考虑的影响。

7. a and with from Human 论文详情页

本文将人类反馈的偏好建模和强化学习应用于NLP评估，发现这种对齐训练在几乎所有NLP评估中提高了性能,并且与特殊技能培训的相关课程完全兼容。

本文还探讨了一个迭代在线的学习模式,其中偏好模型和RL策略以每周轮班顺序更新,有效改善了数据集和模型。最后,本文还研究了LRHF的鲁棒性和可扩展性,并确定LRHF培训的平均线性关系与政策和其初始化之间的约束相关联。

8. in Open-Ended using ：使用 RL 来增强开放式对话代理的会话技能。论文详情页

本文开发了一个开放式、可持续的对话系统,该系统使用增强学习(RL)技术来赋予人类bot的说话技能。本文将该系统与SOTA(监督)语言模型相结合,该模型特别适用于变化的动态行动空间。

9. Is (Not)for ?: , , and for 论文详情页

本文讨论 RLHF 中开源工具的设计空间并提出新算法NLPO（自然语言策略优化）作为 PPO 的替代方案。

文章解决了将大型语言模型(LMs)与人类偏好的对齐问题。如果学术界认为文本生成作为顺序决策问题的自然概念框架,强化学习(RL)似乎是一种自然的概念框架。然而,对于基于LM的生成器来说,这项任务面临的实证挑战,包括训练不稳定性以及缺乏开放资源和改进度量。因此,研究社区提出了一个问题:是否是RL实践性的？

——结束———

以上这些论文展示了RLHF的前途和影响力，但仍然存在明显的局限性。这些模型虽然好，但仍然可以在没有任何不确定性的情况下输出有害或事实上不准确的文本。

这种不完美代表了RLHF的长期挑战和动力——在一个固有的人类问题领域中运行意味着永远不会有一条明确的最终线可以让模型被标记为完整。

扫描下方二维码还可获取RLHF相关必读论文！

tags: 模型论文详情偏好人类

ChatGPT背后算法—RLHF都有哪些必读论文

中国模式识别与计算机视觉大会｜多模态模型及图像安全的探索及成果

李飞飞两位高徒联合指导：能看懂「多模态提示」的机器人，zero

论文笔记——Deep Residual Learning for Image R

On the Opportunities and Risks of Founda

科技云报道：数智化这道升维题，云计算能答好吗？

机器学习-sklearn第二天——笔记

利用区块链等技术，加强对交通运输信用信息的归集共享和分析应用

印尼西爪哇梳邦县发生山体滑坡已经导致2人死亡

【SpringBoot笔记10】Spring中Bean的6种作用域

ARS548 ARS549RDI 80GHZ毫米波雷达达学习笔记（一)

叠氮PEG修饰二硒化钨 (N3-WSe2；azide

ATFX：黑海运粮遭俄暂停，小麦期货开盘跳涨

关于我们

最火推荐

小编推荐

联系我们

复制成功

ChatGPT背后算法—RLHF都有哪些必读论文

中国模式识别与计算机视觉大会｜多模态模型及图像安全的探索及成果

李飞飞两位高徒联合指导：能看懂「多模态提示」的机器人，zero

论文笔记——Deep Residual Learning for Image R

On the Opportunities and Risks of Founda

科技云报道：数智化这道升维题，云计算能答好吗？

机器学习-sklearn第二天——笔记

利用区块链等技术，加强对交通运输信用信息的归集共享和分析应用

印尼西爪哇梳邦县发生山体滑坡 已经导致2人死亡

【SpringBoot笔记10】Spring中Bean的6种作用域

ARS548 ARS549RDI 80GHZ毫米波雷达达学习笔记（一)

叠氮PEG修饰二硒化钨 (N3-WSe2；azide

ATFX：黑海运粮遭俄暂停，小麦期货开盘跳涨

关于我们

最火推荐

小编推荐

联系我们

复制成功

印尼西爪哇梳邦县发生山体滑坡已经导致2人死亡