人，才是强化学习在真实世界中面临的真正挑战

2023-11-29 大全 29 作者：考证青年

与之前的根据人类强化信号进行学习的工作（例如，Knox、Stone等人的论文[5]；等人于 2017 年发表的论文[6]；以及 Leike 于 2018 年发表的论文[7]）不同，我们面临的场景并不是使用人类知识来降低样本复杂度，从而加速系统的学习过程，而是一种只存在人类反馈的交互式学习场景。该场景适用于许多个性化的情况，在这些场景下，以有监督的方式预训练的系统会根据人类用户的反馈在交互式学习过程中被调整和改进。例如，在线广告、机器翻译（我们接下来将集中讨论）。

最近，Dulac- 等人在 2019 年发表的工作[8]已经认识到，现实世界中的系统定义不清的现实情况正在阻碍现实世界强化学习的发展。他们解决了诸如离线学习、样本有限情况下的探索、高维动作空间、或非确定性奖励函数等问题。这些挑战对于控制落地在物理世界中的系统或机器人的强化学习模型是非常重要的。然而，他们严重低估了交互式学习中的人类因素。我们将基于他们的论文，提出解决一些现实世界强化学习领域公认的挑战的方案。

确定性日志条件下的反事实学习

在「 of Real-World 」一文中，Dulac- 等人需要处理的问题之一是：需要在系统无法在线更新的应用程序中用到离线或策略无关强化学习。在商业环境中，由于对低延迟的需求，以及希望在部署之前对系统更新进行离线测试，采用在线学习是不现实的。一个自然的解决方案就是利用反事实学习，复用日志交互数据，其中预测结果是由一个与目标系统不同的历史系统得出的。

然而，在线学习和使用日志数据进行的离线学习都会受到一个问题的困扰：在商业系统中，「探索」行为是不可行的，因为这意味着向用户提供低质量的输出。这会导致我们得到的是缺乏显式探索的确定性日志记录策略，让使用标准的策略无关方法的应用程序变得不可靠。例如，逆倾向评分、双重鲁棒估计或加权重要性采样（详见等人于 2000 年发表的论文[9]；Jiang 和 Li 于 2016 年发表的论文[10]，以及和于 2016 年发表的[11]）等技术都依赖于日志系统对输出空间的充分探索，作为反事实学习的先决条件。

事实上，等人于 2008 年发表的「」[12]以及等人于 2010 年发表的「 from Data」[13]甚至给出了「与探索无关的反事实学习是不可能实现的」这样的结论。

显然，当我们可以与商业系统安全地进行交互（即商业系统确定性地与人类用户进行交互）时，标准的策略无关学习并不适用。

那么，我们应该怎么办呢？研究者们提出的一种解决方案是：寄希望于通过输入和上下文的变化，隐式地进行探索。和 Li 于 2012 年发表的关于在线广告的论文[14]已经观察到了这一点，等人于 2017 年发表的论文[15]从理论上进行了研究。然而，自然的探索是数据中固有的东西，而不是机器学习可以优化的。

另一种解决方案是，根据确定性的日志数据，考虑估计时的退化行为的具体情况，并找到可以消除「不可能性定理」的解决方案。其中，一种退化行为是：通过将所有日志数据的概率设置为 1，可以最大化数据日志的经验奖励。然而，提高低奖励示例的概率显然是不可取的（详见和于 2015 年发表的论文[16]；等人于 2017 年发表的论文[17]；等人 2017 年的工作[18]）。

针对该问题，有一种叫做确定性倾向匹配的解决方案，它由和于 2018 年在[19]和[20]这两篇论文中提出，并且在语义解析场景下用真实的人类反馈进行了测试。这种方法的核心思想如下：给定日志数据

，其中

面对世界挑战__世界面临的挑战和困难需要

是从日志系统

中抽样得来，同时奖励

是由人类用户给出的。在确定性日志场景下，离线学习的一种可能的目标函数是最大化日志数据的期望奖励：

该函数使用了一个乘法控制变量进行重新加权，根据一些之前的迭代数据在θ'处使用 OSL（one-step-ate）算法进行估计（为了高效的梯度计算），其中

这种自归一化操作的作用是，防止低奖励数据的概率在学习中由于去掉了较高奖励输出的概率质量而得以提高。这种操作向估计器引入了一个偏置（随着 B 的增大而减小），然而，这使得在确定性日志系统中进行学习成为了可能，从而使强化学习智能体具有了「在此前被认为，理论上不可能在环境中学习」的优势。对于语义解析场景的分析可参阅的博文[21]。

根据人类的「老虎机反馈」学习奖励估计器

Dulac- 等人在 2019 年发表的「 of Real-World 」重点解决的另一类问题是利用有限的样本、在高维动作空间中、使用非确定性的奖励函数进行学习。这篇论文简要描述了交互式机器翻译场景下的学习：首先，除了收到人类用户使用一个商用机器翻译系统的「老虎机反馈」（）之外，期望任何东西都是不现实的。也就是说，一个机器翻译系统的用户只会给一个确定产生的最佳系统输出提供一个奖励信号，而不能期望他们对同一个输入的多种翻译结果打分。商用机器翻译系统的提供者意识到了这一点，并且提供了非侵入式的用户反馈接口，允许对翻译结果进行后处理（负信号），或者在不作任何更改的情况下复制或共享翻译结果（正信号）。

此外，人们对完整翻译结果质量的判断需要涉及到一个指数级的输出空间，而翻译质量的概念并不是一个定义明确的函数：一般来说，每个输入的句子都有多种正确的译文，而人类可能根据不同的上下文和个人因素对这些译文做出不同的判断。

_世界面临的挑战和困难需要_面对世界挑战

令人惊讶的是，如何使强化学习智能体能够更好地根据现实世界的人类反馈进行学习，却很少被人研究。Dulac- 等人于 2019 年发表的「 of Real-World 」可能看起来很直截了当——他们使用了热启动智能体来降低样本复杂度，或者使用逆强化学习根据示范数据（）恢复出奖励函数，但是它们需要额外的奖励信号（这恰恰是强化学习应该缓解的问题）。此外，当涉及到哪种类型的人类反馈最有利于训练强化学习智能体时，人们发现很多笼统的描述都指出成对比较在生成量表方面是具有优势的（相关论文[22]），但是这些说法都缺乏实验证据。

等人于 2018 年发表的[23]是一个例外。他们首次研究了这种人类反馈（成对的判断或 5 分制反馈）机制，可以让人类「老师」给出最可靠的反馈结果。他们还研究了这种类型的反馈可以学习出最好地近似人类奖励、能被最好地融入端到端的强化学习任务中的奖励估计器。5 分制反馈和成对判断的示例界面如下所示：

不同于普遍接受的看法，在等人 2018 年的工作中，他们发现 5 分制评分的评分者信度（’s α=0.51）要高于成对判断（α=0.39）。他们通过对每个评分者的基本判断进行标准化，消除个人偏见的可能性，从而解释这一点，并且过滤掉了评分者信度较低的评分者。成对判断主要的问题是差不多好或者差不多差的翻译结果之间的区别（较小），我们可以将这样的翻译结果过滤掉，从而提高评分者信度，最终得到上文所述的评分者信度。

此外，当我们使用从 800 份译文中收集到的判断训练奖励估计器时，他们通过估计出的奖励和对翻译结果的后处理（相较于人类参考译文）率之间的相关性来衡量可学习性。他们发现，使用 5 分制反馈训练的回归模型的可学习性要优于使用成对排序反馈训练的「-Terry」模型（最近等人于 2017 年发表的 [24] 中使用了这种技术）。

最后，最重要的一点是，当他们将奖励估计器融合到一个端到端的强化学习任务中时，他们发现，我们可以通过使用 800 个主要用户判断训练的奖励估计器，将神经机器翻译系统的性能提升 1 个 BLEU 点以上。

这不仅仅是一个让人充满希望的实验结果，指明了未来的真实世界强化学习研究可能的发展方向，而且也在一种方法中同时解决了 Dulac- 等人于 2019 年提出的三个挑战（有限的样本，高维动作空间，非确定性奖励函数）：奖励估计器可以在非常小的数据集上进行训练，然后集成为高维动作空间上的奖励函数。这个思路是为了解决一个简单的问题：首先根据人类反馈学习到一个奖励估计器，然后提供无限的反馈，从而泛化到策略无关强化学习中之前未见过的输出上。

未来的研究方向：自我调节的互动式学习

如前文所述，人类学生必须能够在信息量最大的学习信号最稀疏的情况下进行学习。这是因为教师的反馈是有成本的，因此必须「较为节约」地请求罕见的以黄金标准输出的反馈。此外，学生必须学会如何自动调节他们的学习过程，学会在何时寻求帮助，以及寻求何种帮助。这虽然不同于经典的、反馈成本可以忽略不计的强化学习游戏（我们可以永远就模拟游戏），但在现实世界中也是行不通的，特别是在探索行为成本非常高（非常危险）的情况下。

让强化学习算法学会自我调节是一个新的研究方向，它试图赋予人工智能体一种传统上对于人类非常困难的决策能力——权衡使用不同类型的反馈进行学习的成本和效果。这些反馈包括教师演示或纠错提供的全面监督、对学生预测的正面或负面奖励形式的弱监督，或者学生产生的自监督信号。

和等人于 2019 年发表的「Self- -to- 」，展示了如何将一个自我调节（self-）的学习任务转化为一个学着去学习的问题，他们通过使智能体意识到「成本-奖励」的权衡问题并对其进行管理，从而解决上述问题。

在交互式神经机器翻译任务的仿真实验中，他们发现自我调节算法是基于不确定性的主动学习算法的一个强大的替代方案（详见和 Crave 等人于 2008 年发表的「An of for Tasks」[26]），并且发现了一种用于通过混合不同类型的反馈（包括教师纠错、错误标记和自监督）实现最优质效平衡的 ϵ-贪婪策略。当然，他们的仿真场景抽象出了在真实世界的交互式机器学习中所期望的某些混杂变量。然而，所有这些都是对带有人类教师的真实世界强化学习进行研究的有趣的方向。

tags: 机器学习强化学习系统学习

人，才是强化学习在真实世界中面临的真正挑战

欧洲核子研究组织如何预测新的流行数据集

时空图卷积网络STGCN用于交通预测的深度学习框架python程序源代码+设计文

程序员能熬过中年危机？我劝你尽早转行！

吴恩达-coursera-机器学习测试题第十五章-异常检测

机器学习:完全线性可分/近似线性可分/非线性可分的支持向量机

人工智能大作业

利用区块链等技术，加强对交通运输信用信息的归集共享和分析应用

印尼西爪哇梳邦县发生山体滑坡已经导致2人死亡

【SpringBoot笔记10】Spring中Bean的6种作用域

ARS548 ARS549RDI 80GHZ毫米波雷达达学习笔记（一)

叠氮PEG修饰二硒化钨 (N3-WSe2；azide

ATFX：黑海运粮遭俄暂停，小麦期货开盘跳涨

关于我们

最火推荐

小编推荐

联系我们

复制成功

人，才是强化学习在真实世界中面临的真正挑战

欧洲核子研究组织如何预测新的流行数据集

时空图卷积网络STGCN用于交通预测的深度学习框架python程序源代码+设计文

程序员能熬过中年危机？我劝你尽早转行！

吴恩达-coursera-机器学习测试题第十五章-异常检测

机器学习:完全线性可分/近似线性可分/非线性可分的支持向量机

人工智能大作业

利用区块链等技术，加强对交通运输信用信息的归集共享和分析应用

印尼西爪哇梳邦县发生山体滑坡 已经导致2人死亡

【SpringBoot笔记10】Spring中Bean的6种作用域

ARS548 ARS549RDI 80GHZ毫米波雷达达学习笔记（一)

叠氮PEG修饰二硒化钨 (N3-WSe2；azide

ATFX：黑海运粮遭俄暂停，小麦期货开盘跳涨

关于我们

最火推荐

小编推荐

联系我们

复制成功

印尼西爪哇梳邦县发生山体滑坡已经导致2人死亡