通识强化学习，初步了解强化学习的运行规则和估值方法

2023-10-31 大全 23 作者：考证青年

1.强化学习的发展及应用现状

1.1.强化学习的由来

1.2.强化学习的应用

2.强化学习的基本概念

2.1.概要介绍

2.2.强化学习的构成要素

2.3.工作过程

2.4.强化学习的主要特点

2.5.与其他机器学习方法的区别

3.估值方法

3.1.估值的方式

3.2.依据更新方式

1.强化学习的发展及应用现状

1.1.强化学习的由来

目前，大家认为强化学习（ , RL）的来源与两个领域密切相关：即心理学的动物试错学习和最优控制的优化理论。

这里都是有相应的共性的，在中，agent相应地做出自己的，会得到相应的，当然这样的情况是会有正向的反馈，也有负向的反馈。

强化学习的现代发展主要体现在以下几个方面：

深度强化学习。深度强化学习是强化学习与深度学习的结合，利用深度神经网络来近似状态空间和动作空间，解决传统强化学习中的状态和动作空间过大过稀疏的问题。

多智能体强化学习。多智能体强化学习研究如何在一个环境中同时优化多个智能体的策略，解决传统强化学习中多智能体协作和竞争的问题。

强化学习与先验知识。强化学习可以与先验知识结合，利用先验知识来指导学习过程，提高学习效率。

强化学习与迁移学习。强化学习可以与迁移学习结合，将在一个任务上学到的知识迁移到其他任务上，提高学习效率。

强化学习与可持续发展。强化学习可以与可持续发展结合，研究如何利用强化学习来实现可持续发展目标，如能源消耗、环境保护等。

1.2.强化学习的应用

强化学习的应用非常广泛，主要包括以下几个方面：

机器人控制。强化学习在机器人控制中有很多应用，例如让机器人从初始状态开始学习如何移动、避障、抓取物体等。

游戏。强化学习在游戏中有广泛应用，例如在围棋、象棋、扑克等游戏中使用强化学习算法来提高玩家的技能。

推荐系统。强化学习可以用于构建推荐系统，通过学习用户历史行为和反馈来预测用户的兴趣和偏好，从而为用户提供个性化的推荐。

自然语言处理。强化学习可以用于自然语言处理任务，例如文本分类、情感分析、机器翻译等。

金融贸易。强化学习可以用于金融贸易领域，例如预测股票价格、制定交易策略等。

_通识强化学习，初步了解强化学习的运行规则和估值方法_通识强化学习，初步了解强化学习的运行规则和估值方法

工业自动化。强化学习可以用于工业自动化领域，例如控制机器人手臂的运动、优化生产流程等。

医疗保健。强化学习可以用于医疗保健领域，例如辅助医生进行疾病诊断、制定治疗方案等。

自动驾驶。强化学习可以用于自动驾驶领域，例如控制车辆的转向、加速和刹车等。

2.强化学习的基本概念 2.1.概要介绍

强化学习的基本概念主要包括以下几个方面：

状态（State）：智能体在环境中的状态，是智能体所有属性的描述。

行动（）：智能体在环境中可以采取的行动，是智能体与环境交互的唯一途径。

奖励（）：智能体在环境中采取行动后所获得的反馈，表示智能体的行动是否正确或成功。

目标（Goal）：智能体的最终目标，是智能体在环境中的期望结果。

策略（）：智能体在环境中采取行动的方式和规则，是智能体的行为准则。

值函数（Value ）：用于评估智能体在某个状态下采取某个行动的价值，即期望的折扣奖赏和。

策略迭代（）：通过不断迭代更新策略来寻找最优策略的方法。

值函数迭代（Value ）：通过不断迭代更新值函数来寻找最优值函数的方法。

蒙特卡罗方法（Monte Carlo ）：通过模拟多条路径来估计最优策略的方法。

时序差分方法（）：通过利用未来奖励信息来估计最优策略的方法。

强化学习的核心思想是智能体（AI）将通过与环境交互（通过反复试验）并接受奖励（负面或者正面）作为执行动作的反馈从环境中获取。

强化学习是机器学习的范式和方法论之一，用于描述和解决智能体在与环境的交互过程中通过学习策略以达成累计回报最大化或实现特定目标的问题。

换句话来说，强化学习是一种学习如何从状态映射到行为，以使得获取的累积的奖励最大的学习机制。

2.2.强化学习的构成要素

强化学习系统一般包括的要素有：智能体、环境、状态、行为、奖励、策略、价值以及模型。

智能体：可以采取行动的智能个体，具有概率性。

环境：指智能体行走于其中的世界，输入是智能体当前的状态和行动，输出是智能体的奖励和智能体下一步的状态。

行动：智能体可以采取的行动，其构成的集合常用A来表示。

奖励：衡量某个智能体的行动成败的反馈，可能是即时的，也可能是迟滞的。

强化学习通过不断地与环境交互，不断优化智能体的策略，从而实现最大化预期奖励的目标。

状态是在一个时间点下的动作体的整体描述，模型是这个世界的固有规律。

智能体（agent）是作为智能决策的主体，也是RL的学习者。智能体的目标的是最大化其收到的总效益。

策略（）：智能体会用策略来选取下一步的动作

基于价值函数（value ）得到最优策略：我们用价值函数来对当前状态进行评估。价值函数用于评估智能体进入某个状态后，可以对后面的奖励带来的多大的影响，价值函数值越大，说明智能体进入这个状态越有利。

智能体交互的所有内容都成为环境。环境就是外部环境，它包括智能体之外的一切。

确定的环境与随机环境。

通识强化学习，初步了解强化学习的运行规则和估值方法_通识强化学习，初步了解强化学习的运行规则和估值方法_

离散环境和连续环境。

完全可观测环境与部分可观测的环境。

单智能体和多智能体环境。是否有多个用户来区分。

2.3.工作过程

强化学习过程：状态、动作、奖励和下一个状态的循环。

马尔科夫性

马尔可夫性（）是一个数学概念，它描述了一个随机过程的状态，在一段时间内，状态会随着时间的变化而变化，但是状态之间的转移概率是固定的。

它也是指系统的下一个状态St+1仅与当前状态St有关，而与之前的状态无关。

马尔科夫决策过程（，MDP）：MDP基于一组交互对象，即智能体和环境进行构建，所具有的要素包括状态、动作、策略和奖励。在MDP的模拟中，智能体会感知当前的系统状态，按策略对环境实施动作，从而改变环境的状态并得到奖励，奖励随时间的积累被称为回报。MDP的理论基础是马尔可夫链，因此也被视为考虑了动作的马尔可夫模型。

2.4.强化学习的主要特点

试错学习：强化学习需要训练对象不停地和环境进行交互，通过试错的方法去总结每一步的最佳行为决策。

强化学习中的智能体通过与环境的交互来学习，而不是从外部导师那里获得指导。

强化学习中的智能体能够延迟反馈，即智能体在即刻无法获得奖励的情况下，仍然可以通过选择合适的动作获得长期的收益。

强化学习中的智能体可以在未知环境下进行学习，即智能体在面对全新环境时，可以通过不断试错来积累经验和知识，从而逐步提高自己的表现。

强化学习中的智能体具有目标导向性，即智能体的所有行为都是为了实现某个特定的目标，例如最大化奖励信号。

强化学习中的智能体需要解决探索-利用的两难问题，即智能体需要在探索新动作和利用已知动作之间进行权衡，以实现最大化奖励信号的目的。

2.5.与其他机器学习方法的区别

监督学习：

它从一组带标签的训练数据集中推得函数，从而将输入映射到合适的输出，例如分类。

在监督学习中，每条样本包含一个输入对象（通常由向量表示）和一个输出值（也叫做标签），例如图像分类任务中，输入对象是图像，输出值是图像所属的类别。

监督学习在工程实践中的应用非常广泛，例如推荐系统、自然语言处理、机器人控制、医疗保健、金融贸易、游戏等领域。

3.估值方法 3.1.估值的方式

基于值函数（Value Based）：基于值函数的方法，输入是状态，输出是状态，输出是值函数的大小，然后选择值函数最大对应的动作为下一个动作，因此他直接学到的是值函数，间接学习策略。

基于策略（ Based）：基于策略的方法，输入的是状态，输出的是方法。

行动者-评论家方法（Actor-，AC）：Actor-方法是将Value based和 based两类方法各自优势结合在一起。通过构造一个全能型的agent。既能直接输出策略，又能通过value 来实时评价。

Actor-的架构包括两个部分，即两个神经网络：

策略网络：

策略网络是强化学习中直接预测在某个环境状态下应该采取的行动的一种网络模型1。

策略网络本质上也是神经网络，主要分为策略网络和估值网络。其中，策略网络根据当前状态选择采取的行动，而估值网络则预测在某个环境状态下所有行动的期望价值，然后通过选择Q值最高的行动执行策略。

在具体实现中，策略网络通常使用简单的带有一个隐藏层的MLP，网络的输入是当前状态，输出则是当前状态下各个动作的概率。

tags: 机器学习强化学习人工智能环境

通识强化学习，初步了解强化学习的运行规则和估值方法

欧洲核子研究组织如何预测新的流行数据集

Swift之父离开特斯拉，李飞飞高徒安德烈加入

启英泰伦推出基于AI语音芯片CI1102的茶吧机强降噪识别方案

突发！李飞飞高徒Karpathy离职，特斯拉自动驾驶要悬？

AI智能超越人类终破解！李飞飞高徒新作破圈，5万个合成数据碾压人类示例

累计装机破2000万台！终端AI语音芯片企业——启英泰伦发展迅猛

利用区块链等技术，加强对交通运输信用信息的归集共享和分析应用

印尼西爪哇梳邦县发生山体滑坡已经导致2人死亡

【SpringBoot笔记10】Spring中Bean的6种作用域

ARS548 ARS549RDI 80GHZ毫米波雷达达学习笔记（一)

叠氮PEG修饰二硒化钨 (N3-WSe2；azide

ATFX：黑海运粮遭俄暂停，小麦期货开盘跳涨

关于我们

最火推荐

小编推荐

联系我们

复制成功

通识强化学习，初步了解强化学习的运行规则和估值方法

欧洲核子研究组织如何预测新的流行数据集

Swift之父离开特斯拉，李飞飞高徒安德烈加入

启英泰伦推出基于AI语音芯片CI1102的茶吧机强降噪识别方案

突发！李飞飞高徒Karpathy离职，特斯拉自动驾驶要悬？

AI智能超越人类终破解！李飞飞高徒新作破圈，5万个合成数据碾压人类示例

累计装机破2000万台！终端AI语音芯片企业——启英泰伦发展迅猛

利用区块链等技术，加强对交通运输信用信息的归集共享和分析应用

印尼西爪哇梳邦县发生山体滑坡 已经导致2人死亡

【SpringBoot笔记10】Spring中Bean的6种作用域

ARS548 ARS549RDI 80GHZ毫米波雷达达学习笔记（一)

叠氮PEG修饰二硒化钨 (N3-WSe2；azide

ATFX：黑海运粮遭俄暂停，小麦期货开盘跳涨

关于我们

最火推荐

小编推荐

联系我们

复制成功

印尼西爪哇梳邦县发生山体滑坡已经导致2人死亡