分布强化学习

分布强化学习
分享
扫描下方二维码分享到微信
打开微信,点击右上角”+“,
使用”扫一扫“即可将网页分享到朋友圈。
2025-10
ISBN: 9787111789642
定价: 99.00
装帧: 其他
开本: 16开

  • MarcG.Bellemare,GoogleBrain高级研究科学家,致力于强化学习领域的研究。他是加拿大CIFARAIChair,并且是Mila的核心成员。此外,他还是麦吉尔大学兼职教授,蒙特利尔大学兼职教授。他于阿尔伯塔大学获得博士学位。


    译者序<br />前言<br />符号表<br />第1章?导论1<br />1.1?为什么是分布强化学习1<br />1.2?示例:Kuhn扑克2<br />1.3?分布强化学习有何不同3<br />1.4?本书的读者对象和结构5<br />1.5?参考文献备注6<br />第2章?回报的分布7<br />2.1?随机变量及其概率分布7<br />2.2?马尔可夫决策过程8<br />2.3?弹球模型10<br />2.4?回报12<br />2.5?贝尔曼方程16<br />2.6?随机轨迹的性质17<br />2.7?随机变量贝尔曼方程19<br />2.8?从随机变量到概率分布22<br />2.9?回报分布的替代概念*26<br />2.10?技术备注26<br />2.11?参考文献备注28<br />2.12?练习29<br />第3章?学习回报分布33<br />3.1?蒙特卡罗方法33<br />3.2?增量学习35<br />3.3?时序差分学习36<br />3.4?从值到概率38<br />3.5?投影过程39<br />3.6?分类时序差分学习42<br />3.7?学习控制46<br />3.8?进一步的考虑 47<br />3.9?技术备注47<br />3.10?参考文献备注48<br />3.11?练习49<br />第4章?算子和度量指标51<br />4.1?贝尔曼算子51<br />4.2?收缩映射52<br />4.3?分布贝尔曼算子54<br />4.4?回报函数的Wasserstein距离57<br />4.5?概率度量和Cramér距离60<br />4.6?收缩性的充分条件62<br />4.7?域问题65<br />4.8?回报函数的弱收敛性*67<br />4.9?随机变量贝尔曼算子*68<br />4.10?技术备注69<br />4.11?参考文献备注70<br />4.12?练习71<br />第5章?分布动态规划76<br />5.1?计算模型76<br />5.2?回报-分布函数的表示78<br />5.3?经验表示79<br />5.4?正态表示82<br />5.5?固定大小的经验表示84<br />5.6?投影步骤86<br />5.7?分布动态规划89<br />5.8?扩散引起的误差92<br />5.9?分布动态规划的收敛性93<br />5.10?分布近似的质量96<br />5.11?设计分布动态规划算法98<br />5.12?技术备注99<br />5.13?参考文献备注102<br />5.14?练习103<br />第6章?增量算法107<br />6.1?计算与统计估计107<br />6.2?从算子到增量算法108<br />6.3?分类时序差分学习109<br />6.4?分位数时序差分学习111<br />6.5?理论分析的算法模板114<br />6.6?合理的步长115<br />6.7?收敛性分析概述117<br />6.8?增量算法的收敛性*119<br />6.9?时序差分学习的收敛性*122<br />6.10?分类时序差分学习的收敛性*124<br />6.11?技术备注126<br />6.12?参考文献备注127<br />6.13?练习128<br />第7章?控制131<br />7.1?风险中性控制131<br />7.2?价值迭代和Q-学习132<br />7.3?分布值迭代134<br />7.4?分布最优算子的动力学135<br />7.5?存在多个最优策略时的动态<br />分析*139<br />7.6?风险和风险敏感控制141<br />7.7?风险敏感控制面临的挑战142<br />7.8?条件风险价值*144<br />7.9?技术备注147<br />7.10?参考文献备注151<br />7.11?练习152<br />第8章?统计泛函155<br />8.1?统计泛函概述155<br />8.2?矩156<br />8.3?贝尔曼封闭性159<br />8.4?统计泛函动态规划161<br />8.5?与分布动态规划的关系163<br />8.6?期望分位数动态规划164<br />8.7?统计泛函的无限集合165<br />8.8?矩时序差分学习*167<br />8.9?技术备注168<br />8.10?参考文献备注169<br />8.11?练习170<br />第9章?线性函数近似173<br />9.1?函数近似和混叠173<br />9.2?最优线性价值函数近似175<br />9.3?用于线性价值函数近似的投影<br />贝尔曼算子176<br />9.4?半梯度时序差分学习179<br />9.5?分布强化学习的半梯度算法181<br />9.6?基于带符号分布的算法*184<br />9.7?带符号算法的收敛性*187<br />9.8?技术备注189<br />9.9?参考文献备注191<br />9.10?练习192<br />第10章?深度强化学习195<br />10.1?深度神经网络学习195<br />10.2?基于深度神经网络的分布强化<br />学习198<br />10.3?隐式参数化200<br />10.4?深度强化学习智能体评估202<br />10.5?预测如何塑造状态表示206<br />10.6?技术备注207<br />10.7?参考文献备注207<br />10.8?练习209<br />第11章?两个应用和一个结论211<br />11.1?多智能体强化学习211<br />11.2?计算神经科学213<br />11.3?结论217<br />11.4?参考文献备注218<br />参考文献220

    内容摘要
    本书是关于分布式强化学习的全面指南,为从概率视角思考决策问题提供了新的数学框架。本书主要介绍分布式强化学习的关键概念及应用,对于重要的结果均给出了数学证明,从而说明分布式强化学习有能力解释在人机交互环境中产生的许多复杂且有趣的现象。读者将了解一系列算法和数学理论的发展过程,在这些过程中依次对随机回报进行特征描述、计算和估计,zui后基于此做出决策。本书就实际问题给出了有效的解决思路,适合机器人学、计算神经科学、心理学、金融(风险管理)等不同领域的技术人员参考,也适合高校计算机、人工智能等相关专业的学生阅读。

  • 作者简介:

    MarcG.Bellemare,GoogleBrain高级研究科学家,致力于强化学习领域的研究。他是加拿大CIFARAIChair,并且是Mila的核心成员。此外,他还是麦吉尔大学兼职教授,蒙特利尔大学兼职教授。他于阿尔伯塔大学获得博士学位。

  • 目录:

    译者序<br />前言<br />符号表<br />第1章?导论1<br />1.1?为什么是分布强化学习1<br />1.2?示例:Kuhn扑克2<br />1.3?分布强化学习有何不同3<br />1.4?本书的读者对象和结构5<br />1.5?参考文献备注6<br />第2章?回报的分布7<br />2.1?随机变量及其概率分布7<br />2.2?马尔可夫决策过程8<br />2.3?弹球模型10<br />2.4?回报12<br />2.5?贝尔曼方程16<br />2.6?随机轨迹的性质17<br />2.7?随机变量贝尔曼方程19<br />2.8?从随机变量到概率分布22<br />2.9?回报分布的替代概念*26<br />2.10?技术备注26<br />2.11?参考文献备注28<br />2.12?练习29<br />第3章?学习回报分布33<br />3.1?蒙特卡罗方法33<br />3.2?增量学习35<br />3.3?时序差分学习36<br />3.4?从值到概率38<br />3.5?投影过程39<br />3.6?分类时序差分学习42<br />3.7?学习控制46<br />3.8?进一步的考虑 47<br />3.9?技术备注47<br />3.10?参考文献备注48<br />3.11?练习49<br />第4章?算子和度量指标51<br />4.1?贝尔曼算子51<br />4.2?收缩映射52<br />4.3?分布贝尔曼算子54<br />4.4?回报函数的Wasserstein距离57<br />4.5?概率度量和Cramér距离60<br />4.6?收缩性的充分条件62<br />4.7?域问题65<br />4.8?回报函数的弱收敛性*67<br />4.9?随机变量贝尔曼算子*68<br />4.10?技术备注69<br />4.11?参考文献备注70<br />4.12?练习71<br />第5章?分布动态规划76<br />5.1?计算模型76<br />5.2?回报-分布函数的表示78<br />5.3?经验表示79<br />5.4?正态表示82<br />5.5?固定大小的经验表示84<br />5.6?投影步骤86<br />5.7?分布动态规划89<br />5.8?扩散引起的误差92<br />5.9?分布动态规划的收敛性93<br />5.10?分布近似的质量96<br />5.11?设计分布动态规划算法98<br />5.12?技术备注99<br />5.13?参考文献备注102<br />5.14?练习103<br />第6章?增量算法107<br />6.1?计算与统计估计107<br />6.2?从算子到增量算法108<br />6.3?分类时序差分学习109<br />6.4?分位数时序差分学习111<br />6.5?理论分析的算法模板114<br />6.6?合理的步长115<br />6.7?收敛性分析概述117<br />6.8?增量算法的收敛性*119<br />6.9?时序差分学习的收敛性*122<br />6.10?分类时序差分学习的收敛性*124<br />6.11?技术备注126<br />6.12?参考文献备注127<br />6.13?练习128<br />第7章?控制131<br />7.1?风险中性控制131<br />7.2?价值迭代和Q-学习132<br />7.3?分布值迭代134<br />7.4?分布最优算子的动力学135<br />7.5?存在多个最优策略时的动态<br />分析*139<br />7.6?风险和风险敏感控制141<br />7.7?风险敏感控制面临的挑战142<br />7.8?条件风险价值*144<br />7.9?技术备注147<br />7.10?参考文献备注151<br />7.11?练习152<br />第8章?统计泛函155<br />8.1?统计泛函概述155<br />8.2?矩156<br />8.3?贝尔曼封闭性159<br />8.4?统计泛函动态规划161<br />8.5?与分布动态规划的关系163<br />8.6?期望分位数动态规划164<br />8.7?统计泛函的无限集合165<br />8.8?矩时序差分学习*167<br />8.9?技术备注168<br />8.10?参考文献备注169<br />8.11?练习170<br />第9章?线性函数近似173<br />9.1?函数近似和混叠173<br />9.2?最优线性价值函数近似175<br />9.3?用于线性价值函数近似的投影<br />贝尔曼算子176<br />9.4?半梯度时序差分学习179<br />9.5?分布强化学习的半梯度算法181<br />9.6?基于带符号分布的算法*184<br />9.7?带符号算法的收敛性*187<br />9.8?技术备注189<br />9.9?参考文献备注191<br />9.10?练习192<br />第10章?深度强化学习195<br />10.1?深度神经网络学习195<br />10.2?基于深度神经网络的分布强化<br />学习198<br />10.3?隐式参数化200<br />10.4?深度强化学习智能体评估202<br />10.5?预测如何塑造状态表示206<br />10.6?技术备注207<br />10.7?参考文献备注207<br />10.8?练习209<br />第11章?两个应用和一个结论211<br />11.1?多智能体强化学习211<br />11.2?计算神经科学213<br />11.3?结论217<br />11.4?参考文献备注218<br />参考文献220

    内容摘要
    本书是关于分布式强化学习的全面指南,为从概率视角思考决策问题提供了新的数学框架。本书主要介绍分布式强化学习的关键概念及应用,对于重要的结果均给出了数学证明,从而说明分布式强化学习有能力解释在人机交互环境中产生的许多复杂且有趣的现象。读者将了解一系列算法和数学理论的发展过程,在这些过程中依次对随机回报进行特征描述、计算和估计,zui后基于此做出决策。本书就实际问题给出了有效的解决思路,适合机器人学、计算神经科学、心理学、金融(风险管理)等不同领域的技术人员参考,也适合高校计算机、人工智能等相关专业的学生阅读。

查看详情
相关图书 / 更多
分布强化学习
分布式光伏系统并网监测控制技术
《分布式光伏系统并网监测控制技术》编委会
分布强化学习
分布式光伏集群化网源协同控制关键技术研究及示范应用
刘柱 主编;周东国 副主编;汪进锋;义;郭国伟;杨嘉伟;唐爱红
分布强化学习
分布式光伏并网实操实训
国网陕西省电力有限公司 编
分布强化学习
分布式架构水循环模型与实践
陈钢;王船海;马腾飞;曾贤敏;金洁
分布强化学习
分布式数据库系统
吕俊亚
分布强化学习
分布式机器学习与优化
党亚峥薛中会顾长贵
分布强化学习
分布鲁棒优化调度理论方法及应用
宋士吉
分布强化学习
分布式流水车间调度与算法
李俊青
分布强化学习
分布式光伏创业实践教程
王玉龙 编;陈浩龙 主编;杨轶霞;马玉泉
分布强化学习
分布式电源接入电网继电保护技术
韩伟 编
分布强化学习
分布密度作用下球头铣刀介观几何特征参数优化研究
杨树财 著
分布强化学习
分布式异构星群架构设计与编队控制
曲耀斌 著;陈占胜;慕忠成
您可能感兴趣 / 更多
分布强化学习
第八个侦探 强烈推荐给喜爱阿加莎·克里斯蒂的读者们
[英]亚历克斯·帕维西 著
分布强化学习
删除咒骂
[英]安吉拉·卡特 著;晓风 译
分布强化学习
世界尽头最后的谋杀案
[英]斯图尔特·特顿著郑雁 译
分布强化学习
达洛维夫人
[英]弗吉尼亚·伍尔夫(VirginiaWoolf) 著
分布强化学习
兔子的拔河比赛
[英]约翰·伯宁罕
分布强化学习
敢想敢做的鸭子达克
[英]杰兹·阿波罗 著;傅大伟 译
分布强化学习
开放水域
[英]凯莱布·阿·纳尔逊
分布强化学习
我爷爷
[英]安东尼·布朗
分布强化学习
小学生分级整本书阅读 虫子快跑
[英]西蒙娜·莉娅
分布强化学习
奇先生妙小姐中英双语全新故事
[英]罗杰·哈格里维斯 著
分布强化学习
和朋友们一起想办法幼幼版
[英]加比·戈尔德萨克 著
分布强化学习
教育的目的
[英]艾尔弗雷德·诺思·怀特海