谷歌DeepMind科学家Kevin Murphy最新巨著《Reinforcement Learning: An Overview》,全面系统梳理强化学习理论与实践,覆盖:
• 序列决策基本框架,MDP、POMDP及其变种解析
• 价值函数与策略优化,涵盖SARSA、Q-learning、策略梯度及Actor-Critic方法
• 模型学习与规划,详解决策时规划与背景规划两大范式
• 多智能体强化学习,涉及博弈论基础、均衡解概念及先进算法
• LLM与强化学习融合,介绍RL微调、奖励模型学习及基于LLM的策略生成
• 探索-利用权衡、内在奖励与层次化强化学习等前沿话题
• 离线强化学习与通用智能理论,深挖算法稳定性与泛化能力
该文兼具理论深度与实践指导价值,是科研和工程不可多得的参考宝典。
🔗 详见 arxiv.org/abs/2412.05265
强化学习 深度学习 人工智能 大模型 多智能体 模型预测控制