ML 学习站
跳到正文
课程目录强化学习入门
进阶强化学习Q-LearningDQNOpenAI Gym

强化学习入门

从零理解强化学习:智能体、环境、奖励。涵盖 Q-Learning、DQN,以及用 PyTorch 训 CartPole。

总时长 约 5 小时5 个章节ML 学习站

你将学到

  • 围绕「强化学习」主题展开的系统化训练
  • 围绕「Q-Learning」主题展开的系统化训练
  • 围绕「DQN」主题展开的系统化训练
  • 围绕「OpenAI Gym」主题展开的系统化训练

章节目录

5 章, 建议按顺序学习。

  1. 01

    强化学习是什么

    25 分钟

    智能体、环境、奖励、策略与价值。

  2. 02

    马尔可夫决策过程

    35 分钟

    MDP、状态、动作、转移概率、贝尔曼方程。

  3. 03

    Q-Learning 算法

    35 分钟

    表格型 Q-Learning 与 ε-贪心探索。

  4. 04

    深度 Q 网络 DQN

    40 分钟

    用神经网络逼近 Q 函数、经验回放、目标网络。

  5. 05

    实战:CartPole 训练

    45 分钟

    用 PyTorch + Gym 训一个 DQN agent。