目錄
第 1 章吃角子老虎機問題
第 2 章馬可夫決策過程
第 3 章貝爾曼方程式
第 4 章動態規劃法
第 5 章蒙地卡羅法
第 6 章 TD 法
第 7 章類神經網路與 Q 學習
第 8 章 DQN
第 9 章策略梯度法
第 10 章進階內容
附錄 A 離線策略蒙地卡羅法