登入
|
註冊
|
會員中心
|
結帳
|
培訓課程
魔法弟子
|
自資出版
|
電子書
|
客服中心
|
智慧型立体會員
書名
出版社
作者
isbn
編號
5050魔法眾籌
|
NG書城
|
國際級品牌課程
|
優惠通知
|
霹靂英雄音樂精選
|
App程式設計入門:iPhone、iPad(附光碟)
此作者無相關書籍
文學小說
文學
|
小說
商管創投
財經投資
|
行銷企管
人文藝坊
宗教、哲學
社會、人文、史地
藝術、美學
|
電影戲劇
勵志養生
醫療、保健
料理、生活百科
教育、心理、勵志
進修學習
電腦與網路
|
語言工具
雜誌、期刊
|
軍政、法律
參考、考試、教科用書
科學工程
科學、自然
|
工業、工程
家庭親子
家庭、親子、人際
青少年、童書
玩樂天地
旅遊、地圖
|
休閒娛樂
漫畫、插圖
|
限制級
動手做深度強化學習
Deep Reinforcement Learning HandsOn
作者:
Maxim Lapan
譯者:
劉立民
分類:
電腦與網路
/
程式語言
出版社:
博碩文化
出版日期:2019/11/1
ISBN:9789864344307
書籍編號:kk0499081
頁數:528
定價:
690
元
優惠價:
79
折
545
元
書價若有異動,以出版社實際定價為準
訂購後立即為您進貨
訂購後立即為您進貨:目前無庫存量,讀者下訂後,開始進入調書程序,一般天數約為2-10工作日(不含例假日)。
團購數最低為 20 本以上
評價數:
(請將滑鼠移至星星處進行評價)
目前平均評價:
文字連結
複製語法
動手做深度強化學習
圖片連結
複製語法
分
享
內容簡介
作者介紹
書籍目錄
同類推薦
動手做深度強化學習 內容簡介 實作現代強化學習方法:深度Q網路、值迭代、策略梯度、TRPO、AlphaGo Zero… 強化學習(RL)的最新發展,結合使用深度學習(DL),在訓練代理人「像人類一樣地」解決複雜問題這方面,取得了前所未有的進步。Google團隊利用演算法來玩知名的Atari街機遊戲,並擊敗了它們,這可以說是讓RL領域發光發熱的重要推手,而世界各地的研究人員正馬不停蹄地研發各種新的想法。 《動手做深度強化學習》綜合性地介紹了最新的DL工具與它們的限制。讀者將評估包括交叉熵和策略梯度等方法,再把它們應用於真實的環境之中。本書使用Atari虛擬遊戲和一般家庭常玩的Connect4遊戲作為範例。除了介紹RL的基礎知識之外,作者亦詳述如何製作智慧型學習代理人等專業知識,讓讀者在面對一系列艱鉅的真實世界挑戰時,能游刃有餘。 本書也會說明如何在網格世界(grid world)環境中實作Q學習、如何讓代理人學會買賣和交易股票,並學習聊天機器人是如何使用自然語言模型與人類對話的。 在這本書中,你將學到: ・了解結合了RL的DL內容,並實作複雜的DL模型 ・ 學習RL的基礎:馬可夫決策過程 ・ 評估RL方法,包括交叉熵、DQN、Actor-Critic、TRPO、PPO、DDPG、D4PG…等等 ・ 了解如何在各種環境中處理離散行動空間和連續行動空間 ・ 使用值迭代法來擊敗Atari街機遊戲 ・ 建立屬於自己的OpenAI Gym環境,來訓練股票交易代理人 ・ 使用AlphaGo Zero演算法,教你的代理人玩Connect4 ・ 探索最新的深度RL研究主題,包括AI驅動的聊天機器人等等 下載範例程式檔案: 本書的程式碼是由 GitHub 託管,可以在如下網址找到:https://github.com/PacktPublishing/Deep-Reinforcement-Learning-Hands-On。 下載本書的彩色圖片: 我們還提供您一個PDF檔案,其中包含本書使用的彩色螢幕截圖/彩色圖表,可以在此下載:https://static.packt-cdn.com/downloads/DeepReinforcementLearningHandsOn_ColorImages.pdf。
作者簡介 Maxim Lapan 是一位深度學習的愛好者,也是一位獨立研究人員。他有15 年的工作經驗,身分是「軟體開發人員」與「系統架構師」,參與的專案從低階的Linux 核心驅動程式開發,到在數千台伺服器上執行的「分散式應用程式」的「設計」與「性能優化」。 憑藉著在大數據、機器學習以及大型平行分散式HPC 和非HPC 系統方面的豐富工作經驗,他能用「簡單的句子」與「生動的範例」來解釋複雜事物的關鍵重點。目前他最感興趣的領域是深度學習的實務應用,例如:「深度自然語言處理」和「深度強化學習」。 Maxim 和他的家人住在莫斯科,俄羅斯聯邦,他在以色列新創公司擔任資深NLP 開發人員。
目錄 前言 第1章:什麼是強化學習? 第2章: OpenAI Gym 第3章:使用PyTorch來做深度學習 第4章:交叉熵法 第5章:表格學習與貝爾曼方程式 第6章:深度Q網路 第7章:DQN擴充 第8章:以強化學習法來做股票交易 第9章:策略梯度-另一個選項 第10章:行動-評論者方法 第11章:非同步優勢行動-評論者 第12章:以強化學習法訓練聊天機器人 第13章:Web導航 第14章:連續行動空間 第15章:信賴域策略-TRPO、PPO與ACKTR 第16章:強化學習中的黑箱優化 第17章:超越無模型方法-想像 第18章:AlphaGo Zero
敏捷成功之道:使用
Kotlin程式開發
生成式 AI 專案實
從零開始學Pytho
共生之道:人類逆襲A
一本書讀懂DeepS
快速精通iOS 18
一本搞定DeepSe
圖說演算法 : 使用
圖說運算思維與演算邏
為了保障您的權益,新絲路網路書店所購買的商品均享有到貨七天的鑑賞期(含例假日)。退回之商品必須於鑑賞期內寄回(以郵戳或收執聯為憑),且商品必須是全新狀態與完整包裝(商品、附件、內外包裝、隨貨文件、贈品等),否則恕不接受退貨。