強化學(xué)習(xí) 8: approximate reinforcement learning

標(biāo)簽：

機器學(xué)習(xí) 人工智能

上次提到一个问题，就是如何有效的将交叉熵算法用于很大的数据量的问题上。

前面说过，对于骑自行车这种可能只有十个 state，四个 aciton 的小问题上面，交叉熵可以解决，但如果在自动驾驶，或者打游戏上面，它却不行，因为这时我们没有办法再存储一个表格来记录所有可能状态的所有可能行为的概率，因为这可能有几十亿的状态，或者是一个连续空间，是没有办法做记录的。
存储这样的表格不仅是不可能的，也是没有效率的。如果我们稍微改变了某个状态，agent 就要从头开始学习，因为这是一个不同的状态，从来没有见过。

人类肯定不是这样学习的，我们有概括能力，所以也想让强化学习算法具有这样的能力，这时就可以用approximate reinforcement learning

这时我们就不再不明确地存储所有的概率了，可以用机器学习算法去学习，例如用神经网络，也可以是回归，随机森林等任何算法都可能，让它们来模拟学习。

例如在某个游戏中，agent 玩了 N 次，从中选择 M 次成绩最好的，称之为 elite games。这时不再更新表格，只是通过若干次梯度下降的迭代来学习，通过训练神经网络，来增加在 elite 中的 action 的概率。

神经网络要做的是分类任务，
它的输入是 states，目标 y 就是对应的 action，
即网络的输入就是 elite states，elite actions 作为要预测的目标，
然后用随机梯度下降等算法，执行若干次迭代找到最优的策略，
当我们想要更新这个神经网络的 policy 时，只需要调用 fit 训练一下。

这个就是最简单的最基本的算法，而且很有效。

它的基本流程是没有变的，和交叉熵的差不多，也是玩几次游戏，选择最好的几次，作为训练集，训练神经网络模型。

学习资料：

Practical Reinforcement Learning

Hello World ！

This is 不会停的蜗牛 Alice ！

🐌 要开始连载强化学习系列啦！

今天开始我们一起来每天 2 分钟，get 强化学习的一个小知识吧！

點擊查看更多內(nèi)容

為 TA 點贊

若覺得本文不錯，就分享一下吧！

評論

評論

共同學(xué)習(xí)，寫下你的評論

評論加載中...

展開查看更多評論

作者其他優(yōu)質(zhì)文章

正在加載中

Alice嘟嘟

手記
篇

粉絲

75

獲贊與收藏

280

關(guān)注作者，訂閱最新文章

閱讀免費教程

后端通用面試教程

41個小節(jié) 32194 359

網(wǎng)絡(luò)編程入門教程

20個小節(jié) 13289 250

Pandas 入門教程

25個小節(jié) 19886 373

推薦

評論

收藏

共同學(xué)習(xí)，寫下你的評論



感謝您的支持，我會繼續(xù)努力的～

掃碼打賞，你說多少就多少

贊賞金額會直接到老師賬戶

支付方式

打開微信掃一掃，即可進(jìn)行掃碼打賞哦

今天注冊有機會得

100積分直接送

付費專欄免費學(xué)

大額優(yōu)惠券免費領(lǐng)

立即參與放棄機會

點擊
抽獎

慕課手記新用戶專享福利

恭喜你，你的運氣太好了，居然抽中了 100個積分！

恭喜你，抽中了價值元的專欄！

太棒了，直接落到你賬戶里！

積分商城里的羅技鼠標(biāo)、機械鍵盤、
Kindle 閱讀器、小米平衡車
Apple iPad （10.2英寸）、大額優(yōu)惠券
在等著你去兌換了噢

作者：

免費贈送

兌換碼：1111222211 復(fù)制

優(yōu)惠券可用于購買實戰(zhàn)課、體系課
無門檻使用

先去看看，有什么好東西馬上兌換我愛學(xué)習(xí)，選課去


第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

熱搜

最近搜索清空

強化學(xué)習(xí) 8: approximate reinforcement learning

閱讀免費教程