第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

為了賬號(hào)安全,請(qǐng)及時(shí)綁定郵箱和手機(jī)立即綁定

強(qiáng)化學(xué)習(xí)第5課:什么是馬爾科夫決策過程

標(biāo)簽:
人工智能

在强化学习中,有一个非常常见的决策过程叫马尔克夫决策过程。

它和我们前面讲的决策过程是有一样的结构,只不过它会有更多限制。这里同样也有 agent 和环境,只不过还就多了一个状态,用 s 来表示。状态 state 是 agent 可以在环境中所观察到的东西, 然后 agent 可以选择一个行为,并从环境中获得反馈。

所有的行为用 a 表示,所有的状态用 s 表示。r 代表 agent 可以获得的奖励,它的值越大,我们就越应该加强这个行为。

这个决策过程之所以叫马尔可夫决策过程是因为需要有一个马尔科夫假设。

意思是在这个环境里,没有其他因素来影响它的状态。也就意味着,当我们想要预测下一个状态的概率,或者想要预测 agent 能获得的奖励时,只需要知道环境的当前状态和行为。

听起来可能觉得有点不现实,因为这意味着,如果我们想要给用户展示一个横幅广告,需要的就是一个状态,这个状态要包含用户的所有信息,可是我们肯定无法知道用户的大脑的状态的。

所以这只是一个数学模型,我们需要把问题做简化,模型并不需要精准。在这个决策过程中只需要假装周围的其他任何事情都是噪音。

和通常一样,我们想要优化的是 reward。区别在于这一次环境可以在每个时间点给 agent 即时的奖励。

例如,我们想训练机器人向前走。可以在一个完整的过程后给他一个奖励。例如在它摔倒时只是衡量一下走了有多长多远,这个值就作为奖励。另一种是可以在任何时候都给 agent 一个小小的反馈。

那么这时我们想要优化的不仅仅是单个的奖励,而是想要优化奖励的总和。

这同样适用于棋牌游戏。例如在象棋中,我们可以尝试优化即时的奖励,但这可能会导致我们很快就失败,因为通常即时奖励高的那一步棋并不是最好的那一步,事实上它总是最坏的那一步。


学习资料:

Practical Reinforcement Learning

推荐阅读 历史技术博文链接汇总

也许可以找到你想要的:

[入门问题][TensorFlow][深度学习][强化学习][神经网络][机器学习][自然语言处理][聊天机器人]

Hello World !

This is 不会停的蜗牛 Alice !

🐌 要开始连载强化学习系列啦!

今天开始我们一起来每天 2 分钟,get 强化学习的一个小知识吧!

點(diǎn)擊查看更多內(nèi)容
TA 點(diǎn)贊

若覺得本文不錯(cuò),就分享一下吧!

評(píng)論

作者其他優(yōu)質(zhì)文章

正在加載中
  • 推薦
  • 1
  • 收藏
  • 共同學(xué)習(xí),寫下你的評(píng)論
感謝您的支持,我會(huì)繼續(xù)努力的~
掃碼打賞,你說多少就多少
贊賞金額會(huì)直接到老師賬戶
支付方式
打開微信掃一掃,即可進(jìn)行掃碼打賞哦
今天注冊(cè)有機(jī)會(huì)得

100積分直接送

付費(fèi)專欄免費(fèi)學(xué)

大額優(yōu)惠券免費(fèi)領(lǐng)

立即參與 放棄機(jī)會(huì)
微信客服

購(gòu)課補(bǔ)貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動(dòng)學(xué)習(xí)伙伴

公眾號(hào)

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號(hào)

舉報(bào)

0/150
提交
取消