第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

為了賬號安全,請及時綁定郵箱和手機立即綁定
已解決430363個問題,去搜搜看,總會有你想問的

Agent不斷重復同一個動作圈,Q學習

Agent不斷重復同一個動作圈,Q學習

湖上湖 2022-10-18 17:02:31
如何防止代理不停重復同一個動作圈?當然,不知何故隨著獎勵系統(tǒng)的變化。但是,您是否可以遵循或嘗試在代碼中包含一般規(guī)則來防止此類問題?更準確地說,我的實際問題是這個:我正在嘗試教 ANN 使用 Q-Learning 學習 Doodle Jump。僅僅幾代之后,代理不斷地在同一個平臺/石頭上一遍又一遍地跳躍,不停地。增加隨機探索時間的長度沒有幫助。我的獎勵系統(tǒng)如下:代理人活著時+1+2 當特工在平臺上跳躍時-1000 死亡時一個想法是當智能體與以前一樣到達相同的平臺時,給予它負數(shù)或至少 0 的獎勵。但要這樣做,我必須向 ANN 傳遞許多新的輸入?yún)?shù):代理的 x,y 坐標和上次訪問平臺的 x,y 坐標。此外,ANN 還必須知道一個平臺有 4 個塊厚,依此類推。因此,我確信我剛才提到的這個想法并不能解決問題,相反,我相信 ANN 通常根本學不好,因為有太多無用且難以理解的輸入。
查看完整描述

1 回答

?
白板的微信

TA貢獻1883條經(jīng)驗 獲得超3個贊

這不是對非常普遍提出的問題的直接答案。


我為我的特定 DoodleJump 示例找到了一種解決方法,可能有人做了類似的事情并需要幫助:

  • 訓練時:讓代理跳上的每個平臺都消失,然后在其他地方生成一個新平臺。

  • 測試/演示時:您可以禁用新的“消失功能”(使其再次像以前一樣),播放器會玩得很好,并且不會一直跳到同一個平臺上。


查看完整回答
反對 回復 2022-10-18
  • 1 回答
  • 0 關(guān)注
  • 86 瀏覽
慕課專欄
更多

添加回答

舉報

0/150
提交
取消
微信客服

購課補貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動學習伙伴

公眾號

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號