如何防止代理不停重復同一個動作圈?當然,不知何故隨著獎勵系統(tǒng)的變化。但是,您是否可以遵循或嘗試在代碼中包含一般規(guī)則來防止此類問題?更準確地說,我的實際問題是這個:我正在嘗試教 ANN 使用 Q-Learning 學習 Doodle Jump。僅僅幾代之后,代理不斷地在同一個平臺/石頭上一遍又一遍地跳躍,不停地。增加隨機探索時間的長度沒有幫助。我的獎勵系統(tǒng)如下:代理人活著時+1+2 當特工在平臺上跳躍時-1000 死亡時一個想法是當智能體與以前一樣到達相同的平臺時,給予它負數(shù)或至少 0 的獎勵。但要這樣做,我必須向 ANN 傳遞許多新的輸入?yún)?shù):代理的 x,y 坐標和上次訪問平臺的 x,y 坐標。此外,ANN 還必須知道一個平臺有 4 個塊厚,依此類推。因此,我確信我剛才提到的這個想法并不能解決問題,相反,我相信 ANN 通常根本學不好,因為有太多無用且難以理解的輸入。
1 回答

白板的微信
TA貢獻1883條經(jīng)驗 獲得超3個贊
這不是對非常普遍提出的問題的直接答案。
我為我的特定 DoodleJump 示例找到了一種解決方法,可能有人做了類似的事情并需要幫助:
訓練時:讓代理跳上的每個平臺都消失,然后在其他地方生成一個新平臺。
測試/演示時:您可以禁用新的“消失功能”(使其再次像以前一樣),播放器會玩得很好,并且不會一直跳到同一個平臺上。
添加回答
舉報
0/150
提交
取消