如何防止代理不停重復(fù)同一個(gè)動(dòng)作圈?當(dāng)然,不知何故隨著獎(jiǎng)勵(lì)系統(tǒng)的變化。但是,您是否可以遵循或嘗試在代碼中包含一般規(guī)則來防止此類問題?更準(zhǔn)確地說,我的實(shí)際問題是這個(gè):我正在嘗試教 ANN 使用 Q-Learning 學(xué)習(xí) Doodle Jump。僅僅幾代之后,代理不斷地在同一個(gè)平臺(tái)/石頭上一遍又一遍地跳躍,不停地。增加隨機(jī)探索時(shí)間的長(zhǎng)度沒有幫助。我的獎(jiǎng)勵(lì)系統(tǒng)如下:代理人活著時(shí)+1+2 當(dāng)特工在平臺(tái)上跳躍時(shí)-1000 死亡時(shí)一個(gè)想法是當(dāng)智能體與以前一樣到達(dá)相同的平臺(tái)時(shí),給予它負(fù)數(shù)或至少 0 的獎(jiǎng)勵(lì)。但要這樣做,我必須向 ANN 傳遞許多新的輸入?yún)?shù):代理的 x,y 坐標(biāo)和上次訪問平臺(tái)的 x,y 坐標(biāo)。此外,ANN 還必須知道一個(gè)平臺(tái)有 4 個(gè)塊厚,依此類推。因此,我確信我剛才提到的這個(gè)想法并不能解決問題,相反,我相信 ANN 通常根本學(xué)不好,因?yàn)橛刑酂o用且難以理解的輸入。
1 回答

白板的微信
TA貢獻(xiàn)1883條經(jīng)驗(yàn) 獲得超3個(gè)贊
這不是對(duì)非常普遍提出的問題的直接答案。
我為我的特定 DoodleJump 示例找到了一種解決方法,可能有人做了類似的事情并需要幫助:
訓(xùn)練時(shí):讓代理跳上的每個(gè)平臺(tái)都消失,然后在其他地方生成一個(gè)新平臺(tái)。
測(cè)試/演示時(shí):您可以禁用新的“消失功能”(使其再次像以前一樣),播放器會(huì)玩得很好,并且不會(huì)一直跳到同一個(gè)平臺(tái)上。
添加回答
舉報(bào)
0/150
提交
取消