首頁猿問 Agent不斷重復(fù)同一個(gè)動(dòng)作圈，Q學(xué)習(xí)

Agent不斷重復(fù)同一個(gè)動(dòng)作圈，Q學(xué)習(xí)

Python

湖上湖 2022-10-18 17:02:31

如何防止代理不停重復(fù)同一個(gè)動(dòng)作圈？當(dāng)然，不知何故隨著獎(jiǎng)勵(lì)系統(tǒng)的變化。但是，您是否可以遵循或嘗試在代碼中包含一般規(guī)則來防止此類問題？更準(zhǔn)確地說，我的實(shí)際問題是這個(gè)：我正在嘗試教 ANN 使用 Q-Learning 學(xué)習(xí) Doodle Jump。僅僅幾代之后，代理不斷地在同一個(gè)平臺(tái)/石頭上一遍又一遍地跳躍，不停地。增加隨機(jī)探索時(shí)間的長(zhǎng)度沒有幫助。我的獎(jiǎng)勵(lì)系統(tǒng)如下：代理人活著時(shí)+1+2 當(dāng)特工在平臺(tái)上跳躍時(shí)-1000 死亡時(shí)一個(gè)想法是當(dāng)智能體與以前一樣到達(dá)相同的平臺(tái)時(shí)，給予它負(fù)數(shù)或至少 0 的獎(jiǎng)勵(lì)。但要這樣做，我必須向 ANN 傳遞許多新的輸入?yún)?shù)：代理的 x,y 坐標(biāo)和上次訪問平臺(tái)的 x,y 坐標(biāo)。此外，ANN 還必須知道一個(gè)平臺(tái)有 4 個(gè)塊厚，依此類推。因此，我確信我剛才提到的這個(gè)想法并不能解決問題，相反，我相信 ANN 通常根本學(xué)不好，因?yàn)橛刑酂o用且難以理解的輸入。

查看完整描述