我正在使用 Ray/RLLib 的 APEX-DQN 代理(AsyncReplayOptimizer)。我想用一些小插曲數(shù)據(jù) info["episode"].user_data從回調(diào)on_episode_end(info)改變info["result"]的字典on_train_result(info)。有沒(méi)有辦法做到這一點(diǎn)?由于info兩個(gè)回調(diào)的對(duì)象輸出非常不同。on_episode_end(info):給出“env”和“episode”on_train_result(info):給出“agent”和“result”來(lái)自的“結(jié)果”on_train_result(info)并沒(méi)有提供關(guān)于所運(yùn)行劇集的太多信息。我覺(jué)得奇怪的是“結(jié)果”只提供了類似的信息'result':{ 'episode_reward_max':13010.0, 'episode_reward_min':12150.0, 'episode_reward_mean':12580.0, 'episode_len_mean':50.0, 'episodes_this_iter':2, 'episodes_total':2, ...}沒(méi)有任何關(guān)于劇集 ID 的信息。如果有劇集 ID,也許我可以嘗試將兩個(gè)回調(diào)鏈接在一起。
1 回答
九州編程
TA貢獻(xiàn)1785條經(jīng)驗(yàn) 獲得超4個(gè)贊
問(wèn)題是結(jié)果是不同機(jī)器上許多不同劇集的摘要,因此無(wú)法訪問(wèn)劇集信息。在 on_episode_end 回調(diào)中,您可以將指標(biāo)保存到 episode.custom_metrics 中,這些將顯示在結(jié)果對(duì)象中。
https://ray.readthedocs.io/en/latest/rllib-training.html#callbacks-and-custom-metrics
添加回答
舉報(bào)
0/150
提交
取消
