詳細參數(shù) | |||
---|---|---|---|
品牌 | AB(Allen-Bradley) | 型號 | 1756-OF8 |
結(jié)構(gòu)形式 | 模塊式 | 安裝方式 | 控制室安裝 |
LD指令處理器 | 軟PLC | 加工定制 | 否 |
數(shù)據(jù)陳舊性
由于AReaL-boba2的異步特性,每個訓練batch都包含來自多個先前策略版本的數(shù)據(jù)。數(shù)據(jù)陳舊性會導致訓練數(shù)據(jù)與最新模型的輸出之間出現(xiàn)分布差距。在針對LRM的異步RL訓練中,由于解碼時間延長,此問題對于長軌跡可能會更加嚴重。