klis3年 鈴木史麿
Shahil Shaik, Jonathon M. Smereka, Yue Wang
しかしCTDEには学習時にグローバル情報が必要であるために、実運用上では現実的な制約により学習を上手くできない可能性がある
→ 問題提起:「グローバル情報に依存しない学習枠組みが必要である」
GATv2(Brody et al., 2023) + D-SGD(Lian et al., 2017; Assran et al., 2019)
中央集権的な学習やグローバルな観測可能性を必要としない原理的な分散型MARLフレームワーク
(Decentralizedではない)
各エージェントiはD-GATsを通してを得る. が含意するのは以下の情報
→ グローバル情報から得られる情報を近似
局所観測 を取得
D-GAT通信により を推定
結合入力を作成
ローカル方策 により行動を選択
共有(平均)報酬 を受け取る
ローカル critic により価値関数および advantage を推定
PPO により各エージェントが独立に方策・価値関数を更新
これらの環境に対してMAPPOやHAPPOなどのCTDE手法と比較して実験を行い、同等もしくは上回る性能を示した.
読んでみた所感としては