klis3年 鈴木史麿
Zhenggang Tang, Chao Yu, Boyuan Chen, Huazhe Xu, Xiaolong Wang, Fei Fang, Simon Du, Yu Wang, Yi Wu
分散型マルチエージェント強化学習 → エージェント同士が相互に競争しながら、それぞれの報酬を最適化することで徐々に戦略を向上させていく
この学習における到達点の指標として1つ挙げられるのが「ナッシュ均衡(NE:Nash equilibrium)」である
一般にそれは探索強化によって緩和が図られる
例 : RND, DIAYN, PBT
しかし、それらでは報酬地形(収束先)が固定されているため、所謂「戦略」の多様性は増えない
PGは広いbasinによって低報酬均衡に収束しがち
→ 問題提起「どうすれば多エージェント環境で意味のある多様な均衡戦略を発見できるのか?」
固定された報酬関数のもとで最適化するのではなく,報酬関数そのものをランダムに変形する
直感的には……
各エージェント の目的:
報酬関数をランダムパラメータ によって変形:
RRとPolicy Gradientを組み合わせたアルゴリズム
政策勾配:
ここで
最良の戦略を選択:
通常PG:
RPG:
→ 狭い高報酬均衡に到達する確率を増やせる
が共存するゲームで RPGが多様な戦略を発見できるか検証
最適解:同時に正確に協調して捕獲
しかし
協調を続けるほどリスク増大 NEは複数存在: Lステップ協調して離脱
戦略のジレンマ
→ 高報酬協調は極めて不安定
特徴:
より難しい環境:
読んでみた所感としては