論文紹介

klis3年 鈴木史麿

紹介する論文

  • DISCOVERING DIVERSE MULTI-AGENT STRATEGIC
    BEHAVIOR VIA REWARD RANDOMIZATION

DISCOVERING DIVERSE MULTI-AGENT STRATEGIC BEHAVIOR VIA REWARD RANDOMIZATION(2021)

Zhenggang Tang, Chao Yu, Boyuan Chen, Huazhe Xu, Xiaolong Wang, Fei Fang, Simon Du, Yu Wang, Yi Wu

Introduction①

分散型マルチエージェント強化学習
→ エージェント同士が相互に競争しながら、それぞれの報酬を最適化することで徐々に戦略を向上させていく

この学習における到達点の指標として1つ挙げられるのが「ナッシュ均衡(NE:Nash equilibrium)」である

  • いかなるプレイヤーも単独で戦略を変更することで利益を得られないという状態
  • 一般にあるゲームにおいて複数存在する
  • 異なるNEは異なる利得をもたらす可能性がある
    → しかし、様々なゲームで成功を収めている分散型ポリシー勾配アルゴリズム(PG)では複数NEが存在する場合でも、常に特定のNEに収束してしまうという問題がある

Introduction②

一般にそれは探索強化によって緩和が図られる

例 : RND, DIAYN, PBT

しかし、それらでは報酬地形(収束先)が固定されているため、所謂「戦略」の多様性は増えない

PGは広いbasinによって低報酬均衡に収束しがち

→ 問題提起「どうすれば多エージェント環境で意味のある多様な均衡戦略を発見できるのか?」

均衡探索の新しい方法が必要

提案① RR (Reward Randomization)

固定された報酬関数のもとで最適化するのではなく,報酬関数そのものをランダムに変形する

直感的には……

  • 報酬地形が変わる
  • 均衡の basin 構造が変わる
  • 異なる均衡に到達可能になる
通常の目的関数

各エージェント の目的:

RRの操作

報酬関数をランダムパラメータ によって変形:

RRの目的関数

提案② RPG (Reward-Randomized Policy Gradient)

RRとPolicy Gradientを組み合わせたアルゴリズム

Step1 : 報酬をサンプリング

Step2 : 各報酬でPolicy Gradient

政策勾配:

ここで

Step3 : 多様な戦略集合を得る

Step4 : 元の報酬で再評価

最良の戦略を選択:

通常のPGとの比較

通常PG:

RPG:

→ 狭い高報酬均衡に到達する確率を増やせる

実験設定:Temporal Trust Dilemmas

目的

  • 「リスクの高い協調均衡(高報酬)」と
  • 「安全だが低報酬な非協調均衡」

が共存するゲームで
RPGが多様な戦略を発見できるか検証

Gridworld①:Monster-Hunt

最適解:同時に正確に協調して捕獲

しかし

  • 単独リンゴ狩りは安全
  • 協調は高報酬だが難しい

Gridworld②:Escalation

協調を続けるほどリスク増大
NEは複数存在: Lステップ協調して離脱

Agar.io

戦略のジレンマ

  • 協調:囲んで効率よく狩る
  • 裏切り:相手を食べる(即時大報酬)

→ 高報酬協調は極めて不安定

結果

Monster-Hunt

  • 通常PG → 低報酬戦略に収束
  • RPG → 協調均衡を安定的に発見
  • fine-tuning後は常に最適戦略へ

特徴:

  • RR段階だけでは不安定
  • RPG(評価+微調整)で最適解に到達

Escalation

  • RRだけで複数の異なるNEを発見
  • 一部のwで既に最適均衡に到達
  • fine-tuning不要なケースもあり

Agar.io

通常PG:

  • 一時的協調 → 攻撃発生 → 最終的に非協調へ

RPG:

  • 協調均衡を安定的に発見
  • fine-tuningでさらに報酬向上

Agar.io(攻撃的設定)

より難しい環境:

  • 通常PG・PBT・RND → 協調失敗
  • RPG → 高報酬協調を安定発見

読んでみた所感としては

  • 利得行列が図として出ていたので気になった
  • 社会的ジレンマでの戦略を探索することに使えそう
    • ただし報酬構造の定義がネック

報酬系の論文①

報酬系の論文②