論文紹介

背景と問い

マルチエージェント強化学習(MARL)では、各エージェントが自分の報酬を最大化しようとすると、個人の利益と全体の利益がずれて社会的ジレンマが起きやすい

人間にはこういった個人の利益と全体の利益の衝突を解決する能力があるが、MARLの独立したエージェントにこれを何の契機も無しに学習させることは難しい
→ 何かしらの工夫が必要

著者らは人間社会で使われる契約(formal contracts)の発想を取り入れ、エージェント同士が報酬移転を伴う拘束的な契約を自発的に結べれば、このジレンマを緩和できるのではないかと考えている

論文紹介

紹介する論文

背景と問い

自己利益で動くMARLエージェントに、契約による報酬移転の仕組みを与えると、社会的に望ましい協調行動を安定的に実現できるか

どのような契約か？①

どのような契約か？②

どのような契約か？③

契約観測とは？①

契約観測とは？②

契約のタイミング

この枠組みの重要な点

理論結果：十分に豊かな契約空間なら最適協調を実現

契約空間が豊かになるほど社会厚生は上がる

契約特徴(feature)の設計が重要

任意の報酬の無条件移転が重要

実験設定①

実験設定⓶

提案アルゴリズム：MOCA

実験結果①：単純な静的ゲーム

実験結果②：複雑な動的ゲーム

なぜ joint training を上回ることがあるのか

限界と注意点①：提案者が1人という仮定

限界と注意点②：公平性

限界と注意点③：契約設計の手作業性

まとめ

論文紹介

紹介する論文

Formal contracts mitigate social dilemmas in multi‑agent reinforcement learning

背景と問い

自己利益で動くMARLエージェントに、契約による報酬移転の仕組みを与えると、社会的に望ましい協調行動を安定的に実現できるか

どのような契約か？①

どのような契約か？②

どのような契約か？③

契約観測とは？①

契約観測とは？②

契約のタイミング

この枠組みの重要な点

理論結果：十分に豊かな契約空間なら最適協調を実現

契約空間が豊かになるほど 社会厚生 は上がる

契約特徴(feature)の設計が重要

任意の報酬の無条件移転が重要

実験設定①

実験設定⓶

提案アルゴリズム：MOCA

実験結果①：単純な静的ゲーム

実験結果②：複雑な動的ゲーム

なぜ joint training を上回ることがあるのか

限界と注意点①：提案者が1人という仮定

限界と注意点②：公平性

限界と注意点③：契約設計の手作業性

まとめ

契約空間が豊かになるほど社会厚生は上がる