論文紹介

提案手法 : Homophily-based Incentive Learning

各エージェントは次の2つの方策を学習する

① 環境行動policy
(環境内でどの行動をとるか)

② インセンティブpolicy
(他エージェントに reward / punish / none を与えるか)

この2つを同時に学習することで協力関係の形成を目指す

論文紹介

紹介する論文

Birds of a Feather Flock Together: A Close Look at Cooperation Emergence via Multi-Agent RL

Introduction①

Introduction②

既存研究の問題

観察された現象

Second-order Free Rider

結果

論文のアイデア

Homophily

提案手法 : Homophily-based Incentive Learning

学習構造

Homophily Loss

直感

Homophilyあり

実験環境

Cleanup

Harvest

結果

まとめ

所感

論文紹介

紹介する論文

Birds of a Feather Flock Together: A Close Look at Cooperation Emergence via Multi-Agent RL

Introduction①

Introduction②

既存研究の問題

観察された現象

原因：Second-order Social Dilemma

Second-order Free Rider

結果

論文のアイデア

Homophily

提案手法 : Homophily-based Incentive Learning

学習構造

Homophily Loss

直感

Homophilyあり

実験環境

Cleanup

Harvest

結果

まとめ

所感