例 : clean_up
Harvesting agents prefer this to an outcome with no apples as long as the bonus from
picking apples offsets the cost. Non-harvesting agents prefer this contract as long as the
bonus is small enough to be offset by the benefits of having apples grow.
収穫エージェントは、リンゴのボーナスがコストを相殺する限り、リンゴが実らない結果よりもこの契約を好みます。一方、非収穫エージェントは、リンゴが育つことによる利益でボーナスの影響が十分に相殺できる場合に限り、この契約を選択します。
契約は環境の生の状態そのものではなく、契約が参照できる観測に基づいて報酬移転を決める
論文では契約観測を以下のように定義
通常のエージェント観測とは別に、契約側だけが参照する観測チャネルを導入するイメージ
例えば
などを契約観測に含めれば、それに応じた報酬移転を設計できる
基本設定では、各エピソードの開始前に契約フェーズが入る
MARLの学習では環境のリセットが入るたびに契約フェーズが差し込まれる
※ どうやらゲーム中にも契約提案をするバージョンもあるようだが、主にゲーム前提案の形を扱っていた
契約を受諾したあとも、エージェントは依然として好きな行動を選べる
→ 望ましい行動を強制するのではなく、インセンティブを組み替える(選択肢を与える)
論文の中心的な理論結果は次の通り
契約付きゲームの部分ゲーム完全均衡(SPE)では、環境全体の報酬(論文では社会厚生)を最大化する行動が実現される
※SPEとはゲームの途中のどの局面から見ても、どのプレイヤーも一人で行動を変える得をしない均衡
論文のもう一つの重要な結果は単調性(monotonicity)
ほど、達成可能な均衡厚生の上下限が改善する
直感的には
論文では、契約は状態そのものではなく特徴量に基づいてもよいと示す
たとえば Cleanup / Harvest なら以下のものを契約特徴にできる
→ 契約設計とは、ある意味で「何を観測可能・契約可能にするか」の設計問題
単調性の結果には、署名時点で任意の無条件移転ができることが本質的に効いている
これがあると提案者は
その結果、提案者自身が高 社会厚生 の契約を選ぶ誘因を持つ
評価は以下の環境で行われる
比較対象は
Phase 1
Phase 2
Prisoner’s Dilemma や Public Goods では
Harvest, Cleanup, Merge では差がより明確
一見不思議だが、著者の解釈は明快
つまり「中央集権的に全部まとめて最適化する難しさ」を回避できるケースがある
理論結果には単一の提案者という仮定が重要
複数の提案者がいると
が入り、社会的に最適でない SPE が出うると議論している
→ 社会厚生 は改善しても分配の公平性は別問題
fairness と 社会厚生 のトレードオフを将来課題として挙げている
本論文の契約空間や契約特徴はかなり手設計されている
そのためスケールさせるには
が必要だと議論されている