| 相手 C | 相手 D | |
|---|---|---|
| 自分 C | (R, R) = (3,3) | (S, T) = (0,4) |
| 自分 D | (T, S) = (4,0) | (P, P) = (1,1) |
What facilitates the transition to the next stage is the following: (1) agents who cooperate are
selected to play more frequently than defecting agents (and, therefore, are given the
opportunity to potentially receive rewards); and (2) with enough exploration, cooperation can be
sufficiently rewarded and agents can start to learn to punish agents who would try to exploit
them.
次の段階への移行を促進する要因は次の通りである:(1) 協力するエージェントは裏切るエージェントよりも頻繁に選択され(したがって報酬を得る機会が増える),(2)
十分な探索があれば協力は十分に報酬化され,エージェントは自分を搾取しようとするエージェントを罰することを学習し始める.
Chin-wing Leung, Paolo Turrini (Warwick)