知的探求の世界 2025 最終発表

cleanupゲームにおけるippo, mappo, svoそれぞれの学習結果について

MAPPO(Multi-Agent PPO)

IPPOよりは報酬が発生する(0.01 ~ 0.5)

uv run scripts/train.py env=clean_up algorithm=mappo
2026-02-08 01:52:56 | INFO | update=22 | env_step=90112 | reward_mean=0.0000
2026-02-08 01:52:57 | INFO | update=23 | env_step=94208 | reward_mean=0.0000
2026-02-08 01:52:57 | INFO | update=24 | env_step=98304 | reward_mean=0.0002

2026-02-08 02:58:28 | INFO | update=6613 | env_step=27086848 | reward_mean=0.2192
2026-02-08 02:58:29 | INFO | update=6614 | env_step=27090944 | reward_mean=0.3245
2026-02-08 02:58:29 | INFO | update=6615 | env_step=27095040 | reward_mean=0.1199

川を掃除する個体とリンゴ畑で収穫を待つ個体、中間エリアで呆然とする個体、全てに同じ報酬が与えられる
→ フリーライダー問題(Free-rider)/怠慢なエージェント問題(Lazy Agent Problem)/負の影響回避(Negative Impact Avoidance)
社会ジレンマを扱っていると言えるのだろうか？

知的探求の世界 2025 最終発表

内容

1. MeltingPot → SocialJax

MeltingPot_(paper)

2. cleanupゲームにおけるippo, mappo, svoそれぞれの学習結果について

cleanup

cleanupゲームに焦点を当てた理由

検証動機

IPPO(Independent PPO)

MAPPO(Multi-Agent PPO)

SVO(Social Value Orientation)

3. cleanupゲームの難易度緩和について

検証動機

dirtSpawnProbability(汚れの発生確率)

thresholdDepletion(リンゴが育たなくなる川の汚染度の閾値)

map_ASCII(マップ形状の変更)

難易度緩和による効果

4. 今後の展望・課題

5. 知的探求の世界まとめ & 反省

知的探求の世界 2025 最終発表

内容

1. MeltingPot → SocialJax

MeltingPot (paper)

2. cleanupゲームにおけるippo, mappo, svoそれぞれの学習結果について

cleanup

cleanupゲームに焦点を当てた理由

検証動機

IPPO(Independent PPO)

MAPPO(Multi-Agent PPO)

SVO(Social Value Orientation)

3. cleanupゲームの難易度緩和について

検証動機

dirtSpawnProbability(汚れの発生確率)

thresholdDepletion(リンゴが育たなくなる川の汚染度の閾値)

map_ASCII(マップ形状の変更)

難易度緩和による効果

4. 今後の展望・課題

5. 知的探求の世界まとめ & 反省

MeltingPot_(paper)