論文紹介

項目	内容
タイトル	Sample Factory: Egocentric 3D Control from Pixels at 100000 FPS with Asynchronous Reinforcement Learning
著者	Aleksei Petrenko, Zhehui Huang, Tushar Kumar, Gaurav S. Sukhatme, Vladlen Koltun
発表	ICML 2020
主張	single machine でも FPS 級の RL 学習が可能
今回の焦点	論文の課題設定が現行実装でどう具体化されているか

問題	論文の方針
待ち時間	workload を rollout / policy / learner に分割
通信量	tensor は shared memory、queue は index だけ
policy lag	重み即時反映 + 古い軌跡の制御
off-policy 化	PPO clipping と V-trace で補正

要素	役割
async sampling	CPU の env 実行と learner 更新を止めない
PPO clipping	policy update を急に動かしすぎない
V-trace / lag control	古い policy 由来の sample のズレを抑える

論文の語	現行実装	役割
rollout worker	`algo/sampling/rollout_worker.py`	env を進める
policy worker	`algo/sampling/inference_worker.py`	GPU forward
learner	`algo/learning/learner.py`	SGD と重み更新
sampler / runner	`sampler.py`, `runner_parallel.py`	接続と起動管理

論文紹介 / Sample Factory: Egocentric 3D Control from Pixels at 100000 FPS with Asynchronous Reinforcement Learning

4. off-policy のズレは learner 側で吸収する

[{"id":1,"note":"target policy と behavior policy のズレを測る","noteHtml":"target policy と behavior policy のズレを測る","label":"ratio","color":"#1f77b4"},{"id":2,"note":"learner が今最適化している policy","noteHtml":"learner が今最適化している policy","label":"target","color":"#ff7f0e"},{"id":3,"note":"実際にサンプルを生成した古い側の policy","noteHtml":"実際にサンプルを生成した古い側の policy","label":"behavior","color":"#2ca02c"}]

policy loss は PPO の clipped surrogate を使う
value / advantage 側では with_vtrace=True で V-trace を有効化できる
つまり「高速化で生じるズレ」を learner 側で吸収する設計になっている

対応箇所:

learner.py
cfg.py::with_vtrace, vtrace_rho, vtrace_c

論文: p.5, Sec. 3.4 後半の V-trace / PPO clipping 段落

論文紹介

Sample Factory: Egocentric 3D Control from Pixels at 100000 FPS with Asynchronous Reinforcement Learning

鈴木史麿

wkblab

05-01

目次

背景

論文

強化学習では何を繰り返しているか

1 step の流れ

sample rollout batch の違い

sample

rollout

batch

同期 RL はどこで待つのか

非同期化すると速くなるが難しさも増える

うれしいこと

難しいこと

policy lag

直感

Sample Factory の核は実行系の分業にある

何をした論文か

既存法で何が詰まるか

同期 PPO / A2C

単純な async 化

この論文が解く 4 つの問題

設計

sample_factory/ は入口・学習本体・周辺機能に分かれる

algo/ に実行系の中核が集まっている

sampling/ は env 実行と推論を分業している

learning/ と algo/utils/ が更新処理を支える

学習開始から learner 更新までの本線

APPO - asynchronous PPO

定義

APPO を成立させる 3 つの要素

論文の部品と現行コード

実行時データフロー

問題と解決

1. 待ち時間: env と推論が交互に止まる

実装での double buffering

2. 通信量: actor と learner 間で巨大 tensor を送りたくない

3. policy lag: async 化すると古い policy の軌跡が混ざる

実装での policy lag 制御

4. off-policy のズレは learner 側で吸収する

まとめ

まとめ

References

`sample` `rollout` `batch` の違い

`policy lag`

`sample_factory/` は入口・学習本体・周辺機能に分かれる

`algo/` に実行系の中核が集まっている

`sampling/` は env 実行と推論を分業している

`learning/` と `algo/utils/` が更新処理を支える