方策を直接最適化する:
そしてパラメータ
TD 誤差による Advantage 近似:
→ 分散が小さく、安定した学習が可能
ActorとCriticの更新
→ 方策の更新量を制御したい
制約付き最適化問題:
subject to:
→ 直接解くことは難しい(非線形・非凸であるからなど)
→ そのため近似して解く
→ より簡単な trust region が必要
TRPO の「安全な更新」を
→ 変化量が大きいとclip()で制限する
→ それ以上の改善・悪化を 打ち切る
→ 方策を「近接(proximal)」に保つ
→ 極端な更新を防ぐ仕組み
実際に最適化する目的関数:
Rishabh Jain, Keisuke Okumura, Michael Amir, Amanda Prorok
MAPF問題
応用例
→ 最適性・計算時間・スケーラビリティのトレードオフ
→「学習で探索を導く」ハイブリッドが理想かもしれない
特徴
強み
MAGATとは
出力
課題
なぜ過去の「学習誘導探索」は失敗してきたのか?
→ 慎重に設計された統合が必要
探索アルゴリズムが「目的地まであとどれくらいで着けそうか」や「この状況ではどちらに向かえばいいのか」を予測するための「目安」や「ヒント」
LaGAT = LaCAM + GAT-based Heuristic
「探索の骨格は壊さず、賢く案内する」
ポイント
事前学習
ファインチューニング
→ 実環境・特定レイアウトへの適応が可能
問題
対策
完備性・堅牢性を維持
比較手法
結果
特に
→ ハイブリッド設計の教科書的成功例
AlphaZeroもハイブリッド