AntonAndreychuk
最適・準最適ソルバの解法データを学習データとし、トランスフォーマーベースのニューラルネットワークを活用した模倣学習によって構築される基盤モデル、MAPF-GPTを提案している.これは学習データセットに含まれていない新規のMAPF問題を開設する際にゼロショット学習能力を発揮する.
まず個々のエージェントが知覚し得るあらゆる観測結果と実行可能なあらゆる行動を表現した語彙体系(トークン)を構築する.次にソルバの解法データをトークンで符号化された観測-行動ペアの系列に変換する.それを用いてトランスフォーマーベースの非自己回帰型ニューラルネットワークを用いて与えられた観測結果に対して適切な行動を予測する学習を行う.