条件付き計算でモデル容量を1000倍規模に拡張しつつ計算コストをほぼ据え置くためのSparsely-Gated MoE層を提案．routerは入力に線形変換を施したロジットに可調整ガウスノイズを足し，Top-k（論文ではk=2）だけ残してSoftmaxするNoisy Top-K Gatingで各トークンを少数のexpertに送る．選ばれたexpertの出力のみ重み付き和を取るので，非活性expertの計算を省ける．routerが特定のexpertに偏らないよう，重要度分散と割り当て偏りを罰するauxiliary lossを導入して負荷を均衡化する．

2020

GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding

Dmitry Lepikhin HyoukJoong Lee Yuanzhong Xu Dehao Chen Orhan Firat Yanping Huang Maxim Krikun Noam Shazeer Zhifeng Chen

#Unread

XLA拡張と注釈APIで自動シャーディングを行うGShardを提案し，MoEを含む多言語Transformerを600B超にスケール．2048 TPU v3で4日学習し，100言語→英翻訳で従来を上回るBLEUを達成．条件付き計算とデータ／モデル並列を一貫した記述で両立させた．

2022

Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity

William Fedus Barret Zoph Noam Shazeer

#Unread

MoEのルータをTop-1に単純化したSwitch routingで通信と計算を削減し，安定化テクニックによりbfloat16でも学習可能に．T5系でFLOPs一定のまま専門家数を増やし，最大7倍の事前学習速度とトリリオン規模パラメータを実現．

ST-MoE: Designing Stable and Transferable Sparse Expert Models

Barret Zoph Irwan Bello Sameer Kumar Nan Du Yanping Huang Jeff Dean Noam Shazeer William Fedus

#Unread

Switch系で課題だった不安定さと転移性能を改善する設計指針を提示．正規化・初期化・負荷分散損失を調整し，269BパラメータのST-MoE-32Bが32B密モデルと同等の計算量で多様な下流タスク（SuperGLUE，XSum等）でSOTAを達成した．

2023

GraphCast:Learning skillful medium-range global weather forecasting

Remi Lam Alvaro Sanchez-Gonzalez Matthew Willson Peter Wirnsberger Meire Fortunato Ferran Alet Suman Ravuri Timo Ewalds Zach Eaton-Rosen Weihua Hu Alexander Merose Stephan Hoyer George Holland Oriol Vinyals Jacklynn Stott Alexander Pritzel Shakir Mohamed Peter Battaglia

#Unread

GNNで全球0.25度格子の大気状態を6時間刻みでオートレグレッシブ予測するGraphCastを提案．DeepMindの実装は10日先までの227変数を60秒未満で生成し，ECMWF HRESを約89％の指標で上回る精度を示した．