ML論文
MoE
- Adaptive Mixtures of Local Experts(1991)
- Learning Factored Representations in a Deep Mixture of Experts(2013)
- Ensemble Learning for Multi-Source Neural Machine Translation(2016)
- Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer(2017)
- GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding(2020)
- Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity(2022)
- ST-MoE: Designing Stable and Transferable Sparse Expert Models(2022)
GNN
論文メモ
1991
Adaptive Mixtures of Local Experts
Robert A. Jacobs Michael I. Jordan Steven J. Nowlan Geoffrey E. Hinton
#Unread
複数の専門家ネットワークとSoftmaxゲートを一緒に最尤学習するMoEの原型を提案.EMに似た勾配更新でゲートが入力依存の混合重みを学び,母音識別タスクで各専門家が入力空間の異なる領域を担当することを示した.
2013
Learning Factored Representations in a Deep Mixture of Experts
David Eigen Marc’Aurelio Ranzato Ilya Sutskever
#Unread
階層的にゲートと専門家を重ねたDMoEを提案し,層ごとに異なる因子(1層目で位置,2層目でクラス)に分解して専門化させることで指数的に多い経路を持ちながらパラメータを抑制.jittered MNISTと音声単音節でバランシング制約により全経路が活用されることを確認.
2016
Ensemble Learning for Multi-Source Neural Machine Translation
#Unread
複数ソース言語のエンコーダを並列に持つNMTを重み付きアンサンブルする手法を比較し,ゲート付き線形結合が単一ソースや単純平均より有効で,独独→英などで最大+2.2 BLEU向上.マルチソース設定でMoE的な入力選択が有効であることを示した.
2017
Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer
Noam Shazeer Azalia Mirhoseini Krzysztof Maziarz Andy Davis Quoc Le Geoffrey Hinton Jeff Dean
#Unread
条件付き計算でモデル容量を1000倍規模に拡張しつつ計算コストをほぼ据え置くためのSparsely-Gated MoE層を提案.routerは入力に線形変換を施したロジットに可調整ガウスノイズを足し,Top-k(論文ではk=2)だけ残してSoftmaxするNoisy Top-K Gatingで各トークンを少数のexpertに送る.選ばれたexpertの出力のみ重み付き和を取るので,非活性expertの計算を省ける.routerが特定のexpertに偏らないよう,重要度分散と割り当て偏りを罰するauxiliary lossを導入して負荷を均衡化する.
2020
GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding
Dmitry Lepikhin HyoukJoong Lee Yuanzhong Xu Dehao Chen Orhan Firat Yanping Huang Maxim Krikun Noam Shazeer Zhifeng Chen
#Unread
XLA拡張と注釈APIで自動シャーディングを行うGShardを提案し,MoEを含む多言語Transformerを600B超にスケール.2048 TPU v3で4日学習し,100言語→英翻訳で従来を上回るBLEUを達成.条件付き計算とデータ/モデル並列を一貫した記述で両立させた.
2022
Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity
William Fedus Barret Zoph Noam Shazeer
#Unread
MoEのルータをTop-1に単純化したSwitch routingで通信と計算を削減し,安定化テクニックによりbfloat16でも学習可能に.T5系でFLOPs一定のまま専門家数を増やし,最大7倍の事前学習速度とトリリオン規模パラメータを実現.
ST-MoE: Designing Stable and Transferable Sparse Expert Models
Barret Zoph Irwan Bello Sameer Kumar Nan Du Yanping Huang Jeff Dean Noam Shazeer William Fedus
#Unread
Switch系で課題だった不安定さと転移性能を改善する設計指針を提示.正規化・初期化・負荷分散損失を調整し,269BパラメータのST-MoE-32Bが32B密モデルと同等の計算量で多様な下流タスク(SuperGLUE,XSum等)でSOTAを達成した.
2023
GraphCast:Learning skillful medium-range global weather forecasting
Remi Lam Alvaro Sanchez-Gonzalez Matthew Willson Peter Wirnsberger Meire Fortunato Ferran Alet Suman Ravuri Timo Ewalds Zach Eaton-Rosen Weihua Hu Alexander Merose Stephan Hoyer George Holland Oriol Vinyals Jacklynn Stott Alexander Pritzel Shakir Mohamed Peter Battaglia
#Unread
GNNで全球0.25度格子の大気状態を6時間刻みでオートレグレッシブ予測するGraphCastを提案.DeepMindの実装は10日先までの227変数を60秒未満で生成し,ECMWF HRESを約89%の指標で上回る精度を示した.