ML論文

MoE

GNN


論文メモ

1991

Adaptive Mixtures of Local Experts

Robert A. Jacobs Michael I. Jordan Steven J. Nowlan Geoffrey E. Hinton

#Unread

複数の専門家ネットワークとSoftmaxゲートを一緒に最尤学習するMoEの原型を提案.EMに似た勾配更新でゲートが入力依存の混合重みを学び,母音識別タスクで各専門家が入力空間の異なる領域を担当することを示した.

2013

Learning Factored Representations in a Deep Mixture of Experts

David Eigen Marc’Aurelio Ranzato Ilya Sutskever

#Unread

階層的にゲートと専門家を重ねたDMoEを提案し,層ごとに異なる因子(1層目で位置,2層目でクラス)に分解して専門化させることで指数的に多い経路を持ちながらパラメータを抑制.jittered MNISTと音声単音節でバランシング制約により全経路が活用されることを確認.

2016

Ensemble Learning for Multi-Source Neural Machine Translation

#Unread

複数ソース言語のエンコーダを並列に持つNMTを重み付きアンサンブルする手法を比較し,ゲート付き線形結合が単一ソースや単純平均より有効で,独独→英などで最大+2.2 BLEU向上.マルチソース設定でMoE的な入力選択が有効であることを示した.

2017

Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer

Noam Shazeer Azalia Mirhoseini Krzysztof Maziarz Andy Davis Quoc Le Geoffrey Hinton Jeff Dean

#Unread

条件付き計算でモデル容量を1000倍規模に拡張しつつ計算コストをほぼ据え置くためのSparsely-Gated MoE層を提案.routerは入力に線形変換を施したロジットに可調整ガウスノイズを足し,Top-k(論文ではk=2)だけ残してSoftmaxするNoisy Top-K Gatingで各トークンを少数のexpertに送る.選ばれたexpertの出力のみ重み付き和を取るので,非活性expertの計算を省ける.routerが特定のexpertに偏らないよう,重要度分散と割り当て偏りを罰するauxiliary lossを導入して負荷を均衡化する.

2020

GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding

Dmitry Lepikhin HyoukJoong Lee Yuanzhong Xu Dehao Chen Orhan Firat Yanping Huang Maxim Krikun Noam Shazeer Zhifeng Chen

#Unread

XLA拡張と注釈APIで自動シャーディングを行うGShardを提案し,MoEを含む多言語Transformerを600B超にスケール.2048 TPU v3で4日学習し,100言語→英翻訳で従来を上回るBLEUを達成.条件付き計算とデータ/モデル並列を一貫した記述で両立させた.

2022

Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity

William Fedus Barret Zoph Noam Shazeer

#Unread

MoEのルータをTop-1に単純化したSwitch routingで通信と計算を削減し,安定化テクニックによりbfloat16でも学習可能に.T5系でFLOPs一定のまま専門家数を増やし,最大7倍の事前学習速度とトリリオン規模パラメータを実現.

ST-MoE: Designing Stable and Transferable Sparse Expert Models

Barret Zoph Irwan Bello Sameer Kumar Nan Du Yanping Huang Jeff Dean Noam Shazeer William Fedus

#Unread

Switch系で課題だった不安定さと転移性能を改善する設計指針を提示.正規化・初期化・負荷分散損失を調整し,269BパラメータのST-MoE-32Bが32B密モデルと同等の計算量で多様な下流タスク(SuperGLUE,XSum等)でSOTAを達成した.

2023

GraphCast:Learning skillful medium-range global weather forecasting

Remi Lam Alvaro Sanchez-Gonzalez Matthew Willson Peter Wirnsberger Meire Fortunato Ferran Alet Suman Ravuri Timo Ewalds Zach Eaton-Rosen Weihua Hu Alexander Merose Stephan Hoyer George Holland Oriol Vinyals Jacklynn Stott Alexander Pritzel Shakir Mohamed Peter Battaglia

#Unread

GNNで全球0.25度格子の大気状態を6時間刻みでオートレグレッシブ予測するGraphCastを提案.DeepMindの実装は10日先までの227変数を60秒未満で生成し,ECMWF HRESを約89%の指標で上回る精度を示した.