ML論文

MoE

Adaptive Mixtures of Local Experts(1991)
Learning Factored Representations in a Deep Mixture of Experts(2013)
Ensemble Learning for Multi-Source Neural Machine Translation(2016)
Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer(2017)
GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding(2020)
BASE Layers: Simplifying Training of Large, Sparse Models(2021)
Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity(2022)
ST-MoE: Designing Stable and Transferable Sparse Expert Models(2022)
Mixture-of-Experts with Expert Choice Routing(2022)
Graph Mixture of Experts: Learning on Large-Scale Graphs with Explicit Diversity Modeling(2023)
GraphMETRO: Mitigating Complex Distribution Shifts in GNNs via Mixture of Aligned Experts(2023)
Node-wise Filtering in Graph Neural Networks: A Mixture of Experts Approach(2024)
Mixture of Weak and Strong Experts on Graphs(2024)
Mixture of Decoupled Message Passing Experts with Entropy Constraint for General Node Classification(2025)
MoLE-GNN: Parameter-Efficient Fine-Tuning of Graph Neural Networks with Mixture-of-Experts(2025)
Diverse and Sparse Mixture-of-Experts for Causal Subgraph-Based Out-of-Distribution Graph Learning(2026)

GNN

Neural Message Passing for Quantum Chemistry(2017)
Principal Neighbourhood Aggregation for Graph Nets(2020)
Learning How to Propagate Messages in Graph Neural Networks(2021)
GraphCast:Learning skillful medium-range global weather forecasting(2023)
Hierarchical message-passing graph neural networks(2023)
Graph Mixture of Experts: Learning on Large-Scale Graphs with Explicit Diversity Modeling(2023)
GraphMETRO: Mitigating Complex Distribution Shifts in GNNs via Mixture of Aligned Experts(2023)
Node-wise Filtering in Graph Neural Networks: A Mixture of Experts Approach(2024)
Mixture of Weak and Strong Experts on Graphs(2024)
Mixture of Decoupled Message Passing Experts with Entropy Constraint for General Node Classification(2025)
MoLE-GNN: Parameter-Efficient Fine-Tuning of Graph Neural Networks with Mixture-of-Experts(2025)
Diverse and Sparse Mixture-of-Experts for Causal Subgraph-Based Out-of-Distribution Graph Learning(2026)

論文メモ

1991

Adaptive Mixtures of Local Experts

Robert A. Jacobs Michael I. Jordan Steven J. Nowlan Geoffrey E. Hinton

#Unread

複数の専門家ネットワークとSoftmaxゲートを一緒に最尤学習するMoEの原型を提案．EMに似た勾配更新でゲートが入力依存の混合重みを学び，母音識別タスクで各専門家が入力空間の異なる領域を担当することを示した．

2013

Learning Factored Representations in a Deep Mixture of Experts

David Eigen Marc’Aurelio Ranzato Ilya Sutskever

#Unread

階層的にゲートと専門家を重ねたDMoEを提案し，層ごとに異なる因子（1層目で位置，2層目でクラス）に分解して専門化させることで指数的に多い経路を持ちながらパラメータを抑制．jittered MNISTと音声単音節でバランシング制約により全経路が活用されることを確認．

2016

Ensemble Learning for Multi-Source Neural Machine Translation

Ekaterina Garmash Christof Monz

#Unread

複数ソース言語のエンコーダを並列に持つNMTを重み付きアンサンブルする手法を比較し，ゲート付き線形結合が単一ソースや単純平均より有効で，独独→英などで最大+2.2 BLEU向上．マルチソース設定でMoE的な入力選択が有効であることを示した．

2017

Neural Message Passing for Quantum Chemistry

Justin Gilmer, Samuel S. Schoenholz, Patrick F. Riley, Oriol Vinyals, George E. Dahl

#Unread

メッセージ関数と更新関数を分離したMPNN枠組みを提示し，既存の分子グラフ向け手法を統一的に記述可能にした．量子化学ベンチマークで高精度を示し，核心は「エッジ特徴付きメッセージ設計」を一般化した点にある．開放論点は，タスク依存でmessage/update/readoutのどこが性能ボトルネックになるかをどう切り分けるかである．

Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer

Noam Shazeer Azalia Mirhoseini Krzysztof Maziarz Andy Davis Quoc Le Geoffrey Hinton Jeff Dean

#Unread

条件付き計算でモデル容量を1000倍規模に拡張しつつ計算コストをほぼ据え置くためのSparsely-Gated MoE層を提案．routerは入力に線形変換を施したロジットに可調整ガウスノイズを足し，Top-k（論文ではk=2）だけ残してSoftmaxするNoisy Top-K Gatingで各トークンを少数のexpertに送る．選ばれたexpertの出力のみ重み付き和を取るので，非活性expertの計算を省ける．routerが特定のexpertに偏らないよう，重要度分散と割り当て偏りを罰するauxiliary lossを導入して負荷を均衡化する．

2020

Principal Neighbourhood Aggregation for Graph Nets

Gabriele Corso, Luca Cavalleri, Dominique Beaini, Pietro Lio, Petar Velickovic

#Unread

PNAは平均や最大など複数の集約器と次数スケーラを組み合わせ，連続特徴空間での識別力低下を補うmessage passing設計を提案する．分子回帰を中心とした評価でGIN系を上回る性能を報告し，noveltyは「次数統計を明示的に取り込む汎用集約ブロック」にある．今後の論点は，計算コスト増と表現力向上のトレードオフをどの程度許容するかである．

GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding

Dmitry Lepikhin HyoukJoong Lee Yuanzhong Xu Dehao Chen Orhan Firat Yanping Huang Maxim Krikun Noam Shazeer Zhifeng Chen

#Unread

XLA拡張と注釈APIで自動シャーディングを行うGShardを提案し，MoEを含む多言語Transformerを600B超にスケール．2048 TPU v3で4日学習し，100言語→英翻訳で従来を上回るBLEUを達成．条件付き計算とデータ／モデル並列を一貫した記述で両立させた．

2021

Learning How to Propagate Messages in Graph Neural Networks

Teng Xiao, Zhengyu Chen, Donglin Wang, Suhang Wang

#Unread

ノードごとに最適な伝播ステップを潜在変数として学習するLTPフレームワークを提案し，固定層数・固定k-hopの制約を緩和した．変分EMで伝播戦略と予測器を同時最適化し，複数ノード分類ベンチマークで精度向上を示す．主な論点は，推論時の計算コストと学習された伝播戦略の解釈可能性をどう両立するかである．

BASE Layers: Simplifying Training of Large, Sparse Models

Mike Lewis Shruti Bhosale Tim Dettmers Naman Goyal Luke Zettlemoyer

#Unread

巨大疎モデルの訓練を安定化するため，入力依存の柔軟なrouterだけに頼らず，ほぼ均等な割当を保つ学習可能なマッチング機構（BASE Layers）を提案．翻訳や言語モデリングでSwitch系に近い性能を維持しつつ，学習初期の負荷偏りと発散を抑えることを示し，router学習信号とデータ割当規則をどこまで分離すべきかという論点を残した．

2022

Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity

William Fedus Barret Zoph Noam Shazeer

#Unread

MoEのルータをTop-1に単純化したSwitch routingで通信と計算を削減し，安定化テクニックによりbfloat16でも学習可能に．T5系でFLOPs一定のまま専門家数を増やし，最大7倍の事前学習速度とトリリオン規模パラメータを実現．

ST-MoE: Designing Stable and Transferable Sparse Expert Models

Barret Zoph Irwan Bello Sameer Kumar Nan Du Yanping Huang Jeff Dean Noam Shazeer William Fedus

#Unread

Switch系で課題だった不安定さと転移性能を改善する設計指針を提示．正規化・初期化・負荷分散損失を調整し，269BパラメータのST-MoE-32Bが32B密モデルと同等の計算量で多様な下流タスク（SuperGLUE，XSum等）でSOTAを達成した．

Mixture-of-Experts with Expert Choice Routing

Yanqi Zhou Tao Lei Hanxiao Liu Nan Du Yanping Huang Vincent Zhao Andrew Dai Zhifeng Chen Quoc Le James Laudon

#Unread

tokenがexpertを選ぶ従来のTop-k routerと逆に，expert側が受け取るtokenを選ぶExpert Choice Routingを提案し，容量制約下でも負荷分散と計算効率を両立．大規模言語モデリングで同計算量あたりの品質向上を報告し，routerの学習データ割当を「確率的選択」ではなく「制約付き割当」として設計する方向性を示した．

2023

GraphCast:Learning skillful medium-range global weather forecasting

Remi Lam Alvaro Sanchez-Gonzalez Matthew Willson Peter Wirnsberger Meire Fortunato Ferran Alet Suman Ravuri Timo Ewalds Zach Eaton-Rosen Weihua Hu Alexander Merose Stephan Hoyer George Holland Oriol Vinyals Jacklynn Stott Alexander Pritzel Shakir Mohamed Peter Battaglia

#Unread

GNNで全球0.25度格子の大気状態を6時間刻みでオートレグレッシブ予測するGraphCastを提案．DeepMindの実装は10日先までの227変数を60秒未満で生成し，ECMWF HRESを約89％の指標で上回る精度を示した．

Hierarchical message-passing graph neural networks

Zhiqiang Zhong, Cheng-Te Li, Jun Pang

#Unread

階層的に構成したsuper graph間でbottom-up / within-level / top-downの3種類の伝播を行うHMGNNを提案し，長距離依存と高次近傍情報を同時に扱う．リンク予測・ノード分類・コミュニティ検出で既存flat message passingより高い性能を報告した．未解決点は，階層生成品質への依存が強く，構造化前処理の設計が性能を大きく左右する点である．

Graph Mixture of Experts: Learning on Large-Scale Graphs with Explicit Diversity Modeling

Haotao Wang Ziyu Jiang Yuning You Yan Han Gaowen Liu Jayanth Srinivasa Ramana Rao Kompella Zhangyang Wang

#Unread

大規模グラフで過平滑化と表現の同質化を避けるため，複数expertの出力をrouterで選択統合しつつ，expert間の多様性を明示的に促進するGraph MoEを提案．ノード分類設定で性能改善を示し，routing粒度をnode側に置いたときの多様性制約の効き方が主要論点となっている．

GraphMETRO: Mitigating Complex Distribution Shifts in GNNs via Mixture of Aligned Experts

Shirley Wu Kaidi Cao Bruno Ribeiro James Zou Jure Leskovec

#Unread

OODグラフ学習で複数の分布シフト要因を分解的に扱うため，shift要因に整合したexpert群とゲートを組み合わせるGraphMETROを提案．複数ベンチマークで頑健性向上を示し，routerが何を条件にexpertを選ぶべきかを「ラベル予測」以外の目的（shift同定）で学習する設計が争点になる．

2024

Mixture of Weak and Strong Experts on Graphs

Hanqing Zeng, Hanjia Lyu, Diyi Hu, Yinglong Xia, Jiebo Luo

#Unread

Mowstは弱いMLP expertと強いGNN expertをゲートで混合し，ノードごとに「自己特徴中心か隣接構造中心か」を切り替えるMoE設計を示す．homophilyとheterophilyが混在するデータで精度改善を示し，core methodは信頼度に基づくnode-wise routingである．議論点は，ゲートがデータ分布変化時に安定に機能するかと，expert間の役割分担が再現可能かである．

Node-wise Filtering in Graph Neural Networks: A Mixture of Experts Approach

Haoyu Han Juanhui Li Wei Huang Xianfeng Tang Hanqing Lu Chen Luo Hui Liu Jiliang Tang

#Unread

ノードごとの局所構造差を吸収するため，複数のフィルタexpertからnode-wiseに選択するMoE型GNNを提案．ノード分類タスクで一様フィルタより高精度を報告し，routing単位をgraph全体でなくnode単位に細分化したときの計算コストと専門化のトレードオフを明確化している．

2025

Mixture of Decoupled Message Passing Experts with Entropy Constraint for General Node Classification

Xuanze Chen, Jiajun Zhou, Jinsong Chen, Shanqing Yu, Qi Xuan

#Unread

異なるmessage passing演算を独立expertとして持ち，soft/hard gatingとエントロピー制約でノード単位の割当を学習するDecoupled MP-Expertsを提案する．複数のノード分類ベンチマークでhomophily/heterophily双方への汎化を検証し，noveltyはroutingの偏りを制御しつつexpert specializationを促す点にある．論点は，制約強度のチューニングがデータごとに必要で，実運用での頑健設定が難しいことである．

MoLE-GNN: Parameter-Efficient Fine-Tuning of Graph Neural Networks with Mixture-of-Experts

Shrimon Mukherjee, Madhusudan Ghosh, Partha Basuchowdhuri

#Unread

MoLE-GNNはadapterベースのPEFTとMoE routingを統合し，GNN全体を再学習せずに深さ感度に応じたexpert選択を可能にする．報告では総パラメータの約5.1%のみ更新して複数設定で既存PEFT法を上回る結果を示した．開放論点は，graphサイズ分布が大きく変わるタスクでrouting規則がどこまで転移可能かである．

2026

Diverse and Sparse Mixture-of-Experts for Causal Subgraph-Based Out-of-Distribution Graph Learning

Jerry Sun Mohamed Abubakr Hassan Yaoyu Zhang Wanying Zhang Chi-Guhn Lee

#Unread

因果サブグラフに基づくOODグラフ学習に対し，疎ルーティングとexpert多様化制約を併用するDiSCOを提案．ICLR 2026で複数OOD設定の改善を示し，インスタンス（graph/sample）単位でのexpert選択が因果パターン抽出に有利かどうかを中心に議論している．