Scaling Sparse Neural Networks — 稀疏神经网络扩展研究

2026-05-18 · AI 论文

论文概述

本文探讨了稀疏神经网络在大规模场景下的扩展性，研究如何通过稀疏激活和条件计算实现模型参数量的大幅增长，同时保持推理成本的线性增长。

核心贡献

提出新的稀疏路由机制，支持超大规模MoE模型的稳定训练
在保持推理成本不变的情况下，模型参数量可扩展至万亿级别
实验表明稀疏模型在多项基准测试中达到或超过稠密模型的表现

关键数据

指标	稠密模型	稀疏模型
参数量	100B	1T（激活100B）
推理成本	1x	1.2x
MMLU	82.3%	84.1%

研究意义

本研究为下一代大模型的架构设计提供了重要参考，表明稀疏化是突破稠密模型扩展瓶颈的有效路径。

← API密钥获取与… Coze 实战指… →

评论区

发表评论取消回复