DeepSeekMoE:Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models
在深度学习中,Channel Merging(通道合并)和专家细粒度分割(Expert-based Fine-grained Segmentation)是两种不同的技术手段,其核心目标分别是特征整合和精细化分割。以下从两者的定义、分割标准及应用场景展开详细解释:
1236 字
|
6 分钟
Multi-Level Optimal Transport for Universal Cross-Tokenizer Knowledge Distillation on Language Models
arXiv:2412.14528v2
904 字
|
5 分钟