RT 可否披露下图4中这几组对比实验的具体模型架构,实验设置,以及训练token数?(a) 2.4B-16B with MLA, (b) 3B-20B with MHA, and (c) 15B-193B with GQA 因为我自己测好像SC-MoE效果没有这么好,想学习下实验差别在哪里~
RT
可否披露下图4中这几组对比实验的具体模型架构,实验设置,以及训练token数?(a) 2.4B-16B with MLA, (b) 3B-20B with MHA, and
(c) 15B-193B with GQA
因为我自己测好像SC-MoE效果没有这么好,想学习下实验差别在哪里~