大佬您好,论文中有提到Alpha-CLIP训练时文本编码器冻结,图像编码器在GRIT20M上全参调整,代码实现时也会预先加载预训练的CLIP权重。请问图像编码器的初始权重是加载的预训练的CLIP中图像编码器的权重吗。如果直接用clip_l14@336_grit_20m_4xe替换LLaVA中的CLIP,经过与LLaVA相同的预训练和指令微调阶段后,模型在图像级视觉语言任务基准上的性能会有明显下降吗?
大佬您好,论文中有提到Alpha-CLIP训练时文本编码器冻结,图像编码器在GRIT20M上全参调整,代码实现时也会预先加载预训练的CLIP权重。请问图像编码器的初始权重是加载的预训练的CLIP中图像编码器的权重吗。如果直接用clip_l14@336_grit_20m_4xe替换LLaVA中的CLIP,经过与LLaVA相同的预训练和指令微调阶段后,模型在图像级视觉语言任务基准上的性能会有明显下降吗?