您好,我有一个疑问,请问这篇文章的模型和vit的不同只是在decoder部分吗?因为我看源码encoder部分都是一样的,那这样他的创新点是啥呢,我的邮箱shibin20@mails.ucas.ac.cn,感谢
您好,我有一个疑问,请问这篇文章的模型和vit的不同只是在decoder部分吗?因为我看源码encoder部分都是一样的,那这样他的创新点是啥呢,我的邮箱shibin20@mails.ucas.ac.cn,感谢