训练visual tokenizer时,8级token共用一个codebook。在llm里面新增的反而是8*16k个visual tokenid,请问这是为啥呢~
训练visual tokenizer时,8级token共用一个codebook。在llm里面新增的反而是8*16k个visual tokenid,请问这是为啥呢~