qformer 1 layer vs 12 layers ablation
Created on April 23|Last edited on April 23
Comment
Setting: lr1e-6, warmup 5k steps, total 28k steps, bsz 36K, mm和pile的token比是10:1
红色和浅绿色是1层q-former layer,蓝色、橙色、紫色是12层q-former layer。
可以观察到:
在MMLU上,明显q-former 12层drop地更慢;
在MM tasks上,多数task下,12层比1层有0.几个点的优势;部分task下没有优势。
Conclusion:
qformer的作用是align two modalities。在End2End Tuning的setting下,qformer的capacity就不是很重要了,因为vision encoder可以学习更多的language information,LLM也可以变得更vision。
Run set
1
Add a comment