Skip to main content

qformer 1 layer vs 12 layers ablation

Created on April 23|Last edited on April 23
Setting: lr1e-6, warmup 5k steps, total 28k steps, bsz 36K, mm和pile的token比是10:1

红色和浅绿色是1层q-former layer,蓝色、橙色、紫色是12层q-former layer。

可以观察到:
在MMLU上,明显q-former 12层drop地更慢;
在MM tasks上,多数task下,12层比1层有0.几个点的优势;部分task下没有优势。

Conclusion:
qformer的作用是align two modalities。在End2End Tuning的setting下,qformer的capacity就不是很重要了,因为vision encoder可以学习更多的language information,LLM也可以变得更vision。


Run set
1