
多模态对话模型 Demo:https://vpgtrans.github.io/ 论文:https://arxiv.org/pdf/2305.01278.pdf 代码:https://github.com/VPGTrans/VPGTrans






到
的词向量转化器 (一个线性层)。然后,我们将词向量转化器和
上的 projector 融合作为
的 projector 的初始化。通过这个初始化,我们可以将 projector 的 warm-up 训练由 3 个 epoch 减为 2 个 epoch。


,几乎都符合
越小,最终 SPICE 越高的一个现象。



本文网址:




