VideoChat2第三阶段的预训练模型使用 #141

ruishuzhao · 2024-03-11T03:26:36Z

作者好~
在VideoChat2的训练中，
第二阶段训练中，会对Visual Encode和QFormer进行参数训练，导致参数发生变化。
那么在第三阶段训练中，输入的vit_blip_model，是来自于第二阶段参数发生变化的模型，还是重新使用原始的vit_blip_model？

ruishuzhao · 2024-03-11T09:00:25Z

作者好~
请忽略上一条提问。
在训练VideoChat2的第三阶段时，基于你提供的训练集，在极少量训练集缺失数据的情况下，采用32 batchsize进行训练。目前算法性能最高在50.15%左右。其中如：Action Sequence（-7pp），Scene Transition（-12pp）等数据集差距较大。
请问：

复现的性能降低，是否会与batchsize有关系。
从小数据集的指标看，表现好的指标较难达到，表现差的指标持平或略高。在尝试复现的过程中，采用默认参数。请问，有什么训练的优化方案吗？

辛苦帮忙解答一下。

Andy1621 · 2024-03-11T09:08:58Z

batch size也许会有影响，但我感觉影响不大，你可以适当在降batch的时候降一下学习率。另外后续实验发现，COCO和WebVid使用小数据量版本效果偶尔会更好，个人感觉浮动在0.5%以内都比较正常

ruishuzhao · 2024-03-11T09:15:22Z

batch size也许会有影响，但我感觉影响不大，你可以适当在降batch的时候降一下学习率。另外后续实验发现，COCO和WebVid使用小数据量版本效果偶尔会更好，个人感觉浮动在0.5%以内都比较正常

非常感谢~

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

VideoChat2第三阶段的预训练模型使用 #141

VideoChat2第三阶段的预训练模型使用 #141

ruishuzhao commented Mar 11, 2024

ruishuzhao commented Mar 11, 2024

Andy1621 commented Mar 11, 2024

ruishuzhao commented Mar 11, 2024

VideoChat2第三阶段的预训练模型使用 #141

VideoChat2第三阶段的预训练模型使用 #141

Comments

ruishuzhao commented Mar 11, 2024

ruishuzhao commented Mar 11, 2024

Andy1621 commented Mar 11, 2024

ruishuzhao commented Mar 11, 2024