Visual Question Answering project

Dataset

python train_vqa_basic_trainer.py \
--visual-pretrained "google/vit-base-patch16-224" \
--text-pretrained "roberta-base" \
--device "cuda:0"

Models	Val acc	Test acc
ResNet50 + LSTM	0.5358	-
VisTrans + RoBERTa (pooler_output)	0.6690	0.6636
VisTrans + RoBERTa (last_hidden_state output)	0.6931	0.6874

Name		Name	Last commit message	Last commit date
Latest commit History 24 Commits
dataset		dataset
models		models
scripts		scripts
test		test
utils		utils
.gitignore		.gitignore
README.md		README.md
inference.py		inference.py
requirements.txt		requirements.txt
train_clip_vqa.py		train_clip_vqa.py
train_clip_vqa_pl.py		train_clip_vqa_pl.py
train_vqa_basic_trainer.py		train_vqa_basic_trainer.py
zero_shot_blip_vqa.py		zero_shot_blip_vqa.py