large-vision-language-models

Here are 16 public repositories matching this topic...

FudanDISC / ReForm-Eval

An benchmark for evaluating the capabilities of large vision-language models (LVLMs)

benchmark multimodal pre-training reformulation embodied-ai instruction-following gpt4 in-context-learning large-language-models llm instruction-tuning large-vision-language-models visual-chain-of-thought multimodal-chain-of-thought

Updated Nov 17, 2023
Python

praj2408 / End-to-end-LLM-and-image-model-application-using-Gemini-Pro

Star

Gemini Pro, your do-it-all AI tool, translates languages, sparks creativity, and answers questions, all while efficiently running on devices from phones to data centers, making it accessible for developers and businesses to unlock AI's potential.

google gemini vision-api gemini-api large-language-models llms large-vision-language-models gemini-pro

Updated Jan 27, 2024
Python

llmbev / talk2bev

Star

Talk2BEV: Language-Enhanced Bird's Eye View Maps (Accepted to ICRA'24)

autonomous-driving occupancy-grid-map birds-eye-view gpt-4 large-language-models large-vision-language-models

Updated Jan 29, 2024
Python

Paranioar / Awesome_Matching_Pretraining_Transfering

Star

The Paper List of Large Multi-Modality Model, Parameter-Efficient Finetuning, Vision-Language Pretraining, Conventional Image-Text Matching for Preliminary Insight.

tutorial awesome-list vision-and-language video-text-recognition cross-modal-retrieval visual-semantic-embedding image-text-matching video-text-retrieval image-text-retrieval multimodal-pretraining large-language-models large-vision-language-models memory-efficient-tuning parameter-efficient-fine-tuning large-vision-models

Updated Mar 9, 2024

ys-zong / VLGuard

Star

[ICML 2024] Safety Fine-Tuning at (Almost) No Cost: A Baseline for Vision Large Language Models.

alignment safety large-language-models vision-language-model large-vision-language-models

Updated Mar 10, 2024
Python

khuangaf / CHOCOLATE

Star

Code and data for the paper "Do LVLMs Understand Charts? Analyzing and Correcting Factual Errors in Chart Captioning"

factuality faithfulness large-vision-language-models chart-understanding chart-captioning chart-summarization

Updated Mar 11, 2024
Jupyter Notebook

tianyi-lab / HallusionBench

Star

[CVPR'24] HallusionBench: You See What You Think? Or You Think What You See? An Image-Context Reasoning Benchmark Challenging for GPT-4V(ision), LLaVA-1.5, and Other Multi-modality Models

benchmark benchmarks lmm hallucination gpt-4 large-language-models llm llava large-vision-language-models vlms gpt-4v

Updated Mar 17, 2024
Python

yfzhang114 / LLaVA-Align

Star

This is the official repo for Debiasing Large Visual Language Models, including a Post-Hoc debias method and Visual Debias Decoding strategy.

hallucination debiasing large-vision-language-models

Updated Mar 28, 2024
Python

bowen-upenn / Multi-Agent-VQA

Star

Multi-Agent VQA: Exploring Multi-Agent Foundation Models on Zero-Shot Visual Question Answering

open-world multi-agent scene-graph zero-shot-learning visual-question-answering multimodal scene-understanding foundation-models large-language-models large-vision-language-models

Updated Apr 3, 2024
Python

MMStar-Benchmark / MMStar

Star

This repo contains evaluation code for the paper "Are We on the Right Way for Evaluating Large Vision-Language Models"

evaluation multimodality multimodal-learning visual-question-answering multimodal large-language-models llm llms large-vision-language-model large-vision-language-models large-multimodal-models lvlms lvlm

Updated Apr 17, 2024
Python

YingqingHe / Awesome-LLMs-meet-Multimodal-Generation

Star

🔥🔥🔥 A curated list of papers on LLMs-based multimodal generation (image, video, 3D and audio).

text-to-speech multimodality text-to-image text-to-audio text-to-video text-to-music multimodal-models aigc large-language-models text-to-3d multimodal-generation text-to-sound large-vision-language-models multimodal-large-language-models

Updated May 9, 2024
HTML

BradyFU / Awesome-Multimodal-Large-Language-Models

Star

✨✨Latest Papers and Datasets on Multimodal Large Language Models, and Their Evaluation.

multi-modality instruction-following in-context-learning large-language-models chain-of-thought instruction-tuning visual-instruction-tuning large-vision-language-model multimodal-instruction-tuning large-vision-language-models multimodal-large-language-models visual-in-context-learning multimodal-in-context-learning visual-chain-of-thought multimodal-chain-of-thought

Updated May 19, 2024

khuangaf / Awesome-Chart-Understanding

Star

A curated list of recent and past chart understanding work based on our survey paper: From Pixels to Insights: A Survey on Automatic Chart Understanding in the Era of Large Foundation Models.

awesome-list large-vision-language-models chart-understanding chart-question-answering chart-captioning chart-summarization