multimodal-deep-learning

Star

Here are 348 public repositories matching this topic...

AI4Finance-Foundation / FinRobot

Star

FinRobot: An Open-Source AI Agent Platform for Financial Applications using LLMs 🚀 🚀 🚀

finance multimodal-deep-learning robo-advisor large-language-models prompt-engineering chatgpt fingpt aiagent

Updated May 23, 2024
Jupyter Notebook

Yuan-ManX / ai-multimodal-timeline

Star

Here we will track the latest AI Multimodal Models, including Multimodal Foundation Models, LLM, Audio, Image, Video, Music and 3D content. 🔥

ai multi-modal deeplearning-ai multimodal multimodal-deep-learning llm

Updated May 23, 2024

ThomasHelfer / multimodal-supernovae

Star

A codebase dedicated to exploring multimodal learning approaches by integrating images of host galaxies of supernovae and their corresponding light-curves and spectra.

pytorch astro multimodal-deep-learning

Updated May 23, 2024
Jupyter Notebook

thuiar / UMC

Star

Unsupervised Multimodal Clustering for Semantics Discovery in Multimodal Utterances (ACL 2024)

clustering discovery intent multimodal-interactions multimodal-deep-learning acl2024

Updated May 23, 2024
Python

fcakyon / content-moderation-deep-learning

Sponsor

Star

Deep learning based content moderation from text, audio, video & image input modalities.

profanity-detection nudity-detection genre-classification violence-detection multimodal-deep-learning movie-trailer nsfw-recognition content-moderation content-ratings movie-content-filter

Updated May 22, 2024

jrzaurin / pytorch-widedeep

Star

A flexible package for multimodal-deep-learning to combine tabular data with text and images using Wide and Deep models in Pytorch

python deep-learning text images tabular-data pytorch pytorch-cv multimodal-deep-learning pytorch-nlp pytorch-transformers model-hub pytorch-tabular-data

Updated May 22, 2024
Python

Anne-Andresen / Hybrid-GAN-C-Cpp-and-python-implementation

Star

Pure C 3D Hybrid GAN using Cross attention, attention and convolution

c cpp cuda transformers pytorch medical-imaging gan attention-mechanism 3d 3d-models low-level-programming multimodal-deep-learning transformer-pytorch gan-models cross-attention cross-attention-c transformers-c

Updated May 22, 2024
C

slinusc / path-vqa-blip

Star

Fine-tuning BLIP for pathological visual question answering.

blip pathology multimodal-deep-learning

Updated May 21, 2024
Jupyter Notebook

friedrichor / Awesome-Multimodal-Papers

Star

A curated list of awesome Multimodal studies.

deep-learning multimodal-learning multimodal multimodal-deep-learning multimodal-data multimodal-dialogue multimodal-large-language-models large-multimodal-models

Updated May 21, 2024
HTML

HySonLab / Protein_Pretrain

Star

Multimodal Pretraining for Unsupervised Protein Representation Learning

proteins protein-structure point-cloud protein-sequences variational-autoencoder multimodal-deep-learning graph-neural-networks pretrained-language-model equivariant-representations large-language-models

Updated May 21, 2024
Python

willxxy / awesome-mmps

Star

Corpus of resources for multimodal machine learning with physiological signals

machine-learning deep-learning signal-processing physiological-signals multimodal-learning multimodal multimodal-deep-learning multimodal-data

Updated May 20, 2024

MichiganNLP / visual_diversity_budget

Star

Annotations on a Budget: Leveraging Geo-Data Similarity to Balance Model Performance and Annotation Cost

datasets clip active-learning align multimodal-deep-learning computer-vison diversity-analysis blip2 geo-diverse

Updated May 20, 2024

Yutong-Zhou-cv / Awesome-Text-to-Image

Star

(ෆ`꒳´ෆ) A Survey on Text-to-Image Generation/Synthesis.

survey generative-adversarial-network image-manipulation image-generation text-to-image image-synthesis multimodal multimodal-deep-learning awseome-list text-to-face

Updated May 20, 2024

salesforce / LAVIS

Star

LAVIS - A One-stop Library for Language-Vision Intelligence

deep-learning salesforce image-captioning deep-learning-library vision-framework vision-and-language multimodal-deep-learning multimodal-datasets vision-language-transformer vision-language-pretraining visual-question-anwsering

Updated May 19, 2024
Jupyter Notebook

darmangerd / vubot

Star

Multimodal Computer Vision application leveraging object detections, gesture recognition and speech to text, in order to help user ask questions about their environment.

computer-vision speech-recognition object-detection gesture-recognition multimodal multimodal-deep-learning