Multimodal Deep Learning for Visual Question Answering: Techniques and Challenges

Malfi, Oualid Ilyes

Veuillez utiliser cette adresse pour citer ce document : http://dspace1.univ-tlemcen.dz/handle/112/24436

Titre:	Multimodal Deep Learning for Visual Question Answering: Techniques and Challenges
Auteur(s):	Malfi, Oualid Ilyes
Mots-clés:	Réponse visuelle aux questions, Apprentissage profond multimodal, Vision par ordinateur, Traitement du langage naturel, Fusion de niveau intermédiaire.
Date de publication:	3-jui-2024
Editeur:	University of tlemcen
Collection/Numéro:	25 Master Info;
Résumé:	Cette thèse explore le domaine de la réponse visuelle aux questions (VQA), une application avancée de l'apprentissage profond multimodal qui combine la vision par ordinateur et le traitement du langage naturel pour permettre aux machines de répondre à des questions sur le contenu visuel. L'objectif principal est de développer un modèle VQA robuste capable d'interpréter et de raisonner sur des scènes visuelles complexes de manière similaire à celle des humains. En utilisant divers modèles tels que VGG19, ResNet50, EfficientNet-B5 et ViT pour l'extraction de caractéristiques d'image, et un modèle basé sur BERT ou LSTM pour l'extraction de caractéristiques des questions, l'étude emploie une méthode de fusion de niveau intermédiaire par multiplication élémentaire ou concaténation pour combiner ces caractéristiques. La recherche s'appuie sur des jeux de données comme CLEVR, conçu pour tester les véritables capacités de raisonnement en fournissant des objets rendus en 3D avec des questions détaillées, et VQA-RAD, destiné à des problèmes réels, qui soutient la prise de décision clinique à travers des images de radiologie accompagnées de questions et réponses pertinentes. Les résultats expérimentaux ont montré que la combinaison du modèle ViT, BERT et la technique de multiplication a excellé, atteignant des précisions élevées de 98,70 % sur le jeu de données CLEVR et de 96 % sur le jeu de données VQA-RAD, en faisant le modèle le plus efficace pour la réponse aux questions visuelles générales et médicales.
URI/URL:	http://dspace1.univ-tlemcen.dz/handle/112/24436
Collection(s) :	Master chimie

Fichier(s) constituant ce document :

Fichier	Description	Taille	Format
Multimodal_Deep_Learning_for_Visual_Question_Answering_Techniques_and_Challenges.pdf		3,18 MB	Adobe PDF	Voir/Ouvrir

Affichage détaillé