Veuillez utiliser cette adresse pour citer ce document : http://dspace1.univ-tlemcen.dz/handle/112/24436
Affichage complet
Élément Dublin CoreValeurLangue
dc.contributor.authorMalfi, Oualid Ilyes-
dc.date.accessioned2025-01-28T10:05:47Z-
dc.date.available2025-01-28T10:05:47Z-
dc.date.issued2024-07-03-
dc.identifier.urihttp://dspace1.univ-tlemcen.dz/handle/112/24436-
dc.description.abstractCette thèse explore le domaine de la réponse visuelle aux questions (VQA), une application avancée de l'apprentissage profond multimodal qui combine la vision par ordinateur et le traitement du langage naturel pour permettre aux machines de répondre à des questions sur le contenu visuel. L'objectif principal est de développer un modèle VQA robuste capable d'interpréter et de raisonner sur des scènes visuelles complexes de manière similaire à celle des humains. En utilisant divers modèles tels que VGG19, ResNet50, EfficientNet-B5 et ViT pour l'extraction de caractéristiques d'image, et un modèle basé sur BERT ou LSTM pour l'extraction de caractéristiques des questions, l'étude emploie une méthode de fusion de niveau intermédiaire par multiplication élémentaire ou concaténation pour combiner ces caractéristiques. La recherche s'appuie sur des jeux de données comme CLEVR, conçu pour tester les véritables capacités de raisonnement en fournissant des objets rendus en 3D avec des questions détaillées, et VQA-RAD, destiné à des problèmes réels, qui soutient la prise de décision clinique à travers des images de radiologie accompagnées de questions et réponses pertinentes. Les résultats expérimentaux ont montré que la combinaison du modèle ViT, BERT et la technique de multiplication a excellé, atteignant des précisions élevées de 98,70 % sur le jeu de données CLEVR et de 96 % sur le jeu de données VQA-RAD, en faisant le modèle le plus efficace pour la réponse aux questions visuelles générales et médicales.en_US
dc.language.isofren_US
dc.publisherUniversity of tlemcenen_US
dc.relation.ispartofseries25 Master Info;-
dc.subjectRéponse visuelle aux questions, Apprentissage profond multimodal, Vision par ordinateur, Traitement du langage naturel, Fusion de niveau intermédiaire.en_US
dc.titleMultimodal Deep Learning for Visual Question Answering: Techniques and Challengesen_US
dc.typeThesisen_US
Collection(s) :Master chimie

Fichier(s) constituant ce document :
Fichier Description TailleFormat 
Multimodal_Deep_Learning_for_Visual_Question_Answering_Techniques_and_Challenges.pdf3,18 MBAdobe PDFVoir/Ouvrir


Tous les documents dans DSpace sont protégés par copyright, avec tous droits réservés.