[english - français]

Deep Multimodal Learning for Vision and Language Processing

The thesis defense took place on July 8th 2020 at 1pm (UTC+2 FRANCE).

Committee:

  • Mr. Patrick Gallinari, Sorbonne Université - LIP6, president of the jury
  • Mrs. Gabriela Csurka, Naver LABS Europe, thesis reviewer
  • Mr. Ivan Laptev, INRIA Paris, thesis reviewer
  • Mr. Thomas Serre, Brown University, examiner
  • Mr. Eduardo Valle, Campinas University - RECOD, examiner
  • Mr. Nicolas Thome, CNAM - CEDRIC, thesis co-advisor
  • Mr. Matthieu Cord, Sorbonne Université - LIP6, thesis advisor

Abstract

Digital technologies have become instrumental in transforming our society. Recent statistical methods have been successfully deployed to automate the processing of the growing amount of images, videos, and texts that are produced daily. In particular, deep neural networks have been adopted by the computer vision and natural language processing communities for their ability to perform accurate image recognition and text understanding once trained on big sets of data. Advances in both communities built the groundwork for new research problems at the intersection of vision and language. Integrating language into visual recognition could lead to the creation of numerous real-world applications such as next-generation search engines or AI assistants.

In the first part of this thesis, we focus on systems for cross-modal text-image retrieval. We propose a learning strategy to efficiently align both modalities while structuring the retrieval space with semantic information. In the second part, we focus on systems able to answer questions about any visual content in the image. We propose a multimodal architecture that iteratively fuses the visual and textual modalities using a factorized bilinear model while modeling pairwise relationships between each region of the image. In the last part, we address the issues related to biases in the modeling. We propose a learning strategy to reduce the language biases which are commonly present in visual question answering systems.


Apprentissage Multimodal Profond pour le Traitement de la Vision et du Langage

La soutenance de thèse a eu lieu le Mercredi 8 Juillet à 13h.

Composition du jury:

  • Patrick Gallinari, Sorbonne Université - LIP6, président du jury
  • Mme. Gabriela Csurka, Naver LABS Europe, rapportrice
  • M. Ivan Laptev, INRIA Paris, rapporteur
  • M. Thomas Serre, Brown University, examinateur
  • M. Eduardo Valle, Campinas University - RECOD, examinateur
  • M. Nicolas Thome, CNAM - CEDRIC, co-directeur de thèse
  • M. Matthieu Cord, Sorbonne Université - LIP6, directeur de thèse

Résumé

Les technologies du numérique ont joué un rôle déterminant dans la transformation de notre société. Des méthodes statistiques récentes ont été déployées avec succès afin d’automatiser le traitement de la quantité croissante d’images, de vidéos et de textes que nous produisons quotidiennement. En particulier, les réseaux de neurones profonds ont été adopté par les communautés de la vision par ordinateur et du traitement du langage naturel pour leur capacité à interpréter le contenu des images et des textes une fois entraînés sur de grands ensembles de données. Les progrès réalisés dans les deux communautés ont permis de jeter les bases de nouveaux problèmes de recherche à l’intersection entre vision et langage. L’intégration du langage dans la reconnaissance visuelle pourrait amener à la création de nombreuses applications telles que des moteurs de recherche de nouvelle génération ou des smart assistants.

Dans la première partie de cette thèse, nous nous concentrons sur des moteurs de recherche multimodaux images-textes. Nous proposons une stratégie d’apprentissage pour aligner efficacement les deux modalités tout en structurant l’espace de recherche avec de l’information sémantique. Dans la deuxième partie, nous nous concentrons sur des systèmes capables de répondre à toute question sur une image. Nous proposons une architecture multimodale qui fusionne itérativement les modalités visuelles et textuelles en utilisant un modèle bilinéaire factorisé, tout en modélisant les relations entre chaque paire de régions de l’image. Dans la dernière partie, nous abordons les problèmes de biais dans la modélisation. Nous proposons une stratégie d’apprentissage réduisant les biais linguistiques généralement présents dans les systèmes de réponse aux questions visuelles.