PhD defense of Damien Fourure

The Tuesday, December 12, 2017

At 2:30 PM

Room D03
Campus Manufacture
18 rue du Professeur Benoît Lauras
42000 Saint-Etienne

"Réseaux de neurones convolutifs pour la segmentation sémantique et l’apprentissage d’invariants de couleur"

(French version below)

ABSTRACT

Computer vision is an interdisciplinary field that investigates how computers can gain a high level of understanding from digital images or videos.
In this thesis, we study convolutional neural networks in order to develop specialized architectures and cost functions for low-level tasks (color constancy) as well as high-level tasks (semantic image segmentation).

Color constancy is the ability of the human visual system to perceive constant colours for a surface despite changes in the spectrum of illumination (lighting change).
In computer vision, the main approach consists in estimating the color of the illuminant and then suppressing its impact on the perceived color of objects.
We approach the task of chromatic consistency with the use of neural networks by developing a new architecture composed of a subsampling operator inspired by traditional methods.

We are also making two contributions on a high-level issue: semantic segmentation.

This task, which consists of assigning a semantic class to each pixel of an image, is a challenge in computer vision because of its complexity.
On the one hand, it requires many examples of training that are costly to obtain.
On the other hand, it requires the adaptation of traditional convolutive neural networks in order to obtain a so-called dense prediction, i. e., a prediction for each pixel present in the input image.

1) To solve the difficulty of acquiring training data, we propose an approach that exploits simultaneously several databases annotated with different labels.

2) We present a new convolutive neural network architecture called GridNet, specialized for semantic segmentation.
Unlike traditional networks, implemented with a single path from the input (image) to the output (prediction), our architecture is implemented as a 2D grid allowing several interconnected streams to operate at different resolutions.
We conclude with an analysis of the empirical results obtained with our architecture which, although trained with a random initialization of weights, reveals very good performances, exceeding the popular approaches often pre-trained.

COMMITTEE

Patrick PEREZ, Distinguished Scientist , PhD, Technicolor, Rennes (Reviewer)
Nicolas THOME, Professeur CNAM Paris (Reviewer)
Thierry CHATEAU, Professeur, Université Blaise Pascal, Clermont-Ferrand (Examiner)
Mikaela KELLER, Maître de Conférences, INRIA Lille Nord Europe (Examiner)
Jakob VERBEEK, Maître de Conférences, HDR, INRIA Rhone-Alpes, Grenoble (Examiner)
Alain TREMEAU, Professeur, Université Jean Monnet, Saint-Etienne (Director)
Christian WOLF, Maître de Conférences HDR, INSA Lyon (Director)
Rémi EMONET, Maître de Conférences, Université Jean Monnet, Saint-Etienne (Supervisor)
Elisa FROMONT, Professeur, Université Rennes 1 (Supervisor)
Damien MUSELET, Maître de Conférences, Université Jean Monnet, Saint-Etienne (Supervisor)

The defense will be done in French

RESUME

La vision par ordinateur est un domaine interdisciplinaire étudiant la manière dont les ordinateurs peuvent acquérir une compréhension de haut niveau à partir d'images ou de vidéos numériques.
Dans cette thèse, nous étudions les réseaux de neurones convolutifs afin de développer des architectures et des fonctions de coûts spécialisées à des tâches aussi bien de bas niveau (la constance chromatique) que de haut niveau (la segmentation sémantique d'image).

La constance chromatique est la capacité du système visuel humain à percevoir des couleurs constantes pour une surface malgré les changements dans le spectre de l'illumination (changement d'éclairage).
En vision par ordinateur, l'approche principale consiste à estimer la couleur de l'illuminant puis à supprimer son impact sur la couleur perçue des objets.
Nous abordons la tâche de constance chromatique avec l'utilisation des réseaux de neurones en développant une nouvelle architecture composée d'un opérateur de sous-échantillonnage inspiré des méthodes traditionnelles existantes.

Nous apportons également deux contributions sur une problématique de haut niveau : la segmentation sémantique d'image.
Cette tâche, qui consiste à attribuer une classe sémantique à chacun des pixels d'une image, constitue un défis en vision par ordinateur de par sa complexité.
D'une part, elle requiert de nombreux exemples d'entraînement dont les vérités terrains sont coûteuses à obtenir.
D'autre part, elle nécessite l'adaptation des réseaux de neurones convolutifs traditionnels afin d'obtenir une prédiction dite dense, c'est-à-dire, une prédiction pour chacun pixel présent dans l'image d’entrée.

1) Pour résoudre la difficulté liée à l'acquisition de données d'entrainements, nous proposons une approche qui exploite simultanément plusieurs bases de données annotées avec différentes étiquettes.

2) Nous présentons une nouvelle architecture de réseau de neurones convolutifs appelée GridNet spécialisée pour la segmentation sémantique d'image.
Contrairement aux réseaux traditionnels, implémentés avec un unique chemin allant de l'entrée (l'image) à la sortie (la prédiction), notre architecture est implémentée sous forme de grille 2D permettant à plusieurs flux interconnectés de fonctionner à différentes résolutions.
Nous terminons par une analyse des résultats empiriques obtenus avec notre architecture qui, bien qu'entraînée avec une initialisation aléatoire des poids, révèle de très bonnes performances, dépassant les approches populaires souvent pré-entraînés.

La thèse sera donnée en français