Doctorat en Mathématiques Appliquées
(Intelligence Artificielle)
Réseaux de neurones et transport optimal pour l'apprentissage de représentations
Septembre 2016 - Octobre 2020
Warith HARCHAOUI
Soutenance de doctorat - 8 octobre 2020 à 14h au MAP5 lab in Paris
Diffusion et réalisation: Jean Defontaine - Pierre Chosson // O·H·N·K
Chapitres dans la vidéo :
Discussion avec les membres du jury:
J'ai passé quatre merveilleuses années à détourner les réseaux de neurones (avec des techniques dites d'apprentissage profond) de leur utilisation normale :
- Clustering avec des critères génératifs et discriminatifs et des distances de Wasserstein à l'aide de réseaux adversariaux génératifs (GAN)
- Importance non-supervisée de caractéristiques avec distortion maximale mais de distance infinitésimale de Wasserstein
- Prédiction avec incertitude
En termes simples, ce travail de doctorat concernait respectivement :
- comment faire quelques groupes dans un ensemble de données qui sont à la fois très nombreuses et très grandes. Par exemple, nous explorons la possibilité de regrouper des centaines de milliers (ou plus) de photographies, chacune composée de millions de pixels, c'est-à-dire de points de couleur
- comment montrer les attributs distinctifs des éléments d'un ensemble de données. En effet, nous étudions la possibilité d'interpréter les attributs (ou coordonnées) des données brutes sans annotations ni étiquettes
- comment estimer un indice de confiance d'une décision automatique. Dans les applications du monde réel (par exemple les contraintes industrielles, la santé, la sécurité, voire la justice), une approche statique de la confiance dans la prise de décision est cruciale pour redonner la responsabilité réelle aux êtres humains pour les cas difficiles typiquement.
Ces problèmes partagent un questionnement scientifique commun : comment représenter les données ? Pour cela, nous revisitons le concept mathématique appelé Transport Optimal avec un outil algorithmique très connu appelé Réseaux de neurones (surnommé “Deep Learning” depuis 2010 environ).
Des gens formidables comme Pr. Charles Bouveyron (mon directeur de thèse académique), Dr. Stéphane Raux (mon directeur de thèse d'entreprise), Dr. Pierre-Alexandre Mattei, Pr. Andrés Almansa, Thi Thanh Yen Nguyen, Pr. Olivier Bouaziz et Pr. Antoine Chambaz m'ont fait un honneur en m'aidant à accomplir ce travail dans la chaleur du laboratoire MAP5 et avec la pugnacité de l'entreprise Oscaro.
Éléments du doctorat:
Pour faciliter la lecture, les chapitres sont séparés ici :
Des travaux non publiés ont été entrepris au cours de cette thèse sans apparaître dans le manuscrit (et sont actuellement en cours) :
-
Grammaire et apprentissage profond, projet en traitement du langage naturel visant à réconcilier la grammaire issue de la linguistique et les réseaux neuronaux via les auto-encodeurs et les techniques modernes de plongement, dans le prolongement d'un stage de recherche que j'ai conçu et encadré pour Maxime Haddouche.
- GaDeMI : Gaussian and Decorrelated Means Independence, projet d'analyse avancée des données avec Dr. Joan Alexis Glaunès concernant un nouveau type d'auto-encodeurs construits en couches successives pour extraire une représentation dont les coordonnées sont quasi-gaussiennes et décorrélées (et donc approximativement indépendantes)
Extension de l'annexe Auto-encoder-based GAN Initialization
-
StaReLefOU : State Representation Learning from Observation Uncertainty, projet en robotique avec Astrid Merckling visant la construction d'une représentation d'état construite sans récompense tout en étant utile pour toute tâche inconnue dans le même environnement grâce à l'exploration.
Extension du chapitre Prediction with Uncertainty
- Co-Clustering de Wasserstein, projet en Biologie Informatique pour l'étude de la maladie de Huttington utilisant le co-clustering pour l'appariement de molécules d'ARN de nature différente avec le Transport Optimal avec Thi Thanh Yen Nguyen, Pr. Olivier Bouaziz et Pr. Antoine Chambaz
Extension du chapitre Wasserstein Clustering
-
Cerbero : Détection précoce et en temps réel des fraudes à la carte de crédit chez Oscaro.com, projet d'IA appliquée avec une optimisation numérique pragmatique axée sur les coûts qui a bénéficié d'une certaine couverture médiatique avec les collègues Roland Thiollière,
Romain Nio,
Nils Grunwald,
Jérémie Thomas,
Julien Gaunon,
and Dr. Stéphane Raux (ordre aléatoire).
Extension du chapitre Prediction with Uncertainty
-
i2nn : Une invitation aux réseaux de neurones, conférence donnée à plusieurs reprises pour convaincre les personnes travaillant à la fois dans le domaine des statistiques et de la programmation d'utiliser l'apprentissage profond.
Extension du chapitre État de l'art
Warith Harchaoui