Analyse du flot de gradient pour les réseaux de neurones larges à deux couches

Jeudi 8 avril 14:00-15:00 - Lénaïc Chizat - LMO Orsay

Résumé : Les réseaux de neurones artificiels sont des familles paramétrées de fonctions de prédiction, utiles dans de nombreuses tâches en apprentissage automatique (classification, régression, modèles génératifs, etc). Pour une tâche d’apprentissage donnée, les paramètres du réseau sont ajustés à l’aide d’un algorithme de descente de gradient, de sorte que le prédicteur correspondant atteigne une bonne performance sur un jeu de données d’entraînement. Dans cet exposé, on présentera une analyse de cet algorithme pour les réseaux de neurones larges à deux couches en apprentissage supervisé, qui aboutit à une caractérisation précise du prédicteur appris.
L’idée maîtresse consiste à étudier la dynamique d’entraînement en temps continu lorsque la taille du réseau de neurones tend vers l’infini : cet objet limite est un flot de gradient dans l’espace de Wasserstein. Bien que la fonction objectif ne soit pas géodésiquement convexe, on montre que pour une initialisation adéquate, la limite de ce flot de gradient (si elle existe) est un minimiseur global. Nous étudierons aussi la « régularisation implicite » de cet algorithme quand l’objectif d’entraînement est la fonction de perte logistique sans régularisation : parmi la multitude de minimiseurs globaux, l’algorithme en choisit un en particulier, qui s’avère être un classifieur de type « marge maximale ». Enfin, nous discuterons des conséquences de ces résultats sur les performances statistiques de ces modèles en grande dimension. Il s’agit d’un travail en collaboration avec Francis Bach.

Lieu : visioconférence (lien dans l'annonce par e-mail)

Analyse du flot de gradient pour les réseaux de neurones larges à deux couches  Version PDF