Apprentissage statistique et rééchantillonnage

Sylvain Arlot

Master 2 "Mathématiques de l'Aléatoire" (Probabilités et Statistiques + Statistiques et Machine Learning)

Université Paris-Saclay (Faculté des Sciences d'Orsay)

1er semestre, 2022/2023

Les cours ont lieu le lundi de 16h à 18h, à l'Institut de Mathématiques d'Orsay (bâtiment 307), salle 1B14.

20h, 5 ECTS

Notes de cours:

Fondamentaux de l'apprentissage statistique (1ère partie du cours: séances 1 à 5).
Il s'agit d'une version légèrement mise à jour d'un chapitre de livre.
Validation croisée (2ème partie du cours: séances 6 et 7).
Il s'agit d'une version légèrement mise à jour d'un chapitre de livre.
Rééchantillonnage (3ème et dernière partie du cours: séance 7)

Premier cours: 26/09

Dates des cours:
26/09, 03-10-17/10, 07-14-21-28/11
Pas de cours les 24/10, ni le 31/10!

Plan du cours approximatif:

Prévision, régression et classification -- Minimisation du risque empirique 1/2 (Fondamentaux, sections 1 à 3.5)
Minimisation du risque empirique 2/2 (Fondamentaux, sections 3.6 à 3.7)
Coûts convexes en classification (Fondamentaux, section 4) -- Moyenne locale 1/2 (Fondamentaux, section 5.1)
Moyenne locale 2/2 (Fondamentaux, section 5) -- On n'a rien sans rien (Fondamentaux, section 6)
Bilan partiel sur l'apprentissage (Fondamentaux, section 7 + compléments)
Validation croisée 1/2 (sections 1 à 3.2 + section 6)
Validation croisée 2/2 (sections 3.3 à 5) -- Rééchantillonnage

Date de l'examen à déterminer.

Résumé

La première partie du cours présentera les fondements de la théorie statistique de l'apprentissage supervisé, en classification et en régression. Nous établirons des bornes sur l'erreur de prédiction de plusieurs méthodes d'apprentissage parmi les plus classiques : moyennage local (partitions, k plus proches voisins, noyaux) et minimisation du risque empirique. Ces résultats montreront en particulier que certaines de ces méthodes sont « universellement consistantes ». En revanche, nous verrons qu'un apprentissage totalement agnostique n'est possible que dans certaines limites (« on n'a rien sans rien »), ce qui se formalise mathématiquement par plusieurs théorèmes aux énoncés plutôt contre-intuitifs. La deuxième partie du cours se focalisera sur les méthodes de rééchantillonnage (bootstrap, sous-échantillonnage, validation croisée, etc.) et à leur application en apprentissage. Nous étudierons en particulier leurs propriétés pour l'estimation de l'erreur de prédiction d'une méthode d'apprentissage, et pour la sélection parmi une famille de méthodes d'apprentissage.

Retour à l'index - Back to index