Statistiques (et probabilités) en grande dimension


Christophe Giraud, Matthieu Lerasle, Tristan Mary-Huard

Ce cours est un cours joint entre le Master2 Mathématiques de l'aléatoire (finalités Statistiques et Machine Learning et Probabilités et Statistiques) et le Master2 Mathématiques pour les Sciences du Vivant Mathématiques du Vivant.

Les 7 premières semaines de cours, avec Christophe Giraud sont communes, le reste du cours est séparé en deux. Les étudiants du Master2 Mathématiques de l'aléatoire poursuivent avec 6 semaines de cours avec Matthieu Lerasle et les étudiants du Master2 Mathématiques pour les Sciences du Vivant suivent 3 semaines de cours avec Tristan Mary-Huard.

Objectifs

L’objectif principal de ce cours est

Contenu

La principale difficulté du statisticien face aux données du XXIème siècle est de vaincre le fléau de la grande dimension. Ce fléau oppose aux statisticiens deux difficultés : d'une part il rend les méthodes statistiques classiques totalement inopérantes par manque de précision, d'autre part il oblige à développer des approches gardant sous contrôle la complexité algorithmique des procédures d'estimation.

Première partie du cours (Christophe Giraud, M2 MDA+MSV).
Dans la première partie du cours (commune MDA et MSV), nous commencerons par comprendre d’où vient ce fléau et quels concepts permettent de le vaincre. Ensuite, nous verrons comment rendre opérationnels ces concepts, avec une attention sur les frontières du possible. Pour l'essentiel, nous resterons dans un cadre gaussien afin que les aspects techniques ne viennent pas masquer les principales idées.

Seconde partie du cours (Matthieu Lerasle, M2 MDA).
Côté MDA, la seconde partie du cours, sera principalement consacrée aux outils probabilistes fondamentaux indispensables pour analyser des problèmes en grande dimension. Du temps sera consacré à démontrer des inégalités de concentration sur de grandes matrices aléatoires, à obtenir des résultats de chaînage pour montrer des inégalités maximales et faire des liens avec la géométrie des espaces de Banach. L’accent sera mis sur les techniques mathématiques et sur la généricité des approches déployées.

Seconde partie du cours (Tristan Mary-Huard, M2 MSV).
Côté MSV, la seconde partie du cours est consacrée à la classification supervisée et à des applications en biologie. Lieu: à préciser. Dates: les jeudis 17, 24 et ?? novembre.

Documents

La première partie du cours est basée sur la seconde edition de l'ouvrage Introduction to High-Dimensional Statistics disponible en ligne à cette adresse Lecture notes.

book2

Vous êtes invités à partager vos solutions aux exercices (en anglais!) sur le wiki-site associé.

En complément, une version enregistrée de la première partie du cours (2020) est accessible en ligne sur la chaîne youtube High-dimensional statistics and probability



La seconde partie du cours avec Matthieu Lerasle est principalement basée sur le livre de Roman Vershynin.

Enfin, pour approfondir ce cours, vous pouvez regarder le livre de Martin Wainwright pour les aspects mathématiques et l'incontrounable The elements of statistical learning pour les aspects méthodologiques.

Organisation du cours (première partie)

DateTopic
Lecturer
ChapterHandwritten notes, SlidesExercises
Sept 19Curse of dimensionality and model selection
C.G.
Chap 1 and 2
Notes, Slides
1.6.5, 1.6.6 (part A)
Sept 29Model selection
C.G.
Chap 2
Notes,
2.8.1 (part A and B), 2.8.4
Oct 6 Information lower bounds
C.G.
Chap 3
Notes,
3.6.2, 3.6.3
Oct 13Convex criterion
C.G.
Chap 5
Notes, Slides
5.5.7
Oct 20Iterative algorithms
C.G.
Chap 6
Notes,
6.4.1
Oct 27Low rank regression
C.G.
Chap 8
Notes,
8.6.3
Nov 10False discoveries and multiple testing
C.G.
Chap 10
Notes, Slides
5.5.9 (part A,B)

Emploi du temps: Examen: ECTS
MDA: 10 ECTS
MSV: 6 ECTS


Examens d'années passées

Dispos ici