Statistiques (et probabilités) en grande dimension


Christophe Giraud, Matthieu Lerasle, Tristan Mary-Huard

Ce cours est un cours joint entre le Master2 Mathématiques de l'aléatoire (finalités Statistiques et Machine Learning et Probabilités et Statistiques) et le Master Mathématiques pour les Sciences du Vivant Mathématiques du Vivant.

Les 7 premières semaines de cours, avec Christophe Giraud sont communes, puis le cours est séparé en deux. Les étudiants du Master2 Mathématiques de l'aléatoire poursuivent avec 6 semaines de cours avec Matthieu Lerasle et les étudiants du Master2 Mathématiques pour les Sciences du Vivant poursuivent avec 3 semaines de cours avec Tristan Mary-Huard.

Objectifs

L’objectif principal de ce cours est

Contenu

La principale difficulté du statisticien face aux données du XXIème siècle est de vaincre le fléau de la grande dimension. Ce fléau oppose aux statisticiens deux difficultés : d'une part il rend les méthodes statistiques classiques totalement inopérantes par manque de précision, d'autre part il oblige à développer des approches gardant sous contrôle la complexité algorithmique des procédures d'estimation.

Première partie du cours (Giraud, M2 MDA+MSV).
Dans la première partie du cours (commune MDA et MSV), nous commencerons par comprendre d’où vient ce fléau et quels concepts permettent de le vaincre. Ensuite, nous verrons comment rendre opérationnels ces concepts, avec une attention sur les frontières du possible. Pour l'essentiel, nous resterons dans un cadre gaussien afin que les aspects techniques ne viennent pas masquer les principales idées.

Seconde partie du cours (Lerasle, M2 MDA).
Côté MDA, la seconde partie du cours, sera principalement consacrée aux outils probabilistes fondamentaux indispensables pour analyser des problèmes en grande dimension. Du temps sera consacré à démontrer des inégalités de concentration sur de grandes matrices aléatoires, à obtenir des résultats de chaînage pour montrer des inégalités maximales et faire des liens avec la géométrie des espaces de Banach. L’accent sera mis sur les techniques mathématiques et sur la généricité des approches déployées.

Seconde partie du cours (Huard, M2 MSV).
Côté MSV, la seconde partie du cours est consacrée à la classification supervisée et à des applications en biologie.

Documents

La première partie du cours est basée sur une version étendue de l'ouvrage Introduction to High-Dimensional Statistics disponible en ligne à cette adresse Lecture notes.

book

Vous êtes invités à partager vos solutions aux exercices (en anglais!) sur le wiki-site associé.

La première partie du cours sera diffusée sur la chaîne youtube High-dimensional statistics and probability



La seconde partie du cours avec Matthieu Lerasle est basée sur le livre de Roman Vershynin.

Enfin, pour approfondir ce cours, vous pouvez regarder le livre de Martin Wainwright pour les aspects mathématiques et l'incontrounable The elements of statistical learning pour les aspects méthodologiques.

Organisation du cours

DateTopic
Lecturer
ChapterHandwritten notes, SlidesExercises
Sept 29Curse of dimensionality and model selection
C.G.
Chap 1 and 2
Notes, Slides
1.6.5, 1.6.6 (part A)
Oct 6Model selection
C.G.
Chap 2
Notes,
2.8.1 (part A and B), 2.8.4
Oct 13 information lower bounds
C.G.
Chap 3
Notes,
3.6.2, 3.6.3
Oct 20Convex criterion
C.G.
Chap 5
Notes, Slides
5.5.7
Nov 3Iterative algorithms
C.G.
Chap 6
Notes,
6.4.3
Nov 10Low rank regression
C.G.
Chap 8
Notes,
8.6.3
Nov 17False discoveries and multiple testing
C.G.
Chap 10
Notes, Slides
5.5.9 (part A,B)

Emploi du temps: Examen: ECTS
MDA: 5+5 ECTS
MSV: 6 ECTS


Examens années passées

Dispos ici