These de Sylvain Arlot -- Reechantillonnage et Selection de modeles

Rééchantillonnage et Sélection de modèles

English version of this page - Retour à l'index.

J'ai soutenu ma thèse de Mathématiques à l'Université Paris-Sud (Orsay). Mon directeur de thèse était Pascal Massart.

J'ai reçu pour ma thèse le prix Marie-Jeanne Laurent-Duhamel 2011 de la Société Française de Statistique (SFDS).

Version finale du manuscrit : [pdf]
Table des matières étendue du manuscrit [pdf]
Transparents de l'exposé de soutenance: [pdf]

Manuscrit définitif et transparents de soutenance sont disponibles sur TEL.

Résumé

Cette thèse s'inscrit dans les domaines de la statistique non-paramétrique et de la théorie statistique de l'apprentissage. Son objet est la compréhension fine de certaines méthodes de rééchantillonnage ou de sélection de modèles, du point de vue non-asymptotique.
La majeure partie de ce travail de thèse consiste dans la calibration précise de méthodes de sélection de modèles optimales en pratique, pour le problème de la prédiction. Nous étudions la validation croisée V-fold (très couramment utilisée, mais mal comprise en théorie, notamment pour ce qui est de choisir V) et plusieurs méthodes de pénalisation. Nous proposons des méthodes de calibration précise de pénalités, aussi bien pour ce qui est de leur forme générale que des constantes multiplicatives. L'utilisation du rééchantillonnage permet de résoudre des problèmes difficiles, notamment celui de la régression avec un niveau de bruit variable. Nous validons théoriquement ces méthodes du point de vue non-asymptotique, en prouvant des inégalités oracle et des propriétés d'adaptation. Ces résultats reposent entre autres sur des inégalités de concentration.
Un second problème que nous abordons est celui des régions de confiance et des tests multiples, lorsque l'on dispose d'observations de grande dimension, présentant des corrélations générales et inconnues. L'utilisation de méthodes de rééchantillonnage permet de s'affranchir du fléau de la dimension, et d'"apprendre" ces corrélations. Nous proposons principalement deux méthodes, et prouvons pour chacune un contrôle non-asymptotique de leur niveau.

Mots-clés

Statistique non-paramétrique ; apprentissage statistique ; rééchantillonnage ; non-asymptotique ; validation croisée V-fold ; bootstrap ; sélection de modèles ; pénalisation ; régression non-paramétrique ; adaptation ; hétéroscédastique ; régions de confiance ; tests multiples

Classification AMS

62G09 ; 62M20 ; 62G08 ; 62J02 ; 62G15 ; 62G10

Jury

M. Patrice BERTAIL ; CREST et Université Paris-X (Examinateur)
M. Philippe BERTHET ; Université Rennes-I (Examinateur)
M. Gilles BLANCHARD ; Fraunhofer FIRST, Berlin (Examinateur)
M. Stéphane BOUCHERON ; Université Paris-VII (Président)
M. Olivier CATONI ; CNRS et Université Paris-VI (Examinateur)
M. Pascal MASSART ; Université Paris-Sud XI (Directeur)

Rapporteurs

M. Peter L. BARTLETT ; University of California, Berkeley
M. Yuhong YANG ; University of Minnesota