Sélection de modèles optimale par pénalisation "V-fold"


Résumé:
On considère le problème de la sélection de modèles pour l'estimation, dans le cadre de la régression. Une approche classique est la minimisation d'un critère empirique pénalisé (Mallows), mais elle a le défaut majeur de ne pas fonctionner dans le cas hétéroscédastique (où l'intensité du bruit peut dépendre de la position d'observation).
Dans une telle situation "difficile", une méthode générale et populaire est la validation croisée "V-fold". Nous décrirons ses performances non-asymptotiques (c'est-à-dire à taille d'échantillon fixée, le rapport signal sur bruit pouvant donc être faible), et notamment l'influence du paramètre V sur celles-ci. Il s'avère que cette procédure est parfois sous-optimalité, notamment en raison de son manque de flexibilité.
Nous proposerons alors une nouvelle procédure, appelée "pénalisation V-fold", qui ne présente aucun des défauts précédents dans un cadre hétéroscédastique et n'utilise aucune information autre que les observations. En particulier, elle satisfait une inégalité oracle non-asymptotique, avec un constante proche de 1, dans un cadre où les deux méthodes précédentes sont sous-optimales.

Retour à l'index