GEY, Servane - Modélisation Stochastique et Statistique, Université Paris-Sud, Bât. 425, 91405 Orsay cedex
NEDELEC, Elodie - Modélisation Stochastique et Statistique, Université Paris-Sud, Bât. 425, 91405 Orsay cedex
Ce papier considère les performances de l'algorithme de pruning sur les arbres de régression et de classification (CART) et les performances de la sélection finale par échantillon-témoin vue comme une procédure d'estimation fonctionnelle. Le point principal est la validation de l'algorithme de pruning dans les cas de régression gaussienne sur grille fixe et de régression bornée sur grille aléatoire. Nous montrons que la pénalité de complexité utilisée dans l'algorithme de pruning est valide dans le cas de la régression gaussienne et aussi dans le cas de la régression bornée sous certaines hypothèses sur les splits utilisés dans la construction de l'arbre maximal. De plus, nous montrons que la sélection finale par échantillon-témoin n'altère pas beaucoup la qualité de l'estimation de la fonction de régression. Les bornes de risque que nous obtenons sont issues de la théorie de sélection de modèles et valident dans les deux cas l'algorithme CART, utilisé dans beaucoup d'applications comme la météorologie, la biologie, la médecine, la pollution ou le codage d'images. |
Abstract :
This paper considers the performance of the Classification And Regression Trees (CART) pruning algorithm and the final discrete selection by test-sample as a functional estimation procedure. Of primary interest is the validation of the pruning procedure applied on fixed design Gaussian regression and on random design bounded regression. It is shown that the complexity penalty used in the pruning algorithm is valid in the Gaussian regression case and also in the bounded regression case under some asymptotic conditions on the splits used to construct the maximal tree. Moreover it is shown that the final selection does not alterate so much the estimation accuracy of the regression function. The risk bounds that we prove are obtained using the Model Selection Theory and validate in both cases the CART algorithm which is used in many applications such that Meteorology, Biology, Medicine, Pollution or Image Coding. |
Article :
Fichier Postscript
Contact : Servane.Gey@math.u-psud.fr