Combinaison d’estimateurs en apprentissage statistique : quel impact respectif des proximités en entrée et sortie ?

Jeudi 17 mars 2016 14:00-15:00 - Aurélie Fischer - Paris 7

Résumé : Combinaison d’estimateurs en apprentissage statistique :
quel impact respectif des proximités en entrée et sortie ?
Dans cet exposé, je présenterai un travail effectué en collaboration avec Mathilde Mougeot, consistant en l’étude d’une stratégie de combinaison d’estimateurs en apprentissage statistique. Notre point de vue est inspiré d’une idée de Mojirsheibani (1999, 2000, 2002a, 2002b), qui suggère d’utiliser une notion de consensus afin de combiner plusieurs classifieurs.
Dans les travaux de Mojirsheibani, tout comme dans une extension récente au contexte de la régression proposée par Biau et al. (2015), une certaine condition de proximité intervenant dans la définition de l’estimateur combiné doit être satisfaite pour tous les estimateurs initiaux, ce qui peut poser problème, notamment en présence d’un estimateur se comportant plutôt mal par rapport aux autres. Pour remédier en pratique à ce problème, la condition de proximité est requise seulement pour une certaine proportion d’estimateurs. Pour l’obtention de résultats théoriques, cette proportion doit tendre vers 1.
Ici, nous proposons une modification de la procédure, en associant à l’idée de consensus, qui s’est avérée globalement très performante, l’information fournie par les distances entre les entrées. Cette nouvelle version de la méthode peut être vue comme une manière alternative de réduire l’effet d’un éventuel mauvais estimateur dans la liste d’estimateurs initiaux. Une caractéristique particulièrement appréciable de cette approche est sa flexibilité, en lien avec la recherche d’un équilibre entre dimension (intrinsèque) des entrées et dimension des sorties (correspondant au nombre d’estimateurs à combiner).
La consistance de cette nouvelle stratégie peut être démontrée sous des hypothèses assez générales. En particulier, il n’est pas nécessaire que la liste initiale contienne un estimateur consistant. La méthode sera illustrée à l’aide de quelques expériences numériques.
M. Mojirsheibani (1999). Combining classifiers via discretization, Journal of the American Statistical Association, 94, 600-609.
M. Mojirsheibani (2000). A kernel-based combined classification rule, Statistics & Probability Letters, 48, 411-419.
M. Mojirsheibani (2002). An almost surely optimal combined classification rule, Journal of Multivariate Analysis, 81, 28-46.
M. Mojirsheibani (2002). A comparison study of some combined classifiers, Communications in Statistics - Simulation and Computation, 31, 245-260.
G. Biau, A. Fischer, B. Guedj, J. Malley (2015). COBRA : A combined regression strategy, Journal of Multivariate Analysis, in press.

Lieu : Salle 117-119

Combinaison d’estimateurs en apprentissage statistique : quel impact respectif des proximités en entrée et sortie ?  Version PDF