Oct. 2024
Intervenant : | FERMANIAN Jean-Baptiste | ||
Directeur : | FROMONT Magalie | Directeur : | BLANCHARD Gilles |
Heure : | 15h00 | ||
Lieu : | Salle 3L8 |
Nous étudions dans cette thèse l'influence de la grande dimension dans des problèmes de test et d'estimation. Notre analyse porte sur la dépendance en la dimension de la vitesse de séparation d'un test de proximité et du risque quadratique de l'estimation multiples de vecteurs. Nous complétons les résultats existants en étudiant ces dépendances dans le cas de distributions non isotropes. Pour de telles distributions, le rôle de la dimension est alors joué par des notions de dimension effective définies à partir de la covariance des distributions. Ce cadre permet d'englober des données de dimension infinie comme le kernel mean embedding, outil de machine learning que nous chercherons à estimer. A l'aide de cette analyse, nous construisons des méthodes d'estimation simultanée de vecteurs moyennes de différentes distributions à partir d'échantillons indépendants de chacune. Ces estimateurs ont de meilleures performances théorique et pratique relativement aux moyennes empiriques, en particulier dans des situations défavorables où la dimension (effective) est grande.
Ces méthodes utilisent explicitement ou implicitement la relative facilité du test par rapport à l'estimation. Elles reposent sur la construction d'estimateurs de distances et de moments de la covariance pour lesquels nous fournissons des bornes de concentration non asymptotiques. Un intérêt particulier est porté à l'étude de données bornées pour lesquels une analyse spécifique est nécessaire. Nos méthodes sont accompagnées d'une analyse minimax justifiant leur optimalité.
Dans une dernière partie, nous proposons une interprétation du mécanisme d'attention utilisé dans les réseaux de neurones Transformers comme un problème d'estimation multiple de vecteurs. Dans un cadre simplifié, ce mécanisme partage des idées similaires avec nos approches et nous mettons en évidence son effet de débruitage en grande dimension.