Séminaire Probabilités et Statistiques
Problèmes de bandits pour le brokerage
20
Nov. 2025
logo_team
Intervenant : François Bachoc
Institution : Univ. Lille
Heure : 14h00 - 15h00
Lieu : 3L8

Nous présentons un problème de bandit stochastique modélisant le brokerage dans les plate-formes d'échanges numériques. Le joueur choisit un prix de vente à chaque tour, et il en résulte un gain appelé gain from trade, qui dépend des réalisations de valuations aléatoires attribuées par deux agents. Le but est de contrôler le regret cumulé correspondant aux gains obtenus.

Nous montrons comment on se ramène à un problème d'estimation en ligne de moyenne sous une hypothèse de densité des deux valuations, et de leur indépendance. Nous montrons aussi comment les observations accessibles, appelées 2-bit feedback, mènent à un choix entre exploration et exploitation à chaque tour. Nous donnerons aussi des résultats dans le cadre contextuel, avec une version linéaire et une version non-paramétrique.

Si le temps le permet, un cadre d'observations complètes, appelé full feedback, sera aussi présenté. Ce cadre donne des bornes de regret cumulé plus petites, et permet de s'affranchir de l'hypothèse de densité.
 

All (past and future) events