Analyse mathématique de l'agrégation de politiques d'apprentissage par renforcement
Dec. 2025
| Intervenant : | MIGNACCO Chiara | ||
| Directeur : | JONCKHEERE Matthieu | Directeur : | STOLTZ Gilles |
| Heure : | 14h00 | ||
| Lieu : | Salle 3L8 |
L’apprentissage par renforcement (RL) fournit un cadre rigoureux pour la prise de décision séquentielle en environnement incertain, où un agent apprend par interaction avec son environnement. Cette approche a permis des avancées spectaculaires, allant de la maîtrise de jeux complexes à la commande robotique, la logistique ou encore la santé. Toutefois, le passage de ces succès académiques à des applications réelles met en lumière plusieurs limites fondamentales : l’apprentissage depuis zéro est souvent trop coûteux en données, les politiques issues de modèles opaques manquent de transparence, et les environnements non stationnaires ou adversariaux fragilisent la stabilité. Le défi central est donc de concevoir des méthodes à la fois adaptatives et fiables, tout en tirant parti de connaissances expertes préexistantes.
Cette thèse propose une étude mathématique de l’orchestration de politiques, approche qui ne consiste pas à apprendre une politique tabula rasa, mais à agréger de manière adaptative un ensemble de politiques expertes. Ces experts peuvent être des heuristiques simples, des contrôleurs pré-entraînés ou des règles interprétables, chacun efficace dans un régime particulier mais aucun optimal en toute circonstance. L’orchestration vise ainsi à combiner transparence et adaptabilité, en conciliant expertise humaine et flexibilité de l’apprentissage automatique.
La première contribution établit un lien théorique entre RL et apprentissage séquentiel adversarial. Nous étendons le cadre Adv2, montrant que l’amélioration de politique peut être reformulée comme un problème d’apprentissage sans regret appliqué aux fonctions avantage. Cette réduction permet de dépasser les méthodes classiques à poids exponentiels, d’étudier la convergence de l’itéré final pour de larges classes de stratégies adversariales, et de dériver des garanties de regret plus fortes (adaptatif et suivi).
La deuxième contribution introduit un cadre d’orchestration de politiques sous contraintes. Plutôt que d’optimiser dans l’espace des politiques arbitraires, nous restreignons l’agent à utiliser des mélanges de politiques experts dépendant de l'état, en concevant des mises à jour fondées sur l’estimation des avantages. Nous analysons le rôle de l’apprentissage par différences temporelles pour fournir des estimations fiables, même sous taille de pas constante et en environnement non stationnaire, et nous établissons des garanties en temps fini. Ce cadre conserve l’interprétabilité tout en assurant des performances robustes.
Enfin, nous proposons des algorithmes passant à l'échelle pour des applications d'appariement séquentiel, où les décisions doivent être à la fois efficaces et transparentes. Nous présentons des implémentations tabulaires et utilisant des réseaux de neurones de schémas d’orchestration, appliquées à des modèles d'appariement stochastique, dont un scénario d’échanges d’organes.
Les expériences montrent que les politiques orchestrées s’adaptent plus rapidement et surpassent à la fois les experts isolés et les méthodes RL classiques, soulignant la valeur d’un apprentissage structuré dans des environnements complexes. Ainsi, cette thèse positionne l’orchestration de politiques comme une perspective unificatrice combinant garanties théoriques de l’apprentissage adversarial et savoir-faire des experts. Elle apporte à la fois des outils théoriques nouveaux et des méthodes applicatives, contribuant à la conception de systèmes RL efficaces, interprétables et fiables dans des environnements dynamiques.