Thèse Toutes équipes

Estimation et sélection de variables dans les modèles mixtes et joints pour données longitudinales et de survie. Application à la modélisation conjointe des dates d'attaque du maïs par la pyrale et des défenses au cours du développement de la plante

01
Dec. 2025
Intervenant : CAILLEBOTTE Antoine
Directeur : Judith LEGRAND Directeur : LEMLER Sarah Directeur : KUHN Estelle
Heure : 10h00
Lieu : Salle 3L8

La compréhension des interactions entre des phénomènes dynamiques dépendants est essentielle pour l'étude de population complexe d'individus. Les données longitudinales, mesures répétées au cours du temps, et les données de survie, mesures de temps jusqu'à un événement d'intérêt, sont deux types de données souvent recueillies en sciences du vivant, particulièrement en médecine ou en science végétale. Par ailleurs, des données de grande dimension en lien avec ces mesures sont de plus en plus souvent disponibles. Les modéliser conjointement est le sujet de cette thèse.

D'une part, la modélisation à effets mixtes permet d'expliquer et d'interpréter les différences de variabilités que l'on peut avoir dans les données longitudinales, en utilisant des effets fixes communs à toute la population et des effets aléatoires variables d'un individu à l'autre dans la population. D'autre part, la durée entre un instant initial et la survenue d'un événement d'intérêt est modélisée par les modèles de survie. Un modèle joint combine un modèle à effets mixtes pour des données longitudinales et un modèle de survie pour des mesures de temps via une fonction de lien.

Ces modèles utilisent également des covariables pour décrire les variabilités entre les individus d’une population. Ces covariables sont des caractéristiques mesurées, spécifiques aux individus ou à des groupes d'individus. Le nombre de ces dernières peut dépasser celui du nombre d'individus. Dans ce contexte de grande dimension, identifier les covariables à modéliser est une tache statistique difficile. En particulier, la sélection des variables pertinentes est d’autant plus complexe en présence de variables latentes non observées et dans le cas de modèles non linéaires.

La première contribution de cette thèse porte sur une méthode d'estimation des modèles joints associant un modèle non linéaire à effets mixtes et un modèle de survie. L’approche proposée est fondée sur le maximum de vraisemblance et permet de s'affranchir des hypothèses classiques, en particulier l'appartenance du modèle à la famille exponentielle qui n’est pas satisfaite structurellement. Nous proposons une nouvelle méthode d'estimation des paramètres du modèle joint sans faire cette hypothèse via un algorithme de descente de gradient stochastique préconditionné. Nous étudions et comparons ses performances via une étude de simulation.

La seconde contribution de ce travail de thèse se situe aux interfaces avec la biologie et consiste à analyser via un modèle joint un jeu de données réel pour mieux comprendre le lien entre le développement du maïs et les attaques du maïs par la pyrale. La procédure d'estimation du modèle joint proposée dans la première contribution a été mise en œuvre. Cette application ouvre des perspectives de recherche afin de répondre plus en détail à la question biologique complexe.

La troisième contribution porte sur la sélection de variables dans les modèles non linéaires à effets mixtes en grande dimension. Nous proposons une approche basée sur l'estimation par maximum de vraisemblance régularisée avec une pénalisation l1. Nous sélectionnons les variables pertinentes via un critère de choix de modèle de type eBIC et calculons en pratique cet estimateur via un algorithme de descente de gradient stochastique combiné à un opérateur proximal pondéré. Nous étudions et comparons les performances de la méthode proposée via une étude de simulation.

La quatrième contribution porte sur la sélection de variables dans les modèles joints. La procédure proposée pour les modèles à effets mixtes a été étendue au cadre du modèle joint intégrant des covariables de grande dimension dans le risque de survie. Nous étudions les performances via une étude de simulation qui démontre la capacité de la méthode proposée à estimer et à sélectionner les covariables pertinentes dans différents modèles complexes.

All (past and future) events