Les modèles mixtes sont-ils utiles comme modèles prédictifs?

24

Je suis un peu confus quant aux avantages des modèles mixtes en matière de modélisation prédictive. Étant donné que les modèles prédictifs sont généralement destinés à prédire les valeurs d'observations jusque-là inconnues, il me semble évident que la seule façon dont un modèle mixte peut être utile est sa capacité à fournir des prévisions au niveau de la population (c'est-à-dire sans ajouter d'effets aléatoires). Cependant, le problème est que jusqu'à présent, d'après mon expérience, les prédictions au niveau de la population basées sur des modèles mixtes sont nettement pires que les prédictions basées sur des modèles de régression standard avec des effets fixes uniquement.

Quel est donc l'intérêt des modèles mixtes en ce qui concerne les problèmes de prédiction?

MODIFIER. Le problème est le suivant: j'ai adapté un modèle mixte (avec des effets fixes et aléatoires) et un modèle linéaire standard avec des effets fixes uniquement. Lorsque je fais une validation croisée, j'obtiens la hiérarchie suivante d'exactitude prédictive: 1) des modèles mixtes lors de la prédiction à l'aide d'effets fixes et aléatoires (mais cela ne fonctionne bien sûr que pour les observations avec des niveaux connus de variables d'effets aléatoires, donc cette approche prédictive ne semble pas être adapté à de vraies applications prédictives!); 2) modèle linéaire standard; 3) modèle mixte lors de l'utilisation de prévisions au niveau de la population (donc avec des effets aléatoires rejetés). Ainsi, la seule différence entre le modèle linéaire standard et le modèle mixte est une valeur quelque peu différente des coefficients en raison de différentes méthodes d'estimation (c'est-à-dire qu'il y a les mêmes effets / prédicteurs dans les deux modèles, mais ils ont des coefficients associés différents).

Ma confusion se résume donc à une question: pourquoi utiliserais-je un modèle mixte comme modèle prédictif, car l'utilisation d'un modèle mixte pour générer des prédictions au niveau de la population semble être une stratégie inférieure par rapport à un modèle linéaire standard.

sztal
la source
Comment faites-vous vos prédictions? N'utilisez-vous pas les effets aléatoires ou fixez-vous vos effets aléatoires à leurs moyens? (C'est-à-dire que vous jetez les effets aléatoires au moment de la prédiction?)
Wayne
Pour autant que je comprenne correctement les effets aléatoires, fixer les effets aléatoires à leurs moyennes revient à les éliminer, car les effets aléatoires (au moins dans la paramétrisation que j'utilise) sont générés à partir d'une distribution normale des moyennes 0 et de la sigma de variance. Mais de toute façon, comme je ne connais pas les valeurs des variables d'effets aléatoires pour les nouvelles observations, je n'utilise bien sûr pas d'effets aléatoires au moment de la prédiction, seulement des effets fixes.
sztal
1
Vous pouvez consulter ce document, "Sur l'efficacité des classificateurs de régression logistique basés sur un modèle mixte pour les données longitudinales", search.proquest.com/openview/3578d64c85f3c1c52414924d044bca2c/…
Jon
1
sztal: Vous avez bien sûr raison. J'essayais de répondre rapidement et j'ai dit quelque chose qui n'avait pas de sens. J'ai trouvé le document ( gllamm.org/JRSSApredict_09.pdf ) qui traite de la prédiction dans la section 7. Je dois dire que je ne peux pas le résumer à un commentaire, ce qui indique que je ne le comprends pas vraiment.
Wayne
Une dernière question: lorsque vous comparez des effets fixes uniquement à des effets mixtes, utilisez-vous les mêmes effets fixes dans chacun, avec seulement l'ajout de quelque chose comme une interception au niveau individuel? Il semble que dans cette situation, vous devriez avoir des effets très similaires, sauf avec une meilleure idée de votre véritable intervalle prédictif.
Wayne

Réponses:

17

Cela dépend de la nature des données, mais en général, je m'attendrais à ce que le modèle mixte surpasse les modèles à effets fixes uniquement.

Prenons un exemple: modéliser la relation entre l'ensoleillement et la hauteur des tiges de blé. Nous avons un certain nombre de mesures de tiges individuelles, mais beaucoup de tiges sont mesurées aux mêmes sites (qui sont similaires dans le sol, l'eau et d'autres choses qui peuvent affecter la hauteur). Voici quelques modèles possibles:

1) hauteur ~ ensoleillement

2) hauteur ~ soleil + site

3) hauteur ~ ensoleillement + (1 | site)

Nous voulons utiliser ces modèles pour prédire la hauteur des nouvelles tiges de blé étant donné une estimation de l'ensoleillement qu'elles connaîtront. Je vais ignorer la pénalité de paramètre que vous paieriez pour avoir de nombreux sites dans un modèle à effets fixes uniquement, et considérer simplement le pouvoir prédictif relatif des modèles.

La question la plus pertinente ici est de savoir si ces nouveaux points de données que vous essayez de prédire proviennent d'un des sites que vous avez mesurés; vous dites que c'est rare dans le monde réel, mais ça arrive.

A) Les nouvelles données proviennent d'un site que vous avez mesuré

Si c'est le cas, les modèles # 2 et # 3 surclasseront # 1. Ils utilisent tous deux des informations plus pertinentes (effet moyen du site) pour faire des prédictions.

B) Les nouvelles données proviennent d'un site non mesuré

Je m'attendrais toujours à ce que le modèle # 3 surpasse les performances # 1 et # 2, pour les raisons suivantes.

(i) Modèle # 3 vs # 1:

Le modèle n ° 1 produira des estimations biaisées en faveur des sites surreprésentés. Si vous avez un nombre de points similaire pour chaque site et un échantillon de sites raisonnablement représentatif, vous devriez obtenir des résultats similaires des deux.

(ii) Modèle # 3 vs # 2:

Pourquoi le modèle n ° 3 serait-il meilleur que le modèle n ° 2 dans ce cas? Parce que les effets aléatoires profitent du rétrécissement - les effets de site seront «rétrécis» vers zéro. En d'autres termes, vous aurez tendance à trouver des valeurs moins extrêmes pour les effets de site lorsqu'il est spécifié comme un effet aléatoire que lorsqu'il est spécifié comme un effet fixe. Ceci est utile et améliore votre capacité de prédiction lorsque les moyennes de population peuvent raisonnablement être considérées comme tirées d'une distribution normale (voir Paradoxe de Stein en statistiques ). Si les moyennes de population ne devraient pas suivre une distribution normale, cela pourrait être un problème, mais c'est généralement une hypothèse très raisonnable et la méthode est robuste à de petites déviations.

[Note latérale: par défaut, lors de l'ajustement du modèle n ° 2, la plupart des logiciels utiliseraient l'un des sites comme référence et estimeraient les coefficients pour les autres sites qui représentent leur écart par rapport à la référence. Il peut donc sembler qu'il n'y ait aucun moyen de calculer un «effet démographique» global. Mais vous pouvez calculer cela en faisant la moyenne des prévisions pour tous les sites individuels, ou plus simplement en modifiant le codage du modèle afin que les coefficients soient calculés pour chaque site.]

mkt - Réintégrer Monica
la source
Merci d'avoir répondu. Je suis plutôt convaincu. Malheureusement, je ne me souviens pas maintenant du cas exact qui a motivé ma question, mais je pense que les mauvaises performances d'un modèle mixte dans mon cas auraient pu être dues à des distributions assez irrégulières des prédicteurs que j'ai utilisés dans le modèle. J'accepterai bientôt la réponse, mais comme la question a attiré un peu l'attention, je donnerai quelques jours de plus pour que quelqu'un puisse peut-être donner une explication plus stricte (peut-être avec quelques exemples).
sztal
1
Bien placé. Il convient de noter que la prédiction héréditaire des effets spécifiques au site qui donnent lieu aux effets aléatoires, pour prédire quelle que soit l'interception aléatoire ou la pente aléatoire estimée empiriquement à partir du modèle, devrait être équivalente à avoir simplement un tas d'effets fixes au niveau individuel et au site dans le modèle.
AdamO
8

Suivi de l'excellente réponse de mkt: D'après mon expérience personnelle dans le développement de modèles prédictifs dans le domaine de l'assurance maladie, l'incorporation d'effets aléatoires dans les modèles prédictifs (y compris les modèles d'apprentissage automatique) présente un certain nombre d'avantages.

On me demande souvent de construire des modèles prédisant les résultats futurs des demandes de règlement (p. Ex., Les dépenses de santé futures, la durée du séjour, etc.) en fonction des données historiques sur les demandes de remboursement d'une personne. Il y a souvent plusieurs demandes d'indemnisation par individu avec des résultats corrélés. Ignorer le fait que de nombreuses demandes sont partagées par le même patient reviendrait à jeter des informations précieuses dans un modèle prédictif.

Une solution consisterait à créer des variables d'indicateur d'effet fixe pour chaque membre de l'ensemble de données et à utiliser une régression pénalisée pour réduire séparément chacun des effets fixes au niveau du membre. Cependant, s'il y a des milliers ou des millions de membres dans vos données, une solution plus efficace à la fois du point de vue informatique et prédictif peut être de représenter les effets fixes au niveau des membres multiples comme un seul terme d'effet aléatoire avec une distribution normale.

RobertF
la source