Pour la moyenne du modèle d'un GLM, faisons-nous la moyenne des prédictions sur le lien ou l'échelle de réponse?

12

Pour calculer les prévisions moyennes du modèle sur l'échelle de réponse d'un GLM, qui est "correct" et pourquoi?

  1. Calculez la prédiction moyenne du modèle sur l'échelle de liaison, puis retransformez-la en échelle de réponse, ou
  2. Transformez les prédictions à l'échelle de réponse, puis calculez la moyenne du modèle

Les prédictions sont proches mais pas égales si le modèle est un GLM. Les différents packages R offrent des options pour les deux (avec des valeurs par défaut différentes). Plusieurs collègues ont soutenu avec véhémence que le n ° 1 est faux parce que "tout le monde fait le n ° 2". Mon intuition dit que # 1 est "correct" car il maintient toutes les mathématiques linéaires linéaires (# 2 fait la moyenne des choses qui ne sont pas sur une échelle linéaire). Une simulation simple montre que # 2 a un MSE très (très!) Légèrement plus petit que # 1. Si # 2 est correct, quelle en est la raison? Et, si # 2 est correct, pourquoi ma raison (garder les mathématiques linéaires linéaires) est-elle un mauvais raisonnement?

Edit 1: Le calcul des moyennes marginales sur les niveaux d'un autre facteur dans un GLM est un problème similaire à la question que je pose ci-dessus. Russell Lenth calcule les moyennes marginales des modèles GLM en utilisant le "timing" (ses mots) de # 1 (dans le paquet emmeans) et son argument est similaire à mon intuition.

Edit 2: J'utilise la moyenne du modèle pour faire référence à l'alternative à la sélection du modèle où une prédiction (ou un coefficient) est estimée comme la moyenne pondérée sur tous ou un sous-ensemble des «meilleurs» modèles imbriqués (voir références et packages R ci-dessous) .

Étant donné modèles imbriqués, où est la prédiction linéaire (dans l'espace de lien) pour l'individu pour le modèle , et est le poids pour le modèle , la prédiction moyenne du modèle utilisant # 1 ci-dessus (moyenne sur le lien échelle, puis retransformer à l'échelle de réponse) est:η m i i m w m mMηimimwmm

Y^i=g1(m=1Mwmηim)

et la prédiction moyennée par le modèle en utilisant # 2 ci-dessus (retransforme toutes les prédictions et ensuite la moyenne sur l'échelle de réponse) est:M

Y^i=m=1Mwmg1(ηim)

Certaines méthodes bayésiennes et fréquentistes de calcul de moyenne de modèle sont les suivantes:

  • Hoeting, JA, Madigan, D., Raftery, AE et Volinsky, CT, 1999. Moyenne du modèle bayésien: un tutoriel. Science statistique, pp.382-401.

  • Burnham, KP et Anderson, DR, 2003. Sélection du modèle et inférence multimodèle: une approche théorique pratique de l'information. Springer Science & Business Media.

  • Hansen, BE, 2007. Moyenne des moindres carrés. Econometrica, 75 (4), pp.1175-1189.

  • Claeskens, G. et Hjort, NL, 2008. Sélection du modèle et moyenne du modèle. Cambridge Books.

Les packages R incluent BMA , MuMIn , BAS et AICcmodavg . (Remarque: ce n'est pas une question sur la sagesse de la moyenne du modèle plus généralement.)

JWalker
la source
1
Je soupçonne que la raison pour laquelle votre question ne reçoit aucune réponse est que d'autres lecteurs, comme moi, ne comprennent pas votre question. Qu'entendez-vous exactement par «moyenne de modèle»? Veuillez décrire un contexte en détail afin que nous comprenions le problème que vous essayez de résoudre. Pour autant que je puisse voir, le paquet emmeans ne fait pas la moyenne des prévisions de différents modèles.
Gordon Smyth
1
Merci d'avoir posé cette question et je peux voir que l'ajout de la note de Russell Lenth brouille ma question. J'ai essayé de clarifier cela ci-dessus. Le paquet emmeans calculera les moyennes marginales et SE sur les niveaux d'un autre facteur et ces statistiques sont calculées sur l'échelle de la liaison, puis retransformées. Voir la section "Le modèle est notre meilleur guide" .
JWalker
Je serais vraiment intéressé par toutes les réponses à cette question. En attendant, un commentaire. Ce résultat MSE est calculé sur l'échelle rétrotransformée. Je parierais qu'avec les mêmes résultats de simulation, le MSE, calculé sur l'échelle de liaison, serait plus petit avec # 1 qu'avec # 2. La raison en est que la moyenne de l'échantillon est l'estimateur des moindres carrés de la moyenne de la population, même à la mauvaise échelle.
Russ Lenth

Réponses:

6

La façon optimale de combiner des estimateurs ou des prédicteurs dépend de la fonction de perte que vous essayez de minimiser (ou de la fonction d'utilité que vous essayez de maximiser).

D'une manière générale, si la fonction de perte mesure les erreurs de prédiction sur l'échelle de réponse, la moyenne des prédicteurs sur l'échelle de réponse est correcte. Si, par exemple, vous cherchez à minimiser l'erreur quadratique attendue de prédiction sur l'échelle de réponse, le prédicteur moyen postérieur sera optimal et, selon les hypothèses de votre modèle, cela peut être équivalent à la moyenne des prédictions sur l'échelle de réponse.

Notez que la moyenne sur l'échelle du prédicteur linéaire peut très mal fonctionner pour les modèles discrets. Supposons que vous utilisez une régression logistique pour prédire la probabilité d'une variable de réponse binaire. Si l'un des modèles donne une probabilité estimée de zéro, alors le prédicteur linéaire pour ce modèle sera moins l'infini. Prendre la moyenne de l'infini avec un nombre quelconque de valeurs finies sera toujours infini.

Avez-vous consulté les références que vous listez? Je suis sûr que Hoeting et al (1999), par exemple, discutent des fonctions de perte, bien que peut-être pas trop en détail.

Gordon Smyth
la source
1
Excellent. Merci pour cette réponse (j'accueille les autres!). Je suppose que "la moyenne des prédicteurs est alors probablement optimale ou proche de celle-ci", c'est la moyenne des prédicteurs sur l'échelle de réponse. La note logistique est particulièrement utile.
JWalker
1
@rvl Concernant la linéarité de la fonction de perte, je pensais en termes de fonction d'influence de la perte. Je suis d'accord, c'est un peu cryptique, j'ai donc modifié mes commentaires. Je ne suis pas d'accord avec vos autres remarques. Les GLM sont estimés par ML, et non par perte d'erreur quadratique. Malgré son nom, l'algorithme IRLS qui est populaire pour les GLM ne minimise pas une somme de carrés et la variable de travail IRLS implique des résidus standardisés sur l'échelle de réponse, pas sur l'échelle de liaison. Dans tous les cas, l'estimation et la prédiction ne sont pas les mêmes et n'ont pas besoin d'avoir les mêmes fonctions de perte.
Gordon Smyth
@rvl Les valeurs ajustées nulles exactes se produisent fréquemment dans la régression logistique et ont été discutées à plusieurs reprises sur ce forum.
Gordon Smyth
@rvl La perte n'est pas évaluée sur l'échelle du lien. Cette discussion n'est pas le bon endroit pour moi pour vous offrir un tutoriel sur les GLM - je vous renvoie plutôt à mon livre sur les GLM que Springer publiera dans environ un mois. Cette discussion n'est pas non plus le bon endroit pour vous d'offrir une réponse alternative à la question d'origine. Écrivez une bonne réponse si vous voulez le faire.
Gordon Smyth
Voici le lien vers notre livre sur les GLM: doi.org/10.1007/978-1-4419-0118-7
Gordon Smyth