J'ai un modèle linéaire généralisé qui adopte une distribution gaussienne et une fonction de liaison logarithmique. Après avoir ajusté le modèle, je vérifie les résidus: tracé QQ, résidus vs valeurs prédites, histogramme des résidus (reconnaissant qu'il faut faire preuve de prudence). Tout a l'air bien. Cela semble suggérer (pour moi) que le choix d'une distribution gaussienne était tout à fait raisonnable. Ou, au moins, que les résidus sont cohérents avec la distribution que j'ai utilisée dans mon modèle.
Q1 : Serait-ce aller trop loin pour dire qu'elle valide mon choix de distribution?
J'ai choisi une fonction de lien de journal parce que ma variable de réponse est toujours positive, mais j'aimerais une sorte de confirmation que c'était un bon choix.
Q2 : Existe-t-il des tests, comme la vérification des résidus pour le choix de la distribution, qui peuvent prendre en charge mon choix de fonction de lien? (Le choix d'une fonction de lien me semble un peu arbitraire, car les seules lignes directrices que je peux trouver sont assez vagues et onduleuses, probablement pour une bonne raison.)
Réponses:
Il s'agit d'une variante de la question fréquemment posée pour savoir si vous pouvez affirmer l'hypothèse nulle. Dans votre cas, le nul serait que les résidus sont gaussiens, et l'inspection visuelle de vos parcelles (qq-parcelles, histogrammes, etc.) constitue le «test». (Pour un aperçu général de la question de l'affirmation du null, il peut être utile de lire ma réponse ici: pourquoi les statisticiens disent-ils qu'un résultat non significatif signifie «vous ne pouvez pas rejeter le null» au lieu d'accepter l'hypothèse nulle? ) Dans votre cas spécifique, vous pouvez dire que les graphiques montrent que vos résidus sont cohérents avec votre hypothèse de normalité, mais ils ne "valident" pas l'hypothèse.
Vous pouvez adapter votre modèle à l'aide de différentes fonctions de liaison et les comparer,
mais il n'y a pas de test d'une seule fonction de liaison de manière isolée(ce qui est évidemment incorrect, voir la réponse de @ Glen_b ). Dans ma réponse à Différence entre les modèles logit et probit (qui peut être utile à lire, bien que ce ne soit pas tout à fait la même), je soutiens que les fonctions de liaison devraient être choisies en fonction de:la source
Cela dépend en quelque sorte de ce que vous entendez par «valider» exactement, mais je dirais «oui, cela va trop loin» de la même manière que vous ne pouvez pas vraiment dire «le null est vrai», (en particulier avec des points nuls, mais dans au moins un certain sens plus généralement). Vous ne pouvez vraiment dire que "eh bien, nous n'avons pas de preuves solides que c'est faux". Mais en tout cas, nous ne nous attendons pas à ce que nos modèles soient parfaits, ce sont des modèles . Ce qui importe, comme l'a dit Box & Draper, c'est "à quel point doivent-ils se tromper pour ne pas être utiles? "
L'une ou l'autre de ces deux phrases antérieures:
Décrivez beaucoup plus précisément ce que vos diagnostics indiquent - non pas qu'un modèle gaussien avec lien de connexion était correct - mais qu'il était raisonnable ou cohérent avec les données.
Si vous savez qu'il doit être positif, sa moyenne doit être positive. Il est judicieux de choisir un modèle qui soit au moins cohérent avec cela. Je ne sais pas si c'est un bon choix (il pourrait bien y avoir de bien meilleurs choix), mais c'est une chose raisonnable à faire; ça pourrait bien être mon point de départ. [Cependant, si la variable elle-même est nécessairement positive, ma première pensée tendrait à être Gamma avec log-link, plutôt que Gaussienne. "Nécessairement positif" suggère à la fois une asymétrie et une variance qui changent avec la moyenne.]
Il semble que vous ne vouliez pas dire «test» comme dans «test d'hypothèse formel» mais plutôt comme «vérification diagnostique».
Dans les deux cas, la réponse est oui.
Un test d'hypothèse formel est le test de qualité de liaison de Pregibon [1].
Ceci est basé sur l'intégration de la fonction de liaison dans une famille Box-Cox afin de faire un test d'hypothèse du paramètre Box-Cox.
Voir aussi la brève discussion du test de Pregibon dans Breslow (1996) [2] ( voir p 14 ).
(vers laquelle je me pencherais pour cette évaluation), ou peut-être en examinant les écarts par rapport à la linéarité dans les résidus partiels, avec un tracé pour chaque prédicteur (voir par exemple, Hardin et Hilbe, Modèles linéaires généralisés et extensions, 2e éd. sec 4.5 .4 p54, pour la définition),
Dans les cas où les données admettent une transformation par la fonction de lien, vous pouvez rechercher la linéarité de la même manière qu'avec la régression linéaire (bien que vous ayez laissé une asymétrie et éventuellement une hétéroskédasticité).
Dans le cas des prédicteurs catégoriels, le choix de la fonction de lien est davantage une question de commodité ou d'interprétabilité, l'ajustement doit être le même (il n'est donc pas nécessaire de les évaluer).
Vous pouvez également baser un diagnostic sur l'approche de Pregibon.
Ceux-ci ne constituent pas une liste exhaustive; vous pouvez trouver d'autres diagnostics discutés.
[Cela dit, je suis d'accord avec l'évaluation de Gung selon laquelle le choix de la fonction de liaison devrait initialement être basé sur des choses comme des considérations théoriques, si possible.]
Voir également une partie de la discussion dans ce post , qui est au moins en partie pertinente.
[1]: Pregibon, D. (1980),
«Goodness of Link Tests for Generalized Linear Models»,
Journal de la Royal Statistical Society. Série C (Statistiques appliquées) ,
vol. 29, n ° 1, pp. 15-23.
[2]: Breslow NE (1996),
«Modèles linéaires généralisés: vérification des hypothèses et renforcement des conclusions»,
Statistica Applicata 8 , 23-41.
pdf
la source