Quels diagnostics peuvent valider l'utilisation d'une famille particulière de GLM?

19

Cela semble si élémentaire, mais je suis toujours coincé à ce stade…

La plupart des données que je traite ne sont pas normales et la plupart des analyses sont basées sur une structure GLM. Pour mon analyse actuelle, j'ai une variable de réponse qui est la "vitesse de marche" (mètres / minute). Il m'est facile d'identifier que je ne peux pas utiliser OLS, mais j'ai alors une grande incertitude quant à la décision de choisir la famille (Gamma, Weibull, etc.) appropriée!

J'utilise Stata et regarde des diagnostics comme les résidus et l'hétéroscédasticité, les résidus par rapport aux valeurs ajustées, etc.

Je suis conscient que les données de comptage peuvent prendre la forme d'un taux (par exemple les taux d'incidence) et j'ai utilisé le gamma (l'analogue des modèles binomiaux négatifs discrets surdispersés), mais je voudrais juste qu'un "pistolet fumant" dise OUI, VOUS AVEZ LE DROIT FAMILLE. La recherche des résidus standardisés par rapport aux valeurs ajustées est-elle la seule et la meilleure façon de le faire? Je voudrais également utiliser un modèle mixte pour tenir compte d'une certaine hiérarchie dans les données, mais je dois d'abord déterminer quelle famille décrit le mieux ma variable de réponse.

Toute aide appréciée. La langue Stata est particulièrement appréciée!

RLang
la source
4
" Je voudrais qu'un" pistolet fumant "dise OUI, VOUS AVEZ LA BONNE FAMILLE " - rien ne vous le dira. Le mieux que vous puissiez espérer est une famille qui ne se trompe pas clairement. Il existe de nombreuses façons de choisir une famille de distribution, mais en général, elle implique généralement une combinaison de considérations a priori ou théoriques et des indications des données elles-mêmes.
Glen_b -Reinstate Monica

Réponses:

14

J'ai quelques conseils:

(1) La façon dont les résidus doivent se comparer aux ajustements n'est pas toujours évidente, il est donc bon de se familiariser avec les diagnostics pour des modèles particuliers. Dans les modèles de régression logistique, par exemple, la statistique de Hosmer-Lemeshow est utilisée pour évaluer la qualité de l'ajustement; les valeurs de levier ont tendance à être faibles lorsque les cotes estimées sont très grandes, très petites ou à peu près égales; & bientôt.

(2) Parfois, une famille de modèles peut être considérée comme un cas particulier d'une autre, vous pouvez donc utiliser un test d'hypothèse sur un paramètre pour vous aider à choisir. Exponentielle vs Weibull, par exemple.

(3) Le critère d'information d'Akaike est utile pour choisir entre différents modèles, ce qui inclut le choix entre différentes familles.

(4) Les connaissances théoriques / empiriques sur ce que vous modélisez rétrécissent le domaine des modèles plausibles.

Mais il n'y a pas de moyen automatique de trouver la «bonne» famille; les données réelles peuvent provenir de distributions aussi compliquées que vous le souhaitez, et la complexité des modèles qui valent la peine d'être ajustés augmente avec la quantité de données dont vous disposez. Cela fait partie intégrante du postulat de Box selon lequel aucun modèle n'est vrai, mais certains sont utiles.

Commentaire de Re @ gung: il semble que le test de Hosmer-Lemeshow couramment utilisé soit (a) étonnamment sensible au choix des bacs, & (b) généralement moins puissant que certains autres tests contre certaines classes pertinentes d'hypothèses alternatives. Cela ne déroge pas au point (1): il est également bon d'être à jour.

Scortchi - Réintégrer Monica
la source
Merci! Vos suggestions sont succinctes et précises. Je suis limité dans les familles que je peux utiliser en raison de la structure de ma variable de réponse (positive, continue, mais très asymétrique). Dans la famille exponentielle, il semble que le gamma soit vraiment la seule option. Entre-temps, j'ai trouvé quelques outils utiles par NJ Cox comme cela apparaît dans Stata Jounal 5 (2): 259-273 - gammafit (estime les paramètres de forme et d'échelle) et dpplot permet de superposer le graphique de probabilité de densité et ma variable de réponse (peut être fait avec de nombreuses distributions et me permet de faire correspondre la meilleure famille à mes données) .Merci pour les autres suggestions aussi!
RLang
1
Notez que le test GoF Hosmer-Lemeshow s'est révélé dépendre du binning utilisé / ne pas être fiable.
gung - Réintégrer Monica
@Gung, Cela dépend clairement du binning utilisé - pas idéal, mais pas sûr que ce soit un gros problème à moins que vous ne commenciez à jouer avec les binnings pour essayer d'obtenir le résultat souhaité. Comment est-il peu fiable et quels autres tests sont meilleurs?
Scortchi - Réintégrer Monica
1
Voir la réponse de Frank Harrell ici: sélection de modèle pas à pas, statistiques Hosmer-Lemeshow et succès de la prédiction du modèle dans la régression logistique imbriquée dans R pour une discussion de ces questions.
gung - Rétablir Monica
1
Vous avez raison: "invalide" est trop fort; J'ai seulement dit "peu fiable" et Harrell utilise "obsolète".
gung - Rétablir Monica
8

Vous trouverez peut - être intéressant de lire la vignette (manuel d' introduction) pour le package R fitdistrplus. Je reconnais que vous préférez travailler dans Stata, mais je pense que la vignette sera suffisamment explicite pour que vous puissiez avoir un aperçu du processus d'inférence des familles de distribution à partir des données. Vous pourrez probablement implémenter certaines des idées dans Stata via votre propre code. En particulier, je pense que le graphique de Cullen et Frey, s'il est / pourrait être implémenté dans Stata, peut vous être utile.

gung - Réintégrer Monica
la source
J'ai de nouveau revu ce problème et je suis passé à R et j'utilise Zuur et Ieno comme guide. Il y a encore beaucoup de problèmes, mais en général, je pense qu'en utilisant varIdent, mes diagnostics de modèle semblent avoir une «hétérogénéité mineure». Le tracé des résidus par rapport à l'ajustement semble bon, les résidus par rapport à chaque covariable fournissent des résultats amusants pour l'une de mes variables de modèle (élévation) - principalement en fonction de la petite taille de l'échantillon à haute altitude. Merci pour votre commentaire sur fitdistrplus. Maintenant que j'utilise R et Rstudio (j'adore!), Ce sera pratique!
RLang
1
Le lien est rompu. Est-ce le manuel d'introduction dont vous parliez? cran.r-project.org/doc/contrib/Ricci-distributions-en.pdf Ou était-ce celui-ci: cran.r-project.org/web/packages/fitdistrplus/vignettes/…
emschorsch
Ce dernier lien semble être une version différente de la vignette à laquelle je faisais référence.
gung - Reinstate Monica