Cela semble si élémentaire, mais je suis toujours coincé à ce stade…
La plupart des données que je traite ne sont pas normales et la plupart des analyses sont basées sur une structure GLM. Pour mon analyse actuelle, j'ai une variable de réponse qui est la "vitesse de marche" (mètres / minute). Il m'est facile d'identifier que je ne peux pas utiliser OLS, mais j'ai alors une grande incertitude quant à la décision de choisir la famille (Gamma, Weibull, etc.) appropriée!
J'utilise Stata et regarde des diagnostics comme les résidus et l'hétéroscédasticité, les résidus par rapport aux valeurs ajustées, etc.
Je suis conscient que les données de comptage peuvent prendre la forme d'un taux (par exemple les taux d'incidence) et j'ai utilisé le gamma (l'analogue des modèles binomiaux négatifs discrets surdispersés), mais je voudrais juste qu'un "pistolet fumant" dise OUI, VOUS AVEZ LE DROIT FAMILLE. La recherche des résidus standardisés par rapport aux valeurs ajustées est-elle la seule et la meilleure façon de le faire? Je voudrais également utiliser un modèle mixte pour tenir compte d'une certaine hiérarchie dans les données, mais je dois d'abord déterminer quelle famille décrit le mieux ma variable de réponse.
Toute aide appréciée. La langue Stata est particulièrement appréciée!
Réponses:
J'ai quelques conseils:
(1) La façon dont les résidus doivent se comparer aux ajustements n'est pas toujours évidente, il est donc bon de se familiariser avec les diagnostics pour des modèles particuliers. Dans les modèles de régression logistique, par exemple, la statistique de Hosmer-Lemeshow est utilisée pour évaluer la qualité de l'ajustement; les valeurs de levier ont tendance à être faibles lorsque les cotes estimées sont très grandes, très petites ou à peu près égales; & bientôt.
(2) Parfois, une famille de modèles peut être considérée comme un cas particulier d'une autre, vous pouvez donc utiliser un test d'hypothèse sur un paramètre pour vous aider à choisir. Exponentielle vs Weibull, par exemple.
(3) Le critère d'information d'Akaike est utile pour choisir entre différents modèles, ce qui inclut le choix entre différentes familles.
(4) Les connaissances théoriques / empiriques sur ce que vous modélisez rétrécissent le domaine des modèles plausibles.
Mais il n'y a pas de moyen automatique de trouver la «bonne» famille; les données réelles peuvent provenir de distributions aussi compliquées que vous le souhaitez, et la complexité des modèles qui valent la peine d'être ajustés augmente avec la quantité de données dont vous disposez. Cela fait partie intégrante du postulat de Box selon lequel aucun modèle n'est vrai, mais certains sont utiles.
Commentaire de Re @ gung: il semble que le test de Hosmer-Lemeshow couramment utilisé soit (a) étonnamment sensible au choix des bacs, & (b) généralement moins puissant que certains autres tests contre certaines classes pertinentes d'hypothèses alternatives. Cela ne déroge pas au point (1): il est également bon d'être à jour.
la source
Vous trouverez peut - être intéressant de lire la vignette (manuel d' introduction) pour le package R
fitdistrplus
. Je reconnais que vous préférez travailler dans Stata, mais je pense que la vignette sera suffisamment explicite pour que vous puissiez avoir un aperçu du processus d'inférence des familles de distribution à partir des données. Vous pourrez probablement implémenter certaines des idées dans Stata via votre propre code. En particulier, je pense que le graphique de Cullen et Frey, s'il est / pourrait être implémenté dans Stata, peut vous être utile.la source