J'essaie de trouver un modèle en utilisant la régression binomiale négative (GLM binomial négatif). J'ai une taille d'échantillon relativement petite (supérieure à 300) et les données ne sont pas mises à l'échelle. J'ai remarqué qu'il existe deux façons de mesurer la qualité de l'ajustement - l'une est la déviance et l'autre est la statistique Pearson. Comment puis-je déterminer la mesure de qualité d'ajustement à utiliser? Y a-t-il des critères que je peux examiner pour sélectionner la mesure de la qualité de l'ajustement?
regression
generalized-linear-model
chi-squared
deviance
Jin-Dominique
la source
la source
Réponses:
Le test d'ajustement basé sur la déviance est un test de rapport de vraisemblance entre le modèle ajusté et le modèle saturé (un dans lequel chaque observation obtient son propre paramètre). Le test de Pearson est un test de score; la valeur attendue du score (la première dérivée de la fonction log-vraisemblance) est nulle si le modèle ajusté est correct, et vous prenez une plus grande différence de zéro comme preuve plus forte d'un manque d'ajustement. La théorie est discutée dans Smyth (2003), «La statistique de la qualité de l'ajustement de Pearson comme statistique de test de score», Statistics and science: a Festschrift for Terry Speed .
Dans la pratique, les gens comptent généralement sur l'approximation asymptotique des deux à la distribution du chi carré - pour un modèle binomial négatif, cela signifie que les comptes attendus ne devraient pas être trop petits. Smyth note que le test Pearson est plus robuste contre les spécifications erronées du modèle, car vous ne considérez le modèle ajusté que comme nul sans avoir à prendre une forme particulière pour un modèle saturé. Je n'ai jamais remarqué beaucoup de différence entre eux.
Vous voudrez peut-être réfléchir au fait qu'un manque significatif de compatibilité avec l'un ou l'autre vous indique ce que vous savez probablement déjà: que votre modèle n'est pas une représentation parfaite de la réalité. Il est plus probable que l'on vous le dise, plus votre taille d'échantillon est grande. Une question plus pertinente est peut-être de savoir si vous pouvez ou non améliorer votre modèle, et quelles méthodes de diagnostic peuvent vous aider.
la source