Une distribution de Tweedie peut modéliser des données asymétriques avec une masse ponctuelle à zéro lorsque le paramètre (exposant dans la relation moyenne-variance) est compris entre 1 et 2.
De même, un modèle gonflé à zéro (qu'il soit par ailleurs continu ou discret) peut avoir un grand nombre de zéros.
J'ai du mal à comprendre pourquoi lorsque je fais des prédictions ou que je calcule des valeurs ajustées avec ces types de modèles, toutes les valeurs prédites sont non nulles.
Ces modèles peuvent-ils réellement prédire des zéros exacts?
Par exemple
library(tweedie)
library(statmod)
# generate data
y <- rtweedie( 100, xi=1.3, mu=1, phi=1) # xi=p
x <- y+rnorm( length(y), 0, 0.2)
# estimate p
out <- tweedie.profile( y~1, p.vec=seq(1.1, 1.9, length=9))
# fit glm
fit <- glm( y ~ x, family=tweedie(var.power=out$p.max, link.power=0))
# predict
pred <- predict.glm(fit, newdata=data.frame(x=x), type="response")
pred
ne contient plus de zéros. J'ai pensé que l'utilité de modèles tels que la distribution Tweedie vient de sa capacité à prédire les zéros exacts et la partie continue.
Je sais que dans mon exemple, la variable x
n'est pas très prédictive.
Réponses:
Notez que la valeur prédite dans un GLM est une moyenne.
Pour toute distribution sur des valeurs non négatives, pour prévoir une moyenne de 0, sa distribution devrait être entièrement un pic à 0.
Cependant, avec un lien de journal, vous n'allez jamais ajuster une moyenne d'exactement zéro (car cela nécessiterait que passe à - ∞ ).η - ∞
Votre problème n'est donc pas un problème avec le Tweedie, mais bien plus général; vous auriez exactement le même problème avec le Poisson (GLM Poisson gonflé à zéro ou ordinaire) par exemple.
Étant donné que la prévision de zéros exacts ne se produira pour aucune distribution sur des valeurs non négatives avec un lien de journal, votre réflexion à ce sujet doit être erronée.
L'une de ses attractions est qu'il peut modéliser des zéros exacts dans les données, pas que les prédictions moyennes seront 0. [Bien sûr, une distribution ajustée avec une moyenne non nulle peut toujours avoir une probabilité d'être exactement zéro, même si la moyenne doit dépasser 0 Un intervalle de prédiction approprié pourrait bien comprendre 0, par exemple.]
Peu importe que la distribution ajustée comprenne une proportion substantielle de zéros - ce qui ne rend pas la moyenne ajustée nulle.
Notez que si vous modifiez votre fonction de lien pour dire un lien d'identité, cela ne résout pas vraiment votre problème - la moyenne d'une variable aléatoire non négative qui n'est pas entièrement nulle sera positive.
la source
Prédire la proportion de zéros
Je suis l'auteur du package statmod et co-auteur du package tweedie. Tout dans votre exemple fonctionne correctement. Le code prend correctement en compte tous les zéros pouvant figurer dans les données.
Comme Glen_b et Tim l'ont expliqué, la valeur moyenne prévue ne sera jamais exactement nulle, sauf si la probabilité d'un zéro est de 100%. Ce qui pourrait être intéressant cependant, c'est la proportion prévue de zéros, et cela peut facilement être extrait de l'ajustement du modèle comme je le montre ci-dessous.
Voici un exemple de travail plus judicieux. Simulez d'abord quelques données:
Les données contiennent 12 zéros.
Maintenant, installez un glm Tweedie:
Ainsi, la proportion prévue de zéros varie de 38,1% pour les plus petites valeurs moyennes à 4,5e-6 pour les plus grandes valeurs moyennes.
La formule de la probabilité d'un zéro exact peut être trouvée dans Dunn & Smyth (2001) Tweedie Family Densities: Methods of Evaluation ou Dunn & Smyth (2005) Series evaluation of Tweedie exponential dispersion model densities .
la source
Cette réponse a été fusionnée à partir d'un autre fil de discussion sur les prédictions du modèle de régression à gonflement nul, mais elle s'applique également au modèle Tweedie GLM.
la source