Comment modéliser des données continues non négatives gonflées à zéro?

16

J'essaie actuellement d'appliquer un modèle linéaire ( family = gaussian) à un indicateur de biodiversité qui ne peut pas prendre des valeurs inférieures à zéro, est gonflé à zéro et est continu. Les valeurs vont de 0 à un peu plus de 0,25. En conséquence, il y a un schéma assez évident dans les résidus du modèle dont je n'ai pas réussi à me débarrasser: entrez la description de l'image ici

Quelqu'un at-il des idées sur la façon de résoudre ce problème?

David
la source
1
Bienvenue sur CV! Notez que votre nom d'utilisateur, identicon et un lien vers votre page utilisateur sont automatiquement ajoutés à chaque publication que vous faites, il n'est donc pas nécessaire de signer vos publications. En fait, nous préférons que vous ne le fassiez pas.
Silverfish
3
S'il est gonflé à zéro, il ne peut pas être continu, car les variables continues ne peuvent pas avoir de sauts dans le cdf (et il y en a clairement un à 0). Il peut être continu en dehors des 0.
Glen_b -Reinstate Monica
EN RELATION
amibe dit réintégrer Monica

Réponses:

32

Il existe une variété de solutions au cas des distributions (semi-) continues gonflées à zéro:

  • Régression Tobit : suppose que les données proviennent d'une seule distribution normale sous-jacente, mais que les valeurs négatives sont censurées et empilées sur zéro (par exemple, le paquet censReg )
  • obstacle ou modèle "en deux étapes": utilisez un modèle binomial pour prédire si les valeurs sont 0 ou> 0, puis utilisez un modèle linéaire (ou Gamma, ou Normal tronqué, ou log-Normal) pour modéliser les valeurs non nulles observées
  • Distributions de Tweedie : distributions dans la famille exponentielle qui, pour une gamme donnée de paramètres de forme ( ) ont une masse ponctuelle à zéro et une distribution positive asymétrique pour (par exemple , tweedie, packages cplm )1<p<2X>0

Ou, si votre structure de données est assez simple, vous pouvez simplement utiliser des modèles linéaires et utiliser des tests de permutation ou une autre approche robuste pour vous assurer que votre inférence n'est pas gâchée par la distribution intéressante des données.

Des packages / solutions R sont disponibles pour la plupart de ces cas.

Il y a d'autres questions sur SE concernant les données (semi) continues gonflées à zéro (par exemple ici , ici et ici ), mais elles ne semblent pas offrir une réponse générale claire ...

Voir également Min & Agresti, 2002, Modelling Nonnegative Data with Clumping at Zero: A Survey pour une vue d'ensemble.

Ben Bolker
la source
@Ben Bolker Souhaitez-vous "utiliser un modèle linéaire (ou Gamma, ou Normal tronqué, ou Log-Normal) pour modéliser les" valeurs non nulles prévues ou réelles?
rolando2