J'apprécierais grandement vos conseils sur le problème suivant:
J'ai un grand ensemble de données continu avec beaucoup de zéros (~ 95%) et je dois trouver la meilleure façon de tester si certains sous-ensembles sont "intéressants", c'est-à-dire qu'ils ne semblent pas provenir de la même distribution que le reste. L'inflation nulle vient du fait que chaque point de données est basé sur une mesure de comptage avec des zéros réels et d'échantillonnage, mais le résultat est continu car il prend en compte d'autres paramètres pondérés par le comptage (et donc si le comptage est nul, le résultat est également nul).
Quelle serait la meilleure façon de faire cela? J'ai le sentiment que Wilcoxon et même les tests de permutation par force brute sont inadéquats car ils sont biaisés par ces zéros. La focalisation sur des mesures non nulles supprime également les vrais zéros qui sont extrêmement importants. Les modèles zéro gonflés pour les données de comptage sont bien développés, mais ne conviennent pas à mon cas.
J'ai envisagé d'adapter une distribution Tweedie aux données, puis d'adapter un glm sur response = f (subset_label). Théoriquement, cela semble faisable, mais je me demande si (a) c'est exagéré et (b) supposerait toujours implicitement que tous les zéros sont des échantillons de zéros, c'est-à-dire seraient biaisés de la même manière (au mieux) qu'une permutation?
Intuitivement, cela ressemble à une sorte de conception hiérarchique qui combine une statistique binomiale basée sur la proportion de zéros et, par exemple, une statistique de Wilcoxon calculée sur des valeurs non nulles (ou, mieux encore, des valeurs non nulles complétées par une fraction de zéros basés sur certains précédents). Cela ressemble à un réseau bayésien ...
J'espère que je ne suis pas le premier à avoir ce problème, donc je serais très reconnaissant si vous pouviez me diriger vers les techniques existantes appropriées ...
Merci beaucoup!
la source
Réponses:
@msp, je pense que vous regardez un modèle en deux étapes dans cette pièce jointe (je n'ai pas eu le temps de le lire), mais zéro données continues gonflées est le type avec lequel je travaille beaucoup. Pour adapter un modèle paramétrique à ces données (pour permettre des tests d'hypothèses), vous pouvez ajuster un modèle à deux étapes, mais vous avez ensuite deux modèles (Y est la cible et X sont des covariables): P (Y = 0 | X) et P (Y | X; Y> 0). Vous devez utiliser la simulation pour «les réunir». Le livre de Gelmans (et le paquet de bras en R) montre ce processus pour ce modèle exact (en utilisant la régression logistique et la régression linéaire ordinaire avec un lien logarithmique).
L'autre option que j'ai vue et que j'aime mieux consiste à ajuster une régression gamma gonflée zéro, qui est la même que ci-dessus (mais gamma comme erreur au lieu de guassien) et vous pouvez les réunir pour des tests d'hypothèse sur P (Y | X) . Je ne sais pas comment faire cela en R, mais vous pouvez en SAS NLMIXED. Voir cet article , cela fonctionne bien.
la source
Une approche similaire à celle du papier Fletcher est utilisée dans les tests de marketing, où nous pouvons séparer arbitrairement les effets des interventions (telles que la publicité) en (a) un changement dans le nombre d'achat de la marque (c.-à-d. Proportion de zéros) et (b) a changement dans la fréquence d'achat du groupe (les ventes étant donné les ventes se produisent du tout). Il s'agit d'une approche solide et conceptuellement significative dans le contexte marketing et dans le contexte écologique dont Fletcher parle. En fait, cela peut être étendu à (c) un changement dans la taille de chaque achat.
la source
Vous pouvez traiter le nombre exact de zéros inconnu, mais contraint entre 0 et le nombre de zéros observé. Cela peut sûrement être géré en utilisant une formulation bayésienne du modèle. Peut-être qu'une méthode d'imputation multiple peut également être modifiée pour faire varier de manière appropriée les poids (entre 0 et 1) des observations nulles…
la source