Si ce n'est pas un Poisson, alors quelle est cette distribution?

11

J'ai un ensemble de données contenant le nombre d'actions effectuées par des individus au cours de 7 jours. L'action spécifique ne devrait pas être pertinente pour cette question. Voici quelques statistiques descriptives pour l'ensemble de données:

\begin{array}{cc} Range & 0 - 772 \\ Mean & 18.2 \\ Variance & 2791 \\ Number of observations & 696 \end{array}

$\begin{array}{|c|c|} \hline \text{Range} & 0 - 772 \\ \hline \text{Mean} & 18.2 \\ \hline \text{Variance} & 2791 \\ \hline \text{Number of observations} & 696 \\ \hline \end{array}$

Voici un histogramme des données: histogramme d'action

À en juger par la source des données, j'ai pensé que cela conviendrait à une distribution de Poisson. Cependant, la variance moyenne ≠ et l'histogramme sont fortement pondérés à gauche. De plus, j'ai exécuté le goodfittest dans R et obtenu:

> gf <- goodfit(actions,type="poisson", method = "MinChisq") <br>
> summary(gf) <br>
Goodness-of-fit test for poisson distribution <br>
X^2                   df         P(> X^2) <br>
Pearson 2.937599e+248 771        0

La méthode du maximum de vraisemblance a également produit une valeur de p = 0. En supposant que l'hypothèse nulle est: les données correspondent à une distribution de Poisson (la documentation ne le spécifie pas), puis le goodfittest dit que nous devons rejeter l'hypothèse nulle, donc les données ne le font pas correspondre à une distribution de Poisson.

Cette analyse est-elle correcte? Si tel est le cas, quelle distribution, selon vous, correspondra à ces données?

Mon but ultime est de comparer le nombre moyen d'actions entre 2 échantillons pour voir si les moyennes sont différentes; la vérification de la distribution est-elle même nécessaire? Ma compréhension est que les tests typiques (tests z-, t-, ) ne fonctionnent pas pour les distributions de Poisson. Quel test dois-je utiliser si les données sont effectivement distribuées par Poisson? $\chi^2$

r distributions poisson-distribution mean sample Dcook
la source

avez-vous déjà essayé un binôme négatif? Est-ce que cela a aidé?

Ric

@ Richard, j'ai essayé un binôme négatif, et cela ne convenait pas. Merci pour les suggestions. Comme je ne pouvais pas déterminer de quel type de distribution il s'agissait, j'ai décidé d'ignorer la distribution et de choisir un test non paramétrique, le test de Mann-Whitney U.

Dcook

Encore une remarque pour neg bin. Dans en.wikipedia.org/wiki/Negative_binomial_distribution, vous voyez la formule pour la moyenne et la variance et cette . Un tel , cela aurait-il un sens? Sinon, il y a encore plus de preuves que le bin négatif n'est pas un bon modèle ici (si nous croyons aux estimateurs du moment).

m e a n / v a r i a n c e = 1 - p

$mean/variance = 1-p$

p

$p$

Ric

Je ne pense pas que le concept d'un procès Bernoulli s'applique dans mon cas. Il n'y a aucun concept de réussite ou d'échec; les sujets exécutent l'action d'intérêt ou non. Ils n'essaient pas et échouent. Par conséquent, l'idée d'une probabilité de succès n'a pas de sens. Sauf si le procès est une unité de temps. Mais alors, rien n'empêche le sujet d'exécuter plusieurs actions au cours de cette période.

Dcook

l m a b d a

$lmabda$

8

Si la variance est supérieure à la moyenne, on parle alors de sur-dispersion. Un modèle naturel pour cela est la distribution binomiale négative. Cela peut également être considéré comme une distribution de Poisson où le paramètre lambda suit une distribution gamma. Une première étape simple pourrait consister à ajuster une distribution binomiale négative.

Ric
la source

5

Si vos données de comptage brutes ne ressemblent pas à une distribution de Poisson, il vous manque quelque chose. Peut-être que le nombre d'actions dépend de la température, donc par temps chaud, les gens font moins de choses. Ensuite, la variation de température sur votre période d'étude affecterait la distribution et la rendrait non-Poisson.

Cependant, le nombre d'actions chaque jour pourrait encore être Poisson avec une moyenne dépendante de la température. Si vous avez la température chaque jour, vous pouvez faire un GLM, régressant le nombre d'actions en tant que variable de Poisson, en fonction de la température. Si cela correspond bien, le travail est fait.

Si vous n'avez pas de variables explicatives possibles, alors tout ce que vous pouvez dire est "quelque chose d'autre se passe - le nombre d'actions ne provient pas d'échantillons de Poisson indépendants" - c'est-à-dire rejeter votre hypothèse nulle.

Il existe des tests sans distribution qui peuvent comparer des observations par paires à l'aide de classements, etc. Généralement, ils effectuent un grand nombre de permutations et calculent une statistique de test ...

Spacedman
la source

4

Une dernière chose: vous devez également enquêter sur les valeurs aberrantes dans les données de comptage. Vous avez un compte à 400 ish puis rien jusqu'à 800 ish. Ce n'est pas susceptible d'être adapté par l'un des modèles courants.

Scortchi - Réintégrer Monica
la source

1

Vous semblez compter le nombre d'événements zéro - si c'est le cas, alors vous pourriez envisager un modèle ZIP (ou Hurdle) - reportez-vous aux modèles de régression pour les données de comptage dans R par Zeileis et al pour un aperçu.

Pour résumer grossièrement, ces méthodes modélisent les décomptes zéro séparément des autres décomptes qui pourraient être utiles dans votre cas.

Reportez-vous au psclpackage et aux fonctions zeroinfl()et hurdle().

Sean
la source

1

Je soupçonne que votre histogramme est trompé. Si vous avez un peu plus de 300 observations réparties uniformément sur toute la plage 0-50, environ 320 réparties uniformément sur la plage 50-100 et 50 ou plus au-dessus de 100, votre moyenne doit être sensiblement supérieure à 18,2.

Si les données dans la plage 0-50 ne sont pas uniformément réparties mais concentrées près de zéro, alors voir plus dans la plage 50-100 que dans la plage 0-50 est surprenant.

Vous avez peut-être un mélange de distributions. Je doute que quiconque puisse faire beaucoup avec cela sans les 696 observations réelles et surtout sans en savoir plus sur le contexte. Chacune des 696 observations est-elle un individu et la réponse est-elle le nombre d'actions que chaque individu a prises? Si oui, existe-t-il différents types d'individus dans les données?

Emil Friedman
la source

Si ce n'est pas un Poisson, alors quelle est cette distribution?

Réponses: