J'ai un ensemble de données contenant le nombre d'actions effectuées par des individus au cours de 7 jours. L'action spécifique ne devrait pas être pertinente pour cette question. Voici quelques statistiques descriptives pour l'ensemble de données:
Voici un histogramme des données:
À en juger par la source des données, j'ai pensé que cela conviendrait à une distribution de Poisson. Cependant, la variance moyenne ≠ et l'histogramme sont fortement pondérés à gauche. De plus, j'ai exécuté le goodfit
test dans R et obtenu:
> gf <- goodfit(actions,type="poisson", method = "MinChisq") <br>
> summary(gf) <br>
Goodness-of-fit test for poisson distribution <br>
X^2 df P(> X^2) <br>
Pearson 2.937599e+248 771 0
La méthode du maximum de vraisemblance a également produit une valeur de p = 0. En supposant que l'hypothèse nulle est: les données correspondent à une distribution de Poisson (la documentation ne le spécifie pas), puis le goodfit
test dit que nous devons rejeter l'hypothèse nulle, donc les données ne le font pas correspondre à une distribution de Poisson.
Cette analyse est-elle correcte? Si tel est le cas, quelle distribution, selon vous, correspondra à ces données?
Mon but ultime est de comparer le nombre moyen d'actions entre 2 échantillons pour voir si les moyennes sont différentes; la vérification de la distribution est-elle même nécessaire? Ma compréhension est que les tests typiques (tests z-, t-, ) ne fonctionnent pas pour les distributions de Poisson. Quel test dois-je utiliser si les données sont effectivement distribuées par Poisson?
Réponses:
Si la variance est supérieure à la moyenne, on parle alors de sur-dispersion. Un modèle naturel pour cela est la distribution binomiale négative. Cela peut également être considéré comme une distribution de Poisson où le paramètre lambda suit une distribution gamma. Une première étape simple pourrait consister à ajuster une distribution binomiale négative.
la source
Si vos données de comptage brutes ne ressemblent pas à une distribution de Poisson, il vous manque quelque chose. Peut-être que le nombre d'actions dépend de la température, donc par temps chaud, les gens font moins de choses. Ensuite, la variation de température sur votre période d'étude affecterait la distribution et la rendrait non-Poisson.
Cependant, le nombre d'actions chaque jour pourrait encore être Poisson avec une moyenne dépendante de la température. Si vous avez la température chaque jour, vous pouvez faire un GLM, régressant le nombre d'actions en tant que variable de Poisson, en fonction de la température. Si cela correspond bien, le travail est fait.
Si vous n'avez pas de variables explicatives possibles, alors tout ce que vous pouvez dire est "quelque chose d'autre se passe - le nombre d'actions ne provient pas d'échantillons de Poisson indépendants" - c'est-à-dire rejeter votre hypothèse nulle.
Il existe des tests sans distribution qui peuvent comparer des observations par paires à l'aide de classements, etc. Généralement, ils effectuent un grand nombre de permutations et calculent une statistique de test ...
la source
Une dernière chose: vous devez également enquêter sur les valeurs aberrantes dans les données de comptage. Vous avez un compte à 400 ish puis rien jusqu'à 800 ish. Ce n'est pas susceptible d'être adapté par l'un des modèles courants.
la source
Vous semblez compter le nombre d'événements zéro - si c'est le cas, alors vous pourriez envisager un modèle ZIP (ou Hurdle) - reportez-vous aux modèles de régression pour les données de comptage dans R par Zeileis et al pour un aperçu.
Pour résumer grossièrement, ces méthodes modélisent les décomptes zéro séparément des autres décomptes qui pourraient être utiles dans votre cas.
Reportez-vous au
pscl
package et aux fonctionszeroinfl()
ethurdle()
.la source
Je soupçonne que votre histogramme est trompé. Si vous avez un peu plus de 300 observations réparties uniformément sur toute la plage 0-50, environ 320 réparties uniformément sur la plage 50-100 et 50 ou plus au-dessus de 100, votre moyenne doit être sensiblement supérieure à 18,2.
Si les données dans la plage 0-50 ne sont pas uniformément réparties mais concentrées près de zéro, alors voir plus dans la plage 50-100 que dans la plage 0-50 est surprenant.
Vous avez peut-être un mélange de distributions. Je doute que quiconque puisse faire beaucoup avec cela sans les 696 observations réelles et surtout sans en savoir plus sur le contexte. Chacune des 696 observations est-elle un individu et la réponse est-elle le nombre d'actions que chaque individu a prises? Si oui, existe-t-il différents types d'individus dans les données?
la source