J'ai principalement une formation en informatique mais maintenant j'essaie de m'enseigner les statistiques de base. J'ai quelques données qui, je pense, ont une distribution de Poisson
J'ai deux questions:
- Est-ce une distribution de Poisson?
- Deuxièmement, est-il possible de convertir cela en une distribution normale?
Toute aide serait appréciée. Merci beaucoup
Réponses:
1) Ce qui est représenté semble être des données continues (groupées) dessinées sous forme de graphique à barres.
Vous pouvez en toute sécurité conclure qu'il ne s'agit pas d' une distribution de Poisson.
Une variable aléatoire de Poisson prend les valeurs 0, 1, 2, ... et a le pic le plus élevé à 0 uniquement lorsque la moyenne est inférieure à 1. Elle est utilisée pour les données de comptage; si vous avez dessiné un graphique similaire de données de Poisson, cela pourrait ressembler aux graphiques ci-dessous:
Le premier est un Poisson qui présente une asymétrie similaire à la vôtre. Vous pouvez voir que sa moyenne est assez petite (environ 0,6).
Le second est un Poisson qui a une signification similaire (à une estimation très approximative) à la vôtre. Comme vous le voyez, il semble assez symétrique.
Vous pouvez avoir l'asymétrie ou la grande moyenne, mais pas les deux en même temps.
2) (i) Vous ne pouvez pas rendre normales des données discrètes -
Avec les données groupées, en utilisant n'importe quelle transformation monotone croissante, vous déplacerez toutes les valeurs d'un groupe au même endroit, de sorte que le groupe le plus bas aura toujours le pic le plus élevé - voir le graphique ci-dessous. Dans le premier tracé, nous déplaçons les positions des valeurs x pour qu'elles correspondent étroitement à un cdf normal:
Dans le deuxième graphique, nous voyons la fonction de probabilité après la transformation. Nous ne pouvons pas vraiment réaliser quelque chose comme la normalité, car elle est à la fois discrète et asymétrique; le grand saut du premier groupe restera un grand saut, que vous le poussiez à gauche ou à droite.
(ii) Les données asymétriques continues peuvent être transformées pour paraître raisonnablement normales. Si vous avez des valeurs brutes (non groupées) et qu'elles ne sont pas très discrètes, vous pouvez peut-être faire quelque chose, mais même souvent, lorsque les gens cherchent à transformer leurs données, ce n'est pas nécessaire ou leur problème sous-jacent peut être résolu d'une manière différente (généralement meilleure) . Parfois, la transformation est un bon choix, mais elle est généralement effectuée pour des raisons pas très bonnes.
Alors ... pourquoi voulez-vous le transformer?
la source
Publier des informations plus amusantes pour la postérité.
Un article plus ancien traite d'un problème similaire concernant l'utilisation des données de comptage comme variable indépendante pour les régressions logistiques.
C'est ici:
L'utilisation des données de comptage comme variable indépendante viole-t-elle l'une des hypothèses GLM?
Comme Glen l'a mentionné, si vous essayez simplement de prédire un résultat dichotomique, il est possible que vous puissiez utiliser les données de comptage non transformées en tant que composante directe de votre modèle de régression logistique. Cependant, une mise en garde: lorsqu'une variable indépendante (IV) est à la fois distribuée par poisson ET s'étend sur plusieurs ordres de grandeur en utilisant les valeurs brutes, cela peut entraîner des points très influents, ce qui peut à son tour biaiser votre modèle. Si tel est le cas, il peut être utile d'effectuer une transformation de vos IV pour obtenir un modèle plus robuste.
Des transformations telles que la racine carrée ou log peuvent augmenter la relation entre l'IV et le rapport de cotes. Par exemple, si des changements de X de trois ordres de grandeur entiers (loin de la valeur X médiane) correspondaient à un simple changement de 0,1 dans la probabilité d'occurrence de Y (loin de 0,5), alors il est assez sûr de supposer que tout écart de modèle conduire à un biais important en raison de l'effet de levier extrême des valeurs aberrantes X.
Pour illustrer davantage, imaginons que nous voulions utiliser la cote Scoville de divers piments (domaine [X] = {0, 3,2 millions}) pour prédire la probabilité qu'une personne classe le poivre comme "inconfortablement épicé" (plage [Y] = {1 = oui, 0 = non}) après avoir mangé un poivre de la cote correspondante X.
https://en.wikipedia.org/wiki/Scoville_scale
Si vous regardez le tableau des notes de scoville, vous pouvez voir qu'une transformation logarithmique des notes brutes de Scoville vous donnerait une approximation plus proche des notes subjectives (1-10) de chaque chili.
Donc, dans ce cas, si nous voulions créer un modèle plus robuste qui capture la vraie relation entre les notes brutes de Scoville et la note de chaleur subjective, nous pourrions effectuer une transformation logarithmique sur les valeurs X. En faisant cela, nous réduisons l'impact du domaine X excessivement grand, en «rétrécissant» efficacement la distance entre les valeurs qui diffèrent par des ordres de grandeur, et en réduisant par conséquent le poids de toutes les valeurs aberrantes X (par exemple, ces démons intolérants à la capsaïcine et / ou aux épices folles! !!) ont sur nos prédictions.
J'espère que cela ajoute un contexte amusant!
la source