Convertir la distribution de Poisson en distribution normale

J'ai principalement une formation en informatique mais maintenant j'essaie de m'enseigner les statistiques de base. J'ai quelques données qui, je pense, ont une distribution de Poisson

entrez la description de l'image ici

J'ai deux questions:

Est-ce une distribution de Poisson?
Deuxièmement, est-il possible de convertir cela en une distribution normale?

Toute aide serait appréciée. Merci beaucoup

normal-distribution data-transformation poisson-distribution Abhi
la source

1. Non, une distribution de Poisson a généralement un mode au voisinage de son paramètre, et donc faire correspondre cela avec une distribution de Poisson signifierait une très petite valeur pour le paramètre. 2. Oui et non. Que voudriez-vous faire avec une distribution normale?

Dilip Sarwate

J'essaie d'alimenter ces données dans une régression logistique. J'ai été amené à croire que les données normalement distribuées produisaient de bien meilleurs résultats

Abhi

Réponses:

1) Ce qui est représenté semble être des données continues (groupées) dessinées sous forme de graphique à barres.

Vous pouvez en toute sécurité conclure qu'il ne s'agit pas d' une distribution de Poisson.

Une variable aléatoire de Poisson prend les valeurs 0, 1, 2, ... et a le pic le plus élevé à 0 uniquement lorsque la moyenne est inférieure à 1. Elle est utilisée pour les données de comptage; si vous avez dessiné un graphique similaire de données de Poisson, cela pourrait ressembler aux graphiques ci-dessous:

$\hspace{1.5cm}$ entrez la description de l'image ici

Le premier est un Poisson qui présente une asymétrie similaire à la vôtre. Vous pouvez voir que sa moyenne est assez petite (environ 0,6).

Le second est un Poisson qui a une signification similaire (à une estimation très approximative) à la vôtre. Comme vous le voyez, il semble assez symétrique.

Vous pouvez avoir l'asymétrie ou la grande moyenne, mais pas les deux en même temps.

2) (i) Vous ne pouvez pas rendre normales des données discrètes -

Avec les données groupées, en utilisant n'importe quelle transformation monotone croissante, vous déplacerez toutes les valeurs d'un groupe au même endroit, de sorte que le groupe le plus bas aura toujours le pic le plus élevé - voir le graphique ci-dessous. Dans le premier tracé, nous déplaçons les positions des valeurs x pour qu'elles correspondent étroitement à un cdf normal:

entrez la description de l'image ici

Dans le deuxième graphique, nous voyons la fonction de probabilité après la transformation. Nous ne pouvons pas vraiment réaliser quelque chose comme la normalité, car elle est à la fois discrète et asymétrique; le grand saut du premier groupe restera un grand saut, que vous le poussiez à gauche ou à droite.

(ii) Les données asymétriques continues peuvent être transformées pour paraître raisonnablement normales. Si vous avez des valeurs brutes (non groupées) et qu'elles ne sont pas très discrètes, vous pouvez peut-être faire quelque chose, mais même souvent, lorsque les gens cherchent à transformer leurs données, ce n'est pas nécessaire ou leur problème sous-jacent peut être résolu d'une manière différente (généralement meilleure) . Parfois, la transformation est un bon choix, mais elle est généralement effectuée pour des raisons pas très bonnes.

Alors ... pourquoi voulez-vous le transformer?

Glen_b -Reinstate Monica
la source

Merci Glen pour la réponse très détaillée. Il explique de nombreux concepts. J'essaie d'intégrer ces données dans un modèle de régression logistique. Je pensais (je ne suis pas si sûr maintenant) que les données normalement distribuées produisent de bien meilleurs résultats. Que recommandez-vous?

Abhi

Ceci est la variable indépendante (une variable )? Qu'entendez-vous par «meilleurs résultats» dans ce contexte?

x

$x$

Glen_b -Reinstate Monica

@Glen_b Merci beaucoup pour la merveilleuse réponse. Je suis également issu de l'informatique et je suis resté sur cette question: stats.stackexchange.com/questions/408232/… Veuillez me faire part de vos réflexions à ce sujet. Je suis dans l'attente de votre réponse. Merci encore une fois :)

EmJ

Veuillez ne pas utiliser de commentaires pour essayer de recruter des personnes pour répondre à vos questions. J'ai déjà vu votre question.

Glen_b -Reinstate Monica

Publier des informations plus amusantes pour la postérité.

Un article plus ancien traite d'un problème similaire concernant l'utilisation des données de comptage comme variable indépendante pour les régressions logistiques.

C'est ici:

L'utilisation des données de comptage comme variable indépendante viole-t-elle l'une des hypothèses GLM?

Comme Glen l'a mentionné, si vous essayez simplement de prédire un résultat dichotomique, il est possible que vous puissiez utiliser les données de comptage non transformées en tant que composante directe de votre modèle de régression logistique. Cependant, une mise en garde: lorsqu'une variable indépendante (IV) est à la fois distribuée par poisson ET s'étend sur plusieurs ordres de grandeur en utilisant les valeurs brutes, cela peut entraîner des points très influents, ce qui peut à son tour biaiser votre modèle. Si tel est le cas, il peut être utile d'effectuer une transformation de vos IV pour obtenir un modèle plus robuste.

Des transformations telles que la racine carrée ou log peuvent augmenter la relation entre l'IV et le rapport de cotes. Par exemple, si des changements de X de trois ordres de grandeur entiers (loin de la valeur X médiane) correspondaient à un simple changement de 0,1 dans la probabilité d'occurrence de Y (loin de 0,5), alors il est assez sûr de supposer que tout écart de modèle conduire à un biais important en raison de l'effet de levier extrême des valeurs aberrantes X.

Pour illustrer davantage, imaginons que nous voulions utiliser la cote Scoville de divers piments (domaine [X] = {0, 3,2 millions}) pour prédire la probabilité qu'une personne classe le poivre comme "inconfortablement épicé" (plage [Y] = {1 = oui, 0 = non}) après avoir mangé un poivre de la cote correspondante X.

https://en.wikipedia.org/wiki/Scoville_scale

Si vous regardez le tableau des notes de scoville, vous pouvez voir qu'une transformation logarithmique des notes brutes de Scoville vous donnerait une approximation plus proche des notes subjectives (1-10) de chaque chili.

Donc, dans ce cas, si nous voulions créer un modèle plus robuste qui capture la vraie relation entre les notes brutes de Scoville et la note de chaleur subjective, nous pourrions effectuer une transformation logarithmique sur les valeurs X. En faisant cela, nous réduisons l'impact du domaine X excessivement grand, en «rétrécissant» efficacement la distance entre les valeurs qui diffèrent par des ordres de grandeur, et en réduisant par conséquent le poids de toutes les valeurs aberrantes X (par exemple, ces démons intolérants à la capsaïcine et / ou aux épices folles! !!) ont sur nos prédictions.

J'espère que cela ajoute un contexte amusant!

Ryan Arellano
la source