Quels sont les avantages de la régression de Poisson sur la régression linéaire dans ce cas?

12

On m'a donné un ensemble de données qui contient le nombre de bourses obtenues par les élèves d'une école secondaire où les prédicteurs du nombre de bourses gagnées comprennent le type de programme auquel l'étudiant était inscrit et le score à son examen final en mathématiques.

Je me demandais si quelqu'un pouvait me dire pourquoi un modèle de régression linéaire peut ne pas convenir dans ce cas et pourquoi il serait préférable d'utiliser une régression de Poisson? Merci.

Emilie
la source

Réponses:

14

Trois points sur la régression Poisson vs Normal, tous concernant la spécification du modèle:

Effet des changements de prédicteurs

Avec un prédicteur continu comme le score du test de mathématiques, la régression de Poisson (avec le lien de log habituel) implique qu'un changement d'unité dans le prédicteur entraîne un changement en pourcentage du nombre de récompenses, c'est-à-dire que 10 points supplémentaires sur le test de mathématiques sont associés, par exemple, 25 pour cent plus de récompenses. Cela dépend du nombre de bourses que l'étudiant devrait déjà recevoir. En revanche, la régression normale associe 10 points supplémentaires à un montant fixe, disons 3 récompenses supplémentaires en toutes circonstances. Vous devriez être satisfait de cette hypothèse avant d'utiliser le modèle qui le fait. (fwiw je pense que c'est très raisonnable, modulo le point suivant.)

Traiter avec des étudiants sans prix

À moins qu'il n'y ait vraiment de nombreuses bourses réparties sur de nombreux étudiants, le nombre de bourses sera plutôt faible. En fait, je prédis une inflation zéro, c'est-à-dire que la plupart des étudiants n'obtiennent aucun prix, donc beaucoup de zéros, et certains bons étudiants reçoivent pas mal de prix. Cela dérange les hypothèses du modèle de Poisson et est au moins aussi mauvais pour le modèle normal.

Si vous avez une quantité décente de données, un modèle «gonflé à zéro» ou «obstacle» serait alors naturel. Il s'agit de deux modèles liés: un pour prédire si l'étudiant obtient des bourses, et un autre pour prédire combien elle recevra si elle en obtient (en général une forme de modèle de Poisson). Je m'attendrais à ce que toute l'action soit dans le premier modèle.

Exclusivité du prix

Enfin, un petit point sur les récompenses. Si les prix sont exclusifs, c'est-à-dire si un étudiant obtient le prix, aucun autre étudiant ne peut obtenir le prix, alors vos résultats sont couplés; un décompte pour l'élève a réduit le décompte possible de tous les autres. La pertinence de cette question dépend de la structure des bourses et de la taille de la population étudiante. Je l'ignorerais au premier passage.

En conclusion, Poisson domine confortablement Normal, sauf pour les très grands nombres, mais vérifiez les hypothèses du Poisson avant de vous y appuyer fortement pour l'inférence, et soyez prêt à passer à une classe de modèle légèrement plus complexe si nécessaire.

conjugateprior
la source
9

La régression de Poisson serait plus appropriée dans ce cas parce que votre réponse est le compte de quelque chose.

En termes simples, nous modélisons que la distribution du nombre de bourses pour un étudiant individuel provient d'une distribution de poisson, et que chaque étudiant a son propre paramètre poisson. La régression de Poisson relie ensuite ce paramètre aux variables explicatives, plutôt qu'au nombre.λ

La raison pour laquelle cela est meilleur qu'une régression linéaire normale est liée aux erreurs. Si notre modèle est correct, et que chaque élève a son propre , alors pour un donné, nous nous attendrions à une distribution de poisson des nombres autour de lui - c'est-à-dire une distribution asymétrique. Cela signifie que des valeurs inhabituellement élevées ne sont pas aussi surprenantes qu'exceptionnellement basses.λλ

La régression linéaire normale suppose des erreurs normales autour de la moyenne, et donc les pondère également. Cela signifie que si un étudiant a un nombre prévu de bourses de 1, il est tout aussi probable qu'il reçoive -2 bourses que pour lui de recevoir 3 bourses: c'est clairement un non-sens et ce à quoi poisson est conçu pour répondre.

Corone
la source
8

La régression des moindres carrés ordinaires des attributions sur les prédicteurs donnera des estimations de paramètres cohérentes tant que la moyenne conditionnelle des attributions est linéaire dans les prédicteurs. Mais cela est souvent inadéquat car il permet au nombre prévu de récompenses d'être négatif (même pour des valeurs "raisonnables" de prédicteurs), ce qui n'a aucun sens. Les gens essaieront souvent de remédier à cela en prenant le journal naturel des récompenses et en utilisant OLS. Mais cela échoue car certains étudiants ne reçoivent aucune récompense, vous devez donc utiliser quelque chose comme , mais cela crée ses propres problèmes car vous vous souciez probablement des récompenses, et la re-transformation n'est pas triviale.ln(awards+0.5)

De plus, comme le nombre attendu de récompenses devient très important, OLS devrait mieux performer pour les raisons décrites par @Corone. Au lac Wobegon , l'OLS est la voie à suivre.

Si le nombre attendu est faible, avec beaucoup de zéros, j'utiliserais le Poisson avec des erreurs standard robustes sur le modèle binomial négatif. La régression NB fait de fortes hypothèses sur la variance qui apparaît dans les conditions de premier ordre qui produisent les coefficients. Si ces hypothèses ne sont pas satisfaites, les coefficients eux-mêmes pourraient être contaminés. Ce n'est pas le cas avec le Poisson.

Dimitriy V. Masterov
la source
4

@corone soulève de bons points, mais notez que le Poisson n'est vraiment asymétrique que lorsque est petit. Même pour = 10, il est assez symétrique e..g.λλ

set.seed(12345)
pois10 <- rpois(1000, 10)
plot(density(pois10))
library(moments)
skewness(pois10)

montre une asymétrie de 0,31, ce qui est assez proche de 0.

J'aime aussi les points de @conjugateprior. D'après mon expérience, il est rare que la régression de Poisson soit bien ajustée; Je termine généralement avec un binôme négatif ou un modèle gonflé à zéro.

Peter Flom - Réintégrer Monica
la source