Quel modèle de régression est le plus approprié à utiliser avec les données de comptage?

10

J'essaie d'entrer un peu dans les statistiques, mais je suis coincé avec quelque chose. Mes données sont les suivantes:

Year   Number_of_genes
1990          1
1991          1
1993          3
1995          4

Je veux maintenant construire un modèle de régression pour pouvoir prédire le nombre de gènes pour une année donnée en fonction des données. Je l'ai fait jusqu'à présent par régression linéaire, mais j'ai fait quelques lectures et cela ne semble pas être le meilleur choix pour ce type de données. J'ai lu que la régression de Poisson pourrait être utile, mais je ne sais pas quoi utiliser. Ma question est donc:

Existe-t-il un modèle de régression général pour ce type de données? Si non, que dois-je faire pour savoir quelle méthode est la plus appropriée à utiliser (en termes de ce que je dois savoir sur les données)?

sequence_hard
la source
Ma réponse ici: stats.stackexchange.com/questions/142338/… est très pertinente.
kjetil b halvorsen
2
S'agit-il de données de séries chronologiques?
Michael M

Réponses:

22

Non, il n'y a pas de modèle général de régression des données de dénombrement.

(Tout comme il n'y a pas de modèle de régression général pour les données continues. Un modèle linéaire avec un bruit homosédastique normalement distribué est le plus souvent supposé et ajusté à l'aide des moindres carrés ordinaires. Cependant, la régression gamma ou la régression exponentielle est souvent utilisée pour traiter différentes hypothèses de distribution d'erreur. , ou des modèles d'hétéroskédasticité conditionnelle, comme ARCH ou GARCH dans un contexte de séries chronologiques, pour traiter le bruit hétéroskédastique.)

Les modèles courants incluent la , au fur et à mesure que vous écrivez, ou la régression binomiale négative. Ces modèles sont suffisamment répandus pour trouver toutes sortes de logiciels, tutoriels ou manuels. J'aime particulièrement la régression binomiale négative de Hilbe . Cette question précédente explique comment choisir entre différents modèles de données de comptage.

Si vous avez "beaucoup" de zéros dans vos données, et surtout si vous pensez que les zéros pourraient être entraînés par un processus de génération de données différent des non-zéros (ou que certains zéros proviennent d'un DGP, et d'autres zéros et non-zéros viennent d'un autre DGP), modèles à peuvent être utiles. La régression de Poisson (ZIP) gonflée à zéro est la plus courante.

Vous pouvez également parcourir nos questions précédentes étiquetées à la fois «régression» et «nombre de données» .


EDIT: @MichaelM soulève un bon point. Cela ne ressemble -t- séries temporelles de données de comptage. (Et les données manquantes pour 1992 et 1994 me suggèrent qu'il devrait y avoir un zéro dans chacune de ces années. Si oui, incluez-le. Zéro est un nombre valide, et il contient des informations.) À la lumière de cela, je Je suggérerais également de parcourir nos questions précédentes étiquetées à la fois "séries chronologiques" et "données de comptage" .

Stephan Kolassa
la source
4
Bon, mais les moindres carrés ordinaires sont une procédure d'estimation, pas un modèle. Vous le savez, mais c'est une confusion courante, donc nous ne devrions pas écrire pour nous y adonner.
Nick Cox
@NickCox: bon point. J'ai édité mon message.
Stephan Kolassa
11

La distribution «par défaut», la plus couramment utilisée et décrite, de choix pour les données de dénombrement est la distribution de Poisson . Le plus souvent, il est illustré à l'aide d'un exemple de sa première utilisation pratique:

Une application pratique de cette distribution a été faite par Ladislaus Bortkiewicz en 1898 quand il a été chargé d'enquêter sur le nombre de soldats de l'armée prussienne tués accidentellement par des coups de cheval; cette expérience a introduit la distribution de Poisson dans le domaine de l'ingénierie de la fiabilité.

La distribution de Poisson est paramétrée par le taux par intervalle de temps fixe ( est aussi sa moyenne et sa variance). En cas de régression, nous pouvons utiliser la distribution de Poisson dans un modèle linéaire généralisé avec une fonction de lien log-linéaireλλλ

E(Y|X,β)=λ=exp(β0+β1X1++βkXk)

c'est ce qu'on appelle la régression de Poisson , car nous pouvons supposer que est un taux de distribution de Poisson. Notez cependant que pour la régression log-linéaire, vous n'avez pas à faire une telle hypothèse et utilisez simplement GLM avec un lien de journal avec des données non comptées. Lorsque vous interprétez les paramètres, vous devez vous rappeler que, en raison de l'utilisation de la transformation logarithmique, les changements de variable indépendante entraînent des changements multiplicatifs dans les nombres prédits.λ

Le problème avec l'utilisation de la distribution de Poisson pour les données réelles est qu'elle suppose que la moyenne est égale à la variance. La violation de cette hypothèse est appelée surdispersion . Dans de tels cas, vous pouvez toujours utiliser un modèle quasi-Poisson, un modèle log-linéaire non Poisson (pour les grands nombres, Poisson peut être approximé par une distribution normale), une régression binomiale négative (étroitement liée à Poisson; voir Berk et MacDonald, 2008), ou d'autres modèles, comme décrit par Stephan Kolassa .

Pour une introduction amicale à la régression de Poisson, vous pouvez également consulter les articles de Lavery (2010) ou Coxe, West et Aiken (2009).


Lavery, R. (2010). Un guide animé: une introduction à la régression de Poisson. Papier NESUG, sa04.

Coxe, S., West, SG et Aiken, LS (2009). L'analyse des données de dénombrement: une introduction en douceur à la régression de Poisson et à ses alternatives. Journal d'évaluation de la personnalité, 91 (2), 121-136.

Berk, R. et MacDonald, JM (2008). Surdispersion et régression de Poisson. Journal of Quantitative Criminology, 24 (3), 269-284.

Tim
la source
2
Vous combinez l'ajustement d'une distribution de Poisson avec l'utilisation d'une régression de Poisson. Ce n'est pas une exigence absolue pour la régression de Poisson que la réponse ait une distribution de Poisson. La régression de Poisson fonctionne bien pour une grande variété de réponses positives, y compris les variables mesurées. C'est une bonne idée de faire attention aux erreurs standard pour l'inférence, mais c'est traitable. Voir par exemple blog.stata.com/2011/08/22/…
Nick Cox
@NickCox à droite, mais la question portait strictement sur les données de comptage, il n'est donc probablement pas nécessaire d'entrer dans les détails sur les autres utilisations de la régression de Poisson.
Tim
3
Pas besoin d'entrer dans les détails, d'accord; mais toutes les raisons de pousser un peu la régression de Poisson. Son utilité est étonnamment peu connue; il mérite au moins de figurer dans de nombreux textes intermédiaires. De plus, et ce qui est plus important ici, je ne suis pas du tout d'accord pour dire qu'une fois que la variance n'est pas égale, cela signifie que vous devriez utiliser d'autres modèles; cela confond deux problèmes bien différents.
Nick Cox
De plus, le fait que la régression de Poisson puisse être utilisée avec des variables mesurées est pertinent, car dans de tels cas, la moyenne égale à la variance n'est même pas significative car elles ont des dimensions différentes. De tels cas soulignent donc que l'exigence n'existe pas.
Nick Cox
3
exp(Xb)
0

Poisson ou binôme négatif sont deux modèles largement utilisés pour les données de comptage. J'opterais pour le binôme négatif car il a de meilleures hypothèses de variance.


la source
3
Qu'entendez-vous par «mieux»?
Tim
2
À l'heure actuelle, il s'agit plus d'un commentaire que d'une réponse. Pensez-vous que vous pourriez développer cela? Vous devriez certainement penser au commentaire de Tim - le mot "mieux" est très vague
Silverfish
Les modèles binomiaux négatifs (NB) traitent les données de comptage surdispersées (OD) en supposant que cela est dû au clustering. Il utilise ensuite un modèle d'interception aléatoire avec une structure de Poisson distribuée «à l'intérieur» et une structure gamma distribuée «entre». Ce qui est mieux dépend de votre hypothèse pour OD. Si vous supposez que le degré de DO varie en fonction de la taille du cluster, NB peut vous aider. Si vous supposez que vous supposez que l'OD est proportionnelle à la taille du cluster, quasi-poisson a cette hypothèse. NB les estimations seront biaisées si l'OD n'est que du bruit gaussien. Poisson sera moins biaisé, mais les erreurs standard peuvent être trop petites avec OD.
Mainard