J'essaie d'entrer un peu dans les statistiques, mais je suis coincé avec quelque chose. Mes données sont les suivantes:
Year Number_of_genes
1990 1
1991 1
1993 3
1995 4
Je veux maintenant construire un modèle de régression pour pouvoir prédire le nombre de gènes pour une année donnée en fonction des données. Je l'ai fait jusqu'à présent par régression linéaire, mais j'ai fait quelques lectures et cela ne semble pas être le meilleur choix pour ce type de données. J'ai lu que la régression de Poisson pourrait être utile, mais je ne sais pas quoi utiliser. Ma question est donc:
Existe-t-il un modèle de régression général pour ce type de données? Si non, que dois-je faire pour savoir quelle méthode est la plus appropriée à utiliser (en termes de ce que je dois savoir sur les données)?
regression
count-data
poisson-regression
sequence_hard
la source
la source
Réponses:
Non, il n'y a pas de modèle général de régression des données de dénombrement.
(Tout comme il n'y a pas de modèle de régression général pour les données continues. Un modèle linéaire avec un bruit homosédastique normalement distribué est le plus souvent supposé et ajusté à l'aide des moindres carrés ordinaires. Cependant, la régression gamma ou la régression exponentielle est souvent utilisée pour traiter différentes hypothèses de distribution d'erreur. , ou des modèles d'hétéroskédasticité conditionnelle, comme ARCH ou GARCH dans un contexte de séries chronologiques, pour traiter le bruit hétéroskédastique.)
Les modèles courants incluent la régression poisson , au fur et à mesure que vous écrivez, ou la régression binomiale négative. Ces modèles sont suffisamment répandus pour trouver toutes sortes de logiciels, tutoriels ou manuels. J'aime particulièrement la régression binomiale négative de Hilbe . Cette question précédente explique comment choisir entre différents modèles de données de comptage.
Si vous avez "beaucoup" de zéros dans vos données, et surtout si vous pensez que les zéros pourraient être entraînés par un processus de génération de données différent des non-zéros (ou que certains zéros proviennent d'un DGP, et d'autres zéros et non-zéros viennent d'un autre DGP), des modèles à inflation zéro peuvent être utiles. La régression de Poisson (ZIP) gonflée à zéro est la plus courante.
Vous pouvez également parcourir nos questions précédentes étiquetées à la fois «régression» et «nombre de données» .
EDIT: @MichaelM soulève un bon point. Cela ne ressemble -t- séries temporelles de données de comptage. (Et les données manquantes pour 1992 et 1994 me suggèrent qu'il devrait y avoir un zéro dans chacune de ces années. Si oui, incluez-le. Zéro est un nombre valide, et il contient des informations.) À la lumière de cela, je Je suggérerais également de parcourir nos questions précédentes étiquetées à la fois "séries chronologiques" et "données de comptage" .
la source
La distribution «par défaut», la plus couramment utilisée et décrite, de choix pour les données de dénombrement est la distribution de Poisson . Le plus souvent, il est illustré à l'aide d'un exemple de sa première utilisation pratique:
La distribution de Poisson est paramétrée par le taux par intervalle de temps fixe ( est aussi sa moyenne et sa variance). En cas de régression, nous pouvons utiliser la distribution de Poisson dans un modèle linéaire généralisé avec une fonction de lien log-linéaireλλ λ
c'est ce qu'on appelle la régression de Poisson , car nous pouvons supposer que est un taux de distribution de Poisson. Notez cependant que pour la régression log-linéaire, vous n'avez pas à faire une telle hypothèse et utilisez simplement GLM avec un lien de journal avec des données non comptées. Lorsque vous interprétez les paramètres, vous devez vous rappeler que, en raison de l'utilisation de la transformation logarithmique, les changements de variable indépendante entraînent des changements multiplicatifs dans les nombres prédits.λ
Le problème avec l'utilisation de la distribution de Poisson pour les données réelles est qu'elle suppose que la moyenne est égale à la variance. La violation de cette hypothèse est appelée surdispersion . Dans de tels cas, vous pouvez toujours utiliser un modèle quasi-Poisson, un modèle log-linéaire non Poisson (pour les grands nombres, Poisson peut être approximé par une distribution normale), une régression binomiale négative (étroitement liée à Poisson; voir Berk et MacDonald, 2008), ou d'autres modèles, comme décrit par Stephan Kolassa .
Pour une introduction amicale à la régression de Poisson, vous pouvez également consulter les articles de Lavery (2010) ou Coxe, West et Aiken (2009).
Lavery, R. (2010). Un guide animé: une introduction à la régression de Poisson. Papier NESUG, sa04.
Coxe, S., West, SG et Aiken, LS (2009). L'analyse des données de dénombrement: une introduction en douceur à la régression de Poisson et à ses alternatives. Journal d'évaluation de la personnalité, 91 (2), 121-136.
Berk, R. et MacDonald, JM (2008). Surdispersion et régression de Poisson. Journal of Quantitative Criminology, 24 (3), 269-284.
la source
Poisson ou binôme négatif sont deux modèles largement utilisés pour les données de comptage. J'opterais pour le binôme négatif car il a de meilleures hypothèses de variance.
la source