Régression avec des données asymétriques

11

Essayer de calculer le nombre de visites à partir de la démographie et du service. Les données sont très biaisées.

Histogrammes:

histogrammes

qq tracés (à gauche est le journal):

qq parcelles - à droite est log

m <- lm(d$Visits~d$Age+d$Gender+city+service)
m <- lm(log(d$Visits)~d$Age+d$Gender+city+service)

cityet servicesont des variables factorielles.

J'obtiens une faible valeur de p *** pour toutes les variables, mais j'obtiens également un faible r-carré de 0,05. Que devrais-je faire? Un autre modèle fonctionnerait-il, comme exponentiel ou quelque chose?

pxxd
la source
Étant donné que ce que je pensais à l'origine être une fréquence élevée de zéros était en fait une fréquence élevée de deux, pourriez-vous nous en dire un peu plus sur le processus de génération de données? Pour quel type de service les gens se sont-ils adressés et quel est le "but ultime" de l'analyse? Essayez-vous de prévoir le nombre (nombre) de visites, compte tenu d'un ensemble de caractéristiques (c.-à-d. Comme mesure de la qualité du service)? Avez-vous absolument besoin de conserver le résultat en tant que dénombrement afin de répondre à votre question de recherche, ou pourriez-vous réduire la variable de résultat en catégories moins nombreuses mais plus grandes?
Marquis de Carabas
2
Vous avez des données de comptage. Recherchez sur ce site la régression de Poisson.
kjetil b halvorsen

Réponses:

10

La régression linéaire n'est pas le bon choix pour votre résultat, étant donné:

  1. La variable de résultat n'est pas normalement distribuée
  2. La variable de résultat étant limitée dans les valeurs qu'elle peut prendre (les données de comptage signifient que les valeurs prédites ne peuvent pas être négatives)
  3. Ce qui semble être une fréquence élevée de cas avec 0 visite

Modèles de variables dépendantes limitées pour les données de comptage

La stratégie d'estimation que vous pouvez choisir est dictée par la «structure» de votre variable de résultat. Autrement dit, si votre variable de résultat est limitée dans les valeurs qu'elle peut prendre (c'est-à-dire s'il s'agit d'une variable dépendante limitée ), vous devez choisir un modèle où les valeurs prédites se situeront dans la plage possible pour votre résultat. Bien que la régression linéaire soit parfois une bonne approximation pour des variables dépendantes limitées (par exemple, dans le cas de logit / probit binaire), ce n'est souvent pas le cas. Entrez les modèles linéaires généralisés . Dans votre cas, la variable de résultat étant des données de comptage, vous avez plusieurs choix:

  1. Modèle de Poisson
  2. Modèle binomial négatif
  3. Modèle Poisson Zéro Gonflé (ZIP)
  4. Modèle binomial négatif zéro gonflé (ZINB)

Le choix est généralement déterminé empiriquement. Je vais brièvement discuter du choix entre ces options ci-dessous.


Poisson vs binôme négatif

En général, Poisson est le modèle "générique de référence" des modèles de données à 4 chiffres que j'ai mentionnés ci-dessus. Une limitation du modèle est l'hypothèse que la variance conditionnelle = la moyenne conditionnelle, qui peut ne pas toujours être vraie. Si votre modèle est trop dispersé (variance conditionnelle> moyenne conditionnelle), vous devrez utiliser le modèle binomial négatif à la place. Heureusement, lorsque vous exécutez le binôme négatif, la sortie inclut généralement un test statistique pour le paramètre de dispersion (R appelle ce paramètre de dispersion "theta ( )", qui est appelé "alpha" dans d'autres packages). L'hypothèse nulle dans le choix entre Poisson vs Binôme négatif est: , tandis que l'hypothèse alternative est .H 0 : θ = 0 H 1 : θ 0 θθH0:θ=0H1:θ0θ est significatif, il y a des preuves de surdispersion dans le modèle, et vous choisiriez Binomial négatif sur Poisson. Si le coefficient n'est pas statistiquement significatif, présentez les résultats de Poisson.

ZIP contre ZINB

Une complication potentielle est l'inflation zéro, qui pourrait être un problème ici. C'est là qu'interviennent les modèles ZIP et ZINB gonflés à zéro. En utilisant ces modèles, vous supposez que le processus générant les valeurs nulles est distinct du processus générant les autres valeurs non nulles. Comme précédemment, ZINB est approprié lorsque le résultat a des zéros excessifs et est sur-dispersé, tandis que ZIP est approprié lorsque le résultat a des zéros excessifs mais moyenne conditionnelle = variance conditionnelle. Pour les modèles à gonflement nul, en plus des covariables de modèle que vous avez énumérées ci-dessus, vous devrez penser aux variables qui peuvent avoir généré les zéros en excès que vous avez vus dans le résultat. Encore une fois, il existe des tests statistiques fournis avec la sortie de ces modèles (parfois vous devrez peut-être les spécifier lorsque vous exécutez une commande) qui vous permettrontdécidez empiriquement quel modèle est le meilleur pour vos données. Il existe deux tests intéressants: le premier est le test du coefficient sur le paramètre de dispersion et le second est ce qu'on appelle le test Vuong, qui vous indique si les zéros en excès sont générés par un processus distinct (c'est-à-dire s'il existe est, en effet, une inflation nulle dans le résultat).θ

En comparant le choix entre ZIP et ZINB, vous regarderez à nouveau le test du paramètre de dispersion . Encore une fois, (ZIP est un meilleur ajustement) et (ZINB est un meilleur ajustement). Le test Vuong vous permet de prendre une décision entre Poisson vs ZIP ou NB vs ZINB. Pour le test Vuong, (Poisson / NB est un meilleur ajustement) et (ZIP / ZINB est un meilleur ajustement).H 0 : θ = 0θH0:θ=0H1:θ0H0:Excess zeroes is not a result of a separate processH1:Excess zeroes is a result of a separate process


D'autres utilisateurs peuvent commenter le workflow "habituel", mais mon approche consiste à visualiser les données et à partir de là. Dans votre cas, je commencerais probablement par ZINB et exécuter à la fois le test sur le coefficient sur et le test Vuong, car c'est le test sur le coefficient sur qui vous dirait lequel était le meilleur entre ZIP et ZINB, et le Le test Vuong vous dirait si vous devez utiliser des modèles sans gonflage. θθ

Enfin, je n'utilise pas R, mais la page d'exemples d'analyse de données IDRE at UCLA peut vous guider dans l'ajustement de ces modèles.

[Modifier par un autre utilisateur sans assez de réputation pour commenter: cet article explique pourquoi vous ne devez pas utiliser le test Vuong pour comparer un modèle à inflation zéro et propose des alternatives.

P. Wilson, «L'utilisation abusive du test Vuong pour les modèles non imbriqués pour tester zéro inflation». Economics Letters, 2015, vol. 127, numéro C, 51-53 ]

Marquis de Carabas
la source
la majorité est de 2 ~ visites. Tous les enregistrements sont plus d'une visite
pxxd
Je reçois des parcelles qq similaires à la fois pour glm de poisson et gamma, est-ce correct?
pxxd
3
1. La variable de résultat n'est pas normalement distribuée n'est pas en soi un argument valable contre la régression linéaire. Un ensemble d'hypothèses de régression qui garantissent de belles propriétés de l'estimateur (telles que la cohérence et la normalité asymptotique) n'incluent pas la normalité de la variable de résultat (et même pas la normalité des erreurs).
Richard Hardy
2

Essayez le modèle linéaire généralisé avec distribution gamma. Elle peut approximer votre variable dépendante car elle est positive et égale zéro à x = 0. J'ai utilisé R et GLM avec un certain succès dans un cas similaire.

Diego
la source
puis-je utiliser le journal des visites là-bas ou le journal des liens? glm (d Âge + d $ Sexe + ville + mdc, famille = Gamma (lien = log)) Je reçois une intrigue qq similaireVisits d
pxxd
1
Non, je pense que vous ne devriez pas utiliser de lien de journal mais plutôt un lien d'identité. Mais vérifiez d'abord dans quelle mesure la fonction gamma s'adapte à votre distribution.
Diego
0

Toutes les hypothèses statistiques concernent les erreurs d'un modèle. Si vous construisez un modèle simple en utilisant 6 séries d'indicateurs reflétant le jour de la semaine ... vous commencerez à voir une distribution beaucoup plus agréable des erreurs. Continuez à incorporer les effets mensuels et les effets de vacances (AVANT, ON ET APRÈS) et la distribution des erreurs deviendra encore plus agréable. L'ajout d'indicateurs de jour du mois, de semaine de mois, de week-end prolongé et les choses deviendront encore plus agréables.

Regardez la méthode simple de prévision du nombre d'invités à partir des données actuelles et historiques et /stats//search?q=user%3A3382+daily+data pour une lecture plus amusante.

IrishStat
la source
1
Cette réponse ne semble pas concerner la question effectivement posée. Pourriez-vous rendre la connexion explicite?
whuber
J'ai pris ses DVISITS pour suggérer des données quotidiennes ... si ce n'est pas le cas, j'annule ma réponse. Si elle est vraiment transversale .. alors peut-être qu'il devrait envisager de stratifier les données par grandes classifications.
IrishStat