Essayer de calculer le nombre de visites à partir de la démographie et du service. Les données sont très biaisées.
Histogrammes:
qq tracés (à gauche est le journal):
m <- lm(d$Visits~d$Age+d$Gender+city+service)
m <- lm(log(d$Visits)~d$Age+d$Gender+city+service)
city
et service
sont des variables factorielles.
J'obtiens une faible valeur de p *** pour toutes les variables, mais j'obtiens également un faible r-carré de 0,05. Que devrais-je faire? Un autre modèle fonctionnerait-il, comme exponentiel ou quelque chose?
Réponses:
La régression linéaire n'est pas le bon choix pour votre résultat, étant donné:
Modèles de variables dépendantes limitées pour les données de comptage
La stratégie d'estimation que vous pouvez choisir est dictée par la «structure» de votre variable de résultat. Autrement dit, si votre variable de résultat est limitée dans les valeurs qu'elle peut prendre (c'est-à-dire s'il s'agit d'une variable dépendante limitée ), vous devez choisir un modèle où les valeurs prédites se situeront dans la plage possible pour votre résultat. Bien que la régression linéaire soit parfois une bonne approximation pour des variables dépendantes limitées (par exemple, dans le cas de logit / probit binaire), ce n'est souvent pas le cas. Entrez les modèles linéaires généralisés . Dans votre cas, la variable de résultat étant des données de comptage, vous avez plusieurs choix:
Le choix est généralement déterminé empiriquement. Je vais brièvement discuter du choix entre ces options ci-dessous.
Poisson vs binôme négatif
En général, Poisson est le modèle "générique de référence" des modèles de données à 4 chiffres que j'ai mentionnés ci-dessus. Une limitation du modèle est l'hypothèse que la variance conditionnelle = la moyenne conditionnelle, qui peut ne pas toujours être vraie. Si votre modèle est trop dispersé (variance conditionnelle> moyenne conditionnelle), vous devrez utiliser le modèle binomial négatif à la place. Heureusement, lorsque vous exécutez le binôme négatif, la sortie inclut généralement un test statistique pour le paramètre de dispersion (R appelle ce paramètre de dispersion "theta ( )", qui est appelé "alpha" dans d'autres packages). L'hypothèse nulle dans le choix entre Poisson vs Binôme négatif est: , tandis que l'hypothèse alternative est .H 0 : θ = 0 H 1 : θ ≠ 0 θθ H0:θ=0 H1:θ≠0 θ est significatif, il y a des preuves de surdispersion dans le modèle, et vous choisiriez Binomial négatif sur Poisson. Si le coefficient n'est pas statistiquement significatif, présentez les résultats de Poisson.
ZIP contre ZINB
Une complication potentielle est l'inflation zéro, qui pourrait être un problème ici. C'est là qu'interviennent les modèles ZIP et ZINB gonflés à zéro. En utilisant ces modèles, vous supposez que le processus générant les valeurs nulles est distinct du processus générant les autres valeurs non nulles. Comme précédemment, ZINB est approprié lorsque le résultat a des zéros excessifs et est sur-dispersé, tandis que ZIP est approprié lorsque le résultat a des zéros excessifs mais moyenne conditionnelle = variance conditionnelle. Pour les modèles à gonflement nul, en plus des covariables de modèle que vous avez énumérées ci-dessus, vous devrez penser aux variables qui peuvent avoir généré les zéros en excès que vous avez vus dans le résultat. Encore une fois, il existe des tests statistiques fournis avec la sortie de ces modèles (parfois vous devrez peut-être les spécifier lorsque vous exécutez une commande) qui vous permettrontdécidez empiriquement quel modèle est le meilleur pour vos données. Il existe deux tests intéressants: le premier est le test du coefficient sur le paramètre de dispersion et le second est ce qu'on appelle le test Vuong, qui vous indique si les zéros en excès sont générés par un processus distinct (c'est-à-dire s'il existe est, en effet, une inflation nulle dans le résultat).θ
En comparant le choix entre ZIP et ZINB, vous regarderez à nouveau le test du paramètre de dispersion . Encore une fois, (ZIP est un meilleur ajustement) et (ZINB est un meilleur ajustement). Le test Vuong vous permet de prendre une décision entre Poisson vs ZIP ou NB vs ZINB. Pour le test Vuong, (Poisson / NB est un meilleur ajustement) et (ZIP / ZINB est un meilleur ajustement).H 0 : θ = 0θ H0:θ=0 H1:θ≠0 H0:Excess zeroes is not a result of a separate process H1:Excess zeroes is a result of a separate process
D'autres utilisateurs peuvent commenter le workflow "habituel", mais mon approche consiste à visualiser les données et à partir de là. Dans votre cas, je commencerais probablement par ZINB et exécuter à la fois le test sur le coefficient sur et le test Vuong, car c'est le test sur le coefficient sur qui vous dirait lequel était le meilleur entre ZIP et ZINB, et le Le test Vuong vous dirait si vous devez utiliser des modèles sans gonflage.θ θ
Enfin, je n'utilise pas R, mais la page d'exemples d'analyse de données IDRE at UCLA peut vous guider dans l'ajustement de ces modèles.
[Modifier par un autre utilisateur sans assez de réputation pour commenter: cet article explique pourquoi vous ne devez pas utiliser le test Vuong pour comparer un modèle à inflation zéro et propose des alternatives.
P. Wilson, «L'utilisation abusive du test Vuong pour les modèles non imbriqués pour tester zéro inflation». Economics Letters, 2015, vol. 127, numéro C, 51-53 ]
la source
Essayez le modèle linéaire généralisé avec distribution gamma. Elle peut approximer votre variable dépendante car elle est positive et égale zéro à x = 0. J'ai utilisé R et GLM avec un certain succès dans un cas similaire.
la source
Toutes les hypothèses statistiques concernent les erreurs d'un modèle. Si vous construisez un modèle simple en utilisant 6 séries d'indicateurs reflétant le jour de la semaine ... vous commencerez à voir une distribution beaucoup plus agréable des erreurs. Continuez à incorporer les effets mensuels et les effets de vacances (AVANT, ON ET APRÈS) et la distribution des erreurs deviendra encore plus agréable. L'ajout d'indicateurs de jour du mois, de semaine de mois, de week-end prolongé et les choses deviendront encore plus agréables.
Regardez la méthode simple de prévision du nombre d'invités à partir des données actuelles et historiques et /stats//search?q=user%3A3382+daily+data pour une lecture plus amusante.
la source