Régression basée par exemple sur les jours de la semaine

11

J'ai besoin d'un peu d'aide pour aller dans la bonne direction. Cela fait longtemps que je n'ai étudié aucune statistique et le jargon semble avoir changé.

Imaginez que j'ai un ensemble de données liées à la voiture telles que

  • Temps de trajet de la ville A à la ville B
  • Distance de la ville A à la ville B
  • La taille du moteur
  • Pointure du conducteur
  • Marque et modèle de voiture
  • Jour de la semaine

Je veux prédire le temps de trajet.

J'imagine qu'il y a une forte corrélation entre le temps et la distance et probablement une plus faible à la taille du moteur (et aucune à la taille de la chaussure). On peut supposer que l'analyse de régression multiple / ANOVA est l'outil à utiliser. Mais comment inclure le jour de la semaine, car le coder simplement comme dimanche = 1, lundi = 2, etc. semble très mal?

Après avoir utilisé l'outil de régression d'Excel, par exemple, comment interpréter les résultats? Vraisemblablement, si R est proche de 1, cela est bon (bien que s'il existe de nombreux éléments de données, il semble qu'il puisse être petit mais néanmoins significatif). Mais certaines sources font référence au r au carré qui semble être le SD, donc une valeur proche de zéro est bonne. Il montre également le t Stat, la valeur P, F et la signification F, quels qu'ils soient. Quelqu'un peut-il recommander une bonne source de référence?

Un terrain
la source
2
Pour mémoire, ces questions (sur l'interprétation de la sortie de régression) ont été posées dans un autre fil ici , mais la question était si mal formulée qu'elle n'a pas recueilli de bonnes réponses. C'est une question fondamentale qui mérite une réponse "canonique" élémentaire mais approfondie, claire et bien expliquée.
whuber

Réponses:

26

Ce dont vous avez besoin est un examen solide de la méthodologie de régression. Cependant, ces questions sont suffisamment basiques (ne les prenez pas dans le mauvais sens) pour que même un bon aperçu des statistiques de base vous soit probablement utile. Howell a écrit un manuel très populaire qui fournit une large base conceptuelle sans nécessiter de mathématiques denses. Il vaut peut-être la peine de le lire. Il n'est pas possible de couvrir tout ce matériel ici. Cependant, je peux essayer de vous aider à démarrer sur certaines de vos questions spécifiques.

Premièrement, les jours de la semaine sont inclus via un schéma de codage. Le plus populaire est le codage de «catégorie de référence» (généralement appelé codage factice). Imaginons que vos données soient représentées dans une matrice, avec vos observations en lignes et vos variables en colonnes. Dans ce schéma, si vous aviez 7 variables catégorielles (par exemple, pour les jours de la semaine), vous ajouteriez 6 nouvelles colonnes. Vous choisiriez un jour comme catégorie de référence, généralement celle qui est considérée comme la catégorie par défaut. Souvent, cela est éclairé par la théorie, le contexte ou la question de recherche. Je n'ai aucune idée de ce qui serait le mieux pour les jours de la semaine, mais cela n'a pas vraiment d'importance, vous pouvez simplement en choisir un ancien. Une fois que vous avez la catégorie de référence, vous pouvez affecter les autres à vos 6 nouvelles variables, puis vous indiquez simplement si cette variable obtient pour chaque cas. Par exemple, supposons que vous choisissiez dimanche comme catégorie de référence, vos nouvelles colonnes / variables seront du lundi au samedi. Chaque observation qui a eu lieu un lundi serait indiquée par un1 dans la colonne du lundi et un ailleurs. La même chose se produirait avec les observations du mardi et ainsi de suite. Notez qu'aucun cas ne peut obtenir ou 2 colonnes ou plus, et que les observations qui ont eu lieu dimanche (la catégorie de référence) auraient dans toutes vos nouvelles variables. Il existe de nombreux autres schémas de codage possibles, et le lien fait un bon travail de les introduire. Vous pouvez tester pour voir si le jour de la semaine est important en testant le modèle imbriqué avec toutes les 6 nouvelles variables supprimées par rapport au modèle complet avec les 6 incluses. Notez que vous ne devez pas utiliser les tests signalés avec une sortie standard, car ils ne sont pas indépendants et présentent des problèmes de comparaison multiples intrinsèques. 010

Cela fait longtemps que je n'ai pas regardé comment Excel fait des statistiques, et je ne m'en souviens pas très clairement, donc quelqu'un d'autre pourrait peut-être vous aider davantage là-bas. Cette page semble contenir des informations sur les spécificités de la régression dans Excel. Je peux vous en dire un peu plus sur les statistiques généralement rapportées dans la sortie de régression:

  • Un score proche de indique que la variable de réponse de valeur peut être presque entièrement déterminée par les valeurs des variables de prédiction. De toute évidence, ce serait un effet important , mais il n'est pas a priori clair que ce soit «bon» - c'est une question entièrement différente et philosophiquement épineuse. r1
  • La signification de « » n'est pas claire , étant donné que vous effectuez une régression multiple (où n'est généralement pas indiqué). « » est une mesure de linéaire, d'une association à deux variables , qui est, elle applique aux relations en ligne droite entre (seulement) 2 variables. Il est cependant possible d'obtenir un score entre les valeurs prévues de votre modèle et les valeurs de réponse . Dans ce cas, vous utilisez 2 variables (et si votre modèle est correctement spécifié, la relation doit être linéaire). Cette version est appelée «multiple -score», mais elle est rarement discutée ou rapportée par le logiciel. rrrrr
  • R-carré est simplement le carré de (c.-à-d.rr×r10r1R21rR2) est fortement biaisé dans la régression multiple. Autrement dit, plus vous ajoutez de prédicteurs à votre modèle, plus ces statistiques augmentent, qu'il y ait ou non une relation. Vous devez donc être prudent dans leur interprétation.
  • tF
  • p
  • tFpF1F
  • FF

Un dernier point qui mérite d'être souligné est que ce processus ne peut être dissocié de son contexte. Pour bien analyser les données, vous devez garder à l'esprit vos connaissances de base et la question de recherche. J'y ai fait allusion ci-dessus concernant le choix de la catégorie de référence. Par exemple, vous notez que la pointure ne devrait pas être pertinente, mais pour les Pierrafeu, elle l'était probablement! Je veux juste inclure ce fait, car il semble souvent être oublié.

gung - Réintégrer Monica
la source
5
(+1) Excel peut en fait effectuer plusieurs régressions et possède une commande capable de produire un tableau récapitulatif standard. Étant donné sa tendance historique à être (très) bâclée avec le calcul des valeurs de distribution, la capacité doit être considérée comme le chien de Samuel Johnson : "... un chien qui marche sur ses pattes arrière. Ce n'est pas bien fait; mais vous êtes surpris de trouver cela a été fait du tout. "
whuber
3

Vous terminez avec beaucoup de questions qui nécessitent une régression "pédagogique". Permettez-moi de dire qu'un R ^ 2 supérieur est préférable, mais il y a des mises en garde. R ^ 2 augmente toujours lorsque vous ajoutez des variables afin de pouvoir le gonfler artificiellement. Regardez les tests de signification, regardez les diagnostics résiduels, etc. En ce qui concerne le jour de la semaine, lundi = 1, mardi = 2, etc. ne serait pas la voie à suivre. Ce que vous voulez, ce sont des variables d'indicateur saisonnier: 0/1 si lundi, 0/1 si mardi, etc.

Badgerman
la source