J'ai besoin d'un peu d'aide pour aller dans la bonne direction. Cela fait longtemps que je n'ai étudié aucune statistique et le jargon semble avoir changé.
Imaginez que j'ai un ensemble de données liées à la voiture telles que
- Temps de trajet de la ville A à la ville B
- Distance de la ville A à la ville B
- La taille du moteur
- Pointure du conducteur
- Marque et modèle de voiture
- Jour de la semaine
Je veux prédire le temps de trajet.
J'imagine qu'il y a une forte corrélation entre le temps et la distance et probablement une plus faible à la taille du moteur (et aucune à la taille de la chaussure). On peut supposer que l'analyse de régression multiple / ANOVA est l'outil à utiliser. Mais comment inclure le jour de la semaine, car le coder simplement comme dimanche = 1, lundi = 2, etc. semble très mal?
Après avoir utilisé l'outil de régression d'Excel, par exemple, comment interpréter les résultats? Vraisemblablement, si R est proche de 1, cela est bon (bien que s'il existe de nombreux éléments de données, il semble qu'il puisse être petit mais néanmoins significatif). Mais certaines sources font référence au r au carré qui semble être le SD, donc une valeur proche de zéro est bonne. Il montre également le t Stat, la valeur P, F et la signification F, quels qu'ils soient. Quelqu'un peut-il recommander une bonne source de référence?
la source
Réponses:
Ce dont vous avez besoin est un examen solide de la méthodologie de régression. Cependant, ces questions sont suffisamment basiques (ne les prenez pas dans le mauvais sens) pour que même un bon aperçu des statistiques de base vous soit probablement utile. Howell a écrit un manuel très populaire qui fournit une large base conceptuelle sans nécessiter de mathématiques denses. Il vaut peut-être la peine de le lire. Il n'est pas possible de couvrir tout ce matériel ici. Cependant, je peux essayer de vous aider à démarrer sur certaines de vos questions spécifiques.
Premièrement, les jours de la semaine sont inclus via un schéma de codage. Le plus populaire est le codage de «catégorie de référence» (généralement appelé codage factice). Imaginons que vos données soient représentées dans une matrice, avec vos observations en lignes et vos variables en colonnes. Dans ce schéma, si vous aviez 7 variables catégorielles (par exemple, pour les jours de la semaine), vous ajouteriez 6 nouvelles colonnes. Vous choisiriez un jour comme catégorie de référence, généralement celle qui est considérée comme la catégorie par défaut. Souvent, cela est éclairé par la théorie, le contexte ou la question de recherche. Je n'ai aucune idée de ce qui serait le mieux pour les jours de la semaine, mais cela n'a pas vraiment d'importance, vous pouvez simplement en choisir un ancien. Une fois que vous avez la catégorie de référence, vous pouvez affecter les autres à vos 6 nouvelles variables, puis vous indiquez simplement si cette variable obtient pour chaque cas. Par exemple, supposons que vous choisissiez dimanche comme catégorie de référence, vos nouvelles colonnes / variables seront du lundi au samedi. Chaque observation qui a eu lieu un lundi serait indiquée par un1 dans la colonne du lundi et un ailleurs. La même chose se produirait avec les observations du mardi et ainsi de suite. Notez qu'aucun cas ne peut obtenir ou 2 colonnes ou plus, et que les observations qui ont eu lieu dimanche (la catégorie de référence) auraient dans toutes vos nouvelles variables. Il existe de nombreux autres schémas de codage possibles, et le lien fait un bon travail de les introduire. Vous pouvez tester pour voir si le jour de la semaine est important en testant le modèle imbriqué avec toutes les 6 nouvelles variables supprimées par rapport au modèle complet avec les 6 incluses. Notez que vous ne devez pas utiliser les tests signalés avec une sortie standard, car ils ne sont pas indépendants et présentent des problèmes de comparaison multiples intrinsèques. 0 1 0
Cela fait longtemps que je n'ai pas regardé comment Excel fait des statistiques, et je ne m'en souviens pas très clairement, donc quelqu'un d'autre pourrait peut-être vous aider davantage là-bas. Cette page semble contenir des informations sur les spécificités de la régression dans Excel. Je peux vous en dire un peu plus sur les statistiques généralement rapportées dans la sortie de régression:
Un dernier point qui mérite d'être souligné est que ce processus ne peut être dissocié de son contexte. Pour bien analyser les données, vous devez garder à l'esprit vos connaissances de base et la question de recherche. J'y ai fait allusion ci-dessus concernant le choix de la catégorie de référence. Par exemple, vous notez que la pointure ne devrait pas être pertinente, mais pour les Pierrafeu, elle l'était probablement! Je veux juste inclure ce fait, car il semble souvent être oublié.
la source
Vous terminez avec beaucoup de questions qui nécessitent une régression "pédagogique". Permettez-moi de dire qu'un R ^ 2 supérieur est préférable, mais il y a des mises en garde. R ^ 2 augmente toujours lorsque vous ajoutez des variables afin de pouvoir le gonfler artificiellement. Regardez les tests de signification, regardez les diagnostics résiduels, etc. En ce qui concerne le jour de la semaine, lundi = 1, mardi = 2, etc. ne serait pas la voie à suivre. Ce que vous voulez, ce sont des variables d'indicateur saisonnier: 0/1 si lundi, 0/1 si mardi, etc.
la source