Je veux inclure le terme et son carré (variables prédictives) dans une régression parce que je suppose que les faibles valeurs de ont un effet positif sur la variable dépendante et les valeurs élevées ont un effet négatif. Le devrait capturer l'effet des valeurs plus élevées. J'espère donc que le coefficient de sera positif et le coefficient de sera négatif. Outre , j'inclus également d'autres variables prédictives.
J'ai lu dans certains articles ici que c'est une bonne idée de centrer les variables dans ce cas pour éviter la multicolinéarité. Lorsque vous effectuez une régression multiple, quand devez-vous centrer vos variables prédictives et quand devez-vous les normaliser?
Dois-je centrer les deux variables séparément (à la moyenne) ou dois-je seulement centrer puis prendre le carré ou dois-je seulement centrer et inclure le origine ?
Est-ce un problème si est une variable de comptage?
Afin d'éviter que soit une variable de comptage, j'ai pensé à le diviser par une zone théoriquement définie, par exemple 5 kilomètres carrés. Cela devrait être un peu similaire à un calcul de densité de points.
Cependant, je crains que dans cette situation, mon hypothèse initiale sur le signe des coefficients ne tienne plus, comme lorsque et x² = 4
=
mais serait alors plus petit car .
Réponses:
Votre question comprend en fait plusieurs sous-questions, que j'essaierai de répondre au mieux de ma compréhension.
Considérer et est une façon de le faire, mais êtes-vous sûr que votre test est concluant? Serez-vous capable de conclure quelque chose d'utile pour tous les résultats possibles de la régression? Je pense que poser la question clairement à l'avance peut aider, et poser des questions similaires et connexes peut aussi aider. Par exemple, vous pouvez considérer un seuil de pour lequel les pentes de régression sont différentes. Cela peut être fait en utilisant des variables de modérateur . Si les différentes pentes (tout en imposant la même interception) sont compatibles alors vous n'avez aucune différence, sinon vous vous êtes fourni un argument clair pour leur différence.x x2 x
Je pense que cette question ne doit pas être mélangée avec la première question et le premier test, et je crains que le fait de se concentrer sur ou au préalable risque de biaiser les résultats. Je conseillerais de ne pas centrer, au moins dans un premier temps. N'oubliez pas que vous ne mourrez probablement pas de multicollinéarité, de nombreux auteurs affirment que c'est juste équivalent à travailler avec un échantillon plus petit ( ici et ici ).x x2
Oui, ce sera le cas, mais cela dépendra fortement des 2 premiers points, je vous suggère donc de traiter une chose à la fois. Je ne vois aucune raison pour laquelle la régression ne fonctionnerait pas sans cette transformation, je vous conseille donc de l'ignorer pour l'instant. Notez également qu'en divisant par un élément commun, vous changez l'échelle à laquelle , mais il existe des manières complètement différentes de le voir, comme je l'ai écrit ci-dessus, dans lesquelles ce seuil est considéré de manière plus explicite.x2=x
la source
En général, le centrage pourrait aider à réduire la multicolinéarité, mais "vous ne mourrez probablement pas de multicolinéarité" (voir la réponse de predrofigueira).
Plus important encore, le centrage est souvent nécessaire pour rendre l'interception significative. Dans le modèle simple , l'ordonnée à l'origine est définie comme le résultat attendu pour . Si une valeur de zéro n'est pas significative, l'itércept ne l'est pas non plus. Il est souvent utile de centrer la variable autour de sa moyenne; dans ce cas, le prédicteur est de la forme et l'ordonnée à l'origine est le résultat attendu pour un sujet dont la valeur sur est égale à la moyenne .yi=α+βxi+ε x=0 x x (xi−x¯) α xi x¯
Dans de tels cas, vous devez centrer puis carré. Vous ne pouvez pas centrer et séparément, car vous régressez le résultat sur une "nouvelle" variable, , vous devez donc cadrer cette nouvelle variable. Que pourrait signifier centrer ?x x x2 (xi−x¯) x2
Vous pouvez centrer une variable de comptage, si sa moyenne est significative , mais vous pouvez simplement la mettre à l' échelle . Par exemple, si et "2" pourraient être une ligne de base, vous pouvez soustraire 2: . L'ordonnée à l'origine devient le résultat attendu pour un sujet dont la valeur sur est égale à "2", une valeur de référence.x=1,2,3,4,5 (xi−2)=−1,0,1,2,3 xi
Quant à la division, pas de problème: vos coefficients estimés seraient plus grands! Gelman et Hill , §4.1, donnent un exemple:
Un pouce fait millimètres, donc est . Un pouce emiles, donc est . Mais ces trois équations sont entièrement équivalentes.25.4 51 1300/25.4 1.6e−5 81000000 1300/1.6e−5
la source
Bien que j'apprécie le traitement par les autres du centrage et de l'interprétation des coefficients, ce que vous avez décrit ici n'est qu'un effet linéaire. En d'autres termes, ce que vous avez décrit n'indique pas la nécessité de tester le carré de x .
la source