Comment inclure et dans la régression et s'il faut les centrer?

9

Je veux inclure le terme et son carré (variables prédictives) dans une régression parce que je suppose que les faibles valeurs de ont un effet positif sur la variable dépendante et les valeurs élevées ont un effet négatif. Le devrait capturer l'effet des valeurs plus élevées. J'espère donc que le coefficient de sera positif et le coefficient de sera négatif. Outre , j'inclus également d'autres variables prédictives.xx2xx2xx2x

J'ai lu dans certains articles ici que c'est une bonne idée de centrer les variables dans ce cas pour éviter la multicolinéarité. Lorsque vous effectuez une régression multiple, quand devez-vous centrer vos variables prédictives et quand devez-vous les normaliser?

  1. Dois-je centrer les deux variables séparément (à la moyenne) ou dois-je seulement centrer puis prendre le carré ou dois-je seulement centrer et inclure le origine ?xx2x

  2. Est-ce un problème si est une variable de comptage?x

Afin d'éviter que soit une variable de comptage, j'ai pensé à le diviser par une zone théoriquement définie, par exemple 5 kilomètres carrés. Cela devrait être un peu similaire à un calcul de densité de points.x

Cependant, je crains que dans cette situation, mon hypothèse initiale sur le signe des coefficients ne tienne plus, comme lorsque et x² = 4x=2x²=4

x=2/5 km2 = 0.4 km2

mais x2 serait alors plus petit car x2=(2/5)2=0.16 .

Peter
la source
1
Votre logiciel de régression prendra automatiquement en charge les problèmes numériques - en particulier, il est très susceptible de centrer et de standardiser vos données en interne. Comment répondre à vos questions sur le centrage se résume à la façon dont vous souhaitez interpréter les coefficients.
whuber

Réponses:

4

Votre question comprend en fait plusieurs sous-questions, que j'essaierai de répondre au mieux de ma compréhension.

  • Comment distinguer la dépendance des valeurs basses et hautes d'une régression?

Considérer et est une façon de le faire, mais êtes-vous sûr que votre test est concluant? Serez-vous capable de conclure quelque chose d'utile pour tous les résultats possibles de la régression? Je pense que poser la question clairement à l'avance peut aider, et poser des questions similaires et connexes peut aussi aider. Par exemple, vous pouvez considérer un seuil de pour lequel les pentes de régression sont différentes. Cela peut être fait en utilisant des variables de modérateur . Si les différentes pentes (tout en imposant la même interception) sont compatibles alors vous n'avez aucune différence, sinon vous vous êtes fourni un argument clair pour leur différence.xx2x

  • Quand faut-il centrer et standardiser?

Je pense que cette question ne doit pas être mélangée avec la première question et le premier test, et je crains que le fait de se concentrer sur ou au préalable risque de biaiser les résultats. Je conseillerais de ne pas centrer, au moins dans un premier temps. N'oubliez pas que vous ne mourrez probablement pas de multicollinéarité, de nombreux auteurs affirment que c'est juste équivalent à travailler avec un échantillon plus petit ( ici et ici ).xx2

  • La transformation de la variable de comptage discret en une variable à virgule flottante (continue) modifie-t-elle l'interprétation des résultats?

Oui, ce sera le cas, mais cela dépendra fortement des 2 premiers points, je vous suggère donc de traiter une chose à la fois. Je ne vois aucune raison pour laquelle la régression ne fonctionnerait pas sans cette transformation, je vous conseille donc de l'ignorer pour l'instant. Notez également qu'en divisant par un élément commun, vous changez l'échelle à laquelle , mais il existe des manières complètement différentes de le voir, comme je l'ai écrit ci-dessus, dans lesquelles ce seuil est considéré de manière plus explicite.x2=x

pedrofigueira
la source
Merci beaucoup pour votre réponse, surtout pour les liens !!!
Peter
Ce fut un plaisir d'aider. =)
pedrofigueira
4

En général, le centrage pourrait aider à réduire la multicolinéarité, mais "vous ne mourrez probablement pas de multicolinéarité" (voir la réponse de predrofigueira).

Plus important encore, le centrage est souvent nécessaire pour rendre l'interception significative. Dans le modèle simple , l'ordonnée à l'origine est définie comme le résultat attendu pour . Si une valeur de zéro n'est pas significative, l'itércept ne l'est pas non plus. Il est souvent utile de centrer la variable autour de sa moyenne; dans ce cas, le prédicteur est de la forme et l'ordonnée à l'origine est le résultat attendu pour un sujet dont la valeur sur est égale à la moyenne .yi=α+βxi+εx=0xx(xix¯)αxix¯

Dans de tels cas, vous devez centrer puis carré. Vous ne pouvez pas centrer et séparément, car vous régressez le résultat sur une "nouvelle" variable, , vous devez donc cadrer cette nouvelle variable. Que pourrait signifier centrer ?xxx2(xix¯)x2

Vous pouvez centrer une variable de comptage, si sa moyenne est significative , mais vous pouvez simplement la mettre à l' échelle . Par exemple, si et "2" pourraient être une ligne de base, vous pouvez soustraire 2: . L'ordonnée à l'origine devient le résultat attendu pour un sujet dont la valeur sur est égale à "2", une valeur de référence.x=1,2,3,4,5(xi2)=1,0,1,2,3xi

Quant à la division, pas de problème: vos coefficients estimés seraient plus grands! Gelman et Hill , §4.1, donnent un exemple:

earnings=61000+1300height (in inches)+errorearnings=61000+51height (in millimeters)+errorearnings=61000+81000000height (in miles)+error

Un pouce fait millimètres, donc est . Un pouce emiles, donc est . Mais ces trois équations sont entièrement équivalentes.25.4511300/25.41.6e5810000001300/1.6e5

Sergio
la source
liés .
Henrik
Merci pour ta réponse Sergio. Cela m'a vraiment aidé. Malheureusement, je ne peux marquer qu'une seule réponse comme étant ma réponse acceptée.
Peter
Je vous en prie. Et ne vous inquiétez pas ;-)
Sergio
1

Je suppose que les faibles valeurs de x ont un effet positif sur la variable dépendante et les valeurs élevées ont un effet négatif.

Bien que j'apprécie le traitement par les autres du centrage et de l'interprétation des coefficients, ce que vous avez décrit ici n'est qu'un effet linéaire. En d'autres termes, ce que vous avez décrit n'indique pas la nécessité de tester le carré de x .

rolando2
la source
À mon avis, si , l'effet (partiel) de sur (ou, mieux, sur ) est . De tels effets sont constants, ils ne dépendent pas du niveau de . Si le modèle est , alors l'effet partiel de est et dépend du niveau de . Cela peut également se produire dans d'autres modèles, par exemple dans les modèles de spline linéaire, mais pas dans un modèle linéaire simple (1er degré). Ai-je tort? y=β0+β1x1+β2x2+εxiyE[yx]E[yx]/xi=βi xiy=β0+β1x1+β2x2+β3x22+εx2β2+2β3x2x2
Sergio
@ rolando2: Je ne sais pas si nous parlons de la chose samte. Si je n'inclus que la variable prédictive régulière, j'obtiendrai un coefficient estimé pour ce prédicteur qui soit positif ou négatif. Sur la base du coefficient, je peux dire qu'en ajoutant une unité à x, y augmentera ou diminuera d'une certaine quantité. Mais je ne peux pas découvrir de cette façon si de petites valeurs conduisent réellement à une augmentation de y, tandis que des valeurs plus élevées (à partir d'un certain point inconnu) conduisent à une diminution de y.
Peter
@Peter - Je comprends et je vous suggère de modifier la phrase "Je suppose" de votre question pour lire: "Je suppose que, dans une région de x, des valeurs plus élevées de x ont un effet positif sur la variable dépendante, tandis que dans une autre région, des valeurs plus élevées ont un effet négatif. "
rolando2