Il y a quelques jours, un de mes psychologues-chercheurs m'a parlé de sa méthode pour sélectionner des variables dans un modèle de régression linéaire. Je suppose que ce n'est pas bon, mais je dois demander à quelqu'un d'autre de m'en assurer. La méthode est:
Examinez la matrice de corrélation entre toutes les variables (y compris la variable dépendante Y) et choisissez les prédicteurs Xs, qui correspondent le plus à Y.
Il n'a mentionné aucun critère. Q: avait-il raison?
[Je pense que cette méthode de sélection est erronée, à cause de beaucoup de choses, comme c'est la théorie qui dit quels prédicteurs devraient être sélectionnés, ou même omis le biais variable (OVB).]
regression
correlation
model-selection
Lil'Lobster
la source
la source
Réponses:
Si, pour une raison quelconque, vous n'incluez qu'une seule variable dans votre modèle, la sélection du prédicteur qui présente la corrélation la plus élevée avec présente plusieurs avantages. Parmi les modèles de régression possibles avec un seul prédicteur, alors ce modèle est celui avec le coefficient de régression standardisé le plus élevé et aussi (puisque est le carré de dans une régression linéaire simple ) le coefficient de détermination le plus élevé .y R2 r
Mais il n'est pas clair pourquoi vous voudriez limiter votre modèle de régression à un seul prédicteur si vous avez des données disponibles pour plusieurs. Comme mentionné dans les commentaires, le simple fait de regarder les corrélations ne fonctionne pas si votre modèle peut inclure plusieurs variables. Par exemple, à partir de cette matrice de dispersion, vous pourriez penser que les prédicteurs pour vous devez inclure dans votre modèle sont (corrélation 0,824) et (corrélation 0,782) mais que (corrélation 0,134) n'est pas un prédicteur utile.x 1 x 2 x 3y x1 x2 x3
Mais vous vous trompez - en fait dans cet exemple, dépend de deux variables indépendantes, et , mais pas directement de . Cependant, est fortement corrélé avec , ce qui conduit également à une corrélation avec . En examinant la corrélation entre et isolément, cela pourrait suggérer que est un bon prédicteur de . Mais une fois que les effets de sont partialled sur en incluant dans le modèle, aucun tel reste de la relation.x 1 x 3 x 2 x 2 x 1 y y x 2 x 2 y x 1 x 1y x1 x3 x2 x2 x1 y y x2 x2 y x1 x1
Cette taille d'échantillon est suffisamment grande pour surmonter les problèmes de multicolinéarité dans l'estimation des coefficients pour et . Le coefficient de est estimé près de zéro et avec une valeur p non significative . Le vrai coefficient est nul. L'ordonnée à l'origine et les pentes pour et sont estimées près de leurs valeurs réelles de 5, 3 et 0,5 respectivement. Notez que s'avère correctement être un prédicteur significatif, même si cela n'est pas évident à partir de la matrice de dispersion.x 2 x 2 x 1 x 3 x 3x1 x2 x2 x1 x3 x3
Et voici un exemple qui est encore pire:
x 1 x 2 x 3 x 4 y yy x1 x2 x3 x4 x1 x2 x3 X4 y y peut en fait trouver la variable qui n'appartient pas du tout au modèle.
la source
Vous pouvez exécuter une analyse de régression par étapes et laisser le logiciel choisir les variables en fonction des valeurs F. Vous pouvez également consulter la valeur R ^ 2 ajustée lorsque vous exécutez la régression à chaque fois, pour voir si l'ajout d'une nouvelle variable contribue à votre modèle. Votre modèle peut avoir le problème de la multicolinéarité si vous utilisez simplement une matrice de corrélation et choisissez des variables avec une forte corrélation. J'espère que cela t'aides!
la source