Les variables indépendantes à faible corrélation avec la variable dépendante peuvent-elles être des prédicteurs significatifs?

10

J'ai huit variables indépendantes et une dépendante. J'ai exécuté une matrice de corrélation, et 5 d'entre eux ont une faible corrélation avec le DV. J'ai ensuite exécuté une régression multiple pas à pas pour voir si certains / tous les IV peuvent prédire le DV. La régression a montré que seuls deux IV peuvent prédire la DV (ne peut cependant représenter qu'environ 20% de la variance), et SPSS a supprimé le reste du modèle. Mon superviseur estime que je n'ai pas exécuté la régression correctement, car en raison de la force des corrélations, j'aurais dû trouver plus de prédicteurs dans le modèle de régression. Mais les corrélations étaient minuscules, alors ma question est: si les IV et le DV sont à peine corrélés, les IV peuvent-ils toujours être de bons prédicteurs du DV?

Elle
la source
5
Votre titre et votre contenu montrent une certaine confusion entre les termes "dépendant" et "indépendant". Veuillez vérifier que ma modification préserve votre sens. Le fait que les gens se trompent sur ce qui renforce le bien-fondé d'une terminologie plus évocatrice, telle que «réponse» ou «résultat» plutôt que «variable dépendante». Enfin, sur les abréviations, notez que pour de nombreuses personnes, "IV" signifie variable instrumentale .
Nick Cox
4
Oui c'est possible. L'une des raisons est la taille élevée de l'échantillon. Une autre raison est source de confusion: la principale variable indépendante peut présenter une faible corrélation avec la personne à charge car elle est contrebalancée par une autre variable indépendante. Une fois que ce facteur de confusion est ajouté au modèle, il peut faire passer la variable indépendante d'origine de non prédictif à prédictif (ou prédictif à non prédictif, selon les types de confusion.) La régression ne conviendra pleinement avec tous les tests de corrélation que lorsque toutes les variables indépendantes ne sont pas corrélés, cela n'arrive presque jamais.
Penguin_Knight
3
Dire une régression par étapes "a montré que seuls deux IV peuvent prédire le DV" suggère que vous ne comprenez pas comment cela fonctionne. Si deux IV sont fortement corrélés, et que l'un ou l'autre prédit le DV à peu près aussi bien, une procédure pas à pas peut en supprimer un tout à fait arbitrairement. Quel est le problème avec l'utilisation du modèle 8-IV complet?
Scortchi - Réintégrer Monica
3
Si vous êtes tenté d'utiliser par étapes, contactez Frank Harrell, Stratégies de modélisation de la régression Springer, NY, 2001 comme antidote. Il est actif sur ce site et est susceptible de tirer des roquettes s'il entend le mot "pas à pas".
Nick Cox
1
Plus votre compréhension des statistiques est faible, moins vous devez vous soucier des procédures de sélection des variables. Si votre objectif est d'examiner comment chaque IV se rapporte à la DV après avoir contrôlé les autres, c'est exactement ce que les estimations de coefficient (avec leurs intervalles de confiance) du modèle complet vous disent. L'examen des facteurs d'inflation de la variance à côté indique comment les corrélations entre les IV contribuent à l'incertitude. Utilisez un coefficient de détermination croisé ou ajusté, , pour évaluer la capacité prédictive de l'ensemble du modèle et pour vérifier le sur-ajustement. R2
Scortchi - Réintégrer Monica

Réponses:

8

Avec une matrice de corrélation, vous examinez les associations inconditionnelles (grossières) entre vos variables. Avec un modèle de régression, vous examinez les associations conjointes de vos IVs avec vos DVs, donc des associations conditionnelles (pour chaque IV, son association avec les DVs conditionnelles sur les autres IVs). Selon la structure de vos données, ces deux données peuvent donner des résultats très différents, voire contraires.

miura
la source
5

Par coïncidence, je regardais juste un exemple que j'avais créé plus tôt pour montrer des concepts similaires (en fait pour montrer l'un des problèmes de régression pas à pas). Voici le code R pour créer et analyser un jeu de données simulé:

set.seed(1)
x1 <- rnorm(25)
x2 <- rnorm(25, x1)
y <- x1-x2 + rnorm(25)
pairs( cbind(y,x1,x2) )    # Relevant results of each following line appear below...
cor( cbind(y,x1,x2) )      # rx1y  =   .08      rx2y = -.26      rx1x2 = .79
summary(lm(y~x1))          # t(23) =   .39         p = .70
summary(lm(y~x2))          # t(23) = -1.28         p = .21
summary(lm(y~x1+x2))       # t(22) =  2.54, -2.88  p = .02, .01 (for x1 & x2, respectively)

Les corrélations et les régressions linéaires simples montrent des relations faibles (non statistiquement significatives) entre et chacune des variables . Mais été défini en fonction des deux s, et la régression multiple montre les deux comme des prédicteurs significatifs.yXyX

Greg Snow
la source
4

Votre question serait plus facile à répondre si nous pouvions voir les détails quantitatifs de la sortie de votre logiciel et idéalement avoir une vue des données aussi.

Qu'est-ce que la "faible corrélation" en particulier? Quel niveau d'importance utilisez-vous? Existe-t-il des relations intégrées entre les prédicteurs qui entraînent la suppression de SPSS?

Notez que nous n'avons aucune possibilité de juger si vous avez utilisé la syntaxe la meilleure ou la plus appropriée pour votre objectif, car vous n'indiquez pas exactement ce que vous avez fait.

En termes généraux, de faibles corrélations entre les prédicteurs et les résultats impliquent que la régression peut être décevante de la même manière que vous avez besoin de chocolat pour faire un gâteau au chocolat. Donnez-nous plus de détails et vous devriez obtenir une meilleure réponse.

De manière générale, la déception de votre superviseur ne signifie pas que vous avez fait la mauvaise chose. Si votre superviseur connaît moins de statistiques que vous, vous devez demander conseil et soutien à d'autres personnes de votre établissement.

Nick Cox
la source
Merci tout le monde. Je sais que c'est un peu une question de bébé. J'ai ressenti du stress car mon DV et mes IV sont Locus of Control (avec 3 sous-échelles), Social Support, Coping Self Efficacy (3 sous-échelles) et Emotional Intelligence (tout cela concerne les questionnaires d'auto-évaluation) et je veux savoir comment / si les DV sont capables de prédire le stress perçu. J'ai examiné les corrélations entre toutes les variables, elles sont toutes principalement inférieures à 0,40, le niveau de signification est de 0,001. J'ai d'abord effectué une corrélation de Pearsons pour voir si les DV sont en corrélation avec le stress perçu, puis la régression pour voir s'ils peuvent prédire le stress.
Elle
1
Comme le souligne @miura à juste titre, des choses amusantes peuvent se produire, mais ces résultats semblent parfaitement cohérents avec des niveaux relativement faibles. R2.
Nick Cox