B et E sont tous deux dérivés de V. B et E ne sont clairement pas des variables vraiment «indépendantes» l'une de l'autre. La variable sous-jacente qui importe vraiment ici est V. Vous devriez probablement ignorer B et E dans ce cas et ne garder que V.
Dans une situation plus générale, lorsque vous avez deux variables indépendantes qui sont très fortement corrélées, vous devez certainement supprimer l'une d'entre elles car vous rencontrez l'énigme de la multicolinéarité et les coefficients de régression de votre modèle de régression liés aux deux variables hautement corrélées ne seront pas fiables. De plus, en langage simple, si deux variables sont si fortement corrélées, elles transmettront évidemment presque exactement la même information à votre modèle de régression. Mais, en incluant les deux, vous affaiblissez réellement le modèle. Vous n'ajoutez pas d'informations incrémentielles. Au lieu de cela, vous insufflez du bruit à votre modèle. Pas une bonne chose.
Vous pouvez conserver des variables hautement corrélées dans votre modèle en utilisant au lieu de régresser un modèle d'analyse en composantes principales (ACP). Les modèles PCA sont conçus pour éliminer la multicolinéarité. Le compromis est que vous vous retrouvez avec deux ou trois composants principaux dans votre modèle qui ne sont souvent que des constructions mathématiques et sont à peu près incompréhensibles en termes logiques. L'ACP est donc fréquemment abandonnée comme méthode chaque fois que vous devez présenter vos résultats à un public externe tel que la direction, les régulateurs, etc. Les modèles PCA créent des boîtes noires cryptiques qui sont très difficiles à expliquer.
Voici une réponse du point de vue d'un apprenant machine, même si je crains d'être battu par de vrais statisticiens pour cela.
Est-il possible pour moi de simplement "jeter" une des variables?
Eh bien, la question est de savoir quel type de modèle vous souhaitez utiliser pour la prédiction. Cela dépend par exemple de ...
Parfois, nous apprenons par machine à effectuer une optimisation génétique pour trouver la meilleure combinaison arithmétique d'un ensemble de prédicteurs.
la source
B est une transformation linéaire de V. E représente une interaction entre V et D. Avez-vous envisagé de spécifier un modèle qui est Y = Interception + V + D + V: D? Comme le suggère @ euphoria83, il semble probable qu'il y ait peu de variation dans D, donc cela peut ne pas résoudre votre problème; cependant, il devrait au moins clarifier les contributions indépendantes de V et D. Veillez à centrer à la fois V et D au préalable.
la source
Si D n'est pas une constante, alors B et E sont en fait deux variables différentes en raison des variations de D. La forte corrélation indique que D est pratiquement constant dans toutes les données d'apprentissage. Si tel est le cas, vous pouvez éliminer B ou E.
la source