Dans l'analyse de régression, pourquoi appelons-nous des variables indépendantes «indépendantes»?

30

Je veux dire que certaines de ces variables sont fortement corrélées entre elles. Comment / pourquoi / dans quel contexte les définissons-nous comme variables indépendantes ?

Amarpreet Singh
la source
1
C'est historique et vient des travaux scientifiques français. J'essaie de trouver la référence.
Alecos Papadopoulos
1
J'appellerais un ensemble de variables «potentiellement co-dépendantes» pour éviter d'inférer la causalité.
qed
1
Une bonne question!
Rafael Marazuela

Réponses:

29

Si nous nous retirons de l'accent mis aujourd'hui sur l'apprentissage automatique et rappelons la quantité d'analyse statistique qui a été développée pour les études expérimentales contrôlées, l'expression "variables indépendantes" a beaucoup de sens.

Dans les études expérimentales contrôlées, les choix d'un médicament et de ses concentrations, ou les choix d'un engrais et de ses quantités par acre, sont effectués indépendamment par l'investigateur. L'intérêt est de savoir comment une variable de réponse d'intérêt (par exemple, la pression artérielle, le rendement des cultures) dépend de ces manipulations expérimentales. Idéalement, les caractéristiques des variables indépendantes sont étroitement spécifiées, sans aucune erreur dans la connaissance de leurs valeurs. Ensuite, la régression linéaire standard, par exemple, modélise les différences entre les valeurs des variables dépendantes en termes de valeurs des variables indépendantes plus les erreurs résiduelles.

Le même formalisme mathématique utilisé pour la régression dans le contexte d'études expérimentales contrôlées peut également être appliqué à l'analyse d'ensembles de données observés avec peu ou pas de manipulation expérimentale, il n'est donc peut-être pas surprenant que l'expression "variables indépendantes" ait été appliquée à de tels types de données. études. Mais, comme d'autres sur cette page le notent, c'est probablement un choix malheureux, avec des "prédicteurs" ou des "fonctionnalités" plus appropriés dans de tels contextes.

EdM
la source
2
Mais le choix des niveaux de médicament dépend de ce que fait l'investigateur, c'est pourquoi je ne me souviens jamais lequel est lequel.
mdewey
Dans l'apprentissage automatique, les «fonctionnalités» sont souvent des variables latentes et non observées. Les «caractéristiques observées» sont plus courantes.
Neil G
18

À bien des égards, la «variable indépendante» est un choix malheureux. Les variables ne doivent pas être indépendants les uns des autres, et bien sûr pas besoin d' être indépendant de la variable dépendante . Dans l'enseignement et dans mon livre Stratégies de modélisation de la régression, j'utilise le mot prédicteur . Dans certaines situations, ce mot n'est pas assez fort, mais il fonctionne bien en moyenne. Une description complète du rôle des variables X (côté droit) dans un modèle statistique peut être trop longue à utiliser à chaque fois: l'ensemble des variables ou mesures sur lesquelles la distribution de Y est conditionnée. C'est une autre façon de dire l'ensemble des variables dont nous ne sommes actuellement pas intéressés par les distributions, mais dont nous traitons les valeurs comme constantes.YXY

Frank Harrell
la source
Donc tout ce que vous dites, c'est qu'appeler des variables d'entrée comme "indépendantes" est une mauvaise pratique? @Frank
Amarpreet Singh
11
Ils ne sont certainement pas supposés être indépendants de quoi que ce soit, c'est donc une mauvaise pratique, utilisée uniquement en raison de l'habitude.
Frank Harrell
1
"l'ensemble des variables ou mesures sur lesquelles la distribution de Y est conditionnée" ... en fait je les considère comme (et parfois les appelle) les "variables de conditionnement" ou "variables conditionnées sur", ce qui n'est pas trop long description et fonctionne naturellement avec la notation E(Y|X)
Silverfish
11

Je suis d'accord avec les autres réponses ici que «indépendant» et «dépendant» est une mauvaise terminologie. Comme l' explique EdM , cette terminologie est apparue dans le contexte d'expériences contrôlées où le chercheur pouvait définir les régresseurs indépendamment les uns des autres. Il existe de nombreux termes préférables qui n'ont pas cette connotation causale chargée, et d'après mon expérience, les statisticiens ont tendance à préférer les termes plus neutres. De nombreux autres termes sont utilisés ici, notamment les suivants:

Yixi,1,...,xi,mResponsePredictorsRegressandRegressorsOutput variableInput variablesPredicted variableExplanatory variables

Personnellement, j'utilise les termes variables explicatives et variable de réponse, car ces termes n'ont aucune connotation d'indépendance ou de contrôle statistique, etc. n'ont pas trouvé cela problématique.)

Réintégrer Monica
la source
1
(+1) Je suppose que régresseur / régresseur sont les termes les plus neutres, mais je préfère également expliquer en utilisant explicatif / réponse.
Frans Rodenburg
2
Je suis d'accord avec la tendance à préférer des termes neutres, mais "explicatif" me semble assez causal comme dans: "Les variables X expliquent pourquoi la variable Y agit de la même manière."
timwiz
1
Je suppose que cela signifie explicatif dans un sens probabiliste - c'est-à-dire qu'il explique les changements dans la distribution de la variable de réponse. Vous avez peut-être raison, mais dans tous ces cas, la connotation à toute causalité est faible.
Rétablir Monica le
2
L'explication implique que la causalité est donc inappropriée.
Frank Harrell
1
@Frank: Je ne suis pas nécessairement d'accord avec ce point de vue. L'explication est dérivée du mot "expliquer", donc je suppose que cela implique seulement que les variables expliquent la variable de réponse d'une manière ou d'une autre. Cette explication pourrait être causale ou simplement statistique, et je suppose que c'est la dernière. Néanmoins, il semble que les gens interprètent différemment les connotations de ces mots, donc je concède que certains le liront comme ayant des connotations causales.
Rétablir Monica le
9

Pour ajouter aux réponses de Frank Harrell et Peter Flom:

Je suis d'accord que le fait d'appeler une variable "indépendante" ou "dépendante" est souvent trompeur. Mais certaines personnes le font encore. J'ai entendu une fois une réponse pourquoi:

YXXYY X

Y

Łukasz Deryło
la source
Vous dites que Y dépend de X, (donc Y est appelé variable dépendante) et que vous voulez dire par là que X ne dépend pas de Y. Mais il peut y avoir des cas où X peut dépendre de Y ou corréler avec Y (donc il peut ne sera plus appelé "indépendant"). Des opinions à ce sujet?
Amarpreet Singh
Non, je ne veux pas dire que X ne dépend pas de Y. Je veux juste dire que l' explication la plus élémentaire de ce que fait l'analyse de régression est qu'elle décrit comment Y dépend de X. Ainsi, le nom le plus basique de Y serait "dépendant "
Łukasz Deryło le
6
Je n'essaie pas de répondre à la question "faut-il appeler X indépendant?" mais plutôt "pourquoi l'appelle-t-on indépendant?", tout comme dans le titre de votre message
Łukasz Deryło
5

«Dépendant» et «indépendant» peuvent être des termes prêtant à confusion. Un sens est pseudo-causal ou même causal et c'est celui que l'on entend quand on dit "variable indépendante" et "variable dépendante". Nous voulons dire que le DV, dans un certain sens, dépend de l'IV. Ainsi, par exemple, lors de la modélisation de la relation entre la taille et le poids chez l'homme adulte, nous disons que le poids est le DV et la taille est le IV.

Cela saisit quelque chose que le «prédicteur» ne fait pas - à savoir, la direction de la relation. La taille prédit le poids, mais le poids prédit également la taille. Autrement dit, si on vous disait de deviner la taille des gens et qu'on vous disait leur poids, ce serait utile.

Mais nous ne dirions pas que la taille dépend du poids.

Peter Flom - Réintégrer Monica
la source
Êtes-vous précis sur le modèle SEM?
Amarpreet Singh
Non, je pensais à la régression.
Peter Flom - Réintègre Monica
Ok, c'est juste une question de nom. Je suis confus que d'appeler des variables d'entrée comme "indépendantes" signifie quelque chose.
Amarpreet Singh
12
DV et IV sont des abréviations courantes (que je n'aime pas personnellement), mais faites attention à de nombreux économistes et à certains autres spécialistes des sciences sociales pour qui IV ne peut signifier qu'une variable instrumentale. Il est moins courant de rencontrer des gens pour qui DV ne peut signifier que Deo volente (si Dieu le veut).
Nick Cox
0

Sur la base des réponses ci-dessus, oui, je conviens que cette variable dépendante et indépendante est une terminologie faible. Mais je peux expliquer le contexte dans lequel il est utilisé par beaucoup d'entre nous. Vous dites que pour un problème de régression général, nous avons une variable de sortie, disons Y, dont la valeur dépend d'autres variables d'entrée, disons x1, x2, x3. C'est pourquoi on l'appelle une "variable dépendante". De même, en fonction de ce contexte uniquement , et juste pour faire la différence entre la variable de sortie et la variable d'entrée, x1, x2, x3 sont appelés variables indépendantes. Car contrairement à Y cela ne dépend d'aucune autre variable (Mais oui ici on ne parle pas là de dépendance avec eux-mêmes.)

Pooja Sonkar
la source
Vous avez répondu similaire à celui de @Ramya R.
Amarpreet Singh
-2

Les variables indépendantes sont appelées indépendantes car elles ne dépendent pas d'autres variables. Par exemple, considérons le problème de prédiction du prix des logements. Supposons que nous ayons des données sur la taille de la maison, l'emplacement et le prix de la maison. Ici, le prix de la maison est déterminé en fonction de la taille et de l'emplacement de la maison, mais l'emplacement et la taille de la maison peuvent varier pour différentes maisons.

Ramya R
la source
4
Parfois, les variables dites "indépendantes" de régression sont corrélées. Ils ne sont donc pas nécessairement statistiquement indépendants. Il serait préférable de les appeler des variables prédictives.
Michael R. Chernick
Micheal, merci de l'avoir signalé. J'ai une question complémentaire. Dans les cas où nous avons deux variables prédictives colinéaires, n'en écartons-nous pas une pour éliminer le problème de multicolinéarité afin que nos variables prédictives soient indépendantes l'une de l'autre?
Ramya R
1
Pas nécessairement. Cela dépend si cela affecte ou non la stabilité des estimations et à quel point la prédiction est plus forte lorsque les deux variables sont incluses. Si deux variables ont une corrélation de 0,1, elles ne sont pas indépendantes mais la relation entre elles est faible.
Michael R. Chernick