Nomenclature gauche et droite dans les modèles de régression

9

y=β0+β1x1+ε0

Le langage utilisé pour décrire les modèles de régression, comme la régression linéaire très simple spécifiée ci-dessus, varie souvent et ces variations entraînent souvent de subtils changements de sens. Par exemple, la partie du modèle sur le côté gauche de l'équation peut être appelée (entre autres, je l'ignore) avec des connotations et des dénotations entre parenthèses:

  • Variable dépendante (indices de dépendance causale)
  • Variable prédite (implique que le modèle prévoit / fait des prédictions)
  • Variable de réponse (implique un lien de causalité ou au moins un séquençage temporel)
  • Variable de résultat (implique un lien de causalité)

La variation de la nomenclature est également vraie sur le côté droit de l'équation (même avertissement que je suis un ignorant des autres termes):

  • Variable indépendante (implique une priorité causale, des indices sur la conception expérimentale)
  • Variable prédictive (implique des prévisions, implique que la variable a une estimation de paramètre non nulle qui lui est associée)

Dans le cadre de propositions de vérification ou de communication de recherches, j'ai eu l'occasion non seulement d'être appelé sur l'utilisation d'un terme ou d'un autre, mais d'être ensuite appelé sur le terme avec lequel j'ai choisi de le remplacer. Bien que les personnes qui appellent étaient bien sûr pédantes (NB: je suis un pédant professionnel, donc je sympathise), parce que bien sûr nous avons tous compris ce qui était communiqué , je me demande encore:

Existe-t-il des termes couramment utilisés pour les variables de gauche et de droite dans les modèles de régression qui sont agnostiques en ce qui concerne (a) les utilisations externes du modèle, (b) les relations causales entre les variables et (c) les aspects de l'étude conceptions utilisées pour produire les variables elles-mêmes?

NB: Je ne pose pas de questions sur les questions importantes d'une modélisation et d'une interprétation appropriées (c'est-à-dire que je me soucie beaucoup de la causalité, de la conception de l'étude, etc.), mais je suis plus intéressé par un langage pour parler de tels modèles en général.

(Je me rends compte que les "variables de gauche" et les "variables de droite" pourraient, je suppose, être interprétées comme une réponse crédible, mais ces termes semblent maladroits ... c'est peut-être une question maladroite. :)

Alexis
la source
Il ne devrait y avoir aucune confusion à ce sujet.
Carl
1
Je pense que la réponse courte est non. C'est pour une bonne raison à mon avis. Dans les cas formels, le langage utilisé pour identifier les variables doit être suffisamment nuancé pour impliquer une interprétation distinguée au sein d'une application / d'un domaine prévu (c'est-à-dire qu'il est très important de savoir si la causalité est impliquée dans un modèle de régression et une bonne utilisation de la nomenclature aidera avec ça).
Zachary Blumenfeld
2
@ZacharyBlumenfeld (a) Ne répondez pas dans les commentaires. :) (b) Et pourtant, nous parlons de la "régression" elle-même en termes généraux, sans recours au plan d'étude, aux domaines de connaissances disciplinaires, etc. (par exemple, beaucoup de gens parlent et écrivent sur l'estimateur des moindres carrés sans invoquer le plan d'étude, la causalité , etc.). Si nous avons un langage agnostique aux applications pour décrire une large classe d'efforts statistiques, pourquoi n'y a-t-il pas un langage agnostique similaire pour les composantes de ces efforts?
Alexis
1
X(XX)1XyyX
1
@Kenji, je suis entièrement d'accord avec la plupart de vos points de vue. Cependant, je ne suis pas d'accord pour dire que l'on ne peut / ne devrait parler que des équations de régression dans un cas appliqué: nous devrions avoir un langage qui peut parler des variables de gauche et de droite de tous les modèles de régression, par exemple, lors de l'examen de l'application de telles méthodes. à un niveau méta dans toutes les disciplines.
Alexis

Réponses:

6

Ceci est une excellente question. En fait, c'est tellement bon qu'il n'y a pas de réponse. À ma connaissance, il n'y a pas de véritable terme «agnostique» pour décrire Y.

Dans mon expérience et mes lectures, j'ai trouvé que la sémantique est spécifique au domaine et également spécifique au modèle.

Les économétriciens utiliseront les termes variables dépendants lors de la construction d'un modèle explicatif. Ils peuvent utiliser les termes variable prédite ou ajustée ou estimée lorsqu'ils élaborent un modèle de prévision davantage axé sur une estimation / prédiction précise que sur un pouvoir explicatif théorique.

La foule Big Data / Deep Learning utilise un langage complètement différent. Et, ils utilisent généralement les termes variable de réponse ou variable cible. Leurs modèles sont de telles boîtes noires qu'ils n'essaient généralement pas d'expliquer un phénomène plutôt que de le prédire et de l'estimer avec précision. Mais, d'une manière ou d'une autre, ils ne seraient pas surpris en utilisant le terme prédit. Ils préfèrent de loin les termes réponse ou cible.

Je connais moins bien le terme variable de résultat. Il peut être répandu dans d'autres domaines auxquels je suis moins exposé, comme les sciences sociales, notamment la psychologie, la médecine, les essais cliniques et l'épidémiologie.

Compte tenu de ce qui précède, je ne pouvais pas vous fournir de sémantique «agnostique» pour décrire Y. Au lieu de cela, j'ai fourni un peu d'informations sur la sémantique à utiliser pour répondre à un public différent et refléter également l'objectif de votre modèle. En résumé, je ne pense pas que quiconque se blesse si vous parlez de variable dépendante avec des économétriciens et de réponse ou de variable cible avec des types d'apprentissage profond. Avec un peu de chance, vous pouvez séparer ces foules, sinon vous pourriez avoir un combat alimentaire verbal sur votre main.

Sympa
la source
J'aimerais pouvoir vous donner un vote supplémentaire pour "combat alimentaire verbal": D
Alexis