Codage fictif des contrastes: 0,1 vs 1, -1

8

Je cherche votre aide pour comprendre la différence entre deux contrastes différents pour les variables dichotomiques.

Sur cette page: http://www.psychstat.missouristate.edu/multibook/mlt08.htm sous "Variables des prédicteurs dichotomiques", il existe deux façons de coder les prédicteurs dichotomiques: en utilisant le contraste 0,1 ou le contraste 1, -1 . Je comprends en quelque sorte la distinction ici (0,1 est un codage fictif et 1, -1 ajoute à un groupe et soustrait de l'autre), mais je ne comprends pas lequel utiliser dans ma régression.

Par exemple, si j'ai deux prédicteurs dichotomiques, le sexe (m / f) et l'athlète (y / n), je pourrais utiliser des contrastes 0,1 sur les deux ou 1, -1 sur les deux. Quelle serait l'interprétation d'un effet principal ou d'un effet d'interaction lors de l'utilisation des deux contrastes différents? Cela dépend-il si mes cellules sont de tailles différentes?

Dan
la source

Réponses:

13

"Variables de prédicteurs dichotomiques", il existe deux façons de coder des prédicteurs dichotomiques: en utilisant le contraste 0,1 ou le contraste 1, -1.

C'est en fait faux. Il n'y a pas de limite au nombre de façons dont ils peuvent être codés. Ces deux sont simplement les plus communs (en fait entre eux, presque omniprésents), et probablement les plus faciles à traiter.

Je comprends en quelque sorte la distinction ici (0,1 est un codage fictif et 1, -1 ajoute à un groupe et soustrait de l'autre), mais je ne comprends pas lequel utiliser dans ma régression.

Selon ce qui est plus pratique / approprié. Si vous avez une expérience conçue avec des nombres égaux dans chacun, il y a quelques bons aspects à la deuxième approche; si vous ne le faites pas, le premier est probablement plus facile de plusieurs façons.

Par exemple, si j'ai deux prédicteurs dichotomiques, le sexe (m / f) et l'athlète (y / n), je pourrais utiliser des contrastes 0,1 sur les deux ou 1, -1 sur les deux.

Quelle serait l'interprétation d'un effet principal ou d'un effet d'interaction lors de l'utilisation des deux contrastes différents?

a) (i) Considérons un effet principal de genre (sans interaction pour simplifier) ​​{m = 0, f = 1} - alors le coefficient correspondant à ce mannequin mesurera la différence de moyenne entre les femmes et les hommes (et l'ordonnée à l'origine serait la moyenne des mâles).

(ii) Pour {m = -1, f = 1}, l'effet principal de genre est la moitié de la différence de moyenne, et l'ordonnée à l'origine est la moyenne des moyennes (si le plan est équilibré, c'est aussi la moyenne de toutes les données) . De manière équivalente, l'effet principal est la différence entre la moyenne de chaque groupe et l'interception.

b) (i) considérer une interaction entre le sexe {m = 0, f = 1} et l'athlète {n = 0, y = 1}

Maintenant, l'ordonnée à l'origine représente la moyenne des non-athlètes masculins (0,0), l'effet principal du sexe est la différence entre les moyennes des non-athlètes féminines et des non-athlètes masculins, l'effet principal des athlètes représente la différence entre la moyenne des athlètes masculins et des non-athlètes masculins et l'interaction est la différence de deux différences - c'est la différence moyenne athlète / non-athlète pour les femmes moins la différence moyenne athlète / non-athlète pour les marques.

(ii) considérer une interaction entre le sexe {m = -1, f = -1} et l'athlète {n = -1, y = 1}

Maintenant, l'ordonnée à l'origine représente la moyenne des quatre moyennes de groupe (et si le plan était complètement équilibré, ce serait aussi la moyenne globale). L'interception est un quart de ce qu'elle était avant.

Les principaux effets sont des moyennes des effets de différence - l'effet de genre est la moyenne de la différence femme-homme chez les athlètes et la différence femme-homme chez les non-athlètes. L'effet principal de l'athlète est la moyenne de la différence athlète / non-athlète chez les femmes et la différence athlète / non-athlète chez les hommes.

Cela dépend-il si mes cellules sont de tailles différentes?

Qu'entendez-vous par «différentes tailles»? Voulez-vous dire que le nombre d'observations dans chaque cellule est différent? (Si c'est le cas, j'ai largement abordé le fait que le nombre de cellules égal au-dessus donne des significations supplémentaires / simplifie l'interprétation, par exemple en faisant de l'interception la grande moyenne des données plutôt que juste la moyenne des moyennes de groupe.)

Glen_b -Reinstate Monica
la source
1
Réponse très complète. J'ajouterai que je ne vois littéralement aucune raison de coder un contraste avec un format -1, 1 pour les niveaux. Non seulement cela donne des tailles d'effet qui n'ont pas d'interprétation directe (comme "une différence doublée associée dans le résultat comparant une différence d'unité dans le prédicteur"), mais cela rend également l'interprétation de l'interception comme une quantité fictive (plutôt résultat attendu pour toutes les variables égales à zéro). Je recommanderais de toujours utiliser le codage 0/1 pour les variables factices.
AdamO
1
@AdamO je ne suis pas d'accord. 1) Si vous craignez que les codes -1, + 1 n'aient pas d'interprétation "directe", utilisez simplement -.5, +. 5. 2) Comme l'a noté Glen_b, l'ordonnée à l'origine sous ces codes représente la moyenne des moyennes du groupe; il est tout à fait difficile de savoir comment il s'agit plus ou moins d'une "quantité fictive" que les moyennes du groupe elles-mêmes (qui peuvent être égales ou non à TOUTES les observations dans l'ensemble de données!). 3) Les interactions entre les facteurs codés fictivement rendent presque toujours les effets simples vides de toute interprétation intéressante / significative; les codes de contraste offrent une interprétation beaucoup plus naturelle ici
Jake Westfall
Merci a tous. En effet, j'avais du mal à interpréter les principaux effets en présence d'une interaction lors de l'utilisation du codage factice. Je me suis rendu compte que l'effet principal du sexe était uniquement pour les non-athlètes (aucun effet du genre en moyenne sur les athlètes et les non-athlètes, c'est ce que j'obtiens avec les contrastes). Dan
Dan
"l'ordonnée à l'origine sous de tels codes représente la moyenne des moyennes du groupe": la moyenne des moyennes n'est pas la moyenne marginale, qui est le seul paramètre dont nous nous soucions. Ce n'est que sous une conception équilibrée que nous pourrions nous en approcher, et cette hypothèse est trop peu pratique pour nos besoins.
AdamO
@JakeWestfall Comme vous le savez, l'interprétation de l'interception est une valeur moyenne dans la réponse lorsque toutes les valeurs des régresseurs sont définies sur 0. Si cette valeur n'est pas probable ou pire n'est même pas possible, l'interception devient une quantité fictive. Même pour les binaires 0/1, supposons que j'indique deux régresseurs - (0: enceinte, 1: pas enceinte) (0: mâle 1: femelle) pour FEV. L'ordonnée à l'origine dans le modèle est le VEMS moyen chez les femmes enceintes. Maintenant, si je code, -1: masculin 1: féminin, l'ordonnée à l'origine n'a absolument aucune interprétation, sauf pour la "moyenne de la réponse moyenne chez les hommes et les femmes".
AdamO