J'ai un ensemble de données qui contient à la fois des variables catégorielles et des variables continues. On m'a conseillé de transformer les variables catégorielles en variables binaires pour chaque niveau (c'est-à-dire A_level1: {0,1}, A_level2: {0,1}) - je pense que certains ont appelé cela des "variables factices".
Cela dit, serait-il trompeur de centrer et de mettre à l'échelle l'ensemble des données avec les nouvelles variables? Il semble que je perdrais le sens "on / off" des variables.
S'il est trompeur, cela signifie-t-il que je devrais centrer et mettre à l'échelle les variables continues séparément, puis les ajouter à nouveau à mon ensemble de données?
TIA.
categorical-data
data-transformation
centering
user2300643
la source
la source
Réponses:
Lors de la construction de variables fictives à utiliser dans les analyses de régression, chaque catégorie d'une variable catégorielle, à l'exception d'une seule, doit obtenir une variable binaire. Vous devriez donc avoir par exemple A_level2, A_level3 etc. Une des catégories ne devrait pas avoir de variable binaire, et cette catégorie servira de catégorie de référence. Si vous n'omettez aucune des catégories, vos analyses de régression ne s'exécuteront pas correctement.
Si vous utilisez SPSS ou R, je ne pense pas que la mise à l'échelle et le centrage de l'ensemble des données seront généralement un problème car ces progiciels interprètent souvent des variables avec seulement deux niveaux comme facteurs, mais cela peut dépendre des méthodes statistiques spécifiques utilisées . Dans tous les cas, cela n'a aucun sens de mettre à l'échelle et de centrer les variables binaires (ou catégorielles), vous ne devez donc centrer et mettre à l'échelle les variables continues que si vous devez le faire.
la source
Si vous utilisez R et mettez à l'échelle les variables fictives ou les variables ayant 0 ou 1 à une échelle comprise entre 0 et 1 uniquement, il n'y aura aucun changement sur les valeurs de ces variables, le reste des colonnes sera mis à l'échelle.
la source
Le point de centrage moyen dans la régression est de rendre l'interception plus interprétable. Autrement dit, si vous voulez dire centrer toutes les variables de votre modèle de régression, l'ordonnée à l'origine (appelée Constante dans la sortie SPSS) est égale à la moyenne générale globale de votre variable de résultat. Ce qui peut être pratique lors de l'interprétation du modèle final.
En ce qui concerne les variables fictives de centrage, je viens d'avoir une conversation avec un de mes professeurs sur les variables fictives de centrage moyen dans un modèle de régression (dans mon cas, un modèle multiniveau de conception de blocs randomisés à 3 niveaux) et mon emporter était cette moyenne les variables fictives ne changent pas réellement l'interprétation des coefficients de régression (sauf que la solution est complètement standardisée). Habituellement, il n'est pas nécessaire dans la régression d'interpréter la valeur centrée moyenne du niveau unitaire réel - uniquement les coefficients. Et cela essentiellement ne change pas - pour la plupart. Elle a dit que cela change légèrement parce que c'est standardisé ce qui, pour les nuls, n'est pas aussi intuitif à comprendre.
Avertissement: c'est ce que j'ai compris lorsque j'ai quitté le bureau de mon professeur. J'aurais pu, bien sûr, me tromper.
la source