Régression pour des variables indépendantes catégorielles et une variable dépendante continue

20

Je viens de réaliser que j'ai toujours travaillé un problème de régression où les variables indépendantes étaient toujours numériques. Puis-je utiliser la régression linéaire dans le cas où toutes les variables indépendantes sont catégoriques?

famargar
la source

Réponses:

24

Juste une sémantique et pour être clair:

  • variable dépendante == résultat == " y " dans les formules de régression telles que y=β0+β1x1+β2x2+...+βkxk
  • variable indépendante == prédicteur == un de " xk " dans les formules de régression telles que y=β0+β1x1+β2x2+...+βkxk

Ainsi, dans la plupart des situations, le type de régression dépend du type de variable dépendante, de résultat ou de " y " . Par exemple, la régression linéaire est utilisée lorsque la variable dépendante est continue, la régression logistique lorsque la personne à charge est catégorielle avec 2 catégories et la régression multinomique (n) al lorsque la personne à charge est catégorielle avec plus de 2 catégories. Les prédicteurs peuvent être n'importe quoi (nominal ou ordinal catégorique, ou continu, ou un mélange) .

(La remarque ci-dessous peut être redondante pour vous, mais je l'ajoute quand même)

Cependant, notez que la plupart des logiciels vous obligent à recoder les prédicteurs catégoriels dans un système numérique binaire . Cela signifie simplement coder le sexe à 0 pour les femmes et 1 pour les hommes ou vice versa. Pour les variables catégorielles avec plus de 2 niveaux, vous devrez les recoder en variables factices où est le nombre de niveaux et ces variables factices contiennent un 0 ou 1 lorsqu'elles sont dans la catégorie correspondante. De cette façon, chaque individu (échantillon) devrait être représenté en ayant un 1 pour la variable muette dont il fait partie et un 0 pour les autres, ou un 0 pour tous les nuls quand il fait partie du groupe de référence.LL1L

IWS
la source
Merci. comme j'écris dans le titre de la question, la variable dépendante est continue. Je prends donc votre réponse comme "vous pouvez utiliser la régression linéaire, à condition de faire un codage fictif". S'il vous plait corrigez moi si je me trompe.
famargar
oui c'est ce que je disais.
IWS
2
Je vois que vous avez modifié la question pour ajouter une deuxième question et publié une question similaire ici: stats.stackexchange.com/questions/267137/… . De plus, je vous demanderais ce que vous entendez par lisser vos prévisions ou ce que vous voulez dire par prédire des valeurs discrètes. AFAIK une régression linéaire vous donnera la valeur moyenne de la dépendance continue en fonction de vos variables prédictives (via la formule de régression). Veuillez élaborer
IWS
1
J'ai supprimé la deuxième question car vous avez pleinement répondu à la question d'origine. Pour répondre à votre question, si je fournissais nouveaux "événements" ( ) au modèle, j'obtiendrais valeurs différentes qui prendraient toutes l'une des quatre valeurs régressées. Je suppose que je dis que si les variables catégorielles étaient en fait ordinales, je voudrais introduire un certain lissage (logit?) Entre les valeurs. x i n ynxiny
famargar
1
Dans le cas d'une variable ordinale, on peut toujours choisir de supposer qu'elle est "suffisamment continue" pour l'utiliser comme s'il s'agissait d'un prédicteur continu (en n'utilisant simplement pas de variables muettes, mais en entrant la variable sous forme de version numérique). Cependant, si vous faites cela et que vous n'avez que peu de niveaux, vous ajustez une ligne droite (supposant ainsi la linéarité) sur seulement quelques points (notez donc que la quantité de niveaux est importante ici). Une échelle de Likert est un bon exemple d'une variable utilisée de cette façon, ce qui crée malheureusement des problèmes à diverses occasions.
IWS