Comment gérer la variable catégorielle ordinale en tant que variable indépendante

18

J'utilise un modèle logit. Ma variable dépendante est binaire. Cependant , j'ai une variable indépendante qui est catégorique et contient les réponses: 1.very good, 2.good, 3.average, 4.poor and 5.very poor. Donc, c'est ordinal ("quantitatif catégorique"). Je ne sais pas comment gérer cela dans le modèle. J'utilise gretl.

[Note de @ttnphns: Bien que la question indique que le modèle est logit (parce que la dépendance est catégorielle), la question cruciale - les variables indépendantes ordinales - est fondamentalement la même, soit la dépendance catégorielle ou quantitative. Par conséquent, la question est également pertinente, par exemple, pour la régression linéaire - comme pour la régression logistique ou un autre modèle logit.]

rahmat
la source
Ma variable dépendante prend la valeur 0 et 1, j'ai 6 variables indépendantes, 3 d'entre elles sont catégoriques ces variables sont comme "comment évaluez-vous les services de santé locaux dans votre région? Comment évaluez-vous le transport local dans votre région et comment évaluez-vous les services de police de votre région - les réponses sont très bonnes, bonnes, moyennes, mauvaises et très mauvaises
rahmat
@Tim Si la variable dépendante est binaire, aucune régression ordinale n'est nécessaire. L'implication est de gérer un prédicteur ordinal à l'aide de variables indicatrices (factices).
Nick Cox
merci tim, si je ne me trompe pas, ce que vous dites est que je devrais créer un mannequin pour toutes les catégories ?? par exemple, j'ai cinq réponses (très bonnes, bonnes, moyennes, pauvres et très pauvres) pour une variable indépendante, donc je devrais créer 5 variables muettes.
rahmat

Réponses:

14

Le problème avec la variable indépendante ordinale est que, puisque, par définition, les vrais intervalles métriques entre ses niveaux ne sont pas connus , aucune relation de type appropriée - à part le parapluie "monotone" - ne peut être supposée a priori. Nous devons faire quelque chose, par exemple - pour "filtrer ou combiner des variantes" ou "préférer ce qui maximise quelque chose".

Si vous insistez pour traiter votre cote de risque IV comme ordinale (plutôt qu'intervalle ou nominale), j'ai une paire d'alternatives pour vous.

  1. Utilisez des contrastes polynomiaux, c'est-à-dire que chacun de ces prédicteurs utilisés dans le modèle entre non seulement de manière linéaire mais également quadratique et cubique. Ainsi, non seulement l'effet monotone linéaire, mais plus général peut être capturé (l'effet linéaire correspond au prédicteur conservé comme échelle / intervalle et les deux autres effets le goûtent comme ayant des intervalles non égaux). De plus, des variables muettes de chaque prédicteur pourraient également être entrées, ce qui permettra de tester l'effet nominal / factoriel. À la fin de tout cela, vous savez combien votre prédicteur agit comme facteur, combien comme covariable linéaire et combien comme covariable non linéaire. Cette option est facile à faire dans presque toutes les régressions (linéaire, logistique, autres modèles linéaires généralisés). Il consommera df s, la taille de l'échantillon doit donc être suffisamment grande.
  2. Utilisez une mise à l'échelle optimale régression de . Cette approche transforme monotone un prédicteur ordinal en un intervalle afin de maximiser l'effet linéaire sur le prédictant. CATREG (régression catégorielle) est une implémentation de cette idée dans SPSS. Un problème de votre cas spécifique est que vous voulez faire de la régression logistique, pas une régression linéaire, mais CATREG n'est pas basé sur un modèle logit. Je pense que cet obstacle est relativement mineur car votre prédictand n'est que de 2 catégories (binaire): je veux dire que vous pourriez toujours faire CATREG pour une mise à l'échelle optimale, puis faire une régression logistique finale avec les prédicteurs d'échelle transformés choisis.
  3. Notez également que dans le cas simple d'une échelle ou DV ordinale et d'un IV ordinal, le test de Jonckheere-Terpstra peut être une analyse raisonnable au lieu d'une régression.

Il pourrait également y avoir d'autres suggestions. Les trois ci-dessus sont ce qui m'est venu à l'esprit en lisant instantanément votre question.

Permettez-moi de vous recommander également de visiter ces fils: Association entre nominal et échelle ou ordinale ; Association entre ordinal et échelle . Ils pourraient être utiles malgré le fait qu'ils ne concernent pas spécifiquement les régressions.

Mais ces fils parlent de régressions, notamment logistiques: il faut regarder à l'intérieur: un , deux , trois , quatre , cinq .

ttnphns
la source
(+1) (1) Vous pouvez également utiliser uniquement les premiers contrastes polynomiaux si vous pensez qu'ils sont suffisants. (2) La définition de prédicteurs à partir de la réponse dans le même ensemble de données doit être accompagnée d'un avertissement relatif à la santé. (3) Vous pouvez également pénaliser les écarts entre les coefficients des niveaux adjacents - voir stats.stackexchange.com/q/77796/17230 .
Scortchi - Réintégrer Monica
1
@Scortchi, Merci pour le commentaire. En ce qui concerne (2) - oui, en particulier, il est bien sûr plus fiable de faire une mise à l'échelle optimale sur un sous-ensemble distinct des données sur lesquelles la régression finale sera effectuée. (3) - merci aussi, je vais en prendre connaissance.
ttnphns du
1
Une autre option consiste à utiliser un modèle aditif et à représenter la variable indépendante ordinale via une spline.
kjetil b halvorsen
2
@kjetilbhalvorsen, Oui c'est possible, merci. Cependant, cette option est déjà impliquée dans Pt 2 car l'une des méthodes de mise à l'échelle optimale pour les variables ordinales utilise la spline.
ttnphns
7

Juste pour ajouter aux autres excellentes réponses: une manière moderne de le gérer pourrait être via un modèle additif, représentant la variable indépendante ordinale via une spline. Si vous êtes certain que l'effet de la variable est monotone, vous pouvez vous limiter à une spline monotone. (Pour un exemple de splines monotones utilisées, voir Recherche d'une fonction pour s'adapter à une courbe de type sigmoïde ).

Dans R, si vous faites du prédicteur ordinal un "facteur ordonné" (avec par exemple le code ord <- factor(sample(1:5,20,replace=TRUE),ordered=TRUE) ), alors dans un modèle linéaire, il sera représenté via des polynômes orthogonaux.

kjetil b halvorsen
la source
4
Ce serait bien de l'étendre un peu, pour inclure quelques détails supplémentaires sur la façon dont cela fonctionnera avec les prédicteurs ordinaux.
ttnphns
0

k1k

Austin T
la source
3
J'ai changé unilatéralement (et de façon pédante ou autre) votre minuscule utilisation de la notation. Bien que ce soit trivial,nest plus souvent un compte d’observations, et j’ai souvent vu des débutants s’embrouiller devant de telles questions.
Nick Cox
1
merci tim et nick. Je dois donc exécuter les quatre mannequins dans la régression. droite? si c'est le cas, j'ai 3 variables catégorielles chacune avec 5 réponses. par conséquent, mon modèle comportera 12 variables. droite?
rahmat
1
Merci @NickCox - Je suis nouveau dans le monde du CV et j'apprécie les corrections respectueuses
Austin T
1
Malheureusement, vous n'avez pas expliqué pourquoi des variables factices seront nécessaires. Je ne pense pas que cette réponse, quant à la façon dont elle est actuellement, ressemble à une réponse à la question.
ttnphns
2
À l'appui, je ne pense pas qu'il s'agisse de faire valoir que des indicateurs sont nécessaires ; c'est juste qu'ils permettent de capturer une variété d'effets, y compris des relations non monotones.
Nick Cox