Étant donné une variable dépendante continue y et des variables indépendantes comprenant une variable ordinale X 1 , comment puis-je adapter un modèle linéaire R
? Existe-t-il des articles sur ce type de modèle?
la source
Étant donné une variable dépendante continue y et des variables indépendantes comprenant une variable ordinale X 1 , comment puis-je adapter un modèle linéaire R
? Existe-t-il des articles sur ce type de modèle?
@ Scortchi vous a couvert avec cette réponse sur le codage pour une covariable ordonnée . J'ai répété la recommandation sur ma réponse à Effet de deux IV démographiques sur les réponses à l'enquête (échelle de Likert) . Plus précisément, la recommandation est d'utiliser Gertheiss' (2013) paquet ordPens et de se référer à Gertheiss et Tutz (2009a) pour le fond théorique et une étude de simulation.
La fonction spécifique que vous souhaitez probablement est ordSmooth
* . Cela lisse essentiellement les coefficients fictifs entre les niveaux de variables ordinales afin qu'ils soient moins différents de ceux des rangs adjacents, ce qui réduit le surapprentissage et améliore les prévisions. Il effectue généralement aussi bien ou (parfois beaucoup) mieux que la vraisemblance maximale (c'est-à-dire les moindres carrés ordinaires dans ce cas) d'un modèle de régression pour des données continues (ou, selon leurs termes, métriques) lorsque les données sont réellement ordinales. Il semble compatible avec toutes sortes de modèles linéaires généralisés et vous permet de saisir des prédicteurs nominaux et continus en tant que matrices distinctes.
Plusieurs références supplémentaires de Gertheiss, Tutz et ses collègues sont disponibles et répertoriées ci-dessous. Certains d'entre eux peuvent contenir des alternatives - même Gertheiss et Tutz (2009a) discutent du redéploiement des crêtes comme une autre alternative. Je n'ai pas encore tout creusé moi-même, mais il suffit de dire que cela résout le problème de @ Erik de trop peu de littérature sur les prédicteurs ordinaux!
Les références
- Gertheiss, J. (2013, 14 juin). ordPens: Sélection et / ou lissage des prédicteurs ordinaux , version 0.2-1. Extrait de http://cran.r-project.org/web/packages/ordPens/ordPens.pdf .
- Gertheiss, J., Hogger, S., Oberhauser, C., et Tutz, G. (2011). Sélection de variables indépendantes à l'échelle ordinale avec des applications à la classification internationale des ensembles de base fonctionnels. Journal de la Royal Statistical Society: série C (Statistiques appliquées), 60 (3), 377–395.
- Gertheiss, J. et Tutz, G. (2009a). Régression pénalisée avec prédicteurs ordinaux. Revue statistique internationale, 77 (3), 345–365. Extrait de http://epub.ub.uni-muenchen.de/2100/1/tr015.pdf .
- Gertheiss, J. et Tutz, G. (2009b). Sélection supervisée des caractéristiques dans le profilage protéomique basé sur la spectrométrie de masse par amplification par blocs. Bioinformatics, 25 (8), 1076–1077.
- Gertheiss, J. et Tutz, G. (2009c). Mise à l'échelle variable et méthodes du plus proche voisin. Journal of Chemometrics, 23 (3), 149–151. - Gertheiss, J. et Tutz, G. (2010). Modélisation clairsemée de variables explicatives catégorielles.
The Annals of Applied Statistics, 4 , 2150–2180.
- Hofner, B., Hothorn, T., Kneib, T., et Schmid, M. (2011). Un cadre pour une sélection de modèle impartiale basée sur le boost Journal of Computational and Graphical Statistics, 20 (4), 956–971. Extrait de http://epub.ub.uni-muenchen.de/11243/1/TR072.pdf .
- Oelker, M.-R., Gertheiss, J., et Tutz, G. (2012). Régularisation et sélection de modèles avec prédicteurs catégoriels et modificateurs d'effets dans les modèles linéaires généralisés. Département de statistique: rapports techniques, n ° 122 . Extrait de http://epub.ub.uni-muenchen.de/13082/1/tr.gvcm.cat.pdf .
- Oelker, M.-R., & Tutz, G. (2013). Une famille générale de sanctions pour combiner différents types de sanctions dans des modèles structurés généralisés. Département de statistique: rapports techniques, n ° 139 . Extrait de http://epub.ub.uni-muenchen.de/17664/1/tr.pirls.pdf .
- Petry, S., Flexeder, C. et Tutz, G. (2011). Lasso fusionné par paire. Département de statistique: rapports techniques, n ° 102. Extrait de http://epub.ub.uni-muenchen.de/12164/1/petry_etal_TR102_2011.pdf .
- Rufibach, K. (2010). Un algorithme d'ensemble actif pour estimer les paramètres dans des modèles linéaires généralisés avec des prédicteurs ordonnés. Statistiques computationnelles et analyse des données, 54 (6), 1442–1456. Extrait de http://arxiv.org/pdf/0902.0240.pdf?origin=publication_detail .
- Tutz, G. (2011, octobre). Méthodes de régularisation pour les données catégorielles. Munich: Ludwig-Maximilians-Universität. Extrait de http://m.wu.ac.at/it/departments/statmath/resseminar/talktutz.pdf .
- Tutz, G. et Gertheiss, J. (2013). Les échelles de notation comme prédicteurs - La vieille question du niveau d'échelle et quelques réponses.Psychometrika , 1-20.
Lorsqu'il existe plusieurs prédicteurs et que le prédicteur d'intérêt est ordinale, il est souvent difficile de décider comment coder la variable. Le coder comme catégorique perd les informations d'ordre, tandis que le coder comme numérique impose une linéarité sur les effets des catégories ordonnées qui peuvent être loin de leurs vrais effets. Pour la première, la régression isotonique a été proposée comme moyen de remédier à la non-monotonie, mais il s'agit d'une procédure de sélection de modèle basée sur les données qui, comme de nombreuses autres procédures basées sur les données, nécessite une évaluation minutieuse du modèle ajusté final et de la signification. de ses paramètres. Pour ces derniers, les splines peuvent atténuer partiellement l'hypothèse de linéarité rigide, mais des nombres doivent toujours être attribués aux catégories ordonnées et les résultats sont sensibles à ces choix. Dans notre article (Li et Shepherd, 2010, Introduction, paragraphes 3-5),
sur et l'autre sur , calculer les résidus pour les deux modèles et évaluer la corrélation entre les résidus. Dans Li et Shepherd (2010), nous avons étudié cette approche lorsque est ordinale et a montré qu'elle peut être une très bonne approche robuste tant que l'effet de la categories est monotone. Nous évaluons actuellement la performance de cette approche sur d'autres types de résultats.
Cette approche nécessite un résidu approprié pour la régression de l'ordinal sur . Nous avons proposé un nouveau résidu pour les résultats ordinaux dans Li et Shepherd (2010) et l'avons utilisé pour construire une statistique de test. Nous avons en outre étudié les propriétés et les autres utilisations de ce résidu dans un document distinct (Li et Shepherd, 2012).
Nous avons développé un package R, PResiduals , disponible auprès du CRAN. Le package contient des fonctions pour effectuer notre approche pour les types de résultats linéaires et ordinaux. Nous travaillons pour ajouter d'autres types de résultats (par exemple, le nombre) et les fonctionnalités (par exemple, autoriser les interactions). Le package contient également des fonctions pour calculer notre résiduel, qui est un résidu d'échelle de probabilité, pour divers modèles de régression.
Les références
Li, C. et Shepherd, BE (2010). Test d'association entre deux variables ordinales lors de l'ajustement des covariables. JASA, 105, 612–620.
Li, C. et Shepherd, BE (2012). Un nouveau résidu pour les résultats ordinaux. Biometrika 99, 473–480.
En général, il y a beaucoup de littérature sur les variables ordinales comme dépendantes et peu sur leur utilisation comme prédicteurs. Dans la pratique statistique, ils sont généralement supposés être continus ou catégoriques. Vous pouvez vérifier si un modèle linéaire avec le prédicteur comme variable continue ressemble à un bon ajustement, en vérifiant les résidus.
Ils sont parfois également codés de manière cumulative. Un exemple serait qu'une variable ordinale x1 avec les niveaux 1, 2 et 3 ait une variable binaire fictive d1 pour x1> 1 et une variable binaire fictive d2 pour x1> 2. Ensuite, le coefficient pour d1 est l'effet que vous obtenez lorsque vous augmentez votre ordinal de 2 à 3 et le coefficient pour d2 est l'effet que vous obtenez lorsque vous ordinal de 2 à 3.
Cela facilite souvent l'interprétation, mais équivaut à l'utiliser comme variable catégorielle à des fins pratiques.
Gelman suggère même que l'on pourrait utiliser le prédicteur ordinal à la fois comme facteur catégorique (pour les effets principaux) et comme variable continue (pour les interactions) pour augmenter la flexibilité des modèles.
Ma stratégie personnelle consiste généralement à déterminer si le fait de les traiter comme continus a du sens et aboutit à un modèle raisonnable et à ne les utiliser comme catégoriques que si nécessaire.