Apprendre la régression ordinale dans R?

10

Je travaille sur un projet et j'ai besoin de ressources pour me mettre au courant.

L'ensemble de données comprend environ 35 000 observations sur une trentaine de variables. Environ la moitié des variables sont catégorielles, certaines ayant plusieurs valeurs possibles différentes, c'est-à-dire que si vous divisez les variables catégorielles en variables factices, vous auriez beaucoup plus de 30 variables. Mais encore probablement de l'ordre de quelques centaines de max. (n> p).

La réponse que nous voulons prédire est ordinale avec 5 niveaux (1,2,3,4,5). Les prédicteurs sont un mélange de continu et de catégorique, environ la moitié de chacun. Voici mes pensées / plans jusqu'à présent: 1. Traitez la réponse comme une régression linéaire continue et exécutez la vanille. 2. Exécuter une régression logistique nominale et ordinale et une régression probit 3. Utiliser MARS et / ou une autre variante de régression non linéaire

Je connais la régression linéaire. MARS est assez bien décrit par Hastie et Tibshirani. Mais je suis perdu quand il s'agit de logit / probit ordinaux, en particulier avec autant de variables et un ensemble de données volumineux.

Le paquet r glmnetcr semble être mon meilleur pari jusqu'à présent, mais la documentation ne suffit pas à me mettre où je dois être.

Où puis-je aller pour en savoir plus?

Matt Hall
la source
Je vous suggère également d'ajouter la balise R.
Christopher Louden
1
Étant donné qu'il s'agit d'une question sur le modèle statistique, vous voudrez peut-être aller sur le site Web CrossValidated , mais gardez à l'esprit qu'il est une pratique terrible de transposer les questions: vous voudriez soit le formuler pour mettre en évidence les problèmes méthodologiques que vous sont confrontés, ou migrer toute la question.
StasK
Sans vraiment expliquer pourquoi, ISL note (à la p. 137) que l'analyse discriminante (comme LDA, QDA) est plus souvent utilisée que plusieurs extensions de classe de régression logistique. Des paquets comme penalizedLDA peuvent donc être examinés.
MattBagg

Réponses:

6

VGAM, sur le CRAN, est un package R assez puissant pour la régression avec une réponse catégorielle ordinale. La vignette contient quelques exemples de régression ordinale, mais il est vrai que je ne l'ai jamais essayée sur un si grand ensemble de données, donc je ne peux pas estimer combien de temps cela peut prendre. Vous pouvez trouver des informations supplémentaires sur VGAM sur la page de l'auteur . Alternativement, vous pouvez jeter un œil au compagnon de Laura Thompson au livre d'Agresti "Analyse des données catégoriques". Le chapitre 7 du livre de Thompson décrit les modèles logit cumulatifs, qui sont fréquemment utilisés avec les réponses ordinales.

J'espère que cela t'aides!

GdA
la source
3

Si vous n'êtes pas familier avec la régression ordinale, j'essaierais de lire le chapitre Tabachnick / Fidell ( http://www.pearsonhighered.com/educator/product/Using-Multivariate-Statistics-6E/0205849571.page ) sur le sujet en premier - bien qu'il ne soit pas écrit pour R, le livre est très bon pour transmettre la logique générale et les choses à faire et à ne pas faire.

En tant que question: quelles sont exactement vos catégories de réponse? S'ils sont d'une sorte d'échelle, comme «bon - mauvais», il serait correct d'utiliser une régression linéaire (les études de marché le font tout le temps ...), mais si les éléments sont plus disjoints, une régression ordinale pourrait être meilleure . Je me souviens vaguement que certains livres sur la modélisation de l'équation structurelle mentionnaient que la régression linéaire était supérieure pour de bonnes échelles que probit - mais je ne me souviens pas du livre pour le moment, désolé!

Le problème le plus grave pourrait être le nombre de variables fictives - quelques centaines de variables fictives rendraient l'analyse lente, difficile à interpréter et probablement instable - y a-t-il suffisamment de cas pour chaque combinaison fictive / fictive?

Christian Sauer
la source
3

Une référence standard écrite du point de vue des sciences sociales est le livre sur les variables dépendantes limitées de J Scott Long . Cela va beaucoup plus loin que de dire Tabachnik suggéré dans une autre réponse : Tabachnik est au mieux un livre de cuisine, avec peu ou pas d'explications sur le "pourquoi", et il semble que vous gagneriez à le découvrir plus en détail qui peut être trouvé dans Long's. livre. La régression ordinale devrait être couverte dans la plupart des cours d'économétrie d'introduction (les données transversales et les données de panel de Wooldridge sont un excellent livre de niveau supérieur), ainsi que dans les cours de sciences sociales quantitatives (sociologie, psychologie), bien que j'imagine que ces derniers feront une boucle au livre de Long.

Étant donné que votre nombre de variables est considérablement inférieur à la taille de l'échantillon, le package R que vous devriez rechercher l'est probablement ordinalplutôt glmnetcr. Une autre réponse mentionne que vous pouvez trouver cette fonctionnalité dans un MASSpackage plus courant .

StasK
la source