Je travaille sur un projet et j'ai besoin de ressources pour me mettre au courant.
L'ensemble de données comprend environ 35 000 observations sur une trentaine de variables. Environ la moitié des variables sont catégorielles, certaines ayant plusieurs valeurs possibles différentes, c'est-à-dire que si vous divisez les variables catégorielles en variables factices, vous auriez beaucoup plus de 30 variables. Mais encore probablement de l'ordre de quelques centaines de max. (n> p).
La réponse que nous voulons prédire est ordinale avec 5 niveaux (1,2,3,4,5). Les prédicteurs sont un mélange de continu et de catégorique, environ la moitié de chacun. Voici mes pensées / plans jusqu'à présent: 1. Traitez la réponse comme une régression linéaire continue et exécutez la vanille. 2. Exécuter une régression logistique nominale et ordinale et une régression probit 3. Utiliser MARS et / ou une autre variante de régression non linéaire
Je connais la régression linéaire. MARS est assez bien décrit par Hastie et Tibshirani. Mais je suis perdu quand il s'agit de logit / probit ordinaux, en particulier avec autant de variables et un ensemble de données volumineux.
Le paquet r glmnetcr semble être mon meilleur pari jusqu'à présent, mais la documentation ne suffit pas à me mettre où je dois être.
Où puis-je aller pour en savoir plus?
la source
Réponses:
Je suggère ce tutoriel sur logit commandé: http://www.ats.ucla.edu/stat/r/dae/ologit.htm
Il présente l'utilisation de
polr
dans leMASS
package et explique également les hypothèses et comment interpréter les résultats.la source
VGAM, sur le CRAN, est un package R assez puissant pour la régression avec une réponse catégorielle ordinale. La vignette contient quelques exemples de régression ordinale, mais il est vrai que je ne l'ai jamais essayée sur un si grand ensemble de données, donc je ne peux pas estimer combien de temps cela peut prendre. Vous pouvez trouver des informations supplémentaires sur VGAM sur la page de l'auteur . Alternativement, vous pouvez jeter un œil au compagnon de Laura Thompson au livre d'Agresti "Analyse des données catégoriques". Le chapitre 7 du livre de Thompson décrit les modèles logit cumulatifs, qui sont fréquemment utilisés avec les réponses ordinales.
J'espère que cela t'aides!
la source
Si vous n'êtes pas familier avec la régression ordinale, j'essaierais de lire le chapitre Tabachnick / Fidell ( http://www.pearsonhighered.com/educator/product/Using-Multivariate-Statistics-6E/0205849571.page ) sur le sujet en premier - bien qu'il ne soit pas écrit pour R, le livre est très bon pour transmettre la logique générale et les choses à faire et à ne pas faire.
En tant que question: quelles sont exactement vos catégories de réponse? S'ils sont d'une sorte d'échelle, comme «bon - mauvais», il serait correct d'utiliser une régression linéaire (les études de marché le font tout le temps ...), mais si les éléments sont plus disjoints, une régression ordinale pourrait être meilleure . Je me souviens vaguement que certains livres sur la modélisation de l'équation structurelle mentionnaient que la régression linéaire était supérieure pour de bonnes échelles que probit - mais je ne me souviens pas du livre pour le moment, désolé!
Le problème le plus grave pourrait être le nombre de variables fictives - quelques centaines de variables fictives rendraient l'analyse lente, difficile à interpréter et probablement instable - y a-t-il suffisamment de cas pour chaque combinaison fictive / fictive?
la source
Une référence standard écrite du point de vue des sciences sociales est le livre sur les variables dépendantes limitées de J Scott Long . Cela va beaucoup plus loin que de dire Tabachnik suggéré dans une autre réponse : Tabachnik est au mieux un livre de cuisine, avec peu ou pas d'explications sur le "pourquoi", et il semble que vous gagneriez à le découvrir plus en détail qui peut être trouvé dans Long's. livre. La régression ordinale devrait être couverte dans la plupart des cours d'économétrie d'introduction (les données transversales et les données de panel de Wooldridge sont un excellent livre de niveau supérieur), ainsi que dans les cours de sciences sociales quantitatives (sociologie, psychologie), bien que j'imagine que ces derniers feront une boucle au livre de Long.
Étant donné que votre nombre de variables est considérablement inférieur à la taille de l'échantillon, le package R que vous devriez rechercher l'est probablement
ordinal
plutôtglmnetcr
. Une autre réponse mentionne que vous pouvez trouver cette fonctionnalité dans unMASS
package plus courant .la source