Questions marquées «many-categories»

Variables catégorielles avec un grand nombre de niveaux et méthodes statistiques pour travailler avec de telles variables (exemple: lasso fusionné).

28
Problèmes avec les camemberts

Il semble y avoir une discussion croissante sur les camemberts. Les principaux arguments contre cela semblent être: La zone est perçue avec moins de puissance que la longueur. Les graphiques circulaires ont un rapport point-à-pixel de données très faible Cependant, je pense qu'ils peuvent être...

24
comment représenter la géographie ou le code postal dans un modèle d'apprentissage automatique ou un système de recommandation?

Je construis un modèle et je pense que la situation géographique est susceptible d'être très bonne pour prédire ma variable cible. J'ai le code postal de chacun de mes utilisateurs. Je ne suis pas tout à fait sûr de la meilleure façon d'inclure le code postal comme fonctionnalité de prédiction dans...

15
La précision de la machine augmentant le gradient diminue à mesure que le nombre d'itérations augmente

J'expérimente l'algorithme de la machine de renforcement de gradient via le caretpackage en R. À l'aide d'un petit ensemble de données d'admission à l'université, j'ai exécuté le code suivant: library(caret) ### Load admissions dataset. ### mydata <-

12
Différences entre PROC Mixed et lme / lmer en R - degrés de liberté

Remarque: cette question est une rediffusion, car ma question précédente a dû être supprimée pour des raisons juridiques. En comparant PROC MIXED de SAS avec la fonction lmedu nlmepackage dans R, je suis tombé sur des différences assez confuses. Plus précisément, les degrés de liberté dans les...

8
Encodage de caractéristiques catégorielles à cardinalité élevée (plusieurs catégories) lorsque les fonctionnalités diffèrent considérablement sur la cardinalité

J'ai cherché dans les questions concernant l'encodage catégorique des fonctionnalités, mais je n'ai trouvé aucune discussion sur mon problème. Toutes mes excuses si je l'ai raté. Disons que nous avons un ensemble de données avec des variables binaires et nominales d'importance à peu près égale. La...