J'ai du mal à trouver une méthode pour réduire le nombre de catégories dans les données nominales ou ordinales.
Par exemple, disons que je veux construire un modèle de régression sur un ensemble de données qui a un certain nombre de facteurs nominaux et ordinaux. Bien que je n'ai aucun problème avec cette étape, je rencontre souvent des situations où une caractéristique nominale est sans observations dans l'ensemble d'apprentissage, mais existe par la suite dans l'ensemble de données de validation. Cela conduit naturellement à une erreur lorsque le modèle est présenté avec (jusqu'à présent) des cas invisibles. Une autre situation où je voudrais combiner des catégories est simplement quand il y a trop de catégories avec peu d'observations.
Mes questions sont donc:
- Bien que je sache qu'il serait préférable de combiner de nombreuses catégories nominales (et ordinales) en fonction des informations contextuelles antérieures qu'elles représentent, existe-t-il des méthodes systématiques (
R
packages de préférence) disponibles? - Quelles lignes directrices et suggestions feriez-vous concernant les seuils de coupure, etc.?
- Quelles sont les solutions les plus populaires dans la littérature?
- Existe-t-il d'autres stratégies que de combiner de petites catégories nominales à une nouvelle catégorie «AUTRES»?
N'hésitez pas à sonner si vous avez d'autres suggestions également.
Réponses:
Ceci est une réponse à votre deuxième question.
Je soupçonne que la bonne approche de ce type de décisions sera largement déterminée par les normes disciplinaires et les attentes du public cible de votre travail. En tant que sociologue, je travaille souvent avec des données d'enquête (ou de type enquête) et j'essaie toujours d'équilibrer les logiques de fond et celles basées sur les données lorsque je réduis des échelles ordinales ou des variables catégorielles. En d'autres termes, je ferai de mon mieux pour réfléchir aux combinaisons d'éléments qui «se rejoignent» en termes de substance ainsi que de distribution des réponses avant de réduire les éléments.
Voici un exemple récent d'une question d'enquête (ordinale) spécifique qui impliquait une échelle de fréquence à cinq points:
Je n'ai pas les données à ma disposition pour le moment, mais les résultats étaient fortement biaisés vers la fin "jamais" de l'échelle. En conséquence, mon co-auteur et moi avons choisi de regrouper les réponses en deux groupes: "Une fois par mois ou plus" et "Moins d'une fois par mois". La variable (binaire) résultante a été répartie de manière plus égale et reflète une distinction significative sur le plan pratique: étant donné que de nombreux clubs et organisations ne se réunissent pas plus d'une fois par mois, il y a de bonnes raisons de croire que les personnes qui assistent aux réunions au moins aussi souvent sont les membres "actifs" de ces groupes alors que ceux qui y participent moins (ou jamais) sont "inactifs".
Donc, d'après mon expérience, ces décisions sont au moins autant de l'art que de la science. Cela dit, j'essaie également généralement de le faire avant de monter des modèles, car je travaille dans une discipline où tout le reste est considéré (négativement) comme une exploration de données et hautement non scientifique (moments de plaisir!).
Dans cet esprit, cela pourrait aider si vous pouviez en dire un peu plus sur le type de public que vous envisagez pour ce travail. Il serait également dans votre intérêt d'examiner quelques manuels de méthodologie importants dans votre domaine, car ils peuvent souvent clarifier ce qui passe pour un comportement "normal" dans une communauté de recherche donnée.
la source
Les types d'approches que discute Ashaw peuvent conduire à une méthodologie relativement plus systématique. Mais je pense aussi que par systématique, vous voulez dire algorithmique. Ici, les outils d'exploration de données peuvent combler une lacune. D'une part, il y a la procédure de détection d'interaction automatisée chi carré (CHAID) intégrée au module Arbre de décision de SPSS; il peut, selon les règles définies par l'utilisateur, réduire les catégories ordinales ou nominales de variables prédictives lorsqu'elles affichent des valeurs similaires sur la variable de résultat (qu'elle soit continue ou nominale). Ces règles peuvent dépendre de la taille des groupes en cours de réduction ou en cours de création par réduction, ou du p-valeurs des tests statistiques associés. Je crois que certains programmes de classification et d'arbre de régression (CART) peuvent faire les mêmes choses. D'autres répondants devraient être en mesure de parler de fonctions similaires exécutées par un réseau de neurones ou d'autres applications fournies par le biais de divers packages d'exploration de données.
la source