J'essaie de prédire le succès ou l'échec des étudiants en fonction de certaines fonctionnalités avec un modèle de régression logistique. Pour améliorer les performances du modèle, j'ai déjà pensé à diviser les élèves en différents groupes en fonction de différences évidentes et à construire des modèles distincts pour chaque groupe. Mais je pense qu'il pourrait être difficile d'identifier ces groupes par examen, alors j'ai pensé à diviser les étudiants en regroupant leurs caractéristiques. Est-ce une pratique courante dans la construction de tels modèles? Pourriez-vous suggérer que je le décompose en groupes évidents (par exemple, les étudiants du premier trimestre par rapport aux étudiants qui reviennent) et que j'effectue ensuite le clustering sur ces groupes, ou le cluster depuis le début?
Pour essayer de clarifier:Ce que je veux dire, c'est que j'envisage d'utiliser un algorithme de clustering pour diviser mon ensemble d'entraînement pour la régression logistique en groupes. Je ferais ensuite des régressions logistiques distinctes pour chacun de ces groupes. Ensuite, lorsque j'utilisais la régression logistique pour prédire le résultat pour un élève, je choisirais le modèle à utiliser en fonction du groupe auquel il s'intègre le mieux.
Je pourrais peut-être faire la même chose en incluant un identifiant de groupe, par exemple, un 1 si l'élève revient et un 0 sinon.
Maintenant, vous me demandez s'il pourrait être avantageux de regrouper l'ensemble de données de formation et d'utiliser leur étiquette de cluster comme caractéristique de la régression logistique, plutôt que de créer des modèles de régression logistique distincts pour chaque population.
S'il est utile d'inclure un identifiant de groupe pour ceux qui reviennent des étudiants par rapport aux nouveaux étudiants, serait-il également utile d'élargir la liste des groupes? Le regroupement semble être un moyen naturel de procéder.
J'espère que c'est clair ...
Réponses:
Je crois que si vous avez une différence significative dans votre variable dépendante entre vos clusters, l'approche du clustering en premier sera définitivement utile. Quel que soit l'algorithme d'apprentissage que vous avez choisi.
À mon avis, l'exécution d'un algorithme learnign sur une base entière peut masquer des différences significatives à un niveau d'agrégation inférieur.
Quiconque a entendu parler du paradoxe de simpson, c'est un cas difficile d'un problème plus profond où vous avez différentes corrélations dans différents groupes qui sont couvertes par un plus grand bruit d'échantillon et / ou des corrélations plus faibles d'un plus grand groupe.
la source
L'approche générale que vous proposez - utiliser des partitions latentes pour attribuer différents points de données à différents classificateurs de base - est une approche bien documentée de la classification.
La raison pour laquelle ces méthodes ne sont pas largement utilisées est probablement parce qu'elles sont relativement compliquées et ont des temps d'exécution plus longs que la régression logistique ou les SVM. Dans de nombreux cas, il semble qu'ils peuvent conduire à de meilleures performances de classification.
Voici quelques références:
Shahbaba, B. et Neal, R. "Modèles non linéaires utilisant des mélanges de processus de Dirichlet"
Zhu, J. et Chen, N. et Xing, EP "Infinite Latent SVM for Classification and Multi-task Learning"
Rasmussen, CE et Ghahramani, Z. "Mélanges infinis d'experts des processus gaussiens"
Meeds, E. et Osindero, S. "Un mélange infini alternatif d'experts des processus gaussiens"
la source
Je tiens à reconnaître dès le début que je connais relativement peu de clustering. Cependant, je ne vois pas l'intérêt de la procédure que vous décrivez. Si vous pensez, par exemple, que le premier trimestre par rapport aux étudiants qui reviennent pourrait être différent, pourquoi ne pas inclure une covariable qui indexe cela? De même, si vous pensez qu'une autre caractéristique des étudiants est pertinente, vous pouvez également l'inclure. Si vous craignez que la relation entre votre prédicteur principal d'intérêt et le taux de réussite puisse différer, vous pouvez également inclure l'interaction entre ce prédicteur et le premier trimestre par rapport au retour, etc. La régression logistique est bien équipée pour répondre à ces questions via l'inclusion de tels termes dans le modèle.
D'un autre côté, tant que vous ne regroupez que ces fonctionnalités, et que vous le faites d'abord (sans regarder la réponse), je ne vois aucun problème se poser. Je soupçonne que cette approche serait inefficace, chaque modèle ayant une puissance inférieure, car il ne correspond qu'à un sous-ensemble des données, mais je ne pense pas que cela biaiserait les paramètres ou invaliderait les tests. Je suppose donc que vous pouvez essayer ceci si vous le voulez vraiment.
Mettre à jour:
Je suppose qu'il serait préférable (c'est-à-dire le plus efficace) d'adapter un modèle à toutes les données. Vous pouvez inclure des covariables supplémentaires (telles que le retour ou non) au-delà de votre intérêt principal, et un indicateur de regroupement que vous avez découvert en exécutant au préalable une analyse de cluster. Cependant, si les covariables qui sont entrées dans l'analyse en grappes sont également mises à la disposition du modèle de régression logistique, je ne sais pas si je peux voir ce qui serait gagné en incluant simplement toutes les covariables dans le modèle LR sansl'indicateur de cluster. Il y a peut-être un avantage à cela que je ne connais pas, car je ne suis pas expert en analyse de cluster, mais je ne sais pas ce que ce serait. Il me semble que l'AC ne générerait pas d'informations supplémentaires qui n'étaient pas déjà présentes dans les covariables et n'ajouterait donc rien au modèle LR. Vous pouvez l'essayer; j'ai peut-être tort. Mais je suppose que vous ne feriez que graver quelques degrés de liberté supplémentaires.
Une approche différente consisterait à entrer l'indicateur de grappe dans le modèle LR au lieu des covariables sur lesquelles il est basé. Je doute que ce soit bénéfique. L'autorité de certification ne sera pas parfaite, pas plus que toute autre analyse, et donc le passage des covariables d'origine à l'indicateur de cluster dérivé est susceptible d'entraîner une certaine perte d' informations . (Encore une fois, je ne le sais pas, mais je soupçonne fortement que c'est vrai.) Encore une fois, vous pouvez l'essayer dans les deux sens et comparer en tant qu'exercice académique, bien que simplement essayer beaucoup de choses et régler le résultat qui semble le mieux soit mal vu si vous voulez prendre vos résultats au sérieux.
Je ne veux pas me contenter d'analyser les grappes. Il peut y avoir de nombreux avantages en général, et leur utilisation peut être utile ici. Cependant, si je comprends bien votre situation, je pense qu'il suffit de construire un modèle LR avec les covariables que vous pensez être pertinentes.
la source
Si vous n'êtes pas lié à la régression logistique, je vous suggère d'utiliser un classificateur de forêt aléatoire car il a une sorte de cluster intégré. L'idée serait d'utiliser la matrice de proximité pour se regrouper. La matrice de proximité est la matrice N_Obs par N_Obs pour la fraction d'arbres hors sac où les observations se trouvaient dans le même nœud terminal. Vous pouvez ensuite l'agréger en une matrice de niveau d'entité par niveau d'entité où les éléments sont la moyenne de la fraction dans la matrice de proximité. Vous regrouperiez alors tous les niveaux ensemble lorsqu'ils franchiraient un seuil et voir si cela améliore votre prédiction. Il est probablement préférable d'adopter une approche itérative par étapes pour trouver le clustering optimal, mais vous pouvez choisir un seuil d'autres manières. Lorsque cette mise en cluster est terminée, vous pouvez remplacer la fonction par les étiquettes de cluster ou ajouter les étiquettes de cluster en tant que nouvelle fonctionnalité. Je suppose qu'à ce stade, vous pourriez revenir à la régression logistique si vous le vouliez vraiment.
la source
Lors de la création de modèles multi-segmentés, je pense que la meilleure approche est de créer des segments qui parlent de réelles différences dans les distributions sous-jacentes. Les étudiants du premier trimestre par rapport aux étudiants qui reviennent sont un excellent exemple, car les distributions des prédicteurs seront probablement très différentes pour ces deux populations. Plus important encore, ces différences ont une explication intuitive.
la source