Bon, je pense donc avoir un échantillon assez décent, en tenant compte de la règle empirique de 20: 1: un échantillon assez volumineux (N = 374) pour un total de 7 variables prédictives candidates.
Mon problème est le suivant: quel que soit le jeu de variables de prédiction que j'utilise, les classifications ne dépassent jamais une spécificité de 100% et une sensibilité de 0%. Bien que peu satisfaisant, cela pourrait en fait être le meilleur résultat possible, étant donné l'ensemble des variables prédictives candidates (à partir desquelles je ne peux pas dévier).
Mais, je ne pouvais pas m'empêcher de penser que je pouvais faire mieux, alors j'ai remarqué que les catégories de la variable dépendante étaient assez inégalement équilibrées, presque 4: 1. Un sous-échantillon plus équilibré pourrait-il améliorer les classifications?
Réponses:
Équilibre dans le set d'entraînement
Pour les modèles de régression logistique, les données d'entraînement déséquilibrées n'affectent que l'estimation de l'interception de modèle (bien que cela fausse évidemment toutes les probabilités prédites, ce qui compromet vos prévisions). Heureusement, la correction de l'interception est simple: si vous connaissez ou pouvez deviner la proportion réelle de 0 et de 1 et connaissez les proportions dans l'ensemble d'entraînement, vous pouvez appliquer une correction d'événements rares à l'interception. Les détails sont dans King and Zeng (2001) [ PDF ].
Ces «corrections d'événements rares» ont été conçues pour les plans de recherche cas-témoins, principalement utilisés en épidémiologie, qui sélectionnent les cas en choisissant un nombre fixe et généralement équilibré de 0 cas et 1 cas, puis doivent corriger le biais de sélection de l'échantillon obtenu. En effet, vous pourriez former votre classificateur de la même manière. Choisissez un bon échantillon équilibré, puis corrigez l'interception pour tenir compte du fait que vous avez sélectionné la variable dépendante pour en savoir plus sur les classes plus rares qu'un échantillon aléatoire ne pourrait vous en dire.
Faire des prédictions
Sur un sujet connexe mais distinct: N'oubliez pas que vous devriez faire un calcul judicieux pour pouvoir faire des prédictions. Il n'est pas toujours préférable de prévoir 1 lorsque la probabilité du modèle est supérieure à 0,5. Un autre seuil peut être mieux. À cette fin, vous devriez examiner les courbes ROC (Receiver Operating Characteristic) de votre classificateur, et pas seulement son succès prédictif avec un seuil de probabilité par défaut.
la source
predict
et calculez si elles sont supérieures au nouveau seuil.Le problème n’est pas que les classes soient déséquilibrées en soi, mais bien qu’il n’existe peut-être pas suffisamment de modèles appartenant à la classe minoritaire pour bien représenter sa répartition. Cela signifie que le problème peut survenir pour tout classificateur (même si vous avez un problème synthétique et que vous savez que vous avez le vrai modèle), pas seulement une régression logistique. La bonne chose est qu’au fur et à mesure que plus de données deviennent disponibles, le problème du «déséquilibre des classes» disparaît généralement. Cela dit, 4: 1 n’est pas tout à fait déséquilibré.
Si vous utilisez un ensemble de données équilibré, il est important de garder à l'esprit que la sortie du modèle est maintenant une estimation de la probabilité a posteriori, en supposant que les classes sont également communes, ce qui peut entraîner une distorsion excessive du modèle. Je pondérerais différemment les motifs appartenant à chaque classe et choisirais les poids en minimisant l'entropie croisée sur un ensemble de test avec les fréquences de classe opérationnelle correctes.
la source
If you use a balanced dataset, the important thing is to remember that the output of the model is now an estimate of the a-posteriori probability
Pensez aux distributions sous-jacentes des deux échantillons. Avez-vous suffisamment d’échantillons pour mesurer les deux sous-populations sans trop de biais dans le plus petit échantillon?
Voir ici pour une explication plus longue.
https://statisticalhorizons.com/logistic-regression-for-rare-events
la source