J'ai un ensemble de données dans lequel le taux d'événements est très faible (40 000 sur ). J'applique une régression logistique à ce sujet. J'ai eu une discussion avec quelqu'un où il s'est avéré que la régression logistique ne donnerait pas une bonne matrice de confusion sur des données à faible taux d'événements. Mais en raison du problème commercial et de la façon dont il a été défini, je ne peux pas augmenter le nombre d'événements de 40 000 à un nombre plus important, bien que je convienne que je peux supprimer une population non événementielle.
Veuillez me faire part de votre opinion à ce sujet, en particulier:
- La précision de la régression logistique dépend-elle du taux d'événements ou existe-t-il un taux d'événements minimum recommandé?
- Existe-t-il une technique spéciale pour les données à faible taux d'événements?
- La suppression de ma population non événementielle serait-elle bonne pour la précision de mon modèle?
Je suis nouveau dans la modélisation statistique, pardonnez donc mon ignorance et veuillez aborder tous les problèmes associés auxquels je pourrais penser.
Merci,
Réponses:
Je vais répondre à vos questions dans le désordre:
Chaque observation fournira des informations supplémentaires sur le paramètre (via la fonction de vraisemblance). Par conséquent, il est inutile de supprimer des données, car vous perdriez simplement des informations.
Techniquement, oui: une observation rare est beaucoup plus informative (c'est-à-dire que la fonction de vraisemblance sera plus abrupte). Si votre ratio d'événements était de 50:50, vous obtiendriez des bandes de confiance beaucoup plus serrées (ou des intervalles crédibles si vous êtes bayésien) pour la même quantité de données . Cependant, vous ne pouvez pas choisir votre taux d'événements (sauf si vous faites une étude cas-témoins), vous devrez donc vous contenter de ce que vous avez.
Le plus gros problème qui pourrait survenir est la séparation parfaite : cela se produit lorsqu'une combinaison de variables donne tous les non-événements (ou tous les événements): dans ce cas, les estimations du paramètre de vraisemblance maximale (et leurs erreurs standard) approcheront de l'infini (bien que généralement l'algorithme s'arrêtera au préalable). Il y a deux solutions possibles:
a) supprimer les prédicteurs du modèle: bien que cela fasse converger votre algorithme, vous supprimerez la variable avec le plus de pouvoir explicatif, donc cela n'a de sens que si votre modèle était trop adapté au départ (comme l'ajustement de trop d'interactions compliquées) .
b) utiliser une sorte de pénalisation, telle qu'une distribution antérieure, qui ramènera les estimations à des valeurs plus raisonnables.
la source
glm
fonction de R. Au pire, c'est comme jeter une partie de chaque point de données sous-pondéré, je suppose, mais ce n'est pas vraiment la même chose. 2) Comme je l'ai dit, cette décision comporte des compromis. Cela a probablement le plus de sens dans des contextes où la population échantillonnée n'est pas bien définie et le véritable taux d'événements n'est pas significatif pour commencer. Je ne le recommanderais certainement pas partout.Il existe une meilleure alternative à la suppression des non-événements pour les données temporelles ou spatiales: vous pouvez agréger vos données dans le temps / espace et modéliser les décomptes comme Poisson. Par exemple, si votre événement est "une éruption volcanique se produit le jour X", alors peu de jours auront une éruption volcanique. Cependant, si vous regroupez les jours en semaines ou en mois, par exemple "nombre d'éruptions volcaniques sur le mois X", alors vous aurez réduit le nombre d'événements, et plus d'événements auront des valeurs non nulles.
la source