Appliquer une régression logistique avec un faible taux d'événements

15

J'ai un ensemble de données dans lequel le taux d'événements est très faible (40 000 sur ). J'applique une régression logistique à ce sujet. J'ai eu une discussion avec quelqu'un où il s'est avéré que la régression logistique ne donnerait pas une bonne matrice de confusion sur des données à faible taux d'événements. Mais en raison du problème commercial et de la façon dont il a été défini, je ne peux pas augmenter le nombre d'événements de 40 000 à un nombre plus important, bien que je convienne que je peux supprimer une population non événementielle. $12\cdot10^5$

Veuillez me faire part de votre opinion à ce sujet, en particulier:

La précision de la régression logistique dépend-elle du taux d'événements ou existe-t-il un taux d'événements minimum recommandé?
Existe-t-il une technique spéciale pour les données à faible taux d'événements?
La suppression de ma population non événementielle serait-elle bonne pour la précision de mon modèle?

Je suis nouveau dans la modélisation statistique, pardonnez donc mon ignorance et veuillez aborder tous les problèmes associés auxquels je pourrais penser.

Merci,

logistic ayush biyani
la source

3

40000 / 12e5 = 3,3%, cela ne me semble pas très bas.

GaBorgulya

1

Merci, au cas où les gens auraient besoin de plus de contexte pour décider du taux d'événements bas et élevé, ces données sont du secteur de l'assurance.

ayush biyani

3

Vous pourriez être intéressé par la régression logistique dans les données d'événements rares .

Bernd Weiss

11

Je vais répondre à vos questions dans le désordre:

3 La suppression de ma population non événementielle serait-elle bonne pour la précision de mon modèle?

Chaque observation fournira des informations supplémentaires sur le paramètre (via la fonction de vraisemblance). Par conséquent, il est inutile de supprimer des données, car vous perdriez simplement des informations.

1 La précision de la régression logistique dépend-elle du taux d'événements ou existe-t-il un taux d'événements minimum recommandé?

Techniquement, oui: une observation rare est beaucoup plus informative (c'est-à-dire que la fonction de vraisemblance sera plus abrupte). Si votre ratio d'événements était de 50:50, vous obtiendriez des bandes de confiance beaucoup plus serrées (ou des intervalles crédibles si vous êtes bayésien) pour la même quantité de données . Cependant, vous ne pouvez pas choisir votre taux d'événements (sauf si vous faites une étude cas-témoins), vous devrez donc vous contenter de ce que vous avez.

2 Existe-t-il une technique spéciale pour les données à faible taux d'événements?

Le plus gros problème qui pourrait survenir est la séparation parfaite : cela se produit lorsqu'une combinaison de variables donne tous les non-événements (ou tous les événements): dans ce cas, les estimations du paramètre de vraisemblance maximale (et leurs erreurs standard) approcheront de l'infini (bien que généralement l'algorithme s'arrêtera au préalable). Il y a deux solutions possibles:

a) supprimer les prédicteurs du modèle: bien que cela fasse converger votre algorithme, vous supprimerez la variable avec le plus de pouvoir explicatif, donc cela n'a de sens que si votre modèle était trop adapté au départ (comme l'ajustement de trop d'interactions compliquées) .

b) utiliser une sorte de pénalisation, telle qu'une distribution antérieure, qui ramènera les estimations à des valeurs plus raisonnables.

Simon Byrne
la source

+1 J'ajouterais simplement que j'ai vu des contextes où les gens ont repondéré leurs données à 50:50. Le compromis semble être une amélioration de la capacité du modèle à classer (en supposant qu'un bon seuil est choisi) par rapport à une certaine perte d'informations sur la prévalence globale et à une difficulté supplémentaire dans l'interprétation des coefficients.

David J. Harris

1

@David: J'ai également entendu parler de repondération et d'utilisation de schémas pseudo-bootstrap compliqués où ils ne font que rééchantillonner la classe des hautes fréquences. Pour toutes ces techniques, vous jetez (ou inventez) des données. Je dirais que si cela améliore votre modèle, vous ajustez probablement le mauvais modèle. Voir aussi mes commentaires ici: stats.stackexchange.com/questions/10356/…

Simon Byrne

1) Désolé si je n'ai pas été clair: je parlais de changer l'influence relative des événements et des non-événements, comme avec l'argument "poids" dans la glmfonction de R. Au pire, c'est comme jeter une partie de chaque point de données sous-pondéré, je suppose, mais ce n'est pas vraiment la même chose. 2) Comme je l'ai dit, cette décision comporte des compromis. Cela a probablement le plus de sens dans des contextes où la population échantillonnée n'est pas bien définie et le véritable taux d'événements n'est pas significatif pour commencer. Je ne le recommanderais certainement pas partout.

David J. Harris

2

Il existe une meilleure alternative à la suppression des non-événements pour les données temporelles ou spatiales: vous pouvez agréger vos données dans le temps / espace et modéliser les décomptes comme Poisson. Par exemple, si votre événement est "une éruption volcanique se produit le jour X", alors peu de jours auront une éruption volcanique. Cependant, si vous regroupez les jours en semaines ou en mois, par exemple "nombre d'éruptions volcaniques sur le mois X", alors vous aurez réduit le nombre d'événements, et plus d'événements auront des valeurs non nulles.

charles.y.zheng
la source

6

Je dois dire que ce conseil ne répond pas du tout à la question. 1) Il n'y a rien dans la question qui suggère que le PO traite des données spatiales ou temporelles. 2) Comment l'agrégation des données aiderait-elle à identifier des relations significatives (elle utilise moins d'informations que les unités d'origine!)

Andy W

2

De plus, pour que toute relation observée se produise à un niveau agrégé, elle doit être présente au niveau des unités d'origine, bien qu'une relation au niveau agrégé ne reflète pas nécessairement quelle est la relation entre les deux variables au niveau désagrégé niveau. Voir qmrg.org.uk/files/2008/11/38-maup-openshaw.pdf

Andy W

d'accord avec andy.

ayush biyani

Appliquer une régression logistique avec un faible taux d'événements

Réponses: