Je voudrais étudier des événements rares dans une population finie. Étant donné que je ne sais pas quelle stratégie est la mieux adaptée, j'apprécierais les conseils et les références liés à cette question, bien que je sache bien qu'elle a été largement couverte. Je ne sais pas vraiment par où commencer.
Mon problème est des sciences politiques et j'ai une population finie comprenant 515 843 enregistrements. Ils sont associés à une variable dépendante binaire avec 513 334 "0" s et 2 509 "1" s. Je peux inventer mes "1" comme des événements rares car ils ne représentent que 0,49% de la population.
J'ai un ensemble d'une dizaine de variables indépendantes avec lesquelles j'aimerais construire un modèle pour expliquer la présence de "1". Comme beaucoup d'entre nous, j'ai lu l'article de King & Zeng de 2001 sur la correction d'événements rares. Leur approche consistait à utiliser une conception cas-témoins pour réduire le nombre de «0», puis à appliquer une correction à l'interception.
Cependant, ce post dit que l'argument de King & Zeng n'était pas nécessaire si j'avais déjà collecté mes données sur l'ensemble de la population, ce qui est mon cas. Par conséquent, je dois utiliser le modèle logit classique. Malheureusement pour moi, bien que j'obtienne de bons coefficients significatifs, mon modèle est totalement inutile en termes de prédiction (ne parvient pas à prédire 99,48% de mes "1").
Après avoir lu l'article de King & Zeng, je voulais essayer une conception cas-témoins et sélectionner seulement 10% des "0" avec tous les "1". Avec presque les mêmes coefficients, le modèle a pu prédire près d'un tiers des «1» lorsqu'il était appliqué à l'ensemble de la population. Bien sûr, il y a beaucoup de faux positifs.
J'ai donc trois questions que je voudrais vous poser:
1) Si l'approche de King & Zeng est préjudiciable lorsque vous avez une connaissance complète de la population, pourquoi utilisent-ils une situation dans laquelle ils connaissent la population dans leur article pour prouver leur point de vue?
2) Si j'ai des coefficients bons et significatifs dans une régression logit, mais un pouvoir prédictif très faible, cela signifie-t-il que la variation expliquée par ces variables n'a pas de sens?
3) Quelle est la meilleure approche pour faire face aux événements rares? J'ai lu sur le modèle de relogit de King, l'approche de Firth, le logit exact, etc. Je dois avouer que je suis perdu parmi toutes ces solutions.
la source
Réponses:
(1) Si vous avez "une connaissance complète d'une population", pourquoi avez-vous besoin d'un modèle pour faire des prédictions? Je suppose que vous les considérez implicitement comme un échantillon d'une hypothétique super-population - voir ici et ici . Devriez-vous donc jeter les observations de votre échantillon? Non, King et Zeng ne préconisent pas cela:
Je pense que la situation dont vous parlez est l'exemple «Sélection de dans les données de règlement des différends entre États militarisés». K. & Z. utilisez-le pour bien prouver leur point de vue: dans cet exemple, si un chercheur avait tenté d'économiser en collectant tous les 1 et une proportion des 0, leurs estimations seraient similaires à celles qui avaient échantillonné tous les 1 et 0 disponibles. Sinon, comment pourriez-vous illustrer cela?Y
(2) Le principal problème ici est l'utilisation d'une règle de notation incorrecte pour évaluer les performances prédictives de votre modèle. Supposons que votre modèle soit vrai , de sorte que pour tout individu vous connaissiez la probabilité d'un événement rare - par exemple, être mordu par un serpent au cours du mois suivant. Qu'apprenez-vous de plus en stipulant un seuil de probabilité arbitraire et en prédisant que ceux au-dessus seront mordus et ceux en dessous ne le seront pas? Si vous coupez à 50%, vous prédirez probablement que personne ne sera mordu. Si vous le faites assez bas, vous pouvez prédire que tout le monde sera mordu. Et alors? L'application judicieuse d'un modèle nécessite une discrimination - à qui devrait-on donner le seul flacon d'anti-venin? - ou une calibration - pour qui vaut-il la peine d'acheter des bottes, compte tenu de leur coût par rapport à celui d'une morsure de serpent?.
la source
À un certain niveau, je me demande quelle part de l'inexactitude de votre modèle est simplement que votre processus est difficile à prévoir et que vos variables ne sont pas suffisantes pour le faire. Y a-t-il d'autres variables qui pourraient expliquer davantage?
D'un autre côté, si vous pouvez convertir votre variable dépendante en un problème de comptage / ordinale (comme les victimes d'un conflit ou la durée d'un conflit), vous pouvez essayer des modèles de régression du compte gonflés à zéro ou d'obstacles. Celles-ci pourraient avoir le même problème de mauvaise définition entre 0 et 1, mais certains conflits avec lesquels vos variables sont corrélées pourraient s'écarter de zéro.
la source
En plus de sous-échantillonner la population majoritaire, vous pouvez également suréchantillonner les événements rares, mais sachez que le suréchantillonnage de la classe minoritaire peut conduire à un sur-ajustement, alors vérifiez bien les choses.
Ce document peut donner plus d'informations à ce sujet: Yap, Bee Wah, et al. "Une application du suréchantillonnage, du sous-échantillonnage, de l'ensachage et du renforcement dans la gestion des ensembles de données déséquilibrés." pdf
Aussi, je voudrais lier cette question car elle traite également du même problème
la source
Votre question se résume à comment puis-je amadouer la régression logit pour trouver une meilleure solution. Mais êtes-vous même sûr qu'une meilleure solution existe? Avec seulement dix paramètres, avez-vous pu trouver une meilleure solution?
J'essaierais un modèle plus compliqué en ajoutant par exemple des termes de produit à l'entrée ou en ajoutant une couche max-out du côté cible (de sorte que vous avez essentiellement plusieurs régresseurs logistiques pour divers sous-ensembles de cibles 1 découverts de manière adaptative).
la source
Grande question.
À mon avis, la question est de savoir si vous essayez de faire de l'inférence (êtes-vous intéressé par ce que vos coefficients vous disent?) Ou de la prédiction. Dans ce dernier cas, vous pouvez emprunter des modèles de Machine Learning (BART, randomForest, arbres boostés, etc.) qui feront presque certainement un meilleur travail de prédiction que logit. Si vous faites de l'inférence et que vous avez tellement de points de données, essayez d'inclure des termes d'interaction sensible, des termes polynomiaux, etc. Vous pouvez également faire de l'inférence à partir de BART, comme dans cet article:
http://artsandsciences.sc.edu/people/kernh/publications/Green%20and%20Kern%20BART.pdf
J'ai récemment travaillé sur des événements rares et je n'avais aucune idée à l'avance de la quantité de cas rares pouvant affecter l'analyse. Le sous-échantillonnage des 0 cas est un must. Une stratégie pour trouver la proportion idéale de sous-échantillon serait
J'espère que cela t'aides. JS
la source