Incorporation de la distribution de probabilité de classe antérieure dans la régression logistique

9

Je suis étonné de ne pouvoir trouver aucun article / conférence sur la façon d'intégrer des distributions de probabilité de classe antérieures dans des classificateurs comme la régression logistique ou la forêt aléatoire.


Ma question est donc:

Comment peut-on incorporer la distribution de probabilité de classe antérieure dans la régression logistique ou les forêts aléatoires?

L'incorporation de la distribution de probabilité de classe antérieure implique-t-elle que je devrais utiliser des machines bayésiennes?


Je suis confronté à une tâche de classification où je sais que la classe a est beaucoup plus probable que la classe b.

Une solution ad hoc serait d'inclure simplement plus d'échantillons pour la classe a dans l'ensemble de formation, mais y a-t-il des résultats théoriques à ce sujet?

Une chose à laquelle j'ai pensé était de changer le seuil de décision de 0,5 à une valeur en tenant compte de ce déséquilibre antérieur. Mais je ne suis même pas sûr que cela ait un sens théorique, car au moment où je suis prêt à prendre une décision, j'ai déjà examiné toutes les valeurs des caractéristiques, donc je ne devrais pas me soucier de la probabilité antérieure mais de la probabilité conditionnelle de classe.

user695652
la source

Réponses:

5

Soit la variable de réponse binaire et le vecteur des prédicteurs de densité (qui serait soit continue, discrète ou une combinaison des deux). Notez queYXf

P(Y=1X=x)P(Y=0X=x)=P(Y=1)fXY=1(x)P(Y=0)fXY=0(x)

et donc

log(P(Y=1X=x)P(Y=0X=x))=log(P(Y=1)P(Y=0))+log(fXY=1(x)fXY=0(x)).

Cela signifie que dans un modèle de régression logistique, le logarithme des probabilités antérieures de l'événement apparaît comme une constante additive dans les probabilités logarithmiques conditionnelles. Vous pourriez alors envisager un ajustement d'interception où vous soustrayez le logit des cotes empiriques et ajoutez le logit des cotes antérieures. Mais, en supposant que la probabilité antérieure est exacte, cela ne devrait pas avoir beaucoup d'effet sur le modèle. Ce type d'ajustement est effectué principalement après une procédure d'échantillonnage qui modifie artificiellement la proportion d'événements dans les données.{Y=1}

dsaxton
la source
3

Pour la forêt aléatoire, la priorité par défaut est la distribution de classe empirique de l'ensemble d'apprentissage. Vous aimeriez ajuster cela avant, lorsque vous vous attendez à ce que la distribution des classes de l'ensemble d'apprentissage soit loin de correspondre aux nouvelles observations de test. L'avant peut être ajusté par stratification / sous-échantillonnage ou class_weights.

Stratifictaion / sous-échantillonnage ne signifie pas que certaines observations sont rejetées, elles seront simplement amorcées dans moins de nœuds racine.

En plus d'ajuster l'a priori, il est également possible d'obtenir des prédictions probabilistes à partir du modèle de forêt aléatoire et de choisir un seuil de certitude.

En pratique, je trouve un mélange d'ajustement des a priori par stratification et de choix du meilleur seuil comme solution la plus performante. Utilisez les tracés ROC pour décider des seuils. L'ajustement de class_weights fournira probablement des performances similaires, mais il est moins transparent, ce que devient l'a priori effectif. Pour la stratification, le rapport de stratification est simplement le nouveau prior.

Voir aussi cette réponse pour plus de détails

Soren Havelund Welling
la source