Je suis étonné de ne pouvoir trouver aucun article / conférence sur la façon d'intégrer des distributions de probabilité de classe antérieures dans des classificateurs comme la régression logistique ou la forêt aléatoire.
Ma question est donc:
Comment peut-on incorporer la distribution de probabilité de classe antérieure dans la régression logistique ou les forêts aléatoires?
L'incorporation de la distribution de probabilité de classe antérieure implique-t-elle que je devrais utiliser des machines bayésiennes?
Je suis confronté à une tâche de classification où je sais que la classe a est beaucoup plus probable que la classe b.
Une solution ad hoc serait d'inclure simplement plus d'échantillons pour la classe a dans l'ensemble de formation, mais y a-t-il des résultats théoriques à ce sujet?
Une chose à laquelle j'ai pensé était de changer le seuil de décision de 0,5 à une valeur en tenant compte de ce déséquilibre antérieur. Mais je ne suis même pas sûr que cela ait un sens théorique, car au moment où je suis prêt à prendre une décision, j'ai déjà examiné toutes les valeurs des caractéristiques, donc je ne devrais pas me soucier de la probabilité antérieure mais de la probabilité conditionnelle de classe.
la source