J'utilise une version standard de régression logistique pour adapter mes variables d'entrée aux variables de sortie binaires.
Cependant, dans mon problème, les sorties négatives (0s) dépassent de loin les sorties positives (1s). Le rapport est de 20: 1. Ainsi, lorsque je forme un classificateur, il semble que même les fonctionnalités qui suggèrent fortement la possibilité d'une sortie positive ont toujours des valeurs très faibles (très négatives) pour leurs paramètres correspondants. Il me semble que cela se produit parce qu'il y a tout simplement trop d'exemples négatifs tirant les paramètres dans leur direction.
Je me demande donc si je peux ajouter des poids (disons en utilisant 20 au lieu de 1) pour les exemples positifs. Cela est-il susceptible d'en bénéficier? Et si oui, comment dois-je ajouter les poids (dans les équations ci-dessous).
La fonction de coût ressemble à ceci:
Le gradient de cette fonction de coût (wrt ) est:
Ici = nombre de cas de test, = matrice de caractéristiques, = vecteur de sortie, = fonction sigmoïde, = paramètres que nous essayons d'apprendre.
Enfin, je lance la descente de gradient pour trouver le le plus bas possible. L'implémentation semble fonctionner correctement.
Réponses:
Ce ne serait plus la probabilité maximale. Une telle distribution extrême de ne pose de problèmes que si vous utilisez un classificateur, c'est-à-dire si vous calculez correctement la proportion classée, une règle de notation incorrecte. Les estimations de probabilité à partir du maximum de vraisemblance standard sont valides. Si le nombre total de «positifs» est inférieur à 15 fois le nombre de variables candidates, une estimation de vraisemblance maximale pénalisée peut être appropriée.Y
la source
Dans des cas comme celui-ci, il est souvent préférable d'utiliser un lien flexible, au lieu du lien logistique, qui peut capturer cette asymétrie. Par exemple, un skew-normal, GEV , sinh-arcsinh , et les références qui s'y trouvent. Il y en a beaucoup d'autres mais je ne peux pas poster plus de 2 liens.
la source