Utiliser MSE au lieu de log-loss dans la régression logistique

9

Supposons que nous remplaçons la fonction de perte de la régression logistique (qui est normalement log-vraisemblance) par le MSE. Autrement dit, le rapport de cotes logarithmique doit toujours être une fonction linéaire des paramètres, mais minimiser la somme des différences au carré entre la probabilité estimée et le résultat (codé 0/1):

Journalp1-p=β0+β1X1+...+βnXn

et minimiser au lieu de .(yje-pje)2[yjeJournalpje+(1-yje)Journal(1-pje)]

Bien sûr, je comprends pourquoi la vraisemblance logarithmique est logique dans certaines hypothèses. Mais dans l'apprentissage automatique, où les hypothèses ne sont généralement pas formulées, quelle est la raison intuitive pour laquelle le MSE est complètement déraisonnable? (Ou y a-t-il des situations où MSE pourrait avoir un sens?).

max
la source
Vous pouvez utiliser MSE comme critère d'optimisation, mais dans ce cas, vous ne devriez pas l'optimiser avec un maximum de probabilité mais avec une variante de descente de gradient. C'est essentiellement ce que fait le perceptron linéaire.
Digio

Réponses:

12

La réponse courte est que la théorie de la probabilité existe pour nous guider vers des solutions optimales et maximiser quelque chose d'autre que la probabilité, la probabilité pénalisée ou la densité postérieure bayésienne donne des estimateurs sous-optimaux. Deuxièmement, la minimisation de la somme des erreurs quadratiques conduit à des estimations non biaisées des probabilités réelles. Ici, vous ne souhaitez pas d'estimations non biaisées, car ces estimations peuvent être négatives ou supérieures à une. Pour contraindre correctement les estimations, il faut obtenir des estimations légèrement biaisées (vers le milieu) en général, sur l'échelle de probabilité (et non sur l'échelle logit).

Ne croyez pas que les méthodes d'apprentissage automatique ne font pas d'hypothèses. Ce problème a peu à voir avec l'apprentissage automatique.

Notez qu'une proportion individuelle est une estimation non biaisée de la vraie probabilité, donc un modèle logistique binaire avec seulement une interception fournit une estimation non biaisée. Un modèle logistique binaire avec un seul prédicteur qui ak catégories mutuellement exclusives fourniront kestimations impartiales des probabilités. Je pense qu'un modèle qui capitalise sur les hypothèses d'additivité et permet à l'utilisateur de demander des estimations en dehors de la plage de données (par exemple, un seul prédicteur continu) aura un petit biais sur l'échelle de probabilité afin de respecter la[0,1] contrainte.

Frank Harrell
la source
4

Bien que la réponse de Frank Harrell soit correcte, je pense qu'elle ne répond pas à la portée de la question. La réponse à votre question est oui , MSE aurait un sens dans un scénario ML non paramétrique. L'équivalent ML de régression logistique est le perceptron linéaire, ce qui ne fait aucune hypothèse et fait usage MSE en fonction des coûts. Il utilise la descente de gradient en ligne pour l'apprentissage des paramètres et, comme il résout un problème d'optimisation convexe, les estimations des paramètres devraient être à l'optimum global. La principale différence entre les deux méthodes est qu'avec l'approche non paramétrique, vous n'obtenez pas d'intervalles de confiance et de valeurs p et donc vous ne pouvez pas utiliser votre modèle pour l'inférence, vous ne pouvez l'utiliser que pour la prédiction.

Le Perceptron linéaire ne fait aucune hypothèse probabiliste. Il y a l'hypothèse sur les données qu'elles sont linéairement séparables, mais ce n'est pas une hypothèse sur le modèle. Le MSE pourrait en théorie être affecté par l'hétéroscédasticité mais en pratique cet effet est annulé par la fonction d'activation.

Digio
la source