Pourquoi utiliser les cotes et non la probabilité dans la régression logistique?

8

Pourquoi utiliserions-nous des cotes plutôt que des probabilités lors de la régression logistique?

Kenny
la source

Réponses:

22

L’avantage est que les cotes définies sur (0,) mapper pour se connecter (-,), alors que ce n'est pas le cas des probabilités. Par conséquent, vous pouvez utiliser des équations de régression comme

Journal(pje1-pje)=β0+j=1JβjXjej
pour les log-odds sans aucun problème (c'est-à-dire pour toute valeur des coefficients de régression et covariables, une valeur valide pour les cotes est prédite). Vous auriez besoin de contraintes multidimensionnelles extrêmement compliquées sur les coefficients de régressionβ0,β1,, si vous vouliez faire de même pour la probabilité logarithmique (et bien sûr, cela ne fonctionnerait pas de manière simple pour la probabilité ou les cotes non transformées, non plus). En conséquence, vous obtenez des effets tels que l'impossibilité d'avoir un rapport de risque constant sur toutes les probabilités de base (certains rapports de risque entraîneraient des probabilités> 1), alors que ce n'est pas un problème avec un rapport de cotes.
Björn
la source
17

La cote est le nombre attendu de "succès" par "échec", il peut donc prendre des valeurs inférieures à un, un ou plusieurs, mais les valeurs négatives n'auront aucun sens; vous pouvez avoir 3 succès par échec, mais -3 succès par échec n'ont pas de sens. Le logarithme d'une cote peut prendre n'importe quelle valeur positive ou négative. La régression logistique est un modèle linéaire pour le log (cotes). Cela fonctionne parce que le log (cotes) peut prendre n'importe quel nombre positif ou négatif, donc un modèle linéaire ne conduira pas à des prédictions impossibles. Nous pouvons faire un modèle linéaire pour la probabilité, un modèle de probabilité linéaire, mais cela peut conduire à des prédictions impossibles car une probabilité doit rester entre 0 et 1.

Maarten Buis
la source