Interprétation des prédictions simples aux rapports de cotes dans la régression logistique

29

Je suis un peu nouveau dans l'utilisation de la régression logistique et un peu confus par une divergence entre mes interprétations des valeurs suivantes qui, selon moi, serait la même:

  • valeurs bêta exponentiées
  • probabilité prédite du résultat en utilisant des valeurs bêta.

Voici une version simplifiée du modèle que j'utilise, où la dénutrition et l'assurance sont à la fois binaires et la richesse continue:

Under.Nutrition ~ insurance + wealth

Mon modèle (réel) renvoie une valeur bêta exponentielle de 0,8 pour l'assurance, que j'interpréterais comme:

"La probabilité d'être sous-alimenté pour un assuré est égale à 0,8 fois la probabilité d'être sous-alimenté pour un assuré."

Cependant, lorsque je calcule la différence de probabilités pour les individus en mettant des valeurs de 0 et 1 dans la variable d'assurance et la valeur moyenne du patrimoine, la différence de dénutrition n'est que de 0,04. Cela est calculé comme suit:

Probability Undernourished = exp(β0 + β1*Insurance + β2*Wealth) /
                             (1+exp(β0 + β1*Insurance + β2*wealth))

J'apprécierais vraiment que quelqu'un puisse expliquer pourquoi ces valeurs sont différentes et quelle meilleure interprétation (en particulier pour la deuxième valeur) pourrait être.


Modifications supplémentaires de clarification
Si je comprends bien, la probabilité d'être sous-alimenté pour une personne non assurée (où B1 correspond à une assurance) est:

Prob(Unins) = exp(β0 + β1*0 + β2*Wealth) /
              (1+exp(β0 + β1*0+ β2*wealth))

Alors que la probabilité d'être sous-alimenté pour une personne assurée est:

Prob(Ins)= exp(β0 + β1*1 + β2*Wealth) /
           (1+exp(β0 + β1*1+ β2*wealth))

Les chances d'être sous-alimenté pour une personne non assurée par rapport à une personne assurée sont:

exp(B1)

Existe-t-il un moyen de traduire entre ces valeurs (mathématiquement)? Je suis toujours un peu confus par cette équation (où je devrais probablement être une valeur différente sur le RHS):

Prob(Ins) - Prob(Unins) != exp(B)

En termes simples, la question est de savoir pourquoi l'assurance d'un individu ne modifie-t-il pas sa probabilité d'être sous-alimenté autant que le rapport de cotes l'indique? Dans mes données, Prob (Ins) - Prob (Unins) = 0,04, où la valeur bêta exponentiée est de 0,8 (alors pourquoi la différence n'est-elle pas de 0,2?)

Mike
la source
2
Ces explications merveilleuses et claires s'appliquent-elles aux modèles / régressions log-logistiques?

Réponses:

50

Il me semble évident que sauf siexp(β0+β1x)=0. Donc, je suis moins clair sur ce que pourrait être la confusion. Ce que je peux dire, c'est que le côté gauche (LHS) du signe (pas) égal est laprobabilitéd'être sous-alimenté, tandis que le RHS est laprobabilitéd'être sous-alimenté. Examiné seul,exp(β1)est lerapport de cotes, c'est-à-dire le facteur multiplicatif qui vous permet de vous éloigner des cotes (

exp(β0+β1x)exp(β0+β1x)1+exp(β0+β1x)
exp(β0+β1x)=0exp(β1) ) à la cote ( x + 1 ). xx+1

Faites-moi savoir si vous avez besoin d'informations supplémentaires / différentes.

Mise à jour:
Je pense que c'est principalement une question de méconnaissance des probabilités et des cotes, et de la façon dont elles sont liées les unes aux autres. Rien de tout cela n'est très intuitif, vous devez vous asseoir et travailler avec pendant un certain temps et apprendre à penser en ces termes; cela ne vient naturellement à personne.

Le problème est que les nombres absolus sont très difficiles à interpréter par eux-mêmes. Disons que je vous parlais d'une époque où j'avais une pièce et je me demandais si c'était juste. Je l'ai donc retourné et j'ai obtenu 6 têtes. Qu'est-ce que ça veut dire? Est-ce que 6, beaucoup, un peu, n'est-ce pas? C'est terriblement difficile à dire. Pour faire face à ce problème, nous voulons donner aux chiffres un certain contexte. Dans un cas comme celui-ci, il y a deux choix évidents pour fournir le contexte nécessaire: je pourrais donner le nombre total de flips, ou je pourrais donner le nombre de queues. Dans les deux cas, vous disposez des informations adéquates pour donner un sens à 6 têtes, et vous pouvez calculer l'autre valeur si celle que je vous ai dite n'était pas celle que vous préfériez. La probabilité est le nombre de têtes divisé par le nombre total d'événements. La cote est le rapport du nombre de têtes au nombre de

probability=odds1+odds                odds=probability1probability
exp(β)

[0,1](,+)(0,+)wealth

exp(β0+β1x)exp(β0+β1x)=exp(β0+β1x)1+exp(β0+β1x)exp(β0+β1x)1+exp(β0+β1x)
xx

(Bien qu'il ait été écrit dans le cadre d'une autre question, ma réponse ici contient beaucoup d'informations sur la régression logistique qui peuvent être utiles pour vous dans la compréhension des questions connexes LR et mieux.)

gung - Réintégrer Monica
la source
Merci pour la réponse - j'ai expliqué ma confusion dans l'édition ci-dessus.
mike
J'apprécie vraiment de prendre le temps d'écrire une explication complète - très utile.
mike
Bienvenue, @mike, c'est à ça que sert CV.
gung - Réintègre Monica
Concernant le lien de cotes de Las Vegas : je ne suis jamais allé à Vegas, mais en cherchant certains prix offerts par des sites basés à Vegas, où ils citent des cotes fractionnaires (par opposition à la ligne de crédit), ils suivent le système britannique de "cotes contre", non statistiques "probabilités". En tant que telles, les "cotes de Las Vegas" sur votre lien ne correspondent pas à des cotes de jeu réelles, où "9 pour 1" correspond à un événement improbable , et non (comme "9 à 1" signifie pour un statisticien) probable. Une source de confusion que j'essaie d'aborder ici
Silverfish
@Silverfish, je ne suis pas allé à Las Vegas depuis longtemps. Je ne me souviens pas s'ils présentent généralement des cotes pour ou contre. Néanmoins, «4 à 5» est appelé cotes de Las Vegas .
gung - Rétablir Monica
-1

Le rapport de cotes OR = Exp (b) se traduit par la probabilité A = SQRT (OR) / (SQRT (OR) +1), où la probabilité A est la probabilité de l'événement A et OR est le rapport de l'événement se produisant A / ne se produisant pas l'événement A (ou exposés / non exposés par les assurances comme dans la question ci-dessus). Cela m'a pris un certain temps à résoudre; Je ne sais pas pourquoi cette formule n'est pas bien connue.

Il y a un exemple. Supposons qu'il y ait 10 personnes admises à l'université; 7 d'entre eux sont des hommes. Donc, pour chaque homme, il y a 70% de chances d'être admis. Les chances d'être admis pour les hommes sont de 7/3 = 2,33 et de ne pas être admises 3/7 = 0,43. Le rapport de cotes (OR) est de 2,33 / 0,43 = 5,44, ce qui signifie que pour les hommes 5,44 fois plus de chances d'être admis plutôt que pour les femmes. Trouvons la probabilité d'être admis pour l'homme à partir de OR: P = SQRT (5,44) / (SQRT (5,44) +1) = 0,7

Mise à jour Ceci n'est vrai que si le nombre d'hommes ou de femmes admis est égal au nombre de candidats. En d'autres termes, ce n'est pas OU. Nous ne pouvons pas trouver que le gain (ou la perte) de probabilité dépend du facteur sans connaître des informations supplémentaires.

Niksr
la source
7232
Oui, vous avez tout à fait raison, merci. J'ai trouvé que nous ne pouvons pas convertir les OR connus (que nous obtenons, par exemple, en sortie de régression logistique) en gain ou perte de probabilités sans connaître les probabilités antérieures. Je mets à jour ma réponse.
Niksr