Aidez-moi à comprendre le rapport de cotes ajusté dans la régression logistique

20

J'ai eu du mal à comprendre l'utilisation de la régression logistique dans un article. L'article disponible ici utilise la régression logistique pour prédire la probabilité de complications lors d'une chirurgie de la cataracte.

Ce qui me déroute, c'est que le document présente un modèle qui attribue un rapport de cotes de 1 à la ligne de base décrit comme suit:

Un patient dont le profil de risque était dans le groupe de référence pour tous les indicateurs de risque (c.-à-d. OR ajusté = 1,00 pour tous dans le tableau 1) peut être considéré comme ayant un «profil de risque de base», et le modèle de régression logistique indique une «probabilité prédite de base». pour PCR ou VL ou les deux = 0,736%.

La probabilité de 0,00736 est donc présentée avec un rapport de cotes de 1. Sur la base de la transformation des probabilités en rapports de cotes: o=p1p , cela ne peut pas être égal à 1: 0.00741=0.0073610.00736 .

Cela devient encore plus déroutant. Les rapports de cotes composites qui représentent plusieurs covariables ayant des valeurs différentes de la ligne de base sont utilisés pour calculer le risque prévu.

... le OU composite du tableau 1 serait 1,28 X 1,58 X 2,99 X 2,46 X 1,45 X 1,60 = 34,5, et à partir du graphique de la figure 1, nous voyons que ce OU correspond à une probabilité prédite de PCR ou VL ou des deux environ 20%

La seule façon d'arriver aux valeurs que le papier donne comme exemples est de multiplier la probabilité de base avec des cotes composites comme ceci: .0.2025=(34.50 × 0.00736)1 + (34.50 × 0.00736)

Que se passe-t-il? Quelle est la logique pour attribuer le rapport de cotes 1 à une probabilité de base qui n'est pas 0,5? La formule de mise à jour que j'ai trouvée ci-dessus présente les bonnes probabilités pour des exemples dans le document, mais ce n'est pas la multiplication directe du rapport de cotes que j'attendrais. Qu'est-ce que c'est alors?

mahonya
la source
8
Vous pourriez avoir une simple confusion sur la terminologie: est une cote , pas un rapport de cotes. Un rapport de cotes est la division d'une telle expression par une autre. p/(1p)
whuber

Réponses:

35

Les cotes sont un moyen d'exprimer des chances. Les rapports de cotes ne sont que cela: une cote divisée par une autre. Cela signifie qu'un rapport de cotes est ce que vous multipliez par une cote pour en produire une autre. Voyons comment ils fonctionnent dans cette situation courante.

Conversion entre les cotes et les probabilités

Les chances d'une réponse binaire sont le rapport de la chance qu'elle se produit (codé avec 1 ), écrit Pr ( Y = 1 ) , à la chance qu'elle ne le fait pas (codé avec 0 ), écrit Pr ( Y = 0 ) :Y1Pr(Y=1)0Pr(Y=0)

Odds(Y)=Pr(Y=1)Pr(Y=0)=Pr(Y=1)1Pr(Y=1).

L'expression équivalente à droite montre qu'il suffit de modéliser pour trouver les cotes. Inversement, notons que nous pouvons résoudrePr(Y=1)

Pr(Y=1)=Odds(Y)1+Odds(Y)=111+Odds(Y).

Régression logistique

La régression logistique modélise le logarithme des probabilités de en fonction linéaire des variables explicatives. Plus généralement, en écrivant ces variables sous la forme x 1 , , x p , et en incluant un éventuel terme constant dans la fonction linéaire, nous pouvons nommer les coefficients (qui doivent être estimés à partir des données) comme β 1 , , β p et β 0 . Formellement, cela produit le modèleYx1,,xpβ1,,βpβ0

log(Odds(Y))=β0+β1x1++βpxp.

Les chances elles-mêmes peuvent être récupérées en annulant le logarithme:

Odds(Y)=exp(β0+β1x1++βpxp).

Utilisation de variables catégorielles

Les variables catégorielles, telles que le groupe d'âge, le sexe, la présence de glaucome, etc. , sont incorporées au moyen d'un «codage fictif». Pour montrer que la façon dont la variable est codée n'a pas d'importance, je vais fournir un exemple simple d'un petit groupe; sa généralisation à plusieurs groupes devrait être évidente. Dans cette étude, une variable est la «taille de la pupille», avec trois catégories, «Large», «Medium» et «Small». (L'étude les traite comme purement catégoriques, ne prêtant apparemment aucune attention à leur ordre inhérent.) Intuitivement, chaque catégorie a ses propres cotes, par exemple pour "Large", α M pour "Medium" et α S pour "Small" . Cela signifie que, toutes choses égales par ailleurs,αLαMαS

Odds(Y)=exp(αL+β0+β1x1++βpxp)

pour toute personne de la catégorie "Large",

Odds(Y)=exp(αM+β0+β1x1++βpxp)

pour toute personne de la catégorie "Medium", et

Odds(Y)=exp(αS+β0+β1x1++βpxp)

pour ceux de la catégorie "Petit".

Création de coefficients identifiables

J'ai coloré les deux premiers coefficients pour les mettre en évidence, car je veux que vous remarquiez qu'ils permettent un changement simple: nous pourrions choisir n'importe quel nombre et, en l'ajoutant à β 0 et en le soustrayant de chacun de α L , α M et α S , nous ne modifierions aucune cote prédite. C'est à cause des équivalences évidentes de la formeγβ0αLαMαS

αL+β0=(αLγ)+(γ+β0),

etc. Bien que cela ne pose aucun problème pour le modèle - il prédit toujours exactement les mêmes choses - cela montre que les paramètres ne sont pas en eux-mêmes interprétables. Ce qui reste le même lorsque nous effectuons cette manœuvre d'addition-soustraction, ce sont les différences entre les coefficients. Classiquement, pour remédier à ce manque d'identifiabilité, les personnes (et par défaut, les logiciels) choisissent l'une des catégories de chaque variable comme «base» ou «référence» et stipulent simplement que son coefficient sera nul. Cela supprime l'ambiguïté.

Le document énumère d'abord les catégories de référence; "Large" dans ce cas. Ainsi, est soustraite de chacune des α L , α M , et α S , et ajouté à la ß 0 à compenser.αLαL,αM,αSβ0

La cote logarithmique pour un individu hypothétique entrant dans toutes les catégories de base est donc égale à plus un ensemble de termes associés à toutes les autres «covariables» - les variables non catégorielles:β0

Odds(Base category)=exp(β0+β1X1++βpXp).

Aucun terme associé à des variables catégorielles n'apparaît ici. (J'ai légèrement changé la notation à ce stade: les bêtas ne sont maintenant que les coefficients des covariables , tandis que le modèle complet inclut les alphas α j pour les différentes catégories.)βiαj

Comparer les cotes

Comparons les cotes. Supposons qu'un individu hypothétique soit un

patient de 80 à 89 ans avec une cataracte blanche, pas de vue de fond, et une petite pupille opérée par un registraire spécialisé, ...

α80-89αmale

α80-89+αmale+αno Glaucoma++αspecialist registrar.

Il s'agit précisément de la différence entre les cotes logarithmiques de ce patient et la base. Pour convertir à partir des cotes du journal, annulez le logarithme et rappelez-vous que cela transforme l'addition en multiplication. Par conséquent, la cote de base doit être multipliée par

exp(α80-89)exp(αmale)exp(αno Glaucoma)exp(αspecialist registrar).

x1,,xpexp(α80-89)=1.58exp(αmale)=1.28exp(αpas de glaucome)=1,00, etc. Selon l'article, leur produit fonctionne pour34,5. Donc

Cotes (Charlie)=34,5×Cotes (Base).

(Notez que les catégories de base ont toutes des rapports de cotes de 1,00=exp(0), car y compris 1dans le produit le laisse inchangé. C'est ainsi que vous pouvez repérer les catégories de base dans le tableau.)

Retraiter les résultats en probabilités

Enfin, convertissons ce résultat en probabilités. On nous a dit que la probabilité prédite de base est0,736%=0,00736. Par conséquent, en utilisant les formules reliant les cotes et les probabilités dérivées au départ, nous pouvons calculer

Cotes (Base)=0,007361-0,00736=0,00741.

Par conséquent, les chances de Charlie sont

Cotes (Charlie)=34,5×0,00741=0,256.

Enfin, la conversion de ce retour en probabilités donne

Pr(Oui(Charlie)=1)=1-11+0,256=0,204.
whuber
la source
3
whuber: se placer devant mon ordinateur après une journée très fatigante et trouver cette réponse extraordinaire de votre part est tout simplement génial. Vous m'avez beaucoup aidé dans une situation très difficile. Merci beaucoup. (en quelque sorte @ whuber ne se présentera pas ...)
mahonya