J'ai eu du mal à comprendre l'utilisation de la régression logistique dans un article. L'article disponible ici utilise la régression logistique pour prédire la probabilité de complications lors d'une chirurgie de la cataracte.
Ce qui me déroute, c'est que le document présente un modèle qui attribue un rapport de cotes de 1 à la ligne de base décrit comme suit:
Un patient dont le profil de risque était dans le groupe de référence pour tous les indicateurs de risque (c.-à-d. OR ajusté = 1,00 pour tous dans le tableau 1) peut être considéré comme ayant un «profil de risque de base», et le modèle de régression logistique indique une «probabilité prédite de base». pour PCR ou VL ou les deux = 0,736%.
La probabilité de 0,00736 est donc présentée avec un rapport de cotes de 1. Sur la base de la transformation des probabilités en rapports de cotes: , cela ne peut pas être égal à 1: .
Cela devient encore plus déroutant. Les rapports de cotes composites qui représentent plusieurs covariables ayant des valeurs différentes de la ligne de base sont utilisés pour calculer le risque prévu.
... le OU composite du tableau 1 serait 1,28 X 1,58 X 2,99 X 2,46 X 1,45 X 1,60 = 34,5, et à partir du graphique de la figure 1, nous voyons que ce OU correspond à une probabilité prédite de PCR ou VL ou des deux environ 20%
La seule façon d'arriver aux valeurs que le papier donne comme exemples est de multiplier la probabilité de base avec des cotes composites comme ceci: .
Que se passe-t-il? Quelle est la logique pour attribuer le rapport de cotes 1 à une probabilité de base qui n'est pas 0,5? La formule de mise à jour que j'ai trouvée ci-dessus présente les bonnes probabilités pour des exemples dans le document, mais ce n'est pas la multiplication directe du rapport de cotes que j'attendrais. Qu'est-ce que c'est alors?
la source
Réponses:
Les cotes sont un moyen d'exprimer des chances. Les rapports de cotes ne sont que cela: une cote divisée par une autre. Cela signifie qu'un rapport de cotes est ce que vous multipliez par une cote pour en produire une autre. Voyons comment ils fonctionnent dans cette situation courante.
Conversion entre les cotes et les probabilités
Les chances d'une réponse binaire sont le rapport de la chance qu'elle se produit (codé avec 1 ), écrit Pr ( Y = 1 ) , à la chance qu'elle ne le fait pas (codé avec 0 ), écrit Pr ( Y = 0 ) :Y 1 Pr(Y=1) 0 Pr(Y=0)
L'expression équivalente à droite montre qu'il suffit de modéliser pour trouver les cotes. Inversement, notons que nous pouvons résoudrePr(Y=1)
Régression logistique
La régression logistique modélise le logarithme des probabilités de en fonction linéaire des variables explicatives. Plus généralement, en écrivant ces variables sous la forme x 1 , … , x p , et en incluant un éventuel terme constant dans la fonction linéaire, nous pouvons nommer les coefficients (qui doivent être estimés à partir des données) comme β 1 , … , β p et β 0 . Formellement, cela produit le modèleY x1,…,xp β1,…,βp β0
Les chances elles-mêmes peuvent être récupérées en annulant le logarithme:
Utilisation de variables catégorielles
Les variables catégorielles, telles que le groupe d'âge, le sexe, la présence de glaucome, etc. , sont incorporées au moyen d'un «codage fictif». Pour montrer que la façon dont la variable est codée n'a pas d'importance, je vais fournir un exemple simple d'un petit groupe; sa généralisation à plusieurs groupes devrait être évidente. Dans cette étude, une variable est la «taille de la pupille», avec trois catégories, «Large», «Medium» et «Small». (L'étude les traite comme purement catégoriques, ne prêtant apparemment aucune attention à leur ordre inhérent.) Intuitivement, chaque catégorie a ses propres cotes, par exemple pour "Large", α M pour "Medium" et α S pour "Small" . Cela signifie que, toutes choses égales par ailleurs,αL αM αS
pour toute personne de la catégorie "Large",
pour toute personne de la catégorie "Medium", et
pour ceux de la catégorie "Petit".
Création de coefficients identifiables
J'ai coloré les deux premiers coefficients pour les mettre en évidence, car je veux que vous remarquiez qu'ils permettent un changement simple: nous pourrions choisir n'importe quel nombre et, en l'ajoutant à β 0 et en le soustrayant de chacun de α L , α M et α S , nous ne modifierions aucune cote prédite. C'est à cause des équivalences évidentes de la formeγ β0 αL αM αS
etc. Bien que cela ne pose aucun problème pour le modèle - il prédit toujours exactement les mêmes choses - cela montre que les paramètres ne sont pas en eux-mêmes interprétables. Ce qui reste le même lorsque nous effectuons cette manœuvre d'addition-soustraction, ce sont les différences entre les coefficients. Classiquement, pour remédier à ce manque d'identifiabilité, les personnes (et par défaut, les logiciels) choisissent l'une des catégories de chaque variable comme «base» ou «référence» et stipulent simplement que son coefficient sera nul. Cela supprime l'ambiguïté.
Le document énumère d'abord les catégories de référence; "Large" dans ce cas. Ainsi, est soustraite de chacune des α L , α M , et α S , et ajouté à la ß 0 à compenser.αL αL,αM, αS β0
La cote logarithmique pour un individu hypothétique entrant dans toutes les catégories de base est donc égale à plus un ensemble de termes associés à toutes les autres «covariables» - les variables non catégorielles:β0
Aucun terme associé à des variables catégorielles n'apparaît ici. (J'ai légèrement changé la notation à ce stade: les bêtas ne sont maintenant que les coefficients des covariables , tandis que le modèle complet inclut les alphas α j pour les différentes catégories.)βi αj
Comparer les cotes
Comparons les cotes. Supposons qu'un individu hypothétique soit un
Il s'agit précisément de la différence entre les cotes logarithmiques de ce patient et la base. Pour convertir à partir des cotes du journal, annulez le logarithme et rappelez-vous que cela transforme l'addition en multiplication. Par conséquent, la cote de base doit être multipliée par
(Notez que les catégories de base ont toutes des rapports de cotes de1,00 = exp( 0 ) , car y compris 1 dans le produit le laisse inchangé. C'est ainsi que vous pouvez repérer les catégories de base dans le tableau.)
Retraiter les résultats en probabilités
Enfin, convertissons ce résultat en probabilités. On nous a dit que la probabilité prédite de base est0,736 % = 0,00736 . Par conséquent, en utilisant les formules reliant les cotes et les probabilités dérivées au départ, nous pouvons calculer
Par conséquent, les chances de Charlie sont
Enfin, la conversion de ce retour en probabilités donne
la source