J'étudie comment construire un intervalle de confiance à 95% pour l'odds ratio à partir des coefficients obtenus dans la régression logistique. Donc, compte tenu du modèle de régression logistique,
tels que pour le groupe témoin et pour le groupe de cas.
J'ai déjà lu que le moyen le plus simple est de construire un IC à 95% pour puis nous avons appliqué la fonction exponentielle, c'est-à-dire,
Mes questions sont:
Quelle est la raison théorique qui justifie cette procédure? Je sais que et les estimateurs du maximum de vraisemblance sont invariants. Cependant, je ne connais pas le lien entre ces éléments.
La méthode delta devrait-elle produire le même intervalle de confiance à 95% que la procédure précédente? En utilisant la méthode delta,
Alors,
Sinon, quelle est la meilleure procédure?
la source
Réponses:
La justification de la procédure est la normalité asymptotique du MLE pour et résulte d'arguments impliquant le théorème de limite centrale.β
La méthode Delta provient d'une expansion linéaire (c'est-à-dire Taylor de premier ordre) de la fonction autour du MLE. Par la suite, nous faisons appel à la normalité asymptotique et à l'impartialité du MLE.
Asymptotiquement, les deux donnent la même réponse. Mais en pratique, vous préféreriez celui qui semble plus proche de la normale. Dans cet exemple, je privilégierais le premier car ce dernier est susceptible d'être moins symétrique.
la source
Une comparaison des méthodes d'intervalles de confiance sur un exemple d'ISL
Le livre "Introduction to Statistical Learning" de Tibshirani, James, Hastie fournit un exemple à la page 267 d'intervalles de confiance pour le degré de régression logistique polynomiale 4 sur les données salariales . Citant le livre:
Vous trouverez ci-dessous un bref récapitulatif de deux méthodes de construction de tels intervalles ainsi que des commentaires sur la façon de les implémenter à partir de zéro
Intervalles de transformation Wald / Endpoint
Puisque est une transformation monotone dex T βPr(xTβ)=F(xTβ) xTβ
Concrètement, cela signifie calculer puis appliquer la transformation logit au résultat pour obtenir les bornes inférieure et supérieure:βTx±z∗SE(βTx)
Calcul de l'erreur standard
La théorie du maximum de vraisemblance nous dit que la variance approximative de peut être calculée en utilisant la matrice de covariance des coefficients de régression en utilisantxTβ Σ
Définissez la matrice de conception et la matrice commeX V
où est la valeur de la ème variable pour les ème observations et représente la probabilité prédite pour l'observation .xi,j j i π^i i
La matrice de covariance peut alors être trouvée comme: et l'erreur standard commeΣ=(XTVX)−1 SE(xTβ)=Var(xTβ)−−−−−−−−√
Les intervalles de confiance à 95% pour la probabilité prédite peuvent alors être tracés comme
Intervalles de confiance de la méthode Delta
L'approche consiste à calculer la variance d'une approximation linéaire de la fonction et à l'utiliser pour construire de grands intervalles de confiance d'échantillon.F
Où est le gradient et la matrice de covariance estimée. Notez que dans une dimension:∇ Σ
Où est la dérivée de . Cela se généralise dans le cas multivariéf F
Dans notre cas F est la fonction logistique (que nous noterons ) dont la dérivée estπ(xTβ)
Nous pouvons maintenant construire un intervalle de confiance en utilisant la variance calculée ci-dessus.
Sous forme vectorielle pour le cas multivarié
Une conclusion ouverte
Un examen des tracés QQ normaux pour les probabilités et les cotes log négatives montre qu'aucun des deux n'est normalement distribué. Cela pourrait-il expliquer la différence?
La source:
la source
Dans la plupart des cas, le moyen le plus simple est probablement le meilleur, comme indiqué dans le contexte d'une transformation de journal sur cette page . Considérez votre variable dépendante comme étant analysée dans l'échelle logit, avec des tests statistiques effectués et des intervalles de confiance (IC) définis sur cette échelle logit. La transformation de retour à l'odds ratio consiste simplement à mettre ces résultats dans une échelle qu'un lecteur pourrait plus facilement saisir. Cela se fait également, par exemple, dans l'analyse de survie de Cox, où les coefficients de régression (et l'IC à 95%) sont exponentiels pour obtenir les ratios de risque et leur IC.
la source