Je pense que nous devons d'abord nous demander s'il est nécessaire d'utiliser une régression logistique à cotes proportionnelles pour approximer un risque relatif cumulatif, par exemple le risque relatif de déclarer un résultat plus élevé. La formulation probabiliste du modèle de cotes proportionnelles repose sur l'observation de casiers arbitraires d'une variable aléatoire logistique latente. Voir ma question pertinente ici . L'élégance de cette méthode est que la fonction de survie (1-CDF) d'un VR logistique est le logit inverse, par exemple .P(Z>z)=exp(−z)/(1+exp(−z))
Si nous supposons une dérivation probabiliste similaire d'un modèle de risque relatif, le désir est de trouver une variable aléatoire latente dont la fonction de survie est . Mais ce n'est qu'une variable aléatoire exponentielle, qui est sans mémoire. Par conséquent, si nous construisons la matrice des variables de résultat , , (je crois) les fréquences cellulaires sont conditionnellement indépendantes et peuvent donc être modélisées via un modèle log-linéaire qui n'est qu'une régression de Poisson. Ceci est rassurant car l'interprétation des coefficients de Poisson se fait comme un taux relatif. La modélisation de l'interaction entre la variable de réponse sous forme de résultat numérique et les coefficients de régression conduit à une interprétation correcte.P(Z>z)=exp(−z)Oij=I(Yi≥j)
Autrement dit, ajustez le modèle log-linéaire:
log(Nij|Yi,Xi,)=η0I(Yi=0)+…+ηjI(Yi==j)+β⃗ Xi,+γ⃗ diag(Y)Xi,
En utilisant l'exemple du package MASS: nous voyons l'effet souhaité que le risque relatif est beaucoup plus petit que le OR dans tous les cas:
newData <- data.frame('oy'=oy, 'ny'=as.numeric(y), housing)
## trick: marginal frequencies are categorical but interactions are linear
## solution: use linear main effect and add indicators for remaining n-2 categories
## equivalent model specifications
fit <- glm(Freq ~ oy.2 + ny*(Infl + Type + Cont), data=newData, family=poisson)
effects <- grep('ny:', names(coef(fit)), value=T)
print(cbind(
coef(summary(fit))[effects, ],
coef(summary(house.plr))[gsub('ny:','', effects), ]
), digits=3)
Nous donne:
Estimate Std. Error z value Pr(>|z|) Value Std. Error t value
ny:InflMedium 0.360 0.0664 5.41 6.23e-08 0.566 0.1047 5.41
ny:InflHigh 0.792 0.0811 9.77 1.50e-22 1.289 0.1272 10.14
ny:TypeApartment -0.299 0.0742 -4.03 5.55e-05 -0.572 0.1192 -4.80
ny:TypeAtrium -0.170 0.0977 -1.74 8.21e-02 -0.366 0.1552 -2.36
ny:TypeTerrace -0.673 0.0951 -7.07 1.51e-12 -1.091 0.1515 -7.20
ny:ContHigh 0.106 0.0578 1.84 6.62e-02 0.360 0.0955 3.77
Où les 4 premières colonnes sont déduites du modèle log-linéaire et les 3 secondes colonnes proviennent du modèle de cotes proportionnelles.
Cela répond peut-être à la question la plus importante: comment peut-on adapter un tel modèle. Je pense qu'il peut être utilisé pour explorer l'approximation relative des OR pour les événements rares par rapport aux RR.
X
comprend une interception). Je l'ai choisi car il met l'accent sur les points les plus pertinents pour la question. (Ce n'est évidemment pas équivalent une fois que vous remplacez logit par log, mais cette formulation semble généraliser le mieux)