Régression logistique ordinale avec une fonction de lien différente

Considérons une variable de résultat qui comporte quatre catégories claires et ordonnées. Cela semble être une bonne utilisation de la régression logistique ordinale pour estimer les rapports de cotes pour l'effet des covariables sur le déplacement d'un sujet d'un «échelon» dans l'échelle.

Mais les sujets sont particulièrement répartis uniformément dans les catégories, une question se pose donc:

Est-ce que l '"hypothèse de résultats rares" pour un OR pour approximer un risque relatif est toujours vraie dans la régression logistique ordinale?
Dans l'affirmative, est-il possible de modifier la fonction de liaison pour estimer directement un risque relatif, et est-il toujours possible d'utiliser quelque chose comme une approximation de poisson avec des erreurs standard robustes pour traiter les problèmes de convergence dans un tel cas?

regression ordinal-data ordered-logit Fomite
la source

Réponses:

Je pense que nous devons d'abord nous demander s'il est nécessaire d'utiliser une régression logistique à cotes proportionnelles pour approximer un risque relatif cumulatif, par exemple le risque relatif de déclarer un résultat plus élevé. La formulation probabiliste du modèle de cotes proportionnelles repose sur l'observation de casiers arbitraires d'une variable aléatoire logistique latente. Voir ma question pertinente ici . L'élégance de cette méthode est que la fonction de survie (1-CDF) d'un VR logistique est le logit inverse, par exemple . $P(Z > z) = \exp(-z)/(1+\exp(-z))$

Si nous supposons une dérivation probabiliste similaire d'un modèle de risque relatif, le désir est de trouver une variable aléatoire latente dont la fonction de survie est . Mais ce n'est qu'une variable aléatoire exponentielle, qui est sans mémoire. Par conséquent, si nous construisons la matrice des variables de résultat , , (je crois) les fréquences cellulaires sont conditionnellement indépendantes et peuvent donc être modélisées via un modèle log-linéaire qui n'est qu'une régression de Poisson. Ceci est rassurant car l'interprétation des coefficients de Poisson se fait comme un taux relatif. La modélisation de l'interaction entre la variable de réponse sous forme de résultat numérique et les coefficients de régression conduit à une interprétation correcte. $P(Z > z) = \exp(-z)$ $O_{ij} = \mathcal{I}(Y_{i} \ge j)$

Autrement dit, ajustez le modèle log-linéaire:

\log (N_{i j} | Y_{i}, X_{i,}) = η_{0} I (Y_{i} = 0) + \dots + η_{j} I (Y_{i} == j) + \vec{β} X_{i,} + \vec{γ} diag(Y) X_{i,}

$\log (N_{ij} | Y_{i}, \mathbf{X}_{i,}) = \eta_0 I(Y_{i} = 0) + \ldots + \eta_j I(Y_i == j) + \vec{\beta} \mathbf{X}_{i,} + \vec{\gamma} \text{diag(Y)} \mathbf{X}_{i,}$

En utilisant l'exemple du package MASS: nous voyons l'effet souhaité que le risque relatif est beaucoup plus petit que le OR dans tous les cas:

newData <- data.frame('oy'=oy, 'ny'=as.numeric(y), housing)

## trick: marginal frequencies are categorical but interactions are linear
## solution: use linear main effect and add indicators for remaining  n-2 categories
## equivalent model specifications
fit <- glm(Freq ~ oy.2 + ny*(Infl + Type + Cont), data=newData, family=poisson)
effects <- grep('ny:', names(coef(fit)), value=T)
print(cbind(
  coef(summary(fit))[effects, ],
  coef(summary(house.plr))[gsub('ny:','', effects), ]
), digits=3)

Nous donne:

                 Estimate Std. Error z value Pr(>|z|)  Value Std. Error t value
ny:InflMedium       0.360     0.0664    5.41 6.23e-08  0.566     0.1047    5.41
ny:InflHigh         0.792     0.0811    9.77 1.50e-22  1.289     0.1272   10.14
ny:TypeApartment   -0.299     0.0742   -4.03 5.55e-05 -0.572     0.1192   -4.80
ny:TypeAtrium      -0.170     0.0977   -1.74 8.21e-02 -0.366     0.1552   -2.36
ny:TypeTerrace     -0.673     0.0951   -7.07 1.51e-12 -1.091     0.1515   -7.20
ny:ContHigh         0.106     0.0578    1.84 6.62e-02  0.360     0.0955    3.77

Où les 4 premières colonnes sont déduites du modèle log-linéaire et les 3 secondes colonnes proviennent du modèle de cotes proportionnelles.

Cela répond peut-être à la question la plus importante: comment peut-on adapter un tel modèle. Je pense qu'il peut être utilisé pour explorer l'approximation relative des OR pour les événements rares par rapport aux RR.

AdamO
la source

Abordons séparément vos deux questions:

Est-ce que l '"hypothèse de résultats rares" pour un OR pour approximer un risque relatif est toujours vraie dans la régression logistique ordinale?

Pas vraiment. Vous avez dit vous-même que vos résultats sont répartis uniformément dans les quatre catégories, donc aucune catégorie ne sera particulièrement rare.

Dans l'affirmative, est-il possible de modifier la fonction de liaison pour estimer directement un risque relatif, et est-il toujours possible d'utiliser quelque chose comme une approximation de poisson avec des erreurs standard robustes pour traiter les problèmes de convergence dans un tel cas?

Vous pouvez, mais il y a un risque que lorsque vous utilisez votre modèle pour faire des prédictions, la probabilité prédite d'être dans une classe pourrait être supérieure à 1.

Le modèle logit ordonné standard est formulé avec l'hypothèse de cotes proportionnelles. Tout ce que nous faisons est de remplacer le "logit" par "log", qui produit toujours un modèle valide avec une probabilité valide qui produit des estimations valides pour . Cependant, lorsque vous les appliquez à des données réelles, il est possible qu'un composant pour soit supérieur à un (et comme cela est en dehors de la plage de l'hypothèse de cotes proportionnelles, vous ne pouvez pas l'utiliser pour remplir le reste Composants).

Y_{i} \sim c a t e g o r i c a l (p_{i}); l o g i t (p_{i}) = X β

$Y_i \sim categorical({\bf{p}}_i);logit({\bf{p}}_i) = X\beta$

β

$\beta$

p_{i}

$\bf{p}_i$

Cela ne peut pas se produire si vous utilisez uniquement votre modèle pour prédire les données sur lesquelles il a été formé, et est moins probable si

vous avez beaucoup de données d'entraînement
vos données de formation couvrent toutes les combinaisons possibles de covariables (si elles sont catégoriques) ou la gamme complète de covariables (si elles sont numériques)

JDL
la source

Je ne pense pas que vous ayez écrit le bon modèle logit commandé standard. Avez-vous une copie d'Agresti ou McCullogh & Nelder? Il a été convenu que si la distribution des réponses est même parmi les catégories logit ordonnées, l'approximation est théorique. Mais que faire si la plupart des participants étaient regroupés dans la catégorie de réponse la plus faible?

K

$K$

AdamO

@AdamO ce n'est probablement pas la formulation à laquelle vous êtes habitué, mais elle est équivalente (tant qu'elle Xcomprend une interception). Je l'ai choisi car il met l'accent sur les points les plus pertinents pour la question. (Ce n'est évidemment pas équivalent une fois que vous remplacez logit par log, mais cette formulation semble généraliser le mieux)

JDL

Le modèle de cotes de prop a des contraintes importantes, à savoir que le terme d'interception (non représenté) pour chaque contraste catégoriel est ordonné, en outre est la désignation catégorique, mais la probabilité modélisée est la probabilité cumulative . Je pense que je suis sûr de dire que vous avez simplement écrit un modèle logistique inconditionnel et ce n'est pas correct.

Y_{i}

$Y_i$

AdamO

Ces contraintes sont traitées par l'hypothèse de cotes proportionnelles. (Je suis d'accord qu'ils ne sont pas exprimés dans l'équation que j'ai énoncée)

JDL