Régression quantile révélant différentes relations à différents quantiles: comment?

8

On dit parfois que la régression quantile (QR) révèle des relations différentes entre les variables à différents quantiles de la distribution. Par exemple, Le Cook et al. «Penser au-delà de la moyenne: un guide pratique pour l'utilisation de méthodes de régression quantile pour la recherche sur les services de santé» implique que QR permet que les relations entre les résultats d'intérêt et les variables explicatives soient non constantes entre les différentes valeurs des variables.

Cependant, pour autant que je sache, dans un modèle de régression linéaire standard avec étant iid et indépendant de , l'estimateur QR pour la pente

y=β0+βX+ε
εXβest cohérent pour la pente de la population (qui est unique et ne varie en aucun cas entre les quantiles). Autrement dit, l'objet à estimer est toujours le même, quel que soit le quantile. Certes, ce n'est pas le cas pour l'ordonnée à l'origine, puisque l'estimateur de l'ordonnée à l'origine QR vise à estimer un quantile particulier de la distribution d'erreur. Pris ensemble, je ne vois pas comment les différentes relations entre les variables sont censées être révélées à différents quantiles via le QR. Je suppose que c'est une propriété du modèle de régression linéaire standard plutôt qu'une erreur dans ma compréhension, mais je ne suis pas sûr.

Je suppose que la situation est différente lorsque certaines des hypothèses du modèle linéaire standard sont violées, par exemple sous certaines formes d'hétéroskédasticité conditionnelle. Alors peut-être que les estimateurs de pente QR convergent vers autre chose que la vraie pente du modèle linéaire et révèlent en quelque sorte des relations différentes à différents quantiles.

Qu'est-ce que je me trompe? Comment dois-je bien comprendre / interpréter l'affirmation selon laquelle la régression quantile révèle des relations différentes entre les variables à différents quantiles?

Richard Hardy
la source
1
Il existe de nombreuses façons de penser à QR. La première est qu'il s'agit d'un type de régression du noyau où les noyaux sont les quantiles. De cette façon, il s'agit d'une approche non paramétrique et robuste dans laquelle les solutions linéaires ne peuvent pas être supposées. Hyndman, et al, a proposé une régression quantique adaptative renforcée comme cadre global pour la modélisation basée sur QR. Copie non fermée ici ... robjhyndman.com/papers/sig-alternate.pdf
Mike Hunter
1
@DJohnson, merci. Je suppose que je suis trop influencé par l'article original Koenker et Bassett (1978) où la motivation est uniquement de trouver un estimateur de pente robuste dans le modèle linéaire standard plutôt que de susciter des relations différentes à différents quantiles.
Richard Hardy
Il ne fait aucun doute que des articles comme Koenker et Bassett ont un impact sur la façon dont les futurs analystes formulent une question. Un autre bon article sur QR est Le Cook and Manning's 2013, * Thinking Beyond the Mean: a practice guide for using quantile regression methods "... copie non fermée ici ... dash.harvard.edu/bitstream/handle/1/12406692/ ... FWIW ... mais leur objectif est les soins de santé ...
Mike Hunter

Réponses:

8

La "pente réelle" dans un modèle linéaire normal vous indique à quel point la réponse moyenne change grâce à une augmentation d'un point de . En supposant une normalité et une variance égales, tous les quantiles de la distribution conditionnelle de la réponse évoluent en conséquence. Parfois, ces hypothèses sont très irréalistes: la variance ou l'asymétrie de la distribution conditionnelle dépendent de et donc, ses quantiles se déplacent à leur propre vitesse lors de l'augmentation dexxx. En QR, vous le verrez immédiatement à partir d'estimations de pente très différentes. Étant donné que l'OLS ne se soucie que de la moyenne (c'est-à-dire du quantile moyen), vous ne pouvez pas modéliser chaque quantile séparément. Là, vous vous fondez entièrement sur l'hypothèse d'une forme fixe de la distribution conditionnelle lorsque vous faites des déclarations sur ses quantiles.

MODIFIER: Intégrer un commentaire et illustrer

Si vous êtes prêt à faire ces hypothèses solides, il n'y a pas grand intérêt à exécuter QR car vous pouvez toujours calculer les quantiles conditionnels via la moyenne conditionnelle et la variance fixe. Les pentes «vraies» de tous les quantiles seront égales à la pente vraie de la moyenne. Dans un échantillon spécifique, il y aura bien sûr des variations aléatoires. Ou vous pourriez même détecter que vos hypothèses strictes étaient fausses ...

Permettez-moi d'illustrer par un exemple en R. Il montre la ligne des moindres carrés (noir) puis en rouge les quantiles modélisés à 20%, 50% et 80% de données simulées selon la relation linéaire suivante sorte que non seulement la moyenne conditionnelle de dépend de mais aussi de la variance.

y=x+xε,εN(0,1) iid,
yxentrez la description de l'image ici
  • Les droites de régression de la moyenne et de la médiane sont essentiellement identiques en raison de la distribution conditionnelle symétrique. Leur pente est de 1.
  • La droite de régression du quantile de 80% est beaucoup plus raide (pente 1,9), tandis que la droite de régression du quantile de 20% est presque constante (pente 0,3). Cela convient bien à la variance extrêmement inégale.
  • Environ 60% de toutes les valeurs se trouvent dans les lignes rouges extérieures. Ils forment un intervalle de prévision simple et ponctuel de 60% à chaque valeur de .x

Le code pour générer l'image:

library(quantreg)

set.seed(3249)
n <- 1000
x <- seq(0, 1, length.out = n)
y <- rnorm(n, mean = x, sd = x)

plot(y~x)

(fit_lm <- lm(y~x)) # intercept: 0.02445, slope: 1.04858 
abline(fit_lm, lwd = 3)

# quantile cuts
taus <- c(0.2, 0.5, 0.8)

(fit_rq <- rq(y~x, tau = taus))
#               tau= 0.2      tau= 0.5    tau= 0.8
# (Intercept) 0.00108228 -0.0005110046 0.001089583
# x           0.29960652  1.0954521888 1.918622442

lapply(seq_along(taus), function(i) abline(coef(fit_rq)[, i], lwd = 2, lty = 2, col = "red"))
Michael M
la source
2
+1. Je pense que la partie cruciale est dans la variance ou l'asymétrie de l'erreur en fonction de , ce que j'ai essayé d'exclure en disant "modèle de régression linéaire standard". J'ai modifié mon article en conséquence pour le rendre plus clair. Concernant En supposant la normalité et une variance égale, tous les quantiles de la distribution conditionnelle de la réponse évoluent en fonction de cela , je suppose que l'hypothèse de normalité est redondante. x
Richard Hardy
2
Exactement. Si vous êtes prêt à faire ces hypothèses solides, il n'y a pas grand intérêt à exécuter QR car vous pouvez toujours calculer les quantiles conditionnels via la moyenne conditionnelle et la variance fixe. Les pentes «vraies» de tous les quantiles seront égales à la pente vraie de la moyenne. Dans l'échantillon, il y aura une variation aléatoire. Ou vous pourriez même détecter que vos hypothèses strictes étaient fausses ... ;-)
Michael M
Ça a du sens. Dans l'échantillon, je pense que les estimations de la pente QR pour différents quantiles seront probablement quelque peu étalées en ligne avec les quantiles. En effet, la fonction de perte minimisée entraînera l'estimateur de manière asymétrique d'un côté (la direction et l'ampleur de la traînée en fonction du quantile), bien que cet effet devienne de plus en plus asymptotique.
Richard Hardy
1
C'est une bonne réponse, et je vous en remercie, mais je me demande si vous pourriez illustrer avec un exemple simple comment le QR révèle des relations différentes à différents quantiles lorsque certaines des hypothèses standard (par exemple l'homoscédasticité) ne tiennent pas.
Richard Hardy
Le processus de génération de données est donc un modèle linéaire mais avec l'écart-type (variance?) De directement proportionnel à la moyenne de , non? Soit où ? L'épellation explicite du modèle dans la réponse serait très utile, à mon humble avis. xxy=x+xεεi.i.N(0,1)
Richard Hardy