J'espère obtenir une explication intuitive et accessible de la régression quantile.
Disons que j'ai un simple ensemble de données du résultat et des prédicteurs .
Si, par exemple, je lance une régression quantile à .25, .5, .75, et récupère .
Les valeurs trouvées simplement en ordonnant les valeurs et en effectuant une régression linéaire basée sur les exemples qui sont au / près du quantile donné?y
Ou tous les échantillons contribuent-ils aux estimations , avec des poids décroissants à mesure que la distance par rapport au quantile augmente?
Ou est-ce quelque chose de totalement différent? Je n'ai pas encore trouvé d'explication accessible.
quantile-regression
Jeremy
la source
la source
Réponses:
Je recommande Koenker & Hallock (2001, Journal of Economic Perspectives) et le manuel éponyme de Koenker .
Votre intuition est donc tout à fait correcte: tous les échantillons contribuent aux estimations , avec des poids asymétriques en fonction du quantile τ que nous visons.β τ
la source
foo <- sample(x=c(1,2,4,10),size=1e6,prob=c(.4,.2,.2,.2),replace=TRUE); xx <- seq(1,10,by=.1); plot(xx,sapply(xx,FUN=function(yy)mean(abs(yy-foo))),type="l")
L'idée de base de la régression quantile vient du fait que l'analyste s'intéresse à la distribution des données plutôt qu'à la simple moyenne des données. Commençons par la moyenne.
La régression moyenne ajuste une ligne de la forme de à la moyenne des données. En d'autres termes, E ( Y |y=Xβ . Une approche générale pour estimer cette ligne utilise la méthode des moindres carrés, arg min β ( y - x β ) ′ ( y - X β ) .E(Y|X=x)=xβ argminβ(y−xβ)′(y−Xβ)
Ici, vous avez fait une petite erreur, la régression Q n'est pas comme trouver un quantile de données puis ajuster une ligne à ce sous-ensemble (ou même les frontières qui sont plus difficiles).
Comme vous le voyez, cette fonction cible intelligente n'est rien d'autre que la traduction d'un quantile en un problème d'optimisation.
la source