Comment fonctionne la régression quantile?

25

J'espère obtenir une explication intuitive et accessible de la régression quantile.

Disons que j'ai un simple ensemble de données du résultat Y et des prédicteurs X1,X2 .

Si, par exemple, je lance une régression quantile à .25, .5, .75, et récupère .β0,.25,β1,.25...β2,.75

Les valeurs trouvées simplement en ordonnant les valeurs et en effectuant une régression linéaire basée sur les exemples qui sont au / près du quantile donné?yβy

Ou tous les échantillons contribuent-ils aux estimations , avec des poids décroissants à mesure que la distance par rapport au quantile augmente?β

Ou est-ce quelque chose de totalement différent? Je n'ai pas encore trouvé d'explication accessible.

Jeremy
la source
3
En ce qui concerne les mathématiques, vous pourriez trouver ces deux réponses utiles: stats.stackexchange.com/questions/102906/… , stats.stackexchange.com/questions/88387/…
Andy

Réponses:

21

Je recommande Koenker & Hallock (2001, Journal of Economic Perspectives) et le manuel éponyme de Koenker .

  1. Le point de départ est l'observation que la médiane d'un ensemble de données minimise la somme des erreurs absolues . Autrement dit, le quantile à 50% est une solution à un problème d'optimisation particulier (pour trouver la valeur qui minimise la somme des erreurs absolues).
  2. À partir de cela, il est facile de trouver que tout -quantile est la solution à un problème de minimisation spécifique, à savoir minimiser une somme d' erreurs absolues pondérées asymétriquement , avec des poids qui dépendent de τ .ττ
  3. Enfin, pour passer à la régression, nous modélisons la solution à ce problème de minimisation sous la forme d'une combinaison linéaire de variables prédictives.Le problème consiste donc maintenant à trouver non pas une valeur unique, mais un ensemble de paramètres de régression.

Votre intuition est donc tout à fait correcte: tous les échantillons contribuent aux estimations , avec des poids asymétriques en fonction du quantile τ que nous visons.βτ

S. Kolassa - Réintégrer Monica
la source
En ce qui concerne votre point 1), cela ne serait-il pas vrai uniquement en supposant que Y est distribué symétriquement? Si Y est asymétrique comme {1, 1, 2, 4, 10}, la médiane 2 ne minimiserait certainement pas l'erreur absolue. La régression quantile suppose-t-elle toujours que Y est symétriquement distribué? Merci!
Ben
1
@Ben: non, la symétrie n'est pas requise. Le point clé est que la médiane minimise l' erreur absolue attendue . Si vous avez une distribution discrète avec des valeurs 1, 2, 4, 10 et des probabilités 0,4, 0,2, 0,2, 0,2, alors un résumé ponctuel de 2 minimise en effet l' erreur absolue attendue . Une simulation n'est que quelques lignes de code R:foo <- sample(x=c(1,2,4,10),size=1e6,prob=c(.4,.2,.2,.2),replace=TRUE); xx <- seq(1,10,by=.1); plot(xx,sapply(xx,FUN=function(yy)mean(abs(yy-foo))),type="l")
S. Kolassa - Reinstate Monica
(Et oui, j'aurais dû être plus clair dans ma réponse, au lieu de discuter des "sommes".)
S. Kolassa - Réinstallez Monica le
Derp. À quoi je pensais. Cela a du sens maintenant, merci.
Ben
19

L'idée de base de la régression quantile vient du fait que l'analyste s'intéresse à la distribution des données plutôt qu'à la simple moyenne des données. Commençons par la moyenne.

La régression moyenne ajuste une ligne de la forme de à la moyenne des données. En d'autres termes, E ( Y |y=Xβ . Une approche générale pour estimer cette ligne utilise la méthode des moindres carrés, arg min β ( y - x β ) ( y - X β ) .E(Y|X=x)=xβargminβ(yxβ)(yXβ)

argminβ|yXβ||.|

α

Ici, vous avez fait une petite erreur, la régression Q n'est pas comme trouver un quantile de données puis ajuster une ligne à ce sous-ensemble (ou même les frontières qui sont plus difficiles).

α

β^α=argminβ{α|yXβ|I(y>Xβ)+(1α)|yXβ|I(y<Xβ)}.

Comme vous le voyez, cette fonction cible intelligente n'est rien d'autre que la traduction d'un quantile en un problème d'optimisation.

βα

TPArrow
la source
Cette réponse est brillante.
Jinhua Wang