Quand la régression quantile est-elle pire que l'OLS?

22

Mis à part certaines circonstances uniques où nous devons absolument comprendre la relation moyenne conditionnelle, quelles sont les situations où un chercheur devrait choisir l'OLS plutôt que la régression quantile?

Je ne veux pas que la réponse soit "s'il n'y a aucune utilité à comprendre les relations de queue", car nous pourrions simplement utiliser la régression médiane comme substitut de l'OLS.

Frank Harrell
la source
4
Je pense que la plupart des chercheurs apprécieraient à la fois la SLO et la régression quantile; les différences entre les méthodes mettraient en lumière ce que vous essayez de modéliser. En ce qui concerne OLS, si vous jetez des hypothèses de normalité, vous obtenez beaucoup de méthodologie de test assez bien documentée et approfondie qui est disponible dans la plupart des progiciels statistiques.
Jonathan Lisic

Réponses:

18

Si vous êtes intéressé par la moyenne, utilisez OLS, si dans la médiane, utilisez quantile.

Une grande différence est que la moyenne est plus affectée par les valeurs aberrantes et autres données extrêmes. Parfois, c'est ce que tu veux. Par exemple, si votre variable dépendante est le capital social dans un quartier. La présence d'une personne seule avec beaucoup de capital social peut être très importante pour tout le quartier.

Peter Flom - Réintégrer Monica
la source
6
Permettez-moi de contester votre première phrase. L'OLS et la régression quantile (QR) estiment tous deux pour un processus de génération de données y = X β + ε . Si la distribution des erreurs a des queues lourdes, β Q R est plus efficace que β O L S . Quel que soit le moment de la distribution conditionnelle P ( y | X )βy=Xβ+εβ^QRβ^OLSP(y|X) nous intéresse, il faut utiliser l'une des β O L S et β Q Rβ^OLSβ^QRc'est plus efficace.
Richard Hardy
Suite à la critique de @RichardHardy de cette réponse la médiane est seulement l' un des quantiles qui sont estimables. Cet article de Hyndman présente une approche qu'il appelle la stimulation de la régression additive quantile qui explore une gamme complète de quantiles, Forecasting Uncertainty in Electricity Smart Meter Data by Boosting Additive Quantile Regression ( ieeexplore.ieee.org/document/7423794 ).
Mike Hunter
15

Il semble y avoir une confusion dans la prémisse de la question. Dans le deuxième paragraphe, il est dit: "nous pourrions simplement utiliser la régression médiane comme substitut OLS". Notez que régresser la médiane conditionnelle sur X est (une forme de) régression quantile.

Si l'erreur dans le processus de génération de données sous-jacent est normalement distribuée (ce qui peut être évalué en vérifiant si les résidus sont normaux), alors la moyenne conditionnelle est égale à la médiane conditionnelle. De plus, tout quantile qui pourrait vous intéresser (par exemple, le 95e centile ou le 37e centile), peut être déterminé pour un point donné de la dimension X avec des méthodes OLS standard. Le principal attrait de la régression quantile est qu'elle est plus robuste que l'OLS. L'inconvénient est que si toutes les hypothèses sont remplies, il sera moins efficace (c'est-à-dire que vous aurez besoin d'un échantillon plus grand pour obtenir la même puissance / vos estimations seront moins précises).

gung - Réintégrer Monica
la source
12

L'OLS et la régression quantile (QR) sont des techniques d'estimation pour estimer le vecteur de coefficient β

y=Xβ+ε

β^QRβ^OLSβ^OLSPY(y|X)β^OLSβ^QR

β^OLSβ^QRβ^OLSβ^QR

Les références:

  • Koenker, Roger et Gilbert Bassett Jr. «Quantiles de régression». Econometrica: Journal of the Econometric Society (1978): 33-50.
Richard Hardy
la source
3

Peter Flom a eu une réponse excellente et concise, je veux juste la développer. La partie la plus importante de la question est de savoir comment définir le «pire».

Afin de définir le pire, nous avons besoin de quelques mesures et de la fonction pour calculer la qualité des fonctions des pertes.

Nous pouvons avoir différentes définitions de la fonction de perte, et il n'y a pas de bien ou de mal sur chaque définition, mais des définitions différentes répondent à des besoins différents. Deux fonctions de perte bien connues sont la perte au carré et la perte de valeur absolue.

Lsq(y,y^)=i(yiy^i)2
Labs(y,y^)=i|yiy^i|

Si nous utilisons la perte au carré comme mesure du succès, la régression quantile sera pire que l'OLS. En revanche, si nous utilisons la perte de valeur absolue, la régression quantile sera meilleure.

Quelle est la réponse de Peter Folm:

Si vous êtes intéressé par la moyenne, utilisez OLS, si dans la médiane, utilisez quantile.

Haitao Du
la source
Je pense que votre exemple peut être trompeur car il traite de l'ajustement dans l'échantillon (ce qui est peu intéressant car nous connaissons déjà parfaitement notre échantillon) plutôt que la perte attendue pour de nouvelles observations (lorsque l'objectif est la prédiction) ou la perte d'estimation du vecteur de paramètre ( quand le but est l'explication). Voir peut commenter sous la réponse de Peter Flom et ma réponse pour plus de détails.
Richard Hardy
3

Y2π

Si vous voulez estimer la moyenne, vous ne pouvez pas l'obtenir à partir de la régression quantile.

Si vous souhaitez estimer la moyenne et les quantiles avec des hypothèses minimales (mais plus d'hypothèses que la régression quantile) mais avoir plus d'efficacité, utilisez la régression ordinale semi-paramétrique. Cela vous donne également des probabilités de dépassement. Une étude de cas détaillée est dans mon notes de cours RMS où il est montré sur un ensemble de données que l'erreur moyenne moyenne d'estimation absolue sur plusieurs paramètres (quantiles et moyenne) est obtenue par régression ordinale. Mais pour juste estimer la moyenne, l'OLS est la meilleure et pour juste estimer les quantiles, la régression quantile était la meilleure.

Y

Frank Harrell
la source