Quels sont les avantages de la régression linéaire par rapport à la régression quantile?

15

Le modèle de régression linéaire fait un tas d'hypothèses que la régression quantile ne fait pas et, si les hypothèses de régression linéaire sont remplies, mon intuition (et une expérience très limitée) est que la régression médiane donnerait des résultats presque identiques à la régression linéaire.

Quels sont donc les avantages de la régression linéaire? C'est certainement plus familier, mais à part ça?

Peter Flom - Réintégrer Monica
la source
3
Pour `` plus familier '', j'ajouterais `` interprétabilité '' et `` stabilité '', mais pour moi, l'un des avantages de la régression linéaire est ce qu'elle vous dit sur la moyenne et à quel point cette moyenne représente la population de l'échantillon (les résidus sont très informatifs) . La régression linéaire a autant de valeur lorsque ses hypothèses sont remplies et de bonne valeur lorsqu'elles ne le sont pas.
JustGettinStarted
5
Je dirais qu'un problème important a été discuté dans ces deux fils: stats.stackexchange.com/questions/153348/… et stats.stackexchange.com/questions/146077/… - l'efficacité, et peut-être même l'optimalité dans certains hypothèses
Christoph Hanck
1
Autre point, mais mineur, on pourrait peut-être ajouter la disponibilité de solutions explicites sous forme fermée qui ne sont pas disponibles, par exemple, pour la DAL, ce qui peut rendre ces techniques moins attrayantes pour les praticiens.
Christoph Hanck
1
Une réponse pourrait être comme comparer le cas simple d'estimation d'un paramètre de population unique, puis montrer que les erreurs les moins quadratiques fonctionnent mieux avec les erreurs gaussiennes et que les résidus les moins absolus (en utilisant également des hypothèses) fonctionnent mieux pour différents types d'erreurs. Mais alors, cette question concerne des modèles linéaires plus complexes et le problème commence à être plus complexe et plus large. L'intuition du problème simple (estimation d'une moyenne / médiane unique) fonctionne pour un modèle plus grand, mais de combien devrait-il être calculé? Et comment comparer, robustesse aux valeurs aberrantes, distributions, calcul?
Sextus Empiricus
2
Dans mon cas, j'ai trouvé la régression quantile beaucoup plus agréable à expliquer aux personnes non techniques lorsque la variable de réponse est biaisée (par exemple, les dépenses des clients) et l'introduction d'une étape de transformation / fonction de lien obscurcit toute l'analyse. En ce sens, je contesterais l'affirmation «la régression médiane donnerait des résultats presque identiques à la régression linéaire » comme étant un peu simplificatrice; ce n'est pas le cas, en particulier lorsqu'il s'agit de variables de réponse potentiellement asymétriques.
usεr11852 dit Réintégrer Monic

Réponses:

10

Il est très souvent indiqué que la minimisation des résidus les moins carrés est préférable à la minimisation des résidus absolus en raison de sa simplicité de calcul . Mais cela peut aussi être mieux pour d'autres raisons. À savoir, si les hypothèses sont vraies (et ce n'est pas si rare), cela fournit une solution qui est (en moyenne) plus précise.

Plausibilité maximum

La régression des moindres carrés et la régression quantile (lorsqu'elles sont effectuées en minimisant les résidus absolus) peuvent être considérées comme maximisant la fonction de vraisemblance pour les erreurs distribuées gaussiennes / Laplace, et sont en ce sens très liées.

  • Distribution gaussienne:

    f(x)=12πσ2e(xμ)22σ2

    la log-vraisemblance étant maximisée lors de la minimisation de la somme des résidus au carré

    logL(x)=n2log(2π)nlog(σ)12σ2i=1n(xiμ)2sum of squared residuals

  • Distribution Laplace:

    f(x)=12be|xμ|b

    la log-vraisemblance étant maximisée lors de la minimisation de la somme des résidus absolus

    logL(x)=nlog(2)nlog(b)1bi=1n|xiμ|sum of absolute residuals

Remarque: la distribution de Laplace et la somme des résidus absolus se rapportent à la médiane, mais elle peut être généralisée à d'autres quantiles en donnant différents poids aux résidus négatifs et positifs.

Répartition des erreurs connues

Lorsque nous connaissons la distribution d'erreur (lorsque les hypothèses sont vraisemblablement vraies), il est logique de choisir la fonction de vraisemblance associée. Minimiser cette fonction est plus optimal.

Très souvent, les erreurs sont distribuées (approximativement) normalement. Dans ce cas, l'utilisation des moindres carrés est la meilleure façon de trouver le paramètre μ (qui se rapporte à la fois à la moyenne et à la médiane). C'est le meilleur moyen car il présente la variance d'échantillon la plus faible (la plus faible de tous les estimateurs sans biais ). Ou vous pouvez dire plus fortement: qu'il est stochastiquement dominant (voir l'illustration dans cette question comparant la distribution de la médiane de l'échantillon et la moyenne de l'échantillon).

Ainsi, lorsque les erreurs sont réparties normalement, la moyenne de l'échantillon est un meilleur estimateur de la médiane de distribution que la médiane de l'échantillon . La régression des moindres carrés est un estimateur plus optimal des quantiles. C'est mieux que d'utiliser la moindre somme de résidus absolus.

Étant donné que de nombreux problèmes concernent des erreurs distribuées normales, l'utilisation de la méthode des moindres carrés est très populaire. Pour travailler avec d'autres types de distributions, on peut utiliser le modèle linéaire généralisé . Et, la méthode des moindres carrés itératifs, qui peut être utilisée pour résoudre les GLM, fonctionne également pour la distribution de Laplace (c'est-à-dire pour les écarts absolus ), ce qui équivaut à trouver la médiane (ou dans la version généralisée d'autres quantiles).

Distribution des erreurs inconnue

Robustesse

La médiane ou d'autres quantiles ont l'avantage d'être très robustes quant au type de distribution. Les valeurs réelles importent peu et les quantiles ne se soucient que de l'ordre. Quelle que soit la distribution, minimiser les résidus absolus (ce qui équivaut à trouver les quantiles) fonctionne très bien.

La question devient ici complexe et large et dépend du type de connaissances que nous avons ou n'avons pas sur la fonction de distribution. Par exemple, une distribution peut être distribuée approximativement normalement, mais uniquement avec des valeurs aberrantes supplémentaires. Cela peut être résolu en supprimant les valeurs externes. Cette suppression des valeurs extrêmes fonctionne même pour estimer le paramètre de localisation de la distribution de Cauchy où la moyenne tronquée peut être un meilleur estimateur que la médiane. Donc, non seulement pour la situation idéale lorsque les hypothèses se vérifient, mais aussi pour certaines applications moins idéales (par exemple, des valeurs aberrantes supplémentaires), il pourrait y avoir de bonnes méthodes robustes qui utilisent toujours une certaine forme d'une somme de résidus carrés au lieu d'une somme de résidus absolus.

J'imagine que la régression avec des résidus tronqués pourrait être beaucoup plus complexe sur le plan informatique. Il peut donc s'agir en fait d'une régression quantile qui est le type de régression qui est effectuée en raison de sa simplicité de calcul (pas plus simple que les moindres carrés ordinaires, mais plus simple que les moindres carrés tronqués ).

Biais / impartial

Un autre problème est celui des estimateurs biaisés et non biaisés. Dans ce qui précède, j'ai décrit l'estimation du maximum de vraisemblance pour la moyenne, c'est-à-dire la solution des moindres carrés, comme un estimateur bon ou préférable car il présente souvent la variance la plus faible de tous les estimateurs sans biais (lorsque les erreurs sont distribuées normalement). Mais, les estimateurs biaisés peuvent être meilleurs (somme attendue inférieure de l'erreur quadratique).

Cela rend la question à nouveau large et complexe. Il existe de nombreux estimateurs différents et de nombreuses situations différentes pour les appliquer. L'utilisation d'une fonction de somme de perte de résidus au carré adaptée fonctionne souvent bien pour réduire l'erreur (par exemple toutes sortes de méthodes de régularisation), mais elle peut ne pas avoir besoin de bien fonctionner dans tous les cas. Intuitivement, il n'est pas étrange d'imaginer que, puisque la fonction de perte de la somme des résidus au carré fonctionne souvent bien pour tous les estimateurs sans biais, les estimateurs biaisés optimaux sont probablement quelque chose de proche d'une somme de la fonction de perte du résidu au carré.

Sextus Empiricus
la source
Lorsque nous connaissons la distribution d'erreur, il est logique de choisir la fonction de vraisemblance associée. Minimiser cette fonction est plus optimal. Pour ne pas dire que c'est faux, mais devrait probablement être qualifié. Bien sûr, cela concerne encore une fois ma question (à laquelle vous avez répondu) sur les estimateurs optimaux sous différentes fonctions de perte.
Richard Hardy
C'est le meilleur moyen car il présente la variance d'échantillon la plus faible. La variance n'est généralement pas une fonction de perte sensible car elle néglige le biais; une contrepartie sensible serait une erreur quadratique (aka erreur quadratique moyenne) qui tient compte à la fois de la variance et du biais. La régression des moindres carrés est un estimateur plus optimal des quantiles. Médiane - oui, mais d'autres? Et si oui, alors pourquoi? En tout cas, la vôtre est une très belle réponse!
Richard Hardy
1
@RichardHardy ce sujet est si large. En effet l'erreur = variance + biais. J'ai supposé que le biais de la moyenne de l'échantillon est le même que la médiane de l'échantillon (ou plus généralement: la plus petite somme des résidus au carré et la plus petite somme des résidus absolus ont le même biais). Cela est vrai compte tenu de diverses distributions d'erreurs (par exemple, les distributions d'erreurs symétriques), mais en effet, les questions deviennent plus complexes pour d'autres cas. (le point était principalement que les erreurs sont souvent distribuées normalement et cela rend la régression des moindres carrés favorable)
Sextus Empiricus
1
La même chose (la complexité de la question) est vraie lorsque nous ne considérons pas la médiane, mais plutôt un autre quantile. Dans le cas d'erreurs distribuées normales, je crois que le MLE donne le meilleur résultat pour n'importe quel quantile, mais je conviens que c'est l'intuition. Là encore, le problème est très large (dépendance du nombre d'échantillons, type de distribution des erreurs et certitude à ce sujet, etc.).
Sextus Empiricus
1
une horloge cassée a exactement raison deux fois par jour, je n'appellerais pas le MLE une horloge cassée. Bien sûr, lorsque vous connaissez bien le problème, vous pouvez introduire un biais de réduction de la variance pour améliorer l'erreur globale. Cela ne passe pas nécessairement à un type de régression différent (quantile), vous pouvez également simplement mettre de la confiture ou du miel sur les moindres carrés de pain et de beurre. Si vous souhaitez comparer le MLE à une horloge cassée, c'est une horloge qui se trouve immobile à l'heure que nous utilisons le plus.
Sextus Empiricus
2

La régression linéaire (LR) se résume à l'optimisation des moindres carrés lors du calcul de ses coefficients. Cela implique une symétrie dans les écarts par rapport au modèle de régression. Une bonne explication de la régression quantile (QR) se trouve dans https://data.library.virginia.edu/getting-started-with-quantile-regression/ .

Si les hypothèses LR (nécessaires pour l'inférence: valeurs de p, intervalles de confiance, etc.) sont satisfaites, les prédictions QR et LR seront similaires. Mais si les hypothèses sont fortement violées, votre inférence LR standard sera erronée. Une régression de 0,5 quantile (médiane) présente donc un avantage sur LR. Il donne également plus de flexibilité pour fournir une régression pour d'autres quantiles. L'équivalent pour les modèles linéaires serait une borne de confiance calculée à partir d'un LR (bien que ce serait faux si iid est fortement violé).

Alors, quel est l'avantage de LR? Bien sûr, il est plus facile à calculer, mais si votre ensemble de données est de taille raisonnable, cela peut ne pas être très visible. Mais plus important encore, les hypothèses d'inférence LR fournissent des informations qui réduisent l'incertitude. Par conséquent, les intervalles de confiance LR sur les prévisions seront généralement plus étroits. Donc, s'il existe un solide soutien théorique pour les hypothèses, des intervalles de confiance plus étroits peuvent être un avantage.

George Ostrouchov
la source
2

La régression linéaire est utilisée pour estimer la réponse moyenne conditionnelle compte tenu des données, c.-à-d. E(Oui|X)Oui est la réponse et Xsont les données. La régression nous dit queE(Oui|X)=Xβ. Il existe certaines hypothèses (vous pouvez les trouver dans n'importe quel texte de statistiques) pour que l'inférence soit valide. Si ceux-ci sont satisfaits, alors généralement l'estimateur standard pourβ est le BLEU (meilleur estimateur linéaire sans biais - voir le théorème de Gauss-Markov).

La régression quantile peut être utilisée pour estimer TOUT quantile de la distribution conditionnelle, y compris la médiane. Cela fournit potentiellement beaucoup plus d'informations que la moyenne sur la distribution conditionnelle. Si la distribution conditionnelle n'est pas symétrique ou si les queues sont peut-être épaisses (par exemple analyse des risques), la régression quantile est utile MÊME si toutes les hypothèses de régression linéaire sont satisfaites.

Bien sûr, il est numériquement plus intensif d'effectuer une estimation quantile par rapport à la régression linéaire, mais il est généralement beaucoup plus robuste (par exemple, tout comme la médiane est plus robuste que la moyenne aux valeurs aberrantes). De plus, il est approprié lorsque la régression linéaire ne l'est pas - par exemple pour les données censurées. L'inférence peut être plus délicate car l'estimation directe de la matrice de variance-covariance peut être difficile ou coûteuse en calcul. Dans ces cas, on peut bootstrap.

Kruggles
la source