Le modèle de régression linéaire fait un tas d'hypothèses que la régression quantile ne fait pas et, si les hypothèses de régression linéaire sont remplies, mon intuition (et une expérience très limitée) est que la régression médiane donnerait des résultats presque identiques à la régression linéaire.
Quels sont donc les avantages de la régression linéaire? C'est certainement plus familier, mais à part ça?
regression
multiple-regression
quantile-regression
Peter Flom - Réintégrer Monica
la source
la source
Réponses:
Il est très souvent indiqué que la minimisation des résidus les moins carrés est préférable à la minimisation des résidus absolus en raison de sa simplicité de calcul . Mais cela peut aussi être mieux pour d'autres raisons. À savoir, si les hypothèses sont vraies (et ce n'est pas si rare), cela fournit une solution qui est (en moyenne) plus précise.
Plausibilité maximum
La régression des moindres carrés et la régression quantile (lorsqu'elles sont effectuées en minimisant les résidus absolus) peuvent être considérées comme maximisant la fonction de vraisemblance pour les erreurs distribuées gaussiennes / Laplace, et sont en ce sens très liées.
Distribution gaussienne:
la log-vraisemblance étant maximisée lors de la minimisation de la somme des résidus au carré
Distribution Laplace:
la log-vraisemblance étant maximisée lors de la minimisation de la somme des résidus absolus
Remarque: la distribution de Laplace et la somme des résidus absolus se rapportent à la médiane, mais elle peut être généralisée à d'autres quantiles en donnant différents poids aux résidus négatifs et positifs.
Répartition des erreurs connues
Lorsque nous connaissons la distribution d'erreur (lorsque les hypothèses sont vraisemblablement vraies), il est logique de choisir la fonction de vraisemblance associée. Minimiser cette fonction est plus optimal.
Très souvent, les erreurs sont distribuées (approximativement) normalement. Dans ce cas, l'utilisation des moindres carrés est la meilleure façon de trouver le paramètreμ (qui se rapporte à la fois à la moyenne et à la médiane). C'est le meilleur moyen car il présente la variance d'échantillon la plus faible (la plus faible de tous les estimateurs sans biais ). Ou vous pouvez dire plus fortement: qu'il est stochastiquement dominant (voir l'illustration dans cette question comparant la distribution de la médiane de l'échantillon et la moyenne de l'échantillon).
Ainsi, lorsque les erreurs sont réparties normalement, la moyenne de l'échantillon est un meilleur estimateur de la médiane de distribution que la médiane de l'échantillon . La régression des moindres carrés est un estimateur plus optimal des quantiles. C'est mieux que d'utiliser la moindre somme de résidus absolus.
Étant donné que de nombreux problèmes concernent des erreurs distribuées normales, l'utilisation de la méthode des moindres carrés est très populaire. Pour travailler avec d'autres types de distributions, on peut utiliser le modèle linéaire généralisé . Et, la méthode des moindres carrés itératifs, qui peut être utilisée pour résoudre les GLM, fonctionne également pour la distribution de Laplace (c'est-à-dire pour les écarts absolus ), ce qui équivaut à trouver la médiane (ou dans la version généralisée d'autres quantiles).
Distribution des erreurs inconnue
Robustesse
La médiane ou d'autres quantiles ont l'avantage d'être très robustes quant au type de distribution. Les valeurs réelles importent peu et les quantiles ne se soucient que de l'ordre. Quelle que soit la distribution, minimiser les résidus absolus (ce qui équivaut à trouver les quantiles) fonctionne très bien.
La question devient ici complexe et large et dépend du type de connaissances que nous avons ou n'avons pas sur la fonction de distribution. Par exemple, une distribution peut être distribuée approximativement normalement, mais uniquement avec des valeurs aberrantes supplémentaires. Cela peut être résolu en supprimant les valeurs externes. Cette suppression des valeurs extrêmes fonctionne même pour estimer le paramètre de localisation de la distribution de Cauchy où la moyenne tronquée peut être un meilleur estimateur que la médiane. Donc, non seulement pour la situation idéale lorsque les hypothèses se vérifient, mais aussi pour certaines applications moins idéales (par exemple, des valeurs aberrantes supplémentaires), il pourrait y avoir de bonnes méthodes robustes qui utilisent toujours une certaine forme d'une somme de résidus carrés au lieu d'une somme de résidus absolus.
J'imagine que la régression avec des résidus tronqués pourrait être beaucoup plus complexe sur le plan informatique. Il peut donc s'agir en fait d'une régression quantile qui est le type de régression qui est effectuée en raison de sa simplicité de calcul (pas plus simple que les moindres carrés ordinaires, mais plus simple que les moindres carrés tronqués ).
Biais / impartial
Un autre problème est celui des estimateurs biaisés et non biaisés. Dans ce qui précède, j'ai décrit l'estimation du maximum de vraisemblance pour la moyenne, c'est-à-dire la solution des moindres carrés, comme un estimateur bon ou préférable car il présente souvent la variance la plus faible de tous les estimateurs sans biais (lorsque les erreurs sont distribuées normalement). Mais, les estimateurs biaisés peuvent être meilleurs (somme attendue inférieure de l'erreur quadratique).
Cela rend la question à nouveau large et complexe. Il existe de nombreux estimateurs différents et de nombreuses situations différentes pour les appliquer. L'utilisation d'une fonction de somme de perte de résidus au carré adaptée fonctionne souvent bien pour réduire l'erreur (par exemple toutes sortes de méthodes de régularisation), mais elle peut ne pas avoir besoin de bien fonctionner dans tous les cas. Intuitivement, il n'est pas étrange d'imaginer que, puisque la fonction de perte de la somme des résidus au carré fonctionne souvent bien pour tous les estimateurs sans biais, les estimateurs biaisés optimaux sont probablement quelque chose de proche d'une somme de la fonction de perte du résidu au carré.
la source
La régression linéaire (LR) se résume à l'optimisation des moindres carrés lors du calcul de ses coefficients. Cela implique une symétrie dans les écarts par rapport au modèle de régression. Une bonne explication de la régression quantile (QR) se trouve dans https://data.library.virginia.edu/getting-started-with-quantile-regression/ .
Si les hypothèses LR (nécessaires pour l'inférence: valeurs de p, intervalles de confiance, etc.) sont satisfaites, les prédictions QR et LR seront similaires. Mais si les hypothèses sont fortement violées, votre inférence LR standard sera erronée. Une régression de 0,5 quantile (médiane) présente donc un avantage sur LR. Il donne également plus de flexibilité pour fournir une régression pour d'autres quantiles. L'équivalent pour les modèles linéaires serait une borne de confiance calculée à partir d'un LR (bien que ce serait faux si iid est fortement violé).
Alors, quel est l'avantage de LR? Bien sûr, il est plus facile à calculer, mais si votre ensemble de données est de taille raisonnable, cela peut ne pas être très visible. Mais plus important encore, les hypothèses d'inférence LR fournissent des informations qui réduisent l'incertitude. Par conséquent, les intervalles de confiance LR sur les prévisions seront généralement plus étroits. Donc, s'il existe un solide soutien théorique pour les hypothèses, des intervalles de confiance plus étroits peuvent être un avantage.
la source
La régression linéaire est utilisée pour estimer la réponse moyenne conditionnelle compte tenu des données, c.-à-d.E( Y| X) où Oui est la réponse et X sont les données. La régression nous dit queE( Y| X) = Xβ . Il existe certaines hypothèses (vous pouvez les trouver dans n'importe quel texte de statistiques) pour que l'inférence soit valide. Si ceux-ci sont satisfaits, alors généralement l'estimateur standard pourβ est le BLEU (meilleur estimateur linéaire sans biais - voir le théorème de Gauss-Markov).
La régression quantile peut être utilisée pour estimer TOUT quantile de la distribution conditionnelle, y compris la médiane. Cela fournit potentiellement beaucoup plus d'informations que la moyenne sur la distribution conditionnelle. Si la distribution conditionnelle n'est pas symétrique ou si les queues sont peut-être épaisses (par exemple analyse des risques), la régression quantile est utile MÊME si toutes les hypothèses de régression linéaire sont satisfaites.
Bien sûr, il est numériquement plus intensif d'effectuer une estimation quantile par rapport à la régression linéaire, mais il est généralement beaucoup plus robuste (par exemple, tout comme la médiane est plus robuste que la moyenne aux valeurs aberrantes). De plus, il est approprié lorsque la régression linéaire ne l'est pas - par exemple pour les données censurées. L'inférence peut être plus délicate car l'estimation directe de la matrice de variance-covariance peut être difficile ou coûteuse en calcul. Dans ces cas, on peut bootstrap.
la source