Quelles sont les hypothèses de régression des crêtes et comment les tester?

21

Considérons le modèle standard de régression multiple où , donc la normalité, l'homoscédasticité et la non corrélation des erreurs sont toutes valables.

Y=Xβ+ε
εN(0,σ2In)

Supposons que nous effectuons une régression de crête, en ajoutant la même petite quantité à tous les éléments de la diagonale de :X

βridge=[XX+kI]1XY

Il existe certaines valeurs de pour lesquelles le coefficient de crête a moins d’erreur quadratique moyenne que celles obtenues par OLS, bien que soit un estimateur biaisé de . En pratique, est obtenu par validation croisée.kβridgeβk

Voici ma question: quelles sont les hypothèses sous-jacentes au modèle de crête? Pour être plus concret,

  1. Toutes les hypothèses des moindres carrés ordinaires (OLS) sont-elles valables avec la régression de crête?

  2. Si oui à la question 1, comment testons-nous l'homoscédasticité et le manque d'autocorrélation avec un estimateur biaisé de ?β

  3. Existe-t-il des travaux pour tester d'autres hypothèses OLS (homoscédasticité et absence d'autocorrélation) sous régression de crête?

akyves
la source
6
Veuillez noter qu'OLS ne suppose pas que les prédicteurs sont indépendants. Seules certaines méthodes ou formules de solution particulières font de telles hypothèses. Ce qui est important, c'est la façon dont vous sélectionnez le multiplicateur de régression de crête, et non le fait que l'estimation de pourrait être biaisée. Si ce multiplicateur est sélectionné en observant une trace de crête, vous n'avez pas vraiment de moyen de quantifier les incertitudes, ce qui remet en question la plupart des tests de diagnostic formels de la théorie de la régression linéaire. Cela m'amène à vous demander ce que vous entendez réellement par «régression de crête»: comment estimez-vous exactement son paramètre? β
whuber
Je me trompe peut-être, mais en considérant le modèle standard de régression multiple . Et si n'est pas de rang complet, cela conduit à une matrice non inversible , surtout en cas de dimension élevée de X. J'ai édité ma question. Merci. βOLS=(XX)1XYXXX
akyves
1
La régression linéaire peut parfaitement gérer la colinéarité, tant qu'elle n'est pas "trop ​​grande".
jona
3
Ce n'est pas le modèle de régression multiple: ce n'est qu'une façon d'exprimer l'estimation des moindres carrés. Lorsque n'est pas inversible, les équations normales ont toujours des solutions et (généralement) le modèle a toujours un ajustement unique , ce qui signifie qu'il fait des prédictions uniques. XX
whuber

Réponses:

21

Qu'est-ce qu'une hypothèse d'une procédure statistique?

Je ne suis pas un statisticien et donc cela pourrait être faux, mais je pense que le mot "hypothèse" est souvent utilisé de manière informelle et peut faire référence à diverses choses. Pour moi, une "hypothèse" est, à proprement parler, quelque chose que seul un résultat théorique (théorème) peut avoir.

Lorsque les gens parlent d'hypothèses de régression linéaire ( voir ici pour une discussion approfondie), ils se réfèrent généralement au théorème de Gauss-Markov qui dit que sous des hypothèses d'erreurs à moyenne nulle non corrélées et à variance égale, l'estimation OLS est BLEUE , c'est-à-dire sans biais et avec une variance minimale. En dehors du contexte du théorème de Gauss-Markov, il n'est pas clair pour moi ce qu'une "hypothèse de régression" signifierait même.

De même, les hypothèses d'un, disons, un échantillon test t se référer aux hypothèses dans lesquelles -statistic est - t -distributed et par conséquent l'inférence est valide. Ce n'est pas appelé un "théorème", mais c'est un résultat mathématique clair: si n échantillons sont normalement distribués, alors la statistique t suivra la distribution t de Student avec n - 1 degrés de liberté.ttnttn1

Hypothèses des techniques de régression pénalisées

Considérons maintenant toute technique de régression régularisée: régression de crête, lasso, filet élastique, régression des composantes principales, régression des moindres carrés partiels, etc. etc. Le but de ces méthodes est de faire une estimation biaisée des paramètres de régression, et en espérant réduire le perte en exploitant le compromis biais-variance.

Toutes ces méthodes incluent un ou plusieurs paramètres de régularisation et aucune d'entre elles n'a de règle définie pour sélectionner les valeurs de ces paramètres. La valeur optimale est généralement trouvée via une sorte de procédure de validation croisée, mais il existe différentes méthodes de validation croisée et elles peuvent donner des résultats quelque peu différents. De plus, il n'est pas rare d'invoquer quelques règles de base supplémentaires en plus de la validation croisée. En conséquence, le résultat réel β de l' une de ces méthodes de régression est pénalisée pas réellement entièrement défini par la méthode, mais peut dépendre des choix de l'analyste.β^

β^

Mais qu'en est-il du résultat mathématique que la régression de crête bat toujours OLS?

Hoerl et Kennard (1970) dans Ridge Regression: Bided Estimation for Nonorthogonal Problems ont prouvé qu'il existe toujours une valeur du paramètre de régularisation telle que l'estimation de régression de crête de β a une perte attendue strictement inférieure à l'estimation de l'OLS. C'est un résultat surprenant - voir ici pour une discussion, mais cela prouve seulement l'existence d'un tel λ , qui dépendra de l'ensemble de données.λβλ

Ce résultat ne nécessite en fait aucune hypothèse et est toujours vrai, mais il serait étrange de prétendre que la régression de crête ne comporte aucune hypothèse.

D'accord, mais comment savoir si je peux appliquer une régression de crête ou non?

Je dirais que même si nous ne pouvons pas parler d'hypothèses, nous pouvons parler de règles générales . Il est bien connu que la régression des crêtes a tendance à être plus utile en cas de régression multiple avec des prédicteurs corrélés. Il est bien connu qu'il a tendance à surperformer l'OLS, souvent par une grande marge. Il aura tendance à le surpasser même en cas d'hétéroscédasticité, d'erreurs corrélées, ou quoi que ce soit d'autre. Ainsi, la règle générale simple dit que si vous avez des données multicollinéaires, la régression de crête et la validation croisée sont une bonne idée.

Il existe probablement d'autres règles générales utiles et des astuces commerciales (telles que, par exemple, que faire des valeurs aberrantes brutes). Mais ce ne sont pas des hypothèses.

pp

amibe dit réintégrer Monica
la source
Dans le cas où l'on dérive des propriétés d'inférence par rapport à une procédure, qu'il s'agisse des propriétés d'un test d'hypothèse d'une pente de régression ou des propriétés d'un intervalle de confiance ou d'un intervalle de prédiction, par exemple, les tests eux-mêmes seront dérivés sous certaines ensemble d'hypothèses. Étant donné que dans de nombreux domaines, l'objectif de loin le plus courant de l'utilisation de la régression est d'effectuer une sorte d'inférence (en fait, dans certains domaines d'application, cela est rarement fait pour toute autre raison), les hypothèses qui seraient faites pour la procédure inférentielle sont naturellement associées avec ... ctd
Glen_b -Reinstate Monica
ctd ... la chose sur laquelle ils sont utilisés. Donc, si vous avez besoin de certaines hypothèses pour dériver un test t pour tester un coefficient de régression ou pour un test F partiel ou pour un IC pour la moyenne ou un intervalle de prédiction ... et les formes habituelles d'inférence font toutes la même chose ou presque même ensemble d'hypothèses, alors celles-ci seraient raisonnablement considérées comme des hypothèses associées à la réalisation d'inférences en utilisant cette chose. Si l'on doit effectuer une inférence avec une régression de crête (disons un intervalle de prédiction) et faire des hypothèses pour ce faire, on pourrait également dire que ce sont des hypothèses ... ctd
Glen_b -Reinstate Monica
devait être capable de déduire (et vraisemblablement, ensuite, d'utiliser) ce type particulier d'inférence sur la régression des crêtes.
Glen_b -Reinstate Monica
R2
1
Pas trop tard j'espère dire merci @amoeba. Très bonne réponse!
akyves
1

Je voudrais apporter une contribution du point de vue des statistiques. Si Y ~ N (Xb, sigma2 * In), alors l'erreur quadratique moyenne de b ^ est

MSE(b^)=E(b^-b).T*(b^-b)=E(|b^-b|^2)=sigma2*trace(inv(X.T*X))

D(|b^-b|^2)=2*sigma4*trace((X.T*X)^(-2))

b^=inv(X.T*X)*X.T*Y

Si XT X est approximativement nul, alors inv (XT X) sera très grand. L'estimation des paramètres de b n'est donc pas stable et peut poser le problème suivant.

  1. une certaine valeur absolue de l'estimation du paramètre est très grande
  2. b a un signe positif ou négatif opposé à celui attendu.
  3. l'ajout ou la suppression de variables ou d'observations modifiera considérablement les estimations des paramètres.

Afin de rendre stable l'ordinal des moindres carrés de b, nous introduisons la régression de crête en estimant le b^(k)=inv(X.T*X+kI)*X.T*Y.Et nous pouvons prouver qu'il y a toujours ak qui fait l'erreur quadratique moyenne de

MSE(b^(k)) < MSE(b^).

En apprentissage automatique, la régression de crête est appelée régularisation L2 et vise à lutter contre les problèmes de sur-ajustement causés par de nombreuses fonctionnalités.

Emma
la source