Régression linéaire lorsque vous ne connaissez que

13

Supposons que Xβ=Y .

Nous ne savons pas Y exactement, que sa corrélation avec chaque facteur prédictif, XtY .

La solution des moindres carrés ordinaires (OLS) est β=(XtX)1XtY et il n'y a pas de problème.

Mais supposons que XtX soit proche du singulier (multicolinéarité), et vous devez estimer le paramètre de crête optimal. Toutes les méthodes semblent avoir besoin des valeurs exactes de Y .

Existe-t-il une méthode alternative lorsque seul XtY est connu?

Pointe
la source
question interessante. Peut-être qu'une sorte d'algorithme EM fonctionnerait ...
probabilités
Je ne comprends pas, ne pouvez-vous pas utiliser la validation croisée pour estimer le paramètre de crête optimal?
Pardis
@Pardis: Aucune fonction de perte n'est donnée dans la question donc nous ne savons pas ce que signifie optimal . Pouvez-vous voir le problème que nous rencontrons si la fonction de perte est le MSE?
cardinal
1
@JohnSmith: Vous faites allusion au point où je conduisais. Rien n'indique comment mesurer "l'optimalité". Ce que vous faites effectivement, c'est introduire une métrique différente (fonction de distance) pour mesurer la «qualité» de la prédiction ou de l'ajustement. Nous avons besoin de plus de détails de la part du PO pour aller très loin, je suppose.
cardinal
1
@Pardis: comme vous le constatez, trouver les estimations n'est pas un problème. :) Cependant, si vous décidez de procéder à une validation croisée, comment allez-vous estimer le MSE hors échantillon, c'est-à-dire sur le pli gauche pour chaque itération? :)
cardinal

Réponses:

8

C'est une question intéressante. Étonnamment, il est possible de faire quelque chose sous certaines hypothèses, mais il y a une perte potentielle d'informations sur la variance résiduelle. Cela dépend de X combien est perdu.

Considérons la décomposition de valeurs singulières suivante de X avec U une matrice n × p avec des colonnes orthonormées, D une matrice diagonale avec des valeurs singulières positives d 1d 2. . X=UDVtXUn×pD dans la matrice diagonale et V a p × p orthogonale. Alors les colonnes de U et Z = U t Yd1d2...dp>0Vp×pU forment une base orthonormée pour l'espace de colonne de X est le vecteur de coefficients pour la projection de Y sur cet espace de colonne lorsqu'il est développé dans labase de la colonne U. D'après la formule, nous voyons que Z est calculable à partir de la connaissance de X et X t

Z=UtY=D1VtVDUtY=D1VtXtY
YUZX uniquement.XtY

Etant donné que la prédiction de la régression de la crête d'une donnée peut être calculé en tant que Y = X ( X t X + λ I ) - 1 X t Y = U D ( D 2 + λ I ) - 1 D U t Y = U D ( D 2 + λ I ) - 1 D Z nous voyons que les coefficients pour le prédicteur de régression de crête dans leλ

Oui^=X(XtX+λje)-1XtOui=U(2+λje)-1UtOui=U(2+λje)-1Z
base -column sont Z = D (U Maintenant, nous faisons l'hypothèse distributionnelle que Y a unemoyenne à n dimensions ξ et une matrice de covariance σ 2 I n . Alors Z a unemoyenne p- dimensionnelle U t ξ et une matrice de covariance σ 2 I p . Si nous imaginons un Y New indépendant
Z^=(2+λje)-1Z.
Ouinξσ2jenZpUtξσ2jepOuiNouveau avec la même distribution que (tout conditionnellement sur X à partir de là) le Z correspondantOuiX a la même distribution queZet est indépendant et E | | Y Nouveau - Y | | 2ZNouveau=UtOuiNouveauZ Voici la troisième égalité suit par orthogonalité deYNouveau-UZNouveauetUZNouvelle-U Z et le quatrième par le fait queUacolonnes orthonormales. La quantitéErr0est une erreur sur laquelle nous ne pouvons obtenir aucune information, mais elle ne dépend pas deλ
E||YNewY^||2=E||YNewUZNew+UZNewUZ^||2=E||YNewUZNew||2+E||UZNewUZ^||2=Err0+E||ZNewZ^||2.
YNewUZNewUZNewUZ^UErr0λSoit. Pour minimiser l'erreur de prédiction sur le côté gauche, nous devons minimiser le deuxième terme sur le côté droit.

Par un calcul standard Icidf(λ)est connu comme les degrés de liberté effectifs pour la régression de crête avec le paramètreλ. Un estimateur non biaisé deE| | Z-Z| | 2est err(λ)=| | Z-Z| | 2=pi=1(1

E||ZNewZ^||2=E||ZZ^||2+2i=1pcov(Zi,Z^i)=E||ZZ^||2+2σ2i=1pdi2di2+λdf(λ).
df(λ)λE||ZZ^||2
err(λ)=||ZZ^||2=i=1p(1di2di2+λ)2Zi2.

err(λ)+2σ2df(λ)
E||ZNewZ^||2σ2σ2σ2

σ2

E||ZZ^||2=σ2(pi=1pdi2di2+λ(2di2di2+λ)d(λ))+bias(λ)2.
Thus if it is possible to choose λ so small that the squared bias can be ignored we can try to estimate σ2 as
σ^2=1pd(λ)||ZZ^||2.
If this will work depends a lot on X.

For some details see Section 3.4.1 and Chapter 7 in ESL or perhaps even better Chapter 2 in GAM.

NRH
la source
0

Define β as in the question and β(λ,K)=[(XTX)KK+λI]1(XTY)K for various parameters λ and sets K of sample labels. Then e(λ,K):=Xβ(λ,K)Y2XβY2 is computable since the unknown Y2 drops out when expanding both norms.

This leads to the following algorithm:

  • Compute the e(λ,K) for some choices of the training set K.
  • Plot the results as a function of λ.
  • Accept a value of λ where the plot is flattest.
  • Use β=[XTX+λI]1XTY as the final estimate.
Arnold Neumaier
la source
1
I'm guessing "where the plot is flattest" will be at λ very small, like roughly 0 :)
jbowman
@jbowman: Cela ne se produira que si le problème est bien conditionné et ne nécessite aucune régularisation, alors λ=0est en effet suffisant. Dans le cas mal conditionné, la prédiction des éléments extérieursK sera pauvre en raison du sur-ajustement, et e(λ,K) sera donc grand.
Arnold Neumaier
3
@ArnoldNeumaier: (XTOui)Kn'est pas calculable. Nous ne connaissons que la corrélation avec chaque prédicteur.(XTOui) est dans le "domaine prédicteur", pas dans le "domaine Y" (si N est la taille de l'échantillon et p le nombre de prédicteurs, nous n'avons que p valeurs, une pour chaque prédicteur).
Jag
@Jag: Then there is not enough information for selecting λ. But XTY must have been collected somehow. If during its collection you partition the sample into k batches and assemble the XTY separately for each batch then one can reserve one batch each for cross validation.
Arnold Neumaier
@ArnoldNeumaier: XTY are externally given, don't collected.
Jag