Supposons que .
Nous ne savons pas exactement, que sa corrélation avec chaque facteur prédictif, .
La solution des moindres carrés ordinaires (OLS) est et il n'y a pas de problème.
Mais supposons que soit proche du singulier (multicolinéarité), et vous devez estimer le paramètre de crête optimal. Toutes les méthodes semblent avoir besoin des valeurs exactes de .
Existe-t-il une méthode alternative lorsque seul est connu?
regression
multicollinearity
Pointe
la source
la source
Réponses:
C'est une question intéressante. Étonnamment, il est possible de faire quelque chose sous certaines hypothèses, mais il y a une perte potentielle d'informations sur la variance résiduelle. Cela dépend deX combien est perdu.
Considérons la décomposition de valeurs singulières suivante de X avec U une matrice n × p avec des colonnes orthonormées, D une matrice diagonale avec des valeurs singulières positives d 1 ≥ d 2 ≥ . .X=UDVt X U n×p D dans la matrice diagonale et V a p × p orthogonale. Alors les colonnes de U et
Z = U t Yd1≥d2≥...≥dp>0 V p×p U forment une base orthonormée pour l'espace de colonne de X
est le vecteur de coefficients pour la projection de Y sur cet espace de colonne lorsqu'il est développé dans labase de la colonne U. D'après la formule, nous voyons que Z est calculable à partir de la connaissance de X et X t
Etant donné que la prédiction de la régression de la crête d'une donnée peut être calculé en tant que Y = X ( X t X + λ I ) - 1 X t Y = U D ( D 2 + λ I ) - 1 D U t Y = U D ( D 2 + λ I ) - 1 D Z nous voyons que les coefficients pour le prédicteur de régression de crête dans leλ
Par un calcul standard Icidf(λ)est connu comme les degrés de liberté effectifs pour la régression de crête avec le paramètreλ. Un estimateur non biaisé deE| | Z-Z| | 2est err(λ)=| | Z-Z| | 2=p∑i=1(1
For some details see Section 3.4.1 and Chapter 7 in ESL or perhaps even better Chapter 2 in GAM.
la source
Defineβ as in the question and β(λ,K)=[(XTX)KK+λI]−1(XTY)K for various parameters λ and sets K of sample labels.
Then e(λ,K):=∥Xβ(λ,K)−Y∥2−∥Xβ−Y∥2 is computable since the unknown ∥Y∥2 drops out when expanding both norms.
This leads to the following algorithm:
la source