Comprendre la projection linéaire dans «Les éléments de l'apprentissage statistique»

8

Dans le livre "Les éléments de l'apprentissage statistique" au chapitre 2 ("Modèles linéaires et moindres carrés; page n °: 12"), il est écrit que

Dans l'espace d'entrée-sortie (p + 1), (X, Y) représente un hyperplan. Si la constante est incluse dans X, l'hyperplan inclut l'origine et est un sous-espace; sinon, il s'agit d'un ensemble affine coupant l'axe Y au point (0,β).

Je ne reçois pas la phrase "si la constante est ... (0,β) ". S'il vous plaît, aidez-moi. Je pense que l'hyperplan couperait l'axe Y à (0,β) dans les deux cas, est-ce exact?

La réponse ci-dessous a quelque peu aidé, mais je cherche une réponse plus spécifique. Je comprends que lorsque1 est inclus dans le X, il ne contiendra pas d'origine, mais comment (X,Y)contiendrait l'origine? Ne devrait-il pas dépendre de la valeur deβ? Si intercepterβ0 n'est pas 0, (X,Y) ne devrait pas contenir d'origine, à ma connaissance?

Abhinav Gupta
la source
2
Combien d'algèbre linéaire avez-vous fait? Savez-vous quels sont les vecteurs? Qu'en est-il des espaces vectoriels, des sous-espaces, ...?
Adrian
J'ai une compréhension de base de l'algèbre linéaire, des vecteurs et des espaces vectoriels.
Abhinav Gupta,
1
en.wikipedia.org/wiki/Hyperplane a un peu sur les hyperplans affines et les hyperplanes vectoriels
Adrian
Thnaks! il suffit de lire cet article. Mais je ne comprends toujours pas comment peut-on dire que l'hyperplan comprend l'origine si le contant est inclus dans X. Si cela est clair, je comprends pourquoi l'hyperplan est un sous-espace.
Abhinav Gupta
page no: 12. J'ai également modifié la question.
Abhinav Gupta

Réponses:

4

L'inclusion de la constante 1dans le vecteur d'entrée est une astuce courante pour inclure un biais (pensez à l'ordonnée à l'origine) mais en gardant tous les termes de l'expression symétriques: vous pouvez écrireβX au lieu de β0+βX partout.

Si vous faites cela, il est alors correct que l'hyperplan Y=βX inclut l'origine, puisque l'origine est un vecteur de 0 valeurs et en le multipliant pour β donne la valeur 0.

Cependant, vos vecteurs d'entrée auront toujours le premier élément égal à 1; par conséquent, ils ne contiendront jamais l'origine et seront placés sur un hyperplan plus petit, qui a une dimension de moins.

Vous pouvez visualiser cela en pensant à une ligne Y=mx+q sur votre feuille de papier (2 dimensions). L'hyperplan correspondant si vous incluez le biaisq votre vecteur devient X=[x,x0=1] et vos coefficients β=[m,q]. En 3 dimensions c'est un avion passant de l'origine, qui intercepte l'avionx0=1 produisant la ligne où vos entrées peuvent être placées.

giorgiosironi
la source
Je ne comprends toujours pas très bien. Le livre dit "Si la constante est incluse dans X, alors l'hyperplan inclut l'origine et est un sous-espace" mais comme vous l'avez dit, "les vecteurs d'entrée auront toujours le premier élément = 1, donc ne contiendront jamais d'origine. Alors, comment inclure la constante 1 inclure l'origine comme le dit le livre?
MinYoung Kim
Il m'a également fallu un certain temps pour le voir, mais cette réponse m'a aidé. Vous devez oublier la contrainte surx0pour voir le sous-espace / plan dont ils parlent, dont l'origine. Lorsque vous ajoutez la contraintex0=1 vous obtenez exactement la même ligne 2D juste projetée sur le plan x0=1.
grll
1

Pour vous aider à comprendre cela, j'ai fait une visualisation d'un cas très simple.

Disons que nous avons un problème unidimensionnel (p = 1) donc une seule caractéristique (variable d'entrée) X1 prédire une seule variable de sortie Y. Imaginons que nous ayons déjà trouvé une interceptionβ0=5 et un coefficient β1=2 pour notre variable d'entrée X1.

Notre modèle linéaire ressemblerait à: Y^=β0+β1×X1.

D'où la représentation évidente serait un hyperplan (une ligne) dans (p + 1) -espace dimensionnel dans ce cas (2d):

constante non incluse dans x

Une autre représentation serait d'ajouter une autre variable X0 ce qui conduira à l'équation suivante: Y^=β0×X0+β1×X1.

En pratique, nous savons que X0sera une constante et égale à 1, mais supposons qu'elle ne soit pas encore fixe. Dans ce cas, nous pouvons maintenant tracer un graphique 3D avec un hyperplan comme suit:

constante incluse dans x

Enfin puisque nous ne connaissons que X0=1 est possible j'ai mis en évidence avec une ligne pointillée rouge la seule projection de travail de cet hyperplan qui correspond exactement à l'intrigue que nous avions avant.

grll
la source