Dans le livre "Les éléments de l'apprentissage statistique" au chapitre 2 ("Modèles linéaires et moindres carrés; page n °: 12"), il est écrit que
Dans l'espace d'entrée-sortie (p + 1), (X, Y) représente un hyperplan. Si la constante est incluse dans X, l'hyperplan inclut l'origine et est un sous-espace; sinon, il s'agit d'un ensemble affine coupant l'axe Y au point (0,).
Je ne reçois pas la phrase "si la constante est ... (0,) ". S'il vous plaît, aidez-moi. Je pense que l'hyperplan couperait l'axe Y à (0,) dans les deux cas, est-ce exact?
La réponse ci-dessous a quelque peu aidé, mais je cherche une réponse plus spécifique. Je comprends que lorsque est inclus dans le , il ne contiendra pas d'origine, mais comment contiendrait l'origine? Ne devrait-il pas dépendre de la valeur de? Si intercepter n'est pas , ne devrait pas contenir d'origine, à ma connaissance?
la source
Réponses:
L'inclusion de la constanteβX au lieu de β0+βX partout.
1
dans le vecteur d'entrée est une astuce courante pour inclure un biais (pensez à l'ordonnée à l'origine) mais en gardant tous les termes de l'expression symétriques: vous pouvez écrireSi vous faites cela, il est alors correct que l'hyperplanY=βX inclut l'origine, puisque l'origine est un vecteur de 0 valeurs et en le multipliant pour β donne la valeur 0 .
Cependant, vos vecteurs d'entrée auront toujours le premier élément égal à1 ; par conséquent, ils ne contiendront jamais l'origine et seront placés sur un hyperplan plus petit, qui a une dimension de moins.
Vous pouvez visualiser cela en pensant à une ligneY=mx+q sur votre feuille de papier (2 dimensions). L'hyperplan correspondant si vous incluez le biaisq votre vecteur devient X=[x,x0=1] et vos coefficients β=[m,q] . En 3 dimensions c'est un avion passant de l'origine, qui intercepte l'avionx0=1 produisant la ligne où vos entrées peuvent être placées.
la source
Pour vous aider à comprendre cela, j'ai fait une visualisation d'un cas très simple.
Disons que nous avons un problème unidimensionnel (p = 1) donc une seule caractéristique (variable d'entrée)X1 prédire une seule variable de sortie Y . Imaginons que nous ayons déjà trouvé une interceptionβ0=5 et un coefficient β1=2 pour notre variable d'entrée X1 .
Notre modèle linéaire ressemblerait à:Y^=β0+β1×X1 .
D'où la représentation évidente serait un hyperplan (une ligne) dans (p + 1) -espace dimensionnel dans ce cas (2d):
Une autre représentation serait d'ajouter une autre variableX0 ce qui conduira à l'équation suivante: Y^=β0×X0+β1×X1 .
En pratique, nous savons queX0 sera une constante et égale à 1, mais supposons qu'elle ne soit pas encore fixe. Dans ce cas, nous pouvons maintenant tracer un graphique 3D avec un hyperplan comme suit:
Enfin puisque nous ne connaissons queX0=1 est possible j'ai mis en évidence avec une ligne pointillée rouge la seule projection de travail de cet hyperplan qui correspond exactement à l'intrigue que nous avions avant.
la source