Comment un vecteur de variables peut-il représenter un hyperplan?

Je lis Éléments d'apprentissage statistique et à la page 12 (section 2.3) un modèle linéaire est noté comme:

\hat{Y} = X^{T} \hat{β}

$\widehat{Y} = X^{T} \widehat{\beta}$

... où est la transposition d'un vecteur colonne des prédicteurs / variables indépendantes / entrées. (Il déclare plus tôt "tous les vecteurs sont supposés être des vecteurs de colonne", cela ne ferait-il pas de un vecteur de ligne et un vecteur de colonne?) $X^{T}$ $X^{T}$ $\widehat{\beta}$

Inclus dans est un " " à multiplier par le coefficient correspondant donnant l'ordonnée à l'origine (constante). $X$ $1$

Il poursuit en disant:

Dans l' espace d'entrée-sortie , représente un hyperplan. Si la constante est incluse dans , l'hyperplan inclut l'origine et est un sous-espace; sinon, c'est un ensemble affine coupant l' axe au point . $(p + 1)$ $(X,\ \widehat{Y})$ $X$ $Y$ $(0,\ \widehat{\beta_0})$

Est-ce que " " décrit un vecteur formé par la concaténation des prédicteurs, le " " de l'interception et ? Et pourquoi l'inclusion d'un " " dans oblige l'hyperplan à traverser l'origine, ce " " doit sûrement être multiplié par ? $(X,\ \widehat{Y})$ $1$ $\widehat{Y}$ $1$ $X$ $1$ $\widehat{\beta_0}$

Je n'arrive pas à comprendre le livre; toute aide / conseil / lien vers des ressources serait très apprécié.

regression references statistical-learning Scott
la source

Il pourrait être utile de considérer premier. Dans ce cas, , avec l'interception. Il s'agit de l'équation d'une ligne passant par . Les extensions à des dimensions supérieures sont immédiates.

p = 1

$p = 1$

\hat{y} = {\hat{β}}_{0} + x \hat{β}

$\hat{y} = \hat{\beta}_0 + x \hat{\beta}$

β_{0}

$\beta_0$

(0, {\hat{β}}_{0})

$(0, \hat{\beta}_0)$

ocram

Si l'aide de @ocram ne suffit pas, essayez d'écrire les vecteurs et de faire la multiplication.

Peter Flom - Réintègre Monica

Voici une belle présentation graphique: blog.stata.com/2011/03/03/… . La notation est différente, A il y a votre X et x est .

\hat{β}

$\hat \beta$

Dimitriy V. Masterov

Le livre est faux, ou du moins il est incohérent. Évidemment, il existe variables n'incluant pas la constante. Ainsi l'ensemble est en effet un hyperplan, mais il est incorrect de dire que la constante est "incluse dans ". Au lieu de cela , je pense que le livre a voulu dire la constante est inclus dans la régression mais ne doit pas être considéré comme faisant partie de . Par conséquent, le modèle doit vraiment être écrit où . La définition de donne immédiatement l'assertion concernant l'interception.

p

$p$

{(X, \hat{Y}) | X \in R^{p}}

$\{(X,\hat{Y})|X\in\mathbb{R}^p\}$

X

$X$

X

$X$

\hat{Y} = {\hat{β}}_{0} + X^{'} \hat{β}

$\hat{Y}=\hat\beta_0 + X'\hat\beta$

β = (β_{1}, β_{2}, \dots, β_{p})^{'}

$\beta=(\beta_1,\beta_2,\ldots,\beta_p)'$

X = 0

$X=0$

whuber

(Si nous incluons plutôt la constante dans , alors nous ne pouvons pas laisser varier librement sur l'ensemble de : il est contraint de se trouver dans un sous-espace . Le graphique alors codimension au moins et n'est donc pas réellement un "hyperplan".)

X

$X$

X

$X$

R^{p}

$\mathbb{R}^p$

p - 1

$p-1$

{(X, \hat{Y})}

$\{(X,\hat Y)\}$

2

$2$

whuber

Réponses:

Soit le nombre d'observations et le nombre de variables explicatives. $N$ $K$

$X$ est en fait une matriceCe n'est que lorsque nous regardons une seule observation que nous désignons généralement chaque observation par - un vecteur de lignes de variables explicatives d'un scalaire d'observation particulier multiplié par le vecteur de colonne . De plus, est un vecteur de colonne , contenant toutes les observations . $N\!\times\!K$ $x_i^T$ $K\!\times\!1$ $\beta$ $Y$ $N\!\times\!1$ $Y_n$

Maintenant, un hyperplan deux dimensions s'étendrait entre le vecteur et un (!) Vecteur colonne de . Rappelez - vous que est un la matrice, de sorte que chaque variable explicative est représenté par exactement un vecteur de colonne de la matrice . Si nous avons une seule variable explicative, aucune interception et , tous les points de données sont situés le long du plan 2 dimensions enjambé par et . $Y$ $X$ $X$ $N\!\times\!K$ $X$ $Y$ $Y$ $X$

Pour une régression multiple, combien de dimensions au total l'hyperplan entre et la matrice a-t-il? Réponse: Puisque nous avons vecteurs de colonnes de variables explicatives dans , nous devons avoir un hyperplan dimensionnel . $Y$ $X$ $K$ $X$ $K\!+\!1$

Habituellement, dans un cadre matriciel, la régression nécessite une interception constante pour être sans biais pour une analyse raisonnable du coefficient de pente. Pour tenir compte de cette astuce, nous forçons une colonne de la matrice à être uniquement constituée de " s". Dans ce cas, l'estimateur est seul multiplié par une constante pour chaque observation au lieu d'une variable explicative aléatoire. Le coefficient représente donc la valeur attendue de étant donné que est maintenu fixe avec la valeur 1 et toutes les autres variables sont nulles. Par conséquent, l' hyperplan est réduit d'une dimension en un sous-espace , et $X$ $1$ $\beta_1$ $\beta_1$ $Y$ $x_{1i}$ $K\!+\!1$ $K$ $\beta_1$ correspond à l '"interception" de ce plan dimensionnel. $K$

Dans les paramètres matriciels, il est toujours conseillé de regarder le cas simple de deux dimensions, pour voir si nous pouvons trouver une intuition pour nos résultats. Ici, la façon la plus simple est de penser à la régression simple avec deux variables explicatives: ou alternativement exprimée en algèbre matricielle: où est un matrice.

y_{i} = β_{1} x_{1 i} + β_{2} x_{2 i} + u_{i}

$y_i=\beta_1x_{1i} + \beta_2x_{2i} +u_i$

Y = X β + u

$Y=X\beta +u$

X

$X$

N \times 2

$N\!\times\!2$

$<Y,X>$ s'étend sur un hyperplan tridimensionnel.

Maintenant, si nous tous les à tous les , nous obtenons: qui est notre régression simple habituelle qui peut être représentée dans un tracé bidimensionnelNotez que est maintenant réduit à une ligne à deux dimensions - un sous-ensemble de l'hyperplan à l'origine en 3 dimensions. Le coefficient correspond à l'ordonnée à l'origine de la coupe de ligne à . $x_1$ $1$

y_{i} = β_{1 i} + β_{2} x_{2 i} + u_{i}

$y_i=\beta_{1i} + \beta_2x_{2i} + u_i$

X, Y

$X,\ Y$

< Y, X >

$<Y,X>$

β_{1}

$\beta_1$

x_{2 i} = 0

$x_{2i}=0$

Il peut en outre être montré qu'il passe également par lorsque la constante est incluse . Si nous omettons la constante, l'hyperplan de régression passe toujours trivialement par - sans aucun doute. Cela se généralise à plusieurs dimensions, comme on le verra plus tard lors de la dérivation de : Puisque a un rang complet par définition, , et donc la régression passe par l'origine si nous à l'origine. $<0,\beta_1>$ $<0,0>$ $\beta$

(X^{'} X) β = X^{'} y ⟹ (X^{'} X) β - X^{'} y = 0 ⟹ X^{'} (y - X β) = 0.

$(X'X)\beta=X'y \implies (X'X)\beta-X'y=0 \implies X'(y-X\beta)=0.$

X

$X$

y - X β = 0

$y-X\beta=0$

( Edit: Je viens de réaliser que pour votre deuxième question, c'est exactement le contraire de vous avez écrit l'inclusion ou l'exclusion de la constante. Cependant, j'ai déjà conçu la solution ici et je me corrige si je me trompe sur celle-ci. )

Je sais que la représentation matricielle d'une régression peut être assez déroutante au début, mais finalement elle simplifie beaucoup lors de la dérivation d'une algèbre plus complexe. J'espère que ça aide un peu.

Majte
la source

Je pense que la façon de penser est de réorganiser cette équation:

\hat{Y} - X^{T} \hat{β} = 0

$\widehat{Y} - X^{T} \widehat{\beta} = 0$

La seule façon d'obtenir cette équation linéaire pour inclure l'origine est de rendre le prévu égal à l'interception. Et la façon d'estimer cette valeur consiste à inclure un terme d'interception dans le modèle de régression.

\hat{Y}

$\widehat{Y}$

DWin
la source