Supposons que nous ayons la matrice de données , qui est par- , et le vecteur d'étiquette , qui est -par-un. Ici, chaque ligne de la matrice est une observation, et chaque colonne correspond à une dimension / variable. (supposez )
Alors qu'est-ce que data space
, variable space
, observation space
, model space
signifie?
L'espace recouvert par le vecteur colonne est-il un espace -D (dégénéré) puisqu'il a coordonnées tout en étant de rang , appelé espace variable puisqu'il est recouvert par un vecteur variable? Ou est-ce appelé espace d'observation puisque chaque dimension / coordonnée correspond à une observation?
Et qu'en est-il de l'espace couvert par les vecteurs de ligne?
regression
multiple-regression
terminology
geometry
biplot
user3813057
la source
la source
Réponses:
Ces termes apparaissent dans certains livres sur les statistiques multivariées. Supposons que vous ayez des
n
individus parp
matrice de données de caractéristiques quantitatives. Ensuite, vous pouvez tracer des individus sous forme de points dans l'espace où les axes sont les entités. Ce sera un nuage de points classique, alias un espace variable . Nous disons que le nuage d'individus couvre l'espace défini par les axes-caractéristiques.Vous pourriez aussi bien concevoir le nuage de points, les points étant les variables et les axes les individus. Absolument comme les précédents, seulement à l'envers. Il s'agira de l' intrigue du sujet (ou de l'intrigue de l'observation) avec les variables qui le couvrent, les individus le définissant.
Notez que si (comme souvent)1
n>p
alors, dans le deuxième cas, seules certainesp
dimensions hors desn
dimensions ne sont pas redondantes; cela signifie que vous pouvez et pouvez dessiner lesp
points variables sur lep
tracé 1 dimensionnel . De plus, par tradition, les points variables sont généralement liés à l'origine et apparaissent donc comme des vecteurs (flèches). Nous utilisons la représentation de l'espace sujet principalement pour montrer les relations entre les variables, donc nous supprimons les axes-sujets et décrivons les points sous forme de flèches, pour plus de commodité.Si les entités (colonnes de la matrice de données) étaient centrées avant de tracer le graphique de l'espace sujet, alors les cosinus des angles entre les vecteurs variables sont égaux à leurs corrélations de Pearson, tandis que les longueurs des vecteurs sont égales aux normes des variables (somme des carrés des racines ) ou les écarts types (s'ils sont divisés par le df ).
L'espace variable et l'espace sujet sont les deux faces d'une même médaille, ils sont le même espace analytique euclidien, présenté uniquement comme un miroir. Ils partagent les mêmes propriétés, telles que les valeurs propres et les vecteurs propres différents de zéro. Il est donc possible de tracer les sujets et les variables côte à côte comme des points dans l'espace des axes principaux (ou autre base orthogonale) de cet espace analytique, - ce tracé commun est appelé biplot . Je ne sais pas exactement ce que signifie le terme «espace de données» - s'il signifie quelque chose de spécifique, je suppose que c'est cet espace analytique commun dont l'espace sujet et l'espace variable sont les deux hypostases.
Quelques liens locaux:
n=5
p=2
la source