En général, que veut dire que la fraction de la variance dans une analyse comme ACP est expliquée par la première composante principale? Est-ce que quelqu'un peut expliquer cela intuitivement, mais aussi donner une définition mathématique précise de ce que "variance expliquée" signifie en termes d'analyse en composantes principales (ACP)?
Pour une régression linéaire simple, le r-carré de la droite de meilleur ajustement est toujours décrit comme la proportion de la variance expliquée, mais je ne sais pas trop quoi en faire. Est-ce que la proportion de variance ici est simplement l'étendue de la déviation de points par rapport à la droite de meilleur ajustement?
regression
pca
linear-model
dimensionality-reduction
utilisateur9097
la source
la source
Réponses:
Dans le cas de PCA, "variance" signifie variance sommative ou variabilité multivariée ou variabilité globale ou totale . Vous trouverez ci-dessous la matrice de covariance de 3 variables environ. Leurs variances sont sur la diagonale et la somme des 3 valeurs (3.448) est la variabilité globale.
Maintenant, PCA remplace les variables d'origine par de nouvelles variables, appelées composantes principales, qui sont orthogonales (c'est-à-dire qu'elles ont une covariation nulle) et présentent des variances (appelées valeurs propres) par ordre décroissant. La matrice de covariance entre les principales composantes extraites des données ci-dessus est donc la suivante:
Notez que la somme en diagonale est toujours de 3,448, ce qui signifie que les 3 composantes représentent l’ensemble de la variabilité multivariée. La 1ère composante principale explique ou "explique" 1,651 / 3,448 = 47,9% de la variabilité globale; le second explique 1.220 / 3.448 = 35.4% de celui-ci; le 3ème explique 0,57 / 3,448 = 16,7%.
Alors, que veulent-ils dire quand ils disent que " PCA maximise la variance " ou " PCA explique la variance maximale "? Ce n'est pas, bien sûr, qu'il trouve la plus grande variance parmi trois valeurs
1.343730519 .619205620 1.485549631
, non. PCA trouve, dans l'espace de données, la dimension (la direction) avec la plus grande variance par rapport à la variance globale1.343730519+.619205620+1.485549631 = 3.448
. Ce plus grand écart serait1.651354285
. Ensuite, il trouve la dimension de la deuxième variance la plus grande, orthogonale à la première, par rapport à la3.448-1.651354285
variance globale restante . Cette deuxième dimension serait la1.220288343
variance. Etc. La dernière dimension restante est la.576843142
variance. Voir aussi "Pt3" ici et la bonne réponse ici expliquant comment cela s'est fait plus en détail.Mathématiquement, la PCA est réalisée via des fonctions d’algèbre linéaire appelées décomposition propre ou décomposition svd. Ces fonctions vous renverront toutes les valeurs propres
1.651354285 1.220288343 .576843142
(et les vecteurs propres correspondants) à la fois ( voir , voir ).la source
@ttnphns a fourni une bonne réponse, peut-être pourrais-je ajouter quelques points. Tout d’abord, je tiens à souligner qu’il y avait une question pertinente sur le CV, avec une réponse très ferme: vous voulez absolument y jeter un coup d’œil. Dans ce qui suit, je ferai référence aux parcelles présentées dans cette réponse.
Les trois graphiques affichent les mêmes données. Notez qu'il existe une variabilité verticale et horizontale dans les données, mais nous pouvons penser que la majeure partie de la variabilité est réellement diagonale . Dans le troisième graphique, cette longue ligne noire diagonale est le premier vecteur propre (ou la première composante principale), et la longueur de cette composante principale (l'étalement des données le long de cette ligne - et non la longueur de la ligne elle-même, qui est juste dessiné sur la parcelle) est la première valeur propreC'est le montant de la variance représenté par la première composante principale. Si vous additionniez cette longueur avec la longueur de la deuxième composante principale (qui est la largeur de la dispersion orthogonale des données par rapport à la diagonale), puis divisiez l'une des valeurs propres par ce total, vous obtiendriez le pourcentage de la variance représentée par la composante principale correspondante.
D'autre part, pour comprendre le pourcentage de la variance prise en compte dans la régression, vous pouvez regarder le graphique du haut. Dans ce cas, la ligne rouge correspond à la ligne de régression ou à l'ensemble des valeurs prédites du modèle. La variance expliquée peut être comprise comme le rapport de la dispersion verticale de la ligne de régression (c'est-à-dire du point le plus bas sur la ligne au plus haut sur la ligne) à la diffusion verticale des données (c'est-à-dire du point le plus bas au point de données le plus élevé). Bien sûr, ce n’est qu’une idée vague, car c’est littéralement ce sont des fourchettes, pas des écarts, mais cela devrait vous aider à comprendre.
Assurez-vous de lire la question. Et, bien que j'ai mentionné la réponse principale, plusieurs des réponses fournies sont excellentes. Cela vaut la peine de lire toutes ces informations.
la source
Il existe une réponse mathématique très simple, directe et précise à la question initiale.
En ce sens, vous pouvez interpréter le premier PC comme un maximiseur de "variance expliquée" ou, plus précisément, comme un maximiseur de "variance totale expliquée".
Pour des références à la littérature originale et à ses extensions, voir
Westfall, PH, Arias, AL et Fulton, LV (2017). Enseignement des composantes principales à l’aide de corrélations, Recherche comportementale multivariée, 52, 648-660.
la source
la source