Quelle est une bonne mesure pour évaluer la qualité de l'analyse en composantes principales (ACP)?
J'ai effectué cet algorithme sur un ensemble de données. Mon objectif était de réduire le nombre de fonctionnalités (l'information était très redondante). Je sais que le pourcentage de variance conservé est un bon indicateur de la quantité d'informations que nous conservons, existe-t-il d'autres mesures d'informations que je peux utiliser pour m'assurer que j'ai supprimé les informations redondantes et que je n'ai pas `` perdu '' ces informations?
machine-learning
pca
data-mining
information-theory
grand arbre
la source
la source
Réponses:
Je suppose qu'une partie de cette question est de savoir si d'autres mesures existent en plus de la variance cumulée en pourcentage (CPV) et de l'approche similaire du tracé éboulis. La réponse à cette question est, oui, beaucoup .
Valle 1999 est un excellent article sur certaines options:
Sélection du nombre de composants principaux: la variance du critère d'erreur de reconstruction par rapport à d'autres méthodes
Sergio Valle, Weihua Li et S. Joe Qin, Industrial & Engineering Chemistry Research 1999 38 (11), 4389-4401
Il va au-dessus du CPV, mais aussi de l'analyse parallèle, de la validation croisée, de la variance de l'erreur de reconstruction (VRE), des méthodes basées sur des critères d'information, etc. Vous pouvez suivre la recommandation faite par l'article après avoir comparé et utilisé le VRE, mais la validation croisée basée sur PRESS fonctionne également bien selon mon expérience et ils obtiennent également de bons résultats avec cela. D'après mon expérience, le CPV est pratique et facile, et fait un travail décent, mais ces deux méthodes sont généralement meilleures.
Il existe d'autres façons d'évaluer la qualité de votre modèle PCA si vous en savez plus sur les données. Une façon consiste à comparer les charges PCA estimées aux vraies si vous les connaissez (ce que vous feriez dans des simulations). Cela peut être fait en calculant le biais des charges estimées par rapport aux vraies. Plus votre parti pris est grand, plus votre modèle est mauvais. Pour savoir comment faire, vous pouvez consulter cet article où ils utilisent cette approche pour comparer les méthodes. Cependant, il n'est pas utilisable dans les cas de données réels, où vous ne connaissez pas les vrais chargements PCA. Cela en dit moins sur le nombre de composants que vous avez supprimés que sur le biais de votre modèle en raison de l'influence des observations périphériques, mais il sert toujours de métrique de qualité du modèle.
la source
Il existe également des mesures basées sur des critères théoriques de l'information comme
MDL de Rissanen (et variantes)
la source