Quelles sont les bonnes mesures pour évaluer la qualité d'un ajustement PCA, afin de sélectionner le nombre de composants?

10

Quelle est une bonne mesure pour évaluer la qualité de l'analyse en composantes principales (ACP)?

J'ai effectué cet algorithme sur un ensemble de données. Mon objectif était de réduire le nombre de fonctionnalités (l'information était très redondante). Je sais que le pourcentage de variance conservé est un bon indicateur de la quantité d'informations que nous conservons, existe-t-il d'autres mesures d'informations que je peux utiliser pour m'assurer que j'ai supprimé les informations redondantes et que je n'ai pas `` perdu '' ces informations?

grand arbre
la source
3
À strictement parler, il n'y a pas d'informations "redondantes", à moins que vos données initiales soient parfaitement colinéaires. On voit généralement le pourcentage de variance retenu ("nous avons utilisé les cinq premières composantes principales, qui représentaient 90% de la variance"). Je suis intéressé à voir des alternatives.
Stephan Kolassa
Étant donné que l'un de vos tags est la théorie de l'information: un moyen indirect d'évaluer si l'ACP fonctionne est de vérifier les hypothèses selon lesquelles la théorie de l'information nous dit qu'elle a une faible perte d'informations pour une réduction de dimension donnée. Wiki dit qu'il en est ainsi lorsque vos données sont une somme de signal gaussien plus de bruit gaussien. en.wikipedia.org/wiki/…
CloseToC

Réponses:

17

Je suppose qu'une partie de cette question est de savoir si d'autres mesures existent en plus de la variance cumulée en pourcentage (CPV) et de l'approche similaire du tracé éboulis. La réponse à cette question est, oui, beaucoup .

Valle 1999 est un excellent article sur certaines options:

Il va au-dessus du CPV, mais aussi de l'analyse parallèle, de la validation croisée, de la variance de l'erreur de reconstruction (VRE), des méthodes basées sur des critères d'information, etc. Vous pouvez suivre la recommandation faite par l'article après avoir comparé et utilisé le VRE, mais la validation croisée basée sur PRESS fonctionne également bien selon mon expérience et ils obtiennent également de bons résultats avec cela. D'après mon expérience, le CPV est pratique et facile, et fait un travail décent, mais ces deux méthodes sont généralement meilleures.

Il existe d'autres façons d'évaluer la qualité de votre modèle PCA si vous en savez plus sur les données. Une façon consiste à comparer les charges PCA estimées aux vraies si vous les connaissez (ce que vous feriez dans des simulations). Cela peut être fait en calculant le biais des charges estimées par rapport aux vraies. Plus votre parti pris est grand, plus votre modèle est mauvais. Pour savoir comment faire, vous pouvez consulter cet article où ils utilisent cette approche pour comparer les méthodes. Cependant, il n'est pas utilisable dans les cas de données réels, où vous ne connaissez pas les vrais chargements PCA. Cela en dit moins sur le nombre de composants que vous avez supprimés que sur le biais de votre modèle en raison de l'influence des observations périphériques, mais il sert toujours de métrique de qualité du modèle.

Deathkill14
la source
4
Lien vers le papier Valle, Li et Qin
Zhubarb
3

Il existe également des mesures basées sur des critères théoriques de l'information comme

MDL de Rissanen (et variantes)

Nikos M.
la source
@user: 45382 Oui, c'est un autre. Il est également abordé dans les liens papier Zhubarb.
Deathkill14
@ Deathkill14 correct j'ai lu le papier, des mesures théoriques de l'information sont mentionnées (en fait comme de bonnes alternatives)
Nikos M.
Un excellent article théorique sur le MDL, le MML et le bayésianisme: Vitany & Li, le MDL idéal et sa relation avec le bayésianisme citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.56.8580 . D'autres méthodes de sélection de modèle telles que AIC et BIC sont également des implémentations efficaces de MDL.
ggll