Si j'ai un ensemble de données avec observations et p variables (dimensions), et généralement n est petit ( n = 12 - 16 ), et p peut varier de petit ( p = 4 - 10 ) à peut-être beaucoup plus grand ( p = 30 - 50 ).
Je me souviens avoir appris que devrait être beaucoup plus grand que p pour exécuter l'analyse en composantes principales (ACP) ou l'analyse factorielle (FA), mais il semble que ce ne soit pas le cas dans mes données. Notez que pour mes besoins, je suis rarement intéressé par les principaux composants après PC2.
Des questions:
- Quelles sont les règles de base pour la taille minimale de l'échantillon lorsque PCA est OK à utiliser et quand il ne l'est pas?
- Est-il jamais OK d'utiliser les premiers PC même si ou n < p ?
- Y a-t-il des références à ce sujet?
Est-ce important si votre objectif principal est d'utiliser PC1 et éventuellement PC2:
- simplement graphiquement, ou
- comme variable synthétique puis utilisée dans la régression?
pca
sample-size
factor-analysis
Patrick
la source
la source
Réponses:
Vous pouvez réellement mesurer si la taille de votre échantillon est "suffisamment grande". Un symptôme de la petite taille de l'échantillon étant trop petit est l'instabilité.
la source
Un aperçu assez complet avec de nombreuses références peut être trouvé à http://www.encorewiki.org/display/~nzhao/The+Minimum+Sample+Size+in+Factor+Analysis
Références pertinentes:
la source
L'équivalence peut être vue de cette façon: chaque étape de l'ACP est un problème d'optimisation. Nous essayons de trouver quelle direction exprime le plus de variance. c'est à dire:
sous les contraintes:
Prendre n = p est plus ou moins équivalent à deviner une valeur avec seulement deux données ... ce n'est pas fiable.
la source
J'espère que cela pourrait être utile:
Référence:
extrait de "R in Action" de Robert I. Kabacoff, livre très instructif avec de bons conseils couvrant presque tous les tests statistiques.
la source