Je souhaite utiliser le critère d'information Akaike (AIC) pour choisir le nombre approprié de facteurs à extraire dans une ACP. Le seul problème est que je ne sais pas comment déterminer le nombre de paramètres.
Considérons une matrice X , où N représente le nombre de variables et T le nombre d'observations, tel que X ∼ N ( 0 , Σ ) . Étant donné que la matrice de covariance est symétrique, une estimation du maximum de vraisemblance de Σ pourrait fixer le nombre de paramètres dans l'AIC égal à N ( N + 1 ) .
Alternativement, dans une ACP, vous pouvez extraire les premiers vecteurs propres et valeurs propres de Σ , les appeler β f et Λ f puis calculer Σ = β f Λ f β ′ f + I σ 2 r où σ 2 r est le résiduel moyen variance. D'après mes calculs, si vous avez f facteurs, alors vous f paramètres f dans Λ f , N f paramètres dans β f , et 1
Cette approche est-elle correcte? Il semble que cela conduirait à plus de paramètres que l'approche de vraisemblance maximale que le nombre de facteurs augmente à .
la source
Réponses:
Clairement, cela prend un point de vue bayésien de votre problème qui n'est pas basé sur les critères de théorie de l'information (KL-divergence) utilisés par AIC.
En ce qui concerne la question originale de "détermination du nombre de paramètres", je pense aussi que le commentaire de @ whuber porte la bonne intuition.
la source
La sélection d'un nombre «approprié» de composants dans PCA peut être effectuée avec élégance avec Horn's Parallel Analysis (PA). Les articles montrent que ce critère surpasse systématiquement les règles empiriques telles que le critère du coude ou la règle de Kaiser. Le package R "paran" a une implémentation de PA qui ne nécessite que quelques clics de souris.
Bien sûr, le nombre de composants que vous conservez dépend des objectifs de la réduction des données. Si vous souhaitez uniquement conserver une variance "significative", l'AP donnera une réduction optimale. Cependant, si vous souhaitez minimiser la perte d'informations des données d'origine, vous devez conserver suffisamment de composants pour couvrir la variance expliquée à 95%. Cela gardera évidemment beaucoup plus de composants que PA, bien que pour les jeux de données de grande dimension, la réduction de dimensionnalité sera toujours considérable.
Une dernière remarque sur PCA en tant que problème de "sélection de modèle". Je ne suis pas entièrement d'accord avec la réponse de Peter. Il y a eu un certain nombre d'articles qui ont reformulé l'ACP en tant que problème de type régression, comme l'APC éparse, l'APC probabiliste éparse ou ScotLASS. Dans ces solutions PCA "basées sur un modèle", les chargements sont des paramètres qui peuvent être mis à 0 avec des termes de pénalité appropriés. Vraisemblablement, dans ce contexte, il serait également possible de calculer des statistiques de type AIC ou BIC pour le modèle considéré.
Cette approche pourrait théoriquement inclure un modèle où, par exemple, deux PC sont sans restriction (tous les chargements ne sont pas nuls), par rapport à un modèle où PC1 est sans restriction et PC2 a tous les chargements définis sur 0. Cela équivaudrait à inférer si PC2 est redondant dans l'ensemble.
Références (PA) :
la source
L'AIC est conçu pour la sélection de modèles. Ce n'est pas vraiment un problème de sélection de modèle et vous feriez peut-être mieux d'adopter une approche différente. Une alternative pourrait être de spécifier un certain pourcentage total de variance expliqué (comme par exemple 75%) et de s'arrêter lorsque le pourcentage atteint 75% s'il le fait jamais.
la source
L'AIC n'est pas appropriée ici. Vous ne sélectionnez pas parmi les modèles avec un nombre variable de paramètres - un composant principal n'est pas un paramètre.
Il existe un certain nombre de méthodes pour décider du nombre de facteurs ou de composants à partir d'une analyse factorielle ou d'une analyse en composantes principales - test d'éboulis, valeur propre> 1, etc. Mais le vrai test est substantiel: quel nombre de facteurs est logique ? Examinez les facteurs, considérez les poids, déterminez celui qui convient le mieux à vos données.
Comme d'autres choses dans les statistiques, ce n'est pas quelque chose qui peut être facilement automatisé.
la source