Quels sont les dangers du calcul des corrélations de Pearson (au lieu des corrélations tétrachoriques) pour les variables binaires dans l'analyse factorielle?

Je fais des recherches sur les jeux éducatifs, et certains de mes projets actuels impliquent l'utilisation de données de BoardGameGeek (BGG) et VideoGameGeek (VGG) pour examiner les relations entre les éléments de conception des jeux (c.-à-d. ) et les cotes des joueurs de ces jeux (c.-à-d. des scores sur 10). Chacun de ces éléments de conception correspond à une balise dans le système BGG ou VGG, donc chaque élément est essentiellement une variable dichotomique. Un jeu a un 1 pour chaque balise présente dans la base de données et un 0 pour chaque balise qui n'est pas présente.

Il y a des dizaines de ces balises, donc je veux utiliser l' analyse factorielle exploratoire (EFA) pour trouver un nombre gérable de "genres" qui capturent les modèles dans la conception de jeux. En consultant plusieurs sources, je comprends que puisque je travaille avec des variables dichotomiques , je devrais utiliser des corrélations polychoriques ( tétrachoriques , en particulier ici) au lieu de corrélations de Pearson lors de l'élaboration de mes facteurs (il existe également d'autres options - comme l'analyse des traits latents - là-bas, mais c'est celui que j'explore pour l'instant).

Par curiosité, j'ai trouvé deux ensembles de facteurs, l'un utilisant des corrélations de Pearson et l'autre utilisant des corrélations polychoriques (même nombre de facteurs à chaque fois). Mon problème est que les facteurs calculés en utilisant les corrélations de Pearson ont beaucoup plus de sens et sont plus faciles à interpréter que les facteurs calculés en utilisant les corrélations polychoriques. En d'autres termes, les «genres» du premier ensemble de facteurs ont un sens intuitif et correspondent à ma compréhension de la façon dont les jeux sont généralement conçus; ce n'est pas le cas pour le deuxième ensemble de facteurs.

D'une part, je veux m'assurer de respecter les hypothèses des tests que j'utilise, même si cela rend mes résultats moins jolis. De l'autre, je pense qu'une partie de l'objectif de l'analyse factorielle et (plus largement) de la construction de modèles est de trouver quelque chose d'utile, et les informations les plus utiles émergent lorsque je «brise les règles». La nécessité d'un modèle utile est-elle suffisante pour l'emporter sur la violation des hypothèses de ce test? Quelles sont exactement les conséquences de l'utilisation de corrélations de Pearson au lieu de corrélations polychoriques?

r categorical-data factor-analysis binary-data Spencer Greenhalgh
la source

Les hypothèses de normalité multivariée sous-jacente sont si fortes avec des données de plus de trois dimensions environ que les corrélations polychoriques cessent de donner tout leur sens. Le degré de spécification erronée du modèle avec des corrélations polychoriques rend très probablement votre analyse plutôt inutile. Je ne sais pas pourquoi vous avez besoin de ces corrélations en premier lieu, cependant: si vous avez une variable de résultat claire (note) et un tas de variables explicatives (caractéristiques de conception), vous avez besoin d'une analyse de régression, pas de l'analyse factorielle.

StasK

L'analyse de régression @StasK est mon objectif ultime, mais j'ai plus de 100 variables explicatives et je voudrais réduire cela à un nombre plus gérable.

Spencer Greenhalgh

De plus, pour de tels problèmes, la classification est un objectif en soi.

Pere

Réponses:

L'analyse factorielle linéaire est théoriquement , logiquement uniquement pour les variables continues . Si les variables ne sont pas continues mais sont, par exemple, dichotomiques, une façon pour vous sera d'admettre les variables continues sous-jacentes et de déclarer que les variables observées sont les sous-jacentes groupées ou vraies. Vous ne pouvez pas quantifier une variable dichotomique dans une échelle sans un "tuteur" étranger, mais vous pouvez toujours déduire les corrélations qui seraient si vos variables n'avaient pas encore été regroupées et étaient "originales" continues normalement distribuées. Et c'est le tétrachoriquecorrélations (ou polychoriques, si à la place du binaire vous avez des variables ordinales). Ainsi, l'utilisation de corrélations tétrachoriques (corrélations de Pearson inférées) à la place de corrélations Phi (corrélations de Pearson observées avec des données dichotomiques) est un acte logique.

$r=1$ $r$ $r$ , mais dans les variables dichotomiques, cet effet est plus marqué car trop peu de valeurs sont acceptables.) Ainsi, les corrélations phi dans leur matrice peuvent être considérées comme inégalement dégonflées en raison des distributions marginales contrastées dans les variables dichotomiques; vous ne savez pas si une corrélation est plus grande qu'une autre "vraiment" ou en raison des différents points de coupure dans ces deux paires de variables. Le nombre de facteurs à extraire (critères suivants tels que la "valeur propre> 1" de Kaiser) sera gonflé: certains "facteurs" extraits étant le résultat de l'inégalité, de la diversité des points de coupure, - pas de facteurs latents substantiels. C'est une raison pratique pour laquelle ne pas utiliser les corrélations phi (au moins sous leur forme brute - non mise à l'échelle).

Des études de simulation / binning ont montré que l'analyse factorielle basée sur les corrélations tétrachoriques empire s'il existe de nombreuses corrélations fortes (> 0,7) dans la matrice. La corrélation tétrachorique n'est pas idéale: si les points de coupure des variables sous-jacentes corrélatives sont aux opposés (et donc les distributions marginales dans le dichotome sont de biais opposés) tandis que l'association sous-jacente est forte, le coefficient tétrachorique la surestime davantage. Notez également que la matrice de corrélation tétrachorique n'est pas nécessairement semi-définie positive dans les échantillons peu volumineux et pourrait donc nécessiter une correction ("lissage"). Pourtant, il est considéré par beaucoup comme un meilleur moyen que l'analyse factorielle sur des coefficients de Pearson (phi) simples.

Mais pourquoi faire l' analyse factorielle sur les données binaires? Il existe d'autres options, notamment le caractère latent / IRT (une forme d'analyse factorielle «logistique») et l'analyse de correspondance multiple (si vous voyez vos variables binaires comme des catégories nominales).

Voir également:

Hypothèses d'analyse factorielle linéaire.
$r$ $r$

ttnphns
la source

Vérifiez également stats.stackexchange.com/a/219814/3277

ttnphns