Je fais des recherches sur les jeux éducatifs, et certains de mes projets actuels impliquent l'utilisation de données de BoardGameGeek (BGG) et VideoGameGeek (VGG) pour examiner les relations entre les éléments de conception des jeux (c.-à-d. ) et les cotes des joueurs de ces jeux (c.-à-d. des scores sur 10). Chacun de ces éléments de conception correspond à une balise dans le système BGG ou VGG, donc chaque élément est essentiellement une variable dichotomique. Un jeu a un 1 pour chaque balise présente dans la base de données et un 0 pour chaque balise qui n'est pas présente.
Il y a des dizaines de ces balises, donc je veux utiliser l' analyse factorielle exploratoire (EFA) pour trouver un nombre gérable de "genres" qui capturent les modèles dans la conception de jeux. En consultant plusieurs sources, je comprends que puisque je travaille avec des variables dichotomiques , je devrais utiliser des corrélations polychoriques ( tétrachoriques , en particulier ici) au lieu de corrélations de Pearson lors de l'élaboration de mes facteurs (il existe également d'autres options - comme l'analyse des traits latents - là-bas, mais c'est celui que j'explore pour l'instant).
Par curiosité, j'ai trouvé deux ensembles de facteurs, l'un utilisant des corrélations de Pearson et l'autre utilisant des corrélations polychoriques (même nombre de facteurs à chaque fois). Mon problème est que les facteurs calculés en utilisant les corrélations de Pearson ont beaucoup plus de sens et sont plus faciles à interpréter que les facteurs calculés en utilisant les corrélations polychoriques. En d'autres termes, les «genres» du premier ensemble de facteurs ont un sens intuitif et correspondent à ma compréhension de la façon dont les jeux sont généralement conçus; ce n'est pas le cas pour le deuxième ensemble de facteurs.
D'une part, je veux m'assurer de respecter les hypothèses des tests que j'utilise, même si cela rend mes résultats moins jolis. De l'autre, je pense qu'une partie de l'objectif de l'analyse factorielle et (plus largement) de la construction de modèles est de trouver quelque chose d'utile, et les informations les plus utiles émergent lorsque je «brise les règles». La nécessité d'un modèle utile est-elle suffisante pour l'emporter sur la violation des hypothèses de ce test? Quelles sont exactement les conséquences de l'utilisation de corrélations de Pearson au lieu de corrélations polychoriques?
la source
Réponses:
L'analyse factorielle linéaire est théoriquement , logiquement uniquement pour les variables continues . Si les variables ne sont pas continues mais sont, par exemple, dichotomiques, une façon pour vous sera d'admettre les variables continues sous-jacentes et de déclarer que les variables observées sont les sous-jacentes groupées ou vraies. Vous ne pouvez pas quantifier une variable dichotomique dans une échelle sans un "tuteur" étranger, mais vous pouvez toujours déduire les corrélations qui seraient si vos variables n'avaient pas encore été regroupées et étaient "originales" continues normalement distribuées. Et c'est le tétrachoriquecorrélations (ou polychoriques, si à la place du binaire vous avez des variables ordinales). Ainsi, l'utilisation de corrélations tétrachoriques (corrélations de Pearson inférées) à la place de corrélations Phi (corrélations de Pearson observées avec des données dichotomiques) est un acte logique.
Des études de simulation / binning ont montré que l'analyse factorielle basée sur les corrélations tétrachoriques empire s'il existe de nombreuses corrélations fortes (> 0,7) dans la matrice. La corrélation tétrachorique n'est pas idéale: si les points de coupure des variables sous-jacentes corrélatives sont aux opposés (et donc les distributions marginales dans le dichotome sont de biais opposés) tandis que l'association sous-jacente est forte, le coefficient tétrachorique la surestime davantage. Notez également que la matrice de corrélation tétrachorique n'est pas nécessairement semi-définie positive dans les échantillons peu volumineux et pourrait donc nécessiter une correction ("lissage"). Pourtant, il est considéré par beaucoup comme un meilleur moyen que l'analyse factorielle sur des coefficients de Pearson (phi) simples.
Mais pourquoi faire l' analyse factorielle sur les données binaires? Il existe d'autres options, notamment le caractère latent / IRT (une forme d'analyse factorielle «logistique») et l'analyse de correspondance multiple (si vous voyez vos variables binaires comme des catégories nominales).
Voir également:
la source