J'ai un ensemble de données avec deux variables nominales catégorielles (les deux avec 5 catégories). Je voudrais savoir si (et comment) je suis capable d'identifier des corrélations potentielles entre les catégories de ces deux variables.
En d'autres termes, si par exemple les résultats de la catégorie dans la variable 1 montrent une forte corrélation avec une catégorie spécifique dans la variable 2. Puisque j'ai deux variables avec 5 catégories, l'analyse de corrélation totale pour toutes les catégories se résumerait à 25 résultats (au moins si cela fonctionne comme j'espère / m'attends à ce qu'il fonctionne).
J'ai essayé de formuler le problème en questions concrètes:
Question 1: Disons que je transfère la variable catégorielle en 5 variables muettes différentes par valeur (catégorie). Cette même procédure que j'exécute également pour la deuxième variable. Ensuite, je veux déterminer la corrélation entre le mannequin 1.i et 2.i (par exemple). Est-il statistiquement correct pour moi d'exécuter cette procédure au moyen d'une procédure de coefficient de corrélation ordinaire? Le coefficient de corrélation résultant de cette procédure fournit-il un aperçu approprié d'une corrélation entre les deux variables muettes?
Question 2: Si la procédure décrite à la question 1 est une procédure valide, existe-t-il un moyen d'exécuter cette analyse pour toutes les catégories de 2 (ou peut-être plus) variables nominales catégorielles en une seule fois?
Le programme que j'utilise est SPSS (20).
Réponses:
L'association "focale" entre la catégorie d'une variable nominale et la catégorie de l'autre s'exprime par la fréquence résiduelle dans la cellule , comme on le sait. Si le résiduel est 0, cela signifie que la fréquence est ce qui est attendu lorsque les deux variables nominales ne sont pas associées. Plus le résidu est grand, plus l'association est due à la combinaison surreprésentée dans l'échantillon. Le grand résidu négatif indique de manière équivalente la combinaison sous-représentée. Donc, la fréquence résiduelle est ce que vous voulez.i j ij ij
Les résidus bruts ne conviennent cependant pas, car ils dépendent des totaux marginaux et du total global et de la taille du tableau: la valeur n'est en aucun cas standardisée. Mais SPSS peut afficher des résidus standardisés également appelés résidus Pearson. St. résiduel est le résiduel divisé par une estimation de son écart type (égal à la racine carrée de la valeur attendue). Les résidus St. d'une table ont une moyenne de 0 et st. dev. 1; par conséquent, st. résiduel sert une valeur z, comme la valeur z dans une distribution d'une variable quantitative (en fait, c'est z dans la distribution de Poisson). Les résidus St. sont comparables entre différentes tables de même taille et le même total . La statistique du chi carré d'un tableau de contingence est la somme des m au carré. résidusN en elle. Comparer st. les résidus dans un tableau et sur des tableaux de même volume aident à identifier les cellules particulières qui contribuent le plus à la statistique du chi carré.
SPSS affiche également les résidus ajustés (= résidus normalisés ajustés). Adj. résiduel est le résiduel divisé par une estimation de son erreur type. Intéressant que adj. résiduel est juste égal à , où est le grand total et est la corrélation de Pearson (alias Phi corrélation) entre les variables fictives correspondant aux catégories et des deux variables nominales . Ce est exactement ce que vous dites que vous voulez calculer. Adj. résiduel lui est directement lié.N−−√rij N rij i j r
Contrairement à st. résiduel, adj. résiduel est également standardisé par rapport à la forme des distributions marginales dans le tableau (il prend en considération la fréquence attendue non seulement dans cette cellule mais aussi dans les cellules en dehors de sa ligne et de sa colonne) et vous pouvez donc voir directement la force de la établir un lien entre les catégories et - sans se soucier de savoir si leurs totaux marginaux sont grands ou petits par rapport aux autres catégories ». Adj. résiduel est aussi comme un z-score, mais maintenant c'est comme z de distribution normale (pas de Poisson). Si adj. résiduel est supérieur à 2 ou inférieur à -2, vous pouvez conclure qu'il est significatif au niveau . Adj. les résidus sont encore affectés par ;i j 1 N r ne le sont pas, mais vous pouvez obtenir tous les de adj. résidus, suivant la formule ci-dessus, sans passer de temps à produire des variables fictives. r 2
p<0.05
En ce qui concerne votre deuxième question, sur les liens de catégorie à 3 voies - cela est possible dans le cadre de l'analyse log-linéaire générale qui affiche également les résidus. Cependant, l'utilisation pratique des résidus cellulaires à 3 voies est modeste: les mesures d'association à 3 (+) voies ne sont pas facilement normalisées et ne sont pas facilement interprétables.
la source
Tiré directement d'un document sur les statistiques bivariées avec SPSS qui vit ici :
la source
the SPSS document
peu, ce n'était pas mon intention d'y attacher une authenticité indue.