Il y a beaucoup de choses sur la colinéarité en ce qui concerne les prédicteurs continus, mais pas tellement que je peux trouver sur les prédicteurs catégoriques. J'ai des données de ce type illustrées ci-dessous.
Le premier facteur est une variable génétique (nombre d'allèles), le second est une catégorie de maladie. Il est clair que les gènes précèdent la maladie et sont un facteur qui montre les symptômes qui conduisent à un diagnostic. Cependant, une analyse régulière utilisant des sommes de carrés de type II ou III, comme cela serait couramment fait en psychologie avec SPSS, manque l'effet. Une analyse de sommes de carrés de type I la récupère, lorsque l'ordre approprié est saisi car il dépend de l'ordre. De plus, il y a probablement des composants supplémentaires au processus de la maladie qui ne sont pas liés au gène qui ne sont pas bien identifiés avec le type II ou III, voir anova (lm1) ci-dessous vs lm2 ou Anova.
Exemples de données:
set.seed(69)
iv1 <- sample(c(0,1,2), 150, replace=T)
iv2 <- round(iv1 + rnorm(150, 0, 1), 0)
iv2 <- ifelse(iv2<0, 0, iv2)
iv2 <- ifelse(iv2>2, 2, iv2)
dv <- iv2 + rnorm(150, 0, 2)
iv2 <- factor(iv2, labels=c("a", "b", "c"))
df1 <- data.frame(dv, iv1, iv2)
library(car)
chisq.test(table(iv1, iv2)) # quick gene & disease relations
lm1 <- lm(dv~iv1*iv2, df1); lm2 <- lm(dv~iv2*iv1, df1)
anova(lm1); anova(lm2)
Anova(lm1, type="II"); Anova(lm2, type="II")
- lm1 avec le type I SS me semble être la manière appropriée d'analyser les données compte tenu de la théorie de base. Mon hypothèse est-elle correcte?
- J'ai l'habitude de manipuler explicitement des conceptions orthogonales, où ces problèmes n'apparaissent généralement pas. Est-il difficile de convaincre les examinateurs qu'il s'agit du meilleur processus (en supposant que le point 1 est correct) dans le contexte d'un champ centré sur SPSS?
- Et que signaler dans la section des statistiques? Une analyse supplémentaire ou des commentaires qui devraient être inclus?
la source
Réponses:
La colinéarité entre les facteurs est assez compliquée. L'exemple classique est celui que vous obtenez lorsque vous regroupez et codez de manière fictive les trois variables continues «âge», «période» et «année». Il est analysé dans:
Les coefficients que vous obtenez, après avoir supprimé quatre (et non trois) références, ne sont identifiés que jusqu'à une tendance linéaire inconnue. Ceci peut être analysé car la colinéarité résulte d'une colinéarité connue dans les variables sources (âge + année = période).
Certains travaux ont également été menés sur la colinéarité parasite entre deux facteurs. Il a été analysé dans:
Le résultat est que la colinéarité entre les variables catégorielles signifie que l'ensemble de données doit être divisé en parties déconnectées, avec un niveau de référence dans chaque composant. Les coefficients estimés de différentes composantes ne peuvent pas être comparés directement.
Pour des colinéarités plus compliquées entre trois facteurs ou plus, la situation est compliquée. Il existe des procédures pour trouver des fonctions estimables, c'est-à-dire des combinaisons linéaires des coefficients qui sont interprétables, par exemple dans:
Mais à ma connaissance, il n'existe pas de solution miracle générale pour gérer de telles colinéarités de manière intuitive.
la source
Après avoir discuté avec certaines des personnes statistiques de la place. Il semble que ce type de question ne soit pas la plus correcte. L'utilisation de l'ANOVA (ou de méthodes similaires) pour étudier les interactions génétiques et diagnostiques sur les mesures neuropsychologiques lorsqu'elles sont fortement corrélées est une question difficile. J'ai plutôt été invité à examiner la structure des données avec la modélisation d'équations structurelles.
Cette réponse sera mise à jour au fur et à mesure que j'en apprendrai plus sur SEM.
la source