J'ai développé le package ez pour R comme un moyen d'aider les gens à passer des packages de statistiques comme SPSS à R. Ceci est (espérons-le) réalisé en simplifiant la spécification des différentes versions d'ANOVA et en fournissant une sortie de type SPSS (y compris les tailles d'effet et l'hypothèse tests), entre autres fonctionnalités. La ezANOVA()
fonction sert principalement d'enveloppe car::Anova()
, mais la version actuelle de ezANOVA()
n'implémente que des sommes de carrés de type II, tandis qu'elle car::Anova()
permet de spécifier des sommes de carrés de type II ou -III. Comme je m'y attendais peut-être, plusieurs utilisateurs ont demandé que je fournisse un argument enezANOVA()
qui permet à l'utilisateur de demander le type II ou le type III. J'ai été réticent à le faire et à exposer mon raisonnement ci-dessous, mais j'apprécierais la contribution de la communauté sur mon raisonnement ou sur tout autre raisonnement portant sur la question.
Raisons de ne pas inclure d'argument "SS_type" dans ezANOVA()
:
- La différence entre les carrés de somme de type I, II et III n'apparaît que lorsque les données sont déséquilibrées, auquel cas je dirais que l'amélioration du déséquilibre par une collecte de données plus avantageuse que la manipulation du calcul de l'ANOVA est plus bénéfique.
- La différence entre les types II et III s'applique aux effets d'ordre inférieur qui sont qualifiés par des effets d'ordre supérieur, auquel cas je considère les effets d'ordre inférieur scientifiquement sans intérêt. (Mais voir ci-dessous pour une complication possible de l'argument)
- Pour les rares cas où (1) et (2) ne s'appliquent pas (lorsque la collecte de données est impossible et que le chercheur a un intérêt scientifique valable pour un effet principal qualifié que je ne peux pas imaginer actuellement), on peut relativement facilement modifier la
ezANOVA()
source ou de employercar::Anova()
elle - même pour réaliser des tests de type III. De cette façon, je vois l'effort / compréhension supplémentaire requis pour obtenir des tests de type III comme un moyen par lequel je peux m'assurer que seuls ceux qui savent vraiment ce qu'ils font vont dans cette voie.
Maintenant, le demandeur de type III le plus récent a souligné que l'argument (2) est affaibli par l'examen des circonstances dans lesquelles des effets d'ordre supérieur existants mais "non significatifs" peuvent biaiser le calcul des sommes des carrés pour les effets d'ordre inférieur. Dans de tels cas, on peut imaginer qu'un chercheur se pencherait sur l'effet d'ordre supérieur, et voyant qu'il est "non significatif", se tourner vers une tentative d'interprétation des effets d'ordre inférieur qui, à l'insu du chercheur, ont été compromis. Ma première réaction est que ce n'est pas un problème avec des sommes de carrés, mais avec des valeurs de p et la tradition du test d'hypothèse nulle. Je soupçonne qu'une mesure plus explicite des preuves, comme le rapport de vraisemblance, pourrait être plus susceptible de donner une image moins ambiguë des modèles pris en charge conformément aux données. Cependant, je n'ai pas
la source
Réponses:
Juste pour amplifier - je suis le demandeur le plus récent, je crois.
En commentaire spécifique sur les points de Mike:
Il est clairement vrai que la différence I / II / III ne s'applique qu'aux prédicteurs corrélés (dont les plans déséquilibrés sont l'exemple le plus courant, certainement dans l'ANOVA factorielle) - mais cela me semble être un argument qui rejette l'analyse de la situation déséquilibrée (et donc tout débat de type I / II / III). Cela peut être imparfait, mais c'est ainsi que les choses se passent (et dans de nombreux contextes, les coûts de la collecte de données supplémentaires l'emportent sur le problème statistique, malgré les mises en garde).
C'est tout à fait juste et représente la chair de la plupart des arguments "II contre III, favorisant II" que j'ai rencontrés. Le meilleur résumé que j'ai rencontré est Langsrud (2003) "ANOVA pour les données déséquilibrées: utilisez le type II au lieu des sommes de carrés de type III", Statistics and Computing 13: 163-167 (J'ai un PDF si l'original est difficile à trouver ). Il soutient (en prenant le cas des deux facteurs comme exemple de base) que s'il y a une interaction, il y a une interaction, donc la prise en compte des effets principaux n'a généralement pas de sens (un point évidemment juste) - et s'il n'y a pas d'interaction, l'analyse de type II de les effets principaux sont plus puissants que le Type III (sans aucun doute), vous devriez donc toujours opter pour le Type II. J'ai vu d'autres arguments (par exemple Venables,
Et je suis d'accord avec cela: si vous avez une interaction mais que vous avez également des questions sur l'effet principal, vous êtes probablement sur le territoire du bricolage.
Il y a clairement ceux qui veulent juste le type III parce que SPSS le fait, ou une autre référence à l'autorité supérieure statistique. Je ne suis pas entièrement contre ce point de vue, si cela se résume à un choix de beaucoup de gens qui s'en tiennent à SPSS (contre lequel j'ai certaines choses, à savoir du temps, de l'argent et des conditions d'expiration de licence) et de Type III SS, ou beaucoup de les gens qui passent à R et Type III SS. Cependant, cet argument est clairement boiteux statistiquement.
Cependant, l'argument que j'ai trouvé plutôt plus substantiel en faveur du type III est celui avancé de manière indépendante par Myers & Well (2003, "Research Design and Statistical Analysis", pp. 323, 626-629) et Maxwell & Delaney (2004, " Designing Experiments and Analyzing Data: A Model Comparison Perspective ", pp. 324-328, 332-335). C'est comme suit:
Donc, mon interprétation (et je ne suis pas un expert!) Est qu'il y a beaucoup d'autorité statistique supérieure des deux côtés de l'argument; que les arguments habituels avancés ne concernent pas la situation habituelle qui poserait problème (cette situation étant la plus courante d'interprétation des effets principaux avec une interaction non significative); et qu'il y a de bonnes raisons de s'inquiéter de l'approche de type II dans cette situation (et cela revient à un rapport pouvoir / libéralisme potentiel).
Pour moi, c'est suffisant pour souhaiter l'option Type III dans ezANOVA, ainsi que Type II, car (pour mon argent) c'est une superbe interface avec les systèmes ANOVA de R. R est loin d'être facile à utiliser pour les novices, à mon avis, et le package "ez", avec ezANOVA et les fonctions de traçage des effets plutôt charmantes, contribue grandement à rendre R accessible à un public de recherche plus général. Certaines de mes pensées en cours (et un méchant hack pour ezANOVA) sont à http://www.psychol.cam.ac.uk/statistics/R/anova.html .
Serait intéressé d'entendre les pensées de tout le monde!
la source
Mise en garde: une réponse purement non statistique. Je préfère travailler avec une fonction (ou au moins un package) lorsque je fais le même type d'analyse (par exemple, ANOVA). Jusqu'à présent, j'utilise systématiquement
Anova()
car je préfère sa syntaxe pour spécifier des modèles avec des mesures répétées - par rapport àaov()
, et je perds peu (SS type I) avec des mesures non répétées.ezANOVA()
est agréable pour l'avantage supplémentaire des tailles d'effet. Mais ce que je n'aime pas particulièrement, c'est de devoir traiter avec 3 fonctions différentes pour faire essentiellement le même type d'analyse, juste parce que l'une d'elles implémente la fonction X (mais pas Y), et l'autre Y (mais pas X).Pour ANOVA, je peux choisir entre
oneway()
,lm()
,aov()
,Anova()
,ezANOVA()
, et probablement d' autres. Lorsque vous enseignez le R, il est déjà difficile d'expliquer les différentes options, comment elles sont liées les unes aux autres (aov()
est un wrapper pourlm()
) et quelle fonction fait quoi:oneway()
uniquement pour les modèles à facteur unique mais avec optionvar.equal=FALSE
. Pas une telle option dansaov()
et d'autres, mais ces fonctions s'appliquent également aux conceptions multifactorielles.aov()
, meilleureAnova()
aov()
, pas dansAnova()
Anova()
, pas dansaov()
ezANOVA()
, pas dans d'autresCe serait bien de n'avoir qu'à enseigner une fonction avec une syntaxe cohérente qui fait tout. Sans SS de type III,
ezANOVA()
cela ne peut pas être cette fonction parce que je sais que les étudiants seront invités à les utiliser à un moment donné ("il suffit de recouper ces résultats que John Doe a obtenus avec SPSS"). Je pense qu'il vaut mieux avoir la possibilité de faire son choix sans avoir à apprendre une autre syntaxe pour spécifier les modèles. L'attitude «Je sais ce qui vous convient le mieux» peut avoir ses mérites, mais peut être trop protectrice.la source
multcomp
package (qui, pour autant que je m'en souvienne, nécessite desaov
objets). Sinon, je suis totalement d'accord et l'utilise normalementez
pour mon travail quotidien, car c'est si facile ...aov
élément qui serait génial. Jusqu'à présent, je suis généralement trop paresseux pour créer mon propreaov
élément et vous utiliser à laezANOVA
place avec des tests ...ez
paquet a un grand potentiel: en psychologie, il est déjà assez souvent recommandé (cf. livre allemand "R für Einsteiger" de Luhmann). Le rendre encore plus flexible serait certainement apprécié.Le monde R n'aime pas trop le Type 3 SS.
L'une des références habituellement citées est les "Exégèses sur les modèles linéaires" de Bill Venables (2000) .
J'espère que je ne le méprise pas, mais je pense que son principal argument est que les SS de type 3 violent le principe de marginalité des modèles linéaires et ne sont donc pas raisonnables.
la source
Cela a été pour moi un débat révélateur sur la question de type II / III. Merci pour tout l'effort fourni pour la discussion. J'étais venu à l'idée de promouvoir le type II de manière cohérente par rapport au type III, mais j'avais une faible compréhension de l'argument - je me suis juste appuyé sur les conseils du livre de régression (voiture) de John Fox qui recommandait que les tests de type III étaient rarement interprétable (enfin, je pense qu'il l'a dit ...).
Quoi qu'il en soit, ezANOVA est vraiment utile pour permettre l'accès à la fonctionnalité R qui serait autrement impossible pour les étudiants de premier cycle que j'enseigne en psychologie. Je fournis des modules R en ligne, dont un avec ezANOVA pour démontrer des conceptions mixtes d'ANOVA (bien qu'il semble que la version antérieure à 3 ait peut-être été boguée pour cela ... doh!)
Essayez-le ici:
http://www.wessa.net/rwasp_Mixed%20Model%20ANOVA.wasp
après le chargement du module (~ 10 s), trouvez le bouton de calcul (à mi-chemin de la page) et il exécutera ezANOVA et les tableaux et tracés associés.
Ian
la source