Comment tester la normalité dans une ANOVA 2x2?

8

Conception de l'étude: J'ai montré aux participants des informations sur l'élévation du niveau de la mer, en concentrant les informations de différentes manières, à la fois en termes d'échelle de temps et d'amplitude de l'élévation potentielle. J'ai donc eu un design 2 (Time: 2050 ou 2100) par 2 (Magnitude: Medium ou High). Il y avait également deux groupes de contrôle qui n'ont reçu aucune information, répondant uniquement aux questions de mes DV.

Questions: J'ai toujours vérifié la normalité dans les cellules - pour la partie 2x2 de cette conception, cela signifierait rechercher la normalité dans 4 groupes. Cependant, la lecture de certaines discussions ici m'a fait deviner mes méthodes.

D'abord, j'ai lu que je devrais regarder la normalité des résidus. Comment puis-je vérifier la normalité des résidus (dans SPSS ou ailleurs)? Dois-je le faire pour chacun des 4 groupes (6 y compris les contrôles)?

J'ai également lu que la normalité au sein des groupes implique la normalité des résidus. Est-ce vrai? (Références bibliographiques?) Encore une fois, cela signifie-t-il de regarder chacune des 4 cellules séparément?

En bref, quelles mesures prendriez- vous pour déterminer si vos données (2x2) ne violent pas les hypothèses de normalité?

Les références sont toujours appréciées, ne serait-ce que pour m'orienter dans la bonne direction.

Lee
la source

Réponses:

6

La plupart des progiciels de statistiques permettent d'enregistrer les résidus de votre modèle. En utilisant GLM - UNIVARIATESPSS, vous pouvez économiser des résidus. Cela ajoutera une variable à votre fichier de données représentant le résiduel pour chaque observation.

Une fois que vous avez vos résidus, vous pouvez les examiner pour voir s'ils sont normalement distribués, homoscédastiques, etc. Par exemple, vous pouvez utiliser un test de normalité formel sur votre variable résiduelle ou peut-être de façon plus appropriée, vous pouvez tracer les résidus pour vérifier les écarts majeurs par rapport à la normalité. Si vous souhaitez examiner l'homoscédasticité, vous pouvez obtenir un graphique qui examine les résidus par groupe.

Pour une ANOVA factorielle de base entre sujets, où l'homogénéité de la variance tient, la normalité au sein des cellules signifie la normalité des résidus parce que votre modèle en ANOVA est de prédire les moyennes de groupe. Ainsi, le résidu n'est que la différence entre les moyennes de groupe et les données observées.

Réponse aux commentaires ci-dessous:

  • Les résidus sont définis par rapport à vos prédictions de modèle. Dans ce cas, vos prédictions de modèle sont vos moyennes cellulaires. C'est une façon plus généralisable de penser aux tests d'hypothèse si vous vous concentrez sur le traçage des résidus plutôt que sur le traçage des moyennes des cellules individuelles, même si dans ce cas particulier, ils sont fondamentalement les mêmes. Par exemple, si vous ajoutez une covariable (ANCOVA), les résidus seraient plus appropriés à examiner que les distributions à l'intérieur des cellules.
  • Aux fins de l'examen de la normalité, les résidus normalisés et non normalisés fourniront la même réponse. Les résidus normalisés peuvent être utiles lorsque vous essayez d'identifier des données mal modélisées par les données (c'est-à-dire une valeur aberrante).
  • L'homogénéité de la variance et l'homoscédasticité signifient la même chose à ma connaissance. Encore une fois, il est courant d'examiner cette hypothèse en comparant les variances entre les groupes / cellules. Dans votre cas, que vous calculiez la variance des résidus pour chaque cellule ou sur la base des données brutes de chaque cellule, vous obtiendrez les mêmes valeurs. Cependant, vous pouvez également tracer les résidus sur l'axe des y et les valeurs prévues sur l'axe des x. Il s'agit d'une approche plus généralisable car elle s'applique également à d'autres situations telles que lorsque vous ajoutez des covariables ou que vous effectuez une régression multiple.
  • Un point a été soulevé ci-dessous: lorsque vous avez une hétéroscédasticité (c'est-à-dire que la variance intra-cellule varie entre les cellules de la population) et des résidus normalement distribués à l'intérieur des cellules, la distribution résultante de tous les résidus serait non normale. Le résultat serait une distribution mixte de variables avec une moyenne de zéro et des variances différentes avec des proportions relatives à la taille des cellules. La distribution résultante n'aura pas de biais zéro, mais aurait probablement une certaine quantité de kurtosis. Si vous divisez les résidus par leur écart-type intra-cellule correspondant, vous pouvez supprimer l'effet d'hétéroscédasticité; le traçage des résidus qui en résulterait fournirait un test global pour déterminer si les résidus sont normalement distribués indépendamment de toute hétéroscédasticité.
Jeromy Anglim
la source
Ah oui, je vois comment les sauver. D'après ce que vous dites, je suppose que ce qu'il économise, ce sont les résidus par groupe, c'est-à-dire les différences entre les valeurs de l'échantillon et les moyennes des cellules, et non la moyenne. Dois-je examiner les résidus normalisés ou non normalisés? Cependant, pourquoi examiner les résidus si cela équivaut à examiner la normalité au sein des cellules? C'est certainement plus simple. Et enfin, vous mentionnez l'homoscédasticité. Je vérifie généralement l'homogénéité de la variance entre les cellules. Est-ce quelque chose qui pourrait également nécessiter un examen des résidus?
Lee
@Lee Ok. J'ai modifié ma réponse pour répondre à vos commentaires.
Jeromy Anglim
+1, il y a vraiment beaucoup de bonnes informations ici. Une remarque, j'ai du mal à analyser certaines parties de votre 3e puce, certaines modifications peuvent être utiles.
gung - Rétablir Monica
@gung Merci pour la rétroaction. Je lui ai donné un petit montage pour essayer de rendre le point 3 un peu plus clair.
Jeromy Anglim
Merci; beaucoup d'excellentes informations ici. Il sera difficile de sortir de mon habitude de regarder la normalité des données brutes (au sein des cellules), mais je prêterai certainement attention aux résidus pour les analyses futures.
Lee
3

Malgré de nombreux manuels d'introduction le soulignant, vous n'avez pas besoin de Normalité. Avec une taille d'échantillon modeste et la même variance dans chacun des groupes, c'est-à-dire l'homoscédasticité, l'ANOVA fournira une inférence précise sur les différences de réponse moyenne entre les groupes. S'il existe des raisons de soupçonner une variance non constante - et il se peut bien qu'il y en ait - alors des erreurs standard cohérentes avec l'hétéroscédasticité peuvent être utilisées.

Ces propriétés sont des extensions de celles qui sont bien connues pour le test t; avec une variance constante, vous pouvez utiliser le test t "plain vanilla", quelle que soit la normalité (un résultat connu de Fisher, retour) et avec une variance non constante, la variance inégale fonctionne également très bien sans normalité. La version à variance inégale est équivalente au test de Wald qui utilise des erreurs standard cohérentes avec l'hétéroscédasticité.

client
la source
Qu'est-ce qui vous fait dire que la normalité n'a pas d'importance? L'ANOVA et le test t peuvent être très sensibles à l'asymétrie. Si la distribution sous-jacente est asymétrique, vous ne devez pas utiliser l'une ou l'autre méthode pour les petits échantillons.
MånsT
Je serais très heureux d'examiner les références qui soutiennent cette déclaration, en particulier les plus récentes. Cependant, sans ces références, je dois me fier à la majorité des manuels.
Lee
2
Voici une référence ; notez qu'ils essaient vraiment de casser la méthode, avec des exemples assez extrêmes. Avec des données moins extrêmes, tout fonctionnera toujours avec des tailles d'échantillons modestes. Vous pouvez également consulter le texte classique de McCullagh et Nelder sur les modèles linéaires (généralisés), où ils prennent soin de décrire la régression linéaire à l'aide de modèles à "variance constante", car c'est l'hypothèse qui importe. Pour les erreurs standard robustes, voir les textes d'économétrie d'introduction; la documentation du logiciel STATA est également une bonne source.
invité