Pourquoi les hypothèses ANOVA (égalité de variance, normalité des résidus) sont-elles importantes?

15

Lors de l'exécution d'une ANOVA, on nous dit que certaines hypothèses du test doivent être présentes pour qu'il soit applicable aux données. Je n'ai jamais compris la raison pour laquelle les hypothèses suivantes étaient nécessaires au fonctionnement du test:

  1. La variance de votre variable dépendante (résidus) doit être égale dans chaque cellule du plan

  2. Votre variable dépendante (résidus) doit être distribuée approximativement normalement pour chaque cellule de la conception

Je comprends qu'il y ait un peu de zone grise pour savoir si ces hypothèses doivent être respectées, mais pour les besoins de l'argument, si ces hypothèses n'étaient absolument pas satisfaites dans un ensemble de données donné, quel serait le problème avec l'utilisation d'une ANOVA ?

PaperRockBazooka
la source
quel est le but de votre étude?
Subhash C. Davar

Réponses:

8

Les hypothèses sont importantes dans la mesure où elles affectent les propriétés des tests d'hypothèse (et des intervalles) que vous pourriez utiliser dont les propriétés de distribution sous la valeur nulle sont calculées en fonction de ces hypothèses.

En particulier, pour les tests d'hypothèses, nous pouvons nous préoccuper de savoir dans quelle mesure le véritable niveau de signification peut être éloigné de ce que nous voulons qu'il soit, et si le pouvoir contre les alternatives d'intérêt est bon.

En ce qui concerne les hypothèses que vous posez sur:

1. Égalité de variance

La variance de votre variable dépendante (résidus) doit être égale dans chaque cellule du plan

Cela peut certainement avoir un impact sur le niveau de signification, du moins lorsque la taille des échantillons est inégale.

(Modifier :) Une statistique ANOVA F est le rapport de deux estimations de la variance (le partitionnement et la comparaison des variances est la raison pour laquelle on l'appelle analyse de la variance). Le dénominateur est une estimation de la variance d'erreur censée être commune à toutes les cellules (calculée à partir des résidus), tandis que le numérateur, basé sur la variation des moyennes du groupe, aura deux composantes, l'une à partir de la variation des moyennes de population et l'autre en raison de la variance d'erreur. Si la valeur nulle est vraie, les deux variances qui sont estimées seront les mêmes (deux estimations de la variance d'erreur commune); cette valeur commune mais inconnue s'annule (parce que nous avons pris un ratio), laissant une statistique F qui ne dépend que des distributions des erreurs (qui selon les hypothèses que nous pouvons montrer a une distribution F. (Des commentaires similaires s'appliquent au t- test que j'ai utilisé pour l'illustration.)

[Il y a un peu plus de détails sur certaines de ces informations dans ma réponse ici ]

Cependant, ici, les deux variances de population diffèrent entre les deux échantillons de tailles différentes. Considérons le dénominateur (de la statistique F dans l'ANOVA et de la statistique t dans un test t) - il est composé de deux estimations de variance différentes, pas une, donc il n'aura pas la "bonne" distribution (un chi - carré pour le F et sa racine carrée dans le cas de at - la forme et l'échelle sont des problèmes).

Par conséquent, la statistique F ou la statistique t n'aura plus la distribution F ou t, mais la manière dont elle est affectée est différente selon que le grand ou le plus petit échantillon a été tiré de la population avec la plus grande variance. Cela affecte à son tour la distribution des valeurs de p.

Sous la valeur nulle (c'est-à-dire lorsque les moyennes de population sont égales), la distribution des valeurs de p devrait être uniformément distribuée. Cependant, si les variances et les tailles d'échantillon sont inégales mais que les moyennes sont égales (nous ne voulons donc pas rejeter la valeur nulle), les valeurs de p ne sont pas uniformément distribuées. J'ai fait une petite simulation pour vous montrer ce qui se passe. Dans ce cas, j'ai utilisé seulement 2 groupes, donc l'ANOVA est équivalente à un test t à deux échantillons avec l'hypothèse de variance égale. J'ai donc simulé des échantillons de deux distributions normales, l'une avec un écart-type dix fois plus grand que l'autre, mais des moyennes égales.

Pour le graphique de gauche, l' écart-type ( population ) le plus élevé était pour n = 5 et l'écart-type plus petit était pour n = 30. Pour le graphique de droite, l'écart-type le plus élevé est allé avec n = 30 et le plus petit avec n = 5. J'ai simulé chacun 10000 fois et trouvé la valeur p à chaque fois. Dans chaque cas, vous voulez que l'histogramme soit complètement plat (rectangulaire), car cela signifie que tous les tests effectués à un niveau de signification avec obtiennent réellement ce taux d'erreur de type I. En particulier, il est très important que les parties les plus à gauche de l'histogramme restent proches de la ligne grise:α

Histogrammes des valeurs de p pour les échantillons simulés

Comme nous le voyons, le graphique de gauche (plus grande variance dans le plus petit échantillon) les valeurs de p ont tendance à être très petites - nous rejetterions l'hypothèse nulle très souvent (près de la moitié du temps dans cet exemple) même si la valeur nulle est vraie . Autrement dit, nos niveaux de signification sont beaucoup plus élevés que nous l'avions demandé. Dans le graphique de droite, nous voyons que les valeurs de p sont pour la plupart grandes (et donc notre niveau de signification est beaucoup plus petit que ce que nous avions demandé) - en fait, pas une fois sur dix mille simulations, nous n'avons rejeté au niveau de 5% (le plus petit La valeur de p était ici de 0,055). [Cela peut ne pas sembler une si mauvaise chose, jusqu'à ce que nous nous souvenions que nous aurons également une très faible puissance pour aller avec notre niveau de signification très faible.]

C'est tout à fait une conséquence. C'est pourquoi c'est une bonne idée d'utiliser un test t de type Welch-Satterthwaite ou une ANOVA lorsque nous n'avons pas de bonnes raisons de supposer que les variances seront proches de l'égalité - en comparaison, il est à peine affecté dans ces situations (I a également simulé ce cas; les deux distributions des valeurs de p simulées - que je n'ai pas montrées ici - se sont révélées assez proches de plates).

2. Distribution conditionnelle de la réponse (DV)

Votre variable dépendante (résidus) doit être distribuée approximativement normalement pour chaque cellule de la conception

Ceci est un peu moins directement critique - pour les écarts modérés par rapport à la normalité, le niveau de signification n'est donc pas beaucoup affecté dans les échantillons plus grands (bien que la puissance puisse l'être!).

Voici un exemple, où les valeurs sont distribuées de façon exponentielle (avec des distributions et des tailles d'échantillons identiques), où nous pouvons voir que ce problème de niveau de signification est substantiel à petit mais diminue avec un grand n .nn

histogrammes des valeurs de p lorsque H0 est vrai mais les distributions dans chaque groupe sont exponentielles

Nous voyons qu'à n = 5 il y a beaucoup trop peu de petites valeurs de p (le niveau de signification pour un test à 5% serait environ la moitié de ce qu'il devrait être), mais à n = 50 le problème est réduit - pour un 5% test dans ce cas, le véritable niveau de signification est d'environ 4,5%.

Nous pourrions donc être tentés de dire "eh bien, ça va, si n est assez grand pour que le niveau de signification soit assez proche", mais nous pouvons aussi lancer une manière beaucoup de puissance. En particulier, il est connu que l'efficacité relative asymptotique du test t par rapport aux alternatives largement utilisées peut aller à 0. Cela signifie que de meilleurs choix de test peuvent obtenir la même puissance avec une fraction disparate de la taille de l'échantillon requise pour l'obtenir avec le test t. Vous n'avez besoin de rien d'extraordinaire pour avoir besoin de plus de deux fois plus de données pour avoir la même puissance avec le t que vous auriez besoin avec un test alternatif - des queues modérément plus lourdes que la normale dans la distribution de la population et des échantillons modérément gros peuvent suffire à le faire.

(D'autres choix de distribution peuvent rendre le niveau de signification supérieur à ce qu'il devrait être, ou sensiblement inférieur à ce que nous avons vu ici.)

Glen_b -Reinstate Monica
la source
Merci Glen pour la réponse détaillée. Je suis curieux de savoir pourquoi les erreurs que vous avez décrites se produiraient si les hypothèses n'étaient pas respectées. En termes d'égalité de variance, ai-je raison de tirer de votre écriture ce qui suit? la plus grande variance est (ainsi que le nombre de points de données étant généralement faible, c'est-à-dire n = 5) que la plus grande variance observée dans le plus petit échantillon est calculée comme représentative de la variance au niveau de la population.
PaperRockBazooka
(partie 2) Il s'agit essentiellement d'une comparaison injuste entre un échantillon représentatif et un échantillon sous-représentatif (relativement parlant), ce qui peut entraîner une erreur de type 1 en raison du traitement de l'ANOVA.
PaperRockBazooka
@Paper Je ne pense pas que ce soit le problème ici. Ce n'est pas la représentativité de la variance de l'échantillon dans le plus petit échantillon (par exemple, si les deux échantillons étaient également petits, vous auriez deux fois le problème de la représentativité, mais ce problème serait absent). J'ai ajouté quelques paragraphes à ma réponse pour expliquer comment le problème se pose plus en détail.
Glen_b -Reinstate Monica
4

En résumé, l'ANOVA ajoute , ajuste et calcule les résidus . Les résidus vous indiquent dans quelle mesure votre modèle correspond aux données. Pour cet exemple, j'ai utilisé l' PlantGrowthensemble de données dans R:

Résultats d'une expérience pour comparer les rendements (mesurés par le poids sec des plantes) obtenus sous un contrôle et deux conditions de traitement différentes.

Ce premier graphique vous montre la moyenne des trois niveaux de traitement:

entrez la description de l'image ici

Les lignes rouges sont les résidus . Maintenant, en quadrillant et en ajoutant la longueur de ces lignes individuelles, vous obtiendrez une valeur qui vous indique dans quelle mesure la moyenne (notre modèle) décrit les données. Un petit nombre, vous indique que la moyenne décrit bien vos points de données, un plus grand nombre vous indique que la moyenne décrit vos données moins bien. Ce nombre est appelé Total Sums of Squares :

SStotunel=(Xje-X¯grunen)2XjeX¯grunen

Maintenant, vous faites la même chose pour les résidus dans votre traitement ( Somme des carrés résiduels , également connu sous le nom de bruit dans les niveaux de traitement):

entrez la description de l'image ici

Et la formule:

SSresjeuunels=(Xjek-X¯k)2XjekjekX¯k

Enfin, nous devons déterminer le signal dans les données, connu sous le nom de sommes de modèle des carrés , qui sera utilisé plus tard pour calculer si les moyens de traitement sont différents de la moyenne:

entrez la description de l'image ici

Et la formule:

SSmoel=nk(X¯k-X¯grunen)2nknkX¯kX¯grunen

Désormais, l'inconvénient des sommes des carrés est qu'elles s'agrandissent à mesure que la taille de l'échantillon augmente. Pour exprimer ces sommes de carrés par rapport au nombre d'observations dans l'ensemble de données, vous les divisez par leurs degrés de liberté en les transformant en variances. Donc, après avoir quadrillé et ajouté vos points de données, vous les calculez maintenant en utilisant leurs degrés de liberté:

Ftotunel=(n-1)

Fresjeuunel=(n-k)

Fmoel=(k-1)

nk

Cela donne le carré moyen du modèle et le carré moyen résiduel (les deux sont des variances), ou le rapport signal / bruit, qui est connu comme la valeur F:

MSmoel=SSmoelFmoel

MSresjeuunel=SSresjeuunelFresjeuunel

F=MSmoelMSresjeuunel

La valeur F décrit le rapport signal / bruit, ou si les moyens de traitement sont différents de la moyenne. La valeur F est maintenant utilisée pour calculer les valeurs p et ceux-ci décideront si au moins un des moyens de traitement sera significativement différent de la moyenne générale ou non.

J'espère maintenant que vous pouvez voir que les hypothèses sont basées sur des calculs avec des résidus et pourquoi elles sont importantes. Puisque nous ajoutons , mettons au carré et faisons la moyenne des résidus, nous devons nous assurer qu'avant de le faire, les données de ces groupes de traitement se comportent de manière similaire , sinon la valeur F peut être biaisée dans une certaine mesure et les inférences tirées de cette valeur F peuvent ne pas être valide.

Edit: J'ai ajouté deux paragraphes pour répondre plus précisément aux questions 2 et 1 du PO .

Hypothèse de normalité : La moyenne (ou valeur attendue) est souvent utilisée en statistique pour décrire le centre d'une distribution, mais elle n'est pas très robuste et facilement influencée par les valeurs aberrantes. La moyenne est le modèle le plus simple que nous puissions adapter aux données. Étant donné que dans l'ANOVA, nous utilisons la moyenne pour calculer les résidus et les sommes des carrés (voir les formules ci-dessus), les données devraient être distribuées de façon approximativement normale (hypothèse de normalité). Si ce n'est pas le cas, la moyenne peut ne pas être le modèle approprié pour les données car elle ne nous donnerait pas un emplacement correct du centre de la distribution de l'échantillon. Au lieu de cela, une fois, vous pourriez utiliser la médiane par exemple (voir les procédures de tests non paramétriques).

Hypothèse d'homogénéité de la variance : Plus tard, lorsque nous calculons les carrés moyens (modèle et résiduel), nous regroupons les sommes individuelles des carrés à partir des niveaux de traitement et les faisons la moyenne (voir les formules ci-dessus). En regroupant et en faisant la moyenne, nous perdons les informations sur les variances des niveaux de traitement individuels et leur contribution aux carrés moyens. Par conséquent, nous devrions avoir à peu près la même variance entre tous les niveaux de traitement afin que la contribution aux carrés moyens soit similaire. Si les écarts entre ces niveaux de traitement étaient différents, alors les carrés moyens et la valeur F résultants seraient biaisés et influenceraient le calcul des valeurs p, ce qui rendrait douteuses les inférences tirées de ces valeurs p (voir aussi le commentaire de @whuber et @Glen_b's answer).

Voilà comment je le vois par moi-même. Elle peut ne pas être exacte à 100% (je ne suis pas statisticien) mais elle m'aide à comprendre pourquoi il est important de satisfaire aux hypothèses de l'ANOVA.

Stefan
la source
Votre compte est bon, mais vous vous êtes arrêté juste avant de répondre à la question! leFla statistique est une description utile de l'ANOVA, quoi qu'il arrive. Les hypothèses d'homoscédasticité et de normalité sont nécessaires pour que leF la statistique aura en fait un Fdistribution des ratios; en outre, des violations relativement faibles de l'une ou l'autre hypothèse tendent àF la distribution de la statistique de s'écarter sensiblement de la Fdistribution des ratios, jetant un doute sur les valeurs de p calculées à partir de celle-ci. C'est pourquoi d'autres réponses, comme par @Glen_b, se concentrent sur cette distribution.
whuber
@whuber J'apprécie votre commentaire, il m'aide à apprendre. Je vais devoir laisser cela pénétrer et passer du temps à regarder leF rapport vs le Fles distributions statistiques et leur influence sur les calculs des valeurs de p.
Stefan
Merci Stefan. Je veux voir si je vous comprends bien. L'ANOVA crée essentiellement une grande moyenne de tous les points de données de l'ensemble et compare à quelle distance chaque groupe diffère de cette grande moyenne pour comprendre s'il s'agit d'une différence statistiquement significative entre eux. Si les hypothèses discutées ne sont pas remplies, la moyenne générale n'est pas très représentative des groupes comparés et cela conduit à une difficulté de comparaison
PaperRockBazooka
@PaperRockBazooka Dans une ANOVA, vous comparez le signal au bruit. Si vous ne pouvez pas détecter un signal, c'est-à-dire l'effet de votre traitement sur le résultat, vous pourriez aussi bien prendre la grande moyenne que le modèle pour décrire les données. Nous utilisons la différence entre les points de données et la grande moyenne (SStotunel), la différence des données indique les moyens de traitement (SSresjeuunel) et la différence entre les moyennes de traitement et la moyenne (SSmoel) pour déterminer le rapport signal / bruit. Essayez de calculer une simple ANOVA unidirectionnelle à la main. Cela m'a aidé à mieux le comprendre.
Stefan
0

ANOVA c'est juste une méthode, il calcule le test F à partir de vos échantillons et le compare à la distribution F. Vous avez besoin de quelques hypothèses pour décider ce que vous voulez comparer et pour calculer les valeurs de p.

Si vous ne remplissez pas ces hypothèses, vous pouvez calculer d'autres choses, mais ce ne sera pas une ANOVA.

La distribution la plus utile est la distribution normale (à cause du CLT), c'est pourquoi elle est la plus utilisée. Si vos données ne sont pas normalement distribuées, vous devez au moins savoir quelle est leur distribution afin de calculer quelque chose.

L'homoscédasticité est une hypothèse courante également dans l'analyse de régression, elle facilite simplement les choses. Nous avons besoin de quelques hypothèses pour commencer.

Si vous n'avez pas d'homoscédasticité, vous pouvez essayer de transformer vos données pour y parvenir.

Le test ANOVA F est connu pour être presque optimal dans le sens de minimiser les erreurs fausses négatives pour un taux fixe d'erreurs fausses positives

skan
la source
"ANOVA" fait référence au processus de décomposition de sommes de carrés en composants interprétables. Quelles que soient les hypothèses de distribution, une ANOVA est donc une ANOVA.
whuber