À quelle question l'ANOVA répond-elle?

Je veux apprendre l'ANOVA. Avant de commencer à apprendre comment fonctionne l'algorithme (quels calculs doivent être effectués) et pourquoi il fonctionne, je voudrais d'abord savoir quel problème résolvons-nous réellement avec ANOVA, ou quelle réponse essayons-nous de répondre. En d'autres termes: qu'est-ce que l'entrée et quelle est la sortie de l'algorithme?

Je comprends ce que nous utilisons comme entrée. Nous avons un ensemble de chiffres. Chaque nombre est accompagné de valeurs d'une ou plusieurs variables catégorielles (également appelées «facteurs»). Par exemple:

+------------+------------+-------+
|   factor 1 |   factor 2 | value |
+------------+------------+-------+
|     "A"    |     "a"    |  1.0  |
|     "A"    |     "a"    |  2.4  |
|     "A"    |     "b"    |  0.3  |
|     "A"    |     "b"    |  7.4  |
|     "B"    |     "a"    |  1.2  |
|     "B"    |     "a"    |  8.4  |
|     "B"    |     "b"    |  0.4  |
|     "B"    |     "b"    |  7.2  |
+------------+------------+-------+

Est-il exact de dire que l'ANOVA calcule la valeur de p de l'hypothèse nulle qui déclare qu'il n'y a aucun effet des facteurs sur la moyenne des valeurs? En d'autres termes, nous donnons les données données ci-dessus à l'algorithme et, par conséquent, nous obtenons la valeur de p de l'hypothèse nulle?

Si tel est le cas, quelle mesure utilisons-nous réellement pour calculer la valeur de p. Par exemple, nous pouvons dire que, étant donné l'hypothèse nulle, M peut être aussi élevé que celui observé (ou même plus) juste par hasard dans 1% des cas. Qu'est-ce que M?

N'étudions-nous pas également séparément les facteurs de l'ANOVA? L'ANOVA peut-elle dire que le facteur_1 a un effet mais pas le facteur_2? L'ANOVA peut-elle dire que pour un facteur donné, les valeurs correspondant à la valeur "A", "B" et "C" sont statistiquement indiscernables (ont la même moyenne, par exemple) mais la valeur "D" a un effet?

anova romain
la source

Réponses:

ANOVA signifie "Analysis of Variance". Sans surprise, il analyse la variance.

Soyons un peu plus explicites. Vos observations présenteront une certaine variance. Si vous groupez vos observations par votre facteur 1, la variance au sein des groupes définis par le facteur 1 sera inférieure à la variance globale. Le facteur 1 "explique la variance".

Cependant, cela ne suffit pas pour conclure que le facteur 1 a effectivement un rapport avec vos observations ... parce que le regroupement par quoi que ce soit "expliquera" la variance. La bonne chose est que nous savons combien la variance sera expliquée sous l'hypothèse nulle que votre facteur n'a, en fait, rien à voir avec vos observations. Cette quantité de variance expliquée sous la valeur nulle est décrite par une distribution $F$

$F$ $F$ $F$ $p$ $F$

(Pourquoi un test unilatéral? Parce que, comme ci-dessus, tout regroupement expliquera une certaine variance, il est donc logique de vérifier si votre facteur explique une variance significativement importante .)

La section "Exemple de motivation" de l'entrée Wikipédia fournit de très belles illustrations de facteurs qui expliquent très peu, certains et beaucoup de la variance globale.

L'ANOVA bidirectionnelle et les interactions, comme dans votre exemple, ainsi que l'ANCOVA, ne sont alors que des généralisations sur ce thème. Dans chaque cas, nous examinons si l'ajout d'une variable explicative explique une quantité de variance significativement importante.

$F$ $t$

Stephan Kolassa
la source

V

$V$

v_{i}

$v_i$

M = M (V, v_{1}, v_{2}, . . ., v_{k}, n_{1}, n_{2}, . . ., n_{k})

$M = M (V, v_1, v_2, ..., v_k, n_1, n_2, ..., n_k)$ . Ensuite, nous calculons la probabilité que M soit aussi grand qu'il est ou même plus grand en supposant que l'hypothèse nulle est correcte.

Roman

M

$M$

F

$F$

Pour être honnête, je suis encore un peu confus. Pour autant que je vous ai, ANOVA renvoie la valeur de p de l'hypothèse nulle. Mais d'un autre côté, à partir de "l'exemple motivant" de Wikipedia, on peut conclure que l'ANOVA nous donne le meilleur facteur (ou une combinaison de facteurs), qui "explique" le mieux les données. Ainsi, dans l'exemple, l'ANOVA dit que la race est le meilleur facteur pour expliquer le poids des chiens.

Roman

F

$F$