Je veux apprendre l'ANOVA. Avant de commencer à apprendre comment fonctionne l'algorithme (quels calculs doivent être effectués) et pourquoi il fonctionne, je voudrais d'abord savoir quel problème résolvons-nous réellement avec ANOVA, ou quelle réponse essayons-nous de répondre. En d'autres termes: qu'est-ce que l'entrée et quelle est la sortie de l'algorithme?
Je comprends ce que nous utilisons comme entrée. Nous avons un ensemble de chiffres. Chaque nombre est accompagné de valeurs d'une ou plusieurs variables catégorielles (également appelées «facteurs»). Par exemple:
+------------+------------+-------+
| factor 1 | factor 2 | value |
+------------+------------+-------+
| "A" | "a" | 1.0 |
| "A" | "a" | 2.4 |
| "A" | "b" | 0.3 |
| "A" | "b" | 7.4 |
| "B" | "a" | 1.2 |
| "B" | "a" | 8.4 |
| "B" | "b" | 0.4 |
| "B" | "b" | 7.2 |
+------------+------------+-------+
Est-il exact de dire que l'ANOVA calcule la valeur de p de l'hypothèse nulle qui déclare qu'il n'y a aucun effet des facteurs sur la moyenne des valeurs? En d'autres termes, nous donnons les données données ci-dessus à l'algorithme et, par conséquent, nous obtenons la valeur de p de l'hypothèse nulle?
Si tel est le cas, quelle mesure utilisons-nous réellement pour calculer la valeur de p. Par exemple, nous pouvons dire que, étant donné l'hypothèse nulle, M peut être aussi élevé que celui observé (ou même plus) juste par hasard dans 1% des cas. Qu'est-ce que M?
N'étudions-nous pas également séparément les facteurs de l'ANOVA? L'ANOVA peut-elle dire que le facteur_1 a un effet mais pas le facteur_2? L'ANOVA peut-elle dire que pour un facteur donné, les valeurs correspondant à la valeur "A", "B" et "C" sont statistiquement indiscernables (ont la même moyenne, par exemple) mais la valeur "D" a un effet?