Pourquoi les mesures répétées ANOVA supposent-elles la sphéricité?

Par sphéricité, j'entends l'hypothèse que la variance de toutes les différences par paires entre les groupes devrait être la même.

En particulier, je ne comprends pas pourquoi cela devrait être l'hypothèse et non pas que les variances des scores de groupe observés eux-mêmes soient les mêmes.

anova repeated-measures assumptions sphericity user1205901 - Réintégrer Monica
la source

Comme je l'ai commenté ici , parce que les variables de différence entre les niveaux de RM sont liées, par leur origine, la sphéricité implique alors qu'elles ont les mêmes variances.

ttnphns

Avant de répondre, il serait utile de savoir si vous comprenez pourquoi les mesures indépendantes ANOVA ont une hypothèse d'homogénéité de variance.

John

@John Je crois comprendre que la réponse donnée sur stats.stackexchange.com/questions/81914/… répond correctement à cette question.

user1205901

@ttnphns Malheureusement, je ne comprends pas très bien votre réponse. Est-ce que vous ou une autre affiche souhaiteriez la transformer en une réponse plus détaillée?

user1205901

Réponses:

Intuition derrière l'hypothèse de sphéricité

L'une des hypothèses des mesures communes non répétées, l'ANOVA est une variance égale dans tous les groupes.

(Nous pouvons le comprendre car une variance égale, également connue sous le nom d' homoscédasticité , est nécessaire pour que l'estimateur OLS en régression linéaire soit BLEU et pour que les tests t correspondants soient valides, voir le théorème de Gauss-Markov . Et l'ANOVA peut être implémentée comme linéaire régression.)

Essayons donc de réduire le cas RM-ANOVA au cas non RM. Par souci de simplicité, je traiterai de RM-ANOVA à un facteur (sans aucun effet inter-sujet) qui a sujets enregistrés dans conditions RM. $n$ $k$

Chaque sujet peut avoir son propre décalage ou interception spécifique au sujet. Si nous soustrayons les valeurs d'un groupe des valeurs de tous les autres groupes, nous annulerons ces interceptions et arriverons à la situation où nous pourrons utiliser des non-RM-ANOVA pour tester si ces différences de groupe sont toutes nulles. Pour que ce test soit valide, nous avons besoin d'une hypothèse de variances égales de ces différences . $k-1$ $k-1$

Maintenant, nous pouvons soustraire le groupe # 2 de tous les autres groupes, en obtenant à nouveau des différences qui devraient également avoir des variances égales. Pour chaque groupe sur , les variances des différences correspondantes doivent être égales. Il s'ensuit rapidement que toutes les différences possibles doivent être égales. $k-1$ $k$ $k-1$ $k(k-1)/2$

C'est précisément l'hypothèse de sphéricité.

Pourquoi les variances de groupe ne devraient-elles pas être égales elles-mêmes?

Lorsque nous pensons à RM-ANOVA, nous pensons généralement à un simple modèle additif de style modèle mixte de la forme où sont des effets de sujet, sont des effets de condition, et .

y_{i j} = μ + α_{i} + β_{j} + ϵ_{i j},

$y_{ij}=\mu+\alpha_i + \beta_j + \epsilon_{ij},$

α_{i}

$\alpha_i$

β_{j}

$\beta_j$

ϵ \sim N (0, σ^{2})

$\epsilon\sim\mathcal N(0,\sigma^2)$

Pour ce modèle, les différences de groupe suivront , c'est-à-dire auront toutes la même variance , donc la sphéricité tient. Mais chaque groupe suivra un mélange de Gaussiens avec des moyennes à et des variances , qui est une distribution compliquée avec une variance qui est constante entre les groupes. $\mathcal N(\beta_{j_1} - \beta_{j_2}, 2\sigma^2)$ $2\sigma^2$ $n$ $\alpha_i$ $\sigma^2$ $V(\vec \alpha, \sigma^2)$

Donc, dans ce modèle, en effet, les variances de groupe sont également les mêmes. Les covariances de groupe sont également les mêmes, ce qui signifie que ce modèle implique une symétrie composée . Il s'agit d'une condition plus stricte par rapport à la sphéricité. Comme le montre mon argument intuitif ci-dessus, RM-ANOVA peut fonctionner correctement dans la situation plus générale, lorsque le modèle additif écrit ci - dessus ne tient pas .

Énoncé mathématique précis

Je vais ajouter ici quelque chose de Huynh & Feldt, 1970, Conditions dans lesquelles les rapports carrés moyens dans les conceptions de mesures répétées ont des distributions exactes $F$ .

Que se passe-t-il lorsque la sphéricité se brise?

Lorsque la sphéricité ne tient pas, nous pouvons probablement nous attendre à ce que RM-ANOVA (i) ait une taille gonflée (plus d'erreurs de type I), (ii) ait une puissance diminuée (plus d'erreurs de type II). On peut l'explorer par des simulations, mais je ne vais pas le faire ici.

amibe
la source

Il s'avère que l'effet de la violation de la sphéricité est une perte de puissance (c'est-à-dire une probabilité accrue d'erreur de type II) et une statistique de test (rapport F) qui ne peuvent tout simplement pas être comparées aux valeurs tabulées de la distribution F. Le test F devient trop libéral (c'est-à-dire que la proportion de rejets de l'hypothèse nulle est supérieure au niveau alpha lorsque l'hypothèse nulle est vraie.

Une enquête précise sur ce sujet est très impliquée, mais heureusement Box et al ont écrit un article à ce sujet: https://projecteuclid.org/download/pdf_1/euclid.aoms/1177728786

Bref, la situation est la suivante. Tout d'abord, disons que nous avons un plan de mesures répétées à un facteur avec des sujets S et des traitements expérimentaux A. Dans ce cas, l'effet de la variable indépendante est testé en calculant la statistique F, qui est calculée comme le rapport du carré moyen de l'effet par le carré moyen de l'interaction entre le facteur sujet et la variable indépendante. Lorsque la sphéricité est vraie, ces statistiques ont une distribution de Fisher avec et degrés de liberté. $\upsilon_{1}=A-1$ $\upsilon_{2}=(A-1)(S-1)$

Dans l'article ci-dessus, Box a révélé que lorsque la sphéricité échoue, le nombre correct de degrés de liberté devient du rapport F dépend d'une sphéricité comme ceci: $\upsilon_{1}$ $\epsilon$

υ_{1} = ϵ (A - 1)

$\upsilon_{1} = \epsilon(A-1)$

υ_{2} = ϵ (A - 1) (S - 1)

$\upsilon_{2} = \epsilon(A-1)(S-1)$

Box a également présenté l'indice de sphéricité, qui s'applique à la matrice de covariance de la population . Si nous appelons les entrées de cette table AxA, alors l'index est $\xi_{a,a}$

ϵ = \frac{{(\sum_{a}^{} ξ_{a, a})}^{2}}{(A - 1) \sum_{a, a^{'}}^{} ξ_{a, a^{'}}^{2}}

$\epsilon = \frac{\left ( \sum_{a}^{ }\xi_{a,a} \right )^{2}}{\left ( A-1 \right )\sum_{a,a'}^{ }\xi_{a,a'}^{2}}$

L'indice de sphéricité de Box est mieux compris par rapport aux valeurs propres d'une matrice de covariance. Rappelons que les matrices de covariance appartiennent à la classe des matrices semi-définies positives et ont donc toujours des valeurs propres positives ou nulles. Ainsi, la condition de sphéricité équivaut à avoir toutes les valeurs propres égales à une constante.

Ainsi, lorsque la sphéricité est violée, nous devons appliquer une correction pour nos statistiques F, et les exemples les plus notables de ces corrections sont Greenhouse-Geisser et Huynh-Feldt, par exemple

Sans aucune correction, vos résultats seront biaisés et donc peu fiables. J'espère que cela t'aides!

Vaste académicien
la source

+1. Je commenterai plus tard, mais pour l'instant votre premier paragraphe mélange la puissance et la taille du test. Qu'est-ce qui est altéré lorsque la sphéricité est violée? Le taux d'erreur de type I sous le nul? Ou le pouvoir? Ou les deux? Vous voulez probablement dire les deux, mais la formulation n'est pas très claire (je pense). De plus, ce n'est pas "Box et al", c'est Box seul :)

amoeba

Je pense que le pouvoir sera principalement altéré, car comme Box l'a montré, lorsque la sphéricité est violée, nous devons nous fier à des statistiques complètement différentes (avec un autre degré de liberté). Si nous ne nous appuyons pas sur cela, alors selon la force de notre violation, nous aurons une plus grande proportion de rejet de l'hypothèse nulle.

Vaste académicien

Désolé, toujours confus, maintenant par votre commentaire: "plus grande proportion de rejets du null" - vous voulez dire quand le null est réellement vrai? Mais cela n'a rien à voir avec la puissance, c'est le taux d'erreur de type I.

amibe

+10. J'accorde ma prime à cette réponse: c'est bien et c'est aussi la seule réponse qui est apparue dans la période de prime. Je ne suis pas entièrement satisfait de votre réponse (encore?) Et j'ai commencé à écrire ma propre réponse (actuellement incomplète, mais déjà publiée), mais je n'ai qu'une compréhension partielle des mathématiques sous-jacentes. Votre réponse a certainement aidé et la référence à la boîte 1954 est également très utile.

amibe

Quelques moments déroutants supplémentaires. (1) Où Box introduit-il l'indice de sphéricité dans cet article? Je ne le vois pas du tout. La formule de n'apparaît pas dans cet article. (2) Êtes-vous sûr que s dans cette formule sont les valeurs propres de la matrice de covariance ? Je ne pense pas que ce soit vrai: lorsque cette matrice satisfait à la "condition de sphéricité" de RM-ANOVA, ses valeurs propres ne doivent pas nécessairement être égales.

ϵ

$\epsilon$

ϵ

$\epsilon$

ξ

$\xi$

A \times A

$A\times A$

amibe

Je vais essayer de répondre à cette question dans un cadre simple de mesures répétées ANOVA. Le concept est similaire à la réponse de @amoeba, avec, espérons-le, une illustration plus basique. Supposons qu'un groupe de sujets est réparti au hasard de manière égale en différents groupes et que chaque sujet est mesuré un nombre égal de fois. Il s'agit d'une conception de parcelle divisée avec des sujets comme parcelle entière et des mesures à l'intérieur de chaque sujet comme observations de sous-parcelles. Notons la mesure au k-ème point temporel du j-ème sujet du i-ème groupe, $y_{ijk}$ $i=1, ..., I; j = 1, ..., J; k = 1, ..., K.$

La moyenne de l'échantillon du i-ème groupe est

{\bar{y}}_{i . .} = \frac{1}{J K} \sum_{j = 1}^{J} \sum_{k = 1}^{K} y_{i j k}

$\bar{y}_{i..} = \frac{1}{JK}\sum_{j=1}^{J}\sum_{k=1}^{K}{y_{ijk}}$

et celle du ij-ème sujet est

{\bar{y}}_{i j .} = \frac{1}{K} \sum_{k = 1}^{K} y_{i j k}

$\bar{y}_{ij.} = \frac{1}{K}\sum_{k=1}^{K}{y_{ijk}}$

En supposant l'indépendance parmi les sujets, la variance de la différence entre deux moyennes de groupe est

V a r ({\bar{y}}_{i . .} - {\bar{y}}_{i^{'} . .}) = \frac{1}{J^{2}} \sum_{j = 1}^{J} V a r ({\bar{y}}_{i j .}) + \frac{1}{J^{2}} \sum_{j^{'} = 1}^{J} V a r ({\bar{y}}_{i^{'} j^{'} .})

$Var(\bar{y}_{i..} - \bar{y}_{i'..}) = \frac{1}{J^2}\sum_{j=1}^JVar(\bar{y}_{ij.}) + \frac{1}{J^2}\sum_{j'=1}^JVar(\bar{y}_{i'j'.})$

Il est raisonnable de s'attendre à ce que des mesures répétées chez un sujet soient corrélées. Ainsi, pas aussi simple que avec étant la variance de chaque observation. Quoi qu'il en soit, si Est supposé constant pour tous les sujets, on peut valablement exécuter un test t "simple" à 2 échantillons pour comparer 2 moyennes de groupe. Ainsi, une motivation pour supposer des variances constantes est d'effectuer un test t simple et valide. $Var(\bar{y}_{ij.})$ $\sigma^{2}/K$ $\sigma^{2}$ $Var(\bar{y}_{ij.})$

Passons maintenant à la question de la sphéricité qui a été soulevée.

Il peut être intéressant de comparer les moyennes d'échantillonnage entre deux points temporels quelconques avec , où Cette comparaison nécessite de trouver la variance de la différence par paire entre et pour tous les sujets. Plus précisément, dans l'hypothèse habituelle d'indépendance des sujets, $\bar{y}_{..k} - \bar{y}_{..k'}$

{\bar{y}}_{. . k} = \frac{1}{I J} \sum_{i = 1}^{I} \sum_{j = 1}^{J} y_{i j k} .

$\bar{y}_{..k} = \frac{1}{IJ}\sum_{i=1}^{I}\sum_{j=1}^{J}{y_{ijk}}.$

y_{i j k}

$y_{ijk}$

y_{i j k^{'}}

$y_{ijk'}$

V a r ({\bar{y}}_{. . k} - {\bar{y}}_{. . k^{'}}) = \frac{1}{(I J)^{2}} \sum_{i = 1}^{I} \sum_{j = 1}^{J} V a r (y_{i j k} - y_{i j k^{'}})

$Var(\bar{y}_{..k} - \bar{y}_{..k'}) = \frac{1}{(IJ)^2}\sum_{i=1}^I\sum_{j=1}^JVar(y_{ijk} - y_{ijk'})$

Par conséquent, en supposant une variance constante de toutes les différences par paires, il est possible d'effectuer un test t une fois que la variance commune est estimée. Cette hypothèse, ainsi que la variance constante de chaque observation, implique que la covariance entre n'importe quelle paire de mesures est constante sur toutes les paires - Sergioa un excellent article sur ce sujet. Les hypothèses rendent donc une structure variance-covariance pour des mesures répétées de chaque sujet sous la forme d'une matrice avec une constante diagonale et une autre constante hors diagonale. Lorsque les entrées hors diagonale sont toutes nulles, cela se réduit au modèle tout indépendant (ce qui pourrait être inapproprié pour de nombreuses études de mesure répétées). Lorsque les entrées hors diagonale sont les mêmes que celles en diagonale, les mesures répétées sont parfaitement corrélées pour un sujet, ce qui signifie que toute mesure unique est aussi bonne que toutes les mesures pour chaque sujet. Remarque finale - lorsque K = 2 dans notre conception de parcelle fractionnée simple, la condition de sphéricité est automatiquement remplie.

T Lin
la source