Relation entre test omnibus et comparaison multiple?

8

Wikipédia dit

Méthodes qui reposent sur un test omnibus avant de procéder à des comparaisons multiples . Généralement, ces méthodes nécessitent un test de portée ANOVA / Tukey important avant de procéder à des comparaisons multiples. Ces méthodes ont un contrôle «faible» des erreurs de type I.

Aussi

Le test F dans ANOVA est un exemple de test omnibus, qui teste la signification globale du modèle. Un test F significatif signifie que parmi les moyens testés, au moins deux des moyens sont significativement différents, mais ce résultat ne précise pas exactement quels moyens sont différents l'un de l'autre. En fait, les différences entre les moyens de test ont été faites par la statistique quadratique rationnelle F (F = MSB / MSW). Afin de déterminer quelle moyenne diffère d'une autre moyenne ou quel contraste de moyennes est significativement différent, des tests post-hoc (tests de comparaison multiple) ou des tests planifiés doivent être effectués après l'obtention d'un test omnibus F significatif. Il peut être envisagé d'utiliser la simple correction de Bonferroni ou une autre correction appropriée.

Ainsi, un test omnibus est utilisé pour tester la signification globale, tandis que la comparaison multiple consiste à trouver les différences significatives.

Mais si je comprends bien, le but principal de la comparaison multiple est de tester la signification globale, et il peut également trouver quelles différences sont significatives. En d'autres termes, une comparaison multiple peut faire ce qu'un omnibus peut faire. Alors pourquoi avons-nous besoin d'un test omnibus?

Tim
la source

Réponses:

7

Le but des procédures de comparaisons multiples n'est pas de tester la signification globale, mais de tester les effets individuels pour la signification tout en contrôlant le taux d'erreur par expérience. Il est tout à fait possible, par exemple, qu'un test F omnibus soit significatif à un niveau donné alors qu'aucun des tests de Tukey par paire ne l'est - c'est discuté ici et ici .

Prenons un exemple très simple: tester si deux variables normales indépendantes avec variance unitaire ont toutes deux une moyenne nulle, de sorte que

H0:μ1=0μ2=0
H1:μ10μ20

Test # 1: rejeter quand

X12+X22Fχ221(1α)

Test # 2: rejeter quand

|X1||X2|FN1(111α2)

(en utilisant la correction Sidak pour maintenir la taille globale). Les deux tests ont la même taille (α) mais différentes régions de rejet:

Tracé des régions de rejet

Le test n ° 1 est un test omnibus typique: plus puissant que le test n ° 2 lorsque les deux effets sont importants mais qu'aucun n'est très important. Le test n ° 2 est un test de comparaisons multiples typique: plus puissant que le test n ° 1 lorsque l'un des effets est important et l'autre petit, et permet également de tester indépendamment les composants individuels du null global.

Donc, deux procédures de test valides qui contrôlent le taux d'erreur par expérience à α sont ceux-ci:

(1) Effectuer le test n ° 1 et (a) ne pas rejeter le null global, ou (b) rejeter le null global, puis (& uniquement dans ce cas) effectuer le test n ° 2 & soit (i) ne rejeter aucun des composants, (ii) rejeter le premier composant, (ii) rejeter le deuxième composant, ou (iv) rejeter les deux composants.

(2) Effectuer uniquement le test n ° 2 et soit (a) ne rejeter aucun des composants (donc ne pas rejeter le null global), (b) rejeter le premier composant (rejetant ainsi également le null global), (c) rejeter le deuxième composant ( rejetant ainsi également le null global), ou (d) rejetant les deux composants (rejetant ainsi également le null global).

Vous ne pouvez pas avoir votre gâteau et le manger en effectuant le test n ° 1 et en ne rejetant pas le null global, tout en continuant à effectuer le test n ° 2: le taux d'erreur de type I est supérieur à α pour cette procédure.

Scortchi - Réintégrer Monica
la source
Merci! (1) Le null global n'est-il pas rejeté si et seulement s'il y a au moins un null individuel rejeté? Ainsi, plusieurs procédures de comparaison peuvent tester le zéro global, c'est-à-dire la signification globale? (2) "mais uniquement pour tester la signification des effets individuels tout en contrôlant le taux d'erreur par expérience", voulez-vous dire que plusieurs procédures de comparaison peuvent identifier les null individuels qui sont rejetés lorsque le null global est rejeté?
Tim
2
(1) C'est vrai si vous biffez «et seulement si». Poirot peut être sûr qu'il y a un meurtrier à bord de l'Orient Express sans être sûr de qui il s'agit. (Mais je devrais supprimer le « seulement » de ma réponse) (2) Oui.
Scortchi - Réintégrer Monica
Merci! Dans (1), "si vous biffez 'et seulement si'", voulez-vous dire que plusieurs procédures de comparaison peuvent être utilisées pour tester le null global, mais cela fait plus de fausses erreurs négatives qu'un test omnibus?
Tim
Les taux d'erreur faussement négatifs dépendent de la façon dont le null est erroné. Voir l'exemple que j'ai ajouté.
Scortchi - Réintégrer Monica
1

Lors du test de m hypothèses, il existe 2mcombinaisons d'hypothèses que l'on peut tester. L'une d'elles est l'hypothèse "global null", alias "l'hypothèse d'intersection":Hi0.

Un test omnibus est généralement un nom pour tester l'hypothèse nulle globale. Une exigence minimale nue d'une procédure de test multiple, est le contrôle d'erreur sous le null global. C'est ce que l'on appelle le contrôle "FWER faible". Mais vous ne vous arrêterez probablement pas là - dans le but de déduire des hypothèses particulières, vous voudrez une procédure qui offre un contrôle FWER sous n'importe quelle combinaison de vrais nulls. Ceci est connu sous le nom de "contrôle FWER fort".

JohnRos
la source
Pouvez-vous en dire un peu plus à ce sujet 2mfigure? Donnék groupes, on a k(k1)/2 le maximum possible de comparaisons multiples par paire, et ce nombre + 1 pour le test omnibus ... Incluez-vous tous les possibles (par exemple paires <triples < k- tests de taille)?
Alexis
Je pense que JohnRos voulait dire qu'il y a 2 ^ m combinaisons possibles d'hypothèses vraies / fausses nulles. Par exemple, s'il y a 3 hypothèses nulles et chacune peut être vraie (T) ou fausse (F), alors il y a 2 ^ 3 = 8 scénarios possibles: TTT, TTF, TFT, TFF, FTT, FTF, FFT, FFF . Comment cela est pertinent, je ne suis pas sûr, car pour les comparaisons multiples, nous sommes intéressés par le nombre de tests (qui est 3), pas le nombre de combinaisons uniques de Ts et Fs.
Bonferroni
1

En plus des calculs associés aux tests Pair-Wise, il y a autre chose pourquoi ANOVA est utilisé au lieu de faire tous les tests PAIR-WISE.

Parfois, il est possible que, bien que l'ANOVA rejette l'hypothèse nulle selon laquelle toutes les moyennes de population sont identiques à un certain niveau de confiance, cependant, si vous passez tous les tests par paires (disons LSD), vous ne trouverez peut-être même pas au moins une paire de moyens qui dépasse la différence à ce niveau de confiance.

Preuve mathématique de l'énoncé ci-dessus, compte tenu des tests par paire LSD de FISHER

entrez la description de l'image ici ici: Sp est l'écart type à l'intérieur des carrés.

Prenons le cas, quand nous avons N groupes, nous avons donc N(N1)/2 tests par paire.

Additionnez tous ces N(N1)/2 tests:

Après avoir divisé par (N1) (comme c'est le DoF) et quadrature des deux côtés:

sur le LHS, nous obtenons la même quantité utilisée en ANOVA; Cependant, sur le RHS, nous obtenons leN/2* Statistiques de test de l'ANOVA.

Ainsi, même si tous les tests LSD par paire ne peuvent pas rejeter ensemble les hypothèses nulles, il y a encore de bonnes chances que l'ANOVA puisse rejeter les hypothèses nulles.

Par conséquent, l'ANOVA contient plus d'informations que dans tous les tests par paire considérés ensemble.

PS: Toutes mes excuses pour l'utilisation de l'image au lieu de taper les équations.

Honeybadger
la source