Sidak ou Bonferroni?

13

J'utilise un modèle linéaire généralisé dans SPSS pour examiner les différences dans le nombre moyen de chenilles (non normales, en utilisant la distribution de Tweedie) sur 16 espèces différentes de plantes.

Je veux effectuer plusieurs comparaisons mais je ne sais pas si je dois utiliser un test de correction Sidak ou Bonferroni. Quelle est la différence entre les deux tests? Est-ce que l'un est meilleur que l'autre?

Emilie
la source
1
Je déteste le fait que de telles corrections soient souvent nécessaires avec les tests d'hypothèse fréquentiste standard et je préfère de loin les techniques bayésiennes. Cela dit, je déteste moins la correction Sidak car elle semble moins ad hoc (si vous êtes prêt à accepter l'hypothèse d'indépendance). C'est surtout une préférence personnelle, alors j'ai fait un commentaire au lieu d'une réponse.
Michael McGowan
1
@MichaelMcGowan: Juste curieux, mais, que considérez-vous " ad hoc " à propos d'une correction de Bonferroni?
Cardinal
@cardinal Désolé, ce n'était probablement pas le meilleur choix de mots. Au prix d'avoir besoin d'hypothèses plus fortes (je ne veux pas banaliser ce coût), la correction Sidak crée une borne avec une signification plus qualitative. Je ne peux pas vraiment expliquer qualitativement ce que la borne représente dans la correction de Bonferroni, à part une sorte de pire du cas selon l'inégalité de Boole.
Michael McGowan
@MichaelMcGowan: Ah, d'accord. Je vois. Je suppose qu'il y a quelques choses qualitatives que l'on pourrait dire à propos de Bonferroni: (a) Il offre une protection garantie contre le taux d'erreur familial, quelle que soit la dépendance entre les statistiques de test individuelles sous la valeur nulle et (b) C'est la correction exactement correcte à faire lorsque les régions de rejet des tests d'hypothèse individuels sont disjoints deux à deux.
cardinal
1
Deux tests ne sont pas indépendants si la probabilité d'une erreur de type I pour un test est en corrélation avec celle de l'autre test. Par exemple, supposons que vous exécutiez une expérience avec une condition de contrôle et deux conditions de test. Les deux tests comparant chaque condition de test à la condition de contrôle ne sont pas indépendants. Vous pouvez le voir en considérant ce qui se passe si vous obtenez par hasard une valeur extrême pour la condition de contrôle. Cela rendrait les deux tests plus susceptibles d'être statistiquement significatifs.

Réponses:

20

Si vous exécutez tests statistiques indépendants en utilisant α comme niveau de signification et que le zéro est obtenu dans tous les cas, que vous trouviez ou non «signification» est simplement un tirage à partir d'une variable aléatoire. Plus précisément, il est tiré d'une distribution binomiale avec p = α et n = k . Par exemple, si vous prévoyez d'exécuter 3 tests en utilisant α = 0,05 , et (à votre insu) il n'y a en fait aucune différence dans chaque cas, alors il y a 5% de chances de trouver un résultat significatif dans chaque test. De cette façon, le taux d'erreur de type I est maintenu à αkαp=αn=kα=.05αpour les tests individuellement, mais sur l'ensemble des 3 tests, le taux d'erreur à long terme de type I sera plus élevé. Si vous pensez qu'il est important de regrouper / penser à ces 3 tests ensemble, alors vous voudrez peut-être maintenir le taux d'erreur de type I à pour l'ensemble dans son ensemble , plutôt que juste individuellement. Comment devez-vous procéder? Il existe deux approches qui se concentrent sur le passage de l' α d' origine (c.-à-d. Α o ) à une nouvelle valeur (c.-à-d. Α n e w ):αααoαnew

Bonferroni: ajustez le utilisé pour évaluer la «signification» de telle sorte queα

αnew=αok

Dunn-Sidak: ajustez utilisantα

αnew=1(1αo)1/k

(Notez que Dunn-Sidak suppose que tous les tests de l'ensemble sont indépendants les uns des autres et pourraient générer une inflation d'erreur de type I au niveau de la famille si cette hypothèse ne se vérifie pas.)

Il est important de noter que lors des tests, il y a deux types d'erreurs que vous souhaitez éviter, le type I (c'est-à-dire en disant qu'il y a une différence quand il n'y en a pas) et le type II (c'est-à-dire en disant qu'il n'y en a pas). une différence quand il y en a réellement). En règle générale, lorsque les gens discutent de ce sujet, ils ne discutent que des erreurs de type I. De plus, les gens oublient souvent de mentionner que le taux d'erreur calculé ne tiendra que si toutes les valeurs nulles sont vraies. Il est trivialement évident que vous ne pouvez pas faire une erreur de type I si l'hypothèse nulle est fausse, mais il est important de garder ce fait explicitement à l'esprit lorsque vous discutez de cette question.

J'en parle parce qu'il y a des implications de ces faits qui semblent souvent être négligées. Premièrement, si , l'approche Dunn-Sidak offrira une puissance plus élevée (bien que la différence puisse être assez petite avec un petit k ) et devrait donc toujours être préférée (le cas échéant). Deuxièmement, une approche «progressive» devrait être utilisée. Autrement dit, testez d'abord le plus grand effet; si vous êtes convaincu que la valeur nulle n'obtient pas dans ce cas, le nombre maximal possible d'erreurs de type I est k - 1 , le prochain test doit donc être ajusté en conséquence, et ainsi de suite. (Cela met souvent les gens mal à l'aise et ressemble à la pêche, mais ce n'est pask>1kk1la pêche, car les tests sont indépendants, et vous aviez l'intention de les mener avant d'avoir vu les données. C'est juste un moyen d'ajuster manière optimale.) α

Ce qui précède est valable quelle que soit la valeur que vous accordez au type I par rapport aux erreurs de type II. Cependant, a priori, il n'y a aucune raison de croire que les erreurs de type I sont pires que celles de type II (malgré le fait que tout le monde semble le supposer). Il s'agit plutôt d'une décision qui doit être prise par le chercheur et doit être spécifique à cette situation. Personnellement, si j'exécute des contrastes orthogonaux a priori suggérés théoriquement , je ne règle généralement pas .α

(Et pour le répéter, car c'est important, tout ce qui précède suppose que les tests sont indépendants. Si les contrastes ne sont pas indépendants, comme lorsque plusieurs traitements sont comparés chacun au même contrôle, une approche différente de ajustement α , comme le test de Dunnett, devrait être utilisé.) α

gung - Réintégrer Monica
la source
+1. Ce que vous appelez une approche "descendante" pour Bonferroni est-il exactement équivalent à ce que l'on appelle la méthode Holm-Bonferroni? Si oui, la même logique appliquée à Dunn-Sidak a-t-elle un nom?
amibe dit Réintégrer Monica
1
@amoeba, oui on l'appelle parfois "méthode de Holm", d'où Holm-Bonferroni ou Holm-Sidak.
gung - Rétablir Monica
αα
@amoeba, en exécutant 3 a-priori, les contrastes orthogonaux dans 1 étude ne sont pas différents de l'exécution de 1 a-priori contraste dans chacune des 3 études différentes. Étant donné que personne ne soutient que vous avez besoin de corrections familiales pour ces dernières, il n'y a aucune raison cohérente de les exiger pour les premières. Dans votre autre exemple, si le groupe témoin rebondit plus bas par hasard seul, chacun de vos 5 contrastes aura l'air bien; mais il est peu probable que cela se produise si vous avez mené 5 études indépendantes. Vous devriez vraiment utiliser une certaine forme d'ajustement, ou vous pourriez utiliser le test de Dunnett .
gung - Rétablir Monica
N(0,1)n=10α=0.05
amoeba dit Réintégrer Monica
6

ααnα=α/nα=1(1α)1/n

α/n<1(1α)1/n

Si vous avez besoin d'une procédure encore plus puissante, vous pouvez utiliser la procédure Bonferroni-Holm.

Momo
la source
Pourquoi Bonferroni est-il plus simple à gérer?
Emily
3
αn1(1α)1/n
@Momo Les ordinateurs sont vraiment très bons en arithmétique, donc je ne trouve pas l'argument de la simplicité très convaincant. Il y a cent ans, lorsque les calculs étaient faits à la main, c'était bien sûr une histoire très différente.
Michael McGowan
+1 par rapport à ma réponse, cela arrive au point assez succinctement ;-).
gung - Rétablir Monica
Haha, c'est ce que je pensais que tu voulais dire! Merci beaucoup!
Emily
5

La correction Sidak suppose que les tests individuels sont statistiquement indépendants. La correction de Bonferroni ne suppose pas cela.

un arrêt
la source
Est-ce à dire que le Bonferroni est simplement un test plus conservateur?
Emily
1
Bonferroni est plus conservateur lorsque les deux tests sont appropriés. Mais si vos tests ne sont pas indépendants, vous ne devriez pas utiliser Sidak.
onestop
2
+1 Que la correction de Bonferroni n'exige pas que les tests soient indépendants est un bon point que je n'ai pas couvert.
gung - Rétablir Monica
@onestop: Qu'est-ce que cela signifie que les tests sont indépendants? Pourriez-vous peut-être donner un exemple?
Gunnhild
1
La correction Sidak ne nécessite pas d'indépendance. Cela suppose seulement que les tests ne sont pas dépendants négativement. Une dépendance positive est très bien.
Bonferroni
4

Sidak et Bonferroni sont si similaires que vous obtiendrez probablement le même résultat quelle que soit la procédure que vous utilisez. Bonferroni n'est que légèrement plus conservateur que Sidak. Par exemple, pour 2 comparaisons et un alpha familial de 0,05, Sidak effectuerait chaque test à 0,0253 et Bonferroni effectuerait chaque test à 0,0250.

De nombreux commentateurs de ce site ont déclaré que Sidak n'est valable que lorsque les statistiques de test de vos comparaisons sont indépendantes. Ce n'est pas vrai. Sidak permet une légère inflation du taux d'erreur familial lorsque les statistiques de test dépendent NÉGATIVEMENT, mais si vous effectuez des tests bilatéraux, la dépendance négative n'est généralement pas un problème. En cas de dépendance non négative, Sidak fournit en fait une borne supérieure du taux d'erreur par famille. Cela dit, il existe d'autres procédures qui fournissent une telle limite et ont tendance à conserver plus de pouvoir statistique que Sidak. Sidak n'est donc probablement pas le meilleur choix.

Une chose que la procédure Bonferroni fournit (ce que Sidak ne fait pas) est un contrôle strict du nombre attendu d'erreurs de type I - le soi-disant «taux d'erreur par famille», qui est plus conservateur que le taux d'erreur par famille. Pour plus d'informations, voir: Frane, AV (2015) "Les taux d'erreur par type de famille I sont-ils pertinents en sciences sociales et comportementales?" Journal of Modern Applied Statistical Methods 14 (1), 12-23.

Bonferroni
la source