Je suis fortement en désaccord avec le saut de @fcoppens de reconnaître l'importance de la correction d'hypothèses multiples au sein d'une même enquête pour affirmer que "Par le même raisonnement, il en va de même si plusieurs équipes effectuent ces tests."
Il ne fait aucun doute que plus il y a d'études et plus d'hypothèses sont testées, plus il y aura d'erreurs de type I. Mais je pense qu'il y a ici une confusion quant à la signification des taux d'erreurs familiales et à leur application dans les travaux scientifiques réels.
Tout d'abord, rappelez-vous que les corrections à tests multiples sont généralement apparues dans les comparaisons post-hoc pour lesquelles il n'y avait pas d'hypothèses pré-formulées. Il n'est pas du tout clair que les mêmes corrections soient nécessaires lorsqu'il existe un petit ensemble d'hypothèses prédéfinies.
Deuxièmement, la "vérité scientifique" d'une publication individuelle ne dépend pas de la vérité de chaque déclaration individuelle dans la publication. Une étude bien conçue aborde une hypothèse scientifique globale (par opposition à une hypothèse statistique) sous de nombreux angles différents, et rassemble différents types de résultats pour évaluer l' hypothèse scientifique . Chaque résultat individuel peut être évalué par un test statistique.
Par l'argument de @fcoppens cependant, si même un de ces tests statistiques individuels fait une erreur de type I, cela conduit à une "fausse croyance en la" vérité scientifique "". C'est tout simplement faux.
La «vérité scientifique» de l' hypothèse scientifique dans une publication, par opposition à la validité d'un test statistique individuel, provient généralement d'une combinaison de différents types de preuves. L'insistance sur plusieurs types de preuves rend la validité d'une hypothèse scientifique robuste aux erreurs individuelles qui se produisent inévitablement. En repensant à ma cinquantaine de publications scientifiques, j'aurais du mal à en trouver une qui reste aussi parfaite dans les moindres détails que @fcoppens semble insister. Pourtant, j’ai autant de mal à trouver un endroit où la sciencel'hypothèse était carrément fausse. Incomplet, peut-être; certainement hors de propos par les développements ultérieurs dans le domaine. Mais pas "faux" dans le contexte de l'état des connaissances scientifiques à l'époque.
Troisièmement, l'argument ignore les coûts des erreurs de type II. Une erreur de type II pourrait fermer des domaines entiers de recherche scientifique prometteuse. Si les recommandations de @fcoppens devaient être suivies, les taux d'erreur de type II augmenteraient massivement, au détriment de l'entreprise scientifique.
Enfin, la recommandation est impossible à suivre dans la pratique. Si j'analyse un ensemble de données accessibles au public, je n'ai peut-être aucun moyen de savoir si quelqu'un d'autre les a utilisées ou à quelles fins. Je n'ai aucun moyen de corriger les tests d'hypothèse de quelqu'un d'autre. Et comme je le dis plus haut, je ne devrais pas avoir à le faire.
La correction des «tests multiples» est nécessaire chaque fois que vous «gonflez l'erreur de type I»: par exemple, si vous effectuez deux tests, chacun à un niveau de confiance , et pour le premier, nous testons le null contre l'alternative et la deuxième hypothèse contre .α=5% H(1)0 H(1)1 H(2)0 H(2)1
On sait alors que l'erreur de type I, par exemple pour la première hypothèse, est la probabilité de rejeter faussement et est-ce .H(1)0 α=5%
Si vous effectuez les deux tests, la probabilité qu'au moins l'un des deux soit faussement rejeté est égale au 1 moins la probabilité que les deux soient acceptés, donc qui, pour est égal à , donc l'erreur de type un d'avoir au moins un faux rejet est presque doublée!1−(1−α)2 α=5% 9.75%
Dans les tests d'hypothèses statistiques, on ne peut trouver des preuves statistiques de l'hypothèse alternative qu'en rejetant le null, le rejet du null nous permet de conclure qu'il existe des preuves en faveur de l'hypothèse alternative. (voir aussi Que suit si on ne rejette pas l'hypothèse nulle? ).
Un faux rejet du nul nous donne donc de fausses preuves donc une fausse croyance à la «vérité scientifique». C'est pourquoi cette inflation de type I (le quasi-doublement de l'erreur de type I) doit être évitée; des erreurs de type I plus élevées impliquent davantage de fausses croyances selon lesquelles quelque chose est scientifiquement prouvé . Par conséquent, les gens `` contrôlent '' l'erreur de type au niveau familial.
S'il existe une équipe de chercheurs qui effectue plusieurs tests, chaque fois qu'ils rejettent l'hypothèse nulle, ils concluent qu'ils ont trouvé des preuves statistiques d'une vérité scientifique. Cependant, par ce qui précède, beaucoup plus de de ces conclusions sont une fausse croyance à la «vérité scientifique».5%
Par le même raisonnement, il en va de même si plusieurs équipes effectuent ces tests (sur les mêmes données).
De toute évidence, les résultats ci-dessus ne sont valables que si nous, les équipes, travaillons sur les mêmes données . Qu'est-ce qui est différent alors quand ils travaillent sur différents échantillons?
Pour expliquer cela, prenons un exemple simple et très irréaliste. Notre hypothèse nulle est qu'une population a une distribution normale, avec un connu et le nul indique que contre . Prenons le niveau de signification .σ H0:μ=0 H1:μ≠0 α=5%
Notre échantillon («les données») n'est qu'une observation, nous rejetterons donc la valeur nulle lorsque l'observation est soit supérieure à soit inférieure à .1,96 σ - 1,96 σo 1.96σ −1.96σ
Nous faisons une erreur de type I avec une probabilité de car il se pourrait que nous rejetions juste par hasard, en effet, si est vrai (donc la population est normale et ) alors il y a (avec vrai ) une chance que ]. Donc, même si est vrai, il y a une chance que nous n'ayons pas de chance avec les données. H 0 H 0 μ = 0 H 0 o ∉ [ - 1,96 σ ; 1,96 σ H 05% H0 H0 μ=0 H0 o∉[−1.96σ;1.96σ H0
Donc, si nous utilisons les mêmes données, il se pourrait que les conclusions des tests soient basées sur un échantillon qui a été tiré avec une «mauvaise chance». Avec un autre échantillon, le contexte est différent.
la source