Limite d'erreur au niveau de la famille: la réutilisation des ensembles de données sur différentes études de questions indépendantes entraîne-t-elle de multiples problèmes de test?

Si une équipe de chercheurs effectue plusieurs tests (d'hypothèse) sur un ensemble de données donné, il existe un volume de littérature affirmant qu'ils devraient utiliser une certaine forme de correction pour les tests multiples (Bonferroni, etc.), même si les tests sont indépendants. Ma question est la suivante: cette même logique s'applique-t-elle à plusieurs équipes testant des hypothèses sur le même ensemble de données? Dit d'une autre manière - quel est l'obstacle pour les calculs d'erreurs familiales? Les chercheurs devraient-ils se limiter à réutiliser des ensembles de données pour l'exploration uniquement?

hypothesis-testing multiple-comparisons toypajme
la source

Réponses:

Je suis fortement en désaccord avec le saut de @fcoppens de reconnaître l'importance de la correction d'hypothèses multiples au sein d'une même enquête pour affirmer que "Par le même raisonnement, il en va de même si plusieurs équipes effectuent ces tests."

Il ne fait aucun doute que plus il y a d'études et plus d'hypothèses sont testées, plus il y aura d'erreurs de type I. Mais je pense qu'il y a ici une confusion quant à la signification des taux d'erreurs familiales et à leur application dans les travaux scientifiques réels.

Tout d'abord, rappelez-vous que les corrections à tests multiples sont généralement apparues dans les comparaisons post-hoc pour lesquelles il n'y avait pas d'hypothèses pré-formulées. Il n'est pas du tout clair que les mêmes corrections soient nécessaires lorsqu'il existe un petit ensemble d'hypothèses prédéfinies.

Deuxièmement, la "vérité scientifique" d'une publication individuelle ne dépend pas de la vérité de chaque déclaration individuelle dans la publication. Une étude bien conçue aborde une hypothèse scientifique globale (par opposition à une hypothèse statistique) sous de nombreux angles différents, et rassemble différents types de résultats pour évaluer l' hypothèse scientifique . Chaque résultat individuel peut être évalué par un test statistique.

Par l'argument de @fcoppens cependant, si même un de ces tests statistiques individuels fait une erreur de type I, cela conduit à une "fausse croyance en la" vérité scientifique "". C'est tout simplement faux.

La «vérité scientifique» de l' hypothèse scientifique dans une publication, par opposition à la validité d'un test statistique individuel, provient généralement d'une combinaison de différents types de preuves. L'insistance sur plusieurs types de preuves rend la validité d'une hypothèse scientifique robuste aux erreurs individuelles qui se produisent inévitablement. En repensant à ma cinquantaine de publications scientifiques, j'aurais du mal à en trouver une qui reste aussi parfaite dans les moindres détails que @fcoppens semble insister. Pourtant, j’ai autant de mal à trouver un endroit où la sciencel'hypothèse était carrément fausse. Incomplet, peut-être; certainement hors de propos par les développements ultérieurs dans le domaine. Mais pas "faux" dans le contexte de l'état des connaissances scientifiques à l'époque.

Troisièmement, l'argument ignore les coûts des erreurs de type II. Une erreur de type II pourrait fermer des domaines entiers de recherche scientifique prometteuse. Si les recommandations de @fcoppens devaient être suivies, les taux d'erreur de type II augmenteraient massivement, au détriment de l'entreprise scientifique.

Enfin, la recommandation est impossible à suivre dans la pratique. Si j'analyse un ensemble de données accessibles au public, je n'ai peut-être aucun moyen de savoir si quelqu'un d'autre les a utilisées ou à quelles fins. Je n'ai aucun moyen de corriger les tests d'hypothèse de quelqu'un d'autre. Et comme je le dis plus haut, je ne devrais pas avoir à le faire.

EdM
la source

J'ai donné une prime à la question parce que je voulais la poser «en amont». La raison pour laquelle je voulais faire cela était que je pense que cela ne reçoit pas assez d'attention et que et qu'apparemment, comme je l'ai expérimenté avec ma réponse, il n'y a plus de discussion à ce sujet. Comme le montre, cela peut être une discussion intéressante, donc vous obtenez un (+1)

@fcoppens merci d'avoir apporté ce "upfront"

EdM

Depuis ce post, je suis tombé sur un excellent article qui traite également de ce sujet par Salzberg intitulé "Sur la comparaison des classificateurs: pièges à éviter et approche recommandée" ( cs.ru.nl/~tomh/onderwijs/lrs/lrs_files/salzberg97comparing. pdf ). J'apprécie la discussion. Ce type de questions fait apparaître le fossé entre les statistiques et l'apprentissage automatique / autres domaines appliqués qui a été discuté dans ce post: stats.stackexchange.com/questions/1194/… ....

toypajme

Un article de Breiman aborde également ce sujet: projecteuclid.org/euclid.ss/1009213726 . J'espère que ces articles pourront servir de référence facile pour ceux qui sont intéressés par la recherche actuelle et les discussions publiées sur ce sujet.

toypajme

Il y a aussi le document suivant " Sur la génération et la possession d'alpha dans les études médicales ". Il s'agit clairement d'un sujet controversé. L'un des rares cas où la réponse est claire concerne les allégations réglementaires sur les étiquettes des produits pharmaceutiques, où il y a plus ou moins un seul pour une étude médicale. Une fois que nous entrons dans les publications scientifiques, il n'y a personne de mieux ou de mal à faire appliquer une telle chose.

α = 0.05

$\alpha=0.05$

Björn

La correction des «tests multiples» est nécessaire chaque fois que vous «gonflez l'erreur de type I»: par exemple, si vous effectuez deux tests, chacun à un niveau de confiance , et pour le premier, nous testons le null contre l'alternative et la deuxième hypothèse contre . $\alpha=5\%$ $H_0^{(1)}$ $H_1^{(1)}$ $H_0^{(2)}$ $H_1^{(2)}$

On sait alors que l'erreur de type I, par exemple pour la première hypothèse, est la probabilité de rejeter faussement et est-ce . $H_0^{(1)}$ $\alpha=5\%$

Si vous effectuez les deux tests, la probabilité qu'au moins l'un des deux soit faussement rejeté est égale au 1 moins la probabilité que les deux soient acceptés, donc qui, pour est égal à , donc l'erreur de type un d'avoir au moins un faux rejet est presque doublée! $1 - (1-\alpha)^2$ $\alpha=5\%$ $9.75\%$

Dans les tests d'hypothèses statistiques, on ne peut trouver des preuves statistiques de l'hypothèse alternative qu'en rejetant le null, le rejet du null nous permet de conclure qu'il existe des preuves en faveur de l'hypothèse alternative. (voir aussi Que suit si on ne rejette pas l'hypothèse nulle? ).

Un faux rejet du nul nous donne donc de fausses preuves donc une fausse croyance à la «vérité scientifique». C'est pourquoi cette inflation de type I (le quasi-doublement de l'erreur de type I) doit être évitée; des erreurs de type I plus élevées impliquent davantage de fausses croyances selon lesquelles quelque chose est scientifiquement prouvé . Par conséquent, les gens `` contrôlent '' l'erreur de type au niveau familial.

S'il existe une équipe de chercheurs qui effectue plusieurs tests, chaque fois qu'ils rejettent l'hypothèse nulle, ils concluent qu'ils ont trouvé des preuves statistiques d'une vérité scientifique. Cependant, par ce qui précède, beaucoup plus de de ces conclusions sont une fausse croyance à la «vérité scientifique». $5\%$

Par le même raisonnement, il en va de même si plusieurs équipes effectuent ces tests (sur les mêmes données).

De toute évidence, les résultats ci-dessus ne sont valables que si nous, les équipes, travaillons sur les mêmes données . Qu'est-ce qui est différent alors quand ils travaillent sur différents échantillons?

Pour expliquer cela, prenons un exemple simple et très irréaliste. Notre hypothèse nulle est qu'une population a une distribution normale, avec un connu et le nul indique que contre . Prenons le niveau de signification . $\sigma$ $H_0: \mu = 0$ $H_1: \mu \ne 0$ $\alpha=5\%$

Notre échantillon («les données») n'est qu'une observation, nous rejetterons donc la valeur nulle lorsque l'observation est soit supérieure à soit inférieure à . $o$ $1.96\sigma$ $-1.96\sigma$

Nous faisons une erreur de type I avec une probabilité de car il se pourrait que nous rejetions juste par hasard, en effet, si est vrai (donc la population est normale et ) alors il y a (avec vrai ) une chance que ]. Donc, même si est vrai, il y a une chance que nous n'ayons pas de chance avec les données. $5\%$ $H_0$ $H_0$ $\mu=0$ $H_0$ $o \not \in [-1.96\sigma;1.96\sigma$ $H_0$

Donc, si nous utilisons les mêmes données, il se pourrait que les conclusions des tests soient basées sur un échantillon qui a été tiré avec une «mauvaise chance». Avec un autre échantillon, le contexte est différent.

Communauté
la source

Je ne suis pas fan de l'utilisation de "preuves" en ce qui concerne les preuves scientifiques.

Alexis

@Alexis: c'est certainement parce que l'anglais n'est pas ma langue maternelle, mais je pensais que les "preuves" et les "preuves" sont plus ou moins comme un synomyme, mais cela ne semble pas être le cas?

La «preuve» formelle, à mon avis, appartient aux mathématiques. Ou, moins formellement, appartient à la jurisprudence. Pour moi, la preuve n'appartient pas à la science, car cela implique la fin de l'enquête et le début du dogme, et la science concerne fondamentalement l'enquête. En anglais (et aux États-Unis), par exemple, nous avons un jeu rhétorique où les individus anti-évolution diront "l'évolution biologique n'est qu'une théorie et n'a pas été scientifiquement prouvée ". Bien sûr, l'astuce consiste à faire oublier aux auditeurs que la science ne prouve jamais, elle ne fournit que des preuves.

Alexis