Citant la grande réponse de Gung
Apparemment, un chercheur a déjà approché Fisher avec des résultats «non significatifs», lui demandant ce qu'il devait faire, et Fisher a déclaré: «Allez chercher plus de données».
Du point de vue de Neyman-Pearson, il s'agit d'un hachage flagrant , mais y a-t-il un cas d'utilisation où l'approche «aller chercher plus de données» de Fisher a un sens?
Réponses:
Le paradigme fréquentiste est une fusion des vues de Fisher et de Neyman-Pearson. Ce n'est qu'en utilisant une approche et une autre interprétation que des problèmes surviennent.
Il devrait sembler étrange à quiconque que la collecte de plus de données soit problématique, car plus de données sont plus de preuves. En effet, le problème ne réside pas dans la collecte de plus de données, mais dans l'utilisation de la valeur pour décider de le faire, alors que c'est aussi la mesure d'intérêt. La collecte de plus de données sur la base de la valeur de n'est un hachage que si vous calculez une nouvelle valeur de .p p p p
Si vous n'avez pas suffisamment de preuves pour tirer une conclusion satisfaisante sur la question de recherche, alors allez-y, allez chercher plus de données. Cependant, admettez que vous avez maintenant dépassé le stade NHST de votre recherche et concentrez-vous plutôt sur la quantification de l'effet d'intérêt.
Une note intéressante est que les Bayésiens ne souffrent pas de ce dilemme. Prenons l'exemple suivant:
la source
Étant donné une taille d'échantillon suffisamment grande, un test montrera toujours des résultats significatifs, à moins que la taille réelle de l'effet ne soit exactement nulle, comme discuté ici . En pratique, la taille réelle de l'effet n'est pas nulle, donc la collecte de plus de données pourra éventuellement détecter les différences les plus minuscules.
La réponse facétieuse (de l'OMI) de Fisher était en réponse à une question relativement banale qui, à son origine, confond une «différence significative» avec une «différence pratiquement pertinente».
Cela équivaudrait à un chercheur venant dans mon bureau et demandant "J'ai pesé ce poids de plomb étiqueté" 25 grammes "et il mesurait 25,0 grammes. Je pense qu'il est mal étiqueté, que dois-je faire?" À quoi je pourrais répondre: «Obtenez une échelle plus précise».
Je crois que l'approche «aller chercher plus de données» est appropriée si le test initial est terriblement sous-alimenté pour détecter l'ampleur de la différence qui est pratiquement pertinente.
la source
Merci. Il y a quelques choses à garder à l'esprit ici:
la source
Ce que nous appelons le piratage informatique consiste à appliquer un test de signification plusieurs fois et à ne rapporter que les résultats de signification. Que ce soit bon ou mauvais dépend de la situation.
Pour expliquer, réfléchissons aux effets réels en termes bayésiens, plutôt qu'aux hypothèses nulles et alternatives. Tant que nous croyons que nos effets d'intérêt proviennent d'une distribution continue, alors nous savons que l'hypothèse nulle est fausse. Cependant, dans le cas d'un test bilatéral, nous ne savons pas s'il est positif ou négatif. Sous cet éclairage, nous pouvons considérer les valeurs de p pour les tests bilatéraux comme une mesure de la force de la preuve que notre estimation a la bonne direction (c.-à-d. Effet positif ou négatif).
Maintenant, réfléchissez à ce qui se passe lorsque vous revenez en arrière pour obtenir plus de données. Chaque fois que vous obtenez plus de données, votre probabilité d'obtenir la bonne direction conditionnelle à des données suffisantes ne fait qu'augmenter. Donc, dans ce scénario, nous devons réaliser qu'en obtenant plus de données, bien que nous augmentions en fait la probabilité d'une erreur de type I, nous réduisons également la probabilité de conclure par erreur dans la mauvaise direction.
Prenez cela en contraste avec l'abus le plus typique du piratage informatique; nous testons des centaines de tailles d'effet qui ont une bonne probabilité d'être très petites et ne rapportons que les significatives. Notez que dans ce cas, si tous les effets sont faibles, nous avons près de 50% de chances de se tromper de direction lorsque nous déclarons la signification.
Bien sûr, les valeurs de p produites à partir de ce double-down de données devraient toujours venir avec un grain de sel. Bien que, en général, vous ne devriez pas avoir de problème avec les personnes qui collectent plus de données pour être plus sûr de la taille d'un effet, cela pourrait être abusé d'autres manières. Par exemple, un PI intelligent pourrait se rendre compte qu'au lieu de collecter les 100 points de données à la fois, il pourrait économiser beaucoup d'argent et augmenter la puissance en collectant d'abord 50 points de données, en analysant les données, puis en collectant les 50 suivants si ce n'est pas significatif . Dans ce scénario, ils augmentent la probabilité de se tromper dans la direction de l'effet à condition de déclarer la signification, car ils sont plus susceptibles de se tromper dans la direction de l'effet avec 50 points de données qu'avec 100 points de données.
Et enfin, considérez les implications de ne pas obtenir plus de données lorsque nous avons un résultat insignifiant. Cela impliquerait de ne jamais collecter plus d'informations sur le sujet, ce qui ne fera pas vraiment avancer la science, n'est-ce pas? Une étude insuffisante tuerait un champ entier.
la source
Si l'alternative avait une faible probabilité a priori , alors une expérience qui ne rejette pas le zéro la diminuera davantage, rendant toute recherche supplémentaire encore moins rentable. Par exemple, supposons que la probabilité a priori soit de 0,01. Ensuite, votre entropie est de 0,08 bits. Si la probabilité est réduite à 0,001, votre entropie est maintenant de 0,01. Ainsi, continuer à collecter des données n'est souvent pas rentable. Une des raisons pour lesquelles il serait rentable serait que la connaissance est si importante que même les 0,01 bits d'entropie restants méritent d'être réduits.
Une autre raison serait que la probabilité a priori soit vraiment élevée. Si votre probabilité a priori était supérieure à 50%, le fait de ne pas rejeter la valeur nulle augmente votre entropie, ce qui rend plus rentable la poursuite de la collecte de données. Un exemple serait quand vous êtes presque certain qu'il y a un effet, mais que vous ne savez pas dans quelle direction.
Par exemple, si vous êtes un agent de contre-espionnage et que vous êtes sûr qu'un service a un grain de beauté, et qu'il l'a réduit à deux suspects, et que vous effectuez une analyse statistique pour décider lequel, alors un résultat statistiquement non significatif justifierait la collecte plus de données.
la source