Quand l'approche «aller chercher plus de données» de Fisher a-t-elle un sens?

26

Citant la grande réponse de Gung

Apparemment, un chercheur a déjà approché Fisher avec des résultats «non significatifs», lui demandant ce qu'il devait faire, et Fisher a déclaré: «Allez chercher plus de données».

Du point de vue de Neyman-Pearson, il s'agit d'un hachage flagrant , mais y a-t-il un cas d'utilisation où l'approche «aller chercher plus de données» de Fisher a un sens?p

nalzok
la source
10
Fisher (à plusieurs reprises) a souligné l'importance de la réplication des expériences et je pense que c'était son intention ici (en supposant que la conversation a eu lieu). Certes, Fisher aurait été bien conscient que vous ne pouvez pas vérifier la signification, puis étendre votre échantillon initial si vous ne l'avez pas obtenu.
Glen_b -Reinstate Monica
@Glen_b J'ai déjà entendu l'expression "réplication d'expériences" mais je ne l'ai pas bien comprise. Peux-tu élaborer? Disons, est-ce que dix répétitions d'une expérience dont la taille de l'échantillon est 10 meilleure qu'une expérience unique dont la taille de l'échantillon est 100?
nalzok
Dans une étude exploratoire, aller chercher plus de données peut être acceptable. Dans l'étude de confirmation, il n'y a pas de position pour aller chercher plus de données.
user158565
5
Un de mes points de vue controversés sur la pratique statistique est que s'il est important de considérer la question des faux positifs, nous ne devrions pas placer la conservation des taux d'erreur de type 1 sur un piédestal si élevé que nous refusons d'apprendre des données afin de préserver un type 1 taux d'erreur.
Cliff AB

Réponses:

29

Le paradigme fréquentiste est une fusion des vues de Fisher et de Neyman-Pearson. Ce n'est qu'en utilisant une approche et une autre interprétation que des problèmes surviennent.

Il devrait sembler étrange à quiconque que la collecte de plus de données soit problématique, car plus de données sont plus de preuves. En effet, le problème ne réside pas dans la collecte de plus de données, mais dans l'utilisation de la valeur pour décider de le faire, alors que c'est aussi la mesure d'intérêt. La collecte de plus de données sur la base de la valeur de n'est un hachage que si vous calculez une nouvelle valeur de .pppp

Si vous n'avez pas suffisamment de preuves pour tirer une conclusion satisfaisante sur la question de recherche, alors allez-y, allez chercher plus de données. Cependant, admettez que vous avez maintenant dépassé le stade NHST de votre recherche et concentrez-vous plutôt sur la quantification de l'effet d'intérêt.


Une note intéressante est que les Bayésiens ne souffrent pas de ce dilemme. Prenons l'exemple suivant:

  • Si un fréquentiste ne conclut pas de différence significative et passe ensuite à un test d'équivalence, le taux de faux positifs a sûrement augmenté;
  • Un bayésien peut exprimer simultanément l'intervalle de densité le plus élevé et la région d'équivalence pratique d'une différence et dormir tout de même la nuit.
Frans Rodenburg
la source
Donc, fondamentalement, disons que je veux tester si la moyenne de la population A est égale à celle de la population B. Initialement, je reçois des données, fais un test pour : "les moyennes sont égales", et je ne le rejette pas. Dans ce cas, je ne devrais pas effectuer un autre test pour : "les moyennes NE SONT PAS égales". Tout ce que je peux faire, c'est estimer les intervalles confidentiels des moyens, est-ce exact? Et s'il n'y a pas de chevauchement entre les deux intervalles? H 0H0H0
nalzok
6
"Ce n'est que du piratage p si vous calculez une nouvelle valeur p." Cela ne dépend-il pas entièrement de la méthode utilisée pour calculer la valeur de p? Ignorer l'analyse séquentielle et la décision de collecter plus de données entraînera une valeur de p inexacte. Cependant, si vous incorporez la règle de décision pour collecter plus de données dans le calcul de la valeur p, vous produirez alors une valeur p valide.
jsk
4
@jsk Je pense que c'est moins que les valeurs de p calculées par la suite soient en quelque sorte invalides, et plus que vous utilisez un standard arbitraire et non basé sur les données pour juger quand votre expérience est "correcte" et vos recherches sur ce projet sont " terminé". Décider que toutes les valeurs de p non significatives sont fausses, et la collecte de données jusqu'à ce que vous obtenez un qui est important et arrêter parce que vous avez obtenu le résultat « droit » est le contraire de la science expérimentale.
Upper_Case-Stop Harming Monica
1
@Upper_Case Je commentais une très petite section du post en ce qui concerne le p-hacking, c'est pourquoi j'ai inclus cette section entre guillemets. Vous lisez trop dans ma déclaration. Mon point est que TOUTE règle de décision qui est utilisée pour décider de collecter plus de données doit être incorporée dans le calcul de la valeur p. Tant que vous intégrez les décisions prises dans le calcul de la valeur p, vous pouvez toujours effectuer un NHST valide si vous le souhaitez. Cela ne signifie en aucun cas que je plaide pour une règle d'arrêt qui dit: «collectez plus de données jusqu'à ce que vous trouviez un résultat significatif».
jsk
@jsk Ah, je comprends mieux votre point maintenant. Merci pour la clarification.
Upper_Case-Stop Harming Monica
10

Étant donné une taille d'échantillon suffisamment grande, un test montrera toujours des résultats significatifs, à moins que la taille réelle de l'effet ne soit exactement nulle, comme discuté ici . En pratique, la taille réelle de l'effet n'est pas nulle, donc la collecte de plus de données pourra éventuellement détecter les différences les plus minuscules.

La réponse facétieuse (de l'OMI) de Fisher était en réponse à une question relativement banale qui, à son origine, confond une «différence significative» avec une «différence pratiquement pertinente».

Cela équivaudrait à un chercheur venant dans mon bureau et demandant "J'ai pesé ce poids de plomb étiqueté" 25 grammes "et il mesurait 25,0 grammes. Je pense qu'il est mal étiqueté, que dois-je faire?" À quoi je pourrais répondre: «Obtenez une échelle plus précise».

Je crois que l'approche «aller chercher plus de données» est appropriée si le test initial est terriblement sous-alimenté pour détecter l'ampleur de la différence qui est pratiquement pertinente.

Underminer
la source
Le fait est que vous devez intégrer la décision d'obtenir plus de données dans le calcul de la valeur p.
jsk
@jsk même si vous modifiez la valeur de p, vous pouvez toujours collecter plus de données pour trouver un résultat significatif (bien que vous ayez besoin de davantage de données).
Underminer
1
J'aurais pu être plus clair. Je ne sais pas exactement ce que vous entendez par "vous POUVEZ encore recueillir plus de données pour trouver un résultat significatif". Je comprends cela parce que l'hypothèse nulle n'est généralement jamais vraiment vraie, la collecte de plus de données conduira finalement à un résultat significatif. Je voulais simplement attirer l'attention sur le fait que lors du calcul de la valeur de p, vous devez intégrer la décision de collecter plus de données dans le calcul de la valeur de p. Cela signifie que les règles de décision (concernant la collecte de données supplémentaires) doivent être prédéfinies avant la collecte de données d'origine.
jsk
@jsk même avec une méthode très prudente d'ajustement de la valeur de p (par exemple Bonferroni correct, applicable dans l'analyse post-hoc), il existe une taille d'échantillon supplémentaire suffisamment grande pour surmonter la correction. Le point est le suivant: si vous me fournissez une méthode d'ajustement de la valeur de p (spécifiée avant la collecte de données d'origine ou non), la vraie différence entre les distributions de population des groupes d'intérêt et les résultats préliminaires insignifiants; et je peux vous fournir une taille d'échantillon suffisamment grande qui vous donnera des résultats significatifs. Par conséquent, plus de données sont TOUJOURS une réponse.
Underminer
7

Merci. Il y a quelques choses à garder à l'esprit ici:

  1. La citation peut être apocryphe.
  2. Il est tout à fait raisonnable d'aller chercher des données plus / meilleures, ou des données provenant d'une source différente (échelle plus précise, cf., réponse de @ Underminer ; situation ou contrôles différents; etc.), pour une deuxième étude (cf., commentaire de Glen_b ) . Autrement dit, vous n'analyseriez pas les données supplémentaires en conjonction avec les données d'origine: supposons que vous ayez N = 10 avec un résultat non significatif, vous pouvez collecter une autre N = 20 données et les analyser seules (sans tester les 30 au complet ensemble) ). Si la citation n'est pas apocryphe, cela aurait pu être ce que Fisher avait en tête.
  3. La philosophie scientifique de Fisher était essentiellement poppérienne . C'est-à-dire que le nul n'était pas nécessairement quelque chose à rejeter de manière superficielle afin de confirmer votre théorie, mais idéalement pourrait être votre théorie elle-même, de sorte que le rejet signifie que la théorie de votre animal de compagnie est erronée et que vous devez revenir à la planche à dessin. Dans un tel cas, l'inflation d'erreur de type I ne bénéficierait pas au chercheur. (D'un autre côté, cette interprétation coupe contre Fisher donnant ce conseil à moins qu'il ne soit querelleur, ce qui n'aurait pas été hors de caractère.)
  4. Quoi qu'il en soit, il convient de souligner que la raison pour laquelle j'ai inclus ce commentaire est qu'il illustre quelque chose de fondamental concernant la différence dans la nature des deux approches.
gung - Réintégrer Monica
la source
1
p
Soit dit en passant, ce serait formidable si vous pouviez élaborer sur "la différence dans la nature des deux approches". La méthode de Fisher semble plus ... subjective, car j'ai l'impression qu'il ne se soucie pas vraiment du taux d'erreur, mais je pourrais manquer quelque chose.
nalzok
1
@nalzok, la différence est discutée dans le fil d'origine: l'approche Neyman-Pearson suppose que l'étude est un événement discret, vous le faites et vous vous éloignez; L'approche de Fisher suppose que le problème fait l'objet d'une enquête continue. Re: # 2, si vous analysez les données isolément, ce n'est pas du p-hacking (sauf si peut-être vous exécutez plusieurs études et ne publiez que celle qui a montré ce que vous voulez). Re: # 3, non, le null n'est pas accepté, vous devez continuer à trouver de meilleures façons de tester votre théorie.
gung - Rétablir Monica
1
pp
1
(+1) Parfois, je pense que nous nous concentrons sur l'arbre et manquons la forêt. Très franchement, lorsque nous avons un problème difficile, plus de données sont généralement meilleures que moins de données. Dans la plupart des cas, plus de données ne sont pas beaucoup mieux. Comme le suggère le document perspicace de Meng 2018 " Paradis statistiques et paradoxes dans les mégadonnées (I) ", obtenir de meilleures données (par exemple un échantillon bien sélectionné) est beaucoup plus bénéfique que des données plus importantes lorsque nous essayons d' estimer une quantité inconnue. Mais plus de données sont généralement utiles!
usεr11852 dit Réintégrer Monic le
6

Ce que nous appelons le piratage informatique consiste à appliquer un test de signification plusieurs fois et à ne rapporter que les résultats de signification. Que ce soit bon ou mauvais dépend de la situation.

Pour expliquer, réfléchissons aux effets réels en termes bayésiens, plutôt qu'aux hypothèses nulles et alternatives. Tant que nous croyons que nos effets d'intérêt proviennent d'une distribution continue, alors nous savons que l'hypothèse nulle est fausse. Cependant, dans le cas d'un test bilatéral, nous ne savons pas s'il est positif ou négatif. Sous cet éclairage, nous pouvons considérer les valeurs de p pour les tests bilatéraux comme une mesure de la force de la preuve que notre estimation a la bonne direction (c.-à-d. Effet positif ou négatif).

p<α

Maintenant, réfléchissez à ce qui se passe lorsque vous revenez en arrière pour obtenir plus de données. Chaque fois que vous obtenez plus de données, votre probabilité d'obtenir la bonne direction conditionnelle à des données suffisantes ne fait qu'augmenter. Donc, dans ce scénario, nous devons réaliser qu'en obtenant plus de données, bien que nous augmentions en fait la probabilité d'une erreur de type I, nous réduisons également la probabilité de conclure par erreur dans la mauvaise direction.

Prenez cela en contraste avec l'abus le plus typique du piratage informatique; nous testons des centaines de tailles d'effet qui ont une bonne probabilité d'être très petites et ne rapportons que les significatives. Notez que dans ce cas, si tous les effets sont faibles, nous avons près de 50% de chances de se tromper de direction lorsque nous déclarons la signification.

Bien sûr, les valeurs de p produites à partir de ce double-down de données devraient toujours venir avec un grain de sel. Bien que, en général, vous ne devriez pas avoir de problème avec les personnes qui collectent plus de données pour être plus sûr de la taille d'un effet, cela pourrait être abusé d'autres manières. Par exemple, un PI intelligent pourrait se rendre compte qu'au lieu de collecter les 100 points de données à la fois, il pourrait économiser beaucoup d'argent et augmenter la puissance en collectant d'abord 50 points de données, en analysant les données, puis en collectant les 50 suivants si ce n'est pas significatif . Dans ce scénario, ils augmentent la probabilité de se tromper dans la direction de l'effet à condition de déclarer la signification, car ils sont plus susceptibles de se tromper dans la direction de l'effet avec 50 points de données qu'avec 100 points de données.

Et enfin, considérez les implications de ne pas obtenir plus de données lorsque nous avons un résultat insignifiant. Cela impliquerait de ne jamais collecter plus d'informations sur le sujet, ce qui ne fera pas vraiment avancer la science, n'est-ce pas? Une étude insuffisante tuerait un champ entier.

Cliff AB
la source
1
(+1) C'est un point de vue intéressant, mais pouvez-vous nous expliquer la différence entre la méthodologie de Fisher et celle du PI intelligent? Les deux collectent plus de données car le test initial est insignifiant, semble-t-il.
nalzok
De plus, je ne sais pas trop ce que vous entendez par "bien que nous augmentions en fait la probabilité d'une erreur de type I, nous réduisons également la probabilité de conclure par erreur dans la mauvaise direction". Quelle est l'hypothèse nulle ici? IMO si vous effectuez un test unilatéral, alors "conclure la mauvaise direction" est "une erreur de type I", et pour les tests bilatéraux, vous ne devez pas conclure la direction.
nalzok
Corrigez-moi si je me trompe, mais je pense que vous proposez de continuer à collecter plus de données jusqu'à ce qu'un test bilatéral soit significatif, et dans ce cas, le taux d'erreur de type I serait de 100%.
nalzok
1
La principale différence entre ce que Fisher recommande et l'IP intelligent / naïf est que Fisher fait cet appel de l'étude en cours de conclusion. Ses options sont soit de collecter plus de données, soit de décider qu'il ne connaîtra jamais la direction de l'effet. D'un autre côté, le PI décide de sous-estimer sa première étude avant même de voir les données.
Cliff AB
1
@nalzok: bien sûr, j'essaierai d'y jeter un œil pendant les heures non travaillées :)
Cliff AB
1

Si l'alternative avait une faible probabilité a priori , alors une expérience qui ne rejette pas le zéro la diminuera davantage, rendant toute recherche supplémentaire encore moins rentable. Par exemple, supposons que la probabilité a priori soit de 0,01. Ensuite, votre entropie est de 0,08 bits. Si la probabilité est réduite à 0,001, votre entropie est maintenant de 0,01. Ainsi, continuer à collecter des données n'est souvent pas rentable. Une des raisons pour lesquelles il serait rentable serait que la connaissance est si importante que même les 0,01 bits d'entropie restants méritent d'être réduits.

Une autre raison serait que la probabilité a priori soit vraiment élevée. Si votre probabilité a priori était supérieure à 50%, le fait de ne pas rejeter la valeur nulle augmente votre entropie, ce qui rend plus rentable la poursuite de la collecte de données. Un exemple serait quand vous êtes presque certain qu'il y a un effet, mais que vous ne savez pas dans quelle direction.

Par exemple, si vous êtes un agent de contre-espionnage et que vous êtes sûr qu'un service a un grain de beauté, et qu'il l'a réduit à deux suspects, et que vous effectuez une analyse statistique pour décider lequel, alors un résultat statistiquement non significatif justifierait la collecte plus de données.

Accumulation
la source
Pourquoi ne pas rejeter le nul diminue-t-il sa probabilité? Bien que l'absence de preuve ne soit pas une preuve d'absence, je ne comprends pas pourquoi c'est une preuve contre l' absence.
nalzok
@nalzok J'ai écrit "Si l'alternative avait une petite probabilité a priori, alors une expérience qui ne rejette pas le null la diminuera encore" Alors que "null" est le nom le plus proche de "it", le null n'est pas une quantité, et ne peut donc pas être diminué et n'est pas un antécédent valide pour "it". De plus, "plus loin" indique que "cela" se réfère à quelque chose de déjà petit. Ces faits indiquent que l'antécédent du "il" est la "faible probabilité a priori" de l'alternative.
Accumulation