Que signifie faire de la taille de l'échantillon une variable aléatoire?

18

Frank Harrell a lancé un blog ( Pensée statistique) . Dans son premier article , il énumère certaines caractéristiques clés de sa philosophie statistique. Entre autres éléments, il comprend:

  • Faites de la taille de l'échantillon une variable aléatoire lorsque cela est possible
  1. Que signifie «faire de la taille de l'échantillon une variable aléatoire»?
  2. Quels sont les avantages de faire cela? Pourquoi serait-il préférable?
gung - Réintégrer Monica
la source
Dans l'analyse séquentielle, le moment d'apparition d'un événement est traité comme une variable aléatoire. C'est également vrai pour la taille de l'échantillon.
Michael R. Chernick
@RichardHardy, cela devrait être discuté sur la méta- validation croisée . J'ai créé le tag b / c, nous n'en avions pas 1 et il y a beaucoup de questions sur ACF, etc. Nous pourrions toujours en faire un synonyme.
gung - Rétablir Monica

Réponses:

13

Je ne veux pas utiliser des modèles proches du processus de collecte de données, mais plutôt faire un suivi bayésien continu des probabilités postérieures, qui ne nécessite aucune pénalité pour la multiplicité. Au lieu de calculer une taille d'échantillon cible arbitraire, je préférerais calculer une taille d'échantillon maximale possible (pour l'approbation du budget) et sinon arrêter «quand nous aurons la réponse», comme c'est généralement le cas avec bon effet en physique. J'en dirai plus à ce sujet dans mon blog http://fharrell.com un jour avant longtemps.

Frank Harrell
la source
1
Que signifie concrètement "quand nous aurons la réponse"? Je pense que mener une étude jusqu'à ce que vous obteniez un résultat que vous aimez (par exemple, un intervalle crédible à 95% n'inclut pas 0) serait tout aussi corrompu dans un contexte bayésien que dans un contexte fréquentiste.
gung - Réintégrer Monica
1
@gung pas du tout. L'inférence bayésienne est complètement indépendante de la règle d'arrêt. Il est facile de simuler l'étalonnage des probabilités postérieures au moment de l'arrêt précoce, en montrant qu'elles sont exactement correctes. C'est l'une des différences étonnantes avec le monde fréquentiste. En général, les probabilités en aval sont sans contexte et les probabilités en arrière dépendent de la façon dont vous y êtes arrivé. Je m'arrêterais donc lorsque la probabilité postérieure que l'effet soit> 0 dépasse un certain nombre tel que 0,95 ou lorsque l'intervalle crédible a une largeur <un certain nombre spécifié.
Frank Harrell
1
Votre réponse au commentaire de @ gung me semble poser la question: certains lecteurs pourraient bien penser que si l'inférence bayésienne permet en effet "l'échantillonnage à une conclusion anticipée", tant pis pour l'inférence bayésienne. (Je les renvoie aux références du 3e paragraphe ici .) Dans l'attente de votre prochain article de blog!
Scortchi - Réintégrer Monica
L'échantillonnage à une conclusion incorrecte perdue ne se produit que si le précédent utilisé par le statisticien entre en conflit avec le précédent utilisé par le réviseur. Par exemple, si le réviseur met une masse de probabilité à zéro (c.-à-d., Le prieur a un état absorbant) et que le modèle utilisé ne met pas l'accent sur le nul, l'analyse peut indiquer l'arrêt pour un effet positif mais le réviseur dit qu'il y a preuves insuffisantes d'un effet. Si vous simulez des études avec un certain a priori et analysez en utilisant le même a priori, les sondes postérieures sont parfaitement calibrées et les moyens postérieurs sont également parfaits.
Frank Harrell