Comprendre Gelman & Carlin «Au-delà des calculs de puissance:…» (2014)

Je lis Gelman & Carlin "Au-delà des calculs de puissance: évaluation des erreurs de type S (signe) et de type M (amplitude)" (2014). J'essaie de comprendre l'idée principale, la voie principale, mais je suis confus. Quelqu'un pourrait-il m'aider à distiller l'essence?

Le papier va quelque chose comme ça (si j'ai bien compris).

Les études statistiques en psychologie sont souvent en proie à de petits échantillons.
Sous réserve d'un résultat statistiquement significatif dans une étude donnée,
(1) la taille réelle de l'effet est susceptible d'être gravement surestimée et
(2) le signe de l'effet peut être opposé avec une probabilité élevée - sauf si la taille de l'échantillon est suffisamment grande.
Ce qui précède est montré en utilisant une estimation préalable de la taille de l'effet dans la population, et cet effet est généralement considéré comme faible.

Mon premier problème est, pourquoi conditionner le résultat statistiquement significatif? Est-ce pour refléter le biais de publication? Mais cela ne semble pas être le cas. Alors pourquoi alors?

Mon deuxième problème est, si je fais moi-même une étude, dois-je traiter mes résultats différemment de ce à quoi je suis habitué (je fais des statistiques fréquentistes, pas très familier avec le bayésien)? Par exemple, je prendrais un échantillon de données, estimerais un modèle et enregistrerais une estimation ponctuelle pour un certain effet d'intérêt et une confiance liée autour de lui. Dois-je maintenant me méfier de mon résultat? Ou dois-je me méfier de lui s'il est statistiquement significatif? Comment un changement donné avant cela?

Quel est le principal point à retenir (1) pour un "producteur" de recherches statistiques et (2) pour un lecteur d'articles statistiques appliqués?

Les références:

Gelman, Andrew et John Carlin. "Au-delà des calculs de puissance: évaluation des erreurs de type S (signe) et de type M (amplitude)." Perspectives on Psychological Science 9.6 (2014): 641-651.

PS Je pense que le nouvel élément pour moi ici est l'inclusion d'informations préalables, que je ne sais pas comment traiter (provenant du paradigme fréquentiste).

statistical-significance effect-size power type-i-and-ii-errors Richard Hardy
la source

Comme vous pouvez le voir, je suis assez confus, donc mes questions peuvent ne pas sembler cohérentes ou sensées. J'apprécierai toutes les astuces pour donner plus de sens au papier que j'étudie. J'espère pouvoir poser des questions plus sensibles à mesure que ma compréhension de la question progressera.

Richard Hardy

Notez qu'ils ont posé la prémisse du document dès le début: " Vous venez de terminer une expérience. Vous analysez les résultats et vous trouvez un effet significatif . Succès! Mais attendez - combien d'informations votre étude vous donne-t-elle vraiment "Dans quelle mesure devriez-vous faire confiance à vos résultats? " --- ils décrivent ce qui se passe / ce qui est impliqué lorsque vous avez une signification. Ils utilisent ces conséquences pour motiver à se concentrer sur des choses autres que la signification.

Glen_b -Reinstate Monica

Vous devriez vous méfier de votre résultat - oui - si vous exécutez plusieurs tests de signification et filtrez tout ce qui s'avère insignifiant; c'est une sorte de «biais de publication», mais cela peut se produire sans aucune publication, simplement à l'intérieur du laboratoire d'une personne au cours de plusieurs mois ou années d'expériences. Tout le monde fait quelque chose comme ça dans une certaine mesure, d'où l'intérêt pédagogique à conditionner des résultats significatifs.

amibe dit Réintégrer Monica

@amoeba, OK, mais si (hypothétiquement) j'évalue un seul modèle et me concentre sur un seul paramètre prédéfini (donc absolument pas de tests multiples), le résultat de Gelman & Carlin changerait-il quelque chose? Que diriez-vous d'inclure les informations préalables?

Richard Hardy

Des informations préalables sont nécessaires pour évaluer le taux de fausses découvertes; la logique habituelle des tests de signification ne garantit que le taux d'erreur de type I P (signif | null). Pour estimer P (null | signif), vous devez en invoquer un préalable. C'est ce que font Gelman et Carlin ici. Si vous estimez un seul modèle, le "taux de fausses découvertes" n'a aucun sens (dans l'approche fréquentiste); mais généralement, les gens estiment de nombreux modèles :-) ou du moins ils lisent de la littérature composée d'autres personnes qui estiment de nombreux modèles.

amibe dit Réintégrer Monica

Réponses:

J'ai relu le papier et cette fois il semble beaucoup plus clair. Maintenant, les commentaires utiles de @Glen_b et @amoeba ont beaucoup de sens.

P_{\hat{β}} (\cdot | \hat{β} is statistically significant) \neq P_{\hat{β}} (\cdot) .

$P_{\hat\beta}(\cdot|\hat\beta \text{ is statistically significant})\neq P_{\hat\beta}(\cdot).$

Biais de publication (seuls les résultats statistiquement significatifs sont publiés) et
Biais dans les calculs de conception pour les nouvelles études (en prenant comme référence des tailles d'effet attendues trop importantes).

La bonne nouvelle est que les deux problèmes peuvent être résolus de manière satisfaisante.

$\beta^{plausible}$ $\hat\beta$ $s.e.(\hat\beta)$ $t$ $P_{\hat\beta}(\cdot)$
$\beta^{plausible}$

Pour répondre brièvement à mes deux questions:

Il s'agit du biais de publication, bien que non pas dans un sens de dragage de données mais dans le contexte d'études de sous-puissance; là un résultat statistiquement significatif est susceptible d'appartenir à, disons, 5% de rejets sous le zéro (donc le nul est en fait vrai mais nous nous sommes retrouvés loin de là par hasard) plutôt qu'un rejet sous l'alternative (où le null n'est pas vrai et le résultat est "authentique").
Je devrais être prudent lorsque je rejette la valeur nulle, car le résultat statistiquement significatif est probablement dû au hasard (même si la chance est limitée, disons, à 5%) plutôt qu'à un effet "authentique" (en raison de la faible puissance) .

Richard Hardy
la source

Cette réponse de Glen_b est également très utile.

Richard Hardy

β^{p l a u s i b l e}

$\beta^{plausible}$

D

$D$

@PatrickB., Merci. Je vais y jeter un coup d'œil un peu plus tard. (Je vois que j'ai déjà voté contre cette réponse; cela signifie que je l'ai déjà trouvée utile.)

Richard Hardy

Richard, j'ai développé une fonction R pour estimer l'erreur de type "S" et de type "M" pour un cas plus général de tailles d'effet, pas ce que Gelman montre sous la distribution normale. Il y a comme vous lisez le document un processus de récupération simple à partir d'une découverte précédente et statistiquement significative. Mais l'ensemble du processus est entièrement basé sur une analyse de puissance. Essentiellement, pour les petites études bruyantes, l'ES est grande et en supposant plusieurs tailles d'effet plausibles raisonnables et empiriquement vérifiables, vous pouvez obtenir des résultats raisonnables ...

rnorouzian

... des estimations de ce qu'une étude future devrait inclure en termes de taille d'échantillon, par exemple, pour éviter d'obtenir des taux élevés de type "S" et des taux d'exagération élevés (c'est-à-dire de type "M"). Pour les enregistrements, le type "S" de Gelman est simplement cette pièce sous la distribution de taille d'effet sous-jacente qui est de l'autre côté de l'effet sous-jacent divisé par la puissance. Quoi qu'il en soit, regardez la fonction au cas où cela pourrait aider.

rnorouzian

Il existe un autre angle de ce document qui peut être utile si vous appliquez déjà une analyse bayésienne et que vous ne vous souciez pas de la partie de la signification statistique.

$P$ $\beta$ $V$ $\beta$

p (β | V) \sim p (V | β) p (β)

$p(\beta | V) \sim p(V | \beta)p(\beta)$

$V$ $V$ $p(V | \beta)$

$\beta^{plausible}$ $P(V | \beta)$ $\beta = \beta^{plausible}$ $V$ $\beta^{plausible}$ est la taille réelle de l'effet.

$V$ $\beta$

$V$ $V$

$\beta$ $\beta^{plausible}$

$\beta^{plausible}$

Vous devez faire attention à ce que personne n'utilise à mauvais escient cette métrique de «puissance» comme si c'était la même chose qu'un calcul de puissance fréquentiste, ce qui est assez difficile. Mais toutes ces métriques sont très utiles pour l'analyse de conception prospective et rétrospective même lorsque toute la procédure de modélisation est bayésienne et ne fait référence à aucun résultat de signification statistique.

ely
la source