J'ai lu des informations sur les valeurs de , les taux d'erreur de type 1, les niveaux de signification, les calculs de puissance, la taille des effets et le débat Fisher vs Neyman-Pearson. Cela m'a laissé un peu dépassé. Je m'excuse pour le mur de texte, mais j'ai estimé qu'il était nécessaire de donner un aperçu de ma compréhension actuelle de ces concepts, avant de passer à mes vraies questions.
D'après ce que j'ai rassemblé, une valeur est simplement une mesure de surprise, la probabilité d'obtenir un résultat au moins aussi extrême, étant donné que l'hypothèse nulle est vraie. À l'origine, Fisher voulait que ce soit une mesure continue.
Dans le cadre Neyman-Pearson, vous sélectionnez un niveau de signification à l'avance et l'utilisez comme point de coupure (arbitraire). Le niveau de signification est égal au taux d'erreur de type 1. Elle est définie par la fréquence à long terme, c'est-à-dire que si vous répétiez une expérience 1000 fois et que l'hypothèse nulle est vraie, environ 50 de ces expériences entraîneraient un effet significatif , en raison de la variabilité d'échantillonnage. En choisissant un niveau de signification, nous nous prémunissons contre ces faux positifs avec une certaine probabilité. valeurs n'apparaissent traditionnellement pas dans ce cadre.
Si nous trouvons une valeur de 0,01, cela ne signifie pas que le taux d'erreur de type 1 est de 0,01, l'erreur de type 1 est indiquée a priori. Je pense que c'est l'un des principaux arguments du débat Fisher vs NP, car les valeurs de sont souvent rapportées à 0,05 *, 0,01 **, 0,001 ***. Cela pourrait induire les gens en erreur en leur disant que l'effet est significatif à une certaine valeur , au lieu d'une certaine valeur de signification.
Je me rends également compte que la valeur est fonction de la taille de l'échantillon. Par conséquent, il ne peut pas être utilisé comme mesure absolue. Une petite valeur pourrait indiquer un petit effet non pertinent dans une expérience sur un grand échantillon. Pour contrer cela, il est important d'effectuer un calcul de la puissance / effet lors de la détermination de la taille de l'échantillon pour votre expérience. valeurs nous indiquent s'il y a un effet, et non sa taille. Voir Sullivan 2012 .
Ma question: comment puis-je concilier le fait que la valeur est une mesure de surprise (plus petite = plus convaincante) alors qu'en même temps, elle ne peut pas être considérée comme une mesure absolue?
Ce qui me déroute, c'est la suivante: peut-on être plus confiant dans une petite valeur que dans une grande? Dans le sens pêcheur, je dirais que oui, nous sommes plus surpris. Dans le cadre NP, le choix d'un niveau de signification plus petit impliquerait que nous nous protégeons plus fortement contre les faux positifs.
Mais d'un autre côté, les valeurs dépendent de la taille de l'échantillon. Ce n'est pas une mesure absolue. Ainsi, nous ne pouvons pas simplement dire que 0,001593 est plus significatif que 0,0439. C'est pourtant ce qu'impliquerait le cadre de Fisher: nous serions plus surpris d'une telle valeur extrême. Il y a même une discussion au sujet du terme hautement significatif étant un terme impropre: est-ce mal de se référer aux résultats comme étant "très importants"?
J'ai entendu dire que les valeurs de dans certains domaines de la science ne sont considérées comme importantes que lorsqu'elles sont inférieures à 0,0001, tandis que dans d'autres domaines, les valeurs autour de 0,01 sont déjà considérées comme hautement significatives.
Questions connexes:
Réponses:
Les valeurs plus petites sont-elles "plus convaincantes"? Oui, bien sûr.p
Dans le cadre de Fisher, la valeur est une quantification de la quantité de preuves par rapport à l'hypothèse nulle. Les preuves peuvent être plus ou moins convaincantes; plus la valeur petite , plus elle est convaincante. Notez que dans toute expérience donnée avec une taille d'échantillon fixe , la valeur est monotone liée à la taille de l'effet, comme @Scortchi le souligne bien dans sa réponse (+1). Des valeurs de plus petites correspondent donc à des tailles d'effet plus importantes; bien sûr, ils sont plus convaincants!p n p pp p n p p
Dans le cadre Neyman-Pearson, l'objectif est d'obtenir une décision binaire: soit les preuves sont "significatives", soit elles ne le sont pas. En choisissant le seuil , nous garantissons que nous n'aurons pas plus de faux positifs. Notez que différentes personnes peuvent avoir un différent à l'esprit en regardant les mêmes données; peut-être que lorsque je lis un article dans un domaine qui me laisse sceptique, je ne considérerais pas personnellement comme des résultats "significatifs" avec par exemple même si les auteurs les qualifient de significatifs. Mon peut être défini sur ou quelque chose. De toute évidence, plus le rapportéα α p = 0,03 α 0,001 p pα α α p=0.03 α 0.001 p -valeur, les lecteurs les plus sceptiques pourront convaincre! Par conséquent, là encore, des valeurs de inférieures sont plus convaincantes.p
La pratique actuellement standard consiste à combiner les approches de Fisher et de Neyman-Pearson: si , alors les résultats sont appelés "significatifs" et la valeur de est [exactement ou approximativement] rapportée et utilisée comme mesure de convaincance (en marquant avec des étoiles, en utilisant des expressions comme "hautement significatives", etc.); si , alors les résultats sont appelés "non significatifs" et c'est tout.p p > αp<α p p>α
C'est ce qu'on appelle généralement une "approche hybride", et en fait, elle est hybride. Certaines personnes soutiennent que cet hybride est incohérent; J'ai tendance à être en désaccord. Pourquoi serait-il invalide de faire deux choses valides en même temps?
Lectures complémentaires:
L '«hybride» entre les approches de Fisher et de Neyman-Pearson pour les tests statistiques est-il vraiment un «méli-mélo incohérent»? - ma question sur "l'hybride". Cela a généré des discussions, mais je ne suis toujours pas satisfait de l'une des réponses et je prévois de revenir sur ce sujet à un moment donné.
Est-il erroné de qualifier les résultats de "hautement significatifs"? - voir ma réponse d'hier, qui dit essentiellement: ce n'est pas faux (mais peut-être un peu bâclé).
Pourquoi les valeurs de p inférieures ne sont-elles pas davantage des preuves contre le zéro? Arguments de Johansson 2011 - un exemple d'un article anti-Fisher soutenant que les valeurs ne fournissent pas de preuves contre le nul; la meilleure réponse de @Momo fait un bon travail en démystifiant les arguments. Ma réponse à la question du titre est: Mais bien sûr qu'ils le sont.p
la source
Je ne sais pas ce que l'on entend par de plus petites valeurs de p étant "meilleures", ou par nous étant "plus confiants" en elles. Mais considérer les valeurs de p comme une mesure de la surprise que nous devrions être par les données, si nous croyions l'hypothèse nulle, semble assez raisonnable; la valeur de p est une fonction monotone de la statistique de test que vous avez choisiepour mesurer la divergence avec l'hypothèse nulle dans une direction qui vous intéresse, en l'étalonnant par rapport à ses propriétés dans le cadre d'une procédure d'échantillonnage pertinente à partir d'une population ou d'une attribution aléatoire de traitements expérimentaux. La «signification» est devenue un terme technique pour désigner les valeurs de p «supérieures ou inférieures à une valeur spécifiée; ainsi, même ceux qui ne sont pas intéressés à spécifier des niveaux de signification et à accepter ou rejeter des hypothèses ont tendance à éviter les expressions telles que «hautement significatif» - le simple respect de la convention.
En ce qui concerne la dépendance des valeurs de p à la taille de l'échantillon et à la taille de l'effet, une certaine confusion peut survenir car, par exemple, il peut sembler que 474 têtes sur 1000 lancers devraient être moins surprenantes que 2 sur 10 pour quelqu'un qui pense que la pièce est juste - après tout la proportion d'échantillon ne s'écarte que légèrement de 50% dans le premier cas, mais les valeurs de p sont à peu près les mêmes. Mais vrai ou faux n'admettent pas de degrés; la valeur de p fait ce qu'on lui demande: souvent, les intervalles de confiance pour un paramètre sont vraiment ce qui est nécessaire pour évaluer la précision avec laquelle un effet a été mesuré, et l'importance pratique ou théorique de sa magnitude estimée.
la source
Merci pour les commentaires et suggestions de lectures. J'ai eu un peu plus de temps pour réfléchir à ce problème et je pense avoir réussi à isoler mes principales sources de confusion.
Au départ, je pensais qu'il y avait une dichotomie entre le fait de considérer la valeur p comme une mesure de surprise et le fait de déclarer que ce n'était pas une mesure absolue. Maintenant, je me rends compte que ces déclarations ne se contredisent pas nécessairement. La première nous permet d'être plus ou moins confiant dans l'extrême (voire la similitude?) D'un effet observé, par rapport à d'autres résultats hypothétiques de la même expérience. Alors que ce dernier nous dit seulement que ce qui pourrait être considéré comme une valeur p convaincante dans une expérience, pourrait ne pas être impressionnant du tout dans une autre, par exemple si les tailles d'échantillon diffèrent.
Le fait que certains domaines de la science utilisent une base de référence différente de fortes valeurs de p pourrait être soit le reflet de la différence de tailles d'échantillon courantes (astronomie, expériences cliniques, psychologiques) et / ou une tentative de transmettre la taille de l'effet dans un p- valeur. Mais ce dernier est une confusion incorrecte des deux.
La signification est une question oui / non basée sur l'alpha qui a été choisi avant l'expérience. Une valeur de p ne peut donc pas être plus significative qu'une autre, car elle est plus petite ou plus grande que le niveau de signification choisi. D'un autre côté, une valeur de p plus petite sera plus convaincante qu'une plus grande (pour une taille d'échantillon similaire / expérience identique, comme mentionné dans mon premier point).
Les intervalles de confiance transmettent intrinsèquement la taille de l'effet, ce qui en fait un bon choix pour se prémunir contre les problèmes mentionnés ci-dessus.
la source
La valeur de p ne peut pas être une mesure de surprise car ce n'est qu'une mesure de probabilité lorsque le zéro est vrai. Si la valeur nulle est vraie, alors chaque valeur possible de p est également probable. On ne peut être surpris d'une quelconque valeur de p avant de décider de rejeter la valeur nulle. Une fois que l'on décide qu'il y a un effet, la signification de la valeur p disparaît. On le signale simplement comme un maillon d'une chaîne inductive relativement faible pour justifier ou non le rejet du nul. Mais s'il a été rejeté, il n'a en fait plus de sens.
la source