J'ai lu des controverses concernant les tests d'hypothèses, certains commentateurs suggérant que les tests d'hypothèses ne devraient pas être utilisés. Certains commentateurs suggèrent d' utiliser plutôt des intervalles de confiance .
- Quelle est la différence entre les intervalles de confiance et les tests d'hypothèse? Une explication avec référence et des exemples seraient appréciés.
hypothesis-testing
confidence-interval
love-stats
la source
la source
Réponses:
Vous pouvez utiliser un intervalle de confiance (IC) pour les tests d'hypothèse. Dans le cas typique, si l'IC d'un effet ne s'étend pas sur 0, vous pouvez rejeter l'hypothèse nulle. Mais un CI peut être utilisé pour plus, alors que le fait de savoir s'il a été réussi est la limite de l'utilité d'un test.
La raison pour laquelle il est recommandé d'utiliser CI au lieu d'un simple test t, par exemple, est qu'alors vous pouvez faire plus que simplement tester des hypothèses. Vous pouvez faire une déclaration sur la gamme des effets que vous pensez être probables (ceux du CI). Vous ne pouvez pas faire cela avec juste un test t. Vous pouvez également l'utiliser pour faire des déclarations sur le null, ce que vous ne pouvez pas faire avec un t-test. Si le test t ne rejette pas la valeur nulle, vous dites simplement que vous ne pouvez pas rejeter la valeur nulle, ce qui ne dit pas grand-chose. Mais si vous avez un intervalle de confiance étroit autour de la valeur nulle, vous pouvez suggérer que la valeur nulle ou proche de celle-ci est probablement la vraie valeur et suggérer que l'effet du traitement, ou variable indépendante, est trop petit pour être significatif ( ou que votre expérience ne fonctionne pas
Ajouté plus tard: j'aurais vraiment dû dire que, même si vous pouvez utiliser un CI comme un test, il n'en est pas un. C'est une estimation d'une plage où vous pensez que les valeurs des paramètres se trouvent. Vous pouvez faire des tests comme des inférences mais vous êtes tellement mieux de ne jamais en parler de cette façon.
Ce qui est mieux?
A) L'effet est de 0,6, t (29) = 2,8, p <0,05. Cet effet statistiquement significatif est ... (une discussion s'ensuit sur cette signification statistique sans aucune mention ni même une forte capacité de discuter de l'implication pratique de l'ampleur de la découverte ... dans un cadre de Neyman-Pearson, l'amplitude du t et Les valeurs de p sont pratiquement dénuées de sens et tout ce que vous pouvez discuter est de savoir si l'effet est présent ou non. Vous ne pouvez jamais vraiment dire qu'il n'y a pas réellement d'effet basé sur le test.)
ou
B) En utilisant un intervalle de confiance à 95%, j'estime que l'effet se situe entre 0,2 et 1,0. (une discussion s'ensuit en parlant de l'effet réel de l'intérêt, que ce soit des valeurs plausibles qui ont une signification particulière et une utilisation du mot significative pour exactement ce qu'il est censé signifier. En outre, la largeur de l'IC peut aller directement à une discussion pour savoir s'il s'agit d'une conclusion solide ou si vous ne pouvez parvenir qu'à une conclusion plus provisoire)
Si vous avez suivi un cours de statistiques de base, vous pourriez initialement vous orienter vers A. Et il peut y avoir des cas où c'est une meilleure façon de rapporter un résultat. Mais pour la plupart des travaux, B est de loin supérieur. Une estimation de la plage n'est pas un test.
la source
la source
«Student» a plaidé en faveur d'intervalles de confiance au motif qu'ils pouvaient montrer quels effets étaient plus importants et quels étaient les plus significatifs.
Par exemple, si vous avez trouvé deux effets où le premier avait un intervalle de confiance pour son impact financier de 5 £ à 6 £, tandis que le second avait un intervalle de confiance de 200 £ à 2800 £. Le premier est plus statistiquement significatif mais le second est probablement plus important.
la source