J'ai terminé l'analyse des données et obtenu des "résultats statistiquement significatifs", ce qui correspond à mon hypothèse. Cependant, un étudiant en statistiques m'a dit que c'était une conclusion prématurée. Pourquoi? Y a-t-il autre chose à inclure dans mon rapport?
46
Réponses:
Test d'hypothèses versus estimation de paramètres
En règle générale, les hypothèses sont formulées de manière binaire. Je vais mettre de côté les hypothèses de direction, car elles ne changent pas beaucoup la question. Il est courant, au moins en psychologie, de parler d'hypothèses telles que: la différence entre les moyennes de groupe est ou n'est pas zéro; la corrélation est ou n'est pas zéro; le coefficient de régression est ou n'est pas nul; le r-carré est ou n'est pas zéro. Dans tous ces cas, il existe une hypothèse nulle d'absence d'effet et une hypothèse alternative d'effet.
Cette pensée binaire n’est généralement pas ce qui nous intéresse le plus. Une fois que vous avez réfléchi à votre question de recherche, vous constaterez presque toujours que vous êtes réellement intéressé par l’estimation de paramètres. Vous êtes intéressé par la différence réelle entre les moyennes de groupe, ou la taille de la corrélation, ou la taille du coefficient de régression, ou la quantité de variance expliquée.
Bien sûr, lorsque nous obtenons un échantillon de données, l'estimation de l'échantillon d'un paramètre n'est pas la même que celle du paramètre population. Nous avons donc besoin d’un moyen de quantifier notre incertitude quant à la valeur du paramètre. D'un point de vue fréquentiste, les intervalles de confiance constituent un moyen de le faire, bien que les puristes bayésiens puissent arguer du fait qu'ils ne permettent pas strictement l'inférence que vous pourriez vouloir faire. Dans une perspective bayésienne, les intervalles crédibles sur les densités postérieures offrent un moyen plus direct de quantifier votre incertitude quant à la valeur d'un paramètre de population.
Paramètres / tailles d'effet
S'éloigner de l'approche des tests d'hypothèses binaires vous oblige à penser de manière continue. Par exemple, quelle différence de taille dans les moyennes de groupe serait théoriquement intéressante? Comment feriez-vous la différence entre les moyennes de groupe sur un langage subjectif ou des implications pratiques? Des mesures normalisées de l’effet ainsi que des normes contextuelles sont un moyen de construire un langage permettant de quantifier la signification des différentes valeurs de paramètre. Ces mesures sont souvent appelées "tailles d'effet" (par exemple, d, r, , etc. de Cohen ). Cependant, il est parfaitement raisonnable, et souvent préférable, de parler de l'importance d'un effet en utilisant des mesures non normalisées (par exemple, la différence de moyenne de groupe sur des variables significatives non normalisées telles que les niveaux de revenu, l'espérance de vie, etc.).R2
Il existe une littérature abondante en psychologie (et dans d’autres domaines) critiquant l’accent mis sur les valeurs p, le test de signification des hypothèses nulles, etc. (voir cette recherche Google Scholar ). Dans la littérature, il est souvent recommandé de signaler la taille des effets avec des intervalles de confiance (p. Ex., Groupe de travail sur les APA, Wilkinson, 1999).
Étapes à suivre pour s'éloigner des tests d'hypothèses binaires
Si vous envisagez d'adopter cette façon de penser, je pense que vous pouvez adopter des approches de plus en plus sophistiquées:
Parmi les nombreuses références possibles, vous verrez Andrew Gelman parler beaucoup de ces problèmes sur son blog et dans ses recherches.
Références
la source
Juste pour ajouter aux réponses existantes (qui sont excellentes, en passant). Il est important de savoir que la signification statistique est fonction de la taille de l'échantillon .
Lorsque vous obtenez de plus en plus de données, vous pouvez trouver des différences statistiquement significatives où que vous regardiez. Lorsque la quantité de données est énorme, même les plus infimes effets peuvent avoir une signification statistique. Cela ne signifie pas que les effets sont significatifs de manière pratique.
Lors du test des différences, les valeurs seules ne suffisent pas, car la taille de l'effet requise pour produire un résultat statistiquement significatif diminue avec l'augmentation de la taille de l'échantillon . En pratique, la vraie question est généralement de savoir s’il existe un effet d’une taille minimale donnée (pour être pertinent). Lorsque les échantillons deviennent très grande, -values se rapprochent de sens pour répondre à la réelle question.pp p
la source
S'il existait une base raisonnable pour soupçonner que votre hypothèse pourrait être vraie avant que vous meniez votre étude; et vous avez mené une bonne étude (par exemple, vous n'avez pas provoqué de confusion); et vos résultats étaient cohérents avec votre hypothèse et statistiquement significatifs; alors je pense que vous allez bien, dans la mesure où cela va.
Cependant, vous ne devriez pas penser que cette importance est tout ce qui est important dans vos résultats. Tout d’abord, vous devriez également regarder la taille de l’ effet (voir ma réponse ici: la taille de l’effet comme hypothèse pour le test de signification ). Vous voudrez peut-être aussi explorer un peu vos données et voir si vous pouvez trouver des surprises potentiellement intéressantes qui mériteraient d'être suivies.
la source
Avant de signaler ceci et ceci et ceci et cela, commencez par formuler ce que vous voulez apprendre de vos données expérimentales. Le problème principal des tests d’hypothèses habituels (ces tests que nous apprenons à l’école ...) n’est pas la binarité: c’est que ce sont des tests d’hypothèses qui ne sont pas des hypothèses d’intérêt. Voir la diapositive 13 ici (télécharger le pdf pour apprécier les animations). À propos de la taille des effets, il n’existe pas de définition générale de cette notion . Franchement, je ne recommanderais pas de l’utiliser pour des statisticiens non experts, il s’agit de mesures techniques, et non naturelles, d’effet. Votre hypothèse d’intérêt devrait être formulée dans des termes compréhensibles par les profanes.
la source
Je suis loin d'être un expert en statistiques, mais une des choses sur laquelle les cours de statistiques que j'ai organisés jusqu'à présent a été soulignée est la question de "l'importance pratique". Je crois que cela fait allusion à ce dont Jeromy et Gung parlent en parlant de "taille de l'effet".
Nous avions un exemple en classe d'un régime de 12 semaines qui donnait des résultats de perte de poids statistiquement significatifs, mais l'intervalle de confiance de 95% montrait une perte de poids moyenne comprise entre 0,2 et 1,2 kg (OK, les données étaient probablement facturées mais elles illustrent un point). . Bien que "statistiquement significativement" "diffère de zéro, une perte de poids de 200 grammes sur 12 semaines est-elle un résultat" pratiquement significatif "pour une personne en surpoids qui souhaite retrouver la santé?
la source
Il est impossible de répondre avec précision sans connaître davantage de détails sur votre étude et les critiques de la personne. Mais voici une possibilité: si vous avez effectué plusieurs tests et que vous choisissez de vous concentrer sur celui qui est sorti
p<0.05
et d'ignorer les autres, alors cette "signification" a été diluée par le fait que vous y avez porté une attention sélective. Comme une pompe intuitive pour cela, rappelez-vous que celap=0.05
signifie que "ce résultat arriverait par hasard (seulement) 5% du temps, même si l'hypothèse nulle est vraie". Donc, plus vous exécutez de tests, plus il est probable qu’au moins l’un d’entre eux donnera un résultat "significatif" par hasard - même s’il n’ya aucun effet. Voir http://en.wikipedia.org/wiki/Multiple_comparisons et http://en.wikipedia.org/wiki/Post-hoc_analysisla source
Je vous suggère de lire ce qui suit:
Anderson, DR, KP Burnham, Thompson, WL, 2000. Test d'hypothèses nulles: problèmes, prévalence et solution de remplacement. J. Wildl. Gérer. 64, 912-923. Gigerenzer, G., 2004. Statistiques sans esprit. Journal of Socio-Economics 33, 587-606. Johnson, DH, 1999. L'insignifiance des tests de signification statistique. Le Journal of Wildlife Management 63, 763-772.
Les hypothèses nulles sont rarement intéressantes dans la mesure où, de toute expérience ou de tout ensemble d'observations, il y a deux résultats: rejeter correctement le caractère nul ou commettre une erreur de type II. La taille de l'effet correspond à ce que vous êtes probablement intéressé à déterminer et, une fois cela fait, vous devez générer des intervalles de confiance pour cette taille d'effet.
la source