Quand les valeurs p sont-elles trompeuses?

14

Quelles sont les conditions de données que nous devons surveiller, où les valeurs de p ne sont peut-être pas le meilleur moyen de déterminer la signification statistique? Y a-t-il des types de problèmes spécifiques qui entrent dans cette catégorie?

user179
la source
2
Réponse sarcastique: presque toujours. Il y a une énorme incitation à créer des erreurs de type 1 (c.-à-d., De "fausses alarmes") lorsque les analystes examinent les données, donc presque toutes les valeurs de p que vous rencontrerez sont "trop" petites.
statsRus
7
Je ne fais que lancer ça, mais ce genre de question ne serait-il pas préférable de se poser sur Cross Validated ?
buruzaemon
1
@buruzaemon: Peut-être. J'ai fait une recherche, c'est le match le plus proche: stats.stackexchange.com/questions/67320/… Il ne semble pas y avoir plus d'une poignée de questions qui touchent à ce sujet.
Alex I

Réponses:

9

Vous posez des questions sur le dragage de données , ce qui se produit lorsque vous testez un très grand nombre d'hypothèses par rapport à un ensemble de données ou que vous testez des hypothèses par rapport à un ensemble de données suggérées par les mêmes données.

En particulier, consultez Risque d'hypothèses multiples et Testez les hypothèses suggérées par les données .

La solution consiste à utiliser une sorte de correction pour le taux de fausses découvertes ou le taux d' erreur Familywise , comme la méthode de Scheffé ou la correction (très old-school) de Bonferroni .

D'une manière un peu moins rigoureuse, il peut être utile de filtrer vos découvertes par intervalle de confiance pour le rapport de cotes (OR) pour chaque résultat statistique. Si l'intervalle de confiance à 99% pour le rapport de cotes est de 10 à 12, alors le OU est <= 1 avec une probabilité extrêmement faible, surtout si la taille de l'échantillon est également grande. Si vous trouvez quelque chose comme ça, c'est probablement un effet fort même s'il est sorti d'un test de millions d'hypothèses.

Alex I
la source
1
Bien que Bonferroni soit définitivement de la vieille école, il est toujours assez populaire. Une méthode appelée correction Šidák y est associée ( en.wikipedia.org/wiki/%C5%A0id%C3%A1k_correction ). Je l'appelle, car dans un système de publicité ciblée à grande échelle sur lequel j'ai travaillé, nous avons pu mettre en œuvre cette approche en tant qu'UDF dans Hive. Cependant, cela ne fonctionne mieux que lorsque vous avez une indépendance entre les tests. Sinon, vous devez vous rabattre sur Bonferroni ou sur une autre méthode.
Chris Simokat
5

Vous ne devez pas considérer la valeur p hors de son contexte.

Un point assez basique (comme illustré par xkcd ) est que vous devez considérer le nombre de tests que vous faites réellement. Évidemment, vous ne devriez pas être choqué de voir p <0,05 pour un test sur 20, même si l'hypothèse nulle est vraie à chaque fois.

Un exemple plus subtil de cela se produit en physique des hautes énergies et est connu sous le nom d' effet de regard ailleurs . Plus l'espace de paramètres que vous recherchez pour un signal qui pourrait représenter une nouvelle particule est grand, plus vous êtes susceptible de voir un signal apparent qui est vraiment juste dû à des fluctuations aléatoires.

Tim Goodman
la source