Je travaille avec un ensemble de données ayant N environ 200 000. Dans les régressions, je vois des valeurs de signification très faibles << 0,001 associées à de très petites tailles d'effet, par exemple r = 0,028. Ce que j'aimerais savoir, est-ce qu'il existe un moyen de principe de décider d'un seuil de signification approprié par rapport à la taille de l'échantillon? Y a-t-il d'autres considérations importantes concernant l'interprétation de la taille de l'effet avec un échantillon aussi grand?
15
Réponses:
Dans L'insignifiance du test de signification , Johnson (1999) a noté que les valeurs de p sont arbitraires, en ce que vous pouvez les rendre aussi petites que vous le souhaitez en collectant suffisamment de données, en supposant que l'hypothèse nulle est fausse, ce qui est presque toujours le cas. Dans le monde réel, il est peu probable qu'il y ait des corrélations semi-partielles qui sont exactement nulles, ce qui est l'hypothèse nulle pour tester la signification d'un coefficient de régression. Les seuils de signification de la valeur P sont encore plus arbitraires. La valeur de .05 comme seuil entre la signification et la non-signification est utilisée par convention, pas par principe. La réponse à votre première question est donc non, il n'y a aucun moyen de principe de décider d'un seuil de signification approprié.
Alors, que pouvez-vous faire, compte tenu de votre grand ensemble de données? Cela dépend de vos raisons d'explorer la signification statistique de vos coefficients de régression. Essayez-vous de modéliser un système multifactoriel complexe et de développer une théorie utile qui cadre ou prédit raisonnablement la réalité? Ensuite, vous pourriez peut-être penser à développer un modèle plus élaboré et à y prendre une perspective de modélisation, comme décrit dans Rodgers (2010), The Epistemology of Mathematical And Statistical Modeling . Un avantage d'avoir beaucoup de données est la possibilité d'explorer des modèles très riches, à plusieurs niveaux et avec des interactions intéressantes (en supposant que vous ayez les variables pour le faire).
Si, d'autre part, vous voulez juger s'il convient de traiter un coefficient particulier comme statistiquement significatif ou non, vous pouvez prendre la suggestion de Good (1982) résumée dans Woolley (2003) : Calculez la valeur q comme qui standardise les valeurs de p à une taille d'échantillon de 100. Une valeur de p de 0,001 exactement se transforme en une valeur de p de 0,045 - statistiquement significative encore.p ⋅ ( n / 100 )------√
Donc, si c'est important en utilisant un seuil arbitraire ou un autre, qu'en est-il? S'il s'agit d'une étude d'observation, vous avez beaucoup plus de travail pour justifier qu'elle est réellement significative dans votre façon de penser et pas seulement une fausse relation qui apparaît parce que vous avez mal spécifié votre modèle. Notez qu'un petit effet n'est pas aussi intéressant sur le plan clinique s'il représente des différences préexistantes entre des personnes choisissant différents niveaux de traitement plutôt qu'un effet de traitement.
Vous devez déterminer si la relation que vous voyez est pratiquement significative, comme l'ont noté les commentateurs. La conversion des chiffres que vous citez de en r 2 pour expliquer la variance ( r est la corrélation, la mettre au carré pour obtenir la variance expliquée) donne respectivement 3 et 6% de variance expliquée, ce qui ne semble pas beaucoup.r r2 r
la source
Je suppose qu'un moyen facile de vérifier serait d'échantillonner au hasard un nombre tout aussi important de ce que vous savez être une distribution deux fois et de comparer les deux résultats. Si vous faites cela plusieurs fois et observez des valeurs de p similaires, cela suggère qu'il n'y a pas d'effet réel. Si d'un autre côté vous ne le faites pas, alors il y en a probablement.
la source