Comment choisir le niveau de signification pour un grand ensemble de données?

15

Je travaille avec un ensemble de données ayant N environ 200 000. Dans les régressions, je vois des valeurs de signification très faibles << 0,001 associées à de très petites tailles d'effet, par exemple r = 0,028. Ce que j'aimerais savoir, est-ce qu'il existe un moyen de principe de décider d'un seuil de signification approprié par rapport à la taille de l'échantillon? Y a-t-il d'autres considérations importantes concernant l'interprétation de la taille de l'effet avec un échantillon aussi grand?

ted.strauss
la source
10
Il s'agit d'une question d'importance pratique ou statistique. Si la pente est vraiment différente de 0, même d'une infime quantité (par exemple, 000000000000001), un échantillon suffisamment grand donnera une valeur très minuscule p, malgré le résultat n'ayant aucune signification pratique. Vous feriez mieux d'interpréter l'estimation ponctuelle plutôt que la valeur p lorsque vous avez une taille d'échantillon aussi grande.
Macro
@Macro désolé pouvez-vous clarifier ce que vous entendez par estimation ponctuelle ici?
ted.strauss
3
Pour ajouter au commentaire de Macro ci-dessus, dans cette situation, je recherche une signification "pratique" ou "clinique" dans les résultats. Pour ce que vous faites, l'effet est-il suffisamment important pour que vous vous en souciez?
Michelle
1
L'estimation ponctuelle est l'estimation de la pente de régression observée.
Macro
2
Ce que @Macro et moi disons tous les deux, c'est que vous devez décider si l'effet clinique (estimations ponctuelles, pentes) est important. Votre seuil est basé sur la décision "oui, c'est un effet clinique important" plutôt que "une valeur p significative" car la plupart (toutes?) De vos valeurs p sont significatives.
Michelle

Réponses:

20

Dans L'insignifiance du test de signification , Johnson (1999) a noté que les valeurs de p sont arbitraires, en ce que vous pouvez les rendre aussi petites que vous le souhaitez en collectant suffisamment de données, en supposant que l'hypothèse nulle est fausse, ce qui est presque toujours le cas. Dans le monde réel, il est peu probable qu'il y ait des corrélations semi-partielles qui sont exactement nulles, ce qui est l'hypothèse nulle pour tester la signification d'un coefficient de régression. Les seuils de signification de la valeur P sont encore plus arbitraires. La valeur de .05 comme seuil entre la signification et la non-signification est utilisée par convention, pas par principe. La réponse à votre première question est donc non, il n'y a aucun moyen de principe de décider d'un seuil de signification approprié.

Alors, que pouvez-vous faire, compte tenu de votre grand ensemble de données? Cela dépend de vos raisons d'explorer la signification statistique de vos coefficients de régression. Essayez-vous de modéliser un système multifactoriel complexe et de développer une théorie utile qui cadre ou prédit raisonnablement la réalité? Ensuite, vous pourriez peut-être penser à développer un modèle plus élaboré et à y prendre une perspective de modélisation, comme décrit dans Rodgers (2010), The Epistemology of Mathematical And Statistical Modeling . Un avantage d'avoir beaucoup de données est la possibilité d'explorer des modèles très riches, à plusieurs niveaux et avec des interactions intéressantes (en supposant que vous ayez les variables pour le faire).

Si, d'autre part, vous voulez juger s'il convient de traiter un coefficient particulier comme statistiquement significatif ou non, vous pouvez prendre la suggestion de Good (1982) résumée dans Woolley (2003) : Calculez la valeur q comme qui standardise les valeurs de p à une taille d'échantillon de 100. Une valeur de p de 0,001 exactement se transforme en une valeur de p de 0,045 - statistiquement significative encore.p(n/100)

Donc, si c'est important en utilisant un seuil arbitraire ou un autre, qu'en est-il? S'il s'agit d'une étude d'observation, vous avez beaucoup plus de travail pour justifier qu'elle est réellement significative dans votre façon de penser et pas seulement une fausse relation qui apparaît parce que vous avez mal spécifié votre modèle. Notez qu'un petit effet n'est pas aussi intéressant sur le plan clinique s'il représente des différences préexistantes entre des personnes choisissant différents niveaux de traitement plutôt qu'un effet de traitement.

Vous devez déterminer si la relation que vous voyez est pratiquement significative, comme l'ont noté les commentateurs. La conversion des chiffres que vous citez de en r 2 pour expliquer la variance ( r est la corrélation, la mettre au carré pour obtenir la variance expliquée) donne respectivement 3 et 6% de variance expliquée, ce qui ne semble pas beaucoup.rr2r

Anne Z.
la source
@ rolando2 merci pour la modification, toujours confondu entre les valeurs p grandes / petites! Je pense que si c'est à droite de la distribution, c'est grand, mais la valeur de p est petite.
Anne Z.
2
(+1) Il s'agit d'un fait important auquel de nombreux praticiens ne réfléchissent pas attentivement: "Les valeurs de p sont arbitraires, en ce que vous pouvez les rendre aussi petites que vous le souhaitez en rassemblant suffisamment de données, en supposant que l'hypothèse nulle est fausse, ce qu'elle est presque toujours. "
Macro
Je vous remercie! Les points de votre avant-dernier paragraphe sont bien pris en compte. Je lis l'article Woolley et j'ai remarqué que votre formule de valeur q est désactivée. Ce devrait être p * pas p / - J'ai essayé de le changer ici mais les modifications doivent être> 6 caractères.
ted.strauss
@ ted.strauss Je suis content que ce soit utile. Parfois, je me sens découragé par les limites des outils comme les valeurs p avec lesquelles nous devons travailler. Merci d'avoir noté l'erreur dans la formule, je l'ai corrigée.
Anne Z.
Merci pour la merveilleuse réponse. Mais je ne suis pas en mesure d'accéder au document Woolley 2003 en utilisant le lien fourni ci-dessus.
KarthikS
-3

Je suppose qu'un moyen facile de vérifier serait d'échantillonner au hasard un nombre tout aussi important de ce que vous savez être une distribution deux fois et de comparer les deux résultats. Si vous faites cela plusieurs fois et observez des valeurs de p similaires, cela suggère qu'il n'y a pas d'effet réel. Si d'un autre côté vous ne le faites pas, alors il y en a probablement.

Lars Kotthoff
la source
7
p<.001pp
1
pUniform(0,1)
1
H0pU[0,1]T=T(X)t=t(x)pp(t)=P(TtH0)H0TG0G0G01p(t)=1G0(t)u[0,1]
1
P(p(T)u)=P(1-g0(T)u)=P(g0(T)1-u)=P(Tg0-1(1-u))=1-g0(g0-1(1-u))=u.
p(T)H0U[0,1]