Interprétation des résultats non significatifs comme des «tendances»

16

Récemment, deux collègues différents ont utilisé une sorte d'argument sur les différences entre les conditions qui me semble incorrect. Ces deux collègues utilisent des statistiques, mais ils ne sont pas des statisticiens. Je suis novice en statistique.

Dans les deux cas, j'ai soutenu que, comme il n'y avait pas de différence significative entre deux conditions dans une expérience, il était incorrect de faire une affirmation générale sur ces groupes en ce qui concerne la manipulation. Notez que «faire une réclamation générale» signifie quelque chose comme écrire: «Le groupe A a utilisé X plus souvent que le groupe B».

Mes collègues ont répliqué: "même s'il n'y a pas de différence significative, la tendance est toujours là" et "même s'il n'y a pas de différence significative, il y a toujours une différence". Pour moi, ces deux sons comme une équivoque, c'est-à-dire qu'ils ont changé le sens de la "différence" de: "une différence qui est susceptible d'être le résultat d'autre chose que le hasard" (c'est-à-dire la signification statistique), à ​​"tout non -différence nulle dans la mesure entre les groupes ".

La réponse de mes collègues était-elle correcte? Je ne l'ai pas abordé avec eux parce qu'ils m'ont devancé.

amdex
la source
J'ai trouvé ces articles utiles Toujours pas significatifs et marginalement significatifs
user20637

Réponses:

26

C'est une excellente question; la réponse dépend beaucoup du contexte.

En général, je dirais que vous avez raison : faire une allégation générale sans réserve comme «le groupe A utilise X plus souvent que le groupe B» est trompeur. Il vaudrait mieux dire quelque chose comme

dans notre groupe d'expériences A utilisé X plus souvent que le groupe B, mais nous ne savons pas très bien comment cela se déroulera dans la population générale

ou

bien que le groupe A ait utilisé X 13% plus souvent que le groupe B dans notre expérience, notre estimation de la différence dans la population générale n'est pas claire : les valeurs plausibles vont de A en utilisant X 5% moins souvent que le groupe B à A en utilisant X 21% plus souvent que le groupe B

ou

le groupe A utilisait X 13% plus souvent que le groupe B, mais la différence n'était pas statistiquement significative (IC 95% -5% à 21%; p = 0,75)

D'un autre côté: vos collègues ont raison de dire que dans cette expérience particulière , le groupe A a utilisé X plus souvent que le groupe B. Cependant, les gens se soucient rarement des participants à une expérience particulière; ils veulent savoir comment vos résultats se généraliseront à une population plus large, et dans ce cas, la réponse générale est que vous ne pouvez pas dire avec certitude si un groupe sélectionné au hasard A utilisera X plus ou moins souvent qu'un groupe sélectionné au hasard B.

Si vous aviez besoin de choisir aujourd'hui d'utiliser le traitement A ou le traitement B pour augmenter l'utilisation de X, en l'absence d'autres informations ou de différences de coûts, etc., choisir A serait votre meilleur pari. Mais si vous vouliez être à l'aise de faire probablement le bon choix, vous auriez besoin de plus d'informations.

Notez que vous ne devez pas dire "il n'y a pas de différence entre le groupe A et le groupe B dans leur utilisation de X", ou "le groupe A et le groupe B utilisent X la même quantité". Cela n'est vrai ni pour les participants à votre expérience (où A a utilisé X 13% de plus) ni pour la population générale; dans la plupart des contextes du monde réel, vous savez qu'il doit vraiment y avoir un effet (aussi léger soit-il) de A contre B; vous ne savez tout simplement pas dans quelle direction il va.

Ben Bolker
la source
5
Belle réponse, Ben! Je me demande si votre deuxième exemple de déclaration pourrait être modifié pour plus de clarté afin de refléter l’essentiel du premier exemple de déclaration: "bien que le groupe A ait utilisé X 13% plus souvent que le groupe B DANS NOTRE EXPÉRIENCE, la différence d’UTILISATION DE X ENTRE LES GROUPES EN GÉNÉRAL La POPULATION n'était pas claire : la plage plausible DE CETTE DIFFÉRENCE est passée de A en utilisant X 5% moins souvent que le groupe B à A en utilisant X 21% plus souvent que le groupe B. "
Isabella Ghement
3
merci, partiellement incorporé (en essayant d'équilibrer la concision / la clarté et la précision ...)
Ben Bolker
8
+1 Je pense que beaucoup de gens ne réalisent pas qu'en l'absence de preuves statistiques, les différences observées pourraient très bien être l'opposé de ce qui se passe avec la population!
Dave
@Dave: même si la présence de "preuves statistiques" (valeur p statistiquement significative?), "Les différences observées pourraient très bien être l'opposé de ce qui se passe avec la population"
boscovich
@boscovich Bien sûr, je parlais en absolu lorsque nous faisons des statistiques, mais je pense que c'est une valeur p insignifiante, ce qui signifie que vous n'avez vraiment aucune idée de ce qui se passe avec la population. Au moins avec une valeur p significative, vous avez atteint un seuil de preuve établi pour suggérer que vous savez quelque chose. Mais il est certainement possible d'obtenir une valeur de p significative lorsque la direction est mal identifiée. Cette erreur devrait se produire de temps en temps.
Dave
3

C'est une question difficile!

5% p

H0UNEBXOui H0ppH0 pour être vrai (c.-à-d. aucune tendance).

pH0H0pH0

p23%23%23%H0: =0,5% p-

XβH0: β=0β0

β=0

4%

J'espère que cette explication trop verbeuse vous aidera à trier vos idées. Le résumé est que vous avez absolument raison! Nous ne devrions pas remplir nos rapports, que ce soit pour la recherche, les affaires ou quoi que ce soit, avec des affirmations sauvages appuyées par peu de preuves. Si vous pensez vraiment qu'il y a une tendance, mais que vous n'avez pas atteint la signification statistique, répétez l'expérience avec plus de données!

David
la source
1
+1 pour avoir souligné que tout seuil de signification est arbitraire (et implicitement il n'est pas possible de déduire des affirmations absolues sur la population générale à partir des résultats d'un échantillon - tout ce que vous obtenez sont de meilleures probabilités).
Peter - Réintègre Monica le
0

Un effet significatif signifie simplement que vous avez mesuré une anomalie improbable (peu probable si l'hypothèse nulle, absence d'effet, était vraie). Et par conséquent, il doit être mis en doute avec une probabilité élevée (bien que cette probabilité ne soit pas égale à la valeur p et dépende également des croyances antérieures).

En fonction de la qualité de l'expérience, vous pouvez mesurer la même ampleur d' effet , mais ce n'est peut-être pas une anomalie (pas un résultat improbable si l'hypothèse nulle est vraie).

Lorsque vous observez un effet mais qu'il n'est pas significatif, alors effectivement (l'effet) peut toujours être là, mais il n'est tout simplement pas significatif (les mesures n'indiquent pas que l'hypothèse nulle doit être mise en doute / rejetée avec une forte probabilité). Cela signifie que vous devez améliorer votre expérience, collecter plus de données, pour être plus sûr.

Ainsi, au lieu de l'effet de dichotomie par rapport à l'absence d'effet, vous devriez opter pour les quatre catégories suivantes:

quatre catégories

Image de https://en.wikipedia.org/wiki/Equivalence_test expliquant la procédure des deux tests unilatéraux (TOST)

Vous semblez être dans la catégorie D, le test n'est pas concluant. Vos collègues pourraient avoir tort de dire qu'il y a un effet. Cependant, il est tout aussi faux de dire qu'il n'y a aucun effet!

Sextus Empiricus
la source
p
@ David, je suis tout à fait d'accord avec vous que la valeur de p est plus précisément une mesure de «la probabilité que nous fassions une erreur conditionnelle à ce que l'hypothèse nulle soit vraie» (ou la probabilité de voir des résultats aussi extrêmes), et elle ne le fait pas exprimer directement «la probabilité que l'hypothèse nulle soit fausse». Cependant, je pense que la valeur de p n'est pas destinée à être utilisée dans ce sens «officiel». La valeur de p est utilisée pour exprimer le doute dans l'hypothèse nulle, pour exprimer que les résultats indiquent une anomalie et des anomalies devraient nous faire douter du nul ....
Sextus Empiricus
.... dans votre cas, lorsque vous montrez contester l'effet nul (contester l'idée qu'on ne peut pas prédire les pièces) en fournissant un cas rare (tout comme la dégustatrice de thé) alors on devrait en effet avoir des doutes dans le null hypothèse. En pratique, nous aurions besoin de définir une valeur de p appropriée pour cela (car en effet, on pourrait contester le null par simple hasard), et je n'utiliserais pas le niveau de 1%. La forte probabilité de douter du nul ne doit pas être assimilée, une à une, à la valeur de p (car cette probabilité est davantage un concept bayésien).
Sextus Empiricus
J'ai adapté le texte pour supprimer cette mauvaise interprétation.
Sextus Empiricus
0

Il semble qu'ils soutiennent la valeur p par rapport à la définition de "tendance".

Si vous tracez les données sur un graphique d'exécution, vous pouvez voir une tendance ... une série de points de tracé qui montrent une tendance à la hausse ou à la baisse au fil du temps.

Mais, quand vous faites les statistiques à ce sujet .. la valeur de p suggère que ce n'est pas significatif.

Pour que la valeur de p montre peu d'importance, mais pour eux de voir une tendance / exécution dans la série de données ... cela devrait être une très légère tendance.

Donc, si c'était le cas, je retomberais sur la valeur de p .. IE: ok, oui, il y a une tendance / course dans les données .. mais c'est si léger et insignifiant que les statistiques suggèrent que ça ne vaut pas la peine de poursuivre analyse de.

Une tendance insignifiante est quelque chose qui peut être attribuable à une sorte de parti pris dans la recherche .. peut-être quelque chose de très mineur .. quelque chose qui peut être une occurrence unique dans l'expérience qui a créé une légère tendance.

Si j'étais le manager du groupe, je leur dirais d'arrêter de perdre du temps et de l'argent à creuser des tendances insignifiantes et à chercher des plus importantes.

blahblah
la source
0

Il semble que dans ce cas, ils aient peu de justification à leur demande et abusent simplement des statistiques pour arriver à la conclusion qu'ils avaient déjà. Mais il y a des moments où il est acceptable de ne pas être aussi strict avec les seuils p-val. C'est (comment utiliser la signification statistique et les seuils pval) un débat qui fait rage depuis que Fisher, Neyman et Pearson ont jeté les bases des tests statistiques.

Disons que vous construisez un modèle et que vous décidez quelles variables inclure. Vous recueillez un peu de données pour effectuer une enquête préliminaire sur les variables potentielles. Il y a maintenant cette variable qui intéresse vraiment l'équipe commerciale, mais votre enquête préliminaire montre que la variable n'est pas statistiquement significative. Cependant, la «direction» de la variable correspond à ce que l'équipe commerciale attendait, et bien qu'elle n'ait pas atteint le seuil de signification, elle était proche. Il était peut-être suspecté d'avoir une corrélation positive avec le résultat et vous avez obtenu un coefficient bêta qui était positif, mais le pval était juste un peu au-dessus du seuil de 0,05.

Dans ce cas, vous pouvez aller de l'avant et l'inclure. C'est en quelque sorte une statistique bayésienne informelle - il y avait une forte croyance antérieure que c'était une variable utile et l'enquête initiale à son sujet a montré des preuves dans ce sens (mais pas des preuves statistiquement significatives!) Donc vous lui donnez le bénéfice du doute et le garder dans le modèle. Peut-être qu'avec plus de données, il sera plus évident de savoir quelle relation il a avec le résultat d'intérêt.

Un autre exemple pourrait être où vous construisez un nouveau modèle et que vous regardez les variables qui étaient utilisées dans le modèle précédent - vous pouvez continuer à inclure une variable marginale (une qui est sur le point d'être significative) pour maintenir une certaine continuité par rapport au modèle modeler.

Fondamentalement, selon ce que vous faites, il y a des raisons d'être de plus en moins stricts sur ce genre de choses.

D'un autre côté, il est également important de garder à l'esprit que la signification statistique ne doit pas impliquer une signification pratique! N'oubliez pas que la taille de l'échantillon est au cœur de tout cela. Collectez suffisamment de données et l'erreur-type de l'estimation se réduira à 0. Cela fera toute sorte de différence, aussi petite soit-elle, «statistiquement significative» même si cette différence peut ne pas correspondre à quelque chose dans le monde réel. Par exemple, supposons que la probabilité qu'une pièce particulière atterrisse sur les têtes était de 0,500000000000001. Cela signifie qu'en théorie, vous pouvez concevoir une expérience qui conclut que la pièce n'est pas juste, mais à toutes fins utiles, la pièce pourrait être traitée comme une pièce juste.

eps
la source