Récemment, deux collègues différents ont utilisé une sorte d'argument sur les différences entre les conditions qui me semble incorrect. Ces deux collègues utilisent des statistiques, mais ils ne sont pas des statisticiens. Je suis novice en statistique.
Dans les deux cas, j'ai soutenu que, comme il n'y avait pas de différence significative entre deux conditions dans une expérience, il était incorrect de faire une affirmation générale sur ces groupes en ce qui concerne la manipulation. Notez que «faire une réclamation générale» signifie quelque chose comme écrire: «Le groupe A a utilisé X plus souvent que le groupe B».
Mes collègues ont répliqué: "même s'il n'y a pas de différence significative, la tendance est toujours là" et "même s'il n'y a pas de différence significative, il y a toujours une différence". Pour moi, ces deux sons comme une équivoque, c'est-à-dire qu'ils ont changé le sens de la "différence" de: "une différence qui est susceptible d'être le résultat d'autre chose que le hasard" (c'est-à-dire la signification statistique), à "tout non -différence nulle dans la mesure entre les groupes ".
La réponse de mes collègues était-elle correcte? Je ne l'ai pas abordé avec eux parce qu'ils m'ont devancé.
Réponses:
C'est une excellente question; la réponse dépend beaucoup du contexte.
En général, je dirais que vous avez raison : faire une allégation générale sans réserve comme «le groupe A utilise X plus souvent que le groupe B» est trompeur. Il vaudrait mieux dire quelque chose comme
ou
ou
D'un autre côté: vos collègues ont raison de dire que dans cette expérience particulière , le groupe A a utilisé X plus souvent que le groupe B. Cependant, les gens se soucient rarement des participants à une expérience particulière; ils veulent savoir comment vos résultats se généraliseront à une population plus large, et dans ce cas, la réponse générale est que vous ne pouvez pas dire avec certitude si un groupe sélectionné au hasard A utilisera X plus ou moins souvent qu'un groupe sélectionné au hasard B.
Si vous aviez besoin de choisir aujourd'hui d'utiliser le traitement A ou le traitement B pour augmenter l'utilisation de X, en l'absence d'autres informations ou de différences de coûts, etc., choisir A serait votre meilleur pari. Mais si vous vouliez être à l'aise de faire probablement le bon choix, vous auriez besoin de plus d'informations.
Notez que vous ne devez pas dire "il n'y a pas de différence entre le groupe A et le groupe B dans leur utilisation de X", ou "le groupe A et le groupe B utilisent X la même quantité". Cela n'est vrai ni pour les participants à votre expérience (où A a utilisé X 13% de plus) ni pour la population générale; dans la plupart des contextes du monde réel, vous savez qu'il doit vraiment y avoir un effet (aussi léger soit-il) de A contre B; vous ne savez tout simplement pas dans quelle direction il va.
la source
C'est une question difficile!
J'espère que cette explication trop verbeuse vous aidera à trier vos idées. Le résumé est que vous avez absolument raison! Nous ne devrions pas remplir nos rapports, que ce soit pour la recherche, les affaires ou quoi que ce soit, avec des affirmations sauvages appuyées par peu de preuves. Si vous pensez vraiment qu'il y a une tendance, mais que vous n'avez pas atteint la signification statistique, répétez l'expérience avec plus de données!
la source
Un effet significatif signifie simplement que vous avez mesuré une anomalie improbable (peu probable si l'hypothèse nulle, absence d'effet, était vraie). Et par conséquent, il doit être mis en doute avec une probabilité élevée (bien que cette probabilité ne soit pas égale à la valeur p et dépende également des croyances antérieures).
En fonction de la qualité de l'expérience, vous pouvez mesurer la même ampleur d' effet , mais ce n'est peut-être pas une anomalie (pas un résultat improbable si l'hypothèse nulle est vraie).
Lorsque vous observez un effet mais qu'il n'est pas significatif, alors effectivement (l'effet) peut toujours être là, mais il n'est tout simplement pas significatif (les mesures n'indiquent pas que l'hypothèse nulle doit être mise en doute / rejetée avec une forte probabilité). Cela signifie que vous devez améliorer votre expérience, collecter plus de données, pour être plus sûr.
Ainsi, au lieu de l'effet de dichotomie par rapport à l'absence d'effet, vous devriez opter pour les quatre catégories suivantes:
Image de https://en.wikipedia.org/wiki/Equivalence_test expliquant la procédure des deux tests unilatéraux (TOST)
Vous semblez être dans la catégorie D, le test n'est pas concluant. Vos collègues pourraient avoir tort de dire qu'il y a un effet. Cependant, il est tout aussi faux de dire qu'il n'y a aucun effet!
la source
Il semble qu'ils soutiennent la valeur p par rapport à la définition de "tendance".
Si vous tracez les données sur un graphique d'exécution, vous pouvez voir une tendance ... une série de points de tracé qui montrent une tendance à la hausse ou à la baisse au fil du temps.
Mais, quand vous faites les statistiques à ce sujet .. la valeur de p suggère que ce n'est pas significatif.
Pour que la valeur de p montre peu d'importance, mais pour eux de voir une tendance / exécution dans la série de données ... cela devrait être une très légère tendance.
Donc, si c'était le cas, je retomberais sur la valeur de p .. IE: ok, oui, il y a une tendance / course dans les données .. mais c'est si léger et insignifiant que les statistiques suggèrent que ça ne vaut pas la peine de poursuivre analyse de.
Une tendance insignifiante est quelque chose qui peut être attribuable à une sorte de parti pris dans la recherche .. peut-être quelque chose de très mineur .. quelque chose qui peut être une occurrence unique dans l'expérience qui a créé une légère tendance.
Si j'étais le manager du groupe, je leur dirais d'arrêter de perdre du temps et de l'argent à creuser des tendances insignifiantes et à chercher des plus importantes.
la source
Il semble que dans ce cas, ils aient peu de justification à leur demande et abusent simplement des statistiques pour arriver à la conclusion qu'ils avaient déjà. Mais il y a des moments où il est acceptable de ne pas être aussi strict avec les seuils p-val. C'est (comment utiliser la signification statistique et les seuils pval) un débat qui fait rage depuis que Fisher, Neyman et Pearson ont jeté les bases des tests statistiques.
Disons que vous construisez un modèle et que vous décidez quelles variables inclure. Vous recueillez un peu de données pour effectuer une enquête préliminaire sur les variables potentielles. Il y a maintenant cette variable qui intéresse vraiment l'équipe commerciale, mais votre enquête préliminaire montre que la variable n'est pas statistiquement significative. Cependant, la «direction» de la variable correspond à ce que l'équipe commerciale attendait, et bien qu'elle n'ait pas atteint le seuil de signification, elle était proche. Il était peut-être suspecté d'avoir une corrélation positive avec le résultat et vous avez obtenu un coefficient bêta qui était positif, mais le pval était juste un peu au-dessus du seuil de 0,05.
Dans ce cas, vous pouvez aller de l'avant et l'inclure. C'est en quelque sorte une statistique bayésienne informelle - il y avait une forte croyance antérieure que c'était une variable utile et l'enquête initiale à son sujet a montré des preuves dans ce sens (mais pas des preuves statistiquement significatives!) Donc vous lui donnez le bénéfice du doute et le garder dans le modèle. Peut-être qu'avec plus de données, il sera plus évident de savoir quelle relation il a avec le résultat d'intérêt.
Un autre exemple pourrait être où vous construisez un nouveau modèle et que vous regardez les variables qui étaient utilisées dans le modèle précédent - vous pouvez continuer à inclure une variable marginale (une qui est sur le point d'être significative) pour maintenir une certaine continuité par rapport au modèle modeler.
Fondamentalement, selon ce que vous faites, il y a des raisons d'être de plus en moins stricts sur ce genre de choses.
D'un autre côté, il est également important de garder à l'esprit que la signification statistique ne doit pas impliquer une signification pratique! N'oubliez pas que la taille de l'échantillon est au cœur de tout cela. Collectez suffisamment de données et l'erreur-type de l'estimation se réduira à 0. Cela fera toute sorte de différence, aussi petite soit-elle, «statistiquement significative» même si cette différence peut ne pas correspondre à quelque chose dans le monde réel. Par exemple, supposons que la probabilité qu'une pièce particulière atterrisse sur les têtes était de 0,500000000000001. Cela signifie qu'en théorie, vous pouvez concevoir une expérience qui conclut que la pièce n'est pas juste, mais à toutes fins utiles, la pièce pourrait être traitée comme une pièce juste.
la source