Quel sens cela fait-il de comparer les valeurs de p les unes aux autres?

20

J'ai deux populations (hommes et femmes), chacune contenant échantillons. Pour chaque échantillon, j'ai deux propriétés A et B (moyenne pondérée cumulative de la première année et score SAT). J'ai utilisé un test t séparément pour A & B: les deux ont trouvé des différences significatives entre les deux groupes; A avec p = 0,008 et B avec p = 0,002 .1000p=0.008p=0.002

Est-il acceptable de prétendre que la propriété B est mieux discriminée (plus importante) que la propriété A? Ou est-ce qu'un test t est juste une mesure oui ou non (significative ou non significative)?

Mise à jour : selon les commentaires ici et d'après ce que j'ai lu sur wikipedia , je pense que la réponse devrait être: laissez tomber la valeur de p sans signification et signalez la taille de votre effet . Des pensées?

Dov
la source
+ veuillez me pardonner que je ne suis pas un locuteur natif anglais :)
Dov
Pas de problème: si vous pensez que les modifications (mineures) que j'ai apportées ont changé votre question de manière significative, n'hésitez pas à les corriger.
whuber
Quel résultat avez-vous mesuré? (c.-à-d. qu'est-ce qui diffère entre les groupes définis par A / pas A ou B / pas B?) Est-il mesuré sur les 1 000 échantillons ou manque-t-il?
invité le
3
La notification des deux tailles d'effet différentes, ou des intervalles de confiance pour les deux tailles d'effet différentes, serait une bonne idée. Il serait plus facile d'interpréter cela si le résultat dans chacun de vos deux ensembles de données était le même (n'est-ce pas?).
Peter Ellis
2
Vous pouvez montrer la signification statistique et la taille de l'effet très facilement en utilisant une parcelle forestière! Présenter des IC à 95% signifie que vous utilisez 4 nombres au lieu de 2, mais comme tout le monde y fait allusion, cela représente suffisamment l'étendue des informations nécessaires pour comparer les expériences.
AdamO

Réponses:

20

Beaucoup de gens diraient qu'une valeur de peut être significative ( p < α ) ou non, et il n'est donc pas (toujours) logique de comparer deux valeurs de p entre elles. C'est faux; dans certains cas, c'est le cas.pp<αp

Dans votre cas particulier, il ne fait aucun doute que vous pouvez directement comparer les valeurs de . Si la taille de l'échantillon est fixe ( n = 1 000 ), alors les valeurs de p sont reliées de façon monotone aux valeurs de t , qui sont à leur tour reliées de façon monotone à la taille de l'effet mesurée par le d de Cohen . Plus précisément, d = 2 t / pn=1000ptd . Cela signifie que vosvaleurs depsont en correspondance biunivoque avec la taille de l'effet, et vous pouvez donc être sûr que si la valeur deppour la propriété A est plus grande que pour la propriété B, alors la taille de l'effet pour A est plus petite que pour la propriété B.d=2t/npp

Je crois que cela répond à votre question.

Plusieurs points supplémentaires:

  1. Cela n'est vrai que si la taille de l'échantillon est fixe. Si vous obtenez p = 0,008 pour la propriété A dans une expérience avec une taille d'échantillon et p = 0,002 pour la propriété B dans une autre expérience avec une autre taille d'échantillon, il est plus difficile de les comparer.np=0.008p=0.002

    • Si la question est précisément de savoir si A ou B sont mieux «discriminés» dans la population (c'est-à-dire: dans quelle mesure pouvez-vous prédire le sexe en regardant les valeurs A ou B?), Alors vous devriez regarder la taille de l'effet. Dans les cas simples, connaître et n suffit pour calculer la taille de l'effet.pn

    • Si la question est plus vague: quelle expérience fournit le plus de "preuves" contre le nul? (cela peut être utile si , par exemple A = B) - alors la question devient compliquée et controversée, mais je dirais que la -value , par définition , est un résumé scalaire de la preuve contre l'hypothèse nulle, de sorte que plus le p -value , plus les preuves sont solides, même si les tailles d'échantillon sont différentes.pp

  2. Dire que la taille de l'effet pour B est plus grande que pour A ne signifie pas qu'elle est significativement plus grande. Vous avez besoin d'une comparaison directe entre A et B pour faire une telle affirmation.

  3. C'est toujours une bonne idée de rapporter (et d'interpréter) les tailles d'effet et les intervalles de confiance en plus des valeurs .p

amibe dit réintégrer Monica
la source
3
Bons points sur la monotonie et bons 3 derniers points. Maintenant, re: l'énoncé "vous pouvez être sûr": assez vrai pour l'échantillon, mais "de manière significative"? (C'est-à-dire, avec des implications fiables pour la population?) Vous en avez parlé brièvement dans # 2. Un traitement plus complet de cela serait le bienvenu. Cheers ~
rolando2
4
C'est vrai, mais j'ai également essayé de préciser que ce n'est nécessairement nécessaire que dans ce cas (vous le notez également). Je pense que Michelle faisait valoir que vous ne devriez pas en général utiliser les valeurs p de cette façon.
gung - Rétablir Monica
1
p
1
@AndrewM Peut-être. J'ai modifié le début de ma réponse. Voyez si vous l'aimez mieux maintenant.
amibe dit Réintégrer Monica
0

Merci à celui qui vient de me voter, car j'ai maintenant une réponse complètement différente à cette question.J'ai donc supprimé ma réponse d'origine car elle est incorrecte de ce point de vue.

Dans le contexte de cette question, qui ne traite que de la question «A ou B était-il un meilleur discriminant dans mon étude», nous avons affaire à un recensement et non à un échantillon. Ainsi, l'utilisation de statistiques inférentielles telles que celles utilisées pour produire des valeurs de p n'est pas pertinente. Les statistiques inférentielles sont utilisées pour déduire les estimations de population de celles que nous obtenons de notre échantillon. Si nous ne voulons pas généraliser à une population, alors ces méthodes sont inutiles. (Il existe certains problèmes spécifiques concernant les valeurs manquantes dans un recensement, mais ceux-ci ne sont pas pertinents dans cette situation.)

Il n'y a aucune probabilité d'obtenir un résultat dans une population. Nous avons obtenu le résultat que nous avons obtenu. Par conséquent, la probabilité de nos résultats est de 100%. Il n'est pas nécessaire de construire un intervalle de confiance - l'estimation ponctuelle de l'échantillon est exacte. Nous n'avons tout simplement pas à estimer quoi que ce soit.

Dans le cas précis de «quelle variable a mieux fonctionné avec les données dont je dispose», il suffit de regarder les résultats sous forme de résumé simple. Un tableau peut suffire, peut-être un graphique comme une boîte à moustaches.

Michelle
la source
-1

Vous obtenez une différence de p, mais la signification de cette différence n'est pas claire (est-elle grande, petite, significative?)

Utilisez peut-être le bootstrap:

sélectionner (avec remplacement) à partir de vos données, refaire vos tests, calculer la différence de p (p_a - p_b), répéter 100-200 fois

vérifiez quelle fraction de votre delta p est <0 (ce qui signifie que p de A est inférieur à p de B)

Remarque: j'ai vu cela, mais je ne suis pas un expert.

Martin
la source
1
Cette réponse décrit une façon de comparer les valeurs de p, mais la question initiale semble rester sans réponse: la procédure a-t-elle un sens et comment interpréter les résultats?
whuber
-1

Ajout d'une réponse car elle était trop longue pour un commentaire!

Michelle a une bonne réponse, mais les nombreux commentaires montrent des discussions communes sur les valeurs p. Les idées de base sont les suivantes:

1) Une valeur de p plus petite ne signifie pas qu'un résultat est plus ou moins significatif. Cela signifie simplement que les chances d'obtenir un résultat au moins aussi extrême sont moins probables. La signification est un résultat binaire basé sur le niveau de signification que vous avez choisi (que vous choisissez avant d'exécuter le test).

2) La taille de l'effet (souvent standardisée en nombre d'écarts-types) est un bon moyen de quantifier «la différence» entre deux nombres. Donc, si la quantité A a une taille d'effet de 0,8 écart-type et la quantité B a une taille d'effet de 0,5 écart-type, vous diriez qu'il y a une plus grande différence entre les deux groupes dans la quantité A que dans la quantité B. Les mesures standard sont :

.2 écarts-types = "petit" effet

.5 écarts types = effet "moyen"

.8 écarts-types = effet "important"

Duncan
la source
1
Mais étant donné la taille fixe de l'échantillon, la valeur de p est directement liée de façon monotone à la taille de l'effet!
Amoeba dit Reinstate Monica