J'ai deux populations (hommes et femmes), chacune contenant échantillons. Pour chaque échantillon, j'ai deux propriétés A et B (moyenne pondérée cumulative de la première année et score SAT). J'ai utilisé un test t séparément pour A & B: les deux ont trouvé des différences significatives entre les deux groupes; A avec p = 0,008 et B avec p = 0,002 .
Est-il acceptable de prétendre que la propriété B est mieux discriminée (plus importante) que la propriété A? Ou est-ce qu'un test t est juste une mesure oui ou non (significative ou non significative)?
Mise à jour : selon les commentaires ici et d'après ce que j'ai lu sur wikipedia , je pense que la réponse devrait être: laissez tomber la valeur de p sans signification et signalez la taille de votre effet . Des pensées?
Réponses:
Beaucoup de gens diraient qu'une valeur de peut être significative ( p < α ) ou non, et il n'est donc pas (toujours) logique de comparer deux valeurs de p entre elles. C'est faux; dans certains cas, c'est le cas.p p<α p
Dans votre cas particulier, il ne fait aucun doute que vous pouvez directement comparer les valeurs de . Si la taille de l'échantillon est fixe ( n = 1 000 ), alors les valeurs de p sont reliées de façon monotone aux valeurs de t , qui sont à leur tour reliées de façon monotone à la taille de l'effet mesurée par le d de Cohen . Plus précisément, d = 2 t / √p n=1000 p t d . Cela signifie que vosvaleurs depsont en correspondance biunivoque avec la taille de l'effet, et vous pouvez donc être sûr que si la valeur deppour la propriété A est plus grande que pour la propriété B, alors la taille de l'effet pour A est plus petite que pour la propriété B.d=2t/n−−√ p p
Je crois que cela répond à votre question.
Plusieurs points supplémentaires:
Cela n'est vrai que si la taille de l'échantillon est fixe. Si vous obtenez p = 0,008 pour la propriété A dans une expérience avec une taille d'échantillon et p = 0,002 pour la propriété B dans une autre expérience avec une autre taille d'échantillon, il est plus difficile de les comparer.n p=0.008 p=0.002
Si la question est précisément de savoir si A ou B sont mieux «discriminés» dans la population (c'est-à-dire: dans quelle mesure pouvez-vous prédire le sexe en regardant les valeurs A ou B?), Alors vous devriez regarder la taille de l'effet. Dans les cas simples, connaître et n suffit pour calculer la taille de l'effet.p n
Si la question est plus vague: quelle expérience fournit le plus de "preuves" contre le nul? (cela peut être utile si , par exemple A = B) - alors la question devient compliquée et controversée, mais je dirais que la -value , par définition , est un résumé scalaire de la preuve contre l'hypothèse nulle, de sorte que plus le p -value , plus les preuves sont solides, même si les tailles d'échantillon sont différentes.p p
Dire que la taille de l'effet pour B est plus grande que pour A ne signifie pas qu'elle est significativement plus grande. Vous avez besoin d'une comparaison directe entre A et B pour faire une telle affirmation.
C'est toujours une bonne idée de rapporter (et d'interpréter) les tailles d'effet et les intervalles de confiance en plus des valeurs .p
la source
Merci à celui qui vient de me voter, car j'ai maintenant une réponse complètement différente à cette question.J'ai donc supprimé ma réponse d'origine car elle est incorrecte de ce point de vue.
Dans le contexte de cette question, qui ne traite que de la question «A ou B était-il un meilleur discriminant dans mon étude», nous avons affaire à un recensement et non à un échantillon. Ainsi, l'utilisation de statistiques inférentielles telles que celles utilisées pour produire des valeurs de p n'est pas pertinente. Les statistiques inférentielles sont utilisées pour déduire les estimations de population de celles que nous obtenons de notre échantillon. Si nous ne voulons pas généraliser à une population, alors ces méthodes sont inutiles. (Il existe certains problèmes spécifiques concernant les valeurs manquantes dans un recensement, mais ceux-ci ne sont pas pertinents dans cette situation.)
Il n'y a aucune probabilité d'obtenir un résultat dans une population. Nous avons obtenu le résultat que nous avons obtenu. Par conséquent, la probabilité de nos résultats est de 100%. Il n'est pas nécessaire de construire un intervalle de confiance - l'estimation ponctuelle de l'échantillon est exacte. Nous n'avons tout simplement pas à estimer quoi que ce soit.
Dans le cas précis de «quelle variable a mieux fonctionné avec les données dont je dispose», il suffit de regarder les résultats sous forme de résumé simple. Un tableau peut suffire, peut-être un graphique comme une boîte à moustaches.
la source
Vous obtenez une différence de p, mais la signification de cette différence n'est pas claire (est-elle grande, petite, significative?)
Utilisez peut-être le bootstrap:
sélectionner (avec remplacement) à partir de vos données, refaire vos tests, calculer la différence de p (p_a - p_b), répéter 100-200 fois
vérifiez quelle fraction de votre delta p est <0 (ce qui signifie que p de A est inférieur à p de B)
Remarque: j'ai vu cela, mais je ne suis pas un expert.
la source
Ajout d'une réponse car elle était trop longue pour un commentaire!
Michelle a une bonne réponse, mais les nombreux commentaires montrent des discussions communes sur les valeurs p. Les idées de base sont les suivantes:
1) Une valeur de p plus petite ne signifie pas qu'un résultat est plus ou moins significatif. Cela signifie simplement que les chances d'obtenir un résultat au moins aussi extrême sont moins probables. La signification est un résultat binaire basé sur le niveau de signification que vous avez choisi (que vous choisissez avant d'exécuter le test).
2) La taille de l'effet (souvent standardisée en nombre d'écarts-types) est un bon moyen de quantifier «la différence» entre deux nombres. Donc, si la quantité A a une taille d'effet de 0,8 écart-type et la quantité B a une taille d'effet de 0,5 écart-type, vous diriez qu'il y a une plus grande différence entre les deux groupes dans la quantité A que dans la quantité B. Les mesures standard sont :
.2 écarts-types = "petit" effet
.5 écarts types = effet "moyen"
.8 écarts-types = effet "important"
la source