Dans quelle mesure les valeurs de

13

Intro: Ayant noté l'attention reçue aujourd'hui par cette question, " L'ANOVA peut-elle être significative alors qu'aucun des tests t par paires ne l'est? " .

Une variété de résultats incongrus (à leur valeur nominale) peut se produire lorsque la signification statistique est comprise comme une simple dichotomie et jugée sur la seule base de laquelle est plus élevé, le ou le . La réponse de @ Glen_b à la question ci-dessus présente un exemple utile de cas où:αpα

  • Un test ANOVA produit un pour une variable indépendante (IV) à quatre niveaux, maisp F < 0,05FpF<.05
  • tpt>.08 pour tous les tests deux échantillons qui comparent les différences dans la même variable dépendante (DV) entre les observations correspondant à chaque paire des quatre niveaux du IV.t

Un cas similaire s'est produit malgré les corrections de Bonferroni pour les comparaisons post-hoc par paires via cette question: les mesures répétées Anova sont significatives, mais toutes les comparaisons multiples avec la correction de Bonferroni ne le sont pas? Il existe également des cas mentionnés précédemment avec un test légèrement différent en régression multiple:

Je parie que dans des cas comme ceux-ci, certaines (mais pas toutes) les valeurs de pαp<α des comparaisons par paires (ou des tests de signification des coefficients de régression) doivent être assez proches de α si un test omnibus correspondant peut atteindre un p < α . Je vois que c'est le cas dans le premier exemple de @ Glen_b, où , p F = 0,046 , et la plus grande différence par paire donne le plus petit p t = 0,054 . Cela doit-il être le cas en général? Plus précisément :F(3,20)=3.19pF=.046pt=.054


Question: Si un test ANOVA produit un p F = .05 pour un effet polytomique IV sur un DV continu, quelle pourrait être la valeur p la plus basse parmi tous les tests t à deux échantillons qui comparent chaque paire de niveaux IV? La signification par paire minimale pourrait-elle être aussi élevée que p t = 0,50 ?FpF=.05ptpt=.50


Je me réjouis des réponses qui ne répondent qu'à cette question spécifique . Cependant, pour motiver davantage cette question, je vais développer et ajouter quelques questions potentiellement rhétoriques. N'hésitez pas à répondre à ces préoccupations également, et même à ignorer la question spécifique si vous le souhaitez, surtout si la question spécifique obtient une réponse définitive.

Signification: Considérez à quel point la différence entre a et a p t = .06 serait moins importante si la signification statistique était jugée en termes continus de la force des preuves par rapport à l'hypothèse nulle (approche de Ron Fisher, je pense? ), plutôt qu'en termes dichotomiques comme au-dessus ou en dessous d'un seuil α = 0,05 pour une probabilité d'erreur acceptable dans le choix de rejeter ou non le gros nul. " p -hacking " est un problème connu qui doit en partie sa notoriété à une vulnérabilité inutile introduite par l'interprétation de ppF=.04pt=.06α=.05ppvaleurs selon la pratique courante de dichotomiser la signification en équivalents de «assez bon» et «pas assez bon». Si l'on devait éliminer cette pratique et se concentrer plutôt sur l'interprétation des valeurs de comme force de la preuve par rapport au nul sur un intervalle continu, le test omnibus pourrait-il être un peu moins important quand on se soucie vraiment de plusieurs comparaisons par paires? Pas nécessairement inutile, car toute amélioration raisonnablement efficace de la précision statistique est bien sûr souhaitable, mais ... si, par exemple, la valeur p la plus faible de la comparaison par paire se situe nécessairement à moins de 0,10 de l'ANOVA (ou autre test omnibus) ppp.10pvaleur, cela ne rend-il pas le test omnibus un peu plus trivial, moins obligatoire et encore plus trompeur (en conjonction avec des malentendus préexistants), surtout si l'on ne veut pas particulièrement contrôler sur plusieurs tests?α

Inversement, s'il peut exister des données telles qu'un omnibus , mais toutes par paires p > 0,50 , cela ne devrait-il pas davantage motiver les tests omnibus et de contraste tout au long de la pratique et de la pédagogie? Il me semble que cette question devrait également éclairer le bien-fondé relatif de juger la signification statistique selon une dichotomie par rapport à un continuum, dans la mesure où le système d'interprétation dichotomique devrait être plus sensible aux petits ajustements lorsque les différences sont "marginalement significatives", alors qu'aucun des deux systèmes est à l'abri d'un échec à effectuer un test omnibus ou à ajuster pour des comparaisons multiples si cette différence / ajustement peut être très grande (par exemple, p t - p F >p=.05p>.50 en théorie.ptpF>.40)

Autres complexités facultatives à considérer ou à ignorer - tout ce qui rend la réponse plus facile et plus utile :

  • Quelle pourrait être la valeur de s pour t s si, pour F , p < 0,05 à la place (par exemple, p = 0,01 , 0,001 , )ptFp<.05p=.01,.001,
  • Sensibilité au nombre de niveaux dans un polytome IV
  • Sensibilité aux irrégularités dans la signification des différences par paires (alors que tous les )pt>pF
    • la réponse de whuber indique que l'inclusion de petites différences peut masquer de grandes différences.
  • Différences entre les différentes corrections des tests omnibus pour les comparaisons multiples
  • Cas restreints où les données répondent de manière optimale à toutes les hypothèses des tests paramétriques classiques
    • Cette restriction peut être importante pour éviter que cette question soit quelque peu théorique.
Nick Stauner
la source
1
Vous voudrez peut-être préciser si les tests t par paire doivent utiliser la même estimation de la variance d'erreur que le test F omnibus (dans l'exemple de Glen, ils ne le font pas).
Scortchi - Réintégrer Monica
1
Je voulais dire un test t ordinaire pour la différence de moyennes en utilisant , mais avecσt=(y¯1y¯2)/(σ^1n1+1n2)σ^ calculé comme étant la racine carrée de l'erreur quadratique moyenne ANOVAR. Il s'agit du test t par paire post-hoc habituel et ne s'ajuste pas aux comparaisons multiples, contrairement au HSD de Tukey. Il incorpore des informations de tous les groupes, mais est indépendant des différences dans les moyennes des groupes.
Scortchi - Réintégrer Monica
1
Je vois (en quelque sorte)! Je serais principalement intéressé à suivre l'exemple de @ Glen_b et à ne pas utiliser MSE , mais en utilisant la première formule que vous avez mentionnée pour éviter d'incorporer des informations de tous les groupes. Cela ne veut pas dire que j'ai une forte préférence ici ... mais une partie de mon intention initiale était de présenter une variante du thème commun dans ces questions: "Quel est le vrai mal à ignorer des informations au-delà des deux groupes particuliers en question pour une donnée donnée? test à deux échantillons parmi tant d'autres? " Je suppose que ce thème mérite également d'être repris dans cette décision.
Nick Stauner
1
@Scortchi J'ai inclus un exemple à l'autre question qui couvre votre premier commentaire (c'est-à-dire où les tests sont effectués en utilisant la variance d'erreur commune et df), bien que tous les tests (F et comparaisons multiples) soient effectués à un niveau de signification assez faible (0,0025, pas 0,05). Comparé aux tests t à deux échantillons ordinaires individuels demandés par Nick S. ici, il montre qu'une différence de signification assez importante est possible (dans ce cas, pour tous les tests t ordinaires , mais p F < 0,002 ). Je pense qu'avec de nombreux groupes, il est possible d'aller beaucoup plus loin. pt>.05pF<0.002
Glen_b -Reinstate Monica
1
J'ai esquissé une réponse à la première partie de cette question il y a quelques minutes dans un commentaire sur stats.stackexchange.com/questions/83030/… .
whuber

Réponses:

8

En supposant s égaux [mais voir la note 2 ci-dessous] pour chaque traitement dans un schéma unidirectionnel, et que le SD groupé de tous les groupes est utilisé dans les tests t (comme cela est fait dans les comparaisons post hoc habituelles), le maximum possible La valeur de p pour un test t estntpt(ici,Φdésigne leN(0,1)cdf). Ainsi, aucunptne peut être aussi élevé que0,5. Fait intéressant (et plutôt bizarre), laborne de0,1573ne s'applique pas seulement àpF=2Φ(2).1573ΦN(0,1)pt0.5.1573 , mais pour tousniveaux de signification nous avons besoin pour F .pF=.05F

La justification est la suivante: pour une gamme donnée de moyennes d'échantillon, , la plus grande statistique F possible est atteinte lorsque la moitié des ˉ y i sont à un extrême et l'autre moitié à l'autre. Cela représente le cas où Fmaxi,j|y¯iy¯j|=2aFy¯iF semble le plus significatif étant donné que deux moyennes diffèrent d'au plus .2a

Donc, sans perte de généralité, supposons que pour que ˉ y i = ± a dans ce cas limite. Et encore une fois, sans perte de généralité, supposons que M S E = 1 , car nous pouvons toujours redimensionner les données à cette valeur. Considérons maintenant k moyennes (où k est même pour simplifier [mais voir note 1 ci-dessous]), nous avons F = n ˉ y 2 / (y¯.=0y¯i=±aMSE=1kk . En posantpF=αpour queF=Fα=Fα,k-1,k(n-1), on obtienta=F=ny¯2/(k1)MSE=kna2k1pF=αF=Fα=Fα,k1,k(n1) . Lorsque tous lesˉyisont±a(et toujoursMSE=1), chaquestatistiquetnon nulleest donct=2aa=(k1)Fαkny¯i±aMSE=1t . Il s'agit de la plus petite valeurtmaximale possible lorsqueF=Fα.t=2a12/n=2(k1)FαktF=Fα

Vous pouvez donc simplement essayer différents cas de et n , calculer t et son p t associé . Mais notons que pour k donné , F α diminue en n [mais voir note 3 ci-dessous]; de plus, comme n , ( k - 1 ) F α , k - 1 , k ( n - 1 )χ 2 α , k - 1 ; donc t kntptkFαnn(k1)Fα,k1,k(n1)χα,k12ttmin=2χα,k12/k. Note that χ2/k=k1kχ2/(k1) has mean k1k and SDk1k2k1. So limktmin=2, regardless of α, and the result I stated in the first paragraph above is obtained from asymptotic normality.

It takes a long time to reach that limit, though. Here are the results (computed using R) for various values of k, using α=.05:

k       t_min    max p_t   [ Really I mean min(max|t|) and max(min p_t)) ]
2       1.960     .0500
4       1.977     .0481   <--  note < .05 !
10      1.840     .0658
100     1.570     .1164
1000    1.465     .1428
10000   1.431     .1526

A few loose ends...

  1. When k is odd: The maximum F statistic still occurs when the y¯i are all ±a; however, we will have one more at one end of the range than the other, making the mean ±a/k, and you can show that the factor k in the F statistic is replaced by k1k. This also replaces the denominator of t, making it slightly larger and hence decreasing pt.
  2. Unequal ns: The maximum F is still achieved with the y¯i=±a, with the signs arranged to balance the sample sizes as nearly equally as possible. Then the F statistic for the same total sample size N=ni will be the same or smaller than it is for balanced data. Moreover, the maximum t statistic will be larger because it will be the one with the largest ni. So we can't obtain larger pt values by looking at unbalanced cases.
  3. A slight correction: I was so focused on trying to find the minimum t that I overlooked the fact that we are trying to maximize pt, and it is less obvious that a larger t with fewer df won't be less significant than a smaller one with more df. However, I verified that this is the case by computing the values for n=2,3,4, until the df are high enough to make little difference. For the case α=.05,k3 I did not see any cases where the pt values did not increase with n. Note that the df=k(n1) so the possible df are k,2k,3k, which get large fast when k is large. So I'm still on safe ground with the claim above. I also tested α=.25, and the only case I observed where the .1573 threshold was exceeded was k=3,n=2.
Russ Lenth
la source