Le test t de Welch pour les variances inégales (également connu sous le nom de Welch-Satterthwaite ou Welch-Aspin) a généralement un degré de liberté non entier . Comment citer ces degrés de liberté lors de la communication des résultats du test?
"Il est classique d'arrondir à l'entier le plus proche avant de consulter les tables t standard" selon diverses sources * - ce qui est logique car cette direction d'arrondi est conservatrice. ** Certains logiciels statistiques plus anciens le feraient aussi (par exemple Graphpad Prism avant la version 6 ) et certaines calculatrices en ligne le font toujours. Si cette procédure avait été utilisée, la communication des degrés de liberté arrondis semble appropriée. (Bien que l'utilisation d'un meilleur logiciel puisse être encore plus appropriée!)
Mais la grande majorité des packages modernes utilisent la partie fractionnaire, dans ce cas, il semble que la partie fractionnaire devrait être citée. Je ne vois pas qu'il soit approprié de citer à plus de deux décimales, car un millième de degré de liberté n'aurait qu'un impact négligeable sur la valeur p .
En regardant autour de Google scholar, je peux voir des articles citant le df comme un nombre entier, avec une décimale ou avec deux décimales. Existe-t-il des directives sur la précision à utiliser? En outre, si le logiciel utilisé la pleine partie décimale, si la cité df arrondi vers le bas au nombre désiré de chiffres (par exemple à ou 1 PD comme un nombre entier) comme cela a été approprié à la calcul conservateur, ou comme cela me semble plus sensé, arrondi conventionnellement ( au plus près ) de sorte que à 1 dp ou à l'entier le plus proche?→ 7→ 8
Edit: en plus de connaître la manière la plus saine théoriquement de signaler un df non entier, il serait également bon de savoir ce que les gens font dans la pratique . Vraisemblablement, les revues et les guides de style ont leurs propres exigences. Je serais curieux de savoir ce qu'exigent des guides de style influents comme l'APA. D'après ce que je peux discerner (leur manuel n'est pas disponible gratuitement en ligne), l'APA a une préférence générale que presque tout devrait apparaître à deux décimales, à l'exception des valeurs de p (qui peuvent être deux ou trois dp) et des pourcentages (arrondis à la pourcentage le plus proche) - qui couvre les pentes de régression, les statistiques t, les statistiques F ,statistiques et ainsi de suite. Ceci est assez illogique, sachant que la deuxième décimale occupe un chiffre significatif très différent, et suggère une précision assez différente, en 2,47 qu'en 982,47, mais pourrait expliquer le nombre de Welch df avec deux décimales que j'ai vu dans mon échantillon non scientifique .
par exemple Ruxton, GD Le test t de variance inégale est une alternative sous-utilisée au test t de Student et au test Mann-Whitney U , Behavioral Ecology (juillet / août 2006) 17 (4): 688-690 doi: 10.1093 / beheco / ark016
Bien que l'approximation de Welch-Satterthwaite elle-même puisse ou non être conservatrice, et dans un cas où elle ne l'est pas, arrondir les degrés de liberté n'est pas une garantie de compensation globale.
la source
Réponses:
Je n'ai pas étudié la pratique réelle, donc cette réponse ne peut pas aborder cet aspect de la question. En tant que principe général, je m'attends à ce que le traitement des chiffres significatifs dans la déclaration des degrés de liberté (df) soit basé sur un jugement lié à des chiffres significatifs.
Le principe est d' être cohérent : utiliser la précision d'une quantité appropriée à la précision utilisée dans une autre qui lui est liée. Plus précisément, lors de la déclaration des valeurs et y = f ( x ) lorsque x est donné au multiple le plus proche d'une petite valeur h (telle que h = 1x y=f(x) x h pour six positions après la virgule), la précision relative enymédiée par la fonctionfesth=12×10−6 y f
L'approximation s'applique lorsque est différenciable en continu sur l'intervalle .[ x - h , x + h ]f [x−h,x+h]
Dans la présente demande, est la valeur , est le degré de liberté , etp x νy p x ν
où est la statistique de Welch-Satterthwaite et est le CDF de la distribution de Student avec degrés de liberté.F ν t νt Fν t ν
Pour un df relativement élevé , souvent un changement à la première décimale ne changerait pas du tout la valeur de p (au niveau de précision rapporté), donc l'arrondi à un entier est très bien ( mais est très petit). Pour de très faibles df et des valeurs extrêmes de la statistique , la magnitude de la dérivéepeut dépasser , ce qui suggère dans de tels cas que ne doit être signalé qu'à une décimale de moins que lui-même.h = une / deux h | réν h=1/2 t| ∂h|ddxf(x)| t 0,01νp|∂∂νFν(t)| 0.01 ν p
Voyez par vous-même avec ce tracé de contour étiqueté de la magnitude de la dérivée pour le plus bas (raisonnable) df et les plages dece serait intéressant (car ils peuvent conduire à de faibles valeurs de p).|t|
Les étiquettes montrent le logarithme en base 10 du dérivé. Ainsi, aux points compris entre et sur ce graphique, la modification du df rapporté à la place après la virgule décimale ne modifiera probablement la valeur p rapportée que dans la et emplacements ultérieurs. Par exemple, supposons que vous arrondissez la valeur de p à (six décimales). Considérez les statistiques et . Ils sont situés près du contour de log . Par conséquent, doit être signalé à décimales.−k −(k+1) jth (j+k)th 10−6 ν=2.5 t=8 −3 ν 6+(−3)=3
Les zones bleu clair, pour le plus grand , sont celles qui sont préoccupantes, car elles montrent où les petits changements de ont les plus grands effets sur la valeur de p.k ν
Comparez cela à la situation pour un df plus élevé (de à illustré):4 30
L'influence de sur la précision de diminue rapidement à mesure que augmente.ν p ν
la source
La raison de cette convention est que les tables n'ont pas de df non entier. Il n'y a aucune raison de le faire autrement.
Eh bien, la statistique n'a pas de distribution t, car le dénominateur carré n'a pas de distribution chi carré. C'est une approximation qui peut ou non être conservatrice dans un cas particulier - l'arrondi de df vers le bas peut ne pas être certain d'être conservateur lorsque nous considérons la distribution exacte de la statistique dans un cas particulier.
Les valeurs de p des distributions t (en appliquant le cdf à une statistique t) peuvent être calculées par une variété d'approximations assez précises, de sorte qu'elles sont effectivement calculées plutôt qu'interpolées.
Je suis d'accord.
Une possibilité pourrait être d'étudier la précision de l'approximation de Welch-Satterthwaite pour la valeur de p dans cette région générale des rapports de variance et de ne pas citer une exactitude relative beaucoup plus grande que celle suggérée dans le df (en gardant à l'esprit que le df sur le le chi carré dans le carré du dénominateur donne juste une approximation à quelque chose qui n'est pas chi carré de toute façon).
la source