Lorsqu’on effectue un test t, pourquoi préférerait-on supposer (ou tester) des variances égales plutôt que d’utiliser toujours une approximation de Welch de la df?

47

Lorsque l'hypothèse d'homogénéité de la variance est vérifiée, il semble que les résultats d'un test t ajusté de Welch et d'un test t standard soient approximativement les mêmes. Pourquoi ne pas simplement simplement utiliser le Welch ajusté t?

russellpierce
la source

Réponses:

33

Je voudrais m'opposer aux deux autres réponses basées sur un article (en allemand) de Kubinger, Rasch et Moder (2009) .

Ils font valoir, sur la base de simulations "extensives" de distributions respectant ou non les hypothèses imposées par un test t (normalité et homogénéité de variance), que les tests de Welch fonctionnent tout aussi bien lorsque les hypothèses sont remplies (c'est-à-dire probabilité de commettre des erreurs alpha et bêta), mais surpasse le test t si les hypothèses ne sont pas remplies, notamment en termes de puissance. Par conséquent, ils recommandent de toujours utiliser le test de Welch si la taille de l'échantillon dépasse 30.

Comme méta-commentaire: Pour les personnes intéressées par les statistiques (comme moi et probablement la plupart des autres ici), un argument basé sur des données (comme le mien) devrait au moins compter également comme un argument reposant uniquement sur des bases théoriques (comme les autres ici).


Mise à jour:
Après avoir repensé à ce sujet, j’ai trouvé deux autres recommandations, dont la plus récente vient en aide à mon propos. Regardez les documents originaux (qui sont tous deux, du moins pour moi, disponibles gratuitement) pour les arguments qui ont conduit à ces recommandations.

La première recommandation vient de Graeme D. Ruxton en 2006: " Si vous souhaitez comparer la tendance centrale de 2 populations sur la base d’échantillons de données non corrélées, le test t de variance inégale doit toujours être utilisé de préférence au test t de Student. ou test U de Mann – Whitney. »
Dans:
Ruxton, GD, 2006. Le test t à variance inégale est une alternative sous-utilisée au test t de Student et au test U de Mann – Whitney . Comportement Ecol . 17, 688–690.

La deuxième recommandation (plus ancienne) provient de Coombs et al. (1996, p 148.): « En résumé, le test des échantillons indépendants de t est généralement acceptable en termes de contrôle des taux d'erreur de type I à la condition que suffisamment grands échantillons de taille égale, même si l'hypothèse de variance égale de la population est atteinte. Pour l' inégalité Pour les échantillons de taille plus petite, il est préférable d’utiliser le test de second ordre de James lorsque les distributions sont symétriques à queue courte ou normales. contrôle plus large des taux d'erreur de type I que le test de Welch ou le test de James et ont une plus grande puissance lorsque les données sont à longue traîne. " (soulignement ajouté)
Dans:
Coombs WT, J Algina, Oltman D. 1996. Tests d'hypothèses omnibus à une et à plusieurs variables choisis pour contrôler les taux d'erreur de type I lorsque les variances de population ne sont pas nécessairement égales . Rev Educ Res 66: 137–79.

Henrik
la source
3
Méta-réponse: Bon point. Mais vos données pourraient ne pas se comporter comme les miennes! :-)
whuber
Henrik, pourriez-vous vous déranger si je modifie la réponse en: (1) change la terminologie en appelant les tests t-test de Student et t-test de Welch (comme je l'ai trouvé dans la plupart des littératures); (2) Incluez un autre document qui le suggère dans la discussion: rips-irsp.com/article/10.5334/irsp.82 (il souligne le biais qui se produit lorsque vous choisissez les tests basés sur le test d'homogénéité de Levene).
Bruno
13

bien sûr, on pourrait abandonner les deux tests et commencer à utiliser un test t bayésien (test du ratio de Savage-Dickey), qui peut rendre compte de variances inégales et inégales, et qui permet surtout de quantifier les preuves en faveur du hypothèse nulle (ce qui signifie, plus de vieux discours "échec à rejeter")

Ce test est très simple (et rapide) à mettre en œuvre, et un article explique clairement aux lecteurs peu familiarisés avec les statistiques bayésiennes comment l’utiliser, ainsi qu’un script R. vous pouvez simplement insérer vos données et envoyer les commandes à la console R:

Wetzels, R., Raaijmakers, JGW, Jakab, E. et Wagenmakers, E.-J. (2009). Comment quantifier le support pour et contre l'hypothèse nulle: Une implémentation WinBUGS flexible d'un test t bayésien par défaut.

il y a aussi un tutoriel pour tout cela, avec des exemples de données:

http://www.ruudwetzels.com/index.php?src=SDtest

Je sais que ce n'est pas une réponse directe à ce qui a été demandé, mais je pensais que les lecteurs pourraient aimer cette alternative intéressante

à votre santé

Dave Kellen
la source
8
toujours ces gars bayésiens ...
Henrik
3
Une autre alternative bayésienne au test t est la routine BEST de Kruschke (l'estimation bayésienne remplace le test t). Plus d'informations ici: indiana.edu/~kruschke/BEST . Une version en ligne ici: sumsar.net/best_online .
Rasmus Bååth
7

Parce que les résultats exacts sont préférables aux approximations et évitent les cas de bords étranges où l'approximation peut conduire à un résultat différent de celui de la méthode exacte.

La méthode de Welch n’est pas un moyen plus rapide de réaliser un test t vieux, c’est une approximation pratique d’un problème par ailleurs très difficile: comment construire un test t avec des variances inégales. Le cas d'égalité-variance est bien compris, simple et exact, et doit donc toujours être utilisé lorsque cela est possible.

Riches
la source
6
Je pense que j'ai tendance à être plus d'accord avec John Tukey - " Bien mieux une réponse approximative à la bonne question, souvent vague, qu'une réponse exacte à la fausse question, qui peut toujours être précisée. "
Glen_b
4
Le test t d'égalité-variance (Student) n'est lui-même qu'une approximation (mal comprise) lorsque les variances de l'échantillon de population sont inégales. Par conséquent, à moins que l'on sache que les variances de population sont égales, il est préférable d'utiliser une approximation de la distribution d'échantillonnage correcte (Welch-Satterthwaite) plutôt que d'utiliser une distribution parfaitement précise qui ne s'applique pas au modèle de données.
whuber
4

Je peux penser à deux raisons:

  1. Le T de l'étudiant régulier est assez résistant à l'hétéroscédasticité si la taille des échantillons est la même.

  2. Si vous croyez fermement a priori que les données sont homoscédastiques, vous ne perdez rien et gagnez un peu de puissance en utilisant Studen'ts T à la place du T. de Welch.

Une raison pour laquelle je ne donnerais pas est que le T de Student est exact et le T de Welch ne l'est pas. IMHO l'exactitude de T de Student est théorique car elle est exacte pour les données normalement distribuées, et aucune donnée réelle n'est exactement distribuée normalement. Je ne peux pas penser à une seule quantité que les gens mesurent et analysent réellement sur le plan statistique et où la distribution pourrait vraisemblablement s'appuyer sur tous les nombres réels. Par exemple, il n'y a qu'un très petit nombre d'atomes dans l'univers et certaines quantités ne peuvent pas être négatives. Par conséquent, lorsque vous utilisez un test T quelconque sur des données réelles, vous faites une approximation de toute façon.

Dsimcha
la source
2
(1) est incorrect lorsque les variances sous-jacentes de la population sont très différentes. Comme cas extrême - pour voir pourquoi il en est ainsi - considérons ce qui se produit lorsqu'une population n'a aucune variance. L’étudiant t comparerait en réalité les données de l’autre population à une constante, mais il penserait qu’il dispose de deux fois plus de degrés de liberté. L’erreur qu’il commettrait serait comparable à un test Z.
whuber
Bien que cela soit vrai @whuber, il ne s'agit que de cas extrêmes. Je cherchais simplement une différence de variance de 1e6: 1 et p ≈ 0,053. Cela peut donc arriver, mais je dirais toujours que c'est assez robuste avec un égal N.
John
@ John Un ratio de variance de 1e6: 1 est énorme , quel que soit ce que pourrait être le . Le t de l'étudiant est susceptible d'induire en erreur dans ce cas. ni
whuber
@whuber, je suggère simplement que, bien que votre commentaire précédent soit techniquement vrai, la correction de Welch n'est pas la solution au problème que vous posez en exemple et qu'elle n'est même pas vraiment très critique quant à la robustesse du test en termes de taux d'alpha (ce qui est ce que (1) signifie habituellement). Comme vous le suggérez, lorsque la variance (extrême) inégale est un problème, vous avez d'autres problèmes, mais c'est vraiment un sujet différent.
Jean
3

Le fait que quelque chose de plus complexe se réduit à quelque chose de moins complexe lorsque certaines hypothèses sont vérifiées ne suffit pas pour jeter la méthode plus simple.


la source
4
Surtout en ce qui concerne les étudiants.
Matt Parker
2

Je prendrais le point de vue opposé ici. Pourquoi s'embêter avec le test de Welch lorsque le test t d’étudiant non apparié standard vous donne des résultats presque identiques. J'ai étudié cette question il y a quelque temps et j'ai exploré une série de scénarios pour tenter de décomposer le test t et de privilégier le test de Welch. Pour ce faire, j'ai utilisé des tailles d'échantillons jusqu'à 5 fois supérieures pour un groupe par rapport à l'autre. Et, j'ai exploré les variances jusqu'à 25 fois plus grandes pour un groupe par rapport à l'autre. Et cela n'a vraiment pas fait de différence matérielle. Le test t non apparié a tout de même généré une gamme de valeurs p presque identiques au test de Welch.

Vous pouvez voir mon travail sur le lien suivant et vous concentrer particulièrement sur les diapositives 5 et 6.

http://www.slideshare.net/gaetanlion/unpaired-t-test-family

Sympa
la source
Désolé, quelle distinction faites-vous entre la formule de grand échantillon et la formule de petit échantillon? Calculez-vous les variances en utilisant une formule de population dans de grands échantillons plutôt qu'en utilisant une estimation par échantillon de la variance de population?
russellpierce
Le test t d’étudiant non apparié a deux formules. La formule pour grands échantillons est appliquée aux échantillons comportant plus de 30 observations. La formule pour petits échantillons est appliquée aux échantillons comportant moins de 30 observations. La principale différence entre ces formules est la manière dont elles calculent l’erreur type groupée. La formule de petit échantillon est beaucoup plus compliqué et contre-intuitif. Et, en réalité, cela fait vraiment très peu de différence. J'ai testé cela plusieurs fois. C'est pourquoi je pense que la plupart des gens ont oublié cette distinction. Et, ils utilisent la plupart du temps la formule de grand échantillon.
Sympa
0

Il est vrai que les propriétés fréquentistes du test de Welch corrigé sont meilleures que celles du test de Student ordinaire, du moins pour les erreurs. Je conviens que cela seul est un très bon argument pour le test de Welch. Cependant, je suis généralement réticent à recommander la correction de Welch car son utilisation est souvent trompeuse. Ce qui n’est certes pas une critique du test lui-même.

La raison pour laquelle je ne recommande pas la correction de Welch est qu'elle ne modifie pas uniquement les degrés de liberté et la distribution théorique ultérieure à partir desquels la valeur p est extraite. Cela rend le test non paramétrique. Pour effectuer un test t corrigé par Welch, on continue à regrouper la variance comme si une variance égale pouvait être supposée, mais modifiait ensuite la procédure de test finale, ce qui impliquait soit que la variance égale ne pouvait pas être supposée, soit que vous ne teniez compte que des variances de l'échantillon. Cela en fait un test non paramétrique car la variance regroupée est considérée comme non représentative de la population et vous avez concédé que vous testiez uniquement les valeurs observées.

En soi, il n’ya rien de mal à cela. Cependant, je trouve cela trompeur parce que a) généralement, cela n’est pas rapporté avec suffisamment de spécificité; et b) les personnes qui l'utilisent ont tendance à y penser de manière interchangeable avec un test t. La seule façon pour moi de savoir que cela a été fait dans les articles publiés est quand je vois un étrange DF pour la distribution t. C’était aussi la seule façon dont Rexton (référencé dans la réponse de Henrik) pouvait le lire en revue. Malheureusement, le test corrigé par Welch a une nature non paramétrique, que les degrés de liberté aient changé ou non (c'est-à-dire même si les variances de l'échantillon sont égales). Mais ce problème de déclaration est symptomatique du fait que la plupart des personnes qui utilisent la correction de Welch ne reconnaissent pas que ce changement de test a eu lieu.

Par conséquent, à cause de cela, je pense que si vous recommandez un test non paramétrique, n'utilisez pas un test qui semble souvent paramétrique ou du moins soyez très clair sur ce que vous faites. Le nom officiel du test doit être T-test corrigé de Welch non paramétrique. Si les gens le signalaient de cette façon, je serais beaucoup plus heureux de la recommandation de Henrik.

John
la source
Votre réponse ne permet pas de comprendre pourquoi le test de Welch pourrait être "trompeur". Pourriez-vous expliquer la base de cela?
whuber
Peut-être que mes modifications ont clarifié les choses @whuber. J'aurais dû être clair sur le fait qu'il n'est pas garanti que cela soit trompeur mais que c'est souvent à la fois pour l'utilisateur du test et pour le lecteur des résultats du test.
Jean
1
Je vous remercie. Mis à part le problème de déclaration - qu'il serait injuste de qualifier de faute du test! -, cela semble revenir à une sorte d'objection de votre part selon laquelle le test de Welch est non paramétrique. Quel pourrait être le problème avec ça? Ceteris paribus , cela doit être considéré comme un avantage, pas un problème.
whuber
1
C'est une distinction qui n'est généralement pas claire. J'admets dans ma réponse que ce n'est pas en soi un problème, mais la plupart des gens ont tendance à le traiter de manière paramétrique, ce qui est une erreur. Je ne pense pas que ce soit l'endroit idéal pour discuter des avantages ou des coûts des tests non paramétriques. En outre, cela n'a pas été mentionné dans le fil de discussion et cela peut poser problème à beaucoup de gens. De plus, deux de nos cours d'introduction aux statistiques l'enseignent en parallèle avec le test t de Student et en font la promotion, mais comportent une section entièrement séparée consacrée aux tests non paramétriques.
John
Pouvez-vous préciser ce que vous entendez par "rend le test non paramétrique"?
Glen_b