Test t d'échantillons indépendants: les données doivent-elles vraiment être distribuées normalement pour des échantillons de grande taille?

13

Disons que je veux tester si deux échantillons indépendants ont des moyens différents. Je sais que la distribution sous-jacente n'est pas normale .

Si je comprends bien, ma statistique de test est la moyenne , et pour des échantillons suffisamment grands, la moyenne devrait devenir normalement distribuée même si les échantillons ne le sont pas. Donc, un test de signification paramétrique devrait être valide dans ce cas, non? J'ai lu des informations contradictoires et confuses à ce sujet, donc j'apprécierais une confirmation (ou une explication pourquoi je me trompe).

De plus, j'ai lu que pour les grands échantillons, je devrais utiliser la statistique z au lieu de la statistique t. Mais en pratique, la distribution t ne fera que converger vers la distribution normale et les deux statistiques devraient être les mêmes, non?

Edit : Voici quelques sources décrivant le z-test. Ils déclarent tous deux que les populations doivent être normalement réparties:

Ici , il est dit "Quel que soit le type de test Z utilisé, on suppose que les populations dont les échantillons sont prélevés sont normales". Et ici , les exigences pour le test z sont répertoriées comme «Deux populations normalement distribuées mais indépendantes, σ est connu».

Lisa
la source
Ce que vous dites est logique. Vous utilisez le théorème de la limite centrale pour supposer la normalité dans la distribution des moyennes de l'échantillon. De plus, vous utilisez le test t parce que vous n'avez pas la variance de la population et vous l'estimez en fonction de la variance de l'échantillon. Mais pouvez-vous lier ou publier l'une de ces sources conflictuelles?
Antoni Parellada
Merci pour votre réponse! Ici, par exemple, les exigences pour le test z sont répertoriées comme "Deux populations normalement distribuées mais indépendantes, σ est connue", donc ils parlent de la distribution de la population, pas de la moyenne - est-ce faux?
Lisa
@AntoniParellada J'ai incorporé quelques sources dans le post original!
Lisa
Vérifiez sur Wikipedia
Antoni Parellada
Si les populations d'origine sont normales, nous avons une situation parfaite et incontestable. Cependant, le CLT est souvent là, en particulier dans les grands échantillons, pour éviter de dépendre de cet ordre de conditions très élevé indiqué sur votre papier lié.
Antoni Parellada

Réponses:

7

Je pense que c'est un malentendu commun du CLT. Non seulement le CLT n'a rien à voir avec la préservation de l'erreur de type II (que personne n'a mentionné ici), mais il n'est souvent pas applicable lorsque vous devez estimer la variance de la population. La variance de l'échantillon peut être très éloignée d'une distribution chi carré mise à l'échelle lorsque les données ne sont pas gaussiennes, de sorte que le CLT peut ne pas s'appliquer même lorsque la taille de l'échantillon dépasse des dizaines de milliers. Pour de nombreuses distributions, le SD n'est même pas une bonne mesure de la dispersion.

Pour vraiment utiliser le CLT, l'une des deux choses doit être vraie: (1) l'écart-type de l'échantillon fonctionne comme une mesure de la dispersion pour la vraie distribution inconnue ou (2) l'écart-type de la population réelle est connu. Ce n'est très souvent pas le cas. Et un exemple de n = 20 000 étant beaucoup trop petit pour que le CLT "fonctionne" provient du prélèvement d'échantillons de la distribution log-normale comme discuté ailleurs sur ce site.

L'écart type de l'échantillon "fonctionne" comme une mesure de dispersion si, par exemple, la distribution est symétrique et n'a pas de queues plus lourdes que la distribution gaussienne.

Je ne veux pas me fier au CLT pour aucune de mes analyses.

Frank Harrell
la source
3
Le CLT peut être un peu un hareng rouge. Il peut souvent arriver que la moyenne de l'échantillon ait une distribution nettement non normale et que l'échantillon SD soit décidément non chi, mais néanmoins la statistique t est utilement approximée par une distribution de Student (en partie en raison de la dépendance entre les deux statistiques). Il convient d'évaluer si tel est le cas dans une situation donnée. Cependant, parce que le CLT affirme peu sur les échantillons finis (et ne dit absolument rien de quantitatif à leur sujet), son invocation à l'appui des hypothèses de distribution est généralement invalide.
whuber
Serait-il juste de dire que nous discutons (et apprenons dans mon cas) une procédure (comparant deux moyennes d'échantillons de distributions inconnues avec un test t) qui est effectuée quotidiennement (et peut-être inconsidérément) quotidiennement, partout, bien que son la justification peut être faible? Et y a-t-il des utilisations du CLT dans la pratique qui seraient tolérables / acceptables, même si elles ne sont pas idéales?
Antoni Parellada
La statistique a très souvent une distribution très éloignée de la distribution t lorsque les données proviennent d'une distribution non gaussienne. Et oui, je dirais que la justification de l'utilisation du test t est plus faible que la plupart des praticiens ne le pensent. C'est pourquoi je préfère les méthodes semi-paramétriques et non paramétriques. ttt
Frank Harrell
2
Le CLT est vraiment une déclaration asymptotique, et lorsque la plupart des gens l'invoquent, je soupçonne que l'idée dans leur tête est vraiment quelque chose comme le théorème de Berry-Esseen (ils croient que la convergence vers la normalité se produit à un rythme "raisonnable", et donc leur taille d'échantillon est "assez bon"). Mais même ce raisonnement légèrement plus sophistiqué peut conduire à une conclusion incorrecte sur la validité du test t. Je me demande s'il vaut la peine de mentionner / souligner dans cette réponse que même Berry – Esseen ne «sauve» pas l'attrait fallacieux du CLT.
Silverfish du
3
@FrankHarrell Que voulez-vous dire par "l'écart-type de l'échantillon fonctionne comme une mesure de la dispersion pour la vraie distribution inconnue"? Il serait utile que vous ajoutiez une brève explication (éventuellement une seule phrase) à votre réponse.
mark999
9

Je laisse ce paragraphe pour que les commentaires aient du sens: probablement l'hypothèse de normalité dans les populations d'origine est trop restrictive, et peut être abandonnée en se concentrant sur la distribution d'échantillonnage, et grâce au théorème de la limite centrale, en particulier pour les grands échantillons.

t

Comme vous le mentionnez, la distribution t converge vers la distribution normale à mesure que l'échantillon augmente, comme le montre ce graphique R rapide:

entrez la description de l'image ici

t

Donc, appliquer un test z serait probablement correct avec de grands échantillons.


Résoudre les problèmes avec ma réponse initiale. Merci, Glen_b pour votre aide avec le PO (les nouvelles erreurs d'interprétation probables sont entièrement les miennes).

  1. LA STATISTIQUE SUIT À LA DISTRIBUTION SOUS HYPOTHÈSES DE NORMALITÉ:

Si l'on fait abstraction de la complexité des formules pour un échantillon contre deux échantillons (appariés et non appariés), la statistique générale t se concentrant sur le cas de la comparaison d'une moyenne d'échantillon à une moyenne de population est la suivante:

(1)t-test=X¯μsn=X¯μσ/ns2σ2=X¯μσ/nx=1n(XX¯)2n1σ2

Xμσ2

  1. (1) N(1,0)
  2. (1)s2/σ2n11n1χn12(n1)s2/σ2χn12
  3. Le numérateur et le dénominateur doivent être indépendants.

t-statistict(df=n1)

  1. THÉORÈME DE LA LIMITE CENTRALE:

La tendance à la normalité de la distribution d'échantillonnage de l'échantillon signifie que la taille de l'échantillon augmente peut justifier l'hypothèse d'une distribution normale du numérateur même si la population n'est pas normale. Cependant, il n'influence pas les deux autres conditions (distribution khi carré du dénominateur et indépendance du numérateur par rapport au dénominateur).

Mais tout n'est pas perdu, dans ce post, il est expliqué comment le théorème de Slutzky soutient la convergence asymptotique vers une distribution normale même si la distribution chi du dénominateur n'est pas respectée.

  1. ROBUSTESSE:

Sur le document "Un regard plus réaliste sur les propriétés de robustesse et d'erreur de type II du test t pour s'écarter de la normalité de la population" par Sawilowsky SS et Blair RC dans Psychological Bulletin, 1992, Vol. 111, n ° 2, 352-360 , où ils ont testé des distributions moins idéales ou plus "réelles" (moins normales) pour la puissance et pour les erreurs de type I, les affirmations suivantes peuvent être trouvées: "Malgré la nature conservatrice en ce qui concerne le type Erreur du test t pour certaines de ces distributions réelles, il y a eu peu d'effet sur les niveaux de puissance pour la variété des conditions de traitement et des tailles d'échantillon étudiées. Les chercheurs peuvent facilement compenser la légère perte de puissance en sélectionnant une taille d'échantillon légèrement plus grande " .

" L'opinion dominante semble être que le test t pour échantillons indépendants est raisonnablement robuste, en ce qui concerne les erreurs de type I, à une forme de population non gaussienne tant que (a) les tailles d'échantillon sont égales ou presque, (b) l'échantillon les tailles sont assez grandes (Boneau, 1960, mentionne des tailles d'échantillon de 25 à 30), et (c) les tests sont bilatéraux plutôt que unilatéraux. Notez également que lorsque ces conditions sont remplies et que les différences entre l'alpha nominal et l'alpha réel le font se produisent, les écarts sont généralement de nature conservatrice plutôt que libérale. "

Les auteurs mettent l'accent sur les aspects controversés du sujet, et j'ai hâte de travailler sur certaines simulations basées sur la distribution log-normale mentionnée par le professeur Harrell. Je voudrais également proposer quelques comparaisons de Monte Carlo avec des méthodes non paramétriques (par exemple test U de Mann – Whitney). C'est donc un travail en cours ...


SIMULATIONS:

Avertissement: Ce qui suit est l'un de ces exercices pour "le prouver moi-même" d'une manière ou d'une autre. Les résultats ne peuvent pas être utilisés pour faire des généralisations (du moins pas par moi), mais je suppose que je peux dire que ces deux simulations MC (probablement erronées) ne semblent pas trop décourageantes quant à l'utilisation du test t dans les circonstances. décrit.

Erreur de type I:

n=50μ=0σ=1

enter image description here

5%4.5%

En fait, le tracé de la densité des tests t obtenus semblait chevaucher le pdf réel de la distribution t:

enter image description here

La partie la plus intéressante était de regarder le "dénominateur" du test t, la partie qui était supposée suivre une distribution khi carré:

(n-1)s2/σ2=98(49(Dakota du SudUNE2+Dakota du SudUNE2))/98(eσ2-1)e2μ+σ2
.

Ici, nous utilisons l'écart type commun, comme dans cette entrée Wikipedia :

SX1X2=(n1-1)SX12+(n2-1)SX22n1+n2-2

Et, de façon surprenante (ou non), l'intrigue était extrêmement différente du pdf chi carré superposé:

enter image description here

Erreur et alimentation de type II:

La distribution de la pression artérielle est log-normale possible , ce qui est extrêmement pratique pour mettre en place un scénario synthétique dans lequel les groupes de comparaison sont séparés en valeurs moyennes par une distance de pertinence clinique, par exemple dans une étude clinique testant l'effet d'une pression artérielle médicament se concentrant sur la TA diastolique, un effet significatif pourrait être considéré comme une baissedix mmHg (un écart-type d'environ 9 mmHg a été choisi):

enter image description here Exécution de tests t de comparaison sur une simulation Monte Carlo par ailleurs similaire à celle des erreurs de type I entre ces groupes fictifs, et avec un niveau de signification de 5% on se retrouve avec 0,024% erreurs de type II, et une puissance de seulement 99%.

Le code est ici .

Antoni Parellada
la source
1
Je pense que c'est un malentendu commun du CLT. Non seulement le CLT n'a rien à voir avec la préservation de l'erreur de type II (que personne n'a mentionné ici), mais il n'est souvent pas applicable lorsque vous devez estimer la variance de la population. La variance de l'échantillon peut être très éloignée d'une distribution chi carré mise à l'échelle lorsque les données ne sont pas gaussiennes, de sorte que le CLT peut ne pas s'appliquer même lorsque la taille de l'échantillon dépasse des dizaines de milliers. Pour de nombreuses distributions, le SD n'est même pas une bonne mesure de la dispersion.
Frank Harrell
1
Professeur Harrell, je serai heureux de retirer le poste s'il est incorrect. Cela peut très bien être un malentendu très fondamental. Je suggérais que le CLT appliqué à la distribution de l'échantillon signifie qui valide, dans les grands échantillons, la comparaison des moyennes avec un test z ou un test t quelle que soit la distribution d'origine des échantillons. Ce n'est pas correct?
Antoni Parellada
1
Ce serait correct si (1) l'écart-type de l'échantillon fonctionne comme une mesure de la dispersion pour la véritable distribution inconnue ou (2) l'écart-type réel de la population est connu. Ce n'est très souvent pas le cas. Et un exemple de n = 20 000 étant beaucoup trop petit pour que le CLT "fonctionne" provient du prélèvement d'échantillons de la distribution log-normale. Les malentendus sur ces points sont monnaie courante chez les docteurs en statistique avec 20 ans d'expérience.
Frank Harrell
5
La question, Lisa, est de savoir si vous devez comparer les moyens ou si vous souhaitez simplement comparer les emplacements de deux populations. Dans certaines applications, l'intérêt porte sur une moyenne ou une somme, d'où son remplacement par un autre paramètre serait de peu d'utilité. C'est particulièrement le cas lorsque la population est une quantité naturellement cumulative, comme de l'argent ou une contamination environnementale.
whuber
3
Antoni, votre dernière section sur la robustesse est tout à fait appropriée. J'ai fait de nombreuses études similaires à celles décrites par Sawilosky et Blair, et j'en ai lu beaucoup plus, et je soupçonne donc que leurs conclusions doivent se limiter à des types de données très spéciaux. Le test t échoue lamentablement, surtout en termes de puissance, en présence de distributions très asymétriques. Ce qui m'a surpris au fil des ans, c'est qu'il est en effet assez résistant aux autres écarts par rapport à la normalité, au point que je vois une certaine validité dans les affirmations selon lesquelles il s'agit d'une procédure non paramétrique.
whuber