Quelles références faut-il citer pour soutenir l’utilisation de 30 échantillons de taille suffisante?

43

J'ai lu / entendu à plusieurs reprises que la taille d'échantillon d'au moins 30 unités est considérée comme un "échantillon large" (les hypothèses de normalité des moyennes sont généralement à peu près valables en raison du CLT, ...). Par conséquent, dans mes expériences, je génère généralement des échantillons de 30 unités. Pouvez-vous s'il vous plaît me donner une référence qui devrait être citée lors de l'utilisation de la taille de l'échantillon 30?

Lan
la source
2
Sans référence au nombre de paramètres que vous essayez d'estimer, ou de manière équivalente au type de modèle avec lequel vous travaillez, il semble assez difficile de vous donner une réponse claire.
chl
2
L'acceptation de n = 30 comme limite des échantillons petits et grands n'est pas bien prise en charge par aucune technique statistique.
Jibol

Réponses:

37

Le choix de n = 30 pour une limite entre petits et grands échantillons est une règle empirique, uniquement. Un grand nombre de livres citent (autour de) cette valeur, par exemple, Probabilité et inférence statistique de Hogg et Tanis (7e) dit "supérieur à 25 ou 30".

Cela dit, l’histoire qui m’a été racontée était que la seule raison pour laquelle 30 était considérée comme une bonne frontière était parce que cela permettait aux jolies tables t d’étudiants au dos des manuels d’adapter parfaitement à une page. Cela, ainsi que les valeurs critiques (entre t de Normal et Student ), n’existent que d’environ 0,25, de toute façon, de df = 30 à df = infini. Pour le calcul manuel, la différence importait peu.

De nos jours, il est facile de calculer des valeurs critiques pour toutes sortes de choses à 15 décimales. En plus de cela, nous avons des méthodes de ré-échantillonnage et de permutation pour lesquelles nous ne sommes même pas limités à des distributions paramétriques de population.

En pratique, je ne m'appuie jamais sur n = 30. Tracez les données. Superposez une distribution normale, si vous voulez. Évaluez visuellement si une approximation normale est appropriée (et demandez si une approximation est même réellement nécessaire). Si la génération d'échantillons à des fins de recherche et d'approximation est obligatoire, générez une taille d'échantillon suffisante pour rendre l'approximation aussi proche que vous le souhaitez (ou aussi près que possible du point de vue du calcul).


la source
13
Voici une page sur la précision de l’approximation normale de la distribution t pour n = 30. johndcook.com/normal_approx_to_t.html
John D. Cook Le
41

En réalité, le "nombre magique" 30 est une erreur. Voir le délicieux article de Jacob Cohen, Ce que j'ai appris (jusqu'à présent) (Am. Psych. December 1990 45 # 12, p. 1304-1312) . Ce mythe est son premier exemple de la façon dont "certaines choses que vous apprenez ne le sont pas".

n=30.05.47

Carlos Accioly
la source
2
Belle référence - et place sur pertinente. Merci.
whuber
1
@ Whuber Vous souvenez-vous de quel papier il s'agissait? Le lien est cassé maintenant. Peut-être que ceci psych.colorado.edu/~willcutt/pdfs/Cohen_1990.pdf , "Ce que j'ai appris (jusqu'à présent )"? L'année correspond à celle de l'URL du lien rompu.
amibe dit de réintégrer Monica
1
@Amoeba J'ai sauvegardé ce papier quand je l'ai lu, afin de pouvoir confirmer ce que vous avez trouvé est celui que vous avez trouvé. J'ai mis à jour cette réponse pour inclure une citation avec votre lien.
whuber
@ Carlos Accioly Je l'ai mis à jour avec le nouveau lien car le précédent était cassé.
Akshay Bansal
9

OMI, tout dépend de la raison pour laquelle vous voulez utiliser votre échantillon. Deux exemples "stupides" pour illustrer ce que je veux dire: Si vous devez estimer une moyenne, 30 observations suffisent amplement. Si vous devez estimer une régression linéaire avec 100 prédicteurs, 30 observations ne seront pas assez proches.

bhm
la source
9

μ¯(n) ). Ce nombre (30) est également faux si les valeurs que vous dessinez ne sont pas indépendantes les unes des autres (encore une fois, il se peut qu’il n’y ait aucune convergence, quelle que soit la taille de l’échantillon).

Plus généralement, le CLT a essentiellement besoin de deux piliers:

  1. Les variables aléatoires sont indépendantes: vous pouvez réorganiser vos observations sans perdre aucune information *.
  2. Que les va proviennent d'une distribution avec des secondes secondes finies: ce qui signifie que les estimateurs classiques de moyenne et de SD tendent à converger lorsque la taille de l'échantillon augmente.

(Ces deux conditions peuvent être quelque peu affaiblies, mais les différences sont en grande partie de nature théorique)

utilisateur603
la source
6
Votre exemple illustre la valeur de statistiques robustes. La médiane de l’échantillon estime bien le paramètre de localisation d’une distribution de Cauchy. On pourrait argumenter que le maillon le plus faible en utilisant un test t avec 30 échantillons est le test t, pas les 30 échantillons.
John D. Cook le
1
John:> "On pourrait argumenter que le maillon le plus faible en utilisant un test t avec 30 échantillons est le test t, pas les 30 échantillons". Très vrai, et aussi l'hypothèse que les données sont iid . En outre, la médiane est MLE pour les variables aléatoires distribuées de Cauchy (et donc efficace), mais en général, vous pourriez avoir besoin de plus de 30 observations.
user603
1
Toutes les versions du CLT ne reposent pas sur une distribution identique, ni même sur l'indépendance. Les bases enseignées aux étudiants de premier cycle le font souvent, mais certaines versions ne supposent pas les deux hypothèses, par exemple le Lytoun CLT suppose l'indépendance mais pas des distributions identiques, et la condition d'indépendance peut également être assouplie, voir par exemple ici . Cette «réorganisation» n’est pas non plus la même chose que l’indépendance. Certaines formes de dépendance ne reposent pas sur l'ordre.
Glen_b -Reinstate Monica
2
Une taille d'échantillon de 50 000 n'est pas suffisante pour que le CLT fonctionne suffisamment bien pour calculer un intervalle de confiance pour la moyenne d'une distribution log-normale.
Frank Harrell