J'ai lu / entendu à plusieurs reprises que la taille d'échantillon d'au moins 30 unités est considérée comme un "échantillon large" (les hypothèses de normalité des moyennes sont généralement à peu près valables en raison du CLT, ...). Par conséquent, dans mes expériences, je génère généralement des échantillons de 30 unités. Pouvez-vous s'il vous plaît me donner une référence qui devrait être citée lors de l'utilisation de la taille de l'échantillon 30?
43
Réponses:
Le choix de n = 30 pour une limite entre petits et grands échantillons est une règle empirique, uniquement. Un grand nombre de livres citent (autour de) cette valeur, par exemple, Probabilité et inférence statistique de Hogg et Tanis (7e) dit "supérieur à 25 ou 30".
Cela dit, l’histoire qui m’a été racontée était que la seule raison pour laquelle 30 était considérée comme une bonne frontière était parce que cela permettait aux jolies tables t d’étudiants au dos des manuels d’adapter parfaitement à une page. Cela, ainsi que les valeurs critiques (entre t de Normal et Student ), n’existent que d’environ 0,25, de toute façon, de df = 30 à df = infini. Pour le calcul manuel, la différence importait peu.
De nos jours, il est facile de calculer des valeurs critiques pour toutes sortes de choses à 15 décimales. En plus de cela, nous avons des méthodes de ré-échantillonnage et de permutation pour lesquelles nous ne sommes même pas limités à des distributions paramétriques de population.
En pratique, je ne m'appuie jamais sur n = 30. Tracez les données. Superposez une distribution normale, si vous voulez. Évaluez visuellement si une approximation normale est appropriée (et demandez si une approximation est même réellement nécessaire). Si la génération d'échantillons à des fins de recherche et d'approximation est obligatoire, générez une taille d'échantillon suffisante pour rendre l'approximation aussi proche que vous le souhaitez (ou aussi près que possible du point de vue du calcul).
la source
En réalité, le "nombre magique" 30 est une erreur. Voir le délicieux article de Jacob Cohen, Ce que j'ai appris (jusqu'à présent) (Am. Psych. December 1990 45 # 12, p. 1304-1312) . Ce mythe est son premier exemple de la façon dont "certaines choses que vous apprenez ne le sont pas".
la source
OMI, tout dépend de la raison pour laquelle vous voulez utiliser votre échantillon. Deux exemples "stupides" pour illustrer ce que je veux dire: Si vous devez estimer une moyenne, 30 observations suffisent amplement. Si vous devez estimer une régression linéaire avec 100 prédicteurs, 30 observations ne seront pas assez proches.
la source
Plus généralement, le CLT a essentiellement besoin de deux piliers:
(Ces deux conditions peuvent être quelque peu affaiblies, mais les différences sont en grande partie de nature théorique)
la source