Le chiffre 20 est-il magique?

12

J'ai des références qui ont conseillé d'envisager une taille d'échantillon d'au moins 20 pour la distribution de l'ajustement des données.

Y a-t-il un sens à cela?

Merci

sample-size fm3c2007
la source

3

En général non, dans des situations spécifiques peut-être. Avez-vous les références et quels sont vos objectifs?

image_doctor

1

Je suis d'accord avec @image_doctor - il n'y a aucune raison générale pour laquelle 20 observations devraient être considérées comme un minimum; ce pourrait être le cas dans des circonstances très particulières.

Glen_b -Reinstate Monica

3

Une valeur unique fonctionnera dans certains cas pratiques, par exemple lorsque la distribution est connue (avec certitude) comme étant de Poisson et que l'observation est un grand nombre. Cela permet non seulement d'ajuster la distribution, mais aussi d'évaluer l'erreur probable dans l'estimation de son paramètre.

whuber

1

Je crois que j'ai également lu que pour les distributions normales, 30 est la règle de base. Il me semble que c'était quelque chose lié à la façon dont le t d'un étudiant avec 30 degrés de liberté est normal. Mais ce n'est qu'une règle d'or. Ce n'est pas magique dans le même sens que la valeur de .

e

$e$

Wayne

1

Oui, 20 est un nombre magique: en.wikipedia.org/wiki/Magic_number_%28physics%29

Bitwise

13

Une grande partie de cela dépend de la distribution attendue et de votre question de recherche. En règle générale, vous devez vous méfier des règles de base. Si vous connaissez la distribution attendue, exécutez des simulations de différentes tailles et déterminez la fréquence à laquelle les exemples de simulation reflètent la distribution réelle. Cela devrait vous donner quelques indications sur la taille finale requise de l'échantillon.

doug.numbers
la source

+1 pour éviter les déclarations extrêmes et dogmatiques.

whuber

1

+1 en partie à cause de "En règle générale, vous devez vous méfier des règles de base."

Wolfgang

7

Je pensais que le nombre magique de taille d'échantillon était de 1000 C'est ce que la plupart des sondages nationaux américains ont, pour produire une marge d'erreur d'environ 3%: En réalité, la taille effective des échantillons est inférieure à 1 000, plus ou moins 700, en raison de la probabilité inégale de sélection et des ajustements de non-réponse, conduisant à une marge d'erreur de 3,7% .

z_{0.975} \sqrt{0.5 \cdot 0.5 / 1000} = 1.96 \cdot 0.158 = 0.031

$z_{0.975}\sqrt{0.5\cdot0.5/1000} = 1.96 \cdot 0.158 = 0.031$

Avec seulement 20 observations, vous ne pouvez techniquement pas obtenir des valeurs d'asymétrie et de kurtosis très élevées (normalisées par les écarts-types de l'échantillon, bien sûr): Si vous ajustez une distribution par la méthode des moments, vous ne pouvez évidemment pas ajuster une distribution lognormale avec une variance raisonnablement typique de journaux égale à 1 (distributions de revenu dans les pays à inégalité de revenu modérée à élevée; États-Unis, Brésil, Afrique du Sud, La Russie a tous une variance plus élevée des log-revenus), car elle a un kurtosis étonnamment grand de 111. Bien sûr, il serait idiot d'ajuster une distribution log-normale par la méthode des moments, mais je voulais juste montrer que certaines distributions du monde réel probablement plus compliqué que ce qui peut être décrit avec 20 observations.

| skewness | \leq \frac{n - 2}{\sqrt{n - 1}} = 4.58, | kurtosis | \leq \frac{n^{2} - 3 n + 3}{n - 1} = 18.05.

$|\mbox{skewness}| \le \frac{n-2}{\sqrt{n-1}} = 4.58, |\mbox{kurtosis}| \le \frac{n^2 - 3n + 3}{n-1} = 18.05.$

$n=20$

h = 1.06 \hat{σ} n^{- 1 / 5} = 0.58 \hat{σ}

$h=1.06 \hat\sigma n^{-1/5}=0.58\hat\sigma$

StasK
la source

m

$m$

s

$s$

(s / m) (3 + (s / m)^{2})

$(s/m)(3 + (s/m)^2)$

20

$20$

2

$2$

whuber

1

Lien obligatoire vers le "Syndrome du Pouvoir des Dix" dans le cadre de l'utilisation de 1000 comme taille d'échantillon (dans le contexte des statistiques liées à la programmation, mais cela s'applique ailleurs): zedshaw.com/essays/programmer_stats.html

Gary S. Weaver

1

@whuber, vous êtes bien trop malin, pas d'offense. La plupart des gens calculeraient l'asymétrie comme le moment des données, et non par une hypothèse paramétrique comme vous venez de le faire. Maintenant, si je disais "Supposons que vous ajustez une distribution de Pearson par la méthode des moments" - cet argument serait-il pertinent, alors?

StasK

Oui, cela serait pertinent dans de nombreux cas. J'ai suivi votre suggestion d'ajuster une distribution log-normale en utilisant la méthode des moments et j'ai obtenu une grande asymétrie - pas de surprise là-bas. C'est parce que je n'ai égalé que les deux premiers moments, laissant le troisième être ce qu'il peut. Si je devais suivre la même procédure avec n'importe quelle famille de distribution de deux paramètres ou moins qui permet des troisièmes moments arbitrairement grands, je pense que je verrais le même phénomène. Avec la famille Pearson, qui a plus de deux paramètres, nous tenterions probablement de faire correspondre l'asymétrie empirique, limitant ainsi sa valeur.

whuber

2

Nan. Pas à distance.

Pensez-y comme ceci: si vous aviez un espace milliardaire (l'humanité) et que vous préleviez 20 échantillons en utilisant n'importe quelle méthode (20 personnes), pourriez-vous utiliser les informations obtenues pour comprendre raisonnablement bien chaque personne sur la planète? Pas à distance. Il y a 100 milliards d'étoiles dans la galaxie de la Voie lactée. En choisissant (au hasard) 20 d'entre eux, pouvez-vous comprendre toute l'astronomie galactique? En aucune façon.

Dans un espace 1-d, il existe des heuristiques, principalement des règles empiriques valides qui peuvent vous aider, qui décrivent le nombre de mesures que vous souhaitez prendre. Ils incluent divers degrés d'utilité et de justification, mais sont dans un certain sens mieux défendus que "20". Ils comprennent "5 mesures par variable dans votre équation d'ajustement", "au moins 35 échantillons d'une fonction de densité gaussienne" et "au moins 300 échantillons d'une fonction binomiale". De vrais statisticiens et pas un nerd-bombardier comme moi pourront associer des intervalles de confiance et des incertitudes particuliers des premiers principes et sans calculatrice.

$\int {\int {\frac {a_3{r^3}+a_2{r^2}+a_1r+a_0}{a_1r+a_0}}} dr$

N'oubliez pas que «le meilleur» est une idée dénuée de sens sans avoir une «mesure de bonté». Quel est le meilleur chemin? Si vous allez à votre perte, peut-être extrêmement longue et agréable. Si vous allez à votre propre couronnement, peut-être un court et magnifique. Si vous marchez dans le désert, un endroit frais et ombragé. Quel est le "meilleur" nombre d'échantillons? Cela dépend tellement de votre problème qu'il ne peut pas commencer à y répondre avec autorité avant cela. Tous? Autant que vous pouvez? Cela n'a que peu de sens. Oui, c'est comme être partiellement mort ou enceinte. Être partiellement insensé est la conséquence d'un problème très sous-défini.

Si vous essayez de prévoir avec précision le flux d'air au-dessus d'un avion? Vous pourriez avoir besoin de plusieurs millions de mesures pour entrer dans le parc à billes. Si vous voulez savoir quelle est votre taille, un ou deux pourraient faire le travail.

Cela ne soulève pas les points importants de "s'étendre sur l'espace" et "l'échantillonnage à des emplacements qui minimisent la variance dans les estimations des paramètres", mais la question a suggéré qu'une réponse plus récente serait pertinente. Ces éléments nécessitent d'en savoir plus sur la nature du problème avant de pouvoir être mis en œuvre.

Remarque: modifié pour améliorer les suggestions.

EngrStudent
la source

1

Vous semblez avoir lu «minimum» dans la question comme «maximum» ou «suffisant». Rien de ce que vous avez écrit ne semble contredire une règle de base minimale de 20.

whuber

2

@whuber, je travaille parmi des gens qui pensent que des mesures supplémentaires coûtent cher, et si je leur fournis un "nombre minimum d'échantillons", ils ne le considèrent pas comme une inégalité où le nombre potentiel d'échantillons est supérieur à cela. Ils la considèrent comme la limite d'un problème d'optimisation de la minimisation des coûts et essaient de fonctionner uniquement à cette valeur. C'est un produit de mon environnement.

EngrStudent

1

Peut-être pour le contexte où vous effectuez des tests t ou ANOVAR - un contexte assez courant dans les applications statistiques de base - c'est autour de la taille de l'échantillon dont vous avez besoin pour chaque groupe afin d'être en mesure d'avoir beaucoup confiance dans la moyenne de chaque groupe étant approximativement normalement distribué (selon le théorème de la limite centrale) lorsque la distribution peut être supposée plus ou moins unimodale et pas extrêmement pointue. Vingt et non dix-neuf ou vingt et un parce que c'est un chiffre rond.

Scortchi - Réintégrer Monica
la source

0

Consultez la page Puissance et taille de l'échantillon de Russ Lenth pour quelques articles sur le sujet (dans la section Conseils au milieu de la page).

Le nombre minimum d'individus dans votre échantillon varie énormément selon la taille de la population, le nombre de dimensions (si vous divisez les données en catégories) et les mesures (si vous prenez des mesures continues sur les individus de l'échantillon) que vous prenez, la taille de votre univers, la technique d'analyse que vous comptez utiliser (c'est un point très important - la technique est définie lors de la planification de l'étude ou lors de la conception expérimentale , jamais après), et la complexité démontrée par les études précédentes.

Et 20 n'est pas suffisant pour toute recherche sérieuse en dehors des sujets des «maladies rares» et de la «psychologie expérimentale» (psych comme Popper l'a défini dans son travail).

Affiner la réponse sur la base des commentaires ci-dessous:

Et 20 n'est pas suffisant pour toute recherche sérieuse en dehors des sujets des «maladies rares» et de la «psychologie expérimentale» (psych comme Popper l'a défini dans son travail) qui implique l'ajustement d'une distribution de probabilité .

Et non, vous ne devez pas empoisonner les gens pour obtenir un échantillon de grande taille. Les tests Common Sense et Sequential vous ordonnent de vous arrêter.

Lucas Gallindo
la source

3

Je pense qu'il est trop extrême de donner une déclaration générale qu'un échantillon de 20 n'est "pas suffisant pour une recherche sérieuse". Cela contredit vos déclarations précédentes selon lesquelles la taille d'échantillon appropriée varie en fonction de l'objectif, de la population, etc. Dans certains cas, un résultat falsifiant suffit pour tuer une théorie entière.

whuber

1

Les études de cas et les recherches qualitatives peuvent convenir à 1 à 5 participants.

Behacad

Ok, ajoutez "études de cas" et "groupes de discussion" à la liste :) Ceux-ci sont inclus dans ce que j'ai dit Popper appelé "psychologie expérimentale".

Lucas Gallindo

4

Vous feriez alors mieux d'ajouter l'astronomie, la médecine, la biologie, la chimie, ... Autrement dit, il est tout aussi mauvais d'affirmer que 20 n'est pas "assez" que d'affirmer qu'il est assez bon. En fait, c'est probablement pire. Imaginez un essai de sécurité alimentaire dans lequel les huit premiers sujets à qui un supplément nutritionnel a été administré sont morts d'effets secondaires imprévus. Recommanderiez-vous la poursuite des tests sur la base de votre déclaration "20 n'est pas suffisant"?

whuber

Le chiffre 20 est-il magique?

Réponses:

Affiner la réponse sur la base des commentaires ci-dessous: