J'ai des références qui ont conseillé d'envisager une taille d'échantillon d'au moins 20 pour la distribution de l'ajustement des données.
Y a-t-il un sens à cela?
Merci
sample-size
fm3c2007
la source
la source
Réponses:
Une grande partie de cela dépend de la distribution attendue et de votre question de recherche. En règle générale, vous devez vous méfier des règles de base. Si vous connaissez la distribution attendue, exécutez des simulations de différentes tailles et déterminez la fréquence à laquelle les exemples de simulation reflètent la distribution réelle. Cela devrait vous donner quelques indications sur la taille finale requise de l'échantillon.
la source
Je pensais que le nombre magique de taille d'échantillon était de 1000 C'est ce que la plupart des sondages nationaux américains ont, pour produire une marge d'erreur d'environ 3%: En réalité, la taille effective des échantillons est inférieure à 1 000, plus ou moins 700, en raison de la probabilité inégale de sélection et des ajustements de non-réponse, conduisant à une marge d'erreur de 3,7% .
Avec seulement 20 observations, vous ne pouvez techniquement pas obtenir des valeurs d'asymétrie et de kurtosis très élevées (normalisées par les écarts-types de l'échantillon, bien sûr): Si vous ajustez une distribution par la méthode des moments, vous ne pouvez évidemment pas ajuster une distribution lognormale avec une variance raisonnablement typique de journaux égale à 1 (distributions de revenu dans les pays à inégalité de revenu modérée à élevée; États-Unis, Brésil, Afrique du Sud, La Russie a tous une variance plus élevée des log-revenus), car elle a un kurtosis étonnamment grand de 111. Bien sûr, il serait idiot d'ajuster une distribution log-normale par la méthode des moments, mais je voulais juste montrer que certaines distributions du monde réel probablement plus compliqué que ce qui peut être décrit avec 20 observations.
la source
Nan. Pas à distance.
Pensez-y comme ceci: si vous aviez un espace milliardaire (l'humanité) et que vous préleviez 20 échantillons en utilisant n'importe quelle méthode (20 personnes), pourriez-vous utiliser les informations obtenues pour comprendre raisonnablement bien chaque personne sur la planète? Pas à distance. Il y a 100 milliards d'étoiles dans la galaxie de la Voie lactée. En choisissant (au hasard) 20 d'entre eux, pouvez-vous comprendre toute l'astronomie galactique? En aucune façon.
Dans un espace 1-d, il existe des heuristiques, principalement des règles empiriques valides qui peuvent vous aider, qui décrivent le nombre de mesures que vous souhaitez prendre. Ils incluent divers degrés d'utilité et de justification, mais sont dans un certain sens mieux défendus que "20". Ils comprennent "5 mesures par variable dans votre équation d'ajustement", "au moins 35 échantillons d'une fonction de densité gaussienne" et "au moins 300 échantillons d'une fonction binomiale". De vrais statisticiens et pas un nerd-bombardier comme moi pourront associer des intervalles de confiance et des incertitudes particuliers des premiers principes et sans calculatrice.
N'oubliez pas que «le meilleur» est une idée dénuée de sens sans avoir une «mesure de bonté». Quel est le meilleur chemin? Si vous allez à votre perte, peut-être extrêmement longue et agréable. Si vous allez à votre propre couronnement, peut-être un court et magnifique. Si vous marchez dans le désert, un endroit frais et ombragé. Quel est le "meilleur" nombre d'échantillons? Cela dépend tellement de votre problème qu'il ne peut pas commencer à y répondre avec autorité avant cela. Tous? Autant que vous pouvez? Cela n'a que peu de sens. Oui, c'est comme être partiellement mort ou enceinte. Être partiellement insensé est la conséquence d'un problème très sous-défini.
Si vous essayez de prévoir avec précision le flux d'air au-dessus d'un avion? Vous pourriez avoir besoin de plusieurs millions de mesures pour entrer dans le parc à billes. Si vous voulez savoir quelle est votre taille, un ou deux pourraient faire le travail.
Cela ne soulève pas les points importants de "s'étendre sur l'espace" et "l'échantillonnage à des emplacements qui minimisent la variance dans les estimations des paramètres", mais la question a suggéré qu'une réponse plus récente serait pertinente. Ces éléments nécessitent d'en savoir plus sur la nature du problème avant de pouvoir être mis en œuvre.
Remarque: modifié pour améliorer les suggestions.
la source
Peut-être pour le contexte où vous effectuez des tests t ou ANOVAR - un contexte assez courant dans les applications statistiques de base - c'est autour de la taille de l'échantillon dont vous avez besoin pour chaque groupe afin d'être en mesure d'avoir beaucoup confiance dans la moyenne de chaque groupe étant approximativement normalement distribué (selon le théorème de la limite centrale) lorsque la distribution peut être supposée plus ou moins unimodale et pas extrêmement pointue. Vingt et non dix-neuf ou vingt et un parce que c'est un chiffre rond.
la source
Consultez la page Puissance et taille de l'échantillon de Russ Lenth pour quelques articles sur le sujet (dans la section Conseils au milieu de la page).
Le nombre minimum d'individus dans votre échantillon varie énormément selon la taille de la population, le nombre de dimensions (si vous divisez les données en catégories) et les mesures (si vous prenez des mesures continues sur les individus de l'échantillon) que vous prenez, la taille de votre univers, la technique d'analyse que vous comptez utiliser (c'est un point très important - la technique est définie lors de la planification de l'étude ou lors de la conception expérimentale , jamais après), et la complexité démontrée par les études précédentes.
Et 20 n'est pas suffisant pour toute recherche sérieuse en dehors des sujets des «maladies rares» et de la «psychologie expérimentale» (psych comme Popper l'a défini dans son travail).
Affiner la réponse sur la base des commentaires ci-dessous:
Et 20 n'est pas suffisant pour toute recherche sérieuse en dehors des sujets des «maladies rares» et de la «psychologie expérimentale» (psych comme Popper l'a défini dans son travail) qui implique l'ajustement d'une distribution de probabilité .
Et non, vous ne devez pas empoisonner les gens pour obtenir un échantillon de grande taille. Les tests Common Sense et Sequential vous ordonnent de vous arrêter.
la source