Quelle doit être la taille d'un échantillon pour une technique et des paramètres d'estimation donnés?

12

Existe-t-il une règle empirique ou même un moyen quelconque de déterminer la taille d'un échantillon afin d'estimer un modèle avec un nombre donné de paramètres?

Ainsi, par exemple, si je veux estimer une régression des moindres carrés avec 5 paramètres, quelle devrait être la taille de l'échantillon?

Quelle est la technique d'estimation que vous utilisez (par exemple, probabilité maximale, moindres carrés, GMM), ou combien ou quels tests vous allez effectuer? La variabilité de l'échantillon doit-elle être prise en compte lors de la prise de décision?

Vivi
la source

Réponses:

11

La réponse triviale est que plus de données sont toujours préférées à moins de données.

Le problème de la petite taille de l'échantillon est clair. En régression linéaire (OLS), techniquement, vous pouvez ajuster un modèle tel que OLS où n = k + 1, mais vous en tirerez des déchets, c'est-à-dire de très grandes erreurs standard. Il existe un excellent article d'Arthur Goldberger intitulé Micronumerocity sur ce sujet, qui est résumé au chapitre 23 de son livre A Course in Econometrics .

Une heuristique courante est que vous devriez avoir 20 observations pour chaque paramètre que vous souhaitez estimer. C'est toujours un compromis entre la taille de vos erreurs standard (et donc les tests de signification) et la taille de votre échantillon. C'est une des raisons pour lesquelles certains d'entre nous détestent les tests de signification car vous pouvez obtenir une erreur standard (relative) incroyablement petite avec un énorme échantillon et donc trouver une signification statistique inutile sur des tests naïfs, comme par exemple si un coefficient de régression est nul.

Bien que la taille de l'échantillon soit importante, la qualité de votre échantillon est plus importante, par exemple, si l'échantillon est généralisable pour la population, s'agit-il d'un échantillon aléatoire simple ou d'une autre méthodologie d'échantillonnage appropriée (et si cela a été pris en compte lors de l'analyse), y a-t-il une erreur de mesure , biais de réponse, biais de sélection, etc.

Graham Cookson
la source
3

J'aime utiliser le rééchantillonnage: je répète la méthode que j'ai utilisée avec un sous-échantillon des données (disons 80% ou même 50% du total). En faisant cela avec de nombreux sous-échantillons différents, j'ai une idée de la robustesse des estimations. Pour de nombreuses procédures d'estimation, cela peut être transformé en une estimation réelle (c'est-à-dire publiable) de vos erreurs.

Hbar
la source
2

Il doit toujours être assez grand! ;)

Toutes les estimations de paramètres sont accompagnées d'une incertitude d'estimation, qui est déterminée par la taille de l'échantillon. Si vous effectuez une analyse de régression, cela vous rappelle que la distribution Χ 2 est construite à partir de l'ensemble de données d'entrée. Si votre modèle avait 5 paramètres et que vous aviez 5 points de données, vous ne pourriez calculer qu'un seul point de la distribution Χ 2 . Comme vous devrez le minimiser, vous ne pouvez choisir que ce point comme une estimation pour le minimum, mais vous devrez attribuer des erreurs infinies à vos paramètres estimés. Avoir plus de points de données vous permettrait de mieux cartographier l'espace des paramètres conduisant à une meilleure estimation du minimum de la distribution Χ 2 et donc à des erreurs d'estimateur plus petites.

Utiliseriez-vous un estimateur du maximum de vraisemblance à la place, la situation serait similaire: plus de points de données conduisent à une meilleure estimation du minimum.

En ce qui concerne la variance ponctuelle, vous devez également la modéliser. Le fait d'avoir plus de points de données rendrait le regroupement des points autour de la "vraie" valeur plus évident (en raison du théorème de la limite centrale) et le danger d'interpréter une grande fluctuation aléatoire comme la vraie valeur de ce point diminuerait. Et comme pour tout autre paramètre, votre estimation de la variance ponctuelle deviendrait plus stable à mesure que vous disposeriez de points de données.

Benjamin Bannier
la source
2

J'ai entendu deux règles générales à cet égard. On soutient que tant qu'il y a suffisamment d'observations dans le terme d'erreur pour évoquer le théorème de la limite centrale, par exemple 20 ou 30, tout va bien. L'autre soutient que pour chaque pente estimée, on devrait avoir au moins 20 ou 30 observations. La différence entre l'utilisation de 20 ou 30 comme nombre cible est basée sur des pensées différentes concernant le moment où il y a suffisamment d'observations pour évoquer raisonnablement le théorème de la limite centrale.

russellpierce
la source
1
les deux réponses me semblent trop différentes. L'un dit 20 à 30, l'autre dit 20 à 30 fois les pentes. Donc, si vous avez 5 pentes, une règle vous indique 20 à 30, l'autre 100 à 150 observations. Cela ne me semble pas juste ....
Vivi
1
Ce sont des directives assez différentes. Je soupçonne que la déconnexion est de savoir si vous pensez que le test du modèle global est important (la ligne directrice inférieure N) ou le test des pentes individuelles qui comptent (la ligne directrice N supérieure).
russellpierce