La réponse triviale est que plus de données sont toujours préférées à moins de données.
Le problème de la petite taille de l'échantillon est clair. En régression linéaire (OLS), techniquement, vous pouvez ajuster un modèle tel que OLS où n = k + 1, mais vous en tirerez des déchets, c'est-à-dire de très grandes erreurs standard. Il existe un excellent article d'Arthur Goldberger intitulé Micronumerocity sur ce sujet, qui est résumé au chapitre 23 de son livre A Course in Econometrics .
Une heuristique courante est que vous devriez avoir 20 observations pour chaque paramètre que vous souhaitez estimer. C'est toujours un compromis entre la taille de vos erreurs standard (et donc les tests de signification) et la taille de votre échantillon. C'est une des raisons pour lesquelles certains d'entre nous détestent les tests de signification car vous pouvez obtenir une erreur standard (relative) incroyablement petite avec un énorme échantillon et donc trouver une signification statistique inutile sur des tests naïfs, comme par exemple si un coefficient de régression est nul.
Bien que la taille de l'échantillon soit importante, la qualité de votre échantillon est plus importante, par exemple, si l'échantillon est généralisable pour la population, s'agit-il d'un échantillon aléatoire simple ou d'une autre méthodologie d'échantillonnage appropriée (et si cela a été pris en compte lors de l'analyse), y a-t-il une erreur de mesure , biais de réponse, biais de sélection, etc.