En ce qui concerne les tests d'hypothèse, l'estimation de la taille des échantillons se fait par la puissance, et il est intuitif que l'augmentation de la même taille augmente la précision des effets estimés. Mais qu'en est-il de la prédiction pour la classification et la régression? Quels aspects du problème de prédiction sont influencés par la taille de l'échantillon autre que l'estimation de l'erreur de généralisation ou RMSE pour la régression.
En somme, les propriétés qui contribuent à la puissance dans le cadre du test d'hypothèse diffèrent de celles qui permettent une prédiction réussie par régression pénalisée / exploration de données / modélisation algorithmique. Comment la taille de l'échantillon influence-t-elle le succès de ces techniques?
Un article qui décrit cette idée est celui-ci .
Quelqu'un peut-il fournir des références pour ses commentaires? Merci.
la source
Réponses:
Fondamentalement, je pense que vous demandez intuitivement comment la taille de l'échantillon affecte les techniques d'apprentissage automatique. Ainsi, le véritable facteur qui affecte les tailles d'échantillon requises est la dimensionnalité de l'espace dans lequel les données vivent et sa rareté. Je vais vous donner deux exemples, car j'ai du mal à tout résumer en un seul ...
Disons que vous avez des données denses et que vous essayez d'ajuster un modèle en utilisant une régression. Si les données suivent un polynôme de degrén alors vous avez besoin de plus que n données afin que votre algorithme puisse trouver la bonne courbe. Sinon, cela fera un modèle trop simpliste, différent de la réalité. Bien sûr, en réalité, il y aura du bruit, vous avez donc besoin de plus de données pour créer un meilleur modèle.
Supposons que vous ayez quelques données rares, c'est-à-dire que la plupart des dimensions sont des zéros. Un tel exemple est le texte, comme les tweets ou les SMS (oubliez les livres pour l'instant), où la fréquence de chaque mot est une dimension et bien sûr les documents n'ont pas la majorité des mots du dictionnaire (espace clairsemé). Vous essayez de classer les tweets en fonction de leur sujet. Les algorithmes, comme kNN, SVM, etc., fonctionnent sur les similitudes entre les échantillons, par exemple 1-NN trouvera le tweet dans le jeu d'apprentissage le plus proche de celui que vous essayez de classer et il attribuera l'étiquette correspondante. Cependant, à cause de la rareté ... devinez quoi ... la plupart des similitudes sont nulles! Tout simplement parce que les documents ne partagent pas suffisamment de mots. Pour pouvoir faire des prédictions, vous avez besoin de suffisamment de données pour que quelque chose dans votre ensemble de formation ressemble aux documents inconnus que vous essayez de classer.
la source
Je ne comprends pas bien la question. Généralement, un échantillon plus grand donnera (par exemple) une meilleure classification. Sauf si plus grand signifie des observations de mauvaise qualité. Un petit échantillon rendra beaucoup de modèles inutiles. Par exemple, étant donné que les modèles arborescents sont une sorte d'approche «diviser pour régner», leur efficacité dépend beaucoup de la taille de l'échantillon d'apprentissage.
D'un autre côté, si vous êtes intéressé par l'apprentissage statistique dans les hautes dimensions, je pense que votre préoccupation a plus à voir avec la malédiction de la dimensionnalité. Si la taille de votre échantillon est "petite" et votre espace de fonctionnalité est d'une dimension "élevée", vos données se comporteront comme si elles étaient rares et la plupart des algorithmes auront beaucoup de mal à essayer de donner un sens à cela. Citant John A. Richards dans l'analyse d'images numériques par télédétection:
Ce qui signifierait que le problème est double, trouvant les fonctionnalités pertinentes et la taille de samp que vous mentionnez. À partir de maintenant, vous pouvez télécharger le livre gratuitement si vous le recherchez sur Google.
Une autre façon de lire votre question qui m'intéresse particulièrement serait la suivante: dans l'apprentissage supervisé, vous ne pouvez vraiment valider vos modèles sur des données de test que par validation croisée et ce qui ne l'est pas. Si l'échantillon étiqueté à partir duquel vous avez obtenu vos échantillons de train / test ne représente pas bien votre univers, les résultats de validation peuvent ne pas s'appliquer à votre univers. Comment pouvez-vous mesurer la représentativité de votre échantillon étiqueté?
la source