Taille de l'échantillon par rapport à la prédiction dans la classification et la régression

8

En ce qui concerne les tests d'hypothèse, l'estimation de la taille des échantillons se fait par la puissance, et il est intuitif que l'augmentation de la même taille augmente la précision des effets estimés. Mais qu'en est-il de la prédiction pour la classification et la régression? Quels aspects du problème de prédiction sont influencés par la taille de l'échantillon autre que l'estimation de l'erreur de généralisation ou RMSE pour la régression.

En somme, les propriétés qui contribuent à la puissance dans le cadre du test d'hypothèse diffèrent de celles qui permettent une prédiction réussie par régression pénalisée / exploration de données / modélisation algorithmique. Comment la taille de l'échantillon influence-t-elle le succès de ces techniques?

Un article qui décrit cette idée est celui-ci .

Quelqu'un peut-il fournir des références pour ses commentaires? Merci.

julieth
la source
2
Vous ne savez pas vraiment ce que vous cherchez ici, ce n'est pas le moindre de ces devoirs? Une chose qui ne figure pas dans les formules est que les ensembles de données vraiment volumineux peuvent entraîner de plus gros problèmes d'hétérogénéité, de qualité des données et de valeurs manquantes. Les arguments sont visibles dans les discussions sur les mérites relatifs des recensements nationaux par rapport à des enquêtes par sondage mieux contrôlées.
Nick Cox
1
J'ai ajouté quelques détails. Je ne suis pas allé aux études supérieures depuis des années, donc pas de devoirs!
2013
"problèmes plus importants d'hétérogénéité, de qualité des données et de valeurs manquantes": si le petit ensemble de données est plus homogène, la généralisation (extrapolation aux situations couvertes par le grand ensemble de données) est discutable / mauvaise. En d'autres termes: vous pouvez vous adapter au petit ensemble de données. (Sauf si grand implique un compromis par rapport à la qualité [signal])
cbeleites mécontents de SX
Il y a quelques mesures à considérer, notamment l'erreur, la généralisation, la parcimonie, les opérations de calcul requises et la taille de la mémoire requise. Quand je regarde cela, je vois deux valeurs familières: la performance et le coût. La généralisation, la forme et l'erreur concernent les performances post-ajustement. Ce sont les gains. Le temps de calcul, la complexité du code, la taille de la mémoire sont à quel point il est difficile de coder, de déboguer et d'exécuter les données à travers le modèle. Ils concernent le coût. Quand on pense à "l'influence", toute influence mène à ces deux mesures, ou elle n'existe pas.
EngrStudent

Réponses:

1

Fondamentalement, je pense que vous demandez intuitivement comment la taille de l'échantillon affecte les techniques d'apprentissage automatique. Ainsi, le véritable facteur qui affecte les tailles d'échantillon requises est la dimensionnalité de l'espace dans lequel les données vivent et sa rareté. Je vais vous donner deux exemples, car j'ai du mal à tout résumer en un seul ...

  • Disons que vous avez des données denses et que vous essayez d'ajuster un modèle en utilisant une régression. Si les données suivent un polynôme de degrén alors vous avez besoin de plus que ndonnées afin que votre algorithme puisse trouver la bonne courbe. Sinon, cela fera un modèle trop simpliste, différent de la réalité. Bien sûr, en réalité, il y aura du bruit, vous avez donc besoin de plus de données pour créer un meilleur modèle.

  • Supposons que vous ayez quelques données rares, c'est-à-dire que la plupart des dimensions sont des zéros. Un tel exemple est le texte, comme les tweets ou les SMS (oubliez les livres pour l'instant), où la fréquence de chaque mot est une dimension et bien sûr les documents n'ont pas la majorité des mots du dictionnaire (espace clairsemé). Vous essayez de classer les tweets en fonction de leur sujet. Les algorithmes, comme kNN, SVM, etc., fonctionnent sur les similitudes entre les échantillons, par exemple 1-NN trouvera le tweet dans le jeu d'apprentissage le plus proche de celui que vous essayez de classer et il attribuera l'étiquette correspondante. Cependant, à cause de la rareté ... devinez quoi ... la plupart des similitudes sont nulles! Tout simplement parce que les documents ne partagent pas suffisamment de mots. Pour pouvoir faire des prédictions, vous avez besoin de suffisamment de données pour que quelque chose dans votre ensemble de formation ressemble aux documents inconnus que vous essayez de classer.

iliasfl
la source
0

Je ne comprends pas bien la question. Généralement, un échantillon plus grand donnera (par exemple) une meilleure classification. Sauf si plus grand signifie des observations de mauvaise qualité. Un petit échantillon rendra beaucoup de modèles inutiles. Par exemple, étant donné que les modèles arborescents sont une sorte d'approche «diviser pour régner», leur efficacité dépend beaucoup de la taille de l'échantillon d'apprentissage.

D'un autre côté, si vous êtes intéressé par l'apprentissage statistique dans les hautes dimensions, je pense que votre préoccupation a plus à voir avec la malédiction de la dimensionnalité. Si la taille de votre échantillon est "petite" et votre espace de fonctionnalité est d'une dimension "élevée", vos données se comporteront comme si elles étaient rares et la plupart des algorithmes auront beaucoup de mal à essayer de donner un sens à cela. Citant John A. Richards dans l'analyse d'images numériques par télédétection:

Réduction et séparabilité des fonctionnalités

Le coût de la classification augmente avec le nombre d'entités utilisées pour décrire les vecteurs pixels dans l'espace multispectral - c'est-à-dire avec le nombre de bandes spectrales associées à un pixel. Pour les classificateurs tels que les procédures de parallélépipède et de distance minimale, il s'agit d'une augmentation linéaire avec les caractéristiques; cependant, pour la classification du maximum de vraisemblance, la procédure la plus souvent préférée, l'augmentation des coûts avec les caractéristiques est quadratique. Par conséquent, il est judicieux sur le plan économique de veiller à ne pas utiliser plus de fonctionnalités que nécessaire lors de l'exécution d'une classification. La section 8.2.6 attire l'attention sur le nombre de pixels d'apprentissage nécessaires pour garantir l'obtention d'estimations fiables des signatues de classe. En particulier, le nombre de pixels d'apprentissage requis augmente avec le nombre de bandes ou de canaux dans les données. Pour les données à haute dimensionnalité, telle que celle des spectromètres imageurs, cette exigence représente un défi dans la pratique, il est donc important de maintenir le nombre de fonctionnalités utilisées dans une classification aussi petit que possible si des résultats fiables sont attendus d'un nombre abordable de pixels d'entraînement. Les caractéristiques qui ne favorisent pas la discrimination, en contribuant peu à la séparabilité des classes spectrales, devraient être rejetées. La suppression des fonctionnalités les moins efficaces est appelée sélection des fonctionnalités, ce qui constitue une forme de réduction des fonctionnalités. L'autre consiste à transformer le vecteur pixel en un nouvel ensemble de coordonnées dans lequel les caractéristiques qui peuvent être supprimées sont rendues plus évidentes. Les deux procédures sont examinées en détail dans ce chapitre. il est donc important de maintenir le nombre de fonctionnalités utilisées dans une classification aussi peu que possible pour obtenir des résultats fiables à partir d'un nombre abordable de pixels d'entraînement. Les caractéristiques qui ne favorisent pas la discrimination, en contribuant peu à la séparabilité des classes spectrales, devraient être rejetées. La suppression des fonctionnalités les moins efficaces est appelée sélection des fonctionnalités, ce qui constitue une forme de réduction des fonctionnalités. L'autre consiste à transformer le vecteur pixel en un nouvel ensemble de coordonnées dans lequel les caractéristiques qui peuvent être supprimées sont rendues plus évidentes. Les deux procédures sont examinées en détail dans ce chapitre. il est donc important de maintenir le nombre de fonctionnalités utilisées dans une classification aussi peu que possible pour obtenir des résultats fiables à partir d'un nombre abordable de pixels d'entraînement. Les caractéristiques qui ne favorisent pas la discrimination, en contribuant peu à la séparabilité des classes spectrales, devraient être rejetées. La suppression des fonctionnalités les moins efficaces est appelée sélection des fonctionnalités, ce qui constitue une forme de réduction des fonctionnalités. L'autre consiste à transformer le vecteur pixel en un nouvel ensemble de coordonnées dans lequel les caractéristiques qui peuvent être supprimées sont rendues plus évidentes. Les deux procédures sont examinées en détail dans ce chapitre. doit être jeté. La suppression des fonctionnalités les moins efficaces est appelée sélection des fonctionnalités, ce qui constitue une forme de réduction des fonctionnalités. L'autre consiste à transformer le vecteur pixel en un nouvel ensemble de coordonnées dans lequel les caractéristiques qui peuvent être supprimées sont rendues plus évidentes. Les deux procédures sont examinées en détail dans ce chapitre. doit être jeté. La suppression des fonctionnalités les moins efficaces est appelée sélection des fonctionnalités, ce qui constitue une forme de réduction des fonctionnalités. L'autre consiste à transformer le vecteur pixel en un nouvel ensemble de coordonnées dans lequel les caractéristiques qui peuvent être supprimées sont rendues plus évidentes. Les deux procédures sont examinées en détail dans ce chapitre.

Ce qui signifierait que le problème est double, trouvant les fonctionnalités pertinentes et la taille de samp que vous mentionnez. À partir de maintenant, vous pouvez télécharger le livre gratuitement si vous le recherchez sur Google.

Une autre façon de lire votre question qui m'intéresse particulièrement serait la suivante: dans l'apprentissage supervisé, vous ne pouvez vraiment valider vos modèles sur des données de test que par validation croisée et ce qui ne l'est pas. Si l'échantillon étiqueté à partir duquel vous avez obtenu vos échantillons de train / test ne représente pas bien votre univers, les résultats de validation peuvent ne pas s'appliquer à votre univers. Comment pouvez-vous mesurer la représentativité de votre échantillon étiqueté?

JEquihua
la source
les strates sont un bon moyen de mesurer la représentativité. Les inclure dans un modèle mixte avec variance estimée par REML est un bon moyen d'incorporer l'incertitude sur les strates absentes dans vos prévisions.
probabilitéislogic
Totalement hors sujet, pouvez-vous recommander une bibliographie sur Edwin Jaynes et "la probabilité comme logique étendue"? Salutations!
JEquihua
ce site Web est un bon point de départ
probabilislogic