Dans de nombreuses applications d'apprentissage automatique, les méthodes dites d'augmentation des données ont permis de construire de meilleurs modèles. Par exemple, supposons un ensemble de formation de images de chats et de chiens. En tournant, en miroir, en ajustant le contraste, etc., il est possible de générer des images supplémentaires à partir des images originales.
Dans le cas des images, l'augmentation des données est relativement simple. Cependant, supposons (par exemple) que l'on dispose d'un ensemble d'apprentissage de échantillons et de quelques centaines de variables continues qui représentent différentes choses. L'augmentation des données ne semble plus aussi intuitive. Que pourrait-on faire dans un tel cas?
Réponses:
Je comprends que cette question implique à la fois la construction de fonctionnalités et le traitement de la richesse des fonctionnalités que vous avez déjà + va construire, par rapport à vos observations (
N << P
).Construction d'entités
En développant le commentaire de @ yasin.yazici, quelques façons possibles d'augmenter les données seraient:
Je suis sûr qu'il en manque beaucoup d'autres.
Sélection des fonctionnalités / réduction de dimensionnalité
Vous pouvez réduire la dimensionnalité avec des techniques telles que PCA (bien que peut-être pas après avoir augmenté vos données avec des variables PCA). Alternativement, vous pouvez utiliser des algorithmes qui effectuent la sélection des fonctionnalités pour vous, tels que le lasso, la forêt aléatoire, etc.
la source
J'ai fait face à un problème similaire où je voulais augmenter les données numériques non étiquetées. J'ai augmenté les données de la manière suivante: (disons que j'ai un ensemble de données de taille 100 * 10.)
la source