Je travaille sur l'apprentissage automatique et la bioinformatique depuis un certain temps, et aujourd'hui j'ai eu une conversation avec un collègue sur les principaux problèmes généraux de l'exploration de données.
Mon collègue (qui est un expert en apprentissage automatique) a déclaré que, selon lui, l'aspect pratique sans doute le plus important de l'apprentissage automatique est de savoir si vous avez collecté suffisamment de données pour former votre modèle d'apprentissage automatique .
Cette déclaration m'a surpris, car je n'avais jamais accordé autant d'importance à cet aspect ...
J'ai ensuite cherché plus d'informations sur Internet, et j'ai trouvé ce post sur FastML.com comme règle générale que vous avez besoin d'environ 10 fois plus d'instances de données que de fonctionnalités .
Deux questions:
1 - Cette problématique est-elle vraiment particulièrement pertinente en apprentissage automatique?
2 - La règle des 10 fois fonctionne-t-elle? Existe-t-il d'autres sources pertinentes pour ce thème?
la source
Réponses:
La règle des dix fois me semble une règle empirique, mais il est vrai que les performances de votre algorithme d'apprentissage automatique peuvent diminuer si vous ne l'alimentez pas avec suffisamment de données d'entraînement.
Une façon pratique et basée sur les données de déterminer si vous avez suffisamment de données d'entraînement est de tracer une courbe d'apprentissage, comme celle de l'exemple ci-dessous:
La courbe d'apprentissage représente l'évolution des erreurs de formation et de test à mesure que vous augmentez la taille de votre ensemble de formation.
Comme vous pouvez le voir sur la partie la plus à droite de l'intrigue, les deux lignes de l'intrigue ont tendance à atteindre et à asymptoter. Par conséquent, vous finirez par atteindre un point où l'augmentation de la taille de votre ensemble de données n'aura pas d'impact sur votre modèle formé.
La distance entre l'erreur de test et les asymptotes d'erreur d'apprentissage est une représentation du sur-ajustement de votre modèle. Mais plus important encore, ce graphique indique si vous avez besoin de plus de données. Fondamentalement, si vous représentez une erreur de test et de formation pour augmenter des sous-ensembles plus importants de vos données de formation, et que les lignes ne semblent pas atteindre une asymptote, vous devez continuer à collecter plus de données.
la source
X_train, y_train: Only train subset
ouX, y: the entire dataset
la source