Quel est l'impact de l'augmentation des données de formation sur la précision globale du système?

16

Quelqu'un peut-il résumer pour moi avec des exemples possibles, dans quelles situations l'augmentation des données de formation améliore le système global? Quand détectons-nous que l'ajout de données d'entraînement pourrait éventuellement sur-ajuster les données et ne pas donner de bonnes précisions sur les données de test?

Il s'agit d'une question très non spécifique, mais si vous souhaitez y répondre spécifique à une situation particulière, veuillez le faire.

machine-learning classification dataset precision-recall madCode
la source

Je me demande simplement - s'agit-il de savoir si une répartition 50-50 en train / test est meilleure que disons 75-25?

Probabilogic

22

Dans la plupart des situations, plus de données sont généralement meilleures . Le surapprentissage consiste essentiellement à apprendre de fausses corrélations qui se produisent dans vos données d'entraînement, mais pas dans le monde réel. Par exemple, si vous ne considérez que mes collègues, vous pourriez apprendre à associer "nommé Matt" avec "a une barbe". C'est 100% valide ( $n=4$ , même!), Mais ce n'est évidemment pas vrai en général. L'augmentation de la taille de votre ensemble de données (par exemple, pour l'ensemble du bâtiment ou de la ville) devrait réduire ces corrélations parasites et améliorer les performances de votre apprenant.

Cela dit, une situation où plus de données n'aide pas - et peut même nuire - est si vos données d'entraînement supplémentaires sont bruyantes ou ne correspondent pas à ce que vous essayez de prédire. J'ai fait une fois une expérience où j'ai branché différents modèles linguistiques [*] dans un système de réservation de restaurant à commande vocale. J'ai varié la quantité de données de formation ainsi que leur pertinence: à une extrémité, j'avais une petite collection soigneusement organisée de tables de réservation de personnes, un match parfait pour mon application. À l'autre, j'avais un modèle estimé à partir d'une énorme collection de littérature classique, un modèle de langage plus précis, mais une bien pire correspondance avec l'application. À ma grande surprise, le modèle petit mais pertinent a largement surpassé le modèle grand mais moins pertinent.

Une situation surprenante, appelée double descente , se produit également lorsque la taille de l'ensemble d'apprentissage est proche du nombre de paramètres du modèle. Dans ces cas, le risque d'essai diminue d' abord la taille de l'ensemble de la formation augmente, transitoirement augmente quand un peu plus de données de formation est ajoutée, et enfin commence à diminuer à nouveau comme l'ensemble de la formation continue de croître. Ce phénomène a été signalé 25 ans dans la littérature sur les réseaux de neurones (voir Opper, 1995), mais se produit également dans les réseaux modernes ( Advani et Saxe, 2017 ). Fait intéressant, cela se produit même pour une régression linéaire, bien qu'un ajustement par SGD ( Nakkiran, 2019). Ce phénomène n'est pas encore totalement compris et présente en grande partie un intérêt théorique: je ne l'utiliserais certainement pas comme raison de ne pas collecter plus de données (bien que je puisse jouer avec la taille du jeu d'entraînement si n == p et les performances étaient inattendues) ).

P (w_{n} ='quick', w_{n + 1} ='brown', w_{n + 2} ='fox')

$P(w_n = \textrm{'quick', } w_{n+1} = \textrm{'brown', } w_{n+2} = \textrm{'fox'})$

Matt Krause
la source

12

Une remarque: en ajoutant plus de données (lignes ou exemples, pas colonnes ou fonctionnalités), vos chances de sur-ajustement diminuent plutôt qu’augmentent.

Le résumé en deux paragraphes se présente comme suit:

L'ajout de plus d'exemples ajoute de la diversité. Cela diminue l'erreur de généralisation car votre modèle devient plus général grâce à la formation sur plus d'exemples.
L'ajout de fonctionnalités d'entrée ou de colonnes (à un nombre fixe d'exemples) peut augmenter le surajustement, car davantage de fonctionnalités peuvent être non pertinentes ou redondantes et il y a plus de possibilités de compliquer le modèle afin de s'adapter aux exemples à portée de main.

Il existe des critères simplistes pour comparer la qualité des modèles. Jetez un œil par exemple à AIC ou à BIC .

Ils montrent tous deux que l'ajout de données améliore toujours les modèles, tout en ajoutant la complexité des paramètres au-delà de l'optimum, réduit la qualité du modèle.

arielf
la source

1

L'augmentation des données d'entraînement ajoute toujours des informations et devrait améliorer l'ajustement. La difficulté survient si vous n'évaluez ensuite les performances du classificateur que sur les données d'entraînement utilisées pour l'ajustement. Cela produit des évaluations biaisées de manière optimiste et est la raison pour laquelle une validation croisée ou un bootstrap sans fil est utilisé à la place.

Michael R. Chernick
la source

1

Idéalement, une fois que vous aurez plus d'exemples de formation, vous aurez une erreur de test plus faible (la variance de la baisse du modèle, ce qui signifie que nous sommes moins sur-ajustés), mais théoriquement, plus de données ne signifie pas toujours que vous aurez un modèle plus précis car les modèles à biais élevé ne bénéficiera pas d'exemples de formation supplémentaires .

Voir ici: Dans l'apprentissage automatique, quoi de mieux: plus de données ou de meilleurs algorithmes

Haute variance - un modèle qui représente l'entraînement bien réglé, mais qui risque de sur-adapter aux données d'entraînement bruyantes ou non représentatives.

Biais élevé - un modèle plus simple qui n'a pas tendance à surajuster, mais qui peut sous-estimer les données d'entraînement, sans capturer les régularités importantes.

Serendipity
la source

-1

L'analyse du spectre aidera à l'analyse de la diversité de l'échantillon, en fait, les fausses informations seront apprises dans la modélisation, si ce n'est l'ajout de "vrais échantillons", que l'on appelle généralement le sur-ajustement. Habituellement, si les informations fournies par échantillon sont moindres, il est recommandé de fournir un échantillon plus réel pour garantir que les informations utiles peuvent être utilisées dans les tests. Bonne chance!

user162580
la source

3

Il est difficile de donner un sens à cette réponse. Peut-être a-t-il été traduit automatiquement d'une autre langue? Existe-t-il un moyen de l'examiner et de le modifier afin qu'il transmette les idées que vous souhaitez partager avec nous?

whuber

Je ne comprends pas votre réponse.

user162580

3

Il semble que nous ayons un problème de langue: les mots que vous avez publiés n'ont pas de sens en anglais. Pouvez-vous les changer pour qu'ils aient un sens?

whuber

Quel est l'impact de l'augmentation des données de formation sur la précision globale du système?

Réponses: