Quelqu'un peut-il résumer pour moi avec des exemples possibles, dans quelles situations l'augmentation des données de formation améliore le système global? Quand détectons-nous que l'ajout de données d'entraînement pourrait éventuellement sur-ajuster les données et ne pas donner de bonnes précisions sur les données de test?
Il s'agit d'une question très non spécifique, mais si vous souhaitez y répondre spécifique à une situation particulière, veuillez le faire.
Réponses:
Dans la plupart des situations, plus de données sont généralement meilleures . Le surapprentissage consiste essentiellement à apprendre de fausses corrélations qui se produisent dans vos données d'entraînement, mais pas dans le monde réel. Par exemple, si vous ne considérez que mes collègues, vous pourriez apprendre à associer "nommé Matt" avec "a une barbe". C'est 100% valide (n = 4 , même!), Mais ce n'est évidemment pas vrai en général. L'augmentation de la taille de votre ensemble de données (par exemple, pour l'ensemble du bâtiment ou de la ville) devrait réduire ces corrélations parasites et améliorer les performances de votre apprenant.
Cela dit, une situation où plus de données n'aide pas - et peut même nuire - est si vos données d'entraînement supplémentaires sont bruyantes ou ne correspondent pas à ce que vous essayez de prédire. J'ai fait une fois une expérience où j'ai branché différents modèles linguistiques [*] dans un système de réservation de restaurant à commande vocale. J'ai varié la quantité de données de formation ainsi que leur pertinence: à une extrémité, j'avais une petite collection soigneusement organisée de tables de réservation de personnes, un match parfait pour mon application. À l'autre, j'avais un modèle estimé à partir d'une énorme collection de littérature classique, un modèle de langage plus précis, mais une bien pire correspondance avec l'application. À ma grande surprise, le modèle petit mais pertinent a largement surpassé le modèle grand mais moins pertinent.
Une situation surprenante, appelée double descente , se produit également lorsque la taille de l'ensemble d'apprentissage est proche du nombre de paramètres du modèle. Dans ces cas, le risque d'essai diminue d' abord la taille de l'ensemble de la formation augmente, transitoirement augmente quand un peu plus de données de formation est ajoutée, et enfin commence à diminuer à nouveau comme l'ensemble de la formation continue de croître. Ce phénomène a été signalé 25 ans dans la littérature sur les réseaux de neurones (voir Opper, 1995), mais se produit également dans les réseaux modernes ( Advani et Saxe, 2017 ). Fait intéressant, cela se produit même pour une régression linéaire, bien qu'un ajustement par SGD ( Nakkiran, 2019). Ce phénomène n'est pas encore totalement compris et présente en grande partie un intérêt théorique: je ne l'utiliserais certainement pas comme raison de ne pas collecter plus de données (bien que je puisse jouer avec la taille du jeu d'entraînement si n == p et les performances étaient inattendues) ).
la source
Une remarque: en ajoutant plus de données (lignes ou exemples, pas colonnes ou fonctionnalités), vos chances de sur-ajustement diminuent plutôt qu’augmentent.
Le résumé en deux paragraphes se présente comme suit:
Il existe des critères simplistes pour comparer la qualité des modèles. Jetez un œil par exemple à AIC ou à BIC .
Ils montrent tous deux que l'ajout de données améliore toujours les modèles, tout en ajoutant la complexité des paramètres au-delà de l'optimum, réduit la qualité du modèle.
la source
L'augmentation des données d'entraînement ajoute toujours des informations et devrait améliorer l'ajustement. La difficulté survient si vous n'évaluez ensuite les performances du classificateur que sur les données d'entraînement utilisées pour l'ajustement. Cela produit des évaluations biaisées de manière optimiste et est la raison pour laquelle une validation croisée ou un bootstrap sans fil est utilisé à la place.
la source
Idéalement, une fois que vous aurez plus d'exemples de formation, vous aurez une erreur de test plus faible (la variance de la baisse du modèle, ce qui signifie que nous sommes moins sur-ajustés), mais théoriquement, plus de données ne signifie pas toujours que vous aurez un modèle plus précis car les modèles à biais élevé ne bénéficiera pas d'exemples de formation supplémentaires .
Voir ici: Dans l'apprentissage automatique, quoi de mieux: plus de données ou de meilleurs algorithmes
Haute variance - un modèle qui représente l'entraînement bien réglé, mais qui risque de sur-adapter aux données d'entraînement bruyantes ou non représentatives.
Biais élevé - un modèle plus simple qui n'a pas tendance à surajuster, mais qui peut sous-estimer les données d'entraînement, sans capturer les régularités importantes.
la source
L'analyse du spectre aidera à l'analyse de la diversité de l'échantillon, en fait, les fausses informations seront apprises dans la modélisation, si ce n'est l'ajout de "vrais échantillons", que l'on appelle généralement le sur-ajustement. Habituellement, si les informations fournies par échantillon sont moindres, il est recommandé de fournir un échantillon plus réel pour garantir que les informations utiles peuvent être utilisées dans les tests. Bonne chance!
la source