Je suis sur le point d'obtenir mon diplôme de Master et j'ai appris l'apprentissage automatique ainsi que des projets de recherche avec lui. Je m'interroge sur les meilleures pratiques de l'industrie lors de l'exécution de tâches d'apprentissage automatique avec des Big Datasets (comme 100 Go ou To). Appréciez si vos collègues scientifiques des données peuvent partager leur expérience. Voici mes questions:
- De toute évidence, les très grands ensembles de données prennent plus de temps à s'entraîner (cela peut prendre des jours ou des semaines). Plusieurs fois, nous devons former différents modèles (SVM, Neural Network, etc.) pour comparer et trouver un meilleur modèle de performance. Je soupçonne que, dans les projets industriels, nous voulons que les résultats soient aussi rapides que possible mais produisent les meilleures performances. Y a-t-il des conseils pour réduire le temps de formation et de test? Si vous recommandez de sous-ensemble de l'ensemble de données, je serai intéressé d'apprendre comment mieux sous-ensemble l'ensemble de données pour couvrir tout ou la majorité des scénarios de l'ensemble de données.
- Nous savons que la validation croisée est meilleure car elle peut réduire le sur-ajustement. Cependant, la validation croisée prend également du temps à s'entraîner et le modèle formé à la validation croisée peut ne pas être implémenté directement (en parlant de l'expérience de python sklearn: j'ai besoin de former à nouveau le modèle avec l'ensemble de données après les tests de validation croisée pour qu'il soit implémenté). Faites-vous normalement la validation croisée dans vos projets de Big Data ou vous débrouillez-vous avec la division train-test?
Appréciez la rétroaction.
La question est, combien de données faut-il pour saturer votre modèle? Pour déterminer cela, vous pouvez tracer des courbes d'apprentissage avec différentes quantités de données, peut-être en augmentant / diminuant la taille d'un facteur constant. Si la formation sur toutes les données n'est pas possible, la courbe d'apprentissage peut vous aider à faire un compromis éclairé.
La saturation du modèle entre également en jeu avec la validation croisée. Si vous n'êtes pas près de la saturation, l'utilisation d'un petit nombre de plis vous donnera des performances pessimistes car vous entraînerez votre modèle sur moins de données qu'il ne peut en utiliser.
Enfin et inversement, vous pouvez utiliser un modèle plus complexe au lieu de «redimensionner» les données en fonction du modèle.
Bienvenue sur DataScience.SE.
la source