Quelles sont les meilleures pratiques pour enregistrer, stocker et partager des modèles d'apprentissage automatique?
En Python, nous stockons généralement la représentation binaire du modèle, en utilisant pickle ou joblib. Dans mon cas, les modèles peuvent être ~ 100Mo grands. En outre, joblib peut enregistrer un modèle dans plusieurs fichiers, sauf si vous définissez compress=1
( /programming/33497314/sklearn-dumping-model-using-joblib-dumps-multiple-files-which-one-is-the- corre ).
Mais alors, si vous voulez contrôler les droits d'accès aux modèles et pouvoir utiliser des modèles à partir de différentes machines, quelle est la meilleure façon de les stocker?
J'ai quelques choix:
- Stockez-les sous forme de fichiers, puis placez-les dans un référentiel à l'aide de Git LFS
- Stockez-les dans une base de données SQL sous forme de fichiers binaires:
- Par exemple, dans Postgresql https://wiki.postgresql.org/wiki/BinaryFilesInDB
- C'est également la méthode recommandée par l'équipe SQL Server:
- https://docs.microsoft.com/en-us/sql/advanced-analytics/tutorials/walkthrough-build-and-save-the-model
- https://microsoft.github.io/sql-ml-tutorials/python/rentalprediction/step/3.html
- https://blogs.technet.microsoft.com/dataplatforminsider/2016/10/17/sql-server-as-a-machine-learning-model-management-system
- HDFS
Réponses:
Vous pouvez jeter un oeil à nexus ou dvc ou datmo .
Il y a eu récemment une présentation au Meetup de Berlin, à Zalandos AI Data Engineering Meetup.
la source
J'ai fait face à ce problème (et le suis toujours aujourd'hui) pendant de nombreuses années. Je pense vraiment que si vous ne fournissez pas d'exigences détaillées, vous ne pouvez pas vous attendre à une réponse sérieuse. Je m'explique avec des exemples de mon travail:
J'essaie régulièrement plusieurs variantes du même modèle pour trouver les paramètres qui fonctionnent le mieux. Il faut plusieurs jours pour former un seul modèle qui produit des résultats qui seront ensuite utilisés pour l'évaluation. Pour ce faire, je fais un simple vidage NumPy du modèle car il est facile de le partager entre serveurs, ou collègues. Vous devez éviter le cornichon car il stocke beaucoup plus (instances de classe, bibliothèques ...) que les seuls paramètres appris par votre modèle. L'importation du modèle sur une autre machine peut ne pas fonctionner si l'environnement python diffère légèrement.
Lorsque je pousse un modèle en production, j'ai besoin 1) d'une version du modèle que je peux charger rapidement en cas de panne de serveur (généralement un format binaire, ne stockant que ce qui est nécessaire, comme les poids d'un réseau de neurones) et 2) a moyen de conserver le modèle dans la RAM pour traiter rapidement les demandes d'API.
Pour deux raisons différentes, j'ai besoin de trois formats différents. Ensuite, plus généralement, le choix du format dépend des outils que vous utilisez. Par exemple, si vous travaillez avec TensorFlow, vous pourriez être intéressé par leur système de service TensorFlow
la source
Je voudrais suggérer 2 autres approches.
Stockez-les dans le stockage de documents (par exemple, mongoDB) - cette méthode est recommandée lorsque vos fichiers de modèle sont inférieurs à 16 Mo (ou les fragments de joblib le sont), vous pouvez alors stocker le modèle sous forme de données binaires. en outre, certaines bibliothèques ML prennent en charge l'exportation et l'importation de modèles dans json (par exemple LightGBM), ce qui en fait un candidat idéal pour le stockage dans le stockage de documents. Avantages : suivi facile de la génération du modèle et accès facile, Inconvénients : les choses deviendront compliquées si l'objet du modèle est trop grand.
Stockez votre modèle sur le stockage d'objets (par exemple Amazon S3) - cette méthode est bonne si vos modèles sont très grands, dans ce cas, vous obtenez un stockage illimité et une API assez facile, vous payez plus, c'est sûr. Avantages : espace illimité et possibilité de stocker des formats de fichiers arbitraires. Inconvénients : le coût et le fait que pour le faire correctement, vous devrez développer votre propre système de suivi.
bonne chance!
la source