Science des données

40
Data Science en C (ou C ++)

Je suis un Rprogrammeur de langue. Je fais également partie du groupe de personnes considérées comme des scientifiques du traitement des données, mais qui appartiennent à des disciplines universitaires autres que la CS. Cela fonctionne bien dans mon rôle de Data Scientist. Cependant, en commençant...

39
Quand utiliser quoi - Machine Learning [fermé]

Récemment, dans une classe d'apprentissage automatique du professeur Oriol Pujol à UPC / Barcelone, il a décrit les algorithmes, principes et concepts les plus courants à utiliser pour une large gamme de tâches liées à l'apprentissage automatique. Ici, je les partage avec vous et vous demande:...

37
Les scientifiques de données utilisent-ils Excel?

Je me considérerais comme un compagnon scientifique des données. Comme beaucoup (je pense), j'ai réalisé mes premiers graphiques et mes premières agrégations au lycée et au collège, en utilisant Excel. Après mes études universitaires, mes études supérieures et environ 7 ans d'expérience...

37
Comment interpréter la sortie d'importance XGBoost?

J'ai couru un modèle xgboost. Je ne sais pas exactement comment interpréter le résultat de xgb.importance. Quelle est la signification de gain, couverture et fréquence et comment les interprète-t-on? De plus, que signifient Split, RealCover et RealCover%? J'ai quelques paramètres supplémentaires...

35
Que pensez-vous des certifications Data Science?

J'ai maintenant vu deux programmes de certification en science des données, celui de John Hopkins disponible à Coursera et celui de Cloudera . Je suis sûr qu'il y en a d'autres là-bas. L'ensemble de classes de John Hopkins est axé sur R en tant qu'ensemble d'outils, mais couvre un éventail de...

35
Explication de la perte d'entropie croisée

Supposons que je construise un NN pour la classification. La dernière couche est une couche dense avec activation softmax. J'ai cinq classes différentes à classer. Supposons que pour un seul exemple de formation, le true labelsoit [1 0 0 0 0]alors que les prédictions soient [0.1 0.5 0.1 0.1 0.2]....

34
Processus organisés pour nettoyer les données

Après avoir utilisé la science des données avec R, je me suis rendu compte que le nettoyage des mauvaises données est une partie très importante de la préparation des données pour analyse. Existe-t-il des meilleures pratiques ou processus pour nettoyer les données avant de les traiter? Si tel est...

33
Multi GPU en keras

Comment pouvez-vous programmer dans la bibliothèque keras (ou tensorflow) pour partitionner la formation sur plusieurs GPU? Supposons que vous vous trouviez dans une instance Amazon ec2 comportant 8 GPU et que vous souhaitiez toutes les utiliser pour vous entraîner plus rapidement, mais que votre...