Questions marquées «data-cleaning»

Le nettoyage des données est une étape préliminaire à l'analyse statistique dans laquelle l'ensemble de données est édité pour corriger les erreurs et le mettre sous une forme adaptée au traitement par un logiciel statistique.

42
Comment puis-je transformer des noms en un ensemble de données confidentielles pour le rendre anonyme, tout en préservant certaines caractéristiques des noms?

Motivation Je travaille avec des ensembles de données contenant des informations d'identification personnelle (PII) et ayant parfois besoin de partager une partie d'un ensemble de données avec des tiers, de manière à ne pas exposer les PII et ne pas engager la responsabilité de mon employeur. Notre...

34
Processus organisés pour nettoyer les données

Après avoir utilisé la science des données avec R, je me suis rendu compte que le nettoyage des mauvaises données est une partie très importante de la préparation des données pour analyse. Existe-t-il des meilleures pratiques ou processus pour nettoyer les données avant de les traiter? Si tel est...

29
Pourquoi xgboost est-il tellement plus rapide que sklearn GradientBoostingClassifier?

J'essaie de former un modèle d'augmentation de gradient sur plus de 50k exemples avec 100 fonctionnalités numériques. XGBClassifiergère 500 arbres en 43 secondes sur ma machine, alors qu'il GradientBoostingClassifierne gère que 10 arbres (!) en 1 minute et 2 secondes :( Je n'ai pas pris la peine...

11
Existe-t-il de bons modèles de langage prêts à l'emploi pour python?

Je prototype une application et j'ai besoin d'un modèle de langage pour calculer la perplexité sur certaines phrases générées. Existe-t-il un modèle de langage formé en python que je peux facilement utiliser? Quelque chose de simple comme model = LanguageModel('en') p1 = model.perplexity('This is a...

10
Quand choisir la régression linéaire ou l'arbre de décision ou la régression de forêt aléatoire? [fermé]

Fermé . Cette question doit être plus ciblée . Il n'accepte pas actuellement de réponses. Voulez-vous améliorer cette question? Mettez à jour la question pour qu'elle se concentre sur un seul problème en modifiant ce post . Fermé il y a 4 ans . Je travaille sur un projet et j'ai du mal à décider...

10
Comment faire un produit intérieur par lots dans Tensorflow?

J'ai deux tenseur a:[batch_size, dim] b:[batch_size, dim]. Je veux faire un produit intérieur pour chaque paire du lot, en générant c:[batch_size, 1], où c[i,0]=a[i,:].T*b[i,:].

10
Meilleures langues pour le calcul scientifique [fermé]

Fermé . Cette question doit être plus ciblée . Il n'accepte pas actuellement les réponses. Voulez-vous améliorer cette question? Mettez à jour la question afin qu'elle se concentre sur un problème uniquement en modifiant ce message . Fermé il y a 5 ans . Il semble que la plupart des langues...

10
Relation entre la convolution en mathématiques et CNN

J'ai lu l' explication de la convolution et je la comprends dans une certaine mesure. Quelqu'un peut-il m'aider à comprendre comment cette opération est liée à la convolution dans les réseaux neuronaux convolutionnels? Le filtre est-il une fonction gqui applique du