Science des données

23

Qu'est-ce qui rend les bases de données en colonnes adaptées à la science des données?

Quels sont les avantages des magasins de données en colonnes qui les rendent plus adaptés à la science des données et à

databases tools

23

K-signifie un comportement incohérent choisissant K avec la méthode du coude, le BIC, la variance expliquée et la silhouette

J'essaie de regrouper certains vecteurs avec 90 fonctionnalités avec K-means. Étant donné que cet algorithme me demande le nombre de clusters, je veux valider mon choix avec de belles mathématiques. Je m'attends à avoir de 8 à 10 grappes. Les fonctionnalités sont à l'échelle Z-score. Explication de...

clustering k-means

23

Comment utiliser la sortie de GridSearch?

Je travaille actuellement avec Python et Scikit learn à des fins de classification, et en lisant autour de GridSearch, j'ai pensé que c'était un excellent moyen d'optimiser mes paramètres d'estimateur pour obtenir les meilleurs résultats. Ma méthodologie est la suivante: Divisez mes données en...

machine-learning cross-validation

23

Est-il nécessaire de standardiser vos données avant le clustering?

Est-il nécessaire de standardiser vos données avant cluster? Dans l'exemple de scikit learnDBSCAN, ici, ils le font dans la ligne: X = StandardScaler().fit_transform(X) Mais je ne comprends pas pourquoi c'est nécessaire. Après tout, le clustering ne suppose aucune distribution particulière de...

python clustering clusters anomaly-detection

23

Idées de projets de science des données [fermé]

Fermé . Cette question est basée sur l'opinion . Il n'accepte pas actuellement de réponses. Vous souhaitez améliorer cette question? Mettez à jour la question afin d'y répondre avec des faits et des citations en modifiant ce message . Fermé il y a 5 ans . Je ne sais pas si c'est le bon endroit...

machine-learning bigdata dataset

22

La science des données est-elle la même que l'exploration de données?

Je suis sûr que la science des données, comme cela sera discuté dans ce forum, a plusieurs synonymes ou au moins des domaines connexes où de grandes données sont analysées. Ma question particulière concerne le Data Mining. J'ai suivi un cours de troisième cycle en Data Mining il y a quelques...

data-mining definitions

22

xgboost: donner plus d'importance aux échantillons récents

Existe-t-il un moyen d'ajouter plus d'importance aux points les plus récents lors de l'analyse des données avec xgboost?

xgboost weighted-data

22

Transformation des fonctionnalités sur les données d'entrée

Je lisais la solution à ce défi OTTO Kaggle et la première solution semble utiliser plusieurs transformations pour les données d'entrée X, par exemple Log (X + 1), sqrt (X + 3/8), etc. des directives générales sur le moment d'appliquer quelles transformations types à divers classificateurs? Je...

machine-learning feature-extraction feature-scaling

22

Calcul de la divergence KL en Python

Je suis plutôt nouveau dans ce domaine et je ne peux pas dire que j'ai une compréhension complète des concepts théoriques derrière cela. J'essaie de calculer la divergence KL entre plusieurs listes de points en Python. J'utilise

python clustering scikit-learn

22

Partage des blocs-notes Jupyter au sein d'une équipe

Je voudrais mettre en place un serveur qui pourrait prendre en charge une équipe de science des données de la manière suivante: être un point central pour le stockage, la gestion des versions, le partage et éventuellement l'exécution des blocs-notes Jupyter. Quelques propriétés souhaitées:...

software-recommendation

22

Bases de l'apprentissage en profondeur

Je recherche un article détaillant les fondements mêmes de l'apprentissage profond. Idéalement comme le cours Andrew Ng pour l'apprentissage en profondeur. Savez-vous où je peux trouver

machine-learning deep-learning

22

Comment gérer les séries chronologiques qui changent de saisonnalité ou d'autres modèles?

Contexte Je travaille sur un ensemble de données de séries chronologiques de relevés de compteurs d'énergie. La longueur de la série varie selon le mètre - pour certains j'ai plusieurs années, d'autres seulement quelques mois, etc. Beaucoup présentent une saisonnalité importante, et souvent...

data-mining clustering time-series beginner

22

Comment gérez-vous les attentes au travail?

Avec tout le brouhaha autour de la science des données, de l'apprentissage automatique et de toutes les histoires de réussite, il y a beaucoup d'attentes à la fois justifiées et exagérées des Data Scientists et de leurs modèles prédictifs. Ma question aux statisticiens, experts en apprentissage...

performance accuracy

22

Encodage de variables catégorielles à l'aide d'une estimation de vraisemblance

J'essaie de comprendre comment je peux coder des variables catégorielles en utilisant une estimation de vraisemblance, mais j'ai eu peu de succès jusqu'à présent. Toutes les suggestions seraient grandement

feature-engineering

22

Pourquoi les réseaux de neurones convolutionnels fonctionnent-ils?

J'ai souvent entendu des gens dire que les raisons pour lesquelles les réseaux de neurones convolutionnels sont encore mal compris. Est-il connu que les réseaux de neurones convolutifs finissent toujours par apprendre des fonctionnalités de plus en plus sophistiquées au fur et à mesure que nous...

machine-learning neural-network deep-learning convnet cnn

22

Quelle est une meilleure entrée pour Word2Vec?

Cela ressemble plus à une question générale de PNL. Quelle est l'entrée appropriée pour former l'intégration d'un mot, à savoir Word2Vec? Est-ce que toutes les phrases appartenant à un article devraient être un document séparé dans un corpus? Ou chaque article doit-il être un document dans ledit...

nlp word-embeddings

22

Comment calculer le mAP pour la tâche de détection du PASCAL VOC Challenge?

Comment calculer la mAP (moyenne moyenne de précision) pour la tâche de détection pour les classements Pascal VOC? http://host.robots.ox.ac.uk:8080/leaderboard/displaylb.php?challengeid=11&compid=4 Il a dit - à la page 11 : http://homepages.inf.ed.ac.uk/ckiw/postscript/ijcv_voc09.pdf Précision...

machine-learning neural-network svm computer-vision object-recognition

21

Les algorithmes d'arbre de décision sont-ils linéaires ou non linéaires

Récemment, un de mes amis a été demandé si les algorithmes d'arbre de décision sont des algorithmes linéaires ou non linéaires dans une interview. J'ai essayé de chercher des réponses à cette question mais je n'ai trouvé aucune explication satisfaisante. Quelqu'un peut-il répondre et expliquer la...

machine-learning classification decision-trees algorithms pac-learning

21

Quelle est la différence entre l'amorçage et la validation croisée?

J'avais l'habitude d'appliquer la validation croisée K-fold pour une évaluation robuste de mes modèles d'apprentissage automatique. Mais je suis également conscient de l'existence de la méthode d'amorçage à cet effet. Cependant, je ne vois pas la principale différence entre eux en termes...

cross-validation evaluation

21

Comment additionner les valeurs regroupées par deux colonnes dans les pandas

J'ai un Pandas DataFrame comme celui-ci: df = pd.DataFrame({ 'Date': ['2017-1-1', '2017-1-1', '2017-1-2', '2017-1-2', '2017-1-3'], 'Groups': ['one', 'one', 'one', 'two', 'two'], 'data': range(1, 6)}) Date Groups data 0 2017-1-1 one 1 1 2017-1-1 one 2 2 2017-1-2 one 3 3 2017-1-2 two 4 4 2017-1-3 two...

python pandas dataframe