Quels sont les avantages des magasins de données en colonnes qui les rendent plus adaptés à la science des données et à
Quels sont les avantages des magasins de données en colonnes qui les rendent plus adaptés à la science des données et à
J'essaie de regrouper certains vecteurs avec 90 fonctionnalités avec K-means. Étant donné que cet algorithme me demande le nombre de clusters, je veux valider mon choix avec de belles mathématiques. Je m'attends à avoir de 8 à 10 grappes. Les fonctionnalités sont à l'échelle Z-score. Explication de...
Je travaille actuellement avec Python et Scikit learn à des fins de classification, et en lisant autour de GridSearch, j'ai pensé que c'était un excellent moyen d'optimiser mes paramètres d'estimateur pour obtenir les meilleurs résultats. Ma méthodologie est la suivante: Divisez mes données en...
Est-il nécessaire de standardiser vos données avant cluster? Dans l'exemple de scikit learnDBSCAN, ici, ils le font dans la ligne: X = StandardScaler().fit_transform(X) Mais je ne comprends pas pourquoi c'est nécessaire. Après tout, le clustering ne suppose aucune distribution particulière de...
Fermé . Cette question est basée sur l'opinion . Il n'accepte pas actuellement de réponses. Vous souhaitez améliorer cette question? Mettez à jour la question afin d'y répondre avec des faits et des citations en modifiant ce message . Fermé il y a 5 ans . Je ne sais pas si c'est le bon endroit...
Je suis sûr que la science des données, comme cela sera discuté dans ce forum, a plusieurs synonymes ou au moins des domaines connexes où de grandes données sont analysées. Ma question particulière concerne le Data Mining. J'ai suivi un cours de troisième cycle en Data Mining il y a quelques...
Existe-t-il un moyen d'ajouter plus d'importance aux points les plus récents lors de l'analyse des données avec xgboost?
Je lisais la solution à ce défi OTTO Kaggle et la première solution semble utiliser plusieurs transformations pour les données d'entrée X, par exemple Log (X + 1), sqrt (X + 3/8), etc. des directives générales sur le moment d'appliquer quelles transformations types à divers classificateurs? Je...
Je suis plutôt nouveau dans ce domaine et je ne peux pas dire que j'ai une compréhension complète des concepts théoriques derrière cela. J'essaie de calculer la divergence KL entre plusieurs listes de points en Python. J'utilise
Je voudrais mettre en place un serveur qui pourrait prendre en charge une équipe de science des données de la manière suivante: être un point central pour le stockage, la gestion des versions, le partage et éventuellement l'exécution des blocs-notes Jupyter. Quelques propriétés souhaitées:...
Je recherche un article détaillant les fondements mêmes de l'apprentissage profond. Idéalement comme le cours Andrew Ng pour l'apprentissage en profondeur. Savez-vous où je peux trouver
Contexte Je travaille sur un ensemble de données de séries chronologiques de relevés de compteurs d'énergie. La longueur de la série varie selon le mètre - pour certains j'ai plusieurs années, d'autres seulement quelques mois, etc. Beaucoup présentent une saisonnalité importante, et souvent...
Avec tout le brouhaha autour de la science des données, de l'apprentissage automatique et de toutes les histoires de réussite, il y a beaucoup d'attentes à la fois justifiées et exagérées des Data Scientists et de leurs modèles prédictifs. Ma question aux statisticiens, experts en apprentissage...
J'essaie de comprendre comment je peux coder des variables catégorielles en utilisant une estimation de vraisemblance, mais j'ai eu peu de succès jusqu'à présent. Toutes les suggestions seraient grandement
J'ai souvent entendu des gens dire que les raisons pour lesquelles les réseaux de neurones convolutionnels sont encore mal compris. Est-il connu que les réseaux de neurones convolutifs finissent toujours par apprendre des fonctionnalités de plus en plus sophistiquées au fur et à mesure que nous...
Cela ressemble plus à une question générale de PNL. Quelle est l'entrée appropriée pour former l'intégration d'un mot, à savoir Word2Vec? Est-ce que toutes les phrases appartenant à un article devraient être un document séparé dans un corpus? Ou chaque article doit-il être un document dans ledit...
Comment calculer la mAP (moyenne moyenne de précision) pour la tâche de détection pour les classements Pascal VOC? http://host.robots.ox.ac.uk:8080/leaderboard/displaylb.php?challengeid=11&compid=4 Il a dit - à la page 11 : http://homepages.inf.ed.ac.uk/ckiw/postscript/ijcv_voc09.pdf Précision...
Récemment, un de mes amis a été demandé si les algorithmes d'arbre de décision sont des algorithmes linéaires ou non linéaires dans une interview. J'ai essayé de chercher des réponses à cette question mais je n'ai trouvé aucune explication satisfaisante. Quelqu'un peut-il répondre et expliquer la...
J'avais l'habitude d'appliquer la validation croisée K-fold pour une évaluation robuste de mes modèles d'apprentissage automatique. Mais je suis également conscient de l'existence de la méthode d'amorçage à cet effet. Cependant, je ne vois pas la principale différence entre eux en termes...
J'ai un Pandas DataFrame comme celui-ci: df = pd.DataFrame({ 'Date': ['2017-1-1', '2017-1-1', '2017-1-2', '2017-1-2', '2017-1-3'], 'Groups': ['one', 'one', 'one', 'two', 'two'], 'data': range(1, 6)}) Date Groups data 0 2017-1-1 one 1 1 2017-1-1 one 2 2 2017-1-2 one 3 3 2017-1-2 two 4 4 2017-1-3 two...