Questions marquées «dataset»

Un ensemble de données est une collection de données, souvent sous forme de tableau ou de matrice. Cette balise n'est PAS destinée aux demandes de données ("où puis-je trouver un ensemble de données sur ...") -> voir OpenData

168
Jeux de données disponibles publiquement

L'un des problèmes courants de la science des données est la collecte de données provenant de diverses sources dans un format (semi-structuré) en quelque sorte nettoyé et la combinaison de métriques provenant de différentes sources pour effectuer une analyse de niveau supérieur. En regardant les...

29
Pourquoi xgboost est-il tellement plus rapide que sklearn GradientBoostingClassifier?

J'essaie de former un modèle d'augmentation de gradient sur plus de 50k exemples avec 100 fonctionnalités numériques. XGBClassifiergère 500 arbres en 43 secondes sur ma machine, alors qu'il GradientBoostingClassifierne gère que 10 arbres (!) en 1 minute et 2 secondes :( Je n'ai pas pris la peine...

16
agrandir la carte thermique de Seaborn

Je crée un corr()df à partir d'un df d'origine. Le corr()df est sorti 70 X 70 et il est impossible de visualiser le heatmap ... sns.heatmap(df). Si j'essaie d'afficher le corr = df.corr(), le tableau ne correspond pas à l'écran et je peux voir toutes les corrélations. Est-ce un moyen d'imprimer...

13
Ensembles de données comprenant les meilleures pratiques

Je suis un étudiant en master CS en data mining. Mon superviseur m'a dit une fois qu'avant d'exécuter un classificateur ou de faire quoi que ce soit avec un ensemble de données, je dois bien comprendre les données et m'assurer que les données sont propres et correctes. Mes questions: Quelles sont...

12
Tarifs des compagnies aériennes - Quelle analyse doit-on utiliser pour détecter les comportements concurrentiels de fixation des prix et les corrélations de prix?

Je veux étudier le comportement de fixation des prix des compagnies aériennes - en particulier la façon dont les compagnies aériennes réagissent aux prix des concurrents. Comme je dirais que mes connaissances sur l'analyse plus complexe sont assez limitées, j'ai principalement utilisé toutes les...