Questions marquées «bigdata»

Le Big Data est le terme désignant une collection d'ensembles de données si volumineux et complexes qu'il devient difficile de les traiter à l'aide d'outils de gestion de bases de données disponibles ou d'applications de traitement de données traditionnelles. Les défis incluent la capture, la conservation, le stockage, la recherche, le partage, le transfert, l'analyse et la visualisation.

48
Le langage R convient-il au Big Data?

R possède de nombreuses bibliothèques destinées à l’analyse de données (par exemple, JAGS, BUGS, ARULES, etc.), et est mentionné dans des manuels populaires tels que: J.Krusche, Doing Bayesian Data Analysis; B.Lantz, "Machine Learning avec R". J'ai observé une directive de 5 To pour qu'un jeu de...

40
Data Science en C (ou C ++)

Je suis un Rprogrammeur de langue. Je fais également partie du groupe de personnes considérées comme des scientifiques du traitement des données, mais qui appartiennent à des disciplines universitaires autres que la CS. Cela fonctionne bien dans mon rôle de Data Scientist. Cependant, en commençant...

29
Pourquoi xgboost est-il tellement plus rapide que sklearn GradientBoostingClassifier?

J'essaie de former un modèle d'augmentation de gradient sur plus de 50k exemples avec 100 fonctionnalités numériques. XGBClassifiergère 500 arbres en 43 secondes sur ma machine, alors qu'il GradientBoostingClassifierne gère que 10 arbres (!) en 1 minute et 2 secondes :( Je n'ai pas pris la peine...

16
agrandir la carte thermique de Seaborn

Je crée un corr()df à partir d'un df d'origine. Le corr()df est sorti 70 X 70 et il est impossible de visualiser le heatmap ... sns.heatmap(df). Si j'essaie d'afficher le corr = df.corr(), le tableau ne correspond pas à l'écran et je peux voir toutes les corrélations. Est-ce un moyen d'imprimer...

14
Quand les valeurs p sont-elles trompeuses?

Quelles sont les conditions de données que nous devons surveiller, où les valeurs de p ne sont peut-être pas le meilleur moyen de déterminer la signification statistique? Y a-t-il des types de problèmes spécifiques qui entrent dans cette

14
Python est-il adapté au Big Data

J'ai lu dans cet article que le langage R est adapté au Big Data que constituent les Big Data5TB , et bien qu'il fournisse un bon travail en fournissant des informations sur la faisabilité de travailler avec ce type de données, Ril fournit très peu d'informations sur Python. Je me demandais si je...