Questions marquées «data-mining»

Une activité qui recherche des modèles dans de grands ensembles de données complexes. Il met généralement l'accent sur les techniques algorithmiques, mais peut également impliquer tout ensemble de compétences, d'applications ou de méthodologies connexes dans ce but.

29
Pourquoi xgboost est-il tellement plus rapide que sklearn GradientBoostingClassifier?

J'essaie de former un modèle d'augmentation de gradient sur plus de 50k exemples avec 100 fonctionnalités numériques. XGBClassifiergère 500 arbres en 43 secondes sur ma machine, alors qu'il GradientBoostingClassifierne gère que 10 arbres (!) en 1 minute et 2 secondes :( Je n'ai pas pris la peine...

25
Coefficient de Gini vs impureté de Gini - Arbres de décision

Le problème se réfère à la construction d'arbres de décision. Selon Wikipedia, le « coefficient de Gini » ne doit pas être confondu avec «l' impureté de Gini ». Cependant, les deux mesures peuvent être utilisées lors de la construction d'un arbre de décision - elles peuvent soutenir nos choix lors...

16
agrandir la carte thermique de Seaborn

Je crée un corr()df à partir d'un df d'origine. Le corr()df est sorti 70 X 70 et il est impossible de visualiser le heatmap ... sns.heatmap(df). Si j'essaie d'afficher le corr = df.corr(), le tableau ne correspond pas à l'écran et je peux voir toutes les corrélations. Est-ce un moyen d'imprimer...

15
Arbre de décision vs KNN

Dans quels cas est-il préférable d'utiliser un arbre de décision et dans d'autres cas un KNN? Pourquoi en utiliser un dans certains cas? Et l'autre dans des cas différents? (En regardant sa fonctionnalité, pas l'algorithme) Quelqu'un a-t-il des explications ou des références à ce...