Science des données

25
Coefficient de Gini vs impureté de Gini - Arbres de décision

Le problème se réfère à la construction d'arbres de décision. Selon Wikipedia, le « coefficient de Gini » ne doit pas être confondu avec «l' impureté de Gini ». Cependant, les deux mesures peuvent être utilisées lors de la construction d'un arbre de décision - elles peuvent soutenir nos choix lors...

24
Est-ce que Random Forest est trop habillé?

J'ai lu autour de Random Forests, mais je ne peux pas vraiment trouver une réponse définitive au problème du sur-ajustement. Selon le document original de Breiman, ils ne devraient pas suremballer lors de l'augmentation du nombre d'arbres dans la forêt, mais il semble qu'il n'y ait pas de consensus...

24
Toute console R en ligne?

Je recherche une console en ligne pour la langue R. Comme j'écris le code et le serveur devrait s'exécuter et me fournir la sortie. Similaire au site Web

24
Image VM pour les projets de science des données

Comme il existe de nombreux outils disponibles pour les tâches de science des données, il est lourd d'installer tout et de créer un système parfait. Existe-t-il une image Linux / Mac OS avec Python, R et d'autres outils open source de science des données installés et disponibles pour une...

23
Comment utiliser la sortie de GridSearch?

Je travaille actuellement avec Python et Scikit learn à des fins de classification, et en lisant autour de GridSearch, j'ai pensé que c'était un excellent moyen d'optimiser mes paramètres d'estimateur pour obtenir les meilleurs résultats. Ma méthodologie est la suivante: Divisez mes données en...