Je recherche des articles / sites Web de taille moyenne à longue sur l'exploration de données, en particulier où un ensemble de données est exploré en profondeur de la préparation des données au modèle final. Je suis particulièrement intéressé par les discussions sur l'application des algos d'apprentissage automatique et également sur la modélisation de base des données. Un exemple serait le livre de Luis Torgo «Data Mining with R». Toute suggestion serait appréciée.
r
data-mining
screechOwl
la source
la source
Réponses:
Consultez le blog Kaggle.com , où les gagnants discutent de leurs approches pour résoudre un concours d'exploration de données. Vous pouvez ensuite retourner sur le site kaggle.com pour obtenir la description et les données et l'essayer vous-même.
la source
Voici un bon point de départ:
Les 10 meilleurs algorithmes d'exploration de données
Pas grand-chose en termes de préparation des données, mais beaucoup sur les applications. Et beaucoup de bons liens vers des articles pertinents à lire.
la source
Je vous recommande des articles gratuits du Journal of Statistical Software.
Vous pouvez y trouver différentes applications d'exploration de données / apprentissage automatique ainsi que l'analyse d'exemples de données réelles. La plupart des articles concernent les packages R, vous pouvez également effectuer simultanément leurs analyses dans R. Les articles du journal incluent également le code R et les packages dans R incluent des données.
Toutes les données y sont analysées en profondeur, c'est donc une source très valable pour moi.
la source
Le package caret R comprend un ensemble de quatre vignettes qui présentent l'application de diverses tâches de préparation des données, des algorithmes d'apprentissage supervisé, la sélection des fonctionnalités et des visualisations de données à partir de quelques exemples de jeux de données bruts.
Même si l'accent est mis sur la façon de faire ces choses en utilisant les fonctionnalités fournies par le curseur lui-même, c'est toujours généralement applicable et assez bonne lecture pour les projets du monde réel.
Voici des liens directs vers les quatre vignettes PDF:
la source
En voici quelques-unes que j'ai trouvées utiles:
KDD Cup 2008 et l'atelier sur les données médicales minières
la source