Documents / exemples d'exploration de données

8

Je recherche des articles / sites Web de taille moyenne à longue sur l'exploration de données, en particulier où un ensemble de données est exploré en profondeur de la préparation des données au modèle final. Je suis particulièrement intéressé par les discussions sur l'application des algos d'apprentissage automatique et également sur la modélisation de base des données. Un exemple serait le livre de Luis Torgo «Data Mining with R». Toute suggestion serait appréciée.

screechOwl
la source
1
Êtes-vous intéressé par toutes les méthodes d'exploration de données, ou seulement une méthode en particulier?
Michelle
Je prendrai tout ce que je pourrai.
screechOwl
Je suis en quelque sorte à la recherche de choses plus spécifiques sur la façon de parcourir un ensemble de données spécifique. Certaines des descriptions de la Coupe KDD par les équipes gagnantes vont dans le sens de ce que je recherche. Fondamentalement, des récits sur la façon de traiter les problèmes spécifiques à un ensemble de données donné. L'analogie serait avec une étude de cas dans une école de commerce où une situation dans une entreprise est discutée en détail.
screechOwl

Réponses:

4

Consultez le blog Kaggle.com , où les gagnants discutent de leurs approches pour résoudre un concours d'exploration de données. Vous pouvez ensuite retourner sur le site kaggle.com pour obtenir la description et les données et l'essayer vous-même.

Galit Shmueli
la source
2

Je vous recommande des articles gratuits du Journal of Statistical Software.

Vous pouvez y trouver différentes applications d'exploration de données / apprentissage automatique ainsi que l'analyse d'exemples de données réelles. La plupart des articles concernent les packages R, vous pouvez également effectuer simultanément leurs analyses dans R. Les articles du journal incluent également le code R et les packages dans R incluent des données.

Toutes les données y sont analysées en profondeur, c'est donc une source très valable pour moi.

Miroslav Sabo
la source
1

Le package caret R comprend un ensemble de quatre vignettes qui présentent l'application de diverses tâches de préparation des données, des algorithmes d'apprentissage supervisé, la sélection des fonctionnalités et des visualisations de données à partir de quelques exemples de jeux de données bruts.

Même si l'accent est mis sur la façon de faire ces choses en utilisant les fonctionnalités fournies par le curseur lui-même, c'est toujours généralement applicable et assez bonne lecture pour les projets du monde réel.

Voici des liens directs vers les quatre vignettes PDF:

scttl
la source