Bons livres couvrant le prétraitement des données et les techniques de détection des valeurs aberrantes

11

Comme son titre l'indique, quelqu'un connaît-il un bon livre à jour qui couvre le prétraitement des données en général et en particulier les techniques de détection des valeurs aberrantes?

Le livre n'a pas besoin de se concentrer exclusivement sur cela, mais il devrait traiter de manière exhaustive les sujets susmentionnés - je ne serais pas satisfait de quelque chose qui est un point de départ et cite une liste d'articles, des explications des différentes techniques doivent apparaître dans le livre lui-même.

Techniques pour traiter les données manquantes préférables, mais pas nécessaires ...

em70
la source
Pourriez-vous nous dire quel type de données (domaine scientifique ou technique de mesure) vous consultez?
cbeleites mécontents de SX
Données collectées auprès des internautes (ne peut être plus précis). Sont inclus les horodatages (bien que les données ne soient pas strictement liées au temps, du moins intuitivement), les attributs catégoriels et les attributs continus. Les valeurs aberrantes peuvent être causées par d'innombrables raisons, y compris robots Web, utilisateurs malveillants et bien d'autres sources. Les données sont également assez volumineuses (Go au format CSV, plusieurs millions d'entrées)
em70
Pour moi, c'est assez précis: pas besoin de vous ennuyer avec le prétraitement des ensembles de données chimiques ou spectroscopiques ...
cbeleites mécontent de SX

Réponses:

3

Bien que spécifique à Stata, j'ai trouvé le livre de Scott Long, The Workflow of Data Analysis Using Stata , inestimable dans le domaine de la gestion et de la préparation des données. L'auteur donne de nombreux conseils utiles concernant les bonnes pratiques de gestion des données, telles que le nettoyage et l'archivage des données, la recherche de valeurs aberrantes et le traitement des données manquantes.

Ciarán
la source
2
J'aime aussi ce livre, mais je suis un utilisateur de Stata teint dans la laine en ce qui concerne la gestion des données. Bien que je ne sois pas d'accord, d'autres sur cette liste ont fait valoir que c'est trop spécifique à Stata pour être utile, donc mettez en garde l'empereur / le lecteur.
Dimitriy V. Masterov
Très stata-ish de ce que je recueille, et je ne suis pas familier avec stata, et cela ne serait pas utile pour ce projet même si j'étais (les données sont trop volumineuses, en utilisant différentes technologies)
em70
Le livre est en effet très idiosyncrasique. Les techniques particulières de traitement des données (et en particulier des métadonnées) sont spécifiques à Stata, mais les idées générales sont transférables entre plates-formes. Je suis surpris qu'avec le ratio d'environ 20 livres Stata / 100 livres R sur le marché, il n'y a pas de livres comparables sur l'organisation du flux de travail dans R - ce dernier est-il impossible? La plus grande quantité de mémoire dont je me souviens très bien avoir alloué à Stata était de 48 Go sur une machine de 64 Go - c'est si la taille importe. Si vous devez manipuler des objets de structure très différente, vous voudrez le faire dans R, pas dans Stata.
StasK
0

Pour SAS, il existe les techniques de nettoyage des données de Ron Cody utilisant le logiciel SAS . Il y a un dicton sur SAS-L: "Vous ne pouvez jamais vous tromper avec un livre de Ron Cody"

Peter Flom - Réintégrer Monica
la source
Je crains que SAS ne soit pas l'outil de choix dans mon environnement et je ne le connais pas. De plus, je recherche une approche plutôt qu'un livre de cuisine. Disons que je suis à la recherche de quelque chose de plus mathématique et de modélisation.
em70
0

Si vous avez les bases (identifier les valeurs aberrantes, les valeurs manquantes, la pondération, le codage) selon le sujet, il y a beaucoup plus dans la littérature académique ordinaire à trouver. Par exemple, dans la recherche par sondage (qui est un sujet où beaucoup de choses peuvent mal tourner et sujettes à de nombreuses sources de biais), il y a beaucoup de bons articles à trouver.

Lors de la préparation d'une régression transversale régulière, les choses peuvent être moins complexes. Le problème peut par exemple être que vous supprimez trop de «valeurs aberrantes» et que vous adaptiez ainsi artificiellement votre modèle.

Je vous recommande donc également en plus d'apprendre de bonnes techniques, gardez également le bon sens à l'esprit. Assurez-vous d'appliquer les techniques de manière juste et non aveugle. Quant à la discussion du logiciel dans les autres réponses. Je pense que SPSS n'est pas mauvais pour la préparation des données (j'ai également entendu de bonnes choses à propos de SAS) en fonction de la taille de votre ensemble de données. Les menus déroulants sont très intuitifs.

Mais comme réponse directe à votre question, la littérature académique peut être ou non une très bonne source pour la préparation de vos données selon le sujet et l'analyse.

C. Pieters
la source