Comme son titre l'indique, quelqu'un connaît-il un bon livre à jour qui couvre le prétraitement des données en général et en particulier les techniques de détection des valeurs aberrantes?
Le livre n'a pas besoin de se concentrer exclusivement sur cela, mais il devrait traiter de manière exhaustive les sujets susmentionnés - je ne serais pas satisfait de quelque chose qui est un point de départ et cite une liste d'articles, des explications des différentes techniques doivent apparaître dans le livre lui-même.
Techniques pour traiter les données manquantes préférables, mais pas nécessaires ...
Réponses:
Bien que spécifique à Stata, j'ai trouvé le livre de Scott Long, The Workflow of Data Analysis Using Stata , inestimable dans le domaine de la gestion et de la préparation des données. L'auteur donne de nombreux conseils utiles concernant les bonnes pratiques de gestion des données, telles que le nettoyage et l'archivage des données, la recherche de valeurs aberrantes et le traitement des données manquantes.
la source
Pour SAS, il existe les techniques de nettoyage des données de Ron Cody utilisant le logiciel SAS . Il y a un dicton sur SAS-L: "Vous ne pouvez jamais vous tromper avec un livre de Ron Cody"
la source
Si vous avez les bases (identifier les valeurs aberrantes, les valeurs manquantes, la pondération, le codage) selon le sujet, il y a beaucoup plus dans la littérature académique ordinaire à trouver. Par exemple, dans la recherche par sondage (qui est un sujet où beaucoup de choses peuvent mal tourner et sujettes à de nombreuses sources de biais), il y a beaucoup de bons articles à trouver.
Lors de la préparation d'une régression transversale régulière, les choses peuvent être moins complexes. Le problème peut par exemple être que vous supprimez trop de «valeurs aberrantes» et que vous adaptiez ainsi artificiellement votre modèle.
Je vous recommande donc également en plus d'apprendre de bonnes techniques, gardez également le bon sens à l'esprit. Assurez-vous d'appliquer les techniques de manière juste et non aveugle. Quant à la discussion du logiciel dans les autres réponses. Je pense que SPSS n'est pas mauvais pour la préparation des données (j'ai également entendu de bonnes choses à propos de SAS) en fonction de la taille de votre ensemble de données. Les menus déroulants sont très intuitifs.
Mais comme réponse directe à votre question, la littérature académique peut être ou non une très bonne source pour la préparation de vos données selon le sujet et l'analyse.
la source