Qu'est-ce qu'un processus d'analyse de données pratiquement bon?

15

J'aimerais connaître ou avoir des références sur le processus d'analyse que la plupart des analystes de données statistiques passent par chaque projet d'analyse de données.

Si je fais une "liste", pour terminer un projet d'analyse de données, un analyste doit:

  1. recueillir d'abord les exigences du projet,
  2. planifier / concevoir son analyse de données sur la base de ces exigences avant
  3. en fait le prétraitement des données,
  4. exécuter l'analyse des données et
  5. rédiger un rapport basé sur ses résultats d'analyse.

Pour cette question, je suis intéressé par plus de détails sur l'étape 2. Mais je comprends que ce n'est pas pratiquement clair car l'analyste pourrait avoir à changer son plan ou sa conception en fonction de la sortie de l'analyse des données. Y a-t-il une référence à ce sujet?

Tae-Sung Shin
la source

Réponses:

17

Mon «plan» ou «liste» préféré est le document de Scott Emerson Organizing Your Approach to a Data Analysis .

Remarque: les deux dernières pages se trouvent sous la rubrique "Exigences générales pour l'examen appliqué au doctorat", mais les conseils qui y sont généralisés s'appliquent à tout problème d'analyse.


la source
J'adore chaque partie du document. Merci pour la précieuse référence.
Tae-Sung Shin
5

J'ai trouvé The Workflow of Data Analysis Using Stata être un bon livre, en particulier (mais pas seulement) en tant qu'utilisateur Stata. J'ai trouvé beaucoup de points de désaccord, mais même cela a aidé à clarifier pourquoi je fais les choses de certaines façons.

Dimitriy V. Masterov
la source
4
+1 mais, caveat emptor : ce livre n'a de valeur que si vous êtes un utilisateur de Stata. Je n'utilise pas Stata (en fait je ne l'ai jamais fait). D'un autre côté, j'aime Long, j'ai donc vérifié cela dans la bibliothèque. Je suis sûr qu'il y a beaucoup de bonnes informations pour tout le monde, mais elles sont si étroitement liées à l'utilisation de Stata qu'il est impossible d'extraire les informations générales du domaine.
gung - Rétablir Monica
2

CRISP-DM , inventé par la société SPSS (qui appartient maintenant à IBM) est un acronyme pour le processus d'exploration de données, qui est le même que pour "analyse de données". SAS a un processus similaire appelé SEMMA .

Galit Shmueli
la source