Quelles étapes initiales dois-je utiliser pour comprendre les grands ensembles de données et quels outils dois-je utiliser?

10

Avertissement: je suis un débutant complet en matière d'apprentissage automatique, mais désireux d'apprendre.

J'ai un grand ensemble de données et j'essaie de trouver un modèle. Il peut / peut ne pas y avoir de corrélation entre les données, soit avec des variables connues, soit avec des variables contenues dans les données mais que je n'ai pas encore réalisé sont en fait des variables / pertinentes.

Je suppose que ce serait un problème familier dans le monde de l'analyse de données, j'ai donc quelques questions:

  1. La `` solution miracle '' serait de jeter toutes ces données dans un programme d'analyse des statistiques / données et pour cela de croquer les données à la recherche de modèles connus / inconnus essayant de trouver des relations. SPSS est-il adapté ou existe-t-il d'autres applications qui pourraient être mieux adaptées?

  2. Dois-je apprendre une langue comme R et comprendre comment traiter manuellement les données. Cela ne serait-il pas difficile de trouver des relations car je devrais spécifier manuellement quoi et comment analyser les données?

  3. Comment un mineur de données professionnel aborderait-il ce problème et quelles mesures prendrait-il?

user3791372
la source

Réponses:

11

Je vais essayer de répondre à vos questions, mais avant, je voudrais noter que l'utilisation du terme «grand ensemble de données» est trompeuse, car «grand» est un concept relatif . Vous devez fournir plus de détails. Si vous traitez avec des données d'enchères , ce fait affectera très probablement la sélection des outils , approches et algorithmes préférés pour votre analyse de données . J'espère que mes réflexions suivantes sur l'analyse des données répondront à vos sous-questions. Veuillez noter que la numérotation de mes points ne correspond pas à la numérotation de vos sous-questions. Cependant, je pense qu'il reflète mieux le flux de travail général d' analyse des données , au moins, comment je le comprends.

1) Premièrement, je pense que vous devez avoir au moins une sorte de modèle conceptuel en tête (ou, mieux, sur papier). Ce modèle devrait vous guider dans votre analyse exploratoire des données (EDA) . La présence d'une variable dépendante (DV) dans le modèle signifie que dans votre phase d' apprentissage automatique (ML) plus tard dans l'analyse, vous traiterez ce que l'on appelle un ML supervisé, par opposition au ML non supervisé en l'absence d'un DV identifié.

2) Deuxièmement, l' EDA est un élément crucial. À mon humble avis, l'EDA devrait inclure plusieurs itérations de production de statistiques descriptives et de visualisation des données , au fur et à mesure que vous affinez votre compréhension des données. Non seulement cette phase vous donnera des informations précieuses sur vos ensembles de données, mais elle alimentera votre prochaine phase importante - le nettoyage et la transformation des données . Le simple fait de jeter vos données brutes dans un logiciel statistique ne donnera pas grand-chose - pour toute analyse statistique valide , les données doivent être propres, correctes et cohérentes . C'est souvent la partie la plus longue et la plus laborieuse, mais absolument nécessaire. Pour plus de détails sur ce sujet, lisez ces beaux articles:http://vita.had.co.nz/papers/tidy-data.pdf (par Hadley Wickham) et http://cran.r-project.org/doc/contrib/de_Jonge+van_der_Loo-Introduction_to_data_cleaning_with_R.pdf (par Edwin de Jonge et Mark van der Loo).

3) Maintenant, comme vous l'espérez, avec l' EDA ainsi que le nettoyage et la transformation des données , vous êtes prêt à commencer des phases plus statistiquement impliquées. L'une de ces phases est l' analyse factorielle exploratoire (ALE) , qui vous permettra d'extraire la structure sous-jacente de vos données. Pour les ensembles de données comportant un grand nombre de variables, l'effet secondaire positif de l'EPT est la réduction de la dimensionnalité . Et, alors que dans ce sens, l'EFA est similaire à l' analyse des composants principaux (PCA)et d'autres approches de réduction de la dimensionnalité, je pense que l'EPT est plus important car il permet d'affiner votre modèle conceptuel des phénomènes que vos données "décrivent", donnant ainsi un sens à vos ensembles de données. Bien sûr, en plus de l'EFA, vous pouvez / devez effectuer une analyse de régression et appliquer des techniques d'apprentissage automatique , en fonction de vos résultats des phases précédentes.

Enfin, une note sur les outils logiciels . À mon avis, l'état actuel des progiciels statistiques est tel que pratiquement tous les progiciels majeurs proposent des offres comparables en termes de fonctionnalités. Si vous étudiez ou travaillez dans une organisation qui a certaines politiques et préférences en termes d'outils logiciels, vous êtes contraint par eux. Cependant, si ce n'est pas le cas, je recommanderais chaleureusement un logiciel statistique open source , basé sur votre confort avec son langage de programmation spécifique , sa courbe d'apprentissage et vos perspectives de carrière . Ma plateforme de choix actuelle est R Project, qui propose des logiciels statistiques matures, puissants, flexibles, étendus et ouverts, ainsi qu'un incroyable écosystème de packages, d'experts et de passionnés. D'autres choix intéressants incluent Python , Julia et des logiciels open source spécifiques pour le traitement des mégadonnées , tels que Hadoop , Spark , les bases de données NoSQL , WEKA . Pour plus d'exemples de logiciels open source pour l'exploration de données , qui incluent des logiciels statistiques et ML généraux et spécifiques, consultez cette section d'une page Wikipedia: http://en.wikipedia.org/wiki/Data_mining#Free_open-source_data_mining_software_and_applications .

MISE À JOUR: J'ai oublié de mentionner Rattle ( http://rattle.togaware.com ), qui est également un logiciel GUI orienté R open source très populaire pour l'exploration de données.

Aleksandr Blekh
la source
1
Après être revenu sur cette question plus d'un an plus tard, je peux certainement répéter que la connaissance de vos données est la clé et que vous devez avoir à l'esprit quelles sont les "bonnes" données par rapport aux "mauvaises" données. J'ai essayé d'utiliser des solutions magiques comme les réseaux de neurones, etc., mais le processus de nettoyage des données n'a pas été facile. (Les modèles de Markov cachés semblaient répondre le mieux aux entrées sales et étaient capables de prédire les sorties les mieux). important) que j'ai pu trouver les solutions à mes problèmes!
user3791372
@ user3791372 Heureux d'avoir de vos nouvelles! Il semble clairement que l'année a été productive pour vous afin de mieux comprendre les divers aspects de la science des données. J'aurais aimé avoir plus d'occasions d'en apprendre plus, mais, d'autre part, je ne peux pas me plaindre car j'ai beaucoup appris aussi (pas toujours lié à la science des données, mais, peut-être, c'est encore mieux). Continuez!
Aleksandr Blekh
3
  1. SPSS est un excellent outil, mais vous pouvez accomplir beaucoup avec des ressources que vous avez déjà sur votre ordinateur, comme Excel, ou qui sont gratuites, comme le projet R. Bien que ces outils soient puissants et puissent vous aider à identifier les modèles, vous devrez avoir une bonne compréhension de vos données avant d'exécuter des analyses (je vous recommande d'exécuter des statistiques descriptives sur vos données et d'explorer les données avec des graphiques pour vous assurer que tout semble normal). En d'autres termes, l'outil que vous utilisez n'offrira pas de "solution miracle", car la sortie n'aura de valeur que l'entrée (vous connaissez le dicton ... "ordures entrantes, ordures sortantes"). Une grande partie de ce que je dis a déjà été déclarée dans la réponse d'Aleksandr - spot on.

  2. R peut être difficile pour ceux d'entre nous qui ne connaissent pas le codage, mais les ressources gratuites associées à R et à ses packages sont abondantes. Si vous vous entraînez à apprendre le programme, vous gagnerez rapidement de l'adhérence. Encore une fois, vous devrez être familier avec vos données et les analyses que vous souhaitez exécuter de toute façon, et ce fait demeure quels que soient les outils statistiques que vous utilisez.

  3. Je commencerais par me familiariser avec mes données (suivez les étapes décrites dans la réponse d'Aleksandr, pour commencer). Vous pourriez envisager de prendre le livre de John Foreman intitulé Data Smart. C'est un livre pratique, car John fournit des ensembles de données et vous suivez ses exemples (en utilisant Excel) pour apprendre différentes façons de naviguer et d'explorer les données. Pour les débutants, c'est une excellente ressource.

Joie
la source
2

Aleksandr a donné une explication très approfondie, mais brièvement, voici les étapes qui sont suivies:

Extraire des données

Données de nettoyage

Extraction de caractéristiques

Modèles de construction

Inférence des résultats

Publication des résultats

Répétez les étapes 3,4,5 en boucle jusqu'à obtenir la bonne précision.

RAM
la source
0

R a des interfaces graphiques de dialogue pnc comme SPSS. Ils impriment le code R pour que vous puissiez apprendre et combiner leurs efforts. Je recommanderais BlueSky pour ses dialogues pour tout et hochet. Bien que ces logiciels soient excellents pour l'EDA, les statistiques et la visualisation, l'apprentissage automatique ne fonctionne pas bien.

ran8
la source