Je vais essayer de répondre à vos questions, mais avant, je voudrais noter que l'utilisation du terme «grand ensemble de données» est trompeuse, car «grand» est un concept relatif . Vous devez fournir plus de détails. Si vous traitez avec des données d'enchères , ce fait affectera très probablement la sélection des outils , approches et algorithmes préférés pour votre analyse de données . J'espère que mes réflexions suivantes sur l'analyse des données répondront à vos sous-questions. Veuillez noter que la numérotation de mes points ne correspond pas à la numérotation de vos sous-questions. Cependant, je pense qu'il reflète mieux le flux de travail général d' analyse des données , au moins, comment je le comprends.
1) Premièrement, je pense que vous devez avoir au moins une sorte de modèle conceptuel en tête (ou, mieux, sur papier). Ce modèle devrait vous guider dans votre analyse exploratoire des données (EDA) . La présence d'une variable dépendante (DV) dans le modèle signifie que dans votre phase d' apprentissage automatique (ML) plus tard dans l'analyse, vous traiterez ce que l'on appelle un ML supervisé, par opposition au ML non supervisé en l'absence d'un DV identifié.
2) Deuxièmement, l' EDA est un élément crucial. À mon humble avis, l'EDA devrait inclure plusieurs itérations de production de statistiques descriptives et de visualisation des données , au fur et à mesure que vous affinez votre compréhension des données. Non seulement cette phase vous donnera des informations précieuses sur vos ensembles de données, mais elle alimentera votre prochaine phase importante - le nettoyage et la transformation des données . Le simple fait de jeter vos données brutes dans un logiciel statistique ne donnera pas grand-chose - pour toute analyse statistique valide , les données doivent être propres, correctes et cohérentes . C'est souvent la partie la plus longue et la plus laborieuse, mais absolument nécessaire. Pour plus de détails sur ce sujet, lisez ces beaux articles:http://vita.had.co.nz/papers/tidy-data.pdf (par Hadley Wickham) et http://cran.r-project.org/doc/contrib/de_Jonge+van_der_Loo-Introduction_to_data_cleaning_with_R.pdf (par Edwin de Jonge et Mark van der Loo).
3) Maintenant, comme vous l'espérez, avec l' EDA ainsi que le nettoyage et la transformation des données , vous êtes prêt à commencer des phases plus statistiquement impliquées. L'une de ces phases est l' analyse factorielle exploratoire (ALE) , qui vous permettra d'extraire la structure sous-jacente de vos données. Pour les ensembles de données comportant un grand nombre de variables, l'effet secondaire positif de l'EPT est la réduction de la dimensionnalité . Et, alors que dans ce sens, l'EFA est similaire à l' analyse des composants principaux (PCA)et d'autres approches de réduction de la dimensionnalité, je pense que l'EPT est plus important car il permet d'affiner votre modèle conceptuel des phénomènes que vos données "décrivent", donnant ainsi un sens à vos ensembles de données. Bien sûr, en plus de l'EFA, vous pouvez / devez effectuer une analyse de régression et appliquer des techniques d'apprentissage automatique , en fonction de vos résultats des phases précédentes.
Enfin, une note sur les outils logiciels . À mon avis, l'état actuel des progiciels statistiques est tel que pratiquement tous les progiciels majeurs proposent des offres comparables en termes de fonctionnalités. Si vous étudiez ou travaillez dans une organisation qui a certaines politiques et préférences en termes d'outils logiciels, vous êtes contraint par eux. Cependant, si ce n'est pas le cas, je recommanderais chaleureusement un logiciel statistique open source , basé sur votre confort avec son langage de programmation spécifique , sa courbe d'apprentissage et vos perspectives de carrière . Ma plateforme de choix actuelle est R Project, qui propose des logiciels statistiques matures, puissants, flexibles, étendus et ouverts, ainsi qu'un incroyable écosystème de packages, d'experts et de passionnés. D'autres choix intéressants incluent Python , Julia et des logiciels open source spécifiques pour le traitement des mégadonnées , tels que Hadoop , Spark , les bases de données NoSQL , WEKA . Pour plus d'exemples de logiciels open source pour l'exploration de données , qui incluent des logiciels statistiques et ML généraux et spécifiques, consultez cette section d'une page Wikipedia: http://en.wikipedia.org/wiki/Data_mining#Free_open-source_data_mining_software_and_applications .
MISE À JOUR: J'ai oublié de mentionner Rattle ( http://rattle.togaware.com ), qui est également un logiciel GUI orienté R open source très populaire pour l'exploration de données.
SPSS est un excellent outil, mais vous pouvez accomplir beaucoup avec des ressources que vous avez déjà sur votre ordinateur, comme Excel, ou qui sont gratuites, comme le projet R. Bien que ces outils soient puissants et puissent vous aider à identifier les modèles, vous devrez avoir une bonne compréhension de vos données avant d'exécuter des analyses (je vous recommande d'exécuter des statistiques descriptives sur vos données et d'explorer les données avec des graphiques pour vous assurer que tout semble normal). En d'autres termes, l'outil que vous utilisez n'offrira pas de "solution miracle", car la sortie n'aura de valeur que l'entrée (vous connaissez le dicton ... "ordures entrantes, ordures sortantes"). Une grande partie de ce que je dis a déjà été déclarée dans la réponse d'Aleksandr - spot on.
R peut être difficile pour ceux d'entre nous qui ne connaissent pas le codage, mais les ressources gratuites associées à R et à ses packages sont abondantes. Si vous vous entraînez à apprendre le programme, vous gagnerez rapidement de l'adhérence. Encore une fois, vous devrez être familier avec vos données et les analyses que vous souhaitez exécuter de toute façon, et ce fait demeure quels que soient les outils statistiques que vous utilisez.
Je commencerais par me familiariser avec mes données (suivez les étapes décrites dans la réponse d'Aleksandr, pour commencer). Vous pourriez envisager de prendre le livre de John Foreman intitulé Data Smart. C'est un livre pratique, car John fournit des ensembles de données et vous suivez ses exemples (en utilisant Excel) pour apprendre différentes façons de naviguer et d'explorer les données. Pour les débutants, c'est une excellente ressource.
la source
Aleksandr a donné une explication très approfondie, mais brièvement, voici les étapes qui sont suivies:
Extraire des données
Données de nettoyage
Extraction de caractéristiques
Modèles de construction
Inférence des résultats
Publication des résultats
Répétez les étapes 3,4,5 en boucle jusqu'à obtenir la bonne précision.
la source
R a des interfaces graphiques de dialogue pnc comme SPSS. Ils impriment le code R pour que vous puissiez apprendre et combiner leurs efforts. Je recommanderais BlueSky pour ses dialogues pour tout et hochet. Bien que ces logiciels soient excellents pour l'EDA, les statistiques et la visualisation, l'apprentissage automatique ne fonctionne pas bien.
la source