Quelle est la différence entre l'exploration de données et l'analyse statistique?
Pour certains antécédents, mon éducation statistique a été, je pense, plutôt traditionnelle. Une question spécifique est posée, la recherche est conçue et les données sont collectées et analysées pour donner un aperçu de cette question. Par conséquent, j'ai toujours été sceptique quant à ce que je considérais comme du «dragage de données», c'est-à-dire la recherche de modèles dans un grand ensemble de données et l'utilisation de ces modèles pour tirer des conclusions. J'ai tendance à associer ce dernier à l'exploration de données et j'ai toujours considéré cela comme sans principes (avec des choses comme les routines de sélection de variables algorithmiques).
Néanmoins, il existe une littérature importante et croissante sur l'exploration de données. Souvent, je vois que cette étiquette fait référence à des techniques spécifiques telles que le clustering, la classification basée sur les arbres, etc. question. J'appellerais l'ancienne exploration de données et la dernière analyse statistique.
Je travaille dans l'administration universitaire et on m'a demandé de faire du "data mining" pour identifier les problèmes et les opportunités. Conformément à mes antécédents, mes premières questions étaient les suivantes: que voulez-vous apprendre et quelles sont les choses qui, selon vous, contribuent à résoudre le problème? D'après leur réponse, il était clair que moi et la personne posant la question avions des idées différentes sur la nature et la valeur de l'exploration de données.
Réponses:
Jerome Friedman a écrit un article il y a quelque temps: Exploration de données et statistiques: quelle est la connexion? , ce que je pense que vous trouverez intéressant.
L'exploration de données était une préoccupation largement commerciale et motivée par les besoins des entreprises (conjuguée au «besoin» des fournisseurs de vendre des systèmes logiciels et matériels aux entreprises). Friedman a noté une chose: toutes les «fonctionnalités» mises en évidence proviennent de l'extérieur des statistiques - des algorithmes et des méthodes comme les réseaux de neurones à l'analyse de données basée sur l'interface graphique - et aucune des offres statistiques traditionnelles ne semble faire partie de ces systèmes. (régression, test d'hypothèse, etc.). "Notre méthodologie de base a été largement ignorée." Il a également été vendu comme axé sur l'utilisateur dans le sens de ce que vous avez noté: voici mes données, voici ma "question commerciale", donnez-moi une réponse.
Je pense que Friedman essayait de provoquer. Il ne pensait pas que l'exploration de données avait de sérieux fondements intellectuels en ce qui concerne la méthodologie, mais que cela changerait et que les statisticiens devraient jouer un rôle plutôt que de l'ignorer.
Ma propre impression est que cela s'est plus ou moins produit. Les lignes sont floues. Les statisticiens publient désormais dans des revues d'exploration de données. Les mineurs de données semblent aujourd'hui avoir une sorte de formation statistique. Bien que les packages d'exploration de données ne battent toujours pas les modèles linéaires généralisés, la régression logistique est bien connue des analystes - en plus du clustering et des réseaux neuronaux. La conception expérimentale optimale peut ne pas faire partie du noyau d'exploration de données, mais le logiciel peut être cajolé pour cracher des valeurs de p. Le progrès!
la source
La différence entre les statistiques et l'exploration de données est en grande partie historique, car elles proviennent de traditions différentes: les statistiques et l'informatique. L'exploration de données s'est développée parallèlement au travail dans le domaine de l'intelligence artificielle et des statistiques.
La section 1.4 de Witten & Frank résume mon point de vue, je vais donc le citer en détail:
NB1 IMO, l'exploration de données et l'apprentissage automatique sont des termes très étroitement liés. Dans un sens, les techniques d'apprentissage automatique sont utilisées dans l'exploration de données. Je vois régulièrement ces termes comme interchangeables, et dans la mesure où ils sont différents, ils vont généralement de pair. Je suggérerais de parcourir le papier "Les Deux Cultures" ainsi que les autres fils de ma question d'origine.
NB2 Le terme «exploration de données» peut avoir une connotation négative lorsqu'il est utilisé familièrement pour signifier laisser un certain algorithme se desserrer sur les données sans aucune compréhension conceptuelle. Le sentiment est que l'exploration de données conduira à des résultats erronés et à un sur-ajustement. Par conséquent, j'évite généralement d'utiliser le terme lorsque je parle à des non-experts, et j'utilise plutôt l'apprentissage automatique ou l'apprentissage statistique comme synonyme.
la source
L'exploration de données est classée comme descriptive ou prédictive. L'exploration de données descriptive consiste à rechercher des ensembles de données massifs et à découvrir les emplacements de structures ou de relations inattendues, les modèles, les tendances, les clusters et les valeurs aberrantes dans les données. D'autre part, Predictive consiste à créer des modèles et des procédures de régression, de classification, de reconnaissance de formes ou de tâches d'apprentissage automatique, et à évaluer la précision prédictive de ces modèles et procédures lorsqu'ils sont appliqués à de nouvelles données.
Le mécanisme utilisé pour rechercher des motifs ou une structure dans des données de grande dimension peut être manuel ou automatisé; la recherche peut nécessiter l'interrogation interactive d'un système de gestion de base de données, ou elle peut impliquer l'utilisation d'un logiciel de visualisation pour détecter les anomalies dans les données. En termes d'apprentissage automatique, l'exploration de données descriptive est connue sous le nom d'apprentissage non supervisé, tandis que l'exploration de données prédictive est connue sous le nom d'apprentissage supervisé.
La plupart des méthodes utilisées dans l'exploration de données sont liées aux méthodes développées dans les statistiques et l'apprentissage automatique. Au premier rang de ces méthodes figurent les sujets généraux de régression, de classification, de regroupement et de visualisation. En raison de la taille énorme des ensembles de données, de nombreuses applications d'exploration de données se concentrent sur les techniques de réduction de dimensionnalité (par exemple, la sélection de variables) et les situations dans lesquelles des données de grande dimension sont soupçonnées de se trouver sur des hyperplans de dimension inférieure. Une attention récente a été portée aux méthodes d'identification des données de grande dimension reposant sur des surfaces ou des variétés non linéaires.
Il existe également des situations dans l'exploration de données où l'inférence statistique - dans son sens classique - n'a aucun sens ou est d'une validité douteuse: la première se produit lorsque nous avons toute la population à rechercher des réponses, et la seconde se produit lorsqu'un ensemble de données est un Échantillon «de convenance» plutôt que d'être un échantillon aléatoire tiré d'une population importante. Lorsque les données sont collectées dans le temps (par exemple, les transactions de détail, les transactions boursières, les dossiers des patients, les relevés météorologiques), l'échantillonnage peut également ne pas avoir de sens; l'ordre chronologique des observations est crucial pour comprendre le phénomène générant les données, et traiter les observations comme indépendantes lorsqu'elles peuvent être fortement corrélées fournira des résultats biaisés.
En plus de la théorie et des méthodes statistiques, les composants centraux de l'exploration de données sont l'efficacité de calcul et de calcul, le traitement automatique des données, les techniques de visualisation de données dynamiques et interactives et le développement d'algorithmes.
L'un des problèmes les plus importants de l'exploration de données est le problème de calcul de l' évolutivité . Les algorithmes développés pour calculer les méthodes statistiques exploratoires et confirmatoires standard ont été conçus pour être rapides et efficaces sur le plan informatique lorsqu'ils sont appliqués à des ensembles de données de petite et moyenne taille; pourtant, il a été démontré que la plupart de ces algorithmes ne sont pas à la hauteur du défi de gérer d’énormes ensembles de données. À mesure que les ensembles de données se développent, de nombreux algorithmes existants montrent une tendance à ralentir considérablement (voire à s'arrêter).
la source
L'exploration de données est des statistiques, avec quelques différences mineures. Vous pouvez y voir des statistiques de re-branding, car les statisticiens sont un peu bizarres.
Il est souvent associé à des statistiques de calcul, c'est-à-dire uniquement des choses que vous pouvez faire avec un ordinateur.
Les mineurs de données ont volé une proportion importante de statistiques multivariées et l'ont qualifié de leur. Consultez la table des matières de tout livre multivarié des années 90 et comparez-le à un nouveau livre d'exploration de données. Très similaire.
Les statistiques sont associées au test d'hypothèses et à la construction de modèles, tandis que l'exploration de données est davantage associée à la prédiction et à la classification, qu'il existe ou non un modèle compréhensible.
la source
J'ai déjà écrit un article où j'ai fait quelques observations comparant l'exploration de données à la psychologie. Je pense que ces observations peuvent saisir certaines des différences que vous identifiez:
la source
Je ne pense pas que la distinction que vous faites soit vraiment liée à la différence entre l'exploration de données et l'analyse statistique. Vous parlez de la différence entre l'analyse exploratoire et l'approche de modélisation-prédiction.
Je pense que la tradition de la statistique se construit à toutes les étapes: analyse exploratoire, puis modélisation, puis estimation, puis test, puis prévision / inférence. Le statisticien fait une analyse exploratoire pour comprendre à quoi ressemblent les données (résumé des fonctions sous R!) Je suppose que le datamining est moins structuré et pourrait être identifié par une analyse exploratoire. Cependant il utilise des techniques statistiques qui sont d'estimation, de prévision, de classification ...
la source