Ils se chevauchent considérablement, mais certaines distinctions peuvent être faites. Par nécessité, je vais devoir trop simplifier certaines choses ou en éviter d'autres, mais je ferai de mon mieux pour donner une idée de ces domaines.
Tout d'abord, l'intelligence artificielle est assez distincte du reste. AI est l'étude de la création d'agents intelligents. En pratique, c'est comment programmer un ordinateur pour qu'il se comporte et effectue une tâche comme le ferait un agent intelligent (par exemple, une personne). Cela ne doit pas nécessairement impliquer l'apprentissage ou l'induction, cela peut simplement être un moyen de "construire un meilleur piège à souris". Par exemple, les applications d'intelligence artificielle ont inclus des programmes pour surveiller et contrôler les processus en cours (par exemple, augmenter l'aspect A s'il semble trop bas). Notez que l'IA peut inclure pratiquement tout ce que fait une machine, à condition qu'elle ne le fasse pas "bêtement".
Cependant, dans la pratique, la plupart des tâches qui nécessitent une intelligence nécessitent une capacité à induire de nouvelles connaissances à partir d’expériences. Ainsi, une grande partie de l'IA est l'apprentissage automatique . Un programme informatique est réputé apprendre une tâche de l'expérience si ses performances s'améliorent avec l'expérience, selon certaines mesures de performance. L'apprentissage automatique implique l'étude d'algorithmes capables d'extraire automatiquement des informations (sans assistance humaine en ligne). Il est certain que certaines de ces procédures comprennent des idées dérivées directement à partir, ou inspirés par des statistiques classiques, mais ils n'ontêtre. De la même manière que l'intelligence artificielle, l'apprentissage automatique est très large et peut inclure presque tout, pourvu qu'il comporte un composant inductif. Un exemple d'algorithme d'apprentissage machine pourrait être un filtre de Kalman.
L'exploration de données est un domaine qui tire beaucoup de son inspiration et de ses techniques de l'apprentissage automatique (et de certaines statistiques), mais son objectif est différent . L'exploration de données est effectuée par une personne , dans une situation spécifique, sur un ensemble de données particulier, avec un objectif en tête. Généralement, cette personne souhaite tirer parti de la puissance des différentes techniques de reconnaissance de formes développées dans l’apprentissage automatique. Très souvent, le jeu de données est volumineux , compliqué et / ou peut présenter des problèmes particuliers(comme il y a plus de variables que d'observations). Habituellement, l’objectif est soit de découvrir / de générer des informations préliminaires dans un domaine où il n’y avait que très peu de connaissances à l’avance, soit de pouvoir prédire avec précision les futures observations. De plus, les procédures d’exploration de données pourraient être soit «non supervisées» (nous ne connaissons pas la réponse - découverte), soit «supervisées» (nous connaissons la réponse - la prévision). Notez que l'objectif n'est généralement pas de développer une compréhension plus sophistiquée du processus de génération de données sous-jacent. Les techniques courantes d’exploration de données comprennent les analyses par grappes, les arbres de classification et de régression et les réseaux de neurones.
Je suppose que je n’ai pas besoin d’expliquer les statistiques sur ce site, mais je peux peut-être dire quelques mots. La statistique classique (ici, à la fois fréquentiste et bayésienne) est un sous-thème des mathématiques. Je pense que c'est en grande partie l'intersection de ce que nous savons sur les probabilités et de ce que nous savons sur l'optimisation. Bien que la statistique mathématique puisse être étudiée comme un simple objet d’investigation platonicien, elle est généralement comprise comme plus pratique et plus concrète que d’autres domaines mathématiques, plus rares. En tant que tel (et notamment contrairement à l'exploration de données ci-dessus), il est principalement utilisé pour mieux comprendre un processus particulier de génération de données. Ainsi, il commence généralement par un modèle formellement spécifiéIl en résulte des procédures dérivées pour extraire avec précision ce modèle des instances bruitées (estimation, en optimisant une fonction de perte) et le distinguer des autres possibilités (inférences basées sur les propriétés connues des distributions d’échantillonnage). La technique statistique prototype est la régression.
Common data mining techniques would include cluster analyses, classification and regression trees, and neural networks.
Est-il prudent de dire qu'un réseau de neurones est un exemple d'outil d'apprentissage automatique utilisé dans l'exploration de données par rapport à une analyse de cluster qui est un algorithme non conçu pour l'apprentissage automatique utilisé pour l'exploration de données?De nombreuses autres réponses ont couvert les points principaux, mais vous avez demandé une hiérarchie, le cas échéant, et la façon dont je la conçois. Bien qu'elles constituent chacune une discipline à part entière, il existe une hiérarchie que personne ne semble avoir encore mentionnée, car chacune s'appuie sur le précédent.
En bref
Ceci étant dit, il y aura des problèmes d'intelligence artificielle qui ne relèvent que de l'intelligence artificielle et de la même manière pour les autres domaines, mais la plupart des problèmes intéressants aujourd'hui (voitures autonomes, par exemple) pourraient facilement et correctement être appelés tous ces problèmes. J'espère que cela clarifie la relation entre eux pour laquelle vous avez posé la question.
la source
En général, les modèles probabilistes (et donc les statistiques) se sont avérés le moyen le plus efficace de structurer formellement les connaissances et la compréhension dans une machine, à tel point que les trois autres (AI, ML et DM) sont aujourd'hui principalement des sous-domaines de statistiques. Pas la première discipline à devenir un bras fantôme de la statistique ... (économie, psychologie, bioinformatique, etc.)
la source
On peut dire qu'ils sont tous liés, mais ce sont toutes des choses différentes. Bien que vous puissiez avoir des points communs entre eux, tels que celui utilisé dans les statistiques et l'exploration de données, vous utilisez des méthodes de clustering.
Laissez-moi essayer de définir brièvement chacun:
La statistique est une très ancienne discipline basée principalement sur des méthodes mathématiques classiques, qui peuvent être utilisées dans le même but que l'exploration de données, qui consiste à classer et à regrouper des éléments.
L'exploration de données consiste à construire des modèles afin de détecter les modèles permettant de classer ou de prévoir des situations en fonction d'un nombre de faits ou de facteurs.
L'intelligence artificielle (cocher Marvin Minsky *) est la discipline qui tente d'imiter le fonctionnement du cerveau avec des méthodes de programmation, par exemple la création d'un programme qui joue aux échecs.
L'apprentissage automatique consiste à acquérir des connaissances et à les stocker sous une forme quelconque dans l'ordinateur. cette forme peut être constituée de modèles mathématiques, d'algorithmes, etc. Tout ce qui peut aider à détecter des modèles.
la source
Je connais le mieux l’apprentissage automatique - axe d’exploration de données - et je vais donc me concentrer sur cela:
L'apprentissage machine a tendance à s'intéresser à l'inférence dans des situations non standard, par exemple des données non iid, un apprentissage actif, un apprentissage semi-supervisé, un apprentissage avec des données structurées (par exemple des chaînes ou des graphiques). ML tend également à s'intéresser aux limites théoriques de ce qui peut être appris, qui constituent souvent la base des algorithmes utilisés (par exemple, la machine à vecteurs de support). ML a tendance à être de nature bayésienne.
L'exploration de données est intéressée par la recherche de modèles de données que vous ne connaissez pas déjà. Je ne suis pas sûr que cela soit très différent de l'analyse de données exploratoire en statistique, alors qu'en apprentissage automatique, il existe généralement un problème plus défini à résoudre.
ML a tendance à s'intéresser davantage aux petits ensembles de données pour lesquels le problème est la sur-adaptation, tandis que l'exploration de données a tendance à s'intéresser aux ensembles de données à grande échelle dans lesquels le problème concerne les quantités de données.
Les statistiques et l’apprentissage automatique fournissent un grand nombre des outils de base utilisés par les mineurs de données.
la source
Voici mon point de vue. Commençons par les deux très grandes catégories:
ML et DM sont généralement à la fois une IA et des statistiques, car elles impliquent des méthodes de base des deux. Voici certaines des différences:
De plus, l’exploration de données implique généralement beaucoup plus de gestion de données , c’est-à-dire comment organiser les données dans des structures d’index et des bases de données efficaces.
Malheureusement, ils ne sont pas si faciles à séparer. Par exemple, il existe un «apprentissage non supervisé», qui est souvent plus étroitement lié à la gestion du développement qu'à la gestion du cycle, car il ne peut pas être optimisé pour atteindre l'objectif. En revanche, les méthodes de gestion de la modélisation sont difficiles à évaluer (comment notez-vous quelque chose que vous ne connaissez pas?) Et sont souvent évaluées selon les mêmes tâches que l'apprentissage automatique, en omettant certaines informations. Cependant, cela leur donnera généralement l'impression de fonctionner moins bien que les méthodes d'apprentissage automatique qui peuvent être optimisées pour atteindre l'objectif réel de l'évaluation.
En outre, ils sont souvent utilisés en combinaison. Par exemple, une méthode d'exploration de données (par exemple, la mise en cluster ou la détection de valeurs aberrantes non supervisées) est utilisée pour prétraiter les données, puis la méthode d'apprentissage automatique est appliquée aux données prétraitées pour former de meilleurs classificateurs.
L'apprentissage automatique est généralement beaucoup plus facile à évaluer: il existe un objectif tel que le score ou la prédiction de classe. Vous pouvez calculer la précision et rappeler. Dans l'exploration de données, la plupart des évaluations sont effectuées en omettant certaines informations (telles que les étiquettes de classe), puis en vérifiant si votre méthode a découvert la même structure. Cela est naïf dans le sens où vous supposez que les étiquettes de classe encodent complètement la structure des données; vous punissez en fait un algorithme d'exploration de données qui découvre quelque chose de nouveau dans vos données. Une autre manière - indirectement - de l’évaluer, est de savoir comment la structure découverte améliore les performances de l’algorithme ML réel (par exemple, lors du partitionnement de données ou de la suppression des valeurs éloignées). Néanmoins, cette évaluation est basée sur la reproduction des résultats existants, ce qui n’est pas vraiment l’objectif de l’exploration de données ...
la source
J'ajouterais quelques observations à ce qui a été dit ...
L'intelligence artificielle est un terme très large qui désigne tout ce qui a trait aux machines effectuant des activités ressemblant à un raisonnement ou à l'apparition de senseurs, allant de la planification d'une tâche à la coopération avec d'autres entités, en passant par l'apprentissage de la marche à pied des membres. Une définition pithy est que l'IA est quelque chose d'informatique que nous ne savons pas encore bien faire. (Une fois que nous savons comment bien le faire, il tire généralement son propre nom et n'est plus "AI".)
Contrairement à Wikipedia, j’ai l’impression que le Pattern Recognition et le Machine Learning appartiennent au même domaine, mais le premier est pratiqué par des informaticiens tandis que le second est pratiqué par des statisticiens et des ingénieurs. (De nombreux domaines techniques sont découverts à maintes reprises par différents sous-groupes, qui apportent souvent leur propre jargon et leur propre mentalité.)
L’exploration de données, dans mon esprit de toute façon, prend Machine Learning / Pattern Recognition (les techniques qui fonctionnent avec les données) et les englobe dans des techniques de base de données, d’infrastructure et de validation / nettoyage de données.
la source
Malheureusement, la différence entre ces domaines réside en grande partie dans les domaines où ils sont enseignés: les statistiques sont basées sur les mathématiques, l’apprentissage automatique dans les départements d’informatique, et l’exploration de données est plus appliquée (utilisée par les départements d’entreprise ou de marketing, développée par les éditeurs de logiciels). .
Premièrement, l'IA (bien que cela puisse signifier n'importe quel système intelligent) a toujours été synonyme d'approches basées sur la logique (systèmes experts, par exemple) plutôt que d'estimation statistique. Les statistiques, basées sur les mathématiques, ont eu une très bonne compréhension théorique, ainsi qu'une solide expérience appliquée en sciences expérimentales, où il existe un modèle scientifique clair, et des statistiques sont nécessaires pour traiter les données expérimentales limitées disponibles. L'accent a souvent été mis sur l'extraction du maximum d'informations à partir de très petits ensembles de données. de plus, il y a un parti pris pour les preuves mathématiques: vous ne serez publié que si vous pouvez prouver des choses sur votre approche. Cela a eu tendance à signifier que les statistiques ont pris du retard dans l'utilisation des ordinateurs pour automatiser l'analyse. Encore, le manque de connaissances en programmation a empêché les statisticiens de travailler sur des problèmes de grande envergure où les problèmes de calcul deviennent importants (prenez en compte les GPU et les systèmes distribués tels que Hadoop). Je pense que des domaines tels que la bioinformatique ont maintenant davantage orienté les statistiques dans cette direction. Enfin, je dirais que les statisticiens sont un groupe plus sceptique: ils ne prétendent pas que les connaissances sont découvertes grâce aux statistiques. Un scientifique émet plutôt une hypothèse et le travail du statisticien est de vérifier que l'hypothèse est corroborée par les données. L'apprentissage automatique est enseigné dans des départements cs, qui n'enseignent malheureusement pas les mathématiques appropriées: le calcul multivariable, les probabilités, les statistiques et l'optimisation ne sont pas monnaie courante ... on a de vagues concepts "glamour" tels qu'apprendre à partir d'exemples ...Eléments d'apprentissage statistique page 30. Cela a tendance à signifier qu'il y a très peu de compréhension théorique et une explosion d'algorithmes, les chercheurs pouvant toujours trouver un jeu de données sur lequel leur algorithme s'avère meilleur. Il y a donc énormément de battage médiatique alors que les chercheurs du ML recherchent la prochaine grande chose: réseaux de neurones, apprentissage en profondeur, etc. Malheureusement, les départements CS ont beaucoup plus d'argent les statisticiens plus sceptiques sont ignorés. Enfin, il y a un penchant empiriste: il existe fondamentalement une croyance sous-jacente selon laquelle si vous envoyez suffisamment de données à l'algorithme, celui-ci "apprend" les bonnes prédictions. Bien que je sois partial contre le blanchiment de capitaux, les statisticiens ont ignoré un constat fondamental: les ordinateurs peuvent révolutionner l’application des statistiques.
Il y a deux façons: a) d'automatiser l'application de tests et de modèles standard. Par exemple, exécuter une batterie de modèles (régression linéaire, forêts aléatoires, etc. en essayant différentes combinaisons d’entrées, paramètres, etc.). Cela ne s’est pas vraiment produit, même si je soupçonne que les concurrents de kaggle développent leurs propres techniques d’automatisation. b) appliquer des modèles statistiques standard à des données volumineuses: pensez par exemple à Google Translate, aux systèmes de recommandation, etc. Les modèles statistiques sous-jacents sont simples, mais l'application de ces méthodes à des milliards de points de données pose d'énormes problèmes de calcul.
L'exploration de données est l'aboutissement de cette philosophie: développer des méthodes automatisées d'extraction de connaissances à partir de données. Cependant, son approche est plus pratique: elle s’applique essentiellement aux données comportementales, où il n’existe pas de théorie scientifique globale (marketing, détection de fraude, spam, etc.) et l’objectif est d’automatiser l’analyse de grands volumes de données: Une équipe de statisticiens pourrait produire de meilleures analyses avec suffisamment de temps, mais il est plus rentable d’utiliser un ordinateur. En outre, comme l'explique D. Hand, il s'agit de l'analyse de données secondaires - des données enregistrées de toute façon plutôt que des données collectées explicitement pour répondre à une question scientifique dans un plan expérimental solide. Statistiques d'exploration de données et plus, D Hand
Donc, je résumerais que l'IA traditionnelle est basée sur la logique plutôt que sur la statistique, que l'apprentissage automatique est une statistique sans théorie et que la statistique est une statistique sans ordinateur, et que l'exploration de données consiste à développer des outils automatisés d'analyse statistique avec une intervention minimale de l'utilisateur.
la source
L'exploration de données consiste à découvrir des modèles cachés ou des connaissances inconnues, qui peuvent être utilisés pour la prise de décision par des personnes.
L'apprentissage automatique consiste à apprendre un modèle pour classer de nouveaux objets.
la source
À mon avis, l'intelligence artificielle pourrait être considérée comme le "sur-ensemble" de domaines tels que l'apprentissage automatique, l'exploration de données, la reconnaissance de formes, etc.
La statistique est un domaine des mathématiques qui comprend tous les modèles, techniques et théorèmes mathématiques utilisés dans l'IA.
L'apprentissage automatique est un domaine de l'IA qui inclut tous les algorithmes qui appliquent les modèles statistiques mentionnés ci-dessus et donne un sens aux données, c'est-à-dire l'analyse prédictive telle que la mise en grappes et la classification.
Le Data Mining est la science qui utilise toutes les techniques ci-dessus (principalement l'apprentissage automatique) afin d'extraire des modèles utiles et importants à partir de données. L’exploration de données consiste généralement à extraire des informations utiles à partir d’énormes ensembles de données, c’est-à-dire le Big Data.
la source
Que diriez-vous de: machines d'apprentissage pour apprendre
Reconnaître des modèles significatifs dans les données: exploration de données
Prédire le résultat à partir de modèles connus: ML
Trouver de nouvelles fonctionnalités pour remapper les données brutes: AI
Ce cerveau d'oiseau a vraiment besoin de définitions simples.
la source
L'exploration de données tente souvent de "prédire" certaines données futures ou "d'expliquer" pourquoi quelque chose se produit.
Les statistiques sont plus utilisées pour valider une hypothèse à mes yeux. Mais ceci est une discussion subjective.
Une différence évidente entre les statisticiens et les miniers de données peut être trouvée dans le type de statistiques sommaires qu’ils examinent.
Les statistiques se limiteront souvent à R² et à la précision, tandis que les sociétés de traitement de données se pencheront sur les courbes AUC, ROC, les courbes de portance, etc., et pourraient également être concernées par l'utilisation d'une courbe de précision liée au coût.
Les progiciels de fouille de données (par exemple, le logiciel open source Weka) ont des techniques intégrées pour la sélection des entrées, prennent en charge la classification des machines à vecteurs, etc., alors qu'elles sont pour la plupart absentes des progiciels statistiques tels que JMP. J'ai récemment participé à un cours sur "l'exploration de données dans jmp" dispensé par le personnel de jmp, et bien que ce soit un package visuellement performant, certaines techniques d'extraction de données essentielles pré / post / mid manquent tout simplement. La sélection des entrées a été effectuée manuellement, pour obtenir un aperçu des données, toujours dans l'exploration de données, votre intention est simplement de publier des algorithmes, intelligemment, sur des données volumineuses et de voir automatiquement ce qui en sort. Le cours a évidemment été enseigné par des spécialistes des statistiques, ce qui a mis en évidence la différence de mentalité entre les deux.
la source