L'année dernière, j'ai lu un article de Brendan O'Connor sur le blog intitulé "Statistiques contre apprentissage automatique, combattez!" qui a discuté de certaines des différences entre les deux domaines. Andrew Gelman a répondu favorablement à ceci :
Simon Blomberg:
Du paquet de fortune de R: Pour paraphraser de manière provocante, «l'apprentissage automatique est une statistique, sans vérification des modèles et des hypothèses». - Brian D. Ripley (à propos de la différence entre l'apprentissage automatique et les statistiques) useR! 2004, Vienne (mai 2004) :-) Joyeuses fêtes!
Andrew Gelman:
Dans ce cas, nous devrions peut-être nous débarrasser de la vérification des modèles et des hypothèses plus souvent. Nous pourrions peut-être alors résoudre certains des problèmes que les personnes apprenantes en machine peuvent résoudre, mais nous ne le pouvons pas!
Il y avait aussi la « Modélisation statistique: Les deux cultures » papier par Leo Breiman en 2001 , qui ont fait valoir que les statisticiens se fient trop sur la modélisation des données, et que les techniques d'apprentissage machine progressent en appuyant plutôt sur la précision prédictive des modèles.
Le domaine des statistiques a-t-il changé au cours de la dernière décennie en réponse à ces critiques? Les deux cultures existent-elles encore ou les statistiques ont-elles évolué pour englober des techniques d'apprentissage automatique telles que les réseaux de neurones et les machines à vecteurs de support?
Réponses:
Je pense que la réponse à votre première question est simplement affirmative. Prenez n'importe quel numéro de Statistical Science, JASA, Annals of Statistics des 10 dernières années et vous trouverez des articles sur le renforcement, les SVM et les réseaux de neurones, bien que ce domaine soit moins actif à présent. Les statisticiens se sont appropriés les travaux de Valiant et de Vapnik, mais de l’autre côté, les informaticiens ont absorbé les travaux de Donoho et Talagrand. Je ne pense plus qu'il y ait beaucoup de différences dans la portée et les méthodes. Je n'ai jamais souscrit à l'argument de Breiman selon lequel les employés de CS ne souhaitaient que minimiser les pertes à l'aide de tout ce qui fonctionnait. Ce point de vue a été fortement influencé par sa participation à des conférences sur les réseaux de neurones et son travail de consultant. mais PAC, SVMs, Boosting ont tous des fondements solides. Et aujourd’hui, contrairement à 2001, Statistics s’intéresse davantage aux propriétés d’échantillon fini,
Mais je pense qu'il reste encore trois différences importantes qui ne vont pas disparaître rapidement.
la source
La plus grande différence que je constate entre les communautés est que les statistiques mettent l’accent sur l’inférence, alors que l’apprentissage automatique met l’accent sur la prédiction. Lorsque vous faites des statistiques, vous voulez déduire le processus par lequel vos données ont été générées. Lorsque vous effectuez un apprentissage automatique, vous voulez savoir comment vous pouvez prédire quelles données futures ressembleront à une variable.
Bien sûr, les deux se chevauchent. Savoir comment les données ont été générées vous donnera des indications sur ce que serait un bon prédicteur, par exemple. Cependant, un exemple de la différence est que l’apprentissage automatique a traité le problème p >> n (plus de caractéristiques / variables que d’échantillons d’apprentissage) depuis le tout début, alors que les statistiques commencent tout juste à devenir sérieuses à propos de ce problème. Pourquoi? Parce que vous pouvez toujours faire de bonnes prédictions lorsque p >> n, mais vous ne pouvez pas faire de très bonnes inférences sur les variables qui sont réellement importantes et pourquoi.
la source
Bayésien: "Bonjour, Apprenant Machine!"
Frequentist: "Bonjour, Apprenant Machine!"
Apprentissage automatique: "Je vous entends dire que vous êtes doués pour les choses. Voici quelques données."
F: "Oui, écrivons un modèle et calculons ensuite le MLE."
F: "Ah oui, merci de me le rappeler. Je pense souvent que je suis censé utiliser le MLE pour tout, mais je m'intéresse aux estimateurs non biaisés , etc."
ML: "Euh, qu'est-ce que c'est que philosopher? Est-ce que ça m'aidera?"
ML: "Alors, qu'est-ce qui t'importe?"
F: "Evaluation".
ML: "J'aime le son de ça."
ML: "Ça a l'air génial! On dirait que les fréquentants sont des gens pragmatiques. Vous jugez chaque boîte noire à ses résultats. L'évaluation est la clé."
F: "En effet! Je comprends que vous adoptiez une approche similaire. Validation croisée, ou quelque chose du genre? Mais cela me semble compliqué."
ML: "Messy?"
F: "L'idée de tester votre estimateur sur des données réelles me semble dangereuse. Les données empiriques que vous utilisez pourraient avoir toutes sortes de problèmes, et pourraient ne pas se comporter conformément au modèle sur lequel nous nous sommes mis d'accord pour l'évaluation."
F: "Oui. Bien que votre méthode ait pu fonctionner sur un jeu de données (le jeu de données avec train et données de test) que vous avez utilisé dans votre évaluation, je peux prouver que la mienne fonctionnera toujours."
ML: "Pour tous les jeux de données?"
F: "Non"
ML: "Donc ma méthode a été validée par recoupement sur un jeu de données. Vous n'avez pas testé la vôtre sur un jeu de données réel?"
F: "C'est vrai."
ML: "Cela me donne l'avantage! Ma méthode est meilleure que la vôtre. Elle prédit le cancer 90% du temps. Votre" preuve "n'est valide que si l'ensemble du jeu de données se comporte conformément au modèle que vous avez supposé."
F: "Euh, oui, je suppose."
F: "C'est vrai. À moins que les données soient vraiment normales (ou autre), ma preuve est inutile."
ML: "Alors, mon évaluation est plus fiable et plus complète? Elle ne fonctionne que sur les jeux de données que j'ai essayés jusqu'à présent, mais au moins, ce sont de vrais jeux de données, des verrues, etc. 'et' approfondie 'et que vous étiez intéressé par la vérification des modèles et autres. "
B: (interjectant) "Hé les gars, désolé de vous interrompre. J'aimerais beaucoup faire le bilan, en montrant peut-être d'autres problèmes, mais j'aime vraiment regarder mon collègue fréquentiste se tortiller."
F: "Woah!"
ML: "OK, les enfants. Tout était une question d'évaluation. Un estimateur est une boîte noire. Des données sont introduites, des données sont générées. Nous approuvons ou désapprouvons un estimateur basé sur ses performances en cours d'évaluation. sur la «recette» ou «principes de conception» qui sont utilisés. "
F: "Oui. Mais nous avons des idées très différentes sur les évaluations qui sont importantes. ML formera et testera des données réelles. Tandis que je ferai une évaluation plus générale (car elle implique une preuve applicable à grande échelle) et également plus limité (parce que je ne sais pas si votre jeu de données est réellement tiré des hypothèses de modélisation que j'utilise lors de la conception de mon évaluation.) "
ML: "Quelle évaluation utilisez-vous, B?"
F: (intercepte) "Hé. Ne me fais pas rire. Il n'évalue rien. Il utilise simplement ses croyances subjectives et les utilise. Ou quelque chose."
B: "C'est l'interprétation courante. Mais il est également possible de définir le bayésianisme en fonction des évaluations préférées. Ensuite, nous pouvons utiliser l'idée qu'aucun d'entre nous ne se soucie de ce qu'il y a dans la boîte noire, nous nous soucions uniquement des différentes manières d'évaluer."
B poursuit: "Exemple classique: test médical. Le résultat du test sanguin est positif ou négatif. Un fréquentiste s'intéressera aux personnes en bonne santé, quelle proportion aura un résultat négatif. De même, quelle sera la proportion de malades obtenez un résultat positif. Le fréquentiste calculera ces résultats pour chaque méthode d'analyse de sang à l'étude, puis recommandera d'utiliser le test présentant la meilleure paire de scores. "
F: "Exactement. Que voulez-vous de plus?"
B: "Qu'en est-il des personnes qui ont obtenu un résultat de test positif? Elles voudront savoir 'de celles qui obtiennent un résultat positif, combien vont tomber malades?' et 'parmi ceux qui obtiennent un résultat négatif, combien sont en bonne santé?' "
ML: "Ah oui, cela semble être une meilleure paire de questions à poser."
F: "Hérésie!"
B: "Nous y revoilà. Il n'aime pas où cela va."
ML: "Il s'agit de 'priors', n'est-ce pas?"
F: "EVIL".
B: «En tout cas, oui, vous avez raison ML. Pour calculer la proportion de malades ayant un résultat positif, vous devez effectuer l'une des deux choses suivantes. Une option consiste à exécuter les tests sur un grand nombre de personnes et à simplement observer les paramètres suivants: Par exemple, combien de personnes meurent-elles de la maladie? "
ML: "Cela ressemble à ce que je fais. Utilise train-and-test."
B: "Mais vous pouvez calculer ces chiffres à l'avance, si vous êtes prêt à faire une hypothèse sur le taux de maladie dans la population. Le fréquentiste fait aussi ses calculs à l'avance, mais sans utiliser ce taux de maladie au niveau de la population."
F: "HYPOTHÈSES PLUS NON FONDÉES."
B: "Oh, tais-toi. Plus tôt, on t'a découvert. ML a découvert que tu aimais les hypothèses non fondées autant que quiconque. Tes probabilités de couverture« prouvées »ne se concrétiseront dans le monde réel que si toutes tes hypothèses sont respectées. Pourquoi mes hypothèses précédentes sont-elles si différentes? Vous me traitez de fou, mais vous prétendez que vos hypothèses sont le travail d’une analyse conservatrice, solide et sans hypothèse. "
B (continue): "Quoi qu'il en soit, ML, comme je le disais. Les Bayésiens aiment un type d'évaluation différent. Nous sommes plus intéressés par le conditionnement des données observées et le calcul de la précision de notre estimateur en conséquence. Nous ne pouvons pas effectuer cette évaluation sans utiliser Mais ce qui est intéressant, c’est que, une fois que nous avons choisi cette forme d’évaluation et une fois notre choix effectué, nous avons une "recette" automatique pour créer un estimateur approprié. Le fréquentiste ne dispose pas de cette recette. estimateur non biaisé pour un modèle complexe, il n’a aucun moyen automatisé de construire un estimateur approprié. "
ML: "Et vous faites? Vous pouvez automatiquement construire un estimateur?"
B: "Oui. Je n'ai pas de moyen automatique de créer un estimateur non biaisé, car je pense que le biais est un mauvais moyen d'évaluer un estimateur. Mais étant donné l'estimation basée sur les données conditionnelles que j'aime bien, et le peut connecter le prior et la probabilité de me donner l'estimateur ".
ML: "Alors bref, récapitulons. Nous avons tous différentes manières d'évaluer nos méthodes et nous ne serons probablement jamais d'accord sur les meilleures méthodes."
B: "Bien, ce n'est pas juste. Nous pourrions les mélanger et les assortir. Si l'un d'entre nous a de bonnes données d'entraînement étiquetées, nous devrions probablement tester ces données. Et en général, nous devrions tous tester autant d'hypothèses que possible. Et certains "les preuves peuvent aussi être amusantes, prédire les performances sous un modèle présumé de génération de données".
F: "Ouais les gars. Soyons pragmatiques à propos de l'évaluation. Et en fait, je cesserai de m'obséder à propos des propriétés des échantillons infinis. J'ai demandé aux scientifiques de me donner un échantillon infini, mais ils ne l'ont toujours pas fait. temps pour moi de me concentrer à nouveau sur des échantillons finis ".
ML: "Donc, nous n'avons qu'une dernière question. Nous avons beaucoup discuté de la façon d' évaluer nos méthodes, mais comment créons- nous nos méthodes."
B: "Ah. Comme je le savais plus tôt, nous Bayésiens avons la méthode générale la plus puissante. C'est peut-être compliqué, mais nous pouvons toujours écrire une sorte d'algorithme (peut-être une forme naïve de MCMC) qui sera échantillonné à partir de notre postérieur. "
F (intervient): "Mais ça pourrait avoir un parti pris."
B: "Alors, vos méthodes pourraient bien. Dois-je vous rappeler que le MLE est souvent biaisé? Parfois, vous avez de grandes difficultés à trouver des estimateurs non biaisés, et même lorsque vous avez un estimateur stupide (pour un modèle très complexe) qui dit: la variance est négative. Et vous appelez cela impartial. Sans parti pris, oui. Mais utile, non! "
ML: "OK les gars. Vous vous déchainez encore une fois. Laissez-moi vous poser une question, F. Avez-vous déjà comparé le biais de votre méthode avec celui de la méthode de B, alors que vous avez tous les deux travaillé sur le même problème?"
F: "Oui. En fait, je déteste l'admettre, mais l'approche de B a parfois un biais et un MSE plus bas que mon estimateur!"
ML: "La leçon à tirer est que, même si nous sommes un peu en désaccord sur l’évaluation, aucun d’entre nous n’a le monopole de la création d’estimateur ayant les propriétés que nous voulons."
B: "Oui, nous devrions lire un peu plus le travail de chacun. Nous pouvons nous inspirer les uns les autres pour les estimateurs. Nous pourrions constater que les estimateurs des autres fonctionnent très bien, immédiatement, sur nos propres problèmes."
F: "Et je devrais cesser d’être obsédé par les biais. Un estimateur non biaisé pourrait avoir une variance ridicule. Je suppose que nous devons tous" assumer la responsabilité "des choix que nous faisons dans notre évaluation et des propriétés que nous souhaitons voir dans nos estimateurs. Nous ne pouvons pas nous arrêter derrière une philosophie. Essayez toutes les évaluations possibles. Et je continuerai à jeter un coup d’œil à la littérature bayésienne pour trouver de nouvelles idées pour les estimateurs! "
B: "En fait, beaucoup de gens ne savent pas vraiment quelle est leur propre philosophie. Je ne suis même pas sûr de moi-même. Si j'utilise une recette bayésienne, puis que je prouve un bon résultat théorique, ne Un fréquentiste se soucie des preuves ci-dessus concernant la performance, il se fiche des recettes. Et si je fais des tests et des formations à la place (ou aussi), cela signifie-t-il que je suis un apprenant en machine? "
ML: "On dirait que nous sommes tous assez semblables alors."
la source
Dans une telle discussion, je me souviens toujours de la célèbre citation de Ken Thompson
Dans ce cas, l’apprentissage automatique est un salut lorsque les hypothèses sont difficiles à saisir; ou du moins c'est beaucoup mieux que de les deviner.
la source
Ce qui impose plus de séparation qu’il devrait être, c’est le lexique de chaque discipline.
Dans de nombreux cas, ML utilise un seul terme et Statistique utilise un terme différent - mais les deux font référence à la même chose - très bien, on pourrait s’y attendre, et cela ne crée pas de confusion permanente (par exemple, caractéristiques / attributs par rapport aux attentes variables, ou réseau neuronal / MLP versus projection-poursuite).
Ce qui est beaucoup plus gênant, c’est que les deux disciplines utilisent le même terme pour désigner des concepts complètement différents.
Quelques exemples:
Fonction du noyau
En ML, les fonctions du noyau sont utilisées dans les classificateurs (par exemple, SVM) et bien sûr dans les machines du noyau. Le terme fait référence à une fonction simple ( cosinus, sigmoïde, rbf, polynôme ) pour mapper une séparable non linéaire vers un nouvel espace d'entrée, de sorte que les données soient maintenant séparables linéairement dans ce nouvel espace d'entrée. (par opposition à un modèle non linéaire pour commencer).
En statistique, une fonction du noyau est une fonction de pondération utilisée dans l'estimation de la densité pour lisser la courbe de densité.
Régression
En ML, les algorithmes prédictifs ou les implémentations de ces algorithmes qui renvoient des étiquettes de classe "classificateurs" sont (parfois) dénommés machines - par exemple, machine à vecteurs support , machine à noyau . Les contreparties des machines sont des régresseurs , qui retournent un score (variable continue) - par exemple, une régression vectorielle .
Les algorithmes ont rarement des noms différents en fonction du mode - par exemple, un MLP est le terme utilisé, qu'il renvoie un libellé de classe ou une variable continue.
Dans Statistics, régression , si vous essayez de construire un modèle basé sur des données empiriques, pour prédire une variable de réponse basée sur une ou plusieurs variables explicatives ou plusieurs variables, vous effectuez une analyse de régression . Peu importe que la sortie soit une variable continue ou une étiquette de classe (par exemple, une régression logistique). Ainsi, par exemple, la régression des moindres carrés fait référence à un modèle qui renvoie une valeur continue; En revanche, la régression logistique renvoie une estimation de probabilité qui est ensuite discrétisée en étiquettes de classe.
Biais
En ML, le terme biais dans l'algorithme est conceptuellement identique au terme d' interception utilisé par les statisticiens dans la modélisation par régression.
Dans Statistics, le biais est une erreur non aléatoire. En d’autres termes, certains phénomènes ont influencé l’ensemble des données dans le même sens, ce qui signifie que ce type d’erreur ne peut être éliminé par un nouvel échantillonnage ou une augmentation de la taille de l’échantillon.
la source
Les différences les plus importantes que j'ai remarquées au cours de la dernière année sont les suivantes:
la source
L'apprentissage automatique semble avoir sa base dans le pragmatique - une observation pratique ou une simulation de la réalité. Même dans le cadre de statistiques, une "vérification sans scrupule de modèles et d’hypothèses" peut conduire à éliminer des méthodes utiles.
Par exemple, il y a des années, le tout premier modèle de faillite disponible dans le commerce (et fonctionnel) mis en œuvre par les agences d'évaluation du crédit a été créé par le biais d'un ancien modèle de régression linéaire visant un résultat de 0-1. Techniquement, c'est une mauvaise approche, mais dans la pratique, cela a fonctionné.
la source
Je ne suis pas d'accord avec cette question car elle suggère que l'apprentissage automatique et les statistiques sont des sciences différentes ou contradictoires ... alors que l'inverse est vrai!
L’apprentissage automatique utilise beaucoup de statistiques… un survol rapide de tout progiciel d’apprentissage automatique ou d’exploration de données révélera des techniques de regroupement telles que k-means, également utilisées dans les statistiques…. aussi une technique statistique ... même la régression logistique encore une autre.
À mon avis, la principale différence est que traditionnellement les statistiques étaient utilisées pour démontrer une théorie préconçue et que l'analyse était généralement conçue autour de cette théorie principale. Là où, avec l'exploration de données ou l'apprentissage automatique, l'approche opposée est généralement la norme, nous voulons simplement trouver le moyen de le prédire plutôt que de poser la question ou de formuler la théorie. Est-ce le résultat!
la source
J'ai parlé à ce sujet lors d'un forum différent du groupe électronique ASA Statistical Consulting. Ma réponse concernait plus particulièrement l'exploration de données, mais les deux vont de pair. Nous, les statisticiens, nous nous sommes moqués des fouilleurs de données, des informaticiens et des ingénieurs. Il est faux. Je pense que cela s’explique en partie par le fait que certaines personnes dans ces domaines ignorent la nature stochastique de leur problème. Certains statisticiens ont recours à l'exploration de données ou à la pêche aux données. Certaines personnes maltraitent et abusent des méthodes, mais les statisticiens ont pris du retard dans l’exploration de données et l’apprentissage automatique parce que nous les peignons avec un pinceau large. Certains des grands résultats statistiques proviennent de l'extérieur du domaine des statistiques. Le boosting est un exemple important. Mais des statisticiens comme Brieman, Friedman, Hastie, Tibshirani, Efron, Gelman et d'autres l'ont compris et leur leadership a amené les statisticiens à analyser des puces à ADN et d'autres problèmes d'inférence à grande échelle. Ainsi, bien que les cultures puissent ne jamais s'emboîter, la coopération et la collaboration entre informaticiens, ingénieurs et statisticiens sont désormais plus nombreuses.
la source
Le vrai problème est que cette question est erronée. Ce n’est pas un apprentissage automatique par rapport à des statistiques, c’est un apprentissage automatique contre de véritables progrès scientifiques. Si un dispositif d'apprentissage automatique donne les bonnes prédictions 90% du temps mais que je ne comprends pas "pourquoi", quelle est la contribution de l'apprentissage automatique à la science au sens large? Imaginez si les techniques d'apprentissage automatique étaient utilisées pour prédire la position des planètes: il y aurait beaucoup de gens pensant pouvoir prédire avec précision un certain nombre de choses avec leurs SVM, mais que sauraient-ils réellement du problème qu'ils ont entre les mains ? De toute évidence, la science n’avance pas vraiment par prédiction numérique, elle avance à l’aide de modèles (mental, mathématique) qui permettent de voir plus loin que les chiffres.
la source
L'apprentissage statistique (AKA Machine Learning) tire ses origines de la quête de logiciels en "apprenant à partir d'exemples". Nous aimerions que les ordinateurs effectuent de nombreuses tâches (par exemple, vision par ordinateur, reconnaissance de la parole, contrôle de robot) difficiles à programmer, mais pour lesquelles il est facile de fournir des exemples de formation. La communauté de recherche en apprentissage automatique / statistique a développé des algorithmes pour apprendre les fonctions de ces exemples. La fonction de perte était généralement liée à la tâche de performance (vision, reconnaissance de la parole). Et bien sûr, nous n'avions aucune raison de croire qu'il y avait un "modèle" simple sous-jacent à ces tâches (car sinon, nous aurions codé ce programme simple nous-mêmes). Par conséquent, l'idée de faire une inférence statistique n'avait aucun sens. L'objectif est l'exactitude prédictive et rien d'autre.
Au fil du temps, diverses forces ont commencé à conduire des machines à apprendre à apprendre aux statistiques. L'un d'entre eux était la nécessité d'intégrer les connaissances de base et d'autres contraintes au processus d'apprentissage. Cela a amené les gens à envisager des modèles probabilistes génératifs, car ceux-ci facilitent l'intégration de connaissances antérieures par le biais de la structure du modèle, ainsi que des précédents sur les paramètres et la structure du modèle. Cela a conduit le domaine à découvrir la riche littérature statistique dans ce domaine. Une autre force a été la découverte du phénomène de l'overfitting. Cela a amené la communauté ML à se renseigner sur la validation croisée et la régularisation et nous avons à nouveau découvert la riche littérature statistique sur le sujet.
Néanmoins, la plupart des travaux d’apprentissage automatique ont pour objectif de créer un système présentant certaines performances plutôt que de faire des déductions sur un processus inconnu. C'est la différence fondamentale entre ML et les statistiques.
la source
Idéalement, il faut avoir une connaissance approfondie des statistiques et de l'apprentissage automatique avant de tenter de répondre à sa question. Je suis vraiment un néophyte pour ML, alors pardonnez-moi si je le dis naïf.
J'ai une expérience limitée des SVM et des arbres de régression. Ce qui me semble manquer du point de vue des statistiques dans ML, c’est un concept bien établi d’inférence.
L'inférence en ML semble se résumer presque exclusivement à l'exactitude des prévisions, telle que mesurée par (par exemple) l'erreur de classification moyenne (MCE), ou le taux d'erreur équilibré (BER) ou similaire. ML a la très bonne habitude de diviser des données au hasard (généralement 2: 1) en un ensemble d’entraînement et un ensemble d’essais. Les modèles sont ajustés à l'aide de l'ensemble d'apprentissage et les performances (MCE, BER, etc.) sont évaluées à l'aide de l'ensemble d'essai. C’est une excellente pratique qui ne fait que lentement son chemin dans les statistiques classiques.
ML utilise également beaucoup les méthodes de rééchantillonnage (notamment la validation croisée), dont l'origine semble être la statistique.
Cependant, ML semble manquer d'un concept d'inférence entièrement développé - au-delà de la précision prédictive. Cela a deux résultats.
1) Il ne semble pas y avoir de doute sur le fait qu'une prévision (estimation de paramètre, etc.) est sujette à une erreur aléatoire et peut-être à une erreur systémique (biais). Les statisticiens admettront qu'il s'agit d'un élément inévitable de la prévision et tenteront d'estimer l'erreur. Les techniques statistiques tenteront de trouver une estimation comportant un biais minimum et une erreur aléatoire. Leurs techniques reposent généralement sur un modèle du processus de traitement des données, mais pas toujours (par exemple, Bootstrap).
2) Il ne semble pas y avoir de compréhension profonde dans ML des limites de l’application d’un modèle à de nouvelles données pour un nouvel échantillon de la même population (malgré ce que j’ai dit plus tôt à propos de l’approche des ensembles de données de test de formation). Diverses techniques statistiques, parmi lesquelles la validation croisée et les conditions de sanction appliquées aux méthodes fondées sur la vraisemblance, guident les statisticiens dans l’arbitrage entre parcimonie et complexité des modèles. Ces directives en matière de BC semblent beaucoup plus ponctuelles.
J'ai lu plusieurs articles dans ML où la validation croisée est utilisée pour optimiser l'ajustement de nombreux modèles sur un jeu de données d'apprentissage - produisant de meilleurs ajustements à mesure que la complexité du modèle augmente. Il semble peu probable que les gains minimes en précision ne valent pas la complexité supplémentaire, ce qui conduit naturellement à un sur-ajustement. Tous ces modèles optimisés sont ensuite appliqués à l'ensemble de tests afin de vérifier les performances prédictives et d'éviter les surajustements. Deux choses ont été oubliées (ci-dessus). La performance prédictive aura une composante stochastique. Deuxièmement, plusieurs tests sur un ensemble de tests entraîneront à nouveau un sur-ajustement. Le "meilleur" modèle sera choisi par le praticien du ML sans une appréciation complète du fait qu'il / elle a choisi une des nombreuses réalisations possibles de cette expérience.
Toute mes 2 cents vaut. Nous avons beaucoup à apprendre les uns des autres.
la source
Cette question peut également être étendue à la prétendue super culture de la science des données en 2015. David Donoho présente 50 ans de science des données , où il confronte différents points de vue de la statistique et de l'informatique (y compris l'apprentissage automatique), par exemple des points de vue directs. (de différentes personnes) tels que:
et assorti de considérations historiques et philosophiques, par exemple:
Cet essai a généré de nombreuses réponses et contributions au débat.
la source
Je ne sais pas vraiment quelle est la différence conceptuelle / historique entre l'apprentissage automatique et la statistique, mais je suis sûr que ce n'est pas si évident ... 10 ans après le papier de Breiman, beaucoup de gens sont à la fois ...
Quoi qu'il en soit, j'ai trouvé intéressante la question de la précision prédictive des modèles . Nous devons nous rappeler qu'il n'est pas toujours possible de mesurer la précision d'un modèle et, plus précisément, nous faisons le plus souvent implicitement des modélisations lors de la mesure des erreurs.
Par exemple, l'erreur absolue moyenne dans la prévision de la série chronologique est une moyenne dans le temps et mesure la performance d'une procédure de prévision de la médiane en supposant que la performance est, dans un certain sens, stationnaire et présente une propriété ergodique . Si (pour une raison quelconque) vous devez prévoir la température moyenne de la Terre pour les 50 prochaines années et si votre modélisation fonctionne bien au cours des 50 dernières années ... cela ne signifie pas que ...
Plus généralement, (si je me souviens bien, cela s'appelle pas de repas gratuit), vous ne pouvez rien faire sans modélisation ... De plus, je pense que la statistique essaie de trouver une réponse à la question: "est quelque chose d'important ou non" C'est une question très importante en science et on ne peut y répondre par un processus d'apprentissage. Pour déclarer John Tukey (était-il un statisticien?):
J'espère que cela t'aides !
la source
Il est clair que les deux domaines sont clairement confrontés à des problèmes similaires mais différents, de manière similaire mais non identique à des concepts analogues mais non identiques, et travaillent dans des départements, des journaux et des conférences différents.
Lorsque j'ai lu la statistique de la divergence des pouvoirs de Cressie et Read, tout s'est mis en place pour moi. Leur formule généralise les statistiques de test couramment utilisées dans une statistique qui varie d’un exposant, lambda. Il existe deux cas spéciaux, lambda = 0 et lambda = 1.
L'informatique et les statistiques s'inscrivent dans un continuum (qui pourrait inclure d'autres points). Avec une valeur de lambda, vous obtenez des statistiques communément citées dans les cercles de statistiques, et de l’autre, vous obtenez des statistiques communément citées dans des cercles de Comp Sci.
Statistiques
L'informatique:
la source
Vous utilisez une fois un algorithme sophistiqué - et vous obtenez un document de présentation / statistiques de conférence CS (wow, quelle convergence rapide!). Vous le commercialisez et le lancez 1 million de fois - et vous échouez (ouch, pourquoi ai-je toujours des résultats inutiles et non reproductibles ???) à moins que vous ne sachiez utiliser la probabilité et les statistiques pour généraliser les propriétés de l'algorithme.
la source
Il existe un domaine d'application des statistiques où se focaliser sur le modèle de génération de données a beaucoup de sens. Dans des expériences conçues, par exemple des études sur des animaux, des essais cliniques, des EOD industriels, les statisticiens peuvent avoir leur mot à dire sur le modèle de génération de données. ML a tendance à ne pas consacrer beaucoup de temps à ce problème très important, car il se concentre généralement sur un autre problème très important de prévision basé sur de «grandes» données d'observation. Cela ne veut pas dire que le niveau maximal ne peut pas être appliqué à de "grandes" expériences conçues, mais il est important de reconnaître que les statistiques possèdent une expertise particulière sur les "petits" problèmes de données découlant d'expériences à ressources limitées.
À la fin de la journée, je pense que nous pouvons tous convenir d’utiliser ce qui fonctionne le mieux pour résoudre le problème. Par exemple, nous pouvons avoir une expérience conçue qui produit des données très larges dans un but de prédiction. Les principes de conception statistique sont très utiles ici et les méthodes ML pourraient être utiles pour construire le prédicteur.
la source
Je pense que l'apprentissage machine doit être une sous-branche dans les statistiques, tout comme, à mon avis, la chimie doit être une sous-branche dans la physique.
Je pense que la chimie inspirée par la physique est assez solide (je suppose). Je ne pense pas qu'il y ait une réaction chimique dont l'équivalent n'est pas connu physiquement. Je pense que la physique a fait un travail remarquable en expliquant tout ce que nous pouvons voir au niveau de la chimie. Maintenant, le défi des physiciens semble expliquer les mystères minuscules au niveau quantique, dans des conditions extrêmes qui ne sont pas observables.
Revenons maintenant à l'apprentissage automatique. Je pense que cela aussi devrait être une sous-branche dans la statistique (à quel point la chimie est une sous-branche de la physique).
Mais il me semble que, d'une manière ou d'une autre, ni l'état actuel de l'apprentissage automatique, ni les statistiques, ne sont pas assez matures pour le réaliser parfaitement. Mais à long terme, je pense que l’un doit devenir une sous-branche de l’autre. Je pense que c'est ML qui sera sous statistiques.
Personnellement, je pense que "apprendre" et "analyser des échantillons" pour estimer / déduire des fonctions ou des prédictions sont essentiellement une question de statistiques.
la source
Du cours Coursera "Data Science dans la vie réelle" de Brian Caffo
Apprentissage machine
Analyse statistique traditionnelle
la source
En tant qu'informaticien, je suis toujours intrigué par les approches statistiques. Il me semble souvent que les modèles statistiques utilisés dans l'analyse statistique sont beaucoup trop complexes pour les données dans de nombreuses situations!
Par exemple, il existe un lien étroit entre la compression des données et les statistiques. Fondamentalement, il faut un bon modèle statistique capable de bien prédire les données, ce qui entraîne une très bonne compression des données. En informatique, lors de la compression des données, la complexité du modèle statistique et la précision de la prédiction sont toujours très importantes. Personne ne veut obtenir JAMAIS un fichier de données (contenant des données audio, des données image ou des données vidéo) s’agrandissant après la compression!
Je trouve qu'il y a des choses plus dynamiques en informatique concernant les statistiques, comme par exemple Longueur minimale de description et Vraisemblance maximum normalisé .
la source