Lors d'un récent colloque, le résumé du locuteur a affirmé qu'ils utilisaient l'apprentissage automatique. Au cours de l'entretien, la seule chose liée à l'apprentissage automatique était qu'ils effectuaient une régression linéaire sur leurs données. Après avoir calculé les coefficients d'ajustement optimal dans l'espace des paramètres 5D, ils ont comparé ces coefficients d'un système aux coefficients d'ajustement optimal d'autres systèmes.
Quand l' apprentissage par régression linéaire est-il un apprentissage , par opposition à la simple recherche d'une droite de meilleur ajustement? (L'abrégé du chercheur était-il trompeur?)
Avec toute l'attention que l'apprentissage de la machine a suscité récemment, il semble important de faire de telles distinctions.
Ma question est comme celle-ci , sauf qu'elle demande la définition de «régression linéaire», tandis que la mienne demande quand la régression linéaire (qui a un grand nombre d'applications) peut être appelée à juste titre «apprentissage par la machine».
Des clarifications
Je ne demande pas quand la régression linéaire est la même chose que l'apprentissage automatique. Comme certains l'ont souligné, un seul algorithme ne constitue pas un domaine d'étude. Je demande quand il est correct de dire qu'on apprend à la machine alors que l'algorithme utilisé est simplement une régression linéaire.
Toutes les blagues mises à part (voir les commentaires), l'une des raisons pour lesquelles je vous pose cette question est qu'il est contraire à l'éthique de dire qu'on apprend automatiquement à ajouter quelques étoiles dorées à votre nom si elles ne le font pas vraiment . (De nombreux scientifiques calculent un type de ligne de meilleur ajustement pour leur travail, mais cela ne signifie pas qu'ils apprennent automatiquement.) D'un autre côté, il existe clairement des situations dans lesquelles la régression linéaire est utilisée dans le cadre de l'apprentissage automatique. Je recherche des experts pour m'aider à classer ces situations. ;-)
Réponses:
Répondez à votre question par une question: qu'est - ce que l'apprentissage automatique? Trevor Hastie, Robert Tibshirani et Jerome Friedman dans Les éléments de l’apprentissage statistique , Kevin P. Murphy dans Apprentissage automatique: une perspective probabiliste , Christopher Bishop dans Reconnaissance des modèles et apprentissage automatique , Ian Goodfellow, Yoshua Bengio et Aaron Courville dans Apprendre en profondeur et un certain nombre de d'autres "bibles" d'apprentissage automatique citent la régression linéaire comme l'un des "algorithmes" d'apprentissage automatique. L'apprentissage automatique est en partie un mot à la mode des statistiques appliquées et la distinction entre statistique et apprentissage automatique est souvent floue.
la source
La régression linéaire est certainement un algorithme qui peut être utilisé en apprentissage automatique. Mais reductio ad absurdum : quiconque possède une copie d’Excel peut s’adapter à un modèle linéaire.
Même en nous limitant aux modèles linéaires, quelques points supplémentaires doivent être pris en compte lors de la discussion sur l'apprentissage automatique:
La réponse courte, de mon point de vue, est que l’apprentissage automatique s’écarte de la modélisation statistique traditionnelle par l’application d’approches numériques et de la force brute à la sélection de modèles, en particulier dans les domaines comportant une grande quantité de données et un grand nombre de variables explicatives. , avec un accent sur le pouvoir prédictif, suivi d’une force plus brutale pour la validation du modèle.
la source
Je pense que la définition de Mitchell fournit un moyen utile d’enraciner la discussion sur l’apprentissage automatique, une sorte de premier principe. Tel que reproduit sur Wikipedia :
Ceci est utile à plusieurs égards. Premièrement, pour répondre à votre question suivante: la régression est un apprentissage automatique lorsque sa tâche est de fournir une valeur estimée à partir de fonctions prédictives dans certaines applications. Ses performances devraient s'améliorer, mesurées par l'erreur quadratique moyenne (ou absolue, etc.), à mesure que le nombre de données enregistrées augmente.
Deuxièmement, elle aide à définir l’apprentissage automatique à partir de termes connexes et son utilisation en tant que mot à la mode. Comparez la tâche ci-dessus avec une régression inférentielle standard dans laquelle un analyste interprète les coefficients des relations significatives. Ici, le programme renvoie un résumé: coefficients, valeurs p, etc. On ne peut pas dire que le programme améliore cette performance avec l'expérience; la tâche est un calcul élaboré.
Enfin, il aide à unifier les sous-domaines de l’apprentissage automatique, ceux couramment utilisés dans l’exposé introductif (supervisé, non supervisé) et d’autres comme l’apprentissage par renforcement ou l’estimation de la densité. (Chacun a une tâche, une mesure de performance et un concept d'expérience, si vous y réfléchissez suffisamment.) Il fournit, je pense, une définition plus riche qui permet de délimiter les deux domaines sans réduire inutilement ni l'un ni l'autre. Par exemple, "ML concerne la prédiction, les statistiques sur l'inférence" ne tiennent pas compte des techniques d'apprentissage automatique autres que l'apprentissage supervisé, ni des techniques statistiques axées sur la prédiction.
la source
Aucune loi ne dit qu'un ébéniste ne peut pas utiliser une scie de tonnelier.
L'apprentissage automatique et les statistiques sont des étiquettes vagues, mais si elles sont bien définies, il y a beaucoup de chevauchement entre les statistiques et l'apprentissage automatique. Et cela vaut pour les méthodes de ces deux zones ainsi que (et séparément) pour les personnes qui s’appliquent elles-mêmes avec ces deux zones. Mais pour ce qui est des mathématiques, l’apprentissage automatique se situe entièrement dans le domaine des statistiques.
La régression linéaire est une procédure mathématique très bien définie. J'ai tendance à l'associer au domaine de la statistique et à ceux qui se disent statisticiens et à ceux qui sortent d'un programme académique avec des étiquettes comme "statistiques". SVM (Support Vector Machines) est également une procédure mathématique très bien définie qui a toutes les entrées et sorties similaires et qui résout des problèmes similaires. Mais j’ai tendance à l’associer toutefois au domaine de l’apprentissage automatique et aux personnes qui s’appellent informaticiens ou qui travaillent dans le domaine de l’intelligence artificielle ou de l’apprentissage automatique, qui ont tendance à être considérées comme faisant partie de l’informatique en tant que discipline.
Mais certains statisticiens peuvent utiliser SVM et certaines personnes en IA utilisent la régression logistique. Pour être clair, il est plus probable qu'un statisticien ou un chercheur en IA développe une méthode plutôt que de la mettre réellement en pratique.
Je mets carrément toutes les méthodes d’apprentissage automatique dans le domaine des statistiques. Même des choses récentes telles que Deep Learning, RNN, CNN, LSTM, CRF. Un statisticien appliqué (biostatisticien, agronome) risque de ne pas les connaître. Ce sont toutes des méthodes de modélisation prédictives généralement étiquetées «apprentissage automatique» et rarement associées à des statistiques. Mais ce sont des modèles prédictifs, avec l’espoir qu’ils peuvent être jugés à l’aide de méthodes statistiques.
En fin de compte, la régression logistique doit être considérée comme faisant partie de l'apprentissage automatique.
Mais, oui, je vois et partage souvent votre dégoût pour la mauvaise application de ces mots. La régression linéaire est une partie fondamentale des statistiques, appelée statistique, qu'il est très étrange et trompeur d'appeler son utilisation «apprentissage automatique» .
Pour illustrer cela, la régression logistique est mathématiquement identique à un réseau Deep Learning sans nœuds cachés et la fonction logistique en tant que fonction d’activation pour le nœud de sortie unique. Je n’appellerais pas la régression logistique une méthode d’apprentissage automatique, mais elle est certainement utilisée dans des contextes d’apprentissage automatique.
C'est surtout une question d'attente.
C'est comme si on disait en lavant une fenêtre avec de l'eau que vous utilisez la chimie quantique. Eh bien oui, bien sûr, ce n’est pas faux du point de vue technique, mais vous impliquez bien plus que ce qui est nécessaire.
Mais en réalité, c’est exactement une différence de culture par rapport à une différence de substance. Les connotations d'un mot et les associations avec des groupes de personnes (LR n'est pas totalement ML!) Vs mathématiques et applications (LR est totalement ML!).
la source
L’opinion commune est que l’apprentissage automatique est composé de 4 domaines:
1) Réduction de la dimensionnalité
2) le regroupement
3) classification
4) la régression
La régression linéaire est une régression. Une fois que le modèle est formé, il peut être utilisé pour les prévisions, comme toute autre, par exemple, la régression aléatoire des forêts.
la source
La régression linéaire est une technique, tandis que l'apprentissage automatique est un objectif qui peut être atteint par différents moyens et techniques.
La performance de la régression se mesure donc à quel point elle correspond à une ligne / courbe attendue, tandis que l’apprentissage automatique se mesure à sa capacité à résoudre un problème donné, avec les moyens nécessaires.
la source
Je ferai valoir que la distinction entre apprentissage automatique et inférence statistique est claire. En bref, apprentissage automatique = prévision d’ observations futures ; statistiques = explication.
Voici un exemple tiré de mon domaine d’intérêt (médecine): lors du développement d’un médicament, nous recherchons le ou les gènes qui expliquent le mieux un état pathologique, dans le but de les cibler avec le médicament. Nous utilisons statistis pour cela. En revanche, lors de la mise au point de tests de diagnostic, par exemple pour prédire si le médicament aidera un patient, l’objectif est de trouver strictement le meilleur prédicteur du résultat futur, même si celui-ci comprend de nombreux gènes et est trop compliqué à comprendre. Nous utilisons l'apprentissage machine à cette fin. Il existe de nombreux exemples publiés [1], [2], [3], [4] montrant que la présence du médicament ciblé n’est pas un bon prédicteur du résultat du traitement, d’où la distinction.
Sur cette base, il est juste de dire que l’apprentissage automatique s’effectue lorsque l’objectif est de prédire strictement le résultat des observations futures / inédites. Si l'objectif est de comprendre un phénomène particulier, il s'agit d'inférence statistique et non d'apprentissage automatique. Comme d'autres l'ont souligné, cela est vrai quelle que soit la méthode utilisée.
Pour répondre à votre question: dans le cadre de la recherche spécifique que vous décrivez, les scientifiques comparaient les rôles des facteurs (pondérations) dans différents modèles de régression linéaire et non pas la précision des modèles. Par conséquent, il n’est pas exact d’appeler leur apprentissage par inférence.
[1] Messersmith WA, DJ Ahnen. Cibler l'EGFR dans le cancer colorectal. Le journal de médecine de la Nouvelle-Angleterre; 2008; 359; 17
[2] Pogue-Geile KL et al. Prédiction du degré d'avantage du trastuzumab adjuvant dans l'essai NSABP B-31. J Natl Cancer Inst; 2013; 105: 1782-1788.
[3] Pazdur R. Approbation de la FDA pour le vémurafénib. https://www.cancer.gov/about-cancer/treatment/drugs/fda-vemurafenib . Mis à jour le 3 juillet 2013.
[4] Ray T. Deux études de l'ASCO montrent qu'il est difficile d'utiliser la signalisation MET comme marqueur prédictif dans les essais de drogue du CBNPC. GenomeWeb, 11 juin 2014.
la source
Il peut être utile d'appeler l'apprentissage par la régression linéaire, car cela implique généralement quelques considérations importantes sur la façon dont vous avez résolu votre problème:
Cependant, si votre modèle est plus destiné à expliquer qu'à prédire, et que vous vérifiez rigoureusement les hypothèses de causalité théoriques de votre modèle, etc., alors oui, il est plutôt ridicule d'appeler cela l'apprentissage automatique.
la source
Certes, toute réponse à cette question est plus une opinion qu'un fait objectif, mais je vais essayer de présenter ma logique pour expliquer pourquoi je pense que la réponse n’est jamais . Tout expert ou enseignant en apprentissage automatique ne révèle son ignorance qu'en représentant la régression linéaire en tant que telle.
La délimitation des disciplines académiques est davantage une délimitation des communautés que des méthodes. Les disciplines scientifiques empruntent des méthodes à travers les disciplines tout le temps. En outre, au 19ème siècle (lorsque la régression linéaire a été développée) et avant cela, les disciplines scientifiques n'étaient pas aussi clairement délimitées qu'aujourd'hui. Donc, en particulier lorsque des méthodes ont été développées au 19ème siècle ou avant, nous devons être prudents pour les affecter à une discipline particulière.
Cela étant dit, on peut regarder l'histoire d'une discipline et conclure raisonnablement que des méthodes particulières "appartiennent" à une discipline ou à une autre. Personne ne dirait aujourd'hui que le calcul appartient au domaine de la physique, même si Newton, l'un des inventeurs du calcul, essayait sans aucun doute de l'appliquer à la physique. Le calcul appartient clairement à la discipline des mathématiques, pas à la physique. En effet, le calcul est une méthode mathématique générale qui peut être utilisée complètement en dehors du contexte physique.
Selon le même raisonnement, la régression linéaire appartient à la discipline de la statistique, même si elle est couramment utilisée comme simple exemple d’ajustement de données à un modèle dans le cadre d’un apprentissage automatique. Tout comme le calcul peut être utilisé en dehors du contexte physique, la régression linéaire peut (et est) utilisée en dehors du contexte de l'apprentissage automatique.
Les instructeurs en apprentissage automatique seraient avisés de souligner que la régression linéaire est utilisée depuis la fin du 19ème siècle, bien avant que la notion moderne d’apprentissage automatique n’apparaisse. Ils devraient également souligner que l'apprentissage par la machine utilise de nombreux concepts issus des probabilités et des statistiques, ainsi que d'autres disciplines (par exemple, la théorie de l'information). Cependant, ces concepts ne représentent pas en eux-mêmes un apprentissage automatique ou un "algorithme" d'apprentissage automatique.
la source
C'est la machine, stupide!
Je ne suis ni statisticien ni expert en Big Data (TM). Cependant, je dirais que la distinction essentielle est que "l'apprentissage par machine" nécessite "une machine". En particulier, cela implique de l’ agence . Le résultat ne sera pas consommé tranquillement par un humain. Le résultat sera plutôt l'entrée dans un cycle fermé dans lequel un système automatisé améliore ses performances.
Systeme ferme
Ceci est très en phase avec la réponse de Sean Pâques, mais je veux juste souligner que dans des applications commerciales, une machine est à la recherche des résultats et d' agir sur eux . L’algorithme CineMatch, qui était la cible du prix Netflix, en est un exemple classique. Un humain pourrait regarder la sortie de CineMatch et apprendre des fonctionnalités intéressantes sur les spectateurs. Mais ce n'est pas pour cela qu'il existe. CineMatch a pour objectif de fournir un mécanisme permettant aux serveurs Netflix de proposer aux clients des films qu’ils apprécieront. Les résultats du modèle statistique vont au service de recommandation, ce qui produit finalement plus d'entrées lorsque les clients évaluent les films, dont certains ont été sélectionnés sur les conseils de CineMatch.
Système ouvert
D'un autre côté, si un chercheur utilise un algorithme pour produire des résultats statistiques qui sont affichés dans une présentation à d'autres êtres humains, alors ce chercheur ne s'engage absolument pas dans l'apprentissage automatique . C’est bien évidemment pour moi un apprentissage humain . L'analyse est effectuée par une machine, mais ce n'est pas une machine qui effectue l' apprentissage en soi. À présent, il s'agit d'un "apprentissage automatique" dans la mesure où un cerveau humain n'a pas exploité toutes les entrées de l'échantillon et n'a pas généré les résultats statistiques "biologiquement". Mais j’appellerais cela des "statistiques" car c’est exactement ce que font les statisticiens depuis l’invention du domaine.
Conclusion
Ainsi, je répondrais à cette question en demandant: "Qui consomme les résultats?" Si la réponse est: "humains", alors c'est "statistiques". Si la réponse est: "logiciel", alors c'est "apprentissage automatique". Et quand nous disons que "le logiciel consomme les résultats", nous ne voulons pas dire qu'il le stocke quelque part pour le récupérer plus tard. Nous voulons dire qu'il effectue un comportement qui est déterminé par les résultats en boucle fermée .
la source
À mon avis, on peut parler d'apprentissage automatique lorsqu'une machine est programmée pour déduire les paramètres d'un modèle à l'aide de certaines données.
Si une régression linéaire est effectuée à la machine, elle est donc admissible.
Si fait à la main, alors ce n'est pas le cas.
Les définitions qui reposent sur la prédominance d'un agent (comme Excel) ou d' une amélioration itérative (comme le suggère Sean Easter ci-dessus), en essayant de les séparer des statistiques ou en fonction de ce qu'il faut faire avec les résultats s'avéreront incohérentes, à mon avis.
la source