Je suis actuellement dans une classe de régression linéaire, mais je ne peux pas oublier que ce que j'apprends n'est plus pertinent ni dans les statistiques modernes ni dans l'apprentissage automatique. Pourquoi consacre-t-on autant de temps à l'inférence sur la régression linéaire simple ou multiple alors que tant de jeux de données intéressants enfreignent fréquemment de nombreuses hypothèses irréalistes de régression linéaire? Pourquoi ne pas plutôt enseigner l'inférence sur des outils plus flexibles et modernes comme la régression à l'aide de machines à vecteurs de support ou d'un processus gaussien? Bien que plus compliqué que de trouver un hyperplan dans un espace, cela ne donnerait-il pas aux étudiants une bien meilleure expérience pour s'attaquer aux problèmes modernes?
la source
Réponses:
Il est vrai que les hypothèses de régression linéaire ne sont pas réalistes. Cependant, cela est vrai pour tous les modèles statistiques. "Tous les modèles sont faux, mais certains sont utiles."
Je suppose que vous avez l'impression qu'il n'y a aucune raison d'utiliser une régression linéaire alors que vous pourriez utiliser un modèle plus complexe. Ce n'est pas vrai, car en général, les modèles plus complexes sont plus vulnérables au surajustement et utilisent plus de ressources de calcul, ce qui est important si, par exemple, vous essayez de faire des statistiques sur un processeur intégré ou un serveur Web. Les modèles plus simples sont également plus faciles à comprendre et à interpréter; en revanche, les modèles complexes d'apprentissage automatique tels que les réseaux de neurones ont tendance à se retrouver plus ou moins sous la forme de boîtes noires.
Même si la régression linéaire devient un jour pratiquement inutile (ce qui semble extrêmement improbable dans un avenir prévisible), elle restera théoriquement importante, car les modèles plus complexes tendent à s'appuyer sur la régression linéaire comme fondement. Par exemple, pour comprendre une régression logistique à effets mixtes régularisée, vous devez d'abord comprendre la régression linéaire ordinaire.
Cela ne veut pas dire que les modèles plus complexes, plus récents et plus brillants ne sont ni utiles ni importants. Beaucoup le sont. Mais les modèles plus simples sont plus largement applicables et donc plus importants, et il est clairement logique de présenter d'abord si vous allez présenter une variété de modèles. Il y a beaucoup de mauvaises analyses de données menées ces jours-ci par des gens qui s'appellent des "scientifiques des données" ou quelque chose mais qui ne connaissent même pas les éléments fondamentaux, comme ce qu'est vraiment un intervalle de confiance. Ne soyez pas une statistique!
la source
La régression linéaire en général n'est pas obsolète . Il y a encore des gens qui travaillent sur la recherche autour des méthodes liées à LASSO, et comment elles sont liées à plusieurs tests par exemple - vous pouvez google Emmanuel Candes et Malgorzata Bogdan.
Si vous posez des questions sur l'algorithme OLS en particulier, la réponse pourquoi ils enseignent cela est que la méthode est si simple qu'elle a une solution de forme fermée. C'est aussi plus simple que la régression de crête ou la version avec lasso / élastique. Vous pouvez construire votre intuition / preuves sur la solution d'une simple régression linéaire puis enrichir le modèle de contraintes supplémentaires.
la source
Je ne pense pas que la régression soit ancienne, elle pourrait être considérée comme triviale pour certains problèmes auxquels sont actuellement confrontés les scientifiques des données, mais c'est toujours l'ABC de l'analyse statistique. Comment êtes-vous censé comprendre si SVM fonctionne correctement si vous ne savez pas comment fonctionne le modèle le plus simple? L'utilisation d'un outil aussi simple VOUS apprend à examiner les données avant de plonger dans des modèles complexes et fous et à comprendre en profondeur quels outils peuvent être utilisés dans une analyse plus approfondie et lesquels ne le peuvent pas. Après avoir eu cette conversation avec un professeur et un collègue à moi, elle m'a dit que ses étudiants étaient excellents dans l'application de modèles complexes, mais qu'ils ne pouvaient pas comprendre ce qu'est l'effet de levier ou lire un simple qq-plot pour comprendre ce qui n'allait pas avec les données. Souvent, dans le modèle le plus simple et le plus lisible se trouve la beauté.
la source
La réponse courte est non . Par exemple, si vous essayez un modèle linéaire avec des données MNIST, vous obtiendrez toujours ~ 90% de la précision!
Une réponse longue serait "selon le domaine", mais le modèle linéaire est largement utilisé.
Dans certains domaines, par exemple, l'étude médicale, il est très coûteux d'obtenir un point de données. Et le travail d'analyse est toujours similaire à celui d'il y a de nombreuses années: la régression linéaire joue toujours un rôle très important.
Dans le morden machine learning, disons, la classification de texte, le modèle linéaire est toujours très important, bien qu'il existe d'autres modèles plus sophistiqués. C'est parce que le modèle linéaire est très "stable", il aura moins envie de trop ajuster les données.
Enfin, le modèle linéaire est vraiment la pierre angulaire de la plupart des autres modèles. Apprendre bien vous sera bénéfique à l'avenir.
la source
En termes pratiques, la régression linéaire est utile même si vous utilisez également un modèle plus complexe pour votre travail. La clé est que la régression linéaire est facile à comprendre et donc facile à utiliser pour comprendre conceptuellement ce qui se passe dans des modèles plus complexes.
Je peux vous offrir un exemple d'application pratique de mon vrai travail en direct en tant qu'analyste statistique. Si vous vous retrouvez dans la nature, sans surveillance, avec un grand ensemble de données, et que votre patron vous demande de faire une analyse à ce sujet, par où commencer? Eh bien, si vous n'êtes pas familier avec l'ensemble de données et que vous n'avez pas une bonne idée de la façon dont les différentes fonctionnalités devraient se relier entre elles, alors un modèle complexe comme ceux que vous avez suggérés est un mauvais endroit pour commencer à enquêter.
Au lieu de cela, le meilleur endroit pour commencer est une simple régression linéaire ancienne. Effectuez une analyse de régression, examinez les coefficients et représentez graphiquement les résidus. Une fois que vous commencez à voir ce qui se passe avec les données, vous pouvez alors prendre des décisions quant aux méthodes avancées que vous allez essayer d'appliquer.
J'affirme que si vous venez de brancher vos données dans une boîte noire de modèle avancé comme sklearn.svm (si vous êtes en Python), alors vous aurez très peu confiance que vos résultats seront significatifs.
la source