Dernièrement, j'ai dû lire plusieurs articles en économie (un domaine que je ne connais pas trop). Une chose que j'ai remarquée est que même lorsque la variable de réponse est binaire, les modèles de régression linéaire ajustés en utilisant OLS sont omniprésents. Ma question est donc:
Pourquoi la régression linéaire est-elle privilégiée par exemple la régression logistique dans le domaine économique? Est-ce simplement une pratique courante ou est-ce une procédure qui est activement préconisée (dans les journaux, par les enseignants, etc.)?
Veuillez noter que je ne demande pas pourquoi l'utilisation de la régression linéaire avec une réponse binaire peut être une mauvaise idée, ni quelles sont les méthodes alternatives. Au contraire, je demande pourquoi les gens utilisent la régression linéaire dans ce contexte parce que je connais les réponses à ces deux questions.
Réponses:
Ce billet de blog sur le blog d'économétrie de Dave Giles souligne principalement les inconvénients du modèle de probabilité linéaire (LPM).
Cependant , il inclut une courte liste de raisons pour lesquelles les chercheurs choisissent de l'utiliser:
Je ne sais pas si le LPM est tout ce qui est couramment utilisé par rapport au logit ou au probit, mais certaines des raisons ci-dessus me conviennent.
la source
J'avais des questions similaires lorsque j'ai lu des articles d'autres dossiers. Et posé beaucoup de questions à ce sujet, comme celle-ci dans la communauté Education Data Mining: Pourquoi utiliser la perte au carré sur les probabilités au lieu de la perte logistique?
Ici, je présenterai beaucoup d'opinions personnelles.
Je pense que la fonction de perte n'a pas trop d'importance dans de nombreux cas d'utilisation pratiques. Certains chercheurs peuvent en savoir plus sur la perte au carré et en construire le système, cela fonctionne toujours et résout des problèmes du monde réel. Les chercheurs peuvent ne jamais connaître de perte logistique ou de charnière et vouloir l'essayer. De plus, ils peuvent ne pas vouloir trouver le modèle mathématique optimal, mais veulent résoudre des problèmes réels que personne n'a tenté de résoudre auparavant.
Ceci est un autre exemple: si vous cochez cette réponse à ma question, ils sont tous en quelque sorte similaires. Quels sont les impacts du choix de différentes fonctions de perte dans la classification pour approcher la perte 0-1
Plus de réflexions: une recherche sur l'apprentissage automatique peut consacrer beaucoup de temps au modèle à choisir et à l'optimisation du modèle. En effet, un chercheur en apprentissage automatique peut ne pas avoir la capacité de collecter plus de données / d'obtenir plus de mesures. Et le travail d'un chercheur en apprentissage automatique consiste à améliorer les mathématiques et non à mieux résoudre un problème spécifique du monde réel.
D'un autre côté, dans le monde réel, si les données sont meilleures, elles battent tout. Ainsi, choisir un réseau de neurones ou une forêt aléatoire peut ne pas trop d'importance. Tous ces modèles sont similaires à ceux qui souhaitent utiliser l'apprentissage automatique comme outil pour résoudre des problèmes du monde réel. Une personne qui n'est pas intéressée par le développement de mathématiques ou d'outils peut consacrer plus de temps à l'utilisation de connaissances spécifiques du domaine pour améliorer le système.
Comme je l'ai mentionné dans le commentaire. Et si l'on est bâclé avec les mathématiques, il / elle sera toujours en mesure de construire quelque chose qui fonctionne.
la source