Étant donné deux variables aléatoires et nous pouvons calculer leur "coefficient de corrélation" et former la ligne de meilleur ajustement entre ces deux variables aléatoires. Ma question est pourquoi?
1) Il existe des variables aléatoires, et qui dépendent de la pire façon possible, c'est-à-dire et malgré cela . Si l'on ne pense qu'à une régression linéaire, on serait totalement aveugle à cela.
2) Pourquoi linéaire spécifiquement? Il existe d'autres types de relations qui peuvent exister entre des variables aléatoires. Pourquoi choisir celui-là parmi tous les autres?
regression
Nicolas Bourbaki
la source
la source
Réponses:
Je conviens que toutes les relations ne sont pas linéaires en soi, mais un grand nombre de relations peuvent être approximées linéairement. Nous avons vu de nombreux cas de ce type en mathématiques, comme la série Taylor ou la série Fourier, etc. relation. La raison pour laquelle les universités ne traitent que les «modèles de régression linéaire multiple» (y compris les modèles de régression simples) est parce qu'ils sont la pierre angulaire de modèles d'un niveau plus avancé qui sont également linéaires.
Mathématiquement parlant, tant que vous pouvez prouver qu'une certaine approximation linéaire est dense dans un espace de Hilbert, alors vous pourrez utiliser l'approximation pour représenter une fonction dans l'espace.
la source
Le modèle auquel vous faites référence, la régression linéaire simple, alias "la ligne de meilleur ajustement" (je confond ici modèle et méthode d'estimation), est certes très simple (comme son nom l'indique). Pourquoi l'étudier? Je peux voir beaucoup de raisons. Dans ce qui suit, je suppose que le concept de variable aléatoire a été introduit au moins de manière informelle, car vous l'avez mentionné dans votre question.
la source
Une autre raison est la belle façon dont la régression donne un traitement unifié de techniques comme l'ANOVA. Pour moi, le traitement «élémentaire» habituel de l'ANOVA semble assez obscur, mais un traitement basé sur la régression est limpide. Je soupçonne que cela a beaucoup à voir avec la façon dont les modèles de régression expliquent certaines hypothèses selon lesquelles les traitements «élémentaires» sont tacites et non examinés. En outre, la clarté conceptuelle offerte par une telle perspective unificatrice s'accompagne d'avantages pratiques similaires lorsque vient le temps de mettre en œuvre des méthodes dans les logiciels statistiques.
Ce principe s'applique non seulement à l'ANOVA, mais aux extensions comme les splines cubiques restreintes - qui répondent notamment à votre deuxième question.
la source
La popularité de la régression linéaire est due en partie à son interprétabilité - c'est-à-dire que les personnes non techniques peuvent comprendre les coefficients des paramètres avec juste un peu d'explication. Cela ajoute beaucoup de valeur dans les situations commerciales, où les utilisateurs finaux des résultats ou des prévisions peuvent ne pas avoir une compréhension approfondie des mathématiques / statistiques.
Oui, il existe des hypothèses et des limites avec cette technique (comme avec toutes les approches), et elle peut ne pas fournir le meilleur ajustement dans de nombreux cas. Mais la régression linéaire est très robuste et peut souvent très bien fonctionner même lorsque les hypothèses sont violées.
Pour ces raisons, cela vaut vraiment la peine d'être étudié.
la source
Quelque chose pourrait ne pas être directement lié.
la source