Pourquoi étudier la régression linéaire?

13

Étant donné deux variables aléatoires et nous pouvons calculer leur "coefficient de corrélation" et former la ligne de meilleur ajustement entre ces deux variables aléatoires. Ma question est pourquoi?ξηc

1) Il existe des variables aléatoires, et qui dépendent de la pire façon possible, c'est-à-dire et malgré cela . Si l'on ne pense qu'à une régression linéaire, on serait totalement aveugle à cela.ξηξ=f(η)c=0

2) Pourquoi linéaire spécifiquement? Il existe d'autres types de relations qui peuvent exister entre des variables aléatoires. Pourquoi choisir celui-là parmi tous les autres?

Nicolas Bourbaki
la source
18
C'est un peu comme demander pourquoi vous possédez un tournevis lorsque vous rencontrez parfois des clous.
Sycorax dit Réintégrer Monica
6
Vous semblez également partir du principe qu'il y a des gens qui ne se soucient que de la régression linéaire: "Si l'on ne pense qu'à la régression linéaire", "Pourquoi choisir celui-là parmi tous les autres ". Cela me semble être un homme de paille, bien sûr, il est ridicule d'adhérer à un et un seul outil ou perspective.
Matthew Drury
7
Linéaire "spécifiquement" concerne davantage les combinaisons linéaires de fonctions de base , qui sont en fait assez générales.
GeoMatt22
2
@MatthewDrury Il n'y a pas d'homme de paille, et je ne suppose rien, je pose simplement une question en utilisant un cas pathologique extrême de la pensée pour illustrer un point faible de la méthode. Pourquoi pensez-vous que je suppose cela? La régression est un sujet très vaste pour les statisticiens. Je ne comprends pas ce qui est si spécial à ce sujet qu'il est tellement étudié.
Nicolas Bourbaki
8
Pour ceux qui s'attaquent à cette question: je pense que vous avez oublié quand vous avez appris la régression linéaire pour la première fois et qu'on vous a dit que "l'une des hypothèses est celle d'un effet linéaire". Vous vous êtes dit "mais un effet n'est jamais linéaire!". Très probablement, après de nombreuses réflexions, vous vous êtes convaincu que malgré cela, la régression linéaire était toujours un outil fondamental à la fois pour être compris et utilisé. Maintenant, réinitialisez-vous avant de terminer cette réflexion. Je pense que c'est une excellente question que chaque étudiant en statistiques devrait passer beaucoup de temps à considérer.
Cliff AB

Réponses:

10

Je conviens que toutes les relations ne sont pas linéaires en soi, mais un grand nombre de relations peuvent être approximées linéairement. Nous avons vu de nombreux cas de ce type en mathématiques, comme la série Taylor ou la série Fourier, etc. relation. La raison pour laquelle les universités ne traitent que les «modèles de régression linéaire multiple» (y compris les modèles de régression simples) est parce qu'ils sont la pierre angulaire de modèles d'un niveau plus avancé qui sont également linéaires.

Mathématiquement parlant, tant que vous pouvez prouver qu'une certaine approximation linéaire est dense dans un espace de Hilbert, alors vous pourrez utiliser l'approximation pour représenter une fonction dans l'espace.

Daeyoung Lim
la source
2
Exactement. Personne d'autre ne l'a mentionné, mais comme le dit cette réponse, en général, vous pouvez toujours appliquer une transformation à vos variables pour linéariser la relation. De plus: a) il est facile de trouver des maxima globaux pour les régressions linéaires et b) de nombreux autres modèles, y compris les réseaux de neurones, sont plus faciles à comprendre si vous connaissez des régressions logistiques basées sur des régressions linéaires.
Ricardo Cruz
7

Le modèle auquel vous faites référence, la régression linéaire simple, alias "la ligne de meilleur ajustement" (je confond ici modèle et méthode d'estimation), est certes très simple (comme son nom l'indique). Pourquoi l'étudier? Je peux voir beaucoup de raisons. Dans ce qui suit, je suppose que le concept de variable aléatoire a été introduit au moins de manière informelle, car vous l'avez mentionné dans votre question.

  1. pédagogique: bien sûr, pour vous, il est évident que des variables aléatoires de valeur réelle avec des moments de second ordre finis forment un espace de Hilbert. C'était peut-être déjà évident lorsque vous avez étudié la théorie des probabilités pour la première fois. Mais la statistique n'est pas seulement enseignée aux étudiants en mathématiques: il y a un public plus large, de la physique à l'économie, à l'informatique, aux sciences sociales, etc. Ces étudiants peuvent rencontrer des statistiques au début de leur cursus. Ils peuvent ou non avoir été expulsés vers l'algèbre linéaire, et même dans le premier cas, ils ne l'ont peut-être pas vu du point de vue plus abstrait d'un cours de mathématiques. Pour ces élèves, le concept même d'approximation d'une variable aléatoire par une autre variable aléatoire n'est pas si immédiat. Même la propriété de base du modèle linéaire simple, c'est-à-dire le fait que l'erreur et le prédicteur sont des variables aléatoires orthogonales, leur surprend parfois. Le fait que vous puissiez définir un "angle" entre des variables aléatoires (objets "méchants"! Fonctions mesurables d'un espace de probabilité à un espace mesurable) peut être évident pour vous, mais pas nécessairement pour un étudiant de première année. Ainsi, si l'étude des espaces vectoriels commence par le bon vieux plan euclidien, cela n'a-t-il pas de sens de commencer l'étude des modèles statistiques par le plus simple?
  2. ξ=β0+i=1Nβiηi+ϵξ=i=0Nβiϕ(ηi)+ϵ
  3. pratique : il existe de nombreuses applications réussies de la régression linéaire simple. La loi d'Okun en économie, la loi de Hooke , la loi d'Ohm et la loi de Charles en physique, la relation entre la pression artérielle systolique et de l' âge en médecine (je ne sais pas si elle a un nom!) Sont tous des exemples de régression linéaire simple, avec des degrés divers de précision.
DeltaIV
la source
5

Une autre raison est la belle façon dont la régression donne un traitement unifié de techniques comme l'ANOVA. Pour moi, le traitement «élémentaire» habituel de l'ANOVA semble assez obscur, mais un traitement basé sur la régression est limpide. Je soupçonne que cela a beaucoup à voir avec la façon dont les modèles de régression expliquent certaines hypothèses selon lesquelles les traitements «élémentaires» sont tacites et non examinés. En outre, la clarté conceptuelle offerte par une telle perspective unificatrice s'accompagne d'avantages pratiques similaires lorsque vient le temps de mettre en œuvre des méthodes dans les logiciels statistiques.

Ce principe s'applique non seulement à l'ANOVA, mais aux extensions comme les splines cubiques restreintes - qui répondent notamment à votre deuxième question.

David C. Norris
la source
3

La popularité de la régression linéaire est due en partie à son interprétabilité - c'est-à-dire que les personnes non techniques peuvent comprendre les coefficients des paramètres avec juste un peu d'explication. Cela ajoute beaucoup de valeur dans les situations commerciales, où les utilisateurs finaux des résultats ou des prévisions peuvent ne pas avoir une compréhension approfondie des mathématiques / statistiques.

Oui, il existe des hypothèses et des limites avec cette technique (comme avec toutes les approches), et elle peut ne pas fournir le meilleur ajustement dans de nombreux cas. Mais la régression linéaire est très robuste et peut souvent très bien fonctionner même lorsque les hypothèses sont violées.

Pour ces raisons, cela vaut vraiment la peine d'être étudié.

B.Frost
la source
-2

Quelque chose pourrait ne pas être directement lié.

xycov(x,y)=0xyyx

Zhu Jinxuan
la source