Régression linéaire, attentes conditionnelles et valeurs attendues

11

D'accord, juste un peu flou sur certaines choses, toute aide serait très appréciée. Je crois comprendre que le modèle de régression linéaire est prédit via une attente conditionnelle

E(Y|X)=b+Xb+e
  1. Supposons-nous que et Y sont des variables aléatoires avec une distribution de probabilité inconnue? j'ai cru comprendre que seuls les résidus et les coefficients bêta estimés étaient des variables aléatoires. si c'est le cas, par exemple, si Y = obésité et X = âge, si nous prenons la signification de l'espérance conditionnelle E (Y | X = 35) , quelle est la valeur attendue d'être obèse si l'individu a 35 ans dans l'échantillon, serions-nous il suffit de prendre la moyenne (moyenne arithmétique) de y pour les observations où X = 35 ? mais la valeur attendue n'implique-t-elle pas que nous devions multiplier cela par la probabilité de se produire? mais comment, dans ce sens, nous trouvons la probabilité du XYXYX = E ( Y | X = 35 ) 35 X = 35 XY=X=E(Y|X=35)35X=35X-variable variable se produisant si elle représente quelque chose comme l'âge?
  2. Si X représentait quelque chose comme le taux de change, cela serait-il classé comme aléatoire? comment diable trouveriez-vous la valeur attendue de cela sans connaître la probabilité? ou la valeur attendue serait-elle juste égale à la moyenne de la limite.
  3. Si nous ne supposons pas que les variables dépendantes sont elles-mêmes des variables aléatoires, puisque nous n'opposons pas la probabilité, que supposons-nous qu'elles le sont? juste des valeurs fixes ou quelque chose? mais si tel est le cas, comment conditionner d'abord une variable non aléatoire? que supposons-nous de la distribution des variables indépendantes?

Désolé si quelque chose n'a pas de sens ou est évident pour personne.

William Carulli
la source
1
Le coefficient de régression est une constante inconnue, pas une variable aléatoire (dans un monde fréquentiste au moins). β
Richard Hardy
qu'entendez-vous par attentes conditionnelles? E (Y | X) signifie simplement Y étant donné X, c'est-à-dire la valeur attendue de Y à X. Disons, y = 5 + x, alors vous E (Y | X = 5) est 10. Je n'ai pas obtenu votre point avec attente conditionnelle
Zamir Akimbekov
@ RichardHardy, j'ai cru comprendre que puisque B est la moyenne de la distribution d'échantillonnage des bêta, c'est une variable aléatoire caractérisée par une distribution normale. parlez-vous du modèle démographique?
William Carulli
Oui, modèle de population.
Richard Hardy
1
@WilliamCarulli Richard fait référence à la différence entre un paramètre de population et un paramètre estimé. Le paramètre estimé est en effet une variable aléatoire, mais le vrai paramètre de population (inconnu) est une valeur fixe.
Matthew Drury

Réponses:

8

Dans le modèle de probabilité sous-jacent à la régression linéaire, X et Y sont des variables aléatoires.

si c'est le cas, par exemple, si Y = obésité et X = âge, si nous prenons la signification de l'espérance conditionnelle E (Y | X = 35), quelle est la valeur attendue d'être obèse si l'individu a 35 ans dans l'échantillon, serions-nous il suffit de prendre la moyenne (moyenne arithmétique) de y pour les observations où X = 35?

C'est vrai. En général, vous ne pouvez pas vous attendre à disposer de suffisamment de données à chaque valeur spécifique de X, ou il peut être impossible de le faire si X peut prendre une plage continue de valeurs. Mais conceptuellement, c'est correct.

mais la valeur attendue n'implique-t-elle pas que nous devions multiplier cela par la probabilité de se produire?

Il s'agit de la différence entre l' espérance inconditionnelle et l' espérance conditionnelle . La relation entre eux estE [ Y X = x ]E[Y]E[YX=x]

E[Y]=xE[YX=x]Pr[X=x]

qui est la loi de l'attente totale.

mais comment, dans ce sens, trouver la probabilité que la variable de valeur X se produise si elle représente quelque chose comme l'âge?

Généralement, vous ne faites pas de régression linéaire. Puisque nous essayons de déterminer , nous n'avons pas besoin de connaître .P r [ X = x ]E[YX]Pr[X=x]

Si nous ne supposons pas que les variables indépendantes sont elles-mêmes des variables aléatoires, puisque nous n'opposons pas la probabilité, que supposons-nous qu'elles le sont? juste des valeurs fixes ou quelque chose?

Nous ne supposons que Y est une variable aléatoire. Une façon de penser à la régression linéaire est comme un modèle de probabilité pourY

YXβ+N(0,σ)

Ce qui veut dire que, une fois que l'on connaît la valeur de X, la variation aléatoire de Y se limite au sommet .N(0,σ)

Matthew Drury
la source
Merci beaucoup pour votre commentaire, cela m'a énormément aidé. à votre santé.
William Carulli
@WilliamCarulli Vous êtes les bienvenus! N'hésitez pas à poser des questions complémentaires et je ferai de mon mieux pour y répondre. Si j'ai vraiment clarifié tous vos problèmes, vous pouvez également l'accepter.
Matthew Drury
3
Ceci est un bon post. Cependant, je pense que toute réponse qui ne reconnaît pas que (a) peut être fixe ou (b) peut être une variable aléatoire (avec des hypothèses d'indépendance particulières) ne répond pas vraiment aux préoccupations exprimées dans la question. X
whuber
@MatthewDrury, Juste pour clarifier, si ma variable dépendante est par exemple le taux de change, et ma personne à charge est le taux d'intérêt intérieur, alors
William Carulli
@ MatthewDrury @ MatthewDrury, Juste pour clarifier, si ma variable dépendante est par exemple le taux de change, et ma dépendante est le taux d'intérêt intérieur, alors E (E (taux de change | taux d'intérêt)) = E (taux de change) = la moyenne de l'échantillon du taux de change? Je suppose que ce qui me déroute, c'est que je suppose toujours que les attentes sont calculées en fonction des probabilités, je ne vois pas la raison pour laquelle la régression linéaire comme une attente conditionnelle lorsque la résoudre via l'algèbre matricielle semble très différente de celle de l'attente globale.
William Carulli
3

Il y aura BEAUCOUP de réponses à cette question, mais je veux quand même en ajouter une puisque vous avez soulevé des points intéressants. Par souci de simplicité, je ne considère que le modèle linéaire simple.

   It is my understanding that the linear regression model
   is predicted via a conditional expectation E(Y|X)=b+Xb+e

L'équation fondamentale de la simple analyse de régression linéaire est la suivante : Ce sens d'équation est que la valeur moyenne de est linéaire sur les valeurs de . On peut également remarquer que la valeur attendue est également linéaire sur les paramètres et , c'est pourquoi le modèle est appelé linéaire. Cette équation fondamentale peut être réécrite comme: où est une variable aléatoire avec une moyenne nulle:Y X β 0 β 1 Y = β 0 + β 1 X + ϵ , ϵ E ( ϵ ) = 0

E(Y|X)=β0+β1X,
YXβ0β1
Y=β0+β1X+ϵ,
ϵE(ϵ)=0
Do we assume that both X and Y are Random variables with some unknown 
probability distribution? ... If we don't assume the independent variables 
are themselves random 

La variable indépendante peut être aléatoire ou fixe. La variable dépendante est TOUJOURS aléatoire.YXY

On suppose généralement que sont des nombres fixes. C'est parce que l'analyse de régression a été développée et est largement appliquée dans le contexte des expériences conçues, où les valeurs de sont précédemment fixées.X{X1,...,Xn}X

Les formules pour les estimations des moindres carrés de et sont les mêmes même si les sont supposés aléatoires, mais la distribution de ces estimations ne sera généralement pas la même par rapport à la situation avec des fixes .β 1 X Xβ0β1XX

if we take the conditional expectation E(Y|X=35) ... would we just take 
the average(arithmetic mean) of y for those observations where X=35?

Dans le modèle linéaire simple, vous pouvez construire une estimation de basée sur les estimations de et , à savoir: L' conditionnel moyen au carré a une expression égale à celle que vous avez décrite si votre modèle traite les différents poids comme des niveaux d'un seul facteur. Ces modèles sont également connus sous le nom d'ANOVA unidirectionnelle, qui est un cas particulier de modèle linéaire (pas simple).E(Y|X=x) β 0 β 1 φ (x)= β 0 +φ^(x)E(Y|X=x)β^0β^1

φ^(x)=β^0+β^1x

Mur1lo
la source
1
Certaines des remarques de cet article sont inhabituelles et pourraient être mal comprises. Tout d' abord, le modèle est appelé « linéaire » , car il est linéaire dans les paramètres , pas dans . D' autre part, les estimations et sont des variables aléatoires indépendamment de ce qui est supposé au sujet . Troisièmement, votre traitement de l'attente conditionnelle semble confondre les observations avec la véritable distribution conditionnelle. Enfin, la référence à «pas de valeurs répétées» prête à confusion car elle n'est pas pertinente. β 0 β 1 XXβ^0β^1X
whuber
1
@whuber "Premièrement, le modèle est appelé" linéaire "car il est linéaire dans les paramètres" J'expliquais la signification de l'équation, pas la signification de "linéaire" dans "modèle linéaire". "les estimations β̂ 0 et β̂ 1 sont des variables aléatoires indépendamment de ce qui est supposé à propos de X", mais la distribution de ces variables aléatoires change selon la façon dont vous traitez X.
Mur1lo
1
@whuber Je suis totalement d'accord avec vos derniers points. Je vais modifier ma réponse afin qu'elle soit plus claire dans tous les problèmes que vous avez signalés. Merci pour les commentaires.
Mur1lo